DE69525893T2

DE69525893T2 - Bildkodierung mit Überwachung der Quantisierungsschrittweite

Info

Publication number: DE69525893T2
Application number: DE69525893T
Authority: DE
Inventors: Yuji Ando; Satoshi Mitsuhashi; Kazuhiro Suzuki
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1994-09-29
Filing date: 1995-09-27
Publication date: 2002-10-24
Anticipated expiration: 2015-09-28
Also published as: DE69525893D1; KR960013084A; JP3954656B2; US5751358A; JPH0898179A; KR100392974B1; EP0705040A3; EP1075149A3; EP0705040B1; EP0705040A2; EP1075149A2; US5883672A

Description

Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zum Kodieren eines Bildes und kann vorteilhaft zum Kodieren eines Bildes durch Datenkompression eingesetzt werden.
Fig. 1 zeigt eine früher vorgeschlagene Anordnung einer Einrichtung, die günstig zum Kodieren eines Bewegtbildes durch Datenkompression eingesetzt werden kann. Mit der Bildkodierungs-Einrichtung, die in Fig. 1 gezeigt ist, werden digitalisierte Bilddaten von Luminanz-Komponenten (Y), Farb- Komponenten (Cb) und Farb-Komponenten (Cr) einem Eingangsanschluss 1 zugeführt, wobei die Anzahlen von Pixeln gleich 352(H) · 240(V) · 30 Vollbilder, 174(H) · 120(V) · 30 Vollbilder bzw. 174(H) · 120(V) · 30 Vollbilder sind.
Die dem Eingangsanschluss 1 zugeführten Eingangs-Bilddaten werden über einen Vollbildspeicher 10, der zum vorübergehenden Speichern der Eingangs-Bilddaten und Umordnen der Bilddaten gemäß einer vorgegebenen Folge angeordnet ist, an einen Bewegungsdetektor 20 und eine Blockunterteilungs-Einheit 11 gesendet.
Die Blockunterteilungs-Einheit 11 unterteilt die Luminanz- Komponenten (Y) und die Farb-Komponenten (Cr), (Cb) jedes Vollbilds, das von dem Vollbildspeicher 10 zugeführt wird, in 8 · 8-Pixel-Blöcke, wie dies in Fig. 3 gezeigt ist. Die vier Blöcke der Luminanz-Komponenten (Y0, Y1, Y2 u. Y3), ein Farbblock (Cb) und ein Farbblock (Cr), insgesamt sechs Blöcke (Y0, Y1, Y2, Y3, Cb u. Cr), werden als ein Makroblock bezeichnet.
Die auf einem Makroblock basierenden Daten werden von der Blockunterteilungs-Einheit 11 an eine Subtraktions-Einheit 12 gesendet.
Die Subtraktions-Einheit 12 ermittelt eine Differenz zwischen Daten aus der Blockunterteilungs-Einheit 11 und prädiktiv kodierten Inter-Vollbild-Bilddaten, wie dies später erklärt wird, und sendet die sich ergebende Differenz an einen festen Kontakt eines Umschalters 13 als Daten für eine prädiktive Inter-Vollbild-Kodierung, wie dies nachfolgend erklärt wird. Die Daten aus der Blockunterteilungs-Einheit 11 werden einem anderen festen Kontakt des Umschalters 13 als Daten eines Vollbilds für eine Intra-Vollbild-Kodierung zugeführt, wie dies ebenfalls nachfolgend erklärt wird.
Die auf einem Block basierenden Daten von dem Umschalter 13 werden durch eine DCT-Schaltung 14 DCT-transformiert, von der die sich ergebenden DCT-Koeffizienten an einen Quantisierer 15 gesendet werden. Der Quantisierer 15 quantisiert das DCT- Ausgangssignal mit einer voreingestellten Quantisierungsschrittweite, und die sich ergebenden quantisierten Koeffizienten werden an eine Zickzackabtastschaltung 16 gesendet.
Die Zickzackabtastschaltung 16 ordnet die quantisierten Koeffizienten entsprechend der Zickzackabtastung um, wie dies in Fig. 4 gezeigt ist, und sendet das sich ergebende Ausgangssignal an eine Variabellängen-Kodierschaltung 17. Die Variabellängen-Kodierschaltung 17 variabellängen-kodiert die Ausgangssignaldaten der Zickzackabtastschaltung 16 und sendet das sich ergebende Ausgangssignal an einen Ausgangssignal- Pufferspeicher 18, während Information, welche die Menge von Kodes angibt, die durch die Variabellängen-Kodierung erzeugt werden, an eine Quantisierungschritt-Steuereinrichtung 19 gesendet wird. Die Quantisierungschritt-Steuereinrichtung 19 steuert die Quantisierungsschrittweite des Quantisierers 15 auf der Grundlage der Information, welche die Menge von Kodes aus der Variabellängen-Kodierschaltung 17 angibt. Über einen Ausgangssignalanschluss 2 werden Ausgangssignaldaten des Ausgangssignal-Pufferspeichers 18 als ein komprimiertes kodiertes Ausgangssignal ausgegeben.
Ein Ausgangssignal des Quantisierers 15 wird durch einen Dequantisierer 27 dequantisiert und durch eine Invers-DCT- Schaltung 26 invers-transformiert, Ein Ausgangssignal der Invers-DCT-Schaltung 26 wird an eine Additionseinheit 25 gesendet.
Der Additionseinheit 25 werden außerdem über einen Schalter 24, der für ein Vollbild eingeschaltet wird, das durch prädiktive Inter-Vollbild-Kodierung prädiktiv-kodierter Inter- Vollbild-Bilddaten erzeugt ist, von einer Bewegungskompensations-Einheit 21 zugeführt. Auf diese Weise werden die intervollbild-prädiktiv bestimmten Bilddaten auf die Ausgangssignaldaten der Invers-DCT-Schaltung 26 summiert. Die Ausgangssignaldaten der Additionseinheit 25 werden vorübergehend in einem Vollbildspeicher 22 gespeichert und von dort aus der Bewegungskompensations-Einheit 21 zugeführt.
Die Bewegungskompensations-Einheit 21 bewirkt eine Bewegungskompensation auf der Grundlage eines Bewegungsvektors, der durch den Bewegungsdetektor 20 erfasst ist, und gibt die sich ergebenden inter-vollbild-prädiktiv-kodierten Bilddaten aus.
Im folgenden wird eine veranschaulichende Folge von Operationen des in Fig. 1 gezeigten Bildkodierers im einzelnen erklärt. Der Einfachheit der Erklärung halber werden die folgenden Benennungen der jeweiligen Vollbilder benutzt.
Die Vollbilder, die in der Anzeigefolge geordnet sind, werden I0, B1, B2, P3, B4, B5, P6, B7, B8, I9, B10, B11, B12... genannt. Von diesen Vollbildern beziehen sich I, P u. B auf die Arten der Verfahren zur Datenkompression, wie dies später erklärt wird, und Nummern neben I, P u. B geben einfach die Anzeigefolge an.
Zum Komprimieren dieser Bilder sieht "MPEG 1" der MPEG (Moving Picture Expert Group), die eine Arbeitsgruppe für die internationale Standardisierung des Farb-Bewegtbild- Kodierungssystems ist, das Folgende vor.
Zuerst wird das Bild 10 durch DCT, Quantisierung und VLC komprimiert.
Als nächstes wird das Bild P3 is komprimiert. Zu diesem Zeitpunkt ist es nicht das Bild P3 selbst, sondern es sind Differenzdaten der Differenz zwischen P3 u. I0, die komprimiert werden.
Als nächstes wird das Bild B1 komprimiert. Zu diesem Zeitpunkt ist es nicht das Bild B1 selbst, sondern es sind Differenzdaten der Differenz zwischen den Bildern B1 u. I0, zwischen den Bilder B1 u. P3 oder zwischen dem Bild B1 und Mittelwerten der Bilder I0 u. P3, welche auch immer kleiner hinsichtlich des Informationsumfangs sind, die komprimiert werden.
Als nächstes wird das Bild B2 komprimiert. Zu diesem Zeitpunkt ist es nicht das Bild B2 selbst, sondern es sind Differenzdaten der Differenz zwischen den Bildern B2 u. I0, Differenzdaten zwischen den Bildern B2 u. P3 oder einer Differenz zwischen dem Bild B2 und den Mittelwerten der Bilder I0 u. P3, welche auch immer kleiner hinsichtlich des Informationsumfangs sind, die komprimiert werden.
Als nächstes wird das Bild P6 komprimiert. Zu diesem Zeitpunkt ist es nicht das Bild P6 selbst, sondern es sind Differenzdaten der Differenz zwischen den Bildern P6 u. P3, die komprimiert werden.
Das Folgende beschreibt die zuvor beschrieben Verarbeitung in der Reihenfolge, in der sie ausgeführt wird. Zu verarbeitende Bilder Gegenstücke zur Differenzbildung
Auf diese Weise ist die Kodierungsfolge I0, P3, B1, B2, P6, B4, B5, P9, B7, B8, I9, P12, B10, B11, ... und ist demzufolge gegenüber der Anzeigefolge verändert. Die komprimierten Daten, d. h. die kodierten Daten, werden in dieser kodierten Folge geordnet.
Das Vorstehende wird in weiteren Einzelheiten zusammen mit der Arbeitsweise der in Fig. 1 gezeigten Bildkodierungs-Einrichtung erklärt.
Beim Kodieren des ersten Bildes I0 werden zuerst die Daten eines Bildes, das zu komprimieren ist, durch den Vollbildspeicher 10 ausgegeben und durch die Blockunterteilungs-Einheit 11 einer Blockbildung unterzogen. Die Blockunterteilungs-Einheit 11 gibt auf einem Block basierende Daten in der Reihenfolge Y0, Y1, Y2, Y3, Cb u. Cr aus. Die auf einem Block basierenden Ausgangssignaldaten werden über den Umschalter 13, der auf die Seite des festen Kontakts gelegt ist, der DCT-Schaltung 14 zugeführt. Die DCT-Schaltung 14 transformiert die auf einem Block basierenden Daten orthogonal mit einer zweidimensionalen Diskrest-Kosinus-Transformation. Diese wandelt die Daten auf der Zeitachse in solche auf der Frequenzachse um.
Die DCT-Koeffizienten aus der DCT-Schaltung 14 werden an den Quantisierer 15 gesendet, in dem sie mit einer voreingestellten Quantisierungsschrittweite quantisiert werden. Die DCT- Koeffizienten werden dann durch die Zickzackabtastschaltung 16 in eine Zickzack-Folge umgeordnet, wie dies in Fig. 4 gezeigt ist. Wenn die DCT-Koeffizienten in einer Zickzack-Folge geordnet sind, sind die Koeffizientenwerte nach hinten zu solche höherfrequenter Komponenten, so dass die Koeffizientenwerte nach hinten zu kleiner werden. Auf diese Weise wird, wenn die Koeffizientendaten mit einem bestimmten Wert S quantisiert werden, die Wahrscheinlichkeit des Ergebnisses der Quantisierung, die Null wird, nach hinten zu höher, so dass höherfrequente Komponenten entfernt werden.
Die quantisierten Koeffizienten werden dann an die Variabellängen-Kodierschaltung (VLC-Schaltung) 17 gesendet, damit sie mit einer Huffman-Kodierung verarbeitet werden. Der sich ergebende komprimierte Bitstrom wird vorübergehend in dem Ausgangssignal-Pufferspeicher 18 gespeichert und von dort aus mit einer voreingestellten Bitrate ausgegeben. Der Ausgangssignal-Pufferspeicher 18 ist ein Pufferspeicher zum Ausgeben eines unregelmäßig erzeugten Bitstroms mit einer voreingestellten Bitrate.
Die zuvor beschriebene Kompression eines einzigen Bildes wird Intra-Vollbild-Kodierung genannt, und das sich ergebende Bild wird I-Bild genannt.
Ein Dekodierer, der den Bitstrom des I-Bildes empfängt, führt eine Operation, die das Umgekehrte der zuvor beschriebenen Operation ist, zum Vervollständigen des ersten Bildes durch.
Das zweite Bild, d. h. das Bild P3, wird auf die folgende Weise kodiert.
Das zweite Bild und folgende können als I-Bilder komprimiert werden, um einen Bitstrom zu erzeugen. Zum Verbessern des Kompressionsverhältnisses werden das zweite Bild und folgende jedoch auf die folgende Weise zum Gewinnen eines Vorteils aus der Korrelation zwischen den Inhalten der aufeinanderfolgenden Bilder komprimiert.
Zuerst findet der Bewegungsdetektor 20 in dem ersten Bild 10 ein Muster heraus, das ähnlich jedem Makroblock ist, der das zweite Bild ausmacht, und stellt das Muster in Form von Koordinaten relativer Positionen (x, y) dar, die als Bewegungsvektor bezeichnet werden.
Wenn die Korrelation zwischen dem Muster des ersten Bildes, das durch den Bewegungsvektor dargestellt ist, und dem Muster des Blocks, der augenblicklich kodiert wird, äußerst stark ist, werden die Differenzdaten äußerst klein, so dass die Menge komprimierter Daten kleiner wird, wenn der Bewegungsvektor und die Differenzdaten kodiert werden, als wenn der Block duch die Intra-Vollbild-Kodierung komprimiert wird.
Das zuvor beschriebene Kompressionsverfahren wird als prädiktive Inter-Vollbild-Kodierung bezeichnet. Die Differenzdaten sind nicht notwendigerweise kleiner, und abhängig von dem Bildmuster, d. h. den Inhalten des Bildes, wird das Kompressionsverhältnis mit der Intra-Vollbild-Kodierung größer als mit der Kodierung der Differenzdaten. In einem solchen Fall werden die Daten durch die Intra-Vollbild-Kodierung komprimiert. Welche Kodierungsart, die prädiktive Inter-Vollbild- Kodierung oder die Intra-Vollbild-Kodierung, einzusetzen ist, differiert von einem Makroblock zum nächsten.
Wenn das Vorstehende in Verbindung mit dem in Fig. 1 gezeigten Bildkodierer zu erklären ist, muss das Bild, welches das gleiche wie das Bild ist, das auf der Seite des Dekodierers erzeugt wird, jederzeit auf der Seite des Kodierers erzeugt werden, wenn die prädiktive Inter-Vollbild-Kodierung erzielt werden soll.
Zu diesem Zweck ist in dem Kodierer eine Schaltung vorgesehen, welche die gleiche wie der Dekodierer ist. Diese Schaltung, lokaler Dekodierer genannt, enthält die Invers-DCT- Schaltung 27, die Invers-DCT-Schaltung 26, die Additionseinheit 25, den Vollbildspeicher 22 und die Bewegungskompensations-Einheit 21, die in Fig. 1 gezeigt sind. Das Bild, das in dem Vollbildspeicher 22 gespeichert ist, wird lokal dekodiertes Bild oder lokal dekodierte Daten genannt. Die Daten eines Bildes, das noch Dicht komprimiert ist, werden Originalbild oder Originaldaten genannt.
Während der Kompression des ersten Bildes, d. h. des IBildes 10, wird das erste Bild, das durch den lokalen Dekodierer dekodiert ist, in dem Vollbildspeicher 22 gespeichert. Bemerkenswert ist die Tatsache, dass das Bild, das duch den lokalen Dekodierer erzeugt ist, nicht aus Vor-Konpressions- Daten besteht, sondern ein komprimiertes und dekodiertes Bild und folglich das gleiche Bild wie das Bild ist, das durch den Dekodierer zu dekodieren ist und demzufolge unter einer Verschlechterung hinsichtlich der Bildqualität leidet, die der Kompression zuzuschreiben ist.
Unter einer solchen Bedingung ist es Aufgabe des Kodierers, dass die Daten des zweiten Bildes P3 (Originaldaten) eingegeben werden. Der Bewegungsvektor muss zu dieser Zeit vorerfasst worden sein. Solche Daten hat der Bewegungsvektor von Block zu Block. Ein solcher Bewegungsvektor wird der Bewegungskompensations-Einheit 21 zugeführt. Die Bewegungskompensations-Einheit 21 gibt Daten bezüglich des lokal dekodierten partiellen Bildes, die durch den Bewegungsvektor angegeben werden (bewegungskompensierte Daten oder MC-Daten: ein Makroblock) als inter-vollbild-prädiktiv bestimmte Bilddaten aus.
Der DCT-Schaltung 14 werden auf Pixeln basierende Differenzdaten aus der Subtraktions-Einheit 12 bezüglich der Differen zwischen den zweiten Originaldaten und den bewegungskompensierten Daten (den inter-vollbild-prädiktiv bestimmten Bilddaten) eingegeben. Das Verfahren zur Kompression seit diesem Zeitpunkt ist grundsätzlich das gleiche wie dasjenige für das I-Bild. Das Bild, das durch das zuvor beschriebene Kompressionsverfahren komprimiert ist, wird als vorwärts-prädiktiv kodiertes Bild oder P-Bild bezeichnet.
Im einzelnen werden nicht notwendigerweise alle Makroblöcke des P-Bildes durch die prädiktive Inter-Vollbild-Kodierung komprimiert. Falls entschieden wird, dass die Intra-Vollbild- Kodierung eine höhere Kodierungs-Leistungsfähigkeit für einen gegeben Makroblock ergibt, wird der Makroblock durch die Intra-Vollbild-Kodierung kodiert.
Das bedeutet, dass mit dem P-Bild von einem Makroblock zum nächsten die Intra-Vollbild-Kodierung oder die prädiktive Inter-Vollbild-Kodierung für die Kompression ausgewählt wird. Der Makroblock, der durch die Intra-Vollbild-Kodierung kodiert ist, und derjenige, der durch die prädiktive Inter- Vollbild-Kodierung kodiert ist, werden als Intra-Makroblock bzw. Inter-Makroblock bezeichnet.
Mit dem zuvor genannten lokalen Dekodierer wird wie zuvor beschrieben ein Ausgangssignal des Quantisierers 15 durch den Dequantisierer 27 dequantisiert und durch die Invers-DCT- Schaltung 26 invers-orthogonal transformiert. Während des Kodierens werden die bewegungskompensierten Daten (MC-Daten) zu dem Ausgangssignal der Invers-DCT-Schaltung 26 addiert, um ein endgültiges lokal dekodiertes Bild zu erhalten.
Das dritte Bild, d. h. das Bild B1, wird auf die folgende Weise kodiert.
Zum Kodieren des dritten Bildes (B1-Bildes) wird der Bewegungsvektor für jedes der Bilder I0 u. P3 gesucht. Der Bewegungsvektor für das Bild I0 wird als Vorwärts-Vektor MVf(x, y) bezeichnet, während der Bewegungsvektor für das Bild P3 als Rückwärts-Vektor MVb(x, y) bezeichnet wird.
Für dieses dritte Bild werden die Differenzdaten in ähnlicher Weise komprimiert. Es kommt darauf an, welche Daten komprimiert werden sollten. Es ist ausreichend, wenn die Differenz in bezug auf ein Bild herangezogen wird, welche die kleinste Menge an Information durch das Heranziehen der Differenz ergibt. Es gibt vier Alternativen für das Verfahren zur Kompression, nämlich
(1) Einsatz der Differenz von Daten bezüglich des Bildes I0, die durch den Vorwärts-Vektor MVf(x, y) angegeben werden,
(2) Einsatz der Differenz von Daten bezüglich des Bildes P3, die durch den Rückwärts-Vektor MVb(x, y) angegeben werden,
(3) Einsatz der Differenz zwischen Mittelwerten von Daten bezüglich des Bildes 10, die durch den Vorwärts-Vektor MVf(x, y) angegeben werden, und von Daten bezüglich des Bildes P3, die durch den Rückwärts-Vektor MVb(x, y) angegeben werden, und
(4) Nicht-Einsatz der Differenz, d. h. Kodieren des dritten Bildes durch Intra-Vollbild-Kodierung.
Eines dieser vier Verfahren zur Kompression wird auf Makroblock-Basis ausgewählt. Mit den Alternativen (1) bis (3) werden die jeweiligen Bewegungsvektoren an die Bewegungskompensations-Einheit 21 gesendet. Die Subtraktions-Einheit 12 zieht die Differenz zwischen den Makroblock Daten und den bewegungskompensierten Daten heran. Die sich ergebende Differenz wird an die DCT-Schaltung 14 gesendet. Mit der Alternative (4) werden die Daten direkt an die DCT-Schaltung 14 gesendet.
Die zuvor beschriebene Operation wird durchführbar, weil zwei Bilder, nämlich die Bilder I0 u. P3, durch die Kodierung der ersten und zweiten Bilder in dem Vollbildspeicher 22, der zum Speichern des lokal dekodierten Bildes angeordnet ist, wiederhergestellt worden sind.
Das vierte Bild, d. h. das Bild B2, wird auf die folgende Weise kodiert.
Das Kodieren des vierten Bildes B2 wird in gleicher Weise wie das Kodieren des dritten Bildes B1 ausgeführt, jedoch mit der Ausnahme, dass "B1" in der vorhergehenden Beschreibung des Kodierungs-Verfahrens für das dritte Bild B1 nun "B2" heißt.
Das fünfte Bild, d. h. das Bild P6, wird auf die folgende Weise kodiert.
Das Kodieren des fünften Bildes P6 wird in gleicher Weise wie das Kodieren des zweiten Bildes P3 ausgeführt, mit der Ausnahme, dass "P3" u. "I0" in der vorhergehenden Beschreibung des Kodierungs-Verfahrens für das zweite Bild P3 nun "P6" bzw. "P2" heißen.
Das Kodieren des sechsten Bildes und der folgenden Bilder wird nicht beschrieben, da es sich hierbei um die Wiederholung der zuvor beschriebenen Kodierungs-Operationen handelt.
Die MPEG sieht eine Gruppe von Bildern GOP ( roup- f- ictures) vor.
Das bedeutet, dass eine Gruppe einer Vielzahl von Bildern als GOP (group-of-pictures) bezeichnet wird. Die GOP muss aus aufeinanderfolgenden Bildern in Form von kodierten Daten, d. h. komprimierten Daten, bestehen. Andererseits berücksichtigt die GOP das wahlfreie Zugreifen, und zu diesem Zweck muss das erste Bild in der GOP das I-Bild sein. Zusätzlich muss das letzte Bild in der GOP in der Anzeigefolge ein I-Bild oder ein P-Bild sein.
Fig. 5 zeigt ein Beispiel, in dem die erste GOP aus vier Bildern besteht und die zweite GOP und die folgenden aus sechs Bildern bestehen. Fig. 5A u. Fig. 5B veranschaulichen die Anzeigefolge bzw. die Folge der kodierten Daten.
Wenn in Fig. 5 die Aufmerksamkeit auf die GOP2 gerichtet wird, ist festzustellen, dass da die Bilder B4 u. B5 aus den Bildern P3 u. I6 gebildet werden, die Bilder B4 u. B5 nicht korrekt dekodiert werden können, wenn auf das Bild 16 durch wahlfreien Zugriff zugegriffen wird, da es nicht das Bild P3 gibt. Die GOP, die nicht korrekt innerhalb sich selbst dekodiert werden kann, wird als nichtgeschlossen bezeichnet.
Umgekehrt können die Bilder B4 und B5, wenn sich die Bilder B4 u. B5 nur auf das Bild 16 beziehen, bekorrekt dekodiert werden, wenn die Bilder B4 u. B5 durch wahlfreien Zugriff auf das Bild I6 zugreifen, da das Bild P3 nicht erforderlich ist. Die GOP, die vollständig aus der Information innerhalb sich selbst dekodiert werden kann, wird als geschlossen bezeichnet.
Die Datenkompression wird durch das leistungsfähigste der zuvor beschriebenen Kompressionsverfahren durchgeführt. Die Menge der kodierten Daten, die auf diese Weise erzeugt werden, hangt auch von dem Eingangsbild ab und kann nur nach der tatsächlichen Datenkompression bekannt sein.
Es ist jedoch auch notwendig, eine Steuerung zum Schaffen einer konstanten Bitrate der komprimierten Daten durchzuführen. Der Parameter zum Durchführen einer solchen Steuerung enthält den Quantisierungsschritt oder die Quantisierungsstufe (im folgenden als Q-scale bezeichnet) als die Information, welche die Menge der Kodes angibt, die dem Quantisierer 15 zugeführt werden. Je größer oder kleiner der Quantisierungsschritt ist, desto kleiner und größer ist die Menge erzeugter Bits für das gleiche Kompressionsverfahren.
Der Wert des Quantisierungsschritts wird auf die folgende Weise gesteuert.
Zum Sicherstellen einer konstanten Bitrate der komprimierten Daten ist der Ausgangssignal-Pufferspeicher 18 am Ausgang des Kodierers vorgesehen. Der Ausgangssignal-Pufferspeicher arbeitet zum Auffangen der Differenz in der Differenz in der Menge der erzeugten Daten innerhalb einer bestimmten Bereiches von Bild zu Bild.
Wenn jedoch Daten bei einer Rate erzeugt werden, die eine voreingestellte Rate übersteigt, wird die in dem Ausgangssignal-Pufferspeicher 18 zurückbleibende Datenmenge erhöht, auf welche Weise ein Datenüberlauf erzeugt wird. Umgekehrt wird die in dem Ausgangssignal-Pufferspeicher zurückbleibende Datenmenge herabgesetzt, wenn Daten bei einer Rate erzeugt werden, die niedriger als die Bitrate ist, auf welche Weise schließlich ein Datenunterlauf erzeugt wird.
Demzufolge ist der Kodierer zum Rückkoppeln der in dem Ausgangssignal-Pufferspeicher 18 zurückbleibenden Datenmenge eingerichtet, so dass die Quantisierungschritt-Steuereinrichtung 19 den Quantisierungsschritt des Quantisierers 15 in einer Weise steuert, dass wenn die in dem Ausgangssignal-Pufferspeicher 18 zurückbleibende Datenmenge kleiner wird, der Quantisierungsschritt so gesteuert wird, dass er kleiner wird, um eine unangemessen hohe Kompression zu unterlassen, und dass wenn die in dem Ausgangssignal-Pufferspeicher 18 zurückbleibende Datenmenge größer wird, der Quantisierungsschritt so gesteuert wirde, dass er größer wird, um das Kompressionsverhältnis anzuheben.
Andererseits besteht ein beträchtlicher Unterschied bezüglich des Bereiches der Menge der kodierten Daten, die durch das zuvor beschriebene Kompressionsverfahren (die zuvor beschriebene Intra-Vollbild-Kodierung und Inter-Vollbild-Kodierung) erzeugt werden.
Wenn die Datenkompression durch die Intra-Vollbild-Kodierung durchgeführt wird, wird eine große Menge von Daten erzeugt, so dass wenn die freie Kapazität des Ausgangssignal-Pufferspeichers 18 klein ist, die Quantisierungsschrittgröße erhöht werden muss. Wenn die Quantisierungsschrittgröße maximiert wird, kann gelegentlich ein Datenüberlauf in dem Ausgangssignal-Pufferspeicher 18 erzeugt werden. Wenn die erzeugten Daten in dem Pufferspeicher 18 gespeichert werden können, beeinträchtigt das intra-vollbild-kodierte Bild, das mit einem größeren Quantisierungsschritt erzeugt ist, die Bildqualität der nachfolgend erzeugten inter-vollbild-prädiktiv kodierten Bilder. In Anbetracht dessen ist eine ausreichende freie Kapazität des Ausgangssignal-Pufferspeichers 18 vor dem Fortfahren mit der Datenkompression durch Intra-Vollbild-Kodierung erforderlich.
Demzufolge ist das Kompressionsverfahren einer voreingestellten Folge vorgesehen, während die Quantisierungschritt-Steuereinrichtung 19 eine Rückkopplungssteuerung der Quantisierungsschrittgröße zum Sicherstellen einer ausreichenden freien Kapazität des Ausgangssignal-Pufferspeichers 18 vor der Intra-Vollbild-Kodierung bewirkt.
Das Vorstehende macht es möglich, die Bitrate der kodierten Daten auf einen voreingestellten Wert herabzudrücken.
Das zuvor beschriebene Verfahren hat einen Nachteil dahingehend, dass aus dem folgenden Grund keine hohe Bildqualität erzielt werden kann. Das bedeutet, dass es zum Komprimieren von Eingangsbildern, deren Informationsmenge jeden Augenblick bei einer voreingestellten Bitrate für eine hohe mittlere Bildqualität geändert wird, notwendig ist, eine größere Menge der komprimierten Daten und eine kleinere Menge der komprimierten Daten für ein Bild, das eine größere Menge von Information hat, bzw. für ein Bild, das eine kleinere Menge von Information hat, zuzulassen, um eine gleichförmige Bildqualität insofern sicherzustellen, als durch einen Ausgangssignal-Pufferspeicher eine niedrige Bitrate aufrechterhalten werden kann. Dies kann jedoch mit dem zuvor beschriebenen Verfahren in den folgenden Fällen nicht erreicht werden.
Wenn angenommen wird, dass Bilder einer kleineren Menge von Information in Aufeinanderfolge gefolgt von einem Bild auftreten, das eine größere Menge von Information hat, sollte der Quantisierungsschritt nicht unangemessen weit herabgesetzt werden, während die in dem Ausgangssignal-Pufferspeicher zurückbleibende Datenmenge bis zum Kodieren des nächsten eintreffenden Bildes mit der größeren Menge von Information klein gehalten werden sollte. Mit dem zuvor beschriebenen System zum Rückkoppeln der in dem Ausgangssignal-Pufferspeicher zurückbleibenden Datenmenge wird jedoch die zurückbleibende Datenmenge in dem Ausgangssignal-Pufferspeicher erhöht, während die Bilder mit der kleineren Menge von Information in Aufeinanderfolge auftreten.
Umgekehrt ist es, wenn das Bild mit einer kleineren Menge von Information als nächstes nach dem Bild mit einer größeren Menge von Information auftritt, nicht wahrscheinlich, dass ohne die Notwendigkeit des Kodierens der früher zugeführten Bilder mit der größeren Menge von Information mit einem größeren Quantisierungsschritt zum Herabsetzen der Datenmenge in dem Ausgangssignal-Pufferspeicher ein Überlauf erzeugt wird, weil die Menge von Information des nächstfolgenden Bildes klein ist. Mit dem zuvor beschriebenen System der Rückkopplung der Datenmenge des Ausgangssignal-Pufferspeichers wird jedoch, da die Menge von Information des nachfolgenden Bildes nicht bekannt ist, die Datenmenge in dem Ausgangssignal-Pufferspeicher so gesteuert, dass sie herabgesetzt wird, d. h. der Quantisierungsschritt wird so gesteuert, dass er herabgesetzt wird, womit folglich die Bildqualität herabgesetzt wird.
In Anbetracht dessen kann ins Auge gefasst werden, die Menge von Information des Eingangsbildes zu bewerten und den Quantisierungsschritt auf der Grundlage dieser Bewertung zu steuern.
Wenn jedoch mit dem Bildkodierer, der Mittel zum Bewerten der Menge von Information des Eingangsbildes hat, ein Eingangsbild komprimiert wird, wird die Anzahl von Bits, die Daten zuzuweisen sind, die nach dem Komprimieren der Eingangsinformation erzeugt werden, abhängig von der Menge (Schwierigkeit) des Eingangsbildes eingestellt. In einem solchen Fall muss der Quantisierungsschritt des Quantisierers hochgenau prädiktiv in Abhängigkeit von der Menge der Bitzuweisung bestimmt werden.
Wenn der prädiktiv bestimmte Quantisierungsschritt nicht richtig ist, wird die Menge der Bitzuweisung, die für die Nach-Kompressions-Daten möglich ist, nicht erreicht oder überschritten, womit folglich die Bitzuweisung zum Komprimieren der verbleibenden Bilder beeinträchtigt wird.
Demzufolge wird z. B. bei einem Vollbild mit einer verringerten Menge der Bitzuweisung der Quantisierungsschritt grob, womit folglich die Bildqualität herabgesetzt wird. Folglich dauern die Vollbilder mit gleichförmiger Bildqualität nicht lange fort, womit folglich für den Betrachter der Eindruck einer dürftigen Bildqualität entsteht. Wenn die Prädiktion auf einen größeres Maß umgestellt wird, wird im schlechtesten Fall ein Pufferspeicher-Überlauf oder -Unterlauf eintreten.
Wenn der Quantisierungsschritt abhängig von dem Verhältnis in dem Bild beim Fortgang der Kompression, der prädiktiv bestimmten Menge der Bitzuweisung und der Menge der Nach-Kompressions-Information gesteuert wird, wird der Quantisierungsschritt in dem Bild einer bedeutsamen Änderung innerhalb des Bildes unterzogen, wenn die Grund-Prädiktion des Quantisierungsschritts umgestellt wird. Da die Kompression in der Rasterabtastungs-Reihenfolge durchgeführt wird, macht irgendeine bedeutsame Änderung des Quantisierungsschritts in dem Bild streifenartige, ungleichförmige Teile des Bildes hinsichtlich der Bildqualität sichtbar, womit folglich die Bildqualität herabgesetzt wird.
Die Europäische Patentanmeldung EP-A-0 540 961 offenbart ein System und ein Verfahren zum Sehaffen eines Kodierers, der zur Benutzung mit den vorgeschlagenen ISO/IEC-MPEG-Standards einschließlich dreier zusammenarbeitender Komponenten oder Subsysteme, die arbeiten, um die ankommenden digitalen Bewegtbild-Videofolgen verschiedenartig adaptiv vorzuverarbeiten, den Bildern in einer Folge Bits zuzuweisen und adaptiv Transformations-Koeffizienten in verschiedenen Bereichen eines Bildes in einer Videofolge zu quantisieren, um auf diese Weise eine durch die Anzahl von diesem Bild zugewiesenen Bits gegebene optimale Bildqualität zu erreichen, geeignet ist.
Gemäß einer Ausführungsform der vorliegenden Erfindung ist eine Vorrichtung zum Kodieren eines Bildes vorgesehen, wie sie in Anspruch 1 angegeben ist.
Ausführungsbeispiele der vorliegenden Erfindung sehen eine Bildkodierungs-Einrichtung vor, durch die im größen und ganzen in leistungsfähiger Weise eine Bildkompression zum Verbessern der Bildqualität durchgeführt werden kann.
Vorzugsweise findet das Quantisierungsschritt-Steuermittel die Einlernparameter durch das Verfahren des kleinsten Fehlerquadrats aus dem gemittelten Wert der auf einem Makroblock basierenden Grund-Quantisierungsschritte über ein volles Bild, der Nach-Kompressions-Datenqualität eines vollen Bild und dem Bewertungswert für ein volles Bild früher. Das Quantisierungsschritt-Steuermittel kann den Einlernparameter aus der Information für die zuvor vergangenen n Sekunden für jedes der Kompressionsverfahren finden, die durch die Kompressionsverfahren-Auswahl ausgewählt werden.
Das Quantisierungsschritt-Steuermittel kann den Grund-Quantisierungsschritt auf der Grundlage einer Vielzahl von Quantisierungsschritten, die in der Vergangenheit gefrunden wurden, der Menge erzeugter Bits und der Informationsmenge prädiktiv bestimmen. Das Quantisierungsschritt-Steuermittel kann obere und untere Grenzen für den Versatz und die Neigung eines Geradensegments setzen, das für die Prädiktion benutzt wird.
In Ausführungsbeispielen der Erfindung wird, die Informationsmenge aus gespeicherten Bilddaten einer Vielzahl von Bildern bewertet, und es wird die Inter-Bild-Korrelation erfasst. Auf der Grundlage des Bewertungswerts der Informationsmenge und der Inter-Bild-Korrelationsinformation wird ein Bilddaten- Kompressionsverfahren adaptiv ausgewählt. Der Grund-Quantisierungsschritt wird aus einer voreingestellten komprimierten Datenmenge, die auf das Komprimieren von Ein-Bild-Bilddaten durch das ausgewählte Kompressionsverfahren hin gewonnen werden, und dem Bewertungswert zum Anheben der Prädiktionsgenauigkeit beim prädiktiven Bestimmen des Grund-Quantisierungsschritts prädiktiv bestimmt.
Außerdem können die Beziehung zwischen dem Quantisierungsschritt, der für die Kompression benutzt wird, der Nach-Kompressions-Datenmenge und dem Bewertungswert eingelernt und der Grund-Quantisierungsschritt in Abhängigkeit von den eingelernten Ergebnissen zum Verfolgen von Änderungen in dem Eingangsbild prädiktiv bestimmt werden.
Das Einlernen kann für jedes ausgewählte Kompressionsverfahren unter Benutzung der Information für die zuletzt vergangenen Sekunden durchgeführt werden, d. h. dass die eingelernten Ergebnisse von mehr als Sekunden vor dem gegenwärtigen Zeitpunkt nicht benutzt werden.
Der Grund-Quantisierungsschritt kann auf der Grundlage einer Vielzahl von Quantisierungsschritten, die in der Vergangenheit gefunden wurden, einer erzeugten Bitmenge und der Informationsmenge prädiktiv bestimmt werden, während obere und untere Grenzen für den Versatz und die Neigung einer Geraden, die für die Prädiktion benutzt wird, gesetzt werden können, so dass die Prädiktion des Grund-Quantisierungsschritts nicht durch das Einlernen von Daten von besonderen Eingangsbildern betroffen wird.
Im folgenden werden unter Bezugnahme auf die vorliegenden Figuren Ausführungsbeispiele der Erfindung anhand von Beispielen beschrieben.
Fig. 1 zeigt ein schematisches Blöckechaltbild, das eine Anordnung eines früher vorgeschlagenen Bildkodierers darstellt.
Fig. 2 veranschaulicht die Auflösung und den Aufbau eines Bildes.
Fig. 3 veranschaulicht einen Makroblock und Blöcke.
Fig. 4 veranschaulicht eine Zickzack-Abtastung.
Fig. 5A u. Fig. 5B veranschaulichen eine typische GOP in ihrer Anzeigefolge bzw. Kodierungsfolge.
Fig. 6 zeigt ein schematisches Blöckechaltbild, das den Aufbau eines Bildkodierers als Ausführungsbeispiel der vorliegenden Erfindung darstellt.
Fig. 7 zeigt ein Flussdiagramm zum Veranschaulichen der Arbeitsweise des in Fig. 6 gezeigten Bildkodierers.
Fig. 8 zeigt ein Flussdiagramm zum Veranschaulichen einer Schwierigkeits-Summierung.
Fig. 9 zeigt ein Flussdiagramm, das eine Regressions-Prädiktion durch Einlern-Parameter A u. B darstellt.
Fig. 10 zeigt ein Flussdiagramm, das die Korrektur und die Aktualisierung von Einlern-Parametern A u. B darstellt.
Fig. 11 veranschaulicht die Beziehung zwischen der Menge erzeugter Bits und der Grund-Quantisierungsstufe.
Fig. 6 zeigt eine schematische Anordnung eines Bildkodierers als Ausführungsbeispiel der vorliegenden Erfindung. Die Teile oder Komponenten, die ähnlich denjenigen sind, die in Fig. 1 gezeigt sind, sind mit gleichen Bezugszeichen bezeichnet, und die entsprechende Beschreibung ist aus Gründen der Klarheit fortgelassen.
In der Anordnung gemäß Fig. 6 sind die Komponenten, die der Anordnung gemäß Fig. 1 zugefügt sind, eine Bildinformations- Bewertungsschaltung 50, eine Szenenwechsel-Erfassungsschaltung 31, eine Kompressionsverfahren-Auswahlschaltung 32 und eine Bewegungsvektor-Erzeugungsschaltung 33. Ein Bewegungsdetektor 38, eine Quantisierungsschritt-Steuereinrichtung 39 und ein Vollbildspeicher 40 sind gegenüber den entsprechenden Komponenten gemäß Fig. 1 modifiziert.
Demzufolge enthält der Bildkodierer des veranschaulichten Ausführungsbeispiels einen Vollbildspeicher 40, der als Bilddaten-Speichermittel zum Speichern von Bilddaten einer Vielzahl von Eingangsbildern arbeitet, und eine Bildinformations- Bewertungsschaltung 50 zum Bewerten der Menge von Information der Eingangs-Bilddaten aus den Bilddaten, die in dem Vollbildspeicher 40 gespeichert sind. Der Bildkodierer enthält außerdem eine Szenenwechsel-Erfassungsschaltung 31, die als Inter-Bildkorrelations-Erfassungsmittel zum Erfassen einer Bildkorrelation aus der Vielzahl von Bilddaten arbeitet, die in dem Vollbildspeicher 40 gespeichert sind, und eine DCT- Schaltung 14 zum Orthogonal-Transformieren der Bilddaten durch DCT zum Erzeugen von DCT-Koeffizienten, Der Bildkodierer enthält außerdem einen Quantisierer 15 zum Quantisieren der DCT-Koeffizienten, die durch die DCT-Schaltung 14 erzeugt werden, mit einem voreingestellten Quantisierungsschritt und eine Kompressionsverfahren-Auswahlschaltung 32 zum adaptiven Auswählen der Bilddaten-Kompressionsverfahren, wie für den Bildtyp, den Makroblocktyp oder die GOP-Länge, abhängig von dem Bewertungswert der Menge von Information, der durch die Bewertungsschaltung 50 erzeugt wird, und der Inter-Bildkorrelationsinfornation aus der Szenenwechsel-Erfassungsschaltung 31 (dem Szenenwechsel-Erfassungsausgangssignal). Schließlich enthält der Bildkodierer eine Quantisierungschritt-Steuereinrichtung 39 zur Prädiktion des Grund-Quantisierungsschritt, wie er für die Quantisierung durch den Quantisierer 15 benutzt wird, aus dem zuvor genannten Bewertungswert und einer geschätzten Menge komprimierter Daten, die durch Komprimieren von Ein-Vollbild-Bilddaten durch das Kompressionsverfahren gewonnen sind, das durch die Kompressionsverfahren-Auswahlschaltung 32 ausgewählt ist.
Gemäß Fig. 6 werden Eingangs-Bilddaten, die über einen Eingangsanschluss 1 eingegeben werden, in dem Vollbildspeicher 40 gespeichert. Der Vollbildspeicher 40 unterscheidet sich von dem Vollbildspeicher 10 gemäß Fig. 8 dadurch, dass er in der Lage ist, eine voreingestellte Anzahl von Vollbildern zu speichern. Die voreingestellte Anzahl von Vollbildern ist erwünschtermaßen nicht groß, um ein unangemessenes großes Ausmaß des Vollbildspeichers 40 zu vermeiden. Der leistungsfähigste Wert der voreingestellten Anzahl, d. h. der Anzahl von Vollbildern, hängt in bedeutender Weise von dar Bitrate, der Kapazität des Ausgangssignal-Pufferspeichers 18 und der Distanz zwischen Bildern durch das Intra-Vollbild-Kodierungssystem ab, die in vielen Fällen der GOP-Länge entspricht. Der Grund dafür ist, dass irgendwelche Änderungen der Größe von komprimierten Daten, die durch den Unterschied der Kompressionsverfahren und das Kompressionsverhältnis verursacht werden, durch den Ausgangssignal-Pufferspeicher 18 aufgefangen werden können, tun eine konstante Bitrate nur unter einem Zwang zu schaffen, der durch die zuvor erwähnten Bedingungen, wie die Bitrate, die Ausgangssignal-Pufferspeicherkapazität und das Intervall zwischen intra-vollbild-kodierten Bilder, auferlegt wird.
Unterdessen wird eine Kompression durch die Intra-Vollbild- Kodierung periodisch ausgeführt. In vielen Fällen stellen diese intra-vollbild-kodierten Bilder Abgrenzungspunkte zwischen den GOPs dar. Das Intra-Vollbild-Kodierungssystem ergibt eine Nach-Kompressions-Datenmenge, die bedeutend größer als die Datenmenge ist, die mit dem anderen Kodierungssystem, d. h. der prädiktiven Inter-Vollbild-Kodierung, erzeugt wird. Demzufolge ist es vernünftig, die Menge von Information in einem Intervall der intra-vollbild-kodierten Bilder oder in einem GOP-Intervall zu prüfen, um die Datenmenge zuzuweisen.
Mit dem System des veranschaulichten Ausführungsbeispiels erfolgt die Bildkompression jedoch selbst dann duch das Intra- Vollbild-Kodierungssystem, wenn die Bildkorrelation infolge z. B. eines Szenenwechsels bedeutend herabgesetzt wird, wie dies nachfolgend erklärt wird. Wenn die Intra-Vollbild-Kodierung in einem Szenenwechselteil der Eingangs-Bilddaten zu bewirken ist, wird es schwierig, eine konstante Bitrate oder eine gleichförmige Bildqualität für ein periodisch eingefügtes intra-vollbild-kodiertes Bild, das in der Nachbarschaft des intra-vollbild-kodierten Bildes auftreten kann, welches in Reaktion auf den Szenenwechsel eingefügt wird, aufrechtzuerhalten. Demzufolge wird die Intra-Vollbild-Kodierung für das periodisch eingefügte intra-vollbild-kodierte Bild derart bedeutungslos, dass es notwendig wird, auf die Intra-Vollbild-Kodierung zu verzichten.
Demzufolge wird die Aufzeichnungskapazität des Vollbildspeichers 40, d. h. die Kapazität für die zuvor erwähnte voreingestellte Anzahl, wünschenswerterweise so ausgewählt, dass sie in Anbetracht der Tatsache, dass es Gelegenheiten gibt, bei denen ein Szenenwechsel in der Nachbarschaft des zyklisch eingefügten intra-vollbild-kodierten Bildes auftritt, ungefähr das Zweifache der Periode der zyklischen Intra-Vollbild- Kodierung beträgt.
Selbstverständlich ist die zuvor genannte voreingestellte Anzahl lediglich veranschaulichend angegeben und kann wie gewünscht geändert werden, um verschiedenen Betriebsbedingungen gerecht zu werden.
Die Bilddaten, die in dem Vollbildspeicher 40 gespeichert sind, werden an die Bildinformations-Bewertungsschaltung 50 gesendet.
Die Bildinformations-Bewertungsschaltung 50 findet grob zwei unterschiedliche Parameter.
Der erste Parameter gibt die Menge von Information zum Ermöglichen einer Angabe der Nach-Kompressions-Datenmenge im Falle der Kompression durch die Intra-Vollbild-Kodierung an. Der erste Parameter kann die Summe oder statistische Werte von DCT-Koeffizienten sein, die durch eine auf einem Block basierende DCT von Bilddaten gewonnen ist oder sind, die von dem Vollbildspeicher 40 zugeführt sind. Falls der Parameter, der auf diese Weise gefunden ist, eine unangemessene Größe hat, kann er auch die auf einem Block basierenden Summen von mittleren Fehlerquadraten der DCT-Koeffizienten sein. Auf jeden Fall findet die Bildinformations-Bewertungsschaltung 50 einen Parameter, der die Menge der Bildinformation repräsentiert und der ausreichend ist, um zu ermöglichen, dass auf die Nach-Kompressions-Datenmenge geschlossen werden kann.
Der zweite Parameter gibt die Menge der Differenzbild-Information an, die es ermöglicht, dass die Nach-Kompressions-Datenmenge im Falle der Kompression durch die prädiktive Inter- Vollbild-Kodierung prädiktiv bestimmt werden kann. Der Parameter kann beispielsweise die In-Block-Summe der Differenzwerte zischen dem Bild, das in dem Vollbildspeicher 40 gespeichert ist, und dem bewegungskompensierten Bild sein. Zum Auffinden des Parameters kann der kleinste Fehler (die Minimaldifferenz) zum Erfassen des Bewegungsvektors, der in einer gemeinsamen Bewegungsvektor-Erfassungsschaltung (dem Bewegungsdetektor 38 und der Bewegungsvektor-Erzeugungsschaltung 33) gewonnen wird, eingesetzt werden.
Als Parameter zum Schließen auf die oder zum prädiktiv Bestimmen der Nach-Kompressions-Datenmenge, d. h. der Datenmenge nach der Inter-Vollbild-Prädiktionskodierung, wird der kleinste Fehler, der nur durch die Farbinformation zum Erfassen des Bewegungsvektors gefunden ist, von neuem zusätzlich zu dem Bewegungsvektor, der von der Bewegungsvektor-Erfassungsschaltung, d. h. dem Bewegungsdetektor 38 und der Bewegungsvektor-Erzeugungsschaltung 33, aus der Luminanzinformation gewonnen ist, und der kleinste Fehler, der nur aus der Luminanzinformation zum Erfassen des Bewegungsvektors gefunden ist, eingesetzt.
In dem vorliegenden Kodierer ist ein Fehler für einen Makroblock der kleinste Fehler aus der Luminanzinformation, wie er auf diese Weise gefunden wird, und der kleinste Fehler aus der Farbdifferenzinformation, und eine Entscheidung über das Kompressionsverfahren wird durch die Kompressionsverfahren- Auswahlschaltung 32 unter Benutzung des Fehlers des Makroblocks getroffen.
Der Bewertungswert, d. h. der Parameter der Bildinformation, wie er durch die Bildinformations-Bewertungsschaltung 50 gefunden ist, wie dies zuvor beschrieben wurde, wird an die Szenenwechsel-Erfassungsschaltung 31, die im folgenden erklärt wird, die Kompressionsverfahren-Auswahlschaltung 32 und die Quantisierungsschritt-Steuereinrichtung 39 gesendet.
Die Bildinformations-Bewertungsschaltung 50 sendet außerdem die Bildinformation an die Kompressionsverfahren-Auswahlschaltung 32 zum Zählen der Anzahl von Bildern zum Entscheiden über die GOP-Länge durch die Kompressionsverfahren-Auswahlschaltung 32, wie dies später erklärt wird.
Die Szenenwechsel-Erfassungsschaltung 31 erfasst einen Szenenwechsel unter Benutzung eines Ausgangssignals der Bildinformations-Bewertungsschaltung 50, wie des zweiten Parameters.
Der Szenenwechsel wird durch die Szenenwechsel-Erfassungsschaltung 31 erfasst, um als Kriterium für eine Entscheidung darüber benutzt zu werden, welche Kodierung, die prädiktive Inter-Vollbild-Kodierung oder die Intra-Vollbild-Kodierung, einzusetzen ist. Der Grund dafür ist, dass ein Bild bei dem Szenenwechsel, das eine nur niedrige Inter-Bildkorrelation aufweist, leistungsfähiger durch die Intra-Vollbild-Kodierung als durch die prädiktive Inter-Vollbild-Kodierung komprimiert werden kann. Da die Nach-Kompressions-Datenmenge in dem Szenenwechselteil von Eingangs-Bilddaten größer ist, ist es schwierig, den Szenenwechsel vom Standpunkt der Datenmengen- Zuweisung und der Steuerung des Ausgangssignal-Pufferspeichers aus gesehen aufzufinden.
Da der Szenenwechsel dort auftritt, wo die Korrelation zwischen Bildern bedeutend herabgesetzt ist, kann er durch Auffinden der Differenz zwischen dem gegenwärtigen Bild und einem bewegungsvektorkompensierten Bild und der Differenz zwischen dem zeitlich nachfolgenden Bild und einem bewegungsvektorkompensierten Bild, Auffinden der Summen der jeweiligen Differenzwerte für die vollzähligen Bilder und Auffinden des Verhältnisses zwischen den Summen für die zwei Bilder erfasst werden.
Auf diese Weise erfasst die Szenenwechsel-Erfassungsschaltung 31 gemäß dem veranschaulichten Ausführungsbeispiel den Szenenwechsel unter Benutzung eines Ausgangssignals der Bildinformations-Bewertungsschaltung 50. Das bedeutet, dass da die Bildinformations-Bewertungsschaltung 50 die In-Block-Summen der Differenzwerte der bewegungskompensierten Bilder als den zweiten Parameter ausgibt, wie dies zuvor beschrieben wurde, die Szenenwechsel-Erfassungsschaltung 31 eine Operation zum Erfassen des Szenenwechsels unter Benutzung der In-Block- Summen der Differenzwerte durchführt.
Im folgenden wird die Kompressionsverfahren-Auswahlschaltung 32 erklärt.
Die Kompressionsverfahren-Auswahlschaltung 32 wählt das Kompressionsverfahren, d. h. die Intra-Vollbild-Kodierung oder die prädiktive Inter-Vollbild-Kodierung (P- u. B-Bilder) auf der Grundlage des Szenenerfassungs-Ausgangssignals der Szenenwechsel-Erfassungsschaltung 31, des Zählwerts der Menge von Bildinformation aus der Bildinformations-Bewertungsschaltung 50 und des zweiten Parameters (kleinsten Fehlers), wie er aus der Luminanzinformation und der Farbinformation gefunden wurde, aus.
Das bedeutet, dass die Kompressionsverfahren-Auswahlschaltung 32 die geschätzten Menge von Daten, die durch eine auf einem Makroblock basierende Intra-Vollbild-Kodierung und durch eine auf einem Makroblock basierende prädiktive Inter-Vollbild-Kodierung auf der Grundlage des Parameters, der aus der auf dem Makroblock basierenden Luminanzinformation und der auf dem Makroblock basierenden Farbinformation durch die Bildinformations-Bewertungsschaltung 50 gefunden ist, erzeugt sind, vergleicht und das Kompressionsverfahren auswählt, das einen kleineren Wert der geschätzten Datenmenge ergibt.
Es sei angemerkt, dass ein intra-vollbild-kodiertes Bild zumindest in einem Anfangsteil der GOP vorliegen muss. Da die GOP im Hinblick auf die Möglichkeit eines wahlfreien Zugriffs eine bestimmte Länge hat, treten in einem Intervall der zuvor genannten Länge intra-vollbild-kodierte Bilder periodisch auf. In dem veranschaulichten Ausführungsbeispiel tritt das intra-vollbild-kodierte Bild auch bei Szenenwechseln auf.
In Anbetracht dessen zählt die Kompressionsverfahren-Auswahlschaltung 32 die Menge der Bildinformation aus der Bildinformations-Bewertungsschaltung 50. Zusätzlich wird das Szenenerfassungs-Ausgangssignal aus der Szenenwechsel-Erfassungsschaltung 31 der Kompressionsverfahren-Auswahlschaltung 32 zugeführt. Demzufolge wählt die Kompressionsverfahren- Auswahlschaltung 32 die periodische Intra-Vollbild-Kodierung aus dem Bildzählwert aus, während sie auf eine Szenenwechselerfassung hin die Intra-Vollbild-Kodierung und andernfalls die prädiktive Inter-Vollbild-Kodierung auswählt.
Die Kompressionsverfahren-Auswahlschaltung 32 spricht auf die Auswahl der Kompressionsverfahren an, um mittels der Schalter 13 u. 24 umzuschalten, während sie die Information, die das Ergebnis der Auswahl angibt, an die Quantisierungsschritt- Steuereinrichtung 39 sendet.
Die Quantisierungsschritt-Steuereinrichtung 39 steuert die Quantisierungsschrittweite des Quantisierers 15 auf der Grundlage der Information, welche die Kodemenge aus der Variabellängen-Kodierschaltung 17 angibt. Ausgangssignaldaten des Ausgangssignal-Pufferspeichers 18 werden über einen Ausgangssignalanschluss 2 als ein kodiertes Ausgangssignal ausgegeben.
Die kodierten Ausgangssignaldaten werden durch eine Aufzeichnungseinrichtung 34 auf ein Aufzeichnungsmedium 35 geschrieben. Obwohl dies nicht gezeigt ist enthält die Aufzeichnungseinrichtung 34 eine Fehlerkorrektur-Kodehinzufügungsschaltung und eine Modulationsschaltung. Das Aufzeichnungsmedium 35 ist insbesondere eine optische Platte, die eine sog. Master-Platte für die Massenproduktion von ROM-Platten ähnlich den Compact Discs (CDs) ist. Alternativ dazu kann sie eine beschreibbare Platte sein.
Ein Ausgangssignal des Quantisierers 15 wird durch einen Dequantisierer 27 dequantisiert und durch eine Invers-DCT- Schaltung 26 invers-diskrest-kosinus-transformiert. Ein Ausgangssignal der Invers-DCT-Schaltung 26 wird an einen Addierer 25 gesendet.
Dem Addierer 25 werden außerdem inter-vollbild-prädiktiv-kodierte Bilddaten aus der Bewegungskompensations-Einheit 21 über den Schalter 24 zugeführt, der für das inter-vollbild- prädiktiv-kodierte Vollbild eingeschaltet ist, so dass eine Additionsoperation zwischen den inter-vollbild-prädiktiv-kodierten Bilddaten und den Ausgangssignaldaten der Invers-DCT- Schaltung 26 erfolgt. Ausgangssignaldaten des Addierers 25 werden vorübergehend in dem Vollbildspeicher 22 gespeichert und von dort aus der Bewegungskompensations-Einheit 21 zugeführt.
Die Bewegungskompensations-Einheit 21 bewirkt eine Bewegungskompensation auf der Grundlage des Bewegungsvektors, der durch den Bewegungsdetektor 38 erfasst und durch die Bewegungsvektor-Erzeugungsschaltung 33 erzeugt ist, und gibt die sich ergebenden inter-vollbild-prädiktiv kodierten Bilddaten aus.
Die Quantisierungsschritt-Steuereinrichtung 39 wird von der Menge der Bildinformation und dem Teil von Bilddaten, in dem die Bildkorrelation niedrig wird, wie bei einem Szenenwechsel, und von dem Bewertungswert (Parameter) aus der Bildinformations-Bewertungsschaltung 50 in Kenntnis gesetzt, während sie aus der das Ergebnis der Auswahl angebenden Information aus der Kompressionsverfahren-Auswahlschaltung 32 davon in Kenntnis gesetzt wird, welches Bild, das intra-vollbild-kodierte Bild oder das inter-vollbild-prädiktiv-kodierte Bild, das ausgewählte Bild ist.
Auf diese Weise ist es mit der Quantisierungsschritt-Steuereinrichtung 39 verglichen mit der früheren Quantisierungsschritt-Steuerung mit Rückkopplung nur der Datenmenge in dem Ausgangssignal-Pufferspeicher 18 möglich, schnellen Änderungen der Menge der Eingangsbildinformation zu folgen. Zusätzlich ist es möglich, den Quantisierungsschritt in geeignete Weise in Reaktion auf Änderungen der Menge der Bildinformation zu steuern und den Quantisierungsschritt in geeigneter Weise in Reaktion auf die Arten dir Kompressionsverfahren, d. h. die Intra-Vollbild-Kodierung/prädiktive Inter-Vollbild- Kodierung, zu steuern.
Der Verarbeitungsfluss in dem Aufbau des veranschaulichten Ausführungsbeispiels wird unter Bezugnahme auf das Flussdiagramm gemäß Fig. 7 erklärt.
In Schritt S81 werden Bilddaten, die über den Eingangsanschluss 1 eingegeben werden, sequentiell in dem Vollbildspeicher 40 gespeichert.
Da die Häufigkeit von I-Bildern und das Intervall zwischen ihnen die Bildqualität beeinträchtigen, wie dies zuvor ausgeführt wurde, ist es notwendig, vor dem Fortfahren der Kodierung die GOP zu bestimmen. Zusätzlich muss vor dem Kodieren Information bezüglich der Bilder für eine GOP gesammelt werden, um die Bitrate durch Steuern des Quantisierungsschritts zu steuern, Demzufolge wird der Vollbildspeicher 40 mit einer großen Speicherkapazität zum Sicherstellen einer ausreichenden Verzögerungszeit zum Analysieren der Bilddaten, wenn diese eingegeben sind, und zum Kodieren der Eingangs-Bilddaten eingesetzt.
Dann wird in Schritt S82 der Bewegungsvektor, der für die Kompression durch prädiktive Inter-Vollbild-Kodierung erforderlich is, durch den Bewegungsdetektor 38 erfasst bzw. durch die Bewegungsvektor-Erzeugungsschaltung 33 erzeugt. Das bedeutet, dass in dem gegenwärtigen Schritt S82 eine Bewegungserfassung (Bewegungsabschätzung) für das Kompressions-Kodieren von Bilddaten in dem Vollbildspeicher 40 als P-Bilder oder B-Bilder in Übereinstimmung mit der vorgegebenen Tabelle durchgeführt wird.
Die I-Bilder werden nicht als Bilder für die Bewegungskompensation definiert. Der Grund dafür ist, dass zu diesem Zeitpunkt nicht feststeht, welche der Bilddaten das I-Bild sein sollen, und da die I-Bilder nicht für die Bewegungskompensation benötigt werden, können iregendwelche Bilddaten später zu den I-Bildern werden.
Die Bildinformations-Bewertungsschaltung 50 liest die minimale Verzerrung oder die Summe der absoluten Differenzwerte oder die absolute Differenz AD, die zum Zeitpunkt der Bewegungserfassung eingesetzt wird, als einen Parameter zum Kodieren (zweiten Parameter) aus und speichert diese.
Unterdessen ist die Summe der absoluten Differenzwerte oder die absolute Differenz AD die Summe absoluter Werte der Differenzen zwischen Pixeln eines Makroblocks MB, der auf das Unterteilen eines Referenzseitenbildes in eine Vielzahl von 8 · 8 Pixeln und das Sammeln von 8 · 8 · 4 Pixeln der Luminanzdaten und von 8 · 8 · 2 Pixeln der Farbdaten sowie von Pixeln eines Suchseiten-Makroblocks, der mit einem Bewegungsvektor, wie er auf die Bewegungserfassung hin gefunden ist, in Scheiben zerlegt wird, gewonnen wird und durch die folgende Gleichung (1) gefunden werden kann:
blockAD = (abs(ref[i, j] - search[i, j])) (1)
wobei ref[i, j] ein Pixel in derr Referenz-MB-Position (i, j) ist und search[i, j] ein Pixel in der Such-MB-Position (i, j) ist.
Die absoluten Differenzen AD für die jeweiligen Blöcke in dem Makroblock werden summiert und als die absolute Differenz AD des Makroblocks benutzt.
Dieser Parameter wird zum Abschätzen der Menge der Information unter Beerücksichtigung der Bildkorrelation im Falle der Kompression durch die prädiktive Inter-Vollbild-Kodierung oder der Szenenwechsel-Entscheidung benutzt.
Dieser Parameter wird auch zum Entscheiden über den Makroblocktyp benutzt, wie dies später erklärt wird.
Ein Parameter SAD zum Abschätzen der Menge der Bildinformation ist die Summe der absoluten Differenzen AD in einem Bild, wie dies durch die Gleichung (2) gezeigt ist:
SAD = ΣAd (2)
Selbstverständlich kann anstelle der absoluten Differenz AD auch die minimale Verzerrung eingesetzt werden.
Dann werden in Schritt S83 in der Bildinformations-Bewertungsschaltung 50 zusätzlich zu dem Parameter, der durch die Bewegungserfassung gefunden ist, die Summe der mittleren absoluten Werte der Differenzen oder die mittlere absolute Differenz (MAD) und die Aktivität bewertet.
Die mittlere absolute Differenz (MAD), die ein Parameter zum Abschätzen der Menge der Information des I-Bildes ist, wird für jeden von 8 · 8-Blöcken durch die folgende Gleichung (3) gefunden:
blockMAD = (X(i, j) - ) (3)
wobei X(i, j) ein Pixel bei (i, j) und ein mittlerer Wert von In-Block-Pixeln ist.
Die mittleren absoluten Differenzen (MAD) für jeweilige Blöcke in dem Makroblock können auch summiert werden, wie dies durch die Gleichung (4)
MAb = ΣblockMAD (4)
gezeigt ist, um für die Makroblock-Entscheidung benutzt zu werden.
Die Makroblockwerte werden auch in einem Bild summiert, wie dies durch Gleichung (5)
SMAD = ΣMAD (5)
gezeigt ist, um als ein Parameter SMAD benutzt zu werden, der die Menge der Information des Bildes als ein I-Bild angibt.
Die Aktivität ist ein Parameter zum Quantisieren des Zustands eines Bildes durch feineres Steuern des Quantisierungsschritts in dem Bild abhängig von dem Zustand des partiellen Bildes des Makroblocks zum Aufrechterhalten der Bildqualität und zum weiteren Anheben der Kompressions-Leistungsfähigkeit.
Beispielsweise ist die Verzerrung, die durch die Quantisierung verursacht wird, in einem flachen Teil eines partiellen Bildes in einem Block, der kleinen Stufenänderungen unterzogen wird, augenscheinlicher, so dass der Quantisierungsschritt für diesen flachen Teil verringert werden sollte. Umgekehrt ist die Verzerrung in einem Block eines komplizierten Musters, der bedeutenden Stufenänderungen ausgesetzt ist, weniger augenscheinlich, und die Informationsmenge ist außerdem groß, so dass der Quantisierungsschritt erhöht werden sollte.
Demzufolge wird z. B. ein Parameter, der die Block-Flachheit repräsentiert, als die Aktivität benutzt.
Dann wird in Schritt S84 eine Szenenwechsel-Erfassung durch die Szenenwechsel-Erfassungsschaltung 31 ausgeführt. Die Szenenwechsel-Erfassung durch die Szenenwechsel-Erfassungsschaltung 31 wird unter Benutzung des Parameters AD ausgeführt, der durch die Bildinformations-Bewertungsschaltung 50 gewonnen ist. Besonders der Parameter SAD, der eine Summe des zuvor genannten Parameters AD für das volle Bild ist, wird benutzt, und der Szenenwechsel wird auf der Grundlage der Rate der Änderung des Parameters SAD erfasst.
Die Kompressionsverfahren-Auswahlschaltung 32 bestimmt in Schritt S85 die GOP-Länge und wählt in Schritt S86 das Kompressionsverfahren, d. h. den Bild-Typ, aus.
In diesem Schritt wird die GOP-Grenze (Abgrenzung) in einem Intervall einer geeigneten Anzahl von Vollbildern unter Berücksichtigung der Möglichkeit eines wahlfreien Zugriffs während des Kodierens ausgewählt. Da zumindest das erste Bild in der Kodierungsfolge der GOP das I-Bild sein muss, wird die Anzahl von Bildern gezählt, und der Bildtyp wird periodisch auf das I-Bild gesetzt.
Andererseits ergibt die Kompressions-Kodierung durch das I- Bild, wenn die Bildkorrelation zwischen benachbarten Bildern durch einen Szenenwechsel herabgesetzt wird, eine höhere Leistungsfähigkeit. Da das I-Bild jedoch in seiner Kompressions- Leistungsfähigkeit niedrig ist, wird die Bildqualität herabgesetzt, wenn die I-Bilder zum Zwecke einer niedrigen Bitrate häufig erscheinen. Demzufolge entscheidet die Kompressionsverfahren-Auswahlschaltung 32, wenn ein Szenenwechsel durch die Szenenwechsel-Erfassungsschaltung 31 erfasst wird, zum Aufrechterhalten eins geeigneten Intervalls zwischen den I-Bildern adaptiv über die GOP-Länge.
In dem nächsten Schritt S87 summiert die Kompressionsverfahren-Auswahlschaltung 32 die totalen Bewertungswerte (Schwierigkeit), was in dem Flussdiagramm gemäß Fig. 8 gezeigt ist und wie dies später erklärt wird, und entscheidet dementsprechend über den Makroblock-Typ. Das bedeutet, dass die Kompressionsverfahren-Auswahlschaltung 32 in Schritt S87 auf der Grundlage des Kompressionsverfahrens und des Makroblock-Typs über den Makroblock entscheidet.
Die mittlere absolute Differenz MAD und die absolute Differenz AD, die wie zuvor beschrieben gefunden sind, werden in Beziehung zu der Datenmenge gesetzt, die nach der Kompression durch die Intra-Vollbild-Kodierung und die prädiktive Inter- Vollbild-Kodierung gewonnen ist. Daher kann, wenn diese Parameter miteinander verglichen werden, bestimmt werden, welcher Makroblock-Typ eine kleinere Datenmenge durch die Intra-Vollbild-Kodierung oder die prädiktive Inter-Vollbild-Kodierung ergibt.
In dem nächsten Schritt S88 bewirkt die Quantisierungsschritt-Steuereinrichtung 39 die Bitzuweisung für die Ratensteuerung. Das bedeutet, dass die Quantisierungsschritt-Steuereinrichtung 39 die Bitzuweisung für jedes Bild abhängig von der Schwierigkeit bewirkt, wie sie in Schritt S87 gefunden wurde.
Die Datenmenge nach der Kompressions-Kodierung jedes Bildes wird in bedeutender Weise abhängig von der Informationsmenge und der Bildkorrelation der Originalbilddaten und dem Kodierungssystem variiert, insbesondere dann, wenn die mittlere Bildqualität aufrechtzuerhalten ist.
Die Änderung der Datenmenge nach der auf einem Bild basierenden Kompressions-Kodierung kann bis zu einem beträchtlichen Maße durch den Ausgangssignal-Pufferspeicher 18 aufgefangen werden. Im Mittel muss jedoch eine konstante Bitrate aufrechterhalten werden. Demzufolge wird für einen gegebenen Bereich die totale Nach-Kompressions-Bilddatenmenge bestimmt. Auf diese Weise wird die Nach-Kompressions-Datenmenge, d. h. die Anzahl von Bits, die für jedes Bild benutzt werden kann, für jedes Bild unter Benutzung des Bildtyps, den bereits gesetzt ist, und des früher bestimmten Parameters bezüglich der Bildinformationsmenge bestimmt.
Den Bildern, die eine kleinere Informationsmenge haben, wird eine geringere Menge von zugewiesen, und den Bildern, die eine größere Informationsmenge haben, oder den I-Bildern wird eine größer Menge von Bits zugewiesen. Durch diese Bitzuweisung kann eine konstante Bitrate aufrechterhalten werden, während eine Änderung der Bildqualität unterdrückt wird.
Beispielsweise wird in dem vorliegenden Ausführungsbeispiel eine Bitzuweisung in Übereinstimmung mit den folgenden Gleichungen (6) u. (7) durchgeführt:
Totale Bitanzahl = (Bitrate [bit/s] · Anzahl von Bildern in der GOP [Bild]/(Bildrate [Bilder/s]) Bits (6)
Verfügbare Bits = (Totale Bitanzahl · Ziel-Bildinformationsmengen-Parameter)/(Summe der Bildinformationsmengen-Parameter über die GOP hinweg) Bits (7)
Der Informationsmengen-Parameter, der in die Gleichung (7) eingesetzt wird, ist der zuvor erwähnte Parameter SMAD oder SAD multipliziert mit einem auf einem Bild basierenden Multiplikations-Koeffizienten. Der Multiplikations-Koeffizient passt die Beziehung zwischen dem Parameter und der Bildqualität von einem Bildtyp zu dem nächsten an.
Die Gesamtsumme der Bildinformationsmengen-Parameter über die GOF hinweg gemäß der Gleichung (7) wird gefunden, wie dies durch die Gleichung (8)
Gesamtsumme der Bildinformationsmenge-Parameter über die GOP hinweg = Ki · ΣDifi + Kp · ΣDifp + Kb x ΣDifb (8)
gezeigt ist, wobei Difi die Schwierigkeit des P-Bildes ist und Difb die Schwierigkeit des B-Bildes ist.
In dem nächsten Schritt S89 entscheidet die Quantisierungsschritt-Steuereinrichtung 39 über den Grund-Quantisierungsschritt auf der Grundlage der Prädiktion der Regression durch die Einlern-Parameter A u. B, wie dies in dem Flussdiagramm gemäß Fig. 9 gezeigt ist, was später erklärt wird. Das bedeutet, dass in dem gegenwärtigen Schritt S89 die Steuereinrichtung 39 den Grund-Quantisierungsschritt durch Prädiktion der Regression aus der Schwierigkeit und der Bitzuweisung für ein volles Bild (prädiktiv) bestimmt, wie dies zuvor beschrieben wurde.
Wenn der Bildtyp und der Makroblock-Typ erst einmal wie zuvor beschrieben bestimmt sind, können die Werte der mittleren absoluten Differenz MAD und der absoluten Differenz AD für ein volles Bild abhängig von dem Makroblock-Type zum Ermöglichen der Messung des Informationsmengen-Parameters, d. h. der Schwierigkeit, für ein volles Bild summiert Werden. Das bedeutet, dass der Quantisierungsschritt geschätzt werden kann, wenn der Informationsmengen-Parameter und die Nach-Quantisierungs-Datenmenge aus vergangenen Aufzeichnungen bestimmt sind.
Ausführungsbeispiele der vorliegenden Erfindung betreffen den Grund-Quantisierungsschritt-Entscheidungsmechanismus. Die Quantisierungsschritt-Steuereinrichtung 39 bestimmt den Grund-Quantisierungsschritt für ein volles Bild (Quantisierungsstufe: Q_scale) aus der zugewiesenen Bitmenge für ein volles Bild (allocated_bit) und die Schwierigkeit durch das folgende Verfahren.
Von der Beziehung, die durch die Gleichung (10)
log(allocated_bit/difficulty) = A·log(Q_scale) + B (10)
gezeigt ist, sei angenommen, dass sie erfüllt ist und dass A, B in der Gleichung (10) früher durch Einlernen (Experimente) gefunden wurden. Die Quantisierungsstufe (Q_scale) wird durch die Gleichung (11) gefunden:
Q_scale = exp(log(allocated_bit/difficulty) - B)/A) (11)
Der Quantisierungsschritt, der auf diese Weise gefunden ist, wird als der Grund-Quantisierungsschritt für das Bild benutzt.
In Schritt S90 steuert die Quantisierungsschritt-Steuereinrichtung 39 den Quantisierungsschritt in dem Bild.
Das bedeutet, dass die Quantisierungsschritt-Steuereinrichtung 39 den Quantisierungsschritt in dem Bild auf Block-Basis steuert, so dass die Bildqualität und die Kompressions-Leistungsfähigkeit so hoch wie möglich sein werden. Der auf dem Makroblock basierende Quantisierungsschritt wird zur Steuerung des Quantisierers 15 bezüglich des Quantisierungsschritts zu dem Grund-Quantisierungsschritt addiert oder von diesem subtrahiert, und zwar auf der Grundlage von Information, wie bezüglich der Aktivität oder des Makroblock-Typs.
In dem nächsten Schritt S91 kodiert die Variabellängen-Kodierschaltung 17 Bilddaten. Da alle Parameter für die Kompressions-Kodierung Wie zuvor beschrieben bestimmt worden sind, werden die Bilddaten in Übereinstimmung mit der MPEG- Regel durch Datenkompression kodiert.
In dem nächsten Schritt S92 die Menge von Bits, die auf Makroblock-Basis erzeugt sind, und die Quantisierungsstufe (Q_scale) summiert.
Schließlich werden in Schritt S93 die zuvor erwähnten Parameter aktualisiert. Das bedeutet, dass Prädiktionsproben in Übereinstimmung mit dem mittleren Wert der Quantisierungsschritte auf Makroblock-Basis, die Geamtsumme der Menge der auf Makroblock-Basis erzeugten Bits und die Schwierigkeit wie in dem Flussdiagramm gemäß Fig. 10 gezeigt aktualisiert werden, wie dies nachfolgend erklärt wird.
Die Beziehung zwischen der Menge der Bildinformation, dem Grund-Quantisierungsschritt und der Nach-Kompressions-Datenmenge hängt von dem zur Kompression zu kodierenden Bild ab. Die aktuellen Nach-Kompressions-Datenmengen der Parameter und Prädiktions-Parameter, wie sie in der Gleichung benutzt werden, welche die Beziehung ausdrückt, werden zum Verbessern der Prädiktionsgenauigkeit zum Einlernen rückgekoppelt.
Das bedeutet, dass die Einlern-Parameter A u. B zum Einlernen und zur Korrektur von einem zum nächsten Bildtyp rückgekoppelt werden.
Wenn der Mittelwert der auf dem Makroblock basierenden Quantisierungsstufe (Q-scale) als (average_Q) bezeichnet wird und die Menge erzeugter Bits nach dem Komprimieren eines vollen Bildes als (generated bit) bezeichnet wird, gilt die Beziehung, die in der Gleichung (12)
x = log(average_Q), y = log(generated bit/difficulty) (12)
gezeigt ist, so dass die Parameter A u. B durch das Verfahren des kleinsten Fehlerquadrats in Übereinstimmung mit den Gleichungen (13) u. (14)
A = (sum(x·y) - (sum(x)·sum(y))/n/(sum(x·x) - (sum(x) sum(x))/(n) (13)
B = ((sum(y)/n) - a)·(sum(x)/n) (14)
gefunden werden können, wobei die Anzahl von Proben bezeichnet.
Die Schwierigkeits-Summierung in Schritt S87 gemäß Fig. 7 wird unter Bezugnahme auf das Flussdiagramm gemäß Fig. 8 erklärt.
Wenn das Programm den Schritt S87 in Fig. 7 zum Summieren der Schwierigkeit erreicht hat, setzt es sich zu Schritt S100 und den folgenden Schritten gemäß Fig. 8 fort.
In Schritt S101 gemäß Fig. 8 wird die Schwierigkeit durch Initialisierung auf Null (difficulty = 0) gesetzt. In dem nächsten Schritt S102 wird entschieden, ob der Makroblock-Typ der intra-vollbild-kodierte Makroblock ist oder nicht (mbtype == intra?). Wenn festgestellt ist, dass der Makroblock-Typ der Intra-Makroblock ist, setzt das Programm die Schwierigkeit in Schritt S106 auf die mittlere absolute Differenz (MAD) für ein volles Bild, bevor es sich zu Schritt S110 fortsetzt. Wenn festgestellt ist, dass der Makroblock-Typ nicht der Intra-Makroblock ist, setzt sich das Programm zu Schritt S103 fort.
In Schritt S103 entscheidet das Programm, ob der Makroblock- Typ der vorwärts-prädiktiv = kodierte Makroblock des intervollbild-prädiktiv kodierten Makroblocks ist oder nicht (mbtype == forward?). Wenn in Schritt S103 festgestellt ist, dass der Makroblock ein vorwärts-prädiktiv-kodierter Makroblock ist, setzt das Programm in Schritt S107 die Schwierigkeit auf die absolute Differenz für den vorwärts-prädiktivkodierten Makroblock (difficulty += AD_for), bevor es sich zu Schritt S110 fortsetzt. Wenn in Schritt S103 festgestellt ist, dass der Makroblock kein vorwärts-prädiktiv-kodierter Makroblock ist, setzt sich das Programm zu Schritt S104 fort.
In Schritt S104 entscheidet das Programm, ob der Makroblock- Typ der rückwärts-prädiktiv-kodierte Makroblock des intervollbild-prädiktiv kodierten Makroblocks ist oder nicht (mbtype == backward?). Wenn in Schritt S104 festgestellt ist, dass der Makroblock ein rückwärts-prädiktiv-kodierter Makroblock ist, setzt das Programm in Schritt S108 die Schwierigkeit auf die absolute Differenz für den rückwärts- prädiktiv-kodierten Makroblock (difficulty += AD_bac), bevor es sich zu Schritt S110 fortsetzt. Wenn in Schritt S104 festgestellt ist, dass der Makroblock kein rückwärts-prädiktiv- kodierter Makroblock ist, setzt sich das Programm zu Schritt S105 fort.
In Schritt S105 entscheidet das Programm, ob der Makroblock- Typ der bidirektional-prädiktiv-kodierte Makroblock des inter-vollbild-prädiktdv-kodierten Makroblocks ist oder nicht (mbtype == bidirectional?). Wenn in Schritt S105 festgestellt ist, dass der Makroblock ein bidirektional-prädiktiv- kodierter Makroblock ist, setzt das Programm in Schritt S109 die Schwierigkeit auf die absolute Differenz für den bidirektional-prädiktiv-kodierten Makroblcok (difficulty += AD_bid), bevor es sich zu Schritt S110 fortsetzt. Wenn in Schritt S105 festgestellt ist, dass der Makroblock kein bidirektional- prädiktiv-kodierter Makroblock ist, setzt sich das Programm zu Schritt S110 fort.
In Schritt S110 wird entschieden, ob die Schwierigkeits-Summierung für alle Makroblöcke zum Abschluss gekommen ist oder nicht. Wenn entschieden ist, dass die Summierung nicht zum Abschluss gekommen ist, kehrt das Programm kehrt zu Schritt S102 zurück. Wenn entschieden ist, dass die Summierung zum Abschluss gekommen ist, beendet das Programm die Schwierigkeits-Summierung in Schritt S111, bevor es zu Schritt S87 zurückkehrt.
Im folgenden wird die Prädiktion der Regression durch die Parameter A u. B in Schritt S89 gemäß Fig. 7 anhand des Flussdiagramms gemäß Fig. 9 erklärt.
Wenn das Programm in Schritt S89 zu der Prädiktion der Regression durch die Einlern-Parameter A u. B gelangt ist, setzt es sich zu Schritt S120 und den folgenden Schritten gemäß Fig. 9 fort.
In Schritt S121 gemäß Fig. 9 wird eine Operation gemäß der Gleichung (11) ausgeführt. In dem nächsten Schritt S122 wird die Prädiktion der Regression durch die Einlern-Parameter A u. B, die durch die Operation gemäß der Gleichung (11) gewonnen ist, beendet, um zu Schritt S89 gemäß Fig. 7 zurückzukehren.
Im folgenden werden die Korrektur und die Aktualisierung der Einlern-Parameter A, B in Schritt S93 gemäß Fig. 7 anhand eines Flussdiagramms gemäß Fig. 10 erklärt. In dem Flussdiagramm gemäß Fig. 10 werden dem Satz von Proben neue Proben zugefügt. Die Parameter A u. B werden durch das Verfahren des kleinsten Fehlerquadrats gefunden, und es werden alte Proben aus dem Proben-Satz zu Korrektur/Aktualisierung der Einlern- Parameter für die Regressions-Prädiktion entfernt.
Wenn sich das Programm zu der Korrektur/Aktualisierung der Einlern-Parameter A u. B in Schritt S93 gemäß Fig. 7 fortgesetzt hat, setzt es sich zu einer Verarbeitung gemäß Schritt S130 und den folgenden Schritten gemäß Fig. 10 fort.
In Schritt S131 gemäß Fig. 10 werden die Einlern-Parameter A u. B durch das Verfahren des kleinsten Fehlerquadrats korrigiert/aktualisiert. Die Ein-Bild-Daten werden summiert, und die x-, y-Daten werden wie gezeigt durch die Gleichungen (15) u. (16) gesetzt:
x = log(average_Q) (15)
y = log(generated bit/difficulty) (16)
In dem nächsten Schritt S132 werden die neuen x- u. y-Daten zur Regressions-Analyse dem Satz von Proben zugefügt. In dem nächsten Schritt S133 werden die Einlern-Parameter A u. B durch das Verfahren des kleinsten Fehlerquadrats berechnet. In dem nächsten Schritt S134 werden die Einlern-Parameter A u. B auf Maximal- und Minimalwerten festgehalten, und alte x- u. y-Daten werden in Schritt S135 aus dem Satz von Proben zur Regressions-Analyse verworfen. Dann werden in Schritt S136 Korrektur/Aktualisierung der Einlern = Parameter A u. B beendet, so dass das Programm zu Schritt S93 gemäß Fig. 7 zurückkehrt.
Die Beziehung zwischen der Quantisierungsstufe (Q_scale) und der Menge erzeugter Bits, die wie zuvor beschrieben gefunden werden, ist in Fig. 11 gezeigt.
Kurz gesagt ist der Bildkodierer gemäß dem veranschaulichten Ausführungsbeispiel für die hochgenaue Prädiktion des Grund- Quantisierungsschritts aus dem Parameter, der die Informationsmenge der Eingangs-Bilddaten abschätzt (Bewertungswert) und der voreingestellten Nach-Quantisierungs-Menge komprimierter Bilddaten zum Zeitpunkt der Steuerung des Grund-Quantisierungsschritts eingerichtet.
Für die genaue Prädiktion des Grund-Quantisierungsschritts wird die Beziehung zwischen dem Parameter, der die Informationsmenge der Eingangs-Bilddaten abschätzt, dem Quantisierungsschritt, der gegenwärtig für die Kompression benutzt wird, und der Nach-Kompressions-Datenmenge eingelernt. Zur Prädiktion des Grund-Quantisierungsschritts wird die Schwierigkeit von Bild zu Bild durch Summieren der absoluten Differenz (AD) oder der mittleren absoluten Differenz (MAD) für ein volles Bild abhängig von dem bestimmten Makroblock-Typ mittels Abschätzung der Informationsmenge des Eingangsbild- Typs gefunden. Zusätzlich werden die auf Bild-Basis zugewiesene Bitmenge (allocated_bit) und die Schwierigkeit für ein volles Bild summiert, und die Bitzuweisung wird in Abhängigkeit von der Schwierigkeit über eine volle GOP hinweg durchgeführt.
Indem vorliegenden Kodierer ist angenommen, dass aus der Menge zugewiesener Bits (allocated_bit) und der Schwierigkeit die Beziehung gemäß der Gleichung (10) auf Bildtyp-Basis gilt und die Parameter A u. B durch Einlernen gefunden werden. Überdies wird die Grund-Quantisierungsstufe (Q_scale) aus der Gleichung (11) gefunden, die aus der Gleichung (11) selbst modifiziert ist. Die auf dem Makroblock basierenden Einlern- Parameter A u. B können durch das Verfahren des kleinsten Fehlerquadrats aus den auf dem Makroblock basierenden Mittelwerten der Quantisierungsschritte und der Menge erzeugter Bits nach der Kompression eines vollen Bildes gefunden werden.
Zusätzlich werden das Einlernen und die Korrektur der Einlern-Parameter A u. B aus Daten erreicht, die für jeden Bildtyp für die letzten Sekunden aufeinandergefolgt sind. Das bedeutet, dass vergangene Daten, die nicht die Daten für die letzten Sekunden sind, nicht benutzt werden. Zu diesem Zeitpunkt werden vergangene Daten eingetragen, wie dies in Fig. 11 gezeigt ist, und es werden mittlere Daten der Maximal- u. Minimalwerte der Grund-Quantisierungsstufe (Q_scale) eines Bereichs in dem Diagramm, die wahrscheinlich eine lineare Näherung gestatten, in einen Proben-Satz zur Stabilisierung einer Näherungs-Prädiktionslinie eingefügt. In den Einlern-Parametern A u. B werden obere und untere Grenzen gesetzt, so dass selbst dann eine Stabilisierte Quantisierungsschritt-Prädiktion erzielt werden kann, wenn eine große Menge außergewöhnlicher Daten eingegeben wird.
Aus dem Vorstehenden ist ersichtlich, dass mit dem vorliegenden Kodierer, da der Grund-Quantisierungsschritt prädiktiv genau bestimmt werden kann, die Menge von Bits näher an die geschätzte Nach-Kompressions-Bitmenge herangebracht werden kann, die einem vollen Bild zugewiesen wird, und zwar sogar, obwohl der Quantisierungsschritt nicht innerhalb des Bildes gesteuert wird. Demzufolge besteht kein Risiko hinsichtlich eines Überverbrauchs oder einer Redundanz der Bits in jedem Bild, so dass eine mittlere Bildqualität aufrechterhalten werden kann. Selbst obwohl die Quantisierungsschritt-Steuerung erfolgreich in dem Bild ausgeführt wird, kann eine Quantisierungsschritt-Änderung in dem Bild eintreten, wenn die Abschätzung des Grund-Quantisierungsschritts in bedeutendem Ausmaß kippt, um ein datenkomprimiertes Bild mit deutlich sichtbarer Nichtgleichförmigkeit der Bildqualität zu erzeugen. Da die Bitzuweisung in dem vorliegenden Ausführungsbeispiel in Abhängigkeit von der Schwierigkeit bei der Kompression ausgeführt wird, kann der Grund-Quantisierungsschritt mit dem Ergebnis prädiktiv genau bestimmt werden, dass die Bits in leistungsfähiger Weise benutzt werden können und folglich ein Bild mit weniger deutlich sichtbarer Nichtgleichförmigkeit in dem Bild oder von Bild zu Bild erzeugt werden kann.
Zusätzlich bewirkt der Mechanismus der genauen Prädiktion des Grund-Quantisierungsschritts in dem veranschaulichten Ausführungsbeispiel eine Korrektur und ein Einlernen sich ändernder Eingangsbilder, um den Eingangsbildern zu folgen, und der Grund-Quantisierungsschritt kann prädiktiv hochgenau bestimmt werden.
Mit dem vorliegenden Kodierer ist der Mechanismus zur genauen Prädiktion des Grund-Quantisierungsschritts nicht an vergangenen Einlernergebnissen "interessiert" und benutzt die Effekte der letzten Eingangsbilder für das Einlernen, auf welche Weise eine Prädiktion der Grund-Quantisierungsschritts für ein schnelles Verfolgen des Eingangsbilds verwirklicht werden kann.
Mit dem vorliegenden Kodierer aktualisiert der Mechanismus für die genaue Prädiktion des Grund-Quantisierungsschritts die angenäherte Prädiktionslinie aus zahlreichen experimentell erlangten Einlerndaten mit den Einlerndaten der letzten Eingangsbilder, Überdies enthält die experimentell gefundene angenäherte Prädiktionslinie Eingangsdaten, die näher an den Maximal- u. Minimalwerten der x- u. y-Daten liegen. Folglich kann der Grund-Quantisierungsschritt, sollten irgendwelche außergewöhnliche Einlerndaten des Eingangsbilds für das Verfahren des kleinsten Fehlerquadrats, das für experimentelle Effekte zugänglich ist, eingegeben werden, prädiktiv bestimmt werden, ohne dass er von eigentümlichen Einlerndaten des Eingangsbildes betroffen wird.
Mit dem Bildkodierer des veranschaulichten Ausführungsbeispiels können die Parameter A u. B endgültig für das Verwerfen irgendwelcher ungewöhnlicher Ergebnisse des Einlernens festgehalten werden, und zwar sogar obwohl die angenäherte Prädiktionslinie derart beschaffen ist, dass eine Unterdrückung von Änderungen der Parameter A u. B, wie sie aus den Werten x u, y in der Nachbarschaft der experimentell gefundenen Maximal- u. Mminmalwerte gefunden werden, nicht wirksam ist.
Mit dem vorliegenden Bildkodierer kann der Grund-Quantisierungsschritt durch Bewertung der Informationsmenge aus den gespeicherten Daten einer Vielzahl von Bildern, Erfassung der Bildkorrelation, adaptives Auswählen der Bilddaten-Kompressionsverfahren auf der Grundlage des Bewertungswerts der Informationsmenge und der Information bezüglich der Inter- Bildkorrelation und Prädiktion des Grund-Quantisierungsschritts aus dem Bewertungswert und der voreingestellten komprimierten Datenmenge, die durch Komprimieren der Ein- Bild-Bilddaten durch das ausgewählte Kompressionsverfahren gewonnen ist, prädiktiv genau bestimmt werden Die geschätzte Nach-Kompressions-Bitmenge, die einem vollen Bild zugewiesen wird, kann ohne besondere Steuerung des Quantisierungsschritts in einem Bild durch Näherung ermittelt werden, so dass ein auf dem Bild basierender Bit-Überverbrauch oder eine Redundanz weniger wahrscheinlich eintritt und folglich die mittlere Bildqualität aufrechterhalten werden kann. Das Ergebnis ist, dass eine Bild Datenkompression mit hoher Leistungsfähigkeit erzielt werden kann, um dadurch die Bildqualität im größen und ganzen zu verbessern.
Mit dem Bildkodierer des veranschaulichten Ausführungsbeispiels wird die Beziehung zwischen dem Quantisierungsschritt, der gegenwärtig für die Kompression eingesetzt wird, der Nach-Kompressions-Datenmenge und den bewerteten Werten eingelernt, und die Grund-Quantisierungsschritt-Prädiktion wird in Abhängigkeit von den eingelernten Ergebnissen ausgeführt, so dass sich ändernden Eingangsbildern gefolgt werden kann, während der Grund-Quantisierungsschritt prädiktiv genau bestimmt werden kann.
Zusätzlich kann die Grund-Quantisierungsschritt-Prädiktion, da die Information, die während der vergangenen Sekunden erzeugt ist, zum Einlernen für jedes der Kompressionsverfahren, wie es durch die Kompressionsverfahren-Auswahlschaltung ausgewählt ist, benutzt wird, so durchgeführt werden, dass dem Eingangsbild schnell gefolgt werden kann, ohne dass es von den vergangenen Ergebnissen des Einlernens betroffen wird.
Ferner kann die Prädiktion, da die Prädiktion des Grund- Quantisierungsschritts mit dem vorliegenden Kodierer durch Einsatz der Information durchgeführt wird, die während der vergangenen Sekunden für jedes der Kompressionsverfahren erlangt ist, wie es durch die Kompressionsverfahren-Auswahlschaltung ausgewählt ist, erzielt werden, ohne dass sie von Einlerndaten aus eigentümlichen Eingangs-Bilddaten betroffen wird. Da obere und untere Grenzen für die Neigung und den Versatz der angenäherten geraden Prädiktionslinie gesetzt werden, können die Parameter endgültig ohne Speicherung ungewöhnlicher Einlernergebnisse festgehalten werden, wenn die Prädiktionslinie über den Bereich der Änderungsunterdrückung in den Einlern-Parametern hinausgeht, was eine genaue Prädiktion des Grund-Quantisierungsschritts ermöglicht.

Claims

1. Vorrichtung zum Kodieren eines Bildes, die umfasst:

ein Bilddaten-Speichermittel (40) zum Speichern von Bilddaten einer Vielzahl von Eingangsbildern, um gespeicherte Bilddaten bereitzustellen,

ein Bildinformations-Bewertungsmittel (50) zum Bewerten der Informationsmenge der gespeicherten Bilddaten, um einen Bewertungswert der Informationsmenge zu erzeugen,

ein Zwischenbildkorrelations-Erfassungsmittel (38) zum Erfassen der Korrelation zwischen Bildern der gespeicherten Bilddaten, um Zwischenbildkorrelations-Information zu erzeugen,

ein Orthogonal-Transformationsmittel (14) zum Orthogonal-Transformieren der gespeicherten Bilddaten, um Orthogonal-Transformationskoeffizienten zu erzeugen,

ein Quantisierungsmittel (15) zum Quantisieren der Orthogonal-Transformationskoeffizienten mit einem voreingestellten Quantisierungsschritt,

ein Kompressionsverfahren-Auswahlmittel (13) zum adaptiven Auswählen von Kompressionsverfahren für die gespeicherten Bilddaten als eine Funktion des Bewertungswerts der Informationsmenge und der Zwischenbildkorrelations-Information, um ausgewählte Kompressionsverfahren bereitzustellen, und

ein Quantisierungsschritt-Steuermittel (39) zum Einlernen der Beziehung zwischen einem Quantisierungsschritt, der für eine Kompression angewendet wird, einer Nachkompressions- Datenmenge und des Bewertungswerts der Informationsmenge, um Einlern-Parameter zu erzeugen und einen Grund-Quantisierungsschritt für das Quantisierungsmittel als eine Funktion der eingelernten Parameter vorauszusagen,

wobei das Quantisierungsschritt-Steuermittel den Bewertungswert der Informationsmenge für jeden Makroblock, der aus einer Unterteilung des Bildes gewonnen ist, und den Bewertungswert der Informationsmenge für ein volles Bild während eines Zeitintervalls, das einer Periode einer Intra-Vollbild- Kodierung entspricht, summiert, um Bits für die Quantisierung zuzuweisen,

wobei die Menge der bildbasierten Bitzuweisung für die Quantisierung und die Summe der Bewertungswerte in einer vorbestimmten Weise für jedes der ausgewählten Kompressionsverfahren in Beziehung zueinander gesetzt werden, um einen summierten Bewertungswert zu erzeugen, und

wobei das Quantisierungsschritt-Steuermittel die Einlern-Parameter vorab durch eine Fehlerquadratmethode aus einem gemittelten Wert des makroblockbasierten Quantisierungsschritts über ein volles Bild, der Nachkompressions-Datenmenge des vollen Bildes und dem Bewertungswert der Informationsmenge für das volle Bild bestimmt, um die vorab bestimmten Einlernparameter zu erzeugen, und den Grund-Quantisierungsschritt des vollen Bildes aus den vorab bestimmten Einlernparametern und der vorbestimmten Beziehung berechnet.

2. Vorrichtung nach Anspruch 1, wobei das Quantisierungsschritt-Steuermittel die Einlernparameter aus den zuvor vergangenen Sekunden der Information für jedes der ausgewählten Kompressionsverfahren bestimmt.

3. Vorrichtung nach Anspruch 1, wobei das Quantisierungsschritt-Steuermittel den Grund-Quantisierungsschritt als eine Funktion einer Vielzahl von vorab bestimmten Quantisierungsschritten, der Menge der erzeugten Bits und der Informationsmenge voraussagt.

4. Vorrichtung nach Anspruch 1, wobei das Quantisierungsschritt-Steuermittel obere und untere Grenzen für den Versatz und die Neigung eines Geradenabschnitts setzt, der für eine Voraussage benutzt wird.