DE69919252T2

DE69919252T2 - Vorrichtung und Verfahren zur Kodierung/Dekodierung von Bewegtbildern und Speichermedium zur Speicherung von den kodierten Bewegtbildern

Info

Publication number: DE69919252T2
Application number: DE1999619252
Authority: DE
Inventors: Kenji Yokosuka-shi Sugiyama
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 1998-03-19
Filing date: 1999-03-16
Publication date: 2005-11-17
Anticipated expiration: 2019-03-17
Also published as: JP3164056B2; JPH11275591A; EP0944264B1; EP0944264A2; DE69919252D1; US6490321B1; EP0944264A3

Description

Hintergrund der Erfindung
Die vorliegende Erfindung betrifft das hoch effiziente Kodieren von analogen Videosignalen in digitale Daten, die eine geringere Datenmenge enthalten, für die effiziente Datenübertragung, -speicherung und -anzeige. Spezieller bezieht sich die vorliegende Erfindung auf das Kodieren von Bewegtbildsignalen mit Zeilensprung mit bidirektionaler Bildzu-Bild-Prädiktion.
Das hocheffiziente Kodieren von Bewegtbildern mit Bild-zu-Bild-Prädiktion beinhaltet die folgenden drei Verfahren:

(1) Unabhängiges Kodieren eines spezifischen Vollbildes aus "m" Vollbildern (wobei m eine ganze Zahl größer/gleich zwei ist), und zwar vollständig, ohne Bezug auf die anderen Vollbilder;
(2) Kodieren von Vollbildern durch unidirektionale Prädiktion unter Verwendung eines vorhergehenden spezifischen Vollbildes; und
(3) Kodieren von Vollbildern durch bidirektionale Prädiktion unter Verwendung von vorhergehenden und kommenden spezifischen Vollbildern.

Diese Kodierungsverfahren sind in dem am 13. Juni 1995 veröffentlichten US-Patent 34,965 offenbart.
Bilder, oder Vollbilder, welche diesen Kodierungsverfahren unterzogen werden sollen, bestehen aus drei unterschiedlichen Bildtypen, d. h. I-Bildern (intrakodierten Bildern), P-Bildern (prädiktiv kodierten Bildern) und B-Bildern (bidirektional prädiktiv kodierten Bildern). Lokal dekodierte I- und P-Bilder werden für die Bild-zu-Bild-Prädiktion verwendet, B-Bilder werden jedoch niemals als Bezugsvollbilder, oder Referenzbilder, für die Prädiktion verwendet.
Signale mit Zeilensprung bestehen aus geradzahligen Halbbildern und ungeradzahligen Halbbildern. Die geradzahligen und ungeradzahligen Halbbilder werden um 1/60 Sekunde oder um eine Abtastzeile zueinander versetzt angezeigt.
Bei der MPEG-2-Norm beispielsweise kommt ein Kodierungsverfahren für jedes Halbbild zur Anwendung, in dem eine Mehrzahl von Halbbildern als Bezugshalbbilder verwendet werden, oder ein Verfahren, eine Kombination aus der hauptsächlichen Kodierung für jedes Vollbild und der untergeordneten Kodierung für jedes Halbbild. Die Bildtypen (I, P und B) bei der MPEG-2-Norm werden immer für jedes Vollbild bestimmt. Das bedeutet, dass sogar bei der Kodierung für jedes Halbbild I- und P-Halbbilder mit Hilfe zweier aufeinanderfolgender Halbbilder bestimmt werden.
Bei allen zuvor beschriebenen Verfahren zum Kodieren von Signalen mit Zeilensprung erfolgt die Prädiktion für jedes Halbbild immer dann, wenn zwischen Halbbildern auf Grund der Bewegung des Bildes ein Versatz auftritt. Bilder, die aus Halbbildern zusammengesetzt sind und durch Signale mit Zeilensprung übertragen werden, enthalten viele Aliasing-Komponenten. Eine effektive Bild-zu-Bild-Prädiktion kann somit nicht ausgeführt werden. Im Einzelnen erzeugt die Bildzu-Bild-Prädiktion relativ viele Prädiktionsfehler, selbst wenn ein Objekt in einem Bild nur nach rechts oder links verschoben wird, ohne vertikale Bewegung.
Eine frühere Veröffentlichung, EP-A-0 596 423, die am 11. Mai 1994 veröffentlicht wurde, beschreibt eine Schicht- Kodier/Dekodier-Vorrichtung zur Eingabe von Videosignalen ohne Zeilensprung. In dem Kodierer wird ein Eingangsbild mit einer Struktur ohne Zeilensprung unterabgetastet, was auch als Downsampling bezeichnet wird, um ein Bild mit Zeilensprung zu bilden, und das Bild mit Zeilensprung wird kodiert. Die kodierten Daten werden dekodiert, um ein dekodiertes Bild mit Zeilensprung zu bilden, und an dem dekodierten Bild mit Zeilensprung erfolgt ein Upsampling und dieses wird als prädiktives Bild bei der Kodierung des Eingangsbildes ohne Zeilensprung verwendet.
Ein weiteres Dokument, das am 23. Juli 1996 veröffentlichte US 5,539,466 , offenbart eine Vorrichtung zum Kodieren eines Bewegtbildes, bei welcher ein Vollbild aus zwei Halbbildern besteht. Die Vorrichtung beinhaltet einen Kodierer, welcher derart vorgesehen ist, dass in Bezug auf alle Blöcke in einem Vollbild das ungeradzahlige Halbbild (erstes Halbbild) und das geradzahlige Halbbild (zweites Halbbild) in Blöcke unterteilt werden, um so eine Bewegungsprädiktion des zweiten Halbbildes aus dem ersten Halbbild zu gestatten.
Zusammenfassung der Erfindung
Der Zweck der vorliegenden Erfindung besteht darin, eine Vorrichtung und ein Verfahren zum Kodieren/Dekodieren von Bewegtbildsignalen zur Verfügung zu stellen, mit welchen entsprechend der anhängenden Ansprüche eine effektive Bildzu-Bild-Prädiktion und diskrete Kosinustransformation erzielt werden.
Kurze Beschreibung der Zeichnungen
1 ist ein Blockdiagramm der ersten bevorzugten Ausführungsform der Kodiervorrichtung entsprechend der vorliegenden Erfindung;
2 stellt Bildtypen und Abtastzeilen dar, aus welchen die Bildtypen entsprechend der vorliegenden Erfindung zusammengesetzt sind; die
3A bis 3D stellen Verfahren der diskreten Kosinustransformation eines jeweiligen 8×4-Blocks eines B-Halbbildes eines prädiktiven Fehlersignals mit Zeilensprung entsprechend der vorliegenden Erfindung dar die
4A und 4B stellen Verfahren der Zickzack-Abtastreihenfolge entsprechend der vorliegenden Erfindung dar;
5 ist ein Blockdiagramm der zweiten bevorzugten Ausführungsform der Kodiervorrichtung entsprechend der vorliegenden Erfindung; und
6 ist ein Blockdiagramm einer bevorzugten Ausführungsform der Dekodiervorrichtung entsprechend der vorliegenden Erfindung.
Detaillierte Beschreibung der bevorzugten Ausführungsformen Bevorzugte Ausführungsformen entsprechend der vorliegenden Erfindung werden unter Bezugnahme auf die beiliegenden Zeichnungen offenbart.
[Erste Ausführungsform der Kodiervorrichtung]
In 1 ist ein Blockdiagramm der ersten bevorzugten Ausführungsform der Kodiervorrichtung entsprechend der vorliegenden Erfindung gezeigt.
Als erstes werden Signale und Bildtypen offenbart, welche der erfindungsgemäßen Kodierung, einschließlich der ersten Ausführungsform und ebenfalls der zweiten Ausführungsform, welche später offenbart wird, unterzogen werden sollen.
Signale, die in die Kodiervorrichtung entsprechend der vorliegenden Erfindung eingegeben werden, sind Videosignale (Bewegtbildsignale), die aus Halbbildern mit Zeilensprung bestehen. Die Bildtypen I, P und B werden für jedes Halbbild bestimmt. Dies ist ein Unterschied zu der MPEG-2-Norm, für welche die Bildtypen immer für jedes Vollbild bestimmt werden.
In der ersten Ausführungsform werden nur I- und P-Halbbilder vor der Kodierungsverarbeitung durch progressive Abtastkonversion in Vollbilder mit doppelter Dichte in der Abtastzeile umgesetzt. B-Halbbilder werden von der in 1 gezeigten Kodiervorrichtung so wie sie sind oder für jedes Halbbild ohne progressive Abtastzeilenkonversion verarbeitet.
Andererseits werden in der zweiten Ausführungsform I-, P- und auch B-Halbbilder vor der Kodierungsverarbeitung durch progressive Abtastkonversion in Vollbilder mit doppelter Dichte in der Abtastzeile umgewandelt.
Jedes Bild, das durch die progressive Abtastkonversion verarbeitet wird, wird in der vorliegenden Erfindung nicht als " Halbbild", sondern als "Vollbild" bezeichnet, trotz der Tatsache, dass jedes Bild ursprünglich aus einem Halbbild bestand. Bei der MPEG-2-Norm besteht ein Vollbild aus zwei Halbbildern mit Zeilensprung, bei der vorliegenden Erfindung stellt ein Vollbild jedoch ein Halbbild mit doppelter Dichte an Abtastzeilen durch progressive Konversion dar.
In 2 sind Bildtypen und Abtastzeilen, aus welchen die Bilder I, P und B in der ersten Ausführungsform bestehen, dargestellt. In der Figur stellen die Zeichen "O" und
die originalen Abtastzeilen bzw. die durch Interpolation erzeugten Abtastzeilen dar.
Die I- und P-Vollbilder, die in 2 gezeigt sind, werden durch Interpolation (progressive Abtastkonversion) von Abtastzeilen in originale I- bzw. P-Halbbilder zusammengesetzt. Die I- und P-Vollbilder weisen eine doppelte Dichte an Abtastzeilen im Vergleich zu den originalen Halbbildern auf. Die Anzahl der effektiven Abtastzeilen für das standardmäßige Fernsehsystem beträgt 480 Zeilen für Vollbilder und 240 Zeilen für Halbbilder. Die Datenmenge, die für die I- und P-Vollbilder zu verarbeiten ist, ist um das doppelte größer als jene für die originalen I- und P-Halbbilder, da die Anzahl der Abtastzeilen für die Vollbilder doppelt so groß wie jene für die originalen Halbbilder ist.
Die I- und P-Vollbilder bestehen bei der MPEG-2-Norm aus zwei Halbbildern mit Zeilensprung. Im Gegensatz dazu sind die Iund P-Vollbilder in der vorliegenden Erfindung durch progressive Abtastung zusammengesetzt. Durch die vorliegende Erfindung wird somit eine Bild-zu-Bild-Prädiktion für jedes Vollbild erreicht, welche einfacher als die herkömmliche Bild-zu-Bild-Prädiktion von aus zwei Halbbildern mit Zeilensprung bestehenden I- und P-Vollbildern ist.
Die Prädiktion von B-Halbbildern in der vorliegenden Erfindung (der ersten Ausführungsform) erzeugt Prädiktionssignale für jedes Vollbild, da die Bezugsbilder, die für die Prädiktion zu nutzen sind, I- oder P-Vollbilder sind. Die Abtastzeilen für die Prädiktionssignale für jedes Vollbild werden vermindert, um die Prädiktionssignale für jedes Vollbild in Prädiktionssignale für jedes Halbbild zur Prädiktion der B-Halbbilder umzuwandeln.
(Vollständige Funktionsweise)
Die Funktionsweise der Kodiervorrichtung (der ersten Ausführungsform), die in 1 gezeigt ist, wird nun offenbart.
Ein Videosignal aus Halbbildern mit Zeilensprung wird über einen Eingangsanschluss 7 eingegeben. Ein Schalter 8 schaltet die Halbbilder mit Zeilensprung derart, dass ein I- oder P-Halbbild für jedes m-te Halbbild auf einen progressiven Abtastkonverter 1 geführt wird und die anderen B-Halbbilder zu einer Halbbildverzögerungseinheit 16 geführt werden. Der Schalter 8 zählt die Anzahl der Halbbilder in Synchronität mit dem Eingangssignal.
Der Buchstabe "m" steht für eine ganze Zahl größer/gleich zwei, vorzugsweise im Bereich von 3 bis 6, d. h. größer als die 2 oder 3 für die herkömmliche Kodierung von Signalen mit Zeilensprung. Herkömmlicherweise sind Signale mit Zeilensprung, die einer Prädiktion unterliegen, I-, P- und B-Voll-bilder, die alle 1/30 Sekunde auftreten. Im Gegensatz dazu sind die Signale mit Zeilensprung bei der vorliegenden Erfindung, welche der Prädiktion unterliegen, I-, P- und B-Halbbilder, die alle 1/60 Sekunde auftreten. Das bedeutet, dass, selbst wenn "m" auf 2 oder 3 gesetzt wird, also genauso wie bei der herkömmlichen Kodierung, die Periode für die Bild-zu-Bild-Prädiktion entsprechend der vorliegenden Erfindung 1/2 jener der herkömmlichen Kodierung ist. Die Periode für die Bild-zu-Bild-Prädiktion wird bei der Erfindung also nicht lang sein, selbst wenn ein großes "m" festgesetzt wird.
Der progressive Abtastkonverter 1 ist beispielsweise in dem am 18. April 1997 veröffentlichten US-Patent 5,619,273 offenbart. Der Konverter 1 führt eine Bewegungskompensation von I- und P-Halbbildern für jeden kleinen Block unter Verwendung vorhergehender und kommender Halbbilder sowie eine Interpolation von Abtastzeilen in die Halbbilder hinein aus, um I- und P-Vollbilder zu erzeugen, wobei die Abtastzeilen durch Abtastung mit Zeilensprung dezimiert wurden. Die sich ergebende Anzahl an Abtastzeilen für jedes Halbbild wird doppelt so groß (doppelte Dichte) wie bei den originalen Abtastzeilen. Anders ausgedrückt entspricht ein von dem Konverter 1 verarbeitetes Halbbild einem durch progressive Abtastung zusammengesetzten Vollbild. Die vorhergehenden und kommenden Halbbilder werden dem Konverter 1 für die Bewegungskompensation zugeführt.
Das Videosignal, das aus dem progressiven Abtastkonverter 1 ausgegeben wird, dessen Anzahl an Abtastzeilen doppelt so groß wie die der originalen Abtastzeilen ist, wird auf einen Subtrahierer 2 geführt. Außerdem wird auf den Subtrahierer 2 ein Interframe- oder Bild-zu-Bild-Prädiktionssignal von einem Interframe-Prädiktor 9 geführt. Das Prädiktionssignal wird von dem Videosignal subtrahiert, um ein Interframe- oder Bild-zu-Bild-Prädiktionsfehlersignal zu erzeugen.
Das Interframe-Prädiktionsfehlersignal wird auf einen diskreten Kosinustransformator (DCT) 3 geführt. Der DCT 3 transformiert das Prädiktionsfehlersignal in Koeffizienten für jeden 8×8-Block durch diskrete Kosinustransformation (ebenfalls mit DCT abgekürzt) oder orthogonale Transformation der 2ⁿ-ten Ordnung in der vertikalen Richtung. Der Buchstabe "n" drückt eine ganze Zahl aus und ist in dieser Ausführungsform drei. Die Koeffizienten werden auf einen Quantisierer 4 geführt und dann mit einer vorbestimmten Schrittgröße quantisiert, um in Koeffizienten mit fester Länge konvertiert zu werden.
Die Koeffizienten mit fester Länge werden auf einen Kodierer für variable Länge 5 und einen Invers-Quantisierer 6 geführt.
Der Kodierer für variable Länge 5 ordnet die zweidimensionalen 8×8-Blöcke aus Koeffizienten mit fester Länge durch die Zickzack-Abtastreihenfolge als eindimensionale Koeffizienten mit variabler Länge an.
Die Funktionen des Subtrahierers 2, des DCT 3, des Quantisierers 4 und des Kodierers 5 für variable Länge sind grundsätzlich die gleichen wie jene eines herkömmlichen Subtrahierers, DCT, Quantisierers und Kodierers für variable Länge zum Kodieren von Vollbildern, die jeweils aus zwei Halbbildern mit Zeilensprung bestehen. Wie bereits beschrieben tritt ein Vollbild, das aus zwei Halbbildern mit Zeilensprung zusammengesetzt ist, alle 1/30 Sekunde auf. Im Gegensatz dazu ist ein Vollbild, das in der vorliegenden Erfindung verarbeitet werden soll, durch Interpolation von Abtastzeilen in ein Halbbild zusammengesetzt, das alle 1/60 Sekunde auftritt, d. h. ein Vollbild bei der Erfindung tritt ebenfalls alle 1/60 Sekunde auf. Daher erfordern der Subtrahierer 2, der DCT 3, der Quantisierer 4 und der Kodierer für variable Länge 5 für eine vollständige Echtzeitverarbeitung somit eine Verarbeitungsgeschwindigkeit, die doppelt so groß wie jene von herkömmlichen Gegenstücken ist.
Die Koeffizienten mit fester Länge, die auf den Invers-Quantisierer 6 geführt werden, werden verarbeitet und auf einen Invers-Diskretkosinustransformator (IDCT) 12 geführt. Der IDCT 12 transformiert die invers quantisierten Koeffizienten für jeden 8×8-Block invers, um das Interframe-Prädkitionsfehlersignal zu reproduzieren. Das reproduzierte Prädiktionsfehlersignal wird auf einen Addierer 11 geführt. Der Addierer 11 addiert das Interframe-Prädiktionsfehlersignal und das Interframe-Prädiktionssignal, das von dem Interframe-Prädiktor 9 geliefert wird, um das Videosignal zu reproduzieren. Das reproduzierte Videosignal wird in einem Videospeicher 10 gespeichert.
Die Funktionen des Invers-Quantisierers 6, des IDCT 12 und des Addierers 11 zum lokalen Dekodieren des Videosignals sind grundsätzlich die gleichen wie jene eines herkömmlichen Invers-Quantisierers, IDCT und Addierers zum Dekodieren von Videosignalen, die jeweils aus zwei Halbbildern mit Zeilensprung zusammengesetzt sind.
Für eine vollständige Echtzeitverarbeitung erfordern der Invers-Quantisierer 6, der IDCT 12, der Addierer 11 und der Videospeicher 10 ebenfalls die Verarbeitungsgeschwindigkeit, welche doppelt so hoch wie jene herkömmlicher Gegenstücke ist. Die Speicherkapazität für den Videospeicher 10 ist die gleiche wie jene für einen herkömmlichen Videospeicher, und zwar weil der herkömmliche Videospeicher die Speicherkapazität für zwei Halbbilder mit Zeilensprung erfordert, um ein Vollbild zu speichern, und der Videospeicher 10 in der Erfindung ein Vollbild speichert, das durch progressive Abtastung zusammengesetzt ist, wie bereits beschrieben worden ist.
Das in dem Videospeicher 10 gespeicherte Videosignal wird auf den Interframe-Prädiktor 9 geführt. Der Prädiktor 9 führt die Prädiktion eines durch progressive Abtastung zusammengesetzten Vollbildes synchron mit dem eingegebenen Signal mit Zeilensprung durch. Diese Prädiktion ist einfacher als jene eines herkömmlichen Prädiktors zum Prädizieren eines aus zwei Halbbildern mit Zeilensprung bestehenden Vollbildes.
Der Interframe-Prädiktor 9 erkennt Bewegungsvektoren eines Vollbildes für jeden Pixelblock im Bereich von 16×16 bis 8×8 und führt eine Bewegungskompensation des Vollbildes entspre chend der erkannten Bewegungsvektoren aus, um das Interframe-Prädiktionssignal zu erzeugen. Die Genauigkeit der Bewegungskompensation beträgt vorzugsweise 1/2 Pixel.
Als nächstes wird ein B-Halbbild, das auf die Halbbildverzögerungseinheit 16 geführt wurde, für jedes Halbbild um eine Periode verzögert, die (m–1) Halbbildern entspricht. Die Verzögerungseinheit 16 kompensiert auch die Verzögerung, welche durch die Abtastzeileninterpolation bewirkt wird, welche durch den progressiven Abtastkonverter 1 ausgeführt wird.
Das verzögerte B-Halbbild wird auf einen Subtrahierer 17 geführt. Außerdem wird auf den Subtrahierer 17 ein Interfield- oder Halbbild-zu-Halbbild-Prädiktionssignal von einem Abtastzeilendezimierer 15 geführt. Der Dezimierer 15 erzeugt das Halbbild-zu-Halbbild-Prädiktionssignal durch Dezimierung der Abtastzeilen des von dem Interframe-Prädiktor 9 gelieferten Bild-zu-Bild-Prädiktionssignals. Das auf den Subtrahierer 17 geführte Halbbild-zu-Halbbild-Prädiktionssignal wird von dem Videosignal des verzögerten B-Halbbildes subtrahiert, um ein Halbbild-zu-Halbbild-Prädiktionsfehlersignal zu erzeugen. Das Halbbild-zu-Halbbild-Prädiktionsfehlersignal wird auf einen DCT 18 geführt und wird dann auf einen Vervielfacher 19 geführt.
(DCT)
Die Funktionen des DCT 18 und des Vervielfachers 19 werden im Einzelnen offenbart.
Der DCT 18 und der Vervielfacher 19 führen eine DCT für jeden 8×4-Block des Halbbild-zu-Halbbild-Prädiktionsfehlersignals für jedes Halbbild aus. Durch Verarbeitung eines B-Halbbildes für jeden 8×8-Block in gleicher Weise wie ein I- oder ein P- Vollbild wird bewirkt, dass der Block in der vertikalen Richtung doppelt so groß wird, was somit im Hinblick auf die adaptive Quantisierung und visuellen Eigenschaften usw. nicht vorteilhaft ist, und zwar weil die Anzahl (Dichte) der Abtastzeilen für ein B-Halbbild halb so groß wie jene für ein I- oder ein P-Vollbild ist, während die Anzahl der Abtastzeilen in jedem 8×8-Block eines B-Halbbildes gleich jener in jedem 8×8-Block eines I- oder P-Halbbildes ist. Ferner ist die Anzahl der Blöcke für ein B-Halbbild halb so groß wie jene für ein I- oder P-Vollbild, somit ergeben sich Schwierigkeiten bei der Verarbeitung eines B-Halbbildes für jeden 8×8-Block hinsichtlich der Ratensteuerung.
In jedem Fall verarbeitet der DCT 18 jeden 8×4-Block eines B-Halbbildes des Halbbild-zu-Halbbild-Prädiktionsfehlersignals, das bedeutet eine zweidimensionale DCT der vierten Ordnung (2^n-1-ten, wobei n drei ist) in vertikaler Richtung, wodurch sich die gleiche Größe auf dem Bildschirm wie bei der Verarbeitung jedes 8×8-Blocks ergibt. Beim Aufbau der in 1 gezeigten Kodiervorrichtung wird dank der besseren Gestaltungsumgebung für DCTs für 8×8-Blöcke vorzugsweise ein DCT für 8×8-Blöcke vorgesehen, um die Funktionen beider DCTs 3 und 18 auszuführen. Anders ausgedrückt arbeitet ein DCT sowohl für 8×8- als auch für 8×4-Blöcke.
Es gibt zwei Verfahren zum Verarbeiten jedes 8×4-Blocks eines B-Halbbilds des Halbbild-zu-Halbbild-Prädiktionsfehlersignals, wie in den 3A bis 3D dargestellt ist. Die Anzahl der Koeffizienten, die einer Quantisierung und Kodierung unterzogen werden sollen, beträgt in beiden Verfahren 8×4 für jeden Block, um weniger redundante Codes zu erzeugen.
(Verfahren I)
Bei diesem Verfahren werden die Basisvektoren für DCT für einen 8x8-Block verwendet, welche auch von der DCT für einen 8×4-Block verwendet werden, wobei die Orthogonalität aufrechterhalten bleibt und eine vollständig inverse Transformation erreicht wird.
Wie in 3A gezeigt ist, gibt der DCT 18 Pixelwerte für vier Abtastzeilen in jeden 8×4-Block ein, d. h. die Hälfte eines 8×8-Blocks in dem Frequenzband des Halbbild-zu-Halbbild-Prädiktionsfehlersignals. Der DCT 18 gibt außerdem die Werte "0" in den anderen 8×4-Block, d. h. in die zweite Hälfte des 8×8-Blocks ein.
Alle Koeffizienten (0, 1, 2,... und 7) werden durch die DCT erzeugt. Wie in 3B gezeigt ist, werden jedoch die ungeradzahligen Koeffizienten (1, 3, 5 und 7) vernachlässigt und die effektiv geradzahligen Koeffizienten (0, 2, 4 und 6) werden ausgegeben. Die ausgegebenen Koeffizienten sind die gleichen wie jene, die durch eine DCT eines 8×4-Blocks erzeugt werden. Die Verstärkung in den Koeffizienten ist jedoch anders als jene durch DCT eines 8×4-Blocks. Die Koeffizienten werden daher durch den Vervielfacher 19 zur Anpassung der Verstärkung mit zwei multipliziert.
(Verfahren II)
Bei diesem Verfahren sollen die hochfrequenten Komponenten jedes 8×8-Blocks vernachlässigt werden, wodurch eine effektive Dekodierung von P-Bildern erzielt wird. Wie in 3C gezeigt ist, gibt der DCT 18 die Werte "0" für Abtastzeilen ein, welche durch Abtastung mit Zeilensprung dezimiert worden sind, um acht Zeilen zu erzeugen. Der DCT 18 führt eine DCT für jeden 8×8-Block, der aus den erzeugten acht Zeilen besteht, aus. Die hochfrequenten Komponenten werden vernachlässigt, wie in 3D gezeigt ist, da sie als Aliasing-Komponenten erzeugt werden. Die verbleibenden Koeffizienten werden durch den Vervielfacher 19 mit zwei multipliziert, und zwar zur Verstärkungsanpassung aus dem gleichen Grund, der bei Verfahren I erwähnt wurde.
Das Verfahren I ist dem Verfahren II vorzuziehen, da letzteres keine vollständige Orthogonaltransformation darstellt und somit die inverse Transformation Fehler erzeugen wird.
Neben den Verfahren I und II kann der Vervielfacher 19 zur Verstärkungsanpassung auch weggelassen werden, indem das gleiche Signal für jeweils ein Paar von zwei aufeinanderfolgenden Abtastzeilen durch den DCT 18 eingegeben wird, um einen 8×8-Block zusammenzusetzen.
(Quantisierung und Kodierung mit variabler Länge)
Die Koeffizienten für jeden 8×4-Block eines B-Halbbildes des Halbbild-zu-Halbbild-Prädiktionsfehlersignals werden auf einen Quantisierer 20 geführt. Die Schrittgröße des Quantisierers 20 wird entsprechend der Koeffizienten bestimmt. Die Wichtungswerte für jeden 8×8-Block werden entsprechend der verbleibenden Koeffizienten, die in 3B oder 3D gezeigt sind, bestimmt. Die Koeffizienten eines B-Halbbildes werden von dem Quantisierer 20 um etwa 50 % gröber als jene für ein I- oder ein P-Vollbild quantisiert, obgleich die quantisierten Werte eines verstärkungsangepassten B-Halbbildes grundsätzlich genauso wie ein I- oder P-Vollbild behandelt werden können, und zwar weil ein B-Halbbild nicht als Bezugshalbbild wie ein I- oder ein P-Vollbild verwendet werden kann.
Die von dem Quantisierer 20 quantisierten Koeffizienten werden auf einen Kodierer für variable Länge 21 geführt. Der Kodierer 21 ordnet zuerst die Koeffizienten entsprechend der Zickzack-Abtastreihenfolge an. Zwei Verfahren der Zickzack-Abtastreihenfolge sind in den 4A und 4B dargestellt. 4A zeigt das Verfahren des Überspringens jener Komponenten, die den Koeffizienten entsprechen, welche durch das Verfahren I vernachlässigt worden sind (3B), in jedem 8×8-Block. Andererseits zeigt 4B das andere Verfahren der Zickzack-Abtastung nur in jedem 8×4-Block, der durch das Verfahren II übrig geblieben ist (3D).
Der Kodierer für variable Länge 21 kodiert dann die entsprechend der Zickzack-Abtastreihenfolge angeordneten Koeffizienten unter Verwendung von Codes mit variabler Länge, um Koeffizienten mit variabler Länge zu erzeugen.
Für eine effiziente Kodierung sind die für die Kodierung der Koeffizienten zu verwendenden Codes mit variabler Länge von irgendeiner Art, die für 8×4-Blöcke geeignet ist, und zwar weil die Codes mit variabler Länge keine Nulllauflänge (Zerorun length) länger als 32 (= 8×4), was der Anzahl an Koeffizienten für jeden 8×4-Block entspricht, aufweisen. Aus Gründen der Kostenreduzierung können jedoch die gleichen Codes mit variabler Länge wie jene für 8×8-Blöcke verwendet werden, und zwar da eine solche lange Nulllauflänge sogar für 8×8-Blöcke selten erzeugt wird.
Die Koeffizienten mit variabler Länge des Bild-zu-Bild-Prädiktionsfehlersignals für I- und P-Vollbilder, die von dem Kodierer 5 ausgegeben werden, und ebenfalls jene des Halbbild-zu-Halbbild-Prädiktionsfehlersignals für B-Halbbilder, die von dem Kodierer 21 ausgegeben werden, werden auf einen Multiplexer 13 geführt.
Der Multiplexer 13 multiplext diese Koeffizienten mit variabler Länge in einen Bitstrom des Prädiktionsfehlersignals, das aus I- und P-Vollbildern sowie B-Halbbildern zusammengesetzt ist. Die Reihenfolge der Vollbilder und Halbbilder in dem Bitstrom ist derart vorgesehen, dass I- und P-Vollbilder den B-Halbbildern vorausgehen. Dies ist die umgekehrte Reihenfolge des in 2 gezeigten Eingangssignals.
[Zweite Ausführungsform der Kodiervorrichtung]
In 5 ist ein Blockdiagramm der zweiten bevorzugten Ausführungsform der Kodiervorrichtung entsprechend der vorliegenden Erfindung gezeigt. Elemente in der zweiten Ausführungsform, welche gleich oder analog den Elementen der ersten Ausführungsform sind, sind mit den gleichen Bezugszeichen bezeichnet und werden nicht im Einzelnen offenbart.
Ein in die in 5 gezeigte Kodiervorrichtung eingegebenes Signal ist ein Videosignal aus Halbbildern mit Zeilensprung, genauso wie bei der ersten Ausführungsform.
Bei der ersten Ausführungsform aus 1 werden auf den progressiven Abtastkonverter 1 nur I- und P-Halbbilder geführt. Im Gegensatz dazu werden bei der zweiten Ausführungsform aus 5 alle I-, P- und B-Halbbilder eines Videosignals mit Zeilensprung auf einen progressiven Abtastkonverter 51 geführt. Der Konverter 51 führt eine Bewegungskompensation der Halbbilder für jeden kleinen Block unter Verwendung vorhergehender und kommender Halbbilder sowie eine Interpolation (progressive Abtastung) von Abtastzeilen in die Halbbilder, weiche durch die Abtastung mit Zeilensprung dezimiert worden sind, aus, sodass I-, P- und B-Vollbilder erzeugt werden.
Die erzeugten Vollbilder werden auf einen Schalter 52 geführt. Der Schalter 52 schaltet die Vollbilder in solcher Weise, dass ein I- oder P-Vollbild für jedes m-te Vollbild (wobei m eine ganze Zahl größer/gleich zwei ist) auf den Subtrahierer 2 geführt wird und die anderen B-Vollbilder auf eine Vollbildverzögerungseinheit 53 geführt werden. Die auf die Vollbildverzögerungseinheit 53 geführten B-Vollbilder werden für jedes Vollbild um eine Periode verzögert, welche (m-1) Vollbildern entspricht.
Die verzögerten B-Vollbilder werden auf einen Subtrahier 54 geführt. Auf den Subtrahierer 54 wird außerdem ein Bild-zu-Bild-Prädiktionssignal von dem Interframe-Prädiktor 9 geführt. Das Bild-zu-Bild-Prädiktionssignal wird von jedem B-Vollbild des Videosignals subtrahiert, um ein Bild-zu-Bild-Prädiktionsfehlersignal zu erzeugen.
Abtastzeilen des Bild-zu-Bild-Prädiktionsfehlersignals, welche durch den Abtastzeilenkonverter 51 interpoliert worden sind, werden durch einen Abtastzeilendezimierer 55 dezimiert, um ein Halbbild-zu-Halbbild-Prädiktionsfehlersignal eines B-Halbbildes zu erzeugen. Das Halbbild-zu-Halbbild-Prädiktionsfehlersignal wird dann auf einen DCT 56 geführt. Der DCT 56 führt eine DCT für jeden 8×4-Block des Halbbild-zu-Halbbild-Prädiktionsfehlersignals aus. Stattdessen kann der DCT 56 auch eine DCT für jeden 8×8-Block des Prädiktionsfehlersignals genauso wie der DCT 18 aus 1 ausführen.
Die restliche Verarbeitung, die durch die Elemente in 5 erfolgt, welche gleich oder analog den Elementen in 1 sind und mit den gleichen Bezugszeichen bezeichnet sind, ist grundsätzlich die gleiche wie jene, die von der Vorrichtung aus 1 ausgeführt wird und wird somit nicht offenbart.
Ein Unterschied der zweiten Ausführungsform zu der ersten Ausführungsform besteht darin, dass in 5 der Abtastzeilenkonverter 51 vor dem Schalter 52 angeordnet ist, um alle I-, P- und B-Halbbilder zu verarbeiten. Ein weiterer Unterschied besteht darin, dass der Abtastzeilendezimierer 55 ein Prädiktionsfehlersignal verarbeitet und nicht ein Prädiktionssignal, das beispielsweise durch den Abtastzeilenkonverter 15 aus 1 verarbeitet wird.
Dies bedeutet, dass in 5 die Interframe-Verarbeitung für ein Videosignal ausgeführt wird, das durch progressive Abtastung zusammengesetzt ist. Die Menge der zu verarbeitenden Daten erhöht sich somit in der zweiten Ausführungsform im Vergleich zu der ersten Ausführungsform.
Die gesamte Schaltung für die zweite Ausführungsform wird jedoch einfacher als jene für die erste Ausführungsform, da die Interframe-Verarbeitung für ein durch progressive Abtastung zusammengesetztes Videosignal ausgeführt wird. Die Menge an Komponenten zum Aufbau des Abtastzeilenkonverters 1 zur Verarbeitung von I- und P-Halbbildern und des Konverters 51 zur Verarbeitung von I-, P- und B-Halbbildern, die in den 1 bzw. 5 gezeigt sind, ist nahezu gleich. Der Konverter 1 ist mit einer Schaltung zur Verarbeitung aller I-, P- und B-Halbbilder ausgestattet. Der Konverter 1 verarbeitet jedoch nur I- und P-Halbbilder und stoppt die Verarbeitung, sobald B-Halbbilder in den Schalter 8 in 1 eingegeben werden.
[Ausführungsform der Dekodiervorrichtung]
In 6 ist ein Blockdiagramm einer bevorzugten Ausführungsform der Dekodiervorrichtung entsprechend der vorliegenden Erfindung gezeigt. Die Dekodiervorrichtung soll Signale dekodieren, welche durch Kodiervorrichtungen, wie sie in den 1 oder 5 gezeigt sind, kodiert worden sind.
Ein Bitstrom eines Prädiktionsfehlersignals, der aus I- und P-Vollbildern sowie B-Halbbildern zusammengesetzt ist, welcher beispielsweise durch die Kodiervorrichtung aus 1 kodiert worden ist, wird über einen Eingangsanschluss 63 auf einen Demultiplexer 64 geführt. Der Demultiplexer 64 entmultiplext den Bitstrom in einen Bitstrom aus I- und P-Vollbildern und einen weiteren Bitstrom aus B-Halbbildern.
Der Bitstrom aus I- und P-Vollbildern wird auf einen Dekodierer für variable Länge 61 geführt und in Codes mit fester Länge zurückkonvertiert. Die Codes mit fester Länge werden auf einen Invers-Quantisierer 60 und dann auf einen ICDT 120 geführt. Der IDCT 120 transformiert jeden 8×8-Block der invers quantisierten Codes mit fester Länge invers, um das Prädiktionsfehlersignal zu reproduzieren. Das reproduzierte Prädiktionsfehlersignal wird auf einen Addierer 110 geführt und zu einem von dem Interframe-Prädiktor 65 gelieferten Prädiktionssignal addiert, um das Videosignal zu reproduzieren.
Die Funktionen des Invers-Quantisierers 60, des IDCT 120 und des Addierers 110 sind die gleichen wie jene des Invers-Quantisierers 6, des IDCT 12 und des Addierers 11, die in 1 gezeigt sind. Die Dekodierungsverarbeitung erfordert 1/60 Sekunde für jedes Vollbild für eine vollständige Echtzeitverarbeitung.
Das reproduzierte Videosignal wird einmal in einem Videospeicher 62 gespeichert und auf den Interframe-Prädiktor 65 und außerdem auf einen Abtastzeilen-Dezimierer 66 geführt.
Der Interframe-Prädiktor 65 erzeugt ein Prädiktionssignal unter Verwendung des gespeicherten Videosignals synchron mit dem eingegebenen Bitstrom. Das Prädiktionssignal wird auf den Addierer 110 geführt, was die I- und P-Vollbilder betrifft, dagegen auf einen Abtastzeilendezimierer 150, was die B-Halbbilder betrifft. Der Dezimierer 150 dezimiert die Abtastzeilen aus dem Prädiktionssignal.
Im Vergleich zu dem Prädiktor 9 aus 1 verarbeitet der Prädiktor 65 das Videosignal für jedes Vollbild synchron mit dem eingegebenen Bitstrom, ohne die Notwendigkeit einer Bewegungsvektorerkennung und Prädiktionsmoduseinstellung, sodass eine bemerkenswert kleine Schaltung erreicht wird.
Der eingegebene Bitstrom aus B-Halbbildern wird auf einen Dekodierer für variable Länge 67, einen Invers-Quantisierer 68 und dann einen IDCT 69 geführt, um in das Prädiktionsfehlersignal zurückkonvertiert zu werden. Die Funktionen des Dekodierers für variable Länge 67 und des Invers-Quantisierers 68 sind umgekehrt jenen des Kodierers für variable Länge 21 bzw. des Quantisierers 20, die in 1 gezeigt sind.
Das Prädiktionsfehlersignal für jedes Halbbild, das von dem IDCT 69 für die inverse Transformation des 8×4-Blocks erhalten wird, wird auf einen Addierer 90 geführt. Außerdem wird auf den Addierer 90 das Prädiktionssignal für jedes Halbbild geführt, das von dem Abtastzeilendezimierer 150 geliefert wird. Das Prädiktionsfehlersignal wird zu dem Prädiktionssignal addiert, um das Videosignal von B-Halbbildern zu reproduzieren. Das reproduzierte Videosignal aus B-Halbbildern wird auf einen Schalter 91 geführt.
Die Abtastzeilen des Videosignals aus I- und P-Vollbildern werden von dem Abtastzeilendezimierer 66 dezimiert, um das Videosignal aus I- und P-Halbbildern zu reproduzieren. Das reproduzierte Videosignal aus I- und P-Halbbildern wird ebenfalls auf den Schalter 91 geführt.
Der Schalter 91 gibt die Videosignale aus I-, P- und B-Halbbildern über einen Ausgangsanschluss 92 synchron mit dem eingegebenen Bitstrom in der originalen (vor der Kodierung) Bildreihenfolge aus, so wie in 2 gezeigt ist, nicht in der Reihenfolge der Eingabe in die Dekodiervorrichtung.
Die Abtastzeilendezimierer 66 und 150 dezimieren Abtastzeilen aus jedem Vollbild des progressiven Videosignals, um das Videosignal aus Halbbildern mit Zeilensprung zu erzeugen. Diese Dezimierer erfordern keine Vorfilterung, welche für das Subsampling, für die Verarbeitung des progressiven Signals, das ursprünglich (vor der Kodierung) ein Videosignal mit Zeilensprung gewesen ist, benötigt wird, und zwar weil die reproduzierten progressiven Vollbilder Signale sind, die ursprünglich durch progressive Abtastkonversion des Signals mit Zeilensprung durch die Kodiervorrichtung erzeugt worden sind und somit die vertikalen Frequenzcharakteristiken der reproduzierten Vollbilder wie das Signal mit Zeilensprung adäquat eingeschränkt sind.
(IDCT)
Der IDCT 12 für einen 8×8-Block in 1 oder 5 kann als IDCT 69 für einen 8×4-Block genutzt werden. Die IDCT-Verarbeitung hängt von dem Kodierungsverfahren ab, d. h. dem Verfahren I oder II, wie bereits mit Bezug auf den DCT 18 für einen 8×8-Block und den Vervielfacher 19, die in 1 gezeigt sind, beschrieben worden ist.
Wenn das Verfahren I für die Kodierung genutzt worden ist, gibt der IDCT 69 die Werte "0" für die ungeradzahligen Koeffizienten, welche bei der Kodierung vernachlässigt worden sind, ein, um zwei symmetrische 8×4-Blöcke durch die IDCT zu erzeugen. Einer der 8×4-Blöcke wird dann vernachlässigt.
Andererseits gibt der IDCT 69, wenn das Verfahren II für die Kodierung verwendet worden ist, die Werte "0" für die hochfrequenten Koeffizienten ein, welche bei der Kodierung vernachlässigt worden sind, um 8×8-Blöcke durch die IDCT unter progressiver Abtastung zu erzeugen. Die Abtastzeilen der 8×8-Blöcke werden dann dezimiert, um 8×4-Blöcke zu erzeugen.
(Progressive Reproduktion )
Die Dekodiervorrichtung aus 6 kann ein progressives Videosignal ausgeben, und zwar unter Verwendung eines progressiven Prädiktionsfehlersignals ohne Abtastzeilendezimierung durch die Dezimierer 66 und 150.
Wenn das Verfahren I zur Kodierung verwendet worden ist, wird das progressive Prädiktionsfehlersignal durch Interpolation von Abtastzeilen in Werte von vier Zeilen jedes Halbbildes erhalten, unter Berücksichtigung der Beziehung zwischen geradzahligen und ungeradzahligen Halbbildern, um acht progressive Abtastzeilen zu erzeugen, und zwar weil das Eingangssignal keine Informationen darüber enthält, ob das originale (vor der Kodierung) Signal ein geradzahliges oder ungeradzahliges Halbbild enthält.
Andererseits wird, wenn das Verfahren II für die Kodierung verwendet worden ist, das progressive Prädiktionsfehlersignal durch Eingabe von 8×4 Koeffizienten in das niedrige Frequenzband jedes 8×8-Blocks und außerdem durch Eingabe der Werte "0" in das Hochfrequenzband desselben, entsprechend einem 8×4-Block, erhalten. Der 8×8-Block wird dann durch die IDCT transformiert, um interpolierte acht Abtastzeilen für das progressive Prädiktionsfehlersignal zu erzeugen. Die Beziehung zwischen geradzahligen und ungeradzahligen Halbbildern des progressiven Prädiktionsfehlersignals entspricht jener für das originale Videosignal, und zwar weil das Eingangssignal Informationen darüber enthält, ob das originale (vor der Kodierung) Signal ein geradzahliges oder ungeradzahliges Halbbild enthält. Da das Verfahren II jedoch keine orthogonale Transformation darstellt, erzeugt dieses Verfahren Fehler.
Darüber hinaus kann das progressive Prädiktionsfehlersignal durch IDCT für jeden 8×8-Block der DCT-Koeffizienten, die durch das Verfahren I erhalten wurden, erzeugt werden, wodurch sich nur eine Verschiebung um 1/2 Zeile ergibt.
[Speichermedium]
Der durch die in 1 oder 5 gezeigte Kodiervorrichtung erhaltene Bitstrom kann mit einem Bitstrom aus Audio- und Steuerdaten usw. unter MPEG-Systemnormen gemultiplext werden. Der gemultiplexte Bitstrom wird mit Fehlerkorrekturcodes addiert und dann moduliert. Der modulierte Bitstrom, welcher effizient kodiert worden ist, wird dann in einem Speichermedium gespeichert. Wenn ein Speichermedium ein Nur-Lese-Typ ist, kann der Bitstrom schnell durch eine als Stamper bezeichnete Prägevorrichtung usw. gespeichert werden.
Im Einzelnen wird in dem Speichermedium abwechselnd ein erster Bitstrom und ein zweiter Bitstrom gespeichert.
Der erste Bitstrom wurde durch Kodierung progressiv abgetasteter spezifischer Vollbilder erzeugt, die für jede vorgegebene Periode in einem Bewegtbildsignal vorhanden sind. Die spezifischen Vollbilder wurden durch Intraframe-Verarbeitung oder durch unidirektionale Prädiktion unter Verwendung anderer kodierter spezifischer Vollbilder erzeugt. Die spezifischen Vollbilder wurden außerdem orthogonal transformiert, und zwar in 2ⁿ-ter Ordnung (wobei n eine ganze Zahl ist) in der vertikalen Richtung.
Andererseits wurde der zweite Bitstrom durch Prädiktion von Vollbildern oder Halbbildern des Bewegtbildsignals, die nicht die spezifischen Vollbilder sind, unter Verwendung vorhergehender und kommender Bezugsvollbilder erzeugt, um ein Prädiktionsfehlersignal für jedes Halbbild zu erzeugen, wobei das Prädiktionsfehlersignal durch Orthogonaltransformation der 2^n-1-ten Ordnung in vertikaler Richtung kodiert worden ist.
Wie zuvor beschrieben, wird entsprechend der vorliegenden Erfindung ein spezifisches Halbbild für jedes m-te Halbbild eines Videosignals mit Zeilensprung (wobei m eine ganze Zahl gleich oder größer zwei ist) in ein progressiv abgetastetes spezifisches Vollbild konvertiert. Das spezifische Vollbild wird mit Intraframe-Verarbeitung oder durch unidirektionale Prädiktion unter Verwendung anderer kodierter spezifischer Vollbilder und DCT für jeden 8×8-Block kodiert/dekodiert. Auf der anderen Seite werden andere Halbbilder mit bidirektionaler Prädiktion unter Verwendung vorhergehender und kommender spezifischer Vollbilder und DCT für jeden 8×4-Block kodiert/dekodiert.
Die vorliegende Erfindung nutzt die bidirektionale Prädiktion unter Verwendung progressiv abgetasteter Vollbilder als Bezugsbilder. Im Unterschied zu Bildern mit Zeilensprung zeigen progressiv abgetastete Bilder keinen zeitlichen Versatz und keine Aliasing-Komponenten auf Grund der Tatsache, dass progressiv abgetastete Bilder dem Abtasttheorem genügen. Daher erzielt die vorliegende Erfindung eine hoch effektive prädiktive Kodierung mit Bewegungskompensation.
Die in der vorliegenden Erfindung angewandte Intraframe-Kodierung zeigt ebenfalls keinen zeitlichen Versatz und keine Aliasing-Komponenten. Die Bezugsbilder, die erfindungsgemäß genutzt werden, sind immer Vollbilder, deren Dichte an Abtastzeilen doppelt so groß wie jene für Halbbilder ist. Die Bewegungskompensation von Vollbildern ist somit doppelt so genau im Bewegungsvektor in der vertikalen Richtung.
Der Buchstabe "m" zum Konvertieren eines Halbbildes für jedes m-te Halbbild eines Videosignals mit Zeilensprung in ein progressiv abgetastetes Vollbild stellt eine ganze Zahl gleich oder größer zwei, vorzugsweise im Bereich von 3 bis 6 dar, welche größer als die 2 oder 3 für die herkömmliche Kodierung von Signalen mit Zeilensprung ist.
Wenn "m" auf 2 oder 3 festgesetzt wird, beträgt die Periode für die Halbbild-zu-Halbbild-Prädiktion entsprechend der vorliegenden Erfindung 1/2 jener der herkömmlichen Kodierung von Signalen mit Zeilensprung. Durch die vorliegende Erfindung wird somit eine Erzeugung von weniger Prädiktionsfehlern erreicht.
Wenn andererseits "m" auf 4 (2×2) oder 6 (2×3) festgesetzt wird, sodass die Periode für die Halbbild-zu-Halbbild-Prädiktion entsprechend der vorliegenden Erfindung die gleiche wie die bei der konventionellen Kodierung von Signalen mit Zeilensprung ist, werden mehr B-Vollbilder als bei der konventionellen Kodierung erzeugt. Die Menge an Codes für jedes B-Vollbild ist durch bidirektionale Prädiktion geringer als die für ein P-Vollbild. Durch die vorliegende Erfindung wird somit die Erzeugung einer geringeren Gesamtmenge an Codes erreicht.
Darüber hinaus werden bei der vorliegenden Erfindung progressiv abgetastete Vollbilder durch DCT für jeden 8×8-Block transformiert, wogegen andere Halbbilder durch DCT für jeden 8×4-Block transformiert werden, sodass die Blockgröße auf dem Bildschirm konstant ist und die Anzahl an Blocks auf dem Bildschirm für die Vollbilder und Halbbilder die gleiche ist. Die adaptive Quantisierung und Ratensteuerung sind ebenfalls für die Vollbilder und Halbbilder gleich. Die vorliegende Erfindung bringt somit weniger visuelle Probleme mit sich.
Die DCT für 8×4-Blöcke kann durch einen DCT für 8×8-Blöcke erreicht werden, wie bereits beschrieben worden ist. Durch die vorliegende Erfindung wird somit eine gemeinsame Nutzung der DCT-Schaltung für progressive Vollbilder und andere Halbbilder erreicht.
Mit der vorliegenden Erfindung wird ferner eine Speicherung von durch die Kodiervorrichtung kodierten Signalen in einem Speichermedium mit einer geringeren Gesamtmenge an Codes und hoher Effizienz erreicht.

Claims

Vorrichtung zum effizienten Kodieren eines Bewegtbildsignals, umfassend: einen ersten Kodierer (2, 3, 4, 5, 6, 10, 11, 12), um progressiv abgetastete spezifische Vollbilder zu kodieren, die für jede vorgegebene Periode in einem zu kodierenden Bewegtbildsignal vorhanden sind, und zwar durch Intraframe-Verarbeitung oder durch unidirektionale Prädiktion unter Verwendung anderer kodierter spezifischer Vollbilder und durch Orthogonaltransformation; einen Prädiktor (9, 15), um Vollbilder oder Halbbilder des Bewegtbildsignals, die nicht die spezifischen Vollbilder sind, zu prädizieren, und zwar unter Verwendung der spezifischen Vollbilder als ein vorhergehendes Bezugsvollbild und/oder ein kommendes Bezugsvollbild, um so ein Prädiktionsfehlersignal (17, 54) pro Halbbild für jedes prädizierte Voll- oder Halbbild zu erzeugen; dadurch gekennzeichnet, dass der erste Kodierer die progressiv abgetasteten spezifischen Vollbilder durch Orthogonaltransformation der 2ⁿ-ten Ordnung (wobei n eine ganze Zahl ist) in vertikaler Richtung kodiert, und dadurch, dass die Vorrichtung ferner umfasst: einen zweiten Kodierer (18, 19, 20, 21 oder 55, 56, 20, 21), um das Prädiktionsfehlersignal pro Halbbild durch Orthogonaltransformation der 2^n-1-ten Ordnung in der vertikalen Richtung zu kodieren.
Vorrichtung nach Anspruch 1, bei welcher der zweite Kodierer die Orthogonaltransformation 2^n-1-ter Ordnung in der vertikalen Richtung durch Orthogonaltransformation 2ⁿ-ter Ordnung in der vertikalen Richtung jedes Pixelblocks des Bewegtbildsignals in solcher Weise ausführt, dass spezifische Daten in eine Hälfte jedes Blocks eingegeben werden und eine Hälfte der Koeffizienten, die durch die Orthogonaltransformation 2ⁿ-ter Ordnung in der vertikalen Richtung erzeugt werden, vernachlässigt werden.
Vorrichtung nach Anspruch 1 oder 2, bei welcher der erste Kodierer Daten empfängt, die ein Vollbild eines progressiv abgetasteten Bewegtbildsignals repräsentieren, um Daten zu erzeugen, die spezifische Vollbilder repräsentieren.
Vorrichtung zum effizienten Dekodieren eines Bewegtbildsignals, umfassend: einen ersten Dekodierer (61, 60, 120, 110), um spezifische Vollbilder zu dekodieren, die für jede vorgegebene Periode in einem zu dekodierenden Bewegtbild-Bitstrom vorhanden sind, und zwar durch inverse Orthogonaltransformation und Intraframe-Verarbeitung oder durch unidirektionale Prädiktion unter Verwendung anderer kodierter spezifischer Vollbilder, um so ein Bewegtbildsignal für jedes progressiv abgetastete Vollbild zu reproduzieren; einen zweiten Dekodierer (67, 68, 69, 90), um ein Prädiktionsfehlersignal pro Halbbild für jedes Vollbild oder Halbbild des Bewegtbild-Bitstroms, das keines der spezifischen Vollbilder ist, durch inverse Orthogonaltransformation zu dekodieren; einen Prädiktor (65, 150), um die Vollbilder oder Halbbilder des Bewegtbildsignals, die nicht die spezifischen Vollbilder sind, zu prädizieren, und zwar unter Verwendung der spezifischen Vollbilder als ein vorhergehendes Bezugsvollbild und/oder ein ankommendes Bezugsvollbild, um so ein Bewegtbildsignal zu reproduzieren; dadurch gekennzeichnet, dass der erste Dekodierer durch inverse Orthogonaltransformation 2ⁿ-ter Ordnung (wobei n eine ganze Zahl ist) in vertikaler Richtung dekodiert und der zweite Dekodierer durch inverse Orthogonaltransformation 2^n-1-ter Ordnung in der vertikalen Richtung dekodiert.
Vorrichtung nach Anspruch 4, bei welcher der zweite Dekodierer die inverse Orthogonaltransformation 2^n-1-ter Ordnung in der vertikalen Richtung durch inverse Orthogonaltransformation 2ⁿ-ter Ordnung in der vertikalen Richtung jedes Pixelblocks des Prädiktionsfehlersignals in der vertikalen Richtung in solcher Weise ausführt, dass spezifische Daten in eine Hälfte jedes Blocks eingegeben werden und eine Hälfte der Koeffizienten, die durch die inverse Orthogonaltransformation 2ⁿ-ter Ordnung in der vertikalen Richtung erzeugt werden, vernachlässigt werden.
Verfahren zum effizienten Kodieren eines Bewegtbildsignals, wobei das Verfahren die folgenden Schritte umfasst: Kodieren progressiv abgetasteter spezifischer Vollbilder, die für jede vorgegebene Periode in einem zu kodierenden Bewegtbildsignal vorhanden sind, durch Intraframe-Verarbeitung oder durch unidirektionale Prädiktion unter Verwendung anderer kodierter spezifischer Vollbilder und durch Orthogonaltransformation; Prädizieren von Vollbildern oder Halbbildern des Bewegtbildsignals, die nicht die spezifischen Vollbilder sind, indem die spezifischen Vollbilder als ein vorhergehendes Bezugsvollbild und/oder ein kommendes Bezugsvollbild verwendet werden, um so ein Prädiktionsfehlersignal pro Halbbild für jedes prädizierte Voll- oder Halbbild zu erzeugen; gekennzeichnet durch Kodieren der progressiv abgetasteten Vollbilder durch Orthogonaltransformation der 2ⁿ-ten Ordnung (wobei n eine ganze Zahl ist) in vertikaler Richtung; und Kodieren des Prädiktionsfehlersignals pro Halbbild durch Orthogonaltransformation der 2^n-1-ten Ordnung in der vertikalen Richtung.
Verfahren nach Anspruch 6, welches vor dem Kodieren progressiv abgetasteter Vollbilder den Schritt beinhaltet, Daten zu empfangen, die ein Vollbild eines progressiv abgetasteten Bewegtbildsignals repräsentieren, um Daten zu erzeugen, welche spezifische Vollbilder repräsentieren.
Verfahren zum effizienten Dekodieren eines Bewegtbildsignals, wobei das Verfahren die folgenden Schritte umfasst: Dekodieren spezifischer Vollbilder, die für jede vorgegebene Periode in einem zu dekodierenden Bewegtbild-Bitstrom vorhanden sind, und zwar durch inverse Orthogonaltransformation und durch Intraframe-Verarbeitung oder durch unidirektionale Prädiktion unter Verwendung anderer kodierter spezifischer Vollbilder, sodass ein Bewegtbildsignal für jedes progressiv abgetastete Vollbild reproduziert wird; Dekodieren eines Prädiktionsfehlersignals pro Halbbild für jedes Vollbild oder Halbbild des Bewegtbild-Bitstroms, das keines der spezifischen Vollbilder ist, durch inverse Orthogonaltransformation; und Prädizieren der Vollbilder oder Halbbilder des Bewegtbildsignals, die nicht die spezifischen Vollbilder sind, indem die spezifischen Vollbilder als ein vorhergehendes Bezugsvollbild und/oder ein kommendes Bezugsvollbild verwendet werden, um so ein Bewegtbildsignal zu reproduzieren; gekennzeichnet durch Dekodieren spezifischer Vollbilder durch inverse Orthogonaltransformation der 2ⁿ-ten Ordnung (wobei n eine ganze Zahl ist) in vertikaler Richtung, und durch Dekodieren des Prädiktionsfehlersignals durch inverse Orthogonaltransformation der 2^n-1-ten Ordnung in der vertikalen Richtung.