DE69615948T2

DE69615948T2 - Hierarchischer Bildkodierer und -dekodierer

Info

Publication number: DE69615948T2
Application number: DE69615948T
Authority: DE
Inventors: Norio Ito; Hiroyuki Katata; Hiroshi Kusao; Toshio Nomura
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1995-07-14
Filing date: 1996-07-09
Publication date: 2002-06-20
Anticipated expiration: 2016-07-10
Also published as: DE69615948D1; DE69626142D1; EP0961498B1; US6084914A; EP0961496A2; US5963257A; US6023301A; EP0753970A2; DE69626142T2; EP0961496B1; EP0753970B1; US6023299A; US6088061A; EP0961497B1; EP0753970A3; US5986708A; DE69634423T2; DE69628467T2; EP0961497A3; EP0961496A3

Description

HINTERGRUND DER ERFINDUNG

Die Erfindung betrifft den technischen Bereich digitaler Videoverarbeitung, und sie betrifft insbesondere eine Videocodiervorrichtung zum Codieren von Videodaten mit hoher Effizienz sowie eine Videodecodiervorrichtung zum Decodieren von durch die Videocodiervorrichtung erstellten codierten Daten mit hoher Effizienz.
Es wurde ein Videocodierverfahren vorgeschlagen, mit dem es möglich ist, einen spezifizierten Bereich so zu codieren, dass er höhere Bildqualität als andere Bereiche aufweist.
Ein in Literaturstellen ISO/IEC JTC1/SC29/WG11 MPEG95/030 beschriebenes Videocodierverfahren ist dergestalt, dass ein spezifizierter Bereich ausgewählt wird (nachfolgend als ausgewählter Bereich bezeichnet) und dafür gesorgt wird, dass dieser durch Einstellen der Quantisier-Schrittgrößen und der zeitlichen Auflösung so codiert wird, dass er höhere Bildqualität aufweist.
Ein anderes herkömmliches Verfahren verfügt über einen Bereichsauswählabschnitt, der dazu vorgesehen ist, einen spezifizierter Bereich eines Videobilds auszuwählen. Im Fall eines Auswahlvorgangs, z. B. für einen Gesichtsbereich eines Videobilds auf einem Display eines Videotelefons, ist es möglich, einen Bereich unter Verwendung eines Verfahrens auszuwählen, wie es in der Literaturstelle "Realtime auto facetracking system" (The Institute of Image Electronics Engineers of Japan, Previewing Report of Society Meeting, 93-04-04, S. 13-16, 1993) beschrieben ist.
Ein Bereichs-Position/Form-Codierabschnitt codiert die Position und die Form eines ausgewählten Bereichs. Eine wahlfreie Form kann unter Verwendung von z. B. Kettencodes codiert werden. Die codierte Position und Form werden zu codierten Daten zusammengesetzt und durch einen Integrierabschnitt für codierte Daten übertragen oder angesammelt.
Ein Einstellabschnitt für codierte Parameter stellt eine Anzahl von Parametern, die zum Einstellen der Bildqualität oder der Datenmenge bei einem Videocodiervorgang verwendbar sind, so ein, dass der Bereichs-Position/- Form-Codierabschnitt einen ausgewählten Bereich so codieren kann, dass er höhere Bildqualität als andere Bereiche aufweist.
Ein Parametercodierabschnitt codiert eine Anzahl eingestellter Parameter. Die codierten Parameter werden zu codierten Daten zusammengefasst und durch einen Integrierabschnitt für codierte Daten übertragen oder angesammelt. Der Videocodierabschnitt codiert eingegebene Videodaten unter Verwendung einer Anzahl der Parameter durch eine Kombination herkömmlicher Codierverfahren wie Bewegungs-kompensierender Vorhersage, orthogonaler Transformation, Quantisierung und Codierung mit variabler Lauflänge. Die codierten Videodaten werden durch den Integrierabschnitt für codierte Daten zu codierten Daten zusammengesetzt, und dann werden die codierten Daten übertragen oder angesammelt.
So wird der ausgewählte Bereich so codiert, dass er über höhere Bildqualität als andere Bereiche verfügt.
Wie oben angegeben, wird bei der herkömmlichen Technik die Qualität des Bilds eines ausgewählten Bereichs dadurch verbessert, dass ihm durch Einstellen von Parametern wie der Quantisierer-Schrittgrößen, der räumlichen Auflösung, der zeitlichen Auflösung eine größere Bitmenge zugeordnet wird. Die herkömmliche Technik beinhaltet jedoch Probleme dahingehend, dass kein Bild eines spezifizierten Bereichs durch Decodieren eines Teils decodierter Daten erhalten werden kann und/oder ein Bild eines decodierten Bereichs mit relativ niedriger Qualität erhalten werden kann, da ein ausgewählter Bereich und andere Bereiche in derselben Gruppe codierter Daten enthalten sind. In jüngerer Zeit erfolgten viele Untersuchungen zur hierarchischen Struktur codierter Daten, jedoch wurde kein Erfolg beim Erzeugen eines Systems erzielt, das die Auswahl eines spezifizierten Bereichs erlaubt.
Es wurde ein Videocodierverfahren untersucht, das so ausgebildet ist, dass es verschiedene Arten von Videosequenzen synthetisiert.
Eine in Technical Report of IEICE (Institute of Electronics Information and Communication Engineers) IE94-159, S. 99-106, 1995 erschienene Veröffentlichung "Image coding using hierarchical representation and multiple templates" beschreibt ein Bildsynthetisierverfahren, das eine ein Hintergrundvideosignal darstellende Videosequenz und eine ein Vordergrund-Videosignal (z. B. ein Figurenbild oder ein Fischbild, das unter Verwendung der Chromaschlüssel-Technik ausgeschnitten wird) bildende Teilvideosequenz kombiniert, um eine neue Sequenz zu erzeugen.
Bei einem herkömmlichen Verfahren wird angenommen, dass eine erste Videosequenz ein Hintergrundvideosignal ist und eine zweite Videosequenz ein Teilvideosignal ist. Eine Alphaebene entspricht gewichteten Daten, wie sie verwendet werden, wenn ein Teilbild mit einem Hintergrundbild in einer Sequenz eines bewegten Bild (Video) synthetisiert wird. Es wurde ein beispielhaftes Bild aus Pixeln vorgeschlagen, die mit Werten von 1 bis 0 gewichtet sind. Es wird davon ausgegangen, dass die Daten der Alphaebene innerhalb eines Teils den Wert 1 haben und außerhalb eines Teils den Wert 0 haben. Die Alphadaten können in einem Grenzabschnitt zwischen einem Teil und dessen Außenseite einen Wert von 0 bis 1 aufweisen, um einen Mischzustand von Pixelwerten im Grenzabschnitt und die Transparenz einer transparenten Substanz wie Glas zu kennzeichnen.
Beim herkömmlichen Verfahren codiert ein erster Videocodierabschnitt die erste Videosequenz, und ein zweiter Videocodierabschnitt codiert die zweite Videosequenz entsprechend einem international standardisierten Videocodiersystem, z. B. MPEG oder H.261. Ein Alphaebene-Codierabschnitt codiert eine Alphaebene. Gemäß der o.g. Veröffentlichung verwendet dieser Abschnitt die Techniken der Vektorquantisierung und der Haar-Transformation. Ein Integrierabschnitt (nicht dargestellt) für codierte Daten integriert von den Codierabschnitten empfangene codierte Daten und führt eine Ansammlung oder Übertragung der integrierten codierten Daten aus.
Bei einer Decodiervorrichtung gemäß dem herkömmlichen Verfahren führt ein Zerlegungsabschnitt (nicht dargestellt) für codierte Daten eine Zerlegung codierter Daten in die codierten Daten der ersten Videosequenz, die codierten Daten der zweiten Videosequenz und die codierten Daten der Alphaebene aus, die dann durch einen ersten Videodecodierabschnitt, einen zweiten Videodecodierabschnitt bzw. einen Alphaebene-Decodierabschnitt decodiert werden. Zwei decodierte Sequenzen werden entsprechend gewichteten Mittelwerten durch einen ersten Gewichtungsabschnitt, einen zweiten Gewichtungsabschnitt und einen Addierer synthetisiert. Die erste und die zweite Videosequenz werden gemäß der folgenden Gleichung kombiniert:
f(x,y,t) = (1 - α(x,y,t))f1(x,y,t) + α(x,y,t)f2(x,y,t)
In dieser Gleichung repräsentiert (x, y) Koordinatendaten einer Intrarahmenpixel-Position, t bezeichnet eine Rahmenzeit, f1(x,y,t) repräsentiert einen Pixelwert der ersten Videosequenz, f2(x,y,t) repräsentiert einen Pixelwert der zweiten Videosequenz, f(x,y,t) repräsentiert einen Pixelwert der synthetisierten Videosequenz und α(x,y,t) repräsentiert Daten der Alphaebene. D. h., dass der erste Gewichtungsabschnitt 1-α(x,y,t) als Gewichtung verwendet, während der zweite Gewichtungsabschnitt α(x,y,t) als Gewichtung verwendet. Wie oben angegeben, wird durch das herkömmliche Verfahren eine große Anzahl codierter Daten erzeugt, da es Daten der Alphaebene codieren muss.
Um dieses Problem zu vermeiden, kann eine Einsparung an Informationsmenge durch Digitalisierung von Daten der Alphaebene in Betracht gezogen werden, jedoch geht damit ein visueller Defekt dahingehend einher, dass an der Grenze zwischen einem Bildteil und einem Hintergrund als Ergebnis der diskontinuierlichen Änderung von Pixelwerten dort herum eine gezahnte Linie auftritt.
Es wurde ein Videocodierverfahren untersucht, das dazu verwendet wird, verschiedene Arten von Videosequenzen zu synthetisieren.
Eine in Technical Report of IEICE IE94-159, S. 99-106, 1995, beschriebene Veröffentlichung "Image coding using hierarchical representation and multiple templates" beschreibt ein Bildsynthetisierverfahren, bei dem eine ein Hintergrundvideosignal bildende Videosequenz und eine ein Vordergrundvideosignal (z. B. ein Figurenbild oder ein Fischbild, das unter Verwendung der Chromaschlüssel-Technik ausgeschnitten wird) bildende Teilvideosequenz kombiniert werden, um eine neue Sequenz zu erzeugen.
Eine Veröffentlichung "Temporal Scalability based on image content" (ISO/IEC JTC1/SC29/WG11 MPEG95/211, (1995)), beschreibt eine Technik zum Erzeugen einer neuen Videosequenz durch Synthetisieren einer Teilvideosequenz mit hoher Rahmenrate mit einer Videosequenz niedriger Rahmenrate. Dieses System dient zum Codieren eines Rahmens einer unteren Schicht mit niedriger Rahmenrate durch ein vorhersagendes Codierverfahren und zum Codieren nur eines ausgewählten Bereichs eines Rahmens einer oberen Schicht mit hoher Rahmenrate durch vorhersagendes Codieren. Die obere Schicht codiert keinen in der unteren Schicht codierten Rahmen, sondern sie verwendet eine Kopie des decodierten Bilds der unteren Schicht. Der ausgewählte Bereich kann als zu beachtender Teil eines Bilds, z. B. als menschliche Gestalt, angesehen werden.
Bei einem herkömmlichen Verfahren wird, auf der Codierseite, eine eingegebene Videosequenz durch einen ersten und einen zweiten Ausdünnungsabschnitt ausgedünnt, und die ausgedünnte Videosequenz mit verringerter Rahmenrate wird dann an einen Codierabschnitt einer oberen Schicht bzw. einen Codierabschnitt einer unteren Schicht übertragen. Der Codierabschnitt der oberen Schicht verfügt über eine höhere Rahmenrate als der Codierabschnitt der unteren Schicht. Der Codierabschnitt der unteren Schicht codiert das gesamte Bild jedes Rahmens in der empfangenen Videosequenz unter Verwendung eines international standardisierten Videocodierverfahrens wie MPEG, H.261 usw. Der Codierabschnitt der unteren Schicht erstellt auch decodierte Rahmen, die für vorhersagendes Codieren verwendet werden und gleichzeitig in einen Synthetisierabschnitt eingegeben werden.
In einem Codemenge-Steuerabschnitt eines herkömmlichen Codierabschnitts codiert ein Codierabschnitt Videorahmen unter Verwendung eines Verfahrens oder einer Kombination von Verfahren wie bewegungskompensierter Vorhersage, orthogonaler Transformation, Quantisierung, Codierung mit variabler Lauflänge usw. Ein die Quantisierungsbreite (Schrittgröße) bestimmender Abschnitt bestimmt die in einem Codierabschnitt zu verwendende Quantisierungsbreite (Schrittgröße). Ein Abschnitt zum Bestimmen der Menge codierter Daten berechnet die angesammelte Menge erzeugter codierter Daten. Im Allgemeinen wird die Quantisierungsbreite erhöht oder erniedrigt, um eine Zunahme oder Abnahme der Menge codierter Daten zu verhindern.
Der Codierabschnitt der oberen Schicht codiert nur einen ausgewählten Teil jedes Rahmens in einer empfangenen Videosequenz auf Grundlage von Bereichsinformation unter Verwendung eines international standardisierten Videocodierverfahrens wie MPEG, H.261 usw. Jedoch werden im Codierabschnitt der unteren Schicht codierte Rahmen nicht durch den Codierabschnitt der oberen Schicht codiert. Die Bereichsinformation ist Information, die einen ausgewählten Bereich, z. B. ein Bild einer menschlichen Gestalt in jedem Videorahmen, anzeigt, wobei es sich um ein digitalisiertes Bild handelt, das im ausgewählten Bereich den Wert 1 einnimmt und außerhalb desselben den Wert 0 einnimmt. Der Codierabschnitt der oberen Schicht erstellt auch decodierte, ausgewählte Bereiche jedes Rahmens, die an den Synthetisierabschnitt übertragen werden.
Ein Bereichsinformations-Codierabschnitt codiert Bereichsinformation unter Verwendung von 8-direktionalen Quantisiercodes. Ein 8-direktionaler Quantisiercode ist ein numerischer Code, der die Richtung eines vorigen Punkts anzeigt und im Allgemeinen dazu verwendet wird, digitale Graphik zu repräsentieren.
Ein Synthetisierabschnitt gibt einen decodierten Videorahmen der unteren Schicht aus, der durch den Codierabschnitt der unteren Schicht codiert wurde und zu synthetisieren ist. Wenn ein zu synthetisierender Rahmen vorliegt, der im Codierabschnitt der unteren Schicht nicht codiert wurde, gibt der Synthetisierabschnitt einen decodierten Videorahmen aus, der unter Verwendung zweier codierter Rahmen erzeugt wird, die in der unteren Schicht codiert wurden und vor und hinter dem fehlenden Rahmen der unteren Schicht stehen, sowie einen decodierten Rahmen der unteren Schicht, der zu synthetisieren ist. Die zwei Rahmen der unteren Schicht stehen vor und hinter dem Rahmen der oberen Schicht. Der synthetisierte Videorahmen wird in den Codierabschnitt der oberen Schicht eingegeben, um dort für vorhersagende Codierung verwendet zu werden. Die Bildverarbeitung im Synthetisierabschnitt ist die Folgende:
Als Erstes wird ein Interpolationsbild für zwei Rahmen der unteren Schicht erzeugt. Das decodierte Bild der unteren Schicht zum Zeitpunkt t wird als B(a,y,t) ausgedrückt, wobei x und y Koordinaten sind, die die Position eines Pixels im Raum definieren. Wenn die zwei decodierten Bilder der unteren Schicht auf den Zeitpunkten t1 und t2 liegen und das decodierte Bild der oberen Schicht auf t3 liegt (t1< t3< t2), wird das Interpolationsbild I(a,y,t3) zum Zeitpunkt t3 gemäß der folgenden Gleichung (1) berechnet:
I(x,y,t3) = [(t2-t3)B(x,y,t1) + (t3-t1)B(x,y,t2)]/(t2-t1) (1)
Dann wird das decodierte Bild E der oberen Schicht mit dem erhaltenen Interpolationsbild I unter Verwendung von Synthetisierungs-Gewichtungsinformation W(x,y,t) synthetisiert, die aus Bereichsinformation erzeugt wurde. Ein synthetisiertes Bild 5 wird gemäß der folgenden Gleichung definiert:
S(x,y,t) = [1 - W(x,y,t)]I(x,y,t) + E(x,y,t)W(x,y,t) (2)
Die Bereichsinformation M(x,y,t) ist ein digitalisiertes Bild, das in einem ausgewählten Bereich den Wert 1 einnimmt und außerhalb desselben den Wert 0 einnimmt. Die Gewichtungsinformation W(x,y,t) kann durch mehrmaliges Verarbeiten des o.g. digitalisierten Bilds mit einem Tiefpassfilter erhalten werden. D. h., dass die Gewichtungsinformation W(x,y,t) in einem ausgewählten Bereich den Wert 1 einnimmt, außerhalb desselben den Wert 0 einnimmt und an der Grenze des ausgewählten Bereichs einen Wert von 0 bis 1 einnimmt.
Die im Codierabschnitt der unteren Schicht, dem Codierabschnitt der oberen Schicht und dem Bereichsinformations-Codierabschnitt erzeugten codierten Daten werden durch einen Integrierabschnitt (nicht dargestellt) integriert und dann übertragen oder angesammelt.
Auf der Decodierseite des herkömmlichen Systems trennt ein Zerlegungsabschnitt (nicht dargestellt) für codierte Daten die codierten Daten in solche der unteren Schicht, solche der oberen Schicht und solche von Bereichsinformation. Diese codierten Daten werden durch einen Decodierabschnitt einer unteren Schicht, einen Decodierabschnitt einer oberen Schicht und einen Bereichsinformations-Decodierabschnitt decodiert.
Ein Synthetisierabschnitt auf der Decodierseite weist ähnlichen Aufbau wie der Synthetisierabschnitt auf. Er synthetisiert ein Bild unter Verwendung eines decodierten Bilds der unteren Schicht und eines decodierten Bilds der oberen Schicht gemäß demselben Verfahren, wie es für die Codierseite beschrieben wurde. Der synthetisierte Videorahmen wird auf einem Anzeigeschirm angezeigt, und er wird gleichzeitig in den Decodierabschnitt der oberen Schicht eingegeben, um dort zur Vorhersage verwendet zu werden.
Die oben beschriebene Decodiervorrichtung decodiert Rahmen sowohl der unteren als auch der oberen Schicht, jedoch ist auch eine Decodiervorrichtung angewandt, die einen Decodierabschnitt für die untere Schicht bildet, wobei der Codierabschnitt für die obere Schicht und der Synthetisierabschnitt weggelassen sind. Diese vereinfachte Decodiervorrichtung kann einen Teil codierter Daten reproduzieren.
Durch die Erfindung zu lösende Probleme sind die Folgenden:
(1) Wie oben angegeben, wird bei der herkömmlichen Technik ein Ausgangsbild aus zwei decodierten Bildern einer unteren Schicht und einem decodierten Bild einer oberen Schicht dadurch erhalten, dass vorab ein Interpolationsbild zweier Rahmen der unteren Schicht erzeugt wird, wodurch man auf ein Problem dahingehend stößt, dass das Ausgangsbild bei einer um einen ausgewählten Bereich in ihm auftretenden großen Störung beträchtlich beeinträchtigt ist, wenn sich die Position des ausgewählten Bereichs zeitlich ändert.
Das oben genannte Problem wird wie folgt beschrieben:
Bilder A und C sind zwei decodierte Rahmen der unteren Schicht, und ein Bild B ist ein decodierter Rahmen der oberen Schicht. Die Bilder werden in der zeitlichen Reihenfolge A, B und C angezeigt. Da sich der ausgewählte Bereich bewegt, zeigt ein aus den Bildern A und B bestimmtes Interpolationsbild zwei ausgewählte Bereiche, die einander überlappen. Das Bild B wird ferner unter Verwendung von Gewichtungsinformation mit dem Interpolationsbild synthetisiert. Im Ausgangsbild überlappen drei ausgewählte Bereiche einander. Zwei ausgewählte Bereiche des Bilds der unteren Schicht erscheinen wie ein Nachbild um das Bild des ausgewählten Bereichs in der oberen Schicht, wodurch die Bildqualität beträchtlich beeinträchtigt wird. Da die Rahmen der unteren Schicht normal sind und nur synthetisierte Rahmen die o.g. Störung aufweisen, kann die Videosequenz mit einer periodischen, flackerähnlichen Störung angezeigt werden, die die Videobildqualität beträchtlich beeinträchtigt.
(2) Die herkömmliche Technik verwendet 8-direktionale guantisierungscodes zum Codieren von Bereichsinformation. Im Fall der Codierung von Bereichsinformation mit niedriger Bitrate oder eines Bereichs komplizierter Form nimmt die Menge codierter Bereichsinformation zu und nimmt einen großen Anteil der Gesamtmenge codierter Daten ein, was zu einer Beeinträchtigung der Bildqualität führen kann.
(3) Bei der herkömmlichen Technik wird Gewichtungsinformation dadurch erhalten, dass dafür gesorgt wird, dass die Bereichsinformation mehrmals durch ein Tiefpassfilter läuft. Dies erhöht den Umfang an Verarbeitungsvorgängen.
(4) Die herkömmliche Technik verwendet ein Verfahren mit vorhersagender Codierung. Jedoch kann die vorhersagende Codierung von Rahmen der unteren Schicht zu einer großen Störung führen, wenn in einer Videosequenz ein Schirmwechsel auftritt. Eine Störung irgendeines Rahmens der unteren Schicht kann sich über in Zusammenhang stehende Bilder der oberen Schicht ausbreiten, was zu einer verlängerten Störung des Videosignals führt.
(5) Gemäß der herkömmlichen Technik wird jeder Rahmen der unteren Schicht unter Verwendung eines international standardisierten Videocodierverfahrens (z. B. MPEG und H.261) codiert, wodurch das Bild eines ausgewählten Bereichs hinsichtlich der Qualität wenig von anderen Bereichen verschieden ist. Dagegen wird in jedem Rahmen der oberen Schicht nur ein ausgewählter Bereich so codiert, dass er von hoher Qualität ist, wodurch die Qualität des Bilds des ausgewählten Bereichs zeitlich variiert. Dies wird als flackerähnliche Störung wahrgenommen, die ein Problem bildet.

ZUSAMMENFASSUNG DER ERFINDUNG

Demgemäß ist es eine Aufgabe der Erfindung, Codier- und Decodiervorrichtungen zu schaffen, die einen selektiv spezifizierten Bereich eines Videobilds so codieren können, dass es im gesamten System codierter Videodaten von relativ hoher Bildqualität ist, und die auch für eine hierarchische Struktur der codierten Daten sorgen können, was es ermöglicht, den spezifizierten Bereich des codierten Videobilds mit einer Variation der Bildqualität und/oder irgendeinen anderen Bereich mit relativ niedriger Bildqualität zu reproduzieren.
Mit den so aufgebauten Codier- und Decodiervorrichtungen kann ein ausgewählter Bildbereich so codiert und decodiert werden, dass er höhere Bildqualität als andere Bereiche aufweist, was durch Unterscheiden von Werten von Parametern wie der räumlichen Auflösung, der Quantisiererschrittgrößen und der zeitlichen Auflösung erfolgt. Die Codiervorrichtung kann dafür sorgen, dass codierte Daten jeweilige hierarchische Ordnungen aufweisen, weswegen die Decodiervorrichtung auf einfache Weise einen Teil codierter Daten decodieren kann.
Eine andere Aufgabe der Erfindung ist es, eine Codiervorrichtung und eine Decodiervorrichtung zu schaffen, die dazu in der Lage sind, ein synthetisiertes Bild aus einer verringerten Menge codierter Daten zu erzeugen, ohne dass die Qualität des synthetisierten Bilds beeinträchtigt wird.
Bei den Codier- und Decodiervorrichtungen gemäß der Erfindung kann die Decodiervorrichtung Gewichtungsinformation zum Synthetisieren mehrerer Videosequenzen unter Verwendung einer Gewichtungseinrichtung erstellen, was das Erfordernis beseitigt, Gewichtungsinformation durch die Codiervorrichtung zu codieren.
Die codierten Daten werden gewichtet, was insgesamt zu einer Einsparung der Menge zu erzeugender Daten führen kann.
Die auf der Decodierseite ausgeführte Gewichtungsumkehr kann von der Gewichtung befreite decodierte Daten erzeugen.
Eine andere Aufgabe der Erfindung ist es, eine Codiervorrichtung und eine Decodiervorrichtung zu schaffen, die frei von den o.g. Problemen sind (die als zu lösende Probleme (1) bis (5) im Stand der Technik beschrieben sind) und die Videorahmen mit einer verringerten Menge codierter Daten codieren können, ohne dass die Bildqualität beeinträchtigt wird.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

Fig. 1 ist ein Blockdiagramm zum Erläutern eines Stands der Technik.
Fig. 2 ist eine Ansicht zum Erläutern eines Konzepts eines Codierverfahrens gemäß der Erfindung.
Fig. 3 zeigt ein Beispiel eines Konzepts eines Decodierverfahrens gemäß der Erfindung.
Fig. 4 zeigt ein anderes Beispiel eines Konzepts eines Decodierverfahrens gemäß der Erfindung.
Fig. 5 ist ein Blockdiagramm, das eine Codiervorrichtung zeigt, die eine Ausführungsform der Erfindung repräsentiert.
Fig. 6 zeigt ein beispielhaftes Verfahren zum Codieren von Codedaten einer unteren Schicht, einer ersten oberen Schicht und einer zweiten oberen Schicht durch eine Codiervorrichtung gemäß der Erfindung.
Fig. 7 zeigt ein anderes beispielhaftes Verfahren zum Codieren erster Codedaten einer oberen Schicht durch eine Codiervorrichtung gemäß der Erfindung.
Fig. 8 zeigt ein anderes beispielhaftes Verfahren zum Codieren von Codedaten einer unteren Schicht, einer ersten oberen Schicht und einer zweiten oberen Schicht durch eine Codiervorrichtung gemäß der Erfindung.
Fig. 9 zeigt ein anderes beispielhaftes Verfahren zum Codieren von Codedaten einer unteren Schicht, einer ersten oberen Schicht und einer zweiten oberen Schicht durch eine Codiervorrichtung gemäß der Erfindung.
Fig. 10 ist ein Blockdiagramm, das eine Decodiervorrichtung zeigt, die eine Ausführungsform der Erfindung repräsentiert.
Fig. 11 ist ein Blockdiagramm, das eine Decodiervorrichtung zeigt, die eine andere Ausführungsform der Erfindung repräsentiert.
Fig. 12 ist ein Blockdiagramm, das eine Decodiervorrichtung zeigt, die eine andere Ausführungsform der Erfindung repräsentiert.
Fig. 13 ist ein Blockdiagramm zum Erläutern eines herkömmlichen Verfahrens.
Fig. 14 zeigt ein Beispiel einer Alphaebene gemäß einem herkömmlichen Verfahren.
Fig. 15 ist ein Blockdiagramm zum Erläutern einer Ausführungsform der Erfindung.
Fig. 16 zeigt ein Beispiel von Bereichsinformation gemäß der Erfindung.
Fig. 17 zeigt ein Beispiel einer linearen Gewichtungsfunktion gemäß der Erfindung.
Fig. 18 zeigt ein Beispiel zum Erstellen einer Alphaebene gemäß der Erfindung.
Fig. 19 ist ein Blockdiagramm zum Erläutern einer anderen Ausführungsform der Erfindung.
Fig. 20 ist ein Blockdiagramm zum Erläutern eines Beispiels eines Videocodierabschnitts bei einer anderen Ausführungsform der Erfindung.
Fig. 21 ist ein Blockdiagramm zum Erläutern eines Videodecodierabschnitts bei einer anderen Ausführungsform der Erfindung.
Fig. 22 ist ein Blockdiagramm zum Erläutern eines anderen Beispiels eines Videocodierabschnitts bei einer anderen Ausführungsform der Erfindung.
Fig. 23 ist ein Blockdiagramm zum Erläutern eines anderen Beispiels eines Videodecodierabschnitts bei einer anderen Ausführungsform der Erfindung.
Fig. 24 ist ein Blockdiagramm zum Erläutern eines anderen Beispiels eines Videocodierabschnitts bei einer anderen Ausführungsform der Erfindung.
Fig. 25 ist ein Blockdiagramm zum Erläutern eines anderen Beispiels eines Videodecodierabschnitts bei einer anderen Ausführungsform der Erfindung.
Fig. 26 ist ein Blockdiagramm zum Erläutern eines beispielhaften Falls dahingehend, dass bei einer anderen Ausführungsform der Erfindung keine Bereichsinformation codiert wird.
Fig. 27 zeigt ein Konzept eines herkömmlichen Verfahrens.
Fig. 28 ist ein Blockdiagramm zum Erläutern eines herkömmlichen Codier- und Decodiersystems.
Fig. 29 ist ein Blockdiagramm zum Erläutern eines herkömmlichen Verfahrens zum Steuern der Anzahl von Codes.
Fig. 30 ist eine Ansicht zum Erläutern eines 8-direktionalen Quantisierungscodes.
Fig. 31 ist eine Ansicht zum Erläutern von Problemen bei einem herkömmlichen Verfahren.
Fig. 32 ist ein Blockdiagramm zum Erläutern einer Ausführungsform der Erfindung.
Fig. 33 ist eine Ansicht zum Erläutern von Effekten einer Ausführungsform der Erfindung.
Fig. 34 ist ein Blockdiagramm zum Erläutern einer anderen Ausführungsform der Erfindung.
Fig. 35 ist ein Blockdiagramm zum Erläutern einer Codierseite einer anderen Ausführungsform der Erfindung.
Fig. 36 ist ein Blockdiagramm zum Erläutern einer Decodierseite einer anderen Ausführungsform der Erfindung.
Fig. 37 zeigt ein Beispiel zum Annähern von Bereichsinformation unter Verwendung von Rechtecken.
Fig. 38 ist ein Blockdiagramm zum Erläutern einer anderen Ausführungsform der Erfindung.
Fig. 39 zeigt ein beispielhaftes Verfahren zum Erstellen von Gewichtungsinformation gemäß der Erfindung.
Fig. 40 ist ein Blockdiagramm zum Erläutern einer anderen Ausführungsform der Erfindung.
Fig. 41 ist ein Blockdiagramm zum Erläutern einer anderen Ausführungsform der Erfindung.
Fig. 42 ist eine Ansicht zum Erläutern eines Zielkoeffizienten von Codes, wie zum Codieren eines ausgewählten Bereichs durch ein Codemenge-Steuerverfahren gemäß der Erfindung verwendbar.
Fig. 43 ist eine Ansicht zum Erläutern eines Zielkoeffizienten von Codes, wie zum Codieren eines Bereichs außerhalb eines ausgewählten Bereichs durch ein Codemenge-Steuerverfahren gemäß der Erfindung verwendbar.
Fig. 44 ist eine Ansicht zum Erläutern eines Zielkoeffizienten von Codes, wie zum Codieren eines Bereichs außerhalb eines ausgewählten Bereichs durch ein Codemenge-Steuerverfahren gemäß der Erfindung verwendbar.

BEVORZUGTE AUSFÜHRUNGSFORM DER ERFINDUNG

Die Fig. 1 ist ein Blockdiagramm, die einen Stand der Technik zum Vergleich mit der Erfindung zeigt. Ein Bereichsauswählabschnitt 20 soll einen spezifizierten Bereich eines Videobilds auswählen. Im Fall eines Auswählvorgangs, z. B. für einen Gesichtsbereich eines Videobilds auf einem Display eines Videotelefons, ist es möglich, einen Bereich unter Verwendung eines Verfahrens auszuwählen, das in der Literaturstelle "Real-time auto facetracking system" (The Institute of Image electronics Engineers of Japan, Previewing Report of Society Meeting, S. 13-16, 1993) beschrieben ist.
In der Fig. 1 codiert ein Bereichs-Position/Form--Codierabschnitt 21 die Position und die Form eines ausgewählten Bereichs. Es kann eine wahlfreie Farm dadurch codiert werden, dass z. B. Kettencodes verwendet werden. Die codierte Position und die codierte Form werden zu Codedaten zusammengesetzt und durch einen Codedaten-Integrierabschnitt 22 übertragen oder angesammelt.
Ein Codeparameter-Einstellabschnitt 23 stellt eine Anzahl von Parametern ein, die dazu verwendbar sind, die Bildqualität oder die Datenmenge bei der Videocodierung so einzustellen, dass der Bereichs-Position/Form-Codierabschnitt 21 einen ausgewählten Bereich so codieren kann, dass er höhere Bildqualität als die anderen Bereiche aufweist.
Der Parametercodierabschnitt 24 codiert eine Anzahl eingestellter Parameter. Die Codeparameter werden zu Codedaten zusammengesetzt und durch den Codedaten-Integrierabschnitt 22 übertragen oder angesammelt. Der Videocodierabschnitt 25 codiert eingegebene Videodaten unter Verwendung einer Anzahl der Parameter mittels einer Kombination herkömmlicher Codierverfahren wie bewegungskompensierte Vorhersage, orthogonale Transformation, Quantisierung und Codierung mit variabler Lauflänge. Die codierten Videodaten werden durch den Codedaten-Integrierabschnitt 22 zu Codedaten zusammengesetzt, und dann werden die Codedaten übertragen oder angesammelt. Das Konzept der Erfindung wird wie folgt beschrieben.
Die Fig. 2 ist eine Ansicht zum Erläutern des Konzepts des erfindungsgemäßen Codierverfahrens. Das hierarchische Codierverfahren der Erfindung verwendet eine untere Schicht (untere Ebene) und zwei obere Schichten (höhere Ebenen). In der unteren Schicht wird ein ausgewählter Bereich (schraffierter Bereich) mit relativ niedriger Bildqualität codiert. Ein zu beachtender Zeitpunkt wird mit t gekennzeichnet, und ein decodiertes Bild zum Zeitpunkt t wird durch L(t) gekennzeichnet. In der ersten oberen Schicht wird das gesamte Bild so codiert, dass es relativ niedrige Bildqualität aufweist. Ein codiertes Bild dieser Schicht wird durch H1(t) gekennzeichnet. In diesem Fall erfolgt vorhersagendes Codieren unter Verwendung des decodierten Bilds der unteren Schicht L(t) und des decodierten Bilds der ersten oberen Schicht H1(t-1). In der zweiten oberen Schicht wird nur der ausgewählte Bereich vorhersagend so codiert, dass er höhere Bildqualität als der der unteren Schicht aufweist. Das decodierte Bild dieser Schicht wird mit H2(t) gekennzeichnet. In diesem Fall erfolgt vorhersagendes Codieren unter Verwendung des decodierten Bilds der unteren Schicht L(t) und des decodierten Bilds der zweiten oberen Schicht H2(t-1).
Die Fig. 3 und 4 sind für das Konzept des erfindungsgemäßen Decodierverfahrens veranschaulichend. Die Fig. 3 zeigt Decodierprozesse in drei Schichten: Decodieren nur der Daten der unteren Schicht, Decodieren nur der Daten der ersten oberen Schicht und Decodieren der Daten aller Schichten. In diesem Fall wird durch das Decodieren der Daten der unteren Schicht nur ein Bild wiedergegeben, für das von der Codiervorrichtung relativ niedrige Bildqualität ausgewählt wurde. Durch Decodieren der Daten der ersten oberen Schicht wird ein gesamtes Bild mit relativ niedriger Bildqualität wiedergegeben, und durch Decodieren aller Codedaten werden der ausgewählte Bereich mit höherer Bildqualität und alle anderen Bereiche mit niedrigerer Bildqualität wiedergegeben. Andererseits zeigt die Fig. 4 den Fall, dass alle decodierten Signale decodiert werden, nachdem die Daten der zweiten oberen Schicht anstelle der Daten der ersten oberen Schicht decodiert wurden. In diesem Fall werden die Daten einer Zwischenschicht (der zweiten oberen Schicht) decodiert, um einen ausgewählten Bildbereich nur mit höherer Bildqualität wiederzugeben.
Mit der erfindungsgemäßen Decodiervorrichtung wird nur ein ausgewählter Bildbereich mit niedrigerer Bildqualität aus einer niedrigeren Schicht entsprechenden Codedaten wiedergegeben, während das gesamte Bild mit niedrigerer Bildqualität oder nur ein ausgewählter Bereich mit höherer Bildqualität aus der oberen Schicht entsprechenden Codedaten wiedergegeben wird. D. h., dass eine beliebige der zwei oberen Schichten über einer gemeinsamen unteren Schicht ausgewählt werden kann.
Eine Ausführungsform der Erfindung wird wie folgt beschrieben.
Die Fig. 5 ist ein Blockdiagramm, das eine die Erfindung verkörpernde Codiervorrichtung zeigt.
In der Fig. 5 weisen ein Bereichsauswählabschnitt 5 und ein Bereichs-Position/Form-Codierabschnitt 6 ähnliche Funktion wie diejenigen beim in der Fig. 1 dargestellten Stand der Technik auf.
In der Fig. 5 codiert ein Codierabschnitt 4 für die untere Schicht nur einen Bereich, der vom Bereichsauswählabschnitt 5 für niedrigere Bildqualität ausgewählt wurde, er erstellt Codedaten für die untere Schicht und er erzeugt aus den Codedaten ein decodiertes Bild. Das decodierte Bild wird als Bezugsbild für vorhersagendes Codieren verwendet.
Ein Codierabschnitt 1 für die erste Schicht codiert das gesamte Bild, das niedrigere Bildqualität aufweisen soll, er erstellt Codedaten für die erste Schicht und er erzeugt ein decodiertes Bild aus diesen Codedaten. Das decodierte Bild wird als Bezugsbild für vorhersagendes Codieren verwendet.
Ein Codierabschnitt 2 für die zweite Schicht codiert nur das Bild eines ausgewählten Bereichs, das von höherer Bildqualität sein soll, er erstellt Codedaten der zweiten Schicht und er erzeugt ein decodiertes Bild aus diesen Codedaten. Das decodierte Bild wird als Bezugsbild für vorhersagendes Codieren verwendet.
Ein Codedaten-Integrierabschnitt 3 integriert Position/Form-Codes eines ausgewählten Bereichs, Codedaten der unteren Schicht, Codedaten der ersten oberen Schicht und Codedaten der zweiten oberen Schicht.
Es existieren mehrere Arten von Codierverfahren, die beim Codierabschnitt 4 1 der unteren Schicht, beim Codierabschnitt 1 der ersten Schicht und beim Codierabschnitt 2 der zweiten Schicht anwendbar sind und die wie folgt beschrieben werden. Die Fig. 6 und 7 sind für die Technik des Steuerns der Bildqualität der unteren Schicht und der Bildqualität der oberen Schicht abhängig von Quantisierungsschritten veranschaulichend.
Die Fig. 6(a) veranschaulicht, wie die Bilddaten der unteren Schicht zu codieren sind. Ein schraffierter Bereich repräsentiert einen ausgewählten Bereich. In der unteren Schicht wird ein ausgewählter Bereich eines ersten Rahmens intrarahmenmäßig codiert, und ausgewählte Bereiche anderer, restlicher Rahmen werden durch ein bewegungskompensierendes Vorhersageverfahren vorhersagend codiert. Als Bezugsbild für die bewegungskompensierende Vorhersage wird ein ausgewählter Bereich eines Rahmens der unteren Schicht verwendet, der bereits codiert und decodiert wurde. Obwohl in der Fig. 6(a) nur Vorwärtsvorhersage dargestellt ist, kann Anwendung in Kombination mit Rückwärtsvorhersage erfolgen. Da der Quantisierungsschritt für die untere Schicht größer als der für die zweite obere Schicht eingestellt wird, wird nur ein ausgewählter Bereich eines eingegebenen Bilds so codiert, dass er niedrigere Bildqualität aufweist (mit niedrigem Signal/Rauschsignal-Verhältnis). Demgemäß werden die Bilddaten der unteren Schicht unter Verwendung einer kleineren Codemenge codiert.
Die Fig. 6(b) veranschaulicht, wie die Bilddaten der ersten oberen Schicht zu codieren sind. In dieser Schicht wird ein gesamtes Bild codiert. Z. B. wird ein gesamtes Bild durch vorhersagende Codierung auf Grundlage eines decodierten Bilds der unteren Schicht und eines decodierten Bilds der ersten oberen Schicht codiert. In diesem Fall wird das gesamte Bild des ersten Rahmens durch Vorhersage aus dem decodierten Bild der unteren Schicht codiert (andere Bereiche als die ausgewählten werden in der Praxis intrarahmenmäßig codiert, da in der Praxis das bewegungskompensierende Vorhersageverfahren nicht angewandt werden kann). Andere Rahmen können unter Verwendung der vorhersagende Codierung in Kombination mit der bewegungskompensierenden Vorhersage codiert werden.
Es ist auch eine Variation anwendbar, bei der durch das in der Fig. 6 dargestellte vorhersagende Codierverfahren kein ausgewählter Bereich codiert wird, sondern nur andere Bereiche codiert werden. Der Codierprozess wird für andere Bereiche als den ausgewählten ausgeführt.
Die Fig. 6(c) veranschaulicht, wie die Bilddaten der zweiten oberen Schicht zu codieren sind. In einem relativ kleinen Quantisierungsschritt wird nur ein ausgewählter Bildbereich codiert. In diesem Fall sind zu codierende objektive Daten Differenzdaten, die zwischen ursprünglichen Bilddaten und aus den Bilddaten der unteren Schicht vorhergesagten Bilddaten erhalten werden. Obwohl in der Fig. 6(c) nur eine Vorhersage aus den Bilddaten der unteren Schicht dargestellt ist, kann Anwendung in Kombination mit einer Vorhersage aus einem decodierten Rahmen der zweiten oberen Schicht erfolgen.
Die Fig. 8 ist eine Ansicht zum Erläutern eines Verfahrens zum Steuern der Bildqualität der unteren Schicht und der Bildqualität der oberen Schicht unter Verwendung unterschiedlicher Werte der zeitlichen Auflösung.
Die Fig. 8(a) veranschaulicht, wie die Bilddaten der unteren Schicht zu codieren sind. Ein schraffierter Bereich repräsentiert einen ausgewählten Bereich. In der unteren Schicht wird ein ausgewählter Bereich eines ersten Rahmens intrarahmenmäßig codiert, und ausgewählte Bereiche anderer, restlicher Rahmen werden durch bewegungskompensierende Vorhersage vorhersagend codiert. Als Bezugsbild für die bewegungskompensierende Vorhersage wird ein ausgewählter Bereich eines Rahmens der unteren Schicht verwendet, der bereits codiert und decodiert wurde. Obwohl in der Fig. 8(a) nur Vorwärtsvorhersage dargestellt ist, kann Anwendung in Kombination mit Rückwärtsvorhersage erfolgen. Die Rahmenrate der unteren Schicht wird so abgesenkt, dass die zeitliche Auflösung so eingestellt wird, dass sie niedriger als diejenige für die zweite Oberschicht ist. Es ist auch möglich, Rahmen mit kleinerem Quantisierungsintervall zu codieren, so dass jeder Rahmen ein größeres Signal/Rauschsignal-Verhältnis aufweisen kann.
Die Fig. 8(b) veranschaulicht, wie die Bilddaten der ersten oberen Schicht zu codieren sind. Es wird ein gesamtes Bild mit niedriger Zeit-Bild-Auflösung codiert. In diesem Fall ist es möglich, ein Codierverfahren anzuwenden, das dem in der Fig. 6(b) oder der Fig. 7 dargestellten ähnlich ist.
Die Fig. 8(c) veranschaulicht, wie die Bilddaten der zweiten oberen Schicht zu codieren sind. Es wird nur ein ausgewählter Bereich mit höherer zeitlicher Auflösung codiert. In diesem Fall wird ein Rahmen, dessen ausgewählter Bereich in der unteren Schicht codiert wurde, durch Vorhersage aus dem decodierten Bild der unteren Schicht codiert, wohingegen alle anderen Rahmen durch bewegungskompensierende Vorhersage aus den bereits decodierten Rahmen der oberen Schicht codiert werden. Im Fall des Verwendens einer Vorhersage aus dem decodierten Rahmen der unteren Schicht ist es nicht möglich, irgendwelche Bilddaten der zweiten oberen Schicht zu codieren, wobei das decodierte Bild der unteren Schicht als decodiertes Bild der zweiten oberen Schicht verwendet wird.
Die Fig. 9 ist eine Ansicht zum Erläutern eines Verfahrens zur Bildqualität der unteren Schicht und zur Bildqualität der oberen Schicht unter Verwendung unterschiedlicher Werte der räumlichen Auflösung.
Die Fig. 9(a) veranschaulicht, wie die Bilddaten der unteren Schicht zu codieren sind. Ein ursprüngliches Bild wird durch ein Tiefpassfilter oder einen Ausdünnungsvorgang in ein Bild mit niedrigerer räumlicher Auflösung umgesetzt. Es werden nur schraffierte, ausgewählte Bereiche codiert. In der unteren Schicht wird ein ausgewählter Bereich eines ersten Rahmens intrarahmenmäßig codiert, und ausgewählte Bereiche anderer, restlicher Rahmen werden durch bewegungskompensierende Vorhersage vorhersagend codiert.
Die Fig. 9(b) veranschaulicht, wie die Bilddaten der ersten oberen Schicht zu codieren sind. Ein ursprüngliches Bild wird in ein Bild mit niedrigerer räumlicher Auflösung umgesetzt, und das gesamte Bild wird mit höherer zeitlicher Auflösung codiert. In diesem Fall ist es möglich, ein Codierverfahren anzuwenden, das dem in der Fig. 6(b) oder der Fig. 7 dargestellten ähnlich ist.
Die Fig. 9(c) veranschaulicht, wie die Bilddaten der zweiten oberen Schicht zu codieren sind. Es wird nur ein ausgewählter Bereich mit höherer räumlicher Auflösung codiert. In diesem Fall wird ein codiertes Bild der unteren Schicht in ein Bild mit derselben räumlichen Auflösung wie der eines ursprünglichen Bilds umgesetzt, und ausgewählte Bereiche werden durch Vorhersage aus dem decodierten Bild der unteren Schicht und durch bewegungskompensierende Vorhersage aus dem bereits decodierten Rahmen der zweiten oberen Schicht codiert.
Die oben beschriebenen Einstellverfahren für die Bildqualität unter Verwendung der Graustufenauflösung (durch das Signal/Rauschsignal-Verhältnis), der zeitlichen Auflösung und der räumlichen Auflösung können auch in Kombination miteinander angewandt werden.
Z. B. ist es möglich, die Bildqualität der unteren Schicht und die Bildqualität der oberen Schicht unter Verwendung unterschiedlicher räumlicher Auflösung und unterschiedlicher zeitlicher Auflösung in Kombination oder eines unterschiedlichen Quantisierungsschritts und unterschiedlicher zeitlicher Auflösung in Kombination einzustellen.
So wird ein ausgewählter Bereich in einem gesamten Bild so codiert, dass er höhere Bildqualität als andere Bereiche aufweist. Gleichzeitig wird den Codedaten eine jeweilige von drei hierarchischen Schichten (zwei obere Schichten und eine untere Schicht) zugeordnet.
Decodiervorrichtungen, die bevorzugte Ausführungsformen der Erfindung sind, werden wie folgt beschrieben.
Die Fig. 10 ist für eine erste Ausführungsform einer erfindungsgemäßen Decodiervorrichtung veranschaulichend, die dazu vorgesehen ist, nur Bilddaten der unteren Schicht zu decodieren.
In der Fig. 10 soll ein Codedaten-Trennabschnitt 7 Codedaten in Bereichs- Position/Form-Codedaten und codierte Bilddaten einer unteren Schicht sowie selektiv entnommene gewünschte Codedaten aufteilen.
Ein Bereichs-Position/Form-Decodierabschnitt 9 soll einen Positionscode und einen Formcode eines ausgewählten Bereichs decodieren.
Ein Decodierabschnitt 8 für die untere Schicht soll Codedaten der unteren Schicht für einen ausgewählten Bereich decodieren und ein decodiertes Bild niedrigerer Qualität nur für den ausgewählten Bereich erstellen.
Demgemäß betrifft jedes von dieser Decodiervorrichtung ausgegebene Bild Bildinformation nur eines ausgewählten Bereichs, der auf einem Anzeigeschirm als Fenster angezeigt wird. Der Decodierabschnitt 8 der unteren Schicht kann mit einem Umsetzer für die räumliche Auflösung versehen sein, um den ausgewählten Bereich auf die Größe des vollen Schirms zu vergrößern und nur diesen auf dem Anzeigeschirm anzuzeigen.
Mit der dargestellten Ausführungsform können decodierte Bilder niedrigerer Qualität erhalten werden, da nur Daten der unteren Schicht eines ausgewählten Bereichs decodiert werden, jedoch kann sie einfache Hardwarekonstruktion aufweisen, da der Decodierabschnitt der oberen Schicht weggelassen ist, und sie kann das codierte Bild leicht dadurch decodieren, dass sie nur eine verringerte Menge von Codedaten verarbeitet. Die Fig. 11 ist für eine zweite Ausführungsform einer erfindungsgemäßen Decodiervorrichtung veranschaulichend, bei der ein Bereichs-Position/Form-Decodierabschnitt 9 und ein Decodierabschnitt 8 für die untere Schicht ähnliche Funktion wie diejenigen bei der ersten Ausführungsform aufweisen.
In der Fig. 11 entnimmt der Codedaten-Trennabschnitt 10 aus den Codedaten in gesonderter Weise Bereichs-Position/Form-Codedaten, Codedaten für die untere Schicht eines Bereichs und Codedaten für die erste obere Schicht.
Ein Decodierabschnitt 11 für die erste obere Schicht decodiert Codedaten der ersten oberen Schicht, wobei ein gesamtes Bild unter Verwendung der Bereichs-Position/Form-Daten, des decodierten Bilds der unteren Schicht und des decodierten Bilds der zweiten oberen Schicht auf niedrigere Qualität decodiert wird. So wird ein decodiertes Bild für die erste obere Schicht erzeugt.
Obwohl die dargestellte Ausführungsform die Codedaten der ersten oberen Schicht verwendet, kann sie auch die zweite obere Schicht statt der ersten oberen Schicht verwenden. In diesem Fall entnimmt der Codedaten-Trennabschnitt 10 den Codedaten auf gesonderte Weise Bereichs-Position/Form-Codedaten, Codedaten der unteren Schicht für einen Bereich und Codedaten der zweiten oberen Schicht. Der Codedaten-Trennabschnitt 11 für die erste obere Schicht wird durch einen Codedaten-Trennabschnitt für die zweite obere Schicht ersetzt, der die Codedaten der zweiten oberen Schicht unter Verwendung der Bereichs-Position/Form-Daten, des decodierten Bilds der unteren Schicht und des decodierten Bilds der zweiten Schicht decodiert, und es wird nur das ausgewählte Bild mit höherer Qualität decodiert. Ein so erzeugtes decodiertes Bild der zweiten oberen Schicht kann als Fenster auf einem Anzeigeschirm angezeigt werden, oder es kann auf die Größe des vollen Schirms vergrößert und dann auf diesem angezeigt werden.
Die Fig. 12 ist für eine dritte Ausführungsform einer erfindungsgemäßen Codiervorrichtung veranschaulichend, wobei ein Bereichs-Position/Form-Decodierabschnitt 9 und ein Decodierabschnitt 8 für die untere Schicht funktionsmäßig denen ähnlich sind, die in der Fig. 2 dargestellt sind.
In der Fig. 12 entnimmt ein Codedaten-Trennabschnitt 10 den Codedaten in gesonderter Weise Bereichs-Position/Form-Daten, Codedaten der unteren Schicht, Codedaten der ersten oberen Schicht und Codedaten der zweiten oberen Schicht.
Ein Decodierabschnitt 11 für die erste obere Schicht decodiert Codedaten der ersten oberen Schicht, während ein Decodierabschnitt 13 für die zweite obere Schicht Codedaten der zweiten oberen Schicht decodiert.
Ein Synthetisierabschnitt 14 für die obere Schicht kombiniert ein decodiertes Bild der zweiten oberen Schicht mit einem decodierten Bild der ersten oberen Schicht, um unter Verwendung von Information zur Position und zur Form des Bereichs ein synthetisiertes Bild zu erzeugen. Die Synthese für einen ausgewählten Bereich wird unter Verwendung des decodierten Bilds der zweiten oberen Schicht ausgeführt, während die Synthese für andere Bereiche unter Verwendung des decodierten Bilds der ersten oberen Schicht ausgeführt wird. Daher betrifft ein von der Decodiervorrichtung ausgegebenes Bild ein Gesamtbild, in dem ein ausgewählter Bereich speziell so decodiert ist, dass er hinsichtlich Parametern wie des SRV (Signal/Rauschsignal-Verhältnis), der zeitlichen und der räumlichen Auflösung höhere Qualität zeigt. Ein durch die Codiervorrichtung ausgewählter Bereich wird demgemäß so decodiert, dass er höhere Qualität als andere Bereiche aufweist.
Die Fig. 13 ist ein Blockdiagramm, das eine herkömmliche Vorrichtung zum Vergleich mit der Erfindung zeigt. Es ist angenommen, dass eine erste Videosequenz ein Hintergrund-Videosignal bildet und eine zweite Videosequenz ein Teilvideosignal bildet. Eine Alphaebene entspricht Gewichtungsdaten, wie sie dann verwendet werden, wenn ein Teilbild mit einem Hintergrundbild in einer Sequenz für ein bewegtes Bild (Video) synthetisiert wird. Die Fig. 14 zeigt ein beispielhaftes Bild aus Pixeln, die mit Werten von 1 bis 0 gewichtet sind. Es sei angenommen, dass die Daten der Alphaebene innerhalb eines Teils den Wert 1 aufweisen, während sie außerhalb eines Teils den Wert 0 aufweisen. Die Alphadaten können im Grenzabschnitt zwischen einem Teil und dessen Äußerem einen Wert von 0 bis 1 aufweisen, um einen Mischzustand von Pixelwerten im Grenzabschnitt und die Transparenz einer transparenten Substanz wie Glas anzuzeigen.
Gemäß der Fig. 13, die das herkömmliche Verfahren veranschaulicht, codiert ein erster Videocodierabschnitt 101 die erste Videosequenz, und ein zweiter Videocodierabschnitt 102 codiert die zweite Videosequenz entsprechend eines international standardisierten Videocodiersystems, z. B. MPEG oder H.261. Ein Alphaebene-Codierabschnitt 112 codiert eine Alphaebene. In der o.g. Veröffentlichung verwendet dieser Abschnitt die Techniken der Vektorquantisierung und der Haar-Transformation. Ein Codedaten-Integrierabschnitt (- nicht dargestellt) integriert von den Codierabschnitten empfangene Codedaten und sammelt die integrierten Codedaten an oder sendet sie.
Bei der Decodiervorrichtung gemäß dem herkömmlichen Verfahren zerlegt ein Codedaten-Zerlegeabschnitt (nicht dargestellt) Codedaten in die Codedaten der ersten Videosequenz, die Codedaten der zweiten Videosequenz und die Codedaten der Alphaebene, die dann durch einen ersten Videodecodierabschnitt 105, einen zweiten Videodecodierabschnitt 106 bzw. einen Alphaebene-Decodierabschnitt 113 decodiert werden. Zwei decodierte Sequenzen werden entsprechend gewichteten Mittelwerten durch einen ersten Gewichtungsabschnitt 108, einen zweiten Gewichtungsabschnitt 109 und einen Addierer 111 synthetisiert. Die erste Videosequenz und die zweite Videosequenz werden Gemäß der folgenden Gleichung kombiniert:
f(x,y,t) = (1 - α (x,y,t))f1(x,y,t) + α(x,y,t)f2(x,y,t)
In dieser Gleichung repräsentiert (x, y) Koordinatendaten einer Intrarahmen- Pixelposition, t bezeichnet einen Rahmenzeitpunkt, f1(x,y,t) repräsentiert einen Pixelwert der ersten Videosequenz, f2(x,y,t) repräsentiert einen Pixelwert der zweiten Videosequenz, f(x,y,t) repräsentiert einen Pixelwert der synthetisierten Videosequenz und a(x,y,t) repräsentiert Daten der Alphaebene. D. h., dass der erste Gewichtungsabschnitt 108 die Gewichtung 1- α(x,y,t) verwendet, während der zweite Gewichtungsabschnitt 109 als Gewichtung α(x,y,t) verwendet.
Wie oben angegeben, wird durch das herkömmliche Verfahren eine große Anzahl von Codedaten erzeugt, da es Daten in der Alphaebene codieren muss.
Um dieses Problem zu vermeiden, kann an das Einsparen von Informationsmenge durch Digitalisieren der Daten der Alphaebene gedacht werden, jedoch geht damit ein solcher visueller Defekt einher, dass an der Grenze zwischen einem Teilbild und einem Hintergrund als Ergebnis einer diskontinuierlichen Änderung von Pixelwerten dort herum eine zahnförmige Linie auftritt.
Die Fig. 15 ist ein Blockdiagramm, das eine Codiervorrichtung und eine Decodiervorrichtung zeigt, die die Erfindung verkörpern. In der Fig. 15 weisen ein erster Videocodierabschnitt 101, ein zweiter Videocodierabschnitt 102, ein erster Videodecodierabschnitt 105, ein zweiter Videodecodierabschnitt 106, ein erster Gewichtungsabschnitt 108, ein zweiter Gewichtungsabschnitt 109 und ein Addierer 111 ähnliche Funktionen wie diejenigen bei der herkömmlichen Vorrichtung auf, weswegen sie nicht weiter erläutert werden. In der Fig. 15 codiert ein Bereichsinformation-Codierabschnitt 103 Bereichsinformation, die die Form eines Teilbilds einer zweiten Videosequenz repräsentiert, ein Bereichsinformation-Decodierabschnitt 107 decodiert die codierte Bereichsinformation und ein Alphaebene-Erzeugungsabschnitt 110 erzeugt eine Alphaebene unter Verwendung codierter Bereichsinformation.
Die Funktionen der Codiervorrichtung und der Decodiervorrichtung sind wie folgt.
Die Codiervorrichtung codiert die erste und die zweite Videosequenz mittels des ersten Videocodierabschnitts 101 bzw. des zweiten Videocodierabschnitts 102, und sie codiert Bereichsinformation durch den Bereichsinformation- Codierabschnitt 103 gemäß einem später zu beschreibenden Verfahren. Diese codierten Daten werden für weitere Übertragung oder Ansammlung durch den Codedaten-Integrierabschnitt (nicht dargestellt) integriert. Andererseits trennt die Decodiervorrichtung die gesendeten oder angesammelten Codedaten durch den Codedaten-Trennabschnitt (nicht dargestellt) auf, und sie decodiert die aufgeteilten Codedaten durch den ersten Videodecodierabschnitt 105, den zweiten Videodecodierabschnitt 106 bzw. den Bereichsinformation- Decodierabschnitt 107. Der Alphaebene-Erzeugungsabschnitt 110 erstellt aus der decodierten Bereichsinformation durch ein später zu beschreibendes Verfahren eine Alphaebene. Der erste Gewichtungsabschnitt 108, der zweite Gewichtungsabschnitt 109 und der Addierer 111 können zwei decodierte Sequenzen unter Verwendung gewichteter Mittelwerte entsprechend der erstellten Alphaebene synthetisieren.
Die Fig. 16 zeigt ein Beispiel für Bereichsinformation, die der Bereichsinformation eines Teilvideobilds gemäß der Fig. 14 entspricht. Die Bereichsinformation wird unter Verwendung eines Schwellenwerts von 0,2 digitalisiert. So kann Bereichsinformation durch Digitalisieren der Alphaebene erhalten werden, oder sie kann durch eine Randerkennung oder ein anderes Bereichsunterteilungsverfahren bestimmt werden. Wenn ein Bereich durch ein Verfahren ausgewählt wird, wie es in der Literaturstelle "Real-time faceimage following-up method" (The Institute of Image Electronics Engineers of Japan, Previewing Report of Society Meeting, 93-04-04, S. 13-16, 1993) beschrieben ist, kann die zu verwendende Information ein Rechteck sein. In diesem Fall wird Bereichsinformation z. B. so digitalisiert, dass sie innerhalb eines Körpers den Wert 1 und außerhalb desselben den Wert 0 einnimmt.
Eine praktische Technik zum Codieren von Bereichsinformation, die nicht detailliert erläutert wird, kann Lauflängencodierung und Kettencodierung sein, da die Bereichsinformation digitalisierten Daten entspricht. Wenn die Bereichsdaten ein Rechteck repräsentieren, müssen nur Koordinatendaten für den Ausgangspunkt, die Länge und die Breite codiert werden.
Es können verschiedene Arten von Verfahren angewandt werden, um eine Alphaebene abhängig von der Form zu erstellen, die die Bereichsinformation repräsentiert.
Im Fall eines Bereichs mit rechteckiger Form kann eine Alphaebene dadurch erstellt werden, dass die folgenden linearen Gewichtungswerte in horizontaler und vertikaler Richtung des rechteckigen Bereichs unabhängig verwendet werden:
In der Gleichung (1) entspricht M dem Wert "aN" und L entspricht dem Wert "N-M" ("a" ist ein reeller Wert von 0 bis 1). "N" repräsentiert die Größe eines Rechteckbereichs, und "a" repräsentiert die Flachheit der Gewichtung, die bei diesem Bereich anzuwenden ist. Die Fig. 17 zeigt ein Beispiel einer digitalen Gewichtungsfunktion. Eine einem Rechteck entsprechende Alphaebene wird wie folgt wiedergegeben:
α(x,y) = WNx,ax(x)WNy,ay(y) (2)
In der Gleichung (2) ist die Größe des Rechtecks durch die Anzahl "Nx" der Pixel in horizontaler Richtung und der Pixel "Ny" in vertikaler Richtung ausgedrückt, und die Flachheit der Gewichtung ist durch "ax" in horizontaler Richtung und durch "ay" in vertikaler Richtung ausgedrückt.
Es können auch verschiedene Kombinationen anderer linearer Gewichtungsfunktionen als der der Gleichung (1) für den Gebrauch in Betracht gezogen werden.
Nachfolgend werden drei verschiedene Verfahren zum Erstellen einer Alphaebene für einen Bereich jeglicher gewünschten Form beispielhaft beschrieben.
Das erste Verfahren dient zum Bestimmen eines Umschließungsrechtecks des Bereichs, wobei dann die o.g. linearen Gewichtungsfunktionen auf das Umschließungsrechteck in horizontaler und vertikaler Richtung angewandt werden.
Das zweite Verfahren dient zum sequenziellen Bestimmen von auf einen Bereich anzuwendenden Gewichtungswerten aus dessen Umfang, wie es in der Fig. 18 dargestellt ist. Z. B. werden Pixel am Umfang des Bereichs bestimmt, und sie erhalten jeweils die Gewichtung 0,2. Als Nächstes werden Pixel am Umfang eines noch nicht gewichteten Teils innerhalb des Bereichs bestimmt, und sie erhalten jeweils die Gewichtung 0,5. Diese Operationen werden wiederholt, bis die Umfangspixel mit 1 gewichtet werden. Die Erstellung einer Alphaebene wird dadurch beendet, dass eine Gewichtung von 1,0 auf den letzten noch nicht gewichteten Bereich angewandt wird. Die erhaltene Alphaebene verfügt in ihrem zentralen Abschnitt über einen Wert von 1,0 und an ihrem Umfangsabschnitt über einen Wert von 0,2. Wenn Gewichtungswerte aus dem Umfang eines Bereichs bestimmt werden, ist es möglich, eine lineare Gewichtungsfunktion gemäß der Gleichung (1) oder andere linear variierende Werte zu verwenden. Beim sequenziellen Ändern eines Gewichtungswerts kann die Dicke eines Umfangspixels einem einzelnen oder mehreren Pixeln entsprechen.
Dass dritte Verfahren besteht darin, die Außenseite eines Bereichs mit einer Gewichtung von 0 zu versehen und das Innere des Bereichs mit der Gewichtung 1 zu versehen und dann ein so digitalisiertes Bild über ein Tiefpassfilter zu verarbeiten, um im Abschnitt der Bereichsgrenze eine Abstufung zu erzielen. Durch Ändern der Größe und des Koeffizienten eines Filters sowie die Anzahl der Filteroperationen können verschiedene Arten von Alphaebenen erzeugt werden.
Aus dem Vorstehenden ist es ersichtlich, dass mit der ersten Ausführungsform erhöhte Effizienz der Datencodierung im Vergleich mit der herkömmlichen Vorrichtung erzielt werden kann, da die Alphaebene durch die Decodierseite erstellt wird, was das Erfordernis einer Codierung von Gewichtungsinformation beseitigt. Außerdem erstellt die Decodiervorrichtung eine Alphaebene aus der decodierten Bereichsinformation, und sie synthetisiert Videosequenzen unter Verwendung der erstellten Alphaebene, um dadurch das Auftreten eines solchen visuellen Defekts zu verhindern, dass an der Grenze eines Teilbilds im Hintergrund eine gezahnte Linie erscheint.
Andere Ausführungsformen der Erfindung werden wie folgt beschrieben.
Die Fig. 19 ist ein Blockdiagramm, das eine Codiervorrichtung und eine Decodiervorrichtung der Ausführungsform zeigt. In der Fig. 19 sind ein erster Gewichtungsabschnitt 108, ein zweiter Gewichtungsabschnitt 109 und ein Addierer 111 denen der herkömmlichen Vorrichtung ähnlich, und dazu wird eine weitere Erläuterung weggelassen. Ein Bereichsinformation-Codierabschnitt 103, ein Bereichsinformation-Decodierabschnitt 107 und Alphaebene- Erzeugungsabschnitte 120 und 121 weisen ähnliche Funktionen wie diejenigen er ersten Ausführungsform auf, weswegen sie nicht weiter erläutert werden.
Diese Ausführungsform ist dadurch gekennzeichnet, dass die Codierseite auch mit einem Alphaebene-Erzeugungsabschnitt 120 zum Codieren eines Bilds mit Gewichtungswerten zum Synthetisieren mehrerer Videosequenzen versehen ist. Codedaten werden kleiner als die ursprünglichen Daten, da die Gewichtsdaten nicht größer als 1 sind, weswegen die Codedatenmenge verringert werden kann.
In der Fig. 19 codieren ein erster Videocodierabschnitt 122 und ein zweiter Videocodierabschnitt 123 Bilder von Videosequenzen durch Gewichtung auf Grundlage jeweiliger auf der Codierseite erzeugter Alphaebenen. Ein erster Videodecodierabschnitt 124 und ein zweiter Videodecodierabschnitt 125 decodieren die codierten Bilder der Videosequenzen durch Gewichtungsumkehr auf Grundlage der auf der Decodierseite erstellten jeweiligen Alphaebenen.
Der erste Videocodierabschnitt 122 oder der zweite Videocodierabschnitt 123 können für Transformationscodierung aufgebaut sein, wie z. B. in der Fig. 20 dargestellt. Eine zu verarbeitende Videosequenz ist die erste oder die zweite Videosequenz. Ein Transformationsabschnitt 131 transformiert ein eingegebenes Bild blockweise unter Verwendung eines Transformationsverfahrens DCT (Diskrete Cosinustransformation), diskreter Fourier-Transformation und Weiblet-Transformation.
In der Fig. 20 gewichtet ein erster Gewichtungsabschnitt 132 einen Transformationskoeffizienten mit einem Alphaebenenwert. Der zur Gewichtung verwendete Wert kann eine Repräsentation einer Alphaebene innerhalb eines zu bearbeitenden Bildblocks sein. Z. B. wird der Mittelwert der Alphaebene innerhalb des Blocks verwendet. Transformationskoeffizienten der ersten und der zweiten Videosequenz werden durch g1(u, v) bzw. g2(u, v) wiedergegeben, und sie werden gemäß den folgenden Gleichungen gewichtet:
gw1(u, v) = (1 - )g1(u, v) (3)
gw2(u, v) = g2(u, v)
In der Gleichung (3) bezeichnen gw1(u, v) und gw2(u, v) gewichtete Transformationskoeffizienten, u und v bezeichnen die Horizontal- und die Vertikalfrequenz, und repräsentiert eine Alphaebene in einem Block.
In der Fig. 20 quantisiert ein Quantisierungsabschnitt 133 Transformationskoeffizienten und ein Abschnitt 134 zur Codierung mit variabler Lauflänge codiert die quantisierten Transformationskoeffizienten mit variable-Lauflänge-Codes, um Codedaten zu erzeugen.
Ein erster Videodecodierabschnitt 124 oder ein zweiter Videodecodierabschnitt 125, entsprechend dem Videocodierabschnitt der Fig. 19, kann so aufgebaut sein, wie es in der Fig. 21 dargestellt ist. Ein variable-Lauflänge-Decodierabschnitt 141 decodiert Codedaten, ein Umkehrquantisierabschnitt 142 führt eine inverse Quantisierung decodierter Daten aus, und ein Gewichtungsumkehrabschnitt 143 führt eine Umkehroperation an Transformationskoeffizienten aus, um die Gleichung (2) zu inversieren. D. h., dass die Transformationskoeffizienten mit Gewichtungswerten, die diejenigen inversieren, die auf der Codierungsseite angewandt wurden, gemäß der folgenden Gleichung gewichtet werden:
1(u, v) = w1(u, v)/(1 - ) (4)
2(u, v) = w2(u, v)/
In der Gleichung (4) kennzeichnet (Dach) decodierte Daten; z. B. ist gw1- Dach ein gewichteter, decodierter Transformationskoeffizient der ersten Videosequenz.
Neben dem o.g Gewichtungsverfahren ist ein solches Verfahren anwendbar, bei dem nicht eine direkte Komponente eines Transformationskoeffizienten gewichtet wird, sondern andere Transformationskoeffizienten gemäß der Gleichung (2) gewichtet werden. In diesem Fall erfolgt die Gewichtung im Wesentlichen durch Kombinieren einer gemäß dem internationalen Standard MPEG oder H.261 verwendeten Quantisierungsschrittweite unter Verwendung eines repräsentativen Werts der Alphaebene innerhalb des Blocks.
D. h., dass ein Quantisierungsschrittweite-Änderungsabschnitt 38 vorhanden ist, wie in der Fig. 21 dargestellt, durch den die durch einen Quantisierungsschrittweite-Bestimmungsabschnitt (nicht dargestellt) bestimmte Quantisierungsschrittweite unter Verwendung der Daten der Alphaebene geändert wird. In der Praxis wird als Erstes ein repräsentativer Wert (z. B. Mittelwert) der Alphaebene innerhalb eines Blocks bestimmt, und dann wird die Quantisierungsschrittweite durch einen Wert (1 - ) für die erste Videosequenz oder einen Wert für die zweite Videosequenz geteilt, um eine neue Quantisierungsschrittweite zu erhalten.
Es existieren zwei Gewichtungsumkehrverfahren, die dem o.g. Gewichtungsverfahren entsprechen. Das erste Verfahren betrifft den Fall, dass eine Quantisierungsschrittweite (ohne Änderung durch den Quantisierungsschrittweite- Änderungsabschnitt 138) durch die in der Fig. 22 dargestellte Codiervorrichtung codiert wird. In diesem Fall decodiert die Decodiervorrichtung der Fig. 23, die mit einem Quantisierungsschrittweite-Änderungsabschnitt 148 versehen ist, der dem der Codierseite der Fig. 22 entspricht, die Quantisierungsschrittweite durch einen Quantisierungsschrittweite-Decodierabschnitt (nicht dargestellt), und dann ändert sie die decodierte Quantisierungsschrittweite durch den Quantisierungsschrittweite-Änderungsabschnitt 148 entsprechend den Daten der Alphaebene. Das zweite Verfahren betrifft den Fall, dass eine Quantisierungsschrittweite nach Änderung durch den Quantisierungsschrittweite-Änderungsabschnitt 138 durch die in der Fig. 22 dargestellte Codiervorrichtung codiert wird. In diesem Fall verwendet die Decodiervorrichtung direkt die decodierte Quantisierungsschrittweite und quantisiert sie auf inverse Weise. Dies erübrigt die Verwendung einer speziellen Gewichtungsumkehrvorrichtung (d. h. des Quantisierungsschrittweite- Änderungsabschnitts 108 der Fig. 23). Es wird jedoch davon ausgegangen, dass das zweite Verfahren über verringerte Flexibilität bei der Gewichtung im Vergleich zum ersten Verfahren verfügt.
Die oben beschriebene zweite Ausführungsform verwendet Transformationscodierung. Daher ist aus den Fig. 20 bis 23 ein bewegungskompensierender Codierabschnitt weggelassen, wie er für das MPEG- oder das H.261-System charakteristisch ist. Dieses Verfahren kann jedoch bei einem Codiersystem unter Verwendung bewegungskompensierender Vorhersage angewandt werden. In diesem Fall wird in einen Transformations- abschnitt 131 der Fig. 20 ein Vorhersagefehler für bewegungskompensierende Vorhersage eingegeben.
Andere Gewichtungsverfahren bei der zweiten Ausführungsform sind die Folgenden:
Die Fig. 24 zeigt ein Beispiel des ersten Videocodierabschnitts 122 oder des zweiten Videocodierabschnitts 123 der in der Fig. 19 dargestellten Codiervorrichtung. D. h., dass der Codierabschnitt mit einem Gewichtungsabschnitt 150 versehen ist, der eine Gewichtungsoperation vor einer Videocodierung durch das Standardverfahren MPEG oder H.261 gemäß der folgenden Gleichung ausführt:
fw1(x, y) = (1 - )f1(x, y) (5)
fw2(x, y) = f2(x, y)
In der Gleichung (5) ist fw1(x, y) die erste gewichtete Videosequenz, fw2(x, y) ist die zweite gewichtete Videosequenz und a repräsentiert eine Alphaebene innerhalb eines Blocks.
Die Gewichtung kann gemäß der folgenden Gleichung ausgeführt werden:
fw1(x, y) = (1 - α(x, y))f1(x, y) (6)
fw2(x, y) = α(x, y)f2(x, y)
Fig. 25 zeigt ein Gewichtungsumkehrverfahren der Decodiervorrichtung, das dem o.g. Gewichtungsverfahren entspricht. Der Gewichtungsumkehrabschnitt 161 gewichtet die Videosequenz mit einer Gewichtung umgekehrt zu der, die durch die Codiervorrichtung angewandt wurde.
Wenn die Codiervorrichtung die Videosequenz gemäß der Gleichung (5) gewichtet hat, können aus der Decodiervorrichtung der Gewichtungsumkehrabschnitt 61, der erste Gewichtungsabschnitt 108 und der zweite Gewichtungsabschnitt 109 zum Synthetisieren von Sequenzen, wie in der Fig. 19 dargestellt, weggelassen werden. D. h., dass es möglich ist, eine Codiervorrichtung und eine Decodiervorrichtung zu verwenden, wie sie in der Fig. 26 dargestellt sind. Ein erster Videocodierabschnitt 122 und ein zweiter Videocodierabschnitt 123, die in der Fig. 26 dargestellt sind, sind so aufgebaut, wie es in der Fig. 24 dargestellt ist, und sie verwenden das Gewichtungsverfahren der Gleichung (5). In diesem Fall ist Gewichtungsinformation wie Bereichsinformation und Alphaebenedaten, die zum Synthetisieren der Videosequenzen erforderlich sind, in den Video-Codedaten selbst enthalten, und die Gewichtungsinformation muss nicht codiert werden. Demgemäß können von der Decodiervorrichtung decodierte Sequenzen direkt zueinander addiert werden, um eine synthetisierte Sequenz zu erzeugen. Das Codieren nur von Daten innerhalb eines Bereichs ist ziemlich effektiver als das Codieren eines gesamten Bilds, wenn eine Videosequenz 102 ein Teilbild betrifft. In diesem Fall wird es erforderlich, die Bereichsinformation durch die Codiervorrichtung zu codieren und die codierte Bereichsinformation durch die Decodiervorrichtung zu decodieren.
Die vorstehende Beschreibung betrifft ein Beispiel der Gewichtung jeder von mehreren Videosequenzen bei der zweiten Ausführungsform der Erfindung. Z. B. wird die erste Videosequenz mit dem Wert (1- ) gewichtet, während die zweite Videosequenz mit dem Wert gewichtet wird.
Obwohl die Ausführungsformen für den Fall des Synthetisierens einer Hintergrund-Videosequenz und einer Teilvideosequenz erläutert wurden, ist die Erfindung nicht hierauf beschränkt, sondern sie kann dazu angewandt werden, mehrere Teilvideosequenzen mit einem Hintergrund zusammenzusetzen. In diesem Fall wird jede jedem Teilbild entsprechende Bereichsinformation codiert.
Das Hintergrundbild und die Teilbilder können unabhängig oder hierarchisch codiert werden, wobei das Hintergrundbild als untere Schicht angesehen wird und die Teilbilder als obere Schichten angesehen werden. Im letzteren Fall kann jedes Bild einer oberen Schicht dadurch effektiv codiert werden, dass sein Pixelwert aus dem des Bilds der unteren Schicht vorhergesagt wird.
Es wurde ein Videocodierverfahren untersucht, das dazu verwendet wird, verschiedene Arten von Videosequenzen zu synthetisieren.
Die folgende Beschreibung zeigt herkömmliche Vorrichtungen zum Vergleich mit der Erfindung.
Die in Technical Report of IEICE IE94-159, S. 99-106, 1995 erschienene Veröffentlichung "Image coding using hierarchical representation and multiple templates" beschreibt ein Bildsynthetisierverfahren, bei dem eine ein Hintergrundvideosignal bildende Videosequenz und eine ein Vordergrundvideosignal bildende Teilvideosequenz (z. B. ein Figurenbild oder ein Fischbild, das unter Verwendung der Chromaschlüsseltechnik ausgeschnitten wurde) kombiniert werden, um eine neue Sequenz zu erzeugen.
Die Veröffentlichung "Temporal Scalability based on image content" (ISO/IEC JTC1/SC29/WG11 MPEG95/211, (1995)) beschreibt eine Technik zum Erstellen einer neuen Videosequenz durch Synthetisieren einer Teilvideosequenz mit höherer Rahmenrate mittels einer Videosequenz niedriger Rahmenrate. Wie es in der Fig. 27 dargestellt ist, dient dieses System zum Codieren eines Rahmens einer unteren Schicht mit einer niedrigen Rahmenrate durch ein vorhersagendes Codierverfahren sowie zum Codieren nur eines ausgewählten Bereichs (schraffierter Teil) eines Rahmens einer oberen Schicht mit hoher Rahmenrate durch vorhersagendes Codieren. Die obere Schicht codiert keinen in der unteren Schicht codierten Rahmen, und sie verwendet eine Kopie des decodierten Bilds der unteren Schicht. Der ausgewählte Bereich kann als zu beachtender Teil des Bilds, z. B. als menschliche Gestalt, angesehen werden.
Die Fig. 28 ist ein Blockdiagramm, das ein herkömmliches Verfahren, auf der Codierseite, zeigt, bei dem eine eingegebene Videosequenz durch einen ersten Ausdünnabschnitt 201 und einen zweiten Ausdünnabschnitt 202 ausgedünnt wird und die ausgedünnte Videosequenz mit verringerter Rahmenrate dann an einen Codierabschnitt für die obere Schicht bzw. einen Codierabschnitt für die untere Schicht übertragen wird. Der Codierabschnitt für die obere Schicht verfügt über eine Rahmenrate über der des Codierabschnitts für die untere Schicht.
Der Codierabschnitt 204 für die untere Schicht codiert das gesamte Bild jedes Rahmens in der empfangenen Videosequenz unter Verwendung eines international standardisierten Videocodierverfahrens wie MPEG, H.261 usw. Der Codierabschnitt 204 für die untere Schicht erstellt auch decodierte Rahmen, die für vorhersagende Codierung verwendet werden und die gleichzeitig in einen Synthetisierabschnitt 205 eingegeben werden.
Die Fig. 29 ist ein Blockdiagramm eines Codemenge-Steuerabschnitts eines herkömmlichen Codierabschnitts. In der Fig. 29 codiert ein Codierabschnitt 212 Videorahmen unter Verwendung eines Verfahrens oder einer Kombination von Verfahren wie bewegungskompensierender Vorhersage, orthogonaler Transformation, Quantisierung, Codierung mit variabler Lauflänge usw. Ein Quantisierungsweite(Schrittgröße)-Bestimmungsabschnitt 211 bestimmt eine in einem Codierabschnitt 212 zu verwendende Quantisierungsweite (Schrittgröße). Ein Codedatenmenge-Bestimmungsabschnitt 213 berechnet die angesammelte Menge erzeugter Codedaten. Im Allgemeinen wird die Quantisierungsweite erhöht oder erniedrigt, um eine Zunahme oder Abnahme der Codedatenmenge zu vermeiden.
In der Fig. 28 codiert der Codierabschnitt 203 für die obere Schicht nur einen ausgewählten Teil jedes Rahmens in einer empfangenen Videosequenz auf Grundlage von Bereichsinformation unter Verwendung eines international standardisierten Videocodierverfahrens wie MPEG, H.261 usw. Jedoch werden im Codierabschnitt 204 für die untere Schicht codierte Rahmen nicht durch den Codierabschnitt 203 für die obere Schicht codiert. Die Bereichsinformation ist solche Information, die einen ausgewählten Bereich von z. B. dem Bild einer menschlichen Gestalt in jedem Videorahmen anzeigt, wobei es sich um ein digitalisiertes Bild handelt, das im ausgewählten Bereich den Wert 1 und außerhalb desselben den Wert 0 aufweist. Der Codierabschnitt 203 für die obere Schicht erstellt auch decodierte, ausgewählte Bereiche jedes Rahmens, die an den Synthetisierabschnitt 205 übertragen werden.
Ein Bereichsinformation-Codierabschnitt 206 codiert Bereichsinformation unter Verwendung von 8-direktionalen Quantisierungscodes. Ein 8-direktionaler Quantisierungscode ist ein Zifferncode, der die Richtung eines vorigen Punkts anzeigt, wie in der Fig. 30 dargestellt, und der im Allgemeinen dazu verwendet wird, digitale Grafik zu repräsentieren.
Ein Synthetisierabschnitt 205 gibt einen decodierten Videorahmen der unteren Schicht aus, der durch den Codierabschnitt für die untere Schicht codiert wurde und zu synthetisieren ist. Wenn ein zu synthetisierender Rahmen nicht im Codierabschnitt der unteren Schicht codiert wurde, gibt der Synthetisierabschnitt 205 einen decodierten Videorahmen aus, der unter Verwendung zweier decodierter Rahmen erzeugt wird, die in der unteren Schicht codiert wurden und sich vor bzw. hinter dem fehlenden Rahmen der unteren Schicht befinden, sowie einen decodierten Rahmen der oberen Schicht für die Synthese. Die zwei Rahmen der unteren Schicht befinden sich vor bzw. hinter dem Rahmen der oberen Schicht. Der synthetisierte Videorahmen wird in den Codierabschnitt 203 für die obere Schicht eingegeben, um dort für vorhersagende Codierung verwendet zu werden. Die Bildverarbeitung im Synthetisierabschnitt 203 ist die Folgende.
Als Erstes wird ein Interpolationsbild für zwei Rahmen der unteren Schicht erstellt. Ein decodiertes Bild der unteren Schicht zum Zeitpunkt t wird als B(x,y,t) repräsentiert, wobei x und y Koordinaten sind, die die Position eines Pixels im Raum definieren. Wenn die zwei decodierten Bilder der unteren Schicht zu den Zeitpunkten t1 und t2 vorliegen und das decodierte Bild der oberen Schicht zu t3 (t1< t3< t2) vorliegt, wird das Interpolationsbild I(x,y,t3) zum Zeitpunkt t3 gemäß der folgenden Gleichung (1) berechnet:
I(x,y,t3) = [(t2-t3)B(x,y,t1) + (t3-t1)B(x,y,t2))/(t2-t1) (1)
Das decodierte Bild E der oberen Schicht wird dann mit dem erhaltenen Interpolationsbild I unter Verwendung der Synthetisier-Gewichtungsinformation W(x,y,t) synthetisiert, die aus Bereichsinformation erstellt wurde. Ein Synthesebild 5 ist gemäß der folgenden Gleichung definiert:
S(x,y,t) = [1 - W(x,y,t)]I(x,y,t) + E(x,y,t)W(x,y,t) (2)
Die Bereichsinformation M(x,y,t) ist ein digitalisiertes Bild, das in einem ausgewählten Bereich den Wert 1 und außerhalb desselben den Wert 0 einnimmt. Die Gewichtungsinformation W(x,y,t) kann dadurch erhalten werden, dass das o.g. digitalisierte Bild mehrmals mit einem Tiefpassfilter bearbeitet wird. D. h., dass die Gewichtungsinformation W(x,y,t) innerhalb eines ausgewählten Bereichs den Wert 1, außerhalb desselben den Wert 0 und an der Grenze desselben einen Wert zwischen 0 und 1 aufweist.
Die durch den Codierabschnitt der unteren Schicht, den Codierabschnitt der oberen Schicht und den Bereichsinformation-Codierabschnitt erstellten Codedaten werden durch einen Integrierabschnitt (nicht dargestellt) integriert und dann übertragen oder angesammelt.
Auf der Decodierseite des herkömmlichen Systems trennt ein Codedaten-Trennabschnitt (nicht dargestellt) Codedaten in solche der unteren Schicht, solche der oberen Schicht und Bereichsinformation-Codedaten. Diese Codedaten werden durch einen Decodierabschnitt 208 für die untere Schicht, einen Decodierabschnitt 207 für die obere Schicht bzw. einen Bereichsinformation- Decodierabschnitt 209 decodiert.
Ein Synthetisierabschnitt 210 auf der Decodierseite weist ähnlichen Aufbau wie der Synthetisierabschnitt 205 auf. Er synthetisiert ein Bild unter Verwendung eines decodierten Bilds der unteren Schicht und eines decodierten Bilds der oberen Schicht gemäß demselben Verfahren, wie es für die Codierseite beschrieben wurde. Der synthetisierte Videorahmen wird auf einem Anzeigeschirm angezeigt, und gleichzeitig wird er in den Decodierabschnitt 207 für die obere Schicht eingegeben, um dort zur Vorhersage verwendet zu werden.
Die oben beschriebenen Decodiervorrichtungen decodieren Rahmen sowohl der unteren als auch der oberen Schicht, jedoch wird auch eine Decodiervorrichtung aus einem Decodierabschnitt für die untere Schicht angewandt, wobei der Codierabschnitt 204 für die obere Schicht und der Synthetisierabschnitt 210 weggelassen werden. Diese vereinfachte Decodiervorrichtung kann einen Teil von Codedaten reproduzieren.
Diese Ausführungsform der Erfindung soll ein Problem lösen, wie es im in der Fig. 28 dargestellten Synthetisierabschnitt 205 auftreten kann. Diese Ausführungsform betrifft auch eine Videosignal-Synthetisiervorrichtung, die dazu in der Lage ist, ein Bild aus zwei decodierten Rahmen der unteren Schicht und einem decodierten ausgewählten Bereich oder Bereichen der oberen Schicht zu synthetisieren, ohne dass um den ausgewählten Bereich oder die Bereiche herum eine nachbildähnliche Störung auftritt. Die Fig. 32 ist ein Blockdiagramm, das eine Bildsynthetisiervorrichtung zeigt, die eine Ausführungsform der Erfindung ist.
In der Fig. 32 dient ein erster Bereichsentnahmeabschnitt 221 zum Entnehmen eines Bereichs, der einen ersten aber nicht einen zweiten Bereich betrifft, aus erster Bereichsinformation eines Rahmens der unteren Schicht und zweiter Bereichsinformation eines Rahmens der unteren Schicht. In der Fig. 33(a) ist die erste Bereichsinformation durch eine gepunktete Linie (0 innerhalb des gepunkteten Gebiets und 1 außerhalb desselben) dargestellt, und die zweite Bereichsinformation ist durch eine gestrichelte Linie (mit ähnlichen Zahlencodes) dargestellt. Demgemäß ist ein durch den ersten Bereichsentnahmeabschnitt 221 zu entnehmender Bereich ein in der Fig. 33 dargestellter schraffierter Teil.
Ein zweiter Bereichsentnahmeabschnitt 222 in der Fig. 32 soll einen Bereich, der den zweiten aber nicht den ersten Bereich betrifft, aus der ersten Bereichsinformation eines Rahmens der unteren Schicht und zweiter Bereichsinformation eines Rahmens der unteren Schicht entnehmen. D. h., dass der in der Fig. 33(a) dargestellte gepunktete Bereich entnommen wird.
In der Fig. 32 steuert eine Steuereinrichtung 223 einen Schalter 224 entsprechend einem Ausgangssignal des ersten und des zweiten Bereichsentnahmeabschnitts. D. h., dass der Schalter 221 mit einer zweiten Decodierbildseite verbunden wird, wenn die Position eines zu beachtenden Pixels nur den ersten Bereich betrifft, und er mit einer ersten Decodierbildseite verbunden wird, wenn das zu beachtende Pixel nur den zweiten Bereich betrifft. Der Schalter wird mit dem Ausgang eines Interpolationsbild-Erzeugungsabschnitts 225 verbunden, wenn das zu beachtende Pixel weder den ersten noch den zweiten Bereich betrifft.
Der Interpolationsbild-Erzeugungsabschnitt 225 berechnet ein Interpolationsbild zwischen dem ersten und dem zweiten decodierten Bild der unteren Schicht entsprechend der oben definierten Gleichung (1). In der Gleichung (1) ist das erste decodierte Bild als B(x,y,t1) wiedergegeben, das zweite decodierte Bild ist als B(x,y,t2) wiedergegeben und das Interpolationsbild ist als B(x,y,t3) wiedergegeben. "t1", "t2" und "t3" sind Zeitangaben für das erste decodierte Bild, das zweite decodierte Bild bzw. das Interpolationsbild.
Gemäß der Fig. 33(a) ist das so erzeugte Interpolationsbild dadurch gekennzeichnet, dass der schraffierte Bereich mit einem Hintergrundbild, außerhalb des ausgewählten Bereichs, des zweiten decodierten Rahmens ausgefüllt ist, ein gepunkteter Bereich mit einem Hintergrundbild, außerhalb des ausgewählten Bereichs, des ersten decodierten Rahmens ausgefüllt ist und andere Abschnitte mit dem Interpolationsbild zwischen dem ersten und dem zweiten decodierten Rahmen ausgefüllt sind. Das decodierte Bild der oberen Schicht wird dann dem o.g. Abschnitt 226 überlagert, wie in der Fig. 32 dargestellt, um ein in der Fig. 33(b) dargestelltes synthetisiertes Bild zu erzeugen, das kein Nachbild um den ausgewählten (schraffierten) Bereich herum aufweist und frei von der beim Bild gemäß dem Stand der Technik auftretenden Störung ist. Der Abschnitt 226 für gewichtete Mittelwertsbildung kombiniert das Interpolationsbild mit dem decodierten Bild der oberen Schicht unter Verwendung von Gewichtungsmaßnahmen. Das Verfahren mit gewichteter Mittelwertbildung wurde oben beschrieben.
Bei der oben beschriebenen Ausführungsform ist es auch möglich, anstelle des Mittelwertgewichtungsabschnitts 225, Pixelwerte entweder des ersten decodierten Bilds B(x,y,t1) oder des zweiten decodierten Bilds B(x,y,t2) zu verwenden, das dem Zeitpunkt t3 des Bilds der oberen Schicht zeitlich näher liegt. In diesem Fall kann das Interpolationsbild I unter Verwendung der Rahmennummer wie folgt wiedergegeben werden:
I(x,y,t3) = B(x,y,t1) im Fall t3-t1 < t1-t2 oder
I(x,y,t3) = B(x,y,t2) in allen anderen Fällen.
In den Ausdrücken kennzeichnen t1, t2 und t3 Zeitpunkte des ersten decodierten Bilds, des zweiten decodierten Bilds und des decodierten Bilds der oberen Schicht.
Eine andere Ausführungsform der Erfindung wird wie folgt beschrieben.
Diese Ausführungsform betrifft eine Bildsynthetisiervorrichtung, die auf der ersten Ausführungsform beruht und dazu in der Lage ist, ein genauer synthetisiertes Bild unter Berücksichtigung von Bewegungsinformation decodierter Bilder der unteren Schicht zu erzeugen. Die Fig. 34 ist ein Blockdiagramm, das eine Vorrichtung zum Vorhersagen eines Bewegungsparameters und zum Modifizieren von Bereichsinformation zweier entsprechender Rahmen zeigt.
In der Fig. 34 schätzt ein Bewegungsparameter-Abschätzabschnitt 231 Information zur Bewegung aus einem ersten decodierten Bild der unteren Schicht und einem zweiten decodierten Bild der unteren Schicht durch Bestimmen von Bewegungsparametern ab, z. B. des Bewegungsvektors pro Block und der Gesamtbildbewegung (Parallelverschiebung, Drehung, Vergrößerung und Verkleinerung).
Ein Bereichsform-Modifizierabschnitt 232 modifiziert das erste decodierte Bild, das zweite decodierte Bild, die erste Bereichsinformation und die zweite Bereichsinformation entsprechend jeweiligen vorhergesagten Bewegungsparametern auf Grundlage der zeitlichen Positionen der synthetisierbaren Rahmen. Z. B. wird ein Bewegungsvektor (MVx,MVy) aus dem ersten decodierten Bild zum zweiten decodierten Bild als Bewegungsparameter bestimmt. MVx ist eine Horizontalkomponente, und MVy ist eine Vertikalkomponente. Ein Bewegungsvektor vom ersten decodierten Bild zum Interpolationsbild wird gemäß der Gleichung (t3-t1/(t2-t1)(MVx,MVy) bestimmt. Das erste decodierte Bild wird dann entsprechend dem erhaltenen Vektor verschoben. Wenn andere Bewegungsparameter wie Drehung, Vergrößerung und Verkleinerung verwendet werden, wird das Bild nicht nur verschoben, sondern auch verformt. In der Fig. 34 geht es um Verformungs(Modifizierungs)datensätze "a", "b", "c" und "d", die das erste decodierte Bild, das zweite decodierte Bild, die erste Bereichsinformation bzw. die zweite Bereichsinformation in der Fig. 32 betreffen. Diese Datensätze werden in die in der Fig. 32 dargestellte Bildsynthetisiervorrichtung eingegeben, die ein synthetisiertes Bild erzeugt. Obwohl die oben beschriebene Ausführungsform die Bewegungsparameter aus zwei decodierten Bildern vorhersagt, kann sie auch einen Bewegungsvektor jedes Blocks jedes Bilds verwenden, wie er im Allgemeinen in durch vorhersagendes Codieren erstellten Codedaten enthalten ist. Z. B. kann ein Mittelwert decodierter Bewegungsvektoren als Bewegungsvektor eines gesamten Bilds vom ersten zum zweiten decodierten Rahmen angewandt werden. Es ist auch möglich, eine Häufigkeitsverteilung decodierter Bewegungsvektoren zu bestimmen und den Vektor mit der größten Häufigkeit als Bewegungsparameter eines gesamten Bilds vom ersten zum zweiten decodierten Rahmen zu verwenden. Die oben genannte Verarbeitung wird unabhängig in horizontaler und vertikaler Richtung ausgeführt.
Eine andere Ausführungsform der Erfindung ist die Folgende.
Diese Ausführungsform betrifft eine Bereichsinformation-Codiervorrichtung, die dazu in der Lage ist, Bereichsinformation wirkungsvoll zu codieren. Die Fig. 35 und 36 sind Blockdiagramme dieser Ausführungsform, deren Codierseite in der Fig. 35 und deren Decodierseite in der Fig. 36 dargestellt ist.
In der Fig. 35 führt ein Bereichsinformation-Annäherungsabschnitt 241 eine Annäherung von Bereichsinformation unter Verwendung mehrerer geometrischer Figuren aus. Die Fig. 37 zeigt ein Beispiel für die Annäherung von Bereichsinformation einer menschlichen Gestalt (schraffierter Abschnitt) durch zwei Rechtecke. Ein Rechteck 1 repräsentiert den Kopf einer Person, und das andere Rechteck 2 repräsentiert den Brustbereich der Person.
Ein Annäherungsbereichsinformation-Codierabschnitt 242 codiert die angenäherte Bereichsinformation. Ein durch Rechtecke angenäherter Bereich, wie in der Fig. 37 dargestellt, kann mit einem Code fester Länge dadurch codiert werden, dass die Koordinaten des linken oberen Punkts jedes Rechtecks und die Größe jedes Rechtecks durch einen Code fester Länge codiert werden. Ein durch eine Ellipse angenäherter Bereich kann durch einen Code fester Länge dadurch codiert werden, dass die Koordinaten des Mittelpunkts, die Länge der langen Achse und die Länge der kurzen Achse codiert werden. Die angenäherte Bereichsinformation und die Codedaten werden an einen Auswählabschnitt 244 geliefert.
Wie der anhand der Fig. 28 beschriebene Bereichsinformation-Codierabschnitt 206 codiert ein Bereichsinformation-Codierabschnitt 243 in der Fig. 35 Bereichsinformation unter Verwendung eines 8-direktionalen Quantisierungscodes ohne Annäherung. Die Bereichsinformation und die Codedaten werden an einen Auswählabschnitt 244 geliefert.
Der Auswählabschnitt 244 wählt eines der zwei Ausgangssignale 242 und 243 aus. Wenn das Ausgangssignal 243 ausgewählt wird, werden die Codedaten der angenäherten Bereichsinformation mit Einzelbit(z. B. 1)-Auswählinformation an einen Codedaten-Integrierabschnitt (nicht dargestellt) geliefert, und angenäherte Bereichsinformation wird an einen Synthetisierabschnitt (nicht dargestellt) geliefert. Wenn das Ausgangssignal 344 ausgewählt wird, werden die Codedaten der nicht angenäherten Bereichsinformation mit einem Bit (z. B. 1) an Auswählinformation an einen Codedaten-Integrierabschnitt (nicht dargestellt) geliefert, und die nicht angenäherte Bereichsinformation wird an einen Synthetisierabschnitt geliefert, was gemäß der Erfindung erfolgt.
Der Auswählabschnitt kann z. B. so arbeiten, dass er dasjenige Ausgangssignal auswählt, das die kleinere Menge an Codedaten erzeugt, oder das Ausgangssignal 244 auswählt, wenn die Codedatenmenge der nicht angenäherten Information einen Schwellenwert nicht überschreitet, aber das Ausgangssignal 242 auswählt, wenn diese Menge den Schwellenwert überschreitet. Dies ermöglicht es, die Codedatenmenge zu verringern, wodurch verhindert wird, dass Bereichsinformation zerstört wird.
Der Betrieb auf der Decodierseite ist bei dieser Ausführungsform der Folgende.
In der Fig. 36 wählt ein Auswählabschnitt 251 auf Grundlage der Einzelbit- Auswählinformation in den empfangenden Codedaten aus, welche Art von Bereichsinformation zu verwenden ist - angenähert oder nicht angenähert.
In der Fig. 36 decodiert ein Annäherungsbereichsinformation-Decodierabschnitt 252 die angenäherte Bereichsinformation, wohingegen ein Bereichsinformation-Decodierabschnitt 253 die nicht angenäherte Bereichsinformation decodiert. Ein Schalter 254 wird durch ein Signal vom Auswählabschnitt 251 gesteuert, um angenäherte oder nicht angenäherte Bereichsinformation als Ausgangssignal für einen Synthetisierabschnitt auszuwählen.
So wird entweder angenäherte oder nicht angenäherte Bereichsinformation adaptiv ausgewählt, codiert und decodiert. Wenn Bereichsinformation kompliziert ist und eine große Codedatenmenge erzeugen kann, wird die angenäherte Bereichsinformation ausgewählt, um die Bereichsinformation mit kleiner Informationsmenge zu codieren.
Im o.g. Fall wird die nicht angenäherte Bereichsinformation unter Verwendung von 8-direktionalen Quantisierungscodes codiert, jedoch kann sie effektiver unter Verwendung einer Kombination von 8-direktionaler Quantisierung mit vorhersagender Codierung codiert werden. Ein Code für 8-direktionale Quantisierung nimmt acht Werte von 0 bis 7 ein, wie in der Fig. 30 dargestellt, die durch vorhersagendes Codieren von-7 bis 7 unterschieden werden. Die Differenz kann jedoch auf den Bereich von -3 bis 4 dadurch begrenzt werden, dass 8 addiert wird, falls die Differenz -4 oder weniger ist, und 8 subtrahiert wird, wenn die Differenz größer als 4 ist. Beim Decodieren kann ein ursprünglicher Wert aus 8-direktionaler Codierung dadurch erhalten werden, dass als Erstes die Differenz zum vorigen Wert addiert wird und dann 8 subtrahiert oder addiert wird, wenn das Ergebnis ein negativer Wert ist oder größer als 7 ist. Ein Beispiel ist unten angegeben:
Wert aus 8-direktionaler Quantisierung 1, 6, 2, 1, 3 ...
Differenz 5, -4, -1, -2 ...
umgesetzter Wert -3, 4, -1, 2 ...
decodierter Wert 1, 6, 2, 1, 3 ...
Z. B. beträgt die Differenz zwischen dem Quantisierungswert 6 und dem vorigen Wert 5, wovon 8 subtrahiert wird, um das Ergebnis -3 zu erhalten. Beim Decodieren wird -3 zum vorigen Wert 1 addiert, und es wird der Wert -2 erhalten, der negativ ist, weswegen er durch Addieren von 8 erhöht wird, um schließlich den decodierten Wert 6 zu erhalten. Derartige vorhersagende Codierung erfolgt unter Verwendung des zyklischen Merkmals der 8-direktionalen Codierung.
Obwohl bei dieser Ausführungsform angenäherte Bereichsinformation jedes Bilds unabhängig codiert wird, ist es möglich, die Codiereffizienz unter Verwendung des Ergebnisses aus vorhersagender Codierung zu erhöhen, da Videorahmen im Allgemeinen eine hohe Interrahmen-Korrelation aufweisen. D. h., es wird nur die Differenz angenäherter Bereichsinformation zweier aufeinanderfolgender Rahmen codiert, wenn die angenäherte Bereichsinformation kontinuierlich zwischen zwei Rahmen codiert wird. Wenn z. B. ein Bereich durch ein Rechteck angenähert wird, wird ein Rechteck eines vorigen Rahmens durch seine obere linke Position (19, 20) und seine Größe (100, 150) wiedergegeben, und das Rechteck des aktuellen Rahmens wird durch seine linke obere Position (13, 18) und seine Größe (100, 152) wiedergegeben, und es werden die obere linke Positionsdifferenz (3, 2) und die Größendifferenz (0,2) für den aktuellen Rahmen codiert. Wenn die Änderung der Bereichsform klein ist, kann an Codedatenmenge für die Bereichsinformation dadurch beträchtlich eingespart werden, dass Entropiecodierung verwendet wird, z. B. Huffman-Codierung, da sich Differenzen bei einer kleinen Änderung der Bereichsform nahe bei 0 konzentrieren. Wenn sich ein Rechteck nicht häufig ändert, ist es wirkungsvoll, Einzelbitinformation als Information zur Änderung eines Rechtecks betreffend einen aktuellen Rahmen zu codieren. D. h., dass Einzelbitinformation (z. B. 0) für einen aktuellen Rahmen codiert wird, dessen Rechteck sich nicht ändert, wohingegen Einzelbitinformation (z. B. 1) und Differenzinformation für Rahmen codiert werden, deren Rechteck variiert.
Nachfolgend wird eine andere Ausführungsform der Erfindung dargelegt.
Diese Ausführungsform betrifft eine Gewichtungsinformation-Erzeugungsvorrichtung zum Erstellen von Gewichtungsinformation mit vielen Werten aus Bereichsinformation. Die Fig. 38 ist ein Blockdiagramm dieser Ausführungsform.
In der Fig. 38 tastet ein Horizontalgewichtung-Erzeugungsabschnitt 261 Bereichsinformation horizontal ab, und er erfasst in dieser den Wert 1 und berechnet dann eine entsprechende Gewichtungsfunktion. In der Praxis werden als Erstes die Abszisse x0 des Punkts am linken Ende und die horizontale Länge N des Bereichs bestimmt, und dann wird eine Horizontalgewichtungsfunktion berechnet, wie es in der Fig. 39(a) dargestellt ist. Die Gewichtungsfunktion kann dadurch erstellt werden, dass gerade Linien kombiniert werden oder eine Linie mit einer trigonometrischen Funktion kombiniert wird. Ein Beispiel für den letzteren Fall wird nachfolgend beschrieben. Wenn N > W gilt (W ist die Breite einer trigonometrischen Funktion), können die folgenden Gewichtungsfunktionen angewandt werden:
- sin[(x + 1/2)π/(2w)]xsin[(x+1/2)π/(2W)] wenn 0 ≤ x < W;
- 1 wenn W ≤ x < N - W;
- sin[(x - N + 2W + 1/2)π/(2W)]xsin[(x - N + 2W + 1/2)π/(2W)]
wenn 0 ≤ x < W;
- sin2[x + 1/2)π/N]xsin[(x + 1/2)π/N] wenn N ≤ 2W.
Im o.g. Fall wird der Punkt x0 am linken Ende des Bereichs auf 0 gesetzt.
In der Fig. 38 tastet ein Vertikalgewichtung-Erzeugungsabschnitt 502 die Bereichsinformation vertikal ab, und er erfasst den Wert 1 in dieser und berechnet dann eine entsprechende Vertikalgewichtungsfunktion. In der Praxis werden die Ordinate y0 des Punkts am oberen Ende und die vertikale Länge M des Bereichs bestimmt, und dann wird eine Vertikalgewichtungsfunktion berechnet, wie es in der Fig. 39(b) dargestellt ist.
Ein Multiplizierer 263 multipliziert ein Ausgangssignal 261 mit einem Ausgangssignal 262 für jede Pixelposition zum Erzeugen von Gewichtungsinformation.
Durch das o.g. Verfahren kann Gewichtungsinformation mit verringerter Anzahl von Operationen erhalten werden, die an die Form der Bereichsinformation angepasst ist.
Nun wird eine andere Ausführungsform der Erfindung dargelegt.
Diese Ausführungsform betrifft ein Verfahren zum adaptiven Umschalten des Codiermodus von Interrahmenvorhersage auf Intrarahmenvorhersage und umgekehrt bei vorhersagender Codierung von Rahmen der unteren oder der oberen Schicht. Die Fig. 40 ist ein Blockdiagramm dieser Ausführungsform.
In der Fig. 40 bestimmt ein Mittelwert-Berechnungsabschnitt 271 den Mittelwert von Pixelwerten in einem Bereich entsprechend einem eingegebenen ursprünglichen Bild und eingegebener Bereichsinformation. Der Mittelwert wird in einen Differenzierer 273 und einen Speicher 272 eingegeben.
Der Differenzierer 273 bestimmt die Differenz zwischen einem vorigen im Speicher 272 abgespeicherten Mittelwert und einem vom Mittelwert-Berechnungsabschnitt 271 ausgegebenen aktuellen Mittelwert.
Ein Unterscheidungsabschnitt 274 vergleicht den Absolutwert der vom Differenzierer 273 berechneten Differenz mit einem vorgegebenen Schwellenwert und gibt Modusauswählinformation aus. Wenn der Absolutwert der Differenz größer als der Schwellenwert ist, beurteilt der Unterscheidungsabschnitt 273, dass in einem ausgewählten Bereich eine Szenenänderung aufgetreten ist, und er erzeugt ein Modusauswählsignal, um immer Codierung mit Intrarahmenvorhersage auszuführen.
Die so durch Beurteilen einer Szenenänderung in einem ausgewählten Bereich ausgeführte Modusauswahl ist effektiv, um codierte Bilder hoher Qualität selbst dann zu erzielen, wenn z. B. eine Person von hinter einer Abdeckung hervortritt oder irgendetwas gewendet wird. Die angegebene Ausführungsform kann bei einem System zum Codieren eines ausgewählten Bereichs gesondert von anderen Bereichen beim Codieren von Rahmen der unteren Schicht angewandt werden. In diesem Fall wird Bereichsinformation in den Codierabschnitt für die untere Schicht eingegeben. Diese Ausführungsform kann auch zum Codieren nur eines ausgewählten Bereichs des Rahmens der oberen Schicht angewandt werden.
Eine andere Ausführungsform der Erfindung ist die Folgende.
Diese Ausführungsform betrifft ein Verfahren zum Steuern der Datenmenge im Fall des Codierens eines gesonderten Bereichs getrennt von anderen Bereichen jedes Rahmens der unteren Schicht. Die Fig. 41 ist ein Blockdiagramm dieser Ausführungsform.
In der Fig. 41 trennt ein Codierabschnitt 283 einen ausgewählten Bereich von anderen Bereichen ab und codiert ihn. Ein Bereichunterscheidungsabschnitt 281 empfängt Bereichsinformation und erkennt, ob sich der codierbare Bereich innerhalb oder außerhalb des ausgewählten Bereichs befindet. Ein Codedatenmenge-Abschätzabschnitt 285 schätzt die Codedatenmenge in jedem Bereich auf Grundlage des o.g. Unterscheidungsergebnisses ab. Ein Verteilungsverhältnis-Berechnungsabschnitt 282 berechnet Verteilungsverhältnisse einer Zielmenge von Codes pro Rahmen, die Bereichen zugeordnet werden. Das Verfahren zum Bestimmen von Verteilungsverhältnissen wird später beschrieben. Ein Quantisierungsweite-Berechnungsabschnitt bestimmt eine Quantisierungsschrittgröße entsprechend der Zielmenge von Codedaten. Das Verfahren zum Bestimmen der Quantisierungsschrittgröße ist dasselbe wie das herkömmliche Verfahren.
Das Verfahren zum Bestimmen eines Codeverteilungsverhältnisses durch den Zielcodezuordnung-Berechnungsabschnitt ist das Folgende.
Eine Zielcodemenge Bi für einen Rahmen wird gemäß der folgenden Gleichung berechnet:
Bi = (Anzahl verwendbarer Bits - Anzahl der Bits, die zum Codieren voriger Rahmen verwendet wurden)/Anzahl verbliebener Rahmen
Diese Zielnummer Bi für Bits wird mit einem spezifizierten Verhältnis auf Pixel innerhalb eines ausgewählten Bereichs und Pixel außerhalb desselben verteilt. Das Verhältnis wird unter Verwendung eines angemessenen festen Verhältnisses RO und eines Komplexitätsverhältnisses Rp für den vorigen Rahmen bestimmt. Das Komplexitätsverhältnis Rp für den vorigen Rahmen wird durch die folgende Gleichung berechnet:
Rp = (gen_bitF*avg_qF)/(gen_bitF*avg_qF + gen_bits*avg_gE)
wobei Folgendes gilt: gen_bitF = Anzahl der Bits zum Codieren von Pixeln in einem ausgewählten Bereich eines vorigen Rahmens; gen_bitB = Anzahl der Bits zum Codieren von Pixeln außerhalb des ausgewählten Bereichs eines vorigen Rahmens; avg_qF = mittlere Quantisierungsschrittgröße im ausgewählten Bereich eines vorigen Rahmens; und avg_qB = mittlere Quantisierungsschrittgröße außerhalb des ausgewählten Bereichs eines vorigen Rahmens. Um einen ausgewählten Bereich mit hoher Bildqualität zu codieren, ist es wünschenswert, die Quantisierungsschrittgröße so einzustellen, dass die mittlere Quantisierungsschrittgröße im ausgewählten Bereich etwas kleiner als außerhalb desselben gehalten wird und gleichzeitig einer Bildänderung in einer Abfolge bewegter Bilder gefolgt wird. Im Allgemeinen wird eine Verteilung mit festem Verhältnis RO dazu verwendet, eine im Wesentlichen konstante Beziehung für die Quantisierungsschrittgröße zwischen Pixeln im ausgewählten Bereich und solchen außerhalb desselben aufrechtzuerhalten, während eine Verteilung mit dem Komplexitätsverhältnis Rp für einen vorigen Rahmen dazu verwendet wird, einer Bildänderung in einer Abfolge bewegter Bilder zu folgen. Demgemäß ist es bei der Erfindung beabsichtigt, eine Kombination der Vorteile beider Verfahren dadurch zu nutzen, dass dafür gesorgt wird, dass ein Sollbitmenge-Verteilungsverhältnis ein Mittelwert aus dem festen Verhältnis RO und dem Komplexitätsverhältnis Rp für den vorigen Rahmen ist. D. h., dass das Verteilungsverhältnis Ra wie folgt bestimmt wird: Ra = (RO + Rp)/2
In der Fig. 42 existieren zwei beispielhafte Kurven, die mit gestrichelten Linien aufgetragen sind, die das feste Verhältnis RO und das Komplexitätsverhältnis Rp für den vorigen Rahmen in einem ausgewählten Bereich für eine gesamte Videosequenz repräsentieren. Bei diesem Beispiel betrifft eine durchgezogene Kurve in der Fig. 42 das erzielbare Verhältnis Ra zum Verteilen einer Sollcodedatenmenge, die nicht allzu weit von der Kurve des festen Verhältnisses abweicht und in gewissem Ausmaß die Änderung eines Bilds in einer Videosequenz wiederspiegelt. Bei einem festen Verhältnis (1-RO) und einem Komplexitätsverhältnis (1-Rp) für den vorigen Rahmen für die Außenseite des ausgewählten Bereichs entspricht ein mittleres Verhältnis, das das Sollbitmenge-Verteilungsverhältnis (1-Ra) für Pixel außerhalb des ausgewählten Bereichs ist, dem Verlauf der in der Fig. 43 fett gestrichelten Linie. Der Gesamtwert der zwei Sollbitmenge-Verteilungsverhältnisse für Pixel innerhalb und außerhalb eines ausgewählten Bereichs ist 1.
So kann die Quantisierungsschrittgröße adaptiv eingestellt werden. Die Bitrate einer gesamten Videosequenz kann jedoch manchmal einen vorbestimmten Wert überschreiten, da die Anzahl verwendeter Bits den Sollwert Bi in einigen Rahmen überschreitet. In diesem Fall kann das folgende Verfahren angewandt werden.
Wie oben beschrieben, ist das Sollbitmenge-Verteilungsverhältnis Ra für Codierungspixel in einem ausgewählten Bereich ein Mittelwert aus dem festen Verhältnis RO und dem Komplexitätsverhältnis Rp für den vorigen Rahmen, wohingegen das Sollbitmenge-Verteilungsverhältnis Rm für Codierungspixel außerhalb des ausgewählten Bereichs der Minimalwert Rm des festen Verhältnisses (1-RO) und des Komplexitätsverhältnisses (1-Rp) für den vorigen Rahmen für Codierungspixel außerhalb des ausgewählten Bereichs ist. In diesem Fall kann das Sollbitmenge-Verteilungsverhältnis (1-Ra) für Codierungspixel außerhalb des ausgewählten Bereichs so variieren, wie es beispielhaft durch die durchgezogene Linie in der Fig. 44 dargestellt ist. Da Ra + Rm ≤ 1 gilt, kann die Bitsollzahl für einen Rahmen oder Rahmen verringert werden, in denen übermäßig viele Bits auftreten. Anders gesagt, kann die Bitrate einer gesamten Videosequenz dadurch innerhalb der vorbestimmten Grenze gehalten werden, dass die Sollbitmenge eines Hintergrundbereichs eines Rahmens oder von Rahmen verringert wird.
Mit den erfindungsgemäßen Videocodier- und Videodecodiervorrichtungen ist es möglich, einen ausgewählten Bereich eines Bilds so zu codieren, dass er höhere Qualität als die anderen Bereiche aufweist.
Es ist möglich, nur einen ausgewählten Bereich mit niedrigerer Bildqualität zu decodieren, wenn nur Codedaten einer unteren Schicht decodiert werden.
Beim Decodieren von Codedaten einer oberen Schicht ist es möglich, auszuwählen, ob die erste oder die zweite obere Schicht decodiert wird. Ein gesamtes Bild wird mit niedrigerer Bildqualität decodiert, wenn die erste Schicht ausgewählt wird, wohingegen nur ein ausgewählter Bereich mit hoher Bildqualität decodiert wird, wenn die zweite obere Schicht ausgewählt wird.
Beim Decodieren aller Codedaten kann ein Bild auf solche Weise decodiert werden, dass ein ausgewählter Bereich des Bilds höhere Bildqualität als alle anderen Bereiche desselben aufweist.
Obwohl bei den oben beschriebenen bevorzugten Ausführungsformen der Erfindung angenommen ist, dass die Decodiervorrichtung alle Codedaten empfängt, kann sie auch so ausgebildet sein, dass, in einem Videokommunikationssystem, ein Decodierterminal die Codierungsseite dazu auffordert, eine begrenzte Datenmenge zu senden, z. B. Codedaten zur Position und zur Form eines Bereichs, Codedaten der unteren Schicht und Codedaten der ersten Schicht, für Kommunikation über eine Übertragungsleitung mit geringer Bandbreite. D. h., dass durch die Erfindung eine Datenkommunikation realisiert wird, bei der nur Daten der unteren Schicht über eine Übertragungsleitung sehr kleiner Bandbreite übertragen werden oder eine beliebige von zwei Arten von Daten einer oberen Schicht selektiv über eine Leitung mit etwas größerer Bandbreite übertragen werden oder alle Arten von Daten über eine Leitung noch größerer Bandbreite übertragen werden.
Mit der erfindungsgemäßen Videocodiervorrichtung ist es möglich, die Codedatenmenge zu senken, da aus digitalisierter Information gewichtete Mittelwertinformation erstellt wird, wobei mehrere Teilvideosequenzen auf einer Hintergrund-Videosequenz eingegeben werden und gewichtete Mittelwerte verwendet werden. Da die aus der digitalisierten Information erstellten gewichteten Mittelwertdaten einen Wert von 0 bis 1 einnehmen, kann die Grenze zwischen den Teilbildern und den Hintergrundbildern gleichmäßig synthetisiert werden, ohne dass irgendeine erkennbare Störung auftritt.
Beim Gewichten aller noch nicht codierter Daten unter Verwendung von Gewichtungswerten, die zum Synthetisieren von Videosequenzen zu verwenden sind, kann die Codedatenmenge gesenkt werden, oder die Qualität des decodierten Bilds kann beim selben Codedatenumfang gegenüber bekannten Vorrichtungen verbessert werden.
Die erfindungsgemäße Videocodiervorrichtung soll Folgendes ausführen:
(1) Synthetisieren eines nicht codierten Rahmens einer unteren Schicht aus einem vorigen und einem folgenden Rahmen der unteren Schicht durch gewichtete Mittelwertbildung zweier Rahmen der unteren Schicht, die zeitlich vor und nach dem synthetisierbaren Rahmen vorliegen, für einen Überlappungsabschnitt eines ersten Teilbereichs mit einem zweiten Teilbereich oder einem nicht zum ersten Teilbereich gehörenden Bereich und dem zweiten Teilbereich, unter Verwendung eines Rahmens der unteren Schicht, der zeitlich hinter dem synthetisierbaren Rahmen liegt, für einen Teil nur des ersten Teilbereichs, und unter Verwendung eines Rahmens der unteren Schicht, der zeitlich vor dem synthetisierbaren Rahmen liegt, für einen Teil nur des zweiten Teilbereichs, um dadurch ein synthetisiertes Bild hoher Qualität selbst dann ohne Störung zu erhalten, wenn sich ein Objekt bewegt;
(2) Synthetisieren des Rahmens (1) der unteren Schicht unter Verwendung eines Rahmens der unteren Schicht, der zeitlich nahe dem synthetisierbaren Rahmen liegt, für einen Überlappungsabschnitt eines ersten Teilbereichs mit einem zweiten Teilbereich oder einem nicht zum ersten Teilbereich gehörenden Bereich und dem zweiten Teilbereich oder unter Verwendung nur eines ersten Rahmens der unteren Schicht oder nur eines zweiten Rahmens der unteren Schicht, um dadurch ein synthetisiertes Bild hoher Qualität ohne Doppelanzeige des synthetisierten Hintergrundbilds selbst dann zu erhalten, wenn sich das Hintergrundbild bewegt;
(3) Synthetisieren des Rahmens (1) der unteren Schicht durch Modifizieren (Verformen) des ersten Rahmens der unteren Schicht, des zweiten Rahmens der unteren Schicht, des ersten Teilbereichs und des zweiten Teilbereichs durch Bewegungskompensation von Bewegungsparametern auf Grundlage der zeitlichen Position des synthetisierbaren Rahmens der unteren Schicht, um dadurch ein synthetisiertes Bild hoher Qualität zu erhalten, wobei der Bewegung eines Hintergrundbilds in den Rahmen der unteren Schicht gefolgt wird;
(4) Synthetisieren des Rahmens (3) der unteren Schicht unter Verwendung von Bewegungsvektorinformation, die durch bewegungskompensierende vorhersagende Codierung erhalten wird, um dadurch einen Bewegungsparameter mit verringerterem Verarbeitungsaufwand als im Fall einer Neuvorhersage eines Bewegungsparameters zu erhalten;
(5) adaptives Auswählen entweder einer Annäherung der Bereichsinformation durch mehrere geometrische Figuren oder von Codierung ohne Annäherung, um dadurch Bereichsinformation effektiv zu codieren und zu decodieren;
(6) Umsetzen von Bereichsinformation (5) in 8-direktionale Quantisierungsdaten, Bestimmen der Differenz zwischen den 8-direktional quantisierten Daten sowie Codieren und Decodieren der Differenzdaten durch Codierung mit variabler Lauflänge, um dadurch ein reversibles Codieren und Decodieren von Bereichsinformation effizienter auszuführen;
(7) weiteres effizientes Codieren und Decodieren angenäherter Bereichsinformation (5) durch Bestimmen der Interrahmendifferenz von Information aus geometrischen Figuren, Codieren und Decodieren durch ein Codierverfahren mit variabler Lauflänge, und Hinzufügen von Information, die keine Änderung von Bereichsinformation anzeigt, ohne dass andere Bereichsinformation codiert wird, wenn die Differenzdaten alle 0 sind;
(8) horizontales Abtasten von Bereichsinformation zum Erfassen der Länge jeder Linie in dieser und zum Bestimmen einer horizontalen Gewichtungsfunktion; vertikales Abtasten der Bereichsinformation zum Erfassen der Länge einer Linie in derselben und zum Bestimmen einer vertikalen Gewichtungsfunktion; Erzeugen vielwertiger Gewichtungsinformation, um dadurch auf effiziente Weise Gewichtungsinformation durch eine Gewichtungsinformation- Erzeugungsvorrichtung zu erzeugen, wenn ein Teilbild einer oberen Schicht durch ein Verfahren mit gewichteter Mittelwertbildung mit einem Rahmen einer unteren Schicht synthetisiert wird;
(9) Codieren und Decodieren von Videorahmen unter Verwendung von Bereichsinformation, die die Form eines Gegenstands oder die Form eines Teils anzeigt, Bestimmen eines Mittelwerts von Pixeln in einem Bereich aus dem eingegebenen Bild und dementsprechend von Bereichsinformation, Berechnen der Differenz zwischen Mittelwerten eines vorigen Rahmens und des aktuellen Rahmens, Vergleichen der Differenz mit einem spezifizierten Wert und Auswählen der Intrarahmencodierung, wenn die Differenz den spezifizierten Wert überschreitet, um es dadurch zu ermöglichen, den Codiermodus korrekt von vorhersagender (Zwischenrahmen) Codierung auf die Intrarahmencodierung umzuschalten, wenn eine Szenenänderung auftritt, und Gewährleisten der Codierung und Decodierung von Bildern hoher Qualität;
(10) Auftrennen einer Videosequenz in Hintergrund-Bildbereiche und mehrere Vordergrund-Teilbilder und gesondertes Codieren jedes gesonderten Hintergrundbereichs und jedes Teilbildbereichs durch Bestimmen, ob innerhalb oder außerhalb eines Teilbereichs Codedaten und codierbare Blöcke existieren, was durch gesondertes Berechnen der Codedatenmenge im Teilbildbereich und der Codedatenmenge im Hintergrundbildbereich und durch Bestimmen von Sollbitmenge-Verteilungsverhältnissen für den Teilbildbereich und den Hintergrundbildbereich erfolgt, um dadurch für korrekte Verteilung der Sollbitzahl zu sorgen, um codierte Bilder hoher Qualität zu erhalten.

Claims

1. Videocodiervorrichtung, die codierten Daten eine hierarchische Struktur verleihen kann, mit:

- einer Bereichsauswähl-Einrichtung (5) zum Auswählen eines spezifizierten Bereichs jedes Bilddatenrahmens;

- einer Bereichs-Position/Form-Codiereinrichtung (6) zum Codieren der Position und der Form des ausgewählten Bereichs;

- einer Untere-Ebene-Codiereinrichtung (4) zum Codieren eines Pixelwerts im ausgewählten Bereich in solcher Weise, dass er nur relativ niedriger Bildqualität entspricht;

- einer Erste-Obere-Ebene-Codiereinrichtung (1) zum vorhersagenden Codieren eines Pixelwerts für ein gesamtes Bild jedes Bilddatenrahmens in solcher Weise, dass er von relativ niedriger Bildqualität ist, unter Verwendung des bereits decodierten Pixelwerts codierter Daten der unteren Ebene und eines bereits decodierten Pixelwerts codierter Daten der ersten oberen Ebene;

- einer Zweite-Obere-Ebene-Codiereinrichtung (2) zum vorhersagenden Codieren eines Pixelwerts für den ausgewählten Bereich in solcher Weise, dass er von relativ hoher Bildqualität ist, unter Verwendung eines bereits decodierten Pixelwerts codierter Daten der unteren Ebene und eines bereits decodierten Pixelwerts decodierter Daten der zweiten oberen Ebene; und

- einer Codierte-Daten-Integriereinrichtung (3) zum Integrieren codierter Daten, die durch die oben genannte Codiereinrichtung erhalten wurden, um den codierten Daten eine hierarchische Struktur zu verleihen.

2. Videocodiervorrichtung, die codierten Daten eine hierarchische Struktur verleihen kann, mit:

- einer Untere-Ebene-Codiereinrichtung (4) zum Codieren eines Pixelwerts im ausgewählten Bereich in solcher Weise, dass er nur relativ niedriger Bildqualität entspricht,

- einer Erste-Obere-Ebene-Codiereinrichtung (1) zum vorhersagenden Codieren eines Pixelwerts für einen anderen Bereich als den ausgewählten Bereich in solcher Weise, dass er von relativ niedriger Bildqualität ist, unter Verwendung des bereits decodierten Pixelwerts codierter Daten der unteren Ebene und eines bereits decodierten Pixelwerts codierter Daten der ersten oberen Ebene;

3. Videodecodiervorrichtung zum Decodieren eines Videobilds aus codierten Daten, die Folgendes beinhalten: Position/Form-Codes für einen ausgewählten spezifizierten Bereich jedes Bilddatenrahmens, einen Code einer unteren Ebene mit relativ niedriger Bildqualität für einen Pixelwert des ausgewählten Bereichs, einen Code einer ersten oberen Ebene mit relativ niedriger Bildqualität, der durch vorhersagendes Codieren eines Pixelwerts für ein gesamtes Bild jedes Bilddatenrahmens unter Verwendung eines bereits decodierten Pixelwerts der codierten Daten der unteren Ebene erhalten wurde, und einen Code einer zweiten oberen Ebene mit relativ hoher Bildqualität, der durch vorhersagendes Codieren eines Pixelwerts des ausgewählten Bereichs unter Verwendung eines bereits decodierten Pixelwerts der codierten Daten der unteren Ebene erhalten wurde, mit:

- einer Codierte-Daten-Trenneinrichtung (7) zum gesonderten Entnehmen des Positionscodes und des Formcodes für den ausgewählten Bereich und des Codes der unteren Ebene aus den codierten Daten;

- einer Bereichs-Position/Form-Decodiereinrichtung (8) zum Decodieren des Positionscodes und des Formcodes des ausgewählten Bereichs und

- einer Untere-Ebene-Decodiereinrichtung (9) zum Decodieren des Codes der unteren Ebene und zum Erstellen eines decodierten Bilds für den ausgewählten Bereich, das von relativ niedriger Bildqualität ist.

4. Videodecodiervorrichtung zum Decodieren eines Videobilds aus codierten Daten, die Folgendes beinhalten: Position/Form-Codes für einen ausgewählten spezifizierten Bereich jedes Bilddatenrahmens, einen Code einer unteren Ebene mit relativ niedriger Bildqualität für einen Pixelwert des ausgewählten Bereichs, einen Code einer ersten oberen Ebene mit relativ niedriger Bildqualität, der durch vorhersagendes Codieren eines Pixelwerts eines anderen Bereichs als des ausgewählten Bereichs jedes Bilddatenrahmens unter Verwendung eines bereits decodierten Pixelwerts der codierten Daten der unteren Ebene erhalten wurde, und einen Code einer zweiten oberen Ebene mit relativ hoher Bildqualität, der durch vorhersagendes Codieren eines Pixelwerts des ausgewählten Bereichs unter Verwendung eines bereits decodierten Pixelwerts der codierten Daten der unteren Ebene erhalten wurde, mit:

5. Videodecodiervorrichtung zum Decodieren eines Videobilds aus codierten Daten, die Folgendes beinhalten: Position/Form-Codes für einen ausgewählten spezifizierten Bereich jedes Bilddatenrahmens, und einen Code einer unteren Ebene mit relativ niedriger Bildqualität für einen Pixelwert des ausgewählten Bereichs, oder aus codierten Daten, die Folgendes enthalten: Positions- Form-Codes eines ausgewählten spezifizierten Bereichs jedes Bilddatenrahmens, einen Code einer unteren Ebene mit relativ niedriger Bildqualität eines Pixelwerts des ausgewählten Bereichs sowie einen Code einer oberen Ebene mit relativ niedriger Bildqualität, der durch vorhersagendes Codieren eines Pixelwerts des Gesamtbilds jedes Bilddatenrahmens unter Verwendung eines bereits decodierten Pixelwerts der codierten Daten der unteren Ebene erhalten wurde, mit:

- einer Codierte-Daten-Trenneinrichtung (7) zum gesonderten Entnehmen des Positions- und des Formcodes für den Bereich, des Codes der unteren Ebene und des Codes der oberen Ebene aus den codierten Daten;

- einer Untere-Ebene-Decodiereinrichtung (9) zum Decodieren des Codes der unteren Ebene und zum Erstellen eines decodierten Bilds für den ausgewählten Bereich, das von relativ niedriger Bildqualität ist; und

- einer Obere-Ebene-Decodiereinrichtung (11) zum Decodieren des Codes der oberen Ebene unter Verwendung des decodierten Bilds der unteren Ebene und zum Erstellen eines gesamten Bilds von relativ niedriger Qualität;

- wodurch sie ein decodiertes Bild des ausgewählten Bereichs, das durch die Untere-Ebene-Decodiereinrichtung erstellt wird, oder ein decodiertes Bild eines gesamten Bereichs reproduziert, das durch die Obere-Ebene-Decodiereinrichtung erstellt wird.

6. Videodecodiervorrichtung zum Decodieren eines Videobilds aus decodierten Daten, die Folgendes enthalten: Positions- und Formcodes eines ausgewählten spezifizierten Bereichs jedes Bilddatenrahmens sowie einen Code einer unteren Ebene mit relativ niedriger Bildqualität eines Pixelwerts des ausgewählten Bereichs, oder aus codierten Daten, die Folgendes enthalten: Positions- und Formcodes eines ausgewählten spezifizierten Bereichs jedes Bilddatenrahmens, einen Code einer unteren Ebene mit relativ niedriger Bildqualität eines Pixelwerts des ausgewählten Bereichs, wobei der Code unter Verwendung eines bereits decodierten Pixelwerts der codierten Daten der unteren Ebene erhalten wird, und einen Code einer oberen Ebene mit relativ niedriger Bildqualität eines Pixelwerts eines anderen Bereichs als des ausgewählten Bereichs, wobei der Code durch vorhersagendes Codieren des Pixels unter Verwendung eines bereits decodierten Pixelwerts der codierten Daten der unteren Ebene erhalten wird, mit:

- einer Codierte-Daten-Trenneinrichtung (10) zum gesonderten Entnehmen der Positions- und Formcodes des ausgewählten Bereichs, des Codes der unteren Ebene und des Codes der oberen Ebene aus den codierten Daten;

- einer Bereichs-Position/Form-Decodiereinrichtung (9) zum Decodieren des Positionscodes und des Formcodes des ausgewählten Bereichs;

- einer Untere-Ebene-Decodiereinrichtung (8) zum Decodieren des Codes der unteren Ebene und zum Erstellen eines decodierten Bilds des ausgewählten Bereichs so, dass es von relativ niedriger Bildqualität ist;

- einer Obere-Ebene-Decodiereinrichtung (11) zum Decodieren des Codes der oberen Ebene unter Verwendung des decodierten Bilds der unteren Ebene und zum Erstellen eines decodierten Bilds eines anderen Bereichs als des ausgewählten Bereichs so, dass es von relativ niedriger Bildqualität ist;

- wodurch sie ein decodiertes Bild des ausgewählten Bereichs, das durch die Untere-Ebene-Decodiereinrichtung decodiert wurde, oder ein decodiertes Bild des gesamten Bereichs, das ferner ein decodiertes erstelltes Bild eines anderen Bereichs enthält, das durch die Obere-Ebene-Decodiereinrichtung decodiert wurde, reproduziert.

7. Videodecodiervorrichtung zum Decodieren eines Videobilds aus codierten Daten, die Folgendes enthalten: Positions- und Formcodes eines ausgewählten spezifizierten Bereichs jedes Vollbilds und einen Code einer unteren Ebene mit relativ niedriger Bildqualität eines Pixelwerts eines ausgewählten Bereichs, oder aus codierten Daten, die Folgendes enthalten: Positions- und Formcodes eines ausgewählten spezifizierten Bereichs jedes Bilddatenrahmens, einen Code einer unteren Ebene mit relativ niedriger Bildqualität eines Pixelwerts des ausgewählten Bereichs und einen Code einer unteren Ebene mit relativ hoher Bildqualität, der durch vorhersagendes Codieren eines Pixelwerts des ausgewählten Bereichs unter Verwendung des decodierten Bilds der unteren Ebene erhalten wurde, mit:

- einer Codierte-Daten-Trenneinrichtung (10) zum gesonderten Entnehmen der Positions- und Formcodes des Bereichs, des Codes der unteren Ebene und des Codes der oberen Ebene aus den codierten Daten;

- einer Untere-Ebene-Decodiereinrichtung (8) zum Decodieren des Codes der unteren Ebene und zum Erstellen eines decodierten Bilds für den ausgewählten Bereich mit relativ niedriger Bildqualität; und

- einer Obere-Ebene-Decodiereinrichtung (13) zum Decodieren des Codes der oberen Ebene unter Verwendung des decodierten Bilds der unteren Ebene und zum Erstellen eines decodierten Bilds des ausgewählten Bereichs mit relativ hoher Bildqualität;

- wodurch sie ein decodiertes Bild, das durch die Untere-Ebene-Decodiereinrichtung mit relativ niedriger Bildqualität erzeugt wurde, oder ein decodiertes Bild, das durch die Obere-Ebene-Decodiereinrichtung mit relativ hoher Bildqualität erzeugt wurde, reproduziert.

8. Videodecodiervorrichtung zum Decodieren eines Videobilds aus codierten Daten, die Folgendes enthalten: Positions- und Formcodes eines ausgewählten spezifizierten Bereichs jedes Bilddatenrahmens, einen Code einer unteren Ebene mit relativ niedriger Bildqualität eines Pixelwerts des ausgewählten Bereichs, einen Code einer ersten oberen Ebene mit relativ niedriger Bildqualität eines Pixelwerts des gesamten Bilds jedes Bilddatenrahmens und einen Code einer zweiten oberen Ebene mit höherer Bildqualität eines Pixelwerts des ausgewählten Bereichs, mit:

- einer Codierte-Daten-Trenneinrichtung (10) zum gesonderten Entnehmen der Positions- und Formcodes des Bereichs, des Codes der unteren Ebene, des Codes der ersten oberen Ebene und des Codes der zweiten oberen Ebene aus den codierten Daten;

- einer Untere-Ebene-Decodiereinrichtung (8) zum Decodieren des Codes der unteren Ebene und zum Erstellen eines decodierten Bilds des ausgewählten Bereichs mit relativ niedriger Bildqualität;

- einer Erste-Obere-Ebene-Decodiereinrichtung (11) zum Decodieren des Codes der ersten oberen Ebene unter Verwendung des decodierten Bilds der unteren Ebene und zum Erstellen eines decodierten Bilds für den gesamten Bereich mit relativ niedriger Bildqualität;

- einer Zweite-Obere-Ebene-Decodiereinrichtung (13) zum Decodieren des Codes der zweiten oberen Ebene unter Verwendung des decodierten Bilds der unteren Ebene und zum Erstellen eines decodierten Bilds des ausgewählten Bereichs mit relativ hoher Bildqualität;

- wodurch sie ein decodiertes Bild des ausgewählten Bereichs, das mit relativ niedriger Bildqualität von der Untere-Ebene-Decodiereinrichtung erstellt wurde, oder ein decodiertes Bild des gesamten Bereichs, das mit relativ niedriger Bildqualität durch die Erste-Obere-Ebene-Decodiereinrichtung erstellt wurde, oder ein decodiertes Bild des gesamten Bereichs, das ferner ein decodiertes Bild des ausgewählten Bereichs enthält, das durch die Zweite-Obere-Ebene-Decodiereinrichtung mit relativ hoher Bildqualität erzeugt wurde, reproduziert.

9. Videodecodiervorrichtung zum Decodieren eines Videobilds aus codierten Daten, die Folgendes enthalten: Positions- und Formcodes eines ausgewählten spezifizierten Bereichs jedes Bilddatenrahmens, einen Code einer unteren Ebene mit relativ niedriger Bildqualität eines Pixelwerts des ausgewählten Bereichs, einen Code einer ersten oberen Ebene mit relativ niedriger Bildqualität eines Pixelwerts eines anderen Bereichs als des ausgewählten Bereichs jedes Bilddatenrahmens sowie einen Code einer zweiten oberen Ebene mit relativ hoher Bildqualität eines Pixelwerts des ausgewählten Bereichs, mit:

- einer Codierte-Daten-Trenneinrichtung (10) zum gesonderten Entnehmen der Positions- und Formcodes des ausgewählten Bereichs, des Codes der unteren Ebene, des Codes der ersten oberen Ebene und des Codes der zweiten oberen Ebene aus den codierten Daten;

- einer Erste-Obere-Ebene-Decodiereinrichtung (11) zum Decodieren des Codes der ersten oberen Ebene unter Verwendung des decodierten Bilds der unteren Ebene und zum Erstellen eines decodierten Bilds eines anderen Bereichs mit relativ niedriger Bildqualität;

- wodurch sie ein decodiertes Bild des ausgewählten Bereichs, das mit relativ niedriger Bildqualität durch die Untere-Ebene-Decodiereinrichtung erzeugt wurde, oder ein decodiertes Bild des gesamten Bereichs, das ferner ein decodiertes Bild des anderen Bereichs, das durch die Erste-Obere-Ebene- Decodiereinrichtung mit relativ hoher Bildqualität erzeugt wurde, enthält, oder ein decodiertes Bild des gesamten Bereichs, das ferner ein decodiertes Bild des ausgewählten Bereichs enthält, das durch die Zweite-Obere-Ebene- Decodiereinrichtung mit relativ hoher Bildqualität erzeugt wurde, reproduziert.