DE69615812T2 - Verfahren und system zur kodierung einer bildsequenz - Google Patents
Verfahren und system zur kodierung einer bildsequenzInfo
- Publication number
- DE69615812T2 DE69615812T2 DE69615812T DE69615812T DE69615812T2 DE 69615812 T2 DE69615812 T2 DE 69615812T2 DE 69615812 T DE69615812 T DE 69615812T DE 69615812 T DE69615812 T DE 69615812T DE 69615812 T2 DE69615812 T2 DE 69615812T2
- Authority
- DE
- Germany
- Prior art keywords
- partition
- motion
- region
- regions
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 59
- 238000005192 partition Methods 0.000 claims description 141
- 230000033001 locomotion Effects 0.000 claims description 125
- 230000011218 segmentation Effects 0.000 claims description 21
- 230000005540 biological transmission Effects 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 20
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013139 quantization Methods 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 7
- 230000001131 transforming effect Effects 0.000 claims description 2
- 102100022760 Stress-70 protein, mitochondrial Human genes 0.000 description 14
- 101000903318 Homo sapiens Stress-70 protein, mitochondrial Proteins 0.000 description 11
- 230000008569 process Effects 0.000 description 5
- 101000694973 Homo sapiens TATA-binding protein-associated factor 172 Proteins 0.000 description 4
- 102100028639 TATA-binding protein-associated factor 172 Human genes 0.000 description 4
- 101150062199 MOT2 gene Proteins 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/20—Contour coding, e.g. using detection of edges
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/537—Motion estimation other than block-based
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/537—Motion estimation other than block-based
- H04N19/543—Motion estimation other than block-based using regions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Codieren einer Bildsequenz, wobei dieses Verfahren die nachfolgenden Verfahrensschritte umfasst:
- - das Umformen der Bilder der genannten Sequenz zu aufeinanderfolgenden segmentierten Bildern mit einer Anzahl Gebieten und zugeordneten Etiketten, die Partitionen definieren;
- - das für die Gebiete der betreffenden Partition Schätzen einer Bewegungsinformation über die Evolution der genannten Segmentierung aus den vorhergehenden Partition;
- - das Codieren der Kontur und der Struktur jedes Gebietes der genannten betreffenden Partition;
- - das auf Basis der genannten codierten Partition Erzeugen einer entsprechenden rekonstruierten Partition.
- Die Erfindung bezieht sich ebenfalls auf ein System zum Codieren einer Bildsequenz, wobei dieses System die nachfolgenden Elemente umfasst: eine Segmentierungsanordnung zum Erzeugen aufeinanderfolgender Partitionen mit einer Anzahl Gebiete, eine Bewegungsschätzungsanordnung zum Bewerten der Bewegung der genannten Segmentierung aus einer vorhergehenden Partition zu der aktuellen, eine Anordnung zur Bewertung der Reihenfolgeinformation zum Definieren einer Priorität in der Reihenfolge der Codierung der genannten Gebiete, eine Codierungsanordnung, zum Codieren von Kontur- und Struktursignalen für alle Gebiete der aktuellen Partition, und eine Partitionrekonstruktionsanordnung, und sie bezieht sich auf ein codiertes Signal, wie dies an dem Ausgang eines derartigen Systems erhalten wird, sowie auf ein Speichermittel zum Speichern des genannten codierten Signals.
- Die Erfindung bezieht sich ebenfalls auf ein Verfahren zum Decodieren codierter Signale entsprechend den Gebieten jeder aufeinanderfolgender Partition einer segmentierten Bildsequenz, und auf ein Decodierungssystem zum Durchführen des genannten Decodierungsverfahrens.
- In der nachfolgenden Beschreibung soll das Wort "Bild" im weitesten Sinne verstanden werden. Es dürfte tatsächlich einleuchten, dass die Erfindung sich nicht nur mit herkömmlichen Bildern befasst, in denen jedem Bildelement wenigstens ein Leuchtdichtesignal zugeordnet ist, sondern auch im Allgemeinen auf jeden Satz dreidimensionaler Daten (u, v, w), von denen zwei Stück eine Art von Lage innerhalb eines vorbestimmten Rahmens definieren und wobei das dritte Datum ein Wert ist, der innerhalb eines bestimmten Bereichs variiert und folglich jedem Datenpaar zugeordnet ist. Das vorgeschlagene Verfahren bietet aber wesentlich interessante Aspekte für alle auf Segmentierung basierten Codierungstechniken und kann insbesondere bei Video- Endstellen angewandt werden, bei denen eine bewegungskompensierte Codierung der Partition angewandt wird, herrührend aus der Segmentierung. Solche Techniken sind besonders nützlich für Applikationen mit einer niedrigen Bitrate und man besinnt sich auf eine Normung unter der Bezeichnung MPEG4 (MPEG ist ein Akronym für "Moving Picture Experts Group", wobei es sich um eine Gruppe von Sachverständigen der "International Standardization Organization" ISO handelt).
- Der Grundgedanke der auf Segmentierung basierten Codierung von Bildsequenzen ist eine Partition der genannten Bilder zu definieren, die mehr geeignet ist zum Codieren als die herkömmlichen blockbasierten Codierungsschemen. Ein herkömmliches auf Segmentierung basiertes Codierungsverfahren erfordert hauptsächlich die nachfolgenden Verfahrensschritte: Definition der Partition, Codierung (und Übertragung) der Partition, Codierung (und Übertragung) der Pixelwerte innerhalb jedes Gebietes, das durch die Partition definiert ist. Es können zwei Moden zur Übertragung unterschieden werden: die Intraframe-Mode, die daraus besteht, das die Information über die Partition jedes Frames unabhängig gesendet wird, und die Interframe-Mode, der die Charakterisierung und Codierung der Zeitevolution der Partition vom einen Frame zum anderen zugrunde liegt (und ist oft effizienter als die Intra-Frame-Mode).
- Die Interframe-Mode der Partitionscodierung beruht im Allgemeinen auf den nachfolgenden Schritten:
- (a) das Segmentieren der Frames (die vorliegende Erfindung wird das allgemeine Problem der Partitionscodierung durch Bewegungskompensation adressieren und beruht nicht auf einem spezifischen Segmentierungsschema);
- (b) das Schätzen der Bewegung der Partition zwischen einer früheren Partition und der aktuellen Partition;
- (c) das Vorhersagen durch Bewegungskompensation der genannten früheren Partition;
- (d) das Berechnen des Prädiktionsfehlers;
- (e) das Codieren dieses Prädiktionsfehlers, wobei der codierte Fehler danach übertragen wird (einzeln für jedes Gebiet der Partition).
- Die Bewegungsschätzung analysiert die Bewegung von Gegenständen zwischen zwei aufeinander folgenden Frames und führt zu einer Bewegungsinformation, dargestellt durch einen Satz von Parametern, die jedem Gebiet zugeordnet sind. Diese Bewegungsinformation ermöglicht es in Kombination mit einer gespeicherten rekonstruierten Partition die Bewegungskompensation durchzuführen und die Differenz zwischen dem aktuellen segmentierten Frame und der rekonstruierten Partition gibt den Prädiktionsfehler, der codiert und übertragen werden kann.
- Es soll aber ein Unterschied gemacht werden zwischen der Bewegung der Form einer Gebietes und der Bewegung der Pixel innerhalb eines Gebietes. Tatsächlich treffen die beiden Begriffe zusammen in dem Fall, wo ein Gegenstand im Vordergrund eines anderen Gegenstandes steht: entweder die Konturen des Gebietes der Partition entsprechend dem Gegenstand oder dessen Struktur kann neutral betrachtet werden, wobei die Pixel des Innern dieses Gebietes und dessen Konturen derselben Bewegung folgen. Dies ist nicht länger der Fall für einen Hintergrundgegenstand, weil die Modifikationen der Form oder der Konturen des Gebietes, die diesem Hintergrundgegenstand entsprechen, im Allgemeinen nicht durch die Bewegung des Innern sondern durch die Bewegung der Vordergrundgebiete, die dieses Hintergrundgebiet überlappen, definiert werden.
- Für Hintergrundgebiete ist es deswegen erforderlich, zwei verschiedene Bewegungsschätzungen durchzuführen, damit man für Konturen und für Strukturen verschiedene Bewegungskompensationen hat, wobei die erste Schätzung zur Konturcodierung und die zweite zur Strukturcodierung verwendet wird.
- Die Kommunikation "Motion and region overlapping estimation for segmentation-based video coding" von M. Pardas und P. Salembier, "IEEE International Conference on Image Processing", Austin, Texas (USA), November 1994, Heft Intersymbol-Interferenz, Seiten 428-432, beschreibt ein gegenstandbasiertes Videocodierungssystem, wobei tatsächlich vermieden wird, zwei verschiedene Bewegungsschätzungen für die Hintergrundgebiete durchzuführen. Die Bewegungsschätzung für Konturen wird durch eine zusätzliche Information ersetzt, die als Reihenfolgebeziehung zwischen Gebieten genannt wird und die es ermöglicht, für jedes Koppel benachbarter Gebiete zu wissen, welches derselben sich in dem Vordergrund befindet. Dazu wird für jede Begrenzung zwischen zwei benachbarten Gebieten ein Zwei- Hypothesen-Test durchgeführt, der aus der Berechnung des Prädiktionsfehlers in jedem Gebiet für die zwei möglichen Reihenfolgebeziehungen und aus der Selektion der Reihenfolge besteht, was zu der niedrigsten führt. Es scheint aber, dass die Implementierung dieses Verfahrens der Bestimmung der genannten Reihenfolgeinformation zu einer großen rechnerischen Belastung führt: ein Prädiktionsfehler soll doppelt berechnet werden für jedes Gebiet und weiterhin sind viele dieser Berechnungen nicht nützlich, da die entsprechenden Gebiete zum Schluss vielleicht entsprechend der Intraframe-Mode codiert werden, d. h. ohne Neuverwendung der Fehlerprädiktionen.
- Deswegen ist es u. a. eine erste Aufgabe der vorliegenden Erfindung ein anderes und effizienteres Codierungsverfahren zu schaffen, das zu einer reduzierten und rechnerisch weniger aufwendigen Belastung führt. Diese Aufgabe wird erfüllt mit Hilfe eines Verfahrens der eingangs beschriebenen Art und wobei der Bewegungsinformationsschätzungsschritt in Kaskade die nachfolgenden Teilschritte umfasst:
- - das für jedes Gebiet der genannten betreffenden Partition auf Basis eines Vergleichs zwischen dieser betreffenden Partidon und einer Partition, die gegenüber der genannten rekonstruierten Partition kompensiert ist, und der genannten Bewegungsinformation Definieren einer Intraframe- oder eine Interframe-Konturenübertragungsmode;
- - das für jedes Paar benachbarter Gebiete der genannten betreffenden Partition auf Basis eines Vergleichs zwischen den betreffenden Bewegungsinformationen, die diesen zwei Gebieten zugeordnet sind, Definieren einer Hilfsreihenfolgeinformation zwischen den genannten benachbarten Gebieten und einer aktualisierten Bewegungsinformation, wobei die genannte Reihenfolgeinformation zurückgesendet wird, damit eine Schleife gebildet wird in der die genannte Reihenfolgeinformation die Definition der genannten Konturübertragungsmode aktualisiert.
- Das vorgeschlagene Verfahren ist effizienter als das Verfahren, das in dem oben genannten Dokument beschrieben worden ist, und zwar dadurch, dass die Bestimmung der Reihenfolgeinformation mit Hilfe einer ungefähren Schätzung der Moder der Übertragung sowie der Mode der Reihenfolgeinformation durchgeführt wird, wobei die genannte Mode der Übertragung für jedes Gebiet der Partition, herrührend aus der Segmentierung berücksichtigt wird und nicht länger durch Berücksichtigung, dass alle Gebiete eines bestimmten Frames in der gleichen Mode übertragen werden.
- Nach der vorliegenden Erfindung kann dieses Verfahren auf vorteilhafte Art und Weise dadurch gekennzeichnet sein, dass:
- (A) der Teilschritt der Definition der genannten Konturübertragungsmode für jedes Gebiet einzeln die nachfolgenden Vorgänge umfasst:
- - das auf Basis der Bewegungsinformation, die jedem aufeinanderfolgenden Gebiet der betreffenden Partition zugeordnet ist, Ausgleichen der genannten entsprechenden rekonstruierten Partition;
- - das auf Basis eines Vergleichs zwischen der genannten betreffenden Partition und der genannten entsprechenden kompensierten Partition Berechnen eines Kompensationsfehlers;
- - das als Bewegungsinformation und auf Basis eines Vergleichs zwischen Codierungskosten der genannten betreffenden Partition und dem genannten Kompensationsfehler Erzeugen einer Entscheidung in Bezug auf die Übertragungsmode der Kontur des betreffenden Gebietes;
- (B) der genannte Unterschritt der Hilfsreihenfolgeinformationsdefinitiondie nachfolgenden Vorgänge umfasst:
- - das Definieren eines Bewegungsvektors für jede Position innerhalb des betreffenden Gebietes und das Zuordnen des genannten Vektors zu allen Punkten der betreffenden Partition;
- - das Erzeugen der Reihenfolgeinformation entsprechend jedem der betreffenden Gebiete, und zwar auf Basis eines Vergleichs zwischen der genannten betreffenden Partition und der genannten rekonstruierten Partition, unter Berücksichtigung des genannten zugeordneten Vektors;
- - das Quantisieren der genannten Reihenfolgeinformation durch einen Vergleich für jedes Etikettenpaar, das zwei betreffenden Gebieten zugeordnet ist, der Anzahl Auftritte, wo das erste Etikett als in den Vordergrund des zweiten auftretend betrachtet wird, und der reziproken Anzahl und durch Selektion der größeren Anzahl.
- Es ist eine weitere Aufgabe der vorliegenden Erfindung ein Codierungssystem zu schaffen zum Implementieren eines Verfahrens, wie oben beschrieben.
- Diese Aufgabe wird erfüllt mit Hilfe eines Systems zum Codieren einer Bildsequenz, wobei dieses System die nachfolgenden Elemente umfasst:
- - eine Segmentierungsanordnung zum Erzeugen aufeinander folgender Partitionen mit einer Anzahl Gebiete;
- - eine Bewegungsschätzungsanordnung zum Bewerten der Bewegung der genannten Segmentierung von einer vorhergehenden Partition gegenüber der betreffenden Partition;
- - eine Reihenfolgeinformationsbewertungsanordnung zum Definieren einer Priorität in der Reihenfolge der Codierung der genannten Gebiete;
- - eine Codierungsanordnung zum Codieren von Kontur- und Struktursignalen für alle Gebiete der betreffenden Partition;
- - eine Partitionsrekonstruktionsanordnung,
- wobei die genannte Reihenfolgeinformationsbewertungsanordnung ein entscheidungsgerichtetes Untersystem ist mit einer Übertragungsmodedefinitionsschaltung, vorgesehen zum Ermitteln der Codierungskosten der Konturinformation in der Intraframe- Mode und in der Interframe-Mode und zum Definieren eines ersten aktualisierten Bewegungsausgangssignals mit einer aktualisierten Bewegungsinformation und einer entsprechenden Übertragungsmodeinformation, und mit einer Reihenfolgeberechnungsschaltung, vorgesehen zum Zuordnen eines Signals zweiter Ordnung zu dem genannten ersten aktualisierten Signal, und selber die nachfolgenden Elemente umfasst:
- - einen Bewegungsfeldexpansionsblock in Form einer ersten Abtastschleife zum Erweitern, für jedes Gebiet, dessen Bewegungsmodell zu allen Punkten der Partition und zum Definieren einer Reihenfolgeinformation für das genannte betreffende Gebiet, und in Form einer zweiten Abtastschleife zum Wiederholen der genannten Bewegungsfeldexpansion für alle Gebiete jeder betreffenden Partition;
- - einen Aktualisierungsblock;
- - einen Quantisierungsblock zum Treffen einer Mehrheitsregelentscheidung in Bezug auf die schlussendliche Reihenfolge jedes Gebietes;
- wobei der Ausgang der genannten Reihenfolgeinformationsbewertungsanordnung, das genannte Signal der schlussendlichen Reihenfolge und das genannte aktualisierte Bewegungssignal vereint.
- Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
- Fig. 1 eine Darstellung des Verfahren zum Segmentieren nach der vorliegenden Erfindung,
- Fig. 2 für die Bewegungsschätzung der Gebiete der betreffenden Partition eine Darstellung der Vektoren, die für jedes dargestellte Gebiet die Zeitevolution des Gebietes in einer Rückwärtsmode beschreiben,
- Fig. 3 eine Darstellung der Partitionskompensation, geliefert zum Definieren einer Prädiktion der betreffenden Partition,
- Fig. 4 eine Darstellung einer Vorwärtsbewegungskompensation einer Partition und
- Fig. 5 eine Darstellung einer Rückwärtsbewegungskompensation einer Partition,
- Fig. 6 und 7 eine Darstellung der Formcodierung in Intraframe-Mode bzw. in Interframe-Mode,
- Fig. 8 eine Darstellung einer Ausführungsform eines Codierungssystems, mit dem das Verfahren nach der vorliegenden Erfindung durchgeführt wird und
- Fig. 9 bis 11 eine detaillierte Darstellung einiger Anordnungen des Codierungssystems nach Fig. 8,
- Fig. 12 eine Darstellung eines Verfahrens zum Decodieren von Signalen, die, wie oben angegeben, codiert sind, und
- Fig. 13 eine Ausführungsform einer Decodierungsschaltung, die in einem Decodierungs-Hilfssystem vorgesehen ist, das dieses Verfahren durchführt.
- Nachstehend wird nun die Erfindung näher beschrieben, wobei die nachfolgenden Bezeichnungen verwendet werden:
- - die ursprünglichen Bilder zu Zeitpunkten (T-1), T, ...., werden als ORIG(-1), ORIG(O), ... usw. bezeichnet;
- - die Partitionen werden als DEG(O) bezeichnet für die betreffende Partition zu dem Zeitpunkt T, SEG(-1) für die vorhergehende Partition zu dem Zeitpunkt (T-1), usw. wenn notwendig für andere Partitionen zu anderen Partitionen zu anderen Zeitpunkten;
- - auf gleiche Weise bezeichnen REC(O) und REC(-1) die aktuelle (zu dem Zeitpunkt T) und die vorhergehende (zu dem Zeitpunkt (T-1)) Partition, wie diese auf der Empfangsseite nach der Übertragung rekonstruiert werden würden und wie die in der Codierungsanordnung (REC(O), REC(1), ... empfangen werden sind nicht genau dieselben wie SEG(O), SEG(1), ...., und zwar durch die Verluste während des Partitionscodierungsprozesses);
- - MOT(O) ist die Bewegungsinformation, welche die Evolution der Partition zwischen (T-1) und T kennzeichnet (d. h. die es ermöglicht, SEG(O) von SEG(-1)) herzuleiten und wird im Allgemeinen durch einen Satz von Parametern dargestellt, die jedem Gebiet der vorhergehenden Partition SEG(-1) zugeordnet sind.
- Wie bereits erwähnt, ist es nicht eine Aufgabe der vorliegenden Erfindung die Probleme der Segmentierung und der Bewegungsschätzung zu adressieren und deswegen wird vorausgesetzt, dass SEG(-1), SEG(O), REC(-1), MOT(O) bekannt sind. Eine Implementierung eines Segmentierungsverfahrens ist beispielsweise beschrieben in der Kommunikation "Time Recursive Segmentation of Image Sequences" von M. Pardas und P. Salembier, "EUSIPCO 94 VII. European Signal Processing Conference" Edinburgh (UK), den 13. September 1994, während zwecks der Bewegungsschätzung ein Verfahren, wie beschrieben in dem Dokument "Region-based motion analysis for video coding Aufzeichnungsträger low bitrates", H. Sanson, "Proceedings of MPEG4 Seminar", Paris (Frankreich) März 1994 vorgeschlagen werden kann.
- Indem diese Bezeichnungen gegeben worden sind, ist das Codierungsverfahren nach der vorliegenden Erfindung in Fig. 1 schematisch dargestellt. Das genannte Verfahren umfasst in Kaskade die nachfolgenden Verfahrensschritte: erstens eine Definition der Übertragungsmode jedes Gebietes (von 1a bis 3c) und danach die Berechnung der Reihenfolge (von 4a bis 5). Tatsächlich kann es sein, dass es in der Praxis nicht immer effizient ist, alle Gebiete in der Interframe-Mode zu senden. Wenn beispielsweise die Bewegungsschätzung nicht zuverlässige Ergebnisse erzeugt hat, oder wenn die Bewegung des Gebietes nicht durch die Bewegungsschätzung in Modell gebracht werden kann, kann der Prädiktionsfehler der Gebietsform so groß sein, dass es weniger aufwendig sein kann, das ganze Gebiet unmittelbar zu codieren (durch Umschaltung von Interframe-Mode zu Intraframe-Mode).
- Für den ersten Schritt der Definition der Übertragungsmode sind die Eingangsdaten die aktuelle segmentierte Partition REC(-1), und die Bewegungsinformation MOT(O), die der Partition SEG(-1) zugeordnet ist. Die Aufgabe des ersten Schrittes ist, die Übertragungsmode (Intraframe-Mode oder Interframe-Mode) jedes Gebietes dadurch zu definieren, dass eine binäre Information gesendet wird, die benutzt wird um dem Empfänger mitzuteilen, ob das Gebiet eventuell in der Intraframe- Mode übertragen wird zur Konturcodierung und beispielsweise innerhalb der Bewegungsinformation MOT(O) gespeichert wird. Diese Bewegungsinformation MOT(O) wird deswegen einen Satz Bewegungsparameter für jedes Gebiet (wie bereits erwähnt) erfordern sowie eine binäre Information, welche die Übertragungsmode der zugeordneten Konturen angibt. Die Entscheidung über diese Übertragungsmode wird getroffen auf Basis der Kosten der Kontur, durch einen Vergleich der Kosten jedes Gebietes entsprechend der Tatsache, dass es in der Intraframe-Mode oder in der Interframe- Mode gesendet worden ist. Wie in Fig. 1 dargestellt, werden in diesem ersten Schritt drei Teilschritte betrachtet.
- Der erste Teilschritt (1a, 1b) ist vorgesehen zum Kompensieren der ganzen Partition. Auf Basis der vorhergehenden rekonstruierten Partition REC(-1), der Bewegungsinformation MOT(O) und der Reihenfolgeinformation, die als ORD(O) bezeichnet wird, wird diese Partitionskompensation, die zwei Vorgänge (1a) und (1b) umfasst, zu einer kompensierten Partition führen, die als RECCOMP(O) bezeichnet wird. Obschon diese zwei Vorgänge nachher noch näher beschrieben werden, kann die allgemeine Philosophie dieser Partitionskompensation nachstehend beschrieben werden und ist in den Fig. 2 und 3 dargestellt. Vor der Kompensation wird die Bewegung der jeweiligen Gebiete der aktuellen Partition SEG(O) geschätzt. Die erhaltene Bewegungsschätzung ergibt einen Satz von Parametern, welche die Zeitevolution durch jedes Gebiet in einer Rückwärtsmode BM beschreiben. In Fig. 2 ist nur ein einziger Vektor (MOT1 und MOT2) für jedes Gebiet von SEG(O) dargestellt, aber die Schätzung ergibt im Allgemeinen komplexere Modelle, die einen einzigen Bewegungsvektor für jedes Pixel jedes Gebietes definieren. Es sei bemerkt, dass es passieren kann, dass die Bewegung der Pixel innerhalb eines Gebietes (Strukturbewegung) und die Bewegung der Form eines Gebietes nicht gleichwertig sind (die beiden Bewegungen fallen zusammen im Falle von Vordergrundgebieten, wofür die Pixel des Innern und der Konturen der gleichen Bewegung folgen, es ist aber nicht der Fall für ein Hintergrundgebiet, weil die Änderungen der Form oder der Konturen durch die Bewegung der Gebiete in dem Vordergrund definiert werden), und das dann vorausgesetzt wird, dass die Strukturbewegung benutzt wird zum Kompensieren der Partition und der Struktur. Das Problem der Partitionskompensation wird danach in Fig. 3 dargestellt: auf Basis der vorher rekonstruierten Partition REC(-1)und der übertragenen Bewegungsparameter soll die Kompensation eine Prädiktion der aktuellen Partition REC(O) definieren.
- Die Kompensation an sich kann entweder in einer Vorwärtsmode oder in einer Rückwärtsmode arbeiten. Wie in Fig. 4 dargestellt, werden in der Vorwärtsmode die Pixel von REC(-1) in Richtung von REC(O) projiziert. Diese Projektion kann erfolgen, wenn die Bewegungsvektoren MOT1 und MOT2, die, wie durch die Schätzung definiert, in der Rückwärtsmode durchgeführt worden sind, invertiert werden (MOT1 1 und Mot2 1). Wie ersichtlich, können aus der Transformation der Gelbiete zwei Probleme sich ergeben. Es kann sein, dass einige Pixel von REC(O) kein Etikett haben, sie bilden die sog. leeren Bereiche, (nur ein Bereich EA in Fig. 4). Im Gegensatz dazu kann es sein, dass einige Pixel mehrere Etikettkandidaten haben, diese strittigen Bereiche werden als sich überlappende Bereiche bezeichnet (nur ein Bereich, und zwar OA, in Fig. 4). Zum Lösen der Konflikte wird die Reihenfolgeinformation benutzt um zu entscheiden, welches Gebiet als in dem Vordergrund von welchem Gebiet liegt (im Falle von Konflikten zwischen Etiketten, ergibt das Vordergrundgebiet das richtige Etikett)/Das Problem sich überlappender Bereiche ist besonders wichtig, wenn die Strukturbewegung benutzt wird zum Kompensieren der Partition, und zwar wegen des Ergebnisses des Vordergrund/Hintergrund-Verhältnisses zwischen Gebieten, wie oben erwähnt. Die Verwendung aber der Strukturbewegung und der Reihenfolge ist eine ziemlich effiziente Lösung, weil die Strukturbewegungsinformation zu einer guten Kompensation der Struktur führt und die Reihenfolge nur einen geringen Betrag an Information dargestellt. Zum Schluss werden die leeren Bereiche ohne Etikett gelassen und werden als Kompensationsfehler verarbeitet.
- Die doppelte Kompensationsmode ist in Fig. 5 dargestellt. Es handelt sich dabei um eine Rückwärtsmode in dem Sinne, dass für jedes Pixel von REC(O) man versucht, nach REC(-1) zu sehen, welches Etikett selektiert werden soll. In diesem Fall ist das Hauptproblem zu definieren, welcher Bewegungsvektor verwendet werden soll, wenn ein Pixel (i, j) von REC(O) betrachtet wird. Da die aktuelle Partition auf der Empfangsseite tatsächlich noch nicht bekannt ist, kennt man das Gebiet, dem das Pixel zugehört nicht und deswegen kennt man auch das entsprechende Bewegungsmodell nicht. Die Lösung besteht in der Betrachtung aller möglichen Vektoren, die durch alle möglichen Gebiete definiert werden. Im Falle der Fig. 5 gibt es zwei Gebiete und zwei Vektoren werden deswegen für jeden Punkt betrachtet: einen gegeben durch das Gebiet 1 (MOT1) und einen gegeben durch das Gebiet 2 (MOT2). Jedes Mal, dass ein Vektor, wie dieser durch ein Gebiet n definiert ist, nicht auf ein Pixel zeigt, das zu dem Gebiet n in REC(-1) gehört, wird die Kompensation als ungültig betrachtet und der entsprechende Vektor (INV) wird weggeworfen (in Fig. 5 ist dies bei zwei Vektoren der Fall). Aber, wie indem Fall der Vorwärtsbewegungskompensation, haben einige Pixel keine gültige Kompensation (leerer Bereich EA) und einige Pixel haben mehr als einen Kandidaten (überlappender Bereich OA). Wie vorher wird die Reihenfolgeinformation benutzt zum Lösen der strittigen Bereiche.
- Der wichtigste Unterschied zwischen der Vorwärts- und der Rückwärtskompensationsmode betrifft die Quantisierung der Pixelstellen. Tatsächlich starten im Allgemeinen die Bewegungsvektoren von einer ganzzahligen Pixelstelle, zeigen aber zu einer nicht ganzzahligen Stelle. In dem Vorwärts-Fall sind es die Stellen der Pixel von REC(1), die quantisiert werden sollen, während in dem Rückwärts-Fall die Stellen der Pixel von REC(-1) quantisiert werden sollen. Es gibt noch einige Schwierigkeiten in Bezug auf die Vorwärtsmode im Falle von Bewegungsmodellen, die Änderungen in dem Maßstab (insbesondere Zoom) erfordern. Im Falle einer Gebietserweiterung kann die Änderung des Abstandes zwischen zwei Pixeln mehr leere Bereiche in dem kompensierten Frame erzeugen. Diese Probleme lassen sich lösen, aber im Allgemeinen ist die Rückwärtsmode einfacher.
- Wie oben angegeben führt die Partition zu einer kompensierten Partition RECCOMP(O). In einem zweiten Teilschritt (2) wird dann mit Hilfe einer Subtraktion zwischen SEG(O) und RECCOMP(O) ein Kompensationsfehler ERR(O) berechnet. Zum Schluss wird ein dritter Teilschritt (3a, 3b, 3c) geschaffen zum Schätzen und Vergleichen der Codierungskosten jedes einzelnen Gebietes, wie durch SEG(O) (Intraframe-Mode) oder durch ERR(O) (Interframe-Mode) definiert. Die Schätzungen (3a) in der Intraframe-Mode und in der Interframe-Mode können entweder durch richtige Codierung der Information und durch Messung des resultierenden Betrags an Information erfolgen oder dadurch, dass jede andere beliebige Technik angewandt wird, die eine Annäherung der Kosten schafft (beispielsweise dadurch, dass angenommen wird, dass die Kosten zu der Länge der Kontur des Gebietes proportional sind). Wenn die beiden Schätzungen einmal gemacht worden sind, kann der Vergleich und die Selektion (3b) durchgeführt werden und die resultierende Entscheidung wird als die zusätzliche binäre Information gespeichert (3c), welche die Bewegungsinformation MOT(O) aktualisiert.
- Die Aufgabe dieses Schätzung ist es, die Codierungskosten der Forminformation zu ermitteln, wenn das Gebiet in der Intraframe-Mode oder in der Interframe-Mode codiert wird. Das Problem ist in Fig. 6 und 7 dargestellt.
- Nach der ersten Option 9Fig. 6) wird betrachtet, dass das Gebiet in der Intraframe-Mode gesendet wird. In diesem Fall sollen alle Konturen der Form SH codiert werden. Man kann sie entweder durch bekannte Konturcodierungstechniken richtig codieren und die resultierende Anzahl Bits berechnen oder man kann eine Schätzung machen, sagen wird beispielsweise dass die resultierenden Kosten zu der Länge Lo der Kontur des betreffenden Gebietes proportional sind (die Kosten können als Cintra = kLo geschätzt werden). Die zweite Option (Fig. 7) besteht aus der Codierung nur des Kompensationsfehlers. In dem Beispiel nach Fig. 7 brauchen nur zwei kleine Kontursegmente C 1 und C2 codiert zu werden, weil die Formkompensation der reellen Form durchaus entspricht. Zum Erhalten der Kosten kann man im Wesentlichen die zwei Segmente der Längen L1 und L2 durch bekannte Techniken, wie oben, codieren oder man kann eine Schätzung machen (beispielsweise Cinter = 1,7 (L1 + L2). Der Multiplikationsfaktor ist höher als vorher um die zugenommene Anzahl Ausgangspunkte zu berücksichtigen. Dieser Faktor ist aber abhängig von der Technik, die in Wirklichkeit angewandt werden soll. Wenn die beiden Kosten einmal berechnet oder geschätzt worden sind, wird die Entscheidung (Selektion der niedrigeren Kosten) durch einen Vergleich derselben miteinander getroffen. Wenn Cinter niedriger ist als Cintra, wird das Gebiet in der Interframe-Mode gesendet, sonst wird es in der Intraframe-Mode gesendet. Die resultierende Entscheidung wird gespeichert (3c) als die zusätzliche binäre Information, welche die Bewegungsinformation MOT(O) aktualisiert.
- Dem ersten Schritt der Definition der Übertragungsmode folgt der zweite Schritt der Reihenfolgeberechnung, die, wie in Fig. 1 dargestellt, in einen ersten Teilschritt (4a, 4b) und einen zweiten Teilschritt (5) zusammengesetzt werden kann. Dieser erste Teilschritt ist vorgesehen zum Schätzen eines Satzes von Reihenfolgeparametern und der zweite Teilschritt zum Erhalten einer Quantisierung der Reihenfolgeinformation für die Übertragung. Der erste Teilschritt (4a, 4b) stützt auf eine Doppelschleife, von denen eine die Gebiete abtastet, die durch deren Etikett definiert sind und die andere die Positionen (i,j) des Bildraums abtastet und zwei Vorgänge in Kaskade erfordert.
- Der erste Vorgang (4a) ist vorgesehen zum Definieren eines Bewegungsvektors für jede Position (i,j) des Gebietes entsprechend dem betreffenden Etikett. Die Bewegungsinformation MOT(O) gibt tatsächlich für jedes Gebiet ein Bewegungsmodell, das eine Funktion der Position (i,j) ist. Wenn beispielsweise das Bewegungsmodell für ein bestimmtes Gebiet eine geradlinige Bewegung ist (dx, dy), dann wird dieser Bewegungsvektor allen Punkten (i,j) des Bildes zugeordnet. Wenn das Bewegungsmodell ein verwandtes Modell ist (a1, a2, a3, a4, a5, a6), dass wird das Bewegungsfeld zu dem Punkt (i,j) definiert als Vx (i,j) = a&sub1;i + a&sub2;j + a&sub3; und Vy (i,j) = a&sub4;i + a&sub5;j + a&sub6;. Wenn das Gebiet in der Intraframe-Mode übertragen werden soll, wird diese Bewegungsfeldexpansion nicht durchgeführt.
- Der zweite Vorgang (4b) ist zum Aktualisieren der Reihenfolge vorgesehen entsprechend dem betreffenden Gebiet. Die Reihenfolgeinformation besteht aus eine Liste etwaiger konfliktierender Gebiete, d. h. Gebiete von REC(-1), die während der Bewegungskompensation andere Gebiete überlappen können. Eine derartige Reihenfolgeliste wird am Anfang des Prozesses auf Null gesetzt. Wenn man durch LAB- SEG(O) und LABREC(-1) die Gebietsetiketten des aktuellen Pixels (i,j)in der aktuellen Partition SEGO(O) und der Pixel (i-Vx(i,j), j-Vy(i,j) in der vorhergehenden rekonstruierten Partition REC(-1), wird der Listeneingang, der einem Konflikt zwischen dem Gebiet mit dem Etikett REGNUM (REGNUM ist ein Arbeitsetikett, das jedem Gebiet zugeordnet wird, das in dem aktuellen Partition SEG(O) nacheinander betrachtet wird) und dem Gebiet mit dem aktuellen Etikett LABSEG(O) aktualisiert, wenn die nachfolgenden Bedingungen erfüllt werden:
- (a) das aktuelle Etikett LABSEG(O) ist anders als jedes Etikett eines Gebietes, das in der Intraframe-Mode übertragen worden ist; in dieser Situation (d. h. wenn der Punkt (i,j) in der aktuellen Partition SEG(O) einem Gebiet entspricht, das in der Intraframe-Mode übertragen worden ist) wird jedes kompensierte Etikett, das in eine solche Position fällt, beiseite geschoben;
- (b) das vorhergehende Etikett LABREC(-1) entspricht dem Etikett REGNUM: der Punkt (i,j) der aktuellen Partition SEG(O) ist dann ein Kandidat zum Empfangen dieses Etiketts REGNUM;
- (c) das aktuelle Etikett LABSEG(O) entspricht nicht dem Etikett REGNUM: das richtige Etikett des Pixels (i,j) ist dann nicht REGNUM, und die Gebiete mit dem aktuellen Etikett LABSEG(O) und dem Etikett REGNUM (=LABREC(-1)) sind konfliktierende Gebiete, wobei das erste in dem Vordergrund des zweiten steht (der Listeneingang, der dem Konflikt zwischen den Etiketten LABSEG(O) und REGNUM entspricht wird um eine Einheit erhöht).
- Diese Prozedur wird für alle Punkte (i,j) und für alle Etikette REGNUM wiederholt, zum Schluss wird die Reihenfolgeliste, welche die Anzahl Auftritte gibt, bei denen es möglich ist, zu bestimmen, dass ein bestimmtes Gebiet in dem Vordergrund des anderen ist.
- Der zweite Schritt (5) wird danach in Kaskade zu dem ersten Schritt zum Quantisieren der Reihenfolge durchgeführt (der Empfänger wird nur eine binäre Entscheidung brauchen, damit er imstande ist, während der Bewegungskompensation die Situationen mit strittigen Etiketten zu lösen). Diese Quantisierung wird dadurch erreicht, dass für jedes Etikettepaar die Anzahl Auftritte, in denen bestimmt wurde, dass das erste in dem Vordergrund des zweiten stand, mit der Anzahl Auftritte verglichen wird, in denen bestimmt wurde, dass das zweite in dem Vordergrund des ersten stand. Die schlussendliche Reihenfolge zwischen den zwei betreffenden Gebieten ist definiert als diejenige, die mit der größten Anzahl Auftritte übereinstimmt. Diese Reihenfolge ORD(O) kann danach zum Gebrauch als Eingang für den Teilschritt (1a, 1b) zurück gesendet werden, damit eine sich wiederholende Schleife gebildet wird, in der die genannte Reihenfolgeinformation es ermöglicht, dass die Definition der Konturenübertragungsmode aktualisiert wird. Die Anzahl Wiederholungen wird gering gehalten, wenn man nicht wünscht, dass der Rechenaufwand gesteigert wird. In der Praxis reichen zwei oder drei Wiederholungen. Es sei bemerkt, dass in diesem Fall einer Wiederholungsschleife die Partitionskompensation nicht durchgeführt werden kann, wenn die Reihenfolgeinformation ORD(O) nicht bekannt ist. Um dieses Problem zu lösen wird ganz einfach bei einer ersten Wiederholung vorausgesetzt, dass alle neuen Gebiete (d. h. Gebiete, die in der SEG(O) vorhanden sind und die nicht in der REC(-1) in der Intraframe-Mode vorhanden sind, in der Intraframe-Mode übertragen werden und dass alle anderen Gebiete in der Interframe-Mode gesendet werden, was damit gleichwertig ist, dass ORD(O) ein Anfangswert gegeben wird, der durch das Bezugszeichen ORD&sub0; in Fig. 1 bezeichnet wird. Zum Schluss kann, wenn die Reihenfolgeinformation einmal definiert worden ist, der Codierungsschritt des Codierungsverfahrens, bezeichnet durch das Bezugszeichen (6) in Fig. 6, durchgeführt werden, beispielsweise dadurch, dass die Kontur/Strukturcodierungsannäherung befolgt wird, wie diese in dem bereits genannten Dokument "Motion and region overlapping estimation ...", "IEEE-ICIP", November 94, beschrieben worden ist.
- Die oben genannte Partitionskompensation wird nachstehend detailliert beschrieben. Dieser Teilschritt (1a, 1b) ist gemeint zum Verwirklichender Kompensation der vorhergehenden rekonstruierten Partition REC(-1) und umfasst mehrere Vorgänge. Da das Gebiet, dem ein bestimmter Punkt (i,j) der kompensierten Partition zugehört, nicht bekannt ist, sollen alle möglichen Bewegungsparameter, die nacheinander annehmen, dass dieser Punkt zu allen möglichen Gebieten (mit dem Etikett REGNUM) gehört, überprüft werden. Deswegen ist der erste Vorgang (1a) zum Definieren eines Bewegungsfeldes für das ganze Bild vorgesehen, und zwar während des Gebrauchs der Bewegungsparameter, die einem einzigen Gebiet, dem aktuellen mit dem Etikett REGNUM zugeordnet ist. Für den Vorgang (1a) wird einstweilig angenommen, dass alle Pixel des Bildes dem Gebiet REGNUM zugehören. Im Allgemeinen kann dieser Vorgang (1a) auf einfache Weise durchgeführt werden, weil die Bewegungsinformation für jedes Gebiet ein Bewegungsmodell gibt, das eine Funktion der Position (i,j) ist. Wie für den Vorgang (4a) wird, wenn das Bewegungsmodell für ein bestimmtes Gebiet eine geradlinige Bewegung ist, dieser Translationsvektor allen Punkten (i,j) des Bildes zugeordnet. Wenn das Bewegungsmodell ein verwandtes Modell ist, wird das Bewegungsfeld an jedem Punkt (i,j) durch dieses Modell definiert. Diesem Definitionsvorgang folgt, ähnlich wie der oben beschriebene Vorgang (der erste Vorgang (4a) des ersten Teilschrittes des zweiten Schrittes "Berechnung der Reihenfolge") ein zweiter Vorgang (1b) der Kompensation, dementsprechend für jedes Pixel (i,j) der kompensierten Partition RECCOMP(-1), wird das kompensierte Etikett wie folgt definiert (wobei die Prozedur für alle Pixel (i,j) und für alle Gebiete wiederholend ist, d. h. für alle Etikette REGNUM):
- (a) wenn das Pixel (i,j) einem Gebiet entspricht, das in der Intraframe-Mode übertragen worden ist, wird das Etikett nicht kompensiert: jedes kompensierte Etikett, das in dieses Gebiet fällt, wird beiseite gelegt;
- (b) wenn das vorhergehende Etikett LABREC(-1) (d. h. die Gebietsnummer des Pixels (i-Vx(i,j)), j - Vy (ij) in der vorhergehenden Partition REC(-1) ist identisch zu dem aktuellen Etikett REGNUM), die Kompensation ist gültig und das Pixel (i, j) ist ein Kandidat zum Empfangen des Etiketts REGNUM;
- (c) wenn die Stelle (i,j) der kompensierten Partition leer ist, muss das Etikett LEBREC(-1) dieser Position zugeordnet werden;
- (d) wenn der Stelle (i,j) bereits ein Etikett zugeordnet worden ist, ist dieses kompensierte Etikett mit dem vorhergehenden Etikett LABREC(-1) in Konflikt, aber dieser Konflikt kann durch die Reihenfolgeinformation, die in ORD(O) gespeichert ist, gelöst werden: das Etikett ist dasjenige, das dem Vordergrundgebiet entspricht, wie durch ORD(O) definiert.
- Diese Prozedur wird für alle Punkte (i,j) und für alle möglichen Gebiete mit dem Etikett REGNUM wiederholt. Am Ende kann die kompensierte Information nachbearbeitet werden, damit eine Partition erzeugt wird. Die vorhergehende Kompensationstechnik gewährleistet tatsächlich nicht die Definition verbundener Gebiete und in der Praxis können mehrere verbundene Elemente dasselbe Etikett haben. Zum Lösen dieses Problems kann eine aus zwei Schritten bestehende Prozedur angewandt werden. Der erste Schritt selektiert ein verbundenes Element für jedes Etikett. Es können viele Kriterien angewandt werden. Ein einfaches Kriterium besteht aus der Selektion des größten Elementes (es sei bemerkt, dass diese Selektion an der Empfangsseite durchgeführt werden kann, ohne die Notwendigkeit der Übertragung von "Overhead"- Information). Das Eliminieren einiger verbundener Elemente wird eine Öffnungen in der Partition erzeugen, d. h. einige Gebiete, die weder einem Gebiet entsprechen, das in der Intraframe-Mode gesendet worden ist, noch einem kompensierten Etikett. Diese Öffnungen können so gelassen werden und durch den nachfolgenden Schritt als einzelne Gebiete verarbeitet werden, oder sie können entfernt werden. So kann beispielsweise eine Öffnung durch eine Fortpflanzung der benachbarten Etikette oder durch Zuordnung der Öffnung zu der größten in der Nachbarschaft usw. eliminiert werden. Am Ende dieser Prozedur hat man die schlussendliche kompensierte Partition REC- COMP(O).
- Das Codierungsverfahren, das oben beschrieben worden ist, kann verschiedenartig implementiert werden, beispielsweise mit Hilfe verdrahteter elektronische Module, wie diese bei dem System nach Fig. 8 und detailliert in Fig. 9 bis 11 beschrieben worden sind. Das Codierungssystem umfasst in Kaskade eine Segmentierungsanordnung 81, welche die aufeinanderfolgenden zu codierenden Partitionen erzeugt, eine Bewegungsschätzungsanordnung 82 zum Bewertender Bewegung der Gebiete jeder aktuellen Partition gegenüber der vorhergehenden, eine Reihenfolgebewertungsanordnung 83 zum Definieren der Priorität zwischen den Gebieten der aktuellen zu codierenden Partition, eine Codierungsanordnung 84, welche die Struktur- und Konturcodierungsschritt für jedes Gebiet der aktuellen Partition implementiert, und eine Partitionsrekonstruktionsanordnung 85.
- Nach der vorliegenden Erfindung umfasst die Reihenfolgebewertungsanordnung 83 ein entscheidungsgerichtetes Teilsystem, organisiert in Form einer Schleife mit einer ersten Schaltungsanordnung 91 zum Definieren der Übertragungsmode (Intra oder Inter) jedes Gebietes und mit einer zweiten Schaltungsanordnung 92 zum Berechnen der Reihenfolge. Die erste Schaltungsanordnung 91 empfängt die aktuelle Partition SEG(O) von der Anordnung 81, die vorhergehende rekonstruierte Partition REC(-1) von der Anordnung 85, die Bewegungsinformation MOT(O) von der Anordnung82 und das Ausgangsreihenfolgesignal von der zweiten Schaltungsanordnung 92. Die zweite Schaltungsanordnung 92 empfängt die ausgelieferte aktualisierte Bewegungsinformation, die an dem Ausgang der ersten Schaltungsanordnung 81 verfügbar ist, die aktuelle Partition SEG(O) und die vorherige rekonstruierte Partition REC(-1) und der Ausgang ist das Reihenfolgesignal, das dem vierten Eingang der ersten Schaltungsanordnung 91 und, zusammen mit der genannten aktualisierten Bewegungsinformation, der Codierungsanordnung 84 zugeführt worden ist.
- Die erste Schaltungsanordnung 91, vorgesehen zum Vergleichen der Codierungskosten der Konturinformation in der Intraframe-Mode und in der Interframe-Mode, umfasst eine Selektionsteilanordnung (103 bis 106) zum Durchführen einer Schätzung der Codierungskosten in der Intraframe-Mode (in Codierungsblöcken 103 und 104, an deren Ausgängen die resultierenden Beträge an Information gemessen werden, und nach einem Vergleich der beiden Kosten, die Selektion (Block 105) der kleineren und der entsprechenden aktualisierten Bewegungsinformation (Block 106). In der Schaltungsanordnung 104 werden die Codierungskosten unmittelbar aus der Partition SEG(O) berechnet, während in der Schaltungsanordnung 103 diese Kosten berechnet werden nach der vorhergehenden Berechnung (in dem Block 102) eines Kompensationsfehlers, hergeleitet aus einer Schätzung einer kompensierten Partition. Die genannte kompensierte Partition ist an dem Ausgang eines Kompensationsblocks 101 verfügbar. Da aber diese Kompensation nicht die Definition verbundener Gebiete gewährleisten kann (mehrere verbundene Elemente können dasselbe Etikett haben), wird eine Selektion nur eines verbundenen Elementes gemacht (beispielsweise das größte, in einem Block 107) und die Öffnungen, die den eliminierten anderen (d. h. Gebiete, die weder einem Gebiet entsprechen, das in der Intraframe-Mode gesendet worden ist, noch einem kompensierten Etikett) entsprechen, werden in einem Nachverarbeituingsblock 108 entweder dort gelassen und als einzelne Gebiete verarbeitet, oder sie werden entfernt.
- Die zweite Schaltungsanordnung 92, die vorgesehen ist zum Erzeugen des Reihenfolgesignals, umfasst einen Bewegungsfeldexpansionsblock 111, einen Aktualisierungsblock 112 und einen Quantisierungsblock 113. Der Block 111 expandiert für das ganze Bild das Bewegungsfeld, das aus den Bewegungsparametern hewrgeleitet ist, die dem betreffenden Gebiet zugeordnet sind, und der Block 112 versorgt die Aktualisierung der Bewegungsinformation. Der Block 113 schafft eine Quantisierung der Reihenfolgeinformation durch Erzeugung einer binären Zahl entsprechend für jedes Paar geprüfter Etikette (d. h. der betreffenden Gebiete) dem Etikett entsprechend der größeren Anzahl von Auftritten einer Situation, in der erklärt worden ist, dass das genannte Etikett in dem Vordergrund des anderen ist.
- Selbstverständlich sind andere Implementierungen des Codierungssystems möglich und insbesondere eine Implementierung in Form eines Moduls oder in Form von Modulen mit einem Prozessor oder einem Mikroprozessor, der die Leistung von Reihen von Instruktionen, entsprechend den Funktionen, Berechnungen und anderen Vorgängen, durchgeführt innerhalb des oben beschriebenen Codierungssystems, gewährleistet.
- Weiterhin bezieht sich die Erfindung auch auf ein codiertes Signal, wie dies am Ausgang eines derartigen Codierungssystems definiert wird (wie die Ausgestaltung desselben auch sein mag) und folglich auf jedes beliebige Speichermedium, auf dem dieses Signal gespeichert wird (wenn es nicht unmittelbar übertragen wird, oder wenn es übertragen wird, wenn es aber auf der Empfangsseite nicht unmittelbar verwendet wird). Dieses codierte Signal umfasst mehrere Arten von Information. Zunächst enthält es ein codiertes Signal entsprechend dem Struktursignal jedes Gebietes der aktuellen Partition und der entsprechenden Bewegungsinformation, welche die Evolution des genannten Gebietes zwischen der vorhergehenden Partition der segmentierten Sequenz und der aktuellen Partition kennzeichnet und welche die Möglichkeit bietet die Verlagerung von der vorhergehenden zu der letzteren zu kompensieren.
- Es enthält ebenfalls, da sie vorher definiert worden sind, das Reihenfolgesignal, das für jedes betreffende Paar konfliktierender Gebiete definiert, welches von ihnen in dem Vordergrund des anderen steht, sowie die entsprechende aktualisierte Bewegungsinformation. Wenn ein derartiges komplexes codiertes Signal erzeugt wird, ist es aber nicht notwendig, dass es unmittelbar übertragen wird, sondern dass es nur gespeichert wird, damit es nachher übertragen werden kann, oder es kann übertragen werden, aber auf der Empfangsseite nicht unmittelbar benutzt. In beiden Fällen wird dieses codierte Signal gespeichert und die Erfindung bezieht sich auf das Speichermedium, auf dem dieses Signal gespeichert wird.
- Weiterhin beschränkt sich die Erfindung selbstverständlich nicht auf die obenstehenden Ausführungsformen und bezieht sie sich weiterhin auf ein Verfahren zum Decodieren eines codierten Signals, wie oben beschrieben, und auf ein entsprechendes Decodierungsteilsystem. Das Decodierungsverfahrenm dasrgestellt in Fig. 12, umfasst die nachfolgenden Verfahrensschritte: einen Intra-Decodierungsschritt 121a, einen Bewegungskompensationsschritt 122a und einen Partitionsrekonstruktionsschritt 123a, wobei der Ausgang der beiden Schritte die aktuelle rekonstruierte Partition bildet und für den nächsten Decodierungsschritt benutzt wird.
- Der erste Decodierungsschritt 121a, durchgeführt, wie in Fig. 13 angegeben, durch eine Intra-Gebietsdecodierschaltung 130, ist vorgesehen für eine Wiederherstellung der Konturen der Gebiete, die in der Intraframe-Mode gesendet worden sind. Die entsprechende Decodierschaltung umfasst eine Decodierstufe 132, dies es ermöglicht, dass die Gebiete rekonstruiert werden, die in der Intraframe-Mode gesendet worden sind, und zwar entsprechend der spezifischen Technik, die für die Formcodierung auf der Sendeseite angewandt worden ist (beispielsweise in dem Fall eines Kettencodierverfahrens, wie dies beispielsweise in der Kommunikation "Spiral image compression by an unrestricted chain coding method" von P.N. Nicholl und R.J. Millar, "Sth International Conference on Image Processing and its Applications", UK, den 4.-6. Juli 1995, Seiten 564-568 beschrieben worden ist), wobei die Basismethode für eine derartige Rekonstruktion ist, aus dem Eingangspuffer 131 der Decodierschaltung die Stelle des Startpunktes der Konturen auszulesen und danach die jeweiligen Verlagerungen der Kette auszulesen, wie rechtsherum, linksherum, geradeaus, um die decodierten Konturen zu zeichnen). Wenn der Satz der Konturen einmal gezeichnet worden ist, ermöglicht eine Maskendefinitionsstufe 133 jedem Gebiet die jeweiligen Etikette zuzuordnen und den anderen Gebieten ein Null-Etikett zuzuordnen (das in der Interframe-Mode übertragen wird). Eine Maske, welche diese Gebiete angibt, wird dazu erzeugt.
- Der zweite Bewegungskompensationsschritt 122a kann durchgeführt werden wie oben angegeben (die entsprechende Kompensationsschaltung 140 wird deswegen an dieser Stelle nicht auf eine detaillierte Art und Weise beschrieben), wobei die Reihenfolgeinformation, die benutzt wird zum Lösen von Konflikten, die entstehen, wenn ein und derselben Stelle zwei verschiedene Etikette zugeordnet werden können (das Etikett entsprechend dem Vordergrundgebiet, wie durch die genannte Reihenfolgeinformation definiert, wird als die einwandfreie betrachtet). Die kompensierte Partition ist aus Intraframe-codierten Gebieten, bewegungskompensierten Gebieten und Öffnungen entsprechend leeren Bereichen (denen keine Etikette während des Kompensationsprozesses zugeordnet wurden) zusammengesetzt.
- Wenn diese kompensierte Partition einmal verfügbar ist, ermöglicht der dritte Partitionsrekonstruktionsschritt 123a, durchgeführt durch eine Decodierschaltung 150, die kleinen Kontursegmente zu decodieren (in einer Fehlergebietdecodierstufe 151), welche die Fehlergebiete bilden. Ein ähnlicher Prozess wie der, der für die Decodierstufe 132 verwendet worden ist, kann benutzt werden, wobei der Hauptunterschied nun ist, dass man nicht länger mit der ganzen Kontur zu tun hat, sondern nur mit Teilen der Kontur. An dem Ausgang der Decodierstufe 151 ist eine sog. Überpartition, gemacht aus dem Schnitt zwischen den kompensierten Gebieten und dem Satz übertragener Fehlergebiete, verfügbar. Eine Etikettdecodierstufe 152 ermöglicht es danach, die Etikette der Gebiete dieser Überpartition zu decodieren und diese Etikette werden zugeordnet.
- Selbstverständlich bezieht sich die vorliegende Erfindung ebenfalls auf ein Verfahren zum Codieren einer Sequenz, in der die Bilder bereits in Form aufeinander folgender segmentierter Bilder mit einer Anzahl Gebiete und zugeordneten Etiketten, die Partitionen definieren, verfügbar sind. Das Verfahren umfasst folglich nicht den ersten Transformationsschritt und wird folglich durch ein Codierungssystem durchgeführt, das nicht länger eine Segmentierungsanordnung aufweist, da aufeinanderfolgende Partitionen mit einer Anzahl Gebiete bereits verfügbar sind.
Claims (3)
1. Verfahren zum Codieren einer Bildsequenz, wobei dieses Verfahren
die nachfolgenden Verfahrensschritte umfasst:
- das Umformen der Bilder der genannten Sequenz zu aufeinanderfolgenden
segmentierten Bildern mit einer Anzahl Gebieten und zugeordneten Etiketten, die
Partitionen definieren;
- das für die Gebiete der betreffenden Partition Schätzen einer
Bewegungsinformation über die Evolution der genannten Segmentierung aus den vorhergehenden
Partition;
- das Codieren der Kontur und der Struktur jedes Gebietes der genannten
betreffenden Partition;
- das auf Basis der genannten codierten Partition Erzeugen einer entsprechenden
rekonstruierten Partition, wobei der Bewegungsinformationsschätzungsschritt in
Kaskade die nachfolgenden Teilschritte umfasst:
- das für jedes Gebiet der genannten betreffenden Partition auf Basis eines
Vergleichs zwischen dieser betreffenden Partition und einer Partition, die gegenüber der
genannten rekonstruierten Partition kompensiert ist, und der genannten
Bewegungsinformation Definieren einer Intraframe- oder eine
Interframe-Konturenübertragungsmode;
- das für jedes Paar benachbarter Gebiete der genannten betreffenden Partition
auf Basis eines Vergleichs zwischen den betreffenden Bewegungsinformationen, die
diesen zwei Gebieten zugeordnet sind, Definieren einer Hilfsreihenfolgeinformation
zwischen den genannten benachbarten Gebieten und einer aktualisierten
Bewegungsinformation, wobei die genannte Reihenfolgeinformation zurückgesendet wird, damit
eine Schleife gebildet wird in der die genannte Reihenfolgeinformation die Definition
der genannten Konturübertragungsmode aktualisiert.
2. Coedierungsverfahren nach Anspruch 1, wobei:
(A) der Teilschritt der Definition der genannten Konturübertragungsmode für
jedes Gebiet einzeln die nachfolgenden Vorgänge umfasst:
- das auf Basis der Bewegungsinformation, die jedem
aufeinanderfolgenden Gebiet der betreffenden Partition zugeordnet ist, Ausgleichen der genannten
entsprechenden rekonstruierten Partition;
- das auf Basis eines Vergleichs zwischen der genannten betreffenden
Partition und der genannten entsprechenden kompensierten Partition Berechnen eines
Kompensationsfehlers;
- das als Bewegungsinformation und auf Basis eines Vergleichs
zwischen Codierungskosten der genannten betreffenden Partition und dem genannten
Kompensationsfehler Erzeugen einer Entscheidung in Bezug auf die
Übertragungsmode der Kontur des betreffenden Gebietes;
(B) der genannte Unterschritt der Hilfsreihenfolgeinformationsdefinitiondie
nachfolgenden Vorgänge umfasst:
- das Definieren eines Bewegungsvektors für jede Position innerhalb
des betreffenden Gebietes und das Zuordnen des genannten Vektors zu allen Punkten
der betreffenden Partition;
- das Erzeugen der Reihenfolgeinformation entsprechend jedem der
betreffenden Gebiete, und zwar auf Basis eines Vergleichs zwischen der genannten
betreffenden Partition und der genannten rekonstruierten Partition, unter
Berücksichtigung des genannten zugeordneten Vektors;
- das Quantisieren der genannten Reihenfolgeinformation durch einen
Vergleich für jedes Etikettenpaar, das zwei betreffenden Gebieten zugeordnet ist, der
Anzahl Auftritte, wo das erste Etikett als in den Vordergrund des zweiten auftretend
betrachtet wird, und der reziproken Anzahl und durch Selektion der größeren Anzahl.
3. System zum Codieren einer Bildsequenz, wobei das System die
nachfolgenden Elemente umfasst:
- eine Segmentierungsanordnung (81) zum Erzeugen aufeinanderfolgender
Partitionen mit einer Anzahl Gebiete;
- eine Bewegungsschätzungsanordnung (82) zum Bewerten der Bewegung der
genannten Segmentierung aus einer vorhergehenden Partition zu der aktuellen;
- eine Anordnung (83) zur Bewertung der Reihenfolgeinformation zum
Definieren einer Priorität in der Reihenfolge der Codierung der genannten Gebiete;
- eine Codierungsanordnung (84), zum Codieren von Kontur- und
Struktursignalen für alle Gebiete der aktuellen Partition, und
- eine Partitionrekonstruktionsanordnung (85);
wobei die genannte Reihenfolgeinformationsbewertungsanordnung (83) ein
entscheidungsgerichtetes Untersystem ist mit einer Übertragungsmodedefinitionsschaltung,
vorgesehen zum Ermitteln der Codierungskosten der Konturinformation in der
Intraframe-Mode und in der Interframe-Mode und zum Definieren eines ersten
aktualisierten Bewegungsausgangssignals mit einer aktualisierten Bewegungsinformation
und einer entsprechenden Übertragungsmodeinformation, und mit einer
Reihenfolgeberechnungsschaltung, vorgesehen zum Zuordnen eines Signals zweiter Ordnung zu.
dem genannten ersten aktualisierten Signal, und selber die nachfolgenden Elemente
umfasst:
- einen Bewegungsfeldexpansionsblock (111) in Form einer ersten
Abtastschleife zum Erweitern, für jedes Gebiet, dessen Bewegungsmodell zu allen
Punkten der Partition und zum Definieren einer Reihenfolgeinformation für das genannte
betreffende Gebiet, und in Form einer zweiten Abtastschleife zum Wiederholen der
genannten Bewegungsfeldexpansion für alle Gebiete jeder betreffenden Partition;
- einen Aktualisierungsblock (112);
- einen Quantisierungsblock (113) zum Treffen einer
Mehrheitsregelentscheidung in Bezug auf die schlussendliche Reihenfolge jedes Gebietes;
wobei der Ausgang der genannten Reihenfolgeinformationsbewertungsanordnung, das
genannte Signal der schlussendlichen Reihenfolge und das genannte aktualisierte
Bewegungssignal vereint.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP95401813 | 1995-08-02 | ||
PCT/IB1996/000747 WO1997005746A2 (en) | 1995-08-02 | 1996-07-25 | Method and system for coding an image sequence, corresponding coded signal and storage medium, and method and system for decoding such a coded signal |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69615812D1 DE69615812D1 (de) | 2001-11-15 |
DE69615812T2 true DE69615812T2 (de) | 2002-06-20 |
Family
ID=8221512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69615812T Expired - Fee Related DE69615812T2 (de) | 1995-08-02 | 1996-07-25 | Verfahren und system zur kodierung einer bildsequenz |
Country Status (5)
Country | Link |
---|---|
US (1) | US6826230B1 (de) |
EP (1) | EP0783820B1 (de) |
JP (1) | JPH10507331A (de) |
DE (1) | DE69615812T2 (de) |
WO (1) | WO1997005746A2 (de) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997009828A1 (en) * | 1995-09-06 | 1997-03-13 | Philips Electronics N.V. | Method and system for coding a sequence of segmented images, corresponding coded signal and storage medium, and method and system for decoding such a coded signal |
KR19980073964A (ko) * | 1997-03-20 | 1998-11-05 | 김영환 | 영상신호의 모양정보 부호화시 윤곽선 정합 이동 벡터 추정 방법 |
US6400831B2 (en) | 1998-04-02 | 2002-06-04 | Microsoft Corporation | Semantic video object segmentation and tracking |
US6711278B1 (en) * | 1998-09-10 | 2004-03-23 | Microsoft Corporation | Tracking semantic objects in vector image sequences |
US6499060B1 (en) | 1999-03-12 | 2002-12-24 | Microsoft Corporation | Media coding for loss recovery with remotely predicted data units |
WO2000064148A1 (en) * | 1999-04-17 | 2000-10-26 | Pulsent Corporation | Method and apparatus for efficient video processing |
US7310445B2 (en) * | 2003-11-26 | 2007-12-18 | International Business Machines Corporation | Classification of image blocks by region contrast significance and uses therefor in selective image enhancement in video and image coding |
US8634413B2 (en) | 2004-12-30 | 2014-01-21 | Microsoft Corporation | Use of frame caching to improve packet loss recovery |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8603880D0 (en) * | 1986-02-17 | 1986-03-26 | Indep Broadcasting Authority | Hybrid interpolative predictive code |
JPH02224488A (ja) * | 1989-02-27 | 1990-09-06 | Canon Inc | 画像伝送方式 |
JP3035920B2 (ja) * | 1989-05-30 | 2000-04-24 | ソニー株式会社 | 動体抽出装置及び動体抽出方法 |
DE69416717T2 (de) * | 1993-05-21 | 1999-10-07 | Nippon Telegraph And Telephone Corp., Tokio/Tokyo | Bewegtbildkoder und -dekoder |
KR100366141B1 (ko) * | 1994-01-31 | 2003-03-03 | 소니 가부시끼 가이샤 | 화상대조방법및장치 |
US5512939A (en) * | 1994-04-06 | 1996-04-30 | At&T Corp. | Low bit rate audio-visual communication system having integrated perceptual speech and video coding |
US5594504A (en) * | 1994-07-06 | 1997-01-14 | Lucent Technologies Inc. | Predictive video coding using a motion vector updating routine |
US5608458A (en) * | 1994-10-13 | 1997-03-04 | Lucent Technologies Inc. | Method and apparatus for a region-based approach to coding a sequence of video images |
-
1996
- 1996-07-25 DE DE69615812T patent/DE69615812T2/de not_active Expired - Fee Related
- 1996-07-25 EP EP96923012A patent/EP0783820B1/de not_active Expired - Lifetime
- 1996-07-25 JP JP9507404A patent/JPH10507331A/ja not_active Ceased
- 1996-07-25 WO PCT/IB1996/000747 patent/WO1997005746A2/en active IP Right Grant
- 1996-07-31 US US08/688,917 patent/US6826230B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0783820B1 (de) | 2001-10-10 |
WO1997005746A2 (en) | 1997-02-13 |
EP0783820A2 (de) | 1997-07-16 |
JPH10507331A (ja) | 1998-07-14 |
US6826230B1 (en) | 2004-11-30 |
DE69615812D1 (de) | 2001-11-15 |
WO1997005746A3 (en) | 1997-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69618759T2 (de) | Verfahren und system zur kodierung einer sequenz von segmentierten bildern , kodiertes signal und speichermedium, verfahren und system zur dekodierung des kodierten signals | |
DE69609702T2 (de) | Verfahren und system zur kodierung segmentierter bilder sowie entsprechendes dekodierungsverfahren und -system | |
DE69025392T2 (de) | Verfahren und gerät zur schätzung und hierarchischen kodierung von bewegung in bildfolgen | |
DE69421837T2 (de) | Videokoder und -dekoder | |
DE69623342T2 (de) | Videokodierer und -dekodierer mit bewegungsbasierter bildsegmentierung und bildzusammenfügung | |
DE69904749T2 (de) | Videocodierung mit bewegungskompensation und cholesky faktorisierung | |
DE19825042C2 (de) | Verfahren zur Bewegungsvektorcodierung bei MPEG-4 | |
DE10362106B3 (de) | Direktmodus-Bewegungsvektor-Berechnungsverfahren für B-Bilder | |
DE19506372B4 (de) | Bi-Direktionales Bewegungsschätzverfahren und ein dafür vorgesehenes Gerät | |
DE69525009T2 (de) | Verfahren zur differentiellen Kodierung von Bewegungsvektoren mit Mittelwertprädiktion | |
DE69817460T2 (de) | Bildsequenzdekodierungsverfahren | |
DE69736852T2 (de) | Codierung- und Decodierungssystem für bewegte Bilder mit beliebig geformten Objekten | |
DE69511119T2 (de) | Kodierung eines feldes von bewegungsvektoren | |
DE19704439C2 (de) | Verfahren und Vorrichtung zur Bewegungsschätzung in einem digitalen Videocodierer unter Verwendung von Trajektorien | |
DE69801209T2 (de) | Hierarchischer rekursiver Bewegungsschätzer für Bewegtbildkodierer | |
DE112007002493T5 (de) | Verfahren zum Zerlegen eines Videosequenzrahmens | |
EP2490448A1 (de) | Kodierverfahren und Bildkodiervorrichtung zur Kompression einer Bildsequenz | |
DE102010025816A1 (de) | Verfahren und Systeme zum Abschätzen von Bewegung basierend auf rekonstruierten Referenzframes bei einem Videodecoder | |
DE102006043707A1 (de) | Verfahren zur Datenkompression in einer Videosequenz | |
DE69732865T2 (de) | Kodierer mit Mitteln zur Ergänzung eines digitalen Bildes mit Bildelementen | |
DE69231187T2 (de) | Verfahren zur schaetzung und hierarchischen kodierung von bewegung in bildfolgen | |
DE69615812T2 (de) | Verfahren und system zur kodierung einer bildsequenz | |
DE69415731T2 (de) | Verfahren zur Prädiktion eines Bildes | |
EP0941613B1 (de) | Verfahren zur bildcodierung eines digitalisierten bildes | |
EP1101196B1 (de) | Verfahren und anordnung zur bewegungsschätzung in einem digitalisierten bild mit bildpunkten |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |