DE69729438T2

DE69729438T2 - Verfahren und Gerät zur prädiktiven Kodierung der Objektinformation von Videosignalen

Info

Publication number: DE69729438T2
Application number: DE1997629438
Authority: DE
Inventors: Jae Won Kangseo-ku Chung; Jae Kyoon Yusong-ku Kim; Joo Hee Kwangjin-ku Moon; Ji Heon Kwanak-ku Kweon
Original assignee: Hyundai Curitel Co Ltd
Current assignee: Pantech Co Ltd
Priority date: 1997-03-20
Filing date: 1997-05-20
Publication date: 2005-07-07
Anticipated expiration: 2017-05-21
Also published as: KR100463004B1; KR19980073931A; DE69729438D1; US6301303B1; JPH10276440A; JP3056120B2; EP0866621B1; EP0866621A1

Description

Hintergrund der Erfindung
Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich allgemein auf ein Verfahren nach dem Oberbegriff des Anspruchs 1. Beispielsweise ist die vorliegende Erfindung anwendbar auf ein Forminformations-Kodierverfahren der moving picture experts group-4 (nachfolgend als MPEG-4 bezeichnet), das ein internationaler Standard für die Kodierung sich bewegender Bilder und für Audiosignale ist, sowie andere Kodierverfahren, die Forminformationen berücksichtigen.
Beschreibung des Standes der Technik
Herkömmlicherweise werden bei der Kodierung eines bewegten Bildes in der Einheit des Objekts Forminformationen zusammen mit Bewegungsinformationen beginnend mit denjenigen, die die höchste Priorität für die Vorhersage von Bewegungskompensationen haben, übertragen. Zu dieser Zeit müssen verschiedene Bewegungsinformationen auf benachbarte Pixel auf der Objektgrenze angewendet werden.
Mehrere Versuche zur Darstellung einer derartigen Bereichsgrenze wurden auf Gebieten wie Computergrafik, Zeichenerkennung, Objektsynthese u. s. w. vorgeschlagen. Beispielsweise können solche Versuche Kettenkodierung, Polygonannäherung und Splineannäherung sein. Jedoch berücksichtigen derartige Versuche nicht die Übertragung. In dieser Hinsicht ist es schwierig, kodierte Forminformationen eines Bewegungsbereichs jedes Vollbildes wegen einer hohen Übertragungsrate zu übertragen.
Ein Konturenvorhersage-Kodierverfahren wurde vorgeschlagen, um das obige Problem zu lösen (s. den Artikel von H. G. Musmann et al "Object-oriental analysis-synthesis coding of moving images", 12467 Signal Processing Image Communication 1, (1989), Amsterdam, NL, Seiten 117–138). Eine hohe Redundanz ist zwischen Forminformationen eines Bewegungsbereichs desselben Objekts in aufeinanderfolgenden Bildern vorhanden. Auf der Grundlage einer derartigen Charakteristik wird das Konturenvorhersage-Kodierverfahren angepasst, um eine Bewegungskompensationsvorhersage einer Kontur durchzuführen und den vorhergesagten Fehler zu übertragen, um eine Forminformations-Übertragungsmenge zu verringern. Forminformationen eines Bewegungsbereichs desselben Objekts in aufeinanderfolgenden Bildern sind in der Form und der Position sehr analog. Als eine Folge können die gegenwärtigen Forminformationen auf der Grundlage der vorhergehenden Forminformationen vorhergesagt werden. Weiterhin werden Bewegungsinformationen eines sich bewegenden Ob jekts geschätzt und eine Bewegungskompensationsvorhersage wird mit Bezug auf Forminformationen gemäß den geschätzten Bewegungsinformationen durchgeführt. In dem Fall, in welchem die Bewegungsbereichsextraktion und die Bewegungsinformationsschätzung ideal genau sind, ist die Übertragung von Forminformationen nicht erforderlich.
Jedoch werden bei den vorgenannten Konturenvorhersage-Kodierverfahren die Forminformationen wichtiger, wenn die Übertragungsgeschwindigkeit niedriger wird. In dieser Hinsicht ist ein wirksames Kodierverfahren erforderlich, um die Forminformationen beträchtlich zu verringern, damit eine höhere Kodierverstärkung als die eines Blockeinheit-Kodierverfahrens, das keine Übertragung von Forminformationen erfordert, erhalten wird.
Um das Problem bei dem vorgenannten Konturenvorhersage-Kodierverfahren zu lösen, wurde ein Verfahren mit Schwellenwertoperation, das einen Übertragungsvorhersagefehler auswählt, vorgeschlagen, das in der US-Patentanmeldung Nr. 08/478,558 offenbart ist, die im Namen von Hyundai Electronics Industrious Co, Ltd. eingereicht und beispielsweise unter DE-A 19 549 095, US-A-5 799 109, FR-A-2 728 987 veröffentlicht wurde. Das Verfahren mit Schwellenwertoperation überträgt keine Informationen, die keine Wirkung auf die menschliche Sehkraft haben, oder Informationen, die keine Wirkung auf die subjektive Bildqualität haben, um eine Kodierung bei niedriger Übertragungsgeschwindigkeit zu ermöglichen.
Ein binäres Bild, das einen Bereich/Nichtbereich oder die Grenze hiervon darstellt, kann durch eine Kontur angezeigt werden, aber eine hohe Redundanz ist zwi schen Forminformationen eines Bewegungsbereichs desselben Objekts in aufeinanderfolgenden Bildern vorhanden. Als eine Folge wird, da die Kodieroperation bedingungslos ohne Berücksichtigung eines Kodierwirkungsgrads in Bezug auf die Zeitachsen-Forminformationen des Bildes durchgeführt wird, der Verdichtungskopier-Wirkungsgrad verschlechtert.
In jüngerer Zeit wurde ISO/IEC/WG11 als ein Verfahren zum Kodieren eines Objekts mit willkürlichen Forminformationen betrachtet, das im Unterschied zu MPEG-1 und MPEG-2 eine Bildeinheit-Kodierung durchführt.
Hier wird ein gegebenes Video in ein Hintergrundbild und ein Objektbild geteilt, und ein Rechteck enthaltend das geteilte Hintergrundbild und Objektbild ist definiert als eine Videoobjektebene (nachfolgend nach VOP bezeichnet). Bei MPEG-4 werden in dem Fall, in welchem Objektbereiche enthaltend gewünschte Objekte oder Bereiche in Bildern vorhanden sind, diese in VOP geteilt und die geteilten VOP werden individuell kodiert.
Eine derartige VOP hat den Vorteil des freien Zusammensetzens oder Auseinandernehmens eines natürlichen Bildes oder eines künstlichen Bildes als der Einheit des Objektbildes. Als eine Folge ist die VOP ein grundsätzlicher Faktor bei der Verarbeitung eines Objektbildes in Teilbildern wie bei Computergrafik, Multimedien u. s. w.
2 ist eine Ansicht, die eine herkömmliche VOP mit Forminformationen illustriert, die in Makroblöcke unterteilt ist. Wie in dieser Zeichnung gezeigt ist, ist eine horizontale Größe der VOP definiert als eine VOP-Breite, und eine vertikale Größe hiervon ist de finiert als eine VOP-Höhe. Die linke obere Ecke der VOP ist definiert als ein Gitterstartpunkt, und die VOP ist in M × N Makroblöcke unterteilt, von denen jeder M Pixel auf der X-Achse und N Pixel auf der Y-Achse enthält. Beispielsweise kann die VOP in 16 × 16 Makroblöcke unterteilt sein, von denen jeder 16 Pixel auf der X-Achse und 16 Pixel auf der Y-Achse enthält.
Bemerkenswert wird in dem Fall, in welchem Makroblöcke in den äußersten rechten und unteren Bereichen der VOP nicht große M Pixel auf der X-Achse bzw. N Pixel auf der Y-Achse enthalten, die VOP in der Weise vergrößert, dass die X- und Y-Achsen Pixel von jedem der Makroblöcke die Anzahl M bzw. N haben können.
Sowohl M als auch N werden so gesetzt, dass sie geradzahlig sind, so dass ein Strukturkodierer eine Subblockeinheiten-Kodierung durchführen kann, wie nachfolgend erwähnt wird.
Eine Redundanz ist vorhanden zwischen Konturen eines Bewegungsbereichs auf der Zeitachse. Eine derartige Redundanz muss beseitigt werden, um die Kompressionskodierung wirksam zu machen. D. h., in dem Fall, in welchem die Bewegung von Forminformationen der gegenwärtigen VOP vernachlässigbar klein ist, können Forminformationen der vorhergehenden VOP direkt verwendet werden. In diesem Fall besteht keine Notwendigkeit für die Kodierung der Forminformationen der gegenwärtigen VOP, um diese zu übertragen. Jedoch werden herkömmlich Forminformationen einer gegebenen VOP bedingungslos kodiert und zu einem Dekodierer übertragen. Als eine Folge werden die Bildkodierung und die Verdichtungswirkungsgrade verschlechtert.
Zusammenfassung der Erfindung
Daher wurde die vorliegende Erfindung angesichts der obigen Probleme gemacht und es ist eine Aufgabe der vorliegenden Erfindung, ein Verfahren für vorhersagende Kodierung von Forminformationen eines Videosignals wie im Anspruch 1 definiert anzugeben. Forminformationen des gegenwärtigen Bildes werden mit denen des vorhergehenden Bildes in der Einheit eines Pixels oder Blocks verglichen, um eine Differenz zwischen diesen zu erhalten. Nur wenn die erhaltene Differenz einen vorbestimmten Bezugswert überschreitet, werden die Forminformationen des gegenwärtigen Bildes kodiert. Andernfalls wird der gegenwärtige Modus auf einem nichtkodierten Modus bestimmt. In diesem Fall werden die gegenwärtigen Forminformationen nicht kodiert, und sie werden rekonstruiert unter Verwendung der bereits übertragenen vorhergehenden Forminformationen. Zu diesem Zweck werden nur Informationen über den nicht kodierten Modus zu einem Dekodierer übertragen. Daher wird eine herkömmliche individuelle Konturverdichtung nicht durchgeführt, was zu einer Zunahme des Verdichtungskodier-Wirkungsgrades führt.
Die vorhergehenden Forminformationen können die zuletzt kodierten Forminformationen sein.
Ein Bit der logischen "1" oder "0" kann zu einem Dekodierer übertragen werden, um anzuzeigen, ob die gegenwärtigen Forminformationen kodiert sind oder nicht. Das Bit ist in einem zu dem Dekodierer zu übertragenden Bitstrom enthalten.
Das Bit der logischen "1" kann anzeigen, dass die gegenwärtigen Forminformationen kodiert sind.
Das Bit der logischen "0" kann anzeigen, dass die gegenwärtigen Forminformationen nicht kodiert sind.
Alternativ können mehrere zu einem Dekodierer zu übertragende Bits erzeugt werden, um anzuzeigen, ob die gegenwärtigen Forminformationen kodiert sind oder nicht. Die Bits können in einem zu dem Dekodierer zu übertragenden Bitstrom enthalten sein.
Die Forminformationen können eine Videoobjektebene sein.
Kurz gesagt, ein Fehler zwischen den gegenwärtigen Forminformationen und den vorhergehenden Forminformationen wird durch Vergleich zwischen diesen erhalten. Wenn der erhaltene Fehler größer als ein vorbestimmter Bezugswert ist, werden die gegenwärtigen Forminformationen kodiert. Jedoch in dem Fall, in welchem der erhaltene Fehler kleiner als der vorbestimmte Bezugswert ist, werden die gegenwärtigen Forminformationen rekonstruiert unter Verwendung der vorhergehenden Forminformationen. Daher wird eine Zeitachsenredundanz einer binären Maske beseitigt, um die Übertragung unnötiger Informationen zu verhindern, was zu einer Zunahme des Verdichtungskodier-Wirkungsgrades führt.
Kurzbeschreibung der Zeichnungen
Die obigen und andere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden besser verständlich anhand der folgenden detaillierten Beschreibung, die in Verbindung mit den begleitenden Zeichnungen gegeben wird, in denen:
1 ist ein Blockschaltbild, das die Konstruktion eines herkömmlichen Kodierers illustriert;
2 ist eine Ansicht, die eine herkömmliche VOP mit Forminformationen, die in Makroblöcke geteilt sind, illustriert;
3 ist ein Blockschaltbild, das die Konstruktion eines herkömmlichen Dekodierers illustriert;
4 ist ein Blockschaltbild, das die Konstruktion eines VOP-Kodierers in dem Kodierer nach 1 illustriert.
5 ist ein Flussdiagramm, das ein Verfahren zum vorhersagenden Kodieren von Forminformationen eines Videosignals gemäß der vorliegenden Erfindung illustriert;
6 ist eine Ansicht, die den Vergleich zwischen den vorhergehenden Forminformationen und den gegenwärtigen Forminformationen in 5 illustriert;
7 ist eine Ansicht, die Bezugspunkte für den Vergleich zwischen den vorhergehenden Forminformationen und den gegenwärtigen Forminformationen in 5 illustriert;
8 ist ein Flussdiagramm, das schematisch einen Vorgang illustriert, auf den die vorliegende Erfindung angewendet wird; und
9 ist ein schematisches Blockschaltbild, das die Konstruktion einer Vorrichtung zum vorhersagenden Kodieren von Forminformationen eines Videosignals gemäß der vorliegenden Erfindung illustriert.
Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
1 ist ein Blockschaltbild, das die Konstruktion eines herkömmlichen Kodierers vom Verifizierungsmodell illustriert, der zuerst durch ISO/IOC JTC1/SC29/WG11MPEG96/N1172 JANUAR gebildet wurde. Wie in dieser Zeichnung gezeigt ist, weist der Kodierer 10 eine VOP-Formationseinheit 11, VOP-Kodierer 12A, 12B, ..., 12N und einen Multiplexer 13 auf.
Die VOP-Formationseinheit 11 ist ausgebildet zum Empfangen einer zu übertragenden oder zu speichernden Bildfolge, Teilen der aufgenommenen Bildfolge in Objektbilder und Bilden von VOPn entsprechend jeweils den geteilten Objektbildern.
Wie vorher mit Bezug auf 2 festgestellt ist, ist die VOP herkömmlich aus M × N Makroblöcken zusammengesetzt, beginnend mit dem Gitterstartpunkt an der linken oberen Ecke, von denen jeder M Pixel auf der X-Achse und N Pixel auf der Y-Achse enthält. Jedoch wird in dem Fall, in welchem Pixel mit Objektbild oder Forminformationen in vielen Makroblöcken vorhanden sind, die Anzahl von Makroblöcken, die einer Forminformationskodierung zu unterziehen sind, erhöht, was zu einer Verschlechterung des Kodierwirkungsgrades führt.
Andererseits werden die VOPn, die von der VOP-Formationseinheit 11 gebildet sind, jeweils durch die VOP-Kodierer 12A, 12B, ..., 12N kodiert durch den Multiplexer 13 einer Multiplexverarbeitung unterzogen und als ein Bitstrom übertragen.
3 ist Blockschaltbild, dass die Konstruktion eines herkömmlichen Dekodierers 20 vom Verifizierungsmodell illustriert, der zuerst durch ISO/IEC JTC1/SC29/WG11MPEG96/N1172 JANUAR konzipiert wurde. Wie in dieser Zeichnung gezeigt ist, weist der Dekodierer 20 einen Demultiplexer 21, VOP-Dekodierer 22A, 22B, ..., 22N und einen Zusammensetzvorrichtung 23 auf.
Die von dem Kodierer 10 in 1 kodierten und als der Bitstrom übertragene VOP-Informationen werden durch den Demultiplexer 21 in VOP-kodierte Signale geteilt.
Die VOP-kodierten Signale von dem Demultiplexer 21 werden jeweils durch die VOP-Dekodierer 22A, 22B, ..., 22N dekodiert und von der Zusammensetzvorrichtung 23 in die ursprünglichen Bilder zusammengesetzt.
4 ist ein Blockschaltbild, das die Konstruktion von jedem der VOP-Kodierer 12A, 12B, ..., 12N in den Kodierer 10 in 1 illustriert. Wie in dieser Zeichnung gezeigt ist, enthält jeder VOP-Kodierer eine Bewegungsschätzvorrichtung 31, eine Bewegungskompensationsvorrichtung 32, eine Subtraktionsvorrichtung 33, einen Strukturkodierer 34, einen Addierer 35, einen Detektor 36 für die vorhergehende VOP, einen Formkodierer 37, einen Multiplexer 38 und einen Puffer 39.
Die Bewegungsschätzvorrichtung 31 ist ausgebildet zum Schätzen einer Makroblockeinheit-Bewegung der entsprechenden VOP von der VOP-Formationseinheit 11.
Die Bewegungskompensationsvorrichtung 32 ist ausgebildet zum Kompensieren der von der Bewegungsschätz vorrichtung 31 geschätzten Bewegungsinformationen.
Die Subtraktionsvorrichtung 33 ist ausgebildet zum Erfassen einer Differenz zwischen der VOP von der VOP-Formationseinheit 11 und der bewegungskompensierten VOP von der Bewegungskompensationsvorrichtung 32.
Der Strukturkodierer 34 ist ausgebildet zum Kodieren von Strukturinformationen in der Einheit von Subblöcken im Makroblock als Antwort auf die von der Subtraktionsvorrichtung 33 erfasste Differenz. Jeder Makroblock wird in Subblöcke unterteilt. Beispielsweise wird, wenn M und N gleich 16 sind und jeder Subblock M/2 Pixel auf der X-Achse und N/2 Pixel auf der Y-Achse enthält, jeder Makroblock in 8 × 8-Subblöcke unterteilt. Die Strukturinformationen werden in der Einheit eines Subblocks kodiert.
Der Addierer 35 ist ausgebildet zum Hinzufügen der von dem Strukturkodierer 34 kodierten Strukturinformationen zu der bewegungskompensierten VOP von der Bewegungskompensationsvorrichtung 32.
Der Detektor 36 für die vorhergehende VOP ist ausgebildet zum Erfassen einer vorhergehenden VOP oder einer VOP eines Bildes unmittelbar vor dem gegenwärtigen Bild, anhand eines Ausgangssignals von dem Addierer 35.
Die durch den Detektor 36 für die vorhergehende VOP erfasste vorhergehende VOP kann zu der Bewegungsschätzvorrichtung 31 und der Bewegungskompensationsvorrichtung 32 geführt werden, um für die Bewegungsschätzung und -kompensation verwendet zu werden.
Der Formkodierer 37 ist ausgebildet zum Kodieren von Forminformationen der VOP von der VOP-Formationseinheit 11.
Bemerkenswert ist ein Ausgangssignal von dem Formkodierer 37 variabel verwendet gem. den Teilbildern, aus die die VOP-Kodierer 12A, 12B, ..., 12N angewendet werden. Wie durch die strichlierten Linien in der Zeichnung angedeutet ist, kann das Ausgangssignal von dem Formkodierer 37 zu der Bewegungsschätzvorrichtung 31, der Bewegungskompensationsvorrichtung 32 und dem Strukturkodierer 34 geliefert werden, um für die Bewegungsschätzung und -kompensation sowie die Kodierung der Strukturinformationen verwendet zu werden.
Die von der Bewegungsschätzvorrichtung 31 geschätzten Bewegungsinformationen, die von dem Strukturkodierer 34 kodierten Strukturinformationen und die von dem Formkodierer 37 kodierten Forminformationen werden durch den Multiplexer 38 einer Multiplexverarbeitung unterzogen und über den Puffer 39 zu dem Multiplexer 13 in 1 für die Übertragung in der Form eines Bitstroms übertragen.
Bei MPEG-4 können verschiedene Formkodiertechniken auf den Formkodierer 37 angewendet werden, der Forminformationen jeder VOP von der VOP-Formationseinheit 11 kodiert. Beispielsweise kann eine derartige Technik eine MMR-Formkodiertechnik sein, die Forminformationen auf der Grundlage N × N Blöcken kodiert, wobei N = 16,8 oder 4. Andere Formkodiertechniken können eine vertex-basierte Formkodiertechnik, eine grundlinien-basierte Formkodiertechnik, eine context-basierte arithmetische Kodiertechnik u. s. w. sein.
Für ein besseres Verständnis der vorliegenden Erfindung wird zuerst die grundsätzliche Konzeption be schrieben, bevor eine detaillierte Beschreibung der bevorzugten Ausführungsbeispiele gegeben wird.
Zuerst wird die Bildeinheit zum Kodieren (UIC) beschrieben. Bei herkömmlichen Bildkodierstandards wie MPEG-1 und MPEG-2 wurde eine block-basierte Kodiertechnik zum Kodieren eines Videosignals in der Einheit des Vollbilds, Makroblocks oder Einheitsblocks ungeachtet des Inhalts des Bildes vorgeschlagen. Da jedoch die Anforderungen der Multimediafunktion erhöht werden, wird auch das Erfordernis nach einer Videosignalkodierung um das Objekt herum erhöht. Eine derartige Kodiertechnik um das Objekt herum erfordert die Vorschrift einer neuen Kodiereinheit um das Objekt herum, nicht eine feste Kodiereinheit wie das herkömmliche Vollbild oder die herkömmliche Blockeinheit. Mit anderen Worten, das ursprüngliche Videosignal mit der Vollbildeinheit wird in bedeutsame Objektbilder mit Forminformationen unterteilt, und die Kodierung wird mit Bezug auf jedes der unterteilten Objektbilder als eine Kodiereinheit durchgeführt. Beispielsweise ist bei MGEG-4 die VOP als die Bildeinheit für die Kodierung definiert.
Hier enthalten die vorhergehenden Forminformationen die ursprünglichen vorhergehenden Forminformationen unmittelbar vor den gegenwärtigen Forminformationen und rekonstruierte Forminformationen der vorhergehenden ursprünglichen Forminformationen, dekodiert und in einem Speicher (nicht gezeigt) gespeichert sind. Ein Fehler in den gegenwärtigen Forminformationen wird auf der Grundlage der vorhergehenden Forminformationen oder der vorhergehenden ursprünglichen Forminformationen oder der rekonstruierten Forminformationen erfasst. Wenn der erfasste Fehler einen Bezugswert überschreitet, werden die gegenwärtigen Formin formationen kodiert. Demgegenüber werden, wenn der erfasste Fehler kleiner als der Bezugswert ist, die gegenwärtigen Forminformationen nicht kodiert und die rekonstruierten Forminformationen werden als die gegenwärtigen Forminformationen verwendet.
In dem Fall, in welchem sich die rekonstruierten Forminformationen von den vorhergehenden ursprünglichen Forminformationen unterscheiden oder sie einen Fehler haben unter der Bedingung, dass die vorhergehenden ursprünglichen Forminformationen stehend sind, wird die Kodierung nicht durchgeführt, da die vorhergehenden ursprünglichen Forminformationen gleich den gegenwärtigen Forminformationen sind. Als eine Folge wird die subjektive Bildqualität (im Wesentlichen sichtbare Bildqualität) ausgezeichnet.
Jedoch sind in dem Fall, in welchem die rekonstruierten Forminformationen keinen Fehler haben, diese gleich den vorhergehenden ursprünglichen Forminformationen. In diesem Fall ist es vorteilhaft, die rekonstruierten Forminformationen anstelle der vorhergehenden ursprünglichen Forminformationen zu verwenden. Der Grund hierfür besteht darin, dass, wenn die vorhergehenden ursprünglichen Forminformationen verwendet werden, die rekonstruierten Forminformationen hiervon in einem getrennten Speicher gespeichert werden müssen, was zu einer Zunahme der Kosten und der Komplexität des Prozesses führt.
Andererseits werden in dem Fall, in welchem ein Fehler zwischen den rekonstruierten Forminformationen und den gegenwärtigen Forminformationen und ein Fehler zwischen den vorhergehenden ursprünglichen Forminformationen und den gegenwärtigen Forminformationen jeweils größer als der Bezugswert sind, die rekon struierten Forminformationen für die Kodierung verwendet.
Es wird nun das bevorzugte Ausführungsbeispiel der vorliegenden Erfindung im Einzelnen mit Bezug auf die 5 bis 9 beschrieben.
8 ist ein Flussdiagramm, das schematisch einen Vorgang illustriert, auf den die vorliegende Erfindung angewendet wird.
Zuerst wird der Konturenunterscheidungsschritt 81 durchgeführt, um mehrere Konturen in einer Forminformation zu unterscheiden. Der Konturenextraktionsschritt 83 wird durchgeführt, um die in dem Konturenunterscheidungsschritt 81 unterschiedenen Konturen herauszuziehen.
Nachdem die Konturen in dem Konturenextraktionsschritt 83 herausgezogen sind, wird der Forminformations-Kodierschritt 93 durchgeführt. Der Forminformations-Kodierschritt 93 enthält den Forminformations-Bewegungsschätzschritt 85, den Forminformations-Bewegungskompensationsmodus-Bestimmungsschritt 87, den Inter-/Intra-Modusbestimmungsschritt 88 und den Forminformations-Kodier-/Nichtkodiermodus-Bestimmungsschritt 89.
Wenn der gegenwärtige Modus in dem Inter-/Intra-Modusbestimmungsschritt 88 als ein Intramodus bestimmt wird, wird der Intrakodierschritt 95 durchgeführt. Jedoch wird in dem Fall, in welchem der gegenwärtige Modus in dem Inter-/Intra-Modusbestimmungsschritt 88 als ein Intermodus bestimmt wird, der Forminformations-Kodier-/Nichtkodier-Modusbestimmungsschritt 89 durchgeführt.
Wenn der gegenwärtige Modus in dem Forminformations-Kodier-/Nichtkodier-Modusbestimmungsschritt 89 als ein Forminformations-Kodiermodus bestimmt wird, wird der Kontureinheit-Kodierschritt 91 durchgeführt. Jedoch wird in dem Fall, in welchem der gegenwärtige Modus in den Forminformations-Kodier-/Nichtkodier-Modusbestimmungsschritt 89 als ein Forminformations-Nichtkodiermodus bestimmt wird, der Nichtkodiermodus-Informationsübertragungsschritt 97 durchgeführt.
9 ist ein schematisches Blockschaltbild, das die Konstruktion einer Vorrichtung zum vorhersagenden Kodieren von Forminformationen eines Videosignals gemäß der vorliegenden Erfindung illustriert.
Vorzugsweise kann die Forminformations-Vorhersagekodiervorrichtung auf der Grundlage einer vertex-basierten Kodiertechnik implementiert werden. Wie in 9 gezeigt ist, weist die Forminformations-Vorhersagekodiervorrichtung eine Fehlerberechnungsvorrichtung 72, einen Modusübertrager 73, eine Kodierbestimmungseinheit 74, einen Forminformationskodierer 76, einen Multiplexer 78 und einen Puffer 80 auf.
Die Fehlerberechnungsvorrichtung 72 ist ausgebildet zum Berechnen eines Fehlers zwischen den gegenwärtigen Forminformationen und den vorhergehenden Forminformationen auf der Grundlage von Pixeln.
Die Kodierbestimmungseinheit 74 ist ausgebildet zum Vergleichen des von der Fehlerberechnungsvorrichtung 72 berechneten Fehlers mit einem Bezugswert und zum Bestimmen entsprechend dem Vergleichsergebnis, ob die gegenwärtigen Forminformationen zu kodieren sind. Wenn beispielsweise eine Pixelveränderung der gegen wärtigen Forminformationen größer als Bezugswert ist, bestimmt die kodierte Stimmungseinheit 74 die Kodierung der gegenwärtigen Forminformationen. Andernfalls bestimmt die Kodierbestimmungseinheit 74 die Rekonstruktion der vorhergehenden Forminformationen als die gegenwärtigen Forminformationen, ohne die gegenwärtigen Forminformationen zu kodieren.
Der Modusübertrager 73 ist ausgebildet zum Übertragen eines Bits zu dem Forminformationskodierer 76 gemäß dem bestimmten Ergebnis der Kodierbestimmungseinheit 74. Wenn beispielsweise der von der Fehlerberechnungsvorrichtung 72 berechnete Fehler größer als der Bezugswert ist, überträgt der Modusübertrager 73 ein Bit mit der logischen "1" zu dem Forminformationskodierer 76. Jedoch überträgt in dem Fall, in welchem der von der Fehlerberechnungsvorrichtung 72 berechnete Fehler kleiner als der Bezugswert ist, der Modusübertrager 73 ein Bit mit der logischen "0" zu dem Forminformationskodierer 76.
Der Forminformationskodierer 76 ist ausgebildet zum Kodieren der gegenwärtigen Forminformationen als Antwort auf ein Ausgangssignal des Modusübertragers 73. Beispielsweise kodiert, wenn der ausgegebene Bitwert von dem Modusübertrager 73 gleich 0 ist, der Forminformationskodierer 76 die gegenwärtigen Forminformationen nicht, da der von der Fehlerberechnungsvorrichtung 72 berechnete Fehler kleiner als der Bezugswert ist. In diesem Fall werden die vorhergehenden Forminformationen als die gegenwärtigen Forminformationen rekonstruiert. Demgegenüber kodiert in dem Fall, in welchem der ausgegebene Bitwert von dem Modusübertrager 73 gleich 1 ist, der Forminformationskodierer 76 die gegenwärtigen Forminformationen, da der von der Fehlerberechnungsvorrichtung 72 be rechnete Fehler größer als der Bezugswert ist.
Die von dem Forminformationskodierer 76 kodierten Forminformationen werden durch den Multiplexer 78 einer Multiplexverarbeitung unterzogen und zu dem Puffer 80 geführt.
5 ist ein Flussdiagramm, das ein Verfahren zum vorhersagenden Kodieren von Forminformationen eines Videosignals gemäß der vorliegenden Erfindung illustriert.
Vorzugsweise kann das Forminformations-Vorhersagekodierverfahren auf der Grundlage einer vertex-basierten Formkodiertechnik implementiert werden.
Zuerst wird eine eingegebene Bildfolge in Objektbilder mit Forminformationen unterteilt.
Dann wird der Fehlerberechnungsschritt S1 durchgeführt, um einen Fehler zwischen den gegenwärtigen Forminformationen und den vorhergehenden Forminformationen durch den Vergleich zwischen diesen zu berechnen.
In dem Fehlerberechnungsschritt S1 werden, wie in 6 gezeigt ist, die vorhergehenden Forminformationen und die gegenwärtigen Forminformationen in eine Bezugsposition gebracht und die Anzahl von Pixeln in nicht überlappenden Bereichen wird berechnet. Dann wird der Forminformationsfehler erhalten durch Teilen des berechneten Wertes durch die Gesamtzahl von Pixeln in den gegenwärtigen Forminformationen. Alternativ kann der Fehler zwischen den gegenwärtigen Forminformationen und den vorhergehenden Forminformationen in Einheiten von Blöcken erhalten. In diesem Fall wird die Anzahl von Blöcken in nicht überlappten Bereichen berechnet und der berechnete Wert wird durch die Gesamtzahl von Blöcken in den gegenwärtigen Forminformationen geteilt, um den Forminformationsfehler zu erhalten.
Nachdem der Fehlerberechnungsschritt S1 durchgeführt ist, wird der Fehlervergleichsschritt S2 durchgeführt, um den im Fehlerberechnungsschritt S2 berechneten Fehler mit einem vorbestimmten Bezugswert zu vergleichen. Wenn beispielsweise der berechnete Fehler größer als oder gleich dem Bezugswert (zum Beispiel 0,005) ist, wird bestimmt, dass die gegenwärtigen Forminformationen eine Veränderung mit Bezug auf die vorhergehenden Forminformationen aufweisen. Demgegenüber wird in dem Fall, in welchem der berechnete Fehler kleiner als der Bezugswert ist, bestimmt, dass die gegenwärtigen Forminformationen keine Veränderung mit Bezug auf die vorhergehenden Forminformationen aufweisen. Hier ist der Bezugswert ein Schwellenwert für die Forminformationsänderung. Der Bezugswert kann auf unterschiedliche Werte gesetzt werden in Abhängigkeit davon, ob der Vergleichsfaktor ein Pixel oder ein Block ist.
In dem Fall, in welchem der berechnete Fehler in dem Fehlervergleichsschritt S2 größer als oder gleich dem Bezugswert ist, wird der Kodiermodus-Informationsübertragungsschritt S3 durchgeführt, um ein Bit mit der logischen "1" als Kodiermodusinformation zu übertragen.
In dem Fall, in welchem der berechnete Fehler im Fehlervergleichsschritt S2 kleiner als der Bezugswert ist, wird der Nichtkodiermodus-Informationsübertragungsschritt S4 durchgeführt, um ein Bit mit der lo gischen "0" als Nichtkodiermodus-Information übertragen.
Alternativ kann ein Bit mit der logischen "0" als die Kodiermodus-Information in dem Kodiermodus-Informationsübertragungsschritt S3 übertragen werden, und ein Bit mit der logischen "1" kann als die Nichtkodiermodus-Information in den Nichtkodiermodus-Informationsübertragungsschritt S4 übertragen werden.
Wenn die Kodiermodus-Information in den Kodiermodus-Informationsübertragungsschritt S3 übertragen wird, wird der Forminformations-Kodierschritt S5 durchgeführt, um die gegenwärtigen Forminformationen zu kodieren.
Jedoch wird in dem Fall, in welchem die Nichtkodiermodus-Information in dem Nichtkodiermodus-Informationsübertragungsschritt S4 übertragen wird, der Forminformations-Rekonstruktionsschritt S6 durchgeführt, um die gegenwärtigen Forminformationen unter Verwendung der vorhergehenden Forminformationen zu rekonstruieren, anstelle der Kodierung der gegenwärtigen Forminformationen.
Vorzugsweise müssen die zuletzt kodierten Forminformationen als die vorhergehenden Forminformationen verwendet werden, um einen Fehler aufgrund der Akkumulation von feinen Veränderungen zu verringern.
Andererseits wird der Vergleich zwischen den vorhergehenden Forminformationen und den gegenwärtigen Forminformationen bei der Dekodierung der kodierten gegenwärtigen Forminformationen durchgeführt. Wie in 7 gezeigt ist, wird ein derartiger Vergleich durchgeführt, indem ein Bezugspunkt b der vorherge henden Forminformationen zu einem Bezugspunkt a der gegenwärtigen Forminformationen bewegt wird. Alternativ kann ein derartiger Vergleich durchgeführt werden durch Bewegen des Bezugspunktes a der gegenwärtigen Forminformationen zu dem Bezugspunkt b der vorhergehenden Forminformationen.
Wie vorstehend erwähnt ist, erscheint in dem Fall, in welchem die unmittelbar vorher eingegebenen Forminformationen als die vorhergehenden Forminformationen ungeachtet dessen, ob die gegenwärtigen Forminformationen kodiert sind oder nicht, verwendet werden, ein diskretes Video aufgrund der Akkumulation von Fehlern, die sich aus Bewegungen unterhalb des Bezugswertes ergeben. Daher werden die zuletzt kodierten Forminformationen als die vorhergehenden Forminformationen verwendet, um die Videodiskretheit aufgrund der Akkumulation von feinen Veränderungen zu verhindern.
Wie aus der obigen Beschreibung ersichtlich ist, stellt die vorliegende Erfindung das Verfahren und die Vorrichtung zum vorhersagenden Kodieren von Forminformationen des Videosignals in der Einheit des Bildes zur Verfügung. Forminformationen des gegenwärtigen Bildes werden mit denen des vorhergehenden Bildes in der Einheit eines Pixels oder Blocks verglichen, um eine Differenz zwischen diesen zu erhalten. Nur wenn die erhaltene Differenz den vorbestimmten Bezugswert überschreitet, werden die Forminformationen des gegenwärtigen Bildes kodiert. Andernfalls werden die gegenwärtigen Forminformationen unter Verwendung der bereits übertragenen vorhergehenden Forminformationen rekonstruiert. Daher wird die Übertragung unnötiger Informationen verhindert, um den Kompressionskodier-Wirkungsgrad zu erhöhen.
Obgleich die bevorzugten Ausführungsbeispiele der vorliegenden Erfindung für illustrative Zwecke offenbart wurden, ist für den Fachmann offensichtlich, dass verschiedene Modifikationen, Ergänzungen und Substitutionen möglich sind, ohne den Bereich der Erfindung, so wie er in den begleitenden Ansprüchen offenbart ist, zu verlassen.

Claims

Verfahren zur prädikativen Kodierung der Forminformation eines Videosignals, umfassend die Schritte: (a₁) Durchführung eines ersten Vergleiches (S₁) der gegenwärtigen Forminformation mit einer vorhergehenden Forminformation, um eine Abweichung zwischen diesen zu ermitteln; (a₂) Durchführung eines zweiten Vergleiches (S₂) der ermittelten Abweichung mit einem vorbestimmten Referenzwert; (b) Kodierung (S₅) der gegenwärtigen Forminformation, wenn der zweite Vergleich zeigt, dass die Abweichung größer ist als der Referenzwert; (c) Einleiten (S₄) der Rekonstruktion der gegenwärtigen Forminformation unter Verwendung der vorhergehenden Forminformation, wenn der zweite Vergleich (S₂) zeigt, dass die Abweichung kleiner ist als der vorbestimmte Referenzwert, dadurch gekennzeichnet, dass der erste Vergleich umfasst: Bringen der vorhergehenden Forminformation und der gegenwärtigen Forminformation in eine Referenzposition, Berechnung der Anzahl Pixel oder Blocks in nicht überlappenden Bereichen in der vorhergehenden Forminformation und der gegenwärtigen Forminformation in der Referenzposition sowie Teilen der berechneten Anzahl durch die Gesamtzahl der jeweiligen Pixel oder Blocks in der gegenwärtigen Forminformation, um die Abweichung zu ermitteln.
Verfahren nach Anspruch 1, gekennzeichnet durch Wahl der neuesten kodierten Forminformation als vorhergehende Forminformation.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt des Bringens der vorhergehenden Forminformation und der gegenwärtigen Forminformation in eine Referenzposition das Bewegen eines Referenzpunktes der vorhergehenden Forminformation an einen Referenzpunkt der gegenwärtigen Forminformation oder umgekehrt umfasst.
Verfahren nach Anspruch 1, welches weiter den Schritt der Erzeugung eines Bits einer logischen "1" oder "0" umfasst, das zu einem Dekodierer zu übertragen ist und anzeigt, ob die gegenwärtige Forminformation kodiert ist oder nicht, wobei das Bit in einem Bitstrom eingefügt wird.
Verfahren nach Anspruch 1, welches weiter den Schritt der Wahl einer Videoobjektebene als Forminformation umfasst.
Verfahren nach Anspruch 1, gekennzeichnet durch Wahl der ursprünglichen Forminformation als vorhergehende Forminformation.
Verfahren nach Anspruch 1, gekennzeichnet durch Wahl einer wiederhergestellten Forminformation, welche in einem Speicher gespeichert ist, als vorhergehende Forminformation.
Verfahren nach Anspruch 1, gekennzeichnet durch die Erzeugung einer Mehrzahl von Bits, die zu einem Dekodierer zu übertragen sind und anzeigen, ob die gegenwärtige Forminformation kodiert ist oder nicht, wobei die Bits in einen Bitstrom eingefügt wurden.