DE69907798T2

DE69907798T2 - Umwandlungen von komprimierten Bildern

Info

Publication number: DE69907798T2
Application number: DE69907798T
Authority: DE
Inventors: Viresh San Jose Ratnakar; Victor San Jose Ivashin; Vasudev San Jose Bhaskaran
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1998-03-30
Filing date: 1999-03-11
Publication date: 2004-03-25
Anticipated expiration: 2019-03-12
Also published as: JPH11331847A; EP0947954B1; DE69907798D1; US6298166B1; EP0947954A1; JP4348768B2

Description

Die Erfindung betrifft allgemein das Verarbeiten von Bilddaten in der komprimierten Bildbereichsdarstellung und im Besonderen die Manipulation der komprimierten Bildbereichsdarstellung, um eine bestimmte räumliche Bildbereichsverarbeitung wie eine normale geometrische Transformationen eines Bildes zu erzielen, ohne die Bilddaten dem vollen Dekomprimierungs- und Komprimierungsprozesses zu unterwerfen.
A typisches hochqualitatives digitalisiertes Farbbild kann 24 Bit pro Pixel (bit per pixel) (bpp) nutzen – je 8 Bit für Rot (red) (R), Grün (green) (G) und Blau (blue) (B) im RGB Farbraum oder für Helligkeit (luminance) (Y), Farbton (chrominance) (C_B) und Farbton (chrominance) (C_R) im YC_BC_R Farbraum. Das Übertragen und Speichern solcher Bilder im unkomprimierten Zustand (d. h. in räumlichem oder Pixel-Bildbereich) ist hinsichtlich der Zeit- und Speicheranforderungen einfach zu kostspielig. Deshalb führen dies Anwendungen und Geräte, welche hochqualitative digitalisierte Farbbilder speichern und/oder übertragen, wie digitale Kameras, typischerweise in einem komprimierten Format durch Verwenden eines der gegenwärtig verfügbaren Kompressionsalgorithmen durch.
Die Verbreitung von Kompressionsstandards wie JPEG (ein Akronym für „Joint Photographic Experts Group") hat zu vielen digitalen bilderzeugenden Systemen (imaging Systems) und Anwendungen geführt, welche Inhalte nur in JPEG-koprimiertem Format erzeugen und verwalten. Zum Beispiel werden in den meisten digitalen Standbild(still-imaging)-Kameras wie Epson PhotoPC 600, Kodak DC-10 usw. von der Kamera aufgenommene Bilder unmittelbar in der Kamera komprimiert und in dem Speichersystem der Kamera als JPEG-Dateien gespeichert. Oft besteht das Bedürfnis, diese Bilder vor dem Anzeigen zu manipulieren. Typische Bildmanipulationen können (a) Rotieren des Bildes von Portrait- in Landschaftsmodus und wieder zurück, (b) Vergrößern oder Verkleinern der Bildgröße, (c) Ändern der Helligkeit und des Kontrastes des Bildes, (d) Zuschneiden von Teilen des Bildes zum Erzeugen eines neuen Bildes und für Zusammenfügungsoperationen, (e) Hinzufügen einfacher Bitmap-Anmerkungen zu einem Bild, und (f) Einbetten von sichtbaren/unsichtbaren Wasserzeichen (watermarks) in das Bild umfassen. Auf Grund von Speicherbeschränkungen in der digitalen Kamera erfordern diese Bildmanipulationen die verarbeitete Ausgabe im JPEG-Format.
Das Bedürfnis, diese Aufgaben durchzuführen, und die Verfügbarkeit des Bildes nur im komprimierten Zustand führte zu einem großen Interesse am Entwickeln von Bildverarbeitungstechniken, welche direkt auf die komprimierte Bildbereichsdarstellung angewendet werden können. Die Motivation zum Untersuchen komprimierter Bildbereichsverarbeitungsverfahren entstammt der Beobachtung, dass (a) das Volumen der Daten in einem komprimiertem Bildbereich dazu neigt, sehr klein im Vergleich zur räumlichen Bildbereichsdarstellung zu sein, was bedeutet, dass weniger Operationen pro Abtastung (sample) für die gewünschte Bildverarbeitungsaufgabe erforderlich sein können, und (b) herkömmliche Verarbeitungsabläufe (processing pipelines) komprimierte Daten erfordern, gefolgt durch die Anwendung der gewünschten Bildverarbeitungsfunktion in dem räumlichen Bildbereich, und schließlich das Rekomprimieren zur Übertragungs- oder Speichereffizienz zum Verlust von Bildgenauigkeit (image fidelity) führen kann. Weiterhin weist ein solcher herkömmlicher Verarbeitungsablauf eine sehr hohe Berechnungskomplexität oder hohe Wartezeit (latency) auf, da die Kompressionsaufgabe oft komplexer als die Dekompressionsaufgabe ist. Die auf dem komprimierten Bildbereich basierende Verarbeitungsmethodik führt auf der anderen Seite oft zu verringerter Berechnungskomplexität, da sie die JPEG-Dekompressions- und Kompresssionsaufgaben durch weniger komplexe Aufgaben wie Huffman-Dekodierung und Huffmann-Kodierung ersetzt. (Siehe, S. F. Chang und D. G. Messerschmitt, „Manipulation and Compositing of MC-DCT Compressed Video," IEEE JSAC Special Issue on Intelligent Signal Processing, Band 13, Nummer 1, Seiten 1–11, Jan. 1995; N. Merhav und V. Bhaskaran, „A fast algorithm for DCT-domain inverse motion compensation," Proc. ICASSP '96, Seiten IV.2307–2310, Atlanta, Mai 1996; B. Natajaran und V. Bhaskaran, „A fast approximate algorithm for scaling down digital images in the DCT domain," IEEE International Conference on Image Processing (ICIP), Washington, D. C., Okt. 1995; und Brian Smith und Larry Rowe, „Algorithms for manipulating compressed images," IEEE Computer Graphics and Applications, Seiten 34–42, Sept. 1993.)
Es ist deshalb eine Aufgabe der vorliegenden Erfindung, die vorstehend genannten, mit dem Durchführen von Manipulationen an digitalen Bildern in dem räumlichen Bildbereich verbundenen Probleme zu überwinden.
Es ist eine andere Aufgabe dieser Erfindung, eine direkte Manipulation der komprimierten Bildbereichsdarstellung eines Bildes bereitzustellen, um eine gewählte räumliche Bildbereichsmanipulation ohne Ausführung eines vollständigen Dekompressions- und Kompressionsprozesses zu Erzielen.
Es ist eine weitere Aufgabe dieser Erfindung, einen Satz von Algorithmen bereitzustellen, welcher die zum Erzielen der entsprechenden Bildmanipulationen in dem räumlichen Bildbereich erforderlichen Manipulationen an komprimierten Daten wesentlich vereinfacht.
Es ist noch eine weitere Aufgabe dieser Erfindung, einen Satz von Algorithmen bereitzustellen, um Bilddaten in dem komprimierten Bildbereich zu manipulieren, was einen Manipulationsschritt umfasst, der einen Satz komprimierter Daten aufnimmt und einen anderen Satz komprimierter Daten erzeugt, so dass, wenn der Prozess umgekehrt wird, das ursprüngliche Bild ohne jeglichen Verlust an Qualität erzeugt werden kann.
Die vorliegende Erfindung stellt ein Verfahren zum Durchführen verschiedenster zweiflächiger (dihedral) Symmetrieoperationen auf einer räumlichen Bildbereichsdarstellung eines digitalen Bildes durch Manipulieren einer lineartransformierten Bildbereichsdarstellung eines digitalen Bildes. Wenn ein digitales Bild in der Form eines komprimierten Bitstroms (bitstream) wie einer JPEG-Datei vorliegt, schließt das Verfahren eine Dekodierung des mittleren Informationsgehalts (entropy decoding) des komprimierten Bitstroms ein, um auf einer Lineartransformation basierende Datenblöcke zu erzeugen, welche die linear transformierte Bildbereichsdarstellung des digitalen Bildes definieren. Die auf der Lineartransformation basierenden Datenblöcke werden für die entsprechende geometrische Transformation aufgenommen, eine besondere Operation der Linearetransformation des Bildbereichs wird auf die Datenelemente innerhalb jeden Blocks angewendet und die Blöcke werden wieder zusammengefügt. Wenn diese Datenblöcke in einen räumlichen Bildbereich dekomprimiert werden, wird das resultierende Bild hinsichtlich des ursprünglichen Bildes umgekehrt (flipped) oder rotiert. Hinsichtlich des ursprünglichen Bildes kann das resultierende Bild über jede Diagonale (Haupt- oder Kreuz-) umgekehrt werden, über jede seiner Mittelachsen (vertikal oder horizontal), oder um 90°, 180° oder 270° rotiert werden. Das Verfahren kann in einem bildgebenden System wie in einer digitalen Standbild-Kamera angewendet werden, oder in einem Computersystem. In jedem Fall kann das Verfahren mittels Hardware oder Software implementiert werden.
Andere Aufgaben und Errungenschafen zusammen mit einem vollständigeren Verständnis der Erfindung werden unter Bezugnahme auf die folgende Beschreibung und Ansprüche in Verbindung mit den beigefügten Zeichnungen deutlicht und verständlich.
Die Zeichnungen, in denen gleiche Bezugsziffern gleiche Teile kennzeichnen, zeigen:
1 zeigt ein Blockschaltbild, welches den JPEG-Kompressions und Dekompressions-Verarbeitungsablauf darstellt.
2 zeigt ein Blockschaltbild, welches die auf einem räumlichen Bildbereich basierende Bildverarbeitung für einen JPEG-Datensatz darstellt.
3 zeigt ein Blockschaltbild, welches die auf einem komprimierten Bildbereich basierende Bildverarbeitung für eine JPEG-Datensatz gemäß der Erfindung darstellt.
4 zeigt ein Schaltbild, welches eine Blockrotation um 90° durch eine Diagonal-Umkehr (diagonal-flip) (F_d) und eine Spalten-Umkehr (column-flip) (F_y) gemäß der Erfindung darstellt.
5 zeigt ein Blockschaltbild einer digitalen Standbild-Kamera (digital still-imaging camera) (DSC), welche in Verbindung mit der Erfindung verwendet werden kann.
6 zeigt ein Blockschaltbild, das die wechselseitige Beziehung zwischen verschiedenen Komponenten darstellt, welche zum Erfassen und Anzeigen digitaler Bilder verwendet werden können, wie auch das Verarbeiten solcher Bilder gemäß der Erfindung.
Da die 8 × 8 diskrete Cosinus-Transformation (discrete cosine transform) (DCT) als Basisfunktion bei Standbild-Kompresssionsstandards wie JPEG gewählt wird (siehe, G. K. Wallace, „The JPEG Still Picture Compression Standard," Communications of the ACM, Band 34, Nummer 4, Apr. 1991), und da JPEG das in vielen digitalen Verbraucher-Standbild-Kameras auf dem Markt weit verbreitete Kompressionsverfahren ist, wird sich die folgende Beschreibung auf einige der Verarbeitungsverfahren komprimierter Bildbereiche fokussieren, welche für digitale Standbild-Kamera-Anwendungen geeignet sind und welche auf den DCT-Bildbereichsdarstellungen des JPEG-komprimierten Bitstroms der Kamera arbeiten. Obwohl 8 × 8 die üblichste DCT Blockgröße ist, können sich die Verfahren auf andere DCT Blockgrößen erstrecken. Weiterhin sind die Verfahren ausweitbar auf alle anderen auf Lineartransformation basierende Basisfunktionen einschließlich diskreter Sinus-Transformation, diskreter Hadamard-Transformation und auch die Elementarwellen(Wavelet)-Transformationen.
Wir beginnen mit dem kurzen Beschreiben des JPEG-Kompressions- und Dekompressionsprozesses und der grundlegenden Idee zum Aufnehmen von Bildverarbeitungsfunktionen in den JPEG-Ablauf (JPEG pipeline). JPEG benutzt das DCT, um Standbild-Daten aus ihrer räumlichen oder Pixel-Bildbereichsdarstellung in ihre komprimierte oder Frequenz-Bildbereichsdarstellung zu transformieren, in welchen die Daten effizienter kodiert werden können. Die hier entwickelten Bildmanipulationsverfahren sind dazu ausgelegt, die Vorteile der Eigenschaften des DCT zu nutzen.
Der JPEG-Kompressions- und Dekompressionsprozess, schematisch dargestellt in 1, arbeitet auf einer Block-bei-Block (block-by-block) Basis, wobei jede Blockgröße 8 × 8 ist. Wie schematisch in 1 dargestellt, wird das unkomprimierte Standbild 11 durch einen Raster-nach-Block Konverter 12 in 8 × 8 Pixelblöcke zerlegt. Diese Blöcke werden dann durch den Vorwärts-8 × 8-DCT 13 transformiert, um einen zugehörigen Satz von 8 × 8 DCT Blöcken zu erzeugen. Der Vorwärts-8 × 8-DCT F(u, ν) eines 8 × 8 Blocks einem räumlichen Bildbereich von Abtastungen (samples) f(i, j) wird berechnet als:
wobei,
Nach Eingabe des Vorwärts-8 × 8-DCT 13 wird jeder der 64 DCT Koeffizienten einheitlich in einem Vorwärts-Quantisierer 14 in Verbindung mit einer 64-Element-Quantisierungtabelle Q quantisiert, welche empirisch abgeleitet werden kann, um Information abzulegen, welche visuell nicht signifikant ist. Bei diesem Kompriomierungsprozess rührt der einzige während der Kompression hinnehmbare Verlust aus der Quantisierung von F(u, ν) zu
wobei Q die 8 × 8 Quantisierungstabelle ist.
Nach der Quantisierung sind die DCT-Daten in jedem Block in einer „Zick-Zack"-Sequenz geordnet, welche Kodierung des mittleren Informationsgehalts durch Stellen von Koeffizienten niedriger Frequenz (welche eher nicht Null sind) vor die Koeffizienten höherer Frequenz (welche eher Null sind) erleichtert. Die Daten werden dann in einem Huffman-Kodierer 15 Huffman-kodiert, um die Daten weiter zu verdichten und einen JPEG-komprimierten Bitstrom zu erzeugen.
Das Bild kann dann aus dem komprimierten Bitstrom durch einen symetrischen Umkehrprozess rekonstruiert werden. Der JPEG-Dekompressionsprozess beginnt durch dekodieren des komprimierten Bitstroms in einem Huffman-Dekoder 16, um die 8 × 8 Blöscke der DCT-Koeffizienten zurück zu gewinnen. Die Koeffizienten werden durch ein inverses Zick-Zack-Verfahren aufgenommen und die Blöcke werden dann durch einen inversen Quantisierer 17 geführt. Im nächsten Schritt arbeitet die 8 × 8 inverse diskrete Cosinus-Transformation (inverse discrete cosin transform) (IDCT) 18 auf den 8 × 8 Blöcken von DCT Koeffizienten, um einen Strom von 8 × 8 Pixelblöcken zu erzeugen. Ein Block-nach-Raster (block-to-raster) Konverter 19 konvertiert diese Blöcke in das dekomprimierte Standbild 21. Bei dem Dekompressionsprozess konvertiert die IDCT die Koeffizienten F(u, ν) zurück zu den Pixeln f(i, j), genau:
Der Dekompressionsprozess wird eigentlich mit den quantisierten Koeffizienten, F_Q, arbeiten, und nur eine Näherung f_Q von f erzielen.
Wenn eine Bildverarbeitungsfunktion wir Rotation oder Maßstabsänderung (scaling) auf einem Bild ausgeführt werden soll, welches nur als JPEG-komprimierter Bitstrom verfügbar ist, kann diese Verarbeitung wie in 2 gezeigt durchgeführt werden. Zuerst wird der JPEG-komprimierte Bitstrom in Block 31 zurück in seine räumliche Bildbereichsdarstellung dekomprimiert. Die Bildverarbeitung des räumlichen Bildbereichs wird dann in Block 32 durchgeführt. Nachher werden die verarbeiteten Pixeldaten in Block 33 wieder komprimiert, um einen neuen JPEG-komprimierten Bitstrom zu erzeugen. Wir bezeichnen dieses Schema als einen räumlichen Bildbereichsansatz (spatial-domain approach), da die Verarbeitung direkt auf die dekomprimierten räumlichen Bildbereichsdaten (Pixel) angewendet wird.
Der räumliche Bildbereichsansatz hat bestimmte Vorteile. Einer dieser Vorteile ist der, dass die Bildverarbeitung in dem räumlichen Bildbereich ein bekanntes Problem ist und Lösungen für viele typische Bildverarbeitungsfunktionen weit verbreitet verfügbar sind. Ein anderer Vorteil besteht darin, dass die Verarbeitungsfunktion unabhängig von dem zugrunde liegenden Kompressionsschema ist, welches zur Darstellung der Daten verwendet wird.
Dieser Ansatz hat auch bestimmte Nachteile. Die Daten müssen vor dem Anwenden der Bildverarbeitungsfunktion vollständig dekomprimiert sein. Darüber hinaus müssen die verarbeiteten Daten dem Kompressionsprozess möglicherweise noch einmal unterworfen werden. Da JPEG ein verlustbehaftetes Kompressionsverfahren ist, kann die Dekompression-Rekompression zu einem Verlust von Bildqualität führen. Bei der Anwendung der Portrait- nach Landschaftsumwandlung wird sich die Qualität des Bildes jedes Mal schrittweise verschlechtern, wenn seine Ausrichtung geändert wird. Ein anderer Nachteil besteht darin, dass die Komplexität des Dekompressions- und Kompressionsprozesses sehr hoch ist. Wenn z. B. die Aufgabe der Bildverarbeitung ist, sagen wir, Rotation im Uhrzeigersinn um 90°, dann ist die Zahl der Operationen für die Rotation jedes 8 × 8 Blocks von Eingangsdaten wie in Tabelle 1 aufgeführt. Um eine grobe Abschätzung der Zahl der Operationen zu erhalten, haben wir angenommen, dass Multiplikationen, Additionen und Datenzugriffe jedesmal bei einer Operation pro Datenelement vorgenommen werden können.
Tabelle 1: Zahl der Operationen für eine auf einem räumlichen Bildbereich basierende Rotieren-um-90°-Operation, wenn die Eingangs- und Ausgangsdaten in 8 × 8 DCT Form vorliegen. [*] Y. Arai und T. Agui und M. Nakajima, „A Fast DCT-SQ Scheme for Images," Übersetzung des IEICE, E71(11): 1095, Nov. 1988.
Die vorliegende Erfindung schlägt eine Alternative zur auf räumlichem Bildbereich basierenden Bildverarbeitung vor, nämlich eine auf komprimiertem Bildbereich basierende Bildverarbeitung. Die Letztere ist für Daten gut geeignet, welche schon in komprimierter Form verfügbar sind, wie ein JPEG-Bitstrom. Der Basisverarbeitungsablauf für auf komprimiertem Bildbereich basierenden Bildverarbeitungschema ist wie in 3 dargestellt. Für JPEG-Daten setzt auf komprimiertem Bildbereich basierende Bildverarbeitung üblicherweise DCT-Bildbereichsverarbeitung voraus, welche durch Block 42 in 3 dargestellt ist.
Wie in 3 gezeigt wird, geht der DCT-Bildverarbeitung 42 des Bildbereichs eine Dekodierung des mittleren Informationsgehalts des JPEG-komprimierten Bitstroms in Block 41 voraus und wird gefolgt von Kodierung des mittleren Informationsgehalts in Block 43. Wie auch in 3 gezeigt ist, wird Bildverarbeitungsblock 42 des DCT-Bildbereichs weiterhin in die mit 44–49 bezeichneten Verarbeitungsblöcke geteilt. Wie vorstehend angemerkt, erzeugt das Dekomprimieren des Bitstroms 8 × 8 Blöcke von DCT Koeffizienten 44. Die Koeffizienten werden unter Verwenden einer De-Zick-Zack-Verarbeitung 45 aufgenommen, nach der die Blöcke von DCT-Koeffizienten dequantisiert 46 werden. Gemäß der Erfindung werden die dequantisierten Blöcke der DCT-Koeffizienten der Block-orientierten Verarbeitung 47 unterzogen.
In der Folge der Verarbeitung werden die auf DCT-Daten basierenden Blöcke quantisiert 48 und in die Zick-Zack-Sequenz 49 aufgenommen. Abhängig von der Bildverarbeitungaufgabe müssen jedoch nicht alle der Blöcke 44-49 verarbeitet werden. Zum Beispiel können für die D₄ Operationen (welche als Sequenzen von Umkehrungen (flips) über die Diagonale und die Y-Achse ausgedrückt werden können) die Schritte des De-Zick-Zack 45, Dequantisieren 46, Zick-Zack 49, und Quantisieren 48 weggelassen werden. Die Einzelheiten von auf komprimiertem Bildbereich basierender D₄-Operationen sollen im nächsten Abschnitt diskutiert werden.
Generell hat die Verarbeitung auf komprimiertem Bildbereich die folgenden Vorteile. Erstens kann die Bildqualität erhalten werden, da in vielen Fällen Dequantisierungs-Quantisierungs-Schritte vermieden werden können. Zweitens kann die Komplexität sehr viel geringer sein als bei dem in 2 dargestellten Gegenstück räumlicher Bildbereiche, da vollständige JPEG-Dekompressions- und Kompressionsaufgaben vermieden werden. Insbesondere bei einer Rotation um 90° weist eine einfache Implementierung des auf komprimiertem Bildbereich basierenden Gegenstücks der Verarbeitung in Tabelle 1 einen Operationszähler wie in Tabelle 2 gezeigt auf. Zu beachten ist, dass die Gesamtoperationszahl bei Verwenden des komprimierten Bildbereichsansatzes fast fünfmal geringer als bei räumlichem Bildbereichsansatz in Tabelle 1 ist. (Einzelheiten des auf DCT-Bildbereichen basierenden Rotationsverfahrens sind weiter unten diskutiert.) Ein anderer Vorteil besteht darin, dass bei typischem digitalen Bildgebung auf Grund hoher Korrelation zwischen den Pixeln die DCT- Bildbereichsdarstellung dazu neigt, sehr dürftig zu sein (z. B. liegen in einem 8 × 8 DCT-Block üblicherweise etwa 7–16 Werte ungleich Null). Diese Dürftigkeit der Dateneigenschaftenkann durch den DCT-Bildbereichsverarbeitungsansatz ausgenutzt werden, um die Geamtkomplexität weiter zu verringern; diese Eigenschaft ist in einer räumlichen Bildbereichsdarstellung nicht verfügbar. (Spezielle Verfahren, um diese Eigenschaft für die D₄-Operationen auszunutzen werden weiter unten beschrieben.)
Tabelle 2: Operationszahl für auf komprimiertem Bildbereich basierender Rotieren-um-90°-Operation, wenn die Eingangs- und Ausgangsdaten in 8 × 8 DCT Form vorliegen.
Zu beachten ist, dass es unter Umständen generell nicht möglich ist, eine auf komprimiertem Bildbereich basierende Verarbeitung entsprechend einer auf räumlichem Bildbereich basierenden Bildverarbeitungsfunktion herzuleiten. DCT ist eine Lineartransformation und daher kann eine auf komprimiertem Bildbereich basierende Verarbeitung wahrscheinlich für lineare Bildverarbeitungsfunktionen erreicht werden. Nichtlineare Bildverarbeitungsfunktionen wie Mittelwert(median)-Filtern, Verziehen (warping)/Bildumwandlung (morphing) sind dem auf komprimiertem Bildbereich basierenden Ansatz wie dem in 3 dargestellten nicht zugänglich.
Zweiflächige (dihedral) Symetrieoperationen auf JPEG-Bildern
In diesem Abschnitt entwickeln wir die grundlegenden Gleichungen, welche die einfache geometrische Transformation von JPEG-komprimierten Daten bestimmen. Die Operationen, welche durch Zusammensetzungen von Umkehrvorgängen (flips) über die diagonale Achse, die Y-Achse (d. h. die mittlere vertikale Achse) und die X-Achse (d. h. die mittlere horizontale Achse) bestimmt sind, bilden die Gruppe zweiflächiger Symetrie des Quadrats, welche als D₄ bezeichnet ist. Diese Operationen sind in Tabelle 3 aufgeführt und beschrieben.
Tabelle 3: Die Gruppe D₄ der zweiflächigen Symetrie eines Quadrats.
Zu beachten ist, dass die Operationen F_d und F_y zusammengestzt sein können, um die gesamte Gruppe zu erzeugen. (Notationsvereinbarung: die Zusammensetzung o₁o₂ von Operationen o₁ und o₂ ist die Operation, welche daraus resultiert, dass zuerst o₂ und dann o₁ angewendet wird.) Zum Beispiel kann ein einfaches Rotatieren-um-90° (R₉₀) im Uhrzeigersinn durch Anwenden einer Diagonal-Umkehr erreicht werden, gefolgt von einer Spalten-Umkehr wie in 9 dargestellt. Deshalb kann, wenn wir die auf komprimiertem Bildbereich basierenden Gegenstücke der zwei Operationen Fd und Fy herleiten können, der gesamte Rest von diesen hergeleitet werden.
Es sei f ein 8 × 8 Pixelblock, und F der entsprechende 8 × 8 DCT-Block (DCT(f) = F und IDCT(F) = f) . Für jede der acht D₄ Operationen, o, ist es leicht, die Beziehung zwischen f und of auszudrücken. Das Ziel ist, die Beziehung zwischen F und DCT(of)(bezeichnet als oF) herzuleiten.
Ziehen wir die Operation F_y heran. In dem räumlichen Bildbereich kann die Ausgabe der Spalten-Umkehr F_yf(i, j) ausgedrückt werden als:
Unter Verwenden von Gleichung 2 kann C_7–k,ν ausgedrückt werden als:
Unter Verwenden von Gleichung 14 und der DCT-Definition in Gleichung 1 kann F_yF(u, ν) in Gleichung 9 umformuliert werden in:
In dem räumlichen Bildbereich ist die Diagonal-Umkehr eines Eingabeblocks f(i, j) gleich F_df(i, j) = f(j, i). FdF(u, ν) = F(ν, u) (17)
Unter Verwenden von Gleichung 15, Gleichung 17 und den Beziehungen, welche in der dritten Spalte der Tabelle 3 gegeben sind, können wir das auf komprimiertem Bildbereich basierende Gegenstück für alle D₄ Operationen herleiten. Diese sind in Tabelle 4 aufgeführt.
Tabelle 4: DCT-Bildbereichsoperationen für geometrische Transformationen in D₄.
Die vorstehenden Beziehungen wurden hergeleitet, ohne eine Quantisierung zu berücksichtigen. Durch einfaches Verwenden der dequantisierten Koeffizienten, F_Q(u, ν)Q(u, ν), an Stelle von F(u, ν), ist leicht erkennbar, dass die quantisierten Koeffizienten eines durch eine D₄-Operation erzeugten Blocks direkt durch Anwenden der entsprechenden Eingangsblockverarbeitung (Spalte 3 von Tabelle 4) auf die quantisierten Koeffizienten des ursprünglichen Blocks erhalten werden können. Die Quantisierungstabelle bleibt die Gleiche (sie wird für F_d, F_cd, R₉₀ und R_–90 transponiert) . Dieser DCT-Bildbereichsansatz vermeidet die IDCT, die DCT genauso wie Dequantisierung und Quantisierung. Weiter unten wird gezeigt, dass die De-Zick-Zack- und Zick-Zack-Schritte ebenfalls vermieden werden können.
Um die D₄-Operation auf einem W × H JPEG-Bild auszuführen, welches aus vielen 8 × 8 Blöcken (W und H sind in jedem JPEG-Bild Vielfache von 8, erhalten durch Füllen (padding) des ursprünglichen Bildes, wenn nötig) besteht, sieht das auf komprimiertem Bildbereich basierende Verfahren wie folgt aus: (a) Umordnen der 8 × 8 Blöcke für die entsprechende geometrische Transformation, und (b) Anwenden der DCT-Bildbereichsoperation wie in Tabelle 4 auf Elemente innerhalb jedes 8 × 8 DCT-Blocks. Zu beachten ist, dass (a) und (b) verlustlose Operationen dahingehend sind, dass die quantisierten DCT-Koeffizienten FQ(u,) nicht über einen Vorzeichenwechsel hinausgehend manipuliert werden; durch Vermeiden des Prozesses der Dequantisierung und Requantisierung ist kein Qualitätsverlust hinzunehmen, ungeachtet der Anzahl einer oder mehrerer auf die JPEG-Datei der Kamera angewendeter geometrischer Transformationen der Tabelle 4.
Der Einfachheit halber beschreiben wir zuerst das Implementierungsverfahren bei Graustufen-Bildern; die einfachen Modifikationen, welche für Farbbilder notwendig sind, werden im Folgenden skizziert. Wir nehmen an, dass die Breite und Höhe des Bildes ein Vielfaches von 8 beträgt. Darüber hinaus werden wir für Farbbilder annehmen, dass die Bildung von unterlegten Abtastungen (subsampling) kein Blockfüllen erforderlich macht. Alle hier beschriebenen Operationen können auch durch zuerst Füllen des ursprünglichen Bildes mit einigen zusätzlichen Reihen/Spalten angewendet werden, wenn diese Randbedingungen nicht erfüllt sind.
Nehmen wir ein W × H Graustufen-Bild an, I, verfügbar als JPEG-Daten. Durch Anwenden des Dekodierens des mittleren Informationsgehalts auf die JPEG-Daten und Rückgängigmachen der differenziellen (differential) Kodierung der DC-Ausdrücke könne wir die quantisierten DCT-Koeffizienten für jeden Block erhalten. Bezeichnen wir mit F_k den 8 × 8 Block (nummeriert mit k in Rasterreihenfolge) von quantisierten DCT-Koeffizienten für das Bild (0 ≤ k < WH/64).
Bezeichnen wir mit I^o das Ergebnis der auf das Bild angewendeten Operation o (wobei o eine der D₄-Operationen der Tabelle 3 ist). Aus der vorstehenden Diskussion ist ersichtlich, dass die DCT-Koeffizienten-Blöcke von I^o im Wesentlichen die Gleichen sein werden wie die in I, wobei mögliches Umordnen, Transponieren, und Vorzeichenwechsel und die Quantisierungstabelle ebenfalls gleich sind, mit möglicher Transposition. Allgemein kann der Block F^o _k von quantisierten Koeffizienten in I^o ausgedrückt werden als: Fk o = oFp o(k)
Wobei p^o eine Permutation der Blöcke ist. Nhemen wir als Beispiel eine Rotation um 90° (o = R₉₀) im Uhrzeigersinn an. Für k = i_b(H/8) + j_b (das ist der Block in Reihe i_b und Spalte j_b der Blöcke in dem rotierten Bild I^o), erhalten wir: Po(k) = (H – jb – 1)(W/8) + ib .
Um das JPEG-Bild I^o zu erzeugen, müssen wir die Blöcke F_k ^o in der Reihenfolge k = 0, 1, 2, ... berechnen. Dies würde den Zugriff auf die Blöcke von I in der Reihenfolge p^o(0), p^o(1), p^o(2), ... erfordern, welcher (im Allgemeinen) verschieden von der Rasterreihenfolge ist, in welcher diese Blöcke in dem JPEG-Bild I gespeichert sind. Da die komprimierten Blöcke eine willkürlich unterschiedliche Größen aufweisen können, würde eine Extraktion eines bestimmten Blocks aus dem JPEG-Bitstrom das Analysieren aller vorhergehender Blöcke erfordern, was zu teuer ist. Darüber hinaus kann der Wert des quantisierten DC-Koeffizienten in jedem Block wegen der differentiellen Kodierung nur extrahiert werden, nachdem alle vorhergehenden DC-Werte dekodiert wurden. Wir umgehen diese Probleme durch Verwenden eines Ansatzes in zwei Durchgängen (two-pass approach). Im ersten Durchgang wird das JPEG-Bild I analysiert, um den Bit-Offset jedes Blocks und den DC-Wert jedes Blocks zu extrahieren. Im zweiten Durchgang, wenn F_k ^o des Bildes I^o berechnet wird, wird auf den Block F_p ^o(k) bereits durch Auffinden des Bit-Offsets für Blocknummer p^o(k) und Suchen nach I an dieser Position in dem JPEG-Bitstrom zugegriffen. Dieser Algorithmus ist in dem folgenden Pseudo-Kode zusammengefasst.
Effiziente Transposition und Vorzeichenwechsel von Blöcken
Das Herz des „OperateJPEG"-Algorithmus liegt in den zweiten Durchgang, wenn der ursprüngliche Block F_p ^o(k) über o transformiert wird, um den Block F_k ^o für das Bild I^o zu erhalten. Transposition und Anwendung von Vorzeichenwechseln auf einen 8 × 8 Block würde das einmalige Zugreifen auf jedes Element des Blocks erforderlich machen, wenn dies in geradliniger Art (straight-forward manner) implementiert ist. Das Bedautet, dass die Komplexität ein Vielfaches von 64 sein wird. Die quantisierten Koeffizientenblöcke in typischen JPEG-Bildern weisen eine sehr kleine Anzahl (typischerweise kleiner als 16) von Koeffizienten ungleich Null auf. Wir legen einen Algorithmus dar, welcher die Transposition und Vorzeichenwechsel mit einer Komplexität proportional der Anzahl der Koeffizienten ungleich Null in dem Block durch führt. Dies führt zu einer wesentlichen Reduktion der Gesamtkomplexität, was diese linear zur Gesamtgröße des komprimierten Bildes anstatt zur Gesamtgröße des unkomprimierten Bildes macht.
In dem Huffman-Kodierungsmodus des JPEG wird ein Block quantisierter Koeffizienten durch Abtasten in Zick-Zack-Anordnug kodiert, um lange Läufe von Nullen zusammen zu gruppieren. Die Zick-Zack-Reihenfolge ist in Tabelle 5 spezifiziert. Beim Kodieren eines Blocks wird zuerst die Differenz zwischen den quantisierten DC-Werten des aktuellen Blocks und den vorgehenden Block unter Verwenden einer Huffman-Tabelle kodiert, welche spezifisch für diese Differenziale ist.
Tabelle 5: Die Zick-Zack-Reihenfolge, ZZ(u, ν), benutzt von JPEG.
Als Nächstes werden die quantisierten AC-Koeffizienten in Zick-Zack-Reihenfolge abgetastet und als eine Sequenz von Symboltrios (symbol trios) in der Form (R, S, V) kodiert, wobei R die Anzahl von aufeinander folgenden Nullen in der Zick-Zack-Reihenfolge ist, und der nächste Koeffizient ungleich Null einen Wert x wie folgt aufweist:
Die Bits für V werden unter Verwenden der Standard zwei(2's)-komplementären Binärdarstellung von x oder x – 1 extrahiert. In dem JPEG-Bitstrom wird jedes (R, S, V) zuerst durch Verwenden einer Huffman-Tabelle zum Kodieren von (R, S) und dann S zusätzlicher Bits zum Kodieren von V kodiert. Es gibt einige besondere Kodierungssituationen wie sehr lange Läufe von Nullen und Enden von Blöcken (end-of-blocks), welche durch spezielle Kode gehandhabt werden. Doch hinsichtlich unserer Zwecke sollte aus dieser Beschreibung deutlich geworden sein, dass JPEG-Daten leicht analysiert werden können, um jeden Block in einer Datenstruktur zu erfassen, welcher in der Form vorliegt:
In dieser Datenstruktur ist N die Anzahl von AC-Koeffizienten ungleich Null in dem Block. Nur die ersten N Einträge des Feldes (array) A sind von Bedeutung. Die Elemente A[k] ergeben die Zick-Zack-Position (Z), und die S und V-Werte für den k-ten AC-Koeffizient ungleich Null, 0 ≤ k < N. Einlesen eines Blocks aus einem JPEG-Bitstrom in diese Struktur und Schreiben dieser Struktur als JPEG-Daten ist beides geradlinig (straightforward), wobei die Details hier weggelassen werden.
Die Operation o kann Transposition und/oder Vorzeichenwechsel erfordern. Wir beschreiben nun einen neuen Algorithmus zum Implementieren von o unter Verwenden der vorstehenden Datenstruktur, bei dem nur N Schritte (statt 64) benötigt werden. Dieser Algorithmus vermeidet die De-Zick-Zack-Verarbeitung (dezigzagging) und Zick-Zack-Verarbeitung (zigzagging) der Koeffizienten, da er die Zick-Zack-geordnete Blockdarstellung direkt nutzt.
Gegeben sei eine Eingangs-"JpegBlock"-Struktur B (entsprechend einem Blcok F), wobei wir die die Struktur B^o auffinden möchten, entsprechend zu oF. Zum Ändern des Vorzeichens eines quantisierten AC-Koeffizienten ungleich Null, x, mit den entsprechenden S und V-Werten S_x und V_x, ist es ausreichend, einfach das bitweise Komplement von V_x zu nehmen. Dies bedeutet S–x = Sx, V–x = –Vx
Es sei s^o[64] ein vorberechnetes Feld von boolschen Kennzeichen (flags), so dass s^o[Z] TRUE ist, wenn und nur wenn o das Ändern des Vorzeichens des Zten Zick-Zack-Koeffizienten erfordert.
Wenn nur Vorzeichenänderungen erforderlich sind, (d. h. für die Operationen F_x, F_y, R₁₈₀) , dann kann B in B^o durch Kopieren jedes Eintrags durch Umkehren der Bits für solche A[k].V, für die s^o[A[k].Z] True ist, konvertiert werden.
Transponieren einer „JpegBlock"-Struktur in N Schritten nutzt die folgenden Schlüsselbeobachtung: das Feld A bleibt das Gleiche, ausgenommen dass Elemente auf jeder gegebenen Kreuzdiagonalen in der Reihenfolge umgekehrt werden. Um dies zu darzustellen, soll t[Z] der transponierte Zick-Zack-Index des ursprünglichen Zick-Zack-Index Z sein. Dies bedeutet,
t[1] = 2, t[2] = 1, t[3] = 5, t[4] = 4, ...
Betrachten wir eine Situation, in der die Zick-Zack-Koeffizienten nummeriert sind:
1, 3, 6, 7, 10, 11, 14
sind die einzigen Koeffizienten ungleich Null. Dann ist die Zick-Zack-Reihenfolge nach der Transposition:
t[1], t[3], t[7], t[6], t[14], t[11], t[10].
Deshalb muss jede Gruppe von Koeffizienten umgejehrt werden, welche auf der gleichen Kreudiagonalen liegt. Dies kann effizient durch Abtasten (scanning) des Feldes B.A[...] der Koeffizienten ungleich Null getan werden, unterbrochen bei jedem Koeffizienten, bei dem die Kreudiagonale wechselt, um die vorhergehende Kreudiagonale in umgekehrter Reihenfolge von B.A[...] nach B^o.A[...] zu kopieren.
Das folgenden Stück Pseudo-Kode fasst den Algorithmus zusammen. Die Felder t und s^o (vorstehend definiert) sind vorberechnet. Zusätzlich soll d[64] ein anderes vorberechnetes Feld sein, welches die „kreuzdiagonale Anzahl" für jeden Zick-Zack-Index angibt. Dies bedeutet, wenn der Zick-Zack-Index Z der Zeilenanzahl u und der Spaltenanzahl ν entspricht, dann ist d[Z] = u + ν.
Farbbilder
Im Allgemeinen besteht ein JPEG-Bild aus mehr als einer Farbebene, mit einigen unterabgetasteten (subsampled) Ebenen. Die Anzahl von Farbebenen sei mit P bezeichnet. Zugeordnet zu jeder Ebene, p (1 ≤ p ≤ P), ist ein horizontaler Abtastfaktor (sampling factor) w_p, und ein vertikaler Abtastfaktor, h_p. Die Breite und Höhe von Ebenennummer p ist entsprechend durch W w_p/w_max Und H h_p/h_max gegeben. Hier ist w_max der Maximalwert von w_p und h_max der Maximalwert von h_p, über alle Ebenen (1 ≤ p ≤ P).
Die JPEG-Daten können eine weitere Strukturierungsschicht aufweisen, welche aus Abtastresultaten (scans) besteht. Ein Abtastresultat besteht aus einer oder mehreren Farbebenen, möglicherweise mit einer begrenzten Bit-Genauigkeit (bit-precision) von Koeffizientwerten. Der „OperateJPEG"-Algorithmus kann einfach durch Anwenden dieser auf jedes aufeinander folgende Abtastresultat erweitert werden.
Innerhalb jedes Abtastresultats sind die Daten der Blöcke von allen Farbebenen in dem Abtastresultat in Einheiten organisiert, welche als minimal kodierte Einheiten (minimum coded units) (MCUs) bekannt sind. Jede MCU besteht aus einer festen Anzahl von Blöcken in einer festen Reihenfolge, festgelegt durch alle w_p und hp. Für die von uns in Betracht gezogenen Operationen besteht das Bild I^o aus exakt den gleichen Abtastresultaten und MCU-Gruppierungen wie I, so lange wir nicht die Abtastfaktoren ändern (hp und wp müssen für die Operationen, welche eine Transposition erfordern, nicht vertauscht (swapped) werden). Die Reihenfolge der MCUs und die Reihenfolge der Blöcke in jeder MCU können sich ändern, doch jede MCU in I^o kann aus exakt einer MCU in I erhalten werden. Wir nutzen diese Tatsache aus, um auch Speicher durch Aufbau des Bit-Offsets und der DC-Tabellen auf MCU-Ebene (MCU level), anstatt auf Block-Ebene, einzusparen.
Deshalb arbeitet für jedes Abtastresultat in I „OperateJPEG" in zwei Durchgängen. Im ersten Durchgang wird für jede MCU in dem Abtsatresultat der Bit-Offset und der DC-Wert des ersten Blocks in dieser MCU von jeder Farbebene aufgenommen. In dem zweiten Durchgang, wenn ein besonderer MCU für das Abtastresultat von I^o berechnet werden soll, wird die entsprechende MCU von I extrahiert und die „JpegBlock"-Struktur für jeden einzelnen Block ausgefüllt. Diese Blöcke werden dann transponiert/vorzeichengeändert/umgeordnet (wie von der Operation gefordert), um die MCU für I^o zu bilden, welche als JPEG-Datum herausgeschrieben wird.
Auf komprimiertem Bildbereich basierende Bildrotationen – DSC-Anwendung
Die Verarbeitungsverfahren auf komprimiertem Bildbereich der vorliegenden Erfindung können in Verbindung mit verschiedensten digitalen Geräten verwendet werden, umfassend eine digitale Standbild-Kamera (DSC), von welcher ein Blockschaltbild in 5 dargestellt ist. Betrieben unter Mikroprozessorsteuerungverfügt die DSC 60 über einen an ein Gerät (CCD) ladungsgekoppelten (charge-coupled device) Bildsensor, welcher ein Bild aufnimmt und es in ein analoges elektrisches Signal in Block 61 konvertiert. Das analoge Signal wird dann verarbeitet und in Block 62 digitalisiert, wonach das digitale Bild temporär in einem Bildspeicher 63 gespeichert wird, solange es einer digitalen Verarbeitung in Block 64 unterzogen wird. Der digitale Bildverarbeitungblock 64 führt verschiedene Funktionen einschließlich Kompression und Dekompression durch und kann auch die auf komprimiertem Bildbereich basierenden Verfahren der vorliegenden Erfindung durchführen. Unter Benutzerkontrolle 65 bildet der Verarbeitungsblock 64 eine Schnittstelle mit dem in der Kamera liegenden Bildspeicher 66, in dem dekomprimierte Bilddaten gespeichert werden können. Der Speicherblock 66 kann aus kompakten magnetischen oder Festkörperspeichermedien (solidstate storage media) bestehen, entweder austauschbar oder befestigt in dem DSC 60, und kann austauschbare, hochkapazitive PCMCIA-formatierte Festplatten-Karten oder flash-memory-Karten umfassen.
Die DSC 60 umfasst entsprechende analoge und digitale Ausgänge, 67 und 68, über welche Bilddaten innerhalb der DSC oder an externe Geräte übertragen werden können. Unkomprimierte Bilddaten können über die analogen Ausgänge 67 an einen LCD-Schirm 69 innerhalb der DSC 60, oder an externe Geräte wie einen VCR oder TV-Monitor übertragen werden. Bilddaten, ob komprimiert oder unkomprimiert, können auch über die digitalen Ausgänge 68 an ein digitales Gerät wie ein Computersystem übertragen werden, an dem das Bild angezeigt werden kann.
Die Fähigkeit zum Durchführen der D₄-Operationen wie Rotationen um 90°, 180°, 270° oder eine Spiegelumkehr (mirror-flip) durch direktes Manipulieren der DCT-Bildbereichsdarstellungen ist in der DSC 60 sehr nützlich. Wenn die Kamera vertikal gehalten wird, um ein ein kleines Objekt zu erfassen, erscheint das resultierende Bild als ein Bild, welches einer 90°-Rotation gegenüber dem gleichen Bild unterzogen wurde, welches mit der horizontal gehaltenen Kamera aufgenommen wurde. Mit typischen Filmkameras ist dies kein Problem, da man beim Halten der Abzüge (prints) das Bild einfach um 90° dreht, um das korrekte Bild zu sehen. Bei in der vorstehend beschriebenen Art aufgenommenen DSC 60-Bildern kann dies problematisch sein, da diese Bilder oft direkt gedruckt oder auf einem TV-Monitor angeschaut oder in ein Computerdokument eingefügt werden. Durch Einbeziehen der auf komprimiertem Bildbereich basierenden Bildverarbeitung kann die DSC 60 während des Auslesens der DSC-Bilddatei die korrekte Ansicht des Bildes durch Rückgängigmachen der Rotation durch die hier beschriebenen Verfahren erzeugen. Bei einem DSC-System kann die Rotationsfunktion innerhalb der DSC 60 oder innerhalb des auf einem Computer laufenden Software-Treibers liegen, welcher mit der DSC 60 verbunden ist. Bei einer DSC 60 mit eingeschränkter Computertauglichkeit und begrenztem Speicher könnte ein auf komprimiertem Bildbereich basierender Ansatz der einzig effiziente Weg sein, bei dem die geometrische Transformation durchgeführt werden kann. Der alternative Ansatz zum Dekomprimieren von Daten und dann Durchführen der Manipulation ist speicherinternsiv und die geringere CPU-Geschwindigkeit der DSC 60 kann zu deutlichen Leistungsnachteilen führen. Da sich DSC-Systeme weiterentwickeln, können zusätzliche Merkmale wie Bildvergrößerung (image enhancement) und Wasserzeichenanbringung (watermarking) leicht in den Verarbeitungrahmen auf komprimiertem Bildbereich aufgenommen werden ohne zwischen einer Darstellung auf komprimiertem Bildbereich und räumlichem Bildbereich hin- und her zu wechseln.
Wie vorstehend angemerkt, kann die in 5 gezeigte DSC 60 auch in Verbindung mit einem Computersystem und anderen Komponenten zum Erfassen, Verarbeiten und Darstellen digitaler Bilder verwendet werden. 6 zeigt ein Blockschaltbild, welches die wechselseitige Beziehung zwischen der DSC 60, einem Computersystem und verschiedenen anderen Komponenten darstellt. Das Computersystem, generell gekennzeichnet mit der Bezugsziffer 100, kann jeder geeignete Typ wie ein Zentralrechner (main frame) oder ein Personal-Computer sein.
Das Computersystem 100 umfasst eine Zentralprozessoreinheit (central processing unit) (CPU) 101, welche ein konventioneller Mikroprozessor sein kann, einen Arbeitsspeicher (random access memory) (RAM) 102 zum temporären Speichern von Informationen, und einem Festwertspeicher (read only memory) (ROM) 103 zum permanenten Speichern von Informationen. Jede dieser Komponenten ist mit einem Bus 104 gekoppelt. Der Betrieb des Computersystems 100 wird typischerweise durch eine Betriebssystemsoftware gesteuert und koordiniert. Das Betriebssystem, welches in dem Systemspeicher beinhaltet ist und auf der CPU 101 läuft, koordiniert den Betrieb des Computersystems 100 durch Steuern der Belegung (allocation) von Systemresourcen und Durchführen einer Vielzahl von Aufgaben wie Verarbeitung, Speicherverwaltung, Vernetzung und Ein-/Ausgabefunktionen (I/O functions) u. a.
aber einen Kontroller 105 an den Bus 104 gekoppelt ist ein Diskettenlaufwerk 106, in welches ein nicht-flüchtiges Massenspeichereinheit wie eine Diskette 107 eingeführt werden kann. Ähnlich verbindet ein Kontroller 108 einen Bus 104 und ein Compact Disc(CD)-ROM-Laufwerk 109, welches zur Aufnehmen einer CD-ROM 110 ausgebildet ist. Eine Festplatte 111 ist als Teil eines festen Diskettenlaufwerks 112 vorgesehen, welches über einen Diskettenkontroller 113 an den Bus 104 gekoppelt ist.
Software für die auf komprimiertem Bildbereich basierenden Verarbeitungsverfahren kann in Speichergeräten 107 und 110 gespeichert und der CPU 101 zur Ausführung zugeführt werden.
Alternativ dazu kann die Software in RAM 102 oder ROM 103 gespeichert werden. Ähnlich können verarbeitete oder zu verarbeitende Bilddaten gemäß der Erfindung durch austauschbare Speichermedieneinheiten wie die Diskette 107 und DC-ROM 110 in das Computersystem 100 geladen oder aus diesem extrahiert werden.
Bilddaten können in das Computersystem 100 auch auf anderen eingegeben werden. Von einer Film-Kamera 115 erzeugte Film- basierende Bilder 114 können durch einen Scanner 116 zum Speichern digitalisiert und durch einen Computer 100 verarbeitet werden. Die DSC 60 kann Bilder direkt digitalisieren und diese wie vorstehend erklärt an einen Computer 100 übertragen. Eine Tastatur 121 und eine Maus 122, welche über einen Kontroller 1223 an den Bus 104 gekoppelt sind, erleichern die Eingabe solcher Daten und stellen anderseits ein Mittel zum Eingeben von Informationen in das Computersystem 100 bereit.
Bilddaten können auch zum und vom Computer 100 für entfernte Orte übertragen werden. In diese Richtung kann der Computer 100 auch einen Kommunikationsadapter 124 umfassen, welcher dem Computer 100 ermöglicht, mit Netzwerken 125 zu kommunizieren, die lokale Netzwerke (local area networks) (LANs), das Internet oder Online-Dienste über direkte Verbindungen oder über Modems umfassen.
Die an den Computer 100 übertragenen oder dort gespeicherten digitalen Bilder können auf verschiedene Arten angeschaut werden. Ein an den Computer 100 angeschlossener Drucker 126 kann Bildabzüge erzeugen, die abhängig von der Qualität des Druckers 126 variieren. Eine andere Möglichkeit besteht darin, die Bilder auf einer mit dem Computer 100 verbundenen Anzeige 127 anzuschauen. Noch eine weitere Möglichkeit kann sein, die Bilder auf einem Fernsehgerät unter Verwenden von VCR anzuzeigen.
Wie die vorstehende Beschreibung zeigt, haben die Erfinder hier einen einfachen, auf komprimiertem Bildbereich basierenden Verarbeitungsrahmen für JPEG-komprimierte Standbilder entwickelt. Es wurde gezeigt, dass einfache geometrische Transformationen wie Bildspiegelung, Rotationen um 90°, 180° und 270° in dem DCT-Bildbereich ohne Verlust an Bildgenauigkeit (image fidelity)leicht durchgeführt werden können. Darüber hinaus wurde ebenfalls gezeigt, dass selbst durch eine einfache Transformation wie Rotieren-um-90° eine erhebliche Beschleunigung erzielt werden kann, wenn dies in dem DCT-Bildbereich anstatt mit dem auf komprimiertem Bildbereich basierenden Verarbeitungsansatz durchgeführt wird. Der praktische Nutzen der auf komprimiertem Bildbereich basierenden Bildtransformationen im konkreten Gebrauch, nämlich eine digitale Standbild-Kamera (still-camera), wurde ebenfalls beschrieben. Da die mit der digitalen Kamera erfassten Bilder zu Beginn sehr verrauscht sind, ist es geboten, dass jede auf diese Bilder angewendete Bildverarbeitung das Rauschen nicht verstärkt und die Verfahren der vorliegenden Erfindung im wesentlichen verlustlose Operationen sind. Darüber hinaus sind diese Verfahren für die begrenzten Rechenleistungen und Speicherfähigkeiten in digitalen Verbraucher-Standbild-Kameras gut geeignet. Das grundlegende Rahmenwerk für komprimierte Bildbereiche kann für andere Typen von Bildtransformationen genutzt werden; insbesondere kann das hier beschriebene Verfahren auf Bildvergrößerung, Bildfiltern (siehe, B. Chitprasert und K. R. Rao, „Discrete Cosine Transform Filtering," Signal Processing, Band 19, Seiten 233–245, 1990), Auflösungsübersetzung (resolution translation) usw. ausgedehnt werden.
Obwohl die Erfindung in Verbindung mit spezifischen Ausführungsformen beschrieben wurde, ist es für den Fachmann unter Kenntnisnahme der vorstehenden Beschreibung ersichtlich, dass viele andere Alternativen, Modifikationen und Variationen möglich sind. Zum Beispiel zeigen die zum Darstellen der auf komprimiertem Bildbereich basierenden Verarbeitungsverfahren der vorliegenden Erfindung verwendeten Blockschaltbilder die Leistungsfähigkeit bestimmter Funktionen und Beziehungen derselben. Die Randbedingungen der funktionalen Blöcke wurde hier zum besseren Verständnis der Beschreibung willkürlich festgelegt. Alternative Randbedingungen können insoweit festgelegt werden, als die dadurch spezifizierten Funktionen und Beziehungen entsprechend gebildet werden. Darüber hinaus stellt der zum Darstellen der Algorithmen der vorliegenden Erfindungen genutzte Pseudo-Kode keine Syntax oder irgendeine besondere Programmiersprache dar. Statt dessen stellt er die funktionale Information bereit, welche der Fachmann benötigt, um zum Durchführen der erforderlichen Verarbeitung Schaltungen herzustellen oder Software zu erzeugen. Jede der in den Blockschaltungen dargestellte Funktion kann z. B. durch Softwareanweisungen, eine funktional äquivalente Schaltung wie eine digitale Signalprozessorschaltung, eine applikationsspezifische integrierte Schaltung (application specific integrated circuit) (ASIC) oder eine Kombination davon implementiert sein. Die so beschriebene vorliegende Erfindung soll alle diese Alternativen, Modifikationen, Anwendungen und Variationen umfassen, welche in den Schutzumfang der angefügten Ansprüche fallen.

Claims

Verfahren zum Durchführen einer zweiflächigen (dihedral) Symmetrieoperation auf einer räumlichen Bildbereichsdarstellung eines digitalen Bildes durch Manipulieren einer Lineartransformation der Bildbereichsdarstellung des digitalen Bildes, die Schritte umfassend: Extrahieren einer Mehrzahl von lineartransformationsbasierten Datenblöcken, welche die linear transformierte Bildbereichsdarstellung des digitale Bildes definieren; Aufnehmen der Mehrzahl von lineartransformationsbasierten Datenblöcken; Anwenden einer Operation zur Lineartransformation des Bildbereichs auf wenigstens einen Datenblock der Mehrzahl von lineartransformationsbasierten Datenblöcken; und Zusammensetzen der Mehrzahl von lineartransformationsbasierten Datenblöcken; und bei dem die räumliche Bildbereichsdarstellung des digitalen Bilds einer zweiflächigen Symmetrieoperation unterzogen wird.
Verfahren nach Anspruch 1, weiterhin die Schritte umfassend: Analysieren der komprimierten Bilddaten, um einen Offset-Wert und einen DC-Wert für jeden der Mehrzahl lineartransformationsbasierter Datenblöcke zu extrahieren; Zugreifen auf die Mehrzahl von lineartransformationsbasierten Datenblöcke durch Verwenden des entsprechenden Offset-Werts; und Extrahieren der Elemente jedes Datenblocks der Mehrzahl lineartransformationsbasierter Datenblöcke.
Verfahren nach Anspruch 1, bei dem die zweiflächige Symmetrieoperation irgendeine der folgenden Operationen umfasst: Umkehren des digitalen Bildes über seine Hauptdiagonale; Umkehren des digitalen Bildes über seine mittlere vertikale Achse; Umkehren des digitalen Bildes über seine kreuzdiagonale Achse; Umkehren des digitalen Bildes über seine mittlere horizontale Achse; Rotieren des digitalen Bildes um 90° im Uhrzeigersinn; Rotieren des digitalen Bildes um 180°; Rotieren des digitalen Bildes um 90° im Gegenuhrzeigersinn.
Verfahren nach Anspruch 1, bei dem die zweiflächige Symmetrieoperation das Umkehren des digitalen Bildes über seine Hauptdiagonale umfasst und bei dem die Operation der Lineartransformation des Bildbereichs auf jeden der Mehrzahl lineartransformationsbasierter Datenblöcke angewendet wird, um die Elemente innerhalb jedes Blocks zu transponieren.
Verfahren nach Anspruch 1, bei dem die zweiflächige Symmetrieoperation das Umkehren des digitalen Bildes über seine mittlere vertikale Achse umfasst und bei dem die Operation der Lineartransformation auf jeden der Mehrzahl lineartransformationsbasierter Datenblöcke angewendet wird, um das Vorzeichen der Elemente ungleicher Spalten innerhalb jedes Blocks umzukehren.
Verfahren nach Anspruch 1, bei dem die zweiflächige Symmetrieoperation das Umkehren des digitalen Bildes über seine kreuzdiagonale Achse umfasst, wobei die Operation der Lineartransformation auf jeden der Mehrzahl lineartransformationsbasierter Datenblöcke angewendet wird, um die Elemente innerhalb jedes Blocks zu transponieren und dann das Vorzeichen jedes anderen Elements innerhalb jedes Blocks umzukehren.
Verfahren nach Anspruch 1, bei dem die zweiflächige Symmetrieoperation das Umkehren des digitalen Bildes über seine mittlere horizontale Achse umfasst und bei dem die Operation der Lineartransformation auf jeden der Mehrzahl lineartransformationsbasierter Datenblöcke angewendet wird, um das Vorzeichen der Elemente ungleicher Zeilen innerhalb jedes Blocks umzukehren.
Verfahren nach Anspruch 1, bei dem die zweiflächige Symmetrieoperation das Rotieren des digitalen Bildes um 90° im Uhrzeigersinn umfasst und bei dem die Operation der Lineartransformation auf jeden der Mehrzahl lineartransformationsbasierter Datenblöcke angewendet wird, um die Elemente innerhalb jedes Blocks zu transponieren und dann das Vorzeichen der Elemente ungleicher Spalten innerhalb jedes Blocks umzukehren.
Verfahren nach Anspruch 1, bei dem die zweiflächige Symmetrieoperation das Rotieren des digitalen Bildes um 180° umfasst und bei dem die Operation der Lineartransformation auf jeden der Mehrzahl lineartransformationsbasierter Datenblöcke angewendet wird, um das Vorzeichen jedes anderen Elements innerhalb jedes Blocks umzukehren.
Verfahren nach Anspruch 1, bei dem die zweiflächige Symmetrieoperation das Rotieren des digitalen Bildes um 90° im Gegenuhrzeigersinn umfasst und bei dem die Operation der Lineartransformation auf jeden der Mehrzahl lineartransformationsbasierter Datenblöcke angewendet wird, um die Elemente innerhalb jedes Blocks zu transponieren und dann das Vorzeichen der Elemente ungleicher Zeilen innerhalb jedes Blocks umzukehren.
Digitale Kamera, umfassend: einen Sensor zum Erfassen von Licht und Umwandeln des Lichts in ein analoges Bildsignal; einen Analog/Digital-Wandler zum Umwandeln des analogen Bildsignals in ein digitales Bild in räumlichem Bildbereich; und einen digitalen Bildprozessor zum Komprimieren des digitalen Bildes aus der räumlichen Bildbereichsdarstellung des digitalen Bildes in eine lineartransformierte Bildbereichsdarstellung des digitalen Bildes, definiert durch eine Mehrzahl lineartransformationsbasierter Datenblöcke, wobei der digitale Bildprozessor die Mehrzahl lineartransformationsbasierter Datenblöcke extrahiert, die Mehrzahl lineartransformationsbasierter Datenblöcke umordnet, eine Operation zur Lineartransformation des Bildbereichs auf wenigstens einen der Mehrzahl lineartransformationsbasierter Datenblöcke anwendet, und die Mehrzahl lineartransformationsbasierter Datenblöcke wieder zusammensetzt, um eine zweiflächige Symmetrieoperation auf der räumlichen Darstellung des digitalen Bildes durchzuführen.
Computersystem mit einem darin aufgenommenen computerlesbaren Programmkode, zum Veranlassen des Computersystems, eine geometrische Transformation eines digitalen Bildes in räumlichem Bildbereich durch die Schritte durchzuführen: Verarbeiten des digitalen Bildes, um eine lineartransformierte Bildbereichsdarstellung des digitalen Bildes zu erhalten, definiert durch eine Mehrzahl lineartransformationsbasierter Datenblöcke; und Durchführen der Verfahrensschritte eines der Ansprüche 1 bis 10.