DE60119904T2

DE60119904T2 - Vorrichtung und Verfahren zur Entfernung des Mosaikeffekts in Rohbilddaten im Hinblick auf die Datenkompression

Info

Publication number: DE60119904T2
Application number: DE60119904T
Authority: DE
Inventors: Izhak Palo Alto Baharav; Ramakrishna Sunnyvale Kakarala
Original assignee: Agilent Technologies Inc
Current assignee: Agilent Technologies Inc
Priority date: 2001-05-31
Filing date: 2001-12-17
Publication date: 2007-01-25
Anticipated expiration: 2021-12-18
Also published as: EP1262917A1; US7155066B2; JP2003111099A; US20030016877A1; DE60119904D1; EP1262917B1

Description

ERFINDUNGSGEBIET
Die vorliegende Erfindung betrifft allgemein das Gebiet der Bildverarbeitung, und insbesondere ein System und ein Verfahren zum Auflösen der Mosaikstruktur von Rohdaten-Bildern.
HINTERGRUND DER ERFINDUNG
Digitale Farbbildkameras werden auf dem Verbrauchermarkt allgegenwärtig, teilweise aufgrund von progressiven Preissenkungen. Farb-Digitalkameras verwenden typischerweise einen einzigen optischen Sensor, entweder einen Sensor mit einem ladungsträgergekoppelten Bauelement (Charge Coupled Device, CCD) oder einen Sensor mit einem komplementären Metalloxidhalbleiter ("Complementary Metal Oxide Semiconductor", CMOS), um eine Szene, an der Interesse besteht, digital zu erfassen. Sowohl CCD- als auch CMOS-Sensoren sind nur gegenüber Beleuchtung empfindlich. Demnach können diese Sensoren nicht zwischen unterschiedlichen Farben unterscheiden. Um eine Farbunterscheidung zu erreichen, wird eine Farbfiltertechnik verwendet, um Licht in bezug auf Grundfarben, typischerweise Rot, Grün und Blau, zu trennen.
Eine bekannte Filtertechnik verwendet ein Farbfilter-Array (Color-Filter Array, CFA), welches einem Sensor-Array überlagert ist, um die Farben von auftreffendem Licht in ein Bayer-Muster zu unterteilen. Das Bayer-Muster ist ein periodisches Muster mit einer Periode von zwei Pixeln unterschiedlicher Farbe in einer jeden Dimension (vertikal und horizontal). In der Horizontalrichtung enthält eine einzelne Periode entweder ein grünes Pixel und ein rotes Pixel oder ein blaues Pixel und ein grünes Pixel. In der vertikalen Richtung enthält eine einzelne Periode entweder ein grünes Pixel und ein blaues Pixel oder ein rotes Pixel und ein grünes Pixel. Daher ist die Anzahl von grünen Pixeln doppelt so groß wie die Anzahl von roten oder blauen Pixeln. Der Grund für die Verschiedenheit in der Anzahl von grünen Pixeln besteht darin, daß das menschliche Auge nicht gleichermaßen empfindlich für alle drei Primärfarben ist. Dementsprechend werden mehr grüne Pixel benötigt, um ein Farbbild einer Szene herzustellen, das als Bild mit "echten Farben" wahrgenommen wird.
Aufgrund des CFA ist das von dem Sensor erfaßte Bild daher ein mosaikförmiges Bild, im folgenden Mosaik-Bild genannt, welches auch als "Rohdaten"-Bild bezeichnet wird, in dem ein jedes Pixel nur den Wert für entweder Rot, Grün oder Blau enthält. Die Mosaikstruktur des Rohdaten-Bildes kann dann aufgelöst werden, um ein Farbbild zu erzeugen, in dem für ein jedes Pixel des Bildes der tatsächliche Farbwert, d.h., die Kombination von Rot, Grün und Blau, abgeschätzt wird. Der Farbwert eines Pixels wird unter Verwendung von Farbinformationen von umgebenden Pixeln abgeschätzt.
Es gibt eine Reihe von herkömmlichen Verfahren zum Auflösen einer Mosaikstruktur, um ein Rohdaten-Bild in ein Farbbild umzuwandeln. Drei wichtige übliche Kategorien von Verfahren zum Auflösen einer Mosaikstruktur enthalten interpolationsbasierte Verfahren, merkmalbasierte Verfahren und Bayes-Verfahren. Die interpolationsbasierten Verfahren zum Auflösen der Mosaikstruktur verwenden einfache Interpolationsformeln, um die Farbebenen separat zu interpolieren. Die interpolationsbasierten Verfahren zum Auflösen einer Mosaikstruktur enthalten bi-lineare Verfahren, Interpolationsverfahren mit beschränkter Bandbreite unter Verwendung von sinc0-Funktionen, Spline-Interpolationsverfahren und dergleichen. Die merkmalbasierten Verfahren zum Auflösen der Mosaikstruktur untersuchen lokale Merkmale eines gegebenen Bildes auf dem Pixelniveau und interpolieren das Bild entsprechend. Die Grundidee der merkmalbasierten Verfahren besteht darin, eine Interpolation über Ränder von Merkmalen hinweg zu vermeiden. Die Bayes-Verfahren versuchen, das wahrscheinlichste Farbbild bei gegebenen Daten zu finden, indem irgendwelche frühere Kenntnis der Bildstruktur angenommen wird.
Nachdem die Mosaikstruktur des Rohdaten-Bildes aufgelöst wurde, wird das Bild üblicherweise durch eine Farb-Umwandlungsoperation und eine Ton-Abbildung verarbeitet, die Teil der Bild-Pipeline sind. Das resultierende Bild wird dann typischerweise in der Kamera unter Verwendung irgendeiner Art von Komprimierung, wie beispielsweise JPEG oder JPEG-artigen Komprimierungsschemata gespeichert, um die Größe der Bilddatei zu verringern. Daher ist das Digitalbild, das schließlich vom Benutzer von der Digitalkamera heruntergeladen wird, üblicherweise eine komprimierte Bilddatei.
US 5,838,818 offenbart ein Verfahren zum Auflösen einer Mosaikstruktur, bei dem das digitale Mosaik-Bild unter Verwendung eines Komprimierungsschemas verarbeitet wird, wobei ein digitales Roh-Farbbild genommen wird und das Rohbild einer Raumtransformation und einer Interpolation unterzogen wird, bevor es komprimiert wird, um das komprimierte Bild zu erhalten. Es wird beschrieben, daß es vor dem Durchführen des Komprimierungsalgorithmus zuerst nötig ist, das Bild in einen Luminanz-/Chrominanz-Raum zu transformieren. Um diese Transformation auszuführen, ist es notwendig, die Mosaikstruktur des Bildes aufzulösen. Daher werden die Auflösung der Mosaikstruktur, die Farbraum-Transformation und die Komprimierung separat in aufeinanderfolgenden Schritten durchgeführt. Ein ähnlicher Stand der Technik ist in der WO 01/26359 beschrieben.
Die US 5,065,229 beschreibt ein Verfahren zur Bildkomprimierung, bei dem Bilddaten durch die aufeinanderfolgenden Schritte der Interpolation, des Trennens des Bildes in drei Farbebenen und der Bildkomprimierung verarbeitet werden. Dieses Dokument nimmt keinen Bezug auf einen Prozeß zum Auflösen der Mosaikstruktur.
Da im Stand der Technik der Komprimierungsprozeß dem Prozeß zum Auflösen der Mosaikstruktur nachfolgend durchgeführt wird, können manche Bildverbesserungen, die als Resultat der Auflösung der Mosaikstruktur erreicht werden, signifikant verringert oder vollständig durch den Komprimierungsprozeß verloren werden. Beispielsweise kann der Prozeß zum Auflösen der Mosaikstruktur Komponenten hoher Frequenz in dem Signal erzeugen/vorhersagen, um ein schärferes Bild herzustellen. Jedoch kann der Komprimierungsprozeß die Hochfrequenz-Komponenten des eingegebenen Bildes aufgrund der Verwendung von Quantisierern eliminieren oder reduzieren. Daher kann es sein, daß jeglicher Vorteil, der im Prozeß zum Auflösen der Mosaikstruktur erzielt wird, durch den Komprimierungsprozeß zunichte gemacht wird.
In Anbetracht der obigen Bedenken besteht ein Bedarf für ein System und ein Verfahren zum effizienten Verarbeiten digital erfaßter Bilder, so daß der Prozeß des Auflösens der Mosaikstruktur den nachfolgenden Komprimierungsprozeß ergänzt.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung gibt ein Verfahren zum Auflösen der Mosaikstruktur eines Bildes nach Anspruch 1 und ein System zum Verarbeiten eines Mosaik-Bildes nach Anspruch 5 an.
Ein System und ein Verfahren zum Verarbeiten von Mosaik-Bildern verwendet einen komprimierungsbewußten oder -bezogenen Prozeß zum Auflösen der Mosaikstruktur ("compression-aware demosaicing process"), der einen nachfolgenden Komprimierungsprozeß berücksichtigt. Der komprimierungsbewußte Prozeß zum Auflösen der Mosaikstruktur wird unter Verwendung eines komprimierungsbewußten Operators zur Auflösung der Mosaikstruktur durchgeführt, der einen Farbraum-Umwandlungsoperator und einen frequenzbasierten Transformationsoperator einschließt, die typischerweise mit dem Komprimierungsprozeß assoziiert sind. Demgemäß wird die Gesamteffizienz des Systems und des Verfahrens wesentlich gesteigert.
Ferner produziert der komprimierungsbewußte Prozeß zum Auflösen der Mosaikstruktur Artefakte, die die durch den nachfolgenden Komprimierungsprozeß erzeugten Artefakte ergänzen, bzw. komplementär zu ihnen sind, so daß die Artefakte in den schließlichen Farbbildern weniger sichtbar sind, wodurch die Qualität der schließlichen Farbbilder gesteigert wird.
Ein Verfahren zum Verarbeiten eine Mosaik-Bildes gemäß der vorliegenden Erfindung enthält die folgenden Schritte: Empfangen des Mosaik-Bildes, welches eine Wiedergabe einer Szene ist, an der Interesse besteht, und das Verarbeiten des Mosaik-Bildes unter Verwendung eines Operators zum Auflösen der Mosaikstruktur auf Blöcken des Mosaik-Bildes, um eine Wiedergabe oder Darstellung eines Bildes mit aufgelöster Mosaikstruktur herzuleiten. Der Operator zur Auflösung der Mosaikstruktur schließt einen frequenzbasierten Transformationsoperator ein, um einen nachfolgenden frequenzbasierten Komprimierungsprozeß zu berücksichtigen. Der Operator zum Auflösen der Mosaikstruktur kann außerdem einen Farbraum-Umwandlungsoperator einschließen. Der Farbraum-Umwandlungsoperator kann ein Operator zum Umwandeln aus dem RGB-Farbraum in den Farbraum bestehend aus Luminanz, roter Chrominanz und blauer Chrominanz (Yc_rc_b) sein. Das Verfahren kann außerdem einen Schritt des Komprimierens der Wiedergabe des Bildes mit aufgelöster Mosaikstruktur unter Verwendung eines frequenzbasierten Komprimierungsschemas, wie beispielsweise eines DCT-basierten Komprimierungsschemas oder eines Wavelet-basierten Komprimierungsschemas enthalten.
Der frequenzbasierte Transformationsoperator, der in dem Operator zum Auflösen der Mosaikstruktur eingeschlossen ist, kann ein DCT-basierter Transformationsoperator sein. In einer anderen Ausführungsform ist der frequenzbasierte Transformationsoperator ein Wavelet- basierter Transformationsoperator. Der frequenzbasierte Transformationsoperator und der Operator zum Auflösen der Mosaikstruktur können Matrizen sein.
In einer Ausführungsform ist der Schritt des Verarbeitens des Mosaik-Bildes ein Schritt, in dem das Mosaik-Bild unter Verwendung des Operators zum Auflösen der Mosaikstruktur interpoliert wird, welcher hergeleitet wird, indem ausgewählte Koeffizienten von transformationsbezogenen Koeffizienten als Null definiert werden. Die ausgewählten Koeffizienten können Komponenten höherer Frequenz sein, als die übrigen Koeffizienten der transformationsbezogenen Koeffizienten. In einer anderen Ausführungsform ist der Schritt des Verarbeitens des Mosaik-Bildes ein Schritt, in dem das Mosaik-Bild unter Verwendung des Operators zum Auflösen der Mosaikstruktur interpoliert wird, welcher abgeleitet wird, indem die transformationsbezogenen Koeffizienten so definiert werden, daß sie eine vordefinierte Wahrscheinlichkeitsverteilung haben. Die vordefinierte Wahrscheinlichkeitsverteilung kann eine Normalverteilung sein. In dieser Ausführungsform kann der Operator zum Auflösen der Mosaikstruktur unter Verwendung der Bayes'schen Regel hergeleitet werden.
Die Wiedergabe oder Darstellung des Bildes mit aufgelöster Mosaikstruktur, die durch den Schritt des Verarbeitens des Mosaik-Bildes hergeleitet wird, kann eine Reihe von Bild-Pixelwerten des Bildes mit aufgelöster Mosaikstruktur enthalten. In einer anderen Ausführungsform enthält die Wiedergabe des Bildes mit aufgelöster Mosaikstruktur eine Reihe von transformierten Koeffizienten des Bildes mit aufgelöster Mosaikstruktur.
Ein System zum Verarbeiten eines Mosaik-Bildes gemäß der vorliegenden Erfindung enthält ein komprimierungsbewußtes Modul zum Auflösen der Mosaikstruktur und ein Komprimierungsmodul. Das komprimierungsbewußte Modul zum Auflösen der Mosaikstruktur ist so konfiguriert, daß es die Mosaikstruktur des Mosaik-Bildes auflöst, um eine Wiedergabe eines Bildes mit aufgelöster Mosaikstruktur zu erzeugen, unter Verwendung eines Operators zum Auflösen der Mosaikstruktur, der einen frequenzbasierten Transformationsoperator einschließt. Das Komprimierungsmodul ist so konfiguriert, daß es die Wiedergabe des Bildes mit aufgelöster Mosaikstruktur komprimiert, um eine komprimierte Bilddatei zu erzeugen, indem ein frequenzbasierter Komprimierungsprozeß durchgeführt wird. In einer Ausführungsform sind das komprimierungsbewußte Modul zum Auflösen der Mosaikstruktur und das Komprimierungsmodul in einer anwendungsbezogenen integrierten Schaltung ausgeführt.
In einer Ausführungsform schließt der Operator zum Auflösen der Mosaikstruktur einen Farbraum-Umwandlungsoperator zum Umwandeln in den Yc_bc_r-Farbraum ein. In einer anderen Ausführungsform ist der frequenzbasierte Transformationsoperator, der in dem Operator zum Auflösen der Mosaikstruktur eingeschlossen ist, ein DCT-basierter Transformationsoperator, und der frequenzbasierte Komprimierungsprozeß, der durch die Komprimierungsmittel durchgeführt wird, ist ein DCT-basierter Komprimierungsprozeß. In einer anderen Ausführungsform ist der frequenzbasierte Transformationsoperator ein Wavelet-basierter Transformationsoperator, und der frequenzbasierte Komprimierungsprozeß ist ein Wavelet-basierter Komprimierungsprozeß. Der frequenzbasierte Transformationsoperator und der Operator zum Auflösen der Mosaikstruktur können Matrizen sein.
Der Operator zum Auflösen der Mosaikstruktur kann abgeleitet werden, indem transformationsbezogene Koeffizienten definiert werden, die mit dem frequenzbasierten Kompressionsprozeß assoziiert sind, der von dem Komprimierungsmodul durchgeführt wird. In einer Ausführungsform wird der Operator zum Auflösen der Mosaikstruktur abgeleitet, indem ausgewählte Koeffizienten der transformationsbezogenen Koeffizienten als Null definiert werden. In einer anderen Ausführungsform wird der Operator zum Auflösen der Mosaikstruktur hergeleitet, indem die transformationsbezogenen Koeffizienten so definiert sind, daß sie eine vorbestimmte Wahrscheinlichkeitsverteilung haben, bei der es sich um eine Normalverteilung handeln kann. In dieser Ausführungsform kann der Operator zum Auflösen der Mosaikstruktur unter Verwendung der Bayes'schen Regel hergeleitet werden.
Die Wiedergabe des Bildes mit aufgelöster Mosaikstruktur, welches durch die Mittel zum Auflösen der Mosaikstruktur erzeugt wird, kann eine Reihe von Bild-Pixelwerten des Bildes mit aufgelöster Mosaikstruktur enthalten. In einer anderen Ausführungsform enthält die Wiedergabe des Bildes mit aufgelöster Mosaikstruktur eine Anzahl von transformierten Koeffizienten des Bildes mit aufgelöster Mosaikstruktur.
Andere Aspekte und Vorteile der vorliegenden Erfindung werden aus der folgenden detaillierten Beschreibung im Zusammenhang mit den beigefügten Zeichnungen deutlich, die am Beispiel der Prinzipien der Erfindung illustriert werden.
KURZBESCHREIBUNG DER FIGUREN
1 ist ein Blockdiagramm eines Bildverarbeitungssystems, das den komprimierungsbewußten Prozeß zum Auflösen der Mosaikstruktur gemäß der vorliegenden Erfindung durchführt.
2 ist ein Blockdiagramm eines komprimierungsbewußten Moduls zum Auflösen der Mosaikstruktur, welches in dem Bildverarbeitungssystem von 1 enthalten ist.
3 ist ein Blockdiagramm eines Komprimierungsmoduls, welches in dem Bildverarbeitungssystem von 1 enthalten ist.
4 zeigt verschiedene Normen, die verwendet werden können, um die komprimierungsbewußte Matrix zum Auflösen der Mosaikstruktur für ein DCT-Interpolationsverfahren mit beschränkter Bandbreite gemäß einer ersten Ausführungsform der Erfindung zu erzeugen.
5 ist ein Blockdiagramm eines Matrix-Erzeugungssystems, welches verwendet werden kann, um die komprimierungsbewußte Matrix zum Auflösen der Mosaikstruktur gemäß der ersten Ausführungsform der Erfindung zu erzeugen.
6 ist ein Blockdiagramm eines Matrix-Erzeugungssystems, das verwendet werden kann, um die komprimierungsbewußte Matrix zum Auflösen der Mosaikstruktur gemäß einer zweiten Ausführungsform der Erfindung zu erzeugen.
7 ist ein Blockdiagramm eines Bildverarbeitungssystems gemäß einer alternativen Ausführungsform der Erfindung.
8 ist ein Prozeß-Flußdiagramm eines Verfahrens zum Verarbeiten eines Mosaik-Bildes gemäß der vorliegenden Erfindung.
DETAILLIERTE BESCHREIBUNG
In 1 ist ein Bildverarbeitungssystem 100 gemäß der vorliegenden Erfindung gezeigt. Das Bildverarbeitungssystem arbeitet so, daß es eine Szene, an der Interesse besteht, digital als ein als Mosaik vorgesehenes Bild, im folgenden auch kurz Mosaik-Bild genannt, oder Rohdaten-Bild digital erfaßt. Die Mosaikstruktur des Mosaik-Bildes wird dann aufgelöst und zur Speicherung durch das System komprimiert. Das Bildverarbeitungssystem verwendet eine komprimierungsbewußte Prozedur zum Auflösen der Mosaikstruktur, die die Tatsache berücksichtigt, daß das aufgelöste Mosaik-Bild nachfolgend komprimiert wird. Demzufolge erzeugt die komprimierungsbewußte Mosaikauflösungsprozedur Artefakte, die Artefakte ergänzen, die durch die nachfolgende Komprimierungsprozedur erzeugt werden. Somit wird die gesamte visuelle Verzerrung, die durch die kombinierten Artefakte verursacht wird, signifikant verringert, was die Qualität des fertigen Digitalbildes erhöht. Darüber hinaus führt die komprimierungsbewußte Mosaikauflösungsprozedur Schritte durch, die typischerweise während eines Komprimierungsprozesses durchgeführt werden, was die Effizienz des Bildverarbeitungssystems zum Verarbeiten des erfaßten Bildes steigert.
Das Bildverarbeitungssystem 100 enthält eine Bilderfassungseinheit 102, eine Bild-Pipeline 104 und eine Speichereinheit 106. Die Bilderfassungseinheit enthält einen Sensor und ein Farbfilterarray ("Color-Filter-Array", CFA). Der Sensor kann ein Sensor eines ladungsgekoppelten Bauelements (CCD), ein Sensor aus einem komplementären Metall-Oxid-Halbleiter (CMOS) oder eine andere Art von lichtempfindlichem Sensor sein. In einer beispielhaften Ausführungsform enthält das CFA rote, blaue und grüne Filter, die in einem Bayer-Filtermuster angeordnet sind. Jedoch kann das CFA Filter anderer Farben enthalten, die in einem anderen Filtermuster angeordnet sind. Die Bilderfassungseinheit arbeitet so, daß sie eine Szene, an der Interesse besteht, digital als ein Mosaik-Bild oder Rohdaten-Bild erfaßt, das ein Farbmuster gemäß dem Filtermuster des CFA aufweist, beispielsweise gemäß dem Bayer-Muster.
Die Bild-Pipelineeinheit 104 des Bildverarbeitungssystems 100 umfaßt ein kompressionsbewußtes Modul 108 zum Auflösen der Mosaikstruktur, ein Farb- und Ton-Modul 100 und ein Komprimierungsmodul 112. Die Module der Bild-Pipelineeinheit repräsentieren funktionelle Blöcke und sind nicht notwendigerweise separate Komponenten. Vorzugsweise ist die Bild-Pipelineeinheit eine anwendungsspezifische integrierte Schaltung (ASIC).
Das komprimierungsbewußte Modul 102 zum Auflösen der Mosaikstruktur der Bild-Pipelineeinheit 104 arbeitet so, daß sie die Mosaikstruktur eines Rohdaten-Bildes in ein aufgelöstes Bild oder Farbbild auflöst. Der Prozeß des Auflösens der Mosaikstruktur wird so durchgeführt, daß der nachfolgende Komprimierungsprozeß, der durch das Komprimierungsmodul 112 durchgeführt wird, berücksichtigt wird. Die Komponenten des komprimierungsbewußten Moduls zum Auflösen der Mosaikstruktur sind in 2 gezeigt. Das komprimierungsbewußte Modul zum Auflösen der Mosaikstruktur umfaßt eine Bildunterteilungseinheit 202, eine Interpolationseinheit 204 und eine komprimierungsbewußte Matrix 206 zum Auflösen der Mosaikstruktur. Die Bildunterteilungseinheit arbeitet so, daß sie ein eingegebe nes Mosaik-Bild in Bildblöcke unterteilt, die äquivalent zu den Blöcken sind, die von dem Komprimierungsmodul bearbeitet werden. Beispielsweise kann die Bildunterteilungseinheit das eingegebene Mosaik-Bild in Bildblöcke von 16 × 16 Pixeln unterteilen. Die Interpolationseinheit arbeitet so, daß sie einen jeden Bildblock des Mosaik-Bilds auflöst, indem sie den Bildblock mit der komprimierungsbewußten Matrix 206 zum Auflösen der Mosaikstruktur multipliziert, um ein aufgelöstes Bild zu erzeugen. Somit ist die komprimierungsbewußte Matrix 206 zum Auflösen der Mosaikstruktur ein Operator zum Auflösen der Mosaikstruktur, der ein Mosaik-Bild interpoliert, um ein Bild mit aufgelöster Mosaikstruktur zu erhalten.
In einer ersten Ausführungsform wird die komprimierungsbewußte Matrix 206 zum Auflösen der Mosaikstruktur unter Verwendung einer diskreten Cosinustransformation (DCT) mit beschränkter Bandbreite abgeleitet. Somit kann gesagt werden, daß in dieser Ausführungsform die Interpolationseinheit einen Prozeß zum Auflösen der Mosaikstruktur unter Verwendung eines DCT-Verfahrens beschränkter Bandbreite durchführt. In einer zweiten Ausführungsform wird die komprimierungsbewußte Matrix zum Auflösen der Mosaikstruktur unter Verwendung eines DCT-Bayes-Verfahrens abgeleitet. Es kann gesagt werden, daß die Interpolationseinheit in dieser Ausführungsform einen Prozeß zum Auflösen der Mosaikstruktur unter Verwendung des DCT-Bayes-Verfahrens durchführt. Wie unten im Detail beschrieben wird, schließt die komprimierungsbewußte Matrix zum Auflösen der Mosaikstruktur einen DCT-Transformationsoperator, einen Abtastungsoperator und eine Farb-Umwandlungsmatrix ein. Die Operationen, die mit diesen Operatoren assoziiert sind, werden üblicherweise als Teil des Komprimierungsprozesses durchgeführt. Da die komprimierungsbewußte Matrix zum Auflösen der Mosaikstruktur solche Operatoren einschließt, brauchen manche oder alle der Operationen, die mit diesen Operatoren assoziiert sind, während des nachfolgenden Komprimierungsprozesses nicht durchgeführt zu werden.
Die komprimierungsbewußte Matrix 206 zum Auflösen der Mosaikstruktur kann in einem Nur-Lese-Speicher (nicht gezeigt) gespeichert werden, der mit der Bild-Pipeline 104 assoziiert ist. Alternativ kann die komprimierungsbewußte Matrix zum Auflösen der Mosaikstruktur in der Speichereinheit 106 gespeichert werden.
Das Farb- und Ton-Modul 110 der Bild-Pipelineeinheit arbeitet so, daß sie Farb- und Ton-Verbesserungen an einem aufgelösten Bild aus dem komprimierungsbewußten Modul 108 zum Auflösen der Mosaikstruktur durchführt. Diese Verbesserungen sind herkömmliche Ope rationen und werden daher hier nicht beschrieben. Das Farb- und Ton-Modul kann andere herkömmliche Bildbearbeitungen wie beispielsweise Streulichtkorrektur und zwischengeschaltete Farbumwandlung durchführen. Das Farb- und Ton-Modul ist optional und kann in der Bild-Pipelineeinheit 104 weggelassen werden.
Das Komprimierungsmodul 112 der Bild-Pipelineeinheit 104 arbeitet so, daß es das aufgelöste Bild in eine komprimierte Bilddatei komprimiert, unter Verwendung eines DCT-basierten Komprimierungsschemas, wie beispielsweise dem JPEG-Komprimierungsschema. Das Komprimierungsmodul wird hier als ein Modul beschrieben, welches das JPEG-Komprimierungsschema verwendet. Zur Orientierung wird ein herkömmliches JPEG-Komprimierungsschema kurz beschrieben.
Bei einem eingegebenen RGB-Bild (z.B. einem Bild mit aufgelöster Mosaikstruktur) wird ein jedes Pixel des RGB-Bildes in den Farbraum aus Luminanz, roter Chrominanz und blauer Chrominanz (Yc_rc_b) transformiert. Die Raumkomponenten des Yc_bc_r-Farbraums werden dann beispielsweise bei einem Verhältnis von 4:1:1 abgetastet. Die Y-Raumkomponente wird nicht geändert. Jedoch werden die c_b- und c_r-Raumkomponenten mit einem Faktor von zwei in jeder Achsenrichtung abgetastet. Das heißt, die Anzahl der c_b- und c_r-Abtastwerte wird um einen Faktor von vier verringert. Dies entspricht der menschlichen visuellen Wahrnehmung, die weniger empfindlich für scharfe Variationen in der Farbinformation ist.
Als nächstes wird eine jede der Yc_bc_r-Farbebenen in getrennte Blöcke von 8 × 8 unterteilt. Ein jeder dieser Blöcke wird dann auf die folgende Weise verarbeitet: Die 8 × 8 Blöcke aus Skalaren werden unter Verwendung der DCT in einen Satz von 64 Koeffizienten transformiert, die als ein 8 × 8-Array angeordnet werden können. Der Satz der 64 DCT-Koeffizienten wird dann unter Verwendung eines gleichförmigen Quantisierers quantisiert, der unterschiedliche Quantisierungs-Schrittgrößen verwendet. Im allgemeinen werden die Koeffizienten höherer Frequenzen unter Verwendung einer größeren Quantisierungs-Schrittgröße quantisiert. Die Quantisierung ist eine nicht-lineare nicht-umkehrbare Operation. Die quantisierten Koeffizienten werden dann unter Verwendung eines bekannten Codierungsverfahrens, wie beispielsweise der Huffman-Tabellen oder arithmetischer Codierung codiert. Zuletzt werden die codierten Daten in einem Standard-Dateiformat untergebracht.
Ein wichtiges Merkmal der JPEG-Komprimierungsprozedur besteht darin, daß das Komprimierungsschema davon ausgeht, daß die DCT-Koeffizienten, die auf einen Wert größer als Null quantisiert werden, in den niedrigen Frequenzen konzentriert sind. Ein weiteres wichtiges Merkmal ist, daß der Y-Komponentenraum die doppelte Bandbreite hat, wie der c_b- und c_r-Raumkomponentenraum. Ferner werden alle Operationen der Prozedur an Blöcken des Bildes vorgenommen. Die Operationen werden an 16 × 16-Blöcken des Originalbildes, und an 8 × 8-Blöcken in dem transformierten/unter-abgetasteten Bereich vorgenommen. Man beachte, daß die Unterteilung des Bildes in Blöcke vor der Farbumwandlung und dem Unter-Abtasten durchgeführt werden kann, da diese Schritte punktweise durchgeführte Operationen sind, die nicht über die Grenzen des Blockes hinaus wechselwirken.
Wie in 3 gezeigt ist, enthält das Komprimierungsmodul 112 der Bild-Pipelineeinheit 104 eine Bild-Unterteilungseinheit 302, eine DCT-Transformationseinheit 304, eine Quantisierungseinheit 306 und eine Koeffizienten-Codierungseinheit 308. Die Bild-Unterteilungseinheit führt die Bild-Unterteilungsoperation des JPEG-Komprimierungsschemas durch. Beispielsweise wird das Bild in 8 × 8-Blöcke aus Skalaren unterteilt. Die DCT-Transformationseinheit führt die DCT-Transformation des Komprimierungsschemas durch. Die Quantisierungseinheit führt die Quantisierungsoperation des Komprimierungsschemas durch. Schließlich führt die Koeffizienten-Codierungseinheit die Codierungsoperation des Komprimierungsschemas durch. Somit führt das Komprimierungsmodul nicht die Farb-Umwandlung und die Unter-Abtastungsoperationen des JPEG-Komprimierungsschemas durch, welche in dem Prozeß des Auflösens der Mosaikstruktur enthalten waren, die von dem komprimierungsbewußten Modul 108 zum Auflösen der Mosaikstruktur durchgeführt wurde.
Die durch das Komprimierungsmodul 112 erzeugte komprimierte Bilddatei wird dann in der Speichereinheit 106 des Bildverarbeitungssystems 100 gespeichert. Die Speichereinheit kann ein herkömmlicher Speicher sein, beispielsweise ein DRAM oder Flash-Memory. Alternativ kann die Speichereinheit ein Laufwerk sein, welches eine Schnittstelle mit einem entfernbaren Speichermedium bildet, wie beispielsweise mit einer normalen Computer-Diskette.
Die Bilderfassungseinheit 102, die Bild-Pipelineeinheit 104 und die Speichereinheit 106 des Systems 100 können in einer einzigen Vorrichtung enthalten sein, beispielsweise in einer Digitalkamera. Alternativ kann die Bilderfassungseinheit in einer separaten Vorrichtung enthal ten sein. In dieser alternativen Ausführungsform können die Funktionen der Bild-Pipelineeinheit 104 und der Speichereinheit 106 von einem Computer wahrgenommen werden.
Die Herleitung der komprimierungsbewußten Matrix 206 zum Auflösen der Mosaikstruktur wird nun beschrieben. Gemäß der ersten Ausführungsform führt das komprimierungsbewußte Modul 108 der Bild-Pipelineeinheit 104 eine DCT-Interpolation mit beschränkter Bandbreite unter Verwendung der komprimierungsbewußten Matrix zur Auflösung der Mosaikstruktur durch, um die Mosaikstruktur von Rohdaten-Bildern aufzulösen. Für diese Ausführungsform wird die komprimierungsbewußte Matrix zum Auflösen der Mosaikstruktur hergeleitet, indem der Beschränkungseffekt der Bandbreite des nachfolgenden DCT-basierten Komprimierungsprozesses berücksichtigt wird, der durch das Komprimierungsmodul 112 durchgeführt wird.
Das DCT-Interpolationsverfahren beschränkter Bandbreite löst im wesentlichen das Problem, wie ein Signal von seinen Abtastwerten effizient interpoliert wird, wenn man weiß, daß das Signal in dem DCT-Bereich eine beschränkte Bandbreite hat. Das Problem und seine Lösung werden hier mathematisch beschrieben. Um die Erläuterung durchsichtiger zu machen, behandelt die Beschreibung eindimensionale Signale. Erweiterungen auf den zweidimensionalen Fall mit drei Farbkomponenten werden weiter unten beschrieben.
Es sei x → ∈ R^N ein Signal, das durch einen Spaltenvektor beschrieben wird: x → = x(n), n = I, ... N. (1)
Dieses Signal wird abgetastet, indem jedes zweite Element genommen wird, um y → ∈ R^N/2 zu erhalten:
welches geschrieben werden kann als y → = [S]x →, (3) wobei [S] eine
Abtastungsmatrix ist. Die Matrix [S] wird definiert als
Man beachte, daß die Verallgemeinerung auf eine nicht gleichförmige Abtastung auf der Hand liegt.
Die N × N DCT-Transformationsmatrix [T], bei der eine jede Zeile eine Basisfunktion ist, sei wie folgt definiert:
Die Transformationsmatrix [T] ist ein frequenzbasierter Transformationsoperator. Man beachte, daß [T] unitär und reell ist. Das heißt, es gilt [T][T]t = [T]t[T–] = [I], (6)wobei [I] die Einheitsmatrix ist und das hochgestellte "t" die Transponierte einer Matrix bezeichnet. Somit kann die Vorwärts- und Rückwärts-DCT des Vektors x → wie folgt geschrieben werden
Vorwärtstransformation (Analyse): x →c = [T]x →, (7)Rückwärtstransformation (Synthese): x →c = [T]tx →c. (8)
Man beachte, daß der DCT-Koeffizientenvektor x →_c dieselbe Länge (N) hat, wie das ursprüngliche Signal.
Es sei q → ein Signal, das eine beschränkte Bandbreite habe und wie folgt bezeichnet wird: q → ∈ Bk0 iff {q(k) = 0 for k > k0} (9)
Unter Verwendung dieser Notation wird nun x →derart definiert, daß es eine beschränkte DCT-Bandbreite hat und wie folgt bezeichnet
Die beschränkte Bandbreite der DCT-Koeffizienten wird für die DCT des Bildes angenommen, wenn es sich im Yc_bc_r-Farbraum befindet. Somit wird eine 3 × 3-Transformationsmatrix benötigt, die RGB-Werte in Yc_bc_r-Werte transformiert. Unter der Annahme, daß der RGB-Raum wohldefiniert ist, kann die Transformationsmatrix leicht definiert werden. Im allgemeinen wird die Transformationsmatrix von dem RGB-Bereich des Bildes abhängen. Wenn angenommen wird, daß die RGB-Werte sich in dem Bereich [0,1] befinden, lautet eine Abtasttransformation:
Der Offset der Transformation wird ignoriert, und die Farbtransformationsmatrix von RGB nach Yc_bc_r wird als [C_r2y] bezeichnet. Die inverse Transformation wird als [C_y2r] bezeichnet. Diese Farbtransformationsmatrizen sind Farbraum-Umwandlungsoperatoren, die Signale zwischen einem RGB-Farbraum und einem Yc_bc_r-Farbraum transformieren können.
Das zu lösende Rekonstruktionsproblem kann nun wie folgt definiert werden:
Für gegebenes y →, finde x →, so daß gilt
Man beachte, daß, da das Ausgangssignal x → ein diskretes Signal ist, das Problem viel einfacher ist, als im kontinuierlichen Fall. Jedoch ist die Formulierung noch nicht einfach genug, da das Problem mit einer Lösung mit Zwangsbedingungen zu tun hat. Denn die erwünschte Formulierung ist eine, die eine Lösung eines linearen Gleichungssystems hat, wobei die Lösung auf einen Unterraum beschränkt ist.
Das in dem Ausdruck (12) definierte Problem kann in der folgenden Äquivalenz geschrieben werden:
Dies gestattet es, daß die in Ausdruck (12) definierte Aufgabe mit Zwangsbedingung durch die folgende Aufgabe ohne Zwangsbedingung ersetzt werden kann:
Für gegebenes y →, finde a → ∈ B_k0, so daß gilty → = [S][Cy2r][T]ta →. (14)
Die komprimierungsbewußte Matrix 206 zur Auflösung der Mosaikstruktur ist somit wie folgt gegeben: [[S][Cy2r][T]t]–1, (15)welche die Inverse der Matrix [S][C_y2r][T]^t von der Gleichung in Problem (14) ist. In der vorliegenden Schrift bezeichnet der Ausdruck "Inverse einer Matrix" entweder eine direkt Inverse oder eine Pseudo-Inverse der Matrix. Somit bezeichnet der Ausdruck "Invertieren einer Matrix" das Herleiten der Inversen der Matrix durch entweder die direkte Inverse oder die Pseudo-Inverse.
Das Problem (14) ohne Zwangsbedingungen hat das Problem des Ermittelns von x → ∈ D_k0 ersetzt durch das Problem, einen Satz von Koeffizienten zu finden. In Abhängigkeit von den Werten von k₀ relativ zur Anzahl der Abtastwerte, die im vorliegenden Beispiel N/2 beträgt, ist das obige Problem entweder unterbestimmt (k₀ > N/2), überbestimmt (k₀ < N/2) oder es hat dieselbe Anzahl von Unbekannten und Gleichungen (k₀ = N/2).
Gemäß dieser Klassifikation kann das Problem unter Verwendung einer Minimum-Norm-Lösung, einer Lösung der kleinsten Quadrate oder einer exakten Invertierung gelöst werden.
Für zweidimensionale Signale gibt es eine Anzahl von Implementierungs-Gesichtspunkten. Zunächst kann, um eine einfachere linear-algebraische Formulierung zu erreichen, die Spaltenordnung des Bildes betrachtet werden. Die Spaltenordnung einer Matrix kann erhalten werden, indem die Spalten der Matrix verknüpft werden, um einen Vektor zu bilden. Zweitens kann, da die DCT eine separate Transformation ist, die DCT zuerst auf Zeilen und dann auf Spalten angewendet werden, oder umgekehrt. Darüber hinaus kann unter Verwendung des Kronecker-Produkts die Transformationsmatrix für eine Spaltenordnungsversion der Matrix leicht definiert werden. Der nächste Implementierungs-Gesichtspunkt betrifft die Frequenz des Eingabesignals. Ein eindimensionales Signal hat nur eine ein-lineare Frequenzachse, und die Frequenz ist ein Skalar. Somit ist das Thema der Frequenz für ein eindimensionales Signal unschwierig. Jedoch ist das Frequenz-Thema für zweidimensionales Signale komplexer, und es wird im folgenden beschrieben.
Unter der Annahme, daß eine Matrix [A] die DCT-Koeffizienten eines zweidimensionalen Signals repräsentiert (z.B. eine der Farbebenen des Bildes) kann die Beschränkung der Bandbreite durch eine der folgenden Beziehungen gegeben sein: L1 norm: A(k, l) = 0 für |k| + |l| > k0. (16) L2 norm: A(k, l) = 0 für √k²+l² > k0. (17) L∞ norm: A(k, l) = 0 für max(k, l) > k0. (18)
Die Ausdrücke (16), (17) und (18) sind in 4 dargestellt, in der die DCT-Koeffizienten eines zweidimensionalen Signals als ein zweidimensionaler Satz von Skalaren dargestellt ist. Die DCT-Koeffizienten sind in 4 als Zellen in einem 8 × 8-Gitter 402 gezeigt, wobei eine jede Zelle einem Koeffizienten entspricht. Die nicht-schattierten Zellen entsprechen den DCT-Koeffizienten, von denen man annimmt, daß sie Null sind. Die übrigen DCT-Koeffizienten sind als schattierte Zellen gezeigt. Wie durch 4 gezeigt ist, hängt die Beschränkung der Bandbreite von der verwendeten Norm ab. Bei den Zellen, die durch die Grenze zwischen dem schattierten Bereich und dem nicht-schattierten Bereich geschnitten werden, sollte entschieden werden, ob sie schattierte oder nicht-schattierte Zellen sind. Alternativ kann bei diesen geschnittenen Zellen unter Verwendung einer strengen Ungleichung für den Bereich entschieden werden. Für die Y-Komponente hat sich herausgestellt, daß die Norm L¹ geeigneter ist, aufgrund der Weise, auf die die Y-Komponente abgetastet wird und der Tatsache, daß die G-Komponente des RGB-Farbraums am besten mit der Y-Komponente des Yc_rc_b-Farbraums korrespondiert.
Die komprimierungsbewußte Matrix 206 für die Auflösung der Mosaikstruktur wird durch ein separates System erzeugt und dann in das Bildverarbeitungssystem 100 programmiert. In 5 ist ein Matrixerzeugungssystem 500 gemäß der ersten Ausführungsform gezeigt. Das Matrixerzeugungssystem ist so konfiguriert, daß es die komprimierungsbewußte Matrix für die Auflösung der Mosaikstruktur erzeugt, wie sie durch Ausdruck (15) definiert ist. Das System von 5 enthält ein Matrix-Transponierungsmodul 502, ein Multiplikationsmodul 504 und ein Matrix-Invertierungsmodul 506. Obwohl die Module 502–506 in einer beliebigen Kombination von Hardware, Firmware und Software implementiert werden können, werden diese Module vorzugsweise in dem Matrix-Erzeugungssystem als Softwareprogramm ausgeführt, welches die Funktionen der Module 502–506 ausführt, wenn es von einem Prozessor (nicht gezeigt) ausgeführt wird.
Im Betrieb empfängt das Matrix-Transponierungsmodul 502 des Matrix-Erzeugungssystems 500 eine Eingabematrix [T], welche die DCT-Transformationsmatrix ist. Das Matrix-Transponierungsmodul transponiert dann die empfangene Matrix [T], um eine Matrix [T]^t zu erzeugen, die an das Multiplikationsmodul 504 übergeben wird. Das Multiplikationsmodul 504 empfängt die Eingabematrizen [S] und [C_r2y] und die Ausgabematrix [T]^t von dem Matrix-Transponierungsmodul 502. Die Eingabematrix [S] ist die Abtastungsmatrix. Die Eingabematrix [C_r2y] ist die Farb-Transformationsmatrix. Das Multiplikationsmodul multipliziert dann die drei empfangenen Matrizen in der in 5 gezeigten Reihenfolge, um eine Matrix [S][C_y2r][T] abzuleiten, die an das Matrix-Invertierungsmodul 506 übergeben wird. Das Modul 506 invertiert dann die Matrix [S][C_y2r][T], um die komprimierungsbewußte Matrix 206 für die Auflösung der Mosaikstruktur zu erzeugen, wie sie durch Ausdruck (15) definiert ist.
Gemäß der zweiten Ausführungsform führt das komprimierungsbewußte Modul 108 für die Auflösung der Mosaikstruktur der Bild-Pipelineeinheit 104 einen DCT-Bayes-Prozeß zur Auflösung der Mosaikstruktur unter Verwendung der komprimierungsbewußten Matrix 206 zur Auflösung der Mosaikstruktur durch, um die Mosaikstruktur der Rohdaten-Bilder aufzulösen. Für diese Ausführungsform wird die komprimierungsbewußte Matrix zum Auflösen der Mosaikstruktur abgeleitet, indem eine a priori-Kenntnis bezüglich der Wahrscheinlichkeitsverteilung der DCT-Koeffizienten angenommen wird.
Das Verfahren nach der DCT-Bayes-Näherung assoziiert eine Wahrscheinlichkeitsverteilungsfunktion mit einem jeden DCT-Koeffizient. Ferner geht das Verfahren nach der DCT-Bayes-Näherung davon aus, daß die Koeffizienten jeder für sich normal sind, mit einem Mittelwertsvektor μ →_c und einer Kovarianzmatrix [R_c], oder mathematisch ausgedrückt: z →c ≜ ([T][Cr2y]x →) – N(μ →c,[Rc]), (19)
Die Bayes-Näherung basiert auf der Bayes'schen Regel für Wahrscheinlichkeitsverteilungen. Die Bayes'sche Regel lautet wie folgt:
Die folgenden Notationen werden hier für allgemeine Normalverteilungen verwendet:
Mittelwert:μ →c ≜ E(z →c) (21)Kovarianz:[Rc] ≜ E(z →c – μ →c)(z →c – μ →c)t (22)Normalverteilung:Pr(z →c) ≜ Pr(zc(1), zc(2), ..., zc(N)) (23)
Die DCT-Bayes-Näherung verwendet ein Modell mit zugefügtem Rauschen, um das Rekonstruktionsproblem zu formulieren. Das Modell mit zugefügtem Rauschen wird wie folgt ausgedrückt: y → = [S]x → + n →, (25)wobei n → eine Normalverteilung mit einer Kovarianzmatrix [R_n] hat, n → ~ N(O →, [Rn]). (26)
Das obige Modell mit zugefügtem Rauschen ist geeignet, da es natürlich ist, anzunehmen, daß die Messungen Rauschen aufweisen.
Unter Verwendung der obigen Annahmen kann das Problem der Rekonstruktion nun wie folgt formuliert werden:
Gegeben y →, so daß y → = [S]x → + n →, wobei n → ~ N(O →,[Rn]), finde x →, unter der Annahme, daß gilt z →c = ([T][Cr2y]x →) ~ N(μ →c,[Rc]) (27)
Das Problem (26) wird unter Verwendung der Bayes'schen Regel (19) gelöst. Da angenommen wird, daß die abgetasteten Daten y → gegeben sind, wird x → so gewählt, daß gilt:
Die Annahme bezüglich des Gauss'schen Modells für das Rauschen wird mit dem Gauss'schen Modell für die Koeffizienten inkorporiert. Bezüglich des Rauschens gilt gemäß Ausdruck (27) die folgende Beziehung. Pr(y →/x →) = Pr(n → = y → – [S]x →). (29)
Unter Verwendung der Ausdrücke (23) und (25) kann Gleichung (28) wie folgt geschrieben werden: log(Pr(y →/x →)) = c – (y → – [S]x →)t[Rn]–1(y → – [S]x →), (30)wobei c eine Konstante ist, die unabhängig von x → ist. Der Faktor ½ wird fallengelassen, da dieser Faktor letztendlich weggekürzt wird. Bezüglich dieser Koeffizienten wird angenommen, daß die Koeffizienten in dem transformierten Bereich eine bekannte Normalverteilung haben. Darüber hinaus ist eine lineare Transformation eines normalen Vektors normal. Somit kann die Wahrscheinlichkeit des ursprünglichen diskreten Signals x → wie folgt geschrieben werden: Pr(x →) = Pr([Cy2r][T]tz →c) (31) ~ N([Cy2r][T]tμ →c, [Cy2r][T]t[Rc][T][Cy2r]t) (32) ≜ N(μ →x,[Rx]). (33)
Die obige Wahrscheinlichkeit kann dann in der folgenden logarithmischen Formel geschrieben werden: log(Pr(x →)) = c – (x → – μ →x)t[Rx]–1(x → – μ →x). (34)
Durch Einsetzen der Gleichungen (29) und (33) in Gleichung (27), wird die folgende Gleichung hergeleitet: log(Pr(y →/x →)Pr(x →)) (35) = c – (y → – [S]x →)t[Rn]–1(y → – [S]x →) – (x → – μ →x)t[Rx]–1(x → – μ →x). (36)
Die Kovarianzmatrizen sind positiv und symmetrisch. Daher gilt das gleiche für [R_n]^–1, [R_x]^–1 und [S]^t[R_n]^–1[S]. Dementsprechend kann Ausdruck (34) wie folgt geschrieben werden: = ct + 2x →t[S]t[Rn]–1y → + 2x →t[Rx]–1μ →x – x →t([Rx]–1 + [S]t[Rn]–1[S])x → (37) = ct + 2x →t([S]t[Rn]–1y → + [Rx]–1μ →x) – x →t([Rx]–1 + [S]t[Rn]–1[S])x → (38) ≜ ct + x →tp → – x →t[Q]x →t (39)wobei p → ≜ 2([S]t[Rx]–1y → + [Rx]–1μ →x)und (40) [Q] ≜ ([Rx]–1 + [S]t[Rx]–1[S]). (41)
Die zwei Ableitungsregeln für Vektoren lauten wie folgt:
Durch Anwendung dieser Regeln (41) und (42) auf den Ausdruck (38) wird die folgende Gleichung hergeleitet:
Durch Gleichsetzen mit Null und Lösen für x → ergibt sich x → = ([Q] + [Q]t)–1p →. (45)
Man beachte, daß dies der Maximumspunkt ist, da [Q] positiv ist und daher die Determinante der Hesse-Matrix negativ ist. Da [Q] =[Q]^t, kann Gleichung (44) wie folgt geschrieben werden:
Die obige Gleichung kann entwickelt werden, um die folgende für die Berechnung einfachere Form zu ergeben: x → = [Q]–1[S]t[Rn]–1y → + [Q]–1[Rx]–1μ →x. (47)
Die komprimierungsbewußte Matrix 206 für die Auflösung der Mosaikstruktur ist somit wie folgt gegeben: [Q]–1[S]t[Rn]–1. (48)
Der Term [Q]^–1[R_x]^–1μ →_x von Gleichung (46) repräsentiert einen Bias. Unter der Annahme bekannten Rauschens und einer bekannten Verteilung der Koeffizienten gibt Gleichung (46) eine Lösung in geschlossener Form an, um bei gegebenen Messungen y → den wahrscheinlichsten x → zu finden.
Der Grad des Rauschens kann nach Bedarf angenommen werden. Wenn angenommen wird, daß der Grad des Rauschens sehr niedrig ist, wird im wesentlichen erzwungen, daß das resultierende Bild an den Abtastpunkten exakt gleich den Abtastwerten ist. Wenn jedoch angenommen wird, daß das Rauschen hoch ist, werden die Werte an den Abtastpunkten lediglich als empfohlene Werte für den Algorithmus betrachtet. Man beachte, daß das Rauschen für den speziellen Typ und die Anordnung der Komponenten, die im System enthalten sind, abgeschätzt werden kann. Die Verteilung der Koeffizienten kann unter Verwendung von DCT-Modellen abgeschätzt werden, oder durch das Berechnen einer Statistik aus einer Anzahl von Probenbildern.
Der Bias-Term [Q]^–1[R_x]^–1μ →_x in Gleichung (48) kann off-line bestimmt werden. In der Praxis kann dieser Bias-Term bzw. Verschiebungsterm addiert werden, nachdem die Bildblöcke durch die Interpolationseinheit 204 des komprimierungsbewußten Moduls 108 zum Auflösen der Mosaikstruktur mit der komprimierungsbewußten Matrix 206 zum Auflösen der Mosaikstruktur multipliziert wurden.
In 6 ist ein Matrix-Erzeugungssystem 600 gemäß der zweiten Ausführungsform gezeigt. Das Matrix-Erzeugungssystem ist so konfiguriert, daß es die komprimierungsbewußte Matrix 206 zum Auflösen der Mosaikstruktur erzeugt, wie sie durch Ausdruck (48) definiert ist. Das System von 6 enthält Matrix-Invertierungsmodule 602, 604 und 606, ein Matrix-Transponierungsmodul 608, Multiplikationsmodule 610 und 612 und ein Summationsmodul 614. Obwohl die Module 602–614 in einer beliebigen Kombination von Hardware, Firmware und Software implementiert werden können, werden diese Module vorzugsweise in dem Matrix-Erzeugungssystem als ein Softwareprogramm ausgeführt, welches die Funktionen der Module 602–614 durchführt, wenn es von einem Prozessor (nicht gezeigt) ausgeführt wird.
Im Betrieb empfängt das Matrix-Invertierungsmodul 602 des Matrix-Erzeugungssystems 600 eine Eingabematrix [R_x]. Die Eingabematrix [R_x] ist die Kovarianz-Matrix von x (ursprüngliche diskrete Signale), die durch verschiedene herkömmliche Verfahren abgeschätzt werden kann, wie beispielsweise durch die Verwendung von DCT-Modellen oder durch das Berechnen von Statistiken aus einer Anzahl von Bilderproben. Das Modul 602 invertiert dann die empfangene Matrix [R_x], um eine Matrix [R_x]^–1 auszugeben, die an das Summationsmodul 614 übergeben wird. Das Matrix-Invertierungsmodul 604 empfängt eine Eingabematrix [R_n]. Die Eingabematrix [R_n] ist die Kovarianzmatrix von n (Rauschen), die für den spezifischen Typ und die Anordnung der Komponenten abgeschätzt werden kann, die in dem Bildverarbeitungssystem 100 von 1 enthalten sind. Das Modul 604 invertiert dann die empfangene Matrix [R_n], um eine Matrix [R_n]^–1 auszugeben, die an die Multiplikationsmodule 610 und 612 übergeben wird. Das Matrix-Transponierungsmodul 608 empfängt eine Eingabematrix [S]. Das Matrix-Transponierungsmodul transponiert dann die empfangene Matrix [S], um eine Matrix [S]^t auszugeben, die ebenfalls an die Multiplikationsmodule 510 und 512 übergeben wird.
Das Multiplikationsmodul 610 empfängt die beiden Ausgabematrizen [S]^t und [R_n]^–1 von dem Matrix-Transponierungsmodul 608 bzw. dem Matrix-Invertierungsmodul, und die Eingabe-Abtastungsmatrix [S]. Das Multiplikationsmodul 610 multipliziert dann die drei empfangenen Matrizen in der in 6 gezeigten Ordnung, um eine Matrix [S]^t[R_n]^–1[S] herzuleiten, die an das Summationsmodul 614 übertragen wird. Das Summationsmodul empfängt die Matrix [S]^t[R_n]^–1[S] von dem Multiplikationsmodul 610 und die Matrix [R_x]^–1 von dem Matrix-Invertierungsmodul 602. Das Summationsmodul addiert dann die beiden empfangenen Matrizen, um eine Matrix [R_x]^–1 + [S]^t[R_n]^–1[S] auszugeben, die an das Matrix-Invertierungsmodul 606 übergeben wird. Die Matrix [R_x]^–1 + [S]^t[R_n][S] ist äquivalent zur Matrix [Q], wie sie in Ausdruck (41) definiert ist. Daher wird die Matrix [R_x]^–1 + [S]^t[R_n][S] im folgenden als die Matrix [Q] bezeichnet. Das Modul 606 invertiert die empfangene Matrix [Q] und gibt eine Matrix [Q]^–1 aus, die an das Multiplikationsmodul 612 übergeben wird. Das Modul 612 empfängt die Matrix [Q]^–1 von dem Matrix-Invertierungsmodul 606, die Matrix [S]^t von dem Matrix-Transponierungsmodul 608 und die Matrix [R_n]^–1 von dem Matrix-Invertierungsmodul 604. Das Multiplikationsmodul 612 multipliziert dann die drei empfangenen Matrizen in der in 6 gezeigten Reihenfolge, um die komprimierungsbewußte Matrix 206 für die Auflösung der Mosaikstruktur zu erzeugen, wie sie durch den Ausdruck (48) definiert ist.
In 7 ist ein Bildverarbeitungssystem 700 gemäß einer alternativen Ausführungsform gezeigt. Das Bildverarbeitungssystem 700 enthält eine Anzahl von Komponenten, die in dem Bildverarbeitungssystem 100 gefunden werden, und die in 1, 2 und 3 gezeigt sind. Diese gemeinsamen Komponenten werden in 7 durch dieselben Bezugszeichen bezeichnet. Das Bildverarbeitungssystem 700 von 7 enthält die Bilderfassungseinheit 102, eine Bild-Pipelineeinheit 702 und die Speichereinheit 106. Die Bild-Pipelineeinheit 702 enthält ein kompressionsbewußtes Modul 704 für die Auflösung einer Mosaikstruktur und ein Komprimierungsmodul 706. Ähnlich wie das komprimierungsbewußte Modul 108 zur Auflösung der Mosaikstruktur vom System 100 aus 1 enthält das komprimierungsbewußte Modul 704 zum Auflösen einer Mosaikstruktur die Bild-Unterteilungseinheit 202 und die Interpolationseinheit 204. Jedoch verwendet das komprimierungsbewußte Modul 704 für die Auflösung einer Mosaikstruktur eine unterschiedliche komprimierungsbewußte Matrix 708 zur Auflösung einer Mosaikstruktur. Unter Verwendung der komprimierungsbewußten Matrix 708 zur Auflösung einer Mosaikstruktur gibt das komprimierungsbewußte Modul 706 einen Satz von DCT-Koeffizienten für einen jeden Bildblock aus, der durch die Interpolationseinheit 204 verarbeitet wird. Effektiv führt die Interpolationseinheit 204 die DCT-Transformation sowie die Auflösung der Mosaikstruktur durch. Somit braucht das Komprimierungsmodul 706 nur die Quantisierung und Codierung durchzuführen, um den Komprimierungsprozeß zu vollenden. Dementsprechend enthält das Komprimierungsmodul nur die Quantisierungseinheit 306 und die Koeffizienten-Codierungseinheit 308.
Das komprimierungsbewußte Modul 704 zur Auflösung der Mosaikstruktur kann entweder das DCT-Interpolationsverfahren mit beschränkter Bandbreite oder das DCT-Verfahren mit Bayes'scher Näherung durchführen, in Abhängigkeit der komprimierungsbewußten Matrix 708 für die Auflösung der Mosaikstruktur. Für das DCT-Interpolationsverfahren mit beschränkter Bandbreite wird die komprimierungsbewußte Matrix 708 zur Auflösung der Mosaikstruktur hergeleitet, indem die komprimierungsbewußte Matrix 206 zur Auflösung der Mosaikstruktur, wie sie in Ausdruck (15) definiert ist, mit der DCT-Transformationsmatrix [T] multipliziert wird. Die komprimierungsbewußte Matrix 708 zur Auflösung der Mosaikstruktur ist somit wie folgt gegeben: [T][[S][Cy2r][T]t]–1. (49)
Für das DCT-Verfahren mit Bayes'scher Näherung wird die komprimierungsbewußte Matrix 708 zur Auflösung der Mosaikstruktur hergeleitet, indem die komprimierungsbewußte Matrix 206 zur Auflösung der Mosaikstruktur, wie sie im Ausdruck (48) definiert ist, mit der DCT-Transformationsmatrix [T] multipliziert wird. Die komprimierungsbewußte Matrix 708 zur Auflösung der Mosaikstruktur ist somit wie folgt gegeben: [T][Q]–1[S]t[Rn]–1. (50)
Die komprimierungsbewußte Matrix 708 zur Auflösung der Mosaikstruktur gemäß dem DCT-Interpolationsverfahren beschränkter Bandbreite, wie sie durch Gleichung (49) definiert ist, kann durch eine modifizierte Version des Matrix-Erzeugungssystems 500 von 5 erzeugt werden. Das modifizierte Matrix-Erzeugungssystem enthält ein zweites Multiplikationsmodul (nicht gezeigt), das mit dem Ausgang des Matrix-Invertierungsmoduls 506 verbunden ist. Somit empfängt das zweite Multiplikationsmodul die Ausgabe aus dem Matrix-Invertierungsmodul 506. Darüber hinaus empfängt das zweite Multiplikationsmodul eine Eingabematrix [T], die mit der Ausgabe des Matrix-Invertierungsmoduls 506 multipliziert wird. Die Ausgabe des zweiten Multiplikationsmoduls ist die komprimierungsbewußte Matrix 708 zur Auflösung der Mosaikstruktur, wie sie durch Ausdruck (49) definiert ist.
Die komprimierungsbewußte Matrix 708 zum Auflösen der Mosaikstruktur gemäß dem DCT-Verfahren mit Bayes'scher Näherung, wie sie durch Ausdruck (50) definiert ist, kann durch eine modifizierte Version des Matrix-Erzeugungssystems 600 von 6 erzeugt werden. Das modifizierte Matrix-Erzeugungssystem ist so konfiguriert, daß es eine Eingabematrix [T] an dem Multiplikationsmodul 612 empfängt, zusätzlich zu den Ausgaben der Matrix-Invertierungsmodule 604 und 606 und von dem Matrix-Transponierungsmodul 608. Das Multiplikationsmodul 612 multipliziert somit die Matrizen [T], [Q]^–1, [R_n]^–1 und [S]^t, um die komprimierungsbewußte Matrix 708 zum Auflösen der Mosaikstruktur zu erzeugen, wie sie durch Ausdruck (50) definiert ist.
Ein Verfahren zum Verarbeiten eines Mosaik-Bildes gemäß der vorliegenden Erfindung wird unter Bezugnahme auf 8 beschrieben. Im Schritt 802 wird eine komprimierungsbewußte Matrix zum Auflösen der Mosaikstruktur gemäß dem DCT-Interpolationsverfahren mit beschränkter Bandbreite oder dem DCT-Verfahren mit Bayes'scher Näherung erzeugt. Bei Schritt 804 wird ein eingegebenes Mosaik-Bild empfangen. Danach wird bei Schritt 806 das eingegebene Mosaik-Bild in Bildblöcke unterteilt. Beispielsweise kann ein eingegebenes Bild in 16 × 16-Pixel-Bildblöcke unterteilt werden. Bei Schritt 808 wird die Mosaikstruktur des eingegebenen Bildes unter Verwendung der komprimierungsbewußten Matrix zur Auflösung der Mosaikstruktur aufgelöst. Als nächstes werden im Schritt 810 die Farbe und der Ton des Bildes mit aufgelöster Mosaikstruktur verbessert. Der Schritt 810 ist ein optionaler Schritt und kann somit in dem Verfahren weggelassen werden.
Im Schritt 812 wird das Bild mit aufgelöster Mosaikstruktur in Blöcke für die Komprimierung unterteilt. Bei Schritt 814 werden die Blöcke dann DCT-transformiert. Als Resultat daraus werden DCT-Koeffizienten des Bildes hergeleitet. Als nächstes werden bei Schritt 816 die DCT-Koeffizienten quantisiert. Die quantisierten Koeffizienten werden dann codiert, beispielsweise unter Verwendung von Huffman-Tabellen oder von arithmetischer Codierung, um bei Schritt 818 eine komprimierte Bilddatei abzuleiten. Als nächstes wird bei Schritt 820 die komprimierte Bilddatei ausgegeben.
In einer alternativen Ausführungsform werden die Schritte 810, 812 und 814 des Verfahrens ausgelassen. In dieser Ausführungsform werden die DCT-Koeffizienten durch die Operation der Auflösung der Mosaikstruktur bei Schritt 808 erzeugt. Somit werden bei dieser alternativen Ausführungsform die Schritte 808 und 812 in einem einzigen Schritt des Auflösens der Mosaikstruktur des eingegebenen Bildes kombiniert, unter Verwendung der komprimierungsbewußten Matrix zur Auflösung der Mosaikstruktur, um die DCT-Koeffizienten herzuleiten.
Die oben beschriebenen Verfahren zum Auflösen der Mosaikstruktur und die entsprechenden Matrizen zur Auflösung der Mosaikstruktur können modifiziert werden, um für Wavelet-basierte Komprimierungsschemata, wie beispielsweise JPEG 2000, anwendbar zu sein. Bei einem Wavelet-basierten Komprimierungsschema wird die Transformationsmatrix, wie sie in Gleichung (5) definiert ist, durch eine Wavelet-Transformationsmatrix ersetzt. Die Formulierung und Lösung des Rekonstruktionsproblems werden dieselben sein. Die resultierende Matrix zum Auflösen der Mosaikstruktur kann dann verwendet werden, um die Mosaikstruktur der eingegebenen Bilder aufzulösen, bevor sie unter Verwendung des Wavelet-basierten Komprimierungsschemas komprimiert werden. Somit ist die einzige wesentliche Modifikation, die benötigt wird, um die Bildverarbeitungssysteme 100 und 700 zu einem Bildverarbeitungssystem umzuwandeln, das ein Wavelet-basiertes Komprimierungsschema verwendet, die Ersetzung entweder des Komprimierungsmoduls 112 oder des Komprimierungsmoduls 706 mit einem vergleichbaren Komprimierungsmodul, welches die Komprimierung basierend auf Wavelets durchführt.

Claims

Verfahren zum Auflösen der Mosaikstruktur eines vormals als Mosaik vorgesehenen Bildes, mit den Schritten: Empfangen (804) des als Mosaik vorgesehenen Bildes, wobei das als Mosaik vorgesehene Bild eine Wiedergabe eines interessierenden Bereichs ist, gekennzeichnet durch: Verarbeiten (808) des als Mosaik vorgesehenen Bildes, durch: Unterteilen des als Mosaik vorgesehenen Bildes in Bildblöcke, die äquivalent zu den Blöcken sind, mit denen in einem darauffolgenden Komprimierungsprozeß gearbeitet wird; und Anwenden einer komprimierungsbezogenen zum Auflösen der Mosaikstruktur vorgesehenen Matrix auf die Blöcke des als Mosaik vorgesehenen Bildes, um eine Wiedergabe eines vormals als Mosaik vorgesehenen Bildes abzuleiten, wobei die komprimierungsbezogene zum Auflösen der Mosaikstruktur vorgesehene Matrix einen frequenzbasierten Transformationsoperator, einen Abtastungsoperator und eine Farbumwandlungmatrix umfaßt, um einen darauffolgenden frequenzbasierten Komprimierungsprozeß zu berücksichtigen.
Verfahren nach Anspruch 1, wobei das Verarbeiten (808) des als Mosaik vorgesehenen Bildes das Interpolieren des als Mosaik vorgesehenen Bildes mittels der zum Auflösen der Mosaikstruktur vorgesehenen Matrix (206; 708) umfaßt, wobei die zum Auflösen der Mosaikstruktur vorgesehenen Matrix abgeleitet wird, indem aus transformationsbezogenen Koeffizienten ausgewählte Koeffizienten (402) als gleich Null definiert werden.
Verfahren nach Anspruch 2, wobei die ausgewählten Koeffizienten (402) Komponenten höherer Frequenz sind als verbleibende Koeffizienten der transformationsbezogenen.
Verfahren nach einem der Ansprüche, 1, 2 oder 3, wobei das Verarbeiten (808) des als Mosaik vorgesehenen Bildes das Interpolieren des als Mosaik vorgesehenen Bildes mittels des zum Auflösen der Mosaikstruktur vorgesehenen Operators (206; 708) umfaßt, wobei der zum Auflösen der Mosaikstruktur vorgesehene Operator abgeleitet wird, indem transformationsbezogene Koeffizienten definiert werden, um eine vorbestimmte Wahrscheinlichkeitsverteilung aufzuweisen.
System zum Verarbeiten eines als Mosaik vorgesehenen Bildes, umfassend: ein Modul zum Auflösen der Mosaikstruktur (108; 704), um die Mosaikstruktur des als Mosaik vorgesehenen Bildes aufzulösen, um eine Wiedergabe eines vormals als Mosaik vorgesehenen Bildes zu erzeugen, wobei das Modul zum Auflösen der Mosaikstruktur eine Bildunterteilungseinheit (202), eine Interpolationseinheit (204) und eine komprimierungsbezogene Matrix (206) zum Auflösen der Mosaikstruktur umfaßt, wobei die Unterteilungseinheit (202) arbeitet, um das als Mosaik vorgesehene Bild in Bildblöcke zu unterteilen, die äquivalent zu den Blöcken sind, die von dem Komprimierungsmodul bearbeitet werden; die Interpolationseinheit (204) arbeitet, um jeden Bildblock mit der komprimierungsbezogenen Matrix (206) zum Auflösen der Mosaikstruktur zu multiplizieren, wobei die Matrix zum Auflösen der Mosaikstruktur einen frequenzbasierten Transformationsoperator, einen Abtastoperator und eine Farbumwandlungsmatrix umfaßt, um einen darauffolgenden frequenzbasierten Komprimierungsprozeß zu berücksichtigen, und ein Komprimierungsmodul (112; 706), um die Wiedergabe des vormals als Mosaik vorgesehenen Bildes zu komprimieren um eine komprimierte Bilddatei zu erzeugen, wobei das Komprimierungsmodul dafür konfiguriert ist, einen frequenzbasierten Komprimierungsprozeß auszuführen.
System nach Anspruch 5, wobei die Matrix (206; 708) zum Auflösen der Mosaikstruktur abgeleitet wird, indem transformationsbezogene Koeffizienten definiert werden, die mit dem frequenzbasierten Kompressionsprozeß verknüpft sind, der von dem Kompressionsmodul (112; 706) ausgeführt wird.
System nach Anspruch 6, wobei die Matrix (206; 708) zum Auflösen der Mosaikstruktur abgeleitet wird, indem ausgewählte Koeffizienten (402) der transformationsbezogenen Koeffizienten als gleich Null definiert werden.
System nach Anspruch 6, wobei die Matrix (206; 708) zum Auflösen der Mosaikstruktur abgeleitet wird, indem die transformationsbezogene Koeffizienten definiert werden, um eine bestimmte Wahrscheinlichkeitsverteilung aufzuweisen.