DE102006061972B4

DE102006061972B4 - System zur Anpassung von Farbton und Helligkeit digitaler Bilder mittels Kompressionstransformationen

Info

Publication number: DE102006061972B4
Application number: DE200610061972
Authority: DE
Inventors: Jürgen Prof. Dr. Albert; Marc Dr. Ebner; German Tischler
Original assignee: Julius Maximilians Universitaet Wuerzburg
Current assignee: Ebner Marc Dr 72639 Neuffen De
Priority date: 2006-11-15
Filing date: 2006-12-21
Publication date: 2009-02-19
Anticipated expiration: 2026-12-22
Also published as: DE102006061972A1

Abstract

Elektronisches Verfahren zur Übertragung und/oder Speicherung eines Digitalbildes oder einer Bildsequenz mit einer Unterteilung in Pixel, die jeweils unterschiedliche individuelle Helligkeits- und/oder Farb-Werte (R, G, B; Y, CB, CR) aufweisen, und im Rahmen einer Bildkompression und/oder Bild-Dekompression einer Transformation beziehungsweise Rück- oder inversen Transformation unterzogen werden, wobei Transformations-Koeffizienten entstehen, und nach der Kompression und gegebenenfalls vor der Dekompression das Digitalbild übertragen und/oder abgespeichert wird, wobei einer, mehrere oder alle diese Koeffizienten und/oder ein Dekodierstrom über diese Koeffizienten zu einer vorbestimmten Helligkeits- und/oder Farbverstellung des Digitalbildes verändert werden, dadurch gekennzeichnet, dass die Änderung der Koeffizienten entweder vor einer inversen Einzelkanal-Transformation oder nach einer Vorwärts-Einzelkanal-Transformation erfolgt.

Description

Die Erfindung betrifft ein elektronisches Verfahren zur Speicherung und/oder Übertragung eines Digitalbildes oder Bildsequenzen gemäß Oberbegriff des Anspruchs 1 sowie ein entsprechendes Computerprogramm insbesondere auf einem digitalen Datenträgermedium oder Speichermedium. Ferner betrifft die Erfindung ein Computersystem zur Durchführung dieses Verfahrens und zur Anpassung der Helligkeit und/oder des Farbtons eines Digitalbilds nebst Verwendung dieses Computersystems oder des genannten Verfahrens insbesondere zur Erkennung von Bildern, Mustern oder sonstigen Objekten.
Das visuelle System des Menschen ist in der Lage, die Farbe von Objekten weitgehend unabhängig von dem Beleuchtungsspektrum einzuschätzen, das diese Objekte beleuchtet. Die Fähigkeit farbkonstante Deskriptoren zu ermitteln, wird als Farbkonstanz bezeichnet [59]. Bisher ist nicht bekannt, wie durch das visuelle System diese farbkonstanten Deskriptoren genau ermittelt werden. Die Fähigkeit, Farben als konstant wahrzunehmen, ist in vielen Bereichen wie z. B. der Amateur-Photographie oder der automatischen Objekterkennung von großer Wichtigkeit. Bisher wurden eine ganze Reihe unterschiedlicher Algorithmen zur Farbkonstanz vorgeschlagen. Einer der ersten Algorithmen ist das von Land und McCann entwickelte Retinex-Verfahren [44]. In vereinfachter Form ist dieses Verfahren auch unter dem Namen White-Patch-Retinex Algorithmus bekannt [9, 32, 33].
Zur ursprünglichen Retinex-Theorie existieren eine ganze Reihe von Veränderungen bzw. Verbesserungen [7, 34, 42, 40, 41, 6]. Moore et al. [46] implementierten eine Variante des Retinex-Verfahrens in VLSI. Rahman et al. [51] schlugen vor, das Bild gleichzeitig auf mehreren Ebenen zu verbessern.
Weitere Algorithmen basieren z. B. auf der Annahme, dass die Welt im Mittel grau sei [8, 36], der Bestimmung von Koeffizienten von Basis-Funktionen [35, 39, 45], sog. Gamut-Constraint Methoden [4, 30, 31], der perspektivischen Farbkonstanz [22], auf Farbe durch Korrelation [5, 27], der Rotation des Farbraumes [49], auf neuronalen Netzwerken [11, 12, 33, 38, 46, 47], der Minimierung einer Energiefunktion [57], umfassender Farbnormierung [29], Komitee-basierten Methoden, die die Berechnungen mehrerer Algorithmen zur Farbkonstanz zusammenfassen [9], oder der Verwendung genetischer Programmierung [14].
Ebner [17, 18, 16, 15] entwickelte Verfahren zur Farbkorrektur von Bildern, das die ursprüngliche Farbe der Bildpunkte anhand der durchschnittlichen lokalen Farbe korrigiert. Ebner [19] beschreibt einen Ansatz zur Farbkorrektur durch Bestimmung der durchschnittlichen lokalen Farbe der Bildpunkte entlang Iso-Beleuchtungslinien.
Die meisten Algorithmen gehen davon aus, dass die abgebildeten Objekte das Licht diffus reflektieren. Einige Algorithmen nehmen jedoch an, dass zumindest ein Teil des Lichts gespiegelt wird [56, 13, 28, 52, 20].
Algorithmen zur Kompression digitaler Bilder wie z. B. JPEG kommen in vielen Bereichen der modernen Bildverarbeitung zum Einsatz. Heutzutage werden Bilder fast ausschließlich in komprimierter Form abgelegt. Das JPEG-Baseline-Format ist allgegenwärtig. Bei der JPEG-Kompression wird das Bild zunächst in Farb- bzw. Helligkeitsebenen und dann in 8×8 große Pixelblöcke zerlegt. Auf diese Blöcke wird dann eine diskrete Kosinus-Transformation (DCT) angewendet. Als Ergebnis erhält man eine Reihe von Koeffizienten, die angeben, wie stark die jeweilige Frequenz-Komponente im Bild vorhanden ist. Nur die für das Bild wesentlichen Koeffizienten werden tatsächlich gespeichert. Im Gegensatz zum JPEG-Baseline-Format bei dem die Transformation auf einzelnen 8×8 großen Blöcken erfolgt, wird beim JPEG2000 Format, das in vielerlei Hinsicht dem älteren JPEG-Baseline-Format überlegen ist, das ganze Bild einer Transformation unterzogen.
Die Graue-Welt-Hypothese
Damit das Problem der Farbkonstanz, anhand eines einzigen Bildes farbkonstante Deskriptoren zu berechnen, lösbar wird, müssen eine Reihe von Annahmen gemacht werden. Häufig anzutreffende Annahmen sind, dass die Beleuchtung über das Bild nicht in der Farbe variiert und dass die Sensoren der Kamera, die das Bild aufgenommen hat, sehr schmalbandig sind. Eine weitere Annahme ist, dass die Welt im Mittel grau sei [8].
Gehen wir zunächst davon aus, dass wir eine einzige Lichtquelle haben, die die Szene beleuchtet. Licht dieser Lichtquelle fällt also auf ein Objekt und wird von dort in das Objektiv der Kamera reflektiert. Dann wird das Licht durch Sensoren gemessen. Jedem Sensor mit den Koordinaten (x, y) entspricht ein korrespondierender Objektpunkt. Es sei L(λ, x, y) die Radianz, die von der Lichtquelle für die Wellenlänge λ abgegeben wird und auf das an der Position (x, y) abgebildete Objekt fällt. Ein Teil des Lichts wird absorbiert, der Rest wird diffus reflektiert. Es sei R(λ x, y) der Prozentsatz, der angibt, wie viel des einfallenden Lichts reflektiert wird. Wir gehen nun davon aus, dass der Sensor entsprechend einer Antwortcharakteristik S_i (λ) das Licht für einen Teilbereich i des Spektrums misst. Meist werden drei Sensoren verwendet, die das Licht im roten, grünen und blauen Bereich des Spektrums messen, also i ∈ {r, g, b}. In diesem Fall ist die durch den Sensor gemessene Energie I(x, y) durch I(x, y) = G(x, y)∫R(λ, x, y)L(λ, x, y)S(λ)dλ (1)gegeben, wobei G(x, y) ein Geometrie-Faktor ist, der die Orientierung der Oberfläche am korrespondierenden Objektpunkt zur Kamera beschreibt und S(λ) = [S_r(λ), S_g(λ), S_b(λ)] der Vektor mit den Antwortcharakteristika der Sensoren ist. Die Integration wird über alle Wellenlängen λ durchgeführt, auf die der Sensor anspricht. Für eine diffuse Reflektion des Lichts haben wir G(x, y) = N_L·N_o wobei der Normalenvektor der Oberfläche am Punkt (x, y) durch N_o gegeben sei, und der Einheitsvektor vom Punkt (x, y) in Richtung der Lichtquelle durch N_o gegeben sei. Dieses Modell der Bildentstehung kommt in vielen Algorithmen zur Farbkonstanz zum Einsatz [8, 22, 30, 31, 28, 29, 25, 47].
Im Folgenden gehen wir davon aus, dass die Antwortcharakteristik der Sensoren sehr schmalbandig ist. Falls dies nicht der Fall sein sollte, könnte eine Transformation zur Schärfung der Antwortcharakteristika erfolgen (siehe [24, 23, 26, 3]). Im Idealfall werden die Antwortcharakteristika der Sensoren als Delta-Funktionen modelliert. In diesem Fall haben wir, S_i(λ) = δ(λ – λ_i), wobei i ∈ {r, g, b}. Ein einzelner Sensor spricht also nur auf eine einzelne Wellenlänge an. Wir erhalten Ii(x, y) = G(x, y)R(λi, x, y)L(λi, x, y). (2)
Nicht immer werden Daten direkt aus einem Sensor verarbeitet. Zur Weiterverarbeitung werden die gemessenen Daten oft in einer Datei gespeichert. Die Abbildung zwischen zu verarbeitenden Bilddaten c_i(x, y) und den gemessenen Daten des Sensors I_i(x, y) sei linear. Im einfachsten Fall haben wir Ci(x, y) = Ii = G(x, y)Ri(x, y)Li(x, y) (3)mit i ∈ {r, g, b}. Für den Fall, dass die Farbe der Beleuchtung über die gesamte Szene gleichmäßig ist, gilt L_i(x, y) = L_i. In diesem Fall erhalten wir Ci(x, y) = G(x, y)Ri(x, y)Li. (4)
Wir sehen also, dass eine einfache diagonale Transformation zur Farbkorrektur ausreichend ist. Zur Farbkorrektur muss einfach jeder Kanal durch L_i dividiert werden und wir erhalten einen Wert der lediglich von der Geometrie G und der Reflektanz R der Objekte abhängt.
Die Farbe der Lichtquelle L_i können wir anhand des vorhandenen Bildmaterials abschätzen. Hier ist zu beachten, dass nur drei Messungen c_i(x, y) (für die drei Farbkanäle Rot, Grün und Blau) an jedem Bildpunkt vorliegen. Weder die Reflektanz R_i(x, y) noch die Farbe der Lichtquelle L_i(x, y) ist bekannt. Auch über die Geometrie an der Position (x, y) liegt zunächst keine Information vor.
Um anhand der gegebenen Daten die Farbe der Lichtquelle zu bestimmen, müssen eine Reihe von Annahmen gemacht werden. Buchsbaum [8] schlug die Graue-Welt-Hypothese vor. Um zu sehen, wie die Graue-Welt-Hypothese funktioniert, berechnen wir zunächst den Mittelwert a über alle Pixel. Es sei n die Zahl der Bildpunkte im Bild. Dann erhalten wir
Wenn wir nun das Ergebnis aus Gleichung 3 verwenden, erhalten wir
Wenn wir nun davon ausgehen, dass die Reflektanzen der in der abgebildeten Szene gleichmäßig über den Bereich [0, 1] verteilt sind, und ferner davon ausgehen, dass die Form der Objekte unabhängig von der Reflektanz ist, erhalten wir
wobei E(G) der Erwartungswert des Geometrie-Faktors und E(R) der Erwartungswert der Reflektanz ist. Da wir davon ausgegangen sind, dass die Reflektanzen gleichmäßig über den Bereich [0, 1] verteilt sind, haben wir E(R) = ½. Wir erhalten also
Diese Gleichung können wir umformen, um die Farbe der Lichtquelle anhand der durchschnittlichen Farbe der Bildpunkte zu erhalten
wobei
Der Erwartungswert des Geometrie-Faktors hängt natürlich von den im Bild abgebildeten Objekten ab. Da wir nun einen Schätzwert für die Farbe der Lichtquelle haben, können wir einen farbkonstanten Deskriptor o_i wie folgt berechnen:
Wenn wir jeden Farbkanal i durch 2a_i dividieren, wird die durchschnittliche Farbe der Bildpunkte auf den Punkt [0.5, 0.5, 0.5] gesetzt. Ebner [18] zeigte, dass das gleiche Prinzip auch lokal angewandt werden kann. In diesem Fall wird die durchschnittliche lokale Farbe berechnet und daraus die Farbe der Lichtquelle lokal für jeden Bildpunkt geschätzt.
Eine weitere Möglichkeit ist, eine Farbkorrektur anstatt durch eine Division durch eine Subtraktion der auf dem Grau-Vektor, senkrecht stehenden Komponente der durchschnittlichen lokalen Farbe vorzunehmen [17]. Dies ist in 1 dargestellt. Der Farbraum ist durch die Farbkanäle rot (r), grün (g) und blau (b) aufgespannt. Der Grau-Vektor w verläuft als Diagonale von schwarz nach weiß durch den Farbwürfel. Eine Farbkorrektur kann erreicht werden, indem die durchschnittliche lokale Farbe in Richtung des Grau-Vektors verschoben wird. Es wird also als erstes die durchschnittliche lokale Farbe a für jeden Bildpunkt berechnet. Dann wird die Komponente a⊥., die senkrecht auf dem Grau-Vektor w steht, von der Farbe des Bildpunktes c subtrahiert. Als Ergebnis, kommt die durchschnittliche lokale Farbe der Bildpunkte auf dem Grau-Vektor zu liegen.
Das Retinex Verfahren
Horn [40] entwickelte eine zweidimensionale Variante des Retinex-Algorithmus von Land und McCann [44], die wir uns im folgenden näher ansehen. Das Verfahren wurde anschließend von Blake [6] verbessert. Horn schlug vor, das Produkt aus Reflektanz und Beleuchtungsterm, wie es in der folgenden Gleichung auftritt ci(x, y) = Ii = Ri(x, y)Li(x, y), (11)durch Anwendung des Logarithmus in eine Summe zu überführen. Hier gehen wir davon aus, dass eine ebene Fläche senkrecht betrachtet wird, d. h. G(x, y) = 1. Wenn wir nun den Logarithmus anwenden, erhalten wir log ci(x, y) = log Ri(x, y) + log Li(x, y). (12)
Wir gehen nun davon aus, dass die Farbe der Lichtquelle sich im Vergleich zu Änderungen der Reflektanz nur langsam verändert. Nun wird der Laplace-Operator angewandt. Ein 3 × 3-Laplace-Operator berechnet die Differenz zwischen benachbarten Pixelwerten in allen vier Richtungen und addiert das Ergebnis. Weil sich die Farbe der Lichtquelle im Verlauf des Bildes nur langsam ändert, haben wir L_i(x, y) ≈ L_i(x + 1, y) und L_i(x, y) ≈ L_i(x, y + 1). Daher verschwindet bei der Anwendung des Laplace-Operators der Beleuchtungsterm. Übrig bleibt eine starke Antwort des Operators an den Stellen, an denen sich die Reflektanz ändert. Horn schlug vor, dass eine Schwellwert-Operation angewandt wird, um kleine Antworten des Laplace-Operators zu unterdrücken. Übrig bleiben dann die Antworten, die durch Reflektanzänderungen verursacht wurden. Diese Abfolge von Operationen kann als Δ log Ri(x, y) = Θ(Δ log ci(x, y)) (13)zusammengefasst werden, wobei Δ den Laplace-Operator und Θ die Schwellwert-Operation darstellt. Anschließend wird die Anwendung des Laplace-Operator rückgängig gemacht, und das Ergebnis auf den Bereich [0, 1] transformiert. Das Ergebnis ist dann unabhängig von der Farbe der Lichtquelle. Eine Variante dieses Verfahrens wurde von Moore et al. [46] in VLSI implementiert. Blake [6] erweiterte das Verfahren dahingehend, dass die Anwendung des Laplace-Operators in zwei Schritten erfolgt. Erst wird die erste Ableitung berechnet, dann wird die Schwellwert-Operation angewandt und dann wird die zweite Ableitung berechnet.
Für den Fall, dass die Beleuchtung über das gesamte Bild konstant ist, d. h. L_i(x, y) = L_i wird die Schwellwert-Operation nicht benötigt. Die Anwendung des Laplace-Operators und anschließende Integration um die Anwendung des Laplace-Operators rückgängig zu machen, kann ebenfalls entfallen. Wir können einen farbkonstanten Deskriptor berechnen, indem wir einfach den Logarithmus anwenden und dann das Ergebnis auf den Bereich [0, 1] transformieren. Nach der Anwendung des Logarithmus, erhalten wir log ci = log Ri(x, y) + log Li. (14)
Wir sehen, dass der zweite Term konstant ist. Daher reicht es aus, die Daten jedes Farbkanals auf den Bereich [0, 1] zu transformieren, um den zweiten Term und damit die Abhängigkeit von der Farbe der Lichtquelle zu entfernen.
In einer weiteren Variante wird von Land [43] vorgeschlagen, dass der Logarithmus der durchschnittlichen Farbe in einer Umgebung des Punktes von dem Logarithmus der Farbe des Punktes subtrahiert wird. Es wird also berechnet
Durch die Anwendung des Logarithmus wird die notwendige Division, wie sie nach Gleichung 3 gegeben ist, in die effizient berechenbare Subtraktion überführt. Zudem wird aus dem arithmetischen Mittelwert der geometrische Mittelwert wenn wir die Log-Werte mitteln. Als Ergebnis erhalten wir auch hier einen farbkonstanten Deskriptor.
Anhand der durchschnittlichen Farbe der Bildpunkte können wir auch die Farbe der Lichtquelle abschätzen, wenn wir zuvor den Logarithmus anwenden. In diesem Fall wird jeder Bildpunkt durch den geometrischen Mittelwert dividiert [42,7]. Wenn wir zuerst den Logarithmus anwenden und dann die durchschnittliche Farbe der Bildpunkte berechnen, erhalten wir
Wenn wir diesen Wert von dem Logarithmus der Farbe der Bildpunkte subtrahieren, erhalten wir
Auch dies ist ein farbkonstanter Deskriptor. Der zweite Term kann weiter vereinfacht werden, wenn wir annehmen, dass die Reflektanzen gleichmäßig über den Bereich [0, 1] verteilt sind. In diesem Fall erhalten wir
Falls n ausreichend groß ist, d. h. n → ∞ und unter der Verwendung der Formel von Stirling,
erhalten wir oi(x) = log Ri(x) + 1. (25)
Bei dieser Formulierung wird also wie bei Land [43] ebenfalls die durchschnittliche Farbe der Bildpunkte in einer Umgebung von der Farbe der Bildpunkte subtrahiert, nur dass hier anstatt des arithmetischen Mittelwerts der geometrische Mittelwert verwendet wird.
Homomorphe Filterung
Stockham [53] schlug vor, dass Bildverarbeitung unter Verwendung eines Modells des menschlichen visuellen Systems durchgeführt wird. Stockham arbeitete mit Grauwert-Bildern bzw. betrachtete nur einen Farbkanal. Er betont, dass bei Anwendung des Logarithmus und bei weiterer Verwendung linearer Operatoren diese auch linear auf die Beleuchtungs- bzw. Reflektanz-Komponenten wirken. Faugeras [21] erweiterte diesen Ansatz für die Farbbildverarbeitung. Er schlug die sog. homomorphe Filterung von Bildern zur Farbverbesserung vor (siehe auch Parker [48]). Bei der homomorphen Filterung wird das Bild in einen anderen Farbraum transformiert. Hier soll die gewünschte Operation leichter durchzuführen sein.
US-A-5 294 989 lehrt eine Bildverarbeitungstechnik, bei der Fremdlichteffekte durch Subtraktion räumlich gewichteter Masken reduziert werden. Letztere werden im Wesentlichen zeitgleich auf einem analogen Glättungsgitter gebildet. US-A-2003/0 053 688 lehrt ein Verfahren zur automatischen, partiellen Farbkonstanz-Korrektur im Zusammenhang mit einem Feld von Bildelementen, die jeweils durch ein Farbspektrum dargestellt sind. Bei dem in WO-A-97/45 809 offenbarten Verfahren wird ein Digitalbild anfangs durch Daten dargestellt, die entsprechend Positionen auf einem Display indiziert sind. Die Bilddaten zeigen für jede Position in einem bestimmten Spektralband einen Intensitätswert an. Dieser wird verstellt, um einen angepassten Intensitätswert für die Position nach einer Logarithmen enthaltenden mathematischen Vorschrift zu erhalten. Dabei wird mit einem Faltungsoperator und einer skalierten Umgebungsfunktion mit einem Skalierungsfaktor gearbeitet sowie mit einer Umgebungsfunktion gearbeitet. Diese wird mit Skalierungs- und Gewichtungsfaktoren verarbeitet, die so ausgewählt werden, dass die Farbkonstanz und Helligkeitswiedergabe für das Digitalbild verbessert werden. Mittels eines neuartigen Farb-Restaurierungsschritts soll die Farbtreue gewährleistet werden. Insbesondere wird eine gemeinsame logarithmische Verstärkungsfunktion auf die summierten Intensitätswerte jedes Spektralbandes angewandt.
US 6 097 838 lehrt eine Technik zur Farbkorrektur eines komprimierten Bildes, bei der das komprimierte Bild zunächst teilweise dekomprimiert wird, indem die inverse Kompressionstransformation angewandt wird. Die Farbkorrektur wird nach der teilweisen Dekomprimierung im ursprünglichen (ersten) Farbraum ausgeführt. Anschließend werden korrigierte Kompressions-Koeffizienten bestimmt.
DE 10 2004 027 471 A1 beschreibt ein Verfahren und eine Vorrichtung zur Farbkorrektur von Bildern mit nicht-linearen Beleuchtungsänderungen. Nach der darin offengelegten Lehre kommen allerdings keine Kompressionstransformationen zum Einsatz. Das Bild wird weder komprimiert noch dekomprimiert.
Der Erfindung liegt die Aufgabe zugrunde, bei einem auf elektronischem Weg erfolgenden Verfahren zur Speicherung und/oder Übertragung eines Digitalbildes die Variierbarkeit hinsichtlich der für einen Betrachter erkennbaren Bildqualität zu verbessern. Zur Lösung werden das im Patentanspruch 1 angegebene Bilddaten-Speicherungs- und Übertragungsverfahren, das im Patentanspruch 30 angegebene, entsprechende Computerprogramm, das im Patentanspruch 31 angegebene, entsprechend programmierte Datenträger- oder Speichermedium sowie die in den Patentansprüchen 32 und 33 angegebenen Computersysteme vorgeschlagen. Zweckmäßige, vorteilhafte Ausgestaltungsoptionen ergeben sich aus den abhängigen Ansprüchen.
Das Lösungsprinzip der vorliegenden Erfindung besteht also darin, mit Hilfe von Kompressionstransformationen den Farbton bzw. die Helligkeit des Digitalbildes zu korrigieren, indem entsprechend auf die im Zuge der Transformation entstehenden Transformations-Koeffizienten eingewirkt, insbesondere zugegriffen und diese in vorbestimmter Weise verstellt werden. Mit der Erfindung lässt sich vorteilhaft die Tatsache ausnutzen, dass Standard-Bildkompressionsverfahren (z. B. JPEG oder JPEG 2000), bei denen auf Transformationskoeffizienten zugegriffen werden kann, auf dem Markt weit verbreitet sind. Infolgedessen wird mit der Erfindung der Vorteil erzielt, Helligkeits- oder Farbkorrektur und/oder Farbkonstanz als Seiteneffekt günstig erhältlicher Bildkompressionsverfahren zu erhalten.
Im Gegensatz zu der in der US 6 097 838 gelehrten Technik ist es bei der vorliegenden Erfindung nicht notwendig, die inverse Kompressionstransformation anzuwenden. Es lässt sich der Vorteil erzielen, dass Kompressions-Koeffizienten direkt angepasst werden können.
Insbesondere lässt sich das erfindungsgemäße Verfahren bei Pixel-Digitalbildern, welche aus einer mit einer oder mehreren Fremdlichtquellen beleuchteten Bildvorlage mittels bildgebender Sensorik erzeugt sind, einsetzen. Durch die erfindungsgemäße Veränderung der für Farbwerte zuständigen Transformationskoeffizienten lassen sich nämlich farbkonstante Deskriptoren schaffen bzw. eine Farbkonstanz bzw. Farbtreue gegenüber der Original-Bildvorlage herstellen. Mit der vorliegenden Erfindung ist also aufgezeigt, wie Algorithmen zur Erzielung einer Farbkonstanz gegenüber einer Original-Bildvorlage in weit verbreitete Kompressionsverfahren mit geringem Mehraufwand integriert werden können. Durch eine Anpassung des Dekodierstroms über die bei der Kompression entstandenen Koeffizienten kann nämlich erreicht werden, dass die Helligkeit bzw. der Farbton eines Bildes korrigiert werden kann. Dies lässt sich beispielsweise bei der automatischen Objekterkennung im Bereich der Robotik einsetzen. So kann z. B. ein Objekt oder Muster besser anhand der Farbe identifiziert werden, wenn die Farbe des Objekts unabhängig von der oder den Fremdlichtquellen bzw. der Beleuchtung ist.
Die Erfindung umfasst also ein informationstechnisches Verfahren zur Herstellung eines farbigen Digital- oder Analogbildes. Das digitale, über die Sensorik erzeugte Eingangsbild liegt in Pixel strukturiert vor, die jeweils unterschiedliche individuelle Farbwerte je einer Grundfarbe (z. B. Rot, Grün oder Blau) aufweisen. Die im Zuge der Kompression und/oder Dekompression erfolgende Transformation des Bildes wird genutzt, indem mindestens einer der Transformationskoeffizienten verändert wird. Erfindungsgemäß wird von dem Umstand Gebrauch gemacht, dass die Transformation zur Kompression des Bildes wenigstens einen Koeffizienten liefert, der als arithmetisches Mittel ein oder mehrerer Farbkanäle aufgefasst werden, oder aus dem das arithmetische Mittel leicht berechnet werden kann. Das aus dem einen oder mehreren Koeffizienten abgeleitete, arithmetische Mittel lässt sich bestimmten Bereichen des Bildes einer oder mehrerer Farbkanäle zuordnen. Dabei kann man die an sich bekannte Graue-Welt-Hypothese zweckmäßig anwenden, indem einer oder mehrere ausgewählte Koeffizienten in Richtung eines entsprechenden Mittelwerts, beispielsweise durch Subtraktion des Mittelwerts mehrerer Koeffizienten, verschoben werden.
Damit gewährleistet ist, dass die Antwortfunktionen der zur Erzeugung des Digitalbildes verwendeten Sensoren ausreichend schmalbandig sind, wird gemäß einer Erfindungsausbildung vorgeschlagen, an sich bekannte Methoden und Verfahren (vgl. [64],[65],[66],[67]) zur Schärfung der Sensoren einzusetzen, wenn diese nicht schmalbanding genug sein sollten. Idealerweise ist die Antwortcharakteristik der eingesetzten Sensoren einer an sich bekannten Dirac- oder Deltafunktion angenähert.
Beim erfindungsgemäßen Verfahren wird angenommen, dass Änderungen der Reflektanz des bildlich wiederzugebenden Objekts meist plötzlich im Bild auftreten, wohingegen sich die Beleuchtung durch Fremdlichtquellen nur langsam über die abzubildende Szene ändert. Folglich sind Änderungen der Reflektanz in den hochfrequenten Teilen des Bildes zu finden, während die niederfrequenten Teile des Bildes mehr die Beleuchtungsänderungen enthalten. Um bei der weiteren, digitalen Bildbearbeitung die Helligkeit und den Farbton effizient ändern zu können, gehen die Erfinder im Rahmen einer optionalen Erfindungsausbildung den Weg, eine Transformation des Bildes in den Frequenzraum vorzunehmen. Hier können niederfrequente Änderungen und hochfrequente Änderungen selektiv verstärkt oder abgeschwächt werden, nachdem eine Frequenzanalyse mit entsprechender Transformation vorausgegangen ist.
Transformation zur Frequenzanalyse
In der Bildkompression wird als Vorstufe zur Kompression in vielen Verfahren, darunter JPEG und JPEG2000, eine Transformation zur Frequenzanalyse durchgeführt. Dabei wird aus einem Zahlenschema von Eingangswerten ein Zahlenschema von transformierten Werten berechnet. In der Bildkompression wird dann angenommen, dass die transformierten Werte, die Bildanteile mit niedriger Frequenz beschreiben, für die Darstellung wichtiger sind als diejenigen, die Bildanteile mit hoher Frequenz beschreiben. Die Kompression kommt dann dadurch zustande, dass die transformierten Werte quantisiert und entropiekodiert werden.
Ein solches Verfahren zur Frequenzanalyse ist die diskrete Wavelet-Transformation (DWT). Ein Wavelet (kleine Welle) bezeichnet eine Funktion ψ mit endlicher Energie, die schwingt und im Mittel 0 ist. Der Begriff der endlichen Energie definiert sich dadurch, dass ψ quadratintegrabel ist. Ein Wavelet wird dabei durch eine Skalierungsfunktion Φ und Wavelet-Koeffizienten h₁[n], n ∈
definiert
wobei in Anwendungen solche Fälle betrachtet werden, für die sich nur endlich viele der Koeffizienten h₁ von Null unterscheiden, d. h. die angegebene Summe ist endlich. Die Skalierungsfunktion Φ wird ähnlich mit den Skalierungskoeffizienten h_o[n], n ∈
definiert als

Die Wavelet Transformation geschieht im eindimensionalen Fall durch Faltung des Eingangssignals, z. B. eine Zeile oder Spalte eines Bildes, mit den Koeffizienten h_o und h₁. Die zweidimensionalen Wavelet- und Skalierungsfunktionen der bekannteren waveletbasierten Kompressionssysteme, darunter JPEG2000, sind separierbar. Dies bedeutet, dass die eindimensionale Transformation zuerst auf die Zeilen und dann auf die Spalten oder umgekehrt mit gleichem Ergebnis angewendet werden kann. Daher wird im Folgenden ohne Beschränkung der Allgemeinheit der eindimensionale Fall betrachtet. Das Falten des Eingangssignales mit den Koeffizienten h_o und h₁ erzeugt zwei Ausgangsfolgen. Diese Ausgangsfolgen werden mit Faktor 2 dezimiert, d. h. es wird jeder zweite Wert verworfen. Da sich die beiden Ausgangsfolgen gegenseitig ergänzen, sorgt dieses Dezimieren nicht für einen Informationsverlust. Die Folge, die aus der Faltung mit den Skalierungskoeffizienten h0 entstanden ist, trägt dann die Komponenten mit niederer Frequenz, die aus der Faltung mit den Waveletkoeffizienten h1 entstandene die hoher Frequenz. Die aus der Faltung mit den Skalierungskoeffizienten entstandene Folge kann dann wiederum mit h_o und h₁ zerlegt werden. Die aus der Faltung mit den Waveletkoeffizienten erhaltene wird im Allgemeinen nicht weiter zerlegt. Dies wird in 2 veranschaulicht. In y_b ^(m) bezeichnen wir mit b das Band (tief oder hoch) und mit m die Anzahl von Faltungen, die das Signal durchlaufen hat. In 3, die eine ideale Passbandstruktur einer eindimensionalen Transformation mit drei Stufen (modifiziert nach Taubman und Marcellin [55]) zeigt, findet sich die ideale Frequenzzerlegung einer Transformation nach 3 Schritten. Die Benennung der Koeffizientenfolge erfolgt wie in 2.

i	h₀(i)	h₁(i)
0	0.6029490182363579	1.115087052456994
±1	0.2668641184428723	–0.5912717631142470
±2	–0.07822326652898785	–0.05754352622849957
±3	–0.01686411844287495	0.09127176311424948
±4	0.02674875741080976

Tabelle 1: Cohen, Daubechies, Feauveau [10] 9/7 Skalierungs- und Waveletkoeffizienten

i	h₀(i)	h₁(i)
0	6/8	1
±1	2/8	–1/2
±2	–1/8

Tabelle 2: Cohen, Daubechies, Feauveau [10] 5/3 Skalierungs- und Waveletkoeffizienten

Eine besondere Eigenschaft der Transformation ist, dass Wavelets Nulldurchschnitt haben, d. h.
und so gewählt werden können, dass auch
gilt. Dies bedeutet, dass der mit den Waveletkoeffizienten gefaltete Teil eines Eingabesignals unabhängig von der Charakteristik des Eingabesignals keine Information über den Mittelwert des Eingabesignals enthält. Die Skalierungskoeffizienten können so gewählt werden, dass
und
gilt, also das arithmetische Mittel der Ausgabefolge dem k-fachen des arithmetischen Mittels der Eingabefolge entspricht, sowohl im nichtdezimierten als auch im dezimierten Fall. Im Fall der im JPEG2000 verwendeten normierten Wavelets, deren Koeffizienten in den Tabellen 2 und 1 gezeigt werden, gilt k = 1, d. h. die Faltung des Eingabesignals mit den Skalierungskoeffizienten erhält den Mittelwert.
Dies bedeutet insbesondere, dass nach einer Transformation mit j Stufen die Information über den Mittelwert eines d dimensionalen Zahlen schemas der Größe n^d für n ≥ 2^j in etwa n^d/2^dj Werten vollständig und ausschliesslich enthalten ist. Dabei handelt es sich um genau die Werte, die nur durch Anwendung von Faltungen mit den Skalierungskoeffizienten entstanden sind, im folgenden LL-Band genannt, da nur Tiefpassfilter angewendet wurden. Entsprechend 3 für j Stufen wären das diejenigen im Bereich y₀ ^(j) [k]. Die Anzahl relevanter Werte nimmt also mit der Anzahl der Transformationsstufen exponentiell ab.
Die Wavelet-Transformation so wie oben definiert benötigt im Prinzip unendlich lange Ein- und Ausgabesignale. Bei der Anwendung auf Signale endlicher Länge wird an den Rändern das Signal gespiegelt, um die von der Transformation über den Rand hinaus notwendigen zusätzlichen Werte zu erhalten. Dies sorgt dafür, dass sich der Mittelwert geringfügig ändern kann. Wir bezeichnen diesen Effekt als Randeffekt.
Auch bei anderen in der Bildkompression üblichen Transformationen zur Frequenzanalyse wird die Anzahl der Werte, die betrachtet werden müssen, um den Mittelwert der Eingangsdaten zu bestimmen oder zwischen Hin- und Rücktransformation zu verändern, stark eingeschränkt. Im Falle der Fourier-Transformation und der daraus ableitbaren diskreten Kosinus-Transformation (DCT) befindet sich die Information über den Mittelwert in genau einem Koeffizienten der transformierten Darstellung. Wird die Transformation als Blocktransformation angewandt, d. h. auf mehrere unabhängige Blöcke eines Zahlenschemas, wird der Mittelwert für jeden Block in genau einem Koeffizienten berechnet. Der arithmetische Mittelwert der gesamten Eingangsdaten berechnet sich dann als arithmetischer Mittelwert der arithmetischen Mittelwerte der einzelnen Blöcke.
In der JPEG-Bildkompression wird die diskrete Kosinus-Transformation (DCT) dazu eingesetzt, für die Bild-Abtastungwerte den Raum-/Ortsbereich in den Frequenzbereich zu transformieren. Üblicherweise wird die Transformation auf einander nicht überlappende 8×8 Pixelblocks einzelner Bildkomponenten angewandt. Die mathematische Definition der DCT ist in der Fachwelt allgemein bekannt (vgl. z. B. C. Löffler, A. Ligtenberg, G. S. Moschytz, „Practical fast 1-D DCT algorithms with 11 multiplications", Proceedings of the International Conference an Acoustics, Speech, and Signal Processing, pages 988–991, 1989.). Die Leistungsfähigkeit lässt sich weiter dadurch steigern, dass bei modernen Prozessoren vorhandene Matrix-Erweiterungen verwendet werden, um einen Parallelbetrieb zu verwirklichen.
Für die Erfindung ist von Bedeutung, dass der bei Index (0,0) stehende Koeffizient, der so genannte „DC-Koeffizient", nach Anwendung einer zweidimensionalen DCT den arithmetischen Mittelwert eines Quellblocks beinhaltet, der gegebenenfalls mit einer Konstanten skaliert ist. Alle anderen (AC-)Koeffizienten korrespondieren mit Basisfunktionen, welche im Mittel den Wert 0 haben.
Weitere Einzelheiten, Merkmale, Merkmalskombinationen, Ausführungsformen, Vorteile und Wirkungen auf der Basis der Erfindung ergeben sich aus der nachfolgenden Beschreibung bevorzugter Ausführungsformen der Erfindung und aus den Abbildungen. Von diesen zeigen:
1 den durch die Farbkanäle Rot (r), Grün (g) und Blau (b) aufgespannten Farbraum,
2 die bei einer Wavelet-Transformation erfolgende, baumstrukturierte Zerlegung des Eingangssignals y_o ⁽⁰⁾ mit D-Schritten (nach Taubman und Marcellin [55]),
3 die ideale Passbandstruktur einer eindimensionalen Wavelet-Transformation mit drei Stufen (modifiziert nach Taubman und Marcellin [55]),
4 eine JPEG2000-Kompression mit Zerlegung eines Bildes in vier Teilbänder LL, HL, LH, HH,
5 die bei einer JPEG2000-Bildkompression erfolgende, fortgesetzte Zerlegung des Bildes rekursiv auf dem LL-Band (im gezeichneten Beispiel für fünf Ebenen)
6 einen erfindungsgemäß abgewandelten Kompressionszyklus für JPEG2000 in Blockschaltbildform,
7 ein Blockschaltbild für eine ideale Kodierungs- und Dekodierungspipeline,
8 in einem x/y-Diagramm die Gamma-Funktion, von der beim sRGB-Standard ausgegangen wird,
9 ein Blockschaltbild einer JPEG2000-Kodierungs- und Dekodierungspipeline,
10 ein Blockschaltbild für eine Farbkorrektur unter Anwendung der Grauen-Welt-Hypothese,
11 ein Blockschaltbild für die Anwendung des Retinex-Algorithmus mit anfänglicher Berechnung des Logarithmus,
12 in einem x/y-Diagramm ein Vergleich der Gamma-Funktion aus 8 mit der Näherungs-Funktion a log x + b,
13 ein Blockschaltbild für eine erfindungsgemäß integrierte JPEG2000/Farbkonstanzpipeline,
14 Zahlentabellen bzw. Matrizen zur Veranschaulichung der Transformation vom R'G'B'-Farbraum in den Y'C'_RC'_B-Farbraum am Beispiel eines digitalisierten Pixel-Bildes der Größe 8×8,
15 das Ergebnis nach der Anwendung der Wavelet-Transformation für den Kanal C'_R aus 14, wobei das LL-Band fettgedruckt ist,
16 den C'_R-Kanal, nachdem der Mittelwert vom LL-Band (fettgedruckt) subtrahiert wurde,
17 den C'_R-Kanal, nachdem der Mittelwert vom LL-Band subtrahiert wurde und die Wavelet-Transformation rückgängig gemacht wurde,
18 ein Blockschaltbild für einen JPEG-Bildkompressionszyklus auf der Basis einer diskreten Kosinustransformation (DCT) und
19 ein Blockschema für Mehrfachabtastungen bei der Anwendung von JPEG mit progressiver DCT-Kodierung.
Kompression eines Bildes in JPEG2000
Betrachten wir nun, wie bei der JPEG2000 Kompression das Bild transformiert wird. Im Grunde wird zuerst eine Transformation durchgeführt, bei der die Achsen des Farbraumes neu ausgerichtet werden. Danach wird eine zweidimensionale diskrete Wavelet-Transformation und ein Quantisierer angewandt [55, 1]. Der dabei entstehende Datenstrom wird mit einem Arithmetischen-Kodierer kodiert. Die zweidimensionale diskrete Wavelet-Transformation besitzt eine Baumstruktur wie in 4 dargestellt. Es wird eine zweidimensionale Sub-Band-Transformation zunächst auf das Ausgangsbild und dann rekursiv auf eine tiefpassgefilterte Version des Bildes angewandt. Das tiefpassgefilterte Bild (das LL-Band) befindet sich nach der Transformation in der linken oberen Ecke des Bildes. Ein Bild, das einen horizontalen Hochpass-Filter durchlaufen hat und einen vertikalen Tiefpass-Filter durchlaufen hat (HL-Band), befindet sich in der oberen rechten Ecke des transformierten Bildes. Ein Bild, das einen vertikalen Hochpass-Filter durchlaufen hat und einen horizontalen Tiefpass-Filter durchlaufen hat (LH-Band), befindet sich in der unteren linken Ecke des transformierten Bildes. Ein Bild, das einen horizontalen und vertikalen Hochpass-Filter durchlaufen hat, befindet sich in der unteren rechten Ecke (LH-Band). Diese Unterteilung des Bildes wird rekursiv für eine Anzahl von D Schritten durchgeführt. 5 zeigt eine Unterteilung des Bildes nach D = 5 Schritten.
Nach Anwendung dieser Transformation befindet sich ein stark tiefpassgefiltertes Bild in der linken oberen Ecke des Bildes. Wenn wir diesen Prozess solange fortsetzen würden, dass nur noch ein einziger Bildpunkt übrig bleibt, dann enthielte dieser Bildpunkt die durchschnittliche lokale Farbe des Bildes. Wenn wir die Rekursion vorher beenden, bevor wir bei einem einzelnen Bildpunkt angelangt sind, so enthält das stark tiefpassgefilterte Bild für jeden Bildpunkt die durchschnittliche lokale Farbe, der Bildpunkte, die durch diesen Bildpunkt zusammengefasst wurden. Wir sehen also, dass bei der JPEG2000 Kompression nebenbei die durchschnittliche lokale Farbe für Teilbereiche des Bildes berechnet wird. Um die durchschnittliche lokale Farbe des Bildes anzupassen, müssen also nur die Daten des LL-Bandes der höchsten Rekursionsstufe angepasst werden.
6 zeigt die Einbindung eines Algorithmus zur Farbkonstanz in die JPEG2000 Pipeline, wobei wir davon ausgehen, dass eine Farbraum-Transformation von R', G', B' nach Y', C'_R, C'_B stattfindet. Eine Anwendung ist sowohl im Enkoder als auch im Dekoder möglich. Gemäß 6 werden am Eingang des Enkoders von einer Bildsensorik erzeugte, noch nicht komprimierte Bilddaten, strukturiert in Pixel im Rahmen einer Eingangs-Bilddatei, zugeführt. Wie an sich aus der Computergrafik bekannt, liefert eine bildgebende Sensorik gewöhnlich die Farbbilder als Abtastwerte, welche die drei Komponenten Rot, Grün und Blau aufweisen und mit dem Pulscode-Modulationsverfahren (PCM) bearbeitet sind. Die Komponenten werden bei gleicher Raumfrequenz und Position abgetastet und gewöhnlich einer Gammakorrektur für Display-Zwecke auf Phosphor-basierten Bildschirmen wie TV oder auf Röhren-basierten Computermonitoren unterworfen. Die unmittelbar dem Enkoder-Eingang nachfolgende Vorverarbeitung der Bild-Eingangsdaten gemäß 6 kann insbesondere einen DC-Level-Shift umfassen, wobei der dynamisch berechnete Mittelwert der Farbkanäle nullgesetzt oder in Richtung Null verschoben wird, was zur Erreichung einer Farbkonstanz erheblich an Rechenaufwand einspart.
Im Enkoder lässt sich pro Kanal der (potentiell skalierte) arithmetische Mittelwert des Kanals als arithmetisches Mittel der Werte berechnen, die durch die Anwendung von Faltungen mit den Skalierungskoeffizienten entstanden sind. Dieser Mittelwert kann dann von diesen Koeffizienten (potentiell skaliert) subtrahiert werden, so dass der Mittelwert des gesamten Kanals zu Null wird. Auch eine prozentuale Verschiebung in Richtung Null ist möglich. Weiterhin kann eine Einschränkung auf Teile des Bildes geschehen, wenn nicht alle Koeffizienten gleichförmig geändert werden. Da nach dieser Anpassung die Koeffizienten im Allgemeinen verlustbehaftet gespeichert werden, ist es möglich, dass der veränderte Mittelwert bei der Dekompression nicht perfekt restauriert wird. Da die relevanten Koeffizienten allerdings die sind, die am wenigsten stark komprimiert werden, dürfte dieser Effekt in der Regel nur durch Berechnung aber nicht optisch wahrnehmbar sein.
Im Dekoder lässt sich vor der Anwendung der dualen Wavelet-Transformation der gleiche Algorithmus implementieren. Da die Wavelet-Rücktransformation den Mittelwert erhält, entsteht hier keine minimale Verschiebung mehr wie im Falle einer Implementierung im Enkoder.
Integration eines Farbkonstanzverfahrens in die JPEG2000 Verarbeitungspipeline
7 zeigt eine ideale Kodier-/Dekodierpipeline. Die Kodierung wird am besten in einem für die Wahrnehmung uniformen Farbraum durchgeführt [21]. Wir beginnen mit linearen RGB-Werten. Dann folgt eine Transformation des Farbraumes (P₁), Der Farbraum wird in einen für die Wahrnehmung linearen Farbraum transformiert, indem die dritte Wurzel angewandt wird [37]. Zusätzlich erfolgt nochmals eine Transformation des Farbraumes. Als Ergebnis erhalten wir den Lab-Farbraum. Dies ist ein für die Kodierung idealer Farbraum. Bei der Dekodierung werden diese Schritte rückgängig gemacht.
Damit die Farben auf einem Monitor korrekt dargestellt werden, wird eine Gamma-Korrektur eingesetzt. Zwischen den zu verarbeitenden Bilddaten c_i(x, y) und den gemessenen Daten des Sensors I_i(x, y) besteht dann folgende Beziehung ci = gamma(Ii) (33)wobei gamma(x) ≈ x^y und y = 1/2.2. 8 zeigt die Auswirkungen einer GammaKorrektur mit y = 1/2.2. Der sRGB Standard geht von einem Gamma-Faktor y = 2.2 aus [54, 50]. Beim sRGB Standard wird noch eine lineare Korrektur für sehr kleine Intensitäten verwendet. Die vollständige Transformation ist durch
gegeben.
Bei der JPEG2000 Kodierung wird von diesem Ideal leicht abgewichen. Die Anwendung der Wurzel-Funktion wird nach außen geschoben. Die JPEG2000 Kodier-/Dekodierpipeline ist in 9 dargestellt. Dadurch, dass die Wurzel-Funktion nach außen geschoben wird, löscht sie sich mit der Gamma-Korrektur aus und beide können entfernt werden. Im Ergebnis bleibt beim Durchlaufen der Pipeline ein kleiner von 1 verschiedener Gamma-Faktor übrig [50]. Als erstes erfolgt bei dieser Pipeline eine Gamma-Korrektur, dann eine Farbraum-Transformation, dann die Kodierung inkl. Wavelet-Transformation, Dekodierung inkl. inverser Wavelet-Transformation und schließlich die inverse Farbraum-Transformation bevor die Daten auf einem Monitor dargestellt werden.
Die Farbraum-Transformation ist durch Y' = 0.299R' + 0.587G' + 0.114B' C'R = 0.713(R' – Y') C' = 0.564(B' – Y') (35)gegeben, die sich auch als
formulieren lässt. Eine Transformation nach diesem Schema ist im Allgemeinen nicht perfekt umkehrbar, daher wird beispielsweise im verlustfreien Modus von JPEG2000 Gleichung 35 durch Gleichung 36 angenähert.
Die Anwendung dieser Transformation ist optional [1]. In der Praxis wird sie aber durchgängig verwendet. Dieser Farbraum besteht aus einem Helligkeitskanal Y' und zwei Farbkanälen C'_BC'_R. Die Helligkeit Y' wird anhand nicht-linearer RGB Signale berechnet [50]. Dieser Kanal ist nicht gleichbedeutend mit der Luminanz des Bildpunktes und wird daher als Luma bezeichnet. Die beiden Farbsignale C'_B und C'_R werden ebenfalls aus nicht-linearen Daten berechnet. Wenn wir hier also die durchschnittliche lokale Farbe berechnen, erhalten wir die durchschnittliche lokale Farbe im Y'C'_BC'_R-Farbraum.
Für das erfindungsgemäße Verfahren der Implementierung von Farbkonstanz als Seiteneffekt einer Bildkompression ist die Anwendung einer Farbraum-Transformation, welche die Komponenten in einen Luminanzteil und eine Mehrzahl von Farb-Differenzteile (nicht notwendig 2) unterteilt, nicht zwingend, aber zweckmäßig; denn die Anzahl der zusätzlich verwendeten Rechen- bzw. Verarbeitungsoperationen wird reduziert. Ferner ist es optional, dass die Farb-Differenzteile oder -Kanäle nicht vollständig abgetastet, sondern einem Subsampling unterworfen werden.
Bisher sind wir davon ausgegangen, lineare Daten zu verarbeiten, d. h. ci = Ii. (37)
Um die Graue-Welt-Hypothese zu verwenden, die von einem linearen Farbraum ausgeht, müssten wir eigentlich zuerst eine eventuelle Gamma-Korrektur rückgängig machen. Dann würden wir die durchschnittliche lokale Farbe berechnen, jeden Farbkanal durch den berechneten Mittelwert dividieren und dann wieder die Gamma-Korrektur anwenden, um die Daten darzustellen. Dies ist in 10 dargestellt.
Wenn wir den Retinex-Algorithmus verwenden würden, dann würden wir zuerst den Logarithmus berechnen, dann die durchschnittliche lokale Farbe berechnen und dann die durchschnittliche lokale Farbe von jedem Farbkanal subtrahieren. Dies ist in 11 dargestellt. Da zuvor der Logarithmus angewandt wurde, wird aus der Subtraktion eine Division. Als Ergebnis erhalten wir die Log-Reflektanzen p_i mit i ∈ {r, g, b}. Damit wir das Ergebnis darstellen können, müssen wir die Anwendung des Logarithmus rückgängig machen und eine Gamma-Korrektur anwenden. Übrigens ist es unerheblich, mit welcher Gamma-Korrektur die Eingangsdaten vor der Verarbeitung korrigiert wurden. Sobald der Logarithmus angewandt wird, wird aus dem Gamma-Exponenten ein konstanter Faktor, der das Ergebnis lediglich skaliert.
Betrachten wir nun 12. Hier ist neben der Funktion für die Gamma-Korrektur auch die Funktion a log x + b mit a = 59.75 und b = –96.275 dargestellt. Die beiden Parameter a und b wurden so gewählt, dass sich beide Funktionen sehr ähnlich sind. Die beiden Funktionen sind zwar nicht identisch aber dennoch sehr ähnlich. Wyszecki und Stiles [58] bemerken ebenfalls die Ähnlichkeit zwischen einer logarithmischen Funktion und dem Potenzgesetz. Wir können also die Gamma-Korrektur auch als Näherung der Logarithmus-Funktion auffassen.
Das erfindungsgemäße Verfahren ist in 13 gezeigt. Hier wird zunächst eine Farbraum-Transformation vorgenommen. Diese Transformation bewirkt eine Neuausrichtung des Koordinatensystems, so dass Y' (Luma) die Helligkeit eines Bildpunktes beschreibt, und die beiden Komponenten C'_B and C'_R die Farbe des Bildpunktes beschreiben. Wenn wir die Verteilung der Bildpunkte eines Bildes, das unter einer weißen Lichtquelle aufgenommen wurde, betrachten, dann sind die Bildpunkte unter der Annahme der Graue-Welt-Hypothese um einen Punkt verteilt, der auf der Helligkeitsachse liegt. Wenn wir eine Lichtquelle verwenden, die nicht weiß ist, dann ist diese Verteilung ausgelenkt. Der Mittelwert ist nicht mehr grau, sondern farbig. Durch eine Farbverschiebung können wir dies wieder herstellen, hierzu subtrahieren wir die durchschnittliche lokale Farbe der Bildpunkte.
Wenn wir zuvor eine Farbraum-Transformation durchgeführt haben, reicht es aus, nur die beiden Farbkanäle C'_B und C'_R anzupassen. Der Helligkeitskanal bleibt dann unverändert. Falls wir die Helligkeit anpassen möchten, könnten wir auch diesen Kanal anpassen. Für eine Farbkorrektur subtrahieren wir die durchschnittliche lokale Farbe von den beiden Kanälen C'_B und C'_R. Falls die Wavelet-Transformation bis zur maximalen Rekursionsstufe berechnet wurde, d. h. die durchschnittliche Farbe der Kanäle C'_B und C'_R in nur je einem Koeffizienten vorliegt, so reicht es aus, diesen auf Null zu setzen. Anstatt diesen auf Null zu setzen, können die beiden Koeffizienten auch in Richtung Null verschoben werden. Die Stärke der Verschiebung könnte durch den Anwender bzw. den Betrachter des Bildes eingestellt werden.
Die Anpassung der durchschnittlichen lokalen Farbe des Bildes durch Änderung der Koeffizienten könnte bereits bei der Kodierung des Bildes erfolgen. In diesem Fall ist das Bild aber nicht mehr in seiner ursprünglichen Form nach der Dekodierung zu betrachten. Damit keine Information verloren geht, müssten die Korrekturwerte in den Meta-Informationen des Bildes abgelegt werden, damit die Farbkorrektur wieder rückgängig gemacht werden kann. Es bietet sich an, die Farbkorrektur erst bei der Dekodierung des Bildes optional durchzuführen. In diesem Fall kann bei Bedarf auch das Originalbild dekodiert werden.
Nach der Dekodierung, d. h. nachdem das Bild in den RGB-Farbraum zurücktransformiert wurde, erhalten wir einen näherungsweise farbkonstanten Deskriptor p'_i p'i = k1 log (Ri) + k2 (39) für zwei Konstanten k₁ und k₂. Um nun die Reflektanz zu erhalten, müssen wir noch die Anwendung des Logarithmus rückgängig machen
wobei
Nun haben wir wieder lineare RGB-Werte. Falls wir das Bild nun über einen Monitor, dessen Farbwiedergabe nichtlinear ist, wiedergeben wollen, oder falls wir die Daten anband des sRGB Standards speichern wollen, müssen wir nun noch eine Gamma-Korrektur anwenden.
Wir hatten bereits oben gesehen, dass wir die Anwendung der Gamma-Korrektur mit einem Gamma-Faktor von 1/2.2 durch a log (x) + b approximieren können. Wir können die Gamma Korrektur mit dem Faktor 2.2 durch
approximieren. Wenn wir diese Approximation verwenden, können wir beide Operationen, die Exponentiation und die Gamma-Korrektur für die Wiedergabe aus der Pipeline herausnehmen. Es ergibt sich dann die in 13 gezeigte Pipeline.
Wir haben die JasPer Software [2] so modifiziert, dass der durchschnittliche Wert der LL_o-Koeffizienten der C'_B und C'_R Bänder auf Wunsch des Anwenders auf Null gesetzt werden kann.
Die aufgrund der Kompressionstransformation entstandenen Koeffizienten können nach einer Anpassung der Koeffizienten bzw. unter Vernachlässigung der Koeffizienten, die durch die Beleuchtung verändert werden können, zur Objekterkennung eingesetzt werden. Zur Objekterkennung bieten sich speziell einfache, auf Histogrammvergleich basierenden Verfahren wie sie z. B. von Swain und Ballard [60], oder Schiele und Crowley [61, 62] beschrieben werden, aber auch Lernverfahren wie z. B. Support Vector Maschinen [63] zur Klassifizierung an.
Im Folgenden gehen wir davon aus, dass wir eine JPEG2000 Kompressions-Transformation anwenden und dabei eine Farbkorrektur vornehmen. Die nicht-linearen R'G'B'-Werte seien wie in 14 dargestellt. Zunächst werden diese in den Y'C'_RC'_B-Farbraum transformiert.
Wir betrachten exemplarisch nur den C'_R-Kanal. Das Vorgehen für den C'_B-Kanal ist analog. Der C'_R Kanal wird mit Hilfe einer Wavelet-Transformation (hier der 5/3 Filter aus JPEG2000) mit 2 Stufen transformiert, das Ergebnis ist in 15 zu sehen. Das LL-Band ist fett gedruckt.
Wenn wir den Mittelwert des LL-Bandes berechnen, erhalten wir 47.809. Der Mittelwert des C'_R-Bandes aus 14 ist 44.172. Die Abweichung zwischen beiden Werten entsteht durch Randeffekte bei der Wavelet-Transformation. Für größere Bilder ist dieser Effekt im Allgemeinen weniger deutlich zu sehen. Der C'_R Kanal wird angepasst, indem der berechnete Mittelwert von den Koeffizienten im LL-Band subtrahiert wird. Das Ergebnis ist in 16 dargestellt.
Bei der Dekodierung, d. h. nach der Anwendung der inversen Wavelet-Transformation, erhalten wir die in 17 dargestellten Werte. Der Mittelwert im rekonstruierten C'_R Band ist –3.637. Bis auf Randeffekte ist der Mittelwert also annähernd Null.
Zusammenfassend lässt sich feststellen, dass das erfindungsgemäße Verfahren eine Korrektur zur Farbkonstanz in eine Kompressions-/Dekompressionspipeline integriert, wie am Beispiel oben anhand der JPEG2000-Kompressions-/Dekompressionspipeline gezeigt. Dabei wird die durchschnittliche lokale Farbe der Bildpunkte als Schätzwert der Farbe der Beleuchtung durch die externen Fremdlichtquellen aufgefasst. Bei JPEG2000 liegt nach der Wavelet-Transformation die durchschnittliche lokale Farbe im tiefpassgefilterten Bild der maximalen Rekursionsstufe vor. Es reicht aus, diese Koeffizienten anzupassen, um eine Farbkorrektur des Digitalbildes vorzunehmen.
Das Verfahren kann entweder bereits bei der Kodierung eingesetzt werden oder erst bei der Dekodierung. Letztere Variante hat den Vorteil, dass dann auch noch das Bild in seiner ursprünglichen Form dekodiert werden kann.
Im Rahmen der Erfindung lässt sich über die Anwendung der Grauen-Welt-Hypothese Farbkonstanz auch in einem JPEG-Kompressionsprozess einführen. Die Erfindung kann sowohl auf die sequentielle DCT-Bearbeitung als auch auf die progressive DCT-Bearbeitung von Farbbildern mittels JPEG Anwendung finden. In beiden Fällen ist eine Zwischenkanal-Komponenten-Farbraum-Transformation zweckmäßig. Subsampling ist dabei möglich. Wie an sich bekannt, sind über JPEG Bilder dadurch kodiert, dass sie in 8×8 Pixel-Blocks zerlegt werden, die einer Raster-Abtastung von links nach rechts und von oben nach unten unterworfen werden. Gemäß dem in 18 gezeigten JPEG-Bildkompressionszyklus wird ein Sub- bzw. Downsampling und ein inverses bzw. komplementäres Upsampling (optional) auf die Chrominanz-Kanäle angewandt. Gemäß 18 werden nach der Zwischenkanal-Komponententransformation und nach dem Sub- bzw. Downsampling die Kanäle einem DC-Level-Shift unterzogen, wobei signierte Abtastwerte erzeugt werden. Der DC-Level-Shift ergibt ein Setzen bzw. Verschieben des jeweiligen Mittelwerts der Kanäle auf bzw. in Richtung Null, um das Erreichen der Farbkonstanz zu fördern und gleichzeitig beträchtlichen Rechenaufwand einzusparen. Die Vorhersage des Gleich- bzw. DC-Anteils als Bestandteil der Entropie-Kodierung ist in 18 nicht separat dargestellt.
Gemäß einer Erfindungsausbildung kann der Encoder die erforderlichen arithmetischen Durchschnittswerte in einen Kommentarbereich speichern, welcher dann im Codestrom vor den einer Entropiekodierung unterworfenen Kanälen erscheint. Dadurch lässt sich die Anzahl der zur Anwendung eines Farbkonstanz-Algorithmus notwendigen Befehle um den Faktor 64 (ohne Subsampling) bis 256 (Farbraumtransformation und Subsampling der Chrominanz-Kanäle in beiden Richtungen) reduzieren, weil anstelle einer Mehrfach-Adressierung jedes Pixels lediglich jeder DC-Koeffizient (ohne Farbraumtransformation) oder jeder DC-Koeffizient in den Chrominanz-Bändern (Farbraumtransformation eingesetzt) durch Subtraktion des gespeicherten Durchschnitts angepasst werden muss.
Gemäß einer auf JPEG basierenden Erfindungsausbildung wird über den Dekoder die Anwendung aller Stufen bis zur Dequantisierung für die Chrominanz-Kanäle verzögert, bis alle transformierten Abtastwerte in ihnen rückgespeichert sind. Dann kann der arithmetische Durchschnitt aller DC-Koeffizienten der Chrominanz-Kanäle um berechnete Durchschnitte reduziert werden und das Bild lässt sich vollständig dekodieren. Dadurch wird für die Anzahl der notwendigen Operationen eine Reduktion um den Faktor 64 (ohne Subsampling bei den Chrominanz-Kanälen) bis 256 (Subsampling bei den Chrominanz-Kanälen in beiden Richtungen) erzielt.
Gemäß einer Erfindungsausbildung findet eine Verzögerung des Decoders nicht statt, sondern nach der Dequantisierung werden alle Stufen erneut angewandt (wenn eine Farbraum-Transformation angewandt wurde, nur für die Chrominanz-Kanäle), sobald das Bild vollständig dekodiert ist. Die DC-Koeffizienten der erforderlichen Transformationsdaten der Kanäle können adäquat modifiziert werden. Hierbei erhält man zunächst das dekodierte Bild ohne Anwendung eines Farbkonstanzalgorithmus, und dann das gemäß letzterem korrigierte Bild.
Beim progressiven Kodieren im Rahmen von DCT-basiertem JPEG werden die Digitalbilder in mehreren Durchläufen über die quantifizierten Koeffizienten kodiert, welche durch die diskrete Kosinustransformation der Bildblöcke produziert worden sind. Der erste Durchlauf liefert stets entweder vollständig die DC-Koeffizienten jedes Blocks oder eine Näherung des DC-Koeffizienten jedes Blocks über einige der höchstwertigsten Bits. Die folgenden Durchläufe können entweder DC- oder AC(Wechselanteil)-Durchläufe sein, wobei anzunehmen ist, dass für normale Qualitätsansprüche der letzte Durchlauf ein Wechselanteil (AC)-Durchlauf ist, wie in 19 gezeigt. Demnach enthält der erste Durchlauf Information über die DC-Koeffizienten. Die folgenden Stufen können entweder die DC-Koeffizienten weiter verfeinern oder Informationen über die AC-Koeffizienten ergeben. Mithin arbeitet dieses Schema für progressives JPEG ohne Nachteile, wenn die letzte kodierte Abtastung keine DC-Information enthält. Wird eine Farbraum-Transformation angewandt, ist es ausreichend, dass die letzte Abtastung keine DC-Information für Chrominanz-Kanäle enthält. Solchenfalls lässt sich der arithmetische Durchschnitt der erforderlichen DC-Koeffizienten während des letzten DC-Durchlaufs berechnen und dann von den entsprechenden DC-Koeffizienten subtrahieren, bevor die inverse diskrete Kosinustransformation in den nachfolgenden Durchläufen erfolgt. Dies bedeutet, dass die endgültige Ausgabe der Vorgabe gemäß der Graue-Welt-Hypothese entspricht. Die früheren Durchläufe bleiben unkorrigiert, sind aber relevant für das progressive Dekodieren, weil sie näherungsweise Vorausschau über das Bild ergeben.
Ist gemäß einer Erfindungsausbildung mit mehr als einem Durchlauf der letzte Durchlauf ein DC-Durchlauf, lassen sich die arithmetischen Mittelwerte der erforderlichen DC-Koeffizienten während vorausgehender Durchläufe berechnen. Die erhaltenen Werte stellen eine Näherung dar, aber es kann erwartet werden, dass sie von ausreichend guter Qualität sind.
Das erfindungsgemäße Verfahren wurde am Beispiel von Einzelbildern beschrieben. Für den Fachmann ist klar, dass das Verfahren in analoger Weise auch auf eine Bildsequenz angewandt werden kann.
Referenz-Liste:

[1] Michael D. Adams. The jpeg-2000 still image compression standard. ISO/IEC JTC I/SC 29/WG 1, N 2412,2002.
[2] Michael D. Adams. Jasper software reference manual (version 1.700.0). ISO/IEC JTC I/SC 29/WG 1, N 2415, 2003.
[3] Kobus Bamard, Florian Ciurea, and Brian Funt. Sensor sharpening for computational color constancy. Journal of the Optical Society of America A, 18(11): 2728–2743, November 2001.
[4] Kobus Bamard, Graham Finlayson, and Brian Funt. Color constancy for scenes with varying illumination. Computer Vision and Image Understanding, 65(2): 311–321, February 1997.
[5] Kobus Bamard, Lindsay Martin, and Brian Funt. Colour by correlation in a three dimensional colour space. In David Vernon, editor, Proceedings of the 6th European Conference on Computer Vision, Dublin, Ireland, pages 375–389, Berlin, 2000. Springer-Verlag.
[6] Andrew Blake. Boundary conditions for lightness computation in mondrian world. Computer Vision, Graphics, and Image Processing, 32: 314–327, 1985.
[7] David H. Brainard and Brian A. Wandel1. Analysis of the retinex theory of color vision. In Glenn E. Healey, Steven A. Shafer, and Lawrence B. Wolff, editors, Color, pages 208–218, Boston, 1992. Jones and Bartlett Publishers.
[8] G. Buchsbaum. A spatial processor model for object colour perception. Journal of the Franklin Institute, 310(1): 337–350, July 1980.
[9] Vlad C. Cardei and Brian Funt. Committee-based color constancy. In Proceedings of the IS&T/SID Seventh Color Imaging Conference: Color Science, Systems and Applications, Scottsdale, Arizona, pages 311–313, 1999.
[10] A. Cohen, 1. Daubechies, and J. C. Feauveau. Biorthogonal bases of compactly supported wavelets. Comm. Pure Appl. Math., 45(5): 485–560, 1992.
[11] Susan M. Courtney, Leif H. Finkel, and Gershon Buchsbaum. A multistage neural network for color constancy and color induction. IEEE Transactions on Neural Networks, 6(4): 972–985, July 1995.
[12] P. A. Dufort and C. J. Lumsden. Color categorization and color constancy in a neural network model of V4. Biological Cybernetics, 65: 293–303, 1991.
[13] M. D'Zmura and P. Lennie. Mechanisms of color constancy. In Glenn E. Healey, Steven A. Shafer, and Lawrence B. Wolff, editors, Color, pages 224–234, Boston, 1992. Jones and Bartlett Publishers.
[14] Marc Ebner. Evolving color constancy for an artificial retina. In Julian Miller, Marco Tomassini, Pier Luca Lanzi, Conor Ryan, Andrea G. B. Tettamanzi, and William B. Langdon, editors, Genetic Programming: Proceedings of the Fourth European Conference, EuroGP 2001, Lake Como, Italy, April 18–20, pages 11–22, Berlin, 2001. Springer-Verlag.
[15] Marc Ebner. Combining white-patch retinex and the gray world assumption to achieve color constancy for multiple illuminants. In Bernd Michaelis and Gerald Krell, editors, Pattern Recognition, Proceedings of the 25th DAGM Symposium, Magdeburg, Germany, pages 60–67, Berlin, 2003. Springer-Verlag.
[16] Marc Ebner. Verfahren und Vorrichtung zur Farbkorrektur von Bildern.
Deutsche Patentanmeldung, 18 Seiten, 6. Oktober, DE 10346348 A1 , 2003.
[17] Marc Ebner. Color constancy using local color shifts. In Tomas Pajdla and Jili Matas, editors, Proceedings of the 8th European Conference an Computer Vision, Part III, Prague, Czech Republic, May, 2004, pages 276–287, Berlin, 2004. Springer-Verlag.
[18] Marc Ebner. A parallel algorithm for color constancy. Journal of Parallel and Distributed Computing, 64(1): 79–88, 2004.
[19] Marc Ebner. Verfahren und Vorrichtung zur Farbkorrektur von Bildern mit nicht-linearen Beleuchtungsänderungen. Deutsche Patentanmeldung, 28 Seiten, 4. Juni, DE 10 2004 027 471 A1 , 2004.
[20] Marc Ebner and Christan Herrmann. On determining the color of the illuminant using the dichromatic reflection model. In Walter Kropatsch, Robert Sablatnig, and Allan Hanbury, editors, Pattern Recognition, Proceedings of the 27th DAGM Symposium, Vienna, Austria, pages 1–8, Berlin, 2005. Springer-Verlag.
[21] Olivier D. Faugeras. Digital color image processing within the framework of a human visual model. IEEE Transactions on Acoustics, Speech, and Signal Processing, ASSP-27(4): 380–393, 1979.
[22] G. D. Finlayson. Color in perspective. IEEE Transactions on Pattern Analysis and Machine Intelligence, 18(10): 1034–1038, October 1996.
[23] Graham D. Finlayson, Mark S. Drew, and Brian V. Funt. Color constancy: generalized diagonal transforms suffice. Journal of the Optical Society of America A, 11(11): 3011–3019, November 1994.
[24] Graham D. Finlayson, Mark S. Drew, and Brian V. Funt. Spectral sharpening: sensor transformations for improved color constancy. Journal of the Optical Society of America A, 11(4): 15531563, April 1994.
[25] Graham D. Finlayson, Mark S. Drew, and Cheng Lu. Intrinsic images by entropy minimization. In Tomas Pajdla and Jiii Matas, editors, Proceedings of the 8th European Conference on Computer Vision, Part III, Prague, Czech Republic, May, 2004, pages 582–595, Berlin, 2004. Springer-Verlag.
[26] Graham D. Finlayson and B. V. Funt. Coefficient channels: Derivation and relationship to other theoretical studies. COLOR research and application, 21(2): 87–96, April 1996.
[27] Graham D. Finlayson, Paul M. Hubei, and Steven Hordley. Color by correlation. In Proceedings of IS&T/SID. The Fifth Color Imaging Conference: Color Science, Systems, and Applications, Nov 17–20, The Radisson Resort, Scottsdale, AZ, pages 6–11, 1997.
[28] Graham D. Finlayson and Gerald Schaefer. Solving for colour constancy using a constrained dichromatic reflection model. International Journal of Computer Vision, 42(3): 127–144,2001.
[29] Graham D. Finlayson, Bernt Schiele, and James L. Crowley.
Comprehensive colour Image normalization. In Hans Burkhardt and Bernd Neumann, editors, Fifth European Conference an Computer Vision (ECCV '98), Freiburg, Germany, pages 475–490, Berlin, 1998. SpringerVerlag.
[30] D. A. Forsyth. A novel approach to colour constancy. In Second International Conference an Computer Vision (Tampa, FL, Dec. 5–8), pages 9–18. IEEE Press, 1988.
[31] D. A. Forsyth. A novel algorithm for color constancy. In Glenn E. Healey, Steven A. Shafer, and Lawrence B. Wolff, editors, Color, pages 241–271, Boston, 1992. Jones and Bartlett Publishers.
[32] Brian Funt, Kobus Barnard, and Lindsay Martin. Is machine colour constancy good enough? In Hans Burkhardt and Bernd Neumann, editors, Fifth European Conference an Computer Vision (ECCV'98), Freiburg, Germany, pages 445–459, Berlin, 1998. Springer-Verlag.
[33] Brian Funt, Vlad Cardei, and Kobus Barnard. Learning color constancy. In Proceedings of the IS&T/SID Fourth Color Imaging Conference, pages 58–60, Scottsdale, 19–22 November 1996.
[34] Brian V. Funt and Mark S. Drew. Color constancy computation in nearmondrian scenes using a finite dimensional linear model. In R. Jain and L. Davis, editors, Proceedings of the Computer Society Conference an Computer Vision and Pattern Recognition, Ann Arbor, MI, pages 544549. Computer Society Press, 5–9 June 1988.
[35] Brian V. Funt, Mark S. Drew, and Jian Ho. Color constancy from mutual reflection. International Journal of Computer Vision, 6(1): 5–24, 1991.
[36] Ron Gershon, Allan D. Jepson, and John K. Tsotsos. From [R,G,B] to surface reflectance: Computing color constant descriptors in images. In John P. McDermott, editor, Proceedings of the Tenth International Joint Conference on Artificial Intelligence, Milan, Italy, volume 2, pages 755–758. Morgan Kaufmann, 1987.
[37] L. G. Glasser, A. H. McKinney, C. D. Reilly, and P. D. Schnelle. Cube-root color coordinate system. Journal ofthe Optical Society of America, 48(10): 736–740, October 1958.
[38] J. Herault. A model of colour processing in the retina of vertebrates: From photoreceptors to colour opposition and colour constancy phenomena. Neurocomputing, 12: 113–129, 1996.
[39] Jian Ho, Brian V. Funt, and Mark S. Drew. Separating a color signal into illumination and surface reflectance components: Theory and applications. In Glenn E. Healey, Steven A. Shafer, and Lawrence B. Wolff, editors, Color, pages 272–283, Boston, 1992. Jones and Bartlett Publishers.
[40] Berthold K. P. Horn. Determining lightness from an image. Computer Graphics and Image Processing, 3: 277–299, 1974.
[41] Berthold Klaus Paul Horn. Robot Vision. The MIT Press, Cambridge, Massachusetts, 1986.
[42] Anya Hurlbert. Formal connections between lightness algorithms. J. Opt. Soc. Am. A., 3(10): 1684–1693, October 1986.
[43] Edwin H. Land. An alternative technique for the computation of the designator in the retinex theory of color vision. Proc. Natl. Acad. Sei. USA, 83: 3078–3080, May 1986.
[44] Edwin H. Land and John J. McCann. Lightness and retinex theory. Journal of the Optical Society of America, 61(1): 1–11, January 1974.
[45] Laurence T. Maloney and Brian A. Wandell. Color constancy: a method for recovering surface spectral reflectance. Journal of the Optical Society of America A, 3(1): 29–33, January 1986.
[46] Andrew Moore, John Allman, and Rodney M. Goodman. A real-time neural system for color constancy. IEEE Transactions on Neural Networks, 2(2): 237–247, March 1991.
[47] Carol L. Novak and Steven A. Shafer. Supervised color constancy for machine vision. In Glenn E. Healey, Steven A. Shafer, and Lawrence B. Wolff, editors, Color, pages 284–299, Boston, 1992. Jones and Bartlett Publishers.
[48] James R. Parker. Algorithms for Image Processing and Computer Vision. John Wiley & Sons, Inc., New York, 1997.
[49] D. Paulus, L. Csink, and H. Niemann. Color cluster rotation. In Proceedings of the International Conference on Image Processing (ICIP), pages 161–165. IEEE Computer Society Press, 1998.
[50] Charles Poynton. Digital Video and HDTV. Algorithms and Interfaces. Morgan Kaufmann Publishers, San Francisco, CA, 2003.
[51] Zia-ur Rahman, Daniel J. Jobson, and Glenn A. Woodell. Method of improving a digital image. United States Patent No. 5,991,456 , November 1999.
[52] Valery J. Risson. Determination of an illuminant of digital color image by segmentation and filtering. United States Patent Application, Pub. No. US 2003/0095704 A1 , May 2003.
[53] Thomas G. Stockham, Jr. Image processing in the context of a visual model. Proceedings of the IEEE, 60(7): 828–842, July 1972.
[54] Michael Stokes, Matthew Anderson, Srinivasan Chandrasekar, and Ricardo Motta. A standard default color space for the internet – sRGB. Technical report, Version 1.10, 1996.
[55] David S. Taubman and Michael W. Marcellin. IPEG2000. Image Compression Fundamentals, Standards and Practice. Kluwer Academic Publishers, Norwell, Massachusetts, 2002.
[56] Shoji Tominaga. Surface identification using the dichromatic reflection model. IEEE Transactions on Pattern Analysis and Machine Intelligence, 13(7): 658–670, July 1991.
[57] Shiro Usui and Shigeki Nakauchi. A neurocomputational model for colour constancy. In Christine Dickinson, Ian Murray, and David Carden, editors, John Dalton 's Colour Vision Legacy. Selected Proceedings of the International Conference, pages 475–482, London, 1997. Taylor & Frands.
[58] Günther Wyszecki and W. S. Stiles. Color Science. Concepts and Methods, Quantitative Data and Formulae. John Wiley & Sons, Inc., New York, second edition, 2000.
[59] Semir Zeki. AVision ofthe Brain. Blackwell Science, Oxford, 1993.
[60] M. J. Swain and D. H. Ballard. Color Indexing. International JournaL of Computer Vision, 7, pp. 11–32, Kluwer Academic Publishers, 1991.
[61] B. Schiele and J. L. Crowley. Object Recognition Using Multidimensional Receptive Field Histograms. In B. Buxton and R. Cipolla, editors, Fourth European Conference On Computer Vision, Cambridge, UK, April 14–18, pp. 610–619, Springer-Verlag, Berlin, 1996
[62] B. Schiele and J. OL. Crowley. Recognition without Correspondence using Multidimensional Receptive Field Histograms. International Journal of Computer Vision, 36, no. 1, pp. 31–52, Kluwer Academic Publishers, 2000
[63] N. Christianini and J. Shawe-Taylor. An Introduction to Support Vector Machines and other kernel-based learning methods, Cambridge University Press, 2000
[64] G. D. Finlayson, M. S. Drew, and B. V. Funt. "Spectral sharpening: sensor transformations for improved color constancy", Journal of the optical society of america A, vol. 11, no. 4, pp. 1553–1563, Apr. 1994.
[65] G. B. Finlayson, M. S. Drew, B. V. Funt. "Color constancy: generalized diagonal transforms suffice", Journal of the optical society of america A, vol. 11, no. 11, pp. 3011–3019, Nov. 1994
[66] G. D. Finlayson and B. V. Funt, "Coefficient channels: Derivation and relationship to other theoretical studies", COLOR research and application, vol. 21, no. 2, pp. 87–96, Apr. 1996
[67] K. Barnard, F. Ciurea, and B. Funt, "Sensor sharpening for computational color constancy", Journal of the optical society of america A, vol. 18, no. 11, pp. 2728–2743, Nov. 2001

Claims

Elektronisches Verfahren zur Übertragung und/oder Speicherung eines Digitalbildes oder einer Bildsequenz mit einer Unterteilung in Pixel, die jeweils unterschiedliche individuelle Helligkeits- und/oder Farb-Werte (R, G, B; Y, CB, CR) aufweisen, und im Rahmen einer Bildkompression und/oder Bild-Dekompression einer Transformation beziehungsweise Rück- oder inversen Transformation unterzogen werden, wobei Transformations-Koeffizienten entstehen, und nach der Kompression und gegebenenfalls vor der Dekompression das Digitalbild übertragen und/oder abgespeichert wird, wobei einer, mehrere oder alle diese Koeffizienten und/oder ein Dekodierstrom über diese Koeffizienten zu einer vorbestimmten Helligkeits- und/oder Farbverstellung des Digitalbildes verändert werden, dadurch gekennzeichnet, dass die Änderung der Koeffizienten entweder vor einer inversen Einzelkanal-Transformation oder nach einer Vorwärts-Einzelkanal-Transformation erfolgt.
Verfahren nach Anspruch 1, wobei das Digitalbild beziehungsweise die Pixel aus einer mit einer oder mehreren Fremdlichtquellen beleuchteten Bildvorlage mittels bildgebender Sensorik erzeugt sind, gekennzeichnet durch eine Veränderung der Koeffizienten derart, dass eine Korrektur zur Farbkonstanz beziehungsweise Farbtreue gegenüber der Bildvorlage erzielt wird.
Verfahren nach Anspruch 2, gekennzeichnet durch eine Schärfung der Sensoren im Sinne einer Erhöhung von deren Schmalbandigkeit.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die Farb- und/oder Helligkeitswerte (R, G, B; Y, CB, CR) der Pixel Farbkanälen dreier Grundfarben (R, G, B) und/oder Farbdifferenz- beziehungsweise Chrominanzkanälen (CR, CB) zugeordnet werden, die mit einem Helligkeits- beziehungsweise Luminanzkanal (Y) korrespondieren.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die Transformation als Intrakanal-Komponententransformation ausgeführt ist, bei der nur die einem Kanal gemeinsam Komponenten beziehungsweise Farb- und/oder Helligkeitswerte transformiert oder verarbeitet werden.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass vor der Transformation zur Kompression und/oder nach der Transformation zur Dekompression eine Zwischenkanal-Komponententransformation, insbesondere Farbraum-Transformation erfolgt, beispielsweise zwischen dem RGB-Farbraum (R, G, B) und dem Luminanz/Chrominanz-Farbraum (Y, CR, CB), bei der die Komponenten unterschiedlicher Kanäle ganz oder teilweise miteinander rechnerisch verknüpft transformiert oder verarbeitet werden.
Verfahren nach Anspruch 6 und 4 oder 5, wobei eine Farbraum-Transformation in den Luminanz/Chrominanz-Farbraum (Y, CR, CB) für eine nachfolgende Kompressionskodierung durchgeführt wird, dadurch gekennzeichnet, dass zur Farbverstellung nur die den Chrominanzkanälen (Cr, CB) zugeordneten oder zugehörigen Koeffizienten, und/oder zur Helligkeitsverstellung nur die dem Luminanzkanal (Y) zugeordneten oder zugehörigen Koeffizienten geändert oder angepasst werden.
Verfahren nach Anspruch 6 oder 7, gekennzeichnet durch einen Vorverarbeitungsschritt, der einer Farbraum-Transformation oder sonstigen Zwischenkanal-Komponententransformation vorausgeht und das Setzen beziehungsweise Verschieben eines Kanalwert-Mittelwerts auf beziehungsweise in Richtung Null umfasst.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass ein oder mehrere Koeffizienten ausgewählt, und diese einem Mittelwert angenähert oder in Richtung auf diesen verschoben werden, welcher vorzugsweise der an sich bekannten „Graue-Welt-Hypothese" entspricht.
Verfahren nach Anspruch 9, gekennzeichnet durch eine Annäherung an einen vorzugsweise durch die „Graue-Welt-Hypothese" vorgegebenen Mittelwert dadurch, dass der Mittelwert aus mehreren Koeffizienten berechnet, und dieser ganz oder teilweise von den ausgewählten Koeffizienten subtrahiert wird.
Verfahren nach einem der vorangehenden Ansprüche, gekennzeichnet durch eine Bildkompression des Digitalbildes auf der Basis von JPEG oder JPEG2000.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die Kompression und/oder Dekompression mit einer diskreten Fourier-Transformation, diskreten Kosinus-Transformation, einer Wavelet-Transformation oder einer sonstigen Transformation, insbesondere Intrakanal-Komponententransformation, zur Frequenzanalyse erfolgt.
Verfahren nach einem der vorangehenden Ansprüche, wobei das Digitalbild einer Wavelet-Transformation und/oder einer JPEG2000-Bildkompression unterzogen wird, im Zuge dessen Pixel-Eingangswerte des Digitalbildes mit Skalierungskoeffizienten der Wavelet-Transformation gefaltet werden, dadurch gekennzeichnet, dass pro Farb- oder Helligkeits-Kanal ein arithmetischer oder sonstiger Mittelwert aus den jeweils durch Faltung entstandenen Werten berechnet wird, und dieser Mittelwert von den Faltungswerten subtrahiert oder in Richtung Null verschoben wird.
Verfahren nach einem der vorangehenden Ansprüche, wobei das Digitalbild einer Wavelet-Transformation und/oder einer JPEG2000-Bildkompression unterzogen wird, im Zuge dessen eine zweidimensionale Sub-Band-Transformation zunächst auf eine Ausgangsversion des Digitalbilds und dann ein- oder mehrfach rekursiv jeweils auf eine tiefpassgefilterte Version des Digitalbildes stattfindet, dadurch gekennzeichnet, dass aus dem oder den Koeffizienten der tiefpassgefilterten Digitalbildversion der höchsten Rekursionsstufe eine Durchschnittsfarbe der Pixel abgeleitet wird, die als Schätzwert der Farbe der einen oder mehreren Fremdlichtquellen verwendet wird.
Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass nur die Koeffizienten der tiefpassgefilterten Digitalbildversion der höchsten Rekursionsstufe zu einer vorbestimmten Helligkeits- und/oder Farbverstellung des Digitalbildes, insbesondere zu einer Farbkorrektur, verändert werden.
Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass die Wavelet-Transformation bis zur maximalen Rekursionsstufe berechnet wird, so dass eine durchschnittliche lokale Farbe für Farb- oder Helligkeitskanäle in nur je einem Koeffizienten vorliegt, und diese Koeffizienten auf Null gesetzt oder in Richtung Null verschoben werden.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass eine Transformation verwendet wird, die einen oder mehrere Koeffizienten liefert, die jeweils als ein arithmetisches Mittel oder als ein sonstiger Mittelwert der Farbwerte in einem oder mehreren bestimmten Bereichen oder Frequenzbändern des Digitalbildes einer oder mehrerer Farb- und/oder Helligkeitskanäle oder zur Berechnung eines oder mehrerer Mittelwerte verwendbar sind.
Verfahren nach Anspruch 17, dadurch gekennzeichnet, dass ein Mittelwert aus den Koeffizienten oder einer Selektion von Koeffizienten, die einem zusammen hängenden Bereich und/oder Frequenzband des Digitalbildes entsprechen, berechnet wird, und der Mittelwert von den zur Berechnung verwendeten Koeffizienten subtrahiert wird.
Verfahren nach Ansprüche 14 oder 15 und 17 oder 18, dadurch gekennzeichnet, dass der Mittelwert aus Koeffizienten des tiefpassgefilterten Be reichs des Digitalbilds berechnet und von diesen Koeffizienten subtrahiert oder auf Null gesetzt oder in Richtung Null verschoben wird.
Verfahren nach einem der vorangehenden Ansprüche, wobei die Kompression oder Dekompression eine Kodierung beziehungsweise Dekodierung umfasst, dadurch gekennzeichnet, dass die Koeffizienten vor oder bei der Kodierung und/oder bei oder nach der Dekodierung geändert werden.
Verfahren nach einem der vorangehenden Ansprüche, wobei die Transformation auf einer zweidimensionalen diskreten Wavelettransformation beziehungsweise DWT basiert, dadurch gekennzeichnet, dass die Änderung der Koeffizienten integriert mit der Entropiekodierung oder -dekodierung erfolgt.
Verfahren nach Ansprüche 4 und 21, unter Verwendung des Luminanz/Chrominanz-Farbmodells beziehungsweise -raums, dadurch gekennzeichnet, dass die Entropiedekodierung oder -dekodierung dazu eingerichtet und verwendet werden, das arithmetische Mittel der Chrominanzkanäle auf Null zu setzen oder in Richtung Null zu verschieben.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass eine Transformation verwendet wird, die einen Koeffizienten liefert, der als ein arithmetisches Mittel oder als ein sonstiger Mittelwert eines oder mehrerer Farbkanäle oder zur Berechnung eines oder mehrerer Mittelwerte verwendbar sind.
Verfahren nach einem der vorangehenden Ansprüche, wobei die Transformation auf einer zweidimensionalen diskreten Kosinustransformation beziehungsweise DCT basiert, dadurch gekennzeichnet, dass nach Ausführung der DCT ein Gleichanteil- beziehungsweise DC-Transformations-Koeffizient zur Gewinnung des arithmetischen Mittels der Farbtöne oder Farbwerte des Digitalbilds verwendet wird.
Verfahren nach einem der vorangehenden Ansprüche, wobei die Transformation auf einer zweidimensionalen diskreten Kosinustransformation beziehungsweise DCT basiert, und vor einer ersten DCT und nach einer zweiten inversen DCT jeweils eine Farbraum-Transformation zwischen dem RGB-Farbmodell und dem Luminanz/Chrominanz-Farbmodell erfolgt, gekennzeichnet durch ein Verschieben des Levels von Gleichanteil- beziehungsweise DC-Koeffizienten der Chrominanzkanäle dahingehend, dass deren mittlere Farbwerte zu Null gesetzt oder in Richtung Null verschoben werden.
Verfahren nach Anspruch 21, 24 oder 25, mit einer Entropiekodierung und/oder -dekodierung, dadurch gekennzeichnet, dass die arithmetischen Kanal-Mittelwerte im Zugriffsbereich des Entropiekodierers oder -dekodierers zur Verfügung gestellt und zur Farbkorrektur des jeweiligen DC- oder eines sonst mittelwertigen Koeffizienten verwendet werden.
Verfahren nach einem Ansprüche 24 bis 26, dadurch gekennzeichnet, dass vor der Ausführung einer zweiten inversen DCT für jeden Farbkanal der arithmetische Mittelwert der DC-Koeffizienten berechnet und dann von den jeweiligen DC-Koeffizienten ganz oder teilweise subtrahiert wird.
Verfahren nach einem der vorangehenden Ansprüche, mit einer Ausgestaltung der Transformation als Blocktransformation, bei der eine Aufteilung der Digitalbild-Pixel in mehrere unabhängige Blöcke erfolgt, dadurch gekennzeichnet, dass für jeden Block ein Mittelwert in genau einem Koeffizienten ermittelt, und dann ein arithmetischer Mittelwert der mehreren Blöcke berechnet wird.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass nach der Dekompression des Digitalbildes dessen Konversion in ein Analogbild erfolgt.
Computerprogramm mit Programmcode-Elementen, um alle Schritte des Verfahrens nach einem der Ansprüche 1 bis 29 auszuführen, wenn das Programm auf einem Computer ausgeführt wird.
Digitales Datenträger- oder Speichermedium, insbesondere elektrisches Trägersignal für digitale Daten oder CD-ROM, mit elektronisch als Steuersignale auslesbaren, derart ausgebildeten Programmcodeelementen, dass bei ihrer Ausführung auf einem programmierbaren Computersystem ein Verfahren nach einem der Ansprüche 1 bis 29 ausgeführt wird.
Enkoder-Computersystem zur Anpassung der Helligkeit und/oder des Farbtons eines Digitalbilds, insbesondere zur Herstellung einer Farbtreue gegenüber einer mit einer oder mehreren Fremdlichtquellen beleuchteten Bildvorlage, zur Durchführung des Verfahrens nach einem der vorangehenden Ansprüche, – mit einer Aufnahme-Schnittstelle und/oder einem Aufnahme-Speicher zur Aufnahme digitaler Eingangs-Bilddaten, – mit einem daran angeschlossenen Bildkompressionsmodul; das eine Funktionseinheit zur Vorwärts-Transformation der Bilddaten unter Erzeugung von Transformations-Koeffizienten aufweist, – und mit einer am Ausgang des Bildkompressionsmoduls angeordneten Ausgabeschnittstelle für die Ausgabe von Bilddaten, die aus den Eingangs-Bilddaten ganz oder teilweise unter Einfluss des oder der geänderten Koeffizienten erzeugt sind, gekennzeichnet durch ein Koeffizienten-Anpassungsmodul, das direkt nach der Funktionseinheit zur Vorwärts-Transformation und vor einer Funktionseinheit zur Quantisierung und Entropiekodierung eingesetzt ist.
Dekoder-Computersystem zur Anpassung der Helligkeit und/oder des Farbtons eines Digitalbilds, insbesondere zur Herstellung einer Farbtreue gegenüber einer mit einer oder mehreren Fremdlichtquellen beleuchteten Bildvorlage, zur Durchführung des Verfahrens nach einem der vorangehenden Ansprüche, – mit einer Aufnahme-Schnittstelle und/oder einem Aufnahme-Speicher zur Aufnahme digitaler Eingangs-Bilddaten, – mit einem daran angeschlossenen Bilddekompressionsmodul, das eine Funktionseinheit zur Rück-Transformation der Bilddaten unter Erzeugung von Transformations-Koeffizienten aufweist, – und mit einer am Ausgang des Bilddekompressionsmoduls angeordneten Ausgabeschnittstelle für die Ausgabe von Bilddaten, die aus den Eingangs-Bilddaten ganz oder teilweise unter Einfluss des oder der geänderten Koeffizienten erzeugt sind, gekennzeichnet durch ein Koeffizienten-Anpassungsmodul, das direkt nach einer Funktionseinheit zur Entropiedekodierung und Dequantisierung und vor der Funktionseinheit zur Rück-Transformation eingesetzt ist.
Enkoder- oder Dekoder-Computersystem nach Anspruch 32 oder 33, gekennzeichnet durch eine von einem Nutzer betätigbare Interaktions-Schnittstelle, die zur Änderung eines, mehrerer oder aller Koeffizienten in Abhängigkeit von dem gewünschten Farbton oder der gewünschten Helligkeit mit einem Koeffizienten-Speicher verbunden ist.
Enkoder- oder Dekoder-Computersystem nach Anspruch 34, dadurch gekennzeichnet, dass die Interaktionsschnittstelle mit einem manuell an der Außenseite eines Gehäuses betätigbaren Dreh- oder Schiebesteller und/oder mit einem berührungssensitiven Sensor realisiert ist, der oder die zur Eingabe der Stärke der Verschiebung eines oder mehrerer oder aller Transformations-Koeffizienten in Richtung eines Farb- und/oder Helligkeits-Mittelwerts ausgebildet ist.
Enkoder- oder Dekoder-Computersystem nach Anspruch 34 oder 35, dadurch gekennzeichnet, dass der von der Interaktionsschnittstelle beeinflusste Koeffizientenspeicher als Zweitor-Speicher ausgebildet ist, der mit seinem Eingangstor entweder mit dem Ausgang der Vorwärts-Transformations-Funktionseinheit oder mit dem Ausgang einer Dequantisierungs- und/oder Dekodierungs-Funktionseinheit des Bild- Dekompressionsmoduls und mit seinem Ausgangstor entweder mit dem Eingang der Quantisierungs- und/oder Kodierungs-Funktionseinheit des Bildkompressionsmoduls oder mit der Funktionseinheit zur Rück-Transformation des Bild-Dekompressionsmoduls verbunden ist.
Enkoder- oder Dekoder-Computersystem nach Anspruch 34, 35 oder 36, dadurch gekennzeichnet, dass der Koeffizientenspeicher mit einem wenigstens zur Mittelwertbildung, Division und/oder Subtraktion eingerichteten Rechenwerk verbunden ist, von dem die oder ein Teil der Koeffizienten veränderbar sind.
Verwendung des Verfahrens nach einem der Ansprüche 1 bis 29, des Computerprogramms nach Anspruch 30, des Speicher- oder Trägermediums nach Anspruch 31 oder des Computersystems nach einem der Ansprüche 32–37, indem diese Gegenstände zur maschinellen Erkennung von Bildern, Mustern oder sonstigen Objekten über deren Farben und/oder Helligkeit anhand der zugehörigen Transformations-Koeffizienten oder zur Steuerung, Regelung und/oder sonstigen Kontrolle von Steuerungsobjekten, beispielsweise Bildschirmen, Fernsehgeräten, DVD-Player und/oder -Rekorder, mobile Video-Player und/oder -Rekorder, Settop-Boxen, Web-Kameras und/oder Digitalkameras, eingesetzt werden.