DE102012007838A1

DE102012007838A1 - Hochdynamikbereich-Bildaufnahme mit Mehrfachbelichtung

Info

Publication number: DE102012007838A1
Application number: DE102012007838A
Authority: DE
Inventors: Haim Garten
Original assignee: CSR Technology Inc
Current assignee: Qualcomm Inc
Priority date: 2011-04-20
Filing date: 2012-04-19
Publication date: 2012-11-15
Also published as: GB2490231B; GB201206833D0; GB2490231A

Abstract

Es werden Techniken zur Erzeugung eines Hochdynamikbereich-Bilds (HDR) mit einer handelsüblichen Digitalkamera aus einer Serie von Bildern einer Szene, die bei verschiedenen Belichtungsstufen aufgenommen wurden, und zur Anzeige des HDR-Bilds auf der eingebauten Anzeigeeinrichtung der Kamera bereitgestellt. Die Vorgehensweise verwendet ein Mischen von Bildern der Serie, um sowohl Szeneschatten- als auch Glanzlicht-Details zu integrieren, und das Entfernen von ”Geist”-Bildartefakten, die in dem gemischten HDR-Bild auftreten und von einer Bewegung in der Szene in der Zeit stammen, in der die Serienbilder erfasst werden. Die Verwendung einer Ressource mit geringer Rechenleistung der Bildmischungs- und Geisterbild-Entfernungs-Verarbeitungsoperationen zusammen mit der Fähigkeit, die Bildmischung und die Geisterbild-Entfernung vor der Erfassung aller Serienbilder zu beginnen, kann die zur Erzeugung und Anzeige eines HDR-Bilds mit Tone-Mapping erforderliche Zeit deutlich verringern.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
Diese Anmeldung beansprucht die Priorität unter 35 U.S.C. 119(e) der vorläufigen US-Anmeldung mit der Seriennummer 61/326,769 und dem Titel ”Hochdynamikbereich-Bildaufnahme mit Mehrfachbelichtung”, eingereicht am 22. April 2010, und ist eine Continuation-in-part der US-Patentanmeldung mit der Seriennummer 12/763,693 und dem Titel ”Hochdynamikbereich-Bildaufnahme mit Mehrfachbelichtung”, eingereicht am 20. April 2010, die die Priorität der vorläufigen US-Patentanmeldung mit der Seriennummer 61/171,936 und dem Titel ”HDR von Mehrfachbelichtungen” beansprucht, die am 23. April 2009 eingereicht wurde. Alle oben erwähnten Anmeldungen werden ausdrücklich in ihrer Gesamtheit durch Verweis hier einbezogen.
HINTERGRUND DER ERFINDUNG
1. Gebiet der Erfindung
Diese Anmeldung betrifft die Aufnahme und Verarbeitung von Bildern, die den ganzen Bereich von Grautönen anzeigen, die in einer physikalischen Szene erscheinen, oft als ”Hochdynamikbereich”- oder ”HDR”-Bild bezeichnet. Spezieller betrifft sie ein System und ein Verfahren zur Bildaufnahme und Verarbeitung eines HDR-Bilds in einer digitalen Bildaufnahmevorrichtung wie einer Digitalkamera für Privatanwender.
2. Erörterung des Stands der Technik
Von Digitalkameras aufgenommene Bilder sind meist Niedrigdynamikbereich-Bilder (LDR), bei denen jedes Bildpixel eine begrenzte Anzahl von digitalen Bits pro Farbe aufweist. Die Anzahl von digitalen Bits pro Pixel wird der digitale Pixelbitbreitenwert genannt. Diese Anzahl beträgt üblicherweise 8 Bits. Solche 8-Bit-Pixel können verwendet werden, um ein Bild mit 256 verschiedenen Grautönen für jede Farbe an jeder Pixelstelle zu bilden. In einem LDR-Bild einer Szene werden Schattenfelder der Szene als völlig schwarz (Schwarzsättigung), helle sonnenbestrahlte Felder der Szene als völlig weiß (Weißsättigung) und Szenenfelder dazwischen in einem Bereich von Grautönen gezeigt. Ein Hochdynamikbereich(HDR)-Bild ist ein solches, das digitale Pixelbitbreitenwerte von mehr als 8 Bits hat; 16 Bits pro Pixel ist ein möglicher Wert. Bei einem solchen Bild kann der volle Bereich von Grautönen, die in einer physikalischen Szene erscheinen, angezeigt werden. Diese Grautöne liefern Bilddetails, die in den Schattenzonen, Glanzlicht-Zonen und Mitteltonzonen der Szene vorhanden sind, die im LDR-Bild fehlen. Somit sind in einem HDR-Bild Szenendetails in dunklen Bildfeldern, die sich aufgrund ihrer Nähe zu hohen Gebäuden und unter Bäumen im Schatten befinden, in Lichtfeldern, die direkt von hellem Sonnenlicht beleuchtet werden, sowie in mittleren Beleuchtungsfeldern vorhanden, die zwischen diesen beiden Extremen belichtet werden.
Ein HDR-Bild kann durch Erfassung einer Vielzahl von LDR-Bildern einer Szene aufgenommen werden, die bei unterschiedlichen Belichtungsstufen aufgenommen werden. Diese mehreren LDR-Bilder werden eine reihenbelichtete Bildserie genannt. Eine niedrige Belichtungsstufe erfasst die Grautöne korrekt in Szenefeldern, die voll von hellem Sonnenlicht beleuchtet werden, und eine hohe Belichtungsstufe erfasst die Grautöne korrekt in Szenefeldern, die durch Gebäude und Bäume vollständig von der Sonne und dem Himmel abgeschirmt sind. Bei der niedrigen Belichtungsstufe sind die Felder der Szene im Schatten aber völlig schwarz, in Schwarzsättigung, und zeigen kein Detail, und die Mitteltonfelder verlieren an Detail. Ferner sind bei der hohen Belichtungsstufe die Glanzlichter der Szene völlig weiß, in Weißsättigung, und zeigen kein Detail, und die Mitteltonfelder verlieren wieder an Detail. So wird oft auch ein drittes Mittelbelichtungsstufenbild aufgenommen, das Mittelstufen-Grautöne korrekt erfasst. Durch Mischen dieser drei LDR-Bilder kann ein HDR-Bild erzeugt werden, das den ganzen Grautonbereich der Szene darstellt.
Das Ableiten eines HDR-Bilds von einer reihenbelichteten Bildserie erfordert derzeit eine komplexe Implementierung, die eine teure Rechenmaschine verwendet. Dies wird bedingt durch die Notwendigkeit, drei getrennte Verarbeitungsvorgänge, um die reihenbelichtete Bildserie korrekt in ein einziges HDR-Bild zu mischen, und einen vierten durchzuführen, um das resultierende Bild, das nun aus Pixeln mit digitalen Pixelbitbreitenwerten von mehr als 8 Bits pro Farbe besteht, in ein Bild umzuwandeln, das auf gängigen 8-Bit-pro-Pixel-pro-Farbe-Anzeigeeinrichtungen angezeigt werden kann. Diese vier Verarbeitungsvorgänge sind:
”Bildregistrierung” zur akkuraten Ausrichtung der vielen Bilder zueinander;
”Bildmischen” zum Verschmelzen der vielen Bilder mit der richtigen Gewichtung;
”Geisterbild-Entfernung” zum Entfernen ortsverschobener Wiedergaben von Szeneobjekten oder ”Geisterbildern”, die im gemischten HDR-Bild aufgrund der Bewegung dieser Objekte in der Zeit auftreten würden, in der die vielen Bilder aufgenommen wurden; und
”Tone-Mapping” zur Vorbereitung des endgültigen HDR-Bilds zur Präsentation auf üblichen Anzeigeeinrichtungen, die darauf beschränkt sind, 8-Bit-pro-Pixel-pro-Farbe-Bildpixel anzuzeigen.
Die Ausführung dieser vier Verarbeitungsvorgänge erfordert die Durchführung einer großen Anzahl von Gleitkommaoperationen in einem kurzen Zeitraum, wie aus einer Durchsicht des Artikels "High Dynamic Range Imaging Acquisition, Display, and Image-Based Lighting" der Autoren Erik Reinhard, Sumanta Pattanaik, Greg Ward und Paul Debevec, veröffentlicht von Morgan Kaufmann Publishers, Copyright 2005 von Elsevier, Inc. ersichtlich ist. Dies ist insbesondere der Fall bei den Verarbeitungsvorgängen der Bildmischung und Geisterbild-Entfernung. So müssen leistungsstarke und teure Rechenmaschinen (Zentralrechnereinheiten oder CPUs) verwendet werden. Ihre Kosten können möglicherweise bei der Verwendung von professionellen Digitalkameras toleriert werden, aber bei billigen ”Point and Shoot” Digitalkameras, die CPUs mit begrenzter Verarbeitungsleistung umfassen, stellen sie eine unpraktikable Lösung dar.
Ein HDR-Bild kann aus einer reihenbelichteten Bildserie, die von einer billigen Digitalkamera erfasst wurde, durch Hochladen der Bildserie von der Kamera in einen Universalcomputer, wie einen Personal Computer (PC), erzeugt werden. Eine Bildverarbeitungsanwendung, wie Adobe Photoshop, kann verwendet werden, um den erforderlichen komplexen HDR-Bildkombinationsprozess auf einem Desktop zu kombinieren. Diese Vorgehensweise ist nicht effizient oder geeignet und erfüllt nicht die Anforderungen der Wiederherstellung eines HDR-Bilds auf der eingebauten Anzeige der Kamera kurz nach seiner Aufnahme.
Es gibt daher einen Bedarf für ein kamerainternes Verfahren und eine solche Vorrichtung, die schnell ein HDR-Bild von einer reihenbelichteten Bildserie erzeugen und es auf der kamerainternen Anzeigeeinrichtung kurz nach der Aufnahme anzeigen kann, unter Verwendung einer CPU mit begrenzter Verarbeitungsleistung.
KURZFASSUNG DER ERFINDUNG
Es werden Systeme, Verfahren und Computerprogrammprodukte zur Erzeugung eines zusammengesetzten Hochdynamikbereich-Bilds aus Mehrfachbelichtungen offenbart.
Ausführungsformen der Erfindung können eine lokale Bewegung zwischen einem Bezugsbild und einer Vielzahl von Vergleichsbildern erfassen, relevante Pixel in Patches clustern, ein Ersatzbild aus einer Vielzahl von Kandidat-Ersatzbildern als eine Quelle für Ersatzpatch-Bilddaten auswählen, Patch-Bilddaten in einem zusammengesetzten Bild ersetzen, und Bilder von einem Ursprungsformat in ein Format mit weniger Bits-pro-Pixel zur Anzeige umwandeln.
Die Erfindung kann als ein Verfahren zum Mischen einer Vielzahl digitaler Bilder einer Szene ausgeführt werden, einschließlich der Aufnahme der Bilder bei verschiedenen Belichtungsstufen, dem Registrieren von Gegenstückpixeln zu jedem Bild, dem Ableiten einer normierten Bildbelichtungsstufe für jedes Bild, und dem Einsetzen der normierten Bildbelichtungsstufen in einem Bildverschmelzungsprozess. Der Bildverschmelzungsprozess umfasst das Verwenden des Bildverschmelzungsprozesses, um ein erstes ausgewähltes Bild und ein zweites ausgewähltes Bild zu verschmelzen, um ein Zwischenbild zu erzeugen, und wenn die Vielzahl aus zwei Bildern besteht, das Zwischenbild als ein gemischtes Ausgabebild auszugeben. Wenn die Vielzahl aus mehr als zwei Bildern besteht, enthält der Bildverschmelzungsprozess die Wiederholung des Bildverschmelzungsprozesses unter Verwendung des vorher erzeugten Zwischenbilds anstelle des ersten ausgewählten Bilds und eines ferneren ausgewählten Bilds anstelle des zweiten ausgewählten Bilds, bis alle Bilder verschmolzen sind, und die Ausgabe des letzten erzeugten Zwischenbilds als das gemischte Ausgabebild.
Das Verfahren kann auch eine selektive Umwandlung der Bilder von einem niedrigeren Bits-pro-Pixel-Format zu einem höheren Bits-pro-Pixel-Format vor der Verwendung des Bildverschmelzungsprozesses, und dann die selektive Umwandlung des gemischten Ausgabebilds zu einem vorbestimmten niedrigeren Bits-pro-Pixel-Format umfassen.
Der Bildverschmelzungsprozess verschmilzt die Gegenstückpixel von zwei Bildern und umfasst die Ableitung eines Luma-Werts für ein Pixel im zweiten ausgewählten Bild, Verwendung des Luma-Werts eines zweiten ausgewählten Bildpixels als ein Index in eine Nachschlagetabelle, um einen Gewichtungswert zwischen den Zahlen Null und Eins zu erhalten, Verwendung des Gewichtungswerts, der normierten Belichtungsstufe des zweiten ausgewählten Bilds und des zweiten ausgewählten Bildpixels, um ein verarbeitetes zweites ausgewähltes Bildpixel zu erzeugen, Auswahl eines ersten ausgewählten Bildpixels, das dem zweiten ausgewählten Bildpixel entspricht, Verwenden des ersten ausgewählten Bildpixels und des Ergebnisses der Subtraktion des Gewichtungswerts von Eins, um ein verarbeitetes erstes ausgewähltes Bildpixel zu erzeugen, Hinzufügen des verarbeiteten ersten ausgewählten Bildpixels zum verarbeiteten zweiten ausgewählten Gegenstückbildpixel, um ein verschmolzenes Bildpixel zu erzeugen, und Wiederholen der obigen Verarbeitungsfolge, bis jedes zweite ausgewählte Bildpixel mit seinem ersten ausgewählten Gegenstückbildpixel verschmolzen ist.
Das Verfahren kann das Merkmal umfassen, dass der erhaltene Gewichtungswert abnimmt, wenn der als Index in die Nachschlagetabelle verwendete Luma-Wert zunimmt. Das Verfahren kann auch die Verwendung einer unterschiedlichen Nachschlagetabelle für jedes Bild umfassen, um den Gewichtungswert zu erhalten. Das Verfahren kann auch das Bildmischen vor der Aufnahme aller Bilder der Vielzahl beginnen. Das Verfahren kann auch das Bildmischen direkt nach der Aufnahme des zweiten Bilds der Vielzahl beginnen.
Die Ausführungsformen umfassen ferner ein Verfahren zum Entfernen von ortsverschobenen Wiedergaben von Szeneobjekten, die in einem gemischten Bild erscheinen, das durch einen digitalen Bildmischungsprozess erzeugt wird, der auf eine Vielzahl von Bilder angewendet wird, die bei verschiedenen Belichtungsstufen und zu verschiedenen Zeiten aufgenommen wurden, wobei die Gegenstückpixel der Bilder zueinander registriert sind. Das Verfahren umfasst das Normieren von Luma-Werten der Bilder auf eine spezifische Standardableitung und Mittelwert, das Detektieren einer lokalen Bewegung zwischen mindestens einem Bezugsbild und mindestens einem Vergleichsbild, das Clustern von Vergleichsbildpixeln mit lokaler Bewegung in Patches, die Auswahl entsprechender Patches aus dem Bezugsbild, die Erzeugung eines verbundenen binären Bilds durch logisches Verodern der von bestimmten Bezugsbildern erzeugten Patches zusammen, und das Verschmelzen des gemischten Bilds mit den Bezugsbildern, wobei jedes Bezugsbild durch einen Gewichtungswert gewichtet wird, der vom verbundenen binären Bild berechnet wird, um ein Ausgabebild zu erzeugen.
Das Verfahren kann eine lokale Bewegung durch Bestimmen einer absoluten Luma-Varianz zwischen jedem Pixel des Bezugsbilds und dem Vergleichsbild, um ein Differenzbild zu erzeugen, und Erkennen von Differenzbildzonen, deren absolute Luma-Varianzen eine Schwelle überschreiten, detektieren. Das Clustern kann das Finden von Sätzen von verbundenen erkannten Bild-Blobs unter Verwendung morphologischer Operationen und das Begrenzen jedes Satzes durch ein Polygon umfassen. Die als Bezugsbilder verwendeten ausgewählten Bilder können das Bild mit der niedrigsten Belichtungsstufe, das Bild mit der höchsten Belichtungsstufe oder beliebige Bilder mit Zwischenbelichtungsstufen umfassen. Der Luma-Wert der zu verarbeitenden Bilder kann vor der Verarbeitung herabgestuft werden.
Eine Ausführungsform wählt Bezugsbilder für ein Kandidat-Bezugsbild mit Zwischenbelichtungswert, Berechnen einer Summe von Feldern von gesättigten Zonen und ein Verhältnis der Summe von gesättigten Feldern zu Gesamt-Patchfeldern, Auswählen des Kandidat-Bezugsbilds als das Bezugsbild, wenn das Verhältnis geringer als oder gleich einem Parameterwert ist, zum Beispiel 0.03 bis 1, und Auswählen eines Bild von weniger als dem Zwischenbelichtungswert als das Bezugsbild, wenn das Verhältnis größer ist als der Parameterwert.
Die Erfindung kann auch als eine Bildaufnahmevorrichtung ausgeführt werden, die eine Vielzahl von digitalen Bildern einer Szene bei unterschiedlichen Belichtungsstufen aufnimmt, die einen Bildregistrierungsprozessor, der Gegenstückpixel jedes Bilds der Vielzahl zueinander registriert und einen Bildmischer umfasst, der mehrere Bilder der Vielzahl kombiniert, um ein einziges Bild zu erzeugen. Der Bildmischer kann einen Bildnormierer, der die Bildbelichtungsstufe für jedes Bild normiert, und einen Bildverschmelzer umfassen, der die normierte Belichtungsstufe verwendet, um ein erstes ausgewähltes Bild und ein zweites ausgewähltes Bild zu verschmelzen, um ein Zwischenbild zu erzeugen, und wenn die Vielzahl aus zwei Bildern besteht, das Zwischenbild als ein gemischtes Ausgabebild ausgibt. Wenn die Vielzahl aus mehr als zwei Bildern besteht, kann der Bildverschmelzer wiederholt das vorher erzeugte Zwischenbild anstelle des ersten ausgewählten Bilds und ein ferneres ausgewähltes Bild anstelle des zweiten ausgewählten Bilds verschmelzen, bis alle Bilder verschmolzen sind, und gibt das letzte erzeugte Zwischenbild als das gemischte Ausgabebild aus.
Die Bildaufnahmevorrichtung kann ferner einen Gammakorrektur-Wandler umfassen, der selektiv die Bilder von einem niedrigeren Bits-pro-Pixel-Format zu einem höheren Bits-pro-Pixel-Format vor einer Bildmischung umwandelt, und selektiv das gemischte Ausgabebild in ein vorbestimmtes niedrigeres Bits-pro-Pixel-Format umwandelt.
Die Bildaufnahmevorrichtung kann ferner eine Luma-Umwandlungsschaltung, die den Luma-Wert eines eingegebenen Pixels ausgibt, eine Nachschlagetabelle, die einen Gewichtungswert zwischen den Zahlen Null und Eins für einen eingegebenen Luma-Wert ausgibt, eine Verarbeitungsschaltung, die einen abgeleiteten Luma-Wert für ein Pixel in dem zweiten ausgewählten Bild von der Luma-Umwandlungsschaltung aufnimmt, einen Gewichtungswert von der Nachschlagetabelle für den abgeleiteten Luma-Wert erhält, und ein verarbeitetes zweites ausgewähltes Bildpixel von dem zweiten ausgewählten Bildpixel, die normierte Belichtungsstufe des zweiten ausgewählten Bilds und den Gewichtungswerts erzeugt, und eine zweite Verarbeitungsschaltung, die als Eingaben das Ergebnis der Subtraktion des Gewichtungswerts von Eins und das erste ausgewählte Bildpixel entsprechend dem zweiten ausgewählten Bildpixel empfängt, und ein verarbeitetes erstes ausgewähltes Bildpixel erzeugt, und eine Additionsschaltung umfassen, die das verarbeitete erste ausgewählte Bildpixel zum verarbeiteten zweiten ausgewählten Bildpixel addiert, um ein verschmolzenes Bildpixel zu erzeugen.
Die Bildaufnahmevorrichtung kann einen niedrigeren Gewichtungswert ausgeben, wenn der in die Nachschlagetabelle eingegebene Luma-Wert zunimmt. Sie kann auch eine erste Nachschlagetabelle für das erste ausgewählte Bild und eine zweite Nachschlagetabelle für das zweite ausgewählte Bild verwenden. Die Bildaufnahmevorrichtung kann vor der Aufnahme aller Bilder der Vielzahl damit beginnen, die Vielzahl von Bildern zu mischen. Sie kann direkt nach der Aufnahme des zweiten Bilds der Vielzahl damit beginnen, die Vielzahl von Bildern zu mischen.
Die Erfindung kann ferner als eine Bildaufnahmevorrichtung ausgeführt werden, die eine Vielzahl von digitalen Bilder einer Szene bei unterschiedlichen Belichtungsstufen und zu unterschiedlichen Zeiten erfasst, die einen Bildregistrierungsprozessor, der die Gegenstückpixel jedes Bilds zueinander registriert, einen Bildmischer, der viele Bilder kombiniert, um ein gemischtes Bild zu erzeugen, und einen Geisterbild-Entferner umfasst. Der Geisterbild-Entferner entfernt ortsverschobene Wiedergaben von Szeneobjekten, die in dem gemischten Bild erscheinen, und kann einen Bildnormierer, der die Bildbelichtungsstufe für jedes Bild auf eine spezifische Standardabweichung und Mittelwert normiert, eine Bezugsbild-Auswahlschaltung, die mindestens ein Bezugsbild aus den Bildern auswählt, eine lokale Bewegungsdetektorschaltung, die eine lokale Bewegung zwischen dem Bezugsbild und mindestens einem Vergleichsbild detektiert, eine Clusterschaltung, die Vergleichsbildpixel mit lokaler Bewegung in Patches clustert und entsprechende Patches aus dem Bezugsbild auswählt, und eine verbundene binäre Bildgeneratorschaltung umfassen, die die von bestimmten Bezugsbildern erzeugten Patches zusammen logisch verodert, wobei der Bildmischer das gemischte Bild mit den Bezugsbildern in einem Endstadium der Verarbeitung mischt, mit jedem Bezugsbild durch einen Gewichtungswert gewichtet, der vom verbundenen binären Bild berechnet wird, um ein Ausgabebild zu erzeugen.
Die lokale Bewegungsdetektorschaltung kann eine lokale Bewegung durch Bestimmung einer absoluten Luma-Varianz zwischen jedem Pixel des Bezugsbilds und dem Vergleichsbild, um ein Differenzbild zu erzeugen, und durch Identifizieren von Differenzbildzonen detektieren, die absolute Luma-Varianzen haben, die eine Schwelle überschreiten. Die Clusterschaltung kann Vergleichsbildpixel durch Finden von Gruppen von verbundenen Bild-Blobs unter Verwendung morphologischer Operationen und Begrenzen jeder Gruppe durch ein Polygon clustern. Die als Bezugsbilder verwendeten ausgewählten Szenebilder können das Szenebild mit der niedrigsten Belichtungsstufe, das Szenebild mit der höchsten Belichtungsstufe, oder alle Szenebilder mit Zwischenbelichtungsstufen umfassen. Die Bildaufnahmevorrichtung kann auch Schaltungsanordnungen zum Herabstufen der Luma-Werte für die Bilder umfassen. Die Bezugsbild-Auswahlschaltung kann ein Bezugsbild von den Szenebildern für ein Kandidat-Bezugsbild mit Zwischenbelichtungswert durch Berechnen einer Summe von Feldern gesättigter Zonen und eines Verhältnisses der Summe gesättigter Felder zu Gesamt-Patchfeldern, Auswahl des Kandidat-Bezugsbilds als das Bezugsbild, wenn das Verhältnis geringer als oder gleich einem Parameterwert ist, zum Beispiel von 0.03 bis 1, und Auswahl eines Bilds von weniger als einem Zwischenbelichtungswert als das Bezugsbild auswählen, wenn das Verhältnis größer ist als der Parameterwert.
Eine andere Ausführungsform ist eine Digitalkamera, die eine Vielzahl von digitalen Bildern einer Szene bei unterschiedlichen Belichtungsstufen zu unterschiedlichen Zeiten erfasst und davon ein durch Tone-Mapping bearbeitetes Hochdynamikbereich-Bild erzeugt. Die Kamera kann einen Bildregistrierungsprozessor, der Gegenstückpixel jedes Bilds der Vielzahl zueinander erfasst, einen Bildmischer, der viele Bilder der Vielzahl kombiniert, um ein einziges Bild zu erzeugen, einen Geisterbild-Entferner, der ortsverschobene Wiedergaben von Szeneobjekten entfernt, die in dem gemischten Bild erscheinen, und einen Tone-Mapping-Prozessor umfassen, der die verarbeiteten gemischten Bildpixel mappt, um Pixel mit der Anzahl von digitalen Bits anzuzeigen, die auf einer eingebauten Digitalkamera-Bildanzeige präsentiert werden können.
Der Bildmischer kann einen Bildnormierer, der die Bildbelichtungsstufe für jedes Bild normiert, und einen Bildverschmelzer umfassen, der die normierte Belichtungsstufe nutzt, um ein erstes ausgewähltes Bild und ein zweites ausgewähltes Bild zu verschmelzen, um ein Zwischenbild zu erzeugen, und wenn die Vielzahl aus zwei Bildern besteht, das Zwischenbild als gemischtes Bild ausgibt. Wenn die Vielzahl aus mehr als zwei Bildern besteht, kann der Bildmischer wiederholt das vorher erzeugte Zwischenbild anstelle des ersten ausgewählten Bilds und ein anderes ausgewähltes Bild anstelle des zweiten ausgewählten Bilds verschmelzen, bis alle Bilder verschmolzen wurden, und gibt das letzte erzeugte Zwischenbild als das gemischte Bild aus.
Der Geisterbild-Entferner kann einen Bildnormierer, der die Bildbelichtungsstufe für jedes Bild auf eine spezifische Standardabweichung und Mittelwert normiert, eine Bezugsbild-Auswahlschaltung, die mindestens ein Bezugsbild aus den Bildern auswählt, eine lokale Bewegungsdetektorschaltung, die lokale Bewegungen zwischen dem Bezugsbild und mindestens einem Vergleichsbild detektiert, eine Clusterschaltung, die Vergleichsbildpixel mit lokaler Bewegung in Patches clustert und entsprechende Patches aus dem Bezugsbild auswählt, und eine verbundene binäre Bildgeneratorschaltung umfassen, die die von bestimmten Bezugsbildern erzeugten Patches zusammen logisch verodert, wobei der Bildmischer das gemischte Bild mit den Bezugsbildern in einem Verarbeitungs-Endschritt kombiniert, wobei jedes Bezugsbild mit einem Gewichtungswert gewichtet wird, der von dem verbundenen binären Bild berechnet wird, um ein verarbeitetes gemischtes Bild zu erzeugen.
Die Digitalkamera kann den Bildregistrierungsprozessor, den Bildmischer, den Geisterbild-Entferner und/oder den Tone-Mapping-Prozessor durch die Verwendung mindestens eines programmierbaren Universalprozessors, oder mindestens eines programmierbaren anwendungsspezifischen Prozessors, oder mindestens eines anwendungsspezifischen Prozessors mit festgelegter Funktion implementieren.
Die Erfindung kann als ein Verfahren zur Erfassung einer lokalen Bewegung zwischen einem Bezugsbild und einer Vielzahl von Vergleichsbildern ausgeführt werden. Das Verfahren kann die Definition einer Anzahl von Luma-Schwellen, die eine Gruppe von Bezugsbild-Luma-Wertbereichen bestimmen, aus denen ein bestimmtes Vergleichsbild ausgewählt wird, wobei die Anzahl der Anzahl von Vergleichsbildern entspricht, und die Definition einer Differenzschwellenfunktion umfassen, die Schwellwerte gemäß Luma-Werten des Bezugsbilds festlegt. Dann kann das Verfahren für jedes bestimmte Vergleichsbild die Erzeugung einer Zwischendetektierungsabbildung, die die lokale Bewegung zwischen dem Bezugsbild und dem bestimmten Vergleichsbild kennzeichnet, durch Anwenden der Schwellwerte auf ein Differenzbild umfassen, das durch Vergleich des Bezugsbilds und des bestimmten Vergleichsbilds gebildet wird. Schließlich kann das Verfahren eine Enddetektierungsabbildung ausgeben, die eine Vereinigung der Zwischendetektierungsabbildungen ist. Das Verfahren kann ein Vergleichsbild mit relativ niedrigerer Luma in relativ höheren Bezugsbild-Luma-Wertbereichen und umgekehrt auswählen. Der Luma-Schwellwert-Satz kann mit Differenzbild-Luma-Werten variieren. Die Zwischendetektierungsabbildung kann durch Berücksichtigung von Pixeln mit Luma-Werten in einem Bereich entsprechend dem bestimmten Vergleichsbild, Berechnen der Standardabweichung und Mittelwert der berücksichtigten Pixel, Normieren der betreffenden Pixel, um die gleiche Standardabweichung und Mittelwert für das Bezugsbild und das bestimmte Vergleichsbild zu haben, Erzeugen einer absoluten Differenzabbildung der berücksichtigten Pixel und Verwenden der Differenzschwellenfunktion an der Differenzabbildung erzeugt werden, um lokale Bewegungsdetektierungen zu erkennen.
Eine andere Ausführungsform der Erfindung ist ein Verfahren zum Clustern von Pixeln in Patches, das die Anwendung einer morphologischen Dilatationsoperation auf einem binären Bild relevanter Pixel, mit einem 5×5 quadratischen Strukturierungselement zum Beispiel, die Anwendung einer morphologischen Schließoperation au dem binären Bild, mit einem 5×5 quadratischen Strukturierungselement zum Beispiel, die Anwendung eines binären Kennzeichnungsalgorithmus, um verschiedene Patches zu unterscheiden, die Beschreibung jedes Patchs durch ein Grenzpolygon, und die Ausgabe der Patchbeschreibung umfasst. In dieser Ausführungsform können die relevanten Pixel sich erkannte Eigenschaften teilen, die uneinheitliche Luma-Werte von mindestens einem Bildvergleich oder eine erfasste lokale Bewegung umfassen können. Das Grenzpolygon kann ein Achteck sein.
In einer weiteren Ausführungsform wird ein Verfahren zur Auswahl eines Ersatzbilds aus einer Vielzahl von Kandidat-Ersatzbildern als Quelle für Ersatzpatch-Bilddaten geliefert. Das Verfahren kann die Berechnung eines gewichteten Histogramms von Luma-Werten von Randbereichspixeln eines bestimmten Patches eines Bezugsbilds, die Aufteilung des Histogramms in eine Vielzahl von Zonen gemäß Schwellwerten, die aus relativen Belichtungswerten der Kandidat-Ersatzbilder bestimmt werden, die Berechnung einer Bewertungsfunktion für jede Histogrammzone, die Auswahl der Zone mit der maximalen Bewertung, und die Ausgabe des entsprechenden Kandidat-Ersatzbilds umfassen. Die Histogramm-Gewichtung kann den Einfluss von übersättigten und untersättigten Luma-Werten erhöhen. In dieser Ausführungsform können Kandidat-Ersatzbilder mit relativ niedrigen Belichtungswerten ausgewählt werden, um Patches von Bezugsbildern mit relativ hohen Belichtungswerten zu ersetzen, und umgekehrt. Das Bezugsbild kann ein Bild mittlerer Belichtung mit hochgestuften Luma-Werten sein. Die Bewertungsfunktion für eine bestimmte Histogrammzone kann als das Verhältnis der Anzahl von Pixeln in der bestimmten Histogrammzone unter Berücksichtigung der Größe der bestimmten Histogrammzone zur mittleren Differenz der Histogrammeingaben vom Luma-Wert-Modus für die bestimmte Histogrammzone definiert werden.
Zusätzlich kann die Erfindung als ein Verfahren zum Ersetzen von Patch-Bilddaten in einem zusammengesetzten Bild ausgeführt werden, das das Glätten eines Patchbild-Grenzpolygons, das Hochstufen der geglätteten Patchbilder auf eine volle Bildauflösung und das Verschmelzen des zusammengesetzten Bilds und des hochgestuften geglätteten Patchbilds umfasst, um ein Ausgabebild zu erzeugen. Das Patchbild-Grenzpolygon kann ein Achteck sein. Das Patchbild-Begrenzungsachteck kann im 8-Bit-Format dargestellt werden, und es wird ein Tiefpassfilter, zum Beispiel 7×7, angewendet.
Eine weitere Ausführungsform ist ein Verfahren zur Umwandlung von Bildern von einem ursprünglichen Format in ein niedrigeres Bits-pro-Pixel-Format, das die Durchführung eines Tone-Mapping enthält, das an Bild-Luma-Werte anpasst, und die Ausgabe des Tone-Mapping-Bilds aufweist. Das Verfahren kann ferner die Durchführung eines nicht-linearen lokalen Tone-Mappings umfassen, das ein Pixel gemäß der durchschnittlichen Luma-Werte seines Nachbarn in einzelnen Farbkomponenten abbildet, die je von einer vorbestimmten Anzahl von Bits dargestellt werden. Das Verfahren kann ferner zusätzliche Grauskalastufen für häufigere Luma-Werte zuteilen. Bilder können in ein Anzeigeformat umgewandelt werden, das Pixel mit der Anzahl von Bits hat, die auf einer eingebauten Digitalkamera-Bildanzeige präsentiert werden können. Das Verfahren kann auch eine Familie lokaler Mapping-Nachschlagetabellen und eine einzige globale Mapping-Nachschlagetabelle definieren und eine ausgewählte Nachschlagetabelle für jede Bildumwandlungsoperation verwenden, wobei die Auswahl der Nachschlagetabelle auf den Bildszeneneigenschaften basiert. Das Verfahren kann ferner ein Helligkeits-Histogramm eines zusammengesetzten Bilds konstruieren und ein Mapping gemäß der Verteilung von Helligkeitswerten definieren. Das Helligkeits-Histogramm kann unter Verwendung einer Kombination von Histogrammen der herabgestuften Bilder geschätzt werden, die zum Formen des zusammengesetzten Bilds verwendet werden. Ein Histogrammausgleich kann das Mapping definieren.
Die Erfindung kann als ein System zum Detektieren lokaler Bewegung zwischen einem Bezugsbild und einer Vielzahl von Vergleichsbildern ausgeführt sein. Das System kann einen Prozessor umfassen, der eine Anzahl von Luma-Schwellen definiert, die eine Gruppe von Bezugsbild-Luma-Wertbereichen bestimmen, in der ein bestimmtes Vergleichsbild ausgewählt wird, wobei die Anzahl der Anzahl von Vergleichsbildern entspricht, und eine Differenzschwellenfunktion definiert, die Schwellwerte gemäß Luma-Werten des Bezugsbilds festlegt. Dann kann der Prozessor für jedes bestimmte Vergleichsbild eine Zwischenerfassungsabbildung erzeugen, die lokale Bewegung zwischen dem Bezugsbild und dem bestimmten Vergleichsbild anzeigt, durch Anwenden der Schwellwerte auf ein Differenzbild, das durch Vergleich des Bezugsbilds und des bestimmten Vergleichsbilds gebildet wird. Schließlich kann der Prozessor eine Enddetektierungsabbildung ausgeben, die eine Vereinigung der Zwischendetektierungsabbildungen ist. Das System kann ein Vergleichsbild mit relativ niedrigerer Luma in relativ höheren Bezugsbild-Luma-Wertbereichen auswählen und umgekehrt. Der Luma-Schwellwertsatz kann mit Differenzbild Luma-Werten variieren. Die Zwischendetektierungsabbildung kann durch Berücksichtigen von Pixeln mit Luma-Werten in einem Bereich entsprechend dem bestimmten Vergleichsbild, Berechnen der Standardabweichung und Mittelwert der berücksichtigten Pixel, Normieren der berücksichtigten Pixel, damit sie die gleiche Standardabweichung und Mittelwert für das Bezugsbild und das bestimmte Vergleichsbild haben, Erzeugen einer absoluten Differenzabbildung der berücksichtigten Pixel und Verwendung der Differenzschwellenfunktion an der Differenzabbildung zur Erkennung lokaler Bewegungserfassungen erzeugt werden.
Eine weitere Ausführungsform der Erfindung ist ein System zum Clustern von Pixeln in Patches, das einen Prozessor umfasst, der eine morphologische Schließoperation auf ein binäres Bild relevanter Pixel anwenden kann, mit einem 5×5 quadratischen Strukturierungselement zum Beispiel, eine morphologische Schließoperation auf das binäre Bild anwenden kann, mit einem 5×5 quadratischen Strukturierungselement zum Beispiel, einen binären Kennzeichnungsalgorithmus anwenden kann, um verschiedene Patches zu unterscheiden, jedes Patch durch ein Grenzpolygon beschreiben kann, und die Patchbeschreibung ausgeben kann. Die relevanten Pixel können sich erkannte Eigenschaften teilen, die uneinheitliche Luma-Werte von mindestens einem Bildvergleich oder eine erfasste lokale Bewegung umfassen können. Das Grenzpolygon kann ein Achteck sein.
In einer weiteren Ausführungsform wird ein System zur Auswahl eines Ersatzbildes aus einer Vielzahl von Kandidat-Ersatzbildern als eine Quelle für Ersatzpatch-Bilddaten geliefert. Das System kann einen Prozessor umfassen, der ein gewichtetes Histogramm von Luma-Werten von Randfeld-Pixeln eines bestimmten Patchs eines Bezugsbilds berechnet, das Histogramm in eine Vielzahl von Zonen gemäß Schwellwerten aufteilt, die von relativen Belichtungswerten der Kandidat-Ersatzbilder bestimmt werden, eine Bewertungsfunktion für jede Histogrammzone berechnet, die Zone mit der höchsten Bewertung auswählt, und das entsprechende Kandidat-Ersatzbild ausgibt. Die Histogramm-Gewichtung kann den Einfluss von übersättigten und untersättigten Luma-Werten erhöhen. In dieser Ausführungsform können Kandidat-Ersatzbilder relativ niedriger Belichtungswerte ausgewählt werden, um Patches von Bezugsbildern relativ hoher Belichtungswerte zu ersetzen, und umgekehrt. Das Bezugsbild kann ein Bild mit mittlerer Belichtung mit herabgestuften Luma-Werten sein. Die Bewertungsfunktion für eine bestimmte Histogrammzone kann als das Verhältnis der Anzahl von Pixeln in der bestimmten Histogrammzone unter Berücksichtigung der Größe der bestimmten Histogrammzone zu der mittleren Differenz der Histogrammeingaben von dem Luma-Wert-Modus für die bestimmte Histogrammzone definiert sein.
Zusätzlich kann die Erfindung als ein System zum Ersetzen von Patch-Bilddaten in einem zusammengesetzten Bild ausgeführt werden, das einen Prozessor umfasst, der ein Patchbild-Grenzpolygon glättet, die geglätteten Patchbilder auf eine volle Bildauflösung hochstuft, und das zusammengesetzte Bild und das hochgestufte geglättete Patchbild verschmilzt, um ein Ausgabebild zu erzeugen. Das Patchbild-Grenzpolygon kann ein Achteck sein. Das Patchbild-Grenzachteck kann im 8-Bit-Format dargestellt sein, und es wird ein Tiefpassfilter, zum Beispiel 7×7, angewendet.
Eine andere Ausführungsform ist ein System zum Umwandeln von Bildern von einem ursprünglichen Format in ein Format mit einer niedrigeren Bits-pro-Pixel-Anzahl, das einen Prozessor umfasst, der eine Tone-Mapping-Verarbeitung durchführt, die sich an Bild-Luma-Werte anpasst und das durch Tone-Mapping verarbeitete Bild ausgibt. Bei dem System kann der Prozessor außerdem ein nicht-lineares lokales Tone-Mapping ausführen, das ein Pixel gemäß der durchschnittlichen Luma-Werte seines Nachbarn in einzelnen Farbkomponenten abbildet, die je durch eine vorbestimmte Anzahl von Bits dargestellt werden. Bei dem System kann der Prozessor ferner zusätzliche Grauskalastufen für häufigere Luma-Werte zuteilen. Das System kann Bilder in ein Anzeigeformat umwandeln, das Pixel mit der Anzahl von Bits hat, die auf einer eingebauten Digitalkamera-Bildanzeige präsentiert werden können. Das System kann auch umfassen, dass der Prozessor eine Familie von lokalen Mapping-Nachschlagetabellen und eine einzige globale Mapping-Nachschlagetabelle definiert, und eine ausgewählte Nachschlagetabelle für jede Bildumwandlungsoperation verwendet, wobei die Nachschlagetabellenauswahl auf den Eigenschaften der Bildszene basiert. Das System kann ferner umfassen, dass der Prozessor ein Helligkeitshistogramm eines zusammengesetzten Bilds konstruiert und ein Mapping gemäß der Verteilung von Helligkeitswerten definiert. Das Helligkeitshistogramm kann durch Verwendung einer Kombination von Histogrammen der herabgestuften Bilder geschätzt werden, die zum Bilden des zusammengesetzten Bilds verwendet werden. Der Histogrammausgleich kann das Mapping definieren.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die beiliegenden Zeichnungen sollen nicht maßstabsgerecht sein. In den Zeichnungen ist jedes gleiche oder fast gleiche Bauteil, das in verschiedenen Figuren veranschaulicht wird, durch das gleiche Bezugszeichen dargestellt. Aus Gründen der Klarheit ist ggf. nicht jedes Bauteil in jeder Zeichnung gekennzeichnet. In den Zeichnungen zeigen:
1 ein Blockdiagramm einer Digitalkamera oder eines anderen Bilderfassungsgeräts, die eine Vielzahl von digitalen Bildern einer Szene bei verschiedenen Belichtungsstufen und zu verschiedenen Zeiten erfasst und diese Bilder auf der in die Kamera eingebauten Bildanzeigeeinrichtung anzeigt;
2 ein hochgradiges Blockdiagramm von Verarbeitungsmodulen, wie sie in einer Digitalkamera implementiert werden;
3 ein Blockdiagramm der 2-Bild-Verschmelzungsmaschine gemäß Ausführungsformen der Erfindung;
4 ein Ablaufdiagramm, das die vollständige Bildmischprozessfolge eines Bildmischer-Verarbeitungsverfahren gemäß Ausführungsformen der Erfindung veranschaulicht;
4A detailliert den von der 2-Bild-Verschmelzungsmaschine der 3 verwendeten Prozess gemäß Ausführungsformen der Erfindung;
5 ein Blockdiagramm des Geisterbild-Entferner-Verarbeitungsmoduls gemäß Ausführungsformen der Erfindung;
6 ein Ablaufdiagramm der Verarbeitungsfolge eines Geisterbild-Entferner-Verarbeitungsverfahrens;
7 ein Foto mit Geisterbildern, die durch die Verwendung von drei Fotos erzeugt werden, die nacheinander gemacht und zusammengesetzt wurden gemäß Ausführungsformen der Erfindung;
8 das Foto der 7 nach dem Entfernen der Geisterbilder gemäß Ausführungsformen der Erfindung;
9 ein Foto, das eine HDR-Verarbeitung gemäß Ausführungsformen der Erfindung erfordert;
10 ein Foto mit Kennzeichnungen entsprechend dem Foto der 9 gemäß Ausführungsformen der Erfindung;
11 ein Foto mit einer Patchauswahl entsprechend dem Foto der 9 gemäß Ausführungsformen der Erfindung;
12 eine Darstellung eines Begrenzungskastens für Pixelpatches gemäß Ausführungsformen der Erfindung;
13 eine Darstellung eines Begrenzungsdiamanten für Pixelpatches gemäß Ausführungsformen der Erfindung;
14 eine Darstellung eines Begrenzungsachtecks für Pixelpatches gemäß Ausführungsformen der Erfindung;
15 eine Veranschaulichung des HDR-Prozesses gemäß Ausführungsformen der Erfindung;
16 eine Veranschaulichung des algorithmischen HDR-Ablaufs gemäß Ausführungsformen der Erfindung;
17 eine Veranschaulichung des algorithmischen Bildfusionsablaufs gemäß Ausführungsformen der Erfindung;
18 ein Beispiel einer stückweisen linearen Funktion für eine Gewichtnachschlagtabelle gemäß Ausführungsformen der Erfindung;
19 eine Veranschaulichung des Geisterbild-Entfernungsablaufs gemäß Ausführungsformen der Erfindung; und
20 ein Diagramm, das eine beispielhafte Aufteilung des mittleren Bild-Histogramms in drei unterschiedliche Zonen gemäß Ausführungsformen der Erfindung darstellt.
BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
Die Erfindung wird nun nachfolgend ausführlicher unter Bezug auf die beiliegenden Zeichnungen beschrieben, die einen Teil von ihr bilden und zur Veranschaulichung spezifische Ausführungsformen zeigen, durch die die Erfindung praktiziert werden kann. Die Erfindung kann aber in vielen verschiedenen Formen ausgeführt werden und ist nicht als auf die hier dargelegten Ausführungsformen beschränkt zu verstehen; im Gegenteil, diese Ausführungsformen werden geliefert, damit diese Offenbarung eingehend und vollständig ist, und übermitteln dem Fachmann voll und ganz den Rahmen der Erfindung. Unter anderen kann die Erfindung als Verfahren oder Vorrichtungen ausgeführt werden. Dementsprechend kann die Erfindung die Form einer ganz aus Hardware bestehenden Ausführungsform in Form von Modulen oder Schaltungen und eine ganz aus Software bestehenden Ausführungsform in Form von Software, die auf einem Universalmikroprozessor, einem anwendungsspezifischen Mikroprozessor, einem Digitalsignal-Universalprozessor oder einem anwendungsspezifischen Digitalsignalprozessor ausgeführt wird, oder eine Ausführungsform annehmen, die Software- und Hardware-Aspekte kombiniert. So werden in der folgenden Beschreibung die Begriffe ”Schaltung” und ”Modul” austauschbar verwendet, um ein Verarbeitungselement zu bezeichnen, das eine Operation an einem Eingangssignal ausführt und ein Ausgangssignal davon liefert, unabhängig von der Hardware- oder Softwareform seiner Implementierung. Desgleichen werden die Begriffe ”registrieren”, ”Registrierung”, ”ausrichten” und ”Ausrichtung” austauschbar verwendet, um den Prozess zu bezeichnen, ähnliche Objekte dazu zu bringen, einander zu entsprechen und sie in die richtige Ausrichtung zu bringen, unabhängig davon, ob der zur Herstellung einer solchen Entsprechung verwendete Mechanismus in der Form von Hardware oder Software implementiert wird. Die folgende ausführliche Beschreibung ist daher nicht einschränkend zu verstehen.
In der Beschreibung und den Ansprüchen nehmen die folgenden Begriffe die ihnen hier explizit zugeordneten Bedeutungen an, wenn der Kontext es nicht klar anders vorgibt. Der Satz ”in einer Ausführungsform”, wie er hier verwendet wird, bezieht sich nicht unbedingt auf die gleiche Ausführungsform, obwohl er es tun kann. Wie hier verwendet, ist der Begriff ”oder” ein inklusiver ”Oder”-Operator und entspricht dem Begriff ”und/oder”, wenn der Kontext es nicht klar anders vorgibt. Der Begriff ”basierend auf” nicht exklusiv und erlaubt das Basieren auf zusätzlichen, nicht beschriebenen Faktoren, wenn der Kontext es nicht klar anders vorgibt. Zusätzlich enthält die Bedeutung von ”ein”, ”und” und ”der/die/das” in der ganzen Beschreibung Plural-Bezüge. Die Bedeutung von ”in” umfasst ”in” und ”auf”. Auch die Verwendung von ”umfassen”, ”aufweisen”, ”haben”, ”beinhalten”, und hiervon umfassene Variationen soll die nachfolgend aufgelisteten Gegenstände und Äquivalente davon sowie zusätzliche Gegenstände umfassen.
1 zeigt eine Digitalkamera oder ein anderes Bildaufnahmegerät, die ein optisches Abbildungssystem 105, einen elektronisch gesteuerten Verschluss 180, eine elektronisch gesteuerte Linsenblende 185, einen optischen Bildsensor 110, einen Analogverstärker 115, einen Analog-Digital-Wandler 120, einen Bilddaten-Signalprozessor 125, eine Bilddaten-Speichereinheit 130, eine Bildanzeigeeinrichtung 106 und einen Kamera-Controller 165 enthält. Die Bilddaten-Speichereinheit könnte eine Speicherkarte oder ein innerer nicht-flüchtiger Speicher sein. Daten von von einer Kamera aufgenommenen Bildern können auf der Bilddaten-Speichereinheit 130 gespeichert sein. In diesem Ausführungsbeispiel kann sie auch einen inneren flüchtigen Speicher für eine vorübergehende Bilddatenspeicherung und Zwischenbildverarbeitungsergebnisse umfassen. Dieser flüchtige Speicher kann auf die einzelnen Bilddaten-Verarbeitungsschaltungen verteilt sein und muss nicht architektonisch in einer einzigen Bilddaten-Speichereinheit wie der Bilddaten-Speichereinheit 130 angeordnet sein. Das optische System 105 kann eine einzelne Linse sein, wie gezeigt, ist aber normalerweise ein Satz von Linsen. Ein Bild 190 einer Szene 100 wird in sichtbarer optischer Strahlung auf einer zweidimensionalen Fläche eines Bildsensors 110 gebildet. Ein elektrischer Ausgang 195 des Sensors transportiert ein Analogsignal, das aus dem Abtasten einzelner Photodetektoren der Fläche des Sensors 110 resultiert, auf den das Bild 190 projiziert wird. Signale proportional zur auf die einzelnen Photodetektoren auftreffenden Lichtstärke werden in dem Ausgang 195 erhalten. Das Analogsignal 195 wird über einen Verstärker 115 an einen Analog-Digital-Wandler 120 mittels des Verstärkerausgangs 102 angelegt. Der Analog-Digital-Wandler 120 erzeugt ein Bilddatensignal vom Analogsignal an seinem Eingang und legt es über den Ausgang 155 an den Bilddaten-Signalprozessor 125 an. Die Photodetektoren des Sensors 110 erfassen typischerweise die Stärke des auf jedes Photodetektorelement auftreffenden Lichts in einer von zwei oder mehr einzelnen Farbkomponenten. Frühere Detektoren detektierten nur zwei getrennte Farben des Bilds. Die Detektierung von Komponenten von drei Primärfarben, wie rot, grün und blau (RGB), ist jetzt üblich. Heute sind Bildsensoren erhältlich, die mehr als drei Farbkomponenten erfassen.
Mehrere Verarbeitungsvorgänge werden an dem Bilddatensignal vom Analog-Digital-Wandler 120 durch den Bilddaten-Signalprozessor 125 durchgeführt. Die Verarbeitung des Bilddatensignals in dieser Ausführungsform ist in 1 als durch viele Bilddatensignal-Verarbeitungsschaltungen im Bilddaten-Signalprozessor 125 durchgeführt gezeigt. Diese Schaltungen können aber durch einen einzigen IC-Bilddaten-Signalprozessorchip implementiert werden, der einen Universalprozessor, der durch gespeicherte Firmware definierte algorithmische Operationen ausführt, viele Universalprozessoren, die durch gespeicherte Firmware definierte algorithmische Operationen ausführen, oder dedizierte Verarbeitungslogik-Schaltungen wie gezeigt umfassen kann. Zusätzlich können diese Operationen von mehreren miteinander verbundenen IC-Chips implementiert werden, aber ein einzelner Chip wird bevorzugt. 1 stellt die Verwendung von in Reihe geschalteten Bilddatensignal-Verarbeitungsschaltungen 135, 140, 145 und 150 dar, um viele algorithmische Verarbeitungsvorgänge an dem Bilddatensignal vom Analog-Digital-Wandler 120 auszuführen. Das Ergebnis dieser Vorgänge sind gespeicherte nicht-flüchtige digitale Bilddaten, die entweder auf der internen Bildanzeigeeinrichtung 106 der Digitalkamera in 1 oder einer externen Anzeigeeinrichtung angesehen werden können. Dieses Ansehen kann entweder durch das physikalische Entfernen einer Speicherkarte aus der Digitalkamera und das Wiedereinführen in eine externe Anzeigeeinrichtung, oder die elektronische Kommunikation der Digitalkamera mit einer externen Anzeigeeinrichtung durch die Nutzung einer Universal-Serial-Bus(USB)-Verbindung oder eines drahtlosen lokalen Wi-Fi- oder Bluetooth-Netzwerks durchgeführt werden.
Zusätzliche Verarbeitungsschaltungen, wie sie durch die Punkte 175 zwischen den Schaltungen 145 und 150 gezeigt sind, können in dem Bilddaten-Signalprozessor der Digitalkamera umfasst sein. Die Serienstruktur des Bilddaten-Signalprozessors der Ausführungsform ist als eine ”Pipeline”-Architektur bekannt. Diese architektonische Konfiguration wird als das Ausführungsbeispiel der Erfindung verwendet, es können aber andere Architekturen verwendet werden. Zum Beispiel kann ein Bilddaten-Signalprozessor mit einer ”parallelen Architektur”, bei der eine oder mehrere Bilddatensignal-Verarbeitungsschaltungen angeordnet sind, um verarbeitete Bilddatensignale von einer Vielzahl von Bilddatensignal-Verarbeitungsschaltungen zu empfangen, statt nachdem sie seriell von allen vorhergehenden Bilddatensignal-Verarbeitungsschaltungen verarbeitet wurden, verwendet werden. Eine Kombination einer teils parallelen und teils Pipeline-Architektur ist auch eine Möglichkeit.
Die Serie von Bilddatensignal-Verarbeitungsschaltungen des Bilddatenprozessors 125 wird eine ”Bildverarbeitungs-Pipeline” genannt. Ausführungsformen fügen Bilddatensignal-Verarbeitungsschaltungen, die in 2 gezeigt sind, zu denjenigen hinzu, die routinemäßig in der Bildverarbeitungs-Pipeline einer Digitalkamera umfasst sind. Bilddatensignal-Verarbeitungsschaltungen, die routinemäßig in der Bildverarbeitungs-Pipeline einer Digitalkamera umfasst sind, umfassen Schaltungen zur Weißabgleichkorrektur (WBC), Linsenabschattungskorrektur (LSC), Gammakorrektur (GC), Farbumwandlungen (CTM), Dynamikbereich-Kompression (DRC), Demosaicing, Rauschunterdrückung (NR), Kantenschärfung (EE), Skalieren und Linsenverzerrungskorrektur (LDC). Wie in 2 dargestellt, fügen Ausführungsformen eine Bildregistrierungsprozessor(IRP)-Schaltung 210, eine Bildmischer(IM)-Schaltung 220, eine Geisterbild-Entferner(GR)-Schaltung 230, und eine Tone-Mapping-Prozessor(TMP)-Schaltung 235 zum oben erörterten Komplement von Bilddatensignal-Verarbeitungsschaltungen hinzu. Der Bildspeicher 200 der 2 speichert die digitalen Daten einer Serie von zwei oder mehr Bildern einer Szene, wobei jedes Serienbild aus digitalen Bits umfassenden Pixeln besteht, wobei diese digitalen Bits von den Bilddatensignal-Verarbeitungsschaltungen in der Bildverarbeitungs-Pipeline verarbeitet wurden. Der Bildspeicher 200 könnte den Speicher mit dem Bildspeicher 130 der 1 teilen, Speicherressourcen, die für eine vorübergehende Bilddatenspeicherung und Zwischenbild-Verarbeitungsergebnisse verwendet werden, oder ganz getrennte flüchtige oder nicht-flüchtige Speicherressourcen könnten aber die vom Bildspeicher 200 verwendeten Speicherressourcen liefern.
Unter Bezug auf 1 veranlasst der Kamera-Controller 165 über die Leitung 145 und die Steuer-/Statusleitungen 160 den elektronischen Verschluss 180, die elektronische Blende 185, den Bildsensor 110, den Analogverstärker 115, und den Analog-Digital-Wandler 120, eine Serie von Bildern einer Szene aufzunehmen und in digitale Bilddaten umzuwandeln. Diese Bilder werden bei verschiedenen Belichtungsstufen erfasst, von Bilddatensignal-Verarbeitungsschaltungen verarbeitet und im Bildspeicher 200 der 2 gespeichert. Der Bildregistrierungsprozessor 210 liest die digitalen Bilddaten der Bildserie, die im Bildspeicher 200 gespeichert sind, und registriert Gegenstückpixel jedes Bilds der Bildserie zueinander, wobei ein Bild (allgemein das Bild mit der mittleren Belichtungszeit) als ein Bezugsbild dient. Die Bildregistrierung wird vor dem Bildmischen ausgeführt, um alle Serienbilder Pixel für Pixel auszurichten. Aufgrund einer Kamerabewegung, die während der Aufnahme einer Bildserie auftritt, ist eine solche Ausrichtung für den Bildmischer 220 der 2 notwendig, damit er Serienbildpixel korrekt kombinieren und ein Bild mit dem vollen Bereich von Grautönen der erfassten Szene bilden kann. Ein solches Bild wird oft als ein ”High Dynamic Range” (Hochdynamikbereich-) oder ”HDR”-Bild bezeichnet. Im Bildmischer 220 wird jedes Serienbildpixel jedes aufgenommenen Serienbilds mit seinem Gegenstückpixel in jedem aufgenommenen Serienbild kombiniert. So wird ein Bildpixel, das eine bestimmte Stellung an der Kante oder innerhalb des Körpers eines Objekts darstellt, das in einem ersten Serienbild erscheint, mit seinem an der gleichen Stelle an der Kante oder innerhalb des Körpers des gleichen Objekts befindlichen Gegenstück gemischt, das in einem zweiten Serienbild erscheint. In diesem Zusammenhang bezieht sich der Standort eines Pixels in einem Bild auf das Objekt, von dem es ein Teil ist, nicht auf das festgelegte Koordinatensystem, das von den senkrechten und waagrechten Außenkanten des Bilds definiert wird.
Der Bildregistrierungsprozessor 210 verwendet im Allgemeinen ein erstes Bild, das mit einer Nennbelichtungseinstellung der Kamera erfasst wird, als ein Bezugsbild, auf das alle anderen Bilder der Serie ausgerichtet werden. Eine Anzahl von Techniken werden derzeit für die Bildausrichtung und -registrierung verwendet. Ein gutes Beispiel wird in "High Dynamic Range Video" von S. B. Kang, M. Uyttendaele, S. Winder und R. Szeliski, Interactive Visual Media Group, Microsoft Research, Redmond, WA, 2003, beschrieben.
Die beschriebene Vorgehensweise behandelt sowohl die Kamerabewegung als auch die Objektbewegung in einer Szene. Für jedes Pixel wird ein Bewegungsvektor zwischen aufeinanderfolgenden Serienbildern berechnet. Dieser Bewegungsvektor wird dann mit zusätzlichen Techniken verfeinert, wie hierarchische Homographie, um Entartungsfälle zu behandeln. Wenn die Bewegung jedes Pixels bestimmt ist, können Rahmen verzogen und mit dem gewählten Bezugsbild registriert werden. Die Bilder können dann vom Bildmischer 220 in ein HDR-Bild gemischt werden.
Es ist anzumerken, dass aus praktischer Sicht in der vorliegenden Anmeldung Bewegungsvektoren von N×M Blöcken abgeleitet werden anstelle von Bewegungsvektoren für jedes Pixel. Zusätzlich wird, sobald die Bewegungsvektoren gegeben sind, eine allgemeine Umwandlung [x' y'] = f(x, y) abgeleitet, wobei x' und y' die neuen Standorte eines gegebenen Punkts {x, y} sind.
Der Bildmischprozess
Der Bildmischer 220 hat die Fähigkeit, eine unbegrenzte Anzahl von Bildern zu mischen, verwendet aber eine Bildverschmelzungsmaschine, die die Pixel von zwei Bildern zugleich mischt. Die 2-Bildverschmelzungsmaschine des Mischers 220 ist in 3 gezeigt. In einer Ausführungsform der Erfindung verschmilzt die Verschmelzungsmaschine die Pixel eines ersten 8-Bit-Bilds, dessen digitale Bilddaten auf der Eingangsleitung 300 erscheinen, und die Pixel eines zweiten 8-Bit-Bilds, dessen digitale Bilddaten auf der Eingangsleitung 305 erscheinen. Bilder mit Bitbreiten, die größer sind als 8 Bits, zum Beispiel 10 Bits, oder schmaler, zum Beispiel 7 Bits, können verwendet werden. Das Ablaufdiagramm der 4 veranschaulicht den vollständigen Bildmischprozess des Bildmischers 220, und 4A zeigt im Einzelnen den Block 420 der 4, den von der 2-Bildverschmelzungsmaschine der 3 verwendeten Prozess.
Unter Bezug auf 3 verschmilzt der Bildmischprozess zwei Bilder während jeder Bildmischoperation. Die ersten zwei zu verschmelzenden Bilder werden beide von der erfassten Bildserie genommen, wobei jedes Bild der erfassten Bildserie vorher mit einem Bezugsbild registriert wurde, das mit einer Nennbelichtungseinstellung der Kamera aufgenommen wurde. Für die anfängliche Bildmischoperation liefert das Serienbild mit einer niedrigeren Belichtungsstufe den digitalen Erstes-Bild-Bilddateneingang, der auf der Leitung 300 der 3 erscheint, und das Serienbild mit einer höheren Belichtungsstufe liefert den digitalen Zweites-Bild-Bilddateneingang, der auf der Leitung 305 erscheint. Für eine zweite und alle folgenden Bildmischoperationen wird ein folgendes Bild der Serie mit dem Ergebnis verschmolzen, das von einer vorhergehenden Bildmischoperation erhalten wird. Für diese nachfolgenden Mischoperationen dienen die digitalen Bilddaten eines folgenden Bilds der Serie als der digitale Zweites-Bild-Bilddateneingang, der auf 305 erscheint, und das digitale Mischbild-Bilddatenergebnis dient als der digitale Erstes Bild-Bilddateneingang, der auf der Leitung 300 der 3 erscheint. In allen Fällen wurde das folgende Bild der Serie mit einer höheren Belichtungsstufe belichtet als sein direkter Vorgänger in der Bildserie.
Die digitalen Zweites-Bild-Bilddaten auf der Leitung 305 werden anfangs auf zwei Arten verarbeitet. (1) Die Luma-Umwandlungsschaltung 320 extrahiert die Luma, die Schwarz-Weiß-Komponente der kombinierten Rot-, Grün- und Blau(RGB)-Komponentendaten, die die digitalen Zweites Bild-Bilddaten 305 umfassen, und gibt die Luma-Komponente jedes Bilddatenpixels auf der Leitung 325 aus. (2) Der Bildnormierer 310 normiert die Belichtungsstufe jeder RGB-Komponente der Zweites-Bild-Bilddaten auf der Leitung 305 auf die Belichtungsstufe eines Bezugsbilds, und gibt auf der Leitung 302 jedes Bilddatenpixel, für jede Farbkomponente, normiert auf die Bezugs-Bildbelichtungsstufe aus. Es ist anzumerken, dass das verwendete Bezugsbild nicht unbedingt das gleiche Bezugsbild ist, das für den vorher beschriebenen Registrierungsprozess verwendet wird. Für eine Ausführungsform der Erfindung dient die Belichtungsstufe des dunkelsten Bilds der Serie, d. h. des Bilds, das am wenigsten belichtet wird, als die Bezugsbelichtungsstufe, und alle anderen Bilder der Serie werden darauf normiert. Wenn zum Beispiel die erfasste Bildserie aus drei Bildern besteht, einem dunklen Bild, das 1/64 s lang belichtet wird, einem mittleren Bild, das 1/16 s belichtet wird, und einem hellen Bild, das 1/2 s belichtet wird, wäre der normierte Wert jedes Pixels des auf der Leitung 302 erscheinenden mittleren Bilds: Mittlerer Pixelwert_Normiert = Mittlerer Pixelwert_Eingang/((1/16)1(1164)) = Mittlerer Pixelwert_Eingang/4; (1) und der normierte Wert jedes Pixels des auf der Leitung 302 erscheinenden hellen Bilds wäre: Heller Pixelwert_Normiert = Heller Pixelwert_Eingang/((1/2)/(1/64)) = Heller Pixelwert_Eingang/32 (2)
Daher gilt für diese Ausführungsform der Erfindung: Belichtungsstufe_Normiert = Belichtungsstufe_Serienbild/Belichtungsstufe_{am wenigsten belichtetes Serienbild} (3) und der normierte Wert jedes Pixels des Zweites Bild-Bilddaten-Eingangs auf der Leitung 305 und Ausgangs auf der Leitung 302 ist: Zweites Bild-Pixelwert_Normiert = Zweites Bild-Pixelwert_Eingang/Zweites Bild-Belichtungsstufe_Normiert (4)
Die Luma-Komponente jedes digitalen Zweites-Bild-Bilddatenpixels, das auf der Leitung 325 der 3 erscheint, wird in die Nachschlagetabelle (LUT) 315 eingegeben, um einen Pro-Pixel-Gewichtungsparameter, Wi, auf den Leitungen 330 und 335 zu erhalten. Die Luma-Komponente jedes digitalen Zweites-Bild-Pixels dient als ein Index in die LUT 315 und verursacht, dass ein Gewichtungsparameterwert Wi zwischen den Zahlen Null und Eins auf den Leitungen 330 und 335 für jeden eingegebenen Luma-Wert ausgegeben wird. Dieser Wert wird in Form einer zweidimensionalen Matrix ausgegeben, in der gilt: W(m, n) = 255 – Luma(m, n); (5)
Luma(m, n) ist die Luma-Komponente jedes digitalen Zweites-Bild-Datenpixels an den Bildkoordinaten (m, n), die für diese Ausführungsform der Erfindung einen maximalen Wert von 255 erreichen kann, da die Ausführungsform die Pixel von 8-Bit-Serienbildern verschmilzt, und 255 = Eins, was den 100%-Ausgangswert der Tabelle 315 darstellt. Zweites-Bild-Pixelwerte, die als Indices in die LUT 315 dienen, sind digitale 8-Bit-Werte mit einem Zahlenbereich von 0 bis 255. Daher ermöglicht die Definition von 255 als Eins eine direkte Abbildung vom Eingangsindexwert zum Ausgangsgewichtungsparameterwert und reduziert die Gewichtungsparameteranwendung-Berechnungsarbeitslast. Es können andere Werte von Eins gewählt werden. Wenn zum Beispiel die Zweites-Bild-Pixelwerte der Luma-Komponente, die als Indices in die LUT 315 dienen, digitale 10-Bit-Werte sind, mit einem Zahlenbereich von 0 bis 1023, wäre es angebracht und günstig, Eins den Wert von 1023 zuzuweisen.
Für diese Ausführungsform nimmt der Gewichtungsparameterwertausgang von der LUT 315 linear ab, wenn der Zweites-Bild-Pixelwert der Luma-Komponente, der als Index in die LUT 315 dient, zunimmt. Andere LUT-Funktionen, zum Beispiel trapezförmige Funktionen, bei denen der von der LUT 315 erhaltene Gewichtungsparameterwert auf einem vorbestimmten Wert bleibt und linear abzunehmen beginnt, wenn der Zweites Bild-Pixelwertindex der Luma-Komponente unter eine Schwelle abnimmt, können auch verwendet werden. Die Wahl der Funktionen der LUT 315 basiert auf der Beobachtung, dass, wenn zwei Bilder gemischt werden, eines, das hoch gesättigt ist aufgrund der Belichtung bei einer hohen Belichtungsstufe, vielleicht mit einer langen Belichtungszeit, und das andere dunkel, aufgrund der Belichtung bei einer niedrigeren Belichtungsstufe, vielleicht mit einer kurzen Belichtungszeit, es wünschenswert ist, ein niedriges Gewicht auf die hoch gesättigten Pixel des Bilds mit der hohen Belichtungsstufe anzuwenden, während ein hohes Gewicht auf die Gegenstückpixel des Bilds mit der niedrigen Belichtungsstufe angewendet wird. Dies führt zu einem Mischbild mit weniger hoch gesättigten Pixeln, da viele möglicherweise durch korrekt belichtete Gegenstückpixel ersetzt wurden. Das Ergebnis ist ein Mischbild mit größerem Detail in seinen Glanzlicht-Bereichen, während zur Schattenzone gehörende Pixel hauptsächlich vom Bild mit höherer Belichtung genommen werden.
Die Ausführungsformen sind nicht auf die Verwendung einer einzigen LUT 315 beschränkt. Es kann eine Vielzahl von LUTs verwendet werden. In diesem Fall kann jedem Serienbild eine andere LUT zugeordnet werden, um den Gewichtungswert zu erhalten, oder zwei oder mehr Serienbilder können der gleichen LUT von einer Vielzahl von gelieferten LUTs zugeordnet werden. Diese LUTs können zum Beispiel mit Gewichtsparameterwerten besetzt sein, die auf Serienbild-Belichtungsstufen reagieren.
In der vorliegenden Anmeldung wird eine Verbesserung in bestimmten Ausführungsformen bereitgestellt, die in der Stammanmeldung nicht zur Verfügung stehen. Die Bildsensoren sind typischerweise von mindestens einer 12-Bit-Auflösung, während derzeitige Anzeigeeinrichtungen nur eine 8-Bit-Auflösung haben, also wird eine nicht-lineare Gamma-Operation auf Original-Pixel während der Aufnahme angewendet, um den Bereich auf 8 Bits für die Anzeigeeinrichtung zu begrenzen. Daher wird bei bestimmten in der vorliegenden Anmeldung gelieferten Ausführungsformen das Verschmelzen vorzugsweise an einer ”gammakorrigierten Version” von zwei eingegebenen Bildern Im1 und Im2 ausgeführt, wobei die Gamma-Korrektur-Operation eine LUT ist, die die RGB-Bildpixel von 8 Bits (d. h. dem nicht-linearen Bereich) zu 16 Bits (d. h. dem linearen Bereich) zurück bewegt, daher gilt: Verschmolzenes_Bild = Gammakorrektur(Im1) × (I – W) + Gammakorrektur(Im2) × W (6)
Da die Belichtung im linearen Bereich stattfindet, sollte die Normierung auf die Belichtungszeit außerdem auch in diesem Bereich stattfinden.
Bevorzugte Ausführungsformen der vorliegenden Erfindung können durch kleinere Veränderungen an den in der Stammanmeldung beschriebenen Ausführungsformen implementiert werden, wie nun beschrieben wird. Unter Bezug auf die Implementierung der Stammanmeldung, die zum Beispiel als 3 dieser Anmeldung gezeigt ist, werden nun Gammakorrektur-Funktionsblöcke 301 und 302 vorher zum Bildnormierer hinzugefügt, wie in 3 der vorliegenden Anmeldung gezeigt ist. Diese Blöcke können selektiv durch Flags aktiviert werden, z. B. DG_FLAG und DG_FLAG2. Auch wird bei der ersten Ausführung des oben beschriebenen iterativen Prozesses die erste Bilddateneingabe (300) in den Gammakorrektur-Bereich (d. h. linear) umgewandelt. Bei den nächsten Iterationen, die eine 2-Bildverschmelzungsmaschine verwenden, ist es nicht notwendig, eine Gammakorrektur am Ersten Bild anzuwenden, wenn die verschmolzene Ausgabe von einer vorhergehenden Stufe verwendet wird und sich bereits im Gammakorrektur-Bereich befindet. Desgleichen kann die Implementierung der 4A der Stammanmeldung gemäß bevorzugten Ausführungsformen der vorliegenden Erfindung durch Hinzufügen einer zusätzlichen Pixel-Gammakorrektur-Funktion am normierten Pixel (Block 429) verändert werden. Dieser Block kann auch durch ein externes Flag selektiv aktiviert/deaktiviert werden. Desgleichen, wenn Ausführungsformen der vorliegenden Erfindung Bilder an die Eingänge 500 und 505 der in 5 gezeigten Schaltungsanordnung übertragen, können diese Bilder auch verarbeitet werden, um sich im Gammakorrektur-Bereich zu befinden, falls erforderlich.
Während der Verschmelzungsoperation wird der Gewichtungsparameter, auf einer Pixel für Pixel Basis, auf jede Farbkomponente der normierten digitalen Zweites Bild-Bilddaten, die auf der Leitung 302 erscheinen, angewendet, und 1 minus der Gewichtungsparameter z. B. (1 – Wi) wird auf jede Farbkomponente der digitalen Erstes Bild-Bilddaten angewendet, die auf der Leitung 300 erscheinen. Die Pixel-für-Pixel-Verschmelzungsoperation wird durch die folgende Gleichung definiert: Verschmolzenes Bilddatenpixel = (I – Wi) × (1. Bilddatenpixel) + Wi × (Normiertes 2. Bilddatenpixel) (7)
Die Verarbeitungsblöcke der 3 führen die Gleichung (7) wie folgt aus: Die Luma der Zweites-Bild-Daten auf der Leitung 305 wird durch die Luma-Umwandlungsschaltung 320 abgeleitet und von der LUT 315 verwendet, um den Gewichtungsparameter Wi auf den Leitungen 330 und 335 zu erzeugen. Der Multiplikator 307 multipliziert die normierten digitalen Zweites-Bild-Bilddaten, normiert vom Bildnormierer 310, mit Wi auf der Leitung 330 und gibt das Ergebnis auf der Leitung 355 aus. Wi wird auch auf den Datensubtrahierer 340 durch die Leitung 335 angewendet, die (1 – Wi) auf der Leitung 345 ausgibt. Digitale Erstes-Bild-Bilddaten auf der Leitung 300 werden mit (1 – Wi) auf der Leitung 345 vom Multiplikator 350 multipliziert und das Ergebnis auf der Leitung 365 ausgegeben. Die normierten und gewichteten digitalen Zweites-Bild-Bilddaten auf der Leitung 355 werden zu den gewichteten digitalen Erstes Bild-Bilddaten auf der Leitung 365 vom Addierer 360 hinzugefügt. Der Addierer 360 gibt verschmolzene Bildpixel auf der Leitung 370 aus. Diese Pixel werden im Bildspeicher 375 gespeichert und als verschmolzene 2-Bild-Bilddaten auf der Leitung 380 ausgegeben.
Der von der 2-Bild-Verschmelzungsmaschine der 3 verwendete Pixelverschmelzungsprozess ist im Verarbeitungsblock 420 der 4A dargestellt. Die Daten des zu verschmelzenden Ersten-Bilds kommen in den Prozess in 423, und die Daten des zu verschmelzenden Zweiten-Bilds kommen in den Prozess in 413. Der Pixelverschmelzungsprozess beginnt in 445. In 427 wird ein Pixel von dem Zweiten-Bild ausgewählt. Das ausgewählte Zweites-Bild-Pixel wird in 429 normiert, und seine Luma wird in 450 abgeleitet. Die Luma des Zweites-Bild-Pixels wird verwendet, um den Gewichtungsparameter Wi, 485, von einer LUT in 465 zu erhalten. Das normierte Zweites-Bild-Pixel wird mit dem Gewichtungsparameter Wi, 485, in 455 multipliziert. Das normierte und gewichtete Zweites-Bild-Pixel geht in einen Addierprozess in 475. Das Erstes-Bild-Gegenstückpixel des ausgewählten Zweiten-Bild-Pixels wird in 460 ausgewählt und mit (1 – Wi) in 470 multipliziert. Das gewichtete Erstes-Bild-Pixel geht in den Addierprozess in 475 und wird mit dem normierten und gewichteten Zweiten Bild-Pixel verschmolzen. Wenn mehr zu verschmelzende Bildpixel übrig sind, wie im Entscheidungspunkt 480 bestimmt und durch ”Nein” in 431 angezeigt wird, wird der nächste Pixelverschmelzungszyklus in 445 begonnen, was dazu führt, dass ein nächstes Erstes-Bild-Pixel und ein nächstes Zweites-Bild-Pixel in 460 bzw. 427 ausgewählt und wie beschrieben verschmolzen werden.
Wenn keine zu verschmelzenden Bildpixel mehr übrig sind, wie am Entscheidungspunkt 480 bestimmt und durch ”Ja” in 433 angezeigt wird, es aber mehr zu mischende Bilder in der erfassten Bildserie gibt, wie im Entscheidungspunkt 495 bestimmt und durch ”Nein” in 487 angezeigt wird, wird ein weiteres Zweites-Bild aus den verbleibenden, ungemischten Serienbildern ausgewählt, dessen Daten als die nächsten zu verschmelzenden Zweites-Bild-Daten dienen. In den Implementierungen der Stammanmeldung hat das ausgewählte Zweite-Bild eine höhere Belichtungsstufe als die vorhergehende Zweites-Bild-Auswahl, in den Ausführungsformen der vorliegenden Anmeldung sind solche Zwänge aber nicht zutreffend; die Bilder können in einer beliebigen Reihenfolge verarbeitet werden, unabhängig von der relativen Belichtungsstufe. Eine solche Auswahl wird vom Bildauswahlprozess 425 als Reaktion auf das ”Nein” in 487 getroffen. Zusätzlich werden die gemischten 2-Bild-Bildausgabedaten in 493 vom Erstes-Bild-Datenauswahlprozess 435 als die nächsten zu verschmelzenden Erstes-Bild-Daten ausgewählt, da der Entscheidungspunkt 430 ”Ja” anzeigt, um 435 in 441 zu verarbeiten, als Reaktion darauf, dass gemischte 2-Bild-Bilddaten in 493 zur Verfügung stehen. Wenn gemischte 2-Bild-Bilddaten nicht in 493 zur Verfügung stehen, wie es zu Beginn eines Bildmischprozesses der Fall wäre, würde der Entscheidungspunkt 430 dem Verarbeitungsblock 440 melden, indem ein ”Nein” in 437 platziert wird, dass er ein Erstes-Bild aus der aufgenommenen zu verschmelzenden Bildserie mit einer niedrigeren Belichtungsstufe auswählen soll als das zu verschmelzende Zweite Bild (in den Ausführungsformen der Stammanmeldung), das aus der erfassten Bildserie vom Verarbeitungsblock 425 ausgewählt wird. In diesem Fall wird eine Information über die ausgewählte Zweites-Bild-Belichtungsstufe an den Auswahlblock 440 in 407 übermittelt, eine Information über eine geringste belichtete Serienbild-Belichtungsstufe wird an den Auswahlblock 440 in 443 übermittelt und ausgewählte Serienbilddaten werden an den Verarbeitungsblock 440 in 439 übermittelt. Wie im Ablaufdiagramm der 4 dargestellt und in den Ausführungsformen der Erfindung der vorliegenden Anmeldung verwendet, kann das Serienbild mit der niedrigsten Belichtungsstufe nicht unbedingt als Erstes Bild ausgewählt werden. Außerdem ist der Block 440 der Stammanmeldung nicht mehr notwendig.
Wenn es keine zu mischenden Bilder mehr in der aufgenommenen Bildserie gibt, endet der Prozess mit der gemischten HDR-Bild-Ausgabe, das in 497 erscheint.
Wie oben bezüglich der Implementierung der Stammanmeldung beschrieben, die in 4A gezeigt ist, kann ein Flag am Bildausgangspunkt 497 hinzugefügt werden, um eine Gamma-Operation für bevorzugte Ausführungsformen der vorliegenden Erfindung zu aktivieren/deaktivieren. Für alle Serienbilder ist diese Gamma-Operation AUS, bis auf das letzte, wenn der letzte Ausgang geliefert wird.
Das Ablaufdiagramm der 4 der vorliegenden Erfindung veranschaulicht den vollständigen Bildmischprozess des Bildmischers 220. Der Block 420, der den von der 2-Bild-Verschmelzungsmaschine der 3 verwendeten 2-Bild-Verschmelzungsprozess darstellt, ist in 4 hervorgehoben und im Detail in 4A veranschaulicht. 4 enthält auch die Verarbeitung, die vor dem 2-Bild-Verschmelzungsprozessblock 420 liegt. Diese Verarbeitung umfasst die Aufnahme einer Serie von Bildern, wobei jedes Bild mit einer anderen Belichtungsstufe belichtet wird, im Verarbeitungsblock 400, die Registrierung von Duplikat-Serienbildpixeln zueinander, im Verarbeitungsblock 405, die Bestimmung des am wenigsten belichteten Serienbilds (in der Stammanmeldung) im Verarbeitungsblock 410, die Berechnung einer normierten Belichtungsstufe gemäß der oben beschriebenen Gleichung (3), die auf das am wenigsten belichtete Bild der Serie oder auf ein anderes Bild in dieser verbesserten Ausführungsform bezogen werden kann, für jedes Bild in der Serie, im Verarbeitungsblock 415 auf. Diese berechnete normierte Belichtungsstufe wird von 429 des Verarbeitungsblocks 420 verwendet, um jedes Zweites-Bild-Pixel zu normieren, wie vorher durch die Gleichung (4) beschrieben, ehe es mit einem Gewichtungsparameter multipliziert und mit einem gewichteten Erstes-Bild-Pixel gemäß der vorher beschriebenen Gleichung (7) verschmolzen wird.
Der Bildmischprozess des Bildmischers 220 verwendet nur Summierung und Multiplikationen, wodurch rechnermäßig intensive Divisionsoperationen vermieden werden und es ihm ermöglicht wird, von einer Festkomma-Rechenmaschine implementiert zu werden. Zusätzlich, da die verwendete Mischvorgehensweise auf aufeinanderfolgenden Zweibild-Mischoperationen basiert, muss nicht gewartet werden, bis alle Serienbilder aufgenommen sind, ehe eine Mischoperation gestartet wird. Der Mischprozess kann direkt beginnen, nachdem gerade zwei Bilder der Serie aufgenommen worden sind. Diese Eigenschaften ermöglichen es dem Mischprozess, schnell ein HDR-Bild von einer reihenbelichteten Bildserie zu erzeugen, indem eine Rechenmaschine mit begrenzter Verarbeitungsleistung verwendet wird.
Der Geisterbild-Entfernungsprozess
In der Stammanmeldung entfernt der Geisterbild-Entferner 230 ortsverschobene Wiedergaben von Szeneobjekten, oder Geisterbilder, die in den gemischten HDR-Bildausgangsdaten in 497 der 4 aufgrund der Bewegung dieser Objekte während der Zeit erscheinen, in der die Bilder der Serie erfasst werden. Im Wesentlichen erscheinen Geisterbilder aufgrund des Mischens von Serienbildern, bei denen ein Objekt, das in einem Erste-Serie-Bild gezeigt wird, sich bezüglich seiner Erste-Serie-Bild-Standortkoordinaten bewegt hat, wie in einem Zweite-Serie-Bild gezeigt wird. Folglich kann in dem gemischten Bild das Objekt an vielen Standorten erscheinen, wobei die Standorte von der Bewegungsgeschwindigkeit und der Bewegungsrichtung des Objekts abhängen. In der Stammanmeldung beschriebene Ausführungsformen der Erfindung verwenden eine einzige Vorgehensweise in zwei Phasen zum Abschwächen von Geisterbildern.
Angesichts eines gemischten Bilds, HDR(i, j), erzeugt von einer gewichteten Summe von Bildern von einer erfassten ausgerichteten Bildserie von K Bildern, berechnet die Ausführungsform in einer ersten Verarbeitungsstufe zuerst die Varianz des Luma-Werts jedes Pixels von HDR(i, j) wie folgt: V(i, j) = E_fcW(i, j, k) × P²(i, j, k) – HDR(i, j)² (8) wobei gilt:

V(i, j): = Die Varianz des Luma-Werts des gemischten HDR-Bildpixels, HDR(i, j), angeordnet an den Bildkoordinaten (i, j) bezüglich des Werts des Kten Serienbildpixels angeordnet an den Bildkoordinaten (i, j), über die K ausgerichteten Bilder der erfassten Bildserie;
HDR(i, j): = Der Luma-Wert des gemischten HDR-Bildpixels angeordnet an den Bildkoordinaten (i, j);
W(i, j, k): = Ein normierendes Gewicht angewendet an die Stufe des Kten Serienbildpixels angeordnet an den Bildkoordinaten (i, j), um den Serienbildpixel-Stufenbereich auf den Pixel-Stufenbereich des gemischten HDR-Bilds zu normieren; und
P(i, j, k): = Der Wert des Kten Serienbildpixels angeordnet an den Bildkoordinaten (i, j);

_ref

_{1.verarbeitete}

Die erste Phase einer oben beschriebenen Geisterbild-Entfernungsverarbeitung basiert auf der Beobachtung, dass, wenn es keine lokale Bewegung in den gemischten Serienbildern gibt, die Varianz eines Pixels in der gemischten HDR-Bildausgabe über die K ausgerichteten Bilder der erfassten Bildserie, wie durch die obige Gleichung (8) definiert, niedrig ist. Der einzige mit dieser Annahme verbundene signifikante Fehler ist der Ausrichtungsfehler. Da die Ausrichtung inhärent ein globaler Prozess ist, kann sie keine lokale Bewegung eines lokalen Bildobjekts kompensieren, und so äußert sich die Bewegung eines lokalen Objekts als Pixelvarianzzonen hoher Amplitude. Durch Analyse der Pixelvarianzzonen hoher Amplitude in den durch die Gleichung (8) erzeugten zweidimensionalen Varianzdaten können Zonen lokaler Bewegung in den gemischten HDR-Bildausgangsdaten definiert werden, und gemischte HDR-Bildausgangsdatenpixel mit Varianzen über einer vordefinierten Schwelle können durch Duplikat-Pixel vom Bezugsbild ersetzt werden. Das gewählte Bezugsbild ist oft das am wenigsten belichtete Serienbild, kann aber ein Serienbild sein, das mit einer höheren Belichtungsstufe belichtet wird.
Die erste Phase der Geisterbild-Entfernungsverarbeitung der Ausführungsform erzeugt erste verarbeitete gemischte Bilddaten, HDR_{1.verarbeitete}, mit weniger Geisterbildern. Einige Rest-Geisterbilder bleiben aber. Eine zweite Verarbeitungsphase verbessert diese Ergebnisse durch Vergleich des Inhalts von HDR_{1.verarbeitete} mit HDR_ref. In dieser zweiten Phase werden Geisterbildreste durch Analysieren des Pixel-zu-Pixel-Ergebnisses erfasst, das durch Subtrahieren der Luma von HDR_ref von der Luma von HDR_{1.verarbeitete} erhalten wird. Es wird ein weiterer Schwellenwert basierend auf dem maximalen Wert der Differenzen zwischen der Luma von HDR_{1.verarbeitete} und der Luma von HDR_ref erzeugt. Jedes HDR_{1.verarbeitete}-Datenpixel, das den zweiten Schwellenwert überschreitet, wird durch sein Gegenstück-HDR_ref-Datenpixel ersetzt, was zu zweiten verarbeiteten gemischten Bilddaten, HDR_{2.verarbeitete}, mit weniger Geisterbildern führt. Die von dieser Ausführungsform der zweiten Verarbeitungsphase der Erfindung verwendete Prozedur kann folgendermaßen zusammengefasst werden:

(a) Erzeuge D0 = ABS(Luma(HDR_{1.verarbeitete}) – Luma(HDR_ref));
(b) Bestimme Schwelle2. = Max(D0) = DM0.
(c) Ersetze jedes HDR_{1.verarbeitete}-Datenpixel, das die Schwelle2. überschreitet, durch sein Gegenstück-HDR_ref-Datenpixel, was zu HDR_{2.verarbeitete} gemischten Bilddaten führt
(d) Vergleiche HDR_{2.verarbeitete} mit HDR_ref und erzeuge Max(Dl) = Dm1, wobei gilt Dm1 = Max((ABS(Luma(HDR_{2.verarbeitete}) – Luma(HDR_ref)))
(e) Wenn gilt Dm1 > 60% von DM0, ist Schwelle2. zu groß und HDR_{2.verarbeitete} kann zu sehr wie HDR_ref aussehen. Dann:
(f) Segmentiere DM0 in 2 Stufen, wobei gilt DM00 = ein Wert < 0.5DM0, und DM01 = ein Wert > 0.5DM0
(g) Bestimme, in Prozent, die Menge von HDR_{2.verarbeitete} Bildfeld bezüglich des vollen Bildfelds, die DM01, GRÖSSE_1 überschreitet
(h) Bestimme, in Prozent, die Menge von HDR_{1.verarbeitete} Bildfeld bezüglich des vollen Bildfelds, die DM00, GRÖSSE_0 überschreitet, wobei GRÖSSE_1 sein sollte >= GRÖSSE_0.
(i) Berechnetes GRÖSSE-VERHÄLTNIS = GRÖSSE_1/GRÖSSE_=0
(j) Wenn gilt (GRÖSSE_0 > 40% ∥ (GRÖSSE_VERHÄLTNIS > 2 && GRÖSSE_1 > 8%))
(k) Nimm erneut Serienbilder auf
(l) Sonst
(m) Ersetze Pixel von HDR_{2.verarbeitete} Bildfeldern, die DM01 überschreiten, durch ihre Gegenstück-HDR_ref-Pixel, was zu HDR_{2.verarbeitete} gemischten Bilddaten führt
(n) Ende

Der Geisterbild-Entfernungsprozess kann auf alle ausgerichteten, aufgenommenen, reihenbelichteten Serien von zwei oder mehr Bildern angewendet werden. Zusätzlich können zwei oder mehr HDR_ref-Bilder von dem Prozess verwendet werden. Wenn der Prozess zum Beispiel auf eine Serie von drei Bildern angewendet wird, wobei die Belichtungsstufe eines ersten Serienbilds niedriger als die Belichtungsstufe eines zweiten Serienbilds und die Belichtungsstufe des zweiten Serienbilds niedriger ist als die Belichtungsstufe eines dritten Serienbilds ist, können die Felder der Zonen des zweiten Serienbilds, die gemischten Bilddaten mit Varianzen entsprechen, die die erste Schwelle überschreiten, verwendet werden, um zwischen zwei Bezugsbildern HDR_ref1 und HDR_ref2 auszuwählen. In diesem Beispiel werden zweite Serienbildzonenfelder, die gesättigt sind, summiert, und ein Verhältnis der Summe von gesättigten Feldern zum Gesamtfeld des zweiten Serienbilds wird verwendet, um HDR_ref für den Rest der Geisterbild-Entfernungsverarbeitung auszuwählen. Wenn das Verhältnis kleiner als ein oder gleich einem Parameterwert ist, zum Beispiel 0.03 zu 1, dann wird HDR_ref2 = zweites Serienbild ausgewählt. Wenn das Verhältnis größer als der Parameterwert ist, dann wird HDR_ref1 = erstes Serienbild ausgewählt. Ferner kann die obige Auswahlvorgehensweise, oder können andere von ähnlicher Beschaffenheit, die auf andere Bildmerkmale reagieren, wie zum Beispiel die Größe von Bildfeldern mit Objektbewegung über einer vorbestimmten Schwelle, oder Raumfrequenzdetails über einer vorbestimmten Schwelle, verwendet werden, um ein HDR_ref1 für die erste Phase der Geisterbild-Entfernungsverarbeitung und zusätzlich ein anderes HDR_ref2 für die zweite Phase der Geisterbild-Entfernungsverarbeitung auszuwählen.
5 ist ein Blockdiagramm einer Ausführungsform des Geisterbild-Entferner-Verarbeitungsmoduls 230 von 2. HDR-Mischbild-Pixeldaten werden in die Luma-Umwandlungsschaltung 515 und die erste Pixelersatzschaltung 540 auf der Leitung 505 der 5 eingegeben. Die Luma-Umwandlungsschaltung 515 wandelt HDR-Mischbild-Pixeldaten in Mischbild-Luma-Pixeldaten um, und gibt über die Leitung 525 Mischbild-Luma-Pixeldaten in die Varianzberechnungsschaltung 550 ein. Obwohl nicht in 2 gezeigt, werden ausgerichtete Bilder der erfassten reihenbelichteten Serie von zwei oder mehr Bildern in das Geisterbild-Entferner-Modul 230 auf der Leitung 500 der 5 eingegeben, die mit der Bezugsbild-Auswahlschaltung 510 verbunden ist. In dieser Ausführungsform wählt die Bezugsbild-Auswahlschaltung 510 das am wenigsten belichtete Serienbild als das Bezugsbild HDR_ref aus, es könnte aber ein mit einer höheren Belichtungsstufe belichtetes Serienbild ausgewählt werden. Durch die Leitung 520 werden HDR_ref-Pixeldaten auch auf die Varianzberechnungsschaltung 550 angewendet. Zusätzlich wendet die Leitung 520 HDR_ref-Pixeldaten auf die 1. Pixelersatzschaltung 540, 2. Pixelersatzschaltung 585 und Luma-Umwandlungsschaltung 560 an. Von den HDR_ref-Pixeldaten auf der Leitung 520 und den Mischbild-Luma-Pixeldaten auf der Leitung 525 erzeugt die Varianzberechnungsschaltung 550 ausgegebene Mischbild-Luma-Pixelvarianzdaten auf der Leitung 530. Diese Luma-Pixelvarianzdaten werden auf die erste Pixelersatzschaltung 540 über die Leitung 530 angewendet. Auf der Leitung 535 wird ein 1. Schwellenwert auch auf die 1. Pixelersatzschaltung 540 angewendet. Von diesen Eingaben ersetzt die 1. Pixelersatzschaltung 540 Pixel der Mischbild-Pixeldaten auf der Leitung 505, deren Luma-Varianz den ersten Schwellenwert auf der Leitung 535 überschreitet, durch Gegenstückpixel von den HDR_ref-Daten auf der Leitung 520, um erste verarbeitete Mischbild-Pixeldaten, HDR_{1.verarbeitete}, auf der Leitung 545 zu erzeugen, die der Ausgang einer ersten Verarbeitungsphase sind.
Der Ausgang der ersten Verarbeitungsphase, HDR_{1.verarbeitete}, auf der Leitung 545, wird durch die Luma-Umwandlungsschaltung 565 zu HDR_{1.verarbeitete} Luma-Pixeldaten umgewandelt. Der Ausgang der Schaltung 565 erscheint auf der Leitung 595 und ist mit der Vergleichsschaltung 575 verbunden. HDR_{1.verarbeitete} auf der Leitung 545 wird auch an die 2. Pixelersatzschaltung 585 angewendet. Die Leitung 520 wendet HDR_ref-Pixeldaten auf die Luma-Umwandlungsschaltung 560 und die 2. Pixelersatzschaltung 585 an. Die Pixeldaten-zu-Luma-Umwandlungsschaltung 560 wandelt HDR_ref-Pixeldaten in HDR_ref-Luma-Pixeldaten um und liefert die HDR_ref-Luma-Pixeldaten an die Vergleichsschaltung 575 über die Leitung 570. Die Vergleichsschaltung 575 berechnet die Differenz zwischen jedem HDR_{1.verarbeitete}-Luma-Datenpixel und seinem Gegenstück-HDR_ref-Luma-Datenpixel und erzeugt einen 2. Schwellenwert basierend auf dem maximalen Wert der Differenzen. Dieser 2. Schwellenwert wird an die 2. Pixelersatzschaltung 585 über die Leitung 580 angewendet. Die 2. Pixelersatzschaltung 585 ersetzt jedes HDR_{1.verarbeitete}-Datenpixel auf der Leitung 545, das den 2. Schwellenwert überschreitet, durch sein Gegenstück-HDR_ref-Datenpixel auf der Leitung 520, wobei die resultierenden 2. verarbeiteten Mischbilddaten, HDR_{2.verarbeitete}, auf der Leitung 590, die Geisterbild-reduzierte Ausgabe einer zweiten Verarbeitungsphase sind.
Der von dem Geisterbild-Entferner-Verarbeitungsmodul der 5 verwendete Geisterbild-Entfernungsprozess mit zwei Phasen ist im Ablaufdiagramm der 6 dargestellt. Im Block 600 wird eine reihenbelichtete Serie von zwei oder mehr Bildern, wobei jedes Bild mit einer anderen Belichtungsstufe und zu einer anderen Zeit belichtet wird, aufgenommen. Im Block 605 werden diese Bilder zueinander so registriert, dass Gegenstück-Serienbildpixel einander entsprechen. Im Block 610 wird ein Bezugsbild aus den aufgenommenen Szenebildern ausgewählt, und seine Pixeldaten werden zu den Verarbeitungsblöcken 625, 640, 660 und 695 über den Verarbeitungspfad 615 geleitet. Das gewählte Bezugsbild ist oft das am wenigsten belichtete Serienbild, kann aber ein Serienbild sein, das bei einer höheren Belichtungsstufe belichtet wurde. Es muss nicht das gleiche Bezugsbild sein, wie es vom Bildregistrierungsprozessor 210 verwendet wird, der im Allgemeinen ein erstes Bild verwendet, das mit einer Nennbelichtungseinstellung der Kamera als ein Bezugsbild erfasst wurde, auf das alle anderen Bilder der Serie ausgerichtet werden. Der oben beschriebene Bildmischer, dessen Bildmischprozess im Ablaufdiagramm der 4 dargestellt ist, führt die Verarbeitung im Block 620 durch, wobei die gemischten HDR-Bildausgang-Bilddatenpixel der 4 in die Verarbeitungsblöcke 650 und 640 eintreten. Im Block 650 wird die Luma der Mischdatenpixel erzeugt und zum Block 625 geleitet, wobei die Varianz jeder Mischbild-Datenpixel-Luma vom Block 650, im Vergleich mit ihrem Gegenstück-Bezugsbilddatenpixel vom Block 610, berechnet wird. Diese Varianz wird zum Verarbeitungsblock 640 geleitet und vom Block 640 zusammen mit einer 1. Schwelle, die in den Verarbeitungsblock Block 640 entlang des Pfads 635 eintritt, Mischbild-Datenpixeln vom Verarbeitungsblock 620, die in den Verarbeitungsblock 640 entlang des Pfads 650 eintreten, und Bezugsbild-Datenpixeln verwendet, die in den Verarbeitungsblock 640 entlang des Pfads 615 eintreten, um alle Mischbild-Datenpixel mit einer Varianz, die die 1. Schwelle überschreitet, durch ihre Gegenstück-Bezugsbild-Datenpixel zu ersetzen, und 1. verarbeitete Mischbild-Datenpixel zu erzeugen. 1. verarbeitete Mischbild-Datenpixel sind das Ergebnis einer ersten Phase der Geisterbild-Entfernungsverarbeitung.
1. verarbeitete Mischbild-Datenpixel werden zu den Verarbeitungsblöcken 665 und 695 entlang des Verarbeitungspfads 655 geleitet. Der Verarbeitungsblock 665 erzeugt die Luma der 1. verarbeiteten Mischbild-Datenpixel, während der Verarbeitungsblock 660, von Bezugsbild-Datenpixeln, die in den Verarbeitungsblock 660 über den Pfad 615 eintreten, die Luma jedes Bezugsbild-Datenpixels erzeugt. Der Verarbeitungsblock 670 berechnet die Differenz, auf einer Pixel-für-Pixel-Basis, zwischen dem Luma-Wert jedes 1. verarbeiteten Mischbild-Datenpixels und dem Luma-Wert seines Duplikat-Bezugsbild-Datenpixels und liefert diese Differenzen an den Verarbeitungsblock 675. Ein Verarbeitungsblock 675 bestimmt den maximalen Wert dieser Differenzen, und ein Verarbeitungsblock 680 erzeugt eine 2. Schwelle basierend auf diesem maximalen Wert. Ein Verarbeitungsblock 695 empfängt diese 2. Schwelle über den Pfad 685, zusammen mit den Bezugsbild-Datenpixeln über den Pfad 615 und 1. verarbeiteten Mischbild-Datenpixeln über den Pfad 655 und ersetzt jedes 1. verarbeitete Mischbild-Datenpixel, das diese 2. Schwelle überschreitet, durch sein entsprechendes Bezugsbild-Datenpixel-Gegenstück und erzeugt so verstärkte Geisterbild-entfernte 2. verarbeitete Mischbild-Daten auf dem Verarbeitungspfad 695. Diese 2. verarbeiteten Mischbild-Daten, das Ergebnis einer 2. Phase der Geisterbild-Entfernungsverarbeitung, werden als Eingabe in einen Tone-Mapping-Prozessor, wie 235 der 2, verwendet.
Die Ausführungsformen der vorliegenden Erfindung unterscheiden sich von den Ausführungsformen der oben beschriebenen Stammanmeldung. Das in der Stammanmeldung präsentierte Mischschema war dazu bestimmt, am besten in einer statischen Szene zu funktionieren, aber wenn dies nicht der Fall ist und es eine gewisse lokale Bewegung gibt, wie ein Auto, Leute oder Zweige eines Baums, die sich aufgrund eines blasenden Winds bewegen, kann ein Geisterbild bemerkt werden, wie oben erwähnt. Ein separater Geisterbild-Entfernungsprozess ist dann erforderlich. Die Ausführungsformen der vorliegenden Erfindung umfassen einen Geisterbild-Entfernungsprozess, der gegenüber dem vorherigen Geisterbild-Entfernungsprozess verbessert ist, wie nachfolgend beschrieben.
7 zeigt ein nicht einschränkendes Beispiel des Geisterbilds, das durch Mischen von drei Bildern erzeugt wird, die zu verschiedenen Zeiten und mit verschiedenen Belichtungen aufgenommen werden, gemäß einer Ausführungsform der vorliegenden Erfindung. Die Geisterbilder, die durch die Pfeile 710, 720 und 730 bezeichnet sind, sind klar zu sehen und sollten so weit wie möglich beseitigt werden. Eine vollständige Beseitigung der Geisterbilder in allen Fällen kann unmöglich sein, die zu beschreibenden Ausführungsformen beseitigen die Geisterbilder aber in vielen Fällen, und der verbleibende Rest ist besser als der von anderen Lösungen des Stands der Technik präsentierte.
Der Geisterbild-Entferner der Stammanmeldung basiert auf der Annahme, dass, wenn es keine lokale Bewegung gibt, das von zwei ausgerichteten Bildern erzeugte Differenzbild geringe Amplituden hat. Leider wird eine lokale Bewegung nicht von dem Registrierungsprozess (der von globaler Beschaffenheit ist) kompensiert und erscheint daher tatsächlich als eine Zone hoher Amplitude in dem Differenzbild.
Daher wird in der vorliegenden Anmeldung angemerkt, dass man durch Gehen durch das Differenzbild diese Zonen hoher Amplitude lokalisieren und die reguläre Ausgabe durch ein ursprüngliches Patch ersetzen kann, das von einem Bezugsbild genommen wird, vorzugsweise entweder von dem dunklen Bild oder von dem mittleren Bild. Dieser Ersatz wird ausgeführt, indem wieder der Bildmischer verwendet wird, wobei die Eingaben der HDR (mit Geisterbildern) und das Bezugsbild sind, von dem Patches mit einer korrekten Gewichtung W genommen werden, die so berechnet werden: HDRout = (I – W) × HDR + W × ref_Bild (9)
Das von diesem Prozess erzeugte resultierende HDRout-Bild sollte nun keine Geisterbilder mehr umfassen.
Nun werden die Hauptschritte, die zur Erzeugung der Gewichtung W geliefert werden, angegeben:

(a) Herunterstufen der Lumas der (typischerweise, aber nicht notwendigerweise, drei) eingegebenen Bilder auf eine zum Beispiel etwa 180 × 240 Auflösung.
(b) Normieren der Lumas auf eine spezifische Standardabweichung und Mittelwert.
(c) Erzeugen d = abs(dunkel_Luma – mittel_Luma) > Schwellen-Differenzbild
(d) Erzeugen d1 = abs(hell_Luma – mittel_Luma) > Schwellen-Differenzbild
(e) Erzeugen eines binären Bilds G = (d ODER d1)
(f) Dilatieren, Filtern und Hochstufen von G, um eine geglättete Version von W zur Verwendung durch den Bildmischer zu erzeugen.

In 8 wird ein nicht einschränkendes Beispiel des resultierenden Geisterbild-freien Mischens gemäß einer Ausführungsform geliefert. Die Pfeile 810, 820 und 830 zeigen auf die jeweiligen Felder, auf die vorher von den Pfeilen 710, 720 bzw. 730 in 7 gezeigt wurde. Die Geisterbilder einer sich bewegenden Person und von sich bewegenden Fahrzeugen wurden im Wesentlichen vollständig entfernt. Es ist anzumerken, dass diese Prozedur auch Registrierungsrauschen beseitigt. Wenn zum Beispiel eine Türkante nicht korrekt ausgerichtet ist, wäre die Differenz zwischen ausgerichteten Bildern hoch. Folglich wird die Kante durch ein Patch ersetzt, das von dem Bezugsbild genommen wird. Daher macht es keinen Unterscheid beim Geisterbild-Entfernungsprozess der vorliegenden Anmeldung, woher das Rauschen kommt, z. B. entweder von einer lokalen Bewegung oder von einer falschen Registrierung. In beiden Fällen wird es durch ein Patch ersetzt.
Wahl des Bezugsbilds für Patchimplantierungen
Allgemein ist es vorteilhaft, die Ersatz-Patches von einem Bild mit höherer Belichtung (typischerweise das mittlere Bild bei einer Serie von drei Bildern) zu nehmen, diese Patches können aber aus gesättigten Zonen bestehen. Wenn dies der Fall ist, kann ein Patch vom dunkelsten Bild genommen werden. Das Kriterium für die Auswahl von Patches vom mittleren Bild basiert auf der Berechnung des Gesamtprozentsatzes der gesättigten Zonen angesichts des Gesamtfelds der Patches. Wenn dies geringer als zum Beispiel 3% ist, dient das mittlere Bild als das Bezugsbild, von dem Patches genommen werden, sonst wird das dunkle Bild genommen. Der Nachteil der Verwendung von Patches vom dunklen Bild ist es, dass das dunkle Bild das niedrigste Signal-zu-Rausch-Verhältnis hat und geräuschvoll ist. Dieses Rauschen wird durch das endgültige Tone-Mapping erhöht.
Die Entscheidung zur Auswahl des Patch (entweder vom dunklen Bild, vom hellen Bild oder vom mittleren Bild in dem typischen Fall, in dem drei eingegebene Bilder zur Verfügung stehen) erfolgt pro Bildsegment und nicht am ganzen Bild. Dies erfordert, dass das verbundene binäre Bild G zuerst segmentiert wird. Zu diesem Zweck wird ein beispielhaftes und nicht einschränkendes Bild gemäß einer wie in 9 gezeigten Ausführungsform verwendet, das das mittlere Bild ist. 10 zeigt das gleiche Bild nach Segmentkennzeichnung, wobei die Kennzeichnungen 1010 und 1020 den Kennzeichnungen 910 bzw. 920 der 9 entsprechen. In 11 sind das mittlere Patch 1110 und das dunkle Patch 1120 gezeigt, entsprechend den Kennzeichnungen 910 bzw. 920.
Gemäß Ausführungsformen der vorliegenden Erfindung weist der Patching-Prozess daher auf:

(a) Kennzeichnung – Finden von Sätzen von verbundenen binären Blobs und Zuweisen einer Farbe zu jedem (10).
(b) Polygon-Begrenzung – Begrenzen jedes Segments durch ein Polygon, wie zum Beispiel ein Achteck.
(c) Patchauswahl-Überprüfen der Zone jedes Polygons, um zu bestimmen, ob mehr als (typischerweise) 3% seines Felds in dem mittleren Bild gesättigt sind. Für gesättigte Segmente wurden dunkle Bild-Patches genommen, während für nicht-gesättigte Segmente mittlere Bild-Patches genommen wurden.

Polygon-Begrenzung ist in der Technik bekannt, wird aber hier beschrieben. Ein linearer Behälter ist einer, dessen Inneres von einer endlichen Anzahl von linearen Ungleichheiten spezifiziert ist. Zum Beispiel in 2D könnte ein Behälter Z durch k Ungleichheiten spezifiziert werden: f_i(x, y) = a_ix + b_iy + c_i < 0 (i = 1, k), von denen alle für einen Punkt (x, y) als in der Zone befindlich wahr sein müssen. Wenn eine der Ungleichheiten ausfiele, wäre der Testpunkt außerhalb Z.
Nun unter Bezug auf 12 ist ein Kasten eine rechteckige Zone, deren Kanten parallel zu den Koordinatenachsen sind, und wird daher durch seine maximale und minimale Ausdehnung für alle Achsen definiert. So wird ein 2D-Kasten dadurch gegeben, dass alle (x, y) Koordinaten x_min ≤ x ≤ x_max und y_min ≤ y ≤ y_max erfüllen. Der Einschluss eines Punkts P = (x, y) in einen Kasten wird durch die Überprüfung getestet, dass alle Ungleichheiten wahr sind; wenn irgendeine von ihnen ausfällt, ist der Punkt nicht innerhalb des Kastens. In 2D gibt es 4 Ungleichheiten, und im Mittel wird ein Punkt nach 2 Tests zurückgewiesen.
Der ”Begrenzungskasten” eines geometrischen 2D-Objekts ist der Kasten mit minimalem Feld, der das Objekt umfasst. Für jede Sammlung von linearen Objekten (Punkte, Segmente, Polygone und Polyeder) wird ihr Begrenzungskasten durch die minimalen und maximalen Koordinatenwerte für den Punktsatz S der Scheitelpunkte des Objekts gegeben: (x_min, x_max, y_min, y_max). Diese Werte werden leicht in O(n) Zeit mit einer einzigen Abtastung aller Scheitelpunkte berechnet, manchmal während die Scheitelpunkte des Objekts gelesen oder berechnet werden. Der Begrenzungskasten ist der rechnungsmäßig einfachste aller linearen Begrenzungsbehälter, und der in vielen Anwendungen am häufigsten verwendete. In der Laufzeit beinhalten die Ungleichheiten keinerlei Arithmetik und vergleichen nur Roh-Koordinaten mit den vorberechneten min- und max-Konstanten.
Nun unter Bezug auf 13 sind nach einiger Arithmetik die einfachsten nicht-trivialen Ausdrücke diejenigen, die einfach Roh-Koordinaten addieren und subtrahieren. In 2D hat man die Ausdrücke p = (x + y) und q = (x – y), die Linien mit Neigungen von (–1) und 1 entsprechen. Für einen 2D-Satz S von Punkten können das Minimum und das Maximum über S jeder dieser zwei Ausdrücke berechnet werden, um (p_min, p_max, q_min, q_max) zu erhalten. Dann ist der ”Begrenzungsdiamant” für den Satz S die Zone, die durch die Koordinaten (x, y) gegeben wird, die die Ungleichheiten: p_min ≤ (x + y) ≤ p_max und q_min ≤ (x – y) ≤ q_max erfüllen. Geometrisch ist es ein um 45 Grad gedrehtes Rechteck und ähnelt einem Diamanten.
Der ”Begrenzungsdiamant” beinhaltet etwas mehr Berechnung als der Begrenzungskasten. Nach der Berechnung der beiden kann aber festgestellt werden, dass einer besser ist als der andere. Alle beinhalteten Minima und Maxima (8 von ihnen) können in O(n) Zeit mit einer einzigen Abtastung des Satzes S berechnet werden, und dann können die Felder des Begrenzungskastens B und des Begrenzungsdiamanten D verglichen werden, und der kleinere Behälter kann, falls gewünscht, verwendet werden. Da alles rechteckig ist, hat man Fläche(B) = (x_max – x_min)·(y_max – y_min), und Feld(D) = (p_max – p_min)·(q_max – q_min).
Ferner könnten beide Behälter, der Kasten und der Diamant, verwendet werden, um ein noch kleineres kombiniertes ”Begrenzungsachteck” zu erhalten, das von allen 8 Ungleichheiten wie in 14 gezeigt definiert wird. Typischerweise wird zuerst auf Einschluss oder Schnittpunkt mit dem Begrenzungskasten und dann das Begrenzungsachteck getestet. Wenn man einen Punkt P = (x, y) auf Einschluss in ein Polygon Z testen möchte, ist der einzige Overhead die Berechnung der Ausdrücke (x + y) und (x – y) kurz vor dem Testen der Diamant-Ungleichheiten, nachdem P innerhalb des Begrenzungskastens gefunden wurde.
Daher, angesichts des HDR-Bilds mit Geisterbildern, wird das Geisterbild-freie Bild (HDRout) für den Drei-Bild-Reihenbelichtungsfall (der der üblichste Fall ist) durch zwei Mischungen wie folgt erzeugt: HDRout = HDR(1 – Wd) + Wd × Dunkel_Bild + HDR(1 – Wm) + Wm × Mittel_Bild (10)
Die Gewichte Wd und Wm werden von den Begrenzungsachtecken der jeweiligen Segmente nach einem gewissen Glätten bestimmt.
Es ist anzumerken, dass die Ausführungsformen der vorliegenden Erfindung, die diesen Geisterbild-Entfernungsprozess verwenden, sich von den Ausführungsformen, die in der Stammanmeldung beschrieben sind, dadurch unterscheiden, dass keine paarweisen ganzen Bildverschmelzungen, um eine relativ Geisterbild-freie Bildmontage zu akkumulieren, erforderlich sind. Stattdessen werden störende Bildzonen erkannt, und Ersatzpatches werden von ähnlichen Zonen in verfügbaren alternativen Bildern eingeschmolzen.
Der Tone-Mapping-Prozess
Das verbesserte Geisterbild-entfernte Bild hat eine Bitbreite von 16 Bits und weist drei Farbkomponenten auf, eine rote Komponente, eine grüne Komponente und eine blaue Komponente. Diese RGB-16-Bit-Daten sollen auf einer eingebauten Anzeigeeinrichtung einer Digitalkamera 245 der 2 angezeigt werden, die eine 8-Bit-Anzeigeeinrichtung ist, so dass das verbesserte Geisterbild-entfernte Bild von 16-Bit-RGB-Daten auf 8-Bit-RGB-Daten umgewandelt werden muss. Der Prozess der Umwandlung von Bilddaten von einer Bitbreite zu einer geringeren Bitbreite, wie von 16 Bits auf 8 Bits, während die in den breiteren Bitbreitendaten dargestellten relativen Grautonstufen in den resultierenden 8-Bit.-Daten beibehalten werden, wird als ”Tone Mapping” bezeichnet. Es gibt viele solche Tone-Mapping-Prozesse, die verwendet werden können. Diese Ausführungsform der Erfindung verwendet eine einzige Tone-Mapping-Vorgehensweise, die ursprünglich dazu bestimmt war, 12 Bit breite Bilddaten in 8 Bit breiten Bilddaten abzubilden. Daher entfernt diese Vorgehensweise zuerst die 4 am wenigsten signifikanten Bits aus den 2. verarbeiteten Mischbild-Daten, was 12-Bit-RGB-Bilddaten übrig lässt. Drei Nachschlagetabellen (LUTs) werden verwendet, um die verbleibenden 12-Bit RGB-Daten auf den benötigten 8-Bit-RGB-Daten abzubilden:
Eine Normalverstärkungs-LUT,
Eine Hochverstärkungs-LUT; und
Eine Höchstverstärkungs-LUT
Die richtige LUT zur Verwendung beim 12-Bit zu 8-Bit-Tone-Mapping-Prozess muss ausgewählt werden, um die in der 8-Bit-Datenform präsentierten Bild-Grautöne korrekt darzustellen. Die Auswahlkriterien hängen von der Größe des Bildfelds ab, das mit Pixeln bestückt ist, deren Wert durchschnittlich unter einem vordefinierten Pixelwert liegt, oder ”dunkel” ist, im Vergleich mit dem Rest des Bildfelds. Je niedriger der durchschnittliche Pixelwert im dunklen Feld des Bilds ist, desto höher ist die ausgewählte Verstärkung der LUT.
Der Prozess der LUT-Auswahl ist folgendermaßen:

1. Verschiebung des 12-Bit-RGB-Bilds um 4 Bits nach rechts. Dies führt zu einem 8-Bit-Bild;
2. Erzeugung der Luma-Komponente des resultierenden 8-Bit-Bilds;
3. Berechnung des Durchschnittswerts, Mn, aller Pixel im 8-Bit-Bild, deren Luma geringer als eine Schwelle für ein dunkles Feld, Td, ist. Ein digitaler Wert von 20 aus einem maximalen digitalen Wert von 255 (der maximale 8-Bit-Wert) kann für Td verwendet werden;
4. Wenn die Summe aller Pixel mit einer Luma < Td geringer als eine Feldschwelle, P%, ist, Verwenden der Normalverstärkungs-LUT, sonst:
5. Wenn Mn gegeben und vordefinierte Schwellen Pixelwertschwellen T1 geringer als T2 sind:
6. Wenn gilt Mn < T1 Verwendung der Höchstverstärkungs-LUT;
7. Wenn Mn zwischen T1 und T2 liegt, Verwenden der Hochverstärkungs-LUT
8. Wenn gilt Mn > T2 Verwenden der Normalverstärkungs-LUT

Td = 20 von 255, T1 = 5 von 255 und T2 = 10 von 255 sind Beispiele der Schwellen, die in dem obigen Tone-Mapping-LUT-Auswahlprozess verwendet werden können.
Die von dieser Ausführungsform verwendete Tone-Mapping-Prozedur ist dazu bestimmt, Bildzonen geringer Ausleuchtung nachzuverstärken, während die drei LUTs sich für Bildzonen hoher Ausleuchtung gleich verhalten. Es wurde gefunden, dass dies ein gutes Ergebnis liefert, wenn es an den erzeugten Geisterbild-freien HDR angewendet wird.
Um nun zusammenzufassen, die verbesserte HDR-Auflösung der Stammanmeldung erhöht den dynamischen Bereich einer gegebenen Szene durch Fusionieren und Vermischen der Information von drei verschiedenen Bildern einer gegebenen Szene. Jedes Bild wird bei einer anderen Belichtungseinstellung erfasst, z. B., Nennbelichtung, Überbelichtung und Unterbelichtung. Das unterbelichtete Bild kann als das dunkle Bild bezeichnet werden, das nennbelichtete Bild kann als das mittlere Bild bezeichnet werden, und das überbelichtete Bild kann als das helle Bild bezeichnet werden.
Der HDR-Algorithmus verbessert den dynamischen Bereich der Szene durch Durchführung des Folgenden:
Dunkle Felder im mittleren Bild werden durch Pixel vom hellen Bild ersetzt, zur Aufhellung und Detailverbesserung der Szene.
Gesättigte Felder im mittleren Bild werden durch Pixel vom dunklen Bild ersetzt, um ausgebrannte Details wiederzugewinnen.
Die Gesamt-Methodik der Ausführungsformen der kontrastierenden vorliegenden Erfindung wird nun zusammengefasst. In 15 ist eine beispielhafte und nicht einschränkende Implementierung des HDR gemäß einer Ausführungsform gezeigt. Während sie im Schwarz-Weiß-Format gezeigt ist, um den Anmeldungszwängen des USPTO zu entsprechen, sollte dies nicht als die Ausführungsformen der vorliegenden Erfindung einschränkend angesehen werden; alle Bilder können voll farbig sein, ohne den Rahmen der Erfindung zu verlassen. Ferner kann eine beliebige Anzahl von Bildern eingegeben werden, obwohl drei typisch ist. Drei eingegebene Bilder mit unterschiedlichen Belichtungen, z. B. Bild 1510, das das dunkle Bild ist, Bild 1520, das das mittlere Bild ist, und Bild 1530, das das helle Bild ist, werden fusioniert zur Erzeugung eines Hochdynamikbereich-Ergebnisses, das im Bild 1540 gezeigt ist.
Der HDR-Algorithmus weist nun drei Hauptphasen auf, die in Bezug auf 16 gezeigt werden. Die drei Phasen sind:
eine Bildregistrierungsphase 1610 zum Ausrichten der drei eingegebenen Bilder;
eine Bildfusionsphase 1620 zum Zusammenmischen der drei ausgerichteten Bilder zur Erzeugung eines Hochdynamikbereich-Bilds, sowie eine integrierte Geisterbild-Entfernung, unter Verwendung der oben ausführlicher erläuterten Prinzipien;
eine Tone-Mapping-Phase 1630 zur Abbildung des Hochdynamikbereich-Ergebnisses in einen 8-Bit-Bereich, der typischerweise benötig wird, um das Ergebnis auf üblichen Anzeigeeinrichtungen anzuzeigen, sollte aber nicht als den Rahmen der vorliegenden Erfindung einschränkend angesehen werden.
Das Ziel der Bildregistrierung ist es, die drei Bilder auf den gleichen Koordinatensatz auszurichten. Um die Bilder auszurichten, werden zwei Registrierungsprozeduren integriert: die erste richtet das dunkle Bild mit dem mittleren Bild aus, und die zweite richtet das helle Bild mit dem mittleren Bild aus.
Die Registrierungsphase 1610 erkennt und kompensiert die globale Bewegung der Szene zwischen zwei verschiedenen aufgenommenen Rahmen. Diese Phase wird für den HDR-Algorithmus benötigt, da angenommen wird, dass die Kamera handgehalten wird und so unter der Wirkung eines wackligen Haltens leiden kann. Das Ausrichtungsschema besteht aus vier Phasen:
Bewegungsvektor-Extraktion – ein Satz von Bewegungsvektoren wird zwischen den zwei Bildern extrahiert;
Globale Bewegungsschätzung – ein globales Umwandlungsmodell, üblicherweise, aber ohne Einschränkung, affin, wird zwischen den Bildern angenommen. Ein Stichprobenkonsensus(RANSAC)-Algorithmus wird auf die Bewegungsvektoren angewendet, um die wahrscheinlichsten Umwandlungsparameter zu schätzen;
Bildverzerrung – gemäß der geschätzten globalen Umwandlung wandelt typischerweise ein auf Hardware basierender Verzerrungsmechanismus das dunkle oder helle Bild auf die mittleren Bildkoordinaten um; und,
Vereinheitlichtes Sichtfeld – aufgrund der Kamerabewegung kann es einige Differenzen zwischen den Sichtfeldern der Bilder geben. In dieser Phase wird das maximale Sichtfeld, das in allen drei Bildern existiert, berechnet, während das ursprüngliche Bildseitenverhältnis der eingegebenen Bilder beibehalten wird.
Die Bildfusionsphase 1620 mischt die drei Bilder zusammen (Phase 1620 ist in 17 ausführlicher gezeigt). Das Mischen wird folgendermaßen durchgeführt: unter Verwendung zum Beispiel des mittleren Bilds als Bezug, trägt das dunkle Bild Information in überbelichteten (1710) Feldern und das helle Bild Information in unterbelichteten Feldern (1720) bei. Diese Mischregel wird verwendet, wenn die Szene statisch ist, wie oben erwähnt. Wenn es aber eine lokale Bewegung in der Szene gibt, wie in bestimmten Beispielen oben gezeigt wird, kann das Mischen zu sichtbaren Artefakten im HDR-Ergebnis führen, die als Geisterbild-Artefakte bekannt sind. Um diese mit der Bewegung verbundenen Artefakte zu überwinden, wird ein Geisterbild-Behandlungsmechanismus (1730) als Teil der Bildfusionsphase angewendet.
Die Basisoperation der Bildmischung nimmt zwei Bilder mit unterschiedlichen Belichtungen und verschmilzt sie gemäß einem pixelweisen Verschmelzungsfaktor. Um die Schritte der Bildmischprozedur zu beschreiben, wird das weniger belichtete Bild als I₁ und das Bild mit größerer Belichtung als I₂ gekennzeichnet. Der Belichtungswert jedes Bilds wird als ExpVal₁ bzw. ExpVal₂ gekennzeichnet. Der Belichtungswert in der Computerphotographie wird gemäß der folgenden Formel berechnet:
wobei ISO die ISO-Stufe darstellt, ExpTime die Belichtungszeit und F_# die F-Nummer des optischen Systems darstellt.
Die folgenden Phasen werden innerhalb des Bildmischschemas angewendet. Zuerst eine Vorverarbeitungsphase, die umfasst:
Wenn I₁ oder I₂ im Gamma-Bereich (nicht im linearen Bereich) gegeben sind, wird eine Gamma-Korrektur-Operation angewendet, um die eingegebenen Bilder im linearen Bereich darzustellen; und
das hellere Bild, I₂, wird auf den Belichtungswert des dunkleren Bilds I₁ normiert. Die Manipulationen an dem eingegebenen Bild können zusammengefasst werden als:
Zweitens findet die Berechnung von Verschmelzungsgewichten statt. Um die Gewichte zu bestimmen, werden die Helligkeitswerte (Luma, die als Y bezeichnet wird) des helleren Bild, I₂, als eine Eingabe in eine Gewichtungs-LUT verwendet. Dies kann formuliert werden als W = LUT(Y₂). Die Gewichtungs-LUT kann als ein allgemeines Mapping beschrieben werden, wird üblicherweise aber als stückweise lineare Funktion implementiert, wie es in 18 gezeigt ist, wo die stückweise lineare Grafik 1810 gezeigt ist.
Zuletzt wird das Mischen durchgeführt, wobei die tatsächliche Mischoperation gemäß der folgenden Formel ausgeführt wird: I_aus = (1 – W)·I upd / 1 + W·I upd / 2
Wenn das Beispiel in 18 als die Gewichts-LUT verwendet wird, nimmt die Mischoperation dunkle Pixel von I upd / 2 , helle Pixel von I upd / 1 und führt die pixelweise Verschmelzung zwischen den zwei Bildern für mittlere Luma-Werte durch. Es ist anzumerken, dass alle Bilder der Serie in beliebiger Reihenfolge verarbeitet werden können, im Gegensatz zu den Ausführungsformen der Stammanmeldung.
Gemäß einer Ausführungsform der vorliegenden Erfindung wird nachfolgend eine Lösung der Geisterbild-Entfernung bereitgestellt, wie in 19 gezeigt. Der Geisterbild-Behandlungsmechanismus versucht, Felder mit lokaler Bewegung zwischen den drei HDR-Eingängen zu erkennen. In diesen Feldern dürfen die HDR-Fusionsergebnisse keine Verschmelzung der Bilder umfassen, da dies zu einem Geisterbild-Artefakt führen kann, z. B. kann eine gehende Person zweimal oder öfter gesehen werden, wie in 7 gezeigt wurde. Stattdessen wird nur ein einziges Bild gewählt, um das HDR-Fusionsergebnis in dem spezifizierten Feld (d. h. ein Patch) darzustellen. Dementsprechend hat der Geisterbild-Behandlungsmechanismus die folgenden Phasen, beginnend im Schritt 1900:

– Bewegungsdetektierung – Identifizieren, ob es eine lokale Bewegung zwischen den eingegebenen HDR-Bildern gibt. Diese Phase wird pro Pixel ausgeführt, beginnend im Schritt 1910:
– Definition von Geisterbild-Patches – in dieser Phase werden die Pixel, die eine Bewegung erfahren, in Patches (Bild-Blobs) geclustert, unter Verwendung morphologischer Operationen, beginnend im Schritt 1920;
– Patchauswahl – jedes der identifizierten Patches muss durch ein einzelnes eingegebenes Bild dargestellt werden. In dieser Phase wird eine Bewertungsfunktion verwendet, um zu entscheiden, ob die Information sich über das beispielhafte helle, mittlere oder das dunkle Bild entwickelt, beginnend im Schritt 1930; und
– Patchkorrektur – in dieser Phase wird typischerweise eine auf Hardware basierende Patchkorrektur verwendet, um das Geisterbild-Patch durch das ausgewählte eingegebene Bild zu ersetzen, beginnend im Schritt 1940.

Nachfolgend wird jeder der vier Phasen ausführlicher erörtert, beginnend mit der Bewegungsdetektierungsphase. Nach der Bildregistrierungsphase, die die dunklen und hellen Bilder auf die mittleren Bildkoordinaten fusioniert, versucht das Bewegungsdetektierungsschema, Differenzen zwischen den drei ausgerichteten Bildern zu erkennen. Die zugrundeliegende Annahme ist, dass diese Änderungen sich aus Bewegung in der Szene entwickeln können.
Um eine lokale Bewegung effizient zu erkennen, kann eine herabgestufte Version der ausgerichteten Bilder verwendet werden, z. B. ist für 12 Megapixel-Bilder ein 1:16 Herabstufungsfaktor typisch. In dieser Phase kann jede Art von Differenzerfassungsalgorithmus verwendet werden, um zu erkennen, welche Pixel zwischen den Bildern unterschiedlich sind. Ein einfaches Detektierungsschema unterscheidet zwischen Bildern in Paaren, d. h., Mittel und Dunkel und Mittel und Hell, und kann die folgenden Schritte umfassen:

– Berechnen von STD (Standardabweichung) und Mittelwert für jedes herabgestufte Bild:
– Normieren der Bilder, um die gleiche STD und Mittelwert für jedes herabgestufte Bild zu haben;
– Erzeugen einer absoluten Differenzabbildung der zwei herabgestuften Bilder: und,
– Verwenden einer Schwelle auf der Differenzabbildung, um zwischen tatsächlichen Erfassungen und Registrierungsrauschen zu unterscheiden.

Dieses Verfahren, wenn auch einfach und direkt, kann unter bestimmten Bedingungen zu einer unzuverlässigen und verrauschten Differenzabbildung führen. Zum Beispiel in gesättigten Feldern ist das helle Bild-Histogramm hoch gesättigt (die meisten Pixelwerts sind nahe 255), während das mittlere Bild-Histogramm nur teilweise gesättigt ist (nur ein Teil der Pixel ist nahe 255). Aufgrund des Abschneidens der Bildstärken (im hellen Bild) kann ein systematischer Fehler in die Berechnungen von STD und Mittelwert des hellen Bilds eingeführt werden. Außerdem kann die Differenzabbildung die Differenz zwischen dem abgeschnittenen Pixel im hellen Bild und dem teilweise gesättigten Pixel im mittleren Bild als Detektierung identifizieren, unabhängig von dem Vorhandensein sich bewegender Objekte.
Daher wird ein anspruchsvolleres Bewegungsdetektierungsschema, das eine höhere Bewegungserfassungsleistung als das oben beschriebene erzeugt, für zusätzliche Ausführungsformen der vorliegenden Erfindung beschrieben. Dieses Verfahren beruht auf der Annahme, dass innerhalb des HDR-Rahmens das helle Bild nur dunklere Felder beeinflussen kann, während das dunkle Bild hellere Felder beeinflussen kann. Daher ist es nicht notwendig, die Information von dem unnötigen Bild in dem Bewegungsdetektierungsschema zu verwenden. Dieser Bewegungsdetektierungsalgorithmus folgt diesen Phasen:

(a) Es werden zwei Helligkeitsschwellen definiert: HellTH – Information von dem Hellen Bild wird verwendet, wenn die Helligkeitswerte in dem Bereich [0, HellTH] sind, und DunkelTH – Information von dem Dunklen Bild wird verwendet, wenn die Helligkeitswerte in dem Bereich [DunkelTH, 255] sind.
(b) Definieren einer Differenzschwellenfunktion: Anstelle der Verwendung eines einzigen Schwellwerts für die ganze Differenzabbildung wird eine Schwellenfunktion verwendet, wobei die Schwelle in diesem Fall von der Helligkeit des Pixels abhängt, so dass eine höhere Schwelle für höhere Lumas verwendet wird und umgekehrt.
(c) Verarbeiten der Differenzabbildung des Hellen und Mittleren Bilds: – Pixel-Klassifizierung: Berücksichtigen nur von Pixeln mit Helligkeitswerten im Bereich [0, HellTH], die Pixel werden als BM_Pixel (Hell Mittel Pixel) bezeichnet; – Berechnen der STD und des Mittelwerts auf dem Satz von BM_Pixeln; – Normieren der BM_Pixel in beiden Bildern, um die gleiche STD und Mittelwert für jedes Bild zu haben; – Erzeugen einer absoluten Differenzabbildung der BM_Pixel; und – Verwenden der Schwellenfunktion an der Differenzabbildung, um Detektierungen zu identifizieren.
(d) Verarbeiten der Differenzabbildung des Dunklen und Mittleren Bilds: – Pixel-Klassifizierung: Berücksichtigen nur von Pixeln mit Helligkeitswerten im Bereich [DunkelTH, 255], die Pixel werden als DM_Pixel (Dunkel Mittel Pixel) bezeichnet; – Berechnen von STD und Mittelwert an dem Satz von DM_Pixeln; – Normieren der DM_Pixel in beiden Bildern, um die gleiche STD und Mittelwert für jedes Bild zu haben; – Erzeugen einer absoluten Differenzabbildung der DM_Pixel; und – Verwenden der Schwellenfunktion an der Differenzabbildung, um Erfassungen zu erkennen.
(e) Die Enderfassungsabbildung wird als eine Vereinigung der Dunkel-Mittel-Erfassungen und der Hell-Mittel-Erfassungen erhalten.

Während die obige Beschreibung zwei Bilder bezüglich eines Bezugsbilds erörtert, versteht es sich, dass mehr als zwei verwendet werden können, ohne sich von den Lehren der Erfindung zu entfernen. Wenn zum Beispiel fünf Bilder verwendet werden, z. B. Hellstes, Hell, Mittel, Dunkel und Dunkelstes, können verschiedene Mischungen bezüglich des Mittleren Bilds hergestellt werden, um erwünschte Ergebnisse zu erhalten.
Nach der Bewegungsdetektierungsphase werden typischerweise mehrere Pixel als uneinheitlich bezüglich der Helligkeitswerte identifiziert. Es ist das Ziel, diese Erfassungen in Patches (oder Bild-Blobs) zu clustern. Die Transformation der erfassten Pixel in ein ganzes Bild-Patch ermöglicht eine konsistente Geisterbild-Verarbeitung für benachbarte Pixel zum Preis der Erkennung von Pixeln ohne Bewegung als Detektierungen. Eine nicht einschränkende Clusteringtechnik, die einfach aber wirkungsvoll ist, zur Bestimmung der Geisterbild-Patches ist:

(a) Anwenden einer morphologischen Dilatationsoperation am binären Bild der Detektierungen, mit einem Strukturierungselement, wie zum Beispiel einem 5×5 quadratischen Strukturierungselement;
(b) Anwenden einer morphologischen Schließoperation auf das binäre Bild der Detektierungen mit einem Strukturierungselement, wie zum Beispiel einem 5×5 quadratischen Strukturierungselement;
(c) Anwenden eines binären Kennzeichnungsalgorithmus, um zwischen verschiedenen Geisterbild-Patches zu unterscheiden; und
(d) für eine effiziente Softwareimplementierung, Beschreiben jedes Geisterbild-Patches durch sein Begrenzungsachteck.

Gemäß Ausführungsformen der vorliegenden Erfindung entscheidet die Patchauswahlphase über das am besten geeignete eingegebene Bild zum Ersatz des erkannten Patch. Eine falsche Auswahl für das Patch kann zu sichtbaren Artefakten am Rand des Patchfelds führen. Es gibt mehrere Heuristiken, die bei der Auswahl des am besten geeigneten eingegebenen Bilds helfen:

– Das Patching-Artefakt ist sichtbarer in flachen Feldern als in Feldern mit Details oder Textur. Das menschliche Auge zeigt eine höhere Empfindlichkeit für Bildänderungen in DC-Feldern (z. B. undetailliert oder ”flach”) im Vergleich zu Feldern mit zusätzlichem Hochpassinhalt (Textur, Kanten, usw.).
– Die Patchauswahl sollte mit den Verschmelzungsentscheidungen an den Rändern des Patch so gut wie möglich übereinstimmen. Durch Einhalten dieser Regel wird das Patch besser auf seine Umgebung zugeschnitten.
– Patching-Artefakte sind besonders sichtbar, wenn die Randpixel überbelichtet oder unterbelichtet sind.
– Wenn einige der Pixel überbelichtet und einige unterbelichtet sind, sollte die Mehrheit der Pixel die Auswahl des eingegebenen Bilds beeinflussen. Wenn es zum Beispiel deutlich mehr überbelichtete als unterbelichtete Pixel am Rand des Patch gibt, sollte das dunkle Bild gewählt werden, und umgekehrt, wenn anwendbar.

Basierend auf diesen Heuristiken wählt der Patchauswahlalgorithmus konsequent das am besten geeignete eingegebene Bild für den Ersatz des Geisterbild-Patch aus. Der Patchauswahlalgorithmus basiert auf der Histogrammanalyse oder den mittleren herabgestuften Bildhelligkeitswerten, wie in 20 gezeigt. Die Grundidee ist, das Histogramm in drei unterschiedliche Felder aufzuteilen: unterbelichtetes Feld 2010, in dem das Helle Bild gewählt wird, das korrekt belichtete Feld 2020, in dem das Mittlere Bild gewählt wird, und das überbelichtete Feld 2030, in dem das Dunkle Bild gewählt wird. Wie beim Bewegungsdetektierungsalgorithmus definieren vordefinierte Schwellen HellTH 2015 und DunkelTH 2025 die drei Felder 2010, 2020 und 2030. Wenn mehr Bilder verwendet werden, können zusätzliche Schwellwerte verwendet werden, ohne den Rahmen der Erfindung zu verlassen.
Gemäß dieser Ausführungsform werden vor der tatsächlichen algorithmischen Beschreibung mehrere Parameter definiert:
BereichB, BereichM, BereichD = der Helligkeitsbereich jeder der drei Histogrammzonen und beschrieben als:
BereichGrößeB, BereichGrößeM, BereichGrößeD = die Größe des Helligkeitsbereichs jeder Zone.
AnzPixelB, AnzPixelM, AnzPixelD = die Anzahl von Pixeln in jeder Zone.
EffAnzPixelB, EffAnzPixelM, EffAnzPixelD = die Anzahl von Pixeln in jeder Zone, wobei auch die Größe jeder Zone berücksichtigt wird, was formuliert werden kann als:
ModusB, ModusM, ModusD = der Helligkeitswert in jeder Histogrammzone, in der das Histogramm maximal ist.
DiffB, DiffM, DiffD = die mittlere Differenz der Histogramm-Eingaben vom Modus Helligkeitswert für jede Histogrammzone. d. h.:
wobei Hist(i) die Histogrammfrequenz für den iten Helligkeitswert darstellt und p die Differenzmetrik definiert (die besten Ergebnisse wurden mit p = 1 oder 2 erhalten). Es versteht sich, dass DiffM und DiffD in gleicher Weise dargestellt werden können.
Gemäß dieser Ausführungsform weist der Patchauswahlalgorithmus die folgenden Phasen auf:

(a) Berechnen eines gewichteten Histogramms der Helligkeitswerte von Pixeln in den Grenzfeldern eines spezifischen Patch innerhalb des herabgestuften mittleren Bilds. Das Histogramm wird in dem Sinne gewichtet, dass Pixel mit übersättigten oder untersättigten Helligkeitswerten eine größere Auswirkung auf die Histogrammfrequenzzahlen haben. Auf diese Weise haben überbelichtete und unterbelichtete Zonen des Histogramms mehr Wirkung auf den Patchauswahlalgorithmus, wodurch die zugeordneten Artefakte überwunden werden.
(b) Aufteilen des Histogramms in drei Zonen gemäß HellTH, DunkelTH-Parametern.
(c) Durchführen der folgenden Berechnungen: Berechnen der Bereichsgröße für jede Histogrammzone (BereichGrößeB, BereichGrößeM, BereichGrößeD); Berechnen der Anzahl von Pixeln für jede Histogrammzone (AnzPixelB, AnzPixelM, AnzPixelD); Berechnen der effektiven Anzahl von Pixeln für jede Histogrammzone (EffAnzPixelB, EffAnzPixelM, EffAnzPixelD); Berechnen des Modus des Histogramms in jeder Histogrammzone (ModusB, ModusM, ModusD); und Berechnen des durchschnittlichen Unterschieds zum Modus in jeder Histogrammzone (DiffB, DiffM, DiffD),
(d) Berechnen einer Bewertungsfunktion für jede Histogrammzone. Die Bewertungsfunktion für die Auswahl des Hellen Bilds wird definiert als:
Bewertungsfunktionen für die Mittel- und Dunkel-Auswahlen werden ähnlich definiert. Außerdem können ähnliche Techniken verwendet werden, wenn mehr als drei Bilder verwendet werden, und daran angepasst werden, ohne den Rahmen der Erfindung zu verlassen.
(e) Nach der Berechnung aller drei Bewertungsfunktionen definiert die Zone mit der maximalen Bewertung das Patchauswahlergebnis. Die Bewertungsfunktion umfasst eine Aufteilung von zwei nachfolgend beschriebenen berechneten Messungen, obwohl es einem Durchschnittsfachmann sofort klar wäre, dass andere Bewertungsfunktionen möglich sind, ohne den Rahmen der Erfindung zu verlassen: EffAnzPixelB – wenn der Rand des Patchs hauptsächlich aus Pixeln mit niedrigen Helligkeitswerten besteht (d. h. im Hellen Bereich des Histogramms), wird das helle Bild gewählt. Anstatt die Anzahl von Pixeln selbst zu verwenden, wird ihre gewichtete Version verwendet, die auch die Größe jedes Histogrammbereichs berücksichtigt (effektive Anzahl von Pixeln); und DiffB – Wie oben bezüglich der Auswahlheuristiken des Patch erörtert, wird es bevorzugt, wenn Verblendung ein mögliches Artefakt ist, dass ein solches Artefakt in einem Feld mit sichtbarer Textur oder Details und nicht in flachen Feldern erscheint. Messungen der Menge von ”Flachheit” über das Patchrand-Histogramm sind daher notwendig. In jeder Histogrammzone, wird ein Diff-Wert berechnet, um zu messen, wie gestreut das Histogramm tatsächlich ist. Kleinere Diff-Werte lassen vermuten, dass die Randpixel (die Teil der gleichen Histogrammzone sind) ähnliche Helligkeitswerte haben, daher als ”flach” bezeichnet werden können. Ein gestreutes Histogramm, andererseits, stellt eher Textur oder Details dar. Die umgekehrte Beziehung zwischen der Bewertung und dem Diff-Wert unterstützt die Bevorzugung des eingegebenen Bilds, das am besten zur flachen Zone des Histogramms passt.

Gemäß dieser Ausführungsform wird nach der Geisterbild-Detektierung und Patch-Erzeugung basierend auf den Helligkeitswerten der herabgestuften Bilder die Patch-Korrektur an dem Vollgröße-Mischergebnis der eingegebenen Bilder angewendet. Die Korrekturphase besteht aus den folgenden Phasen:

(a) Glätten von Begrenzungsachtecken-Anstatt das Begrenzungsachteck als ein binäres Bild darzustellen, wird eine 8-Bit-Darstellung oder andere Darstellung mit weniger als maximaler Auflösung verwendet, und zum Beispiel ein Tiefpassfilter (LPF), z. B. ein 7×7 LPF, auf das Begrenzungsachteck angewendet, um die Kanten des ausgewählten Patchs zu glätten. Dies führt letzten Endes zu einem glätteren Verschmelzen zwischen dem eingeführten Patch und seiner HDR-angetriebenen Umgebung. Das glatte Patchbild wird als die Patchmaske bezeichnet. Das angewendete Tiefpassfilter kann durch Parameterwerte bestimmt werden.
(b) Hochstufen des glatten Patchbilds zurück zur vollen Bildauflösung. Das resultierende Bild wird als die Patchmaske, W_patch, bezeichnet.
(c) Verschmelzen zwischen dem laufenden HDR-Mischergebnis (bezeichnet als HDR_cur) und dem ausgewählten Patcheingabebild (als I_patch bezeichnet) gemäß der Patchmaske wie folgt: HDR_out = (1 – W_patch)·HDR_cur + W_patch·I_patch

Gemäß dieser Ausführungsform wird am Ende der Bildfusionsphase das resultierende Hochdynamikbereich-Bild als ein lineares RGB-Bild mit 12 Bits pro Farbkomponente dargestellt. Die Tone-Mapping-Aufgabe ist es, die 12-Bit-Darstellung in eine 8-Bit-Darstellung umzuwandeln, beginnend im Schritt 1950 der 19. Diese Phase wird benötigt, um es zu ermöglichen, das Bild auf üblichen Anzeigeeinrichtungen zu präsentieren. Die Hauptherausforderung in dieser Phase ist es, ein intelligentes Tone-Mapping durchzuführen, das den sichtbaren Mehrwert des Bildfusionsprozesses sogar in der 8-Bit-Darstellung beibehält.
Bei PC-basierenden HDR-Algorithmen wird die Tone-Mapping-Phase üblicherweise pro HDR-Szene zugeschnitten und optimiert und erfordert regelmäßig ein menschliches Eingreifen. Das beschriebene Verfahren liefert eine Tone-Mapping-Lösung in der Kamera, in Echtzeit und auf Hardware basierend, die ihr Verhalten gemäß den Eigenschaften der aufgenommenen Szene adaptiv ändern kann.
Während es viele mögliche Techniken zur Durchführung des Tone-Mappings gibt, basiert der offenbarte Tone-Mapping-Algorithmus auf zwei verschiedenen Umwandlungen, die von vordefinierten LUTs gesteuert werden:

(a) Global Mapping-Durchführen eines gamma-ähnlichen Mappings am HDR-Fusionsergebnis (wobei die 12-Bits-pro-Farbe-Komponente noch beibehalten wird). Das Mapping ist üblicherweise das Gegenteil der Gamma-Korrektur-Operation, die zu Beginn der Fusionsphase des HDR-Algorithmus verwendet wird. Diese Auswahl wird getroffen, da es vorteilhaft ist, eine Gleichheit der Farben und der Atmosphäre der eingegeben Bilder aufrechtzuerhalten.
(b) Local Mapping-Durchführen eines nicht-linearen lokalen Mappings, das ein Pixel gemäß den mittleren Helligkeitswerten seines Nachbarn in einer 8-Bit-Darstellung pro Farbkomponente abbildet. Ein solcher Tone-Mapping-Operator ist ausgezeichnet bei der Kompression im dynamischen Bereich, während er einen lokalen Kontrast beibehält, während Tone-Mapping-Operationen, die nur die Pixelinformation verwenden, dahin tendieren, den lokalen Kontrast zu beschädigen.

Da die LUTs dieser Mappings vordefiniert sind, ist eine einfache Möglichkeit, das Verhalten des Tone-Mapping- adaptiv zu verändern, die Definition einer Familie von Local-Mapping-LUTs (mit einer einzigen Global-Mapping-LUT) und die Verwendung einer gewählten LUT, die für jede HDR-Operation repräsentativ ist. Dies erfordert aber einige zusätzliche Heuristiken und eine Vorverarbeitungs-Untersuchung, um zu erfassen, in welchem Szenario eine spezifische LUT zu verwenden ist. Zum Beispiel kann man die Helligkeitswerte der eingegebenen Bilder verwenden, um zu erkennen, in welcher LUT sie zu verwenden sind.
Es ist eine anspruchsvollere Lösung für die Herausforderung des adaptiven Tone-Mappings, die über kontrastierende Ausführungsformen der vorliegenden Erfindung geliefert wird, eine Online-Änderung der Mappings durchzuführen, um den ganzen Dynamikbereich der Szene zu erfassen. Daher wird gemäß diesen Ausführungsformen ein zusätzliches Global Mapping auf der Helligkeitskomponente des HDR-Fusionsergebnisses direkt nach der Gamma-Transformation eingeführt. Die zusätzliche globale Transformation leitet sich von der Einheits-Transformation (Y = X) ab, um zusätzliche Grautonstufen für häufigere Helligkeitswerte zuzuweisen. Wenn zum Beispiel ein dominanter Teil des Bilds hell ist, werden mehr Grautonstufen für helle Helligkeitspegel zu Lasten dunkler Helligkeitspegel zugewiesen. Durch Verwendung dieses adaptiven Mappings mit einer vordefinierten Gamma-LUT und Local-Mapping-LUT kann man sich ähnlicher Farben wie im Ursprungsbild erfreuen, die Helligkeitspegel (ohne die Szenenfarben zu beeinflussen) an das adaptive Mapping anpassen und durch Definieren der Local-Mapping-LUT Varianten zum HDR Tone-Mapping-Ergebnis hinzufügen.
Der vorgeschlagene adaptive Tone-Mapping-Algorithmus umfasst die folgenden Phasen:

(a) Konstruieren eines Helligkeits-Histogramms des HDR-Bilds nach der Gamma-LUT-Umwandlung. Da dies sich rechnermäßig als teuer erweisen kann, kann ein geschätztes Histogramm durch Verwendung einer Kombination von Histogrammen der herabgestuften eingegebenen Bilder erzeugt werden. Das geschätzte Histogramm wird unter Verwendung der folgenden Schritte erhalten:
(a1) Umwandeln der drei Bilder in den Gamma-Bereich mit Belichtungskompensation, wobei die Belichtungskompensation gewährleistet, dass die Helligkeitspegel in allen Bildern ausgerichtet sind;
(a2) Berechnen eines Helligkeitspegel-Histogramms für die drei Bilder Ĩ_dunkel, Ĩ_mittel, Ĩ_hell, und
(a3) Vereinen der drei Histogramme in ein einziges HDR-Histogramm durch Verwendung von zwei vordefinierten Schwellen HellTH und DunkelTH-
wobei Hist_HDR das kombinierte Histogramm darstellt, und Hist_hell, Hist_mittel, Hist_dunkel das Histogramm der eingegebenen Bilder nach Belichtungskompensation und Gamma-LUT darstellen.
(b) Definieren eines Mappings gemäß der Verteilung von Helligkeitswerten. Ein fernerer Bereich von Ausgangsstufen sollte den am stärksten bestückten Zonen des Helligkeits-Histogramms gegeben werden. Eine der beliebtesten Techniken zur Definition eines solchen Mappings ist als Histogrammausgleich bekannt. Hier wird ein ähnliches Konzept verwendet:
(b1) Normieren des Histogramms,
(b2) Berechnen der kumulativen Verteilungsfunktion,
(b3) Definieren des Mappings als T(i) = α·Pr(i) + (1 – α)·i wobei α ∊ [0, 1] ein Stärkefaktor ist, der zwischen der Histogrammausgleich-Transformation und der Einheits-Transformation verschmilzt. Der Stärkefaktor ist in Fällen nützlich, in denen der Histogrammausgleich zu aggressiv ist und zu einer Verschlechterung der Bildqualität führen kann.

Nachdem so mehrere Aspekte von Ausführungsformen der Erfindung beschrieben wurden, versteht es sich, dass dem Fachmann verschiedene Änderungen, Abänderungen und Verbesserungen in den Sinn kommen. Solche Änderungen, Abänderungen und Verbesserungen sollen Teil dieser Offenbarung sein und sollen sich im Rahmen der Erfindung befinden. Dementsprechend dienen die vorhergehende Beschreibungen und die Zeichnungen nur als Beispiel.
Entsprechend der üblichen Praxis der Fachleute auf dem Gebiet der Computerprogrammierung werden nachfolgend Ausführungsformen unter Bezug auf Operationen beschrieben, die von einem Computersystem oder einem ähnlichen elektronischen System ausgeführt werden. Solche Operationen werden manchmal als Computer-ausgeführt bezeichnet. Es versteht sich, dass symbolisch dargestellte Operationen die Manipulation durch einen Prozessor, wie eine zentrale Verarbeitungseinheit, von elektrischen Signalen, die Datenbits darstellen, und die Pflege von Datenbits an Speicherstellen, wie in einem Systemspeicher, sowie andere Signalverarbeitungen umfassen. Die Speicherstellen, wo Datenbits gepflegt werden, sind physikalische Stellen, die besondere elektrische, magnetische, optische oder organische Eigenschaften haben, die den Datenbits entsprechen.
Wenn sie in Software implementiert werden, sind die Elemente der Ausführungsformen hauptsächlich die Codesegmente, um die notwendigen Aufgaben auszuführen. Die nicht-vorübergehenden Codesegmente können in einem prozessorlesbaren Datenträger oder einem computerlesbaren Datenträger gespeichert sein, der jeden Datenträger umfassen kann, der Information speichern oder übertragen kann. Beispiele solcher Datenträger umfassen eine elektronische Schaltung, eine Halbleiterspeichervorrichtung, einen Lesespeicher (ROM), einen Flash-Speicher oder anderen nicht-flüchtigen Speicher, eine Floppy-Disk, eine CD-ROM, eine optische Diskette, einen Festplatte, einen faseroptischen Datenträger, eine Funkfrequenzverbindung (RF), usw. Die Benutzereingabe kann jede Kombination einer Tastatur, Maus, Berührungsbildschirm, Sprachsteuerungseingabe usw. umfassen. Die Benutzereingabe kann in gleicher Weise genutzt werden, um eine Browseranwendung, die auf einer Rechenvorrichtung eines Benutzers arbeitet, zu einer oder mehreren Netzwerkressourcen zu lenken, wie Webseiten, von denen auf Rechenressourcen zugegriffen werden kann.
Während die Erfindung in Verbindung mit spezifischen Beispielen und verschiedenen Ausführungsformen beschrieben wurde, versteht der Fachmann, dass viele Abänderungen und Anpassungen der hier beschriebenen Erfindung möglich sind, ohne den Rahmen der Erfindung, wie sie nachfolgend beansprucht wird, zu verlassen. Daher ist klar, dass diese Anmeldung nur als Beispiel und nicht als Einschränkung des Rahmens der Erfindung, wie sie nachfolgend beansprucht wird, dient. Die Beschreibung soll beliebige Variationen, Verwendungen oder Anpassungen der Erfindung abdecken, die allgemein den Prinzipien der Erfindung folgen und einschließlich solcher Abweichungen von der vorliegenden Offenbarung, wie sie im Bereich der bekannten und üblichen Praxis auf dem Gebiet der Technik liegen, zu dem die Erfindung gehört.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

”High Dynamic Range Imaging Acquisition, Display, and Image-Based Lighting” der Autoren Erik Reinhard, Sumanta Pattanaik, Greg Ward und Paul Debevec, veröffentlicht von Morgan Kaufmann Publishers, Copyright 2005 von Elsevier, Inc. [0006]
”High Dynamic Range Video” von S. B. Kang, M. Uyttendaele, S. Winder und R. Szeliski, Interactive Visual Media Group, Microsoft Research, Redmond, WA, 2003 [0067]

Claims

Verfahren zum Mischen einer Vielzahl digitaler Bilder einer Szene, das umfasst: Aufnehmen der Bilder bei unterschiedlichen Belichtungsstufen; Registrieren von Gegenstückpixeln jedes Bilds zueinander; Ableiten einer normierten Bildbelichtungsstufe für jedes Bild; Einsetzen der normierten Bildbelichtungsstufe in einem Bildverschmelzungsprozess; Verwenden des Bildverschmelzungsprozesses, um ein erstes ausgewähltes Bild und ein zweites ausgewähltes Bild zu verschmelzen, um ein Zwischenbild zu erzeugen, und wenn die Vielzahl aus zwei Bildern besteht, Ausgeben des Zwischenbilds als ein gemischtes Ausgabebild; und wenn die Vielzahl aus mehr als zwei Bildern besteht, Wiederholen des Bildverschmelzungsprozesses unter Verwendung des vorher erzeugten Zwischenbilds anstelle des ersten ausgewählten Bilds und eines anderen ausgewählten Bilds anstelle des zweiten ausgewählten Bilds, bis alle Bilder verschmolzen sind, und Ausgeben des zuletzt erzeugten Zwischenbilds als das gemischte Ausgabebild.
Verfahren nach Anspruch 1, das ferner umfasst: selektives Umwandeln der Bilder von einem niedrigeren Bits-pro-Pixel-Format in ein höheres Bits-pro-Pixel-Format vor der Verwendung des Bildverschmelzungsprozesses; und selektives Umwandeln des gemischten Ausgabebilds in ein vorbestimmtes niedrigeres Bits-pro-Pixel-Format.
Verfahren nach Anspruch 1, wobei der Bildverschmelzungsprozess die Gegenstückpixel von zwei Bildern verschmilzt und umfasst: Ableiten eines Luma-Werts für ein Pixel im zweiten ausgewählten Bild; Verwenden des Luma-Werts eines zweiten ausgewählten Bildpixels als ein Index in eine Nachschlagetabelle, um einen Gewichtungswert zwischen den Zahlen Null und Eins zu erhalten; Verwenden des Gewichtungswerts, der normierten Belichtungsstufe des zweiten ausgewählten Bilds und des zweiten ausgewählten Bildpixels, um ein verarbeitetes zweites ausgewähltes Bildpixel zu erzeugen; Auswählen eines ersten ausgewählten Bildpixels, das dem zweiten ausgewählten Bildpixel entspricht; Verwenden des ersten ausgewählten Bildpixels und des Ergebnisses der Subtraktion des Gewichtungswerts von Eins, um ein verarbeitetes erstes ausgewähltes Bildpixel zu erzeugen; Addieren des verarbeiteten ersten ausgewählten Bildpixels zum verarbeiteten zweiten ausgewählten Gegenstückbildpixel, um ein verschmolzenes Bildpixel zu erzeugen; und Wiederholen der obigen Verarbeitungsfolge, bis jedes zweite ausgewählte Bildpixel mit seinem ersten ausgewählten Gegenstückbildpixel verschmolzen ist.
Verfahren nach Anspruch 3, wobei der erhaltene Gewichtungswert abnimmt, wenn der als der Index in die Nachschlagetabelle verwendete Luma-Wert zunimmt.
Verfahren nach Anspruch 3, das ferner die Verwendung einer unterschiedlichen Nachschlagetabelle für jedes Bild enthält, um den Gewichtungswert zu erhalten.
Verfahren nach Anspruch 1, wobei das Bildmischen vor der Aufnahme aller Bilder der Vielzahl beginnt.
Verfahren nach Anspruch 1, wobei das Bildmischen direkt nach der Aufnahme des zweiten Bilds der Vielzahl beginnt.
Prozessorlesbarer Datenträger, der Anweisungen zum Entfernen ortsverschobener Wiedergaben von Szeneobjekten umfasst, die in einem gemischten Bild erscheinen, das von einem digitalen Bildmischprozess erzeugt wird, der auf eine Vielzahl von Bildern angewendet wird, die bei unterschiedlichen Belichtungsstufen und zu verschiedenen Zeiten erfasst werden, wobei die Bilder ihre Gegenstückpixel zueinander registriert haben, wobei die Ausführung der Anweisungen durch einen Prozessor Aktionen ermöglicht, die umfassen: Normieren der Luma-Werte der Bilder auf eine spezifische Standardabweichung und Mittelwert; Detektieren einer lokalen Bewegung zwischen mindestens einem Bezugsbild und mindestens einem Vergleichsbild; Clustern von Vergleichsbildpixeln mit lokaler Bewegung in Patches; Auswählen entsprechender Patches aus dem Bezugsbild; Erzeugen eines verbundenen binären Bilds durch logisches Verodern der von bestimmten Bezugsbildern erzeugten Patches zusammen; und Verschmelzen des gemischten Bilds mit den Bezugsbildern, wobei jedes Bezugsbild durch einen Gewichtungswert gewichtet wird, der aus dem verbundenen binären Bild berechnet wird, um ein Ausgabebild zu erzeugen.
Datenträger nach Anspruch 8, wobei das Detektieren lokaler Bewegung ferner umfasst: Bestimmen einer absoluten Luma-Varianz zwischen jedem Pixel des Bezugsbilds und dem Vergleichsbild, um ein Differenzbild zu erzeugen; und Identifizieren von Differenzbildzonen mit absoluten Luma-Varianzen, die eine Schwelle überschreiten.
Datenträger nach Anspruch 8, wobei das Clustern umfasst: Finden von Sätzen erkannter Bild-Blobs unter Verwendung morphologischer Operationen; und Begrenzen jedes Satzes durch ein Polygon.
Datenträger nach Anspruch 8, wobei die als Bezugsbilder verwendeten ausgewählten Bilder mindestens eines umfassen aus: dem Bild mit der niedrigsten Belichtungsstufe, dem Bild mit der höchsten Belichtungsstufe und einem Bild mit einer Zwischenbelichtungsstufe.
Datenträger nach Anspruch 8, wobei der Luma-Wert der zu verarbeitenden Bilder vor dem Verarbeiten herabgestuft wird.
Datenträger nach Anspruch 8, der ferner das Auswählen von Bezugsbildern umfasst durch: für ein Kandidat-Bezugsbild eines Zwischenbelichtungswerts, Berechnen einer Summe von Feldern gesättigter Zonen und eines Verhältnisses der Summe von gesättigten Feldern zu Gesamt-Patchfeldern; und Auswählen des Kandidat-Bezugsbilds als das Bezugsbild, wenn das Verhältnis geringer als ein oder gleich einem Parameterwert ist, und Auswählen eines Bilds von weniger als dem Zwischenbelichtungswert als das Bezugsbild, wenn das Verhältnis größer als der Parameterwert ist.
Bildaufnahmevorrichtung, die eine Vielzahl digitaler Bilder einer Szene bei verschiedenen Belichtungsstufen aufnimmt, die umfasst: einen Bildregistrierungsprozessor, der Gegenstückpixel jedes Bilds der Vielzahl zueinander registriert; einen Bildmischer, der viele Bilder der Vielzahl kombiniert, um ein einziges Bild zu erzeugen, wobei der Bildmischer umfasst: einen Bildnormierer, der die Bildbelichtungsstufe für jedes Bild normiert; und einen Bildverschmelzer, der die normierte Belichtungsstufe verwendet, um ein erstes ausgewähltes Bild und ein zweites ausgewähltes Bild zu verschmelzen, um ein Zwischenbild zu erzeugen, und wenn die Vielzahl aus zwei Bildern besteht, das Zwischenbild als ein gemischtes Ausgabebild ausgibt, und wenn die Vielzahl aus mehr als zwei Bildern besteht, das vorher erzeugte Zwischenbild wiederholt anstelle des ersten ausgewählten Bilds und ein anderes ausgewähltes Bild anstelle des zweiten ausgewählten Bilds verschmilzt, bis alle Bilder verschmolzen sind, und das zuletzt erzeugte Zwischenbild als das gemischte Ausgabebild ausgibt.
Bildaufnahmevorrichtung nach Anspruch 14, die ferner einen Gamma-Korrektur-Wandler umfasst, der selektiv die Bilder von einem niedrigeren Bits-pro-Pixel-Format in ein höheres Bits-pro-Pixel-Format vor der Bildmischung umwandelt, und selektiv das gemischte Ausgabebild in ein vorbestimmtes niedrigeres Bits-pro-Pixel-Format umwandelt.
Bildaufnahmevorrichtung nach Anspruch 14, die ferner umfasst: eine Luma-Umwandlungsschaltung, die den Luma-Wert eines eingegebenen Pixels ausgibt; eine Nachschlagetabelle, die einen Gewichtungswert zwischen den Zahlen Null und Eins für einen eingegebenen Luma-Wert ausgibt; eine Verarbeitungsschaltung, die einen abgeleiteten Luma-Wert für ein Pixel in dem zweiten ausgewählten Bild von der Luma-Umwandlungsschaltung erfasst, einen Gewichtungswert von der Nachschlagetabelle für den abgeleiteten Luma-Wert erhält, und ein verarbeitetes zweites ausgewähltes Bildpixel von dem zweiten ausgewählten Bildpixel, die normierte Belichtungsstufe des zweiten ausgewählten Bilds und den Gewichtungswert erzeugt; eine zweite Verarbeitungsschaltung, die als Eingaben das Ergebnis der Subtraktion des Gewichtungswerts von Eins und das erste ausgewählte Bildpixel entsprechend dem zweiten ausgewählten Bildpixel empfängt und ein verarbeitetes erstes ausgewähltes Bildpixel erzeugt; und eine Additionsschaltung, die das verarbeitete erste ausgewählte Bildpixel zum verarbeiteten zweiten ausgewählten Bildpixel addiert, um ein verschmolzenes Bildpixel zu erzeugen.
Bildaufnahmevorrichtung nach Anspruch 16, die einen geringeren Gewichtungswert ausgibt, wenn der eingegebene Luma-Wert in die Nachschlagetabelle zunimmt.
Bildaufnahmevorrichtung nach Anspruch 16, die eine erste Nachschlagetabelle für das erste ausgewählte Bild und eine zweite Nachschlagetabelle für das zweite ausgewählte Bild verwendet.
Bildaufnahmevorrichtung nach Anspruch 14, die das Mischen der Vielzahl von Bildern vor der Aufnahme aller Bilder der Vielzahl beginnt.
Bildaufnahmevorrichtung nach Anspruch 14, die das Mischen der Vielzahl von Bilder direkt nach der Aufnahme des zweiten Bilds der Vielzahl beginnt.