DE112010002987T5

DE112010002987T5 - Verfahren zum Verbessern von Bildern

Info

Publication number: DE112010002987T5
Application number: DE112010002987T
Authority: DE
Inventors: Dmitry Valerievich Shmunk; Eugene Alexandrovich Panich
Original assignee: Individual
Current assignee: Individual
Priority date: 2009-07-20
Filing date: 2010-03-19
Publication date: 2013-05-16
Also published as: KR101813292B1; RU2426264C2; CN102472946A; US20120114264A1; US8699814B2; JP5527781B2; CN102472946B; RU2009127932A; WO2011010949A1; KR20120073203A; JP2012533961A; CN104656340A

Abstract

Das der vorliegenden Erfindung entsprechende Verfahren ist zum Erzeugen von Bildern hoher Qualität bei der Fotografie unter lichtarmen Bedingungen und beim Fehlen einer großaperturigen Optik verwendbar. Das Verfahren umfasst, beim Fotografieren zuerst eine Vielzahl von Einzelbildern des Bildes mit Belichtungen zu gewinnen, die sich entweder teilweise zeitlich überlappen oder eine geringfügige Pause dazwischen aufweisen. Das beste Ergebnis kann in dem Fall erzielt werden, in dem die Pause zwischen den Belichtungen weniger als 1/20 der Gesamtbelichtungszeit ausmacht. Das Verfahren umfasst weiterhin, die Anfangsbilder aus einer Gruppe von Belichtungen zu separieren und die Bilder mit dem kleinsten Belichtungsintervall unter Verwendung der Bilder mit dem größten Belichtungsintervall zu filtern. Das endgültige Bild wird gewonnen, indem Anfangsbilder mit unterschiedlichen Belichtungsintervallen aus derselben Gruppe kombiniert werden.

Description

ZUSAMMENFASSUNG
Das der vorliegenden Erfindung entsprechende Verfahren ist zum Erzeugen von Bildern hoher Qualität bei der Fotografie unter lichtarmen Bedingungen und beim Fehlen einer großaperturigen Optik verwendbar. Das Verfahren umfasst, beim Fotografieren zuerst eine Vielzahl von Einzelbildern des Bildes mit Belichtungen zu gewinnen, die sich entweder teilweise zeitlich überlappen oder eine geringfügige Pause dazwischen aufweisen. Das beste Ergebnis kann in dem Fall erzielt werden, in dem die Pause zwischen den Belichtungen weniger als 1/20 der Gesamtbelichtungszeit ausmacht. Das Verfahren umfasst weiterhin, die Anfangsbilder aus einer Gruppe von Belichtungen zu separieren und die Bilder mit dem kleinsten Belichtungsintervall unter Verwendung der Bilder mit dem größten Belichtungsintervall zu filtern. Das endgültige Bild wird gewonnen, indem Anfangsbilder mit unterschiedlichen Belichtungsintervallen aus derselben Gruppe kombiniert werden.
TECHNISCHES GEBIET
Diese Erfindung betrifft Fotografische Bilder, insbesondere das Erstellen von Aufnahmen mithilfe von Sensoren und einem elektronischen Verschluss. Sie ist zum Erstellen von Aufnahmen unter lichtarmen Bedingungen und ohne großaperturige Optik verwendbar.
HINTERGRUND DER ERFINDUNG
Es gibt heute eine breite Vielfalt an klein bemessenen mobilen Fotovorrichtungen, die entweder abnehmbar sind oder in andere Geräte eingebaut sind, etwa in Mobiltelefone, die ein Erstellen von Aufnahmen von verschiedenen Objekten zulassen. Aufgrund der strengen Größen- und Gewichtsbegrenzungen ist eine großaperturige Optik für lichtarme Bedingungen in solchen Vorrichtungen nicht verwendbar.
Zum Gewinnen von Aufnahmen unter lichtarmen Bedingungen, wenn keine großaperturige Optik angewendet wird, gibt es zwei bekannte Wege. Diese sind entweder separat oder in Kombination verwendbar:

1. Längere Belichtungszeit; falls nötig, manchmal in Kombination mit optischen oder digitalen Bildstabilisatoren (Chris Weston: "Exposure in digital photography" ISBN 978-5-9794-0235-2, 978-2-940378-29-6).

Dieses Verfahren hat eine Schwäche: Im Falle einer langen Belichtung und wenn eine Aufnahme mit einer Handkamera erstellt wird, die während der Belichtung nicht solide befestigt ist, ist das daraus resultierende Bild verschwommen und unscharf bzw. nicht scharf. Bei einer Verwendung zusätzlicher mechanischer Vorrichtungen (etwa eines Stativs) werden Mobilitätsanforderungen nicht erfüllt. Mit einem digitalen oder optischen Bildstabilisator wird diese Schwäche teilweise ausgeglichen. Jedoch werden die Kameras durch solche Vorrichtungen größer. Die Schwäche des ersten Verfahrens, die sich durch eine Verwendung von Bildstabilisatoren nicht beheben lässt, liegt außerdem darin, dass bewegte Objekte in der Szene verschwommen erscheinen.

2. Intensive Verstärkung in dem vom Sensor kommenden Datenleseweg (äquivalent zu erhöhtem Empfindlichkeitswert) (Chris Weston: "Exposure in digital photography": ISBN 978-5-9794-0235-2, 978-2-940378-29-6).

Die Schwäche des zweiten Verfahrens liegt in der Verstärkung nicht nur der Helligkeit eines Bildes, sondern auch des Rauschens aus dem Sensor und dem Bildlese-/Digitalisierungsweg. Es gibt Verfahren zum nachträglichen Unterdrücken von Rauschen; jedoch lassen diese zwangsläufig auch bestimmte Details in dem Bild verschwinden.
Es gibt Beschreibungen einer Prozedur zum Empfangen mehrerer (einer Serie von) Belichtungen von dem Sensor, die folgende Phasen umfasst (http://www.aptina.com/products/image_sensors/

– Datentabelle für moderne Sensoren; http://www.aptina.com/assets/downloadDocument.do?id=373 – detaillierte Beschreibung eines Sensors mit elektronischem Verschluss: MT9P013):
– Bestimmung einer optimalen Belichtungszeit,
– Belichtung während der Zeit T1 und nachfolgendes Datenauslesen,
– Intervall zwischen Belichtungen,
– Belichtung während der Zeit T2 und nachfolgendes Datenauslesen,
– Intervall zwischen Belichtungen,
– Belichtung während der Zeit T3 und nachfolgendes Datenauslesen
– und so weiter.

Die Schwäche des obigen Aufnahmeverfahrens liegt darin, dass die Belichtungen zeitlich gestreut sind, wodurch sich die Qualität der Wiedergabe bewegtet Objekte nach dem Verschmelzen der Belichtungen verschlechtert.
Das im US-Patent Nr. 450346 beschriebene Bildverbesserungsverfahren kommt der vorgeschlagenen Erfindung am nächsten. Dieses Verfahren regt an, dass zwei Einzelbilder als Eingangsbilder verwendet werden und eines dieser Bilder ein verbessertes Signal-Rausch-Verhältnis aufweist, jedoch mit bestimmten Verzerrungen. Das Verfahren verwendet Niederfrequenzdaten aus dem ersten Bild und Hochfrequenzdaten aus dem zweiten. Zum Bestimmen der Schwellenfrequenz für die beiden Bilder wird zusätzliche Logik verwendet. Die Frequenz kann sich abhängig von den Bildeigenschaften adaptiv über die Bildregion verändern. Folgendermaßen wird dieses Verfahren verwendet, um störende Signale in einem Bild zu reduzieren:

– Mehrere Belichtungen eines Objektes werden gewonnen;
– die erste Belichtung wird (mit niedrigem Signal-Rausch-Verhältnis) aufgenommen;
– mehrere Bilder mit hohem Signal-Rausch-Verhältnis werden zu einem einzigen Bild verschmolzen, wodurch das zweite Bild erzeugt wird;
– an dem ersten Bild wird Niederfrequenzfilterung vorgenommen, um das Rauschen zu reduzieren;
– das zweite Bild durchläuft Hochfrequenzfilterung;
– die Frequenzen der Nieder- und Hochfrequenzfilterung werden an das Ausmaß lokaler Verzerrungen (Artefakte) angepasst;
– die gefilterten Bilder werden durch einfache Summierung kombiniert.

Die Schwäche dieses Verfahrens ist eine Verschwommenheit in dem Bild, die nicht zu beheben ist. Wenn die Szene bewegte Objekte enthält, enthalten Bilder, die in diesem Verfahren mit zeitlich separaten Belichtungen aufgenommen sind, zwangsläufig Artefakte.
ZUSAMMENFASSUNG DER ERFINDUNG
Ziel der Erfindung ist es, Bilder hoher Qualität mit mobilen Fotovorrichtungen ohne Verwendung einer großaperturigen Optik oder irgendwelcher anderer, zusätzlicher Vorrichtungen zu gewinnen.
Die Lösung der Aufgabe ist folgende:

– Mehrere Belichtungen werden mit einem niedrigen Signal-Rausch-Verhältnis empfangen.
– Aus diesen Belichtungen werden Originalbilder mit der besten Schärfe aus aufeinanderfolgenden Gruppen von Belichtungen identifiziert, die sich entweder teilweise zeitlich überlappen oder Intervalle dazwischen aufweisen, die 1/20 der Gesamtbelichtungszeit nicht überschreiten.
– Bilder mit kürzeren Belichtungszeiten werden unter Verwendung von Bildern mit längeren Belichtungszeiten ausgefiltert.
– Das endgültige Bild wird gewonnen, indem Originalbilder aus derselben Gruppe mit unterschiedlichen Belichtungszeiten verschmolzen werden.

KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 stellt den Datenlesemodus dar, der möglich ist, wenn ein nichtlöschender Zugriff auf Sensorpixel besteht.
2 zeigt den Modus mit einer zwischendurch erfolgenden Sensorzurücksetzung.
3 zeigt den Standard-Datenlesemodus.
4 zeigt, wie ein Bild während des Bildfilterprozesses in kleine, überlappende Bereiche von gleicher Größe (Kacheln) unterteilt wird.
5 stellt das erste Verfahren zum Unterteilen der Koeffizienten der zweidimensionalen Frequenztransformation in die nicht-überlappenden Bereiche dar.
6 zeigt das zweite Verfahren zum Unterteilen der Koeffizienten der zweidimensionalen Frequenztransformation in die nicht-überlappenden Bereiche.
7 ist ein Diagramm, das grafisch den Anteil von Bildern hoher Qualität darstellt, die gegenüber bekannten Verfahren durch das vorgeschlagene Verfahren gewonnen werden.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
Das vorgeschlagene Verfahren zum Verbessern von fotografischen Bildern besteht aus zwei Phasen:

1. Spezieller Bilddaten-Sammelmodus (Auslesen) aus dem Sensor, wobei mehrere Einzelbilder des Bildes erzeugt werden.
2. Verschmelzen der gewonnenen Bilder zu einem endgültigen Bild.

Phase eins
Verfahren 1
Der in 1 dargestellte Lesemodus besteht aus Folgendem:

– anfängliches Zeile-für-Zeile-Zurücksetzen aller Sensorpixel in ihren Originalzustand;
– Belichtung während der Zeit T1;
– Zeile-für-Zeile-Auslesen des während der Belichtung T1 gewonnenen Bildes;
– zusätzliche Belichtung während der Zeit T2-T1;
– Zeile-für-Zeile-Auslesen des während der Belichtung T2 gewonnenen Bildes.

Als Ergebnis werden zwei Bilder erzeugt: das erste mit der Belichtungszeit T1 (nennen wir es A), das zweite mit der Belichtungszeit T2 (nennen wir es B).
Dieser Datenauslesemodus ist bevorzugt; jedoch ist er nur möglich, wenn nichtlöschender Lesezugriff auf die Sensorpixel besteht.
Verfahren 2
Der in 2 dargestellte Datenlesemodus besteht aus Folgendem:

– anfängliches Zeile-für-Zeile-Zurücksetzen aller Sensorpixel in ihren Originalzustand;
– Belichtung während der Zeit T1;
– löschendes Zeile-für-Zeile-Auslesen des während der Belichtung T1 gewonnenen Bildes;
– Zurücksetzen aller Sensorpixel in ihren Originalzustand unmittelbar nach dem Auslesen;
– zusätzliche Belichtung während der Zeit T2;
– Zeile-für-Zeile-Auslesen des während der Belichtung T2 gewonnenen Bildes.

Dieses Ausleseverfahren erzeugt Bilder, die denen ähnlich sind, die durch den in 1 dargestellten Modus gewonnen wurden, und zwar durch Summieren von während der Zeit T1 und T2 gewonnenen Bildern zu dem einzigen Bild B. Anders als bei Verfahren eins wird Bild B während des zweiten Zurücksetzens der Zellen nicht belichtet. Jedoch ist die für ein solches Zurücksetzen erforderliche Zeit gegenüber den Zeiten T1 und T2 vernachlässigbar kurz. Das optimale Ergebnis wird erzielt, wenn die Zurücksetzzeit 1/20 der Gesamtbelichtungszeit nicht überschreitet.
Die Bilder A und B werden zur Weiterverarbeitung in die zweite Phase übertragen. Wenn die Gesamtzeit der Belichtung plus die Zeit, die erforderlich ist, um den Sensor vor der Belichtung zurückzusetzen, gegenüber der Dynamik der fotografierten Szene vernachlässigbar klein ist, werden zum Erzielen des besten Ergebnisses während der ersten Phase mehrere Bildpaare aufgebaut (A1 B1; A2 B2; ...), mit anschließender Auswahl des besten Paars während der zweiten Phase.
Eigenschaften von Bildern, die während der ersten Phase gewonnen werden:
Nach der ersten Phase gewonnene Bilder haben unterschiedliche Belichtungszeiten. T1 < T2, also ist die Belichtung von Bild A kürzer als die Belichtung von Bild B. Es wurde festgestellt, dass das optimale Verhältnis T1 = T2/5 ist. Anders ausgedrückt: Die Belichtung von Bild A sollte fünfmal kürzer sein. Bei einem solchen Belichtungszeitverhältnis

– ist das Rausch-/Signalverhältnis in Bild B fünfmal höher als in Bild A;
– ist die Unschärfe (Verschwommenheit) des Bildes (wenn beispielsweise die Kamera während der Belichtung wackelt) in Bild A beträchtlich niedriger als in Bild B.

Phase zwei
Auswahl des besten Bildpaars
Nach der Gewinnung mehrerer Bildpaare in der ersten Phase muss das beste Paar zur Weiterverarbeitung ausgewählt werden. Das Verschwommenheitsniveau in Bild B hat die größte Auswirkung auf die Weiterverarbeitung. Das schärfere Bild (B1 oder B2 oder B...) wird folgendermaßen ausgewählt:

1. Extraktion der Helligkeitskomponente. Angenommen, jeder Pixel in dem Bild ist in Form von drei Farbkomponenten gespeichert: R, G, B. Dann wird die Helligkeitskomponente (Y) durch folgende Formel identifiziert: Y = R·0,2989 + G·0,587 + B·0,114 Diese Interpretation des Signals und dieses Berechnungsverfahren für die Helligkeitskomponente sind für die Bildverarbeitung typisch und bekannt.
2. Berechnung der Summe der Quadrate des Helligkeitsgradienten in beiden Bildern: Gx_x,y = Y_x-1,y-1 – Y_x+1,y-1 + Y_x-1,y+1 – Y_x+i,y+1 + 2Y_x-1,y – 2Y_x+i,y Gy_x,y = Y_x-1,y-1 + Y_x+1,y-1 – Y_x-1,y+1 – Y_x+1,y+1 + 2Y_x,y-1 – 2Y_x,y+1 G = Σ_x,y(Gx_x,y·Gx_x,y + Gy_x,y·Gy_x,y) wobei G_x – Gradientenkomponente in x-Richtung, G_y – Gradientenkomponente in y-Richtung, G – Summe der Quadrate der Gradientenwerte, x, y – Koordinaten eines Pixels.
3. Das Bild sollte den höchsten G-Wert aufweisen.

Sobald das beste Paar identifiziert ist, stehen zwei Bilder zur Verfügung:

A – das schärfere Bild, jedoch mit dem höheren Rauschniveau;
B – möglicherweise das unschärfere Bild, jedoch mit dem niedrigeren Rauschniveau.

Rauschreduzierung in Bild A (Filterung)
Neben Nutzdaten (belichtete Szene) enthält Bild A störendes Rauschen. Niedrig verrauschte Daten in Bild B können dabei helfen, das Nutzsignal in Bild A aus dem Rauschen zu filtern. Dieses Verfahren unterscheidet sich von bekannten Verfahren zum Ausfiltern von Rauschen durch Verwendung eines einzigen Bildes, da das zweite Bild (B) dazu verwendet wird, Rauschen von Nutzsignal zu separieren. Dies hilft dabei, Rauschen und Nutzsignal im optimalen Ausmaß zu separieren und das Nutzsignal intakt zu lassen.
Die Filterprozedur kann entweder auf die Helligkeitskomponente oder auf die Luminanz- und Chrominanzkomponenten, oder auf jeden Farbkanal (R, G, B) einzeln angewandt werden.
Die unten beschriebene Prozedur reduziert Rauschen in einem Bild A mithilfe von Daten in Bild B:

– Der zum Filtern ausgewählte Kanal (beispielsweise Luminanzkanal) der Bilder A und B wird in kleinere überlappende Bereiche von gleicher Größe (Kacheln) zerlegt. Siehe 4.
– Jede der Kacheln durchläuft denselben Verarbeitungsalgorithmus: • Auf die Daten jeder Kachel wird ein Fenster angewandt, und es erfolgt eine zweidimensionale Frequenztransformation (beispielsweise 2D-Fourier-Transformation). Das Fenster wird dazu verwende, den Gibbs-Effekt während der Frequenztransformation zu reduzieren. Die quadrierte Fensterfunktion muss bei Summierung mit den überlagernden Fenstern der benachbarten Kacheln die Bedingung der Signalverstärkung eins erfüllen; • die resultierenden zweidimensionalen Frequenztransformationskoeffizienten werden in nicht-überlappende Bereiche geteilt (siehe 5; 6); • Koeffizienten von Bild A werden in jedem Bereich mithilfe von Koeffizienten von Bild B gefiltert; • es erfolgt inverse Frequenztransformation, und Fenster werden zum zweiten Mal angewandt.
– Das korrigierte Bild A wird durch Summieren der resultierenden überlappenden Kacheln aufgebaut.

Mit Ausnahme von Bereichen mit den niedrigsten Frequenzen (die keine Filterung durchlaufen) ist der Koeffizienten-Filteralgorithmus für jeden Bereich folgenden

– Die mittlere Energie von Koeffizienten von Bildern A und B, ihre Kreuzkorrelation und Mittelwertanpassung der Energiekoeffizienten von Bild B werden berechnet:
– Die Amplitude von Koeffizienten von B wird angepasst: C' B / i = C B / i·Att_B
– Koeffizienten von Bild A, deren quadrierte Amplitude in einem gegebenen Bereich viel höher ist (beispielsweise dreimal so hoch) und angrenzende Koeffizienten bleiben intakt.
– Die Amplitude von Koeffizienten von Bild A, die über die Amplitude von Koeffizienten von Bild B hinausgeht, verringert sich:

Eine solche Filterprozedur mit einer Übertragung in die Frequenzdomäne ist optimal, weil sie beim Ausgleichen einer leichten Bewegung von Objekten in der Szene helfen kann, wie sie unter realen Fotografiebedingungen normalerweise vorhanden ist.
Erhalten des endgültigen Bildes
Nach der Rauschunterdrückung weist Bild A zwei Bilder mit unterschiedlichen Belichtungszeiten und niedrigen Rauschniveaus auf. Das Bild mit der längeren Belichtungszeit kann jedoch unscharf (nicht scharf) sein. Eine Verschmelzung dieser beiden Bilder zu einem einzigen Bild erzeugt das endgültige Bild mit einem erweiterten Dynamikbereich.
Einige verschattete Bereiche von Bild A akkumulieren möglicherweise keine ausreichende Ladung, um Details in dem Bild anzuzeigen, wobei dann Bild B zum Füllen solcher Bereiche verwendet werden kann. Trotz der hohen Wahrscheinlichkeit, dass Bild B unscharf ist, kann es dennoch ein Anzeigen einiger verschatteter Details der Szene in dem endgültigen Bild zulassen.
Die Verschmelzung der Bilder erfolgt wie in der Literatur beschrieben (Tom Mertens, Jan Kautz und Frank van Reeth: "Exposure Fusion". In "Proceedings of Pacific Graphics", 2007), wobei ein Erhalten des endgültigen Bildes zugelassen wird, ohne dass zwischendurch die Verwendung einer HDR-Repräsentation erforderlich ist. Bei diesem Prozess durchläuft jedes eintreffende Bild eine Pyramidenzerlegung, und jedes Zerlegungsniveau erfordert eine einfache Summierung von Bildern mit Gewichtungen, welche durch die Funktion identifiziert werden, die Gewichtungen je nach der Nähe der Belichtung eines gegebenen Bildbereiches zu der optimalen Belichtung zuweist.
GEWERBLICHE ANWENDBARKEIT
Die vorgeschlagene Erfindung ermöglicht das Erhalten von Bildern hoher Qualität durch die Verwendung von Vorrichtungen mit Sensoren mit einem elektronischen Verschluss, die die Verwendung eines speziellen Belichtungsmodus, wie oben beschrieben, zulassen. Ein elektronischer Verschluss wird heute in den meisten Mobiltelefonen mit eingebauter Kamera verwendet. Diese Erfindung kann auch an Kameras mit mechanischen Verschlüssen verwendet werden, jedoch ist die Qualität der Bilder dann weniger hoch. Es sei angemerkt, dass die vorgeschlagene Lösung in Kombination mit Bildstabilisatoren verwendet werden kann. In diesem Fall ergänzen die Technologien einander harmonisch und ermöglichen eine Erweiterung des Belichtungsbereiches, der ein scharfes Bild erzeugen kann. Die vorgeschlagene Lösung erfordert keine Modifikation der Gestaltung des Sensors.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 450346 [0009]

Zitierte Nicht-Patentliteratur

Chris Weston: ”Exposure in digital photography” ISBN 978-5-9794-0235-2 [0004]
978-2-940378-29-6 [0004]
Chris Weston: ”Exposure in digital photography”: ISBN 978-5-9794-0235-2 [0005]
978-2-940378-29-6 [0005]
http://www.aptina.com/products/image_sensors/ [0007]
http://www.aptina.com/assets/downloadDocument.do?id=373 [0007]
Tom Mertens, Jan Kautz und Frank van Reeth: ”Exposure Fusion” [0037]
”Proceedings of Pacific Graphics”, 2007 [0037]

Claims

Bildverbesserungsverfahren, umfassend: (a) Gewinnen einer Vielzahl von Belichtungen mit niedrigem Signal-Rausch-Verhältnis, (b) Identifizieren von Originalbildern mit der besten Schärfe aus diesen Belichtungen, (c) Erzeugen des endgültigen Bildes mit einem hohen Signal-Rausch-Verhältnis und hoher Auflösung durch Filtern der Bilder mit kürzeren Belichtungszeiten durch Verwendung von Daten aus den Bildern mit längeren Belichtungszeiten.
Bildverbesserungsverfahren gemäß Anspruch 1, wobei Originalbilder nacheinander aus Gruppen von Belichtungen genommen werden, wobei Belichtungen aus derselben Gruppe einander entweder teilweise zeitlich überlappen oder das Intervall zwischen denselben 1/20 der Gesamtzeit der Belichtung nicht überschreitet;
Bildverbesserungsverfahren gemäß Anspruch 1, wobei das endgültige Bild durch Verschmelzung von Originalbildern aus derselben Gruppe mit unterschiedlichen Belichtungszeiten aufgebaut wird.