DE112021003347T5

DE112021003347T5 - Bildverarbeitungsvorrichtung, bildanzeigesystem, -verfahren und -programm

Info

Publication number: DE112021003347T5
Application number: DE112021003347.6T
Authority: DE
Inventors: Daita Kobayashi
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-06-23
Filing date: 2021-06-09
Publication date: 2023-04-20
Also published as: US20230232103A1; WO2021261248A1; JPWO2021261248A1

Abstract

Eine Bildverarbeitungsvorrichtung einer Ausführungsform enthält eine Steuereinheit, die ein Kompositbild erzeugt und das Kompositbild an eine Anzeigevorrichtung ausgibt, wobei das Kompositbild durch Kombination eines ersten Bildes, das in einer ersten Belichtungszeit erfasst wird und eine erste Auflösung hat, und eines zweiten Bildes, das ein Bild ist, das einem Teil eines Bereichs des ersten Bildes entspricht und das in einer zweiten Belichtungszeit erfasst wird, die kürzer als die erste Belichtungszeit ist, und eine zweite Auflösung hat, die höher als die erste Auflösung ist, erfasst wird, wobei das erste Bild und das zweite Bild von einem Bildsensor eingegeben werden.

Description

Gebiet
Die vorliegende Offenbarung bezieht sich auf eine Bildverarbeitungsvorrichtung, ein Bildanzeigesystem, ein Verfahren und ein Programm.
Hintergrund
Unter der Annahme, dass sie hauptsächlich in einem Video-Durchsichtsystem (VST) verwendet wird, wurde eine Technologie vorgeschlagen, die in der Lage ist, die Verarbeitungslast bei der Bildverarbeitung zu reduzieren, indem ein Interessenbereich aus einer von einem Eye-Tracking-System geschätzten Augenposition berechnet wird und eine Verarbeitung zum Ausdünnen eines Bildes nur in einem Nicht-Interessenbereich (Auflösungsumwandlungsverarbeitung) nach dem Fotografieren durchgeführt wird (siehe z. B. Patentdokument 1).
Anführungsliste
Patentdokumente

Patentdokument 1: Japanische Patentanmeldungs-Offenlegungsnummer 2019-029952
Patentdokument 2: Japanische Patentanmeldungs-Offenlegungsnummer 2018-186577
Patentdokument 3: Japanisches Patent Nr. 4334950
Patentdokument 4: Japanische Patentanmeldungs-Offenlegungsnummer 200-032318
Patentdokument 5: Japanisches Patent Nr. 5511205

Kurzdarstellung
Technisches Problem
Bei der oben beschriebenen konventionellen Technologie wird die Auflösungsumwandlungsverarbeitung nur an einem anderen Teil als dem von einem Eye-Tracking-System erfassten Interessenbereich durchgeführt und dessen Auflösung reduziert, wodurch verhindert wird, dass die Last der Bildverarbeitung in einem Bildsignalprozessor (ISP) mehr als nötig erhöht wird.
Daher besteht bei dem oben beschriebenen konventionellen Verfahren das Problem, dass kein Unschärfereduzierungseffekt und kein HDR-Effekt (High Dynamic Range) erzielt werden kann, da die Belichtungsbedingungen für einen Interessenbereich und einen Nicht-Interessenbereich ständig gleich sind.
Die vorliegende Technologie wurde im Hinblick auf eine solche Situation entwickelt und soll eine Bildverarbeitungsvorrichtung, ein Bildanzeigesystem, ein Verfahren und ein Programm bereitstellen, die in der Lage sind, einen Unschärfereduzierungseffekt und einen HDR-Effekt zu erzielen und gleichzeitig die Verarbeitungslast bei der Bildverarbeitung zu verringern.
Lösung des Problems
Eine Bildverarbeitungsvorrichtung einer Ausführungsform weist Folgendes auf: eine Steuereinheit, die ein Kompositbild erzeugt und das Kompositbild an eine Anzeigevorrichtung ausgibt, wobei das Kompositbild durch Kombination eines ersten Bildes, das in einer ersten Belichtungszeit erfasst wird und eine erste Auflösung hat, und eines zweiten Bildes, das ein Bild ist, das einem Teil eines Bereichs des ersten Bildes entspricht und das in einer zweiten Belichtungszeit erfasst wird, die kürzer als die erste Belichtungszeit ist, und eine zweite Auflösung hat, die höher als die erste Auflösung ist, erfasst wird, wobei das erste Bild und das zweite Bild von einem Bildsensor eingegeben werden.
Figurenliste

1 ist ein schematisches Konfigurationsblockdiagramm eines Head-Mounted Display-Systems einer Ausführungsform.
2 ist eine Ansicht zur Beschreibung eines VR-Head-Mounted Display-Systems und veranschaulicht einen Anordnungszustand von Kameras.
3 ist eine Ansicht zur Beschreibung eines Beispiels für einen Bildanzeigevorgang der Ausführungsform.
4 ist eine Ansicht zur Beschreibung des variablen Foveated Rendering.
5 ist eine Ansicht zur Beschreibung des fixierten Foveated Rendering.
6 ist eine Ansicht zur Beschreibung der Bewegungskompensation unter Verwendung eines optischen Flusses.
7 ist eine Ansicht zur Beschreibung der Bewegungskompensation unter Verwendung einer Selbstposition.
8 ist eine Ansicht zur Beschreibung der Bildkomposition.
9 ist eine Ansicht zur Beschreibung der Reihenfolge des Fotografierens eines Niedrigauflösungsbildes und von Hochauflösungsbildern in der obigen Ausführungsform.
10 ist eine Ansicht zur Beschreibung einer anderen Aufnahmereihenfolge eines Niedrigauflösungsbildes und von Hochauflösungsbildern.
11 ist eine Ansicht zur Beschreibung einer anderen Aufnahmereihenfolge eines Niedrigauflösungsbildes und von Hochauflösungsbildern.

Beschreibung der Ausführungsformen
Als Nächstes wird eine Ausführungsform unter Bezugnahme auf die Zeichnungen im Detail beschrieben.
1 ist ein schematisches Konfigurationsblockdiagramm eines VR-Head-Mounted Display-Systems der Ausführungsform.
Ein an einen Personal Computer angeschlossenes VR-Head-Mounted Display-System ist in 1 beispielhaft dargestellt.
Das VR-Head-Mounted Display-System 10 weist grob gesagt ein Head-Mounted Display (im Folgenden als HMD-Einheit bezeichnet) 11 und eine Informationsverarbeitungsvorrichtung (im Folgenden als PC-Einheit bezeichnet) 12 auf. Hier fungiert die PC-Einheit 12 als Steuereinheit, die die HMD-Einheit 11 steuert.
Die HMD-Einheit 11 weist eine Trägheitsmesseinheit (IMU) 21, eine Kamera für Simultane Positionsbestimmung und Kartenerstellung (SLAM) 22, eine VST-Kamera (Video See-Through) 23, eine Eye-Tracking-Kamera 24 und ein Display 25 auf.
Die IMU 21 ist ein so genannter Bewegungssensor, der einen Zustand oder dergleichen eines Benutzers erfasst und ein Erfassungsergebnis an die PC-Einheit 12 ausgibt.
Die IMU 21 weist beispielsweise einen Drei-Achsen-Gyroskop-Sensor und einen Drei-Achsen-Beschleunigungssensor auf und gibt Bewegungsinformationen eines Benutzers (Sensorinformationen) entsprechend der erfassten dreidimensionalen Winkelgeschwindigkeit, Beschleunigung und dergleichen an die PC-Einheit 12 aus.
2 ist eine Ansicht zur Beschreibung des VR-Head-Mounted Display-Systems und illustriert einen Anordnungszustand der Kameras.
Die Kamera für SLAM 22 ist eine Kamera, die gleichzeitig eine Selbstlokalisierung und eine Umgebungskartierung, SLAM genannt, durchführt und ein Bild aufnimmt, das in einer Technologie zur Erfassung einer Selbstposition aus einem Zustand heraus verwendet werden kann, in dem keine vorherigen Informationen, wie etwa Karteninformationen, vorliegen. Die Kamera für SLAM ist zum Beispiel an einem zentralen Teil der Vorderseite der HMD-Einheit 11 angeordnet und sammelt Informationen, um gleichzeitig eine Selbstlokalisierung und Umgebungskartierung auf der Grundlage einer Änderung eines Bildes vor der HMD-Einheit 11 durchzuführen. Das SLAM wird später im Detail beschrieben.
Die VST-Kamera 23 nimmt ein VST-Bild auf, das ein externes Bild ist, und gibt es an die PC-Einheit 12 aus.
Die VST-Kamera 23 weist ein Objektiv auf, das für VST außerhalb der HMD-Einheit 11 installiert ist, und einen Bildsensor 23A (siehe 3). Wie in 2 dargestellt, ist ein Paar der VST-Kameras 23 so angeordnet, dass sie den Positionen beider Augen des Benutzers entsprechen.
In diesem Fall werden die Bildgebungsbedingungen (wie Auflösung, Abbildungsbereich und Abbildungszeitpunkt) der VST-Kameras 23 und damit der Bildsensoren von der PC-Einheit 12 gesteuert.
Jeder der Bildsensoren 23A (siehe 3), die in den VST-Kameras 23 der vorliegenden Ausführungsform enthalten sind, hat als Betriebsmodi einen Vollauflösungsmodus, der eine hohe Auflösung, aber eine hohe Verarbeitungslast aufweist, und einen Pixeladditionsmodus, der eine niedrige Auflösung, aber eine geringe Verarbeitungslast aufweist.
Dann kann der Bildsensor 23A unter der Steuerung der PC-Einheit 12 zwischen dem Vollauflösungsmodus und dem Pixeladditionsmodus in Einheiten von Frames umschalten.
In diesem Fall ist der Pixeladditionsmodus einer der Ansteuerungsmodi der Bildsensoren 23A, die Belichtungszeit ist länger, und ein Bild mit weniger Rauschen kann im Vergleich zum Vollauflösungsmodus aufgenommen werden.
Konkret werden in einem 2 × 2-Additionsmodus als Beispiel für den Pixeladditionsmodus 2 × 2 Pixel in vertikaler und horizontaler Richtung (insgesamt vier Pixel) gemittelt und als ein Pixel ausgegeben, wodurch ein Bild mit einer Auflösung von 1/4 und einem Rauschbetrag von etwa 1/2 ausgegeben wird. In ähnlicher Weise wird in einem 4 × 4-Additionsmodus, da 4 × 4 Pixel in vertikaler und horizontaler Richtung (insgesamt 16 Pixel) gemittelt und als ein Pixel ausgegeben werden, ein Bild mit einer Auflösung von 1/16 und einem Rauschbetrag von etwa 1/4 ausgegeben.
Die Eye-Tracking-Kamera 24 ist eine Kamera zur Verfolgung des Blicks des Benutzers, das so genannte Eye-Tracking. Die Eye-Tracking-Kamera 24 ist als externe Kamera mit sichtbarem Licht oder dergleichen ausgebildet.
Die Eye-Tracking-Kamera 24 wird verwendet, um einen Interessenbereich des Benutzers zu erkennen, indem ein Verfahren wie das variable Foveated Rendering angewendet wird. Mit der neuen Eye-Tracking-Kamera 24 kann die Blickrichtung mit einer Genauigkeit von etwa ±0,5° erfasst werden.
Das Display 25 ist eine Anzeigevorrichtung, die ein von der PC-Einheit 12 verarbeitetes Bild anzeigt.
Die PC-Einheit 12 weist eine Selbstlokalisierungseinheit 31, eine Interessenbereich-Bestimmungseinheit 32, einen Bildsignalprozessor (ISP) 33, eine Bewegungskompensationseinheit 34, einen Bildspeicher 35 und eine Bildkompositionseinheit 36 auf.
Die Selbstlokalisierungseinheit 31 schätzt eine Selbstposition einschließlich einer Körperhaltung und dergleichen des Benutzers auf der Grundlage der von der IMU 21 ausgegebenen Sensorinformationen und eines Bildes für SLAM, das von der Kamera für SLAM 22 erfasst wird.
In der vorliegenden Ausführungsform wird als Verfahren zur Selbstlokalisierung durch die Selbstlokalisierungseinheit 31 ein Verfahren zur Schätzung einer dreidimensionalen Position der HMD-Einheit 11 unter Verwendung sowohl der von der IMU 21 ausgegebenen Sensorinformationen als auch des Bildes für SLAM, das von der Kamera für SLAM 22 erfasst wird, verwendet. Es gibt jedoch auch Verfahren wie die visuelle Odometrie (VO), bei der nur ein Kamerabild verwendet wird, und die visuelle Inertial-Odometrie (VIO), bei der sowohl ein Kamerabild als auch eine Ausgabe der IMU 21 verwendet wird.
Die Interessenbereich-Bestimmungseinheit 32 bestimmt den Interessenbereich des Benutzers auf der Grundlage der Eye-Tracking-Ergebnisbilder beider Augen, die von der Eye-Tracking-Kamera 24 ausgegeben werden, und gibt den Interessenbereich an den ISP 33 aus.
Der ISP 33 bestimmt einen Interessenbereich in einem Abbildungsbereich jeder der VST-Kameras 23 auf der Grundlage des Interessenbereichs des Benutzers, der von der Interessenbereichs-Bestimmungseinheit 32 ermittelt wird.
Darüber hinaus verarbeitet der ISP 33 ein von jeder der VST-Kameras 23 ausgegebenes Bildsignal und gibt es als verarbeitetes Bildsignal aus. Bei der Verarbeitung des Bildsignals werden insbesondere „Rauschunterdrückung“, „Demosaik“, „Weißabgleich“, „Belichtungsanpassung“, „Kontrastverstärkung“, „Gammakorrektur“ oder dergleichen durchgeführt. Da die Verarbeitungslast groß ist, wird in vielen Mobilgeräten grundsätzlich eine spezielle Hardware vorbereitet.
Die Bewegungskompensationseinheit 34 führt eine Bewegungskompensation an dem verarbeiteten Bildsignal auf der Grundlage der Position der HMD-Einheit 11 durch, die von der Selbstlokalisierungseinheit 31 geschätzt wird, und gibt das verarbeitete Bildsignal aus.
Der Bildspeicher 35 speichert das verarbeitete Bildsignal nach der Bewegungskompensation in Einheiten von Frames.
3 ist eine Ansicht zur Beschreibung eines Beispiels für einen Bildanzeigevorgang der Ausführungsform.
Vor dem vorbestimmten Startzeitpunkt der Bildgebung bestimmt die Interessenbereich-Bestimmungseinheit 32 den Interessenbereich des Benutzers auf der Grundlage von mindestens der Blickrichtung des Benutzers unter der Blickrichtung des Benutzers, die auf den Eye-Tracking-Ergebnisbildern der beiden Augen, die von der Eye-Tracking-Kamera 24 ausgegeben werden, und den Eigenschaften des Displays 25 basiert, und gibt den Interessenbereich an die VST-Kameras aus (Schritt S11).
Genauer gesagt, schätzt die Interessenbereich-Bestimmungseinheit 32 den Interessenbereich, indem sie die Eye-Tracking-Ergebnisbilder beider Augen verwendet, die von der Eye-Tracking-Kamera 24 aufgenommen wurden.
4 ist eine Ansicht zur Beschreibung des variablen Foveated Rendering.
Wie in 4 dargestellt, schließen die von den VST-Kameras 23 aufgenommenen Bilder ein Bild für das rechte Auge RDA und ein Bild für das linke Auge LDA ein.
Dann wird auf der Grundlage der Blickrichtung des Benutzers, die auf dem Eye-Tracking-Erkennungsergebnis der Eye-Tracking-Kamera 24 basiert, eine Unterteilung in drei Bereiche vorgenommen, nämlich einen zentralen Gesichtsfeldbereich CAR, der auf die Blickrichtung des Benutzers zentriert ist, einen effektiven Gesichtsfeldbereich SAR, der an den zentralen Gesichtsfeldbereich CAR angrenzt, und einen peripheren Gesichtsfeldbereich PAR, der ein Bereich abseits der Blickrichtung des Benutzers ist. Da die effektiv erforderliche Auflösung in der Reihenfolge zentraler Gesichtsfeldbereich CAR → effektiver Gesichtsfeldbereich SAR → peripherer Gesichtsfeldbereich PAR vom Zentrum aus in Blickrichtung abnimmt, wird zumindest der gesamte zentrale Gesichtsfeldbereich CAR als der Interessenbereich behandelt, in dem die Auflösung am höchsten ist. Außerdem wird das Zeichnen mit einer geringeren Auflösung zum Rand des Gesichtsfeldes hin durchgeführt.
5 ist eine Ansicht zur Beschreibung des fixierten Foveated Rendering. In einem Fall, in dem ein Eye-Tracking-System wie die Eye-Tracking-Kamera 24 nicht verwendet werden kann, wird der Interessenbereich anhand der Anzeigeeigenschaften bestimmt.
Da das Objektiv im Allgemeinen so konstruiert ist, dass die Auflösung in der Mitte des Bildschirms am höchsten ist und zum Rand hin abnimmt, wird die Mitte des Bildschirms als der Interessenbereich festgelegt. Dann wird, wie in 5 dargestellt, ein zentraler Bereich als Höchstauflösungsbereich ARF mit voller Auflösung festgelegt.
Darüber hinaus ist die Auflösung in horizontaler Richtung grundsätzlich höher als die in vertikaler Richtung und die Auflösung in Abwärtsrichtung höher als die in Aufwärtsrichtung, je nach der allgemeinen Tendenz der Blickrichtung des Benutzers.
Das heißt, wie in 5 dargestellt, wird durch Anordnung eines Bereichs AR/2 mit der Hälfte der Auflösung des Höchstauflösungsbereichs ARF, eines Bereichs AR/4 mit 1/4 der Auflösung des Höchstauflösungsbereichs ARF, eines Bereichs AR/8 mit 1/8 der Auflösung des Höchstauflösungsbereichs ARF und eines Bereichs AR/16 mit 1/16 der Auflösung des Höchstauflösungsbereichs ARF eine Anzeige entsprechend den allgemeinen Eigenschaften eines Gesichtsfelds einer Person, die der Benutzer ist, durchgeführt.
Wie oben beschrieben, ist bei jedem Verfahren das hochauflösende Zeichnen (Rendering) auf einen notwendigen und ausreichenden Bereich beschränkt. Da dadurch die Zeichenlast in der PC-Einheit 12 deutlich reduziert werden kann, ist zu erwarten, dass die Hürde der für die PC-Einheit 12 erforderlichen Spezifikationen gesenkt und die Leistung verbessert wird.
Anschließend beginnt jede der VST-Kameras 23 der HMD-Einheit 11 mit der Bildaufnahme durch den Bildsensor 23A und gibt ein aufgenommenes Bild an den ISP 33 aus (Schritt S12).
Konkret stellt jede der VST-Kameras 23 einen Abbildungsmodus im Bildsensor 23A auf den Pixeladditionsmodus ein, nimmt ein Stück (entsprechend einem Frame) eines Bildes auf, das mit dem gesamten Blickwinkel fotografiert wurde und eine geringe Auflösung und geringes Rauschen aufweist (im Folgenden als Niedrigauflösungsbild LR bezeichnet), und gibt das Bild an den ISP 33 aus.
Anschließend stellt jede der VST-Kameras 23 den Abbildungsmodus auf den Vollauflösungsmodus ein, nimmt mehrere hochauflösende Bilder auf, bei denen nur ein Bereich eines Blickwinkels fotografiert wird, der dem ermittelten Interessenbereich entspricht (im Beispiel von 3 drei Hochauflösungsbilder HR1 bis HR3), und gibt die Bilder nacheinander an den ISP 33 aus.
In diesem Fall wird z. B. in einem Fall, in dem die Verarbeitungszeit eines Frames 1/60 s (= 60 Hz) beträgt, ein Fall mit einer Verarbeitungsgeschwindigkeit von 1/240 s (= 240 Hz) als Beispiel genommen.
In diesem Fall wird eine Zeit von 1/240 s für die Aufnahme eines Niedrigauflösungsbildes LR angesetzt, wobei der Abbildungsmodus auf den Pixeladditionsmodus eingestellt ist, eine Zeit von 3/240 s für die Aufnahme von drei Hochauflösungsbildern HR1 bis HR3, wobei der Abbildungsmodus auf den Vollauflösungsmodus eingestellt ist, und eine Verarbeitungszeit von insgesamt 1/60 s (= 4/240), d. h. eine Verarbeitungszeit von einem Frame.
Anschließend führt der ISP 33 an den von den VST-Kameras 23 ausgegebenen Bildsignalen eine „Rauschunterdrückung“, ein „Demosaik“, einen „Weißabgleich“, eine „Belichtungsanpassung“, eine „Kontrastverstärkung“, eine „Gammakorrektur“ oder dergleichen durch und gibt diese an die Bewegungskompensationseinheit 34 aus (Schritt S13).
Die Bewegungskompensationseinheit 34 führt eine Kompensation der Positionsabweichung eines Motivs aufgrund der unterschiedlichen Aufnahmezeitpunkte mehrerer (im obigen Beispiel vier) Bilder durch (Bewegungskompensation) (Schritt S14).
In diesem Fall ist als Grund für die Erzeugung der Positionsabweichung zwar sowohl eine Bewegung des Kopfes des Benutzers, der die HMD-Einheit 11 trägt, als auch eine Bewegung des Motivs denkbar, doch wird hier angenommen, dass die Bewegung des Kopfes des Benutzers dominiert (einen größeren Einfluss hat).
So sind zum Beispiel zwei Bewegungskompensationsverfahren denkbar.
Das erste Verfahren ist ein Verfahren, das einen optischen Fluss verwendet, und das zweite Verfahren ist ein Verfahren, das eine Selbstpositionierung verwendet.
Die einzelnen Verfahren werden im Folgenden beschrieben.
6 ist eine Ansicht zur Beschreibung der Bewegungskompensation unter Verwendung des optischen Flusses.
Der optische Fluss ist ein Vektor (in der vorliegenden Ausführungsform der Pfeil in 6), der die Bewegung eines Objekts (Motiv einschließlich einer Person) in einem Bewegtbild ausdrückt. Hier wird ein Block-Matching-Verfahren, ein Gradientenverfahren oder dergleichen zur Extraktion des Vektors verwendet.
Bei der Bewegungskompensation mit Hilfe des optischen Flusses, wie in 6 dargestellt, wird der optische Fluss aus den aufgenommenen Bildern der VST-Kameras 23, die externe Kameras sind, gewonnen. Dann wird die Bewegungskompensation durch Verformung der Bilder so durchgeführt, dass sich das gleiche Motiv überschneidet.
Als die hier beschriebene Verformung werden einfache Translation, Homographie-Transformation, ein Verfahren zur Erfassung eines optischen Flusses eines gesamten Bildschirms in Pixeleinheiten unter Verwendung eines lokalen optischen Flusses und dergleichen betrachtet.
7 ist eine Ansicht zur Beschreibung der Bewegungskompensation unter Verwendung der Selbstposition.
In einem Fall, in dem die Bewegungskompensation durch Verwendung der Selbstposition durchgeführt wird, wird ein Bewegungsbetrag der HMD-Einheit 11 zu einem Zeitpunkt, zu dem eine Vielzahl von Bildern aufgenommen wird, durch Verwendung der aufgenommenen Bilder der VST-Kameras 23, die Kamerabilder sind, oder der IMU 21 berechnet.
Dann wird die Homographie-Transformation entsprechend dem erfassten Bewegungsbetrag der HMD-Einheit 11 durchgeführt. Hier bedeutet die Homographie-Transformation, dass eine Ebene durch Projektionstransformation auf eine andere Ebene projiziert wird.
Da die Bewegungsparallaxe in Abhängigkeit von der Entfernung zwischen einem Objekt und einer Kamera variiert, wird in einem Fall, in dem die Homographie-Transformation eines zweidimensionalen Bildes durchgeführt wird, eine Tiefe des Zielobjekts als repräsentativer Abstand festgelegt. Hier wird die Tiefe durch Eye-Tracking oder Bildschirm-Mittelung erfasst. In diesem Fall wird eine Fläche, die dem Abstand entspricht, als Stabilisierungsebene bezeichnet.
Dann wird die Bewegungskompensation durch eine Homographie-Transformation so durchgeführt, dass die Bewegungsparallaxe entsprechend dem repräsentativen Abstand gegeben ist.
Anschließend kombiniert die Bildkompositionseinheit 36 das eine Niedrigauflösungsbild, das mit dem gesamten Blickwinkel im Pixeladditionsmodus aufgenommen wurde, und die mehreren Hochauflösungsbilder, die nur im Interessenbereich mit voller Auflösung aufgenommen wurden (Schritt S15).
Bei dieser Bildkomposition, die weiter unten ausführlich beschrieben wird, werden die Umwandlung in ein HDR (Schritt S15A) und die Auflösungsverbesserungsverarbeitung (Schritt S15B) durchgeführt.
8 ist eine Ansicht zur Beschreibung der Bildkomposition.
Wenn die Bildkomposition durchgeführt wird, wird die Vergrößerungsverarbeitung des Niedrigauflösungsbildes so durchgeführt, dass die Auflösung übereinstimmt (Schritt S21).
Konkret wird das Niedrigauflösungsbild LR vergrößert und ein vergrößertes Niedrigauflösungsbild ELR erzeugt.
Andererseits werden die Hochauflösungsbilder HR1 bis HR3 ausgerichtet, und dann wird ein Hochauflösungsbild HRA durch Mittelung der mehreren Bilder HR1 bis HR3 erstellt (Schritt S22).
Bei der Bildkomposition sind hauptsächlich zwei Elemente zu berücksichtigen. Das erste ist die Verarbeitung der Umwandlung in ein HDR, und das zweite ist die Auflösungsverbesserungsverarbeitung.
Als die Verarbeitung der Umwandlung in ein HDR wird die Verarbeitung der Umwandlung in ein HDR, die Belichtungsbilder mit unterschiedlicher Belichtungszeit verwendet, hier kurz beschrieben, da sie die allgemeine Verarbeitung in den letzten Jahren ist.
Bei der Umwandlung in ein HDR werden die Bilder so kombiniert, dass das Überblendungsverhältnis eines Bildes mit langer Belichtungszeit (Niedrigauflösungsbild LR in der vorliegenden Ausführungsform) in einem Bereich mit niedriger Leuchtdichte auf dem Bildschirm hoch ist, und die Bilder werden so kombiniert, dass das Überblendungsverhältnis eines Kurzbelichtungsbildes (Hochauflösungsbild HRA in der vorliegenden Ausführungsform) in einem Bereich mit hoher Leuchtdichte hoch ist.
Dadurch ist es möglich, ein Bild zu erzeugen, das aussieht, als wäre es mit einer Kamera mit großem Dynamikbereich aufgenommen worden, und ein Element zu kontrollieren, das den Eindruck des Eintauchens in das Bild behindert, wie z. B. aufgeblähte Glanzlichter und erdrückte Schatten.
Im Folgenden wird der Prozess der Umwandlung in ein HDR S15A näher beschrieben.
Zunächst werden Bereichsanpassung und Bitexpansion an dem vergrößerten Niedrigauflösungsbild ELR und dem Hochauflösungsbild HRA durchgeführt (Schritt S23 und S24). Dadurch wird erreicht, dass die Leuchtdichtebereiche miteinander übereinstimmen und ein Band mit einer Erweiterung des Dynamikbereichs gesichert wird.
Anschließend wird für das vergrößerte Niedrigauflösungsbild ELR und das Hochauflösungsbild HRA jeweils eine Karte α erstellt, die eine Leuchtdichteverteilung in Pixeleinheiten angibt (Schritt S25).
Dann wird auf der Grundlage der Leuchtdichteverteilung, die der erzeugten α Karte entspricht, α die Kombination des vergrößerten Niedrigauflösungsbildes ELR und des Hochauflösungsbildes HRA durchgeführt (Schritt S26).
Genauer gesagt, werden die Bilder im Bereich niedriger Leuchtdichte auf der Grundlage der erstellten α Karte in Pixeleinheiten so kombiniert, dass das Überblendungsverhältnis des vergrößerten Niedrigauflösungsbildes ELR, das das Langbelichtungsbild ist, höher ist als das Überblendungsverhältnis des Hochauflösungsbildes HRA, das das Kurzbelichtungsbild ist.
In ähnlicher Weise werden die Bilder im Bereich mit hoher Leuchtdichte auf der Grundlage der erstellten α Karte in Pixeleinheiten so kombiniert, dass das Überblendungsverhältnis des Hochauflösungsbildes HRA, das das Kurzbelichtungsbild ist, höher ist als das Überblendungsverhältnis des vergrößerten Niedrigauflösungsbildes ELR, das das Langbelichtungsbild ist.
Da es in dem kombinierten Bild einen Bereich gibt, in dem die Gradationsänderung scharf ist, wird die Gradationskorrektur so durchgeführt, dass die Gradationsänderung natürlich wird, d. h. die Gradationsänderung wird sanft (Schritt S27).
In der obigen Beschreibung wird die Umwandlung in ein HDR-Bild sowohl für das Niedrigauflösungsbild LR, das das erste Bild ist, als auch für die Hochauflösungsbilder HR1 bis HR3, die die zweiten Bilder sind, durchgeführt. Bei der Erzeugung eines Kompositbildes kann die Umwandlung in ein HDR-Bild jedoch an mindestens einem der Niedrigauflösungsbilder LR, dem ersten Bild, oder den Hochauflösungsbildern HR1 bis HR3, den zweiten Bildern, durchgeführt werden.
Andererseits wird in der vorliegenden Ausführungsform ein Verarbeitungsschritt S 15B zur Auflösungsverbesserung durchgeführt, indem entsprechend einem Frequenzbereich des Motivs gute Punkte des Niedrigauflösungsbildes, bei dem die Belichtungszeit auf lang eingestellt ist, und der Hochauflösungsbilder, bei denen die Belichtungszeit auf kurz eingestellt ist, kombiniert werden.
Genauer gesagt wird das vergrößerte Niedrigauflösungsbild ELR oft in einem Niederfrequenzbereich verwendet, da es lange belichtet wird und ein hohes SN-Verhältnis hat, und das Hochauflösungsbild HRA wird oft in einem Hochfrequenzbereich verwendet, da darin eine hochauflösende Textur verbleibt. So wird eine Frequenztrennung in Bezug auf das Hochauflösungsbild HRA durch einen Hochpassfilter durchgeführt (Schritt S28), und eine Hochfrequenzkomponente des Hochauflösungsbildes HRA, von der die Hochfrequenzkomponente getrennt wird, wird nach der α-Überlagerung zu einem Bild hinzugefügt (Schritt S29), wodurch die Auflösungsverbesserungsverarbeitung durchgeführt wird. Dann wird die Auflösungsumwandlungsverarbeitung weiter durchgeführt und ein Anzeigebild DG erzeugt (Schritt S 16), und das Anzeigebild DG wird in Echtzeit an das Display 25 ausgegeben (Schritt S17).
In diesem Fall bedeutet Ausgabe in Echtzeit, dass die Ausgabe so erfolgt, dass sie den Bewegungen des Benutzers folgt, so dass eine Anzeige erfolgt, ohne dass der Benutzer ein Gefühl der Fremdheit verspürt.
Wie oben beschrieben, ist es gemäß der vorliegenden Ausführungsform möglich, die Bewegungsunschärfe aufgrund der Bewegung des Benutzers und die Informationen einer Übertragungsbilddatenrate aufgrund der Auflösungserhöhung zu kontrollieren und einen effektiven Dynamikbereich der externen Kameras (VST-Kamera 23 in der vorliegenden Ausführungsform) mit einem Dynamikbereich in einem tatsächlichen Gesichtsfeld vergleichbar zu machen.
Hier werden die Reihenfolge der Aufnahme des Niedrigauflösungsbildes und der Hochauflösungsbilder sowie ein erzielter Effekt beschrieben.
9 ist eine Ansicht zur Beschreibung der Aufnahmereihenfolge des Niedrigauflösungsbildes und der Hochauflösungsbilder in der obigen Ausführungsform.
In der obigen Ausführungsform wird zunächst das Niedrigauflösungsbild LR und dann die drei Hochauflösungsbilder HR1 bis HR3 aufgenommen.
So werden die Hochauflösungsbilder HR1 bis HR3, die kombiniert werden sollen, nach dem Niedrigauflösungsbild LR aufgenommen, das schematische Inhalte eines Aufnahmeziels enthält und das eine Grundlage für das Aufnahme-Timing zum Zeitpunkt der Bildkomposition wie der Bewegungskompensation ist.
Infolgedessen können die Belichtungsbedingungen der Hochauflösungsbilder HR1 bis HR3 leicht an die Belichtungsbedingungen des Niedrigauflösungsbildes LR angepasst werden, und nach der Komposition kann ein Kompositbild mit weniger Unschärfe aufgenommen werden.
10 ist eine Ansicht zur Beschreibung einer anderen Aufnahmereihenfolge eines Niedrigauflösungsbildes und von Hochauflösungsbildern.
Obwohl die Hochauflösungsbilder HR1 bis HR3 alle fotografiert werden, nachdem das Niedrigauflösungsbild LR in der obigen Ausführungsform fotografiert wurde, wird ein Niedrigauflösungsbild LR fotografiert, nachdem ein Hochauflösungsbild HR1 fotografiert wurde, und dann werden ein Hochauflösungsbild HR2 und ein Hochauflösungsbild HR3 in dem Beispiel von 10 fotografiert.
Infolgedessen wird eine Zeitdifferenz zwischen dem Aufnahmezeitpunkt der Hochauflösungsbilder HR1 bis HR3 und dem Aufnahmezeitpunkt des Niedrigauflösungsbildes LR, das die Grundlage für die Bildkomposition bildet, verringert, und der zeitliche Abstand (und der Bewegungsabstand des Motivs), in dem die Bewegungskompensation durchgeführt wird, wird verkürzt, wodurch es möglich wird, ein Kompositbild mit verbesserter Genauigkeit der Bewegungskompensation zu erfassen.
Außerdem kann ein ähnlicher Effekt erzielt werden, wenn ein Niedrigauflösungsbild LR aufgenommen wird, nachdem ein Hochauflösungsbild HR1 und ein Hochauflösungsbild HR2 aufgenommen wurden, und dann ein Hochauflösungsbild HR3 anstelle der oben genannten Aufnahmereihenfolge aufgenommen wird.
Das heißt, selbst wenn der Bildsensor so gesteuert wird, dass die Bilder HR1 bis HR3, die die zweiten Bilder darstellen, vor und nach der Aufnahme des Niedrigauflösungsbildes LR, das das erste Bild darstellt, aufgenommen werden, kann ein ähnlicher Effekt erzielt werden.
Insbesondere in einem Fall, in dem eine Vielzahl von Hochauflösungsbildern aufgenommen wird, kann ein ähnlicher Effekt erzielt werden, wenn die Differenz zwischen der Anzahl der Hochauflösungsbilder, die vor dem Aufnahmezeitpunkt des Niedrigauflösungsbildes LR aufgenommen wurden, und der Anzahl der Hochauflösungsbilder, die nach dem Aufnahmezeitpunkt des Niedrigauflösungsbildes LR aufgenommen wurden, kleiner gemacht wird (vorzugsweise die gleiche Anzahl).
11 ist eine Ansicht zur Beschreibung einer anderen Aufnahmereihenfolge eines Niedrigauflösungsbildes und von Hochauflösungsbildern.
In der obigen Ausführungsform werden die Hochauflösungsbilder HR1 bis HR3 alle nach der Aufnahme des Niedrigauflösungsbildes LR fotografiert. Im Beispiel von 11 wird jedoch ein Niedrigauflösungsbild LR aufgenommen, nachdem die Hochauflösungsbilder HR1 bis HR3 aufgenommen wurden, und umgekehrt.
Infolgedessen ist es möglich, die Latenz (Verzögerungszeit) in Bezug auf eine Bewegung eines tatsächlichen Motivs des Niedrigauflösungsbildes LR, das die Grundlage der Bildkomposition ist, zu minimieren, und die Art, in der eine Abweichung zwischen einem Anzeigebild durch das Kompositbild und einer Bewegung des tatsächlichen Motivs am kleinsten ist, kann das Bild anzeigen.
[6] Modifikationsbeispiel der Ausführungsform
Es ist zu beachten, dass eine Ausführungsform der vorliegenden Technologie nicht auf die oben beschriebene Ausführungsform beschränkt ist, und dass verschiedene Änderungen im Rahmen des Geistes und des Anwendungsbereichs der vorliegenden Offenbarung vorgenommen werden können.
In der obigen Beschreibung wurde eine Konfiguration gewählt, bei der die drei Hochauflösungsbilder HR1 bis HR3 aufgenommen und mit dem einen Niedrigauflösungsbild LR kombiniert werden. Ein ähnlicher Effekt kann jedoch auch erzielt werden, wenn ein oder vier oder mehr Niedrigauflösungsbilder aufgenommen und mit einem Niedrigauflösungsbild LR kombiniert werden.
Außerdem kann die vorliegende Technologie die folgenden Konfigurationen aufweisen.

(1) Bildverarbeitungsvorrichtung, die Folgendes aufweist:
- eine Steuereinheit, die ein Kompositbild erzeugt und das Kompositbild an eine Anzeigevorrichtung ausgibt, wobei das Kompositbild durch Kombination eines ersten Bildes, das in einer ersten Belichtungszeit erfasst wird und eine erste Auflösung hat, und eines zweiten Bildes, das ein Bild ist, das einem Teil eines Bereichs des ersten Bildes entspricht und das in einer zweiten Belichtungszeit erfasst wird, die kürzer als die erste Belichtungszeit ist, und eine zweite Auflösung hat, die höher als die erste Auflösung ist, erfasst wird, wobei das erste Bild und das zweite Bild von einem Bildsensor eingegeben werden.
(2) Bildverarbeitungsvorrichtung gemäß (1), wobei die Steuereinheit bei der Erzeugung des Kompositbildes die Verarbeitung der Umwandlung in ein HDR an mindestens einem von dem ersten Bild oder dem zweiten Bild durchführt.
(3) Bildverarbeitungsvorrichtung gemäß (1) oder (2), wobei die Steuereinheit an dem zweiten Bild eine Bewegungskompensation auf der Grundlage des Abbildungszeitpunkts des ersten Bildes durchführt.
(4) Bildverarbeitungsvorrichtung gemäß einem der Punkte (1) bis (3), wobei die Steuereinheit die Eingabe einer Vielzahl der zweiten Bilder, die dem einen ersten Bild entsprechen, empfängt und ein Kompositbild erzeugt, in dem das erste Bild und die Vielzahl der zweiten Bilder kombiniert werden.
(5) Bildverarbeitungsvorrichtung gemäß einem der Punkte (1) bis (4), wobei die Steuereinheit den Bildsensor in einer Weise steuert, dass die Abbildung des ersten Bildes vor der Abbildung des zweiten Bildes durchgeführt wird.
(6) Bildverarbeitungsvorrichtung gemäß einem der Punkte (1) bis (4), wobei die Steuereinheit den Bildsensor in einer Weise steuert, dass die Abbildung des zweiten Bildes vor der Abbildung des ersten Bildes erfolgt.
(7) Bildverarbeitungsvorrichtung gemäß (4), wobei die Steuereinheit den Bildsensor in einer Weise steuert, dass die Abbildung des zweiten Bildes sowohl vor als auch nach der Abbildung des ersten Bildes durchgeführt wird.
(8) Bildverarbeitungsvorrichtung gemäß (2), wobei die Steuereinheit eine Vergrößerungsverarbeitung in einer Weise durchführt, dass die Auflösung des ersten Bildes die zweite Auflösung wird, und das Kompositbild nach der Mittelung einer Vielzahl der zweiten Bilder erzeugt.
(9) Bildverarbeitungsvorrichtung gemäß einem der Punkte (1) bis (8), wobei der Bereich ein vorbestimmter Interessenbereich oder ein Interessenbereich ist, der auf der Blickrichtung eines Benutzers basiert.
(10) Bildverarbeitungsvorrichtung gemäß einem der Punkte (1) bis (9), wobei die Steuereinheit die Erzeugung des Kompositbildes und dessen Ausgabe an die Anzeigevorrichtung in Echtzeit durchführt.
(11) Bildanzeigesystem, das Folgendes aufweist:
- eine Bildgebungsvorrichtung, die einen Bildsensor enthält und die ein erstes Bild, das in einer ersten Belichtungszeit aufgenommen wurde und eine erste Auflösung hat, und ein zweites Bild ausgibt, das ein Bild ist, das einem Teil eines Bereichs des ersten Bildes entspricht und das in einer zweiten Belichtungszeit aufgenommen wurde, die kürzer als die erste Belichtungszeit ist, und eine zweite Auflösung hat, die höher als die erste Auflösung ist;
- eine Bildverarbeitungsvorrichtung mit einer Steuereinheit, die ein Kompositbild erzeugt und ausgibt, in dem das erste Bild und das zweite Bild kombiniert sind; und
- eine Anzeigevorrichtung, die das eingegebene Kompositbild anzeigt.
(12) Bildanzeigesystem gemäß (11), wobei die Bildgebungsvorrichtung an einem Benutzer angebracht ist, das Bildanzeigesystem eine Blickrichtungs-Erfassungsvorrichtung enthält, die eine Blickrichtung des Benutzers erfasst, und der Bereich auf einer Grundlage der Blickrichtung festgelegt wird.
(13) Verfahren, das von einer Bildverarbeitungsvorrichtung ausgeführt wird, die einen Bildsensor steuert, wobei das Verfahren die folgenden Schritte beinhaltet:
- Eingeben, von dem Bildsensor, eines ersten Bildes, das in einer ersten Belichtungszeit aufgenommen wurde und eine erste Auflösung hat, und eines zweiten Bildes, das ein Bild ist, das einem Teil eines Bereichs des ersten Bildes entspricht und das in einer zweiten Belichtungszeit aufgenommen wurde, die kürzer ist als die erste Belichtungszeit, und eine zweite Auflösung hat, die höher ist als die erste Auflösung, wobei das erste Bild und das zweite Bild von dem Bildsensor eingegeben werden; und
- Erzeugen eines Kompositbildes, in dem das erste Bild und das zweite Bild kombiniert sind.
(14) Programm, das einen Computer veranlasst, eine Bildverarbeitungsvorrichtung zu steuern, die eine Steuerung eines Bildsensors durchführt, wobei das Programm den Computer veranlasst, als eine Einheit zu funktionieren, in die ein erstes Bild, das in einer ersten Belichtungszeit aufgenommen wurde und eine erste Auflösung hat, und ein zweites Bild, das ein Bild ist, das einem Teil eines Bereichs des ersten Bildes entspricht und das in einer zweiten Belichtungszeit aufgenommen wurde, die kürzer als die erste Belichtungszeit ist, und eine zweite Auflösung hat, die höher als die erste Auflösung ist, vom Bildsensor eingegeben werden, und eine Einheit, die ein Kompositbild erzeugt, in dem das erste Bild und das zweite Bild kombiniert sind.

Bezugszeichenliste

10: VR-HEAD-MOUNTED-DISPLAY-SYSTEM (BILDANZEIGESYSTEM)
11: HEAD-MOUNTED DISPLAY (HMD-EINHEIT)
12: INFORMATIONSVERARBEITUNGSVORRICHTUNG (PC-EINHEIT)
21: IMU
22: KAMERA FÜR SLAM
23: VST-KAMERA
23A: BILDSENSOR
24: EYE-TRACKING-KAMERA
25: DISPLAY
31: SELBSTLOKALISIERUNGSEINHEIT
32: INTERESSENBEREICH-BESTIMMUNGSEINHEIT
33: ISP
34: KOMPENSATIONSEINHEIT
35: BILDSPEICHER
36: BILDKOMPOSITIONSEINHEIT
AR: BEREICH
ARF: BEREICH MIT HÖCHSTER AUFLÖSUNG
CAR: ZENTRALER GESICHTSFELDBEREICH
DG: ANZEIGEBILD
ELR: VERGRÖSSERTES NIEDRIGAUFLÖSUNGSBILD
HR1: bis HR3, und HRA HOCHAUFLÖSUNGSBILD
LDA: BILD DES LINKEN AUGES
LR: NIEDRIGAUFLÖSUNGSBILD
PAR: PERIPHERE-GESICHTSFELDBEREICH
RDA: BILD DES RECHTEN AUGES
SAR: EFFEKTIVER GESICHTSFELDBEREICH

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 4334950 [0002]
JP 5511205 [0002]

Claims

Bildverarbeitungsvorrichtung, die Folgendes aufweist: eine Steuereinheit, die ein Kompositbild erzeugt und das Kompositbild an eine Anzeigevorrichtung ausgibt, wobei das Kompositbild durch Kombination eines ersten Bildes, das in einer ersten Belichtungszeit erfasst wird und eine erste Auflösung hat, und eines zweiten Bildes, das ein Bild ist, das einem Teil eines Bereichs des ersten Bildes entspricht und das in einer zweiten Belichtungszeit erfasst wird, die kürzer als die erste Belichtungszeit ist, und eine zweite Auflösung hat, die höher als die erste Auflösung ist, erfasst wird, wobei das erste Bild und das zweite Bild von einem Bildsensor eingegeben werden.
Bildverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Steuereinheit bei der Erzeugung des Kompositbildes die Verarbeitung der Umwandlung in ein HDR an mindestens einem von dem ersten Bild oder dem zweiten Bild durchführt.
Bildverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Steuereinheit an dem zweiten Bild eine Bewegungskompensation auf der Grundlage des Abbildungszeitpunkts des ersten Bildes durchführt.
Bildverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Steuereinheit die Eingabe einer Vielzahl der zweiten Bilder, die dem einen ersten Bild entsprechen, empfängt und ein Kompositbild erzeugt, in dem das erste Bild und die Vielzahl der zweiten Bilder kombiniert werden.
Bildverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Steuereinheit den Bildsensor in einer Weise steuert, dass die Abbildung des ersten Bildes vor der Abbildung des zweiten Bildes durchgeführt wird.
Bildverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Steuereinheit den Bildsensor in einer Weise steuert, dass die Abbildung des zweiten Bildes vor der Abbildung des ersten Bildes erfolgt.
Bildverarbeitungsvorrichtung gemäß Anspruch 4, wobei die Steuereinheit den Bildsensor in einer Weise steuert, dass die Abbildung des zweiten Bildes sowohl vor als auch nach der Abbildung des ersten Bildes durchgeführt wird.
Bildverarbeitungsvorrichtung gemäß Anspruch 2, wobei die Steuereinheit eine Vergrößerungsverarbeitung in einer Weise durchführt, dass die Auflösung des ersten Bildes die zweite Auflösung wird, und das Kompositbild nach der Mittelung einer Vielzahl der zweiten Bilder erzeugt.
Bildverarbeitungsvorrichtung gemäß Anspruch 1, wobei der Bereich ein vorbestimmter Interessenbereich oder ein Interessenbereich ist, der auf der Blickrichtung eines Benutzers basiert.
Bildverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Steuereinheit die Erzeugung des Kompositbildes und dessen Ausgabe an die Anzeigevorrichtung in Echtzeit durchführt.
Bildanzeigesystem, das Folgendes aufweist: eine Bildgebungsvorrichtung, die einen Bildsensor enthält und die ein erstes Bild, das in einer ersten Belichtungszeit aufgenommen wurde und eine erste Auflösung hat, und ein zweites Bild ausgibt, das ein Bild ist, das einem Teil eines Bereichs des ersten Bildes entspricht und das in einer zweiten Belichtungszeit aufgenommen wurde, die kürzer als die erste Belichtungszeit ist, und eine zweite Auflösung hat, die höher als die erste Auflösung ist; eine Bildverarbeitungsvorrichtung mit einer Steuereinheit, die ein Kompositbild erzeugt und ausgibt, in dem das erste Bild und das zweite Bild kombiniert sind; und eine Anzeigevorrichtung, die das eingegebene Kompositbild anzeigt.
Bildanzeigesystem gemäß Anspruch 11, wobei die Bildgebungsvorrichtung an einem Benutzer angebracht ist, das Bildanzeigesystem eine Blickrichtungs-Erfassungsvorrichtung enthält, die eine Blickrichtung des Benutzers erfasst, und der Bereich auf einer Grundlage der Blickrichtung festgelegt wird.
Verfahren, das von einer Bildverarbeitungsvorrichtung ausgeführt wird, die einen Bildsensor steuert, wobei das Verfahren die folgenden Schritte beinhaltet: Eingeben, von dem Bildsensor, eines ersten Bildes, das in einer ersten Belichtungszeit aufgenommen wurde und eine erste Auflösung hat, und eines zweiten Bildes, das ein Bild ist, das einem Teil eines Bereichs des ersten Bildes entspricht und das in einer zweiten Belichtungszeit aufgenommen wurde, die kürzer ist als die erste Belichtungszeit, und eine zweite Auflösung hat, die höher ist als die erste Auflösung, wobei das erste Bild und das zweite Bild von dem Bildsensor eingegeben werden; und Erzeugen eines Kompositbildes, in dem das erste Bild und das zweite Bild kombiniert sind.
Programm, das einen Computer veranlasst, eine Bildverarbeitungsvorrichtung zu steuern, die eine Steuerung eines Bildsensors durchführt, wobei das Programm den Computer veranlasst, als eine Einheit zu funktionieren, in die ein erstes Bild, das in einer ersten Belichtungszeit aufgenommen wurde und eine erste Auflösung hat, und ein zweites Bild, das ein Bild ist, das einem Teil eines Bereichs des ersten Bildes entspricht und das in einer zweiten Belichtungszeit aufgenommen wurde, die kürzer als die erste Belichtungszeit ist, und eine zweite Auflösung hat, die höher als die erste Auflösung ist, vom Bildsensor eingegeben werden, und eine Einheit, die ein Kompositbild erzeugt, in dem das erste Bild und das zweite Bild kombiniert sind.