-
Die Erfindung betrifft ein Verfahren zur Erhöhung der perzeptuellen Bildauflösung einer Videobildsequenz bestehend aus seiner Mehrzahl von zeitlich aufeinander folgenden Videobildern, wobei die Videobildsequenz eine höhere Bildauflösung aufweist als ein zur Darstellung der Videobildsequenz vorgesehenes Display.
-
Die Erfindung betrifft ebenso ein Computerprogramm zur Durchführung des erfindungsgemäßen Verfahrens sowie eine Videobildsequenz, die gemäß dem erfindungsgemäßen Verfahren erzeugt wurde.
-
Mit der zunehmenden Weiterentwicklung digitaler Bildsensoren können aktuelle Digitalkameras Bilder mit einer sehr hohen Auflösung aufnehmen. Aktuelle Videokameras sind dabei in der Lage, Videos mit einer Auflösung von mehr als 4.000 Bildpunkten pro Zeile und 30 Hz bis 120 Hz aufzunehmen, wodurch sich eine sehr hohe Detailtiefe der aufgenommenen Szene erreichen lässt. Insbesondere im Bereich der professionellen Filmindustrie lassen sich so Filme erzeugen, die eine sehr Detailtreue und eine hohe Tiefenschärfe haben.
-
Allerdings weisen Monitore, Fernsehgeräte und Projektoren eine deutlich geringere Bildauflösung auf, als heutzutage mit Hilfe von Kameras und Videokameras aufgenommene Bilder und Videos aufweisen können. So weisen die heutzutage im Konsumbereich angebotenen Abspiel- und Darstellungsgeräte eine maximale Auflösung von 1.920 × 1.080 Bildpunkte und 24 Hz bis 30 Hz auf (Bezeichnung „Full HD“) bezeichnet wird. Damit bleiben die aktuellen Abspiel- und Darstellungsgeräte deutlich hinter den technischen Möglichkeiten der digitalen Bild- und Videoaufnahmen hinsichtlich der räumlichen Auflösung zurück.
-
Bei der Darstellung hoch aufgelöster Bilder und Videos auf Geräten, die eine geringere Auflösung als das Bildmaterial haben, gehen durch das notwendige Reduzieren und Herunterrechnen der Videodaten Bildinformationen feiner Details verloren (z.B. Haare oder Pigmentierungen von Oberflächenmaterialien). Dies führt letztlich zu einer Unschärfe bei der Darstellung der Videodaten, obwohl die ursprünglichen Videodaten die entsprechenden detailreichen Informationen enthalten.
-
So ist beispielsweise aus der
WO 2011/135052 A1 ein Verfahren zur Erhöhung der Auflösung statischer Einzelbilder bekannt, bei dem ein Bild als Folgen sequentiell optimierter Bilder mit einer hohen Frequenz mit jeweils unterschiedlichen Detailinformationen dargestellt werden, so dass sich aufgrund der zeitlichen Integration der Farben im Auge ein hoch aufgelöstes statisches Einzelbild ergibt.
-
In Templin et al.: „Apparent Resolution Enhancement for Animations“ in Proc. Of Spring Conference on Computer Graphics, 2011, pp. 57–64 wird eine Erweiterung dieses Ansatzes für Videosequenzen vorgeschlagen, wobei hier für die Funktionalität der Auflösungserhöhung die Bewegungsrichtung und Geschwindigkeit des vom Auge des Zuschauers betrachteten Bildbereiches bekannt sein muss. Dieses Verfahren hat allerdings den entscheidenden Nachteil, dass die Bildbewegung und der optische Fluss des Bildes einem diagonalen Ideal entsprechen müssen, damit eine Auflösungserhöhung in ausreichendem Maße wahrnehmbar ist. Ist dies nicht der Fall, so ist eine entsprechende Auflösungserhöhung nicht wahrnehmbar. Dies geschieht beispielsweise bei sehr schnellen Bewegungen, statischen Bildern sowie Bewegungen die eine schnelle Richtungsänderung beinhalten.
-
Es ist daher Aufgabe der vorliegenden Erfindung ein verbessertes Verfahren zur Erhöhung der perzeptuellen Bildauflösung für Videobildsequenzen anzugeben, mit der die Erfolgsrate der Auflösungserhöhung im Vergleich zu bereits vorhandenen Verfahren verbessert werden kann.
-
Die Aufgabe wird mit dem Verfahren gemäß den Merkmalen des Patentanspruches 1 erfindungsgemäß gelöst.
-
Demgemäß wird erfindungsgemäß vorgeschlagen, dass zunächst der foveale Blickbereich in den einzelnen Videobildern der Videobildsequenz mittels einer Blickbereichs-Bestimmungseinrichtung bestimmt wird. Der foveale BIickbereich ist dabei derjenige Bildbereich der dargestellten Videobilder, auf den ein Betrachter bzw. Zuschauer fokussiert, so dass der dort abgebildete Bereich im Sehzentrum des Auges (Fovea Centralis) abgebildet wird. In diesem Bereich hat das menschliche Auge die höchste Wahrnehmungsauflösung und nimmt entsprechende Details besonders gut wahr. Außerhalb dieses Bereiches ist hingegen eine Auflösungserhöhung aufgrund des verminderten Auflösungsvermögens des menschlichen Auges nicht sinnvoll.
-
In dem fovealen Blickbereich wird nun der optische Fluss für die einzelnen Bildpunkte oder Bildpunktblöcke mittels einer Videoanalyseeinrichtung ermittelt. Der optische Fluss bezeichnet dabei in der Bildverarbeitung die Bewegungsrichtung und Bewegungsgeschwindigkeit für jeden Bildpunkt einer Bildsequenz, wobei das menschliche Auge in der Regel folgt. Anschließend wird ein aggregierter optischer Fluss des gesamten fovealen Blickbereiches in Abhängigkeit von dem ermittelten optischen Fluss der einzelnen Bildpunkte oder Bildpunktblöcke berechnet, was beispielsweise durch Mittelung der Geschwindigkeits- und Bewegungsrichtungsvektoren der einzelnen Bildpunkte bzw. Bildpunktblöcke innerhalb des fovealen Bildbereiches erfolgen kann.
-
Es wird somit ein Geschwindigkeits- und Bewegungsrichtungsvektor (aggregierter optischer Fluss) des gesamten fovealen Blickbereiches aus dem optischen Fluss der einzelnen Bildpunkte oder Bildpunktblöcke ermittelt, so dass der optische Fluss nicht auf Bildpunktbasis genutzt wird, sondern gemittelt für die gesamte Menge der Bildpunkte des fovealen Blickbereiches. Dabei haben die Erfinder erkannt, dass die Annahme einer einzigen Bewegung als aggregierter optischer Fluss des fovealen BIickbereiches aufgrund der geringen Ausdehnung des fovealen Blickbereiches sinnvoll ist und darüber hinaus zu einer geeigneten Basis für die perzeptuelle Auflösungserhöhung dient.
-
Im nächsten Schritt wird eine virtuelle Bewegung in der Videobildsequenz erzeugt, und zwar derart, dass jeweils zwischen zeitlich aufeinanderfolgenden Videobildern der Videobildsequenz eine Verschiebung in Abhängigkeit von dem aggregierten optischen Fluss des fovealen Blickbereiches und einer definierten Anzahl von Bildpunkten erzeugt wird. Die definierte Anzahl von Bildpunkten kann beispielsweise mittels eines Berechnungsverfahrens ermittelt werden, das nachfolgend noch näher erläutert wird. Durch die Erzeugung einer künstlichen, virtuellen Bewegung in der Videobildsequenz anhand der Bewegung des fovealen Blickbereiches um eine definierten Anzahl von Bildpunkten wird somit eine kombinierte Bewegung aus induzierter Verschiebung und bereits vorhandener Bewegung erzeugt, was eine bestmögliche Auflösungserhöhung im fovealen Blickbereich ermöglicht. Die Erzeugung der virtuellen Bewegung durch Verschieben zeitlich aufeinander folgender Videobilder um eine definierte Anzahl von Bildpunkten kann dabei auch weiterhin in Abhängigkeit von der Position des fovealen Blickbereiches innerhalb der Videobilder bzw. in Abhängigkeit von einer Positionsänderung erfolgen. Hierdurch kann auf eine entsprechende Änderung des Blickfokus innerhalb der Videobilder mit einer entsprechend künstlichen Bewegung adäquat reagiert werden, so dass diese künstlich eingefügte Bewegung in das Videobild nicht als störend empfunden wird.
-
Anschließend wird die Bildauflösung der Videobildsequenz mit den verschobenen Videobildern in Abhängigkeit von der Bildauflösung des zur Darstellung vorgesehenen Displays reduziert, so dass die Videobildsequenz auf dem Display darstellbar ist. Die Reduzierung der Bildauflösung kann beispielsweise mit Hilfe von aus dem Stand der Technik bekannten Optimierungsverfahren erfolgen, bei dem die Bilder nicht einfach herunterskaliert werden, sondern eine Optimierung unter Betrachtung der Bewegung im Video (optischer Fluss + künstlicher Fluss) erfolgt. Aufgrund der Tatsache, dass das Videobild gegenüber den vorherigen entsprechend verschoben ist, um die künstliche virtuelle Bewegung einzufügen, verbleiben in jedem Videobild jeweils unterschiedliche Detailinformationen, so dass bei der Darstellung der Videobildsequenz in Summe die perzeptuelle Bildauflösung in dem fovealen Bildbereich erhöht wird. Der Grund hierfür liegt darin, dass die Bildauflösung somit nicht räumlich, sondern zeitlich erhöht wird.
-
Dabei wird eine optimierte Trajektorie für die Verschiebung der Videobilder um eine definierte Anzahl von Bildpunkten mittels des Energieterms E = αEvel + βEsmooth + γEimp berechnet wird, wobei sich die optimierte Trajektorie für die minimale Energie ergibt, mit α, β, γ als Gewichtsfaktoren, wobei Evel eine Bedingung ist, die über alle Videobilder hinweg die Annäherung der Summe aus der Bewegung des aggregierten optischen Flusses und der eingefügten virtuellen Bewegung an eine vorgegebene Geschwindigkeit fordert, Esmooth eine Bedingung ist, die eine sanfte Bewegung fordert, und Eimp eine Bedingung ist, die umso größer wird, je weiter sich der foveale Blickbereich von der Ursprungsposition entfernt.
-
Mit Hilfe der vorliegenden Erfindung lässt sich somit die Erfolgsrate der perzeptuellen Auflösungserhöhung im Vergleich zu bereits vorhandenen Verfahren verbessern, ohne dass die zur Erreichung des Effektes eingefügte zusätzliche künstliche Bewegung als störend empfunden wird.
-
Gemäß einer Ausführungsform wird der foveale Blickbereich durch Festlegen eines Salienzbereiches innerhalb der Videobildsequenz bestimmt. Der Salienzbereich innerhalb eines Bildes oder einer Bildsequenz kann dabei als derjenige Bereich definiert werden, auf den gemeinhin der Fokus des Betrachters gerichtet ist. Nicht selten wird bereits bei der Aufnahme der Videobilddaten durch den Regisseur auf einen entsprechenden Bereich fokussiert, so dass unter Erkenntnis dieser Ausrichtung der Salienzbereich innerhalb der Videobilddaten manuell festgelegt werden kann.
-
Bei einer weiteren vorteilhaften Ausführungsform (zusätzlich oder alternativ) wird eine Blickrichtung während der Betrachtung der Videobildsequenz durch einen oder mehrere Betrachter mittels einer Blickerfassungseinrichtung ermittelt, wobei sich aus der ermittelten Blickrichtung dann der foveale Blickbereich ableiten lässt. Denn mit Hilfe der erfassten Blickrichtung, insbesondere von mehreren Betrachtern und Mittelung der erfassten Blickrichtung bei mehreren Betrachtern kann mit einer hohen Wahrscheinlichkeit festgestellt werden, auf welche Bereiche innerhalb der Videobildsequenz der Betrachter den Fokus legt. Die Fokussierung des Auges entspricht dabei der Richtung des schärfsten Sehens, so dass hierauf der foveale Blickbereich innerhalb der Videobildsequenz festgelegt werden kann.
-
Denkbar ist aber auch, dass in der Videobildsequenz enthaltene Kontraste, farbintensive Regionen, Bildbewegung und/oder Gesichter mit Hilfe einer Bildauswerteeinheit erkannt werden und die entsprechenden Bereiche mit den enthaltenen Kontrasten, farbintensiven Regionen, Bildbewegungen sowie Gesichtern dann als der foveale Blickbereich festgelegt werden. Hier liegt die Annahme zugrunde, dass Bereich mit hohen Kontrasten, farbintensiven Regionen, starken Bildbewegungen sowie Gesichtern Bereiche sind, auf die das menschliche Auge sehr oft fokussiert. Diese Bereiche stellen somit starke potentielle Kandidaten für den fovealen Blickbereich dar.
-
Es ist aber auch denkbar, dass diese beiden Verfahren miteinander kombiniert werden. So wird zunächst die Blickrichtung mit Hilfe einer Blickerfassungseinrichtung (Eye Tracker) ermittelt, wobei die entsprechenden markanten Bildinhalte wie Kontraste, farbintensive Regionen, Bildbewegung und/oder Gesichter mit Hilfe einer Bildauswerteeinheit erkannt werden. Anschließend wird der foveale Blickbereich in Abhängigkeit der ermittelten Blickrichtung und der erkannten Kontraste, farbreichen Regionen, Bildbewegungen und/oder Gesichter in Kombination ermittelt, was eine noch robustere Bestimmung des fovealen Blickbereiches darstellt.
-
Vorteilhafterweise erfolgt die Verschiebung der Videobilder bezogen auf die foveale Region möglichst mit einer Verschiebungsrate von einem Bildpunkt pro Videobild in diagonaler Richtung. Diese Verschiebungsrate erlaubt die bestmögliche Unterstützung der perzeptuellen Auflösungserhöhung. Die Verschiebung erfolgt weiterhin derart, dass die virtuelle Bewegung der fovealen Region möglichst sanft ist.
-
Die Verschiebung erfolgt dabei derart, dass das auf ein Videobild nächstfolgende Videobild (Frame) um eine ganzzahlige Anzahl von Bildpunkten in x- und/oder y-Richtung verschoben wird, wodurch die Bildpunktintensitäten des ursprünglichen Bildes nicht neuberechnet werden müssen (bedeutet: kein Resampling).
-
Vorteilhafterweise wird die Anzahl der Videobilder pro Zeiteinheit erhöht, um die Bildwiederholungsrate (Frame-per-second) der Videobildsequenz zu erhöhen. Der Schritt d) wird dann auf der Videobildsequenz mit der erhöhten Bildwiederholungsrate durchgeführt, so dass die virtuelle Bewegung in der Videobildsequenz mit der erhöhten Bildwiederholungsrate erzeugt wird.
-
So hat es sich beispielsweise als besonders vorteilhaft herausgestellt, wenn Standardvideosequenzen, die eine Bildwiederholungsrate von 24 Hz bis 30 Hz haben, auf eine Bildwiederholungsrate von besonders bevorzugt 120 Hz erhöht werden. Denn zum einen hat sich herausgestellt, dass bei einer derartigen Bildwiederholungsrate bzw. Frequenz bei niedrigen Frequenzen meist deutlich sichtbare Flimmern stark reduziert wird, so dass auch im Konsumbereich mittlerweile viele Geräte vorhanden sind, die eine hohe Bildwiederholungsrate unterstützen, nicht zuletzt auch für die Darstellung von 3D-Inhalten. Zum anderen hat sich gezeigt, dass bei einer hohen Bildwiederholungsrate und somit vielen Einzelbildern pro Zeiteinheit die perzeptuelle Bildauflösungserhöhung besonders gut realisieren lässt, da durch die vielen Einzelbilder in Summe die vorhandenen Detailinformationen besonders gut dargestellt werden können.
-
Die Erhöhung der Bildwiederholrate erfolgt zwischen zwei aufeinanderfolgenden Videobildern durch Einfügen von Kopien des zeitlich betrachtet früheren Videobildes. Die Bildpunktintensitäten werden hierbei nicht interpoliert, da sonst der Effekt der Auflösungserhöhung nicht mehr zustande käme.
-
Die Erfindung wird anhand der beigefügten Figuren beispielhaft näher erläutert. Es zeigen:
-
1 – Flussdiagramm des vorliegenden Verfahrens;
-
2 – schematische Darstellung des aggregierten optischen Flusses;
-
3 – schematische Darstellung der künstlichen virtuellen Bewegung zur perzeptuellen Bildauflösungserhöhung.
-
1 zeigt schematisch den Ablauf des vorliegenden Verfahrens. Ausgehend von einer Videobildsequenz 100, die aus einer Mehrzahl von Einzelbildern 101 besteht, wird zunächst der foveale Blickbereich in der Videobildsequenz 100 im Schritt 110 ermittelt. Das Ermitteln des fovealen Blickbereiches in Schritt 110 kann beispielsweise durch manuelles Festlegen 111 erfolgen. Hierbei werden händisch diejenigen Bereiche durch einen Anwender festgelegt, welche der Videosequenz den entsprechenden Salienzbereich darstellen.
-
Alternativ oder zusätzlich kann der foveale Blickbereich allerdings auch automatisch mit Hilfe einer Blickerfassungseinrichtung 112 und/oder durch Analysieren der Videobildsequenz 100 hinsichtlich sogenannter Low-level Features 113. Derartige Low-level Features 113 können beispielsweise Kontraste, farbintensive Regionen, Bildbewegungen und/oder Gesichter in den einzelnen Videobildern 101 der Videobildsequenz 100 sein.
-
Einzeln oder in Kombination kann hieraus nun der foveale Blickbereich in Schritt 110 ermittelt werden, beispielsweise derart, dass diejenigen Regionen, die entsprechende Probanden sehr häufig fokussieren und die entsprechenden erkannten Low-level Features im Video entsprechend gewichtet und ihre Gewichtung zusammengeführt wird. Hieraus ergibt sich dann ein fovealer Blickbereich, bei dem mit hoher Wahrscheinlichkeit angenommen werden kann, dass ein Zuschauer bzw. Betrachter der Videobildsequenz 100 in diesem Bereich mit seinen Augen fokussiert.
-
Anschließend wird in Schritt 120 der optische Fluss für jeden einzelnen Bildpunkt oder Bildpunktblöcke innerhalb des fovealen Blickbereiches für die Videobildsequenz 100 ermittelt, so dass sich ein Geschwindigkeits- und Bewegungsvektorfeld für den fovealen Blickbereich hinsichtlich der Bewegung der einzelnen Bildpunkte in dem fovealen Blickbereich ermitteln lässt.
-
Im anschließenden Schritt 130 wird nun ein sogenannter aggregierter optischer Fluss des fovealen Blickbereiches ermittelt, in dem das Geschwindigkeits- und Bewegungsvektorfeld des in Schritt 120 ermittelten optischen Flusses gemittelt wird. Mit anderen Worten, anstelle jeden einzelnen Bildpunkt innerhalb des fovealen Blickbereiches hinsichtlich seines Bewegungsrichtungs- und Geschwindigkeitsvektors unabhängig zu betrachten, wird vorgeschlagen, dem gesamten fovealen Blickbereich einen entsprechenden aggregierten optischen Fluss (Geschwindigkeits- und Bewegungsvektor) zuzuweisen, der eine Annäherung an den optischen Fluss der einzelnen Bildpunkte darstellt.
-
Selbstverständlich sind zur Ermittlung des aggregierten optischen Flusses auch andere statistische Verfahren möglich, um aus den Geschwindigkeits- und Bewegungsvektorenfeld einen gemeinsamen Geschwindigkeits- und Bewegungsvektor zu ermitteln.
-
Um ein besonders gutes Ergebnis der perzeptuellen Bildauflösung zu erhalten, ist eine gegenüber herkömmlichen Aufnahmeverfahren hohe Bildwiederholungsrate wünschenswert. Aktuelle Videobildsequenzen haben eine Bildwiederholungsrate von 24 Hz bis 30 Hz auf, d.h. 24 bis 30 Einzelbilder pro Sekunde, was in der Regel für eine flüssige Darstellung ausreicht.
-
Um jedoch eine Bildauflösungserhöhung durch eine zeitliche Integration zusätzlicher Bildinformationen zu erhalten, ist die darüber hinausgehende Erhöhung der Bildwiederholungsrate besonders vorteilhaft, um die entsprechenden Bildinformationen in die zeitliche Abfolge der Bilder zu integrieren. Liegt allerdings eine Videobildsequenz 100 vor, die lediglich eine Bildwiederholungsrate von 24 Hz bis 30 Hz hat, so ist es besonders vorteilhaft, wenn in Schritt 140 die Bildwiederholungsrate auf vorzugsweise 120 Hz erhöht wird. Dies kann beispielsweise dadurch geschehen, dass zwischen zwei Einzelbildern 101 eine entsprechend definierte Anzahl zusätzlicher Videobilder hinzugefügt wird, so dass sich die Anzahl der Einzelbilder pro Zeiteinheit erhöht.
-
Die Erhöhung der Bildwiederholungsrate in Schritt 140 kann mittels eines Upsampling-Verfahren durchgeführt werden. Dabei werden Kopien eines Videobildes eingefügt.
-
Im nunmehr anschließenden Schritt 150 wird erfindungsgemäß eine virtuelle Bewegung in die Videobildsequenz eingefügt bzw. erzeugt, so dass sich durch die Integration der einzelnen Farben der Bildpunkte im Auge eine perzeptuelle Erhöhung der Bildauflösung erreichen lässt. Hierfür werden die einzelnen Videobilder der Videobildsequenz gegeneinander verschoben, und zwar um eine definierte Anzahl von Bildpunkten, und in Abhängigkeit von dem zuvor ermittelten optischen Fluss, so dass sich eine besonders weiche und in die Szene einfügende künstliche Bewegung erzeugen lässt. Hierdurch kann erreicht werden, dass die zusätzliche Bewegung dem eigentlichen normalen Bewegungsverlauf innerhalb der Videobildsequenz nicht widerspricht, was zum einen zu einem falschen Ergebnis führen würde bezüglich der perzeptuellen Erhöhung der Bildauflösung und zum anderen beim Betrachter keinen guten Gesamteindruck der Szene hinterlässt. Durch das Verschieben der einzelnen Videobilder, beispielsweise um einen Bildpunkt pro Videobild in Abhängigkeit des aggregierten optischen Flusses des fovealen Blickbereiches wird hingegen eine Bewegung künstlich in die Videobildsequenz 100 eingefügt, die sich optimal an den Inhalten der Szene anpasst.
-
Die Schritte 140 und 150 können auch in einem zusammengefasst werden. Dann wird während der Erhöhung der Bildwiederholungsrate in Schritt 140 durch Einfügen weiterer Videobilder die Rate erhöht und die virtuelle Bewegung eingefügt, indem die eingefügten Videobilder entsprechend des optimierten Bewegungspfades verschoben werden, und zwar ohne interpoliert zu werden.
-
Anschließend wird in Schritt 160 die Bildauflösung der Videobildsequenz mit den verschobenen Videobildern in Abhängigkeit von der Bildauflösung des zur Darstellung vorgesehenen Displays reduziert, so dass das Video auf dem Display dargestellt werden kann. Durch die Reduzierung der Bildauflösung der einzelnen Videobilder, die gemäß dem vorliegenden Verfahren gegeneinander verschoben sind zur Erzeugung einer virtuellen künstlichen Bewegung, erhält jedes Videobild während des Downsamplings pro Bildpunkt einen anderen Informationsgehalt, so dass aufgrund der Vielzahl von Videobildern pro Zeiteinheit mit jeweils vielen unterschiedlichen Detailinformationen es zu einer Integration dieser im Auge des Betrachters kommt, was zu einer wahrnehmbaren Bildauflösungserhöhung in diesem fovealen Blickbereich führt. Denn die nunmehr zusätzlichen Detailinformationen des Bildes sind nicht in einer höheren Auflösung des Bildes als solche kodiert, sondern in der zeitlichen Abfolge des Bildes, ohne dass dies von dem menschlichen Auge gesondert wahrgenommen werden könnte.
-
Mit Hilfe der vorliegenden Erfindung wird es somit grundsätzlich möglich, Videobildsequenzen, die auf einem Display mit geringerer Auflösung dargestellt werden sollen, in ihrer perzeptuellen Bildauflösung zu erhöhen, so dass sich trotz der geringeren Bildauflösung des Displays ein hoch auflösendes Video darstellen lässt. Darüber hinaus kann mit Hilfe der vorliegenden Erfindung erreicht werden, dass die hierfür notwendige Bewegung des fovealen Blickbereiches künstlich erzeugt werden kann und sich so in die Szene integriert, dass die zusätzliche Bewegung nicht als störend empfunden wird.
-
2 zeigt schematisch, wie der optische Fluss zu einem aggregierten optischen Fluss berechnet wird. Die hierfür beispielhaft dargestellte Szene zeigt eine Person, bei der das Gesicht den Bereich darstellt, in dem ein Betrachter fokussieren würde. Daher wird dieser Bereich als der foveale Blickbereich 200 festgelegt. Die sich in diesem fovealen Blickbereich 200 befindlichen Bildpunkte werden nun hinsichtlich ihrer Bewegung innerhalb der Videobildsequenz analysiert und der entsprechende optische Fluss dann ermittelt. Als Ergebnis wird ein Vektorfeld geliefert, welches für jeden Bildpunkt approximativ die Bewegungsrichtung und Bewegungsgeschwindigkeit darstellt. Dieses Vektorfeld ist beispielhaft mit Pfeilen 210 dargestellt und bezeichnet den optischen Fluss.
-
Durch Mittelung der einzelnen Vektoren kann dann ein sogenannter aggregierter optischer Fluss 220 für den fovealen Blickbereich ermittelt werden, der eine Zusammenführung der Bewegung der einzelnen Bildpunkte und somit eine Mittelung über den gesamten Bereich darstellt.
-
Schließlich zeigt die 3 schematisch die Erhöhung der Bildwiederholungsrate. Im oberen Bereich sind vier Videoeinzelbilder 310, 320, 330, 340 dargestellt. Angenommen, bei der oben dargestellten Videosequenz handelt es sich um eine Videobildsequenz mit einer Bildwiederholungsrate von 24 Hz, so müssen zwischen zwei Videobildern 310 und 320 vier zusätzliche Videobilder eingefügt werden, um die Videobildsequenz auf eine Bildwiederholungsrate von 120 Hz zu erhöhen.
-
Somit ergibt sich eine Videobildsequenz, wie sie im unteren Bereich dargestellt ist, bei der zwischen den beiden originalen Videobildern 310 und 320 zusätzliche Videobilder 312, 314, 316 und 318 eingefügt wurden. Um nun die virtuelle Bewegung in dem Video künstlich zu erzeugen, wird ausgehend von dem ersten Videobild 310 das nächstfolgende Videobild 312 in Abhängigkeit des optischen Flusses um eine definierte Anzahl von Bildpunkten in der x-/y-Ausrichtung verschoben. Die Kombination aus Bewegung im Video (aggregierter optischer Fluss) und die Verschiebung der Bilder (Erzeugen einer virtuellen Bewegung) sollte eine Gesamtverschiebung von vorzugsweise einem Pixel pro x/y-Bildpunkt ergeben. Die Verschiebung erfolgt dabei immer ausgehend von dem vorherigen Videobild für das nächstfolgende Videobild. Da sich die Richtung und die Geschwindigkeit des aggregierten optischen Flusses über die Zeit ändert, kann der aggregierte optische Fluss über die gesamte Videobildsequenz in Art einer Bewegungstrajektorie von Videobild zu Videobild dargestellt werden. Die Trajektorie ist dabei mit 350 gekennzeichnet.
-
Diese Bewegungstrajektorie, ausgehend von dem aggregierten optischen Fluss, lässt sich beispielsweise derart ermitteln, dass zwischen den ursprünglichen Videobildern 310 und 320 ein erster aggregierter optischer Fluss hinsichtlich Geschwindigkeit und Richtung ermittelt wurde, und zwischen den Videobildern 320 und 330 ein zweiter aggregierter optischer Fluss, und so weiter. Der optische Fluss und der daraus resultierende aggregierte optische Fluss werden somit von einem Videobild zum nächsten Videobild ermittelt, wobei eine Änderung hinsichtlich der Geschwindigkeit und Richtung der Bewegung innerhalb der Videosequenz dann über eine solche Trajektorie 350 abgebildet werden kann.
-
Ausgehend von dieser Trajektorie 350, die sich auf die Bewegung innerhalb des fovealen Blickbereiches bezieht, lässt sich dann eine Verschiebung der einzelnen Bilder um eine definierte Anzahl von Bildpunkten erzeugen, wobei hierbei auch die zwischen den originalen Bildern 310 und 320 eingefügten Bilder 312, 314, 316, 318 jeweils ausgehend von dem vorherigen Bild verschoben werden.
-
Die Berechnung der optimierten Bewegungstrajektorie, aus der sich die Anzahl der Bildpunkte für die Verschiebung der Videobilder für die virtuelle Bewegung ableiten lässt, kann wie folgt berechnet werden:
-
Grundlage für die Berechnung sind der Salienzbereich (fovealer Blickbereich) und der optische Fluss, welche für jedes Einzelbild des Videos bestimmt wurden.
-
Zuerst wird der optische Fluss mit der Salienz für jeden Bildpunkt miteinander multipliziert und das Ergebnis über alle Bildpunkte aufsummiert. Das Ergebnis ist bereits der aggregierte optische Fluss für den salienten Bereich, da das Salienzbild normiert ist, d.h. in der Summe über das ganze Bild ergibt.
-
Die Werte beschreiben wohin sich die saliente Region im Mittel vom jeweiligen Bild zum darauffolgenden Bild bewegt. Der einzelne Wert ist somit als Geschwindigkeit aufzufassen.
-
Werden die Werte über alle Videobilder akkumuliert, bezogen auf einen Ursprung (Null) ergibt sich eine Bewegungstrajektorie µ für die salient Region, d.h. aus Geschwindigkeiten werden Positionen.
-
Für die Berechnung der optimierten Trajektorie wird der folgende Energieterm aufgestellt: E = αEvel + βEsmooth + γEimp
-
Die optimale Trajektorie ergibt sich für die minimale Energie. Die drei Summanden Evel, Esmooth, Eimp der Gesamtenergie beschreiben bestimmte Kriterien, die die Bewegungstrajektorie erfüllen soll. Die Faktoren α, β, γ gewichten die Einzelenergien und werden entweder auf Standardwerte gesetzt oder werden vom Benutzer eingestellt, um Einfluss auf die Ästhetik und Effektivität der Bewegungstrajektorie zu nehmen. Die drei Energieterme lassen sich mit Hilfe dieser Vorfaktoren unabhängig voneinander framegenau gewichten, um die zu berechnende Bewegungstrajektorie für in geeigneter Weise an die Ästhetik des Videos anpassen zu können.
-
Evel ist eine Bedingung, die dazu führt, dass über alle Videoframes hinweg die Summe aus akkumuliertem optischen Fluss für die saliente Region (µk) und der künstlich hinzugefügten Bewegung (vk) möglichst an der für die Auflösungserhöhung optimalen Geschwindigkeit (v k / opt) liegt. Die optimale Verschie
-
bung der salienten Region ist pro Videobild ein einziger Bildpunkt in diagonale Richtung, damit die Auflösungserhöhung möglichst gut funktioniert. Mathematisch formuliert gilt damit: v k / opt ∊ {(1, 1)Τ, (1, –1)Τ, (–1, 1)Τ, (–1, –1)Τ}
-
Die mathematische Formulierung der ersten Bedingung sieht wie folgt aus:
-
Ein Vorfaktor w k / vel erlaubt eine durch den Nutzer einstellbare Gewichtung des Terms für jedes Videobild k, um die resultierende Bewegungstrajektorie beeinflussen zu können.
-
Ist die kombinierte Geschwindigkeit für jedes Videobild möglichst nahe an der optimalen Geschwindigkeit, wird die Summe über alle Videoframes möglichst klein. Somit ist die Bewegungstrajektorie für die Auflösungserhöhung möglichst vorteilhaft.
-
Esmooth ist der zweite Bestandteil im Energieterm und fordert, dass die Bewegungstrajektorie möglichst sanft verläuft. Die Berechnung erfolgt über die Differenz der eingeführten Geschwindigkeiten in zwei aufeinanderfolgenden Frames. Diese einfache Form der Ableitung der Bewegungsgeschwindigkeit kann mathematisch-physikalisch als Beschleunigung der Region aufgefasst werden. Ist die Beschleunigung möglichst klein, ist die Auflösungserhöhung möglichst vorteilhaft, da der Betrachter besonders gut in der Lage ist, der salienten Region zu folgen.
-
Die mathematische Formulierung der zweiten Bedingung lautet daher wie folgt:
-
Auch in dieser Formulierung existiert ein Gewichtungsfaktor w k / smooth , über den der Einfluss der zweiten Bedingung über das Video eingestellt werden kann, um die Ästhetik der Bewegungstrajektorie zu steuern.
-
Eimp repräsentiert die dritte Bedingung. Die Energie des Terms wird umso größer, je weiter sich die saliente Region im Videobild von der Ursprungsposition (unverändertes Videobild) entfernt. Der Term fordert damit im Umkehrschluss, dass die saliente Region möglichst an der Ursprungsposition bleibt. In diesem Fall wird die Energie des Terms möglichst klein.
-
Für die effiziente Berechnung des Terms wird im ersten Schritt aus dem Salienzbild ein Gewichtungsbild berechnet. Der Term berechnet sich anschließend aus dem Gewichtungsbild subtrahiert um den sichtbaren Teil des Gewichtungsbildes nach Ausführung der Verschiebung entlang der Bewegungstrajektorie.
-
Anders gesagt ist die Energie in der dritten Bedingung pro Videobild gleich der Summe derjenigen Bildpunkte des Gewichtungsbildes, die sich durch die Verschiebung des Bildes außerhalb des sichtbaren Bereiches befinden.
-
Mathematisch lassen sich die entsprechenden Bildpunkte als Schnittmenge über die Bildpunktindizes (i, j in x, y-Richtung des Bildes) formulieren: (i, j) ∊ (VP ∩ Tk(VP))
-
VP ist die Gesamtmenge der Bildpunktindizes (gesamtes Bild) und Tk(VP) sind die Bildpunkte verschoben entlang der berechneten Bewegungstrajektorie. Die Schnittmenge beider Mengen ergibt diejenigen Bildpunkte, die nach der Verschiebung noch sichtbar sind.
-
Die mathematische Berechnung des dritten Energieterms (E
imp) sieht entsprechend der obigen Beschreibung wie folgt aus:
-
Auch in diesem Term erlaubt ein Vorfaktor w k / imp eine bildgenaue Gewichtung des Einflusses des Terms.
-
Die Gesamtenergie wird über ein numerisches Energieminimierungsverfahren berechnet, wodurch sich für jedes Videobild ein Verschiebungsvektor vk ergibt, der den beschriebenen Bedingungen möglichst gut genügt und dadurch für die Auflösungserhöhung im Bereich der salienten Region möglichst vorteilhaft ist.