DE102018002049B4

DE102018002049B4 - 360-grad-video mit kombiniertem projektionsformat

Info

Publication number: DE102018002049B4
Application number: DE102018002049.6A
Authority: DE
Inventors: Minhua Zhou
Original assignee: Avago Technologies International Sales Pte Ltd
Current assignee: Avago Technologies International Sales Pte Ltd
Priority date: 2017-03-15
Filing date: 2018-03-14
Publication date: 2022-02-10
Anticipated expiration: 2038-03-15
Also published as: DE102018002049A1

Abstract

Verfahren zum Kombinieren von Projektionsformaten, wobei das Verfahren Folgendes umfasst:
Anpassen des Werts von wenigstens einem von einer Vielzahl von Steuerparametern für ein kombiniertes Projektionsformat auf der Grundlage eines Vergleichs einer Kompressionseffizienz eines kombinierten Projektionsformats mit einem Speicherbandbreitenverbrauch des kombinierten Projektionsformats;
Kombinieren von wenigstens zwei unterschiedlichen Projektionsformaten zu einem kombinierten Projektionsformat unter Verwendung der Vielzahl von Steuerparametern, wobei ein erster von der Vielzahl von Steuerparametern zur Steuerung der Auflösung der Neuabtastung in einer ersten Richtungen verwendet wird und ein zweiter von der Vielzahl von Steuerparametern zur Steuerung der Auflösung der Neuabtastung in einer zweiten Richtungen verwendet wird; und
Codieren eines Videostroms mit dem kombinierten Projektionsformat.

Description

Die vorliegende Offenbarung betrifft die Erfassung und Wiedergabe von Videos, und insbesondere von 360-Grad-Videos mit kombiniertem Projektionsformat.
Bei 360-Grad-Videos, auch bekannt als Rundum-Videos, Vollsphären-Videos und/oder Panorama-Videos, handelt es sich um Video-Aufzeichnungen eines Panoramas aus der wirklichen Welt, bei dem jeweils gleichzeitig die Ansicht in jede Richtung aufgezeichnet wird, wobei mit einer omnidirektionalen Kamera oder einer Sammlung von Kameras gefilmt wird. Während der Wiedergabe steuert der Betrachter die Winkel des Sichtfeldes (Field of View, FOV) und die Betrachtungsrichtungen (eine Form der virtuellen Realität).
US 2010 / 0 157 016 A1 beschreibt ein Verfahren, welches ein Erfassen von Videoinhalt einer Vielzahl von Bildbereichen an einem Konferenzort von einer Vielzahl von Kameras, ein Bereitstellen einer Vielzahl von Original-Videoströmen, wobei jeder der Original-Videoströme dem Videoinhalt eines entsprechenden der Vielzahl von Bildbereichen entspricht, ein Identifizieren mindestens eines aktiven Bildbereichs der Vielzahl von Bildbereichen, ein Kodieren auf einem höheren Qualitätsniveau von mindestens einem der Mehrzahl von ursprünglichen Videoströmen, die dem mindestens einen aktiven Bildbereich entsprechen, unter Verwendung einer skalierbaren Videokodierung (SVC), um mindestens einen kodierten Videostrom höherer Qualität bereitzustellen und ein Codieren auf einem niedrigeren Qualitätsniveau mindestens eines anderen der Vielzahl von Videoströmen umfasst, die mindestens einem anderen Bildbereich entsprechen, unter Verwendung von SVC, um mindestens einen codierten Videostrom niedrigerer Qualität bereitzustellen.
US 2016 / 0 353 146 A1 beschreibt ein Verfahren, welches das Bestimmen mindestens einer bevorzugten Ansichtsperspektive, die einem dreidimensionalen (3D) Video zugeordnet ist, das Codieren eines ersten Abschnitts des 3D-Videos entsprechend der mindestens einen bevorzugten Ansichtsperspektive mit einer ersten Qualität und das Codieren eines zweiten Abschnitts des 3D-Videos in einer zweiten Qualität umfasst, wobei die erste Qualität im Vergleich zur zweiten Qualität höher ist.
In Übereinstimmung mit der vorliegenden Erfindung werden ein Verfahren zum Kombinieren von Projektionsformaten mit den Merkmalen des Anspruchs 1 und ein System mit den Merkmalen des Anspruchs 10 bereitgestellt.
Vorteilhafte Weiterbildungen ergeben sich aus den abhängigen Unteransprüchen.
Gemäß einem Aspekt umfasst ein Verfahren zum Kombinieren von Projektionsformaten folgende Schritte:

Anpassen des Werts von wenigstens einem von einer Vielzahl von Steuerparametern für ein kombiniertes Projektionsformat auf der Grundlage eines Vergleichs einer Kompressionseffizienz eines kombinierten Projektionsformats mit einem Speicherbandbreitenverbrauch des kombinierten Projektionsformats;
Kombinieren von wenigstens zwei unterschiedlichen Projektionsformaten zu einem kombinierten Projektionsformat unter Verwendung der Vielzahl von Steuerparametern, wobei ein erster von der Vielzahl von Steuerparametern zur Steuerung der Auflösung der Neuabtastung in einer ersten Richtungen verwendet wird und ein zweiter von der Vielzahl von Steuerparametern zur Steuerung der Auflösung der Neuabtastung in einer zweiten Richtungen verwendet wird; und
Codieren eines Videostroms mit dem kombinierten Projektionsformat.

Zweckmäßigerweise wird der Wert von wenigstens einem von der Vielzahl von Steuerparametern unter Verwendung vordefinierter Funktionen oder vordefinierter, gemäß der geografischen Breite ausgesuchter Nachschlagetabellen angepasst.
Zweckmäßigerweise umfasst das Verfahren ferner Folgendes:

Anpassen einer Kompressionseffizienz des kombinierten Projektionsformats unter Verwendung des angepassten Werts des wenigstens einen von der Vielzahl von Steuerparametern.

Zweckmäßigerweise umfasst das Verfahren ferner Folgendes:

Anpassen eines Speicherbandbreitenverbrauchs des kombinierten Projektionsformats unter Verwendung des angepassten Werts des wenigstens einen von der Vielzahl von Steuerparametern.

Zweckmäßigerweise umfasst das Verfahren ferner Folgendes:

Ändern einer Viewport-Qualität eines Bildes unter Verwendung des angepassten Werts des wenigstens einen von der Vielzahl von Steuerparametern.

Zweckmäßigerweise umfasst das Verfahren ferner Folgendes:

Auswählen eines Satzes von Steuerparametern auf der Grundlage eines Vergleichs der Kompressionseffizienz mit dem Speicherbandbreitenverbrauch; und
Erzeugen des kombinierten Projektionsformats mit dem ausgewählten Satz von Steuerparametern.

Zweckmäßigerweise umfasst die Vielzahl von Steuerparametern einen ersten Steuerparameter, der die Auflösung der Neuabtastung der Spalten im Hinblick auf die geografische Breite steuert, und wobei die Vielzahl von Steuerparametern einen zweiten Steuerparameter umfasst, der die Auflösung der Neuabtastung der Zeilen im Hinblick auf die geografische Breite steuert.
Zweckmäßigerweise stellt das kombinierte Projektionsformat ein äquirektanguläres Projektionsformat dar, wenn jeder von dem ersten Steuerparameter und dem zweiten Steuerparameter auf 0 eingestellt ist.
Zweckmäßigerweise stellt das kombinierte Projektionsformat ein flächentreues Projektionsformat dar, wenn der erste Steuerparameter auf null und der zweite Steuerparameter auf 1 eingestellt ist.
Zweckmäßigerweise umfasst das Anpassen des Werts wenigstens eines von der Vielzahl von Steuerparametern Folgendes:

Anpassen des Werts des zweiten Steuerparameters;
Ändern der Auflösung der Neuabtastung der Zeilen um einen Pol eines Bildes auf der Grundlage des angepassten Werts des zweiten Steuerparameters; und
Ändern einer Viewport-Qualität des Bildes mit der geänderten Auflösung der Neuabtastung der Zeilen, während der Wert des ersten Steuerparameters unverändert bleibt.

Zweckmäßigerweise umfasst das Verfahren ferner Folgendes:

Anpassen des Werts des ersten Steuerparameters;
Ändern der Auflösung der Neuabtastung der Spalten des Bildes auf der Grundlage des angepassten Werts des ersten Steuerparameters; und
Ändern der Viewport-Qualität des Bildes mit der geänderten Auflösung der Neuabtastung der Spalten, während der Wert des zweiten Steuerparameters unverändert bleibt.

Zweckmäßigerweise umfasst das Verfahren ferner Folgendes:

Auswählen eines Satzes von Steuerparametern des kombinierten Projektionsformats für ein Segment des Videostroms, wobei der ausgewählte Satz von Steuerparametern einer Kompressionseffizienz des kombinierten Projektionsformats entspricht, die über einem vorbestimmten Schwellenwert für die Effizienz liegt; und

Zusammenfügen des Segments des Videostroms zu dem kombinierten Projektionsformat mit dem ausgewählten Satz von Steuerparametern.
Zweckmäßigerweise umfasst das Verfahren ferner Folgendes:

Bestimmen, ob es sich bei einem Referenz-Abtastpunkt in einem Bereich eines Bildes des Videostroms während des Renderns des Videostroms um einen aktiven Abtastpunkt oder um einen inaktiven Abtastpunkt handelt; und
Anwenden eines Schutzbandes auf den Bereich des Bildes, wenn bestimmt wurde, dass es sich bei dem Referenz-Abtastpunkt um einen inaktiven Abtastpunkt handelt.

Bestimmte Merkmale der beanspruchten Technologie sind in den beigefügten Ansprüchen dargelegt. Zum Zwecke der Erläuterung sind jedoch eine oder mehrere Implementierungen der beanspruchten Technologie in den folgenden Figuren dargelegt.

1 veranschaulicht eine beispielhafte Netzwerkumgebung, in der die Erfassung und die Wiedergabe von 360-Grad-Videos gemäß einer oder mehreren Implementierungen der beanspruchten Technologie implementiert sein können.
2 veranschaulicht schematisch ein Beispiel für ein äquirektanguläres Projektionsformat gemäß einer oder mehreren Implementierungen der beanspruchten Technologie.
3 veranschaulicht schematisch ein Beispiel für ein äquirektanguläres Projektionsformat mit einer Erdkarte gemäß einer oder mehreren Implementierungen der beanspruchten Technologie.
4 veranschaulicht schematisch ein Beispiel für ein 360-Grad-Videobild mit äquirektangulärem Projektionsformat (ERP) und flächentreuem Projektionsformat (EAP) gemäß einer oder mehreren Implementierungen der beanspruchten Technologie.
5 veranschaulicht schematisch ein Beispiel für einen Viewport-Qualitätsvergleich zwischen ERP und EAP um einen Südpol gemäß einer oder mehreren Implementierungen der beanspruchten Technologie.
6 veranschaulicht schematisch Beispiele für Referenzbilder in dem ERP- und in dem EAP-Format zum Rendern um einen Äquator gemäß einer oder mehreren Implementierungen der beanspruchten Technologie.
7 veranschaulicht schematisch Beispiele für Referenzbilder in dem ERP- und in dem EAP-Format zum Rendern um einen Südpol gemäß einer oder mehreren Implementierungen der beanspruchten Technologie.
8 veranschaulicht schematisch Beispiele für kombinierte Projektionslayouts mit unterschiedlichen Alpha- und Beta-Einstellungen gemäß einer oder mehreren Implementierungen der beanspruchten Technologie.
9 veranschaulicht schematisch Beispiele für einen Vergleich der Viewport-Qualität von Bildern um einen Südpol in dem kombinierten Projektionsformat mit unterschiedlichen Alpha- und Beta-Einstellungen gemäß einer oder mehreren Implementierungen der beanspruchten Technologie.
10 veranschaulicht ein Diagramm, das einen Leistungsvergleich verschiedener kombinierter Layouts von ERP/EAP-Projektionen (CEP-Projektionen) gemäß einer oder mehreren Implementierungen der beanspruchten Technologie abbildet.
11 veranschaulicht ein Schemadiagramm eines Beispiels für ein System zur Erfassung und Wiedergabe von 360-Grad-Videos gemäß einer oder mehreren Implementierungen der beanspruchten Technologie.
12 veranschaulicht ein Schemadiagramm eines Beispiels für ein System zur Erfassung und Wiedergabe von 360-Grad-Videos mit adaptiver Projektionsauswahl zwischen CEP- und anderen Projektionsformaten gemäß einer oder mehreren Implementierungen der beanspruchten Technologie.
13 veranschaulicht schematisch ein Beispiel für CEP-Layouts mit und ohne Schutzband gemäß einer oder mehreren Implementierungen der beanspruchten Technologie.
14 veranschaulicht schematisch ein elektronisches System, mit dem eine oder mehrere Implementierungen der beanspruchten Technologie implementiert werden können.

Der begleitende Anhang, der zu einem besseren Verständnis der beanspruchten Technologie beigefügt wurde und in diese Patentanmeldung aufgenommen wurde und einen Teil davon bildet, veranschaulicht Erscheinungsformen der beanspruchten Technologie und dient zusammen mit der Beschreibung dazu, die Prinzipien der beanspruchten Technologie zu erläutern.
AUSFÜHRLICHE BESCHREIBUNG
Die nachfolgend dargelegte Beschreibung ist als Beschreibung verschiedener Konfigurationen der beanspruchten Technologie vorgesehen, und sie soll nicht die einzigen Konfigurationen verkörpern, in denen die beanspruchte Technologie in der Praxis ausgeführt werden kann. Die beigefügten Zeichnungen sind in das vorliegende Dokument aufgenommen und bilden einen Bestandteil der ausführlichen Beschreibung. Die ausführliche Beschreibung enthält spezifische Details, die dem Zweck dienen sollen, ein besseres Verständnis der beanspruchten Technologie zu ermöglichen. Für die Fachleute auf diesem Gebiet ist es jedoch klar und offensichtlich, dass die beanspruchte Technologie nicht auf die in dem vorliegenden Dokument dargelegten, spezifischen Details beschränkt ist und dass sie unter Verwendung einer oder mehrerer Implementierungen in der Praxis ausgeführt werden kann. In einem oder mehreren Fällen sind allgemein bekannte Strukturen und Komponenten in Form von Blockdiagrammen gezeigt, um zu verhindern, dass die Konzepte der beanspruchten Technologie unverständlich werden.
In einem System zur Erfassung und Wiedergabe von 360-Grad-Videos können 360-Grad-Videos erfasst, zusammengefügt, codiert, decodiert, gerendert und wiedergegeben werden. Bei einer oder mehreren Implementierungen kann eine Vorrichtung zur Videocodierung mit adaptivem Projektionsformat wenigstens einen Prozessor umfassen, der so konfiguriert ist, dass er wenigstens zwei unterschiedliche Projektionsformate zu einem kombinierten Projektionsformat kombiniert und einen Videostrom unter Verwendung des kombinierten Projektionsformats codiert. Der wenigstens eine Prozessor kann ferner so konfiguriert sein, dass er einen mit einem kombinierten Projektionsformat codierten Videostrom, der wenigstens zwei unterschiedliche Projektionsformate umfasst, decodiert.
Bei dem beanspruchten System erfasst eine Vorrichtung zum Erfassen von 360-Grad-Videos die Rohdaten des 360-Grad-Videos als Kamera-Rohdaten, und eine Vorrichtung zum Zusammenfügen von 360-Grad-Videos fügt die Kamera-Rohdaten zusammen und speichert sie in dem CEP-Format. Eine Codierungsvorrichtung für 360-Grad-Videos komprimiert und überträgt die 360-Grad-Videodaten, und eine Decodierungsvorrichtung für 360-Grad-Videos dekomprimiert die 360-Grad-Videodaten. Auf Empfängerseite rendert eine Rendering-Engine für 360-Grad-Videos Viewports (zur Anzeige) direkt aus dem CEP-Format oder konvertiert die 360-Grad-Videodaten in dem CEP-Format in ein anderes unterstütztes Format (zum Beispiel ERP), bevor es die 360-Grad-Videodaten rendert und anzeigt.
Bei dem beanspruchten System werden die Merkmale von ERP und EAP zu einem einzelnen Projektionsformat vereint, und zwar zu einem kombinierten Projektionsformat. Steuerparameter, wie beispielsweise α und β, werden jeweils zum Steuern der Auflösung der Neuabtastung verwendet, sowohl in horizontaler als auch vertikaler Richtung. Während α die Auflösung der Neuabtastung der Spalten im Hinblick auf die geografische Breite steuert, steuert β die Auflösung der Neuabtastung der Zeilen im Hinblick auf die geografische Breite in den projizierten 360-Grad-Videobildern. Mit der Fähigkeit, die Auflösung der Neuabtastung in beiden Richtungen zu steuern, kann ein besserer Kompromiss zwischen der Viewport-Qualität und dem Speicherbandbreitenverbrauch erreicht werden. Die CEP-Steuerparameter (α, β) werden zusammen mit anderen Videoparametern in dem 360-Grad-Video-Bitstrom mit beliebigen geeigneten Mitteln signalisiert, wie beispielsweise einer Syntax auf hoher Ebene, SEI-Nachrichten (Supplemental Enhancement Information, zusätzliche Verbesserungsinformationen), oder sie werden in der Systemschicht signalisiert. Die Steuerparameter (α, β) können feststehend sein, und sie können sich von Zeit zu Zeit auf der Grundlage von Videomerkmalen, der Übertragungsbandbreite, der Speicherbandbreite zum Rendern oder dergleichen ändern.
1 veranschaulicht eine beispielhafte Netzwerkumgebung 100, in der die Erfassung und Wiedergabe eines 360-Grad-Videos gemäß einer oder mehreren Implementierungen implementiert werden können. Es werden möglicherweise nicht alle abgebildeten Komponenten verwendet, jedoch können eine oder mehrere Implementierungen zusätzliche Komponenten umfassen, die in der Figur nicht gezeigt sind. Abweichungen bei der Anordnung und dem Typ der Komponenten sind möglich, ohne dass von dem Wesen oder Schutzumfang der in dem vorliegenden Dokument dargelegten Patentansprüche abgewichen wird. Zusätzliche Komponenten, andere Komponenten oder weniger Komponenten können vorgesehen sein.
Die beispielhafte Netzwerkumgebung 100 umfasst eine Erfassungsvorrichtung für 360-Grad-Videos 102, eine Vorrichtung zum Zusammenfügen von 360-Grad-Videos 104, eine Video-Codierungsvorrichtung 106, eine Übertragungsverbindung oder Speichermedien, eine Video-Decodierungsvorrichtung 108 und eine Rendering-Vorrichtung für 360-Grad-Videos 110. Bei einer oder mehreren Implementierungen können eine oder mehrere der Vorrichtungen 102, 104, 106, 108, 110 in derselben physischen Vorrichtung kombiniert sein. Zum Beispiel können die Erfassungsvorrichtung für 360-Grad-Videos 102, die Vorrichtung zum Zusammenfügen von 360-Grad-Videos 104 und die Video-Codierungsvorrichtung 106 in einer einzigen Vorrichtung kombiniert sein, und die Video-Decodierungsvorrichtung 108 und die Rendering-Vorrichtung für 360-Grad-Videos 110 können in einer einzigen Vorrichtung kombiniert sein. Bei einigen Erscheinungsformen kann die Netzwerkumgebung 100 eine Speichervorrichtung 114 umfassen, in der das codierte 360-Grad-Video gespeichert wird (wie beispielsweise auf DVDs, bei Blu-ray, bei DVR (Digital Video Recording, digitale Videoaufzeichnungen) in der Cloud oder in einem Gateway/einer Set-Top-Box, usw.) und dann auf einer Anzeigevorrichtung (zum Beispiel 112) wiedergegeben wird.
Die Netzwerkumgebung 100 kann ferner eine Vorrichtung zur Konvertierung des Projektionsformats für 360-Grad-Videos (nicht gezeigt) umfassen, die vor der Video-Codierung mittels der Video-Codierungsvorrichtung 106 eine Konvertierung des Projektionsformats für 360-Grad-Videos durchführen kann. Die Netzwerkumgebung 100 kann außerdem eine Vorrichtung zur Konvertierung des Projektionsformats für 360-Grad-Videos (nicht gezeigt) umfassen, die zwischen der Video-Decodierungsvorrichtung 108 und der Rendering-Vorrichtung für 360-Grad-Videos 110 eingefügt ist. Bei einer oder mehreren Implementierungen kann die Video-Codierungsvorrichtung 106 über eine Übertragungsverbindung, wie beispielsweise ein Netzwerk, mit der Video-Decodierungsvorrichtung 108 kommunikativ gekoppelt sein.
Bei dem beanspruchten System kann die Vorrichtung zum Zusammenfügen von 360-Grad-Videos 104 ein zusätzliches Koordinatensystem verwenden, das auf der Erfassungsseite des 360-Grad-Videos mehr Freiheiten gestattet, wenn das erfasste 360-Grad-Video zur Speicherung oder zur Übertragung auf ein Koordinatensystem für 2D-Eingabebilder projiziert wird. Ein derartiges zusätzliches Koordinatensystem kann zum Beispiel für eine bessere Kompressionseffizienz eine globale Drehung des erfassten 360-Grad-Videos ermöglichen, bevor es zusammengefügt wird. Die Vorrichtung zum Zusammenfügen von 360-Grad-Videos 104 kann außerdem mehrere Projektionsformate für die Speicherung, die Kompression, die Übertragung, die Decodierung, das Rendering, usw. von 360-Grad-Videos unterstützen. Die Vorrichtung zum Zusammenfügen von 360-Grad-Videos 104 kann mittels eines Kameraträgers erfasste, sich überlagernde Bereiche entfernen und zum Beispiel sechs Ansichtssequenzen ausgeben, die jeweils einen 90° × 90°-Viewport abdecken. Die Vorrichtung zur Konvertierung des Projektionsformats für 360-Grad-Videos (nicht gezeigt) kann ein Eingabe-Projektionsformat für ein 360-Grad-Video (zum Beispiel das Würfelprojektionsformat) in ein Ausgabe-Projektionsformat für ein 360-Grad-Video (zum Beispiel das äquirektanguläre Format) konvertieren. Bei einigen Erscheinungsformen bildet CMP (Würfelprojektionsformat) eine Kugel auf sechs quadratische Würfelseiten ab, von denen jede 90° x 90° Grad der Kugel abdeckt.
In 1 wird das 360-Grad-Video mittels eines Kameraträgers erfasst und zu dem äquirektangulären Format zusammengefügt. Das Video wird dann in ein beliebiges geeignetes Videokompressionsformat komprimiert (zum Beispiel MPEG/ITU-T AVC/H.264, MPEG/ITU-T HEVC/H.265, VP9, usw.) und über die Übertragungsverbindung (zum Beispiel Kabel, Satellit, terrestrische Übertragung, Internet-Streaming, usw.) übertragen. Auf der Empfängerseite wird das Video decodiert (zum Beispiel 108) und in dem äquirektangulären Format gespeichert, dann wird es entsprechend den Betrachtungsrichtungswinkeln und den Sichtfeldwinkeln gerendert (zum Beispiel 110) und angezeigt (zum Beispiel 112). Bei dem beanspruchten System haben die Endanwender die Kontrolle über die Sichtfeldwinkel und die Betrachtungsrichtungswinkel, um das 360-Grad-Video in den gewünschten Betrachtungsrichtungen und Sichtfeldwinkeln zu betrachten.
Koordinatensysteme
Es gibt mehrere Koordinatensysteme, die für die beanspruchte Technologie angewendet werden, einschließlich, aber nicht beschränkt auf die Folgenden:

(x, y, z) - 3D-Koordinatensystem für die 360-Grad-Video-Erfassung (Kamera-Koordinatensystem).
(x', y', z') - 3D-Koordinatensystem für die Betrachtung von 360-Grad-Videos.
(x_p, y_p) - Normalisiertes 2D-Projektionskoordinatensystem mit x_p ∈ [0,0: 1,0] und y_p ∈ [0,0: 1,0].
(X_p, Y_p) - Koordinatensystem für 2D-Eingabebilder mit X_p ∈ [0: inputPicWidth - 1] und Y_p ∈ [0: inputPicHeight - 1], wobei inputPicWidth x inputPicHeight die Größe der Eingabebilder einer Farbkomponente (zum Beispiel Y, U oder V) ist.
(x_c,y_e) - Normalisiertes 2D-Rendering-Koordinatensystem mit x_c ∈ [0,0: 1,0] und y_c ∈ [0,0: 1,0].
(X_c, Y_c) - Koordinatensystem für 2D-Ausgabe-Rendering-Bilder mit X_c ∈ [0: renderingPicWidth - 1] und Y_c ∈ [0: renderingPicHeight - 1], wobei picWidth x picHeight die Ausgabe-Rendering-Bildgröße einer Farbkomponente (zum Beispiel Y, U oder V) ist.
(x_r, y_r z_r) - 3D-Koordinatensystem für die 360-Grad-Videoprojektion.

2 veranschaulicht schematisch ein Beispiel für ein äquirektanguläres Projektionsformat 200. Das äquirektanguläre Projektionsformat 200 stellt eine Standardmöglichkeit zum Texture-Mapping einer Kugel in der Computergrafik dar. Es ist auch als abstandsgetreue Zylinderprojektion, geografische Projektion, Plattkarte oder Plate carree bekannt. Wie in 2 gezeigt, werden zum Projizieren eines Punktes p(x, y, z) auf der Oberfläche einer Kugel (zum Beispiel 202) auf einen Abtastpunkt p'(x_p, y_p) in dem normalisierten Projektionskoordinatensystem (zum Beispiel 204) sowohl die geografische Länge ω als auch die geografische Breite φ für p(x, y, z) gemäß Gleichung 1 berechnet. ${\begin{array}{l} ω = a r c t a n t 2 (x, y) \\ φ = a r c s i n (\frac{y}{\sqrt{x^{2} + y^{2} + z^{2}}}) \end{array}$
wobei ω ∈ [-π:π] und $φ \in [- \frac{π}{2} : \frac{π}{2}]$
gilt. π ist das Verhältnis des Umfangs eines Kreises zu seinem Durchmesser, üblicherweise als 3,1415926 approximiert.
Das äquirektanguläre Projektionsformat 200 kann wie in Gleichung 2 definiert sein: ${\begin{matrix} x_{p} = \frac{ω}{2 π} + 0,5 \\ y_{p} = - \frac{φ}{π} + 0,5 \end{matrix}$
wobei x_p ∈ [0,0: 1,0] und y_p E [0,0: 1,0] gilt. (x_p, y_p) ist die Koordinate in dem normalisierten Projektionskoordinatensystem.
3 veranschaulicht schematisch ein Beispiel für ein äquirektanguläres Projektionslayout 300 mit einer Erdkarte. Bei dem äquirektangulären Projektionslayout 300 weist das Bild nur entlang des Äquators eine 1:1-Abbildung auf, an allen übrigen Stellen ist es gedehnt. Die größte Verzerrung bei der Abbildung erfolgt an dem Nord- und Südpol einer Kugel (zum Beispiel 302), wo ein einzelner Punkt auf eine Linie von Abtastpunkten auf dem äquirektangulären Projektionsbild (zum Beispiel 304) abgebildet wird, was zu einer großen Menge redundanter Daten in dem zusammengesetzten 360-Grad-Video führt, welches das äquirektanguläre Projektionslayout 300 verwendet.
Zusätzlich zu dem äquirektangulären Projektionsformat gibt es viele andere Projektionsformate, mit denen ein 360-Grad-Video-Einzelbild auf einem rechteckigen 2D-Bild dargestellt werden kann, wie beispielsweise die so genannte flächentreue Projektion (EAP), die folgendermaßen definiert ist: ${\begin{matrix} x_{p} = \frac{ω}{2 π} + 0,5 \\ y_{p} = - \frac{sin φ}{π} + 0,5 \end{matrix}$
wobei x_p ∈ [0,0: 1,0] und y_p E [0,0: 1,0] gilt. (x_p, y_p) ist die Koordinate in dem normalisierten Projektionskoordinatensystem.
4 veranschaulicht schematisch ein Beispiel für ein 360-Grad-Videobild in dem ERP- und in dem EAP-Format gemäß einer oder mehreren Implementierungen der beanspruchten Technologie. In dem ERP-Format sind die Abtastpunkte in beiden Richtungen (zum Beispiel vertikal, horizontal) in einem projizierten 360-Grad-Videobild gleichmäßig verteilt (zum Beispiel 402). In dem EAP-Format sind die Abtastpunkte jedoch nur in der horizontalen Richtung gleichmäßig verteilt, in der vertikalen Richtung sind sie jedoch ungleichmäßig verteilt (zum Beispiel 404). Wie in 4 gezeigt, sind die Linien der Abtastpunkte in dem EAP-Format (zum Beispiel 404) um den Nord- und den Südpol (das heißt dem oberen und dem unteren Bereich eines 360-Grad-Videobildes) gestaucht, und entlang des Äquators (das heißt der mittlere Bereich des 360-Grad-Videobildes) sind sie gestreckt.
Bei einigen Erscheinungsformen kann dies mittels der Gleichungen 2 und 3, in denen die Anzahl der Linien von Abtastpunkten pro geografischem Breitengrad, das heißt $| \frac{\partial y_{p}}{\partial φ} |,$
bei dem ERP-Format über den gesamten Bereich der geografischen Breite konstant ist (zum Beispiel $[- \frac{π}{2} : \frac{π}{2}]$
), mathematisch erklärt werden. Der Bereich der geografischen Breite kann aus Gleichung 2 abgeleitet werden: $| \frac{\partial y_{p}}{\partial φ} | = \frac{1}{π}, φ \in [- \frac{π}{2} : \frac{π}{2}]$
Für das EAP-Format dagegen ist der Bereich der geografischen Breite, wie aus Gleichung 3 abgeleitet, eine Kosinusfunktion der geografischen Breite: $| \frac{\partial y_{p}}{\partial φ} | = \frac{c o s φ}{π}, φ \in [- \frac{π}{2} : \frac{π}{2}]$
Wie in Gleichung 5 gezeigt, ist die Anzahl der Linien von Abtastpunkten pro geografischem Breitengrad (das heißt die Auflösung der Neuabtastung der Linien) um den Nordpol (das heißt $φ = \frac{π}{2}$
) und um den Südpol (das heißt $φ = \frac{π}{2}$
) in dem EAP-Format annähernd null, was sich negativ auf die Qualität in den gerenderten Viewports für diese Bereiche auswirken könnte.
5 veranschaulicht schematisch ein Beispiel für einen Viewport-Qualitätsvergleich zwischen ERP und EAP um einen Südpol gemäß einer oder mehreren Implementierungen der beanspruchten Technologie. In 5 ist die Viewport-Qualität bei EAP (zum Beispiel 506) in der Mitte des Viewports (zum Beispiel 508) im Vergleich zu der Mitte des Viewports (zum Beispiel 504) bei ERP (zum Beispiel 502) stark verzerrt.
Bei demselben Inhalt eines 360-Grad-Videos können unterschiedliche Projektionsformate zu unterschiedlichen Kompressionseffizienzraten führen, nachdem das Video mit einem bestimmten Video-Kompressionsstandard (zum Beispiel MPEG/ITU AVC/H.264 oder MPEG/ITU MPEG HEVC/H.265) komprimiert worden ist. Die unterschiedlichen Projektionsformate können auch zu unterschiedlichen Beträgen an Speicherbandbreitenverbrauch für das Viewport-Rendering führen. Die unten gezeigte Tabelle 1 stellt eine Auflistung von Kompressionseffizienzraten und Speicherbandbreitenraten für zehn 4-K-360-Grad-Video-Testsequenzen und ihre Unterschiede zwischen dem ERP- und dem EAP-Format bereit.
Der Unterschied der Kompressionseffizienzrate in Tabelle 1 wird mit dynamischen Viewport-Spitzen-Signal-Rauschverhältnissen berechnet, bei denen negative Werte eine bessere Kompressionseffizienz bei der Verwendung von EAP und positive Werte eine bessere Kompressionseffizienz bei der Verwendung von ERP bedeuten. Zur Berechnung von dynamischen Viewport-Spitzen-Signal-Rauschverhältnissen (PSNRs), wobei eine Gesamtanzahl von 300 gleichmäßig verteilten Betrachtungsrichtungen auf einer Kugel vorab abgetastet werden. Bei einigen Erscheinungsformen durchlaufen die abgetasteten Betrachtungsrichtungen eine Schleife für eine rekonstruierte Sequenz (nach Kompression und Dekompression), sodass je ein Einzelbild in der Sequenz einer Betrachtungsrichtung zugewiesen wird. Bei einigen Erscheinungsformen wird ein einzelner Viewport für das Einzelbild für die zugewiesene Betrachtungsrichtung mit einem Sichtfeldwinkel von 100 × 68 Grad und einer Rendering-Bildgröße von 1920 × 1080 gerendert. Bei einigen Erscheinungsformen wird das PSNR zwischen dem gerenderten Viewport und dem Anker-Viewport berechnet, der aus dem entsprechenden Einzelbild der ursprünglichen Sequenz unter Verwendung derselben Betrachtungsrichtung gerendert wird. Bei einigen Erscheinungsformen wird das durchschnittliche PSNR über die gesamte Sequenz berechnet, um das Viewport-PSNR zu erhalten.

Tabelle 1 zeigt Versuchsergebnisse zu der Kompressionseffizienz und zu dem Rendering-Speicherbandbreitenverbrauch bei EAP im Vergleich zu ERP unter Verwendung eines bekannten Videokompressionsstandards (zum Beispiel unter Verwendung von Version HM 16.14 der Referenz-Software HEVC Main-10 Profile). Bei den in Tabelle 1 gezeigten Speicherbandbreitenwerten handelt es sich um die EAP-Werte im Vergleich zu den Spitzen- bzw. Durchschnitts-Speicherbandbreitenwerten für ERP. Wie in Tabelle 1 gezeigt, beträgt die Spitzen-Speicherbandbreite von EAP etwa 65,1 % derjenigen von ERP, aber EAP verbraucht (über die 300 ausgewählten Betrachtungsrichtungen) im Vergleich zu ERP durchschnittlich etwa 22,4 % mehr Speicherbandbreite. Die Gesamtwerte für EAP stellen eine bessere Kompressionseffizienz bereit als ERP, indem die Linien der Abtastpunkte in vertikaler Richtung während des Projektionsprozesses, der eine Kugel auf eine 2D-Ebene abbildet, ungleichmäßig verteilt sind. Tabelle 1: Kompressionseffizienz von ERP im Vergleich zu EAP

	anchor(ERP)		All Intra Main-10			Random Access Main -10			Low-Delay B Main-10
	tested (EAP)		Viewport-PSNR			Viewport-PSNR			Viewport-PSNR			Speicherbandbreite
Sequenz	picW	picH	Y	U	V	Y	U	V	Y	U	V	Spitze	Durchschn.
Tain	4096	2048	-17,7 %	-4,2 %	-4,2 %	-14,2 %	1,3 %	0,3 %	-12,6 %	1,3 %	0,7 %	63,84 %	125,00 %
Skateboarding_trick	4096	2048	-12,3 %	-1,2 %	-0,8 %	-16,6 %	-3,3 %	-2,8 %	-14,8 %	-2,8 %	-3,7 %	63,84 %	125,00 %
Skateboarding_in_lot	4096	2048	-31,2 %	-11,1 %	-9,3 %	-36,1 %	-18,1 %	-18,0 %	-37,0 %	-20,4 %	-20,6 %	63,84 %	125,00 %
Chairlift	4096	2048	-19,8 %	-12,5 %	-11,6 %	-26,8 %	-19,2 %	-18,7 %	-24,2 %	-16,2 %	-13,2 %	63,84 %	125,00 %
KiteFlite	4096	2048	-22,9 %	-9,7 %	-10,4 %	-24,3 %	-8,8 %	-9,3 %	-24,0 %	-9,6 %	-10,5 %	63,84 %	125,00 %
Harbor	4096	2048	-26,2 %	.8,1 %	-9,3 %	-28,2 %	-3,9 %	-5,7 %	-23,3 %	0,7 %	0,3 %	63,84 %	125,00 %
PoleVault	3328	1664	-7,4 %	-5,3 %	-5,6 %	-13,7 %	-10,4 %	-12,3 %	-18,3 %	-16,0 %	-16,5 %	66,99 %	118,45 %
AerialCity	3328	1664	.7,1 %	-3,0 %	-2,6 %	-13,7 %	-6,9 %	-6,0 %	-19,3 %	-11,1 %	-9,1 %	66,99 %	118,45 %
DrivinglnCity	3328	1664	-13,4 %	2,0 %	3,0 %	-11,7 %	7,7 %	9,4 %	-8,6 %	11,6 %	13,5 %	66,99 %	118,45 %
DirvinglnCountry	3328	1664	-12,9 %	-3,2 %	-2,4 %	-26,9 %	-14,1 %	-14,5 %	-29,6 %	-15,9 %	-15,4 %	66,99 %	118,45 %
Overall			-17,1 %	-5,6 %	-5,3 %	-21,2 %	-7,6 %	-7,8 %	-21,2 %	-7,8 %	-7,4 %	65,1 %	122,4 %

6 veranschaulicht schematisch Beispiele für Referenzbildbereiche in dem ERP-Format (zum Beispiel 602) und in dem EAP-Format (zum Beispiel 612), die zum Rendern um einen Äquator gemäß einer oder mehreren Implementierungen der beanspruchten Technologie verwendet wurden. Die Referenzbildbereiche von 6 können erklären, warum EAP im Durchschnitt mehr Bandbreite verbraucht als ERP (siehe Tabelle 1). Das ERP-Bild 602 umfasst ERP-Daten für den gerenderten Viewport links oben in dem ERP-Bild (zum Beispiel 604) und den zum Rendern in der Mitte des Bildes verwendeten, entsprechenden Referenzbildbereich (zum Beispiel 606). Die Betrachtungsrichtung zum Rendern ist gleich der Vorderansicht auf den Äquator. Das EAP-Bild 612 umfasst EAP-Daten mit derselben Betrachtungsrichtung. Wie in 6 gezeigt, muss EAP zum Viewport-Rendering mit einer selben Größe (zum Beispiel 604 und 614) aufgrund der Tatsache, dass EAP bei demselben vertikalen Sichtfeldwinkel (zum Beispiel 68 Grad) eine höhere Auflösung der Neuabtastung der Zeilen in der Mitte einer Kugel (zum Beispiel 616) aufweist, mehr Referenzdaten abrufen. Da die Mehrheit von 300 ausgewählten Viewports in der Mitte der Kugel (zum Beispiel 616) abgetastet wird, ist die von dem Viewport-Rendering für ein 360-Grad-Video verbrauchte, durchschnittliche Speicherbandbreite in dem EAP-Format höher als die des ERP-Formats.
7 veranschaulicht schematisch Beispiele für Referenzbildbereiche in dem ERP-Format (zum Beispiel 702) und in dem EAP-Format (zum Beispiel 712), die zum Rendern um einen Südpol gemäß einer oder mehreren Implementierungen der beanspruchten Technologie verwendet wurden. Das in 7 gezeigte Beispiel erklärt, warum EAP weniger Spitzen-Bandbreite verbraucht als ERP (siehe Tabelle 1). In 7 umfasst das ERP-Bild 702 ERP-Daten mit dem gerenderten Viewport links oben in dem Bild (zum Beispiel 704) und den zum Rendern verwendeten, entsprechenden Referenzbildbereich unten in dem Bild (zum Beispiel 706). Die Betrachtungsrichtung zum Rendern liegt direkt gegenüber dem Südpol, was den schlechtesten Fall (oder die Spitze) des Speicherbandbreitenverbrauchs darstellt. Das EAP-Bild 712 umfasst EAP-Daten mit derselben Betrachtungsrichtung (zum Beispiel 714). Da EAP bei einem selben vertikalen Sichtfeldwinkel eine geringere Auflösung der Neuabtastung der Zeilen um den Nord- und um den Südpol (zum Beispiel 716) aufweist, ist die Spitzen-Speicherbandbreite bei EAP viel niedriger als die bei ERP.
Bei einigen Erscheinungsformen besteht ein Nachteil von ERP darin, dass der Spitzen-Speicherbandbreitenverbrauch im Vergleich zu EAP deutlich höher ist und der Speicherbandbreitenverbrauch zwischen dem Spitzenlastfall und dem durchschnittlichen Lastfall sehr unausgewogen ist. Wie in Tabelle 1 angemerkt, beträgt die durchschnittliche Speicherbandbreite bei ERP für einen über die 300 ausgewählten Betrachtungsrichtungen vorliegenden Fall etwa 45 % der Spitzen-Speicherbandbreite, während der gleiche Wert über die ausgewählten Betrachtungsrichtungen bei EAP etwa 85 % beträgt. Hinsichtlich des Speicherbandbreitenverbrauchs für das Rendering ist EAP aufgrund des geringeren Spitzen-Speicherbandbreitenverbrauchs gegenüber ERP vorteilhaft und weist einen deutlich besser ausgewogenen Speicherbandbreitenverbrauch zwischen dem Spitzenlastfall und dem durchschnittlichen Lastfall auf. Jedoch ist bei EAP zu vermuten, dass es um den Nord- und um den Südpol aufgrund der ultra-niedrigen Auflösung der Neuabtastung der Zeilen in diesem Bereichen Probleme mit der Viewport-Qualität gibt (siehe 508 in 5). Daher ist es wünschenswert, ein Projektionsformat zu entwerfen, das den Spitzen-Speicherbandbreitenverbrauch unter Beibehaltung der Kompressionseffizienz und der Viewport-Qualität in den Bereichen des Nord- und des Südpols senkt.
Um das oben erwähnte Entwurfsziel zu erfüllen, wird ein kombiniertes Projektionsformat (allgemein als „CEP“ bezeichnet) vorgeschlagen. CEP vereint die Merkmale von ERP und EAP in einem einzigen Projektionsformat. Das kombinierte Projektionsformat ist folgendermaßen definiert: ${\begin{matrix} x_{p} = \frac{ω cos (α φ)}{2 π} + 0,5 \\ y_{p} = - \frac{0.5 sin (β φ)}{sin \frac{β π}{2}} + 0,5 \end{matrix}$
wobei x_p ∈ [0,0: 1,0], y_p ∈ [0,0: 1,0], α ∈ [0,0: 1,0], β ∈ [0,0: 1,0] gilt. Die Paarung (x_p, y_p) stellt die Koordinate in dem normalisierten Projektionskoordinatensystem dar. Das kombinierte Projektionsformat umfasst die Steuerparameter (α, β), die zum Steuern der Auflösung der Neuabtastung in horizontaler bzw. vertikaler Richtung verwendet werden. Während der erste Steuerparameter α die Auflösung der Neuabtastung der Spalten im Hinblick auf die geografische Breite steuert, steuert der zweite Steuerparameter β die Auflösung der Neuabtastung der Zeilen im Hinblick auf die geografische Breite in den projizierten 360-Grad-Videobildern. Mit der Fähigkeit, die Auflösung der Neuabtastung in beiden Richtungen zu steuern, kann ein besserer Kompromiss zwischen der Viewport-Qualität und dem Speicherbandbreitenverbrauch erreicht werden.
Mit der CEP-Definition von Gleichung 6 werden ERP und EAP ein Sonderfall von CEP, und zwar:
$(α = 0, β = 0) \to E R P$
$(α = 0, β = 1) \to E A P$
Durch Anpassen der Steuerparameter (α, β) kann eine Vielzahl von CEP-Layouts erzeugt werden. 8 veranschaulicht schematisch Beispiele für kombinierte Projektionsformat-Layouts mit unterschiedlichen Alpha- und Beta-Einstellungen gemäß einer oder mehreren Implementierungen der beanspruchten Technologie. Es werden möglicherweise nicht alle abgebildeten Komponenten verwendet, jedoch können eine oder mehrere Implementierungen zusätzliche Komponenten umfassen, die in der Figur nicht gezeigt sind. Abweichungen bei der Anordnung und dem Typ der Komponenten sind möglich, ohne dass von dem Wesen oder Schutzumfang der in dem vorliegenden Dokument dargelegten Patentansprüche abgewichen wird. Zusätzliche Komponenten, andere Komponenten oder weniger Komponenten können vorgesehen werden.
Allgemein ausgedrückt senkt das Erhöhen von (α, β) die Auflösung der Neuabtastung der Spalten und Zeilen um den Nord- und den Südpolbereich beim Abbilden der Kugel auf eine 2D-Ebene und verringert somit den Spitzen-Speicherbandbreitenverbrauch und umgekehrt. Zum Beispiel weist ein erstes Bild 802 in dem kombinierten Projektionsformat die Werte α = 0 und β = 0 auf, was das ERP-Format darstellt. Bei einigen Erscheinungsformen weist ein zweites Bild 804 mit dem kombinierten Projektionsformat die Werte α = 0 und β = 1 auf, was das EAP-Format darstellt. Bei einigen Erscheinungsformen weist ein drittes Bild 806 mit dem kombinierten Projektionsformat die Werte α = 0 und β = 0,83 auf, was die Auflösung der Neuabtastung der Zeilen gegenüber der EAP-Einstellung um 0,17 ändert. Bei einigen Erscheinungsformen weist ein viertes Bild 808 mit dem kombinierten Projektionsformat die Werte α = 0,5 und β = 0,83 auf, was die Auflösung der Neuabtastung der Spalten um 0,5 ändert, während die Auflösung der Neuabtastung der Zeilen im Vergleich zu dem Bild 806 unverändert bleibt. Bei einigen Erscheinungsformen weist ein fünftes Bild 810 mit dem kombinierten Projektionsformat die Werte α = 0,625 und β = 0,83 auf, was die Auflösung der Neuabtastung der Spalten weiter um 0,15 ändert, während die Auflösung der Neuabtastung der Zeilen im Vergleich zu dem Bild 808 unverändert bleibt. Bei einigen Erscheinungsformen weist ein sechstes Bild 812 mit dem kombinierten Projektionsformat die Werte α = 1,0 und β = 0,83 auf, was die Auflösung der Neuabtastung der Spalten weiter um 0,375 ändert, während die Auflösung der Neuabtastung der Zeilen im Vergleich zu dem Bild 810 unverändert bleibt.
9 veranschaulicht schematisch Beispiele für einen Vergleich der Viewport-Qualität von Bildern um einen Südpol in dem kombinierten Projektionsformat mit unterschiedlichen Alpha- und Beta-Einstellungen gemäß einer oder mehreren Implementierungen der beanspruchten Technologie. Es werden möglicherweise nicht alle abgebildeten Komponenten verwendet, jedoch können eine oder mehrere Implementierungen zusätzliche Komponenten umfassen, die in der Figur nicht gezeigt sind. Abweichungen bei der Anordnung und dem Typ der Komponenten sind möglich, ohne dass von dem Wesen oder Schutzumfang der in dem vorliegenden Dokument dargelegten Patentansprüche abgewichen wird. Zusätzliche Komponenten, andere Komponenten oder weniger Komponenten können vorgesehen werden.
9 veranschaulicht, wie die Auflösung der Neuabtastung, und folglich die Viewport-Qualität, durch Anpassen der Steuerparameter (α, β) in dem CEP-Format gesteuert werden kann. Ausgehend von Bild 902 weist das CEP-Format mit auf die Werte α; = 0und β = 0 eingestellten Steuerparametern (das heißt ERP) die höchste Viewport-Qualität auf, da ERP die höchste Auflösung der Neuabtastung um den Pol hat. Durch Erhöhen des Werts für β von 0 auf 1 wird das CEP-Format zu dem EAP-Format mit α = 0 und β = 1. Mit diesen Steuerparametereinstellungen wird aufgrund der ultra-niedrigen Auflösung der Neuabtastung der Zeilen um den Pol von Bild 904 der mittlere Teil des Viewports verzerrt. Durch Verringern des Werts für β auf 0,83 zum Erhöhen der Auflösung der Neuabtastung der Zeilen um den Pol von Bild 906 wird die Viewport-Qualität in dem Bild besser, in dem die Steuerparameter auf α = 0 und β = 0,83 angepasst worden sind. Durch Erhöhen des Werts für α von 0 auf 0,5 (zum Beispiel 908) und dann auf 0,625 (zum Beispiel 910) zum Verringern der Auflösung der Neuabtastung der Spalten verringert sich die Viewport-Qualität allmählich, ist aber immer noch besser als die von EAP. Das Erhöhen des Werts für α auf 1 führt zu einem offenkundig verschwommenen Viewport in Bild 912, in dem die Steuerparameter auf α = 1,0 und β = 0,83 angepasst worden sind.
10 veranschaulicht ein Diagramm 1000, das einen Leistungsvergleich verschiedener CEP-Layouts gemäß einer oder mehreren Implementierungen der beanspruchten Technologie abbildet. 10 sieht ein zweidimensionales Diagramm vor, welches die Kompressionseffizienzrate bei einer Konfiguration mit wahlfreiem Zugriff mit einem bestimmten Videokompressionsstandard (zum Beispiel unter Verwendung von Version HM16.14 der Referenz-Software HEVC Main-10 Profile) und Verbrauchswerten für Speicherbandbreiten für verschiedene CEP-Layouts zusammenfasst, wobei die Effizienz- und Verbrauchswerte auf der y-Achse und die unterschiedlichen CEP-Layouts auf der x-Achse aufgetragen sind. Bei den in 10 gezeigten Ergebnissen handelt es sich um die durchschnittlichen Ergebnisse über die zehn in Tabelle 1 aufgeführten 4-K-Testsequenzen. Bei einigen Erscheinungsformen wird die Kompressionseffizienzrate im Vergleich zu ERP gemessen, wobei ein positiver Wert sich auf einen Verlust im Vergleich zu ERP bezieht und ein negativer Wert sich auf einen Zuwachs im Vergleich zu ERP bezieht. Bei einigen Erscheinungsformen wird die Speicherbandbreite im Verhältnis zu der Spitzen-Speicherbandbreite von ERP berechnet. Wie in 10 gezeigt, kann das CEP-Format durch Anpassen der Steuerparameter (α, β) einen Kompromiss zwischen der Kompressionseffizienz und dem Speicherbandbreitenverbrauch erzielen und im Vergleich zu ERP und EAP ein besseres Gleichgewicht zwischen Kompressionseffizienz, Viewport-Qualität, Spitzen- und Durchschnitts-Speicherbandbreitenverbrauch erreichen.
11 veranschaulicht eine beispielhafte Netzwerkumgebung 1100, in der die Erfassung und die Wiedergabe eines 360-Grad-Videos gemäß einer oder mehreren Implementierungen implementiert werden können. Es werden möglicherweise nicht alle abgebildeten Komponenten verwendet, jedoch können eine oder mehrere Implementierungen zusätzliche Komponenten umfassen, die in der Figur nicht gezeigt sind, wie beispielsweise eine oder mehrere Konvertierungsvorrichtungen für 360-Grad-Videoprojektionsformate. Abweichungen bei der Anordnung und dem Typ der Komponenten sind möglich, ohne dass von dem Wesen oder Schutzumfang der in dem vorliegenden Dokument dargelegten Patentansprüche abgewichen wird. Zusätzliche Komponenten, andere Komponenten oder weniger Komponenten können vorgesehen werden.
Die beispielhafte Netzwerkumgebung 1100 umfasst eine Erfassungsvorrichtung für 360-Grad-Videos 1102, eine Vorrichtung zum Zusammenfügen von 360-Grad-Videos 1104, eine Video-Codierungsvorrichtung 1106, eine Video-Decodierungsvorrichtung 1108 und eine Rendering-Vorrichtung für 360-Grad-Videos 1110. Bei einer oder mehreren Implementierungen können eine oder mehrere der Vorrichtungen 1102, 1104, 1106, 1108, 1110 in derselben physischen Vorrichtung kombiniert sein. Zum Beispiel können die Erfassungsvorrichtung für 360-Grad-Videos 1102, die Vorrichtung zum Zusammenfügen von 360-Grad-Videos 1104 und die Video-Codierungsvorrichtung 1106 in einer einzigen Vorrichtung kombiniert sein, und die Video-Decodierungsvorrichtung 1108 und die Rendering-Vorrichtung für 360-Grad-Videos 1110 können in einer einzigen Vorrichtung kombiniert sein.
Die Netzwerkumgebung 1100 kann außerdem eine Wiedergabevorrichtung für 360-Grad-Videos (nicht gezeigt) umfassen, die den Inhalt des gerenderten 360-Grad-Videos wiedergibt. Bei einer oder mehreren Implementierungen kann die Video-Codierungsvorrichtung 1106 über eine Übertragungsverbindung, wie beispielsweise ein Netzwerk, mit der Video-Decodierungsvorrichtung 1108 kommunikativ gekoppelt sein.
Bei einigen Implementierungen werden die Kamera-Rohdaten zusammengefügt (zum Beispiel 1104) und in dem CEP-Format gespeichert, dann komprimiert (zum Beispiel 1106), übertragen und dekomprimiert (zum Beispiel 1108). Bei dem beanspruchten System können zur Kompression einer 360-Grad-Videosequenz in dem CEP-Format beliebige geeignete Videokompressionstandards (zum Beispiel MPEG/ITU-T AVC/H.264, MPEG/ITU-T HEVC/H.265, VP9, usw.) verwendet werden. Bei einer oder mehreren Implementierungen kann ein 360-Grad-Videobild in Teilbilder aufgeteilt werden. Zum Beispiel kann eine mittels des Standards MPEG/ITU-T HEVC/H.265 für 360-Grad-Videoanwendungen definierte SEI-Nachricht einen komprimierten 360-Grad-Video-Bitstrom unter Verwendung von MCTS (Motion-Constrained Tile Sets) in unabhängig decodierbare, kachelartige Teilströme aufteilen, in denen die Bewegungskompensation nicht über die Kachelbegrenzungen hinausgeht.
Bei einigen Implementierungen kann die Vorrichtung zum Rendern von 360-Grad-Videos 1110 Viewports (zur Anzeige) möglicherweise direkt aus der decodierten 360-Grad-Videosequenz in dem CEP-Format rendern. Bei einigen Implementierungen unterstützt die Vorrichtung zum Rendern von 360-Grad-Videos 1110 das Viewport-Rendering aus dem CEP-Format möglicherweise nicht. Eine Vorrichtung zum Konvertieren eines 360-Grad-Video-Projektionsformats (nicht gezeigt) kann vor dem Rendering und der Anzeige zum Konvertieren des decodierten 360-Grad-Videos aus dem CEP-Format in eines der von der Rendering-Vorrichtung unterstützten Projektionsformate (zum Beispiel ERP) verwendet werden.
Bei einer oder mehreren Implementierungen können die CEP-Steuerparameter (α, β), zusammen mit anderen Parametern zur Videocodierung, in dem elementaren Video-Bitstrom mit beliebigen geeigneten Mitteln, wie beispielsweise einer Syntax auf hoher Ebene oder SEI-Nachrichten, signalisiert werden, oder sie können in der Systemschicht signalisiert werden. Die Steuerparameter (α, β) können feststehend sein, und sie können sich von Zeit zu Zeit auf der Grundlage von Videomerkmalen, der Übertragungsbandbreite, der Speicherbandbreite zum Rendern, usw. ändern.
12 veranschaulicht ein Schemadiagramm eines Beispiels für ein System zur Erfassung und Wiedergabe von 360-Grad-Videos 1200 mit adaptivem Projektionsformat. Es werden möglicherweise nicht alle abgebildeten Komponenten verwendet, jedoch können eine oder mehrere Implementierungen zusätzliche Komponenten umfassen, die in der Figur nicht gezeigt sind. Abweichungen bei der Anordnung und dem Typ der Komponenten sind möglich, ohne dass von dem Wesen oder Schutzumfang der in dem vorliegenden Dokument dargelegten Patentansprüche abgewichen wird. Zusätzliche Komponenten, andere Komponenten oder weniger Komponenten können vorgesehen werden.
Um die Kompressionseffizienz für 360-Grad-Videos zu maximieren, kann ein adaptives Verfahren, das 360-Grad-Video in gemischte Projektionsformate komprimieren kann, implementiert werden. Zum Beispiel kann das Projektionsformat für jedes erfasste 360-Grad-Videobild oder -Segment adaptiv ausgewählt werden. Bei dem CEP-Format mit anpassbaren Steuerparametern kann es sich um eines von mehreren Projektionsformat-Kandidaten handeln, die für ein solches System zur Verfügung stehen.
Die Netzwerkumgebung 1200 kann ferner eine Vorrichtung zur Projektionsformatentscheidung (zum Beispiel 1202) umfassen, die vor der Video-Zusammenfügung mittels der Vorrichtung zum Zusammenfügen von Videos (zum Beispiel 1104) eine Projektionsformatauswahl durchführen kann. Bei einigen Implementierungen kann die Vorrichtung zum Zusammenfügen von 360-Grad-Videos 1104 die Vorrichtung zur Projektionsformatentscheidung 1202 auf der Erfassungs-/Kompressionsseite des 360-Grad-Videos nutzen, um zu entscheiden, welches Projektionsformat (zum Beispiel ERP, EAP, CMP, CEP, usw.) für ein aktuelles Videosegment (das heißt eine Gruppe von Bildern) oder das aktuelle Bild am besten geeignet ist, um eine bestmögliche Kompressionseffizienz zu erreichen. Die Entscheidung kann auf Codierungsstatistiken basieren (wie beispielsweise der Verteilung der Bitübertragungsgeschwindigkeit, Intra-/Inter-Modi über das Segment oder über das Bild hinaus, Messungen der Videoqualität, usw.), die von der Video-Codierungsvorrichtung (zum Beispiel 1106) bereitgestellt werden, und/oder Rohdatenstatistiken (wie beispielsweise die Verteilung von räumlichen Aktivitäten in Bezug auf die Rohdaten, usw.), die anhand der Rohdaten einer 360-Grad-Videokamera von der Erfassungsvorrichtung für 360-Grad-Videos 1102 erhalten wurden. Sobald mittels der Vorrichtung zur Projektionsformatentscheidung (zum Beispiel 1202) das Projektionsformat (zum Beispiel CEP) für das aktuelle Segment oder Bild ausgewählt wurde, fügt die Vorrichtung zum Zusammenfügen von 360-Grad-Videos (zum Beispiel 1104) das Video zu dem ausgewählten Projektionsformat zusammen und stellt das zusammengefügte 360-Grad-Video dem Video-Codierer (zum Beispiel 1106) zur Kompression bereit. Bei dem beanspruchten System können zur Kompression einer 360-Grad-Videosequenz in dem ausgewählten Projektionsformat beliebige geeignete Videokompressionstandards (zum Beispiel MPEG/ITU-T AVC/H.264, MPEG/ITU-T HEVC/H.265, VP9, usw.) verwendet werden. Ein komprimierter 360-Grad-Video-Bitstrom kann zum Beispiel, unter Verwendung von MCTS, auch in unabhängig decodierbare, kachelartige Teilströme aufgeteilt werden.
Das ausgewählte Projektionsformat und damit verbundene Parameter für das Projektionsformat (wie beispielsweise Projektionsformat-ID, (α, β)-Werte für CEP, Anzahl der Seiten in dem Projektionslayout, Größe der Seiten, Offsets der Seitenkoordinaten, Drehwinkel der Seiten, usw.) werden über beliebige geeignete Mittel in dem komprimierten Bitstrom signalisiert, beispielsweise in einer SEI-Nachricht, in einem Sequenz-Header, in einem Bild-Header, usw. Abweichend von dem in 11 veranschaulichten System ist die Vorrichtung zum Zusammenfügen von 360-Grad-Videos (zum Beispiel 1104) in 12 in der Lage, das 360-Grad-Video zu mehreren, mittels der Vorrichtung zur Projektionsformatentscheidung (zum Beispiel 1202) ausgewählten Projektionsformaten zusammenfügen, anstatt das Video zu einem einzelnen, festen Projektionsformat (zum Beispiel ERP) zusammenzufügen.
Auf der Wiedergabeseite für 360-Grad-Videos empfängt die Vorrichtung zur Videocodierung (zum Beispiel 1108) den komprimierten 360-Grad-Video-Bitstrom und dekomprimiert den Videostrom. Abweichend von dem in 11 veranschaulichten System ist die Vorrichtung zum Rendern von 360-Grad-Videos (zum Beispiel 1110) in der Lage, 360-Grad-Videos in unterschiedlichen, in dem Bitstrom signalisierten Projektionsformaten, einschließlich CEP, zu rendern, anstatt das Video in einem einzelnen, festen Projektionsformat (zum Beispiel ERP) zu rendern. Also wird das Rendern des 360-Grad-Videos nicht nur durch die Betrachtungsrichtungs- und Sichtfeldwinkel gesteuert, sondern auch mittels der aus dem Bitstrom 1204 decodierten Informationen zum Projektionsformat.
13 veranschaulicht schematisch ein Beispiel für CEP-Layouts mit und ohne Schutzband gemäß einer oder mehreren Implementierungen der beanspruchten Technologie. Es werden möglicherweise nicht alle abgebildeten Komponenten verwendet, jedoch können eine oder mehrere Implementierungen zusätzliche Komponenten umfassen, die in der Figur nicht gezeigt sind. Abweichungen bei der Anordnung und dem Typ der Komponenten sind möglich, ohne dass von dem Wesen oder Schutzumfang der in dem vorliegenden Dokument dargelegten Patentansprüche abgewichen wird. Zusätzliche Komponenten, andere Komponenten oder weniger Komponenten können vorgesehen werden.
Bei CEP-Layouts mit verringerter Auflösung der Neuabtastung von Spalten (das heißt α > 0) gibt es einen inaktiven Referenz-Abtastbereich in dem 360-Grad-Videobild. Zum Beispiel gibt es in 13, in der ein CEP-Bild 1302 mittels der Parametereinstellung (α = 0,5, β = 0,83) erzeugt wird, um die vier Bildecken Abtastpunkte, die keine aktiven Referenzabtastungen für das Rendering enthalten. Da bei dem Viewport-Rendering eine bilineare Filterung oder andere Filter mit längeren Filter-Taps verwendet werden, kann mittels Viewport-Rendering auf die inaktiven Eckenbereiche zugegriffen werden, wenn die Betrachtungsrichtungen auf diese Bereiche zeigen. Dadurch können in den gerenderten Viewports Artefakte entstehen, da ein gerenderter Abtastpunkt in diesen Bereichen als gewichteter Durchschnitt aktiver und inaktiver Referenzabtastungen vorliegen kann. Um dieses Symptom zu vermeiden, kann in das 360-Grad-Videobild ein Schutzband eingefügt werden, sodass während des Renderns durch das Viewport-Rendering nicht erkannt zu werden braucht, ob es sich bei der Referenzabtastung um einen aktiven oder inaktiven Abtastpunkt handelt. Ein Beispiel für ein 360-Grad-Videobild in dem CEP-Format mit eingefügtem Schutzband ist in dem CEP-Bild 1304 gezeigt. Bei einigen Erscheinungsformen umfasst ein CEP-Bild 1306 ein eingefügtes Schutzband, das annähernd 2 % aufgefüllte Abtastpunkte aufweist. Um weiter in Betracht zu ziehen, dass die Videocodierung normalerweise blockbasiert ist und die bessere Kompressionseffizienz gewünscht ist, kann das Schutzband zum Beispiel als blockbasiertes 8 × 8-Schutzband definiert werden. Bei einigen Erscheinungsformen können zum Erzeugen des Schutzbandes beliebige geeignete Mittel verwendet werden. Bei einigen Implementierungen kann das Schutzband auf beliebige andere Projektionsformate angewendet werden, die in 360-Grad-Videobildern Bereiche mit inaktiven Referenzabtastungen enthalten. Ein Schutzband kann auch zum Verbessern der Kompressionseffizienz von 360-Grad-Videos und zum Verringern der Saum-Artefakte um unterbrochene Seitenbegrenzungen herum nützlich sein.
14 veranschaulicht schematisch ein elektronisches System 1400, mit dem eine oder mehrere Implementierungen der beanspruchten Technologie implementiert werden können. Zum Beispiel kann es sich bei dem elektronischen System 1400 um eine Netzwerkvorrichtung, einen Medienkonverter, einen Desktop-Computer, einen Laptop-Computer, einen Tablet-Computer, einen Server, einen Switch, einen Router, eine Basisstation, einen Empfänger, ein Telefon oder allgemein um jede beliebige elektronische Vorrichtung handeln, die Signale über ein Netzwerk überträgt. Ein solches elektronisches System 1400 weist verschiedene Arten von computerlesbaren Medien und Schnittstellen zu verschiedenen anderen Arten von computerlesbaren Medien auf. Bei einer oder mehreren Implementierungen kann es sich bei dem elektronischen System 1400 um eine der Vorrichtungen 102, 104, 106, 108, 110, die Vorrichtung zur Konvertierung des Layoutformats für 360-Grad-Videos und/oder die Wiedergabevorrichtung für 360-Grad-Videos handeln oder es kann diese umfassen. Das elektronische System 1400 weist einen Bus 1408, eine oder mehrere Verarbeitungseinheit(en) 1412, einen Systemspeicher 1404, einen Nur-Lesespeicher (ROM) 1410, eine Permanentspeichervorrichtung 1402, eine Schnittstelle für Eingabevorrichtungen 1414, eine Schnittstelle für Ausgabevorrichtungen 1406 und eine Netzwerkschnittstelle 1416 oder Teilmengen und Variationen davon auf.
Der Bus 1408 verkörpert zusammenfassend alle Systembusse, Peripheriebusse und Chipsatzbusse, welche die zahlreichen internen Vorrichtungen des elektronischen Systems 1400 kommunikativ verbinden. Bei einer oder mehreren Implementierungen verbindet der Bus 1408 kommunikativ die eine oder die mehreren Verarbeitungseinheit(en) 1412 mit dem ROM 1410, dem Systemspeicher 1404 und der Permanentspeichervorrichtung 1402. Von diesen verschiedenen Speichereinheiten rufen die eine oder die mehreren Verarbeitungseinheit(en) 1412 auszuführende Anweisungen und zu verarbeitende Daten ab, um die Prozesse der beanspruchten Offenbarung auszuführen. Bei der einen oder den mehreren Verarbeitungseinheit(en) 1412 kann es sich bei unterschiedlichen Implementierungen um einen einzelnen Prozessor oder um einen Mehrkernprozessor handeln.
In dem ROM 1410 sind statische Daten und Anweisungen gespeichert, die von der einen oder den mehreren Verarbeitungseinheit(en) 1412 und anderen Modulen des elektronischen Systems benötigt werden. Bei der Permanentspeichervorrichtung 1402 hingegen handelt es sich um eine Lese- und Schreib-Speichervorrichtung. Bei der Permanentspeichervorrichtung 1402 handelt es sich um eine nichtflüchtige Speichereinheit, in der Anweisungen und Daten selbst dann gespeichert sind, selbst wenn das elektronische System 1400 ausgeschaltet ist. Bei einer oder mehreren Implementierungen der beanspruchten Offenbarung kann eine Massenspeichervorrichtung (wie beispielsweise eine Magnetplatte oder eine optische Platte und das entsprechende Plattenlaufwerk) als Permanentspeichervorrichtung 1402 verwendet werden.
Bei anderen Implementierungen wird eine Wechselspeichervorrichtung (wie beispielsweise eine Diskette, ein Flash-Laufwerk und das entsprechende Plattenlaufwerk) als Permanentspeichervorrichtung 1402 verwendet. Wie bei der Permanentspeichervorrichtung 1402 handelt es sich bei dem Systemspeicher 1404 um eine Lese- und Schreib-Speichervorrichtung. Im Gegensatz zu der Permanentspeichervorrichtung 1402 handelt es sich bei dem Systemspeicher 1404 jedoch um einen flüchtigen Lese- und Schreibspeicher, wie beispielsweise einen Speicher mit wahlfreiem Zugriff. In dem Systemspeicher 1404 werden beliebige der Anweisungen und Daten gespeichert, welche die eine oder die mehreren Verarbeitungseinheiten(en) 1412 zu der Laufzeit benötigen. Bei einer oder mehreren Implementierungen sind die Prozesse der beanspruchten Offenbarung in dem Systemspeicher 1404, in der Permanentspeichervorrichtung 1402 und/oder in dem ROM 1410 gespeichert. Aus diesen verschiedenen Speichereinheiten rufen die eine oder die mehreren Verarbeitungseinheit(en) 1412 auszuführende Anweisungen und zu verarbeitende Daten ab, um die Prozesse einer oder mehrerer Implementierungen auszuführen.
Der Bus 1408 stellt außerdem eine Verbindung zu der Schnittstelle für Eingabevorrichtungen 1414 und zu der Schnittstelle für Ausgabevorrichtungen 1406 her. Die Schnittstelle für Eingabevorrichtungen 1414 ermöglicht es einem Anwender, Informationen zu übermitteln und Befehle an das elektronische System auszuwählen. Eingabevorrichtungen, die mit der Schnittstelle für Eingabevorrichtungen 1414 verwendet werden, umfassen zum Beispiel alphanumerische Tastaturen und Zeigevorrichtungen (diese werden auch als „Cursor-Steuerungsvorrichtungen“ bezeichnet). Die Schnittstelle für Ausgabevorrichtungen 1406 ermöglicht zum Beispiel die Anzeige von Bildern, die mittels des elektronischen Systems 1400 generiert wurden. Ausgabevorrichtungen, die mit der Schnittstelle für Ausgabevorrichtungen 1406 verwendet werden, umfassen zum Beispiel Drucker und Anzeigevorrichtungen, wie beispielsweise eine LCD-Anzeigeeinheit (Liquid Crystal Display, Flüssigkristallanzeige), eine LED-Anzeigeeinheit (Light Emitting Diode, Leuchtdiode), eine OLED-Anzeigeeinheit (Organic Light Emitting Diode, organische Leuchtdiode), ein flexibles Display, einen Flachbildschirm, ein Festkörperdisplay, einen Projektor oder jede beliebige sonstige Vorrichtung zur Ausgabe von Informationen. Eine oder mehrere Implementierungen können Vorrichtungen umfassen, die sowohl als Eingabe- als auch als Ausgabevorrichtung funktionieren, wie beispielsweise einen Touchscreen. Bei diesen Implementierungen kann es sich bei den dem Anwender bereitgestellten Rückmeldungen um jede beliebige Form von sensorischer Rückmeldung handeln, wie beispielsweise visuelle Rückmeldungen, akustische Rückmeldungen oder taktile Rückmeldungen; und Eingaben von dem Anwender können in jeder beliebigen Form empfangen werden, einschließlich akustischer Eingaben, Spracheingaben oder taktiler Eingaben.
Schließlich koppelt, wie in 14 gezeigt, der Bus 1408 außerdem das elektronische System 1400 über eine oder mehrere Netzwerkschnittstellen 1416 mit einem oder mehreren Netzwerken (nicht gezeigt). Auf diese Weise kann der Computer Bestandteil eines oder mehrerer Netzwerke von Computern (wie beispielsweise eines lokalen Netzwerks („LAN“, Local Area Network), eines Weitverkehrsnetzwerks („WAN“, Wide Area Network) oder eines Intranet oder eines aus Netzwerken bestehenden Netzwerks, wie beispielsweise dem Internet, sein. Beliebige oder alle Komponenten des elektronischen Systems 1400 können in Verbindung mit der beanspruchten Offenbarung verwendet werden.
Implementierungen innerhalb des Schutzumfangs der vorliegenden Offenbarung können teilweise oder vollständig unter Verwendung eines materiellen, computerlesbaren Speichermediums (oder mehrerer materieller, computerlesbarer Speichermedien eines oder mehrerer Typen) ausgeführt werden, welches (bzw. welche) eine oder mehrere Anweisungen codiert (bzw. codieren). Das materielle, computerlesbare Speichermedium kann außerdem von seiner Art her persistent sein.
Bei dem computerlesbaren Speichermedium kann es sich um jedes beliebige Speichermedium handeln, das gelesen und beschrieben werden kann oder auf das auf andere Weise mittels einer für einen allgemeinen Zweck oder einen speziellen Zweck vorgesehenen Computervorrichtung zugegriffen werden kann, einschließlich beliebiger Verarbeitungselektronik und/oder Verarbeitungsschaltungsanordnungen, die in der Lage sind, Anweisungen auszuführen. Zum Beispiel kann das computerlesbare Medium jeden beliebigen flüchtigen Halbleiterspeicher, wie beispielsweise RAM, DRAM, SRAM, T-RAM, Z-RAM und TTRAM, ohne Beschränkung auf diese, umfassen. Das computerlesbare Medium kann außerdem jeden beliebigen nichtflüchtigen Halbleiterspeicher umfassen, wie beispielsweise ROM, PROM, EPROM, EEPROM, NVRAM, Flash-Speicher, nvSRAM, FeRAM, FeTRAM, MRAM, PRAM, CBRAM, SONOS, RRAM, NRAM, Racetrack-Speicher, FJG- und Millipede-Speicher.
Ferner kann das computerlesbare Speichermedium jeden beliebigen Nicht-HalbleiterSpeicher umfassen, wie beispielsweise einen optischen Festplattenspeicher, einen Magnetplattenspeicher, ein Magnetband, andere Magnetspeichervorrichtungen oder jedes beliebige andere Medium, das eine oder mehrere Anweisungen speichern kann. Bei einigen Implementierungen kann das materielle, computerlesbare Speichermedium direkt mit einer Computervorrichtung gekoppelt sein, während bei anderen Implementierungen das materielle, computerlesbare Speichermedium indirekt mit einer Computervorrichtung gekoppelt sein kann, zum Beispiel über eine oder mehrere drahtgebundene Verbindungen, eine oder mehrere drahtlose Verbindungen oder eine beliebige Kombination aus diesen.
Anweisungen können direkt ausführbar sein oder können dazu verwendet werden, ausführbare Anweisungen zu entwickeln. Zum Beispiel können Anweisungen als ausführbarer oder nicht ausführbarer Maschinencode oder als Anweisungen in einer höheren Sprache ausgeführt sein, die kompiliert werden können, um ausführbaren oder nicht ausführbaren Maschinencode zu erzeugen. Ferner können Anweisungen auch als Daten ausgeführt sein oder Daten umfassen. Mittels eines Computers ausführbare Anweisungen können außerdem in einem beliebigen Format organisiert sein, einschließlich Routinen, Subroutinen, Programme, Datenstrukturen, Objekte, Module, Anwendungen, Applets, Funktionen, usw. Wie die Fachleute auf diesem Gebiet erkennen, können Einzelheiten, einschließlich der Anzahl, Struktur, Reihenfolge und Organisation von Anweisungen, aber nicht darauf beschränkt, deutlich variieren, ohne dass die zu Grunde liegende Logik, Funktion, Verarbeitung und Ausgabe variiert wird.
Während die obige Erörterung hauptsächlich Mikroprozessoren oder Mehrkernprozessoren betrifft, die Software ausführen, werden eine oder mehrere Implementierungen mittels einer oder mehrerer integrierter Schaltungen ausgeführt, wie beispielsweise ASICs (Application Specific Integrated Circuit, anwendungsspezifische integrierte Schaltung) oder FPGAs (Field Programmable Gate Array, feldprogrammierbare Gatteranordnung). Bei einer oder mehreren Implementierungen führen solche integrierten Schaltungen Anweisungen aus, die in der Schaltung selbst gespeichert sind.
Die Fachleute auf diesem Gebiet würden erkennen, dass die verschiedenen, in dem vorliegenden Dokument beschriebenen, der Veranschaulichung dienenden Blöcke, Module, Elemente, Komponenten, Verfahren und Algorithmen als elektronische Hardware, Computersoftware oder eine Kombination aus beiden implementiert sein können. Um diese Austauschbarkeit von Hardware und Software zu veranschaulichen, wurden oben verschiedene der Veranschaulichung dienende Blöcke, Module, Elemente, Komponenten, Verfahren und Algorithmen allgemein im Hinblick auf ihre Funktionalität beschrieben. Ob eine solche Funktionalität als Hardware oder als Software implementiert ist, hängt von der jeweiligen Anwendung und den Konstruktionsrandbedingungen ab, denen das Gesamtsystem unterliegt. Fachleute auf diesem Gebiet können die beschriebene Funktionalität auf unterschiedliche Weise für jede spezielle Anwendung implementieren. Verschiedene Komponenten und Blöcke können auf andere Weise angeordnet sein (zum Beispiel in einer anderen Reihenfolge angeordnet oder auf andere Weise aufgeteilt), ohne dass durch all dies von dem Schutzumfang der beanspruchten Technologie abgewichen wird.
Es versteht sich, dass jede beliebige spezifische Reihenfolge oder Hierarchie von Blöcken in den offenbarten Prozessen eine Veranschaulichung von beispielhaften Ansätzen ist. Es versteht sich, dass die spezifische Reihenfolge oder Hierarchie von Blöcken in den Prozessen auf der Grundlage von Konstruktionsvorlieben umgeordnet werden kann oder dass alle veranschaulichten Blöcke ausgeführt werden können. Beliebige der Blöcke können gleichzeitig ausgeführt werden. Bei einer oder mehreren Implementierungen können Multitasking und Parallelverarbeitung vorteilhaft sein. Des Weiteren sollte die Trennung verschiedener Systemkomponenten bei den oben beschriebenen Ausführungsbeispielen nicht so verstanden werden, als dass eine solche Trennung bei allen Ausführungsbeispielen erforderlich ist, und es sollte sich verstehen, dass die beschriebenen Programmkomponenten und Systeme allgemein zusammen in einem einzelnen Softwareprodukt integriert oder in mehrere Softwareprodukte gepackt werden können.
Wie in dieser Patentschrift und in beliebigen Ansprüchen dieser Patentanmeldung verwendet, beziehen sich die Begriffe „Basisstation“, „Empfänger“, „Computer“, „Server“, „Prozessor“ und „Speicher“ alle auf elektronische oder andere technologische Vorrichtungen. Durch diese Begriffe werden keine Menschen oder Gruppen von Menschen bezeichnet. Für die Zwecke der Patentschrift bedeuten die Begriffe „Anzeige“ bzw. „anzeigen“ das Anzeigen auf einer elektronischen Vorrichtung.
Bei einer oder mehreren Implementierungen kann die Aussage, dass ein Prozessor so konfiguriert ist, dass er eine Operation oder eine Komponente überwacht und steuert, auch bedeuten, dass der Prozessor so programmiert ist, dass er die Operation überwacht und steuert, oder dass der Prozessor dahingehend betriebsfähig ist, dass er die Operation überwacht und steuert. Analog kann die Aussage, dass ein Prozessor so konfiguriert ist, dass er Code ausführt, so ausgelegt werden, dass ein Prozessor so programmiert ist, dass er Code ausführt, oder dass er dahingehend betriebsfähig ist, dass er Code ausführt.

Claims

Verfahren zum Kombinieren von Projektionsformaten, wobei das Verfahren Folgendes umfasst: Anpassen des Werts von wenigstens einem von einer Vielzahl von Steuerparametern für ein kombiniertes Projektionsformat auf der Grundlage eines Vergleichs einer Kompressionseffizienz eines kombinierten Projektionsformats mit einem Speicherbandbreitenverbrauch des kombinierten Projektionsformats; Kombinieren von wenigstens zwei unterschiedlichen Projektionsformaten zu einem kombinierten Projektionsformat unter Verwendung der Vielzahl von Steuerparametern, wobei ein erster von der Vielzahl von Steuerparametern zur Steuerung der Auflösung der Neuabtastung in einer ersten Richtungen verwendet wird und ein zweiter von der Vielzahl von Steuerparametern zur Steuerung der Auflösung der Neuabtastung in einer zweiten Richtungen verwendet wird; und Codieren eines Videostroms mit dem kombinierten Projektionsformat.
Verfahren nach Anspruch 1, wobei das Kombinieren der wenigstens zwei unterschiedlichen Projektionsformate Folgendes umfasst: Zusammenführen von Merkmalen eines ersten Projektionsformats und Merkmalen eines zweiten Projektionsformats unter Verwendung der Vielzahl von Steuerparametern, wobei jeder von der Vielzahl von Steuerparametern einen Wert in einem Bereich von 0 bis 1 aufweist.
Verfahren nach Anspruch 1 oder 2, das ferner Folgendes umfasst: Erzeugen einer Vielzahl von verschiedenen Layouts mit dem kombinierten Projektionsformat unter Verwendung des angepassten Werts von wenigstens einem von der Vielzahl von Steuerparametern.
Verfahren nach einem der vorangehenden Ansprüche, wobei der Wert von wenigstens einem von der Vielzahl von Steuerparametern unter Verwendung vordefinierter Funktionen oder vordefinierter, gemäß der geografischen Breite ausgesuchter Nachschlagetabellen angepasst wird.
Verfahren nach einem der vorangehenden Ansprüche, das ferner Folgendes umfasst: Anpassen einer Kompressionseffizienz des kombinierten Projektionsformats unter Verwendung des angepassten Werts des wenigstens einen von der Vielzahl von Steuerparametern.
Verfahren nach einem der vorangehenden Ansprüche, das ferner Folgendes umfasst: Anpassen eines Speicherbandbreitenverbrauchs des kombinierten Projektionsformats unter Verwendung des angepassten Werts des wenigstens einen von der Vielzahl von Steuerparametern.
Verfahren nach einem der vorangehenden Ansprüche, wobei der erste Steuerparameter die Auflösung der Neuabtastung der Spalten im Hinblick auf die geografische Breite steuert, und der zweite Steuerparameter die Auflösung der Neuabtastung der Zeilen im Hinblick auf die geografische Breite steuert.
Verfahren nach einem der vorangehenden Ansprüche, das ferner Folgendes umfasst: Anpassen des Werts des ersten Steuerparameters; Ändern der Auflösung der Neuabtastung der Spalten eines Bildes auf der Grundlage des angepassten Werts des ersten Steuerparameters; und Ändern der Viewport-Qualität des Bildes mit der geänderten Auflösung der Neuabtastung der Spalten, während der Wert des zweiten Steuerparameters unverändert bleibt.
Verfahren nach einem der Ansprüche 1 bis 7, wobei das Anpassen des Werts wenigstens eines von der Vielzahl von Steuerparametern Folgendes umfasst: Anpassen des Werts des zweiten Steuerparameters; Ändern der Auflösung der Neuabtastung der Zeilen um einen Pol eines Bildes auf der Grundlage des angepassten Werts des zweiten Steuerparameters; und Ändern einer Viewport-Qualität des Bildes mit der geänderten Auflösung der Neuabtastung der Zeilen, während der Wert des ersten Steuerparameters unverändert bleibt.
System, das Folgendes umfasst: eine Video-Erfassungsvorrichtung, die so konfiguriert ist, dass sie ein 360-Grad-Video erfassen kann; eine Vorrichtung zum Zusammenfügen, die so konfiguriert ist, dass sie das erfasste 360-Grad-Video unter Verwendung einer Projektionsformatentscheidung zu einem kombinierten Projektionsformat zusammenfügt, wobei der Wert von wenigstens einem von einer Vielzahl von Steuerparametern für das kombinierte Projektionsformat auf der Grundlage eines Vergleichs einer Kompressionseffizienz des kombinierten Projektionsformats mit einem Speicherbandbreitenverbrauch des kombinierten Projektionsformats angepasst wird, wobei ein erster von der Vielzahl von Steuerparametern zur Steuerung der Auflösung der Neuabtastung in einer ersten Richtungen verwendet wird und ein zweiter von der Vielzahl von Steuerparametern zur Steuerung der Auflösung der Neuabtastung in einer zweiten Richtungen verwendet wird; und eine Codierungsvorrichtung, die für Folgendes konfiguriert ist: Codieren des zusammengefügten 360-Grad-Videos in einen 360-Grad-Video-Bitstrom, wobei der 360-Grad-Video-Bitstrom eine Signalisierung umfasst, welche das kombinierte Projektionsformat angibt; und Vorbereiten des 360-Grad-Video-Bitstroms zur Übertragung an eine Rendering-Vorrichtung.