DE112017003100T5

DE112017003100T5 - Verfahren und Vorrichtung einer flächenunabhängigen Codierungs-Struktur für VR-Video

Info

Publication number: DE112017003100T5
Application number: DE112017003100.1T
Authority: DE
Inventors: Jian-Liang Lin; Chao-Chih Huang; Hung-Chih Lin; Chia-Ying Li; Shen-Kai Chang
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2016-06-23
Filing date: 2017-06-23
Publication date: 2019-04-11
Also published as: TWI655862B; RU2715800C1; GB2566186A; CN109076232B; WO2017220012A1; CN109076232A; TW201813392A; GB2566186B; GB201819117D0; US20170374364A1

Abstract

Ein Verfahren und eine Vorrichtung einer Video-Codierung oder -Decodierung für ein Video-Codierungs- oder -Decodierungs-System, das bei Mehrflächensequenzen eingesetzt wird, die zu einer 360-Grad-Virtual-Reality-Sequenz korrespondieren, werden offenbart. Gemäß Ausführungsformen der vorliegenden Erfindung wird mindestens eine Flächensequenz der Mehrflächensequenzen unter Verwendung einer flächenunabhängigen Codierung codiert oder decodiert, wobei die flächenunabhängige Codierung eine Zielflächensequenz unter Verwendung von Prädiktionsreferenzdaten, die nur von vorher codierten Daten der Zielflächensequenz abgeleitet werden, codiert oder decodiert. Weiter können ein oder mehrere Syntaxelemente auf einer Codierer-Seite in einem Video-Bitstrom signalisiert oder auf einer Decodierer-Seite von dem Video-Bitstrom analysiert werden, wobei die Syntaxelemente erste Informationen, die zu einer Gesamtzahl von Flächen in den Mehrflächensequenzen gehören, zweite Informationen, die zu einem Flächenindex für jede flächenunabhängig codierte Flächensequenz gehören, oder sowohl die ersten Informationen als auch die zweiten Informationen anzeigen.

Description

Querverweis auf ähnliche Anmeldungen
Die vorliegende Erfindung beansprucht Priorität der vorläufigen US-Patentanmeldung Nr. 62/353,584 , eingereicht am 23. Juni 2016. Die vorläufige US-Patentanmeldung ist hiermit durch Bezugnahme in ihrer Gesamtheit eingeschlossen.
Technisches Gebiet
Die vorliegende Erfindung bezieht sich auf eine Bild- und Video-Codierung. Insbesondere bezieht sich die vorliegende Erfindung auf ein Codieren von Flächensequenzen, wobei die Flächen zu Würfelflächen oder anderen mehreren Flächen als eine Repräsentation eines 360-Grad-Virtual-Reality-Videos korrespondieren.
Hintergrund
Das 360-Grad-Video, auch bekannt als eindringendes Video, ist eine neu entstehende Technologie, welche ein „Gefühl als ein Erlebnis einer Gegenwart“ bieten kann. Das Gefühl eines Eintauchens wird durch Umgeben eines Benutzers mit einer Rundum-Szene erzielt, die eine Panoramaansicht, insbesondere ein 360-Grad-Bildfeld, abdeckt. Das „Gefühl als ein Erlebnis einer Gegenwart“ kann weiter durch eine stereographische Wiedergabe verbessert werden. Entsprechend wird das Panoramavideo weitverbreitet in Virtual-Reality- (VR-) Anwendungen verwendet.
Eindringendes Video beinhaltet das Aufnehmen einer Szene unter Verwendung mehrerer Kameras, um eine Panoramaansicht wie ein 360-Grad-Bildfeld abzudecken. Die eindringende Kamera verwendet gewöhnlich einen Satz von Kameras, der eingerichtet ist, ein 360-Grad-Bildfeld aufzunehmen. Typischerweise werden zwei oder mehrere Kameras für die eindringende Kamera verwendet. Alle Videodaten müssen simultan aufgenommen werden und getrennte Fragmente (auch separate Perspektiven genannt) der Szene werden aufgenommen. Weiter ist der Satz von Kameras oft eingerichtet, Ansichten horizontal aufzunehmen, obwohl andere Anordnungen der Kameras möglich sind.
Die 360-Grad-Panoramakamera nimmt Szenen ringsumher auf, und das zusammengesetzte sphärische Bild ist eine Art, das VR-Video darzustellen, welches in der horizontalen Richtung kontinuierlich ist. Mit anderen Worten setzen sich die Inhalte des sphärischen Bildes an dem linken Ende zu dem rechten Ende fort. Das sphärische Bild kann als ein alternatives 360-Grad-Format auch auf die sechs Flächen eines Würfels projiziert werden. Die Konvertierung kann durch eine Projektionskonvertierung ausgeführt werden, um die Sechsflächen-Bilder abzuleiten, die die sechs Flächen eines Würfels repräsentieren. Auf den Flächen des Würfels sind diese sechs Bilder an den Kanten des Würfels verbunden. In 1 korrespondiert Bild 100 zu einem entfalteten Würfelbild mit leeren Flächen, die mit Pseudodaten gefüllt sind. Der entfaltete Würfelrahmen, welcher auch als ein Würfelnetz bezeichnet wird, mit leeren Flächen. Wie in 1 gezeigt, sind die entfalteten Würfelflächenbilder mit leeren Flächen in ein kleinstes Rechteck eingepasst, welches die sechs entfalteten Würfelflächenbilder bedeckt.
Diese sechs Würfelflächen sind auf eine bestimmte Weise verbunden, wie in 1 gezeigt, da diese sechs Würfelflächen zu sechs Bildern auf den sechs Oberflächen eines Würfels korrespondieren. Entsprechend ist jede Kante auf dem Würfel durch zwei Würfelflächen gemeinsam genutzt. Mit anderen Worten sind jede vier Flächen in den x-, y- und z-Richtungen in einer jeweiligen Richtung kontinuierlich umlaufend. Die umlaufenden Kanten für den zusammengesetzten Würfelflächenrahmen mit leeren Flächen (d. h. das Bild 100 in 1) sind durch das Bild 200 in 2 dargestellt. Die Würfelkanten, die zu den Würfelflächengrenzen gehören, sind gekennzeichnet. Die Würfelflächengrenzen mit der gleichen Kantennummer zeigen an, dass die zwei Würfelflächengrenzen verbunden sind und die gleiche Würfelkante teilen. Zum Beispiel liegt die Kante #2 an der oberen Seite der Fläche 1 und an der rechten Seite der Fläche 5. Deshalb ist die obere Seite der Fläche 1 mit der rechten Seite der Fläche 5 verbunden. Entsprechend fließen die Inhalte an der oberen Seite der Fläche 1 kontinuierlich in die rechte Seite der Fläche 5, wenn die Fläche 1 um 90 Grad gegen den Uhrzeigersinn rotiert wird.
In der vorliegenden Erfindung werden Techniken zum Codieren und Signalisieren von mehreren Flächensequenzen offenbart.
Zusammenfassung
Ein Verfahren und eine Vorrichtung zur Video-Codierung oder -Decodierung für ein Video-Codierungs- oder -Decodierungssystem, das für Mehrflächensequenzen angewendet wird, die zu einer 360-Grad-Virtual-Reality-Sequenz korrespondieren, werden offenbart. Gemäß Ausführungsformen der vorliegenden Erfindung wird mindestens eine Flächensequenz der Mehrflächensequenzen unter Verwendung einer flächenunabhängigen Codierung codiert oder decodiert, wobei die flächenunabhängige Codierung eine Zielflächensequenz unter Verwendung von Vorausberechnungsreferenzdaten codiert oder decodiert, die nur von vorherigen codierten Daten der Zielflächensequenz abgeleitet werden. Weiter können ein oder mehrere Syntaxelemente auf einer Codierer-Seite in einem Video-Bitstrom codiert werden oder auf einer Decodierer-Seite von dem Video-Bitstrom analysiert werden, wobei die Syntaxelemente erste Informationen, die zu einer Gesamtzahl von Flächen in den Mehrflächensequenzen gehören, zweite Informationen, die zu einem Flächenindex für jede flächenunabhängig codierte Flächensequenz gehören, oder sowohl die ersten Informationen als auch die zweiten Informationen anzeigen. Die Syntaxelemente können in einer Sequenzebene, einer Videoebene, einer Flächenebene, einem VPS (Videoparametersatz), einem SPS (Sequenzparametersatz) oder einem APS (Applikationsparametersatz) des Video-Bitstroms angeordnet sein.
In einer Ausführungsform werden alle der Mehrflächensequenzen unter Verwendung der flächenunabhängigen Codierung codiert. Ein visueller Referenzrahmen, der alle Flächen der Mehrflächensequenzen bei einem gegebenen Zeitindex aufweist, kann für eine Inter-Prädiktion, eine Intra-Prädiktion oder beide durch eine oder mehrere Flächensequenzen verwendet werden. In einer anderen Ausführungsform können ein oder mehrere Intra-Flächensätze als Zufallszugriffspunkte (RAPs) codiert werden, wobei jeder Intra-Flächensatz aus allen Flächen mit einem gleichen Zeitindex besteht und jeder Zufallszugriffspunkt unter Verwendung einer Intra-Prädiktion oder unter Verwendung einer Inter-Prädiktion nur basierend auf einem oder mehreren spezifischen Bildern besteht. Wenn ein bestimmtes Zielbild für die Inter-Prädiktion verwendet wird, werden alle Flächen in dem bestimmten Zielbild decodiert, bevor das bestimmte Zielbild für die Inter-Prädiktion verwendet wird. Für eine Zielfläche mit einem Zeitindex unmittelbar nach einem Zufallszugriffspunkts (RAP) schließen die Zeitreferenzdaten Nicht-RAP-Referenzdaten aus, wenn die Zielfläche unter Verwendung von Zeitreferenzdaten codiert wird.
In einer Ausführungsform werden eine oder mehrere erste Flächensequenzen unter Verwendung von Vorausberechnungsdaten codiert, die mindestens einen Teil aufweisen, der von einer zweiten Flächensequenz abgeleitet wird. Die eine oder mehreren ersten Zielflächen in der einen oder den mehreren ersten Flächensequenzen verwenden jeweils eine Intra-Prädiktion, die von einer zweiten Zielfläche in der zweiten Flächensequenz abgeleitet wird, wobei die eine oder die mehreren ersten Zielflächen in der einen oder den mehreren ersten Flächensequenzen und die zweite Zielfläche in der zweiten Flächensequenz alle einen gleichen Zeitindex aufweisen. In diesem Fall korrespondiert für einen aktuellen ersten Block an einer Flächengrenze einer ersten Zielfläche die zweite Zielfläche zu einer benachbarten Fläche, die an die Flächengrenze einer ersten Zielfläche angrenzt.
In einer anderen Ausführungsform verwenden eine oder mehrere ersten Zielflächen in der einen oder den mehreren ersten Flächensequenzen jeweils eine Inter-Prädiktion, die von einer zweiten Zielfläche in der zweiten Flächensequenz abgeleitet wird, wobei die eine oder die mehreren ersten Zielflächen in der einen oder den mehreren ersten Flächensequenzen und die zweite Zielfläche in der zweiten Flächensequenz alle einen gleichen Zeitindex aufweisen. Für einen aktuellen ersten Block in einer ersten Zielfläche in einer ersten Zielflächensequenz mit einem aktuellen Bewegungsvektor (MV), der zu einem Referenzblock über eine Flächengrenze einer ersten Referenzfläche in der einen ersten Zielflächensequenz zeigt, korrespondiert die zweite Zielfläche zu einer benachbarten Fläche, die an die Flächengrenze der einen ersten Referenzfläche angrenzt.
In noch einer anderen Ausführungsform verwenden eine oder mehrere erste Zielflächen in der einen oder den mehreren ersten Flächensequenzen jeweils eine Inter-Prädiktion, die von einer zweiten Zielfläche in der zweiten Flächensequenz abgeleitet wird, wobei die zweite Zielfläche in der zweiten Flächensequenz einen kleineren Zeitindex aufweist als eine, eine beliebige oder jede erste Zielfläche in der einen oder den mehreren ersten Flächensequenzen. Für einen aktuellen ersten Block in einer ersten Zielfläche in einer ersten Zielflächensequenz mit einem aktuellen Bewegungsvektor (MV), der zu einem Referenzblock über eine Flächengrenze einer ersten Referenzfläche in der einen ersten Zielflächensequenz zeigt, korrespondiert die zweite Zielfläche zu einer benachbarten Fläche, die an die Flächengrenze der einen ersten Referenzfläche angrenzt.
Figurenliste

1 stellt ein Beispiel eines entfalteten Würfelrahmens dar, der zu einem Würfelnetz mit leeren Flächen, die durch Pseudodaten gefüllt sind, korrespondiert.
2 stellt ein Beispiel der umlaufenden Kanten für den zusammengesetzten Würfelflächenrahmen mit leeren Flächen in 1 dar.
3 stellt ein Beispiel einer völlig flächenunabhängigen Codierungs-Struktur für VR-Video dar, wobei jede Würfelflächensequenz durch einen Video-Codierer als eine Eingangsvideosequenz behandelt wird.
4 stellt ein Beispiel einer flächenunabhängigen Codierung mit einem Zufallszugriffspunkt (k+n) dar, wobei der Satz von Flächen zu einer Zeit k ein bestimmtes Bild ist.
5 stellt ein Beispiel einer Flächensequenz-Codierung, die eine Vorausberechnung von anderen Flächen ermöglicht, gemäß einer Ausführungsform der vorliegenden Erfindung dar.
6 stellt ein Beispiel einer Intra-Prädiktion dar, die Informationen von einer anderen Fläche verwendet, die einen gleichen Zeitindex aufweist wie die aktuelle Fläche.
7 stellt ein Beispiel einer Inter-Prädiktion dar, die Informationen von einer anderen Fläche verwendet, die den gleichen Zeitindex aufweist.
8 stellt ein anderes Beispiel einer Flächensequenz-Codierung, die eine Vorausberechnung von anderen Flächen bei dem gleichen Zeitindex ermöglicht, gemäß einer Ausführungsform der vorliegenden Erfindung dar.
9 stellt noch ein anderes Beispiel einer Flächensequenz-Codierung, die eine Vorausberechnung von anderen Flächen bei dem gleichen Zeitindex ermöglicht, gemäß einer Ausführungsform der vorliegenden Erfindung dar.
10 stellt ein Beispiel einer Flächensequenz-Codierung, die Zeitreferenzdaten von anderen Flächen erlaubt, gemäß einer Ausführungsform der vorliegenden Erfindung dar.
11 stellt ein anderes Beispiel einer Flächensequenz-Codierung, die Zeitreferenzdaten von anderen Flächen erlaubt, gemäß einer Ausführungsform der vorliegenden Erfindung dar.
12 stellt ein Beispiel einer Inter-Prädiktion dar, die ebenfalls Referenzdaten von einer anderen Fläche verwendet, wobei ein aktueller Block in einem aktuellen Bild (Zeitindex k+2) in einer Fläche 0 mit einer Inter-Prädiktion ebenfalls unter Verwendung von Referenzdaten, die zu vorherigen Bildern (d. h. Zeitindex k+1) in einer Fläche 0 und einer Fläche 4 korrespondieren, vorausberechnet wird.
13 stellt ein beispielhaftes Ablaufdiagramm einer Video-Codierung für mehrere Flächensequenzen, die zu einer 360-Grad-Virtual-Reality-Sequenz korrespondieren, gemäß einer Ausführungsform der vorliegenden Erfindung dar.

Detaillierte Beschreibung
Die nachfolgende Beschreibung ist von der am besten betrachteten Art einer Ausführung der Erfindung. Diese Beschreibung ist für den Zweck einer Darstellung der allgemeinen Prinzipien der Erfindung angefertigt worden und sollte nicht in einem einschränkenden Sinn aufgefasst werden. Der Umfang der Erfindung wird am besten durch Bezug auf die angehängten Ansprüche bestimmt.
In der vorliegenden Erfindung werden Techniken zum Codieren und Signalisieren von individuellen Flächensequenzen offenbart. 3 stellt eine völlig flächenunabhängige Codierungs-Struktur für VR-Video dar, wobei jede Würfelflächensequenz durch einen Video-Codierer als eine Eingangsvideosequenz behandelt wird. Auf der Decodierer-Seite wird ein Video-Bitstrom für eine Flächensequenz empfangen und durch den Decodierer decodiert. Für in 3 gezeigte Würfelflächen werden die sechs Flächensequenzen als sechs Videosequenzen behandelt und werden unabhängig codiert. Mit anderen Worten wird gemäß dieser Ausführungsform jede Flächensequenz nur unter Verwendung von Vorhersagedaten (inter oder intra) codiert, die von der gleichen Flächensequenz abgeleitet werden. In 3 werden die Flächen, die einen gleichen Zeitindex (z. B. k, k+1, k+2, usw.) aufweisen, in dieser Offenbarung als ein Intra-Flächen-Satz bezeichnet.
In 3 kann, obwohl die sechs Flächen, die zu einem Würfel gehören, als ein Beispiel einer Mehrflächen-VR-Videorepräsentation verwendet werden, die vorliegende Erfindung auch auf andere Mehrflächen-Repräsentationen angewendet werden. Ein anderer Aspekt der vorliegenden Erfindung adressiert ein Signalisieren der unabhängig codierten Flächen. Zum Beispiel können eine oder mehrere Syntaxelemente in dem Video-Bitstrom signalisiert werden, um Informationen zu spezifizieren, die sich auf die Gesamtzahl von Flächen in den Mehrflächensequenzen beziehen. Weiter können Informationen signalisiert werden, die sich auf den Flächenindex für jede unabhängig codierte Fläche beziehen. Das eine oder die mehreren Syntaxelemente können in der Sequenzebene, der Videoebene, der Flächenebene, dem VPS (Videoparametersatz), dem SPS (Sequenzparametersatz) oder dem APS (Applikationsparametersatz) signalisiert werden.
Ein visueller Referenzrahmen wird für eine Vorausberechnung verwendet, um ein Codierungs-Leistungsvermögen zu verbessern. Der visuelle Referenzrahmen besteht aus mindestens zwei Flächen, die zu einem Zeitindex gehören, welcher für eine Bewegungskompensation und/oder eine Intra-Prädiktion verwendet werden kann. Deshalb kann der visuelle Referenzrahmen verwendet werden, um Referenzdaten für jede Fläche durch ein Verwenden von anderen Flächen in dem visuellen Referenzrahmen für Referenzdaten außerhalb einer aktuellen Fläche zu generieren. Zum Beispiel werden, wenn eine Fläche 0 die aktuelle Fläche ist, die Referenzdaten außerhalb der Fläche 0 wahrscheinlich in benachbarten Flächen wie Flächen 1, 2, 4 und 5 gefunden werden. Ähnlich kann der visuelle Referenzrahmen auch Referenzdaten für andere Flächen bereitstellen, wenn die Referenzdaten außerhalb einer ausgewählten Fläche liegen.
Die vorliegende Erfindung führt außerdem eine flächenunabhängige Codierung mit einem Zufallszugriffspunkt ein. Der Zufallszugriffspunkt kann ein Intra-Bild oder ein Inter-Bild sein, das von einem bestimmten Bild oder bestimmten Bildern vorausberechnet wird, welche andere Zufallszugriffspunkte sein können. Für einen Zufallszugriffspunktrahmen sollen all die Flächen in dem bestimmten Bild decodiert werden. Ein anderes reguläres Bild kann ausgewählt und unabhängig codiert werden. Die Bilder nach dem Zufallszugriffspunkt können nicht von den regulären Bildern (d. h. unbestimmten Bildern) vorausberechnet werden, die vor dem Zufallszugriffspunkt codiert worden sind. Wenn der visuelle Referenzrahmen, wie vorstehend offenbart, ebenfalls angewendet wird, kann das visuelle Referenzbild nicht vervollständigt werden, wenn nur ein Teil der regulären Bilder decodiert wird. Andernfalls wird dies einen Vorausberechnungsfehler verursachen. Die Fehlerausbreitung wird jedoch an dem Zufallszugriffspunkt gestoppt.
4 stellt ein Beispiel einer flächenunabhängigen Codierung mit einem Zufallszugriffspunkt (k+n) dar. Der Satz von Flächen zu einer Zeit k ist ein bestimmtes Bild. Die Sätze von Flächen (d. h. k+1, k+2, usw.) nach dem bestimmten Bild zu der Zeit k werden unter Verwendung einer Zeitprädiktion von den gleichen Flächen als reguläre Bilder codiert, bis ein Zufallszugriffspunkt codiert wird. Wie in 4 gezeigt, ist die Zeit-Prädiktionskette eine Terminierung genau vor dem Zufallszugriffspunkt zu einer Zeit k+n. Der Zufallszugriffspunkt zu der Zeit k+n kann entweder intra-codiert oder er kann inter-codiert nur unter Verwendung von einem bestimmten Bild (bestimmten Bildern) als Referenzbild(er) sein.
Die völlig flächenunabhängige Codierung, wie in 3 und 4 gezeigt, stellt eine robustere Codierung bereit, um die Codierungs-Abhängigkeit zwischen unterschiedlichen Flächensequenzen zu beseitigen. Die völlig flächenunabhängige Codierung verwendet jedoch nicht die Korrelation zwischen Flächen, insbesondere die Kontinuität über Flächengrenzen zwischen zwei benachbarten Flächen. Um die Codierungs-Effizienz zu verbessern, wird der Vorausberechnung gemäß einem anderen Verfahren der vorliegenden Erfindung ermöglicht, Referenzdaten von anderen Flächen zu verwenden. Zum Beispiel kann die Intra-Prädiktion für eine aktuelle Fläche Referenzdaten von anderen Flächen in dem gleichen Zeitindex verwenden. Außerdem können für eine Inter-Prädiktion, wenn der Bewegungsvektor (MV) zu den Referenzpixeln außerhalb der aktuellen Referenzflächengrenze zeigt, die Referenzpixel für die Inter-Prädiktion von den benachbarten Flächen der aktuellen Fläche abgeleitet werden, die den gleichen Zeitindex aufweisen.
5 stellt ein Beispiel einer Flächensequenz-Codierung, die eine Vorausberechnung von anderen Flächen ermöglicht, gemäß einem anderen Verfahren der vorliegenden Erfindung dar. In dem Beispiel von 5 verwenden eine Fläche 5 und eine Fläche 3 beide Informationen von einer Fläche 4, um Vorausberechnungsdaten abzuleiten. Außerdem verwenden eine Fläche 2 und eine Fläche 0 beide Informationen von einer Fläche 1, um Vorausberechnungsdaten abzuleiten. Das Beispiel von 5 korrespondiert zu dem Fall einer Vorausberechnung unter Verwendung von Informationen von einer anderen Fläche bei dem gleichen Zeitindex. Für die Fläche 4 und die Fläche 1 werden die Flächensequenzen flächenunabhängig codiert, ohne Referenzdaten von anderen Flächen zu verwenden.
6 stellt ein Beispiel einer Intra-Prädiktion dar, die Informationen von einer anderen Fläche verwendet, die den gleichen Zeitindex aufweist wie die aktuelle Fläche, um die Referenzdaten abzuleiten. Wie in 1 und 2 gezeigt, ist die untere Flächengrenze einer Fläche 5 mit der oberen Grenze einer Fläche 0 verbunden. Deshalb kann die Intra-Codierung eines aktuellen Blocks 612 in einem aktuellen Fläche-0-Bild 610 mit dem Zeitindex k+2 nahe der oberen Flächengrenze 614 die Intra-Prädiktions-Referenzdaten 622 an der unteren Flächengrenze 624 des Fläche-5-Bilds 620 mit dem Zeitindex k+2 verwenden. In diesem Fall wird angenommen, dass die Pixeldaten an der unteren Flächengrenze 624 des Fläche-5-Bilds 620 vor dem aktuellen Block 612 an der oberen Grenze des Fläche-0-Bilds 610 codiert werden. Wenn das aktuelle Fläche-0-Bild 610 mit dem Zeitindex k+2 inter-codiert wird, kann es ein Fläche-0-Bild 630 mit dem Zeitindex k+1 verwenden, um die Inter-Prädiktions-Daten abzuleiten.
7 stellt ein Beispiel einer Inter-Prädiktion dar, die Informationen von einer anderen Fläche verwendet, die den gleichen Zeitindex aufweist. In diesem Beispiel wird ein aktuelles Fläche-0-Bild unter Verwendung einer Inter-Prädiktion codiert, die von vorhergehend codierten Daten in der gleichen Flächensequenz abgeleitet ist. Wenn der Bewegungsvektor jedoch zu Referenzpixeln außerhalb der Referenzfläche in der gleichen Flächensequenz zeigt, können Referenzdaten von einer anderen Fläche, die den gleichen Zeitindex aufweist, verwendet werden, um die benötigten Referenzdaten abzuleiten. In dem Beispiel von 7 wird der aktuelle Block 712 an der unteren Flächengrenze 714 des aktuellen Fläche-0-Bilds 710 inter-codiert, und der Bewegungsvektor (MV) 716 zeigt auf einen Referenzblock 722, wobei sich ein Teilreferenzblock 726 des Referenzblocks 722 außerhalb der unteren Flächengrenze 724 eines Fläche-0-Referenzbilds 720 befindet. Das Referenzgebiet 726, das sich außerhalb der unteren Flächengrenze 724 des Fläche-0-Referenzbilds 720 befindet, korrespondiert zu Pixeln an der oberen Flächengrenze 734 einer Fläche 4, da die obere Flächengrenze der Fläche 4 eine gleiche Kante wie die untere Flächengrenze der Fläche 0 teilt. Gemäß einer Ausführungsform der vorliegenden Erfindung werden die korrespondierenden Referenzpixel 732 des Fläche-4-Bilds, das den gleichen Zeitindex aufweist, verwendet, um die Inter-Prädiktions-Referenzpixel (726) außerhalb der unteren Flächengrenze 724 des Fläche-0-Referenzbilds 720 abzuleiten. Es ist zu beachten, dass Referenzdaten von der Fläche 4 bei dem gleichen Zeitindex wie das aktuelle Fläche-0-Bild verwendet werden, um die Inter-Prädiktions-Referenzdaten außerhalb der aktuellen Referenzfläche 720 abzuleiten.
8 stellt ein anderes Beispiel einer Flächensequenz-Codierung, die eine Vorausberechnung von anderen Flächen ermöglicht, die den gleichen Zeitindex aufweisen, gemäß einer Ausführungsform der vorliegenden Erfindung dar. In diesem Beispiel verwenden Flächen 0, 1, 2 und 4 Referenzdaten von einer Fläche 3, die den gleichen Zeitindex aufweist. Weiter verwendet eine Fläche 5 Referenzdaten von der Fläche 4, die den gleichen Zeitindex aufweist. Für die Fläche 3 wird die Flächensequenz flächenunabhängig codiert, ohne Referenzdaten von anderen Flächen zu verwenden.
9 stellt noch ein anderes Beispiel einer Flächensequenz-Codierung, die eine Vorausberechnung von anderen Flächen bei dem gleichen Zeitindex ermöglicht, gemäß einer Ausführungsform der vorliegenden Erfindung dar. In diesem Beispiel verwenden Flächen 1, 2 und 4 Referenzdaten, die von einer Fläche 3 abgeleitet werden, die den gleichen Zeitindex aufweist. Die Flächen 0, 3 und 4 verwenden Referenzdaten, die von einer Fläche 5 abgeleitet werden, die den gleichen Zeitindex aufweist. Die Flächen 1, 2 und 3 verwenden Referenzdaten, die von der Fläche 0 abgeleitet werden, die den gleichen Zeitindex aufweist. Für die Fläche 5 wird die Flächensequenz flächenunabhängig codiert, ohne Referenzdaten von anderen Flächen zu verwenden. In 9 ist die Intra-Flächenabhängigkeit nur für die Zeit k+1 gezeigt, um die Darstellung zu vereinfachen. Die gleiche Intra-Flächenabhängigkeit wird auch auf andere Zeitindizes angewendet.
In den vorstehenden Beispielen verwendet die Vorausberechnung zwischen Flächen andere Flächen, die die gleiche Zeiteinheit aufweisen. Gemäß einem anderen Verfahren der vorliegenden Erfindung kann die Vorausberechnung zwischen Flächen auch die Zeitreferenzdaten von anderen Flächen verwenden. 10 stellt ein Beispiel einer Flächensequenz-Codierung, die Zeitreferenzdaten von anderen Flächen erlaubt, gemäß einer Ausführung der vorliegenden Erfindung dar. Mit anderen Worten werden andere Flächen verwendet, um die Inter-Prädiktion für einen aktuellen Block in einer aktuellen Fläche abzuleiten, wobei andere Flächen, die verwendet werden, um die Referenzdaten abzuleiten, einen Zeitindex aufweisen, der kleiner ist als der Zeitindex der aktuellen Fläche. Zum Beispiel kann eine Fläche 0 zu einer Zeit k verwendet werden, um eine Inter-Prädiktion für Flächen 1 bis 5 bei einem Zeitindex k+1 abzuleiten. Für die Fläche 0 wird die Flächensequenz flächenunabhängig codiert, ohne Referenzdaten von anderen Flächen zu verwenden.
11 stellt ein anderes Beispiel einer Flächensequenz-Codierung, die Zeitreferenzdaten von anderen Flächen erlaubt, gemäß einer Ausführungsform der vorliegenden Erfindung dar. In diesem Beispiel wird eine Fläche 2, die eine Zeit k aufweist, verwendet, um Inter-Prädiktions-Daten für Flächen 1, 3 und 4 abzuleiten, die einen Zeitindex k+1 aufweisen. Für Flächen 0, 2 und 5 werden die Flächensequenzen flächenunabhängig codiert, ohne Referenzdaten von anderen Flächen zu verwenden.
12 stellt ein Beispiel einer Inter-Prädiktion dar, die Referenzdaten von einer anderen Fläche verwendet. In diesem Beispiel wird ein aktueller Block 1212 in einem aktuellen Bild 1200, das einen Zeitindex k+2 aufweist, in einer Fläche 0 unter Verwendung von Referenzdaten in einem vorhergehenden Bild 1220, das einen Zeitindex k+1 aufweist, in der Fläche 0 nach einer Inter-Prädiktion vorausberechnet. Der Bewegungsvektor 1214 zeigt zu einem Referenzblock 1222, welcher teilweise außerhalb der Flächengrenze (d. h. unterhalb der Flächengrenze 1224) liegt. Das Gebiet 1226 außerhalb der Flächengrenze 1224 der Fläche 0 korrespondiert zu einem Gebiet 1232 auf der oberen Seite eines Fläche-4-Bilds 1230 mit einem Zeitindex k+1. Gemäß einer Ausführungsform der vorliegenden Erfindung wird das Fläche-4-Bild, das den Zeitindex k+1 aufweist, verwendet, um Referenzdaten abzuleiten, die zu dem Gebiet 1226 außerhalb der Flächengrenze der Fläche 0 korrespondieren.
Die vorstehend offenbarten Erfindungen können in verschiedenen Formen in verschiedene Video-Codierungs- oder -Decodierungssysteme integriert werden. Zum Beispiel können die Erfindungen unter Verwendung von hardware-basierten Ansätzen wie dedizierten integrierten Schaltungen (ICs), Field-Programmable-Logic-Arrays (FPGAs), digitalen Signalprozessoren (DSPs), zentralen Prozessoreinheiten (CPUs) usw. implementiert werden. Die Erfindungen können auch unter Verwendung von Software-Codes oder Firmware-Codes implementiert werden, die auf einem Computer, Laptop oder einer mobilen Vorrichtung wie Smart-Phones ausführbar sind. Weiter können die Software-Codes oder Firmware-Codes auf einer Plattform eines gemischten Typs wie einer CPU mit dedizierten Prozessoren (z. B. einer Video-Codierungsmaschine oder einem Co-Prozessor) ausführbar sein.
13 stellt ein beispielhaftes Ablaufdiagramm einer Video-Codierung für mehrere Flächensequenzen, die zu einer 360-Grad-Virtual-Reality-Sequenz korrespondieren, gemäß einer Ausführungsform der vorliegenden Erfindung dar. Gemäß diesem Verfahren werden Eingangsdaten, die zu Mehrflächensequenzen gehören, die zu einer 360-Grad-Virtual-Reality-Sequenz korrespondieren, in Schritt 1310 empfangen. Auf der Codierer-Seite korrespondieren die Eingangsdaten zu Pixeldaten der zu codierenden Mehrflächensequenzen. Auf der Decodierer-Seite korrespondieren die Eingangsdaten zu einem Video-Bitstrom oder codierten Daten, welche zu decodieren sind. In Schritt 1320 wird mindestens eine Flächensequenz der Mehrflächensequenzen unter Verwendung einer flächenunabhängigen Codierung codiert oder decodiert, wobei die flächenunabhängige Codierung eine Zielflächensequenz unter Verwendung von Vorausberechnungsreferenzdaten, die nur von vorhergehenden codierten Daten der Zielflächensequenz abgeleitet werden, codiert oder decodiert.
Die vorstehenden Ablaufdiagramme können zu Software-Programm-Codes korrespondieren, die auf einem Computer, einer mobilen Vorrichtung, einem digitalen Signalprozessor oder einer programmierbaren Vorrichtung für die offenbarte Erfindung auszuführen sind. Die Programm-Codes können in verschiedenen Programmiersprachen wie C++ geschrieben werden. Das Ablaufdiagramm kann auch zu einer hardware-basierten Implementierung korrespondieren, wo eine oder mehrere Elektronikschaltungen (z. B. ASICs (applikationsspezifische integrierte Schaltungen) und FPGAs (Field-Programmable-Gate-Arrays)) oder Prozessoren (z. B. DSPs (digitale Signalprozessoren)).
Die vorstehende Beschreibung wird vorgelegt, um einer Person mit gewöhnlichen Kenntnissen auf dem Gebiet zu ermöglichen, die vorliegende Erfindung, wie sie im Zusammenhang mit einer bestimmten Applikation und ihrer Anforderung bereitgestellt wird, auszuführen. Verschiedene Modifikationen zu den beschriebenen Ausführungsformen werden für diejenigen mit Fachkenntnissen auf dem Gebiet offensichtlich sein, und die allgemeinen, hier definierten Prinzipien können auf andere Ausführungsformen angewendet werden. Deshalb ist die vorliegende Erfindung nicht gedacht, auf die bestimmten, gezeigten und beschriebenen Ausführungsformen beschränkt zu sein, sondern soll mit dem weitesten Umfang übereinstimmen, der mit den hier offenbarten Prinzipien und Neuheitsmerkmalen übereinstimmt. In der vorstehenden detaillierten Beschreibung sind verschiedene spezifische Details dargestellt, um ein eingehendes Verständnis der vorliegenden Erfindung zu gewährleisten. Es wird jedoch durch diejenigen mit Fachkenntnissen auf dem Gebiet verstanden, dass die vorliegende Erfindung ausgeführt werden kann.
Eine Ausführungsform der vorliegenden Erfindung, wie vorstehend beschrieben, kann in verschiedener Hardware, Software-Codes oder einer Kombination von beiden implementiert werden. Zum Beispiel kann eine Ausführungsform der vorliegenden Erfindung eine Schaltung, die in einen Videokompressions-Chip integriert ist, oder ein Programm-Code, der in eine Videokompressions-Software integriert ist, sein, um die hier beschriebene Verarbeitung auszuführen. Eine Ausführungsform der vorliegenden Erfindung kann auch ein Programm-Code sein, der auf einem digitalen Signalprozessor (DSP) auszuführen ist, um die hier beschriebene Verarbeitung auszuführen. Die Erfindung kann auch eine Anzahl von Funktionen beinhalten, die durch einen Computer-Prozessor, einen digitalen Signalprozessor, einen Mikro-Prozessor oder ein Field-Programmable-Gate-Array (FPGA) auszuführen sind. Diese Prozessoren können eingerichtet sein, besondere Aufgaben gemäß der Erfindung durch Ausführen von maschinenlesbarem Software-Code oder Firmware-Code auszuführen, welcher die besonderen Verfahren definiert, die durch die Erfindung verkörpert werden. Der Software-Code oder Firmware-Code kann in unterschiedlichen Programmiersprachen und unterschiedlichen Formaten oder Stilen entwickelt werden. Der Software-Code kann auch für unterschiedliche Zielplattformen kompiliert werden. Unterschiedliche Code-Formate, -Stile und -Sprachen von Software-Codes und andere Mittel eines Auslegens von Code zum Ausführen der Aufgaben gemäß der Erfindung werden jedoch nicht von dem Geist und Umfang der Erfindung abweichen.
Die Erfindung kann in anderen spezifischen Formen ausgeführt sein, ohne von ihrem Geist oder essenziellen Eigenschaften abzuweichen. Die beschriebenen Beispiele sind in allen Aspekten nur als darstellend und nicht einschränkend zu betrachten. Der Umfang der Erfindung wird deshalb eher durch die angehängten Ansprüche angezeigt als durch die vorstehende Beschreibung. Alle Änderungen, welche in die Bedeutung und den Umfang einer Äquivalenz der Ansprüche fallen, sind innerhalb ihres Umfangs einzubeziehen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 62353584 [0001]

Claims

Verfahren für eine Video-Codierung oder -Decodierung für ein Video-Codierungs- oder -Decodierungs-System, das bei Mehrflächensequenzen angewendet wird, die zu einer 360-Grad-Virtual-Reality-Sequenz korrespondieren, wobei das Verfahren aufweist: Empfangen von Eingangsdaten, die zu Mehrflächensequenzen gehören, die zu einer 360-Grad-Virtual-Reality-Sequenz korrespondieren; und Codieren oder Decodieren von mindestens einer Flächensequenz der Mehrflächensequenzen unter Verwendung einer flächenunabhängigen Codierung, wobei die flächenunabhängige Codierung eine Zielflächensequenz unter Verwendung von Vorausberechnungsreferenzdaten codiert oder decodiert, die nur von vorherigen codierten Daten der Zielflächensequenz abgeleitet werden.
Verfahren gemäß Anspruch 1, wobei ein oder mehrere Syntaxelemente auf einer Codierer-Seite in einem Video-Bitstrom signalisiert werden oder auf einer Decodierer-Seite von dem Video-Bitstrom analysiert werden, wobei das eine oder die mehreren Syntaxelemente erste Informationen, die zu einer Gesamtzahl von Flächen in den Mehrflächensequenzen gehören, zweite Informationen, die zu einem Flächenindex für jede flächenunabhängig codierte Flächensequenz gehören, oder sowohl die ersten Informationen als auch die zweiten Informationen anzeigen.
Verfahren gemäß Anspruch 2, wobei sich das eine oder die mehreren Syntaxelemente in einer Sequenzebene, einer Videoebene, einer Flächenebene, einem VPS (Videoparametersatz), einem SPS (Sequenzparametersatz) oder einem APS (Applikationsparametersatz) des Video-Bitstroms befinden.
Verfahren gemäß Anspruch 1, wobei alle der Mehrflächensequenzen unter Verwendung der flächenunabhängigen Codierung codiert werden.
Verfahren gemäß Anspruch 1, wobei ein visueller Referenzrahmen, der mindestens zwei Flächen der Mehrflächensequenzen bei einem gegebenen Zeitindex aufweist, für eine Inter-Prädiktion, eine Intra-Prädiktion oder beides durch eine oder mehrere Flächensequenzen verwendet wird.
Verfahren gemäß Anspruch 1, wobei ein oder mehrere Intra-Flächensätze als Zufallszugriffspunkte (RAPs) codiert werden, wobei jeder Intra-Flächensatz aus allen Flächen mit einem gleichen Zeitindex besteht und jeder Zufallszugriffspunkt unter Verwendung einer Intra-Prädiktion oder unter Verwendung einer Inter-Prädiktion nur basierend auf einem oder mehreren bestimmten Bildern codiert wird.
Verfahren gemäß Anspruch 6, wobei, wenn ein bestimmtes Zielbild für die Inter-Prädiktion verwendet wird, alle Flächen in dem bestimmten Zielbild decodiert werden, bevor das bestimmte Zielbild für die Inter-Prädiktion verwendet wird.
Verfahren gemäß Anspruch 6, wobei für eine Zielfläche mit einem Zeitindex nach einem Zufallszugriffspunkt (RAP), wenn die Zielfläche unter Verwendung von Zeitreferenzdaten codiert wird, die Zeitreferenzdaten Nicht-RAP-Referenzdaten ausschließen, die vor dem Zufallszugriffspunkt codiert wurden.
Verfahren gemäß Anspruch 1, wobei eine oder mehrere erste Flächensequenzen unter Verwendung von Vorausberechnungsdaten codiert werden, die mindestens einen Teil aufweisen, der von einer zweiten Flächensequenz abgeleitet wird.
Verfahren gemäß Anspruch 9, wobei eine oder mehrere erste Zielflächen in der einen oder den mehreren ersten Flächensequenzen jeweils eine Intra-Prädiktion verwenden, die von einer zweiten Zielfläche in der zweiten Flächensequenz abgeleitet wird, wobei die eine oder die mehreren ersten Zielflächen in der einen oder den mehreren ersten Flächensequenzen und die zweite Zielfläche in der zweiten Flächensequenz alle einen gleichen Zeitindex aufweisen.
Verfahren gemäß Anspruch 10, wobei für einen aktuellen ersten Block an einer Flächengrenze einer ersten Zielfläche die zweite Zielfläche zu einer benachbarten Fläche angrenzend an die Flächengrenze der einen ersten Zielfläche korrespondiert.
Verfahren gemäß Anspruch 9, wobei eine oder mehrere erste Zielflächen in der einen oder den mehreren ersten Flächensequenzen jeweils eine Inter-Prädiktion verwenden, die von einer zweiten Zielfläche in der zweiten Flächensequenz abgeleitet wird, wobei die eine oder die mehreren ersten Zielflächen in der einen oder den mehreren ersten Flächensequenzen und die zweite Zielfläche in der zweiten Flächensequenz alle einen gleichen Zeitindex aufweisen.
Verfahren gemäß Anspruch 12, wobei für einen aktuellen ersten Block in einer ersten Zielfläche in einer ersten Zielflächensequenz mit einem aktuellen Bewegungsvektor (MV), der zu einem Referenzblock über eine Flächengrenze einer ersten Referenzfläche in der einen ersten Zielflächensequenz zeigt, die zweite Zielfläche zu einer benachbarten Fläche korrespondiert, die an die Flächengrenze der einen ersten Referenzfläche angrenzt.
Verfahren gemäß Anspruch 9, wobei eine oder mehrere erste Zielflächen in der einen oder den mehreren ersten Flächensequenzen jeweils eine Inter-Prädiktion verwenden, die von einer zweiten Zielfläche in der zweiten Flächensequenz abgeleitet wird, wobei die zweite Zielfläche in der zweiten Flächensequenz einen kleineren Zeitindex aufweist als eine, eine beliebige oder jede erste Zielfläche in der einen oder den mehreren ersten Flächensequenzen.
Verfahren gemäß Anspruch 14, wobei für einen aktuellen ersten Block in einer ersten Zielfläche in einer ersten Zielflächensequenz mit einem aktuellen Bewegungsvektor (MV), der zu einem Referenzblock über eine Flächengrenze einer ersten Referenzfläche in der einen ersten Zielflächensequenz zeigt, die zweite Zielfläche zu einer benachbarten Fläche korrespondiert, die an die Flächengrenze von einer ersten Referenzfläche angrenzt.
Vorrichtung für eine Video-Codierung oder -Decodierung für ein Video-Codierungs- oder -Decodierungssystem, das bei Mehrflächensequenzen eingesetzt wird, die zu einer 360-Grad-Virtual-Reality-Sequenz korrespondieren, wobei die Vorrichtung ein oder mehrere Elektronikkomponenten oder Prozessoren aufweist, die eingerichtet sind zum: Empfangen von Eingangsdaten, die zu Mehrflächensequenzen gehören, die zu einer 360-Grad-Virtual-Reality-Sequenz korrespondieren; und Codieren oder Decodieren von mindestens einer Flächensequenz der Mehrflächensequenzen unter Verwendung einer flächenunabhängigen Codierung, wobei die flächenunabhängige Codierung eine Zielflächensequenz unter Verwendung von Vorausberechnungsreferenzdaten codiert oder decodiert, die nur von vorhergehenden codierten Daten der Zielflächensequenz abgeleitet werden.