JP2020522936A - 画像処理装置およびシステム - Google Patents

画像処理装置およびシステム Download PDF

Info

Publication number
JP2020522936A
JP2020522936A JP2019566635A JP2019566635A JP2020522936A JP 2020522936 A JP2020522936 A JP 2020522936A JP 2019566635 A JP2019566635 A JP 2019566635A JP 2019566635 A JP2019566635 A JP 2019566635A JP 2020522936 A JP2020522936 A JP 2020522936A
Authority
JP
Japan
Prior art keywords
video
high resolution
viewpoint
videos
offset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019566635A
Other languages
English (en)
Other versions
JP7083361B2 (ja
Inventor
ウィリアム ゴダール、アンソニー
ウィリアム ゴダール、アンソニー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JP2020522936A publication Critical patent/JP2020522936A/ja
Application granted granted Critical
Publication of JP7083361B2 publication Critical patent/JP7083361B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/16Spatio-temporal transformations, e.g. video cubism
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/158Switching image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【解決手段】複数視点を含むビデオコンテンツを提供するビデオ提供装置は、ビデオコンテンツ内の複数視点の各々についてビデオの複数バージョンを記憶するビデオ記憶部を含み、各ビデオがその視点に対応する高解像度の領域を含むように複数ビデオは符号化され、複数ビデオは各々高解像度領域を含み、高解像度領域を含む各ビデオは、高解像度領域を有する他のビデオに対してピクチャグループの時間的オフセットをもたせてエンコードされ、ピクチャグループのオフセットは各ビデオに対するビデオ切り替え時間を定義し、ビデオコンテンツ内の要求された視点を決定する視点決定部と、複数ビデオ切り替え時間の中から次の適切なビデオ切り替え時間を特定するタイミング特定部と、要求された視点および特定されたビデオ切り替え時間に対応する高解像度領域を有するビデオを選択するビデオ選択部と、選択されたビデオをビデオ受信装置に送信するビデオ送信部とを含む。【選択図】図5

Description

本発明は、画像処理装置およびシステムに関する。
没入型ビデオコンテンツは近年ますます普及しており、パノラマや360度ビデオコンテンツでさえも頻繁に生成されている。このようなコンテンツは、ユーザが何らかの方法でナビゲートして、コンテンツがキャプチャされ、見回している場所にあることをシミュレートできる。このナビゲーションは、コントローラなどを介した入力を使用して実行したり、ユーザが操作するデバイスの動きにリンクさせてもよい。たとえば、ユーザは電話機の位置を変更したり回転させたりして、視点を変更できる。
他の構成では、ヘッドマウントディスプレイ(HMD)を使用して、そのようなコンテンツをユーザに提示する。これは、ユーザが単純に頭を動かして表示された視点を変更することができるため、有利である。これは、没入感をさらに高めるコンテンツとの直感的なインタラクションである。
複数の視点を含むビデオコンテンツの提供に関連する1つの問題は、ビデオコンテンツのサイズの問題である。ビデオ品質とファイルサイズの間にはトレードオフがあり、ビデオコンテンツの品質が高いほど、対応するファイルサイズが大きくなる。当然のことながら、優れたユーザ体験を確保するために、可能な限り最高のビデオ品質を提供したいという要望があるが、帯域幅の制限により、使用できるデータの量には制限がある。
したがって、ファイルサイズを合理的なレベルまで小さくするために、望ましい解像度より低い解像度のコンテンツが提供されるのが一般的である(たとえば、球体に4K解像度の画像を使用すると、1000x1000ピクセルの解像度を持つ視点が表示されることがある)。これは現在利用可能な多くのディスプレイの解像度よりも低いため、これによって表示品質がさらに低下することがある。
以前に提案された1つの解決策は、非常に高解像度のビデオをキャプチャし、これを使用して、各ビデオの異なる領域が高品質で残りが低品質である複数のビデオを生成することである。これは、狭い帯域幅の要件を維持しながら、見る方向に高品質の画像を提供することにより、上記の問題を軽減するが、そうすることで、ビューの方向に高品質の画像を提供するために、視聴者が視点を変える時、ビデオを切り替える必要があるなどのさらなる問題が発生する。
ここに提案される構成は、上記の問題を軽減しようとするものである。
本発明の様々な態様および特徴は、添付の特許請求の範囲および付随する説明の本文内で定義され、少なくともビデオ提供装置、ビデオ受信装置、これらの装置のそれぞれを動作させる方法、およびコンピュータプログラムを含む。
ここで、本発明の実施形態を、添付の図面を参照して、一例として説明する。
ビデオマッピングレイアウトを概略的に示す。 GOP構造を持つ複数のビデオを概略的に示す。 ビデオ切り替えプロセスを概略的に示す。 ビデオ提供装置を概略的に示す。 ビデオ受信装置を概略的に示す。 ビデオ提供方法を概略的に示す。 ビデオ受信方法を概略的に示す。
360度ビデオコンテンツ、または実際にユーザが一度に見ることができる領域よりも広い領域をカバーする任意のコンテンツを提供する場合、再生を簡素化するためにビデオを球体以外の形状にマッピングすることが望ましいことがある。たとえば、ビデオコンテンツを立方体にマッピングすることで6つのビデオタイルを提供してそれらの間でビデオコンテンツ全体を表すことができる。図1は、そのような立方体100の平面図を概略的に示しており、6つの視点が提供される。もちろん、任意の数の視点を提供するために、立方体に限定されるのではなく、任意の適切なマッピングを使用することができる。
立方体100は、正面図101、背面図102、左側面図103、右側面図104、上面図105および下面図106を含む。これらの方向は任意の方法で定義できる。たとえば、いわゆる「正面図」は、単に視聴者が見ている方向である可能性があり、コンテンツの再生を通じて異なる可能性がある。視点が区別され、正しく識別できる限り、使用される命名規則は必須ではない。
いくつかの実施の形態では、正面図は特定のタイルとして定義され、特定のストリームに対して一定である。図1の例では、アダプティブストリーミングを可能にするために、6つの個別のストリームを提供しており、これらはそれぞれ、単一の高解像度タイルのみで構成される。
上記のように、このような構成は、特定のストリームを選択することにより、ビューの各方向について同時に高品質のビデオコンテンツをストリーミングすることなく、ビューの一つの方向に表示品質の高いビデオコンテンツを視聴者に提供できるという利点がある。しかし、このような構成に関連する問題は、視聴者がビューの方向を変更した後、新しい視点に対して高品質のビデオコンテンツが視聴者に表示される前に遅延が発生することである。 遅延時間の間、視聴者は以前の視聴方向に対応するコンテンツを視聴したままになる。
本開示では、ビデオコンテンツは、ピクチャグループ(GOP)フォーマットを利用するフォーマットで提供される。これの1つの制限は、ターゲットビデオのGOP境界でのみ切り替えを実行できることであり、したがって、視聴者がそれ以外の時間に視点を変更すると、ビデオの表示の変更は次のGOP境界まで遅延する。これにより、GOPの長さによっては、多くの現在のビデオで丸1秒の遅延が発生する可能性がある。これは、特に仮想現実アプリケーションにおいて、レイテンシが大きくなりすぎて、ユーザに気付かせないで済ませることはできない。
単に短いGOPを使用することによりこのレイテンシを短縮することができるが、送信されるビデオのこの側面のみを変更すると、帯域幅の要件が大幅に増加し、他の点で問題が発生することがわかる。
本開示による実施の形態は、各視点に対する複数のビデオを提供することによりこれに対処する。 複数内の各ビデオは、同じコンテンツを含むが、各ビデオに対するGOPが整列せず、代わりに互いにオフセットがあるようにエンコードされる。この結果、ターゲットビデオには複数の利用可能なGOP開始時間がある。これは、ビデオ切り替えを実行するために現在のビデオのGOPの残り時間全体を待たずに、これよりもすぐに発生するGOP境界を有する望ましい視点に対応するビデオを複数の中から選択できることを意味する。 一般に、各GOPへのオフセットは、GOPの継続時間よりも少ない量である。
図2は、1つのビデオコンテンツ内の単一の視点に対応するビデオ210、220、230、240のグループ200を概略的に示す。これらのそれぞれは、ビデオ210に示されるGOP211および212などの複数のGOPを含む。これらのビデオ210、220、230、240のそれぞれは、それぞれのGOPのタイミングのオフセットを表すように、互いにオフセットして示されている。各ビデオが同じそれぞれのオフセットを有するこのようなビデオのグループが(以下で説明するように、同じオフセットを使用することは必須ではないが)ビデオコンテンツに存在する各視点に対して存在することが想定される。もちろん、このグループ化は完全に任意であり、ビデオをビューではなく代わりにGOPオフセット量でグループ化することもできるが、このアプリケーションではわかりやすくするために前者のグループ化を使用している。
図2に示すグループを使用する方法による一例では、GOPの継続時間は1秒である。ビデオ210(オフセットが定義される基準ビデオとして使用される)にはオフセットがないが、ビデオ220、230および240には、ビデオ210のGOPタイミングに関して測定されたそれぞれ0.25、0.5および0.75秒のオフセットがある。ビデオ220、230、240は、ビデオから最初の0.25/0.5/0.75秒を省略し、その後、通常の方法でビデオをエンコードすることにより生成されてもよい。
等しいGOP持続時間を持つ以前の構成では、ユーザが0.1秒でビューの方向をGOPに変更した場合、ビデオを切り替えるために0.9秒待つ必要があった。ただし、この例では、0.25秒のGOPオフセットを持つ他の視点を表すビデオ(オフセットに関してビデオ220に対応するビデオ)を代わりに選択し、0.15秒の遅延でGOP境界において再生を開始できる。これは、ビデオの切り替え遅延が0.9秒から0.15秒に短縮されることを意味する。これは、ユーザがビデオの切り替えに気付かないほど短いであろう(または、少なくとも視聴体験が著しく損なわれない)。
したがって、これは、各送信ビデオの帯域幅要件を変更せずに、ビデオ切り替えをより短い間隔で実行できる構成の例である。
図3は、第1のビデオ310が第1の視点に対応し、第2、第3のビデオ320、330がそれぞれ第2の視点に対応するビデオ切り替え方法を概略的に示す。
ビデオ310は、現在選択されているビデオであり、例えば、視聴デバイスのユーザが視聴するためにサーバによって送信されているビデオである。切り替え時間340は、第1の視点から第2の視点への要求された視点の変化に対応する破線で示されており、これは第1のビデオ310の次のGOP境界の前の時間tで発生する。
以前に提案された構成のように時間tを待つのではなく、代わりに、tより短いそれぞれの時間tおよびtの後に、ビデオ320または330のいずれかへの切り替えが実行されてもよい。いくつかの実施の形態では、より短い時間tがビデオの切り替えの遅延がより大幅に低減されることを意味するため、ビデオ320への切り替えが実行される。
しかし、いくつかの実施の形態では、ビデオ330が代わりに切り替えられるべきビデオとして選択される。これは、切り替え時のスムーズな再生を確保するために、たとえばビデオの場所を特定したり、ビデオコンテンツをバッファリングするために、無視できない切り替え時間が必要になる場合があるためである。そのような実施の形態では、例えば、潜在的な切り替え時間(tまたはt)を想定された、予め定められた、または以前に測定された切り替え時間閾値と比較し、この閾値以上の最短の潜在的な切り替え時間を選択することにより、より長い切り替え時間(この場合、t)を有するビデオの方を好んで、最短の切り替え時間(この場合、t)に対応するビデオを選択することはないかもしれない。それにもかかわらず、これらの状況においても、時間tはtよりも短く、その結果、最短の時間が選択されないこれらの実施の形態においてさえ、本構成の利点が実現される。
いくつかの実施の形態では、GOP持続時間を増加させることも考えられる。たとえば、特定のビデオに対するGOP期間を2秒に倍増すると(上記の例と比較して)、帯域幅要件がほぼ半分になる。これの欠点は、ビデオ切り替え遅延が通常大幅に増加することである。ただし、上記のように複数のビデオにGOPオフセットを提供することにより、この問題は軽減される。実際、GOP持続時間を延長することにより、ストレージデバイスのメモリ負荷が軽減されるため、GOPオフセット実装の使用と併せてGOP持続時間を延長することが有利になる場合がある。
上記を考慮して、当業者は、GOPの任意の持続時間が適切であり、GOPオフセットを有する任意の数のビデオを提供して、ビデオ切り替え遅延とすべての動画コンテンツに必要なストレージ容量の間の適切なバランスを提供することができることを理解するであろう。
実質的なデータの節約を達成するために、いくつかの実施の形態では、ピクチャグループの持続時間は2秒以上である。いくつかの実施の形態では、送信中に目標帯域幅を獲得するように、ピクチャグループの持続時間が決定される。たとえば、視聴者が動画をスムーズに再生できるように、視聴者の平均ダウンロード速度を考慮してビデオコンテンツをエンコードすることができる。ビデオコンテンツの望ましいデータレートを提供する量として決定されるGOP持続時間を長くすることにより、より低い帯域幅のビデオを提供することができる。
いくつかの実施の形態では、ピクチャグループのオフセットは、2つの連続的にオフセットされたビデオ間で1秒未満であり、実際、いくつかの実施の形態では0.5秒未満である。2つの連続的にオフセットされたビデオ間のオフセットは、連続したオフセットを持つ2つのビデオ間のGOP境界間の時間差を指す。たとえば、図2の220と230は、これら2つの間にオフセットがあるビデオが存在しないため、連続的にオフセットされたビデオとして説明される。いくつかの実施の形態では、ピクチャグループのオフセットは、連続的にオフセットされた各ビデオ間で同じではない。たとえば、オフセットは0.25秒、0.5秒、1秒であってもよく、明らかに、2番目と3番目のビデオのオフセットの差は、1番目と2番目のビデオのオフセットの2倍である。
ピクチャグループのオフセットは、ビデオコンテンツ自体の内容に依存してもよい。たとえば、コンテンツのジャンルが異なるとオフセットが異なる場合がある。この例は、アクション映画をロマンス映画と比較している。前者では、視聴者は、表示されるイベントを十分に理解するために、より頻繁に、より迅速に環境を見て回ることが期待される。しかし、ロマンス映画では、イベントはシーン内の単一のインタラクションにより焦点を合わせているため、視聴者の注意は単一の領域に集中し、ユーザによる頭部の動きは遅くなる傾向がある。したがって、後者の場合、同程度の応答性を提供する必要がないことは明らかである。
実施の形態において、GOPオフセットは、ビデオコンテンツの持続時間にわたって変化することも考えられる。これは、たとえば、1つまたは複数の別個のセグメントでコンテンツを提供することによって、または適応可能な方法でGOPオフセットを定義することによって、いくつかの方法で実装できる。この例は、サッカーの試合などの放送中であり、この例では、視聴者は試合自体の間に頻繁に視線の方向を変える可能性があり、この間に良好な視聴体験を提供することが望ましい。しかし、ハーフタイムまたは試合の前後では、視聴者は、あまり興味を持たないか、あまり動的ではないコンテンツにさらされるため、視点を変更する頻度がはるかに低くなり、ビデオの切り替え時間が長くなることに気付く可能性が低くなる。
これは、視点ごとにビデオコンテンツをエンコードすることを検討する場合にも関係がある。 一般に、各視点には異なるコンテンツが含まれ、その結果、迅速なビデオ切り替えは必要とされないかもしれない。たとえば、場合によっては、背面図にはユーザの関心がほとんどなく、そのため、GOPオフセットビデオの数は少なくてもよい。したがって、いくつかの実施の形態では、ビデオに対するピクチャグループのオフセットは、そのビデオによって表される視点に依存する。
オフセットは、コンテンツ分析に応じて変化することもある。たとえば、シーンが特定の方向にパンする場合、ユーザは、表示されるものを見込んで、その方向をさらに見ることが期待される。その結果、パン方向の次の視点を示すストリームは、一時的に短いGOPを持ってもよい。同様に、ステレオまたはサラウンドサウンドが使用される場合、音が絶対または相対しきい値レベルを超える方向に対応する視点は、画像内の音源を特定するためにユーザが見回すことを見越して、一時的に短いGOPを持ってもよい。
GOPの変更を拡張して、コンテンツ全体の潜在的なデータ節約を分析することもできる。たとえば、コンテンツがフレーム間予測により比較的静的である場合、画質を大幅に低下させることなくデータ節約を増やすことができる。したがって、GOPは、連続するフレーム間に大きな差がないビデオコンテンツ(またはビデオコンテンツの一部)に対して継続時間をさらに増やすことができる。
図4は、複数の視点を含むビデオコンテンツを提供するビデオ提供装置400を概略的に示す。ビデオ提供装置400は、ビデオ記憶部410、視点決定部420、タイミング特定部430、ビデオ選択部440、およびビデオ送信部450を備える。
ビデオ記憶部410は、ビデオコンテンツ内の複数の視点のそれぞれについてビデオの複数のバージョンを記憶するように動作可能であり、各ビデオがその視点に対応する高解像度領域を含むように、これらのビデオは符号化される。複数のビデオはそれぞれ同じ高解像度領域を含み、同じ高解像度領域を含む各ビデオは、同じ高解像度領域を有する他のビデオに対してピクチャグループの時間的オフセットをもたせてエンコードされる。ピクチャグループのオフセットは、各ビデオに対するビデオ切り替え時間を定義し、次のGOP境界を持つビデオがビデオ切り替えの候補(または切り替えプロセスの制約に応じて実際には異なるビデオ―たとえば、遅延がある場合は、一つおいて次に発生するGOP境界が上記のように適切な場合がある)として特定されるようにする。
視点決定部420は、ビデオコンテンツ内の要求された視点を決定するように動作可能である。これは、ビデオ内の位置を示す情報、ビデオの特定のタイルを要求する情報、ディスプレイ装置に対するHMDの位置/方向に関する情報、または視聴者に提供されるべきビデオの領域を特定するために使用できるその他の適切な情報を使用して実行してもよい。
タイミング特定部430は、複数のビデオ切り替え時間の中から次の適切なビデオ切り替え時間を特定するように動作可能である。これは、各ビデオに対するGOPオフセットに関する情報を使用して実行してもよい。たとえば、現在のGOPの経過時間を、要求された視点に対してさまざまな利用可能なビデオに関連付けられたGOPオフセットのリストと比較して、次に発生するGOP境界を持つビデオを特定することができる。
ビデオ選択部440は、要求された視点および特定されたビデオ切り替え時間に対応する高解像度領域を有するビデオを選択するように動作可能である。これには、適切なタイミングのGOP境界を持つビデオを選択することが含まれ、ビデオには、視聴者の視線方向の高解像度領域が含まれる。
ビデオ送信部450は、選択されたビデオをビデオ受信装置に送信するように動作可能である。これは、インターネットまたはローカルネットワークなどを介した有線または無線接続などの任意の適切な通信手段を介したものであってもよい。
図5は、複数の視点を含むビデオコンテンツを受信するためのビデオ受信装置500を概略的に示し、この装置は、視点送信部510、ビデオ受信部520、およびビデオ再生部530を含む。
視点送信部510は、ビデオコンテンツ内の要求された視点を特定する情報を送信するように動作可能である。これは、ビデオ内の位置を示す情報、ビデオの特定のタイルを要求する情報、ディスプレイ装置に対するHMDの位置/方向に関する情報、または視聴者に提供されるべきビデオの領域を特定するために使用できるその他の適切な情報の形式を取ることができる。
ビデオ受信部520は、送信された視点情報に応じて、ビデオ提供装置からビデオを受信するように動作可能であり、ビデオは、ビデオコンテンツの複数の視点のそれぞれに対するビデオの複数のバージョンのうちの1つである。各ビデオがその視点に対応する高解像度領域を含むようにこれらのビデオはエンコードされる。複数のビデオはそれぞれ同じ高解像度領域を含み、同じ高解像度領域を含む各ビデオは、同じ高解像度領域を有する他のビデオに対してピクチャグループの時間的オフセットをもたせてエンコードされる。ピクチャグループのオフセットは、各ビデオに対してビデオ切り替え時間を定義する。
ビデオ再生部530は、受信したコンテンツを例えばHMDなどのディスプレイを介して視聴者に表示するように動作可能である。ディスプレイは、ビデオ受信装置500とは別個の物理ユニットであってもよく、携帯電話や携帯ゲーム機などの単一のデバイスに統合されてもよい。
図6は、複数の視点を含むビデオコンテンツを提供するためのビデオ提供方法を概略的に示す。
ステップ600は、ビデオコンテンツ内の複数の視点のそれぞれに対するビデオの複数のバージョンを格納することを含み、ビデオは、各ビデオがその視点に対応する高解像度領域を含むようにエンコードされる。複数のビデオはそれぞれ同じ高解像度領域を含み、同じ高解像度領域を含む各ビデオは、同じ高解像度領域を有する他のビデオに対してピクチャグループの時間的オフセットでエンコードされる。ピクチャグループのオフセットは、各ビデオに対してビデオ切り替え時間を定義する。
ステップ610は、ビデオコンテンツ内の要求された視点を決定することを含む。要求された視点は、たとえば、ビデオ受信デバイスの位置および/または向き、視点を指定する情報、またはビデオの領域を示す座標のうちの1つまたは複数に基づいて決定されてもよい。
ステップ620は、複数のビデオ切り替え時間の中から次の適切なビデオ切り替え時間を特定することを含む。
ステップ630は、要求された視点および特定されたビデオ切り替え時間に対応する高解像度領域を有するビデオを選択することを含む。
ステップ640は、選択されたビデオをビデオ受信装置に送信することを含む。
図7は、複数の視点を含むビデオコンテンツを受信するためのビデオ受信方法を概略的に示す。
ステップ700は、例えば、ビデオ受信装置の位置および/または向き、視点を指定する情報、またはビデオの領域を示す座標のうちの1つまたは複数に基づいて、ビデオコンテンツの要求された視点を決定することを含む。
ステップ710は、ビデオコンテンツ内の要求された視点を特定する情報を送信することを含む。
ステップ720は、送信された視点情報に依存して、ビデオ提供装置からビデオを受信することを含み、ビデオは、ビデオコンテンツ内の複数の視点のそれぞれに対するビデオの複数のバージョンのうちの1つであり、ビデオは、各ビデオがその視点に対応する高解像度領域を含むようにエンコードされる。複数のビデオはそれぞれ同じ高解像度領域を含み、同じ高解像度領域を含む各ビデオは、同じ高解像度領域を有する他のビデオに対してピクチャグループの時間的オフセットでエンコードされる。ピクチャグループのオフセットは、各ビデオに対してビデオ切り替え時間を定義する。
本発明の実施の形態は、ハードウェア、プログラム可能なハードウェア、ソフトウェア制御のデータ処理装置、またはこれらの組み合わせで実施できることが理解されよう。そのような実施の形態で使用されるコンピュータソフトウェアまたはファームウェア、およびそのようなソフトウェアまたはファームウェアを提供するための媒体(記憶媒体、例えば、磁気または光学ディスクなどの機械可読非一時的記憶媒体、またはフラッシュメモリ)を提供することもまた、本発明の実施の形態を表すと考えられることが理解されよう。

Claims (15)

  1. 複数の視点を含むビデオコンテンツを提供するビデオ提供装置であって、
    ビデオコンテンツ内の複数の視点のそれぞれについてビデオの複数のバージョンを記憶するように動作可能なビデオ記憶部を含み、各ビデオがその視点に対応する高解像度の領域を含むように、複数のビデオは符号化され、
    複数のビデオはそれぞれ同じ高解像度領域を含み、
    同じ高解像度領域を含む各ビデオは、同じ高解像度領域を有する他のビデオに対してピクチャグループの時間的オフセットをもたせてエンコードされ、ピクチャグループのオフセットは、各ビデオに対するビデオ切り替え時間を定義し、
    前記ビデオコンテンツ内の要求された視点を決定するように動作可能な視点決定部と、
    複数のビデオ切り替え時間の中から次の適切なビデオ切り替え時間を特定するように動作可能なタイミング特定部と、
    前記要求された視点および前記特定されたビデオ切り替え時間に対応する高解像度領域を有するビデオを選択するように動作可能なビデオ選択部と、
    選択されたビデオをビデオ受信装置に送信するように動作可能なビデオ送信部とを含む、ビデオ提供装置。
  2. ピクチャグループの持続時間は2秒以上である、請求項1に記載のビデオ提供装置。
  3. ピクチャグループの持続時間は、送信中に目標帯域幅を獲得するように決定される、請求項1に記載のビデオ提供装置。
  4. ピクチャグループのオフセットは、2つの連続的にオフセットされたビデオ間で1秒未満である、請求項1に記載のビデオ提供装置。
  5. ピクチャグループのオフセットは、前記ビデオコンテンツの内容に依存する、請求項1に記載のビデオ提供装置。
  6. ピクチャグループのオフセットは、前記視点に依存する、請求項1に記載のビデオ提供装置。
  7. ピクチャグループのオフセットは、連続するオフセットされたビデオ間で同じではない、請求項1に記載のビデオ提供装置。
  8. ピクチャグループのオフセットは、前記ビデオが異なる解像度の領域を含む場合、高解像度領域と低解像度領域の間の差に比例する、請求項1に記載のビデオ提供装置。
  9. 前記ビデオの立方体マッピングを表す6つの視点がある、請求項1に記載のビデオ提供装置。
  10. 前記要求された視点は、前記ビデオ受信装置の位置および/または向き、視点を指定する情報、または前記ビデオの領域を示す座標のうちの1つまたは複数に基づいて決定される、請求項1に記載のビデオ提供装置。
  11. 前記ビデオ受信装置は、ヘッドマウントディスプレイに関連づけられる、請求項1に記載のビデオ提供装置。
  12. 複数の視点を含むビデオコンテンツを受信するためのビデオ受信装置であって、
    前記ビデオコンテンツ内の要求された視点を特定する情報を送信するように動作可能な視点送信部と、
    送信された視点情報に応じて、ビデオ提供装置からビデオを受信するように動作可能なビデオ受信部とを含み、ビデオは、前記ビデオコンテンツの複数の視点のそれぞれに対するビデオの複数のバージョンのうちの1つであり、各ビデオがその視点に対応する高解像度領域を含むように複数のビデオはエンコードされ、
    複数のビデオはそれぞれ同じ高解像度領域を含み、同じ高解像度領域を含む各ビデオは、同じ高解像度領域を有する他のビデオに対してピクチャグループの時間的オフセットをもたせてエンコードされ、ピクチャグループのオフセットは、各ビデオに対してビデオ切り替え時間を定義する、ビデオ受信装置。
  13. 複数の視点を含むビデオコンテンツを提供するためのビデオ提供方法であって、
    前記ビデオコンテンツ内の複数の視点のそれぞれに対するビデオの複数のバージョンを格納するステップを含み、
    前記ビデオは、各ビデオがその視点に対応する高解像度領域を含むようにエンコードされ、
    複数のビデオはそれぞれ同じ高解像度領域を含み、同じ高解像度領域を含む各ビデオは、同じ高解像度領域を有する他のビデオに対してピクチャグループの時間的オフセットでエンコードされ、ピクチャグループのオフセットは、各ビデオに対してビデオ切り替え時間を定義し、
    前記ビデオコンテンツ内の要求された視点を決定するステップと、
    複数のビデオ切り替え時間の中から次の適切なビデオ切り替え時間を特定するステップと、
    前記要求された視点および前記特定されたビデオ切り替え時間に対応する高解像度領域を有するビデオを選択するステップと、
    選択されたビデオをビデオ受信装置に送信するステップとを含む、ビデオ提供方法。
  14. 複数の視点を含むビデオコンテンツを受信するためのビデオ受信方法であって、
    前記ビデオコンテンツの要求された視点を決定するステップと、
    前記ビデオコンテンツ内の前記要求された視点を特定する情報を送信するステップと、
    送信された視点情報に依存して、ビデオ提供装置からビデオを受信するステップとを含み、
    前記ビデオは、前記ビデオコンテンツ内の複数の視点のそれぞれに対するビデオの複数のバージョンのうちの1つであり、
    前記ビデオは、各ビデオがその視点に対応する高解像度領域を含むようにエンコードされ、
    複数のビデオはそれぞれ同じ高解像度領域を含み、同じ高解像度領域を含む各ビデオは、同じ高解像度領域を有する他のビデオに対してピクチャグループの時間的オフセットでエンコードされ、
    前記ピクチャグループのオフセットは、各ビデオに対してビデオ切り替え時間を定義する、ビデオ受信方法。
  15. コンピュータによって実行される時、前記コンピュータに請求項13または14の方法を実行させる、コンピュータプログラム。
JP2019566635A 2017-06-09 2018-05-17 画像処理装置およびシステム Active JP7083361B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1709204.0 2017-06-09
GB1709204.0A GB2563275B (en) 2017-06-09 2017-06-09 Image processing device and system
PCT/GB2018/051340 WO2018224799A1 (en) 2017-06-09 2018-05-17 Image processing device and system

Publications (2)

Publication Number Publication Date
JP2020522936A true JP2020522936A (ja) 2020-07-30
JP7083361B2 JP7083361B2 (ja) 2022-06-10

Family

ID=59358357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019566635A Active JP7083361B2 (ja) 2017-06-09 2018-05-17 画像処理装置およびシステム

Country Status (5)

Country Link
US (1) US11134236B2 (ja)
EP (1) EP3635958B1 (ja)
JP (1) JP7083361B2 (ja)
GB (1) GB2563275B (ja)
WO (1) WO2018224799A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11082755B2 (en) * 2019-09-18 2021-08-03 Adam Kunsberg Beat based editing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003309827A (ja) * 2002-04-17 2003-10-31 Matsushita Electric Ind Co Ltd Vod送出装置及びvod受信装置
US20150229695A1 (en) * 2014-02-11 2015-08-13 Kiswe Mobile Inc. Methods and apparatus for reducing latency shift in switching between distinct content streams
JP2015222861A (ja) * 2014-05-22 2015-12-10 日本電信電話株式会社 映像配信装置、映像再生装置、映像配信方法、映像再生方法、映像配信プログラム及び映像再生プログラム
WO2016140083A1 (ja) * 2015-03-05 2016-09-09 ソニー株式会社 画像処理装置および画像処理方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3809897C1 (ja) * 1988-03-24 1989-08-03 Clemens Und Co Kg, 5560 Wittlich, De
JP2006067124A (ja) * 2004-08-25 2006-03-09 Nec Corp 画像符号化データの切り替え方法および装置、システムならびにプログラム
US8135040B2 (en) * 2005-11-30 2012-03-13 Microsoft Corporation Accelerated channel change
WO2013028565A1 (en) 2011-08-19 2013-02-28 General Instrument Corporation Encoder-aided segmentation for adaptive streaming
US9843844B2 (en) * 2011-10-05 2017-12-12 Qualcomm Incorporated Network streaming of media data
CN106612426B (zh) 2015-10-26 2018-03-16 华为技术有限公司 一种多视点视频传输方法及装置
WO2017093611A1 (en) * 2015-12-02 2017-06-08 Nokia Technologies Oy A method for video encoding/decoding and an apparatus and a computer program product for implementing the method
KR102277287B1 (ko) * 2016-05-26 2021-07-15 브이아이디 스케일, 인크. 뷰포트 적응형 360도 비디오 전달의 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003309827A (ja) * 2002-04-17 2003-10-31 Matsushita Electric Ind Co Ltd Vod送出装置及びvod受信装置
US20150229695A1 (en) * 2014-02-11 2015-08-13 Kiswe Mobile Inc. Methods and apparatus for reducing latency shift in switching between distinct content streams
JP2015222861A (ja) * 2014-05-22 2015-12-10 日本電信電話株式会社 映像配信装置、映像再生装置、映像配信方法、映像再生方法、映像配信プログラム及び映像再生プログラム
WO2016140083A1 (ja) * 2015-03-05 2016-09-09 ソニー株式会社 画像処理装置および画像処理方法

Also Published As

Publication number Publication date
US20200099913A1 (en) 2020-03-26
GB201709204D0 (en) 2017-07-26
EP3635958A1 (en) 2020-04-15
WO2018224799A1 (en) 2018-12-13
GB2563275B (en) 2019-10-09
JP7083361B2 (ja) 2022-06-10
EP3635958B1 (en) 2023-04-12
US11134236B2 (en) 2021-09-28
GB2563275A (en) 2018-12-12

Similar Documents

Publication Publication Date Title
US20240214540A1 (en) Method for transmitting panoramic videos, terminal and server
US11924394B2 (en) Methods and apparatus for receiving and/or using reduced resolution images
EP3459252B1 (en) Method and apparatus for spatial enhanced adaptive bitrate live streaming for 360 degree video playback
JP6741784B2 (ja) ビューを意識した360度ビデオストリーミング
EP2824885B1 (en) A manifest file format supporting panoramic video
US11050991B2 (en) Image processing using a plurality of images for a three dimension scene, having a different viewing positions and/or directions
KR20170008725A (ko) 콘텐트를 스트리밍하기 위한 방법들 및 장치
US11694390B2 (en) Apparatus and method for generating images of a scene
JP7378465B2 (ja) ビデオストリームを生成及びレンダリングするための装置及び方法
JP7144452B2 (ja) 画像処理装置およびシステム
CN110679146B (zh) 根据视频进行的图像生成
JP7083361B2 (ja) 画像処理装置およびシステム
CN112188219A (zh) 视频接收方法和装置以及视频发送方法和装置
CN113508601B (zh) 客户端和用于在客户端处管理多媒体内容的流传输会话的方法
WO2018178510A2 (en) Video streaming
JP7319340B2 (ja) 配信サーバ、配信方法及びプログラム
JP6970143B2 (ja) 配信サーバ、配信方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220531

R150 Certificate of patent or registration of utility model

Ref document number: 7083361

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150