JP2023017720A - ビデオ処理および再生システムおよび方法 - Google Patents

ビデオ処理および再生システムおよび方法 Download PDF

Info

Publication number
JP2023017720A
JP2023017720A JP2022114608A JP2022114608A JP2023017720A JP 2023017720 A JP2023017720 A JP 2023017720A JP 2022114608 A JP2022114608 A JP 2022114608A JP 2022114608 A JP2022114608 A JP 2022114608A JP 2023017720 A JP2023017720 A JP 2023017720A
Authority
JP
Japan
Prior art keywords
resolution
image
video
upscaling
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022114608A
Other languages
English (en)
Inventor
アダム カヴァリエロウ マイケル
Adam Kavallierou Michael
グプタ ラジーブ
Gupta Rajeev
エルワン ダミエン ウベルティ デイビッド
Erwan Damien Uberti David
スミス アレクサンダー
Smith Alexander
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment LLC
Original Assignee
Sony Interactive Entertainment LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB2110261.1A external-priority patent/GB2609013A/en
Application filed by Sony Interactive Entertainment LLC filed Critical Sony Interactive Entertainment LLC
Publication of JP2023017720A publication Critical patent/JP2023017720A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • G09G5/39Control of the bit-mapped memory
    • G09G5/391Resolution modifying circuits, e.g. variable screen formats
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/45Controlling the progress of the video game
    • A63F13/49Saving the game status; Pausing or ending the game
    • A63F13/497Partially or entirely replaying previous game actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/147Digital output to display device ; Cooperation and interconnection of the display device with other functional units using display panels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G3/00Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes
    • G09G3/20Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes for presentation of an assembly of a number of characters, e.g. a page, by composing the assembly by combination of individual elements arranged in a matrix no fixed position being assigned to or needed to be assigned to the individual characters or partial characters
    • G09G3/2092Details of a display terminals using a flat panel, the details relating to the control arrangement of the display terminal and to the interfaces thereto
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/003Details of a display terminal, the details relating to the control arrangement of the display terminal and to the interfaces thereto
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/12Panospheric to cylindrical image transformations
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2320/00Control of display operating conditions
    • G09G2320/06Adjustment of display parameters
    • G09G2320/0686Adjustment of display parameters with two or more screen areas displaying information with different brightness or colours
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/04Changes in size, position or resolution of an image
    • G09G2340/0407Resolution change, inclusive of the use of different resolutions for different screen areas
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2354/00Aspects of interface with display user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0117Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

【課題】ビデオ処理および再生システム並びに方法を提供する。【解決手段】ビデオ処理方法は、第1の解像度を持つオリジナル視野領域と、第1の解像度より低い第2の解像度を持つオリジナル視野領域外のさらなる周辺領域と、を備えた環状パノラマ録画ビデオを処理するビデオ処理方法であって、さらなる周辺領域を第2の解像度より高い解像度に空間的にアップスケールするステップを含む。【選択図】図15

Description

本開示は、ビデオ処理および再生システムおよび方法に関する。
Twitch(登録商標)のような従来のビデオゲームストリーミングシステムおよびYouTube(登録商標)やFacebook(登録商標)のようなビデオホスティングプラットフォームにより、ビデオゲームのプレーヤーは、これらのゲームのプレーを広く視聴者に配信できるようになった。
ビデオゲームをプレーすることと、これらのゲームプレーのビデオ録画を視聴することとの大きな違いは、体験の受動的特徴にある。これは、ゲーム中の決断の点でも、プレーヤーの視点(これは例えばプレーヤーの入力で決められる)の点でも然りである。
ゲームがVRまたはARゲームの場合、後者の問題はより深刻である。この場合、通常はゲームのプレーヤーは、少なくとも部分的には、自分の頭または目の動きに基づいて視点を決める。従ってこうしたVRまたはARゲームのライブまたは録画のストリームを見ているとき、録画された画像は、視聴者ではなく配信者の頭および/または目の動きを追跡しているだろう。これにより視聴者の気分が悪くなる可能性があり、配信者と違う方向を見たいと望む視聴者がイライラすることにもつながる。
本開示は、こうした問題を緩和または軽減することを目的とする。
本発明の様々な態様および特徴は、添付の請求項および明細書の文脈の中で定義される。本発明は、少なくとも第1の態様ではビデオ録画方法を含み、別の態様ではビデオ録画の配信方法を含み、さらに別の態様ではビデオ録画の視聴方法を含み、さらに別の態様ではビデオ録画システムを含み、さらに別の態様ではビデオ再生システムを含む。
上記の一般的な説明および以下の詳細な説明は、いずれも発明の例示であって限定ではないことが理解される。
添付図面を参照して以下の詳細な説明を読むことにより、本開示およびその多くの利点の完全な理解が得られるだろう。
ユーザに装着されたHMDの模式図である。 HMDの模式的な平面図である。 HMDによる仮想画像の形成を示す模式図である。 HMDで使われる別のタイプのディスプレイの模式図である。 立体画像のペアの模式図である。 HMDの模式的な平面図である。 ニアアイ追跡構成の模式図である。 リモート追跡構成の模式図である。 視線追跡環境の模式図である。 視線追跡システムの模式図である。 人間の目の模式図である。 人間の視力のグラフの模式図である。 中心窩レンダリングの模式図である。 中心窩レンダリングの模式図である。 解像度の変化を示す模式図である。 解像度の変化を示す模式図である。 本発明の実施の形態に係る拡張レンダリングスキームの模式図である。 本発明の実施の形態に係る拡張レンダリングスキームの模式図である。 本発明の実施の形態に係るビデオ処理方法のフロー図である。 本発明の実施の形態に係るビデオ再生方法のフロー図である。
本明細書は、ビデオ録画および再生のシステム、それらの方法を開示する。以下の説明では、本発明の実施の形態の完全な理解を目的に、いくつかの特定の詳細を示す。しかしこれらの特定の詳細の使用は、本発明の実施のために必須でないことは当業者に明らかである。逆に明確化のため、必要に応じて、当業者に既知の特定の詳細は省略することもある。
以下、参照する図面において、同一または類似の構成には同様の符号を付す。図1において、ユーザ10は、ユーザの頭30にHMD20(一例では通常のヘッドマウント可能な装置だが、他の例ではオーディオ・ヘッドホンまたはヘッドマウント可能な光源も含む)を装着している。HMDは、フレーム40(この例では、リアストラップおよびトップストラップで形成される)と、ディスプレイ部分50と、を備える。
選択的にHMDは、関連するヘッドホントランスデューサまたはイヤーピース60(これは、ユーザの左右の耳70にフィットする)を有する。イヤーピース60は、外部音源(これは、ディスプレイにビデオ信号を与えるビデオ信号源と同じものであってもよい)から与えられるオーディオ信号を再生する。
動作中、ディスプレイのためのビデオ信号はHMDによって与えられる。これは、外部のビデオ信号源80(例えばビデオゲーム機やパーソナルコンピュータなどのデータ処理装置など)によって与えられてもよい。その場合、信号は、有線または無線接続82によってHMDに送信されてもよい。好適な無線接続の例は、Bluetooth(登録商標)接続を含む。イヤーピース60のためのオーディオ信号が、同じ接続によって伝達されてもよい。同様にHMDからビデオ(オーディオ)信号源へ送られる任意の制御信号が、同じ接続によって伝達されてもよい。さらに電源83(1つ以上のバッテリーを含んでもよく、および/または主電源コンセントに接続されていてもよい)が、ケーブル84によってHMDに接続されてもよい。
このように図1の構成は、視聴者の頭にマウントされるフレームと、視線表示位置に対してマウントされるディスプレイ要素と、を備えたヘッドマウント可能なディスプレイシステムの例を与える。フレームは、1つまたは2つの視線表示位置を定義する。視線表示位置は、使用中、視聴者の目の前に配置される。ディスプレイ要素は、ビデオ信号源から視聴者の目に向けて、ビデオ表示信号の仮想画像を与える。図1はHMDの一例を示すにすぎず、他の形態も可能である。例えばHMDは、従来の眼鏡に近いフレームを用いてもよい。
図1の例では、ユーザの左右の目ごとに別々のディスプレイが与えられる。図2は、これを実現する様子の模式的な平面図である。図2は、ユーザの目の位置100およびユーザの鼻の相対位置110を示す。ディスプレイ部分50は、概略的には、周辺光をユーザの目から遮断するための外部シールド120と、一方の目が見るディスプレイを他方の目が見ないようにするための内部シールド130と、を備える。ユーザの顔に関し、外部シールド120および内部シールド130は、それぞれの目に関する2つの区画140を形成する。それぞれの区画内に、ディスプレイ要素150と、1つ以上の光学要素160と、が与えられる。図3に、ディスプレイ要素および光学要素で形成される光路(これによりユーザに表示が与えられる)を示す。
図3を参照すると、ディスプレイ要素150は表示画像を生成する。(この例では)表示画像は光学要素160(模式的に1つの凸レンズで示されるが、複合レンズ等であってもよい)によって屈折される。その結果、仮想画像170が生成される。仮想画像170は、ユーザにとっては、ディスプレイ要素150によって生成された実像より大きく、遥かに遠くにあるように見える。図3では、実線(例えば線180)は実際の光線を表し、点線(例えば線190)は仮想的な光線を表す。
図4に代替的な構成を示す。ここではディスプレイ要素150および光学要素200は共同して、ミラー210に投射される画像を与える。ミラー210は、画像をユーザの目の位置220に向けて反射する。ユーザは、仮想画像がユーザの前方位置230にあり、ユーザから適度に離れていると感じる。
ユーザの左右の目ごとに別々のディスプレイが与えられると、立体画像を表示できる。図5に、左右の目に表示するための立体画像のペアの例を示す。
HMDをバーチャルリアリティ(VR)システムなどに使った場合、ユーザの視点は、ユーザがいる空間に関する動きを追跡する必要がある。
追跡には、頭部追跡および/または視線追跡を使ってもよい。頭部追跡は、HMDの動きを検出し、表示された画像の見かけの視点を変えることによって行われる。その結果、見かけの視点は動きを追跡する。動きの追跡には、ハードウェアモーション検知器(例えば加速度計またはジャイロスコープなど)や、HMDを撮影可能な外部カメラおよびHMDに取り付けられた外向きカメラを含む任意の好適な構成を使ってもよい。
視線追跡に関し、図6aおよび図6bに2つの可能な構成を示す。
図6aは視線追跡構成の一例を示す。この構成では、HMD内にカメラが配置される。これにより、ユーザの目の画像が近距離からキャプチャされる。これはニアアイ追跡またはヘッドマウント追跡と呼ばれることもある。この例では、HMD400が(ディスプレイ要素601とともに)、カメラ610を与えられる。これらのカメラの各々は、1つ以上のそれぞれの画像を直接キャプチャするように配置される。図では、眼球追跡カメラの提供可能な配置の例として、4つのカメラ610が示されている。しかし典型的には、1つの目ごとにカメラが1つあることが望ましい。選択的には、通常通り目の動きが一定の場合は、片方の目だけが追跡されてもよい。目の画像をキャプチャするための光路内にレンズ620が含まれる形で、こうしたカメラが1つ以上配置されてもよい。カメラ630を用いたこうした配置の一例が図示されている。レンズが光路内に含まれることの利点の一例は、HMDのデザインに与える物理的制約を簡略化できることにある。
図6bに視線追跡構成の一例を示す。ここでは、ユーザの目の画像を間接的にキャプチャする形でカメラが配置される。図6bは、ディスプレイ601および視聴者の目との間に配置されたミラー650を含む。明確化のために、この図ではレンズなどの追加的な光学要素はすべて省いている。このような構成では、ミラー650は、部分的に光を透過するものが選択される。すなわちミラー650は、ユーザがディスプレイ601を見るとき、カメラ640がユーザの目の画像を撮影できるようなものが選択される。これを実現する方法の1つとして、IR波長の光は反射するが、可視光は透過するミラー650を採用することがある。これにより、追跡に使われるIR光はユーザの目からカメラ640に向けて反射される一方、ディスプレイ601が発した光は干渉されずにミラー内を透過する。このような構成の利点の1つに、ユーザの視野外にカメラを容易に配置できることがある。さらに、(反射のおかげで)カメラが実質的にユーザの目とディスプレイとの間の軸に沿った位置から画像をキャプチャするので、眼球追跡の精度が改善される。
代替的には、眼球追跡構成は、上記のヘッドマウント型またはニアアイ型でなくてもよい。例えば図7は、ユーザの画像を遠くからキャプチャするようにカメラが配置されたシステムの模式図である。図7では、カメラ700のアレイが与えられ、ユーザ710の複数の画像を与える。これらのカメラは、好適な方法を用いて、少なくともユーザ710の目が焦点を結ぶ方向を特定するための情報をキャプチャするように配置される。
図8は、眼球追跡プロセスが行われる環境の模式図である。この例では、ユーザ800は、処理ユニット830(例えばゲームコンソール)に関連するHMD810と、処理を制御するためのコマンドを入力する周辺機器820と、を使っている。HMD810は、図6aまたは図6bに例示される構成に従って眼球追跡を実行してもよい。すなわちHMD810は、ユーザ800の一方の目または両方の目の画像をキャプチャするための1つ以上のカメラを備えてもよい。処理ユニット830は、HMD810に表示するコンテンツを生成してもよい。しかしいくつかの(またはすべての)表示コンテンツは、HMD810内の処理ユニットで生成されてもよい。
図8の構成は、HMD810の外部に配置されたカメラ840と、ディスプレイ850と、を備える。場合によっては、例えば身体の動きや頭の方向を特定するためにHMD810が使われ、ユーザ800の追跡を行うためにカメラ840が使われてもよい。代替的な構成では、キャプチャされたビデオ内の動きに基づいてHMDの動きを決めるために、カメラ840が外向きにHMDに取り付けられてもよい。
キャプチャされたユーザ800の目の画像から追跡情報を生成するのに必要な処理は、HMD810によってその場で実行されてもよい。あるいは、キャプチャされた画像または1つ以上の検出結果は、処理のための外部デバイス(例えば処理ユニット830)に送信されてもよい。前者の場合、HMD810は処理結果を外部デバイスに出力してもよい。
図9は、1つ以上の眼球追跡および頭部追跡の処理を実行するシステムの模式図である。このシステムでは、例えば図8で説明した処理が実行される。システム900は、処理デバイス910と、1つ以上の周辺機器920と、HMD930と、カメラ940と、ディスプレイ950と、を備える。
図9に示されるように、処理デバイス910は、1つ以上の中央処理ユニット(CPU)911と、グラフィック処理ユニット(GPU)912と、ストレージ(ハードドライブその他の任意の好適なストレージメディア)913と、入力/出力914と、を備える。これらのユニットは、パーソナルコンピュータの形で与えられてもよいし、その他の任意の好適な処理デバイスの形で与えられてもよい。
例えばCPU911は、1つ以上のカメラから得られた1つ以上のユーザの目の入力画像から、またはユーザの視線方向を表すデータから、追跡データを生成するように構成されてもよい。これは、例えば遠隔デバイスによるユーザの目の処理画像から得られたデータであってもよい。追跡データが別の場所で生成されていれば、処理デバイス910はこうした処理をする必要がないことは言うまでもない。
代替的にまたは追加的に、上記のように頭の動きを追跡するために、(視線追跡カメラ以外の)1つ以上のカメラが使われてもよいし、HMD内の加速度計のような任意の好適なモーショントラッカーが使われてもよい。
眼球追跡または頭部追跡の対象となるユーザに表示するコンテンツを生成するために、GPUが配置されてもよい。
取得される追跡データに応じて、表示コンテンツ自体が改良されてもよい。その一例として、中心窩レンダリング技術を用いた表示コンテンツ生成がある。もちろんこうした表示コンテンツの生成処理は、別の方法で行われてもよい。例えばHMD930は、眼球追跡および/またはヘッドモーションデータを用いて表示コンテンツを生成するオンボードGPUであってもよい。
任意の好適な情報を記憶するストレージ913が与えられてもよい。一例としてこうした情報は、プログラムデータ、表示コンテンツ生成データ、眼球追跡および/または頭部追跡モデルデータを含む。こうした情報は、遠隔サーバに記憶されることもある。すなわちストレージ913は、ローカルにあっても遠隔にあってもよく、これらの組み合わせであってもよい。
このようなストレージは、生成された表示コンテンツを記録するのに使われてもよい。
処理デバイス910に適した通信を行うために、入力/出力914が配置されてもよい。一例としてこうした通信は、表示コンテンツのHMD930および/またはディスプレイ950への送信、眼球追跡データ、ヘッドモーションデータおよび/またはHMD930やカメラ94からの画像の認識、1つ以上の遠隔デバイスとの通信(例えばインターネット経由)を含む。
周辺機器920が与えられてもよい。これによりユーザは、処理を制御するために、または生成された表示コンテンツと相互作用するために、処理ユニット910に入力を与えることができる。周辺機器920はボタン等であってもよく、入力として使えるジェスチャーを実現するモーショントラックを介したものであってもよい。
HMD930は、図2の対応する要素と同様に構成されてもよい。カメラ940およびディスプレイ950は、図8の対応する要素と同様に構成されてもよい。
図10を参照すると、人間の目の構造は一様でないことが分かる。すなわち目は完全な球面ではない。異なる目のパーツは異なる特徴を持つ(例えば屈折率や色が異なる)。図10は、典型的な目1000の構造を簡略化した側面図である。明確化のためこの図では、目の動きを制御する筋肉などの特徴は省いている。
目1000は、球面に近い構造で形成され、水溶液1010で満たされる。網膜1020は目1000の前面に形成される。視神経1030は、目1000の後部で接続される。目1000に入射する光によって網膜上に画像が形成される。視覚情報を伝達する信号が、網膜1020から脳に視神経1030を介して送信される。
目1000の前面を参照すると、強膜1040(通常は白目と呼ばれる)が虹彩1050を取り巻いている。この虹彩1050は、瞳1060の大きさを制御する。瞳1060は、目1000に光が入射するときの開口である。虹彩1050および瞳1060は、角膜1070によって覆われている。角膜1070は透明な層であり、目1000に入射する光を屈折する。目1000はまた、虹彩1050の後に位置するレンズ(図示せず)を備える。このレンズは、目1000に入射する光の焦点を調整するように制御される。
目の構造には視力の高い領域(中心窩)があり、この中心窩の両側に向けて視力が急速に低下する。図11は、この様子を曲線1100で示す。図11の中心付近のピークが、中心窩領域に相当する。領域1110は「盲点」である。盲点は視力が喪失する領域である。これは、この領域で視神経が網膜に接続することによる。周辺部(すなわち視角が中心窩から大きく外れた領域)は、色や細部に対してあまり敏感でなく、動きを検知するために使われる。
上記のように、中心窩レンダリング(または中心窩適応レンダリング)は、中心窩付近の比較的小さい領域(およそ2.5度から5度)で有効であり、この領域外では視力は急速に低下する。
通常の中心窩レンダリング技術は、典型的には複数のレンダーパスを必要とする。これは、異なる解像度で画像フレームを複数回レンダリングできるようにするためである。レンダリング結果はその後合成され、1つの画像フレーム内に解像度の異なる領域が作成される。複数のレンダーパスを使うと、大きな処理オーバーヘッドが必要となり、領域間の境界に望ましくない画像アーティファクトが生じる可能性がある。
代替的に、解像度の異なる部分を1つの画像内にレンダリングできるハードウェアが使える場合がある(いわゆるフレキシブル・スケール・ラスタライゼーション)。この場合、追加的なレンダーパスは不要である。こうしたハードウェアが入手できれば、性能の点でもこうしたハードウェア・アクセラレート実装は有利である。
図12aは、表示されたシーン1200のための中心窩レンダリングの模式図である。ユーザは、関心領域の方向に視線を向ける。上で説明したように、視線の方向は追跡される。明確化のため、この例では、視線の方向は、表示された視野の中心に向けられている。従って、ユーザの高解像度中心窩領域に概ね一致する領域1210は、高解像度でレンダリングされる。一方、周辺領域1220は、低解像度でレンダリングされる。視線追跡により、画像の高解像度領域はユーザの目の視力の高い中心窩領域に投射される一方、画像の低解像度領域はユーザの目の視力の低い領域に投射される。ユーザの視線を継続的に追跡してレンダリングすることにより、ユーザは、画像全体が高解像度の画像であるかのように錯覚する。なぜなら、画像は常にユーザ自身の視野の高解像度部分に現れるからである。しかし実際には、典型的に画像の大部分は、低解像度でレンダリングされる。これにより、全画像をレンダリングするための計算機オーバーヘッドを大きく低減できる。
これはいくつかの点で有利である。第1に、同じ計算機資源で、従来に比べてより豊かで、より複雑なおよび/またはより詳細なグラフィックスをユーザに提供できる。さらに同じ計算機資源で、単一の画像(例えばテレビジョンに表示される画像)でなく、2つの画像(例えばヘッドマウントディスプレイに表示する立体画像の左右の画像)をレンダリングできる。第2に、HMDのようなディスプレイに送信されるデータの量を低減できる。さらに選択的には、HMDでの画像の前処理(例えば再投影)の計算機コストを低減できる。
図12bを参照すると、選択的に、中心窩レンダリングは、画像の中心窩領域と周辺領域との間で、解像度をマルチステップでまたは段階的に変化させることができる。これは、図11に示されるように、目の中心窩から周辺領域への視力低下が滑らかであることによる。
従って、変形例において表示されたシーン1200’では、中心窩領域1210は、中心窩領域と減少した周辺領域1220’との間に配置された移行領域1230で取り巻かれている。
移行領域は、中心窩領域の解像度と周辺領域の解像度の間の中間の解像度でレンダリングされてもよい。
図13aおよび図13bを参照する。代替的にこれは、見積もられた視線位置からの距離の関数としてレンダリングされてもよい。例えばこれは、距離とともに徐々にまばらとなるピクセルと、ピクセルマスクと、を用いて実行されてもよい。これは、対応する画像ピクセルが先ずレンダリングされ、残りのピクセルは近くのレンダリングされた色に従って混入されることを表す。代替的に、フレキシブルスケールラスタライゼーションシステムにより、好適な解像度分布曲線を用いて実行されてもよい。図13aは、解像度の線型遷移を示す。図13bは、ユーザの目の中心窩から離れるときの視力の非線型減衰を反映した、解像度の非線型遷移を示す。第2のアプローチでは、解像度はより速く減衰するので、より効率的に計算機オーバーヘッドを低減できる。
このようにして、視線追跡が可能である(例えば、1つ以上の視線追跡カメラの使用、その後のユーザの視線および仮想画像上の視線位置の計算によって)。選択的に、高解像度の錯覚を維持するために、中心窩レンダリングを適用してもよい。この場合、画像生成に伴う計算機オーバーヘッドを低減しつつ、少なくとも中心窩領域では、得られる画像の品質を向上することができる。および/または、2つの通常の画像を生成するとき、2倍より低いコストで、第2の視点を提供する(例えば立体画像のペアを生成する)ことができる。
さらにHMDを装着しているとき、視線領域1210が視線ベースの最大関心領域の表示領域である場合、レンダリングされたシーン全体は頭の位置ベースの一般関心領域の表示領域である。すなわち、表示された視野1200は、HMDを装着しているときのユーザの頭の位置を反映する。これに対し、当該領域内の中心窩レンダリングは、ユーザの視線位置を反映する。
実際には、表示された視野1200の周辺領域は、特別なケースとして解像度ゼロでレンダリングされた(すなわち実際にはレンダリングされない)領域と考えることができる。なぜならユーザは、表示された視野の外は見ることができないからである。
しかし、録画されたオリジナルユーザのゲームプレーを、第2のユーザが自分のHMDを装着して見たい場合は、(オリジナルユーザと同じコンテンツを見る場合であっても)上記の限りではない。以下で説明する実施の形態では、図14aに従うと、中心窩レンダリングの原理を、オリジナルユーザに表示される視野1200を超えた領域にまで拡張することができる。これは、オリジナルユーザの視野のさらに外側の周辺領域を、さらに低い解像度でレンダリングすることを意味する。こうしたより低解像度の領域は、通常はオリジナルユーザには見えない(なぜなら、これは現在の視野1200とともにのみ表示されるからである)。しかしこれは、現在の視野内の中心窩レンダリングと同じ技術を用いて、同じレンダリングパイプラインの一部としてレンダリングすることができる。
この実施の形態では、ゲーム機または他のレンダリング源は、表示された画像1200の上位セットをレンダリングする。選択的には、先ず高解像度中心窩領域1210がレンダリングされる。その後選択的に、移行領域1230(図14aには示されない)とともに、ユーザに表示される視野内にある周辺領域1220がレンダリングされる。その後、さらなる周辺領域1240、すなわちユーザに表示される視野の外がレンダリングされる。なお本明細書の文脈で「レンダリング」とは、表示(および/または録画)可能な、または即座に準備可能な、または何らかの可視的な形で出力可能な、画像データを生成することを意味する。
このさらなる周辺領域は、典型的には、ユーザの頭を仮想的な中心とする球面である(またはより正確には、球面が形成される)。このさらなる周辺領域は、ユーザに表示される視野の内部の領域1220より低い解像度でレンダリングされる。
選択的に図14bを参照すると、図12bに示される移行領域と同様の方法で、ユーザに表示される視野の周辺に移行領域1250が作成されてもよい。この場合、ユーザに表示される視野内の周辺領域1220の解像度は、球面状のさらなる周辺領域のために、より低い解像度に引き下げられる。再びこれは、中間解像度または線型もしくは非線型の下降であってもよい。移行領域の相対サイズは、デザイン選択の問題であってもよいし、実験的に決められてもよい。例えば、オリジナルユーザの頭の動きを追跡したいと思うオリジナルユーザの録画の視聴者(典型的には、オリジナルユーザが、ゲーム内の関心対象または関心イベントを追跡していることによる)は、反応時間が限られるので、表示された視野を完全に追跡しなくてもよい。従って、移行領域のサイズは、ユーザに表示された視野が仮想的な球面周辺を動くとき、これを追跡するときの相対的なタイムラグに基づいて選ばれてよい。このタイムラグは、視野のサイズおよび速度の関数であってもよい。従って例えば、オリジナルユーザが頭を素早くおよび/または長い距離を動かした場合、移行領域1250は時間的に長く、そのサイズは速度および/または距離の関数であり、選択的には全体的な計算機資源の関数でもある(この場合は、選択的に、全体的な計算機資源を維持するために、さらなる球面領域の残りの部分の解像度は、時間的に縮小されてもよい)。逆に、オリジナルユーザの視野が比較的固定されている場合、移行領域は比較的小さくてもよい。例えば、第2のユーザの頭の微小な動きに適応するのに十分な大きさとか、次のヘッドマウントディスプレイの異なる(おそらくより大きな)視野に適応するのに十分な大きさ(例えば、視野が110°の第1世代のヘッドマウントディスプレイを使って録画した場合、より広い視野を持つ第2世代のヘッドマウントディスプレイを見越して、移行領域は120°まで拡大されてもよい)といった具合である。
球面画像のレンダリングは、レンダリングパイプの中で、例えばキューブマップとして行われてもよいし、その他の好適な球面レンダリング技術を用いて行われてもよい。
上記のように、オリジナルユーザは、表示された視野1200だけを見る。選択的に、表示された視野1200自体は、高解像度の中心窩領域、選択的な移行領域、および周辺領域を備える。あるいは、ヘッドマウントディスプレイが視線追跡を行わないところでは、表示された視野は所定の解像度を持つ。レンダリングされた球面画像の残りの部分は、オリジナルユーザが見ることはなく、低解像度でレンダリングされる。選択的に、表示された視野と球面の残りの部分との間に、移行領域が存在する。
従ってこのスキームでは、表示された視野は、視線ベースの中心窩レンダリングではなく、頭部ベースの中心窩レンダリングスキームであると考えることができる。このスキームでは、ユーザが頭を動かしたとき、比較的高解像度で表示された視野が、レンダリングされた球面全体の周辺を動く。一方選択的には、同時にユーザが視線を動かしたとき、より高解像度の領域が、表示された視野内で動き回る。オリジナルユーザは、表示された視野のみを見る。しかしその後でレンダリングされた画像の録画を見る視聴者は、オリジナルユーザの視野の球面内とは無関係に、潜在的には球面全体にアクセスできる。
従って視聴者は、通常はオリジナルユーザの視野を追跡しようとするが、現在の自分の視野がオリジナルユーザの視野と異なるときは、周辺を楽しむために球面画像内の別の場所を見てもよいし、オリジナルユーザが興味を持たなかったところを見てもよいし、単純により大きな没入感を得てもよい。
従来の画像がゲーム機の環状バッファに記録されるのと同じ方法で、例えば画像全体(オリジナルユーザに表示された画像の球面状の上位セット)が環状バッファに記録されてもよい。画像全体の1分、5分、15分、30分または60分といったフッテージを記録するのに、例えばゲーム機のハードディスク、固体ディスクおよび/またはRAMが使われてもよい。ユーザが録画した素材を保存/アーカイブすることを特に望まない限り(望む場合は、個別のファイルをハードディスクや固体ディスクに複製してもよいし、サーバにアップロードしてもよい)、最も古いフッテージを新しいフッテージで上書きしてもよい。同様に画像全体が、配信サーバにアップロードされてライブで配信されてもよいし、環状バッファから配信またはアップロードされてもよいし、配信サーバまたはVODサーバにアップロードされ後に配信されてもよい。
結果として、HMDを装着したオリジナルユーザが頭を動かしたとき、当該オリジナルユーザに表示された視野が高解像度領域となるような球面画像が生成される。選択的に、この高解像度領域の中に、視野内の視線位置に相当するさらに解像度の高い領域が生成される。
選択的に、球面画像とともにメタデータが記録されてもよい。メタデータは、ビデオ録画の一部であってもよいし、関連ファイルであってもよい。メタデータは、表示された視野が球面画像内のどこにあるかを表す。これは、例えば第2のユーザが混乱したりオリジナルユーザの視野を見失って追跡できなくなったりしたとき、彼を手助けするために使われてもよい(例えば、スペースバトルを視聴中にオリジナルユーザが宇宙船を視野外に撃ち落とした場合、第2のユーザは宇宙船やオリジナルユーザの視野を追跡するための視点を失うだろう)。この場合、オリジナルユーザの表示視野が現在どの方向にあるかを示す矢印や、第2のユーザの視野の周辺部の端部にある輝点などのナビゲーションツールがあれば、録画された画像内の最高解像度領域に戻れるようガイドするのに役立つだろう。
このようにして第2のユーザは、視線を変えて別の場所に移動した場合も、オリジナルユーザの表示視野内に確実に戻ることができる。
第2のユーザがシーンを見回すのは、別のイベントが起こった場合や、仮想環境内に他のオブジェクトが存在した場合であると考えられる。これらは、オリジナルユーザにとっては関心がないか興味がないが、第2のユーザにとってはより興味深いものである。
従って選択的に、ゲーム機(またはゲームその他のアプリケーション)はリスト、表その他の関連データを維持してもよい。これらのデータは、特定のオブジェクト(ノンプレーヤーキャラクターなど)や環境要因の関心度、および/または、特定のイベント(オブジェクトやキャラクターの登場、爆発など)への関心度、または関心が高いとタグ付けされたスクリプトイベントの一部などを表すデータである。
このような場合、こうしたオブジェクトまたはイベントがオリジナルユーザに表示される視野外の球面画像内で発生する場合は、こうしたオブジェクトまたはイベントに相当する球面内の領域が、比較的高解像度(例えば、移行領域1250の途中または最初に表示された周辺領域1220に相当する解像度)でレンダリングされてもよい。選択的に、全体的な計算機資源を維持するために、球面画像の他の部分がより低解像度でレンダリングされてもよい。選択的に、オブジェクトまたはイベントの関心度に応じて、解像度が引き上げられてもよい(例えば、関心度が0、低い、高いオブジェクトまたはイベントに対する解像度の引き上げは、それぞれ0、1、2といった具合である)。
こうしたオブジェクトまたはイベントは、画像が周辺領域に滑らかに移行できるように、周囲に移行領域1230または1250と同様の移行領域を有していてもよい。これにより、オリジナルユーザが見ないオブジェクトまたはイベントを、第2のユーザが見ることができる。このときの解像度は、より関心度の低い球面画像の部分の解像度より引き上がられている。
中心窩レンダリングの原理がオリジナルユーザの視野を越えて拡張されて、さらなる周辺領域または球面領域(または環状立体領域や円柱領域)を生成する領域が追加される場合、あるいは実際には中心窩レンダリングが使われず(例えば視線追跡が存在しないため)中心窩レンダリングの原理がオリジナルユーザの視野外に適用される場合を考える。このような場合、選択的に、上記のスキームは、1人以上のユーザ、レンダリングされた環境を生成するアプリケーションゲームコンソールのオペレーティングシステムまたはヘルパーアプリケーション(例えば配信/ストリーミングやアップロードのためのアプリケーション)によって起動または停止されてもよい。
例えば上記のスキームは、デフォルトではオフであってもよい。なぜなら上記のスキームは計算機オーバーヘッドとなり、実行中のゲームがストリームまたは配信されてない間は不要だからである。従って上記のスキームは、ゲームがストリームまたは配信されるときオンとなるような、またはストリームやアップロード開始の指示に応答してオンとなるような、オプションとしてユーザに与えられてもよい。
視聴者が、オリジナルユーザとはさらに異なる視線方向を見たい場合を考える。この場合もやはり、例えばゲームイベントまたは特定のレベルもしくはカットシーンなどに応答して、ゲームまたはレンダリングされた環境を生成するアプリケーションが上記のイベントを起動してもよい。
[フレームレート]
上記のスキームは、計算機オーバーヘッドを増加させる。なぜなら上記のスキームは、たとえオリジナルユーザに表示された視野内のより低解像度のシーンであっても、より多くのシーンをレンダリングする必要があるからである。
これを軽減するために、オリジナルユーザに表示される視野外(または選択的に、オリジナルユーザに表示される視野との境界である移行領域1250の外)でレンダリングされる部分は、視野内(または選択的に移行領域)より低いフレームレートでレンダリングされてもよい。
従って、例えば視野が毎秒60フレーム(fps)でレンダリングされ、球面の残りの部分が30fpsでレンダリングされてもよく、選択的に計算機資源が許せば60fpsより高解像度でレンダリングされてもよい。
選択的に、60fpsのフレームレートを回復するために、録画画像のアップロードサーバが球面の残りのフレームを挿入してもよい。
より一般的には、球面の残りの部分(選択的にオリジナルユーザの視野の周辺の移行部分を含む)は、オリジナルユーザに表示される視野のフレームレートの数分の1(典型的には1/2または1/4)のフレームレートでレンダリングされる。その後、画像のこの部分は、ゲーム機または録画画像が送信されるサーバによってフレーム挿入される。
[アップスケール]
低減されたフレームレートを補償するための時間的/フレーム補間の代替または追加として、球面内で低減された画像解像度を補償するために空間的アップスケールが使われてもよい。これは、オフライン処理(例えば上記のゲーム機またはサーバで)またはコンテンツの次のユーザのクライアントデバイスを用いて実現されてもよい。
好適なアップスケール技術は既知であり、バイリニアおよびバイキュービック補間アルゴリズム、sincおよびLanczosリサンプリングアルゴリズム等を含む。
代替的にまたは追加的に、機械学習(例えばニューラル)レンダリングまたはインペインティング技術(例えば、画像をアップスケールするように訓練された畳み込みニューラルネットワークなど)が使われてもよい。本実施例では、中心窩領域(または視野領域)の解像度と、より低い解像度(用途に応じて、周辺領域、さらなる周辺領域、移行領域の解像度)との間の解像度の違いを用いて、画像をアップスケールするように機械学習システムを訓練することができる。選択的に、各機械学習システムは、それぞれのアップスケール率に関して訓練することができる。
このような機械学習システムは、完全な解像度を持つターゲット画像と、低減された解像度を持つ入力画像(例えば、ターゲット画像をダウンスケールして生成された画像や、より低い解像度/品質で再レンダリングされたターゲット画像)と、を用いて訓練される。本発明の実施の形態では、訓練セットは、レンダリングされたターゲット画像(中心窩領域に相当、あるいは中心窩領域がなければ視野領域に相当)と、対応する入力画像(1つ以上の他の領域に相当)と、を含んでもよい。典型的に機械学習システムは、画像全体では訓練されず、画像から抽出された固定サイズのタイルで訓練される。例えばタイルは、16×16ピクセル、32×32ピクセルあるいは64×64ピクセルであってもよい。ターゲットは、対応する同じサイズのタイルであってもよい。しかしターゲットは、より高解像度の画像を表す。従って、このターゲットタイルは、入力タイル内に見られる画像のサブセットにのみ対応してもよい。例えば、入力解像度が640×480で、ターゲット解像度が1920×1080だった場合、32×32の入力タイルは、画像内で、32×32の出力タイルの約6.75倍の大きさの画像領域に相当する。これにより、機械学習システムは、入力画像の周辺ピクセルに使うことができる。これは、入力内の繰り返しパターンまたはテクスチャからの情報を用いることにより、入力タイルに相当する部分のアップスケールに寄与することができ、あるいはクロミナンスもしくは輝度の傾きまたは曲線が、より良好な評価に寄与することができる。
出力タイルは、入力サイズと同じサイズでなくてもよく、入力タイルの画像領域に相当するサイズまで拡大されてもよい。一方入力タイルは、機械学習システム(および機械学習システムが使われる機器)が許す限り、画像の任意の部分(最大限全画像)を表してもよい。
入力画像タイルの周辺ピクセルの使用は、出力タイルに相当する部分のアップスケールに寄与するものだが、それに限られず、上記の技術を用いてアップスケールしているときに使われてもよく、また機械学習に限られない。
訓練画像は任意の画像であってよいが、機械学習システムは、アップスケールされるフッテージと同じゲーム(および/または同じルックを持つシリーズの過去のゲーム)で訓練されると、より良好な性能が得られる。
選択的に、これらの任意の補間技術は、他の画像フレームからの追加的な情報(例えば、過去および/または未来の画像フレーム)を使ってもよい。こうした追加的な情報により、別の補完的な情報が決まる。
本出願のいくつかの実施の形態では、視点がシーンの周囲で動くとき、オリジナル視野からの画像情報が要求されてもよい。これにより、より高解像度の参照ピクセルが与えられ、これがより低い異解像度でレンダリングされた部分の処理に実質的に置き換わってもよい。例えば、ユーザの頭が左に動いたとき、現在のシーン中心部分が右にパンし、低い解像度でレンダリングされてもよい。しかしながら当該シーン部分の高解像度データは、視界の中心にあったところで、より初期のフレームから得られる。
選択的に、フレームは、視界の中心方向を示すメタデータを含んでもよい。フレームの周辺領域またはさらなる周辺領域をアップスケールしているとき、システムは、こうした領域が最後に視界の中心にあったかどうか(いつあったか)を求めてもよく、当該フレームから高解像度ピクセルを取得してもよい。
代替的にまたは追加的に、システムは、最後のフレーム(このフレーム内でピクセルが高解像度でレンダリングされる)から与えられたピクセルのデータを用いて、球面状の参照画像を生成してもよい。この場合、中心窩視界は筆のように扱われ、各フレームで後縁から高解像度ピクセルの跡を残す。ユーザが環境を見回すと、この筆は現在の視界の高解像度画像を描く。周辺領域(中心窩領域が存在しない場合は視野領域)もまた同様に、筆として扱うことができる(その値は、中心窩ピクセルによって優先される)。これにより、球面の最大表面領域を、これらのより高い解像度のピクセルでペイントすることができる。さらなる移行領域(存在すれば)でも、同じアプローチを使うことができる。要約すると、参照球面上の所定の位置に関し、最近の最高解像度のピクセル値が記憶され、ユーザが周囲を見回すたびにアップデートされる。これらの値は、例えば所定の時間経過後に(またはユーザが所定の量より大きく動いた場合、あるいはゲーム環境が所定の程度より大きく変化した場合)、削除することもできる。
その後、これらのピクセルは、周辺領域またはさらなる周辺領域の現在のアップスケールのためにピクセルを埋めるのに直接使われてもよいし、上記の任意の技術に関する追加的な入力データとして使われてもよい。例えば、現在のフレームの周辺領域およびさらなる周辺領域をアップスケールしているとき、球面参照画像は、(例えば)球面の40%の高解像度ピクセルを含んでもよい。なぜなら、ユーザが直近で後方に振り向いた場合、連続する20または30フレームにわたって、球面視野の40%が中心窩解像度(または視野解像度)の領域に含まれるからである。従ってアップスケーラーは、アップスケールされる現在のフレームの低解像度データと併せて、入力として(例えば高解像度ターゲットタイルに相当するサイズの、あるいはそれよりいくらか大きいサイズの)高解像度データを使うことができる。
典型的に、現在の低解像度入力およびそれに伴う高解像度入力の両方で訓練されたニューラルネットワークは、高解像度ターゲットに対してより良好に機能する。この状況において、ニューラルネットワークは、ユーザの視線が比較的ランダムに分布した場合に対応するために、複数の解像度(例えば、中心窩領域、周辺領域およびさらなる周辺領域の解像度)を持つ入力で訓練されてもよい(これにより、参照球面画像のどの部分が、より解像度の高い情報で埋められるかが決められる)。このアプローチの改良として、ゲームプレー中のユーザの視線方向の可能性を見積もることができ、この可能性に相当する周波数で選択された解像度を用いてニューラルネットワークを訓練することができる。例えば、ユーザが自分の真後ろを見ることは稀なので、こうしたときの入力は訓練中最も解像度が低いものとして選択される(しかし現在の入力とは異なる。なぜならこれはより古いフレームデータから作られ、依然として相補的だからである)。一方、前方視界の左および右は、高品質のデータを取得する可能性が高く、訓練中最も解像度が高いものとして選択される。
代替的にまたは追加的に、選択的には機械学習システムは、低いおよびより高い解像度で訓練されたゲーム環境のウォークスルーを有するビデオをアップスケールするように訓練されてもよい。このゲーム環境は、例えば環境を体験し、ターゲット解像度で画面球面をレンダリングした(これは、結果として得られるフレームレート/経過時間無関係であってもよい。なぜならこれらはゲームプレーの目的ではないからである)開発者によって作られたものであってもよい。このように機械学習システムは、特に未解決のゲームで訓練され、完全なターゲットおよび入力データ(完全球面のための完全解像度情報、およびそれらのダウンサンプルされたもの。または例えばビデオの両バージョンの同じゲーム内進行を生成するスクリプトを用いて生成されたより低解像度のレンダリング)を使う。再び典型的には、これらはタイル化された形式でアップスケーラーに示される。
アップスケールプロセスの信頼性を上げるのに、別の戦略が使われてもよい。例えばキューブマップを使って球面をレンダリングする場合、各機械学習システムは、キューブマップの各ファセットで訓練されてもよい。これにより、球面内の前、後、上、下、左、右の各視野に特化した訓練がされる。これにより、得られる典型的な解像度データおよびコンテンツ(例えば、上と下とでは異なる)に合うように機械学習システムをチューニングすることができる。選択的に、特に上および後に関する機械学習システムは(球面のこれらの部分の信頼性は、他の部分に比べてそれほど重要でないと仮定すると)、より小さくより簡単なものであってもよい。
原理的に残りの球面を含む録画されたビデオは、空間的および/または時間的に低減された解像度を持つ。従ってフレームを補完しおよび/またはアップスケールするために、これらの解像度は、少なくとも部分的には、ゲーム機および/または蓄積/配信サーバによる平行なおよび/または後続する処理によって補償される。
その後サーバは、(空間的および/または時間的に)アップスケールされたビデオ画像(あるいは上記の変形例を適用しない場合は、オリジナルにアップスケールされたビデオ画像)を、1人以上の視聴者(または、こうした機能を持つさらなるサーバ)に配信してもよい。
その後視聴者は、自分のクライアントデバイスのアプリケーションを用いてビデオを見ることができる。あるいは視聴者は、オリジナルユーザの視点を追跡したり、シーンを自由に見回したりすることができる。このとき、オリジナルユーザの視野領域/中心窩領域の外の解像度は、オリジナルの録画画像に比べて向上している。
[実施の形態の概要]
図15を参照すると、本開示の実施の形態に係るビデオ処理方法は、第1の解像度を持つオリジナル視野領域(「FoV」)と、第1の解像度より低い第2の解像度を持つオリジナル視野領域外のさらなる周辺領域と、を備えた環状パノラマ録画ビデオを処理する方法である。この方法は、さらなる周辺領域を第2の解像度より高い解像度に空間的にアップスケールするステップS1510を含む。上記のように、アップスケールされた解像度は、移行領域、オリジナル視野領域(FoV)または中心窩領域のいずれの解像度であってもよい。一方、オリジナル視野領域(FoV)または中心窩領域の目的に鑑みれば、特にユーザにとって比較的関心の低い領域(例えば、大抵のゲームにおける空など)では、より低い解像度(例えば、移行領域の解像度)が使われるか、オリジナルユーザまたは以前の同様の素材の視聴者の視覚ヒートマップに基づくことがことが望ましい。
本明細書および請求項に記載の装置の実施の形態の操作に相当する方法の諸態様は、本発明の範囲内にあることを当業者には明らかだろう。この方法は以下を含む。
-ある実施の形態では、オリジナル視野領域は、第1の解像度より高い第3の解像度を持つ中心窩領域を備える。本方法は、オリジナル視野領域を実質的に第3の解像度に等しい解像度に空間的にアップスケールするステップを含む。
-ある実施の形態では、環状パノラマ録画ビデオは、中心窩領域とオリジナル視野領域との間に第1の移行領域と、オリジナル視野領域とさらなる周辺領域との間に第2の移行領域と、を備える。第1の以降領域は、第3の解像度と第1の解像度との中間の解像度を持つ。第2の以降領域は、第1の解像度と第2の解像度との中間の解像度を持つ。
-ある実施の形態では、空間的にアップスケールするステップは機械学習システムによって実行され、機械学習システムは、録画解像度内におけるより低い入力解像度で入力画像データで訓練され、録画解像度内におけるより高い入力解像度で対応ターゲット画像データで訓練される。アップスケールされた解像度は、移行領域、オリジナル視野領域(FoV)、中心窩領域のいずれか1つ以上の解像度である。
-ある実施の形態では、本方法は、所定の数の先行フレームに関し、各フレーム内で第2の解像度より高い解像度を持つ画像データの少なくともサブセットの位置を記憶するステップと、環状パノラマ録画ビデオの現在フレームの所定の部分のアップスケールを行っているとき、入力としての現在フレームの所定の部分の位置でより高い解像度を持つ1つ以上の先行フレームの画像データを使用するステップと、を含む。
-同様にある実施の形態では、本方法は、オリジナル視野領域は、第1の解像度より高い第3の解像度を持つ中心窩領域を備え、所定の数の先行フレームに関し、各フレーム内で第3の解像度を持つ画像データの位置を記憶するステップと、環状パノラマ録画ビデオの現在フレームの所定の部分のアップスケールを行っているとき、入力としての現在フレームの所定の部分の位置で第3の解像度を持つ1つ以上の先行フレームの画像データを使用するステップと、を含む。
-ある実施の形態では、本方法は、所定の数の先行フレームのそれぞれの中で第2の解像度より高い解像度を持つ画像データの少なくともサブセットを用いて参照環状パノラマ画像を生成するステップと、環状パノラマ録画ビデオの現在フレームの所定の部分のアップスケールを行っているとき、入力としての参照環状パノラマ画像の対応部分からの画像データを使用するステップと、を含む。環状パノラマ画像は、参照環状パノラマ画像の上で各方向に最近レンダリングされたより高い解像度を持つピクセルを記憶する(選択的に、他のデータが得られない場合は、最近の第2の解像度のデータを用いて)。
-この場合、選択的に、参照環状パノラマ画像により、所定の画像フレームのより高い解像度領域に関するピクセルデータが、より低い解像度領域に関するピクセルデータに優先して記憶される。
-同様にこの例では、選択的に、空間的にアップスケールするステップは機械学習システムによって実行され、機械学習システムは、録画解像度内におけるより入力低い解像度で入力画像データおよび参照環状パノラマ画像からの対応入力データで訓練され、録画解像度内におけるより高い入力解像度で対応ターゲット画像データで訓練される。
-ある実施の形態では、環状パノラマ画像はキューブマップを用いてレンダリングされ、空間的にアップスケールするステップは、キューブマップの1つ以上のファセットで訓練される複数の機械学習システムによって実行される。
-ある実施の形態では、環状パノラマ画像は、円柱状または球面状である。
図16を参照すると、本開示のある実施の形態はビデオ出力方法であって、以下を含む。
上記の方法に従って、空間的にアップスケールされた環状パノラマ録画ビデオを取得する第1のステップS1610。このビデオは、アップスケールを実行するデバイスから取得されてもよいし、当該ビデオがアップロードされたサーバから取得されてもよいし、代替的にはアップスケールを実行することにより取得されてもよい(例えば、配信サーバまたはクライアントデバイスで)。
ユーザに表示するために環状パノラマ録画ビデオを出力する第2のステップS1620。典型的には、これは、HMD(あるいは、クライアントデバイスが携帯電話や手持ちコンソールの場合、潜在的にはクライアントデバイスそのものであったり、HMDフレームにマウントされたものであったりする)による視聴のため、ビデオ信号源80のポート(例えば、ユーザのクライアントデバイス)に出力される。
ある実施の形態では、選択的に、環状パノラマ録画ビデオは、各フレームのオリジナル視野領域を備える。再生中にユーザの視野がオリジナル視野領域から所定の量外れた場合、オリジナル視野領域が環状パノラマ録画ビデオのどこにあるかを示す視覚的表示が表示される(例えば、視点に向かう矢印や現在画像の周辺部の端部にある輝点など)。
上記の方法は、好適なソフトウェア命令が適用可能な通常のハードウェアまたは(これらに追加してもしくはこれらに代えて)専用のハードウェアを用いて実行できることが理解できるだろう。
通常の同等デバイスの既存のパーツを用いた実現は、非一時的なコンピュータ読み取り可能な媒体(例えば、フロッピーディスク(登録商標)、光ディスク、ハードディスク、固体ディスク、PROM、RAM、フラッシュメモリまたはこれらの記録媒体の組み合わせ)に記録された命令を実行可能なプロセッサを備えたコンピュータプログラムプロダクトの形で可能であり、あるいはハードウェア(例えば、ASIC(application specific integrated circuit)、FPGA(field programmable gate array)その他の通常のデバイスに適した設定可能な回路)を用いても可能である。こうしたコンピュータプログラムは、ネットワーク(例えば、イーサネット(登録商標)、無線ネットワーク、インターネットまたはこれらのネットワークの好適な組み合わせ)上のデータ信号を介して送信されてもよい。
本開示の概要において、ビデオ処理システム(例えば処理システム910、すなわちPlayStation5(登録商標)などのビデオゲームコンソール、典型的にはヘッドマウントディスプレイ810と組み合わされたもの)は、
第1の解像度を持つオリジナル視野領域と、第1の解像度より低い第2の解像度を持つオリジナル視野領域外のさらなる周辺領域と、を備えた環状パノラマ録画ビデオの空間的なアップスケールを実行するためのビデオプロセッサであって、さらなる周辺領域を第2の解像度より高い解像度に空間的にアップスケールする空間的アップスケールプロセッサを備えることを特徴とするビデオプロセッサを備える。
本明細書および請求項に記載の方法および技術に相当する上記のビデオ処理システムの諸態様は、本発明の範囲内にあることを当業者には明らかだろう。
同様に、ビデオ処理システム(例えばビデオ処理システム910、PlayStation5(登録商標)などのビデオゲームコンソール、典型的にはヘッドマウントディスプレイ810と組み合わされたもの)は、前述の方法に従って空間的にアップスケールされた環状パノラマ録画ビデオを取得する(例えば好適なソフトウェア命令により)再生プロセッサ(例えばGPU911および/またはCPU912)と、ユーザに表示するためにビデオを出力する(例えば好適なソフトウェア命令により)表示プロセッサ(例えばGPU911および/またはCPU912)と、を備える。
再び、本明細書および請求項に記載の方法および技術に相当する上記のビデオ処理システムの諸態様は、本発明の範囲内にあることを当業者には明らかだろう。
上記の議論は、本発明の実施の形態の例を開示し説明するに過ぎない。本発明の思想および本質的な特徴を逸脱することなく、本発明を別の特定の形で実現できることを当業者は理解するだろう。従って本発明の開示は例示を目的とし、本発明の範囲および請求項を限定することを意図しない。上記の教示の識別可能な任意の変形例を含む本開示は、請求項の用語の範囲を部分的に定義する。発明の主題は公衆に献呈されるものではない。

Claims (17)

  1. 第1の解像度を持つオリジナル視野領域と、前記第1の解像度より低い第2の解像度を持つ前記オリジナル視野領域外のさらなる周辺領域と、を備えた環状パノラマ録画ビデオを処理するビデオ処理方法であって、
    前記さらなる周辺領域を前記第2の解像度より高い解像度に空間的にアップスケールするステップを含むことを特徴とする方法。
  2. 前記空間的にアップスケールするステップは、前記さらなる周辺領域を実質的に前記第1の解像度に等しい解像度にアップスケールするステップであることを特徴とする請求項1に記載の方法。
  3. 前記オリジナル視野領域は、前記第1の解像度より高い第3の解像度を持つ中心窩領域を備え、
    前記オリジナル視野領域を実質的に前記第3の解像度に等しい解像度に空間的にアップスケールするステップを含むことを特徴とする請求項1または2に記載の方法。
  4. 前記環状パノラマ録画ビデオは、前記中心窩領域と前記オリジナル視野領域との間に第1の移行領域と、前記オリジナル視野領域と前記さらなる周辺領域との間に第2の移行領域と、を備え、
    前記第1の以降領域は、前記第3の解像度と前記第1の解像度との中間の解像度を持ち、
    前記第2の以降領域は、前記第1の解像度と前記第2の解像度との中間の解像度を持つことを特徴とする請求項3に記載の方法。
  5. 前記空間的にアップスケールするステップは機械学習システムによって実行され、
    前記機械学習システムは、録画解像度内におけるより低い入力解像度で入力画像データで訓練され、録画解像度内におけるより高い入力解像度で対応ターゲット画像データで訓練されることを特徴とする請求項1から4のいずれかに記載の方法。
  6. 所定の数の先行フレームに関し、各フレーム内で前記第2の解像度より高い解像度を持つ画像データの少なくともサブセットの位置を記憶するステップと、
    前記環状パノラマ録画ビデオの現在フレームの所定の部分のアップスケールを行っているとき、入力としての現在フレームの所定の部分の位置でより高い解像度を持つ1つ以上の先行フレームの画像データを使用するステップと、を含むことを特徴とする請求項1から5のいずれかに記載の方法。
  7. 前記オリジナル視野領域は、前記第1の解像度より高い第3の解像度を持つ中心窩領域を備え、
    所定の数の先行フレームに関し、各フレーム内で前記第3の解像度を持つ画像データの位置を記憶するステップと、
    前記環状パノラマ録画ビデオの現在フレームの所定の部分のアップスケールを行っているとき、入力としての現在フレームの所定の部分の位置で前記第3の解像度を持つ1つ以上の先行フレームの画像データを使用するステップと、を含むことを特徴とする請求項1から6のいずれかに記載の方法。
  8. 所定の数の先行フレームのそれぞれの中で前記第2の解像度より高い解像度を持つ画像データの少なくともサブセットを用いて参照環状パノラマ画像を生成するステップと、
    前記環状パノラマ録画ビデオの現在フレームの所定の部分のアップスケールを行っているとき、入力としての参照環状パノラマ画像の対応部分からの画像データを使用するステップと、を含み、
    環状パノラマ画像は、前記参照環状パノラマ画像の上で各方向に最近レンダリングされたより高い解像度を持つピクセルを記憶することを特徴とする請求項1から7のいずれかに記載の方法。
  9. 前記参照環状パノラマ画像により、所定の画像フレームのより高い解像度領域に関するピクセルデータが、より低い解像度領域に関するピクセルデータに優先して記憶されることを特徴とする請求項8に記載の方法。
  10. 前記空間的にアップスケールするステップは機械学習システムによって実行され、
    前記機械学習システムは、録画解像度内におけるより入力低い解像度で入力画像データおよび前記参照環状パノラマ画像からの対応入力データで訓練され、録画解像度内におけるより高い入力解像度で対応ターゲット画像データで訓練されることを特徴とする請求項8または9に記載の方法。
  11. 前記環状パノラマ画像はキューブマップを用いてレンダリングされ、
    前記空間的にアップスケールするステップは、前記キューブマップの1つ以上のファセットで訓練される複数の機械学習システムによって実行されることを特徴とする請求項1から10のいずれかに記載の方法。
  12. 前記環状パノラマ画像は、円柱状または球面状であることを特徴とする請求項1から11のいずれかに記載の方法。
  13. ビデオ出力方法であって、
    請求項1から12のいずれかに記載の方法に従って空間的にアップスケールされた環状パノラマ録画ビデオを取得するステップと、
    ユーザに表示するために前記環状パノラマ録画ビデオを出力するステップと、を含むことを特徴とする方法。
  14. 前記環状パノラマ録画ビデオは、各フレームのオリジナル視野領域を備え、
    再生中にユーザの視野が前記オリジナル視野領域から所定の量外れた場合、前記オリジナル視野領域が前記環状パノラマ録画ビデオのどこにあるかを示す視覚的表示が表示されることを特徴とする請求項13に記載の方法。
  15. 請求項1から14のいずれかに記載の方法をコンピュータに実行させることを特徴とするコンピュータプログラム。
  16. 第1の解像度を持つオリジナル視野領域と、前記第1の解像度より低い第2の解像度を持つ前記オリジナル視野領域外のさらなる周辺領域と、を備えた環状パノラマ録画ビデオの空間的なアップスケールを実行するためのビデオプロセッサであって、
    前記さらなる周辺領域を前記第2の解像度より高い解像度に空間的にアップスケールする空間的アップスケールプロセッサを備えることを特徴とするビデオプロセッサ。
  17. 請求項1から12のいずれかに記載の方法に従って空間的にアップスケールされた環状パノラマ録画ビデオを取得する再生プロセッサと、
    ユーザに表示するために前記環状パノラマ録画ビデオを出力するグラフィックプロセッサと、を備えることを特徴とするビデオ再生デバイス。
JP2022114608A 2021-07-16 2022-07-19 ビデオ処理および再生システムおよび方法 Pending JP2023017720A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
GB2110261.1 2021-07-16
GB2110261.1A GB2609013A (en) 2021-07-16 2021-07-16 Video recording and playback systems and methods
GB2201605.9A GB2609064A (en) 2021-07-16 2022-02-08 Video processing and playback systems and methods
GB2201605.9 2022-02-08

Publications (1)

Publication Number Publication Date
JP2023017720A true JP2023017720A (ja) 2023-02-07

Family

ID=82321435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022114608A Pending JP2023017720A (ja) 2021-07-16 2022-07-19 ビデオ処理および再生システムおよび方法

Country Status (4)

Country Link
US (1) US20230017779A1 (ja)
EP (1) EP4120238A1 (ja)
JP (1) JP2023017720A (ja)
CN (1) CN115617160A (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9766701B2 (en) * 2011-12-28 2017-09-19 Intel Corporation Display dimming in response to user
US9978180B2 (en) * 2016-01-25 2018-05-22 Microsoft Technology Licensing, Llc Frame projection for augmented reality environments
US10157448B2 (en) * 2016-02-12 2018-12-18 Qualcomm Incorporated Foveated video rendering
US10334224B2 (en) * 2016-02-19 2019-06-25 Alcacruz Inc. Systems and method for GPU based virtual reality video streaming server
US10564715B2 (en) * 2016-11-14 2020-02-18 Google Llc Dual-path foveated graphics pipeline
US10643307B2 (en) * 2017-11-10 2020-05-05 Intel Corporation Super-resolution based foveated rendering
US10695665B2 (en) * 2018-03-16 2020-06-30 Sony Interactive Entertainment America Llc Asynchronous virtual reality interactions

Also Published As

Publication number Publication date
EP4120238A1 (en) 2023-01-18
CN115617160A (zh) 2023-01-17
US20230017779A1 (en) 2023-01-19

Similar Documents

Publication Publication Date Title
US11474597B2 (en) Light field displays incorporating eye trackers and methods for generating views for a light field display using eye tracking information
US11500459B2 (en) Data processing apparatus and method
US20220113795A1 (en) Data processing system and method for image enhancement
EP3923122A1 (en) Gaze tracking apparatus and systems
US11762459B2 (en) Video processing
US11743447B2 (en) Gaze tracking apparatus and systems
US20230015019A1 (en) Video recording and playback systems and methods
GB2597917A (en) Gaze tracking method and apparatus
US11187895B2 (en) Content generation apparatus and method
US11747897B2 (en) Data processing apparatus and method of using gaze data to generate images
JP2023017720A (ja) ビデオ処理および再生システムおよび方法
GB2597725A (en) Data processing system and method for image enhancement
EP4261768A1 (en) Image processing system and method
EP3961572A1 (en) Image rendering system and method
US20220148253A1 (en) Image rendering system and method