JP2023529917A

JP2023529917A - 異なるアスペクト比を有するディスプレイ上で提示するためのビデオ画像の製作と適応

Info

Publication number: JP2023529917A
Application number: JP2022575886A
Authority: JP
Inventors: アトキンス，ロビン; ファレル，スザンヌ; ヨナスアンドレアスクリットマーク，パー
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2020-06-11
Filing date: 2021-06-09
Publication date: 2023-07-12
Also published as: US20230217067A1; EP4165874A1; WO2021252697A1

Abstract

記載する実施形態は、ビデオ画像などの画像を製作し、４：３、１６：９、９：１６などの様々な異なるアスペクト比を有する再生デバイス上で提示するために画像を適応させる、システムおよび方法を含む。一実施形態においてビデオ画像などのコンテンツを製作する方法は、元のアスペクト比を選択し、コンテンツ内の少なくとも第１のシーン内で、第１のシーン内での被写体の位置を決定することにより開始し得る。一実施形態において、元のアスペクト比は実質的に正方形（例えば１：１）であり得る。その後第１のシーン内での被写体の位置に基づいてメタデータを作成し得、それによりメタデータは、その位置に対してコンテンツを非対称にクロッピングするように再生デバイスをガイドして、元のアスペクト比とは異なるアスペクト比を有する表示デバイス上でコンテンツを表示するようにする。他の方法およびシステムも記載される。【選択図】図２Ａ

Description

（関連出願）
本出願は２０２０年８月２０日に出願された米国仮特許出願第６３／０６８，２０１号、２０２０年６月１１日に出願された米国仮特許出願第６２／７０５，１１５号、および２０２０年６月１１日に出願された欧州特許出願第２０１７９４５１．８号に基づく優先権を主張しており、その全体を参考のため本明細書中に援用する。

映画またはＴＶのショーまたはアニメーションの作成などのコンテンツの作成、およびライブスポーツイベントまたはニュースの録画などのコンテンツのキャプチャは、画像キャンバスと呼ばれ得るものに対するアスペクト比の選択を必要とする。この選択は、熟慮したもの（例えばコンテンツ作成者が画像キャンバスのアスペクト比について可能性のあるいくつかの選択肢を考え、１つを選ぶ）であってもよいし、偶然なされたもの（例えばレコーディングスタジオのカメラオペレータが、キャプチャ用のアスペクト比を考えることなく所定のアスペクト比を有する特定のカメラを手に取る）であってもよい。画像キャンバスのアスペクト比が選択されると、コンテンツが作成またはキャプチャされ、その後コンテンツは多くの異なるアスペクト比を有し得るデバイス類で再生するために配布される。多くの場合、コンテンツ作成者は第１のアスペクト比を有する画像キャンバス内でコンテンツをキャプチャまたは作成し、その後第１のアスペクト比とは異なる予想される再生アスペクト比に合わせてコンテンツをクロッピングまたはパンする。予想される再生アスペクト比とは、再生デバイスで用いられる最も一般的なアスペクト比であるとコンテンツ作成者が信じるアスペクト比であってもよい。その後コンテンツは、元の（最初の）キャンバスのアスペクト比とも予想された再生アスペクト比とも異なる多くの異なるアスペクト比を有する再生デバイス類にリリースされて配布される。その後これらの再生デバイスは、コンテンツをクロッピングまたはパディングすることによってコンテンツの表示を適応させ、その再生デバイスに接続された表示デバイスに合致するようにしなければならない。この例では、コンテンツは少なくとも２度クロッピングおよび／またはパディングされる。パディングおよびクロッピングを少なくとも２度行うこのプロセスは、画像に不要なクロッピングまたはパディングを行っている可能性があり、そのため、コンテンツを異なるアスペクト比に合わせて複数回適応させるプロセスを通じてコンテンツ作成者の意図の保持を妨げている可能性がある。

本開示で述べる局面および実施形態は、元の画像キャンバス用の実質的に正方形のアスペクト比を用い得、且つこれに関連付けられたメタデータであって、元の画像キャンバスまたは元の画像キャンバスのセットを用いる元のコンテンツから多様なエンドポイントアスペクト比が派生することを可能にするメタデータを用い得る、システムおよび方法を提供し得る。

一実施形態では、ビデオ画像などのコンテンツを製作する方法は、画像キャンバス用に元のアスペクト比を選択すること、および画像キャンバス上のコンテンツ内の少なくとも第１のシーン内で、第１のシーン内での被写体の位置を決定することにより開始し得る。一実施形態では、元のアスペクト比は実質的に正方形（例えば１：１）であり得る。被写体は、コンテンツ内の関心領域であり得、たとえばシーン内の演技者またはその他の焦点の当たっているものであり得る。その後、第１のシーン内での被写体の位置に基づいてメタデータを作成することにより再生デバイスをガイドして、上記位置に対してコンテンツを非対称にクロッピングし、元のアスペクト比とは異なるアスペクト比を有する表示デバイス上にコンテンツを表示するようにし得る。メタデータは、再生デバイスがいかにしてキャンバス上での被写体の位置と再生デバイスのアスペクト比とに基づいてビューを被写体周りに非対称に拡大し得るかをガイドし得る。一実施形態では、メタデータは他の要素、たとえばある種の画像エレメントが部分的に含まれること、一例として人の顔が部分的に含まれること、を避けたいという望みなどの他の要素に基づいても非対称の拡大をガイドしてもよく、メタデータはこのようなエレメントが部分的に含まれることを防ぐ（このことは、このようなエレメントを完全に排除し得るか、またはクロッピングされたビューに完全に含めることを意味し得る）ために用いるデータを提供し得る。このような画像エレメントを関心領域に追加することにより、画像エレメントがビュー内に完全に含まれること又はビューから完全に排除されることを確実にし得る。例えばこのようなエレメントは、それを含めるべき関心領域のサイズを規定することにより追加し得る。コンテンツおよびメタデータを保存し得、その後異なるアスペクト比を有する再生デバイスに配布し得る。メタデータは再生デバイスに用いられて、必要であればクロッピングまたはパディングによりコンテンツを、再生デバイスによって用いられるディスプレイに適応させ得る。メタデータは一実施形態ではシーン毎に作成し得、シーンはビデオコンテンツの１フレームほどに短かいことがあり得、その場合メタデータはフレーム毎であり得る。このときフレームは再生デバイス上で単一のリフレッシュインターバル中に提示される１画像である。このように一実施形態では、時間の経過とともにフレーム毎の変化をキャプチャするために、本明細書に記載のメタデータをフレーム毎に作成し得る。さらに元のアスペクト比はコンテンツ中に一定でなくてもよく、そのためコンテンツ中、さらにはコンテンツの少なくとも一部ではシーン毎（さらにはフレーム毎）に変化してもよい。元のアスペクト比の変化は、コンテンツ中に変化する可変アスペクト比と呼ばれ得る。

一実施形態では、元のアスペクト比は実質的に正方形となるように、例えば１：１、またはアスペクト比１６：９よりも正方形に近い、すなわち元のアスペクト比の高さに対する長さの比が１６：９の比（１６／９＝１．７７７８）より小さく１：１以上となるように選択し得る。元のアスペクト比が実質的に正方形であれば、多くの再生デバイスの殆どのアスペクト比にコンテンツを適応させるオプションの範囲が最大となることを確実にし得る。他の実施形態では元のアスペクト比は、垂直の再生の向き、たとえば縦長の向きにおける画質を優先するように選択し得る。この場合、元のアスペクト比は実質的に正方形（１：１）で、１：１から１：１未満、さらには９：１６までの範囲であり得る。コンテンツ作成に大幅なフレキシビリティを提供するために、キャンバスはフレーム毎、シーン毎、またはショット毎に異なっていてもよい。本明細書で留意すべきは、元のアスペクト比はコンテンツの時間の経過とともに変化し得、そのためコンテンツは可変アスペクト比を含み得るということである。

メタデータは、現在のシーン内での被写体（例えば関心領域）に対する方向を特定するベクトルであり得る。再生デバイスはメタデータを用いて、画像のクロッピングおよび／またはパディングを構築することによりメタデータに基づいてシーンをレンダリングし得る。実際、メタデータは再生デバイスをガイドして、クロッピングして又は被写体から離れる方向に拡大してキャンバス全体に広げるようにしながら、クロッピングしたシーンの焦点に被写体を維持し得る。再生デバイスはさらに、適応済みアスペクト比のために特別に用意されたトーンマッピングおよびカラーボリュームマッピングを用いて、シーン用の元の画像キャンバス内のコンテンツ全体に基づいてではなく、適応済みアスペクト比内の実際のコンテンツ（例えば関心領域）に基づいてトーンマッピングおよびカラーボリュームマッピングを行うようにし得る。

一実施形態では、被写体および被写体の位置を決定する方法を、同一または異なる被写体をカバーする複数の異なるシーンに対して実行し得る。一実施形態ではこの方法は、コンテンツ内の各シーン、各フレーム、フレームセットまたは少なくともコンテンツ内のシーンのサブセットに対して行い得る。その結果、少なくともシーンのあるサブセットに対しては、コンテンツ作成中に作成したメタデータに基づいて、再生時に各シーンまたはフレームを異なるアスペクト比に合うように適応させ得る。一実施形態では、シーン（例えば１以上のフレームのセット）はカメラのショットであってもよく、映画製作またはその他のコンテンツ製作内のテイクであってもよい。異なるシーンが異なる被写体、背景またはカメラアングルなどを有していてもよい。

コンテンツ作成プロセス中、生成したメタデータに基づいて、異なるアスペクト比でのコンテンツ表示の１以上のプレビューを生成し得る。コンテンツ作成者は、プレビューを見た後、メタデータを直接編集してもよいし、被写体の位置を修正すること又は異なる被写体を選択することなどにより編集してもよい。その後コンテンツ作成者は、１以上のプレビューを表示して、修正により異なるプレビュー中のコンテンツの見栄えが良くなるか否かをチェックし得る。一実施形態では、１以上のプレビューは元のキャンバス上の１以上の矩形オーバーレイであり得、その場合シーンのコンテンツがオーバーレイに表示される。

一実施形態では、ユーザは再生デバイスのユーザインターフェースによって、クロッピング（本明細書に記載のメタデータに基づいて行うクロッピング）とパディングとの間で再生動作を切り替えることが可能となる。これにより、実質的に正方形のキャンバス周りの画素（通常、黒画素）をパディングしてディスプレイのアスペクト比全体を満たすという一般的な習慣に戻る。ユーザはこの切替によって、本明細書に記載のメタデータに基づくクロッピングを用いて提供され得る焦点の合ったビューではなく、一実施形態の元のキャンバスの半分より多い部分を見ることが可能となる。一実施形態では、再生デバイスのアスペクト比に合致させるのに必要なレベルを超えたレベルで画像をズームすることにより、被写体領域のより向上した（より近い）ビューを提供し得る。一実施形態では、クロッピング閲覧状態、パディング閲覧状態および／またはズーミング閲覧状態間の移行は円滑に表示し得、再生デバイスのユーザ／閲覧者に閲覧状態間の円滑またはシームレスな移行を見せる。

一実施形態では、ユーザに見せるべき最終的な合成画像は、スクリーンの複数のウィンドウまたは領域内で複数の入力を重ね合わせたものに対応し得る。例えば主要な入力をディスプレイ上の大ウィンドウ内で示し、二次的入力を大ウィンドウよりも小さいか又は大幅に小さい小ウィンドウ（テレビのピクチャーインピクチャに似た特徴）内で示してもよい。例えば主要入力ウィンドウがメタデータから生成したビューを表示することにより、主要入力ウィンドウまたは表示デバイス上での被写体の位置およびアスペクト比に基づいて元のキャンバス又はキャンバス全体をクロッピングしたビューを提供し、二次的ウィンドウがクロッピングもパディングもしていないキャンバス全体または元のキャンバスを示すようにしてもよい。一実施形態では、これらウィンドウの一方または両方に完全にまたは部分的にズームし得る。さらに本明細書に記載の方法およびシステムを用いて、各ウィンドウの任意のサイズおよびアスペクト比に合わせてコンテンツの再生を最適化し得る。ウィンドウの１つがリサイズされると、上記方法およびシステムを用いて、メタデータおよびシーン内での被写体の位置を用いて出力を(リサイズ済みウィンドウの）リサイズ済みアスペクト比に適応させ得る。さらに本明細書に記載の方法およびシステムを単一のウィンドウ（二次的ウィンドウがない状態）に用いて、ウィンドウのアスペクト比に基づいてウィンドウ内でコンテンツをクロッピングするようにし得る。上記方法およびシステムは、本明細書に記載のメタデータを用いて再生を最適化し得る。

別の実施形態では、本明細書に記載の方法およびシステムを用いて、関心のある被写体（関心被写体）に焦点を当てることによりフォトストリーム内でのフォト再生間の移行を向上しながら、僅かなズームおよびパンを適用して面白い効果を作成し、さらにこれと並行して選択した領域へのトーンマッピングを最適化し得る。これは、「意図する動きの経路」と考えられ得るメタデータによってガイドされ得る。一実施形態では、「ガイドされたケンバーンズ効果（Ken Burns effect）」を提供するために閲覧者位置を追跡する代りに「意図する動きの経路」を用いる。メタデータは、特定の時間に亘って閲覧者用の意図した動きの経路を記載するスクリーンに対する、一連の位置ベクトル（Ｘ，Ｙ，Ｚ）座標である。本明細書では、用語「ケンバーンズ効果」は、フィルムおよびビデオ製作中に静止画を見せるときに用いる一種のパンおよびズーム効果を意味する。

一実施形態では、元のキャンバスまたはキャンバス全体はすでに、画像をキャンバスのアスペクト比に適合させるパディングをいくらか含み得る。この場合、実施形態は追加のメタデータを用いて、キャンバス内のアクティブ領域の位置を示し得る。このメタデータが存在する場合、クライアントデバイスまたは再生デバイスはこの追加のメタデータを用いて、キャンバスのアクティブ領域のみに基づいて（パディングした領域を含まずに）再生を適応させ得る。

本明細書に記載の局面および実施形態は、実行されると、１以上のデータ処理システムに本明細書に記載の方法を実行させる実行可能なコンピュータプログラム命令を保存し得る非一時的なマシン読み取り可能媒体を含み得る。命令は、不揮発性メモリなどの非一時的なマシン読み取り可能媒体、例えばフラッシュメモリ、または揮発性のダイナミックランダムアクセスメモリ（ＤＲＡＭ）、またはその他の形態のメモリに保存し得る。

上記の概要は本開示の全ての実施形態および局面を完全に網羅しているわけではない。全てのシステム、媒体および方法は、上記に要約した様々な局面および実施形態の全ての適切な組み合わせ、ならびに以下の詳細な説明に開示する様々な局面および実施形態の全ての適切な組み合わせから実施し得る。

本発明を添付の図面を参照して実施例により説明する。添付の図面において、同様の参照符号は同様の構成要件を示す。

図１Ａは、本明細書に記載する１以上の実施形態で用い得る表示デバイスの異なるアスペクト比の例を示す。図１Ｂは、本明細書に記載する１以上の実施形態で用い得る表示デバイスの異なるアスペクト比の例を示す。図１Ｃは、本明細書に記載する１以上の実施形態で用い得る表示デバイスの異なるアスペクト比の例を示す。

図２Ａは、異なるアスペクト比に出力を適応させるメタデータで、コンテンツを作成するために用い得る、一実施形態による方法を示すフローチャートである。

図２Ｂは、再生デバイスのアスペクト比に基づき且つコンテンツに関連付けられたメタデータに基づいて再生デバイスでの再生を適応させるために用い得る、一実施形態による方法を示すフローチャートである。

図３Ａは、被写体の位置およびこれらの位置に基づいて被写体に関連付けられたメタデータの例を示す。図３Ｂは、被写体の位置およびこれらの位置に基づいて被写体に関連付けられたメタデータの例を示す。図３Ｃは、被写体の位置およびこれらの位置に基づいて被写体に関連付けられたメタデータの例を示す。図３Ｄは、被写体の位置およびこれらの位置に基づいて被写体に関連付けられたメタデータの例を示す。

図４Ａは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。図４Ｂは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。図４Ｃは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。図４Ｄは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。図４Ｅは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。図４Ｆは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。図４Ｇは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。図４Ｈは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。図４Ｉは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。図４Ｊは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。図４Ｋは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。図４Ｌは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。

図５は、一実施形態によるコンテンツを作成する方法を示すフローチャートである。

図６Ａは、再生デバイスがいかにして、画像メタデータと観察者に対するディスプレイの相対的位置とに基づいて画像を表示し得るかの例を示す。図６Ｂは、再生デバイスがいかにして、画像メタデータと観察者に対するディスプレイの相対的位置とに基づいて画像を表示し得るかの例を示す。図６Ｃは、再生デバイスがいかにして、画像メタデータと観察者に対するディスプレイの相対的位置とに基づいて画像を表示し得るかの例を示す。図６Ｄは、再生デバイスがいかにして、画像メタデータと観察者に対するディスプレイの相対的位置とに基づいて画像を表示し得るかの例を示す。図６Ｅは、再生デバイスがいかにして、画像メタデータと観察者に対するディスプレイの相対的位置とに基づいて画像を表示し得るかの例を示す。図６Ｆは、再生デバイスがいかにして、画像メタデータと観察者に対するディスプレイの相対的位置とに基づいて画像を表示し得るかの例を示す。図６Ｇは、再生デバイスがいかにして、画像メタデータと観察者に対するディスプレイの相対的位置とに基づいて画像を表示し得るかの例を示す。

図７は、画像適応処理の一実施形態によって画像を表示する例を示す。

図８は、本明細書に記載するコンテンツおよびメタデータを作成するために用い得るデータ処理システムの例を示し、さらにメタデータを用いて再生を適応させる再生デバイスであって、メタデータと再生デバイスのアスペクト比とに基づいて適応を行う再生デバイスであり得るデータ処理システムの例を示す。

以下に述べる詳細により様々な実施形態および局面を記載する。添付の図面はこれら様々な実施形態を示す。以下の記載および図面は本発明の例を説明するものであって、本発明を限定するものと解釈すべきではない。様々な実施形態の徹底的な理解のために多くの具体的な詳細を述べる。しかし場合によっては、実施形態を簡潔に述べるために周知または従来の詳細を記載しないことがある。

本明細書において「一実施形態」または「実施形態」という場合、その実施形態に関連して述べる特定の特徴、構成または特性が少なくとも１つの実施形態に含まれ得ることを意味する。本明細書の様々な箇所で「一実施形態では」というフレーズが登場するが、必ずしも同じ実施形態を指すわけではない。以下に述べる図面に示すプロセスは、ハードウェア（例えば回路、専用ロジックなど）、ソフトウェアまたはこれらの組み合わせを含むロジックを処理することにより実行される。これらのプロセスは以下ではいくつかの連続した動作として記載するが、記載する動作の一部は異なる順序で行ってもよいことを理解されたい。さらにいくつかの動作は連続的にではなく並行して行ってもよい。

この記載は、コンピュータプログラムソフトウェアなど、著作権により保護されているマテリアルを含む。本発明の譲受人を含む著作権者はこれらのマテリアルに対する、著作権を含む権利をここに留保する。著作権者は米国特許商標庁のファイルまたは記録に現れる状態で特許書類または特許開示を何人が複製することにも異存はないが、それ以外についてはあらゆる著作権を留保する。著作権者はドルビー・ラボラトリーズ・インクである。

本明細書に記載の実施形態は、元のキャンバスまたはキャンバス全体のコンテンツを、異なるアスペクト比を有する異なる表示デバイス上に出力するために適応させるメタデータを作成し得、用い得る。これらの表示デバイスは、タブレットコンピュータ、スマートフォン、ラップトップコンピューターまたはテレビなどの再生デバイスの一部である従来のＬＣＤまたはＬＥＤディスプレイであってもよいし、ディスプレイに出力することによってディスプレイを駆動する再生デバイスとは一体ではないがこの再生デバイスに接続されている従来のディスプレイであってもよい。図１Ａ、図１Ｂおよび図１Ｃは、３つの異なるアスペクト比の３つの例を示す。具体的に述べると、図１Ａはアスペクト比４：３を有するディスプレイの例を示す（アスペクト比とは表示パネルの閲覧可能領域の高さに対する長さの比である）。従ってアスペクト比４：３を有するディスプレイの場合、ディスプレイの表示領域の長さが８インチであれば、ディスプレイの表示領域の高さは６インチである。ほとんどのブラウン管テレビはこのアスペクト比を有していた。図１Ｂは、アスペクト比１６：９の表示領域を有する表示パネルの例を示す。ラップトップコンピューターおよびテレビ用の表示パネルはこのアスペクト比を用いることが多い。図１Ｃは、アスペクト比１：１の表示パネルまたは画像キャンバスの例を示す。画像キャンバスは正方形（閲覧可能領域の長さと高さとが等しい）である。以下に述べるように一実施形態では、コンテンツ作成プロセスにおいてアスペクト比１：１を有する元の画像キャンパス、または正方形の画像キャンバスに実質的に近い元の画像キャンバスが用いられる。以下に、コンテンツ作成プロセスの例を図２Ａを参照して述べる。

図２Ａに示すように、一実施形態による方法は動作５１で開始し得る。動作５１では、画像キャンバス用の元のアスペクト比を選択する。元のアスペクト比が選択されると、画像キャンバスを用いてコンテンツを作成する。コンテンツ作成とは、画像（コンピュータ生成グラフィクスまたはアニメーションなど）を作成することであってもよいし、カメラ（実演する演技者に用いるムービーカメラなど）、コンテンツ作成に用いる当該分野で公知の他の技術またはこれらの技術の組み合わせを用いてコンテンツをキャプチャすることであってもよい。コンテンツ作成プロセスでは同じ画像キャンバスを用いてもよいし、異なる画像キャンバスを用いてもよい。コンテンツ作成において最良のフレキシビリティを提供するために、キャンバス領域はフレーム毎に異なっていてもよいし、フレームセット毎に異なっていてもよいし、シーン毎に異なっていてもよい。一実施形態では、元の画像キャンバスは正方形のキャンバス（アスペクト比が１：１）であってもよいし、実質的に正方形のキャンバスであってもよい。一実施形態では、画像キャンバスがアスペクト比１６：９のキャンバスよりも正方形に近い、すなわち画像キャンバスの高さに対する長さの比が１６：９（すなわち約１．７７８）より小さく１：１以上である場合、画像キャンバスは実質的に正方形であるとする。元のアスペクト比が実質的に正方形であれば、多くの再生デバイスに亘って用いられる殆どのアスペクト比にコンテンツを適応させるオプションの範囲が最大となることを確実にし得る。他の実施形態では実質的に正方形でない画像キャンバスを用いてもよいが、これは異なるアスペクト比を有する異なるディスプレイにシーンがどれぐらい上手く適応するかに影響を与え得る。

図２Ａに示す動作５３で、コンテンツ内のシーン内での被写体の位置を決定する。動作５３はコンテンツ作成中に行ってもよいし、コンテンツ作成後（作成したコンテンツを編集する編集プロセス中）に行ってもよいし、コンテンツ作成中および作成後の両方に行ってもよい。動作５３は、特定のシーンにおける関心被写体または関心領域を識別または決定することにより開始し得る。この関心被写体または関心領域の決定または識別は、コンテンツ内の全シーンに対してシーン毎に行ってもよいし、コンテンツ内の全シーンのうち少なくとも１つのサブセットに対して行ってもよい。例えば、第１のシーンが第１の識別済み被写体を有し、第２のシーンが第１の識別済み被写体とは異なる第２の識別済み被写体を有してもよい。さらに、異なるシーンがこれら異なるシーンで識別された同一の被写体を含んでもよいが、この被写体の位置は異なるシーン間で異なってもよい。一実施形態では、関心被写体または関心領域の識別または決定はコンテンツ作成者が手動で行ってもよいし、データ処理システムによって自動で行ってもよい。例えばデータ処理システムは、周知の顔検出アルゴリズム、画像サリエンス分析アルゴリズム、またはその他の周知のアルゴリズムを用いてシーン内の１以上の顔を自動で検出し得る。一実施形態では、被写体の自動検出をコンテンツ作成者が手動で上書きし得る。一実施形態では、コンテンツ作成者がコンテンツ作成プロセスで用いるデータ処理システムに命令を出して、シーンのあるサブセットに対しては被写体を自動で決定し、別のサブセットに対してはコンテンツ作成者が手動で決定できるようにしておいてもよい。被写体が決定されると、動作５３で被写体の位置を被写体の重心に基づいて手動または自動で決定し得る。例えば被写体の顔が関心被写体または関心領域と識別されていれば、動作５３で顔の重心を画像キャンバス上での被写体の位置として用い得る。一実施形態では、この位置がデータ処理システムによって自動で決定された場合、コンテンツ作成者はこの位置を手動で編集し得る。一実施形態では、この位置が手動で決定されたか自動で決定されたかにかかわらず、ユーザはコンテンツ作成ツールまたはコンテンツ編集ツールを用いて、被写体の中心画素（例えばＳｘ，Ｓｙ）および必要に応じて被写体の幅および高さ（例えばＳｗ、Ｗｈ）を選択することができる。被写体の中心画素および被写体の幅および高さは、特定の表示デバイスのアスペクト比での再生に画像を適応させる際に用いられる。動作５３を行った後、図２Ａに示すように処理は動作５５に進む。

動作５５では、データ処理システムが特定のシーン内での被写体の位置に基づいてメタデータを自動で決定し得る。メタデータは、元の画像キャンバスの元のアスペクト比とは異なるアスペクト比を有する表示デバイス上で再生をいかにして適応させるかを特定し得る。例えばメタデータは、元のアスペクト比の画像をクロッピングしてその画像を再生デバイスによって制御される表示デバイスの特定のアスペクト比での再生に適応させるために、被写体の位置から元のアスペクト比内での１以上の方向にいかにして拡大して元のアスペクト比にするかを特定し得る。一実施形態ではメタデータは、決定済み被写体からの方向を特定するベクトルとして表現し得る。図３Ａ、図３Ｂ、図３Ｃおよび図３Ｄは、ベクトルという形態にあり得るメタデータの例を示す。図３Ａは、元の画像キャンバス１０１内のシーン１０３の中心近傍にある被写体１０５の例を示す。図３Ｂは、元の画像キャンバス１０１内のシーン１０９の左側にある被写体１１１の例を示す。図３Ｂに示すように、被写体１１１はシーン１０９の左辺から垂直方向に中心に向かっている。図３Ｃは、シーン１１５内の元の画像キャンバス１０１の右上隅にある被写体１１７の例を示す。図３Ｄは、元の画像キャンバス１０１内のシーン１２１の右下隅にある被写体１２３の例を示す。図３Ａに示す例では、メタデータの例を表すベクトルは被写体から全方向に等しいと考えられ、従ってこの場合、値０，０を有すると考えられ得る。図３Ａの例では被写体からの拡大は、再生デバイスのアスペクト比と表示デバイスの向き（例えば横長または縦長）とに基づいて元の画像キャンバスをクロッピングすることにより起こる。図４Ａから図４Ｄは、被写体が元の画像キャンバスの中心にあるとき、いかにしてコンテンツを異なるアスペクト比での再生に適応させるかの例を４つ示す。これらの例をさらに以下に述べる。図３Ｂに示す例ではベクトル１１２は、表示デバイスのアスペクト比および表示デバイスの向きにかかわらず、被写体１１１に焦点を当てるために元の画像キャンバス１０１にクロッピングする方向を特定するメタデータの例である。図４Ｅ、図４Ｆ、図４Ｇおよび図４Ｈは、被写体が図３Ｂに示す位置にあるとき、いかにしてコンテンツを異なるアスペクト比での再生に適応させるかの例を４つ示す。図３Ｃに示す例ではベクトル１１９は、表示デバイスのアスペクト比および表示デバイスの向きにかかわらず、被写体１１７に焦点を当てるために元の画像キャンバス１０１をクロッピングする方向を特定するメタデータの例である。図４Ｉ、図４Ｊ、図４Ｋおよび図４Ｌは、被写体が図３Ｃに示す位置にあるとき、いかにしてコンテンツを異なるアスペクト比での再生に適応させるかの例を４つ示す。図３Ｄに示す例ではベクトル１２５は、表示デバイスのアスペクト比および表示デバイスの向きにかかわらず、被写体１２３に焦点を当てるために元の画像キャンバス１０１をクロッピングする方向を特定するメタデータであり得る。

メタデータを表すベクトルは、メタデータと被写体の位置とに基づいて元の画像キャンバスをいかにしてクロッピングするかについて再生デバイスをガイドし得る。一実施形態では、ベクトル（ベクトル１１２、１１９および１２５など）は被写体の周りに対称的にクロッピングするのではなく、以下にさらに述べるように被写体に対する非対称なクロッピングをガイドする。このような非対称なクロッピングは少なくとも２つの利点を提供し得る。（ａ）シーンの美的フレーミングがより良く保持され、右上隅に被写体を有する画像（例えば図３Ｃを参照のこと）を中間レベルでズームした後でも被写体は画像の右上部分にあり、対称的なクロッピングに比べてフレーミングの制作意図がより良く保持できる。（ｂ）非対称なクロッピングは、ズームの方向またはズーム率を突然変更することなく被写体にズームインすることができる。一実施形態では、ベクトルはｘ成分（ｘ軸用）とｙ成分（ｙ軸用）とを含み得、ベクトルは２つの値、ＰｘとＰｙとによって表し得る。ここでＰｘはベクトルのｘ成分であり、Ｐｙはベクトルのｙ成分である。一実施形態では、ＰｘはＰｘ＝２（０．５－Ｓｘ）と定義し得、ＰｙはＰｙ＝２（０．５－Ｓｙ）と定義し得る。ここでＳｘおよびＳｙは元の画像キャンバスに対する被写体の中心であり、座標０，０は元の画像キャンバスの左上隅であり、キャンバスの右下隅の座標は１，１であり、元の画像キャンバスの中心の座標は０．５，０．５である。図３Ｂに示す例の場合、Ｐｘ＝１およびＰｙ＝０であり、従ってこのベクトルは水平方向に正と考えられ得る。図３Ｃに示す例の場合、Ｐｘ＝１およびＰｙ＝１であり、このベクトルは水平方向に負であり垂直方向に正であると考えられる。このメタデータのさらなる詳細と例、および再生でこのメタデータをどのように用いるかを以下に述べる。

図２Ａに示すように、特定のシーンについて動作５５を完了した後、処理は動作５７に進む。動作５７では、再生時に用いるためにコンテンツおよびメタデータを保存する。その後動作５９で、コンテンツ作成中または編集プロセス中に用いられているデータ処理システムが、処理すべきコンテンツがさらにあるか否かを決定する。例えば図２Ａに示す方法によって処理すべきシーンがさらにある場合、処理は動作５１に戻る。動作５１では、画像キャンバス用に新しい元のアスペクト比を選択してもよいし、前回画像キャンバス用に用いた元のアスペクト比を引き続きコンテンツの作成および／または編集に用いてもよい。一実施形態では、動作５９での決定はデータ処理システムを操作する人間のオペレータが制御する手動での決定であり得る。処理すべきコンテンツがない場合、動作６１で、保存したコンテンツおよびメタデータを１以上のコンテンツ配布システムに供給し得る。例えばコンテンツおよびメタデータをケーブルネットワークに供給してセットトップボックスに配布してもよいし、コンテンツプロバイダ、例えばインターネットなどを介してコンテンツを配信するコンテンツプロバイダなどに配布してもよい。コンテンツおよびメタデータはストリーミングメディアで用いるように配布してもよいし、コンテンツおよびメタデータ全体をダウンロードして用いるように配布してもよい。

図２Ａに示す方法は、映画スタジオまたはコンテンツを作成する他の施設で実行し得るコンテンツ作成方法である。この方法は典型的には再生デバイスでの再生とは別に行う。再生デバイスで行う方法の例を図２Ｂに示す。但し一実施形態では、図２Ａに示す方法を図２Ｂに示す方法と共に同じデバイスで実行してもよい。この場合、このデバイスはコンテンツを作成し、さらにその後、元の画像キャンバスのアスペクト比とは異なるアスペクト比を有する１以上の表示デバイス上にコンテンツを表示する。

図２Ｂに示す再生方法は動作７１から開始し得る。動作７１では、再生デバイスが画像データを含むコンテンツを受け取り得、さらにこれに関連付けられたメタデータも受け取り得る。例えばメタデータは第１のシーンに関連付けられ得、メタデータはシーン内での被写体の位置に対して、シーンが作成された元のアスペクト比とは異なるアスペクト比を有する表示デバイスにいかにして再生を適応させるかを特定し得る。一実施形態では、メタデータは例えば図３Ｂ、図３Ｃおよび図３Ｄに示すベクトル１１２、１１９および１２５などのベクトルという形態を取り得る。これらのベクトルはＰｘ値およびＰｙ値で表し得、これらの値にはこのメタデータに関連付けられたシーン用のコンテンツが与えられている。再生デバイスは動作７１でメタデータを受け取ると、動作７３を行い得る。動作７３では再生デバイスはシーン内のコンテンツを、再生デバイスに接続された表示デバイスのアスペクト比に適応させる。例えば表示デバイスは、テレビ、スマートフォンまたはタブレットコンピュータの表示パネルであり得る。再生デバイスはシーン内のコンテンツをクロッピングすることによりコンテンツを適応させ、そのコンテンツを表示デバイスのアスペクト比に適応させる。この適応またはクロッピングは本明細書に記載のメタデータを用いて、被写体の位置とメタデータとに基づいて、一実施形態では非対称にコンテンツをクロッピングする。このメタデータは本明細書に記載のベクトルであり得る。この適応またはクロッピングはさらにこのために特別に用意されたトーンマッピングおよびカラーボリュームマッピングを含み得る。このトーンマッピングおよびカラーボリュームマッピングは、表示デバイスのアスペクト比内で表示されたクロッピング済みコンテンツ（例えば関心領域のみを含む）に基づいており、元の画像キャンバス内の画像全体に基づくトーンマッピングおよびカラーボリュームマッピングとは異なる。

動作７３の実行についての詳細な例は以下に述べるが、図４Ａから図４Ｌを参照して適応プロセスを大まかに説明することは役に立つ。図４Ａ、図４Ｂ、図４Ｃおよび図４Ｄに示す例では、動作７３で、表示デバイスのアスペクト比と表示デバイスの向きとに応じて、元の画像キャンバス５１内の被写体１０５に対して対称的にコンテンツをクロッピングする。図４Ａは動作７３によって作成したアスペクト比１５３を示す。動作７３では、元の画像キャンバス１５１内のコンテンツを被写体１０５周りに対称的に横長モードでクロッピングした。図４Ｂは動作７３でのクロッピングの結果得られたアスペクト比１５５を示す。動作７３では、コンテンツを横長モードでクロッピングしてアスペクト比１５５を得る。図４Ｃは動作７３でのクロッピングの結果得られたアスペクト比１５７を示す。動作７３では、コンテンツを縦長モードでクロッピングしてアスペクト比１５７を得る。図４Ｄは動作７３でのクロッピングの結果得られたアスペクト比１５９を示す。動作７３では、コンテンツを縦長モードでクロッピングしてアスペクト比１５９を得る。図４Ａ、図４Ｂ、図４Ｃおよび図４Ｄに示すこれらの例の各々において、ベクトルメタデータはＰｘ＝０、Ｐｙ＝０というベクトル値であり得る。ここでベクトルメタデータは、コンテンツの表示に用いられる表示デバイスのアスペクト比に基づいて、元の画像キャンバス１５１のクロッピングを被写体１０５周りに対称的に行う。図４Ａ、図４Ｂ、図４Ｃおよび図４Ｄに示す例では、表示デバイスのアスペクト比および表示の向き（例えば縦長または横長）にかかわらず、全ての場合において表示出力の焦点は被写体１０５に合ったままである。

図４Ｅ、図４Ｆ、図４Ｇおよび図４Ｈに示す例では、動作７３で、ベクトル１１２に基づいて、元の画像キャンバス内のコンテンツを被写体１１１に対して非対称にクロッピングする。ベクトル１１２は、この例で非対称にクロッピングする方法を特定する。図４Ｅは動作７３でのクロッピングの結果得られたアスペクト比１６１を示す。動作７３では、ベクトル１１２に基づいてコンテンツを横長モードでクロッピングしてアスペクト比１６１を得る。図４Ｆは動作７３でのクロッピングの結果得られたアスペクト比１６３を示す。動作７３では、ベクトル１１２に基づいてコンテンツを横長モードでクロッピングしてアスペクト比１６３を得る。図４Ｇは動作７３でのクロッピングの結果得られたアスペクト比１６５を示す。動作７３では、ベクトル１１２に基づいてコンテンツを縦長モードでクロッピングしてアスペクト比１６５を得る。図４Ｈは動作７３でのクロッピングの結果得られたアスペクト比１６７を示す。動作７３では、ベクトル１１２に基づいてコンテンツを縦長モードでクロッピングしてアスペクト比１６７を得る。図４Ｅ、図４Ｆ、図４Ｇおよび図４Ｈに示す例では、横長か縦長か、および表示デバイスのアスペクト比にかかわらず、クロッピングすることにより、元の画像キャンバス１５１をクロッピングしたビューの左部分に被写体１１１が維持されることがわかる。

図４Ｉ、図４Ｊ、図４Ｋおよび図４Ｌに示す例では、動作７３で、ベクトル１１９に基づいて、元の画像キャンバス内のコンテンツを被写体１１７に対して非対称にクロッピングする。ベクトル１１９は、この例で非対称にクロッピングする方法を特定する。図４Ｉは動作７３でのクロッピングの結果得られたアスペクト比１７１を示す。動作７３では、ベクトル１１９に基づいてコンテンツを横長モードでクロッピングしてアスペクト比１７１を得る。図４Ｊは動作７３でのクロッピングの結果得られたアスペクト比１７３を示す。動作７３では、ベクトル１１９に基づいてコンテンツを横長モードでクロッピングしてアスペクト比１７３を得る。図４Ｋは動作７３でのクロッピングの結果得られたアスペクト比１７５を示す。動作７３では、ベクトル１１９に基づいてコンテンツを縦長モードでクロッピングしてアスペクト比１７５を得る。図４Ｌは動作７３でのクロッピングの結果得られたアスペクト比１７７を示す。動作７３では、ベクトル１１９に基づいてコンテンツを縦長モードでクロッピングしてアスペクト比１７７を得る。図４Ｉ、図４Ｊ、図４Ｋおよび図４Ｌに示す例では、表示デバイスの向きおよび表示デバイスのアスペクト比にかかわらず、被写体１１７が各クロッピング済み出力の右上隅に維持されることがわかる。

図２Ｂに戻って、この方法では動作７３の後に動作７５で、処理すべきコンテンツがさらにあるか否かを決定する。処理すべきコンテンツがさらにある場合、処理は動作７１に戻る。動作７１では引き続きコンテンツおよびメタデータを受け取り、上記のようにコンテンツを表示デバイスに適応させる。処理すべきコンテンツがない場合、処理は動作７７に進み、この方法は終了する。

図５は、コンテンツ作成中または作成して保存し編集の準備ができたコンテンツの編集中に実行し得る方法の別の例を示す。図５に示す動作２０１では、コンテンツ作成者はアスペクト比１：１などの元のキャンバスアスペクト比を選択し得、現在のシーン内でコンテンツを作成し得る。その後動作２０３で、コンテンツ作成者またはデータ処理システムが現在のシーン用の現在の被写体の位置を決定し得る。位置の決定はコンテンツ作成者が手動で行ってもよいし、データ処理システムが自動で行い、現在のシーンを手動で調整または上書きする可能性を残してもよい。コンテンツ作成者またはデータ処理システムは、必要に応じて編集ツールまたはコンテンツ作成ツールを用いて、被写体の中心点、例えば本明細書に記載の座標Ｓｘ，Ｓｙの点などのみならず被写体のサイズをも設定することができる。その後動作２０５で、データ処理システムは上記位置に基づいて、コンテンツを他のアスペクト比に適応させるために用い得るメタデータを計算し得る。このメタデータは追加のメタデータ、例えば画像周りのパディングを記述するメタデータなどを（必要に応じて）さらに含み得る。その後コンテンツ作成者は、１以上の他のアスペクト比に合わせたプレビューを表示し得る。これは現在のシーン内のコンテンツを上記他のアスペクト比に適応させることにより行い得る。換言すると、コンテンツ作成者はデータ処理システムにコンテンツのプレビューを表示させて、コンテンツ作成者が異なるアスペクト比での各プレビューを見て適応またはクロッピングが望ましい又は十分満足のいくものであるか否かを決定できるようにし得る。一実施形態では、プレビューは元の画像キャンバス内の画像にオーバーレイした矩形、例えば図４Ａから図４Ｌに示す様々なアスペクト比（例えば１６１）を示す矩形であり得る。これらのプレビューは、再生デバイスのエンドユーザにコンテンツがどのように見えるかを示す。矩形の位置は、メタデータを用いるクロッピング動作、例えば図２Ｂのクロッピング動作７３に基づいて得られる。メタデータは、規定された再生処理挙動という利点を提供し、この規定された再生処理挙動とは、異なるアスペクト比の異なる表示デバイスを有する様々な異なる再生デバイス上でコンテンツがどのようにレンダリングされるかについての非常に正確なプレビューを示すものである。コンテンツ製作者はこのようにして再生挙動を知ることにより、正確な最終結果をプレビューし、望ましい又は必要なあらゆる調整をすることが可能となる。コンテンツ作成者はこのようにして動作２０９で、１以上のアスペクト比に対する適応を調整するか否かを決定し得る。適応を調整することが望ましい場合、処理は動作２０３に戻り得る。動作２０３では、コンテンツ作成者は現在の被写体の位置を修正してもよいし、異なる位置または異なる被写体を選択するコンテンツ作成ツールまたはコンテンツ編集ツールを用いて異なる被写体を選択することもおそらくできる。動作２０９で調整が不要であると考えられた場合、コンテンツ作成者は次のシーンに進み、動作２１１で次のシーンを処理するか否かを決定し得る。処理することが望まれる全シーンが処理されている場合、図５に示すように処理は完了し得、終了し得る。他方、処理すべき追加のシーンがある場合、図５に示すように処理は動作２０１に戻る。

以下では、メタデータの詳細な例、およびメタデータを用いて異なるアスペクト比で再生するためにコンテンツをクロッピングする方法の詳細な例を述べる。一実施形態では、メタデータは以下のように準拠ビットストリーム内で特定し得る。１以上の矩形領域が被写体領域を規定する。
矩形は（Ｔｏｐ）＜＝（１－Ｂｏｔｔｏｍ）および(Ｌｅｆｔ）＜＝（１－右）のように定義すべきである。これに従ってＴｏｐＯｆｆｓｅｔ、ＢｏｔｔｏｍＯｆｆｓｅｔ、ＬｅｆｔＯｆｆｓｅｔおよびＲｉｇｈｔＯｆｆｓｅｔの値を設定すべきである。
再生デバイスは、この挙動を実施し、準拠しないメタデータを許容すべきである。
０オフセットの場合、画像全体が関心領域であると示される。
幅および高さがゼロ画素の場合、矩形の左上隅が関心領域であると示され、これは被写体の中心に対応する。

以下に述べるように用いる追加のメタデータは以下を含み得る。

座標はフレーム毎またはショット毎に異なってもよいし、コンテンツ全体で同じでもよい。いかなる変更も画像とそれに対応するメタデータとの間に対して完全にフレーム同期であり得る。

例えば適応ストリーミング環境において配布前にキャンバスがリサイズされた場合、オフセット座標もそれに従って更新する。

以下では、再生デバイス内のコンテンツを適応させること、およびカラーボリュームマッピングを再生デバイス内の適応済みコンテンツにとって最適にすることを述べる。ここでは、再生デバイスがその再生デバイス上で局所的にこれらの動作を全て行うと仮定するが、別の実施形態では、集中処理システムがそれに接続された１以上の再生デバイスの代りにこれらの動作の一部を行ってもよい。

再生時において再生デバイスは、キャンバスおよびそれに関連付けられたメタデータを、取り付けられたパネルの特定のアスペクト比に適応させる役割を担う。これは以下に述べる３つの動作を含む。例えば一実施形態では、３つの動作は以下の通りである。

１．関心領域を計算し、マッピング曲線を更新する。
キャンバスの関心領域またはパネル上に表示すべき領域の座標は、左上および右下の画素であるＴＬｘ、ＴＬｙ、ＢＲｘおよびＢＲｙ、ならびにキャンバスの幅および高さ（ＣＷ、ＣＨ）を演算することにより計算する。例えば方法は、すぐ下に示す式に基づいて計算してもよいし、または後に示すソフトウェアの実装に基づいて計算してもよい。
１）ＴＬｘ＝（Ｓｘ－Ｐｘ）^＊ＣＷ
２）ＴＬｙ＝（Ｓｙ－Ｐｙ）^＊ＣＨ
３）ＢＲｘ＝（Ｓｘ＋Ｐｘ）^＊ＣＷ
４）ＢＲｙ＝（Ｓｙ＋Ｐｙ）^＊ＣＨ

関心領域に応じた画像の適応型リサイズに加えて、トーンマッピングアルゴリズムをも調整することにより、クロッピングした領域（元の画像キャンバス内の元の画像全体ではなく）にとって最適のトーンマッピングを達成し得る。これは、関心領域に対応する追加のメタデータを計算し、これを用いてトーンマッピング曲線を調整することにより達成し得る。このことは例えば米国特許第１０，６００，１６６号（当該分野で公知の表示管理プロセスを記載している）に記載されている。トーンマッピング曲線は、ソースコンテンツの明るさの平均を表す「ｓｍｉｄ」（平均輝度）パラメータを１入力とする。調整はこの新しいＲＯＩ輝度オフセットメタデータ（例えばＬ１２ＭｉｄＯｆｆｓｅｔと示される）を用いて以下のように計算する。
ＳＭｉｄ＝（Ｌ１．Ｍｉｄ＋Ｌ３ＭｉｄＯｆｆｓｅｔ）／／フレーム全体の中間輝度を演算する。
ＳＭｉｄ’＝ＳＭｉｄ^＊（１－ＺＦ）＋（ＳＭｉｄ＋Ｌ１２ＭｉｄＯｆｆｓｅｔ）^＊ＺＦ／／ＲＯＩに合わせて調整する。ここでＺＦはズーム比であり、例えばＺＦ＝０はフルスクリーンに対応し、ＺＦ＝１は被写体に完全にズームインした状態に対応する。
備考：Ｌ３ＭｉｄＯｆｆｓｅｔはＬ１．Ｍｉｄ値を超えたオフセットを意味し、Ｌ３．Ｍｉｄとも呼ばれ得る。

類似の様式で調整される別のパラメータは、必要に応じて行われるグローバルディミングアルゴリズムであり、マッピングをグローバルディミング表示にとって最適にするために用いる。グローバルディミングアルゴリズムは２つの入力値であるＬ４ＭｅａｎとＬ４Ｐｏｗｅｒとを取る。グローバルディミング背景を計算する前に、Ｌ４Ｍｅａｎ値を以下のようにズーム比によって調整する。
Ｌ４Ｍｅａｎ’＝Ｌ４Ｍｅａｎ^＊（１－ＺＦ）＋（Ｌ４Ｍｅａｎ＋Ｌ１２ＭｉｄＯｆｆｓｅｔ）^＊ＺＦ

２．関心領域のクロッピングと処理とを行う。
好ましい実施形態では、メモリを効率的に用いるため且つ再生デバイスの一貫したタイミングを確実にするために、再生デバイスは以下の動作を行うべきである。
１）関心領域（ＲＯＩ）メタデータ（例えばＰｘ，Ｐｙで表されるベクトル）でエンコードされたビットストリームをデコードし、デコードしたピクチャバッファに個々のフレームを挿入する。
２）現在のフレームを表示すべき時がくると、ＲＯＩが必要とする画像の一部のみをメモリから読み出す。このとき左上の画素（ＴＬｘ，ｙ）から始める。この画素はパネル上に提示されるｔ時間（「遅延時間」）前に読み出す。この遅延時間ｔは、第１の画素を撮像パイプラインによって処理するのに要する時間によって決定され、撮像パイプラインが行ういずれの空間アップサンプリングをも含む。
３）関心領域全体がメモリから読み出されると、デコード済みピクチャバッファを次のデコード済みピクチャによって上書きする。

画像のクロッピング済み領域がメモリから読み出されると、それをパネルのダイナミックレンジにマッピングする。この方法は、上記の動作１で得た調整済みマッピングパラメータを用いて米国特許第１０，６００，１６６号に記載の公知の技術によって行い得る。

３．出力解像度にリサイズする。
最後の動作は、画像をパネルの解像度にリサイズすることである。最終的な画像の解像度またはサイズがパネルの解像度に合致しないであろうことは明らかである。所望の解像度を達成するためには画像をリサイズする方法を適用しなければならず、このことは当該分野で周知である。例としての方法はバイリニアまたはランチョスリサンプリング、または超解像技術またはニューラルネットワークを含む多くの方法を含み得る。

一実施形態では、ＲＯＩおよびこれに関連するパラメータに信号を送るために用いられるメタデータはレベル１２（Ｌ１２）メタデータとして表され得るがこれに限られない。このメタデータを以下に要約する。
１）ＲＯＩの座標を特定する矩形
ａ．この矩形は画像のエッジから相対的にオフセットした状態で特定され、そのためデフォルト値ゼロが画像全体に対応する。
ｂ．オフセットは、１６ビットの精度で画像の幅と高さの割合で特定される。この方法は、画像がリサイズされてもメタデータが一定に保たれることを確実にする。
ｃ．オフセットの結果としてＲＯＩの幅および／または高さがゼロになった場合、左上隅の単一の画素がＲＯＩと考えられる。
２）ＲＯＩの平均輝度
ａ．この値はカラーボリュームメタデータ用のオフセットとして作用し、ＲＯＩの提示を最適化する。ＲＯＩはスクリーン全体に広がるように拡大されるため、カラーボリュームマッピングはＲＯＩのコントラストの過半数を保持する。
ｂ．Ｌ１．Ｍｉｄと同じように計算されるが、ＲＯＩを含む画素のみを用いる。メタデータに保存された値はフルスクリーン値からのオフセットであり、値ゼロがＬ１．Ｍｉｄ値の使用に戻ることを確実にする。
ｉ．Ｌ１２．ＭｉｄＯｆｆｓｅｔ＝ＲＯＩ．Ｍｉｄ－Ｌ１．Ｍｉｄ－Ｌ３．Ｍｉｄ
備考：Ｌ１．Ｍｉｄは画像のＰＱエンコードされたｍａｘＲＧＢ値の平均として演算してもよいし、平均輝度として演算してもよい。ｍａｘＲＧＢは画素の色成分値｛Ｒ，Ｇ，Ｂ｝の最大値である。Ｌ３．ＭｉｄはＬ１メタデータ（Ｌ１．Ｍｉｄ）内に存在する「Ｍｉｄ」ＰＱ値に対するオフセットを意味する。
ｃ．再生デバイスは表示されているＲＯＩの相対的サイズに基づいて、このオフセットを円滑に補間する。表示デバイスが用いる値は
Ｌ１．Ｍｉｄ＋Ｌ３．Ｍｉｄ＋ｆ（Ｌ１２．ＭｉｄＯｆｆｓｅｔ）
として生成し得る。ここでｆは補間関数を示す。
３）必要に応じてマスタリング視距離を特定し得る。
ａ．マスタリング視距離は参考視距離の関数として特定する。これは、画像が同じマスタリング視距離から見られるときにスケーリングされないことを確実にするために用いる。
ｂ．デフォルトの視距離は視野角１７．７６１３度（フルＨＤコンテンツ用のＩＴＵ－Ｒ参考視野角である２^＊ａｔａｎ（０．５／３．２）から計算したもの）に対するものである。より近い距離（例えば０．５）は視野角１７．７６１３／０．５＝３５．５２２６に対応する。但し、簡潔化のため、および異なるアスペクト比も同等に計算されることを確実にするために、三角関数は省いている。
ｃ．範囲は３／３２から２であり、インクリメントは１／１２８である。メタデータは１１から２５５の範囲の８ビットの整数であり、これを
マスタリング視距離＝（Ｌ１２．ＭＶＤ＋１）／１２８
によってピクチャの高さを計算するために用いる。
ｄ．特定されない場合または０から１０の範囲内である場合、デフォルトは１２７であるか、参考視距離に等しいマスタリング視距離である。新しいコンテンツに対しては、マスタリング距離が参考視距離に等しいことを示すために、この値は例えば６３などのより小さい値であってもよい。
４）必要に応じてカメラからの被写体の距離（ＲＯＩの半分を超える）を特定し得る。
ａ．これを用いると、見る位置の変化に呼応した正しい速度で画像をパンおよびズームすることにより「見回す」特徴を高め得る。遠くのオブジェクトは近くのオブジェクトよりも遅い速度でパンおよびスケーリングされる。
５）必要に応じて「閲覧者の意図する動きの経路」を特定し得る。
ａ．これを用いると、閲覧者追跡が使用不可能またはイネーブルできない場合でも、再生中に「ケンバーンズ」効果をガイドし得る。例としてはフォトフレームが挙げられる。この特徴は、パンおよびスケーリング用にケンバーンズ方向をガイドすることにより、被写体へのズームインであるか被写体からのズームアウトであるかにかかわらずアーティストが所望の効果を特定することを可能し、主要な被写体がクロッピングにより誤って画像から切り取られる可能性もない。
６）必要に応じてグラフィクスまたはオーバーレイ用の別の層を特定し得る。
ａ．これにより、画像スケーリングとは無関係にグラフィクスをスケーリングしたり画像と合成したりすることが可能になる。画像をクロッピングまたはスケーリングするときに、重要なオーバーレイまたはグラフィクスがクロッピングされたりスケーリングされたりすることを防ぐ。グラフィクスおよびオーバーレイの「制作意図」を保持する。

ビットストリーム内で単一のレベル１２フィールドのみを特定するのが好ましい。複数のフィールドが特定された場合、最後のもののみが有効であると考えられる。メタデータの値はフレーム毎に変化し得るが、このことはビデオシーケンス内でＲＯＩを追跡するために必要である。フィールドは拡張可能であり、将来のバージョンのために追加のフィールドを追加することを可能とする。

実施形態を実行し得るソフトウェア（疑似コード）の例を以下に示す。

再生挙動の別の実施形態は補遺にも記載する。

ディスプレイに対する観察者の相対的位置に基づく表示の適応
ウィンドウを通してシーンを見たとき、シーンはウィンドウに対する観察者の相対的位置によって異なって見える。例えば観察者がウィンドウに近い場合は、遠い場合に比べて外側のシーンの見える部分が大きい。同様に、閲覧者が横方向に動くにつれて画像の一部がウィンドウの一方側に現れ、ウィンドウの他方側では画像の他の部分が隠れる。

レンズ（拡大レンズまたは縮小レンズ）をウインドウに置き換えた場合、外側のシーンは、実際のシーンよりも大きく見える（ズームイン）か小さく見える（ズームアウト）。しかしそれでも観察者はウィンドウに対して動いたときと同じ経験をする。

対照的に、観察者が従来のディスプレイ上で再生されたデジタル画像を見ると、画像はディスプレイに対する閲覧者の相対的位置に応じて変化しない。一実施形態では、ウィンドウを通して見た場合の経験と従来のディスプレイを見た場合の経験との差異に対処するために、ディスプレイに対する観察者の相対的位置に応じてディスプレイ上の画像を適応させ、それにより、観察者にはレンダリングされたシーンをまるでウィンドウを通して観察しているかのように見えるようにする。このような実施形態では、コンテンツ作成者（例えばフォトグラファー、モバイルのユーザまたは映画の撮影者）は実際のシーン内にいるという経験を聴衆により良く伝えることができるか、聴衆とより良く共有することができる。

一実施形態では、ディスプレイに対する観察者の相対的位置に応じて画像表示を適応させるプロセスの例は以下のステップを含み得る。
・カメラなどのキャプチャデバイスで画像を得るか、ディスクからロードする。
・キャプチャした画像上で関心領域（ＲＯＩ）を特定する。
・画像およびＲＯＩを受信デバイスに送信する。
・受信デバイスにおいてディスプレイに対する閲覧者の位置を決定する。
・ＲＯＩメタデータ、スクリーンのアスペクト比、およびスクリーンに対する閲覧者の相対的位置に応じてディスプレイ上に画像を表示する。

これらのステップの各々を以下により詳細に述べる。例えば画像はカメラを用いて、またはディスクまたはメモリからロードすることにより、またはデコード済みビデオからキャプチャすることにより得られ得るが、これらに限られない。このプロセスは単一のピクチャまたはフレーム、またはピクチャまたはフレームのシーケンスに適用し得る。

関心領域とは、画像内の領域であり、典型的には画像の最も重要な部分であって、広範囲の表示および閲覧構造全体に亘って保持すべき部分に対応する。関心領域、例えば画像の矩形の領域は手動またはインタラクティブに、例えばユーザが画像上で指、マウス、ポインタ、または何らかの他のユーザインターフェースを用いて矩形を描くことを可能にすることにより規定し得る。いくつかの実施形態では、ＲＯＩは画像内の特定のオブジェクト（例えば顔、車、ライセンスプレートなど）を識別することにより自動で生成し得る。ＲＯＩはまた、ビデオシーケンス内の複数のフレームに亘って自動で追跡し得る。

スクリーンに対する閲覧者の距離および相対的位置を推定するには多くの方法がある。以下の方法は例としてのみ挙げるものであり、これらに限定されない。一実施形態では、ディスプレイのベゼル近傍の撮像デバイス、またはベゼルに組み込まれた撮像デバイス、例えば内側カメラまたは外部のウェブカムを用いて閲覧者の位置を確定し得る。カメラからの画像を分析して画像内の人の頭部の位置を見つけ得る。これは、「顔検出」、カメラオートフォーカス、自動露出または画像アノテーションなどに一般に用いられる従来の画像処理技術を用いて行う。当業者ユーザのために顔検出を実行して画像内の観察者の頭部の位置を分離することに関しては十分な文献と技術がある。顔検出プロセスの戻り値は閲覧者の頭部の矩形の境界ボックスまたはその境界ボックスの中心に対応する単一の点である。一実施形態では、閲覧者の位置の発見は以下の技術のいずれかによって更に向上し得る。

ａ）一時的フィルタリング。このタイプのフィルタリングは頭部の推定位置の測定ノイズを低減し得、従ってより円滑でより連続的な経験を提供する。ＩＩＲフィルタはノイズを低減し得るが、フィルタリングされた位置は実際の位置より後ろに遅れる。カルマンフィルタリングは、ノイズを低減することと、以前に何回か行った測定に基づいて実際の位置を予測することとの両方を目指している。これらの技術は共に当該分野で周知である。

ｂ）目の位置の追跡。頭部の位置が識別されれば、閲覧者の目の位置を見つけることにより閲覧者の推定位置を向上させることが可能となる。これはさらなる画像処理を含み得、頭部を見つけるステップ全体をスキップし得る。その後閲覧者の位置を更新して２つの目のちょうど真ん中の位置または単一の目の位置を示し得る。

ｃ）より迅速な更新の測定。閲覧者の最も正確な現在位置を得るためには、より迅速な（より頻繁な）測定が望ましい。

ｄ）深度カメラ。カメラから閲覧者までの距離の推定を向上させるために、距離を直接測定する特別なカメラを用い得る。いくつかの例はｔｉｍｅ－ｏｆ－ｆｌｉｇｈｔ（飛行時間）カメラ、立体視カメラまたはストラクチャードライト（ｓｔｒｕｃｔｕｒｅｄｌｉｇｈｔ）である。これらの各々は当該分野で公知であり、カメラに対するシーン内のオブジェクトの距離を推定するために一般的に用いられる。

ｅ）赤外線カメラ。広範囲の環境光（例えば暗室）に亘って性能を上げるために赤外線カメラを用い得る。これらは顔の熱を直接測定してもよいし、赤外線送信機からの反射した赤外光を測定してもよい。このようなデバイスはセキュリティ分野で一般的に用いられる。

ｆ）距離の較正。閲覧者とカメラとの間の距離は画像処理アルゴリズムにより推定し得る。その後カメラとスクリーンとの間の既知の変位を用いて、この距離をスクリーンから閲覧者への距離に較正し得る。これにより、表示された画像が、推定した閲覧者位置に対して正しいことが確実にされる。

ｇ）ジャイロスコープ。これはモバイルデバイスで広く使用可能であり、ディスプレイの向き（例えば縦長モードか横長モードか）または観察者に対するハンドヘルドディスプレイの相対移動に関する情報を容易に提供し得る。

ＲＯＩメタデータおよびスクリーンの特性（アスペクト比）を考慮して、レンダリングされた画像をいかにして関心領域および閲覧者の仮定位置に適応させ得るかを本明細書ですでに述べた。一実施形態では、観察者の仮定位置が上記のいずれかの技術によって演算した推定位置に置き換えられた場合、表示のレンダリングは以下の技術の１以上を用いて調整し得る。例を図６Ａから図６Ｇに示す。

一例として図６Ａは、ＲＯＩメタデータを考慮せずにキャプチャしてディスプレイ６０５（例えば縦長のモバイルフォンまたはタブレット）に表示した元画像６１０を示す。一例として矩形６１５（「Ｈｉ」）は関心領域（例えばピクチャフレーム、バナーおよび顔など）を表し得る。

図６Ｂは、参考閲覧位置（例えばピクチャの高さが３．２で、スクリーン上で水平方向および垂直方向の中心にある）を考慮することによって画像６１０をレンダリングする例を示す。ここでは適切なスケーリングにより元のアスペクト比を維持しながらＲＯＩ（６１５）を拡大する。

一実施形態では図６Ｃに示すように、閲覧者がスクリーンから遠ざかるにつれて、またはディスプレイが閲覧者から離れる方向に移動するにつれて、画像はよりズームインする。これは、閲覧者がウィンドウから離れたために外側のシーンが制限されて見える場合と同じ効果を表す。同様に図６Ｄに示すように、閲覧者がスクリーンに近づくにつれて、またはディスプレイが閲覧者に近づく方向に移動するにつれて、画像はよりズームアウトする。これは、閲覧者がウィンドウに近づいたために外側のシーンが大きく見える場合と同じ効果を表す。

一実施形態では図６Ｅに示すように、閲覧者がディスプレイの右側に移動するにつれて、またはディスプレイが閲覧者の左側に移動するにつれて、画像が右側にシフトする。これは、閲覧者がウィンドウを通して左側を見た場合と同じ効果を表す。同様に図６Ｆに示すように、閲覧者がディスプレイの左側に移動するにつれて、またはディスプレイが閲覧者の右側に移動するにつれて、画像が左側にシフトする。これは、閲覧者がウィンドウを通して右側を見た場合と同じ効果を表す。

閲覧者（またはディスプレイ）が上下動した場合、またはこれら様々な動きを組み合わせた動きをした場合も、同様の調整をし得る。概して画像は、画像内のシーンの仮定深度または推定深度に基づいた量だけ移動する。深度が非常に浅い場合、移動は閲覧者の実際の移動よりも小さい。深さが非常に深い場合、移動は閲覧者の移動に等しいことがあり得る。

一実施形態では、上記動作の全てをディスプレイのアスペクト比に応じて調整し得る。例えば横長モードでは図６Ｇに示すように、元の画像（６１０）をスケーリングしてクロッピングし、ＲＯＩ６１５が観察者の視野の中心にくるようにする。その後上記したように、表示された画像（６１０－ＲＯＩ－Ｂ）を、スクリーンに対する観察者の相対的位置に応じてさらに調整し得る。

一実施形態では、ＲＯＩが画像のエッジに近づくにつれてＲＯＩの移動量をどんどん小さくし得る。これによりＲＯＩが突然エッジに到達してそれ以上動かなくなることを防止する。そのため参考位置（例えば６１０－ＲＯＩ－Ａ）の近傍からは、画像はウインドウを通して見るように自然に調整し得るが、キャプチャした画像のエッジに近づくと移動速度は減少し得る。自然に移動する状態と全く動かない状態との境界が急に現れるのを防止することが望ましい。閲覧者が最大限可能な量に向けて移動している間、移動の割合を円滑にスケーリングすることが好ましい。

必要に応じて、画像を時間の経過とともに再度ゆっくりと中心に寄せて閲覧者の実際の閲覧位置に移動させてもよい。これにより実際の閲覧位置からの移動および動きの範囲が広がる可能性がある。例えば閲覧者が参考位置から閲覧を開始して、その後スクリーンの左下隅に向かって移動した場合、画像を調整して上方向および右方向にパンし得る。閲覧者は、この新しい閲覧位置から左下隅に向けた更なる移動を許可されることはない。必要に応じて設けられるこの特徴があるため、ビューは時間の経過とともに中心位置に戻り得、それによって閲覧者の移動範囲が全方向において回復する。必要に応じて、閲覧者の位置に基づく画像のシフトおよび／またはスケーリングの量を、部分的に追加の距離メタデータによって決定し得る。追加の距離メタデータは、ＲＯＩを含む主要な被写体から閲覧者までの距離（深度）を記述している。ウィンドウを通して見るという経験をエミュレートするために、画像の適応は遠い距離よりも近い距離に対して少なくすべきである。

別の実施形態では上記のように必要に応じて、調整済み画像を用いてオーバーレイ画像を作成し得る。この場合、オーバーレイ画像の位置は固定したままである。これにより、オーバーレイ画像内の重要な情報が常に且つ全ての閲覧位置から見える状態にあることが防止される。さらに、ウィンドウ上に印刷された半透明のオーバーレイとして、経験の没入感とリアリズムとを高める。

別の実施形態では上記のように必要に応じて、カラーボリュームマッピングを、表示された画像の実際の領域に応じて調整し得る。例えば閲覧者がシーン内の明るいオブジェクトを見るために右に移動した場合、画像のダイナミックレンジを記述したメタデータを調整して、その明るい画像を反映するようにし得る。従ってレンダリングされた画像はトーンマッピングによって僅かに暗くマッピングされ、それによりトーンマッピングは、人間の観察者がウィンドウを通してシーンを見たときに経験する適応効果を模倣する。

「インテリジェントズーム」（観察者とスクリーンとの間の固定距離に関する）について上記した疑似コードを参照する。一実施形態では閲覧者位置の適応によるインテリジェントズームを許可するには以下の変更が必要である。
ａ）仮説的参照視距離を用いることに代えて、閲覧者からスクリーンまでの実際の距離（いずれかの公知の技術により測定される）を用いて上記の「ｖｉｅｗｅｒＤｉｓｔａｎｃｅ」および「ｚｏｏｍＦａｃｔｏｒ」というパラメータを演算し、スケーリング済み画像を生成する。
ｂ）スクリーン上の閲覧者位置に応じて（ｘ、ｙ）座標に亘ってスケーリング済み画像をシフトする。一例として閲覧者位置は、その目の（ｘ，ｙ）座標を参照して演算し得るが、これに限られない。これは疑似コードでは以下のように表し得る。

図７は、一実施形態による表示適応プロセスを用いて画像を表示するプロセスフローの一例を示す。ステップ７０５において、デバイスが入力画像と画像内の関心領域に関連するパラメータとを受け取る。画像適応（例えば本明細書に記載する「インテリジェントズーム」）がイネーブルされなかった場合、デバイスはステップ７１５でＲＯＩメタデータを考慮せずに出力画像を生成する。しかし画像適応がイネーブルされた場合は、デバイスはステップ７１０でＲＯＩメタデータと表示パラメータ（例えばアスペクト比）とを用いて入力画像の出力バージョンを生成し得、それによって入力画像のＲＯＩを目立たせ得る。さらにいくつかの実施形態では、デバイスはディスプレイに対する閲覧者の相対的位置および閲覧者からディスプレイまでの距離に応じて出力画像をさらに調整し得る。出力画像はステップ７２０で表示される。

図８は、データ処理システム８００の一例を示す。データ処理システム８００は一実施形態で用い得る。例えばシステム８００は、図２Ａまたは図５の方法を実行するコンテンツ作成システムまたはコンテンツ編集システムを提供するために実装してもよいし、図２Ｂの方法を実行する再生デバイスを提供するために実装してもよい。留意すべきは、図８はデバイスの様々なコンポーネントを示しているが、コンポーネントを相互接続する特定の構造または様式を表すことを意図しているわけではない。なぜならこのような詳細は本開示に無関係だからである。より少数のコンポーネントまたはおそらくより多数のコンポーネントを有するネットワークコンピュータおよびその他のデータ処理システムまたはその他の消費者用電子機器を本開示の実施形態で用い得ることも理解すべきである。

図８に示すようにデバイス８００はデータ処理システムという形態にあり、バス８０３を含む。バス８０３はマイクロプロセッサ（単数または複数）８０５とＲＯＭ（リードオンリーメモリ）８０７と揮発性ＲＡＭ８０９と不揮発性メモリ８１１とに接続されている。マイクロプロセッサ（単数または複数）８０５はメモリ８０７、８０９および８１１から命令を引き出し、命令を実行することにより上記の動作を行い得る。マイクロプロセッサ（単数または複数）８０５は１以上の処理コアを含む。バス８０３はこれら様々なコンポーネントを相互接続し、さらにこれらのコンポーネント８０５、８０７、８０９および８１１と表示コントローラ兼表示デバイス８１３および周辺デバイスとを相互接続している。周辺デバイスは例えば入力／出力（Ｉ／Ｏ）デバイス８１５などであり、入力／出力デバイス８１５はタッチスクリーン、マウス、キーボード、モデム、ネットワークインターフェース、プリンタおよび当該分野で周知のその他のデバイスであり得る。典型的には入力／出力デバイス８１５は入力／出力コントローラ８１０を介してシステムに接続されている。揮発性ＲＡＭ（ランダムアクセスメモリ）８０９は典型的にはダイナミックＲＡＭ（ＤＲＡＭ）として実装される。ダイナミックＲＡＭはメモリ内のデータをリフレッシュまたは維持するために継続的にパワーを必要とする。

不揮発性メモリ８１１は典型的には磁気ハードドライブ、光磁気ドライブ、光学ドライブ、ＤＶＤＲＡＭ、フラッシュメモリまたは他のタイプのメモリシステムであり、システムからパワーが除去された後もデータ（例えば大量のデータ）を保持する。典型的には不揮発性メモリ８１１はランダムアクセスメモリでもあるが、このことは必要ではない。図８は不揮発性メモリ８１１がデータ処理システム内の他のコンポーネントに直接接続したローカルデバイスであることを示している。しかし本開示の実施形態は、システムに対してリモートの不揮発性メモリ、例えばモデム、イーサネットインターフェースまたは無線ネットワークなどのネットワークインターフェースを介してデータ処理システムに接続されたネットワークストレージシステムなどの不揮発性メモリを利用し得ることが理解される。バス８０３は、当該分野で周知のように様々なブリッジ、コントローラおよび／またはアダプタを介して互いに接続された１以上のバスを含み得る。

上記に記載したものの一部は、専用ロジック回路などのロジック回路によって、またはマイクロコントローラまたはプログラムコード命令を実行する他の形態の処理コアによって実装し得る。従って上記に教示したプロセスは、マシン実行可能命令などのプログラムコードで実行し得る。マシン実行可能命令は、これらの命令を実行するマシンに特定の機能を実行させる。ここで「マシン」とは中間形態の（または抽象的な）命令をプロセッサ特定命令（例えば「仮想マシン」（例：Ｊａｖａ仮想マシン）、インタプリタ、共通言語ランタイム、高度言語仮想マシンなどの抽象的実行環境）に変換するマシンであってもよいし、および／または命令を実行するように設計された半導体チップ（例えば「トランジスタで実装する「ロジック回路」）上に設けられた電子回路、例えば汎用プロセッサおよび／または専用プロセッサなどであってもよい。上記に教示したプロセスは、このプロセス（またはその一部）を実行するように設計された電子回路（マシンに対する代替物としての電子回路、またはマシンと組み合わせた電子回路）によって実行されてもよく、その場合、プログラムコードは実行しない。

本開示はさらに、本明細書に記載の動作を実行する装置に関する。この装置は、必要な目的のために特別に構築されたものであってもよいし、汎用デバイスであって、そのデバイスに保存されたコンピュータプログラムによって選択的に作動または再構成された汎用デバイスを含んでもよい。このようなコンピュータプログラムは、非一時的なコンピュータ読み取り可能記憶媒体に保存し得る。非一時的なコンピュータ読み取り可能記憶媒体とは、フロッピーディスク、光ディスク、ＣＤ－ＲＯＭおよび光磁気ディスクを含むあらゆるタイプのディスク、ＤＲＡＭ（揮発性）、フラッシュメモリ、リードオンリーメモリ（ＲＯＭ）、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気または光カード、または電子命令を保存するのに適したあらゆるタイプの媒体であるがこれらに限られず、各々がデバイスのバスに接続されている。

マシン読み取り可能媒体は、マシン（例えばコンピュータ）が読み取り可能な形態で情報を保存するあらゆる機構を含む。例えば非一時的なマシン読み取り可能媒体は、リードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイスなどを含む。

プログラムコードを保存するために製造品を用い得る。プログラムコートを保存する製造品は、１以上の非一時的なメモリ（例えば１以上のフラッシュメモリ、ランダムアクセスメモリ（スタティック、ダイナミックまたはその他）、光ディスク、ＣＤ－ＲＯＭ、ＤＶＤＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気または光カード、または電子命令を保存するのに適したその他のタイプのマシン読み取り可能媒体）として具現化され得るが、これらに限られない。プログラムコードはさらにリモートコンピュータ（例えばサーバ）からリクエストする側のコンピュータ（例えばクライアント）に、伝搬媒体内で具現化されたデータ信号によって（例えば通信リンク（例：ネットワーク接続）を介して）ダウンロードし得、その後クライアントコンピュータ内の非一時的なメモリ（例えばＤＲＡＭ、フラッシュメモリ、またはその両方）に保存し得る。

上記の詳細な説明はデバイスメモリ内のデータビット上での動作のアルゴリズムおよびシンボルによる動作の表現として提示される。これらのアルゴリズム記述および表現は、データ処理分野の当業者が自分たちの仕事の本質を他の当業者に最も効率的に伝えるために用いるツールである。アルゴリズムがここにあり、アルゴリズムは概して、所望の結果につながる首尾一貫した動作のシーケンスと考えられる。上記動作は物理量に対する物理的操作を必要とするものである。これらの量は必ずしもではないが通常、保存、移送、組み合わせ、比較およびその他の操作が可能な電気信号または磁気信号という形態を取る。これらの信号をビット、値、エレメント、シンボル、特性、ターム、数などと呼ぶことは、主に一般的な使用上の理由で時に都合がよいことが証明されている。

しかし、これら全ておよび類似の用語は適切な物理量と関連付けられ、これらの量に適用された好都合なラベルにすぎないということを覚えておくべきである。上記の記載から明らかなように特に明記しない限り、本記載全体を通じて、「受け取る」、「決定する」、「送る」、「終了する」、「待機する」および「変更する」などの用語を用いて行っている記載は、デバイスまたは同様の電子演算デバイスの作用およびプロセスを意味することが理解される。これらのデバイスまたは同様の電子演算デバイスは、そのデバイスのレジスタおよびメモリ内の物理（電子）量として表されるデータを操作し、そのデータを、そのデバイスのメモリまたはレジスタ、または同様の他の情報保存デバイス、送信デバイスまたは表示デバイス内で同様に物理量として表される他のデータに変換する。

本明細書で提示したプロセスおよびディスプレイは、元々何か特定のデバイスまたはその他の装置に関連しているわけではない。本明細書の教示に応じたプログラムと共に様々な汎用システムが用いられてもよいし、ここに記載の動作を実行するためにより特化した装置を構築することが好都合であると証明されてもよい。これら様々なシステムに必要な構成は以下の記載により明らかとなる。さらに本開示は特定のプログラミング言語を参照して記載するものではない。本明細書に記載の開示の教示を実行するために様々なプログラミング言語を用い得ることが理解される。

本明細書ではこれまで、特定の例としての実施形態を記載してきた。以下の請求の範囲に記載のより広い精神および範囲から逸脱することなく、これらの実施形態に様々な改変を行い得ることは明らかである。従って本明細書および図面は開示を限定するのではなく、例を示すものとして考えられるべきである。

本発明の様々な局面は以下に列挙した例としての実施形態（ＥＥＥ）から理解し得る。
ＥＥＥ１．
マシン実装された方法であって、
コンテンツ作成に用いる画像キャンバス用に元のアスペクト比（ＡＲ）を選択することと、
前記画像キャンバス上のコンテンツ内の少なくとも第１のシーン内で、前記少なくとも第1のシーン内の第1の被写体の第1の位置を決定することと、
前記第１の被写体の決定された位置に基づいて、前記第１の部分に対して、前記元のＡＲとは異なるＡＲを有する前記表示デバイス上での再生をいかにして適応させるかを特定する第１のメタデータを決定することと、
前記第１のメタデータおよび前記コンテンツが再生中に用いられるか又は用いるために送信される場合に、前記第1のメタデータを保存することと、
を含む方法。
ＥＥＥ２．
前記元のＡＲは実質的に正方形である、ＥＥＥ１に記載の方法。
ＥＥＥ３．
前記実質的な正方形は、（１）ＡＲ１６：９よりも正方形に近い、すなわち前記元のＡＲの高さに対する長さの比が１６：９の比（１６／９）よりも小さいが１：１以上であるか、（２）縦長モードが好ましい場合に９：１６の比より大きいが１：１より小さいか、のいずれかであり、前記元のＡＲはコンテンツ中に変化する、ＥＥＥ２に記載の方法。
ＥＥＥ４．
前記第１のシーンを含む複数のシーンに対して、前記第１の被写体を含む複数の被写体を決定することと、
前記複数のシーン内の前記被写体の各々に対して、対応するシーン内での対応する位置を決定することと、
をさらに含む、ＥＥＥ１から３のいずれか１つに記載の方法。
ＥＥＥ５．
被写体が前記複数のシーン内でのシーン毎に決定され、前記方法は、
異なるアスペクト比でのクロッピングがいかにして前記メタデータに基づいて行われるかを示すプレビューを表示することをさらに含む、ＥＥＥ４に記載の方法。
ＥＥＥ６．
前記第１のメタデータは、再生デバイス上での非対称なクロッピングを、再生用に適応させる際の異なるＡＲに合わせて前記第１のシーン内の前記第１の被写体から拡大するようにガイドする、ＥＥＥ１から５のいずれか１つに記載の方法。
ＥＥＥ７．
実行可能なプログラム命令を保存する非一時的なマシン読み取り可能媒体であって、データ処理システムによって実行されると、前記データ処理システムにＥＥＥ１から６のいずれか１つに記載の方法を実行させる、非一時的なマシン読み取り可能媒体。
ＥＥＥ８．
処理システムおよびメモリを有するデータ処理システムであって、ＥＥＥ１から６のいずれか１つに記載の方法を実行するように構成されたデータ処理システム。
ＥＥＥ９．
マシン実装された方法であって、
少なくとも第１のシーン用の画像データを含むコンテンツを受け取り、且つ前記第１のシーンに関連付けられた第１のメタデータを受け取ることであって、前記第１のメタデータは、前記第１のシーン内の第１の被写体の第１の位置に対して、元のアスペクト比（ＡＲ）とは異なるアスペクト比を有する表示デバイス上での再生をいかにして適応させるかを特定し、前記第１のシーンは前記元のアスペクト比を有する画像キャンバス上で作成されている、ことと、
前記第１のメタデータに基づいて前記表示デバイスの前記アスペクト比に出力を適応させることと、
を含む方法。
ＥＥＥ１０．
前記元のＡＲは実質的に正方形である、ＥＥＥ９に記載の方法。
ＥＥＥ１１．
前記実質的な正方形は、ＡＲ１６：９よりも正方形に近い、すなわち前記元のＡＲの高さに対する長さの比が１６：９の比（１６／９）より小さくなっており、前記元のＡＲは前記コンテンツ中に変化する、ＥＥＥ１０に記載の方法。
ＥＥＥ１２ａ．
前記コンテンツは、前記第１のシーンを含む複数のシーンを含み、前記複数のシーンのうちの各々のシーンはそのシーンの被写体用の決定された位置を有し、被写体はシーン毎に決定され、異なるＡＲに対する適応はシーン毎に行われ、トーンマッピングは前記表示デバイスに対してシーン毎またはフレーム毎に、且つ各シーンまたは各フレーム内の関心領域に基づいて行われ、各シーンは１以上のフレームを含む、ＥＥＥ９から１１のいずれか１つに記載の方法。
ＥＥＥ１２ｂ．
前記コンテンツは、前記第１のシーンを含む複数のシーンを含み、前記複数のシーンのうちの各々のシーンはそのシーンの被写体用の決定された位置を有し、被写体はシーン毎に決定され、異なるＡＲに対する適応はシーン毎に行われ、トーンマッピングは前記表示デバイスに対してシーン毎またはフレーム毎に、且つ適応した画像のうちのどの相対的部分が関心領域として呼ばれるかに基づいて行われ、各シーンは１以上のフレームを含む、ＥＥＥ９から１１のいずれか１つに記載の方法。
ＥＥＥ１３．
前記第１のメタデータは、再生デバイス上での非対称なクロッピングを、再生用に適応させる際の異なるＡＲに合わせて前記第１のシーン内の前記第１の被写体から拡大するようにガイドする、請求項９から１２のいずれか１つに記載の方法。
ＥＥＥ１４．
前記表示デバイスに対する閲覧者の位置に関連する距離パラメータと位置パラメータとを受け取ることと、
前記距離パラメータおよび前記位置パラメータに基づいて、前記第１の被写体の前記出力を前記表示デバイスにさらに適応させることと、
をさらに含む、ＥＥＥ９に記載の方法。
ＥＥＥ１５．
前記第１の被写体の前記出力を前記表示デバイスにさらに適応させることは、前記閲覧者と前記表示デバイスとの間の閲覧距離が長くなるときに前記第１の被写体の前記出力をアップスケーリングし、前記閲覧者と前記表示デバイスとの間の前記閲覧距離が短くなるときに前記第１の被写体の前記出力をダウンスケーリングすることを含む、ＥＥＥ１４に記載の方法。
ＥＥＥ１６．
前記第１の被写体の前記出力を前記表示デバイスにさらに適応させることは、前記表示デバイスが前記閲覧者に対して右に移動するときに前記第１の被写体の前記出力を左にシフトさせ、前記表示デバイスが前記閲覧者に対して左に移動するときに前記第１の被写体の前記出力を右にシフトさせることを含む、ＥＥＥ１４に記載の方法。
ＥＥＥ１７．
グラフィクスデータを受け取ることと、
前記グラフィクスデータと前記適応させた出力とを合成したものを含むビデオ出力を生成することと、
をさらに含むＥＥＥ９から１６のいずれか１つに記載の方法。
ＥＥＥ１８．
前記第１のメタデータは、閲覧者の意図する動きの経路を規定して再生中にケンバーンズ関連効果をガイドする構文要素をさらに含む、ＥＥＥ９から１７のいずれか１つに記載の方法。
ＥＥＥ１９．
実行可能なプログラム命令を保存する非一時的なマシン読み取り可能媒体であって、データ処理システムによって実行されると、前記データ処理システムにＥＥＥ９から１８のいずれか１つに記載の方法を実行させる、非一時的なマシン読み取り可能媒体。
ＥＥＥ２０．
処理システムおよびメモリを有するデータ処理システムであって、ＥＥＥ９から１８のいずれか１つに記載の方法を実行するように構成されたデータ処理システム。

付録
再生挙動例

再生デバイスは、画像メタデータ、ディスプレイの構成およびオプションとしてのユーザ構成に応じて特定のリフレーミングを適用する役目を担う。一例としての実施形態では、ステップは以下の通りである。
１）「デフォルトの視距離」の関数としてｒｅｌａｔｉｖｅｖｉｅｗｉｎｇｄｉｓｔａｎｃｅ(相対的視距離)を特定する。実装の複雑さ又はバージョンに応じて、オプションは以下を含む。
・ＲｅｌａｔｉｖｅＶｉｅｗｉｎｇＤｉｓｔａｎｃｅ＝１．０のデフォルト値を用いる。
・それを次の２つの方法のうち１つでダイナミックに調整する：
－ウィンドウをリサイズする際またはピクチャをピクチャモードにする際に自動で調整する。
ＲｅｌａｔｉｖｅＶｉｅｗｉｎｇＤｉｓｔａｎｃｅ＝ｓｑｒｔ（ＷｉｎｄｏｗＷｉｄｔｈ^２＋ＷｉｎｄｏｗＨｅｉｇｈｔ^２）／ｓｑｒｔ（ＤｉｓｐｌａｙＷｉｄｔｈ^２＋ＤｉｓｐｌａｙＨｅｉｇｈｔ^２）
－ユーザインタラクション（ピンチングする、スクロールする、およびバーをスライドさせるなど）により手動で調整する。
・カメラまたはその他のセンサを用いて視距離を測定し、閲覧者の測定済み距離（典型的にはメートルで）を設定ファイルで特定されたデフォルト視距離に分割する。
ＲｅｌａｔｉｖｅＶｉｅｗｉｎｇＤｉｓｔａｎｃｅ＝ＶｉｅｗｅｒＤｉｓｔａｎｃｅ／ＤｅｆａｕｌｔＶｉｅｗｉｎｇＤｉｓｔａｎｃｅ
備考：いくつかの実施形態では、相対的視距離の値を特定の範囲（例えば０．５と２．０との間）でバウンディングしなければならなくなる可能性がある。例として２つのバウンディングスキームを後にこのセクション内で示す。
２）ソースの相対的視距離を相対的角度に変換する。

上記式において、（Ｗ，Ｈ）_ｓｒｃはソース画像の画素での幅および高さであり、ＭａｓｔｅｒｉｎｇＶｉｅｗｉｎｇＤｉｓｔａｎｃｅはＬ１２メタデータまたはその他のメタデータによって提供される値である。デフォルト値は０．５である。
３）ターゲットの相対的視距離を相対的角度に変換する。

上記式において、（Ｗ，Ｈ）_ｔｇｔはターゲット画像の画素での幅および高さであり、ＲｅｌａｔｉｖｅＶｉｅｗｉｎｇＤｉｓｔａｎｃｅはステップ（１）から計算される。
４）関心領域（Ｕ，Ｖ）_ｒｏｉの視野角を計算する。

上記式において、（Ｗ，Ｈ）_ｒｏｉはＲＯＩの画素での幅および高さであり、Ｌ１２メタデータまたはその他のメタデータによって提供される。デフォルト値は（Ｗ，Ｈ）_ｓｒｃである。（Ｗ，Ｈ）_ｓｒｃはソース画像の画素での幅および高さである。
５）ＲＯＩ全体が表示されることを確実にするためにターゲットの視野角を再スケーリングする。

６）パディングが１方向にのみ適用されることを確実にするためにターゲットの視野角を再スケーリングする。

７）ＲＯＩ（Ｕ，Ｖ）_０の左上画素の角座標を見つける。

上記式において、（Ｘ，Ｙ）_０はのＲＯＩの左上位置であり、０から（Ｗ，Ｈ）_ｓｒｃまでである。Ｌ１２メタデータまたはその他のメタデータによって提供され、デフォルト値は（０，０）である。（Ｗ，Ｈ）_ｓｒｃはソース画像の幅および高さである。
８）エッジまでの距離に基づいてＲＯＩの左上の角度位置をスケーリングし、ターゲットの視野角がソースの視野角より大きい場合にレターボックス領域を中心に位置づける。

９）角座標を画素座標に変換する。

１０）前のステップで計算したＲＯＩ（Ｘ，Ｙ，Ｗ，Ｈ）を出力画像の解像度に再スケーリングする。備考：これはトーンマッピングを適用する前にしてもよいし後にしてもよい。
１１）ソース画像に対するＲＯＩの相対的サイズに基づいてトーンマッピングに対する調整を計算する。

上記式において、Ｓ_ｍｉｄはトーンマッピング用のトーン曲線の中間点として用いられる値である。
Ｌ１_ｍｉｄおよびＬ３_{ｍｉｄｏｆｆｓｅｔ}はＬ１メタデータおよびＬ３メタデータによって提供される。
Ｌ１２_{ｍｉｄｏｆｆｓｅｔ}はＬ１２メタデータによって提供される。デフォルト値は０．０である。
ＲｅｌａｔｉｖｅＶｉｅｗｉｎｇＤｉｓｔａｎｃｅの範囲を制限する。
いくつかの実施形態では、ＲｅｌａｔｉｖｅＶｉｅｗｉｎｇＤｉｓｔａｎｃｅを潜在的に無限の範囲から有効な範囲に（例えば０．５から２．０に）制限するために２つのオプションが提供される。
ハードバウンド。視距離が最短視距離と最長視距離との間でハードバウンディング（クリッピング）される。ＲＯＩのサイズは範囲全体に保存される。この方法は、あらゆる視距離で最適なマッピングを確実にするが、最短および最長の視距離で挙動が突然変化する。
ソフトバウンド。最短および最長の視距離で挙動が突然変化することを防ぎながら視距離の範囲を拡大するために、視距離にシグモイド関数を適用する。この関数はいくつかのキー特性を有する。
ａ）デフォルトの視距離での１：１マッピング。リアリティおよび没入感のある応答を提供するため。
ｂ）最短および最長視距離での０のスロープ。挙動の突然の変化を防止するため。
一例として、以下に示す関数曲線は０．２５ｘから２．５ｘ（デフォルトの視距離）までの僅かに長い測定視距離をマッピングして、０．５ｘから２ｘ（デフォルトの視距離）までの範囲のマッピング済み視距離にする。

Claims

マシン実装された方法であって、
少なくとも第１のシーン用の画像データを含むコンテンツを受け取り、且つ前記第１のシーンに関連付けられた第１のメタデータを受け取ることであって、前記第１のメタデータは、前記第１のシーン内の第１の被写体の第１の位置に対して、元のアスペクト比（ＡＲ）とは異なるアスペクト比を有する表示デバイス上での再生をいかにして適応させるかを特定し、前記第１のシーンは前記元のアスペクト比を有する画像キャンバス上で作成されている、ことと、
前記第１のメタデータに基づいて前記表示デバイスの前記アスペクト比に出力を適応させることと、
を含み、
前記表示デバイスに対する閲覧者の位置に関連する距離パラメータと位置パラメータとを受け取ることと、
前記距離パラメータおよび前記位置パラメータに基づいて、前記第１の被写体の前記出力を前記表示デバイスにさらに適応させることと、
をさらに含む方法。
前記元のＡＲは実質的に正方形である、請求項１に記載の方法。
前記実質的な正方形は、ＡＲ１６：９よりも正方形に近い、すなわち前記元のＡＲの高さに対する長さの比が１６：９の比（１６／９）より小さくなっており、前記元のＡＲは前記コンテンツ中に変化する、請求項２に記載の方法。
前記コンテンツは、前記第１のシーンを含む複数のシーンを含み、前記複数のシーンのうちの各々のシーンはそのシーンの被写体用の決定された位置を有し、被写体はシーン毎に決定され、異なるＡＲに対する適応はシーン毎に行われ、トーンマッピングは前記表示デバイスに対してシーン毎またはフレーム毎に、且つ各シーンまたは各フレーム内の前記第１の被写体を含む関心領域に基づいて行われ、各シーンは１以上のフレームを含む、請求項１から３のいずれか１項に記載の方法。
前記第１のメタデータは、再生デバイス上での非対称なクロッピングを、再生用に適応させる際の異なるＡＲに合わせて前記第１のシーン内の前記第１の被写体から拡大するようにガイドする、請求項１から４のいずれか１項に記載の方法。
前記第１の被写体の前記出力を前記表示デバイスにさらに適応させることは、前記閲覧者と前記表示デバイスとの間の閲覧距離が長くなるときに前記第１の被写体の前記出力をアップスケーリングし、前記閲覧者と前記表示デバイスとの間の前記閲覧距離が短くなるときに前記第１の被写体の前記出力をダウンスケーリングすることを含む、請求項１から５のいずれか１項に記載の方法。
前記第１の被写体の前記出力を前記表示デバイスにさらに適応させることは、前記表示デバイスが前記閲覧者に対して右に移動するときに前記第１の被写体の前記出力を左にシフトさせ、前記表示デバイスが前記閲覧者に対して左に移動するときに前記第１の被写体の前記出力を右にシフトさせることを含む、請求項１から６のいずれか１項に記載の方法。
グラフィクスデータを受け取ることと、
前記グラフィクスデータと前記適応させた出力とを合成したものを含むビデオ出力を生成することと、
をさらに含む請求項１から７のいずれか１項に記載の方法。
前記第１のメタデータは、閲覧者の意図する動きの経路を規定して再生中にケンバーンズ関連効果をガイドする構文要素をさらに含む、請求項１から８のいずれか１項に記載の方法。
実行可能なプログラム命令を保存する非一時的なマシン読み取り可能媒体であって、データ処理システムによって実行されると、前記データ処理システムに請求項１から９のいずれか１項に記載の方法を実行させる、非一時的なマシン読み取り可能媒体。
処理システムおよびメモリを有するデータ処理システムであって、請求項１から９のいずれか１項に記載の方法を実行するように構成されたデータ処理システム。
マシン実装された方法であって、
コンテンツ作成に用いる画像キャンバス用に元のアスペクト比（ＡＲ）を選択することと、
前記画像キャンバス上のコンテンツ内の少なくとも第１のシーン内で、前記少なくとも第１のシーン内の第1の被写体の第１の位置を決定することと、
前記第１の被写体の決定された位置に基づき且つ閲覧者と表示デバイスとの間の距離に基づいて、前記第１の部分に対して、前記元のＡＲとは異なるＡＲを有する前記表示デバイス上での再生をいかにして適応させるかを特定する第１のメタデータを決定することと、
前記第１のメタデータおよび前記コンテンツが再生中に用いられるか又は用いるために送信される場合に、前記第１のメタデータを保存することと、
を含む方法。
前記閲覧者と前記表示デバイスとの間の異なる距離に対して、前記第１の被写体を表示する異なるズーム比を提供する、請求項１２に記載の方法。
前記元のＡＲは実質的に正方形である、請求項１２または１３に記載の方法。
前記実質的な正方形は、（１）ＡＲ１６：９よりも正方形に近い、すなわち前記元のＡＲの高さに対する長さの比が１６：９の比（１６／９）よりも小さいが１：１以上であるか、（２）縦長モードが好ましい場合に９：１６の比より大きいが１：１より小さいか、のいずれかであり、前記元のＡＲはコンテンツ中に変化する、請求項１４に記載の方法。
前記第１のシーンを含む複数のシーンに対して、前記第１の被写体を含む複数の被写体を決定することと、
前記複数のシーン内の前記被写体の各々に対して、対応するシーン内での対応する位置を決定することと、
をさらに含む、請求項１２から１５のいずれか１項に記載の方法。
被写体が前記複数のシーン内でのシーン毎に決定され、前記方法は、
異なるアスペクト比でのクロッピングがいかにして前記メタデータに基づいて行われるかを示すプレビューを表示することをさらに含む、請求項１６に記載の方法。
前記第１のメタデータは、再生デバイス上での非対称なクロッピングを、再生用に適応させる際の異なるＡＲに合わせて前記第１のシーン内の前記第１の被写体から拡大するようにガイドする、請求項１２から１７のいずれか１項に記載の方法。
実行可能なプログラム命令を保存する非一時的なマシン読み取り可能媒体であって、データ処理システムによって実行されると、前記データ処理システムに請求項１２から１８のいずれか１項に記載の方法を実行させる、非一時的なマシン読み取り可能媒体。
処理システムおよびメモリを有するデータ処理システムであって、請求項１２から１８のいずれか１項に記載の方法を実行するように構成されたデータ処理システム。