JP5577348B2

JP5577348B2 - 内容順応情報を有する３次元動画提示方法及びシステム

Info

Publication number: JP5577348B2
Application number: JP2011538072A
Authority: JP
Inventors: ニンチャン、; サミュエルチョウ、; ジンキンチョウ、; トドルベリック、
Original assignee: アイマックスコーポレイション
Priority date: 2008-12-01
Filing date: 2009-12-01
Publication date: 2014-08-20
Anticipated expiration: 2029-12-01
Also published as: WO2010064118A1; RU2546546C2; JP2012510750A; CN102232294B; US9013551B2; EP2356818B1; CA2743569C; US20110242104A1; CA2743569A1; EP2356818A1; CN102232294A; RU2011126983A

Description

本開示は一般に３次元画像処理に関する。詳しくは、３次元（３Ｄ）画像によって当該３Ｄ画像の内容に基づく字幕のような付加情報を表示する画像の処理に関する。

関連出願の相互参照
本願は、２００８年１２月１日に出願された「内容順応３次元字幕を有する３次元動画を提示する方法及びシステム」という名称の米国仮出願第６１／２００，７２５号の優先権を主張する。その内容すべてが本明細書に参照として組み込まれる。

字幕は、音声ダイアログのテキスト表現である。音声ダイアログは典型的に、動画提示のオリジナルバージョンとは異なる言語に翻訳されている。字幕は、音声ダイアログと、聴覚障害の提示視聴者を補助する音響記述との双方を記述するべく使用できるキャプションであり得る。キャプション・テキストが、スクリーンに表示されるか又は別個に表示される。用語「字幕」とは、画像提示スクリーンに表示される任意のテキスト又はグラフィックのことである。字幕は一種の「付加情報」であって、画像に加えて表示される。字幕はスクリーン（通常はスクリーン底部）に表示されて、例えば観客が理解できない言語で話されるダイアログのような映画のダイアログを観客が理解する助けとなるか又は観客のうち音を聞くのが困難な者の補助となる。

典型的に字幕は、動画のための字幕要素を含む字幕ファイルとして受け取られる。字幕要素は、字幕テキスト及びタイミング情報を含む。タイミング情報は、字幕テキストがいつスクリーンに現れて消えるべきかを示す。タイミング情報は、時間コード又はフィルム長（例えばフィート及びフレームで測定される）のような他の同等な情報に基づくことが多い。字幕ファイルはまた、テキストフォント、テキスト色、字幕スクリーン配置、及びスクリーンアラインメント情報のような他の属性を含むこともできる。これらは、字幕がスクリーンに現れる態様を記述する。従来の字幕表示システムは、字幕ファイルからの情報を解釈し、字幕要素をグラフィカル表現に変換し、当該字幕ファイルの情報に従い字幕を画像と同期させてスクリーンに表示する。従来の字幕表示システムの機能は、デジタルシネマサーバによって果たすことができる。デジタルシネマサーバは、変換された字幕表現を、デジタルプロジェクタによって表示される画像上にスーパーインポーズする。

３次元（３Ｄ）動画の提示は、立体視３Ｄ表示システムを使用して立体視３Ｄ画像を所定順序で表示することによって行われる。３Ｄ画像は、同じシーンのわずかに異なる２つのビューを表す左目画像と対応右目画像とを含む。これらは、人間の視聴者の両目が知覚する２つの視界と類似する。左目画像と右目画像との違いとは、両眼格差のことである。これは「格差」と同義的に使用されることが多い。格差とは、左目画像のピクセルと対応右目画像の対応ピクセルとの水平位置差のことであり得る。格差はピクセル数で測ることができる。類似概念として「視差」がある。これは、スクリーンに表示されたときの一対のピクセル間のような水平位置差のことである。視差は、インチのような距離尺度によって測ることができる。視差の値とは、表示スクリーンの次元を考慮すれば、３Ｄ画像データにおけるピクセル格差の値のことである。３Ｄ動画は、複数の左目画像シーケンス及び対応右目画像シーケンスを含む。３Ｄ表示システムは、左目画像シーケンスが視聴者の左目に提示され、かつ、右目画像シーケンスが当該視聴者の右目に提示されて奥行きの知覚が生じることを保証する。３Ｄ画像フレームにおけるピクセルの知覚奥行きは、対応するピクセル対の表示された左目ビューと右目ビューとの視差の量で決めることができる。視差が強ければ強いほど又はピクセル格差値が大きければ大きいほど３Ｄ画像は人間の視聴者に近づいて見える。

３Ｄ動画に対して字幕又は任意の付加情報を与える一方法は、従来の字幕表示システムを使用することを含む。当該字幕表示システムにおいて、字幕画像の単眼視バージョンが左目及び右目双方に見えるようにスクリーンに表示される。当該字幕が当該スクリーンの奥行きに有効に配置される。強い視差にある３Ｄ画像が字幕の単眼視バージョンとともに提示されると、観客は当該画像の奥行きより後ろに現れる字幕を読むのが困難になる。観客には、一の奥行きの画像と異なる奥行きの画像とを同時に融合させることができない目の者がいるからである。

従来より３Ｄ画像で表示される字幕を図１に示す。表示される３Ｄ画像は、スクリーン１０２から出てくる見かけの奥行きを有する主物体１０６を含む。単眼視字幕テキスト１０８は、スクリーンでの見かけの奥行きを有する。３Ｄ眼鏡１０４をかけた視聴者が主物体１０６に焦点を合わせると、視聴者は、主物体１０６の後ろにある字幕１０８を二重画像１１０及び１１２として知覚する。視聴者は３Ｄ画像を見ながら字幕テキストを読むことに困難を覚える。この問題は、ＩＭＡＸ（登録商標）３Ｄ劇場のような大スクリーン３Ｄシネマ開催地の観客にとって特に不快である。当該開催地では、強い視差の３Ｄ画像が提示され、小さな３Ｄ劇場よりも没入感があり近くに見える。

この問題は字幕に対して提示されているが、３Ｄ画像以外の任意の情報が３Ｄ画像とともに表示されても、本明細書で述べるように、この問題又は他の問題が生じる。

従来の字幕表示システムにより３Ｄ動画に対して字幕を投影する他の方法は、字幕の単眼視バージョンをスクリーン頂部付近に配置することである。かかる方法は、観客の視聴不快感を低減する。ほとんどの３Ｄシーンでは、画像フレームの頂部付近の画像内容は当該画像フレームの底部付近の画像内容よりも多くの遠い奥行き値を有することが多いからである。例えば、画像頂部付近の画像内容は、空、雲、建物の屋根、又は丘を含むことが多い。これらはシーンの他の物体から遠く離れている。この種の内容は、スクリーンの奥行きに近いか又はこれよりも後ろの奥行きを有することが多い。視聴者は、近くの画像内容が遠く離れるか又はスクリーンの奥行きより後ろにさえ存在する間、単眼視バージョンの字幕を読むことが容易だと感じる。しかしながら視聴者は、スクリーン頂部付近の画像内容が、当該遠くの奥行きに近接した見かけの奥行きを有する場合には困難を覚え続けるかもしれない。さらに視聴者は、画像に対する字幕又は他の付加情報を連続して受け取るべく画像頂部に焦点を合わせることに不便を感じるかもしれない。

したがって、字幕又は他の付加情報を、許容できる奥行き又は当該表示上の他の位置に３Ｄ画像とともに表示させることができるシステム及び方法が望まれている。

さらに、既存の所定方法も３Ｄ画像内容の奥行きを決定するべく使用できるが、かかる既存の方法は、３Ｄ画像内容の奥行きを迅速かつ動的に決定するには不適当である。従来の立体マッチング方法は、画像内容の時間的変化に対応することができないので、正確な格差結果を一貫して与えることができない。その結果、従来のステレオマッチング法に基づいて計算された３Ｄ字幕の奥行きは時間的に一貫するものではなく、観客に視聴不快感が生じる。さらに、従来のステレオマッチング法は、自動かつリアルタイムの計算アプリケーションにとって有効かつ十分に信頼できるものではない。したがって、３Ｄ画像内容の奥行きを迅速かつ動的に決定するべく使用できるシステム及び方法もまた望まれている。これにより、当該３Ｄ画像内容に加えて字幕又は他の情報を配置するべく当該奥行きを使用することができる。

国際公開第２００８／１１５２２２号明細書米国特許出願公開第２００７／２８８８４４号明細書特開２００４−２７４１２５号公報

ATZPADIN N ET AL:"Stereo Analysis by Hybrid Recursive Matching for Real-Time Immersive Video Conferencing"IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, IEEE SERVICE CENTER, PISCATAWAY, NJ, US, vol. 14, no. 3,1 March 2004 (2004-03-01), pages 321-334

所定の実施例は、３次元（３Ｄ）動画提示において、観客が当該画像及び字幕を容易かつ快適に読むことができるように立体視３Ｄの字幕を処理及び表示することに関する。立体視３Ｄ字幕又は３Ｄ字幕が、左目字幕画像及び右目字幕画像を適切な格差又は視差で表示することによって生成される。

一実施例では、３Ｄ画像に基づく内容順応奥行きを有する３Ｄ字幕が、高レベルの計算効率及び計算信頼性で処理される。

一実施例では、３Ｄ画像に基づく内容順応奥行きを有する３Ｄ字幕が、高レベルの計算効率及び計算信頼性で処理され、デジタルシネマパッケージ（ＤＣＰ）形式で利用可能な圧縮バージョンの３Ｄ画像に基づく。

一実施例では、内容順応奥行きを有する３Ｄ字幕が処理及び表示される一方で一貫した知覚字幕フォントサイズが維持される。

一実施例では、内容順応奥行きを有する３Ｄ字幕を計算及び表示する３Ｄデジタル投影システムが与えられる。

一実施例では、内容順応奥行きを有する３Ｄ字幕、並びに、フォントスタイル、フォントサイズ、色又は輝度、及びスクリーン位置を含む他の内容順応字幕属性が処理及び表示される。

一実施例では、内容順応奥行きを有する３Ｄ字幕、並びに、フォントスタイル、フォントサイズ、色又は輝度、及びスクリーン位置を含む内容順応字幕属性を計算及び表示する３Ｄデジタル投影システムが与えられる。

一実施例では、３Ｄ画像シーケンス及び当該３Ｄ画像シーケンスのための字幕ファイルが受け取られる。字幕ファイルは、字幕要素及び当該字幕要素に関連付けられたタイミング情報を含む。字幕要素は、タイミング情報に基づいて３Ｄ画像シーケンスの一セグメントに関連付けられる。字幕要素に関連付けられた当該セグメントから抽象奥行きマップが計算される。字幕要素のための抽象奥行きマップからプロキシ奥行きが計算される。プロキシ奥行きは、字幕要素に対するレンダリング属性を決定するべく使用される。レンダリング属性が出力される。

一実施例では、表示媒体が与えられる。表示媒体上に画像が表示される。表示媒体は、可変見かけ奥行きでの内容を有する３Ｄ画像シーケンスを含む。表示媒体はまた、見かけの奥行きを有する字幕要素を含む。当該見かけの奥行きは、３Ｄ画像シーケンスの内容の当該可変見かけ奥行きに基づいて変化する。

これらの説明上の実施例は、その理解を助ける例を与えるべく言及され、本開示を限定又は画定するべく言及されるものではない。付加的な実施例が詳細な説明に述べられ、さらなる説明が与えられる。様々な実施例の一以上により得られる利点が、本明細書を検討することによって又は提示される一以上の実施例を実施することによってさらに理解される。

スクリーンに表示される単眼視字幕を有する３次元（３Ｄ）画像の従来技術に係る表現を示す。本発明の一実施例に係るスクリーンに表示される立体視字幕を伴う３Ｄ画像の表現を示す。本発明の一実施例に係る３Ｄ画像とともにスクリーンに表示される立体視字幕のレンダリング属性を決定することができるシステムを示す。本発明の一実施例に係る３Ｄ画像とともに表示される立体視字幕を計算する方法のフロー図を示す。本発明の一実施例に係る画像抽象化をグラフィカルに示す。本発明の一実施例に係る垂直サンプリング投影をグラフィカルに示す。本発明の一実施例に係る多重垂直サンプリング投影をグラフィカルに示す。本発明の一実施例に係る多重領域画像抽象化をグラフィカルに示す。多重領域画像抽象化の第２実施例をグラフィカルに示す。本発明の一実施例に係る抽象画像対及び抽象奥行きマップをグラフィカルに示す。本発明の一実施例に係るプロキシ奥行き決定モジュールの機能ブロック図を示す。本発明の一実施例に係る３Ｄ画像セグメントの格差分布を示す。本発明の一実施例に係る３Ｄ画像セグメントのディストグラムを示す。本発明の一実施例に係る従来字幕テキストファイルの一例である。本発明の一実施例に係るプロキシ奥行きを有する３Ｄ字幕テキストファイルの一例である。本発明の一実施例に係る時間窓選択をグラフィカルに示す。本発明の一実施例に係るディストグラムからのプロキシ奥行き決定をグラフィカルに示す。本発明の一実施例に係る選択ＤＣＰデコーディングをグラフィカルに示す。本発明の一実施例に係る選択ＤＣＰデコーディングをグラフィカルに示す。本発明の一実施例に係るＪＰＥＧ２Ｋレベル３サブバンド及び対応パケットをグラフィカルに示す。本発明の一実施例に係るオフライン内容順応３Ｄ字幕計算システムの機能ブロック図である。本発明の一実施例に係るリアルタイム内容順応３Ｄ字幕計算システムの機能ブロック図である。本発明の一実施例に係る字幕コントローラのフローチャートである。

本明細書に開示される本発明の概念の所定側面及び実施例は、３次元（３Ｄ）画像を、当該３Ｄ画像の内容に基づいて字幕のような付加情報とともに所定位置及び所定奥行きで表示する方法及びシステムに関する。開示の方法は一般に任意の種類の３Ｄ立体視表示システムに適する一方、当該方法は、没入感のある視聴環境を伴う３Ｄ動画劇場に対して特に適用性がある。

いくつかの実施例では、字幕である付加情報が、表示される３Ｄ画像の内容の奥行きと同じ奥行きで又はこれに基づいて表示される。図２は、字幕要素２１４の一実施例を示す。字幕要素２１４は、３Ｄ画像における主画像物体１０６の奥行きに基づく奥行きで表示される。３Ｄ画像の内容に基づく奥行きで字幕要素２１４を表示することによって、視聴者１０４は３Ｄ画像及び字幕の双方を同時かつ快適に見ることができる。さらに、主画像物体１０６の奥行きが変わると、字幕要素２１４の奥行きもまた、主画像物体１０６の奥行きの変化に基づいて変わることができる。

字幕要素２１４の奥行き配置は、同じ字幕要素の左目ビュー及び右目ビューを適切な視差で表示することによる立体視法で与えることができる。このように表示される字幕は、立体視字幕と称される。または、３Ｄ字幕として知られている。字幕の奥行き配置に必要な視差の量は、主画像物体１０６の奥行きを計算することによって決定することができる。または、主画像物体１０６のピクセル格差値を計算することによって同等に決定することができる。

３Ｄ字幕の左目ビュー及び右目ビューは、スクリーン位置における字幕要素の水平シフトによって生成することができる。例えば、左目ビューの字幕テキストが字幕要素を右へ１０ピクセルだけ水平シフトすることによって生成される一方で、対応右目ビューの字幕テキストは字幕要素を左へ１０ピクセルだけシフトすることによって生成される。したがって、得られる３Ｄ字幕は、左目ビューと右目ビューとの間で２０ピクセルの格差を有する。かかる格差を有する字幕要素の実際に知覚される奥行きは、表示スクリーンサイズ及び画像レゾリューションの双方に依存する。２１．３メートル（７０フィート）幅のスクリーンに表示される２０４８ピクセルの画像幅を有する２Ｋレゾリューション画像に対し、２０ピクセルの格差を有する字幕要素は観客から約４．２７メートル（１４フィート）離れて現れる。

当該字幕は、当該字幕要素位置にある３Ｄ画像における最も近い物体の所定量だけ前に配置できる。当該所定量は、固定数の付加格差であってよい。例えば、最も近い画像物体が観客から３．０５メートル（１０フィート）にある場合、字幕要素は、８ピクセルの合計付加格差となる各目に対する４ピクセルの付加格差で配置できる。これにより、画像物体よりも観客に約６１センチメートル（２フィート）だけ近く効果的に字幕が配置される。３Ｄ動画の複数画像は常に変化する奥行きを示すので、字幕の奥行きも、画像内容の奥行きに追従して変化し、かつ、当該画像の字幕要素位置にある最も近い物体の前に保持され得る。いくつかの実施例では、付加格差は、２０４８ピクセル幅の画像に対して１ピクセルから２０ピクセルの範囲であり得る。また、４０９６ピクセル幅の画像に対して１ピクセルから４０ピクセルの範囲であり得る。画像物体の奥行きは、ステレオマッチング法又は他の適切な方法を使用して計算される。

いくつかの実施例では、ステレオマッチング法を使用して３Ｄ画像のピクセル格差を計算することができる。典型的に字幕要素は、人が話し始めるときにスクリーンに現れ、その後間もなくしてその人が話すのをやめると消える。字幕要素が表示される平均継続時間は数秒であるが、所定の状況では相当長く又は短くなる。字幕要素の表示中、多くの画像フレームがスクリーンに投影される。かかる画像は、時間的に変化する内容を含む。当該変化内容は例えば、物体の動き、明暗変化、シーンのディゾルブ、及びシーンのカットである。

本発明のいくつかの実施例によれば、字幕要素のプロキシ奥行き値が、当該字幕要素の継続時間に対応する時間窓内の３Ｄ画像フレームすべてを分析することによって計算される。字幕要素のプロキシ奥行き値は一定であっても、又は字幕継続時間にわたってフレームごとに変化してもよい。当該プロキシ奥行き値は、字幕要素に関連付けることができる。また、当該字幕要素の代表値であってよい。字幕要素の実際の奥行き配置は、計算されたプロキシ奥行き値に基づいて計算される。３Ｄ動画における各字幕要素は、画像内容に順応するプロキシ奥行きによって決定される奥行きに配置できる。

いくつかの実施例に係る内容順応法は、字幕の他の属性に拡張することができる。当該属性は、字幕フォントスタイル、フォントサイズ、色、輝度、及びスクリーン位置を含むがこれらに限られない。３Ｄ動画の視聴体験を向上させるべく任意のタイプの属性を内容順応させることができる。適切な一方法又は一組の適切な複数の画像分析方法を使用して、当該字幕属性の各々の配置を決定することができる。

字幕要素の奥行き配置は、３Ｄスクリーンに表示された字幕要素の左目ビューと右目ビューとの水平位置を制御することを介して一装置によって作ることができる。当該装置が作る奥行き配置は、計算されたプロキシ奥行きと同じであってもそうでなくてもよい。かかる相違の一例は、当該装置が限られた奥行き範囲及び奥行きレゾリューションを有する場合である。同装置はまた、当該字幕の内容順応属性も制御する。

従来の字幕の属性は、テキストベースの字幕ファイルによって与えることができる。字幕ファイルによって与えられる情報の一のタイプは、各字幕要素の開始時刻及び終了時刻である。かかるタイミング情報を使用して、字幕要素の奥行き及び他の内容順応属性を計算するための時間窓を決定することができる。

図３は、３Ｄ画像とともに表示される３Ｄ字幕又は他の情報を生成するべく使用されるシステムの一実施例を示す。本システムは計算装置３０２を含む。計算装置３０２は、メモリ３０６のようなコンピュータ可読媒体に格納されたコードを実行することができるプロセッサ３０４を有する。これにより、計算装置３０２は、３Ｄ画像とともに表示される字幕属性又は他の情報を計算することができる。計算装置３０２はデータを処理することができて、複数のアクションを行う一組の命令であるコードを実行することができる任意の装置である。計算装置３０２の例は、デスクトップパーソナルコンピュータ、ラップトップパーソナルコンピュータ、サーバ装置、ハンドヘルド計算装置、及びモバイル装置を含む。

プロセッサ３０４の例は、マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、状態機械、又は他の適切なプロセッサを含む。プロセッサ３０４は、一のプロセッサ又は任意数のプロセッサを含む。プロセッサ３０４は、メモリ３０６に格納されたコードにバス３０８を介してアクセスすることができる。メモリ３０６は、コードを格納することができる任意の有体コンピュータ可読媒体である。メモリ３０６は、実行可能コードをプロセッサ３０４に与えることができる電子装置、磁気装置、又は光学装置を含む。メモリ３０６の例は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、フロッピー（登録商標）ディスク、コンパクトディスク、デジタルビデオ装置、磁気ディスク、ＡＳＩＣ、コンフィギュアドプロセッサ、又は、コードを有体的に包含する他の格納装置を含む。バス３０８は、計算装置３０２のコンポーネント間でデータ送信可能な任意の装置である。バス３０８は、一又は複数の装置を含むことができる。

計算装置３０２は、入出力（Ｉ／Ｏ）インターフェイス３１０を介して付加的コンポーネントとデータを共有することができる。Ｉ／Ｏインターフェイス３１０は、ＵＳＢポート、イーサネット（登録商標）ポート、シリアルバスインターフェイス、パラレルバスインターフェイス、ワイヤレス接続インターフェイス、又は、当該計算装置と周辺装置／ネットワーク３１２との間のデータ送信が可能な任意の適切なインターフェイスを含むことができる。周辺装置／ネットワーク３１２は、キーボード、ディスプレイ、マウス装置、タッチスクリーンインターフェイス、又は、ユーザからコマンドを受け取り当該コマンドを計算装置３０２に与えることができる他のユーザインターフェイス装置／出力装置を含むことができる。他の周辺装置／ネットワーク３１２は、インターネット、イントラネット、広域ネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、仮想プライベートネットワーク（ＶＰＮ）、又は、計算装置３０２が他のコンポーネントと通信できる任意の適切な通信ネットワークを含む。

命令はメモリ３０６に実行可能コードとして格納できる。当該命令は、任意の適切なコンピュータプログラミング言語で書かれたコードからコンパイラ及び／又はインタープリターにより生成される特定プロセッサ向け命令を含むことができる。当該コンピュータプログラミング言語は例えば、Ｃ、Ｃ＋＋、Ｃ＃、ビジュアルベーシック、Ｊａｖａ（登録商標）、Ｐｙｔｈｏｎ、Ｐｅｒｌ、ＪａｖａＳｃｒｉｐｔ（登録商標）、及びＡｃｔｉｏｎＳｃｒｉｐｔである。当該命令は、メモリ３０６に格納されたソフトウェアモジュールによって生成することができる。プロセッサ３０４によって当該命令が実行されると、計算装置３０２は複数のアクションを行う。

ソフトウェアモジュールは、画像デコーディングモジュール３１４、時間窓選択モジュール３１６、画像抽象化モジュール３１８、抽象奥行き計算モジュール３２０、プロキシ奥行き決定モジュール３２２、及びレンダリング属性計算モジュール３２４を含むことができる。画像デコーディングモジュール３１４は、非圧縮化かつ非暗号化形式にエンコード化又は暗号化された左目画像データ及び右目画像データをデコードするべく使用される。時間窓選択モジュール３１６は、字幕ファイルの字幕タイミング情報に基づいて、各字幕要素に対して３Ｄ画像データの一セグメントを選択することができる。画像抽象化モジュール３１８は、各３Ｄ画像セグメントを一対の左及び右抽象画像（例えば、左目画像シーケンスからの一画像及び右目画像シーケンスからの一画像）に単純化することができる。抽象奥行き計算モジュール３２０は、当該左及び右抽象画像から抽象奥行きマップを計算することができる。プロキシ奥行き決定モジュールは、当該抽象奥行きマップに基づいて、字幕要素のためのプロキシ奥行きを計算することができる。レンダリング属性計算モジュールは、字幕要素のためのレンダリング属性を決定することができる。これは例えば、当該字幕要素のためのプロキシ奥行き及び他の画像情報に基づく。

この例示的なシステム構成は、所定実施例を実施するべく使用できる潜在的な構成を説明するべく与えられるに過ぎない。もちろん、他の構成も利用できる。

図４は、３Ｄ字幕要素のための属性を３Ｄ画像の内容に基づいて計算する方法の一実施例を示す。図４に示される方法は字幕に適用するものとして記載されるが、本方法は、３Ｄ画像に加えて任意のタイプの情報に対しても適用することができる。さらに、図４は図３のシステムに関連して記載されるが、他の実施もできる。

ブロック４０２では、計算装置３０２が３Ｄ画像シーケンスを受け取る。当該３Ｄ画像シーケンスは、左目画像シーケンス及び当該左目画像シーケンスに関連付けられた右目画像シーケンスを含むことができる。いくつかの実施例では３Ｄ画像シーケンスは、例えばデジタルシネマパッケージ（ＤＣＰ）ファイル又はＭＰＥＧ２ビデオファイルのようなエンコード化ファイルとして受け取られる。画像デコーディングモジュール３１４は、当該エンコード化ファイルを非圧縮化かつ非暗号化ファイル形式にデコードすることができる。

ブロック４０４では、計算装置３０２が字幕ファイルを受け取る。当該字幕ファイルは、タイミング情報に関連付けられた少なくとも一の字幕要素を含む。当該タイミング情報は、３Ｄ動画のタイミング情報に対応し得る。当該字幕要素は、テキスト若しくは他の属性、又は、当該３Ｄ画像シーケンスでの表示を目的とした他の任意の付加情報を含むことができる。

ブロック４０６では計算装置３０２が、タイミング情報に基づいて当該字幕要素を３Ｄ画像シーケンスの一セグメントに関連付けることができる。時間窓選択モジュール３１６は、当該字幕要素のタイミング情報に基づいて当該３Ｄシーケンスから画像の一セグメントを選択することができる。いくつかの実施例では、時間窓選択モジュール３１６は、字幕に関連付けられていない画像シーケンスの複数のセクションをスキップする一方で残りのセクションを処理することにより、計算時間を節約することができる。画像シーケンスはまた、当該画像シーケンスの長さに関する制限に基づいて複数のセグメントに分割してもよい。各セグメントはまた、タイミング情報を使用して一の字幕要素に関連付けることができる。例えば、各画像セグメントは一の時間窓に関連付けられて、当該時間窓内のタイミング情報を有する字幕要素に関連付けられ得る。

ブロック４０８では計算装置３０２が、字幕要素に関連付けられた画像セグメントから抽象奥行きマップを計算する。抽象奥行きマップは、当該セグメントの画像フレーム又は所定の画像フレームに対する奥行き値又はピクセル格差値の一表現である。いくつかの実施例では、画像抽象化モジュール３１８は、当該セグメントを一対の左及び右抽象画像に単純化することができる。当該セグメントの左目画像シーケンスからの一画像と当該セグメントの右目画像シーケンスからの一画像である。抽象画像は、画像セグメントの単純化バージョンである。画像セグメントの各画像フレームは、一画像フレームの各ピクセル列を一ピクセルに投影することによって、当該抽象画像の一のラインに低減される。このようにして左目画像セグメントから投影された左抽象画像と、当該対応右目画像セグメントから投影された右抽象画像とは抽象画像対をなす。抽象奥行き計算モジュール３２０は、抽象画像対の奥行き値又はピクセル格差値を計算して、得られた奥行き情報を抽象奥行きマップに格納することができる。抽象奥行きマップは、当該抽象画像対のすべてのピクセル又は所定のピクセルの奥行き値又はピクセル格差値を含み得る。

ブロック４１０では計算装置３０２が、字幕要素のための抽象奥行きマップに基づいてプロキシ奥行きを計算する。プロキシ奥行きは、字幕要素のための代表奥行きである。また、当該字幕要素の継続時間にわたり一定値又は可変値となる。プロキシ奥行きは、３Ｄ画像シーケンスにおける奥行きの経時変化を表すことができる。いくつかの実施例では、プロキシ奥行き決定モジュール３２２が、字幕要素のためのプロキシ奥行きを計算する。これは、一定値又は字幕要素の継続時間にわたり変化する値である。

ブロック４１２では、計算装置３０２が当該プロキシ奥行きを使用して字幕要素のためのレンダリング属性を決定する。レンダリング属性の例は、奥行き配置、フォントサイズ、フォント色、スクリーン上の位置、及び３Ｄ字幕のフォントスタイル、並びに付加情報（例えば画像）の色、サイズ、位置、及びスタイルを含む。いくつかの実施例ではレンダリング属性計算モジュール３２４は、当該プロキシ奥行きを使用して、字幕要素をレンダリングするための少なくとも一の命令を含むレンダリング属性を決定する。当該プロキシ奥行きは、少なくとも部分的には関連付けられた３Ｄ画像シーケンスの内容の奥行きに基づく。例えば、当該プロキシ奥行きは、字幕要素の奥行きのレンダリング属性となるように決定される。または、字幕要素の奥行きのレンダリング属性を決定するべく使用される。

ブロック４１４では計算装置３０２が、当該字幕要素のためのレンダリング属性を出力する。また、レンダリング属性は、字幕要素をレンダリングして３Ｄ画像シーケンスで表示するべく使用することができる。

以上で説明したモジュール及び特徴の追加実施例を以下に説明する。

画像抽象化
画像抽象化モジュール３１８は、３Ｄ画像シーケンスを画像投影を介して左目のものと右目のものである一対の抽象画像に単純化するといった様々な機能を行うことができる。当該投影は、垂直に行うことができる。一画像フレーム内の複数ピクセルの各列が、一ピクセルに投影される。各フレームは投影されて一のラインになる。３Ｄ画像シーケンスの各画像フレームから投影されたラインは、一対の抽象画像を形成することができる。

画像抽象化処理の一実施例のグラフィカルな説明が図５に示される。左目画像シーケンス５０２がＮ個のフレームを含んで示される。各フレームはＨ個のラインを含む。各ラインはＷ個のピクセルを含む。左目画像シーケンス５０２は投影されて、Ｎ個のラインを有する左抽象画像５０６になる。各ラインはＷ個のピクセルを含む。左抽象画像５０６の第１ラインが左目画像シーケンスの第１フレームから投影され、左抽象画像５０６の第２ラインが左目画像シーケンスの第２フレームから投影され、等となる。当該投影ラインはＷ×Ｎ個の左抽象画像５０６を形成し得る。同様に、右目画像シーケンス５０４は投影されて、Ｎ個のラインを有する右抽象画像５０８になる。各ラインはＷ個のピクセルを含む。左抽象画像５０６及び右抽象画像５０８の双方は一の抽象画像対を形成する。

いくつかの実施例では、当該投影は垂直サンプリング投影アルゴリズムに基づいて行われる。その一実施例を図６に示す。字幕要素の位置を字幕ファイルに予め画定又は特定することができる。字幕要素は、画像フレームの底部近くを中心とするが、他の位置も可能である。図６は、画像シーケンスのｋ番目左画像フレーム６０２の字幕領域６０４に含まれた字幕要素を示す。サンプリングライン６０６を字幕領域６０４の中心又はこの近くに選択することができる。ｋ番目左画像フレーム６０２の各列のピクセルがサンプリングライン６０６に向かって投影されて一のピクセルとなる。これにより、左抽象画像６１０が形成される。例えば、画像列ｍ６０８のピクセルすべて又は実質的にすべてがサンプリングライン上の点Ａに向かって投影され得る。投影は、サンプリングラインよりも上のピクセルが下方に投影されかつサンプリングラインよりも下のピクセルが上方に投影されるように行うことができる。投影の結果、左抽象画像６１０の位置（ｍ，ｋ）にピクセルＢが生成される。

投影ピクセルＢの値は選択された投影機能によって決定することができる。投影機能は、オリジナル３Ｄ画像シーケンスを一対の抽象画像に圧縮する一方で奥行き情報及び奥行き変化情報の双方を保存するべく選択される。一実施例では、投影機能は数学的平均に基づく。他実施例では、投影機能は重み付き平均である。サンプリングラインに近いほど高い重みがピクセルに割り当てられる。投影処理は、画像フレームｋの各列に対して繰り返すことができる。その結果、左抽象画像６１０のｋ番目ライン６１２となる。右目画像フレームに対しても同様の投影法を適用して右抽象画像を生成することができる（図６に示さず）。

垂直サンプリング投影アルゴリズムの他実施例は、複数のサンプリングラインを使用する。これは、多重垂直サンプリング投影アルゴリズムであり得る。かかるアルゴリズムの一例を図７に示す。ｋ番目左画像フレーム７０２が３領域に分割される。（ｉ）字幕領域７０４及び２個の副領域を含む主領域７１６、（ｉｉ）頂部領域７２０、及び（ｉｉｉ）中心領域７１８である。

各領域に対してサンプリングラインを選択することができる。主領域７１６に対して選択されたサンプリングラインは、主サンプリングライン７０６である。主サンプリングライン７０６は、字幕領域７０４の中心又はこの近くに選択することができる。主サンプリングラインは、当該投影機能に適切な重みによって、投影アルゴリズムにおいて主要な役割が割り当てられる。一実施例では、主サンプリングラインに近いピクセルには、副サンプリングラインに近いピクセルよりも高い重みが割り当てられる。副領域に対して選択されたサンプリングラインは、副サンプリングラインである。当該副サンプリングラインは、当該領域の中心に配置することができるがこれに限られない。図７に示される例では、副サンプリングライン７１０が当該画像フレームの頂部副領域７２０における奥行き変化を表す。副サンプリングライン７０８が当該画像フレームの中心副領域７１８における奥行き変化を表す。各領域内で垂直サンプリング投影を行うことができる。当該領域のサンプリングラインに向かってピクセルが垂直に投影される。

図７に示される例では、主領域７１６内のｍ番目列７２２が、主サンプリングライン７０６上の点Ａに向かって投影される。領域７１８内の同じ列のピクセルが副サンプリングライン７０８上の点Ｂに向かって投影される。また、頂部領域７２０内の列ｍの残りのピクセルが副サンプリングライン７１０上の点Ｃに向かって投影される。いくつかの実施例では、分割される領域の数及びサンプリングラインの位置は、字幕領域の位置、３Ｄ画像のアスペクト比、及び劇場の幾何学形状を含むいくつかの因子に基づいて決定される。例えば、１．４３：１の投影アスペクト比を有するＩＭＡＸ（登録商標）の１５ｐｅｒｆ／７０ｍｍ画像形式に対しては、投影アスペクト比２．４０：１を有するＳｃｏｐｅ画像形式よりもサンプリング位置の数が多い。当該投影値はさらに、左抽象画像７１２のラインｋ７１４の点Ｄにおける値を生成するべく重み付き平均の形式で組み合わせることができる。右目画像フレームに対しても同様の投影法を適用して右抽象画像を生成することができる（図７に示さず）。

他実施例では、左又は右画像フレームが複数領域に分割される。各領域は投影されて、識別可能な一の抽象画像対となる。左目画像シーケンスに対して図８に示される。垂直サンプリング投影アルゴリズムは、左画像シーケンスの各領域に適用することができる。一の抽象画像対を各領域から生成することができる。これにより、抽象画像対スタック８１２を形成する複数の抽象画像対が得られる。各領域に対するサンプリングラインの位置は、前述の原理に基づいて選択することができる。字幕を含む当該領域は、主領域８０４としてとして割り当てられる。また、主抽象画像対８１６を生成することができる（右抽象画像は図８に示さず）。他領域は副領域８０６、８０８とみなされ、各々が副抽象画像対８１８、８２０を生成する（右抽象画像は図８に示さず）。その結果、主抽象画像対８１６は、字幕近辺の奥行き変化を記述することができる。他方、副抽象画像対８１８、８２０は指定領域での奥行き変化を記述することができる。右目画像フレームに対しても同様の投影法を適用して複数の右抽象画像を生成することができる（図８に示さず）。

他実施例では、一の抽象画像対が画像フレームの選択領域から投影されて、当該画像フレームの全幅を有しない。一例を図９に示す。ｋ番目画像フレームの２個の選択領域が左画像シーケンスに対して特定される。一方は字幕領域９０４を含む主領域９０６であり、他方は当該画像頂部近くの副領域９０８である。図示の字幕領域９０４は幅Ｗ_１＜Ｗを有する。副領域９０８は幅Ｗ_２＜Ｗを有する。主抽象画像対９１０（右抽象画像は図８に示さず）は主領域９０６から投影される。副抽象画像対９１２（右抽象画像は図８に示さず）は当該領域９０８から投影される。いくつかの実施例では、選択領域外部のピクセルは投影に使用されない。得られた主抽象画像９１０は、Ｗ_１×Ｎ画像となり、副抽象画像９１２はＷ_２×Ｎ画像となる。本方法により、奥行き分析の焦点を当該画像のキー部分に合わせることができる。

抽象奥行き分析
垂直サンプリング投影アルゴリズムの所定実施例により、３Ｄ画像セグメントにおける奥行き変化情報の計算を行うことができる。いくつかの実施例では相対的に速い計算である。図１０は、１４５０個のフレームにわたる３Ｄ画像セグメントから生成された抽象画像対（１００２，１００４）の一例を示す。得られた抽象画像対は、一の３Ｄ画像シーケンスの物体動き情報を表すことができる。当該シーケンスにおける主物体の動きは、その後の分析のために使用することができる。図１０に示されるのは、１４５０個のフレームにわたる３Ｄ画像セグメントから計算することができる抽象画像対（１００２，１００４）の一例である。抽象画像対（１００２，１００４）は、当該セグメントにおける２個の主物体１００６及び１００８の動きを表すことができる。これらは互いに当該画像の前景の中へ及びこれの外へ動く。かかる物体の動きの結果としての奥行き変化は、抽象奥行きマップ１０１０によって記録することができる。抽象奥行きマップ１０１０は、左抽象画像１００２と右抽象画像１００４とのピクセル格差を推定することによって生成することができる。いくつかの実施例では、抽象奥行き計算モジュール３２０によって抽象奥行きマップの計算を行うことができる。

抽象奥行き計算モジュール３２０の所定実施例により、３Ｄ画像セグメントにおける奥行き情報の高速計算が可能となる。３Ｄ画像シーケンスのピクセル格差を計算する従来の方法は、非常に時間がかかりかつ信頼性を欠くものであり得る。３Ｄ画像セグメントを一対の抽象画像に単純化することにより、いくつかの場合において奥行き計算を劇的に高速化することができる。得られる奥行き（又は格差）は、信頼性があり時間的に一貫性がある。

一実施例では、格差は、抽象画像対（１００２，１００４）から直接計算される。他実施例では、格差は、粗密ベイジアン法（coarse-to-fine Bayesian method）を使用して計算することができる。粗密ベイジアン法では、左及び右抽象画像がまず、複数の詳細レベルを有するピラミッド表現に変換される。当該計算は最も粗いレベル（トップレベル）から始まる。データコスト項及びリンクコスト項からなる特別なエネルギー関数を最小化することによって、当該抽象画像対間のピクセルごとの格差を推定することができる。得られた格差値はさらに、クラスタリング法により有限数のグループに分類することができる。各グループが、代表奥行き（又は格差）を有する候補物体を表す。トップレベルからの結果は、低レベルでの計算のための初期推定として使用される。候補物体の奥行きは、当該レベルにおいて推定された多くの詳細に細分化することができる。この処理は、候補物体の奥行きが最低レベル（密レベル）から推定された全詳細に細分化されるまで繰り返すことができる。得られた奥行き（又は格差）の集まりが、一の抽象奥行きマップとなり得る一の画像を形成する。抽象奥行きマップ１０１０の一例が図１０に示される。抽象奥行きマップ１０１０は、抽象画像（１００２，１００４）と同じピクセルのレゾリューションを有し得るが、色又は光度の代わりに奥行き（又は格差）値を含む。複数の抽象画像対が生成されると、各抽象画像対から別個の抽象奥行きマップが生成され得る。

プロキシ奥行き決定
プロキシ奥行き決定モジュール３２２の所定実施例は、抽象奥行き計算モジュール３２０によって生成された抽象奥行きマップに基づいて字幕要素のプロキシ奥行きを決定することができる。上述したように、字幕要素のプロキシ奥行きは、当該字幕要素の奥行き配置を決定するべく使用され得る代表奥行き値である。プロキシ奥行きは、字幕要素の継続時間にわたり一定又は可変の値を有する。

図１１に示されるのは、プロキシ奥行き決定モジュール３２２のための機能ブロック図の一実施例である。いくつかの実施例では、プロキシ奥行きを計算することは、３Ｄ画像セグメントのピクセル格差（又はピクセル奥行き）の時間的及び統計的分布を、ディストグラムを使用してロバスト分析することに基づく。かかる計算は正確かつ信頼性のあるプロキシ奥行き表現を与える。ディストグラムとは、３Ｄ画像セグメントのピクセル奥行き（又は格差）の確率分布を時間についてグラフィカルに示したものである。図１１では、計算モジュール１１０８によってディストグラムの計算が行われる。当該ディストグラムに基づいて、初期プロキシ奥行きの計算が計算モジュール１１１２によって行われる。

いくつかの実施例では、当該初期プロキシ奥行き値は、隣接する字幕要素間の唐突なジャンプを有することがある。これは、字幕奥行き配置の突然の変化を生じさせるので視聴不快感につながる。時間的一貫性モジュール１１１４は、隣接する字幕要素間のプロキシ奥行き値の遷移を滑らかにする。得られるプロキシ奥行き値は、計算モジュール１１１６が、特定されたデータ形式にエンコード化することができる。プロキシ奥行きデータ形式１１１８の一例は、タイミング及びプロキシ奥行き情報の双方を含むテキスト形式ファイルである。

いくつかの実施例では、字幕のプロキシ奥行きは、ロバストな統計分析法を使用して計算される。３Ｄ画像奥行きの統計分布は図１２に示すように、格差分布の形式で抽象奥行きマップから収集することができる。格差分布Ｂ_ｋ（ｉ）１２０６は、ｄ_ｍｉｎからｄ_ｍａｘの範囲内のｋ番目画像フレームの格差の確率分布を代表することができる。ｄ_ｍｉｎ及びｄ_ｍａｘは、一の画像シーケンスの最小格差値及び最大格差値を表す。かかる格差分布の値は、当該抽象奥行きマップのｋ番目行１２０４から計算することができる。その結果、格差分布は、ｄ_ｍａｘ−ｄ_ｍｉｎ＋１ビンを含み得る。また、ｉ番目のビンＢ_ｋ（ｉ）（ｄ_ｍｉｎ≦ｉ≦ｄ_ｍａｘ）は、格差値ｉを有するｋ番目画像フレームのピクセル確率を記録することができる。図１２には、かかる格差分布１２０６の一例が示される。これは、抽象奥行きマップ１２０２のｋ番目行１２０４から収集される。

３Ｄ画像セグメントにおけるすべての画像フレームの格差分布を使用してディストグラムを形成することができる。図１３に、ディストグラムの一例がプロットされる。例示のディストグラム１３０２では、水平軸がフレーム間隔（時間に関連付けられる）を表す。垂直軸が格差値（奥行きに関連付けられる）を表す。Ｎ個のフレームの一の画像セグメントに対しては、得られるディストグラムはｄ_ｍａｘ−ｄ_ｍｉｎ＋１行及びＮ列のグラフィカルな図示となる。当該ディストグラムのｋ番目列は、ｋ番目フレームの格差分布を記録する。ｋ番目列の点強度は、所定奥行き（又は格差）値を有するｋ番目画像フレームにおけるピクセル確率を表す。図１３のディストグラムの例は、図１０の抽象奥行きマップ１０１０の例から計算される。

ディストグラムは、一の画像シーケンスの時間的継続時間にわたる奥行きの統計分布の進展（格差形式における）を記述することができる。これは、一のシーンにおける主物体の奥行き変化を、当該シーンの相対的に重要でない他の詳細から分離するべく使用することができる。ディストグラムの強度は、所定奥行き範囲での画像ピクセル分布を表すことができる。大きな強度値は、所定奥行きのピクセル濃度を表す。その結果、相対的にサイズが大きい目立つ物体は、相対的に明るい強度値を有する動き奥行き経路から区別することができる。図１３では、ディストグラム１３０２が、３個の主物体の奥行き動き経路を示す。第１主物体１３０４が当該画像セグメントの始めにおいて前景の右から開始するが、後ろから当該前景へ動く第２主物体１３０６によって閉塞されるようになる。これら２個の物体の奥行き動き経路は数回交差する。これは、当該シーンの前景に現れる順番が交替されることを示す。他方、第３主物体１３０８は、画像シーケンス全体に対して他の２個の主物体の後ろのままである。これは当該シーンの背景であり得る。これらの主物体間のかすんだ点雲は、小さな物体又は重要でない他の詳細１３１２を表す。これらの奥行きは、プロキシ奥行き決定にとって主物体ほど重要ではない。統計手法を使用してディストグラムから識別可能な経路を抽出することができる。これは、一シーンにおける目立つ物体の信頼できる奥行き進展尺度となる。経路の破断は、図１３の閉塞１３１０のような、物体間の強い閉塞を示し得る。

３Ｄ字幕プロキシ奥行きの計算は、一の字幕要素に対して一の時間窓を画定するタイミング情報を使用する。字幕要素は、例えば特定形式のテキストベースファイルのような一の字幕ファイルにおいて特定される。ＸＭＬテキストファイル形式の従来字幕ファイルの例を図１４に示す。当該ファイルにおいて、開始時刻（「Ｔｉｍｅｌｎ」）及び終了時刻（「ＴｉｍｅＯｕｔ」）を含む各字幕要素のタイミング情報を定義することができる。図１４Ａの字幕ファイルの例は、テキストスクリーン位置情報のような字幕属性も含む。これは、水平アラインメント（「ＨＡＩｉｇｎ」）、垂直アラインメント（「ＶＡＩｉｇｎ」）、水平位置（「ＨＰｏｓｉｔｉｏｎ」）、及び垂直位置（「ＶＰｏｓｉｔｉｏｎ」）を含む。スクリーン位置は、ピクセル数によって又はスクリーン高さのパーセンテージによって定義することができる。字幕ファイルに定義された情報は、字幕システムによって使用され得る。これにより、動画画像にスーパーインポーズされる字幕画像を生成することができる。

字幕ファイルにおけるタイミング情報は、字幕要素のための時間窓を選択するべく使用され得る。これは、図３の時間窓選択モジュール３１６が行う。いくつかの実施例では、連続した数個の字幕要素が互いに密接につながっている場合、当該字幕要素は奥行きの唐突なジャンプを最小限にするべく一のプロキシ奥行きを共有する。かかる場合、一の時間窓は数個の字幕要素を含む。図１５に示す例では、第１字幕要素１５０２が時刻ｔ_ｓ０１で開始し、一画像シーケンスの時刻ｔ_ｅ０１で終了する。開始時刻ｔ_ｓ０１はフレーム０００２に対応し、終了時刻ｔ_ｅ０１はフレーム００２６に対応する。第１字幕要素１５０２のプロキシ奥行きは、フレーム０００２−００２６の範囲内に決定することができる。時間窓１５１２はフレーム０００２から開始する２５フレーム長さを有することになる。図１５の他の例では、字幕要素１５０４はフレーム００３３で開始し、フレーム００８１で終了する。次の字幕要素１５０６は字幕要素１５０４に密接につながる。要素１５０６は、字幕要素１５０４の終了フレーム００８１直後のフレーム００８２から開始する。字幕要素１５０４及び１５０６は、同じプロキシ奥行きを共有する。当該字幕要素１５０４及び１５０６は、フレーム００３３から開始しフレーム０１５２で終了する長さ１２０フレームの同じ時間窓１５１４に含まれる。各時間窓は、左目画像１５０８及び右目画像１５１０の双方からの画像フレームを含むことができる。いくつかの実施例では、時間窓の長さは、字幕要素の継続時間を超えて選択することができる。

ひとたび時間窓が選択されると、３Ｄ画像セグメントを３Ｄ画像シーケンスから分割することができる。各時間窓に対するディストグラムからプロキシ奥行きを計算することができる。プロキシ奥行きは、時間窓の長さにわたる時間変動関数であってよい。また、一定値であってもよい。図１６において、時間窓１６０２に一定のプロキシ奥行きが割り当てられる一方、他の時間窓１６０４に時間変動プロキシ奥行きが割り当てられる。図１５の例では、時間窓１６０２に対するプロキシ奥行きは、窓１６０２に属するディストグラム１６１０の各列を一の格差分布１６１２に平均化することによって決定される。格差分布１６１２は２個の支配的奥行きクラスタを表示する。一は格差３０ピクセルに等しい奥行き付近に中心があり、２番目は格差約５０ピクセルに等しい奥行きに中心がある。これらのクラスタは当該シーンにおいて支配的物体が存在することを示す。支配的モードを検出するべく格差分布１６１２に対し、例えば平均シフトフィルタリングのようなクラスタリングアルゴリズムを適用することができる。結果をグラフ１６１４にプロットする。２個の支配的モードがある。一は格差３２ピクセルであり、２番目は格差４９ピクセルである。最も有力な支配的モード４９ピクセルの存在に基づいて一定のプロキシ奥行きを決定することができる。時間窓内の支配的モードの奥行き変化に追従することによって、例えば例１６０８のような時間変動プロキシ奥行きを決定することができる。開示のプロキシ奥行き計算方法は他の変形例も有する。

プロキシ奥行きの計算はまた、他の因子によっても影響を受ける。他の因子は、動画提示における３Ｄ字幕配置を含む。３Ｄ字幕は、画像の下方部分にスーパーインポーズされるが、画像の他の位置に配置されることもある。さらに、字幕は画像フレームの外側に配置されてもよい。例えば当該画像よりも下に配置される。字幕位置は、プロキシ奥行きが計算された後に調整される。ディストグラムに基づいて可変プロキシ奥行きを計算することは、上述の同様の方法に基づく。

画像デコーディング
プロキシ奥行きの計算は、デジタル形式の画像内容へのアクセスを含み得る。フィルムプリントでリリースされる動画に対しては、プロキシ奥行きの計算は、制作後の段階においてフィルムリリース前に行うことができる。３Ｄ字幕は、適切な格差シフトを有する左目及び右目フィルムプリントに「焼き付け」られる。３Ｄ字幕はまた、適切な格差を有する左及び右画像字幕を生成する字幕投影システムによってスクリーンに投影される。デジタル形式でリリースされる動画に対しては、字幕は、スクリーンに投影される前にデジタルシネマサーバ又は３Ｄ字幕装置によって画像にスーパーインポーズされる。プロキシ奥行きの計算は、制作後の段階で行うことができるが、シネマにおいてオンサイトで行うこと又はフィルム投影中にリアルタイムで行うことさえできる。シネマに配給される動画のデジタル形式は、デジタルシネマパッケージ（ＤＣＰ）形式であることが多い。これは、完全な劇場提示のための複数要素のそれぞれを含むことができる。当該複数要素はデジタル画像ファイル及び字幕ファイルを含む。ＤＣＰ形式の画像ファイルは通常、圧縮かつ暗号化される。圧縮画像ファイルを復号するべく電子キーが使用される。当該圧縮画像ファイルはその後、投影前に解凍される。復号及び解凍は、メディアブロック装置によってリアルタイムで行うことができる。当該装置は、デジタルシネマサーバ内又は投影システム内若しくは劇場制御システム内のコンポーネントである。いくつかの実施例に係る復号及び解凍の機能は、図３の画像デコーディングモジュール３１４に実装することができる。

ＤＣＰに適用される圧縮スキームはＪＰＥＧ２０００すなわちＪ２Ｋ（ＩＳＯ／ＩＥＣ１５４４４−１）である。これは、ウェーブレット変換ドメインにおいて行うことができる。Ｊ２Ｋはフレーム間圧縮法である。各画像フレームのピクセル値を複数レベルのウェーブレットサブバンドの係数として表すことができる。サブバンドは、一組のウェーブレット係数である。当該係数は、所定周波数範囲及び当該画像の空間エリアに関連付けられた画像フレームの側面を表す。各サブバンドのウェーブレット係数はさらに、パケットにまとめることができる。また、エントロピーコーディングを使用してコンパクトにエンコード化することができる。各パケットは、複数のウェーブレット係数からなる一の隣接セグメントである。これは、コードストリームにおいて現れる特定オーダで送信される特定のタイルを表す。かかるオーダの一例は、ＤＣＩによって特定されるコンポーネント・プリシンクト・レゾリューション・レイヤ（ＣＰＲＬ）プログレッションオーダである。ＣＰＲＬプログレッションオーダでは、図１７Ａ及び１７Ｂに示すように、パケットが特定のコンポーネント、プリシンクト、レゾリューション、及びレイヤを有するタイルを表す。５レベルウェーブレットを使用して分解されたフルレゾリューション２０４８×１０８０ピクセルの画像フレームに対しては、得られるサブバンドは、サイズ６４×３４のトップレベル（レベル０）サブバンド１７０２、サイズ１２８×６８のレベル１サブバンド１７０４、サイズ２５６×１３５のレベル２サブバンド１７０６、サイズ５１２×２７０のレベル３サブバンド１７０８、サイズ１０２４×５４０のレベル４サブバンド、及びサイズ２０４８×１０８０のレベル５サブバンド１７１２を含み得る。図１７Ａにこれらのサブバンドを示す。図１７Ａはまた、各レベルのサブバンドが少なくとも一のプリシンクトに分割されることも示す。例えば、レベル４サブバンド１７１０は１２個のプリシンクトに分割される。Ｊ２Ｋの指示により、各プリシンクトは一の不可分ユニットにエンコード化される。画像フレームは３個の色チャンネルを有するので、得られるＪ２Ｋビットストリームは１７７パケットを含む。

パケットはＪ２Ｋ圧縮の拡張性へのキーとなる。縮小バージョンの画像フレームは、トップレベルサブバンドを表す相対的に少数のパケットからデコードされる。例えば、レベル３にある５１２×２７０縮小バージョンの画像フレーム１７２６の各色チャンネルを完全に回復させるには、７個のパケットのみが必要となる。Ｊ２Ｋビットストリームの拡張性を使用して、縮小バージョンの画像を少なくとも部分的にデコードするべく、選択ＤＣＰデコーディング法を使用することができる。十分な奥行き情報を、部分的にデコードされた画像フレームから抽出することができる。当該部分的にデコードされた画像フレームは、３ＤのＤＣＰビットストリームにおいて少数のパケットで表される。その結果、選択デコーディングを使用してプロキシ奥行きの計算を低減することができる。選択デコーディングの機能は、図３の画像デコーディングモジュールによって実装することができる。

選択デコーディング法の一実施例を、図１７Ｂにさらに示す。図示されているのは、上位４レベル（レベル０−３）のウェーブレットサブバンドを表すＪ２Ｋビットストリームパケットである。上位３レベルのサブバンドはそれぞれ、各色チャンネルに対して一のパケットを有し得る。その結果、各個別の色チャンネルに対し、第１パケット１７１４を受け取ることによって６４×３４画像１７２０をデコードすることができる。１２８×６８画像１７２２は、次のパケット１７１６を追加することによってデコードすることができる。大きな２５６×１３５画像１７２４は、さらに一のパケット１７１８を受け取ることによってデコードすることができる。最初の３個のパケットのデコーディングのみによって（例えば、画像フレームのＤＣＰビットストリームにおける全部で１７７個のパケットのうち）、色チャンネルが一のみであるにもかかわらず２５６×１３５レゾリューションの縮小画像を回復させることができる。かかる縮小画像は、プロキシ奥行きの推定には十分である。簡便のため、図１７Ｂの図示例は一の色チャンネルに対する処理を示すが、同処理は必要に応じて他の色チャンネルにも拡張することができる。

より正確なプロキシ奥行きは、レゾリューションが５１２×２７０ピクセルのレベル３画像をデコーディングすることによって計算することができる。追加としてパケット３−６のような４個のレベル３パケットが使用される（図１７Ｂの１７２８）。ＤＣＩによって特定されたＣＰＲＬプログレッションオーダに基づくと、図１８にも示されるパケット３、６、４、５（１７２８）は、コードストリームのオーダではパケット３、１０、４５、５２となる。レベル３の各パケットは、奥行き情報に対して異なる重要度を有する特定グループのウェーブレット係数を表すことができる。図１８に示すように、レベル３は３つの追加サブバンドすなわちＨＬ、ＬＨ、及びＨＨを与えることができる。ＨＬサブバンド１８０８は、水平不連続情報（すなわち垂直エッジ）を含み得る。また、奥行き情報を記録するべく重要であり得る。ＬＨサブバンド１８１０は、水平エッジを含み得る。また、ＨＨサブバンド１８１２は高周波詳細を記録し得る。いくつかの実施例では、ＬＨ及びＨＨサブバンドなしてステレオマッチングを行うことができる。例えば、ＨＬサブバンド１８０８におけるウェーブレット係数を、計算効率をさらに改善するプロキシ奥行き計算を目的として使用することができる。

レベル３サブバンドを４個のパケットにエンコードする一例を図１８に示す。パケット３（１８１４）及びパケット６（１８１６）は、ＨＬサブバンド１８０８の一部を表す。レベル２画像のデコーディングに使用された３個のパケットに加えてこれら２個のパケットを使用することによって、レベル３画像の単純化デコーディングが促進される。いくつかの実施例では、パケット４（１８１８）及びパケット５（１８２０）が、対応する係数グループをゼロに設定することによって省略される。レベル３画像は、５個のパケットすなわちパケット０−２（１８０２、１８０４、１００６）、パケット３（１８１４）、及びパケット６（１８１６）を使用することによってデコードすることができる。その結果は、レゾリューションが５１２×１３５ピクセルの縮小画像となる。これは、フルレベル３画像の高さの半分であり得る。いくつかの実施例では、例えば、レベル３でのウェーブレット垂直逆変換を計算しないことによって計算及びバッファリングを節約するべく、ＬＨ及びＨＨサブバンドが破棄される。

ＪＰＥＧ２Ｋパケットのデコーディングは、２個の処理すなわちティア１デコーディング及びティア２デコーディングを含む。ティア２デコーディングは、パケットヘッダをデコードしてビットストリームをコードブロックに分割するべく使用することができる。ティア１デコーディングは、当該コードブロックのそれぞれをパケットにデコードするべく使用される。ティア１デコーディングはティア２デコーディングよりも多くの計算を使用する。ＬＨ及びＨＨサブバンドをデコーディングすることによってではなく、ティア１デコーディングがＨＬサブバンドによって使用されて、７個のパケットをフルデコーディングするのと比べて約２／３だけ計算を低減できる。その結果、選択ＤＣＰデコーディングの所定実施例は、輝度チャンネルを使用、十分なデコーディングレベルを選択、選択されたパケットを縮小バージョン画像にデコーディング、及び当該縮小画像に基づいてプロキシ奥行きを計算、のようにして計算を低減することができる。

パケットの選択も、スクリーン上の字幕配置に依存する。図１４Ａに示すように、字幕要素のスクリーンアラインメント位置は、字幕テキストファイルにグローバルに固定される。よくある一のスクリーンアラインメント位置は、スクリーンの底部である。しかし、３Ｄ字幕に対し、固定位置は所定環境下で問題となる。例えば、スクリーンの底部付近の非常に近い奥行きを有する画像シーンに対し、当該スクリーンの底部に字幕を配置すると観客にとって苦痛となる。かかる場合、視聴の快適さを維持するべく代替スクリーン位置に字幕を配置することができる。前述のように、プロキシ奥行きの計算は字幕のスクリーン位置に依存し得る。例えば、図７に図示される画像抽象化モジュールが使用する多重垂直サンプリング投影アルゴリズムでは、字幕スクリーン位置によって主サンプリングライン７０６の位置を決定することができる。字幕スクリーン位置が変化すると、字幕領域７０４が再配置されて主サンプリングラインも再計算される。得られる左抽象画像７１２も異なり得る。当該左抽象画像７１２は、字幕要素のプロキシ奥行きを計算するべく使用される。

字幕奥行き及び垂直スクリーン位置は、図１４Ｂに示すサンプルファイルのような３Ｄ字幕ファイルに記録することができる。字幕要素の奥行きは、スクリーン視差シフト（「Ｐシフト」）によって記述することができる。これは、水平シフトの必要量を左目字幕画像と右目字幕画像とに同等に分けることができる。視差シフトは、ピクセル数による絶対項又はスクリーン幅のパーセンテージによる相対項で定義される。さらに、左目及び右目に対する視差シフト量は同等に分けられなくともよい。かかる場合、左及び右字幕画像に対する水平視差シフト量は、３Ｄ字幕ファイルに別個に特定される。図１４Ｂのサンプルテキストファイルにより、字幕要素の他の属性を、内容制作者にとって創造的な選択肢を与え究極的には３Ｄ動画の視覚体験を向上させる目的で、画像内容に順応して変化させることができる。他の属性の例は、テキストフォントスタイル、テキストフォントサイズ、及び字幕テキスト色を含む。

他実施例では、字幕のテキストフォントサイズが字幕要素の奥行き配置に順応して変化する。フォントサイズを順応的に変化させる一の目的は、視聴者が知覚する一貫した字幕サイズを維持することを含む。立体視３Ｄ画像における物体の知覚サイズは、当該物体の奥行き配置によって影響を受ける。例えば、３Ｄ物体は、その実際のサイズが変化しないとしても、視聴者に近づくにつれて小さく現れる。これは縮小化と称する。これは、立体視覚を支配するサイズ・距離の法則の結果である。物体が視聴者から遠ざかるにつれて大きく現れる逆縮小化も生じる。縮小化効果は、３Ｄ字幕要素の知覚サイズにも当てはまる。その結果字幕テキストは、視聴者から離れているときよりも、視聴者に近づいて配置されるときに小さく現れ得る。いくつかの実施例では、字幕のフォントサイズは、縮小化効果を事前補償するべく順応的に拡大縮小される。その結果、字幕の知覚サイズが動画全体を通じて一貫する。事前補償のためのサイズの拡大縮小因子は、サイズ・距離の法則を適用することによる縮小化の推定レベルに基づいて計算することができる。

他実施例では、字幕テキストフォントのスタイル及び／又は色が画像内容に順応して変化する。フォントスタイル及び／又はフォント色を順応的に変化させる一の目的は、内容制作者に創造的な選択肢を与え究極的には３Ｄ動画の視覚体験を向上させることを含み得る。字幕テキスト色を変化させる他の目的は、字幕テキストが同様の色範囲にある背景画像に溶け込むのを避けるべく可読性を向上させることを含み得る。字幕フォントスタイル及び色を変化させる他の目的は、語り又は語り手からの所定の雰囲気を表現することを含み得る。

３Ｄ字幕の内容順応属性は、図１４Ｂに例示するような３Ｄ字幕ファイルに記録することができる。当該例示のファイルは、新たな情報フィールドを示す。当該情報フィールドは、フォントサイズ情報（「Ｓｉｚｅ」）、フォントスタイル情報（「ＦｏｎｔｌＤ」及び「Ｗｅｉｇｈｔ」）、及びフォント色（「Ｃｏｌｏｒ」）を記録するべく生成される。これらの情報フィールドは、各字幕要素に対して異なるように設定することができる。

表示実装例
字幕要素用に計算された一以上のレンダリング属性を使用して内容順応３Ｄ字幕を有する３Ｄ画像を表示するべく、様々なシステム及び方法を使用することができる。かかる表示のために使用することができるシステムの例は、オフライン表示システム及びリアルタイム表示システムを含む。オフライン表示システムでは、字幕レンダリング属性が第１時点で計算され、字幕ファイル又はメタデータのようなデータファイルに保存される。後の第２時点で、保存されたレンダリング属性がシネマサーバ又は他の表示サーバによって使用される。当該シネマサーバ又は他の表示サーバは、３Ｄ画像シーケンスを有する字幕要素を表示するべく表示装置と通信する。表示装置の一例はプロジェクタである。

オフライン表示システムのための内容順応字幕属性の計算は、３Ｄ動画の制作後処理の一部であり得る。得られる字幕奥行き情報及び他の属性は、３Ｄ投影システムにデジタルシネマパッケージ（ＤＣＰ）形式で送ることができる。ＤＣＰ形式は、デジタルシネマに配給される動画の一のデジタル表現である。ＤＣＰ形式は、画像データ、音声データ、字幕データ、メタデータ、又は他のデータを表すトラックファイルを含む。これらのトラックファイルは配給のセキュリティのために暗号化される。ＤＣＰファイルパッケージングの方法及び技術スペックは、所定の標準化文献に記載されている。当該標準化文献は、Digital Cinema Initiatives, LLCが出版したデジタルシネマシステム仕様書（バージョン１．２）、及びＳＭＰＴＥ（Society of Motion Picture and Television Engineers）が目下開発中であるいくつかの標準化文献を含む。

リアルタイム表示システムでは、レンダリング属性をリアルタイム又は少なくとも近リアルタイムで決定することができる。３Ｄ画像シーケンスを有するレンダリング属性を使用して字幕が表示される。例えば、当該システムは、エンコード化又は非エンコード化３Ｄ画像シーケンス及び字幕ファイルを受け取ることができる。当該システムは、レンダリング属性を決定し、当該レンダリング属性を使用して例えばプロジェクタによる３Ｄ画像シーケンス及び表示用字幕を設定することができる。

図１９は、本発明の一実施例に係るオフライン表示システムの機能ブロック図を示す。本システムは、３Ｄ字幕レンダリング属性を計算するべく使用することができる。また、オフライン制作後処理を有する一のソフトウェアモジュール又は複数のソフトウェアモジュールとして少なくとも部分的に実装することができる。例えば、所定のモジュールが図１９に図示される。これは、コンピュータ可読媒体に格納される実行可能コードとして又はハードウェア構成として実装される。

本システムは、サーバ装置１９００を含むことができる。当該サーバ装置１９００は、３Ｄ画像シーケンス１９０６及び３Ｄ字幕ファイル／メタデータ１９０８を受け取ることができる。３Ｄ字幕ファイル／メタデータは、タイミング情報、字幕テキスト、タイミングイン及びアウト、垂直位置、水平位置、奥行き又は変位、テキストフォント、並びに言語方向（左から右、右から左等）のような他の情報に加え、レンダリング属性も含むことができる。３Ｄ字幕ファイル／メタデータ１９０８は、サーバ装置１９００に与えられる前に、格納媒体に格納することができる。３Ｄ画像シーケンス１９０６は、シネマへ配給されるトラックファイルを含むＤＣＰパッケージであってよい。いくつかの実施例では、３Ｄ字幕ファイル／メタデータ１９０８は、３Ｄ画像シーケンス１９０６とともにサーバ装置１９００に配給される。他実施例では、３Ｄ字幕ファイル／メタデータ１９０８は、３Ｄ画像シーケンス１９０６とは別個にサーバ装置１９００に配給される。

本サーバ装置１９００は、コンピュータ可読媒体に格納されたコードを実行することができるプロセッサベースの装置である。これは、プロセッサと実行可能コードを有体的に包含できるコンピュータ可読媒体とを含み得る。本サーバ装置１９００は、当該レンダリング属性を使用して３Ｄ画像シーケンスに字幕をスーパーインポーズすることができるシネマサーバである。いくつかの実施例では、本サーバ装置１９００は、インターネット又はイントラネットのようなネットワークを介して３Ｄ画像シーケンス１９０６及び３Ｄ字幕ファイル／メタデータ１９０８を受け取る。他実施例では、３Ｄ画像シーケンス１９０６及び３Ｄ字幕ファイル／メタデータ１９０８は、本サーバ装置１９００が物理的に受け入れることができる光格納装置又は半導体格納装置のような可搬性格納装置に格納される。

本サーバ装置１９００は、字幕コントローラ１９１０を含むことができる。当該字幕コントローラ１９１０は字幕レンダリングモジュール１９１２を制御するべく、３Ｄ字幕ファイル／メタデータ１９０８からのレンダリング属性及び字幕のような情報を使用する。字幕レンダリングモジュール１９１２は、レンダリング属性を使用して字幕をレンダリングすること及び当該字幕を３Ｄ画像シーケンスにスーパーインポーズすることができる。例えば、字幕コントローラ１９１０は、３Ｄ字幕ファイル／メタデータに基づいて制御コマンドを生成することができる。また、当該制御コマンドを字幕レンダリングモジュール１９１２に与えることができる。当該制御コマンドは、各字幕要素に対して適切な時点かつ正しいスクリーン位置で字幕テキスト画像を生成するコマンドを含むことができる。これらのコマンドは、画像デコーダ１９１４からの現在上映中の時刻をトリガとすることができる。字幕コントローラ１９１０からの各コマンドに従って、字幕レンダリングモジュール１９１２は、正しいフォントを有する字幕テキスト画像を生成することができる。また、現在の左目及び右目画像と同期して、正しい位置及び変位にて字幕画像を左及び右画像と組み合わせることができる。

３Ｄ画像シーケンス１９０６は、エンコード化形式である。また、字幕レンダリングモジュール１９１２が受け取る前に、３Ｄ画像シーケンス１９０６を復号する画像デコーダ１９１４が受け取ることができる。他実施例では、３Ｄ画像シーケンス１９０６は非エンコード化形式である。これは、画像デコーダ１９１４にデコードされることなく字幕レンダリングモジュール１９１２に与えられる。例えば、３Ｄ画像シーケンス１９０６は、サーバ装置１９００に受け取られる前にデコードされる。字幕レンダリングモジュール１９１２は、当該レンダリング属性に基づいて３Ｄ画像シーケンスに字幕要素をスーパーインポーズすることができる。

３Ｄ画像シーケンスが、レンダリング属性を使用して当該３Ｄ画像シーケンスに字幕がスーパーインポーズされて、サーバ装置１９００から表示装置１９１６に与えられる。本表示装置１９１６は、３Ｄ字幕を有する当該３Ｄ画像シーケンスを観客に表示することができる。表示装置１９１６の例は、映画用プロジェクタ、液晶表示装置、プラズマ表示装置、又は他の高精細度表示装置を含む。

図２０は、オンサイト処理システムの一の機能ブロックフロー図を示す。当該システムは、例えば、劇場サイトに配置されたリアルタイム表示システムである。一の３Ｄ画像シーケンス２００２及び一の字幕ファイル２００６が劇場サイトにおいて受け取られる。当該３Ｄ画像シーケンス２００２は、字幕ファイル２００６とともに又は字幕ファイル２００６とは別個に受け取られる。字幕ファイル２００６は、字幕テキスト及びタイミング情報のような字幕情報を含むことができる。

当該劇場サイトにはサーバ装置２０００が配置され得る。本サーバ装置２０００は、コンピュータ可読媒体に格納されたコードを実行することができるプロセッサベースの装置である。これは、プロセッサと実行可能コードを有体的に包含できるコンピュータ可読媒体とを含み得る。本サーバ装置２０００は、コンピュータ可読媒体に格納された画像デコーダ２００４を含み得る。本画像デコーダ２００４は、当該３Ｄ画像シーケンス２００２を必要に応じて非暗号化及び非圧縮化形式にデコードすることができる。いくつかの実施例では、本サーバ装置２０００が画像デコーダ２００４を含まないか、又は、画像デコーダ２００４が３Ｄ画像シーケンス２００２をデコードしない。例えば、３Ｄ画像シーケンス２００２が非暗号化かつ非圧縮化形式であるか、又は、画像デコーディングモジュール３１４が本サーバ装置２０００にある計算装置３０２に含まれない。計算装置３０２は、３Ｄ画像シーケンス２００２及び字幕ファイル２００６を受け取って、例えば図３に関連して述べたリアルタイムでレンダリング属性２００８を出力する機能を行うことができる。当該レンダリング属性は、字幕レンダリングモジュール２０１０によって使用され得る。当該字幕レンダリングモジュール２０１０は、３Ｄ画像シーケンス２００２又は非暗号化３Ｄ画像シーケンスを受け取る。字幕テキストがレンダリングされて、当該字幕が３Ｄ画像シーケンス２００２にスーパーインポーズされる。字幕レンダリングモジュール２０１０の出力が表示装置２０１２に与えられ得る。表示装置２０１２はプロジェクタであってよく、３Ｄ画像シーケンス２００２にスーパーインポーズされた字幕を視聴観客に対して表示することができる。

いくつかの実施例では、計算装置３０２は字幕コントローラを含む。当該字幕コントローラは、字幕レンダリングモジュール２０１０に対して制御コマンドを出力して、当該字幕レンダリングモジュール２０１０に当該字幕のレンダリング及び３Ｄ画像シーケンスへのスーパーインポーズを正しく行わせる。当該制御コマンドは、例えば、奥行き又は変位を特定するコマンドを当該奥行き及び当該字幕要素に関連付けられたタイミング情報とともに含み得る。当該コマンドによって字幕がレンダリングされる。

字幕コントローラの複数の実施例に係る所定の具体的機能は、当該入力及び出力装置の特性に依存する。例えば、奥行き情報がオフラインで計算されてＤＣＰを介して配給される場合、本字幕コントローラへの入力は、所定のテキストファイル形式を有する３Ｄ字幕ファイル又はメタデータのようなデコードされたトラックファイルであり得る。本字幕コントローラは、当該テキストファイルを解釈して他の字幕情報とともに当該奥行き情報を取得する。他実施例では、当該奥行き情報が別個のチャンネルを介して送られる場合、入力データファイルはテキストファイル形式を有してもそうでなくてもよく、本字幕コントローラは入力された当該奥行き情報を異なって解釈することができる。他実施例では、字幕奥行き情報がＤＣＰからリアルタイムで計算される場合、当該奥行き情報が本字幕コントローラにとって直接入手可能である一方、他の字幕情報は標準字幕ファイルから取得される。

図２１は、字幕コントローラが行うことができる方法を示す。当該字幕コントローラはＤＣＰトラックファイルを入出力命令として受け取る。当該入出力命令は、一実施例に係る字幕レンダリングモジュールに対して内容順応奥行きを制御する。図２１の第１ステップは、ＤＣＰデコーダ２１０２からＤＣＰトラックファイルを受け取ることである。次に字幕コントローラは、第１字幕要素に対するトラックファイルを検索して奥行き情報２１０６を取得する。当該奥行き情報は、観客から数フィートから無限遠までの範囲にある。また、同等のピクセル格差によって記述することができる。当該出力装置すなわち字幕レンダリングモジュールが、有限の奥行き範囲及び固定数の許容奥行きステップを有することもあり得る。例えば、字幕レンダリングモジュールは、有限数の許可奥行きステップを有する３．０５メートルから３０５メートル（１０フィートから１００フィート）の範囲にある奥行きを出力することができる。かかる場合、字幕コントローラは、当該コントローラのメモリ装置に格納された最も近い許可奥行きステップの一に対して字幕奥行き値をマップすることができる。かかる処理を奥行き量子化２１０８として図２１に示す。字幕コントローラはまた、当該出力装置すなわち字幕レンダリングモジュールに適切なタイミングで命令を発行するべく、トラックファイルからタイミング情報を取得することもできる。これにより、表示された字幕テキストが画像及び音声トラックと同期することができる。また、スクリーン２１１０に現れているときにジャンプすることもない。実装によっては、当該命令が当該字幕コントローラから発行されたときから本字幕レンダリングモジュールが当該命令を実行するときまでの所定時間量が必要となる。本字幕レンダリングモジュールは、所定の時間間隔で一の命令を実行することができる。字幕と音声及び画像との同期を維持するべく、遅延及び間隔が、同期エラーを回避する命令のトリガ時刻を決定し得る。かかる処理がタイミング量子化２１１２であり得る。

本システムは、現在の字幕要素２１１４に関連付けられた他の情報を検索することができる。当該他の関連情報とともに奥行き及びタイミングが決定されて、字幕コントローラは、正しい時点かつ正しい奥行き、フォント、及びスクリーン位置で３Ｄ字幕画像を生成するべく字幕レンダリングモジュール２１２２への命令２１１６を生成する。字幕コントローラは、ＤＣＰトラックファイル２１１８、２１２０に記載された各字幕要素に対して上記ステップを繰り返す。

いくつかの実施例では、図２１に係る字幕コントローラのワークフローを、他の内容順応字幕属性を制御することに拡張することができる。次に字幕コントローラは、関連する各字幕属性を一のトラックファイルから検索及び取得して必要な機能を実行することができる。これらの字幕属性値が、字幕レンダリングモジュールのハードウェア及びソフトウェア的制限に適合した適切な命令にマップされる。

以上は、本発明の実施例を図示、説明、及び記述する目的で与えられている。これらの実施例のさらなる修正例及び適合例は、当業者にとって明らかであり、本発明の範囲及び要旨を逸脱せずになすことができる。

Claims

３次元（３Ｄ）動画を提示する方法であって、
計算装置が一の３Ｄ画像シーケンスを受け取ることと、
前記計算装置が、前記３Ｄ画像シーケンスに対して、一の字幕要素及び前記字幕要素に関連付けられたタイミング情報を含む一の字幕ファイルを受け取ることと、
前記計算装置が、前記タイミング情報に基づいて前記字幕要素を前記３Ｄ画像シーケンスの一の継続時間にわたる複数画像フレームの一のセグメントに関連付けることと、
前記計算装置が、前記セグメントから一の右目抽象画像を生成し、かつ、前記セグメントから一の左目抽象画像を生成することであって、前記右目抽象画像は、前記セグメントの複数の右目画像を表し、前記左目抽象画像は、前記セグメントの複数の左目画像を表すことと、
前記右目抽象画像及び前記左目抽象画像から一の抽象奥行きマップを前記計算装置によって計算することであって、前記計算装置は、前記計算装置に前記抽象奥行きマップを計算させることができる一のプロセッサを含むことと、
前記字幕要素のために前記抽象奥行きマップに基づいて前記計算装置によって一のプロキシ奥行きを計算することと、
前記計算装置が、前記プロキシ奥行きを使用して前記字幕要素に対する一のレンダリング属性を決定することと、
前記レンダリング属性を前記計算装置から出力することと、
前記レンダリング属性を使用して前記字幕要素をレンダリングすることにより前記字幕要素を一の３Ｄ表示装置に表示することと
を含む方法。
前記右目抽象画像及び前記左目抽象画像から前記抽象奥行きマップを前記計算装置によって計算することは、垂直サンプリング投影を使用して生成された一の抽象画像対から前記抽象奥行きマップを計算することを含み、
前記抽象画像対は、
一の左目画像シーケンスから生成された前記左目抽象画像と、
一の右目画像シーケンスから生成された前記右目抽象画像と
を含む、請求項１に記載の方法。
前記垂直サンプリング投影は、
前記３Ｄ画像シーケンスにおける一のサンプリングラインを選択することと、
複数画像ピクセルの一垂直列の少なくとも一のピクセルを前記サンプリングライン上の一点に投影することによって一の新ピクセルを生成することと
を含み、
前記新ピクセルは、選択された一の投影機能によって決定される一の値を含む、請求項２に記載の方法。
前記抽象画像対から前記抽象奥行きマップを計算することは、前記右目抽象画像及び前記左目抽象画像間の水平ピクセル格差を推定することを含む、請求項２に記載の方法。
前記字幕要素のための前記抽象奥行きマップに基づいて前記プロキシ奥行きを前記計算装置によって計算することは、
一のディストグラムを使用することによる一の３Ｄ画像セグメントの時間的及び統計的ピクセル格差分布に基づいて前記プロキシ奥行きを決定することを含む、請求項１に記載の方法。
前記プロキシ奥行きは、前記字幕要素の一継続時間の間一定である、請求項１に記載の方法。
前記プロキシ奥行きは、前記字幕要素の一継続時間の間変化する、請求項１に記載の方法。
前記３Ｄ画像シーケンスの内容に基づいて前記字幕要素のテキストフォントサイズ又はテキストフォント色の少なくとも一を変化させることをさらに含む、請求項１に記載の方法。
事前設定しきい値よりも大きな一の値を有する、時間的に隣接する複数の字幕要素間の一の奥行き変化を特定することと、
前記特定に応じて奥行き値を修正することと
をさらに含む、請求項１に記載の方法。
前記レンダリング属性は、前記字幕要素の奥行き、前記字幕要素の色、前記字幕要素のフォントスタイル、前記字幕要素のフォントサイズ、及び前記字幕要素のスクリーン位置の少なくとも一つを含む、請求項１に記載の方法。
前記レンダリング属性は、前記字幕要素の色であって、
前記色は、前記字幕要素と３Ｄ画像シーケンスの前記内容とを区別するべく３Ｄ画像シーケンスの内容に基づいて修正される、請求項１０に記載の方法。
前記プロキシ奥行きは、前記字幕要素が表示される前記３Ｄ画像シーケンスの内容の少なくとも一部の前記右目抽象画像及び前記左目抽象画像間の最大格差よりも大きな格差値を含む、請求項１に記載の方法。
前記３Ｄ画像シーケンスはエンコード化された３Ｄ画像シーケンスである、請求項１に記載の方法。
前記プロキシ奥行きを計算するべく、前記エンコード化された３Ｄ画像シーケンスをデコードすることをさらに含む、請求項１３に記載の方法。
前記エンコード化された３Ｄ画像シーケンスはデジタルシネマパッケージ（ＤＣＰ）形式又はビデオ形式の一である、請求項１３に記載の方法。
前記エンコード化された３Ｄ画像シーケンスは、前記プロキシ奥行きを計算するＪＰＥＧベースのエンコーディング情報の複数パケットの一部を使用して少なくとも部分的にデコードされたＤＣＰ形式３Ｄ画像シーケンスである、請求項１５に記載の方法。
前記レンダリング属性を３Ｄ字幕ファイルとして格納することと、
前記３Ｄ字幕ファイルを前記３Ｄ画像シーケンスと別個に与えることと
をさらに含む、請求項１に記載の方法。
前記レンダリング属性及び前記３Ｄ画像シーケンスを一のデータファイルパッケージに格納することと、
前記データファイルパッケージを与えることと
をさらに含む、請求項１に記載の方法。
３次元（３Ｄ）動画を提示するシステムであって、
（ｉ）複数のモジュールが格納された一のコンピュータ可読媒体と、（ｉｉ）前記コンピュータ可読媒体に格納された複数のモジュールを実行することができる一のプロセッサとを含む計算装置と、
一の３Ｄ表示装置と
を含み、
前記モジュールは、前記計算装置に複数のアクションを行わせるべく前記プロセッサにより実行可能であり、
前記モジュールは、
タイミング情報に基づいて一の字幕要素を３Ｄ画像シーケンスの一の継続時間にわたる複数画像フレームの一のセグメントと関連付けるべく構成された一の時間窓選択モジュールであって、前記字幕要素は前記タイミング情報に関連付けられた一の時間窓選択モジュールと、
前記字幕要素に関連付けられた前記セグメントから一の抽象奥行きマップを、前記セグメントから一の右目抽象画像を生成し、かつ、前記セグメントから一の左目抽象画像を生成することによって計算するべく構成された一の抽象奥行き計算モジュールであって、前記右目抽象画像は、前記セグメントの複数の右目画像を表し、前記左目抽象画像は、前記セグメントの複数の左目画像を表す一の抽象奥行き計算モジュールと、
前記字幕要素のために前記抽象奥行きマップに基づいて一のプロキシ奥行きを計算するべく構成された一のプロキシ奥行き決定モジュールと、
前記プロキシ奥行きマップを使用して前記字幕要素に対する一のレンダリング属性を決定するべく構成された一のレンダリング属性計算モジュールと
を含み、
前記３Ｄ表示装置は、前記レンダリング属性を使用して前記字幕要素をレンダリングすることにより前記字幕要素を表示するシステム。
前記抽象奥行き計算モジュールは、垂直サンプリング投影を使用して一の抽象画像対から前記抽象奥行きマップを計算することによって、前記字幕要素に関連付けられた前記セグメントから前記抽象奥行きマップを計算するべく構成され、
前記抽象画像対は、
一の左目画像シーケンスから生成された前記左目抽象画像と、
一の右目画像シーケンスから生成された前記右目抽象画像と
を含む、請求項１９に記載のシステム。
前記計算装置と通信する一のサーバ装置であって、前記字幕要素に対する前記レンダリング属性を使用して前記字幕要素を前記３Ｄ画像シーケンスでレンダリングするべく構成されたサーバ装置と、
前記サーバ装置と通信する一の表示装置であって、前記レンダリング属性を使用して前記字幕要素を表示し、及び前記３Ｄ画像シーケンスで前記字幕要素を表示するべく構成された表示装置と
をさらに含む、請求項１９に記載のシステム。
前記サーバ装置は前記計算装置を含む、請求項２１に記載のシステム。
前記サーバ装置は、前記字幕要素を前記３Ｄ画像シーケンスでレンダリングする前に前記３Ｄ画像シーケンスをデコードするべく構成された一の画像デコーダを含む、請求項２１に記載のシステム。
前記計算装置は、前記レンダリング属性を一の３Ｄ字幕ファイルとして又は一のメタデータとして格納するべく構成され、
前記サーバ装置は、前記３Ｄ字幕ファイル又はメタデータとして格納された前記レンダリング属性から一の制御コマンドを生成するべく構成された一の字幕コントローラを含み、
前記制御コマンドは、前記３Ｄ画像シーケンスに前記字幕要素をスーパーインポーズするべく一の字幕レンダリングモジュールによって使用される、請求項２１に記載のシステム。
前記３Ｄ画像シーケンスはエンコード化形式であり、
前記モジュールは、前記エンコード化形式の前記３Ｄ画像シーケンスをデコードするべく構成された一の画像デコーディングモジュールをさらに含む、請求項１９に記載のシステム。
前記レンダリング属性は、前記字幕要素の奥行き、前記字幕要素の色、前記字幕要素のフォントスタイル、前記字幕要素のフォントサイズ、及び前記字幕要素のスクリーン位置の少なくとも一つを含む、請求項１９に記載のシステム。
３次元（３Ｄ）動画を提示するべく計算装置に複数のアクションを行わせるべくプロセッサによって実行可能なコンピュータプログラムであって、
前記アクションは、
前記計算装置が、前記計算装置が受け取った一の字幕要素を前記字幕要素のためのタイミング情報に基づいて一の３Ｄ画像シーケンスの一の継続時間にわたる複数画像フレームの一のセグメントに関連付けることと、
前記計算装置が、前記字幕要素に関連付けられた前記３Ｄ画像シーケンスの前記セグメントの内容の少なくとも一部の奥行きに基づいて前記字幕要素のための一のレンダリング属性を、前記セグメントから一の右目抽象画像を生成し、前記セグメントから一の左目抽象画像を生成し、前記右目抽象画像及び前記左目抽象画像から一の抽象奥行きマップを計算し、並びに前記抽象奥行きマップから計算された一のプロキシ奥行きを使用することによって計算することであって、前記右目抽象画像は、前記セグメントの複数の右目画像を表し、前記左目抽象画像は、前記セグメントの複数の左目画像を表すことと、
前記レンダリング属性を前記計算装置から出力することと、
前記レンダリング属性を使用して前記字幕要素をレンダリングすることにより前記字幕要素を一の３Ｄ表示装置に表示することと
を含むコンピュータプログラム。
前記アクションは、前記計算装置が、前記字幕要素のための前記レンダリング属性を使用して前記字幕要素を前記３Ｄ画像シーケンスでレンダリングすることをさらに含む、請求項２７に記載のコンピュータプログラム。
前記字幕要素のための前記レンダリング属性を使用して前記字幕要素を前記３Ｄ画像シーケンスでレンダリングすることは、
前記レンダリング属性に応じて一の見かけの奥行きにおいて前記３Ｄ画像シーケンスに前記字幕要素をスーパーインポーズすることを含む、請求項２８に記載のコンピュータプログラム。
前記アクションは、
前記計算装置に含まれる字幕コントローラが、前記字幕要素のための前記レンダリング属性に基づいて一の制御コマンドを与えることと、
前記計算装置に含まれる字幕レンダリングモジュールが、前記字幕コントローラから前記制御コマンドを受け取ることに応じて前記字幕要素を前記３Ｄ画像シーケンスでレンダリングすることと
をさらに含む、請求項２７に記載のコンピュータプログラム。
前記レンダリング属性は、前記字幕要素の奥行き、前記字幕要素の色、前記字幕要素のフォントスタイル、前記字幕要素のフォントサイズ、及び前記字幕要素のスクリーン位置の少なくとも一つを含む、請求項２７に記載のコンピュータプログラム。
前記右目抽象画像及び前記左目抽象画像は、前記セグメントのすべての画像における一の前景に対応する一の物体の動きを表す、請求項１に記載の方法。
前記右目抽象画像を生成すること及び前記左目抽象画像を生成することは、前記セグメントの複数の画像における一の前景に対応する一の物体の動きを表す前記右目抽象画像及び前記左目抽象画像を生成することを含む、請求項１に記載の方法。
前記抽象奥行きマップは、前記セグメントの前記複数の画像における前記前景に対応する前記物体の奥行きの変化を含む、請求項３３に記載の方法。