JP6391629B2

JP6391629B2 - ３ｄテキストを３ｄコンテンツと合成するシステムおよび方法

Info

Publication number: JP6391629B2
Application number: JP2016126357A
Authority: JP
Inventors: ザン，タオ
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2016-06-27
Filing date: 2016-06-27
Publication date: 2018-09-19
Anticipated expiration: 2030-01-13
Also published as: JP2017005719A

Description

（関連出願の相互参照）
本発明は、同一の譲受人に共通して譲渡された、米国特許出願（代理人整理番号ＰＵ０９０１８３、発明の名称「３Ｄ画像を２Ｄ画像と識別し、特徴点対応付けの決定により、３Ｄ画像形式の存在を特定する方法）に関する。上記出願の内容は参照により、全体として本明細書に明示的に包含されている。

本発明は、画像処理および表示システムに関し、より詳細には三次元（３Ｄ）手法によるテキストを関連する３Ｄコンテンツと合成するシステムおよび方法に関する。

近年、映画などの３Ｄコンテンツの制作数は益々増大している。この傾向は、近い将来も続くと予測される。３Ｄコンテンツの２Ｄに相当するものと同様に、３Ｄコンテンツは一般的に、サブタイトルやクローズドキャプション等の２Ｄテキスト情報を伴う。しかし、同一の深度で２Ｄコンテンツを表示する、３Ｄコンテンツの２Ｄコンテンツに相当するものと異なり、３Ｄコンテンツは一般に、３Ｄ視聴環境を生成するために、異なる深度で表示される。３Ｄコンテンツは種々の深度で表示されるため、何らかの付随テキスト情報をいつ、どこに、どのように配置するかを決定するかが問題になる。

二次元（２Ｄ）テキスト情報は、その関連する３Ｄコンテンツと関連付けて利用されることが提案されてきた。かかる技術は、テキストおよびコンテンツの単純な追加のように思われるが、一方でこれは、３Ｄコンテンツに関する所定の、あるいは既知の深度において、テキスト情報の配置についてのいかなる正確な制御ももたらすものではない。

他の既知の技術は、全てのフレームについてＴＶ面などに、視聴のための固定した深度で３Ｄテキストを配置することを可能にする。この技術から複数の問題が生じる。たとえば、３Ｄコンテンツが平行カメラにより捉えられたこと考えると、結果として生じるＴＶ面は無限遠になる。そしてこれにより、全てのフレームについて、いかなる３Ｄテキストも常にコンテンツシーンの後ろに現れることになる。適切に視聴できるように、３Ｄコンテンツ中のテキストの深度を調整するためには、コンテンツの全てのフレームを検証して、テキストの深度が意図した通りに視聴可能であるかを判断する必要があることは明らかである。かかる検証技術は長時間を要し、主観的であり、かつ非効率的である。

参照により全体として本明細書に包含されている、ＰＣＴ／ＵＳ２００７／０２５９４７号として特定される、出願人が同一である同時係属の特許出願においては、明らかな眼精疲労を生じさせることなく、コンテンツ内の３Ｄ効果を妨げることを回避するように、３Ｄテキストが３Ｄコンテンツに加えられた。この引用された出願においては、各画像に関する深度情報は、関連する深度マップを介して入手可能であることを前提としている。引用された出願において提案された方法は、与えられた深度マップについての最大深度値に一致するように、いずれの挿入されたテキストについての深度値も調整している。

当該方法はいくつかの欠点を生じる場合がある。第一に、深度情報は、関連する深度マップに含まれているか、他の何らかの形態によるかを問わず、コンテンツ制作者から入手できない。３Ｄコンテンツがどのように生成されようとも、深度情報の入手可能性は、最初に情報が捉えられた否か、そしてこれが完全に利用可能である場合は、制作者が当該情報を包含させ、かつ共有することを意図するか否かに左右される。また、深度が取得と同時に把握できないのであれば、深度情報は、３Ｄコンテンツの左側および右側の表示（ｖｉｅｗ）から算定することは一般的に困難である。左側および右側の表示は通常、２つのカメラを使用して捉えられたメインストリーム３Ｄコンテンツから入手される。

上記方法に関連する他の問題は、関連する深度マップは一般的に、各フレームごとに固定した範囲に拡大縮小されるという点である。かかる拡大縮小は、３Ｄテキスト情報を、全てのフレームについて同一の深度値で正確に配置する性能を妨げる。

上記のような先行技術の手法に関する問題に加え、いずれの補助的画像情報にも依存することなく、コンテンツのみに基づき、制作後の期間中（例えば、一般的にリアルタイム以外に実行されるオフライン操作）、あるいはコンテンツ視聴期間中（たとえば一般的にリアルタイムで実行されるオンライン操作）等３Ｄコンテンツおよび付随テキスト情報が生成され、あるいはパッケージ化された後の時間帯に、３Ｄコンテンツおよびテキストの制作者、ましてや最終視聴者の選択によるものであっても、３Ｄテキスト情報をある位置に配置させるためのいかなる手法の存在も、現在のところ知られていない。

先行技術の上記かつ他の欠点は、３Ｄコンテンツから得られる視差情報を決定し、３Ｄ手法によるテキストの関連する３Ｄコンテンツにおける最良の位置決定についてのユーザ、あるいは制作者により提供された１つ又は複数の要件と共に、かかる視差情報を利用することにより、本発明の種々の実施形態により対処されている。テキストの位置の決定は、オンライン操作として、着信画像コンテンツのストリームについてリアルタイムで実行され、あるいはオフライン操作として画像コンテンツの全体について非リアルタイムモードで実行できる。視差情報は、３Ｄ画像中に検出された全ての対応する特徴点にわたる視差値の集合および視差範囲、処理された全ての画像コンテンツについての視差範囲の交わり、および視差範囲の合併を含み、全ての処理されたフレームについての共通の視差範囲を示している。要件の具体例は、フレーム全体についての所定の視差値におけるテキスト配置、フレーム全体のうち選択された範囲についての所定の視差値におけるテキスト配置、コンテンツ遮断を回避し、複数の画像にわたる視差変化量を制限するテキスト配置を含むがこれに限定されず、快適な視聴体験等を維持している。

本発明の一つの実施形態においては、テキストを三次元（３Ｄ）画像コンテンツと合成する方法であって、結果として生じる画像は３Ｄ表示装置により表示可能であり、少なくとも一つの３Ｄ画像を含む３Ｄ画像コンテンツおよび少なくとも一つの３Ｄ画像と関連付けられたテキストの双方を受け取るステップを含み、少なくとも一つの３Ｄ画像は、第１の表示および第２の表示を含み、前記方法は更に少なくとも一つの３Ｄ画像から得られた視差情報を抽出するステップと、第１の表示におけるテキストについて位置を決定するステップと、第２の表示におけるテキストについて位置を決定するステップを含み、第２の表示における位置は、少なくとも一部は視差情報に基づいた量だけ、対応する３Ｄ画像の第１の表示における位置に対してオフセットされる。

本発明の原理の教示は、以下の添付図面と共に、以下の詳細な説明を考慮することにより直ちに理解できる。
本発明の実施形態に従い、３Ｄコンテンツと関連するテキストを合成するシステムを示している。本発明の実施形態に従い、複数の画像の幾つかの種々の実施例についてのスクリーン視差と認識された深度の関係を示している。本発明の実施形態に従い、３Ｄコンテンツと共にテキストを表示する際に使用される最良の視差値を、オフラインで決定する方法の流れ図を示している。本発明の実施形態に従い、３Ｄコンテンツと共にテキストを表示する際に使用される最良の視差値を、オンラインで決定する方法の流れ図を示している。図３および図４の方法で使用するための特徴点対応付けおよび視差値決定のための簡略化されたプロセスを示している。

図面は、本発明の概念を記述するためのものであって、必ずしも本発明を記述するために考え得る構成のみに限られないことが理解されるべきである。理解を促進するために、複数の図面に共通する同一の構成要素を指定するために、可能な場合は同一の参照番号が使用されている。

本発明の実施形態は、３Ｄコンテンツから抽出された視差情報を利用して、テキストを三次元（３Ｄ）コンテンツと合成するシステムおよび方法を好適に提供する。本発明の実施形態は主として、ビデオプロセッサおよびディスプレイ環境との関連で記載されているが、本発明の特定の実施形態は、発明の範囲を限定するものとして扱われるべきではない。本発明の概念は、テレビ、トランスコーダ、ビデオプレイヤー、画像ビューア、セットトップボックス、あるいはテキストを３Ｄコンテンツと合成するのに有用ないかなるソフトウエアベースおよび／またはハードウエアベースの実装を含むが、これに限定されず、実質的にいかなるビデオベースの処理環境にも好適に適用できることが、当業者により理解され、かつ本発明の教示により伝達される。

図面に示された構成要素は、様々な形態のハードウェア、ソフトウェアまたはこれらの組合せにより実施できることが理解されるべきである。好ましくは、これらの構成要素は、プロセッサ、メモリ、入力出力（Ｉ／Ｏ）インターフェースを含んでいても良い１つまたは複数の適切にプログラム化された汎用デバイス上のハードウェアとソフトウェアの組合せにおいて実装される。

図面に示された種々の構成要素の機能は、専用ハードウェアならびに適切なソフトエアと関連してソフトウェアを実行できるハードウェアの使用を介して提供できる。プロセッサにより提供される場合、機能は単一の専用プロセッサにより提供されてもよいし、単一の共有プロセッサにより提供されてもよいし、一部を共有できる複数の個別のプロセッサにより提供されてもよい。また、「プロセッサ」または「コントローラ」の文言の明示的使用は、ソフトウェアを実行することができるハードウェアのみを言及するように解釈されるべきではなく、黙示的にデジタル信号プロセッサ（ＤＳＰ）ハードウェア、ソフトウェアを記憶する読み出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、不揮発性記憶装置を含むが、これに限定されない。

発明の実現には、従来型および／またはカスタムの他のハードウェアが含まれてもよい。例えば、図示されたいずれのスイッチも概念的に過ぎない。その機能は、プログラムロジックの動作を介して、専用のロジックを介して、プログラム制御および専用のロジックの相互作用を介して、あるいは手動でも実行でき、特定の技術は、コンテキストからより詳細に理解されるように、実施者により選択可能である。

本明細書で提示されたブロック図は、本発明の原理を具体化する例示的システム構成要素および／または回路の概念図を表現していることが、当業者により理解されるであろう。同様に、いずれのフローチャート、流れ図、状態遷移図、擬似コード等も、コンピュータまたはプロセッサが本明細書に明示的に示されているか否かにかかわらず、コンピュータ読み取り可能媒体に十分に表現することができ、コンピュータまたはプロセッサによりそのように実行される種々のプロセスを表現することが理解されるであろう。

最後に、本明細書に列挙された全ての具体例および条件付文言は、技術の進歩させるために発明者（ら）が提供する本発明の原理および概念を理解する際に、読み手を助けるという目的を有している。よって、本発明の原理は、特に列挙されたかかる具体例および条件に制限あるいは限定することがないものとして解釈されるべきである。

二次元（２Ｄ）映像におけるテキストの利用は、当業者に知られている。三次元（３Ｄ）映像およびフィルムに対する現在の関心は、テキストを３Ｄコンテンツに付加するための技術に対する必要性を生じさせた。よって、付加されたテキストが３Ｄコンテンツ内の３Ｄ効果を妨げないように、そして３Ｄコンテンツを視聴する際に、視聴者を視覚的に満足させるように、テキストの３Ｄに対する挿入を最適化する技術に対する必要性が存在する。

本明細書に開示された本発明の種々の実施形態の原理によると、テキスト情報と３Ｄコンテンツの合成は、オフラインまたはオンラインで実行することができる。「オフライン」の用語は、制作後の操作等、リアルタイム視聴イベント以外の時間に実行される処理を含むことが意図される。「オンライン」の用語は、コンテンツがユーザ等に表示されている際は、テレビまたはコンテンツプレイヤー上のリアルタイム視聴イベントを包むことが意図される。

制作後段階におけるようなオフライン処理では、フレームが通常、スタジオで事後に処理されている際に、テキスト自体を含む３Ｄテキスト情報、その意図された位置、３Ｄコンテンツについての画像歪覚あるいは視差情報は合体され、および／または決定されることができる。一般的にオフライン処理に適切なコンテンツの具体例としては、テレビ・ゲーム番組、映画のビデオテープ又はＤＶＤ、研修用ビデを含む企業向ビデオテープ、ケーブル、衛星やインターネット・プロバイダを介して供給される映画等がある。テキスト情報は、コンテンツをユーザに表示する等、後の使用のために、コンテンツに関連付けられたクローズドキャプション、メタデータ等のファイルに格納することができる。

テレビ等によるリアルタイム視聴イベントの時間中などオンライン処理においては、３Ｄテキスト情報は、関連するコンテンツを表示する前に生成することができる。リアルタイム視聴イベントには、例えばテレビ・ニュース番組、ライブのセミナーやスポーツイベントがある。テキストは、例えば関連するキャプションやサブタイトルファイルから入手可能であり、あるいはスクリプトを介して提供されてもよい。あるいは。テキストはリアルタイムで生成されてもよい。深度または視差情報はいずれのファイルからも入手できないため、一つの実施形態では、これを生成することにより、視聴者にリアルタイムで表示するために、テキストと３Ｄコンテンツの適切な合成を実現する必要がある。

サブタイトルやキャプションを付する実施例では、サブタイトルやキャプションのテキストは通常、コンピュータ上で生成され、次にタイムコードを使用してビデオコンテンツと同期化される。そしてテキストおよびビデオコンテンツは、イベントが放送され、または配信される前に１つ以上のファイルに転送される。

テキスト情報は、当業者に知られた従来の方法により生成され、配信されてもよい。たとえば一つの従来の方法は、テキストファイルをスクリプトから生成することを伴う。テキストファイルは、３つの値、すなわち開始フレーム、終了フレームおよびフレームが開始フレームから終了フレームに至る複数のフレームに及ぶテキストを含んでいる。そしてこの実施例に関しては、テキストは開始フレームから終了フレームまでの全てのフレームにおいて繰り返される。本発明の実施形態は、関連するビデオフレームについて認識された適切な深度値において、テキストの配置を決定するための他のいずれかの要件と共に、視差パラメータを決定することを対象としている。

本明細書の記載では、３Ｄコンテンツと合成可能な簡易なテキストのテキスト情報が照会される。これらの用語は、一般性および意味を何ら意図的に限定せず、失わせることなく、他の特定された改変された用語と交換可能に使用できる。本発明の実施形態により、コンテンツ映像に追加できる少なくとも２つのタイプのテキスト、すなわちサブタイトルおよびキャプションが存在することが理解されるべきである。サブタイトルは一般に、聴覚障害のない聴衆を対象としており、キャプションは通常、聴覚障害のある聴衆を対象としている。サブタイトルは、対話をコンテンツから別の言語に翻訳し得るが、サブタイトルは、音声情報の全てを表すことはほとんどない。キャプションは、コンテンツの音声部分からの全ての情報を含む傾向にある。例えばキャプションは、「電話の呼出音」、「足音」等のコンテンツ中の音響効果を表し、一方でサブタイトルは音声から得られた当該情報を含むことも表示することもない。

クローズドキャプションは、特殊なデコーダなしでは見ることができない、ビデオ信号内に隠されたキャプションである。クローズドキャプションは、例えば、ビデオ信号の垂直帰線消去区間（ＶＢＩ）の行２１内に隠されている。オープン・キャプションは、復号化されているキャプションであるため、これは映画におけるサブタイトルのような、テレビ画像の不可欠の部分になっている。換言すれば、オープン・キャプションはオフにすることはできない。「オープン・キャプション」の用語は、文字生成手段で生成されたサブタイトルを指すためにも使用される。

図１は、本発明の実施形態に従い、３Ｄコンテンツおよび関連するテキストを合成するシステム１０を示している。図１においては、走査装置１２が、カメラで感光したフィルムネガ等のフィルムプリント１４を、シネオン形式または全米映画テレビジョン技術者協会（ＳＭＰＴＥ：ＳｏｃｉｅｔｙｏｆＭｏｔｉｏｎＰｉｃｔｕｒｅａｎｄＴｅｌｅｖｉｓｉｏｎＥｎｇｉｎｅｅｒｓ）のデジタル・ピクチャ・エクスチェンジ（ＤＰＸ）ファイル等のデジタル形式にスキャニングするために設けられている。走査装置１２は、例えばビデオ出力を備えたＡｒｒｉＬｏｃＰｒｏ（商標）等のフィルムからビデオ出力を生成するテレシネ装置等を備えていてもよい。あるいは、制作後の処理から得られたファイル、又は既にコンピュータ可読形式になっているファイル等デジタルシネマ１６を直接、使用してもよい。コンピュータ可読ファイルの可能性として考えられるソースは、ＡＶＩＤ（商標）エディタ、ＤＰＸファイル、Ｄ５テープ等である。更に、例えば立体コンテンツ、２Ｄ画像および関連深度マップの形式の３Ｄコンテンツは、キャプチャ装置１８により提供されてもよい。サブタイトルおよびキャプションファイル等のテキストファイル２０は、スクリプトから生成し、サブタイトル監督者によってシステムに提供されてもよい。

走査されたフィルムプリント、デジタル・フィルム画像及び／又は３Ｄコンテンツ、並びにテキストファイルは、例えばコンピュータ等の後処理装置２２に入力することができる。本発明の一つの実施形態においては、後処理装置２２は、１つ又は複数の中央処理装置（ＣＰＵ）、ランダムアクセスメモリ（ＲＡＭ）および／または読み出し専用メモリ（ＲＯＭ）等のメモリ２４，キーボード、カーソル制御装置（例えば、マウス、ジョイスティック）等の入力／出力（Ｉ／Ｏ）ユーザインターフェース２６、ディスプレイ装置等のハードウェアを備えた様々な既知のコンピュータ・プラットフォームのいずれかに実装することができる。コンピュータ・プラットフォームは更に、オペレーティング・システムおよびマイクロインストラクションコードを備えている。本発明の他の実施形態によると、本明細書に記載された様々なプロセスおよび機能は、マイクロインストラクションコードの一部、あるいはオペレーティング・システムを介して実行されるソフトウエア・アプリケーション・プログラムの一部（又はこれらの組合せ）であってもよい。更に他の種々の周辺装置を、パラレルポート、シリアルポート、ユニバーサル・シリアル・バス（ＵＳＢ）等の様々なインターフェース、バス構造により、コンピュータ・プラットフォームに接続することができる。かかる他の周辺装置の具体例には、追加の記憶装置２８およびプリンタ３０を含んでいてもよい。プリンタ３０は、フィルムの立体映像版等のフィルム３２の修正版であって、更に以下に記載したテキスト挿入技術を利用して、一つのシーンまたは複数のシーンにテキストが挿入されたものを印刷するのに使用することができる。更に、修正されたフィルムまたはビデオのデジタルファイル３４が生成され、３Ｄディスプレイ装置に提供できるため、３Ｄコンテンツおよび挿入されたテキストは、視聴者によって視聴可能である。あるいはデジタルファイル３４は、記憶装置２８に記憶することができる。

図１の実施形態においては、以下に更に詳細に考察するように、ソフトウェア・プログラムはテキストを３Ｄコンテンツと合成するために、メモリ２４に記憶されたテキスト処理モジュール３８を含んでいる。

３Ｄコンテンツを処理し、かつ表示するための複数のコンテンツ形式および表示方式が存在する。これらには特に、立体、ホログラフィック、自動立体がある。最も一般的なのは、アクティブまたはパッシブ眼鏡を必要とする立体ディスプレイである。例えばレンティキュラーを使用した自動立体ディスプレイは、眼鏡を必要とせず、家庭および娯楽業の双方において益々、使用可能になっている。これらのディスプレイの多くは、２Ｄ＋深度形式で動作する。この形式では、２Ｄ映像および深度情報は合成されて、３Ｄ効果を生じさせる。

三次元（３Ｄ）画像は今日、多くの種々のデジタル形式で存在する。３Ｄコンテンツは一般的に、別個の立体画像（または表示（ｖｉｅｗ））として最初に生成された一対の画像または表示（ｖｉｅｗ）を含んでいる。「立体画像」および「立体表示」の用語と、「画像」および「表示」の用語は、意味を失わせることなく、何ら意図的に限定することなく、各々、交換可能に使用できることが理解される。これらの画像の各々は符号化できる。３Ｄ画像を記憶、配信、表示するためには、各々が画像固有のフレームまたはファイルにある２つの別個の立体画像を利用する代わりに、各フレームは３Ｄ画像全体を表すように、左画像、右画像等２つの立体画像のコンテンツは単一の画像フレームに合成される。

深度が容易に算定できる場合は、３Ｄサブタイトルの挿入は容易になると上述した。しかし、十分な密度の正確な深度マップを算定するのは困難であり、時間がかかるだけであるため、ユーザは、テキスト情報の３Ｄコンテンツにおける配置を決定する他の方法を見つけることを試みざるを得ない。本発明の原理によると、スクリーン視差情報は有用であり、テキストの３Ｄコンテンツにおける配置を決定するための深度の直接的使用に対する適切な代替手段であることがわかった。

図２は、本発明の実施形態に従い、画像の複数の種々の実施例についてのスクリーン視差および認識された深度の関係を示している。図２においては、Ｘ_lは、左表示Ｌにおけるポイントの位置であり、Ｘ_ｒは、右表示Ｒにおける対応するポイントの位置であり、Ｘは、視聴者に見える認識された画像の位置である。そしてスクリーン視差はｄにより表され、認識された深度はＺにより表される。

図２の左側では、画像Ｘは、負の視差に一致する認識された深度Ｚで示されている。図２の右側では、画像Ｘは、正の視差に一致する認識された深度Ｚで示されている。

図２に示すように、Ｘ_lが左表示Ｌにあるポイントの投影画像として定義され、Ｘ_ｒが右表示Ｒにある同一ポイントの対応する投影画像として定義される場合、スクリーン視差ｄは、式（１）により以下のように画定される。

ｄ＝Ｘ_ｒの水平位置−Ｘ_lの水平位置（１）

式（１）の構成においては、左表示Ｌおよび左表示Ｒを生成する２つのカメラは、その間に若干の水平距離を有し、サイドバイサイド構成に配置されていると仮定する。このサイドバイサイド構成は、一つのカメラが他のカメラの上方に位置する状態のカメラの垂直配置により、カメラが垂直分離を呈する状態をカバーすることも意図している。カメラが垂直または上下構成で配置されている場合は、式はそれに応じて変更され、スクリーン視差が以下のような式（２）に従って画定されることとなる。

ｄ＝Ｘ_ｒの垂直位置−Ｘ_lの垂直位置（２）

上記式（２）においては、ｄが正（＞０）の場合は、認識された画像はスクリーンの後ろ側（すなわち、テレビ面の後ろ側）に配置され、当該状態は正の視差の一つであり、ｄがゼロ（＝０）の場合は、認識された画像はスクリーン上に配置され、当該状態は無視差の一つであり、ｄが負（＜０）の場合は、認識された画像はスクリーンの前に配置され、当該状態は負の視差の一つである。

実験の実施から、スクリーン視差ｄは、認識された深度と関係していると結論付けることが適切であると考えられる。認識された深度は、図２に示されたような３Ｄコンテンツを視聴する際に、視聴者が認識する深度である。認識された深度は、実際の深度と関係し、これとは明らかに異なる。認識された深度は一般的に、実際の深度のこのような順位と実質的に類似の深度順位序列を有している。しかし、例えばカメラの射影変換の結果として、深度の量が変化の対象となる。この点を理解するために、以下の、
実際の深度（Ａ）＞実際の深度（Ｂ）＞実際の深度（Ｃ）
のように、一つのフレーム内のポイントＡ，Ｂ，Ｃが実際の深度について順位序列を呈する場合は、
認識された深度の順位序列は以下のようになることが予測されるものとする。
認識された深度（Ａ）＞認識された深度（Ｂ）＞認識された深度（Ｃ）

上記で説明したように、これらのポイント間の実際の距離は、実際の深度から認識された深度に移行する際には、一般的には維持されない。これらの関係は、同一フレーム内で維持されることが意図される。異なるフレームにわたって、これらの関係が同一ポイントＡ，Ｂ，Ｃについて残存するとは必ずしも予測されない。

スクリーン視差と実際の深度の厳密な関係は複雑であり、容易には決定できない。左および右表示が、表示軸が平行である装置により捉えられる場合、スクリーン視差と実際の深度の関係は、実質的には直線状であることがわかる。あるいは左および右表示が、表示軸が交差関係にあるなど平行でない関係にある装置により捉えられる場合、スクリーン視差と実際の深度の関係は、実質的には非直線状であることがわかる。本明細書中の実験の実施から、スクリーン視差と認識された深度の関係は、左および右キャプチャ装置の方向に関わらず、常に直線状であることがわかる。この実験の実施に基づき、スクリーン視差の絶対値が大きいほど（すなわちスクリーン視差の大きさが大きいほど）、認識された深度の絶対値は大きくなる（スクリーンからより離れる）ことがわかった。

認識された深度は、視聴者が体験した深度である。実際の深度は、視聴者が実際に体験する。この認識に基づき、本発明の実施形態に従い、３Ｄコンテンツにおけるテキストの配置に適切な深度値を決定する効果的な方法として、スクリーン視差、およびそれゆえに認識された深度を利用することが可能であり、好適でさえあることが、本明細書中で判明した。

図３は、本発明の実施形態に従い、３Ｄコンテンツと共にテキストを表示する際に使用される最良の視差値を、オフラインで決定する方法の流れ図を示している。上述のように、オフライン方法は、例えば制作後段階で利用するのに適切である。図３のオフライン方法は、２つのパスを有するものとして示されている。第１のパスは各フレームを処理して、各フレームについての特定の視差情報を決定する。この視差情報は、視差値の可能性として考えられる集合および視差値の範囲および視差値の共通の範囲を含んでいる。第２のパスは、制作者またはユーザから得られた１つ以上の所望の要件の集合と合成された、収集された視差情報を使用して、３Ｄコンテンツにおける３Ｄテキストの最終的な配置の制作者／ユーザによる要件に適合する最良の視差値を選択する。

要件は一般的に、テキスト配置のために達成されるべき状態を提示する。要件は、制作者あるいはユーザあるいはコンテンツに関連した他の者のいずれかにより提供される。例えば、スクリーンの前の認識された深度が、全てのフレーム内に実質的に外観上固定されているように、テキスト情報が所定の視差値で配置されることが必要な場合がある。要件の他の具体例は、フレーム全体についての所定の視差値でのテキスト配置、フレーム全体のうち選択された範囲についての所定の視差値でのテキスト配置、コンテンツ遮断を回避し、複数の画像にわたる視差変化量を制限するテキスト配置を含むがこれに限定されず、快適な視聴体験等を維持している。

最大の認識された深度等、所定の値でテキストを配置する例示的要件を達成するために、視聴されている画像および画像群の範囲内でこの要件に適合する最良の視差値は、以下の式でより更に詳細に示され、かつ記載されているように、ｄ＝ＵＤｍｉｎとなる。もちろん、種々の要件により、選択されている種々の視差値が得られる。１つ以上のデフォルト要件は、オフライン処理における使用のために、製造者が設定できるし、ユーザであっても設定できることが考えられる。本発明の他の実施形態では、上記の要件は、オンライン処理に等しく適用可能である。

図３で示された方法では、最初のパスは、ステップＳ３１、Ｓ３２、Ｓ３３を含んでおり、一方で第２のパスは、ステップＳ３４、Ｓ３５、Ｓ３６、Ｓ３７、Ｓ３８を含んでいる。図３で言及したように、最初のパスは、視差範囲を決定するために、複数のフレームについて処理を行う。第２のパスは、第１のパスから得られた視差情報について処理を行い、各フレームについて最良の視差値を決定する。

図３の方法は、ステップＳ３１で開始し、ここでは画像情報の双眼写真を受け取る。通常、当該ステップに読み込まれる双眼写真は、上記のように左表示と右表示を含んでいる。ステレオ写真は、当該方法においてはペア（Ｌ，Ｒ）として画定される。そして当該方法はステップＳ３２に進む。

ステップＳ３２では、現フレームについての値Ｐ，ＤＸ，ＩｎｔＤ，ＵＤの値を含む視差情報を算定し、更新し、保持するために必要な処理が実行される。変数およびその関連する算定は、以下に図５を参照してより詳細に記載される。Ｐは、（複数の）フレームの範囲についての各フレームにおける各検出点に関する視差情報を保持する視差の集合である。一般に、（複数の）フレームの範囲は、以下にさらに詳細に考察するように、現フレームに加えて、１つ以上の先行するフレームを含むことが考えられる。しかし、（複数の）フレームの範囲は、現フレームに加えて、１つ以上の先行するフレームおよび１つ以上の後続のフレームも含む場合があることも考えられる。ＤＸは、画像フレーム中の全ての特徴点についての最小の視差値から最大の視差値までの視差値Ｐの範囲を保持する視差範囲の集合である。ＩｎｔＤは、処理された（複数の）フレームについての視差範囲を含む交わり集合である。ＵＤは、全ての処理された（複数の）フレームについて共通の視差値を保持している。変数Ｐ，ＤＸ，ＩｎｔＤ，ＵＤの処理が終了すると、当該方法はステップＳ３３に進む。

少なくとも算定された変数の集合は、メモリ、あるいは１つまたは複数の画像ファイルに関連付けられたファイル、画像と同じファイルに記憶されることが考えられる。もちろん後者の場合は、視差情報が、画像と分離された態様で補助画像データと共に記憶されることが必要である。

オフライン処理では一つの実施形態において、第１のパスにおいて、算定された全ての視差情報をＰに保存することが好ましい。視差情報が本明細書中の方法の第２のパスで決定される場合は、要件に従い、最良の視差を決定するために、視差集合ＰのうちＰｉの小範囲のみを利用することが好ましい場合もある。例えば第２のパスでフレームｉを処理する場合、最良の視差値を決定するために、ｍ個のフレームについての視差値の集合は、ｉ番目のフレームの一方の側、すなわちフレームｉ―ｍからフレームｉ＋ｍで使用してもよい。ｍの値は、所望されるように小さくても良いし、大きくてもよい。実験の実施から得られる一つの実施例では、ｍは、ｍ＝５のように小さい正の整数であることが選択され、それにより視差情報の集合の格納に対する影響を少なくする。現フレームより多いフレームにある視差情報を算定する性能は、視差集合Ｐに影響を与えるのみならず、視差範囲の集合ＤＸ等他の視差情報にも影響を与えることに着目すべきである。

ステップＳ３３では、全ての双眼写真（Ｌ，Ｒ）が処理されたか否かが判断される。当該決定が「ＮＯ」であると判断されると、次に図３の方法はステップＳ３１に戻り、ここで他の双眼写真が処理のために受け取られる。当該決定が「ＹＥＳ」であると判断されると、次に図３の方法はステップＳ３４に進み、処理の第２パスが開始される。

ステップＳ３４では、双眼写真が再び処理される。各双眼写真は、ステップＳ３１で受け取られたように受け取られる。ペアが受け取られて読み込まれると、次に図３の方法はステップＳ３５に進む。

ステップＳ３５では、最良の視差値は、視差情報およびユーザまたは制作者等から受け取った１つまたは複数の要件から決定される。最良の視差値は、視差情報を相互に充たすテキスト配置のための視差値を選択するための視差情報（すなわち、これはＰ，ＤＸ，ＩｎｔＤ，ＵＤの視差情報により表される視差値に含まれている）、および要件を可能な限り厳密に解析することにより決定される。この着想は、以下でより詳細に説明する。

本発明の一つの実施形態では、上記の実施例に記載したような要件は、一般関数ｆとして公式化することができ、それにより関連する３Ｄ画像と併せたテキスト配置のための最良の視差値ｄが、以下の式（３）により求められる。
ｄ＝ｆ（Ｐ，ＤＸ，ＩｎｔＤ，ＵＤ）（３）

すなわち、最良の視差値ｄは、Ｐ，ＤＸ，ＩｎｔＤ，ＵＤの視差パラメータ値から得られた一部または全部の視差情報に依存する要件ｆ（・）から算定される。以下に示した視差情報のより詳細な説明から、要件の関数のための基礎となるパラメータはＰであることが理解される。なぜなら、残りのパラメータＤＸ，ＩｎｔＤ，ＵＤは、Ｐから直接的あるいは間接的に算定できるからである。全ての視差パラメータのＰに対する最終的な依存関係に関するこの知見に基づき、最良の視差値ｄの公式化は、以下のような式（４）により簡略化してもよい。
ｄ＝ｆ（Ｐ）（４）

もちろん、簡略化されたｄの公式化は、特定の要件が必要とする数と同数のＰから導かれたパラメータを含むより厳密な表現を網羅することが理解される。

要件に適合した関連する３Ｄ画像と併せてテキスト配置されるように、最良の視差値ｄが決定される態様をより良く理解できるように、要件についての多くの実施例が以下に記載されている。実験の実施から得られた一つの実施例では、フレーム全体について最大の負の視差でテキストを配置するために要件が画定される。この実施例については、要件を充たす最良の視差値は、現フレームについてｄ＝ｆ（Ｐ）＝ＵＤｍｉｎであると決定される。

実験の実施から得られた他の実施例では、現フレームにおける画像全体の選択された領域について、最大の負の視差でテキストを配置するための要件が画定される。この実施例については、この新たな要件を充たす最良の視差値は、画像の画定された領域Ｒにおいて、ｄ＝ｆ（Ｐ，Ｒ）＝最大の負の視差として決定される。当該要件と共に、追加のパラメータとしてＲを設けることが必要となる点に着目すべきである。決定された最良の視差値は、画像全体の最大の負の視差値であってはならないことが理解されるべきである。

実験の実施から得られた更に他の実施例では、コンテンツを遮断せず、テキストについての視差変化を小さく保つ、画像コンテンツに対する位置にテキストを配置するための要件が画定される。視差変化を小さく保つことにより、視聴者が一つの画像から次の画像へテキストを読みこむための適度な無理のないレベルを保つことができる。要件ｆ（・）を実装する際に、最良の視差値におけるテキスト配置のためのフレームからフレームへの移行が、（複数の）フレームにわたって円滑に行われ、かつ視聴者を満足させるように、多くのフレームからの視差情報を利用する必要がある。（複数の）フレームは連続するフレームであることが好ましい。更に本発明の一つの実施形態では、（複数の）フレームは、現フレームと併せて先行するフレーム、あるいは現フレームと併せて後続のフレーム、あるいは現フレームと併せて先行するフレーム及び後続のフレームの双方の一群として選択することができる。本実施例については、本要件のうち結果として生じる最良の視差値は、必ずしも最大の負の視差に対応しない。実際、テキストの配置に関して、一つのフレームから次のフレームへの移行を円滑に保つために、各フレームについての最良の視差値は、現フレーム中の最大の負の視差値より小さい（すなわち、最大負の視差値の絶対値より大きい）可能性がある。決定された最良の視差値は、画像全体の最大の負の視差値であってはならないことに注意すべきである。

ステップＳ３５の終了時に、図３の方法はステップＳ３６に進む。

ステップＳ３６では、ステップＳ３５から得られた視差値は、３Ｄテキストを生成するために、直ちに記憶され、および／または使用される。視差値ｄは、画像と共に、あるいは他の実施形態では、画像に添付の別個のファイルに記憶される。画像に関連付けられたテキストファイルに記憶することもできる。いずれの場合でも、ステップＳ３５で算定された視差値は、最終的には３Ｄテキストの生成および配置に使用される。ステップＳ３５から得られた最良の視差値ｄは記憶され、テレビ等の表示装置に渡され、そこで３Ｄテキストを生成するために使用されることが考えられてもよい。

実験の実施から得られた一つの実施例では、例えばサブタイトルまたはキャプション中のテキストの位置が、左（右）表示について確定されると、上記で与えられた視差方程式を利用して、他の表示において３Ｄテキストを配置し、生成するために、ステップＳ３５から得られた最良の視差値、および左（右）表示におけるテキストの位置を利用することは容易である。本発明の種々の実施形態では、上記で考察した位置は、当該表示における絶対位置、あるいは特定の表示における既知の基準点に対して決定される相対的位置であってもよい。例えば、相対位置は、表示の左上隅等、特定の隅部として選択することができる。ステップＳ３６の終了時には、図３の方法はステップＳ３７に進む。

ステップＳ３７では、全ての双眼写真（Ｌ，Ｒ）は、第２のパスで処理されたか否かが判断される。決定が「ＮＯ」であると判断されると、次に図３の方法はステップＳ３４に戻り、ここで他の双眼写真ペアが第２のパス処理のために受け取られる。決定が「ＹＥＳ」であると判断されると、次に図３の方法はステップＳ３８に進み、ここで処理は終了する。

図４では、オンライン処理を利用して、３Ｄテキストの位置決定を行う例示的方法が示されている。図３を参照して上記に記載されたオフライン処理方法では、画像から得られた全てのデータが利用可能であると仮定する。この仮定により、直ちに、全てのフレーム上を別個に当該方法のパスを送る機会が提供される。オンライン処理については、新たな画像フレームが処理のために受け取られ、使用可能である場合のみ、決定をすることができる。図３に示したオフライン処理方法とは対照的に、図４の方法は、収集され、かつ決定された全ての情報を記憶し、そして既存の情報および要件に基づいて、視差の決定を行う。

図４の方法は、オフライン画像処理および３Ｄテキスト位置決定に適用可能であることは、当業者により理解される。ただし、図３の方法は、当該オフライン処理について図３に記載されたプロセスのように効率的ではないことが予測される。

図４は、本発明の実施形態に従い、３Ｄコンテンツと共にテキストを表示する際に使用される最良の視差値を、オンラインで決定する方法の流れ図を示している。すなわち、図４の方法は、各画像についての単一パス手法として示されている。図４の方法は、ステップＳ４１で開始し、そこで画像情報の双眼写真（Ｌ，Ｒ）が処理のために受け取られ、あるいは読み込まれる。上記のように、当該ステップに読みこまれる双眼写真は通常、上記のように、左表示および右表示を含んでいる。そして図４の方法はステップＳ４２に進む。

ステップＳ４２では、Ｐ，ＤＸ，ＩｎｔＤ，ＵＤの値を含む現フレームについての視差情報を算定し、更新し、保持するために必要な処理が実行される。ステップＳ４２は、上述のステップＳ３２と同様の手法で実行する。変数およびその関連する算定を図５に参照して以下により詳細に記載する。変数Ｐ，ＤＸ，ＩｎｔＤ，ＵＤを算定し、更新し、保持するための処理が終了すると、図４の方法はステップＳ４３に進む。上述のように、少なくとも算定された変数の集合は、メモリ、あるいは１つまたは複数の画像ファイルに関連付けられたファイル、画像と同じファイルに記憶されることが考えられる。

オンライン処理では、可能性として生じる記憶領域の制限、および潜在的な処理時間の制限により、テキストについての最良の視差値を決定する際に、より少数のフレームを使用することが好ましい場合がある。先行するフレームおよび後続のフレームが全て、一般的に利用可能であるオフライン処理と異なり、現フレームに続く（複数の）フレームは未だ受け取られていないため、現フレームのオンライン処理のための先行するフレームにのみ通常、アクセス可能である。

ＤＸ，ＩｎｔＤ，ＵＤは全てＰおよびＰｉ成分から直接的または間接的に導かれるため、視差値Ｐの集合に関するいかなる限定も、残りの視差情報に影響を与えることに着目すべきである。

ステップＳ４３では、最良の視差値は、視差情報およびユーザまたは制作者等から受け取った１つまたは複数の要件から決定される。ステップＳ４３は、上述のステップＳ３５と同様の手法で実行する。最良の視差値を決定するための例示的手法は、図３のステップＳ３５を参照して上記に記載した通りである。次に図４の方法はステップＳ４４に進む。

次にステップＳ４４では、ステップＳ４３で決定された視差値を使用して３Ｄ画像コンテンツと共に表示するために、サブタイトルやキャプション等の３Ｄテキストが生成され、位置決定される。そして図４の方法はステップＳ４５に進む。

次にステップＳ４５では、全ての双眼写真（Ｌ，Ｒ）が処理されたか否かが判断される。決定が「ＮＯ」であると判断されると、図４の方法はステップＳ４１に戻り、そこで他の双眼写真が処理のために受け取られる。決定が「ＹＥＳ」であると判断されると、図４の方法はステップＳ４６に進み、そこで処理は終了する。

図５は、図３および図４の方法で使用される特徴点対応付け、および視差値決定の簡略化されたプロセスを示している。すなわち、図５は、受け取った画像それ自体から導かれた視差情報と共に、１つ以上の提供された要件に基づいて、最良の視差値を決定するための（Ｌ，Ｒ）ペアの処理に使用される例示的視差算定手法を示している。図５の手法は、図３および図４で示された方法を参照して上記のステップで使用されている。

図５で示された手法は、上記で表示した関連出願、すなわち米国特許出願代理人整理番号ＰＵＴ０９０１８３号（発明の名称「３Ｄ画像を２Ｄ画像から区別し、特徴点対応決定により、３Ｄ画像形式の存在を特定するための方法」）に詳細に説明されている。

図５の方法は、ステップＳ５１で開始し、ここでは画像情報の双眼写真（Ｌ，Ｒ）が受け取られる。受け取られる双眼写真は通常、上記のように、左表示および右表示を含んでいる。更に、視差情報ＤＸ，ＩｎｔＤ，ＵＤが画像情報（コンテンツ）と共に受け取られる。本発明の種々の実施形態においては、図５の方法が、全ての視差情報変数がゼロ等の初期値に設定されるように初期化されてもよい。ＤＸは視差集合である。交わり集合はＩｎｔＤであり、和集合はＵＤである。ＤＸは、少なくとも現フレームについての視差範囲、および１つ以上の先行して処理されたフレームについての視差範囲さえ含む。ＩｎｔＤは、全ての処理されたフレームについての視差範囲を含む。ＵＤは、全ての処理されたフレームについての共通の視差を含む。ステップＳ５１が完了すると、図５の方法は、ステップＳ５２およびＳ５３に進む。

ステップＳ５２およびＳ５３では、特徴点検出は、画像対（Ｌ，Ｒ）の個々の表示において実行される。ステップＳ５２の画像Ｌから検出された特徴点は、Ｆ１＝｛Ｆ１_ｉ|ｉ＝１… ｎ_１｝として特定され、ステップＳ５３の画像Ｒから検出された結果として現れた特徴点は、Ｆ２＝｛Ｆ２_ｉ|ｉ＝１… ｎ_２｝として特定される。ここで、ｎ_１およびｎ_２は、各画像で検出された特徴点の数である。ステップＳ５２およびステップＳ５３の各々の実行後、図５の方法はステップＳ５４に戻る。

特徴点対応付けに基づく方法は、特徴点を検出し、検出された特徴点の間の１対１の対応関係を確定する。上記および下記のステップにおける特徴点検出および特徴点対応付けの代わりに、特徴点追跡を利用してもよいことも、本発明の種々の実施形態から考えられる。実験の実施から得られたある実施例では、ＫＬＴ特徴点追跡法が、ステップＳ５２およびＳ５３の実行において使用されてきた。これらの手法は、当該技術分野で周知であり、本明細書中の以下に引用した文献に十分に記載されている。

ステップＳ５４では、特徴点対応付け（マッチング）は、表示ＬにおけるステップＳ５２から結果として得られた特徴点Ｆ１と、表示ＲにおけるステップＳ５３から得られた特徴点Ｆ２との間に検出される。本ステップにおける特徴点対応付けまたはマッチング処理は一般に、他の画像中の特徴点と対応関係がない、一つの画像中の特徴点を取り除く。特徴点が各特徴点の集合Ｆ１およびＦ２から取り除かれると、Ｌにおける新たな特徴点または残りの特徴点は、以下のような式（５）により特徴付けられ、
ＮＦ１＝｛ＮＦ１_ｉ|ｉ＝１… Ｎ｝（５）

Ｒにおける新たな特徴点または残りの特徴点は、以下のような式（６）により特徴付けられる。
ＮＦ２＝｛ＮＦ２_ｉ|ｉ＝１… Ｎ｝（６）

ここでＮは、対応関係を有する特徴点の総数である。（ＮＦ１_ｉ，ＮＦ２_ｉ）として指定されたペアは、Ｌ表示およびＲ表示の双方の中に検出される、一対のマッチングした特徴点のペアを特定する。特徴点対応付けおよびマッチングは、当該技術分野で周知であると考えられ、本明細書には詳細に記載されていない。本明細書に参照により包含され、本明細書中の以下に列記されたて複数の文献は、画像の特徴点に適用される多くの対応付けおよび選択手法を開示している。ステップＳ５４が終了すると、図５の方法はステップＳ５５に進む。

上記のように、特徴点対応付けは、特徴点追跡を利用して実行できることが考えられる。本発明の種々の実施形態では、ステップＳ５２，Ｓ５３，Ｓ５４で示すように、マッチングした特徴点を検出するために、特徴点検出および特徴点対応付けの算定が利用されてきた。しかし、特徴点のマッチングまたは対応付けは、以下に示すように、代わりに特徴点追跡として実施することができる。最初にＬにおける特徴点が算出される。次に、Ｌにおいて算出された特徴点は、Ｒにおける特徴点を追跡するために、Ｒにおける最初の特徴点の位置として利用される。最後に、追跡されたＲにおける特徴点は、Ｌにおける特徴点に対応するように決定される。Ｒにおける追跡中に失われた特徴点は、取り除かれるべきである。

ＫＬＴ追跡法が本発明の方法の実験の実施において用いられたが、多くの特徴点マッチングアルゴリズムが本発明の方法により使用されることが考えられているため、本明細書中の方法は、特定の特徴点マッチングまたは対応付けアルゴリズムを好適な手法として採択していない。ＫＬＴ追跡法等の複数の特徴点追跡方法は、人工知能国際合同会議において提出された「反復画像記録技術および立体画像への応用」というタイトルのＢｒｕｃｅＤ．ＬｕｃａｓおよびＴａｋｅｏＫａｎａｄｅ（金出武雄）による技術論文（１９８１）、第６７４〜６７９頁、および「特徴点の検出および追跡」というタイトルのＣａｒｌｏＴｏｍａｓｉおよびＴａｋｅｏＫａｎａｄｅ（金出武雄）による報告書（カーネギーメロン大学技術報告書ＣＭＵ―ＣＳ−９１−１３２，１９９１年４月発行）の双方に教示されている。ＳＩＦＴ法として知られる特徴点検出法は、１９９９年コンピュータビジョン国際会議の論文集、第１１５０〜１１５７頁で発表された「局部的スケール不変の特徴からの物体認識」というタイトルのＤａｖｉｄＬｏｗｅによる論文で開示されている。特徴点対応付けを実行するのに有用な複数の種々の特徴点検出およびマッチング方法は、「医療用、リモートセンシング用、産業用の２Ｄおよび３Ｄ画像記録」というタイトルのＡ．ＡｒｄｅｓｈｉｒＧｏｓｈｔａｓｂｙによる論文（ワイリー・インターサイエンス社発行、２００５年）、特に特徴選択についての第３章の４２〜６３頁のおよび特徴点対応付けに関する第４章の６３〜１０６頁に記載されている。これら４つの文献の教示は、全体として本明細書に参照により明示的に包含されている。

ステップＳ５５では、（Ｌ．Ｒ）表示において特定される各ペアｉについて対応する特徴点のペア（ＮＦ１_ｉ，ＮＦ２_ｉ）の間の位置偏差が算定される。画像についての視差集合Ｐおよび視差範囲ＤＸを決定するために、この算定が実行される。この算定においては、特徴点ＮＦ１_ｉの位置は、（ｘｉ_１，ｙｉ_１）として画定され、特徴点ＮＦ２_ｉの位置は、（ｘ_ｉ２，ｙ_ｉ２）として画定される。この実施例においては、これらの位置は、双方の画像における共通ポイントに対して選択される。一つの実施例では、双方の画像における共通ポイントは、基点として表示される左上隅として選択することができる。本発明の種々の実施形態では、相対位置よりも絶対位置が利用できることに着目すべきである。更に本発明の種々の実施形態では、画像中の他の配置を共通基準ポイントまたは基点として利用することができる。

そして、ｉ番目のフレームについてのスクリーン視差の集合Ｐｉは、Ｐ_ｉ＝｛Ｐ_ｊ＝ｘ_２ｊ−ｘ_１ｊ|ｊ＝１…Ｎ｝として決定することができる。各々、ＰｍａｘおよびＰｍｉｎとして算定されたスクリーン視差の最大値および最小値は、Ｐｍａｘ＝ｍａｘ（Ｐ_ｉ）およびＰｍｉｎ＝ｍｉｎ（Ｐ_ｉ）となるように、各Ｐの算定により反復して更新することができる。画像ペアにおける全ての特徴点についてこの算定が終了すると、図５の方法はステップＳ５６に進む。

スクリーン視差の集合Ｐは、現フレームのみについて決定してもよい。スクリーン視差の集合Ｐは、複数のフレームｉについて決定できることも考えられる（ここでｉは、所望の数の先行するフレーム、あるいは所望の数の先行するフレームおよび後続のフレームの双方を含んでいてもよい）。後者のケースは、一般的にフレームの全てが使用可能であるという理由で、通常、オフライン処理について起こりうる。オンライン処理では、現フレームが処理されている時点で後続するフレームが通常受け取られておらず、受け取ることができないため、後続のフレーム情報を利用を可能にすることができない。

視差集合Ｐの算定に含まれ、あるいは含めることができるフレームの数は、各々の実施に左右される。オフライン処理では、記憶領域は一般的に制限事項ではない。よって、可能な限り多くのフレームにわたって、たとえばオフラインの場合について使用可能な全てのフレームにわたって、Ｐを決定することが好ましい場合がある。オンライン処理では、記憶領域はより制限されている場合があり、利用可能な処理時間は限定されている場合があり、これにより適切なオンラインまたはリアルタイム視聴環境を維持している。よって、オンライン処理では、より少数のフレームにわたって視差情報集合Ｐを決定し、かつ維持するのが好ましい場合がある。

ステップＳ５６のこの時点で、視差情報ＤＸ，ＩｎｔＤ，ＵＤの算定は、以下のように更新され、終了することができる。更新された視差範囲ＤＸは、ＤＸ＝（Ｐｍｉｎ，Ｐｍａｘ）のように決定される。

変数ＤＸおよびＰは全く異なっている。視差範囲の集合であるＤＸは通常、一次元配列として表される。各フレームｉについては、値の集合〔ｍｉｎＰ_ｉ，ｍａｘＰ_ｉ〕として表される視差範囲ＤＸ_ｉがある（ここでＰ_ｉは、フレームｉにおける視差値である）。

視差値の集合であるＰは通常、二次元配列として表される。Ｐ_ｉは、フレームｉに関する各特徴点についての視差値の配列である。Ｐ_ｉｊは、フレームｉにおける特徴点ｊに関する特徴点ｊについての視差値である。このようにＰが記憶される場合、各フレームについての左（あるいは右）画像における特徴点の位置を、その対応する視差値と共に維持することも好ましい場合がある。

最小ＤＸ、ＩｎｔＤｍｉｎの交わり、および最大ＤＸ、ＩｎｔＤｍａｘの交わりは、以下の式（７）および式（８）により特徴付けることができる。
ＩｎｔＤｍｉｎ＝ｍａｘ（ＩｎｔＤｍｉｎ，Ｐｍｉｎ）（７）
ＩｎｔＤｍａｘ＝ｍｉｎ（ｉｎｔＤｍａｘ，Ｐｍａｘ）（８）

上記で画定した算定により、交わりＩｎｔＤｍｉｎの値は、ＩｎｔＤｍｉｎの前値またはＰｍｉｎの現在値のいずれかのうち最大のものにより置き換えることができる。同様に、ＩｎｔＤｍａｘについて上記で画定した算定により、交わりＩｎｔＤｍａｘの値は、ＩｎｔＤｍａｘの前値またはＰｍａｘの現在値のいずれかのうち最小のものにより置き換えることができる。このように、ＩｎｔＤの値は、ＩｎｔＤ＝（ＩｎｔＤｍｉｎ，ＩｎｔＤｍａｘ）として画定することができる。

同様のタイプの算定では、ＵＤは、以下の式のうち、（ＵＤｍｉｎ，ＵＤｍａｘ）として画定される。
ＵＤｍｉｎ＝ｍｉｎ（ＵＤｍｉｎ，Ｐｍｉｎ）および
ＵＤｍａｘ＝ｍａｘ（ＵＤｍａｘ，Ｐｍａｘ）

上記で画定した算定により、合併ＵＤｍｉｎの値は、ＵＤｍｉｎの前値またはＰｍｉｎの現在値のいずれかのうち最小のものにより置き換えることができる。同様に、ＵＤｍａｘについて上記で画定した算定により、合併ＵＤｍａｘの値は、ＵＤｍａｘの前値またはＰｍａｘの現在値のいずれかのうち最大のものにより置き換えることができる。

ステップＳ５４〜Ｓ５６における算定の終了時に、Ｐ，ＤＸ，ＩｎｔＤ，ＵＤの値は後の使用のために記憶される。本発明の種々の実施形態により、これらの値はプロセッサの一次記憶装置に記憶することができ、あるいは記憶媒体または画像フレームと関連付けられたファイル等、より永久的な形式で記憶することもできる。かかる視差情報の利用のための規格が発展するにつれ、視差情報は、画像ファイル自体に記憶されることさえ考えられる。

そして図５の方法はステップＳ５７に進み、その過程で図５の方法は終了する。

上記の記載では、ＤＸ，ＩｎｔＤ，ＵＤの値は、上記で示したように、画像フレーム全体の視差集合Ｐから直接的または間接的に算定されることに着目すべきである。本発明の種々の実施形態では、フレームの３Ｄ画像にテキストを配置するための最良の視差値についての算定は一般的に、パラメータＰ，ＤＸ，ＩｎｔＤ，ＵＤの全てではないが、これらのほとんどを用いることが意図される。例えば、要件が実質的に完全な画像に基づいている場合は、各フレームにおけるテキストについての最良の視差値を算定するために、ＤＸ，ＩｎｔＤ，ＵＤを含む視差情報の部分集合を使えば十分であるため、これが好ましい場合がある。他方、要件が画像フレームの一部のみに基づいている場合は、Ｐ，ＤＸ，ＩｎｔＤ，ＵＤについて、パラメータ値を含む視差情報の全集合を使うことが好ましい。本発明の種々の実施形態では、他のタイプの要件は、３Ｄ画像に対して適切にテキストを配置するのに必要な視差パラメータの集合を決定することが考えられる。例えば、テキストおよび画像の視認性を保証することにより、これらの閉塞を回避するために、視差情報（Ｐ，ＤＸ，ＩｎｔＤ，ＵＤ）の完全集合は、関連する３Ｄ画像と併せたテキスト配置を決定するのに使用される必要があることが予測される。全ての実施および要件について、テキスト配置のための視差情報の完全集合を使うことが可能であっても、テキスト配置の各々の決定のために必要とされる視差情報パラメータの数およびタイプは、少なくとも部分的には、本発明の種々の実施形態に従った実施および要件となるように調整されもよい。

ＬおよびＲの表示が画定され、使用される順序は、特徴点検出および特徴点対応付けのステップでは重要でないと本明細書で判断されてきた。しかし、視差算定ステップが実行される際に、画像のＬおよびＲの表示の特定および順序を維持することは重要である。

（実例となることを意図するが、限定はしない）３Ｄ画像形式を特定する方法およびシステムの種々の実施形態を記載したが、当業者は、上記教示に照らして、改変および変更ができることに留意すべきである。よって、開示された本発明の特定の実施形態において、本発明の範囲および趣旨の範囲内で変更がされてもよいことが理解されるべきである。前記は、本発明の種々の実施形態を対象とするが、一方でその基本的範囲から逸脱しない限り、本発明の他の実施形態および更なる実施形態を案出することもできる。
ここで例としていくつかの付記を記載する。
（付記１）
テキストを三次元（３Ｄ）画像コンテンツと合成する方法であって、結果として生じる画像は３Ｄ表示装置により表示可能であり、
前記方法は、
少なくとも一つの３Ｄ画像を含む前記３Ｄ画像コンテンツおよび前記少なくとも一つの３Ｄ画像と関連付けられたテキストの双方を受け取るステップであって、前記少なくとも一つの３Ｄ画像は、第１の表示および第２の表示を含む、前記ステップと、
前記少なくとも一つの３Ｄ画像から視差情報を抽出するステップと、
前記第１の表示におけるテキストのための位置を決定するステップと、
前記第２の表示におけるテキストのための位置を決定するステップと、を含み、
前記第２の表示における位置は、少なくとも部分的には、前記視差情報に基づいた量だけ、対応する３Ｄ画像の第１の表示における位置に対してオフセットされる、前記方法。
（付記２）
前記３Ｄ画像コンテンツに対するテキストの所望の配置を特定するための少なくとも一つの要件を受け取るステップを更に含み、
前記第２の表示におけるテキストの前記位置のための前記オフセット量は、少なくとも部分的には、前記視差情報および前記少なくとも一つの要件の双方にも基づいている、付記１に記載の方法。
（付記３）
各表示について、配置されたテキストを有する前記少なくとも一つの３Ｄ画像コンテンツの前記第１および第２の表示を処理するステップを更に含み、テキスト及び関連する３Ｄ画像コンテンツの合成を前記３Ｄ表示装置に表示する、付記１に記載の方法。
（付記４）
前記視差情報が抽出されたもととなる前記３Ｄ画像コンテンツに関連付けて、前記視差情報、および前記３Ｄ画像コンテンツに関連したテキストを記憶するステップを更に含む、付記２に記載の方法。
（付記５）
各表示について、配置されたテキストを有する前記少なくとも一つの３Ｄ画像コンテンツの前記第１および第２の表示を処理するステップを更に含み、テキスト及び関連する３Ｄ画像コンテンツの合成を前記３Ｄ表示装置に表示する、付記４に記載の方法。
（付記６）
前記オフセット量が抽出されたもととなる前記３Ｄ画像コンテンツに関連付けて、前記オフセット量、および前記３Ｄ画像コンテンツに関連したテキストを記憶するステップを更に含む、付記２に記載の方法。
（付記７）
各表示について、配置されたテキストを有する前記少なくとも一つの３Ｄ画像コンテンツの前記第１および第２の表示を処理するステップを更に含み、テキスト及び関連する３Ｄ画像コンテンツの合成を前記３Ｄ表示装置に表示する、付記６に記載の方法。
（付記８）
前記視差情報は、視差値の集合（Ｐ）、視差範囲の集合（ＤＸ），視差値の交わり集合（ＩｎｔＤ），視差値の和集合（ＵＤ）を備えた、付記２に記載の方法。
（付記９）
前記抽出するステップは更に、
前記３Ｄ画像コンテンツの第１および第２の表示における少なくとも一対の対応する特徴点を検出するステップと、
前記少なくとも一対の対応する特徴点に関する前記視差情報を抽出するステップと、
前記一対の対応する特徴点に関する前記抽出された視差情報を、先行する一対の対応する特徴点の抽出後に生じる既存の視差情報と比較し、前記既存の視差情報を更新するか否かを判断するステップと、前記既存の視差情報を、現に抽出された視差情報の少なくとも一部により更新するステップを含み、更新が必要であると判断された場合、更新された視差情報は、前記既存の視差情報に置き換わる、付記８に記載の方法。
（付記１０）
前記抽出するステップは更に、
前記少なくとも一つの３Ｄ画像コンテンツから得られた視差情報を既存の視差情報として保持するステップと、
少なくとも第２の３Ｄ画像コンテンツから視差情報を抽出するステップと、
前記少なくとも一つの３Ｄ画像コンテンツから得られた前記既存の視差情報を、前記少なくとも第２の３Ｄ画像コンテンツに関する前記抽出された視差情報の少なくとも一部により更新するステップを含み、更新が必要であると判断された場合、更新された視差情報は、前記既存の視差情報に置き換わる、付記２に記載の方法。
（付記１１）
前記第１の表示におけるテキストの前記位置と、テキストが抽出されたもととなる前記３Ｄ画像コンテンツに関連付けられた前記第２の表示におけるテキストの位置と、前記３Ｄ画像コンテンツに関連したテキストを記憶するステップを更に含む、付記２に記載の方法。
（付記１２）
前記抽出するステップは、現画像から抽出された視差情報と１つ以上の先行する画像から抽出された視差情報の合成に基づいて、前記視差情報を決定するステップを更に含む、付記８に記載の方法。
（付記１３）
前記抽出するステップは、現画像から抽出された視差情報、１つ以上の先行する画像から抽出された視差情報、１つ以上の後続の画像から抽出された視差情報、および１つ以上の後続の画像から抽出された視差情報の合成に基づいて、前記視差情報を決定するステップを更に含む、付記８に記載の方法。
（付記１４）
前記少なくとも一つの要件は、画像全体についての所定の視差値で前記テキストを配置するステップ、画像の選択された領域についての所定の視差値で前記テキストを配置するステップ、前記コンテンツを遮断することを回避し、連続する視差値についての変化量を少量に限定するために、前記テキストを配置するステップから成る群から選択される、付記２に記載の方法。
（付記１５）
テキストを三次元（３Ｄ）画像コンテンツと合成する装置であって、結果として生じる画像は３Ｄ表示装置により表示可能であり、
前記装置は、
少なくとも一つの３Ｄ画像を含む前記３Ｄ画像コンテンツおよび前記少なくとも一つの３Ｄ画像と関連付けられたテキストの双方を受け取る手段であって、前記少なくとも一つの３Ｄ画像は、第１の表示および第２の表示を含む前記手段と、
前記少なくとも一つの３Ｄ画像から視差情報を抽出する手段と、
前記第１の表示におけるテキストのための位置を決定する手段と、
前記第２の表示におけるテキストのための位置を決定する手段と、を備え、
前記第２の表示における位置は、少なくとも部分的には、前記視差情報に基づいた量だけ、対応する３Ｄ画像の第１の表示における位置に対してオフセットされる、前記装置。
（付記１６）
１つ以上の実行可能命令を記憶した機械可読媒体であって、該１つ以上の実行可能命令は、デジタル処理システムにより実行される場合は、前記デジタル処理システムに、テキストを三次元（３Ｄ）画像コンテンツと合成する方法を実行させ、結果として生じる画像は、３Ｄ表示装置により表示可能である、前記機械可読媒体において、前記方法は、
少なくとも一つの３Ｄ画像を含む前記３Ｄ画像コンテンツおよび前記少なくとも一つの３Ｄ画像と関連付けられたテキストの双方を受け取るステップであって、前記少なくとも一つの３Ｄ画像は、第１の表示および第２の表示を含む、前記ステップと、
前記少なくとも一つの３Ｄ画像から視差情報を抽出するステップと、
前記第１の表示におけるテキストのための位置を決定するステップと、
前記第２の表示におけるテキストのための位置を決定するステップと、を含み、
前記第２の表示における位置は、少なくとも部分的には、前記視差情報に基づいた量だけ、対応する３Ｄ画像の第１の表示における位置に対してオフセットされる、前記機械可読媒体。

Claims

テキストを三次元（３Ｄ）画像コンテンツと合成する方法であって、結果として生じる画像は３Ｄ表示装置により表示可能であり、
前記方法は、
少なくとも一つの３Ｄ画像を含む前記３Ｄ画像コンテンツおよび前記少なくとも一つの３Ｄ画像と関連付けられたテキストの双方を受け取ることであって、前記少なくとも一つの３Ｄ画像は、第１の表示および第２の表示を含む、前記受け取ることと、
前記少なくとも一つの３Ｄ画像から抽出された視差情報と前記少なくとも一つの３Ｄ画像に先行する１つ以上の画像から抽出された視差情報の合成に基づく視差情報を決定することと、
前記少なくとも一つの３Ｄ画像の前記第１の表示における所望の位置に前記テキストを挿入することと、
前記第２の表示におけるテキストのための位置を決定することであって、前記第２の表示における位置は、少なくとも部分的には、前記視差情報に基づいた量だけ、対応する３Ｄ画像の第１の表示における位置に対してオフセットされる、前記決定することと、
を含み、
前記方法は、
前記３Ｄ画像コンテンツに対する前記テキストの所望の配置を特定するための少なくとも一つの視差要件を受け取ることを更に含み、
前記第２の表示における前記テキストの前記位置のためのオフセット量は、少なくとも部分的には、前記視差要件にも基づいている、方法。