JP2015532483A

JP2015532483A - ビデオ映像の視点を変えるための方法および装置

Info

Publication number: JP2015532483A
Application number: JP2015534893A
Authority: JP
Inventors: アローラジテッシュ; ホーチェン; イエジェンフェイ; アフサンミール
Original assignee: ATI Technologies ULC
Current assignee: ATI Technologies ULC
Priority date: 2012-10-04
Filing date: 2013-10-03
Publication date: 2015-11-09
Also published as: WO2014053063A1; EP2904585A1; US20140098296A1; EP2904585A4; CN104685544A; KR20150067197A

Abstract

ビデオ映像に表示された被写体の表示視点などのビデオ映像の視点を変えるための方法および装置を提供する。一実施例では、方法および装置は、ビデオ映像に被写体を取り込む記録デバイスの向きおよび／または位置を表す情報に基づいて、ビデオ映像に表示された被写体の表示視点を変化させる。そのために、方法および装置は、記録デバイスの向きおよび／または位置を表す情報に基づいて、ビデオ映像に表示された被写体の現在の表示視点を決定してもよい。方法および装置は、被写体に対する現在の表示視点と所望の表示視点とを比較することによって、被写体に対する表示視点調節の量を決定し、調節を行うための適切な視点調節方法を選択する。したがって、ユーザが介入せずとも、ビデオ映像に表示された被写体に対する表示視点調節が自動的に行われる。【選択図】図３

Description

（関連出願の相互参照）
本願は、２０１２年１０月４日に出願された、「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＣＨＡＮＧＩＮＧＡＰＥＲＳＰＥＣＴＩＶＥＯＦＡＶＩＤＥＯ」という名称の米国特許出願第１３／６４５，０６６号の優先権を主張するものであり、その開示は、参照により本明細書に組み入れられる。

本開示は、概してビデオ映像の視点を変えるための方法および装置に関する。

ビデオ映像では、撮像された被写体は、視点、すなわち、ビデオ映像に表示される被写体の向きおよび位置を持って表示される。ビデオ映像の表示システムによって表示される被写体の視点は、被写体と相対的な記録デバイスの位置および／または向きに応じて変えることができる。例えば、被写体は、被写体の前側がビデオ映像において完全に露わになるように、正面視で表示され得る。この場合、被写体をビデオ映像に取り込む記録デバイスは、被写体を取り込むときに、被写体の前側と正対し得る。別の例では、被写体は、被写体の側面が完全に露わになるように、側面視で表示され得る。この場合、被写体をビデオ映像に取り込む記録デバイスは、被写体の側面と対向する位置に配置され得る。

多くのビデオアプリケーションに対して、ビデオ映像に取り込まれる対象となる被写体のための好ましい表示視点が存在する。例えば、ビデオ通信のようなアプリケーションでは、記録デバイスによって取り込まれる人物の好ましい表示視点は、以下の場合が考えられる。例えば、表示される人物が、ビデオ映像を観察する一人以上の人物から自然に見える、すなわち、観察する人物とまるで目と目が合うように、正面視でビデオ映像に現れる場合である。ビデオ映像に表示される人物のそのような自然な眺めによって、観察する人物は、表示される人物のコミュニケーション的な表現（例えば、表情、感情など）を、正確かつ迅速に観察できる。これにより、効果的なコミュニケーションが得られる。

遠隔ビデオ映像医療診断アプリケーションでは、ビデオ映像内の対象となる被写体の好ましい表示視点は、ビデオ映像を通じて実行される医療診断のタイプに依存する場合がある。例えば、患者の骨折した腕および肩の状態ならびに程度に関する診断の場合には、診断する医師は、患者が骨折したと報告している腕の側面が完全に露わになるような角度から、患者の腕を見ることを望むであろう。

しかしながら、様々なフォームファクタおよび物理的制約条件のために、記録デバイスを、ビデオ映像内で被写体が所望の表示視点で表示されるように被写体を取り込む位置および向きに常に設置できるわけではない。記録デバイスが装置の構成部品として内蔵される場合には、フォームファクタ（すなわち、記録デバイスのサイズおよび形状）は、被写体の表示視点に影響を及ぼすことがある。例えば、カメラなどの記録デバイスは、コンピュータモニタまたはウェブＴＶに内蔵される場合があり、コンピュータまたはウェブＴＶの位置を調節せずに、内蔵された記録デバイスの位置および／または向きを、プレゼンター（ｐｒｅｓｅｎｔｅｒ）の自然な眺めを取り込むように容易に調節できない。ポータブルコンピューティングの進歩に伴い、ビデオ通信は、タブレットまたはスマートフォンのような、内蔵カメラを備えたポータブルデバイスによってますます実行されている。しかしながら、これらのポータブルデバイスは、多くの場合、プレゼンターの目の高さよりも遥かに低いテーブルに置かれ、または、テーブル上に平らに置かれる。その結果、プレゼンターの表示視点は、ビデオ映像内のプレゼンターの自然な眺めとして示されない。

いくつかの他の状況では、記録デバイスは、被写体を振動なくビデオ映像に取り込むために、容易に安定化できない場合がある。あるいは、記録デバイスが、振動無しにビデオ映像に取り込めないほど、被写体が動き回ることがある。その結果、そのように取り込まれる被写体の表示視点が不必要に変化する。多くの場合、表示視点におけるそのような変化は望ましくない。

さらに他の状況では、被写体の物理的条件の制約によって、被写体を所望の視点においてビデオ映像に取り込むことが妨げられることもある。例えば、ビデオ映像を介した医療診断の前述のシナリオでは、患者の肉体的な負傷が特に激しく、腕を露わにするように患者が自由に腕を動かせない場合がある。従って、患者は、負傷のために、腕を回転させて、記録デバイスに向けて腕の下側を露わにすることができない。この場合、患者以外の誰かによって記録デバイスの位置を変えることができない場合には、患者の骨折した腕の側面からの眺めのみしかビデオ映像に取り込むことができない場合がある。

自明の解決策では、被写体が二つ以上の視点でビデオ映像に取り込まれるように、複数の記録デバイスを、対象となる被写体の周囲において異なる角度および位置に配置する場合がある。しかしながら、この解決策では、複数の記録デバイスをどのように配置するかという技術知識が必要であり、ビデオアプリケーションの一般ユーザは、通常、この技術知識を有していない。さらに、被写体を取り込むような複数の記録デバイスの設置には、複数の記録デバイスと、複数の記録デバイスが取り込む複数の視点の間を切り替えるソフトウェアと、が必要となるため、費用が増大する。

いくつかのソフトウェアアプリケーションは、回転、シフト、反転操作などの画像の幾何学変換法を使用して、画像視点を変えることができる。一般的に、これらの方法では、画像に取り込まれる被写体を、ｘ−ｙ−ｚパネルに沿って基準点に対して回転およびシフトさせることによって、画像に表示される被写体の視点を調節し、画像内に被写体の所望の表示視点を得ることができる。かかるソフトウェアアプリケーションは、被写体再構成技術も利用する場合がある。この技術を用いて、ユーザは、被写体の関連する画像から抽出したグラフィカル情報に基づいて被写体を再構成することによって、被写体のより正確な表示を生成しつつ、視点を自由に調節することができる。

かかるソフトウェアアプリケーションの１つの例として、ＧｏｏｇｌｅＭａｐｓ（商標）がある。ＧｏｏｇｌｅＭａｐｓ（商標）では、ユーザは、ストリートビューの画像で地図上の場所を表示し、例えば、画像内に表示された建物を回転することによって、ストリートビューの視点を変えることができる。しかしながら、ＧｏｏｇｌｅＭａｐｓ（商標）の画像の視点変換手法には、マウスクリックおよびドラッグなどのユーザの介入が必要である。ＧｏｏｇｌｅＭａｐｓ（商標）におけるストリートビューの視点を変えるために、ユーザは、最初に、画像の視点を変える方法（例えば、建物の所望の表示視点を得るために、その建物をどの方向に回転すべきか）を知る必要がある。ユーザは、次に、その知識を用いて、画像上の建物の表示視点を手入力で変える必要がある。このため、ＧｏｏｇｌｅＭａｐｓ（商標）技術は、ビデオ映像に取り込まれた被写体の視点を変えるための方法としては、ユーザにとって実用的ではない。ＧｏｏｇｌｅＭａｐｓ（商標）手法では、ビデオ映像のユーザは、所望の視点調節の効果を得るために、ビデオ映像の各フレームに取り込まれる画像の視点を手入力で変えることになる。なぜならば、ＧｏｏｇｌｅＭａｐｓ（商標）技術は、静止画像（すなわち、ビデオ映像のフレームの同等物）のみにしか適用されず、画像の表示視点を変えるためには、ユーザの介入が必要となるからである。したがって、ＧｏｏｇｌｅＭａｐｓ（商標）技術は、ビデオ映像に取り込まれる被写体の視点を変えるために、多大な不便をユーザに与えることになる。

さらに別の解決策では、ビデオ映像に表示された被写体を検出するために、顔認識などの被写体認識技術が開発されてきた。かかる技術を用いたいくつかのアプリケーションでは、ビデオ映像に取り込まれる画像の安定化（すなわち、動揺の減少）を提供し、被写体の検出時に被写体にズームインかつ焦点を合わせることもできる。しかしながら、これらのアプリケーションは、ビデオ映像に表示された被写体の表示視点を調節しない。

したがって、上述した１つ以上の問題のために、表示されたビデオ映像の視点を変えるための改良された方法および装置の必要性がある。

実施形態は、同様の符号が同様の要素を表す以下の図面とともに、以下の記述を考慮して、より簡単に理解される。

本開示に説明される一実施形態による、ビデオ映像の視点を変えるための装置の一実施例を示すブロック図である。図１に示すビデオ映像の視点を変えるための装置を示すブロック図である。ビデオ映像の視点を変えるための方法の一実施例を示すフローチャートである。ビデオ映像の視点を変えるための方法の別の実施例を示すフローチャートである。ビデオ映像の視点を変えるための方法のさらに別の実施例を示すフローチャートである。ビデオ映像の視点を変える例示的な図である。ビデオ映像の視点を変える例示的な図である。

簡潔に言えば、ビデオ映像の視点を調節するための方法および装置では、被写体をビデオ映像に取り込む記録デバイスの向きおよび／または位置を表す受信した情報に基づいて、ビデオ映像に表示された被写体の表示視点を変化させる。ビデオ映像内の被写体の表示視点は、ビデオ映像内の基準点と相対的な被写体の向きとすることができる。例えば、被写体は、その前側がＸ、ＹまたはＺ軸に沿って４５度の角度でビデオ映像内の基準点を向くような視点で表示される場合がある。ビデオ映像内の被写体の表示視点は、ビデオ映像内の基準点と相対的な被写体の位置を含む場合がある。例えば、被写体は、ビデオ映像内の基準点に対するｘおよびｙ座標を有する位置に配置されるような視点で表示される場合がある。多くの場合、ビデオ映像内の被写体の表示視点は、基準点と相対的な向きと位置との組み合わせである。例えば、被写体は、その前側がＸ−Ｚ平面に沿い４５度で中心を向いて、ビデオ映像の中心に対する（ｘ，ｙ）位置に表示される。被写体を取り込む記録デバイスの向きおよび／または位置は、記録デバイスと被写体との間の角度および距離を含む場合がある。記録デバイスは、例えば、ビデオカメラ、カムコーダ、ウェブカム、タブレット、スマートフォン、または、取り込まれる被写体の動画像を生成できる任意の他の好適なデバイスであってもよいが、これらに限定されない。

他の利点の中でも、方法および装置は、ユーザの手動調節無しに、ビデオ映像に表示された被写体の表示視点を自動的に調節し、これにより、被写体をビデオ映像内の所望の表示視点に表示する機能を提供する。ビデオ映像に表示された被写体の現在の表示視点を決定し、被写体の表示視点調節の量を決定し、そして調節を物理的に行うことをユーザに要求する代わりに、方法および装置は、規定された被写体の所望の表示視点に従い、ビデオ映像に表示された被写体の表示視点を知的かつ自動的に調節する。これにより、方法および装置は、より少ないユーザ動作で、ビデオ映像に取り込まれる被写体の所望の表示視点を提供できる。したがって、ビデオ映像に表示された被写体を見るユーザの理解を改善する。

方法および装置は、ビデオ映像に表示された被写体の現在の表示視点を決定する場合がある。現在の表示視点は、記録デバイスの向き（例えば、三次元（３−Ｄ）空間内での、取り込まれる被写体に対して相対的な記録デバイスの配置および方向）に基づいて決定される場合がある。被写体の現在の表示視点は、ビデオ映像に表示された被写体の位置（例えば、ビデオ映像内の基準点に対する被写体のｘ，ｙ座標）であってもよい。現在の表示視点は、ビデオ映像に表示された被写体の基準点に対する向きも含む場合がある。

一実施例では、方法および装置は、被写体の現在の表示視点に基づいて、ビデオ映像内の被写体に行われる表示視点調節の量を決定し、ビデオ映像に表示された被写体の表示視点を変化させる。方法および装置は、表示視点調節の決定された量に従って、調節を行うための幾何学的な画像操作、視点変換および被写体再構成技術などの１つ以上の表示視点調節方法をさらに選択する。次に、方法および装置は、選択した表示視点調節方法を使用して、ビデオ映像に表示された被写体の表示視点を、視点調節の決定した量だけ変化させる。

別の例では、方法および装置は、行われる視点調節の少なくとも１つの特性を構成する構成情報に基づいて、表示視点調節の量を決定する。かかる特性は、ビデオ映像において表示視点を調節する場合がある被写体クラスの識別を含む場合がある。かかる特性は、ビデオ映像に表示される被写体クラスにおける所望の表示視点の仕様を含む場合がある。被写体クラスの識別は、あるタイプの被写体の一般的性質であってもよい。例えば、プレゼンターの顔、建物、患者の体の一部、または、当該技術分野において一般的に周知であるような、ビデオ映像に取り込まれる対象となる被写体に関連する任意の他の好適な識別情報である。被写体クラスの所望の視点の仕様は、ビデオ映像に表示される被写体クラスの所望の向きおよび／または位置の記述を含む場合がある。

さらに別の実施例では、方法および装置は、１つ以上の記録デバイスに取り込まれたビデオ映像に表示された顔の表示視点を変化させる。方法および装置は、当該技術分野において一般的に周知な１つ以上の顔認識方法を使用して顔を検出することによって、ビデオ映像に表示された顔の現在の表示視点を決定する場合がある。例えば、方法および装置は、ビデオ映像内のプレゼンターの自然な眺めに基づいて、ビデオ映像内の顔の表示視点を変えることができる。自然な眺めでは、プレゼンターは、一人以上の観察する人物から概して自然に見えるはずである。

さらにまた別の実施例では、装置および方法は、記録デバイスの向き情報を、記録デバイスに取り込まれたビデオ映像にメタデータとして組み込む場合もある。次に、方法および装置は、ビデオ映像をターゲットデバイスに送信してもよい。このデバイスは、送信されたビデオ映像からメタデータを抽出することによって、記録デバイスの向き情報を取得する。

他の利点の中でもさらに、方法および装置は、ビデオ映像を取り込む記録デバイスの向きおよび／または位置を調節することなく、ビデオ映像に表示された被写体についての最適な表示視点を提供する。従って、最低限のユーザ相互作用で被写体の表示視点を変換できる。この改善された技術は、特に、記録デバイスの再配置が困難なビデオアプリケーションにおいて有益となる。したがって、方法および装置は、ビデオ映像を取り込む記録デバイスが被写体の所望の表示視点を生成するように最適に位置付けられず、かつ、記録デバイスの位置を都合良く調節できない場合に、ユーザが見るビデオ映像の理解を改善する。

図１は、ビデオ映像の視点を変えるように適応した装置の実施例を示す図である。装置１００は、少し例を挙げると、ラップトップコンピュータ、デスクトップコンピュータ、メディアセンタ、携帯デバイス（例えば、携帯電話またはスマートフォン、タブレットなど）、Ｂｌｕ−ｒａｙ（登録商標）プレーヤ、ゲーム機、セットトップボックス、プリンタなどの任意の好適なデバイスであってよい。この実施例では、装置１００は、表示デバイス１１２と、システムメモリ１０６に動作可能に接続された第１のプロセッサ１０２と、フレームバッファ１０８に動作可能に接続された第２のプロセッサ１０４と、装置１００の各構造間にデータを運ぶシステムバス１２６などのデータバスまたはポイントツーポイント接続と、を備える。装置１００は、ビデオカメラ、カムコーダ、ウェブカム、デスクトップコンピュータ、ラップトップ、ウェブＴＶ、タブレット、スマートフォン、または、被写体を取り込んで被写体に対する電子動画を生成できる任意の他の好適なデバイスなどの、記録デバイス１３０を含んでもよい。これらに限定されないが、ストレージデバイスまたはコントローラなどの任意の他の好適な構造が、装置１００に含まれてもよい。

この実施例では、第１のプロセッサ１０２は、複数のコアを有するホスト中央ユニット（ＣＰＵ）であってもよいが、ＤＳＰ、ＡＰＵ、ＧＰＧＰＵもしくは任意の好適なプロセッサ、論理回路、または、グラフィックスプロセッシングユニット（ＧＰＵ）を含む任意の好適なプロセッサであってもよい。この実施例では、プロセッサ１０２は、当該技術分野において一般的に周知のようにシステムバス１０８を介して装置１００の他の構成部品と、または、任意の他の好適なプロセッサと双方向接続されている。第２のプロセッサ１０４は、ディスプレイを通じて表示デバイス１１２を駆動する別のＧＰＵであってもよい。装置１００のいくつかの他の実施例では、第１のプロセッサ（例えば、ＣＰＵまたはＧＰＵ）１０２が第２のプロセッサ１０４と一体化して汎用プロセッサを形成し得ることが理解される。さらに、システムメモリ１０６およびフレームバッファ１０８を個別のメモリデバイスとして図１に示しているが、装置１００のいくつかの他の実施例では、全てのプロセッサを収容できる統合メモリアーキテクチャが用いられてもよいことが理解される。

この実施例では、第１のプロセッサ１０２は、図示したように、視点調節発生器１２０を有する第１の論理１１４と、画像マニピュレータ１２２を有する第２の論理１１６と、被写体検出器１２４を有する第３の論理１１８と、を備えている。本明細書にて参照される論理１１４，１１６，１１８は、任意の好適な実行ソフトウェアモジュール、ハードウェア、実行ファームウェア、または、所望の機能を実行可能なこれらの任意の好適な組み合わせである。例えば、少し例を挙げると、プログラム式プロセッサ、状態機械などの個別論理が挙げられる。論理１１４，１１６，１１８は、第１のプロセッサ１０２の一部として、または、第１のプロセッサ１０２によって実行される装置１００の個別の構成部品として、第１のプロセッサ１０２に含まれてもよいことがさらに理解される。これは、例えば、装置１００にロードでき、プロセッサ１０２によって実行可能な、コンピュータ可読ストレージ媒体に保存されたソフトウェアプログラムである。いくつかの他の実施例では、論理１１４，１１６，１１８を組み合わせて、本明細書に記載されるような論理１１４，１１６，１１８の所望の機能を実行する統合論理を形成し得ることも理解される。論理１１４，１１６，１１８は、これらに限定されないが、記録デバイス１３０、システムメモリ１０６、フレームバッファ１０８および第２のプロセッサ１０４などの装置１００内の構造と通信し得る。

装置は、この実施例に示すように、記録デバイス１３０などの記録デバイスを含んでもよい。先に述べたように、記録デバイスは、被写体を取り込んで、被写体についての電子（例えば、デジタルまたはアナログ）動画を生成できる任意の好適なデバイスであってもよい。例えば、これらに限定されないが、ビデオカメラ、カムコーダ、ウェブカム、デスクトップコンピュータ、ラップトップ、ウェブＴＶ、タブレット、スマートフォン、または、任意の他の好適な記録デバイスであってもよい。他の実施例では、装置１００に含まれる記録デバイス１３０の数は変化してもよく、装置１００が任意の所望の数の記録デバイス１３０を含んでもよいことが理解される。図示するように、記録デバイス１３０は、接続１２８を介して装置１００の他の構造に動作可能に接続されている。接続１２８は、例えば、これらに限定されないが、ユニバーサル・シリアル・バス（ＵＳＢ）、アナログコネクタ（例えば、合成ビデオ、Ｓ−Ｖｉｄｅｏ、ＶＧＡ）、デジタルコネクタ（例えば、ＨＤＭＩ（登録商標）、ｍｉｎｉ−ＤＶＩ、ｍｉｃｒｏ−ＤＶＩ）などの好適な有線接続であってもよい。他の実施例では、接続１２８は、ネットワーク（例えば、衛星リンク、パーソナル・エリア・ネットワーク、ローカルエリア・ネットワーク、広域ネットワークなど）を介したネットワーク接続、または、当該技術分野において一般的に周知の任意の好適な有線もしくは無線接続であってもよい。１つの装置１００を図１に示すが、記録デバイス１３０を使用するために、複数の装置を適用してもよいことが理解される。

図２は、ビデオ映像の視点を変えるための例示的な装置１００のさらなる態様を示す図である。装置１００は、視点調節発生器１２０を有する論理１１４と、画像マニピュレータ１２２を有する論理１１６と、被写体検出器１２４を有する論理１１８と、を含む。いくつかの他の実施例では、視点調節発生器１２０、画像マニピュレータ１２２および被写体検出器１２４を組み合わせて、プロセッサ１０２で作動する統合論理を形成してもよいことが理解される。

この実施例では、記録デバイス１３０が、ビデオ映像内の被写体を取り込み、ビデオ映像を、取り込みフレーム２００を通じてフレームバッファ１０８に送信するように動作可能であることも示す。先に述べたように、記録デバイス１３０は、装置１００と一体化し、システムバス１２６などの任意の好適なシステム接続を通じて装置１００の他の構造に動作可能に接続されてもよい。記録デバイス１３０は、当該技術分野において一般的に周知のネットワーク（例えば、パーソナル・エリア・ネットワーク、ローカルエリア・ネットワーク、広域ネットワークなど）、または、任意の好適な有線もしくは無線接続を介して、装置１００に動作可能に連結された遠隔記録デバイスであってもよい。さらに図示するように、記録デバイス１３０は、この実施例では、メタデータ２０２（例えば、ビデオ映像の日付、場所および時刻などのビデオ映像に関する一般情報）を組み込むように動作する。メタデータ２０２は、記録デバイス１３０の向きおよび／または位置情報も含んでもよい。例えば、取り込まれる対象となる被写体に対する記録デバイスの極座標（ｒ，θ，φ）も含んでもよい。メタデータ２０２は、三次元空間における記録デバイス１３０の位置情報（例えば、取り込まれる対象となる被写体に対するデカルト座標（ｘ，ｙ，ｚ））も含んでもよい。この実施例では、記録デバイス１３０は、さらに、その向きおよび／または位置情報２１４を、装置１００の他の構造に通信してもよい。例えば、記録デバイス１３０の向きおよび／または位置情報２１４を、システムメモリ１０６に至るシステムバス１２６などのシステム接続を介して、視点調節発生器１２０に通信してもよい。

この実施例では、被写体検出器１２４は、記録デバイス１３０の向きおよび／または位置を表す情報２１４に基づいて、記録デバイス１３０に取り込まれたビデオ映像に表示された被写体に対する１つ以上の現在の表示視点を決定するように動作可能である。被写体検出器１２４は、システムバス１２８または当該技術分野において一般的に周知の任意の他の好適な接続を介して、フレームバッファ１０８から取り込みフレーム２００を受信する。被写体検出器１２４は、受信したフレームごとに、記録デバイス１３０の向きおよび／または位置情報２１４に基づいて、当該技術分野において一般的に周知の画像解析法を用いて、フレームに取り込まれた対象となる被写体の現在の表示視点を決定し得る。これは例えば、記録デバイスのレンズの中心などの基準点に対する被写体の位置および／または向きを取得することによって行われる。その結果、被写体検出器１２４は、フレームにおける被写体の現在の表示視点を表す情報２０４（すなわち、デカルト座標（ｘ，ｙ，ｚ）などの被写体の位置、および／または、フレームの中心などの基準点に対する三次元空間における極座標（ｒ，θ，φ）などの向き）を取得する。先に述べたように、記録デバイス１３０の向きおよび／または位置を表す情報２１４は、メタデータ２０２としてビデオ映像またはビデオストリーム（例えば、補助データチャンネルまたはフィールド）にも組み込まれてもよく、ビデオ映像を含む取り込みフレーム２００とともに、フレームバッファ１０８を通して被写体検出器１２４によって受信されてもよい。

この実施例では、被写体検出器１２４は、被写体検出器１２４の１つ以上の特性を構成する構成情報２０８も受信してもよい。例えば、構成情報２０８は、その存在および表示視点を被写体検出器１２４によって決定する必要がある被写体クラスを識別する情報を含んでもよい。被写体クラスの識別は、被写体のタイプのテキスト記述（例えば、プレゼンターの顔、患者の腕、車両のナンバープレートなど）または被写体クラスの画像（静止画またはビデオ映像）であってもよい。当業者は、当該技術分野において一般的に周知のように、被写体クラスの識別情報が、画像における被写体の存在を検出および／または決定できることを理解するであろう。また、構成情報２０８は、２つ以上の被写体についての情報を含んでもよい。

図示するように、構成情報２０８は、構成ファイル２１８に保存されてもよい。構成ファイル２０８は、ＣＰＵ１１６に動作可能に連結されたストレージデバイスに保持され、または、Ｗｉｎｄｏｗｓ（登録商標）ＲｅｇｉｓｔｒｙもしくはＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）ＯＳなどのＯＳ２１０によって構成設定およびオプションを保存するデータベースに保持された専用ログファイルであってもよい。

この実施例では、視点調節発生器１２０は、ビデオ映像に表示された被写体の決定された現在の表示視点、例えば、被写体検出器１２４によって提供される、記録デバイス１３０に取り込まれたビデオ映像のあらゆるフレームにおける被写体の位置および／または向きを表す情報２０４に基づいて、ビデオ映像に表示された被写体の表示視点を変えるように動作可能である。図示するように、視点調節発生器１２０は、被写体検出器１２４から情報２０４を受信する。この実施例では、視点調節発生器１２０は、フレームバッファ１０８からビデオ映像の取り込みフレームを受信してもよい。これは、かかるフレームの１つ以上において行われる、被写体の表示視点の調節量を決定するためである。視点調節発生器１２０は、かかる決定をするためにフレームバッファから取り込みフレームを受信する必要がない場合があり、他の実施例では、視点調節発生器１２０は、被写体検出器１２４、記録デバイス１３０、システムメモリ１０６、または、かかる情報を提供できる任意の他の好適な構造からビデオ映像の１つ以上の取り込まれたフレームに関する情報を取得する場合があることが理解される。

視点調節発生器１２０は、表示視点発生器の１つ以上の特性を構成するのに使用できる構成情報２０８を受信してもよい。構成情報２０８は、視点調節発生器１２０の構成段階の間（例えば、構築時間またはブート時間）に、または、視点調節発生器１２０のランタイムの間に受信され得ることが理解される。構成情報２０８が含み得る１つのタイプの情報は、識別される被写体クラスに対する１つ以上の所望の表示視点の仕様である。例えば、プレゼンターを取り込むビデオ映像では、構成情報２０８は、ビデオ映像内のプレゼンターの顔をビデオ映像の中心に表示し、プレゼンターの顔をビデオ映像において正面視にし、プレゼンターの目の高さをビデオ映像の中心に対してＺ軸に沿って０度のままにすることを特定してもよい。先に述べたように、構成情報２０８は、構成ファイル２１８内に保存されてもよい。

この実施例では、視点調節発生器１２０は、表示視点調節の決定された量に従い、１つ以上の表示視点調節方法を選択するように動作可能である。表示視点調節方法は、これらに限定されないが、幾何学変換（例えば、画像の上下左右への移動、回転、シフトなど）、視点変換（例えば、視点歪みを補正する操作）、転置、湾曲など、または、当該技術分野において一般的に周知のような、画像を幾何学的に操作する任意の他の好適な操作などの画像の幾何学的操作方法を含んでもよい。例えば、画像の幾何学的操作方法は、画像における被写体の表示視点を変えるように、被写体を構成する画素を、元の画像におけるそれらの（ｘ，ｙ）空間座標から新規の座標に再配置する場合がある。表示視点調節方法は、これらに限定されないが、補間、投射、反復再構成など、または、当該技術分野において一般的に公知のような、画像内の被写体の一部もしくは全体を再構成する任意の他の好適な操作などの被写体再構成方法も含む場合がある。例えば、ビデオ通信アプリケーションでは、側面からの眺めでプレゼンターを取り込み、かつ、ビデオ映像に表示する場合には、プレゼンターの前側が取り込まれた過去のフレームに基づいてプレゼンターのフォント側面を再構成する被写体再構成方法を使用することによって、プレゼンターを正面視で表示することができる。

この実施例では、構成情報２０８は、表示視点調節方法を使用するための１つ以上の優先を表すために使用されてもよい。例えば、構成情報２０８は、例えば処理能力要件に基づく、使用される被写体再構成技術の所定の順序を表してもよい。すなわち、ビデオ映像に対する決定した量の視点調節を達成するために、最初に、最もプロセッサ集約度の少ない再構成方法を使用し、次に、よりプロセッサ集約度の少ない再構成技術を使用し、その後も同様に使用されるべきである。構成情報２０８は、決定された調節の量を達成できる視点調節方法が１つ以上ある場合に、どの視点調節方法を使用するかを表してもよい。例えば、基準点に沿って被写体を回転させるために、回転動作に加えてアフィン変換を使用することができる。その場合、例えば、アフィン変換を使用してビデオ映像内の基準点に沿って被写体を回転するために、構成情報２０８は、視点調節発生器１２０を構成してもよい。前述の構成が、例示および説明の目的のみのために示され、これに限定されないことが理解される。構成情報２０８が視点調節発生器を構成する任意の好適な構成は、当業者に理解され得る。

この実施例では、表示視点は、選択された視点調節方法を使用して視点調節の決定した量２１０の調節を行うように画像マニピュレータ１２２に命令する１つ以上の制御コマンド２１６を生成するようにさらに動作可能である。制御コマンド２１６は、被写体の表示視点を変えるための、画像マニピュレータ１２２が認識する任意の好適な命令または信号であってもよい。例えば、制御コマンド２１６は、「アフィン変換を使用して、画像における基準点に沿って被写体を４５度回転させる」ことを画像マニピュレータに命令してもよい。

この実施例では、画像マニピュレータ１２２は、視点調節発生器１２０によって命令されるように、選択された視点調節方法を使用して、ビデオ映像に表示された被写体に対して行われる表示視点調節の決定された量に従い、ビデオ映像の視点を変えるように動作可能である。画像マニピュレータ１２２は、視点調節発生器１２０によって送られたかかる命令に基づいて、ビデオ映像の１つ以上のフレームの画像を操作する。画像マニピュレータ１２０は、画像のあらゆる画素を、命令に従い、画像の初めの位置から目標位置に変えてもよい。これは、例えば、フレーム内のあらゆる画素に、基準点に沿った回転動作を適用して、変換されたフレームを生成する。変換されたフレーム２１２は、ＧＰＵ１０４によるさらなる処理のために、フレームバッファ１０８に保存される。

図３は、ビデオ映像の視点を変えるための方法の一実施例を示す図である。これは、図１および図２を参照して記述される。しかしながら、任意の好適な構造を用いてもよい。動作時には、ブロック３００において、被写体検出器１２４は、記録デバイス１３０などの記録デバイスの向きおよび／または位置を表す情報に基づいて、ビデオ映像に表示された被写体に対する表示視点を決定する。ブロック３０２において、視点調節発生器１２０は、画像マニピュレータ１２２を使用して、ビデオ映像に表示された被写体の表示視点を変化させる。ブロック３００および３０２を、図４および図５でさらに説明する。

図４を参照すると、動作時には、ブロック４００において、被写体検出器１２４は、視点を変える必要のある１つ以上の被写体をビデオ映像上に取り込んだ記録デバイス（すなわち、記録デバイス１３０）の向きおよび／または位置を表す情報２１４を取得する。情報２１４は、記録デバイス１３０によって取り込まれた１つ以上の被写体に対する、三次元空間における記録デバイス１３０の向きおよび／または位置を検出する機能を有する１つ以上のセンサを備え得る記録デバイス１３０から受信されてもよい。記録デバイス１３０は、検出された情報２１４を、接続１２８などの好適な接続を介して被写体検出器１２４に通信してもよい。先に述べたように、記録デバイス１３０は、検出された情報２１４をメタデータ２０２としてビデオ映像に組み込み、ビデオ映像の他のフレームとともに、情報２１４をフレームバッファ１０８に保存してもよい。この場合、被写体検出器は、システムバス１２６などの好適な接続を介してフレームバッファ１０８から受信したフレームからメタデータ２０２を抽出することによって、情報２１４を検索してもよい。いくつかの他の実施例では、情報２１４を、記録デバイス１３０によってビデオ映像上に取り込まれた１つ以上の被写体に対する、記録デバイス１３０の向きおよび／または位置を認識する遠隔ソースから受信してもよい。このソースは、例えば、少し例を挙げると、これらに限定されないが、位置検出器、携帯電話の電波塔、遠隔コンピュータサーバ、データセンタ、制御局が挙げられる。例えば、１つ以上の位置検出器は、構成情報２０８に従い、記録デバイスと、対象となる被写体として識別される被写体との間の相対的位置を検出するように構成し得る。

先に述べたように、情報２１４は、例えば極座標（ｒ，θ，φ）を使用して、基準点に対する三次元空間における向きを表してもよい。ここで、ｒは、記録デバイス１３０と基準点との間の距離であり、θは、基準点と相対的な記録デバイスの傾斜の程度を表す極角であり、φは、記録デバイスと基準点との間の方位角である。基準点は、記録デバイス１３０に取り込まれたビデオ映像または別の被写体の中心であってもよい。いくつかの他の実施例では、基準点は、ビデオ映像内の対象となる被写体の現在の表示視点を取得するための画像解析に被写体検出器１２４が統合できる任意の点であってもよい。また、情報２１４は、例えばデカルト座標（ｘ，ｙ，ｚ）を使用して、基準点に対する三次元空間における記録デバイス１３０の位置を含むことができる。

ブロック４０２において、被写体検出器１２４は、視点を変える必要がある１つ以上のフレームを受信する。被写体検出器１２４は、フレームバッファ１０８などの好適なストレージから、または、接続１２８などの好適な接続を介して記録デバイス１３０などの記録デバイスから、ビデオ映像のフレームを直接受信してもよい。

ブロック４０４において、被写体検出器１２４は、受信したフレームに対して、フレーム内の対象となる被写体の存在を検出する。先に述べたように、被写体検出器１２４は、例えば、構成ファイル２１８に保存された構成情報２０８から、対象となる被写体の識別情報を受信してもよい。被写体の識別情報は、被写体クラスのタイプを記述する場合があり、これは例えば、プレゼンターの顔、患者の腕、車のナンバープレート、または、当該技術分野において一般的に周知の画像解析法を使用した画像内の被写体の検出を容易にできる任意の他の好適な記述である。いくつかの他の実施例では、被写体クラスの識別は、被写体検出器１２４の外部の構成情報からの入力がなくても、被写体検出器１２４内に構成された事前に定められたルールであってもよい。すなわち、被写体検出器１２４は、特定の被写体クラスの位置および／または向きを検出するように特殊化されていてもよい。

記録デバイス１３０の向きおよび／または位置についての取得した情報２１４に基づいて、被写体検出器１２４は、視点を変える必要がある受信したフレームの各々において、対象となる被写体の存在を検出するように動作可能である。被写体検出器１２４は、画像内の被写体を検出できる当該技術分野において一般的に周知の画像解析法を使用して、この動作を実行してもよい。例えば、本開示による一実施形態では、被写体検出器１２４は、ビデオ映像内のプレゼンターの位置を検出し、当該技術分野において一般的に周知の１つ以上の顔認識方法を使用して、プレゼンターの検出を行うように構成されている。この実施形態では、被写体検出器１２４は、例えば、プレゼンターが表示されているフレームの中心など、基準点に対するプレゼンターの目の高さを決定してもよい。

ブロック４０５において、被写体検出器１２４は、受信したフレームの各々において対象となる被写体が検出されたか否かを認識する。本開示による一実施形態では、被写体検出器１２４は、受信したフレームにおいて対象となる被写体が検出されたことを認識し、ブロック４０６に進む。ブロック４０６において、被写体検出器１２４は、フレームに被写体を取り込む記録デバイス１３０などの記録デバイスの向きおよび位置を表す取得した情報２１４に基づいて、フレームに表示された対象となる被写体の向きおよび／または位置を決定する。例えば、被写体検出器１２４は、フレームにおける基準点に対する（ｒ，θ，φ）の極座標を使用して、被写体の向きを決定してもよい。ここで、ｒは、フレームにおける基準点と被写体との間の距離であり、θは、基準点に対する被写体の傾斜であり、φは、被写体と基準点との間の方位角である。本開示による一実施形態では、被写体検出器１２４は、当該技術分野において一般的に周知の１つ以上の顔認識方法を使用して、ビデオ映像を取り込んだ記録デバイス１３０の向きに関する情報２１４に基づいて、フレームの中心に対するプレゼンターの目の高さを検出する。これにより、被写体検出器１２４は、フレームにおける基準点に対する被写体の向きおよび／または位置を表す情報２０４を生成する。生成した情報２０４は、受信したフレームごとに、メモリ１０６などのシステムメモリに保存されてもよい。また、情報２０４は、受信したフレームのさらなる処理のために、システムバス１２６などの好適な接続を介して、視点発生器１２０に通信されてもよい。

ブロック４０８において、被写体検出器１２４は、被写体検出器によって処理される受信したフレームがさらに残っているか否かを確認する。本開示による一実施形態では、被写体検出器１２４は、１つ以上の受信したフレームが依然として処理されていること、すなわち、それらのフレームにおける被写体の向きおよび／または位置を表す情報２０４が依然として生成されていることを認識する。この場合には、被写体検出器１２４は、ブロック４０４に進み、前述の処理を繰り返す。受信したフレームの各々におけるこの処理は、受信したフレームの各々における被写体の向きおよび／または位置に関する情報２０４が生成されるまで繰り返される。

図４に示す処理ブロックでは特定の順序が示されているが、当業者は、異なる順序でも処理を実行できることを理解するであろう。一実施例では、ブロック４００および４０２は、本質的に同時に実行できる。被写体検出器１２４は、フレームと、記録デバイスの向きおよび／または位置を表す情報２１４と、を同時に受信してもよい。情報２１４は、例えば、メタデータデータ２０２としてビデオ映像に組み込まれる。

図５を参照すると、ブロック５００において、視点調節発生器１２０は、ビデオ映像に表示された被写体の現在の表示視点を表す情報２１４を受信する。この実施例では、被写体の現在の表示視点は、被写体検出器１２４によって生成された情報２１４、すなわち、ビデオ映像の１つ以上のフレームにおける被写体の向きおよび／または位置である。先に述べたように、視点調節発生器１２０は、情報２１４が保存されるシステムメモリ１０６などのシステムストレージを介して情報２１４を受信できる。視点調節発生器１２０は、システムバス１２６などの好適な接続を介して、被写体検出器１２４から情報２１４を受信してもよい。

ブロック５０２において、視点調節発生器１２０は、ビデオ映像に表示された被写体の現在の表示視点、例えば、ビデオ映像の１つ以上のフレームにおける被写体の向きおよび／または位置を表す情報２１４を含むフレームを、フレームバッファ１０８から受信する。ブロック５０４において、受信したフレームに対して、視点調節発生器１２０は、被写体の現在の表示視点に基づいて、フレーム内の被写体に行われる表示視点調節の量を決定する。これは、例えば、フレームにおける基準点に対する被写体の向きおよび／または位置を表す情報２１４と、ビデオ映像内の被写体の所望の表示視点と、に基づいて決定する。先に述べたように、そのような所望の表示視点は、構成ファイル２１８に保存された構成情報２０８によって特定されてもよい。さらに、構成情報２０８は、ランタイムの間、すなわち、ビデオ映像が表示システムに示されているときのユーザによる入力であってもよい。所望の表示視点は、既定のルールとして視点調節発生器１２０に構成されてもよい。これにより視点調節発生器１２０は、特殊化された視点調節発生器となる。例えば、本開示による一実施形態では、視点調節発生器は、プレゼンターの自然な眺めに応じて、会議用途用のビデオ映像などのプレゼンターのビデオ映像の視点を調節するように構成されている。ビデオ映像内のプレゼンターの自然な眺めでは、プレゼンターは、まるでプレゼンターがビデオ映像の一人以上の知覚する人物を見ているように、目の高さを合わして概して自然に見える。

ビデオ映像に表示される被写体の所望の表示視点に基づいて、視点調節発生器１２０は、フレームにおける被写体の現在の表示視点に行われる表示視点調節の量を決定する。被写体検出器１２４によって生成される情報２１４によって被写体の現在の表示視点が表されるそれぞれのフレームに対して、視点調節発生器１２０は、情報２１４を読み出し、そして現在の表示視点と、被写体に対して構成された所望の表示視点とを比較することによって、調節される表示視点の量を決定する。例えば、被写体に対する所望の表示視点は、構成されるように、被写体をビデオ映像の中心に対して垂直に表示すべきと特定する場合がある。情報２１４は、フレームに表示される被写体の現在の表示視点の向きが、Ｘ−Ｙパネル上のフレームの中心に対して４５度反時計方向にあることを表し得る。このため、視点発生器１２０は、被写体を、フレームの中心の周りを４５度時計方向に回転すべきであることを決定する。情報２１４は、被写体がフレームの中心の真下５センチメートルにあることを表してもよい。視点調節発生器１２０は、被写体をフレームの中心に向かって５センチメートルだけ上方にシフトする必要があることも決定する。なお、情報２１４は、被写体の向きが、フレームの中心に対して水平に３０度の角度を有することを表すことができる。このため、視点調節発生器１２０は、その結果、被写体をＺ軸に沿って水平に−３０度だけ回転する必要があることを決定する。したがって、視点調節発生器１２０は、情報２１４および構成された所望の表示視点に基づいて、フレームに表示された被写体を、Ｘ−Ｙ平面上で中心の周りを−４５度回転し、Ｚ軸に沿って水平に−３０度回転し、そしてフレームの中心まで５センチメートルだけ上方にシフトする必要があることを決定する。

ブロック５０６において、視点発生器１２０は、被写体に行われる決定された量の表示視点調節があるか否かを認識する。本開示による一実施形態では、視点発生器１２０は、フレーム内の被写体に行われる決定された量の表示視点調節があることを認識すると、ブロック５０８に進む。ブロック５０８において、視点調節発生器１２０は、被写体に対する表示視点調節の決定した量に従い、１つ以上の表示視点調節方法を選択する。例えば、被写体をＸ−Ｙ平面上で中心の周りに−４５度回転し、フレームにおいてＺ軸に沿って水平に−３０度回転し、そして被写体をフレーム内でフレームの中心まで５センチメートルだけ上方にシフトする表示視点調節の量に従い、視点発生器１２０は、被写体をＸ−Ｙ平面上で−４５度回転し、Ｘ−Ｚ平面上で−３０度回転するアフィン変換を選択する。この場合、視点発生器１２０は、被写体をフレーム内で５センチメートル上方に動かす平行移動も選択してもよい。

ブロック５１０において、画像マニピュレータ１２２が、視点調節発生器１２０の命令に従い被写体の表示視点を変化させる。先に述べたように、視点調節発生器１２０は、フレーム内の被写体に対して決定された量の表示視点調節、すなわち、１つ以上の選択された視点調節方法を表す情報に加えて、情報２１０も画像マニピュレータ１２２に通信する。画像マニピュレータ１２２は、情報２１０に基づいて、選択された視点調節方法を使用してフレームの画像を操作する。例えば、アフィン変換を使用して中心の周りを被写体を−４５度だけ回転させるために、画像マニピュレータは、被写体を−４５度だけ回転する回転量に従い、フレームの画像内のあらゆる画素にアフィン変換を適用し、画素を初めの位置から目標位置に回転させる。次に、画像マニピュレータ１２２は、ＧＰＵによるフレームのさらなる処理のために、変換されたフレームをフレームバッファ１０８に保存する。

ブロック５１２において、視点調節発生器１２０は、その被写体の表示視点が依然として変えられている受信したフレームがあるか否かを認識する。本開示による一実施形態では、視点調節発生器１２０は、処理されるフレームが依然として残っていることを認識すると、ブロック５０４などを繰り返す。この処理は、その視点が依然として変換されている受信したフレームがなくなるまで繰り返される。

図５に示す処理ブロックは特定の順序で示されているが、当業者は、異なる順序でも処理を実行できることを理解するであろう。一実施例では、ブロック５０４〜５０８および５１０は、本質的に同時に実行できる。視点調節発生器１２０は、画像マニピュレータ１２２が現在の受信したフレームの画像を操作するときと同時に、次の受信したフレームについての視点調節の量を決定してもよい。

図６および図７は、本開示による例示的な実施形態の説明図である。図６は、ビデオ映像の視点を変える実施例を示す図である。この例では、ビデオ映像に表示された被写体を、被写体６０２の中心の周りに反時計方向にθ度回転し、ビデオ映像６００に表示された被写体６０２をビデオ映像の中心に動かす。この実施例に示すように、対象となる被写体６０２は、他の２つの被写体６０６，６０８とともにビデオ映像６００に表示される。この実施例では、構成ファイル２１４に保存された構成情報２０８は、ビデオ映像内の被写体６０２の表示視点が所望の表示視点、すなわちビデオ映像の中心に垂直に表示されている表示視点に一致するはずであることを識別する。このため、被写体検出器１２４は、被写体６０２がビデオ映像６００の１つ以上の受信したフレームに存在することを検出する。被写体検出器１２４は、さらに、ビデオ映像６００を取り込んだ記録デバイスの向きおよび位置を表す情報２１４を取得する。被写体検出器１２４は、情報２１４に基づいて、受信したフレームごとに、被写体６０２をビデオ映像６００の中心に関する（ｘ，ｙ，θ）の位置に表示することを決定する。被写体検出器１２４は、この現在の表示視点情報２０４を視点調節発生器１２０に通信する。

視点調節発生器１２０は、フレームレベルにおいて情報２０４を受信し、情報２０４によって表される被写体６０２に対する現在の表示視点を、例えば構成ファイル２０８で構成された被写体６０２に対する所望の表示視点と比較する。視点調節発生器１２０は、そのような比較によって、フレームごとに、ビデオ映像６００に表示された被写体６０２を現在の位置（ｘ，ｙ）からビデオ映像６００の中心に向けて移動し、そして被写体６０２の中心の周りに−θ度だけ回転させる必要があるかを決定する場合がある。

ビデオ映像６００に表示された被写体６０２に為される表示視点調節の決定した量に従い、視点調節発生器１２０は、被写体６０２に対する決定した量の表示視点調節を行うためのアフィン変換および平行移動をさらに選択する。視点調節発生器１２０は、構成ファイル２１４に保存された構成情報２０８に基づいて、かかる選択を行ってもよい。例えば、構成情報２０８は、視点調節発生器１２４が、任意の補間またはスケーリング操作を使用して、ビデオ映像６００内の被写体６０２に対する表示視点を調節しないように設定してもよい。したがって、視点調節発生器１２４は、被写体６０２に対して決定した量の視点調節を行うためのそれらの方法の１つ以上を選択しない。

ビデオ映像６００に表示された被写体６０２に対する表示視点調節の決定した量、および、かかる調節を行うための選択された視点調節方法に基づいて、視点調節発生器１２０は、この実施例では、それらに応じてビデオ映像６００の視点を変えるための、画像マニピュレータ１２２に命令する１つ以上の制御コマンド２１６を生成する。画像マニピュレータ１２２は、制御コマンド２１６を受信し、視点調節発生器１２０によって生成された視点調節の決定した量を表す情報２１０に従い、その視点を変える必要があるフレームごとに、ビデオ映像６００に表示された被写体６０２に対する表示視点を変化させる。この実施例では、画像マニピュレータは、各々のそのようなフレームにおける被写体６０２を構成する画素（例えば、画素６０４）を、ビデオ映像の中心の方に距離ｒだけ動かす必要があることを決定する。ここで、ｒは、平行移動を使用したｘ^２＋ｙ^２の平方根である。画像マニピュレータ１２２は、これらの画素を、アフィン変換を使用して、ビデオ映像６００内の初めの位置から目標位置に、被写体を被写体６０２の中心の周りを時計方向にθ度だけ回転するようにシフトする必要があることも決定する。画像マニピュレータ１２２は、さらに、被写体６０６，６０８を構成する画素などの、フレーム内の他の画素にもこれらの操作を実行する。これにより、ビデオ映像６００内の被写体６０２の表示視点を変えた後、ビデオ映像の視点が修正されて見える。

図７は、ビデオ映像に表示されたプレゼンターの視点を変換することによって、ビデオ映像の視点を変える一実施例を図示する。この実施例に示すように、プレゼンター７０２は、プレゼンターの目の高さ７０４がビデオ映像の中心に関するビデオ映像上の位置（ｘ，ｙ）に取り込まれるように、初めの表示視点でビデオ映像７００に表示される。さらに、初めの表示視点では、プレゼンター７０２の右側が完全に露わになるが、前側は完全に露わにならない。この実施例では、被写体検出器１２４は、ビデオ映像７００を取り込んだ記録デバイスの位置および向きに関する情報２１４を取得する。被写体検出器１２４は、当該技術分野において一般的に周知の１つ以上の顔認識方法も用いて、目の高さ７０４に加えてプレゼンター７０２の顔の存在も検出する。かかる検出において、被写体検出器１２４は、記録デバイスに関する向きおよび位置情報２１４、例えば、記録デバイスとプレゼンターとの間の相対的なデカルト位置に基づいて、ビデオ映像７００内に表示されるプレゼンターの顔の位置および向きを取得する。この実施例では、被写体検出器１２４は、情報２１４に基づいて、顔認識方法を用いて、プレゼンターの目の高さが記録デバイス１３０に取り込まれたビデオ映像の中心に関する位置（ｘ，ｙ）に位置し、プレゼンターの顔がＸ−Ｚ平面に沿ってビデオ映像の中心の周り９０度にあることを決定してもよい。被写体検出器１２４は、この情報、すなわち、ビデオ映像７００内のプレゼンター７０２の現在の表示視点を表す情報２０４を、視点調節発生器１２０に通信する。

視点調節発生器１２０は、ビデオ映像内のプレゼンター７０２の現在の表示視点に関する情報２０４を受信する。この実施例では、視点調節発生器１２０は、構成情報２０８に従い、プレゼンター７０２の自然な眺めになるようビデオ映像内のプレゼンター７０２の表示視点を調節するように構成される。すなわち、プレゼンターの顔がビデオ映像の中心に表示され、プレゼンターの目の高さがＺ軸と平行にあるように構成される。これにより、視点調節発生器１２０は、ビデオ映像７００に表示された目の高さ７０４に加えてプレゼンターの顔を、現在の位置（ｘ，ｙ）からビデオ映像７００の中心に動かし、ビデオ映像の中心の周りで−９０度だけ回転させる必要があることを決定する。視点調節発生器１２４は、例えば、プレゼンターの顔の前側が取り込まれて表示されたビデオ映像内のプレゼンター７０２の１つ以上の画像に基づいて、プレゼンター７０２の前側の一部分を再構成すべきであることも決定する。

ビデオ映像７００に表示されたプレゼンター７０２に対して行われる表示視点調節の決定された量に従い、視点調節発生器１２０は、ビデオ映像７００に表示されたプレゼンターの顔の位置を回転および移動するための回転動作およびシフト操作をさらに選択する。視点調節発生器１２０は、変換されたビデオ映像に表示されるプレゼンターの顔の前側を再構成する履歴的な再構成法も選択する。

ビデオ映像７００に表示されたプレゼンター７０２における表示視点調節の決定された量、および、かかる調節を行うための選択された視点調節方法に基づいて、視点調節発生器１２０は、この実施例において、それらに応じてビデオ映像７００の視点を変えるための、画像マニピュレータ１２２に命令する１つ以上の制御コマンド２１６を生成する。画像マニピュレータ１２２は、制御コマンド２１６を受信し、視点調節発生器１２０によって生成された視点調節の決定した量を表す情報２１０に従い、視点を変える必要があるフレームごとに、ビデオ映像７００に表示されたプレゼンター７０２の表示視点を変化させる。この実施例では、画像マニピュレータ１２２は、かかるフレームごとにプレゼンター７０２を構成する画素を、シフト操作を使用してビデオ映像の中心の方に距離ｒだけ動かす必要があることを決定する。ここで、ｒは、ｘ^２＋ｙ^２の平方根である。画像マニピュレータ１２２は、これらの画素を、回転動作を使用して、ビデオ映像７００内の初めの位置から目標位置に回転する必要があることも決定する。この回転では、プレゼンターの顔をＸ−Ｚ平面上で、ビデオ映像７００の中心の周りで９０度だけ回転する。さらに、グラフィックマニピュレータ１２２は、そのようなフレームごとのプレゼンターの顔の前側の欠けている画素の再構成もする。これにより、変換されたビデオ映像では、プレゼンターの顔の前側全体が露わにされる。

他の利点の中でも、方法および装置は、例えば、ユーザの介入がなくても、ビデオ映像に表示された１つ以上の被写体の所望の表示視点に従い、自動的にビデオ映像の視点を変える機能を提供する。ビデオ映像に表示された被写体の現在の表示視点を決定し、被写体の現在の表示視点に基づいて、ビデオ映像内の被写体に行われる表示視点調節の量を決定し、ビデオ映像内の表示視点調節を手入力で行うことをユーザに要求する代わりに、方法および装置は、ほんの少しのユーザ相互作用で規定されるような被写体に対する所望の表示視点に一致するように、被写体の表示視点を自動的に変化させる。それによって、例えば、コミュニケーション、医療診断、安全保障などの様々な目的のために、ビデオ映像を見て使用するユーザの理解を改善する。これにより、提案された技術は、見る目的に従い、対象となる１つ以上の被写体が表示されるビデオ映像の視点を所望の視点に調節するための自動的な方法を提供することによって、ビデオ映像を見るユーザの理解を改善できる。他の利点が当業者によって認識される。

前述の本発明の詳細な説明、および、これに記述した実施例は、例示および説明のみを目的として示すものであって、限定的なものではない。このため、本発明が、前述し、請求した基本原理の趣旨、範囲内に収まる任意のおよび全ての変更、変化または均等物を対象とすることが意図される。

Claims

ビデオ映像の視点を変えるための、１つ以上の装置によって行なわれる方法であって、
前記ビデオ映像に被写体を取り込んだ記録デバイスの向きおよび／または位置を表す情報に基づいて、前記ビデオ映像に表示された前記被写体の表示視点を変えることを含む、方法。
前記ビデオ映像に前記被写体を取り込んだ前記記録デバイスの向きおよび／または位置を表す情報に基づいて、前記ビデオ映像に表示された被写体に対する表示視点を決定することをさらに含む、請求項１記載の方法。
前記被写体の表示視点を変えることは、
前記ビデオ映像に表示された前記被写体に対する表示視点の調節量を決定することと、
前記被写体の表示視点の決定された調節量に従い、少なくとも１つの表示視点調節方法を選択することと、
前記選択された少なくとも１つの表示視点調節方法を使用して、前記ビデオ映像に表示された前記被写体に対する表示視点を変えることと、を含む、請求項１記載の方法。
前記被写体の表示視点の調節量を決定することは、行われる視点調節の少なくとも１つの特性を表す構成情報に基づいている、請求項３記載の方法。
行われる視点調節の少なくとも１つの特性を構成することは、
前記ビデオ映像内で表示視点が調節され得る被写体クラスを識別することと、
前記被写体クラスに対する前記表示視点を変えることと、のうち少なくとも１つを含む、請求項４記載の方法。
前記少なくとも１つの表示視点調節方法を選択することは、
少なくとも１つの画像の幾何学的操作方法と、
少なくとも１つの被写体再構成方法と、のうち少なくとも１つを選択することを含む、請求項３記載の方法。
前記記録デバイスの前記向きおよび／または位置を表す情報に基づいて、前記ビデオ映像に表示された前記被写体の表示視点を決定することは、
前記記録デバイスの前記向きおよび／または位置を表す情報を取得することと、
取得した前記記録デバイスの前記向きおよび／または位置を表す情報に基づいて、前記記録デバイスによって取り込まれた前記ビデオ映像に表示された前記被写体の位置および／または向きを決定することと、を含む、請求項２記載の方法。
前記被写体は前記ビデオ映像内の顔であり、前記ビデオ映像における前記顔の位置を取得することは、少なくとも１つの顔認識方法を使用して前記顔を検出することを含む、請求項７記載の方法。
前記ビデオ映像内の前記記録デバイスの向きおよび／または位置を表す前記情報を、メタデータとして組み込むことをさらに含む、請求項７記載の方法。
前記記録デバイスの前記向きおよび／または前記位置を表す前記情報は、前記ビデオ映像からメタデータを抽出することによって取得される、請求項７記載の方法。
ビデオ映像の視点を変えるための装置であって、
前記ビデオ映像に被写体を取り込んだ記録デバイスの向きおよび／または位置を表す情報に基づいて、前記ビデオ映像に表示された前記被写体の表示視点を変えるように構成されたビデオ映像視点調節論理を備える、装置。
前記ビデオ映像に前記被写体を取り込んだ前記記録デバイスの向きおよび／または位置を表す情報に基づいて、前記ビデオ映像に表示された前記被写体に対する表示視点を決定するように構成された被写体検出論理をさらに備える、請求項１１記載の装置。
前記被写体の表示視点を変えることは、
前記ビデオ映像に表示された前記被写体に対する表示視点の調節量を決定することと、
前記被写体の表示視点の決定された調節量に従い、少なくとも１つの表示視点調節方法を選択することと、
前記選択された少なくとも１つの表示視点調節方法を使用して、前記ビデオ映像に表示された前記被写体に対する表示視点を変えることと、を含む、請求項１１記載の装置。
前記被写体の表示視点の調節量を決定することは、行われる視点調節の少なくとも１つの特性を表す構成情報に基づいている、請求項１３記載の装置。
行われる視点調節の少なくとも１つの特性を構成することは、
前記ビデオ映像内で表示視点が調節され得る被写体クラスを識別することと、
前記被写体クラスの前記表示視点を変えることと、のうち少なくとも１つを含む、請求項１４記載の装置。
前記少なくとも１つの表示視点調節方法を選択することは、
少なくとも１つの画像の幾何学的操作方法と、
少なくとも１つの被写体再構成方法と、のうち少なくとも１つを選択することを含む、請求項１３記載の装置。
前記記録デバイスの前記向きおよび／または位置を表す情報に基づいて、前記ビデオ映像に表示された前記被写体の表示視点を決定することは、
前記記録デバイスの前記向きおよび／または位置を表す情報を取得することと、
取得した前記記録デバイスの前記向きおよび／または位置を表す情報に基づいて、前記記録デバイスによって取り込まれた前記ビデオ映像に表示された前記被写体の位置および／または向きを決定することと、を含む、請求項１２記載の装置。
前記被写体は前記ビデオ映像内の顔であり、前記ビデオ映像における前記顔の位置を取得することは、少なくとも１つの顔認識方法を使用してプレゼンターの前記顔を検出することを含む、請求項１７記載の装置。
前記被写体検出論理および前記視点調節論理に動作可能に連結されており、前記ビデオ映像に前記被写体を取り込むように動作可能である少なくとも１つの記録デバイスと、
前記ビデオ映像を表示するように動作する少なくとも１つの表示デバイスと、をさらに備える、請求項１２記載の装置。
前記記録デバイスは、前記ビデオ映像内の前記記録デバイスの向き情報をメタデータとして組み込むようにさらに動作可能である、請求項１７記載の装置。
前記記録デバイスの前記向きおよび／または位置を表す前記情報は、前記ビデオ映像からメタデータを抽出することによって取得される、請求項１７記載の装置。
１つ以上のプロセッサによって実行される場合に、前記プロセッサに、
ビデオ映像に被写体を取り込む記録デバイスの向きおよび／または位置を表す情報に基づいて、前記ビデオ映像に表示された前記被写体の表示視点を変えさせる実行可能命令を含む、コンピュータ可読記憶媒体。
１つ以上のプロセッサによって実行される場合に、前記プロセッサに、
前記ビデオ映像に前記被写体を取り込む前記記録デバイスの向きおよび／または位置を表す情報に基づいて、前記ビデオ映像に表示された被写体に対する表示視点を決定させる実行可能命令をさらに含む、請求項２２記載のコンピュータ可読記憶媒体。
前記被写体の前記表示視点を変えさせることは、
前記ビデオ映像に表示された前記被写体の表示視点の調節量を決定することと、
前記被写体の表示視点の決定した調節量に従い、少なくとも１つの表示視点調節方法を選択することと、
前記選択された少なくとも１つの表示視点調節方法を使用して、前記ビデオ映像に表示された前記被写体の前記表示視点を変えさせることと、を含む、請求項２３記載のコンピュータ可読記憶媒体。
前記被写体に対する表示視点の調節量を決定することは、行われる視点調節の少なくとも１つの特性を表す構成情報に基づいている、請求項２４記載のコンピュータ可読記憶媒体。
行われる視点調節の少なくとも１つの特性を構成することは、
前記ビデオ映像内で表示視点が調節され得る被写体クラスを識別することと、
前記被写体クラスに対する所望の表示視点を変えることと、のうち少なくとも１つを含む、請求項２５記載のコンピュータ可読記憶媒体。
前記少なくとも１つの表示視点調節方法を選択することは、
少なくとも１つの画像の幾何学的操作方法と、
少なくとも１つの被写体再構成方法と、のうち少なくとも１つを選択することを含む、請求項２４記載のコンピュータ可読記憶媒体。
前記記録デバイスの前記向きおよび／または位置を表す情報に基づいて、前記ビデオ映像に表示された前記被写体の現在の視点を決定することは、
前記記録デバイスの前記向きおよび／または位置を表す情報を取得することと、
取得した前記記録デバイスの前記向きおよび／または位置を表す情報に基づいて、前記記録デバイスによって取り込まれた前記ビデオ映像に表示された前記被写体の位置および／または向きを決定することと、を含む、請求項２４記載のコンピュータ可読記憶媒体。
前記被写体は前記ビデオ映像内のプレゼンターの顔であり、前記ビデオ映像内の前記プレゼンターの顔の位置を取得することは、少なくとも１つの顔認識方法を使用して前記プレゼンターの顔を検出することを含む、請求項２８記載のコンピュータ可読記憶媒体。
前記実行可能命令は、１つ以上のプロセッサによって実行されるときに、前記プロセッサに、前記ビデオ映像内の前記記録デバイスの前記向き情報をメタデータとして組み込ませることをさらに含む、請求項２４記載のコンピュータ可読記憶媒体。
１つ以上のビデオストリームを規定するデータと、実行可能な命令と、を含むコンピュータ可読記憶媒体であって、前記命令が１つ以上のプロセッサによって実行されると、前記プロセッサに、
前記ビデオストリームを規定する前記データに基づいて、表示するための１つ以上のビデオ映像を生成させ、
前記ビデオ映像は、前記ビデオストリームに取り込まれた１つ以上の被写体の少なくとも１つの調節された表示視点を含む、コンピュータ可読記憶媒体。
前記ビデオストリームに取り込まれた前記１つ以上の被写体の前記視点を調節することは、
前記ビデオストリームに前記被写体を取り込んだ記録デバイスの向きおよび／または位置を表す情報に基づいて、前記ビデオストリームにおける前記被写体に対する表示視点を決定することを含む、請求項３１記載のコンピュータ可読記憶媒体。
前記ビデオストリームに取り込まれた前記１つ以上の被写体の前記視点を調節することは、
前記ビデオストリームに取り込まれた前記被写体に対する表示視点の調節量を決定することと、
前記被写体に対する表示視点の決定された調節量に従い、少なくとも１つの表示視点調節方法を選択することと、
前記選択された少なくとも１つの表示視点調節方法を使用して、前記被写体の前記表示視点を変えることと、をさらに含む、請求項３１記載のコンピュータ可読記憶媒体。
１つ以上のプロセッサによって実行される場合に、前記プロセッサに、
被写体を有する１つ以上のビデオ映像に組み込まれたメタデータに基づいて、表示するための前記被写体に対する調節された視点を生成させる実行可能命令を含む、コンピュータ可読記憶媒体。
前記メタデータは、前記ビデオ映像に前記被写体を取り込んだ記録デバイスの向きおよび／または位置を表す情報を含む、請求項３４記載のコンピュータ可読記憶媒体。