JP2013524357A

JP2013524357A - ビデオ・シーケンスに記録された現実エンティティのリアルタイムのクロッピングの方法

Info

Publication number: JP2013524357A
Application number: JP2013503153A
Authority: JP
Inventors: ルクレール，ブライス; マルセ，オリビア; ルプロヴォスト，ヤン
Original assignee: アルカテル−ルーセント
Priority date: 2010-04-06
Filing date: 2011-04-01
Publication date: 2013-06-17
Also published as: EP2556660A1; CN102859991A; KR20130016318A; FR2958487A1; WO2011124830A1; US20130101164A1

Abstract

現実環境で運動状態にあり、ビデオ・シーケンスに記録された現実エンティティのリアルタイムのクロッピングの方法であって、現実エンティティが仮想エンティティに関連し、その方法が、以下のステップ、すなわち、ビデオ・シーケンスからの、記録された現実エンティティを含む画像の抽出（Ｓ１、Ｓ１Ａ）、記録された現実エンティティを含む画像を基にした、現実エンティティの尺度および／または向きの決定（Ｓ２、Ｓ２Ａ）、仮想エンティティおよび記録された現実エンティティを、実質的に同一であるように、スケーリング、配向、かつ位置決めするのに適した変換（Ｓ３、Ｓ４、Ｓ３Ａ、Ｓ４Ａ）、ならびに、仮想エンティティの、現実エンティティのクロッピングされた画像での置換（Ｓ５、Ｓ６、Ｓ５Ａ、Ｓ６Ａ）であり、現実エンティティのクロッピングされた画像が、仮想エンティティの輪郭により境界が定められる記録された現実エンティティを含む画像の区域である置換を含む方法。

Description

本発明の１つの態様は、ビデオ・シーケンスに記録された現実エンティティをリアルタイムでクロッピングするための方法に関し、より詳細には、アバターの対応する身体部を使用する、ビデオ・シーケンスでのユーザの身体の一部のリアルタイムのクロッピングに関する。そのような方法は、特に、いわゆる仮想環境または複合現実環境でアバターをアニメーション化する仮想現実の分野で、特に、ただし排他的ではなく適用され得る。

図１は、マルチメディア・システム、例えばテレビ会議またはオンライン・ゲーミング・システムの状況での一例の仮想現実の用途を表す。マルチメディア・システム１は、データを伝送することを可能にする電気通信ネットワーク９に接続される複数のマルチメディア・デバイス３、１２、１４、１６、およびリモート・アプリケーション・サーバ１０を備える。そのようなマルチメディア・システム１では、それぞれのマルチメディア・デバイス３、１２、１４、１６のユーザ２、１１、１３、１５は、（図２に図示する）仮想環境で、または複合現実環境２０で対話することができる。リモート・アプリケーション・サーバ１０は、仮想または複合現実環境２０を管理することができる。典型的には、マルチメディア・デバイス３は、プロセッサ４、メモリ５、電気通信ネットワーク９に対する接続モジュール６、表示および対話の手段７、ならびにカメラ８、例えばウェブカメラを備える。他のマルチメディア・デバイス１２、１４、１６は、マルチメディア・デバイス３と同等であるので、より詳細には説明されない。

図２は、アバター２１が進化する仮想または複合現実環境２０を図示する。仮想または複合現実環境２０は、ユーザ２、１１、１３、１５が、進化、対話、および／または作業等を行うことができる世界を模倣するグラフィカル表現である。仮想または複合現実環境２０では、各個のユーザ２、１１、１３、１５は、人間の仮想グラフィカル表現を意味する、自分のアバター２１により表される。上述の用途では、アバターの頭部２２を、リアルタイムで、カメラ８により撮影されるユーザ２、１１、１３もしくは１５の頭部のビデオと混合することが、または、換言すれば、ユーザ２、１１、１３もしくは１５の頭部で、対応するアバター２１の頭部２２を、動的に、もしくはリアルタイムで置換することが有益である。ここでは、動的な、またはリアルタイムでとは、アバター２１の頭部２２上で、自分のマルチメディア・デバイス３、１２、１４、１６の前にいるユーザ２、１１、１３または１５の頭部の、動き、姿勢、および実際の外見を、同期的または準同期的に再現することを意味する。ここでは、ビデオは、画像のシーケンスを含む視覚または視聴覚のシーケンスを指す。

米国特許出願公開第２００９１２０２１１４号の文献では、第１のコンピューティング・デバイス上のリアルタイムでの複数のビデオフレーム内の顔面の特定および追跡、特定かつ追跡される顔面を表すデータの生成、ならびに、第２のコンピューティング・デバイスがアバターの身体上に顔面を表示するための、ネットワークによる第２のコンピューティング・デバイスへの顔面のデータの伝送を含む、コンピュータにより実装されるビデオキャプチャ方法を説明している。

ＳＯＮＯＵＬＥＥらによる文献、「ＣＦＢＯＸＴＭ：ｓｕｐｅｒｉｍｐｏｓｉｎｇ３Ｄｈｕｍａｎｆａｃｅｏｎｍｏｔｉｏｎｐｉｃｔｕｒｅ」、ＰＲＯＣＥＥＤＩＮＧＳＯＦＴＨＥＳＥＶＥＮＴＨＩＮＴＥＲＮＡＴＩＯＮＡＬＣＯＮＦＥＲＥＮＣＥＯＮＶＩＲＴＵＡＬＳＹＳＴＥＭＳＡＮＤＭＵＬＴＩＭＥＤＩＡＢＥＲＫＥＬＥＹ、ＣＡ、ＵＳＡ２００１年１０月２５〜２７日、ＬＯＳＡＬＡＭＩＴＯＳ、ＣＡ、ＵＳＡ、ＩＥＥＥＣＯＭＰＵＴ．ＳＯＣ、ＵＳＬＮＫＤＤ０１：１０．１１０９ＮＳＭＭ．２００１．９６９７２３、２００１年１０月２５日（２００１−１０−２５）、６４４〜６５１頁、ＸＰ０１５６７１３１ＩＳＢＮ：９７８−０−７６９５−１４０２−４では、個人用のコマーシャル・フィルム・スタジオの一種を構成するＣＦＢＯＸという製品を説明している。それは、人の顔面を、リアルタイムで、３次元の顔面形成技術を使用して、ユーザのモデル化された顔面のもので置き換える。それは、モデル化された顔面のテクスチャを人の好みに合うように変化させるための操作の特徴をさらに提案する。したがって、それによって、特注のデジタルビデオの創作が可能になる。

しかしながら、所与の時点でカメラにより取り込まれるユーザのビデオから頭部をクロッピングし、それを抽出し、次いで、アバターの頭部上に貼り付け、後の時点でそのシーケンスを繰り返すことは、困難かつ費用のかかる作業である、というのは、現実のレンダリングが求められるからである。第１に、輪郭認識アルゴリズムは、高コントラストのビデオ画像を必要とする。これは、スタジオでその場限りの照明を用いて取得され得る。他方で、これは、自宅またはオフィスビルにおいて、ウェブカメラを用いて、および／または、部屋の照明環境で、常に可能であるとは限らない。加えて、輪郭認識アルゴリズムは、プロセッサからの大きな計算能力を必要とする。一般的に言えば、この大量の計算能力は、パーソナル・コンピュータ、ラップトップ・コンピュータ、携帯情報端末（ＰＤＡ）、またはスマートフォンなどの標準的なマルチメディア・デバイスに関して、現在は利用可能でない。

米国特許出願公開第２００９１２０２１１４号

ＳＯＮＯＵＬＥＥら、「ＣＦＢＯＸＴＭ：ｓｕｐｅｒｉｍｐｏｓｉｎｇ３Ｄｈｕｍａｎｆａｃｅｏｎｍｏｔｉｏｎｐｉｃｔｕｒｅ」、ＰＲＯＣＥＥＤＩＮＧＳＯＦＴＨＥＳＥＶＥＮＴＨＩＮＴＥＲＮＡＴＩＯＮＡＬＣＯＮＦＥＲＥＮＣＥＯＮＶＩＲＴＵＡＬＳＹＳＴＥＭＳＡＮＤＭＵＬＴＩＭＥＤＩＡＢＥＲＫＥＬＥＹ、ＣＡ、ＵＳＡ２００１年１０月２５〜２７日、ＬＯＳＡＬＡＭＩＴＯＳ、ＣＡ、ＵＳＡ、ＩＥＥＥＣＯＭＰＵＴ．ＳＯＣ、ＵＳＬＮＫＤＤ０１：１０．１１０９ＮＳＭＭ．２００１．９６９７２３、２００１年１０月２５日（２００１−１０−２５）、６４４〜６５１頁、ＸＰ０１５６７１３１ＩＳＢＮ：９７８−０−７６９５−１４０２−４

したがって、仮想環境で没頭の感覚をもたらすための十分に高い品質によるものであり、上述の標準的なマルチメディア・デバイスを用いて実装され得る、アバターの身体の対応する一部を使用して、リアルタイムで、ビデオでのユーザの身体の一部をクロッピングするための方法が求められている。

本発明の１つの目的は、ビデオの領域をリアルタイムでクロッピングする、より詳細には、ユーザの身体部の外見を再現することが意図される、アバターの身体の対応する一部を使用することにより、リアルタイムで、ビデオでのユーザの身体の一部をクロッピングするための方法を提案することであり、方法は、
− ビデオ・シーケンスから、ユーザの記録された身体部を含む画像を抽出するステップ、
− ユーザの記録された身体部を含む画像内での、ユーザの身体部の向きおよび尺度を決定するステップ、
− アバターの身体部を、ユーザの身体部のものと大まかに同一であるように、配向かつスケーリングするステップ、ならびに、
− ユーザの記録された身体部を含む画像のクロッピングされた画像を形成するために、アバターの身体部の輪郭を使用するステップであり、クロッピングされた画像が、輪郭内に包含される、ユーザの記録された身体部を含む画像の領域に制限されるステップ
を含む。

本発明の別の実施形態によれば、現実エンティティは、ユーザの身体部であり得るものであり、仮想エンティティは、ユーザの身体部の外見を再現することが意図される、アバターの身体の対応する一部であり得るものであり、方法は、
− ビデオ・シーケンスから、ユーザの記録された身体部を含む画像を抽出するステップ、
− ユーザの身体部を含む画像から、ユーザの身体部の向きを決定するステップ、
− アバターの身体部を、ユーザの記録された身体部を含む画像のものと大まかに同一であるように、配向するステップ、
− ユーザの記録された身体部を含む画像を、それをアバターの対応する配向された身体部と位置合わせするために、並進させ、かつスケーリングするステップ、
− アバターの配向された身体部の輪郭が境界となるクロッピングされる領域が、画素の非存在または透明画素により符号化される仮想環境の画像を描画するステップ、および、
− 仮想環境の画像を、ユーザの並進かつスケーリングされた身体部を含む画像に重畳するステップ
を含む。

ユーザの記録された身体部を含む画像の向きおよび／または尺度を決定するステップは、前記画像に適用される頭部追跡機能により実行され得る。

配向かつスケーリングするステップ、輪郭を抽出するステップ、および統合するステップは、アバターの、またはユーザの身体部の、注目すべき点または領域を考慮する場合がある。

アバターの身体部は、前記アバター身体部の３次元表現であり得る。

クロッピング方法は、外見が再現されなければならないユーザの身体部によって、アバターの身体部の３次元表現をモデル化するステップからなる初期化ステップをさらに含み得る。

身体部は、ユーザの、またはアバターの頭部であり得る。

別の態様によれば、本発明は、本発明のクロッピング方法を実装するプロセッサを備えるマルチメディア・システムに関する。

さらに別の態様によれば、本発明は、マルチメディア・システムのメモリ内にロードされることが意図されるコンピュータ・プログラム製品であって、プログラムがマルチメディア・システムのプロセッサにより実行される場合は常に、本発明のクロッピング方法を実装するソフトウェア・コードの部分を含むコンピュータ・プログラム製品に関する。

本発明により、ビデオ・シーケンス内のエンティティを表す領域を効果的にクロッピングすることが可能になる。本発明により、アバターおよびビデオ・シーケンスを、リアルタイムで、仮想環境で没頭の感覚をもたらすための充分な品質によって統合することもまた可能になる。本発明の方法は、プロセッサのリソースをほとんど消費せず、グラフィック・カードに一般的に符号化される機能を使用する。したがって、それは、パーソナル・コンピュータ、ラップトップ・コンピュータ、携帯情報端末、またはスマートフォンなどの標準的なマルチメディア・デバイスを用いて実装され得る。それは、低コントラストの画像、またはウェブカメラから生じる欠陥を伴う画像を使用することができる。

他の利点が、以下の本発明の詳細な説明から明らかとなろう。

本発明は、同一の参照番号が同様の要素を指し示す添付の図での非限定的な例により図示される。

マルチメディア・システム、例えばテレビ会議またはオンライン・ゲーミング・システムの状況での一例の仮想現実の用途を表す図である。アバターが進化する仮想または複合現実環境を図示する。ビデオ・シーケンスに記録されたユーザの頭部のリアルタイムのクロッピングのための本発明の方法の１つの実施形態を例示する機能図である。ビデオ・シーケンスに記録されたユーザの頭部のリアルタイムのクロッピングのための本発明の方法の１つの実施形態を例示する機能図である。ビデオ・シーケンスに記録されたユーザの頭部のリアルタイムのクロッピングのための本発明の方法の別の実施形態を例示する機能図である。ビデオ・シーケンスに記録されたユーザの頭部のリアルタイムのクロッピングのための本発明の方法の別の実施形態を例示する機能図である。

図３Ａおよび３Ｂは、ビデオ・シーケンスに記録されたユーザの頭部のリアルタイムのクロッピングのための本発明の方法の１つの実施形態を例示する機能図である。

第１のステップＳ１の際には、所与の時点で、画像３１が、ユーザのビデオ・シーケンス３０から抽出される（ＥＸＴＲ）。ビデオ・シーケンスは、例えば、カメラ（図１を参照）により記録された画像の連続体を指す。

第２のステップＳ２の際には、頭部追跡機能ＨＴＦｕｎｃが、抽出された画像３１に適用される。頭部追跡機能により、ユーザの頭部の尺度Ｅおよび向きＯを決定することが可能になる。それは、顔面３２のある決まった点または領域、例えば目、眉、鼻、頬、および顎の注目すべき位置を使用する。そのような頭部追跡機能は、ＳｅｅｉｎｇＭａｃｈｉｎｅｓという会社により販売されるソフトウェア・アプリケーション「ｆａｃｅＡＰＩ」により実装され得る。

第３のステップＳ３の際には、３次元のアバター頭部３３が、決定された向きＯおよび尺度Ｅに基づいて、抽出された画像の頭部のものと大まかに同一であるように、配向（ＯＲＩ）かつスケーリング（ＥＣＨ）される。その結果は、サイズおよび向きが、抽出された頭部の画像３１にしたがう３次元のアバター頭部３４である。このステップは、標準的な回転およびスケーリングのアルゴリズムを使用する。

第４のステップＳ４の際には、サイズおよび向きが、抽出された頭部の画像にしたがう３次元のアバター頭部３４が、抽出された画像３１内の頭部のように位置決めされる（ＰＯＳＩ）。その結果は、２つの頭部が、画像と比較されて、同一に位置決めされるということである。このステップは、標準的な並進機能を使用し、並進は、目、眉、鼻、頬、および／または顎などの、顔面の注目すべき点または領域、ならびに、アバターの頭部に対して符号化される注目すべき点を考慮する。

第５のステップＳ５の際には、位置決めされた３次元のアバター頭部３５が、平面上に投影される（ＰＲＯＪ）。標準設計上の投影機能、例えば変換行列が使用され得る。次に、投影された３次元のアバター頭部の輪郭３６内に位置する、抽出された画像３１からの画素のみが、選択（ＰＩＸＳＥＬ）かつ保存される。標準的な機能ＥＴが使用され得る。クロッピングされた頭部画像３７を形成する画素のこの選択；アバターの投影された頭部および所与の時点でのビデオ・シーケンスに起因する画像の関数。

第６のステップＳ６の際には、クロッピングされた頭部画像３７が、仮想または複合現実環境２０内で進化するアバター２１の頭部２２に対して、位置決め、適用、かつ置換（ＳＵＢ）され得る。このようにして、アバターは、仮想環境または複合現実環境内で、大まかに同じ所与の時点で、自分のマルチメディア・デバイスの前にいるユーザの実際の頭部を特徴として持つ。この実施形態によれば、クロッピングされた頭部画像がアバターの頭部上に貼り付けられるので、アバターの要素、例えばその髪は、クロッピングされた頭部画像３７により覆われる。

代替方法として、クロッピング方法が、ビデオ・シーケンスをフィルタリングするために使用され、それからユーザの顔面のみを抽出する場合、ステップＳ６は随意であるとみなされ得る。この場合、仮想環境または複合現実環境の画像は表示されない。

図４Ａおよび４Ｂは、ビデオ・シーケンスに記録されたユーザの頭部のリアルタイムのクロッピングのための本発明の方法の１つの実施形態を例示する機能図である。この実施形態では、顔面に対応するアバターの頭部２２の領域は、３次元のアバター頭部モデルでの特殊な形で符号化される。それは、例えば、対応する画素の非存在または透明画素であり得る。

第１のステップＳ１Ａの際には、所与の時点で、画像３１が、ユーザのビデオ・シーケンス３０から抽出される（ＥＸＴＲ）。

第２のステップＳ２Ａの際には、頭部追跡機能ＨＴＦｕｎｃが、抽出された画像３１に適用される。頭部追跡機能により、ユーザの頭部の向きＯを決定することが可能になる。それは、顔面３２のある決まった点または領域、例えば目、眉、鼻、頬、および顎の注目すべき位置を使用する。そのような頭部追跡機能は、ＳｅｅｉｎｇＭａｃｈｉｎｅｓという会社により販売されるソフトウェア・アプリケーション「ｆａｃｅＡＰＩ」により実装され得る。

第３のステップＳ３Ａの際には、アバター２１が進化する仮想または複合現実環境２０が計算され、３次元のアバター頭部３３が、決定された向きＯに基づいて、抽出された画像の頭部のものと大まかに同一であるように、配向される（ＯＲＩ）。その結果は、向きが、抽出された頭部の画像３１にしたがう３次元のアバター頭部３４Ａである。このステップは、標準的な回転アルゴリズムを使用する。

第４のステップＳ４Ａの際には、ビデオ・シーケンスから抽出された画像３１が、仮想または複合現実環境２０での３次元のアバター頭部３４Ａのように、位置決め（ＰＯＳＩ）かつスケーリング（ＥＣＨ）される。その結果は、ビデオ・シーケンスから抽出された画像３８、および、仮想または複合現実環境２０でのアバターの頭部の位置合わせである。このステップは、標準的な並進機能を使用し、並進は、目、眉、鼻、頬、および／または顎などの、顔面の注目すべき点または領域、ならびに、アバターの頭部に対して符号化される注目すべき点を考慮する。

第５のステップＳ５Ａの際には、アバター２１が進化する仮想または複合現実環境２０の画像が描画されるが、配向された顔面に対応するアバターの頭部２２の領域の外側に位置する画素については、これらの画素が、顔面に対応するアバターの頭部２２の領域の特殊な符号化のおかげで、および単純な投影により、容易に特定可能であるので、描画しないように配慮する。

第６のステップＳ６Ａの際には、仮想または複合現実環境２０の画像、および、ユーザの並進かつスケーリングされた頭部を含むビデオ・シーケンスから抽出された画像３８が重畳される（ＳＵＰ）。あるいは、配向された顔面に対応するアバターの頭部２２の領域の背後にある、ユーザの並進かつスケーリングされた頭部を含むビデオ・シーケンスから抽出された画像３８の画素が、アバターの配向された顔面において、最深の画素の深度で、仮想画像と一体化される。

このようにして、アバターは、仮想環境または複合現実環境内で、大まかに同じ所与の時点で、自分のマルチメディア・デバイスの前にいるユーザの実際の顔面を特徴として持つ。この実施形態によれば、アバターのクロッピングされた顔面を含む、仮想または複合現実環境２０の画像が、ユーザの並進かつスケーリングされた頭部の画像３８上に重畳されるようにして、アバターの要素、例えばその髪は、視認可能であり、ユーザの画像を覆う。

３次元のアバター頭部３３は、３次元のデジタル・モデルから得られる。標準的なマルチメディア・デバイスに対しては、３次元のアバター頭部の向きに関係なく計算することが、高速かつ簡単である。同じことが、それを平面上に投影することに対して当てはまる。したがって、シーケンスは全体として、標準的なプロセッサを用いても、良質の結果を与える。

その後、ステップＳ１からＳ６まで、またはＳ１ＡからＳ６Ａまでのシーケンスは、後の時点で反復され得る。

随意には、初期化ステップ（図示せず）が、シーケンスＳ１からＳ６まで、またはＳ１ＡからＳ６Ａまでの実装の前の単一の時間に遂行され得る。初期化ステップの際には、３次元のアバター頭部が、ユーザの頭部にしたがってモデル化される。このステップは、異なる角度から撮影されたユーザの頭部の画像から、または複数の画像から、手動または自動で遂行され得る。このステップにより、本発明のリアルタイムのクロッピング方法に最もよく合うことになる３次元のアバター頭部のシルエットを精度高く識別することが可能になる。写真に基づくユーザの頭部へのアバターの適合は、例えば、Ａｂａｌｏｎｅという会社により販売される「ＦａｃｅＳｈｏｐ」などのソフトウェア・アプリケーションによって実行され得る。

図およびそれらの上記の説明は、本発明を例示するものであり、それを限定するものではない。特に、本発明は、テレビ会議またはオンライン・ゲーミングに適用される特定例に関して説明されたにすぎない。それでも、本発明が、他のオンライン用途に、および一般的に言えば、ユーザの頭部をリアルタイムで再現するアバターを必要とするすべての用途、例えば、ゲーム、ディスカッション・フォーラム、ユーザ間の遠隔協調作業、手話を介して情報交換するユーザ間の対話等に拡張され得ることは、当業者には明らかである。それは、ユーザの切り離された顔面または頭部のリアルタイムの表示を必要とするすべての用途にもまた拡張され得る。

本発明は、アバター頭部およびユーザ頭部を混合する特定例を用いて説明されたにすぎない。それでも、本発明が、他の身体部、例えば任意の手足、または、口などの顔面のより特殊な一部等に拡張され得ることは、当業者には明らかである。それは、動物の身体部、または物体、または風景要素等にもまた適用される。

一部の図は、異なる機能エンティティを別個のブロックとして示すが、これは、単一のエンティティが複数の機能を遂行する、または、複数のエンティティが単一の機能を遂行する、本発明の実施形態を決して排除しない。したがって、図は、本発明の高度に概略的な例示とみなされなければならない。

特許請求の範囲での参照の記号は、決して限定的なものではない。動詞「備える・含む」は、特許請求の範囲で列挙されるもの以外の他の要素の存在を排除しない。要素の前にある単語「ａ」または「ａｎ」は、複数のそのような要素の存在を排除しない。

Claims

ビデオ・シーケンスに記録された現実環境内で動く現実エンティティのリアルタイムのクロッピングのための方法であって、前記現実エンティティが仮想エンティティに関連し、前記方法が、
前記ビデオ・シーケンスから、前記記録された現実エンティティを含む画像を抽出するステップ（Ｓ１、Ｓ１Ａ）、
前記記録された現実エンティティを含む前記画像から、前記現実エンティティの尺度および／または向きを決定するステップ（Ｓ２、Ｓ２Ａ）、
前記仮想エンティティおよび前記記録された現実エンティティを、大まかに同一であるように、スケーリング、配向、かつ位置決めすることにより変換するステップ（Ｓ３、Ｓ４、Ｓ３Ａ、Ｓ４Ａ）、ならびに、
前記仮想エンティティを、前記現実エンティティのクロッピングされた画像で置換するステップ（Ｓ５、Ｓ６、Ｓ５Ａ、Ｓ６Ａ）であり、前記現実エンティティの前記クロッピングされた画像が、前記仮想エンティティの輪郭が境界となる前記記録された現実エンティティを含む前記画像の領域である、置換するステップ
を含む方法。
前記現実エンティティが、ユーザ（２）の身体部であり、仮想エンティティが、前記ユーザ（２）の身体部の外見を再現することが意図される、アバター（２１）の対応する身体部（２２）であり、前記方法が、
前記ビデオ・シーケンス（３０）から、前記ユーザの記録された身体部を含む画像（３１）を抽出するステップ（Ｓ１）、
前記ユーザの記録された身体部を含む前記画像（３１）での、前記ユーザの身体部の向き（３２）および尺度を決定するステップ（Ｓ２）、
前記アバターの身体部（３３、３４）を、前記ユーザの身体部のものと大まかに同一であるように、配向かつスケーリングするステップ（Ｓ３）、ならびに、
前記ユーザの記録された身体部を含む前記画像（３１）のクロッピングされた画像（３７）を形成するために、前記アバターの身体部の輪郭（３６）を使用するステップ（Ｓ４、Ｓ５）であり、前記クロッピングされた画像（３７）が、前記輪郭（３６）内に包含される、前記ユーザの記録された身体部を含む前記画像（３１）の領域に制限されるステップ
を含む、請求項１に記載のクロッピング方法。
前記アバター（２１）の前記身体部（２２）を前記クロッピングされた画像（３７）と統合するステップ（Ｓ６）をさらに含む、請求項２に記載のクロッピング方法。
前記現実エンティティが、ユーザ（２）の身体部であり、仮想エンティティが、前記ユーザ（２）の身体部の外見を再現することが意図される、アバター（２１）の対応する身体部（２２）であり、前記方法が、
前記ビデオ・シーケンス（３０）から、前記ユーザの記録された身体部を含む画像（３１）を抽出するステップ（Ｓ１Ａ）、
前記ユーザの身体部を含む前記画像（３１）から、前記ユーザの身体部の向きを決定するステップ（Ｓ２Ａ）、
前記アバターの身体部（３３、３４Ａ）を、前記ユーザの記録された身体部を含む前記画像（３１）のものと大まかに同一であるように、配向するステップ（Ｓ３Ａ）、
前記ユーザの記録された身体部（３３、３４）を含む前記画像（３１）を、それを前記アバターの前記対応する配向された身体部（３４Ａ）と位置合わせするために、並進させ、かつスケーリングするステップ（Ｓ４Ａ）、
前記アバターの配向された身体部の輪郭が境界となるクロッピングされる領域が、画素の非存在または透明画素により符号化される仮想環境の画像を描画するステップ（Ｓ５Ａ）、および、
前記仮想環境の画像を、前記ユーザの並進かつスケーリングされた身体部を含む画像（３８）に重畳するステップ（Ｓ６Ａ）
を含む、請求項１に記載のクロッピング方法。
前記ユーザの記録された身体部を含む前記画像（３１）の前記向きおよび／または尺度を決定する前記ステップ（Ｓ２）が、前記画像（３１）に適用される頭部追跡機能（ＨＴＦｕｎｃ）により遂行される、請求項２乃至４のいずれか１項に記載のクロッピング方法。
配向かつスケーリングする前記ステップ（Ｓ３）、前記輪郭を抽出する前記ステップ（Ｓ４、Ｓ５）、および統合する前記ステップ（Ｓ６）が、前記アバターの、またはユーザの身体部の、注目すべき点または領域を考慮する、請求項２乃至５のいずれか１項に記載のクロッピング方法。
前記アバターの身体部（３３、３４）が、前記アバターの前記身体部の３次元表現である、請求項２乃至６のいずれか１項に記載のクロッピング方法。
外見が再現されなければならない前記ユーザの身体部にしたがって、前記アバターの身体部の３次元表現をモデル化するステップからなる初期化のステップをさらに含む、請求項２乃至７のいずれか１項に記載のクロッピング方法。
前記身体部が、前記ユーザ（２）の、または前記アバター（２１）の頭部である、請求項２乃至８のいずれか１項に記載のクロッピング方法。
請求項１乃至９のいずれか１項に記載のクロッピング方法を実装するプロセッサ（４）を備えるマルチメディア・システム（１）。
マルチメディア・システム（１）のメモリ（５）内にロードされることが意図されるコンピュータ・プログラム製品であって、プログラムが前記マルチメディア・システム（１）のプロセッサ（４）により実行される場合は常に、請求項１乃至９のいずれか１項に記載のクロッピング方法を実装するソフトウェア・コードの部分を含むコンピュータ・プログラム製品。