JP2010517427A

JP2010517427A - 個人向けのビデオサービスを提供するシステムおよび方法

Info

Publication number: JP2010517427A
Application number: JP2009547253A
Authority: JP
Inventors: ペース・チャールズ・ピー
Original assignee: Euclid Discoveries LLC
Current assignee: Euclid Discoveries LLC
Priority date: 2007-01-23
Filing date: 2008-01-04
Publication date: 2010-05-20
Also published as: US8842154B2; CA2676023A1; US20150124045A1; US20100073458A1; CN102685441A; TW200841736A; EP2106664A2; CA2676023C; WO2008091485A3; US20120281063A1; WO2008091485A2; CN101622876B; US8243118B2; CN101622876A

Abstract

【課題】テレビ会議参加者の写真のようにリアルな描写のアバタ表現を作成するビデオ処理システムを提供する。
【解決手段】アバタ表現は、テレビ会議参加者を現わすビデオストリームの一部に基づく。顔検出器が、顔を識別、追跡および分類するのに用いられる。検出された顔に基づいて、密度、構造、変形、外観および明るさのモデルを含むオブジェクトモデルが作成される。機械学習顔検出技法を用いるオブジェクト基礎のビデオ圧縮アルゴリズムが、密度、構造、変形、外観および明るさのモデルから導出されるパラメータから写真のようにリアルな描写のアバタ表現を作成する。
【選択図】図３

Description

関連出願

本出願は、2007年1月23日出願の米国仮特許出願第60/881,979号の優先権を主張する。本出願は、2007年1月23日出願で発明の名称が「画像データを処理するコンピュータ方法および装置」の米国仮特許出願第60/991,966号および2006年1月8日出願で発明の名称が「画像データを処理する装置および方法」の米国仮特許出願第60/811,890号に関連する。本出願は、また、2005年7月28日出願の米国特許出願第11/191,562号の部分継続出願である、2005年9月20日出願の米国特許出願第11/230,686号の部分継続出願である、2005年11月16日出願の米国特許出願第11/280,625号の部分継続出願である、2006年1月20日出願の米国特許出願第11/336,366号の部分継続出願である、2006年3月31日出願の米国特許出願第11/396,010号に関連する。上記各出願の全内容は参照により本明細書に引用したものとする。

本発明はビデオデータを処理において、個人向けのビデオサービスを提供するシステムに関する。

ディジタルビデオの最近の人気によって、ビデオ圧縮の需要が劇的に増加している。ビデオ圧縮はディジタル媒体の格納および転送に必要とされるビット数を低減する。ビデオデータは空間および時間の冗長性（重複）を含み、これら空間および時間の類似性はフレーム（空間）内およびフレーム間（時間）における差分を記録することによってコード化される。圧縮を実行するハードウェアまたはソフトウェアは、ＣＯＤＥＣ（コーデック）（符号化器（エンコーダ）／復号化器（デコーダ））と呼ばれる。コーデックは、ディジタル信号に符号化および復号化を実行できる装置またはソフトウェアである。データを大量に使用するディジタルビデオアプリケーションが広く普及してきているため、信号をエンコード化するのにより効率的な方法が必要とされている。このようにして、ビデオ圧縮は、記憶装置および通信の技術における中心的なコンポーネントとなっている。

コーデックは、テレビ会議やビデオブログのようなストリーミング媒体アプリケーション（例えば、ビデオポッドキャスト）などの多くの異なる技術において用いられることが多い。典型的には、テレビ会議やビデオブログのシステムは、リアルタイムに音声のディジタル圧縮およびビデオストリームを提供する。テレビ会議やビデオブログにおける問題の１つは、多くの参加者が外観の認識（appearance consciousness）に苦慮している点である。ただし、画面上に許容できる外観を表示する負担は、音のみの通信においては問題ではない。

テレビ会議やビデオブログの表示の別の問題は、情報の圧縮がビデオ品質を低下させる点である。圧縮比はテレビ会議において最も重要なファクタの１つである。これは、圧縮比が高ければ、テレビ会議の情報が高速で転送されるからである。残念なことに、従来のビデオ圧縮方法では、圧縮比を高くするとビデオ品質が低くなる。圧縮されたビデオストリームは、画像も音も品質が劣悪なことが多い。

一般に、従来のビデオ処理方法では、遅いデータ通信速度、大きな記憶容量条件、および妨害となる知覚に影響を及ぼすものの形態で現れる、多くの非効率に苦しんでいる。ビデオデータの品質を犠牲にせずに容易かつ効率的に操作する必要がある様々なユーザにとって、これら障害は重大な問題となる可能性がある。特に、何らかの形式の視覚情報に対して人間が生得的感受性を有することに鑑みれば、特に重要である。

ビデオ圧縮において、複数の重要なファクタが一般的に考慮される。これらファクタには、ビデオ品質およびビットレート、エンコード化およびデコード化アルゴリズムの計算の複雑さ、データの損失および誤差に対するロバスト性、ならびに待ち時間が含まれる。ビデオデータ量がインターネット上で急増しているため、コンピュータに対するのみでなく、テレビや携帯電話などの手持ち式装置に対しても、輻輳を大幅に緩和して品質を向上させる技術が著しい進展となる。

ビデオを処理するシステムおよび方法が、現在の最新技術に対して計算および分析における利点をもたらす。ビデオ圧縮方法によって、テレビ会議やビデオブログのアプリケーションでディジタル媒体を格納して転送するのに必要とされるビット数を低減できる。テレビ会議の参加者の写真のようにリアルな描写のアバタ（人の分身として表示されるキャラクタ）の表現が作成される。アバタ表現は、会議の参加者を描画するビデオストリーム部分に基づいてもよい。ビデオ圧縮アルゴリズムに基づくオブジェクトは、Viola-Jonesの顔検出器のような顔検出器を用いて、会議参加者の顔を検出、追跡、かつ分類する。構造、変形、外観および明るさについてのオブジェクトモデルが、一般的な顔についての事前定義されたオブジェクトモデルの登録と組み合わされて、検出された顔に基づいて作成される。これらオブジェクトモデルは、陰的表現（implicit representation：暗黙的な表現つまり明白ではないが判別可能な表現）を作成するのに用いられて、これにより、テレビ会議参加者の写真のようにリアルな描画のアバタを生成する。

この描画は、テレビ会議参加者の顔の実物そっくりのタイプである。これは、ユーザの外観および表情に関して正確である。最初に取り込まれたフレームのその他の部分が、もしかすると低い正確度で描画される。固有のユーザに１回実行される短い較正セッションが起動される。これにより、システムは、圧縮アルゴリズムを初期化でき、オブジェクトモデルを作成できる。好ましくは、後続のテレビ会議セッションはさらなる較正を必要としない。

従来のビデオ描写と同程度信頼できるビデオ表現をユーザが要求するならば、システムは、さらなる較正期間を必要として、ユーザの外観にさらに合致するように格納されたモデルを調整する。代わりに、ユーザは、現在のオブジェクトモデルよりも好ましいオブジェクトモデルを用いることを好むかもしれない。好ましいモデルは、ユーザの何らかの有利な表現、例えば、最良の照明および格好の良い外観であってもよい。別の好ましいオブジェクトモデルは、顔に適用される「再照明（re-lit）」および「平滑化」での較正モデルであり、「高品質」の対象の表現を達成するための両方の処理ステップである。

テレビ会議／ビデオブログのシステムは、クライアントサーバフレームワークを用いて実現される。クライアントノードにおけるユーザは、ビデオカメラおよびヘッドフォンを使用して通信し、テレビ会議セッションを開始する。ユーザそれぞれの顔の写真のようにリアルな描写のアバタの表現が生成される。作成された写真のようにリアルな描写のアバタ表現は、テレビ会議参加者の顔の陰的表現である。

上記の内容は、添付図面に示される本発明の例の実施形態のより詳細な説明から明らかになるであろう。図面では、同一参照符号はそれぞれの図全体を通して同一部分を指す。図面は必ずしも縮尺どおりでなく、本発明の実施形態を説明することに重点が置かれている。

本発明の実施形態において用いられるビデオ圧縮（一般に画像処理）システムのブロック図である。本発明の実施形態において用いられるハイブリッド空間正規化圧縮方法を示すブロック図である。好ましい実施形態において、会議参加者の写真のようにリアルな描写のアバタの表現を作成する処理を示すフローチャートである。写真のようにリアルな描写のアバタを生成するのに関連して用いられるシステムコンポーネントの例を示すブロック図である。インスタントメッセージサーバを用いた、本発明のテレビ会議システムの例を示す概略図である。本発明のテレビ会議／ビデオブログのシステムの例を示す概略図である。コンピュータネットワークまたは類似のディジタル処理環境を示し、本発明の実施形態が実現される環境の概略図である図６のネットワークのコンピュータの内部構造のブロック図である。

本発明の例示的な実施形態を以下に記述する。

＜オブジェクトモデルの作成＞
ビデオ信号データでは、画像シーケンスにビデオフレームが組み立てられる。ビデオの対象は、通常カメラの２次元画像表面に射影された３次元シーンである。合成されて生成されたビデオの場合、解釈には「仮想」カメラが用いられる。アニメーション（動画）の場合、アニメ製作者は参考のこのカメラフレームを管理する役割を担う。各フレームすなわち画像は、サンプル信号に対する画像センサ応答を表現する画素（pel）から構成されている。多くの場合、サンプル信号は、２次元センサアレイにおいてカメラのコンポーネントからサンプル化される特定の反射、屈折または放射されたエネルギ（例えば、電磁エネルギ、音響エネルギなど）に相当する。連続的な時系列サンプリングによって、フレーム当たりの空間２次元と、ビデオシーケンスにおけるフレーム順序に対応する時間次元とを備える、時空間データストリームを得ることができる。この処理は、通常「画像」処理と称される。

本発明は、ビデオ信号データが効率的に１つ以上の有用な表現に処理される手段を提供する。本発明は、ビデオ信号において多くの共通に繰り返されるデータセットを処理するのに有効である。ビデオ信号が解析され、そのデータの１つ以上の簡潔な表現が提供されてその処理およびエンコード化を容易にする。新しくてより簡潔なデータ表現によって、計算処理、伝送帯域幅および記憶装置の多くの用途に対する要件が軽減される。処理には、限定されるわけではないが、ビデオ信号のコード化、圧縮、伝送、解析、記憶および表示が含まれる。雑音のような不必要な信号部分は低い優先度に識別されて、さらなる処理はビデオ信号の優先度の高い部分を解析して表現することに重点が置かれる。その結果、ビデオ信号は、それまでよりも、より簡潔に表現される。そして、正確さの損失は、知覚的に重要でないビデオ信号部分に集中される。

2006年1月20日出願の米国特許出願第11/336,366号および2007年1月23日出願で発明の名称が「画像データを処理するコンピュータ方法および装置」である米国特許出願（代理人の管理番号4060.1009-000）（全内容はここで引用されているものとする）に記載のように、ビデオ信号データは解析されて顕著なコンポーネントが識別される。空間時間的なストリームは、たいていは独特なオブジェクトである顕著なコンポーネント（例えば顔）を明らかにする。識別処理は、顕著なコンポーネントの存在および重要度を特定して、特定された顕著なコンポーネントのうちの最も重要な１つ以上を選択する。これは、ここで説明されている処理後または処理と同時に行われる、顕著性がより小さい他の顕著なコンポーネントの識別および処理を制限するわけではない。上述の顕著なコンポーネントはその後さらに解析され、変化するサブコンポーネントおよび不変のサブコンポーネントが識別される。不変サブコンポーネントの識別は、コンポーネントの特定の様相のモデル化処理である。これにより、コンポーネントを所望の正確度に合成できるモデルのパラメータ表現が明らかになる。

一実施形態において、ＰＣＡ／ウェーブレットのエンコード化技法が前処理されたビデオ信号に適用されて、所望の圧縮ビデオ信号を形成する。前処理によってビデオ信号の複雑さを減少させて、主成分分析（ＰＣＡ）／ウェーブレットのエンコード化（圧縮）が向上した作用で適用されるようにする。ＰＣＡ／ウェーブレットのコード化については、同時係属の出願である、2006年1月20日出願の米国特許出願第11/336,366号および2007年1月23日出願で発明の名称が「画像データを処理するコンピュータ方法および装置」である米国特許出願（代理人の管理番号4060.1009-000）に詳細に説明されている。

図１は本発明の原理を採用する例示的な画像処理システム１００のブロック図である。ソースビデオ信号１０１が入力されて前処理プロセッサ１０２によって受信される。前処理プロセッサ１０２は、ソースビデオ信号１０１における対象コンポーネント（顕著なオブジェクト）を判別するために帯域消費を用いるか、または顔／オブジェクト検出器のような他の基準を用いる。特に、前処理プロセッサ１０２は、ビデオ信号１０１において、不均衡な帯域幅を用いる部分のその他の部分に対する比を判別する。この判別を行うセグメンタ（セグメント化器、セグメント化部）１０３に関する方法は、以下の通りである。

セグメンタ１０３が、上述の画素の微分における時間および／または空間の差分を用いて、時間および／空間に渡って画像勾配を分析する。コヒーレンスに監視するために、ビデオ信号の逐次的なフレームに渡って、互いに対応するビデオ信号部分が追跡されて注目される。これらコヒーレントな（一貫した）信号コンポーネントの微分場の有限差分が統合されて、ビデオ信号の判別された部分を生成する。この判別された部分とは、他の部分に対して不均衡な帯域幅を用いる部分である。すなわち、対象コンポーネントを判別する。好ましい実施形態では、後続フレームにおける空間不連続に対応する空間不連続が１つのフレームにおいて発見されると、画像勾配の急激さまたは平滑さが解析されて、一意の対応（時間コヒーレンシ（時間的な一貫性））を生じさせる。さらに、このような対応（相関関係）の集まりも、ビデオフレームの離散的なコンポーネントの時間コヒーレンシに一意に帰するように同一の方法で採用される。急峻な画像勾配についてはエッジが存在すると判別される。このような空間不連続を画定するエッジが２つ存在する場合、コーナーが決定される。これら識別された空間不連続は勾配フローと組み合わされて、ビデオデータの複数のフレームに渡る対応画素間の動きベクトルを生成する。動きベクトルが識別された空間不連続と一致する場合、本発明のセグメンタ１０３は、対象のコンポーネント（顕著なオブジェクト）が存在すると判別する。

他のセグメント化技法がセグメンタ１０３を実現するのに適している。

図１において、前処理プロセッサ１０２（セグメンタ１０３）が、対象のコンポーネント（顕著なオブジェクト）を判別すると（すなわち、ソースビデオ信号１０１から対象のコンポーネントをセグメント化すると）、判別した対象のコンポーネントの複雑さを正規化器（正規化部）１０５が低減する。好ましくは、正規化器１０５は、判別された対象のコンポーネントから、全体の動きおよび姿勢、全体構造、局所変形、外観ならびに明るさの変動を取り除く。これまでに述べた関連出願に記載された前述の正規化技法がこのために利用される。これにより、正規化器１０５は対象のコンポーネントの構造モデル１０７および外観モデル１０８を確立する。

構造モデル１０７は、数学的には以下のように表現される。

ここで、σは、顕著なオブジェクト（判別された対象のコンポーネント）であり、ＳＭ()はそのオブジェクトの構造モデルである。ｖ_x,yは、経時的に位置合せされたオブジェクトにおける、区分（piece-wise）線形正規化メッシュの２次元メッシュ頂点である。Δ_tは、期間ｔにおける頂点の変化であり、複数のビデオフレーム間のオブジェクトの拡大縮小（すなわち局所変形）、回転および並進を経時的に表現する。Ｚは、全体動きである。式１から、全体の固定の構造モデル、全体動き、姿勢および局所的に導出された変形が引き出される。構造部分の候補構造（経時のビデオフレームの対象のコンポーネント）を判定するために、動きから構造を推定する既知の技法が用いられて、動き検出と組み合わされる。これにより、顕著なオブジェクトの空間における位置および方向が決定されて、構造モデル１０７および動きモデル１１１がもたらされる。

外観モデル１０８は、次に、構造モデル１０７および動きモデル１１１によって集合的ではなくモデル化される顕著なオブジェクトの特性および様相を表現する。一実施形態では、外観モデル１０８は経時的な構造変化の線形分解であり、構造モデル１０７から全体動きおよび局所変形を除去することによって決定される。出願人は、各ビデオフレームにおけるオブジェクト外観を取得し、構造モデル１０７を用いて、「正規化された姿勢」に再射影する。「正規化された姿勢」は、また、１以上の「基本的な（cardinal）」姿勢と称される。再射影は、オブジェクトの正規化されたバージョンを表現し、外観における任意の変化を生成する。所与のオブジェクトが複数のビデオフレーム間で回転しているかまたは空間的に並進されているので、外観は単一の基本的な姿勢（すなわち、平均の正規化された表現）に位置付けられる。外観モデル１０８は、また、基本的な姿勢の基本的な変形（例えば、目が開く／閉じられる、口が開く／閉じられるなど）を明らかにする。したがって、外観モデル１０８ＡＭ（σ）は、基本的な姿勢Ｐ_ｃおよび基本的な姿勢Ｐ_ｃの基本的な変形Δ_ｃによって表現される。

外観モデル１０８の画素は、好ましくは、カメラの投影軸に対する距離および入射角度に基づく。バイアスをかけることで、モデルの最終形式に対する各画素の寄与の相対加重を判別する。したがって、好ましくは、この「サンプルバイアス（sampling bias）」が全てのモデルの全ての処理を組み込む。候補構造の（構造モデル１０７からの）経時追跡は、姿勢、動きおよび変形の推定量からの示唆によって、全画素の動きの予測を構成して可能とする。

さらに、外観および明るさのモデル化に関して、画像処理における持続的な挑戦の１つは、変化する明暗条件のもとで、オブジェクトを追跡している。画像処理において、コントラストの正規化は、ピクセル輝度（pixel intensity）値の変化を、明暗／明るさの変化以外の因子に起因するよりもむしろ、明暗／明るさの変化に起因するものとしてモデル化する処理である。好ましい実施形態では、ビデオが取り込まれる際の顕著なオブジェクトの明るさ条件の任意の変化を推定する（すなわち、オブジェクトに当たる明るさをモデル化する）。これは、ランベルト反射の線形部分空間（Lambertian Reflectance Linear Subspace (ＬＲＬＳ)）理論からの原理にオプティカルフローを組み合わせて達成される。ＬＲＬＳ理論によれば、オブジェクトが固定されて好ましくは明るさの変化のみが許容されると、反射画像のセットは最初の９つの球面調和関数の線形な組合せによって近似される。これにより、画像は、周囲「画像」ベクトル空間における９Ｄ線形部分空間に近接する。さらに、画像ピクセル（ｘ，ｙ）の反射輝度は、次のように近似される。

ＬＲＬＳおよびオプティカルフローを用いて、いかに明暗がオブジェクトと相互作用するかを判定するために期待値が計算される。これら期待値は、オプティカルフロー場における変化を説明できるオブジェクトの動きを拘束するのに役立つ。明るさモデル化を用いるオブジェクトの外観を記述するのにＬＲＬＳを用いると、さらに、明るさモデルの予測の範囲から外れる任意の外観変化を処理することを外観モデルに許可する必要がある。

対象のコンポーネントの複雑さが対応する元のビデオ信号から低減されるが対象のコンポーネントの顕著性は維持される限り、外観モデル１０８および構造モデル１０７の他の数学的表現も適切である。

図１を参照して、ＰＣＡ／ウェーブレットのエンコード化が、次にアナライザ（分析器）１１０によって構造オブジェクトモデル１０７および外観オブジェクトモデル１０８に適用される。より詳細には、アナライザ１１０は、対象のコンポーネントに対応するビデオデータを圧縮（エンコード化）するために、幾何学的データ解析を採用する。得られる圧縮された（エンコード化された）ビデオデータは、図２の画像処理システムにおいて用いられることができる。より詳細には、これらオブジェクトモデル１０７，１０８は、図２のコード化側２３２およびデコード化側２３６において蓄積されてもよい。構造モデル１０７および外観モデル１０８から、有限状態マシンが生成されてもよい。従来のコード化２３２およびデコード化２３６も、従来のウェーブレットビデオコード化デコード化方法として実装されてもよい。

ＰＣＡコード化が両側２３２，２３６において正規化された画素データに適用される。これにより、各側２３２，２３６において同一の基底ベクトルセットを形成する。好ましい実施形態では、ＰＣＡ／ウェーブレットが画像処理中に基底関数に適用されて、所望の圧縮ビデオデータを生成する。ウェーブレット技法（ＤＷＴ）は、全体画像および部分画像を変換し、外観モデル１０８および構造モデル１０７を線形分解する。そして、所望のしきい値目標（ＥZＴ式またはＳＰＩＨＴ式）を満たすように、この分解されたモデルは正常に打ち切られる。これによって、拡大縮小可能なビデオデータ処理が容易になり、これは、ビデオデータの「正規化」性質による従来のシステムや方法とは異なる。

図２に示すように、１つ以上のオブジェクト２３０，２５０についての圧縮されていないビデオストリームの先に検出されたオブジェクトインスタンスが、従来のビデオ圧縮方法２３２の別個のインスタンスでそれぞれ処理される。さらに、オブジェクト２３０，２５０のセグメント化から生じた非オブジェクト２０２も、従来のビデオ圧縮２３２を用いて圧縮される。これら別個の圧縮エンコード化２３２のそれぞれの結果は、各ビデオストリームに別々に対応する従来の方法でエンコード化された別個のストリーム２３４である。おそらくは伝送の後である、ある時点で、これら中間のコード化されたストリーム２３４が、正規化された非オブジェクト２１０および多数の正規化されたオブジェクト２３８，２５８の合成に、デコーダ２３６で解凍される。画素が空間において相対的に正しく位置するように、これら合成された画素は、これらの各非正規化バージョン２２２、２４２および２６２に非正規化２４０されることができる。これにより、合成処理２７０が、オブジェクトおよび非オブジェクトの画素を組み合わせて完全なフレームの合成２７２とすることができる。

＜写真のようにリアルな描写のアバタの表現＞
図３は、テレビ会議の写真のようにリアルな描写のアバタを生成するシステム３００によって実行されるステップを示すフローチャートである。このシステム３００は、テレビ会議またはビデオブログの参加者の写真のようにリアルな描写のアバタ表現を作成する。図３に示すように、ステップ３０２において、テレビ会議参加者の一人の顔が、テレビ会議データストリームの１つ以上のビデオフレームから検出される。顔は、Viola-Jones顔検出器（またはその他の任意の顔検出器）を用いて検出される。

ステップ３０４において、システム１００は顔が以前に較正されているか否かを判別する。較正がなければ、ステップ３０６において顔が較正される。較正情報は、顔の方向についての情報（どこに顔が集中しているかを特定する位置（ｘ，ｙ））、拡大縮小情報、ならびに構造、変形、外観および明るさの情報を含む。これらパラメータは、ハイブリッド３次元モーフィング（変形可能）モデルおよびＬＲＬＳアルゴリズム、ならびに構造、変形、外観および明るさのモデルを用いて、導出される。これらモデルについては、2006年1月20日出願の米国特許出願第11/336,366号および2007年1月23日出願で発明の名称が「画像データを処理するコンピュータ方法および装置」である米国特許出願（代理人の管理番号4060.1009-000）に詳細に説明されている。これら出願の全内容はここで引用されているものとする。別の既知のモデル化技法が、これらパラメータ（例えば、３次元モーフィングモデル化、アクティブ外観モデルなど）を判別するのに用いられてもよい。これら近似が、ビデオの各フレームについて、顔の姿勢および構造、ならびに明るさ条件を推定するのに用いられる。個人の顔についての構造、変形、外観および明るさの基礎（例えば、較正情報）が解決されると、ステップ３０８において、これら陽的モデル（明白なモデル（explicit model））が個人の顔を検出、追跡かつモデル化するのに用いられる。

ステップ３１０において、これらパラメータ（例えば、構造、変形、外観および明るさの基礎）が、陰的モデル化（暗黙的なモデル化）の初期化に用いられる。陰的モデル化は、陽的モデル化から得られた情報を基準としたモデルを確立し、個人の顔のコンパクトなエンコード化をもたらす。陽的モデル化から得られたパラメータは、陰的モデルを推定するための評価（ground truth）として用いられる。例えば、陽的モデル化パラメータは、明暗が顔の構造といかに相互作用するかについての予測を確立するために用いられる。そして、顔はサンプル化されて、これら拘束条件は、陰的アルゴリズムについての探索空間を制限する手段を提供する。ステップ３１２において、個人の顔が、陰的モデルを用いて検出、追跡および分類されて、写真のようにリアルな描写のアバタの表現が生成される。陰的モデル化を用いて生成されたフレームは、陽的モデルに比較して、フレームに対してエンコード化を少ししか使用せず、必要なパラメータが少ない。写真のようにリアルな描写のアバタの表現は、会議参加者の顔の合成表現（例えば、プロキシアバタ）である。合成表現の忠実度は、元のビデオキャプチャ（ビデオ取り込み）における参加者の忠実な表現から、先の較正セッションによってサポートされた表現にまで及ぶ。

システム３００は、周期的にチェックを行い、そのモデル化を現実的な近似に基づかせることを確実なものとする。したがって、ステップ３１４においてシステム３００はチェックを行い、その陰的オブジェクトモデル化が適切に作用していることを確認する。一定時間について再射影エラーが小さい場合、システムは、陰的オブジェクトモデル化は作用していると判別する。再射影エラーが小さくて大きい動きがある場合、陰的オブジェクトが適切に作用していると考えられる。しかし、再射影エラーが大きい場合、陰的モデル化は最適に作用していないとシステム３００は判別する。同様に、システム３００が不均衡な帯域量を検出すると、陰的モデル化は最適に作用していないとシステムは判別する。

陰的モデル化が作用していないと判別されると、ステップ３１６において、システムはチェックして顔が検出されたか否かを判別する。顔が検出されている場合、ステップ３０４において、システム３００は、顔についての現在の較正情報を検索（発見）して、それに従って処理を行う。顔が検出されない場合、システムはステップ３０２に進み、Viola-Jones顔検出器を用いて顔を検出する。

別の好ましい実施形態では、本発明は、陰的モデル化を再確立するのに陽的モデル化を用いる。陽的モデル化は、陰的モデルを再初期化するのに必要なモデルパラメータを再確立する。顔検出器の実行を含む全再確立が、陽的モデル化が参加者のモデル化を再確立できない場合に実行される。

なお、顔検出の誘導は、較正に対して陰的モデル化を用いる。この場合、陰的モデルは、陽的モデルを「較正する」のに用いられる。その後、陽的モデルはその処理を開始し、同様に陰的モデルの初期化を誘導する。

この周期的なチェックによって、システム３００は現実のオブジェクトである人間の顔を実際にモデル化することを再確認でき、システム３００は周期的にその設定をリセットする。この構成によって、顔検出器４０２、較正器４０４、陽的モデル化器（陽的モデラ）４０６および陰的モデル化器（陰的モデラ）４０８の間の密な結合が実現される。このようにして、周期的に、陽的モデル化器４０６からのフィードバックが陰的モデル化器４０８を再初期化するのに用いられる。このシステム３００の例示的な実装のブロック図が図４に示されている。

＜写真のようにリアルな描写のアバタの基本設定＞
写真のようにリアルな描写のアバタの生成システム３００は、会議の参加者にとってそのテレビ会議の経験がより楽しいものとなるように、その参加者の基本設定のホストを提供する。例えば、会議参加者は、自分の写真のようにリアルな描写のアバタの表現がカメラに常に直接見えることを要求するように、基本設定を選択できる。これによって、アバタ表現が別の会議参加者を直視しているように見える。採用されたモデル化が仮想カメラに対して任意のモデルの再ポーズを許容しているため、共同設置されていないカメラおよびモニタに必要とされるゲージ調整が補償される。会議参加者は、また、特有の背景モデルを選択できる。不変の背景モデルを選択することによって、システム３００は、さらに効率的に圧縮されたバージョンのビデオストリームを提供できる。例えば、モデルは、予め定義された背景または現実の背景の低解像度であってもよい。顔検出および較正の間、会議参加者は、また、写真のようにリアルな描写のアバタ表現における自分の特質に関連した特徴をカスタマイズできる。これらカスタマイズの例として、しわの除去、ヘアスタイル／ヘア効果の選択、洋服の選択などがある。

会議参加者の写真のようにリアルな描写のアバタ表現を提供することによって、システム３００は、従来のテレビ会議システムでは一般に利用できない追加のセキュリティ層を実現する。詳細には、写真のようにリアルな描写のアバタ表現は合成表現であるため、会議参加者は他の会議参加者が場合によっては秘密情報を知ってしまうことを気にする必要がない。このような情報には、会議参加者がテレビ会議中に注目する書類や、テレビ会議が記録される特別な環境を眺めることによって推理される秘密情報などがある。

＜テレビ会議システム＞
図５Ａは、非同期またはほぼ同期のテレビ会議システム５００の例を示す図である。このシステム５００は、インスタントメッセージサーバ５０２と称される非同期またはほぼ同期のテレビ会議サーバを用いる。この例では、３つのノードが、インスタントメッセージサーバ５０２および２つのクライアントマシン５０４，５０６で示されている。各マシン５０４，５０６に位置しているユーザは、テレビ会議セッションを開始することができ、ビデオカメラおよびヘッドフォンを使用して通信する。各ユーザの顔の写真のようにリアルな描写のアバタ表現が、各ユーザの前に現われる。この表現はユーザの外観および表情の点において正確であることが意図されている。最初に取り込まれたフレームのその他の部分が、好ましくは低い正確度で表現される。固有のユーザに１回実行される短い較正セッションが起動される。これにより、システムは、圧縮アルゴリズムを初期化して、オブジェクトモデルを作成できる。後続のテレビ会議セッションはさらなる較正を必要としない。各ユーザは、交換のために非同期通信のシーケンスを「再生する」。このようにして、各ユーザは、ユーザ入力、検出されたスピーチなどのキュー（合図）に基づいて、セッション記録にキュー（合図）を出す。さらに、この相互作用は多くの同時の「会話」を考慮する。これは、完全に同時の状況で生じるかもしれない「中断」なしに、相互作用が行われるためである。

非同期または準同期のメッセージシステム環境５００が、複数の参加者が互いに対話できる手段を提供する。これは、使いやすさの点において重要な要素である。インスタントメッセージセッション構成によって、ユーザは、自己のビデオを「編集」でき、他のユーザに「送信」する前に見直すことができる。重要な、制御および帯域低減の構成が存在する。将来的に他の目的に使用される「高」品質のビデオセグメントを生成するために、編集および制御の構成が用いられてもよい。例えば、ビデオにおける音素または音フレーズパターンを関連付けることによって、ビデオセッションは、共にステッチされた「以前の」セグメントを用いることによって、カメラなしで提供される。

図５Ｂは、テレビ会議／ビデオブログシステム５４０の例を示す図である。この例では、クライアントシステム５５１はアプリケーションサーバ５５６に接続する。このサーバ５５６は、図３および４で参照された写真のようにリアルな描写のアバタの生成システム３００のホストとして動作する。このアプリケーションサーバ５５６は、以前に生成されたオブジェクト（密度、構造、外観、明るさなど）モデル５５２をオブジェクトモデルアーカイブ５５４に格納する。図３および４に関連して述べたように、システム５４０のユーザについて写真のようにリアルな描写のアバタ表現を生成するように、これらオブジェクトモデル５５２が作成される。写真のようにリアルな描写のアバタ表現は、クライアントシステム５５１のビデオブログ（vlog）５５８にストリームされる。

＜処理環境＞
図６は、本発明が実現される、コンピュータネットワークまたは同様のディジタル処理環境を示す。クライアントコンピュータ／装置５０およびサーバコンピュータ６０が、アプリケーションプログラムなどを実行する、処理装置、記憶装置、および入力／出力装置を設ける。クライアントコンピュータ／装置５０は、通信ネットワーク７０を介して、別のクライアント装置／プロセッサ５０およびサーバコンピュータ６０などのその他のコンピュータ装置にリンクされてもよい。通信ネットワーク７０は、リモートアクセスネットワーク、グローバルネットワーク（例えば、インターネット）、コンピュータのワールドワイドの集合形態、ローカルエリアもしくはワイドエリアのネットワーク、およびプロトコル（ＴＣＰ／ＩＰ、Bluetoothなど）を用いるゲートウェイの一部であってもよい。その他の電子的装置／コンピュータネットワークアーキテクチャも適している。

図７は、図６のコンピュータシステムにおけるコンピュータ（例えば、クライアントプロセッサ／装置５０またやサーバコンピュータ６０）の内部構造の図である。各コンピュータ５０，６０は、システムバス７９を含む。ここで、バスはコンピュータまたは処理システムの要素間のデータ転送に用いられるハードウェアラインのセットである。バス７９は、基本的には、コンピュータシステムの異なる要素を接続する共有の電線である。これら要素は、例えば、プロセッサ、ディスクストレージ、メモリ、入力／出力ポート、ネットワークポートなどである。このバスによって、要素間の情報の転送が可能となる。システムバス７９には、入力／出力（Ｉ／Ｏ）装置インタフェース８２が取り付けられており、様々な入力および出力装置をコンピュータ５０，６０に接続する。これら入力および出力装置は、例えば、キーボード、マウス、ディスプレイ、プリンタ、スピーカなどである。ネットワークインタフェース８６によって、コンピュータは、ネットワーク（例えば、図６のネットワーク７０）に取り付けられた様々なその他の装置に接続される。メモリ９０は、本発明の実施形態（例えば、個人用のビデオサービス）を実装するのに用いられる、コンピュータソフトウェア命令９２およびデータ９４用の揮発性ストレージである。ディスクストレージ９５は、本発明の実施形態を実装するのに用いられるコンピュータソフトウェア命令９２およびデータ９４用の不揮発性ストレージである。中央処理装置ユニット８４もシステムバス７９に取り付けられており、コンピュータ命令を実行する。

一実施形態では、プロセッサルーチン９２およびデータ９４は、コンピュータプログラム製品であり、この製品はコンピュータ読み取り可能な媒体（例えば、１つ以上の、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、ディスケット、テープ、ハードドライブなどの交換可能ストレージ）を含む。コンピュータプログラム製品は、この分野で周知のように、適切なソフトウェアインストール手続きによってインストールされる。別の実施形態では、少なくとも一部のソフトウェア命令が、ケーブル通信および／または無線通信でダウンロードされてもよい。その他の実施形態では、本発明のプログラムが、伝播媒体（例えば、ラジオ電波、赤外線、レーザ光線、音波、またはインターネットなどのグローバルネットワークを伝播される電磁波）の伝播信号に組み込まれるコンピュータプログラム伝播信号製品１０７である。このようなキャリア媒体または信号は、本発明のルーチン／プログラム９２に、ソフトウェア命令の少なくとも一部を提供する。

別の実施形態では、伝播信号は、アナログキャリア波または伝播媒体で運ばれるディジタル信号である。例えば、伝播信号は、グローバルネットワーク（例えば、インターネット）、電気通信ネットワークなどのネットワークを伝播されるディジタル信号であってもよい。一実施形態では、伝播信号は、ミリ秒、秒、分またはそれ以上の期間にわたってネットワークをパケットで送信されるソフトウェアアプリケーションの命令のような、所定期間に伝播媒体を転送される信号である。別の実施形態では、コンピュータプログラム製品のコンピュータ読み取り可能な媒体は、伝播媒体を受信して、上述のコンピュータプログラム伝播信号製品のような、伝播媒体に組み込まれた伝播信号を特定することによって、受信および読み取りをコンピュータシステムが行う、伝播媒体であってもよい。

一般的に言えば、用語「キャリア媒体」すなわち遷移キャリアは、前述の遷移信号、伝播信号、伝播媒体、記憶媒体などを包含する。

本発明は、本発明の好ましい実施形態に関連して詳細に示され説明されているが、当業者であれば、添付の特許請求の範囲に包含される本発明の範囲から逸脱することなく、形態および細部に様々な変更が可能であることは理解されるであろう。

たとえば、本発明は、様々なコンピュータアーキテクチャにおいて実装される。図５Ａ，５Ｂ，６および７に示されたコンピュータネットワークは、例示のためであり、本発明はこれに限定されるわけではない。

本発明は、完全なハードウェア実施形態、完全なソフトウェア実施形態、またはハードウェア要素およびソフトウェア要素の両方を含む実施形態であってもよい。好ましい実施形態では、本発明はソフトウェアに実装され、このソフトウェアは、これに限定されるわけではないが、ファームウェア、常駐ソフトウェア、マイクロコードなどを含む。

さらに、本発明は、コンピュータまたは任意の命令実行システムによって、またはこれらに組み合わされて使用するためのプログラムコードを提供するコンピュータ使用可能またはコンピュータ読み取り可能な媒体からアクセス可能なコンピュータプログラム製品の形体をとる。この記述のために、コンピュータ使用可能またはコンピュータ読み取り可能な媒体は任意の装置であってもよく、この装置は、命令実行システム、装置または機器によって、またはこれらに組み合わされて使用するためのプログラムを含み、記憶し、通信し、伝播し、または移植する。

媒体は電気、磁気、光、電磁、赤外線、または半導体のシステム（または装置もしくは機器）または伝播システムである。コンピュータ読み取り可能な媒体の例として、半導体もしくは固体メモリ、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ、（ＲＯＭ）、硬質の磁気ディスクおよび光ディスクが挙げられる。光ディスクの例には、コンパクトディスク、つまり読み取り専用（ＣＤ−ＲＯＭ）、読み取り／書き込み（ＣＤ−Ｒ／Ｗ）およびＤＶＤが含まれる。

プログラムコードを格納および／または実行するのに適したデータ処理システムは、メモリ要素にシステムバスを介して直接的または間接的に結合された少なくとも１つのプロセッサを含む。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、大容量記憶装置、およびキャッシュメモリを含む。ここで、キャッシュメモリは、実行中に大容量記憶装置から取り出されるコードの回数を低減するために、少なくともプログラムコードの一時的な格納を提供する。

入力／出力すなわちＩ／Ｏ装置（これらに限定されるわけではないが、キーボード、ディスプレイ、ポインティング装置などを含む）が、システムに、直接またはＩ／Ｏコントローラを介して結合される。

ネットワークアダプタがシステムに結合されてもよく、これにより、データ処理システムは他の処理システムまたは遠隔プリンタもしくは記憶装置に、プライベートまたは公共のネットワークを介して結合される。モデム、ケーブルモデムおよびイーサネット（登録商標）カードは、現在利用可能なタイプのネットワークアダプタのほんの一部にすぎない。

Claims

ビデオストリームの一部に現われたテレビ会議参加者の顔を検出する工程と、
前記テレビ会議参加者の前記顔をモデル化するように、１つ以上のオブジェクトモデルを作成する行程と、
前記オブジェクトモデルを用いて、前記テレビ会議参加者の写真のようにリアルな描写のアバタ表現を作成する工程とを備えた、テレビ会議提供方法。
請求項１において、前記テレビ会議参加者の前記顔が、Viola/Jones顔検出アルゴリズムを用いて検出および追跡される、テレビ会議提供方法。
請求項１において、前記写真のようにリアルな描写のアバタ表現のオブジェクトモデルが、前記テレビ会議参加者の前記顔の陰的表現として作成される、テレビ会議提供方法。
請求項３において、前記テレビ会議参加者の前記陰的表現が、前記テレビ会議参加者の前記顔のシミュレーションされた表現である、テレビ会議提供方法。
請求項３において、Viola/Jones顔検出アルゴリズムを用いた前記検出および追跡が、
前記ビデオストリームから２つ以上のビデオフレームにおける前記顔に関連した少なくとも１つのオブジェクトの対応する要素を識別する工程と、
予め較正されてモデル化された顔に基づいて、対応する要素間の関係を識別するように、対応する要素を追跡および分類する工程とを有する、テレビ会議提供方法。
請求項１において、前記オブジェクトモデルが、構造、変形、姿勢、動き、明るさ、および外観についてのオブジェクトモデルを含む、テレビ会議提供方法。
ビデオストリームにおけるテレビ会議参加者の顔を検出する顔検出器と、
前記テレビ会議参加者の前記顔を較正する較正モデルを生成する較正器と、
前記較正記および前記顔検出器に組み合わされたオブジェクトモデルであって、前記較正モデルに基づいて、前記テレビ会議参加者の前記顔を現わす前記ビデオストリームの一部をモデル化する、オブジェクトモデルと、
前記テレビ会議参加者の写真のようにリアルな描写のアバタ表現であって、前記顔検出器、較正器およびオブジェクトモデルから生成される、写真のようにリアルな描写のアバタ表現とを備えた、テレビ会議システム。
テレビ会議の少なくとも１人の参加者を現わすビデオストリームの一部をモデル化するようにオブジェクトモデルを提供する手段と、
前記テレビ会議参加者の写真のようにリアルな描写のアバタ表現を作成するように、前記オブジェクトモデルを用いる手段とを備えた、テレビ会議用のシステム。