JP2004533666A

JP2004533666A - 通信システム

Info

Publication number: JP2004533666A
Application number: JP2002553837A
Authority: JP
Inventors: ベンジャミン・ジェームズ・ギレット; チャールズ・ステファン・ワイルス; マーク・ジョナサン・ウィリアムズ; ガリィ・マイケル・スリート
Original assignee: アンソロピクステクノロジーリミテッド
Priority date: 2000-12-22
Filing date: 2001-12-21
Publication date: 2004-11-04
Also published as: US20040114731A1; AU2002216240A1; WO2002052863A2; EP1423978A2; WO2002052863A3; CN1537300A

Abstract

【課題】
【解決手段】加入者電話が、通話相手の外観の外観モデルを記憶し、電話回線網から受信した外観パラメーターのセットから、かかる相手のビデオシーケンスを合成する電話システムについて説明する。前記外観モデルは、ユーザーの電話に設けられているカメラ、あるいは、かかる関係者により入力されたテキストまたはスピーチ信号、のいずれによっても生成可能である。
【選択図】図１

Description

【技術分野】
【０００１】
この発明は、ビデオ処理方法ならびに方法に関する。本発明は、具体的には、それには限定されないが、陸上線(land line)あるいは携帯通信装置を用いたテレビ電話(video telephony)、テレビ会議(video conferencing)等に関する。
【背景技術】
【０００２】
既存のテレビ電話システムは、通信ネットワーク（例えば、電話回線網あるいはインターネット）とユーザーの電話間で用いることができる帯域が制限されるという問題がある。この結果、既存のテレビ電話システムは、送信されるビデオイメージデータの量を低減するため（ＭＰＥＧ等の）効率的なコーデイング技術を用いる。しかし、圧縮されたイメージデータであっても、データ量が比較的大きいので、ユーザー端末とネットワーク間で広い帯域幅を有するリアルタイムのテレビ電話アプリケーションを必要とする。
【発明の開示】
【発明が解決しようとする課題】
【０００３】
本発明は、他のテレビ通信システムを提供することを目的とする。
【課題を解決するための手段】
【０００４】
ある側面において、本発明は、記憶された外観モデルを用い、外観パラメーターのセットを、シェープおよびテクスチャパラメーター中に展開し、質感を生成するためテクスチャパラメーターを一緒にモーフィングし、シェープを生成するためシェープパラメーターを一緒にモーフィングするとともに、前記シェープを用い、前記質感をイメージに変形することにより、動画シーケンスを生成可能な電話を提供する。かかるパラメーターの受信ステップを繰り返し行うことにより、動画化されたビデオシーケンスを、再生成し、電話機のデイスプレイ上でユーザーに表示することができる。好ましい実施形態においては、顔の別の部分を模倣するため、別のパラメーターが用いられる。ほとんどの顔の質感は、顔毎に変わらないので、このことは、有益である。処理能力の低い装置では、フレーム毎に質感を計算する必要がなく、二番目または三番目のフレーム毎に再計算することもでき、あるいは、質感がしきい値を所定量を超えて変化した場合に、再計算するようにしてもよい。
【０００５】
本発明の他の多くの特徴ならびに側面は、添付した図面を参照しつつ説明がなされる、以下の例示的な実施形態によって理解されよう。
【発明を実施するための最良の形態】
【０００６】
全体構成
図１は、ローカル交換機５を介して公衆交換電話網（ＰＳＴＮ）７に接続された複数のユーザー陸上線電話３−１、３−２および３−３を備えた電話回線１を略図的に示している。ＰＳＴＮ７には、複数の基地局１１−１、１１−２、並びに１１−３にリンクされた移動スイッチングセンター（ＭＳＣ）９も接続されている。かかる基地局１１は、複数の携帯電話１３−１、１３−２ならびに１３−３に対し、通話を送受信するよう動作可能であり、移動スイッチングセンター９は、基地局１１相互間ならびに基地局１１とＰＳＴＮ７間の接続を制御するよう動作可能である。図１に示すように、移動スイッチングセンター９は、本実施形態において、加入者の外観、あるいは、加入者が使用を希望するキャラクターの外観を模倣する外観モデルを生成するサービスプロバイダーのサーバー１５にも接続されている。外観モデルが加入者の外観を模倣した場合、適切な外観モデルを生成するよう、加入者のデジタルイメージがサービスプロバイダーのサーバー１５に与えられる。この実施形態において、これらのデジタル写真は、国中に地理的に分散して配置された複数の写真ブース１７のいずれのブースからでも生成することが出来る。
【０００７】
一の加入者の携帯電話１３−１を用いてテレビ電話による通話を行う方法について簡単に説明する。本実施形態において、発信者が、加入者携帯電話１３−１を用いて通話を開始する場合、音声通話は、基地局１１−１ならびに、移動スイッチングセンター９を介し、通常の方法で設定される。本実施形態において、加入者携帯電話１３は、ユーザーのビデオ画像を生成するビデオカメラ２３を備えている。しかし、本実施形態において、カメラ２３からのビデオ画像は、基地局に送信されない。その代わりに、携帯電話１３は、基地局１１に対して外観モデルおよび音声と一緒に送信される外観パラメーターのシーケンスを生成するため、ビデオ画像をパラメーター化するユーザーの外観モデルを用いる。このデータは、次に、電話回線網を介し、そこで、パラメーターならびに外観モデルを用いてビデオ画像が再同期される被呼側の電話器に従来の方法で送られる。同様に、被呼側用の外観モデルは、被呼側で生成された外観パラメーターのシーケンスと一緒に、電話回線網を介し、そこで、被呼側のビデオ画像を再同期させるため、同様の処理が行われる加入者電話１３−１に送信される。
【０００８】
本実施形態においてこれを達成する方法について、携帯電話１３−１と携帯電話１３−２との間で通話がなされる場合を例に、図２から図５を参照しつつ詳細に説明する。図２は、図１に示された各携帯電話１３のブロック図である。図示したように、電話１３は、ユーザーの話し声を受け、それを対応する電気信号に変換するマイク２１を備えている。携帯電話１３は、ユーザーからの光を通常の方法で連続的にビデオ信号を生成するＣＣＤチップ２７上に集光する光学系２５を有する、ビデオカメラ２３を備えている。図示したように、ビデオ信号は、ビデオシーケンス中のユーザーの顔の動きを追跡するため、ビデオシーケンスの各フレームを順番に処理するトラッカーユニット３３へ送られる。かかる追跡を実行するため、トラッカーユニット３３は、ユーザーの顔の形状ならびに質感(texture)の変動性を模倣する外観モデルを用いる。ユーザーが最初にシステムに加入した場合、かかる外観モデルがユーザー外観モデル記憶部３５に記憶され、サービスプロバイダーのサーバー１５により生成され、携帯電話１３−１内にダウンロードされる。ビデオシーケンスにおけるのユーザーの顔の動きを追跡中、トラッカーユニット３３は、各フレームのため、ポーズならびに現在のフレームにおけるユーザーの顔の表情を表す外観パラメーターを生成する。こうして生成されたポーズならびに外観パラメーターは、次に、マイク２１から出力された音声信号と一緒にエンコーダーユニット３９に入力する。
【０００９】
しかし、本発明においては、エンコーダーユニット３９が、ポーズおよび外観パラメーターならびに音声を符号化する前、かかるユニットは、トランシーバーユニット４１およびアンテナ４３を介した被呼側の携帯電話１３−２への送信のため、ユーザーの外観モデルを符号化する。かかる符号化済みのユーザーの外観モデルは、次の送信のため他のビデオ通話内に記憶してもよい。次に、エンコーダーユニット３９は、ポーズのシーケンスならびに外観パラメーターを符号化し、かかるユニットが被呼側の携帯電話１３−２に送信した対応する音声信号を復号化する。本実施形態において、音声信号は、ＣＥＬＰエンコーデイング技術を用いて符号化され、符号化されたＣＥＬＰパラメーターは、エンコードされたポーズならびに外観パラメーターを伴いインターリーブ法により送信される。
【００１０】
図２に示すように、被呼側の携帯電話１３−２から受信したデータは、トランシーバーユニット４１から送信されたデータを復号するデコーダーユニット５１へと送られる。最初に、デコーダーユニット５１は、その後、被呼側の外観モデル記憶部５４に記憶される被呼側の外観モデルを受信し、復号化する。一旦、これが受信され復号化されると、デコーダーユニット５１は、符号化されたポーズおよび外観パラメーターならびに符号化済の音声信号を受信し、復号化する。復号化されたポーズおよび外観パラメーターは、次に、復号化された被呼側の外観モデルを用い、受信されたポーズおよび外観モデルに対応するビデオフレームのシーケンスを生成するプレーヤーユニット５３に送られる。生成されたビデオフレームは、次に、ユーザーに対して再生成されたビデオシーケンスが表示される携帯電話のデイスプレイ５５に出力される。デコーダーユニット５１により出力された復号化済の音声信号は、携帯電話のスピーカー５９に復号化された音声信号を出力するオーディオ駆動ユニット５７へ送られる。プレーヤーユニット５３ならびにオーディオ駆動ユニット５７の動作は、デイスプレイ５５上に表示されるイメージが、スピーカー５９により出力される適切な音声信号と時間的に同期（time synchronised)するよう、構成される。
【００１１】
本実施形態において、携帯電話１３は、符号化済のポーズおよび外観パラメーターならにび符号化済の音声信号をデータパケットで送信する。このパケットの一般的なフォーマットが、図３aに示されている。図示したように、各パケットは、ヘッダ部１２１とデータ部１２３とを含んでいる。ヘッダ部１２１は、パケットのサイズとタイプを表している。これにより、データフォーマットを互換性を有するよう前後に簡単に拡張することができる。例えば、新しいデータストリーム上に古いプレーヤーユニット５３が用いられている場合、パケットが認識できない場合もある。この場合、古いプレヤーユニットは、かかるパケットを単に無視すればよく、他のパケットを処理する機会もある。各パケットにおけるヘッダ１２１は、パケットのサイズを識別するための１６ビット（ビット０からビット１５まで）データを含む。ビット１５が０に設定された場合、他の１５ビットにより定義されたサイズは、バイトにおけるパケットのサイズである。他方、ビット１５が１に設定された場合、残りのビットは、３２ｋブロックにおけるパケットのザイスを表す。本実施形態において、エンコーダーユニット３９は、６つの異なるタイプのパケット（図３ｂに示す）を生成することができる。
【００１２】
これらは、以下を含んでいる：
１．バージョンパケット１２５−ストリーム中で最初に送られるパケットがバージョンパケットである。バージョンパケットにおいて定義される数は、整数であり、現在３に設定されている。この番号は、パケットシステムが拡張可能であるため変更されることはない。
【００１３】
２．情報パケット１２７−次に送信されるパケットは、同期バイト(sync byte)を含む情報パケットであり；バイトは、ビデオの毎秒当たりの平均（mean)サンプル（またはフレーム）を識別する；データは、ビデオの不足数(video short)の各サンプルを動画化するためのパラメーターデータの不足数(shorts)を識別する；バイトは、毎秒当たりのオーディオサンプルの数を識別する；バイトは、オーディオのサンプル毎のデータのバイト数を識別し、ビットは、オーディオが圧縮されているか否かを識別する。現在、このビットは、非圧縮オーディオに対して０に設定され、毎秒４８００ビットに圧縮されたオーディオに対して１に設定されている。
【００１４】
３．音声パケット１２９−非圧縮オーディオのためものであって、各パケットは、１秒分の音声データを含む。毎秒４８００ビットに圧縮されたオーディオについて、各パケットは、３０ミリ秒に相当するデータ、１８バイトを含む。
【００１５】
４．ビデオパケット１３１−ビデオのサンプルの一つを動画化するための外観パラメーターデータである。
【００１６】
５．スーパーオーディオパケット１３３−これは、ノーマルオーディオパケット１２９用に連結されたデータのセットである。本実施形態において、プレーヤーユニット５３は、そのサイズにより、前記スーパーオーディオパケット中のオーディオパケットの数を決定する。
【００１７】
６．スーパービデオパケット１３５−これは、ノーマルビデオパケット１３１から連結されたデータのセットである。本実施形態において、プレーヤーユニット５３は、スーパービデオパケットのサイズにより、ビデオパケットの数を決定する。
【００１８】
本実施形態において、送信されたオーディオおよびビデオパケットは、最先のパケットが最初に送信されるよう時間順(in time order)に送信ストリーム中に混合される。パケット構造を上述の方法で組織化することにより、ＰＳＴＮ７を介するだけでなく、インターネットを介してデータを送ることを可能とする。
【００１９】
外観モデル
本発明において用いられる外観モデルは、クーテス等(Cootes et al.)により開発され、１９９５年１月発行のコンピュータビジョンおよびイメージの理解第６１巻、Ｎｏ１．中の３８ページから５９ページにある”アクテイブシェープモデル−そのトレーニングと応用”と題された論文で述べられたものと同様のものである。これらの外観モデルは、顔のイメージのコンテンツに関し、従来からいくつか知見があるという事実を利用するものである。例えば、人間の顔には、それぞれ目、鼻および口を含む２つの正面イメージがある、と推測することができる。
【００２０】
本実施形態において、上述のように、外観モデルは、サービスプロバイダーのサーバー１５において生成される。これらの外観モデルは、各ユーザーの複数のトレーニングイメージを分析することによって生成される。ユーザーの外観モデルが、ビデオシーケンスの範囲内でユーザーの顔の変動を模倣可能とするため、トレーニングイメージは、顔の表情についての幅広い変動および３Ｄのポーズを有するユーザーのイメージを含んでいなければならない。本実施形態において、これらのトレーニングイメージは、ユーザーがフォトブース１７の一つに入り、デジタルカメラにより撮影することにより生成される。本実施形態において、全てのトレーニングイメージが、５００Ｘ５００画素を有しており、各画素は、赤、緑および青のピクセル値を有する。こうして生成された外観モデル３５は、比較的小さい数のパラメーター（通常、一人について１５から４０）によって頭部のイメージが詳細に（画素レベルで）表現可能になるよう、トレーニングイメージ中の頭部により定義された頭部のイメージの様々な種類の外観をパラメーター化したものである。
【００２１】
出願人による、以前の国際出願番号ＷO ００／１７８２０（その内容が参照のため本明細書に取り込まれる）で説明したように、外観モデルは、トレーニングイメージ中の顔の形状の変動性を模倣するシェープモデル、ならびに、テキスチャーの変動性あるいはレーニングイメージにおける画素の色を模倣するテクスチャモデル、を最初に決定し、次に、前記シェープモデルとテクスチャモデルを組み合わせることにより、生成される。
【００２２】
シェープモデルを作り出すため、ランドマークポイントの複数の位置がトレーニングイメージ上で認識され、次に、同じランドマークポイントが、他のトレーニングイメージ上で認識される。ランドマークポイントのこの位置の結果が、前記イメージ中の各ランドマークポイントの（ｘ、ｙ）座標を認識する各トレーニングイメージに関するランドマークポイントのテーブルである。本実施形態において用いられているモデリング技術は、これらの位置がどのように変化するかを認識するため、次に、トレーニングセットにわたってこれらの座標を検査する。異なるイメージから同じポイントの比較を可能とするため、頭部は、共通の軸に対して位置あわせを行わなければならない。これは、それらが全て同じ基準フレームに入るよう、各頭部毎に座標のセットを相互に回転させ、スケーリングし、平行移動することにより実行される。各頭部毎の座標のセットは、そのエレメントが基準フレーム内のランドマークポイントの座標と対応する、シェープベクトル(xⁱ）を形成する。本実施形態において、次に、シェープモデルは、シェープトレーニングベクトル(xⁱ）について、主要構成要素分析（ＰＣＡ）を実行することによって生成される。この主要構成要素分析は、各シェープベクトル(xⁱ）と、シェープパラメーター（P_s ⁱ)の対応するベクトルとを関連づけるシェープモデル（Ｑ_ｓ）を、以下の式により生成する：
【００２３】
【数１】

【００２４】
ここで、xⁱ は、シェープベクトルであり、Ｘ^~は、シェープトレーニングベクトルからの平均シェープベクトルであり、P_s ⁱ はシェープベクトルxⁱ 用のシェープパラメーターのベクトルである。マトリクスＱ_ｓは、トレーニングイメージの頭部中の、シェープの変化のメインモードならびにポーズを表わし；与えられた入力頭部用のシェープパラメーター（P_s ⁱ)のベクトルは、変化の各モードと関連するパラメーターであって、その値が、入力された頭部のシェープと、対応する変化モードを関連させるもの、を有している。例えば、トレーニングイメージが、ユーザーが左右を向き、正面を向いたイメージを含む場合、次に、シェープモデル（Ｑ_ｓ）により表される一の変化モードは、特に影響を及ぼし、ユーザーが注目するシェープパラメーター（Ｐ_ｓ）のベクトル中に、関連するパラメーターを有する。具体的には、パラメーター値がほぼー１の場合、左を向いたユーザーと関連づけられ、その値が０に近い場合、正面を向いたユーザーと関連づけられ、その値がほぼ＋１の場合、右を向いたユーザーと関連づけられるよう、ー１から＋１の間で変化する。したがって、トレーニングデータ中の変化を説明するために必要とされる変化モードが多ければ多いほど、シェープパラメーターP_s ⁱ中に、より多くのシェープパラメーターが必要となる。本実施形態においては、トレーニングヘッド中において見られる変化の９８％を説明するため、使用された特定のトレーニングイメージについて、２０個の異なるシェープならびにポーズの変化モードを模倣しなければならない。
【００２５】
与えられたシェープベクトルxⁱに関するシェープパラメーターP_s ⁱ のセットを求めることができるのに加え、以下でxⁱ を得ることにより式（１）を解くことができる：
【００２６】
【数２】

【００２７】
Q_sQ_s ^Tがアイデンテティーマトリクスと等しいので、適切な範囲内でシェープパラメーター（P_s ⁱ ）のセットを調整することにより、トレーニングセット中にあるものと近似する新しいヘッドシェープを生成することができる
シェープモデルが生成されると、トレーニングフェース内のテクスチャを模倣するため類似のモデル、具体的には、トレーニングフェース内の赤、緑ならびに青レベルが生成される。これを実行するため、本実施形態においては、各トレーニングフェースを基準シェープに変形させる。出願人の以前の国際出願において、基準シェープは、平均的なシェープであった。しかし、このことは、トレーニングフェース内の全ての面にわたる画素サンプリングについて一定の解像度を要することになる。したがって、唇部分の１０倍の面積を有する頬に対応する面については、１０倍の数の画素をサンプリングしなければならない。この結果、この頬の面は、望ましくないテクスチャモデルの１０倍に匹敵する(contribute to)。したがって、本実施形態においては、顔の他の部分よりも目および口の領域を緻密にサンプリングするように、目と口の周囲の面を基準シェープよりも大きくすることによって基準シェープを変形する。本実施形態において、これは、各イメージのランドマークポイントの位置が基準ヘッドのシェープならびにポーズを表す対応ランドマークポイント（前もって決定されている）の位置と合致するまで各トレーニングイメージヘッドを変形させることによって達成される。これらの変形シェープイメージにおけるカラー値は、テクスチャモデルに対する入力ベクトルとして用いられる。本実施形態において用いられる基準シェープならびに基準シェープにおけるランドマークポイントの位置は、図４に概略的に示されている。図４から読み取ることが出来るように、基準シェープの目および口のサイズは、顔の他の部分と比較して誇張されている。したがって、トレーニングイメージがサンプリングされた場合、顔の他の部分と比べ、目および口の周囲の画素をより多く取る。これにより、テクスチャモデルが、口および目の中およびその周囲の変化により敏感に応答するという結果になり、したがって、ユーザーは、ソースビデオシーケンス内を追跡した方がよい。各トレーニングヘッドを基準シェープに変形させるのに様々な三角測量技術を用いることが出来る。かかる技術の一つは、前述の出願人の以前の国際出願において説明されている。
【００２８】
トレーニングヘッドが基準シェープに変形されると、変形シェープヘッドにわたって均一に配置された１０、０００個の点における各カラーレベルをサンプリングすることにより、各変形シェープイメージについての赤、緑ならびに青のレベルベクトル（rⁱ 、gⁱ ならびにbⁱ）が決定される。赤レベルベクトルの主要構成要素分析は、各赤レベルベクトルを赤レベルパラメーターの対応ベクトルに関連させる赤レベルモデル（マトリクスＱ_ｒ）を以下により生成する：
【００２９】
【数３】

【００３０】
ここで、rⁱ は、赤のレベルベクトルであり、r^~は、赤レベルトレーニングベクトルからの平均レッドレベルベクトルであり、P_s ⁱ は、赤のレベルベクトルrⁱ 用の赤レベルパラメーターのベクトルである。緑ならびに青についての同様の主成構成要素分析が、以下のように同様のモデルを生じさせる：
【００３１】
【数４】

【００３２】
【数５】

【００３３】
これらのカラーモデルは、シェープが整えられた(shape−normalised)トレーニングフェース内のカラーの変化のメインモードを表す。
【００３４】
xⁱ について式（１）を解くのと同様に、式（３）から（５）は、rⁱ 、gⁱ ならびにbⁱ を得ることにより解くことができる：
【００３５】
【数６】

【００３６】
Q_sQ_s ^T, Q_gQ_s ^T ならびにQ_bQ_b ^T は、単位マトリクス(identity matrices)であるので、カラーパラメーターのセット（Ｐ_ｒ、Ｐ_ｇあるいはＰ_ｂ）を、適切な範囲内で調整することにより、トレーニングセット中にあるものと近似する新しい変形シェープカラーフェースを生成することができる。
【００３７】
上述のように、シェープモデルおよびカラーモデルは、シェープおよびカラーの両方がトレーニングイメージの顔の範囲内で変化する方法を全体として模倣する外観モデル(F_a)を生成するため用いられる。シェープとカラーバリエーションとの間には、トレーニングフェース内の全体としての変化を表すのに必要なパラメーターを低減させるために用いることができる相関関係があるので、組み合わされた外観モデルが生成される。本実施形態において、これは、トレーニングイメージに関して、シェープならびに赤、緑および青のパラメーターについて更なる主要構成要素分析を実行することにより達成される。具体的には、シェープパラメーターは、各トレーニングイメージの赤、緑ならびに青のパラメーターと一緒に連結され、ついで、外観モデル（マトリクスF_a)を決定するため、連結されたベクトルについて主要構成要素分析が実行される。しかし、本実施形態においては、シェープパラメーターとテクスチャパラメーターを一緒に連結する前に、主要構成要素分析がテクスチャパラメーターによって支配されないよう、シェープパラメーターに重点を置いている(weightened)。これは、以下のように、式（２）に重み付けマトリックス(H_s)を導入することにより達成される：
【００３８】
【数７】

【００３９】
ここで、H_s は_、適切なサイズの単位マトリクスの倍数（λ）である、すなわち：
【００４０】
【数８】

【００４１】
ここで、λは、定数である。発明者は、１、０００から１０、０００のλの値が、よい結果をもたらすことを発見した。したがって、Ｑ_ｓ ^ＴならびにP_s ⁱは：
【００４２】
【数９】

である。
【００４３】
シェープパラメーターの重み付けが行われると、以下のように外観モデルを決定するため、各トレーニングイメージ用の調整済シェープパラメーターならびに赤、緑および青のパラメーターの連結済みベクトルについて主要構成要素分析が実行される：
【００４４】
【数１０】

【００４５】
ここで、P_s ⁱは、シェープ並びにカラーの両方を制御する外観パラメーターのベクトルであり、Pⁱ _ｃ _cは、連結された調整済みシェープならびにカラーパラメーターのベクトルである。
【００４６】
調整済シェープモデル（Q_s）、カラーモデル（Q_r,,Q_g およびQ_b)ならびに外観モデル（F_a)が決定されると、これらは、次の使用のため記憶されるユーザーの携帯電話１３に送信される。
【００４７】
外観パラメーターのセットにより入力インターフェースを表すことができることに加えて、入力された顔を再生成するため、これらの外観パラメーターを用いることも可能である。具体的には、式（１０）と式（１）および（３）から（５）までを組み合わせることにより、シェープベクトルならびにＲＧＢレベルベクトルのための式が以下のように確定する：
【００４８】
【数１１】

【００４９】
【数１２】

【００５０】
【数１３】

【００５１】
【数１４】

【００５２】
ここで、V_sは、F_aおよびQ_sから得ることができ、V_rは、F_aおよびQ_rから得ることができ、V_gは、F_aおよびQ_gから得ることができ、V_vは、F_aおよびQ_bから得ることができる。顔を再生成するため、カラーパラメーターから生成された変形シェープカラーイメージは、シェープベクトルにより表現されているように、基準シェープから、顔の外形を考慮して変形しなければならない。前述の出願人の以前の国際出願には、シェ−プ未確定のグレーレベルのイメージの変形が実行される方法が説明されている。当業者は、顔のイメージを再生成するため、その後組み合わせられる各変形シェープカラーコンポーネントを変形させるため、同様の処理技術が用いられることを理解する。
【００５３】
エンコーダーユニット
ここで、図２に示すエンコーダーユニット３９が、ユーザーの外観モデルを被呼側の携帯電話１３−２へ送信するため符号化する好ましい方法を、図５aを参照しつつ説明する。次に、復号器５１が、被呼側の外観モデル（同じ方法で符号化されたもの）を再生成する方法を、図５bを参照しつつ説明する。
【００５４】
最初に、ステップＳ７１において、エンコーダーユニット３９は、ユーザーの外観モデルを、シェープ（Q_s ^trgt)ならびにカラーモデル(Q_r ^trgt,Q_g ^trgt,Q_b ^trgt)に分解する。次に、ステップＳ７３において、エンコーダーユニット３９は、赤、緑ならびに青モードの各変化に関するシェープワープドカラーイメージを生成する。具体的には、変形された赤(shape warped red)、緑ならびに青のイメージは、上述の式（６）を用い、以下のカラーパラメーターのベクトルを求めるため生成される：
【００５５】
【数１５】

【００５６】
（式（６）において用いられた平均ベクトルは、必要に応じて無視されているが）。これらの変形シェープイメージおよび平均カラーイメージ（ｒ^~、ｇ^~ならびにｂ^~）は、次に、ステップＳ７５において、ＪＰＥＧ等の標準的なイメージ圧アルゴリズムを用いて圧縮される。しかし、当業者は、ＪＰＥＧアルゴリズムを用いた圧縮の前に、変形シェープイメージおよび平均カラーイメージを、長方形の基準フレーム内に合成しなければならず、そうしなければ、ＪＰＥＧアルゴリズムが機能しないことを理解する。整形シェープイメージは、全て同じ形状を有するので、これらは長方形の基準フレーム中の同じ位置に合成される。この位置は、本実施形態において、基準シェープ（図４に概略的に示す）から直接生成され、複数の１および０(1's and 0's)を含むテンプレートイメージであって、テンプレートイメージ中の１は、バックグランド画素に対応し、テンプレートイメージ中の０は、イメージ画素に対応するもの、によって決定される。このテンプレートイメージは、被呼側の携帯電話１３−２にも送信され、本実施形態では、ランレングス符号化技術を用いて圧縮しなければならない。次に、エンコーダーユニット３９は、ステップＳ７７において、シェープモデル（Q_s ^trgt）、外観モデル((F_a ^trgt)^T)、平均シェープベクトル（x^~trgt）、トランシーバーユニット４１を介する電話回線網への送信するための圧縮イメージ、を出力する。
【００５７】
復号ユニット
図５ｂを参照すると、復号ユニット５１は、ステップＳ８１で、ＪＰＥＧイメージ、平均カラーイメージならびに圧縮テンプレートイメージを解凍する。次に、ステップは、サンプリングされる画素を識別するための解凍されたテンプレートイメージを用い、変形シェープカラーベクトル（rⁱ 、gⁱ ならびにbⁱ）を再生するために、解凍されたＪＰＥＧイメージがサンプリングされるステップＳ８３に進む。これらの変形シェープカラーベクトルを生成するために用いられるカラーパラメーターベクトルを選択するため（上述の（１５）参照）、関連する変形シェープカラーベクトルを一緒に積み重ねる(stacking)ことにより、カラーモデル(Q_r ^trgt,Q_g ^trgt,Q_b ^trgt)を再構築することができる。図５bに示したように、シェープフリーカラーベクトルの積み重ねは、ステップＳ８５において実行される。つぎに、ステップは、記憶装置５４に記憶された被呼側の外観モデルを再生成するため、再生シェープおよびカラーモデルが組み合わされるステップＳ８７に進む。
【００５８】
本実施形態において、かかる好ましい符号化技術を用いることにより、カラーモデルは、単にそれ自体が送信される場合と比べ、約１０倍効率的に相手側に送信される。これは、本実施形態において用いられる各カラーモデルは、通常、３００００×８のマトリクスであり、各マトリクスの各エレメントが３バイトを必要とするからである。したがって、各携帯電話１３は、カラーモデルマトリクスを非圧縮形式で送信するために約７２０キロバイトのデータを送信しなければならない。その代わりに、上述の変形シェープカラーベクトルを生成し、標準イメージ符号化技術を用いてこれらを符号化し、符号化したイメージを送信することにより、カラーモデルを送信するのに必要となるデータの量は、たった約７０キロバイトになる。
【００５９】
プレーヤーユニット
図６は、本実施形態に使用されているプレーヤーユニット５３の部品の詳細を示すブロック図である。図示したように、プレーヤユニットは、入力ライン１５２上の符号化された外観パラメーターならびに入力ライン１５４上の被呼側の外観モデル、を受信するパラメーター変換器１５０を備えている。本実施形態において、パラメーター変換器１５０は、ライン１５４上の被呼側の外観モデル入力を用い、入力外観パラメーターP_a ⁱを対応するシェープベクトルXⁱ ならびに変形シェープＲＧＢレベルベクトル（rⁱ 、gⁱ ならびにbⁱ）に変換するため、式（１１）から式（１４）を用いる。かかるＲＧＢレベルベクトルは、シェープ変形器１５８に向けてライン１５６上に出力され、シェープベクトルは、シェープ変形器１５８に向け、ライン１６４上に出力される。シェープ変形器１５８は、ベクトルｘⁱにより説明したように、顔のシェープを考慮して基準シェープからＲＧＢレベルベクトルを変形するため動作する。シェープ変形器１５８により生成されたＲＢＧレベルベクトルは、デイスプレイ５５上に表示を行うためフレームバッファに出力される、対応するピクセル値の二次元アレイを生成するためにＲＧＢレベルベクトルを用いるイメージ合成器１６２に向けて出力線１６０上に出力される。
【００６０】
変形例ならびに他の実施形態
上述の第一の実施形態において、各携帯電話１３ー１は、ユーザーのビデオシーケンスを生成するカメラ２３を備えている。かかるビデオシーケンスは、次に、記憶された外観モデルを用いて外観パラメーターのセットに変換されていた。ここで、加入者電話１３がビデオカメラを備えていない第二の実施形態を説明する。その代わりに、電話１３は、ユーザーの入力音声から、外観パラメーターを直接生成する。図７は、加入者電話１３のブロック図である。図示したように、マイク２１から出力された音声は、自動音声認識ユニット１８０、ならびに、それとは別の音声符号化ユニット１８２に入力する。音声符号化ユニット１８２は、通常の方法により、トランシーバーユニット４１ならびにアンテナ４３を介して基地局１２１への送信を行うため、音声を符号化する。音声認識ユニット１８０は、ルックアップテーブル３５に出力される音素(phoneme)３３のシーケンスを生成するため、予め記憶された音素モデル（音素モデル記憶装置１８１内に記憶された）と入力音声を比較する。かかるルックアップテーブル３５は、各音素用に、外観パラメーターのセットを記憶し、自動音声認識ユニット１８０によって出力された各音素に関し、対応する音素の発音がなされている間のユーザーの顔を表す、対応外観パラメーターのセットが出力されるよう構成される。本実施形態において、ルックアップテーブル３５は、携帯電話のユーザーだけに適用することができ、音素と、外観モデルから必要とされるユーザーのイメージを生成する外観パラメーター間の関係を確認する、トレーニングルーチン中に前もって生成される。以下のテーブル１は、本実施形態でルックアップテーブル３５が有するフォームを表している。
【００６１】
【表１】

【００６２】
図７で示すように、ルックアップテーブル３５により出力された外観パラメーター３７のセットは、次に、被呼側への送信のため、外観パラメーターを符号化するエンコーダーユニット３９に入力する。こうして符号化されたパラメーター４０は、次に、符号化された外観パラメーターを対応する符号化された音声と一緒に送信する、トランシーバーユニット４１に入力する。第一の実施形態のように、トランシーバー４１は、符号化された音声および符号化された外観パラメーターを、被呼側の電話が、同期したビデオと対応する音声間の同期を維持するのが容易となるよう、交互に時間をあける方法(tieminterleaved manner)により送信する。
【００６３】
図７に示すように、携帯電話の受信側は、第一の実施形態と同じであるので、再度説明はしない。
【００６４】
上記説明から当業者が理解するように、この第二実施形態においては、送信される外観パラメーターを生成するため、ユーザー携帯電話１３４がユーザーの外観モデルを有する必要はない。しかし、被呼側では、対応するビデオシーケンスを同期させるため、ユーザーの外観モデルを有する必要がある。したがって、本実施形態において、全ての加入者の外観モデルは、サービスプロバイダーのサーバー１５に集中的に記憶され、加入者間の通話が開始されると、サービスプロバイダーのサーバー１５は、適切な外観モデルを適切な電話中にダウロードを行うよう動作可能となる。
【００６５】
図８は、サービスプロバイダーのサーバー１５の内容の詳細を示す。図示したように、サーバー１５は、移動スイッチングセンター９、写真ブース１７、ならびに、サーバー１５内の制御ユニット１９３間のインターフェースを提供するインターフェースユニット１９１を備えている。サーバーが、新しい加入者のイメージを受信すると、制御ユニット１９３は、当該イメージを、第一の実施形態で述べた方法により適切な外観モデルを組み立てる外観イメージビルダー１９５に送る。かかる外観モデルは、次に、外観モデルデータベース１９７内に記憶される。次に、加入者間で通話が開始されると、移動スイッチングセンター９は、発信者の身元ならびに被呼側の身元をサーバー１５に通知する。制御ユニットは、次に、外観モデルデータベース１９７から発信者ならびに被呼側の外観モデルを取り込み、これらの外観モデルを、インターフェースユニット１９１を介し移動スイッチングセンター９に返送する。移動スイッチングセンター９は、次に、発信者の適切な外観モデルを、被呼側の電話に送信するとともに、外観モデルをそれぞれの加入者電話に送信する。
【００６６】
ここで、本実施形態の制御タイミングについて、図９を参照しつつ説明する。まず、発信者は、キーボードを用いて、被呼側の電話番号の入力を行う。発信者が完全に番号を入力し、電話１３の第二のキー（図示せず）を押すと、かかる番号は、次に、空気を介して基地局１１−１に送信される。次に、基地局は、適切な外観モデルを取り込むことができるよう、この番号を、発信者の身元ならびに被呼側の身元をサーバー１５に通知する移動スイッチングセンター９に送る。かかる移動スイッチングセンター９は、被呼側の電話１３−２を鳴らすため、次に、電話回線網中の適切な接続を介し、被呼側へ信号を送る。このことが起きている間、サービスプロバイダーのサーバー１５は、それらが次にユーザの電話へのダウンロードのために記憶される移動スイッチングセンター９に、発信者および被呼側の適切な外観モデルをダウンロードする。被呼側の電話が鳴ると、発信側の電話が適切な呼び出し音を生成可能となるように、移動スイッチングセンター９は、ステータス情報を発信側の電話に返送する。被呼側が受話器を取ると、適切なシグナリング情報が電話回線網を介して移動スイッチングセンター９に返送される。これに対し、移動スイッチングセンター９は、発信側の適切な外観モデルを被呼側にダウンロードさせ、被呼側の外観モデルを発信側にダウンロードさせる。これらのモデルがダウンロードされると、それぞれの電話は、ビデオイメージと対応するユーザーの会話を同期させるため、送信された外観パラメーターを、上述の第一実施形態と同じ方法で復号する。このテレビ電話は、発信側または被呼側のいずれかが通話を終了させない限り続く。
【００６７】
上述の第二実施形態は、第一実施形態を超える数々の利点がある。第一に、加入者電話に内蔵され、あるいは、取り付けられるビデオカメラが不要である。外観パラメーターが、ユーザーの話しから直接、生成される。第二に、発信側ならびに被呼側の外観モデルは、制約された通信リンクのみを通じて送信される。具体的には、第一実施形態においては、各外観モデルは、ユーザーの電話機から電話回線網に送信され、次に、電話回線網から、相手側の電話に送信されていた。電話回線網に用いられている帯域は比較的高いが、回線網から電話機へのチャネルの帯域は制限されている。したがって、この実施形態において、外観モデルは、電話回線網に集中的に記憶されているので、これらは、帯域制限がある一のリンクを介して送信されるだけである。当業者であれば理解するが、第一実施形態は、電話回線網に記憶された外観モデルと同様の方法で動作するよう変更することもできる。
上述の実施形態において、ユーザーの外観パラメーターは、ユーザーの電話で生成され、ビデオシーケンスが同期されユーザーの会話が表示される被呼側の電話機へ送信されていた。ここで、第二実施形態とほぼ同じ構成であるが、ユーザーの外観を変えるため、外観パラメーター値を変更するよう動作可能な追加のアイデンティーティーシフトユニット１８５を有する電話機を示す、図１０を参照しつつ他の実施形態について説明する。かかるアイデンティーティーシフトユニット１８５は、メモリ１８７に記憶された所定の変更値を用いて変更を行う。かかる変換値は、ユーザーの外観の変更あるいは単にユーザーの外観を良くするためだけに用いることができる。ユーザー認識された感情状態を変化させる外観パラメーター（またはシェープあるいはテクスチャパラメーター）に対し、オフセット量を追加することが可能である。例えば、少し笑うための外観パラメーターのベクトルを、”中程度(neutral)”元気な話しぶりから生成された全ての外観パラメーターに加えると、その人を幸せそうに見せることになる。眉間にしわを寄せる(frown)ベクトルを加えることにより、人が怒っているように見せることになる。アイデンティーティーシフトユニット１８５がアイデンティーティーシフトを実行するのには、多くの方法がある。その一つの方法は、出願人の以前の国際出願ＷＯ００／１７８２０中にに説明されている。他の技術は、出願人による継続中の英国出願ＧＢ００３１５１１９．９中に説明されている。本実施形態の電話の残りの部分は、第二実施形態と同じであるので、再度説明はしない。
【００６８】
上述の第二および第三実施形態において、電話機は、自動音声認識ユニットを備えていた。ここで、ユーザーの電話ではなく、サービスプロバイダーのサーバー１５に自動音声認識ユニットが設けられている実施形態を、図１１および１２を参照しつつ説明する。図１１に示すように、加入の電話１３は、図７に示した第二実施形態の加入者の電話よりかなりシンプルである。図示したように、マイク２１によって生成された音声信号は、従来の方法により音声を符号化する音声符号化ユニット１８２に、直接、入力する。符号化された音声は、その後、トランシーバーユニット４１およびアンテナ４３を介してサービスプロバイダーのサーバー１５に送信される。本実施形態において、発信者ならびに被呼側からの全ての音声は、そのブロック図が図１２に示されているサービスプロバイダーのサーバー１５を経由する。図示したように、本実施形態においては、サーバー１５は、自動音声認識ユニット１８０ならびに全てのルックアップテーブル３５を備えている。
【００６９】
動作中、発信者と被呼側間で通話が開始されると、符号化された全ての音声は、サーバー１５を介して相手方へ送られる。当該サーバーは、音声ならびに話し手を認識し、生成した音素を適切なルックアップテーブル３５に出力する自動音声認識ユニット１８０に音声を送る。次に、かかるルックアップテーブルから、対応する外観パラメーターが抽出され、従来と同様にビデオシーケンスを同期させる相手方への以後の送信のため、符号化されたオーディオと一緒に制御ユニット１９３に返送される。
【００７０】
当業者であれば理解するように、本実施形態は、全てがサービスプロバイダーのサーバー１５内で集中的に行われるので、複雑な自動音声認識ユニットを備える必要がない、という利点を提供する。しかし、自動音声認識ユニット１８０は、音素を適切なルックアップテーブルに適用できるよう、全ての加入者の話しを認識可能でなくてはならず、しかも、どの加入者が何を言ったのか、を識別可能でなくてはならない、という不都合がある。
【００７１】
第二実施形態から第四実施形態において、加入者により生成された音素を対応する外観パラメーター値に合わせる(mapped)ルックアップテーブル３５が各加入者毎に一つ設けられていた。しかし、自動音声認識ユニットにより出力された音素と実際の外観パラメーターの値との間の関係は、ユーザーの感情状態に基づいて変化する。図１３は、ルックアップテーブルデータベース２０５が、ユーザーの様々な感情状態を表すため複数のルックアップテーブル３５を記憶している、別の加入者電話の部品を示すブロック図である。このルックアップテーブルデータベース２０５は、ユーザーが幸せな場合、怒っている場合、興奮している場合、悲しい場合等のための適切なルックアップテーブルを備えていてもよい。本実施形態において、ユーザーの現在の感情状態は、ユーザーの話のストレスレベルを検出することにより自動音声認識ユニット１８０によって決定される。
【００７２】
これに応じ、自動音声認識ユニット１８０は、自動音声認識ユニット１８０から出力された音素のシーケンスを対応する外観パラメーターに変換するため、適切なルックアップテーブル３５を使用させるよう、ルックアップテーブルデータベース２０５に適切な指示を出力する。当業者であれば理解するように、ルックアップテーブルデータベース２０５中の各ルックアップテーブルは、各感情状態におけるユーザーのトレーニングイメージから生成しなければならない。再度述べるが、これは、前もって行われ、適切なルックアップテーブルは、サービスプロバイダーのサーバー１６中に生成される。これに代えて、その後、検出されたユザーの感情状態に基づいて適切なアイデンティーティーシフトを実行するアイデンティーティーシフトユニットとともに、”中間の”ルックアップテーブルを用いるようにしてもよい。
【００７３】
上述の第一実施形態において、ユーザーの声を符号化するため、ＣＥＬＰオーディオコーデイックが用いられた。かかるエンコーダーは、音声用に要求される帯域幅を、毎秒約４．８キロビット（ｋｂｐｓ）まで低減させる。これにより、携帯電話が、７．２ｋｂｐｓの帯域幅を有する標準的なＧＳＭリンクを介して音声並びにビデオデータを送信する場合、外観パラメーター用に２．４ｋｂｐｓの帯域幅が与えられる。しかし、既存のほとんどのＧＳＭ電話は、ＣＥＬＰオーディオエンコーダーを用いていない。その代わりに、これらは、７．２ｋｂｐｓの帯域幅の全部を用いるオーディオコーデイックを使用している。したがって、ソフトウエアにＣＥＬＰオーディオコーデイックが与えられている場合、上記システムは、既存のＧＳＭ電話でしか動作しない。しかし、実際の携帯電話は、音声データを復号化する演算パワーを有していないので、これは現実的ではない。
【００７４】
しかし、上述のシステムは、予め記録されたビデオシーケンスを送信するため既存のＧＳＭ電話上で用いることができる。通常の会話の間には沈黙が生じ、その間、使用可能な帯域幅は用いられないので、このことが可能となる。具体的に、一般のスピーカーは、言葉や語句の間にポーズがあるため、１５％から３０％の時間は、帯域幅を全く使用していない。したがって、使用可能な帯域幅を使い切るため、ビデオデータを音声データとともに送信することができる。受信者が、ビデオシーケンスを再同期させる前に、ビデオならびに音声データの全てを受信した場合、かかるビデオならびに音声データは、その後、ＧＳＭリンクを介し、いずれの順序、かつ、いずれのシーケンスによっても送信可能である。これに代え、音声が受信されるとすぐにビデオを再生することが可能となるよう、できるだけ早くビデオシーケンスを再生可能にする効率的な動作のため、対応する音声データの前に適切なサイズにブロック化されたビデオ信号（上述の外観パラメーター等の）を送信することができる。外観パラメーターデータは、音声データよりも毎秒小さいデータ量しか使用しないので、この場合、対応する音声データの前にビデオデータを送信することが、最適である。
したがって、ビデオの４秒間の部分を再生するには、音声データについて４秒、ビデオについては１秒間の送信時間が必要とされ、次に、送信時間の合計が５秒間となるので、ビデオは、１秒後に再生可能となる。音声中の沈黙が十分に長い場合、かかるシステムは、音声の前に送信された受信ビデオデータをバッファするため受信側で必要とされる比較的少ない量のバッファだけで動作可能である。しかし、かかる動作を行うには音声中の沈黙が十分でない場合には、早いうちにより多くのビデオを送信しておかなければならず、これにより、受信側は、より多くのビデオデータをバッファしなければならない。当業者であれば理解するが、かかる実施形態は、受信側のプレーヤーユニットによりこれらが再同期可能となるよう、音声ならびにビデオデータの双方にタイムスタンプすることを必要とする。
【００７５】
これらの前もって記録されたビデオシーケンスは、ユーザーが、それを見るか、あるいは、後に他の電話に転送するため、そこから、シーケンスを自分の電話にダウンロードすることができるサーバー上で生成し、そこで記憶するようにしもよい。ビデオシーケンスがユーザーにより彼らの電話を用いて生成された場合、音声と一緒に送信可能なビデオデータの量を認識するため、電話にビデオデータ音声中のポーズを識別するのに必要な処理回路、ならびに、ＧＳＭコーデックが使用可能な帯域幅を全部用いるよう、ビデオデータを生成し、それを音声データと混合させるための適切な処理回路、を備える必要がある。話しから直接、ビデオシーケンスを再生する代わりに、テキストから、直接、動画シーケンスを生成するようにしてもよい。例えば、ユーザーは、テキストを、後に適切な外観パラメーターならびに適切な外観モデルとともに被呼側の電話に送信される符号化音声に変換する、中央サーバーに送信してもよい。次に、ビデオシーケンスは、上述の方法により生成可能である。かかる実施形態において、ユーザーがサービスに加入し、外観モデルを生成するための画像を提供するために写真ブースの一つを用いた場合、サーバーが、当該ユーザーのために、ユーザーの入力テキストから話しを実質的に合成するために用いられる適切な音声合成装置を生成することができるよう、かかるユーザーは、写真ブース内のマイクを通じていくつかのフレーズを入力することもできる。話しを合成し、サーバー内で外観パラメーターを生成することに代え、これを、ユーザーの電話あるいは被呼側の電話内で、直接、実行することもできる。しかし、現在の処、テキストからビデオを生成することは、演算として割が合わず、被呼側にも性能が高い電話が必要とされるので、かかる実施形態は、現実的ではない。
【００７６】
上述の実施形態においては、ユーザーの顔のシェープ全体および色を模倣した外観モデルについて述べられていた。他の実施形態においては、目、口ならびに顔の残りの部分用に、別の外観モデル、あるいは、別の色モデルだけ、を用いるようにしてもよい。別のモデルが用いられるので、異なる要素のために、外形モデルの異なる番号、あるいは、モデルの異なるタイプ、を用いることができる。
【００７７】
例えば、目および口用のモデルは、顔の残りの部分のモデルよりも多くのパラメーターを含むようにしてもよい。これに代え、顔の残りの部分は、モードを変化させることなく、質感の平均値に（a mean texture)により単に模倣するようにしてもよい。テレビ電話の通話中、顔の大部分の質感は、大きく変化することがないので、これは、実用的である。このことは、加入者電話間で送信を行うのに、より少ないデータで足りるということを意味する。
【００７８】
図１４は、目、口ならびに顔の残りの部分用に別の色(しかし、共通のシェープモデル）が与えられている他の実施形態に用いられるプレーヤーユニット５３のブロック図である。図示したように、かかるプレーヤーユニット５３は、パラメーター変換器１５０が送信された外観パラメーターを受信し、シェープベクトルＸⁱ （シェープ変形器１５８に向けてライン１６４上に出力される）を生成するとともに、各カラーモデルのためのカラーパラメーターを分離するよう動作可能である点を除き、第一実施形態のプレーヤーユニット５３と実質的に同じである。目のカラーパラメーターは、入力ライン２１２に与えられた目のカラーモデルを用いて、かかるパラメーター値を対応する赤、緑ならびに青レベルのベクトルに変換する、パラメーター／ピクセル変換器２１１に出力される。同様に、口のカラーパラメーターは、入力ライン２１４に与えられた口のカラーモデルを用い、パラメーター変換器１５０によって、口のパラメーターを対応する赤、緑ならびに青レベルのベクトルに変換するパラメーター／ピクセル変換器２１３に出力される。最後に、顔の残りの部分の外観パラメーターあるいはパラメーターが、ライン２１６に入力したモデルを用いて適切な赤、緑ならびに青レベルのベクトルが生成されるパラメーター／ピクセル変換器２１５に入力する。図１４に示すように、各パラメーター／ピクセル変換器から出力されたＲＧＢレベルのベクトルは、第一実施形態のシェープノーマライズドカラーレベルベクトルからそれらを再生成するフェースレンダラーユニット２２０に入力する。次に、これらは、そこで現在のシェープベクトルｘⁱ を考慮しつつ変形を行うシェープ変形器１５８に送られる。次の処理は、第一実施形態と同じであるから、ここでは再度説明しない。
【００７９】
外観パラメーターからビデオイメージを生成する動作のうち最も集中を要する動作は、カラーパラメーターをＲＧＢレベルベクトルに変換することである。ここで、カラーレベルベクトルは、フレーム毎に計算されないが、その代わりに、隔フレーム毎に(every second or third frame)計算される実施形態について説明する。この実施形態は、図１５に示すプレーヤーユニット５３について説明するが、かかるプレーヤーユニット５３は、第一実施形態でも使用可能である。図示したように、本実施形態において、かかるプレーヤーユニット５３は、さらに、パラメーター／ピクセル変換器２１１、２１３ならびに２１５のそれぞれに入力する制御ライン２２５に共通イネーブル信号を出力するよう動作可能である制御ユニット２２３を備えている。本実施形態において、これらの変換器は、制御ユニット２２３によりそれが可能となった場合に、受信したカラーパラメーターを対応するＲＧＢレベルベクトルに変換するためだけに動作する。
【００８０】
動作中、パラメーター変換器１５０は、カラーパラメーターのセットおよびデイスプレイ５５に出力されるビデオシーケンスの各フレーム用のシェープベクトルを出力する。かかるシェープベクトルは、従来どおりシェープ変形器１５８に出力され、それぞれのカラーパラメーターは、対応するそれぞれのパラメーター／ピクセル変換器に出力される。しかし、本実施形態において、制御ユニット２２３は、三番目のビデオフレーム毎に適切なＲＧＢレベルベクトルを生成可能にするためだけに変換器２１１、２１３ならびに２１５をイネーブルにする。それに対してパラメーター／ピクセル変換器２１１、２１３並びに２１５がイネーブルされなかったビデオフレ−ムについては、前のフレーム用に生成されたＲＧＢレベルベクトルであって、シェープ変形器１５８により、以後、それが新たなシェープベクトルとともに変形されるものをフェースレンダラーユニット２２０が出力するよう動作可能である。
【００８１】
さらに別の例としては、二番目ビデオフレームあるいは三番目のビデオフレーム毎にカラーレベルのベクトルを再計算するよりも、所定量だけ変化した場合、直ちにカラーレベルベクトルを計算することもできる。特定のコンポーネントに対応するカラーのみを更新しなければならないので、このことは、目、口ならび顔の残りの部分について別々のモデルを用いる実施形態において特に有益である。かかる実施形態は、あるフレームから次のフレームへのパラメーター値間の変化を監視することができるよう、パラメーター変換器１５０により出力されるパラメーターを有する制御ユニット２２３を設けることにより実行することができる。かかる変化が所定のしきい値を超えた場合は、いつでも、制御ユニットから当該変換器への専用のイネーブル信号によって適切なパラメーター／ピクセル変換器がイネーブルされる。フェースレンダラーユニット２２０は、次に、顔用のシェープノーマライズドＲＧＢレベルベクトルであって、その後、シェープ変形器１５８に入力するもの、を生成するため、そのコンポーネント用の新しいＲＧＢレベルベクトルと、他のコンポーネント用の古いＲＧＢレベルベクトルを組み合わせるよう動作可能である。
【００８２】
上述のように、本システムにおいて、最も集中を要する動作は、カラー外観パラメーターをカラーレベルベクトルに変換することである。携帯電話のような低出力装置においては、その時々における使用可能な処理能力は、しばしば変化することがある。このような場合、現在利用可能な処理能力に基づて、カラーレベルベクトルを再構成するために用いられる変化のカラーモード数（カラーパラメーターの数）を大きく変化させるようにしてもよい。例えば、携帯電話が、各フレームについて３０のカラーパラメーターを受信した場合に、全処理能力が利用可能な場合には、カラーレベルベクトルを再構成するため、当該３０のパラメーター全部が用いられる。しかし、利用可能な処理能力が低下すると、カラーレベルベクトルを再構成するために、最初の２０のカラーパラメーター（最上位の変化カラーモードを表す）のみが用いられる。
【００８３】
図１６は、上述の方法で動作するようプログラムされたプレーヤーユニット５３の他のの形式を示すブロック図である。具体的には、パラメーター変換器１５０は、入力外観パラメーターを受信するとともに、シェープベクトルXⁱ 、および、パラメーター／ピクセル変換器２２６に出力される赤、緑ならびに青のカラーパラメーター（Ｐ_ｒ ⁱ、Ｐ_ｇ ⁱ ならびにＰ_ｂ ⁱ）を生成するよう動作可能である。このパラメーター／ピクセル変換器２２６は、次に、かかるカラーパラメーターを対応する赤、緑ならびに青のレベルベクトルに変換するため、式（６）を用いる。この実施形態において、制御ユニット２２３は、変換器２２６が現在利用可能な処理能力に基づき、制御信号２２８を出力するよう動作可能である。制御信号２２８のレベルしだいで、パラメーター／ピクセル変換器２２６に対するパラメーターは、式（６）で用いられるカラーパラメーターの数を動的に選択する。当業者であれば、カラーモデルのマトリクス（Ｑ）の容量は変化しないが、カラーパラメーター（Ｐ_ｒ ⁱ、Ｐ_ｇ ⁱ ならびにＰ_ｂ ⁱ）の一部が、ゼロに設定されることを理解する。この実施形態において、変化の最小モードに関連するカラーパラメーターは、画素の値にほとんど影響しないので、ゼロに設定されたパラメーターの値と等しい。
【００８４】
上述の実施形態において、符号化された音声および外観パラメーターは、各電話によって受信され、復号化され、その後、ユーザーに出力されていた。他の実施形態において、電話は、外観モデルに加え、アニメーションおよび音声シーケンスをキャッシュする記憶装置を備えるようにしもよい。かかるキャッシュは、以後、所定の、あるいは、”撮影済みの(canned)”のアニメーションのシーケンスを記憶するために用いるようにしてもよい。かかる所定のアニメーションシーケンスは、通信する相手側からの適切な指示を受信することに応じユーザーに対して再生することが可能である。したがって、ユーザーに対しアニメーションシーケンスが繰り返し再生された場合、当該シーケンスのための外観パラメーターは、ユーザーに対し一度だけ送信すればよい。
【００８５】
上述の実施形態では、多くの異なる双方通信システムについて説明が行われた。当業者は、上述のアニメーション技術は、ユーザーにメッセージを残すのと同様の方法で用いてもよいことを理解する。例えば、ユーザーは、中央サーバー内に記憶されるメッセージを被呼側によって取り込まれるまで記憶するようにしてもよい。この場合、かかるメッセージは、符号化された音声とともに、外観パラメーターの対応シーケンスを含むようにしてもよい。これに代えて、被呼側がメッセージを取り込む際に、サーバーあるいは被呼側の電話によってビデオアニメーション用の外観パラメーターを生成するようにしてもよい。かかるメッセージングは、ユーザーまたは任意の現実あるいは架空のキャラクターで構成された予め記録したシーケンスを用いてもよい。予め記憶したシーケンスを選択するにあたり、ユーザーは、サーバー上に存在し、メッセージを送る前に自身の電話で見ることができる予め記録したシーケンスを選択するため、ブラウジングすることを可能にするインターフェースを用いてもよい。さらに別の例としては、ユーザーがサービスに最初に登録し、写真ブースを用いる際、写真ブースがユーザーに対し、アニメーション、および、後で、前もって記録したメッセージとして用いるため準備されたフレーズについて音声を記録したいかを尋ねるようにしてもよい。かかる場合、その中から一以上が選択されるフレーズについて、ユーザーに選択肢が示されるようにしてもよい。それに代え、ユーザーは、自分自身の個人的なフレーズを記録するようにしてもよい。ビデオシーケンスを駆動させるためテキストのみが用いられる場合と比べて高品質のアニメーションが提供されるので、これは、テキストビデオメッセージングシステムに、特に適している。
【００８６】
上述の実施形態において用いられた外観モデルは、トレーニングイメージのセットの主要構成要素分析から生成されていた。当業者は、かかる結果は、連続的な変数のセットによりパラメーター化が可能であるどのようなモデルにも適用できることを理解する。例えば、ベクトルの定量化およびウェーブレット技術を用いることもできる。
【００８７】
上述の実施形態において、シェープパラメーターならびにカラーパラメーターは、外観パラメーターを生成するために結合されていたが、これは必須ではない。別のシェープならびにパラーパラメーターを用いるようにしてもよい。また、トレーニングイメージが白黒である場合、質感パラメーターは赤、緑ならびに青のレベルではなく、画像のグレーレベルを表すようにしてもよい。さらに、赤、緑ならびに青の値を模倣する代わりに、カラーは、クロミナンスと輝度成分あるいは色調、彩度ならびに明度成分によって表してもよい。
【００８８】
上記実施形態において用いられていたモデルは、二次元モデルであった。携帯装置の処理能力が十である場合には、三次元モデルを用いることも可能である。このような実施系他において、シェープモデルは、トレーニングモデルにわたり、ランドマークポイントの三次元メッシュを模倣する。かかる三次元トレーニングの例は、三次元スキャナーまたは一以上のカメラのステレオペア(stereo pairs)を用いることによって得ることができる。
【００８９】
上記実施形態において、外観モデルは、各ユーザーのビデオイメージ生成するのに用いられていたが、このことは必須ではない。例えば、各ユーザーは、コンピューターが生成した、人間あるいは人間ではないキャラクターを表す外観モデルを選択する。この場合、サービスプロバイダーは、多数の異なるキャラクターであって、そこから各ユーザーが使用したいと望み選択するキャラクターに関する外観モデルを記憶してもよい。さらに、これに代え、被呼側は、発信者を動画化するのに用いるため、アイデンティティーあるいはキャラクターを選ぶこともできる。選ばれたアイデンティティーは、発信者に関する多数の異なるモデルの一つ、あるいは、他の現実あるいは架空のキャラクターのモデル、であってもよい。
【００９０】
上記実施形態において、携帯電話は、相手側のアニメーションシーケンスを生成するため、関連する外観モデルを有していないと仮定されていた。しかし、いくつかの実施形態においては、電話回線を通じてこれらを送信する必要がないよう、各携帯電話は、多数の異なるユーザーの外観モデルを記憶するようにしてもよい。この場合、アニメーションパラメーターのみを電話回線を通じて送信しなければならない。かかる実施形態において、電話回線は、携帯電話に対し、当該通話の相手方に関する適切な外観モデルを有しているかとともに、携帯電話が前記外観モデルを有していない場合に適切な外観モデルを送るためだけに動作可能であるか、を尋ねる要求を送る。また、最新の携帯電話回線を用いているので、ファイルを送信するため接続を設定した場合に約５秒のオーバーヘッドが存在し、パラメーターストリームと同様にモデルが必要とされる場合には、一つのファイルで両方を送るのが好ましい。したがって、好ましい実施形態において、サーバーは、送信準備が完了した各アニメーションファイルの２つのバージョンであって、一つがモデルを有し、他方がそれを有しないものを記憶する。
【００９１】
上述の第一実施形態において、発信者の外観パラメーターは被呼側に送信され、そのその逆もある。発信者の電話ならびに被呼側の電話は、その後、受信された外観パラメーターから各ユーザーのビデオシーケンスを生成するために用いられる。他の実施形態において、誰が話をしているのかにもよるが、被呼側の映像と発信者の表示を切り換えるためにプレーヤーを用いるようにしてもよい。かかる実施形態は、(i) 話をしていない場合に、被呼側を適切に動画化するのが困難であり、(ii) その信頼性を確認するため、ユーザーが、自身の画像を見たいであろうことから、音声から直接ビデオシーケンスを生成するシステムに特に適している。
【００９２】
上述の実施形態においては、加入者電話が携帯電話である場合について説明していた。当業者は、図１に示した陸線を用いる電話を同じ方法により動作させることができることを理解する。この場合、陸線に接続されているローカルの交換機は、必要に応じ、陸線を用いる電話とサービスプロバイダーをインターフェースしなければならない。
【００９３】
また、上述の実施形態において、当該システムで用いる適切な外観モデルを生成することができるよう、写真ブースは、ユーザーがサーバーに画像を提供するために設けられていた。当業者は、外観モデルを生成するのにユーザーの画像を入力するため、他の技術を用いることも可能であることを理解する。例えば、上述の実施形態でサーバー内に設けられている外観モデルビルダーのソフトウエアを、ユーザーの自宅のコンピューター内に設けることも可能である。かかる場合、ユーザーは、スキャナーまたはデジタルスチルカメラあるいはビデオカメラからユザーが入力した画像により自身の外観モデルを直接生成することが可能となる。さらに、これに代え、ユーザーは、それを用いてシステムで用いる外観モデルを生成する第三者に対し、単に写真あるいはデジタルイメージを送るようにしてもよい。
【００９４】
上記において、電話システムの周辺について多数の実施形態が説明されている。上述の実施形態の特徴の多くは、他のアプリケーションにも用いることができる。例えば、図１４，１５および１６を参照して説明したプレーヤーユニットは、どのような携帯用機器あるいは処理能力が限定されている装置にも有益に用いることができる。同様に、ユーザーの音声から直接ビデオシーケンスが生成される上述の実施形態は、ビデオシーケンスを他のユーザーに送信するのではなく、ローカルで生成するものにも用いることができる。さらに、上述の実施形態に関する多くの変更ならびに代替例は、制限された帯域幅が使用できるユーザー端末とインターネット上のサーバー間等での、インターネットを介する通信に用いることが可能である。
【図面の簡単な説明】
【００９５】
【図１】図１は、電気通信システムの略図である。
【図２】図２は、図１のシステムの一部を構成する携帯電話のブロック図である。
【図３ａ】図３aは、図２に示す携帯電話によって送信されたデータパケットの形式を示す略図である。
【図３ｂ】図３bは、図２に示す携帯電話によって送信されたデータパケットのストリームを略図的に示したものである。
【図４】図４は、画素をサンプリングする前に、その中にトレーニングイメージをワープさせた標準形状を略図的に示したものである。
【図５ａ】図５aは、図２に示す電話の一部を構成する符号化ユニットにより実行される処理ステップを示すフローチャートである。
【図５ｂ】図５bは、図２に示す電話の一部を構成する符号化ユニットにより実行される処理ステップを示す。
【図６】図６は、図２に示す電話の一部を構成するプレーヤーユニットの主要部を示すブロック図である。
【図７】図７は、図１に示すシステムにおいて代わりに用いることができる携帯電話の一態様を示すブロック図である。
【図８】図８は、図１に示すシステムの一部を構成するとともに、図７に示す電話と交信するサービスプロバイダーのサーバーの主要部を示すブロック図である。
【図９】図９は、図７に示す電話を用いた発信者と受信者間の通話の間に用いられるプロトコルを示す制御タイミング図である。
【図１０】図１０は、他の実施形態にかかる携帯電話の主要部を示すブロック図である。
【図１１】図１１は、更に他の実施形態にかかる携帯電話の主要部を示すブロック図である。
【図１２】図１２は、前記他の実施形態に用いられるサービスプロバイダーのサーバーの主要部を示すブロック図である。
【図１３】図１３は、更に他の実施形態にかかる携帯電話の主要部を示すブロック図である。
【図１４】図１４は、別の形式のプレーヤーユニットのブロック図である。
【図１５】図１５は、他の別の形式のプレーヤーユニットのブロック図である。
【図１６】図１６は、更に別の形式のプレーヤーユニットのブロック図である。

Claims

電話回線網とともに用いられる電話機であって、
パラメーターセットの一以上のパラメーターを対象物(object)のシェープノーマライズドアピアランス(shape normalised appearance)を定義するテクスチャデータに関連させ、前記パラメーターセットの一以上のパラメーターを前記対象物の形状(shape)を定義するシェープデータに関連させる関数(function)を定義するモデルデータを記憶するメモリ、
ビデオシーケンスを表す複数のパラメーターのセットを受信する手段、
少なくとも一の受信したパラメーターセットのため、前記対象物の前記シェープノーマライズドアピアランスを定義するテクスチャデータを生成するとともに、受信した複数のパラメーターセットのため、前記対象物のシェープデータを生成する手段、
前記ビデオシーケンスのフレーム中の前記対象物の外観を定義するイメージデータを生成するため、生成されたシェープデータを用い、生成されたテクスチャデータを変形する手段、および
前記ビデオシーケンスを合成するため、生成された前記イメージデータを出力するためにディスプレイを駆動するディスプレイ駆動装置、を備えたこと、
を特徴とするもの。
請求項１にかかる電話機において、
パラメーターセットから生成された前記シェープデータは、受信した前記パラメータのセットに対応する前記対象物の上の複数の所定地点の相対位置を特定する位置のセット、を備えたこと、
を特徴とするもの。
請求項２にかかる電話機において、
前記変形手段は、前記シェープノーマライズドオブジェクトを表す前記テクスチャデータ中の前記対象物上の前記複数の所定地点の位置を特定するとともに、前記所定地点の決定された位置を、前記シェープデータにより定義された対応する位置に変更するよう、前記テクスチャデータを変形するよう動作すること、
を特徴とするもの。
前記いずれかの請求項にかかる装置において、
前記生成手段は、前記対象物の前記シェープノーマライズドアピアランスを定義するテクスチャデータ、ならびに、受信したパラメーターセットのため、前記対象物のシェープデータを生成するよう動作し、前記変形手段は、前記パラメーターのセットから生成された対応するシェープデータを用い、パラメーターセットの前記生成されたテクスチャデータを変形させるよう動作すること、
を特徴とするもの。
請求項１から請求項３のいずれかにかかる装置において、
前記生成手段は、選択された前記受信パラーメーターセットのテクスチャデータを生成するよう動作し、前記生成手段が現在の受信パラメーターセットのテクスチャデータを生成しない場合、前記変形手段は、現在の受信パラメーターセットのシェープデータを用い、前のパラメーターセットテクスチャデータを変形するよう動作すること、
を特徴とするもの。
請求項５にかかる電話機であって、
それに対し前記生成手段がテクスチャデータを生成する、前記受信された複数のパラメーターセットからパラメーターのセットを選択する選択手段、を備えたこと、
を特徴とするもの。
請求項６にかかる電話機において、
前記選択手段は、所定のルールに基づき、前記受信された複数のパラメーターセットから前記パラメーターのセットを選択するよう動作すること、
を特徴とするもの。
請求項６から請求項７にかかる電話機であって、
現在のパラメーターセットからのパラメーター値と、前のパラメーターセットからのパラメーター値とを比較する手段を備えており、前記選択手段は、前記比較の結果に基づいて、前記現在のパラメーターセットを選択するよう動作すること、
を特徴とするもの。
請求項８にかかる電話機において、
前記選択手段は、前記現在のパラメーターセットの一以上が、前記前のパラメーターセットの前記対応するパラメーター値と所定のしきい値を超えて相違する場合に、前記現在のパラメーターセットを選択するよう動作すること、
を特徴とするもの。
請求項６から請求項９のいずれかにかかる装置において、
前記選択手段は、電話機で使用可能な処理能力に基づき、それに対し、前記生成手段が前記テクスチャデータを生成する前記パラメーターセット、を選択するよう動作すること、
を特徴とするもの。
請求項１０にかかる電話機において、
各パラメーターは、前記対象物の前記テクスチャの変化モードを表し、前記選択手段は、ほぼ同時に使用可能な処理能力を用い、テクスチャデータに変換可能な変化の最上位モードを、できるだけ多く選択するよう動作すること、
を特徴とするもの。
請求項１から請求項３にかかる装置であって、
現在のパラメーターセットからのパラメーター値と、前のパラメーターセットのパラメーター値とを比較する比較手段を備え、前記変形手段は、最も変化が大きいＮのパラメーター値のテクスチャデータを変形させるよう動作すること、
を特徴とするもの。
請求項１２にかかる電話機において、
前記Ｎは、利用可能な処理能力に基づいて決定されること、
を特徴とするもの。
請求項１２または請求項１３にかかる電話機において、
前記生成手段は、前記Ｎのパラメーターの決定された変化を用いて、前記前のパラメーターセットの前記シェープノーマライズドテクスチャデータ(shape normalised texture data)を更新することによりシェープノーマライズドテクスチャドデータ(shape normalised textured data)を生成するよう動作すること、
を特徴とするもの。
前記いずれかの請求項にかかる電話機において、
前記モデルデータは、受信されたパラメーターを、中間シェープパラメーター(intermediate shape parameters)のセットおよび中間テクスチャパラメーター(intermediate texture parameters)のセットに関連させる第一モデルデータを備え、前記モデルデータは、さらに、前記中間シェープパラメーターを前記シェープデータに関連させる関数を定義する第二モデルデータを備え、前記モデルデータは、さらに、前記中間テクスチャパラメーターを前記テクスチャデータに関連させる関数を定義する第三モデルデータを備え、前記生成手段は、前記第一モデルデータを用いて電話回線網から送信された、受信パラメーターの各セットの前記第一モデルデータを用い、中間シェープのセットおよびテクスチャパラメーターを生成する手段を備えたこと、
を特徴とするもの。
前記いずれかの請求項にかかる電話機において、
前記受信手段は、前記電話回線網から前記モデルデータを受信するよう動作し、さらに、前記メモリ内に前記受信モデルデータを記憶する手段を備えたこと、
を特徴とするもの。
請求項１６にかかる電話機において、
前記受信モデルデータは符号化され、さらに、前記モデルデータを復号化する手段を備えたこと、
を特徴とするもの。
請求項１７にかかる電話機において、
前記モデルデータは、目標パラメーターの各所定セットの対応するテクスチャデータを導き出すため、パラメーターの所定のセットを前記モデルデータに適用するとともに、前記パラメータのセットから生成された前述の決定済テクスチャデータを圧縮することにより、符号化され、前記復号手段は、前記圧縮されたテクスチャデータを解凍する手段、ならびに、前記解凍済テクスチャデータおよび前記所定のパラメーターセットを用い、前記モデルデータを再合成する手段、を備えたこと、
を特徴とするもの。
前記いずれかの請求項にかかる電話機であって、さらに、
ビデオシーケンスに関連づけられた音声信号を受信する手段、ならびに、ユーザーに対し、前記ビデオシーケンスと同時に前記音声信号を出力する手段、を備えたこと、
を特徴とするもの。
請求項１９にかかる電話機において、
前記音声信号ならびに前記パラメーターのセットは、互いに、交互になる(interleaved)こと、
を特徴とするもの。
前記いずれかの請求項にかかる電話機であって、
前記ビデオシーケンスを表す前記複数のパラメータセットを生成するため、音声を受信する手段および音声を処理する手段、を備え、前記受信手段は、前記音声処理手段から前記パラメーターを受信するよう動作すること、
を特徴とするもの。
請求２１にかかる電話機において、
前記音声処理手段は、前記受信した音声を、サブワードユニット(sub-word units)のシーケンスに変換する音声認識ユニット、ならびに、前記サブワードユニットのシーケンスを、前記ビデオシーケンスを表す前記複数のパラメーターセットに変換する手段、を備えたこと、
を特徴とするもの。
請求項２２にかかる電話機において、
前記変換手段は、各サブワードユニットを、前記ビデオシーケンスのフレームを表した対応するパラメータセットに変換するためのルックアップテーブルを備えたこと、
を特徴とするもの。
請求項２３にかかる電話機において、
前記変換手段は、それぞれが、対象物の異なる感情状態と関連づけられた複数のルックアップテーブルを備え、さらに、前記対象物の検出された感情状態に基づき、前記変換を実行するため、前記ルックアップテーブルの一つを選択する手段、を備えたこと、
を特徴とするもの。
請求項２４にかかる電話機において、
前記処理手段は、前記対象物の前記感情状態を決定するため、前記音声を処理するよう動作するとともに、前記変換手段により用いられる前記対応ルックアップテーブルを選択するよう動作すること、
を特徴とするもの。
請求項１から請求項１８のいずれかにかかる装置であって、
前記テキストを表現する(speaking the text) 前記対象物に対応するビデオシーケンスを表すパラメーターのセットを生成するため、テキストを受信し、受信したテキストを処理する手段を備えており、前記受信手段は、前記処理手段からの前記複数のパラメーターのセットを受信するよう動作すること、
を特徴とするもの。
請求項２６にかかる電話機であって、さらに、
前記テキストに対応する音声を合成するテキスト／音声合成装置、および、前記合成された音声を、対応するビデオシーケンスと同時に出力する手段を備えたこと、
を特徴とするもの。
請求項２６または請求項２７にかかる電話機において、
前記テキスト処理手段は、前記受信テキストをサブワードユニットのシーケンスに変換する手段、および、前記サブワードユニットのシーケンスを前記複数のパラメーターのセットに変換する手段、を備えたこと、
を特徴とするもの。
前記いずれかの請求項にかかる電話機であって、さらに、
所定のビデオシーケンスを表すパラメーターのセットを記憶するメモリを備え、さらに、それに応じて前記生成手段が、前記記憶された複数のパラメーターセットのテクスチャデータならびにシェープデータを生成するよう動作するトリガー信号を受信する手段、を備えたこと、
を特徴とするもの。
前記いずれかの請求項にかかる電話機であって、さらに、
受信パラメータのセットから変形済みパラメーターのセットへの変形を定義する変形データを記憶する手段、および、前記変形データを用い、フレーム中の前記対象物の外観を変更する手段、を備えたこと、
を特徴とするもの。
前記いずれかの請求項にかかる電話機であって、さらに、
第二の対象物のイメージデータを、パラメーターのセットに関連させる関数、を定義する第二モデルデータを記憶する第二メモリ、
前記第二の対象物のイメージデータを受信する手段、
前記イメージデータおよび前記第二モデルデータを用い、前記第二対象物のパラメーターのセットを決定する手段、および
前記第二対象物の前記決定されたパラメーターセットを、前記電話回線網に送信する手段、を備えたこと、
を特徴とするもの。
請求項３１にかかる電話機において、
前記イメージデータ受信手段は、ビデオシーケンスに対応するイメージデータを受信するよう動作し、前記パラメーター決定手段は、前記ビデオシーケンス中の前記第二対象物の複数のパラメーターセットを決定するよう動作し、前記送信手段は、前記第二対象物の前記複数のパラメーターセットを、前記電話回線網に送信するよう動作すること、
を特徴とするもの。
請求項３１または請求項３２にかかる電話機であって、さらに、
前記第二の対象物からの光を検知するとともに、そこから、前記イメージデータを生成する手段、を備えたこと、
を特徴とするもの。
請求項３１から請求項３３のいずれかにかかる装置であって、
前記送信手段は、発信側または被呼側への送信のため、前記第二モデルデータを前記電話回線網に送信するよう動作すること、
を特徴とするもの。
請求項１から請求項３０のいずれかにかかる装置であって、
ユーザーからの音声を受信するマイク、前記ユーザーの外観を表すパラメーターのセットを生成するため前記受信した音声を処理する手段、および、前記ユーザーの外観を表す前記パラメーターを前記電話回線網に送信する手段、を備えたこと、
を特徴とするもの。
請求項３５にかかる電話機において、
前記処理手段は、前記ユーザーの音声を、サブワードユニットのシーケンスに変換する自動音声認識ユニット、および、前記サブワードユニットのシーケンスを、前記ユーザーの外観を表す前記パラメーターのセットに変換する手段、を備えたこと、
を特徴とするもの。
請求項３６にかかる電話機において、
前記対応するサブワードユニットを発するとともに、前記変換手段は、各サブワードユニットを、前記ユーザーの外観を表すパラメーターのセットに変換するためのルックアップテーブル、を備えたこと、
請求項１から請求項３４のいずれかにかかる装置であって、さらに、
ユーザーからテキストを受ける手段、前記テキストを表現する前記ユーザーの外観を表すパラメーターのセットを生成するために、受け取ったテキストを処理する手段、および、前記ユーザーの外観を表す前記パラメーターを、前記電話回線網に送信する手段、を備えたこと、
を特徴とするもの。
請求項３８にかかる電話機において、
前記テキスト処理手段は、受信テキストをサブワードユニットのシーケンスに変換する第一変換手段、前記サブワードユニットのシーケンスを前記複数のパラメーターセットに変換する第二変換手段、を備えたこと、
を特徴とするもの。
前記いずれかの請求項にかかる電話機において、
前記テクスチャデータは、前記対象物の前記シェープノーマライズドアピアランスを定義すること、
を特徴とするもの。
請求項４０にかかる電話機において、
前記テクスチャデータは、独立した、赤のテクスチャデータ、緑のテクスチャデータ、および、青のテクスチャデータ、を備えたこと、
を特徴とするもの。
前記いずれかの請求項にかかる電話機において、
前記対象物は、通話に関係する当事者の顔を表すこと、
を特徴とするもの。
請求項４２にかかる電話機において、
前記生成手段は、前記顔の目、前記顔の口ならびに前記顔の残りの部分用に独立したテクスチャデータを生成するよう動作すること、
を特徴とするもの。
請求項３８にかかる電話機において、
各パラメーターのセットは、それぞれ、パラメーターのサブセットであって、各サブセットが前記顔の目、前記顔の口ならびに前記顔の残りの部分のいずれか、に関連づけられているもの、を備えたこと、
を特徴とするもの。
請求項４３または請求項４４にかかる電話機において、
前記顔の残りの部分の前記テクスチャデータは、一定のテクスチャであること、
を特徴とするもの。
電話回線網とともに用いられる電話機であって、
ユーザーからの音声信号を受ける手段、
前記音声を表現する前記ユーザーの外観を表す複数のパラメーターのセットを生成するため、前記受けた音声信号を処理する手段、および
前記ユーザーの外観を表す前記パラメーターを、前記電話回線網に送信する手段、を備えたこと、
を特徴とするもの。
請求項４６にかかる電話機において、
前記処理手段は、前記ユーザーの音声をサブワードユニットのシーケンスに変換する自動音声認識ユニット、および、前記サブワードユニットのシーケンスを、前記ユーザーの外観を表す前記パラメーターセットに変換する手段、を備えたこと、
を特徴とするもの。
請求項４７にかかる電話機において、
前記対応するサブワードユニットを発するとともに、前記変換手段は、各サブワードユニットを、前記ビデオシーケンスのフレームを表した対応するパラメータセットに変換するための変換するルックアップテーブル、を備えたこと
を特徴とするもの。
請求項４８にかかる電話機において、
前記変換手段は、複数のルックアップテーブルを備え、前記音声処理手段は、前記受信音声信号から前記ユーザーの気分を識別するとともに、前記変換手段によって用いられるルックアップテーブルを選択するよう動作すること、
を特徴とするもの。
電話回線網とともに用いられる電話機であって、
ユーザーからテキストを受信する手段、
前記テキストを表現する前記ユーザーの外観を表す複数のパラメーターのセットを生成するため、前記受信したテキストを処理する手段、および
前記ユーザーの外観を表す前記パラメーターを、前記電話回線網に送信する手段、を備えたこと、
を特徴とするもの。
請求項５０にかかる電話機において、
前記テキスト処理手段は、前記受信テキストを、サブワードユニットのシーケンスに変換する第一変換手段、および、前記サブワードユニットのシーケンスを、前記複数のパラメーターセットに変換する第二変換手段、を備たこと、
を特徴とするもの。
請求項５１にかかる電話機において、
前記対応するサブワードユニットを発するとともに、前記第二変換手段は、各サブワードユニットを、前記ユーザーの外観を表した対応するパラメータセットに変換するためのルックアップテーブル、を備えたこと、
を特徴とするもの。
請求項５２にかかる電話機において、
前記第二変換手段は、それぞれが、前記ユーザーのそれぞれ異なる気分と関連づけられた複数のルックアップテーブルを備え、さらに、前記ユーザーの現在の気分を検出するとともに、前記変換手段により用いられる対応するルックアップテーブルを選択する手段、を備えたこと、
を特徴とするもの。
ＧＳＭ回線とともに用いられるＧＳＭ電話であって、
音声データを符号化するＧＳＭオーディオ符号化回路、
オーディオデータおよびビデオデータを受信する手段、
混合オーディオ・ビデオデータのストリームを生成するため、前記オーディオデータおよび前記ビデオデータを混合する手段、
前記オーディオ符号化回路を用いて、前記混合されたオーディオ・ビデオデータのストリームを符号化する手段、および
前記符号化されたオーディオ・ビデオデータを、前記電話回線網に送信する手段、を備えたこと、
を特徴とするもの。
第一および第二加入者電話間の通信リンクを制御する電話回線網サーバーであって、
パラメーターセットの一以上のパラメーターを、前記第一加入者と関連づけられた対象物のシェープノーマライズドアピアランスを定義するテクスチャデータに関連させるとともに、前記パラメーターセットの一以上のパラメーターと前記第一加入者と関連づけられた前記対象物の形状を定義するシェープデータを関連させる関数を定義する前記第一加入者電話のモデルデータを記憶するメモリ、
前記第一加入者と前記第二加入者間で通話が開始されたことを示す信号を受信する手段、および
前記第一加入者から前記第二加入者電話へ前記モデルデータを送信するための前記信号に応答する手段、を備えたこと、
を特徴とするもの。
請求項５５にかかる電話回線網サーバーにおいて、
前記メモリは、さらに、前記第二加入者のためのモデルデータを備え、前記送信手段は、前記第二加入者のための前記モデルデータを、前記第一加入者の電話機に送信するよう動作すること、
を特徴とするもの。
請求項５５または請求項５６にかかる電話回線網サーバーであって、さらに、
そこから、前記モデルデータを用いてビデオシーケンスを合成することができ、ビデオシーケンスを表す複数のパラメーターのセットを生成する手段、および、前記パラメータのセットを、前記第一または前記第二加入者の電話機に送信する手段、を備えたこと、
を特徴とするもの。
請求項５７にかかる電話回線網サーバーにおいて、
前記生成手段は、前記第一加入者の電話より受信した音声信号から前記複数のパラメーラーのセットを生成するよう動作すること、
を特徴とするもの。
請求項５８にかかる電話回線網サーバーであって、さらに、
前記受信した音声信号を処理するとともに、前記受信した音声を表すサブバンドユニットのシーケンスを生成する自動音声認識ユニット、および、前記サブバンドユニットのシーケンスを、前記複数のパラメーターのセットに変換する手段、を備えたこと、
を特徴とするもの。
請求項５６にかかる電話回線網サーバーにおいて、
前記生成手段は、前記第一加入者の電話機からテキストを受信する手段、前記受信テキストをサブワードのシーケンスに変換する第一変換手段、および、前記サブワードのシーケンスを前記複数のパラメーターのセットに変換する第二変換手段、を備えたこと、
を特徴とするもの。
請求項５９または請求項６０にかかる電話回線網サーバーにおいて、
前記変換手段は、各サブワードユニットを、対応するパラメーターのセットに関連させるルックアップテーブルを備えたこと、
を特徴とするもの。
電話回線網であって、
請求項５５から請求項６１のいずれかの電話回線網サーバー、ならびに、請求項１から請求項５４のいずれかにかかる複数の電話機、を備えたこと、
を特徴とするもの。
ビデオシーケンスを合成する装置であって、
パラメーターセットの一以上のパラメーターと、対象物のシェープノーマライズドアピアランスを定義するテクスチャデータ、を関連させるとともに、前記パラメーターセットの一以上のパラメーターと、前記対象物の形状を定義するシェープデータを関連させる関数を定義するモデルデータを記憶するメモリ、
ビデオシーケンスを表す複数のパラメーターセットを受信する手段、
少なくとも一の受信したパラメーターセットのため、前記対象物の前記シェープノーマライズドアピアランスを定義するテクスチャデータを生成するとともに、受信した複数のパラメーターセットのため、前記対象物のためのシェープデータを生成する手段、
前記ビデオシーケンスのフレーム中の前記対象物の形状を定義するイメージデータを生成するため、生成されたシェープデータを用い、生成されたテクスチャデータを変形する手段、および
前記ビデオシーケンスを合成するため、生成された前記イメージデータを出力するためにディスプレイを駆動するディスプレイ駆動装置、を備えたこと、
を特徴とするもの。
請求項６３にかかる装置において、
前記生成手段は、選択された前記受信パラーメーターセットのテクスチャデータを生成するよう動作し、前記生成手段が現在の受信パラメーターセットのテクスチャデータを生成しない場合、前記変形手段は、現在の受信パラメーターセットのシェープデータを用い、前のパラメーターセットテクスチャデータを変形するよう動作すること、
を特徴とするもの。
請求項６４にかかる装置であって、
それに対し前記生成手段がテクスチャデータを生成する、前記受信された複数のパラメーターセットからパラメーターのセットを選択する選択手段、を備えたこと、
を特徴とするもの。
請求項６５にかかる装置において、
前記選択手段は、所定のルールに基づき、前記受信された複数のパラメーターセットから前記パラメーターのセットを選択するよう動作すること、
を特徴とするもの。
請求項６５または請求項６６にかかる装置であって、
現在のパラメーターセットからのパラメーター値と、前のパラメーターセットからのパラメーター値とを比較する手段を備えており、前記選択手段は、前記比較の結果に基づいて、前記現在のパラメーターセットを選択するよう動作すること、
を特徴とするもの。
請求項６７にかかる電話機において、
前記選択手段は、前記現在のパラメーターセットの一以上が、前記前のパラメーターセットの前記対応するパラメーター値と所定のしきい値を超えて相違する場合に、前記現在のパラメーターセットを選択するよう動作すること、
を特徴とするもの。
請求項６５から請求項６８のいずれかにかかる装置において、
前記選択手段は、電話で使用可能な処理能力に基づき、それに対し、前記生成手段が前記テクスチャデータを生成する前記パラメーターセット、を選択するよう動作すること、
を特徴とするもの。
請求項６３から請求項６９のいずれかにかかる装置において、
前記モデルデータは、受信されたパラメーターを、中間シェープパラメーターのセットおよび中間テクスチャパラメーターのセットに関連させる第一モデルデータを備え、前記モデルデータは、さらに、前記中間シェープパラメーターを前記シェープデータに関連させる関数を定義する第二モデルデータを備え、前記モデルデータは、さらに、前記中間テクスチャパラメーターを前記テクスチャデータに関連させる関数を定義する第三モデルデータを備え、前記生成手段は、受信パラメーターの各セットの前記第一モデルデータを用い、中間シェープのセットおよびテクスチャパラメーターを生成する手段を備えたこと、
を特徴とするもの。
ビデオシーケンスに関連づけられた音声信号を受信する手段、ならびに、ユーザーに対し、前記ビデオシーケンスと同時に前記音声信号を出力する手段、を備えたこと、
を特徴とするもの。
請求項６３から請求項７１のいずれかにかかる装置において、
前記ビデオシーケンスを表す前記複数のパラメータセットを生成するため、音声を受信する手段および受信した音声を処理する手段、を備え、前記受信手段は、前記音声処理手段から前記パラメーターを受信するよう動作すること、
を特徴とするもの。
請求７２にかかる装置において、
前記音声処理手段は、前記受信した音声を、サブワードユニットのシーケンスに変換する音声認識ユニット、ならびに、前記サブワードユニットのシーケンスを、前記ビデオシーケンスを表す前記複数のパラメーターセットに変換する手段、を備えたこと、
を特徴とするもの。
請求項７３にかかる装置において、
前記変換手段は、各サブワードユニットを、前記ビデオシーケンスのフレームを表した対応するパラメータセットに変換するためのルックアップテーブルを備えたこと、
を特徴とするもの。
請求項７３にかかる装置において、
前記変換手段は、それぞれが、対象物の異なる感情状態と関連づけられた複数のルックアップテーブルを備え、さらに、前記変換手段により用いるため、前記対象物の検出された感情状態に基づいて前記ルックアップテーブルの一つを選択する手段、を備えたこと、
を特徴とするもの。
請求項７３にかかる装置において、
前記音声認識ユニットは、前記音声信号から、前記対象物の前記感情状態を検出するよう動作すること、
を特徴とするもの。
請求項６３から請求項７１のいずれかにかかる装置であって、
前記テキストを表現する前記対象物に対応するビデオシーケンスを表すパラメーターのセットを生成するため、テキストを受信し、受信したテキストを処理する手段を備えており、前記受信手段は、前記処理手段からの前記複数のパラメーターのセットを受信するよう動作すること、
を特徴とするもの。
請求項７７にかかる装置であって、さらに、
前記テキストに対応する音声を合成するテキスト／音声合成装置、および、前記合成された音声を、対応するビデオシーケンスと同時に出力する手段を備えたこと、
を特徴とするもの。
請求項７７または請求項７８にかかる装置において、
前記テキスト処理手段は、受信テキストをサブワードユニットのシーケンスに変換する第一変換手段、前記サブワードユニットのシーケンスを前記複数のパラメーターセットに変換する第二変換手段、を備えたこと、
を特徴とするもの。
請求項７９にかかる装置において、
前記第二変換手段は、各サブワードユニットを、前記ビデオシーケンスのフレームを表す対応するパラメータセットに変換するためのルックアップテーブル、を備えたこと
を特徴とするもの。
請求項８０にかかる装置において、
前記第二変換手段は、複数のルックアップテーブルを備え、さらに、前記第二変換手段によって用いるため、前記複数のルックアップテーブルの一つを選択する手段を備えたこと、
を特徴とするもの。
コンピュターで実行可能なプロセスステップを記憶したコンピュータ可読の媒体であって、
プログラム可能なコンピューターを、請求項１から請求項５４のいずれかにかかる電話機、請求項５５から請求項６２のいずれかにかかる電話回線網サーバー、または、請求項６３から請求項８１のいずれかにかかる装置、として構成させること、
を特徴とするもの。
コンピューター実行可能な命令であって、
プログラム可能なプロセッサーを、請求項１から請求項５４のいずれかにかかる電話機、請求項５５から請求項６２のいずれかにかかる電話回線網サーバー、または、請求項６３から請求項８１のいずれかにかかる装置として構成させること、
を特徴とするもの。