JP2004533666A - 通信システム - Google Patents
通信システム Download PDFInfo
- Publication number
- JP2004533666A JP2004533666A JP2002553837A JP2002553837A JP2004533666A JP 2004533666 A JP2004533666 A JP 2004533666A JP 2002553837 A JP2002553837 A JP 2002553837A JP 2002553837 A JP2002553837 A JP 2002553837A JP 2004533666 A JP2004533666 A JP 2004533666A
- Authority
- JP
- Japan
- Prior art keywords
- parameters
- data
- telephone
- parameter
- shape
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Input (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】
【解決手段】加入者電話が、通話相手の外観の外観モデルを記憶し、電話回線網から受信した外観パラメーターのセットから、かかる相手のビデオシーケンスを合成する電話システムについて説明する。前記外観モデルは、ユーザーの電話に設けられているカメラ、あるいは、かかる関係者により入力されたテキストまたはスピーチ信号、のいずれによっても生成可能である。
【選択図】図1
【解決手段】加入者電話が、通話相手の外観の外観モデルを記憶し、電話回線網から受信した外観パラメーターのセットから、かかる相手のビデオシーケンスを合成する電話システムについて説明する。前記外観モデルは、ユーザーの電話に設けられているカメラ、あるいは、かかる関係者により入力されたテキストまたはスピーチ信号、のいずれによっても生成可能である。
【選択図】図1
Description
【技術分野】
【0001】
この発明は、ビデオ処理方法ならびに方法に関する。本発明は、具体的には、それには限定されないが、陸上線(land line)あるいは携帯通信装置を用いたテレビ電話(video telephony)、テレビ会議(video conferencing)等に関する。
【背景技術】
【0002】
既存のテレビ電話システムは、通信ネットワーク(例えば、電話回線網あるいはインターネット)とユーザーの電話間で用いることができる帯域が制限されるという問題がある。この結果、既存のテレビ電話システムは、送信されるビデオイメージデータの量を低減するため(MPEG等の)効率的なコーデイング技術を用いる。しかし、圧縮されたイメージデータであっても、データ量が比較的大きいので、ユーザー端末とネットワーク間で広い帯域幅を有するリアルタイムのテレビ電話アプリケーションを必要とする。
【発明の開示】
【発明が解決しようとする課題】
【0003】
本発明は、他のテレビ通信システムを提供することを目的とする。
【課題を解決するための手段】
【0004】
ある側面において、本発明は、記憶された外観モデルを用い、外観パラメーターのセットを、シェープおよびテクスチャパラメーター中に展開し、質感を生成するためテクスチャパラメーターを一緒にモーフィングし、シェープを生成するためシェープパラメーターを一緒にモーフィングするとともに、前記シェープを用い、前記質感をイメージに変形することにより、動画シーケンスを生成可能な電話を提供する。かかるパラメーターの受信ステップを繰り返し行うことにより、動画化されたビデオシーケンスを、再生成し、電話機のデイスプレイ上でユーザーに表示することができる。好ましい実施形態においては、顔の別の部分を模倣するため、別のパラメーターが用いられる。ほとんどの顔の質感は、顔毎に変わらないので、このことは、有益である。処理能力の低い装置では、フレーム毎に質感を計算する必要がなく、二番目または三番目のフレーム毎に再計算することもでき、あるいは、質感がしきい値を所定量を超えて変化した場合に、再計算するようにしてもよい。
【0005】
本発明の他の多くの特徴ならびに側面は、添付した図面を参照しつつ説明がなされる、以下の例示的な実施形態によって理解されよう。
【発明を実施するための最良の形態】
【0006】
全体構成
図1は、ローカル交換機5を介して公衆交換電話網(PSTN)7に接続された複数のユーザー陸上線電話3−1、3−2および3−3を備えた電話回線1を略図的に示している。PSTN7には、複数の基地局11−1、11−2、並びに11−3にリンクされた移動スイッチングセンター(MSC)9も接続されている。かかる基地局11は、複数の携帯電話13−1、13−2ならびに13−3に対し、通話を送受信するよう動作可能であり、移動スイッチングセンター9は、基地局11相互間ならびに基地局11とPSTN7間の接続を制御するよう動作可能である。図1に示すように、移動スイッチングセンター9は、本実施形態において、加入者の外観、あるいは、加入者が使用を希望するキャラクターの外観を模倣する外観モデルを生成するサービスプロバイダーのサーバー15にも接続されている。外観モデルが加入者の外観を模倣した場合、適切な外観モデルを生成するよう、加入者のデジタルイメージがサービスプロバイダーのサーバー15に与えられる。この実施形態において、これらのデジタル写真は、国中に地理的に分散して配置された複数の写真ブース17のいずれのブースからでも生成することが出来る。
【0007】
一の加入者の携帯電話13−1を用いてテレビ電話による通話を行う方法について簡単に説明する。本実施形態において、発信者が、加入者携帯電話13−1を用いて通話を開始する場合、音声通話は、基地局11−1ならびに、移動スイッチングセンター9を介し、通常の方法で設定される。本実施形態において、加入者携帯電話13は、ユーザーのビデオ画像を生成するビデオカメラ23を備えている。しかし、本実施形態において、カメラ23からのビデオ画像は、基地局に送信されない。その代わりに、携帯電話13は、基地局11に対して外観モデルおよび音声と一緒に送信される外観パラメーターのシーケンスを生成するため、ビデオ画像をパラメーター化するユーザーの外観モデルを用いる。このデータは、次に、電話回線網を介し、そこで、パラメーターならびに外観モデルを用いてビデオ画像が再同期される被呼側の電話器に従来の方法で送られる。同様に、被呼側用の外観モデルは、被呼側で生成された外観パラメーターのシーケンスと一緒に、電話回線網を介し、そこで、被呼側のビデオ画像を再同期させるため、同様の処理が行われる加入者電話13−1に送信される。
【0008】
本実施形態においてこれを達成する方法について、携帯電話13−1と携帯電話13−2との間で通話がなされる場合を例に、図2から図5を参照しつつ詳細に説明する。図2は、図1に示された各携帯電話13のブロック図である。図示したように、電話13は、ユーザーの話し声を受け、それを対応する電気信号に変換するマイク21を備えている。携帯電話13は、ユーザーからの光を通常の方法で連続的にビデオ信号を生成するCCDチップ27上に集光する光学系25を有する、ビデオカメラ23を備えている。図示したように、ビデオ信号は、ビデオシーケンス中のユーザーの顔の動きを追跡するため、ビデオシーケンスの各フレームを順番に処理するトラッカーユニット33へ送られる。かかる追跡を実行するため、トラッカーユニット33は、ユーザーの顔の形状ならびに質感(texture)の変動性を模倣する外観モデルを用いる。ユーザーが最初にシステムに加入した場合、かかる外観モデルがユーザー外観モデル記憶部35に記憶され、サービスプロバイダーのサーバー15により生成され、携帯電話13−1内にダウンロードされる。ビデオシーケンスにおけるのユーザーの顔の動きを追跡中、トラッカーユニット33は、各フレームのため、ポーズならびに現在のフレームにおけるユーザーの顔の表情を表す外観パラメーターを生成する。こうして生成されたポーズならびに外観パラメーターは、次に、マイク21から出力された音声信号と一緒にエンコーダーユニット39に入力する。
【0009】
しかし、本発明においては、エンコーダーユニット39が、ポーズおよび外観パラメーターならびに音声を符号化する前、かかるユニットは、トランシーバーユニット41およびアンテナ43を介した被呼側の携帯電話13−2への送信のため、ユーザーの外観モデルを符号化する。かかる符号化済みのユーザーの外観モデルは、次の送信のため他のビデオ通話内に記憶してもよい。次に、エンコーダーユニット39は、ポーズのシーケンスならびに外観パラメーターを符号化し、かかるユニットが被呼側の携帯電話13−2に送信した対応する音声信号を復号化する。本実施形態において、音声信号は、CELPエンコーデイング技術を用いて符号化され、符号化されたCELPパラメーターは、エンコードされたポーズならびに外観パラメーターを伴いインターリーブ法により送信される。
【0010】
図2に示すように、被呼側の携帯電話13−2から受信したデータは、トランシーバーユニット41から送信されたデータを復号するデコーダーユニット51へと送られる。最初に、デコーダーユニット51は、その後、被呼側の外観モデル記憶部54に記憶される被呼側の外観モデルを受信し、復号化する。一旦、これが受信され復号化されると、デコーダーユニット51は、符号化されたポーズおよび外観パラメーターならびに符号化済の音声信号を受信し、復号化する。復号化されたポーズおよび外観パラメーターは、次に、復号化された被呼側の外観モデルを用い、受信されたポーズおよび外観モデルに対応するビデオフレームのシーケンスを生成するプレーヤーユニット53に送られる。生成されたビデオフレームは、次に、ユーザーに対して再生成されたビデオシーケンスが表示される携帯電話のデイスプレイ55に出力される。デコーダーユニット51により出力された復号化済の音声信号は、携帯電話のスピーカー59に復号化された音声信号を出力するオーディオ駆動ユニット57へ送られる。プレーヤーユニット53ならびにオーディオ駆動ユニット57の動作は、デイスプレイ55上に表示されるイメージが、スピーカー59により出力される適切な音声信号と時間的に同期(time synchronised)するよう、構成される。
【0011】
本実施形態において、携帯電話13は、符号化済のポーズおよび外観パラメーターならにび符号化済の音声信号をデータパケットで送信する。このパケットの一般的なフォーマットが、図3aに示されている。図示したように、各パケットは、ヘッダ部121とデータ部123とを含んでいる。ヘッダ部121は、パケットのサイズとタイプを表している。これにより、データフォーマットを互換性を有するよう前後に簡単に拡張することができる。例えば、新しいデータストリーム上に古いプレーヤーユニット53が用いられている場合、パケットが認識できない場合もある。この場合、古いプレヤーユニットは、かかるパケットを単に無視すればよく、他のパケットを処理する機会もある。各パケットにおけるヘッダ121は、パケットのサイズを識別するための16ビット(ビット0からビット15まで)データを含む。ビット15が0に設定された場合、他の15ビットにより定義されたサイズは、バイトにおけるパケットのサイズである。他方、ビット15が1に設定された場合、残りのビットは、32kブロックにおけるパケットのザイスを表す。本実施形態において、エンコーダーユニット39は、6つの異なるタイプのパケット(図3bに示す)を生成することができる。
【0012】
これらは、以下を含んでいる:
1.バージョンパケット125−ストリーム中で最初に送られるパケットがバージョンパケットである。バージョンパケットにおいて定義される数は、整数であり、現在3に設定されている。この番号は、パケットシステムが拡張可能であるため変更されることはない。
【0013】
2.情報パケット127−次に送信されるパケットは、同期バイト(sync byte)を含む情報パケットであり;バイトは、ビデオの毎秒当たりの平均(mean)サンプル(またはフレーム)を識別する;データは、ビデオの不足数(video short)の各サンプルを動画化するためのパラメーターデータの不足数(shorts)を識別する;バイトは、毎秒当たりのオーディオサンプルの数を識別する;バイトは、オーディオのサンプル毎のデータのバイト数を識別し、ビットは、オーディオが圧縮されているか否かを識別する。現在、このビットは、非圧縮オーディオに対して0に設定され、毎秒4800ビットに圧縮されたオーディオに対して1に設定されている。
【0014】
3.音声パケット129−非圧縮オーディオのためものであって、各パケットは、1秒分の音声データを含む。毎秒4800ビットに圧縮されたオーディオについて、各パケットは、30ミリ秒に相当するデータ、18バイトを含む。
【0015】
4.ビデオパケット131−ビデオのサンプルの一つを動画化するための外観パラメーターデータである。
【0016】
5.スーパーオーディオパケット133−これは、ノーマルオーディオパケット129用に連結されたデータのセットである。本実施形態において、プレーヤーユニット53は、そのサイズにより、前記スーパーオーディオパケット中のオーディオパケットの数を決定する。
【0017】
6.スーパービデオパケット135−これは、ノーマルビデオパケット131から連結されたデータのセットである。本実施形態において、プレーヤーユニット53は、スーパービデオパケットのサイズにより、ビデオパケットの数を決定する。
【0018】
本実施形態において、送信されたオーディオおよびビデオパケットは、最先のパケットが最初に送信されるよう時間順(in time order)に送信ストリーム中に混合される。パケット構造を上述の方法で組織化することにより、PSTN7を介するだけでなく、インターネットを介してデータを送ることを可能とする。
【0019】
外観モデル
本発明において用いられる外観モデルは、クーテス等(Cootes et al.)により開発され、1995年1月発行のコンピュータビジョンおよびイメージの理解 第61巻、No1.中の38ページから59ページにある”アクテイブシェープモデル−そのトレーニングと応用”と題された論文で述べられたものと同様のものである。これらの外観モデルは、顔のイメージのコンテンツに関し、従来からいくつか知見があるという事実を利用するものである。例えば、人間の顔には、それぞれ目、鼻および口を含む2つの正面イメージがある、と推測することができる。
【0020】
本実施形態において、上述のように、外観モデルは、サービスプロバイダーのサーバー15において生成される。これらの外観モデルは、各ユーザーの複数のトレーニングイメージを分析することによって生成される。ユーザーの外観モデルが、ビデオシーケンスの範囲内でユーザーの顔の変動を模倣可能とするため、トレーニングイメージは、顔の表情についての幅広い変動および3Dのポーズを有するユーザーのイメージを含んでいなければならない。本実施形態において、これらのトレーニングイメージは、ユーザーがフォトブース17の一つに入り、デジタルカメラにより撮影することにより生成される。本実施形態において、全てのトレーニングイメージが、500X500画素を有しており、各画素は、赤、緑および青のピクセル値を有する。こうして生成された外観モデル35は、比較的小さい数のパラメーター(通常、一人について15から40)によって頭部のイメージが詳細に(画素レベルで)表現可能になるよう、トレーニングイメージ中の頭部により定義された頭部のイメージの様々な種類の外観をパラメーター化したものである。
【0021】
出願人による、以前の国際出願番号WO 00/17820(その内容が参照のため本明細書に取り込まれる)で説明したように、外観モデルは、トレーニングイメージ中の顔の形状の変動性を模倣するシェープモデル、ならびに、テキスチャーの変動性あるいはレーニングイメージにおける画素の色を模倣するテクスチャモデル、を最初に決定し、次に、前記シェープモデルとテクスチャモデルを組み合わせることにより、生成される。
【0022】
シェープモデルを作り出すため、ランドマークポイントの複数の位置がトレーニングイメージ上で認識され、次に、同じランドマークポイントが、他のトレーニングイメージ上で認識される。ランドマークポイントのこの位置の結果が、前記イメージ中の各ランドマークポイントの(x、y)座標を認識する各トレーニングイメージに関するランドマークポイントのテーブルである。本実施形態において用いられているモデリング技術は、これらの位置がどのように変化するかを認識するため、次に、トレーニングセットにわたってこれらの座標を検査する。異なるイメージから同じポイントの比較を可能とするため、頭部は、共通の軸に対して位置あわせを行わなければならない。これは、それらが全て同じ基準フレームに入るよう、各頭部毎に座標のセットを相互に回転させ、スケーリングし、平行移動することにより実行される。各頭部毎の座標のセットは、そのエレメントが基準フレーム内のランドマークポイントの座標と対応する、シェープベクトル(xi)を形成する。本実施形態において、次に、シェープモデルは、シェープトレーニングベクトル(xi)について、主要構成要素分析(PCA)を実行することによって生成される。この主要構成要素分析は、各シェープベクトル(xi)と、シェープパラメーター(Ps i)の対応するベクトルとを関連づけるシェープモデル(Qs)を、以下の式により生成する:
【0023】
【数1】
【0024】
ここで、xi は、シェープベクトルであり、X~は、シェープトレーニングベクトルからの平均シェープベクトルであり、Ps i はシェープベクトルxi 用のシェープパラメーターのベクトルである。マトリクスQsは、トレーニングイメージの頭部中の、シェープの変化のメインモードならびにポーズを表わし;与えられた入力頭部用のシェープパラメーター(Ps i)のベクトルは、変化の各モードと関連するパラメーターであって、その値が、入力された頭部のシェープと、対応する変化モードを関連させるもの、を有している。例えば、トレーニングイメージが、ユーザーが左右を向き、正面を向いたイメージを含む場合、次に、シェープモデル(Qs)により表される一の変化モードは、特に影響を及ぼし、ユーザーが注目するシェープパラメーター(Ps)のベクトル中に、関連するパラメーターを有する。具体的には、パラメーター値がほぼー1の場合、左を向いたユーザーと関連づけられ、その値が0に近い場合、正面を向いたユーザーと関連づけられ、その値がほぼ+1の場合、右を向いたユーザーと関連づけられるよう、ー1から+1の間で変化する。したがって、トレーニングデータ中の変化を説明するために必要とされる変化モードが多ければ多いほど、シェープパラメーターPs i中に、より多くのシェープパラメーターが必要となる。本実施形態においては、トレーニングヘッド中において見られる変化の98%を説明するため、使用された特定のトレーニングイメージについて、20個の異なるシェープならびにポーズの変化モードを模倣しなければならない。
【0025】
与えられたシェープベクトルxiに関するシェープパラメーターPs i のセットを求めることができるのに加え、以下でxi を得ることにより式(1)を解くことができる:
【0026】
【数2】
【0027】
QsQs Tがアイデンテティーマトリクスと等しいので、適切な範囲内でシェープパラメーター(Ps i )のセットを調整することにより、トレーニングセット中にあるものと近似する新しいヘッドシェープを生成することができる
シェープモデルが生成されると、トレーニングフェース内のテクスチャを模倣するため類似のモデル、具体的には、トレーニングフェース内の赤、緑ならびに青レベルが生成される。これを実行するため、本実施形態においては、各トレーニングフェースを基準シェープに変形させる。出願人の以前の国際出願において、基準シェープは、平均的なシェープであった。しかし、このことは、トレーニングフェース内の全ての面にわたる画素サンプリングについて一定の解像度を要することになる。したがって、唇部分の10倍の面積を有する頬に対応する面については、10倍の数の画素をサンプリングしなければならない。この結果、この頬の面は、望ましくないテクスチャモデルの10倍に匹敵する(contribute to)。したがって、本実施形態においては、顔の他の部分よりも目および口の領域を緻密にサンプリングするように、目と口の周囲の面を基準シェープよりも大きくすることによって基準シェープを変形する。本実施形態において、これは、各イメージのランドマークポイントの位置が基準ヘッドのシェープならびにポーズを表す対応ランドマークポイント(前もって決定されている)の位置と合致するまで各トレーニングイメージヘッドを変形させることによって達成される。これらの変形シェープイメージにおけるカラー値は、テクスチャモデルに対する入力ベクトルとして用いられる。本実施形態において用いられる基準シェープならびに基準シェープにおけるランドマークポイントの位置は、図4に概略的に示されている。図4から読み取ることが出来るように、基準シェープの目および口のサイズは、顔の他の部分と比較して誇張されている。したがって、トレーニングイメージがサンプリングされた場合、顔の他の部分と比べ、目および口の周囲の画素をより多く取る。これにより、テクスチャモデルが、口および目の中およびその周囲の変化により敏感に応答するという結果になり、したがって、ユーザーは、ソースビデオシーケンス内を追跡した方がよい。各トレーニングヘッドを基準シェープに変形させるのに様々な三角測量技術を用いることが出来る。かかる技術の一つは、前述の出願人の以前の国際出願において説明されている。
【0028】
トレーニングヘッドが基準シェープに変形されると、変形シェープヘッドにわたって均一に配置された10、000個の点における各カラーレベルをサンプリングすることにより、各変形シェープイメージについての赤、緑ならびに青のレベルベクトル(ri 、gi ならびにbi)が決定される。赤レベルベクトルの主要構成要素分析は、各赤レベルベクトルを赤レベルパラメーターの対応ベクトルに関連させる赤レベルモデル(マトリクスQr)を以下により生成する:
【0029】
【数3】
【0030】
ここで、ri は、赤のレベルベクトルであり、r~は、赤レベルトレーニングベクトルからの平均レッドレベルベクトルであり、Ps i は、赤のレベルベクトルri 用の赤レベルパラメーターのベクトルである。緑ならびに青についての同様の主成構成要素分析が、以下のように同様のモデルを生じさせる:
【0031】
【数4】
【0032】
【数5】
【0033】
これらのカラーモデルは、シェープが整えられた(shape−normalised)トレーニングフェース内のカラーの変化のメインモードを表す。
【0034】
xi について式(1)を解くのと同様に、式(3)から(5)は、ri 、gi ならびにbi を得ることにより解くことができる:
【0035】
【数6】
【0036】
QsQs T, QgQs T ならびにQbQb T は、単位マトリクス(identity matrices)であるので、カラーパラメーターのセット(Pr、PgあるいはPb)を、適切な範囲内で調整することにより、トレーニングセット中にあるものと近似する新しい変形シェープカラーフェースを生成することができる。
【0037】
上述のように、シェープモデルおよびカラーモデルは、シェープおよびカラーの両方がトレーニングイメージの顔の範囲内で変化する方法を全体として模倣する外観モデル(Fa)を生成するため用いられる。シェープとカラーバリエーションとの間には、トレーニングフェース内の全体としての変化を表すのに必要なパラメーターを低減させるために用いることができる相関関係があるので、組み合わされた外観モデルが生成される。本実施形態において、これは、トレーニングイメージに関して、シェープならびに赤、緑および青のパラメーターについて更なる主要構成要素分析を実行することにより達成される。具体的には、シェープパラメーターは、各トレーニングイメージの赤、緑ならびに青のパラメーターと一緒に連結され、ついで、外観モデル(マトリクスFa)を決定するため、連結されたベクトルについて主要構成要素分析が実行される。しかし、本実施形態においては、シェープパラメーターとテクスチャパラメーターを一緒に連結する前に、主要構成要素分析がテクスチャパラメーターによって支配されないよう、シェープパラメーターに重点を置いている(weightened)。これは、以下のように、式(2)に重み付けマトリックス(Hs)を導入することにより達成される:
【0038】
【数7】
【0039】
ここで、Hs は、適切なサイズの単位マトリクスの倍数(λ)である、すなわち:
【0040】
【数8】
【0041】
ここで、λは、定数である。発明者は、1、000から10、000のλの値が、よい結果をもたらすことを発見した。したがって、Qs T ならびにPs iは:
【0042】
【数9】
である。
【0043】
シェープパラメーターの重み付けが行われると、以下のように外観モデルを決定するため、各トレーニングイメージ用の調整済シェープパラメーターならびに赤、緑および青のパラメーターの連結済みベクトルについて主要構成要素分析が実行される:
【0044】
【数10】
【0045】
ここで、Ps iは、シェープ並びにカラーの両方を制御する外観パラメーターのベクトルであり、Pi c cは、連結された調整済みシェープならびにカラーパラメーターのベクトルである。
【0046】
調整済シェープモデル(Qs)、カラーモデル(Qr,,Qg およびQb)ならびに外観モデル(Fa)が決定されると、これらは、次の使用のため記憶されるユーザーの携帯電話13に送信される。
【0047】
外観パラメーターのセットにより入力インターフェースを表すことができることに加えて、入力された顔を再生成するため、これらの外観パラメーターを用いることも可能である。具体的には、式(10)と式(1)および(3)から(5)までを組み合わせることにより、シェープベクトルならびにRGBレベルベクトルのための式が以下のように確定する:
【0048】
【数11】
【0049】
【数12】
【0050】
【数13】
【0051】
【数14】
【0052】
ここで、Vsは、FaおよびQsから得ることができ、Vrは、FaおよびQrから得ることができ、Vgは、FaおよびQgから得ることができ、Vvは、FaおよびQbから得ることができる。顔を再生成するため、カラーパラメーターから生成された変形シェープカラーイメージは、シェープベクトルにより表現されているように、基準シェープから、顔の外形を考慮して変形しなければならない。前述の出願人の以前の国際出願には、シェ−プ未確定のグレーレベルのイメージの変形が実行される方法が説明されている。当業者は、顔のイメージを再生成するため、その後組み合わせられる各変形シェープカラーコンポーネントを変形させるため、同様の処理技術が用いられることを理解する。
【0053】
エンコーダーユニット
ここで、図2に示すエンコーダーユニット39が、ユーザーの外観モデルを被呼側の携帯電話13−2へ送信するため符号化する好ましい方法を、図5aを参照しつつ説明する。次に、復号器51が、被呼側の外観モデル(同じ方法で符号化されたもの)を再生成する方法を、図5bを参照しつつ説明する。
【0054】
最初に、ステップS71において、エンコーダーユニット39は、ユーザーの外観モデルを、シェープ(Qs trgt)ならびにカラーモデル(Qr trgt,Qg trgt,Qb trgt)に分解する。次に、ステップS73において、エンコーダーユニット39は、赤、緑ならびに青モードの各変化に関するシェープワープドカラーイメージを生成する。具体的には、変形された赤(shape warped red)、緑ならびに青のイメージは、上述の式(6)を用い、以下のカラーパラメーターのベクトルを求めるため生成される:
【0055】
【数15】
【0056】
(式(6)において用いられた平均ベクトルは、必要に応じて無視されているが)。これらの変形シェープイメージおよび平均カラーイメージ(r~、g~ならびにb~)は、次に、ステップS75において、JPEG等の標準的なイメージ圧アルゴリズムを用いて圧縮される。しかし、当業者は、JPEGアルゴリズムを用いた圧縮の前に、変形シェープイメージおよび平均カラーイメージを、長方形の基準フレーム内に合成しなければならず、そうしなければ、JPEGアルゴリズムが機能しないことを理解する。整形シェープイメージは、全て同じ形状を有するので、これらは長方形の基準フレーム中の同じ位置に合成される。この位置は、本実施形態において、基準シェープ(図4に概略的に示す)から直接生成され、複数の1および0(1's and 0's)を含むテンプレートイメージであって、テンプレートイメージ中の1は、バックグランド画素に対応し、テンプレートイメージ中の0は、イメージ画素に対応するもの、によって決定される。このテンプレートイメージは、被呼側の携帯電話13−2にも送信され、本実施形態では、ランレングス符号化技術を用いて圧縮しなければならない。次に、エンコーダーユニット39は、ステップS77において、シェープモデル(Qs trgt)、外観モデル((Fa trgt)T)、平均シェープベクトル(x~trgt)、トランシーバーユニット41を介する電話回線網への送信するための圧縮イメージ、を出力する。
【0057】
復号ユニット
図5bを参照すると、復号ユニット51は、ステップS81で、JPEGイメージ、平均カラーイメージならびに圧縮テンプレートイメージを解凍する。次に、ステップは、サンプリングされる画素を識別するための解凍されたテンプレートイメージを用い、変形シェープカラーベクトル(ri 、gi ならびにbi)を再生するために、解凍されたJPEGイメージがサンプリングされるステップS83に進む。これらの変形シェープカラーベクトルを生成するために用いられるカラーパラメーターベクトルを選択するため(上述の(15)参照)、関連する変形シェープカラーベクトルを一緒に積み重ねる(stacking)ことにより、カラーモデル(Qr trgt,Qg trgt,Qb trgt)を再構築することができる。図5bに示したように、シェープフリーカラーベクトルの積み重ねは、ステップS85において実行される。つぎに、ステップは、記憶装置54に記憶された被呼側の外観モデルを再生成するため、再生シェープおよびカラーモデルが組み合わされるステップS87に進む。
【0058】
本実施形態において、かかる好ましい符号化技術を用いることにより、カラーモデルは、単にそれ自体が送信される場合と比べ、約10倍効率的に相手側に送信される。これは、本実施形態において用いられる各カラーモデルは、通常、30000×8のマトリクスであり、各マトリクスの各エレメントが3バイトを必要とするからである。したがって、各携帯電話13は、カラーモデルマトリクスを非圧縮形式で送信するために約720キロバイトのデータを送信しなければならない。その代わりに、上述の変形シェープカラーベクトルを生成し、標準イメージ符号化技術を用いてこれらを符号化し、符号化したイメージを送信することにより、カラーモデルを送信するのに必要となるデータの量は、たった約70キロバイトになる。
【0059】
プレーヤーユニット
図6は、本実施形態に使用されているプレーヤーユニット53の部品の詳細を示すブロック図である。図示したように、プレーヤユニットは、入力ライン152上の符号化された外観パラメーターならびに入力ライン154上の被呼側の外観モデル、を受信するパラメーター変換器150を備えている。本実施形態において、パラメーター変換器150は、ライン154上の被呼側の外観モデル入力を用い、入力外観パラメーターPa iを対応するシェープベクトルXi ならびに変形シェープRGBレベルベクトル(ri 、gi ならびにbi)に変換するため、式(11)から式(14)を用いる。かかるRGBレベルベクトルは、シェープ変形器158に向けてライン156上に出力され、シェープベクトルは、シェープ変形器158に向け、ライン164上に出力される。シェープ変形器158は、ベクトルxiにより説明したように、顔のシェープを考慮して基準シェープからRGBレベルベクトルを変形するため動作する。シェープ変形器158により生成されたRBGレベルベクトルは、デイスプレイ55上に表示を行うためフレームバッファに出力される、対応するピクセル値の二次元アレイを生成するためにRGBレベルベクトルを用いるイメージ合成器162に向けて出力線160上に出力される。
【0060】
変形例ならびに他の実施形態
上述の第一の実施形態において、各携帯電話13ー1は、ユーザーのビデオシーケンスを生成するカメラ23を備えている。かかるビデオシーケンスは、次に、記憶された外観モデルを用いて外観パラメーターのセットに変換されていた。ここで、加入者電話13がビデオカメラを備えていない第二の実施形態を説明する。その代わりに、電話13は、ユーザーの入力音声から、外観パラメーターを直接生成する。図7は、加入者電話13のブロック図である。図示したように、マイク21から出力された音声は、自動音声認識ユニット180、ならびに、それとは別の音声符号化ユニット182に入力する。音声符号化ユニット182は、通常の方法により、トランシーバーユニット41ならびにアンテナ43を介して基地局121への送信を行うため、音声を符号化する。音声認識ユニット180は、ルックアップテーブル35に出力される音素(phoneme)33のシーケンスを生成するため、予め記憶された音素モデル(音素モデル記憶装置181内に記憶された)と入力音声を比較する。かかるルックアップテーブル35は、各音素用に、外観パラメーターのセットを記憶し、自動音声認識ユニット180によって出力された各音素に関し、対応する音素の発音がなされている間のユーザーの顔を表す、対応外観パラメーターのセットが出力されるよう構成される。本実施形態において、ルックアップテーブル35は、携帯電話のユーザーだけに適用することができ、音素と、外観モデルから必要とされるユーザーのイメージを生成する外観パラメーター間の関係を確認する、トレーニングルーチン中に前もって生成される。以下のテーブル1は、本実施形態でルックアップテーブル35が有するフォームを表している。
【0061】
【表1】
【0062】
図7で示すように、ルックアップテーブル35により出力された外観パラメーター37のセットは、次に、被呼側への送信のため、外観パラメーターを符号化するエンコーダーユニット39に入力する。こうして符号化されたパラメーター40は、次に、符号化された外観パラメーターを対応する符号化された音声と一緒に送信する、トランシーバーユニット41に入力する。第一の実施形態のように、トランシーバー41は、符号化された音声および符号化された外観パラメーターを、被呼側の電話が、同期したビデオと対応する音声間の同期を維持するのが容易となるよう、交互に時間をあける方法(tieminterleaved manner)により送信する。
【0063】
図7に示すように、携帯電話の受信側は、第一の実施形態と同じであるので、再度説明はしない。
【0064】
上記説明から当業者が理解するように、この第二実施形態においては、送信される外観パラメーターを生成するため、ユーザー携帯電話134がユーザーの外観モデルを有する必要はない。しかし、被呼側では、対応するビデオシーケンスを同期させるため、ユーザーの外観モデルを有する必要がある。したがって、本実施形態において、全ての加入者の外観モデルは、サービスプロバイダーのサーバー15に集中的に記憶され、加入者間の通話が開始されると、サービスプロバイダーのサーバー15は、適切な外観モデルを適切な電話中にダウロードを行うよう動作可能となる。
【0065】
図8は、サービスプロバイダーのサーバー15の内容の詳細を示す。図示したように、サーバー15は、移動スイッチングセンター9、写真ブース17、ならびに、サーバー15内の制御ユニット193間のインターフェースを提供するインターフェースユニット191を備えている。サーバーが、新しい加入者のイメージを受信すると、制御ユニット193は、当該イメージを、第一の実施形態で述べた方法により適切な外観モデルを組み立てる外観イメージビルダー195に送る。かかる外観モデルは、次に、外観モデルデータベース197内に記憶される。次に、加入者間で通話が開始されると、移動スイッチングセンター9は、発信者の身元ならびに被呼側の身元をサーバー15に通知する。制御ユニットは、次に、外観モデルデータベース197から発信者ならびに被呼側の外観モデルを取り込み、これらの外観モデルを、インターフェースユニット191を介し移動スイッチングセンター9に返送する。移動スイッチングセンター9は、次に、発信者の適切な外観モデルを、被呼側の電話に送信するとともに、外観モデルをそれぞれの加入者電話に送信する。
【0066】
ここで、本実施形態の制御タイミングについて、図9を参照しつつ説明する。まず、発信者は、キーボードを用いて、被呼側の電話番号の入力を行う。発信者が完全に番号を入力し、電話13の第二のキー(図示せず)を押すと、かかる番号は、次に、空気を介して基地局11−1に送信される。次に、基地局は、適切な外観モデルを取り込むことができるよう、この番号を、発信者の身元ならびに被呼側の身元をサーバー15に通知する移動スイッチングセンター9に送る。かかる移動スイッチングセンター9は、被呼側の電話13−2を鳴らすため、次に、電話回線網中の適切な接続を介し、被呼側へ信号を送る。このことが起きている間、サービスプロバイダーのサーバー15は、それらが次にユーザの電話へのダウンロードのために記憶される移動スイッチングセンター9に、発信者および被呼側の適切な外観モデルをダウンロードする。被呼側の電話が鳴ると、発信側の電話が適切な呼び出し音を生成可能となるように、移動スイッチングセンター9は、ステータス情報を発信側の電話に返送する。被呼側が受話器を取ると、適切なシグナリング情報が電話回線網を介して移動スイッチングセンター9に返送される。これに対し、移動スイッチングセンター9は、発信側の適切な外観モデルを被呼側にダウンロードさせ、被呼側の外観モデルを発信側にダウンロードさせる。これらのモデルがダウンロードされると、それぞれの電話は、ビデオイメージと対応するユーザーの会話を同期させるため、送信された外観パラメーターを、上述の第一実施形態と同じ方法で復号する。このテレビ電話は、発信側または被呼側のいずれかが通話を終了させない限り続く。
【0067】
上述の第二実施形態は、第一実施形態を超える数々の利点がある。第一に、加入者電話に内蔵され、あるいは、取り付けられるビデオカメラが不要である。外観パラメーターが、ユーザーの話しから直接、生成される。第二に、発信側ならびに被呼側の外観モデルは、制約された通信リンクのみを通じて送信される。具体的には、第一実施形態においては、各外観モデルは、ユーザーの電話機から電話回線網に送信され、次に、電話回線網から、相手側の電話に送信されていた。電話回線網に用いられている帯域は比較的高いが、回線網から電話機へのチャネルの帯域は制限されている。したがって、この実施形態において、外観モデルは、電話回線網に集中的に記憶されているので、これらは、帯域制限がある一のリンクを介して送信されるだけである。当業者であれば理解するが、第一実施形態は、電話回線網に記憶された外観モデルと同様の方法で動作するよう変更することもできる。
上述の実施形態において、ユーザーの外観パラメーターは、ユーザーの電話で生成され、ビデオシーケンスが同期されユーザーの会話が表示される被呼側の電話機へ送信されていた。ここで、第二実施形態とほぼ同じ構成であるが、ユーザーの外観を変えるため、外観パラメーター値を変更するよう動作可能な追加のアイデンティーティーシフトユニット185を有する電話機を示す、図10を参照しつつ他の実施形態について説明する。かかるアイデンティーティーシフトユニット185は、メモリ187に記憶された所定の変更値を用いて変更を行う。かかる変換値は、ユーザーの外観の変更あるいは単にユーザーの外観を良くするためだけに用いることができる。ユーザー認識された感情状態を変化させる外観パラメーター(またはシェープあるいはテクスチャパラメーター)に対し、オフセット量を追加することが可能である。例えば、少し笑うための外観パラメーターのベクトルを、”中程度(neutral)”元気な話しぶりから生成された全ての外観パラメーターに加えると、その人を幸せそうに見せることになる。眉間にしわを寄せる(frown)ベクトルを加えることにより、人が怒っているように見せることになる。アイデンティーティーシフトユニット185がアイデンティーティーシフトを実行するのには、多くの方法がある。その一つの方法は、出願人の以前の国際出願 WO00/17820中にに説明されている。他の技術は、出願人による継続中の英国出願GB00315119.9中に説明されている。本実施形態の電話の残りの部分は、第二実施形態と同じであるので、再度説明はしない。
【0068】
上述の第二および第三実施形態において、電話機は、自動音声認識ユニットを備えていた。ここで、ユーザーの電話ではなく、サービスプロバイダーのサーバー15に自動音声認識ユニットが設けられている実施形態を、図11および12を参照しつつ説明する。図11に示すように、加入の電話13は、図7に示した第二実施形態の加入者の電話よりかなりシンプルである。図示したように、マイク21によって生成された音声信号は、従来の方法により音声を符号化する音声符号化ユニット182に、直接、入力する。符号化された音声は、その後、トランシーバーユニット41およびアンテナ43を介してサービスプロバイダーのサーバー15に送信される。本実施形態において、発信者ならびに被呼側からの全ての音声は、そのブロック図が図12に示されているサービスプロバイダーのサーバー15を経由する。図示したように、本実施形態においては、サーバー15は、自動音声認識ユニット180ならびに全てのルックアップテーブル35を備えている。
【0069】
動作中、発信者と被呼側間で通話が開始されると、符号化された全ての音声は、サーバー15を介して相手方へ送られる。当該サーバーは、音声ならびに話し手を認識し、生成した音素を適切なルックアップテーブル35に出力する自動音声認識ユニット180に音声を送る。次に、かかるルックアップテーブルから、対応する外観パラメーターが抽出され、従来と同様にビデオシーケンスを同期させる相手方への以後の送信のため、符号化されたオーディオと一緒に制御ユニット193に返送される。
【0070】
当業者であれば理解するように、本実施形態は、全てがサービスプロバイダーのサーバー15内で集中的に行われるので、複雑な自動音声認識ユニットを備える必要がない、という利点を提供する。しかし、自動音声認識ユニット180は、音素を適切なルックアップテーブルに適用できるよう、全ての加入者の話しを認識可能でなくてはならず、しかも、どの加入者が何を言ったのか、を識別可能でなくてはならない、という不都合がある。
【0071】
第二実施形態から第四実施形態において、加入者により生成された音素を対応する外観パラメーター値に合わせる(mapped)ルックアップテーブル35が各加入者毎に一つ設けられていた。しかし、自動音声認識ユニットにより出力された音素と実際の外観パラメーターの値との間の関係は、ユーザーの感情状態に基づいて変化する。図13は、ルックアップテーブルデータベース205が、ユーザーの様々な感情状態を表すため複数のルックアップテーブル35を記憶している、別の加入者電話の部品を示すブロック図である。このルックアップテーブルデータベース205は、ユーザーが幸せな場合、怒っている場合、興奮している場合、悲しい場合等のための適切なルックアップテーブルを備えていてもよい。本実施形態において、ユーザーの現在の感情状態は、ユーザーの話のストレスレベルを検出することにより自動音声認識ユニット180によって決定される。
【0072】
これに応じ、自動音声認識ユニット180は、自動音声認識ユニット180から出力された音素のシーケンスを対応する外観パラメーターに変換するため、適切なルックアップテーブル35を使用させるよう、ルックアップテーブルデータベース205に適切な指示を出力する。当業者であれば理解するように、ルックアップテーブルデータベース205中の各ルックアップテーブルは、各感情状態におけるユーザーのトレーニングイメージから生成しなければならない。再度述べるが、これは、前もって行われ、適切なルックアップテーブルは、サービスプロバイダーのサーバー16中に生成される。これに代えて、その後、検出されたユザーの感情状態に基づいて適切なアイデンティーティーシフトを実行するアイデンティーティーシフトユニットとともに、”中間の”ルックアップテーブルを用いるようにしてもよい。
【0073】
上述の第一実施形態において、ユーザーの声を符号化するため、CELPオーディオコーデイックが用いられた。かかるエンコーダーは、音声用に要求される帯域幅を、毎秒約4.8キロビット(kbps)まで低減させる。これにより、携帯電話が、7.2kbpsの帯域幅を有する標準的なGSMリンクを介して音声並びにビデオデータを送信する場合、外観パラメーター用に2.4kbpsの帯域幅が与えられる。しかし、既存のほとんどのGSM電話は、CELPオーディオエンコーダーを用いていない。その代わりに、これらは、7.2kbpsの帯域幅の全部を用いるオーディオコーデイックを使用している。したがって、ソフトウエアにCELPオーディオコーデイックが与えられている場合、上記システムは、既存のGSM電話でしか動作しない。しかし、実際の携帯電話は、音声データを復号化する演算パワーを有していないので、これは現実的ではない。
【0074】
しかし、上述のシステムは、予め記録されたビデオシーケンスを送信するため既存のGSM電話上で用いることができる。通常の会話の間には沈黙が生じ、その間、使用可能な帯域幅は用いられないので、このことが可能となる。具体的に、一般のスピーカーは、言葉や語句の間にポーズがあるため、15%から30%の時間は、帯域幅を全く使用していない。したがって、使用可能な帯域幅を使い切るため、ビデオデータを音声データとともに送信することができる。受信者が、ビデオシーケンスを再同期させる前に、ビデオならびに音声データの全てを受信した場合、かかるビデオならびに音声データは、その後、GSMリンクを介し、いずれの順序、かつ、いずれのシーケンスによっても送信可能である。これに代え、音声が受信されるとすぐにビデオを再生することが可能となるよう、できるだけ早くビデオシーケンスを再生可能にする効率的な動作のため、対応する音声データの前に適切なサイズにブロック化されたビデオ信号(上述の外観パラメーター等の)を送信することができる。外観パラメーターデータは、音声データよりも毎秒小さいデータ量しか使用しないので、この場合、対応する音声データの前にビデオデータを送信することが、最適である。
したがって、ビデオの4秒間の部分を再生するには、音声データについて4秒、ビデオについては1秒間の送信時間が必要とされ、次に、送信時間の合計が5秒間となるので、ビデオは、1秒後に再生可能となる。音声中の沈黙が十分に長い場合、かかるシステムは、音声の前に送信された受信ビデオデータをバッファするため受信側で必要とされる比較的少ない量のバッファだけで動作可能である。しかし、かかる動作を行うには音声中の沈黙が十分でない場合には、早いうちにより多くのビデオを送信しておかなければならず、これにより、受信側は、より多くのビデオデータをバッファしなければならない。当業者であれば理解するが、かかる実施形態は、受信側のプレーヤーユニットによりこれらが再同期可能となるよう、音声ならびにビデオデータの双方にタイムスタンプすることを必要とする。
【0075】
これらの前もって記録されたビデオシーケンスは、ユーザーが、それを見るか、あるいは、後に他の電話に転送するため、そこから、シーケンスを自分の電話にダウンロードすることができるサーバー上で生成し、そこで記憶するようにしもよい。ビデオシーケンスがユーザーにより彼らの電話を用いて生成された場合、音声と一緒に送信可能なビデオデータの量を認識するため、電話にビデオデータ音声中のポーズを識別するのに必要な処理回路、ならびに、GSMコーデックが使用可能な帯域幅を全部用いるよう、ビデオデータを生成し、それを音声データと混合させるための適切な処理回路、を備える必要がある。 話しから直接、ビデオシーケンスを再生する代わりに、テキストから、直接、動画シーケンスを生成するようにしてもよい。例えば、ユーザーは、テキストを、後に適切な外観パラメーターならびに適切な外観モデルとともに被呼側の電話に送信される符号化音声に変換する、中央サーバーに送信してもよい。次に、ビデオシーケンスは、上述の方法により生成可能である。かかる実施形態において、ユーザーがサービスに加入し、外観モデルを生成するための画像を提供するために写真ブースの一つを用いた場合、サーバーが、当該ユーザーのために、ユーザーの入力テキストから話しを実質的に合成するために用いられる適切な音声合成装置を生成することができるよう、かかるユーザーは、写真ブース内のマイクを通じていくつかのフレーズを入力することもできる。話しを合成し、サーバー内で外観パラメーターを生成することに代え、これを、ユーザーの電話あるいは被呼側の電話内で、直接、実行することもできる。しかし、現在の処、テキストからビデオを生成することは、演算として割が合わず、被呼側にも性能が高い電話が必要とされるので、かかる実施形態は、現実的ではない。
【0076】
上述の実施形態においては、ユーザーの顔のシェープ全体および色を模倣した外観モデルについて述べられていた。他の実施形態においては、目、口ならびに顔の残りの部分用に、別の外観モデル、あるいは、別の色モデルだけ、を用いるようにしてもよい。別のモデルが用いられるので、異なる要素のために、外形モデルの異なる番号、あるいは、モデルの異なるタイプ、を用いることができる。
【0077】
例えば、目および口用のモデルは、顔の残りの部分のモデルよりも多くのパラメーターを含むようにしてもよい。これに代え、顔の残りの部分は、モードを変化させることなく、質感の平均値に(a mean texture)により単に模倣するようにしてもよい。テレビ電話の通話中、顔の大部分の質感は、大きく変化することがないので、これは、実用的である。このことは、加入者電話間で送信を行うのに、より少ないデータで足りるということを意味する。
【0078】
図14は、目、口ならびに顔の残りの部分用に別の色(しかし、共通のシェープモデル)が与えられている他の実施形態に用いられるプレーヤーユニット53のブロック図である。図示したように、かかるプレーヤーユニット53は、パラメーター変換器150が送信された外観パラメーターを受信し、シェープベクトルXi (シェープ変形器158に向けてライン164上に出力される)を生成するとともに、各カラーモデルのためのカラーパラメーターを分離するよう動作可能である点を除き、第一実施形態のプレーヤーユニット53と実質的に同じである。目のカラーパラメーターは、入力ライン212に与えられた目のカラーモデルを用いて、かかるパラメーター値を対応する赤、緑ならびに青レベルのベクトルに変換する、パラメーター/ピクセル変換器211に出力される。同様に、口のカラーパラメーターは、入力ライン214に与えられた口のカラーモデルを用い、パラメーター変換器150によって、口のパラメーターを対応する赤、緑ならびに青レベルのベクトルに変換するパラメーター/ピクセル変換器213に出力される。最後に、顔の残りの部分の外観パラメーターあるいはパラメーターが、ライン216に入力したモデルを用いて適切な赤、緑ならびに青レベルのベクトルが生成されるパラメーター/ピクセル変換器215に入力する。図14に示すように、各パラメーター/ピクセル変換器から出力されたRGBレベルのベクトルは、第一実施形態のシェープノーマライズドカラーレベルベクトルからそれらを再生成するフェースレンダラーユニット220に入力する。次に、これらは、そこで現在のシェープベクトルxi を考慮しつつ変形を行うシェープ変形器158に送られる。次の処理は、第一実施形態と同じであるから、ここでは再度説明しない。
【0079】
外観パラメーターからビデオイメージを生成する動作のうち最も集中を要する動作は、カラーパラメーターをRGBレベルベクトルに変換することである。ここで、カラーレベルベクトルは、フレーム毎に計算されないが、その代わりに、隔フレーム毎に(every second or third frame)計算される実施形態について説明する。この実施形態は、図15に示すプレーヤーユニット53について説明するが、かかるプレーヤーユニット53は、第一実施形態でも使用可能である。図示したように、本実施形態において、かかるプレーヤーユニット53は、さらに、パラメーター/ピクセル変換器211、213ならびに215のそれぞれに入力する制御ライン225に共通イネーブル信号を出力するよう動作可能である制御ユニット223を備えている。本実施形態において、これらの変換器は、制御ユニット223によりそれが可能となった場合に、受信したカラーパラメーターを対応するRGBレベルベクトルに変換するためだけに動作する。
【0080】
動作中、パラメーター変換器150は、カラーパラメーターのセットおよびデイスプレイ55に出力されるビデオシーケンスの各フレーム用のシェープベクトルを出力する。かかるシェープベクトルは、従来どおりシェープ変形器158に出力され、それぞれのカラーパラメーターは、対応するそれぞれのパラメーター/ピクセル変換器に出力される。しかし、本実施形態において、制御ユニット223は、三番目のビデオフレーム毎に適切なRGBレベルベクトルを生成可能にするためだけに変換器211、213ならびに215をイネーブルにする。それに対してパラメーター/ピクセル変換器211、213並びに215がイネーブルされなかったビデオフレ−ムについては、前のフレーム用に生成されたRGBレベルベクトルであって、シェープ変形器158により、以後、それが新たなシェープベクトルとともに変形されるものをフェースレンダラーユニット220が出力するよう動作可能である。
【0081】
さらに別の例としては、 二番目ビデオフレームあるいは三番目のビデオフレーム毎にカラーレベルのベクトルを再計算するよりも、所定量だけ変化した場合、直ちにカラーレベルベクトルを計算することもできる。特定のコンポーネントに対応するカラーのみを更新しなければならないので、このことは、目、口ならび顔の残りの部分について別々のモデルを用いる実施形態において特に有益である。かかる実施形態は、あるフレームから次のフレームへのパラメーター値間の変化を監視することができるよう、パラメーター変換器150により出力されるパラメーターを有する制御ユニット223を設けることにより実行することができる。かかる変化が所定のしきい値を超えた場合は、いつでも、制御ユニットから当該変換器への専用のイネーブル信号によって適切なパラメーター/ピクセル変換器がイネーブルされる。フェースレンダラーユニット220は、次に、顔用のシェープノーマライズドRGBレベルベクトルであって、その後、シェープ変形器158に入力するもの、を生成するため、そのコンポーネント用の新しいRGBレベルベクトルと、他のコンポーネント用の古いRGBレベルベクトルを組み合わせるよう動作可能である。
【0082】
上述のように、本システムにおいて、最も集中を要する動作は、カラー外観パラメーターをカラーレベルベクトルに変換することである。携帯電話のような低出力装置においては、その時々における使用可能な処理能力は、しばしば変化することがある。このような場合、現在利用可能な処理能力に基づて、カラーレベルベクトルを再構成するために用いられる変化のカラーモード数(カラーパラメーターの数)を大きく変化させるようにしてもよい。例えば、携帯電話が、各フレームについて30のカラーパラメーターを受信した場合に、全処理能力が利用可能な場合には、カラーレベルベクトルを再構成するため、当該30のパラメーター全部が用いられる。しかし、利用可能な処理能力が低下すると、カラーレベルベクトルを再構成するために、最初の20のカラーパラメーター(最上位の変化カラーモードを表す)のみが用いられる。
【0083】
図16は、上述の方法で動作するようプログラムされたプレーヤーユニット53の他のの形式を示すブロック図である。具体的には、パラメーター変換器150は、入力外観パラメーターを受信するとともに、シェープベクトルXi 、および、パラメーター/ピクセル変換器226に出力される赤、緑ならびに青のカラーパラメーター(Pr i、Pg i ならびにPb i)を生成するよう動作可能である。このパラメーター/ピクセル変換器226は、次に、かかるカラーパラメーターを対応する赤、緑ならびに青のレベルベクトルに変換するため、式(6)を用いる。この実施形態において、制御ユニット223は、変換器226が現在利用可能な処理能力に基づき、制御信号228を出力するよう動作可能である。制御信号228のレベルしだいで、パラメーター/ピクセル変換器226に対するパラメーターは、式(6)で用いられるカラーパラメーターの数を動的に選択する。当業者であれば、カラーモデルのマトリクス(Q)の容量は変化しないが、カラーパラメーター(Pr i、Pg i ならびにPb i)の一部が、ゼロに設定されることを理解する。この実施形態において、変化の最小モードに関連するカラーパラメーターは、画素の値にほとんど影響しないので、ゼロに設定されたパラメーターの値と等しい。
【0084】
上述の実施形態において、符号化された音声および外観パラメーターは、各電話によって受信され、復号化され、その後、ユーザーに出力されていた。他の実施形態において、電話は、外観モデルに加え、アニメーションおよび音声シーケンスをキャッシュする記憶装置を備えるようにしもよい。かかるキャッシュは、以後、所定の、あるいは、”撮影済みの(canned)”のアニメーションのシーケンスを記憶するために用いるようにしてもよい。かかる所定のアニメーションシーケンスは、通信する相手側からの適切な指示を受信することに応じユーザーに対して再生することが可能である。したがって、ユーザーに対しアニメーションシーケンスが繰り返し再生された場合、当該シーケンスのための外観パラメーターは、ユーザーに対し一度だけ送信すればよい。
【0085】
上述の実施形態では、多くの異なる双方通信システムについて説明が行われた。当業者は、上述のアニメーション技術は、ユーザーにメッセージを残すのと同様の方法で用いてもよいことを理解する。例えば、ユーザーは、中央サーバー内に記憶されるメッセージを被呼側によって取り込まれるまで記憶するようにしてもよい。この場合、かかるメッセージは、符号化された音声とともに、外観パラメーターの対応シーケンスを含むようにしてもよい。これに代えて、被呼側がメッセージを取り込む際に、サーバーあるいは被呼側の電話によってビデオアニメーション用の外観パラメーターを生成するようにしてもよい。かかるメッセージングは、ユーザーまたは任意の現実あるいは架空のキャラクターで構成された予め記録したシーケンスを用いてもよい。予め記憶したシーケンスを選択するにあたり、ユーザーは、サーバー上に存在し、メッセージを送る前に自身の電話で見ることができる予め記録したシーケンスを選択するため、ブラウジングすることを可能にするインターフェースを用いてもよい。さらに別の例としては、ユーザーがサービスに最初に登録し、写真ブースを用いる際、写真ブースがユーザーに対し、アニメーション、および、後で、前もって記録したメッセージとして用いるため準備されたフレーズについて音声を記録したいかを尋ねるようにしてもよい。かかる場合、その中から一以上が選択されるフレーズについて、ユーザーに選択肢が示されるようにしてもよい。それに代え、ユーザーは、自分自身の個人的なフレーズを記録するようにしてもよい。ビデオシーケンスを駆動させるためテキストのみが用いられる場合と比べて高品質のアニメーションが提供されるので、これは、テキストビデオメッセージングシステムに、特に適している。
【0086】
上述の実施形態において用いられた外観モデルは、トレーニングイメージのセットの主要構成要素分析から生成されていた。当業者は、かかる結果は、連続的な変数のセットによりパラメーター化が可能であるどのようなモデルにも適用できることを理解する。例えば、ベクトルの定量化およびウェーブレット技術を用いることもできる。
【0087】
上述の実施形態において、シェープパラメーターならびにカラーパラメーターは、外観パラメーターを生成するために結合されていたが、これは必須ではない。別のシェープならびにパラーパラメーターを用いるようにしてもよい。また、トレーニングイメージが白黒である場合、質感パラメーターは赤、緑ならびに青のレベルではなく、画像のグレーレベルを表すようにしてもよい。さらに、赤、緑ならびに青の値を模倣する代わりに、カラーは、クロミナンスと輝度成分あるいは色調、彩度ならびに明度成分によって表してもよい。
【0088】
上記実施形態において用いられていたモデルは、二次元モデルであった。携帯装置の処理能力が十である場合には、三次元モデルを用いることも可能である。このような実施系他において、シェープモデルは、トレーニングモデルにわたり、ランドマークポイントの三次元メッシュを模倣する。かかる三次元トレーニングの例は、三次元スキャナーまたは一以上のカメラのステレオペア(stereo pairs)を用いることによって得ることができる。
【0089】
上記実施形態において、外観モデルは、各ユーザーのビデオイメージ生成するのに用いられていたが、このことは必須ではない。例えば、各ユーザーは、コンピューターが生成した、人間あるいは人間ではないキャラクターを表す外観モデルを選択する。この場合、サービスプロバイダーは、多数の異なるキャラクターであって、そこから各ユーザーが使用したいと望み選択するキャラクターに関する外観モデルを記憶してもよい。さらに、これに代え、被呼側は、発信者を動画化するのに用いるため、アイデンティティーあるいはキャラクターを選ぶこともできる。選ばれたアイデンティティーは、発信者に関する多数の異なるモデルの一つ、あるいは、他の現実あるいは架空のキャラクターのモデル、であってもよい。
【0090】
上記実施形態において、携帯電話は、相手側のアニメーションシーケンスを生成するため、関連する外観モデルを有していないと仮定されていた。しかし、いくつかの実施形態においては、電話回線を通じてこれらを送信する必要がないよう、各携帯電話は、多数の異なるユーザーの外観モデルを記憶するようにしてもよい。この場合、アニメーションパラメーターのみを電話回線を通じて送信しなければならない。かかる実施形態において、電話回線は、携帯電話に対し、当該通話の相手方に関する適切な外観モデルを有しているかとともに、携帯電話が前記外観モデルを有していない場合に適切な外観モデルを送るためだけに動作可能であるか、を尋ねる要求を送る。また、最新の携帯電話回線を用いているので、ファイルを送信するため接続を設定した場合に約5秒のオーバーヘッドが存在し、パラメーターストリームと同様にモデルが必要とされる場合には、一つのファイルで両方を送るのが好ましい。したがって、好ましい実施形態において、サーバーは、送信準備が完了した各アニメーションファイルの2つのバージョンであって、一つがモデルを有し、他方がそれを有しないものを記憶する。
【0091】
上述の第一実施形態において、発信者の外観パラメーターは被呼側に送信され、そのその逆もある。発信者の電話ならびに被呼側の電話は、その後、受信された外観パラメーターから各ユーザーのビデオシーケンスを生成するために用いられる。他の実施形態において、誰が話をしているのかにもよるが、被呼側の映像と発信者の表示を切り換えるためにプレーヤーを用いるようにしてもよい。かかる実施形態は、(i) 話をしていない場合に、被呼側を適切に動画化するのが困難であり、(ii) その信頼性を確認するため、ユーザーが、自身の画像を見たいであろうことから、音声から直接ビデオシーケンスを生成するシステムに特に適している。
【0092】
上述の実施形態においては、加入者電話が携帯電話である場合について説明していた。当業者は、図1に示した陸線を用いる電話を同じ方法により動作させることができることを理解する。この場合、陸線に接続されているローカルの交換機は、必要に応じ、陸線を用いる電話とサービスプロバイダーをインターフェースしなければならない。
【0093】
また、上述の実施形態において、当該システムで用いる適切な外観モデルを生成することができるよう、写真ブースは、ユーザーがサーバーに画像を提供するために設けられていた。当業者は、外観モデルを生成するのにユーザーの画像を入力するため、他の技術を用いることも可能であることを理解する。例えば、上述の実施形態でサーバー内に設けられている外観モデルビルダーのソフトウエアを、ユーザーの自宅のコンピューター内に設けることも可能である。かかる場合、ユーザーは、スキャナーまたはデジタルスチルカメラあるいはビデオカメラからユザーが入力した画像により自身の外観モデルを直接生成することが可能となる。さらに、これに代え、ユーザーは、それを用いてシステムで用いる外観モデルを生成する第三者に対し、単に写真あるいはデジタルイメージを送るようにしてもよい。
【0094】
上記において、電話システムの周辺について多数の実施形態が説明されている。上述の実施形態の特徴の多くは、他のアプリケーションにも用いることができる。例えば、図14,15および16を参照して説明したプレーヤーユニットは、どのような携帯用機器あるいは処理能力が限定されている装置にも有益に用いることができる。同様に、ユーザーの音声から直接ビデオシーケンスが生成される上述の実施形態は、ビデオシーケンスを他のユーザーに送信するのではなく、ローカルで生成するものにも用いることができる。さらに、上述の実施形態に関する多くの変更ならびに代替例は、制限された帯域幅が使用できるユーザー端末とインターネット上のサーバー間等での、インターネットを介する通信に用いることが可能である。
【図面の簡単な説明】
【0095】
【図1】図1は、電気通信システムの略図である。
【図2】図2は、図1のシステムの一部を構成する携帯電話のブロック図である。
【図3a】図3aは、図2に示す携帯電話によって送信されたデータパケットの形式を示す略図である。
【図3b】図3bは、図2に示す携帯電話によって送信されたデータパケットのストリームを略図的に示したものである。
【図4】図4は、画素をサンプリングする前に、その中にトレーニングイメージをワープさせた標準形状を略図的に示したものである。
【図5a】図5aは、図2に示す電話の一部を構成する符号化ユニットにより実行される処理ステップを示すフローチャートである。
【図5b】図5bは、図2に示す電話の一部を構成する符号化ユニットにより実行される処理ステップを示す。
【図6】図6は、図2に示す電話の一部を構成するプレーヤーユニットの主要部を示すブロック図である。
【図7】図7は、図1に示すシステムにおいて代わりに用いることができる携帯電話の一態様を示すブロック図である。
【図8】図8は、図1に示すシステムの一部を構成するとともに、図7に示す電話と交信するサービスプロバイダーのサーバーの主要部を示すブロック図である。
【図9】図9は、図7に示す電話を用いた発信者と受信者間の通話の間に用いられるプロトコルを示す制御タイミング図である。
【図10】図10は、他の実施形態にかかる携帯電話の主要部を示すブロック図である。
【図11】図11は、更に他の実施形態にかかる携帯電話の主要部を示すブロック図である。
【図12】図12は、前記他の実施形態に用いられるサービスプロバイダーのサーバーの主要部を示すブロック図である。
【図13】図13は、更に他の実施形態にかかる携帯電話の主要部を示すブロック図である。
【図14】図14は、別の形式のプレーヤーユニットのブロック図である。
【図15】図15は、他の別の形式のプレーヤーユニットのブロック図である。
【図16】図16は、更に別の形式のプレーヤーユニットのブロック図である。
【0001】
この発明は、ビデオ処理方法ならびに方法に関する。本発明は、具体的には、それには限定されないが、陸上線(land line)あるいは携帯通信装置を用いたテレビ電話(video telephony)、テレビ会議(video conferencing)等に関する。
【背景技術】
【0002】
既存のテレビ電話システムは、通信ネットワーク(例えば、電話回線網あるいはインターネット)とユーザーの電話間で用いることができる帯域が制限されるという問題がある。この結果、既存のテレビ電話システムは、送信されるビデオイメージデータの量を低減するため(MPEG等の)効率的なコーデイング技術を用いる。しかし、圧縮されたイメージデータであっても、データ量が比較的大きいので、ユーザー端末とネットワーク間で広い帯域幅を有するリアルタイムのテレビ電話アプリケーションを必要とする。
【発明の開示】
【発明が解決しようとする課題】
【0003】
本発明は、他のテレビ通信システムを提供することを目的とする。
【課題を解決するための手段】
【0004】
ある側面において、本発明は、記憶された外観モデルを用い、外観パラメーターのセットを、シェープおよびテクスチャパラメーター中に展開し、質感を生成するためテクスチャパラメーターを一緒にモーフィングし、シェープを生成するためシェープパラメーターを一緒にモーフィングするとともに、前記シェープを用い、前記質感をイメージに変形することにより、動画シーケンスを生成可能な電話を提供する。かかるパラメーターの受信ステップを繰り返し行うことにより、動画化されたビデオシーケンスを、再生成し、電話機のデイスプレイ上でユーザーに表示することができる。好ましい実施形態においては、顔の別の部分を模倣するため、別のパラメーターが用いられる。ほとんどの顔の質感は、顔毎に変わらないので、このことは、有益である。処理能力の低い装置では、フレーム毎に質感を計算する必要がなく、二番目または三番目のフレーム毎に再計算することもでき、あるいは、質感がしきい値を所定量を超えて変化した場合に、再計算するようにしてもよい。
【0005】
本発明の他の多くの特徴ならびに側面は、添付した図面を参照しつつ説明がなされる、以下の例示的な実施形態によって理解されよう。
【発明を実施するための最良の形態】
【0006】
全体構成
図1は、ローカル交換機5を介して公衆交換電話網(PSTN)7に接続された複数のユーザー陸上線電話3−1、3−2および3−3を備えた電話回線1を略図的に示している。PSTN7には、複数の基地局11−1、11−2、並びに11−3にリンクされた移動スイッチングセンター(MSC)9も接続されている。かかる基地局11は、複数の携帯電話13−1、13−2ならびに13−3に対し、通話を送受信するよう動作可能であり、移動スイッチングセンター9は、基地局11相互間ならびに基地局11とPSTN7間の接続を制御するよう動作可能である。図1に示すように、移動スイッチングセンター9は、本実施形態において、加入者の外観、あるいは、加入者が使用を希望するキャラクターの外観を模倣する外観モデルを生成するサービスプロバイダーのサーバー15にも接続されている。外観モデルが加入者の外観を模倣した場合、適切な外観モデルを生成するよう、加入者のデジタルイメージがサービスプロバイダーのサーバー15に与えられる。この実施形態において、これらのデジタル写真は、国中に地理的に分散して配置された複数の写真ブース17のいずれのブースからでも生成することが出来る。
【0007】
一の加入者の携帯電話13−1を用いてテレビ電話による通話を行う方法について簡単に説明する。本実施形態において、発信者が、加入者携帯電話13−1を用いて通話を開始する場合、音声通話は、基地局11−1ならびに、移動スイッチングセンター9を介し、通常の方法で設定される。本実施形態において、加入者携帯電話13は、ユーザーのビデオ画像を生成するビデオカメラ23を備えている。しかし、本実施形態において、カメラ23からのビデオ画像は、基地局に送信されない。その代わりに、携帯電話13は、基地局11に対して外観モデルおよび音声と一緒に送信される外観パラメーターのシーケンスを生成するため、ビデオ画像をパラメーター化するユーザーの外観モデルを用いる。このデータは、次に、電話回線網を介し、そこで、パラメーターならびに外観モデルを用いてビデオ画像が再同期される被呼側の電話器に従来の方法で送られる。同様に、被呼側用の外観モデルは、被呼側で生成された外観パラメーターのシーケンスと一緒に、電話回線網を介し、そこで、被呼側のビデオ画像を再同期させるため、同様の処理が行われる加入者電話13−1に送信される。
【0008】
本実施形態においてこれを達成する方法について、携帯電話13−1と携帯電話13−2との間で通話がなされる場合を例に、図2から図5を参照しつつ詳細に説明する。図2は、図1に示された各携帯電話13のブロック図である。図示したように、電話13は、ユーザーの話し声を受け、それを対応する電気信号に変換するマイク21を備えている。携帯電話13は、ユーザーからの光を通常の方法で連続的にビデオ信号を生成するCCDチップ27上に集光する光学系25を有する、ビデオカメラ23を備えている。図示したように、ビデオ信号は、ビデオシーケンス中のユーザーの顔の動きを追跡するため、ビデオシーケンスの各フレームを順番に処理するトラッカーユニット33へ送られる。かかる追跡を実行するため、トラッカーユニット33は、ユーザーの顔の形状ならびに質感(texture)の変動性を模倣する外観モデルを用いる。ユーザーが最初にシステムに加入した場合、かかる外観モデルがユーザー外観モデル記憶部35に記憶され、サービスプロバイダーのサーバー15により生成され、携帯電話13−1内にダウンロードされる。ビデオシーケンスにおけるのユーザーの顔の動きを追跡中、トラッカーユニット33は、各フレームのため、ポーズならびに現在のフレームにおけるユーザーの顔の表情を表す外観パラメーターを生成する。こうして生成されたポーズならびに外観パラメーターは、次に、マイク21から出力された音声信号と一緒にエンコーダーユニット39に入力する。
【0009】
しかし、本発明においては、エンコーダーユニット39が、ポーズおよび外観パラメーターならびに音声を符号化する前、かかるユニットは、トランシーバーユニット41およびアンテナ43を介した被呼側の携帯電話13−2への送信のため、ユーザーの外観モデルを符号化する。かかる符号化済みのユーザーの外観モデルは、次の送信のため他のビデオ通話内に記憶してもよい。次に、エンコーダーユニット39は、ポーズのシーケンスならびに外観パラメーターを符号化し、かかるユニットが被呼側の携帯電話13−2に送信した対応する音声信号を復号化する。本実施形態において、音声信号は、CELPエンコーデイング技術を用いて符号化され、符号化されたCELPパラメーターは、エンコードされたポーズならびに外観パラメーターを伴いインターリーブ法により送信される。
【0010】
図2に示すように、被呼側の携帯電話13−2から受信したデータは、トランシーバーユニット41から送信されたデータを復号するデコーダーユニット51へと送られる。最初に、デコーダーユニット51は、その後、被呼側の外観モデル記憶部54に記憶される被呼側の外観モデルを受信し、復号化する。一旦、これが受信され復号化されると、デコーダーユニット51は、符号化されたポーズおよび外観パラメーターならびに符号化済の音声信号を受信し、復号化する。復号化されたポーズおよび外観パラメーターは、次に、復号化された被呼側の外観モデルを用い、受信されたポーズおよび外観モデルに対応するビデオフレームのシーケンスを生成するプレーヤーユニット53に送られる。生成されたビデオフレームは、次に、ユーザーに対して再生成されたビデオシーケンスが表示される携帯電話のデイスプレイ55に出力される。デコーダーユニット51により出力された復号化済の音声信号は、携帯電話のスピーカー59に復号化された音声信号を出力するオーディオ駆動ユニット57へ送られる。プレーヤーユニット53ならびにオーディオ駆動ユニット57の動作は、デイスプレイ55上に表示されるイメージが、スピーカー59により出力される適切な音声信号と時間的に同期(time synchronised)するよう、構成される。
【0011】
本実施形態において、携帯電話13は、符号化済のポーズおよび外観パラメーターならにび符号化済の音声信号をデータパケットで送信する。このパケットの一般的なフォーマットが、図3aに示されている。図示したように、各パケットは、ヘッダ部121とデータ部123とを含んでいる。ヘッダ部121は、パケットのサイズとタイプを表している。これにより、データフォーマットを互換性を有するよう前後に簡単に拡張することができる。例えば、新しいデータストリーム上に古いプレーヤーユニット53が用いられている場合、パケットが認識できない場合もある。この場合、古いプレヤーユニットは、かかるパケットを単に無視すればよく、他のパケットを処理する機会もある。各パケットにおけるヘッダ121は、パケットのサイズを識別するための16ビット(ビット0からビット15まで)データを含む。ビット15が0に設定された場合、他の15ビットにより定義されたサイズは、バイトにおけるパケットのサイズである。他方、ビット15が1に設定された場合、残りのビットは、32kブロックにおけるパケットのザイスを表す。本実施形態において、エンコーダーユニット39は、6つの異なるタイプのパケット(図3bに示す)を生成することができる。
【0012】
これらは、以下を含んでいる:
1.バージョンパケット125−ストリーム中で最初に送られるパケットがバージョンパケットである。バージョンパケットにおいて定義される数は、整数であり、現在3に設定されている。この番号は、パケットシステムが拡張可能であるため変更されることはない。
【0013】
2.情報パケット127−次に送信されるパケットは、同期バイト(sync byte)を含む情報パケットであり;バイトは、ビデオの毎秒当たりの平均(mean)サンプル(またはフレーム)を識別する;データは、ビデオの不足数(video short)の各サンプルを動画化するためのパラメーターデータの不足数(shorts)を識別する;バイトは、毎秒当たりのオーディオサンプルの数を識別する;バイトは、オーディオのサンプル毎のデータのバイト数を識別し、ビットは、オーディオが圧縮されているか否かを識別する。現在、このビットは、非圧縮オーディオに対して0に設定され、毎秒4800ビットに圧縮されたオーディオに対して1に設定されている。
【0014】
3.音声パケット129−非圧縮オーディオのためものであって、各パケットは、1秒分の音声データを含む。毎秒4800ビットに圧縮されたオーディオについて、各パケットは、30ミリ秒に相当するデータ、18バイトを含む。
【0015】
4.ビデオパケット131−ビデオのサンプルの一つを動画化するための外観パラメーターデータである。
【0016】
5.スーパーオーディオパケット133−これは、ノーマルオーディオパケット129用に連結されたデータのセットである。本実施形態において、プレーヤーユニット53は、そのサイズにより、前記スーパーオーディオパケット中のオーディオパケットの数を決定する。
【0017】
6.スーパービデオパケット135−これは、ノーマルビデオパケット131から連結されたデータのセットである。本実施形態において、プレーヤーユニット53は、スーパービデオパケットのサイズにより、ビデオパケットの数を決定する。
【0018】
本実施形態において、送信されたオーディオおよびビデオパケットは、最先のパケットが最初に送信されるよう時間順(in time order)に送信ストリーム中に混合される。パケット構造を上述の方法で組織化することにより、PSTN7を介するだけでなく、インターネットを介してデータを送ることを可能とする。
【0019】
外観モデル
本発明において用いられる外観モデルは、クーテス等(Cootes et al.)により開発され、1995年1月発行のコンピュータビジョンおよびイメージの理解 第61巻、No1.中の38ページから59ページにある”アクテイブシェープモデル−そのトレーニングと応用”と題された論文で述べられたものと同様のものである。これらの外観モデルは、顔のイメージのコンテンツに関し、従来からいくつか知見があるという事実を利用するものである。例えば、人間の顔には、それぞれ目、鼻および口を含む2つの正面イメージがある、と推測することができる。
【0020】
本実施形態において、上述のように、外観モデルは、サービスプロバイダーのサーバー15において生成される。これらの外観モデルは、各ユーザーの複数のトレーニングイメージを分析することによって生成される。ユーザーの外観モデルが、ビデオシーケンスの範囲内でユーザーの顔の変動を模倣可能とするため、トレーニングイメージは、顔の表情についての幅広い変動および3Dのポーズを有するユーザーのイメージを含んでいなければならない。本実施形態において、これらのトレーニングイメージは、ユーザーがフォトブース17の一つに入り、デジタルカメラにより撮影することにより生成される。本実施形態において、全てのトレーニングイメージが、500X500画素を有しており、各画素は、赤、緑および青のピクセル値を有する。こうして生成された外観モデル35は、比較的小さい数のパラメーター(通常、一人について15から40)によって頭部のイメージが詳細に(画素レベルで)表現可能になるよう、トレーニングイメージ中の頭部により定義された頭部のイメージの様々な種類の外観をパラメーター化したものである。
【0021】
出願人による、以前の国際出願番号WO 00/17820(その内容が参照のため本明細書に取り込まれる)で説明したように、外観モデルは、トレーニングイメージ中の顔の形状の変動性を模倣するシェープモデル、ならびに、テキスチャーの変動性あるいはレーニングイメージにおける画素の色を模倣するテクスチャモデル、を最初に決定し、次に、前記シェープモデルとテクスチャモデルを組み合わせることにより、生成される。
【0022】
シェープモデルを作り出すため、ランドマークポイントの複数の位置がトレーニングイメージ上で認識され、次に、同じランドマークポイントが、他のトレーニングイメージ上で認識される。ランドマークポイントのこの位置の結果が、前記イメージ中の各ランドマークポイントの(x、y)座標を認識する各トレーニングイメージに関するランドマークポイントのテーブルである。本実施形態において用いられているモデリング技術は、これらの位置がどのように変化するかを認識するため、次に、トレーニングセットにわたってこれらの座標を検査する。異なるイメージから同じポイントの比較を可能とするため、頭部は、共通の軸に対して位置あわせを行わなければならない。これは、それらが全て同じ基準フレームに入るよう、各頭部毎に座標のセットを相互に回転させ、スケーリングし、平行移動することにより実行される。各頭部毎の座標のセットは、そのエレメントが基準フレーム内のランドマークポイントの座標と対応する、シェープベクトル(xi)を形成する。本実施形態において、次に、シェープモデルは、シェープトレーニングベクトル(xi)について、主要構成要素分析(PCA)を実行することによって生成される。この主要構成要素分析は、各シェープベクトル(xi)と、シェープパラメーター(Ps i)の対応するベクトルとを関連づけるシェープモデル(Qs)を、以下の式により生成する:
【0023】
【数1】
【0024】
ここで、xi は、シェープベクトルであり、X~は、シェープトレーニングベクトルからの平均シェープベクトルであり、Ps i はシェープベクトルxi 用のシェープパラメーターのベクトルである。マトリクスQsは、トレーニングイメージの頭部中の、シェープの変化のメインモードならびにポーズを表わし;与えられた入力頭部用のシェープパラメーター(Ps i)のベクトルは、変化の各モードと関連するパラメーターであって、その値が、入力された頭部のシェープと、対応する変化モードを関連させるもの、を有している。例えば、トレーニングイメージが、ユーザーが左右を向き、正面を向いたイメージを含む場合、次に、シェープモデル(Qs)により表される一の変化モードは、特に影響を及ぼし、ユーザーが注目するシェープパラメーター(Ps)のベクトル中に、関連するパラメーターを有する。具体的には、パラメーター値がほぼー1の場合、左を向いたユーザーと関連づけられ、その値が0に近い場合、正面を向いたユーザーと関連づけられ、その値がほぼ+1の場合、右を向いたユーザーと関連づけられるよう、ー1から+1の間で変化する。したがって、トレーニングデータ中の変化を説明するために必要とされる変化モードが多ければ多いほど、シェープパラメーターPs i中に、より多くのシェープパラメーターが必要となる。本実施形態においては、トレーニングヘッド中において見られる変化の98%を説明するため、使用された特定のトレーニングイメージについて、20個の異なるシェープならびにポーズの変化モードを模倣しなければならない。
【0025】
与えられたシェープベクトルxiに関するシェープパラメーターPs i のセットを求めることができるのに加え、以下でxi を得ることにより式(1)を解くことができる:
【0026】
【数2】
【0027】
QsQs Tがアイデンテティーマトリクスと等しいので、適切な範囲内でシェープパラメーター(Ps i )のセットを調整することにより、トレーニングセット中にあるものと近似する新しいヘッドシェープを生成することができる
シェープモデルが生成されると、トレーニングフェース内のテクスチャを模倣するため類似のモデル、具体的には、トレーニングフェース内の赤、緑ならびに青レベルが生成される。これを実行するため、本実施形態においては、各トレーニングフェースを基準シェープに変形させる。出願人の以前の国際出願において、基準シェープは、平均的なシェープであった。しかし、このことは、トレーニングフェース内の全ての面にわたる画素サンプリングについて一定の解像度を要することになる。したがって、唇部分の10倍の面積を有する頬に対応する面については、10倍の数の画素をサンプリングしなければならない。この結果、この頬の面は、望ましくないテクスチャモデルの10倍に匹敵する(contribute to)。したがって、本実施形態においては、顔の他の部分よりも目および口の領域を緻密にサンプリングするように、目と口の周囲の面を基準シェープよりも大きくすることによって基準シェープを変形する。本実施形態において、これは、各イメージのランドマークポイントの位置が基準ヘッドのシェープならびにポーズを表す対応ランドマークポイント(前もって決定されている)の位置と合致するまで各トレーニングイメージヘッドを変形させることによって達成される。これらの変形シェープイメージにおけるカラー値は、テクスチャモデルに対する入力ベクトルとして用いられる。本実施形態において用いられる基準シェープならびに基準シェープにおけるランドマークポイントの位置は、図4に概略的に示されている。図4から読み取ることが出来るように、基準シェープの目および口のサイズは、顔の他の部分と比較して誇張されている。したがって、トレーニングイメージがサンプリングされた場合、顔の他の部分と比べ、目および口の周囲の画素をより多く取る。これにより、テクスチャモデルが、口および目の中およびその周囲の変化により敏感に応答するという結果になり、したがって、ユーザーは、ソースビデオシーケンス内を追跡した方がよい。各トレーニングヘッドを基準シェープに変形させるのに様々な三角測量技術を用いることが出来る。かかる技術の一つは、前述の出願人の以前の国際出願において説明されている。
【0028】
トレーニングヘッドが基準シェープに変形されると、変形シェープヘッドにわたって均一に配置された10、000個の点における各カラーレベルをサンプリングすることにより、各変形シェープイメージについての赤、緑ならびに青のレベルベクトル(ri 、gi ならびにbi)が決定される。赤レベルベクトルの主要構成要素分析は、各赤レベルベクトルを赤レベルパラメーターの対応ベクトルに関連させる赤レベルモデル(マトリクスQr)を以下により生成する:
【0029】
【数3】
【0030】
ここで、ri は、赤のレベルベクトルであり、r~は、赤レベルトレーニングベクトルからの平均レッドレベルベクトルであり、Ps i は、赤のレベルベクトルri 用の赤レベルパラメーターのベクトルである。緑ならびに青についての同様の主成構成要素分析が、以下のように同様のモデルを生じさせる:
【0031】
【数4】
【0032】
【数5】
【0033】
これらのカラーモデルは、シェープが整えられた(shape−normalised)トレーニングフェース内のカラーの変化のメインモードを表す。
【0034】
xi について式(1)を解くのと同様に、式(3)から(5)は、ri 、gi ならびにbi を得ることにより解くことができる:
【0035】
【数6】
【0036】
QsQs T, QgQs T ならびにQbQb T は、単位マトリクス(identity matrices)であるので、カラーパラメーターのセット(Pr、PgあるいはPb)を、適切な範囲内で調整することにより、トレーニングセット中にあるものと近似する新しい変形シェープカラーフェースを生成することができる。
【0037】
上述のように、シェープモデルおよびカラーモデルは、シェープおよびカラーの両方がトレーニングイメージの顔の範囲内で変化する方法を全体として模倣する外観モデル(Fa)を生成するため用いられる。シェープとカラーバリエーションとの間には、トレーニングフェース内の全体としての変化を表すのに必要なパラメーターを低減させるために用いることができる相関関係があるので、組み合わされた外観モデルが生成される。本実施形態において、これは、トレーニングイメージに関して、シェープならびに赤、緑および青のパラメーターについて更なる主要構成要素分析を実行することにより達成される。具体的には、シェープパラメーターは、各トレーニングイメージの赤、緑ならびに青のパラメーターと一緒に連結され、ついで、外観モデル(マトリクスFa)を決定するため、連結されたベクトルについて主要構成要素分析が実行される。しかし、本実施形態においては、シェープパラメーターとテクスチャパラメーターを一緒に連結する前に、主要構成要素分析がテクスチャパラメーターによって支配されないよう、シェープパラメーターに重点を置いている(weightened)。これは、以下のように、式(2)に重み付けマトリックス(Hs)を導入することにより達成される:
【0038】
【数7】
【0039】
ここで、Hs は、適切なサイズの単位マトリクスの倍数(λ)である、すなわち:
【0040】
【数8】
【0041】
ここで、λは、定数である。発明者は、1、000から10、000のλの値が、よい結果をもたらすことを発見した。したがって、Qs T ならびにPs iは:
【0042】
【数9】
である。
【0043】
シェープパラメーターの重み付けが行われると、以下のように外観モデルを決定するため、各トレーニングイメージ用の調整済シェープパラメーターならびに赤、緑および青のパラメーターの連結済みベクトルについて主要構成要素分析が実行される:
【0044】
【数10】
【0045】
ここで、Ps iは、シェープ並びにカラーの両方を制御する外観パラメーターのベクトルであり、Pi c cは、連結された調整済みシェープならびにカラーパラメーターのベクトルである。
【0046】
調整済シェープモデル(Qs)、カラーモデル(Qr,,Qg およびQb)ならびに外観モデル(Fa)が決定されると、これらは、次の使用のため記憶されるユーザーの携帯電話13に送信される。
【0047】
外観パラメーターのセットにより入力インターフェースを表すことができることに加えて、入力された顔を再生成するため、これらの外観パラメーターを用いることも可能である。具体的には、式(10)と式(1)および(3)から(5)までを組み合わせることにより、シェープベクトルならびにRGBレベルベクトルのための式が以下のように確定する:
【0048】
【数11】
【0049】
【数12】
【0050】
【数13】
【0051】
【数14】
【0052】
ここで、Vsは、FaおよびQsから得ることができ、Vrは、FaおよびQrから得ることができ、Vgは、FaおよびQgから得ることができ、Vvは、FaおよびQbから得ることができる。顔を再生成するため、カラーパラメーターから生成された変形シェープカラーイメージは、シェープベクトルにより表現されているように、基準シェープから、顔の外形を考慮して変形しなければならない。前述の出願人の以前の国際出願には、シェ−プ未確定のグレーレベルのイメージの変形が実行される方法が説明されている。当業者は、顔のイメージを再生成するため、その後組み合わせられる各変形シェープカラーコンポーネントを変形させるため、同様の処理技術が用いられることを理解する。
【0053】
エンコーダーユニット
ここで、図2に示すエンコーダーユニット39が、ユーザーの外観モデルを被呼側の携帯電話13−2へ送信するため符号化する好ましい方法を、図5aを参照しつつ説明する。次に、復号器51が、被呼側の外観モデル(同じ方法で符号化されたもの)を再生成する方法を、図5bを参照しつつ説明する。
【0054】
最初に、ステップS71において、エンコーダーユニット39は、ユーザーの外観モデルを、シェープ(Qs trgt)ならびにカラーモデル(Qr trgt,Qg trgt,Qb trgt)に分解する。次に、ステップS73において、エンコーダーユニット39は、赤、緑ならびに青モードの各変化に関するシェープワープドカラーイメージを生成する。具体的には、変形された赤(shape warped red)、緑ならびに青のイメージは、上述の式(6)を用い、以下のカラーパラメーターのベクトルを求めるため生成される:
【0055】
【数15】
【0056】
(式(6)において用いられた平均ベクトルは、必要に応じて無視されているが)。これらの変形シェープイメージおよび平均カラーイメージ(r~、g~ならびにb~)は、次に、ステップS75において、JPEG等の標準的なイメージ圧アルゴリズムを用いて圧縮される。しかし、当業者は、JPEGアルゴリズムを用いた圧縮の前に、変形シェープイメージおよび平均カラーイメージを、長方形の基準フレーム内に合成しなければならず、そうしなければ、JPEGアルゴリズムが機能しないことを理解する。整形シェープイメージは、全て同じ形状を有するので、これらは長方形の基準フレーム中の同じ位置に合成される。この位置は、本実施形態において、基準シェープ(図4に概略的に示す)から直接生成され、複数の1および0(1's and 0's)を含むテンプレートイメージであって、テンプレートイメージ中の1は、バックグランド画素に対応し、テンプレートイメージ中の0は、イメージ画素に対応するもの、によって決定される。このテンプレートイメージは、被呼側の携帯電話13−2にも送信され、本実施形態では、ランレングス符号化技術を用いて圧縮しなければならない。次に、エンコーダーユニット39は、ステップS77において、シェープモデル(Qs trgt)、外観モデル((Fa trgt)T)、平均シェープベクトル(x~trgt)、トランシーバーユニット41を介する電話回線網への送信するための圧縮イメージ、を出力する。
【0057】
復号ユニット
図5bを参照すると、復号ユニット51は、ステップS81で、JPEGイメージ、平均カラーイメージならびに圧縮テンプレートイメージを解凍する。次に、ステップは、サンプリングされる画素を識別するための解凍されたテンプレートイメージを用い、変形シェープカラーベクトル(ri 、gi ならびにbi)を再生するために、解凍されたJPEGイメージがサンプリングされるステップS83に進む。これらの変形シェープカラーベクトルを生成するために用いられるカラーパラメーターベクトルを選択するため(上述の(15)参照)、関連する変形シェープカラーベクトルを一緒に積み重ねる(stacking)ことにより、カラーモデル(Qr trgt,Qg trgt,Qb trgt)を再構築することができる。図5bに示したように、シェープフリーカラーベクトルの積み重ねは、ステップS85において実行される。つぎに、ステップは、記憶装置54に記憶された被呼側の外観モデルを再生成するため、再生シェープおよびカラーモデルが組み合わされるステップS87に進む。
【0058】
本実施形態において、かかる好ましい符号化技術を用いることにより、カラーモデルは、単にそれ自体が送信される場合と比べ、約10倍効率的に相手側に送信される。これは、本実施形態において用いられる各カラーモデルは、通常、30000×8のマトリクスであり、各マトリクスの各エレメントが3バイトを必要とするからである。したがって、各携帯電話13は、カラーモデルマトリクスを非圧縮形式で送信するために約720キロバイトのデータを送信しなければならない。その代わりに、上述の変形シェープカラーベクトルを生成し、標準イメージ符号化技術を用いてこれらを符号化し、符号化したイメージを送信することにより、カラーモデルを送信するのに必要となるデータの量は、たった約70キロバイトになる。
【0059】
プレーヤーユニット
図6は、本実施形態に使用されているプレーヤーユニット53の部品の詳細を示すブロック図である。図示したように、プレーヤユニットは、入力ライン152上の符号化された外観パラメーターならびに入力ライン154上の被呼側の外観モデル、を受信するパラメーター変換器150を備えている。本実施形態において、パラメーター変換器150は、ライン154上の被呼側の外観モデル入力を用い、入力外観パラメーターPa iを対応するシェープベクトルXi ならびに変形シェープRGBレベルベクトル(ri 、gi ならびにbi)に変換するため、式(11)から式(14)を用いる。かかるRGBレベルベクトルは、シェープ変形器158に向けてライン156上に出力され、シェープベクトルは、シェープ変形器158に向け、ライン164上に出力される。シェープ変形器158は、ベクトルxiにより説明したように、顔のシェープを考慮して基準シェープからRGBレベルベクトルを変形するため動作する。シェープ変形器158により生成されたRBGレベルベクトルは、デイスプレイ55上に表示を行うためフレームバッファに出力される、対応するピクセル値の二次元アレイを生成するためにRGBレベルベクトルを用いるイメージ合成器162に向けて出力線160上に出力される。
【0060】
変形例ならびに他の実施形態
上述の第一の実施形態において、各携帯電話13ー1は、ユーザーのビデオシーケンスを生成するカメラ23を備えている。かかるビデオシーケンスは、次に、記憶された外観モデルを用いて外観パラメーターのセットに変換されていた。ここで、加入者電話13がビデオカメラを備えていない第二の実施形態を説明する。その代わりに、電話13は、ユーザーの入力音声から、外観パラメーターを直接生成する。図7は、加入者電話13のブロック図である。図示したように、マイク21から出力された音声は、自動音声認識ユニット180、ならびに、それとは別の音声符号化ユニット182に入力する。音声符号化ユニット182は、通常の方法により、トランシーバーユニット41ならびにアンテナ43を介して基地局121への送信を行うため、音声を符号化する。音声認識ユニット180は、ルックアップテーブル35に出力される音素(phoneme)33のシーケンスを生成するため、予め記憶された音素モデル(音素モデル記憶装置181内に記憶された)と入力音声を比較する。かかるルックアップテーブル35は、各音素用に、外観パラメーターのセットを記憶し、自動音声認識ユニット180によって出力された各音素に関し、対応する音素の発音がなされている間のユーザーの顔を表す、対応外観パラメーターのセットが出力されるよう構成される。本実施形態において、ルックアップテーブル35は、携帯電話のユーザーだけに適用することができ、音素と、外観モデルから必要とされるユーザーのイメージを生成する外観パラメーター間の関係を確認する、トレーニングルーチン中に前もって生成される。以下のテーブル1は、本実施形態でルックアップテーブル35が有するフォームを表している。
【0061】
【表1】
【0062】
図7で示すように、ルックアップテーブル35により出力された外観パラメーター37のセットは、次に、被呼側への送信のため、外観パラメーターを符号化するエンコーダーユニット39に入力する。こうして符号化されたパラメーター40は、次に、符号化された外観パラメーターを対応する符号化された音声と一緒に送信する、トランシーバーユニット41に入力する。第一の実施形態のように、トランシーバー41は、符号化された音声および符号化された外観パラメーターを、被呼側の電話が、同期したビデオと対応する音声間の同期を維持するのが容易となるよう、交互に時間をあける方法(tieminterleaved manner)により送信する。
【0063】
図7に示すように、携帯電話の受信側は、第一の実施形態と同じであるので、再度説明はしない。
【0064】
上記説明から当業者が理解するように、この第二実施形態においては、送信される外観パラメーターを生成するため、ユーザー携帯電話134がユーザーの外観モデルを有する必要はない。しかし、被呼側では、対応するビデオシーケンスを同期させるため、ユーザーの外観モデルを有する必要がある。したがって、本実施形態において、全ての加入者の外観モデルは、サービスプロバイダーのサーバー15に集中的に記憶され、加入者間の通話が開始されると、サービスプロバイダーのサーバー15は、適切な外観モデルを適切な電話中にダウロードを行うよう動作可能となる。
【0065】
図8は、サービスプロバイダーのサーバー15の内容の詳細を示す。図示したように、サーバー15は、移動スイッチングセンター9、写真ブース17、ならびに、サーバー15内の制御ユニット193間のインターフェースを提供するインターフェースユニット191を備えている。サーバーが、新しい加入者のイメージを受信すると、制御ユニット193は、当該イメージを、第一の実施形態で述べた方法により適切な外観モデルを組み立てる外観イメージビルダー195に送る。かかる外観モデルは、次に、外観モデルデータベース197内に記憶される。次に、加入者間で通話が開始されると、移動スイッチングセンター9は、発信者の身元ならびに被呼側の身元をサーバー15に通知する。制御ユニットは、次に、外観モデルデータベース197から発信者ならびに被呼側の外観モデルを取り込み、これらの外観モデルを、インターフェースユニット191を介し移動スイッチングセンター9に返送する。移動スイッチングセンター9は、次に、発信者の適切な外観モデルを、被呼側の電話に送信するとともに、外観モデルをそれぞれの加入者電話に送信する。
【0066】
ここで、本実施形態の制御タイミングについて、図9を参照しつつ説明する。まず、発信者は、キーボードを用いて、被呼側の電話番号の入力を行う。発信者が完全に番号を入力し、電話13の第二のキー(図示せず)を押すと、かかる番号は、次に、空気を介して基地局11−1に送信される。次に、基地局は、適切な外観モデルを取り込むことができるよう、この番号を、発信者の身元ならびに被呼側の身元をサーバー15に通知する移動スイッチングセンター9に送る。かかる移動スイッチングセンター9は、被呼側の電話13−2を鳴らすため、次に、電話回線網中の適切な接続を介し、被呼側へ信号を送る。このことが起きている間、サービスプロバイダーのサーバー15は、それらが次にユーザの電話へのダウンロードのために記憶される移動スイッチングセンター9に、発信者および被呼側の適切な外観モデルをダウンロードする。被呼側の電話が鳴ると、発信側の電話が適切な呼び出し音を生成可能となるように、移動スイッチングセンター9は、ステータス情報を発信側の電話に返送する。被呼側が受話器を取ると、適切なシグナリング情報が電話回線網を介して移動スイッチングセンター9に返送される。これに対し、移動スイッチングセンター9は、発信側の適切な外観モデルを被呼側にダウンロードさせ、被呼側の外観モデルを発信側にダウンロードさせる。これらのモデルがダウンロードされると、それぞれの電話は、ビデオイメージと対応するユーザーの会話を同期させるため、送信された外観パラメーターを、上述の第一実施形態と同じ方法で復号する。このテレビ電話は、発信側または被呼側のいずれかが通話を終了させない限り続く。
【0067】
上述の第二実施形態は、第一実施形態を超える数々の利点がある。第一に、加入者電話に内蔵され、あるいは、取り付けられるビデオカメラが不要である。外観パラメーターが、ユーザーの話しから直接、生成される。第二に、発信側ならびに被呼側の外観モデルは、制約された通信リンクのみを通じて送信される。具体的には、第一実施形態においては、各外観モデルは、ユーザーの電話機から電話回線網に送信され、次に、電話回線網から、相手側の電話に送信されていた。電話回線網に用いられている帯域は比較的高いが、回線網から電話機へのチャネルの帯域は制限されている。したがって、この実施形態において、外観モデルは、電話回線網に集中的に記憶されているので、これらは、帯域制限がある一のリンクを介して送信されるだけである。当業者であれば理解するが、第一実施形態は、電話回線網に記憶された外観モデルと同様の方法で動作するよう変更することもできる。
上述の実施形態において、ユーザーの外観パラメーターは、ユーザーの電話で生成され、ビデオシーケンスが同期されユーザーの会話が表示される被呼側の電話機へ送信されていた。ここで、第二実施形態とほぼ同じ構成であるが、ユーザーの外観を変えるため、外観パラメーター値を変更するよう動作可能な追加のアイデンティーティーシフトユニット185を有する電話機を示す、図10を参照しつつ他の実施形態について説明する。かかるアイデンティーティーシフトユニット185は、メモリ187に記憶された所定の変更値を用いて変更を行う。かかる変換値は、ユーザーの外観の変更あるいは単にユーザーの外観を良くするためだけに用いることができる。ユーザー認識された感情状態を変化させる外観パラメーター(またはシェープあるいはテクスチャパラメーター)に対し、オフセット量を追加することが可能である。例えば、少し笑うための外観パラメーターのベクトルを、”中程度(neutral)”元気な話しぶりから生成された全ての外観パラメーターに加えると、その人を幸せそうに見せることになる。眉間にしわを寄せる(frown)ベクトルを加えることにより、人が怒っているように見せることになる。アイデンティーティーシフトユニット185がアイデンティーティーシフトを実行するのには、多くの方法がある。その一つの方法は、出願人の以前の国際出願 WO00/17820中にに説明されている。他の技術は、出願人による継続中の英国出願GB00315119.9中に説明されている。本実施形態の電話の残りの部分は、第二実施形態と同じであるので、再度説明はしない。
【0068】
上述の第二および第三実施形態において、電話機は、自動音声認識ユニットを備えていた。ここで、ユーザーの電話ではなく、サービスプロバイダーのサーバー15に自動音声認識ユニットが設けられている実施形態を、図11および12を参照しつつ説明する。図11に示すように、加入の電話13は、図7に示した第二実施形態の加入者の電話よりかなりシンプルである。図示したように、マイク21によって生成された音声信号は、従来の方法により音声を符号化する音声符号化ユニット182に、直接、入力する。符号化された音声は、その後、トランシーバーユニット41およびアンテナ43を介してサービスプロバイダーのサーバー15に送信される。本実施形態において、発信者ならびに被呼側からの全ての音声は、そのブロック図が図12に示されているサービスプロバイダーのサーバー15を経由する。図示したように、本実施形態においては、サーバー15は、自動音声認識ユニット180ならびに全てのルックアップテーブル35を備えている。
【0069】
動作中、発信者と被呼側間で通話が開始されると、符号化された全ての音声は、サーバー15を介して相手方へ送られる。当該サーバーは、音声ならびに話し手を認識し、生成した音素を適切なルックアップテーブル35に出力する自動音声認識ユニット180に音声を送る。次に、かかるルックアップテーブルから、対応する外観パラメーターが抽出され、従来と同様にビデオシーケンスを同期させる相手方への以後の送信のため、符号化されたオーディオと一緒に制御ユニット193に返送される。
【0070】
当業者であれば理解するように、本実施形態は、全てがサービスプロバイダーのサーバー15内で集中的に行われるので、複雑な自動音声認識ユニットを備える必要がない、という利点を提供する。しかし、自動音声認識ユニット180は、音素を適切なルックアップテーブルに適用できるよう、全ての加入者の話しを認識可能でなくてはならず、しかも、どの加入者が何を言ったのか、を識別可能でなくてはならない、という不都合がある。
【0071】
第二実施形態から第四実施形態において、加入者により生成された音素を対応する外観パラメーター値に合わせる(mapped)ルックアップテーブル35が各加入者毎に一つ設けられていた。しかし、自動音声認識ユニットにより出力された音素と実際の外観パラメーターの値との間の関係は、ユーザーの感情状態に基づいて変化する。図13は、ルックアップテーブルデータベース205が、ユーザーの様々な感情状態を表すため複数のルックアップテーブル35を記憶している、別の加入者電話の部品を示すブロック図である。このルックアップテーブルデータベース205は、ユーザーが幸せな場合、怒っている場合、興奮している場合、悲しい場合等のための適切なルックアップテーブルを備えていてもよい。本実施形態において、ユーザーの現在の感情状態は、ユーザーの話のストレスレベルを検出することにより自動音声認識ユニット180によって決定される。
【0072】
これに応じ、自動音声認識ユニット180は、自動音声認識ユニット180から出力された音素のシーケンスを対応する外観パラメーターに変換するため、適切なルックアップテーブル35を使用させるよう、ルックアップテーブルデータベース205に適切な指示を出力する。当業者であれば理解するように、ルックアップテーブルデータベース205中の各ルックアップテーブルは、各感情状態におけるユーザーのトレーニングイメージから生成しなければならない。再度述べるが、これは、前もって行われ、適切なルックアップテーブルは、サービスプロバイダーのサーバー16中に生成される。これに代えて、その後、検出されたユザーの感情状態に基づいて適切なアイデンティーティーシフトを実行するアイデンティーティーシフトユニットとともに、”中間の”ルックアップテーブルを用いるようにしてもよい。
【0073】
上述の第一実施形態において、ユーザーの声を符号化するため、CELPオーディオコーデイックが用いられた。かかるエンコーダーは、音声用に要求される帯域幅を、毎秒約4.8キロビット(kbps)まで低減させる。これにより、携帯電話が、7.2kbpsの帯域幅を有する標準的なGSMリンクを介して音声並びにビデオデータを送信する場合、外観パラメーター用に2.4kbpsの帯域幅が与えられる。しかし、既存のほとんどのGSM電話は、CELPオーディオエンコーダーを用いていない。その代わりに、これらは、7.2kbpsの帯域幅の全部を用いるオーディオコーデイックを使用している。したがって、ソフトウエアにCELPオーディオコーデイックが与えられている場合、上記システムは、既存のGSM電話でしか動作しない。しかし、実際の携帯電話は、音声データを復号化する演算パワーを有していないので、これは現実的ではない。
【0074】
しかし、上述のシステムは、予め記録されたビデオシーケンスを送信するため既存のGSM電話上で用いることができる。通常の会話の間には沈黙が生じ、その間、使用可能な帯域幅は用いられないので、このことが可能となる。具体的に、一般のスピーカーは、言葉や語句の間にポーズがあるため、15%から30%の時間は、帯域幅を全く使用していない。したがって、使用可能な帯域幅を使い切るため、ビデオデータを音声データとともに送信することができる。受信者が、ビデオシーケンスを再同期させる前に、ビデオならびに音声データの全てを受信した場合、かかるビデオならびに音声データは、その後、GSMリンクを介し、いずれの順序、かつ、いずれのシーケンスによっても送信可能である。これに代え、音声が受信されるとすぐにビデオを再生することが可能となるよう、できるだけ早くビデオシーケンスを再生可能にする効率的な動作のため、対応する音声データの前に適切なサイズにブロック化されたビデオ信号(上述の外観パラメーター等の)を送信することができる。外観パラメーターデータは、音声データよりも毎秒小さいデータ量しか使用しないので、この場合、対応する音声データの前にビデオデータを送信することが、最適である。
したがって、ビデオの4秒間の部分を再生するには、音声データについて4秒、ビデオについては1秒間の送信時間が必要とされ、次に、送信時間の合計が5秒間となるので、ビデオは、1秒後に再生可能となる。音声中の沈黙が十分に長い場合、かかるシステムは、音声の前に送信された受信ビデオデータをバッファするため受信側で必要とされる比較的少ない量のバッファだけで動作可能である。しかし、かかる動作を行うには音声中の沈黙が十分でない場合には、早いうちにより多くのビデオを送信しておかなければならず、これにより、受信側は、より多くのビデオデータをバッファしなければならない。当業者であれば理解するが、かかる実施形態は、受信側のプレーヤーユニットによりこれらが再同期可能となるよう、音声ならびにビデオデータの双方にタイムスタンプすることを必要とする。
【0075】
これらの前もって記録されたビデオシーケンスは、ユーザーが、それを見るか、あるいは、後に他の電話に転送するため、そこから、シーケンスを自分の電話にダウンロードすることができるサーバー上で生成し、そこで記憶するようにしもよい。ビデオシーケンスがユーザーにより彼らの電話を用いて生成された場合、音声と一緒に送信可能なビデオデータの量を認識するため、電話にビデオデータ音声中のポーズを識別するのに必要な処理回路、ならびに、GSMコーデックが使用可能な帯域幅を全部用いるよう、ビデオデータを生成し、それを音声データと混合させるための適切な処理回路、を備える必要がある。 話しから直接、ビデオシーケンスを再生する代わりに、テキストから、直接、動画シーケンスを生成するようにしてもよい。例えば、ユーザーは、テキストを、後に適切な外観パラメーターならびに適切な外観モデルとともに被呼側の電話に送信される符号化音声に変換する、中央サーバーに送信してもよい。次に、ビデオシーケンスは、上述の方法により生成可能である。かかる実施形態において、ユーザーがサービスに加入し、外観モデルを生成するための画像を提供するために写真ブースの一つを用いた場合、サーバーが、当該ユーザーのために、ユーザーの入力テキストから話しを実質的に合成するために用いられる適切な音声合成装置を生成することができるよう、かかるユーザーは、写真ブース内のマイクを通じていくつかのフレーズを入力することもできる。話しを合成し、サーバー内で外観パラメーターを生成することに代え、これを、ユーザーの電話あるいは被呼側の電話内で、直接、実行することもできる。しかし、現在の処、テキストからビデオを生成することは、演算として割が合わず、被呼側にも性能が高い電話が必要とされるので、かかる実施形態は、現実的ではない。
【0076】
上述の実施形態においては、ユーザーの顔のシェープ全体および色を模倣した外観モデルについて述べられていた。他の実施形態においては、目、口ならびに顔の残りの部分用に、別の外観モデル、あるいは、別の色モデルだけ、を用いるようにしてもよい。別のモデルが用いられるので、異なる要素のために、外形モデルの異なる番号、あるいは、モデルの異なるタイプ、を用いることができる。
【0077】
例えば、目および口用のモデルは、顔の残りの部分のモデルよりも多くのパラメーターを含むようにしてもよい。これに代え、顔の残りの部分は、モードを変化させることなく、質感の平均値に(a mean texture)により単に模倣するようにしてもよい。テレビ電話の通話中、顔の大部分の質感は、大きく変化することがないので、これは、実用的である。このことは、加入者電話間で送信を行うのに、より少ないデータで足りるということを意味する。
【0078】
図14は、目、口ならびに顔の残りの部分用に別の色(しかし、共通のシェープモデル)が与えられている他の実施形態に用いられるプレーヤーユニット53のブロック図である。図示したように、かかるプレーヤーユニット53は、パラメーター変換器150が送信された外観パラメーターを受信し、シェープベクトルXi (シェープ変形器158に向けてライン164上に出力される)を生成するとともに、各カラーモデルのためのカラーパラメーターを分離するよう動作可能である点を除き、第一実施形態のプレーヤーユニット53と実質的に同じである。目のカラーパラメーターは、入力ライン212に与えられた目のカラーモデルを用いて、かかるパラメーター値を対応する赤、緑ならびに青レベルのベクトルに変換する、パラメーター/ピクセル変換器211に出力される。同様に、口のカラーパラメーターは、入力ライン214に与えられた口のカラーモデルを用い、パラメーター変換器150によって、口のパラメーターを対応する赤、緑ならびに青レベルのベクトルに変換するパラメーター/ピクセル変換器213に出力される。最後に、顔の残りの部分の外観パラメーターあるいはパラメーターが、ライン216に入力したモデルを用いて適切な赤、緑ならびに青レベルのベクトルが生成されるパラメーター/ピクセル変換器215に入力する。図14に示すように、各パラメーター/ピクセル変換器から出力されたRGBレベルのベクトルは、第一実施形態のシェープノーマライズドカラーレベルベクトルからそれらを再生成するフェースレンダラーユニット220に入力する。次に、これらは、そこで現在のシェープベクトルxi を考慮しつつ変形を行うシェープ変形器158に送られる。次の処理は、第一実施形態と同じであるから、ここでは再度説明しない。
【0079】
外観パラメーターからビデオイメージを生成する動作のうち最も集中を要する動作は、カラーパラメーターをRGBレベルベクトルに変換することである。ここで、カラーレベルベクトルは、フレーム毎に計算されないが、その代わりに、隔フレーム毎に(every second or third frame)計算される実施形態について説明する。この実施形態は、図15に示すプレーヤーユニット53について説明するが、かかるプレーヤーユニット53は、第一実施形態でも使用可能である。図示したように、本実施形態において、かかるプレーヤーユニット53は、さらに、パラメーター/ピクセル変換器211、213ならびに215のそれぞれに入力する制御ライン225に共通イネーブル信号を出力するよう動作可能である制御ユニット223を備えている。本実施形態において、これらの変換器は、制御ユニット223によりそれが可能となった場合に、受信したカラーパラメーターを対応するRGBレベルベクトルに変換するためだけに動作する。
【0080】
動作中、パラメーター変換器150は、カラーパラメーターのセットおよびデイスプレイ55に出力されるビデオシーケンスの各フレーム用のシェープベクトルを出力する。かかるシェープベクトルは、従来どおりシェープ変形器158に出力され、それぞれのカラーパラメーターは、対応するそれぞれのパラメーター/ピクセル変換器に出力される。しかし、本実施形態において、制御ユニット223は、三番目のビデオフレーム毎に適切なRGBレベルベクトルを生成可能にするためだけに変換器211、213ならびに215をイネーブルにする。それに対してパラメーター/ピクセル変換器211、213並びに215がイネーブルされなかったビデオフレ−ムについては、前のフレーム用に生成されたRGBレベルベクトルであって、シェープ変形器158により、以後、それが新たなシェープベクトルとともに変形されるものをフェースレンダラーユニット220が出力するよう動作可能である。
【0081】
さらに別の例としては、 二番目ビデオフレームあるいは三番目のビデオフレーム毎にカラーレベルのベクトルを再計算するよりも、所定量だけ変化した場合、直ちにカラーレベルベクトルを計算することもできる。特定のコンポーネントに対応するカラーのみを更新しなければならないので、このことは、目、口ならび顔の残りの部分について別々のモデルを用いる実施形態において特に有益である。かかる実施形態は、あるフレームから次のフレームへのパラメーター値間の変化を監視することができるよう、パラメーター変換器150により出力されるパラメーターを有する制御ユニット223を設けることにより実行することができる。かかる変化が所定のしきい値を超えた場合は、いつでも、制御ユニットから当該変換器への専用のイネーブル信号によって適切なパラメーター/ピクセル変換器がイネーブルされる。フェースレンダラーユニット220は、次に、顔用のシェープノーマライズドRGBレベルベクトルであって、その後、シェープ変形器158に入力するもの、を生成するため、そのコンポーネント用の新しいRGBレベルベクトルと、他のコンポーネント用の古いRGBレベルベクトルを組み合わせるよう動作可能である。
【0082】
上述のように、本システムにおいて、最も集中を要する動作は、カラー外観パラメーターをカラーレベルベクトルに変換することである。携帯電話のような低出力装置においては、その時々における使用可能な処理能力は、しばしば変化することがある。このような場合、現在利用可能な処理能力に基づて、カラーレベルベクトルを再構成するために用いられる変化のカラーモード数(カラーパラメーターの数)を大きく変化させるようにしてもよい。例えば、携帯電話が、各フレームについて30のカラーパラメーターを受信した場合に、全処理能力が利用可能な場合には、カラーレベルベクトルを再構成するため、当該30のパラメーター全部が用いられる。しかし、利用可能な処理能力が低下すると、カラーレベルベクトルを再構成するために、最初の20のカラーパラメーター(最上位の変化カラーモードを表す)のみが用いられる。
【0083】
図16は、上述の方法で動作するようプログラムされたプレーヤーユニット53の他のの形式を示すブロック図である。具体的には、パラメーター変換器150は、入力外観パラメーターを受信するとともに、シェープベクトルXi 、および、パラメーター/ピクセル変換器226に出力される赤、緑ならびに青のカラーパラメーター(Pr i、Pg i ならびにPb i)を生成するよう動作可能である。このパラメーター/ピクセル変換器226は、次に、かかるカラーパラメーターを対応する赤、緑ならびに青のレベルベクトルに変換するため、式(6)を用いる。この実施形態において、制御ユニット223は、変換器226が現在利用可能な処理能力に基づき、制御信号228を出力するよう動作可能である。制御信号228のレベルしだいで、パラメーター/ピクセル変換器226に対するパラメーターは、式(6)で用いられるカラーパラメーターの数を動的に選択する。当業者であれば、カラーモデルのマトリクス(Q)の容量は変化しないが、カラーパラメーター(Pr i、Pg i ならびにPb i)の一部が、ゼロに設定されることを理解する。この実施形態において、変化の最小モードに関連するカラーパラメーターは、画素の値にほとんど影響しないので、ゼロに設定されたパラメーターの値と等しい。
【0084】
上述の実施形態において、符号化された音声および外観パラメーターは、各電話によって受信され、復号化され、その後、ユーザーに出力されていた。他の実施形態において、電話は、外観モデルに加え、アニメーションおよび音声シーケンスをキャッシュする記憶装置を備えるようにしもよい。かかるキャッシュは、以後、所定の、あるいは、”撮影済みの(canned)”のアニメーションのシーケンスを記憶するために用いるようにしてもよい。かかる所定のアニメーションシーケンスは、通信する相手側からの適切な指示を受信することに応じユーザーに対して再生することが可能である。したがって、ユーザーに対しアニメーションシーケンスが繰り返し再生された場合、当該シーケンスのための外観パラメーターは、ユーザーに対し一度だけ送信すればよい。
【0085】
上述の実施形態では、多くの異なる双方通信システムについて説明が行われた。当業者は、上述のアニメーション技術は、ユーザーにメッセージを残すのと同様の方法で用いてもよいことを理解する。例えば、ユーザーは、中央サーバー内に記憶されるメッセージを被呼側によって取り込まれるまで記憶するようにしてもよい。この場合、かかるメッセージは、符号化された音声とともに、外観パラメーターの対応シーケンスを含むようにしてもよい。これに代えて、被呼側がメッセージを取り込む際に、サーバーあるいは被呼側の電話によってビデオアニメーション用の外観パラメーターを生成するようにしてもよい。かかるメッセージングは、ユーザーまたは任意の現実あるいは架空のキャラクターで構成された予め記録したシーケンスを用いてもよい。予め記憶したシーケンスを選択するにあたり、ユーザーは、サーバー上に存在し、メッセージを送る前に自身の電話で見ることができる予め記録したシーケンスを選択するため、ブラウジングすることを可能にするインターフェースを用いてもよい。さらに別の例としては、ユーザーがサービスに最初に登録し、写真ブースを用いる際、写真ブースがユーザーに対し、アニメーション、および、後で、前もって記録したメッセージとして用いるため準備されたフレーズについて音声を記録したいかを尋ねるようにしてもよい。かかる場合、その中から一以上が選択されるフレーズについて、ユーザーに選択肢が示されるようにしてもよい。それに代え、ユーザーは、自分自身の個人的なフレーズを記録するようにしてもよい。ビデオシーケンスを駆動させるためテキストのみが用いられる場合と比べて高品質のアニメーションが提供されるので、これは、テキストビデオメッセージングシステムに、特に適している。
【0086】
上述の実施形態において用いられた外観モデルは、トレーニングイメージのセットの主要構成要素分析から生成されていた。当業者は、かかる結果は、連続的な変数のセットによりパラメーター化が可能であるどのようなモデルにも適用できることを理解する。例えば、ベクトルの定量化およびウェーブレット技術を用いることもできる。
【0087】
上述の実施形態において、シェープパラメーターならびにカラーパラメーターは、外観パラメーターを生成するために結合されていたが、これは必須ではない。別のシェープならびにパラーパラメーターを用いるようにしてもよい。また、トレーニングイメージが白黒である場合、質感パラメーターは赤、緑ならびに青のレベルではなく、画像のグレーレベルを表すようにしてもよい。さらに、赤、緑ならびに青の値を模倣する代わりに、カラーは、クロミナンスと輝度成分あるいは色調、彩度ならびに明度成分によって表してもよい。
【0088】
上記実施形態において用いられていたモデルは、二次元モデルであった。携帯装置の処理能力が十である場合には、三次元モデルを用いることも可能である。このような実施系他において、シェープモデルは、トレーニングモデルにわたり、ランドマークポイントの三次元メッシュを模倣する。かかる三次元トレーニングの例は、三次元スキャナーまたは一以上のカメラのステレオペア(stereo pairs)を用いることによって得ることができる。
【0089】
上記実施形態において、外観モデルは、各ユーザーのビデオイメージ生成するのに用いられていたが、このことは必須ではない。例えば、各ユーザーは、コンピューターが生成した、人間あるいは人間ではないキャラクターを表す外観モデルを選択する。この場合、サービスプロバイダーは、多数の異なるキャラクターであって、そこから各ユーザーが使用したいと望み選択するキャラクターに関する外観モデルを記憶してもよい。さらに、これに代え、被呼側は、発信者を動画化するのに用いるため、アイデンティティーあるいはキャラクターを選ぶこともできる。選ばれたアイデンティティーは、発信者に関する多数の異なるモデルの一つ、あるいは、他の現実あるいは架空のキャラクターのモデル、であってもよい。
【0090】
上記実施形態において、携帯電話は、相手側のアニメーションシーケンスを生成するため、関連する外観モデルを有していないと仮定されていた。しかし、いくつかの実施形態においては、電話回線を通じてこれらを送信する必要がないよう、各携帯電話は、多数の異なるユーザーの外観モデルを記憶するようにしてもよい。この場合、アニメーションパラメーターのみを電話回線を通じて送信しなければならない。かかる実施形態において、電話回線は、携帯電話に対し、当該通話の相手方に関する適切な外観モデルを有しているかとともに、携帯電話が前記外観モデルを有していない場合に適切な外観モデルを送るためだけに動作可能であるか、を尋ねる要求を送る。また、最新の携帯電話回線を用いているので、ファイルを送信するため接続を設定した場合に約5秒のオーバーヘッドが存在し、パラメーターストリームと同様にモデルが必要とされる場合には、一つのファイルで両方を送るのが好ましい。したがって、好ましい実施形態において、サーバーは、送信準備が完了した各アニメーションファイルの2つのバージョンであって、一つがモデルを有し、他方がそれを有しないものを記憶する。
【0091】
上述の第一実施形態において、発信者の外観パラメーターは被呼側に送信され、そのその逆もある。発信者の電話ならびに被呼側の電話は、その後、受信された外観パラメーターから各ユーザーのビデオシーケンスを生成するために用いられる。他の実施形態において、誰が話をしているのかにもよるが、被呼側の映像と発信者の表示を切り換えるためにプレーヤーを用いるようにしてもよい。かかる実施形態は、(i) 話をしていない場合に、被呼側を適切に動画化するのが困難であり、(ii) その信頼性を確認するため、ユーザーが、自身の画像を見たいであろうことから、音声から直接ビデオシーケンスを生成するシステムに特に適している。
【0092】
上述の実施形態においては、加入者電話が携帯電話である場合について説明していた。当業者は、図1に示した陸線を用いる電話を同じ方法により動作させることができることを理解する。この場合、陸線に接続されているローカルの交換機は、必要に応じ、陸線を用いる電話とサービスプロバイダーをインターフェースしなければならない。
【0093】
また、上述の実施形態において、当該システムで用いる適切な外観モデルを生成することができるよう、写真ブースは、ユーザーがサーバーに画像を提供するために設けられていた。当業者は、外観モデルを生成するのにユーザーの画像を入力するため、他の技術を用いることも可能であることを理解する。例えば、上述の実施形態でサーバー内に設けられている外観モデルビルダーのソフトウエアを、ユーザーの自宅のコンピューター内に設けることも可能である。かかる場合、ユーザーは、スキャナーまたはデジタルスチルカメラあるいはビデオカメラからユザーが入力した画像により自身の外観モデルを直接生成することが可能となる。さらに、これに代え、ユーザーは、それを用いてシステムで用いる外観モデルを生成する第三者に対し、単に写真あるいはデジタルイメージを送るようにしてもよい。
【0094】
上記において、電話システムの周辺について多数の実施形態が説明されている。上述の実施形態の特徴の多くは、他のアプリケーションにも用いることができる。例えば、図14,15および16を参照して説明したプレーヤーユニットは、どのような携帯用機器あるいは処理能力が限定されている装置にも有益に用いることができる。同様に、ユーザーの音声から直接ビデオシーケンスが生成される上述の実施形態は、ビデオシーケンスを他のユーザーに送信するのではなく、ローカルで生成するものにも用いることができる。さらに、上述の実施形態に関する多くの変更ならびに代替例は、制限された帯域幅が使用できるユーザー端末とインターネット上のサーバー間等での、インターネットを介する通信に用いることが可能である。
【図面の簡単な説明】
【0095】
【図1】図1は、電気通信システムの略図である。
【図2】図2は、図1のシステムの一部を構成する携帯電話のブロック図である。
【図3a】図3aは、図2に示す携帯電話によって送信されたデータパケットの形式を示す略図である。
【図3b】図3bは、図2に示す携帯電話によって送信されたデータパケットのストリームを略図的に示したものである。
【図4】図4は、画素をサンプリングする前に、その中にトレーニングイメージをワープさせた標準形状を略図的に示したものである。
【図5a】図5aは、図2に示す電話の一部を構成する符号化ユニットにより実行される処理ステップを示すフローチャートである。
【図5b】図5bは、図2に示す電話の一部を構成する符号化ユニットにより実行される処理ステップを示す。
【図6】図6は、図2に示す電話の一部を構成するプレーヤーユニットの主要部を示すブロック図である。
【図7】図7は、図1に示すシステムにおいて代わりに用いることができる携帯電話の一態様を示すブロック図である。
【図8】図8は、図1に示すシステムの一部を構成するとともに、図7に示す電話と交信するサービスプロバイダーのサーバーの主要部を示すブロック図である。
【図9】図9は、図7に示す電話を用いた発信者と受信者間の通話の間に用いられるプロトコルを示す制御タイミング図である。
【図10】図10は、他の実施形態にかかる携帯電話の主要部を示すブロック図である。
【図11】図11は、更に他の実施形態にかかる携帯電話の主要部を示すブロック図である。
【図12】図12は、前記他の実施形態に用いられるサービスプロバイダーのサーバーの主要部を示すブロック図である。
【図13】図13は、更に他の実施形態にかかる携帯電話の主要部を示すブロック図である。
【図14】図14は、別の形式のプレーヤーユニットのブロック図である。
【図15】図15は、他の別の形式のプレーヤーユニットのブロック図である。
【図16】図16は、更に別の形式のプレーヤーユニットのブロック図である。
Claims (83)
- 電話回線網とともに用いられる電話機であって、
パラメーターセットの一以上のパラメーターを対象物(object)のシェープノーマライズドアピアランス(shape normalised appearance)を定義するテクスチャデータに関連させ、前記パラメーターセットの一以上のパラメーターを前記対象物の形状(shape)を定義するシェープデータに関連させる関数(function)を定義するモデルデータを記憶するメモリ、
ビデオシーケンスを表す複数のパラメーターのセットを受信する手段、
少なくとも一の受信したパラメーターセットのため、前記対象物の前記シェープノーマライズドアピアランスを定義するテクスチャデータを生成するとともに、受信した複数のパラメーターセットのため、前記対象物のシェープデータを生成する手段、
前記ビデオシーケンスのフレーム中の前記対象物の外観を定義するイメージデータを生成するため、生成されたシェープデータを用い、生成されたテクスチャデータを変形する手段、および
前記ビデオシーケンスを合成するため、生成された前記イメージデータを出力するためにディスプレイを駆動するディスプレイ駆動装置、を備えたこと、
を特徴とするもの。 - 請求項1にかかる電話機において、
パラメーターセットから生成された前記シェープデータは、受信した前記パラメータのセットに対応する前記対象物の上の複数の所定地点の相対位置を特定する位置のセット、を備えたこと、
を特徴とするもの。 - 請求項2にかかる電話機において、
前記変形手段は、前記シェープノーマライズドオブジェクトを表す前記テクスチャデータ中の前記対象物上の前記複数の所定地点の位置を特定するとともに、前記所定地点の決定された位置を、前記シェープデータにより定義された対応する位置に変更するよう、前記テクスチャデータを変形するよう動作すること、
を特徴とするもの。 - 前記いずれかの請求項にかかる装置において、
前記生成手段は、前記対象物の前記シェープノーマライズドアピアランスを定義するテクスチャデータ、ならびに、受信したパラメーターセットのため、前記対象物のシェープデータを生成するよう動作し、前記変形手段は、前記パラメーターのセットから生成された対応するシェープデータを用い、パラメーターセットの前記生成されたテクスチャデータを変形させるよう動作すること、
を特徴とするもの。 - 請求項1から請求項3のいずれかにかかる装置において、
前記生成手段は、選択された前記受信パラーメーターセットのテクスチャデータを生成するよう動作し、前記生成手段が現在の受信パラメーターセットのテクスチャデータを生成しない場合、前記変形手段は、現在の受信パラメーターセットのシェープデータを用い、前のパラメーターセットテクスチャデータを変形するよう動作すること、
を特徴とするもの。 - 請求項5にかかる電話機であって、
それに対し前記生成手段がテクスチャデータを生成する、前記受信された複数のパラメーターセットからパラメーターのセットを選択する選択手段、を備えたこと、
を特徴とするもの。 - 請求項6にかかる電話機において、
前記選択手段は、所定のルールに基づき、前記受信された複数のパラメーターセットから前記パラメーターのセットを選択するよう動作すること、
を特徴とするもの。 - 請求項6から請求項7にかかる電話機であって、
現在のパラメーターセットからのパラメーター値と、前のパラメーターセットからのパラメーター値とを比較する手段を備えており、前記選択手段は、前記比較の結果に基づいて、前記現在のパラメーターセットを選択するよう動作すること、
を特徴とするもの。 - 請求項8にかかる電話機において、
前記選択手段は、前記現在のパラメーターセットの一以上が、前記前のパラメーターセットの前記対応するパラメーター値と所定のしきい値を超えて相違する場合に、前記現在のパラメーターセットを選択するよう動作すること、
を特徴とするもの。 - 請求項6から請求項9のいずれかにかかる装置において、
前記選択手段は、電話機で使用可能な処理能力に基づき、それに対し、前記生成手段が前記テクスチャデータを生成する前記パラメーターセット、を選択するよう動作すること、
を特徴とするもの。 - 請求項10にかかる電話機において、
各パラメーターは、前記対象物の前記テクスチャの変化モードを表し、前記選択手段は、ほぼ同時に使用可能な処理能力を用い、テクスチャデータに変換可能な変化の最上位モードを、できるだけ多く選択するよう動作すること、
を特徴とするもの。 - 請求項1から請求項3にかかる装置であって、
現在のパラメーターセットからのパラメーター値と、前のパラメーターセットのパラメーター値とを比較する比較手段を備え、前記変形手段は、最も変化が大きいNのパラメーター値のテクスチャデータを変形させるよう動作すること、
を特徴とするもの。 - 請求項12にかかる電話機において、
前記Nは、利用可能な処理能力に基づいて決定されること、
を特徴とするもの。 - 請求項12または請求項13にかかる電話機において、
前記生成手段は、前記Nのパラメーターの決定された変化を用いて、前記前のパラメーターセットの前記シェープノーマライズドテクスチャデータ(shape normalised texture data)を更新することによりシェープノーマライズドテクスチャドデータ(shape normalised textured data)を生成するよう動作すること、
を特徴とするもの。 - 前記いずれかの請求項にかかる電話機において、
前記モデルデータは、受信されたパラメーターを、中間シェープパラメーター(intermediate shape parameters)のセットおよび中間テクスチャパラメーター(intermediate texture parameters)のセットに関連させる第一モデルデータを備え、前記モデルデータは、さらに、前記中間シェープパラメーターを前記シェープデータに関連させる関数を定義する第二モデルデータを備え、前記モデルデータは、さらに、前記中間テクスチャパラメーターを前記テクスチャデータに関連させる関数を定義する第三モデルデータを備え、前記生成手段は、前記第一モデルデータを用いて電話回線網から送信された、受信パラメーターの各セットの前記第一モデルデータを用い、中間シェープのセットおよびテクスチャパラメーターを生成する手段を備えたこと、
を特徴とするもの。 - 前記いずれかの請求項にかかる電話機において、
前記受信手段は、前記電話回線網から前記モデルデータを受信するよう動作し、さらに、前記メモリ内に前記受信モデルデータを記憶する手段を備えたこと、
を特徴とするもの。 - 請求項16にかかる電話機において、
前記受信モデルデータは符号化され、さらに、前記モデルデータを復号化する手段を備えたこと、
を特徴とするもの。 - 請求項17にかかる電話機において、
前記モデルデータは、目標パラメーターの各所定セットの対応するテクスチャデータを導き出すため、パラメーターの所定のセットを前記モデルデータに適用するとともに、前記パラメータのセットから生成された前述の決定済テクスチャデータを圧縮することにより、符号化され、前記復号手段は、前記圧縮されたテクスチャデータを解凍する手段、ならびに、前記解凍済テクスチャデータおよび前記所定のパラメーターセットを用い、前記モデルデータを再合成する手段、を備えたこと、
を特徴とするもの。 - 前記いずれかの請求項にかかる電話機であって、さらに、
ビデオシーケンスに関連づけられた音声信号を受信する手段、ならびに、ユーザーに対し、前記ビデオシーケンスと同時に前記音声信号を出力する手段、を備えたこと、
を特徴とするもの。 - 請求項19にかかる電話機において、
前記音声信号ならびに前記パラメーターのセットは、互いに、交互になる(interleaved)こと、
を特徴とするもの。 - 前記いずれかの請求項にかかる電話機であって、
前記ビデオシーケンスを表す前記複数のパラメータセットを生成するため、音声を受信する手段および音声を処理する手段、を備え、前記受信手段は、前記音声処理手段から前記パラメーターを受信するよう動作すること、
を特徴とするもの。 - 請求21にかかる電話機において、
前記音声処理手段は、前記受信した音声を、サブワードユニット(sub-word units)のシーケンスに変換する音声認識ユニット、ならびに、前記サブワードユニットのシーケンスを、前記ビデオシーケンスを表す前記複数のパラメーターセットに変換する手段、を備えたこと、
を特徴とするもの。 - 請求項22にかかる電話機において、
前記変換手段は、各サブワードユニットを、前記ビデオシーケンスのフレームを表した対応するパラメータセットに変換するためのルックアップテーブルを備えたこと、
を特徴とするもの。 - 請求項23にかかる電話機において、
前記変換手段は、それぞれが、対象物の異なる感情状態と関連づけられた複数のルックアップテーブルを備え、さらに、前記対象物の検出された感情状態に基づき、前記変換を実行するため、前記ルックアップテーブルの一つを選択する手段、を備えたこと、
を特徴とするもの。 - 請求項24にかかる電話機において、
前記処理手段は、前記対象物の前記感情状態を決定するため、前記音声を処理するよう動作するとともに、前記変換手段により用いられる前記対応ルックアップテーブルを選択するよう動作すること、
を特徴とするもの。 - 請求項1から請求項18のいずれかにかかる装置であって、
前記テキストを表現する(speaking the text) 前記対象物に対応するビデオシーケンスを表すパラメーターのセットを生成するため、テキストを受信し、受信したテキストを処理する手段を備えており、前記受信手段は、前記処理手段からの前記複数のパラメーターのセットを受信するよう動作すること、
を特徴とするもの。 - 請求項26にかかる電話機であって、さらに、
前記テキストに対応する音声を合成するテキスト/音声合成装置、および、前記合成された音声を、対応するビデオシーケンスと同時に出力する手段を備えたこと、
を特徴とするもの。 - 請求項26または請求項27にかかる電話機において、
前記テキスト処理手段は、前記受信テキストをサブワードユニットのシーケンスに変換する手段、および、前記サブワードユニットのシーケンスを前記複数のパラメーターのセットに変換する手段、を備えたこと、
を特徴とするもの。 - 前記いずれかの請求項にかかる電話機であって、さらに、
所定のビデオシーケンスを表すパラメーターのセットを記憶するメモリを備え、さらに、それに応じて前記生成手段が、前記記憶された複数のパラメーターセットのテクスチャデータならびにシェープデータを生成するよう動作するトリガー信号を受信する手段、を備えたこと、
を特徴とするもの。 - 前記いずれかの請求項にかかる電話機であって、さらに、
受信パラメータのセットから変形済みパラメーターのセットへの変形を定義する変形データを記憶する手段、および、前記変形データを用い、フレーム中の前記対象物の外観を変更する手段、を備えたこと、
を特徴とするもの。 - 前記いずれかの請求項にかかる電話機であって、さらに、
第二の対象物のイメージデータを、パラメーターのセットに関連させる関数、を定義する第二モデルデータを記憶する第二メモリ、
前記第二の対象物のイメージデータを受信する手段、
前記イメージデータおよび前記第二モデルデータを用い、前記第二対象物のパラメーターのセットを決定する手段、および
前記第二対象物の前記決定されたパラメーターセットを、前記電話回線網に送信する手段、を備えたこと、
を特徴とするもの。 - 請求項31にかかる電話機において、
前記イメージデータ受信手段は、ビデオシーケンスに対応するイメージデータを受信するよう動作し、前記パラメーター決定手段は、前記ビデオシーケンス中の前記第二対象物の複数のパラメーターセットを決定するよう動作し、前記送信手段は、前記第二対象物の前記複数のパラメーターセットを、前記電話回線網に送信するよう動作すること、
を特徴とするもの。 - 請求項31または請求項32にかかる電話機であって、さらに、
前記第二の対象物からの光を検知するとともに、そこから、前記イメージデータを生成する手段、を備えたこと、
を特徴とするもの。 - 請求項31から請求項33のいずれかにかかる装置であって、
前記送信手段は、発信側または被呼側への送信のため、前記第二モデルデータを前記電話回線網に送信するよう動作すること、
を特徴とするもの。 - 請求項1から請求項30のいずれかにかかる装置であって、
ユーザーからの音声を受信するマイク、前記ユーザーの外観を表すパラメーターのセットを生成するため前記受信した音声を処理する手段、および、前記ユーザーの外観を表す前記パラメーターを前記電話回線網に送信する手段、を備えたこと、
を特徴とするもの。 - 請求項35にかかる電話機において、
前記処理手段は、前記ユーザーの音声を、サブワードユニットのシーケンスに変換する自動音声認識ユニット、および、前記サブワードユニットのシーケンスを、前記ユーザーの外観を表す前記パラメーターのセットに変換する手段、を備えたこと、
を特徴とするもの。 - 請求項36にかかる電話機において、
前記対応するサブワードユニットを発するとともに、前記変換手段は、各サブワードユニットを、前記ユーザーの外観を表すパラメーターのセットに変換するためのルックアップテーブル、を備えたこと、 - 請求項1から請求項34のいずれかにかかる装置であって、さらに、
ユーザーからテキストを受ける手段、前記テキストを表現する前記ユーザーの外観を表すパラメーターのセットを生成するために、受け取ったテキストを処理する手段、および、前記ユーザーの外観を表す前記パラメーターを、前記電話回線網に送信する手段、を備えたこと、
を特徴とするもの。 - 請求項38にかかる電話機において、
前記テキスト処理手段は、受信テキストをサブワードユニットのシーケンスに変換する第一変換手段、前記サブワードユニットのシーケンスを前記複数のパラメーターセットに変換する第二変換手段、を備えたこと、
を特徴とするもの。 - 前記いずれかの請求項にかかる電話機において、
前記テクスチャデータは、前記対象物の前記シェープノーマライズドアピアランスを定義すること、
を特徴とするもの。 - 請求項40にかかる電話機において、
前記テクスチャデータは、独立した、赤のテクスチャデータ、緑のテクスチャデータ、および、青のテクスチャデータ、を備えたこと、
を特徴とするもの。 - 前記いずれかの請求項にかかる電話機において、
前記対象物は、通話に関係する当事者の顔を表すこと、
を特徴とするもの。 - 請求項42にかかる電話機において、
前記生成手段は、前記顔の目、前記顔の口ならびに前記顔の残りの部分用に独立したテクスチャデータを生成するよう動作すること、
を特徴とするもの。 - 請求項38にかかる電話機において、
各パラメーターのセットは、それぞれ、パラメーターのサブセットであって、各サブセットが前記顔の目、前記顔の口ならびに前記顔の残りの部分のいずれか、に関連づけられているもの、を備えたこと、
を特徴とするもの。 - 請求項43または請求項44にかかる電話機において、
前記顔の残りの部分の前記テクスチャデータは、一定のテクスチャであること、
を特徴とするもの。 - 電話回線網とともに用いられる電話機であって、
ユーザーからの音声信号を受ける手段、
前記音声を表現する前記ユーザーの外観を表す複数のパラメーターのセットを生成するため、前記受けた音声信号を処理する手段、および
前記ユーザーの外観を表す前記パラメーターを、前記電話回線網に送信する手段、を備えたこと、
を特徴とするもの。 - 請求項46にかかる電話機において、
前記処理手段は、前記ユーザーの音声をサブワードユニットのシーケンスに変換する自動音声認識ユニット、および、前記サブワードユニットのシーケンスを、前記ユーザーの外観を表す前記パラメーターセットに変換する手段、を備えたこと、
を特徴とするもの。 - 請求項47にかかる電話機において、
前記対応するサブワードユニットを発するとともに、前記変換手段は、各サブワードユニットを、前記ビデオシーケンスのフレームを表した対応するパラメータセットに変換するための変換するルックアップテーブル、を備えたこと
を特徴とするもの。 - 請求項48にかかる電話機において、
前記変換手段は、複数のルックアップテーブルを備え、前記音声処理手段は、前記受信音声信号から前記ユーザーの気分を識別するとともに、前記変換手段によって用いられるルックアップテーブルを選択するよう動作すること、
を特徴とするもの。 - 電話回線網とともに用いられる電話機であって、
ユーザーからテキストを受信する手段、
前記テキストを表現する前記ユーザーの外観を表す複数のパラメーターのセットを生成するため、前記受信したテキストを処理する手段、および
前記ユーザーの外観を表す前記パラメーターを、前記電話回線網に送信する手段、を備えたこと、
を特徴とするもの。 - 請求項50にかかる電話機において、
前記テキスト処理手段は、前記受信テキストを、サブワードユニットのシーケンスに変換する第一変換手段、および、前記サブワードユニットのシーケンスを、前記複数のパラメーターセットに変換する第二変換手段、を備たこと、
を特徴とするもの。 - 請求項51にかかる電話機において、
前記対応するサブワードユニットを発するとともに、前記第二変換手段は、各サブワードユニットを、前記ユーザーの外観を表した対応するパラメータセットに変換するためのルックアップテーブル、を備えたこと、
を特徴とするもの。 - 請求項52にかかる電話機において、
前記第二変換手段は、それぞれが、前記ユーザーのそれぞれ異なる気分と関連づけられた複数のルックアップテーブルを備え、さらに、前記ユーザーの現在の気分を検出するとともに、前記変換手段により用いられる対応するルックアップテーブルを選択する手段、を備えたこと、
を特徴とするもの。 - GSM回線とともに用いられるGSM電話であって、
音声データを符号化するGSMオーディオ符号化回路、
オーディオデータおよびビデオデータを受信する手段、
混合オーディオ・ビデオデータのストリームを生成するため、前記オーディオデータおよび前記ビデオデータを混合する手段、
前記オーディオ符号化回路を用いて、前記混合されたオーディオ・ビデオデータのストリームを符号化する手段、および
前記符号化されたオーディオ・ビデオデータを、前記電話回線網に送信する手段、を備えたこと、
を特徴とするもの。 - 第一および第二加入者電話間の通信リンクを制御する電話回線網サーバーであって、
パラメーターセットの一以上のパラメーターを、前記第一加入者と関連づけられた対象物のシェープノーマライズドアピアランスを定義するテクスチャデータに関連させるとともに、前記パラメーターセットの一以上のパラメーターと前記第一加入者と関連づけられた前記対象物の形状を定義するシェープデータを関連させる関数を定義する前記第一加入者電話のモデルデータを記憶するメモリ、
前記第一加入者と前記第二加入者間で通話が開始されたことを示す信号を受信する手段、および
前記第一加入者から前記第二加入者電話へ前記モデルデータを送信するための前記信号に応答する手段、を備えたこと、
を特徴とするもの。 - 請求項55にかかる電話回線網サーバーにおいて、
前記メモリは、さらに、前記第二加入者のためのモデルデータを備え、前記送信手段は、前記第二加入者のための前記モデルデータを、前記第一加入者の電話機に送信するよう動作すること、
を特徴とするもの。 - 請求項55または請求項56にかかる電話回線網サーバーであって、さらに、
そこから、前記モデルデータを用いてビデオシーケンスを合成することができ、ビデオシーケンスを表す複数のパラメーターのセットを生成する手段、および、前記パラメータのセットを、前記第一または前記第二加入者の電話機に送信する手段、を備えたこと、
を特徴とするもの。 - 請求項57にかかる電話回線網サーバーにおいて、
前記生成手段は、前記第一加入者の電話より受信した音声信号から前記複数のパラメーラーのセットを生成するよう動作すること、
を特徴とするもの。 - 請求項58にかかる電話回線網サーバーであって、さらに、
前記受信した音声信号を処理するとともに、前記受信した音声を表すサブバンドユニットのシーケンスを生成する自動音声認識ユニット、および、前記サブバンドユニットのシーケンスを、前記複数のパラメーターのセットに変換する手段、を備えたこと、
を特徴とするもの。 - 請求項56にかかる電話回線網サーバーにおいて、
前記生成手段は、前記第一加入者の電話機からテキストを受信する手段、前記受信テキストをサブワードのシーケンスに変換する第一変換手段、および、前記サブワードのシーケンスを前記複数のパラメーターのセットに変換する第二変換手段、を備えたこと、
を特徴とするもの。 - 請求項59または請求項60にかかる電話回線網サーバーにおいて、
前記変換手段は、各サブワードユニットを、対応するパラメーターのセットに関連させるルックアップテーブルを備えたこと、
を特徴とするもの。 - 電話回線網であって、
請求項55から請求項61のいずれかの電話回線網サーバー、ならびに、請求項1から請求項54のいずれかにかかる複数の電話機、を備えたこと、
を特徴とするもの。 - ビデオシーケンスを合成する装置であって、
パラメーターセットの一以上のパラメーターと、対象物のシェープノーマライズドアピアランスを定義するテクスチャデータ、を関連させるとともに、前記パラメーターセットの一以上のパラメーターと、前記対象物の形状を定義するシェープデータを関連させる関数を定義するモデルデータを記憶するメモリ、
ビデオシーケンスを表す複数のパラメーターセットを受信する手段、
少なくとも一の受信したパラメーターセットのため、前記対象物の前記シェープノーマライズドアピアランスを定義するテクスチャデータを生成するとともに、受信した複数のパラメーターセットのため、前記対象物のためのシェープデータを生成する手段、
前記ビデオシーケンスのフレーム中の前記対象物の形状を定義するイメージデータを生成するため、生成されたシェープデータを用い、生成されたテクスチャデータを変形する手段、および
前記ビデオシーケンスを合成するため、生成された前記イメージデータを出力するためにディスプレイを駆動するディスプレイ駆動装置、を備えたこと、
を特徴とするもの。 - 請求項63にかかる装置において、
前記生成手段は、選択された前記受信パラーメーターセットのテクスチャデータを生成するよう動作し、前記生成手段が現在の受信パラメーターセットのテクスチャデータを生成しない場合、前記変形手段は、現在の受信パラメーターセットのシェープデータを用い、前のパラメーターセットテクスチャデータを変形するよう動作すること、
を特徴とするもの。 - 請求項64にかかる装置であって、
それに対し前記生成手段がテクスチャデータを生成する、前記受信された複数のパラメーターセットからパラメーターのセットを選択する選択手段、を備えたこと、
を特徴とするもの。 - 請求項65にかかる装置において、
前記選択手段は、所定のルールに基づき、前記受信された複数のパラメーターセットから前記パラメーターのセットを選択するよう動作すること、
を特徴とするもの。 - 請求項65または請求項66にかかる装置であって、
現在のパラメーターセットからのパラメーター値と、前のパラメーターセットからのパラメーター値とを比較する手段を備えており、前記選択手段は、前記比較の結果に基づいて、前記現在のパラメーターセットを選択するよう動作すること、
を特徴とするもの。 - 請求項67にかかる電話機において、
前記選択手段は、前記現在のパラメーターセットの一以上が、前記前のパラメーターセットの前記対応するパラメーター値と所定のしきい値を超えて相違する場合に、前記現在のパラメーターセットを選択するよう動作すること、
を特徴とするもの。 - 請求項65から請求項68のいずれかにかかる装置において、
前記選択手段は、電話で使用可能な処理能力に基づき、それに対し、前記生成手段が前記テクスチャデータを生成する前記パラメーターセット、を選択するよう動作すること、
を特徴とするもの。 - 請求項63から請求項69のいずれかにかかる装置において、
前記モデルデータは、受信されたパラメーターを、中間シェープパラメーターのセットおよび中間テクスチャパラメーターのセットに関連させる第一モデルデータを備え、前記モデルデータは、さらに、前記中間シェープパラメーターを前記シェープデータに関連させる関数を定義する第二モデルデータを備え、前記モデルデータは、さらに、前記中間テクスチャパラメーターを前記テクスチャデータに関連させる関数を定義する第三モデルデータを備え、前記生成手段は、受信パラメーターの各セットの前記第一モデルデータを用い、中間シェープのセットおよびテクスチャパラメーターを生成する手段を備えたこと、
を特徴とするもの。 - ビデオシーケンスに関連づけられた音声信号を受信する手段、ならびに、ユーザーに対し、前記ビデオシーケンスと同時に前記音声信号を出力する手段、を備えたこと、
を特徴とするもの。 - 請求項63から請求項71のいずれかにかかる装置において、
前記ビデオシーケンスを表す前記複数のパラメータセットを生成するため、音声を受信する手段および受信した音声を処理する手段、を備え、前記受信手段は、前記音声処理手段から前記パラメーターを受信するよう動作すること、
を特徴とするもの。 - 請求72にかかる装置において、
前記音声処理手段は、前記受信した音声を、サブワードユニットのシーケンスに変換する音声認識ユニット、ならびに、前記サブワードユニットのシーケンスを、前記ビデオシーケンスを表す前記複数のパラメーターセットに変換する手段、を備えたこと、
を特徴とするもの。 - 請求項73にかかる装置において、
前記変換手段は、各サブワードユニットを、前記ビデオシーケンスのフレームを表した対応するパラメータセットに変換するためのルックアップテーブルを備えたこと、
を特徴とするもの。 - 請求項73にかかる装置において、
前記変換手段は、それぞれが、対象物の異なる感情状態と関連づけられた複数のルックアップテーブルを備え、さらに、前記変換手段により用いるため、前記対象物の検出された感情状態に基づいて前記ルックアップテーブルの一つを選択する手段、を備えたこと、
を特徴とするもの。 - 請求項73にかかる装置において、
前記音声認識ユニットは、前記音声信号から、前記対象物の前記感情状態を検出するよう動作すること、
を特徴とするもの。 - 請求項63から請求項71のいずれかにかかる装置であって、
前記テキストを表現する前記対象物に対応するビデオシーケンスを表すパラメーターのセットを生成するため、テキストを受信し、受信したテキストを処理する手段を備えており、前記受信手段は、前記処理手段からの前記複数のパラメーターのセットを受信するよう動作すること、
を特徴とするもの。 - 請求項77にかかる装置であって、さらに、
前記テキストに対応する音声を合成するテキスト/音声合成装置、および、前記合成された音声を、対応するビデオシーケンスと同時に出力する手段を備えたこと、
を特徴とするもの。 - 請求項77または請求項78にかかる装置において、
前記テキスト処理手段は、受信テキストをサブワードユニットのシーケンスに変換する第一変換手段、前記サブワードユニットのシーケンスを前記複数のパラメーターセットに変換する第二変換手段、を備えたこと、
を特徴とするもの。 - 請求項79にかかる装置において、
前記第二変換手段は、各サブワードユニットを、前記ビデオシーケンスのフレームを表す対応するパラメータセットに変換するためのルックアップテーブル、を備えたこと
を特徴とするもの。 - 請求項80にかかる装置において、
前記第二変換手段は、複数のルックアップテーブルを備え、さらに、前記第二変換手段によって用いるため、前記複数のルックアップテーブルの一つを選択する手段を備えたこと、
を特徴とするもの。 - コンピュターで実行可能なプロセスステップを記憶したコンピュータ可読の媒体であって、
プログラム可能なコンピューターを、請求項1から請求項54のいずれかにかかる電話機、請求項55から請求項62のいずれかにかかる電話回線網サーバー、または、請求項63から請求項81のいずれかにかかる装置、として構成させること、
を特徴とするもの。 - コンピューター実行可能な命令であって、
プログラム可能なプロセッサーを、請求項1から請求項54のいずれかにかかる電話機、請求項55から請求項62のいずれかにかかる電話回線網サーバー、または、請求項63から請求項81のいずれかにかかる装置として構成させること、
を特徴とするもの。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0031511A GB0031511D0 (en) | 2000-12-22 | 2000-12-22 | Image processing system |
GB0117770A GB2378879A (en) | 2001-07-20 | 2001-07-20 | Stored models used to reduce amount of data requiring transmission |
GB0119598A GB0119598D0 (en) | 2000-12-22 | 2001-08-10 | Image processing system |
PCT/GB2001/005719 WO2002052863A2 (en) | 2000-12-22 | 2001-12-21 | Communication system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004533666A true JP2004533666A (ja) | 2004-11-04 |
Family
ID=27256028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002553837A Pending JP2004533666A (ja) | 2000-12-22 | 2001-12-21 | 通信システム |
Country Status (6)
Country | Link |
---|---|
US (1) | US20040114731A1 (ja) |
EP (1) | EP1423978A2 (ja) |
JP (1) | JP2004533666A (ja) |
CN (1) | CN1537300A (ja) |
AU (1) | AU2002216240A1 (ja) |
WO (1) | WO2002052863A2 (ja) |
Families Citing this family (143)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7218938B1 (en) | 2002-04-24 | 2007-05-15 | Chung Lau | Methods and apparatus to analyze and present location information |
US7366522B2 (en) | 2000-02-28 | 2008-04-29 | Thomas C Douglass | Method and system for location tracking |
US7212829B1 (en) | 2000-02-28 | 2007-05-01 | Chung Lau | Method and system for providing shipment tracking and notifications |
US7321774B1 (en) | 2002-04-24 | 2008-01-22 | Ipventure, Inc. | Inexpensive position sensing device |
US7403972B1 (en) | 2002-04-24 | 2008-07-22 | Ip Venture, Inc. | Method and system for enhanced messaging |
US6975941B1 (en) | 2002-04-24 | 2005-12-13 | Chung Lau | Method and apparatus for intelligent acquisition of position information |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US9049571B2 (en) | 2002-04-24 | 2015-06-02 | Ipventure, Inc. | Method and system for enhanced messaging |
US9182238B2 (en) | 2002-04-24 | 2015-11-10 | Ipventure, Inc. | Method and apparatus for intelligent acquisition of position information |
JP2004349851A (ja) * | 2003-05-20 | 2004-12-09 | Ntt Docomo Inc | 携帯端末、画像通信プログラム、及び画像通信方法 |
US7735012B2 (en) * | 2004-11-04 | 2010-06-08 | Apple Inc. | Audio user interface for computing devices |
US20060098027A1 (en) * | 2004-11-09 | 2006-05-11 | Rice Myra L | Method and apparatus for providing call-related personal images responsive to supplied mood data |
US7612794B2 (en) * | 2005-05-25 | 2009-11-03 | Microsoft Corp. | System and method for applying digital make-up in video conferencing |
US7554570B2 (en) * | 2005-06-21 | 2009-06-30 | Alcatel-Lucent Usa Inc. | Network support for remote mobile phone camera operation |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
FI20055717A0 (fi) * | 2005-12-30 | 2005-12-30 | Nokia Corp | Koodinmuunnosmenetelmä matkaviestinjärjestelmässä |
US7539533B2 (en) * | 2006-05-16 | 2009-05-26 | Bao Tran | Mesh network monitoring appliance |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
JP4873554B2 (ja) * | 2006-12-25 | 2012-02-08 | 株式会社リコー | 画像配信装置および画像配信方法 |
DE102007010662A1 (de) | 2007-03-02 | 2008-09-04 | Deutsche Telekom Ag | Verfahren und Videokommunikationssystem zur Gestik-basierten Echtzeit-Steuerung eines Avatars |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US20100073379A1 (en) * | 2008-09-24 | 2010-03-25 | Sadan Eray Berger | Method and system for rendering real-time sprites |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US20100231582A1 (en) * | 2009-03-10 | 2010-09-16 | Yogurt Bilgi Teknolojileri A.S. | Method and system for distributing animation sequences of 3d objects |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
EP3809407A1 (en) | 2013-02-07 | 2021-04-21 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP2016521948A (ja) | 2013-06-13 | 2016-07-25 | アップル インコーポレイテッド | 音声コマンドによって開始される緊急電話のためのシステム及び方法 |
US11394462B2 (en) * | 2013-07-10 | 2022-07-19 | Crowdcomfort, Inc. | Systems and methods for collecting, managing, and leveraging crowdsourced data |
US9625922B2 (en) | 2013-07-10 | 2017-04-18 | Crowdcomfort, Inc. | System and method for crowd-sourced environmental system control and maintenance |
US10796085B2 (en) | 2013-07-10 | 2020-10-06 | Crowdcomfort, Inc. | Systems and methods for providing cross-device native functionality in a mobile-based crowdsourcing platform |
US10070280B2 (en) | 2016-02-12 | 2018-09-04 | Crowdcomfort, Inc. | Systems and methods for leveraging text messages in a mobile-based crowdsourcing platform |
US10541751B2 (en) | 2015-11-18 | 2020-01-21 | Crowdcomfort, Inc. | Systems and methods for providing geolocation services in a mobile-based crowdsourcing platform |
US10379551B2 (en) | 2013-07-10 | 2019-08-13 | Crowdcomfort, Inc. | Systems and methods for providing augmented reality-like interface for the management and maintenance of building systems |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN105282621A (zh) * | 2014-07-22 | 2016-01-27 | 中兴通讯股份有限公司 | 一种语音消息可视化服务的实现方法及装置 |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
CN105763828A (zh) * | 2014-12-18 | 2016-07-13 | 中兴通讯股份有限公司 | 一种即时通讯方法及装置 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10149114B2 (en) | 2015-07-07 | 2018-12-04 | Crowdcomfort, Inc. | Systems and methods for providing geolocation services in a mobile-based crowdsourcing platform |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4952051A (en) * | 1988-09-27 | 1990-08-28 | Lovell Douglas C | Method and apparatus for producing animated drawings and in-between drawings |
JPH06505817A (ja) * | 1990-11-30 | 1994-06-30 | ケンブリッジ アニメーション システムズ リミテッド | 画像合成及び処理 |
US5611038A (en) * | 1991-04-17 | 1997-03-11 | Shaw; Venson M. | Audio/video transceiver provided with a device for reconfiguration of incompatibly received or transmitted video and audio information |
US5353391A (en) * | 1991-05-06 | 1994-10-04 | Apple Computer, Inc. | Method apparatus for transitioning between sequences of images |
AU657510B2 (en) * | 1991-05-24 | 1995-03-16 | Apple Inc. | Improved image encoding/decoding method and apparatus |
US6400996B1 (en) * | 1999-02-01 | 2002-06-04 | Steven M. Hoffberg | Adaptive pattern recognition based control system and method |
AU7603894A (en) * | 1993-08-27 | 1995-03-21 | Massachusetts Institute Of Technology | Example-based image analysis and synthesis using pixelwise correspondence |
US6330023B1 (en) * | 1994-03-18 | 2001-12-11 | American Telephone And Telegraph Corporation | Video signal processing systems and methods utilizing automated speech analysis |
JPH0816820A (ja) * | 1994-04-25 | 1996-01-19 | Fujitsu Ltd | 3次元アニメーション作成装置 |
US5594676A (en) * | 1994-12-22 | 1997-01-14 | Genesis Microchip Inc. | Digital image warping system |
US5774129A (en) * | 1995-06-07 | 1998-06-30 | Massachusetts Institute Of Technology | Image analysis and synthesis networks using shape and texture information |
US5844573A (en) * | 1995-06-07 | 1998-12-01 | Massachusetts Institute Of Technology | Image compression by pointwise prototype correspondence using shape and texture information |
EP1515531A3 (en) * | 1995-09-04 | 2005-04-27 | British Telecommunications Public Limited Company | Transaction support apparatus |
JPH09135447A (ja) * | 1995-11-07 | 1997-05-20 | Tsushin Hoso Kiko | 知的符号化/復号方法、特徴点表示方法およびインタラクティブ知的符号化支援装置 |
US6061477A (en) * | 1996-04-18 | 2000-05-09 | Sarnoff Corporation | Quality image warper |
US5987519A (en) * | 1996-09-20 | 1999-11-16 | Georgia Tech Research Corporation | Telemedicine system using voice video and data encapsulation and de-encapsulation for communicating medical information between central monitoring stations and remote patient monitoring stations |
IL119948A (en) * | 1996-12-31 | 2004-09-27 | News Datacom Ltd | Voice activated communication system and program guide |
US6353680B1 (en) * | 1997-06-30 | 2002-03-05 | Intel Corporation | Method and apparatus for providing image and video coding with iterative post-processing using a variable image model parameter |
GB2342026B (en) * | 1998-09-22 | 2003-06-11 | Luvvy Ltd | Graphics and image processing system |
-
2001
- 2001-12-21 US US10/451,396 patent/US20040114731A1/en not_active Abandoned
- 2001-12-21 AU AU2002216240A patent/AU2002216240A1/en not_active Abandoned
- 2001-12-21 WO PCT/GB2001/005719 patent/WO2002052863A2/en not_active Application Discontinuation
- 2001-12-21 EP EP01272099A patent/EP1423978A2/en not_active Withdrawn
- 2001-12-21 CN CNA018228321A patent/CN1537300A/zh active Pending
- 2001-12-21 JP JP2002553837A patent/JP2004533666A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20040114731A1 (en) | 2004-06-17 |
AU2002216240A1 (en) | 2002-07-08 |
WO2002052863A2 (en) | 2002-07-04 |
EP1423978A2 (en) | 2004-06-02 |
WO2002052863A3 (en) | 2004-03-11 |
CN1537300A (zh) | 2004-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004533666A (ja) | 通信システム | |
US7882532B2 (en) | System and method for multiplexing media information over a network with reduced communications resources using prior knowledge/experience of a called or calling party | |
CN101018314B (zh) | 移动通信中的视频通话 | |
US8421805B2 (en) | Smooth morphing between personal video calling avatars | |
US9210372B2 (en) | Communication method and device for video simulation image | |
US20060079325A1 (en) | Avatar database for mobile video communications | |
JP2006330958A (ja) | 画像合成装置、ならびにその装置を用いた通信端末および画像コミュニケーションシステム、ならびにそのシステムにおけるチャットサーバ | |
US20080151786A1 (en) | Method and apparatus for hybrid audio-visual communication | |
US6943794B2 (en) | Communication system and communication method using animation and server as well as terminal device used therefor | |
JP2004349851A (ja) | 携帯端末、画像通信プログラム、及び画像通信方法 | |
JPH05153581A (ja) | 顔画像符号化方式 | |
KR100853122B1 (ko) | 이동통신망을 이용한 실시간 대체 영상 서비스 방법 및시스템 | |
CN110012059B (zh) | 电子红包实现方法以及装置 | |
GB2378879A (en) | Stored models used to reduce amount of data requiring transmission | |
JPH06205404A (ja) | テレビ電話装置 | |
JPH1169330A (ja) | 留守録機能を備えた画像通信装置 | |
JPH08307841A (ja) | 擬似動画tv電話装置 | |
JP2003309829A (ja) | 携帯動画電話装置 | |
JP2932027B2 (ja) | テレビ電話装置 | |
KR20030074677A (ko) | 통신 시스템 | |
JP2001357414A (ja) | アニメーション通信方法およびシステム並びにそれに用いる端末装置 | |
JP2004356998A (ja) | 動画像変換装置および方法、動画像配信装置および方法並びにプログラム | |
JP2005173772A (ja) | 画像通信システムおよび画像生成方法 | |
KR100923307B1 (ko) | 화상 통화용 이동 통신 단말기와 이를 이용한 화상 통화서비스 제공 방법 | |
KR100617564B1 (ko) | 이동단말기의 화상통화를 이용한 멀티미디어 데이터 전송방법 |