JP2010519791A

JP2010519791A - 通信ネットワーク、およびテキストから音声へ・テキストから顔の動画への変換装置

Info

Publication number: JP2010519791A
Application number: JP2009547745A
Authority: JP
Inventors: ストウレイ．ジョン; クロス．ロバート
Original assignee: アミゴワールドエルティーディー
Priority date: 2007-02-05
Filing date: 2007-09-21
Publication date: 2010-06-03
Also published as: AU2007346312A1; AU2007346312B2; GB0702150D0; EP2127341A1; US20100141662A1; EP2127341B1; CN101669352A; WO2008096099A1; RU2009133354A; CA2677051A1; GB2459073B; RU2488232C2; GB2459073A; GB0914646D0

Abstract

【課題】送信装置と、受信装置と、前記送信装置を前記受信装置に接続するネットワークとを備える通信システムである。
【解決手段】
前記送信装置は、メッセージとして連続したテキストの文字を入力するための入力操作が可能な少なくとも一人のユーザーと、前記ネットワークを通じて前記メッセージを送信するための送信手段とを具備している。前記受信装置は、それぞれの画像が１つの異なる送信装置と関連し、かつ正面から見た１人の頭部の画像からなる複数の頭部画像を記憶する１つのメモリと；テキストの文字列からなる前記メッセージを受信する受信手段と；前記メッセージの前記テキストの文字をテキスト文字列に対応する音声メッセージに変換するテキストから音声への変換手段と；前記メッセージの送信者と関連している前記メモリに記憶された前記頭部画像から頭部の動画化された部分的三次元画像を作り出すため動画化手段；とを備える。前記動画化手段は、前記頭部の少なくとも１つの顔の特徴を動画化し、その動画は前記メッセージを読む際に、前記頭部の動きに対応する。ディスプレイは、前記動画化された部分的三次元頭部を表示し;拡声器は、表示された頭部に合わせて前記音声メッセージを出力する。
【選択図】図９

Description

本発明は、通信ネットワークと、そのうちの１つの通信ネットワークを通じてメッセージを送受信するのに用いられる装置に関するものである。また、本発明は、ユーザーに対し、そしてメッセージの読者に対してメッセージの送信者に関する顔の画像を示すために使用することができる情報をコード化するデータ構造に対し、メッセージを示す新規的な方法にも関するものである。

現在、長距離での個人的な通信を可能にするのに広く使用される、多くの異なる通信ネットワークがある。従来、唯一の通信の様式は、書簡を送るか、電話を使用することであったが、最新の傾向では、即時またはほぼ即時の文書による通信の進歩が見られる。このような通信様式の例は、電子メールおよびテキストメッセージ（より具体的にはショート・メッセージ・サービス（ＳＭＳ）やマルチメディア・メッセージング・サービス（ＭＭＳ）のメッセージ）である。

電子メールおよびテキストメッセージの場合、送信者は、例えば携帯電話やパソコンなどの送信装置にメッセージを入力する。そのメッセージは、それから電子ネットワークを通じて受信装置に送信される。そしてユーザーは、その送信されたメッセージを受信でき、前記受信装置に付随するディスプレイ画面上の前記メッセージのテキストを表示することができる。

このことは特に若いユーザーには極めて一般に普及していることが立証されているのに対し、このようなメッセージは送信者の感情の表現方法に欠けることから、しばらくの間誤解されているように思われる。また、このようなメッセージは幾分人間味のないものであり、視覚障害を持つユーザーには読むのが困難である。

この問題に対する解決法の一部は、入力されたメッセージに含まれるフェイスマークとして公知のシンボルのシステムを発展させることであろう。これらのシンボルは表情を示し、読者が送信者に表現される感情を判断するのに役立つ。例えば、「スマイリー」の顔文字は、送信者が喜んでいることを示すために挿入することができる。

テキストメッセージや、電子メールやインスタントメッセージなどの通信ネットワークを通じて送信される入力されたメッセージにおいて、表情や個性化の他の様式を備えるという問題を、少なくとも部分的に改善することは、本発明の少なくとも１つの態様の対象である。

第１の態様によると、本発明は、以下の通信システムを提供する：
送信装置、受信装置、および前記送信装置を前記受信装置に接続するネットワークとからなる通信システムにおいて;
前記送信装置は、
−メッセージとして連続したテキストの文字を入力するために入力操作が可能な少なくとも一人のユーザーと；、
−前記ネットワークを通じて前記メッセージを送るための送信手段と；
からなり;
前記受信装置は、
−それぞれの画像が１つの異なる送信装置と関連し、かつ正面から見た１人の頭部の一枚の画像からなる複数の頭部画像を記憶するメモリと;
−テキストの文字列からなる前記メッセージを受信する受信手段と;
−前記メッセージの前記テキスト文字をテキスト文字列に対応する音声メッセージに変換する、テキストから音声への変換手段と;
−前記メッセージの送信者と関連している前記メモリで記憶された前記頭部画像からの頭部の動画化された部分的三次元画像を作り出す動画化手段と;を備え、
前記動画化手段は、前記頭部の少なくとも１つの顔の特徴を動画化し、その動画は前記メッセージを読む際に前記頭部の動きに対応し、
−前記動画化された部分的三次元頭部を表示するためのディスプレイ手段と;さらに
−前記表示された頭部に合わせて前記音声メッセージを出力する拡声器手段と；
を備えることを特徴とする通信システム。

一般に、人と人との通信で伝えられる趣意および認識の多くは、人の顔の表情と他人の顔貌の親密度により伝えられる。本発明の顔の特徴の描写は、ユーザーや送信者のデジタル写真に基づくことができるため、高い精密度で可能である。デジタル写真は、すでに優れた肖像画であり、本発明で描写される動画化された部分的三次元画像を、メッセージの送信者の現実的かつ認識できる描写として受信者に対して表示する。

受信装置にてテキストメッセージを動画化かつ音声化されたメッセージに変換することにより、テキストのみのメッセージの送信および表示と比較した時に、ネットワーク上の追加的な負担が無い。その上、受信装置のメモリに予め記憶された画像から動画化された頭部をレンダリングすることは、送信されたメッセージと共に画像を送信する必要性を取り除く。その上、完全な三次元レンダリングよりむしろ部分的三次元を使用することは、さらにコンピュータの負担を減らす。

動画化され表示された頭部は、部分的三次元によるものであり、頭部の完全な三次元描写ではない。ある意味で、動画化され表示された頭部は、二次元画像からなることもあり（前記頭部画像は、カメラで撮った画像などの二次元画像でもよい）、顔の特徴が二次元平面から隆起するように、Ｚ平面において前記二次元画像にある奥行を与えるために所々で変形する。画像の他の部分は、二次元のままである。この部分的三次元画像は、変形して三次元のように表示される二次元画像である。表示された画像は、前記画像の周辺部に相当する基平面の配向を単に変更することによって、わずかに左から右に傾けることができる。傾けられる場合、顔の特徴は前記Ｚ平面において奥行があるので、ディスプレイ上で見られる画像は実に三次元であるように見える。メッシュは、前記頭部が、一方に、またはうなずく動作においてわずかに上または下に傾くように、または左右に方向転換するように表示されるよう、３つの平面において回転可能である。

ゆえに、前記メモリは、他の二次元頭部画像に前記Ｚ平面における前記奥行を与える相互に連結したノードによって規定される三次元メッシュを備えることができる。前記ノードは全て、前記メッシュの周辺部にある１つの平面に通常存在し、前記周辺部内にあるノードは、顔の特徴に対応するために、前記平面より上に隆起されてもよい。前記動画化手段は、前記メッシュの隆起された顔の特徴に位置合わせされた頭部画像の顔部分の顔の特徴を有する前記メッシュ上へ、１つの頭部画像を被せることにより、部分的三次元頭部画像を作り出すことができる。したがって顔の特徴は、前記Ｚ面において前方に突出するであろう。毛髪などの頭部の他の部分は、前記周辺部に区分されることにより平坦な状態が維持されることもある。

このメッシュは、頭部が枠に沿ってピンと張って広げられた弾性材料のシートの裏面に押圧される場合に生じる三次元トポロジーを複製することができる。前記弾性材料は、鼻と眉と唇のような顔の特徴により前方に突出するが、前記顔部分の外側の同じ面に残る。

顔の特徴部分では隆起されるが、それらの部分の外側が平坦であるこの三次元メッシュは、毛髪や顔の輪郭より外側にある他の特徴を含む頭部画像が単に前記メッシュにマップ（写像）されるのを可能にする。これは、完全な三次元モデルを作成することよりもはるかに単純であり、達成されるリアル感の観点において優れた結果をもたらす。三次元モデルに関しては、毛髪の写実的な描写を達成するのは不可能である。顔の隆起された特徴は、動画において前記頭部画像が３つの平面でわずかに回転するのを可能にし、たとえそれが単なる部分的三次元であっても、実に三次元であるような容貌を描写する。

前記メッシュは、典型的な長方形のディスプレイ画面の長方形の輪郭に合うように、通常長方形の輪郭を有する。これは、動画化された画像が必要に応じてディスプレイ画面一杯になるように拡大されることを可能にする。

頭部画像が受信装置に記憶された送信者からの動画化された頭部をレンダリングする際に使用される受信装置のメモリには、たった１つのメッシュだけが記憶される。これは、１つの頭部画像につき１つと考えられる多くのメッシュを記憶することと比較して動画化された頭部画像を形成するために必要なメモリの量を減少させる。当然、必要に応じて複数のメッシュを記憶することも可能である。

前記メッシュは、頭蓋骨の骨に対する顔の付随部を模倣するノードに接続される複数のリンクによって立体感を与えることができ、前記「骨」の動きは、動画を作成するために、前記メッシュにおいて前記ノードを互いに相対的に動作させる。

前記メッシュの異なる動画は、各音声の音素を動画化するために記憶することができる。

記憶された頭部画像は、正面から見たときに、デジタル写真または他の（光学的または図案化された）二次元画像のような、頭部の写真からなってもよい。それは、通常は送信者の頭部の写真であるだろう。前記画像は、顔が三次元メッシュ内の顔の大きさに適合するように設定されたサイズになるように、サイズを設定することができる。これは、必要に応じて画像を切り取って拡大・縮小することによって、どの写真からも達成することができる。最も写実的になるように、前記画像は、前記三次元メッシュの平坦部にある毛髪と首の部分を示す顔の周辺部分を備えなければならない。

おそらく送信者の顔の特徴を強調するまたは隠すために、前記写真は、使用前に編集されてもよい。あるいは、俳優／女優、歌手、または他の有名人等の頭部／顔の写真であってもよい。これは、デジタルカメラまたはデジタルスキャナを使用することにより取り込み可能である。そして送信者は、この頭部画像に賛同するほうを選択することができる。

動画化される１つの顔の特徴のメッシュ上の位置を規定する１つ以上の座標は、前記メモリにある各頭部画像と関連している。明らかにこれは口の位置であろう。動画化される他の特徴の座標も記憶することができる。これは、目と眉を含むだろう。

前記メモリは、口、目、眉などの動画化される１つ以上の顔の特徴を記憶することができる。例えば２つ以上の異なる眼窩形状などの、各特徴の複数のバージョンが形成される場合、パラメータは各頭部画像と関連し、前記特徴のうちどちらを動画で使用すべきかについて示すことができる。

さらに、前記頭部画像は、その顔画像と関連したメッセージの送信者の身元を示す識別子と関連してもよい。

頭部画像、座標、および識別子は、１つのデータ構造として分類することができる。これにより、１つの装置が初めてネットワークに接続されるたびに、１つの装置から別の装置へ容易に送信することができる。通常、データは、サーバーや他の媒介物を介して送信される。

送信装置は、メッセージと共に、または、メッセージの一部として前記識別子を送信することができる。最も簡単な形態では、前記識別子は、前記送信装置の独特のネットワーク・アドレス（IPアドレス、電話番号など）からなってもよい。そしてこの識別子は、前記受信装置において適切な頭部画像に適合することができる。

頭部画像は、新たなユーザーからのメッセージを受信することを最初に目的とする初期セットアップ工程の一部として、メッセージを受信する前に、前記受信装置上に記憶されることができる。この工程は、前記受信装置により開始可能であり、前記受信装置は前記送信装置によって送信される頭部画像を求める。あるいは、この工程は初めて受信装置にメッセージを送信することを望む人によって開始することができる。

重要なことに、頭部画像の送信は、最初のセットアップ後には、再び行われない。これは、改めてテキストメッセージとともに追加的なデータが送信される必要がないことを意味する。当然、頭部画像を変更した場合、必要であればその変更後の様態で送信することができるが、しかし、変更しない場合は、単にこれまでの最初のセットアップにおける送信を１回だけ必要とする。

前記変換手段は、異なるテキストの文字列に対する音素をリストする前記受信装置のメモリに記憶される辞書を備えることができる。

辞書が設けられる場合、音声メッセージを構成するために前記メッセージのテキストを前記辞書の単語または音と比較するための比較手段を備えることができる。

前記辞書は、前記音声メッセージを構成する１つ以上の音に対して（望ましくはいずれの音に対して）、前記動画手段に表示される音に対応する顔の特徴の動画を記憶することもできる。これは、動画化された口を含むが、一対の動画化された目や、眉等の他の特徴を含むこともできる。

前記辞書に代わることとは、テキストから音声への変換スキーマに基づく規則を使用することであり、前記辞書よりも好ましいとされる。これは、所定のテキストの組合せやテキストの文字列に対して使用される音素を規定する規則を前記メモリに設けることによって実行することができる。前記メモリは、前記規則に適合しないテキストの文字列を示す一連の例外を含むこともできる。

規則を使用することにより、完全な辞書ベースのシステムと比較して、テキストから音声への変換装置でよりコンパクトに実施することになる。前記受信装置が、より大きいデスクトップ・コンピュータ機器と比較して限られて利用可能なメモリを有する電話等のモバイル機器からなる場合、これは重要である。規則は、複数の言語に対して設けることができ、十分な規則が規定されれば、本発明に記載のシステムを使用してほとんどの言語はテキストから音声に変換することができると想定される。

前記音声メッセージは、従来技術において周知であり、かつ前記受信装置によってアナログ音声信号に変換可能な、音声フォーマットを含むこともできる。またそれは、例えばＷＡＶフォーマットのファイルからなることもできる。

ネットワークは携帯電話ネットワークを含んでもよく、前記送信装置と受信装置は携帯電話からなってもよい。また、ネットワークは、前記送信装置および受信装置用の固定電話を有する固定電話網からなってもよい。前記メッセージは、ショート・メッセージ・サービス（ＳＭＳ）またはマルチメディア・メッセージング・サービス（ＭＭＳ）のフォーマット、または同等のテキストメッセージからなってもよい。

より望ましくは、送信されたメッセージは、ＸＭＰＰ、特にＪａｂｂｅｒのような標準のインスタントメッセージング・データフォーマットの１つで送信される。この送信は、ＳＭＳやＭＭＳなどの他のモバイル・プロトコルよりも速く、かつ安価であるので好ましい。

また、前記ネットワークは、インターネットやコミュニケーションネットワークの他の形態からなってもよく、前記装置は、例えばＰＣＩＧ、ＰＤＡ、ラップトップ、タブレット型パソコン、多機能電話などのインターネットを通じてデータ送信可能ないかなる装置からなってもよい。

前記送信手段は、前記装置が使用される前記ネットワークに応じて異なる。例えば、ＧＳＭ電話ネットワーク用のアンテナや、Ｗｉ-Ｆｉネットワークのアンテナ、またはインターネットに接続するためのデータポートを備えてもよい。

目的とされる受取人がその受信装置に存在しているかどうかを知ることは、メッセージの送信者には有益である。送信装置がどこでメッセージ通信サーバーと通信し、どこに備えられるかは、受取人がオンライン状態であるかどうかを、支障をきたすことなく示す。これにより送信者は、目的とする受取人との二者間のメッセージ会話を行うことが可能かどうか、または単に一方的なメッセージを送信するかどうかを選択することができる。サーバーは目的とされる受取人が不在である場合にメッセージを記憶する機能を備えることができ、その後受取人が戻った時に、そのメッセージを転送することができる。

前記ディスプレイ手段は、モノクロまたはカラーの液晶ディスプレイを備えてもよく、顔を円滑に動画化するのを可能にするのに十分な、例えば毎秒１２フレームを超えるリフレッシュ・レートを備えなければならない。

前記拡声器手段は、装置に組み込まれる小さなスピーカー、あるいは、装置に配線または無線リンクで接続された着脱可能なヘッドホンを備えることができる。

ディスプレイ、拡声器、受信手段および送信手段等の全ての主要な特徴は、携帯電話等の装置で見つけることできることが理解されよう。したがって、１つの装置が送信装置と受信装置の両装置としての機能を果たすことができる。

受信装置が表示すべき送信装置のユーザーに対応する顔を選択することができるよう、メッセージが送信者の身元を示すことは重要である。これは実際に、送信装置の（電気通信ネットワーク用の）電話番号やインターネット用の電子メールアドレスを備えることができる。

通常、数多くの送信装置と受信装置は、ネットワークに接続することができる。この場合、受信装置は、表示すべき異なる顔のデータベースを記憶することができ、それぞれの顔は異なるメッセージの送信者に対応する。

動画化された頭部／顔を作成することにより、メッセージの表示は大幅に向上する。音声により、装置は視覚障害または読字困難のある人などの新たなユーザーに適するものとなる。また、ユーザーの身元が画像で見られるので、メッセージの読み込みをより個人化する。

前記受信装置は、ディスプレイ上に複数の頭部画像を同時に表示する画像生成手段を備えてもよく、前記頭部画像のうちの１つはいつでも前記動画化手段によって動画化される。前記画像生成手段は、動画化された頭部画像がもう一方の頭部画像の前面に表示される位置に表示されるように前記複数の頭部画像を表示することができる。前記画像生成手段は、１つの頭部画像が、その画像を正面に移動するために動画化されるたびに、前記複数の画像を移動させることができる。

前記画像生成手段は、動画化のために１つの頭部画像は正面にある必要があるため、円形コンベアのように回る円をなして前記頭部画像を表示することができる。

複数の頭部を同時に表示することによって、受信装置のユーザーは、ネットワークを通じて通信することができる人々を容易に特定することができる。

送信装置は、スクリーン上に同時に頭部画像を表示する同様の１つの画像生成手段を備えることもできる。ユーザーは、１つのメッセージがその頭部画像と関連する受信装置に送信されることを示すために、１つの頭部画像を正面に移動するようその装置を操作することができる。

前記送信装置（または受信装置）のメモリは、各頭部画像と関連した１つのグループ・ラベルを備えてもよく、前記画像生成手段は、前記同じグループ・ラベルを携える全ての頭部画像を同時に表示することができる。

複数のグループ・ラベルは、各頭部画像と関連しており、ユーザーは、どのグループを表示するかを選択するために装置を操作することができる。例えば、「仕事」というグループ・ラベルと「友人」のグループ・ラベルが設けられるだろう。

第２の態様によると、本発明は、ネットワークを通じてメッセージを送受信するよう構成された以下からなる通信装置を提供する：
−それぞれの画像が１つの異なる送信装置と関連し、かつ正面から見た１人の頭部の一枚の画像からなる複数の頭部画像を記憶するメモリと;
−テキストの文字列からなるメッセージを受信する受信手段と;
−前記メッセージの前記テキストの文字をテキスト文字列に対応する音声メッセージに変換する、テキストから音声への変換手段と;
−前記メッセージの送信者と関連している前記メモリで記憶された前記頭部画像からの頭部の動画化された部分的三次元画像を作り出す動画化手段と;を備え、
前記動画化手段は、前記頭部の少なくとも１つの顔の特徴を動画化し、その動画は前記メッセージを読む際に前記頭部の動きに対応し、
−前記動画化された部分的三次元頭部を表示するためのディスプレイ手段と;さらに
−前記表示された頭部に合わせて前記音声メッセージを出力する拡声器手段と；
を備えることを特徴とするネットワークを通じてメッセージを送受信するよう構成された通信装置。

この装置は、本発明の第１の態様に関して記載された受信装置のオプション機能を備えることができる。

この装置は、記号や感情に対応する一連のシンボルを備えたタグの追加的な辞書を備えることができる。これらは時折従来技術においてフェイスマークとして公知である。例として、幸福を示す
のシンボルと悲しみを示す
のシンボルが挙げられる。

このような１つのシンボルを特定するときに、この装置は動画化された顔の画像がその感情を表すよう構成することができる。例えば、送信者が幸福を表していることを示すフェイスマークが特定される場合、動画化された顔を笑顔にすることができる。

前記辞書は、個々の音と関連して、口などの異なる顔の特徴のうち１つを選択する識別力を備えることができる。どの特徴を使用するかは、表示される顔に関連した識別子によって識別することができる。

前記装置は、音声を再生することができる１つのスピーカーを備えることができる。あるいは、音声信号をスピーカーに通すことができる出力ポートを備えることができる。出力ポートの例として、ヘッドフォン・ジャック・ソケットが挙げられる。

第３の態様によると、本発明は、以下の通信装置を提供する：
−連続したテキストの文字からなる書面でのメッセージを作成するメッセージ作成手段と;
−前記通信装置のユーザーの識別子として前記通信装置のユーザーに選択された頭部の画像を描写するデータ構造に記憶されるメモリと；
−前記ネットワークを通じて前記メッセージと前記データ構造を共にまたは別々に受信装置に送るための送信手段と；からなり、
前記データ構造は、
−前記正面から見える顔を示す頭部の二次元の画像と;
−前記画像の上に被せられる動画化された顔の特徴の位置を示す少なくとも１つの座標と；を有する
ことを特徴とする通信装置。

前記データ構造は、さらに、幾つかの異なる動画化された顔の特徴のうちのどちらが前記画像の上に被せられるかを識別するラベルを備えることができる。

前記データ構造は、
口；
一対の目；
眉；
または他の顔の特徴；
に対する座標を備えることができる。

記載されたように、前記装置は、テキストメッセージとデータ構造とを１つのファイルとして送信することができる、あるいは、添付ファイルとして別々に送信することができる。発明の優位性は、前記テキストメッセージとデータ構造が別々に送信可能であり、前記頭部画像データ構造だけが一度だけ送信され、それから各メッセージと共にテキストと識別子だけを送信するということにある。

前記装置は、ネットワークに接続された１つの装置からの要求の受信時に前記頭部画像データ・ファイルを送信するよう設計されてもよい。

あるいは、遠隔装置を予め有しない場合に限り、ネットワークを通して前記データ構造を１つの遠隔装置に送信するよう構成することができる。

前記装置は、メッセージがあらかじめ送信された装置の番号やアドレスを記憶する連絡先リストを備えることができる。

前記通信装置は、携帯電話やＰＤＡＳやパソコンからなってもよい。それどころか本発明は、送信されたメッセージが１つの書面でのメッセージという形をとるネットワークを通じた、いかなる形態の通信に応用できる。

第４の態様によると、本発明は、以下のデータ構造を提供する：
ディスプレイ画面に一枚の画像として表示される頭部/顔の動画化されたモデルを描写するデータ構造において、前記データ構造は：
−相互に連結したノードのメッシュとして規定された部分的三次元表面を有するマップを有し、
各ノードは前記三次元表面上に位置し、ノード群は順に前記表面の輪郭を規定する多角形を規定し、
前記三次元表面は通常は周縁部の単一面にあり、顔のトポロジーに対応する中央域において前記単一面から隆起され、
前記データ構造は、さらに、
−顔の特徴に対応する輪郭を有する顔の部分的三次元モデルを形成するために、前記マップの前記三次元表面と一致可能である正面から見た頭部/顔の二次元の画像と;
−前記モデルの顔の特徴の部分の位置に対応する座標を規定した少なくとも一人のユーザーと;
−座標を規定した前記ユーザーにより規定された位置の前記マップ上に位置する少なくとも１つの顔の特徴と；
を有することを特徴とするデータ構造。

このデータ構造は、とりわけ前述の本発明の態様で使用可能な効率的モデルまたは顔の描写を提供する。平面から隆起している顔の特徴で占められる部分を除いて平坦である部分的三次元マップに画像を配置することによって、前記モデルがディスプレイにレンダリングされると、生きているような姿となる。完全な三次元表示と比較した場合、三次元画像を構成するためにはわずかなデータしか必要としない。顔の特徴の位置を特定することにより、データ構造の特徴の表示を必要とせずに、写実性を増すためのレンダリングの際に、口や目のような動画化された特徴を追加することができる。顔の周囲に平坦部を有することは、顔の他に毛髪や他の特徴を単純であるが写実的な方法で表示することが可能になる。

第５の態様によると、本発明は、以下の工程を有するディスプレイ画面上に表示するための頭部の動画化された部分的三次元モデルを作成する方法を提供する：
−相互に連結したノードのメッシュとして規定された部分的三次元表面を有するマップを選択し、各ノードは前記三次元表面上に位置し、ノード群は順に前記表面の輪郭を規定する多角形を規定し、前記三次元表面は通常は周縁部の単一面にあり、顔のトポロジーに対応する中央域において前記単一面から隆起される工程
−正面から見た頭部/顔の二次元の画像を選択する工程、
−顔の特徴に対応する輪郭を有する顔の部分的三次元モデルを形成するために、前記画像を前記マップの前記三次元表面に適合させる工程、
−データ構造から前記モデルの顔の特徴の部分の位置に対応する座標を規定した少なくとも一人のユーザーを選択する工程、
−少なくとも１つの顔の特徴を選択する工程、
−座標を規定した前記ユーザーにより規定された位置の前記マップ上に前記特徴を位置づける工程、
からなる、ディスプレイ画面上に表示するための頭部の動画化された部分的三次元モデルを作成する方法。

前記方法は、前記データ構造によって規定された前記モデルをディスプレイ上にレンダリングする工程をさらに含むことができる。これを行うためには、前記画像が表示される前に適合可能になるように、元のマップは記憶される必要がある。

前記レンダリングの工程は、口や目のような少なくとも１つの顔の特徴のレンダリングされ動画化されたモデルを形成し、そして、前記データ構造において示された前記座標に、前記表示され適合された画像上に前記顔の特徴を位置づけする工程を含むことができる。したがって前記方法は、顔の特徴を動画化する工程を含むことができる。

マップされた画像に口や目のような動画化された特徴を追加することにより、画像を生きているように表示することができる。

本発明が、ＳＭＳ、ＭＭＳ、電子メール、そしてインスタントメッセージの分野でアプリケーションを発見することが読者には理解されよう。また、本発明は発明の行使を必要とせずに、ＲＳＳニュースフィード等の書面形式でメッセージが送信される他のメッセージ通信の形式にも応用できる。例えば、再生装置は、ロイター／ＢＢＣのようなインターネット・サイトからのＲＳＳ情報を受信するよう設定可能であり、エンドユーザーに音声にして前記ニュースフィードの内容を示すだろう。

第６の態様によると、本発明は、次の工程：
−テキストの文字列からなる前記メッセージを受信し、
−前記メッセージの送信者を識別し、
−表示される前記メッセージの送信者に関連する顔を描写するデータ構造をメモリから検索し；
−前記メッセージを前記メッセージの音声表現に変換し;
−前記音声表現と一致する口の動画を作成し;
−前記表示された頭部が前記受信メッセージを読み上げるよう表示するように、前記音声表現を行うと同時に前記動画化された口と共に顔の画像を表示する
工程からなる方法を提供する。

第７の態様によると、本発明は、
通信ネットワーク上で使用されるネットワーク装置用のグラフィカル・ユーザー・インタフェースにおいて：
−ディスプレイと；
−各頭部画像が前記ネットワークに接続された異なる装置に対応する、一連の頭部画像を記憶するメモリと；
−キーボードのようなユーザー入力デバイスと;
−同時に前記ディスプレイ上に前記一連の頭部画像における各頭部画像を作成するために配置された画像生成手段と；を有し、前記頭部画像１つは他の頭部画像よりも傑出して表示されており、
さらに、
−前記画像生成手段は、複数の頭部のうちのどの頭部を最も傑出して表示するかをユーザーが選択することができるように、前記インタフェースを通してユーザーにより制御される
ことを特徴とする、通信ネットワーク上で使用されるネットワーク装置用のグラフィカル・ユーザー・インタフェースを提供する。

前記頭部画像は、前記スクリーン上の楕円上に間隔を置かれて表示され、ユーザーは、円形コンベアのような前記楕円上で最も傑出して表示される頭部を変更するために、頭部を循環させることができる。前記楕円を使用することは、表示の後景に退く仮想面上の円形に配置されている頭部の印象を与えることができる。

最も傑出して表示される頭部は、他の頭部の前に表示することにより、その傑出性を提供することができる。前記傑出される頭部は、他の頭部よりも大きく表示することができ、また、より高い明度（彩度）で表示することもできる。

前記頭部画像は、最も傑出される頭部を変更するために、ユーザーの制御下で前記楕円または円形上で共に全て移動することができる。したがって前記円形は、部分的に再生することができる。前記頭部画像は移動するので、常に正面を向くことができる。

当然のことながら、前述の本発明の態様に関して記載されているいずれの特徴は、別の態様の１つの特徴と組み合わることもでき、このような組合せの保護は、この特許出願によって求めることができる。

前記メモリは、各頭部画像に関連する身元を記憶し、前記身元は、ネットワーク上の装置のネットワークの身元と一致することができる。装置とネットワークの種類により、前記メモリは例えばIPアドレスや電話番号を備えることができる。ゆえに、前記インタフェースは、ネットワーク上の一人のアドレスを選択するために、直観的に認識できる方法を装置のユーザーに提供する。これは、名前を記憶する必要性を省き、文字が読めないような学習障害を持つユーザーに対し、従来の文字ベースの電話帳（ディレクトリ）の必要性を取り除く。ユーザーがしなければならないことは、前記頭部画像が対応する人を記憶することだけであり、前記頭部画像が異なるユーザーの実際の画像である場合は容易である。

表示された各頭部画像は、動画化することができる。各頭部画像の目は前記画像生成手段によって動画化されることができ、最も傑出していない頭部の全てが、最も傑出している頭部画像を見るように表示することができる。

前記画像生成手段は、装置の１つのメモリに記憶されたプログラム命令として実行することができる。

前記インタフェースは、１つの電話に使用される場合、人が前記ネットワーク上で接続したいと思う他者を選択できるようにする。そして彼らは、装置を用いて相手に１つのメッセージを送信することができ、さらに電話をすることもできる。

第８の態様によると、本発明は、第７の態様の発明に記載のグラフィカル・ユーザー・インタフェースを備えたネットワーク装置を提供する。

装置は、例えば電話をするため、またはメッセージを送信するために、最も傑出して表示される頭部画像に対応する装置に接続するための手段を備えることができる。

ここで、ほんの一例として、添付図面に関する本発明の一実施例について以下に記載する：

１つの通信ネットワークの概要と本発明の実施例に従う接続された装置を示す図である。本発明の少なくとも１つの態様に従う携帯電話装置の概略図である。テキスト入力における図２の装置のディスプレイに表示されるような、１つの典型的なテキストメッセージを例示する図である。図４は、ネットワークを通じて送信される１つの頭部画像を表示するデータ構造を作成する際に行われる工程を提示している１つの工程系統図（フローチャート）である。レンダリングされる１つの顔／頭部の二次元画像を示す図である。レンダリングされた頭部／顔の画像を構成する際に使用する１つの典型的なマップの表示を示す図である。実際に画像の裏面から突出されたマップに適合した画像を示す図である。マップされた画像の顔の特徴の領域の位置を決める工程を示す図である。１つの頭部画像を規定するために必要とされる完全なデータ構造を例示する図である。受信装置上のメッセージを示すことに関する工程を示すフローチャートである; 本発明の態様に従う１つの代替通信システムの概要図である。円形コンベアの形状で同時に頭部画像のディスプレイを示す図である。

図１に示すように、一対の処理装置１０、２０は、ネットワーク３０を通じて接続される。前記ネットワークは、前記ネットワークに接続される装置間で音声メッセージおよびデータ・メッセージの両メッセージを伝達することができる１つの携帯電話ネットワークを備える。

明確にするために、この説明の残りの部分において、前記ネットワーク上の１つの装置は送信装置１０と言及され、もう１つの装置は受信装置２０として言及される。前記送信装置１０は、一人のユーザーが前記ネットワーク３０を通じてメッセージを送信するのを可能にする。前記受信装置２０は、ユーザーがネットワーク３０を通じて送信されるメッセージを受信するのを可能にする。実際に、単一装置は、送信装置１０および受信装置２０の両方の機能を果たすことができる。

１つの代表的な送信装置１０は、添付図面の図２に概略的に示される。前記送信装置１０は、命令と電話番号を入力するための１つのキーボード１２と、データを表示するためのＬＣＤのような１つのディスプレイ１４を備える。また、前記送信装置１０は、望ましくはフラッシュメモリからなり、プログラム指示を記憶する非揮発性メモリ１６の第１の領域を備え、前記送信装置１０の加入者識別モジュール（ＳＩＭ）カード内に位置するか、または前記送信装置１０の専用のメモリとして、前記ＳＩＭカード外に位置することができる。プロセッサー１８は、前記メモリに記憶された指示に従う前記送信装置１０の操作を制御する。

前記メモリ１６は、他の装置から受信された１つ以上のメッセージと、前記送信装置から送信されるべき、または送信された１つ以上のメッセージも含む。これらは通常はフォルダ、いわゆる「受信箱」および「送信済みアイテム」フォルダに配置する。ユーザーは、キーボードを使用して各フォルダの内容を見る選択ができ、そして表示すべき１つのメッセージを前記フォルダから選択することができる。

この例において前記メッセージは、ＸＭＰＰフォーマットのインスタント・メッセージサービス・メッセージからなるが、代わりに他のネットワーキング・プロトコルのメッセージからなることができる。送信・複写可能なメッセージ４０の一例は、テキスト入力における図２の装置の典型的なスクリーン上に表示されるような、添付図面の図３に示されている。前記メッセージは、前記装置のスクリーン上のメニュー（図示せず）から「新しいメッセージ」を最初に選択し、そして前記キーボード１２により各文字を入力することにより入力される。前記キーボードは、９つのテキストキーと３つのファンクションキーのみを有する１セットの削減したキーボードを備える。各テキストキーには幾つかの文字があり、それらの文字は多工程入力方法または２工程入力方法のいずれかを使用して選択することができる。このような、削減したキーボード上のテキストの入力方法は、公知技術である。

このような処理装置は従来技術において周知であり、追加的なプログラムを前記メモリ１６に読み込ませるために１つの機能を設けることも公知である。そしてこれらの処理装置は前記キーボード１２でユーザーにより呼び出すことができ、前記送信装置の前記プロセッサー１８上で動作する際に追加的な機能を行う。図２に示すように、前記装置は、そのメモリに２つのプログラムを備える。その１つは、前記装置が前記ネットワーク３０を通じて音声やデータ・メッセージを送信できるようにする通信プログラム２２である。もう一方は、前記装置とのユーザーの相互作用を改善するためにテキストメッセージの表示を増やすＡｍｅｇｏプログラムと呼ばれる新しいプログラム２４である。実際には、カレンダーや計算機プログラムのような他の多くのプログラムを記憶することができる。

この例において、前記メモリ１６に記憶される前記プログラム２４によって、電話が新しい方法で前記ネットワーク３０を通じて他の装置と通信することが可能となる。特に、前記プログラム２４により、ユーザーは自分の頭部（または、別の実在する、または、想像上の人物の頭部、または頭部を修正した態様）の部分的三次元表示を１つの遠隔装置に送信することが可能となり、ネットワークを通じて送信された送信者のメッセージを「音読する（読み上げる）」姿を示すように前記装置のディスプレイ上に表示することができる。前記プログラムは、前記送信装置によってサポートされるいかなる公知のプログラミング言語で書き込むことができ、本発明は、いかなる特定のプログラミング言語に限られたものとして決して解釈されてはならない。それは、例えばＪａｖａ（登録商標）で書くことができる。

前記装置のプロセッサーで実行される際、前記プログラムにより、前記装置が以下の幾つかの機能を行う：
（１）ユーザーは頭部画像を作成することができる、または、少なくとも、前記装置の前記メモリ内の顔/頭部画像の定義を記憶する；
（２）ユーザーからの要求に応答して、または、各メッセージと共に、あるいは、新たなユーザーとの最初の接触において、ユーザーに顔/頭部画像を表わすデータ構造を送信する；
（３）遠隔装置の指示に従って、そして１つのデータ構造に規定されるように、顔／頭部の動画化された画像を有する装置上のディスプレイにレンダリングする；
（４）受信メッセージを読み込み、前記受信メッセージを音声に変換し、前記装置のユーザーに対し音読することができ、前記メッセージの送信者に適合する表示された顔／頭部画像を動画化する。

前記プログラムの前記４つの重要な特徴は、順に以下に説明される：

（１）１つの頭部画像の作成について。
前記プログラムを実行する際に前記装置は、ユーザーが遠隔装置に送信される顔／頭部の画像を規定するデータ構造を作成することを可能にする。前記装置は、アクセス可能であるように、そして比較的小さい帯域幅を必要とするが前記ネットワークを通じて別の装置に容易に送信できるように、このデータ構造をメモリに記憶する。

レンダリングされた顔／頭部画像を作成するために、前記プログラムは、添付図面の図４に提示される機能段階を実行する。第１の工程４１において、ユーザーは、前記装置に新しい頭部の作成を開始させる。そして工程４２において、前記装置は、完全な顔を表示するために、ユーザーに正面から見た頭部の２次元の画像を提供するよう促す。この画像は、通常は、デジタルカメラから取り込んだ、または印刷画像からスキャンした一枚の写真でよい。一枚のサンプル画像が、添付図面の図５（ａ）に示される。

次の工程４３において、前記画像は、前記装置のメモリに記憶された１つの三次元表面のマップに写像（マップ）される。前記マップは、一表面を規定する相互に連結したノードのメッシュとして規定される。前記マップは、通常矩形である。前記ノードの位置は、１つの基平面（ゼロのＺ座標）に対する位置（Ｘ−Ｙ座標）に関連して規定することができ、複数のノードは、前記基平面に対して異なる高さに位置することができ、規定された１つの頭部形状に対応する前記基平面の一領域を通じて別々に間隔を置かれることができる。写像された一枚のサンプル表面は、一連の多角形として添付図面の図５（ｂ）に示される。

前記マップは、頭部の完全な三次元表示ではなく、部分的三次元表示である。そして前記マップは、正面から、またはわずかに各側まで見たときに、頭部のモデルがどのように表示されるかの部分的に平坦化された表示である。したがって、実在の特徴と比較すると部分的に平坦化された鼻と眉を規定する。これは、正面からのみ表示される頭部のモデルに対して完全に条件に合ったものであり、前記部分的に平坦化された特徴は遠近感を与え、仕上がった頭部画像に陰影をつけることが判明した。

メッシュのノードは、通常マップの周辺部全体にわたり前記基平面にある。この領域は、したがって平坦である。この平坦な領域の内側境界は、通常頭部および顔の輪郭に相当する。前記頭部／顔領域の中で、前記ノードは、鼻、目、口、頬骨、額などのような顔の特徴を規定するために、前記基平面から上に隆起する。

画像を三次元表面に適合させる工程は、フレームに張設され完全に弾性材料でできたシートに前記画像を印刷する工程、および、前記マップの位相的特徴に適合するために前記マップがその元となる平坦な平面から前記画像を押圧するように前記画像の背面に前記マップを押圧する工程、と類似していると考えられる。前記マップの基平面が前記画像の面と一致するまで、前記画像は押圧される。これは、添付図面の図６（ａ）に示されている。この工程を促進するために、ユーザーがディスプレイ上のマップと画像に位置合わせ可能になるように適合する前に、ユーザーは前記画像の背後の前記マップに表示される。前記ユーザーは、前記マップを適合するために、必要であれば前記画像を拡大・縮小することもできる。前記マップは、それから部分的三次元モデルになるように前記画像の背面に「押し込まれる」。

その結果、前記画像の顔の領域には輪郭が示され、例えば毛髪を含むその輪郭の周囲の領域は平坦である。この部分的三次元モデルは、表示される際にＺ平面に奥行があるため側面にわずかに傾けることができ、３つの平面で回転する本物の三次元頭部であるように表示される。これは、添付図面の図６（ｂ）に示される。

次の工程４４において、部分的三次元画像は、ディスプレイに表示され、前記ユーザーは、工程４５の表示された画像の対向する口角の位置座標を示すようを促される。これは、キーパッドを使用してユーザーが位置決めできるスクリーン上にカーソルを示し、前記装置で実行可能である。そしてユーザーは、いつカーソルの位置に満足であるのかを示すよう求められる。一旦これが完了すると、前記口角の座標がメモリに記憶される。次にユーザーは、例えば異なる形状の眼窩や目の色など、前記座標で示されるべき異なる特徴の選択から工程４６を選択するよう促される。これは、添付図面の図７に示される。

次の工程４７において、ユーザーは、表示されマップされた画像の両眼の中央の位置を示すよう促される。

最後に、元の二次元画像と口と目の座標は、完全な頭部画像を表示する１つのデータ構造として記憶される。これは、１つの電子ファイルを構成することができる。元の位相的マップについての知識が公知であるならば、これはいかなる装置上で頭部画像を再現するために必要である全てであるということにも注意すべきである。前記データは、単に標準マップに適合する。

任意選択として、前記ユーザーは、どれを選択するべきかという眼窩形状など異なる顔の特徴のうち１つの選択が提示される。これらは、予めプログラムされ動画化された特徴を含み、この選択により、ユーザーが好ましい目の色や形状を選択できる。選択された特徴の身元は、それからデータ構造に記憶される。

データ構造の内容は、添付図面の図８に例示されている。

当然、この作成段階は、例えばパーソナルコンピュータのようなモバイル機器以外の装置で実行されることも可能である。パーソナルコンピュータはたいていモバイル機器よりも総合的なユーザ・インタフェースを有するので、これは使いやすさに関して利点があるといってよい。例えば、パーソナルコンピュータは、口と目の位置を示しユーザーのタスクを単純化するマウスを備えることができる。

（２）遠隔装置への頭部画像の送信について。
頭部画像を表示するデータ構造が一度作成されれば、送信装置に記憶することができ、固有の識別手段を備える送信者の他の詳細と共に１つのデータベースに記憶されるセントラルネットワークサーバに送信することができる。別のユーザーが初めて前記送信者と通信する際は、このユーザーは、今後の通信において前記送信者の頭部画像データ構造が再び送信される必要がないように、前記データ構造を受信し、それを自分自身の装置に記憶する。したがって、その後のメッセージのやり取りをする際に送信されるデータの量を減らす。前記固有の識別手段は固有の番号や、ＩＰアドレスやＭＡＣアドレスであってよく、メッセージが正確に送れるように、独占的に１つのデータベースにおける前記頭部画像データ構造と関連する。ユーザーが自分の頭部画像を変更する場合は、送信装置は、補正された画像をデータベースに送信することができ、それから送信者と既に連絡を取って記録された全ての受信装置に補正された画像を転送することができる。

頭部画像は、二次元画像と、そして、例えば口と目などの突出（隆起）した特徴の領域の座標とを送信することにより、遠隔装置に送信される。完全な三次元画像を送信するのと比較して小さいファイル・サイズに圧縮できるので、これは有利である。

遠隔装置では、データ構造は、データ構造の送信者の身元によって割り出されたメモリに記憶される。これは、後にメッセージを受信する時に遠隔装置が適切なデータ構造を選択できるので、重要である。

（３）画像のレンダリングおよびメッセージの読み込みについて。
前記プログラムの重要な態様は、装置のディスプレイ上に顔／頭部画像をレンダリングし、前記頭部がメッセージを音読する表示をするようにテキストメッセージの音声の形式に合わせて、この顔／頭部画像を動画化する能力である。これは、実際は受信装置の機能であり、ユーザーが受信装置のメモリに記憶されるメッセージを選択し、受信装置にそのメッセージを表示させるたびに、実行される。

ユーザーに対し、音声化かつ動画化されたメッセージを示す工程は、添付図面の図９に示される。第１の工程９１において、メッセージの送信者の身元が確定される。それから、その身元が認識されたものであるかどうかを確認するために送信者のテーブル（表）と工程９２で照合される。もしもその身元がテーブルにある場合、対応する頭部画像が選択される。

次の工程９３において、メッセージは、メッセージ内の音素を識別するために一文字一文字または一語一語分析される。この識別工程は、装置のメモリに記憶された音声辞書を使用して達成することができる。これはサウンド・ファイルのデータベースを備えており、各サウンド・ファイルは１つの音素に対応する。このデータベースを使用して、読み込まれるメッセージに対応するオーディオ・ファイルが構成される。しかし、この実施例では、異なるテキストの文字列にどの音が使用されなければならないかを決定するために、メモリに記憶された規則が使用されるといった、規則ベースのスキーマを用いて変換される。

次の工程９４において、口は、頭部画像に対して選択され、オーディオ・ファイルの音素に合わせて動いて表示されるように、動画化される。実際には、各音素は、あたかも音を出しているかのように動く口を表示する連続した口の画像または視素（visemes）と関連する。連続的な口の動きは、データ構造に記憶される。

最終工程９５において、頭部画像は、装置のスピーカーによるオーディオ・ファイルの再生に合わせて被せられた口の画像と共にディスプレイ上にレンダリングされる。

マップと動画は装置のメモリに予め記憶されることができるため、送信者が新しい顔／頭部画像を追加するために受信されるのに必要なのは、二次元画像ファイルと顔の特徴の位置だけである。これは、特に複数の送信者の顔が表示されるときに、送信者から顔の完全な三次元動画を受信するよりもデータがはるかに少ないことを示す。

変更・修正について
本発明に対する様々な改良が想定される。１つの改良において、装置のメモリに感情の辞書を設けてもよい。これはメッセージに入力される「タグ」という文字列によって特定される各種の所定の表情を備えるであろう。これらの文字列は、時にフェイスマークと呼ばれる。異なる各表情に対し、顔の特徴は、その表情を示すために変更される。

感情の辞書と音素の辞書は、組み合わせることができる。各音素に対する１つの口の動画よりもむしろ、異なる感情に対応する幾つかの動画があってもよい。メッセージに挿入されるフェイスマークと一致して適切な動画が選択される。

例えば、メッセージが：）というタグ／フェイスマークで始まる場合、幸福な顔に対応する口の動画が、口を動画化するために使用される。そしてメッセージが：（というフェイスマークで始まる場合、悲しい顔に対応する異なる口の表情が使用される。

加えて、音声のトーンは感情に対応するよう変更することができる。

なお更なる改良において、装置は、一連の頭部画像を同時にスクリーンに表示する画像生成手段を備えることができる。それらの画像は、円形コンベアのように表示される。これは、添付図面の図１１に示されている。１つの頭部画像が動画化されるときはいつも、その頭部画像が正面に位置するまで、画像は円形コンベアの周囲を回転する。この画像をより傑出させるために、他の画像より大きくしてもよく、またはより高い明度（彩度）を有してもよい。

また、この装置により、頭部画像が選択されるように、ユーザーは頭部画像を円形コンベアの周囲を回るように動かすことができる。次にメッセージが入力でき、装置によって、選択された頭部画像に送信される。

また、当然のことながら、１つの好ましい実施例が携帯電話に関するのに対して、本発明はそれよりもさらに広範囲にわたって応用される、幅広いアプリケーションを有する。別の実施例において、メッセージは電子メールを含み、送信装置と受信装置の両装置は、インターネットを通じて互いに接続されるパーソナルコンピュータ（デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット型パソコンまたはＰＤＡ）を備える。これは、添付図面の図１１に示される。

この構成では、ＳＭＳメッセージの送信先として、電話番号を特定するよりもむしろ電子メールアドレスが特定され、前記メッセージは、電子メールのメッセージに組み込まれた、または電子メール・メッセージの添付として組み込まれた、動画化された部分的三次元画像の形態をとる。

前述の如く、三次元頭部の送信は、電子メールの本文中の情報を含むファイルを組み込むことによって、または前記ファイルを電子メールに添付することによって達成することができる。

入力されたメッセージの可聴式再生の使用ために頭部画像を提供する方法は、いずれ共通の世界的標準になると想定される。必要なのは、ディスプレイを有しメッセージを受信することができる装置に前記プログラムをロードすることだけである。前記プログラムは、標準的な位相的マップと、テキストから音声への変換に使用するための音声学の辞書を備えるだろう。遠隔装置に顔／頭部画像を送信するために、二次元画像と顔の特徴の座標だけを送信する必要があるため、高い帯域幅は、顔／頭部の部分的三次元動画を提供するためには必要ではない。

さらに別の実施例において、受取人に音声メッセージ、他のテキスト、または音声情報を送達するため、または、ディスプレイ装置を通して画像の送信者間での話し合いに参加するために、動画化された部分的三次元画像または複数の部分的三次元画像は、ブラウザのプラグインによってウェブ・ページに組み込むことができる。

さらにまた別の実施例において、ディスプレイ装置を通してユーザーや視聴者に音声メッセージ、他のテキスト、または音声情報を送達するために、動画化された部分的三次元画像または複数の部分的三次元画像は、例えば電子メール・クライアント、スライドショー・アプリケーション、または他のプログラムのような他の独立したソフトウエアプログラムに組み込むことができる。

１０送信装置
１２キーボード
１４ディスプレイ
１６非揮発性メモリ
１８プロセッサー
２０受信装置
２２通信プログラム
２４新しいプログラム
３０ネットワーク
４０メッセージ
４１、４２、４３、４４、４５、４６、４７、９１、９２、９３、９４、９５、９６工程

Claims

送信装置、受信装置、および前記送信装置を前記受信装置に接続するネットワークとからなる通信システムにおいて；
前記送信装置は、
−メッセージとして連続したテキストの文字を入力するための入力操作が可能な少なくとも一人のユーザーと；、
−前記ネットワークを通じて前記メッセージを送るための送信手段と；
からなり、
前記受信装置は、
−それぞれの画像が１つの異なる送信装置と関連し、かつ正面から見た１人の頭部の一枚の画像からなる複数の頭部画像を記憶するメモリと；
−テキストの文字列からなる前記メッセージを受信する受信手段と；
−前記メッセージの前記テキストの文字をテキスト文字列に対応する音声メッセージに変換する、テキストから音声への変換手段と；
−前記メッセージの送信者と関連している前記メモリに記憶された前記頭部画像からの頭部の動画化された部分的三次元画像を作り出す動画化手段と；
を備え、
前記動画化手段は、前記頭部の少なくとも１つの顔の特徴を動画化し、その動画は前記メッセージを読む際に前記頭部の動きに対応し；
−前記動画化された部分的三次元頭部を表示するためのディスプレイ手段と；さらに
−前記表示された頭部に合わせて前記音声メッセージを出力する拡声器手段と；
を備えることを特徴とする通信システム。
前記メモリは、
−通常全てがメッシュの周囲を囲む１つの面にある相互に連結した一組のノードにより規定される三次元メッシュと、
−顔の特徴と一致するために前記面より上に隆起した前記周囲にあるノードと、
−前記メッシュの前記隆起した顔の特徴に同調される前記頭部画像の顔部分の顔の特徴を有する前記メッシュ上に、頭部画像を被せることにより前記部分的三次元頭部画像を作り出す前記動画化手段と、
を備えることを特徴とする請求項１に記載の通信システム。
１つのメッシュは、頭部画像が前記受信装置に記憶された送信者からの動画化された頭部をレンダリングするために用いる前記受信装置の前記メモリに記憶されることを特徴とする請求項２に記載の通信システム。
前記メッシュの動画は、メッセージを話すために必要な各言語音素を動画化するために記憶されることを特徴とする請求項２または３に記載の通信システム。
記憶された頭部画像は、正面から見たデジタル写真のような頭部の写真からなることを特徴とする請求項１〜４のいずれか１項に記載の通信システム。
動画化される顔の特徴のメッシュ上の位置を規定する１つ以上の座標は、前記メモリの各頭部画像と関連していることを特徴とする請求項１〜５のいずれか１項に記載の通信システム。
各頭部画像は、その顔画像と関連したメッセージの送信者の身元を示す識別子と関連していることを特徴とする請求項１〜６のいずれか１項に記載の通信システム。
所定のテキストの文字の組合せや文字列に使用される前記音素を規定する前記メモリに、規則が定められることを特徴とする請求項１〜７のいずれか１項に記載の通信システム。
前記ネットワークは、携帯電話ネットワークを含み、前記送信装置および前記受信装置はそれぞれが携帯電話を含むことを特徴とする請求項１〜８のいずれか１項に記載の通信システム。
前記送信されたメッセージは、ＸＭＰＰのような、インスタントメッセージング・データフォーマットに送信されることを特徴とする請求項１〜９のいずれか１項に記載の通信システム。
前記受信装置は、前記ディスプレイ上に複数の前記頭部画像を同時に表示する画像生成手段を備え、１つ以上の頭部画像がいつでも前記動画化手段によって動画化されることを特徴とする請求項１〜１０のいずれか１項に記載の通信システム。
前記画像生成手段は、動画化された頭部画像がもう一方の頭部画像の前面に表示される位置に表示されるように前記複数の頭部画像を表示することができ、さらに、１つの頭部画像が正面に移動されるように動画化されるたびに、前記複数の画像を移動させるよう構成されることを特徴とする請求項１１記載の通信システム。
前記画像生成手段は、円形コンベアのように回る円をなして前記頭部画像を表示することを特徴とする請求項１２に記載の通信システム。
前記送信装置（または受信装置）のメモリは、各頭部画像と関連した１つのグループ・ラベルを有し、前記画像生成手段は、前記同じグループ・ラベルを携える全ての頭部画像を同時に表示することを特徴とする請求項１１〜１３のいずれか１項に記載の通信システム。
ネットワークを通じてメッセージを送受信するよう構成された通信装置において、
−それぞれの画像が１つの異なる送信装置と関連し、かつ正面から見た１人の頭部の一枚の画像からなる複数の頭部画像を記憶するメモリと；
−テキストの文字列からなるメッセージを受信する受信手段と；
−前記メッセージの前記テキストの文字をテキスト文字列に対応する音声メッセージに変換する、テキストから音声への変換手段と；
−前記メッセージの送信者と関連している前記メモリで記憶された前記頭部画像からの頭部の動画化された部分的三次元画像を作り出す動画化手段と；
を備え、
前記動画化手段は、前記頭部の少なくとも１つの顔の特徴を動画化し、その動画は前記メッセージを読む際に前記頭部の動きに対応し；
−前記動画化された部分的三次元頭部を表示するためのディスプレイ手段と；
さらに
−前記表示された頭部に合わせて前記音声メッセージを出力する拡声器手段と；
を備えることを特徴とする通信装置。
連続したテキストの文字からなる書面でのメッセージを作成するメッセージ作成手段を有する通信装置において、
−前記通信装置のユーザーの識別子として前記通信装置のユーザーに選択された頭部の画像を描写するデータ構造に記憶されるメモリと、
前記ネットワークを通じて前記メッセージと前記データ構造を共にまたは別々に受信装置に送るための送信手段と、からなり；
前記データ構造は、
−前記正面から見える顔を示す頭部の二次元の画像と;
−前記画像の上に被せられる動画化された顔の特徴の位置を示す少なくとも１つの座標と；を有する
ことを特徴とする通信装置。
前記データ構造は、さらに、幾つかの異なる動画化された顔の特徴のうちのどちらが前記画像の上に被せられるかを識別するラベルを備えることを特徴とする請求項１６に記載の通信装置。
前記データ構造は、口；一対の目；眉；または他の顔の特徴；に対する座標を備えることを特徴とする請求項１７に記載の通信装置。
ディスプレイ画面に一枚の画像として表示される頭部/顔の動画化されたモデルを描写するデータ構造において、前記データ構造は：
−相互に連結したノードのメッシュとして規定された部分的三次元表面を有するマップからなり、
各ノードは前記三次元表面上に位置し、ノード群は順に前記表面の輪郭を規定する多角形を規定し、
前記三次元表面は通常は周縁部の単一面にあり、顔のトポロジーに対応する中央域において前記単一面から隆起され；
前記データ構造は、さらに、
−顔の特徴に対応する輪郭を有する顔の部分的三次元モデルを形成するために、前記マップの前記三次元表面と一致可能である正面から見た頭部/顔の二次元の画像と；
−前記モデルの顔の特徴の部分の位置に対応する座標を規定した少なくとも一人のユーザーと；
−座標を規定した前記ユーザーにより規定された位置の前記マップ上に位置する少なくとも１つの顔の特徴と；
を有することを特徴とするデータ構造。
ディスプレイ画面上に表示するための頭部の動画化された部分的三次元モデルを作成する方法において、次の工程：
−相互に連結したノードのメッシュとして規定された部分的三次元表面を有するマップを選択し、各ノードは前記三次元表面上に位置し、ノード群は順に前記表面の輪郭を規定する多角形を規定し、前記三次元表面は通常は周縁部の単一面にあり、顔のトポロジーに対応する中央域において前記単一面から隆起され;
−正面から見た頭部/顔の二次元の画像を選択し；、
−顔の特徴に対応する輪郭を有する顔の部分的三次元モデルを形成するために、前記画像を前記マップの前記三次元表面に適合させ；
−データ構造から前記モデルの顔の特徴の部分の位置に対応する座標を規定した少なくとも一人のユーザーを選択し；
−少なくとも一つの顔の特徴を選択し；
−座標を規定した前記ユーザーにより規定された位置の前記マップ上に前記特徴を位置づける工程；
からなることを特徴とするディスプレイ画面上に表示するための頭部の動画化された部分的三次元モデルを作成する方法。
前記方法が、前記データ構造によって規定された前記モデルをディスプレイ上にレンダリングする工程をさらに含むことを特徴とする請求項２０に記載の方法。
前記レンダリングの工程が、
口や目のような少なくとも１つの顔の特徴のレンダリングされ動画化されたモデルを形成し、かつ、
前記データ構造において示された前記座標に、前記表示され適合された画像上に前記顔の特徴を位置づけする、
工程を含むことを特徴とする請求項２１の前記方法。
テキストの文字列からなる前記メッセージを受信する工程からなる方法において、
−前記メッセージの送信者を識別して、表示される前記メッセージの送信者に関連する顔を描写するデータ構造をメモリから検索し；
−前記メッセージを前記メッセージの音声表現に変換し;
−前記音声表現と一致する口の動画を作成し;
−前記表示された頭部が前記受信メッセージを読み上げるよう表示するように、前記音声表現を行うと同時に前記動画化された口と共に顔の画像を表示する；
工程からなることを特徴とする方法。
通信ネットワーク上で使用されるネットワーク装置用のグラフィカル・ユーザー・インタフェースにおいて：
−ディスプレイと；
−各頭部画像が前記ネットワークに接続された異なる装置に対応する、一連の頭部画像を記憶するメモリと；
−キーボードのようなユーザー入力デバイスと;
−同時に前記ディスプレイ上に前記一連の頭部画像における各頭部画像を作成するために配置された画像生成手段と；を有し、前記頭部画像の１つは他の頭部画像よりも傑出して表示されており、
さらに、
−前記画像生成手段は、複数の頭部のうちのどの頭部を最も傑出して表示するかをユーザーが選択することができるように、前記インタフェースを通してユーザーにより制御される
ことを特徴とするグラフィカル・ユーザー・インタフェース。
前記頭部画像は、前記スクリーン上の楕円上に間隔を置かれて表示されることを特徴とする請求項２４に記載のグラフィカル・ユーザー・インタフェース。
前記メモリは、各頭部画像に関連する身元を記憶し、前記身元は、ネットワーク上の装置のネットワークの身元と一致することを特徴とする請求項２４または２５に記載の前記グラフィカル・ユーザー・インタフェース。
請求項２４〜２６のいずれか１項に記載のグラフィカル・ユーザー・インタフェースを備えたネットワーク装置。