JP2007279776A

JP2007279776A - Ｃｇキャラクタエージェント装置

Info

Publication number: JP2007279776A
Application number: JP2004215234A
Authority: JP
Inventors: Katsunori Orimoto; 勝則折本; Toshinori Hijiri; 利紀樋尻; Akira Kamisaki; 亮上崎; Yoshiyuki Mochizuki; 義幸望月
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2004-07-23
Filing date: 2004-07-23
Publication date: 2007-10-25
Also published as: WO2006011295A1

Abstract

【課題】テレビ電話の通話で送られてくる画像情報と音声情報から、パーソナルＣＧエージェントを自動生成・自動更新する。
【解決手段】他端末とテレビ電話用パケットデータを通信するための通信処理部２１０と、前記テレビ電話用パケットデータから通話相手の画像情報と音声情報を生成するテレビ電話処理部２２０と、前記画像情報と前記音声情報から通話相手のエージェントデータを生成するエージェントデータ作成部２３０と、通話相手の個人情報と対応させて前記エージェントデータを記憶するためのアドレス帳データ記憶部２５０と、前記アドレス帳データに対してデータ検索などのデータ管理を行うアドレス帳データ管理部２４０と、前記エージェントデータからＣＧキャラクタエージェントを作成するエージェント出力部２７０を備える。
【選択図】図２

Description

本発明は、テレビ電話機能を有する情報端末におけるＣＧエージェント装置に関わる。特に、特定の個人を模したＣＧキャラクタがメッセージを伝える、ＣＧキャラクタエージェント装置に関わる。

情報端末は、ユーザに対して、様々なメッセージを伝える必要がある。例えば、「電池が切れそうです。」といった機器の状態を伝えるためのメッセージや、「○○さんからの電子メールが到着しました。」などのイベントを伝るためのメッセージなどがあり、さらに、送信されてきた電子メールの内容自体もメール送信者からのメッセージとして捉えることができる。これらのメッセージの伝達において、最も単純なインターフェースは、画面上に文字情報として表示することである。しかし、文字だけの表示は、（１）同時に表示できる文字数に制限がある、（２）文字によって表現しにくい情報（例えば、感情など）は伝えられない、などの理由によって、親しみにくく、分かりにくいという面があった。

そこで、メッセージ発信者の画像を表示することや、メッセージを音声で読み上げるなど、様々なインターフェースを組み合わせることで、分かり易く、親しみ易いインターフェースが提案されてきた。このようなマルチモーダルなインターフェースの１つに、人間の姿をしたＣＧキャラクタが、メッセージを音声で読み上げるインターフェースがある。このようなＣＧキャラクタを使用したインターフェースはＣＧキャラクタエージェントと呼ばれる。

このＣＧキャラクタエージェントは、大きく分けると、一般的なＣＧキャラクタを使用したものと、個人情報から作られたＣＧキャラクタを使用したものの、２つに分けることができる。前者は、ユーザの個人情報に依存せずに作ることができるエージェントであり、例えば、アニメのキャラクタや動物の姿をしたキャラクタなどを指す。後者は、ユーザの個人情報を元に生成するものであり、例えば、ユーザの顔写真を貼り付けたキャラクタや、ユーザの特徴を反映させた似顔絵を使ったキャラクタなどを指す。後者を使用したアプリケーションの一例としては、電子メール受信時に、電子メールの送信者の姿をしたＣＧキャラクタが表示され、電子メール送信者の声で電子メールを読み上げてくれるものが提案されている。このように、個人情報を反映させることで、親しみのある声でのメッセージを分かりやすく読み上げることや、視覚的に一目で送信者を把握できるようになるなどのメリットが生まれ、親しみやすさ、分かりやすさの向上が可能となる。本発明は、このような個人情報に基づいたＣＧキャラクタエージェントを対象としており、以下では、このようなＣＧキャラクタエージェントをパーソナルＣＧエージェントと呼ぶ。

パーソナルＣＧエージェントを実現するための技術として、音声と画像の両面で、対象とする個人を模したＣＧキャラクタを作成する技術が提案されてきた。画像に関しては、人物の写真（または映像）から人物の形状モデルを作成し、さらに人物の写真を形状モデルに貼り付けることで、特定の人物の任意のアニメーション画像を表示する技術などがある。音声に関しては、音声合成と呼ばれる技術があり、これは、母音や子音といった音素単位、あるいは、頻繁に使われる単語単位の音声を音声辞書データとして蓄積しておき、再生時にそれらの音声辞書データを組み合わせることによって、任意の文字列の音声を発音するものである。

これまでにも、これら技術を使用し、画像と音声の両面から、特定の個人を模したＣＧキャラクタを生成する技術が提案されてきた（例えば、特許文献１）。また、このようなＣＧキャラクタを制御するためのパラメータをメッセージ（例えば、電子メール）に添付することによって、メッセージ作成者の意図するようにＣＧキャラクタエージェントを制御する技術が提案されている（例えば、特許文献２）。
特開２００３−１４１５６４号公報特開平０６−１６２１６７号公報

しかし、従来技術は、（１）データ作成という面において、ユーザが意図的にデータを入力して作成することが前提であり、ユーザが必要とするパーソナルＣＧエージェントのデータを自動生成することや、最新のデータに自動更新することができない、（２）データ管理という面において、メッセージに制御パラメータを添付する方法が開示されているが、メッセージのデータ量が増大することや、任意のメッセージデータに対して適用できない、などの問題があった。

本発明は、上記の課題を解決することを目的としており、テレビ電話の通話で送られてくる画像情報と音声情報を利用し、パーソナルＣＧエージェントを自動生成・自動更新することのできるＣＧキャラクタエージェント装置を提供することを第一の目的とする。また、個人情報を記憶するためのアドレス帳データに、パーソナルＣＧエージェントのデータを記憶することによって、特別な添付データを必要としない、任意のメッセージの伝達に使用できるパーソナルＣＧエージェントを実現することを第二の目的とする。

前記従来課題を解決するために、本発明のＣＧキャラクタエージェント装置は、他端末とテレビ電話用パケットデータを通信するための通信処理手段と、前記テレビ電話用パケットデータから通話相手の画像情報と音声情報を生成するテレビ電話処理手段と、前記画像情報と前記音声情報から通話相手のエージェントデータを生成するエージェントデータ作成手段と、通話相手の個人情報と対応させて前記エージェントデータを記憶するためのアドレス帳データ記憶手段と、前記アドレス帳データに対してデータ検索などのデータ管理を行うアドレス帳データ管理手段と、前記エージェントデータからＣＧキャラクタエージェントを作成するエージェント出力手段とを備えること特徴とする。

また、前記エージェントデータ作成手段は、画像情報から画像特徴データを抽出する画像特徴抽出手段と音声情報から音声特徴データを抽出する音声特徴抽出手段を備えてもよい。

さらに、前記エージェントデータ作成手段は、前記エージェントデータを一時保存するための一時保存データ記憶手段と、新たに作成したエージェントデータと前記一時保存データ記憶手段に記憶されるエージェントデータの信頼度を比較する信頼性判定手段を備えてもよい。

また、前記ＣＧキャラクタエージェント装置はさらに、ＣＧキャラクタエージェントによるメッセージ伝達を利用するアプリケーション処理手段と、ＣＧキャラクタエージェントの設定を入力するエージェント設定手段を備え、前記エージェント出力手段は、ＣＧキャラクタエージェントを生成するための基本データを記憶する基本データ記憶手段と、前期基本データと前記画像特徴データからＣＧキャラクタの画像データを作成するＣＧキャラクタ描画手段と、前期基本データと前記音声特徴データからＣＧキャラクタの音声データを作成する音声合成手段を備えてもよい。

また、前記アプリケーション処理手段は、電話着信メッセージを表示するアプリケーションの処理手段であってもよい。

本発明のＣＧキャラクタエージェント装置は、テレビ電話の通話で送られてくる画像情報と音声情報を利用し、通話相手の特徴を反映させたＣＧキャラクタエージェントを自動的に生成・更新することができる。また、作成したデータを、通話相手のアドレス帳データに保存することによって、アドレス帳に登録されたすべての人物からの、あらゆる種類のメッセージを、個人別のＣＧキャラクタエージェントが伝えることが可能である。さらに、エージェントデータは、画像特徴データと音声特徴データによって構成されており、メッセージ伝達以外の様々なアプリケーションでの利用も可能である。

以上のことにより、本発明は、ＣＧキャラクタエージェントによる、親しみやすく、分かりやすいインターフェースを実現する上で、絶大な効果を提供するものといえる。

以下、本発明の一実施の形態として、携帯電話端末におけるＣＧキャラクタエージェント装置について、図面を参照しながら説明する。

（携帯電話端末の外観）
図１は、携帯電話端末１０の外観図である。図１において、携帯電話端末１０は、テレビ電話機能を有する携帯電話であり、キー１０１、スピーカ１０２、ディスプレイ１０３、カメラ１０４、マイク１０５を有する。キー１０１は、電話をかけるための数字キーやカメラ機能用やメール機能用などの複数のキーによって構成される。スピーカ１０２は、電話受信時に音声を出力することや、電話や電子メールの着信音などを出力する。また、ディスプレイ１０３は、画像や文字を表示するものであり、具体的には、液晶ディスプレイや、有機ＥＬディスプレイでよい。また、カメラ１０４は、静止画や動画像を取得するものであり、テレビ電話の使用時には、ユーザの画像を取得する。カメラ１０４の一例としては、ＣＣＤカメラやＣＭＯＳカメラなどでよい。マイク１０５は、音声を入力するものであり、電話使用時には、ユーザの音声を取得する。なお、携帯電話端末１０は、テレビ電話機能を有する情報端末であれば、据え置き型電話機、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、パーソナルコンピュータなどの情報端末でもよい。

（キャラクタＣＧエージェント装置の概要）
図２は、携帯電話端末１０におけるＣＧキャラクタエージェント装置２０を示すブロック図である。ＣＧキャラクタエージェント装置２０は、通信処理部２１０、テレビ電話処理部２２０、エージェントデータ作成部２３０、アドレス帳データ管理部２４０、アドレス帳データ記憶部２５０、エージェント設定部２６０、エージェント出力部２７０、出力部２８０、入力部２９０、アプリケーション処理部３００を有する。

（入出力）
入力部２９０は、画像入力部２９１、音声入力部２９２、キー入力部２９３からなる。

画像入力部２９１は、カメラ１０４から画像データを取り込み、ビットマップデータとして取得する。ビットマップデータのフォーマットの一例としては、ＲＧＢフォーマットやＹＵＶフォーマットなどでよい。

音声入力部２９２は、マイク１０５から音声データを取得する。音声データの一例としては、ＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）データなどでよい。

キー入力部２９３は、キー１０１が押されたときに、押された状態を取得する。

出力部２８０は、画像出力部２８１、音声出力部２８２からなる。

画像出力部２８１は、ビットマップデータあるいは、ビットマップデータが格納されたメモリアドレスを受け取り、ディスプレイ１０３上に表示する。

音声出力部２８２は、音声データを受け取り、スピーカ１０５を通して音を出力する。

（テレビ電話の処理）
通信処理部２１０は、テレビ電話における通信の送受信を行う。通信処理部２１０は、テレビ電話データの受信時に、通話相手の情報端末から送られてきた受信パケットデータをテレビ電話処理部２２０に渡す。また、テレビ電話データの送信時には、テレビ電話処理部２２０から生成した送信パケットデータを受け取り、通話相手の情報端末に送信する。テレビ電話用のパケットデータの一例としては、ＭＰＥＧ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐｐｈａｓｅ４）のデータフォーマットを用いればよい。なお、テレビ電話用パケットデータは、音声と動画像を送信可能であればどのようなデータフォーマットでもよい。本発明は、任意のデータフォーマットに対して適用できる。

テレビ電話処理部２２０は、テレビ電話の送信処理と受信処理を行う。受信処理は、通信処理部２１０から受け取った、受信パケットデータから画像情報として画像データ（ビットマップデータ）、音声情報として音声データを生成する。この生成したビットマップデータを画面出力部２８１に渡し、音声データは音声出力部２８２に渡すことによって、送信されてきた画像をディスプレイ１０３上に表示し、送信されてきた音声をスピーカ１０２から出力する。また、送信処理では、画像入力部２９１から取得した画像データと、音声入力部２９２から取得した音声データから、テレビ電話用の送信パケットデータを作成し、通信処理部２１０に渡す。以上の受信処理と送信処理を、一定時間間隔（例えば、１秒間に１５回）で繰り返すことによって、ＴＶ電話機能を実現できる。

また、テレビ電話処理部２２０は、テレビ電話開始時に、アドレス帳データ管理部２４０に対して、通話先（テレビ電話の相手）の電話番号を伝え、対応するアドレスデータ内にあるエージェントデータのデータ更新設定を取得する。更新設定がＯＮの場合、前記受信処理において生成した画像データと音声データを、エージェントデータ作成部２３０に渡す。データを渡すタイミングの一例としては、受信処理が実行されるタイミングで良い。ただし、処理を軽減するために、受信処理よりも少ない回数とさせるような、一定時間ごとのタイミングでもよい。

（エージェントデータの生成）
エージェントデータ作成部２３０は、テレビ電話処理部２２０から渡された画像情報と音声情報からエージェントデータを作成し、アドレス帳データ記憶部２５０に保存するものである。以下では、図３に示すエージェントデータ生成部２３０の構成図を使用して、詳細に説明する。

エージェントデータ生成部２３０は、画像特徴抽出部２３１、音声特徴抽出部２３２、信頼性判定部２３３、一時保存データ記憶部２３４からなる。

画像特徴抽出部２３１は、テレビ電話処理部２２０から受け取った画像データから、画像特徴データを生成する。画像特徴データの一例としては、顔の部位を示す特徴点の位置座標や特徴点を抽出した画像データ（静止画像）でよい。

図５は、顔の特徴点を説明するための概念図である。上の顔画像は、テレビ電話処理部２２０から渡された画像データを示しており、２４０ｘ３２０のサイズのビットマップに通話相手の顔が映し出されている。このとき、口周辺の特徴点であるＰ１（上唇上端点）、Ｐ２（上唇下端点）、Ｐ３（下唇上端点）、Ｐ４（下唇下端点）、Ｐ５（唇左端点）、Ｐ６（唇右端点）の６点を認識した結果を下に表示した。特徴点名の横にあるカッコ内の数値は、特徴点の位置座標を示しており、ビットマップのサイズを元に、右上の点を原点として、右下の点が（２４０，３２０）という座標系を使用している。

音声特徴抽出部２３２は、テレビ電話処理部２２０から受け取った音声データから、音声特徴データを生成する。音声特徴データの一例としては、音声合成時に、音の高さやアクセント等を制御する音声制御パラメータでよい。また、音声の特徴データは、音声合成時に使用する特定の音素や単語を抽出した音声データや、基本データ記憶部２７３に記憶された音声辞書データとの差分などのデータでもよい。

（エージェントデータの管理と、データフォーマット）
アドレス帳データ管理部２４０は、アドレス帳データ記憶部２５０に記録されている、アドレス帳データを管理するものである。アドレス帳データは、複数人の個人情報が含まれる。アドレス帳データ管理部２４０は、電話番号などのアドレス帳データに含まれる１つの要素をキーとして検索し、検索結果のアドレス帳データのメモリアドレスを取得する機能を有する。例えば、データＩＤとして「１３」、あるいは、電話番号として「０９０１２３４５６７８」という数値を渡すことで、図４に示すようなアドレス帳データにアクセスするためのメモリアドレスを取得することができる。

ここで、図４の概念図を使用して、本発明の一実施の形態のアドレス帳データのデータ構成を説明する。図４に示すアドレス帳データの一例は、１人分のアドレス帳データであり、データを一意に識別するためのデータＩＤと、名前、電話番号、メールアドレス、グループ番号、アイコンなどの個人情報などが記録されている。これらのデータは、電話受信時にアイコンを表示することや、メール受信時に、グループ別のディレクトリに振り分けるなど、様々な用途で使用される。

さらに、本発明では、アドレス帳データに、エージェントデータを記憶する。図４におけるエージェントデータの一例は、画像特徴データと音声特徴データ、及びデータ更新設定、エージェントタイプによって構成される。

画像特徴データは、画像データそのもの、あるいは、画像データから特徴抽出することで得られる特徴データからなる。画像特徴データの一例としては、画像特徴抽出部２３１で生成した状態別の特徴点の位置座標と、状態別の特徴点について情報の確かさを現す信頼度、特徴点に対応した画像データのビットマップを示すファイル名からなる。特徴点の位置座標は、図５及び図６の概念図にあるように、画像データに写っている人物の目や口といった部品の位置を示すデータであり、例えば、目や鼻、口などの輪郭上の点を示す位置座標として定義できる。状態別の特徴点は、「あ」「い」「う」「え」「お」などの音素を発生した状態や、「怒る」「笑う」「悲しむ」などの感情の状態における、特徴点の位置座標を意味しており、状態別に特徴点を持つことで、様々な表情のパーソナルＣＧエージェントを生成することを可能とする。特徴点に対応した画像データのビットマップは、図６上図のように、メッシュに分割して表示する際のベースとなる画像データであり、特定の状態の画像データでよい。また、本実施の形態では、１枚の画像データを使用しているが、複数の状態別に画像データを持たせてもよい。例えば、感情別の特徴点に対応させて、画像データを複数持たせることで、表現力を向上させることが可能である。

信頼度は、特徴データを生成する際に使用した認識や分類の確かさを表す数値であり、生成した特徴データの信頼性を表す。音声データや画像データには、ノイズを含め、異常なデータが含まれる場合があり、認識結果が常に正しいものとは限らない。また、テレビ電話の通話者がカメラ画像から外れている状態や、通話者の音声がない状態もある。このような状態時に、特徴データを生成しても、送信者の画像や音声を取得することはできない。そのため、特徴データが送信者の画像や音声を反映しているかどうか判断するために、信頼度を定義し、信頼度の高いデータを作成する。信頼度の一例としては、０から１００までの数値によって表現し、数値が大きいものほど信頼性が高いことを表せばよい。また、信頼度を生成する方法の一例としては、画像や音声の認識時にパターンや特徴量を比較する際の、一致の度合いなどから定義すればよい。

音声特徴データは、音声特徴抽出部２３２で生成した状態別の音声特徴データと、状態別の音声特徴データの信頼度からなる。音声特徴データの一例としては、画像特徴データと同様に、「あ」「い」「う」「え」「お」などの音素を発生した状態や、「怒る」「笑う」「悲しむ」などの感情の状態における、音声の制御パラメータでよい。また、信頼度は、画像特徴データの信頼度と同様に、認識や分類の確かさを表すものである。

データ更新設定は、エージェントデータの生成を行うかどうかを示すものであり、ＯＮの場合、ＴＶ電話受信の通話時にエージェントデータを生成・更新することを表し、ＯＦＦの場合、ＴＶ電話の通話時にエージェントデータを生成しないことを示す。この設定は、ユーザがアドレス帳編集アプリケーション等を使用して指定することができる。

エージェントタイプは、パーソナルＣＧエージェントを生成する際に、どのようなタイプのエージェントにするかを設定する。本発明は、エージェントデータとして、画像特徴データと音声特徴データからなる。そのため、これらのデータを使用して、様々なタイプのエージェントを生成することができる。例えば、画像面では、人物の顔写真を貼り付けたリアルなエージェントや、画像特徴データから似顔絵を生成することなどが可能であり、音声面では、音声特徴データからその人物にそっくりな音声や、その人物のアクセントでのロボット的な音声を生成することなどが可能である。

（エージェントの設定）
エージェント設定部２６０は、アプリケーション処理部３００が、パーソナルＣＧエージェントによるメッセージ伝達機能を使用する際に、エージェントの設定を入力する。以下、詳細に説明する。

エージェント設定部２６０は、個人識別子設定部２６１と、状態設定部２６２と、メッセージ設定部２６３からなる。

個人識別子設定部２６１は、使用するパーソナルＣＧエージェントを特定するための識別用データである個人識別子を設定する。個人識別子は、アドレス帳データ管理部２４０によって、アドレス帳データを検索するためのキーであり、一例としては、アドレス帳データに含まれるデータＩＤや、電話番号などでよい。

状態設定部２６２は、メッセージを伝える際の状態を指定する。状態の一例としては、「怒っている」「笑っている」などの感情などでよい。また、状態設定部２６２では、アニメーションの状態等を設定する。例えば、同じメッセージを繰り返し伝達するかどうかの設定や、メッセージ伝達のスピードなどの設定を含む。

メッセージ設定部２６３は、伝達するメッセージの文字列を設定する。例えば、メッセージの文字列として、「でんわだよ」という文字列を設定する。

また、アプリケーション処理部３００は、ＣＧキャラクタエージェントを使用する任意のアプリケーションを指し、エージェント設定部３００に対してエージェントの設定を行う。なお、個人識別子を設定する際は、アドレス帳データ管理部２４０のデータ検索機能を使用することによって、電話番号や名前など様々な情報から、特定の個人識別子を取得すればよい。

（エージェントの出力）
エージェント出力部２７０は、アドレス帳データ記憶部２５０に保存されたパーソナルＣＧエージェントデータを、アドレス帳データ管理部２４０から取得し、それらを元に、パーソナルＣＧエージェントの画像表示／音声出力を行う。以下、詳細に説明する。

エージェント出力部２７０は、ＣＧキャラクタ描画部２７１と、音声合成部２７２と、基本データ記憶部２７３からなる。

ＣＧキャラクタ描画部２７１は、基本データ記憶部２７３に記憶されたデータと、アドレス帳データ記憶部２５０に記憶された画像特徴データから、あるメモリ上のビットマップ上に、ＣＧキャラクタを描画し、描画したビットマップデータまたは、ビットマップデータのメモリアドレスを画像出力部２８１に渡す。画像特徴データからＣＧキャラクタを描画する方法の一例を、図６を使用して説明する。図６の上図は、顔の特徴点と、特徴点を抽出した顔の画像データを重ねて表示したものであり、図６の下図はそれらの特徴点の座標を使用して、顔の画像データをメッシュ状に分割したものである。これらのメッシュは、特徴点を動かすことによって、変形させることができ、そのメッシュに連動して、顔の画像データも変形する。これらの変形を利用すると、特徴点を動かすアニメーションによって、目の開閉や口の開閉、怒った状態、笑った状態などの様々なアニメーション画像を生成することができる。なお、図６では、２次元的なアニメーション技術を説明したが、３ＤＣＧの技術を使用し、３ＤＣＧキャラクタの顔部分に、上記顔の画像データを貼り付け、アニメーションさせることで、３次元的な変形を適用することもできる。

音声合成部２８２は、基本データ記憶部２７３に記憶された音声辞書データと、アドレス帳データ記憶部２５０に記憶された音声特徴データから、個人の特徴を反映させた音声データを生成し、音声出力部２８２に渡す。

基本データ記憶部２７３は、パーソナルＣＧエージェントの画像生成や音声合成するために必要な基本データを記憶する。基本データの一例としては、キャラクタ画像を表示するためのビットマップデータや形状データ、音声合成に必要となる音声辞書データなどでよい。アドレス帳データ記憶部２５０に記憶されるエージェントデータは、個人の特徴を反映させるためのデータであり、基本データ記憶部２７３の基本データと合わせて使用することで、パーソナルＣＧエージェントを出力することができる。

なお、アドレス帳データ記憶部２５０のエージェントデータに、パーソナルＣＧエージェントデータのすべてを含む場合は、基本データ記憶部２７３をなくすこともできる。

（処理の流れの説明）
以上のように構成されたＣＧキャラクタエージェント装置について、フローチャートを使用して、処理の流れを説明する。

（エージェントデータ生成処理の流れ）
まず、図７を使用して、エージェントデータの生成処理を説明する。図７は、テレビ電話の通話中に行う、エージェントデータの生成処理を示すフローチャートである。エージェントデータの生成の処理は、テレビ電話通話時に、通話相手の画像データと音声データから、画像特徴データと音声特徴データを生成し、通話相手の個人情報を記録したアドレス帳データ内に保存するものである。以下、詳細に説明する。

（エージェントデータの生成開始）
まず、他端末から電話がかかってくる、あるいは、自端末が他端末に対して電話をかけることによって、テレビ電話の通話が開始される（ステップＳ１０１）。テレビ電話開始時に、テレビ電話処理部２２０は、アドレス帳データ管理部２４０に対して、通話相手の電話番号を通知し、エージェントデータのデータ更新設定の値を取得する。アドレス帳データ管理部２４０は、渡された電話番号から、アドレス帳データ記憶部２５０に記憶されているアドレス帳データを検索し、アドレス帳データ（図４参照）の「データ更新設定」の値を取得し、テレビ電話処理部２２０に返す（ステップＳ１０２）。設定値がＯＦＦの場合は、エージェントデータの生成処理は終了となり（ステップＳ１０３）、テレビ電話処理部２２０では、テレビ電話の通話処理のみが実行される。設定値がＯＮの場合、テレビ電話処理部２２０は、テレビ電話の通話処理と同時に、エージェントデータ生成部２３０に対して、画像データと音声データを渡す（ステップＳ１０４）。

（エージェントデータの生成）
次に、エージェントデータ生成部２３０は、画像データと音声データから、エージェントデータを生成する。画像データからは、画像認識技術を使用し、画像特徴データを生成し、音声データからは、音声認識技術を使用し、音声特徴データを生成する（ステップＳ１０５）。以下、詳細に説明する。

画像データは、テレビ電話の通話相手から送信されてきた画像データであり、主に、送信者の顔画像が映されている。画像データは、画像特徴抽出部２３１によって、顔画像の特徴抽出が行われる。顔画像の特徴抽出方法の一例としては、画像データの色値を対象に、あらかじめ用意されたパターンと比較する、パターンマッチングの技術を使用してもよい。認識する対象物の一例としては、顔全体が映っているかどうかの判別や、目や鼻や口の位置などを認識すればよい。また、色情報なども認識しても良い。ここで取得する画像特徴データの一例は、図５で示されるような、唇の両端の位置座標などの、特定の位置を示す位置座標でよい。なお、画像特徴データは、画像データから取得可能なデータであれば、色情報、顔の輪郭線情報などの、任意のデータを適用できる。

音声データに関しては、音声認識の技術により発話している「音」の種類（例えば、「お」、「は」、「よ」、「う」など）や、発話者の感情の状態を認識し、音声合成で使用する制御パラメータを生成する。この制御パラメータの一例としては、特定の母音・子音や頻繁に使用する単語の音声データをそのまま保存したものや、感情の状態に応じて変化する声の高さや大きさ、スピードなどの情報を示すパラメータなどがある。音声認識方法の一例としては、音の種類や感情の種類を予め定義し、定義した種類だけ代表的な音声の特徴量を定義し、その音声の特徴量と比較することで、どの種類に分類できるか判別すればよい。

（エージェントデータの一時保存）
次に、生成した画像特徴データと音声特徴データの信頼度を、一時保存データ記憶部２３４に保存されたデータの信頼度と比較し（ステップＳ１０６）、信頼度が高い状態のデータのみ、一時保存データ記憶部２３４のデータを更新する（ステップＳ１０７）。以下、詳細に説明する。

生成した特徴データは信頼性判定部２３３に渡される。信頼性判定部２３３は、一時保存データ記憶部２３４に保存されたデータと、状態別に信頼度を比較し、信頼度が高い特徴データを一時保存データ記憶部２３４に保存する。このとき、信頼度を比較する方法の一例としては、画像特徴データの信頼度と音声特徴データの信頼度を別々に比較して判断をしても良い。また、画像に人物が写っていない状態で正しい音声が送信されている場合や、音声がおかしい状態で画像に人物が表示されている場合は、通話相手の特徴を反映していない可能性が高いため、音声と画像の信頼性を別々に判定するのではなく、音声データの信頼度を画像データの判定に反映させ、画像データの信頼度を音声データの判定に反映させてもよい。なお、上記説明では、信頼度が高いデータを保存する方法を説明したが、信頼度を使用して、作成した画像特徴データ及び音声特徴データを、一時保存データ記憶部２３４に保存されている特徴データとマージしてもよい。マージの方法の一例としては、信頼度をウェイト値として２つの値を線形補間すればよい。

次に、エージェントデータ生成部２３０は、テレビ電話処理部２２０に対して、テレビ電話の通話が終了したかどうかを尋ね、終了していない場合は、ステップＳ１０４に戻り、エージェントデータの生成処理を繰り返す（ステップＳ１０８）。

（アドレス帳データへの保存）
次に、テレビ電話通話が終了すると、エージェントデータ生成部２３０は、生成したエージェントデータを、アドレス帳データ記憶部２５０に記憶する（ステップＳ１０９〜）。以下、詳細に説明する。

まず、テレビ電話処理部２２０は、アドレス帳データ管理部２４０にテレビ電話の通話が終了したことを通知し、通話相手の電話番号を渡す。アドレス帳データ管理部２４０は、エージェントデータ作成部２３０から、一時保存データ記憶部２３４に保存されたエージェントデータを受け取る。また、渡された電話番号を元に、アドレス帳データ記憶部２５０から、通話相手のアドレス帳データを検索し、そのエージェントデータを取得する。そして、２つのデータに対して、状態別に信頼度を比較し（ステップＳ１０９）、信頼度が高いデータをアドレス帳データのエージェントデータとして書き込む（ステップＳ１１０、ステップＳ１１１）。なお、上記説明では、信頼度が高いデータを保存する方法を説明したが、信頼度を使用して、２つのデータをマージしてもよい。

以上が、エージェントデータの生成処理の流れである。

なお、上記の実施の形態は、１人対１人のテレビ電話を対象に本発明のデータ生成処理を説明したが、本発明は、複数の人数が参加可能なＴＶ会議システムなどの、様々な画像と音声を通信するシステムでも同様に適用可能であることはいうまでもない。

（パーソナルＣＧエージェントを使用するアプリケーションの処理の流れ）
次に、以下では、図８のフローチャートを使用して、パーソナルＣＧエージェントを利用したアプリケーション、特に、電話着信時に、電話相手のパーソナルＣＧエージェントが、「でんわだよ」というメッセージを伝えるアプリケーションの処理の流れを説明する。このとき、アプリケーション処理部３００は、電話着信時に通話の処理を行う電話アプリケーションの処理部を指す。

まず、アプリケーション処理部３００は、エージェント設定部２６０に対して、使用するパーソナルＣＧエージェントの設定を行う（ステップ２０１）。この設定の一例としては、個人識別子の設定、状態の設定、メッセージの設定からなり、以下で、詳細に説明する。

電話着信時に、アプリケーション処理部３００は、個人を識別するための識別子を個人識別子設定部２６１に設定する。個人識別子は、アドレス帳データ管理部２４０でデータを検索するための識別子であり、一例としては、電話番号やアドレス帳のデータＩＤで良い。識別子がアドレス帳のデータＩＤの場合、アプリケーション処理部３００は、アドレス帳データ管理部２４０に対して、着信した電話の電話番号を渡し、アドレス帳データ記憶部２５０のアドレス帳データを検索して、対応するデータＩＤを取得すればよい。

次に、メッセージ設定部２６３に、伝えるメッセージの文字列を設定する。メッセージの一例としては、「でんわだよ」などの固定的な文字列でもよいし、あらかじめアドレス帳に個人別のメッセージを設定しておき、その文字列を読み上げる方法でも良い。また、アドレス帳データ管理部２４０から通話相手の名前を取得し、「○○さんからでんわだよ」など、個人特有の文字列を含めても良い。なお、本実施の形態では、メッセージは文字列だけの情報であるが、アクセントや大きさ、間など、音声合成で使用するパラメータをメッセージに付加しても良い。

さらに、状態設定部２６２に、パーソナルＣＧエージェントを制御するための、状態パラメータを設定する。状態パラメータの一例としては、エージェントの状態を示す状態パラメータや、繰り返し動作などのアニメーションに関する設定からなる。状態パラメータは、「でんわだよ」という文字列を読む際に、「起こっている」、「笑っている」などの感情によって読み方を変えるための感情パラメータなどでよい。繰り返し動作の設定とは、「でんわだよ」というメッセージを１回だけ読み上げるのか、「でんわだよ、でんわだよ、でんわだよ、、、」と何度も繰り返して読むのか、などの繰り返し制御用の設定であり、繰り返し時に、「だんだん強く繰り返す」や「だんだん弱く繰り返す」など、繰り返す際の読み上げの変化も指定することもできる。これらの設定から、ＣＧエージェントの動作の種類や、アニメーションの種類などが決められる。

次に、エージェント設定が終わると、エージェント設定部２６０は、エージェント出力部２７０に対して設定値を渡す。エージェント出力部２７０は、まず、個人識別子をアドレス帳データ管理部に渡し、対応するエージェントデータを受け取る（ステップＳ２０２）。データの受け渡しは、データの実態をあるメモリ上にコピーしても良いし、データが記憶されたメモリのアドレスを渡しても良い。さらに、エージェントデータに含まれる画像特徴データを、ＣＧキャラクタ描画部２７１に渡し、音声特徴データを音声合成部２７２に渡す。

次に、ＣＧキャラクタ描画部２７１は、個人の特徴データをもとに、個人の特徴を反映させたＣＧキャラクタを描画する（ステップＳ２０３）。ここで、ＣＧキャラクタの描画方法の一例を説明する。ここでは、個人特徴データに含まれるエージェントタイプの設定に応じて、顔写真を直接使用する方法と、似顔絵を表示する方法を選択する。似顔絵を表示する方法の一例としては、顔写真のビットマップ及び顔の特徴点の座標から、基本データ記憶部２７３に記憶された顔の部品（「目」や「鼻」「口」など）のビットマップを選択して、さらに位置座標に応じて拡大縮小したものを、組み合わせることで、様々な顔のビットマップを生成する。生成した似顔絵のビットマップは、顔写真のビットマップと同様に扱うことができる。次に、顔の特徴点データを使用して、口の開閉や目の開閉のアニメーション画像を生成する。本アニメーション技術の一例としては、図６に示すように、顔の特徴点を元にメッシュを定義し、そのメッシュ上に、顔のビットマップデータ（顔写真あるいは似顔絵データ）をテクスチャマッピングし、メッシュを構成する頂点を動かすことによって、口の開閉や目の開閉などのアニメーションを描画することができる。これらの技術を使用することで、音声に合わせて、リップシンクや瞬きをするアニメーション画像をビットマップデータとして描画することができる。なお、本実施の形態では、顔の画像データをアニメーションさせる方法のみ示したが、３ＤＣＧによりキャラクタの全身モデルを作成し、顔のメッシュ上に、上記の顔画像を貼り付けて、全身のキャラクタを表示してもよい。

また、音声合成部２７２は、与えられた文字列に対応する音声を発話する（ステップ２０４）。音声合成の方法の一例としては、基本データ記憶部２７３に保存されたデフォルト音素データベースから、発話する文字の音素データを取得し、さらに、個人の音声特徴データに含まれる音素制御用データを用いて音素データを変化させ、文字単位の音素データをつなぎ合わせることで、対応する文字列の音声データを生成する。

エージェント出力部２７０で生成した、ビットマップデータは画面出力部２８１に送り（ステップＳ２０３）、音声データは音声出力部２８２に送る（ステップＳ２０４）。

さらに、エージェント出力部２７０は、エージェント設定部２６０の設定応じて、アニメーションの制御を行う。例えば、「おはよう」という文字列のメッセージを、４秒で音声として伝える場合、画面表示に関しても、４秒間のアニメーションを描画する。アニメーション画像の生成方法の一例としては、図９に示すように、１秒ごとに、「お」、「は」、「よ」、「う」という口の形になるように、顔のアニメーションを制御し、さらに、１秒間の間に複数のフレームを使用して、口の形を連続的に変化するようにアニメーション画像を描画すればよい。

アニメーションが終了した場合、パーソナルＣＧエージェントの出力の処理は終了となる（ステップＳ２０５）。アニメーションが終了していない場合、時間の変化に応じて、描画で用いる位置座標や音声処理の制御パラメータなどの状態を変化させ（Ｓ２０６）、パーソナルＣＧエージェントの出力の処理（ステップＳ２０３〜ステップＳ２０４）の処理を繰り返す。

以上で説明した図８の処理の流れにより、電話の着信時に、着信者の顔写真や似顔絵をベースに作られたＣＧキャラクタが表示され、着信者の特徴を反映させた音声で「でんわだよ」という音声を発し、それに合わせて、口の開閉を含むアニメーション画像が表示される。

以上が、パーソナルＣＧエージェントを使用するアプリケーションの処理の流れである。

（他のアプリケーションへ展開）
なお、上記の実施の形態は、電話の着信メッセージを対象に本発明を使用したアプリケーションの処理を説明したが、本発明は、電子メールの着信メッセージや、電子メールの内容の読み上げを、電子メール送信者のパーソナルＣＧエージェントが伝えるアプリケーションなど、個人情報を扱う様々なアプリケーションで、同様に適用可能であることはいうまでもない。

さらに、ゲームなどのエンターテイメントアプリケーションにも適用することができる。例えば、複数の人物が登場するアドベンチャーゲームやロールプレイングゲームに適用することで、アドレス帳からランダムに選択した人物、あるいは、ユーザが指定した人物のパーソナルＣＧエージェントをゲームのキャラクタとして使用することで、自分の知っている人物の特徴を反映させたＣＧキャラクタが仮想的な世界の中に登場して、情報（メッセージ）を伝えることができ、自分だけの登場人物やストーリーを生み出す、新しいエンターテイメントを提供することができる。

以上のように本発明に係わるＣＧキャラクタエージェント装置は、ＣＧキャラクタエージェントによる、親しみやすく、分かりやすいインターフェースを実現する上で、絶大な効果を提供するものといえ、テレビ電話機能を有する情報端末等に有用である。

本発明に関わる情報端末を説明するための携帯電話端末の外観図本発明の一実施の形態における、ＣＧキャラクタエージェント装置の構成を示すブロック図本発明の一実施の形態における、エージェントデータ生成部２３０の構成を示すブロック図本発明の一実施の形態における、アドレス帳データを説明するための概念図本発明の一実施の形態における、画像の特徴抽出を説明するための概念図本発明の一実施の形態における、画像の特徴点を利用したアニメーション画像の生成方法を説明するための概念図本発明の一実施の形態における、エージェントデータの生成処理を説明するためのフローチャート本発明の一実施の形態における、パーソナルＣＧエージェントを使用するアプリケーションの処理を説明するためのフローチャート本発明の一実施の形態における、エージェント出力部２７０におけるアニメーションの制御を説明するための概念図

符号の説明

１０携帯電話端末
２０ＣＧキャラクタエージェント装置
１０１キー
１０２スピーカ
１０３ディスプレイ
１０４カメラ
１０５マイク
２１０通信処理部
２２０テレビ電話処理部
２３０エージェントデータ作成部
２３１画像特徴抽出部
２３２音声特徴抽出部
２３３信頼性判定部
２３４一時保存データ記憶部
２４０アドレス帳データ管理部
２５０アドレス帳データ記憶部
２６０エージェント設定部
２６１個人識別子設定部
２６２状態設定部
２６３メッセージ設定部
２７０エージェント出力部
２７１ＣＧキャラクタ描画部
２７２音声合成部
２７３基本データ記憶部
２８０出力部
２８１画像出力部
２８２音声出力部
２９０入力部
２９１画像入力部
２９２音声入力部
２９３キー入力部
３００アプリケーション処理部

Claims

他端末とテレビ電話用パケットデータを通信するための通信処理手段と、
前記テレビ電話用パケットデータから通話相手の画像情報と音声情報を生成するテレビ電話処理手段と、
前記画像情報と前記音声情報から通話相手のエージェントデータを生成するエージェントデータ作成手段と、
通話相手の個人情報と対応させて前記エージェントデータを記憶するためのアドレス帳データ記憶手段と、
前記アドレス帳データに対してデータ検索などのデータ管理を行うアドレス帳データ管理手段と、
前記エージェントデータからＣＧキャラクタエージェントを作成するエージェント出力手段、
を備えることを特徴とするＣＧキャラクタエージェント装置。
前記エージェントデータ作成手段は、
画像情報から画像特徴データを抽出する画像特徴抽出手段と
音声情報から音声特徴データを抽出する音声特徴抽出手段
を備えることを特徴とする請求項１記載のＣＧキャラクタエージェント装置。
前記エージェントデータ作成手段は、
前記エージェントデータを一時保存するための一時保存データ記憶手段と、
新たに作成したエージェントデータと前記一時保存データ記憶手段に保存されるエージェントデータの信頼度を比較する信頼性判定手段、
を備えることを特徴とする請求項２記載のＣＧキャラクタエージェント装置。
ＣＧキャラクタエージェントによるメッセージ伝達を利用するアプリケーション処理手段と、
ＣＧキャラクタエージェントの設定を入力するエージェント設定手段を備え、
前記エージェント出力手段は、
ＣＧキャラクタエージェントを生成するための基本データを記憶する基本データ記憶手段と、
前期基本データと前記画像特徴データからＣＧキャラクタの画像データを作成するＣＧキャラクタ描画手段と、
前期基本データと前記音声特徴データからＣＧキャラクタの音声データを作成する音声合成手段、
を備えることを特徴とする請求項２記載のＣＧキャラクタエージェント装置。
前記アプリケーション処理手段は、電話着信メッセージを表示するアプリケーションの処理手段、
であることを特徴とする請求項４に記載のＣＧキャラクタエージェント装置。