JP2002215180A

JP2002215180A - 通信装置

Info

Publication number: JP2002215180A
Application number: JP2001009572A
Authority: JP
Inventors: Keiichi Omi; 啓一大海
Original assignee: DIGITAL MEDIA LAB Inc
Current assignee: DIGITAL MEDIA LAB Inc
Priority date: 2001-01-17
Filing date: 2001-01-17
Publication date: 2002-07-31

Abstract

(57)【要約】【課題】この発明は顔面アニメーション生成方法を用
いて、通信装置間で音声データに同期した仮想的な顔表
情の動画像を滑らかに表現する通信装置に関する。【解決手段】受信側の通信装置に、一定の音声パター
ンと、これに対応し基本骨格モデルの顔表情の推移パタ
ーンとからなるデータを関連づけた動作推論データーベ
ースを設けておき、入力した音声データを分析して特徴
を抽出して音声パターンを生成し、この得られた音声パ
ターンを基に、上記動作推論データーベースから顔表情
の推移パターンを抽出し、上記入力した音声データと、
上記顔表情の推移パターンとを関連づけると共に、受信
側の通信装置に登録してある顔形状モデルに、上記顔表
情の推移データから得られた顔表情の基本骨格モデルの
動作をマッピングして、前記音声データに同期した仮想
的な顔表情を滑らかに表現することを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、携帯電話やイン
ターネット等の通信ネットワーク、あるいはその組み合
わせを介して接続される通信装置間で、送受信される音
声信号を基に、受信側の通信装置のディスプレイ装置上
に表示される顔形状モデルの動画像を音声信号に同期し
て動かす通信装置に関する。

【０００２】

【従来の技術】従来の音声認識では音声信号の音素片を
抽出し、各音素片からその時点での表情にマッピング
し、それらを補間することによって連続する口の動作が
生成される。しかし、従来のこの手法では音素片を抽出
した時点で音に関する表情要素（音の表情への大きさ、
唇関節への音のフレージング予測等）が失われ不自然な
表情動作となる。そこで、特開２０００−１２３１９２
号の顔面アニメーション生成方法では、現実的な顔のア
ニメーションを音声から直接生成する方法として、人が
話をしている間に現れる顔及び顔つきの観察記録を基
に、顔及び音声の動作の動的なモデルを学習し、音声を
学習した顔つきのカテゴリーに関連して分析し、顔の音
素間多重結合を含む長期の依存関係を無条件にモデル化
する動的モデル学習ステップと、新たな入力オーディオ
に伴う顔つきのシーケンスである顔面シーケンスを生成
する顔面シーケンス生成ステップと、前記顔面シーケン
スを、顔面の制御パラメータに基づいて最適なシーケン
スに変換するシーケンス変換ステップと、前記顔面の制
御パラメータに基づき顔面のアニメーションを動かす顔
面アニメーション動作ステップとを備え、顔面の滑らか
な動画像を得る構成が示されている。

【０００３】

【発明が解決しようとする課題】この発明は上記事情に
鑑みて鋭意研究の結果創案されたものであって、その主
たる課題は、上記顔面アニメーション生成方法を用い
て、通信装置間で音声データに同期した仮想的な顔表情
の動画像を滑らかに表現する通信装置を提供することに
ある。

【０００４】

【課題を解決するための手段】前記課題を達成するため
に、請求項１の発明では、通信ネットワークを介して接
続される通信装置間で、送受信される音声信号を基に、
受信側の通信装置のディスプレイ装置に表示された顔形
状モデルの画像を音声信号に同期して動かす通信装置に
おいて、受信側の通信装置に、音声データを基にした音
声パターンと、音声パターンに対応する顔表情データを
基にした推移パターンとを関連づけた動作推論データー
ベースを呼び出し可能に設けておき、入力した音声信号
を分析部で分析して特徴を抽出した音声パターンを生成
し、この得られた音声パターンを基に、上記動作推論デ
ーターベースから顔表情の推移パターンを抽出し、前記
音声信号と、上記顔表情の推移パターンとを関連づける
と共に、受信側の通信装置に登録してある顔形状モデル
に、上記顔表情の推移データから得られた推移パターン
の動作をマッピングして動画像を生成し、表示装置で前
記音声信号の出力と同期して前記顔形状モデルの顔表情
の動画像を表示してなる、という技術的手段を講じてい
る。

【０００５】また、請求項２の発明では、上記請求項１
の発明における前記顔形状モデルのデータが、予め受信
側の通信装置のメモリに格納されている、という技術的
手段を講じている。請求項３の発明では、上記請求項１
の発明における前記顔形状モデルのデータを、音声信号
と共に受信側の通信装置に送信して受信側の通信装置の
メモリに格納される、という技術的手段を講じている。
また、請求項４の発明では、上記請求項１の発明におけ
る前記通信装置の送受信側の一方または双方が携帯電話
からなっている、という技術的手段を講じている。更
に、請求項５の発明では、上記請求項１の発明における
前記通信装置の送受信側の一方または双方がパーソナル
コンピュータからなっている、という技術的手段を講じ
ている。また、請求項６の発明では、上記請求項１の発
明における通信ネットワークが、インターネット等のコ
ンピュータ通信ネットワークからなっている、という技
術的手段を講じている。

【０００６】

【発明の実施の形態】以下に、この発明の通信システム
およびそのシステムで稼働するプログラムの好適実施例
について図面を参照しながら説明する。図１に示す通信
システム１は、送信側の通信装置２に携帯電話を用い、
通信ネットワークＮを介して接続される受信側の通信装
置３としてパーソナルコンピュータを用いた例を示す。

【０００７】受信側の通信装置３には制御部としてのコ
ントローラ３０と、外部表示装置としてのディスプレイ
装置４と、スピーカー５とが接続されている。そして、
通信装置３のメモリ（図示せず）には、比較的長く続く
音素間多重結合を含む一定の音声データをＨＭＭ（隠れ
マルコフ・モデル）符号化した音声パターンと、これに
対応し基本骨格モデルの顔表情データをＨＭＭ（隠れマ
ルコフ・モデル）符号化した推移パターンとを関連づけ
て登録した動作推論データーベース６が格納されてい
る。

【０００８】なお、コントローラ３０は、アニメーショ
ン制御装置３１を介してディスプレイ装置４の動画像を
制御するようになっている。また、図中、符号７は、送
信用の音声信号を入力するマイクなどの音声入力部であ
る。

【０００９】この動作推論データーベース６は、特開２
０００−１２３１９２号（米国特許出願番号第０８／９
９４，５３３号）で説明されている公知の手順による顔
面アニメーション生成方法に基づき作成される。

【００１０】ここでは音素片による音声認識を行うので
はなく、音声データと発声に伴う表情データの変化のパ
ターンを同時に符号化（隠れマルコフ・モデル符号化）
して音声に関する状態シークェンスと表情に関する状態
のシークェンスを設定し、データベース化するものであ
り、ある状態の音（声）のタイミングに関する顔表情の
関係推移を推論するものである（図２参照）。

【００１１】コントローラ３０は、通信ネットワークＮ
を介して受信側の通信装置３に入力された音声信号を、
所定のサンプリング周期でサンプリングして音声データ
となし、これをオーディオ分析部で分析して一定の長さ
の音声パターンとする。即ち、このオーディオ分析部
は、線形予測解析を用いた音声データの特徴抽出プロセ
スであり、図３に示すように、入力された音声データ
（ＷＡＶファイル）をハニング窓を通してＤＦＴを行い
スペクトルの変換を行う。その後、対数変換、ＩＤＦＴ
を行い、ケプストラム窓を通してスペクトルの大局的特
長を抽出し音声データの特徴データとする。

【００１２】ここで前記受信側の通信装置３に入力され
た音声信号は、直接に送信されるものでも、あるいは音
声メールとして送信されるものでもよい。この音声パタ
ーンは、ケプストラム解析を行ってノイズに埋もれた音
声の特徴を取り出されたものである。

【００１３】次いで、特徴抽出された新規な音声パター
ンに対して、その音声のタイミングにおける顔表情の動
作の推移を予め登録してある前記動作推論データベース
６から検索する。

【００１４】そして、この抽出された上記顔表情の推移
パターンと、上記入力された音声信号とをタイミングが
一致するように関連づける。

【００１５】ここで、受信側の通信装置３のメモリに
は、キャラクターまたは人の仮想肖像画像の３次元的な
顔形状モデルデータが予め格納されている。この顔形状
モデルデータは、１種類であっても、あるいは複数種類
であってもよく、後者の場合は１種類が選択可能となっ
ている。この場合、例えば、送信側の通信装置２の電話
番号を予め受信側の通信装置３のメモリに登録してお
き、入力した発信者の電話番号を識別データとして、そ
れを基に顔形状モデルを選択して表示するようにしても
よい。

【００１６】その他、識別データは、送信側の通信装置
２から音声信号と共に送信するものであればよい。更
に、送信側の通信装置２では、顔形状モデルデータを音
声信号と共に受信側の通信装置３へ送信するものでもよ
い。そして、コントローラ３０は、送信側の通信装置２
より送信された音声信号が受信側の通信装置３に入力さ
れることによって顔形状モデルを呼び出し、アニメーシ
ョン制御装置３１を作動させてディスプレイ装置４上に
表示する。

【００１７】次に、コントローラ３０はアニメーション
制御装置３１で、この顔形状モデルのデータに、上記顔
表情の推移データから得られた顔表情の基本骨格モデル
の動作をマッピングさせ、運動計算を施して顔表情を動
かす動画像のアニメーションデータを作成する。そし
て、音声信号に同期するように前記ディスプレイ装置４
上の顔形状モデルの顔表情を動かしてリアルな顔表情の
動作を再現することができる（図４参照）。

【００１８】このアニメーション制御装置３１の処理
は、音声信号の入力とリアルタイムで処理され、新規な
アニメータを生成する。このようにして音声信号の入力
に伴って、受信側の通信装置３ではディスプレイ４装置
上に表示された仮想肖像画像の３次元的な顔形状の動画
像を滑らかに表現することができる。

【００１９】この発明は、前記実施例に限定されるもの
ではなく、図５に示すように、受信側の通信装置３がサ
ーバであって、該サーバには動作推論データーベース６
が呼び出し可能に接続された構成でも良い。そして、上
記サーバのＷｅｂページ（図示せず）が表示装置に対応
し、このＷｅｂページ上に、予め登録された、あるいは
送信側から送信された顔形状モデルを表示し、入力され
た音声信号を基に前記動作推論データーベースから顔表
情の推移パターンを前記顔形状モデルにマッピングして
アニメーションを作成し、音声信号の出力と同期させて
顔表情の動画像を滑らかに表現するようにしてもよい。

【００２０】同様に、送受信側の通信装置が共に携帯電
話やＰＤＡ等の携帯端末であってもよく、その場合に、
少なくとも受信側の携帯電話に前記受信側の通信装置と
同様の構造を備えておけばよい。その他、要するにこの
発明の要旨を変更しない範囲で種々設計変更しうること
勿論である。

【００２１】

【発明の効果】この発明は、上記構成からなっているの
で、携帯電話やインターネット等の通信ネットワーク、
あるいはその組み合わせを介して接続される通信装置間
で、送受信される音声信号を基に、受信側の通信装置の
ディスプレイ装置上に表示される顔形状モデルの動画像
を音声信号に同期してリアルに動かすことができ、通話
時における受信者の対話を容易にすると共に、顔形状モ
デルの表情の変化から発信者の感情も視覚で伝えうる通
信装置サービスを提供することができ、極めて有益であ
る。

【図面の簡単な説明】

【図１】この発明の通信装置の実施例のブロック図であ
る。

【図２】動作推論データーベースのブロック図である。

【図３】オーディオ分析部の機能ブロック図である。

【図４】通信装置の機能ブロック図である。

【図５】通信装置の異なる実施例のブロック図である。

【符号の説明】

１通信システム２送信側の通信装置３受信側の通信装置４ディスプレイ装置５スピーカー６動作推論データーベース７音声入力部３０コントローラ３１アニメーション制御装置Ｎ通信ネットワーク

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 9/16

Claims

【特許請求の範囲】

【請求項１】通信ネットワークを介して接続される通
信装置間で、送受信される音声信号を基に、受信側の通
信装置のディスプレイ装置に表示された顔形状モデルの
画像を音声信号に同期して動かす通信装置において、受信側の通信装置に、音声データを基にした音声パター
ンと、音声パターンに対応する顔表情データを基にした
推移パターンとを関連づけた動作推論データーベースを
呼び出し可能に設けておき、入力した音声信号を分析部で分析して特徴を抽出した音
声パターンを生成し、この得られた音声パターンを基に、上記動作推論データ
ーベースから顔表情の推移パターンを抽出し、前記音声信号と、上記顔表情の推移パターンとを関連づ
けると共に、受信側の通信装置に登録してある顔形状モデルに、上記
顔表情の推移データから得られた推移パターンの動作を
マッピングして動画像を生成し、表示装置で前記音声信号の出力と同期して前記顔形状モ
デルの顔表情の動画像を表示してなることを特徴とする
通信装置。
【請求項２】顔形状モデルのデータが、予め受信側の
通信装置のメモリに格納されていることを特徴とする請
求項１に記載の通信装置。
【請求項３】顔形状モデルのデータを、音声信号と共
に受信側の通信装置に送信して受信側の通信装置のメモ
リに格納されることを特徴とする請求項１に記載の通信
装置。
【請求項４】通信装置の送受信側の一方または双方が
携帯電話からなっていることを特徴とする請求項１に記
載の通信装置。
【請求項５】通信装置の送受信側の一方または双方が
パーソナルコンピュータからなっていることを特徴とす
る請求項１に記載の通信装置。
【請求項６】通信ネットワークが、携帯電話通信網や
インターネット等のコンピュータ通信ネットワークから
なっていることを特徴とする請求項１に記載の通信装
置。