JP2002215180A - 通信装置 - Google Patents

通信装置

Info

Publication number
JP2002215180A
JP2002215180A JP2001009572A JP2001009572A JP2002215180A JP 2002215180 A JP2002215180 A JP 2002215180A JP 2001009572 A JP2001009572 A JP 2001009572A JP 2001009572 A JP2001009572 A JP 2001009572A JP 2002215180 A JP2002215180 A JP 2002215180A
Authority
JP
Japan
Prior art keywords
communication device
facial expression
pattern
data
receiving side
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001009572A
Other languages
English (en)
Inventor
Keiichi Omi
啓一 大海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DIGITAL MEDIA LAB Inc
Original Assignee
DIGITAL MEDIA LAB Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DIGITAL MEDIA LAB Inc filed Critical DIGITAL MEDIA LAB Inc
Priority to JP2001009572A priority Critical patent/JP2002215180A/ja
Publication of JP2002215180A publication Critical patent/JP2002215180A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Telephone Function (AREA)

Abstract

(57)【要約】 【課題】 この発明は顔面アニメーション生成方法を用
いて、通信装置間で音声データに同期した仮想的な顔表
情の動画像を滑らかに表現する通信装置に関する。 【解決手段】 受信側の通信装置に、一定の音声パター
ンと、これに対応し基本骨格モデルの顔表情の推移パタ
ーンとからなるデータを関連づけた動作推論データーベ
ースを設けておき、入力した音声データを分析して特徴
を抽出して音声パターンを生成し、この得られた音声パ
ターンを基に、上記動作推論データーベースから顔表情
の推移パターンを抽出し、上記入力した音声データと、
上記顔表情の推移パターンとを関連づけると共に、受信
側の通信装置に登録してある顔形状モデルに、上記顔表
情の推移データから得られた顔表情の基本骨格モデルの
動作をマッピングして、前記音声データに同期した仮想
的な顔表情を滑らかに表現することを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、携帯電話やイン
ターネット等の通信ネットワーク、あるいはその組み合
わせを介して接続される通信装置間で、送受信される音
声信号を基に、受信側の通信装置のディスプレイ装置上
に表示される顔形状モデルの動画像を音声信号に同期し
て動かす通信装置に関する。
【0002】
【従来の技術】従来の音声認識では音声信号の音素片を
抽出し、各音素片からその時点での表情にマッピング
し、それらを補間することによって連続する口の動作が
生成される。しかし、従来のこの手法では音素片を抽出
した時点で音に関する表情要素(音の表情への大きさ、
唇関節への音のフレージング予測等)が失われ不自然な
表情動作となる。そこで、特開2000−123192
号の顔面アニメーション生成方法では、現実的な顔のア
ニメーションを音声から直接生成する方法として、人が
話をしている間に現れる顔及び顔つきの観察記録を基
に、顔及び音声の動作の動的なモデルを学習し、音声を
学習した顔つきのカテゴリーに関連して分析し、顔の音
素間多重結合を含む長期の依存関係を無条件にモデル化
する動的モデル学習ステップと、新たな入力オーディオ
に伴う顔つきのシーケンスである顔面シーケンスを生成
する顔面シーケンス生成ステップと、前記顔面シーケン
スを、顔面の制御パラメータに基づいて最適なシーケン
スに変換するシーケンス変換ステップと、前記顔面の制
御パラメータに基づき顔面のアニメーションを動かす顔
面アニメーション動作ステップとを備え、顔面の滑らか
な動画像を得る構成が示されている。
【0003】
【発明が解決しようとする課題】この発明は上記事情に
鑑みて鋭意研究の結果創案されたものであって、その主
たる課題は、上記顔面アニメーション生成方法を用い
て、通信装置間で音声データに同期した仮想的な顔表情
の動画像を滑らかに表現する通信装置を提供することに
ある。
【0004】
【課題を解決するための手段】前記課題を達成するため
に、請求項1の発明では、通信ネットワークを介して接
続される通信装置間で、送受信される音声信号を基に、
受信側の通信装置のディスプレイ装置に表示された顔形
状モデルの画像を音声信号に同期して動かす通信装置に
おいて、受信側の通信装置に、音声データを基にした音
声パターンと、音声パターンに対応する顔表情データを
基にした推移パターンとを関連づけた動作推論データー
ベースを呼び出し可能に設けておき、入力した音声信号
を分析部で分析して特徴を抽出した音声パターンを生成
し、この得られた音声パターンを基に、上記動作推論デ
ーターベースから顔表情の推移パターンを抽出し、前記
音声信号と、上記顔表情の推移パターンとを関連づける
と共に、受信側の通信装置に登録してある顔形状モデル
に、上記顔表情の推移データから得られた推移パターン
の動作をマッピングして動画像を生成し、表示装置で前
記音声信号の出力と同期して前記顔形状モデルの顔表情
の動画像を表示してなる、という技術的手段を講じてい
る。
【0005】また、請求項2の発明では、上記請求項1
の発明における前記顔形状モデルのデータが、予め受信
側の通信装置のメモリに格納されている、という技術的
手段を講じている。請求項3の発明では、上記請求項1
の発明における前記顔形状モデルのデータを、音声信号
と共に受信側の通信装置に送信して受信側の通信装置の
メモリに格納される、という技術的手段を講じている。
また、請求項4の発明では、上記請求項1の発明におけ
る前記通信装置の送受信側の一方または双方が携帯電話
からなっている、という技術的手段を講じている。更
に、請求項5の発明では、上記請求項1の発明における
前記通信装置の送受信側の一方または双方がパーソナル
コンピュータからなっている、という技術的手段を講じ
ている。また、請求項6の発明では、上記請求項1の発
明における通信ネットワークが、インターネット等のコ
ンピュータ通信ネットワークからなっている、という技
術的手段を講じている。
【0006】
【発明の実施の形態】以下に、この発明の通信システム
およびそのシステムで稼働するプログラムの好適実施例
について図面を参照しながら説明する。図1に示す通信
システム1は、送信側の通信装置2に携帯電話を用い、
通信ネットワークNを介して接続される受信側の通信装
置3としてパーソナルコンピュータを用いた例を示す。
【0007】受信側の通信装置3には制御部としてのコ
ントローラ30と、外部表示装置としてのディスプレイ
装置4と、スピーカー5とが接続されている。そして、
通信装置3のメモリ(図示せず)には、比較的長く続く
音素間多重結合を含む一定の音声データをHMM(隠れ
マルコフ・モデル)符号化した音声パターンと、これに
対応し基本骨格モデルの顔表情データをHMM(隠れマ
ルコフ・モデル)符号化した推移パターンとを関連づけ
て登録した動作推論データーベース6が格納されてい
る。
【0008】なお、コントローラ30は、アニメーショ
ン制御装置31を介してディスプレイ装置4の動画像を
制御するようになっている。また、図中、符号7は、送
信用の音声信号を入力するマイクなどの音声入力部であ
る。
【0009】この動作推論データーベース6は、特開2
000−123192号(米国特許出願番号第08/9
94,533号)で説明されている公知の手順による顔
面アニメーション生成方法に基づき作成される。
【0010】ここでは音素片による音声認識を行うので
はなく、音声データと発声に伴う表情データの変化のパ
ターンを同時に符号化(隠れマルコフ・モデル符号化)
して音声に関する状態シークェンスと表情に関する状態
のシークェンスを設定し、データベース化するものであ
り、ある状態の音(声)のタイミングに関する顔表情の
関係推移を推論するものである(図2参照)。
【0011】コントローラ30は、通信ネットワークN
を介して受信側の通信装置3に入力された音声信号を、
所定のサンプリング周期でサンプリングして音声データ
となし、これをオーディオ分析部で分析して一定の長さ
の音声パターンとする。即ち、このオーディオ分析部
は、線形予測解析を用いた音声データの特徴抽出プロセ
スであり、図3に示すように、入力された音声データ
(WAVファイル)をハニング窓を通してDFTを行い
スペクトルの変換を行う。その後、対数変換、IDFT
を行い、ケプストラム窓を通してスペクトルの大局的特
長を抽出し音声データの特徴データとする。
【0012】ここで前記受信側の通信装置3に入力され
た音声信号は、直接に送信されるものでも、あるいは音
声メールとして送信されるものでもよい。この音声パタ
ーンは、ケプストラム解析を行ってノイズに埋もれた音
声の特徴を取り出されたものである。
【0013】次いで、特徴抽出された新規な音声パター
ンに対して、その音声のタイミングにおける顔表情の動
作の推移を予め登録してある前記動作推論データベース
6から検索する。
【0014】そして、この抽出された上記顔表情の推移
パターンと、上記入力された音声信号とをタイミングが
一致するように関連づける。
【0015】ここで、受信側の通信装置3のメモリに
は、キャラクターまたは人の仮想肖像画像の3次元的な
顔形状モデルデータが予め格納されている。この顔形状
モデルデータは、1種類であっても、あるいは複数種類
であってもよく、後者の場合は1種類が選択可能となっ
ている。この場合、例えば、送信側の通信装置2の電話
番号を予め受信側の通信装置3のメモリに登録してお
き、入力した発信者の電話番号を識別データとして、そ
れを基に顔形状モデルを選択して表示するようにしても
よい。
【0016】その他、識別データは、送信側の通信装置
2から音声信号と共に送信するものであればよい。更
に、送信側の通信装置2では、顔形状モデルデータを音
声信号と共に受信側の通信装置3へ送信するものでもよ
い。そして、コントローラ30は、送信側の通信装置2
より送信された音声信号が受信側の通信装置3に入力さ
れることによって顔形状モデルを呼び出し、アニメーシ
ョン制御装置31を作動させてディスプレイ装置4上に
表示する。
【0017】次に、コントローラ30はアニメーション
制御装置31で、この顔形状モデルのデータに、上記顔
表情の推移データから得られた顔表情の基本骨格モデル
の動作をマッピングさせ、運動計算を施して顔表情を動
かす動画像のアニメーションデータを作成する。そし
て、音声信号に同期するように前記ディスプレイ装置4
上の顔形状モデルの顔表情を動かしてリアルな顔表情の
動作を再現することができる(図4参照)。
【0018】このアニメーション制御装置31の処理
は、音声信号の入力とリアルタイムで処理され、新規な
アニメータを生成する。このようにして音声信号の入力
に伴って、受信側の通信装置3ではディスプレイ4装置
上に表示された仮想肖像画像の3次元的な顔形状の動画
像を滑らかに表現することができる。
【0019】この発明は、前記実施例に限定されるもの
ではなく、図5に示すように、受信側の通信装置3がサ
ーバであって、該サーバには動作推論データーベース6
が呼び出し可能に接続された構成でも良い。そして、上
記サーバのWebページ(図示せず)が表示装置に対応
し、このWebページ上に、予め登録された、あるいは
送信側から送信された顔形状モデルを表示し、入力され
た音声信号を基に前記動作推論データーベースから顔表
情の推移パターンを前記顔形状モデルにマッピングして
アニメーションを作成し、音声信号の出力と同期させて
顔表情の動画像を滑らかに表現するようにしてもよい。
【0020】同様に、送受信側の通信装置が共に携帯電
話やPDA等の携帯端末であってもよく、その場合に、
少なくとも受信側の携帯電話に前記受信側の通信装置と
同様の構造を備えておけばよい。その他、要するにこの
発明の要旨を変更しない範囲で種々設計変更しうること
勿論である。
【0021】
【発明の効果】この発明は、上記構成からなっているの
で、携帯電話やインターネット等の通信ネットワーク、
あるいはその組み合わせを介して接続される通信装置間
で、送受信される音声信号を基に、受信側の通信装置の
ディスプレイ装置上に表示される顔形状モデルの動画像
を音声信号に同期してリアルに動かすことができ、通話
時における受信者の対話を容易にすると共に、顔形状モ
デルの表情の変化から発信者の感情も視覚で伝えうる通
信装置サービスを提供することができ、極めて有益であ
る。
【図面の簡単な説明】
【図1】この発明の通信装置の実施例のブロック図であ
る。
【図2】動作推論データーベースのブロック図である。
【図3】オーディオ分析部の機能ブロック図である。
【図4】通信装置の機能ブロック図である。
【図5】通信装置の異なる実施例のブロック図である。
【符号の説明】
1 通信システム 2 送信側の通信装置 3 受信側の通信装置 4 ディスプレイ装置 5 スピーカー 6 動作推論データーベース 7 音声入力部 30 コントローラ 31 アニメーション制御装置 N 通信ネットワーク
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 9/16

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 通信ネットワークを介して接続される通
    信装置間で、送受信される音声信号を基に、受信側の通
    信装置のディスプレイ装置に表示された顔形状モデルの
    画像を音声信号に同期して動かす通信装置において、 受信側の通信装置に、音声データを基にした音声パター
    ンと、音声パターンに対応する顔表情データを基にした
    推移パターンとを関連づけた動作推論データーベースを
    呼び出し可能に設けておき、 入力した音声信号を分析部で分析して特徴を抽出した音
    声パターンを生成し、 この得られた音声パターンを基に、上記動作推論データ
    ーベースから顔表情の推移パターンを抽出し、 前記音声信号と、上記顔表情の推移パターンとを関連づ
    けると共に、 受信側の通信装置に登録してある顔形状モデルに、上記
    顔表情の推移データから得られた推移パターンの動作を
    マッピングして動画像を生成し、 表示装置で前記音声信号の出力と同期して前記顔形状モ
    デルの顔表情の動画像を表示してなることを特徴とする
    通信装置。
  2. 【請求項2】 顔形状モデルのデータが、予め受信側の
    通信装置のメモリに格納されていることを特徴とする請
    求項1に記載の通信装置。
  3. 【請求項3】 顔形状モデルのデータを、音声信号と共
    に受信側の通信装置に送信して受信側の通信装置のメモ
    リに格納されることを特徴とする請求項1に記載の通信
    装置。
  4. 【請求項4】 通信装置の送受信側の一方または双方が
    携帯電話からなっていることを特徴とする請求項1に記
    載の通信装置。
  5. 【請求項5】 通信装置の送受信側の一方または双方が
    パーソナルコンピュータからなっていることを特徴とす
    る請求項1に記載の通信装置。
  6. 【請求項6】 通信ネットワークが、携帯電話通信網や
    インターネット等のコンピュータ通信ネットワークから
    なっていることを特徴とする請求項1に記載の通信装
    置。
JP2001009572A 2001-01-17 2001-01-17 通信装置 Pending JP2002215180A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001009572A JP2002215180A (ja) 2001-01-17 2001-01-17 通信装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001009572A JP2002215180A (ja) 2001-01-17 2001-01-17 通信装置

Publications (1)

Publication Number Publication Date
JP2002215180A true JP2002215180A (ja) 2002-07-31

Family

ID=18877036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001009572A Pending JP2002215180A (ja) 2001-01-17 2001-01-17 通信装置

Country Status (1)

Country Link
JP (1) JP2002215180A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6650889B1 (en) * 1997-07-22 2003-11-18 Orange Personal Communications Services Ltd. Mobile handset with browser application to be used to recognize textual presentation
KR20040051921A (ko) * 2002-12-13 2004-06-19 삼성전자주식회사 아바타 서비스를 제공하기 위한 이동통신 시스템 및 방법
WO2006106671A1 (ja) * 2005-03-31 2006-10-12 Pioneer Corporation 画像処理装置、画像表示装置、受信装置、送信装置、通信システム、画像処理方法、画像処理プログラム、画像処理プログラムを記録した記録媒体
WO2007020789A1 (ja) * 2005-08-12 2007-02-22 Sony Computer Entertainment Inc. 顔画像表示装置、顔画像表示方法及び顔画像表示プログラム
US7680660B2 (en) 2004-02-26 2010-03-16 Sega Corporation Voice analysis device, voice analysis method and voice analysis program

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6650889B1 (en) * 1997-07-22 2003-11-18 Orange Personal Communications Services Ltd. Mobile handset with browser application to be used to recognize textual presentation
KR20040051921A (ko) * 2002-12-13 2004-06-19 삼성전자주식회사 아바타 서비스를 제공하기 위한 이동통신 시스템 및 방법
US7680660B2 (en) 2004-02-26 2010-03-16 Sega Corporation Voice analysis device, voice analysis method and voice analysis program
WO2006106671A1 (ja) * 2005-03-31 2006-10-12 Pioneer Corporation 画像処理装置、画像表示装置、受信装置、送信装置、通信システム、画像処理方法、画像処理プログラム、画像処理プログラムを記録した記録媒体
WO2007020789A1 (ja) * 2005-08-12 2007-02-22 Sony Computer Entertainment Inc. 顔画像表示装置、顔画像表示方法及び顔画像表示プログラム
JPWO2007020789A1 (ja) * 2005-08-12 2009-02-19 株式会社ソニー・コンピュータエンタテインメント 顔画像表示装置、顔画像表示方法及び顔画像表示プログラム
JP4538008B2 (ja) * 2005-08-12 2010-09-08 株式会社ソニー・コンピュータエンタテインメント 顔画像表示装置、顔画像表示方法及び顔画像表示プログラム
US8803886B2 (en) 2005-08-12 2014-08-12 Sony Corporation Face image display, face image display method, and face image display program
US9247156B2 (en) 2005-08-12 2016-01-26 Sony Corporation Facial image display apparatus, facial image display method, and facial image display program
US9852323B2 (en) 2005-08-12 2017-12-26 Sony Corporation Facial image display apparatus, facial image display method, and facial image display program

Similar Documents

Publication Publication Date Title
CN110688911B (zh) 视频处理方法、装置、系统、终端设备及存储介质
EP3438972B1 (en) Information processing system and method for generating speech
US20230316643A1 (en) Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal
US6766299B1 (en) Speech-controlled animation system
JP6019108B2 (ja) 文字に基づく映像生成
US7136818B1 (en) System and method of providing conversational visual prosody for talking heads
US7353177B2 (en) System and method of providing conversational visual prosody for talking heads
CN113454708A (zh) 语言学风格匹配代理
CN112099628A (zh) 基于人工智能的vr互动方法、装置、计算机设备及介质
KR102116309B1 (ko) 가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템
US20080259085A1 (en) Method for Animating an Image Using Speech Data
JP2023552854A (ja) ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム
JP4599606B2 (ja) 頭部動作自動生成のための頭部動作学習装置及び頭部動作合成装置並びにコンピュータプログラム
CN117275485B (zh) 一种音视频的生成方法、装置、设备及存储介质
JP2002215180A (ja) 通信装置
JP7253269B2 (ja) 顔画像処理システム、顔画像生成用情報提供装置、顔画像生成用情報提供方法および顔画像生成用情報提供プログラム
KR100849027B1 (ko) 음성 신호에 대한 립싱크 동기화 방법 및 장치
JPH10293860A (ja) 音声駆動を用いた人物画像表示方法およびその装置
JP2001357414A (ja) アニメーション通信方法およびシステム並びにそれに用いる端末装置
KR20200085433A (ko) 탈부착형 스피커를 포함한 음성합성 시스템 및 방법
JP6583193B2 (ja) 音声対話システムおよび音声対話方法
US20220383850A1 (en) System and method for posthumous dynamic speech synthesis using neural networks and deep learning
Neto et al. Design of a multimodal input interface for a dialogue system
KR20090081046A (ko) 인터넷을 이용한 언어 학습 시스템 및 방법
CN113870838A (zh) 一种语音合成方法、装置、设备及介质