JPH06162167A - 合成画像表示システム - Google Patents
合成画像表示システムInfo
- Publication number
- JPH06162167A JPH06162167A JP4335526A JP33552692A JPH06162167A JP H06162167 A JPH06162167 A JP H06162167A JP 4335526 A JP4335526 A JP 4335526A JP 33552692 A JP33552692 A JP 33552692A JP H06162167 A JPH06162167 A JP H06162167A
- Authority
- JP
- Japan
- Prior art keywords
- image
- synthetic
- voice
- display
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Digital Computer Display Output (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Processing Or Creating Images (AREA)
Abstract
もTV電話のように送信者が喋っている顔の合成動画像
と合成音声で相手側にメッセージを伝えることができる
AV(オーディオ・ビデオ)電子メール等に適用できる
合成画像表示システムに係り、特に、文章作成側で意図
した声質や顔表情等の印象を的確に表示側に反映させる
ことができる合成画像表示システムに関するものであ
り、表示側で文章情報に基づいて合成音声あるいは顔合
成画像を表示するにあたり、その文章の作成側の人が意
図した通りの表示が可能となるようにすることを目的と
する。 【構成】 任意の文章情報からそれに対応する合成音声
および合成音声に合わせて口が動く人物の顔の合成動画
像を生成する合成画像表示システムにおいて、文章情報
の作成側において顔の合成画像を作成する際に、表示側
における合成音声と合成動画像の生成態様を決めるため
の各種パラメータを合成画像データに付加して表示側に
渡すように構成されたことを特徴とする。
Description
タを送るだけであたかもTV電話のように送信者が喋っ
ている顔の合成動画像と合成音声で相手側にメッセージ
を伝えることができるAV(オーディオ・ビデオ)電子
メール等に適用できる合成画像表示システムに係り、特
に、文章等の作成側で意図した声質や顔表情等の印象を
表示側に伝えることができる合成画像表示システムに関
するものである。
対応した合成音声を自由に生成し発音する技術は、規則
音声合成と呼ばれ、これを実現するための規則音声合成
装置が既に作られている。この規則音声合成技術は人間
と機械とのインターフェースを向上させるために様々な
分野で応用されている。また、近年、音声の合成と同様
に、任意の文章情報からそれを喋ったときの口の動きを
含む人物の動画像をその文章情報を解析することで生成
する技術が開発されており、これを上述の音声合成技術
と組み合わせることによって、より自然なインターフェ
ースを実現することができる。
を電子メールに適用すると、受信側にメール送信者の顔
画像などのデータファイルを予め用意しておくことによ
り、従来では受信側の画面上に文章が表示されるだけで
あった電子メールに対して、メール送信者が喋っている
顔の動画像が現れて合成音声で読み上げるといった表現
豊かなメッセージを受信者に伝えることができる。
画像を合成し出力する音声・動画像出力装置の構成例を
図4に示す。図4において、1は文章(テキスト)情報
が入力される文章分解部であり、この文章分解部1は入
力された文章情報を解析して音声出力用の発音制御デー
タを生成し規則音声合成部2と音声/口形変換部3に出
力する。例えば、文章情報として「ただいま」の文章が
入力された場合、これを「T,A,D,A,I,M,
A」の母音と子音からなる音素データに分解して出力す
る。
音素データに基づいてその文章を読み上げる合成音声を
生成し出力する装置である。
ての音素データをその文章を発音する際の一連の口の動
きを表すための口形符号の系列に変換するための装置で
ある。口形符号としては例えば、A(母音のア)、I
(母音のイ)、U(母音のウ)、E(母音のエ)、O
(母音のオ)、S(子音)、C(閉じた口)の7種類が
あり、それぞれの口形符号に対応してそれらを発音する
際の口形の画像が予め用意される。例えば、文章情報と
して前述の「ただいま」の文章が入力された場合、その
文章の音素データ「TADAIMA」に基づいて、
「T」→口形符号S、「A」→口形符号A、「D」→
口形符号S、「I」→口形符号I、「M」→口形符号
C、「A」→口形符号A、をそれぞれ割り当てて、それ
らを口形符号の系列として画像表示制御部5に出力す
る。
リングされている。この合成画像データとしては、話者
の1フレーム分の肩上画像と、それを基に合成した前述
の7種類の口形符号に対応した7種類の口領域画像のデ
ータとを纏めて一つのファイルとしている。
音制御データに基づいて規則音声合成部2と全く同じア
ルゴリズムを用いて音声を合成する際の各音節が発音さ
れるまでの時間をそれぞれ計算する。つまり、入力され
た文章に対してそれが規則音声合成部2で音声合成され
て発音出力される際に、文章の先頭を起点にしてその文
章を構成する各音節の切れ目のタイミングをそれぞれ推
定してその結果を画像表示制御部5に出力する。
のタイミング信号に基づいて、各音節の発音タイミング
が到来したときにその該当する音節の口形符号に対応す
る口形画像が画像メモリ6から選択されて出力されるよ
う画像表示制御を行う。すなわち、規則音声合成部2で
発音される音声に対して画面に表示される話者の口の動
きが一致するよう、つまり合成音声と顔動画像との同期
がとれるように同期制御を行うものである。
合成する音声の声質、顔動画像の画面上での表示場所、
表示倍率等の各種パラメータをキーボード等を用いて入
力する部分であり、合成音声に関するパラメータは規則
音声合成部2に渡され、また顔動画像に関するパラメー
タは画像表示制御部5と画像メモリ6に渡される。
る。文章情報が入力されると、文章分解部1でその文章
情報が解析されて音素データがまとめて規則音声合成部
2に渡されて合成音声により発音出力される。この発音
動作に並行して、音素データが音声/口形変換部3で口
形符号の系列に変換される。また発音時間計算部4では
音素データから各音節の切れ目の時間が推定され、この
時間データが画像表示制御部5に渡される。画像表示制
御部5では各音節の発音タイミングに口形符号のタイミ
ングを合わせて、画像メモリ6上に展開された各口形符
号の画像のうちから音声/口形変換部3で求まった口形
符号に対応した顔動画像データがVRAMに転送される
ようにし、このVRAMを介して表示装置の画面上に話
者の顔動画像を表示する。これにより文章情報は、それ
を実際に発音した合成音声とその合成音声に口の動きの
タイミングがあった話者の顔動画像とによるメッセージ
として受信者に伝えられることになる。
来からある小型の音声合成ユニットを利用し、それ以外
の部分にはパーソナルコンピュータ等を用いることによ
り、小型で経済的なシステムとして実現することができ
る。
出力装置をパーソナルコンピュータ上で実現させる場
合、処理量削減のため、上述したように合成画像を予め
作成しておいてそれらの画像を入力された文章に応じて
切り換えて表示することが一般に行われている。これら
の装置において合成音声と顔動画像を生成するにあたっ
ては、声質、画面上での画像の表示場所、表示倍率など
のパラメータは、表示するシステムに初期値として予め
設定されたもの(パラメータ入力部7で予め入力された
もの)が使われる。
と顔動画像の生成態様を受信側で予め設定しておくもの
であるが、それら予め登録されてある顔画像の人物と声
質が例えばメッセージに対して釣り合っていないような
場合、それをみる人に不自然な感じを与えてしまうこと
になる。
場合などに代表されるように、文章情報と合成画像を作
った人とその文章情報を実際に音声と動画像で表示して
見る人とが異なる場合、文章情報と合成画像を作った人
が希望するような声質や画像の大きさで、受信側におい
て発音・画像表示されるとは限らず、この結果、送り側
の人の意図とは全く違う印象を受信側の人に与えてしま
う可能性がある。
ッセージを伝えるにあたっての声質や顔の容貌などから
表示側の人が受ける印象は表示側で予め設定したパラメ
ータによって決まってしまうことになり、情報の作成側
の人が意図した印象表現を表示側の人に的確に伝えるこ
とができなかった。
のであり、その目的とするところは、表示側で文章情報
に基づいて合成音声あるいは顔合成画像を表示するにあ
たり、その文章等の作成側の人が意図した通りの表示が
可能となるようにすることにある。
説明図である。本発明においては、一つの形態として、
任意の文章情報からそれに対応する合成音声および該合
成音声に合わせて口が動く人物の顔の合成動画像を生成
する合成画像表示システムにおいて、文章情報の作成側
において顔の合成画像を作成する際に、表示側における
合成音声と合成動画像の生成態様を決めるための各種パ
ラメータを合成画像に付加して表示側に渡すように構成
されたことを特徴とする合成画像表示システムが提供さ
れる。
合成動画像を表示する際の表示倍率、表示位置を含むパ
ラメータとすることができる。
受信した伝送データを合成動画像データ、文章情報、各
種パラメータに分離する伝送データ入力手段と、文章情
報に基づいて合成音声を生成し出力する音声合成手段
と、伝送データ入力手段で分離された合成動画像データ
をファイリングする画像メモリと、文章情報をその文章
情報を発声したときの一連の口形の動きを表す口形符号
の系列に変換する変換手段と、文章情報に基づいて該音
声合成手段から出力される合成音声の各音節の発音時間
を計算して各音声の切れ目のタイミングを推定する発音
時間計算手段と、発音時間計算手段で推定した各音節の
切れ目のタイミングで表示画像を該変換手段からの口形
符号に対応した口形画像に切り換える制御を行う表示制
御手段と、伝送データ入力手段で分離された各種パラメ
ータを対応する内部回路に送るパラメータ入力手段とを
備えた合成画像表示システムが提供される。
において、表示に必要な顔画像を合成した際、その同じ
データに表示側で合成した人が希望する合成画像の表示
倍率や表示位置、合成音声の声質、その他のパラメータ
を埋め込む。表示側では、システムの初期値としてその
画像データに埋め込まれた値を用いる。これにより、顔
画像を合成した人の意図した通りに表示システム側で合
成音声と合成画像を生成することができる。
テムにおいては、伝送データ入力手段で受信した伝送デ
ータを合成動画像データ、文章情報、各種パラメータに
分離し、文章分解手段で文章情報を解析して発音制御デ
ータを生成し、音声合成手段でこの発音制御データに基
づいて合成音声を生成し出力し、受信した合成動画像デ
ータを画像メモリにファイリングし、変換手段で発音制
御データを口形符号の系列に変換し、発音時間計算手段
で発音制御データに基づいて音声合成手段で発音される
各音節の発音時間をそれぞれ計算して各音節の切れ目の
タイミングを推定し、画像表示制御手段で各音節のタイ
ミング信号に合わせてその音節の口形画像を画像メモリ
から読み出すように制御し、受信した各種パラメータを
パラメータ入力手段で対応する内部回路に送って合成音
声と合成画像の生成態様を文章作成側の人が意図したも
のとなるようにする。
する。図2は本発明の一実施例としての合成画像表示シ
ステムによる音声・顔動画像出力装置が示される。図2
において、文章分解部1、規則音声合成部2、音声/口
形変換部3、発音時間計算部4、画像表示制御部5、画
像メモリ6は前述の従来例で説明したものと同じもので
ある。
られてきた伝送データには、本来の文章情報の他に、送
信側の人が受信側で合成され表示されることを希望する
顔画像と口形画像等の合成画像データ、さらにその人が
希望する画面上での表示倍率、表示位置、声質、その他
のパラメータが合成画像データに埋め込まれている。
タを伝送データに埋め込むための処理の概念が示され
る。受信側での表示を希望する顔画像の原画像に基づい
て顔モデルへのマッピングを行い、各口形のパラメータ
を用いて合成画像データを作成し、これに表示倍率、表
示位置、声質、その他の受け側に与える印象に係わるパ
ラメータを埋め込む。これとは別に文章情報を作成し、
双方を伝送データとして受信側に送る。この場合、パラ
メータが埋め込まれた合成画像データを一度送ってしま
えば、後は文章情報を繰り返し送るだけでよい。
力部8に入力され、ここで、文章情報、合成画像デー
タ、各種パラメータに分離され、文章情報は文章分解部
1に、合成画像データは画像メモリ6に、各種パラメー
タはパラメータ入力部7にそれぞれ送られる。
を受け取ると、この各種パラメータを調べて、音声合成
に関する声質等のパラメータは規則音声合成部2に、画
像の表示倍率、表示位置等の画像に関するパラメータは
画像表示制御部5と画像メモリ6にそれぞれ送る。
表示すべき顔画像とシステムの初期値として埋め込むパ
ラメータとして、送信側の人が希望した顔画像と、表示
倍率、表示位置、声質、その他のパラメータを用いるこ
とができる。よって送信側の人の意図通りの音声と画像
で受信側の表示システムにメッセージを表示させること
ができる。
が可能である。例えば、上述の実施例では口形として7
種類の画像を用いる場合について説明したが、もちろん
本発明はこれに限られるものではなく、より自然に近い
口の動きを合成するためにはこの口形の画像の種類をさ
らに増やしてもよい。また上述の実施例では表示側で合
成する顔画像の動き部分として口領域の動きを取り上げ
たが、これに限られるものではなく、例えば口の動きに
加えて、文章に合わせて目の動きなども変化させるよう
にすれば、より表情豊かなAVメッセージを受け側に送
ることができる。
ールに適用した場合について説明したが、本発明はこれ
に限られるものではなく、音声・顔動画像出力装置単体
に適用することも可能であるし、あるいは、例えば音声
認識技術によりリアルタイムに発声音声の音素の認識が
可能となれば、通常の電話をかけるだけで受信者側に話
し手の顔の表情も動画像で表示できるという擬似テレビ
電話等のサービスに適用することも可能である。
ば、受信側で文章情報に基づいて合成音声あるいは顔合
成画像を表示するにあたり、その文章の送り側の人が意
図した通りの表示が可能となる。
ムによる音声・動画像出力装置を示す図である。
明する図である。
Claims (3)
- 【請求項1】 任意の文章情報からそれに対応する合成
音声および該合成音声に合わせて口が動く人物の顔の合
成動画像を生成する合成画像表示システムにおいて、 文章情報の作成側において顔の合成画像を作成する際
に、表示側における合成音声と合成動画像の生成態様を
決めるための各種パラメータを該合成画像に付加して表
示側に渡すように構成されたことを特徴とする合成画像
表示システム。 - 【請求項2】 該各種パラメータは合成音声の声質、合
成動画像を表示する際の表示倍率、表示位置を含むパラ
メータである請求項1記載の合成画像表示システム。 - 【請求項3】 受信した伝送データを合成動画像デー
タ、文章情報、各種パラメータに分離する伝送データ入
力手段と、 該文章情報に基づいて合成音声を生成し出力する音声合
成手段と、 該伝送データ入力手段で分離された合成動画像データを
ファイリングする画像メモリと、 該文章情報をその文章情報を発声したときの一連の口形
の動きを表す口形符号の系列に変換する変換手段と、 該文章情報に基づいて該音声合成手段から出力される合
成音声の各音節の発音時間を計算して各音声の切れ目の
タイミングを推定する発音時間計算手段と、 該発音時間計算手段で推定した各音節の切れ目のタイミ
ングで表示画像を該変換手段からの口形符号に対応した
口形画像に切り換える制御を行う表示制御手段と、 該伝送データ入力手段で分離された各種パラメータを対
応する内部回路に送るパラメータ入力手段とを備えた合
成画像表示システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33552692A JP3299797B2 (ja) | 1992-11-20 | 1992-11-20 | 合成画像表示システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33552692A JP3299797B2 (ja) | 1992-11-20 | 1992-11-20 | 合成画像表示システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06162167A true JPH06162167A (ja) | 1994-06-10 |
JP3299797B2 JP3299797B2 (ja) | 2002-07-08 |
Family
ID=18289562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP33552692A Expired - Fee Related JP3299797B2 (ja) | 1992-11-20 | 1992-11-20 | 合成画像表示システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3299797B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11242751A (ja) * | 1998-02-24 | 1999-09-07 | Canon Inc | アニメーション制御装置及び方法及び文読み上げ装置 |
JP2001086497A (ja) * | 1999-09-10 | 2001-03-30 | Mega Chips Corp | 情報通信システム |
JP2003259325A (ja) * | 2002-02-26 | 2003-09-12 | Yazaki Corp | リング会議システムおよび端末装置 |
JP2004537785A (ja) * | 2001-06-06 | 2004-12-16 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 対応するプロファイルの合成に対する使用許可テストを有するテキスト・ディスクリプション、ジェスチャ・ディスクリプション、顔の表情ディスクリプション、及び/又は、挙動ディスクリプションを処理する方法 |
JP2005115465A (ja) * | 2003-10-03 | 2005-04-28 | Mega Chips Corp | 3d文字メールシステム |
WO2005086010A1 (ja) * | 2004-03-05 | 2005-09-15 | Nec Corporation | メッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ伝達プログラム |
JP2010528372A (ja) * | 2007-05-24 | 2010-08-19 | マイクロソフト コーポレーション | パーソナリティベース装置 |
-
1992
- 1992-11-20 JP JP33552692A patent/JP3299797B2/ja not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11242751A (ja) * | 1998-02-24 | 1999-09-07 | Canon Inc | アニメーション制御装置及び方法及び文読み上げ装置 |
JP2001086497A (ja) * | 1999-09-10 | 2001-03-30 | Mega Chips Corp | 情報通信システム |
JP2004537785A (ja) * | 2001-06-06 | 2004-12-16 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 対応するプロファイルの合成に対する使用許可テストを有するテキスト・ディスクリプション、ジェスチャ・ディスクリプション、顔の表情ディスクリプション、及び/又は、挙動ディスクリプションを処理する方法 |
JP4714410B2 (ja) * | 2001-06-06 | 2011-06-29 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 対応するプロファイルの合成に対する使用許可テストを有するテキスト・ディスクリプション、ジェスチャ・ディスクリプション、顔の表情ディスクリプション、及び/又は、挙動ディスクリプションを処理する方法 |
JP2003259325A (ja) * | 2002-02-26 | 2003-09-12 | Yazaki Corp | リング会議システムおよび端末装置 |
JP2005115465A (ja) * | 2003-10-03 | 2005-04-28 | Mega Chips Corp | 3d文字メールシステム |
JP4630531B2 (ja) * | 2003-10-03 | 2011-02-09 | 株式会社メガチップス | 3d文字メールシステム |
US9129261B2 (en) | 2003-10-03 | 2015-09-08 | Megachips Corporation | 3D character mail system |
WO2005086010A1 (ja) * | 2004-03-05 | 2005-09-15 | Nec Corporation | メッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ伝達プログラム |
JP2010528372A (ja) * | 2007-05-24 | 2010-08-19 | マイクロソフト コーポレーション | パーソナリティベース装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3299797B2 (ja) | 2002-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7676372B1 (en) | Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech | |
KR102035596B1 (ko) | 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법 | |
US5826234A (en) | Device and method for dubbing an audio-visual presentation which generates synthesized speech and corresponding facial movements | |
KR102116309B1 (ko) | 가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템 | |
JP2518683B2 (ja) | 画像合成方法及びその装置 | |
JPH09138767A (ja) | 感情表現の通信装置 | |
JP3670180B2 (ja) | 補聴器 | |
JP2003530654A (ja) | キャラクタのアニメ化 | |
KR101089184B1 (ko) | 캐릭터의 발화와 감정표현 제공 시스템 및 방법 | |
KR102116315B1 (ko) | 캐릭터의 음성과 모션 동기화 시스템 | |
CN115956269A (zh) | 语音转换装置、语音转换方法、程序及记录介质 | |
JPH06162167A (ja) | 合成画像表示システム | |
Karpov et al. | Multimodal synthesizer for Russian and Czech sign languages and audio-visual speech | |
KR20060133190A (ko) | 수화 인식과 수화 발생을 구현한 양방향 수화 전화 시스템 | |
JPH10293860A (ja) | 音声駆動を用いた人物画像表示方法およびその装置 | |
JP3755503B2 (ja) | アニメーション制作システム | |
JP2003058908A (ja) | 顔画像制御方法および装置、コンピュータプログラム、および記録媒体 | |
JP4011844B2 (ja) | 翻訳装置、翻訳方法および媒体 | |
JPH06162168A (ja) | 合成画像表示システム | |
JP2003296753A (ja) | 聴覚障害者用対話システム | |
JP3298076B2 (ja) | 画像作成装置 | |
GB2346526A (en) | System for providing virtual actors using neural network and text-to-linguistics | |
GB2328849A (en) | System for animating virtual actors using linguistic representations of speech for visual realism. | |
Chaloupka et al. | Czech Artificial Computerized Talking Head George | |
JPH01190187A (ja) | 画像伝送方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20020409 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080419 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090419 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090419 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100419 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110419 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |