JPH06162167A

JPH06162167A - 合成画像表示システム

Info

Publication number: JPH06162167A
Application number: JP4335526A
Authority: JP
Inventors: Akira Nakagawa; 章中川; Eiji Morimatsu; 映史森松; Kiichi Matsuda; 喜一松田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1992-11-20
Filing date: 1992-11-20
Publication date: 1994-06-10
Anticipated expiration: 2017-07-08
Also published as: JP3299797B2

Abstract

(57)【要約】【目的】文章（テキスト）データを送るだけであたか
もＴＶ電話のように送信者が喋っている顔の合成動画像
と合成音声で相手側にメッセージを伝えることができる
ＡＶ（オーディオ・ビデオ）電子メール等に適用できる
合成画像表示システムに係り、特に、文章作成側で意図
した声質や顔表情等の印象を的確に表示側に反映させる
ことができる合成画像表示システムに関するものであ
り、表示側で文章情報に基づいて合成音声あるいは顔合
成画像を表示するにあたり、その文章の作成側の人が意
図した通りの表示が可能となるようにすることを目的と
する。【構成】任意の文章情報からそれに対応する合成音声
および合成音声に合わせて口が動く人物の顔の合成動画
像を生成する合成画像表示システムにおいて、文章情報
の作成側において顔の合成画像を作成する際に、表示側
における合成音声と合成動画像の生成態様を決めるため
の各種パラメータを合成画像データに付加して表示側に
渡すように構成されたことを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文章（テキスト）デー
タを送るだけであたかもＴＶ電話のように送信者が喋っ
ている顔の合成動画像と合成音声で相手側にメッセージ
を伝えることができるＡＶ（オーディオ・ビデオ）電子
メール等に適用できる合成画像表示システムに係り、特
に、文章等の作成側で意図した声質や顔表情等の印象を
表示側に伝えることができる合成画像表示システムに関
するものである。

【０００２】

【従来の技術】任意の文章（テキスト）情報からそれに
対応した合成音声を自由に生成し発音する技術は、規則
音声合成と呼ばれ、これを実現するための規則音声合成
装置が既に作られている。この規則音声合成技術は人間
と機械とのインターフェースを向上させるために様々な
分野で応用されている。また、近年、音声の合成と同様
に、任意の文章情報からそれを喋ったときの口の動きを
含む人物の動画像をその文章情報を解析することで生成
する技術が開発されており、これを上述の音声合成技術
と組み合わせることによって、より自然なインターフェ
ースを実現することができる。

【０００３】例えば、かかる音声と顔動画像の合成技術
を電子メールに適用すると、受信側にメール送信者の顔
画像などのデータファイルを予め用意しておくことによ
り、従来では受信側の画面上に文章が表示されるだけで
あった電子メールに対して、メール送信者が喋っている
顔の動画像が現れて合成音声で読み上げるといった表現
豊かなメッセージを受信者に伝えることができる。

【０００４】このような文章に基づいて音声および顔動
画像を合成し出力する音声・動画像出力装置の構成例を
図４に示す。図４において、１は文章（テキスト）情報
が入力される文章分解部であり、この文章分解部１は入
力された文章情報を解析して音声出力用の発音制御デー
タを生成し規則音声合成部２と音声／口形変換部３に出
力する。例えば、文章情報として「ただいま」の文章が
入力された場合、これを「Ｔ，Ａ，Ｄ，Ａ，Ｉ，Ｍ，
Ａ」の母音と子音からなる音素データに分解して出力す
る。

【０００５】規則音声合成部２は任意の文章についての
音素データに基づいてその文章を読み上げる合成音声を
生成し出力する装置である。

【０００６】音声／口形変換部３は、任意の文章につい
ての音素データをその文章を発音する際の一連の口の動
きを表すための口形符号の系列に変換するための装置で
ある。口形符号としては例えば、Ａ（母音のア）、Ｉ
（母音のイ）、Ｕ（母音のウ）、Ｅ（母音のエ）、Ｏ
（母音のオ）、Ｓ（子音）、Ｃ（閉じた口）の７種類が
あり、それぞれの口形符号に対応してそれらを発音する
際の口形の画像が予め用意される。例えば、文章情報と
して前述の「ただいま」の文章が入力された場合、その
文章の音素データ「ＴＡＤＡＩＭＡ」に基づいて、
「Ｔ」→口形符号Ｓ、「Ａ」→口形符号Ａ、「Ｄ」→
口形符号Ｓ、「Ｉ」→口形符号Ｉ、「Ｍ」→口形符号
Ｃ、「Ａ」→口形符号Ａ、をそれぞれ割り当てて、それ
らを口形符号の系列として画像表示制御部５に出力す
る。

【０００７】画像メモリ６には合成画像データがファイ
リングされている。この合成画像データとしては、話者
の１フレーム分の肩上画像と、それを基に合成した前述
の７種類の口形符号に対応した７種類の口領域画像のデ
ータとを纏めて一つのファイルとしている。

【０００８】発音時間計算部４は文章分解部１からの発
音制御データに基づいて規則音声合成部２と全く同じア
ルゴリズムを用いて音声を合成する際の各音節が発音さ
れるまでの時間をそれぞれ計算する。つまり、入力され
た文章に対してそれが規則音声合成部２で音声合成され
て発音出力される際に、文章の先頭を起点にしてその文
章を構成する各音節の切れ目のタイミングをそれぞれ推
定してその結果を画像表示制御部５に出力する。

【０００９】画像表示制御部５は発音時間計算部４から
のタイミング信号に基づいて、各音節の発音タイミング
が到来したときにその該当する音節の口形符号に対応す
る口形画像が画像メモリ６から選択されて出力されるよ
う画像表示制御を行う。すなわち、規則音声合成部２で
発音される音声に対して画面に表示される話者の口の動
きが一致するよう、つまり合成音声と顔動画像との同期
がとれるように同期制御を行うものである。

【００１０】パラメータ入力部７は規則音声合成部２で
合成する音声の声質、顔動画像の画面上での表示場所、
表示倍率等の各種パラメータをキーボード等を用いて入
力する部分であり、合成音声に関するパラメータは規則
音声合成部２に渡され、また顔動画像に関するパラメー
タは画像表示制御部５と画像メモリ６に渡される。

【００１１】このように構成した装置の動作を説明す
る。文章情報が入力されると、文章分解部１でその文章
情報が解析されて音素データがまとめて規則音声合成部
２に渡されて合成音声により発音出力される。この発音
動作に並行して、音素データが音声／口形変換部３で口
形符号の系列に変換される。また発音時間計算部４では
音素データから各音節の切れ目の時間が推定され、この
時間データが画像表示制御部５に渡される。画像表示制
御部５では各音節の発音タイミングに口形符号のタイミ
ングを合わせて、画像メモリ６上に展開された各口形符
号の画像のうちから音声／口形変換部３で求まった口形
符号に対応した顔動画像データがＶＲＡＭに転送される
ようにし、このＶＲＡＭを介して表示装置の画面上に話
者の顔動画像を表示する。これにより文章情報は、それ
を実際に発音した合成音声とその合成音声に口の動きの
タイミングがあった話者の顔動画像とによるメッセージ
として受信者に伝えられることになる。

【００１２】この図４の装置は、規則音声合成部２に従
来からある小型の音声合成ユニットを利用し、それ以外
の部分にはパーソナルコンピュータ等を用いることによ
り、小型で経済的なシステムとして実現することができ
る。

【００１３】

【発明が解決しようとする課題】かかる音声・顔動画像
出力装置をパーソナルコンピュータ上で実現させる場
合、処理量削減のため、上述したように合成画像を予め
作成しておいてそれらの画像を入力された文章に応じて
切り換えて表示することが一般に行われている。これら
の装置において合成音声と顔動画像を生成するにあたっ
ては、声質、画面上での画像の表示場所、表示倍率など
のパラメータは、表示するシステムに初期値として予め
設定されたもの（パラメータ入力部７で予め入力された
もの）が使われる。

【００１４】このように従来の装置では合成音声の声質
と顔動画像の生成態様を受信側で予め設定しておくもの
であるが、それら予め登録されてある顔画像の人物と声
質が例えばメッセージに対して釣り合っていないような
場合、それをみる人に不自然な感じを与えてしまうこと
になる。

【００１５】また、この装置を電子メールなどに用いた
場合などに代表されるように、文章情報と合成画像を作
った人とその文章情報を実際に音声と動画像で表示して
見る人とが異なる場合、文章情報と合成画像を作った人
が希望するような声質や画像の大きさで、受信側におい
て発音・画像表示されるとは限らず、この結果、送り側
の人の意図とは全く違う印象を受信側の人に与えてしま
う可能性がある。

【００１６】つまり従来の装置では、音声と動画像でメ
ッセージを伝えるにあたっての声質や顔の容貌などから
表示側の人が受ける印象は表示側で予め設定したパラメ
ータによって決まってしまうことになり、情報の作成側
の人が意図した印象表現を表示側の人に的確に伝えるこ
とができなかった。

【００１７】本発明はかかる問題点に鑑みてなされたも
のであり、その目的とするところは、表示側で文章情報
に基づいて合成音声あるいは顔合成画像を表示するにあ
たり、その文章等の作成側の人が意図した通りの表示が
可能となるようにすることにある。

【００１８】

【課題を解決するための手段】図１は本発明に係る原理
説明図である。本発明においては、一つの形態として、
任意の文章情報からそれに対応する合成音声および該合
成音声に合わせて口が動く人物の顔の合成動画像を生成
する合成画像表示システムにおいて、文章情報の作成側
において顔の合成画像を作成する際に、表示側における
合成音声と合成動画像の生成態様を決めるための各種パ
ラメータを合成画像に付加して表示側に渡すように構成
されたことを特徴とする合成画像表示システムが提供さ
れる。

【００１９】上記の各種パラメータは合成音声の声質、
合成動画像を表示する際の表示倍率、表示位置を含むパ
ラメータとすることができる。

【００２０】また本発明においては、他の形態として、
受信した伝送データを合成動画像データ、文章情報、各
種パラメータに分離する伝送データ入力手段と、文章情
報に基づいて合成音声を生成し出力する音声合成手段
と、伝送データ入力手段で分離された合成動画像データ
をファイリングする画像メモリと、文章情報をその文章
情報を発声したときの一連の口形の動きを表す口形符号
の系列に変換する変換手段と、文章情報に基づいて該音
声合成手段から出力される合成音声の各音節の発音時間
を計算して各音声の切れ目のタイミングを推定する発音
時間計算手段と、発音時間計算手段で推定した各音節の
切れ目のタイミングで表示画像を該変換手段からの口形
符号に対応した口形画像に切り換える制御を行う表示制
御手段と、伝送データ入力手段で分離された各種パラメ
ータを対応する内部回路に送るパラメータ入力手段とを
備えた合成画像表示システムが提供される。

【００２１】

【作用】本発明の合成画像表示方式においては、送信側
において、表示に必要な顔画像を合成した際、その同じ
データに表示側で合成した人が希望する合成画像の表示
倍率や表示位置、合成音声の声質、その他のパラメータ
を埋め込む。表示側では、システムの初期値としてその
画像データに埋め込まれた値を用いる。これにより、顔
画像を合成した人の意図した通りに表示システム側で合
成音声と合成画像を生成することができる。

【００２２】また本発明の他の形態の合成画像表示シス
テムにおいては、伝送データ入力手段で受信した伝送デ
ータを合成動画像データ、文章情報、各種パラメータに
分離し、文章分解手段で文章情報を解析して発音制御デ
ータを生成し、音声合成手段でこの発音制御データに基
づいて合成音声を生成し出力し、受信した合成動画像デ
ータを画像メモリにファイリングし、変換手段で発音制
御データを口形符号の系列に変換し、発音時間計算手段
で発音制御データに基づいて音声合成手段で発音される
各音節の発音時間をそれぞれ計算して各音節の切れ目の
タイミングを推定し、画像表示制御手段で各音節のタイ
ミング信号に合わせてその音節の口形画像を画像メモリ
から読み出すように制御し、受信した各種パラメータを
パラメータ入力手段で対応する内部回路に送って合成音
声と合成画像の生成態様を文章作成側の人が意図したも
のとなるようにする。

【００２３】

【実施例】以下、図面を参照して本発明の実施例を説明
する。図２は本発明の一実施例としての合成画像表示シ
ステムによる音声・顔動画像出力装置が示される。図２
において、文章分解部１、規則音声合成部２、音声／口
形変換部３、発音時間計算部４、画像表示制御部５、画
像メモリ６は前述の従来例で説明したものと同じもので
ある。

【００２４】従来装置との相違点として、送信側から送
られてきた伝送データには、本来の文章情報の他に、送
信側の人が受信側で合成され表示されることを希望する
顔画像と口形画像等の合成画像データ、さらにその人が
希望する画面上での表示倍率、表示位置、声質、その他
のパラメータが合成画像データに埋め込まれている。

【００２５】図３には送信側においてこれらのパラメー
タを伝送データに埋め込むための処理の概念が示され
る。受信側での表示を希望する顔画像の原画像に基づい
て顔モデルへのマッピングを行い、各口形のパラメータ
を用いて合成画像データを作成し、これに表示倍率、表
示位置、声質、その他の受け側に与える印象に係わるパ
ラメータを埋め込む。これとは別に文章情報を作成し、
双方を伝送データとして受信側に送る。この場合、パラ
メータが埋め込まれた合成画像データを一度送ってしま
えば、後は文章情報を繰り返し送るだけでよい。

【００２６】受信側ではこの伝送データは伝送データ入
力部８に入力され、ここで、文章情報、合成画像デー
タ、各種パラメータに分離され、文章情報は文章分解部
１に、合成画像データは画像メモリ６に、各種パラメー
タはパラメータ入力部７にそれぞれ送られる。

【００２７】パラメータ入力部７はこの各種パラメータ
を受け取ると、この各種パラメータを調べて、音声合成
に関する声質等のパラメータは規則音声合成部２に、画
像の表示倍率、表示位置等の画像に関するパラメータは
画像表示制御部５と画像メモリ６にそれぞれ送る。

【００２８】このように構成することで、受信側では、
表示すべき顔画像とシステムの初期値として埋め込むパ
ラメータとして、送信側の人が希望した顔画像と、表示
倍率、表示位置、声質、その他のパラメータを用いるこ
とができる。よって送信側の人の意図通りの音声と画像
で受信側の表示システムにメッセージを表示させること
ができる。

【００２９】本発明の実施にあたっては種々の変形形態
が可能である。例えば、上述の実施例では口形として７
種類の画像を用いる場合について説明したが、もちろん
本発明はこれに限られるものではなく、より自然に近い
口の動きを合成するためにはこの口形の画像の種類をさ
らに増やしてもよい。また上述の実施例では表示側で合
成する顔画像の動き部分として口領域の動きを取り上げ
たが、これに限られるものではなく、例えば口の動きに
加えて、文章に合わせて目の動きなども変化させるよう
にすれば、より表情豊かなＡＶメッセージを受け側に送
ることができる。

【００３０】また上述の実施例では本発明をＡＶ電子メ
ールに適用した場合について説明したが、本発明はこれ
に限られるものではなく、音声・顔動画像出力装置単体
に適用することも可能であるし、あるいは、例えば音声
認識技術によりリアルタイムに発声音声の音素の認識が
可能となれば、通常の電話をかけるだけで受信者側に話
し手の顔の表情も動画像で表示できるという擬似テレビ
電話等のサービスに適用することも可能である。

【００３１】

【発明の効果】以上に説明したように、本発明によれ
ば、受信側で文章情報に基づいて合成音声あるいは顔合
成画像を表示するにあたり、その文章の送り側の人が意
図した通りの表示が可能となる。

【図面の簡単な説明】

【図１】本発明に係る原理説明図である。

【図２】本発明の一実施例としての合成画像表示システ
ムによる音声・動画像出力装置を示す図である。

【図３】実施例システムによる送り側での処理概念を説
明する図である。

【図４】従来の音声・動画像出力装置を示す図である。

【符号の説明】１文章分解部２規則音声合成部３音声／口形変換部４発音時間計算部５画像表示制御部６画像メモリ７パラメータ入力部８伝送データ入力部

Claims

【特許請求の範囲】

【請求項１】任意の文章情報からそれに対応する合成
音声および該合成音声に合わせて口が動く人物の顔の合
成動画像を生成する合成画像表示システムにおいて、文章情報の作成側において顔の合成画像を作成する際
に、表示側における合成音声と合成動画像の生成態様を
決めるための各種パラメータを該合成画像に付加して表
示側に渡すように構成されたことを特徴とする合成画像
表示システム。
【請求項２】該各種パラメータは合成音声の声質、合
成動画像を表示する際の表示倍率、表示位置を含むパラ
メータである請求項１記載の合成画像表示システム。
【請求項３】受信した伝送データを合成動画像デー
タ、文章情報、各種パラメータに分離する伝送データ入
力手段と、該文章情報に基づいて合成音声を生成し出力する音声合
成手段と、該伝送データ入力手段で分離された合成動画像データを
ファイリングする画像メモリと、該文章情報をその文章情報を発声したときの一連の口形
の動きを表す口形符号の系列に変換する変換手段と、該文章情報に基づいて該音声合成手段から出力される合
成音声の各音節の発音時間を計算して各音声の切れ目の
タイミングを推定する発音時間計算手段と、該発音時間計算手段で推定した各音節の切れ目のタイミ
ングで表示画像を該変換手段からの口形符号に対応した
口形画像に切り換える制御を行う表示制御手段と、該伝送データ入力手段で分離された各種パラメータを対
応する内部回路に送るパラメータ入力手段とを備えた合
成画像表示システム。