JP2003216173A

JP2003216173A - 合成音声及び映像の同期制御方法、装置及びプログラム

Info

Publication number: JP2003216173A
Application number: JP2002019061A
Authority: JP
Inventors: Takehiko Kagoshima; 岳彦籠嶋; Motoo Kawabata; 基夫川端; Takayoshi Sugasawa; 孝佳菅澤; Yamato Sasaki; 大和佐々木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-01-28
Filing date: 2002-01-28
Publication date: 2003-07-30

Abstract

(57)【要約】【課題】合成音声とＣＧのような映像を互いに同期させ
る制御を行う合成音声及び映像の同期制御装置を提供す
る。【解決手段】テキスト情報及び映像の基本動作を指定す
るための動作指定情報を含む入力データ１０１に基づき
合成音声の韻律を制御する韻律データ１０３を生成する
テキスト解析部１１及び韻律制御部１２と、韻律データ
１０３に基づき音声合成を行って合成音声信号１０５を
生成する音声信号生成部１３と、入力データ１０１及び
韻律データ１０３に基づいて入力データ１０１中の動作
指定情報及びこれにより指定される動作に関係付ける時
刻情報を含む映像制御データ１０６を生成する映像制御
データ生成部１４を有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキスト音声合成
を用いて生成される合成音声及び映像を互いに同期する
ように制御する映像及び音声の同期制御方法、装置及び
プログラムに関する。

【０００２】

【従来の技術】テキスト音声合成は、任意の文章から人
工的に文章に対応した音声信号を作り出す技術である。
通常、テキスト音声合成システムは、言語処理部、制御
パラメータ生成部及び音声信号生成部の３つの要素から
構成される。入力されたテキストは、まず言語処理部に
おいて形態素解析や構文解析などが行われる。次に、制
御パラメータ生成部においてアクセントやイントネーシ
ョンの処理が行われ、音韻記号列、ピッチパターン及び
音韻継続時間長などの情報が出力される。最後に、音声
信号生成部で音声信号が合成される。

【０００３】近年、合成音声をアニメーションキャラク
タの声として使うことが試みられている。合成音声とア
ニメーションのような映像を組み合わせて使う場合、合
成音声と映像に時間的なずれが生じないように両者の同
期がとられる。例えば、合成音声に同期させてアニメー
ションキャラクタの口を動かすリップシンクと呼ばれる
技術が良く知られている。

【０００４】一方、特開２０００−１２３１９１には、
口の形状だけでなく、キャラクタの表情などを合成音声
と同期して制御する技術が開示されている。この技術で
は、音声合成のためのテキスト列中にアニメーションを
制御するためのタグを埋め込んだデータを入力する。こ
の入力データの文字列を先頭から順次取り込んで、テキ
ストであれば音声合成を行って音声を出力し、タグであ
ればアニメーションの表示を変化させることによって、
合成音声とアニメーションの同期をとる。この技術を用
いれば、音声と同期してキャラクタの表情などを変化さ
せることが可能である。

【０００５】

【発明が解決しようとする課題】近年、ＣＧ（コンピュ
ータグラフィックス）技術の進歩と、計算機の高速化に
伴い、ＣＧキャラクタ（ＣＧ上に登場する各種のキャラ
クタ）の動作などをリアルタイムで制御することが可能
となってきている。合成音声と同期してＣＧキャラクタ
の動作を制御する場合には、ＣＧの動作を生成するため
に、動作の開始及び終了時刻の情報が必要である。例え
ば、ＣＧキャラクタが喋りながら歩く映像を作るために
は、音声と同期した、歩き始めの時刻と位置及び歩き終
わる時刻と位置などの情報が必要である。

【０００６】これに対して、特開２０００−１２３１９
１に開示された技術では、タグの位置によってあらかじ
め用意された数種類のアニメーションを切り替えるよう
な表示の制御しか行うことができないため、ＣＧキャラ
クタの動作を制御することは難しいという問題がある。

【０００７】本発明は、合成音声とＣＧのような映像を
互いに同期させる制御を行う合成音声及び映像の同期制
御方法、装置及びプログラムを提供することを目的とす
る。

【０００８】

【課題を解決するための手段】上記の課題を解決するた
め、本発明は合成音声及び映像を互いに同期するように
制御するために、テキスト情報及び映像の基本動作を指
定するための動作指定情報を含む入力データに基づいて
合成音声の韻律を制御する韻律データを生成され、この
韻律データに基づいて音声合成が行われ、合成音声信号
が生成される。一方、入力データ及び韻律データに基づ
いて動作指定情報及び該動作指定情報により指定される
基本動作に関係付ける時刻情報を含む、映像を制御する
ための映像制御データが生成される。

【０００９】本発明の態様では、動作指定情報に従って
韻律データを制御してもよい。具体的には、動作指定情
報に従って韻律データのポーズの有無及び長さを制御し
てもよい。

【００１０】映像制御データとしては、ＣＧキャラクタ
のリップシンクのための音韻時刻データを含む映像制御
データを生成してもよい。また、ＣＧキャラクタの動
作、ＣＧの視点及び表示する字幕のうちの少なくとも一
つの情報を含むデータを映像制御データとして生成して
もよい。

【００１１】さらに、本発明によると合成音声及び映像
を同期制御する処理をコンピュータに実行させるための
プログラムであって、テキスト情報及び映像の基本動作
を指定するための動作指定情報を含む入力データに基づ
いて合成音声の韻律を制御する韻律データを生成する処
理と、韻律データに基づいて合成音声データを生成する
処理と、入力データ及び韻律データに基づいて、動作指
定情報及び該動作指定情報により指定される動作に関係
付ける時刻情報を含む、映像を制御するための映像制御
データを生成する処理とをコンピュータに実行させるた
めのプログラムが提供される。

【００１２】

【発明の実施の形態】以下、図面を参照して本発明の一
実施形態を説明する。図１に、本発明の一実施形態に係
る合成音声及び映像の同期制御装置（以下、合成音声・
映像同期制御装置という）の構成を示す。合成音声・映
像同期制御装置１０は、テキスト解析部１１、韻律制御
部１２、音声信号生成部１３及び映像制御データ生成部
１４を有する。

【００１３】合成音声・映像同期制御装置１０には、入
力データ１０１としてテキスト情報と映像の動作指定情
報を含むデータが入力される。テキスト情報はテキスト
音声合成に供される情報であって、動作指定情報は映像
の基本動作、具体的には例えば時刻に関する情報を除く
映像の動きを指定するための情報である。入力データ１
０１は、まずテキスト解析部１１に入力され、入力デー
タ１０１中のテキスト情報が解析される。テキスト解析
部１１では、例えば漢字の読み、文節の区切り及びアク
セント位置が解析され、解析結果として言語情報１０２
が出力される。

【００１４】図２は、図１の合成音声・映像同期制御装
置１０における入出力データ及び中間データの例を示し
ている。図２（ａ）に示される入力データ１０１の例で
は、「歩くことも出来ます。」、「てく、てく、てく」
及び「ほらね。」がテキスト情報であり、＜＞で挟まれ
た部分（以下、タグと呼ぶ）、すなわち、「＜歩く，
（−１，１，０）＞」及び「＜／歩く，（１，１，０）
＞」が動作指定情報に相当する。言語情報１０２では、
図２（ｂ）に示されるようにテキスト解析結果が記号化
され、漢字の読みは仮名で、アクセント位置は「＊」
で、文節の区切りは「＿」でそれぞれ表現される。

【００１５】言語情報１０２は、韻律制御部１２及び映
像制御データ生成部１４に入力される。韻律制御部１２
では、言語情報１０２のうちのテキスト解析結果部分が
抽出され、合成音声の声の高さの変化パターンを表すピ
ッチパターン１０３と、発声する音韻と時刻の情報を含
む音韻時刻データ１０４が生成される。音韻時刻データ
１０４は、発声する音韻の順番を表すと共に、その音韻
の発声が開始される時刻（秒）を表現している。図２
（ｃ）に示される音韻時刻データ１０４の例では、音節
単位の開始時刻が表されている。ただし、「ＰＡＵ」は
合成音声中のポーズ、すなわち無音区間を表している。

【００１６】韻律制御部１２によって生成されるピッチ
パターン１０３及び音韻時刻データ１０４は、音声信号
生成部１３に入力される。音声信号生成部１３では、音
韻時刻データ１０４で指定される音韻の並びとその時
刻、及びピッチパターン１０３で指定される声の高さの
変化パターンに従って、合成音声信号１０５が生成され
る。合成音声信号１０５は音声出力部１５に供給され、
音声出力部１５に含まれるスピーカを介して音声（合成
音声）が出力される。

【００１７】韻律制御部１２から出力される音韻時刻デ
ータ１０４は、映像制御データ生成部１４にも入力され
る。映像制御データ生成部１４では、言語情報１０２と
音韻時刻データ１０４が参照されて映像制御データ１０
６が生成される。

【００１８】映像制御データ１０６は、映像生成部１６
に供給される。映像生成部１６は詳細は後述するように
例えば３次元ＣＧシステムであり、映像制御データ１０
６に従って映像データを生成する。生成された映像デー
タは、ＣＲＴディスプレイや液晶ディスプレイその他の
映像出力部１７に出力され、映像として表示出力され
る。

【００１９】映像制御データ１０６は、言語情報１０２
に含まれるタグとその時刻の情報を表現している。すな
わち、映像制御データ１０６は入力データ１０１中の動
作指定情報であるタグ及びタグにより指定される基本動
作に関係付ける時刻情報を含むデータである。タグの時
刻は、その前後の音韻の発声時刻から決定される。図２
（ｄ）に示される映像制御データ１０６の例では、例え
ば第１のタグ「＜歩く，（−１，１，０）＞」について
は、直前の音韻「す」が４．００秒に終了し、直後の音
韻「て」が４．４０秒に開始されるため、その中点であ
る４．２秒がタグの時刻となっている。

【００２０】本実施形態に係る合成音声・映像同期制御
装置１０の処理は、パーソナルコンピュータその他のコ
ンピュータを用いてソフトウェアにより実行することが
可能である。そこで、以下に図３に示すフローチャート
を用いて合成音声・映像同期制御装置１０の処理を含む
図１に示すシステムの一連の処理手順について説明す
る。

【００２１】まず、テキスト情報と映像の動作指定情報
を含む入力データ１０１中のテキスト情報を解析し、解
析結果として言語情報１０２を生成する（ステップＳ
１）。次に、言語情報１０２のうちのテキスト解析結果
部分を抽出してピッチパターン１０３と音韻時刻データ
１０４を生成する処理である韻律制御を行う（ステップ
Ｓ２）。こうして生成されるピッチパターン１０３及び
音韻時刻データ１０４から合成音声信号１０５を生成す
る（ステップＳ３）。次に、ステップＳ１で生成された
言語情報１０２とステップＳ３で生成された音韻時刻デ
ータ１０４を参照して映像制御データ１０６を生成する
（ステップＳ４）。

【００２２】一方、合成音声・映像同期制御装置１０の
処理として、ステップＳ４で生成された映像制御データ
１０６から例えば３次元ＣＧ処理によって映像データを
生成する（ステップＳ５）。そして、ステップＳ５で生
成された映像データとステップＳ３で生成された合成音
声信号１０５により、互いに同期した映像及び音声を出
力する（ステップＳ６）。

【００２３】次に、映像生成部１６が３次元ＣＧシステ
ムの場合を例にとり、図４乃至図８を参照して本実施形
態に基づく音声及び映像の制御動作例について説明す
る。まず、図４に示す制御動作例について述べる。図４
（ａ）は図２（ａ）に示した入力データ１０１に対応す
る合成音声を示し、図４（ｂ）（ｃ）（ｄ）は図４
（ａ）の合成音声に同期したＣＧキャラクタの動きを示
している。

【００２４】図２の例における第１のタグ「＜歩く，
（−１，１，０）＞」は、映像中のＣＧキャラクタ（図
４中に示されるロボット）が映像中の座標（ｘ＝−１，
ｙ＝１，ｚ＝０）の地点から歩き始めることを表してお
り、これと対になる第２のタグ「＜／歩く，（１，１，
０）＞」は、キャラクタが座標（ｘ＝１，ｙ＝１，ｚ＝
０）の地点で歩き終わることを表している。図２（ｃ）
に示される映像制御データ１０６に従うと、キャラクタ
は時刻４．２秒に座標（−１，１，０）の地点から歩行
を開始し、時刻７．５秒に座標（１，１，０）の地点で
歩行を終了する。歩行速度を求め、それに基づいて各フ
レームの位置や姿勢を計算し、ＣＧ映像を生成すること
ができる。

【００２５】このようにして生成される合成音声及び映
像は、ＣＧキャラクタが図４（ｂ）に示されるシーン１
において「歩くことも出来ます。」と発声し、直後（時
刻４．２秒）に歩き出し、図４（ｃ）に示されるシーン
２において、歩きながら「てく、てく、てく」と発声
し、直後（時刻７．５秒）に、図４（ｄ）に示されるシ
ーン３において、立ち止まって「ほらね」と発声するも
のとなる。

【００２６】このように本実施形態によれば、キャラク
タの歩行などの動作を合成音声と同期させることが可能
となり、映像コンテンツの作成が容易になるという利点
がある。もちろん、手足や首などを動かしたり、立った
り座ったりなど、キャラクタの歩行以外の動作について
も、タグを定義することによって同様に制御することが
可能であるし、映像中の指定された場所を指差すなど複
雑な動作をさせることも可能である。

【００２７】次に、図５に示す音声及び映像の動作制御
例について述べる。図５の例では、キャラクタの動きで
はなく、ＣＧの視点（カメラ位置）を合成音声と同期し
て制御する。図５において、（ａ）は入力データ１０
１、（ｂ）は映像制御データ１０６、（ｃ）は合成音
声、（ｄ）（ｅ）（ｆ）は映像の動きをそれぞれ示して
いる。

【００２８】図５（ａ）に示される入力データ１０１に
含まれる第１のタグ「＜カメラ（０，１，３）（０，
１，０）＞」は、ＣＧにおける視点、すなわち仮想的な
カメラ位置が座標（０，１，３）であり、座標（０，
１，０）の地点にある被写体の方向をカメラが向いてい
る状態から、カメラが動き出すことを表している。第２
のタグ「＜／カメラ（３，１，０）（０，１，０）＞」
は、カメラ位置が座標（３，１，０）にあり、座標
（０，１，０）にある被写体の方向をカメラが向いてい
る状態で、カメラの動きが終了することを表している。
一方、図５（ｂ）に示される映像制御データ１０６に従
うと、カメラは６．１秒後に動き始め、１２．３秒後に
停止する。

【００２９】従って、この制御動作例によって生成され
る映像は、図５（ｄ）に示されるシーン１のように、ロ
ボットを正面から見ている状態で、「ぼく、かっこいい
でしょう。」と発声し、図５（ｅ）に示されるシーン２
のように、シーン１の直後（時刻６．１秒）にカメラが
移動を始めて、「横から見てみると」と発生しながら次
第に横からの映像となり、図５（ｆ）に示されるシーン
３のように、シーン２の発声終了後（時刻１２．３秒）
真横から見た状態でカメラが停止し、「こんな感じで
す。」と発声するというものとなる。もちろん、タグを
定義すれば、複数台のカメラの切り替え・ズームイン、
ズームアウト、パン（横方向にカメラを振る動作）及び
チルト（縦方向にカメラを振る動作）なども制御するこ
とが可能である。

【００３０】次に、図６に示す制御動作例について述べ
る。図６の例は、音声と同期して映像への字幕の挿入を
制御する場合であり、（ａ）は入力データ１０１、
（ｂ）は映像制御データ１０６、（ｃ）は合成音声、
（ｄ）（ｅ）は映像の動きをそれぞれ示している。

【００３１】図６（ａ）に示される入力データ１０１に
含まれるタグ「＜字幕，“ロボットアナウンサー登場”
＞」は、映像中に「ロボットアナウンサー登場」という
字幕を挿入することを表している。図６（ｂ）に示され
る映像制御データ１０６に従うと、字幕は４．６秒後に
挿入される。

【００３２】従って、この例によって生成される映像
は、図６（ｃ）に示されるシーン１の状態で、「ニュー
スをお伝えします。」と発声し、次いで図６（ｄ）に示
されるシーン２のように、シーン１の直後（時刻４．６
秒）に「ロボットアナウンサー登場」という字幕が挿入
され、その後「なんと、ロボットのアナウンサーが登場
しました。」と発声するものとなる。もちろん、字幕を
消すタイミングや、字幕の大きさ・位置などを指定する
ことも可能であるし、字幕以外の、例えば静止画像や動
画像などを挿入することも可能である。

【００３３】次に、図７に示す動作制御例について述べ
る。図７の例では、動作指定情報を用いて映像だけでな
く合成音声をも制御する点が、図４〜図６で説明した動
作制御例と異なっている。図７において（ａ）は入力デ
ータ１０１、（ｂ）は映像制御データ１０６、（ｃ）は
ピッチパターン１０３、（ｄ）は合成音声、（ｅ）
（ｆ）（ｇ）は映像の動きをそれぞれ示している。

【００３４】図７（ａ）に示されるシーン１の入力デー
タ１０１のうち、「＜喜び＞」と「＜／喜び＞」のタグ
の間に対応する時刻の区間では、図７（ｆ）に示される
シーン２のように映像中のロボットの表情を嬉しそうな
ものになるように制御し、また「＜悲しみ＞」と「＜／
悲しみ＞」のタグの間に対応する時刻の区間では、図７
（ｇ）に示されるシーン３のように映像中のロボットの
表情を悲しそうなものになるように制御すると共に、図
７（ｄ）に示されるそれぞれの区間の合成音声を嬉しそ
うな抑揚や悲しそうな抑揚に制御する。

【００３５】このような制御動作を実現するために、図
１中に示した韻律制御部１２は、入力された言語情報１
０２のタグの情報に基づいてピッチパターン１０３を制
御する。図７（ｃ）に示されるピッチパターン１０３に
おいて、点線がタグによる制御を行わない通常の場合の
パターンを表し、実線がタグによる制御を行った場合の
パターンを表している。「＜喜び＞」と「＜／喜び＞」
で挟まれた区間では、声を高くし、抑揚の変動を大きく
することで嬉しそうな抑揚とし、「＜悲しみ＞」と「＜
／悲しみ＞」で挟まれた区間では、声を低くし、抑揚の
変動を平坦にすることで、悲しそうな抑揚となるように
制御している。

【００３６】従って、この制御動作例によって生成され
る合成音声及び映像では、まず図７（ｅ）に示されるシ
ーン１のように、通常の表情、通常の抑揚で「ニュース
をお伝えします。」と発声する。次いで、図７（ｆ）に
示されるシーン２のように、シーン１の直後（時刻４．
５秒）に嬉しそうな表情に変化すると共に、嬉しそうな
抑揚で「嬉しいときも」と発声する。さらに、図７
（ｇ）に示されるシーン３のように、シーン２の直後
（時刻７．５秒後）に悲しそうな表情に変化すると共
に、悲しそうな抑揚で「悲しいときもあります。」と発
声する。このような感情表現だけでなく、声質、発生速
度、音量、声の高さ及び発話スタイルなど、様々な音声
の特徴を制御することが可能である。

【００３７】最後に、図８に示す音声及び映像の動作制
御例について述べる。図８の例では、動作指定情報を用
いて映像だけでなく合成音声のポーズの有無や長さを制
御する。図８において、（ａ）は入力データ、（ｂ）は
映像制御データ１０６、（ｃ）は合成音声、（ｄ）
（ｅ）（ｆ）は映像の動きをそれぞれ示している。

【００３８】図８（ａ）に示される入力データ１０１に
含まれるタグ「＜おじぎ＞」は、ＣＧキャラクタがおじ
ぎすることを表している。韻律制御部１２は、「＜おじ
ぎ＞」のように、発声を伴わずに映像のみを制御する種
類のタグが入力されると、図８（ｃ）に示されるよう
に、映像の動作に見合った長さのポーズを合成音声に挿
入する。

【００３９】従って、図８の動作制御例によって生成さ
れる合成音声及び映像では、まず図８（ｄ）に示される
シーン１の映像で「おはようございます。」と発声す
る。次に、図８（ｅ）に示されるシーン２のように、シ
ーン１の直後（時刻２．５秒）におじぎを開始する。お
じぎをしているあいだ（３秒間）は、図８（ｃ）のよう
にポーズが挿入されているため、音声は発声されない。
次いで、おじぎを終了後（時刻５．５秒）に、無図８
（ｆ）に示されるシーン３のように、「ぼくは、ロボッ
トアナウンサーです。」と発声する。

【００４０】このように映像に応じて発声を停止する必
要があるような場合でも、容易に映像と音声の同期をと
ることができる。もちろん、おじぎのような定型的な動
作の場合だけでなく、タイトルバックのような定型的な
映像の場合でも、同様の制御動作を行うことが可能であ
る。

【００４１】以上述べたように、本実施形態によると、
テキスト情報と動作指定情報を含む入力データ１０２か
ら、合成音声信号１０５と、動作指定情報及び動作指定
情報により指定される映像の基本動作に関係付ける時刻
情報を含む映像制御データ１０６を生成することによっ
て、合成音声とＣＧキャラクタの動き、視点の動き及び
字幕の表示などの映像との同期を容易にとることが可能
である。また、動作指定情報によって、映像のみならず
合成音声の抑揚やポーズなどを制御することにより、さ
らに効果的な映像コンテンツを容易に作成することがで
きる。

【００４２】次に、図９を用いて映像生成部１６の詳細
な構成について説明する。この映像生成部１６は、映像
制御データ１０６に従って３次元ＣＧ処理により映像デ
ータ２０３を生成するものであり、パラメータ生成部２
１、レンダリング部２２、字幕合成部２３、物体形状モ
デル記憶部２５及び物体動作モデル記憶部２６を有す
る。

【００４３】パラメータ生成部２１は、物体形状モデル
記憶部２５に記憶されている物体形状モデルを参照する
とともに、物体動作モデル記憶部２６に記憶されている
物体動作モデルの中から、必要な映像の動作に対応する
データを読み出して参照することにより物体パラメータ
２０４とカメラパラメータ２０１を生成する。

【００４４】図１０に、物体形状モデルの一例として、
ロボットの物体形状モデルを示す。図１０において
（ａ）は正面図、（ｂ）は側面図、（ｃ）は上面図であ
る。このように物体形状モデルは物体の３次元形状を含
んでおり、その他には物体の各部分の色や表面の質感な
どの情報を含むようにしてもよい。

【００４５】一方、物体動作モデルは物体に特定の動作
をさせるために必要なパラメータである。例えば、ロボ
ットが歩くためのパラメータは、股関節や肩関節の振り
幅や振る速度などであり、おじぎをさせるためのパラメ
ータは、腰関節の曲げ伸ばしのタイミングや速度などで
ある。また、合成音声にロボットの口を合わせるのに必
要なパラメータは、各音韻に対応する顎関節の開度のテ
ーブルとなる。

【００４６】パラメータ生成部２１は、映像制御データ
１０６に従って物体の３次元空間中の位置や姿勢を映像
のフレーム毎に算出し、物体パラメータ２０４を出力す
る。さらに、映像制御データにカメラに関する指示が含
まれているときは、パラメータ生成部２１は３次元空間
におけるカメラの位置や向きを映像のフレーム毎に算出
し、カメラパラメータ２０１を出力する。カメラに関す
る指示が無いときは、カメラパラメータを固定とする
か、物体を画面の中央に捕らえるようなカメラパラメー
タを算出して出力するようにしてもよい。図１１（ａ）
は、ある１フレームにおける物体パラメータ２０４に従
って構成した、物体の位置と姿勢の例を表している。

【００４７】次に、レンダリング部２２は物体パラメー
タ２０４とカメラパラメータ２０１に従って、カメラか
ら見た画像の各画素値をレンダリングによりフレーム毎
に求めて、映像データ２０２を生成する。レンダリング
とは、３次元空間中に物体・カメラ・光源を配置した場
合に、光源から出た光が物体で反射・散乱する現象を計
算機上でシミュレーションして、カメラに写る画像を生
成する手法である。例えば、図１１（ａ）に示される物
体の位置と姿勢を与える物体パラメータとカメラパラメ
ータに基づいてレンダリングを行うと、図１１（ｂ）の
画像が生成される。

【００４８】次に、字幕合成部２３は映像制御データ１
０６に字幕の情報が含まれている場合において、映像デ
ータ２０２の指定された時刻に、指定された語句を字幕
情報として映像データ２０２に挿入し、字幕が合成され
た映像の映像データ２０３を出力する。映像データ２０
３は図１中に示した映像出力部１０７に供給され、映像
として表示出力される。

【００４９】このように図９に示した構成の映像生成部
１６を用いて、映像制御データ生成部１４で生成された
映像制御データ１０６に従った映像を生成することが可
能であり、これによって音声出力部１５から出力される
合成音声と映像の同期が実現できる。

【００５０】本実施形態の映像生成部１６では、３次元
ＣＧを用いて映像を生成したが、アニメーション映像や
実写映像の編集によって実現するようにしても良い。こ
の場合は、あらかじめ必要なシーンに対応する映像を多
数記憶しておき、映像制御データ１０６に従って映像を
選択して接続すればよい。このとき、映像制御データ１
０６の時刻情報に従って映像のフレームを繰り返したり
間引いたりして時間を調整することにより、映像と音声
の同期をとることが出来る。

【００５１】その他、本発明は、次のように種々変形し
て実施することが可能である。本発明の他の実施形態と
して、映像制御データだけでなく音韻時刻データを出力
するようにして、ＣＧキャラクタの口を合成音声に合わ
せて動かす（リップシンク）ようにしてもよい。このよ
うにすることで、より自然な映像を生成することができ
る。上述した実施形態では、音韻時刻データを音節単位
として説明したが、音素など他の単位であってもよい。
上述した実施形態では、動作指定情報は＜＞で囲まれた
タグであるとして説明したが、その他の表現方法を用い
ても構わない。一例として、文字の属性情報を動作指定
情報に使うことが考えられる。その場合、（ａ）文字が
大きいほど大きく口を開ける、（ｂ）文字が赤ければ楽
しそうな表情にする、（ｃ）アンダーラインが引いてあ
る文字ではまばたきの頻度を高くする、といった種々の
制御が可能である。上述した実施形態では、音声合成の
ためのテキスト情報として漢字仮名交じり文を例に説明
したが、漢字の読み仮名・アクセント位置、ポーズ位置
及び区切り位置などの情報が付加されたものをテキスト
情報として用いてもよい。このようにすることで、テキ
スト解析による誤りを減少させることが可能となり、よ
り正確な合成音声を生成することができる。

【００５２】

【発明の効果】以上説明したように、本発明によれば合
成音声とＣＧのような映像を同期させることができる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る合成音声・映像同期
制御装置の構成を示すブロック図

【図２】同実施形態に係る合成音声・映像同期制御装置
の入出力データ及び中間データの例を示す図

【図３】同実施形態における処理手順を示すフローチャ
ート

【図４】合成音声とそれに同期して生成されるＣＧ映像
の例を示す図

【図５】同実施形態に係る合成音声・映像同期制御装置
の入出力データ及びＣＧ映像の例を示す図

【図６】同実施形態に係る合成音声・映像同期制御装置
の入出力データ及びＣＧ映像の例を示す図

【図７】同実施形態に係る合成音声・映像同期制御装置
の入出力データ及びＣＧ映像の例を示す図

【図８】同実施形態に係る合成音声・映像同期制御装置
の入出力データ及びＣＧ映像の例を示す図

【図９】同実施形態における映像生成部の構成例を示す
ブロック図

【図１０】図９に示した映像生成部で用いる物体形状モ
デルの一例としてのロボットの物体形状モデルを示す図

【図１１】図９に示した映像生成部において物体パラメ
ータにより与えられる物体の位置及び姿勢の例と該物体
パラメータ及びカメラパラメータに基づくレンダリング
結果の例を示す図

【符号の説明】

１０…合成音声・映像同期制御装置１１…テキスト解析部１２…韻律制御部１３…音声信号生成部１４…映像制御データ生成部１５…音声出力部１６…映像生成部１７…映像出力部１０１…入力データ１０２…言語情報１０３…ピッチパターン１０４…音韻時刻データ１０５…合成音声信号１０６…映像制御データ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 21/06 (72)発明者菅澤孝佳東京都港区芝浦一丁目１番１号株式会社東芝本社事務所内 (72)発明者佐々木大和東京都港区芝浦一丁目１番１号株式会社東芝本社事務所内Ｆターム(参考） 5B050 AA08 BA08 BA09 BA12 EA24 FA02 FA10 5D045 AB30

Claims

【特許請求の範囲】

【請求項１】合成音声及び映像を互いに同期するように
制御する合成音声及び映像の同期制御方法であって、テキスト情報及び映像の基本動作を指定するための動作
指定情報を含む入力データに基づいて合成音声の韻律を
制御する韻律データを生成するステップと、前記韻律データに基づいて音声合成を行い、合成音声信
号を生成するステップと、前記入力データ及び韻律データに基づいて、前記動作指
定情報及び該動作指定情報により指定される基本動作に
関係付ける時刻情報を含む、前記映像を制御するための
映像制御データを生成するステップとを具備する合成音
声及び映像の同期制御方法。
【請求項２】合成音声及び映像を互いに同期するように
制御する合成音声及び映像の同期制御装置であって、テキスト情報及び映像の基本動作を指定するための動作
指定情報を含む入力データに基づいて合成音声の韻律を
制御する韻律データを生成する手段と、前記韻律データに基づいて音声合成を行い、合成音声信
号を生成する手段と前記入力データ及び韻律データに基
づいて、前記動作指定情報及び該動作指定情報により指
定される動作に関係付ける時刻情報を含む、前記映像を
制御するための映像制御データを生成する手段と、を具
備する合成音声及び映像の同期制御装置。
【請求項３】前記動作指定情報に従って前記韻律データ
を制御する手段をさらに具備する請求項２記載の合成音
声及び映像の同期制御装置。
【請求項４】前記動作指定情報に従って前記韻律データ
のポーズの有無及び長さを制御する手段をさらに具備す
る請求項２記載の合成音声及び映像の同期制御装置。
【請求項５】前映像制御データを生成する手段は、ＣＧ
キャラクタのリップシンクのための音韻時刻データを含
む映像制御データを生成する請求項２記載の合成音声及
び映像の同期制御装置。
【請求項６】前記映像制御データを生成する手段は、Ｃ
Ｇキャラクタの動作、ＣＧの視点及び表示する字幕のう
ちの少なくとも一つの情報を含むデータを前記映像制御
データとして生成する請求項２に記載の合成音声及び映
像の同期制御装置。
【請求項７】合成音声及び映像を同期制御する処理をコ
ンピュータに実行させるためのプログラムであって、テキスト情報及び映像の基本動作を指定するための動作
指定情報を含む入力データに基づいて合成音声の韻律を
制御する韻律データを生成する処理と、前記韻律データに基づいて合成音声データを生成する処
理と、前記入力データ及び韻律データに基づいて、前記動作指
定情報及び該動作指定情報により指定される動作に関係
付ける時刻情報を含む、前記映像を制御するための映像
制御データを生成する処理とをコンピュータに実行させ
るためのプログラム。