JP2003216173A - 合成音声及び映像の同期制御方法、装置及びプログラム - Google Patents

合成音声及び映像の同期制御方法、装置及びプログラム

Info

Publication number
JP2003216173A
JP2003216173A JP2002019061A JP2002019061A JP2003216173A JP 2003216173 A JP2003216173 A JP 2003216173A JP 2002019061 A JP2002019061 A JP 2002019061A JP 2002019061 A JP2002019061 A JP 2002019061A JP 2003216173 A JP2003216173 A JP 2003216173A
Authority
JP
Japan
Prior art keywords
video
data
information
prosody
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002019061A
Other languages
English (en)
Inventor
Takehiko Kagoshima
岳彦 籠嶋
Motoo Kawabata
基夫 川端
Takayoshi Sugasawa
孝佳 菅澤
Yamato Sasaki
大和 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002019061A priority Critical patent/JP2003216173A/ja
Publication of JP2003216173A publication Critical patent/JP2003216173A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】 【課題】合成音声とCGのような映像を互いに同期させ
る制御を行う合成音声及び映像の同期制御装置を提供す
る。 【解決手段】テキスト情報及び映像の基本動作を指定す
るための動作指定情報を含む入力データ101に基づき
合成音声の韻律を制御する韻律データ103を生成する
テキスト解析部11及び韻律制御部12と、韻律データ
103に基づき音声合成を行って合成音声信号105を
生成する音声信号生成部13と、入力データ101及び
韻律データ103に基づいて入力データ101中の動作
指定情報及びこれにより指定される動作に関係付ける時
刻情報を含む映像制御データ106を生成する映像制御
データ生成部14を有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキスト音声合成
を用いて生成される合成音声及び映像を互いに同期する
ように制御する映像及び音声の同期制御方法、装置及び
プログラムに関する。
【0002】
【従来の技術】テキスト音声合成は、任意の文章から人
工的に文章に対応した音声信号を作り出す技術である。
通常、テキスト音声合成システムは、言語処理部、制御
パラメータ生成部及び音声信号生成部の3つの要素から
構成される。入力されたテキストは、まず言語処理部に
おいて形態素解析や構文解析などが行われる。次に、制
御パラメータ生成部においてアクセントやイントネーシ
ョンの処理が行われ、音韻記号列、ピッチパターン及び
音韻継続時間長などの情報が出力される。最後に、音声
信号生成部で音声信号が合成される。
【0003】近年、合成音声をアニメーションキャラク
タの声として使うことが試みられている。合成音声とア
ニメーションのような映像を組み合わせて使う場合、合
成音声と映像に時間的なずれが生じないように両者の同
期がとられる。例えば、合成音声に同期させてアニメー
ションキャラクタの口を動かすリップシンクと呼ばれる
技術が良く知られている。
【0004】一方、特開2000−123191には、
口の形状だけでなく、キャラクタの表情などを合成音声
と同期して制御する技術が開示されている。この技術で
は、音声合成のためのテキスト列中にアニメーションを
制御するためのタグを埋め込んだデータを入力する。こ
の入力データの文字列を先頭から順次取り込んで、テキ
ストであれば音声合成を行って音声を出力し、タグであ
ればアニメーションの表示を変化させることによって、
合成音声とアニメーションの同期をとる。この技術を用
いれば、音声と同期してキャラクタの表情などを変化さ
せることが可能である。
【0005】
【発明が解決しようとする課題】近年、CG(コンピュ
ータグラフィックス)技術の進歩と、計算機の高速化に
伴い、CGキャラクタ(CG上に登場する各種のキャラ
クタ)の動作などをリアルタイムで制御することが可能
となってきている。合成音声と同期してCGキャラクタ
の動作を制御する場合には、CGの動作を生成するため
に、動作の開始及び終了時刻の情報が必要である。例え
ば、CGキャラクタが喋りながら歩く映像を作るために
は、音声と同期した、歩き始めの時刻と位置及び歩き終
わる時刻と位置などの情報が必要である。
【0006】これに対して、特開2000−12319
1に開示された技術では、タグの位置によってあらかじ
め用意された数種類のアニメーションを切り替えるよう
な表示の制御しか行うことができないため、CGキャラ
クタの動作を制御することは難しいという問題がある。
【0007】本発明は、合成音声とCGのような映像を
互いに同期させる制御を行う合成音声及び映像の同期制
御方法、装置及びプログラムを提供することを目的とす
る。
【0008】
【課題を解決するための手段】上記の課題を解決するた
め、本発明は合成音声及び映像を互いに同期するように
制御するために、テキスト情報及び映像の基本動作を指
定するための動作指定情報を含む入力データに基づいて
合成音声の韻律を制御する韻律データを生成され、この
韻律データに基づいて音声合成が行われ、合成音声信号
が生成される。一方、入力データ及び韻律データに基づ
いて動作指定情報及び該動作指定情報により指定される
基本動作に関係付ける時刻情報を含む、映像を制御する
ための映像制御データが生成される。
【0009】本発明の態様では、動作指定情報に従って
韻律データを制御してもよい。具体的には、動作指定情
報に従って韻律データのポーズの有無及び長さを制御し
てもよい。
【0010】映像制御データとしては、CGキャラクタ
のリップシンクのための音韻時刻データを含む映像制御
データを生成してもよい。また、CGキャラクタの動
作、CGの視点及び表示する字幕のうちの少なくとも一
つの情報を含むデータを映像制御データとして生成して
もよい。
【0011】さらに、本発明によると合成音声及び映像
を同期制御する処理をコンピュータに実行させるための
プログラムであって、テキスト情報及び映像の基本動作
を指定するための動作指定情報を含む入力データに基づ
いて合成音声の韻律を制御する韻律データを生成する処
理と、韻律データに基づいて合成音声データを生成する
処理と、入力データ及び韻律データに基づいて、動作指
定情報及び該動作指定情報により指定される動作に関係
付ける時刻情報を含む、映像を制御するための映像制御
データを生成する処理とをコンピュータに実行させるた
めのプログラムが提供される。
【0012】
【発明の実施の形態】以下、図面を参照して本発明の一
実施形態を説明する。図1に、本発明の一実施形態に係
る合成音声及び映像の同期制御装置(以下、合成音声・
映像同期制御装置という)の構成を示す。合成音声・映
像同期制御装置10は、テキスト解析部11、韻律制御
部12、音声信号生成部13及び映像制御データ生成部
14を有する。
【0013】合成音声・映像同期制御装置10には、入
力データ101としてテキスト情報と映像の動作指定情
報を含むデータが入力される。テキスト情報はテキスト
音声合成に供される情報であって、動作指定情報は映像
の基本動作、具体的には例えば時刻に関する情報を除く
映像の動きを指定するための情報である。入力データ1
01は、まずテキスト解析部11に入力され、入力デー
タ101中のテキスト情報が解析される。テキスト解析
部11では、例えば漢字の読み、文節の区切り及びアク
セント位置が解析され、解析結果として言語情報102
が出力される。
【0014】図2は、図1の合成音声・映像同期制御装
置10における入出力データ及び中間データの例を示し
ている。図2(a)に示される入力データ101の例で
は、「歩くことも出来ます。」、「てく、てく、てく」
及び「ほらね。」がテキスト情報であり、<>で挟まれ
た部分(以下、タグと呼ぶ)、すなわち、「<歩く,
(−1,1,0)>」及び「</歩く,(1,1,0)
>」が動作指定情報に相当する。言語情報102では、
図2(b)に示されるようにテキスト解析結果が記号化
され、漢字の読みは仮名で、アクセント位置は「*」
で、文節の区切りは「_」でそれぞれ表現される。
【0015】言語情報102は、韻律制御部12及び映
像制御データ生成部14に入力される。韻律制御部12
では、言語情報102のうちのテキスト解析結果部分が
抽出され、合成音声の声の高さの変化パターンを表すピ
ッチパターン103と、発声する音韻と時刻の情報を含
む音韻時刻データ104が生成される。音韻時刻データ
104は、発声する音韻の順番を表すと共に、その音韻
の発声が開始される時刻(秒)を表現している。図2
(c)に示される音韻時刻データ104の例では、音節
単位の開始時刻が表されている。ただし、「PAU」は
合成音声中のポーズ、すなわち無音区間を表している。
【0016】韻律制御部12によって生成されるピッチ
パターン103及び音韻時刻データ104は、音声信号
生成部13に入力される。音声信号生成部13では、音
韻時刻データ104で指定される音韻の並びとその時
刻、及びピッチパターン103で指定される声の高さの
変化パターンに従って、合成音声信号105が生成され
る。合成音声信号105は音声出力部15に供給され、
音声出力部15に含まれるスピーカを介して音声(合成
音声)が出力される。
【0017】韻律制御部12から出力される音韻時刻デ
ータ104は、映像制御データ生成部14にも入力され
る。映像制御データ生成部14では、言語情報102と
音韻時刻データ104が参照されて映像制御データ10
6が生成される。
【0018】映像制御データ106は、映像生成部16
に供給される。映像生成部16は詳細は後述するように
例えば3次元CGシステムであり、映像制御データ10
6に従って映像データを生成する。生成された映像デー
タは、CRTディスプレイや液晶ディスプレイその他の
映像出力部17に出力され、映像として表示出力され
る。
【0019】映像制御データ106は、言語情報102
に含まれるタグとその時刻の情報を表現している。すな
わち、映像制御データ106は入力データ101中の動
作指定情報であるタグ及びタグにより指定される基本動
作に関係付ける時刻情報を含むデータである。タグの時
刻は、その前後の音韻の発声時刻から決定される。図2
(d)に示される映像制御データ106の例では、例え
ば第1のタグ「<歩く,(−1,1,0)>」について
は、直前の音韻「す」が4.00秒に終了し、直後の音
韻「て」が4.40秒に開始されるため、その中点であ
る4.2秒がタグの時刻となっている。
【0020】本実施形態に係る合成音声・映像同期制御
装置10の処理は、パーソナルコンピュータその他のコ
ンピュータを用いてソフトウェアにより実行することが
可能である。そこで、以下に図3に示すフローチャート
を用いて合成音声・映像同期制御装置10の処理を含む
図1に示すシステムの一連の処理手順について説明す
る。
【0021】まず、テキスト情報と映像の動作指定情報
を含む入力データ101中のテキスト情報を解析し、解
析結果として言語情報102を生成する(ステップS
1)。次に、言語情報102のうちのテキスト解析結果
部分を抽出してピッチパターン103と音韻時刻データ
104を生成する処理である韻律制御を行う(ステップ
S2)。こうして生成されるピッチパターン103及び
音韻時刻データ104から合成音声信号105を生成す
る(ステップS3)。次に、ステップS1で生成された
言語情報102とステップS3で生成された音韻時刻デ
ータ104を参照して映像制御データ106を生成する
(ステップS4)。
【0022】一方、合成音声・映像同期制御装置10の
処理として、ステップS4で生成された映像制御データ
106から例えば3次元CG処理によって映像データを
生成する(ステップS5)。そして、ステップS5で生
成された映像データとステップS3で生成された合成音
声信号105により、互いに同期した映像及び音声を出
力する(ステップS6)。
【0023】次に、映像生成部16が3次元CGシステ
ムの場合を例にとり、図4乃至図8を参照して本実施形
態に基づく音声及び映像の制御動作例について説明す
る。まず、図4に示す制御動作例について述べる。図4
(a)は図2(a)に示した入力データ101に対応す
る合成音声を示し、図4(b)(c)(d)は図4
(a)の合成音声に同期したCGキャラクタの動きを示
している。
【0024】図2の例における第1のタグ「<歩く,
(−1,1,0)>」は、映像中のCGキャラクタ(図
4中に示されるロボット)が映像中の座標(x=−1,
y=1,z=0)の地点から歩き始めることを表してお
り、これと対になる第2のタグ「</歩く,(1,1,
0)>」は、キャラクタが座標(x=1,y=1,z=
0)の地点で歩き終わることを表している。図2(c)
に示される映像制御データ106に従うと、キャラクタ
は時刻4.2秒に座標(−1,1,0)の地点から歩行
を開始し、時刻7.5秒に座標(1,1,0)の地点で
歩行を終了する。歩行速度を求め、それに基づいて各フ
レームの位置や姿勢を計算し、CG映像を生成すること
ができる。
【0025】このようにして生成される合成音声及び映
像は、CGキャラクタが図4(b)に示されるシーン1
において「歩くことも出来ます。」と発声し、直後(時
刻4.2秒)に歩き出し、図4(c)に示されるシーン
2において、歩きながら「てく、てく、てく」と発声
し、直後(時刻7.5秒)に、図4(d)に示されるシ
ーン3において、立ち止まって「ほらね」と発声するも
のとなる。
【0026】このように本実施形態によれば、キャラク
タの歩行などの動作を合成音声と同期させることが可能
となり、映像コンテンツの作成が容易になるという利点
がある。もちろん、手足や首などを動かしたり、立った
り座ったりなど、キャラクタの歩行以外の動作について
も、タグを定義することによって同様に制御することが
可能であるし、映像中の指定された場所を指差すなど複
雑な動作をさせることも可能である。
【0027】次に、図5に示す音声及び映像の動作制御
例について述べる。図5の例では、キャラクタの動きで
はなく、CGの視点(カメラ位置)を合成音声と同期し
て制御する。図5において、(a)は入力データ10
1、(b)は映像制御データ106、(c)は合成音
声、(d)(e)(f)は映像の動きをそれぞれ示して
いる。
【0028】図5(a)に示される入力データ101に
含まれる第1のタグ「<カメラ(0,1,3)(0,
1,0)>」は、CGにおける視点、すなわち仮想的な
カメラ位置が座標(0,1,3)であり、座標(0,
1,0)の地点にある被写体の方向をカメラが向いてい
る状態から、カメラが動き出すことを表している。第2
のタグ「</カメラ(3,1,0)(0,1,0)>」
は、カメラ位置が座標(3,1,0)にあり、座標
(0,1,0)にある被写体の方向をカメラが向いてい
る状態で、カメラの動きが終了することを表している。
一方、図5(b)に示される映像制御データ106に従
うと、カメラは6.1秒後に動き始め、12.3秒後に
停止する。
【0029】従って、この制御動作例によって生成され
る映像は、図5(d)に示されるシーン1のように、ロ
ボットを正面から見ている状態で、「ぼく、かっこいい
でしょう。」と発声し、図5(e)に示されるシーン2
のように、シーン1の直後(時刻6.1秒)にカメラが
移動を始めて、「横から見てみると」と発生しながら次
第に横からの映像となり、図5(f)に示されるシーン
3のように、シーン2の発声終了後(時刻12.3秒)
真横から見た状態でカメラが停止し、「こんな感じで
す。」と発声するというものとなる。もちろん、タグを
定義すれば、複数台のカメラの切り替え・ズームイン、
ズームアウト、パン(横方向にカメラを振る動作)及び
チルト(縦方向にカメラを振る動作)なども制御するこ
とが可能である。
【0030】次に、図6に示す制御動作例について述べ
る。図6の例は、音声と同期して映像への字幕の挿入を
制御する場合であり、(a)は入力データ101、
(b)は映像制御データ106、(c)は合成音声、
(d)(e)は映像の動きをそれぞれ示している。
【0031】図6(a)に示される入力データ101に
含まれるタグ「<字幕,“ロボットアナウンサー登場”
>」は、映像中に「ロボットアナウンサー登場」という
字幕を挿入することを表している。図6(b)に示され
る映像制御データ106に従うと、字幕は4.6秒後に
挿入される。
【0032】従って、この例によって生成される映像
は、図6(c)に示されるシーン1の状態で、「ニュー
スをお伝えします。」と発声し、次いで図6(d)に示
されるシーン2のように、シーン1の直後(時刻4.6
秒)に「ロボットアナウンサー登場」という字幕が挿入
され、その後「なんと、ロボットのアナウンサーが登場
しました。」と発声するものとなる。もちろん、字幕を
消すタイミングや、字幕の大きさ・位置などを指定する
ことも可能であるし、字幕以外の、例えば静止画像や動
画像などを挿入することも可能である。
【0033】次に、図7に示す動作制御例について述べ
る。図7の例では、動作指定情報を用いて映像だけでな
く合成音声をも制御する点が、図4〜図6で説明した動
作制御例と異なっている。図7において(a)は入力デ
ータ101、(b)は映像制御データ106、(c)は
ピッチパターン103、(d)は合成音声、(e)
(f)(g)は映像の動きをそれぞれ示している。
【0034】図7(a)に示されるシーン1の入力デー
タ101のうち、「<喜び>」と「</喜び>」のタグ
の間に対応する時刻の区間では、図7(f)に示される
シーン2のように映像中のロボットの表情を嬉しそうな
ものになるように制御し、また「<悲しみ>」と「</
悲しみ>」のタグの間に対応する時刻の区間では、図7
(g)に示されるシーン3のように映像中のロボットの
表情を悲しそうなものになるように制御すると共に、図
7(d)に示されるそれぞれの区間の合成音声を嬉しそ
うな抑揚や悲しそうな抑揚に制御する。
【0035】このような制御動作を実現するために、図
1中に示した韻律制御部12は、入力された言語情報1
02のタグの情報に基づいてピッチパターン103を制
御する。図7(c)に示されるピッチパターン103に
おいて、点線がタグによる制御を行わない通常の場合の
パターンを表し、実線がタグによる制御を行った場合の
パターンを表している。「<喜び>」と「</喜び>」
で挟まれた区間では、声を高くし、抑揚の変動を大きく
することで嬉しそうな抑揚とし、「<悲しみ>」と「<
/悲しみ>」で挟まれた区間では、声を低くし、抑揚の
変動を平坦にすることで、悲しそうな抑揚となるように
制御している。
【0036】従って、この制御動作例によって生成され
る合成音声及び映像では、まず図7(e)に示されるシ
ーン1のように、通常の表情、通常の抑揚で「ニュース
をお伝えします。」と発声する。次いで、図7(f)に
示されるシーン2のように、シーン1の直後(時刻4.
5秒)に嬉しそうな表情に変化すると共に、嬉しそうな
抑揚で「嬉しいときも」と発声する。さらに、図7
(g)に示されるシーン3のように、シーン2の直後
(時刻7.5秒後)に悲しそうな表情に変化すると共
に、悲しそうな抑揚で「悲しいときもあります。」と発
声する。このような感情表現だけでなく、声質、発生速
度、音量、声の高さ及び発話スタイルなど、様々な音声
の特徴を制御することが可能である。
【0037】最後に、図8に示す音声及び映像の動作制
御例について述べる。図8の例では、動作指定情報を用
いて映像だけでなく合成音声のポーズの有無や長さを制
御する。図8において、(a)は入力データ、(b)は
映像制御データ106、(c)は合成音声、(d)
(e)(f)は映像の動きをそれぞれ示している。
【0038】図8(a)に示される入力データ101に
含まれるタグ「<おじぎ>」は、CGキャラクタがおじ
ぎすることを表している。韻律制御部12は、「<おじ
ぎ>」のように、発声を伴わずに映像のみを制御する種
類のタグが入力されると、図8(c)に示されるよう
に、映像の動作に見合った長さのポーズを合成音声に挿
入する。
【0039】従って、図8の動作制御例によって生成さ
れる合成音声及び映像では、まず図8(d)に示される
シーン1の映像で「おはようございます。」と発声す
る。次に、図8(e)に示されるシーン2のように、シ
ーン1の直後(時刻2.5秒)におじぎを開始する。お
じぎをしているあいだ(3秒間)は、図8(c)のよう
にポーズが挿入されているため、音声は発声されない。
次いで、おじぎを終了後(時刻5.5秒)に、無図8
(f)に示されるシーン3のように、「ぼくは、ロボッ
トアナウンサーです。」と発声する。
【0040】このように映像に応じて発声を停止する必
要があるような場合でも、容易に映像と音声の同期をと
ることができる。もちろん、おじぎのような定型的な動
作の場合だけでなく、タイトルバックのような定型的な
映像の場合でも、同様の制御動作を行うことが可能であ
る。
【0041】以上述べたように、本実施形態によると、
テキスト情報と動作指定情報を含む入力データ102か
ら、合成音声信号105と、動作指定情報及び動作指定
情報により指定される映像の基本動作に関係付ける時刻
情報を含む映像制御データ106を生成することによっ
て、合成音声とCGキャラクタの動き、視点の動き及び
字幕の表示などの映像との同期を容易にとることが可能
である。また、動作指定情報によって、映像のみならず
合成音声の抑揚やポーズなどを制御することにより、さ
らに効果的な映像コンテンツを容易に作成することがで
きる。
【0042】次に、図9を用いて映像生成部16の詳細
な構成について説明する。この映像生成部16は、映像
制御データ106に従って3次元CG処理により映像デ
ータ203を生成するものであり、パラメータ生成部2
1、レンダリング部22、字幕合成部23、物体形状モ
デル記憶部25及び物体動作モデル記憶部26を有す
る。
【0043】パラメータ生成部21は、物体形状モデル
記憶部25に記憶されている物体形状モデルを参照する
とともに、物体動作モデル記憶部26に記憶されている
物体動作モデルの中から、必要な映像の動作に対応する
データを読み出して参照することにより物体パラメータ
204とカメラパラメータ201を生成する。
【0044】図10に、物体形状モデルの一例として、
ロボットの物体形状モデルを示す。図10において
(a)は正面図、(b)は側面図、(c)は上面図であ
る。このように物体形状モデルは物体の3次元形状を含
んでおり、その他には物体の各部分の色や表面の質感な
どの情報を含むようにしてもよい。
【0045】一方、物体動作モデルは物体に特定の動作
をさせるために必要なパラメータである。例えば、ロボ
ットが歩くためのパラメータは、股関節や肩関節の振り
幅や振る速度などであり、おじぎをさせるためのパラメ
ータは、腰関節の曲げ伸ばしのタイミングや速度などで
ある。また、合成音声にロボットの口を合わせるのに必
要なパラメータは、各音韻に対応する顎関節の開度のテ
ーブルとなる。
【0046】パラメータ生成部21は、映像制御データ
106に従って物体の3次元空間中の位置や姿勢を映像
のフレーム毎に算出し、物体パラメータ204を出力す
る。さらに、映像制御データにカメラに関する指示が含
まれているときは、パラメータ生成部21は3次元空間
におけるカメラの位置や向きを映像のフレーム毎に算出
し、カメラパラメータ201を出力する。カメラに関す
る指示が無いときは、カメラパラメータを固定とする
か、物体を画面の中央に捕らえるようなカメラパラメー
タを算出して出力するようにしてもよい。図11(a)
は、ある1フレームにおける物体パラメータ204に従
って構成した、物体の位置と姿勢の例を表している。
【0047】次に、レンダリング部22は物体パラメー
タ204とカメラパラメータ201に従って、カメラか
ら見た画像の各画素値をレンダリングによりフレーム毎
に求めて、映像データ202を生成する。レンダリング
とは、3次元空間中に物体・カメラ・光源を配置した場
合に、光源から出た光が物体で反射・散乱する現象を計
算機上でシミュレーションして、カメラに写る画像を生
成する手法である。例えば、図11(a)に示される物
体の位置と姿勢を与える物体パラメータとカメラパラメ
ータに基づいてレンダリングを行うと、図11(b)の
画像が生成される。
【0048】次に、字幕合成部23は映像制御データ1
06に字幕の情報が含まれている場合において、映像デ
ータ202の指定された時刻に、指定された語句を字幕
情報として映像データ202に挿入し、字幕が合成され
た映像の映像データ203を出力する。映像データ20
3は図1中に示した映像出力部107に供給され、映像
として表示出力される。
【0049】このように図9に示した構成の映像生成部
16を用いて、映像制御データ生成部14で生成された
映像制御データ106に従った映像を生成することが可
能であり、これによって音声出力部15から出力される
合成音声と映像の同期が実現できる。
【0050】本実施形態の映像生成部16では、3次元
CGを用いて映像を生成したが、アニメーション映像や
実写映像の編集によって実現するようにしても良い。こ
の場合は、あらかじめ必要なシーンに対応する映像を多
数記憶しておき、映像制御データ106に従って映像を
選択して接続すればよい。このとき、映像制御データ1
06の時刻情報に従って映像のフレームを繰り返したり
間引いたりして時間を調整することにより、映像と音声
の同期をとることが出来る。
【0051】その他、本発明は、次のように種々変形し
て実施することが可能である。本発明の他の実施形態と
して、映像制御データだけでなく音韻時刻データを出力
するようにして、CGキャラクタの口を合成音声に合わ
せて動かす(リップシンク)ようにしてもよい。このよ
うにすることで、より自然な映像を生成することができ
る。上述した実施形態では、音韻時刻データを音節単位
として説明したが、音素など他の単位であってもよい。
上述した実施形態では、動作指定情報は<>で囲まれた
タグであるとして説明したが、その他の表現方法を用い
ても構わない。一例として、文字の属性情報を動作指定
情報に使うことが考えられる。その場合、(a)文字が
大きいほど大きく口を開ける、(b)文字が赤ければ楽
しそうな表情にする、(c)アンダーラインが引いてあ
る文字ではまばたきの頻度を高くする、といった種々の
制御が可能である。上述した実施形態では、音声合成の
ためのテキスト情報として漢字仮名交じり文を例に説明
したが、漢字の読み仮名・アクセント位置、ポーズ位置
及び区切り位置などの情報が付加されたものをテキスト
情報として用いてもよい。このようにすることで、テキ
スト解析による誤りを減少させることが可能となり、よ
り正確な合成音声を生成することができる。
【0052】
【発明の効果】以上説明したように、本発明によれば合
成音声とCGのような映像を同期させることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る合成音声・映像同期
制御装置の構成を示すブロック図
【図2】同実施形態に係る合成音声・映像同期制御装置
の入出力データ及び中間データの例を示す図
【図3】同実施形態における処理手順を示すフローチャ
ート
【図4】合成音声とそれに同期して生成されるCG映像
の例を示す図
【図5】同実施形態に係る合成音声・映像同期制御装置
の入出力データ及びCG映像の例を示す図
【図6】同実施形態に係る合成音声・映像同期制御装置
の入出力データ及びCG映像の例を示す図
【図7】同実施形態に係る合成音声・映像同期制御装置
の入出力データ及びCG映像の例を示す図
【図8】同実施形態に係る合成音声・映像同期制御装置
の入出力データ及びCG映像の例を示す図
【図9】同実施形態における映像生成部の構成例を示す
ブロック図
【図10】図9に示した映像生成部で用いる物体形状モ
デルの一例としてのロボットの物体形状モデルを示す図
【図11】図9に示した映像生成部において物体パラメ
ータにより与えられる物体の位置及び姿勢の例と該物体
パラメータ及びカメラパラメータに基づくレンダリング
結果の例を示す図
【符号の説明】
10…合成音声・映像同期制御装置 11…テキスト解析部 12…韻律制御部 13…音声信号生成部 14…映像制御データ生成部 15…音声出力部 16…映像生成部 17…映像出力部 101…入力データ 102…言語情報 103…ピッチパターン 104…音韻時刻データ 105…合成音声信号 106…映像制御データ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 21/06 (72)発明者 菅澤 孝佳 東京都港区芝浦一丁目1番1号 株式会社 東芝本社事務所内 (72)発明者 佐々木 大和 東京都港区芝浦一丁目1番1号 株式会社 東芝本社事務所内 Fターム(参考) 5B050 AA08 BA08 BA09 BA12 EA24 FA02 FA10 5D045 AB30

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】合成音声及び映像を互いに同期するように
    制御する合成音声及び映像の同期制御方法であって、 テキスト情報及び映像の基本動作を指定するための動作
    指定情報を含む入力データに基づいて合成音声の韻律を
    制御する韻律データを生成するステップと、 前記韻律データに基づいて音声合成を行い、合成音声信
    号を生成するステップと、 前記入力データ及び韻律データに基づいて、前記動作指
    定情報及び該動作指定情報により指定される基本動作に
    関係付ける時刻情報を含む、前記映像を制御するための
    映像制御データを生成するステップとを具備する合成音
    声及び映像の同期制御方法。
  2. 【請求項2】合成音声及び映像を互いに同期するように
    制御する合成音声及び映像の同期制御装置であって、 テキスト情報及び映像の基本動作を指定するための動作
    指定情報を含む入力データに基づいて合成音声の韻律を
    制御する韻律データを生成する手段と、 前記韻律データに基づいて音声合成を行い、合成音声信
    号を生成する手段と前記入力データ及び韻律データに基
    づいて、前記動作指定情報及び該動作指定情報により指
    定される動作に関係付ける時刻情報を含む、前記映像を
    制御するための映像制御データを生成する手段と、を具
    備する合成音声及び映像の同期制御装置。
  3. 【請求項3】前記動作指定情報に従って前記韻律データ
    を制御する手段をさらに具備する請求項2記載の合成音
    声及び映像の同期制御装置。
  4. 【請求項4】前記動作指定情報に従って前記韻律データ
    のポーズの有無及び長さを制御する手段をさらに具備す
    る請求項2記載の合成音声及び映像の同期制御装置。
  5. 【請求項5】前映像制御データを生成する手段は、CG
    キャラクタのリップシンクのための音韻時刻データを含
    む映像制御データを生成する請求項2記載の合成音声及
    び映像の同期制御装置。
  6. 【請求項6】前記映像制御データを生成する手段は、C
    Gキャラクタの動作、CGの視点及び表示する字幕のう
    ちの少なくとも一つの情報を含むデータを前記映像制御
    データとして生成する請求項2に記載の合成音声及び映
    像の同期制御装置。
  7. 【請求項7】合成音声及び映像を同期制御する処理をコ
    ンピュータに実行させるためのプログラムであって、 テキスト情報及び映像の基本動作を指定するための動作
    指定情報を含む入力データに基づいて合成音声の韻律を
    制御する韻律データを生成する処理と、 前記韻律データに基づいて合成音声データを生成する処
    理と、 前記入力データ及び韻律データに基づいて、前記動作指
    定情報及び該動作指定情報により指定される動作に関係
    付ける時刻情報を含む、前記映像を制御するための映像
    制御データを生成する処理とをコンピュータに実行させ
    るためのプログラム。
JP2002019061A 2002-01-28 2002-01-28 合成音声及び映像の同期制御方法、装置及びプログラム Pending JP2003216173A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002019061A JP2003216173A (ja) 2002-01-28 2002-01-28 合成音声及び映像の同期制御方法、装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002019061A JP2003216173A (ja) 2002-01-28 2002-01-28 合成音声及び映像の同期制御方法、装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2003216173A true JP2003216173A (ja) 2003-07-30

Family

ID=27654132

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002019061A Pending JP2003216173A (ja) 2002-01-28 2002-01-28 合成音声及び映像の同期制御方法、装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2003216173A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8504368B2 (en) 2009-09-10 2013-08-06 Fujitsu Limited Synthetic speech text-input device and program
JP2014519082A (ja) * 2011-05-06 2014-08-07 セイヤー インコーポレイテッド 文字に基づく映像生成
JP2015125613A (ja) * 2013-12-26 2015-07-06 Kddi株式会社 アニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラム
JP2015176592A (ja) * 2014-03-18 2015-10-05 Kddi株式会社 アニメーション生成装置、アニメーション生成方法およびプログラム
WO2016103782A1 (ja) * 2014-12-21 2016-06-30 livepass株式会社 動画生成システム及び料金通知方法
JP2017040867A (ja) * 2015-08-21 2017-02-23 ヤマハ株式会社 情報処理装置
US10375534B2 (en) 2010-12-22 2019-08-06 Seyyer, Inc. Video transmission and sharing over ultra-low bitrate wireless communication channel
CN111462736A (zh) * 2019-01-17 2020-07-28 北京字节跳动网络技术有限公司 基于语音的图像生成方法、装置和电子设备
CN111526427A (zh) * 2020-04-30 2020-08-11 维沃移动通信有限公司 视频生成方法、装置及电子设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8504368B2 (en) 2009-09-10 2013-08-06 Fujitsu Limited Synthetic speech text-input device and program
US10375534B2 (en) 2010-12-22 2019-08-06 Seyyer, Inc. Video transmission and sharing over ultra-low bitrate wireless communication channel
JP2014519082A (ja) * 2011-05-06 2014-08-07 セイヤー インコーポレイテッド 文字に基づく映像生成
JP2015125613A (ja) * 2013-12-26 2015-07-06 Kddi株式会社 アニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラム
JP2015176592A (ja) * 2014-03-18 2015-10-05 Kddi株式会社 アニメーション生成装置、アニメーション生成方法およびプログラム
WO2016103782A1 (ja) * 2014-12-21 2016-06-30 livepass株式会社 動画生成システム及び料金通知方法
JP2017040867A (ja) * 2015-08-21 2017-02-23 ヤマハ株式会社 情報処理装置
CN111462736A (zh) * 2019-01-17 2020-07-28 北京字节跳动网络技术有限公司 基于语音的图像生成方法、装置和电子设备
CN111462736B (zh) * 2019-01-17 2023-04-14 北京字节跳动网络技术有限公司 基于语音的图像生成方法、装置和电子设备
CN111526427A (zh) * 2020-04-30 2020-08-11 维沃移动通信有限公司 视频生成方法、装置及电子设备
CN111526427B (zh) * 2020-04-30 2022-05-17 维沃移动通信有限公司 视频生成方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Ezzat et al. Miketalk: A talking facial display based on morphing visemes
EP1354298B1 (en) Character animation system
US6662161B1 (en) Coarticulation method for audio-visual text-to-speech synthesis
EP1269465B1 (en) Character animation
US7015934B2 (en) Image displaying apparatus
US5689618A (en) Advanced tools for speech synchronized animation
US6250928B1 (en) Talking facial display method and apparatus
US8200493B1 (en) System and method of providing conversational visual prosody for talking heads
US7571099B2 (en) Voice synthesis device
US8078466B2 (en) Coarticulation method for audio-visual text-to-speech synthesis
JP2518683B2 (ja) 画像合成方法及びその装置
JP2003085572A (ja) 漫画生成装置及び漫画生成プログラム
JP6711044B2 (ja) 画像処理装置、表示装置、アニメーション生成方法及びプログラム
KR101089184B1 (ko) 캐릭터의 발화와 감정표현 제공 시스템 및 방법
US7117155B2 (en) Coarticulation method for audio-visual text-to-speech synthesis
JP2003216173A (ja) 合成音声及び映像の同期制御方法、装置及びプログラム
JP4599606B2 (ja) 頭部動作自動生成のための頭部動作学習装置及び頭部動作合成装置並びにコンピュータプログラム
Perng et al. Image talk: a real time synthetic talking head using one single image with chinese text-to-speech capability
JP3059022B2 (ja) 動画像表示装置
CN115984429A (zh) 一种基于文本驱动的真实感虚拟人生成方法及装置
Lin et al. A speech driven talking head system based on a single face image
US7392190B1 (en) Coarticulation method for audio-visual text-to-speech synthesis
JP4052561B2 (ja) 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム
JP2003296753A (ja) 聴覚障害者用対話システム
Wang et al. A real-time text to audio-visual speech synthesis system.

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040518