JP2004071013A

JP2004071013A - 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム

Info

Publication number: JP2004071013A
Application number: JP2002226790A
Authority: JP
Inventors: Narichika Hamaguchi; 浜口　斉周; Mamoru Doke; 道家　守; Masaki Hayashi; 林　正樹; Hiroyuki Segi; 世木　寛之
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2002-08-05
Filing date: 2002-08-05
Publication date: 2004-03-04
Anticipated expiration: 2022-08-05
Also published as: JP4052561B2

Abstract

【課題】使い勝手がよく、容易に映像にあわせて音声データを記録することができ、より自然なＣＧアニメーションを生成することができる映像付帯音声データ記録方法、装置、プログラムを提供する。
【解決手段】ＣＧアニメーションのＣＧキャラクタを表示画面に表示させつつ、当該ＣＧキャラクタが話す台詞の音声データを記録する映像付帯音声データ記録装置１であって、映像データを作成する映像生成部９と、テキストスーパーを生成するスーパー生成部１１と、映像データおよびテキストスーパーを合成して映像スーパー合成データを生成する映像スーパー合成部１３と、音声合成を行って、合成音声データを生成する音声合成部１５と、合成音声データとテキストスーパーとを参照して発声された台詞音声データを収録する音声収録部２１と、台詞音声データと台詞テキストデータとを記録する記録部７とを備えた。
【選択図】　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、テレビ番組、映画、アニメーション等の映像、特にＣＧアニメーションに付帯させる音声データを記録する映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラムに関する。
【０００２】
【従来の技術】
従来、映像等を制作した後に、この映像にあわせて音声データを記録するアフターレコーディングの場合、特に、ＣＧアニメーションのＣＧキャラクタの台詞を声優等が読み上げて記録する場合には、当該ＣＧキャラクタの口の動き（口唇部の動き）にあわせて声優が声（音声データ）を発声する必要がある。
【０００３】
また、映像を制作する前に、音声データを記録するプリレコーディングの場合、記録した音声データに適合するように映像を制作する必要があり、特に、ＣＧアニメーションのＣＧキャラクタの台詞の場合、記録した音声データである台詞音声データに適合する（リップシンクする）ようにＣＧキャラクタの口唇部の動きを調整する必要がある。
【０００４】
【発明が解決しようとする課題】
しかしながら、従来のアフターレコーディングでは、ＣＧキャラクタの口唇部の動きにあわせて発声しなければならないので、音声データの収録作業が煩雑になるという問題がある。また、ＣＧキャラクタの口唇部の動きにあわせる（リップシンクさせる）ことは、十分な経験を積まないと難しく、場合によっては、不自然なＣＧアニメーションになってしまうという問題がある。
【０００５】
さらに、台詞音声データをプリレコーディングしてから、ＣＧアニメーション（映像）を制作すれば、リップシンクすることは可能であるが、予め、ＣＧアニメーションが出来上がっていないためにアフターレコーディングのように、ＣＧアニメーション（映像）を見ながら発声できない。それゆえ、台詞音声データを発声する声優等が映像シーンを想起することができないため、台詞音声データに感情が込められないというような、使い勝手が悪いという問題がある。
【０００６】
そこで、本発明の目的は前記した従来の技術が有する課題を解消し、使い勝手がよく、容易に映像にあわせて音声データを記録することができ、より自然なＣＧアニメーションを生成することができる映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラムを提供することにある。
【０００７】
【課題を解決するための手段】
本発明は、前記した目的を達成するため、以下に示す構成とした。
請求項１記載の映像付帯音声データ記録方法は、映像データと、この映像データに付帯させる音声データの挿入箇所を示す情報と、当該音声データのテキストデータとに基づき、発声者が発声した前記音声データについて、前記映像データを表示画面に表示させた状態で、記録する映像付帯音声データ記録方法であって、前記音声データの挿入箇所を示す情報に基づいて、前記表示画面に表示させている映像データの再生を停止する映像停止制御ステップと、前記映像データに対応させ、前記音声データのテキストデータを字幕にしたテキストスーパーとして、当該映像データに付加して出力するか、前記音声データのテキストデータを音声合成した合成音声データとして、前記映像データに対応させて出力するかの少なくとも一方の出力をする映像スーパー合成音声出力ステップと、前記映像スーパー合成音声出力ステップにおいて、出力されたテキストスーパーと合成音声データとの少なくとも一方に基づいて前記発声者が発声した音声データについて、前記テキストデータに関連付けて記録する音声データ記録ステップと、前記音声データ記録ステップにより音声データを記録した後、前記映像データの再生を再開する映像再開制御ステップと、を含むことを特徴とする。
【０００８】
この方法によれば、まず、映像停止制御ステップにおいて、表示画面に表示されている映像データが停止され、そして、映像スーパー合成音声出力ステップにおいて、映像データにテキストスーパーと、音声データのテキストデータを音声合成した合成音声データとの少なくとも一方が対応付けられて出力される。音声データ記録ステップにおいて、発声者がテキストスーパーと合成音声データとの少なくとも一方に基づいて発声した音声データが記録される。その後、映像再開制御ステップにおいて、音声データを記録した後、映像データの再生が再開される。
【０００９】
なお、音声データのテキストスーパーは、映像に重ね書き（合成）され、また、合成音声データは、音声データを発声する声優等が映像を見る際に、当該映像を映し出すのに同期させて出力され、この合成音声データが、記録する（収録する）音声データの雑音にならないように、声優のみに聞こえるようにヘッドフォン等が利用され提供されてもよい。そして、この場合、声優等によって発声された音声データが記録されるまで、映像の再生（映し出し）を停止したりすることも可能である。映像データは、すでに制作されている映像のことを指しており、テレビ番組、映画、パッケージメディアにおけるアニメーション（ＣＧアニメーション）のことである。
【００１０】
請求項２記載の映像付帯音声データ記録装置は、映像データと、この映像データに付帯させる音声データの挿入箇所を示す情報と、当該音声データのテキストデータとに基づき、発声者が発声した前記音声データについて、前記映像データを表示画面に表示させた状態で、記録する映像付帯音声データ記録装置であって、前記映像データを読み込んで記録する映像記録手段と、前記映像データに対応させ、前記音声データのテキストデータを字幕にしたテキストスーパーとして、当該映像データに付加して出力するか、前記音声データのテキストデータを音声合成した合成音声データとして、前記映像データに対応させて出力するかの少なくとも一方の出力をする映像スーパー合成音声出力手段と、前記音声データの挿入箇所を示す情報に基づいて、前記表示画面に表示させている映像データの再生を停止し、前記音声データを記録した後、前記映像データの再生を再開するスーパー合成音声出力制御手段と、前記音声データを、前記テキストデータに対応する１個のファイルとして記録する音声データ記録手段と、を備えたことを特徴とする。
【００１１】
かかる構成によれば、映像スーパー合成音声出力手段で、映像データにテキストスーパーと、音声データのテキストデータを音声合成した合成音声データとの少なくとも一方が対応付けられて出力される。そして、スーパー合成音声出力制御手段で、表示画面に表示されている映像データが停止され、音声データを記録した後、映像データの再生が再開される。また、音声データ記録手段で、発声者がテキストスーパーと合成音声データとの少なくとも一方に基づいて発声した音声データがテキストデータに対応する１個のファイルとして記録される。
【００１２】
請求項３記載の映像付帯音声データ記録装置は、請求項２に記載の映像付帯音声データ記録装置において、前記スーパー合成音声出力制御手段で、前記映像にテキストスーパーが付加された場合、当該テキストスーパーを削除するスーパー削除手段を備えることを特徴とする。
【００１３】
かかる構成によれば、スーパー合成音声出力制御手段でテキストスーパーが付加された場合、スーパー削除手段でテキストスーパーが削除され、最終的に生成される映像データには、発声者が発声した音声データのみが付加されることになる。
【００１４】
請求項４記載の映像付帯音声データ記録装置は、ＣＧ合成による映像データのＣＧキャラクタを表示画面に表示させつつ、当該ＣＧキャラクタが話す台詞の音声データを記録する映像付帯音声データ記録装置であって、前記ＣＧキャラクタが台詞を話す映像シーンに関する情報を含んでなる映像シーンデータに基づいて、映像データを作成する映像作成手段と、前記台詞のテキストデータである台詞テキストデータに基づいて、前記映像データに合成するテキストスーパーを生成するテキストスーパー生成手段と、前記映像データおよび前記テキストスーパーを、前記映像シーンデータに含まれている時刻情報に基づいて合成して映像スーパー合成データを生成する映像スーパー合成手段と、前記台詞テキストデータに基づいて、音声合成を行って、合成音声データを生成する音声合成手段と、前記映像スーパー合成データおよび前記合成音声データの表示出力を制御する合成表示出力制御手段と、前記合成音声データと前記テキストスーパーとを参照して発声された音声データである台詞音声データを収録する音声データ収録手段と、前記映像シーンデータと前記台詞テキストデータとを記録すると共に、前記音声データ収録手段で収録された台詞音声データと前記台詞テキストデータとを関連付けて記録する記録手段と、を備えたことを特徴とする。
【００１５】
かかる構成によれば、映像作成手段で映像シーンデータに基づいて映像データが作成される。この映像シーンデータは、例えば、ＴＶＭＬ（ＴＶ　ｐｒｏｇｒａｍ　Ｍａｋｉｎｇ　Ｌａｎｇｕａｇｅ）で記述されており、この映像シーンデータは、各映像シーンの順番や、各映像シーンを構成する各映像コマの設定をするものである。続いて、テキストスーパー生成手段で、ＣＧキャラクタの台詞のテキストデータに基づいて、テキストスーパー、すなわち、字幕スーパーが生成される。そして、映像スーパー合成手段で、映像データとテキストスーパーとが映像シーンデータに含まれている時刻情報に基づいて合成され、映像スーパー合成データとされる。また、ＣＧキャラクタの台詞のテキストデータに基づいて、音声合成手段で合成音声データが生成される。そして、合成表示出力制御手段で映像スーパー合成データおよび合成音声データの表示出力が制御され、音声データ収録手段で、合成音声データとテキストスーパーとを参照して、声優等の発声者が発声した音声データである台詞音声データが収録される。その後、収録された台詞音声データと台詞テキストデータとが関連付けて記録手段に記録される。
【００１６】
なお、ＣＧキャラクタには、当該ＣＧキャラクタを識別する識別情報が付されており、例えば、この識別情報がＴＶＭＬで記述されている。また、合成表示出力制御手段における制御は、例えば、ＣＧキャラクタの台詞のある映像シーンになった場合に、映像データにテキストスーパーが合成されている映像スーパー合成データの再生を一時停止させて、この映像シーン（映像コマ）のテキストスーパーを読み上げるように促す信号（音声データ収録要求信号）を出力し、合成音声データを例示として出力するといったものである。さらに、合成表示出力制御手段における制御は、テキストスーパーが読み上げられた場合、つまり、音声データの収録が完了した場合に、停止中の映像スーパー合成データの再生を再開するといったものである。
【００１７】
請求項５記載の映像付帯音声データ記録装置は、請求項４記載の映像付帯音声データ記録装置において、単語の発音辞書と各音韻の特徴量が記された音響モデルとを有し、前記台詞音声データを参照して、前記台詞テキストデータを解析し、当該台詞テキストデータの時系列情報を含んでなる台詞音韻データに変換する音韻解析手段と、前記映像作成手段が、前記音韻解析手段で解析された台詞音韻データと、前記映像シーンデータとに基づいて、前記台詞音声データの発声と前記ＣＧキャラクタの口唇部の動きとが適合する映像であるリップシンク映像データを生成し、このリップシンク映像データと前記台詞音声データとを合成する映像音声データ合成手段と、を備えたことを特徴とする。
【００１８】
かかる構成によれば、音韻解析手段で台詞テキストデータが解析され、台詞音韻データに変換される。この音韻解析手段における音韻解析は、例えば、台詞音声データの各単語および各音素を解析することである。そして、映像作成手段で、台詞音韻データと映像シーンデータとに基づいて、台詞音声データの発声とＣＧキャラクタの口唇部の動きとが適合する映像であるリップシンク映像データが生成され、映像音声データ合成手段で、リップシンク映像データと台詞音声データとが合成される。
【００１９】
つまり、映像データがＣＧアニメーションであるので、ＣＧアニメーション中のＣＧキャラクタの口唇部の動きにあわせて、声優等が発声した音声データを記録した後に、当該ＣＧキャラクタの口唇部の形状を微調整する（変更する）ことができる。
【００２０】
なお、ＣＧアニメーションは、複数のセル画から構成されるアニメーションと異なり、ＣＧアニメーションを描画する装置（通常、コンピュータ）に入力するデータを変更するだけで容易にＣＧキャラクタ等の指定箇所の形状、色彩、質感を変更可能なものである。
【００２１】
請求項６記載の映像付帯音声データ記録プログラムは、映像データと、この映像データに付帯させる音声データの挿入箇所を示す情報と、当該音声データのテキストデータとに基づき、発声者が発声した前記音声データについて、前記映像データを表示画面に表示させた状態で、記録する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、前記映像データを読み込んで記録する映像記録手段、前記映像データに対応させ、前記音声データのテキストデータを字幕にしたテキストスーパーとして、当該映像データに付加して出力するか、前記音声データのテキストデータを音声合成した合成音声データとして、前記映像データに対応させて出力するかの少なくとも一方の出力をする映像スーパー合成音声出力手段、前記音声データの挿入箇所を示す情報に基づいて、前記表示画面に表示させている映像データの再生を停止し、前記音声データを記録した後、前記映像データの再生を再開するスーパー合成音声出力制御手段、前記音声データを、前記テキストデータに対応する１個のファイルとして記録する音声データ記録手段、である。
【００２２】
かかる構成によれば、映像スーパー合成音声出力手段で、映像データにテキストスーパーと、音声データのテキストデータを音声合成した合成音声データとの少なくとも一方が対応付けられて出力される。そして、スーパー合成音声出力制御手段で、表示画面に表示されている映像データが停止され、音声データを記録した後、映像データの再生が再開される。また、音声データ記録手段で、発声者がテキストスーパーと合成音声データとの少なくとも一方に基づいて発声した音声データがテキストデータに対応する１個のファイルとして記録される。
【００２３】
【発明の実施の形態】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。
（映像付帯音声データ記録装置の構成）
図１は、映像付帯音声データ記録装置のブロック図である。この図１に示すように、映像付帯音声データ記録装置１は、映像シーンデータ入力部３と、テキストデータ入力部５と、記録部７と、映像生成部９と、スーパー生成部１１と、映像スーパー合成部１３と、音声合成部１５と、表示出力部１７と、音声データ入力部１９と、音声収録部２１と、音韻解析部２３と、映像音声データ合成部２５とを備えている。
【００２４】
映像付帯音声データ記録装置１は、映像に付帯する音声データを記録するもので、特にＣＧアニメーションに登場するＣＧキャラクタ（ＣＧアクター、ＣＧアクトレス）の台詞である音声データを記録するものである。なお、この映像付帯音声データ記録装置１は、記録した音声データの音韻を解析して、この解析した結果に基づいて、ＣＧキャラクタの口唇部の動き（口唇部の映像）と音声データの出力音声とを適合させるリップシンク機能を有している。この実施の形態では、映像付帯音声データ記録装置１は、一般的なコンピュータをベースにし、「ＴＶＭＬプレーヤー」が実装されて実現されている。
【００２５】
映像シーンデータ入力部３は、外部から入力されるデータ（映像シーンデータ）を記録部７に記録するためのインターフェースであり、映像シーンデータが記録されたディスクを挿入するディスクドライブや、映像シーンデータを入力可能な入力端子等から構成される。
【００２６】
映像シーンデータは、映像シーンを構成する複数の映像コマ内のＣＧキャラクタや他のオブジェクト映像の配置位置等を設定すると共に、映像シーンを並べる順序を設定するもので、ＣＧアニメーションの“シナリオ”に相当するものである。なお、この実施の形態では、映像シーンデータはＴＶＭＬ（ＴｅｌｅＶｉｓｉｏｎ　ｐｒｏｇｒａｍ　Ｍａｋｉｎｇ　Ｌａｎｇｕａｇｅ）で記述されており、このＴＶＭＬの詳細な説明は、実際の記述例を参照して後ほど行うことにする。
【００２７】
テキストデータ入力部５は、ＣＧキャラクタの台詞である台詞テキストデータを入力して、この台詞テキストデータを記録部７に記録するためのインターフェースであり、一般的なキーボード、マウス等によって構成される。
台詞テキストデータは、ＣＧキャラクタの台詞であり、テキスト形式で記述されたものである。この実施の形態では、テキスト形式で記述された台詞が、ＣＧキャラクタを識別する識別情報（キャラクタ名）と組み合わされて、ＴＶＭＬで定義されている。
【００２８】
記録部７は、一般的なハードディスク等によって構成されており、映像シーンデータ、台詞テキストデータおよび台詞音声データ（後記する）を記録するものである。この記録部７が特許請求の範囲の請求項に記載した記録手段に相当するものである。
【００２９】
映像生成部９は、映像シーンデータに基づいて、映像データを生成するものである。この実施の形態では、映像データはＣＧアニメーションであり、このＣＧアニメーションは、ＴＶＭＬで記述された映像シーンデータ、例えば、ＣＧキャラクタのモデルデータ（形状データ）、初期位置や向き、音声合成部１５で音声合成させる際の声質等の定義に基づいて、描画されたＣＧキャラクタが登場（出演）し、このＣＧキャラクタの行動（演技）によって、会話、物語等が表現されるものである。この映像生成部９が特許請求の範囲の請求項に記載した映像作成手段に相当するものである。
【００３０】
スーパー生成部１１は、台詞テキストデータに基づいて、テキストスーパー（字幕スーパー）を生成するものである。このテキストスーパーは、一般的に類推される「台詞」の読み上げ速度にあわせて、テキストスーパーの文字の表示色が変化するようになっている。このスーパー生成部１１が特許請求の範囲の請求項に記載したテキストスーパー生成手段に相当するものである。
【００３１】
映像スーパー合成部１３は、ＣＧキャラクタが台詞を発声する時刻情報（映像シーンデータに含まれる）に基づいて、映像生成部９で生成された映像データとスーパー生成部１１で生成されたテキストスーパーとを合成し、映像スーパー合成データとするものである。この映像スーパー合成部１３が特許請求の範囲の請求項に記載した映像スーパー合成手段に相当するものである。
【００３２】
なお、映像付帯音声データ記録装置１には、当該装置１の制御を司る主制御部（図示せず）が備えられており、この主制御部は、音声データ入力部１９に備えられる各種スイッチ（後記する）からの制御信号に基づいて、映像スーパー合成データおよび合成音声データの表示出力部１７への表示出力を制御するものである。この主制御部が特許請求の範囲の請求項に記載した合成表示出力制御手段に相当するものである。また、この映像付帯音声データ記録装置１には、映像スーパー合成部１３で、映像データに合成されたテキストスーパーを削除するスーパー削除手段（図示せず）が備えられている。このスーパー削除手段によって、この映像付帯音声データ記録装置１から最終的に出力される映像音声データ（後記）には、テキストスーパーはなくなっている。
【００３３】
なお、この実施の形態では、映像生成部９と、スーパー生成部１１と、映像スーパー合成部１３と各構成を分離して、各構成の役割を明確にして説明したが、例えば、これら映像生成部９と、スーパー生成部１１と、映像スーパー合成部１３とを、ＴＶＭＬに基づいてテキストスーパー（字幕スーパー）を含むＣＧアニメーションを描く「ＣＧ描画部」といったように１個のブロックとして構成することもできる。この場合、これら映像生成部９と、スーパー生成部１１と、映像スーパー合成部１３とは、汎用的なコンピュータ言語で記述されたプログラムとみなすことができるものである。
【００３４】
音声合成部１５は、テキストデータ入力部５で入力された台詞テキストデータに基づいて、音声合成を行って合成音声データを生成するものである。なお、この実施の形態では、この音声合成部１５は、特開平２−４７７００号公報に開示されている方法（装置）を利用して、台詞テキストデータの音声合成を実行している。そして、音声合成部１５は、音声合成した合成音声データを、映像シーンデータに含まれている、ＣＧキャラクタが台詞を発声する時刻情報と、音声データ入力部１９に付属している合成音声データ再生要求スイッチ（図示せず、後記する）からの制御信号とに基づいて、表示出力部１７に出力（送出）する。この音声合成部１５が特許請求の範囲の請求項に記載した音声合成手段に相当するものである。
【００３５】
表示出力部１７は、表示画面を備えたＣＲＴ、液晶、プラズマ等のディスプレイ１７ａとスピーカ１７ｂとから構成されており、ＣＧアニメーションを表示すると共に、合成音声データを出力するものである。
【００３６】
音声データ入力部１９は、声優等が発声した音声（台詞音声データ）を入力（集音）するマイクロフォン等で構成され、さらに、図示を省略した台詞音声データ収録開始スイッチと、台詞音声データ収録終了スイッチと、合成音声データ再生要求スイッチとが付属してなるものである。これらの台詞音声データ収録開始スイッチ、台詞音声データ収録終了スイッチおよび合成音声データ再生要求スイッチは、映像付帯音声データ記録装置１の主制御部（図示せず）に制御信号を送信して、表示出力部１７への映像スーパー合成データの再生および合成音声データの出力のタイミングを制御するものである。
【００３７】
台詞音声データ収録開始スイッチ（図示せず）は、表示出力部１７のディスプレイ１７ａに表示されているテキストスーパー（字幕スーパー）に基づいて、声優等が台詞音声データを発声する際に、押下するもので、この台詞音声データ収録開始スイッチが押下されると、音声データ入力部１９から入力された台詞音声データの収録が映像付帯音声データ記録装置１の音声収録部２１で開始される。
【００３８】
台詞音声データ収録終了スイッチ（図示せず）は、表示出力部１７のディスプレイ１７ａに表示されているテキストスーパー（字幕スーパー）に基づいて、声優等が台詞音声データを発声した後に、押下するもので、この台詞音声データ収録終了スイッチが押下されると、音声データ入力部１９から入力された台詞音声データの収録が映像付帯音声データ記録装置１の音声収録部２１で終了される。
【００３９】
合成音声データ再生要求スイッチ（図示せず）は、表示出力部１７のスピーカ１７ｂで出力された合成音声データの再生を、再び要求するために押下するものである。
【００４０】
音声収録部２１は、音声データ入力部１９で入力された台詞音声データを記録部７に記録するためのインターフェースであり、台詞音声データを入力可能な入力端子等から構成される。この音声収録部２１で収録された台詞音声データは、記録部７に記録されている台詞テキストデータと関連付けられて、記録部７に記録されるものである。つまり、音声収録部２１は、台詞テキストデータ毎の終端（切れ目）を検出すると共に、この台詞テキストデータと台詞音声データとを逐次、１個の台詞ファイルにして、記録部７に記録させるものである。すると、記録部７には、映像シーン毎に複数の台詞ファイルが記録されることになる。この音声収録部２１が特許請求の範囲の請求項に記載した音声データ収録手段に相当するものである。
【００４１】
音韻解析部２３は、図示を省略した単語の発音辞書と各音韻の特徴量が記された音響モデルとを有し、記録部７に記録されている台詞テキストデータを、台詞音声データを参照して、時系列情報が含まれている台詞音韻データに変換するものである。つまり、台詞音韻データは、台詞テキストデータ中の単語および音素が時系列情報（発音時間）によって分割されたものであり、例えば、「いい天気ですね」という台詞テキストデータは「いい　天気　です　ね」といった具合に分割されており、“いい：０〜２０ｍｓ”というように、単語に時系列情報（発音時間）が付されているものである。なお、この台詞音韻データは、映像生成部９で、リップシンク映像データを生成する際に参照される。つまり、この台詞音韻データと、映像シーンデータに含まれている音素毎に定義されるＣＧキャラクタの口唇部の動きに関する情報であるＣＧキャラクタ口唇部情報とに基づいて、映像生成部９で、ＣＧキャラクタの口唇部の動きと台詞音声データの発声とを適合させた（マッチングさせた）リップシンク映像データが生成される。
【００４２】
映像音声データ合成部２５は、映像生成部９で音韻データおよびＣＧキャラクタ口唇部情報に基づいて生成されたリップシンク映像データと、台詞音声データとを映像シーンデータに含まれている時刻情報に基づいて合成し、リップシンク映像台詞音声データを表示出力部１７に出力するものである。
【００４３】
この映像付帯音声データ記録装置１によれば、映像生成部９で映像シーンデータに基づいて映像データが作成され、スーパー生成部１１で、ＣＧキャラクタの台詞テキストデータに基づいて、テキストスーパー、すなわち、字幕スーパーが生成される。また、ＣＧキャラクタの台詞テキストデータに基づいて、音声合成部１５で合成音声データが生成される。そして、映像スーパー合成部１３で、映像データとテキストスーパーとが映像シーンデータに含まれている時刻情報に基づいて合成され、映像スーパー合成データとされ、主制御部（図示せず）で映像スーパー合成データおよび合成音声データの表示出力が制御され、音声収録部２１で、合成音声データとテキストスーパーとを参照して、声優等の発声者が発声した音声データである台詞音声データが収録される。その後、収録された台詞音声データと台詞テキストデータとが関連付けて記録部７に記録される。
【００４４】
このため、声優等の発声者は、合成音声データとテキストスーパーとを参照して、台詞音声データを発声することができ、発声された台詞音声データが台詞テキストデータと関連付けて記録されるので、容易にＣＧキャラクタの映像にあった台詞音声データを記録することができる。
【００４５】
また、映像付帯音声データ記録装置１によれば、音韻解析部２３で台詞テキストデータの音韻が解析され、台詞音韻データに変換される。映像生成部９で、台詞音韻データと映像シーンデータとに基づいて、台詞音声データの発声とＣＧキャラクタの口唇部の動きとが適合する映像であるリップシンク映像データが生成され、映像音声データ合成部２５で、リップシンク映像データと台詞音声データとが合成される。このため、ＣＧアニメーション中のＣＧキャラクタの口唇部の動きと台詞音声データとを適合させたリップシンク映像台詞音声データを生成することができ、より自然なＣＧアニメーションを生成する（描画する）ことができる。
【００４６】
（映像付帯音声データ記録装置の動作［台詞音声データ収録時］）
次に、図２に示すフローチャートを参照して、台詞音声データ収録時の映像付帯音声データ記録装置１の動作を説明する。
まず、映像付帯音声データ記録装置１の映像シーンデータ入力部３で映像シーンデータが入力される（Ｓ１）。また、テキストデータ入力部５でＣＧキャラクタの台詞テキストデータが入力される（Ｓ２）。これらの映像シーンデータと台詞テキストデータとは、記録部７に記録される。
【００４７】
そして、映像生成部９で、記録部７に記録されている映像シーンデータに基づいて、映像データが生成される（Ｓ３）。この映像データは、ＴＶＭＬで記述されている映像シーンデータを元に描画されたＣＧアニメーションである。また、スーパー生成部１１で記録部に記録されている台詞テキストデータに基づいて、テキストスーパー（字幕スーパー）が生成される（Ｓ４）。
【００４８】
続いて、映像スーパー合成部１３で、映像生成部９にて生成された映像データに、スーパー生成部１１にて生成されたテキストスーパー（字幕スーパー）が、映像シーンデータの時刻情報に基づいて合成され、映像スーパー合成データとされる（Ｓ５）。なお、これらの動作Ｓ３〜Ｓ５は、一連の処理として説明したが、実際には、映像付帯音声データ記録装置１の主制御部（図示せず）において、マルチスタック処理により同時並行処理される。
【００４９】
さらに、音声合成部１５で、記録部７に台詞テキストデータに基づいて、音声合成が行われ、合成音声データが生成される（Ｓ６）。これら映像スーパー合成データと合成音声データが生成された状態で、当該装置１の利用者（声優等の発声者）から、これら映像スーパー合成データと合成音声データの再生出力要求があるまで（図示を省略した「映像スーパー合成データ」の再生開始スイッチが押下されるまで）待機される。当該装置１の利用者（声優等の発声者）から再生出力要求があった場合、まず、映像スーパー合成データの再生が表示出力部１７（ディスプレイ１７ａ）にて開始される（Ｓ７）。なお、当然のことながら、ＣＧキャラクタの台詞のない映像シーンにおいて、この映像スーパー合成データには、テキストスーパー（字幕スーパー）が含まれておらず、ディスプレイ１７ａにテキストスーパー（字幕スーパー）は表示されていない。
【００５０】
そして、ＣＧキャラクタの台詞のある映像シーンであるかどうかが図示を省略した主制御部で判断され、台詞のある映像シーンまで（Ｓ８、Ｎｏ）そのまま映像スーパー合成データの再生が続行され、ＣＧキャラクタの台詞のある映像シーンであると判断された場合、映像が停止され、表示出力部１７のディスプレイ１７ａにテキストスーパー（字幕スーパー）が表示され、スピーカ１７ｂに合成音声データが出力される（Ｓ９）。
【００５１】
すると、当該装置１の利用者（声優等の発声者）は、これらテキストスーパーを見ながら、音声データ入力部１９の台詞音声データ収録開始スイッチ（図示せず）を押下して、台詞音声データを発声する。発声し終わったら、台詞音声データ収録終了スイッチ（図示せず）を押下する。また、当該装置１の利用者（声優等の発声者）が台詞音声データの発声の要領が得られない場合（どんな風に台詞を発声したらいいかわからない場合）に、合成音声データ再生要求スイッチ（図示せず）を押下して、再度、合成音声データを聞き直して、参考にすることができる。当該装置１の利用者（声優等の発声者）によって、発声された台詞音声データは、映像付帯音声データ記録装置１の音声収録部２１で収録され、記録部７に、台詞テキストデータと関連付けられて、１個ずつ台詞ファイルとして記録される（Ｓ１０）。
【００５２】
映像付帯音声データ記録装置１の主制御部（図示せず）によって、当該装置１の利用者（声優等の発声者）が発声した台詞音声データの終端が検出された場合、または、台詞音声データ収録終了スイッチ（図示せず）が押下されたと判断された場合、少なくとも１個の台詞ファイルが生成され、当該装置１の利用者（声優等の発声者）に対し、台詞音声データの収録を終了するか、映像スーパー合成データの再生を続行するかが確認される。そのために、まず、台詞音声データの収録を終了するかを示すメッセージが表示出力部１７のディスプレイ１７ａに表示され、当該装置１の利用者（声優等の発声者）の返答を催促する（Ｓ１１）。当該装置１の利用者（声優等の発声者）が映像付帯音声データ記録装置１の動作（台詞音声データの収録）を終了すると判断した場合（Ｓ１１、Ｙｅｓ）、台詞音声データの収録が終了される。
【００５３】
また、当該装置１の利用者（声優等の発声者）が映像付帯音声データ記録装置１の動作を終了すると判断しない場合（Ｓ１１、Ｎｏ）、映像スーパー合成データの再生を続行するかを示すメッセージが表示出力部１７のディスプレイ１７ａに表示され、当該装置１の利用者（声優等の発声者）の返答を催促する（Ｓ１２）。映像スーパー合成データの再生を続行すると判断した場合（Ｓ１２、Ｙｅｓ）には、Ｓ７に戻って映像スーパー合成データの再生が続けられ、映像スーパー合成データの再生を続行すると判断されない場合（Ｓ１２、Ｎｏ）、はじめ（Ｓ１）に戻って、当該装置１の動作が継続される。
【００５４】
（映像付帯音声データ記録装置の動作［リップシンク映像データ合成時］）
続いて、図３に示すフローチャートを参照して、リップシンク映像データを生成して台詞音声データと合成する時の映像付帯音声データ記録装置１の動作を説明する。
【００５５】
まず、音韻解析部２３で、記録部７に記録されている台詞テキストデータが音韻解析され（台詞音声データが参照される）、台詞音韻データに変換される（Ｓ２１）。この台詞音韻データが映像生成部９に出力される。この台詞音韻データには、台詞テキストデータを分割した単語および音素に、時系列情報（発音時間）が付されている。
【００５６】
映像生成部９で、台詞音韻データ（分割した単語および音素に、時系列情報が付加）と映像シーンデータに含まれている時刻情報とに基づいて、ＣＧキャラクタの口唇部の動きと台詞音声データとを適合させたリップシンク映像データが生成され、映像音声データ合成部２５へ出力される（Ｓ２２）。そして、映像音声データ合成部２５で、リップシンク映像データに台詞音声データが、映像シーンデータに含まれている時刻情報に基づいて合成され、リップシンク映像台詞音声データとして表示出力部１７へ出力される（Ｓ２３）。このリップシンク映像台詞音声データが表示出力部１７で表示出力される（Ｓ２４）。
【００５７】
（映像付帯音声データ記録装置の具体的な動作例）
次に、図４を参照して、映像付帯音声データ記録装置１の具体的な動作例を説明する。図４は、表示出力部１７のディスプレイ１７ａに表示されるＣＧアニメーションを図４中、上から表示される順序に４コマ分（ａ）〜（ｄ）図示した説明図である。
【００５８】
図４（ａ）は、地平線が見渡せる背景に、１体のＣＧキャラクタ（角ありキャラクタとする）が佇んでいる映像シーンを示している。この映像シーンにおける角ありキャラクタには台詞が設定されていないので、普通に（そのまま）映像スーパー合成データが再生される。
【００５９】
図４（ｂ）は、角ありキャラクタが佇んでいる所に、新たなＣＧキャラクタ（図４（ｂ）説明中ではＣＧアクター、角なしキャラクタとする）が登場し、この角なしキャラクタが角ありキャラクタに挨拶「いい天気ですねー」する映像シーンを示している。つまり、この映像シーンでは、角なしキャラクタに台詞が設定されており、この映像シーンになったら、映像付帯音声データ記録装置１の主制御部（図示せず）による制御で、映像スーパー合成データの再生が一時停止される。そして、角なしキャラクタが喋る台詞がテキストスーパーで表示出力部１７のディスプレイ１７ａに表示されると共に、合成音声データが表示出力部１７のスピーカ１７ｂに出力される。
【００６０】
図４（ｃ）は、ＣＧキャラクタ（角なしキャラクタ）が喋る台詞である台詞音声データを発声する声優等の発声者が、映像スーパー合成データを見ながら台詞音声データを発声し、この発声した台詞音声データを収録する際の、映像シーンおよび声優等の発声者を示している。声優等の発声者は、マイクロフォン等で構成される音声データ入力部１９に向かって、ＣＧキャラクタの台詞である台詞テキストデータを読み上げた「台詞音声データ」を入力している。
【００６１】
この場合、声優等の発声者は、音声データ入力部１９の台詞音声データ収録開始スイッチ（図示せず）を押下後に、台詞テキストデータを読み上げる。すると、図４（ｃ）中の左上方に示したようにディスプレイ１７ａには、「●収録開始」が表示される。このため、声優等の発声者は台詞音声データを収録中であることが、目視で確認できる。なお、この「●収録開始」の表示は、声優等の発声者が、音声データ入力部１９の台詞音声データ収録開始スイッチを押下しなくても、自動的に、ディスプレイ１７ａに表示させるように、映像シーンデータに記述しておくことで行うことも可能である。
【００６２】
図４（ｄ）は、角なしキャラクタが喋る台詞が終了し、角なしキャラクタと、角ありキャラクタとが向き合っている映像シーンを示している。つまり、この映像シーンでは、角なしキャラクタが喋る台詞である台詞テキストデータと、声優等の発声者が発声した台詞音声データとが比較され、台詞音声データの終わり（終端）が映像付帯音声データ記録装置１の主制御部（図示せず）によって検出され、この一連の動作によって、１個の台詞テキストデータに対する１個の台詞音声データが生成され、これら台詞テキストデータと台詞音声データとが、音声収録部２１で関連付けられ１個の台詞ファイルとして記録部７に記録される。
【００６３】
（ＣＧキャラクタの口唇部の例）
次に、図５を参照して、映像生成部９で生成されるリップシンク映像データ（ＣＧキャラクタの口唇部の例）を説明する。図５（ａ）〜（ｆ）は、ＣＧキャラクタの口唇部の形状と、発音される母音および無音・破裂音との関係を図示したものである。
【００６４】
図５（ａ）は、母音「あ」を発音した際の、ＣＧキャラクタの口唇部の形状を示している。図５（ｂ）は、母音「い」を発音した際の、ＣＧキャラクタの口唇部の形状を示している。図５（ｃ）は、母音「う」を発音した際の、ＣＧキャラクタの口唇部の形状を示している。図５（ｄ）は、母音「え」を発音した際の、ＣＧキャラクタの口唇部の形状を示している。図５（ｅ）は、母音「お」を発音した際の、ＣＧキャラクタの口唇部の形状を示している。図５（ｆ）は、無音・破裂音を発音した際の、ＣＧキャラクタの口唇部の形状を示している。なお、この実施の形態では、図示を省略したが、各子音を発音した際の、ＣＧキャラクタの口唇部の形状も設定されている。
【００６５】
これら図５（ａ）〜図５（ｆ）に示したように、母音毎に、厳密にＣＧキャラクタの口唇部の形状が設定されているので、映像生成部９で台詞音韻データと映像シーンデータとに基づいて生成されるリップシンク映像データは、従来のＣＧアニメーション（映像データ）に比べ、ＣＧキャラクタの口唇部の「ぎこちなさ」、「不自然さ」が解消される。つまり、この映像付帯音声データ記録装置１によれば、人間が台詞を発声するように、リアリティのあるＣＧキャラクタを含むＣＧアニメーションを制作することができる。
【００６６】
（ＴＶＭＬによる映像シーンデータと台詞テキストデータの例）
次に、図６を参照して、ＴＶＭＬによる映像シーンデータと台詞テキストデータの例について説明する。図６は、映像シーンデータと台詞テキストデータとをＴＶＭＬで記述したＴＶＭＬスクリプト（ＴＶＭＬ台本）である。このＴＶＭＬスクリプトが映像生成部９、スーパー生成部１１および映像スーパー合成部１３で映像スーパー合成データとされる（ＣＧアニメーションに描画される）。
【００６７】
また、このＴＶＭＬスクリプトは、一般的なＴＶＭＬプレーヤー（図示せず）で、図６に表記したように、図６中、上から順番に一行一行解釈され（インタープリター動作）実行可能なものである。「Ａ」行の“ｓｅｔ：ｃｈａｎｇｅ”は、制作するＣＧアニメーション番組（アニメーション番組）に使用するセット（舞台や背景）のデータを定義するものである。この例では（ｆｕｊｉ）という名前のモデルデータが読み込まれる。
【００６８】
「Ｂ」行の“ｃｈａｒａｃｔｅｒ：ｃａｓｔｉｎｇ”は、制作するＣＧアニメーション番組（アニメーション番組）に登場するＣＧキャラクタ（キャラクタ）の名前を定義するものである。「Ｃ」行の“ｃｈａｒａｃｔｅｒ：ｂｉｎｄｍｏｄｅｌ”は、定義したＣＧキャラクタ（キャラクタ）にモデルデータを割り当てるものである。
【００６９】
「Ｄ」行の“ｃｈａｒａｃｔｅｒ：ｐｏｓｉｔｉｏｎ”は、ＣＧキャラクタ（キャラクタ）の３次元座標上での初期位置・向きを設定するものである。「Ｅ」行の“ｃｈａｒａｃｔｅｒ：ｓｅｔｖｏｉｃｅ”は、ＣＧキャラクタ（キャラクタ）に音声合成部１５で合成音声データを生成する際の声質を割り当てるものである。
【００７０】
「Ｆ」行の“ｌｉｇｈｔ：ａｓｓｉｇｎ”は、制作するＣＧアニメーション番組（アニメーション番組）に使用する照明の名前を定義するものである。「Ｇ」行の“ｌｉｇｈｔ：ｍｏｄｅｌ”は、光源の種類、３次元座標上の位置・向き、明るさ、色彩等を指定するものである。
【００７１】
「Ｈ」行の“ｃａｍｅｒａ：ｍｏｖｅｍｅｎｔ”は、制作するＣＧアニメーション番組（アニメーション番組）に使用するカメラ（ＣＧ空間上の視点）の位置・向き、視野角等を設定するものである。「Ｉ」行の“ｃｈａｒａｃｔｅｒ：ｗａｌｋ”は、ＣＧキャラクタ（キャラクタ）を指定する座標地点まで歩かせることを定義するものである。
【００７２】
「Ｊ」行の“ｃｈａｒａｃｔｅｒ：ｔｕｒｎ”は、ＣＧキャラクタ（キャラクタ）を指定する角度方向に向きを変えることを定義するものである。「Ｋ」行の“ｃｈａｒａｃｔｅｒ：ｌｏｏｋ”は、ＣＧキャラクタ（キャラクタ）の視線（顔）を対象オブジェクトの方向に向けることを定義するものである。
【００７３】
「Ｌ」行の“ｃｈａｒａｃｔｅｒ：ｔａｌｋ”は、台詞テキストデータ（ｔｅｘｔ）の文字列をテキストスーパーとして表示すること（字幕スーパー表示すること）と、同時に、音声合成部１５で音声合成された合成音声データによって発話の例示を行うことを定義するものである。
【００７４】
この“ｃｈａｒａｃｔｅｒ：ｔａｌｋ”の「Ｌ」行に到達した段階で、映像スーパー合成データの再生が一時停止され、声優等の発声者が発声した台詞音声データの収録が開始するメッセージがディスプレイ１７ａに表示され、台詞音声データの収録が開始される。音声データ入力部１９を介して入力された台詞音声データと台詞テキストデータとが随時照合されて、発話が終わった段階（台詞音声データの終端を検出した段階）で台詞音声データの収録が終了される。
【００７５】
例えば、この図６の「Ｌ」行に示したように「ｃｈａｒａｃｔｅｒ：ｔａｌｋ（ｎａｍｅ＝ＭＡＲＹ，ｔｅｘｔ＝“いい天気ですねー”）」では、「いい天気ですねー」とテキストスーパー（字幕スーパー）をディスプレイ１７ａに表示し、同時に音声合成部１５によって合成音声データとされ、スピーカ１７ｂで発話される（出力される）。合成音声データの出力が終了した段階で、収録開始メッセージ「●収録開始」がディスプレイ１７ａに表示され、台詞音声データ「いい天気ですねー」の収録が開始される。
【００７６】
音声データ入力部１９を介して入力された台詞音声データ「いい天気ですねー」と台詞テキストデータ「いい天気ですねー」とが照合され、発話の終了が検出された段階で台詞音声データの収録が終了される。収録した台詞音声データとＴＶＭＬスクリプトの「ｃｈａｒａｃｔｅｒ：ｔａｌｋ（ｎａｍｅ＝ＭＡＲＹ，ｔｅｘｔ＝“いい天気ですねー”）」というコマンドが関連付けられ、例えば、ｓｅｌｉｆ１．ｗａｖという音声データファイル（台詞ファイル）として記録部７に記録される。
【００７７】
以上、一実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。
例えば、映像付帯音声データ記録装置１の各構成の処理を一つずつの工程（過程）ととらえた映像付帯音声データ記録方法とみなすことや、映像付帯音声データ記録装置１の各構成の処理を一般的なコンピュータ言語で記述した映像付帯音声データ記録プログラムとみなすことも可能である。これらの場合、映像付帯音声データ記録装置１と同様の効果が得られる共に、映像付帯音声データ記録プログラムの場合、記憶媒体に記憶させて流通させることや、ネットワーク等を介して、活用することなどが可能である。
【００７８】
【発明の効果】
請求項１、２、６記載の発明によれば、映像に音声データのテキストスーパーと、音声データのテキストを音声合成した合成音声データとの少なくとも一方が付加され、出力されると共に、発声者によって読み上げられた音声データが記録される。このため、発声者は、合成音声データとテキストスーパーとを参照して、音声データを発声することができ、容易に映像にあった音声データを記録することができる。
【００７９】
請求項３記載の発明によれば、テキストスーパーが付加された場合、スーパー削除手段でテキストスーパーが削除され、最終的には、映像データと発声者が読み上げた音声データとが合成された映像音声データを得ることができる。
【００８０】
請求項４記載の発明によれば、映像シーンデータに基づいて映像データが作成され、また、ＣＧキャラクタの台詞のテキストデータに基づいて、テキストスーパーが生成される。そして、映像データとテキストスーパーとが映像シーンデータに含まれている時刻情報に基づいて合成され、映像スーパー合成データとされる。また、ＣＧキャラクタの台詞のテキストデータに基づいて合成音声データが生成される。その後、映像スーパー合成データおよび合成音声データの表示出力が制御され、合成音声データとテキストスーパーとを参照して、声優等の発声者が発声した音声データである台詞音声データが収録される。その後、収録された台詞音声データと台詞テキストデータとが関連付けて記録される。このため、声優等の発声者は、合成音声データとテキストスーパーとを参照して、台詞音声データを発声することができ、発声された台詞音声データが台詞テキストデータと関連付けて記録されるので、容易にＣＧキャラクタの映像にあった台詞音声データを記録することができる。
【００８１】
請求項５記載の発明によれば、台詞テキストデータが解析され、台詞音韻データに変換される。台詞音韻データと映像シーンデータとに基づいて、台詞音声データの発声とＣＧキャラクタの口唇部の動きとが適合する映像であるリップシンク映像データが生成され、リップシンク映像データと台詞音声データとが合成される。このため、ＣＧアニメーション中のＣＧキャラクタの口唇部の動きと台詞音声データとを適合させたリップシンク映像台詞音声データを生成することができ、より自然なＣＧアニメーションを生成する（描画する）ことができる。
【図面の簡単な説明】
【図１】本発明による一実施の形態である映像付帯音声データ記録装置のブロック図である。
【図２】図１に示した映像付帯音声データ記録装置の動作（台詞音声データ収録時）を説明したフローチャートである。
【図３】図１に示した映像付帯音声データ記録装置の動作（リップシンク映像データ合成時）を説明したフローチャートである。
【図４】映像付帯音声データ記録装置の具体的な動作例説明した説明図である。
【図５】ＣＧキャラクタの口唇部の形状と、発音される母音および無音・破裂音との関係を示した図である。
【図６】ＴＶＭＬによる映像シーンデータと台詞テキストデータの例を示した図である。
【符号の説明】
１　映像付帯音声データ記録装置
３　映像シーンデータ入力部
５　テキストデータ入力部
７　記録部
９　映像生成部
１１　スーパー生成部
１３　映像スーパー合成部
１５　音声合成部
１７　表示出力部
１７ａ　ディスプレイ
１７ｂ　スピーカ
１９　音声データ入力部
２１　音声収録部
２３　音韻解析部
２５　映像音声データ合成部

Claims

映像データと、この映像データに付帯させる音声データの挿入箇所を示す情報と、当該音声データのテキストデータとに基づき、発声者が発声した前記音声データについて、前記映像データを表示画面に表示させた状態で、記録する映像付帯音声データ記録方法であって、
前記音声データの挿入箇所を示す情報に基づいて、前記表示画面に表示させている映像データの再生を停止する映像停止制御ステップと、
前記映像データに対応させ、前記音声データのテキストデータを字幕にしたテキストスーパーとして、当該映像データに付加して出力するか、前記音声データのテキストデータを音声合成した合成音声データとして、前記映像データに対応させて出力するかの少なくとも一方の出力をする映像スーパー合成音声出力ステップと、
前記映像スーパー合成音声出力ステップにおいて、出力されたテキストスーパーと合成音声データとの少なくとも一方に基づいて前記発声者が発声した音声データについて、前記テキストデータに関連付けて記録する音声データ記録ステップと、
前記音声データ記録ステップにより音声データを記録した後、前記映像データの再生を再開する映像再開制御ステップと、
を含むことを特徴とする映像付帯音声データ記録方法。
映像データと、この映像データに付帯させる音声データの挿入箇所を示す情報と、当該音声データのテキストデータとに基づき、発声者が発声した前記音声データについて、前記映像データを表示画面に表示させた状態で、記録する映像付帯音声データ記録装置であって、
前記映像データを読み込んで記録する映像記録手段と、
前記映像データに対応させ、前記音声データのテキストデータを字幕にしたテキストスーパーとして、当該映像データに付加して出力するか、前記音声データのテキストデータを音声合成した合成音声データとして、前記映像データに対応させて出力するかの少なくとも一方の出力をする映像スーパー合成音声出力手段と、
前記音声データの挿入箇所を示す情報に基づいて、前記表示画面に表示させている映像データの再生を停止し、前記音声データを記録した後、前記映像データの再生を再開するスーパー合成音声出力制御手段と、
前記音声データを、前記テキストデータに対応する１個のファイルとして記録する音声データ記録手段と、
を備えたことを特徴とする映像付帯音声データ記録装置。
前記スーパー合成音声出力制御手段で、前記映像データにテキストスーパーが付加された場合、当該テキストスーパーを削除するスーパー削除手段を備えることを特徴とする請求項２に記載の映像付帯音声データ記録装置。
ＣＧ合成による映像データのＣＧキャラクタを表示画面に表示させつつ、当該ＣＧキャラクタが話す台詞の音声データを記録する映像付帯音声データ記録装置であって、
前記ＣＧキャラクタが台詞を話す映像シーンに関する情報を含んでなる映像シーンデータに基づいて、映像データを作成する映像作成手段と、
前記台詞のテキストデータである台詞テキストデータに基づいて、前記映像データに合成するテキストスーパーを生成するテキストスーパー生成手段と、
前記映像データおよび前記テキストスーパーを、前記映像シーンデータに含まれている時刻情報に基づいて合成して映像スーパー合成データを生成する映像スーパー合成手段と、
前記台詞テキストデータに基づいて、音声合成を行って、合成音声データを生成する音声合成手段と、
前記映像スーパー合成データおよび前記合成音声データの表示出力を制御する合成表示出力制御手段と、
前記合成音声データと前記テキストスーパーとを参照して発声された音声データである台詞音声データを収録する音声データ収録手段と、
前記映像シーンデータと前記台詞テキストデータとを記録すると共に、前記音声データ収録手段で収録された台詞音声データと前記台詞テキストデータとを関連付けて記録する記録手段と、
を備えたことを特徴とする映像付帯音声データ記録装置。
単語の発音辞書と各音韻の特徴量が記された音響モデルとを有し、前記台詞音声データを参照して、前記台詞テキストデータを解析し、当該台詞テキストデータの時系列情報を含んでなる台詞音韻データに変換する音韻解析手段と、
前記映像作成手段が、前記音韻解析手段で解析された台詞音韻データと、前記映像シーンデータとに基づいて、前記台詞音声データの発声と前記ＣＧキャラクタの口唇部の動きとが適合する映像であるリップシンク映像データを生成し、
このリップシンク映像データと前記台詞音声データとを合成する映像音声データ合成手段と、
を備えたことを特徴とする請求項４記載の映像付帯音声データ記録装置。
映像データと、この映像データに付帯させる音声データの挿入箇所を示す情報と、当該音声データのテキストデータとに基づき、発声者が発声した前記音声データについて、前記映像データを表示画面に表示させた状態で、記録する装置を、
前記映像データを読み込んで記録する映像記録手段、
前記映像データに対応させ、前記音声データのテキストデータを字幕にしたテキストスーパーとして、当該映像データに付加して出力するか、前記音声データのテキストデータを音声合成した合成音声データとして、前記映像データに対応させて出力するかの少なくとも一方の出力をする映像スーパー合成音声出力手段、
前記音声データの挿入箇所を示す情報に基づいて、前記表示画面に表示させている映像データの再生を停止し、前記音声データを記録した後、前記映像データの再生を再開するスーパー合成音声出力制御手段、
前記音声データを、前記テキストデータに対応する１個のファイルとして記録する音声データ記録手段、
として機能させることを特徴とする映像付帯音声データ記録プログラム。