JP2004071013A - 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム - Google Patents

映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム Download PDF

Info

Publication number
JP2004071013A
JP2004071013A JP2002226790A JP2002226790A JP2004071013A JP 2004071013 A JP2004071013 A JP 2004071013A JP 2002226790 A JP2002226790 A JP 2002226790A JP 2002226790 A JP2002226790 A JP 2002226790A JP 2004071013 A JP2004071013 A JP 2004071013A
Authority
JP
Japan
Prior art keywords
data
video
recording
audio data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002226790A
Other languages
English (en)
Other versions
JP4052561B2 (ja
Inventor
Narichika Hamaguchi
浜口 斉周
Mamoru Doke
道家 守
Masaki Hayashi
林 正樹
Hiroyuki Segi
世木 寛之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2002226790A priority Critical patent/JP4052561B2/ja
Publication of JP2004071013A publication Critical patent/JP2004071013A/ja
Application granted granted Critical
Publication of JP4052561B2 publication Critical patent/JP4052561B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】使い勝手がよく、容易に映像にあわせて音声データを記録することができ、より自然なCGアニメーションを生成することができる映像付帯音声データ記録方法、装置、プログラムを提供する。
【解決手段】CGアニメーションのCGキャラクタを表示画面に表示させつつ、当該CGキャラクタが話す台詞の音声データを記録する映像付帯音声データ記録装置1であって、映像データを作成する映像生成部9と、テキストスーパーを生成するスーパー生成部11と、映像データおよびテキストスーパーを合成して映像スーパー合成データを生成する映像スーパー合成部13と、音声合成を行って、合成音声データを生成する音声合成部15と、合成音声データとテキストスーパーとを参照して発声された台詞音声データを収録する音声収録部21と、台詞音声データと台詞テキストデータとを記録する記録部7とを備えた。
【選択図】   図1

Description

【0001】
【発明の属する技術分野】
本発明は、テレビ番組、映画、アニメーション等の映像、特にCGアニメーションに付帯させる音声データを記録する映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラムに関する。
【0002】
【従来の技術】
従来、映像等を制作した後に、この映像にあわせて音声データを記録するアフターレコーディングの場合、特に、CGアニメーションのCGキャラクタの台詞を声優等が読み上げて記録する場合には、当該CGキャラクタの口の動き(口唇部の動き)にあわせて声優が声(音声データ)を発声する必要がある。
【0003】
また、映像を制作する前に、音声データを記録するプリレコーディングの場合、記録した音声データに適合するように映像を制作する必要があり、特に、CGアニメーションのCGキャラクタの台詞の場合、記録した音声データである台詞音声データに適合する(リップシンクする)ようにCGキャラクタの口唇部の動きを調整する必要がある。
【0004】
【発明が解決しようとする課題】
しかしながら、従来のアフターレコーディングでは、CGキャラクタの口唇部の動きにあわせて発声しなければならないので、音声データの収録作業が煩雑になるという問題がある。また、CGキャラクタの口唇部の動きにあわせる(リップシンクさせる)ことは、十分な経験を積まないと難しく、場合によっては、不自然なCGアニメーションになってしまうという問題がある。
【0005】
さらに、台詞音声データをプリレコーディングしてから、CGアニメーション(映像)を制作すれば、リップシンクすることは可能であるが、予め、CGアニメーションが出来上がっていないためにアフターレコーディングのように、CGアニメーション(映像)を見ながら発声できない。それゆえ、台詞音声データを発声する声優等が映像シーンを想起することができないため、台詞音声データに感情が込められないというような、使い勝手が悪いという問題がある。
【0006】
そこで、本発明の目的は前記した従来の技術が有する課題を解消し、使い勝手がよく、容易に映像にあわせて音声データを記録することができ、より自然なCGアニメーションを生成することができる映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラムを提供することにある。
【0007】
【課題を解決するための手段】
本発明は、前記した目的を達成するため、以下に示す構成とした。
請求項1記載の映像付帯音声データ記録方法は、映像データと、この映像データに付帯させる音声データの挿入箇所を示す情報と、当該音声データのテキストデータとに基づき、発声者が発声した前記音声データについて、前記映像データを表示画面に表示させた状態で、記録する映像付帯音声データ記録方法であって、前記音声データの挿入箇所を示す情報に基づいて、前記表示画面に表示させている映像データの再生を停止する映像停止制御ステップと、前記映像データに対応させ、前記音声データのテキストデータを字幕にしたテキストスーパーとして、当該映像データに付加して出力するか、前記音声データのテキストデータを音声合成した合成音声データとして、前記映像データに対応させて出力するかの少なくとも一方の出力をする映像スーパー合成音声出力ステップと、前記映像スーパー合成音声出力ステップにおいて、出力されたテキストスーパーと合成音声データとの少なくとも一方に基づいて前記発声者が発声した音声データについて、前記テキストデータに関連付けて記録する音声データ記録ステップと、前記音声データ記録ステップにより音声データを記録した後、前記映像データの再生を再開する映像再開制御ステップと、を含むことを特徴とする。
【0008】
この方法によれば、まず、映像停止制御ステップにおいて、表示画面に表示されている映像データが停止され、そして、映像スーパー合成音声出力ステップにおいて、映像データにテキストスーパーと、音声データのテキストデータを音声合成した合成音声データとの少なくとも一方が対応付けられて出力される。音声データ記録ステップにおいて、発声者がテキストスーパーと合成音声データとの少なくとも一方に基づいて発声した音声データが記録される。その後、映像再開制御ステップにおいて、音声データを記録した後、映像データの再生が再開される。
【0009】
なお、音声データのテキストスーパーは、映像に重ね書き(合成)され、また、合成音声データは、音声データを発声する声優等が映像を見る際に、当該映像を映し出すのに同期させて出力され、この合成音声データが、記録する(収録する)音声データの雑音にならないように、声優のみに聞こえるようにヘッドフォン等が利用され提供されてもよい。そして、この場合、声優等によって発声された音声データが記録されるまで、映像の再生(映し出し)を停止したりすることも可能である。映像データは、すでに制作されている映像のことを指しており、テレビ番組、映画、パッケージメディアにおけるアニメーション(CGアニメーション)のことである。
【0010】
請求項2記載の映像付帯音声データ記録装置は、映像データと、この映像データに付帯させる音声データの挿入箇所を示す情報と、当該音声データのテキストデータとに基づき、発声者が発声した前記音声データについて、前記映像データを表示画面に表示させた状態で、記録する映像付帯音声データ記録装置であって、前記映像データを読み込んで記録する映像記録手段と、前記映像データに対応させ、前記音声データのテキストデータを字幕にしたテキストスーパーとして、当該映像データに付加して出力するか、前記音声データのテキストデータを音声合成した合成音声データとして、前記映像データに対応させて出力するかの少なくとも一方の出力をする映像スーパー合成音声出力手段と、前記音声データの挿入箇所を示す情報に基づいて、前記表示画面に表示させている映像データの再生を停止し、前記音声データを記録した後、前記映像データの再生を再開するスーパー合成音声出力制御手段と、前記音声データを、前記テキストデータに対応する1個のファイルとして記録する音声データ記録手段と、を備えたことを特徴とする。
【0011】
かかる構成によれば、映像スーパー合成音声出力手段で、映像データにテキストスーパーと、音声データのテキストデータを音声合成した合成音声データとの少なくとも一方が対応付けられて出力される。そして、スーパー合成音声出力制御手段で、表示画面に表示されている映像データが停止され、音声データを記録した後、映像データの再生が再開される。また、音声データ記録手段で、発声者がテキストスーパーと合成音声データとの少なくとも一方に基づいて発声した音声データがテキストデータに対応する1個のファイルとして記録される。
【0012】
請求項3記載の映像付帯音声データ記録装置は、請求項2に記載の映像付帯音声データ記録装置において、前記スーパー合成音声出力制御手段で、前記映像にテキストスーパーが付加された場合、当該テキストスーパーを削除するスーパー削除手段を備えることを特徴とする。
【0013】
かかる構成によれば、スーパー合成音声出力制御手段でテキストスーパーが付加された場合、スーパー削除手段でテキストスーパーが削除され、最終的に生成される映像データには、発声者が発声した音声データのみが付加されることになる。
【0014】
請求項4記載の映像付帯音声データ記録装置は、CG合成による映像データのCGキャラクタを表示画面に表示させつつ、当該CGキャラクタが話す台詞の音声データを記録する映像付帯音声データ記録装置であって、前記CGキャラクタが台詞を話す映像シーンに関する情報を含んでなる映像シーンデータに基づいて、映像データを作成する映像作成手段と、前記台詞のテキストデータである台詞テキストデータに基づいて、前記映像データに合成するテキストスーパーを生成するテキストスーパー生成手段と、前記映像データおよび前記テキストスーパーを、前記映像シーンデータに含まれている時刻情報に基づいて合成して映像スーパー合成データを生成する映像スーパー合成手段と、前記台詞テキストデータに基づいて、音声合成を行って、合成音声データを生成する音声合成手段と、前記映像スーパー合成データおよび前記合成音声データの表示出力を制御する合成表示出力制御手段と、前記合成音声データと前記テキストスーパーとを参照して発声された音声データである台詞音声データを収録する音声データ収録手段と、前記映像シーンデータと前記台詞テキストデータとを記録すると共に、前記音声データ収録手段で収録された台詞音声データと前記台詞テキストデータとを関連付けて記録する記録手段と、を備えたことを特徴とする。
【0015】
かかる構成によれば、映像作成手段で映像シーンデータに基づいて映像データが作成される。この映像シーンデータは、例えば、TVML(TV program Making Language)で記述されており、この映像シーンデータは、各映像シーンの順番や、各映像シーンを構成する各映像コマの設定をするものである。続いて、テキストスーパー生成手段で、CGキャラクタの台詞のテキストデータに基づいて、テキストスーパー、すなわち、字幕スーパーが生成される。そして、映像スーパー合成手段で、映像データとテキストスーパーとが映像シーンデータに含まれている時刻情報に基づいて合成され、映像スーパー合成データとされる。また、CGキャラクタの台詞のテキストデータに基づいて、音声合成手段で合成音声データが生成される。そして、合成表示出力制御手段で映像スーパー合成データおよび合成音声データの表示出力が制御され、音声データ収録手段で、合成音声データとテキストスーパーとを参照して、声優等の発声者が発声した音声データである台詞音声データが収録される。その後、収録された台詞音声データと台詞テキストデータとが関連付けて記録手段に記録される。
【0016】
なお、CGキャラクタには、当該CGキャラクタを識別する識別情報が付されており、例えば、この識別情報がTVMLで記述されている。また、合成表示出力制御手段における制御は、例えば、CGキャラクタの台詞のある映像シーンになった場合に、映像データにテキストスーパーが合成されている映像スーパー合成データの再生を一時停止させて、この映像シーン(映像コマ)のテキストスーパーを読み上げるように促す信号(音声データ収録要求信号)を出力し、合成音声データを例示として出力するといったものである。さらに、合成表示出力制御手段における制御は、テキストスーパーが読み上げられた場合、つまり、音声データの収録が完了した場合に、停止中の映像スーパー合成データの再生を再開するといったものである。
【0017】
請求項5記載の映像付帯音声データ記録装置は、請求項4記載の映像付帯音声データ記録装置において、単語の発音辞書と各音韻の特徴量が記された音響モデルとを有し、前記台詞音声データを参照して、前記台詞テキストデータを解析し、当該台詞テキストデータの時系列情報を含んでなる台詞音韻データに変換する音韻解析手段と、前記映像作成手段が、前記音韻解析手段で解析された台詞音韻データと、前記映像シーンデータとに基づいて、前記台詞音声データの発声と前記CGキャラクタの口唇部の動きとが適合する映像であるリップシンク映像データを生成し、このリップシンク映像データと前記台詞音声データとを合成する映像音声データ合成手段と、を備えたことを特徴とする。
【0018】
かかる構成によれば、音韻解析手段で台詞テキストデータが解析され、台詞音韻データに変換される。この音韻解析手段における音韻解析は、例えば、台詞音声データの各単語および各音素を解析することである。そして、映像作成手段で、台詞音韻データと映像シーンデータとに基づいて、台詞音声データの発声とCGキャラクタの口唇部の動きとが適合する映像であるリップシンク映像データが生成され、映像音声データ合成手段で、リップシンク映像データと台詞音声データとが合成される。
【0019】
つまり、映像データがCGアニメーションであるので、CGアニメーション中のCGキャラクタの口唇部の動きにあわせて、声優等が発声した音声データを記録した後に、当該CGキャラクタの口唇部の形状を微調整する(変更する)ことができる。
【0020】
なお、CGアニメーションは、複数のセル画から構成されるアニメーションと異なり、CGアニメーションを描画する装置(通常、コンピュータ)に入力するデータを変更するだけで容易にCGキャラクタ等の指定箇所の形状、色彩、質感を変更可能なものである。
【0021】
請求項6記載の映像付帯音声データ記録プログラムは、映像データと、この映像データに付帯させる音声データの挿入箇所を示す情報と、当該音声データのテキストデータとに基づき、発声者が発声した前記音声データについて、前記映像データを表示画面に表示させた状態で、記録する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、前記映像データを読み込んで記録する映像記録手段、前記映像データに対応させ、前記音声データのテキストデータを字幕にしたテキストスーパーとして、当該映像データに付加して出力するか、前記音声データのテキストデータを音声合成した合成音声データとして、前記映像データに対応させて出力するかの少なくとも一方の出力をする映像スーパー合成音声出力手段、前記音声データの挿入箇所を示す情報に基づいて、前記表示画面に表示させている映像データの再生を停止し、前記音声データを記録した後、前記映像データの再生を再開するスーパー合成音声出力制御手段、前記音声データを、前記テキストデータに対応する1個のファイルとして記録する音声データ記録手段、である。
【0022】
かかる構成によれば、映像スーパー合成音声出力手段で、映像データにテキストスーパーと、音声データのテキストデータを音声合成した合成音声データとの少なくとも一方が対応付けられて出力される。そして、スーパー合成音声出力制御手段で、表示画面に表示されている映像データが停止され、音声データを記録した後、映像データの再生が再開される。また、音声データ記録手段で、発声者がテキストスーパーと合成音声データとの少なくとも一方に基づいて発声した音声データがテキストデータに対応する1個のファイルとして記録される。
【0023】
【発明の実施の形態】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。
(映像付帯音声データ記録装置の構成)
図1は、映像付帯音声データ記録装置のブロック図である。この図1に示すように、映像付帯音声データ記録装置1は、映像シーンデータ入力部3と、テキストデータ入力部5と、記録部7と、映像生成部9と、スーパー生成部11と、映像スーパー合成部13と、音声合成部15と、表示出力部17と、音声データ入力部19と、音声収録部21と、音韻解析部23と、映像音声データ合成部25とを備えている。
【0024】
映像付帯音声データ記録装置1は、映像に付帯する音声データを記録するもので、特にCGアニメーションに登場するCGキャラクタ(CGアクター、CGアクトレス)の台詞である音声データを記録するものである。なお、この映像付帯音声データ記録装置1は、記録した音声データの音韻を解析して、この解析した結果に基づいて、CGキャラクタの口唇部の動き(口唇部の映像)と音声データの出力音声とを適合させるリップシンク機能を有している。この実施の形態では、映像付帯音声データ記録装置1は、一般的なコンピュータをベースにし、「TVMLプレーヤー」が実装されて実現されている。
【0025】
映像シーンデータ入力部3は、外部から入力されるデータ(映像シーンデータ)を記録部7に記録するためのインターフェースであり、映像シーンデータが記録されたディスクを挿入するディスクドライブや、映像シーンデータを入力可能な入力端子等から構成される。
【0026】
映像シーンデータは、映像シーンを構成する複数の映像コマ内のCGキャラクタや他のオブジェクト映像の配置位置等を設定すると共に、映像シーンを並べる順序を設定するもので、CGアニメーションの“シナリオ”に相当するものである。なお、この実施の形態では、映像シーンデータはTVML(TeleVision program Making Language)で記述されており、このTVMLの詳細な説明は、実際の記述例を参照して後ほど行うことにする。
【0027】
テキストデータ入力部5は、CGキャラクタの台詞である台詞テキストデータを入力して、この台詞テキストデータを記録部7に記録するためのインターフェースであり、一般的なキーボード、マウス等によって構成される。
台詞テキストデータは、CGキャラクタの台詞であり、テキスト形式で記述されたものである。この実施の形態では、テキスト形式で記述された台詞が、CGキャラクタを識別する識別情報(キャラクタ名)と組み合わされて、TVMLで定義されている。
【0028】
記録部7は、一般的なハードディスク等によって構成されており、映像シーンデータ、台詞テキストデータおよび台詞音声データ(後記する)を記録するものである。この記録部7が特許請求の範囲の請求項に記載した記録手段に相当するものである。
【0029】
映像生成部9は、映像シーンデータに基づいて、映像データを生成するものである。この実施の形態では、映像データはCGアニメーションであり、このCGアニメーションは、TVMLで記述された映像シーンデータ、例えば、CGキャラクタのモデルデータ(形状データ)、初期位置や向き、音声合成部15で音声合成させる際の声質等の定義に基づいて、描画されたCGキャラクタが登場(出演)し、このCGキャラクタの行動(演技)によって、会話、物語等が表現されるものである。この映像生成部9が特許請求の範囲の請求項に記載した映像作成手段に相当するものである。
【0030】
スーパー生成部11は、台詞テキストデータに基づいて、テキストスーパー(字幕スーパー)を生成するものである。このテキストスーパーは、一般的に類推される「台詞」の読み上げ速度にあわせて、テキストスーパーの文字の表示色が変化するようになっている。このスーパー生成部11が特許請求の範囲の請求項に記載したテキストスーパー生成手段に相当するものである。
【0031】
映像スーパー合成部13は、CGキャラクタが台詞を発声する時刻情報(映像シーンデータに含まれる)に基づいて、映像生成部9で生成された映像データとスーパー生成部11で生成されたテキストスーパーとを合成し、映像スーパー合成データとするものである。この映像スーパー合成部13が特許請求の範囲の請求項に記載した映像スーパー合成手段に相当するものである。
【0032】
なお、映像付帯音声データ記録装置1には、当該装置1の制御を司る主制御部(図示せず)が備えられており、この主制御部は、音声データ入力部19に備えられる各種スイッチ(後記する)からの制御信号に基づいて、映像スーパー合成データおよび合成音声データの表示出力部17への表示出力を制御するものである。この主制御部が特許請求の範囲の請求項に記載した合成表示出力制御手段に相当するものである。また、この映像付帯音声データ記録装置1には、映像スーパー合成部13で、映像データに合成されたテキストスーパーを削除するスーパー削除手段(図示せず)が備えられている。このスーパー削除手段によって、この映像付帯音声データ記録装置1から最終的に出力される映像音声データ(後記)には、テキストスーパーはなくなっている。
【0033】
なお、この実施の形態では、映像生成部9と、スーパー生成部11と、映像スーパー合成部13と各構成を分離して、各構成の役割を明確にして説明したが、例えば、これら映像生成部9と、スーパー生成部11と、映像スーパー合成部13とを、TVMLに基づいてテキストスーパー(字幕スーパー)を含むCGアニメーションを描く「CG描画部」といったように1個のブロックとして構成することもできる。この場合、これら映像生成部9と、スーパー生成部11と、映像スーパー合成部13とは、汎用的なコンピュータ言語で記述されたプログラムとみなすことができるものである。
【0034】
音声合成部15は、テキストデータ入力部5で入力された台詞テキストデータに基づいて、音声合成を行って合成音声データを生成するものである。なお、この実施の形態では、この音声合成部15は、特開平2−47700号公報に開示されている方法(装置)を利用して、台詞テキストデータの音声合成を実行している。そして、音声合成部15は、音声合成した合成音声データを、映像シーンデータに含まれている、CGキャラクタが台詞を発声する時刻情報と、音声データ入力部19に付属している合成音声データ再生要求スイッチ(図示せず、後記する)からの制御信号とに基づいて、表示出力部17に出力(送出)する。この音声合成部15が特許請求の範囲の請求項に記載した音声合成手段に相当するものである。
【0035】
表示出力部17は、表示画面を備えたCRT、液晶、プラズマ等のディスプレイ17aとスピーカ17bとから構成されており、CGアニメーションを表示すると共に、合成音声データを出力するものである。
【0036】
音声データ入力部19は、声優等が発声した音声(台詞音声データ)を入力(集音)するマイクロフォン等で構成され、さらに、図示を省略した台詞音声データ収録開始スイッチと、台詞音声データ収録終了スイッチと、合成音声データ再生要求スイッチとが付属してなるものである。これらの台詞音声データ収録開始スイッチ、台詞音声データ収録終了スイッチおよび合成音声データ再生要求スイッチは、映像付帯音声データ記録装置1の主制御部(図示せず)に制御信号を送信して、表示出力部17への映像スーパー合成データの再生および合成音声データの出力のタイミングを制御するものである。
【0037】
台詞音声データ収録開始スイッチ(図示せず)は、表示出力部17のディスプレイ17aに表示されているテキストスーパー(字幕スーパー)に基づいて、声優等が台詞音声データを発声する際に、押下するもので、この台詞音声データ収録開始スイッチが押下されると、音声データ入力部19から入力された台詞音声データの収録が映像付帯音声データ記録装置1の音声収録部21で開始される。
【0038】
台詞音声データ収録終了スイッチ(図示せず)は、表示出力部17のディスプレイ17aに表示されているテキストスーパー(字幕スーパー)に基づいて、声優等が台詞音声データを発声した後に、押下するもので、この台詞音声データ収録終了スイッチが押下されると、音声データ入力部19から入力された台詞音声データの収録が映像付帯音声データ記録装置1の音声収録部21で終了される。
【0039】
合成音声データ再生要求スイッチ(図示せず)は、表示出力部17のスピーカ17bで出力された合成音声データの再生を、再び要求するために押下するものである。
【0040】
音声収録部21は、音声データ入力部19で入力された台詞音声データを記録部7に記録するためのインターフェースであり、台詞音声データを入力可能な入力端子等から構成される。この音声収録部21で収録された台詞音声データは、記録部7に記録されている台詞テキストデータと関連付けられて、記録部7に記録されるものである。つまり、音声収録部21は、台詞テキストデータ毎の終端(切れ目)を検出すると共に、この台詞テキストデータと台詞音声データとを逐次、1個の台詞ファイルにして、記録部7に記録させるものである。すると、記録部7には、映像シーン毎に複数の台詞ファイルが記録されることになる。この音声収録部21が特許請求の範囲の請求項に記載した音声データ収録手段に相当するものである。
【0041】
音韻解析部23は、図示を省略した単語の発音辞書と各音韻の特徴量が記された音響モデルとを有し、記録部7に記録されている台詞テキストデータを、台詞音声データを参照して、時系列情報が含まれている台詞音韻データに変換するものである。つまり、台詞音韻データは、台詞テキストデータ中の単語および音素が時系列情報(発音時間)によって分割されたものであり、例えば、「いい天気ですね」という台詞テキストデータは「いい 天気 です ね」といった具合に分割されており、“いい:0〜20ms”というように、単語に時系列情報(発音時間)が付されているものである。なお、この台詞音韻データは、映像生成部9で、リップシンク映像データを生成する際に参照される。つまり、この台詞音韻データと、映像シーンデータに含まれている音素毎に定義されるCGキャラクタの口唇部の動きに関する情報であるCGキャラクタ口唇部情報とに基づいて、映像生成部9で、CGキャラクタの口唇部の動きと台詞音声データの発声とを適合させた(マッチングさせた)リップシンク映像データが生成される。
【0042】
映像音声データ合成部25は、映像生成部9で音韻データおよびCGキャラクタ口唇部情報に基づいて生成されたリップシンク映像データと、台詞音声データとを映像シーンデータに含まれている時刻情報に基づいて合成し、リップシンク映像台詞音声データを表示出力部17に出力するものである。
【0043】
この映像付帯音声データ記録装置1によれば、映像生成部9で映像シーンデータに基づいて映像データが作成され、スーパー生成部11で、CGキャラクタの台詞テキストデータに基づいて、テキストスーパー、すなわち、字幕スーパーが生成される。また、CGキャラクタの台詞テキストデータに基づいて、音声合成部15で合成音声データが生成される。そして、映像スーパー合成部13で、映像データとテキストスーパーとが映像シーンデータに含まれている時刻情報に基づいて合成され、映像スーパー合成データとされ、主制御部(図示せず)で映像スーパー合成データおよび合成音声データの表示出力が制御され、音声収録部21で、合成音声データとテキストスーパーとを参照して、声優等の発声者が発声した音声データである台詞音声データが収録される。その後、収録された台詞音声データと台詞テキストデータとが関連付けて記録部7に記録される。
【0044】
このため、声優等の発声者は、合成音声データとテキストスーパーとを参照して、台詞音声データを発声することができ、発声された台詞音声データが台詞テキストデータと関連付けて記録されるので、容易にCGキャラクタの映像にあった台詞音声データを記録することができる。
【0045】
また、映像付帯音声データ記録装置1によれば、音韻解析部23で台詞テキストデータの音韻が解析され、台詞音韻データに変換される。映像生成部9で、台詞音韻データと映像シーンデータとに基づいて、台詞音声データの発声とCGキャラクタの口唇部の動きとが適合する映像であるリップシンク映像データが生成され、映像音声データ合成部25で、リップシンク映像データと台詞音声データとが合成される。このため、CGアニメーション中のCGキャラクタの口唇部の動きと台詞音声データとを適合させたリップシンク映像台詞音声データを生成することができ、より自然なCGアニメーションを生成する(描画する)ことができる。
【0046】
(映像付帯音声データ記録装置の動作[台詞音声データ収録時])
次に、図2に示すフローチャートを参照して、台詞音声データ収録時の映像付帯音声データ記録装置1の動作を説明する。
まず、映像付帯音声データ記録装置1の映像シーンデータ入力部3で映像シーンデータが入力される(S1)。また、テキストデータ入力部5でCGキャラクタの台詞テキストデータが入力される(S2)。これらの映像シーンデータと台詞テキストデータとは、記録部7に記録される。
【0047】
そして、映像生成部9で、記録部7に記録されている映像シーンデータに基づいて、映像データが生成される(S3)。この映像データは、TVMLで記述されている映像シーンデータを元に描画されたCGアニメーションである。また、スーパー生成部11で記録部に記録されている台詞テキストデータに基づいて、テキストスーパー(字幕スーパー)が生成される(S4)。
【0048】
続いて、映像スーパー合成部13で、映像生成部9にて生成された映像データに、スーパー生成部11にて生成されたテキストスーパー(字幕スーパー)が、映像シーンデータの時刻情報に基づいて合成され、映像スーパー合成データとされる(S5)。なお、これらの動作S3〜S5は、一連の処理として説明したが、実際には、映像付帯音声データ記録装置1の主制御部(図示せず)において、マルチスタック処理により同時並行処理される。
【0049】
さらに、音声合成部15で、記録部7に台詞テキストデータに基づいて、音声合成が行われ、合成音声データが生成される(S6)。これら映像スーパー合成データと合成音声データが生成された状態で、当該装置1の利用者(声優等の発声者)から、これら映像スーパー合成データと合成音声データの再生出力要求があるまで(図示を省略した「映像スーパー合成データ」の再生開始スイッチが押下されるまで)待機される。当該装置1の利用者(声優等の発声者)から再生出力要求があった場合、まず、映像スーパー合成データの再生が表示出力部17(ディスプレイ17a)にて開始される(S7)。なお、当然のことながら、CGキャラクタの台詞のない映像シーンにおいて、この映像スーパー合成データには、テキストスーパー(字幕スーパー)が含まれておらず、ディスプレイ17aにテキストスーパー(字幕スーパー)は表示されていない。
【0050】
そして、CGキャラクタの台詞のある映像シーンであるかどうかが図示を省略した主制御部で判断され、台詞のある映像シーンまで(S8、No)そのまま映像スーパー合成データの再生が続行され、CGキャラクタの台詞のある映像シーンであると判断された場合、映像が停止され、表示出力部17のディスプレイ17aにテキストスーパー(字幕スーパー)が表示され、スピーカ17bに合成音声データが出力される(S9)。
【0051】
すると、当該装置1の利用者(声優等の発声者)は、これらテキストスーパーを見ながら、音声データ入力部19の台詞音声データ収録開始スイッチ(図示せず)を押下して、台詞音声データを発声する。発声し終わったら、台詞音声データ収録終了スイッチ(図示せず)を押下する。また、当該装置1の利用者(声優等の発声者)が台詞音声データの発声の要領が得られない場合(どんな風に台詞を発声したらいいかわからない場合)に、合成音声データ再生要求スイッチ(図示せず)を押下して、再度、合成音声データを聞き直して、参考にすることができる。当該装置1の利用者(声優等の発声者)によって、発声された台詞音声データは、映像付帯音声データ記録装置1の音声収録部21で収録され、記録部7に、台詞テキストデータと関連付けられて、1個ずつ台詞ファイルとして記録される(S10)。
【0052】
映像付帯音声データ記録装置1の主制御部(図示せず)によって、当該装置1の利用者(声優等の発声者)が発声した台詞音声データの終端が検出された場合、または、台詞音声データ収録終了スイッチ(図示せず)が押下されたと判断された場合、少なくとも1個の台詞ファイルが生成され、当該装置1の利用者(声優等の発声者)に対し、台詞音声データの収録を終了するか、映像スーパー合成データの再生を続行するかが確認される。そのために、まず、台詞音声データの収録を終了するかを示すメッセージが表示出力部17のディスプレイ17aに表示され、当該装置1の利用者(声優等の発声者)の返答を催促する(S11)。当該装置1の利用者(声優等の発声者)が映像付帯音声データ記録装置1の動作(台詞音声データの収録)を終了すると判断した場合(S11、Yes)、台詞音声データの収録が終了される。
【0053】
また、当該装置1の利用者(声優等の発声者)が映像付帯音声データ記録装置1の動作を終了すると判断しない場合(S11、No)、映像スーパー合成データの再生を続行するかを示すメッセージが表示出力部17のディスプレイ17aに表示され、当該装置1の利用者(声優等の発声者)の返答を催促する(S12)。映像スーパー合成データの再生を続行すると判断した場合(S12、Yes)には、S7に戻って映像スーパー合成データの再生が続けられ、映像スーパー合成データの再生を続行すると判断されない場合(S12、No)、はじめ(S1)に戻って、当該装置1の動作が継続される。
【0054】
(映像付帯音声データ記録装置の動作[リップシンク映像データ合成時])
続いて、図3に示すフローチャートを参照して、リップシンク映像データを生成して台詞音声データと合成する時の映像付帯音声データ記録装置1の動作を説明する。
【0055】
まず、音韻解析部23で、記録部7に記録されている台詞テキストデータが音韻解析され(台詞音声データが参照される)、台詞音韻データに変換される(S21)。この台詞音韻データが映像生成部9に出力される。この台詞音韻データには、台詞テキストデータを分割した単語および音素に、時系列情報(発音時間)が付されている。
【0056】
映像生成部9で、台詞音韻データ(分割した単語および音素に、時系列情報が付加)と映像シーンデータに含まれている時刻情報とに基づいて、CGキャラクタの口唇部の動きと台詞音声データとを適合させたリップシンク映像データが生成され、映像音声データ合成部25へ出力される(S22)。そして、映像音声データ合成部25で、リップシンク映像データに台詞音声データが、映像シーンデータに含まれている時刻情報に基づいて合成され、リップシンク映像台詞音声データとして表示出力部17へ出力される(S23)。このリップシンク映像台詞音声データが表示出力部17で表示出力される(S24)。
【0057】
(映像付帯音声データ記録装置の具体的な動作例)
次に、図4を参照して、映像付帯音声データ記録装置1の具体的な動作例を説明する。図4は、表示出力部17のディスプレイ17aに表示されるCGアニメーションを図4中、上から表示される順序に4コマ分(a)〜(d)図示した説明図である。
【0058】
図4(a)は、地平線が見渡せる背景に、1体のCGキャラクタ(角ありキャラクタとする)が佇んでいる映像シーンを示している。この映像シーンにおける角ありキャラクタには台詞が設定されていないので、普通に(そのまま)映像スーパー合成データが再生される。
【0059】
図4(b)は、角ありキャラクタが佇んでいる所に、新たなCGキャラクタ(図4(b)説明中ではCGアクター、角なしキャラクタとする)が登場し、この角なしキャラクタが角ありキャラクタに挨拶「いい天気ですねー」する映像シーンを示している。つまり、この映像シーンでは、角なしキャラクタに台詞が設定されており、この映像シーンになったら、映像付帯音声データ記録装置1の主制御部(図示せず)による制御で、映像スーパー合成データの再生が一時停止される。そして、角なしキャラクタが喋る台詞がテキストスーパーで表示出力部17のディスプレイ17aに表示されると共に、合成音声データが表示出力部17のスピーカ17bに出力される。
【0060】
図4(c)は、CGキャラクタ(角なしキャラクタ)が喋る台詞である台詞音声データを発声する声優等の発声者が、映像スーパー合成データを見ながら台詞音声データを発声し、この発声した台詞音声データを収録する際の、映像シーンおよび声優等の発声者を示している。声優等の発声者は、マイクロフォン等で構成される音声データ入力部19に向かって、CGキャラクタの台詞である台詞テキストデータを読み上げた「台詞音声データ」を入力している。
【0061】
この場合、声優等の発声者は、音声データ入力部19の台詞音声データ収録開始スイッチ(図示せず)を押下後に、台詞テキストデータを読み上げる。すると、図4(c)中の左上方に示したようにディスプレイ17aには、「●収録開始」が表示される。このため、声優等の発声者は台詞音声データを収録中であることが、目視で確認できる。なお、この「●収録開始」の表示は、声優等の発声者が、音声データ入力部19の台詞音声データ収録開始スイッチを押下しなくても、自動的に、ディスプレイ17aに表示させるように、映像シーンデータに記述しておくことで行うことも可能である。
【0062】
図4(d)は、角なしキャラクタが喋る台詞が終了し、角なしキャラクタと、角ありキャラクタとが向き合っている映像シーンを示している。つまり、この映像シーンでは、角なしキャラクタが喋る台詞である台詞テキストデータと、声優等の発声者が発声した台詞音声データとが比較され、台詞音声データの終わり(終端)が映像付帯音声データ記録装置1の主制御部(図示せず)によって検出され、この一連の動作によって、1個の台詞テキストデータに対する1個の台詞音声データが生成され、これら台詞テキストデータと台詞音声データとが、音声収録部21で関連付けられ1個の台詞ファイルとして記録部7に記録される。
【0063】
(CGキャラクタの口唇部の例)
次に、図5を参照して、映像生成部9で生成されるリップシンク映像データ(CGキャラクタの口唇部の例)を説明する。図5(a)〜(f)は、CGキャラクタの口唇部の形状と、発音される母音および無音・破裂音との関係を図示したものである。
【0064】
図5(a)は、母音「あ」を発音した際の、CGキャラクタの口唇部の形状を示している。図5(b)は、母音「い」を発音した際の、CGキャラクタの口唇部の形状を示している。図5(c)は、母音「う」を発音した際の、CGキャラクタの口唇部の形状を示している。図5(d)は、母音「え」を発音した際の、CGキャラクタの口唇部の形状を示している。図5(e)は、母音「お」を発音した際の、CGキャラクタの口唇部の形状を示している。図5(f)は、無音・破裂音を発音した際の、CGキャラクタの口唇部の形状を示している。なお、この実施の形態では、図示を省略したが、各子音を発音した際の、CGキャラクタの口唇部の形状も設定されている。
【0065】
これら図5(a)〜図5(f)に示したように、母音毎に、厳密にCGキャラクタの口唇部の形状が設定されているので、映像生成部9で台詞音韻データと映像シーンデータとに基づいて生成されるリップシンク映像データは、従来のCGアニメーション(映像データ)に比べ、CGキャラクタの口唇部の「ぎこちなさ」、「不自然さ」が解消される。つまり、この映像付帯音声データ記録装置1によれば、人間が台詞を発声するように、リアリティのあるCGキャラクタを含むCGアニメーションを制作することができる。
【0066】
(TVMLによる映像シーンデータと台詞テキストデータの例)
次に、図6を参照して、TVMLによる映像シーンデータと台詞テキストデータの例について説明する。図6は、映像シーンデータと台詞テキストデータとをTVMLで記述したTVMLスクリプト(TVML台本)である。このTVMLスクリプトが映像生成部9、スーパー生成部11および映像スーパー合成部13で映像スーパー合成データとされる(CGアニメーションに描画される)。
【0067】
また、このTVMLスクリプトは、一般的なTVMLプレーヤー(図示せず)で、図6に表記したように、図6中、上から順番に一行一行解釈され(インタープリター動作)実行可能なものである。「A」行の“set:change”は、制作するCGアニメーション番組(アニメーション番組)に使用するセット(舞台や背景)のデータを定義するものである。この例では(fuji)という名前のモデルデータが読み込まれる。
【0068】
「B」行の“character:casting”は、制作するCGアニメーション番組(アニメーション番組)に登場するCGキャラクタ(キャラクタ)の名前を定義するものである。「C」行の“character:bindmodel”は、定義したCGキャラクタ(キャラクタ)にモデルデータを割り当てるものである。
【0069】
「D」行の“character:position”は、CGキャラクタ(キャラクタ)の3次元座標上での初期位置・向きを設定するものである。「E」行の“character:setvoice”は、CGキャラクタ(キャラクタ)に音声合成部15で合成音声データを生成する際の声質を割り当てるものである。
【0070】
「F」行の“light:assign”は、制作するCGアニメーション番組(アニメーション番組)に使用する照明の名前を定義するものである。「G」行の“light:model”は、光源の種類、3次元座標上の位置・向き、明るさ、色彩等を指定するものである。
【0071】
「H」行の“camera:movement”は、制作するCGアニメーション番組(アニメーション番組)に使用するカメラ(CG空間上の視点)の位置・向き、視野角等を設定するものである。「I」行の“character:walk”は、CGキャラクタ(キャラクタ)を指定する座標地点まで歩かせることを定義するものである。
【0072】
「J」行の“character:turn”は、CGキャラクタ(キャラクタ)を指定する角度方向に向きを変えることを定義するものである。「K」行の“character:look”は、CGキャラクタ(キャラクタ)の視線(顔)を対象オブジェクトの方向に向けることを定義するものである。
【0073】
「L」行の“character:talk”は、台詞テキストデータ(text)の文字列をテキストスーパーとして表示すること(字幕スーパー表示すること)と、同時に、音声合成部15で音声合成された合成音声データによって発話の例示を行うことを定義するものである。
【0074】
この“character:talk”の「L」行に到達した段階で、映像スーパー合成データの再生が一時停止され、声優等の発声者が発声した台詞音声データの収録が開始するメッセージがディスプレイ17aに表示され、台詞音声データの収録が開始される。音声データ入力部19を介して入力された台詞音声データと台詞テキストデータとが随時照合されて、発話が終わった段階(台詞音声データの終端を検出した段階)で台詞音声データの収録が終了される。
【0075】
例えば、この図6の「L」行に示したように「character:talk(name=MARY,text=“いい天気ですねー”)」では、「いい天気ですねー」とテキストスーパー(字幕スーパー)をディスプレイ17aに表示し、同時に音声合成部15によって合成音声データとされ、スピーカ17bで発話される(出力される)。合成音声データの出力が終了した段階で、収録開始メッセージ「●収録開始」がディスプレイ17aに表示され、台詞音声データ「いい天気ですねー」の収録が開始される。
【0076】
音声データ入力部19を介して入力された台詞音声データ「いい天気ですねー」と台詞テキストデータ「いい天気ですねー」とが照合され、発話の終了が検出された段階で台詞音声データの収録が終了される。収録した台詞音声データとTVMLスクリプトの「character:talk(name=MARY,text=“いい天気ですねー”)」というコマンドが関連付けられ、例えば、selif1.wavという音声データファイル(台詞ファイル)として記録部7に記録される。
【0077】
以上、一実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。
例えば、映像付帯音声データ記録装置1の各構成の処理を一つずつの工程(過程)ととらえた映像付帯音声データ記録方法とみなすことや、映像付帯音声データ記録装置1の各構成の処理を一般的なコンピュータ言語で記述した映像付帯音声データ記録プログラムとみなすことも可能である。これらの場合、映像付帯音声データ記録装置1と同様の効果が得られる共に、映像付帯音声データ記録プログラムの場合、記憶媒体に記憶させて流通させることや、ネットワーク等を介して、活用することなどが可能である。
【0078】
【発明の効果】
請求項1、2、6記載の発明によれば、映像に音声データのテキストスーパーと、音声データのテキストを音声合成した合成音声データとの少なくとも一方が付加され、出力されると共に、発声者によって読み上げられた音声データが記録される。このため、発声者は、合成音声データとテキストスーパーとを参照して、音声データを発声することができ、容易に映像にあった音声データを記録することができる。
【0079】
請求項3記載の発明によれば、テキストスーパーが付加された場合、スーパー削除手段でテキストスーパーが削除され、最終的には、映像データと発声者が読み上げた音声データとが合成された映像音声データを得ることができる。
【0080】
請求項4記載の発明によれば、映像シーンデータに基づいて映像データが作成され、また、CGキャラクタの台詞のテキストデータに基づいて、テキストスーパーが生成される。そして、映像データとテキストスーパーとが映像シーンデータに含まれている時刻情報に基づいて合成され、映像スーパー合成データとされる。また、CGキャラクタの台詞のテキストデータに基づいて合成音声データが生成される。その後、映像スーパー合成データおよび合成音声データの表示出力が制御され、合成音声データとテキストスーパーとを参照して、声優等の発声者が発声した音声データである台詞音声データが収録される。その後、収録された台詞音声データと台詞テキストデータとが関連付けて記録される。このため、声優等の発声者は、合成音声データとテキストスーパーとを参照して、台詞音声データを発声することができ、発声された台詞音声データが台詞テキストデータと関連付けて記録されるので、容易にCGキャラクタの映像にあった台詞音声データを記録することができる。
【0081】
請求項5記載の発明によれば、台詞テキストデータが解析され、台詞音韻データに変換される。台詞音韻データと映像シーンデータとに基づいて、台詞音声データの発声とCGキャラクタの口唇部の動きとが適合する映像であるリップシンク映像データが生成され、リップシンク映像データと台詞音声データとが合成される。このため、CGアニメーション中のCGキャラクタの口唇部の動きと台詞音声データとを適合させたリップシンク映像台詞音声データを生成することができ、より自然なCGアニメーションを生成する(描画する)ことができる。
【図面の簡単な説明】
【図1】本発明による一実施の形態である映像付帯音声データ記録装置のブロック図である。
【図2】図1に示した映像付帯音声データ記録装置の動作(台詞音声データ収録時)を説明したフローチャートである。
【図3】図1に示した映像付帯音声データ記録装置の動作(リップシンク映像データ合成時)を説明したフローチャートである。
【図4】映像付帯音声データ記録装置の具体的な動作例説明した説明図である。
【図5】CGキャラクタの口唇部の形状と、発音される母音および無音・破裂音との関係を示した図である。
【図6】TVMLによる映像シーンデータと台詞テキストデータの例を示した図である。
【符号の説明】
1 映像付帯音声データ記録装置
3 映像シーンデータ入力部
5 テキストデータ入力部
7 記録部
9 映像生成部
11 スーパー生成部
13 映像スーパー合成部
15 音声合成部
17 表示出力部
17a ディスプレイ
17b スピーカ
19 音声データ入力部
21 音声収録部
23 音韻解析部
25 映像音声データ合成部

Claims (6)

  1. 映像データと、この映像データに付帯させる音声データの挿入箇所を示す情報と、当該音声データのテキストデータとに基づき、発声者が発声した前記音声データについて、前記映像データを表示画面に表示させた状態で、記録する映像付帯音声データ記録方法であって、
    前記音声データの挿入箇所を示す情報に基づいて、前記表示画面に表示させている映像データの再生を停止する映像停止制御ステップと、
    前記映像データに対応させ、前記音声データのテキストデータを字幕にしたテキストスーパーとして、当該映像データに付加して出力するか、前記音声データのテキストデータを音声合成した合成音声データとして、前記映像データに対応させて出力するかの少なくとも一方の出力をする映像スーパー合成音声出力ステップと、
    前記映像スーパー合成音声出力ステップにおいて、出力されたテキストスーパーと合成音声データとの少なくとも一方に基づいて前記発声者が発声した音声データについて、前記テキストデータに関連付けて記録する音声データ記録ステップと、
    前記音声データ記録ステップにより音声データを記録した後、前記映像データの再生を再開する映像再開制御ステップと、
    を含むことを特徴とする映像付帯音声データ記録方法。
  2. 映像データと、この映像データに付帯させる音声データの挿入箇所を示す情報と、当該音声データのテキストデータとに基づき、発声者が発声した前記音声データについて、前記映像データを表示画面に表示させた状態で、記録する映像付帯音声データ記録装置であって、
    前記映像データを読み込んで記録する映像記録手段と、
    前記映像データに対応させ、前記音声データのテキストデータを字幕にしたテキストスーパーとして、当該映像データに付加して出力するか、前記音声データのテキストデータを音声合成した合成音声データとして、前記映像データに対応させて出力するかの少なくとも一方の出力をする映像スーパー合成音声出力手段と、
    前記音声データの挿入箇所を示す情報に基づいて、前記表示画面に表示させている映像データの再生を停止し、前記音声データを記録した後、前記映像データの再生を再開するスーパー合成音声出力制御手段と、
    前記音声データを、前記テキストデータに対応する1個のファイルとして記録する音声データ記録手段と、
    を備えたことを特徴とする映像付帯音声データ記録装置。
  3. 前記スーパー合成音声出力制御手段で、前記映像データにテキストスーパーが付加された場合、当該テキストスーパーを削除するスーパー削除手段を備えることを特徴とする請求項2に記載の映像付帯音声データ記録装置。
  4. CG合成による映像データのCGキャラクタを表示画面に表示させつつ、当該CGキャラクタが話す台詞の音声データを記録する映像付帯音声データ記録装置であって、
    前記CGキャラクタが台詞を話す映像シーンに関する情報を含んでなる映像シーンデータに基づいて、映像データを作成する映像作成手段と、
    前記台詞のテキストデータである台詞テキストデータに基づいて、前記映像データに合成するテキストスーパーを生成するテキストスーパー生成手段と、
    前記映像データおよび前記テキストスーパーを、前記映像シーンデータに含まれている時刻情報に基づいて合成して映像スーパー合成データを生成する映像スーパー合成手段と、
    前記台詞テキストデータに基づいて、音声合成を行って、合成音声データを生成する音声合成手段と、
    前記映像スーパー合成データおよび前記合成音声データの表示出力を制御する合成表示出力制御手段と、
    前記合成音声データと前記テキストスーパーとを参照して発声された音声データである台詞音声データを収録する音声データ収録手段と、
    前記映像シーンデータと前記台詞テキストデータとを記録すると共に、前記音声データ収録手段で収録された台詞音声データと前記台詞テキストデータとを関連付けて記録する記録手段と、
    を備えたことを特徴とする映像付帯音声データ記録装置。
  5. 単語の発音辞書と各音韻の特徴量が記された音響モデルとを有し、前記台詞音声データを参照して、前記台詞テキストデータを解析し、当該台詞テキストデータの時系列情報を含んでなる台詞音韻データに変換する音韻解析手段と、
    前記映像作成手段が、前記音韻解析手段で解析された台詞音韻データと、前記映像シーンデータとに基づいて、前記台詞音声データの発声と前記CGキャラクタの口唇部の動きとが適合する映像であるリップシンク映像データを生成し、
    このリップシンク映像データと前記台詞音声データとを合成する映像音声データ合成手段と、
    を備えたことを特徴とする請求項4記載の映像付帯音声データ記録装置。
  6. 映像データと、この映像データに付帯させる音声データの挿入箇所を示す情報と、当該音声データのテキストデータとに基づき、発声者が発声した前記音声データについて、前記映像データを表示画面に表示させた状態で、記録する装置を、
    前記映像データを読み込んで記録する映像記録手段、
    前記映像データに対応させ、前記音声データのテキストデータを字幕にしたテキストスーパーとして、当該映像データに付加して出力するか、前記音声データのテキストデータを音声合成した合成音声データとして、前記映像データに対応させて出力するかの少なくとも一方の出力をする映像スーパー合成音声出力手段、
    前記音声データの挿入箇所を示す情報に基づいて、前記表示画面に表示させている映像データの再生を停止し、前記音声データを記録した後、前記映像データの再生を再開するスーパー合成音声出力制御手段、
    前記音声データを、前記テキストデータに対応する1個のファイルとして記録する音声データ記録手段、
    として機能させることを特徴とする映像付帯音声データ記録プログラム。
JP2002226790A 2002-08-05 2002-08-05 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム Expired - Lifetime JP4052561B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002226790A JP4052561B2 (ja) 2002-08-05 2002-08-05 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002226790A JP4052561B2 (ja) 2002-08-05 2002-08-05 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム

Publications (2)

Publication Number Publication Date
JP2004071013A true JP2004071013A (ja) 2004-03-04
JP4052561B2 JP4052561B2 (ja) 2008-02-27

Family

ID=32014010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002226790A Expired - Lifetime JP4052561B2 (ja) 2002-08-05 2002-08-05 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム

Country Status (1)

Country Link
JP (1) JP4052561B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217447A (ja) * 2007-03-05 2008-09-18 Nippon Hoso Kyokai <Nhk> コンテンツ生成装置及びコンテンツ生成プログラム
JP2009122667A (ja) * 2007-10-26 2009-06-04 Advanced Telecommunication Research Institute International 台詞音声作成装置、発話音声収録装置、及びコンピュータプログラム
CN112233661A (zh) * 2020-10-14 2021-01-15 广州欢网科技有限责任公司 基于语音识别的影视内容字幕生成方法、系统及设备
JP2021182369A (ja) * 2020-05-18 2021-11-25 株式会社イルニIlluni Inc. 使用者のプレイングに基づいて再プログラミングされるインタラクティブコンテンツ提供方法および装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217447A (ja) * 2007-03-05 2008-09-18 Nippon Hoso Kyokai <Nhk> コンテンツ生成装置及びコンテンツ生成プログラム
JP2009122667A (ja) * 2007-10-26 2009-06-04 Advanced Telecommunication Research Institute International 台詞音声作成装置、発話音声収録装置、及びコンピュータプログラム
JP2021182369A (ja) * 2020-05-18 2021-11-25 株式会社イルニIlluni Inc. 使用者のプレイングに基づいて再プログラミングされるインタラクティブコンテンツ提供方法および装置
US11402975B2 (en) 2020-05-18 2022-08-02 Illuni Inc. Apparatus and method for providing interactive content
CN112233661A (zh) * 2020-10-14 2021-01-15 广州欢网科技有限责任公司 基于语音识别的影视内容字幕生成方法、系统及设备
CN112233661B (zh) * 2020-10-14 2024-04-05 广州欢网科技有限责任公司 基于语音识别的影视内容字幕生成方法、系统及设备

Also Published As

Publication number Publication date
JP4052561B2 (ja) 2008-02-27

Similar Documents

Publication Publication Date Title
JP4599244B2 (ja) 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
US5880788A (en) Automated synchronization of video image sequences to new soundtracks
US20080275700A1 (en) Method of and System for Modifying Messages
JP3599549B2 (ja) 動映像と合成音を同期化するテキスト/音声変換器、および、動映像と合成音を同期化する方法
US20060136226A1 (en) System and method for creating artificial TV news programs
KR101492816B1 (ko) 애니메이션 립싱크 자동화 장치 및 방법
JP2011250100A (ja) 画像処理装置および方法、並びにプログラム
JP5137031B2 (ja) 台詞音声作成装置、発話音声収録装置、及びコンピュータプログラム
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
KR950034155A (ko) 시청각매체의 음향재녹음시스템 및 재녹음방법
JP4594908B2 (ja) 解説付加音声生成装置及び解説付加音声生成プログラム
JP4725918B2 (ja) 番組画像配信システム、番組画像配信方法及びプログラム
JP4917920B2 (ja) コンテンツ生成装置及びコンテンツ生成プログラム
JPH10243351A (ja) 映像再生装置
JP4052561B2 (ja) 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム
WO2023276539A1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JP2003216173A (ja) 合成音声及び映像の同期制御方法、装置及びプログラム
WO2021157192A1 (ja) 制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システム
JP2009216724A (ja) 音声生成装置及びコンピュータプログラム
JP2009216723A (ja) 類似音声選択装置、音声生成装置及びコンピュータプログラム
JP3426957B2 (ja) 映像中への音声録音支援表示方法及び装置及びこの方法を記録した記録媒体
JP2001005476A (ja) プレゼンテーション装置
JP2007163801A (ja) コンテンツ再生装置
WO2023167212A1 (ja) コンピュータプログラム、情報処理方法及び情報処理装置
JP2000358202A (ja) 映像音声記録再生装置および同装置の副音声データ生成記録方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071130

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4052561

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101214

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111214

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121214

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131214

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term