JP2000020744A

JP2000020744A - 動画像と合成音声によるコンテンツ制作方法およびプログラム記録媒体

Info

Publication number: JP2000020744A
Application number: JP10190185A
Authority: JP
Inventors: Masanobu Abe; 匡伸阿部
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1998-07-06
Filing date: 1998-07-06
Publication date: 2000-01-21

Abstract

(57)【要約】【課題】少ない情報量でムービー（音声と動画を同時
再生）を可能とする。【解決手段】入力テキスト１０１を、蓄積部１０２の
音声断片を用いて規則合成法により音声合成し（１０
３）、コンテンツ制作者はテキストの内容に応じて蓄積
部１０６中の、キャラクタの基本動作（喋っている動
作、驚きの動作、泣いている動作など）の動画像断片を
組合せて、動画像を構成し、これらの音声断片、動画像
断片の各インデックスにてコンテンツとし、復号側で
は、このコンテンツのインデックスで対応音声断片、動
画像断片を用いて音声合成と動画像の再生を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、ムービーのよう
に動画像と音声とを同時に表示できるコンテンツを制作
する方法及びプログラム記録媒体に関する。

【０００２】

【従来の技術】物事の意味や、物の使い方を説明する場
合、文字、図、写真等だけによる説明、または、音声だ
けによる説明では、理解者にとっては、理解が困難であ
ったり、理解に時間を要することがままある。また、解
説者にとっては、解説するための資料の作成などに多大
な労力が必要となる。これに対し、音声と動画像、音声
とアニメーションを組み合わせれば、理解し易い説明を
容易に実現できることが多い。また、音声だけによるア
ナウンスよりも、キャラクタが身振り手振りをしながら
音声でアナウンスする場合の方が、面白く、親しみが湧
くことがある。この発明によれば、以上のようなコンテ
ンツを作成することができる。

【０００３】従来のムービーは、人間や背景の録画、コ
ンピュータによる動画像の制作、アニメーションによる
動画の作成と、人間の発声した音声や効果音との組み合
わせで構成されている。これらのムービーは、情報量が
多く、その蓄積や伝送のための費用が高い。

【０００４】

【発明が解決しようとする課題】上述のように、ムービ
ーなどのような音声と動画像を同時に利用できるコンテ
ンツは便利なものであるが、コンテンツの容量が多く、
それらのコンテンツを快適に利用するためには制限があ
る。特に、最近広く普及したインターネットは、伝送容
量が少ないため伝送時間が長くなり、ムービーを使うの
に適した環境であるとは言い難い。この発明は、ムービ
ーをネットワーク経由で利用する上で、その伝送量が膨
大であるという問題を解決する。

【０００５】

【課題を解決するための手段】日本語を構成する音素は
有限であり、任意の日本語は有限個の音素（音声の断
片）の組み合わせで表現できると考えられる。また、ム
ービーであっても、ある限られたタスクにおいては、有
限個の動画像の断片を組み合わせて表現することが可能
である。この発明では、有限個の音声の断片や有限個の
動画像の断片を蓄積しておき、これらを組み合わせるこ
とによってムービーを音声断片や動画像断片のインデッ
クス列として再構成する。これによって、伝送側から受
信側に送られるデータは、音素や動画像の断片ではな
く、そのインデックス情報ですみ、格段に伝送容量を減
らすことができる。

【０００６】

【発明の実施の形態】図１はこの発明の一実施例の構成
を示す。図１Ａはコンテンツを作成する流れを、図１Ｂ
は作成したコンテンツを再生する流れを示す。これを参
照して具体的動作について説明する。コンテンツを作成
する手順において、入力１０１は、ワープロ等で作成し
たかな漢字混じり文、つまりテキストである。音声断片
データが音声蓄積部１０２に蓄積されている。この実施
例では、任意の日本語を合成する場合を想定しているの
で、音声蓄積部１０２に蓄積されている音声断片データ
は日本語の音素や音素を連ねた音声断片とそのインデッ
クスを集めたものである。任意の日本語を合成する必要
が無い場合には、限られた音声とそのインデックスを蓄
えておくことも考えられる。

【０００７】音声合成器１０３は、入力されたテキスト
１０１を、音声蓄積部１０２を参照して音声を合成す
る。合成音声における基本周期、長さ、強さなどの韻律
パラメータを操作するためのツール１０４は音声合成器
１０３で合成された音声のイントネーションが不十分で
あると考えられるときにコンテンツの制作者が使うもの
である。一般に、テキストから音声を合成する場合、感
情や文脈等の情報を適切に表現することが難しいため、
韻律パラメータエディットツール１０４によるエディッ
トは有効である。以上の結果として合成音声１０５が生
成される。なお、この種のエディットツールの手法につ
いては、例えば情報処理学会音声言語情報処理研究会１
９９７年７月１９日発表の予稿「様々な音声表現を実現
できる音声作成ツール」に記載されている。

【０００８】動画像蓄積部１０６に蓄積する動画像断片
データとして、キャラクタの基本動作とそのインデック
スを蓄積しておくことが考えられる。キャラクタの基本
動作とは、前向きで喋っている動作、横向きで喋ってい
る動作、驚きの動作、泣いている動作、誉めている動
作、走っている動作などであり、これらの基本動作を組
み合わせることによってキャラクタに演技をさせる。ツ
ール１０７で、合成音声１０５に対して、動画像断片デ
ータを添付する。つまり合成音声１０５の部分部分に、
その発話内容に適した基本動作を制作者が動画像蓄積部
１０６から選択して割り当てる。さらに、合成音声１０
５の開始時間、動画像断片の開始時間の相対関係を設定
したり、合成音声と動画像の時間長が異なる場合の動作
を設定する。例えば、合成音声が動画像より短い場合に
は、音声の終了と同時に動画像を中断するか、音声が終
了しても動画像を最後まで再生するか、を設定する。逆
に、合成音声が動画像より長い場合には、動画像を繰り
返し再生するか、動画像を終了時点で停止させておく
か、を設定する。以上のように、合成音声１０５と動画
像との対応付けを設定した後に、これら合成音声と動画
像について音声の断片インデックス（符号）、音声合成
のための韻律情報、動画像断片インデックス（符号）お
よび、合成音声と動画像の時間関係の情報を保存し、符
号系列、つまりコンテンツ１０８とする。このコンテン
ツ１０８に保存されるデータは、これらを用いて再生さ
れる動画像、および、音声に比べると４桁以上少なくな
る。

【０００９】次に、図１Ｂを参照して、コンテンツ１０
８を再生する手順を説明する。図１Ａに示したコンテン
ツ作成手順にしたがって作成されたデータ（コンテン
ツ）１０８は、そのコンテンツ作成で用いた音声断片デ
ータを音声蓄積部１０２から、また動画像断片データを
動画像蓄積部１０６からそれぞれ取出し、これらデータ
を基に、音声の合成と動画の再生を合成・再生部１０９
で行って、ムービーを構成する。

【００１０】なおコンテンツ制作時に、合成音声の韻律
パラメータとしては、規則合成で得られたものをそのま
ま用い、エディットツール１０４による修正は行わなく
てもよい。

【００１１】

【発明の効果】この発明の特徴は、（１）ムービーを構
成する動画像と音声を、有限の音声断片データと動画像
断片データとによって表現すること、（２）コンテンツ
作成で用いた音声断片データと動画像断片データとを、
コンテンツ再生側に蓄積しておくこと、にある。その結
果、コンテンツ作成側からコンテンツ再生側に送られる
データはその音声断片データ、動画像断片データの各イ
ンデックスとすることができ、再生されるムービーの情
報量に比べて、格段に少ない情報量ですむ。

【００１２】この発明によって作成されたコンテンツ
は、情報量が少ないため、インターネットなど、伝送速
度が遅い場合でも待ち時間を少なく押さえて、ムービー
による表現を実現できる。また、伝送速度が速い場合で
も、安価にムービーを利用できることとなる。

【図面の簡単な説明】

【図１】Ａはこの発明によるコンテンツ制作方法の処理
手順の例を示す流れ図、Ｂはそのコンテンツから合成音
声付き動画像を作成する方法の手順を示す流れ図であ
る。

Claims

【特許請求の範囲】

【請求項１】音声の断片とそれを示すインデックス、
および、動画像の断片とそれを示すインデックスとを蓄
積しておき、入力されたテキストに応じて前記蓄積音声断片を参照し
て音声断片のインデックス列を作ると共に韻律パラメー
タを付加し、かつ前記入力テキストに応じて前記蓄積動
画像断片から選んで動画像断片のインデックス列を構成
し、１つのコンテンツを作成する動画像と合成音声によ
るコンテンツ制作方法。
【請求項２】前記音声の断片として、規則合成方法で
利用される音声断片を用い、規則合成方法によって前記
符号列のテキストから音声合成を行い、その合成音声を
用いることを特徴とする請求項１記載の動画像と合成音
声によるコンテンツ制作方法。
【請求項３】前記音声の断片として、規則合成方法で
利用される音声断片を用い、合成音声の韻律パラメータ
や、音素パラメータを制作者が操作して作成した合成音
声を用いることを特徴とする請求項２記載の動画像と合
成音声によるコンテンツ制作方法。
【請求項４】前記動画像の断片として、キャラクタの
基本動作を蓄積しておき、この基本動作の組み合わせに
よって動画像の断片のインデックス列を構成することを
特徴とする請求項１乃至３の何れかに記載の動画像と合
成音声によるコンテンツ制作方法。
【請求項５】入力テキストに応じた音声と動画像を組
合せたコンテンツを、コンピュータ処理により制作する
プログラムを記録した記録媒体であって、前記入力テキストを解析して音声断片蓄積部の音声断片
を用いて規則合成法によって音声合成してそのインデッ
クス列として前記音声を表現する処理と、前記入力テキストの内容に応じて、動画像断片蓄積部の
動画像断片が選択合成されたものを、そのインデックス
列として前記動画像を表現する処理と、前記音声断片のインデックス列及び前記動画像断片のイ
ンデックス列の組を１つのコンテンツとして出力する処
理とを上記コンピュータに行わせることを特徴とするプ
ログラムを記録した記録媒体。
【請求項６】音声断片のインデックス列と動画像断片
のインデックス列の組合せよりなるコンテンツをコンピ
ュータにより再生するプログラムを記録した記録媒体で
あって、前記音声断片のインデックス列の各インデックスを、音
声断片蓄積部を参照して音声断片列よりなる音声に変換
する処理と、前記動画像断片のインデックス列の各インデックスを、
動画像断片蓄積部を参照して動画像断片列よりなる動画
像に変換する処理とを同時にコンピュータに実行させる
ことを特徴とするプログラムを記録した記録媒体。