JP2005062420A

JP2005062420A - コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム

Info

Publication number: JP2005062420A
Application number: JP2003291644A
Authority: JP
Inventors: Keiko Inagaki; 敬子稲垣; Yusuke Nakano; 雄相中野
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2003-08-11
Filing date: 2003-08-11
Publication date: 2005-03-10

Abstract

【課題】利用者の意図に即した表現力の高いコンテンツを生成できるとともに、コンテンツ生成の際の利用者の負担を軽減できるようにする。
【解決手段】コンテンツ生成サーバ２０の音声合成手段２３は、送信側装置１０が生成した韻律情報と抽出した音声合成用データとにもとづいて、送信側装置１０から受信したテキストデータに含まれるテキスト文を合成音声に変換し音声データを生成する。動画音声合成手段２４は、送信者が選択した動画データを動画データベース２２から抽出する。動画音声合成手段２４は、動画データと音声データとを時間軸に沿って合成して合成動画データを生成する。そして、合成動画送信手段２６は、生成した合成動画データを通信ネットワークを介して受信側装置３０に送信する。受信側装置３０の再生手段３３は、受信した合成動画データにもとづいて動画と音声とを同時再生する。
【選択図】図１

Description

本発明は、動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラムに関する。

動画と音声とを連動して再生表示できるソフトウェア商品として、音声合成用のデータを添付して音声付動画メールを送信できるＰｏｓｔＰｅｔ（登録商標）や「ｉアニメっちゃ」などの商品が実用化されている。動画と音声とを合成したコンテンツを生成する技術として、特許文献１には、合成音声に同期した違和感のない自然な動画像を生成する画像・音声合成装置が記載されている。特許文献１に記載されている画像・音声合成装置は、入力されたテキストを規則音声合成と呼ばれる技術を用いて合成音声に変換する。画像・音声合成装置は、音声データベースからなるべく連続する音声単位を選んで合成音声を生成し、それらの音声単位に対応する連続した動画像単位を接続して動画像を生成する。

また、特許文献２には、伝送するコンテンツのデータ量を低減できるコンテンツ制作方法が記載されている。特許文献２に記載されているコンテンツ制作方法では、インデックスデータが対応付けられている音声断片データを蓄積する音声断片蓄積部と、インデックスデータが対応付けられている動画像断片データを蓄積する動画像断片蓄積部とを備える。音声合成器は、入力されたテキストを規則音声合成によって音声断片データを用いて合成音声に変換する。また、利用者（コンテンツ制作者）の操作に従って、合成音声の部分ごとに動画像断片データを割り当てる。そして、音声合成に用いた音声断片データのインデックスデータと、動画像割り当てに用いた動画像断片データのインデックスデータとを含むコンテンツを生成する。

特開平１１−２３１８９９号公報（第３−５頁、第１図）特開２０００−２０７４４号公報（第２−３頁、第１図）

特許文献１に記載されている画像・音声合成装置によれば、合成音声に同期した違和感のない自然な動画像を音声と連動させて再生するようにコンテンツを生成することができる。しかし、利用者がメッセージ内容などに応じて画像データを自由に選択することができず、合成音声の生成に必要な韻律パラメータを利用者の意思にかかわらず入力テキストの構文解析の結果にもとづいて生成しているので、音声付動画メールなどを送信する場合にメッセージ内容を利用者の意図した態様で相手側に伝えることができない場合がある。

また、特許文献２に記載されているコンテンツ制作方法によれば、動画像の断片データを利用者が自由に選択し、韻律パラメータエディットツールを用いて韻律パラメータを利用者が編集しながらコンテンツを生成することができる。しかし、合成音声データの再生時間長に合わせて、利用者が断片データを複数組み合わせて動画像データを作成する作業をしなければならず、コンテンツ生成の際の利用者の操作負担が大きい。

そこで、本発明は、利用者の意図に即した表現力の高いコンテンツを生成できるとともに、コンテンツ生成の際の利用者の負担を軽減できるコンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラムを提供することを目的とする。

本発明によるコンテンツ生成システムは、動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成サーバと、利用者が使用する利用者端末とを含むコンテンツ生成システムであって、利用者端末は、利用者の入力指示に従って、音声の韻律規則を示す韻律情報を生成する韻律情報生成手段を備え、コンテンツ生成サーバは、動画データを記憶する動画記憶手段と、利用者が選択した動画データを動画記憶手段から抽出する動画抽出手段と、利用者端末から、通信ネットワークを介して韻律情報を受信する韻律情報受信手段と、利用者端末から、通信ネットワークを介してテキストデータを受信するテキスト受信手段と、受信したテキストデータに含まれるテキスト文と韻律情報とに従って音声データを生成する音声生成手段と、音声データと抽出した動画データとを時間軸に沿って合成してコンテンツを生成するコンテンツ生成手段とを備えたことを特徴とする。

韻律情報生成手段は、音声の高低、発声速度またはイントネーションのうちの少なくとも１つの情報を含む韻律情報を生成するものであってもよい。そのような構成によれば、利用者端末を操作してメッセージ内容の音声を再生するときの音声の高低、発声速度やイントネーションなどを設定することができ、利用者の意図に即した音声の態様でコンテンツを生成することができる。

各動画データに対応させて音声の基本単位の音声合成用データを記憶する音声合成用データ記憶手段を備え、音声生成手段は、音声データを生成する際に、韻律情報に従って音声合成データを変形させるものであってもよい。そのような構成によれば、波形データを変形することによって、容易に韻律情報に即した音声データを生成することができる。

コンテンツ生成手段は、動画の再生速度を変更することによって、音声の再生時間と同じになるように動画の再生時間の時間長を変換して、動画データと音声データとを対応付けて合成するものであってもよい。そのような構成によれば、受信者端末がコンテンツにもとづいて動画および音声を再生した場合に、動画がメッセージ内容の音声と同時に再生を開始し、動画と音声とが同じ時間長で再生を終了するようにすることができる。

コンテンツ生成手段は、動画を繰り返し再生するように割り当てることによって、音声の再生時間と同じになるように動画の再生時間の時間長を変換して、動画データと音声データとを対応付けて合成するものであってもよい。そのような構成によれば、受信者端末がコンテンツにもとづいて動画および音声を再生した場合に、動画がメッセージ内容の音声と同時に再生を開始し、動画と音声とが同じ時間長で再生を終了するようにすることができる。

コンテンツ生成システムは、動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成サーバと、利用者が使用する利用者端末とを含むコンテンツ生成システムであって、コンテンツ生成サーバは、動画データを記憶する動画記憶手段と、利用者が選択した動画データを動画記憶手段から抽出する動画抽出手段と、音声の韻律規則を示す韻律情報を生成する韻律情報生成手段と、利用者端末から、通信ネットワークを介してテキストデータを受信するテキスト受信手段と、受信したテキストデータに含まれるテキスト文と韻律情報とに従って音声データを生成する音声生成手段と、音声データと抽出した動画データとを時間軸に沿って合成してコンテンツを生成するコンテンツ生成手段とを備え、動画記憶手段は、動画の属性を示す動画属性情報を、動画データに対応付けて記憶し、韻律情報生成手段は、利用者が選択した動画データに対応する動画属性情報にもとづいて韻律情報を生成するものであってもよい。そのような構成によれば、動画の登場者などに応じた適切なコンテンツを生成できるとともに、韻律情報の選択指示をする場合と比較して、コンテンツ生成の際の利用者の負担を更に軽減することができる。

韻律情報生成手段は、動画属性情報として、動画の登場者の性別、体格、性格、表情、動作速度、感情または出身地のうちの少なくとも１つの情報にもとづいて韻律情報を生成するものであってもよい。そのような構成によれば、動画の登場者などに応じた適切な韻律情報を自動生成し、音声データを生成することができる。

韻律情報生成手段は、利用者端末から通信ネットワークを介して受信したテキストデータの属性を示すテキスト属性情報を抽出し、テキスト属性情報にもとづいて韻律情報を生成するものであってもよい。そのような構成によれば、メッセージ内容に応じた適切なコンテンツを生成できるとともに、韻律情報の選択指示をする場合と比較して、コンテンツ生成の際の利用者の負担を更に軽減することができる。

韻律情報生成手段は、テキスト属性情報として、テキストのタイトル、テキストの内容、テキストの文体、テキストに所定の単語が含まれるか否かの情報、文字の種類またはテキストデータの送信日時のうちの少なくとも１つの情報にもとづいて韻律情報を生成するものであってもよい。そのような構成によれば、メッセージ内容などに応じた適切な韻律情報を自動生成し、音声データを生成することができる。

コンテンツ生成サーバは、利用者端末から通信ネットワークを介してテキストデータを受信すると、動画記憶手段が記憶する動画データを所定の条件に従って選択し、選択した動画データを動画記憶手段から抽出する動画選択抽出手段を備えたものであってもよい。そのような構成によれば、メッセージ内容などに応じた適切なコンテンツを生成できるとともに、動画データおよび韻律情報の選択指示をする場合と比較して、コンテンツ生成の際の利用者の負担を更に軽減することができる。

動画選択抽出手段は、日時、季節、動画の使用頻度または乱数のうちの少なくとも１つの情報にもとづいて、動画記憶手段が記憶する動画データを選択するものであってもよい。そのような構成によれば、コンテンツ生成サーバは、動画データを自動選択しコンテンツを生成することができる。

コンテンツ生成システムは、動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成サーバと、利用者が使用する利用者端末とを含むコンテンツ生成システムであって、コンテンツ生成サーバは、動画データを記憶する動画記憶手段と、利用者端末から通信ネットワークを介してテキストデータを受信すると、動画記憶手段が記憶する動画データを所定の条件に従って選択し、選択した動画データを動画記憶手段から抽出する動画選択抽出手段と、音声の韻律規則を示す韻律情報を生成する韻律情報生成手段と、利用者端末から、通信ネットワークを介してテキストデータを受信するテキスト受信手段と、受信したテキストデータに含まれるテキスト文と韻律情報とに従って音声データを生成する音声生成手段と、音声データと抽出した動画データとを時間軸に沿って合成してコンテンツを生成するコンテンツ生成手段とを備え、動画記憶手段は、動画の属性を示す動画属性情報を、動画データに対応付けて記憶し、韻律情報選択手段は、動画選択抽出手段によって選択された動画データに対応する動画属性情報にもとづいて韻律情報を生成するものであってもよい。そのような構成によれば、動画の登場者などに応じた適切なコンテンツを生成できるとともに、動画データおよび韻律情報の選択指示をする場合と比較して、コンテンツ生成の際の利用者の負担を更に軽減することができる。

本発明によるコンテンツ生成方法は、利用者が使用する利用者端末が、利用者の入力指示に従って、音声の韻律規則を示す韻律情報を生成するステップと、動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成サーバが、利用者が選択した動画データを抽出するステップと、コンテンツ生成サーバが、利用者端末から、通信ネットワークを介して韻律情報を受信するステップと、コンテンツ生成サーバが、利用者端末から、通信ネットワークを介してテキストデータを受信するステップと、コンテンツ生成サーバが、受信したテキストデータに含まれるテキスト文と韻律情報とに従って音声データを生成するステップと、コンテンツ生成サーバが、音声データと抽出した動画データとを時間軸に沿って合成してコンテンツを生成するステップとを含むことを特徴とする。

本発明によるコンテンツ生成プログラムは、動画と音声とを同時再生するためのコンテンツを生成するためのコンテンツ生成プログラムであって、コンピュータに、利用者が選択した動画データを抽出する処理と、利用者が使用する利用者端末から、通信ネットワークを介して音声の韻律規則を示す韻律情報を受信する処理と、利用者端末から、通信ネットワークを介してテキストデータを受信する処理と、受信したテキストデータに含まれるテキスト文と韻律情報とに従って音声データを生成する処理と、音声データと抽出した動画データとを時間軸に沿って合成してコンテンツを生成する処理とを実行させることを特徴とする。

本発明によれば、コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラムを、利用者端末から受信したテキストデータに含まれるテキスト文を、利用者端末が生成した韻律情報にもとづいて音声データに変換し、利用者が選択した動画データと合成して動画と音声とを同時再生するためのコンテンツを生成するようにしたので、利用者の意図に即した表現力の高いコンテンツを生成することができる。また、利用者が所定の入力操作を行えばコンテンツが自動生成され、利用者の負担を軽減することができる。従って、利用者の意図に即した表現力の高いコンテンツを生成できるとともに、コンテンツ生成の際の利用者の負担を軽減することができる。

実施の形態１．
以下、本発明の第１の実施の形態を図面を参照して説明する。図１は、本発明によるコンテンツ生成システムの構成の一例を示すブロック図である。図１に示すように、コンテンツ生成システムは、送信側のユーザ（以下、送信者と記す）が使用する送信側装置１０、プロバイダなどが運営するコンテンツ生成サーバ２０、および受信側のユーザ（以下、受信者と記す）が使用する受信側装置３０とを含む。

送信側装置１０とコンテンツ生成サーバ２０とは、インターネットなどの通信ネットワークを介してデータを送受信する。同様に、受信側装置３０とコンテンツ生成サーバ２０とは、インターネットなどの通信ネットワークを介してデータを送受信する。なお、送信側装置１０、コンテンツ生成サーバ２０および受信側装置３０は、インターネット以外の通信ネットワークを介してデータを送受信するものであってもよい。

送信側装置（利用者端末）１０は、携帯電話機やＰＤＡ（Personal Digital Assistants ）などの携帯端末である。送信側装置１０は、メーラなどがインストールされており通信ネットワークへの接続機能を備える。なお、送信側装置１０は、携帯端末に限らず、例えばパーソナルコンピュータなどの情報処理端末であってもよい。また、送信側装置１０は、１台に限らず複数台が通信ネットワークを介してコンテンツ生成サーバ２０に接続されていてもよい。

図１に示すように、送信側装置１０は、コンテンツ生成に用いる動画データを選択するための動画選択手段１１と、音声合成に用いる韻律情報を選択するための韻律情報選択手段１２と、テキストを入力するためのテキスト入力手段１３と、テキストデータを送信するテキスト送信手段１４とを含む。

動画選択手段１１は、送信側装置１０の記憶装置（図示せず）が記憶するプログラムに従って処理を実行する送信側装置１０の制御部（図示せず）およびネットワークインタフェース部（図示せず）などによって実現される。動画選択手段１１は、送信者の操作に従って、コンテンツ生成サーバ２０が蓄積する動画データのうち、コンテンツ生成に用いる動画データの選択指示を受け付けて、送信者がいずれの動画データを選択したのかを示す情報を生成する。以下、送信者がいずれの動画データを選択したのかを示す情報を、動画選択情報と記す。また、動画選択手段１１は、動画選択情報を通信ネットワークを介してコンテンツ生成サーバ２０に送信する。

韻律情報選択手段１２は、送信側装置１０の記憶装置が記憶するプログラムに従って処理を実行する送信側装置１０の制御部およびネットワークインタフェース部などによって実現される。韻律情報選択手段１２は、送信者の選択操作に従って、音声合成に用いられる韻律情報を生成する。韻律情報とは、合成音声を生成する際に用いられる音声の韻律規則を示す情報である。例えば、韻律情報選択手段１２は、韻律情報として、音声の高低を示すピッチ、音声の発声速度を示すテンポ、または音声の抑揚を示すイントネーションなどの情報を生成する。また、韻律情報選択手段１２は、韻律情報を通信ネットワークを介してコンテンツ生成サーバ２０に送信する。なお、韻律情報生成手段は、韻律情報選択手段１２によって実現される。

テキスト入力手段１３は、キーボード、タッチパネルまたは電子ペンなど送信側装置１０の入力装置（図示せず）および制御部などによって実現される。テキスト入力手段１３は、送信者の操作に従ってテキスト入力を受け付ける。また、テキスト入力手段１３は、入力されたテキスト文を含むテキストデータを生成する。テキスト送信手段１４は、送信側装置１０の記憶装置が記憶するプログラムに従って処理を実行する送信側装置１０の制御部およびネットワークインタフェース部などによって実現される。テキスト送信手段１４は、テキストデータを通信ネットワークを介してコンテンツ生成サーバ２０に送信する。

コンテンツ生成サーバ２０は、動画と音声とを同時再生するためのコンテンツを自動生成するサーバである。本実施の形態では、コンテンツ生成サーバ２０は、送信者が選択した動画データと、送信側装置１０から受信したテキストデータとにもとづいて、音声付動画メールとしてコンテンツを自動生成する。なお、本発明によるコンテンツ生成システムは、音声付動画メールに限らず、動画と音声とを同時再生するための他のコンテンツを生成する場合にも適用可能である。

コンテンツ生成サーバ２０は、図１に示すように、動画データを蓄積する動画データベース２２と、合成音声を生成する音声合成手段２３と、動画データと音声データとを合成する動画音声合成手段２４と、動画と音声の合成データを記憶する合成動画記憶手段２５と、動画と音声の合成データを送信する合成動画送信手段２６とを含む。また、コンテンツ生成サーバ２０には、外部から動画データが供給される。本実施の形態では、動画データを作成するための動画作成手段２１が接続されている。

動画作成手段２１は、例えば、高性能のワークステーションである。動画作成手段２１は、動画を取り込んで動画データを生成する動画データ生成機能を備える。また、動画作成手段２１は、音声合成の際に用いられる音声波形の基本単位データである音声合成用データを生成する機能を備える。

音声合成用データは、例えば「あ」や「い」などの音節単位ごとの波形データとして生成される。また、音声合成用データは、各動画データごとに対応付けて生成される。例えば、動画に登場するキャラクタ（登場者）が男性である場合には、男性の声色の音声波形の特徴をもつ音声合成用データが動画データに対応付けて生成される。

動画データベース２２は、コンテンツ生成サーバ２０のデータベース装置（図示せず）によって実現される。動画データベース２２は、予め動画作成手段２１が作成した動画データを記憶する。また、動画データベース２２は、動画作成手段２１が作成した音声合成用データを、各動画データに対応付けて記憶する。

音声合成手段２３は、コンテンツ生成サーバ２０の記憶装置（図示せず）が記憶するプログラムに従って処理を実行するコンテンツ生成サーバ２０の制御部（図示せず）およびネットワークインタフェース部（図示せず）などによって実現される。音声合成手段２３は、送信側装置１０からの韻律情報および動画データベース２２が記憶する音声合成用データにもとづいて、送信側装置１０からのテキストデータに含まれるテキスト文を合成音声に変換し音声データを生成する。音声合成手段２３は、例えば、規則音声合成と呼ばれる音声合成方式を用いて音声データを生成する。

動画音声合成手段２４は、コンテンツ生成サーバ２０の記憶装置が記憶するプログラムに従って処理を実行するコンテンツ生成サーバ２０の制御部およびネットワークインタフェース部などによって実現される。動画音声合成手段２４は、音声データと動画データとを合成して合成データを生成する。以下、動画音声合成手段２４が生成する合成データを合成動画データと記す。本実施の形態において、合成動画データは、音声付動画メールとして受信側装置３０に送信されるコンテンツとして使用される。

動画音声合成手段２４は、合成動画データにもとづいて音声と動画とを再生する際に、音声と動画とが同時に再生を開始し同じ時間長で再生を終了するように、動画データを自動的に変換し動画データと音声データとを対応付けて合成する。以下、音声と動画とが同時に再生を開始し同じ時間長で再生を終了するようにすることを、単に時間軸を合わせると記す。例えば、動画音声合成手段２４は、時間軸を合わせるために、動画の再生速度を変更する（コマ落としやコマ挿入）ことによって動画の再生時間が音声の再生時間と同じになるように動画データを変換する。例えば、音声の再生時間が動画の再生時間よりも長い場合には、動画音声合成手段２４は、時間軸を合わせるために、動画を繰り返し再生するように割り当てることによって動画の再生時間が音声の再生時間と同じになるように動画データを変換する。

合成動画記憶手段２５は、コンテンツ生成サーバ２０の記憶装置によって実現される。合成動画記憶手段２５は、動画音声合成手段２４が生成した合成動画データを一時記憶する。合成動画送信手段２６は、コンテンツ生成サーバ２０の記憶装置が記憶するプログラムに従って処理を実行するコンテンツ生成サーバ２０の制御部およびネットワークインタフェース部などによって実現される。合成動画送信手段２６は、合成動画記憶手段２５が記憶する合成動画データを、通信ネットワークを介して受信側装置３０に送信する。

なお、動画記憶手段および音声合成用データ記憶手段は、動画データベース２２によって実現される。また、動画抽出手段およびコンテンツ生成手段は、動画音声合成手段２４によって実現される。また、テキスト受信手段および音声生成手段は、音声合成手段２３によって実現される。

また、本実施の形態において、コンテンツ生成サーバ２０の記憶装置は、コンテンツ生成処理を実行するための各種のプログラムを記憶する。例えば、コンテンツ生成サーバ２０の記憶装置は、コンピュータに、利用者が選択した動画データを抽出する処理と、利用者が使用する利用者端末から、通信ネットワークを介して音声の韻律規則を示す韻律情報を受信する処理と、利用者端末から、通信ネットワークを介してテキストデータを受信する処理と、受信したテキストデータに含まれるテキスト文と韻律情報とに従って音声データを生成する処理と、音声データと抽出した動画データとを時間軸に沿って合成してコンテンツを生成する処理とを実行させるためのコンテンツ生成プログラムを記憶する。

受信側装置３０は、携帯電話機やＰＤＡなどの携帯端末である。受信側装置３０は、メーラなどがインストールされており通信ネットワークへの接続機能を備える。なお、受信側装置３０は、携帯端末に限らず、例えばパーソナルコンピュータなどの情報処理端末であってもよい。また、受信側装置３０は、１台に限らず複数台が通信ネットワークを介してコンテンツ生成サーバ２０に接続されていてもよい。

図１に示すように、受信側装置３０は、合成動画データを受信する動画受信手段３１と、合成動画データを記憶する合成動画記憶手段３２と、動画および音声を再生する再生手段３３とを含む。

動画受信手段３１は、受信側装置３０の記憶装置（図示せず）が記憶するプログラムに従って処理を実行する受信側装置３０の制御部（図示せず）およびネットワークインタフェース部（図示せず）などによって実現される。動画受信手段３１は、合成動画データを、通信ネットワークを介してコンテンツ生成サーバ２０から受信する。

合成動画記憶手段３２は、受信側装置３０の記憶装置によって実現される。合成動画記憶手段３２は、受信した合成動画データを一時記憶する。再生手段３３は、受信側装置３０の記憶装置が記憶するプログラムに従って処理を実行する受信側装置３０の制御部などによって実現される。再生手段３３は、合成動画データにもとづいて、動画と音声とを同時に再生する機能を備える。

次に、動作について説明する。図２は、コンテンツ生成サーバ２０がコンテンツを自動生成するコンテンツ生成処理、および受信側装置３０がコンテンツにもとづいて動画および音声を再生する再生処理の一例を示す流れ図である。

複数の動画データおよび対応する音声再生用データが予めコンテンツ生成サーバ２０に入力される。この際に、動画に登場するキャラクタなどがダンスをしているシーンや、後ろ向きに立っているシーンなどを表現した様々な動画データが入力される。そして、入力された動画データと音声再生用データとは、それぞれ対応付けられて予め動画データベース２２に蓄積される。

送信者は、受信側装置３０に音声付動画メールを送信したい場合には、送信側装置１０を操作して、音声付動画メールに使用したい動画データの選択指示を入力する。送信側装置１０の動画選択手段１１は、操作者の操作に従って、コンテンツ生成に用いる動画データの選択指示を受け付けて動画選択情報を生成する（ステップＳ１０１）。そして、動画選択手段１１は、動画選択情報を通信ネットワークを介してコンテンツ生成サーバ２０に送信する。

例えば、動画選択手段１１は、コンテンツ生成サーバ２０が蓄積する動画データのサンプルデータの送信要求を、通信ネットワークを介してコンテンツ生成サーバ２０に送信する。コンテンツ生成サーバ２０は、動画データベース２２が記憶する動画データのサンプルデータを抽出し、通信ネットワークを介して送信側装置１０に送信する。すると、送信側装置１０は、受信したサンプルデータにもとづいてサンプル画像や動画の内容情報などを表示する。そして、送信者は、表示されたサンプル画像や内容情報などを確認して動画の選択指示を入力する。

例えば、送信側装置１０は、サンプルデータとして動画データそのものを受信し、動画を再生して表示する。また、送信側装置１０は、動画データとともに対応する音声合成用データを受信し、動画に登場するキャラクタなどの音声単位の声色を再生する。例えば、送信側装置１０は、「あ」や「い」などいずれかの音声単位の声色を再生する。そして、送信者は、再生された動画および声色などを確認して動画の選択指示を入力する。

また、例えば、送信側装置１０は、サンプルデータとして、動画データのファイル名、動画の特徴やコメントなどの情報を受信し、これらの情報を表示してもよい。また、例えば、送信側装置１０は、サンプルデータとして、動画データに含まれる最初の１枚分の静止画像のみを受信し、受信した１枚分の静止画像を表示してもよい。また、例えば、送信側装置１０は、サンプルデータとして、動画データが格納されているＵＲＬ（Uniform Resource Locator）などを受信してもよい。なお、いずれのサンプルデータの形式を使用するかは、送信側装置１０のメモリサイズ、送受信にかかる通信コスト、表示速度などを考慮して決定するようにしてもよい。

送信者は、送信側装置１０を操作して、韻律情報の選択指示を入力する。送信側装置１０の韻律情報選択手段１２は、操作者の選択操作に従って、音声合成に用いる韻律情報を生成する。そして、韻律情報選択手段１２は、生成した韻律情報を、通信ネットワークを介してコンテンツ生成サーバ２０に送信する（ステップＳ１０２）。

例えば、韻律情報は、音声のピッチ、テンポ、イントネーションなどの韻律パラメータごとに、１から９までの数値情報として設定される。数値は、韻律パラメータの高低又は大小を相対的に示す値である。送信側装置１０には各韻律パラメータの値を設定するためのソフトウェアがインストールされており、韻律情報選択手段１２は、送信者の選択操作に従って各韻律パラメータの値を設定する。そして、韻律情報選択手段１２は、設定した各韻律パラメータの値を含む韻律情報を生成する。

例えば、動画のキャラクタに高い声で早口に話をさせたい場合には、韻律情報選択手段１２は、送信者の操作に従って、ピッチ「９」およびテンポ「９」と設定する。また、例えば、キャラクタに低い声でゆっくりと話をさせたい場合には、韻律情報選択手段１２は、送信者の操作に従って、ピッチ「１」およびテンポ「１」と設定する。また、例えば、韻律情報選択手段１２は、操作者の操作に従って、キャラクタに抑揚の大きい話し方をさせたい場合にはイントネーション「９」と設定し、抑揚が小さい（または抑揚がない）話し方をさせたい場合にはイントネーション「１」と設定する。

また、送信側装置１０は、予め各韻律パラメータのデフォルト値を記憶していてもよい。そして、送信者が、各韻律パラメータの値をデフォルト値を基準に調整できるようにしてもよい。この場合に、韻律情報選択手段１２は、送信者の選択操作に従って、各韻律パラメータの値を調整する。そして、韻律情報選択手段１２は、調整後の各韻律パラメータの値を含む韻律情報を生成する。さらに、操作者によって韻律パラメータの選択操作が行われなかった場合には、韻律情報選択手段１２は、デフォルト値をそのまま韻律情報としてコンテンツ生成サーバ２０に送信するようにしてもよい。

送信者は、送信側装置１０を操作して、受信者に送りたいメッセージ内容のテキスト文と、受信者の宛先情報とを入力する。テキスト入力手段１３は、送信者の操作に従って、テキスト文および受信者の宛先情報の入力を受け付けてテキストデータを生成する（ステップＳ１０３）。

すると、送信側装置１０のテキスト送信手段１４は、テキスト入力手段１３からのテキストデータを、通信ネットワークを介してコンテンツ生成サーバ２０に送信する（ステップＳ１０４）。例えば、テキスト送信手段１４は、テキストデータとして、入力されたメッセージ内容のテキスト文と宛先情報とを含む電子メールを、通信ネットワークを介してコンテンツ生成サーバ２０に送信する。

動画選択情報、韻律情報およびテキストデータを受信すると、コンテンツ生成サーバ２０の音声合成手段２３は、受信した動画選択情報にもとづいて、送信者が選択した動画データに対応する音声合成用データを動画データベース２２から抽出する。また、音声合成手段２３は、受信したテキストデータから合成音声に変換すべきテキスト文を抽出する。音声合成手段２３は、テキスト文に含まれる音節単位ごとに対応する音声合成用データを合成して、音節単位ごとの音声波形を合成した音声合成データを生成する。例えば、音声合成手段２３は、動画データベース２２から抽出した音声合成用データを、テキスト文に含まれる「あ」や「い」などの音節単位ごとに合成して音声合成データを生成する。

音声合成手段２３は、受信した韻律情報にもとづいて、音声合成データを変形し音声データを生成する（ステップＳ１０５）。例えば、韻律情報にピッチ「９」が含まれる場合には、音声合成手段２３は、周波数が高くなるように音声合成データを変換する。すなわち、音声合成手段２３は、再生される音声が高くなるように音声合成データを変換する。また、例えば、韻律情報にピッチ「１」が含まれる場合には、音声合成手段２３は、周波数が低くなるように音声合成データを変換する。すなわち、音声合成手段２３は、再生される音声が低くなるように音声合成データを変換する。

また、例えば、韻律情報にイントネーション「９」が含まれる場合には、音声合成手段２３は、波形全体の振幅の変化が大きくなるように音声合成データを変換する。すなわち、音声合成手段２３は、再生される音声の抑揚が大きくなるように音声合成データを変換する。また、例えば、韻律情報にイントネーション「１」が含まれる場合には、音声合成手段２３は、振幅の変化が小さくなるように音声合成データを変換する。すなわち、音声合成手段２３は、再生される音声の抑揚が小さくなるように音声合成データを変換する。

なお、本実施の形態では、音声合成データを作成してから韻律情報に従ってデータの変形を行っているが、音声合成データを作成する際に、音声合成用データを変形するようにしてもよい。

コンテンツ生成サーバ２０の動画音声合成手段２４は、受信した動画選択情報にもとづいて、送信者が選択した動画データを動画データベース２２から抽出する。動画音声合成手段２４は、時間軸に沿って、抽出した動画データと音声合成手段２３が生成した音声データとを合成して合成動画データを生成する（ステップＳ１０６）。時間軸に沿ってとは、動画の内容に関係なく時間軸に音声データを動画データに対応付けることである。また、動画音声合成手段２４は、動画データと音声データとの時間軸を合わせる処理を行う。そして、動画音声合成手段２４は、生成した合成動画データを合成動画記憶手段２５に記憶させる。

また、音声合成手段２３は、音声データを生成する際にテキストデータから受信者の宛先情報を抽出する。動画音声合成手段２４は、生成した合成動画データに対応付けて、音声合成手段２３からの宛先情報を合成動画記憶手段２５に記憶させる。

合成動画送信手段２６は、合成動画記憶手段２５から、合成動画データおよび対応する宛先情報を抽出する。すると、合成動画送信手段２６は、抽出した宛先情報にもとづいて、抽出した合成動画データを、通信ネットワークを介して受信側装置３０に送信する（ステップＳ１０７）。

受信側装置３０の動画受信手段３１は、合成動画データを、通信ネットワークを介してコンテンツ生成サーバ２０から受信する（ステップＳ１０８）。そして、動画受信手段３１は、受信した合成動画データを合成動画記憶手段３２に記憶させる。

受信者は、受信した音声付動画メールを再生して見たい場合には、受信側装置３０を操作して動画および音声の再生指示を入力する。受信側装置３０の再生手段３３は、受信者の操作に従って、合成動画記憶手段３２から合成動画データを抽出する。そして、再生手段３３は、抽出した合成動画データにもとづいて動画および音声を再生する（ステップＳ１０９）。

ステップＳ１０５において、送信側装置１０が生成した韻律情報にもとづいて合成音声を生成しているので、再生手段３３が再生を開始すると、送信者が意図した声の調子や抑揚などに従ってメッセージ内容の音声が再生される。また、ステップＳ１０６において時間軸に沿って合成動画データが生成されているので、再生手段３３が再生を開始すると、動画と音声との再生が同時に開始され、動画と音声とが同じ時間長継続して再生を終了する。

以上のように、本実施の形態によれば、送信側装置１０が生成した韻律情報にもとづいて音声の音声合成用データを変形して音声データを生成し、送信者が自由に選択した動画データと音声データとを時間軸に沿って合成してコンテンツを生成する。そのため、送信者の意図に即した表現力の高いコンテンツを生成することができる。また、送信者が動画データおよび韻律情報の選択指示およびメッセージ内容のテキスト文さえ入力すれば、コンテンツ生成サーバ２０がコンテンツを自動生成する。そのため、コンテンツ生成の際の送信者の負担を軽減することができる。従って、送信者の意図に即した表現力の高いコンテンツを生成できるとともに、コンテンツ生成の際の送信者の負担を軽減することができる。

実施の形態２．
次に、本発明の第２の実施の形態を図面を参照して説明する。図３は、コンテンツ生成システムの構成の他の例を示すブロック図である。図３に示すように、コンテンツ生成サーバ２０は、第１の実施の形態で示した構成に加えて、韻律情報を自動生成する韻律情報選択手段２７ａを含む。また、送信側装置１０は、第１の実施の形態で示した構成と異なり、韻律情報選択手段１２を含まない。なお、本実施の形態において、コンテンツ生成システムのその他の構成および基本的な動作については、第１の実施の形態で示した場合と同様である。

本実施の形態において、動画データベース２２は、動画データおよび音声合成用データに加えて、動画の固有の属性情報を各動画データに対応付けて記憶する。以下、動画の固有の属性情報を、単に静的情報（動画属性情報）と記す。動画データベース２２は、例えば、静的情報として、動画に登場するキャラクタの性別、体格、性格、表情、動作速度、感情、出身地などの情報を記憶する。

韻律情報選択手段２７ａは、コンテンツ生成サーバ２０の記憶装置が記憶するプログラムに従って処理を実行するコンテンツ生成サーバ２０の制御部およびネットワークインタフェース部などによって実現される。送信側装置１０から動画選択情報を受信すると、韻律情報選択手段２７ａは、動画データベース２２から、送信者が選択した動画データに対応する静的情報を抽出する。そして、韻律情報選択手段２７ａは、抽出した静的情報にもとづいて、各韻律パラメータを自動選択し韻律情報を生成する。

韻律情報選択手段２７ａは、予め静的情報の内容に応じて各韻律パラメータのデフォルト値を記憶している。例えば、静的情報の性別「女性」に対して、韻律情報選択手段２７ａは、デフォルト値として、ピッチ「７」、テンポ「７」およびイントネーション「５」を記憶している。この場合に、抽出した静的情報が性別「女性」であれば、韻律情報選択手段２７ａは、韻律パラメータとして、ピッチ「７」、テンポ「７」およびイントネーション「５」を自動選択し、選択した各韻律パラメータを含む韻律情報を生成する。

また、例えば、静的情報の体格「太め」に対して、韻律情報選択手段２７ａは、デフォルト値として、ピッチ「２」、テンポ「３」およびイントネーション「５」を記憶している。この場合に、抽出した静的情報が体格「太め」であれば、韻律情報選択手段２７ａは、韻律パラメータとして、ピッチ「２」、テンポ「３」およびイントネーション「５」を自動選択して、選択した各韻律パラメータを含む韻律情報を生成する。

また、韻律情報選択手段２７ａは、複数の静的情報にもとづいて韻律パラメータを自動選択してもよい。例えば、韻律情報選択手段２７ａは、抽出した静的情報が複数ある場合には、各静的情報に対して設定されているデフォルト値の平均値を算出するようにしてもよい。例えば、抽出した静的情報が性別「女性」および体格「太め」であれば、韻律情報選択手段２７ａは、性別「女性」に対するデフォルト値と、体格「太め」に対するデフォルト値との平均値を算出し、算出した平均値を韻律パラメータとして選択する。

以上のように、本実施の形態によれば、送信者が動画データの選択指示を入力すれば、コンテンツ生成サーバ２０が動画に登場するキャラクタなどに応じた適切な韻律情報を自動生成する。よって、送信者が動画データの選択指示および受信者に送りたいメッセージ内容のテキスト文さえ入力すれば、韻律情報の選択指示を入力しなくても適切な音声データが自動的に生成され、コンテンツ生成サーバ２０がコンテンツを自動生成する。従って、動画のキャラクタなどに応じた適切なコンテンツを生成できるとともに、韻律情報の選択指示をする場合と比較して、コンテンツ生成の際の送信者の負担を更に軽減することができる。

実施の形態３．
次に、本発明の第３の実施の形態を図面を参照して説明する。図４は、コンテンツ生成システムの構成の更に他の例を示すブロック図である。図４に示すように、コンテンツ生成サーバ２０は、第１の実施の形態で示した構成に加えて、韻律情報を自動生成する韻律情報選択手段２７ｂを含む。また、送信側装置１０は、第１の実施の形態で示した構成と異なり、韻律情報選択手段１２を含まない。なお、本実施の形態において、コンテンツ生成システムのその他の構成および基本的な動作については、第１の実施の形態で示した場合と同様である。

韻律情報選択手段２７ｂは、コンテンツ生成サーバ２０の記憶装置が記憶するプログラムに従って処理を実行するコンテンツ生成サーバ２０の制御部およびネットワークインタフェース部などによって実現される。送信側装置１０からテキストデータを受信すると、韻律情報選択手段２７ｂは、テキストデータに含まれるテキスト文またはテキストデータの送信情報から、テキストデータの属性情報を抽出する。以下、テキストデータの属性情報を、単に動的情報（テキスト属性情報）と記す。

韻律情報選択手段２７ｂは、例えば、動的情報として、テキスト文のタイトル、テキスト文の内容、テキスト文の文体、テキスト文に所定の単語が含まれるか否かの情報、文字の種類、テキストデータの送信日時などの情報を抽出する。そして、韻律情報選択手段２７ｂは、抽出した動的情報にもとづいて、各韻律パラメータを自動選択し韻律情報を生成する。

韻律情報選択手段２７ｂは、予め動的情報の内容に応じて各韻律パラメータのデフォルト値を記憶している。例えば、テキスト文に記号「！」が含まれる旨の動的情報に対して、韻律情報選択手段２７ｂは、デフォルト値として、ピッチ「９」、テンポ「８」およびイントネーション「９」を記憶している。この場合に、韻律情報選択手段２７ｂは、動的情報として記号「！」を抽出した場合には、韻律パラメータとして、ピッチ「９」、テンポ「８」およびイントネーション「９」を自動選択し、選択した各韻律パラメータを含む韻律情報を生成する。

また、例えば、テキスト文に文字列「えーん」が含まれている旨の動的情報に対して、韻律情報選択手段２７ｂは、デフォルト値として、ピッチ「３」、テンポ「５」およびイントネーション「１」を記憶している。この場合に、韻律情報選択手段２７ｂは、動的情報として文字列「えーん」を抽出した場合には、韻律パラメータとして、ピッチ「３」、テンポ「５」およびイントネーション「１」を自動選択して、選択した各韻律パラメータを含む韻律情報を生成する。

なお、韻律情報選択手段２７ｂは、複数の動的情報にもとづいて韻律パラメータを自動選択してもよい。例えば、韻律情報選択手段２７ｂは、抽出した動的情報が複数ある場合には、各動的情報に対して設定されているデフォルト値の平均値を算出し、算出した平均値を韻律パラメータとして選択してもよい。

以上のように、本実施の形態によれば、送信者がメッセージ内容のテキスト文を入力すれば、コンテンツ生成サーバ２０がメッセージ内容などに応じた適切な韻律情報を自動生成する。よって、送信者が動画データの選択指示および受信者に送りたいメッセージ内容のテキスト文さえ入力すれば、韻律情報の選択指示を入力しなくても適切な音声データが自動的に生成され、コンテンツ生成サーバ２０がコンテンツを自動生成する。従って、メッセージ内容に応じた適切なコンテンツを生成できるとともに、韻律情報の選択指示をする場合と比較して、コンテンツ生成の際の送信者の負担を更に軽減することができる。

実施の形態４．
次に、本発明の第４の実施の形態を図面を参照して説明する。図５は、コンテンツ生成システムの構成の更に他の例を示すブロック図である。図５に示すように、コンテンツ生成サーバ２０は、第３の実施の形態で示した構成に加えて、動画データを自動選択する動画選択手段２８ａを含む。また、送信側装置１０は、第３の実施の形態で示した構成と異なり、動画選択手段１１を含まない。なお、本実施の形態において、コンテンツ生成システムのその他の構成および基本的な動作については、第３の実施の形態で示した場合と同様である。

動画選択手段２８ａは、コンテンツ生成サーバ２０の記憶装置が記憶するプログラムに従って処理を実行するコンテンツ生成サーバ２０の制御部などによって実現される。テキストデータを受信すると、動画選択手段２８ａは、動画データベース２２が記憶する動画データを自動選択する。動画選択手段２８ａは、選択した動画データを動画データベース２２から抽出する。そして、動画音声合成手段２４は、動画選択手段２８ａが抽出した動画データと、音声合成手段２３が生成した音声データとにもとづいて合成動画データを生成する。なお、動画選択抽出手段は、動画選択手段２８ａによって実現される。

動画選択手段２８ａは、例えば、コンテンツを送信する時刻、日付、季節、使用頻度または乱数などにもとづいて動画データを自動選択する。例えば、動画データベース２２は、予め各動画データを時間帯の情報と対応付けて記憶する。例えば、登場するキャラクタが寝ているシーンの動画データである場合には、動画データベース２２は、その動画データと時間帯「朝」とを対応付けて記憶する。この場合に、受信側装置３０にコンテンツを送信するのが朝の時間帯である場合には、動画選択手段２８ａは、時間帯の情報にもとづいて、キャラクタが寝ているシーンの動画データを自動選択する。

また、例えば、登場するキャラクタが踊っているシーンの動画データである場合には、動画データベース２２は、その動画データと時間帯「昼」とを対応付けて記憶する。この場合に、受信側装置３０にコンテンツを送信するのが昼の時間帯である場合には、動画選択手段２８ａは、時間帯の情報にもとづいて、キャラクタが踊っているシーンの動画データを自動選択する。

また、動画データベース２２が予め各動画データの対応情報を記憶しているのでなく、動画選択手段２８ａは、乱数などを用いてランダムに動画データを自動選択するようにしてもよい。この場合に、送信側装置１０からテキストデータを受信すると、動画選択手段２８ａは、乱数などを用いて動画データベース２２が記憶する動画データをランダムに自動選択する。

なお、本実施の形態において、韻律情報選択手段２７ｂは、第３の実施の形態と同様の処理により韻律情報を自動生成する。

以上のように、本実施の形態によれば、送信側装置１０からテキストデータを受信すると、コンテンツ生成サーバ２０は動画データを自動抽出し韻律情報を自動生成する。よって、送信者が受信者に送りたいメッセージ内容のテキスト文さえ入力すれば、動画データおよび韻律情報の選択指示を入力しなくても、コンテンツ生成サーバ２０がコンテンツを自動生成する。従って、メッセージ内容などに応じた適切なコンテンツを生成できるとともに、動画データおよび韻律情報の選択指示をする場合と比較して、コンテンツ生成の際の送信者の負担を更に軽減することができる。

実施の形態５．
次に、本発明の第５の実施の形態を図面を参照して説明する。図６は、コンテンツ生成システムの構成の更に他の例を示すブロック図である。図６に示すように、コンテンツ生成サーバ２０は、第１の実施の形態で示した構成に加えて、韻律情報を自動生成する韻律情報選択手段２７ｃと、動画データを自動選択する動画選択手段２８ｂとを含む。また、送信側装置１０は、第１の実施の形態で示した構成と異なり、動画選択手段１１および韻律情報選択手段１２を含まない。

動画選択手段２８ｂは、コンテンツ生成サーバ２０の記憶装置が記憶するプログラムに従って処理を実行するコンテンツ生成サーバ２０の制御部などによって実現される。テキストデータを受信すると、動画選択手段２８ｂは、動画データベース２２が記憶する動画データを自動選択し、選択した動画データを動画データベース２２から抽出する。なお、動画選択手段２８ｂが動画データを自動選択する方法は、第４の実施の形態で示した方法と同様である。

韻律情報選択手段２７ｃは、コンテンツ生成サーバ２０の記憶装置が記憶するプログラムに従って処理を実行するコンテンツ生成サーバ２０の制御部などによって実現される。本実施の形態において、第２の実施の形態と同様に、動画データベース２２は、動画データおよび音声合成用データに加えて、静的情報を各動画データに対応付けて予め記憶する。動画選択手段２８ｂが動画データを自動選択すると、韻律情報選択手段２７ｃは、自動選択された動画データに対応する静的情報にもとづいて韻律情報を自動生成する。なお、韻律情報選択手段２７ｃが韻律情報を自動生成する方法は、第２の実施の形態で示した方法と同様である。

以上のように、本実施の形態によれば、送信側装置１０からテキストデータを受信すると、コンテンツ生成サーバ２０は動画データを自動抽出し韻律情報を自動生成する。よって、送信者が受信者に送りたいメッセージ内容のテキスト文さえ入力すれば、動画データおよび韻律情報の選択指示を入力しなくても、コンテンツ生成サーバ２０がコンテンツを自動生成する。従って、動画のキャラクタなどに応じた適切なコンテンツを生成できるとともに、動画データおよび韻律情報の選択指示をする場合と比較して、コンテンツ生成の際の送信者の負担を更に軽減することができる。

本発明によるコンテンツ生成システムでは、利用者が端末を用いて、動画データおよび韻律情報の選択指示と、送りたいメッセージ内容のテキスト文とを入力さえすれば、音声付動画メールなどのコンテンツが自動生成される。よって、利用者は所定の入力作業さえ行えば、利用者の意図に即した表現力の高い音声付動画メールなどを容易に相手側の端末に送信することができ、音声付動画データなどのコンテンツを作成する際の利用者の負担が軽減される。

本発明によるコンテンツ生成システムの構成の一例を示すブロック図である。コンテンツ生成処理および再生処理の一例を示す流れ図である。コンテンツ生成システムの構成の他の例を示すブロック図である。コンテンツ生成システムの構成の更に他の例を示すブロック図である。コンテンツ生成システムの構成の更に他の例を示すブロック図である。コンテンツ生成システムの構成の更に他の例を示すブロック図である。

符号の説明

１０送信側装置
１１動画選択手段
１２韻律情報選択手段
１３テキスト入力手段
１４テキスト送信手段
２０コンテンツ生成サーバ
２１動画作成手段
２２動画データベース
２３音声合成手段
２４動画音声合成手段
２５合成動画記憶手段
２６合成動画送信手段
３０受信側装置
３１動画受信手段
３２合成動画記憶手段
３３再生手段

Claims

動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成サーバと、利用者が使用する利用者端末とを含むコンテンツ生成システムであって、
前記利用者端末は、
前記利用者の入力指示に従って、音声の韻律規則を示す韻律情報を生成する韻律情報生成手段を備え、
前記コンテンツ生成サーバは、
動画データを記憶する動画記憶手段と、
前記利用者が選択した動画データを前記動画記憶手段から抽出する動画抽出手段と、
前記利用者端末から、通信ネットワークを介して前記韻律情報を受信する韻律情報受信手段と、
前記利用者端末から、通信ネットワークを介してテキストデータを受信するテキスト受信手段と、
受信したテキストデータに含まれるテキスト文と前記韻律情報とに従って音声データを生成する音声生成手段と、
前記音声データと抽出した前記動画データとを時間軸に沿って合成してコンテンツを生成するコンテンツ生成手段とを備えた
ことを特徴とするコンテンツ生成システム。
韻律情報生成手段は、音声の高低、発声速度またはイントネーションのうちの少なくとも１つの情報を含む韻律情報を生成する請求項１記載のコンテンツ生成システム。
各動画データに対応させて音声の基本単位の音声合成用データを記憶する音声合成用データ記憶手段を備え、
音声生成手段は、音声データを生成する際に、韻律情報に従って前記音声合成用データを変形させる
請求項１または請求項２記載のコンテンツ生成システム。
コンテンツ生成手段は、動画の再生速度を変更することによって、音声の再生時間と同じになるように前記動画の再生時間の時間長を変換して、動画データと音声データとを対応付けて合成する請求項１から請求項３のうちのいずれか１項に記載のコンテンツ生成システム。
コンテンツ生成手段は、動画を繰り返し再生するように割り当てることによって、音声の再生時間と同じになるように前記動画の再生時間の時間長を変換して、動画データと音声データとを対応付けて合成する請求項１から請求項４のうちのいずれか１項に記載のコンテンツ生成システム。
動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成サーバと、利用者が使用する利用者端末とを含むコンテンツ生成システムであって、
前記コンテンツ生成サーバは、
動画データを記憶する動画記憶手段と、
前記利用者が選択した動画データを前記動画記憶手段から抽出する動画抽出手段と、
音声の韻律規則を示す韻律情報を生成する韻律情報生成手段と、
前記利用者端末から、通信ネットワークを介してテキストデータを受信するテキスト受信手段と、
受信したテキストデータに含まれるテキスト文と前記韻律情報とに従って音声データを生成する音声生成手段と、
前記音声データと抽出した前記動画データとを時間軸に沿って合成してコンテンツを生成するコンテンツ生成手段とを備え、
前記動画記憶手段は、動画の属性を示す動画属性情報を、動画データに対応付けて記憶し、
前記韻律情報生成手段は、利用者が選択した動画データに対応する動画属性情報にもとづいて韻律情報を生成する
ことを特徴とするコンテンツ生成システム。
韻律情報生成手段は、動画属性情報として、動画の登場者の性別、体格、性格、表情、動作速度、感情または出身地のうちの少なくとも１つの情報にもとづいて韻律情報を生成する請求項６記載のコンテンツ生成システム。
韻律情報生成手段は、利用者端末から通信ネットワークを介して受信したテキストデータの属性を示すテキスト属性情報を抽出し、前記テキスト属性情報にもとづいて韻律情報を生成する請求項６記載のコンテンツ生成システム。
韻律情報生成手段は、テキスト属性情報として、テキストのタイトル、テキストの内容、テキストの文体、テキストに所定の単語が含まれるか否かの情報、文字の種類またはテキストデータの送信日時のうちの少なくとも１つの情報にもとづいて韻律情報を生成する請求項８記載のコンテンツ生成システム。
コンテンツ生成サーバは、利用者端末から通信ネットワークを介してテキストデータを受信すると、動画記憶手段が記憶する動画データを所定の条件に従って選択し、選択した動画データを前記動画記憶手段から抽出する動画選択抽出手段を備えた請求項８または請求項９記載のコンテンツ生成システム。
動画選択抽出手段は、日時、季節、動画の使用頻度または乱数のうちの少なくとも１つの情報にもとづいて、動画記憶手段が記憶する動画データを選択する請求項１０記載のコンテンツ生成システム。
動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成サーバと、利用者が使用する利用者端末とを含むコンテンツ生成システムであって、
前記コンテンツ生成サーバは、
動画データを記憶する動画記憶手段と、
前記利用者端末から通信ネットワークを介してテキストデータを受信すると、前記動画記憶手段が記憶する動画データを所定の条件に従って選択し、選択した動画データを前記動画記憶手段から抽出する動画選択抽出手段と、
音声の韻律規則を示す韻律情報を生成する韻律情報生成手段と、
前記利用者端末から、通信ネットワークを介してテキストデータを受信するテキスト受信手段と、
受信したテキストデータに含まれるテキスト文と前記韻律情報とに従って音声データを生成する音声生成手段と、
前記音声データと抽出した前記動画データとを時間軸に沿って合成してコンテンツを生成するコンテンツ生成手段とを備え、
動画記憶手段は、動画の属性を示す動画属性情報を、動画データに対応付けて記憶し、
前記韻律情報選択手段は、前記動画選択抽出手段によって選択された動画データに対応する動画属性情報にもとづいて韻律情報を生成する
ことを特徴とするコンテンツ生成システム。
利用者が使用する利用者端末が、前記利用者の入力指示に従って、音声の韻律規則を示す韻律情報を生成するステップと、
動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成サーバが、前記利用者が選択した動画データを抽出するステップと、
前記コンテンツ生成サーバが、前記利用者端末から、通信ネットワークを介して前記韻律情報を受信するステップと、
前記コンテンツ生成サーバが、前記利用者端末から、通信ネットワークを介してテキストデータを受信するステップと、
前記コンテンツ生成サーバが、受信したテキストデータに含まれるテキスト文と前記韻律情報とに従って音声データを生成するステップと、
前記コンテンツ生成サーバが、前記音声データと抽出した前記動画データとを時間軸に沿って合成してコンテンツを生成するステップとを含む
ことを特徴とするコンテンツ生成方法。
動画と音声とを同時再生するためのコンテンツを生成するためのコンテンツ生成プログラムであって、
コンピュータに、
利用者が選択した動画データを抽出する処理と、
前記利用者が使用する利用者端末から、通信ネットワークを介して音声の韻律規則を示す韻律情報を受信する処理と、
前記利用者端末から、通信ネットワークを介してテキストデータを受信する処理と、
受信したテキストデータに含まれるテキスト文と前記韻律情報とに従って音声データを生成する処理と、
前記音声データと抽出した前記動画データとを時間軸に沿って合成してコンテンツを生成する処理とを実行させる
ことを特徴とするコンテンツ生成プログラム。