JP2005062420A - コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム - Google Patents
コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム Download PDFInfo
- Publication number
- JP2005062420A JP2005062420A JP2003291644A JP2003291644A JP2005062420A JP 2005062420 A JP2005062420 A JP 2005062420A JP 2003291644 A JP2003291644 A JP 2003291644A JP 2003291644 A JP2003291644 A JP 2003291644A JP 2005062420 A JP2005062420 A JP 2005062420A
- Authority
- JP
- Japan
- Prior art keywords
- data
- moving image
- content
- content generation
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】 利用者の意図に即した表現力の高いコンテンツを生成できるとともに、コンテンツ生成の際の利用者の負担を軽減できるようにする。
【解決手段】 コンテンツ生成サーバ20の音声合成手段23は、送信側装置10が生成した韻律情報と抽出した音声合成用データとにもとづいて、送信側装置10から受信したテキストデータに含まれるテキスト文を合成音声に変換し音声データを生成する。動画音声合成手段24は、送信者が選択した動画データを動画データベース22から抽出する。動画音声合成手段24は、動画データと音声データとを時間軸に沿って合成して合成動画データを生成する。そして、合成動画送信手段26は、生成した合成動画データを通信ネットワークを介して受信側装置30に送信する。受信側装置30の再生手段33は、受信した合成動画データにもとづいて動画と音声とを同時再生する。
【選択図】 図1
【解決手段】 コンテンツ生成サーバ20の音声合成手段23は、送信側装置10が生成した韻律情報と抽出した音声合成用データとにもとづいて、送信側装置10から受信したテキストデータに含まれるテキスト文を合成音声に変換し音声データを生成する。動画音声合成手段24は、送信者が選択した動画データを動画データベース22から抽出する。動画音声合成手段24は、動画データと音声データとを時間軸に沿って合成して合成動画データを生成する。そして、合成動画送信手段26は、生成した合成動画データを通信ネットワークを介して受信側装置30に送信する。受信側装置30の再生手段33は、受信した合成動画データにもとづいて動画と音声とを同時再生する。
【選択図】 図1
Description
本発明は、動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラムに関する。
動画と音声とを連動して再生表示できるソフトウェア商品として、音声合成用のデータを添付して音声付動画メールを送信できるPost Pet(登録商標)や「iアニメっちゃ」などの商品が実用化されている。動画と音声とを合成したコンテンツを生成する技術として、特許文献1には、合成音声に同期した違和感のない自然な動画像を生成する画像・音声合成装置が記載されている。特許文献1に記載されている画像・音声合成装置は、入力されたテキストを規則音声合成と呼ばれる技術を用いて合成音声に変換する。画像・音声合成装置は、音声データベースからなるべく連続する音声単位を選んで合成音声を生成し、それらの音声単位に対応する連続した動画像単位を接続して動画像を生成する。
また、特許文献2には、伝送するコンテンツのデータ量を低減できるコンテンツ制作方法が記載されている。特許文献2に記載されているコンテンツ制作方法では、インデックスデータが対応付けられている音声断片データを蓄積する音声断片蓄積部と、インデックスデータが対応付けられている動画像断片データを蓄積する動画像断片蓄積部とを備える。音声合成器は、入力されたテキストを規則音声合成によって音声断片データを用いて合成音声に変換する。また、利用者(コンテンツ制作者)の操作に従って、合成音声の部分ごとに動画像断片データを割り当てる。そして、音声合成に用いた音声断片データのインデックスデータと、動画像割り当てに用いた動画像断片データのインデックスデータとを含むコンテンツを生成する。
特許文献1に記載されている画像・音声合成装置によれば、合成音声に同期した違和感のない自然な動画像を音声と連動させて再生するようにコンテンツを生成することができる。しかし、利用者がメッセージ内容などに応じて画像データを自由に選択することができず、合成音声の生成に必要な韻律パラメータを利用者の意思にかかわらず入力テキストの構文解析の結果にもとづいて生成しているので、音声付動画メールなどを送信する場合にメッセージ内容を利用者の意図した態様で相手側に伝えることができない場合がある。
また、特許文献2に記載されているコンテンツ制作方法によれば、動画像の断片データを利用者が自由に選択し、韻律パラメータエディットツールを用いて韻律パラメータを利用者が編集しながらコンテンツを生成することができる。しかし、合成音声データの再生時間長に合わせて、利用者が断片データを複数組み合わせて動画像データを作成する作業をしなければならず、コンテンツ生成の際の利用者の操作負担が大きい。
そこで、本発明は、利用者の意図に即した表現力の高いコンテンツを生成できるとともに、コンテンツ生成の際の利用者の負担を軽減できるコンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラムを提供することを目的とする。
本発明によるコンテンツ生成システムは、動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成サーバと、利用者が使用する利用者端末とを含むコンテンツ生成システムであって、利用者端末は、利用者の入力指示に従って、音声の韻律規則を示す韻律情報を生成する韻律情報生成手段を備え、コンテンツ生成サーバは、動画データを記憶する動画記憶手段と、利用者が選択した動画データを動画記憶手段から抽出する動画抽出手段と、利用者端末から、通信ネットワークを介して韻律情報を受信する韻律情報受信手段と、利用者端末から、通信ネットワークを介してテキストデータを受信するテキスト受信手段と、受信したテキストデータに含まれるテキスト文と韻律情報とに従って音声データを生成する音声生成手段と、音声データと抽出した動画データとを時間軸に沿って合成してコンテンツを生成するコンテンツ生成手段とを備えたことを特徴とする。
韻律情報生成手段は、音声の高低、発声速度またはイントネーションのうちの少なくとも1つの情報を含む韻律情報を生成するものであってもよい。そのような構成によれば、利用者端末を操作してメッセージ内容の音声を再生するときの音声の高低、発声速度やイントネーションなどを設定することができ、利用者の意図に即した音声の態様でコンテンツを生成することができる。
各動画データに対応させて音声の基本単位の音声合成用データを記憶する音声合成用データ記憶手段を備え、音声生成手段は、音声データを生成する際に、韻律情報に従って音声合成データを変形させるものであってもよい。そのような構成によれば、波形データを変形することによって、容易に韻律情報に即した音声データを生成することができる。
コンテンツ生成手段は、動画の再生速度を変更することによって、音声の再生時間と同じになるように動画の再生時間の時間長を変換して、動画データと音声データとを対応付けて合成するものであってもよい。そのような構成によれば、受信者端末がコンテンツにもとづいて動画および音声を再生した場合に、動画がメッセージ内容の音声と同時に再生を開始し、動画と音声とが同じ時間長で再生を終了するようにすることができる。
コンテンツ生成手段は、動画を繰り返し再生するように割り当てることによって、音声の再生時間と同じになるように動画の再生時間の時間長を変換して、動画データと音声データとを対応付けて合成するものであってもよい。そのような構成によれば、受信者端末がコンテンツにもとづいて動画および音声を再生した場合に、動画がメッセージ内容の音声と同時に再生を開始し、動画と音声とが同じ時間長で再生を終了するようにすることができる。
コンテンツ生成システムは、動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成サーバと、利用者が使用する利用者端末とを含むコンテンツ生成システムであって、コンテンツ生成サーバは、動画データを記憶する動画記憶手段と、利用者が選択した動画データを動画記憶手段から抽出する動画抽出手段と、音声の韻律規則を示す韻律情報を生成する韻律情報生成手段と、利用者端末から、通信ネットワークを介してテキストデータを受信するテキスト受信手段と、受信したテキストデータに含まれるテキスト文と韻律情報とに従って音声データを生成する音声生成手段と、音声データと抽出した動画データとを時間軸に沿って合成してコンテンツを生成するコンテンツ生成手段とを備え、動画記憶手段は、動画の属性を示す動画属性情報を、動画データに対応付けて記憶し、韻律情報生成手段は、利用者が選択した動画データに対応する動画属性情報にもとづいて韻律情報を生成するものであってもよい。そのような構成によれば、動画の登場者などに応じた適切なコンテンツを生成できるとともに、韻律情報の選択指示をする場合と比較して、コンテンツ生成の際の利用者の負担を更に軽減することができる。
韻律情報生成手段は、動画属性情報として、動画の登場者の性別、体格、性格、表情、動作速度、感情または出身地のうちの少なくとも1つの情報にもとづいて韻律情報を生成するものであってもよい。そのような構成によれば、動画の登場者などに応じた適切な韻律情報を自動生成し、音声データを生成することができる。
韻律情報生成手段は、利用者端末から通信ネットワークを介して受信したテキストデータの属性を示すテキスト属性情報を抽出し、テキスト属性情報にもとづいて韻律情報を生成するものであってもよい。そのような構成によれば、メッセージ内容に応じた適切なコンテンツを生成できるとともに、韻律情報の選択指示をする場合と比較して、コンテンツ生成の際の利用者の負担を更に軽減することができる。
韻律情報生成手段は、テキスト属性情報として、テキストのタイトル、テキストの内容、テキストの文体、テキストに所定の単語が含まれるか否かの情報、文字の種類またはテキストデータの送信日時のうちの少なくとも1つの情報にもとづいて韻律情報を生成するものであってもよい。そのような構成によれば、メッセージ内容などに応じた適切な韻律情報を自動生成し、音声データを生成することができる。
コンテンツ生成サーバは、利用者端末から通信ネットワークを介してテキストデータを受信すると、動画記憶手段が記憶する動画データを所定の条件に従って選択し、選択した動画データを動画記憶手段から抽出する動画選択抽出手段を備えたものであってもよい。そのような構成によれば、メッセージ内容などに応じた適切なコンテンツを生成できるとともに、動画データおよび韻律情報の選択指示をする場合と比較して、コンテンツ生成の際の利用者の負担を更に軽減することができる。
動画選択抽出手段は、日時、季節、動画の使用頻度または乱数のうちの少なくとも1つの情報にもとづいて、動画記憶手段が記憶する動画データを選択するものであってもよい。そのような構成によれば、コンテンツ生成サーバは、動画データを自動選択しコンテンツを生成することができる。
コンテンツ生成システムは、動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成サーバと、利用者が使用する利用者端末とを含むコンテンツ生成システムであって、コンテンツ生成サーバは、動画データを記憶する動画記憶手段と、利用者端末から通信ネットワークを介してテキストデータを受信すると、動画記憶手段が記憶する動画データを所定の条件に従って選択し、選択した動画データを動画記憶手段から抽出する動画選択抽出手段と、音声の韻律規則を示す韻律情報を生成する韻律情報生成手段と、利用者端末から、通信ネットワークを介してテキストデータを受信するテキスト受信手段と、受信したテキストデータに含まれるテキスト文と韻律情報とに従って音声データを生成する音声生成手段と、音声データと抽出した動画データとを時間軸に沿って合成してコンテンツを生成するコンテンツ生成手段とを備え、動画記憶手段は、動画の属性を示す動画属性情報を、動画データに対応付けて記憶し、韻律情報選択手段は、動画選択抽出手段によって選択された動画データに対応する動画属性情報にもとづいて韻律情報を生成するものであってもよい。そのような構成によれば、動画の登場者などに応じた適切なコンテンツを生成できるとともに、動画データおよび韻律情報の選択指示をする場合と比較して、コンテンツ生成の際の利用者の負担を更に軽減することができる。
本発明によるコンテンツ生成方法は、利用者が使用する利用者端末が、利用者の入力指示に従って、音声の韻律規則を示す韻律情報を生成するステップと、動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成サーバが、利用者が選択した動画データを抽出するステップと、コンテンツ生成サーバが、利用者端末から、通信ネットワークを介して韻律情報を受信するステップと、コンテンツ生成サーバが、利用者端末から、通信ネットワークを介してテキストデータを受信するステップと、コンテンツ生成サーバが、受信したテキストデータに含まれるテキスト文と韻律情報とに従って音声データを生成するステップと、コンテンツ生成サーバが、音声データと抽出した動画データとを時間軸に沿って合成してコンテンツを生成するステップとを含むことを特徴とする。
本発明によるコンテンツ生成プログラムは、動画と音声とを同時再生するためのコンテンツを生成するためのコンテンツ生成プログラムであって、コンピュータに、利用者が選択した動画データを抽出する処理と、利用者が使用する利用者端末から、通信ネットワークを介して音声の韻律規則を示す韻律情報を受信する処理と、利用者端末から、通信ネットワークを介してテキストデータを受信する処理と、受信したテキストデータに含まれるテキスト文と韻律情報とに従って音声データを生成する処理と、音声データと抽出した動画データとを時間軸に沿って合成してコンテンツを生成する処理とを実行させることを特徴とする。
本発明によれば、コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラムを、利用者端末から受信したテキストデータに含まれるテキスト文を、利用者端末が生成した韻律情報にもとづいて音声データに変換し、利用者が選択した動画データと合成して動画と音声とを同時再生するためのコンテンツを生成するようにしたので、利用者の意図に即した表現力の高いコンテンツを生成することができる。また、利用者が所定の入力操作を行えばコンテンツが自動生成され、利用者の負担を軽減することができる。従って、利用者の意図に即した表現力の高いコンテンツを生成できるとともに、コンテンツ生成の際の利用者の負担を軽減することができる。
実施の形態1.
以下、本発明の第1の実施の形態を図面を参照して説明する。図1は、本発明によるコンテンツ生成システムの構成の一例を示すブロック図である。図1に示すように、コンテンツ生成システムは、送信側のユーザ(以下、送信者と記す)が使用する送信側装置10、プロバイダなどが運営するコンテンツ生成サーバ20、および受信側のユーザ(以下、受信者と記す)が使用する受信側装置30とを含む。
以下、本発明の第1の実施の形態を図面を参照して説明する。図1は、本発明によるコンテンツ生成システムの構成の一例を示すブロック図である。図1に示すように、コンテンツ生成システムは、送信側のユーザ(以下、送信者と記す)が使用する送信側装置10、プロバイダなどが運営するコンテンツ生成サーバ20、および受信側のユーザ(以下、受信者と記す)が使用する受信側装置30とを含む。
送信側装置10とコンテンツ生成サーバ20とは、インターネットなどの通信ネットワークを介してデータを送受信する。同様に、受信側装置30とコンテンツ生成サーバ20とは、インターネットなどの通信ネットワークを介してデータを送受信する。なお、送信側装置10、コンテンツ生成サーバ20および受信側装置30は、インターネット以外の通信ネットワークを介してデータを送受信するものであってもよい。
送信側装置(利用者端末)10は、携帯電話機やPDA(Personal Digital Assistants )などの携帯端末である。送信側装置10は、メーラなどがインストールされており通信ネットワークへの接続機能を備える。なお、送信側装置10は、携帯端末に限らず、例えばパーソナルコンピュータなどの情報処理端末であってもよい。また、送信側装置10は、1台に限らず複数台が通信ネットワークを介してコンテンツ生成サーバ20に接続されていてもよい。
図1に示すように、送信側装置10は、コンテンツ生成に用いる動画データを選択するための動画選択手段11と、音声合成に用いる韻律情報を選択するための韻律情報選択手段12と、テキストを入力するためのテキスト入力手段13と、テキストデータを送信するテキスト送信手段14とを含む。
動画選択手段11は、送信側装置10の記憶装置(図示せず)が記憶するプログラムに従って処理を実行する送信側装置10の制御部(図示せず)およびネットワークインタフェース部(図示せず)などによって実現される。動画選択手段11は、送信者の操作に従って、コンテンツ生成サーバ20が蓄積する動画データのうち、コンテンツ生成に用いる動画データの選択指示を受け付けて、送信者がいずれの動画データを選択したのかを示す情報を生成する。以下、送信者がいずれの動画データを選択したのかを示す情報を、動画選択情報と記す。また、動画選択手段11は、動画選択情報を通信ネットワークを介してコンテンツ生成サーバ20に送信する。
韻律情報選択手段12は、送信側装置10の記憶装置が記憶するプログラムに従って処理を実行する送信側装置10の制御部およびネットワークインタフェース部などによって実現される。韻律情報選択手段12は、送信者の選択操作に従って、音声合成に用いられる韻律情報を生成する。韻律情報とは、合成音声を生成する際に用いられる音声の韻律規則を示す情報である。例えば、韻律情報選択手段12は、韻律情報として、音声の高低を示すピッチ、音声の発声速度を示すテンポ、または音声の抑揚を示すイントネーションなどの情報を生成する。また、韻律情報選択手段12は、韻律情報を通信ネットワークを介してコンテンツ生成サーバ20に送信する。なお、韻律情報生成手段は、韻律情報選択手段12によって実現される。
テキスト入力手段13は、キーボード、タッチパネルまたは電子ペンなど送信側装置10の入力装置(図示せず)および制御部などによって実現される。テキスト入力手段13は、送信者の操作に従ってテキスト入力を受け付ける。また、テキスト入力手段13は、入力されたテキスト文を含むテキストデータを生成する。テキスト送信手段14は、送信側装置10の記憶装置が記憶するプログラムに従って処理を実行する送信側装置10の制御部およびネットワークインタフェース部などによって実現される。テキスト送信手段14は、テキストデータを通信ネットワークを介してコンテンツ生成サーバ20に送信する。
コンテンツ生成サーバ20は、動画と音声とを同時再生するためのコンテンツを自動生成するサーバである。本実施の形態では、コンテンツ生成サーバ20は、送信者が選択した動画データと、送信側装置10から受信したテキストデータとにもとづいて、音声付動画メールとしてコンテンツを自動生成する。なお、本発明によるコンテンツ生成システムは、音声付動画メールに限らず、動画と音声とを同時再生するための他のコンテンツを生成する場合にも適用可能である。
コンテンツ生成サーバ20は、図1に示すように、動画データを蓄積する動画データベース22と、合成音声を生成する音声合成手段23と、動画データと音声データとを合成する動画音声合成手段24と、動画と音声の合成データを記憶する合成動画記憶手段25と、動画と音声の合成データを送信する合成動画送信手段26とを含む。また、コンテンツ生成サーバ20には、外部から動画データが供給される。本実施の形態では、動画データを作成するための動画作成手段21が接続されている。
動画作成手段21は、例えば、高性能のワークステーションである。動画作成手段21は、動画を取り込んで動画データを生成する動画データ生成機能を備える。また、動画作成手段21は、音声合成の際に用いられる音声波形の基本単位データである音声合成用データを生成する機能を備える。
音声合成用データは、例えば「あ」や「い」などの音節単位ごとの波形データとして生成される。また、音声合成用データは、各動画データごとに対応付けて生成される。例えば、動画に登場するキャラクタ(登場者)が男性である場合には、男性の声色の音声波形の特徴をもつ音声合成用データが動画データに対応付けて生成される。
動画データベース22は、コンテンツ生成サーバ20のデータベース装置(図示せず)によって実現される。動画データベース22は、予め動画作成手段21が作成した動画データを記憶する。また、動画データベース22は、動画作成手段21が作成した音声合成用データを、各動画データに対応付けて記憶する。
音声合成手段23は、コンテンツ生成サーバ20の記憶装置(図示せず)が記憶するプログラムに従って処理を実行するコンテンツ生成サーバ20の制御部(図示せず)およびネットワークインタフェース部(図示せず)などによって実現される。音声合成手段23は、送信側装置10からの韻律情報および動画データベース22が記憶する音声合成用データにもとづいて、送信側装置10からのテキストデータに含まれるテキスト文を合成音声に変換し音声データを生成する。音声合成手段23は、例えば、規則音声合成と呼ばれる音声合成方式を用いて音声データを生成する。
動画音声合成手段24は、コンテンツ生成サーバ20の記憶装置が記憶するプログラムに従って処理を実行するコンテンツ生成サーバ20の制御部およびネットワークインタフェース部などによって実現される。動画音声合成手段24は、音声データと動画データとを合成して合成データを生成する。以下、動画音声合成手段24が生成する合成データを合成動画データと記す。本実施の形態において、合成動画データは、音声付動画メールとして受信側装置30に送信されるコンテンツとして使用される。
動画音声合成手段24は、合成動画データにもとづいて音声と動画とを再生する際に、音声と動画とが同時に再生を開始し同じ時間長で再生を終了するように、動画データを自動的に変換し動画データと音声データとを対応付けて合成する。以下、音声と動画とが同時に再生を開始し同じ時間長で再生を終了するようにすることを、単に時間軸を合わせると記す。例えば、動画音声合成手段24は、時間軸を合わせるために、動画の再生速度を変更する(コマ落としやコマ挿入)ことによって動画の再生時間が音声の再生時間と同じになるように動画データを変換する。例えば、音声の再生時間が動画の再生時間よりも長い場合には、動画音声合成手段24は、時間軸を合わせるために、動画を繰り返し再生するように割り当てることによって動画の再生時間が音声の再生時間と同じになるように動画データを変換する。
合成動画記憶手段25は、コンテンツ生成サーバ20の記憶装置によって実現される。合成動画記憶手段25は、動画音声合成手段24が生成した合成動画データを一時記憶する。合成動画送信手段26は、コンテンツ生成サーバ20の記憶装置が記憶するプログラムに従って処理を実行するコンテンツ生成サーバ20の制御部およびネットワークインタフェース部などによって実現される。合成動画送信手段26は、合成動画記憶手段25が記憶する合成動画データを、通信ネットワークを介して受信側装置30に送信する。
なお、動画記憶手段および音声合成用データ記憶手段は、動画データベース22によって実現される。また、動画抽出手段およびコンテンツ生成手段は、動画音声合成手段24によって実現される。また、テキスト受信手段および音声生成手段は、音声合成手段23によって実現される。
また、本実施の形態において、コンテンツ生成サーバ20の記憶装置は、コンテンツ生成処理を実行するための各種のプログラムを記憶する。例えば、コンテンツ生成サーバ20の記憶装置は、コンピュータに、利用者が選択した動画データを抽出する処理と、利用者が使用する利用者端末から、通信ネットワークを介して音声の韻律規則を示す韻律情報を受信する処理と、利用者端末から、通信ネットワークを介してテキストデータを受信する処理と、受信したテキストデータに含まれるテキスト文と韻律情報とに従って音声データを生成する処理と、音声データと抽出した動画データとを時間軸に沿って合成してコンテンツを生成する処理とを実行させるためのコンテンツ生成プログラムを記憶する。
受信側装置30は、携帯電話機やPDAなどの携帯端末である。受信側装置30は、メーラなどがインストールされており通信ネットワークへの接続機能を備える。なお、受信側装置30は、携帯端末に限らず、例えばパーソナルコンピュータなどの情報処理端末であってもよい。また、受信側装置30は、1台に限らず複数台が通信ネットワークを介してコンテンツ生成サーバ20に接続されていてもよい。
図1に示すように、受信側装置30は、合成動画データを受信する動画受信手段31と、合成動画データを記憶する合成動画記憶手段32と、動画および音声を再生する再生手段33とを含む。
動画受信手段31は、受信側装置30の記憶装置(図示せず)が記憶するプログラムに従って処理を実行する受信側装置30の制御部(図示せず)およびネットワークインタフェース部(図示せず)などによって実現される。動画受信手段31は、合成動画データを、通信ネットワークを介してコンテンツ生成サーバ20から受信する。
合成動画記憶手段32は、受信側装置30の記憶装置によって実現される。合成動画記憶手段32は、受信した合成動画データを一時記憶する。再生手段33は、受信側装置30の記憶装置が記憶するプログラムに従って処理を実行する受信側装置30の制御部などによって実現される。再生手段33は、合成動画データにもとづいて、動画と音声とを同時に再生する機能を備える。
次に、動作について説明する。図2は、コンテンツ生成サーバ20がコンテンツを自動生成するコンテンツ生成処理、および受信側装置30がコンテンツにもとづいて動画および音声を再生する再生処理の一例を示す流れ図である。
複数の動画データおよび対応する音声再生用データが予めコンテンツ生成サーバ20に入力される。この際に、動画に登場するキャラクタなどがダンスをしているシーンや、後ろ向きに立っているシーンなどを表現した様々な動画データが入力される。そして、入力された動画データと音声再生用データとは、それぞれ対応付けられて予め動画データベース22に蓄積される。
送信者は、受信側装置30に音声付動画メールを送信したい場合には、送信側装置10を操作して、音声付動画メールに使用したい動画データの選択指示を入力する。送信側装置10の動画選択手段11は、操作者の操作に従って、コンテンツ生成に用いる動画データの選択指示を受け付けて動画選択情報を生成する(ステップS101)。そして、動画選択手段11は、動画選択情報を通信ネットワークを介してコンテンツ生成サーバ20に送信する。
例えば、動画選択手段11は、コンテンツ生成サーバ20が蓄積する動画データのサンプルデータの送信要求を、通信ネットワークを介してコンテンツ生成サーバ20に送信する。コンテンツ生成サーバ20は、動画データベース22が記憶する動画データのサンプルデータを抽出し、通信ネットワークを介して送信側装置10に送信する。すると、送信側装置10は、受信したサンプルデータにもとづいてサンプル画像や動画の内容情報などを表示する。そして、送信者は、表示されたサンプル画像や内容情報などを確認して動画の選択指示を入力する。
例えば、送信側装置10は、サンプルデータとして動画データそのものを受信し、動画を再生して表示する。また、送信側装置10は、動画データとともに対応する音声合成用データを受信し、動画に登場するキャラクタなどの音声単位の声色を再生する。例えば、送信側装置10は、「あ」や「い」などいずれかの音声単位の声色を再生する。そして、送信者は、再生された動画および声色などを確認して動画の選択指示を入力する。
また、例えば、送信側装置10は、サンプルデータとして、動画データのファイル名、動画の特徴やコメントなどの情報を受信し、これらの情報を表示してもよい。また、例えば、送信側装置10は、サンプルデータとして、動画データに含まれる最初の1枚分の静止画像のみを受信し、受信した1枚分の静止画像を表示してもよい。また、例えば、送信側装置10は、サンプルデータとして、動画データが格納されているURL(Uniform Resource Locator)などを受信してもよい。なお、いずれのサンプルデータの形式を使用するかは、送信側装置10のメモリサイズ、送受信にかかる通信コスト、表示速度などを考慮して決定するようにしてもよい。
送信者は、送信側装置10を操作して、韻律情報の選択指示を入力する。送信側装置10の韻律情報選択手段12は、操作者の選択操作に従って、音声合成に用いる韻律情報を生成する。そして、韻律情報選択手段12は、生成した韻律情報を、通信ネットワークを介してコンテンツ生成サーバ20に送信する(ステップS102)。
例えば、韻律情報は、音声のピッチ、テンポ、イントネーションなどの韻律パラメータごとに、1から9までの数値情報として設定される。数値は、韻律パラメータの高低又は大小を相対的に示す値である。送信側装置10には各韻律パラメータの値を設定するためのソフトウェアがインストールされており、韻律情報選択手段12は、送信者の選択操作に従って各韻律パラメータの値を設定する。そして、韻律情報選択手段12は、設定した各韻律パラメータの値を含む韻律情報を生成する。
例えば、動画のキャラクタに高い声で早口に話をさせたい場合には、韻律情報選択手段12は、送信者の操作に従って、ピッチ「9」およびテンポ「9」と設定する。また、例えば、キャラクタに低い声でゆっくりと話をさせたい場合には、韻律情報選択手段12は、送信者の操作に従って、ピッチ「1」およびテンポ「1」と設定する。また、例えば、韻律情報選択手段12は、操作者の操作に従って、キャラクタに抑揚の大きい話し方をさせたい場合にはイントネーション「9」と設定し、抑揚が小さい(または抑揚がない)話し方をさせたい場合にはイントネーション「1」と設定する。
また、送信側装置10は、予め各韻律パラメータのデフォルト値を記憶していてもよい。そして、送信者が、各韻律パラメータの値をデフォルト値を基準に調整できるようにしてもよい。この場合に、韻律情報選択手段12は、送信者の選択操作に従って、各韻律パラメータの値を調整する。そして、韻律情報選択手段12は、調整後の各韻律パラメータの値を含む韻律情報を生成する。さらに、操作者によって韻律パラメータの選択操作が行われなかった場合には、韻律情報選択手段12は、デフォルト値をそのまま韻律情報としてコンテンツ生成サーバ20に送信するようにしてもよい。
送信者は、送信側装置10を操作して、受信者に送りたいメッセージ内容のテキスト文と、受信者の宛先情報とを入力する。テキスト入力手段13は、送信者の操作に従って、テキスト文および受信者の宛先情報の入力を受け付けてテキストデータを生成する(ステップS103)。
すると、送信側装置10のテキスト送信手段14は、テキスト入力手段13からのテキストデータを、通信ネットワークを介してコンテンツ生成サーバ20に送信する(ステップS104)。例えば、テキスト送信手段14は、テキストデータとして、入力されたメッセージ内容のテキスト文と宛先情報とを含む電子メールを、通信ネットワークを介してコンテンツ生成サーバ20に送信する。
動画選択情報、韻律情報およびテキストデータを受信すると、コンテンツ生成サーバ20の音声合成手段23は、受信した動画選択情報にもとづいて、送信者が選択した動画データに対応する音声合成用データを動画データベース22から抽出する。また、音声合成手段23は、受信したテキストデータから合成音声に変換すべきテキスト文を抽出する。音声合成手段23は、テキスト文に含まれる音節単位ごとに対応する音声合成用データを合成して、音節単位ごとの音声波形を合成した音声合成データを生成する。例えば、音声合成手段23は、動画データベース22から抽出した音声合成用データを、テキスト文に含まれる「あ」や「い」などの音節単位ごとに合成して音声合成データを生成する。
音声合成手段23は、受信した韻律情報にもとづいて、音声合成データを変形し音声データを生成する(ステップS105)。例えば、韻律情報にピッチ「9」が含まれる場合には、音声合成手段23は、周波数が高くなるように音声合成データを変換する。すなわち、音声合成手段23は、再生される音声が高くなるように音声合成データを変換する。また、例えば、韻律情報にピッチ「1」が含まれる場合には、音声合成手段23は、周波数が低くなるように音声合成データを変換する。すなわち、音声合成手段23は、再生される音声が低くなるように音声合成データを変換する。
また、例えば、韻律情報にイントネーション「9」が含まれる場合には、音声合成手段23は、波形全体の振幅の変化が大きくなるように音声合成データを変換する。すなわち、音声合成手段23は、再生される音声の抑揚が大きくなるように音声合成データを変換する。また、例えば、韻律情報にイントネーション「1」が含まれる場合には、音声合成手段23は、振幅の変化が小さくなるように音声合成データを変換する。すなわち、音声合成手段23は、再生される音声の抑揚が小さくなるように音声合成データを変換する。
なお、本実施の形態では、音声合成データを作成してから韻律情報に従ってデータの変形を行っているが、音声合成データを作成する際に、音声合成用データを変形するようにしてもよい。
コンテンツ生成サーバ20の動画音声合成手段24は、受信した動画選択情報にもとづいて、送信者が選択した動画データを動画データベース22から抽出する。動画音声合成手段24は、時間軸に沿って、抽出した動画データと音声合成手段23が生成した音声データとを合成して合成動画データを生成する(ステップS106)。時間軸に沿ってとは、動画の内容に関係なく時間軸に音声データを動画データに対応付けることである。また、動画音声合成手段24は、動画データと音声データとの時間軸を合わせる処理を行う。そして、動画音声合成手段24は、生成した合成動画データを合成動画記憶手段25に記憶させる。
また、音声合成手段23は、音声データを生成する際にテキストデータから受信者の宛先情報を抽出する。動画音声合成手段24は、生成した合成動画データに対応付けて、音声合成手段23からの宛先情報を合成動画記憶手段25に記憶させる。
合成動画送信手段26は、合成動画記憶手段25から、合成動画データおよび対応する宛先情報を抽出する。すると、合成動画送信手段26は、抽出した宛先情報にもとづいて、抽出した合成動画データを、通信ネットワークを介して受信側装置30に送信する(ステップS107)。
受信側装置30の動画受信手段31は、合成動画データを、通信ネットワークを介してコンテンツ生成サーバ20から受信する(ステップS108)。そして、動画受信手段31は、受信した合成動画データを合成動画記憶手段32に記憶させる。
受信者は、受信した音声付動画メールを再生して見たい場合には、受信側装置30を操作して動画および音声の再生指示を入力する。受信側装置30の再生手段33は、受信者の操作に従って、合成動画記憶手段32から合成動画データを抽出する。そして、再生手段33は、抽出した合成動画データにもとづいて動画および音声を再生する(ステップS109)。
ステップS105において、送信側装置10が生成した韻律情報にもとづいて合成音声を生成しているので、再生手段33が再生を開始すると、送信者が意図した声の調子や抑揚などに従ってメッセージ内容の音声が再生される。また、ステップS106において時間軸に沿って合成動画データが生成されているので、再生手段33が再生を開始すると、動画と音声との再生が同時に開始され、動画と音声とが同じ時間長継続して再生を終了する。
以上のように、本実施の形態によれば、送信側装置10が生成した韻律情報にもとづいて音声の音声合成用データを変形して音声データを生成し、送信者が自由に選択した動画データと音声データとを時間軸に沿って合成してコンテンツを生成する。そのため、送信者の意図に即した表現力の高いコンテンツを生成することができる。また、送信者が動画データおよび韻律情報の選択指示およびメッセージ内容のテキスト文さえ入力すれば、コンテンツ生成サーバ20がコンテンツを自動生成する。そのため、コンテンツ生成の際の送信者の負担を軽減することができる。従って、送信者の意図に即した表現力の高いコンテンツを生成できるとともに、コンテンツ生成の際の送信者の負担を軽減することができる。
実施の形態2.
次に、本発明の第2の実施の形態を図面を参照して説明する。図3は、コンテンツ生成システムの構成の他の例を示すブロック図である。図3に示すように、コンテンツ生成サーバ20は、第1の実施の形態で示した構成に加えて、韻律情報を自動生成する韻律情報選択手段27aを含む。また、送信側装置10は、第1の実施の形態で示した構成と異なり、韻律情報選択手段12を含まない。なお、本実施の形態において、コンテンツ生成システムのその他の構成および基本的な動作については、第1の実施の形態で示した場合と同様である。
次に、本発明の第2の実施の形態を図面を参照して説明する。図3は、コンテンツ生成システムの構成の他の例を示すブロック図である。図3に示すように、コンテンツ生成サーバ20は、第1の実施の形態で示した構成に加えて、韻律情報を自動生成する韻律情報選択手段27aを含む。また、送信側装置10は、第1の実施の形態で示した構成と異なり、韻律情報選択手段12を含まない。なお、本実施の形態において、コンテンツ生成システムのその他の構成および基本的な動作については、第1の実施の形態で示した場合と同様である。
本実施の形態において、動画データベース22は、動画データおよび音声合成用データに加えて、動画の固有の属性情報を各動画データに対応付けて記憶する。以下、動画の固有の属性情報を、単に静的情報(動画属性情報)と記す。動画データベース22は、例えば、静的情報として、動画に登場するキャラクタの性別、体格、性格、表情、動作速度、感情、出身地などの情報を記憶する。
韻律情報選択手段27aは、コンテンツ生成サーバ20の記憶装置が記憶するプログラムに従って処理を実行するコンテンツ生成サーバ20の制御部およびネットワークインタフェース部などによって実現される。送信側装置10から動画選択情報を受信すると、韻律情報選択手段27aは、動画データベース22から、送信者が選択した動画データに対応する静的情報を抽出する。そして、韻律情報選択手段27aは、抽出した静的情報にもとづいて、各韻律パラメータを自動選択し韻律情報を生成する。
韻律情報選択手段27aは、予め静的情報の内容に応じて各韻律パラメータのデフォルト値を記憶している。例えば、静的情報の性別「女性」に対して、韻律情報選択手段27aは、デフォルト値として、ピッチ「7」、テンポ「7」およびイントネーション「5」を記憶している。この場合に、抽出した静的情報が性別「女性」であれば、韻律情報選択手段27aは、韻律パラメータとして、ピッチ「7」、テンポ「7」およびイントネーション「5」を自動選択し、選択した各韻律パラメータを含む韻律情報を生成する。
また、例えば、静的情報の体格「太め」に対して、韻律情報選択手段27aは、デフォルト値として、ピッチ「2」、テンポ「3」およびイントネーション「5」を記憶している。この場合に、抽出した静的情報が体格「太め」であれば、韻律情報選択手段27aは、韻律パラメータとして、ピッチ「2」、テンポ「3」およびイントネーション「5」を自動選択して、選択した各韻律パラメータを含む韻律情報を生成する。
また、韻律情報選択手段27aは、複数の静的情報にもとづいて韻律パラメータを自動選択してもよい。例えば、韻律情報選択手段27aは、抽出した静的情報が複数ある場合には、各静的情報に対して設定されているデフォルト値の平均値を算出するようにしてもよい。例えば、抽出した静的情報が性別「女性」および体格「太め」であれば、韻律情報選択手段27aは、性別「女性」に対するデフォルト値と、体格「太め」に対するデフォルト値との平均値を算出し、算出した平均値を韻律パラメータとして選択する。
以上のように、本実施の形態によれば、送信者が動画データの選択指示を入力すれば、コンテンツ生成サーバ20が動画に登場するキャラクタなどに応じた適切な韻律情報を自動生成する。よって、送信者が動画データの選択指示および受信者に送りたいメッセージ内容のテキスト文さえ入力すれば、韻律情報の選択指示を入力しなくても適切な音声データが自動的に生成され、コンテンツ生成サーバ20がコンテンツを自動生成する。従って、動画のキャラクタなどに応じた適切なコンテンツを生成できるとともに、韻律情報の選択指示をする場合と比較して、コンテンツ生成の際の送信者の負担を更に軽減することができる。
実施の形態3.
次に、本発明の第3の実施の形態を図面を参照して説明する。図4は、コンテンツ生成システムの構成の更に他の例を示すブロック図である。図4に示すように、コンテンツ生成サーバ20は、第1の実施の形態で示した構成に加えて、韻律情報を自動生成する韻律情報選択手段27bを含む。また、送信側装置10は、第1の実施の形態で示した構成と異なり、韻律情報選択手段12を含まない。なお、本実施の形態において、コンテンツ生成システムのその他の構成および基本的な動作については、第1の実施の形態で示した場合と同様である。
次に、本発明の第3の実施の形態を図面を参照して説明する。図4は、コンテンツ生成システムの構成の更に他の例を示すブロック図である。図4に示すように、コンテンツ生成サーバ20は、第1の実施の形態で示した構成に加えて、韻律情報を自動生成する韻律情報選択手段27bを含む。また、送信側装置10は、第1の実施の形態で示した構成と異なり、韻律情報選択手段12を含まない。なお、本実施の形態において、コンテンツ生成システムのその他の構成および基本的な動作については、第1の実施の形態で示した場合と同様である。
韻律情報選択手段27bは、コンテンツ生成サーバ20の記憶装置が記憶するプログラムに従って処理を実行するコンテンツ生成サーバ20の制御部およびネットワークインタフェース部などによって実現される。送信側装置10からテキストデータを受信すると、韻律情報選択手段27bは、テキストデータに含まれるテキスト文またはテキストデータの送信情報から、テキストデータの属性情報を抽出する。以下、テキストデータの属性情報を、単に動的情報(テキスト属性情報)と記す。
韻律情報選択手段27bは、例えば、動的情報として、テキスト文のタイトル、テキスト文の内容、テキスト文の文体、テキスト文に所定の単語が含まれるか否かの情報、文字の種類、テキストデータの送信日時などの情報を抽出する。そして、韻律情報選択手段27bは、抽出した動的情報にもとづいて、各韻律パラメータを自動選択し韻律情報を生成する。
韻律情報選択手段27bは、予め動的情報の内容に応じて各韻律パラメータのデフォルト値を記憶している。例えば、テキスト文に記号「!」が含まれる旨の動的情報に対して、韻律情報選択手段27bは、デフォルト値として、ピッチ「9」、テンポ「8」およびイントネーション「9」を記憶している。この場合に、韻律情報選択手段27bは、動的情報として記号「!」を抽出した場合には、韻律パラメータとして、ピッチ「9」、テンポ「8」およびイントネーション「9」を自動選択し、選択した各韻律パラメータを含む韻律情報を生成する。
また、例えば、テキスト文に文字列「えーん」が含まれている旨の動的情報に対して、韻律情報選択手段27bは、デフォルト値として、ピッチ「3」、テンポ「5」およびイントネーション「1」を記憶している。この場合に、韻律情報選択手段27bは、動的情報として文字列「えーん」を抽出した場合には、韻律パラメータとして、ピッチ「3」、テンポ「5」およびイントネーション「1」を自動選択して、選択した各韻律パラメータを含む韻律情報を生成する。
なお、韻律情報選択手段27bは、複数の動的情報にもとづいて韻律パラメータを自動選択してもよい。例えば、韻律情報選択手段27bは、抽出した動的情報が複数ある場合には、各動的情報に対して設定されているデフォルト値の平均値を算出し、算出した平均値を韻律パラメータとして選択してもよい。
以上のように、本実施の形態によれば、送信者がメッセージ内容のテキスト文を入力すれば、コンテンツ生成サーバ20がメッセージ内容などに応じた適切な韻律情報を自動生成する。よって、送信者が動画データの選択指示および受信者に送りたいメッセージ内容のテキスト文さえ入力すれば、韻律情報の選択指示を入力しなくても適切な音声データが自動的に生成され、コンテンツ生成サーバ20がコンテンツを自動生成する。従って、メッセージ内容に応じた適切なコンテンツを生成できるとともに、韻律情報の選択指示をする場合と比較して、コンテンツ生成の際の送信者の負担を更に軽減することができる。
実施の形態4.
次に、本発明の第4の実施の形態を図面を参照して説明する。図5は、コンテンツ生成システムの構成の更に他の例を示すブロック図である。図5に示すように、コンテンツ生成サーバ20は、第3の実施の形態で示した構成に加えて、動画データを自動選択する動画選択手段28aを含む。また、送信側装置10は、第3の実施の形態で示した構成と異なり、動画選択手段11を含まない。なお、本実施の形態において、コンテンツ生成システムのその他の構成および基本的な動作については、第3の実施の形態で示した場合と同様である。
次に、本発明の第4の実施の形態を図面を参照して説明する。図5は、コンテンツ生成システムの構成の更に他の例を示すブロック図である。図5に示すように、コンテンツ生成サーバ20は、第3の実施の形態で示した構成に加えて、動画データを自動選択する動画選択手段28aを含む。また、送信側装置10は、第3の実施の形態で示した構成と異なり、動画選択手段11を含まない。なお、本実施の形態において、コンテンツ生成システムのその他の構成および基本的な動作については、第3の実施の形態で示した場合と同様である。
動画選択手段28aは、コンテンツ生成サーバ20の記憶装置が記憶するプログラムに従って処理を実行するコンテンツ生成サーバ20の制御部などによって実現される。テキストデータを受信すると、動画選択手段28aは、動画データベース22が記憶する動画データを自動選択する。動画選択手段28aは、選択した動画データを動画データベース22から抽出する。そして、動画音声合成手段24は、動画選択手段28aが抽出した動画データと、音声合成手段23が生成した音声データとにもとづいて合成動画データを生成する。なお、動画選択抽出手段は、動画選択手段28aによって実現される。
動画選択手段28aは、例えば、コンテンツを送信する時刻、日付、季節、使用頻度または乱数などにもとづいて動画データを自動選択する。例えば、動画データベース22は、予め各動画データを時間帯の情報と対応付けて記憶する。例えば、登場するキャラクタが寝ているシーンの動画データである場合には、動画データベース22は、その動画データと時間帯「朝」とを対応付けて記憶する。この場合に、受信側装置30にコンテンツを送信するのが朝の時間帯である場合には、動画選択手段28aは、時間帯の情報にもとづいて、キャラクタが寝ているシーンの動画データを自動選択する。
また、例えば、登場するキャラクタが踊っているシーンの動画データである場合には、動画データベース22は、その動画データと時間帯「昼」とを対応付けて記憶する。この場合に、受信側装置30にコンテンツを送信するのが昼の時間帯である場合には、動画選択手段28aは、時間帯の情報にもとづいて、キャラクタが踊っているシーンの動画データを自動選択する。
また、動画データベース22が予め各動画データの対応情報を記憶しているのでなく、動画選択手段28aは、乱数などを用いてランダムに動画データを自動選択するようにしてもよい。この場合に、送信側装置10からテキストデータを受信すると、動画選択手段28aは、乱数などを用いて動画データベース22が記憶する動画データをランダムに自動選択する。
なお、本実施の形態において、韻律情報選択手段27bは、第3の実施の形態と同様の処理により韻律情報を自動生成する。
以上のように、本実施の形態によれば、送信側装置10からテキストデータを受信すると、コンテンツ生成サーバ20は動画データを自動抽出し韻律情報を自動生成する。よって、送信者が受信者に送りたいメッセージ内容のテキスト文さえ入力すれば、動画データおよび韻律情報の選択指示を入力しなくても、コンテンツ生成サーバ20がコンテンツを自動生成する。従って、メッセージ内容などに応じた適切なコンテンツを生成できるとともに、動画データおよび韻律情報の選択指示をする場合と比較して、コンテンツ生成の際の送信者の負担を更に軽減することができる。
実施の形態5.
次に、本発明の第5の実施の形態を図面を参照して説明する。図6は、コンテンツ生成システムの構成の更に他の例を示すブロック図である。図6に示すように、コンテンツ生成サーバ20は、第1の実施の形態で示した構成に加えて、韻律情報を自動生成する韻律情報選択手段27cと、動画データを自動選択する動画選択手段28bとを含む。また、送信側装置10は、第1の実施の形態で示した構成と異なり、動画選択手段11および韻律情報選択手段12を含まない。
次に、本発明の第5の実施の形態を図面を参照して説明する。図6は、コンテンツ生成システムの構成の更に他の例を示すブロック図である。図6に示すように、コンテンツ生成サーバ20は、第1の実施の形態で示した構成に加えて、韻律情報を自動生成する韻律情報選択手段27cと、動画データを自動選択する動画選択手段28bとを含む。また、送信側装置10は、第1の実施の形態で示した構成と異なり、動画選択手段11および韻律情報選択手段12を含まない。
動画選択手段28bは、コンテンツ生成サーバ20の記憶装置が記憶するプログラムに従って処理を実行するコンテンツ生成サーバ20の制御部などによって実現される。テキストデータを受信すると、動画選択手段28bは、動画データベース22が記憶する動画データを自動選択し、選択した動画データを動画データベース22から抽出する。なお、動画選択手段28bが動画データを自動選択する方法は、第4の実施の形態で示した方法と同様である。
韻律情報選択手段27cは、コンテンツ生成サーバ20の記憶装置が記憶するプログラムに従って処理を実行するコンテンツ生成サーバ20の制御部などによって実現される。本実施の形態において、第2の実施の形態と同様に、動画データベース22は、動画データおよび音声合成用データに加えて、静的情報を各動画データに対応付けて予め記憶する。動画選択手段28bが動画データを自動選択すると、韻律情報選択手段27cは、自動選択された動画データに対応する静的情報にもとづいて韻律情報を自動生成する。なお、韻律情報選択手段27cが韻律情報を自動生成する方法は、第2の実施の形態で示した方法と同様である。
以上のように、本実施の形態によれば、送信側装置10からテキストデータを受信すると、コンテンツ生成サーバ20は動画データを自動抽出し韻律情報を自動生成する。よって、送信者が受信者に送りたいメッセージ内容のテキスト文さえ入力すれば、動画データおよび韻律情報の選択指示を入力しなくても、コンテンツ生成サーバ20がコンテンツを自動生成する。従って、動画のキャラクタなどに応じた適切なコンテンツを生成できるとともに、動画データおよび韻律情報の選択指示をする場合と比較して、コンテンツ生成の際の送信者の負担を更に軽減することができる。
本発明によるコンテンツ生成システムでは、利用者が端末を用いて、動画データおよび韻律情報の選択指示と、送りたいメッセージ内容のテキスト文とを入力さえすれば、音声付動画メールなどのコンテンツが自動生成される。よって、利用者は所定の入力作業さえ行えば、利用者の意図に即した表現力の高い音声付動画メールなどを容易に相手側の端末に送信することができ、音声付動画データなどのコンテンツを作成する際の利用者の負担が軽減される。
10 送信側装置
11 動画選択手段
12 韻律情報選択手段
13 テキスト入力手段
14 テキスト送信手段
20 コンテンツ生成サーバ
21 動画作成手段
22 動画データベース
23 音声合成手段
24 動画音声合成手段
25 合成動画記憶手段
26 合成動画送信手段
30 受信側装置
31 動画受信手段
32 合成動画記憶手段
33 再生手段
11 動画選択手段
12 韻律情報選択手段
13 テキスト入力手段
14 テキスト送信手段
20 コンテンツ生成サーバ
21 動画作成手段
22 動画データベース
23 音声合成手段
24 動画音声合成手段
25 合成動画記憶手段
26 合成動画送信手段
30 受信側装置
31 動画受信手段
32 合成動画記憶手段
33 再生手段
Claims (14)
- 動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成サーバと、利用者が使用する利用者端末とを含むコンテンツ生成システムであって、
前記利用者端末は、
前記利用者の入力指示に従って、音声の韻律規則を示す韻律情報を生成する韻律情報生成手段を備え、
前記コンテンツ生成サーバは、
動画データを記憶する動画記憶手段と、
前記利用者が選択した動画データを前記動画記憶手段から抽出する動画抽出手段と、
前記利用者端末から、通信ネットワークを介して前記韻律情報を受信する韻律情報受信手段と、
前記利用者端末から、通信ネットワークを介してテキストデータを受信するテキスト受信手段と、
受信したテキストデータに含まれるテキスト文と前記韻律情報とに従って音声データを生成する音声生成手段と、
前記音声データと抽出した前記動画データとを時間軸に沿って合成してコンテンツを生成するコンテンツ生成手段とを備えた
ことを特徴とするコンテンツ生成システム。 - 韻律情報生成手段は、音声の高低、発声速度またはイントネーションのうちの少なくとも1つの情報を含む韻律情報を生成する請求項1記載のコンテンツ生成システム。
- 各動画データに対応させて音声の基本単位の音声合成用データを記憶する音声合成用データ記憶手段を備え、
音声生成手段は、音声データを生成する際に、韻律情報に従って前記音声合成用データを変形させる
請求項1または請求項2記載のコンテンツ生成システム。 - コンテンツ生成手段は、動画の再生速度を変更することによって、音声の再生時間と同じになるように前記動画の再生時間の時間長を変換して、動画データと音声データとを対応付けて合成する請求項1から請求項3のうちのいずれか1項に記載のコンテンツ生成システム。
- コンテンツ生成手段は、動画を繰り返し再生するように割り当てることによって、音声の再生時間と同じになるように前記動画の再生時間の時間長を変換して、動画データと音声データとを対応付けて合成する請求項1から請求項4のうちのいずれか1項に記載のコンテンツ生成システム。
- 動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成サーバと、利用者が使用する利用者端末とを含むコンテンツ生成システムであって、
前記コンテンツ生成サーバは、
動画データを記憶する動画記憶手段と、
前記利用者が選択した動画データを前記動画記憶手段から抽出する動画抽出手段と、
音声の韻律規則を示す韻律情報を生成する韻律情報生成手段と、
前記利用者端末から、通信ネットワークを介してテキストデータを受信するテキスト受信手段と、
受信したテキストデータに含まれるテキスト文と前記韻律情報とに従って音声データを生成する音声生成手段と、
前記音声データと抽出した前記動画データとを時間軸に沿って合成してコンテンツを生成するコンテンツ生成手段とを備え、
前記動画記憶手段は、動画の属性を示す動画属性情報を、動画データに対応付けて記憶し、
前記韻律情報生成手段は、利用者が選択した動画データに対応する動画属性情報にもとづいて韻律情報を生成する
ことを特徴とするコンテンツ生成システム。 - 韻律情報生成手段は、動画属性情報として、動画の登場者の性別、体格、性格、表情、動作速度、感情または出身地のうちの少なくとも1つの情報にもとづいて韻律情報を生成する請求項6記載のコンテンツ生成システム。
- 韻律情報生成手段は、利用者端末から通信ネットワークを介して受信したテキストデータの属性を示すテキスト属性情報を抽出し、前記テキスト属性情報にもとづいて韻律情報を生成する請求項6記載のコンテンツ生成システム。
- 韻律情報生成手段は、テキスト属性情報として、テキストのタイトル、テキストの内容、テキストの文体、テキストに所定の単語が含まれるか否かの情報、文字の種類またはテキストデータの送信日時のうちの少なくとも1つの情報にもとづいて韻律情報を生成する請求項8記載のコンテンツ生成システム。
- コンテンツ生成サーバは、利用者端末から通信ネットワークを介してテキストデータを受信すると、動画記憶手段が記憶する動画データを所定の条件に従って選択し、選択した動画データを前記動画記憶手段から抽出する動画選択抽出手段を備えた請求項8または請求項9記載のコンテンツ生成システム。
- 動画選択抽出手段は、日時、季節、動画の使用頻度または乱数のうちの少なくとも1つの情報にもとづいて、動画記憶手段が記憶する動画データを選択する請求項10記載のコンテンツ生成システム。
- 動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成サーバと、利用者が使用する利用者端末とを含むコンテンツ生成システムであって、
前記コンテンツ生成サーバは、
動画データを記憶する動画記憶手段と、
前記利用者端末から通信ネットワークを介してテキストデータを受信すると、前記動画記憶手段が記憶する動画データを所定の条件に従って選択し、選択した動画データを前記動画記憶手段から抽出する動画選択抽出手段と、
音声の韻律規則を示す韻律情報を生成する韻律情報生成手段と、
前記利用者端末から、通信ネットワークを介してテキストデータを受信するテキスト受信手段と、
受信したテキストデータに含まれるテキスト文と前記韻律情報とに従って音声データを生成する音声生成手段と、
前記音声データと抽出した前記動画データとを時間軸に沿って合成してコンテンツを生成するコンテンツ生成手段とを備え、
動画記憶手段は、動画の属性を示す動画属性情報を、動画データに対応付けて記憶し、
前記韻律情報選択手段は、前記動画選択抽出手段によって選択された動画データに対応する動画属性情報にもとづいて韻律情報を生成する
ことを特徴とするコンテンツ生成システム。 - 利用者が使用する利用者端末が、前記利用者の入力指示に従って、音声の韻律規則を示す韻律情報を生成するステップと、
動画と音声とを同時再生するためのコンテンツを生成するコンテンツ生成サーバが、前記利用者が選択した動画データを抽出するステップと、
前記コンテンツ生成サーバが、前記利用者端末から、通信ネットワークを介して前記韻律情報を受信するステップと、
前記コンテンツ生成サーバが、前記利用者端末から、通信ネットワークを介してテキストデータを受信するステップと、
前記コンテンツ生成サーバが、受信したテキストデータに含まれるテキスト文と前記韻律情報とに従って音声データを生成するステップと、
前記コンテンツ生成サーバが、前記音声データと抽出した前記動画データとを時間軸に沿って合成してコンテンツを生成するステップとを含む
ことを特徴とするコンテンツ生成方法。 - 動画と音声とを同時再生するためのコンテンツを生成するためのコンテンツ生成プログラムであって、
コンピュータに、
利用者が選択した動画データを抽出する処理と、
前記利用者が使用する利用者端末から、通信ネットワークを介して音声の韻律規則を示す韻律情報を受信する処理と、
前記利用者端末から、通信ネットワークを介してテキストデータを受信する処理と、
受信したテキストデータに含まれるテキスト文と前記韻律情報とに従って音声データを生成する処理と、
前記音声データと抽出した前記動画データとを時間軸に沿って合成してコンテンツを生成する処理とを実行させる
ことを特徴とするコンテンツ生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003291644A JP2005062420A (ja) | 2003-08-11 | 2003-08-11 | コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003291644A JP2005062420A (ja) | 2003-08-11 | 2003-08-11 | コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005062420A true JP2005062420A (ja) | 2005-03-10 |
Family
ID=34369268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003291644A Pending JP2005062420A (ja) | 2003-08-11 | 2003-08-11 | コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005062420A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008129434A (ja) * | 2006-11-22 | 2008-06-05 | Oki Electric Ind Co Ltd | 音声合成サーバシステム |
JP2008219345A (ja) * | 2007-03-02 | 2008-09-18 | Xing Inc | 合成装置、合成システム、合成方法及びプログラム |
WO2009013875A1 (ja) * | 2007-07-24 | 2009-01-29 | Panasonic Corporation | 文字情報提示装置 |
JP2011082789A (ja) * | 2009-10-07 | 2011-04-21 | Exlink Co Ltd | 音声付き動画制作・配信サービスシステム |
JP2020201615A (ja) * | 2019-06-07 | 2020-12-17 | 株式会社日本経済新聞社 | 情報提供装置、情報提供方法、およびプログラム |
JP2021096786A (ja) * | 2019-12-19 | 2021-06-24 | 司 志賀 | 映像編集システム及び映像編集方法 |
KR20220007221A (ko) * | 2020-07-10 | 2022-01-18 | 닥프렌즈 주식회사 | 전문 상담 미디어 등록 처리 방법 |
JP2022138739A (ja) * | 2021-03-10 | 2022-09-26 | 株式会社Bloom Act | 動画生成配信処理装置、動画生成配信方法、および動画生成配信プログラム |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0527792A (ja) * | 1991-07-22 | 1993-02-05 | Nippon Telegr & Teleph Corp <Ntt> | 音声強調装置 |
JPH06337876A (ja) * | 1993-05-28 | 1994-12-06 | Toshiba Corp | 文章読み上げ装置 |
JPH0736469A (ja) * | 1993-07-22 | 1995-02-07 | Brother Ind Ltd | カラオケ装置 |
JP2000020744A (ja) * | 1998-07-06 | 2000-01-21 | Nippon Telegr & Teleph Corp <Ntt> | 動画像と合成音声によるコンテンツ制作方法およびプログラム記録媒体 |
JP2001075581A (ja) * | 1999-09-01 | 2001-03-23 | Sharp Corp | 電子漫画製造装置および電子漫画出力装置 |
JP2001142484A (ja) * | 1991-11-18 | 2001-05-25 | Toshiba Corp | 音声対話方法及びそのシステム |
JP2001308985A (ja) * | 2000-04-21 | 2001-11-02 | Copcom Co Ltd | 通信装置および記録媒体 |
JP2002041084A (ja) * | 2000-07-26 | 2002-02-08 | Victor Co Of Japan Ltd | 対話処理システム |
JP2002230132A (ja) * | 2000-12-01 | 2002-08-16 | Sega Corp | 商品注文システム |
JP2002328694A (ja) * | 2001-03-02 | 2002-11-15 | Matsushita Electric Ind Co Ltd | 携帯端末装置及び読み上げシステム |
JP2002358092A (ja) * | 2001-06-01 | 2002-12-13 | Sony Corp | 音声合成システム |
JP2003087437A (ja) * | 2001-09-07 | 2003-03-20 | Nippon Telegr & Teleph Corp <Ntt> | メッセージ生成配信方法及び生成配信システム |
-
2003
- 2003-08-11 JP JP2003291644A patent/JP2005062420A/ja active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0527792A (ja) * | 1991-07-22 | 1993-02-05 | Nippon Telegr & Teleph Corp <Ntt> | 音声強調装置 |
JP2001142484A (ja) * | 1991-11-18 | 2001-05-25 | Toshiba Corp | 音声対話方法及びそのシステム |
JPH06337876A (ja) * | 1993-05-28 | 1994-12-06 | Toshiba Corp | 文章読み上げ装置 |
JPH0736469A (ja) * | 1993-07-22 | 1995-02-07 | Brother Ind Ltd | カラオケ装置 |
JP2000020744A (ja) * | 1998-07-06 | 2000-01-21 | Nippon Telegr & Teleph Corp <Ntt> | 動画像と合成音声によるコンテンツ制作方法およびプログラム記録媒体 |
JP2001075581A (ja) * | 1999-09-01 | 2001-03-23 | Sharp Corp | 電子漫画製造装置および電子漫画出力装置 |
JP2001308985A (ja) * | 2000-04-21 | 2001-11-02 | Copcom Co Ltd | 通信装置および記録媒体 |
JP2002041084A (ja) * | 2000-07-26 | 2002-02-08 | Victor Co Of Japan Ltd | 対話処理システム |
JP2002230132A (ja) * | 2000-12-01 | 2002-08-16 | Sega Corp | 商品注文システム |
JP2002328694A (ja) * | 2001-03-02 | 2002-11-15 | Matsushita Electric Ind Co Ltd | 携帯端末装置及び読み上げシステム |
JP2002358092A (ja) * | 2001-06-01 | 2002-12-13 | Sony Corp | 音声合成システム |
JP2003087437A (ja) * | 2001-09-07 | 2003-03-20 | Nippon Telegr & Teleph Corp <Ntt> | メッセージ生成配信方法及び生成配信システム |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008129434A (ja) * | 2006-11-22 | 2008-06-05 | Oki Electric Ind Co Ltd | 音声合成サーバシステム |
JP2008219345A (ja) * | 2007-03-02 | 2008-09-18 | Xing Inc | 合成装置、合成システム、合成方法及びプログラム |
WO2009013875A1 (ja) * | 2007-07-24 | 2009-01-29 | Panasonic Corporation | 文字情報提示装置 |
JP5093239B2 (ja) * | 2007-07-24 | 2012-12-12 | パナソニック株式会社 | 文字情報提示装置 |
US8370150B2 (en) | 2007-07-24 | 2013-02-05 | Panasonic Corporation | Character information presentation device |
JP2011082789A (ja) * | 2009-10-07 | 2011-04-21 | Exlink Co Ltd | 音声付き動画制作・配信サービスシステム |
JP2020201615A (ja) * | 2019-06-07 | 2020-12-17 | 株式会社日本経済新聞社 | 情報提供装置、情報提供方法、およびプログラム |
JP2021096786A (ja) * | 2019-12-19 | 2021-06-24 | 司 志賀 | 映像編集システム及び映像編集方法 |
JP7398265B2 (ja) | 2019-12-19 | 2023-12-14 | 司 志賀 | 映像編集システム及び映像編集方法 |
KR20220007221A (ko) * | 2020-07-10 | 2022-01-18 | 닥프렌즈 주식회사 | 전문 상담 미디어 등록 처리 방법 |
KR102530883B1 (ko) * | 2020-07-10 | 2023-05-11 | 닥프렌즈 주식회사 | 전문 상담 미디어 등록 처리 방법 |
JP2022138739A (ja) * | 2021-03-10 | 2022-09-26 | 株式会社Bloom Act | 動画生成配信処理装置、動画生成配信方法、および動画生成配信プログラム |
JP7372020B2 (ja) | 2021-03-10 | 2023-10-31 | 株式会社Bloom Act | 動画生成配信処理装置、動画生成配信方法、および動画生成配信プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10720145B2 (en) | Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system | |
US10998005B2 (en) | Method and apparatus for presenting media information, storage medium, and electronic apparatus | |
CN101295504B (zh) | 用于仅文本的应用的娱乐音频 | |
JP4266411B2 (ja) | 情報処理装置及びその制御方法、情報伝送システム、記憶媒体 | |
KR101513888B1 (ko) | 멀티미디어 이메일 합성 장치 및 방법 | |
US20090198497A1 (en) | Method and apparatus for speech synthesis of text message | |
JPWO2008001500A1 (ja) | 音声コンテンツ生成システム、情報交換システム、プログラム、音声コンテンツ生成方法及び情報交換方法 | |
JP2003521750A (ja) | スピーチシステム | |
KR20130116349A (ko) | 입력 지원 장치, 입력 지원 방법 및 기록 매체 | |
JP2004128614A (ja) | 画像表示制御装置及び画像表示制御プログラム | |
JP2007271655A (ja) | 感情付加装置、感情付加方法及び感情付加プログラム | |
JP2005062420A (ja) | コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム | |
JP2008046951A (ja) | 電子文書生成システム、サーバ装置、端末装置、電子文書生成方法、サーバ装置用プログラム及び端末装置用プログラム | |
JP2002342234A (ja) | 表示方法 | |
JP7117228B2 (ja) | カラオケシステム、カラオケ装置 | |
JP2005249880A (ja) | 携帯式通信端末によるディジタル絵本システム | |
JP2006048352A (ja) | キャラクタ映像表示機能付き通信端末およびその制御方法 | |
JP2020204683A (ja) | 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム | |
JP5777233B1 (ja) | 動画生成装置及び動画生成方法 | |
JP2007251581A (ja) | 音声送信端末および音声再生端末 | |
JP2005216087A (ja) | 電子メール受信装置及び電子メール送信装置 | |
JP4530016B2 (ja) | 情報通信システムおよびそのデータ通信方法 | |
JP2005107320A (ja) | 音声再生用データ生成装置 | |
JP2003140677A (ja) | 読み上げシステム | |
CN116264073A (zh) | 配音方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20051117 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060516 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061003 |