JP2008219345A

JP2008219345A - 合成装置、合成システム、合成方法及びプログラム

Info

Publication number: JP2008219345A
Application number: JP2007052641A
Authority: JP
Inventors: Koji Giga; 公二儀賀
Original assignee: Xing Inc
Current assignee: Xing Inc
Priority date: 2007-03-02
Filing date: 2007-03-02
Publication date: 2008-09-18
Anticipated expiration: 2027-03-02
Also published as: JP5009650B2

Abstract

【課題】動画データ内の音声データの存否に関わらず選択された音声データと動画データとを合成することが可能な合成装置を提供する。
【解決手段】携帯電話機２は受け付けた音声データの識別情報及び動画データの識別情報をサーバコンピュータ１へ送信する。サーバコンピュータ１は、判断手段により、受信した識別情報に係る動画データ内に音声データに関連付けられるタグが存在するか否かを判断する。そして判断手段によりタグが存在しないと判断した場合、タグを動画データ内に書き込み、該タグに関連付けて受信した識別情報に係る音声データを書き込む。一方、判断手段によりタグが存在すると判断した場合、該タグ内に記述された音声データを削除し、該タグに関連付けて受信した識別情報に係る音声データを書き込む。
【選択図】図１

Description

本発明は、音声データ及び動画データを合成する合成装置、合成システム、合成方法及びコンピュータを合成装置として機能させるためのプログラムに関する。

近年、携帯端末機等に動画を配信するサービスが普及している。このサービスにおいては、ユーザが携帯端末機からＷｅｂサーバへアクセスし、Ｆｌａｓｈ（登録商標）またはｉモーション（登録商標）等の動画データをダウンロードする。そして携帯端末機内のアプリケーションを起動してダウンロードした動画データを再生する。その一方で、着うた（登録商標）等の携帯端末機等に音声データを配信するサービスも普及している。またユーザが作成するビデオメールの作成支援ツールも知られている（例えば、特許文献１参照）。
特開２００３−１９５８６３号公報

しかしながら、動画データ及び音声データのコンテンツが増大しているにもかかわらず、これらを組み合わせた有益なサービスが提供できていないという問題があった。また動画データには無音のものと音声データが付加されたものとが混在しており、容易に組み合わせることができないという問題があった。なお、特許文献１は動画情報を基準に音楽情報を抽出し、動画情報の長さに応じて音楽情報の長さを補正するにすぎず上述した問題を解決するものではない。

本発明は斯かる事情に鑑みてなされたものであり、その目的は、動画データ内に音声データに関連付けられるタグの有無を判断し、これに応じて音声データ及びタグを書き込むことにより、動画データ内の音声データの存否に関わらず選択された音声データと動画データとを合成することが可能な合成装置、合成システム、合成方法及びコンピュータを合成装置として機能させるためのプログラムを提供することにある。

本発明の他の目的は、合成に係る利用回数を計数することにより、利用回数に応じた課金が可能な合成システムを提供することにある。

本発明の他の目的は、合成に係る履歴を記憶し同一リクエストの場合は、利用回数を計数しない合成システムを提供することにある。

本発明に係る合成装置は、音声データ及び動画データを合成する合成装置において、複数の音声データの識別情報から選択された音声データの識別情報を受け付ける音声受け付け手段と、複数の動画データの識別情報から選択された動画データの識別情報を受け付ける動画受け付け手段と、該動画受け付け手段により受け付けた識別情報に係る動画データ内に音声データに関連付けられるタグが存在するか否かを判断する判断手段と、該判断手段によりタグが存在しないと判断した場合に、該タグを前記動画データ内に書き込み、該タグに関連付けて前記音声受け付け手段により受け付けた識別情報に係る音声データを書き込む書き込み手段と、前記判断手段によりタグが存在すると判断した場合に、該タグ内に記述された音声データを削除し、該タグに関連付けて前記音声受け付け手段により受け付けた識別情報に係る音声データを書き込む書き換え手段とを備えることを特徴とする。

本発明に係る合成装置は、前記判断手段によりタグが存在しないと判断した場合に、前記書き込み手段により前記タグ内に書き込む音声データと前記動画データとの同期に関する情報及び該同期に関する情報に関連付けられる同期情報タグを、前記動画データ内に書き込む手段をさらに備えることを特徴とする。

本発明に係る合成装置は、前記書き込み手段または前記書き換え手段により音声データが書き込まれた動画データを外部へ出力する手段を備えることを特徴とする。

本発明に係る合成システムは、携帯端末機に通信網を介して接続される合成装置により音声データ及び動画データを合成する合成システムにおいて、前記携帯端末機は、複数の音声データの識別情報から選択された音声データの識別情報を受け付ける音声受け付け手段と、複数の動画データの識別情報から選択された動画データの識別情報を受け付ける動画受け付け手段と、前記音声受け付け手段により受け付けた音声データの識別情報及び前記動画受け付け手段により受け付けた動画データの識別情報を前記合成装置へ送信する手段とを備え、前記合成装置は、前記携帯端末機から送信された音声データの識別情報及び動画データの識別情報を受信する受信手段と、該受信手段により受信した識別情報に係る動画データ内に音声データに関連付けられるタグが存在するか否かを判断する判断手段と、該判断手段によりタグが存在しないと判断した場合に、該タグを前記動画データ内に書き込み、該タグに関連付けて前記受信手段により受信した識別情報に係る音声データを書き込む書き込み手段と、前記判断手段によりタグが存在すると判断した場合に、該タグ内に記述された音声データを削除し、該タグに関連付けて前記受信手段により受信した識別情報に係る音声データを書き込む書き換え手段と、前記書き込み手段または前記書き換え手段により音声データが書き込まれた動画データを前記携帯端末機へ送信する手段とを備えることを特徴とする。

本発明に係る合成システムは、前記合成装置は、前記受信手段により受信した音声データの識別情報及び動画データの識別情報を、携帯端末機を特定するための特定情報に対応付けて記憶部に記憶する手段と、前記受信手段により音声データの識別情報及び動画データの識別情報を受信した場合に、利用回数を計数する計数手段と、該計数手段により計数した回数を携帯端末機の特定情報に対応付けて記憶するデータベースとを備えることを特徴とする。

本発明に係る合成システムは、前記合成装置は、前記受信手段により、携帯端末機から音声データの識別情報及び動画データの識別情報を受信した場合に、前記記憶部に前記携帯端末機の特定情報、前記音声データの識別情報及び動画データの識別情報と一致する情報が記憶されているか否かを判断する記憶判断手段を備え、前記計数手段は、該記憶判断手段により一致する情報が記憶されていると判断した場合は、利用回数を計数しないよう構成してあることを特徴とする。

本発明に係る合成方法は、携帯端末機に通信網を介して接続される合成装置により動画データ及び音声データを合成する合成方法において、複数の音声データの識別情報から選択された音声データの識別情報を、前記携帯端末機の入力部から受け付ける音声受け付けステップと、複数の動画データの識別情報から選択された動画データの識別情報を、前記携帯端末機の入力部から受け付ける動画受け付けステップと、前記音声受け付けステップにより受け付けた音声データの識別情報及び前記動画受け付けステップにより受け付けた動画データの識別情報を前記携帯端末機から前記合成装置へ送信するステップと、前記携帯端末機から送信された音声データの識別情報及び動画データの識別情報を前記合成装置により受信する受信ステップと、該受信ステップにより受信した識別情報に係る動画データ内に音声データに関連付けられるタグが存在するか否かを前記合成装置の制御部により判断する判断ステップと、該判断ステップによりタグが存在しないと判断した場合に前記制御部により、該タグを前記動画データ内に書き込み、該タグに関連付けて前記受信ステップにより受信した識別情報に係る音声データを書き込む書き込みステップと、前記判断ステップによりタグが存在すると判断した場合に前記制御部により、該タグ内に記述された音声データを削除し、該タグに関連付けて前記受信ステップにより受信した識別情報に係る音声データを書き込む書き換えステップと、前記書き込みステップまたは前記書き換えステップにより音声データが書き込まれた動画データを前記合成装置から前記携帯端末機へ送信するステップとを備えることを特徴とする。

本発明に係るプログラムは、音声データ及び動画データをコンピュータに合成させるためのプログラムにおいて、コンピュータに、複数の音声データの識別情報から選択された音声データの識別情報及び複数の動画データの識別情報から選択された動画データの識別情報を取り込む取り込みステップと、該取り込みステップにより取り込んだ識別情報に係る動画データ内に音声データに関連付けられるタグが存在するか否かをコンピュータの制御部により判断する判断ステップと、該判断ステップによりタグが存在しないと判断した場合に前記制御部により、該タグを前記動画データ内に書き込み、該タグに関連付けて前記取り込みステップにより取り込んだ識別情報に係る音声データを書き込む書き込みステップと、前記判断ステップによりタグが存在すると判断した場合に前記制御部により、該タグ内に記述された音声データを削除し、該タグに関連付けて前記取り込みステップにより取り込んだ識別情報に係る音声データを書き込む書き換えステップとを実行させることを特徴とする。

本発明にあっては、携帯端末機と合成装置とは通信網を介して接続される。携帯端末機は、複数の音声データの識別情報から選択された音声データの識別情報を受け付け、複数の動画データの識別情報から選択された動画データの識別情報を受け付ける。携帯端末機は受け付けた音声データの識別情報及び動画データの識別情報を合成装置へ送信する。合成装置は、携帯端末機から送信された音声データの識別情報及び動画データの識別情報を受信する。

合成装置は、判断手段により、受信した識別情報に係る動画データ内に音声データに関連付けられるタグが存在するか否かを判断する。そして判断手段によりタグが存在しないと判断した場合、タグを動画データ内に書き込み、該タグに関連付けて受信した識別情報に係る音声データを書き込む。一方、判断手段によりタグが存在すると判断した場合、該タグ内に記述された音声データを削除し、該タグに関連付けて受信した識別情報に係る音声データを書き込む。そして、音声データが書き込まれた動画データを前記携帯端末機へ送信する。

本発明にあっては、合成装置は、判断手段によりタグが存在しないと判断した場合に、該タグ内に書き込む音声データと動画データとの同期に関する情報、及び、該同期に関する情報に関連付けられる同期情報タグを、動画データ内に書き込む。

本発明にあっては、合成装置は、受信した音声データの識別情報及び動画データの識別情報を、携帯端末機を特定するための特定情報に対応付けて記憶部に記憶する。そして計数手段は、音声データの識別情報及び動画データの識別情報を受信する度に、利用回数を計数する。そして計数手段により計数した回数を携帯端末機の特定情報に対応付けてデータベースに記憶する。

本発明にあっては、記憶判断手段は、携帯端末機から音声データの識別情報及び動画データの識別情報を受信した場合に、記憶部に携帯端末機の特定情報、音声データの識別情報及び動画データの識別情報と一致する情報が記憶されているか否かを判断する。すなわち、同一の携帯端末機から同一の動画データ及び音声データの組み合わせに係るリクエストがあったか否かを判断する。そして、計数手段は、記憶判断手段により一致する情報が記憶されていると判断した場合は、利用回数を計数しない。

本発明にあっては、判断手段によりタグが存在しないと判断した場合、タグを動画データ内に書き込み、該タグに関連付けて受信した識別情報に係る音声データを書き込む。一方、判断手段によりタグが存在すると判断した場合、該タグ内に記述された音声データを削除し、該タグに関連付けて受信した識別情報に係る音声データを書き込む。そして、音声データが書き込まれた動画データを前記携帯端末機へ送信する。これにより、動画データの音声データの有無にかかわらず、シームレスに希望する動画データと音声データとを合成でき、この合成した動画データをユーザに提供することが可能となる。

本発明にあっては、合成装置は、判断手段によりタグが存在しないと判断した場合に、該タグ内に書き込む音声データと動画データとの同期に関する情報、及び、該同期に関する情報に関連付けられる同期情報タグを、動画データ内に書き込む。これにより、携帯端末機は、同期情報タグ内の同期に関する情報を参照して、動画データと音声データとを同期再生することが可能となる。その結果、関連のないユーザが選択した音声データと動画データとが合成され、適切なタイミングで両者が再生されることになる。

本発明にあっては、計数手段は、音声データの識別情報及び動画データの識別情報を受信する度に、利用回数を計数し、計数した回数を携帯端末機の特定情報に対応付けてデータベースに記憶する。これにより、合成のリクエストの度に適切な課金処理を行うことが可能となる。

本発明にあっては、記憶判断手段は、携帯端末機から音声データの識別情報及び動画データの識別情報を受信した場合に、記憶部に携帯端末機の特定情報、音声データの識別情報及び動画データの識別情報と一致する情報が記憶されているか否かを判断する。そして、計数手段は、記憶判断手段により一致する情報が記憶されていると判断した場合は、利用回数を計数しない。これにより、同一リクエストの場合は、課金しないことが可能となりより適切なサービスを提供することが可能となる等、本発明は優れた効果を奏する。

実施の形態１
図１は本発明に係る合成システムの概要を示す模式図である。合成システムは、合成装置１、通信網Ｎ、データベース（以下ＤＢ）３及び携帯端末機２、２、２、・・・を含んで構成される。合成装置１は、例えばサーバコンピュータが用いられる。以下では合成装置１をサーバコンピュータ１であるものとして説明する。携帯端末機２は例えば、携帯電話機、ＰＤＡ(Personal Digital Assistance)、表示部を備える可搬型オーディオプレーヤまたは可搬型ゲーム機等であり、一般のカラオケ店舗に設置されるモニタより小型の表示画面を備える可搬型の携帯端末機である。本実施の形態においては、携帯端末機２を携帯電話機２であるものとして説明する。

サーバコンピュータ１と携帯電話機２、２、２、・・・とはインターネット及び携帯電話網等の通信網Ｎを介して接続されている。ＤＢ３には複数の音声データ及び動画データが記憶されており、サーバコンピュータ１は、携帯電話機２からのリクエストに応じて選択された音声データ及び動画データを合成する処理を行う。合成処理された音声データを含む動画データはサーバコンピュータ１から携帯電話機２へ送信され、携帯電話機２での音声データを含む動画データの再生が行われる。

図２はサーバコンピュータ１のハードウェア構成を示すブロック図である。サーバコンピュータ１は、制御部としてのＣＰＵ(Central Processing Unit)１１、ＲＡＭ(Random Access Memory)１２、通信部１６及び記憶部１５を含んで構成される。ＣＰＵ１１は、バス１７を介してサーバコンピュータ１のハードウェア各部と接続されていて、それらを制御すると共に、記憶部１５に格納された制御プログラム１５Ｐに従って、種々のソフトウェア的機能を実行する。制御プログラムは、Ｃ言語等のプログラミング言語で記述されている。

通信部１６はファイアウォールとしての機能を果たすゲートウェイ等であり、携帯電話機２との間で必要な情報を送受信する。記憶部１５は例えばハードディスクで構成され、内部には上述した制御プログラム１５Ｐが記憶されている。ＤＢ３には複数の動画データを記憶する動画ＤＢ３１及び複数の音声データを記憶する音声ＤＢ３２が格納されている。ＣＰＵ１１は動画ＤＢ３１及び音声ＤＢ３２のフィールドのキーを関連付けたスキーマにおいてＳＱＬ(Structured Query Language)等を用いて対話することにより、必要な情報の記憶、検索等の処理を実行する。

図３は動画ＤＢ３１及び音声ＤＢ３２のレコードレイアウトを示す説明図である。動画ＤＢ３１はデータフィールド及び動画ＩＤフィールドを含んで構成される。データフィールドには複数の動画データが記憶されている。また動画ＩＤフィールドには動画データを特定するための固有の識別情報（以下、動画ＩＤという）が動画データに対応付けて記憶されている。例えば「動画データ１」に対応付けて動画ＩＤ「Ｖ１」が記憶されている。ここで記憶される動画データは例えば、Ａｄｏｂｅ社のＦｌａｓｈ（登録商標）により作成された動画データ、またはｉモーション（登録商標）に係る動画データ等である。以下ではＦｌａｓｈ（登録商標）を利用した際の例を説明する。

動画データは後述するように音声データを含む場合と音声データを含まない無音声のものの２種類が存在する。音声ＤＢ３２はデータフィールド及び音声ＩＤフィールドを含んで構成される。データフィールドには複数の音声データが記憶されている。また音声ＩＤフィールドには音声データを特定するための固有の識別情報（以下、音声ＩＤという）が音声データに対応付けて記憶されている。例えば「音声データ１」に対応付けて音声ＩＤ「Ｍ１」が記憶されている。音声データは例えば携帯電話機２で再生することが可能な、ｍｍｆまたはｍｌｄ等の音声データが用いられる。

図４は携帯電話機２のハードウェア構成を示すブロック図である。携帯電話機２は、制御部としてのＣＰＵ２１、ＲＡＭ２２、入力部２３、表示部２４、通信部２６、マイク２８、スピーカ２９及び記憶部２５を含んで構成される。ＣＰＵ２１は、バス２７を介して携帯電話機２のハードウェア各部と接続されていて、それらを制御すると共に、記憶部２５に格納された制御プログラム２５Ｐに従って、種々のソフトウェア的機能を実行する。

表示部２４は例えば液晶ディスプレイ等であり、入力部２３はプッシュボタン等により構成される。なお、タッチパネルのように表示部２４と入力部２３とを一体的に構成するようにしても良い。スピーカ２９は音声データ、通話データ、またはマイク２８から入力された音声に係る音声信号を増幅して出力する。マイク２８は外部から入力された音声信号を電気信号へ変換する。変換後の電気信号は図示しないＡ／Ｄ変換器によりデジタルデータへ変換されてＣＰＵ２１へ出力される。通信部２６は高周波送受信部及びアンテナ等を備え、音声データ、文字データ等を含む各種データの送受信を行う。

記憶部２５には制御プログラム２５Ｐ、ブラウザ２５１、及び再生アプリケーション２５２が記憶されている。ブラウザ２５１はＨＴＴＰ（Hyper Text Transfer Protocol）により通信部２６を介して送受信されるＨＴＭＬ（HyperText Markup Language）ファイルを解析して表示部２４に表示する。再生アプリケーション２５２はブラウザ２５１のプラグインソフトウェアであり、例えばＦｌａｓｈ（登録商標）プレーヤである。音声データが合成された動画データを、通信部２６を介して受信した場合、ＣＰＵ２１は合成された動画データをＲＡＭ２２に記憶する。

そして、ＣＰＵ２１は再生アプリケーション２５２を起動し、表示部２４にＲＡＭ２２に記憶した動画データに基づく動画を表示すると共に、スピーカ２９からＲＡＭ２２に記憶した音声データに基づく音声を出力する。次に、ユーザが携帯電話機２を用いて希望する動画データ及び音声データを選択する手順を説明する。

図５は音声データを選択する際のイメージを示す説明図である。携帯電話機２からサーバコンピュータ１へアクセスした場合、サーバコンピュータ１のＣＰＵ１１は図５に示す音声データの選択画面を記憶部１５から読み出して携帯電話機２へ送信する。携帯電話機２のＣＰＵ２１はブラウザ２５１に音声データの選択画面を表示する。複数の新曲の情報が表示されており、ユーザは入力部２３を操作することにより、再生を希望する一の音声データを選択する。例えば、曲名「Ａ１」については、対応する歌手「１Ａ」が表示され、さらに曲名「Ａ１」に対応する音声ＩＤ「Ｍ１」が表示される。

なお、ＤＢ３には音声ＩＤに対応付けて、曲名及び歌手等の情報が記憶されている。ブラウザ２５１の曲名にはハイパーリンク５１、５２、５３が設定されている。ハイパーリンク５１、５２、５３にはそれぞれの曲名に対応する音声ＩＤが記述されている。例えばハイパーリンク５１の一部には音声ＩＤ「Ｍ１」が記述されている。ユーザは入力部２３を操作し、一のハイパーリンク５１、ハイパーリンク５２、またはハイパーリンク５３のいずれかをクリックする。ＣＰＵ１１は入力部２３により選択されたハイパーリンク５１、５２、または５３に記述された音声ＩＤをサーバコンピュータ１へ通信部２６を介して送信する。本例では曲名「Ａ１」が選択され音声ＩＤ「Ｍ１」が送信されたものとして説明する。

図６は合成指示画面のイメージを示す説明図である。サーバコンピュータ１のＣＰＵ１１は音声ＩＤを受信した場合、図６に示す合成指示画面を記憶部１５から読み出し、携帯電話機２へ送信する。ブラウザ２５１にはユーザが選択した音声データの情報として、曲名「Ａ１」、歌手「１Ａ」及び音声ＩＤ「Ｍ１」が表示される。さらに、音声データをダウンロードするコマンドを送信するためのハイパーリンク５４、歌詞データをダウンロードするコマンドを送信するためのハイパーリンク５５、及び、選択した音声データと次に選択する動画データとを合成するためのコマンドを送信するためのハイパーリンク５６が表示される。ユーザは動画データとの合成を希望する場合、入力部２３を操作してハイパーリンク５６をクリックする。

ハイパーリンク５６がクリックされた場合、合成するためのコマンドがサーバコンピュータ１へ送信される。図７は動画データの選択画面のイメージを示す説明図である。ＤＢ３は、動画ＩＤに対応付けて、動画データの名称、その概要を示す動画データの情報、及び動画データの一フレームを抽出しＪＰＥＧ（Joint Photographic Experts Group）等の形式により静止画像データとしたイメージデータを記憶している。サーバコンピュータ１のＣＰＵ１１はＤＢ３から動画データの名称、動画データの情報、動画ＩＤ及び動画データのイメージ（サムネイル画像）７０を読み出し、携帯電話機２へ送信する。

携帯電話機２のブラウザ２５１には複数の動画データの情報が表示される。例えば、動画データの名称（以下、動画名という）として「動画１」、が表示され、動画データの内容を示す情報として「キャラクタＸＸの動画です。」が表示される。また動画ＩＤ「Ｍ１」が表示されるほか、動画ＩＤ「Ｖ１」に対応する「動画１」のイメージ（サムネイル画像）７０が表示される。なお、サムネイル画像はＪＰＥＧに代えてＧＩＦ（Graphics Interchange Format）等の動画像としても良い。ユーザは、音声データとの合成を希望する一の動画データを選択する。動画データを選択する場合、各動画データに割り当てられているハイパーリンク５７、５８、５９のいずれかを入力部２３から選択する。

ハイパーリンク５７には、動画ＩＤ「Ｖ１」の情報が記述されており、ハイパーリンク５８には、動画ＩＤ「Ｖ２」の情報が記述されており、ハイパーリンク５９には、動画ＩＤ「Ｖ３」の情報が記述されている。ＣＰＵ２１は入力部２３からハイパーリンク５７、５８、５９のいずれかが選択された場合、これを受け付け、受け付けたハイパーリンク５７、５８、５９に対応する動画ＩＤをサーバコンピュータ１へ送信する。本例では入力部２３からハイパーリンク５７がクリックされ、動画ＩＤ「Ｖ１」がサーバコンピュータ１へ送信されたものとして説明する。

図８は音声データに関連付けられるタグのフォーマットを示す説明図である。動画データ内に音声データが存在する場合、動画データ内には音声データに関連付けられるタグが記述される。音声データに関連付けられるタグは<Define Sound>・・・<Define Sound>及び<Start Sound>・・・<Start Sound>であり、これらのタグ内部には、さらに詳細を定義するためのタグが記述される。<Define Sound>・・・<Define Sound>は音声データの各種詳細及び音声データそのものを記憶するためのタグであり、その内部には、<Sound ID>・・・<Sound ID>、<Sound Format>・・・<Sound Format>、<Sound Rate>・・・<Sound Rate>、及び、<Sound Data>・・・<Sound Data>等が記述されている。タグ内の音声データを含む各種データはバイナリデータにより記述されている。

タグ<Sound ID>・・・<Sound ID>は音声データを特定するための固有の音声ＩＤを記述するための領域である。タグ<Sound Format>・・・<Sound Format>は、音声データのフォーマットを記述する領域である。例えば、音声データのフォーマットとして、ｍｍｆ、ｍｌｄ、ＭＰ３（MPEG 1 Audio Layer 3）、またはｗａｖ(ＷＡＶＥ)等の種類が記述されている。タグ<Sound Rate>・・・<Sound Rate>は、音声データのサンプリングレートを記述するための領域であり、例えば４４．１ｋＨｚ等の情報が記述されている。タグ<Sound Data>・・・<Sound Data>はバイナリデータである音声データそのものを記憶する領域である。図８に示すように<Sound Data>・・・<Sound Data>内には音声データが記憶されている。

一方、タグ<Start Sound>・・・<Start Sound>は、音声データと動画データとの同期に関する情報に関連付けられるタグ（同期情報タグ）であり、タグ<Sound ID>・・・<Sound ID>及び<Sound Style Information>・・・<Sound Style Information>等を含んで構成される。タグ<Sound ID>・・・<Sound ID>は音声データを特定するための固有の音声ＩＤを記述するための領域であり、タグ<Define Sound>・・・<Define Sound>内のタグ<Sound ID>・・・<Sound ID>内に記述された音声ＩＤと同一のものが記述される。

また、<Sound Style Information>・・・<Sound Style Information>内には音声データと動画データとの同期に関する情報が記述される。この情報は例えば、動画データの再生と同時に音声データの再生を開始するコマンド、音声データと動画データとを同時に再生し、音声データの再生中に動画データの再生が終了した場合、動画データを最初から再生するコマンド、及び、音声データと動画データとを同時に再生し、動画データの再生中に音声データの再生が終了した場合、音声データを最初から再生するコマンド等である。以下ではこれらのコマンドを同期データといい、本実施の形態においては音声データと動画データとを同時に再生し、音声データの再生中に動画データの再生が終了した場合、動画データを最初から再生するコマンドであるものとして説明する。なお、この基本となる同期データは予め記憶部１５に記憶されている。

動画ＤＢ３１に記憶された動画データは、音声データを含むものと、含まない無音声のものとが存在する。音声データを含む場合は図８に示したタグ<Define Sound>・・・<Define Sound>内に音声データ及びこれに関連する情報が記憶され、またタグ<Start Sound>・・・<Start Sound>内には同期データ及びこれに関連する情報が記憶される。一方、音声データを含まない無音声の動画データは、タグ<Define Sound>・・・<Define Sound>及びタグ<Start Sound>・・・<Start Sound>が存在しない。

図９は無音声の動画データに音声データを合成する際のイメージを示す説明図である。図９Ａは無音声の動画データのデータ構造を示し、図９Ｂは音声データを合成した後の動画データのデータ構造を示す説明図である。図９Ａに示すように、無音声の動画データにはタグ<Define Sound>・・・<Define Sound>及びタグ<Start Sound>・・・<Start Sound>が存在しない。任意の<タグ１>、<タグ２>及び<タグ３>の次に、動画データ及び動画データのフォーマット等を記述するタグ<Define Movie>・・・<Define Movie>が記述される。ＣＰＵ１１は図９Ａに示すデータ中のタグに、タグ<Define Sound>・・・<Define Sound>またはタグ<Start Sound>・・・<Start Sound>が存在するか否かを判断する。存在しない場合は、ユーザが選択した音声データを新たに記述する処理を行う。

ユーザが選択した音声データを合成する場合、ＣＰＵ１１は<タグ１>の前にタグ<Define Sound>・・・<Define Sound>、並びに、その内部のタグ<Sound ID>・・・<Sound ID>及びタグ<Sound Data>・・・<Sound Data>等を記述する。なお、タグ<Sound Format>等の記載は省略している。そして、ＣＰＵ１１は音声ＤＢ３２から選択された音声データ及び音声ＩＤを読み出し、タグ<Sound ID>・・・<Sound ID>内に読み出した音声ＩＤを記述し、タグ<Sound Data>・・・<Sound Data>内に読み出した音声データを記述する。

さらにＣＰＵ１１はタグ<Start Sound>・・・<Start Sound>、並びに、その内部のタグ<Sound ID>・・・<Sound ID>及びタグ<Sound Style Information>・・・<Sound Style Information>を記述する。ＣＰＵ１１はタグ<Sound ID>・・・<Sound ID>内に音声ＤＢ３２から読み出した音声ＩＤを記述する。また、タグ<Sound Style Information>・・・<Sound Style Information>内に記憶部１５から読み出した同期データを記述する。なお、この同期データは予め一つの種類に決めておけばよい。このようにして合成された音声データを含む合成データは記憶部１５に記憶され、適宜のタイミングで携帯電話機２へ送信される。

図１０は音声データを含む動画データの音声データを書き換える際のイメージを示す説明図である。図１０Ａは音声データを含む動画データのデータ構造を示し、図１０Ｂは音声データを書き換えて合成した後の動画データのデータ構造を示す説明図である。図１０Ａに示すように、動画データには予め音声データに関連付けられるタグ<Define Sound>・・・<Define Sound>及びタグ<Start Sound>・・・<Start Sound>が存在し、その内部には音声データ、同期データ及びこれらに関連する情報が記述されている。タグ<Define Sound>・・・<Define Sound>内には、タグ<Sound ID>・・・<Sound ID>及びタグ<Sound Data>・・・<Sound Data>等が記述されており、それぞれの内部には、元の動画データに予め付随する音声データに係る音声ＩＤ及び当該音声データが記述されている。

任意のタグ<タグ１>及び<タグ２>の次には同期に係るタグ<Start Sound>・・・<Start Sound>が記述されている。その内部には、タグ<Sound ID>・・・<Sound ID>及びタグ<Sound Style Information>・・・<Sound Style Information>が記述され、それぞれ元の動画データに付随する音声データの音声ＩＤ及び同期データが記述されている。任意の<タグ３>の次には動画データに係るタグ<Define Movie>・・・<Define Movie>が記述されその内部には元の動画データが記述されている。

ＣＰＵ１１はユーザが選択した動画データを動画ＤＢ３１から読み出し、図１０Ａに示すデータ中のタグに、タグ<Define Sound>・・・<Define Sound>またはタグ<Start Sound>・・・<Start Sound>が存在するか否かを判断する。存在する場合は、予め記述されている音声データを削除し、ユーザが選択した音声データに書き換える処理を行う。ＣＰＵ１１は選択された音声データ及び音声ＩＤを音声ＤＢ３２から読み出す。ＣＰＵ１１は、タグ<Define Sound>・・・<Define Sound>中のタグ<Sound ID>・・・<Sound ID>に予め記述された音声ＩＤを削除し、読み出した音声ＩＤを新たに記述する。同様に<Sound Data>・・・<Sound Data>内に予め記述されている音声データを削除し、新たに読み出した音声データを記述する。なお、音声データのフォーマット及びサンプリングレート等の記述は書き換え前後で同一の場合は書き換える必要がなく、相違する場合に適宜書き換えるようにすればよい。

さらに、ＣＰＵ１１はタグ<Start Sound>・・・<Start Sound>中のタグ<Sound ID>・・・<Sound ID>内に予め記述された音声ＩＤを削除し、読み出した音声ＩＤを記述する。ＣＰＵ１１は<Start Sound>・・・<Start Sound>中の<Sound Style Information>・・・<Sound Style Information>内に予め記述された同期データを削除し、記憶部１５に予め記憶した同期データを新たに記述する。このようにして新たな音声データに書き換えられた音声データを含む動画データは記憶部１５に記憶され、適宜のタイミングで携帯電話機２へ送信される。

以上のハードウェア構成において一連の処理手順を、フローチャートを用いて説明する。図１１及び図１２は動画データ及び音声データの選択及び送信処理の手順を示すフローチャートである。ユーザはサービスを利用するために入力部２３を通じてユーザＩＤ及びパスワードを入力する。携帯電話機２のＣＰＵ２１は入力されたユーザＩＤ及びパスワードを受け付け、受け付けたユーザＩＤ及びパスワードを、通信部２６を介してサーバコンピュータ１へ送信する（ステップＳ１１１）。なお、ユーザＩＤ及びパスワードを入力させる代わりに、携帯電話機２内部に格納されたＩＣカード内に記憶された固有の識別番号等を用いるようにしても良い。

サーバコンピュータ１は送信されたユーザＩＤ及びパスワードを、通信部１６を介して受信する。ＣＰＵ１１は受信したユーザＩＤ及びパスワードが記憶部１５に予め記憶したユーザＩＤ及びパスワードと一致するか否かを判断する（ステップＳ１１２）。ＣＰＵ１１は一致しないと判断した場合（ステップＳ１１２でＮＯ）、不正なアクセスであるとして処理を終了する。一方、一致すると判断した場合（ステップＳ１１２でＹＥＳ）、ＤＢ３から複数の音声データに対応する曲名、歌手及び音声ＩＤを読み出す（ステップＳ１１３）。そしてこれらの情報を書き込んだ音声データに係る選択画面を生成し、携帯電話機２へ送信する（ステップＳ１１４）。

携帯電話機２のＣＰＵ２１は選択画面を受信し、図５に示す如くそれぞれの曲名、歌手及び音声ＩＤをブラウザ２５１に表示する（ステップＳ１１５）。ユーザは合成を希望する一の音声データを、入力部２３を通じて選択する。ＣＰＵ１１は入力部２３から入力されたハイパーリンク５１、５２または５３に対応する一の曲名を受け付け（ステップＳ１１６）、ハイパーリンク５１、５２または５３に記述された対応する音声ＩＤをサーバコンピュータ１へ送信する（ステップＳ１１７）。

サーバコンピュータ１のＣＰＵ１１は送信された音声ＩＤを受信し（ステップＳ１１８）、記憶部１５に記憶する（ステップＳ１１９）。ＣＰＵ１１は選択された音声ＩＤに対応する曲名及び歌手、並びに、動画データと対応する音声データとを合成させる合成指示等が記述された合成指示画面を生成し、携帯電話機２へ送信する（ステップＳ１２１）。携帯電話機２のＣＰＵ２１は送信された合成指示画面を受信しブラウザ２５１に図６の如く合成指示画面を表示する（ステップＳ１２２）。

ユーザは合成を希望する場合、入力部２３を通じて合成指示のコマンドが記述されたハイパーリンク５６をクリックする。ＣＰＵ２１は入力部２３から入力されたハイパーリンク５６に係る操作信号に基づく合成指示を受け付け（ステップＳ１２３）、受け付けた合成指示をサーバコンピュータ１へ送信する（ステップＳ１２４）。サーバコンピュータ１のＣＰＵ１１は送信された合成指示を受信する（ステップＳ１２５）。ＣＰＵ１１はＤＢ３から複数の動画名、動画の情報、動画ＩＤ及びイメージを読み出し（ステップＳ１２６）、これらをＨＴＭＬ形式で記述した動画データの選択画面を生成する。ＣＰＵ１１は生成した動画データの選択画面を携帯電話機２へ送信する（ステップＳ１２７）。

携帯電話機２のＣＰＵ２１は動画データの選択画面を受信し、図７に示す如くそれぞれの動画名、動画の情報、動画ＩＤ及びイメージをブラウザ２５１に表示する（ステップＳ１２８）。ユーザは合成を希望する一の動画データを、入力部２３を通じて選択する。ＣＰＵ２１は入力部２３から入力されたハイパーリンク５７、５８または５９に対応する一の動画名を受け付け（ステップＳ１２９）、ハイパーリンク５７、５８または５９に記述された対応する動画ＩＤをサーバコンピュータ１へ送信する（ステップＳ１２１０）。

サーバコンピュータ１のＣＰＵ１１は送信された動画ＩＤを受信し（ステップＳ１２１１）、記憶部１５に動画ＩＤを記憶する。ＣＰＵ１１はステップＳ１１９で記憶した音声ＩＤ及び動画ＩＤを読み出し、対応する音声データ及び動画データを音声ＤＢ３２及び動画ＤＢ３１からそれぞれ読み出す（ステップＳ１２１２）。ＣＰＵ１１は読み出した音声データと動画データとを合成する処理を行う（ステップＳ１２１３）。なお合成処理の詳細は後述する。ＣＰＵ１１は合成した音声データを含む動画データを、通信部１６を介して携帯電話機２へ送信する（ステップＳ１２１４）。携帯電話機２の通信部２６は送信された音声データを含む動画データを受信し、ＣＰＵ２１は受信した音声データを含む動画データを記憶部２５に記憶する。なお、ステップＳ１２１３において合成した音声データを含む動画データは記憶部１５に所定期間内記憶しておいても良い。

ＣＰＵ２１は、再生アプリケーション２５２を起動し、音声データ及び動画データを再生する（ステップＳ１２１５）。具体的には、ＣＰＵ１１はタグ<Define Sound>・・・<Define Sound>内のタグ<Sound Data>・・・<Sound Data>から音声データを読み出しＲＡＭ２２上に展開する。またＣＰＵ１１はタグ<Define Movie>・・・<Define Movie>から動画データを読み出しＲＡＭ２２上に展開する。そして、タグ<Start Sound>・・・<Start Sound>内の<Sound Style Information>・・・<Sound Style Information>に記述された同期データを読み出し、この同期データに従って、ＲＡＭ２２上に展開した音声データ及び動画データを再生する。動画データは表示部２４に表示され、音声データはスピーカ２９から出力される。

図１３は合成処理の詳細な手順を示すフローチャートである。ＣＰＵ１１はステップＳ１２１２で読み出した動画データ内に音声データに関連付けられるタグが存在するか否かを判断する（ステップＳ１３１）。ＣＰＵ１１は音声データに関連付けられるタグが存在しないと判断した場合（ステップＳ１３１でＮＯ）、無音声の動画データであるとして、音声データに関連付けられるタグを記述する（ステップＳ１３２）。そしてＣＰＵ１１はステップＳ１２１２で読み出した音声データを、音声データに関連付けられるタグ内に記述する（ステップＳ１３３）。

また、ＣＰＵ１１は音声データに関連付けられるタグ内にステップＳ１２１２で読み出した音声データに対応する音声ＩＤを記述する（ステップＳ１３４）。具体的には上述したタグ<Define Sound>・・・<Define Sound>内の、タグ<Sound ID>・・・<Sound ID>に音声ＩＤを、タグ<Sound Data>・・・<Sound Data>内に音声データを記述する。ＣＰＵ１１はさらに同期情報タグを記述し（ステップＳ１３５）、同期情報タグ内に同期データを記述する（ステップＳ１３６）。ＣＰＵ１１は同期情報タグ内に音声ＩＤを記述する（ステップＳ１３７）。具体的には、同期情報タグであるタグ<Start Sound>・・・<Start Sound>中のタグ<Sound ID>・・・<Sound ID>内に音声ＩＤを記述し、タグ<Sound Style Information>・・・<Sound Style Information>内に同期データを記述する。

一方、ステップＳ１３１においてＣＰＵ１１は、動画データ内に音声データに関連付けられるタグが存在すると判断した場合（ステップＳ１３１でＹＥＳ）、音声データに関連付けられるタグ内に記述されている音声データを削除する（ステップＳ１３８）。同様に、ＣＰＵ１１は音声データに関連付けられるタグ内に記述されている音声ＩＤを削除する（ステップＳ１３９）。そしてＣＰＵ１１は音声データに関連付けられるタグ内にステップＳ１２１２で読み出した音声データを記述し（ステップＳ１３１０）、さらに当該音声データに対応する音声ＩＤを記述する（ステップＳ１３１１）。具体的には、ＣＰＵ１１は、タグ<Define Sound>・・・<Define Sound>中のタグ<Sound ID>・・・<Sound ID>に予め記述された音声ＩＤを削除し、読み出した音声ＩＤを新たに記述する。またタグ<Sound Data>・・・<Sound Data>内に予め記述されている音声データを削除し、新たに読み出した音声データを記述する。

ＣＰＵ１１は同期情報タグ内に予め記述された同期データを削除し、記憶部１５から読み出した新たな同期データを記述する（ステップＳ１３１２）。最後に、ＣＰＵ１１は同期情報タグ内に予め記述された音声ＩＤを削除し、読み出した音声データに対応する音声ＩＤを同期情報タグ内に記述する（ステップＳ１３１３）。具体的には、同期情報タグであるタグ<Start Sound>・・・<Start Sound>中のタグ<Sound ID>・・・<Sound ID>内に記述された音声ＩＤを削除し、新たな音声ＩＤを記述し、タグ<Sound Style Information>・・・<Sound Style Information>内に記述された同期データを削除し、読み出した新たな同期データを記述する。

実施の形態２
実施の形態２は同一組み合わせに係るリクエストが同一携帯電話機２からあった場合に、所定期間内課金を行わない形態に関する。図１４はサーバコンピュータ１のハードウェア構成を示すブロック図である。実施の形態１の構成に加えて、履歴ＤＢ１５１及び課金ＤＢ１５２が新たに記憶部１５に記憶されている。また時計部１８は日時情報をＣＰＵ１１へ出力する。

図１５は履歴ＤＢ１５１のレコードレイアウトを示す説明図である。履歴ＤＢ１５１は特定情報フィールド、音声ＩＤフィールド、動画ＩＤフィールド及び受信日時フィールドを含んで構成される。特定情報は携帯電話機２を特定するための固有の識別情報であり、例えば、携帯電話機２内部の図示しないＩＣカードに記憶された固有の番号、電子メールアドレス、電話番号またはＭＡＣ（Media Access Control）アドレス等が利用される。この特定情報に対応付けてユーザが合成を希望した音声ＩＤ、動画ＩＤ及び合成のリクエストを受信した受信日時を記憶している。

音声ＩＤフィールドには、ユーザが選択した音声データに係る音声ＩＤが特定情報に対応付けて記憶され、同様に、動画ＩＤフィールドには、ユーザが選択した動画データに係る動画ＩＤが特定情報に対応付けて記憶されている。ＣＰＵ１１は、ステップＳ１１８において特定情報に対応付けて送信される音声ＩＤを履歴ＤＢ１５１に記憶し、ステップＳ１２１１において特定情報に対応付けて送信される動画ＩＤを履歴ＤＢ１５１に、特定情報に対応付けて記憶する。受信日時フィールドは合成処理のリクエストをＣＰＵ１１が受け付けた日時の情報を記憶しており、時計部１８からの出力に基づき日時を特定情報、音声ＩＤ及び動画ＩＤに対応付けて記憶する。具体的には、音声ＩＤ及び動画ＩＤ双方を受信したステップＳ１２１１の時点、または、ステップＳ１２１３にて合成処理が完了した日時でも良い。

図１５に示すように、例えば特定情報「００１」の携帯電話機２からは、２００７年１月１０日１８時２０分１５秒に音声ＩＤ「Ｍ１」及び動画ＩＤ「Ｖ１」の合成処理のリクエストがあったことが理解できる。またその４日後の２００７年１月１４日１時２２分５３秒に、特定情報「００１」の携帯電話機２から、音声ＩＤ「Ｍ２」及び動画ＩＤ「Ｖ１」の合成処理のリクエストがあったことが記憶されている。この場合、４日前とは音声ＩＤが相違するので、同じ組み合わせのリクエストではない。さらにその翌日２００７年１月１５日１１時２２分１５秒に、特定情報「００１」の携帯電話機２から、再び音声ＩＤ「Ｍ１」及び動画ＩＤ「Ｖ１」の合成処理のリクエストがあったことが記憶されている。これは５日前のリクエストと同一の組み合わせである。

図１６は課金ＤＢ１５２のレコードレイアウトを示す説明図である。課金ＤＢ１５２は特定情報フィールド及び利用回数フィールドを含んで構成される。利用回数フィールドには、特定情報に対応付けて、音声データ及び動画データの合成処理のリクエストがあった回数を記憶している。ＣＰＵ１１は履歴ＤＢ１５１に新たな履歴が記憶されるたびに、特定情報に対応付けられる課金ＤＢ１５２の利用回数をインクリメントする。ただし、ＣＰＵ１１は所定期間内（例えば１週間内）に、同一の携帯電話機２から同一の音声ＩＤ及び動画ＩＤの合成処理のリクエストがあった場合は、インクリメントを行わない。

具体的にはＣＰＵ１１は履歴ＤＢ１５１に新たなレコードを記憶した場合、特定情報、音声ＩＤ及び動画ＩＤがアンド条件で一致するレコードが所定期間内に存在するか否かを判断し、存在しない場合は、特定情報に対応する課金ＤＢ１５２の利用回数をインクリメントする処理を行い、存在する場合は当該処理をスキップする。ＣＰＵ１１は所定期間（例えば１ヶ月）経過後、利用回数に記憶部１５に記憶した単価（例えば１００円）を乗じて、図示しない金融機関のサーバコンピュータへ通信部１６を介して送信する。例えば、２００７年１月１０日１８時２０分１５秒の音声ＩＤ「Ｍ１」及び動画ＩＤ「Ｖ１」の合成処理リクエストの後、２００７年１月１４日１時２２分５３秒に、特定情報「００１」の携帯電話機２から、音声ＩＤ「Ｍ２」及び動画ＩＤ「Ｖ１」の合成処理のリクエストがあった場合は、同一リクエストではないので利用回数が計数される。一方、２００７年１月１５日１１時２２分１５秒に、特定情報「００１」の携帯電話機２から、再び音声ＩＤ「Ｍ１」及び動画ＩＤ「Ｖ１」の合成処理のリクエストがあった場合は、５日前と同一携帯端末機２からの同一リクエストであるので、利用回数が計数されない。

図１７は履歴記憶処理及び計数処理の手順を示すフローチャートである。携帯電話機２のＣＰＵ２１はサーバコンピュータ１へアクセスする際、特定情報を送信する（ステップＳ１７１）。ＣＰＵ２１は実施の形態１で述べたとおり、音声ＩＤをサーバコンピュータ１へ送信し（ステップＳ１７２）、また動画ＩＤをサーバコンピュータ１へ送信する（ステップＳ１７３）。サーバコンピュータ１のＣＰＵ１１は、送信された特定情報、音声ＩＤ及び動画ＩＤを受信する（ステップＳ１７４）。ＣＰＵ１１は新たなレコードとして、特定情報に対応付けて音声ＩＤ、動画ＩＤ及び受信日時を、時計部１８から出力される日時情報を参照して、履歴ＤＢ１５１に記憶する（ステップＳ１７５）。

ＣＰＵ１１は履歴ＤＢ１５１内に記憶されている所定期間内の特定情報、音声ＩＤ及び動画ＩＤのレコードを読み出す（ステップＳ１７６）。ＣＰＵ１１は読み出した所定期間内の特定情報、音声ＩＤ及び動画ＩＤのレコード内に、ステップＳ１７５で記憶した特定情報、音声ＩＤ及び動画ＩＤの全てが一致するレコードが存在するか否かを判断する（ステップＳ１７７）。ＣＰＵ１１は一致するレコードが存在しないと判断した場合（ステップＳ１７７でＮＯ）、特定情報に対応する課金ＤＢ１５２の利用回数をインクリメントする（ステップＳ１７８）。一方、一致するレコードが存在する場合（ステップＳ１７７でＹＥＳ）、ステップＳ１７８の処理をスキップする。

実施の形態３
図１８は実施の形態３に係るサーバコンピュータ１の構成を示すブロック図である。実施の形態３に係るサーバコンピュータ１を動作させるためのコンピュータプログラムは、本実施の形態３のように、ＣＤ−ＲＯＭ、ＭＯ、またはＤＶＤ−ＲＯＭ等の可搬型記録媒体１Ａで提供することも可能である。さらに、コンピュータプログラムを、通信網Ｎを介して図示しないサーバコンピュータからダウンロードすることも可能である。以下に、その内容を説明する。

図１８に示すサーバコンピュータ１の図示しないリーダ／ライタに、音声ＩＤ及び動画ＩＤを取り込ませ、タグが存在するかを判断させ、音声データを書き込ませ、音声データを書き換えさせるコンピュータプログラムが記録された可搬型記録媒体１Ａ（ＣＤ−ＲＯＭ、ＭＯ又はＤＶＤ−ＲＯＭ等）を、挿入して記憶部１５の制御プログラム１５Ｐ内にこのプログラムをインストールする。または、かかるプログラムを、通信部１６を介して外部の図示しないサーバコンピュータからダウンロードし、記憶部１５にインストールするようにしても良い。かかるプログラムはＲＡＭ１２にロードして実行される。これにより、上述のような本発明のサーバコンピュータ１として機能する。なお、当該プログラムをパーソナルコンピュータ等にインストールし、パーソナルコンピュータにて、実施の形態１及び２で述べた音声データと動画データとの合成処理を実行させるようにしても良い。

本実施の形態３は以上の如き構成としてあり、その他の構成及び作用は実施の形態１及び２と同様であるので、対応する部分には同一の参照番号を付してその詳細な説明を省略する。

本発明に係る合成システムの概要を示す模式図である。サーバコンピュータのハードウェア構成を示すブロック図である。動画ＤＢ及び音声ＤＢのレコードレイアウトを示す説明図である。携帯電話機のハードウェア構成を示すブロック図である。音声データを選択する際のイメージを示す説明図である。合成指示画面のイメージを示す説明図である。動画データの選択画面のイメージを示す説明図である。音声データに関連付けられるタグのフォーマットを示す説明図である。無音声の動画データに音声データを合成する際のイメージを示す説明図である。音声データを含む動画データの音声データを書き換える際のイメージを示す説明図である。動画データ及び音声データの選択及び送信処理の手順を示すフローチャートである。動画データ及び音声データの選択及び送信処理の手順を示すフローチャートである。合成処理の詳細な手順を示すフローチャートである。サーバコンピュータのハードウェア構成を示すブロック図である。履歴ＤＢのレコードレイアウトを示す説明図である。課金ＤＢのレコードレイアウトを示す説明図である。履歴記憶処理及び計数処理の手順を示すフローチャートである。実施の形態３に係るサーバコンピュータの構成を示すブロック図である。

符号の説明

１サーバコンピュータ
１Ａ可搬型記録媒体
２携帯電話機
１１ＣＰＵ（制御部）
１５記憶部
１５Ｐ制御プログラム
１６通信部
１８時計部
２１ＣＰＵ（制御部）
２３入力部
２４表示部
２５記憶部
２５Ｐ制御プログラム
２５１ブラウザ
２５２再生アプリケーション
２６通信部
２８マイク
２９スピーカ
３ＤＢ
３１動画ＤＢ
３２音声ＤＢ
１５１履歴ＤＢ
１５２課金ＤＢ
Ｎ通信網

Claims

音声データ及び動画データを合成する合成装置において、
複数の音声データの識別情報から選択された音声データの識別情報を受け付ける音声受け付け手段と、
複数の動画データの識別情報から選択された動画データの識別情報を受け付ける動画受け付け手段と、
該動画受け付け手段により受け付けた識別情報に係る動画データ内に音声データに関連付けられるタグが存在するか否かを判断する判断手段と、
該判断手段によりタグが存在しないと判断した場合に、該タグを前記動画データ内に書き込み、該タグに関連付けて前記音声受け付け手段により受け付けた識別情報に係る音声データを書き込む書き込み手段と、
前記判断手段によりタグが存在すると判断した場合に、該タグ内に記述された音声データを削除し、該タグに関連付けて前記音声受け付け手段により受け付けた識別情報に係る音声データを書き込む書き換え手段と
を備えることを特徴とする合成装置。
前記判断手段によりタグが存在しないと判断した場合に、前記書き込み手段により前記タグ内に書き込む音声データと前記動画データとの同期に関する情報及び該同期に関する情報に関連付けられる同期情報タグを、前記動画データ内に書き込む手段
をさらに備えることを特徴とする請求項１に記載の合成装置。
前記書き込み手段または前記書き換え手段により音声データが書き込まれた動画データを外部へ出力する手段
を備えることを特徴とする請求項１または２に記載の合成装置。
携帯端末機に通信網を介して接続される合成装置により音声データ及び動画データを合成する合成システムにおいて、
前記携帯端末機は、
複数の音声データの識別情報から選択された音声データの識別情報を受け付ける音声受け付け手段と、
複数の動画データの識別情報から選択された動画データの識別情報を受け付ける動画受け付け手段と、
前記音声受け付け手段により受け付けた音声データの識別情報及び前記動画受け付け手段により受け付けた動画データの識別情報を前記合成装置へ送信する手段とを備え、
前記合成装置は、
前記携帯端末機から送信された音声データの識別情報及び動画データの識別情報を受信する受信手段と、
該受信手段により受信した識別情報に係る動画データ内に音声データに関連付けられるタグが存在するか否かを判断する判断手段と、
該判断手段によりタグが存在しないと判断した場合に、該タグを前記動画データ内に書き込み、該タグに関連付けて前記受信手段により受信した識別情報に係る音声データを書き込む書き込み手段と、
前記判断手段によりタグが存在すると判断した場合に、該タグ内に記述された音声データを削除し、該タグに関連付けて前記受信手段により受信した識別情報に係る音声データを書き込む書き換え手段と、
前記書き込み手段または前記書き換え手段により音声データが書き込まれた動画データを前記携帯端末機へ送信する手段と
を備えることを特徴とする合成システム。
前記合成装置は、
前記受信手段により受信した音声データの識別情報及び動画データの識別情報を、携帯端末機を特定するための特定情報に対応付けて記憶部に記憶する手段と、
前記受信手段により音声データの識別情報及び動画データの識別情報を受信した場合に、利用回数を計数する計数手段と、
該計数手段により計数した回数を携帯端末機の特定情報に対応付けて記憶するデータベースと
を備えることを特徴とする請求項４に記載の合成システム。
前記合成装置は、
前記受信手段により、携帯端末機から音声データの識別情報及び動画データの識別情報を受信した場合に、前記記憶部に前記携帯端末機の特定情報、前記音声データの識別情報及び動画データの識別情報と一致する情報が記憶されているか否かを判断する記憶判断手段を備え、
前記計数手段は、
該記憶判断手段により一致する情報が記憶されていると判断した場合は、利用回数を計数しないよう構成してある
ことを特徴とする請求項５に記載の合成システム。
携帯端末機に通信網を介して接続される合成装置により動画データ及び音声データを合成する合成方法において、
複数の音声データの識別情報から選択された音声データの識別情報を、前記携帯端末機の入力部から受け付ける音声受け付けステップと、
複数の動画データの識別情報から選択された動画データの識別情報を、前記携帯端末機の入力部から受け付ける動画受け付けステップと、
前記音声受け付けステップにより受け付けた音声データの識別情報及び前記動画受け付けステップにより受け付けた動画データの識別情報を前記携帯端末機から前記合成装置へ送信するステップと、
前記携帯端末機から送信された音声データの識別情報及び動画データの識別情報を前記合成装置により受信する受信ステップと、
該受信ステップにより受信した識別情報に係る動画データ内に音声データに関連付けられるタグが存在するか否かを前記合成装置の制御部により判断する判断ステップと、
該判断ステップによりタグが存在しないと判断した場合に前記制御部により、該タグを前記動画データ内に書き込み、該タグに関連付けて前記受信ステップにより受信した識別情報に係る音声データを書き込む書き込みステップと、
前記判断ステップによりタグが存在すると判断した場合に前記制御部により、該タグ内に記述された音声データを削除し、該タグに関連付けて前記受信ステップにより受信した識別情報に係る音声データを書き込む書き換えステップと、
前記書き込みステップまたは前記書き換えステップにより音声データが書き込まれた動画データを前記合成装置から前記携帯端末機へ送信するステップと
を備えることを特徴とする合成方法。
音声データ及び動画データをコンピュータに合成させるためのプログラムにおいて、
コンピュータに、
複数の音声データの識別情報から選択された音声データの識別情報及び複数の動画データの識別情報から選択された動画データの識別情報を取り込む取り込みステップと、
該取り込みステップにより取り込んだ識別情報に係る動画データ内に音声データに関連付けられるタグが存在するか否かをコンピュータの制御部により判断する判断ステップと、
該判断ステップによりタグが存在しないと判断した場合に前記制御部により、該タグを前記動画データ内に書き込み、該タグに関連付けて前記取り込みステップにより取り込んだ識別情報に係る音声データを書き込む書き込みステップと、
前記判断ステップによりタグが存在すると判断した場合に前記制御部により、該タグ内に記述された音声データを削除し、該タグに関連付けて前記取り込みステップにより取り込んだ識別情報に係る音声データを書き込む書き換えステップと
を実行させるためのプログラム。