JP2004062769A - コンテンツ出力装置 - Google Patents
コンテンツ出力装置 Download PDFInfo
- Publication number
- JP2004062769A JP2004062769A JP2002223411A JP2002223411A JP2004062769A JP 2004062769 A JP2004062769 A JP 2004062769A JP 2002223411 A JP2002223411 A JP 2002223411A JP 2002223411 A JP2002223411 A JP 2002223411A JP 2004062769 A JP2004062769 A JP 2004062769A
- Authority
- JP
- Japan
- Prior art keywords
- content
- data
- content data
- output
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】状況に応じて適切な時間長でコンテンツを出力することができるようにする。
【解決手段】ユーザ1がリクエスト3で音楽配信サーバ2にリクエスト曲20の再生を要求すると、添付するメール4やフォーム5に記載される感想・エピソード9を反映して台詞16が合成される。台詞合成処理18では、楽曲データ11に対応する前奏時間等を目標時間として、発声時間が近い台詞16を台詞DB17から選択する。台詞16には、変数部分も設けられ、感想・エピソード9を反映させることができる。合成された台詞16は、音声合成処理14で音声化され、ディスクジョッキーやナレーションなどが台詞音声データ12として付加された楽曲データ11が配信され、ユーザ1の音楽プレイヤから再生される。
【選択図】 図1
【解決手段】ユーザ1がリクエスト3で音楽配信サーバ2にリクエスト曲20の再生を要求すると、添付するメール4やフォーム5に記載される感想・エピソード9を反映して台詞16が合成される。台詞合成処理18では、楽曲データ11に対応する前奏時間等を目標時間として、発声時間が近い台詞16を台詞DB17から選択する。台詞16には、変数部分も設けられ、感想・エピソード9を反映させることができる。合成された台詞16は、音声合成処理14で音声化され、ディスクジョッキーやナレーションなどが台詞音声データ12として付加された楽曲データ11が配信され、ユーザ1の音楽プレイヤから再生される。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、予め記憶されている言語情報などのコンテンツを、状況に合わせて出力するコンテンツ出力装置に関する。
【0002】
【従来の技術】
従来から、たとえば高速道路の情報案内放送などに、コンピュータの合成音声で各種案内を行うシステムが用いられている。これらのシステムでは、必要な情報のみを繰返して出力するだけであり、一方通行で無味乾燥な出力内容となっている。
【0003】
ラジオやテレビジョンの放送も、情報の一方通行であることに変わりはない。特に、音楽番組で記録媒体に記録されている音楽を再生するだけでは、再生する音楽の選択と、その音楽自体との魅力で聴取者を獲得しなければならなくなる。そこで、単に記録媒体に記録されている音楽を再生するだけの放送番組では、聴取の雰囲気を盛上げたり、付加価値を高めたりするために、ディスクジョッキー(以下、「DJ」と略称する)やナレーションなどを組合わせる手法が発達している。ディスクジョッキーやナレーションは、発生者が種々の情報を音声で提供しながら、再生する音楽や広告(CM)などの間を調整し、パーソナリティや話題で視聴者を引付けることができる。ただし、ラジオやテレビジョンの放送は、予め決定されている時間スケジュールに従って行われ、聴取者は基本的に受動的である。放送する音楽などを選択するために、聴取者からのリクエストを利用するような工夫はあっても充分ではない。
【0004】
近年、大容量の記録媒体の利用や、インターネットなどのデータ通信の利用で、音楽情報なども、必要な情報や希望する情報をいつでも選択して再生することができる環境が整うようになってきている。しかしながら、単に、音楽情報などを集めて再生するだけでは、無味乾燥な状態から逃れることはできない。このような状態は、DJやナレーションが加われば、改善することができると期待されるけれども、一般に個々の視聴者に合わせて生身のDJなどを用意することはできない。そこで、コンピュータの音声合成機能や、録音音声再生機能を利用して、DJやナレーションを追加することが考えられる。
【0005】
従来、コンピュータの合成音声や録音音声再生でDJやナレーションの台詞を読み上げるシステムでは、あらかじめデータベース(以下、「DB」と略称することもある)に用意してある台詞を、「(適切なシーンで適切な台詞を喋るための)台詞を喋る条件」をもとに選択し、単語置換や台詞の接続などによって加工して再生する。しかし、音楽再生に合わせて前奏の部分でDJを行う場合などでは、台詞を喋る長さが曲によって異なるため、台詞が長すぎてDJが音楽のボーカルにかぶってしまったり、短すぎてDJの終わりとボーカルの開始との間があいてしまったりすることとなる。
【0006】
特開2001−210065号公報には、MD(Mini Disk )などの記録媒体に記録されている音楽データを再生する音楽再生装置に音声合成出力機能を備え、TOC(Table Of Contents )やUTOC(User’s Table Of Contents)などに記録されている曲番号、曲名等の曲管理データを表示以外の手段でユーザに知らせる先行技術が開示されている。この先行技術では、記録媒体に記録されている曲番号や曲名等をそのまま音声合成出力することとしており、台詞の長さ調節や適切な台詞の選択といった動作は行っていない。
【0007】
【発明が解決しようとする課題】
特開2001−210065号公報に開示されているような音声合成出力機能を備える装置でも、音声合成出力する情報が単に曲番号や曲名等のみでは、放送番組で行われているDJなどとの差は大きく、雰囲気の盛上がりに欠けてしまう。
【0008】
前述のように、音楽再生に合わせて前奏の部分でDJなどを行うようにすれば、音声合成や録音音声再生でも、放送などで行われているDJに近づけることができる。ただし、台詞の時間を調整する必要がある。台詞を喋る時間を適切な長さに調整したい場合、音声規則合成方式の場合は読み上げスピード、録音音声再生方式の場合は再生スピードを速くしたり遅くしたりして調節することが考えられる。しかしこれだけでは、たとえば、通常に喋ると30秒かかる台詞を5秒で再生すると、不自然なほどに速いスピードで喋ってしまう。このように、台詞を決定した後の大幅な時間調整は困難である。
【0009】
本発明の目的は、状況に応じて適切な時間長でコンテンツを出力することができるコンテンツ出力装置を提供することである。
【0010】
【課題を解決するための手段】
本発明は、コンテンツデータが複数記憶されているコンテンツデータベースから、選択手段によって所望のコンテンツデータを選択し、選択されたコンテンツデータを出力手段によって出力するコンテンツ出力装置において、
出力するコンテンツデータの選択基準として、目標時間を指定する指定手段をさらに備え、
コンテンツデータベースには、各コンテンツデータが出力に必要な出力時間長とともに記憶されており、
選択手段は、コンテンツデータベースを検索して、各コンテンツデータの出力時間長と指定手段によって指定される目標時間とを比較し、比較結果が予め定める条件を満たすコンテンツデータを選択することを特徴とするコンテンツ出力装置である。
【0011】
本発明に従えば、コンテンツ出力装置は、コンテンツデータが複数記憶されているコンテンツデータベースから、選択手段によって所望のコンテンツデータを選択し、選択されたコンテンツデータを出力手段によって出力するための選択基準として、出力するコンテンツデータの目標時間を指定する指定手段をさらに備える。指定手段は、たとえば楽曲データの前奏部分をデフォルトとして指定し、指定の変更を可能とする。コンテンツデータベースには、各コンテンツデータが出力に必要な出力時間長とともに記憶されており、選択手段は、コンテンツデータベースを検索して、各コンテンツデータの出力時間長と指定手段によって指定される目標時間とを比較し、比較結果が予め定める条件を満たすコンテンツデータを選択するので、出力されるコンテンツデータの出力時間長は予め定める条件を満たし、状況に応じて適切な時間長でコンテンツデータを出力することができる。
【0012】
また本発明で、前記選択手段は、前記コンテンツデータを複数組合わせるときの前記出力時間長の合計値と前記目標時間との比較結果に基づいて、複数のコンテンツデータを選択し、
前記出力手段は、選択手段によって選択される複数のコンテンツデータを連続して出力することを特徴とする。
【0013】
本発明に従えば、複数のコンテンツデータを選択するときに、複数のコンテンツデータの出力時間長の合計値が指定手段によって指定される目標時間に適合するようにするので、目標時間に合わせて選択されたコンテンツデータを連続して出力することができる。
【0014】
また本発明で、前記コンテンツデータベースに記憶されているコンテンツデータには、他のコンテンツデータの挿入を指示するタグデータが含まれており、
前記選択手段は、該タグデータに従って組み合わされるコンテンツデータの前記出力時間長の合計値と前記目標時間との比較結果に基づいて、前記複数のコンテンツデータを選択することを特徴とする。
【0015】
本発明に従えば、タグデータを含むコンテンツデータは、タグデータを変数として、タグデータの部分に種々の情報を追加し、全体として多様な情報を表現することができる。
【0016】
また本発明で、前記タグデータは、状況に応じて値が変化する変数を指定するデータであり、
前記選択手段は、該タグデータによって指定される変数の現在の値に従って組み合わされる複数のコンテンツデータの出力時間長の和と前記目標時間との比較結果に基づいて、複数のコンテンツデータを選択することを特徴とする。
【0017】
本発明に従えば、コンテンツデータに含まれるタグデータは、状況に応じて値が変化する変数を指定するデータであるので、状況の変化を反映してコンテンツデータを、出力時間が適切になるように選択することができる。
【0018】
また本発明で、前記コンテンツデータベースに記憶されているコンテンツデータには、状況に応じて値が変化する変数の値を指定する採用条件データが含まれており、
前記選択手段は、該採用条件データと指定される変数の現在の値との比較結果、およびコンテンツデータの前記出力時間長と前記目標時間との比較結果に基づいて、コンテンツデータを選択することを特徴とする。
【0019】
本発明に従えば、採用条件を満たすコンテンツデータを、目標時間を基準に選択して出力することができる。
【0020】
また本発明で、前記コンテンツデータベースに記憶されているコンテンツデータには、優先度データが含まれており、
前記選択手段は、該優先度データ、および前記出力時間長と前記目標時間との比較結果に基づいて、コンテンツデータを選択することを特徴とする。
【0021】
本発明に従えば、優先度データに従って優先度が高いコンテンツデータを、目標時間を基準に選択して出力することができる。
【0022】
また本発明で、前記コンテンツデータベースに記憶されているコンテンツデータには、使用回数データが含まれており、
前記選択手段は、該使用回数データ、およびコンテンツデータの出力時間長と前記目標時間との比較結果に基づいて、コンテンツデータを選択することを特徴とする。
【0023】
本発明に従えば、使用回数データを考慮したコンテンツデータを、目標時間を基準に選択して出力することができる。
【0024】
また本発明で、前記出力手段は、前記選択手段によって選択される1または複数のコンテンツデータの総出力時間長が、前記目標時間と略一致するように、出力速度を変更して出力することを特徴とする。
【0025】
本発明に従えば、複数のコンテンツデータを選択して、総出力時間長を目標時間に近づけ、さらに出力速度を変更して、複数のコンテンツデータを出力する総出力時間長を目標時間に合わせることができる。
【0026】
さらに本発明は、第1のコンテンツデータが複数記憶されたコンテンツデータベースから、選択手段によって所望の第1のコンテンツデータを選択し、選択された第1のコンテンツデータを出力するコンテンツ出力装置において、
第2のコンテンツデータを入力するコンテンツ入力手段と、
該第2のコンテンツデータに対応する属性データを入力する属性入力手段と、
属性入力手段に入力される属性データに基づいて、第1のコンテンツデータの目標時間を指定する指定手段とをさらに備え、
選択手段は、コンテンツデータベースを検索して、各第1のコンテンツデータの出力時間長と指定手段によって指定される目標時間とを比較し、比較結果が予め定める条件を満たす第1のコンテンツデータを選択し、
出力手段は、選択手段によって選択される第1のコンテンツデータと、コンテンツ入力手段に入力される第2のコンテンツデータとを合成して出力することを特徴とするコンテンツ出力装置である。
【0027】
本発明に従えば、コンテンツ出力装置は、第1のコンテンツデータが複数記憶されたコンテンツデータベースから、選択手段によって所望の第1のコンテンツデータを選択し、選択された第1のコンテンツデータを出力するために、コンテンツ入力手段と、属性入力手段と、指定手段とをさらに備える。コンテンツ入力手段および属性入力手段には、第2のコンテンツデータおよびその属性データをそれぞれ入力する。指定手段は、属性入力手段に入力される属性データに基づいて、第1のコンテンツデータの目標時間を指定する。選択手段は、コンテンツデータベースを検索して、各第1のコンテンツデータの出力時間長と指定手段によって指定される目標時間とを比較し、比較結果が予め定める条件を満たす第1のコンテンツデータを選択する。出力手段は、選択手段によって選択される第1のコンテンツデータと、コンテンツ入力手段に入力される第2のコンテンツデータとを合成して出力するので、第2のコンテンツデータに適合する第1のコンテンツデータを選択して、組合わせて出力することができる。
【0028】
また本発明で、前記属性入力手段によって入力される属性データは、前記第2のコンテンツデータに前記第1のコンテンツデータを重畳合成する時間位置情報および時間長情報を含み、
前記指定手段は、前記属性データに含まれる時間長情報に基づいて第1のコンテンツデータの目標時間を指定し、
前記出力手段は、該属性データに含まれる時間位置情報に基づく第2のコンテンツデータの時間位置に第1のコンテンツデータを重畳合成し、該合成されたコンテンツデータを出力することを特徴とする。
【0029】
本発明に従えば、第2のコンテンツデータを入力する際に属性データとして、第1のコンテンツデータを合成する時間位置や時間長の情報を入力し、第2のコンテンツデータに対して第1のコンテンツデータを適切に組合わせて、合成して出力することができる。
【0030】
また本発明で、前記コンテンツデータは、言語情報を含み、
前記出力手段は、該言語情報を音声合成して出力することを特徴とする。
【0031】
本発明に従えば、言語情報をコンテンツデータとして状況に応じて適切な時間で音声合成して出力することができるので、DJやナレーションなどを付加してコンテンツを全体を予め設定される目標時間に合わせることができる。
【0032】
さらに本発明は、コンピュータを、前述のいずれかに記載のコンテンツ出力装置として機能させるプログラムである。
【0033】
本発明に従えば、目標時間が与えられると、コンテンツデータベースを参照して、コンテンツデータの出力時間が目標時間に適合するように、コンテンツデータを選択して出力するコンテンツ出力装置としてコンピュータを機能させることができる。
【0034】
さらに本発明は、コンピュータを、前述のいずれかに記載のコンテンツ出力装置として機能させるプログラムが記録されるコンピュータ読取り可能な記録媒体である。
【0035】
本発明に従えば、目標時間が与えられると、コンテンツデータベースを参照して、コンテンツの出力時間が目標時間に適合するように、コンテンツデータを選択して出力するコンテンツ出力装置としてコンピュータを機能させるプログラムをコンピュータに読込ませて動作させることができる。
【0036】
【発明の実施の形態】
図1は、本発明の実施の一形態として、ユーザが発信したリクエストを受け、DJ付の放送形式で再生するコンテンツ出力装置の概略的なシステム構成を示す。図2は、図1の全体的な動作を示す。以下、図1および図2を参照して、本実施形態の構成および動作の概要を説明する。
【0037】
本実施形態では、ユーザ1が発信したリクエストを、インターネットなどのデータ通信ネットワークを介して、音楽配信サーバ2がコンテンツ出力装置として受付け、コンテンツとしての台詞によるDJ付の放送形式で再生する。ユーザ1が行うリクエスト3の送信は、メール4として、特定フォーマットに従って書くことや、オペレータが人手で情報入力することによるか、フォーム5として、WWW(World Wide Web)上のページのフォームや、パーソナルコンピュータ(PC)で動作しているアプリケーションプログラムのフォームなどに従って入力することが考えられる。
【0038】
ユーザ1が送信したリクエスト3は、ステップSA−0から動作を開始する音楽配信サーバ2が、ステップSA−1で受信する。リクエスト3には、音楽属性情報6として、リクエスト曲名7およびリクエスト者名8が含まれる。さらに感想・エピソード10を含ませることもできる。ステップSA−2では、感想・エピソード10が有るか否かを判断する。有ると判断されなければ、ステップSA−4で曲名が未記入であるか否かを判断する。リクエスト曲名7が記入されていれば、ステップSA−5で、リクエスト曲名7に基づいて音楽DB10から楽曲データ11を取得する。リクエスト曲名7として、予め設定される番号やコードなどを用いることもできる。また、同一の楽曲データ11に対して、複数の呼び方を該当させたり、ある程度の曖昧さも許容して、完全に正確でなくても対応可能にしておくこともできる。
【0039】
ステップSA−6では、楽曲データ11が無いか否かを判断する。楽曲データ11が有れば、ステップSA−7でDJのための台詞合成処理を行う。コンテンツである台詞は、台詞音声データ12として、楽曲データ11とともに、音楽配信サーバ2がユーザ1に配信する配信データ13に含まれる。台詞音声データ12は、ステップSA−8で、音声合成処理14を行って作成する。
【0040】
ステップSA−7の音声合成処理14は、音楽属性情報6に感想・エピソード9が含まれていれば、その感想データ等も含めて合成する。ステップSA−2で感想データ有りと判断するときは、リクエスト3の受信時に、ステップSA−3で、感想・エピソード9を属性情報DB15に保存しておく。
【0041】
音声合成処理14で合成して音声化する対象となる台詞16は、テキストデータであり、リクエスト曲にあわせて喋るように用意する。台詞16は、台詞DB17に、複数がその標準的な出力時間とともにデータベース化されて記憶されている。台詞DB17に、台詞16をテキストデータではなく音声データで持つ場合には、音声合成処理14は必要ない。
【0042】
ステップSA−9では、予め指定される楽曲データ11の前奏、もしくは間奏、後奏などの部分にコンテンツである台詞16から作成する台詞音声データ12を合成して、音楽配信サーバ2がユーザ1に配信する配信データ13を生成し、ステップSA−10でユーザ1に配信データ13を配信する。デフォルトの指定では、たとえば楽曲データ11の前奏部分に台詞音声データ12を挿入する。ステップSA−4で曲名未記入と判断されるとき、またはステップSA−6で楽曲データ無しと判断されるときは、ステップSA−11でエラーメッセージをユーザ1に配信する。ステップSA−9またはステップSA−10が終了すると、ステップSA−12で全体の動作も終了する。ユーザ1は、配信データ13を音楽プレイヤ19などの再生装置で、リクエスト曲20として再生し、DJ付の状態で楽しむことができる。
【0043】
配信データ13の楽曲データ11としては、PCM(Pulse Code Modulation)ファイル等の非圧縮形式のファイルや、MPEG(Moving Picture codingExperts Group )1のAudio Layer III からMP3と略称される形式などの圧縮ファイルが考えられる。楽曲データ11の圧縮ファイルは、再生時のデコーダを用いて非圧縮の楽曲データに変換することができる。楽曲データ11および台詞音声データ12の双方がPCMファイルの場合、音声ミキシングは技術的に難しくない。合成範囲で楽曲データ11の再生音量ボリュームを下げることも技術的に困難はない。ミキシング後にこの非圧縮データを、エンコーダで楽曲データ11の元の圧縮ファイルフォーマットに戻すことが考えられる。音楽ファイルではなくAVI(Audio/Video Interleaved )やMPEG2などの映像メディアの場合も、同様に非圧縮データに変換し合成する方法が考えられる。
【0044】
なお、楽曲データ11および台詞音声データ12をそのままユーザ1の音楽プレイヤ19に送付し、この音楽プレイヤ19上で音声合成処理を行うようにすることもできる。このようにして、音楽プレイヤ19でリクエスト曲20の再生がDJ付で実行される。このDJには、前述のように、属性情報DB15に記憶しているリクエスト3の感想等データを台詞合成処理時に利用することもできる。
【0045】
図1の実施形態では、「音楽配信」を行うシステムであるので、音楽データや音楽属性情報、音声合成機能は音楽配信サーバ2側にある。しかし本発明は、サーバではなくクライアントとなるユーザ端末、たとえば携帯電話、PDA(Personal Digital Assistant)、モバイルPC等にこういったデータや機能があった場合でも、同様の方法で適切な台詞を出力することができる。ユーザ端末側で台詞を作成する場合には、台詞に「ユーザ情報」を利用しやすくなると考えられる。たとえば本発明を利用し、「携帯電話で楽曲を再生中に、間奏時間を利用して、新着メール情報をDJで伝える」といった機能を実現する場合には、ユーザ端末側で台詞を合成するほうが実現しやすい。
【0046】
図3は、図1に示す台詞DB17の例を示す。台詞DB17は、台詞テーブルSTと、採用条件テーブルCTとで構成される。台詞テーブルSTでは、コンテンツデータである台詞内容Sと秒単位の発声時間SL(m秒)と、さらに採用条件番号SNとが1セットになっている。 発声時間SLは、その台詞を標準速度で読み上げたときにかかる時間である。採用条件テーブルCTは、採用条件番号SNと採用条件Cとの対からなる。
【0047】
図4は、図2のステップSA−8での台詞合成処理18の例を示す。図4では、台詞合成処理18で採用する台詞16を決定する処理の大まかな流れを示す。採用条件Cには条件式が記述され、この条件が成り立つ場合には、真となる採用条件番号をリストTLに列挙するとともに、同じ採用条件番号SNを持つ台詞テーブルSTのレコードが台詞候補となる。このとき、台詞16に状況によって変化する変数表記を用意する場合、この変数名VNに適切な変数値Vを反映させる。なお、変数領域VAは、台詞合成処理18を実行するプログラムで用意しておく。
【0048】
台詞内容Sの発声時間は、変数表現以外の部分についての長さとする。変数値Vの発声時間は不定のため、以下の方法でこの長さを取得することが考えられる。
▲1▼音声合成エンジンにこのテキストを与えて長さを計測:正確だが処理に時間がかかる。
▲2▼読みの長さから概算して取得:ひらがな読みに変更し、たとえば1文字0.5秒とする、など。
▲3▼表記の長さから概算して取得:ひらがなやカタカナを1文字0.5秒とし、漢字1文字0.8秒とするなど。
▲4▼よく使用する単語や表記については、その発声時間をテーブルとして持っておく。
【0049】
図5は、図1の台詞合成処理18の手順を示す。ステップS0から手順を開始し、ステップS1では属性情報DB15から音楽属性情報を受け取る。台詞合成処理18に必要な属性情報は、ユーザ1からリクエスト3として送られてきた情報と、属性情報DB15からの参照情報を併用する。まず、扱う楽曲のキーとなるリクエスト曲名7および「アーティスト名」をユーザ1から送られてきた情報から確定し、この情報をもとに属性情報DB15の各種情報を参照する。参照する情報としては、前奏、間奏、後奏などの時間、コメント、アーティスト近況等が考えられる。また、リクエスト者の情報であるリクエスト者名8および「リクエスト者住所」も情報として利用する。他にも、「音楽配信システム利用回数」など、ユーザ1に対応したデータを持つようにして、より複雑な台詞14を実現する場合には、このユーザ1毎のデータもここで取得する。このユーザ1毎のデータは、ローカルに保存しておいていても、音楽配信サーバ2に直接保存していてもかまわない。ローカルに保存する場合は、Cookieと呼ばれるデータの形で、ユーザ1が音楽配信サーバ2にアクセスすると、自動的に送信するようにすることもできる。ユーザ1毎のデータには、楽曲データ11に対してコンテンツを挿入する部分のユーザ1による指定を含めることもできる。
【0050】
ステップS2では、変数値をセットする。ステップS3では、採用条件テーブルCTから、真となる採用条件番号リストTLを作成する採用条件チェック処理を行う。ステップS4では、採用条件番号リストTLに採用条件番号SNがあるレコードの台詞内容Sに変数値Vを適用する。ステップS5では、発声時間SLに変数値の発声時間を加算する。ステップS6では、発声時間SLが目標時間PLに近いレコードの台詞16を選択する。ステップS7では、台詞16を音声合成処理14に渡す。ステップS8で台詞合成処理の手順を終了する。ステップS2〜S6については、以下でさらに説明する。
【0051】
図6は、図5のステップS2で変数値をセットする処理内容を示す。まず、ステップS2−0から処理を開始し、ステップS2−1では、リクエスト3を送信したユーザ1に対し、ユーザ毎に保存している統計値を取得する。ここでは、このリクエスト者名8に基づいて検索される配信サービス利用回数である。初回のサービス利用ならば、1を入れる。次にステップS2−2で、今日はじめてのリクエストであるか否かを判断する。これが今日はじめてのリクエストでないと判断する場合、ステップS2−3に進み、配信サービス利用回数を増やし、DJの会話状態をあらわす変数PHASEを「挨拶」にセットする。ステップS2−2で、今日はじめてのリクエストではないと判断する場合には、ステップS2−4に進み、変数PHASEを次に進める。ステップS2−3またはステップS2−4が終了すると、ステップS2−5で、現時刻をセットする。これは、第6図の「変数の定義」で説明するように、システムから受け取る時刻情報を用いて決定する。ステップS2−6で変数値のセットを終了する。
【0052】
図7は、図5のステップS3で、採用条件テーブルCTから、真となる採用条件番号リストTLを作成する処理内容を示す。これは、図4に示す「採用条件チェック処理」に該当する。採用条件テーブルCTの各レコードの採用条件Cは、図5のステップS2でセットされた変数値を用いる条件式で構成されている。この処理では、この条件式が真となるすべてのレコードの採用条件番号を検出する。処理は、ステップS3−0から開始し、ステップS3−1では、整数カウンタiを初期化する。採用条件番号iの採用条件をC[i]と表記する。ステップS3−2では、整数カウンタiが採用条件番号SNの要素数未満であるか否かを判断する。iに対する判断が採用条件テーブルCTのすべてのレコードについて行われるまで、ステップS3−3で、採用条件C[i]が真かどうかをチェックする。真の場合、ステップS3−4で、リストTLに採用条件番号iを追加する。ステップS3−4の後、またはステップS3−3で真でないと判断するとき、ステップS3−5で整数カウンタをインクリメントし、ステップS3−2に戻ってすべてのレコードについてチェックするまで、ステップS3−2〜ステップS3−5を繰返す。ステップS3−2でi<SN要素数ではなく、すべての採用条件番号についてのチェックが終了したと判断するときは、ステップS3−6で処理を終了する。
【0053】
以上説明した処理によって生成したリストTLには、今回真となる採用条件番号SNがすべて追加されている。この採用条件番号SNをもつ台詞のレコードを、台詞テーブルSTからすべて「台詞の候補」として抜き出す。図5の手順では、ステップS4でこのすべてのレコードに対して、変数領域VAをもとに、変数値Vを反映させ、反映した変数値に対応する発声時間を、ステップS5でレコードの発声時間に加算し、ステップS6で最も適切な発声時間のレコードを決定する。
【0054】
図8は、図5のステップS4〜ステップS6での処理内容を示す。まず、ステップS4−0から処理を開始し、ステップS4−1ではループカウンタiを0に初期化し、最適な台詞を格納する変数jに、初期値として1番目の台詞レコードであるS[0]をセットする。なお、採用条件番号iの台詞内容をS[i]と表記する。リストTLのn番目の要素をTL[n]と表記する。台詞jの発声時間をSL(j)と表記する。PLは目標時間であって、曲の前奏、間奏、後奏の長さなどを指定とすることができ、デフォルトでは、たとえば前奏に指定される。音楽配信サーバ2の設置者側で、前奏、間奏または後奏のいずれでも、一定時間以上あればその時間を目標時間として指定するように設定することもできる。また、ユーザ1が目標時間をリクエスト3に含めることなどで指定することもできる。
【0055】
まず、ステップS4−2で、すべてのレコードをチェックするために、ループカウンタiがリストTLの要素数未満であるというループ条件を設ける。次に、ステップS4−3で、レコードの台詞内容Sに変数表現があるかどうかチェックする。ある場合、ステップS4−4で、図4に示す変数領域VAから変数値Vをここに置換して反映させ、ステップS4−5で反映させた変数値Vに対応する発声時間SL(V)を、台詞SのレコードTL[i]の発声時間SL(S[TL[i]])に加算する。
【0056】
ステップS4−3でリストTLのi番目の台詞内容S[TL[i]]に変数がないと判断するとき、またはステップS4−5の処理が終了すると、ステップS4−6でレコード発声時間SL(S[TL[i]])が目標時間PL以内であるか否かを判断する。ない場合には、前奏などの目標時間PL中に台詞が収まりきれないことになるので、次のレコードのチェックにループを進める。
【0057】
ステップS4−6でレコード発声時間SLが目標時間PL以内と判断するときは、ステップS4−7で、発声時間SLが、現在の最適台詞jの発声時間SL(j)よりも大きいか否かを判断する。大きい場合、このレコードの台詞は、最適台詞jよりも目標時間PLに近い台詞ということになる。この場合、ステップS4−8に進み、このレコードの台詞を、新たに最適台詞jとする。ステップS4−8の後、またはステップS4−6で発声時間SLが目標時間を超えているか、ステップS4−7で発声時間SLが最適台詞SL(j)以下であると判断するときは、ステップS4−9に進み、ループカウンタiをインクリメントし、ステップS4−2に戻って、すべてのレコードについてチェックするまで繰返す。ステップS4−2で、ループカウンタiがリストTLの要素数以上、すなわちすべてのレコードのチェックが終了していると判断するときは、ステップS4−10で処理を終了する。
【0058】
図9は、図1で属性情報DB15に属性情報を蓄えて、台詞合成処理18で活用する状態を示す。属性情報は、ユーザ1によるリクエスト送信時に送信されるリクエスト3に、メール4やフォーム5の感想等の内容として含まれている。音楽配信サーバ2は、リクエスト受信のときに、その感想等の情報を抽出して、属性情報DB15に蓄える。台詞合成処理18のとき、属性情報DB15に蓄えられている情報が活用される。
【0059】
図10は、図4に示す台詞合成処理18において、再生する楽曲の前奏(もしくは間奏、後奏)の長さにあわせた台詞を選択する選択方法の例を示す。 前奏、間奏、後奏時間は、属性情報DB15に記憶されているものとする。楽曲データから実測する方法も考えられる。楽曲データからの実測方法は後述する。前奏等の長さを取得すると、これを目標時間PLとして設定する。目標時間PLに最も近い発声時間SLの台詞を使用する。歌唱と台詞によるDJとがかぶらないように、PL≧SLとすることが望ましい。単純な候補選択の手順として、具体的には「PL≧SLを満たして、かつ、SLが最大となる候補を選ぶ」という、図8に示すような方法が考えられる。
【0060】
この例では、単純に「一回の台詞で1つの台詞レコードを使用する」ように書いているが、実際には、一回のDJで、複数の台詞を組み合わせて使うことが考えられる。その場合も同様の発想で、適切な長さの台詞を合成すればよい。
【0061】
台詞トータルの発声時間だけでなく、変数に使う値を決定するときにも、この「発声時間」を利用できる。たとえば、トータル16秒の台詞を15秒にしたいときには、変数値(たとえばリクエストの感想文など)を1秒短い他の表現や候補に変更することで対応可能である。
【0062】
微妙な読み上げ時間の調整は、読み上げスピードの変化でも可能である。台詞データに、「読み上げスピード指示のパラメータ」を保持し、大事な部分をゆっくり読み上げると、より自然な台詞にすることができる。音声合成エンジンには、その再生テキストに「どのように読み上げるか(楽しく、悲しく、強く、優しく等)」タグを付与することができるものもある。この場合、合成音の大きさや高さ、音色が変化するのが一般的である。しかしスピードによる抑揚は自然な台詞出力には重要である。
【0063】
たとえば、「曲名とアーティスト名との部分のみ、他の部分の読み上げ速度より少しゆっくり喋る」ことで、台詞をより自然に喋らせることができる。この時間変化を、台詞時間の微調整に利用することで、より効果的な台詞作成システムとなる。
【0064】
具体的には、
(台詞の発声時間SL÷台詞の読み上げスピードSP1+曲名の発声時間SL2÷曲名の読み上げスピードSP2+アーティスト名の発声時間SL3÷アーティスト名の読み上げスピードSP3)=目標時間PL
となるようなスピードSP1,SP2,SP3を、標準スピードに対する比として求めればよい。
【0065】
たとえば、SP1を標準スピードの1倍で1とし、SP2=SP3と定めると、次式によりSP2,SP3が求まる。
【0066】
SP2=SP3=(SL2+SL3)÷(PL−SL)
またSP1=SP2=SP3と定めると、
SP1=SP2=SP3=(SL+SL2+SL3)÷PL
により、SP1,SP2,SP3が求まる。また、SP1,SP2,SP3をそれぞれ異なる値としてもよい。
【0067】
図11は、図4の「変数領域VA」内の変数定義テーブルの例を示す。図4で出現している変数は、「現時刻」、「配信サービス利用回数」、「PHASE」、「季節」、「今回リクエスト数」、「DJ所」および「最後にお知らせ」の7つである。「現時刻」は、この定義テーブルに従い、実際の時刻に対応した値を使用する。たとえば、実際の時刻が午後3時23分の場合、値は「午後」となる。「配信サービス利用回数」は、このユーザ1が過去に配信サービスを利用した回数にとなる。「PHASE」は、DJがどんな台詞を喋る状態にあるか、その状態を示している。遷移の例については後述する。「季節」は、「現時刻」同様に、現在の月によって変化する。たとえば現在1月の場合には、「冬」となる。これらの日時に関する変数値は、ベースとなるシステムのサービスルーチンなどで変更する。「今回リクエスト数」は、現在何曲目のリクエストかを保持している。「DJ所」は、現在再生すべき楽曲のどこに台詞を挿入すべきかを示す値である。値は「前奏」「間奏」「後奏」のいずれかとなる。「DJ所」の決定方法に特に指定はないが、一例として次に示すような方法を採ることができる。
【0068】
まず、デフォルトで「前奏」にDJするよう設定する。ただし、「前奏」が10秒に満たない場合、「後奏」でDJする。「後奏」が10秒に満たない場合、「間奏」にてDJする。前奏、間奏、後奏の指定がない場合、歌のないインストゥルメンタルのみの楽曲とみなし、DJは曲とかぶらないように入れる。2曲続けて曲を流すような場合には、デフォルトを1曲目前奏、2曲目後奏でDJするようにする。このように、変数定義テーブルは、コンテンツである台詞の目標時間PLを指定する指定手段として機能する。ただしこの指定は間接的である。
【0069】
また、これらの値の中には、配信サービス処理終了後も保存しておく必要があるものもある。たとえば「配信サービス利用回数」などである。変数値データの保存場所はどこでもかまわない。すなわち、音楽配信サーバ2側に保存しても、ユーザ1が使用するクライアント側に保存してもかまわない。
【0070】
図12は、台詞決定のための図10とは異なる手法を示す。図10では、台詞の長さのみで台詞候補を決定しているけれども、ここでは、台詞決定の指標として他の要素が加わった場合について、その決定方法を説明する。
【0071】
他の要素としては、「優先順位」や「台詞使用回数」を加えることができる。なお、図12では、台詞内容Sに変数値が反映され、発声時間も変数の長さを加算したものとなっているものとする。台詞候補リストには、次式計算するスコアを付与する。スコアは目標出力時間長としての目標時間PLとコンテンツデータである台詞の発声時間SLとの比較結果に対応する。台詞候補リストをスコアでソートし、目的に最も適したスコアを持つ台詞候補を採用する。なお、選択に使用するパラメータとしては、次のようなものを含める。
【0072】
発声時間SL:台詞の長さは、0〜2000m秒程度とする。
発声時間が目標時間に近いほど採用率を高くしたい。
【0073】
優先度PR:0〜5の数字とする
0:できる限り採用してほしい台詞 5:優先度の低い台詞
優先度が小さいほど採用率を高くしたい。
【0074】
使用回数UT:0〜100の数字とする
(100回以上の使用はカウントしない)
使用回数が少ないほど採用率を高くしたい。
【0075】
これらのパラメータをある程度平等に、またパラメータ同士の重み付けを行うため、各パラメータ値に定数a,b,cなどをかけて次式のように加算する。図12の例では、パラメータ値のレンジがそれぞれ0〜100の範囲になるように定数を設定している。実際には、台詞の内容に応じて定数a,b,cを適切にチューニングする必要がある。一般的には、aをもっと大きくして発声時間を重視した方が適した台詞が出現すると考えられる。
【0076】
スコアSC = a×(PL−SL)+ b×PR+c×UT
(a=0.005、b=20、c=1)
このスコアSCの値が小さいほど、採用したい台詞となる。
【0077】
目標時間(台詞をしゃべる限界の長さ)=1600m秒のときのスコアを図で記している。
【0078】
目標時間との比較結果では、上から5番目の台詞のスコアが23.5で最小であり、最適な台詞となる。
【0079】
しかし「絶対に採用したい台詞が候補にある場合」、優先的に採用することが要望される。たとえば、ユーザ1へのお知らせの台詞がある。この台詞が候補にある場合には必ず採用したい、というケースもありうる。この場合、「絶対に採用したい台詞」の優先度を0にしておき、スコアでソートする前に、優先度0の候補がないか確認し、あればこれを優先して採用する方法が考えられる。
【0080】
このようにして、複数の要素を通して最適の台詞を得ることができる。台詞合成に使用する情報として、音楽属性情報以外にもさまざまな情報がある。たとえば、図4では、「さあ本日もやってまいりましたこの[現時刻]のひととき!」という台詞を例にしているが、[現時刻]という部分には、現在が午後1時だった場合には「午後」と入れたいとする。このような場合に、台詞に変数表現を用いる。変数には、システムから得られる時刻情報などをもとにするもの(現時刻、季節)と、ユーザ1ごとに保存する統計データをもとにするもの(配信サービス利用回数)と、現在の台詞合成処理内の状態をあらわすもの(PHASE、今回リクエスト数、DJ所)などがある。台詞合成処理では、図5にステップS2として示すように、こういった変数値の初期化を行う必要がある。
【0081】
一例として、図6では、「配信サービス利用回数」と「現時刻」および「PHASE」の初期値をセットしている。
【0082】
図13は、会話の状態をあらわす変数「PHASE」の遷移例の処理を示す。状態SB−0から処理を開始し、状態SB−1として、最初に必ず「挨拶」、次にステップSB−2として「n曲目紹介」に入る。状態SB−2からは、状態SB−2、SB−3、SB−4のすべてに遷移する可能性がある。状態SB−2が終了したあと、楽曲再生が終了するまで状態は次に遷移しない。その後、状態SB−2からは次のように遷移する。
▲1▼次のリクエストがすでに入っている
i.前回の遷移状態がSB−2の場合、状態SB−3へ遷移し、一息入れる会話とする。
ii.前回の遷移状態がSB−3の場合、状態SB−2へ遷移して曲紹介に戻る。
▲2▼次のリクエストがまだ入っていない
i.前回の遷移状態がSB−2の場合、状態SB−3へ遷移し、一息入れる会話とする。
【0083】
(しかしすでにサービス利用時間が長い場合には、状態SB−4へ遷移する)
ii.前回の遷移状態がSB−3の場合、状態SB−4へ遷移して終わりの挨拶とする。
最後に、「終わりの挨拶」(状態SB−4)となる。
【0084】
図14は、楽曲データから前奏、間奏、後奏時間を実測する考え方を示す。これまでの説明では、前奏、間奏、後奏時間(開始時間とその長さ)を、属性情報DB15より取得するようにしている。そこで、この情報を実測する具体的方法をひとつ紹介する。
【0085】
楽曲データのすべてに、前奏、間奏、および後奏時間が記されているわけではない。この例では、楽曲データ11と、その楽曲のカラオケデータ22との差異をとって、その差異がない部分の情報23から前奏、間奏、後奏部分を検出している。一般に、今日発売されている楽曲のシングルCDには、ボーカル入りの楽曲と、ボーカルなしのカラオケとが一緒に入っていることが多い。この2つのデータを比較して、同一となる部分はボーカルのない部分とみなすことができる。この「ボーカルのない部分」のうち、ある程度の長さを持つ部分を前奏、間奏、後奏部分とみなすことができる。
【0086】
また、シングルCDには2曲以上の楽曲データ11が収録されていることがある。この場合、シングルCD内のどの曲が楽曲カラオケデータ22なのかを特定する必要があるが、楽曲データ11と楽曲カラオケデータ22の「演奏時間」がほぼ同一なことを利用することでこれを機械的に特定することができる。
この実測作業は、音楽配信サーバ2側で予め測定しておいてもよく、楽曲再生時にリアルタイムに実施することも可能である。当然、楽曲再生側で楽曲データ11と楽曲カラオケデータ22の双方を受け取って実測することも可能である。
【0087】
以上で説明しているように、本実施形態では、DJやナレーションなどの台詞をコンテンツデータとして読み上げるシステムにおいて、状況に合わせて適切な長さの台詞を用意することができる。合成音声でDJするシーンとしては、以下が考えられる。
・音楽や映像といったマルチメディアコンテンツ再生にあわせて、その再生前、前奏、間奏、後奏、再生終了後に、再生する楽曲のさまざまな属性情報(曲名、アーティスト名、アーティスト活動状況)や、ユーザの情報(たとえば、携帯電話で楽曲を再生中に、新着メール情報を伝達する)をトピックとした台詞をDJする。
・ゲームの進行、状況にあわせて、そのシーンとシーンの合間に、ユーザを盛り上げる実況中継やナレーションを喋る。
・スケジュールがタイムテーブルで管理されており、与えられる時間枠が動的に変化しうる場合、その時間枠内でさまざまな告知、たとえばニュースや天気予報、その他トピックのナレーション、CMなどを行う必要がある場合。
【0088】
そこで、台詞を合成する際に、台詞を喋る時間の長さに合わせてそれに適した台詞を合成する。このために、台詞のもととなるデータを管理する台詞DB17には、それぞれの台詞パーツデータにその「通常読み上げ時間長」を保管する。たとえば、この「通常読み上げ時間長」を利用し、台詞読上目標時間に近い長さの台詞候補には高得点を付与し、台詞候補を得点でソートし採用する際に優位になるようにすればよい。
【0089】
このしくみの台詞DB17を採用することで、喋る長さが動的な場合でも、状況に合わせてより適切な台詞を喋ることができる。また、会話の使用回数を保存したり、直前に喋った会話のログを参考にすることで、一度使用した会話を連続して使わないようにし、聞き手を飽きさせないようにすることができる。さらに、台詞データに優先度を付与することで、適切な会話を選択できるよう調節することができる。優先度を付与する方法としては、たとえば台詞テーブルSTのレコードに、項目として[優先度]を追加し、台詞候補からの選出時に利用するようにすればよい。
【0090】
以上の説明では、配信データ12に含まれる台詞をコンテンツとしているけれども、ユーザ1にとっては、楽曲データ11も配信を受ける目的のコンテンツである。台詞を第1のコンテンツとすれば、楽曲データ11は第2のコンテンツデータであり、図1の音楽DB10は、第2のコンテンツデータを入力するコンテンツ入力手段とみなすことができる。このような音楽DB10は、インターネット上に分散して構築することもできる。
【0091】
なお、本発明は、音声だけでなく、映像やテロップ表示などをコンテンツデータとする場合へも適用して、出力する時間を合わせることができる。
【0092】
【発明の効果】
以上のように本発明によれば、音声、映像やテロップなどを含むコンテンツデータが複数記憶されているコンテンツデータベースから、目標時間に基づいてコンテンツデータを選択するので、出力されるコンテンツデータの出力時間長は予め定める条件を満たし、状況に応じて適切な時間長でコンテンツデータを出力することができる。
【0093】
また本発明によれば、複数のコンテンツデータの出力時間長の合計値が目標時間に適合するように選択するので、たとえば複数の台詞の組合せや、変数によって生成される台詞の組合せなど、目標時間に合わせて選択される複数のコンテンツデータを連続して出力することができる。
【0094】
また本発明によれば、たとえば台詞に含まれる変数名などのタグデータを含むコンテンツデータで、タグデータの部分に、現時刻や、たとえば音楽情報についてのアーティスト、曲名、今回リクエスト数などの種々の情報を追加し、全体として多様な情報を表現することができる。
【0095】
また本発明によれば、コンテンツデータに含まれるタグデータによって、たとえばアーティスト、曲名、現時刻、今回リクエスト数等の状況の変化を反映させ、コンテンツデータを出力時間が適切になるように選択することができる。
【0096】
また本発明によれば、たとえば利用回数やリクエスト数などの採用条件を満たすコンテンツデータを、目標時間を基準に選択して出力することができる。
【0097】
また本発明によれば、優先度が高いコンテンツデータを、目標時間を基準に選択して出力することができる。
【0098】
また本発明によれば、コンテンツデータを、目標時間を基準に、使用回数を考慮して選択して出力することができる。
【0099】
また本発明によれば、複数のコンテンツデータを、総出力時間長が目標時間に近づくように組合せ、さらに出力速度を変更して、総出力時間長を目標時間に合わせることができる。
【0100】
さらに本発明によれば、コンテンツ出力装置は、たとえば台詞などの第1のコンテンツデータが複数記憶されたコンテンツデータベースから、選択手段によって所望の第1のコンテンツデータを選択し、選択された第1のコンテンツデータを出力するために、コンテンツ入力手段および属性入力手段に、たとえば楽曲データおよびその前奏や間奏時間などの第2のコンテンツデータおよびその属性データをそれぞれ入力する。第2のコンテンツデータとしての楽曲データなどに適合する第1のコンテンツデータとしての台詞データなどを、前奏時間や乾燥時間などに合わせて選択し、組合わせて出力することができる。
【0101】
また本発明によれば、第2のコンテンツデータ、たとえば楽曲データなどを入力する際に、属性データとして、第1のコンテンツデータ、たとえば台詞を合成する時間位置や時間長の情報を入力し、第2のコンテンツデータに対して第1のコンテンツデータを適切に組合わせて、合成して出力することができる。
【0102】
また本発明によれば、言語情報をコンテンツとして状況に応じて適切な時間で音声合成して出力して、たとえばDJやナレーションなどとして、コンテンツデータ全体を予め設定される目標時間に合わせることができる。
【0103】
さらに本発明によれば、音声合成機能などを有するコンピュータで音声合成機能に基づいて出力するコンテンツデータを、目標時間に合わせて選択して出力するように機能させることができる。
【0104】
さらに本発明によれば、目標時間に合わせてコンテンツデータベースを選択して出力するコンテンツ出力装置としてコンピュータを機能させるプログラムを記録しておき、コンピュータに読込ませて動作させることができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態としてのコンテンツ出力装置の概略的なシステム構成を示すブロック図である。
【図2】図1の音楽配信サーバ2による配信処理の手順を示すフローチャートである。
【図3】図1の台詞DB17の例を示すブロック図である。
【図4】図1の台詞合成処理18の例を示すブロック図である。
【図5】図1の台詞合成処理18の全体的な処理手順を示すフローチャートである。
【図6】図5のステップS2で変数値をセットする処理の手順を示すフローチャートである。
【図7】図5のステップS3で行う採用条件チェック処理の手順を示すフローチャートである。
【図8】図5のステップS4〜S6で行う処理の具体的手順を示すフローチャートである。
【図9】図1の台詞合成処理18で属性情報DB15に蓄えられる属性情報を利用する状態を示すブロック図である。
【図10】図1で属性情報DB15から発声時間と目標時間とを比較して、台詞の会話候補を選択する状態を示すブロック図である。
【図11】図4の変数領域VAに記憶される変数の定義の例を示す図である。
【図12】図4の台詞合成処理で、台詞の採用率を、優先度、使用回数、スコアに基づいて決定する考え方を示す図である。
【図13】図6のステップS2−4で次のPHASEに進めるためのPHASEの遷移状態図である。
【図14】図1の楽曲データ11から前奏時間等を実測する考え方を示す波形図である。
【符号の説明】
1 ユーザ
2 音楽配信サーバ
3 リクエスト
4 メール
5 フォーム
6 音楽属性情報
7 リクエスト曲名
8 リクエスト者名
9 感想・エピソード
10 音楽DB
11 楽曲データ
12 台詞音声データ
13 配信データ
14 音声合成処理
15 属性情報DB
16 台詞
17 台詞DB
18 台詞合成処理
19 音楽プレイヤ
20 リクエスト曲
22 楽曲カラオケデータ
23 情報
【発明の属する技術分野】
本発明は、予め記憶されている言語情報などのコンテンツを、状況に合わせて出力するコンテンツ出力装置に関する。
【0002】
【従来の技術】
従来から、たとえば高速道路の情報案内放送などに、コンピュータの合成音声で各種案内を行うシステムが用いられている。これらのシステムでは、必要な情報のみを繰返して出力するだけであり、一方通行で無味乾燥な出力内容となっている。
【0003】
ラジオやテレビジョンの放送も、情報の一方通行であることに変わりはない。特に、音楽番組で記録媒体に記録されている音楽を再生するだけでは、再生する音楽の選択と、その音楽自体との魅力で聴取者を獲得しなければならなくなる。そこで、単に記録媒体に記録されている音楽を再生するだけの放送番組では、聴取の雰囲気を盛上げたり、付加価値を高めたりするために、ディスクジョッキー(以下、「DJ」と略称する)やナレーションなどを組合わせる手法が発達している。ディスクジョッキーやナレーションは、発生者が種々の情報を音声で提供しながら、再生する音楽や広告(CM)などの間を調整し、パーソナリティや話題で視聴者を引付けることができる。ただし、ラジオやテレビジョンの放送は、予め決定されている時間スケジュールに従って行われ、聴取者は基本的に受動的である。放送する音楽などを選択するために、聴取者からのリクエストを利用するような工夫はあっても充分ではない。
【0004】
近年、大容量の記録媒体の利用や、インターネットなどのデータ通信の利用で、音楽情報なども、必要な情報や希望する情報をいつでも選択して再生することができる環境が整うようになってきている。しかしながら、単に、音楽情報などを集めて再生するだけでは、無味乾燥な状態から逃れることはできない。このような状態は、DJやナレーションが加われば、改善することができると期待されるけれども、一般に個々の視聴者に合わせて生身のDJなどを用意することはできない。そこで、コンピュータの音声合成機能や、録音音声再生機能を利用して、DJやナレーションを追加することが考えられる。
【0005】
従来、コンピュータの合成音声や録音音声再生でDJやナレーションの台詞を読み上げるシステムでは、あらかじめデータベース(以下、「DB」と略称することもある)に用意してある台詞を、「(適切なシーンで適切な台詞を喋るための)台詞を喋る条件」をもとに選択し、単語置換や台詞の接続などによって加工して再生する。しかし、音楽再生に合わせて前奏の部分でDJを行う場合などでは、台詞を喋る長さが曲によって異なるため、台詞が長すぎてDJが音楽のボーカルにかぶってしまったり、短すぎてDJの終わりとボーカルの開始との間があいてしまったりすることとなる。
【0006】
特開2001−210065号公報には、MD(Mini Disk )などの記録媒体に記録されている音楽データを再生する音楽再生装置に音声合成出力機能を備え、TOC(Table Of Contents )やUTOC(User’s Table Of Contents)などに記録されている曲番号、曲名等の曲管理データを表示以外の手段でユーザに知らせる先行技術が開示されている。この先行技術では、記録媒体に記録されている曲番号や曲名等をそのまま音声合成出力することとしており、台詞の長さ調節や適切な台詞の選択といった動作は行っていない。
【0007】
【発明が解決しようとする課題】
特開2001−210065号公報に開示されているような音声合成出力機能を備える装置でも、音声合成出力する情報が単に曲番号や曲名等のみでは、放送番組で行われているDJなどとの差は大きく、雰囲気の盛上がりに欠けてしまう。
【0008】
前述のように、音楽再生に合わせて前奏の部分でDJなどを行うようにすれば、音声合成や録音音声再生でも、放送などで行われているDJに近づけることができる。ただし、台詞の時間を調整する必要がある。台詞を喋る時間を適切な長さに調整したい場合、音声規則合成方式の場合は読み上げスピード、録音音声再生方式の場合は再生スピードを速くしたり遅くしたりして調節することが考えられる。しかしこれだけでは、たとえば、通常に喋ると30秒かかる台詞を5秒で再生すると、不自然なほどに速いスピードで喋ってしまう。このように、台詞を決定した後の大幅な時間調整は困難である。
【0009】
本発明の目的は、状況に応じて適切な時間長でコンテンツを出力することができるコンテンツ出力装置を提供することである。
【0010】
【課題を解決するための手段】
本発明は、コンテンツデータが複数記憶されているコンテンツデータベースから、選択手段によって所望のコンテンツデータを選択し、選択されたコンテンツデータを出力手段によって出力するコンテンツ出力装置において、
出力するコンテンツデータの選択基準として、目標時間を指定する指定手段をさらに備え、
コンテンツデータベースには、各コンテンツデータが出力に必要な出力時間長とともに記憶されており、
選択手段は、コンテンツデータベースを検索して、各コンテンツデータの出力時間長と指定手段によって指定される目標時間とを比較し、比較結果が予め定める条件を満たすコンテンツデータを選択することを特徴とするコンテンツ出力装置である。
【0011】
本発明に従えば、コンテンツ出力装置は、コンテンツデータが複数記憶されているコンテンツデータベースから、選択手段によって所望のコンテンツデータを選択し、選択されたコンテンツデータを出力手段によって出力するための選択基準として、出力するコンテンツデータの目標時間を指定する指定手段をさらに備える。指定手段は、たとえば楽曲データの前奏部分をデフォルトとして指定し、指定の変更を可能とする。コンテンツデータベースには、各コンテンツデータが出力に必要な出力時間長とともに記憶されており、選択手段は、コンテンツデータベースを検索して、各コンテンツデータの出力時間長と指定手段によって指定される目標時間とを比較し、比較結果が予め定める条件を満たすコンテンツデータを選択するので、出力されるコンテンツデータの出力時間長は予め定める条件を満たし、状況に応じて適切な時間長でコンテンツデータを出力することができる。
【0012】
また本発明で、前記選択手段は、前記コンテンツデータを複数組合わせるときの前記出力時間長の合計値と前記目標時間との比較結果に基づいて、複数のコンテンツデータを選択し、
前記出力手段は、選択手段によって選択される複数のコンテンツデータを連続して出力することを特徴とする。
【0013】
本発明に従えば、複数のコンテンツデータを選択するときに、複数のコンテンツデータの出力時間長の合計値が指定手段によって指定される目標時間に適合するようにするので、目標時間に合わせて選択されたコンテンツデータを連続して出力することができる。
【0014】
また本発明で、前記コンテンツデータベースに記憶されているコンテンツデータには、他のコンテンツデータの挿入を指示するタグデータが含まれており、
前記選択手段は、該タグデータに従って組み合わされるコンテンツデータの前記出力時間長の合計値と前記目標時間との比較結果に基づいて、前記複数のコンテンツデータを選択することを特徴とする。
【0015】
本発明に従えば、タグデータを含むコンテンツデータは、タグデータを変数として、タグデータの部分に種々の情報を追加し、全体として多様な情報を表現することができる。
【0016】
また本発明で、前記タグデータは、状況に応じて値が変化する変数を指定するデータであり、
前記選択手段は、該タグデータによって指定される変数の現在の値に従って組み合わされる複数のコンテンツデータの出力時間長の和と前記目標時間との比較結果に基づいて、複数のコンテンツデータを選択することを特徴とする。
【0017】
本発明に従えば、コンテンツデータに含まれるタグデータは、状況に応じて値が変化する変数を指定するデータであるので、状況の変化を反映してコンテンツデータを、出力時間が適切になるように選択することができる。
【0018】
また本発明で、前記コンテンツデータベースに記憶されているコンテンツデータには、状況に応じて値が変化する変数の値を指定する採用条件データが含まれており、
前記選択手段は、該採用条件データと指定される変数の現在の値との比較結果、およびコンテンツデータの前記出力時間長と前記目標時間との比較結果に基づいて、コンテンツデータを選択することを特徴とする。
【0019】
本発明に従えば、採用条件を満たすコンテンツデータを、目標時間を基準に選択して出力することができる。
【0020】
また本発明で、前記コンテンツデータベースに記憶されているコンテンツデータには、優先度データが含まれており、
前記選択手段は、該優先度データ、および前記出力時間長と前記目標時間との比較結果に基づいて、コンテンツデータを選択することを特徴とする。
【0021】
本発明に従えば、優先度データに従って優先度が高いコンテンツデータを、目標時間を基準に選択して出力することができる。
【0022】
また本発明で、前記コンテンツデータベースに記憶されているコンテンツデータには、使用回数データが含まれており、
前記選択手段は、該使用回数データ、およびコンテンツデータの出力時間長と前記目標時間との比較結果に基づいて、コンテンツデータを選択することを特徴とする。
【0023】
本発明に従えば、使用回数データを考慮したコンテンツデータを、目標時間を基準に選択して出力することができる。
【0024】
また本発明で、前記出力手段は、前記選択手段によって選択される1または複数のコンテンツデータの総出力時間長が、前記目標時間と略一致するように、出力速度を変更して出力することを特徴とする。
【0025】
本発明に従えば、複数のコンテンツデータを選択して、総出力時間長を目標時間に近づけ、さらに出力速度を変更して、複数のコンテンツデータを出力する総出力時間長を目標時間に合わせることができる。
【0026】
さらに本発明は、第1のコンテンツデータが複数記憶されたコンテンツデータベースから、選択手段によって所望の第1のコンテンツデータを選択し、選択された第1のコンテンツデータを出力するコンテンツ出力装置において、
第2のコンテンツデータを入力するコンテンツ入力手段と、
該第2のコンテンツデータに対応する属性データを入力する属性入力手段と、
属性入力手段に入力される属性データに基づいて、第1のコンテンツデータの目標時間を指定する指定手段とをさらに備え、
選択手段は、コンテンツデータベースを検索して、各第1のコンテンツデータの出力時間長と指定手段によって指定される目標時間とを比較し、比較結果が予め定める条件を満たす第1のコンテンツデータを選択し、
出力手段は、選択手段によって選択される第1のコンテンツデータと、コンテンツ入力手段に入力される第2のコンテンツデータとを合成して出力することを特徴とするコンテンツ出力装置である。
【0027】
本発明に従えば、コンテンツ出力装置は、第1のコンテンツデータが複数記憶されたコンテンツデータベースから、選択手段によって所望の第1のコンテンツデータを選択し、選択された第1のコンテンツデータを出力するために、コンテンツ入力手段と、属性入力手段と、指定手段とをさらに備える。コンテンツ入力手段および属性入力手段には、第2のコンテンツデータおよびその属性データをそれぞれ入力する。指定手段は、属性入力手段に入力される属性データに基づいて、第1のコンテンツデータの目標時間を指定する。選択手段は、コンテンツデータベースを検索して、各第1のコンテンツデータの出力時間長と指定手段によって指定される目標時間とを比較し、比較結果が予め定める条件を満たす第1のコンテンツデータを選択する。出力手段は、選択手段によって選択される第1のコンテンツデータと、コンテンツ入力手段に入力される第2のコンテンツデータとを合成して出力するので、第2のコンテンツデータに適合する第1のコンテンツデータを選択して、組合わせて出力することができる。
【0028】
また本発明で、前記属性入力手段によって入力される属性データは、前記第2のコンテンツデータに前記第1のコンテンツデータを重畳合成する時間位置情報および時間長情報を含み、
前記指定手段は、前記属性データに含まれる時間長情報に基づいて第1のコンテンツデータの目標時間を指定し、
前記出力手段は、該属性データに含まれる時間位置情報に基づく第2のコンテンツデータの時間位置に第1のコンテンツデータを重畳合成し、該合成されたコンテンツデータを出力することを特徴とする。
【0029】
本発明に従えば、第2のコンテンツデータを入力する際に属性データとして、第1のコンテンツデータを合成する時間位置や時間長の情報を入力し、第2のコンテンツデータに対して第1のコンテンツデータを適切に組合わせて、合成して出力することができる。
【0030】
また本発明で、前記コンテンツデータは、言語情報を含み、
前記出力手段は、該言語情報を音声合成して出力することを特徴とする。
【0031】
本発明に従えば、言語情報をコンテンツデータとして状況に応じて適切な時間で音声合成して出力することができるので、DJやナレーションなどを付加してコンテンツを全体を予め設定される目標時間に合わせることができる。
【0032】
さらに本発明は、コンピュータを、前述のいずれかに記載のコンテンツ出力装置として機能させるプログラムである。
【0033】
本発明に従えば、目標時間が与えられると、コンテンツデータベースを参照して、コンテンツデータの出力時間が目標時間に適合するように、コンテンツデータを選択して出力するコンテンツ出力装置としてコンピュータを機能させることができる。
【0034】
さらに本発明は、コンピュータを、前述のいずれかに記載のコンテンツ出力装置として機能させるプログラムが記録されるコンピュータ読取り可能な記録媒体である。
【0035】
本発明に従えば、目標時間が与えられると、コンテンツデータベースを参照して、コンテンツの出力時間が目標時間に適合するように、コンテンツデータを選択して出力するコンテンツ出力装置としてコンピュータを機能させるプログラムをコンピュータに読込ませて動作させることができる。
【0036】
【発明の実施の形態】
図1は、本発明の実施の一形態として、ユーザが発信したリクエストを受け、DJ付の放送形式で再生するコンテンツ出力装置の概略的なシステム構成を示す。図2は、図1の全体的な動作を示す。以下、図1および図2を参照して、本実施形態の構成および動作の概要を説明する。
【0037】
本実施形態では、ユーザ1が発信したリクエストを、インターネットなどのデータ通信ネットワークを介して、音楽配信サーバ2がコンテンツ出力装置として受付け、コンテンツとしての台詞によるDJ付の放送形式で再生する。ユーザ1が行うリクエスト3の送信は、メール4として、特定フォーマットに従って書くことや、オペレータが人手で情報入力することによるか、フォーム5として、WWW(World Wide Web)上のページのフォームや、パーソナルコンピュータ(PC)で動作しているアプリケーションプログラムのフォームなどに従って入力することが考えられる。
【0038】
ユーザ1が送信したリクエスト3は、ステップSA−0から動作を開始する音楽配信サーバ2が、ステップSA−1で受信する。リクエスト3には、音楽属性情報6として、リクエスト曲名7およびリクエスト者名8が含まれる。さらに感想・エピソード10を含ませることもできる。ステップSA−2では、感想・エピソード10が有るか否かを判断する。有ると判断されなければ、ステップSA−4で曲名が未記入であるか否かを判断する。リクエスト曲名7が記入されていれば、ステップSA−5で、リクエスト曲名7に基づいて音楽DB10から楽曲データ11を取得する。リクエスト曲名7として、予め設定される番号やコードなどを用いることもできる。また、同一の楽曲データ11に対して、複数の呼び方を該当させたり、ある程度の曖昧さも許容して、完全に正確でなくても対応可能にしておくこともできる。
【0039】
ステップSA−6では、楽曲データ11が無いか否かを判断する。楽曲データ11が有れば、ステップSA−7でDJのための台詞合成処理を行う。コンテンツである台詞は、台詞音声データ12として、楽曲データ11とともに、音楽配信サーバ2がユーザ1に配信する配信データ13に含まれる。台詞音声データ12は、ステップSA−8で、音声合成処理14を行って作成する。
【0040】
ステップSA−7の音声合成処理14は、音楽属性情報6に感想・エピソード9が含まれていれば、その感想データ等も含めて合成する。ステップSA−2で感想データ有りと判断するときは、リクエスト3の受信時に、ステップSA−3で、感想・エピソード9を属性情報DB15に保存しておく。
【0041】
音声合成処理14で合成して音声化する対象となる台詞16は、テキストデータであり、リクエスト曲にあわせて喋るように用意する。台詞16は、台詞DB17に、複数がその標準的な出力時間とともにデータベース化されて記憶されている。台詞DB17に、台詞16をテキストデータではなく音声データで持つ場合には、音声合成処理14は必要ない。
【0042】
ステップSA−9では、予め指定される楽曲データ11の前奏、もしくは間奏、後奏などの部分にコンテンツである台詞16から作成する台詞音声データ12を合成して、音楽配信サーバ2がユーザ1に配信する配信データ13を生成し、ステップSA−10でユーザ1に配信データ13を配信する。デフォルトの指定では、たとえば楽曲データ11の前奏部分に台詞音声データ12を挿入する。ステップSA−4で曲名未記入と判断されるとき、またはステップSA−6で楽曲データ無しと判断されるときは、ステップSA−11でエラーメッセージをユーザ1に配信する。ステップSA−9またはステップSA−10が終了すると、ステップSA−12で全体の動作も終了する。ユーザ1は、配信データ13を音楽プレイヤ19などの再生装置で、リクエスト曲20として再生し、DJ付の状態で楽しむことができる。
【0043】
配信データ13の楽曲データ11としては、PCM(Pulse Code Modulation)ファイル等の非圧縮形式のファイルや、MPEG(Moving Picture codingExperts Group )1のAudio Layer III からMP3と略称される形式などの圧縮ファイルが考えられる。楽曲データ11の圧縮ファイルは、再生時のデコーダを用いて非圧縮の楽曲データに変換することができる。楽曲データ11および台詞音声データ12の双方がPCMファイルの場合、音声ミキシングは技術的に難しくない。合成範囲で楽曲データ11の再生音量ボリュームを下げることも技術的に困難はない。ミキシング後にこの非圧縮データを、エンコーダで楽曲データ11の元の圧縮ファイルフォーマットに戻すことが考えられる。音楽ファイルではなくAVI(Audio/Video Interleaved )やMPEG2などの映像メディアの場合も、同様に非圧縮データに変換し合成する方法が考えられる。
【0044】
なお、楽曲データ11および台詞音声データ12をそのままユーザ1の音楽プレイヤ19に送付し、この音楽プレイヤ19上で音声合成処理を行うようにすることもできる。このようにして、音楽プレイヤ19でリクエスト曲20の再生がDJ付で実行される。このDJには、前述のように、属性情報DB15に記憶しているリクエスト3の感想等データを台詞合成処理時に利用することもできる。
【0045】
図1の実施形態では、「音楽配信」を行うシステムであるので、音楽データや音楽属性情報、音声合成機能は音楽配信サーバ2側にある。しかし本発明は、サーバではなくクライアントとなるユーザ端末、たとえば携帯電話、PDA(Personal Digital Assistant)、モバイルPC等にこういったデータや機能があった場合でも、同様の方法で適切な台詞を出力することができる。ユーザ端末側で台詞を作成する場合には、台詞に「ユーザ情報」を利用しやすくなると考えられる。たとえば本発明を利用し、「携帯電話で楽曲を再生中に、間奏時間を利用して、新着メール情報をDJで伝える」といった機能を実現する場合には、ユーザ端末側で台詞を合成するほうが実現しやすい。
【0046】
図3は、図1に示す台詞DB17の例を示す。台詞DB17は、台詞テーブルSTと、採用条件テーブルCTとで構成される。台詞テーブルSTでは、コンテンツデータである台詞内容Sと秒単位の発声時間SL(m秒)と、さらに採用条件番号SNとが1セットになっている。 発声時間SLは、その台詞を標準速度で読み上げたときにかかる時間である。採用条件テーブルCTは、採用条件番号SNと採用条件Cとの対からなる。
【0047】
図4は、図2のステップSA−8での台詞合成処理18の例を示す。図4では、台詞合成処理18で採用する台詞16を決定する処理の大まかな流れを示す。採用条件Cには条件式が記述され、この条件が成り立つ場合には、真となる採用条件番号をリストTLに列挙するとともに、同じ採用条件番号SNを持つ台詞テーブルSTのレコードが台詞候補となる。このとき、台詞16に状況によって変化する変数表記を用意する場合、この変数名VNに適切な変数値Vを反映させる。なお、変数領域VAは、台詞合成処理18を実行するプログラムで用意しておく。
【0048】
台詞内容Sの発声時間は、変数表現以外の部分についての長さとする。変数値Vの発声時間は不定のため、以下の方法でこの長さを取得することが考えられる。
▲1▼音声合成エンジンにこのテキストを与えて長さを計測:正確だが処理に時間がかかる。
▲2▼読みの長さから概算して取得:ひらがな読みに変更し、たとえば1文字0.5秒とする、など。
▲3▼表記の長さから概算して取得:ひらがなやカタカナを1文字0.5秒とし、漢字1文字0.8秒とするなど。
▲4▼よく使用する単語や表記については、その発声時間をテーブルとして持っておく。
【0049】
図5は、図1の台詞合成処理18の手順を示す。ステップS0から手順を開始し、ステップS1では属性情報DB15から音楽属性情報を受け取る。台詞合成処理18に必要な属性情報は、ユーザ1からリクエスト3として送られてきた情報と、属性情報DB15からの参照情報を併用する。まず、扱う楽曲のキーとなるリクエスト曲名7および「アーティスト名」をユーザ1から送られてきた情報から確定し、この情報をもとに属性情報DB15の各種情報を参照する。参照する情報としては、前奏、間奏、後奏などの時間、コメント、アーティスト近況等が考えられる。また、リクエスト者の情報であるリクエスト者名8および「リクエスト者住所」も情報として利用する。他にも、「音楽配信システム利用回数」など、ユーザ1に対応したデータを持つようにして、より複雑な台詞14を実現する場合には、このユーザ1毎のデータもここで取得する。このユーザ1毎のデータは、ローカルに保存しておいていても、音楽配信サーバ2に直接保存していてもかまわない。ローカルに保存する場合は、Cookieと呼ばれるデータの形で、ユーザ1が音楽配信サーバ2にアクセスすると、自動的に送信するようにすることもできる。ユーザ1毎のデータには、楽曲データ11に対してコンテンツを挿入する部分のユーザ1による指定を含めることもできる。
【0050】
ステップS2では、変数値をセットする。ステップS3では、採用条件テーブルCTから、真となる採用条件番号リストTLを作成する採用条件チェック処理を行う。ステップS4では、採用条件番号リストTLに採用条件番号SNがあるレコードの台詞内容Sに変数値Vを適用する。ステップS5では、発声時間SLに変数値の発声時間を加算する。ステップS6では、発声時間SLが目標時間PLに近いレコードの台詞16を選択する。ステップS7では、台詞16を音声合成処理14に渡す。ステップS8で台詞合成処理の手順を終了する。ステップS2〜S6については、以下でさらに説明する。
【0051】
図6は、図5のステップS2で変数値をセットする処理内容を示す。まず、ステップS2−0から処理を開始し、ステップS2−1では、リクエスト3を送信したユーザ1に対し、ユーザ毎に保存している統計値を取得する。ここでは、このリクエスト者名8に基づいて検索される配信サービス利用回数である。初回のサービス利用ならば、1を入れる。次にステップS2−2で、今日はじめてのリクエストであるか否かを判断する。これが今日はじめてのリクエストでないと判断する場合、ステップS2−3に進み、配信サービス利用回数を増やし、DJの会話状態をあらわす変数PHASEを「挨拶」にセットする。ステップS2−2で、今日はじめてのリクエストではないと判断する場合には、ステップS2−4に進み、変数PHASEを次に進める。ステップS2−3またはステップS2−4が終了すると、ステップS2−5で、現時刻をセットする。これは、第6図の「変数の定義」で説明するように、システムから受け取る時刻情報を用いて決定する。ステップS2−6で変数値のセットを終了する。
【0052】
図7は、図5のステップS3で、採用条件テーブルCTから、真となる採用条件番号リストTLを作成する処理内容を示す。これは、図4に示す「採用条件チェック処理」に該当する。採用条件テーブルCTの各レコードの採用条件Cは、図5のステップS2でセットされた変数値を用いる条件式で構成されている。この処理では、この条件式が真となるすべてのレコードの採用条件番号を検出する。処理は、ステップS3−0から開始し、ステップS3−1では、整数カウンタiを初期化する。採用条件番号iの採用条件をC[i]と表記する。ステップS3−2では、整数カウンタiが採用条件番号SNの要素数未満であるか否かを判断する。iに対する判断が採用条件テーブルCTのすべてのレコードについて行われるまで、ステップS3−3で、採用条件C[i]が真かどうかをチェックする。真の場合、ステップS3−4で、リストTLに採用条件番号iを追加する。ステップS3−4の後、またはステップS3−3で真でないと判断するとき、ステップS3−5で整数カウンタをインクリメントし、ステップS3−2に戻ってすべてのレコードについてチェックするまで、ステップS3−2〜ステップS3−5を繰返す。ステップS3−2でi<SN要素数ではなく、すべての採用条件番号についてのチェックが終了したと判断するときは、ステップS3−6で処理を終了する。
【0053】
以上説明した処理によって生成したリストTLには、今回真となる採用条件番号SNがすべて追加されている。この採用条件番号SNをもつ台詞のレコードを、台詞テーブルSTからすべて「台詞の候補」として抜き出す。図5の手順では、ステップS4でこのすべてのレコードに対して、変数領域VAをもとに、変数値Vを反映させ、反映した変数値に対応する発声時間を、ステップS5でレコードの発声時間に加算し、ステップS6で最も適切な発声時間のレコードを決定する。
【0054】
図8は、図5のステップS4〜ステップS6での処理内容を示す。まず、ステップS4−0から処理を開始し、ステップS4−1ではループカウンタiを0に初期化し、最適な台詞を格納する変数jに、初期値として1番目の台詞レコードであるS[0]をセットする。なお、採用条件番号iの台詞内容をS[i]と表記する。リストTLのn番目の要素をTL[n]と表記する。台詞jの発声時間をSL(j)と表記する。PLは目標時間であって、曲の前奏、間奏、後奏の長さなどを指定とすることができ、デフォルトでは、たとえば前奏に指定される。音楽配信サーバ2の設置者側で、前奏、間奏または後奏のいずれでも、一定時間以上あればその時間を目標時間として指定するように設定することもできる。また、ユーザ1が目標時間をリクエスト3に含めることなどで指定することもできる。
【0055】
まず、ステップS4−2で、すべてのレコードをチェックするために、ループカウンタiがリストTLの要素数未満であるというループ条件を設ける。次に、ステップS4−3で、レコードの台詞内容Sに変数表現があるかどうかチェックする。ある場合、ステップS4−4で、図4に示す変数領域VAから変数値Vをここに置換して反映させ、ステップS4−5で反映させた変数値Vに対応する発声時間SL(V)を、台詞SのレコードTL[i]の発声時間SL(S[TL[i]])に加算する。
【0056】
ステップS4−3でリストTLのi番目の台詞内容S[TL[i]]に変数がないと判断するとき、またはステップS4−5の処理が終了すると、ステップS4−6でレコード発声時間SL(S[TL[i]])が目標時間PL以内であるか否かを判断する。ない場合には、前奏などの目標時間PL中に台詞が収まりきれないことになるので、次のレコードのチェックにループを進める。
【0057】
ステップS4−6でレコード発声時間SLが目標時間PL以内と判断するときは、ステップS4−7で、発声時間SLが、現在の最適台詞jの発声時間SL(j)よりも大きいか否かを判断する。大きい場合、このレコードの台詞は、最適台詞jよりも目標時間PLに近い台詞ということになる。この場合、ステップS4−8に進み、このレコードの台詞を、新たに最適台詞jとする。ステップS4−8の後、またはステップS4−6で発声時間SLが目標時間を超えているか、ステップS4−7で発声時間SLが最適台詞SL(j)以下であると判断するときは、ステップS4−9に進み、ループカウンタiをインクリメントし、ステップS4−2に戻って、すべてのレコードについてチェックするまで繰返す。ステップS4−2で、ループカウンタiがリストTLの要素数以上、すなわちすべてのレコードのチェックが終了していると判断するときは、ステップS4−10で処理を終了する。
【0058】
図9は、図1で属性情報DB15に属性情報を蓄えて、台詞合成処理18で活用する状態を示す。属性情報は、ユーザ1によるリクエスト送信時に送信されるリクエスト3に、メール4やフォーム5の感想等の内容として含まれている。音楽配信サーバ2は、リクエスト受信のときに、その感想等の情報を抽出して、属性情報DB15に蓄える。台詞合成処理18のとき、属性情報DB15に蓄えられている情報が活用される。
【0059】
図10は、図4に示す台詞合成処理18において、再生する楽曲の前奏(もしくは間奏、後奏)の長さにあわせた台詞を選択する選択方法の例を示す。 前奏、間奏、後奏時間は、属性情報DB15に記憶されているものとする。楽曲データから実測する方法も考えられる。楽曲データからの実測方法は後述する。前奏等の長さを取得すると、これを目標時間PLとして設定する。目標時間PLに最も近い発声時間SLの台詞を使用する。歌唱と台詞によるDJとがかぶらないように、PL≧SLとすることが望ましい。単純な候補選択の手順として、具体的には「PL≧SLを満たして、かつ、SLが最大となる候補を選ぶ」という、図8に示すような方法が考えられる。
【0060】
この例では、単純に「一回の台詞で1つの台詞レコードを使用する」ように書いているが、実際には、一回のDJで、複数の台詞を組み合わせて使うことが考えられる。その場合も同様の発想で、適切な長さの台詞を合成すればよい。
【0061】
台詞トータルの発声時間だけでなく、変数に使う値を決定するときにも、この「発声時間」を利用できる。たとえば、トータル16秒の台詞を15秒にしたいときには、変数値(たとえばリクエストの感想文など)を1秒短い他の表現や候補に変更することで対応可能である。
【0062】
微妙な読み上げ時間の調整は、読み上げスピードの変化でも可能である。台詞データに、「読み上げスピード指示のパラメータ」を保持し、大事な部分をゆっくり読み上げると、より自然な台詞にすることができる。音声合成エンジンには、その再生テキストに「どのように読み上げるか(楽しく、悲しく、強く、優しく等)」タグを付与することができるものもある。この場合、合成音の大きさや高さ、音色が変化するのが一般的である。しかしスピードによる抑揚は自然な台詞出力には重要である。
【0063】
たとえば、「曲名とアーティスト名との部分のみ、他の部分の読み上げ速度より少しゆっくり喋る」ことで、台詞をより自然に喋らせることができる。この時間変化を、台詞時間の微調整に利用することで、より効果的な台詞作成システムとなる。
【0064】
具体的には、
(台詞の発声時間SL÷台詞の読み上げスピードSP1+曲名の発声時間SL2÷曲名の読み上げスピードSP2+アーティスト名の発声時間SL3÷アーティスト名の読み上げスピードSP3)=目標時間PL
となるようなスピードSP1,SP2,SP3を、標準スピードに対する比として求めればよい。
【0065】
たとえば、SP1を標準スピードの1倍で1とし、SP2=SP3と定めると、次式によりSP2,SP3が求まる。
【0066】
SP2=SP3=(SL2+SL3)÷(PL−SL)
またSP1=SP2=SP3と定めると、
SP1=SP2=SP3=(SL+SL2+SL3)÷PL
により、SP1,SP2,SP3が求まる。また、SP1,SP2,SP3をそれぞれ異なる値としてもよい。
【0067】
図11は、図4の「変数領域VA」内の変数定義テーブルの例を示す。図4で出現している変数は、「現時刻」、「配信サービス利用回数」、「PHASE」、「季節」、「今回リクエスト数」、「DJ所」および「最後にお知らせ」の7つである。「現時刻」は、この定義テーブルに従い、実際の時刻に対応した値を使用する。たとえば、実際の時刻が午後3時23分の場合、値は「午後」となる。「配信サービス利用回数」は、このユーザ1が過去に配信サービスを利用した回数にとなる。「PHASE」は、DJがどんな台詞を喋る状態にあるか、その状態を示している。遷移の例については後述する。「季節」は、「現時刻」同様に、現在の月によって変化する。たとえば現在1月の場合には、「冬」となる。これらの日時に関する変数値は、ベースとなるシステムのサービスルーチンなどで変更する。「今回リクエスト数」は、現在何曲目のリクエストかを保持している。「DJ所」は、現在再生すべき楽曲のどこに台詞を挿入すべきかを示す値である。値は「前奏」「間奏」「後奏」のいずれかとなる。「DJ所」の決定方法に特に指定はないが、一例として次に示すような方法を採ることができる。
【0068】
まず、デフォルトで「前奏」にDJするよう設定する。ただし、「前奏」が10秒に満たない場合、「後奏」でDJする。「後奏」が10秒に満たない場合、「間奏」にてDJする。前奏、間奏、後奏の指定がない場合、歌のないインストゥルメンタルのみの楽曲とみなし、DJは曲とかぶらないように入れる。2曲続けて曲を流すような場合には、デフォルトを1曲目前奏、2曲目後奏でDJするようにする。このように、変数定義テーブルは、コンテンツである台詞の目標時間PLを指定する指定手段として機能する。ただしこの指定は間接的である。
【0069】
また、これらの値の中には、配信サービス処理終了後も保存しておく必要があるものもある。たとえば「配信サービス利用回数」などである。変数値データの保存場所はどこでもかまわない。すなわち、音楽配信サーバ2側に保存しても、ユーザ1が使用するクライアント側に保存してもかまわない。
【0070】
図12は、台詞決定のための図10とは異なる手法を示す。図10では、台詞の長さのみで台詞候補を決定しているけれども、ここでは、台詞決定の指標として他の要素が加わった場合について、その決定方法を説明する。
【0071】
他の要素としては、「優先順位」や「台詞使用回数」を加えることができる。なお、図12では、台詞内容Sに変数値が反映され、発声時間も変数の長さを加算したものとなっているものとする。台詞候補リストには、次式計算するスコアを付与する。スコアは目標出力時間長としての目標時間PLとコンテンツデータである台詞の発声時間SLとの比較結果に対応する。台詞候補リストをスコアでソートし、目的に最も適したスコアを持つ台詞候補を採用する。なお、選択に使用するパラメータとしては、次のようなものを含める。
【0072】
発声時間SL:台詞の長さは、0〜2000m秒程度とする。
発声時間が目標時間に近いほど採用率を高くしたい。
【0073】
優先度PR:0〜5の数字とする
0:できる限り採用してほしい台詞 5:優先度の低い台詞
優先度が小さいほど採用率を高くしたい。
【0074】
使用回数UT:0〜100の数字とする
(100回以上の使用はカウントしない)
使用回数が少ないほど採用率を高くしたい。
【0075】
これらのパラメータをある程度平等に、またパラメータ同士の重み付けを行うため、各パラメータ値に定数a,b,cなどをかけて次式のように加算する。図12の例では、パラメータ値のレンジがそれぞれ0〜100の範囲になるように定数を設定している。実際には、台詞の内容に応じて定数a,b,cを適切にチューニングする必要がある。一般的には、aをもっと大きくして発声時間を重視した方が適した台詞が出現すると考えられる。
【0076】
スコアSC = a×(PL−SL)+ b×PR+c×UT
(a=0.005、b=20、c=1)
このスコアSCの値が小さいほど、採用したい台詞となる。
【0077】
目標時間(台詞をしゃべる限界の長さ)=1600m秒のときのスコアを図で記している。
【0078】
目標時間との比較結果では、上から5番目の台詞のスコアが23.5で最小であり、最適な台詞となる。
【0079】
しかし「絶対に採用したい台詞が候補にある場合」、優先的に採用することが要望される。たとえば、ユーザ1へのお知らせの台詞がある。この台詞が候補にある場合には必ず採用したい、というケースもありうる。この場合、「絶対に採用したい台詞」の優先度を0にしておき、スコアでソートする前に、優先度0の候補がないか確認し、あればこれを優先して採用する方法が考えられる。
【0080】
このようにして、複数の要素を通して最適の台詞を得ることができる。台詞合成に使用する情報として、音楽属性情報以外にもさまざまな情報がある。たとえば、図4では、「さあ本日もやってまいりましたこの[現時刻]のひととき!」という台詞を例にしているが、[現時刻]という部分には、現在が午後1時だった場合には「午後」と入れたいとする。このような場合に、台詞に変数表現を用いる。変数には、システムから得られる時刻情報などをもとにするもの(現時刻、季節)と、ユーザ1ごとに保存する統計データをもとにするもの(配信サービス利用回数)と、現在の台詞合成処理内の状態をあらわすもの(PHASE、今回リクエスト数、DJ所)などがある。台詞合成処理では、図5にステップS2として示すように、こういった変数値の初期化を行う必要がある。
【0081】
一例として、図6では、「配信サービス利用回数」と「現時刻」および「PHASE」の初期値をセットしている。
【0082】
図13は、会話の状態をあらわす変数「PHASE」の遷移例の処理を示す。状態SB−0から処理を開始し、状態SB−1として、最初に必ず「挨拶」、次にステップSB−2として「n曲目紹介」に入る。状態SB−2からは、状態SB−2、SB−3、SB−4のすべてに遷移する可能性がある。状態SB−2が終了したあと、楽曲再生が終了するまで状態は次に遷移しない。その後、状態SB−2からは次のように遷移する。
▲1▼次のリクエストがすでに入っている
i.前回の遷移状態がSB−2の場合、状態SB−3へ遷移し、一息入れる会話とする。
ii.前回の遷移状態がSB−3の場合、状態SB−2へ遷移して曲紹介に戻る。
▲2▼次のリクエストがまだ入っていない
i.前回の遷移状態がSB−2の場合、状態SB−3へ遷移し、一息入れる会話とする。
【0083】
(しかしすでにサービス利用時間が長い場合には、状態SB−4へ遷移する)
ii.前回の遷移状態がSB−3の場合、状態SB−4へ遷移して終わりの挨拶とする。
最後に、「終わりの挨拶」(状態SB−4)となる。
【0084】
図14は、楽曲データから前奏、間奏、後奏時間を実測する考え方を示す。これまでの説明では、前奏、間奏、後奏時間(開始時間とその長さ)を、属性情報DB15より取得するようにしている。そこで、この情報を実測する具体的方法をひとつ紹介する。
【0085】
楽曲データのすべてに、前奏、間奏、および後奏時間が記されているわけではない。この例では、楽曲データ11と、その楽曲のカラオケデータ22との差異をとって、その差異がない部分の情報23から前奏、間奏、後奏部分を検出している。一般に、今日発売されている楽曲のシングルCDには、ボーカル入りの楽曲と、ボーカルなしのカラオケとが一緒に入っていることが多い。この2つのデータを比較して、同一となる部分はボーカルのない部分とみなすことができる。この「ボーカルのない部分」のうち、ある程度の長さを持つ部分を前奏、間奏、後奏部分とみなすことができる。
【0086】
また、シングルCDには2曲以上の楽曲データ11が収録されていることがある。この場合、シングルCD内のどの曲が楽曲カラオケデータ22なのかを特定する必要があるが、楽曲データ11と楽曲カラオケデータ22の「演奏時間」がほぼ同一なことを利用することでこれを機械的に特定することができる。
この実測作業は、音楽配信サーバ2側で予め測定しておいてもよく、楽曲再生時にリアルタイムに実施することも可能である。当然、楽曲再生側で楽曲データ11と楽曲カラオケデータ22の双方を受け取って実測することも可能である。
【0087】
以上で説明しているように、本実施形態では、DJやナレーションなどの台詞をコンテンツデータとして読み上げるシステムにおいて、状況に合わせて適切な長さの台詞を用意することができる。合成音声でDJするシーンとしては、以下が考えられる。
・音楽や映像といったマルチメディアコンテンツ再生にあわせて、その再生前、前奏、間奏、後奏、再生終了後に、再生する楽曲のさまざまな属性情報(曲名、アーティスト名、アーティスト活動状況)や、ユーザの情報(たとえば、携帯電話で楽曲を再生中に、新着メール情報を伝達する)をトピックとした台詞をDJする。
・ゲームの進行、状況にあわせて、そのシーンとシーンの合間に、ユーザを盛り上げる実況中継やナレーションを喋る。
・スケジュールがタイムテーブルで管理されており、与えられる時間枠が動的に変化しうる場合、その時間枠内でさまざまな告知、たとえばニュースや天気予報、その他トピックのナレーション、CMなどを行う必要がある場合。
【0088】
そこで、台詞を合成する際に、台詞を喋る時間の長さに合わせてそれに適した台詞を合成する。このために、台詞のもととなるデータを管理する台詞DB17には、それぞれの台詞パーツデータにその「通常読み上げ時間長」を保管する。たとえば、この「通常読み上げ時間長」を利用し、台詞読上目標時間に近い長さの台詞候補には高得点を付与し、台詞候補を得点でソートし採用する際に優位になるようにすればよい。
【0089】
このしくみの台詞DB17を採用することで、喋る長さが動的な場合でも、状況に合わせてより適切な台詞を喋ることができる。また、会話の使用回数を保存したり、直前に喋った会話のログを参考にすることで、一度使用した会話を連続して使わないようにし、聞き手を飽きさせないようにすることができる。さらに、台詞データに優先度を付与することで、適切な会話を選択できるよう調節することができる。優先度を付与する方法としては、たとえば台詞テーブルSTのレコードに、項目として[優先度]を追加し、台詞候補からの選出時に利用するようにすればよい。
【0090】
以上の説明では、配信データ12に含まれる台詞をコンテンツとしているけれども、ユーザ1にとっては、楽曲データ11も配信を受ける目的のコンテンツである。台詞を第1のコンテンツとすれば、楽曲データ11は第2のコンテンツデータであり、図1の音楽DB10は、第2のコンテンツデータを入力するコンテンツ入力手段とみなすことができる。このような音楽DB10は、インターネット上に分散して構築することもできる。
【0091】
なお、本発明は、音声だけでなく、映像やテロップ表示などをコンテンツデータとする場合へも適用して、出力する時間を合わせることができる。
【0092】
【発明の効果】
以上のように本発明によれば、音声、映像やテロップなどを含むコンテンツデータが複数記憶されているコンテンツデータベースから、目標時間に基づいてコンテンツデータを選択するので、出力されるコンテンツデータの出力時間長は予め定める条件を満たし、状況に応じて適切な時間長でコンテンツデータを出力することができる。
【0093】
また本発明によれば、複数のコンテンツデータの出力時間長の合計値が目標時間に適合するように選択するので、たとえば複数の台詞の組合せや、変数によって生成される台詞の組合せなど、目標時間に合わせて選択される複数のコンテンツデータを連続して出力することができる。
【0094】
また本発明によれば、たとえば台詞に含まれる変数名などのタグデータを含むコンテンツデータで、タグデータの部分に、現時刻や、たとえば音楽情報についてのアーティスト、曲名、今回リクエスト数などの種々の情報を追加し、全体として多様な情報を表現することができる。
【0095】
また本発明によれば、コンテンツデータに含まれるタグデータによって、たとえばアーティスト、曲名、現時刻、今回リクエスト数等の状況の変化を反映させ、コンテンツデータを出力時間が適切になるように選択することができる。
【0096】
また本発明によれば、たとえば利用回数やリクエスト数などの採用条件を満たすコンテンツデータを、目標時間を基準に選択して出力することができる。
【0097】
また本発明によれば、優先度が高いコンテンツデータを、目標時間を基準に選択して出力することができる。
【0098】
また本発明によれば、コンテンツデータを、目標時間を基準に、使用回数を考慮して選択して出力することができる。
【0099】
また本発明によれば、複数のコンテンツデータを、総出力時間長が目標時間に近づくように組合せ、さらに出力速度を変更して、総出力時間長を目標時間に合わせることができる。
【0100】
さらに本発明によれば、コンテンツ出力装置は、たとえば台詞などの第1のコンテンツデータが複数記憶されたコンテンツデータベースから、選択手段によって所望の第1のコンテンツデータを選択し、選択された第1のコンテンツデータを出力するために、コンテンツ入力手段および属性入力手段に、たとえば楽曲データおよびその前奏や間奏時間などの第2のコンテンツデータおよびその属性データをそれぞれ入力する。第2のコンテンツデータとしての楽曲データなどに適合する第1のコンテンツデータとしての台詞データなどを、前奏時間や乾燥時間などに合わせて選択し、組合わせて出力することができる。
【0101】
また本発明によれば、第2のコンテンツデータ、たとえば楽曲データなどを入力する際に、属性データとして、第1のコンテンツデータ、たとえば台詞を合成する時間位置や時間長の情報を入力し、第2のコンテンツデータに対して第1のコンテンツデータを適切に組合わせて、合成して出力することができる。
【0102】
また本発明によれば、言語情報をコンテンツとして状況に応じて適切な時間で音声合成して出力して、たとえばDJやナレーションなどとして、コンテンツデータ全体を予め設定される目標時間に合わせることができる。
【0103】
さらに本発明によれば、音声合成機能などを有するコンピュータで音声合成機能に基づいて出力するコンテンツデータを、目標時間に合わせて選択して出力するように機能させることができる。
【0104】
さらに本発明によれば、目標時間に合わせてコンテンツデータベースを選択して出力するコンテンツ出力装置としてコンピュータを機能させるプログラムを記録しておき、コンピュータに読込ませて動作させることができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態としてのコンテンツ出力装置の概略的なシステム構成を示すブロック図である。
【図2】図1の音楽配信サーバ2による配信処理の手順を示すフローチャートである。
【図3】図1の台詞DB17の例を示すブロック図である。
【図4】図1の台詞合成処理18の例を示すブロック図である。
【図5】図1の台詞合成処理18の全体的な処理手順を示すフローチャートである。
【図6】図5のステップS2で変数値をセットする処理の手順を示すフローチャートである。
【図7】図5のステップS3で行う採用条件チェック処理の手順を示すフローチャートである。
【図8】図5のステップS4〜S6で行う処理の具体的手順を示すフローチャートである。
【図9】図1の台詞合成処理18で属性情報DB15に蓄えられる属性情報を利用する状態を示すブロック図である。
【図10】図1で属性情報DB15から発声時間と目標時間とを比較して、台詞の会話候補を選択する状態を示すブロック図である。
【図11】図4の変数領域VAに記憶される変数の定義の例を示す図である。
【図12】図4の台詞合成処理で、台詞の採用率を、優先度、使用回数、スコアに基づいて決定する考え方を示す図である。
【図13】図6のステップS2−4で次のPHASEに進めるためのPHASEの遷移状態図である。
【図14】図1の楽曲データ11から前奏時間等を実測する考え方を示す波形図である。
【符号の説明】
1 ユーザ
2 音楽配信サーバ
3 リクエスト
4 メール
5 フォーム
6 音楽属性情報
7 リクエスト曲名
8 リクエスト者名
9 感想・エピソード
10 音楽DB
11 楽曲データ
12 台詞音声データ
13 配信データ
14 音声合成処理
15 属性情報DB
16 台詞
17 台詞DB
18 台詞合成処理
19 音楽プレイヤ
20 リクエスト曲
22 楽曲カラオケデータ
23 情報
Claims (13)
- コンテンツデータが複数記憶されているコンテンツデータベースから、選択手段によって所望のコンテンツデータを選択し、選択されたコンテンツデータを出力手段によって出力するコンテンツ出力装置において、
出力するコンテンツデータの選択基準として、目標時間を指定する指定手段をさらに備え、
コンテンツデータベースには、各コンテンツデータが出力に必要な出力時間長とともに記憶されており、
選択手段は、コンテンツデータベースを検索して、各コンテンツデータの出力時間長と指定手段によって指定される目標時間とを比較し、比較結果が予め定める条件を満たすコンテンツデータを選択することを特徴とするコンテンツ出力装置。 - 前記選択手段は、前記コンテンツデータを複数組合わせるときの前記出力時間長の合計値と前記目標時間との比較結果に基づいて、複数のコンテンツデータを選択し、
前記出力手段は、選択手段によって選択される複数のコンテンツデータを連続して出力することを特徴とする請求項1に記載のコンテンツ出力装置。 - 前記コンテンツデータベースに記憶されているコンテンツデータには、他のコンテンツデータの挿入を指示するタグデータが含まれており、
前記選択手段は、該タグデータに従って組み合わされるコンテンツデータの前記出力時間長の合計値と前記目標時間との比較結果に基づいて、前記複数のコンテンツデータを選択することを特徴とする請求項2に記載のコンテンツ出力装置。 - 前記タグデータは、状況に応じて値が変化する変数を指定するデータであり、
前記選択手段は、該タグデータによって指定される変数の現在の値に従って組み合わされる複数のコンテンツデータの出力時間長の和と前記目標時間との比較結果に基づいて、複数のコンテンツデータを選択することを特徴とする請求項3に記載のコンテンツ出力装置。 - 前記コンテンツデータベースに記憶されているコンテンツデータには、状況に応じて値が変化する変数の値を指定する採用条件データが含まれており、
前記選択手段は、該採用条件データと指定される変数の現在の値との比較結果、およびコンテンツデータの前記出力時間長と前記目標時間との比較結果に基づいて、コンテンツデータを選択することを特徴とする請求項1〜4のいずれかに記載のコンテンツ出力装置。 - 前記コンテンツデータベースに記憶されているコンテンツデータには、優先度データが含まれており、
前記選択手段は、該優先度データ、および前記出力時間長と前記目標時間との比較結果に基づいて、コンテンツデータを選択することを特徴とする請求項1〜5のいずれかに記載のコンテンツ出力装置。 - 前記コンテンツデータベースに記憶されているコンテンツデータには、使用回数データが含まれており、
前記選択手段は、該使用回数データ、およびコンテンツデータの出力時間長と前記目標時間との比較結果に基づいて、コンテンツデータを選択することを特徴とする請求項1〜6のいずれかに記載のコンテンツ出力装置。 - 前記出力手段は、前記選択手段によって選択される1または複数のコンテンツデータの総出力時間長が、前記目標時間と略一致するように、出力速度を変更して出力することを特徴とする請求項1〜7のいずれかに記載のコンテンツ出力装置。
- 第1のコンテンツデータが複数記憶されたコンテンツデータベースから、選択手段によって所望の第1のコンテンツデータを選択し、選択された第1のコンテンツデータを出力するコンテンツ出力装置において、
第2のコンテンツデータを入力するコンテンツ入力手段と、
該第2のコンテンツデータに対応する属性データを入力する属性入力手段と、
属性入力手段に入力される属性データに基づいて、第1のコンテンツデータの目標時間を指定する指定手段とをさらに備え、
選択手段は、コンテンツデータベースを検索して、各第1のコンテンツデータの出力時間長と指定手段によって指定される目標時間とを比較し、比較結果が予め定める条件を満たす第1のコンテンツデータを選択し、
出力手段は、選択手段によって選択される第1のコンテンツデータと、コンテンツ入力手段に入力される第2のコンテンツデータとを合成して出力することを特徴とするコンテンツ出力装置。 - 前記属性入力手段によって入力される属性データは、前記第2のコンテンツデータに前記第1のコンテンツデータを重畳合成する時間位置情報および時間長情報を含み、
前記指定手段は、前記属性データに含まれる時間長情報に基づいて第1のコンテンツデータの目標時間を指定し、
前記出力手段は、該属性データに含まれる時間位置情報に基づく第2のコンテンツデータの時間位置に第1のコンテンツデータを重畳合成し、該合成されたコンテンツデータを出力することを特徴とする請求項9に記載のコンテンツ出力装置。 - 前記コンテンツは、言語情報を含み、
前記出力手段は、該言語情報を音声合成して出力することを特徴とする請求項1〜10のいずれかに記載のコンテンツ出力装置。 - コンピュータを、請求項1〜11のいずれかに記載のコンテンツ出力装置として機能させるプログラム。
- コンピュータを、請求項1〜11のいずれかに記載のコンテンツ出力装置として機能させるプログラムが記録されるコンピュータ読取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002223411A JP2004062769A (ja) | 2002-07-31 | 2002-07-31 | コンテンツ出力装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002223411A JP2004062769A (ja) | 2002-07-31 | 2002-07-31 | コンテンツ出力装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004062769A true JP2004062769A (ja) | 2004-02-26 |
Family
ID=31943170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002223411A Pending JP2004062769A (ja) | 2002-07-31 | 2002-07-31 | コンテンツ出力装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004062769A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005170648A (ja) * | 2003-12-15 | 2005-06-30 | Mitsubishi Electric Corp | 乗客コンベアの案内放送システム |
JP2005332339A (ja) * | 2004-05-21 | 2005-12-02 | Xing Inc | 音楽メール出力方法、音楽メール出力システム、及び音楽出力装置 |
JP2006023372A (ja) * | 2004-07-06 | 2006-01-26 | Denso Corp | 楽曲再生装置 |
JP2007086484A (ja) * | 2005-09-22 | 2007-04-05 | Brother Ind Ltd | コンテンツ配信システム及びコンテンツ配信方法並びにそれに用いる配信装置、端末装置及びそのプログラム |
JP2018112667A (ja) * | 2017-01-12 | 2018-07-19 | パイオニア株式会社 | 情報出力装置及び情報出力方法 |
WO2018211748A1 (ja) | 2017-05-16 | 2018-11-22 | ソニー株式会社 | 情報処理装置および情報処理方法 |
JP2020004056A (ja) * | 2018-06-27 | 2020-01-09 | Zホールディングス株式会社 | コンテンツ制御装置、制御方法および制御プログラム |
JP2022159791A (ja) * | 2021-04-05 | 2022-10-18 | モリカトロン株式会社 | セリフ分析プログラム、セリフ分析方法、およびセリフ分析システム |
-
2002
- 2002-07-31 JP JP2002223411A patent/JP2004062769A/ja active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005170648A (ja) * | 2003-12-15 | 2005-06-30 | Mitsubishi Electric Corp | 乗客コンベアの案内放送システム |
JP2005332339A (ja) * | 2004-05-21 | 2005-12-02 | Xing Inc | 音楽メール出力方法、音楽メール出力システム、及び音楽出力装置 |
JP4514513B2 (ja) * | 2004-05-21 | 2010-07-28 | 株式会社エクシング | 音楽メール出力方法、音楽メール出力システム、及び音楽出力装置 |
JP2006023372A (ja) * | 2004-07-06 | 2006-01-26 | Denso Corp | 楽曲再生装置 |
JP2007086484A (ja) * | 2005-09-22 | 2007-04-05 | Brother Ind Ltd | コンテンツ配信システム及びコンテンツ配信方法並びにそれに用いる配信装置、端末装置及びそのプログラム |
JP2018112667A (ja) * | 2017-01-12 | 2018-07-19 | パイオニア株式会社 | 情報出力装置及び情報出力方法 |
WO2018211748A1 (ja) | 2017-05-16 | 2018-11-22 | ソニー株式会社 | 情報処理装置および情報処理方法 |
JP2020004056A (ja) * | 2018-06-27 | 2020-01-09 | Zホールディングス株式会社 | コンテンツ制御装置、制御方法および制御プログラム |
JP7136606B2 (ja) | 2018-06-27 | 2022-09-13 | ヤフー株式会社 | コンテンツ制御装置、制御方法および制御プログラム |
JP2022159791A (ja) * | 2021-04-05 | 2022-10-18 | モリカトロン株式会社 | セリフ分析プログラム、セリフ分析方法、およびセリフ分析システム |
JP7315176B2 (ja) | 2021-04-05 | 2023-07-26 | モリカトロン株式会社 | セリフ分析プログラム、セリフ分析方法、およびセリフ分析システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108780653B (zh) | 音频内容制作、音频排序和音频混合的系统和方法 | |
US5732216A (en) | Audio message exchange system | |
US6093880A (en) | System for prioritizing audio for a virtual environment | |
JP3680749B2 (ja) | 自動作曲装置及び自動作曲プログラム | |
KR100582154B1 (ko) | 시퀀스 데이터의 데이터 교환 포맷, 음성 재생 장치 및서버 장치 | |
US20060136556A1 (en) | Systems and methods for personalizing audio data | |
JP3621686B2 (ja) | データ編集方法、データ編集装置、データ編集プログラム | |
JP2008529345A (ja) | 個人化メディアの生成及び配布のためのシステム及び方法 | |
EP1029402A1 (en) | System for distributing personalized audio programming | |
US5827990A (en) | Karaoke apparatus applying effect sound to background video | |
US8881045B2 (en) | Method and apparatus for generating prompt information of a mobile terminal | |
US7169999B2 (en) | Digital signal processing method and apparatus thereof, control data generation method and apparatus thereof, and program recording medium | |
JP2001215979A (ja) | カラオケ装置 | |
JP2022092032A (ja) | 歌唱合成システム及び歌唱合成方法 | |
JP2004062769A (ja) | コンテンツ出力装置 | |
CN102822887B (zh) | 混频数据递送服务器 | |
JP2003255956A (ja) | 音楽提供方法及びそのシステム,音楽制作システム | |
JP4211636B2 (ja) | 演奏制御データ生成装置、楽曲素材データ配信サーバおよびプログラム | |
JPS6192054A (ja) | 音楽情報伝送システム | |
KR0173155B1 (ko) | 온-라인 실시간 컴퓨터 음악 연주 방법 | |
Holbrow | Fluid Music | |
JPH11167388A (ja) | 音楽演奏装置 | |
KR100923095B1 (ko) | 멀티미디어 패키지 파일이 저장된 저장매체 및 휴대용단말기, 멀티미디어 패키지 파일 제공 시스템, 멀티미디어제공방법 및 단말기의 멀티미디어 패키지 파일의 재생방법 | |
JPH09152878A (ja) | カラオケ装置 | |
White | Radio formats and the transformation of musical style: codes and cultural values in the remaking of tunes |