JP2022157293A - コンテンツ再生制御システム及びプログラム - Google Patents

コンテンツ再生制御システム及びプログラム Download PDF

Info

Publication number
JP2022157293A
JP2022157293A JP2021061425A JP2021061425A JP2022157293A JP 2022157293 A JP2022157293 A JP 2022157293A JP 2021061425 A JP2021061425 A JP 2021061425A JP 2021061425 A JP2021061425 A JP 2021061425A JP 2022157293 A JP2022157293 A JP 2022157293A
Authority
JP
Japan
Prior art keywords
data
content
phoneme
cost
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021061425A
Other languages
English (en)
Inventor
誠史 ▲高▼橋
Masashi Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bandai Namco Entertainment Inc
Bandai Namco Research Inc
Original Assignee
Bandai Namco Entertainment Inc
Bandai Namco Research Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bandai Namco Entertainment Inc, Bandai Namco Research Inc filed Critical Bandai Namco Entertainment Inc
Priority to JP2021061425A priority Critical patent/JP2022157293A/ja
Publication of JP2022157293A publication Critical patent/JP2022157293A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Processing Or Creating Images (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】コンテンツに登場するキャラクタなどの発話させるためのデータを当該コンテンツとは別に提供するサービスを実現するシステムを提供し、ユーザやシステム事業者などの労力を低減させて利用しやすい環境を構築することが可能なコンテンツ再生制御システムなどを提供すること。【解決手段】サーバ装置10は、ユーザの指示の下に、コンテンツに登場するキャラクタに音素データを割り当てるとともに、コンテンツのキャラクタ数や配役数、コストによる制限、又は、再生時のシステム容量などコンテンツを再生する際にユーザが割り当てた音素データに基づく音声を用いることができない場合、又は、ランダムに音声を選択することによって遊び感覚的な目的によって視聴を希望する場合に、ユーザが利用可能な音声を用いてコンテンツをユーザに視聴させる構成を有している。【選択図】図4

Description

本発明は、コンテンツ再生制御システム及びプログラムなどに関する。
従来から、テキストだけでなく、漫画などのコンテンツに含まれるテキストに音声データを割り当てて、様々な音声によってテキストを朗読させるコンテンツ再生システムなるものが登場している。
特に、最近では、漫画データにおけるキャラクタのセリフを音声として出力するための音声データの選択を受け付け、当該漫画データを表示させる際に、選択された音声データに基づいて、表示された漫画データのキャラクタにおけるセリフを音声として出力させるシステムが知られている(例えば、特許文献1)。
特開2018-169691号公報
しかしながら、特許文献1に記載のシステムにあっては、単に音声データをテキストに割り当てるだけであり、例えば、視聴者の好みに合わせて視聴者の音声の素材データを別に用意して当該コンテンツを提供するシステムとしては実現されておらず、当該特許文献1に記載のシステムによって、このようなシステムを適用するには更なる工夫が必要である。
特に、当該特許文献1に記載のシステムにあっては、視聴者の好みに合わせて視聴者の音声の素材データを別に用意して当該コンテンツを提供する場合には、登場するキャラクタや配役が多くなればなるほど、多くの素材データを用意する必要があり、コンテンツを提供する事業者も、当該コンテンツを視聴する視聴者も多くの素材データを用意する必要性があるものの、お互いにその労力が高くなることが予想される。
本発明は、上記課題を解決するためになされたものであり、その目的は、コンテンツに登場するキャラクタなどの発話させるためのデータを当該コンテンツとは別に提供するサービスを実現するシステムを提供すること、及び、その場合に、コンテンツを提供する事業者、又は、当該コンテンツを視聴する視聴者であっても、その労力を低減させて利用しやすい環境を構築することが可能なコンテンツ再生制御システムなどを提供することにある。
(1)上記課題を解決するため、本発明は、
記憶手段に記憶されている情報であって、ユーザに関するユーザ情報と、当該ユーザ情報に対応付けられており、かつ、発話者から採取された音素データから構成される発話音素情報と、を管理するユーザ情報管理手段と、
前記発話者の音声によって音声言語化するためのテキストがデータ化されたテキストデータ及び当該テキストを発話するキャラクタに関するキャラクタデータを少なくとも含むコンテンツデータから構成されるコンテンツ情報を管理するコンテンツ管理手段と、
所与の指示に基づいて、前記キャラクタデータに、前記音素データを割り当てて、前記
コンテンツデータのテキストを音声言語化するための音声言語データを生成する音声言語データ生成処理を含む生成制御処理を実行する生成制御手段と、
前記コンテンツデータのテキストに沿って前記キャラクタの音声を再生出力する再生出力手段に、前記生成された音声言語データを提供する提供制御処理を実行する提供制御手段と、
を備え、
前記生成制御手段が、
特定の前記キャラクタ又は特定の前記テキストの少なくとも一部に割り当てる音声言語データとして、他のキャラクタ又は他のテキストに割り当てられた音素データと同一の音素データを、当該他のキャラクタ又は当該他のテキストの音声言語データを生成するときと異なる所与の加工処理に基づいて、又は、当該加工処理がなされた音素データに基づいて、前記音声言語データ生成処理とは異なる処理であって、前記コンテンツデータのテキストの少なくとも一部について、発話制御を実行するための発話制御データを生成する発話制御データ生成処理を実行する、構成を有している。
この構成により、本発明は、ユーザが保有する音素データを、キャラクタに割り付けること、及び、ユーザが使用可能な(例えば、保有する)音素データを様々なキャラクタやコンテンツに割り当てることができる。
したがって、本発明は、コンテンツに登場するキャラクタなどの発話させるためのデータを当該コンテンツとは別に提供するサービスを実現するシステムを提供し、その場合に、ユーザやシステム事業者などの労力を低減させて利用しやすい環境を構築することができる。
また、本発明は、このようなサービスを提供する際に、例えば、ユーザの音素データ又はコンテンツの所有状況や課金などを含めた視聴状況に基づいて、コンテンツに登場する全てのキャラクタに音素データを割り当てることができなかった場合、又は、割り当てる音素データや割当先のキャラクタ数が多くコスト(コンテンツを再生させる上で必要は費用)が想定より多くなってしまう場合などに、対象のコンテンツの該当するキャラクタやテキストについて、割り当てた音素データに基づいて音声言語データを生成する処理に代えて、又は、当該処理に加えて、代替音声による出力制御だけでなく、無音声による出力制御を実行することもできる。
すなわち、本発明は、キャラクタ数や配役数、コストによる制限、又は、再生時のシステム容量などコンテンツを再生する際にユーザが割り当てた音素データに基づく音声を用いることができない場合、又は、ランダムに音声を選択することによって遊び感覚的な目的によって視聴を希望する場合などに、代替音声を用いることによって、又は、一部のテキストを無音声にすることによって対応することができる。
したがって、本発明は、コンテンツに登場するキャラクタなどを発話させるためのデータを当該コンテンツとは別に提供するサービスとして実現する場合に、コンテンツに登場するキャラクタなどを発話させるためのデータを当該コンテンツとは別に提供する場合に、数多くの音素データを準備してユーザに提供することなく、又は、数多くの音素データを用意するために必要以上な支出が要求されることなく、ユーザにコンテンツを視聴させることができる。
この結果、本発明は、コンテンツを提供する事業者、又は、当該コンテンツを視聴する視聴者に対する労力を低減させて利用しやすい環境を提供することができる。
なお、「発話者」とは、例えば、声優、俳優、又は、アナウンサーなどの実際に声を発
する者を示す。
そして、「音素データ」とは、子音・母音・半母音などの分節音素、当該分節音素の関係性を示す声調・イントネーションを含む音の高さ、強勢やアクセント、方言の種別、言語の種別(日本語や英語)、及び、文字間における子音と母音のつながり(すなわち、連接要素)などの連接要素などが規定されている音の素となるデータを示す。
また、「キャラクタデータ」とは、テキストをセリフとして発する(すなわち、発話する)キャラクタのデータであり、例えば、映画、漫画、ゲーム、アニメーション、又は、小説などのコンテンツ内に登場するキャラクタに関するデータを示す。
さらに、「コンテンツデータ」とは、例えば、ゲーム、アニメーション、映画、又は、漫画などの画像(静止画及び動画を含む。)、コンテンツに登場するキャラクタに関するキャラクタデータ、及び、画像に合わせた各キャラクタなどのセリフなどのテキストデータ、から構成されるコンテンツデータが記憶される。ただし、当該「コンテンツデータ」には、画像が無く、テキストデータ及びキャラクタデータから構成されるものが含まれてもよい。
そして、「コンテンツ情報の管理」とは、データベースに読み出し可能に記憶されていること、又は、ネットワークなどの外部から取得することなどを示す。
上記に加えて、「提供制御処理」には、再生出力手段(例えば、ユーザの端末装置)にダウンロードさせて当該端末装置における再生を制御するための各種のデータを提供する処理、又は、音声言語データを含み、コンテンツ情報を再生し、その再生出力データをリアルタイムでユーザの端末装置に提供するストリーミング方式によって提供する処理が含まれる。ただし、再生出力手段は、システムに組み込まれた手段であってもよく、この場合には、提供制御処理として、再生出力手段を制御する制御処理を実行する。
そして、「発話制御データ生成処理」とは、例えば、ユーザの指示に基づいて割り当てられた音声言語データなどを利用せずに、代替音声を生成するための音声言語データ(以下、「代替音声データ」)を生成する処理(以下、「代替音声データ生成処理」ともいう。)、又は、該当するキャラクタやテキストを無音声にする再生制御データ(以下、「無音声制御データ」という。)を生成するための処理(以下、「無音声制御データ生成処理」という。)を示す。
例えば、「代替音声を生成する」とは、他のキャラクタに割り当てられた音素データと同一の音素データを用いて音声言語データを生成すること、及び、予めデフォルトの音声として設定された音素データを用いて音声言語データを生成することなどが含まれる。ただし、「他のキャラクタに割り当てられた音素データと同一の音素データを用いて音声言語データを生成する」場合には、音素データに対して他のキャラクタとは、声の高低、イントネーション、アクセントなどの声調を含む、発話音声における各種の声質について異なる加工を実行して、音声言語データを生成することが好ましい。
また、例えば、「無音声制御データ」とは、コンテンツデータの再生中(すなわち、ユーザにコンテンツを視聴させている際に)、該当するテキスト(例えば、セリフ)に関する音声を出力しないための制御データを示す。
そして、「特定のキャラクタ」とは、例えば、ユーザによって音素データが割り当てられなかったキャラクタ、コストの関係で音素データの割り当てが不能となったキャラクタ、又は、ユーザによって指定されたキャラクタなどが含まれる。
さらに、「特定のテキストの少なくとも一部」とは、例えば、ユーザによって音素データが割り当てられなかったキャラクタのテキスト若しくはそのテキストの一部、コストの関係で音素データの割り当てが不能となったキャラクタのテキスト若しくはそのテキストの一部、又は、ユーザによって指定されたキャラクタのテキスト若しくはそのテキストの一部などが含まれる。
さらにまた、「所与の加工処理」とは、上述したように、例えば、同一の音素データが割り当てられている他のキャラクタや当該キャラクタのテキストの一部の発話音声において、声の高低、イントネーション、アクセントなどの声調を含む、発話音声における各種の声質について変化(すなわち、加工)させるための処理を示す。
そして、「他のキャラクタ又は他のテキストの音声言語データを生成するときと異なる所与の加工処理に基づいて、又は、当該加工処理がなされた音素データに基づいて、前記発話制御データを生成する」とは、
(A1)発話制御データ生成処理時に該当する音素データに上記のような加工処理を実行して発話制御データ生成処理を実行してもよいし、
(A2)既に当該加工処理を実現された音素データを用いて発話制御データ生成処理を実行してもよい。
特に、「既に当該加工処理がなされた音素データ」とは、例えば、音素データをテキストに割り当てることによって発話音(すなわち、音声としての発話される音)を構築して発話音声データを生成する際に、各テキストやコンテンツの属性情報に対応付けて各音素の変化量や変化態様などの特徴量を抽出し、当該抽出された特徴量について機械学習をすることなどによって生成された音素データのモデルデータを示す。ただし、このモデルデータは、学習される毎に更新されてもよいし、新たなモデルデータとして記憶され、各テキストやコンテンツ情報が同じ場合などの所与の条件が合致する場合の音素データとして(すなわち、新たなバリエーションとして)用いるようにしてもよい。
(2)また、本発明は、
前記生成制御手段が、
前記発話制御データ生成処理として、該当する前記キャラクタのテキスト又は該当する前記テキストに対する音声を無音声とする再生制御データを生成する、構成を有している。
この構成により、本発明は、コンテンツに登場するキャラクタなどを発話させるためのデータを当該コンテンツとは別に提供する場合に、数多くの音素データを準備してユーザに提供することなく、又は、数多くの音素データを用意するために必要以上な支出が要求されることなく、ユーザにコンテンツを視聴させることができる。
なお、「音声を無音声とする再生制御データ」とは、該当するキャラクタやテキストを、コンテンツに規定された発話タイミング(すなわち、音声出力タイミング)において完全に無音した状態でコンテンツを視聴させるための制御データである。
特に、「再生制御データ」には、該当するタイミングで、該当するキャラクタの音声が出力されないことを示す演出(画像演出や音演出)を実行するための制御データが含まれる。
例えば、「再生制御データ」には、画像演出用の再生制御データとして、該当するテキストを画像表示する表示制御データが含まれていてもよく、特に、映画の字幕のような発
話タイミングに合わせて1文から2文のテキストを表示させるための表示制御、また、発話タイミングに従って、テキストの各文字の色を徐々に変化させるための表示制御を行うためのデータが含まれてもよい。
(3)また、本発明は、
前記生成制御手段が、
前記発話制御データとして、特定の前記キャラクタ又は特定の前記テキストの少なくとも一部に、基準データとして予め定められた音素データ、又は、ユーザによって既に使用可能となっている音素データのいずれかを割り当てて音声言語データを生成する前記発話制御データ生成処理を実行する、構成を有している。
この構成により、本発明は、例えば、コンテンツやコンテンツを聴取や視聴するサービスで予め有しているデフォルト的な基準の音声データを用いてキャラクタやテキストが発話する際の音声言語データを生成することができる。
したがって、本発明は、コンテンツに登場するキャラクタなどを発話させるためのデータを当該コンテンツとは別に提供する場合に、数多くの音素データを準備してユーザに提供することなく、又は、数多くの音素データを用意するために必要以上な支出が要求されることなく、ユーザにコンテンツを視聴させることができる。
(4)また、本発明は、
前記生成制御処理が実行される際に、前記ユーザの音素データの割り当てに関する割り当て状況が、当該割り当てに関する所与の制約が規定された制約条件を具備しているか否かを判定する割り当て状況判定処理を実行する状況判定処理手段を更に備え、
前記生成制御手段が、
前記割り当て状況判定処理によって前記割り当てた状況が前記制約条件を具備したと判定された場合には、前記音声言語データ生成処理を実行し、
当該割り当てた状況が前記制約条件を具備していないと判定された場合には、前記発話制御データ生成処理を実行する、構成を有している。
この構成により、本発明は、コンテンツに登場するキャラクタなどを発話させるためのデータを当該コンテンツとは別に提供する場合に、数多くの音素データを準備してユーザに提供することなく、又は、数多くの音素データを用意するために必要以上な支出が要求されることなく、ユーザにコンテンツを視聴させることができる。
なお、「制約条件」とは、音素データ、キャラクタデータ又はテキストデータに対してコンテンツを視聴する際にデータの使用に対して規定されたコストに関する条件であって、例えば、割り当てた音素データを使用する際のコスト、当該音素データの割り当て先のキャラクタを使用する際のコスト、音素データによって生成される発話音声を出力するためのテキストを使用する際のコスト、に対する支払いの有無、又は、予め定められた限界値内による使用の有無などの条件を示す。
(5)また、本発明は、
前記生成制御処理に用いる音素データ、キャラクタデータ及びテキストデータのうち、いずれか1のデータのコストが規定されたコストパラメータを管理するコスト管理手段と、前記コストパラメータに基づいて、前記生成制御処理を実行する際の前記ユーザに要求される実行コストを算出する算出処理を実行するコスト算出手段と、
を更に備え、前記状況判定処理手段が、
前記制約条件として、前記算出処理によって算出された実行コストに対する前記ユーザの支払いに基づく条件を用いる、構成を有している。
この構成により、本発明は、ユーザによって実行コストの支払いが無い場合には、発話制御データ生成処理を実行させることができるので、ユーザにおけるコストの支払いの有無に応じて、音素データの使用の有無やその数を制限することができる。
したがって、本発明は、数多くの音素データを準備してユーザに提供することなく、より少ない音素データによってもコンテンツを視聴させることができるとともに、数多くの音素データを用意するために必要以上な支出が要求されることなく、ユーザにコンテンツを視聴させることができる。
なお、「コストパラメータ」とは、例えば、キャラクタデータ、テキストデータ若しくは音素データの音声言語データを生成するために必要なデータのコスト(費用)やアイテムなどの消費量を定めたパラメータを示す。
特に、「コストパラメータ」としては、システム内通貨若しくはシステム内で用いるアイテム(例えば、アイテム種別や数)に基づいて規定される消費量、又は、課金額が規定されている。
(6)また、本発明は、
前記生成制御処理に用いる音素データ、キャラクタデータ及びテキストデータのうち、いずれか1のデータのコストが規定されたコストパラメータを管理するコスト管理手段を更に備え、
前記状況判定処理手段が、
前記制約条件として、前記コストパラメータと、予め設定されたコストの限界値と、の関係性を示す条件を用いる、構成を有している。
この構成により、本発明は、予めユーザが既に支払った範囲内か否か(サブスクリプションなどの予め定められた支払い額の範囲内か否か)によって、音素データの使用の有無やその数を制限することができる。
したがって、本発明は、数多くの音素データを準備してユーザに提供することなく、より少ない音素データによってもコンテンツを視聴させることができるとともに、数多くの音素データを用意するために必要以上な支出が要求されることなく、ユーザにコンテンツを視聴させることができる。
なお、「予め設定されたコストの限界値」とは、例えば、ユーザが予め支払ったコストなどの上限値やそれに対応する値を示し、コンテンツに対応付けられて設定されている値(例えば、コンテンツ毎に設定された値)でもよいし、ユーザに対応付けられた値であってもよい。
(7)また、本発明は、
前記ユーザのコンテンツに関する所与の状況を検出するユーザ状況検出手段を更に備え、
前記コスト管理手段が、
前記検出されたユーザのコンテンツに関する状況に基づいて、前記コストパラメータの変動を制御する変動制御処理を実行する、構成を有している。
この構成により、本発明は、コンテンツを聴取や視聴するサービスを利用するユーザに応じて支払うコスト、割り当て可能な音素データの数、又は、利用可能なコンテンツ数を変化させることができる。
したがって、本発明は、ユーザに対するコンテンツの視聴環境を充実させることができるとともに、ユーザの状況に応じて数少ない音素データしか割り当てることができない場合であっても、コンテンツの視聴を適切に実行することができる。
なお、「ユーザの状況」には、例えば、
(B1)ユーザの現在までの課金額の総計、
(B2)コンテンツを聴取や視聴するサービスにログインすることによってコンテンツの再生制御を行う場合には、ログイン状況(ログインの頻度、総ログイン時間、又は、ログインによって獲得した特典の数・種別及び量)、
(B3)コンテンツの現在までの利用時間(聴取時間や視聴時間)又は利用することによって獲得したポイント、及び、
(B4)ユーザのランクやレベルなどの他のユーザからの優位性を示す優位度、
などが含まれる。
また、「検出されたユーザの状況に基づいて、コストパラメータの変動を制御する」とは、変動値とコストパラメータとが対応付けられたテーブルデータを参照することによって当該変動値を定めること、又は、所与の演算式によってユーザの状況に基づいて変動値を算出することなどを示す。
(8)また、本発明は、
前記コスト管理手段が、
前記コンテンツデータ、キャラクタデータ及びテキストデータのうち、いずれか1のデータに関する情報を示す関連情報に基づいて、前記コストパラメータの変動を制御する変動制御処理を実行する、構成を有している。
この構成により、本発明は、例えば、キャラクタの発話回数や人気度などの属性に応じて、支払うコスト、割り当て可能な音素データの数、又は、利用可能なコンテンツ数を変化させることができる。
したがって、本発明は、コンテンツや音素データを提供する事業者の収益をも確保することができるとともに、数少ない音素データによってもコンテンツを視聴させることができるので、ユーザのコンテンツの視聴に関する満足度を向上させることができる。
なお、「関連情報」とは、コンテンツデータの場合には、例えば、コンテンツのジャンルを示すジャンル情報、及び、テキストデータ又はキャラクタデータの場合には、例えば、テキスト又はキャラクタの属性を示す属性情報などが含まれる。
また、「関連情報」とは、音素データの場合には、声優やアナウンサーなどの発話者のジャンル、性別、年齢や年代、又は、人気度などの音素データを生成する際の発話者の属性を示す属性情報が含まれる。
そして、テキストの属性には、例えば、小説、漫画、ノンフィクション、新聞などのテキストの種別、及び、当該テキストが属するキャラクタ(当該テキストが発話されるキャラクタ)の属性が含まれる。
さらに、キャラクタの属性(すなわち、キャラクタの属性)には、動物・ロボット・人間などの種別、性別や年齢、方言やテキストの言語(他言語)の種別、人気度などの属性が含まれる。
(9)また、本発明は、
前記生成制御手段が、
前記キャラクタの属性、及び、前記テキストの属性の少なくともいずれか一方の属性に基づいて生成された音素データのデータモデルを示すモデル情報に従って、前記音声言語データを生成する前記生成処理を実行し、
当該生成した音声言語データに基づいて前記モデル情報を学習させる学習処理を実行し、
前記コスト管理手段が、
前記モデル情報の学習処理の状況に基づいて、前記コストパラメータの変動を制御する変動制御処理を実行する、構成を有している。
この構成により、本発明は、例えば、音声言語データが生成されればされるほど、すなわち、利用されればされるほど支払うコストを低減又は増加させることができるので、少ない音素データによってより品質のよい音声言語データを生成すること、又は、高付加価値の音素データによって音声言語データを生成することができる。
したがって、本発明は、ユーザに対するコンテンツの視聴環境を充実させることができるとともに、ユーザの状況に応じて数少ない音素データしか割り当てることができない場合であっても、コンテンツの視聴を適切に実行することができる。
なお、「属性情報に基づいて生成された音素データのデータモデルを示すモデル情報」とは、人工知能(AI:Artificial Intelligent)の技術を用いたモデルの情報あって、例えば、音素データをテキストに割り当てることによって発話音(すなわち、音声としての発話される音)を構築して発話音声データを生成する際に、各テキストやコンテンツの属性情報に対応付けて各音素の変化量や変化態様などの特徴量を抽出し、当該抽出された特徴量について機械学習をすることなどによって生成された音素データのモデル情報をいう。
また、「学習処理」とは、例えば、評価された音声言語データ(すなわち、発話された音)を教師データとして用いるサポートベクターマシンやニューラルネットワーク(例えば、再帰型ニューラルネットワーク)などのディープラーニングを含む機械学習、又は、GAN(敵対的生成ネットワーク)やアソシエーション分析などの教師データ無しのディープラーニングを含む機械学習を実行する処理を示す。
さらに、「学習状況」には、例えば、学習回数、学習進度(所与期間における学習回数)、学習した音声言語データの評価値(例えば、人気度などの利用回数を含む。)、などが含まれる。
(10)また、上記課題を解決するため、本発明は、
記憶手段に記憶されている情報であって、ユーザに関するユーザ情報と、当該ユーザ情報に対応付けられており、かつ、発話者から採取された音素データから構成される発話音素情報と、を管理するユーザ情報管理手段、
前記発話者の音声によって音声言語化するためのテキストがデータ化されたテキストデータ及び当該テキストを発話するキャラクタに関するキャラクタデータを少なくとも含むコンテンツデータから構成されるコンテンツ情報を管理するコンテンツ管理手段、
所与の指示に基づいて、前記キャラクタデータに、前記音素データを割り当てて、前記コンテンツデータのテキストを音声言語化するための音声言語データを生成する音声言語データ生成処理を含む生成制御処理を実行する生成制御手段、及び、
前記コンテンツデータのテキストに沿って前記キャラクタの音声を再生出力する再生出力手段に、前記生成された音声言語データを提供する提供制御処理を実行する提供制御手
段、
としてコンピュータを機能させ、
前記生成制御手段が、
特定の前記キャラクタ又は特定の前記テキストの少なくとも一部に割り当てる音声言語データとして、他のキャラクタ又は他のテキストに割り当てられた音素データと同一の音素データを、当該他のキャラクタ又は当該他のテキストの音声言語データを生成するときと異なる所与の加工処理に基づいて、又は、当該加工処理がなされた音素データに基づいて、前記音声言語データ生成処理とは異なる処理であって、前記コンテンツデータのテキストの少なくとも一部について、発話制御を実行するための発話制御データを生成する発話制御データ生成処理を実行する、構成を有している。
この構成により、本発明は、ユーザが保有する音素データを、キャラクタに割り付けること、及び、ユーザが使用可能な(例えば、保有する)音素データを、を様々なキャラクタやコンテンツに割り当てることができる。
したがって、本発明は、コンテンツに登場するキャラクタなどの発話させるためのデータを当該コンテンツとは別に提供するサービスを実現するシステムを提供し、その場合に、ユーザやシステム事業者などの労力を低減させて利用しやすい環境を構築することができる。
一実施形態のゲームシステムの構成を示すシステム構成の一例を示す図である。 一実施形態のサーバ装置の機能ブロックを示す図である。 一実施形態の端末装置の機能ブロックを示す図である。 一実施形態における割り当て状況判定処理を説明するための図である。 一実施形態のコンテンツ情報記憶部、又は、音素情報記憶部のそれぞれに記憶されコンテンツ情報、又は、音素情報の一例を示す図である。 一実施形態のユーザ情報記憶部に記憶されユーザ情報の一例を示す図である。 一実施形態の発話制御データ生成処理について説明するための図(その1)である。 一実施形態の発話制御データ生成処理について説明するための図(その2)である。 一実施形態の実行コスト算出処理を含む実行コストに基づく割り当て状況判定処理を説明するための図(その1)である。 一実施形態の実行コスト算出処理を含む実行コストに基づく割り当て状況判定処理を説明するための図(その2)である。 一実施形態の実行コストと限界値とに基づく割り当て状況判定処理について説明するための図(その1)である。 一実施形態の実行コストと限界値とに基づく割り当て状況判定処理について説明するための図(その2)である。 一実施形態のサーバ装置によって実行されるデータ生成制御処理、及び、実行コストに基づく割り当て状況判定処理を含むコンテンツの視聴を開始する際のコンテンツ試聴開始処理の動作を示すフローチャートである。
以下、本実施形態について説明する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。
[1]コンテンツ提供システム
まず、図1を用いて本実施形態のコンテンツ提供システム1の概要及び概要構成について説明する。なお、図1は、本実施形態のコンテンツ提供システム1の構成を示すシステム構成の一例を示す図である。
本実施形態のコンテンツ提供システム1は、図1に示すように、ユーザに、漫画(アニメ)、映画、又はゲームなどのコンテンツを視聴(以下、「聴取」のみも含む。)させるサービスを提供するサーバ装置10と、当該コンテンツを視聴するためにユーザが用いる端末装置20(例えば、端末装置20A、20B、20C)と、がインターネット(ネットワークの一例)に接続可能に構成されている。
ユーザは、端末装置20からサーバ装置10にアクセスすることにより、インターネットを介してサーバ装置10から送信されてくる各種のデータを受信し、コンテンツを視聴することができるようになっている。
そして、ユーザは、端末装置20からサーバ装置10にアクセスすることにより、他のユーザとの間でコミュニケーションを図ることができるようになっている。
サーバ装置10は、インターネットを介して通信接続された端末装置20を用いて、ユーザにコンテンツを視聴させる(提供する)サービス(以下、「コンテンツ視聴サービス」ともいう。)を提供することが可能な情報処理装置である。
また、サーバ装置10は、コミュニケーション型のサービスを提供するSNSサーバとして機能してもよい。
なお、SNSサーバとは、複数のユーザ間でコミュニケーションを提供することが可能なサービスを提供する情報処理装置である。
特に、サーバ装置10は、例えば、SNSサーバとして機能する場合には、提供するSNSの動作環境(API(アプリケーションプログラミングインタフェース)、プラットフォーム等)を利用してコンテンツ(具体的には、コンテンツを視聴させるために構成されたコンテンツデータ)を提供することができるようになっている。
具体的には、サーバ装置10は、端末装置20のWebブラウザ、例えばHTML、FLASH(登録商標)、CGI、PHP、shockwave、Java(登録商標)アプレット、JavaScript(登録商標)など様々な言語で作られたブラウザ又は専用のアプリケーションを介して提供することができるようになっている。
一方、サーバ装置10は、1つの(装置、プロセッサ)で構成されていてもよいし、複数の(装置、プロセッサ)で構成されていてもよい。
そして、サーバ装置10の記憶領域(後述する記憶部140)に記憶される課金情報、ログイン情報、コンテンツに関する各情報を、ネットワーク(イントラネット又はインターネット)を介して接続されたデータベース(広義には記憶装置、メモリ)に記憶するようにしてもよいし、SNSサーバとして機能する場合には、記憶領域に記憶されるユーザ情報記憶部148等の情報を、ネットワーク(イントラネット又はインターネット)を介して接続されたデータベース(広義には記憶装置、メモリ)に記憶するようにしてもよい。
具体的には、本実施形態のサーバ装置10は、端末装置20のユーザ(すなわち、コンテンツの視聴を希望するユーザ)の操作に基づく入力情報を受信し、受信した入力情報に
基づいてコンテンツの提供や視聴に関する各種の処理を行うようになっている。
そして、サーバ装置10は、ユーザによって選択されたコンテンツを視聴させるためのデータ(すなわち、コンテンツデータ)などを端末装置20に送信し、端末装置20は、サーバ装置10から受信したコンテンツデータなどを端末装置20にユーザに視聴可能に提供する各種の処理を行うようになっている。
なお、サーバ装置10は、端末装置20を介してユーザにコンテンツを視聴させる際に、ストリーミング方式によってコンテンツデータを提供してもよいし、ダウンロードさせて提供してもよい。
端末装置20は、スマートフォン、携帯電話、PHS、コンピュータ、ゲーム装置、PDA等、画像生成装置などの情報処理装置であり、インターネット(WAN)、LANなどのネットワークを介してサーバ装置10に接続可能な装置である。なお、端末装置20とサーバ装置10との通信回線は、有線でもよいし無線でもよい。
特に、端末装置20は、Webページ(HTML形式のデータ)を閲覧可能なWebブラウザを備えている。すなわち、端末装置20は、サーバ装置10との通信を行うための通信制御機能、及び、サーバ装置10から受信したデータ(Webデータ、HTML形式で作成されたデータなど)を用いて表示制御を行うとともに、ユーザ操作のデータをサーバ装置10に送信するWebブラウザ機能などを備える。
そして、端末装置20は、Webブラウザ機能によって、サーバ装置10から提供されたコンテンツを視聴するためのコンテンツデータや制御情報を取得して所定の処理を実行し、ユーザにコンテンツを視聴させる。
具体的には、端末装置20は、所定コンテンツの視聴を希望する旨の要求をサーバ装置10に対して行うと、サーバ装置10のコンテンツを提供するサイトに接続され、コンテンツの視聴が開始される。
そして、端末装置20は、必要に応じてAPIを用いることにより、SNSサーバとして機能するサーバ装置10に所定の処理を行わせ、又は、SNSサーバとして機能するサーバ装置10が管理するユーザ情報記憶部148を取得させて種々のSNSなどと連動させてコンテンツの提供を実行する構成を有している。
[2]サーバ装置
次に、図2を用いて本実施形態のサーバ装置10について説明する。なお、図2は、本実施形態のサーバ装置10の機能ブロックを示す図である。また、本実施形態のサーバ装置10は図2の構成要素(各部)の一部を省略した構成としてもよい。
サーバ装置10は、管理者やその他の入力に用いるための入力部120、所定の表示を行う表示部130、所定の情報が記憶された情報記憶媒体180、端末装置20やその他と通信を行う通信部196、主に提供するコンテンツに関する処理を実行する処理部100、及び、主にコンテンツに用いる各種のデータを記憶する記憶部140を含む。
入力部120は、システム管理者等がコンテンツに関する設定やその他の必要な設定、データの入力に用いるものである。例えば、本実施形態の入力部120は、マウスやキーボード等によって構成される。
表示部130は、システム管理者用の操作画面を表示するものである。例えば、本実施
形態の表示部130は、液晶ディスプレイ等によって構成される。
情報記憶媒体180(コンピュータにより読み取り可能な媒体)は、プログラムやデータなどを格納するものであり、その機能は、光ディスク(CD、DVD)、光磁気ディスク(MO)、磁気ディスク、ハードディスク、磁気テープ、或いはメモリ(ROM)などによって構成される。
通信部196は、外部(例えば、端末、他のサーバや他のネットワークシステム)との間で通信を行うための各種制御を行うものであり、その機能は、各種プロセッサ又は通信用ASICなどのハードウェアや、プログラムなどによって構成される。
記憶部140は、処理部100や通信部196などのワーク領域となるもので、その機能は、RAM(VRAM)などによって構成される。
なお、記憶部140に記憶される情報は、データベースで管理してもよい。また、本実施形態の記憶部140は、本発明の記憶手段を構成する。
また、本実施形態の記憶部140は、主記憶部142の他に、
(A1)各コンテンツに関するデータ(以下、「コンテンツデータ」という。)を有し、各コンテンツデータに基づいてコンテンツを視聴する際のコストに関する情報(以下、「コンテンツコスト情報」という。)を含む、コンテンツ情報が記憶されるコンテンツ情報記憶部144と、
(A2)コンテンツを再生する際に、当該コンテンツに登場するキャラクタに割り当てられ、発話者から予め採取された音素データ(例えば、後述のデータモデル)を有し、当該音素データを使用する際のコストに関する情報(以下、「音素データコスト情報」という。)を含む音素情報が記憶される音素情報記憶部146と、
(A3)各ユーザが所有するコンテンツ(所有の有無に関係なく視聴可能なコンテンツを含む。)の情報、及び、ユーザが使用可能な音素データ(所有の有無に関係なく使用可能な音素データを含む。)の情報と、各ユーザに関する情報と、を有するユーザ情報と、各ユーザにおける当該コンテンツを視聴する際に支払われるコストの管理に関する情報(以下。「ユーザコスト情報」ともいう。)と、が各ユーザに対応付けて記憶されるユーザ情報記憶部148と、
(A4)コンテンツデータのテキストを音声言語化するための音声言語データを生成する生成処理(以下、「音声言語データ生成処理」という。)を含む、各処理を実行するためのアプリケーションなどのコンテンツの視聴を実行するために必要なデータ(例えば、テーブルデータなど)が記憶されるアプリケーション情報記憶部149と、
を有している。
処理部100は、記憶部140内の主記憶部142をワーク領域として各種処理を行う。処理部100の機能は各種プロセッサ(CPU、DSP等)、ASIC(ゲートアレイ等)などのハードウェアや、プログラムにより実現できる。
処理部100は、情報記憶媒体180に格納されるプログラム(データ)に基づいて本実施形態の種々の処理を行う。即ち情報記憶媒体180には、本実施形態の各部としてコンピュータを機能させるためのプログラム(各部の処理をコンピュータに実行させるためのプログラム)が記憶される。
例えば、処理部100(プロセッサ)は、情報記憶媒体に記憶されているプログラムに基づいて、サーバ装置10全体の制御を行うとともに、各部間におけるデータ等の受け渡しの制御などの各種の処理を行う。さらに、端末装置20からの要求に応じた各種サービ
スを提供する処理を行う。
具体的には、本実施形態の処理部100は、通信制御部101、Web処理部102、ログイン管理部103、ユーザ管理部104、コンテンツ管理部105、発話音声生成処理部106、コスト管理部107、タイマ管理部109、及び、情報提供部110を少なくとも有している。
なお、例えば、本実施形態のユーザ管理部104は、本発明のユーザ情報管理手段及びユーザ状況検出手段を構成し、コンテンツ管理部105は、本発明のコンテンツ管理手段、及び、提供制御処理手段を構成する。また、発話音声生成処理部106は、本発明の生成制御手段を構成し、コスト管理部107は、本発明のコスト算出手段、コスト管理手段、状況判定処理手段及び組み合わせ検出手段を構成する。
通信制御部101は、端末装置20とネットワークを介してデータを送受信する処理を行う。すなわち、サーバ装置10は、通信制御部101によって端末装置20等から受信した情報に基づいて各種処理を行う。
特に、本実施形態の通信制御部101は、ユーザの端末装置20からの要求に基づいて、コンテンツデータ及び当該コンテンツデータの再生に用いられるデータや情報を、当該ユーザの端末装置20に送信する処理を行う。
また、通信制御部101は、端末装置20に入力されたユーザの指示を受け付けるための各種の処理を実行する。
Web処理部102は、Webサーバとして機能する。例えば、Web処理部102は、HTTP(Hypertext Transfer Protocol)等の通信プロトコルを通じて、端末装置20にインストールされているWebブラウザ211の要求に応じてデータを送信する処理、及び、端末装置20のWebブラウザ211によって送信されるデータを受信する処理を行う。
なお、本実施形態のサーバ装置10は、コンテンツ用のサーバと、SNS用のサーバとを別々に形成してもよいし、同一のサーバによって構成されてもよい。また、本実施形態のコンテンツをユーザに視聴及び提供させるための各種の処理は、サーバ装置10が一部又は全部を実行してもよいし、各ユーザの端末装置20がその一部を実行してもよい。
ログイン管理部103は、各ユーザのコンテンツ視聴サービスに対するログインに関する管理を行う。
具体的には、ログイン管理部103は、各ユーザにおける、ログイン回数(総ログイン回数・所定期間内のログイン回数)及び連続ログイン日数、並びに、コンテンツの総視聴時間や所定期間内(例えば、直近1週間や1月)の視聴期間をユーザ情報記憶部148に登録し、プレーヤ毎にプレーヤ関連情報として管理する。
ユーザ管理部104は、ユーザ毎に、ユーザ毎に、ユーザ情報記憶部148に、ユーザ情報とユーザコスト情報とを記録して管理する。
コンテンツ管理部105は、コンテンツ情報記憶部144に記憶されている各コンテンツにおけるコンテンツ情報と、音素情報記憶部146に記憶された各発話音素情報と、を管理する。
特に、コンテンツ管理部105は、端末装置20にコンテンツデータを含むコンテンツ情報を提供し、各ユーザにおけるコンテンツデータの提供及び再生の制御に関する処理を実行する。
発話音声生成処理部106は、プレーヤの指示に基づいて、又は、プログラムに従って、コンテンツデータに含まれるキャラクタに、発話音素情報に含まれる音素データを割り当てて、コンテンツデータの当該キャラクタが発話するテキストを音声言語化するための音声言語データを生成する音声言語データ生成処理を含む、コンテンツを視聴する際のキャラクタの発話に関する制御を行うデータ生成制御処理を実行する。
コスト管理部107は、生成処理に用いる音素データ、キャラクタデータ及びテキストデータの使用に関するコストが規定されたパラメータ(以下、「コストパラメータ」ともいう。)を管理する。
特に、コスト管理部107は、生成処理などコンテンツをユーザに視聴するための処理を実行する際のコスト(以下、「実行コスト」という。)を算出する算出処理を実行する。
タイマ管理部109は、タイマ機能を有し、ストリーミングなどによって端末装置20にコンテンツを提供する際に、当該コンテンツの再生状況を管理するために用いる。特に、タイマ管理部109は、コンテンツ管理部105と連動し、現在時刻や予め設定された時刻を各部に出力する。また、タイマ管理部109は、各端末装置20と同期を取るために用いられる。
情報提供部110は、端末装置20によってコンテンツを再生させるため各種のコンテンツ情報を生成して該当する端末装置20に提供する。
[3]端末装置
次に、図3を用いて本実施形態の端末装置20について説明する。なお、図3は、本実施形態の端末装置20の機能ブロックを示す図である。また、本実施形態の端末装置20は図2の構成要素(各部)の一部を省略した構成としてもよい。
入力部260は、ユーザからの入力情報を入力するための機器であり、ユーザの入力情報を処理部200に出力する。本実施形態の入力部260は、ユーザの入力情報(入力信号)を検出する検出部262を備える。入力部260は、例えば、レバー、ボタン、ステアリング、マイク、タッチパネル型ディスプレイ、キーボード、マウスなどがある。
記憶部270は、処理部200や通信部296などのワーク領域となるもので、その機能はRAM(VRAM)などにより実現できる。そして、本実施形態の記憶部270は、ワーク領域として使用される主記憶部271と、最終的な表示画像等が記憶される画像バッファ272とを含む。なお、これらの一部を省略する構成としてもよい。
情報記憶媒体280(コンピュータにより読み取り可能な媒体)は、プログラムやデータなどを格納するものであり、その機能は、光ディスク(CD、DVD)、光磁気ディスク(MO)、磁気ディスク、ハードディスク、磁気テープ、或いはメモリ(ROM)などにより実現できる。
処理部200は、情報記憶媒体280に格納されるプログラム(データ)に基づいて本実施形態の種々の処理を行う。情報記憶媒体280には、本実施形態の各部としてコンピュータを機能させるためのプログラム(各部の処理をコンピュータに実行させるためのプ
ログラム)を記憶することができる。
なお、本実施形態では、サーバ装置10が有する情報記憶媒体180や記憶部140に記憶されている本実施形態の各部としてコンピュータを機能させるためのプログラムやコンテンツデータを含むコンテンツ情報などを、ネットワークを介して受信し、受信したプログラムやデータを情報記憶媒体280に記憶する。
なお、記憶部270には、サーバ装置10から受信したプログラムやデータが記憶される。このようにプログラムやデータを受信してネットワークシステムを機能させる場合も本発明の範囲内に含む。
表示部290は、本実施形態により生成された画像を出力するものであり、その機能は、CRT、LCD、タッチパネル型ディスプレイ、或いはHMD(ヘッドマウントディスプレー)などにより実現できる。
音出力部292は、本実施形態により生成された音を出力するものであり、その機能は、スピーカ、或いはヘッドフォンなどにより実現できる。
通信部296は、外部(例えば他の端末、サーバ)との間で通信を行うための各種制御を行うものであり、その機能は、各種プロセッサ又は通信用ASICなどのハードウェアや、プログラムなどにより実現できる。
処理部200(プロセッサ)は、通信部296を介してサーバ装置10から取得したコンテンツデータを含むコンテンツに関する情報、取得し入力部260からの入力情報、又は、プログラムなどに基づいて、コンテンツ処理、表示制御、画像生成処理、或いは、音生成処理などの処理を行う。
この処理部200は、記憶部270内の主記憶部271をワーク領域として各種処理を行う。処理部200の機能は各種プロセッサ(CPU、DSP等)、ASIC(ゲートアレイ等)などのハードウェアや、プログラムにより実現できる。
処理部200は、通信制御部210、Webブラウザ211、コンテンツ処理部212、表示制御部213、描画部220、音処理部230を含む。なお、これらの一部を省略する構成としてもよい。
通信制御部210は、サーバ装置10、それぞれとデータを送受信する処理を行う。また、通信制御部210は、サーバ装置10から受信したデータを記憶部270に格納する処理、受信したデータを解析する処理、その他のデータの送受信に関する制御処理等を行う。
なお、通信制御部210は、サーバの宛先情報(IPアドレス、ポート番号)を情報記憶媒体280に記憶し、管理する処理を行うようにしてもよい。そして、通信制御部210は、ユーザからの通信開始の入力情報を受け付けた場合に、サーバ装置10との通信を行うようにしてもよい。
特に、通信制御部210は、サーバ装置10にユーザの識別情報や操作情報を送信して、コンテンツに関する情報(ユーザ情報、コンテンツ情報(音声言語データ及びテキストデータなどを含む、コンテンツデータ))、及び、ユーザのWebページをサーバ装置10から受信する処理を行う。
なお、通信制御部210は、所定周期でサーバ装置10とデータ送受信を行ってもよいし、入力部260からの入力情報を受け付けた場合に、サーバ装置10とデータ送受信を行ってもよい。
Webブラウザ211は、Webページ(コンテンツの表示画面)を閲覧するためのアプリケーションプログラムであって、Webサーバ(サーバ装置10)から、HTMLファイルや画像ファイル等をダウンロードし、レイアウトを解析して表示制御する。また、Webブラウザ211は、入力フォーム(リンクやボタンやテキストボックス等)を用いてデータをWebサーバ(サーバ装置10)に送信する。
本実施形態のWebブラウザ211は、ブラウザコンテンツを実現することができる。例えば、Webブラウザ211は、Webサーバ(サーバ装置10)から受信したJavaScript(登録商標)、FLASH(登録商標)、Java(登録商標)等で記述されたプログラムを実行するものであってもよい。
端末装置20は、Webブラウザ211によって、インターネットを介してURLによって指定されたWebサーバからの情報を表示させることができる。例えば、端末装置20は、サーバ装置10から受信したコンテンツ(HTML等のデータ)をWebブラウザ211によって表示させることができる。
コンテンツ処理部212は、コンテンツを表示するための種々の処理を実行する。例えばコンテンツ処理部212は、コンテンツ開始条件が満たされた場合にコンテンツを開始する処理、コンテンツデータ及び音声言語データに基づいてコンテンツを再生制御する処理、及び、コンテンツの再生終了条件が満たされた場合にコンテンツの再生を終了する処理などがある。
特に、コンテンツ処理部212は、コンテンツデータに基づいて画像を生成しつつ、テキストデータによって示されるテキストに従って音声言語データを再生し、画像の再生に沿ってキャラクタの発話のための制御処理を実行する。
表示制御部213は、表示部290に表示する処理を行う。例えば、表示制御部213は、Webブラウザ211を用いて表示してもよい。
描画部220は、処理部200で行われる種々の処理(例えば、コンテンツ処理)に基づいて描画処理を行い、これにより画像を生成し、表示制御部213によって表示部290に出力する。描画部220が生成する画像は、いわゆる2次元画像であってもよいし、いわゆる3次元画像であってもよい。
音処理部230は、処理部200で行われる種々の処理の結果に基づいて音処理を行い、BGM、効果音、又は音声などのコンテンツ音を生成し、音出力部292に出力する。
[4]本実施形態の手法
[4.1]概要
次に、図4を用いて本実施形態の手法(割り当て状況判定処理)の概要について説明する。なお、図4は、本実施形態の手法(割り当て状況判定処理)を説明するための図である。
本実施形態のサーバ装置10は、端末装置20と連動し、ユーザ毎に、ユーザが希望するコンテンツを当該ユーザに提供させる装置であって、コンテンツに登場するキャラクタに、ユーザの希望する音声によって発話させつつ、当該コンテンツをユーザに視聴させる
ための装置である。
特に、本実施形態のサーバ装置10は、ユーザの指示の下に、コンテンツに登場するキャラクタに音素データを割り当てるとともに、当該キャラクタのテキストに沿って割り当てた音素データによって発話するための音声言語データを生成する音声言語データ生成処理を実行し、当該生成した音声言語データ及びコンテンツデータを含むコンテンツ情報を該当する端末装置20に提供し、コンテンツをユーザに視聴させる構成を有している。
すなわち、本実施形態のサーバ装置10は、コンテンツに登場するキャラクタなどの発話させるためのデータを当該コンテンツとは別に提供するサービスを実現するシステムを提供し、その場合に、ユーザやシステム事業者などの労力を低減させて利用しやすい環境を構築するために、ユーザが保有する音素データを、キャラクタに割り付けること、及び、ユーザが使用可能な(例えば、保有する)音素データを、を様々なキャラクタやコンテンツに割り当てることが可能な構成を有している。
そして、本実施形態のサーバ装置10は、コンテンツのキャラクタ数や配役数、コストによる制限、又は、再生時のシステム容量などコンテンツを再生する際にユーザが割り当てた音素データに基づく音声を用いることができない場合、又は、ランダムに音声を選択することによって遊び感覚的な目的によって視聴を希望する場合に、代替音声を用いることによって、又は、一部のテキストを無音声にすることによって、コンテンツをユーザに視聴させるための構成を有している。
例えば、本実施形態のサーバ装置10は、例えば、ユーザの音素データ又はコンテンツの所有状況や課金などを含めた視聴状況に基づいて、コンテンツに登場する全てのキャラクタに音素データを割り当てることができなかった場合、又は、割り当てる音素データや割当先のキャラクタ数が多く、コスト(コンテンツを再生させる上で必要な費用)が想定より多くなってしまう場合に、対象のコンテンツのキャラクタやテキストについて、ユーザの指示によって割り当てた音素データに基づいて音声言語データを生成する処理に代えて、又は、当該処理に加えて、代替音声による出力制御、又は、無音声による出力制御を実行する構成を有している。
具体的には、サーバ装置10は、例えば、図4に示すように、
(A1)ユーザが使用可能な音素データの情報を有するユーザ情報と、
(A2)コンテンツに割り当てられる音素データを含む音素情報と、
(A3)音声言語化するためのテキストがデータ化されたテキストデータ及び当該テキストを発話するキャラクタに関するキャラクタデータを含むコンテンツデータから構成されるコンテンツ情報と、
を管理する構成を有している。
そして、サーバ装置10は、例えば、図4に示すように、
(B1)プレーヤの指示又はプログラムの指示などの所与の指示に基づいて、キャラクタデータ(又は、テキストデータ)に、音素データを割り当てて、コンテンツデータのテキストを音声言語化するための音声言語データを生成する音声言語データ生成処理を含むデータ生成制御処理、
(B2)コンテンツデータのテキストに沿ってキャラクタの音声を再生出力する、該当する端末装置20に、生成した音声言語データを提供する処理(以下、「コンテンツ提供制御処理」という。)、及び
(B3)特定のキャラクタ又は特定のテキストの少なくとも一部に割り当てる音声言語データとして、他のキャラクタ又は他のテキストに割り当てられた音素データと同一の音素データを、当該他のキャラクタ又は当該他のテキストの音声言語データを生成するときと
異なる所与の加工処理に基づいて、又は、当該加工処理がなされた音素データに基づいて、音声言語データ生成処理とは異なる処理であって、前記コンテンツデータのテキストの少なくとも一部について、発話制御を実行するための発話制御データを生成する発話制御データ生成処理、
を実行する構成を有している。
また、サーバ装置10は、上記の構成に加えて、例えば、図4に示すように、
(C1)生成制御処理が実行される際に、ユーザの音素データの割り当てに関する割り当て状況が、当該割り当てに関する所与の制約が規定された制約条件を具備しているか否かを判定する割り当て状況判定処理を実行し、
(C2)割り当て状況判定処理によって割り当てた状況が前記制約条件を具備したと判定された場合には、前記音声言語データ生成処理を実行し、
(C3)当該割り当てた状況が前記制約条件を具備していないと判定された場合には、前記発話制御データ生成処理を実行する、
構成を有している。
特に、制約条件としては、音素データ、キャラクタデータ又はテキストデータに対してコンテンツを視聴する際にデータの使用に対して規定されたコストに関する条件であって、例えば、
(D1)割り当てた音素データの使用する際のコスト、当該音素データの割り当て先のキャラクタを使用する際のコスト、及び、音素データによって生成される発話音声を出力するためのテキストを使用する際のコストに対するの支払いの有無(実行コストの全部又は一部を支払ったか否かを含む。)、又は、
(D2)予め定められた限界値内による使用の有無、
などの条件を示す。
そして、サーバ装置10は、データ生成制御処理としては、例えば、図4に示すように、
(B1-1)割り当て状況判定処理によって割り当てた状況が制約条件を具備したと判定された場合には、ユーザによって割り当てた音素データに基づいて音声言語データを生成する音声言語データ生成処理を実行し、
(B1-2)当該割り当てた状況が制約条件を具備していないと判定された場合には、音声言語データ生成処理とは異なる処理であって、特定のキャラクタなどのコンテンツデータのテキストの少なくとも一部について、発話制御を実行するための発話制御データを生成する発話制御データ生成処理を実行する、
構成を有している。
なお、基本的には、本実施形態においては、サーバ装置10は、当該割り当てた状況が制約条件を具備していないと判定された場合には、割り当て状況判定処理の結果に応じて、特定のキャラクタに対する発話制御データを生成するとともに、その他のキャラクタについては、制約条件を具備した場合と同様に、音声言語データを生成するようになっている。
また、サーバ装置10は、発話制御データ生成処理として、ユーザの指示に基づいて割り当てられた音声言語データなどを利用せずに、代替音声を生成するための音声言語データ(以下、「代替音声データ」)を生成する処理(以下、「代替音声データ生成処理」ともいう。)、又は、該当するキャラクタやテキストを無音声にする再生制御データ(以下、「無音声制御データ」という。)を生成するための処理(以下、「無音声制御データ生成処理」という。)を実行する構成を有している。
そして、サーバ装置10は、例えば、図4に示すように、提供制御処理として、発話制御データが生成された場合には、該当する端末装置20に、当該発話制御データを提供する構成を有している。
なお、図4には、サーバ装置10に、ユーザが使用可能な音素データの情報として音素データIDを含むユーザ情報と、音素データ及び各音素データに対応付けられたコストパラメータから構成される音素情報と、キャラクタデータ及びテキストデータを有するコンテンツ情報と、が管理されていることが示されている(図4の[1])。ただし、図4は、音素情報に含まれるコスト情報のみ使用した場合の例が示されている。
また、図4には、キャラクタ1、2及び3に割り当てる音素データA、C及びEが選択され、かつ、当該選択された音素データA、C及びEのコスト(実行コスト)を支払ったこと、又は、当該実行コストが予め定められた限界値内であることを制約条件とした場合の例が示されている(図4の[2])。
そして、図4には、制約条件を具備した場合に、キャラクタ1、2及び3に音素データA、C及びEを割り当てて音声言語データを生成し、かつ、当該生成された音声言語データを端末装置20に提供されること、及び、制約条件を具備しなかった場合に、キャラクタ1及び3に音素データA及びEを割り当てて音声言語データを生成しつつ、キャラクタ2について代替音声を用いる発話制御データを生成し、かつ、当該生成された音声言語データ及び発話制御データを端末装置20に提供されること、が示されている(図4の[3a]及び[3b])。
本実施形態においては、このような構成を有することによって、キャラクタ数や配役数、コストによる制限、又は、再生時のシステム容量などコンテンツを再生する際にユーザが割り当てた音素データに基づく音声を用いることができない場合、又は、ランダムに音声を選択することによって遊び感覚的な目的によって視聴を希望する場合に、代替音声を用いることによって、又は、一部のテキストを無音声にすることによって対応することができるようになっている。
そして、本実施形態においては、コンテンツに登場するキャラクタなどを発話させるためのデータを当該コンテンツとは別に提供する場合に、数多くの音素データを準備してユーザに提供することなく、又は、数多くの音素データを用意するために必要以上な支出が要求されることなく、ユーザにコンテンツを視聴させることができるようになっている。
この結果、本実施形態においては、コンテンツを提供する事業者、又は、当該コンテンツを視聴する視聴者に対する労力を低減させて利用しやすい環境を提供することができるようになっている。
[4.2]コンテンツ情報等
次に、図5を用いて、本実施形態のコンテンツ情報、音素情報及びユーザ情報について説明する。
なお、図5は、本実施形態のコンテンツ情報記憶部144、又は、音素情報記憶部146にそれぞれ記憶されコンテンツ情報、又は、音素情報の一例を示す図であり、図6は、本実施形態のユーザ情報記憶部148に記憶されユーザ情報の一例を示す図である。
(コンテンツ情報)
各コンテンツ情報は、それぞれ、例えば、映画、漫画、ゲーム、アニメーション、又は、小説などのユーザが視聴するコンテンツに関する情報であって、端末装置20によって
視聴可能な各種のデータ及び情報を有しており、コンテンツ情報記憶部144に記憶され、かつ、コンテンツ管理部105によって管理される。
例えば、各コンテンツ情報には、図5(A)に示すように、コンテンツIDに対応付けて、
(A1)画像データ、キャラクタデータ及びテキストがデータ化されたテキストデータを含むコンテンツデータ、
(A2)コンテンツが視聴される際のコスト(アイテムやポイントなどの消費量を含む。)が規定されているコンテンツコスト情報及び各コンテンツにおける発話音声データ生成処理時などに設定されている実行コストの限界値を示す限界値情報を含むコスト関連情報、
(A3)コンテンツデータに音声言語データを割り当てて、コンテンツデータ及びテキストデータを含めて、端末装置20において再生させるための再生制御データから構成される再生制御情報、及び、
(A4)題名、あらすじ及び予告編や広告のためのコンテンツなどの書誌的な情報であって付加的な情報(以下、「付加情報」という。)、
などが含まれる。
特に、キャラクタデータとしては、テキストをセリフとして発するキャラクタのデータであり、例えば、映画、漫画、ゲーム、アニメーション、又は、小説などのコンテンツ内に登場するキャラクタの属性に関する情報(すなわち、属性情報)が規定されたデータを示す。
例えば、属性には、動物・ロボット・人間などのキャラクタの種別や役割(役どころ)、キャラクタの性別や年齢、キャラクタの特徴(性格)、キャラクタが使用する方言やテキストの言語(他言語)の種別、及び、キャラクタの人気度などの属性が含まれる。
また、テキストデータは、コンテンツに登場する各キャラクタのセリフや各シーンを説明するための文章(例えば、ト書き)、1又は2以上の文章、又は、章・ページ・段落・節などの区切り毎のテキストのデータである。
なお、テキストデータには、形態素解析、構文解析、意味解析及び文脈解析などの自然言語処理が既に実行されて、その解析結果に関する情報(以下、「テキスト解析情報」という。)、及び、当該テキストが用いられるキャラクタの属性(すなわち、当該テキストを発話するキャラクタに関する属性)を示す情報(すなわち、属性情報)が規定されていてもよい。
例えば、テキスト解析情報には、単語、文字や文字列、及び、文章などの各テキストにおける品詞に関する情報、係り受けに関する情報、意味を示す情報、及び、推定された代名詞や省略された名詞の対象に関する情報などが含まれる。
すなわち、テキストデータには、各テキストに関する品詞、係り受け、意味、代名詞や省略された対象などの各情報を有していてもよい。
一方、コンテンツコスト情報において、キャラクタデータを規定するコスト情報は、コンテンツに登場する全てのキャラクタに対して規定されたパラメータ(すなわち、コストパラメータ)であってもよいし、メインのキャラクタに対して、又は、コンテンツ上、重要なキャラクタに対して規定されたコストパラメータであってもよい。
また、コンテンツコスト情報において、テキストデータを規定するコスト情報は、コン
テンツデータ全体のみならず、シーン毎、セリフ毎、及び、キャラクタ毎などの予め定められた部分毎に規定されていてもよい。
そして、コンテンツコスト情報は、コンテンツ視聴サービスで用いられるサービス内通貨若しくは当該サービスで用いるアイテム(例えば、数、又は、種別とその数)に基づいて規定される消費量などのコスト、又は、コストに対応する課金額が規定されているパラメータ(以下、「コンテンツコストパラメータ」ともいう。)である。
なお、本実施形態においては、コンテンツデータには、画像に関するデータが無く、テキストデータ及びキャラクタデータから構成されるものが含まれる。
また、本実施形態のコンテンツ情報は、コンテンツ情報記憶部144に記憶されているが、図示ししない他のデータベースから取得してもよい。
(音素情報)
各音素情報は、それぞれ、例えば、声優、俳優、又は、アナウンサーなどの発話者から予め採取されて生成された音素に関する情報であって、コンテンツのキャラクタをテキストに基づいて、発話させる際に用いる音声言語データを生成する際に用いる情報である。
例えば、各音素情報には、図5(B)に示すように、音素データIDに対応付けて、
(B1)子音・母音・半母音などの分節音素、当該分節音素の関係性を示す声調(トーン)・イントネーションを含む音の高さ、強勢やアクセント、及び、英語などの連接要素などが規定されている音素データ、
(B2)音素データが音声言語データ生成処理に用いられる際のコスト(アイテムなどの消費量や課金額)が規定されている音素コスト情報、及び、
(B3)音素情報をユーザに説明するため書誌的な情報などの付加的な情報(以下、「付加情報」ともいう。)、
が含まれる。
なお、音素コスト情報は、コンテンツコスト情報と同様に、コンテンツ視聴サービスで用いられるサービス内通貨若しくは当該サービスで用いるアイテム(例えば、数、又は、種別とその数)に基づいて規定される消費量などのコスト、又は、当該コストに対応する課金額が規定されているパラメータ(以下、「音素コストパラメータ」ともいう。)である。
(ユーザ情報)
ユーザ情報には、図6に示すように、ユーザ毎に
(C1)ユーザのニックネームやユーザID、
(C2)現在のランク、ポイント、経験値、エネルギーパラメータ値(ライフエネルギー値、体力値やパワー値でコンテンツ視聴サービスなどにゲーム的な要素が含まれている場合など)などの属性に関する情報(以下、「属性情報」ともいう。)、
(C3)使用可能なコンテンツデータ、キャラクタデータ、テキストデータ及び音素情報に関する利用可能であることを示す情報(以下、「利用可能情報」といい、例えば、音素ID又はコンテンツIDに対応付けて視聴回数などの数な制限、視聴期間などの時期的制限又はユーザレベルなどのユーザ毎の個別的な制限を示す情報)、
(C4)コンテンツ視聴サービスへの支払い状況などを含む。当該サービスに関する課金履歴及び課金額などの課金に関する情報(ユーザコスト情報)、及び、支払い制限などの発話音声データ生成処理時などの限界値を示す情報(以下、「限界値情報」ともいう。)と、
(C5)コンテンツ視聴サービスへのログインの回数、その時間及びその頻度などのログ
イン履歴に関する情報(以下、「アクセス履歴情報」という。)、
(C6)登録されたフレンドやフォロワーなどの一定の関係性を有する他のユーザ(以下、「関連ユーザ」ともいう。)に関する情報(以下、「関連ユーザ情報」という。)、
などが記憶される。
[4.3]データ生成制御処理
[4.3.1]データ生成制御処理の原理
次に、本実施形態のデータ生成制御処理の原理について説明する。
発話音声生成処理部106は、割り当て状況判定処理の結果を前提に、プレーヤの指示に基づいて、又は、プログラムに従って、データ生成制御処理として、コンテンツデータに含まれるキャラクタデータに、音素情報に含まれる音素データを割り当てて、コンテンツデータのテキストを音声言語化するための音声言語データを生成する音声言語データ生成処理を実行するとともに、必要に応じて、当該キャラクタデータに対して代替音声、又は、無音声によって制御するための発話制御データ生成処理を、データ生成制御処理として、実行する。
すなわち、発話音声生成処理部106は、割り当て状況判定処理によって制約条件を具備した場合には、そのまま、ユーザによって指定された音素データに基づいて各キャラクタに対する音声言語データを生成する音声言語データ生成処理を実行する。
その一方、発話音声生成処理部106は、割り当て状況判定処理によって制約条件を具備しなかった場合に、ユーザによって指定された音素データが割り当てられるキャラクタ(以下、「特別割り当てキャラクタ」ともいう。)と、それ以外のキャラクタ(すなわち、特定キャラクタ)と、に設定する。
そして、この場合に、発話音声生成処理部106は、データ生成制御処理として、特別割り当てキャラクタについては、そのまま、上記の音声言語データ生成処理を実行し、特定キャラクタ又は当該特定キャラクタが発話する特定テキストについては、代替音声データ生成処理及び無音声制御データ生成処理を含む発話制御データ生成処理を実行する。
具体的には、発話音声生成処理部106は、プレーヤの指示によって、又は、プログラムに従って自動的に、コンテンツ情報が選択されると、当該選択されたコンテンツ情報からコンテンツに登場するすべてのキャラクタ又は音素データを割り当て可能なキャラクタの情報(すなわち、キャラクタ情報)を抽出する。
そして、発話音声生成処理部106は、抽出した各キャラクタ情報に基づいて、プレーヤに音素データを割り当てるキャラクタの種別や当該キャラクタに関する情報を含む、キャラクタ選択情報をそれぞれ生成し、選択可能な各キャラクタをプレーヤに選択可能に提示させるために、当該生成したキャラクタ選択情報を送信する。
また、発話音声生成処理部106は、プレーヤが割り当て可能な音素データの発話音素情報を取得し、当該音素データの種別や特徴を示す情報を含む、割り当て可能音素選択情報を生成し、割り当て可能な音素データをプレーヤに選択可能に提示させるために、当該生成した割り当て音素選択情報を送信する。
そして、発話音声生成処理部106は、プレーヤによって選択されたキャラクタと当該キャラクタに割り当てを希望する音素データとの組み合わせを示す組み合わせ情報と、制約条件と、に基づいて、割り当て状況判定処理が実行されると、発話音声生成処理部106は、その結果に基づいて、データ生成制御処理として、
(A1)音声言語データ生成処理、又は、
(A2)当該音声言語データ生成処理及び発話制御データ生成処理(代替音声データ生成処理及び無音声制御データ生成処理)、
を実行する。
なお、発話音声生成処理部106は、割り当て状況判定処理によって制約条件を具備した場合には、全てのキャラクタ又は全てのテキストについて、発話制御データ生成処理を実行してもよい。
[4.3.2]音声言語データ生成処理
次に、本実施形態の音声言語データ生成処理について説明する。
(音声言語データ生成処理の原理)
発話音声生成処理部106は、音声言語データ生成処理としては、プレーヤに選択されたキャラクタのテキストにおける解析情報を取得し、又は、当該選択されたキャラクタのテキストに対して自然言語処理(すなわち、形態素解析や構文解析など)などの所定の解析を実行して当該解析情報を取得する。
そして、発話音声生成処理部106は、選択された音素データに基づきつつ、該当するテキストにおける解析情報に従って、かつ、各テキスト(すなわち、文字列や個々の文字)に沿って、子音・母音・半母音などの分節音素を割り当てつつ、当該分節音素の関係性を示す声調(トーン)・イントネーションを含む音の高さ、強勢やアクセント、方言の種別、言語の種別(日本語や英語)、及び、文字間における子音と母音のつながり(すなわち、連接要素)などを調整し、発話音声言語データを生成する。
具体的には、発話音声生成処理部106は、音素データをテキストに割り当てることによって発話音(すなわち、音声としての発話される音)を構築して発話音声データを生成する場合に、テキストの解析情報に基づいて、分節音素の割り当て、及び、声調(トーン)・イントネーションを含む音の高さ、強勢やアクセント、及び、連接などの調整を実行する際に、解析情報を含めて機械学習などのAI技術を用いて発話音声言語データを生成する。
すなわち、発話音声生成処理部106は、文字列や個々の文字への音素(分節音素)の割り当て、及び、音の高さ・強勢やアクセント・連接などの調整を行う際に、自然言語処理における解析情報とともに、音素データの割り当て先のキャラクタの属性、又は、テキストの属性に基づいて予め生成された学習可能な当該音素データのデータモデルから構成される人工知能(AI:Artificial Intelligent)の技術を用いた音素データのモデル情報を用いる。
特に、発話音声生成処理部106は、コンテンツ、キャラクタ又はテキストなどの各属性(特に、キャラクタの属性及びテキストの属性)に対応付けて各音素の変化量や変化態様などの特徴量を抽出し、当該抽出した特徴量について機械学習をすることによって生成された音素データのモデル情報を用いる。
すなわち、発話音声生成処理部106は、自然言語処理における解析情報に基づきつつ、キャラクタの属性、及び、テキストの属性の少なくともいずれか一方の属性に基づいて生成された音素データのデータモデルを示すモデル情報に従って、テキストを発話者の音声にするための音声言語データを生成する音声言語データ生成処理を実行する。
例えば、発話音声生成処理部106は、既に、評価された発話音声言語データ(すなわ
ち、発話された音)を教師データとして用いるサポートベクターマシンやニューラルネットワーク(例えば、再帰型ニューラルネットワーク)などのディープラーニングを含む機械学習、又は、GAN(敵対的生成ネットワーク)やアソシエーション分析などの教師データ無しのディープラーニングを含む機械学習が実行された音素データのモデル情報を用いる。
そして、発話音声生成処理部106は、このような音素データのモデル情報を用いて発話音声データ生成処理を実行する。
一方、発話音声生成処理部106は、当該生成した音声言語データに基づいて音素データのモデル情報を学習させる学習処理を実行する。
すなわち、発話音声生成処理部106は、当該発話音声言語データを生成する毎に、当該モデル情報を学習させて新たなモデル情報を生成して更新し、更新したモデル情報を用いて次回以降の発話音声言語データの生成に用いている。
[4.3.3]発話制御データ生成処理
次に、図7及び図8を用いて本実施形態の発話制御データ生成処理について説明する。なお、図7及び図8は、本実施形態の発話制御データ生成処理について説明するための図である。
(発話制御データ生成処理の原理)
発話音声生成処理部106は、特定のキャラクタ又は特定のテキストの少なくとも一部に割り当てる音声言語データとして、他のキャラクタ又は他のテキストに割り当てられた音素データと同一の音素データを、当該他のキャラクタ又は当該他のテキストの音声言語データを生成するときと異なる所与の加工処理に基づいて、又は、当該加工処理がなされた音素データに基づいて、音声言語データ生成処理とは異なる処理であって、前記コンテンツデータのテキストの少なくとも一部について、発話制御を実行するための発話制御データを生成する発話制御データ生成処理を実行する。
そして、発話音声生成処理部106は、他のキャラクタなどに割り当てられた音素データに対して、他のキャラクタ又は他のテキストの音声言語データを生成するときと異なる加工処理に基づいて、音声発話音声データ生成処理を実行する。
特に、発話音声生成処理部106は、割り当て状況判定処理の結果を前提に、上述のように、コンテンツのキャラクタ数や配役数、コストによる制限、又は、再生時のシステム容量などコンテンツを再生する際にユーザが割り当てた音素データに基づく音声を用いることができない場合、又は、ランダムに音声を選択することによって遊び感覚的な目的によって視聴を希望する場合に、
(A1)コンテンツに登場する一部の特定のキャラクタ(以下、「特定キャラクタ」ともいう。)、若しくは、当該特定キャラクタに割り当てられた特定のテキスト(以下、「特定テキスト」という。)に対して割り当てる代替音声データを生成する代替音声データ生成処理、又は、
(A2)当該特定キャラクタや当該特定テキストを無音声として制御する無音声制御データを生成する無音声制御データ生成処理、
をデータ生成制御処理として実行する。
すなわち、発話音声生成処理部106は、割り当て状況判定処理によって制約条件を具備しなかったと判定された場合に、視聴するコンテンツのうち、ユーザによって指示された音素データが割り当てられる特別割り当てキャラクタと、それ以外のキャラクタ(すな
わち、特定キャラクタ)と、に設定する。
そして、発話音声生成処理部106は、特別割り当てキャラクタについては、そのまま、上記の音声言語データ生成処理を実行し、特定キャラクタ又は当該特定キャラクタが発話する特定テキストに対しては、代替音声データ生成処理及び無音声制御データ生成処理を含むデータ生成制御処理を実行する。
また、発話音声生成処理部106は、特定キャラクタ又は当該特定キャラクタが発話する特定テキストに対しては、代替音声データ生成処理、又は、無音声制御データ生成処理をデータ生成制御処理として実行する。
具体的には、発話音声生成処理部106は、特定キャラクタとしては、ユーザの指示(積極的な指示だけでなく、音素データを割り当てないという消極的な指示も含む。)に基づいて、又は、登場回数・発話回数・テキストの文字数などに基づく発話量が他のキャラクタに比べて少ない場合(例えば、キャラクタ全体に対する平均の半分以下など)に、又は、予めキャラクタのコンテンツ内における重要度などを示すランクが定められている場合にはそのランクに応じて、代替音声となるキャラクタ(以下、「代替音声キャラクタ」という。)、又は、無音声となるキャラクタ(以下、「無音声キャラクタ」という。)を設定する。
また、発話音声生成処理部106は、特定テキストとしては、代替音声キャラクタ又は無音声キャラクタなどの特定キャラクタに割り当てられたテキスト又はその一部を設定する。
なお、本実施形態においては、特定テキストとしては、ユーザによって直接テキストへの音素データを割り当てることができる場合には、当該音素データが割り当てられなかったテキスト若しくはそのテキストの一部、コストの関係で音素データの割り当てが不能となったテキスト若しくはそのテキストの一部、又は、ユーザによって指定されたテキスト若しくはそのテキストの一部などが含まれる。
(代替音声データ生成処理)
発話音声生成処理部106は、代替音声キャラクタ、又は、特定テキストに割り当てる音声言語データとして、他のキャラクタ(すなわち、代替音声キャラクタ以外のキャラクタであって、特別割り当てキャラクタ)又は他のテキスト(すなわち、特定テキスト以外のテキスト)に割り当てられた音素データと同一の音素データを用いる。
そして、発話音声生成処理部106は、当該他のキャラクタなどに割り当てられた音素データに対して、他のキャラクタ又は他のテキストの音声言語データを生成するときと異なる加工処理に基づいて、音声発話音声データ生成処理を実行することによって、発話制御データとして代替音声データを生成する代替音声データ生成処理を実行する。
すなわち、発話音声生成処理部106は、加工処理として、代替音声キャラクタや当該代替音声キャラクタのテキストの一部の発話音声において、声の高低、イントネーション、アクセントなどの声調を含む、発話音声における各種の声質について変化(すなわち、加工)させるための処理を実行し、同一の音素データであっても異なる発話音声になるための処理を、代替音声データ生成処理、として、実行している。
具体的には、発話音声生成処理部106は、図7に示すように、発話制御データ生成処理時に該当する音素データに対して、上記のような加工処理を実行して代替音声データを生成する代替音声データ生成処理を実行する。
特に、発話音声生成処理部106は、代替音声データ生成処理としては、音素データをテキストに割り当てることによって発話音(すなわち、音声としての発話される音)を構築して発話音声データを生成する際に、各キャラクタの属性(例えば、年齢、性別、性格(特徴)、職業、経歴、使用する方言、使用言語)又はコンテンツの属性(例えば、コメディやホラーなどのジャンルや視聴対象年齢など)などの各属性情報に対応付けて各音素の変化量や変化態様などの特徴量を抽出し、当該抽出された特徴量について機械学習をすることなどによって生成された音素データのモデルデータを用いる。
なお、図7には、コンテンツのキャラクタ2について、キャラクタ1と同じ音素データAを用いつつ、キャラクタ1における加工処理1(通常の音声加工)とは異なる加工処理2によって音声言語データ(すなわち、代替音声データ)を生成していることが示されている。
また、発話音声生成処理部106は、代替音声データ生成処理としては、基準データとして予め定められた音素データ(すなわち、コンテンツ毎、又は、コンテンツ視聴サービス全体においてデフォルトとして予め定められた音素データ)、又は、ユーザによって所有している音素データなどの既に当該ユーザによって使用可能となっている音素データのいずれかを割り当てて音声言語データを生成してもよい。
さらに、代替音声データ生成処理が実行された際に用いられたモデルデータは、上述と同様に、学習されるが、当該学習される毎に更新されてもよいし、新たなモデルデータとして記憶され、各キャラクタ又はコンテンツ情報が同じ場合などの所与の条件が合致する場合の音素データとして(すなわち、新たなバリエーションとして)用いるようにしてもよい。
そして、代替音声データ生成処理として、基準データを用いる場合を含め、音素データを用いて音声言語データを生成する場合には、基本的には、上記のように、音素データのモデルデータを用いた音声言語データ生成処理と同様な処理であるため、その説明を省略する。
(無音声制御データ生成処理)
発話音声生成処理部106は、上述の代替音声データ生成処理に代えて、無音声制御データ生成処理として、無音声キャラクタのテキスト、又は、特定テキストを、コンテンツに規定された発生タイミング(すなわち、音声出力タイミング)において完全に無音にした状態でコンテンツを視聴させるための再生制御データを生成する。
具体的には、発話音声生成処理部106は、再生制御データとして、該当するタイミングで、音声が出力されないことを示す演出(画像演出や音演出)を実行するための制御データを生成する。
例えば、発話音声生成処理部106は、図8に示すように、無音シーンの画像演出用の再生制御データとして、該当するテキストを画像表示する表示制御データ、特に、映画の字幕のような発話タイミングに合わせて1文から2文のテキストを表示させるための表示制御、又は、発話タイミングに従って、テキストの各文字の色を徐々に変化させるための表示制御を行うためのデータを生成する。
また、例えば、発話音声生成処理部106は、無音シーンの音演出用の再生制御データとして、特定の演出音楽を再生するためのデータを生成してもよい。
[4.4]割り当て状況判定処理
[4.4.1]割り当て状況判定処理の基本原理
次に、本実施形態の割り当て状況判定処理の基本原理について説明する。
コンテンツ管理部105は、上述のように、音声言語データ生成処理及び発話制御データ生成処理を含む、生成制御処理(具体的には、音声言語データ割り当て処理)が実行される際に、ユーザの音素データの割り当てに関する割り当て状況が、当該割り当てに関する制約条件を具備しているか否かを判定する割り当て状況判定処理を実行する。
特に、コンテンツ管理部105は、コスト管理部107に、ユーザの音素データの割り当てに関する割り当て状況として、視聴対象のコンテンツの種別、割り当てられた音素データの種別や数、当該音素データが割り当てられたキャラクタの種別や数、割り当てられたテキストの種別、又は、これらの組み合わせによって、コンテンツを視聴する際にデータの使用に対して規定されたコスト(すなわち、実行コスト)を算出する実行コスト算出処理を実行させる。
そして、コンテンツ管理部105は、制約条件として、
(A1)割り当てた音素データの使用する際の実行コスト、当該音素データの割り当て先のキャラクタを使用する際の実行コスト、及び、音素データによって生成される発話音声を出力するためのテキストを使用する際の実行コストに基づく条件(以下、「実行コストに基づく条件」ともいう。)、又は、
(A2)予め定められた限界値内による使用に関する条件(以下、「限界値に基づく条件」ともいう。)、
を用いることによって、割り当て状況判定処理を実行する。
すなわち、コンテンツ管理部105は、生成制御処理が実行される際に、使用する各データのコストパラメータに基づいて、使用するコンテンツデータ又は音素データのコストが実行コストとして、算出されると、制約条件として、当該算出された実行コストのユーザにおける支払いの有無、又は、当該実行コスが予め定められた限界値内か否かを判定する割り当て状況判定処理を実行する。
なお、発話音声生成処理部106は、上述のように、
(B1-1)割り当て状況判定処理によって割り当てた状況が制約条件を具備したと判定された場合には、音声言語データ生成処理を実行し、
(B1-2)当該割り当てた状況が制約条件を具備していないと判定された場合には、前記音声言語データ生成処理とは異なる処理であって、前記コンテンツデータのテキストの少なくとも一部について、発話制御を実行するための発話制御データを生成する発話制御データ生成処理を実行する、
構成を有している。
また、コンテンツ管理部105は、割り当てた状況が制約条件を具備していないと判定された場合には、プレーヤの指示に基づいて、又は、プログラムにしたがって、ユーザの支払い済みのコストや支払うコストに応じて、ユーザの希望する音素データを割り当てるキャラクタ(すなわち、特別割り当てキャラクタ)、及び、発話制御データ生成処理を実行するキャラクタ(すなわち、特定キャラクタ)を決定する。
そして、コンテンツ管理部105は、特別割り当てキャラクタに対しては、ユーザによって設定された音素データに基づく音声言語データ生成処理を実行し、特定キャラクタに対しては、ユーザによって設定された音素データに基づく音声言語データ生成処理に代えて、発話制御データ生成処理を実行する。
[4.4.2]実行コスト算出処理を含む実行コストに基づく割り当て状況判定処理
次に、図9及び図10を用いて、本実施形態の実行コスト算出処理を含む実行コストに基づく割り当て状況判定処理について説明する。
なお、図9及び図10は、本実施形態の実行コスト算出処理を含む実行コストに基づく割り当て状況判定処理を説明するための図である。
(基本原理)
コスト管理部107は、音素データなどのコストパラメータの管理を前提にしつつ、当該音素データなどの実行コスト(アイテムなどの消費量)に対するユーザの支払いの有無に基づいて、制約条件を具備しているか否かを判定する割り当て状況判定処理を実行する。
すなわち、コスト管理部107は、ユーザによって実行コストの支払いが無い場合には音声言語データの生成などを実行せず、当該ユーザによって実行コストの支払いがある場合には音声言語データの生成などを実行させるため、このような割り当て状況判定処理を実行する構成を有している。
具体的には、コスト管理部107は、生成処理に用いる音素データ、キャラクタデータ及びテキストデータのうち、いずれか1のデータの使用に関するコストが規定されたコストパラメータを管理する。
特に、コスト管理部107は、コンテンツ情報記憶部144に記憶されているコンテンツコスト情報に含まれる各キャラクタのコストパラメータ、及び、各テキスト(コンテンツ全体のテキストやその一部のテキストを含む。)のコストパラメータ(基準値)を管理する。
また、コスト管理部107は、音素情報記憶部146に記憶されている音素コスト情報に含まれる各音素データの使用に関するコストパラメータ(基準値)を管理する。
そして、コスト管理部107は、上述した音声言語データ生成処理の実行時に、ユーザによって選択された、又は、プログラムによって従って自動的に選択された、音素データ、キャラクタデータ、テキストデータ、又は、これらの2以上の組み合わせのそれぞれのコストパラメータ(基準値)に基づいて、当該音声言語データ生成処理のトータルのコスト(すなわち、実行コスト)を算出する算出処理(すなわち、実行コスト算出処理)を実行する。
そして、コンテンツ管理部105は、このように算出した実行コストに基づいて、該当するユーザに対して、所定の方法による支払いを要求(以下、「実行コスト支払い要求」ともいう。)し、当該ユーザの支払いの有無及びその額に基づいて、制約条件を具備しているか否かを判定する割り当て状況判定処理を実行する。
(実行コスト算出処理)
コスト管理部107は、実行コスト算出処理としては、キャラクタ又はテキストに割り当てる音素データがユーザによって又はプログラムによって1以上選択された場合に、当該選択された各音素データに、又は、当該各音素データが割り当てられると想定されるそれぞれのキャラクタデータ若しくはテキストデータに対応付けて管理されているコストパラメータを読み出す。
そして、コスト管理部107は、読み出した各コストパラメータを合算など所与の演算を実行することによって実行コストを算出する。
特に、コスト管理部107は、実行コスト算出処理としては、例えば、図9に示すように、ユーザが割り当てを希望する各音素データに規定されているコストパラメータに基づいて所定の演算(例えば、合算)を実行し、その演算結果を実行コストとして算出する処理(以下、「音素データ実行コスト算出処理」という。)を行う。
例えば、図9に示すように、ユーザによって音素データA(コスト:50ポイント)、音素データB(コスト:50ポイント)、音素データC(コスト:40ポイント)、音素データD(コスト:60ポイント)及び音素データE(コスト:45ポイント)が使用可能な状態であって、そのうち、音素データA、C及びEが選択された場合を想定する。
この場合には、コスト管理部107は、図9に示すように、実行コスト算出処理を実行し、実行コストとして、135ポイントを算出する。
一方、コスト管理部107は、実行コスト算出処理としては、上記に代えて、例えば、ユーザが希望する音素データを割り当て先である各キャラクタに規定されているコストに基づいて所定の演算(例えば、合算)を実行し、その演算結果を実行コストとして算出する処理(以下、「キャラクタコスト演算処理」という。)を実行してもよい。
例えば、図10に示すように、ユーザによって音素データA、音素データB、音素データC、音素データD及び音素データEが使用可能な状態であって、そのうち、音素データA、C及びEが選択され、かつ、音素データを割り当てるコンテンツには、それぞれコストが設定されたキャラクタ1(コスト:100ポイント)、2(コスト:50ポイント)及び3(コスト:40ポイント)が登場する場合を想定する。
この場合には、コスト管理部107は、図10に示すように、キャラクタコスト演算処理を実行し、実行コストとして、190ポイントを算出する。
なお、本実施形態においては、音素データ又はキャラクタに基づいて実行コストが算出されているが、音素データが割り当てられるテキスト(一部も含む。)に規定されているコストに基づいて、実行コストが算出されてもよいし、音声言語データ生成処理に用いる音素データ、キャラクタ、又は、テキストの2以上の組み合わせのそれぞれのコストパラメータに基づいて、実行コストが算出されてもよい。
(割り当て状況判定処理)
コンテンツ管理部105は、上述のように実行コストが算出されると、実行コスト支払い要求として、該当するユーザの端末装置20に、システム内通貨若しくはシステム内で用いるアイテム(例えば、数、又は、種別とその数)に基づいて規定されるコスト、又は、コストに対応する課金額を、提示する。
具体的には、コンテンツ管理部105は、算出したアイテムの消費量又は課金額を示す情報とともに、当該アイテムの消費又は課金額による支払いを促すための実行コスト支払い要求を、情報提供部110を介して、該当する端末装置20に送信する。
そして、コンテンツ管理部105は、端末装置20を介して、提示した対価の支払いに関する情報、又は、課金に関する情報を受信すると、当該受信した情報によって当該ユーザの支払いの有無を判定する割り当て状況判定処理を実行する。
一方、コンテンツ管理部105は、割り当てた状況が制約条件を具備していないと判定された場合には、プレーヤの指示に基づいて、又は、プログラムにしたがって、ユーザの支払い済みのコストや支払うコストに応じて、ユーザの希望する音素データのキャラクタ(すなわち、特別割り当てキャラクタ)への割り当て、及び、発話制御データ生成処理を実行するキャラクタ(すなわち、特定キャラクタ)を決定する。
なお、音声データ生成処理は、上述のように、特別割り当てキャラクタに対しては、ユーザによって設定された音素データに基づく音声言語データ生成処理を実行し、特定キャラクタに対しては発話制御データ生成処理を実行する。
[4.4.3]限界値に基づく割り当て状況判定処理
次に、図11及び図12を用いて、本実施形態の実行コストと限界値とに基づく割り当て状況判定処理について説明する。
なお、図11及び図12は、本実施形態の実行コストと限界値とに基づく割り当て状況判定処理について説明するための図である。
コスト管理部107は、上記の割り当て状況判定処理に代えて、上記の実行コスト算出処理によって算出した実行コストと予め定められているコストの限界値とが所与の関係性条件を具備していると判定した場合には、制約条件を具備しているか否かを判定する割り当て状況判定処理を実行してもよい。
特に、コンテンツ管理部105は、予め設定されたコストの限界値としては、例えば、ユーザが予め支払ったコスト(事前にアイテムを消費させた消費量や課金額)、又は、サブスクリプションなど一定額を支払うと一定のサービスを享受できる場合の限度額(アイテムやポイントの消費量を含む。以下同じ。)、又は、コンテンツ提供者が予め設定した場合の限度額を示す値などの上限値やそれに対応する値であって、コンテンツ毎に対応付けられて設定されている値(例えば、コンテンツ毎に設定された値)であってもよいし、ユーザ毎に対応付けられた値であってもよい。
そして、コンテンツ管理部105は、所与の関係性条件として、生成処理に用いる音素データのコストが、これらの限界値を超えていない場合などの条件を用いる。
すなわち、限界値に基づく割り当て状況判定処理としては、コンテンツ管理部105は、生成処理に用いる音素データのコストが、このようなコストの限界値を超えていない場合など所与の関係性条件が具備されていない場合には音声言語データの生成などの実行をさせず、当該限界値を超えている場合など、所与の関係性条件が具備されている場合には、音声言語データの生成などを実行させるため、このような割り当て状況判定処理を実行する構成を有している。
具体的には、コスト管理部107は、上述と同様に、音素情報記憶部146に記憶されている音素コスト情報に含まれる各音素データのコストのパラメータ(基準値)を管理する。
また、コスト管理部107は、上述した音声言語データ生成処理の実行時に、ユーザによって選択された、又は、プログラムによって従って自動的に選択された、音素データのコストパラメータ(基準値)に基づいて、当該音声言語データ生成処理のトータルのコスト(すなわち、実行コスト)を算出する算出処理(すなわち、実行コスト算出処理)を実行する。
そして、コンテンツ管理部105は、このように算出した実行コストが、予めユーザが既に支払ったコストに基づく限界値以内か否かを判定する割り当て状況判定処理を実行する。
例えば、図11に示すように、ユーザによって音素データA(コスト:50ポイント)、音素データB(コスト:50ポイント)、音素データC(コスト:40ポイント)、音素データD(コスト:60ポイント)及び音素データE(コスト:45ポイント)が使用可能な状態であって、ユーザAに設定されたコスト上限(既にユーザAが支払った金額に対応するポイント)が、150ptの場合を想定する。
この場合には、図11に示すように、音素データA、C及びEが選択された場合には、コスト管理部107は、実行コストとして、135ptを算出し、上限値の150pt以内となるため、音声言語データ生成処理の実行を許可する旨の判定を行う。
なお、限界値は、ユーザ毎に設定されている点に代えて、コンテンツ毎に設定されていてもよい。
例えば、この場合には、図12に示すように、ユーザによって音素データA(コスト:50ポイント)、音素データB(コスト:50ポイント)、音素データC(コスト:40ポイント)、音素データD(コスト:60ポイント)及び音素データE(コスト:45ポイント)が使用可能な状態であって、コンテンツIDがIDC0001のコンテンツに設定されたコスト上限が、150ptの場合を想定する。
この場合には、図12に示すように、音素データA、C及びEが選択された場合には、コスト管理部107は、実行コストとして、135ptを算出し、上限値の150pt以内となるため、音声言語データ生成処理の実行を許可する旨の判定を行う。
一方、コンテンツ管理部105は、割り当てた状況が制約条件を具備していないと判定された場合には、プレーヤの指示に基づいて、又は、プログラムにしたがって、限界値内のコストに収まるように、ユーザの希望する音素データのキャラクタ(すなわち、特別割り当てキャラクタ)への割り当て、及び、発話制御データ生成処理を実行するキャラクタ(すなわち、特定キャラクタ)を決定する。
なお、発話音声生成処理部106は、特別割り当てキャラクタに対しては、ユーザによって設定された音素データに基づく音声言語データ生成処理を実行し、特定キャラクタに対しては発話制御データ生成処理を実行する。
[4.5]コンテンツ提供制御御処理
次に、本実施形態のコンテンツ提供制御御処理について説明する。
コンテンツ管理部105は、情報提供部110と連動し、通信制御部111を介して、コンテンツのテキストに沿ってキャラクタの音声を再生出力する端末装置20に、コンテンツ情報とともに、発話音声データ生成処理によって生成した音声言語データ、及び、代替音声データ生成処理及び無音声制御データ生成処理を含むデータ生成制御処理によって生成された音声言語データや再生制御データを送信(提供)する提供制御処理を実行する。
特に、コンテンツ管理部105は、提供制御処理としては、発話音声データや再生制御データとともに、テキストに沿って発話音声データに基づく発話させる発話制御、及び、テキストとに従って端末装置20に画像を表示させるための画像生成制御などの再生制御
データを含む、コンテンツ情報(再生制御情報を含む。)を該当する端末装置20に提供する。
[4.6]変形例
次に、本実施形態の変形例について説明する。
(コストパラメータの変動に伴う割り当て状況判定処理1/ユーザ状況)
本変形例は、上記の実施形態において、実行コストを算出する際にコストパラメータ(基準値)を用いている点に代えて、該当するユーザのコンテンツに関する状況(すなわち、ユーザ状況)に基づいて基準値から変動させたコストパラメータを用いて割り当て状況判定処理が実行されてもよい。
すなわち、本変形例においては、コンテンツ視聴サービスに対するログイン状況などユーザ状況に基づいて、音素データ、キャラクタデータ又はテキストデータにおけるコストパラメータを基準値から変動させて実行コストを変化させ、当該変化させた実行コストによって実行コストに基づく割り当て状況判定処理又は限界値に基づく割り当て状況判定処理が実行されてもよい。
具体的には、ユーザ管理部104は、ユーザのコンテンツに関する所与の状況を検出する。
例えば、ユーザ管理部104は、ユーザ状況として、
(A1)ユーザの課金額、
(A2)当該コンテンツを聴取や視聴するサービス(すなわち、コンテンツ視聴サービス)に対するログイン状況(ログインの頻度、総ログイン時間、又は、ログインによって獲得した特典)、
(A3)コンテンツの利用時間(聴取時間や視聴時間)又は利用することによって獲得したポイント、及び、
(A4)ユーザのランクやレベルなどの他のユーザからの優位性を示す優位度、などを検出する。
また、コスト管理部107は、検出されたユーザ状況と、各ユーザ状況に対応付けて記憶されているコストパラメータ(基準値)の変動値を有するテーブルデータと、に基づいて、当該検出されたユーザの状況におけるコストパラメータ(音素データ、キャラクタデータ又はテキストデータのコストパラメータ)の変動値を特定する変動制御処理を実行し、特定した変動値に基づいて、上述のように、音素データなどの実行コストを算出する。
そして、この場合には、コンテンツ管理部105は、変動値に基づいて算出された実行コストを用いて、各種の割り当て状況判定処理(すなわち、実行コストに基づく割り当て状況判定処理又は限界値に基づく割り当て状況判定処理)を実行する。
なお、このように、実行コストを変動させることによって、コンテンツ視聴サービスのユーザに対する割引その他のサービスを充実させることができるので、ユーザのコンテンツ利用の満足度を向上させることができるようになっている。
(コストパラメータの変動に伴う割り当て状況判定処理2/コンテンツ関連情報)
本変形例は、上記の実施形態において、実行コストを算出する際にコンテンツの種別やキャラクタの属性などのコンテンツに関する関連情報(以下、「コンテンツ関連情報」という。)又は音素に関する関連情報(以下、「音素データ関連情報」といいう。)に基づいて、基準値から変動させたコストパラメータを用いて割り当て状況判定処理が実行され
てもよい。
すなわち、本変形例においては、キャラクタの発話回数や人気度などの関連情報としての属性に応じて、音素データ、キャラクタデータ又はテキストデータにおけるコストパラメータを変動させて実行コストを変化させ、当該変化させた実行コストによって実行コストに基づく割り当て状況判定処理又は限界値に基づく割り当て状況判定処理が実行されてもよい。
具体的には、コスト管理部107は、コンテンツ情報記憶部144に記憶されているキャラクタやテキストの情報を含む、該当するコンテンツ情報中からコンテンツ関連情報を特定し、又は、音素情報記憶部146に記憶されている該当する発話音素情報の中から音素データ関連情報を特定する。
特に、コスト管理部107は、コンテンツ関連情報としては、コンテンツのジャンル(コメディ、ホラー、恋愛、アクション又はアクション)を示すジャンル情報、テキストデータにおける小説・漫画・ノンフィクション・新聞などの属性を示す属性情報、又は、キャラクタデータにおける、動物・ロボット・人間などの種別、性別や年齢、方言(標準語、関西弁、東北弁又は九州訛りなど)やテキストの言語(他言語)の種別及び人気度などの属性を示す属性情報を特定する。
また、コスト管理部107は、音素データ関連情報としては、声優やアナウンサーなどの発話者のジャンル、性別、年齢や年代、又は、人気度などの属性情報を特定する。
そして、コスト管理部107は、これらのコンテンツ関連情報、音素データ関連情報又はその双方と、コンテンツ関連情報、音素データ関連情報又はその双方に対応付けてコストパラメータの変動値を有するテーブルデータと、に基づいて、コンテンツ関連情報や音素データ関連情報に対応するコストパラメータ(音素データ、キャラクタデータ又はテキストデータのコストパラメータ)の変動値を特定する変動制御処理を実行し、特定した変動値に基づいて、上述のように、音素データなどの実行コストを算出する。
そして、この場合には、コンテンツ管理部105は、上述のように、変動値に基づいて算出された実行コストを用いて、各種の割り当て状況判定処理(すなわち、実行コストに基づく割り当て状況判定処理又は限界値に基づく割り当て状況判定処理)を実行する。
なお、このように、実行コストを変動させることによって、コンテンツ視聴サービスのユーザに対する割引その他のサービスを充実させることができるので、ユーザのコンテンツ利用の満足度を向上させることができるようになっている。
(コストパラメータの変動に伴う割り当て状況判定処理3/音素データの組み合わせ)
本変形例は、上記の実施形態において、実行コストを算出する際にコストパラメータ(基準値)を用いている点に代えて、音声言語データ生成処理に用いた(すなわち、キャラクタに割り当てた)音素データの組み合わせに基づいて基準値から変動させたコストパラメータを用いて割り当て状況判定処理が実行されてもよい。
すなわち、本変形例においては、同一の発話者によって採取されたデータであることなど、キャラクタに割り当てた音素データの組み合わせに応じて、音素データにおけるコストパラメータを変動させて実行コストを変化させ、当該変化させた実行コストによって実行コストに基づく割り当て状況判定処理又は限界値に基づく割り当て状況判定処理が実行されてもよい。
具体的には、コスト管理部107は、音声言語データ生成処理が実行されると、キャラクタに割り当てられた各音素データにおける、音素情報記憶部146に記憶されている該当する発話音素情報の中から音素データ関連情報を特定する。
特に、コスト管理部107は、音素データ関連情報としては、割り当てられた各音素データにおける、声優やアナウンサーなどの発話者のジャンル、性別、年齢や年代、又は、人気度などの属性情報を特定する。
そして、コスト管理部107は、特定した音素データ関連情報の組み合わせと、音素データ関連情報の組み合わせに対応付けてコストパラメータの変動値を有するテーブルデータと、に基づいて、当該組み合わせにおけるコストパラメータの変動値を特定する変動制御処理を実行し、特定した変動値に基づいて、上述のように、音素データなどの実行コストを算出する。
そして、この場合には、コンテンツ管理部105は、上述のように、変動値に基づいて算出された実行コストを用いて、各種の割り当て状況判定処理(すなわち、実行コストに基づく割り当て状況判定処理又は限界値に基づく割り当て状況判定処理)を実行する。
なお、このように、実行コストを変動させることによって、コンテンツ視聴サービスのユーザに対する割引その他のサービスを充実させることができるので、ユーザのコンテンツ利用の満足度を向上させることができるようになっている。
また、本変形例においては、同一の発話者によって採取されたデータであることなど、キャラクタに割り当てた音素データの組み合わせに応じて、キャラクタデータやテキストデータにおけるコストパラメータを変動させて実行コストを変化させてもよい。
(コストパラメータの変動に伴う割り当て状況判定処理4/モデル情報の学習状況)
本変形例は、上記の実施形態において、実行コストを算出する際にコストパラメータ(基準値)を用いている点に代えて、音声言語データ生成処理が繰り返し実行された際のデータモデルの学習状況に基づいて基準値から変動させたコストパラメータを用いて割り当て状況判定処理が実行されてもよい。
すなわち、本変形例においては、モデル情報の学習回数、学習進度(所与期間における学習回数)、又は、学習した音声言語データの評価値(例えば、人気度などの利用回数を含む。)などの学習状況に応じて、音素データにおけるコストパラメータを変動させて実行コストを変化させ、当該変化させた実行コストによって実行コストに基づく割り当て状況判定処理又は限界値に基づく割り当て状況判定処理が実行されてもよい。
具体的には、コスト管理部107は、音声言語データ生成処理の実行時に、アプリケーション情報記憶部149に記憶されたモデル情報とともに、記憶された学習回数や人気度などの学習状況を示す学習状況情報を取得する。
そして、コスト管理部107は、学習状況情報と、当該学習状況情報に対応付けてコストパラメータの変動値を有するテーブルデータと、に基づいて、生成される発話音声言語データにおけるコストパラメータの変動値を特定する変動制御処理を実行し、特定した変動値に基づいて、上述のように、音素データなどの実行コストを算出する。
そして、この場合には、コンテンツ管理部105は、上述のように、変動値に基づいて算出された実行コストを用いて、各種の割り当て状況判定処理(すなわち、実行コストに基づく割り当て状況判定処理又は限界値に基づく割り当て状況判定処理)を実行する。
なお、このように、実行コストを変動させることによって、コンテンツ視聴サービスのユーザに対する割引その他のサービスを充実させることができるので、ユーザのコンテンツ利用の満足度を向上させることができるようになっている。
また、本変形例においては、同一の発話者によって採取されたデータであることなど、キャラクタに割り当てた音素データの組み合わせに応じて、キャラクタデータやテキストデータにおけるコストパラメータを変動させて実行コストを変化させてもよい。
[5]本実施形態における動作
次に、図13を用いて本実施形態のサーバ装置10によって実行されるデータ生成制御処理、及び、実行コストに基づく割り当て状況判定処理を含むコンテンツの視聴を開始する際のコンテンツ試聴開始処理の動作について説明する。
なお、図13は、本実施形態のサーバ装置10によって実行されるデータ生成制御処理、及び、実行コストに基づく割り当て状況判定処理を含むコンテンツの視聴を開始する際のコンテンツ試聴開始処理の動作を示すフローチャートである。
本動作は、ユーザの選択によって音素データを、視聴を希望するコンテンツのキャラクタに、割り当てるとともに、音素データの実行コストがコンテンツに予め設定された限界値内であることを制約条件として用いた場合の動作である。
また、本動作においては、コンテンツは、ストリーミングによって端末装置20に視聴可能に提供されるものとする。
そして、本動作においては、ユーザが希望するコンテンツが既にコンテンツ情報記憶部144に記憶されているとともに、割り当てられる各音素データについては既にそのコストを示すコストパラメータを含めて音素情報記憶部146に記憶されているものとする。
さらに、本動作においては、アプリケーション情報記憶部149には、既に、ユーザによって割り当てられる音素データのモデルがモデル情報として登録されているものとし、かつ、視聴可能なコンテンツ毎に、割り当てることが可能な実行コストの上限値となる限界値が設定されているものとする。
なお、本動作の実行開始前には、ユーザに対して視聴させるコンテンツの選択及び割り当てを希望する音素情報の選択のための情報が提示されているものとする。
まず、コンテンツ管理部105によって、通信制御部101を介して端末装置20から送信された、ユーザにおけるコンテンツの視聴指示とともに、視聴するコンテンツ、及び、当該コンテンツに登場するキャラクタに割り当てる音素データに関する情報(すなわち、ユーザによって選択された音素データの情報)が受信されると(ステップS101)、コスト管理部107は、割り当てられた音素データの音素コスト情報を音素情報記憶部146から読み出し、割り当てられた音素データによって音声言語データを生成する際の実行コストを算出する(ステップS102)。
次いで、コスト管理部107は、算出した実行コストと、予め設定された割り当て可能なコストの上限値(すなわち、限界値)と、を比較し(ステップS103)、制約条件を具備しているか否か(例えば、当該実行コストが上限値以内であるか否か)を判定する実行許可判定処理を実行する(ステップS104)。
このとき、コスト管理部107は、算出した実行コストが予め設定された割り当て可能なコストの上限値内であると判定した場合(すなわち、制約条件を具備した場合)には、ステップS105の処理に移行し、算出した実行コストが予め設定された割り当て可能なコストの上限値を超えたと判定した場合(すなわち、制約条件を具備していない場合)には、ステップS107の処理に移行する。
次いで、発話音声生成処理部106は、実行コストが予め設定された割り当て可能なコストの上限値内であると判定された場合には、ユーザによって選択された各音素データを当該ユーザが希望するコンテンツの各キャラクタに割り当てて、当該キャラクタに属するテキストに対する発話音声となる音声言語データをそれぞれ生成する音声言語データ生成処理を実行する(ステップS105)。
次いで、コンテンツ管理部105は、ユーザが希望するコンテンツのコンテンツ情報と、当該生成された発話音声データと、に基づいて、該当する端末装置20に対してストリーミング形式による再生を実行するための各種のデータの送信を開始し(ステップS106)、本動作を終了させる。
一方、コスト管理部107は、実行コストが予め設定された割り当て可能なコストの上限値内でないと判定された場合には、当該コストの上限値内に収まる実行コストとなるユーザによって指定された音素データとキャラクタとの組み合わせを検出する(ステップS107)。
このとき、コンテンツ管理部105は、当該組み合わせに含まれるキャラクタを特別割り当てキャラクタとして設定し、それ以外のキャラクタを特定キャラクタとして設定する。
次いで、発話音声生成処理部106は、データ生成制御処理として、各特別割り当てキャラクタに対してはユーザによって指定された音素データに基づいて音声言語データを生成するとともに、特定キャラクタに対しては、特別割り当てキャラクタに用いた音素データに基づいて音声言語データを生成する代替音声データ生成処理を実行する(ステップS108)。
次いで、コンテンツ管理部105は、ユーザが希望するコンテンツのコンテンツ情報と、当該生成された各キャラクタに対する発話に関するデータと、に基づいて、該当する端末装置20に対してストリーミング形式による再生を実行するための各種のデータの送信を開始し(ステップS109)、本動作を終了させる。
[6]その他
本発明は、上記実施形態で説明したものに限らず、種々の変形実施が可能である。例えば、明細書又は図面中の記載において広義や同義な用語として引用された用語は、明細書又は図面中の他の記載においても広義や同義な用語に置き換えることができる。
本実施形態は、1のサーバ装置10によって各コンテンツを端末装置20に提供してもよいし、複数のサーバ装置10を連動させてサーバシステムを構築し、各コンテンツを端末装置に提供してもよい。
また、本実施形態においては、サーバ装置10の機能を備えた単一のコンテンツ再生装置、すなわち、サーバ装置と端末装置とにわけることなく、ネットワークを介してコンテンツ情報及び音素情報を取得する装置だけで、上記の各処理及びコンテンツの再生などを実現してもよい。
特に、この場合には、コンテンツ再生装置は、内部に再生出力部を有し、当該再生出力部が、音声言語データに基づいてキャラクタによる音声を出力させつつ、当該コンテンツの画像を表示部に表示する構成を有している。
そして、このようなコンテンツ端末装置を有線又は無線によって複数連結させ、1のコンテンツ装置がサーバ装置10として機能して、複数のコンテンツ装置によって実現することも可能である。
また、本実施形態においては、ネットワークを通じて端末装置20と連動して実行するサーバ装置10に本発明のコンテンツ提供システムを適用しているが、タブレット型情報端末装置やパーソナルコンピュータなどの端末装置としても適用することができる。
すなわち、この場合には、端末装置は、上記のサーバ装置10の各機能とコンテンツデータを再生する再生機能を有し、音素データを割り当てた音声言語データとともにコンテンツデータを再生する構成を有している。
本発明は、実施形態で説明した構成と実質的に同一の構成(例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成)を含む。また、本発明は、実施形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施形態で説明した構成に公知技術を付加した構成を含む。
上記のように、本発明の実施形態について詳細に説明したが、本発明の新規事項及び効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。したがって、このような変形例はすべて本発明の範囲に含まれるものとする。
1 :コンテンツ提供システム
10 :サーバ装置
20 :端末装置
100 :処理部
101 :通信制御部
102 :Web処理部
103 :ログイン管理部
104 :ユーザ管理部
105 :コンテンツ管理部
106 :発話音声生成処理部
107 :コスト管理部
109 :タイマ管理部
110 :情報提供部
111 :通信制御部
120 :入力部
130 :表示部
140 :記憶部
142 :主記憶部
144 :コンテンツ情報記憶部
146 :音素情報記憶部
148 :ユーザ情報記憶部
149 :アプリケーション情報記憶部
180 :情報記憶媒体
196 :通信部
200 :処理部
210 :通信制御部
211 :Webブラウザ
212 :コンテンツ処理部
213 :表示制御部
220 :描画部
230 :音処理部
260 :入力部
262 :検出部
270 :記憶部
271 :主記憶部
272 :画像バッファ
280 :情報記憶媒体
290 :表示部
292 :音出力部
296 :通信部

Claims (10)

  1. 記憶手段に記憶されている情報であって、ユーザに関するユーザ情報と、当該ユーザ情報に対応付けられており、かつ、発話者から採取された音素データから構成される発話音素情報と、を管理するユーザ情報管理手段と、
    前記発話者の音声によって音声言語化するためのテキストがデータ化されたテキストデータ及び当該テキストを発話するキャラクタに関するキャラクタデータを少なくとも含むコンテンツデータから構成されるコンテンツ情報を管理するコンテンツ管理手段と、
    所与の指示に基づいて、前記キャラクタデータに、前記音素データを割り当てて、前記コンテンツデータのテキストを音声言語化するための音声言語データを生成する音声言語データ生成処理を含む生成制御処理を実行する生成制御手段と、
    前記コンテンツデータのテキストに沿って前記キャラクタの音声を再生出力する再生出力手段に、前記生成された音声言語データを提供する提供制御処理を実行する提供制御手段と、
    を備え、
    前記生成制御手段が、
    特定の前記キャラクタ又は特定の前記テキストの少なくとも一部に割り当てる音声言語データとして、他のキャラクタ又は他のテキストに割り当てられた音素データと同一の音素データを、当該他のキャラクタ又は当該他のテキストの音声言語データを生成するときと異なる所与の加工処理に基づいて、又は、当該加工処理がなされた音素データに基づいて、前記音声言語データ生成処理とは異なる処理であって、前記コンテンツデータのテキストの少なくとも一部について、発話制御を実行するための発話制御データを生成する発話制御データ生成処理を実行することを特徴とするコンテンツ再生制御システム。
  2. 請求項1に記載のコンテンツ再生制御システムにおいて、
    前記生成制御手段が、
    前記発話制御データ生成処理として、該当する前記キャラクタのテキスト又は該当する前記テキストに対する音声を無音声とする再生制御データを生成する、コンテンツ再生制御システム。
  3. 請求項1又は2に記載のコンテンツ再生制御システムにおいて、
    前記生成制御手段が、
    前記発話制御データとして、特定の前記キャラクタ又は特定の前記テキストの少なくとも一部に、基準データとして予め定められた音素データ、又は、ユーザによって既に使用可能となっている音素データのいずれかを割り当てて音声言語データを生成する前記発話制御データ生成処理を実行する、コンテンツ再生制御システム。
  4. 請求項1~3のいずれか1項に記載のコンテンツ再生制御システムにおいて、
    前記生成制御処理が実行される際に、前記ユーザの音素データの割り当てに関する割り当て状況が、当該割り当てに関する所与の制約が規定された制約条件を具備しているか否かを判定する割り当て状況判定処理を実行する状況判定処理手段を更に備え、
    前記生成制御手段が、
    前記割り当て状況判定処理によって前記割り当てた状況が前記制約条件を具備したと判定された場合には、前記音声言語データ生成処理を実行し、
    当該割り当てた状況が前記制約条件を具備していないと判定された場合には、前記発話制御データ生成処理を実行する、コンテンツ再生制御システム。
  5. 請求項4に記載のコンテンツ再生制御システムにおいて、
    前記生成制御処理に用いる音素データ、キャラクタデータ及びテキストデータのうち、いずれか1のデータのコストが規定されたコストパラメータを管理するコスト管理手段と

    前記コストパラメータに基づいて、前記生成制御処理を実行する際の前記ユーザに要求される実行コストを算出する算出処理を実行するコスト算出手段と、
    を更に備え、
    前記状況判定処理手段が、
    前記制約条件として、前記算出処理によって算出された実行コストに対する前記ユーザの支払いに基づく条件を用いる、コンテンツ再生制御システム。
  6. 請求項4に記載のコンテンツ再生制御システムにおいて、
    前記生成制御処理に用いる音素データ、キャラクタデータ及びテキストデータのうち、いずれか1のデータのコストが規定されたコストパラメータを管理するコスト管理手段を更に備え、
    前記状況判定処理手段が、
    前記制約条件として、前記コストパラメータと、予め設定されたコストの限界値と、の関係性を示す条件を用いる、コンテンツ再生制御システム。
  7. 請求項5又は6に記載のコンテンツ再生制御システムにおいて、
    前記ユーザのコンテンツに関する所与の状況を検出するユーザ状況検出手段を更に備え、
    前記コスト管理手段が、
    前記検出されたユーザのコンテンツに関する状況に基づいて、前記コストパラメータの変動を制御する変動制御処理を実行する、コンテンツ再生制御システム。
  8. 請求項5~7のいずれか1項に記載のコンテンツ再生制御システムにおいて、
    前記コスト管理手段が、
    前記コンテンツデータ、キャラクタデータ及びテキストデータのうち、いずれか1のデータに関する情報を示す関連情報に基づいて、前記コストパラメータの変動を制御する変動制御処理を実行する、コンテンツ再生制御システム。
  9. 請求項5~7のいずれか1項に記載のコンテンツ再生制御システムにおいて、
    前記生成制御手段が、
    前記キャラクタの属性、及び、前記テキストの属性の少なくともいずれか一方の属性に基づいて生成された音素データのデータモデルを示すモデル情報に従って、前記音声言語データを生成する前記音声言語データ生成処理を実行し、
    当該生成した音声言語データに基づいて前記モデル情報を学習させる学習処理を実行し、
    前記コスト管理手段が、
    前記モデル情報の学習処理の状況に基づいて、前記コストパラメータの変動を制御する変動制御処理を実行する、コンテンツ再生制御システム。
  10. 記憶手段に記憶されている情報であって、ユーザに関するユーザ情報と、当該ユーザ情報に対応付けられており、かつ、発話者から採取された音素データから構成される発話音素情報と、を管理するユーザ情報管理手段、
    前記発話者の音声によって音声言語化するためのテキストがデータ化されたテキストデータ及び当該テキストを発話するキャラクタに関するキャラクタデータを少なくとも含むコンテンツデータから構成されるコンテンツ情報を管理するコンテンツ管理手段、
    所与の指示に基づいて、前記キャラクタデータに、前記音素データを割り当てて、前記コンテンツデータのテキストを音声言語化するための音声言語データを生成する音声言語データ生成処理を含む生成制御処理を実行する生成制御手段、及び、
    前記コンテンツデータのテキストに沿って前記キャラクタの音声を再生出力する再生出
    力手段に、前記生成された音声言語データを提供する提供制御処理を実行する提供制御手段、
    としてコンピュータを機能させ、
    前記生成制御手段が、
    特定の前記キャラクタ又は特定の前記テキストの少なくとも一部に割り当てる音声言語データとして、他のキャラクタ又は他のテキストに割り当てられた音素データと同一の音素データを、当該他のキャラクタ又は当該他のテキストの音声言語データを生成するときと異なる所与の加工処理に基づいて、又は、当該加工処理がなされた音素データに基づいて、前記音声言語データ生成処理とは異なる処理であって、前記コンテンツデータのテキストの少なくとも一部について、発話制御を実行するための発話制御データを生成する発話制御データ生成処理を実行することを特徴とするプログラム。
JP2021061425A 2021-03-31 2021-03-31 コンテンツ再生制御システム及びプログラム Pending JP2022157293A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021061425A JP2022157293A (ja) 2021-03-31 2021-03-31 コンテンツ再生制御システム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021061425A JP2022157293A (ja) 2021-03-31 2021-03-31 コンテンツ再生制御システム及びプログラム

Publications (1)

Publication Number Publication Date
JP2022157293A true JP2022157293A (ja) 2022-10-14

Family

ID=83559509

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021061425A Pending JP2022157293A (ja) 2021-03-31 2021-03-31 コンテンツ再生制御システム及びプログラム

Country Status (1)

Country Link
JP (1) JP2022157293A (ja)

Similar Documents

Publication Publication Date Title
AU2013259799A1 (en) Content customization
US20140258858A1 (en) Content customization
CN106847258A (zh) 用于共享调适语音简档的方法和设备
US9075760B2 (en) Narration settings distribution for content customization
CN115329206B (zh) 语音外呼处理方法及相关装置
CN113010138B (zh) 文章的语音播放方法、装置、设备及计算机可读存储介质
JPWO2020145353A1 (ja) コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法
CN105957515A (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
WO2021212954A1 (zh) 极低资源下的特定发音人情感语音合成方法及装置
US20230099732A1 (en) Computing system for domain expressive text to speech
JPWO2018030149A1 (ja) 情報処理装置及び情報処理方法
CN112750187A (zh) 一种动画生成方法、装置、设备及计算机可读存储介质
WO2020213468A1 (ja) 情報処理システム、情報処理方法、及びプログラム
CN112233649A (zh) 机器同声传译输出音频动态合成方法、装置以及设备
JP2022157293A (ja) コンテンツ再生制御システム及びプログラム
JP2022157292A (ja) コンテンツ再生制御システム及びプログラム
JP7310907B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP2014109998A (ja) 対話装置及びコンピュータ対話方法
US10956115B2 (en) Intelligent exercise music synchronization
JP2020204683A (ja) 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム
JP7082440B1 (ja) 音読データ生成システム
López Gambino et al. Testing strategies for bridging time-to-content in spoken dialogue Systems
WO2024103383A1 (zh) 音频处理方法、装置、设备、存储介质及程序产品
JP7337366B2 (ja) 動画配信システム、プログラム、およびコンピュータ読み取り可能な記憶媒体
CN116825090B (zh) 语音合成模型的训练方法、装置及语音合成方法、装置

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20230706

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231227