JP2004295379A

JP2004295379A - データ提供システム及びデータ提供方法並びにデータ提供プログラム

Info

Publication number: JP2004295379A
Application number: JP2003085545A
Authority: JP
Inventors: Yasunaga Miyazawa; 康永宮澤
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2003-03-26
Filing date: 2003-03-26
Publication date: 2004-10-21

Abstract

【課題】有料データの提供時において、ネットワークの負荷を軽減するとともに、課金処理を確実化することができるデータ提供システム及びデータ提供方法並びにデータ提供プログラムを提供する。
【解決手段】ユーザ端末は、メッセージテキストと、メッセージテキストの音声属性の編集情報の入力を受け、編集パラメータを所定の記憶手段より読み出し、入力されたメッセージテキストについて、読み出した編集パラメータ及び所定の記憶手段に記憶された試聴用の音声データに基づいて、試聴用の第２の音声合成メッセージを作成する。次にユーザ端末は、作成した音声合成メッセージの確定の入力を受け、音声合成メッセージの確定によって確定したメッセージテキスト及び編集結果パラメータをサーバに送信する。サーバは、確定したメッセージテキスト及び編集結果パラメータを受信し、受信したメッセージテキストについて、編集結果パラメータ及び所定の記憶手段に記憶された購入用の音声データに基づいて、第１の音声合成メッセージを作成する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、主に発注者（＝ユーザ）が製品（時計、玩具、電化製品等）から出力する音声メッセージの発話内容を、発注者がＰＣ（Ｗｅｂサービス）、電話、ＦＡＸ、手紙等でオーダーできる発注システムに適用されて好適なデータ提供システム及びデータ提供方法並びにデータ提供プログラムに関する。
【０００２】
【従来の技術】
従来、発注者の好みに応じた音声合成メッセージを提供する音声合成システムが知られている（特許文献１、２を参照）。
これらのシステムは、ＰＣ等で文字を入力し、音声出力したい話者（声優、歌手など）を選択すると、どのようなメッセージでも音声合成により音声メッセージ（音声データ）が作成され、その音声メッセージ（音声データ）を音声再生可能な機器（時計、玩具等）や音声出力機器用の媒体（ＣＤ−ＲＯＭ等）に入れて出力させることや、ネットワークを介して電子メイル等に添付して第３者に送付して再現することが可能である。
【０００３】
すなわち、特許文献１には、サービス提供者が、ネットワーク５を介してなされた顧客のオーダに応じ、顧客が選択したスピーカの音声特徴データと、顧客が入力した文章とに基づく音声合成データを生成した後、顧客に受け渡す構成とした。このとき、顧客のオーダに対して取引番号が付与され、取引番号が顧客から提示されたときに、生成した音声合成データを顧客に受け渡すようにする。顧客は、受け取った音声合成データを機器に入力し、オーダした音声を出力する音声合成システムが記載されている。
【０００４】
また、特許文献２には、インターネットに接続され、申込人から音声メッセージの申し込みを受け付けるボイスデリバリサーバと、音声メッセージ作成配送サービスの料金決算を行う電子マネー取り扱いシステムと、音声メッセージを制作し、送付先に音声メッセージを送付するメッセージ制作送付システムと、メッセージ制作送付システムで制作された音声メッセージを再生する音声ストリーミング再生サーバとを備えたボイスデリバリシステムが記載されている。
【０００５】
【特許文献１】
特開２００２−２３７７７号公報
【特許文献２】
特開２００１−２５５８８４号公報
【０００６】
【発明が解決しようとする課題】
このようなシステムでは、ユーザ側のＰＣで文字編集を行って、文字列データをシステム側に送付し、システム側で音声合成メッセージを作成して、作成された音声データをユーザ側に送付する。しかし、このようなシステムでは、メッセージを試聴したい場合、その都度音声データが送付されるため、ネットワークの負荷が大きくなるという問題点がある。
また、課金手続き前に何回も試聴できるシステムでは、いろいろな音声メッセージを試聴しながら、ＰＣ等に保存する等、「特定話者」の声で数種類の音声メッセージを課金せずに入手できてしまう、という問題点がある。
【０００７】
本発明は、このような事情を考慮してなされたものであり、その目的は、有料データの提供時において、ネットワークの負荷を軽減するとともに、課金処理を確実化することができるデータ提供システム及びデータ提供方法並びにデータ提供プログラムを提供することにある。
【０００８】
【課題を解決するための手段】
この発明は上記の課題を解決すべくなされたもので、本発明は、ユーザ端末と、該ユーザ端末とネットワークを介して接続されたサーバとから構成されるデータ提供システムであって、前記ユーザ端末が、音声合成を行うメッセージテキストと、該メッセージテキストの音声属性の編集情報の入力を受ける第１の入力手段と、該メッセージテキストの音声属性の編集情報に基づいて、音声合成するための編集パラメータを所定の記憶手段より読み出し、該入力されたメッセージテキストについて、該読み出した編集パラメータ及び所定の記憶手段に記憶された試聴用の音声データに基づいて、購入用の第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成する第１のメッセージ作成手段と、該作成した音声合成メッセージの確定の入力を受ける第２の入力手段と、該音声合成メッセージの確定によって確定した編集結果パラメータと、前記メッセージテキストとを前記サーバに送信する送信手段とを具備し、前記サーバが、該編集結果パラメータと、前記メッセージテキストとを受信する受信手段と、該受信したメッセージテキストについて、該編集結果パラメータ及び所定の記憶手段に記憶された購入用の音声データに基づいて、前記第１の音声合成メッセージを作成する第２のメッセージ作成手段とを具備することを特徴とする。
【０００９】
また、本発明は、購入用の第１の音声合成メッセージを作成するサーバであって、該第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成するユーザ端末とをネットワークを介して接続されるサーバであって、前記ユーザ端末において編集された、音声合成するための編集結果パラメータと、音声合成を行うメッセージテキストとを受信する受信手段と、該受信したメッセージテキストについて、該編集結果パラメータ及び所定の記憶手段に記憶された購入用の音声データに基づいて、前記第１の音声合成メッセージを作成するメッセージ作成手段とを具備することを特徴とする。
【００１０】
また、本発明は、ユーザ端末と、該ユーザ端末とネットワークを介して接続されたサーバとから構成されるデータ提供システムにおいて、ユーザが要求する音声合成メッセージを提供するデータ提供方法であって、前記ユーザ端末が、音声合成を行うメッセージテキストと、該メッセージテキストの音声属性の編集情報の入力を受け、該メッセージテキストの音声属性の編集情報に基づいて、音声合成するための編集パラメータを所定の記憶手段より読み出し、該入力されたメッセージテキストについて、該読み出した編集パラメータ及び所定の記憶手段に記憶された試聴用の音声データに基づいて、購入用の第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成し、該作成した音声合成メッセージの確定の入力を受け、該音声合成メッセージの確定によって確定したメッセージテキスト及び編集結果パラメータを前記サーバに送信し、前記サーバが、前記確定したメッセージテキスト及び編集結果パラメータを受信し、該受信したメッセージテキストについて、該編集結果パラメータ及び所定の記憶手段に記憶された購入用の音声データに基づいて、前記第１の音声合成メッセージを作成することを特徴とする。
【００１１】
また、本発明は、ユーザ端末と、該ユーザ端末からの要求によって、購入用の第１の音声合成メッセージを作成するサーバとをネットワークを介して接続して構成されるデータ提供システムにおいて、該ユーザ端末にデータ提供処理を実行させるためのプログラムであって、音声合成を行うメッセージテキストと、該メッセージテキストの音声属性の編集情報の入力を受ける処理と、該メッセージテキストの音声属性の編集情報に基づいて、音声合成するための編集パラメータを所定の記憶手段より読み出し、該入力されたメッセージテキストについて、該読み出した編集パラメータ及び所定の記憶手段に記憶された試聴用の音声データに基づいて、購入用の第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成する処理と、該作成した音声合成メッセージの確定の入力を受ける処理と、該音声合成メッセージの確定によって確定した編集結果パラメータと、前記メッセージテキストとを前記サーバに送信する処理とを前記ユーザ端末に実行させるためのデータ提供プログラムである。
【００１２】
また、本発明は、購入用の第１の音声合成メッセージを作成するサーバと、該第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成するユーザ端末とをネットワークを介して接続して構成されるデータ提供システムにおいて、該サーバにデータ提供処理を実行させるためのプログラムであって、前記ユーザ端末において編集された、音声合成するための編集結果パラメータと、音声合成を行うメッセージテキストとを受信する処理と、該受信したメッセージテキストについて、該編集結果パラメータ及び所定の記憶手段に記憶された購入用の音声データに基づいて、前記第１の音声合成メッセージを作成する処理とを前記サーバに実行させるためのデータ提供プログラムである。
【００１３】
また、本発明は、ユーザ端末と、該ユーザ端末とネットワークを介して接続されたサーバとから構成されるデータ提供システムであって、前記ユーザ端末が、音声合成を行うメッセージテキストと、該メッセージテキストの音声属性の編集情報の入力を受ける第１の入力手段と、該メッセージテキストと、該メッセージテキストの音声属性の編集情報とについて、音声合成するための編集パラメータの要求を前記サーバに送信する第１の送信手段と、前記サーバより前記編集パラメータを受信する第１の受信手段と、該入力されたメッセージテキストについて、該受信した編集パラメータ及び第１の記憶手段に記憶された試聴用の音声データに基づいて、前記第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成する第１のメッセージ作成手段と、該作成した音声合成メッセージの確定の入力を受ける入力手段と、該音声合成メッセージの確定によって確定した編集結果パラメータ及びメッセージテキストを前記サーバに送信する第２の送信手段とを具備し、前記サーバが、前記メッセージテキストと、該メッセージテキストの音声属性の編集情報とについての編集パラメータの要求を受信する第２の受信手段と、該メッセージテキスト及びメッセージテキストの該音声属性の編集情報と対応する前記編集パラメータを第２の記憶手段より読み出して送信する第３の送信手段と、前記ユーザ端末において編集された、音声合成するための編集結果パラメータと、音声合成を行うメッセージテキストとを受信する第３の受信手段と、該受信したメッセージテキストについて、該編集結果パラメータ及び第２の記憶手段に記憶された購入用の音声データに基づいて、前記第１の音声合成メッセージを作成する第２のメッセージ作成手段とを具備することを特徴とする。
【００１４】
また、本発明は、購入用の第１の音声合成メッセージを作成するサーバと、該第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成するユーザ端末とをネットワークを介して接続して構成されるデータ提供システムにおいて用いられるサーバであって、前記ユーザ端末より、音声合成を行うメッセージテキストと、該メッセージテキストの音声属性の編集情報とについて、音声合成するための編集パラメータの要求を受信する受信手段と、該メッセージテキストの音声属性の編集情報と対応する前記編集パラメータを所定の記憶手段より読み出して送信する送信手段と、前記ユーザ端末において編集された、音声合成するための編集結果パラメータと、音声合成を行うメッセージテキストとを受信する受信手段と、該受信したメッセージテキストについて、該編集結果パラメータ及び前記記憶手段に記憶された購入用の音声データに基づいて、前記第１の音声合成メッセージを作成するメッセージ作成手段とを具備することを特徴とする。
【００１５】
また、本発明は、ユーザ端末と、該ユーザ端末とネットワークを介して接続されたサーバとから構成されるデータ提供システムにおいて、ユーザが要求する音声合成メッセージを提供するデータ提供方法であって、前記ユーザ端末が、音声合成を行うメッセージテキストと、該メッセージテキストの音声属性の編集情報の入力を受け、該メッセージテキストと、該メッセージテキストの音声属性の編集情報とについて、音声合成するための編集パラメータの要求を前記サーバに送信し、前記サーバが、前記メッセージテキストと、該メッセージテキストの音声属性の編集情報とについての編集パラメータの要求を受信し、該メッセージテキスト及びメッセージテキストの該音声属性の編集情報と対応する前記編集パラメータを第２の記憶手段より読み出して送信し、前記ユーザ端末が、前記サーバより前記編集パラメータを受信し、該入力されたメッセージテキストについて、該受信した編集パラメータ及び第１の記憶手段に記憶された試聴用の音声データに基づいて、前記第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成し、該作成した音声合成メッセージの確定の入力を受け、該音声合成メッセージの確定によって確定した編集結果パラメータ及びメッセージテキストを前記サーバに送信し、前記サーバが、前記ユーザ端末において編集された、音声合成するための編集結果パラメータと、音声合成を行うメッセージテキストとを受信し、該受信したメッセージテキストについて、該編集結果パラメータ及び第２の記憶手段に記憶された購入用の音声データに基づいて、前記第１の音声合成メッセージを作成することを特徴とする。
【００１６】
また、本発明は、ユーザ端末と、該ユーザ端末からの要求によって、購入用の第１の音声合成メッセージを作成するサーバとをネットワークを介して接続して構成されるデータ提供システムにおいて、該ユーザ端末にデータ提供処理を実行させるためのプログラムであって、音声合成を行うメッセージテキストと、該メッセージテキストの音声属性の編集情報の入力を受ける処理と、該メッセージテキストと、該メッセージテキストの音声属性の編集情報とについて、音声合成するための編集パラメータの要求を前記サーバに送信する処理と、前記サーバより前記編集パラメータを受信する処理と、該入力されたメッセージテキストについて、該受信した編集パラメータ及び所定の記憶手段に記憶された試聴用の音声データに基づいて、前記第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成する処理と、該作成した音声合成メッセージの確定の入力を受ける処理と、該音声合成メッセージの確定によって確定した編集結果パラメータ及びメッセージテキストを前記サーバに送信する処理とを前記ユーザ端末に実行させるためのデータ提供プログラムである。
【００１７】
また、本発明は、購入用の第１の音声合成メッセージを作成するサーバと、該第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成するユーザ端末とをネットワークを介して接続して構成されるデータ提供システムにおいて、該サーバにデータ提供処理を実行させるためのプログラムであって、音声合成を行うメッセージテキストと、該メッセージテキストの音声属性の編集情報とについて、音声合成するための編集パラメータの要求を受信する処理と、該メッセージテキストの音声属性の編集情報と対応する前記編集パラメータを所定の記憶手段より読み出して送信する処理と、前記ユーザ端末において編集された、音声合成するための編集結果パラメータと、音声合成を行うメッセージテキストとを受信する処理と、該受信したメッセージテキストについて、該編集結果パラメータ及び前記記憶手段に記憶された購入用の音声データに基づいて、前記第１の音声合成メッセージを作成するを前記サーバに実行させるためのデータ提供プログラムである。
【００１８】
【発明の実施の形態】
以下、図面を参照して、本発明のデータ提供システムの第１の実施形態について説明する。図１は、本実施形態のデータ提供システムが提供するサービスの概要を示す図である。
本実施形態のデータ提供システムにおいて、サービス提供者は、発注者（＝ユーザ）の好みに応じた音声合成メッセージデータを提供する。すなわち、サービス提供に伴う事前処理として、まずサービス提供者は、複数の特定話者（声の権利者）と契約し契約金を支払う。また、声の権利者は、サービス提供者に声の使用許諾を行う。
【００１９】
次に、実際の音声合成メッセージデータの提供は、以下のように行われる。
すなわち、音声合成メッセージデータ作成処理として、まず発注者は、音声合成用の編集ソフトウエア（以下、データベース加工ツールと呼ぶ詳細については後述する）及び音声合成用データベース（以下、第２の音声合成データベースとする）を予めＰＣ等（本明細書中において、ユーザ端末とは、ＰＣ等の通信端末、ＰＤＡ等の携帯情報端末等を指す以下、ＰＣを例に説明する）にインストールする。なお、データベース加工ツール及び第２の音声合成用データベースの入手・インストールについて、機器購入時にプレインストール済み、又は、サービス提供者のサーバにネットワーク接続してダウンロードしてインストール、又はサービス提供者が提供するＣＤ−ＲＯＭ等のメディアを入手しインストールすることが考えられる。
【００２０】
次に、発注者はＰＣ等でサービス提供者のサーバにインターネット等のネットワークを介して接続する。接続が完了すると、発注者は、ＰＣ等（＝ユーザ端末）の入力部を介して、サービスの形態、特定話者（声優等など）を指定・入力し、ＰＣ等がネットワーク経由でこれらとともに、編集に必要な編集パラメータの要求をサービス提供者のサーバに送信する。
サービス提供者のサーバは、編集パラメータの要求を受信すると、受信したサービスの形態の指定、特定話者の指定に基づいて、編集に必要な編集パラメータをデータベースから読み出してネットワークを介して発注者のＰＣ等に送信する。
発注者のＰＣ等において編集パラメータを受信すると、発注者は、さらに、メッセージテキストをＰＣ等でテキスト入力するとともに、抑揚、アクセント、発話速度、ポーズ、発話全体の声の高さ等の編集を行う。そして、発注者のＰＣ等が、この入力したメッセージテキストについて、データベース加工ツールで編集パラメータを用いて、音声合成用データベースに記憶された標準話者の音声データを加工・編集して、音声合成メッセージデータ（以下、第２の音声合成メッセージデータとする）を作成・再生し、発注者はこれを試聴することができる。
【００２１】
試聴した音声合成メッセージデータの購入を確定する場合、発注者は、さらにＰＣ等の入力部において、音声合成メッセージデータ確定を入力する。
ＰＣ等は、音声合成メッセージデータ確定・課金確定・編集結果のパラメータをサービス提供者のサーバに送信する。
サービス提供者のサーバは、音声合成メッセージデータ確定・課金確定・編集結果のパラメータを受けて、まず課金処理を行い、指定された特定話者の音声データを第１の音声合成データベースより読み出して、受信した編集結果パラメータを用いて、上記データベース加工ツールで加工・編集し、音声合成メッセージデータ（以下、第１の音声合成メッセージデータとする）を作成する。
そして、発注者は、作成した第１の音声合成メッセージデータをユーザの指定に応じて、時計、玩具、音声メッセージ付電報、ＣＤ−ＲＯＭ、携帯電話、ＰＣ等の音声再生装置、記録メディアに挿入し、送付する。
または、サービス提供者のサーバが、ネットワーク経由で発注者が指定する受取人に第１の音声合成メッセージデータを送信する。
なお、サービス提供者のサーバは第２の音声合成メッセージデータを作成する場合も考えられる。
【００２２】
すなわち、本実施形態のデータ提供システムは、サービス提供者が管理するサーバであって、音声合成メッセージデータを提供するサーバと、発注者が管理するユーザ端末であって、サーバとインターネット等のネットワークを介して接続されたユーザ端末とから構成される。
サーバは、制御部と、送信部と、受信部と、メッセージ作成処理部と、課金処理部と、データベースとから構成される。
制御部は、送信部、受信部、メッセージ作成処理部、課金処理部、データベースにおける、データ入出力を制御する。
送信部は、編集ソフトウエア及び音声合成用データベース、編集パラメータを送信する。
受信部は、編集パラメータ要求や編集結果パラメータ及びメッセージテキストを受信する。
【００２３】
メッセージ作成処理部は、受信したメッセージテキストについて、編集結果パラメータ及び第１の音声合成データベースに記憶された購入用の音声データ（＝特定話者の音声データ）に基づいて、第１の音声合成メッセージを作成する。ここで、編集結果パラメータとは、図２に示すように、
・テキストデータと音響データとの対応（音響データの番号列）
・音声波形ピッチの時系列情報
・音声波形の振幅の時系列情報
・発話速度に関する音声波形生成情報
・音声発声と休止区間の時系列情報
・音声波形ピッチの時系列情報
とから構成され、編集情報
・テキスト列（＝メッセージテキスト）
・テキスト列と音の高低の関係
・テキスト列と音の強弱の関係
・発話速度情報
・発声の休止区間の情報
・発話全体の音の高さの情報
と順に対応する。
【００２４】
また、特定話者の音声データとは、声優等の抑揚データ、声質データ、アクセントデータ、発話速度データ、ポーズデータ、ピッチデータとから構成される。すなわち、購入用の第１の音声合成メッセージデータとは、高音質（サンプリング周波数が高いことを示す）な特定話者の音声を擬似的に再現したメッセージデータである。
また、試聴用の第２の音声合成メッセージデータとは、標準話者（例えば、ターゲットの声優、歌手等ではなく、一般話者やナレータ等）の音声を擬似的に再現したメッセージデータ、あるいは、擬似特定話者のメッセージデータである。
なお、標準話者の音声データについても、特定話者の音声データと同様に、抑揚データ、声質データ、アクセントデータ、発話速度データ、ポーズデータ、ピッチデータとから構成される。
また、擬似特定話者のメッセージデータとは、
（１）特定話者の韻律データと、標準話者の声質データとからなる音声データで作成した音声合成メッセージデータ、
（２）標準話者のデータと、特定話者の声質データとからなる音声データで作成した音声合成メッセージデータ、
（３）特定話者の音声データで作成した音声合成メッセージデータを、標準話者音声に声質について話者適応処理を行い、抑揚などは特定話者の特徴を残して声質を変えた音声合成メッセージデータ、
（４）特定話者の音声データで作成した音声合成メッセージデータを、標準話者音声に抑揚について話者適応処理を行い、声質などは特定話者の特徴を残して声質を変えた音声合成メッセージデータ、
（５）標準話者の音声データで作成した音声メッセージを、特定話者音声に声質及び抑揚特徴について話者適応処理を行い、特定話者の音声に似たような音声に変換した音声合成メッセージデータ
であって、特定話者の音声データと同様に、抑揚データ、声質データ、アクセントデータ、発話速度データ、ポーズデータ、ピッチデータとから構成される。
【００２５】
課金処理部は、ユーザ端末から音声合成メッセージデータの購入確定を受信すると、ユーザに対して課金処理を行う。ここで、課金処理とは、例えば、ユーザが口座からの引き落としによって支払いを行うことを選択している場合、このネットワーク上の口座管理サーバに対して、所定の金額だけ引き落とし要求を送信し、口座管理サーバから引き落とし確定を受信する処理、または、紙ベースでの請求書の発行確定処理をいう。
データベースは、上記第１の音声合成データベース、第２の音声合成データベース、データベース加工ツール及び編集パラメータを記憶するデータベースとからなる。
【００２６】
ユーザ端末は、制御部と、入力部と、メッセージ作成処理部と、送信部と、受信部と、データベースとから構成される。
制御部は、入力部、メッセージ作成処理部、送信部、受信部、データベースにおけるデータ入出力を制御する。
入力部は、音声合成を行うメッセージテキストと、メッセージテキストの音声属性（抑揚、アクセント、発話速度、ポーズ、発話全体の声の高さ）の編集情報（＝上記編集結果パラメータであって、テキスト列、テキスト列と音の高低の関係、テキスト列と音の強弱の関係、発話速度情報、発声の休止区間の情報、発話全体の音の高さの情報からなる）の入力、作成した音声合成メッセージの確定の入力を受ける。
メッセージ作成部は、メッセージテキストの音声属性の編集情報に基づいて、音声合成するための編集パラメータをデータベースより読み出し、入力されたメッセージテキストについて、読み出した編集パラメータ及び第２の音声合成データベースに記憶された試聴用の音声データに基づいて、購入用の上記第１の音声合成メッセージと異なる、試聴用の上記第２の音声合成メッセージを作成する。
【００２７】
送信部は、編集に必要な編集パラメータの要求や音声合成メッセージの確定によって確定した編集結果パラメータ及びメッセージテキストをサーバに送信する。
受信部は、編集ソフトウエア及び音声合成用データベース、編集に必要な編集パラメータを受信する。
データベースは、上記第２の音声合成データベース、受信する編集パラメータを記憶するデータベースとからなる。
【００２８】
次に、図面を参照して、本実施形態のデータ提供システムの動作について説明する。図３は、本実施形態のデータ提供システムによる音声合成メッセージデータ作成処理、及びこれに伴う課金処理の過程を示すフローチャートである。
発注者（図２、図３では利用者に相当する）は、ＰＣ等でサービス提供者のサーバにインターネット等のネットワークを介して接続する。接続が完了すると、サービス提供者のサーバからダウンロードするデータベース加工ツール及び第２の音声合成データベースをＰＣ等にインストールする。
次に、ＰＣ等は、発注者がＰＣ等の入力部からサービスの形態、特定話者（声優等）を指定・入力するのを受けて、ネットワーク経由でこれらとともに、編集に必要な編集パラメータの要求をサービス提供者のサーバに送信する。
サービス提供者のサーバは、編集パラメータの要求を受信すると、受信したサービスの形態の指定、特定話者の指定に基づいて、編集に必要な編集パラメータをデータベースから読み出してネットワークを介して発注者のＰＣ等に送信する。
【００２９】
発注者のＰＣ等は、編集パラメータを受信するとこれをデータベースに書き込む。次に、発注者のＰＣ等は、メッセージテキストの入力、抑揚、アクセント、発話速度、ポーズ、発話全体の声の高さ等の編集結果の入力を受けて、この入力されたメッセージテキストについて、まず文法データで解析（構文解析・形態素解析）する。次に、発注者のＰＣ等は、解析結果を基に、データベース加工ツールで編集パラメータを用いて、第２の音声合成用データベースに記憶された標準話者の音声データを加工・編集して、（音声波形データ）の作成を行う。そして、発注者のＰＣ等は、作成した第２の音声合成メッセージデータを再生する。
【００３０】
発注者のＰＣ等は、発注者から音声合成メッセージデータ確定の入力を受けると、音声合成メッセージデータ確定・課金確定・編集結果のパラメータをサービス提供者のサーバに送信する。
サービス提供者のサーバは、音声合成メッセージデータ確定・課金確定・編集結果のパラメータを受けて、まず課金処理を行い、指定された特定話者の音声データを第１の音声合成データベースより読み出し、受信した編集結果パラメータを用いて、上記データベース加工ツールで加工・編集し、第１の音声合成メッセージデータを作成する。そして、ネットワーク経由で送信する場合、サービス提供者のサーバは、発注者が指定する受取人に第１の音声合成メッセージデータを送信する。
【００３１】
したがって、本実施形態のデータ提供システムによれば、発注者は、音声合成メッセージを試聴しながら、気にいった言い回しを作成する際、ネットワーク負荷が少ないため、通信コストを低減できる効果がある。特に、携帯電話やＰＨＳ等の無線でのネットワークを使用する際にその効果が大きくなる。
また、課金手続き前にいろいろな音声メッセージを試聴しながら、ＰＣ等に保存する等、「特定話者」の声で数種類の音声メッセージを課金せずに入手できてしまうという問題の発生を防止し、確実に課金を行うことができる効果が得られる。
【００３２】
次に、図面を参照して、本発明のデータ提供システムの第２の実施形態について説明する。図５は、本実施形態のデータ提供システムが提供するサービスの概要を示す図である。
本実施形態のデータ提供システムにおいて、サービス提供者は、第１の実施形態と同様に、発注者（＝ユーザ）の好みに応じた音声合成メッセージデータを提供する。すなわち、サービス提供に伴う事前処理として、まずサービス提供者は、複数の特定話者（声の権利者）と契約し契約金を支払う。また、声の権利者は、サービス提供者に声の使用許諾を行う。
【００３３】
次に、実際の音声合成メッセージデータの提供は、以下のように行われる。
すなわち、音声合成メッセージデータ作成処理として、まず発注者は、データベース加工ツール及び第２の音声合成データベースを予めＰＣ等にインストールする。
次に、発注者は、メッセージテキストをＰＣ等でテキスト入力するとともに、抑揚、アクセント、発話速度、ポーズ、発話全体の声の高さ等の編集を行う。そして、発注者のＰＣ等が、これらのメッセージテキスト及び抑揚情報等とともに、編集に必要な編集パラメータの要求をサービス提供者のサーバに送信する。
サービス提供者のサーバは、編集パラメータの要求を受信すると、受信したサービスの形態の指定、特定話者の指定に基づいて、編集に必要な編集パラメータをデータベースから読み出してネットワークを介して発注者のＰＣ等に送信する。
【００３４】
発注者のＰＣ等は、編集パラメータを受信すると、この編集パラメータを用いて、データベース加工ツールで音声合成用データベースに記憶された標準話者の音声データを加工・編集して、第２の音声合成メッセージデータを作成・再生し、発注者はこれを試聴することができる。
なお、このとき、都度送受信する編集パラメータは、テキスト列に対応する音素番号列、ボーズに対応する無音区間に関するパラメータ、抑揚をつけるためのピッチに関するパラメータ、アクセントに関するパラメータ等とする。
試聴した音声合成メッセージデータの購入を確定する場合、発注者は、さらにＰＣ等の入力部において、音声合成メッセージデータ確定を入力する。
ＰＣ等は、最終の編集結果であるテキスト列、抑揚情報等とともに、音声合成メッセージデータ確定・課金確定・編集結果のパラメータをサービス提供者のサーバに送信する。
【００３５】
サービス提供者のサーバは、音声合成メッセージデータ確定・課金確定・編集結果のパラメータを受けて、まず課金処理を行い、指定された特定話者の音声データを第１の音声合成データベースより読み出して、受信した編集結果パラメータを用いて、上記データベース加工ツールで加工・編集し、第１の音声合成メッセージデータを作成する。
そして、発注者は、作成した第１の音声合成メッセージデータをユーザの指定に応じて、時計、玩具、音声メッセージ付電報、ＣＤ−ＲＯＭ、携帯電話、ＰＣ等の音声再生装置、記録メディアに挿入し、送付する。
または、サービス提供者のサーバが、ネットワーク経由で発注者が指定する受取人に第１の音声合成メッセージデータを送信する。
なお、編集パラメータは、課金処理が終了するまで一定使用回数、または一定時間に限り有効とし、これを経過後は強制削除、またはロックする。
【００３６】
すなわち、本実施形態のデータ提供システムは、第１の実施形態と同様に、サービス提供者が管理するサーバであって、音声合成メッセージデータを提供するサーバと、発注者が管理するユーザ端末であって、サーバとインターネット等のネットワークを介して接続されたユーザ端末とから構成される。
すなわち、本実施形態のサーバ、ユーザ端末の基本構成は、第１の実施形態の構成と同様であり、処理動作、処理過程の順序が異なる。すなわち、本実施形態におけるデータ提供システムの処理の過程が第１の実施形態のデータ提供システムと異なる点は、編集パラメータ全体を予めサーバから受信するのではなく、メッセージテキストと、メッセージテキストの音声属性（抑揚、アクセント、発話速度、ポーズ、発話全体の声の高さ）の編集情報を音声合成処理前にサーバに送信することで、必要な編集パラメータをサーバがこれに基づいて選択して送信する点である。
【００３７】
すなわち、ユーザ端末の送信部は、メッセージテキストと、メッセージテキストの音声属性の編集情報とについて、音声合成するための編集パラメータの要求をサーバに送信する。
また、サーバの受信部は、メッセージテキストと、メッセージテキストの音声属性の編集情報とについての編集パラメータの要求を受信し、送信部は、メッセージテキスト及びメッセージテキストの音声属性の編集情報と対応する編集パラメータをデータベースより読み出して送信する。
また、サーバの受信部は、ユーザ端末において編集され、最終確定した、音声合成するための編集結果パラメータと、音声合成を行うメッセージテキストとを受信し、メッセージ作成処理部は、受信したメッセージテキストについて、確定した編集結果パラメータ及び第１の音声合成データベースに記憶された購入用の音声データに基づいて、第１の音声合成メッセージを作成する。
【００３８】
したがって、本実施形態のデータ提供システムによれば、発注者は、音声合成メッセージを試聴しながら、気にいった言い回しを作成する際、第１の実施形態よりもネットワーク負荷が少ないため、通信コストを低減できる効果がある。特に、携帯電話やＰＨＳ等の無線でのネットワークを使用する際にその効果が大きくなる。
また、第１の実施形態と同様に、課金手続き前にいろいろな音声メッセージを試聴しながら、ＰＣ等に保存する等、「特定話者」の声で数種類の音声メッセージを課金せずに入手できてしまうという問題の発生を防止し、確実に課金を行うことができる効果が得られる。
【００３９】
なお、上記実施形態のデータ提供システムにおいては、音声合成メッセージデータをについて音声合成する場合の例を示したが、本発明の適用範囲は、音声メッセージに限られるものではない。
具体的には、本願発明は、例えば、音楽データへの応用が考えられるものである。すなわち、この実施形態のデータ提供システムにおいて、ＢＧＭ等の音楽データに音声合成メッセージを重畳する場合、曲のどの部分からメッセージを挿入するか、ＢＧＭと音声メッセージとの音量のバランス等を編集パラメータとして加えることを可能とする。また、ＢＧＭを数小節単位で接合したり、削除したりする等の編集も同様に可能とする。
【００４０】
上述のユーザ端末、サーバは、内部に、コンピュータシステムを有している。
そして、上述したデータ提供処理に関する一連の処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。
すなわち、ユーザ端末、サーバにおける、各処理手段、処理部は、ＣＰＵ等の中央演算処理装置がＲＯＭやＲＡＭ等の主記憶装置に上記プログラムを読み出して、情報の加工・演算処理を実行することにより、実現されるものである。
ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
【図面の簡単な説明】
【図１】第１の実施形態のデータ提供システムにおけるサービスの流れを示す図である。
【図２】音声合成編集パラメータの構成を示す図である。
【図３】第１の実施形態のデータ提供システムにおけるデータ提供処理の流れを示す図である。
【図４】メッセージテキストについての音声合成処理の過程を示すフローチャートである。
【図５】第２の実施形態のデータ提供システムにおけるサービスの流れを示す図である。

Claims

ユーザ端末と、該ユーザ端末とネットワークを介して接続されたサーバとから構成されるデータ提供システムであって、
前記ユーザ端末が、
音声合成を行うメッセージテキストと、該メッセージテキストの音声属性の編集情報の入力を受ける第１の入力手段と、
該メッセージテキストの音声属性の編集情報に基づいて、音声合成するための編集パラメータを所定の記憶手段より読み出し、該入力されたメッセージテキストについて、該読み出した編集パラメータ及び所定の記憶手段に記憶された試聴用の音声データに基づいて、購入用の第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成する第１のメッセージ作成手段と、
該作成した音声合成メッセージの確定の入力を受ける第２の入力手段と、
該音声合成メッセージの確定によって確定した編集結果パラメータと、前記メッセージテキストとを前記サーバに送信する送信手段と
を具備し、
前記サーバが、
該編集結果パラメータと、前記メッセージテキストとを受信する受信手段と、
該受信したメッセージテキストについて、該編集結果パラメータ及び所定の記憶手段に記憶された購入用の音声データに基づいて、前記第１の音声合成メッセージを作成する第２のメッセージ作成手段と
を具備する
ことを特徴とする音声データ提供システム。
購入用の第１の音声合成メッセージを作成するサーバであって、該第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成するユーザ端末とをネットワークを介して接続されるサーバであって、前記ユーザ端末において編集された、音声合成するための編集結果パラメータと、音声合成を行うメッセージテキストとを受信する受信手段と、
該受信したメッセージテキストについて、該編集結果パラメータ及び所定の記憶手段に記憶された購入用の音声データに基づいて、前記第１の音声合成メッセージを作成するメッセージ作成手段と
を具備することを特徴とするサーバ。
ユーザ端末と、該ユーザ端末とネットワークを介して接続されたサーバとから構成されるデータ提供システムにおいて、ユーザが要求する音声合成メッセージを提供するデータ提供方法であって、
前記ユーザ端末が、
音声合成を行うメッセージテキストと、該メッセージテキストの音声属性の編集情報の入力を受け、
該メッセージテキストの音声属性の編集情報に基づいて、音声合成するための編集パラメータを所定の記憶手段より読み出し、該入力されたメッセージテキストについて、該読み出した編集パラメータ及び所定の記憶手段に記憶された試聴用の音声データに基づいて、購入用の第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成し、
該作成した音声合成メッセージの確定の入力を受け、
該音声合成メッセージの確定によって確定したメッセージテキスト及び編集結果パラメータを前記サーバに送信し、
前記サーバが、
前記確定したメッセージテキスト及び編集結果パラメータを受信し、
該受信したメッセージテキストについて、該編集結果パラメータ及び所定の記憶手段に記憶された購入用の音声データに基づいて、前記第１の音声合成メッセージを作成する
ことを特徴とする音声データ提供方法。
ユーザ端末と、該ユーザ端末からの要求によって、購入用の第１の音声合成メッセージを作成するサーバとをネットワークを介して接続して構成されるデータ提供システムにおいて、該ユーザ端末にデータ提供処理を実行させるためのプログラムであって、
音声合成を行うメッセージテキストと、該メッセージテキストの音声属性の編集情報の入力を受ける処理と、
該メッセージテキストの音声属性の編集情報に基づいて、音声合成するための編集パラメータを所定の記憶手段より読み出し、該入力されたメッセージテキストについて、該読み出した編集パラメータ及び所定の記憶手段に記憶された試聴用の音声データに基づいて、購入用の第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成する処理と、
該作成した音声合成メッセージの確定の入力を受ける処理と、
該音声合成メッセージの確定によって確定した編集結果パラメータと、前記メッセージテキストとを前記サーバに送信する処理と
を前記ユーザ端末に実行させるためのデータ提供プログラム。
購入用の第１の音声合成メッセージを作成するサーバと、該第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成するユーザ端末とをネットワークを介して接続して構成されるデータ提供システムにおいて、該サーバにデータ提供処理を実行させるためのプログラムであって、
前記ユーザ端末において編集された、音声合成するための編集結果パラメータと、音声合成を行うメッセージテキストとを受信する処理と、
該受信したメッセージテキストについて、該編集結果パラメータ及び所定の記憶手段に記憶された購入用の音声データに基づいて、前記第１の音声合成メッセージを作成する処理と
を前記サーバに実行させるためのデータ提供プログラム。
ユーザ端末と、該ユーザ端末とネットワークを介して接続されたサーバとから構成されるデータ提供システムであって、
前記ユーザ端末が、
音声合成を行うメッセージテキストと、該メッセージテキストの音声属性の編集情報の入力を受ける第１の入力手段と、
該メッセージテキストと、該メッセージテキストの音声属性の編集情報とについて、音声合成するための編集パラメータの要求を前記サーバに送信する第１の送信手段と、
前記サーバより前記編集パラメータを受信する第１の受信手段と、
該入力されたメッセージテキストについて、該受信した編集パラメータ及び第１の記憶手段に記憶された試聴用の音声データに基づいて、前記第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成する第１のメッセージ作成手段と、
該作成した音声合成メッセージの確定の入力を受ける入力手段と、
該音声合成メッセージの確定によって確定した編集結果パラメータ及びメッセージテキストを前記サーバに送信する第２の送信手段と
を具備し、
前記サーバが、
前記メッセージテキストと、該メッセージテキストの音声属性の編集情報とについての編集パラメータの要求を受信する第２の受信手段と、
該メッセージテキスト及びメッセージテキストの該音声属性の編集情報と対応する前記編集パラメータを第２の記憶手段より読み出して送信する第３の送信手段と、
前記ユーザ端末において編集された、音声合成するための編集結果パラメータと、音声合成を行うメッセージテキストとを受信する第３の受信手段と、
該受信したメッセージテキストについて、該編集結果パラメータ及び第２の記憶手段に記憶された購入用の音声データに基づいて、前記第１の音声合成メッセージを作成する第２のメッセージ作成手段と
を具備する
ことを特徴とする音声データ提供システム。
購入用の第１の音声合成メッセージを作成するサーバと、該第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成するユーザ端末とをネットワークを介して接続して構成されるデータ提供システムにおいて用いられるサーバであって、
前記ユーザ端末より、音声合成を行うメッセージテキストと、該メッセージテキストの音声属性の編集情報とについて、音声合成するための編集パラメータの要求を受信する受信手段と、
該メッセージテキストの音声属性の編集情報と対応する前記編集パラメータを所定の記憶手段より読み出して送信する送信手段と、
前記ユーザ端末において編集された、音声合成するための編集結果パラメータと、音声合成を行うメッセージテキストとを受信する受信手段と、
該受信したメッセージテキストについて、該編集結果パラメータ及び前記記憶手段に記憶された購入用の音声データに基づいて、前記第１の音声合成メッセージを作成するメッセージ作成手段と
を具備することを特徴とするサーバ。
ユーザ端末と、該ユーザ端末とネットワークを介して接続されたサーバとから構成されるデータ提供システムにおいて、ユーザが要求する音声合成メッセージを提供するデータ提供方法であって、
前記ユーザ端末が、
音声合成を行うメッセージテキストと、該メッセージテキストの音声属性の編集情報の入力を受け、
該メッセージテキストと、該メッセージテキストの音声属性の編集情報とについて、音声合成するための編集パラメータの要求を前記サーバに送信し、
前記サーバが、
前記メッセージテキストと、該メッセージテキストの音声属性の編集情報とについての編集パラメータの要求を受信し、
該メッセージテキスト及びメッセージテキストの該音声属性の編集情報と対応する前記編集パラメータを第２の記憶手段より読み出して送信し、
前記ユーザ端末が、
前記サーバより前記編集パラメータを受信し、
該入力されたメッセージテキストについて、該受信した編集パラメータ及び第１の記憶手段に記憶された試聴用の音声データに基づいて、前記第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成し、
該作成した音声合成メッセージの確定の入力を受け、
該音声合成メッセージの確定によって確定した編集結果パラメータ及びメッセージテキストを前記サーバに送信し、
前記サーバが、
前記ユーザ端末において編集された、音声合成するための編集結果パラメータと、音声合成を行うメッセージテキストとを受信し、
該受信したメッセージテキストについて、該編集結果パラメータ及び第２の記憶手段に記憶された購入用の音声データに基づいて、前記第１の音声合成メッセージを作成する
ことを特徴とするデータ提供方法。
ユーザ端末と、該ユーザ端末からの要求によって、購入用の第１の音声合成メッセージを作成するサーバとをネットワークを介して接続して構成されるデータ提供システムにおいて、該ユーザ端末にデータ提供処理を実行させるためのプログラムであって、
音声合成を行うメッセージテキストと、該メッセージテキストの音声属性の編集情報の入力を受ける処理と、
該メッセージテキストと、該メッセージテキストの音声属性の編集情報とについて、音声合成するための編集パラメータの要求を前記サーバに送信する処理と、
前記サーバより前記編集パラメータを受信する処理と、
該入力されたメッセージテキストについて、該受信した編集パラメータ及び所定の記憶手段に記憶された試聴用の音声データに基づいて、前記第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成する処理と、
該作成した音声合成メッセージの確定の入力を受ける処理と、
該音声合成メッセージの確定によって確定した編集結果パラメータ及びメッセージテキストを前記サーバに送信する処理と
を前記ユーザ端末に実行させるためのデータ提供プログラム。
購入用の第１の音声合成メッセージを作成するサーバと、該第１の音声合成メッセージと異なる、試聴用の第２の音声合成メッセージを作成するユーザ端末とをネットワークを介して接続して構成されるデータ提供システムにおいて、該サーバにデータ提供処理を実行させるためのプログラムであって、
音声合成を行うメッセージテキストと、該メッセージテキストの音声属性の編集情報とについて、音声合成するための編集パラメータの要求を受信する処理と、
該メッセージテキストの音声属性の編集情報と対応する前記編集パラメータを所定の記憶手段より読み出して送信する処理と、
前記ユーザ端末において編集された、音声合成するための編集結果パラメータと、音声合成を行うメッセージテキストとを受信する処理と、
該受信したメッセージテキストについて、該編集結果パラメータ及び前記記憶手段に記憶された購入用の音声データに基づいて、前記第１の音声合成メッセージを作成する
を前記サーバに実行させるためのデータ提供プログラム。