JP2008129434A

JP2008129434A - 音声合成サーバシステム

Info

Publication number: JP2008129434A
Application number: JP2006315860A
Authority: JP
Inventors: Tsutomu Kaneyasu; 勉兼安
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2006-11-22
Filing date: 2006-11-22
Publication date: 2008-06-05

Abstract

【課題】「明るい」「暗い」といった人間の感性に対応した「雰囲気」を、合成音声に反映させること。
【解決手段】クライアント端末１１０が送信した入力テキストの内容に応じた合成音声を出力する音声合成サーバ１３０と、クライアント端末１１０のリクエストに応じて出力するコンテンツファイルを格納したＷｅｂサーバ１２０と、を有する音声合成サーバシステムであって、音声合成サーバ１３０は、コンテンツファイルを読み込んで、そのコンテンツの色彩上の明暗度合いを所定の演算規則に従って算出する特徴抽出部１３２と、特徴抽出部１３２が算出した明暗度合いに対応した特徴を持つ合成音声を入力テキストの内容に応じて出力する合成音声出力部と、を備えたことを特徴とする。
【選択図】図２

Description

本発明は、入力テキストの内容に応じた合成音声を出力する音声合成サーバシステムに関するものである。

従来、『イメージによって表わされた文字を合成音声として出力可能とし、もって、イメージによる文字表現の理解容易性を向上させる。』ことを目的とした技術として、『テキスト中の文字コードとイメージ文字を文字コード／イメージ分離手段１により分離し、分離されたイメージ文字を認識し、認識された文字を文字コードに文字認識・文字コード化手段２により置き換える。文字コード化されたイメージ文字と元々の文字コードとをテキストの文字配列に応じて読み上げ順序制御部３により並べ、順序制御された文字コードを音声合成手段４により音声出力する。これにより、テキスト中にイメージ文字が含まれていても、このイメージ文字を文字コード化して読み上げることができる。』というものが提案されている（特許文献１）。

特開２０００−９９６２４号公報（要約）

しかしながら、上記従来技術は、「明るい」「暗い」といった人間の感性に対応した音声出力を行うものではなく、このような感性に基づく「雰囲気」を、合成音声に反映させることはできなかった。
そのため、「雰囲気」を反映した合成音声を出力することのできる音声合成サーバシステムが望まれていた。

本発明に係る音声合成サーバシステムは、
クライアント端末が送信した入力テキストの内容に応じた合成音声を出力する音声合成サーバと、
前記クライアント端末のリクエストに応じて出力するコンテンツファイルを格納したコンテンツサーバと、
を有する音声合成サーバシステムであって、
前記音声合成サーバは、
前記コンテンツファイルを読み込んで、そのコンテンツの色彩上の明暗度合いを所定の演算規則に従って算出する特徴抽出部と、
前記特徴抽出部が算出した明暗度合いに対応した特徴を持つ合成音声を前記入力テキストの内容に応じて出力する合成音声出力部と、
を備えたことを特徴とするものである。

本発明に係る音声合成サーバシステムによれば、コンテンツの感性的な特徴を合成音声に反映することができるので、合成音声の表現力の幅が広がり、聴取者の感性に訴える合成音声を生成することが可能となる。

実施の形態１．
図１は、本発明の実施の形態１に係る音声合成サーバシステムのサーバ構成を表すものである。
音声合成サーバシステム１００は、本実施の形態１に係る音声合成サーバシステムであり、Ｗｅｂサーバ１２０、音声合成サーバ１３０、ネットワークストレージ１４０を有している。
Ｗｅｂサーバ１２０、音声合成サーバ１３０、ネットワークストレージ１４０は、それぞれ同一のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）内に接続されており、Ｗｅｂサーバ１２０と音声合成サーバ１３０は、ネットワークストレージ１４０に直接アクセス可能であるものとする。
ネットワークストレージ１４０内には、コンテンツ保管フォルダ１４１が構成されている。コンテンツ保管フォルダ１４１は、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）ファイルや画像ファイル、ＣＳＳ（ＣａｓｃａｄｉｎｇＳｔｙｌｅＳｈｅｅｔ）ファイル等の、Ｗｅｂページを構成するファイル群（以下、「コンテンツファイル」と略す場合もある）が格納されている。
Ｗｅｂサーバ１２０は、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）サーバとしての機能を備え、ＨＴＴＰクライアントのリクエストを受け取ると、リクエストされたコンテンツファイルをコンテンツ保管フォルダ１４１から読み込んで、ＨＴＴＰクライアントに送信する。
音声合成サーバ１３０は、クライアントから音声合成リクエストを受け取ると、そのリクエストの際に送信されたテキストの内容を読み上げる合成音声を、後述の音声ＤＢ１３５を用いて生成し、クライアントに送信する。

音声合成サーバ１３０の詳細な構成は、後述の図３を用いて説明する。
また、ネットワークストレージ１４０は、ＬＡＮインターフェースを備える大容量記憶装置であり、例えばＮＡＳ（ＮｅｔｗｏｒｋＡｔｔａｃｈｅｄＳｔｏｒａｇｅ）装置で実現することができる。

図２は、図１の音声合成サーバシステム１００の利用シーン概略を説明するものである。ここでは、音声合成サーバシステム１００にネットワーク接続されたクライアント端末１１０がリクエストを発行するものとして説明を行う。

１．Ｗｅｂコンテンツをリクエストする場合
（１）クライアント端末１１０は、Ｗｅｂサーバ１２０にＨＴＴＰリクエストを発行し、コンテンツファイルの送信を要求する。
（２）Ｗｅｂサーバ１２０は、ネットワークストレージ１４０にアクセスし、クライアント端末１１０がリクエストしたコンテンツファイルをコンテンツ保管フォルダ１４１から取得する。
（３）Ｗｅｂサーバ１２０は、コンテンツ保管フォルダ１４１から取得したコンテンツファイルを、ＨＴＴＰ応答としてクライアント端末１１０に送信する。

２．合成音声をリクエストする場合
（１）クライアント端末１１０は、音声合成サーバ１３０に対し、合成音声のリクエストを発行する。このときクライアント端末１１０は、合成音声で読み上げてほしいテキストの内容を併せて送信する。通信プロトコルは、音声合成サーバ１３０の実装に合わせて適切なものを用いる。
（２）音声合成サーバ１３０は、ネットワークストレージ１４０にアクセスし、コンテンツファイルをコンテンツ保管フォルダ１４１から取得する。
（３）音声合成サーバ１３０は、コンテンツ保管フォルダ１４１から取得したコンテンツファイルの内容を分析する。
（４）音声合成サーバ１３０は、コンテンツファイルの分析結果を用いて、音声合成を実行する。
（５）音声合成サーバ１３０は、合成した音声をクライアント端末１１０に送信する。

なお、２．（２）〜（４）の内容は、本発明に固有の事項であるため、詳細は後述の図３〜図４を用いて説明する。

図３は、音声合成サーバ１３０の詳細構成を説明するものである。ここでは、図２との対応関係を把握しやすくするため、同図の２．に記載のステップ番号を併記している。
音声合成サーバ１３０は、テキスト入力部１３１、特徴抽出部１３２、話者口調選択部１３３、話者口調テーブル１３４、音声ＤＢ１３５、合成音声出力部１３６を備える。
テキスト入力部１３１は、クライアント端末１１０が合成音声のリクエストを発行する際に同時に送信する読み上げテキストの内容を受け取る。
特徴抽出部１３２は、テキスト入力部１３１が読み上げテキストの内容を受け取ると、ネットワークストレージ１４０にアクセスし、コンテンツファイルをコンテンツ保管フォルダ１４１から取得する。次に、そのコンテンツファイルの内容を分析し、分析結果を話者口調選択部１３３に出力する。分析処理の内容は、コンテンツファイルの具体例とともに後述の図５〜図７で説明する。
話者口調選択部１３３は、特徴抽出部１３２によるコンテンツファイルの分析結果を基に、話者口調テーブル１３４より対応する話者名称と口調種別のセットを取得し、合成音声出力部１３６に出力する。詳細は、話者口調テーブル１３４の具体的な構成とともに後述の図４で説明する。
話者口調テーブル１３４は、合成音声の基となる話者名称と口調種別のセットを１ないし複数保持している。
音声ＤＢ１３５は、音声合成に必要な種々のデータを格納している。例えばコーパスベースの音声合成を行う場合は、韻律モデルデータベース、音響モデルデータベース、音声ファイル群、などがあらかじめ格納されている。
合成音声出力部１３６は、話者口調選択部１３３が取得した話者名称と口調種別のセットに対応する音声を合成して、クライアント端末１１０に送信する。合成に際しては、必要なデータを音声ＤＢ１３５から適宜取得する。

図３では省略したが、音声合成サーバ１３０はネットワークインターフェースを備えており、クライアント端末１１０との通信に必要であれば、そのネットワークインターフェースを介して通信を行う。
なお、テキスト入力部１３１、特徴抽出部１３２、話者口調選択部１３３、合成音声出力部１３６は、回路デバイスのようなハードウェアを用いて実現してもよいし、ソフトウェアとして実現してもよい。
ソフトウェアとして実現する場合は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等にこれら各部の機能を実現するプログラムを格納しておき、マイコンやＣＰＵ等の演算装置がそのプログラムを読み込んで、プログラムの指示に従って各部の機能に相当する処理を実行するように構成する。
また、各テーブルの実装方式は、フラットファイルに所定のフォーマットで格納するものでもよいし、リレーショナルデータベースのテーブルとして構成してもよい。あるいはソフトウェア上で仮想的に実現されるテーブルでもよい。

なお、本実施の形態１における「コンテンツサーバ」は、Ｗｅｂサーバ１２０がこれに相当する。「コンテンツサーバ」は、その中にコンテンツファイルを格納するように構成してもよいし、本実施の形態１のように外付け記憶装置にコンテンツファイルを格納してそれを参照するようにしてもよい。いずれの場合であっても、論理的には「コンテンツサーバ」の配下にコンテンツファイルが格納されているように構成する。
また、「合成音声出力部」は、話者口調選択部１３３と合成音声出力部１３６により実現されているものとする。

図４は、話者口調テーブル１３４の構成とデータ例を示すものである。
話者口調テーブル１３４は、「選択用パラメータ」列と、「音声合成時に用いる話者と口調」列を有する。
「選択用パラメータ」列には、特徴抽出部１３２のコンテンツファイル分析結果に相当する内容が格納される。図４のデータ例では、コンテンツファイルにより構成されるコンテンツの背景色が全体的に明るいと分析した場合、話者口調選択部１３３は１行目のデータを選択する。
「音声合成時に用いる話者と口調」列には、「選択用パラメータ」列の値に対応付けられる話者名称と口調種別が格納される。図４のデータ例では、コンテンツの背景色が全体的に明るい場合は、「話者Ａ」「楽しい口調」で音声合成を行うべきことが分かる。

以上が、本実施の形態１に係る音声合成サーバシステム１００の構成である。
次に、音声合成サーバシステム１００の具体的な動作について、特に特徴抽出部１３２の動作を中心に説明する。

図５は、コンテンツ保管フォルダ１４１が格納しているコンテンツファイルの１例を示すものである。ここでは、ＨＴＭＬソースファイルを例に説明する。
特徴抽出部１３２は、図３のステップ（２）で、図５に示すような内容のＨＴＭＬファイルを取得し、ステップ（３）でその内容を分析する。なお、分析に先立ち、以下の前提条件を仮定する。
（１）文字部分がＨＴＭＬページ中に占める面積は、全体の０．４％（固定）であるものと仮定する。
（２）画面サイズは１２８０×１０２４ピクセルである。
（３）文字の規定サイズは２４ポイント、フォント色は黒である。

図６は、図５の＜ｈｅａｄ＞タグ部分で読み込んでいるスタイルシート「ｓｔｙｌｅ．ｃｓｓ」のソースコードを示すものである。
図６に示すソースコードによれば、属性「ｂａｃｋｇｒｏｕｎｄ−ｃｏｌｏｒ」で以下のように指定されていることが分かる。
（１）タグ＜ＢＯＤＹ＞部分の背景色は白
（２）タグ＜Ｈ２＞部分の背景色は青
（３）タグ＜Ｈ４＞部分の背景色は赤
なお、説明を簡単にするため、「ｐａｄｄｉｎｇ」「ｍａｒｇｉｎ−ｔｏｐ」「ｍａｒｇｉｎ−ｂｏｔｔｏｍ」属性は無視する。

図７は、図５と図６で説明した各ファイルにより構成されるｗｅｂページの画面イメージを示すものである。以下、要素毎に説明する。
（１）＜ＢＯＤＹ＞タグの背景色指定により、全体の背景色は白色になっている。
（２）＜Ｈ２＞タグの背景色指定と、規定の文字サイズ２４ポイントにより、高さ２４ピクセルの青色帯が配置される。
（３）＜Ｈ４＞タグの背景色指定と、規定の文字サイズ２４ポイントにより、高さ２４ピクセルの赤色帯が配置される。
（４）＜ｕｌ＞タグ配下の「青い青い青い１」「青い青い青い２」などの文字列は、上述の前提条件により、全体の０．４％を占め、黒色で描画されるものとする。

特徴抽出部１３２は、ＨＴＭＬソース（図５）とスタイルシート（図６）から以上の情報を読み取り、以下のように分析を行う。なお、白色と赤色は「明るい色」、黒色と青色は「暗い色」として取り扱う。
（１）まず、特徴抽出部１３２は、画面イメージ全体に占める各色の割合を算出する。
（青色の割合）＝２４（ｐｘ）／１０２４（ｐｘ）×１００＝２．３％
（赤色の割合）＝２４（ｐｘ）／１０２４（ｐｘ）×１００＝２．３％
（黒色の割合）＝０．４％（固定）
（白色の割合）＝１００−２．３−２．３ー０．４＝９５％
（２）次に、明るい色と暗い色の割合を算出する。
（明るい色）＝２．３＋９５＝９７．３％
（暗い色）＝２．３＋０．４＝２．７％
（３）以上の計算により、図５と図６のファイルで生成されるｗｅｂページの明るさの度合い「明るい色＝９７．３％」が算出できる。
（４）特徴抽出部１３２は、算出した値を話者口調選択部１３３に引き渡す。

話者口調選択部１３３は、特徴抽出部１３２より受け取った値を用いて話者口調テーブル１３４を検索し、該当するデータを取得する。図４のデータ例では、「明るい色＝９７．３％」は１行目のデータに該当するため、「話者Ａ」「楽しい口調」が選択され、合成音声出力部１３６に出力される。
合成音声出力部１３６は、「話者Ａ」「楽しい口調」に対応する音声を合成して、クライアント端末１１０に送信する。

ここまで説明した処理を実行することにより、音声合成サーバシステム１００は、ｗｅｂコンテンツの色彩上の明るさという人間の感性上のパラメータを合成音声に反映することが可能となる。

なお、図２において、クライアント端末１１０は音声合成サーバ１３０に直接リクエストを発行するように記載したが、これに限られるものではない。
例えば、合成音声の配信アドレスを記載したメタファイルをＨＴＴＰでＷｅｂサーバ１２０からクライアント端末１１０に配信し、クライアント端末１１０はその配信アドレスを読み込んで音声合成サーバ１３０にリクエストを発行するようにしてもよい。
その他、Ｗｅｂサーバ１２０と音声合成サーバ１３０の間でリクエストを相互に転送する方式も考えられる。
以下の実施の形態においても同様である。

以上のように、本実施の形態１によれば、例えば特定のカテゴリのＷｅｂサイトにおいて、そのサイトの明るさの雰囲気に合った合成音声を生成することが可能となるので、よりユーザの感性に訴えかける合成音声をユーザへ配信することができる。
これにより、Ｗｅｂコンテンツ自体の表現力との相乗効果で、合成音声の表現力の幅が広がり、ユーザの感性に効果的に訴える合成音声を生成することが可能となる。

実施の形態２．
実施の形態１では、コンテンツの特徴を、ＨＴＭＬソースファイルなどから算出される色彩上の明るさで分析する例について説明した。
本発明の実施の形態２に係る音声合成サーバシステムでは、同じくＨＴＭＬソースファイルなどから算出される画像配置パターンで、コンテンツの特徴を分析する例について説明する。

図８は、本実施の形態２における話者口調テーブル１３４の構成とデータ例を示すものである。
図８において、列構成は実施の形態１で説明した図４と同様であるが、３行目〜５行目のデータ内容が異なる。これらの行のデータ内容が表す意味について、次の図９を用いながら説明する。

図９は、コンテンツ保管フォルダ１４１が格納しているＨＴＭＬソースファイルの１例を示すものである。
ここでは、＜ｉｍｇ＞タグの内容に注目する。図９のＨＴＭＬソースコード中で３つ存在する＜ｉｍｇ＞タグそれぞれの「ａｌｉｇｎ」属性は、「ｌｅｆｔ」「ｃｅｎｔｅｒ」「ｌｅｆｔ」となっている。これは、３つの画像のうち２つの配置が左寄りであることを示しており、全体的に画像配置が左寄りであることが分かる。
この場合、特徴抽出部１３２は、２／３＝６６．６％の画像配置が左よりであると分析する。
話者口調選択部１３３は、この分析結果に基づき話者口調テーブル１３４を検索する。図８のデータ例では、「画像配置左寄り＝６６．６％」は４行目のデータに該当するため、「話者Ａ」「残念そうな口調」が選択され、合成音声出力部１３６に出力される。
合成音声出力部１３６は、「話者Ａ」「残念そうな口調」に対応する音声を合成して、クライアント端末１１０に送信する。

なお、画像配置を分析する際に、画像サイズを考慮に入れてもよい。
例えば、図９のＨＴＭＬソースコードでは、３番目の画像「Ｃ．ｊｐｇ」のサイズが他の２つと比較して極端に大きく、全体に占める割合も相対的に大きくなる。
画像配置を割合を計算する際に、その画像の画面全体に示す割合を乗算するなどの補正を行うことにより、画像サイズを考慮した分析が可能である。
また、画像が画面全体中で占める面積の割合を算出し、その割合に応じて話者と口調選択するように構成することもできる。

なお、上記では＜ｉｍｇ＞タグの「ａｌｉｇｎ」属性を例に取り説明したが、例えば＜ｔａｂｌｅ＞タグの「ａｌｉｇｎ」属性を考慮する、などとしてもよい。その他のタグについても同様である。

本実施の形態２で説明した、画像配置パターンに基づいて話者と口調を決定する構成は、実施の形態１と併用してもよいし、単独で用いてもよい。
実施の形態１、２を併用する場合、明るさと画像配置パターンのいずれを優先的に適用するかなどのルールは、任意に定めることができる。

以上のように、本実施の形態２によれば、画像の配置パターンに応じて合成音声の話者と口調を設定することができる。
画像の配置パターンは、コンテンツ閲覧時の印象に大きな影響を与えるため、ユーザが受け取る印象に占める割合も大きく、したがってこれに応じた合成音声を生成することでユーザの感性により訴えかけることが可能である。

実施の形態３．
実施の形態１〜２では、コンテンツファイルの内容を分析して合成音声に反映する構成を説明した。
本発明の実施の形態３では、入力テキストの内容を合成音声の話者と口調の選択に反映することのできる、音声合成サーバシステム１００の構成を説明する。

図１０は、本実施の形態３における音声合成サーバ１３０の詳細構成を説明するものである。
音声合成サーバ１３０は、キーワードテーブル１３７を備える。その他の構成は実施の形態１〜２と同様であるため、同じ符号を付して説明は省略する。
キーワードテーブル１３７には、音声合成サーバ１３０の管理者等があらかじめ設定した１ないし複数のキーワードのリストが格納されている（図示せず）。

図１１は、本実施の形態３における話者口調テーブル１３４の構成とデータ例を示すものである。
図１１の話者口調テーブル１３４は、実施の形態２で説明した図８と比較し、６行目〜７行目のデータ内容が新たに追加されている点が異なる。これらの行のデータ内容が表す意味について、次に説明する。

特徴抽出部１３２は、テキスト入力部１３１が読み上げテキストの内容を受け取ると、キーワードテーブル１３７を検索し、そのテキスト中に、キーワードテーブル１３７が保持しているキーワードが何個存在するかをカウントする。
話者口調選択部１３３は、そのカウント結果を受け取り、話者口調テーブル１３４を検索する。図１１のデータ例では、７行目のデータにより、「キーワードの出現数が５回より多い」場合には、「話者Ｅ」「メッセージ口調」で音声合成をするべきことが分かる。
カウント結果が５回以下である場合には、コンテンツファイルの分析結果により話者と口調を定めればよい。

なお、コンテンツファイルの分析結果とキーワードのカウント数のいずれを優先するかなどのルールは、任意に定めることができる。
また、上述の例ではキーワードのカウント数を例に説明したが、これに限られるものではなく、例えば、ある特定のキーワードが入力テキストに含まれれば、無条件に話者と口調を決定することとしてもよい。即ち、キーワードと話者・口調のセットとの関係を特定することができれば、必ずしもキーワードのカウント数のみを基準とする必要はない。

その他、入力テキストの内容を合成音声に反映する方法としては、入力テキストの文字数に応じて話者・口調を決定することが考えられる。
例えば、入力テキストの文字数が１００文字以上であった場合は、図１１のデータ例における６行目のデータに該当するので、「話者Ｄ」「楽しい口調」で音声合成をすべきことが分かる。
コンテンツファイルの分析結果、キーワードの個数、入力テキストの文字数、の中で、いずれを優先的に適用するかなどのルールは、任意に定めることができる。

以上のように、本実施の形態３によれば、入力テキストの内容を単に音声読み上げするのみならず、その内容に応じて話者と口調を設定することができる。
これにより、例えば音声合成サーバシステム１００の提供者にとって好ましいキーワードを含む入力テキストを送信した場合には、ユーザが強く欲するような話者・口調で音声合成を行い、好ましくないキーワードを含む入力テキストを送信した場合には、ユーザにとってあまり聴取意欲の沸かない話者・口調で音声合成をする、といったことが可能になる。
こうした、入力テキストの内容に応じた音声合成を行う機能を備えることは、音声合成サーバシステム１００の提供者側で合成音声をある程度コントロールできることにもなるため、事業的な観点からも好ましい機能である。

実施の形態４．
本発明の実施の形態４では、合成音声をリクエストするユーザを識別して、ユーザ毎に異なる合成音声の話者と口調を設定することのできる音声合成サーバシステムの構成を説明する。

図１２は、本実施の形態４に係る音声合成サーバシステム１００の構成を説明するものである。
図１２において、ネットワークストレージ１４０は、ユーザテーブル１４２を格納している。ユーザテーブル１４２の構成は次の図１３で説明する。
なお、ユーザテーブル１４２は、Ｗｅｂサーバ１２０内に格納するように構成してもよいし、音声合成サーバ１３０内に格納するように構成してもよい。ここでは、システム実装の便宜上、ネットワークストレージ１４０に格納しているものとして、以下の説明を行う。

図１３は、ユーザテーブル１４２の構成とデータ例を示すものである。
ユーザテーブル１４２は、「ユーザＩＤ」列、「パスワード」列、「ポイント」列、「セッションＩＤ」列を有する。
「ユーザＩＤ」列には、ユーザ毎に固有に割り当てられ、個々のユーザを識別するためのＩＤが格納される。
「パスワード」列には、「ユーザＩＤ」列の値で特定されるユーザを認証するためのパスワードが格納される。
「ポイント」列には、「ユーザＩＤ」列の値で特定されるユーザが現在保有しているポイント情報が格納される。
「セッションＩＤ」列には、認証後のユーザに割り当てられる一意の識別文字列が格納される。本列の値は、認証を行っていない（音声合成サーバシステム１００にログインしていない）ユーザに関しては空となっている。

図１４は、本実施の形態４における話者口調テーブル１３４の構成とデータ例を示すものである。
図１４の話者口調テーブル１３４は、実施の形態３で説明した図１１と比較し、８行目のデータ内容が新たに追加されている点が異なる。この行のデータ内容が表す意味について、次の図１５を用いて説明する。

図１５は、図１２の音声合成サーバシステム１００の利用シーン概略を説明するものである。図２と同様に、クライアント端末１１０がＷｅｂコンテンツをリクエストする場合と合成音声をリクエストする場合に分けて説明する。

１．Ｗｅｂコンテンツをリクエストする場合
（１）クライアント端末１１０は、Ｗｅｂサーバ１２０にログイン要求を送信する。このとき、ユーザＩＤとパスワードを併せて送信する。
（２）Ｗｅｂサーバ１２０は、クライアント端末１１０から受け取ったユーザＩＤとパスワードをキーにしてユーザテーブル１４２を検索する。
該当するデータがあれば、その行の「セッションＩＤ」列に一意の識別文字列を格納する。該当するデータがなければ、その旨をクライアント端末１１０に返信する。
（３）Ｗｅｂサーバ１２０は、クライアント端末１１０に、上記の識別文字列を送信する。クライアント端末１１０は、識別文字列を受け取ることにより、ユーザが正しく認証されたことが分かる。
（４）クライアント端末１１０は、Ｗｅｂサーバ１２０にＨＴＴＰリクエストを発行し、コンテンツファイルの送信を要求する。このとき、ステップ（３）で受け取った識別文字列を併せて送信する。
（５）〜（６）の処理内容は、図２の１．（２）〜（３）の処理内容と同様であるため、説明を省略する。

２．合成音声をリクエストする場合
（１）クライアント端末１１０は、音声合成サーバ１３０に対し、合成音声のリクエストを発行する。このときクライアント端末１１０は、合成音声で読み上げてほしいテキストの内容と、１．（３）で受け取った識別文字列とを、併せて送信する。通信プロトコルは、音声合成サーバ１３０の実装に合わせて適切なものを用いる。
（２）音声合成サーバ１３０は、ネットワークストレージ１４０にアクセスし、コンテンツファイルをコンテンツ保管フォルダ１４１から取得する。
（３）音声合成サーバ１３０は、１．（３）で受け取った識別文字列をキーにしてユーザテーブルを検索し、該当ユーザの「ポイント」列の値を取得する。
（４）音声合成サーバ１３０は、コンテンツ保管フォルダ１４１から取得したコンテンツファイルの内容を分析する。
（５）音声合成サーバ１３０は、コンテンツファイルの分析結果と、ステップ（３）で取得した「ポイント」列の値を用いて、音声合成を実行する。詳細は後述する。
（６）音声合成サーバ１３０は、合成した音声をクライアント端末１１０に送信する。

なお、ユーザ認証を実行する前にクライアント端末１１０が音声合成サーバ１３０へリクエストを発行した場合は、２．（１）の前に１．（１）〜（３）の処理を実行する。

次に、音声合成処理の詳細について説明する。
図１５の２．（５）において、話者口調選択部１３３は、話者口調テーブル１３４を参照し、ユーザのポイントに関する情報を検索する。図１４のデータ例では、８行目のデータにより、「ポイント」列の値が３００より大きいユーザへ合成音声を送信する際には、「話者Ａ」「楽しい口調」で音声合成をすべきことが分かる。
なお、「ポイント」列の値と、実施の形態１〜３で説明した、コンテンツファイルの分析結果やキーワードの個数などの中で、いずれを優先適用すべきかなどのルールは、任意に定めることができる。

本実施の形態４において、「ポイント」列の値がいかにしてセットされるかは、例えば以下のようにすることができる。
（１）他のパーソナライズドサービスのユーザポイント情報を転用する。
（２）音声合成サーバシステム１００内で独自に定める。この場合は、例えばログイン回数が多いユーザに多くのポイントを割り当てるなど、音声合成サーバシステム１００内で閉じた情報を用いてポイントを決定するとよい。

以上のように、本実施の形態４によれば、個々のユーザを識別し、ユーザ毎に話者・口調を設定することができるので、個々のユーザの要求にきめ細かく対応するパーソナライズド音声合成サービスの提供が可能となる。
これにより、音声合成サーバシステム１００の提供者は、高いポイントを取得してより高品質の合成音声を得るように、ユーザへ動機付けをすることができる。このようなユーザへの動機付けは、様々な事業機会の拡大につながり、事業者にとっての経済的なメリットもある。

実施の形態５．
実施の形態１〜４では、合成音声の話者と口調に差異を設けた構成を説明した。
本発明の実施の形態５に係る音声合成システムでは、音声合成の基となる音声ＤＢ１３５の品質に差異を設けた構成を説明する。

一般にユーザの心理として、より高品質な合成音声を所望する傾向がある。
そこで、本実施の形態５の構成を用いることにより、ユーザの行動パターンを、より高品質な合成音声が得られるような行動パターンへ向けて方向付けることができる。
以下、具体的な構成を説明する。

本実施の形態５において、音声ＤＢ１３５は、同じ話者・口調に対応したものであっても、あらかじめ複数の品質レベルで構築されている。
例えば、「話者Ａ」「楽しい口調」の合成音声を生成するための音声ＤＢとして、「高品質」「中品質」「低品質」の３つが存在する、というようなことである。いずれの品質レベルの音声ＤＢを用いても、「話者Ａ」「楽しい口調」の合成音声を生成できるが、その合成音声の品質に差異が生じる。
なお、音声ＤＢ１３５の品質の尺度には、収録環境、収録原稿、話者、合成処理時間といった様々な観点があるが、ここでは音声ＤＢの収録音声時間が長いほど品質が良いものとして以下の説明を行う。

図１６は、本実施の形態５における話者口調テーブル１３４の構成とデータ例を示すものである。
本実施の形態５では、話者口調テーブル１３４は、実施の形態１〜４と同様の「選択用パラメータ」列、「音声合成時に用いる話者と口調」列に加えて、新たに「音声ＤＢの品質レベル」列を有する。
「音声ＤＢの品質レベル」列には、合成音声出力部１３６が音声合成を行う際に用いる音声ＤＢ１３５の品質レベルを表す値が格納される。図１６のデータ例では、２行目のデータにより、「明るい背景色の割合が６０〜７０％」の場合は「話者Ａ」「楽しい口調」に対応した音声ＤＢ１３５のうち中程度の品質レベルのものを用いるべきことが分かる。
また、１行目のデータによれば、同じ「話者Ａ」「楽しい口調」でも、「明るい背景色の割合が７０％以上」の場合は音声ＤＢ１３５のうち（収録音声時間が最も長い）最高品質のものを用いるべきことが分かる。

なお、本実施の形態５における「推奨品質レベルデータ」は、「音声ＤＢの品質レベル」列の値がこれに相当する。
また、図１６では、実施の形態１の図４と同様の行データを用いて説明したが、その他の実施の形態における話者口調テーブル１３４の行データと同様の値も用いる場合も、処理内容は同様である。

以上のように、本実施の形態５によれば、話者と口調に加えて、音声合成の基となる音声ＤＢ１３５の品質レベルも個別に設定可能としたので、定量的な観点から合成音声の品質をユーザ毎に差別化するなどの機能を実現することができる。

なお、以上説明した実施の形態１〜５では、コンテンツ保管フォルダ１４１が格納しているコンテンツファイルとしてＨＴＭＬファイルを例にとり説明したが、音声合成を行う際に分析対象となるコンテンツファイルは、これに限られるものではない。
例えば、特徴抽出部１３２は、画像ファイルを読み込んでその色彩パターンを分析したり、画像中の文字部分をパターン認識して文字部分の面積比を算出したりすることもできる。いずれの分析対象ファイルにいずれの分析方法を用いる場合であっても、その分析結果に対応した話者口調テーブル１３４のエントリがあればよい。
また、音声合成サーバ１３０がコンテンツファイルに直接アクセスできない場合であっても、そのコンテンツファイルを置いているネットワーク上のアドレス（ＵＲＬ等）をクライアント端末１１０から音声合成サーバ１３０に送信し、音声合成サーバ１３０がそのアドレスにアクセスしてコンテンツファイルを取得するように構成してもよい。

また、以上の実施の形態１〜５では、コンテンツ保管フォルダ１４１に保管しているファイルの数や種類については詳しく言及していないが、仮に同フォルダに多数多種類のコンテンツファイルが存在している場合、特徴抽出部１３２はいずれのファイルを読み込んで分析すべきか、という実装上の問題がある。
この解決法としては、例えば全てのコンテンツファイルを読み込んで平均値を取る、あらかじめ定められた名称のファイルのみを分析対象とする、といった方法が考えられる。

実施の形態６．
実施の形態１〜５では、コンテンツファイルの内容分析など、主として音声合成サーバシステム１００側で備えている要素を音声合成に利用する構成を説明した。
本発明の実施の形態６に係る音声合成サーバシステムでは、クライアント端末１１０側の環境を利用して音声合成を行うことのできる構成を説明する。

図１７は、本実施の形態６に係る音声合成サーバシステム１００の利用シーン概略を説明するものである。
概ね実施の形態１で説明した図２と同様であるが、クライアント端末１１０が音量センサ１１１を備えている点が異なる。また、クライアント端末１１０は、２．（１）で合成音声をリクエストする際に、音量センサ１１１の検出値を併せて送信する点も、図２と異なっている。
音声合成サーバ１３０は、クライアント端末１１０が送信した読み上げテキストの内容とともに音量センサ１１１の検出値を受け取り、これらの値を用いて音声合成を行う。次の図１８を用いて、具体的な処理内容を説明する。

図１８は、本実施の形態６における話者口調テーブル１３４の構成とデータ例を示すものである。
話者口調テーブル１３４の列構成は、実施の形態５で説明した図１６と同様である。
同図の３行目のデータには、「音量センサ１１１の検出値が８０ｄＢ以上」の場合、「話者Ｅ」「賑やかな口調」に対応する音声合成を行うべきことが分かる。音声合成処理の詳細は実施の形態１〜５と同様であるため、説明を省略する。
以上の処理を実行することにより、音声合成サーバシステム１００は、クライアント端末１１０側の環境を、合成音声に反映することができる。

なお、本実施の形態６において、クライアント端末１１０が備えるセンサの例として音量センサを説明したが、これ以外の物理量を検出するセンサ（例えば匂いセンサ）を備える場合であっても、同様に話者口調テーブル１３４に対応するデータを格納しておくことにより、本実施の形態６と同様の効果を奏する。

以上のように、本実施の形態６によれば、クライアント端末１１０側の環境を検出するセンサの検出値を合成音声に反映することができるので、クライアント端末１１０を操作するユーザにとって臨場感のある音声合成を行うことができる。

実施の形態１に係る音声合成サーバシステム１００のサーバ構成を表すものである。図１の音声合成サーバシステム１００の利用シーン概略を説明するものである。音声合成サーバ１３０の詳細構成を説明するものである。話者口調テーブル１３４の構成とデータ例を示すものである。コンテンツ保管フォルダ１４１が格納しているコンテンツファイルの１例を示すものである。図５の＜ｈｅａｄ＞タグ部分で読み込んでいるスタイルシート「ｓｔｙｌｅ．ｃｓｓ」のソースコードを示すものである。図５と図６で説明した各ファイルにより構成されるｗｅｂページの画面イメージを示すものである。実施の形態２における話者口調テーブル１３４の構成とデータ例を示すものである。コンテンツ保管フォルダ１４１が格納しているＨＴＭＬソースファイルの１例を示すものである。実施の形態３における音声合成サーバ１３０の詳細構成を説明するものである。実施の形態３における話者口調テーブル１３４の構成とデータ例を示すものである。実施の形態４に係る音声合成サーバシステム１００の構成を説明するものである。ユーザテーブル１４２の構成とデータ例を示すものである。実施の形態４における話者口調テーブル１３４の構成とデータ例を示すものである。図１２の音声合成サーバシステム１００の利用シーン概略を説明するものである。実施の形態５における話者口調テーブル１３４の構成とデータ例を示すものである。実施の形態６に係る音声合成サーバシステム１００の利用シーン概略を説明するものである。実施の形態６における話者口調テーブル１３４の構成とデータ例を示すものである。

符号の説明

１００音声合成サーバシステム、１１０クライアント端末、１１１音量センサ、１２０Ｗｅｂサーバ、１３０音声合成サーバ、１３１テキスト入力部、１３２特徴抽出部、１３３話者口調選択部、１３４話者口調テーブル、１３５音声ＤＢ、１３６合成音声出力部、１３７キーワードテーブル、１４０ネットワークストレージ、１４１コンテンツ保管フォルダ、１４２ユーザテーブル。

Claims

クライアント端末が送信した入力テキストの内容に応じた合成音声を出力する音声合成サーバと、
前記クライアント端末のリクエストに応じて出力するコンテンツファイルを格納したコンテンツサーバと、
を有する音声合成サーバシステムであって、
前記音声合成サーバは、
前記コンテンツファイルを読み込んで、そのコンテンツの色彩上の明暗度合いを所定の演算規則に従って算出する特徴抽出部と、
前記特徴抽出部が算出した明暗度合いに対応した特徴を持つ合成音声を前記入力テキストの内容に応じて出力する合成音声出力部と、
を備えたことを特徴とする音声合成サーバシステム。
前記音声合成サーバは、
合成音声の基となる話者名称と口調種別のセットを１ないし複数保持する話者口調テーブルを備え、
前記話者口調テーブルは、
前記セットと前記明暗度合いの閾値とを対応付けるデータをさらに保持しており、
前記合成音声出力部は、
音声を合成する際に、前記話者口調テーブルを参照し、前記明暗度合いに対応付けられた話者と口調を用いて音声を合成する
ことを特徴とする請求項１に記載の音声合成サーバシステム。
前記特徴抽出部は、
前記コンテンツファイルを読み込んで、そのコンテンツの画像配置パターンを所定の演算規則に従って算出し、
前記話者口調テーブルは、
前記セットと前記画像配置パターンを対応付けるデータを保持しており、
前記合成音声出力部は、
音声を合成する際に、前記話者口調テーブルを参照し、前記画像配置パターンに対応付けられた話者と口調を用いて音声を合成する
ことを特徴とする請求項２に記載の音声合成サーバシステム。
前記音声合成サーバは、
所定のキーワードを１ないし複数保持するキーワードテーブルを備え、
前記話者口調テーブルは、
前記セットと前記キーワードを対応付けるデータを保持しており、
前記合成音声出力部は、
音声を合成する際に、前記話者口調テーブルを参照し、前記キーワードに対応付けられた話者と口調を用いて音声を合成する
ことを特徴とする請求項２又は請求項３のいずれかに記載の音声合成サーバシステム。
前記コンテンツサーバは、
ユーザの認証情報と、そのユーザに対応付けられたポイント情報とを保持するユーザテーブルを備え、
前記話者口調テーブルは、
前記セットと前記ポイント情報を対応付けるデータを保持しており、
前記コンテンツサーバは、
認証リクエストとユーザの認証情報を前記クライアント端末から受信し、所定のユーザ認証処理を行った上で、アクセスを許可する旨の情報を前記クライアント端末に返信し、
前記合成音声出力部は、
前記入力テキストと前記アクセスを許可する旨の情報を前記クライアント端末から受信し、前記アクセスを許可する旨の情報を基に前記ユーザテーブルを検索してそのユーザのポイント情報を取得し、
さらに前記話者口調テーブルを参照し、前記ポイント情報に対応付けられた話者と口調を用いて音声を合成する
ことを特徴とする請求項２ないし請求項４のいずれかに記載の音声合成サーバシステム。
前記音声合成サーバは、
前記合成音声出力部が音声合成を行う際に用いる音声データベースを備え、
前記音声データベースは、
合成音声の話者名称と口調種別のセット毎に、複数の品質レベルで構築されており、
前記話者口調テーブルは、
前記セット毎に、前記音声データベースのいずれの品質レベルを用いるべきかを示す推奨品質レベルデータを保持しており、
前記合成音声出力部は、
音声を合成する際に、前記話者口調テーブルを参照し、前記推奨品質レベルデータが示す品質レベルの音声データベースを用いて音声を合成する
ことを特徴とする請求項２ないし請求項５のいずれかに記載の音声合成サーバシステム。
前記話者口調テーブルは、
前記セットと、周辺環境の物理量のセンサ検出値を対応付けるデータを保持しており、
前記合成音声出力部は、
前記入力テキストと、前記物理量のセンサ検出値とを、前記クライアント端末から受信すると、
前記話者口調テーブルを参照し、前記センサ検出値に対応付けられた話者と口調を用いて音声を合成する
ことを特徴とする請求項２ないし請求項６のいずれかに記載の音声合成サーバシステム。