JP2008129434A - 音声合成サーバシステム - Google Patents

音声合成サーバシステム Download PDF

Info

Publication number
JP2008129434A
JP2008129434A JP2006315860A JP2006315860A JP2008129434A JP 2008129434 A JP2008129434 A JP 2008129434A JP 2006315860 A JP2006315860 A JP 2006315860A JP 2006315860 A JP2006315860 A JP 2006315860A JP 2008129434 A JP2008129434 A JP 2008129434A
Authority
JP
Japan
Prior art keywords
speaker
speech
speech synthesis
tone
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006315860A
Other languages
English (en)
Inventor
Tsutomu Kaneyasu
勉 兼安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2006315860A priority Critical patent/JP2008129434A/ja
Publication of JP2008129434A publication Critical patent/JP2008129434A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】「明るい」「暗い」といった人間の感性に対応した「雰囲気」を、合成音声に反映させること。
【解決手段】クライアント端末110が送信した入力テキストの内容に応じた合成音声を出力する音声合成サーバ130と、クライアント端末110のリクエストに応じて出力するコンテンツファイルを格納したWebサーバ120と、を有する音声合成サーバシステムであって、音声合成サーバ130は、コンテンツファイルを読み込んで、そのコンテンツの色彩上の明暗度合いを所定の演算規則に従って算出する特徴抽出部132と、特徴抽出部132が算出した明暗度合いに対応した特徴を持つ合成音声を入力テキストの内容に応じて出力する合成音声出力部と、を備えたことを特徴とする。
【選択図】図2

Description

本発明は、入力テキストの内容に応じた合成音声を出力する音声合成サーバシステムに関するものである。
従来、『イメージによって表わされた文字を合成音声として出力可能とし、もって、イメージによる文字表現の理解容易性を向上させる。』ことを目的とした技術として、『テキスト中の文字コードとイメージ文字を文字コード/イメージ分離手段1により分離し、分離されたイメージ文字を認識し、認識された文字を文字コードに文字認識・文字コード化手段2により置き換える。文字コード化されたイメージ文字と元々の文字コードとをテキストの文字配列に応じて読み上げ順序制御部3により並べ、順序制御された文字コードを音声合成手段4により音声出力する。これにより、テキスト中にイメージ文字が含まれていても、このイメージ文字を文字コード化して読み上げることができる。』というものが提案されている(特許文献1)。
特開2000−99624号公報(要約)
しかしながら、上記従来技術は、「明るい」「暗い」といった人間の感性に対応した音声出力を行うものではなく、このような感性に基づく「雰囲気」を、合成音声に反映させることはできなかった。
そのため、「雰囲気」を反映した合成音声を出力することのできる音声合成サーバシステムが望まれていた。
本発明に係る音声合成サーバシステムは、
クライアント端末が送信した入力テキストの内容に応じた合成音声を出力する音声合成サーバと、
前記クライアント端末のリクエストに応じて出力するコンテンツファイルを格納したコンテンツサーバと、
を有する音声合成サーバシステムであって、
前記音声合成サーバは、
前記コンテンツファイルを読み込んで、そのコンテンツの色彩上の明暗度合いを所定の演算規則に従って算出する特徴抽出部と、
前記特徴抽出部が算出した明暗度合いに対応した特徴を持つ合成音声を前記入力テキストの内容に応じて出力する合成音声出力部と、
を備えたことを特徴とするものである。
本発明に係る音声合成サーバシステムによれば、コンテンツの感性的な特徴を合成音声に反映することができるので、合成音声の表現力の幅が広がり、聴取者の感性に訴える合成音声を生成することが可能となる。
実施の形態1.
図1は、本発明の実施の形態1に係る音声合成サーバシステムのサーバ構成を表すものである。
音声合成サーバシステム100は、本実施の形態1に係る音声合成サーバシステムであり、Webサーバ120、音声合成サーバ130、ネットワークストレージ140を有している。
Webサーバ120、音声合成サーバ130、ネットワークストレージ140は、それぞれ同一のLAN(Local Area Network)内に接続されており、Webサーバ120と音声合成サーバ130は、ネットワークストレージ140に直接アクセス可能であるものとする。
ネットワークストレージ140内には、コンテンツ保管フォルダ141が構成されている。コンテンツ保管フォルダ141は、HTML(Hyper Text Markup Language)ファイルや画像ファイル、CSS(Cascading Style Sheet)ファイル等の、Webページを構成するファイル群(以下、「コンテンツファイル」と略す場合もある)が格納されている。
Webサーバ120は、HTTP(Hyper Text Transfer Protocol)サーバとしての機能を備え、HTTPクライアントのリクエストを受け取ると、リクエストされたコンテンツファイルをコンテンツ保管フォルダ141から読み込んで、HTTPクライアントに送信する。
音声合成サーバ130は、クライアントから音声合成リクエストを受け取ると、そのリクエストの際に送信されたテキストの内容を読み上げる合成音声を、後述の音声DB135を用いて生成し、クライアントに送信する。
音声合成サーバ130の詳細な構成は、後述の図3を用いて説明する。
また、ネットワークストレージ140は、LANインターフェースを備える大容量記憶装置であり、例えばNAS(Network Attached Storage)装置で実現することができる。
図2は、図1の音声合成サーバシステム100の利用シーン概略を説明するものである。ここでは、音声合成サーバシステム100にネットワーク接続されたクライアント端末110がリクエストを発行するものとして説明を行う。
1.Webコンテンツをリクエストする場合
(1)クライアント端末110は、Webサーバ120にHTTPリクエストを発行し、コンテンツファイルの送信を要求する。
(2)Webサーバ120は、ネットワークストレージ140にアクセスし、クライアント端末110がリクエストしたコンテンツファイルをコンテンツ保管フォルダ141から取得する。
(3)Webサーバ120は、コンテンツ保管フォルダ141から取得したコンテンツファイルを、HTTP応答としてクライアント端末110に送信する。
2.合成音声をリクエストする場合
(1)クライアント端末110は、音声合成サーバ130に対し、合成音声のリクエストを発行する。このときクライアント端末110は、合成音声で読み上げてほしいテキストの内容を併せて送信する。通信プロトコルは、音声合成サーバ130の実装に合わせて適切なものを用いる。
(2)音声合成サーバ130は、ネットワークストレージ140にアクセスし、コンテンツファイルをコンテンツ保管フォルダ141から取得する。
(3)音声合成サーバ130は、コンテンツ保管フォルダ141から取得したコンテンツファイルの内容を分析する。
(4)音声合成サーバ130は、コンテンツファイルの分析結果を用いて、音声合成を実行する。
(5)音声合成サーバ130は、合成した音声をクライアント端末110に送信する。
なお、2.(2)〜(4)の内容は、本発明に固有の事項であるため、詳細は後述の図3〜図4を用いて説明する。
図3は、音声合成サーバ130の詳細構成を説明するものである。ここでは、図2との対応関係を把握しやすくするため、同図の2.に記載のステップ番号を併記している。
音声合成サーバ130は、テキスト入力部131、特徴抽出部132、話者口調選択部133、話者口調テーブル134、音声DB135、合成音声出力部136を備える。
テキスト入力部131は、クライアント端末110が合成音声のリクエストを発行する際に同時に送信する読み上げテキストの内容を受け取る。
特徴抽出部132は、テキスト入力部131が読み上げテキストの内容を受け取ると、ネットワークストレージ140にアクセスし、コンテンツファイルをコンテンツ保管フォルダ141から取得する。次に、そのコンテンツファイルの内容を分析し、分析結果を話者口調選択部133に出力する。分析処理の内容は、コンテンツファイルの具体例とともに後述の図5〜図7で説明する。
話者口調選択部133は、特徴抽出部132によるコンテンツファイルの分析結果を基に、話者口調テーブル134より対応する話者名称と口調種別のセットを取得し、合成音声出力部136に出力する。詳細は、話者口調テーブル134の具体的な構成とともに後述の図4で説明する。
話者口調テーブル134は、合成音声の基となる話者名称と口調種別のセットを1ないし複数保持している。
音声DB135は、音声合成に必要な種々のデータを格納している。例えばコーパスベースの音声合成を行う場合は、韻律モデルデータベース、音響モデルデータベース、音声ファイル群、などがあらかじめ格納されている。
合成音声出力部136は、話者口調選択部133が取得した話者名称と口調種別のセットに対応する音声を合成して、クライアント端末110に送信する。合成に際しては、必要なデータを音声DB135から適宜取得する。
図3では省略したが、音声合成サーバ130はネットワークインターフェースを備えており、クライアント端末110との通信に必要であれば、そのネットワークインターフェースを介して通信を行う。
なお、テキスト入力部131、特徴抽出部132、話者口調選択部133、合成音声出力部136は、回路デバイスのようなハードウェアを用いて実現してもよいし、ソフトウェアとして実現してもよい。
ソフトウェアとして実現する場合は、HDD(Hard Disk Drive)等にこれら各部の機能を実現するプログラムを格納しておき、マイコンやCPU等の演算装置がそのプログラムを読み込んで、プログラムの指示に従って各部の機能に相当する処理を実行するように構成する。
また、各テーブルの実装方式は、フラットファイルに所定のフォーマットで格納するものでもよいし、リレーショナルデータベースのテーブルとして構成してもよい。あるいはソフトウェア上で仮想的に実現されるテーブルでもよい。
なお、本実施の形態1における「コンテンツサーバ」は、Webサーバ120がこれに相当する。「コンテンツサーバ」は、その中にコンテンツファイルを格納するように構成してもよいし、本実施の形態1のように外付け記憶装置にコンテンツファイルを格納してそれを参照するようにしてもよい。いずれの場合であっても、論理的には「コンテンツサーバ」の配下にコンテンツファイルが格納されているように構成する。
また、「合成音声出力部」は、話者口調選択部133と合成音声出力部136により実現されているものとする。
図4は、話者口調テーブル134の構成とデータ例を示すものである。
話者口調テーブル134は、「選択用パラメータ」列と、「音声合成時に用いる話者と口調」列を有する。
「選択用パラメータ」列には、特徴抽出部132のコンテンツファイル分析結果に相当する内容が格納される。図4のデータ例では、コンテンツファイルにより構成されるコンテンツの背景色が全体的に明るいと分析した場合、話者口調選択部133は1行目のデータを選択する。
「音声合成時に用いる話者と口調」列には、「選択用パラメータ」列の値に対応付けられる話者名称と口調種別が格納される。図4のデータ例では、コンテンツの背景色が全体的に明るい場合は、「話者A」「楽しい口調」で音声合成を行うべきことが分かる。
以上が、本実施の形態1に係る音声合成サーバシステム100の構成である。
次に、音声合成サーバシステム100の具体的な動作について、特に特徴抽出部132の動作を中心に説明する。
図5は、コンテンツ保管フォルダ141が格納しているコンテンツファイルの1例を示すものである。ここでは、HTMLソースファイルを例に説明する。
特徴抽出部132は、図3のステップ(2)で、図5に示すような内容のHTMLファイルを取得し、ステップ(3)でその内容を分析する。なお、分析に先立ち、以下の前提条件を仮定する。
(1)文字部分がHTMLページ中に占める面積は、全体の0.4%(固定)であるものと仮定する。
(2)画面サイズは1280×1024ピクセルである。
(3)文字の規定サイズは24ポイント、フォント色は黒である。
図6は、図5の<head>タグ部分で読み込んでいるスタイルシート「style.css」のソースコードを示すものである。
図6に示すソースコードによれば、属性「background−color」で以下のように指定されていることが分かる。
(1)タグ<BODY>部分の背景色は白
(2)タグ<H2>部分の背景色は青
(3)タグ<H4>部分の背景色は赤
なお、説明を簡単にするため、「padding」「margin−top」「margin−bottom」属性は無視する。
図7は、図5と図6で説明した各ファイルにより構成されるwebページの画面イメージを示すものである。以下、要素毎に説明する。
(1)<BODY>タグの背景色指定により、全体の背景色は白色になっている。
(2)<H2>タグの背景色指定と、規定の文字サイズ24ポイントにより、高さ24ピクセルの青色帯が配置される。
(3)<H4>タグの背景色指定と、規定の文字サイズ24ポイントにより、高さ24ピクセルの赤色帯が配置される。
(4)<ul>タグ配下の「青い青い青い1」「青い青い青い2」などの文字列は、上述の前提条件により、全体の0.4%を占め、黒色で描画されるものとする。
特徴抽出部132は、HTMLソース(図5)とスタイルシート(図6)から以上の情報を読み取り、以下のように分析を行う。なお、白色と赤色は「明るい色」、黒色と青色は「暗い色」として取り扱う。
(1)まず、特徴抽出部132は、画面イメージ全体に占める各色の割合を算出する。
(青色の割合)=24(px)/1024(px)×100=2.3%
(赤色の割合)=24(px)/1024(px)×100=2.3%
(黒色の割合)=0.4%(固定)
(白色の割合)=100−2.3−2.3ー0.4=95%
(2)次に、明るい色と暗い色の割合を算出する。
(明るい色)=2.3+95=97.3%
(暗い色) =2.3+0.4=2.7%
(3)以上の計算により、図5と図6のファイルで生成されるwebページの明るさの度合い「明るい色=97.3%」が算出できる。
(4)特徴抽出部132は、算出した値を話者口調選択部133に引き渡す。
話者口調選択部133は、特徴抽出部132より受け取った値を用いて話者口調テーブル134を検索し、該当するデータを取得する。図4のデータ例では、「明るい色=97.3%」は1行目のデータに該当するため、「話者A」「楽しい口調」が選択され、合成音声出力部136に出力される。
合成音声出力部136は、「話者A」「楽しい口調」に対応する音声を合成して、クライアント端末110に送信する。
ここまで説明した処理を実行することにより、音声合成サーバシステム100は、webコンテンツの色彩上の明るさという人間の感性上のパラメータを合成音声に反映することが可能となる。
なお、図2において、クライアント端末110は音声合成サーバ130に直接リクエストを発行するように記載したが、これに限られるものではない。
例えば、合成音声の配信アドレスを記載したメタファイルをHTTPでWebサーバ120からクライアント端末110に配信し、クライアント端末110はその配信アドレスを読み込んで音声合成サーバ130にリクエストを発行するようにしてもよい。
その他、Webサーバ120と音声合成サーバ130の間でリクエストを相互に転送する方式も考えられる。
以下の実施の形態においても同様である。
以上のように、本実施の形態1によれば、例えば特定のカテゴリのWebサイトにおいて、そのサイトの明るさの雰囲気に合った合成音声を生成することが可能となるので、よりユーザの感性に訴えかける合成音声をユーザへ配信することができる。
これにより、Webコンテンツ自体の表現力との相乗効果で、合成音声の表現力の幅が広がり、ユーザの感性に効果的に訴える合成音声を生成することが可能となる。
実施の形態2.
実施の形態1では、コンテンツの特徴を、HTMLソースファイルなどから算出される色彩上の明るさで分析する例について説明した。
本発明の実施の形態2に係る音声合成サーバシステムでは、同じくHTMLソースファイルなどから算出される画像配置パターンで、コンテンツの特徴を分析する例について説明する。
図8は、本実施の形態2における話者口調テーブル134の構成とデータ例を示すものである。
図8において、列構成は実施の形態1で説明した図4と同様であるが、3行目〜5行目のデータ内容が異なる。これらの行のデータ内容が表す意味について、次の図9を用いながら説明する。
図9は、コンテンツ保管フォルダ141が格納しているHTMLソースファイルの1例を示すものである。
ここでは、<img>タグの内容に注目する。図9のHTMLソースコード中で3つ存在する<img>タグそれぞれの「align」属性は、「left」「center」「left」となっている。これは、3つの画像のうち2つの配置が左寄りであることを示しており、全体的に画像配置が左寄りであることが分かる。
この場合、特徴抽出部132は、2/3=66.6%の画像配置が左よりであると分析する。
話者口調選択部133は、この分析結果に基づき話者口調テーブル134を検索する。図8のデータ例では、「画像配置左寄り=66.6%」は4行目のデータに該当するため、「話者A」「残念そうな口調」が選択され、合成音声出力部136に出力される。
合成音声出力部136は、「話者A」「残念そうな口調」に対応する音声を合成して、クライアント端末110に送信する。
なお、画像配置を分析する際に、画像サイズを考慮に入れてもよい。
例えば、図9のHTMLソースコードでは、3番目の画像「C.jpg」のサイズが他の2つと比較して極端に大きく、全体に占める割合も相対的に大きくなる。
画像配置を割合を計算する際に、その画像の画面全体に示す割合を乗算するなどの補正を行うことにより、画像サイズを考慮した分析が可能である。
また、画像が画面全体中で占める面積の割合を算出し、その割合に応じて話者と口調選択するように構成することもできる。
なお、上記では<img>タグの「align」属性を例に取り説明したが、例えば<table>タグの「align」属性を考慮する、などとしてもよい。その他のタグについても同様である。
本実施の形態2で説明した、画像配置パターンに基づいて話者と口調を決定する構成は、実施の形態1と併用してもよいし、単独で用いてもよい。
実施の形態1、2を併用する場合、明るさと画像配置パターンのいずれを優先的に適用するかなどのルールは、任意に定めることができる。
以上のように、本実施の形態2によれば、画像の配置パターンに応じて合成音声の話者と口調を設定することができる。
画像の配置パターンは、コンテンツ閲覧時の印象に大きな影響を与えるため、ユーザが受け取る印象に占める割合も大きく、したがってこれに応じた合成音声を生成することでユーザの感性により訴えかけることが可能である。
実施の形態3.
実施の形態1〜2では、コンテンツファイルの内容を分析して合成音声に反映する構成を説明した。
本発明の実施の形態3では、入力テキストの内容を合成音声の話者と口調の選択に反映することのできる、音声合成サーバシステム100の構成を説明する。
図10は、本実施の形態3における音声合成サーバ130の詳細構成を説明するものである。
音声合成サーバ130は、キーワードテーブル137を備える。その他の構成は実施の形態1〜2と同様であるため、同じ符号を付して説明は省略する。
キーワードテーブル137には、音声合成サーバ130の管理者等があらかじめ設定した1ないし複数のキーワードのリストが格納されている(図示せず)。
図11は、本実施の形態3における話者口調テーブル134の構成とデータ例を示すものである。
図11の話者口調テーブル134は、実施の形態2で説明した図8と比較し、6行目〜7行目のデータ内容が新たに追加されている点が異なる。これらの行のデータ内容が表す意味について、次に説明する。
特徴抽出部132は、テキスト入力部131が読み上げテキストの内容を受け取ると、キーワードテーブル137を検索し、そのテキスト中に、キーワードテーブル137が保持しているキーワードが何個存在するかをカウントする。
話者口調選択部133は、そのカウント結果を受け取り、話者口調テーブル134を検索する。図11のデータ例では、7行目のデータにより、「キーワードの出現数が5回より多い」場合には、「話者E」「メッセージ口調」で音声合成をするべきことが分かる。
カウント結果が5回以下である場合には、コンテンツファイルの分析結果により話者と口調を定めればよい。
なお、コンテンツファイルの分析結果とキーワードのカウント数のいずれを優先するかなどのルールは、任意に定めることができる。
また、上述の例ではキーワードのカウント数を例に説明したが、これに限られるものではなく、例えば、ある特定のキーワードが入力テキストに含まれれば、無条件に話者と口調を決定することとしてもよい。即ち、キーワードと話者・口調のセットとの関係を特定することができれば、必ずしもキーワードのカウント数のみを基準とする必要はない。
その他、入力テキストの内容を合成音声に反映する方法としては、入力テキストの文字数に応じて話者・口調を決定することが考えられる。
例えば、入力テキストの文字数が100文字以上であった場合は、図11のデータ例における6行目のデータに該当するので、「話者D」「楽しい口調」で音声合成をすべきことが分かる。
コンテンツファイルの分析結果、キーワードの個数、入力テキストの文字数、の中で、いずれを優先的に適用するかなどのルールは、任意に定めることができる。
以上のように、本実施の形態3によれば、入力テキストの内容を単に音声読み上げするのみならず、その内容に応じて話者と口調を設定することができる。
これにより、例えば音声合成サーバシステム100の提供者にとって好ましいキーワードを含む入力テキストを送信した場合には、ユーザが強く欲するような話者・口調で音声合成を行い、好ましくないキーワードを含む入力テキストを送信した場合には、ユーザにとってあまり聴取意欲の沸かない話者・口調で音声合成をする、といったことが可能になる。
こうした、入力テキストの内容に応じた音声合成を行う機能を備えることは、音声合成サーバシステム100の提供者側で合成音声をある程度コントロールできることにもなるため、事業的な観点からも好ましい機能である。
実施の形態4.
本発明の実施の形態4では、合成音声をリクエストするユーザを識別して、ユーザ毎に異なる合成音声の話者と口調を設定することのできる音声合成サーバシステムの構成を説明する。
図12は、本実施の形態4に係る音声合成サーバシステム100の構成を説明するものである。
図12において、ネットワークストレージ140は、ユーザテーブル142を格納している。ユーザテーブル142の構成は次の図13で説明する。
なお、ユーザテーブル142は、Webサーバ120内に格納するように構成してもよいし、音声合成サーバ130内に格納するように構成してもよい。ここでは、システム実装の便宜上、ネットワークストレージ140に格納しているものとして、以下の説明を行う。
図13は、ユーザテーブル142の構成とデータ例を示すものである。
ユーザテーブル142は、「ユーザID」列、「パスワード」列、「ポイント」列、「セッションID」列を有する。
「ユーザID」列には、ユーザ毎に固有に割り当てられ、個々のユーザを識別するためのIDが格納される。
「パスワード」列には、「ユーザID」列の値で特定されるユーザを認証するためのパスワードが格納される。
「ポイント」列には、「ユーザID」列の値で特定されるユーザが現在保有しているポイント情報が格納される。
「セッションID」列には、認証後のユーザに割り当てられる一意の識別文字列が格納される。本列の値は、認証を行っていない(音声合成サーバシステム100にログインしていない)ユーザに関しては空となっている。
図14は、本実施の形態4における話者口調テーブル134の構成とデータ例を示すものである。
図14の話者口調テーブル134は、実施の形態3で説明した図11と比較し、8行目のデータ内容が新たに追加されている点が異なる。この行のデータ内容が表す意味について、次の図15を用いて説明する。
図15は、図12の音声合成サーバシステム100の利用シーン概略を説明するものである。図2と同様に、クライアント端末110がWebコンテンツをリクエストする場合と合成音声をリクエストする場合に分けて説明する。
1.Webコンテンツをリクエストする場合
(1)クライアント端末110は、Webサーバ120にログイン要求を送信する。このとき、ユーザIDとパスワードを併せて送信する。
(2)Webサーバ120は、クライアント端末110から受け取ったユーザIDとパスワードをキーにしてユーザテーブル142を検索する。
該当するデータがあれば、その行の「セッションID」列に一意の識別文字列を格納する。該当するデータがなければ、その旨をクライアント端末110に返信する。
(3)Webサーバ120は、クライアント端末110に、上記の識別文字列を送信する。クライアント端末110は、識別文字列を受け取ることにより、ユーザが正しく認証されたことが分かる。
(4)クライアント端末110は、Webサーバ120にHTTPリクエストを発行し、コンテンツファイルの送信を要求する。このとき、ステップ(3)で受け取った識別文字列を併せて送信する。
(5)〜(6)の処理内容は、図2の1.(2)〜(3)の処理内容と同様であるため、説明を省略する。
2.合成音声をリクエストする場合
(1)クライアント端末110は、音声合成サーバ130に対し、合成音声のリクエストを発行する。このときクライアント端末110は、合成音声で読み上げてほしいテキストの内容と、1.(3)で受け取った識別文字列とを、併せて送信する。通信プロトコルは、音声合成サーバ130の実装に合わせて適切なものを用いる。
(2)音声合成サーバ130は、ネットワークストレージ140にアクセスし、コンテンツファイルをコンテンツ保管フォルダ141から取得する。
(3)音声合成サーバ130は、1.(3)で受け取った識別文字列をキーにしてユーザテーブルを検索し、該当ユーザの「ポイント」列の値を取得する。
(4)音声合成サーバ130は、コンテンツ保管フォルダ141から取得したコンテンツファイルの内容を分析する。
(5)音声合成サーバ130は、コンテンツファイルの分析結果と、ステップ(3)で取得した「ポイント」列の値を用いて、音声合成を実行する。詳細は後述する。
(6)音声合成サーバ130は、合成した音声をクライアント端末110に送信する。
なお、ユーザ認証を実行する前にクライアント端末110が音声合成サーバ130へリクエストを発行した場合は、2.(1)の前に1.(1)〜(3)の処理を実行する。
次に、音声合成処理の詳細について説明する。
図15の2.(5)において、話者口調選択部133は、話者口調テーブル134を参照し、ユーザのポイントに関する情報を検索する。図14のデータ例では、8行目のデータにより、「ポイント」列の値が300より大きいユーザへ合成音声を送信する際には、「話者A」「楽しい口調」で音声合成をすべきことが分かる。
なお、「ポイント」列の値と、実施の形態1〜3で説明した、コンテンツファイルの分析結果やキーワードの個数などの中で、いずれを優先適用すべきかなどのルールは、任意に定めることができる。
本実施の形態4において、「ポイント」列の値がいかにしてセットされるかは、例えば以下のようにすることができる。
(1)他のパーソナライズドサービスのユーザポイント情報を転用する。
(2)音声合成サーバシステム100内で独自に定める。この場合は、例えばログイン回数が多いユーザに多くのポイントを割り当てるなど、音声合成サーバシステム100内で閉じた情報を用いてポイントを決定するとよい。
以上のように、本実施の形態4によれば、個々のユーザを識別し、ユーザ毎に話者・口調を設定することができるので、個々のユーザの要求にきめ細かく対応するパーソナライズド音声合成サービスの提供が可能となる。
これにより、音声合成サーバシステム100の提供者は、高いポイントを取得してより高品質の合成音声を得るように、ユーザへ動機付けをすることができる。このようなユーザへの動機付けは、様々な事業機会の拡大につながり、事業者にとっての経済的なメリットもある。
実施の形態5.
実施の形態1〜4では、合成音声の話者と口調に差異を設けた構成を説明した。
本発明の実施の形態5に係る音声合成システムでは、音声合成の基となる音声DB135の品質に差異を設けた構成を説明する。
一般にユーザの心理として、より高品質な合成音声を所望する傾向がある。
そこで、本実施の形態5の構成を用いることにより、ユーザの行動パターンを、より高品質な合成音声が得られるような行動パターンへ向けて方向付けることができる。
以下、具体的な構成を説明する。
本実施の形態5において、音声DB135は、同じ話者・口調に対応したものであっても、あらかじめ複数の品質レベルで構築されている。
例えば、「話者A」「楽しい口調」の合成音声を生成するための音声DBとして、「高品質」「中品質」「低品質」の3つが存在する、というようなことである。いずれの品質レベルの音声DBを用いても、「話者A」「楽しい口調」の合成音声を生成できるが、その合成音声の品質に差異が生じる。
なお、音声DB135の品質の尺度には、収録環境、収録原稿、話者、合成処理時間といった様々な観点があるが、ここでは音声DBの収録音声時間が長いほど品質が良いものとして以下の説明を行う。
図16は、本実施の形態5における話者口調テーブル134の構成とデータ例を示すものである。
本実施の形態5では、話者口調テーブル134は、実施の形態1〜4と同様の「選択用パラメータ」列、「音声合成時に用いる話者と口調」列に加えて、新たに「音声DBの品質レベル」列を有する。
「音声DBの品質レベル」列には、合成音声出力部136が音声合成を行う際に用いる音声DB135の品質レベルを表す値が格納される。図16のデータ例では、2行目のデータにより、「明るい背景色の割合が60〜70%」の場合は「話者A」「楽しい口調」に対応した音声DB135のうち中程度の品質レベルのものを用いるべきことが分かる。
また、1行目のデータによれば、同じ「話者A」「楽しい口調」でも、「明るい背景色の割合が70%以上」の場合は音声DB135のうち(収録音声時間が最も長い)最高品質のものを用いるべきことが分かる。
なお、本実施の形態5における「推奨品質レベルデータ」は、「音声DBの品質レベル」列の値がこれに相当する。
また、図16では、実施の形態1の図4と同様の行データを用いて説明したが、その他の実施の形態における話者口調テーブル134の行データと同様の値も用いる場合も、処理内容は同様である。
以上のように、本実施の形態5によれば、話者と口調に加えて、音声合成の基となる音声DB135の品質レベルも個別に設定可能としたので、定量的な観点から合成音声の品質をユーザ毎に差別化するなどの機能を実現することができる。
なお、以上説明した実施の形態1〜5では、コンテンツ保管フォルダ141が格納しているコンテンツファイルとしてHTMLファイルを例にとり説明したが、音声合成を行う際に分析対象となるコンテンツファイルは、これに限られるものではない。
例えば、特徴抽出部132は、画像ファイルを読み込んでその色彩パターンを分析したり、画像中の文字部分をパターン認識して文字部分の面積比を算出したりすることもできる。いずれの分析対象ファイルにいずれの分析方法を用いる場合であっても、その分析結果に対応した話者口調テーブル134のエントリがあればよい。
また、音声合成サーバ130がコンテンツファイルに直接アクセスできない場合であっても、そのコンテンツファイルを置いているネットワーク上のアドレス(URL等)をクライアント端末110から音声合成サーバ130に送信し、音声合成サーバ130がそのアドレスにアクセスしてコンテンツファイルを取得するように構成してもよい。
また、以上の実施の形態1〜5では、コンテンツ保管フォルダ141に保管しているファイルの数や種類については詳しく言及していないが、仮に同フォルダに多数多種類のコンテンツファイルが存在している場合、特徴抽出部132はいずれのファイルを読み込んで分析すべきか、という実装上の問題がある。
この解決法としては、例えば全てのコンテンツファイルを読み込んで平均値を取る、あらかじめ定められた名称のファイルのみを分析対象とする、といった方法が考えられる。
実施の形態6.
実施の形態1〜5では、コンテンツファイルの内容分析など、主として音声合成サーバシステム100側で備えている要素を音声合成に利用する構成を説明した。
本発明の実施の形態6に係る音声合成サーバシステムでは、クライアント端末110側の環境を利用して音声合成を行うことのできる構成を説明する。
図17は、本実施の形態6に係る音声合成サーバシステム100の利用シーン概略を説明するものである。
概ね実施の形態1で説明した図2と同様であるが、クライアント端末110が音量センサ111を備えている点が異なる。また、クライアント端末110は、2.(1)で合成音声をリクエストする際に、音量センサ111の検出値を併せて送信する点も、図2と異なっている。
音声合成サーバ130は、クライアント端末110が送信した読み上げテキストの内容とともに音量センサ111の検出値を受け取り、これらの値を用いて音声合成を行う。次の図18を用いて、具体的な処理内容を説明する。
図18は、本実施の形態6における話者口調テーブル134の構成とデータ例を示すものである。
話者口調テーブル134の列構成は、実施の形態5で説明した図16と同様である。
同図の3行目のデータには、「音量センサ111の検出値が80dB以上」の場合、「話者E」「賑やかな口調」に対応する音声合成を行うべきことが分かる。音声合成処理の詳細は実施の形態1〜5と同様であるため、説明を省略する。
以上の処理を実行することにより、音声合成サーバシステム100は、クライアント端末110側の環境を、合成音声に反映することができる。
なお、本実施の形態6において、クライアント端末110が備えるセンサの例として音量センサを説明したが、これ以外の物理量を検出するセンサ(例えば匂いセンサ)を備える場合であっても、同様に話者口調テーブル134に対応するデータを格納しておくことにより、本実施の形態6と同様の効果を奏する。
以上のように、本実施の形態6によれば、クライアント端末110側の環境を検出するセンサの検出値を合成音声に反映することができるので、クライアント端末110を操作するユーザにとって臨場感のある音声合成を行うことができる。
実施の形態1に係る音声合成サーバシステム100のサーバ構成を表すものである。 図1の音声合成サーバシステム100の利用シーン概略を説明するものである。 音声合成サーバ130の詳細構成を説明するものである。 話者口調テーブル134の構成とデータ例を示すものである。 コンテンツ保管フォルダ141が格納しているコンテンツファイルの1例を示すものである。 図5の<head>タグ部分で読み込んでいるスタイルシート「style.css」のソースコードを示すものである。 図5と図6で説明した各ファイルにより構成されるwebページの画面イメージを示すものである。 実施の形態2における話者口調テーブル134の構成とデータ例を示すものである。 コンテンツ保管フォルダ141が格納しているHTMLソースファイルの1例を示すものである。 実施の形態3における音声合成サーバ130の詳細構成を説明するものである。 実施の形態3における話者口調テーブル134の構成とデータ例を示すものである。 実施の形態4に係る音声合成サーバシステム100の構成を説明するものである。 ユーザテーブル142の構成とデータ例を示すものである。 実施の形態4における話者口調テーブル134の構成とデータ例を示すものである。 図12の音声合成サーバシステム100の利用シーン概略を説明するものである。 実施の形態5における話者口調テーブル134の構成とデータ例を示すものである。 実施の形態6に係る音声合成サーバシステム100の利用シーン概略を説明するものである。 実施の形態6における話者口調テーブル134の構成とデータ例を示すものである。
符号の説明
100 音声合成サーバシステム、110 クライアント端末、111 音量センサ、120 Webサーバ、130 音声合成サーバ、131 テキスト入力部、132 特徴抽出部、133 話者口調選択部、134 話者口調テーブル、135 音声DB、136 合成音声出力部、137 キーワードテーブル、140 ネットワークストレージ、141 コンテンツ保管フォルダ、142 ユーザテーブル。

Claims (7)

  1. クライアント端末が送信した入力テキストの内容に応じた合成音声を出力する音声合成サーバと、
    前記クライアント端末のリクエストに応じて出力するコンテンツファイルを格納したコンテンツサーバと、
    を有する音声合成サーバシステムであって、
    前記音声合成サーバは、
    前記コンテンツファイルを読み込んで、そのコンテンツの色彩上の明暗度合いを所定の演算規則に従って算出する特徴抽出部と、
    前記特徴抽出部が算出した明暗度合いに対応した特徴を持つ合成音声を前記入力テキストの内容に応じて出力する合成音声出力部と、
    を備えたことを特徴とする音声合成サーバシステム。
  2. 前記音声合成サーバは、
    合成音声の基となる話者名称と口調種別のセットを1ないし複数保持する話者口調テーブルを備え、
    前記話者口調テーブルは、
    前記セットと前記明暗度合いの閾値とを対応付けるデータをさらに保持しており、
    前記合成音声出力部は、
    音声を合成する際に、前記話者口調テーブルを参照し、前記明暗度合いに対応付けられた話者と口調を用いて音声を合成する
    ことを特徴とする請求項1に記載の音声合成サーバシステム。
  3. 前記特徴抽出部は、
    前記コンテンツファイルを読み込んで、そのコンテンツの画像配置パターンを所定の演算規則に従って算出し、
    前記話者口調テーブルは、
    前記セットと前記画像配置パターンを対応付けるデータを保持しており、
    前記合成音声出力部は、
    音声を合成する際に、前記話者口調テーブルを参照し、前記画像配置パターンに対応付けられた話者と口調を用いて音声を合成する
    ことを特徴とする請求項2に記載の音声合成サーバシステム。
  4. 前記音声合成サーバは、
    所定のキーワードを1ないし複数保持するキーワードテーブルを備え、
    前記話者口調テーブルは、
    前記セットと前記キーワードを対応付けるデータを保持しており、
    前記合成音声出力部は、
    音声を合成する際に、前記話者口調テーブルを参照し、前記キーワードに対応付けられた話者と口調を用いて音声を合成する
    ことを特徴とする請求項2又は請求項3のいずれかに記載の音声合成サーバシステム。
  5. 前記コンテンツサーバは、
    ユーザの認証情報と、そのユーザに対応付けられたポイント情報とを保持するユーザテーブルを備え、
    前記話者口調テーブルは、
    前記セットと前記ポイント情報を対応付けるデータを保持しており、
    前記コンテンツサーバは、
    認証リクエストとユーザの認証情報を前記クライアント端末から受信し、所定のユーザ認証処理を行った上で、アクセスを許可する旨の情報を前記クライアント端末に返信し、
    前記合成音声出力部は、
    前記入力テキストと前記アクセスを許可する旨の情報を前記クライアント端末から受信し、前記アクセスを許可する旨の情報を基に前記ユーザテーブルを検索してそのユーザのポイント情報を取得し、
    さらに前記話者口調テーブルを参照し、前記ポイント情報に対応付けられた話者と口調を用いて音声を合成する
    ことを特徴とする請求項2ないし請求項4のいずれかに記載の音声合成サーバシステム。
  6. 前記音声合成サーバは、
    前記合成音声出力部が音声合成を行う際に用いる音声データベースを備え、
    前記音声データベースは、
    合成音声の話者名称と口調種別のセット毎に、複数の品質レベルで構築されており、
    前記話者口調テーブルは、
    前記セット毎に、前記音声データベースのいずれの品質レベルを用いるべきかを示す推奨品質レベルデータを保持しており、
    前記合成音声出力部は、
    音声を合成する際に、前記話者口調テーブルを参照し、前記推奨品質レベルデータが示す品質レベルの音声データベースを用いて音声を合成する
    ことを特徴とする請求項2ないし請求項5のいずれかに記載の音声合成サーバシステム。
  7. 前記話者口調テーブルは、
    前記セットと、周辺環境の物理量のセンサ検出値を対応付けるデータを保持しており、
    前記合成音声出力部は、
    前記入力テキストと、前記物理量のセンサ検出値とを、前記クライアント端末から受信すると、
    前記話者口調テーブルを参照し、前記センサ検出値に対応付けられた話者と口調を用いて音声を合成する
    ことを特徴とする請求項2ないし請求項6のいずれかに記載の音声合成サーバシステム。
JP2006315860A 2006-11-22 2006-11-22 音声合成サーバシステム Pending JP2008129434A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006315860A JP2008129434A (ja) 2006-11-22 2006-11-22 音声合成サーバシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006315860A JP2008129434A (ja) 2006-11-22 2006-11-22 音声合成サーバシステム

Publications (1)

Publication Number Publication Date
JP2008129434A true JP2008129434A (ja) 2008-06-05

Family

ID=39555276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006315860A Pending JP2008129434A (ja) 2006-11-22 2006-11-22 音声合成サーバシステム

Country Status (1)

Country Link
JP (1) JP2008129434A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012155085A (ja) * 2011-01-25 2012-08-16 Yamaha Corp 楽音合成装置およびプログラム
WO2012173582A1 (en) 2011-06-17 2012-12-20 Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayii Ve Ticaret Anonim Sirketi Using speech synthesis for language training with picture synchronization
CN104050962A (zh) * 2013-03-16 2014-09-17 李军 基于语音合成技术的多功能阅读器
JP2016105210A (ja) * 2016-03-04 2016-06-09 株式会社東芝 読み記号列編集装置および読み記号列編集方法
JP2017116710A (ja) * 2015-12-24 2017-06-29 大日本印刷株式会社 音声配信システムおよび文書配信システム
JP2017531197A (ja) * 2014-08-06 2017-10-19 エルジー・ケム・リミテッド 文字データの内容を文字データ送信者の音声で出力する方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877152A (ja) * 1994-08-31 1996-03-22 Oki Electric Ind Co Ltd 音声合成装置
JPH08179789A (ja) * 1994-12-26 1996-07-12 Sharp Corp 音声情報表示装置
JP2001075581A (ja) * 1999-09-01 2001-03-23 Sharp Corp 電子漫画製造装置および電子漫画出力装置
JP2003223178A (ja) * 2002-01-30 2003-08-08 Nippon Telegr & Teleph Corp <Ntt> 電子歌唱カード生成方法、受信方法、装置及びプログラム
JP2005062420A (ja) * 2003-08-11 2005-03-10 Nec Corp コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム
JP2005257747A (ja) * 2004-03-09 2005-09-22 Nec Corp 音声合成装置、声質生成装置及びプログラム
JP2007041960A (ja) * 2005-08-04 2007-02-15 Ricoh Co Ltd 機器操作装置、画像形成装置、機器操作方法、および機器操作プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877152A (ja) * 1994-08-31 1996-03-22 Oki Electric Ind Co Ltd 音声合成装置
JPH08179789A (ja) * 1994-12-26 1996-07-12 Sharp Corp 音声情報表示装置
JP2001075581A (ja) * 1999-09-01 2001-03-23 Sharp Corp 電子漫画製造装置および電子漫画出力装置
JP2003223178A (ja) * 2002-01-30 2003-08-08 Nippon Telegr & Teleph Corp <Ntt> 電子歌唱カード生成方法、受信方法、装置及びプログラム
JP2005062420A (ja) * 2003-08-11 2005-03-10 Nec Corp コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム
JP2005257747A (ja) * 2004-03-09 2005-09-22 Nec Corp 音声合成装置、声質生成装置及びプログラム
JP2007041960A (ja) * 2005-08-04 2007-02-15 Ricoh Co Ltd 機器操作装置、画像形成装置、機器操作方法、および機器操作プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012155085A (ja) * 2011-01-25 2012-08-16 Yamaha Corp 楽音合成装置およびプログラム
WO2012173582A1 (en) 2011-06-17 2012-12-20 Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayii Ve Ticaret Anonim Sirketi Using speech synthesis for language training with picture synchronization
CN104050962A (zh) * 2013-03-16 2014-09-17 李军 基于语音合成技术的多功能阅读器
JP2017531197A (ja) * 2014-08-06 2017-10-19 エルジー・ケム・リミテッド 文字データの内容を文字データ送信者の音声で出力する方法
JP2017116710A (ja) * 2015-12-24 2017-06-29 大日本印刷株式会社 音声配信システムおよび文書配信システム
JP2016105210A (ja) * 2016-03-04 2016-06-09 株式会社東芝 読み記号列編集装置および読み記号列編集方法

Similar Documents

Publication Publication Date Title
JP2002304419A5 (ja)
JP4935658B2 (ja) ブラウザプログラムおよび情報処理装置
JP2007011733A (ja) アジアウェブフォント文書の作成方法、装置及びシステム
JP4753755B2 (ja) データ変換方法、装置及びプログラム
JP2002108870A (ja) 情報処理システムおよび情報処理方法
JP2008129434A (ja) 音声合成サーバシステム
JP2010538386A (ja) クエリ別検索コレクション生成方法およびシステム
US20050178821A1 (en) Manual providing apparatus, multi function printer, server, electronic manual presentation method, and computer program
JP2002259283A (ja) データ提供装置及びデータ提供方法並びにプログラム
JP2011028747A (ja) サーチ・タームを生成するシステムと方法
US20120005564A1 (en) Content distribution system and method
KR100798465B1 (ko) 출판용 학습자료를 문제풀이가 가능한 포맷으로 변환하는학습데이터생성시스템 및 그 생성방법
CN105760501A (zh) 一种文档格式转换方法及装置
CN112860642A (zh) 一种庭审数据处理方法、服务器及终端
JP2011227767A (ja) 情報処理装置および情報処理方法
JP6603925B1 (ja) 動画編集サーバおよびプログラム
JP5524950B2 (ja) メタデータ生成管理装置、メタデータ生成システム、メタデータ生成管理用集積回路、メタデータ生成管理方法、及びプログラム
KR100823265B1 (ko) 모바일 디바이스에서 XHTML-Print 문서를전송하는 방법 및 장치
KR100850021B1 (ko) 웹문서 스타일 변경 시스템 및 방법
JP2011113460A (ja) 情報提供システム
KR102020341B1 (ko) 악보 구현 및 음원 재생 시스템 및 그 방법
JP4519081B2 (ja) ドキュメント変換装置、およびプログラム
JP4804591B2 (ja) データ変換方法、装置及びプログラム
JP5096997B2 (ja) 類似配色生成装置、類似配色生成方法、類似配色生成プログラム
JP2004139210A (ja) 画像検索装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090416

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110419

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111122