JP2008129434A - 音声合成サーバシステム - Google Patents
音声合成サーバシステム Download PDFInfo
- Publication number
- JP2008129434A JP2008129434A JP2006315860A JP2006315860A JP2008129434A JP 2008129434 A JP2008129434 A JP 2008129434A JP 2006315860 A JP2006315860 A JP 2006315860A JP 2006315860 A JP2006315860 A JP 2006315860A JP 2008129434 A JP2008129434 A JP 2008129434A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- speech
- speech synthesis
- tone
- synthesized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
Abstract
【解決手段】クライアント端末110が送信した入力テキストの内容に応じた合成音声を出力する音声合成サーバ130と、クライアント端末110のリクエストに応じて出力するコンテンツファイルを格納したWebサーバ120と、を有する音声合成サーバシステムであって、音声合成サーバ130は、コンテンツファイルを読み込んで、そのコンテンツの色彩上の明暗度合いを所定の演算規則に従って算出する特徴抽出部132と、特徴抽出部132が算出した明暗度合いに対応した特徴を持つ合成音声を入力テキストの内容に応じて出力する合成音声出力部と、を備えたことを特徴とする。
【選択図】図2
Description
そのため、「雰囲気」を反映した合成音声を出力することのできる音声合成サーバシステムが望まれていた。
クライアント端末が送信した入力テキストの内容に応じた合成音声を出力する音声合成サーバと、
前記クライアント端末のリクエストに応じて出力するコンテンツファイルを格納したコンテンツサーバと、
を有する音声合成サーバシステムであって、
前記音声合成サーバは、
前記コンテンツファイルを読み込んで、そのコンテンツの色彩上の明暗度合いを所定の演算規則に従って算出する特徴抽出部と、
前記特徴抽出部が算出した明暗度合いに対応した特徴を持つ合成音声を前記入力テキストの内容に応じて出力する合成音声出力部と、
を備えたことを特徴とするものである。
図1は、本発明の実施の形態1に係る音声合成サーバシステムのサーバ構成を表すものである。
音声合成サーバシステム100は、本実施の形態1に係る音声合成サーバシステムであり、Webサーバ120、音声合成サーバ130、ネットワークストレージ140を有している。
Webサーバ120、音声合成サーバ130、ネットワークストレージ140は、それぞれ同一のLAN(Local Area Network)内に接続されており、Webサーバ120と音声合成サーバ130は、ネットワークストレージ140に直接アクセス可能であるものとする。
ネットワークストレージ140内には、コンテンツ保管フォルダ141が構成されている。コンテンツ保管フォルダ141は、HTML(Hyper Text Markup Language)ファイルや画像ファイル、CSS(Cascading Style Sheet)ファイル等の、Webページを構成するファイル群(以下、「コンテンツファイル」と略す場合もある)が格納されている。
Webサーバ120は、HTTP(Hyper Text Transfer Protocol)サーバとしての機能を備え、HTTPクライアントのリクエストを受け取ると、リクエストされたコンテンツファイルをコンテンツ保管フォルダ141から読み込んで、HTTPクライアントに送信する。
音声合成サーバ130は、クライアントから音声合成リクエストを受け取ると、そのリクエストの際に送信されたテキストの内容を読み上げる合成音声を、後述の音声DB135を用いて生成し、クライアントに送信する。
また、ネットワークストレージ140は、LANインターフェースを備える大容量記憶装置であり、例えばNAS(Network Attached Storage)装置で実現することができる。
(1)クライアント端末110は、Webサーバ120にHTTPリクエストを発行し、コンテンツファイルの送信を要求する。
(2)Webサーバ120は、ネットワークストレージ140にアクセスし、クライアント端末110がリクエストしたコンテンツファイルをコンテンツ保管フォルダ141から取得する。
(3)Webサーバ120は、コンテンツ保管フォルダ141から取得したコンテンツファイルを、HTTP応答としてクライアント端末110に送信する。
(1)クライアント端末110は、音声合成サーバ130に対し、合成音声のリクエストを発行する。このときクライアント端末110は、合成音声で読み上げてほしいテキストの内容を併せて送信する。通信プロトコルは、音声合成サーバ130の実装に合わせて適切なものを用いる。
(2)音声合成サーバ130は、ネットワークストレージ140にアクセスし、コンテンツファイルをコンテンツ保管フォルダ141から取得する。
(3)音声合成サーバ130は、コンテンツ保管フォルダ141から取得したコンテンツファイルの内容を分析する。
(4)音声合成サーバ130は、コンテンツファイルの分析結果を用いて、音声合成を実行する。
(5)音声合成サーバ130は、合成した音声をクライアント端末110に送信する。
音声合成サーバ130は、テキスト入力部131、特徴抽出部132、話者口調選択部133、話者口調テーブル134、音声DB135、合成音声出力部136を備える。
テキスト入力部131は、クライアント端末110が合成音声のリクエストを発行する際に同時に送信する読み上げテキストの内容を受け取る。
特徴抽出部132は、テキスト入力部131が読み上げテキストの内容を受け取ると、ネットワークストレージ140にアクセスし、コンテンツファイルをコンテンツ保管フォルダ141から取得する。次に、そのコンテンツファイルの内容を分析し、分析結果を話者口調選択部133に出力する。分析処理の内容は、コンテンツファイルの具体例とともに後述の図5〜図7で説明する。
話者口調選択部133は、特徴抽出部132によるコンテンツファイルの分析結果を基に、話者口調テーブル134より対応する話者名称と口調種別のセットを取得し、合成音声出力部136に出力する。詳細は、話者口調テーブル134の具体的な構成とともに後述の図4で説明する。
話者口調テーブル134は、合成音声の基となる話者名称と口調種別のセットを1ないし複数保持している。
音声DB135は、音声合成に必要な種々のデータを格納している。例えばコーパスベースの音声合成を行う場合は、韻律モデルデータベース、音響モデルデータベース、音声ファイル群、などがあらかじめ格納されている。
合成音声出力部136は、話者口調選択部133が取得した話者名称と口調種別のセットに対応する音声を合成して、クライアント端末110に送信する。合成に際しては、必要なデータを音声DB135から適宜取得する。
なお、テキスト入力部131、特徴抽出部132、話者口調選択部133、合成音声出力部136は、回路デバイスのようなハードウェアを用いて実現してもよいし、ソフトウェアとして実現してもよい。
ソフトウェアとして実現する場合は、HDD(Hard Disk Drive)等にこれら各部の機能を実現するプログラムを格納しておき、マイコンやCPU等の演算装置がそのプログラムを読み込んで、プログラムの指示に従って各部の機能に相当する処理を実行するように構成する。
また、各テーブルの実装方式は、フラットファイルに所定のフォーマットで格納するものでもよいし、リレーショナルデータベースのテーブルとして構成してもよい。あるいはソフトウェア上で仮想的に実現されるテーブルでもよい。
また、「合成音声出力部」は、話者口調選択部133と合成音声出力部136により実現されているものとする。
話者口調テーブル134は、「選択用パラメータ」列と、「音声合成時に用いる話者と口調」列を有する。
「選択用パラメータ」列には、特徴抽出部132のコンテンツファイル分析結果に相当する内容が格納される。図4のデータ例では、コンテンツファイルにより構成されるコンテンツの背景色が全体的に明るいと分析した場合、話者口調選択部133は1行目のデータを選択する。
「音声合成時に用いる話者と口調」列には、「選択用パラメータ」列の値に対応付けられる話者名称と口調種別が格納される。図4のデータ例では、コンテンツの背景色が全体的に明るい場合は、「話者A」「楽しい口調」で音声合成を行うべきことが分かる。
次に、音声合成サーバシステム100の具体的な動作について、特に特徴抽出部132の動作を中心に説明する。
特徴抽出部132は、図3のステップ(2)で、図5に示すような内容のHTMLファイルを取得し、ステップ(3)でその内容を分析する。なお、分析に先立ち、以下の前提条件を仮定する。
(1)文字部分がHTMLページ中に占める面積は、全体の0.4%(固定)であるものと仮定する。
(2)画面サイズは1280×1024ピクセルである。
(3)文字の規定サイズは24ポイント、フォント色は黒である。
図6に示すソースコードによれば、属性「background−color」で以下のように指定されていることが分かる。
(1)タグ<BODY>部分の背景色は白
(2)タグ<H2>部分の背景色は青
(3)タグ<H4>部分の背景色は赤
なお、説明を簡単にするため、「padding」「margin−top」「margin−bottom」属性は無視する。
(1)<BODY>タグの背景色指定により、全体の背景色は白色になっている。
(2)<H2>タグの背景色指定と、規定の文字サイズ24ポイントにより、高さ24ピクセルの青色帯が配置される。
(3)<H4>タグの背景色指定と、規定の文字サイズ24ポイントにより、高さ24ピクセルの赤色帯が配置される。
(4)<ul>タグ配下の「青い青い青い1」「青い青い青い2」などの文字列は、上述の前提条件により、全体の0.4%を占め、黒色で描画されるものとする。
(1)まず、特徴抽出部132は、画面イメージ全体に占める各色の割合を算出する。
(青色の割合)=24(px)/1024(px)×100=2.3%
(赤色の割合)=24(px)/1024(px)×100=2.3%
(黒色の割合)=0.4%(固定)
(白色の割合)=100−2.3−2.3ー0.4=95%
(2)次に、明るい色と暗い色の割合を算出する。
(明るい色)=2.3+95=97.3%
(暗い色) =2.3+0.4=2.7%
(3)以上の計算により、図5と図6のファイルで生成されるwebページの明るさの度合い「明るい色=97.3%」が算出できる。
(4)特徴抽出部132は、算出した値を話者口調選択部133に引き渡す。
合成音声出力部136は、「話者A」「楽しい口調」に対応する音声を合成して、クライアント端末110に送信する。
例えば、合成音声の配信アドレスを記載したメタファイルをHTTPでWebサーバ120からクライアント端末110に配信し、クライアント端末110はその配信アドレスを読み込んで音声合成サーバ130にリクエストを発行するようにしてもよい。
その他、Webサーバ120と音声合成サーバ130の間でリクエストを相互に転送する方式も考えられる。
以下の実施の形態においても同様である。
これにより、Webコンテンツ自体の表現力との相乗効果で、合成音声の表現力の幅が広がり、ユーザの感性に効果的に訴える合成音声を生成することが可能となる。
実施の形態1では、コンテンツの特徴を、HTMLソースファイルなどから算出される色彩上の明るさで分析する例について説明した。
本発明の実施の形態2に係る音声合成サーバシステムでは、同じくHTMLソースファイルなどから算出される画像配置パターンで、コンテンツの特徴を分析する例について説明する。
図8において、列構成は実施の形態1で説明した図4と同様であるが、3行目〜5行目のデータ内容が異なる。これらの行のデータ内容が表す意味について、次の図9を用いながら説明する。
ここでは、<img>タグの内容に注目する。図9のHTMLソースコード中で3つ存在する<img>タグそれぞれの「align」属性は、「left」「center」「left」となっている。これは、3つの画像のうち2つの配置が左寄りであることを示しており、全体的に画像配置が左寄りであることが分かる。
この場合、特徴抽出部132は、2/3=66.6%の画像配置が左よりであると分析する。
話者口調選択部133は、この分析結果に基づき話者口調テーブル134を検索する。図8のデータ例では、「画像配置左寄り=66.6%」は4行目のデータに該当するため、「話者A」「残念そうな口調」が選択され、合成音声出力部136に出力される。
合成音声出力部136は、「話者A」「残念そうな口調」に対応する音声を合成して、クライアント端末110に送信する。
例えば、図9のHTMLソースコードでは、3番目の画像「C.jpg」のサイズが他の2つと比較して極端に大きく、全体に占める割合も相対的に大きくなる。
画像配置を割合を計算する際に、その画像の画面全体に示す割合を乗算するなどの補正を行うことにより、画像サイズを考慮した分析が可能である。
また、画像が画面全体中で占める面積の割合を算出し、その割合に応じて話者と口調選択するように構成することもできる。
実施の形態1、2を併用する場合、明るさと画像配置パターンのいずれを優先的に適用するかなどのルールは、任意に定めることができる。
画像の配置パターンは、コンテンツ閲覧時の印象に大きな影響を与えるため、ユーザが受け取る印象に占める割合も大きく、したがってこれに応じた合成音声を生成することでユーザの感性により訴えかけることが可能である。
実施の形態1〜2では、コンテンツファイルの内容を分析して合成音声に反映する構成を説明した。
本発明の実施の形態3では、入力テキストの内容を合成音声の話者と口調の選択に反映することのできる、音声合成サーバシステム100の構成を説明する。
音声合成サーバ130は、キーワードテーブル137を備える。その他の構成は実施の形態1〜2と同様であるため、同じ符号を付して説明は省略する。
キーワードテーブル137には、音声合成サーバ130の管理者等があらかじめ設定した1ないし複数のキーワードのリストが格納されている(図示せず)。
図11の話者口調テーブル134は、実施の形態2で説明した図8と比較し、6行目〜7行目のデータ内容が新たに追加されている点が異なる。これらの行のデータ内容が表す意味について、次に説明する。
話者口調選択部133は、そのカウント結果を受け取り、話者口調テーブル134を検索する。図11のデータ例では、7行目のデータにより、「キーワードの出現数が5回より多い」場合には、「話者E」「メッセージ口調」で音声合成をするべきことが分かる。
カウント結果が5回以下である場合には、コンテンツファイルの分析結果により話者と口調を定めればよい。
また、上述の例ではキーワードのカウント数を例に説明したが、これに限られるものではなく、例えば、ある特定のキーワードが入力テキストに含まれれば、無条件に話者と口調を決定することとしてもよい。即ち、キーワードと話者・口調のセットとの関係を特定することができれば、必ずしもキーワードのカウント数のみを基準とする必要はない。
例えば、入力テキストの文字数が100文字以上であった場合は、図11のデータ例における6行目のデータに該当するので、「話者D」「楽しい口調」で音声合成をすべきことが分かる。
コンテンツファイルの分析結果、キーワードの個数、入力テキストの文字数、の中で、いずれを優先的に適用するかなどのルールは、任意に定めることができる。
これにより、例えば音声合成サーバシステム100の提供者にとって好ましいキーワードを含む入力テキストを送信した場合には、ユーザが強く欲するような話者・口調で音声合成を行い、好ましくないキーワードを含む入力テキストを送信した場合には、ユーザにとってあまり聴取意欲の沸かない話者・口調で音声合成をする、といったことが可能になる。
こうした、入力テキストの内容に応じた音声合成を行う機能を備えることは、音声合成サーバシステム100の提供者側で合成音声をある程度コントロールできることにもなるため、事業的な観点からも好ましい機能である。
本発明の実施の形態4では、合成音声をリクエストするユーザを識別して、ユーザ毎に異なる合成音声の話者と口調を設定することのできる音声合成サーバシステムの構成を説明する。
図12において、ネットワークストレージ140は、ユーザテーブル142を格納している。ユーザテーブル142の構成は次の図13で説明する。
なお、ユーザテーブル142は、Webサーバ120内に格納するように構成してもよいし、音声合成サーバ130内に格納するように構成してもよい。ここでは、システム実装の便宜上、ネットワークストレージ140に格納しているものとして、以下の説明を行う。
ユーザテーブル142は、「ユーザID」列、「パスワード」列、「ポイント」列、「セッションID」列を有する。
「ユーザID」列には、ユーザ毎に固有に割り当てられ、個々のユーザを識別するためのIDが格納される。
「パスワード」列には、「ユーザID」列の値で特定されるユーザを認証するためのパスワードが格納される。
「ポイント」列には、「ユーザID」列の値で特定されるユーザが現在保有しているポイント情報が格納される。
「セッションID」列には、認証後のユーザに割り当てられる一意の識別文字列が格納される。本列の値は、認証を行っていない(音声合成サーバシステム100にログインしていない)ユーザに関しては空となっている。
図14の話者口調テーブル134は、実施の形態3で説明した図11と比較し、8行目のデータ内容が新たに追加されている点が異なる。この行のデータ内容が表す意味について、次の図15を用いて説明する。
(1)クライアント端末110は、Webサーバ120にログイン要求を送信する。このとき、ユーザIDとパスワードを併せて送信する。
(2)Webサーバ120は、クライアント端末110から受け取ったユーザIDとパスワードをキーにしてユーザテーブル142を検索する。
該当するデータがあれば、その行の「セッションID」列に一意の識別文字列を格納する。該当するデータがなければ、その旨をクライアント端末110に返信する。
(3)Webサーバ120は、クライアント端末110に、上記の識別文字列を送信する。クライアント端末110は、識別文字列を受け取ることにより、ユーザが正しく認証されたことが分かる。
(4)クライアント端末110は、Webサーバ120にHTTPリクエストを発行し、コンテンツファイルの送信を要求する。このとき、ステップ(3)で受け取った識別文字列を併せて送信する。
(5)〜(6)の処理内容は、図2の1.(2)〜(3)の処理内容と同様であるため、説明を省略する。
(1)クライアント端末110は、音声合成サーバ130に対し、合成音声のリクエストを発行する。このときクライアント端末110は、合成音声で読み上げてほしいテキストの内容と、1.(3)で受け取った識別文字列とを、併せて送信する。通信プロトコルは、音声合成サーバ130の実装に合わせて適切なものを用いる。
(2)音声合成サーバ130は、ネットワークストレージ140にアクセスし、コンテンツファイルをコンテンツ保管フォルダ141から取得する。
(3)音声合成サーバ130は、1.(3)で受け取った識別文字列をキーにしてユーザテーブルを検索し、該当ユーザの「ポイント」列の値を取得する。
(4)音声合成サーバ130は、コンテンツ保管フォルダ141から取得したコンテンツファイルの内容を分析する。
(5)音声合成サーバ130は、コンテンツファイルの分析結果と、ステップ(3)で取得した「ポイント」列の値を用いて、音声合成を実行する。詳細は後述する。
(6)音声合成サーバ130は、合成した音声をクライアント端末110に送信する。
図15の2.(5)において、話者口調選択部133は、話者口調テーブル134を参照し、ユーザのポイントに関する情報を検索する。図14のデータ例では、8行目のデータにより、「ポイント」列の値が300より大きいユーザへ合成音声を送信する際には、「話者A」「楽しい口調」で音声合成をすべきことが分かる。
なお、「ポイント」列の値と、実施の形態1〜3で説明した、コンテンツファイルの分析結果やキーワードの個数などの中で、いずれを優先適用すべきかなどのルールは、任意に定めることができる。
(1)他のパーソナライズドサービスのユーザポイント情報を転用する。
(2)音声合成サーバシステム100内で独自に定める。この場合は、例えばログイン回数が多いユーザに多くのポイントを割り当てるなど、音声合成サーバシステム100内で閉じた情報を用いてポイントを決定するとよい。
これにより、音声合成サーバシステム100の提供者は、高いポイントを取得してより高品質の合成音声を得るように、ユーザへ動機付けをすることができる。このようなユーザへの動機付けは、様々な事業機会の拡大につながり、事業者にとっての経済的なメリットもある。
実施の形態1〜4では、合成音声の話者と口調に差異を設けた構成を説明した。
本発明の実施の形態5に係る音声合成システムでは、音声合成の基となる音声DB135の品質に差異を設けた構成を説明する。
そこで、本実施の形態5の構成を用いることにより、ユーザの行動パターンを、より高品質な合成音声が得られるような行動パターンへ向けて方向付けることができる。
以下、具体的な構成を説明する。
例えば、「話者A」「楽しい口調」の合成音声を生成するための音声DBとして、「高品質」「中品質」「低品質」の3つが存在する、というようなことである。いずれの品質レベルの音声DBを用いても、「話者A」「楽しい口調」の合成音声を生成できるが、その合成音声の品質に差異が生じる。
なお、音声DB135の品質の尺度には、収録環境、収録原稿、話者、合成処理時間といった様々な観点があるが、ここでは音声DBの収録音声時間が長いほど品質が良いものとして以下の説明を行う。
本実施の形態5では、話者口調テーブル134は、実施の形態1〜4と同様の「選択用パラメータ」列、「音声合成時に用いる話者と口調」列に加えて、新たに「音声DBの品質レベル」列を有する。
「音声DBの品質レベル」列には、合成音声出力部136が音声合成を行う際に用いる音声DB135の品質レベルを表す値が格納される。図16のデータ例では、2行目のデータにより、「明るい背景色の割合が60〜70%」の場合は「話者A」「楽しい口調」に対応した音声DB135のうち中程度の品質レベルのものを用いるべきことが分かる。
また、1行目のデータによれば、同じ「話者A」「楽しい口調」でも、「明るい背景色の割合が70%以上」の場合は音声DB135のうち(収録音声時間が最も長い)最高品質のものを用いるべきことが分かる。
また、図16では、実施の形態1の図4と同様の行データを用いて説明したが、その他の実施の形態における話者口調テーブル134の行データと同様の値も用いる場合も、処理内容は同様である。
例えば、特徴抽出部132は、画像ファイルを読み込んでその色彩パターンを分析したり、画像中の文字部分をパターン認識して文字部分の面積比を算出したりすることもできる。いずれの分析対象ファイルにいずれの分析方法を用いる場合であっても、その分析結果に対応した話者口調テーブル134のエントリがあればよい。
また、音声合成サーバ130がコンテンツファイルに直接アクセスできない場合であっても、そのコンテンツファイルを置いているネットワーク上のアドレス(URL等)をクライアント端末110から音声合成サーバ130に送信し、音声合成サーバ130がそのアドレスにアクセスしてコンテンツファイルを取得するように構成してもよい。
この解決法としては、例えば全てのコンテンツファイルを読み込んで平均値を取る、あらかじめ定められた名称のファイルのみを分析対象とする、といった方法が考えられる。
実施の形態1〜5では、コンテンツファイルの内容分析など、主として音声合成サーバシステム100側で備えている要素を音声合成に利用する構成を説明した。
本発明の実施の形態6に係る音声合成サーバシステムでは、クライアント端末110側の環境を利用して音声合成を行うことのできる構成を説明する。
概ね実施の形態1で説明した図2と同様であるが、クライアント端末110が音量センサ111を備えている点が異なる。また、クライアント端末110は、2.(1)で合成音声をリクエストする際に、音量センサ111の検出値を併せて送信する点も、図2と異なっている。
音声合成サーバ130は、クライアント端末110が送信した読み上げテキストの内容とともに音量センサ111の検出値を受け取り、これらの値を用いて音声合成を行う。次の図18を用いて、具体的な処理内容を説明する。
話者口調テーブル134の列構成は、実施の形態5で説明した図16と同様である。
同図の3行目のデータには、「音量センサ111の検出値が80dB以上」の場合、「話者E」「賑やかな口調」に対応する音声合成を行うべきことが分かる。音声合成処理の詳細は実施の形態1〜5と同様であるため、説明を省略する。
以上の処理を実行することにより、音声合成サーバシステム100は、クライアント端末110側の環境を、合成音声に反映することができる。
Claims (7)
- クライアント端末が送信した入力テキストの内容に応じた合成音声を出力する音声合成サーバと、
前記クライアント端末のリクエストに応じて出力するコンテンツファイルを格納したコンテンツサーバと、
を有する音声合成サーバシステムであって、
前記音声合成サーバは、
前記コンテンツファイルを読み込んで、そのコンテンツの色彩上の明暗度合いを所定の演算規則に従って算出する特徴抽出部と、
前記特徴抽出部が算出した明暗度合いに対応した特徴を持つ合成音声を前記入力テキストの内容に応じて出力する合成音声出力部と、
を備えたことを特徴とする音声合成サーバシステム。 - 前記音声合成サーバは、
合成音声の基となる話者名称と口調種別のセットを1ないし複数保持する話者口調テーブルを備え、
前記話者口調テーブルは、
前記セットと前記明暗度合いの閾値とを対応付けるデータをさらに保持しており、
前記合成音声出力部は、
音声を合成する際に、前記話者口調テーブルを参照し、前記明暗度合いに対応付けられた話者と口調を用いて音声を合成する
ことを特徴とする請求項1に記載の音声合成サーバシステム。 - 前記特徴抽出部は、
前記コンテンツファイルを読み込んで、そのコンテンツの画像配置パターンを所定の演算規則に従って算出し、
前記話者口調テーブルは、
前記セットと前記画像配置パターンを対応付けるデータを保持しており、
前記合成音声出力部は、
音声を合成する際に、前記話者口調テーブルを参照し、前記画像配置パターンに対応付けられた話者と口調を用いて音声を合成する
ことを特徴とする請求項2に記載の音声合成サーバシステム。 - 前記音声合成サーバは、
所定のキーワードを1ないし複数保持するキーワードテーブルを備え、
前記話者口調テーブルは、
前記セットと前記キーワードを対応付けるデータを保持しており、
前記合成音声出力部は、
音声を合成する際に、前記話者口調テーブルを参照し、前記キーワードに対応付けられた話者と口調を用いて音声を合成する
ことを特徴とする請求項2又は請求項3のいずれかに記載の音声合成サーバシステム。 - 前記コンテンツサーバは、
ユーザの認証情報と、そのユーザに対応付けられたポイント情報とを保持するユーザテーブルを備え、
前記話者口調テーブルは、
前記セットと前記ポイント情報を対応付けるデータを保持しており、
前記コンテンツサーバは、
認証リクエストとユーザの認証情報を前記クライアント端末から受信し、所定のユーザ認証処理を行った上で、アクセスを許可する旨の情報を前記クライアント端末に返信し、
前記合成音声出力部は、
前記入力テキストと前記アクセスを許可する旨の情報を前記クライアント端末から受信し、前記アクセスを許可する旨の情報を基に前記ユーザテーブルを検索してそのユーザのポイント情報を取得し、
さらに前記話者口調テーブルを参照し、前記ポイント情報に対応付けられた話者と口調を用いて音声を合成する
ことを特徴とする請求項2ないし請求項4のいずれかに記載の音声合成サーバシステム。 - 前記音声合成サーバは、
前記合成音声出力部が音声合成を行う際に用いる音声データベースを備え、
前記音声データベースは、
合成音声の話者名称と口調種別のセット毎に、複数の品質レベルで構築されており、
前記話者口調テーブルは、
前記セット毎に、前記音声データベースのいずれの品質レベルを用いるべきかを示す推奨品質レベルデータを保持しており、
前記合成音声出力部は、
音声を合成する際に、前記話者口調テーブルを参照し、前記推奨品質レベルデータが示す品質レベルの音声データベースを用いて音声を合成する
ことを特徴とする請求項2ないし請求項5のいずれかに記載の音声合成サーバシステム。 - 前記話者口調テーブルは、
前記セットと、周辺環境の物理量のセンサ検出値を対応付けるデータを保持しており、
前記合成音声出力部は、
前記入力テキストと、前記物理量のセンサ検出値とを、前記クライアント端末から受信すると、
前記話者口調テーブルを参照し、前記センサ検出値に対応付けられた話者と口調を用いて音声を合成する
ことを特徴とする請求項2ないし請求項6のいずれかに記載の音声合成サーバシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006315860A JP2008129434A (ja) | 2006-11-22 | 2006-11-22 | 音声合成サーバシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006315860A JP2008129434A (ja) | 2006-11-22 | 2006-11-22 | 音声合成サーバシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008129434A true JP2008129434A (ja) | 2008-06-05 |
Family
ID=39555276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006315860A Pending JP2008129434A (ja) | 2006-11-22 | 2006-11-22 | 音声合成サーバシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008129434A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012155085A (ja) * | 2011-01-25 | 2012-08-16 | Yamaha Corp | 楽音合成装置およびプログラム |
WO2012173582A1 (en) | 2011-06-17 | 2012-12-20 | Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayii Ve Ticaret Anonim Sirketi | Using speech synthesis for language training with picture synchronization |
CN104050962A (zh) * | 2013-03-16 | 2014-09-17 | 李军 | 基于语音合成技术的多功能阅读器 |
JP2016105210A (ja) * | 2016-03-04 | 2016-06-09 | 株式会社東芝 | 読み記号列編集装置および読み記号列編集方法 |
JP2017116710A (ja) * | 2015-12-24 | 2017-06-29 | 大日本印刷株式会社 | 音声配信システムおよび文書配信システム |
JP2017531197A (ja) * | 2014-08-06 | 2017-10-19 | エルジー・ケム・リミテッド | 文字データの内容を文字データ送信者の音声で出力する方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0877152A (ja) * | 1994-08-31 | 1996-03-22 | Oki Electric Ind Co Ltd | 音声合成装置 |
JPH08179789A (ja) * | 1994-12-26 | 1996-07-12 | Sharp Corp | 音声情報表示装置 |
JP2001075581A (ja) * | 1999-09-01 | 2001-03-23 | Sharp Corp | 電子漫画製造装置および電子漫画出力装置 |
JP2003223178A (ja) * | 2002-01-30 | 2003-08-08 | Nippon Telegr & Teleph Corp <Ntt> | 電子歌唱カード生成方法、受信方法、装置及びプログラム |
JP2005062420A (ja) * | 2003-08-11 | 2005-03-10 | Nec Corp | コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム |
JP2005257747A (ja) * | 2004-03-09 | 2005-09-22 | Nec Corp | 音声合成装置、声質生成装置及びプログラム |
JP2007041960A (ja) * | 2005-08-04 | 2007-02-15 | Ricoh Co Ltd | 機器操作装置、画像形成装置、機器操作方法、および機器操作プログラム |
-
2006
- 2006-11-22 JP JP2006315860A patent/JP2008129434A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0877152A (ja) * | 1994-08-31 | 1996-03-22 | Oki Electric Ind Co Ltd | 音声合成装置 |
JPH08179789A (ja) * | 1994-12-26 | 1996-07-12 | Sharp Corp | 音声情報表示装置 |
JP2001075581A (ja) * | 1999-09-01 | 2001-03-23 | Sharp Corp | 電子漫画製造装置および電子漫画出力装置 |
JP2003223178A (ja) * | 2002-01-30 | 2003-08-08 | Nippon Telegr & Teleph Corp <Ntt> | 電子歌唱カード生成方法、受信方法、装置及びプログラム |
JP2005062420A (ja) * | 2003-08-11 | 2005-03-10 | Nec Corp | コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム |
JP2005257747A (ja) * | 2004-03-09 | 2005-09-22 | Nec Corp | 音声合成装置、声質生成装置及びプログラム |
JP2007041960A (ja) * | 2005-08-04 | 2007-02-15 | Ricoh Co Ltd | 機器操作装置、画像形成装置、機器操作方法、および機器操作プログラム |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012155085A (ja) * | 2011-01-25 | 2012-08-16 | Yamaha Corp | 楽音合成装置およびプログラム |
WO2012173582A1 (en) | 2011-06-17 | 2012-12-20 | Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayii Ve Ticaret Anonim Sirketi | Using speech synthesis for language training with picture synchronization |
CN104050962A (zh) * | 2013-03-16 | 2014-09-17 | 李军 | 基于语音合成技术的多功能阅读器 |
JP2017531197A (ja) * | 2014-08-06 | 2017-10-19 | エルジー・ケム・リミテッド | 文字データの内容を文字データ送信者の音声で出力する方法 |
JP2017116710A (ja) * | 2015-12-24 | 2017-06-29 | 大日本印刷株式会社 | 音声配信システムおよび文書配信システム |
JP2016105210A (ja) * | 2016-03-04 | 2016-06-09 | 株式会社東芝 | 読み記号列編集装置および読み記号列編集方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002304419A5 (ja) | ||
JP4935658B2 (ja) | ブラウザプログラムおよび情報処理装置 | |
KR101340036B1 (ko) | 전자 컨텐트 가이드 생성 방법 및 그 장치 | |
JP2007011733A (ja) | アジアウェブフォント文書の作成方法、装置及びシステム | |
JP4753755B2 (ja) | データ変換方法、装置及びプログラム | |
JP2002108870A (ja) | 情報処理システムおよび情報処理方法 | |
JP2008129434A (ja) | 音声合成サーバシステム | |
JP2011028747A (ja) | サーチ・タームを生成するシステムと方法 | |
US20120005564A1 (en) | Content distribution system and method | |
KR100798465B1 (ko) | 출판용 학습자료를 문제풀이가 가능한 포맷으로 변환하는학습데이터생성시스템 및 그 생성방법 | |
US9043885B2 (en) | System for providing content or application and control method therefor, terminal and control method therefor, authentication device and control method therefor, program, and information storage medium | |
CN105760501A (zh) | 一种文档格式转换方法及装置 | |
CN112860642A (zh) | 一种庭审数据处理方法、服务器及终端 | |
JP2019220098A (ja) | 動画編集サーバおよびプログラム | |
JP5524950B2 (ja) | メタデータ生成管理装置、メタデータ生成システム、メタデータ生成管理用集積回路、メタデータ生成管理方法、及びプログラム | |
KR100823265B1 (ko) | 모바일 디바이스에서 XHTML-Print 문서를전송하는 방법 및 장치 | |
KR100850021B1 (ko) | 웹문서 스타일 변경 시스템 및 방법 | |
JP2011113460A (ja) | 情報提供システム | |
KR102020341B1 (ko) | 악보 구현 및 음원 재생 시스템 및 그 방법 | |
JP4519081B2 (ja) | ドキュメント変換装置、およびプログラム | |
JP4804591B2 (ja) | データ変換方法、装置及びプログラム | |
JP5096997B2 (ja) | 類似配色生成装置、類似配色生成方法、類似配色生成プログラム | |
JP2020099014A (ja) | コンテンツ処理装置、コンテンツ処理システム、コンテンツ処理方法及びプログラム | |
WO2007036984A1 (ja) | ドキュメント内テキスト読み上げ処理プログラム,ドキュメント閲覧装置およびドキュメント内テキスト読み上げ処理方法 | |
JP2009104595A (ja) | ウェブページ接続システムおよびその接続方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090416 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110325 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110419 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111122 |