JP5408133B2

JP5408133B2 - 音声合成システム

Info

Publication number: JP5408133B2
Application number: JP2010524655A
Authority: JP
Inventors: 玲史近藤; 正徳加藤; 康行三井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-08-13
Filing date: 2009-06-22
Publication date: 2014-02-05
Anticipated expiration: 2029-06-22
Also published as: US8620663B2; JPWO2010018648A1; US20110137655A1; WO2010018648A1

Description

本発明は、サーバ装置とクライアント装置とが通信を行うことにより音声合成処理を実行する音声合成システムに関する。

ユーザ（音声登録ユーザ）が発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を記憶するサーバ装置と、文字列を表す文字列情報に基づいてその文字列を音声に変換した音声情報を生成する（即ち、音声合成処理を行う）クライアント装置と、を含む音声合成システムが知られている（特許文献１を参照）。

このクライアント装置は、入力された文字列情報に基づいて音声素片を特定する音声素片特定情報（例えば、音韻及び韻律を表す情報）を生成する。そして、クライアント装置は、生成した音声素片特定情報をサーバ装置へ送信する。

サーバ装置は、音声素片情報と音声素片特定情報とを対応付けて予め記憶している。サーバ装置は、クライアント装置から受信した音声素片特定情報と対応付けて記憶されている音声素片情報を、そのクライアント装置へ送信する。そして、クライアント装置は、サーバ装置から受信した音声素片情報に基づいて音声合成処理を行う。

この音声合成システムによれば、クライアント装置が音声素片情報を記憶しておく必要がないので、クライアント装置において使用可能な記憶領域を増加させることができる。

特開２００３−２３３３８６号公報

ところで、クライアント装置からサーバ装置へ送信される情報量を減少させるためには、クライアント装置が、音声素片特定情報に代えて、音声素片を識別するための整数を表す音声素片識別情報を送信することが好適であると考えられる。

この場合、例えば、音声合成システムは、クライアント装置が音声素片特定情報と音声素片識別情報とを対応付けて予め記憶するとともに、サーバ装置が音声素片識別情報と音声素片情報とを対応付けて予め記憶するように構成される。

この場合において、サーバ装置が、音声にて各音声素片が並ぶ順に従って１ずつ増加させた整数を、音声素片識別情報が表す整数が有するように、音声素片識別情報と音声素片情報とを対応付けて記憶している場合を想定する。この場合、不正なユーザが使用するクライアント装置が、１ずつ増加させた複数の整数（即ち、連続する整数）を送信すると、サーバ装置は、上記音声のうちの連続する複数の音声素片を含む部分を、その音声にて音声素片が並ぶ順序を維持したまま、クライアント装置へ送信してしまう。

従って、このような場合、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性が比較的高いという問題があった。不正なユーザにより上記音声が取得された場合には、例えば、音声による認証処理（音声認証処理）において、取得された音声が使用されることにより、不正なユーザが音声登録ユーザとして認証されてしまう虞がある。

このため、本発明の目的は、上述した課題である「音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性が比較的高いこと」を解決することが可能な音声合成システムを提供することにある。

かかる目的を達成するため本発明の一形態である音声合成システムは、
互いに通信可能に接続されたサーバ装置及びクライアント装置を含むシステムである。

更に、上記サーバ装置は、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも１つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する音声素片情報記憶手段と、
上記クライアント装置から上記音声素片識別情報を受信する音声素片識別情報受信手段と、
上記受信された音声素片識別情報に対応付けて記憶されている音声素片情報を上記クライアント装置へ送信する音声素片情報送信手段と、
を備える。

加えて、上記クライアント装置は、
音声素片を特定する音声素片特定情報と、上記音声素片識別情報と、を対応付けて記憶する音声素片識別情報記憶手段と、
文字列を表す文字列情報を受け付ける文字列情報受付手段と、
上記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を上記サーバ装置へ送信する音声素片識別情報送信手段と、
上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
を備える。

また、本発明の他の形態である音声素片提供装置は、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも１つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する音声素片情報記憶手段と、
上記音声素片識別情報を受信する音声素片識別情報受信手段と、
上記受信された音声素片識別情報に対応付けて上記記憶装置に記憶されている音声素片情報を送信する音声素片情報送信手段と、
を備える。

また、本発明の他の形態である音声素片提供方法は、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも１つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶装置に記憶させ、
上記音声素片識別情報を受信し、
上記受信された音声素片識別情報に対応付けて上記記憶装置に記憶されている音声素片情報を送信する方法である。

また、本発明の他の形態である音声素片提供プログラムは、
記憶装置を備える音声素片提供装置に、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも１つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて上記記憶装置に記憶させる音声素片情報記憶処理手段と、
上記音声素片識別情報を受信する音声素片識別情報受信手段と、
上記受信された音声素片識別情報に対応付けて上記記憶装置に記憶されている音声素片情報を送信する音声素片情報送信手段と、
を実現させるためのプログラムである。

また、本発明の他の形態である音声合成方法は、
互いに通信可能に接続されたサーバ装置及びクライアント装置を含む音声合成システムに適用され、
上記クライアント装置が、文字列を表す文字列情報を受け付け、
上記クライアント装置が、音声素片を特定する音声素片特定情報を、上記受け付けられた文字列情報に基づいて生成し、
音声素片を表す音声素片情報を識別する音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する記憶装置であって上記クライアント装置が備える記憶装置に、上記生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を、当該クライアント装置が上記サーバ装置へ送信し、
上記サーバ装置が上記クライアント装置から上記音声素片識別情報を受信し、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも１つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する記憶装置であって上記サーバ装置が備える記憶装置に、上記受信された音声素片識別情報と対応付けて記憶されている音声素片情報を、当該サーバ装置が上記クライアント装置へ送信し、
上記クライアント装置が上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する方法である。

また、本発明の他の形態であるクライアント装置は、サーバ装置と通信可能に接続された装置である。
更に、このクライアント装置は、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも１つが、所定の規則に従って並べられた情報と異なる情報を有するように設定された音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する音声素片識別情報記憶手段と、
文字列を表す文字列情報を受け付ける文字列情報受付手段と、
上記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を上記サーバ装置へ送信する音声素片識別情報送信手段と、
上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
を備える。

また、本発明の他の形態である音声合成プログラムは、
サーバ装置と通信可能に接続されたクライアント装置に、
文字列を表す文字列情報を受け付ける文字列情報受付手段と、
上記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも１つが、所定の規則に従って並べられた情報と異なる情報を有するように設定された音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する記憶装置に、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を上記サーバ装置へ送信する音声素片識別情報送信手段と、
上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
を実現させるための音声合成プログラムである。

本発明は、以上のように構成されることにより、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性を低減することができる。

本発明の第１実施形態に係る音声合成システムの機能の概略を表すブロック図である。図１に示したクライアント装置の記憶装置に記憶されたテーブルであって、音声素片特定情報と音声素片識別情報とが対応付けられたテーブルを示した図である。図１に示したサーバ装置の記憶装置に記憶されたテーブルであって、音声素片識別情報と音声素片情報とが対応付けられたテーブルを示した図である。音声登録ユーザが発した音声の波形を概念的に示した説明図である。図１に示したサーバ装置のＣＰＵが実行する音声素片情報記憶処理プログラムを示したフローチャートである。クライアント装置がサーバ装置から音声素片情報を取得することにより、音声合成処理を行う際の音声合成システムの作動を示したシーケンス図である。第１実施形態の第１の変形例に係るサーバ装置のＣＰＵが実行する処理であって、図５に示した音声素片情報記憶処理プログラムに追加して実行する処理を示したフローチャートである。第１実施形態の第２の変形例に係る音声合成システムの機能の概略を表すブロック図である。第２実施形態に係る音声合成システムの機能の概略を表すブロック図である。図９に示したサーバ装置の記憶装置に記憶されたテーブルであって、音声素片識別情報と低音質音声素片情報と高音質音声素片情報とが対応付けられたテーブルを示した図である。第２実施形態に係るサーバ装置が音声合成処理を行う際の音声合成システムの作動を示したシーケンス図である。本発明の第３実施形態に係る音声合成システムの機能の概略を表すブロック図である。

以下、本発明に係る、音声合成システム、音声素片提供装置、音声素片提供方法、音声素片提供プログラム、音声合成方法、クライアント装置、及び、音声合成プログラム、の各実施形態について図１〜図１２を参照しながら説明する。

＜第１実施形態＞
図１に示したように、第１実施形態に係る音声合成システム１は、クライアント装置１０と、サーバ装置２０と、を含む。クライアント装置１０及びサーバ装置（音声素片提供装置）２０は、図示しない通信回線（本例では、インターネット）を介して、互いに通信可能に接続されている。

クライアント装置１０は、図示しない中央処理装置（ＣＰＵ；ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、記憶装置（メモリ及びハードディスク装置（ＨＤＤ；ＨａｒｄＤｉｓｋＤｒｉｖｅ））、入力装置（マウス及びキーボード）及び出力装置（ディスプレイ及びスピーカ）を備える。

クライアント装置１０は、記憶装置に記憶されているプログラムをＣＰＵが実行することにより、後述する機能を実現するように構成されている。また、クライアント装置１０は、キーボードを介してユーザによって入力された文字列情報を受け付ける。文字列情報は、文字列を表す情報である。更に、クライアント装置１０は、ディスプレイに文字列を含む画像を表示させる。また、クライアント装置１０は、スピーカから音声を出力させる。

サーバ装置２０は、クライアント装置１０と同様に、図示しない中央処理装置、記憶装置、入力装置及び出力装置を備える。サーバ装置２０も、クライアント装置１０と同様に、記憶装置に記憶されているプログラムをＣＰＵが実行することにより、後述する機能を実現するように構成されている。

更に、図１に示したように、クライアント装置１０の機能は、文字列情報受付部（文字列情報受付手段）１１と、音声素片識別情報記憶部（音声素片識別情報記憶手段、音声素片識別情報記憶処理手段）１２と、音声素片識別情報送信部（音声素片識別情報送信手段）１３と、音声合成部（音声合成手段）１４と、を含む。

文字列情報受付部１１は、ユーザにより入力された文字列情報を受け付ける。
音声素片識別情報記憶部１２は、図２に示したように、音声素片を特定する音声素片特定情報と、音声素片情報を識別する音声素片識別情報と、を対応付けてクライアント装置１０の記憶装置に記憶させている。

本例では、音声素片は音節である。なお、音声素片は、ダイフォン（二単音）であってもよい。二単音は、例えば、子音及び母音からなる音（例えば、／ｋａ／（カ））、及び、母音及び母音からなる音（例えば、／ａｉ／（アイ））である。

音声素片特定情報は、音韻（発音記号）を表す音韻情報と、韻律（ピッチパタン（中心ピッチ等）、時間長）を表す韻律情報と、を含む。音声素片識別情報は、後述するように、音声素片情報毎に異なる整数を表す情報である。

音声素片識別情報送信部１３は、言語解析部１３ａと、韻律生成部１３ｂと、音声素片選択部１３ｃと、を含む。

言語解析部１３ａは、文字列情報受付部１１により受け付けられた文字列情報が表す文字列に対して言語解析処理を行うことにより、音韻列及びアクセントを生成する。言語解析処理は、単語間の関係（係り受け）及び品詞等を解析する処理と、文字列におけるアクセントの位置を特定する処理と、を含む。なお、言語解析処理の例は、特許第３３７９６４３号公報及び特許第３５１８３４０号公報等に開示されている。

韻律生成部１３ｂは、言語解析部１３ａにより生成された音韻列及びアクセントに基づいて、韻律情報を生成する。韻律情報は、音韻列に含まれる各音韻と対応付けられた情報であって、韻律を表す情報である。韻律は、音の高さ及び長さ（即ち、ピッチパタン（中心ピッチ（平均Ｆ０）、Ｆ０の傾斜等）及び時間長）等を表す。なお、韻律情報を生成する処理の例は、特許第３２４０６９１号公報及び特許第３３４４４８７号公報等に開示されている。

音声素片選択部１３ｃは、言語解析部１３ａにより生成された音韻列に含まれる音韻を音韻列における先頭側から順に音声素片毎に選択する。音声素片選択部１３ｃは、音声素片識別情報記憶部１２により記憶装置に記憶させられている音声素片特定情報の中から、選択した音韻を表す音韻情報を含む音声素片特定情報を抽出する。

音声素片選択部１３ｃは、抽出した音声素片特定情報の中から、韻律生成部１３ｂにより生成された韻律情報と最も近い韻律情報を含む音声素片特定情報を決定する。そして、音声素片選択部１３ｃは、決定した音声素片特定情報と対応付けて記憶されている音声素片識別情報を取得する。
音声素片識別情報送信部１３は、音声素片選択部１３ｃにより取得された音声素片識別情報をサーバ装置２０へ送信する。

音声合成部１４は、サーバ装置２０から音声素片情報を受信する。音声合成部１４は、受信した音声素片情報と、音声素片識別情報送信部１３により生成された音韻列及び韻律情報と、に基づいて音声素片情報が表す音声素片の韻律を変換する。

そして、音声合成部１４は、変換した音声素片を接続することにより、文字列情報受付部１１により受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する（即ち、音声合成処理を行う）。
次いで、クライアント装置１０は、音声合成部１４により生成された音声情報が表す音声をスピーカから出力する。

一方、サーバ装置２０の機能は、音声素片識別情報受信部（音声素片識別情報受信手段）２１と、音声素片情報記憶部（音声素片情報記憶手段）２２と、音声素片情報送信部（音声素片情報送信手段）２３と、を含む。
音声素片識別情報受信部２１は、クライアント装置１０により送信された音声素片識別情報を受信する。

音声素片情報記憶部２２は、音声登録ユーザが発した音声を表す音声情報を受け付ける。音声素片情報記憶部２２は、受け付けた音声情報が表す音声を音声素片毎に分割することにより、複数の音声素片のそれぞれを表す音声素片情報を生成する。音声素片情報記憶部２２は、図３に示したように、生成した音声素片情報と、整数を表す音声素片識別情報と、を１つずつ対応付けてサーバ装置２０の記憶装置に記憶させる。

このとき、音声素片情報記憶部２２は、図４に示したように、上記音声登録ユーザが発した音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、音声素片情報と音声素片識別情報とを対応付けて記憶させる。

即ち、音声素片情報記憶部２２は、上記音声登録ユーザが発した音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報を並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも１つが所定の規則（本例では、整数が１ずつ増加するという規則）に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶させている、と言うことができる。

音声素片情報送信部２３は、音声素片情報記憶部２２により記憶装置に記憶されている音声素片情報の中から、音声素片識別情報受信部２１により受信された音声素片識別情報と対応付けて記憶されている音声素片情報をクライアント装置１０へ送信する。

次に、上述した音声合成システム１の作動について具体的に述べる。
先ず、サーバ装置２０が新たに入力された音声情報に基づいて音声素片情報を蓄積（記憶）する際の音声合成システム１の作動について説明する。

サーバ装置２０のＣＰＵは、図５にフローチャートにより示した音声素片情報記憶処理プログラムを、サーバ装置２０の起動時に１度だけ実行するようになっている。なお、音声素片情報記憶処理プログラムの処理が実行されることは、音声素片情報記憶処理工程に対応している。

具体的に述べると、ＣＰＵは、音声素片情報記憶処理プログラムの処理を開始すると、ステップ５０１にて、音声情報が入力されるまで待機する。
そして、音声情報が入力されると、ＣＰＵは、「Ｙｅｓ」と判定してステップ５０２に進み、入力された音声情報が表す音声（音声登録ユーザが発した音声）を音声素片毎に分割することにより、音声素片情報を生成する。

次いで、ＣＰＵは、ステップ５０３にて、生成した音声素片情報からなるリストを作成する。このリストは、上記音声登録ユーザが発した音声にて各音声素片が並ぶ順に従って、その音声素片を表す音声素片情報を並べたリストである。

そして、ＣＰＵは、ステップ５０４にて、作成したリスト内に音声素片情報が存在しているか否かを判定する。
この状態においては、リスト内に音声素片情報が存在しているので、ＣＰＵは、「Ｙｅｓ」と判定してステップ５０５に進み、リストの先頭の音声素片情報を取得するとともに、取得した音声素片情報をリストから削除する。

そして、ＣＰＵは、ステップ５０６にて、整数の乱数（本例では、擬似乱数）を１つだけ生成する。次いで、ＣＰＵは、ステップ５０７にて、生成した乱数が音声素片識別情報として、サーバ装置２０の記憶装置に既に記憶されているか否かを判定する。

生成した乱数が音声素片識別情報として記憶装置に既に記憶されている場合、ＣＰＵは、「Ｙｅｓ」と判定してステップ５０６へ戻り、再び乱数を生成する。即ち、ＣＰＵは、音声素片識別情報として記憶装置に未だ記憶されていない乱数が生成されるまで、繰り返し乱数の生成を行う。

生成した乱数が音声素片識別情報として記憶装置に未だ記憶されていない場合、ＣＰＵは、ステップ５０７にて、「Ｎｏ」と判定してステップ５０８に進む。そして、ＣＰＵは、上記ステップ５０５にて取得した音声素片情報と、音声素片識別情報としての、上記ステップ５０６にて取得した乱数と、を対応付けて、サーバ装置２０の記憶装置に記憶させる。

次いで、ＣＰＵは、ステップ５０４へ戻り、リスト内に音声素片情報が存在しなくなるまで、上述したステップ５０４〜ステップ５０８の処理を繰り返し実行する。

そして、リスト内に音声素片情報が存在しなくなると、ＣＰＵは、ステップ５０４にて、「Ｎｏ」と判定してステップ５０９に進み、上記ステップ５０８にて新たに記憶装置に記憶された音声素片情報が表す音声素片を特定する音声素片特定情報（音韻情報及び韻律情報等）を生成する。

更に、ＣＰＵは、上記ステップ５０８にて新たに記憶装置に記憶された音声素片識別情報と、その音声素片識別情報と対応付けて記憶されている音声素片情報が表す音声素片を特定する音声素片特定情報と、を対応付けてクライアント装置１０へ送信する。

一方、クライアント装置１０は、サーバ装置２０から、音声素片識別情報及び音声素片特定情報を受信すると、受信した音声素片識別情報と音声素片特定情報とを対応付けてクライアント装置１０の記憶装置に記憶させる（図２を参照）。

その後、ＣＰＵは、ステップ５０１へ戻り、上述したステップ５０１〜ステップ５０９の処理を繰り返し実行する。

このように、サーバ装置２０のＣＰＵが音声素片情報記憶処理プログラムを実行することにより、図４に示した音声を表す音声情報が入力された場合、サーバ装置２０は、図３に示したように、音声素片情報と、音声素片識別情報と、を対応付けて記憶装置に記憶させる。

次に、クライアント装置１０がサーバ装置２０から音声素片情報を取得することにより、音声合成処理を行う際の音声合成システム１の作動について図６を参照しながら説明する。

先ず、クライアント装置１０のユーザ（音声合成ユーザ）は、キーボードを用いて文字列情報をクライアント装置１０に入力する。
クライアント装置１０は、入力された文字列情報を受け付ける（ステップＡ１）。
次いで、クライアント装置１０は、受け付けた文字列情報に基づいて音声素片特定情報（音韻情報及び韻律情報等）を生成する（ステップＡ２）。

そして、クライアント装置１０は、生成した音声素片特定情報と対応付けてクライアント装置１０の記憶装置に記憶されている音声素片識別情報を取得する（ステップＡ３）。
次いで、クライアント装置１０は、取得した音声素片識別情報をサーバ装置２０へ送信する（ステップＡ４）。

一方、サーバ装置２０は、クライアント装置１０により送信された音声素片識別情報を受信する（音声素片識別情報受信工程）。そして、サーバ装置２０は、受信した音声素片識別情報と対応付けてサーバ装置２０の記憶装置に記憶されている音声素片情報を取得する（ステップＢ１）。次いで、サーバ装置２０は、取得した音声素片情報をクライアント装置１０へ送信する（ステップＢ２、音声素片情報送信工程）。

これにより、クライアント装置１０は、サーバ装置２０から音声素片情報を受信する。そして、クライアント装置１０は、受信した音声素片情報に基づいて、受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成（音声合成処理を実行）する（ステップＡ５）。
その後、クライアント装置１０は、生成した音声情報が表す音声をスピーカから出力する。

以上、説明したように、本発明による音声合成システムの第１実施形態によれば、不正なユーザが使用するクライアント装置１０が、規則に従って並んだ音声素片識別情報（例えば、１ずつ増加させた複数の整数（即ち、連続する整数））をサーバ装置２０へ送信した場合であっても、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分をサーバ装置２０がクライアント装置１０へ送信することを防止することができる。従って、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性を低減することができる。

＜第１変形例＞
次に、第１実施形態の第１の変形例に係る音声合成システムについて説明する。この第１の変形例に係る音声合成システムは、上記第１実施形態に係る音声合成システムに対して、互いに類似する２つの音声素片のそれぞれを表す音声素片情報に対応付けて記憶される音声素片識別情報が表す整数が連続する整数となるように構成されている点において相違している。従って、以下、かかる相違点を中心として説明する。

この変形例に係るサーバ装置２０は、図５に示した音声素片情報記憶処理プログラムに代えて、このプログラムのステップ５０８の処理の直後に、図７に示したステップ７０１〜ステップ７０４の処理を追加したプログラムを実行する。

従って、サーバ装置２０のＣＰＵは、ステップ５０８の処理を実行した後、ステップ７０１に進み、ステップ５０５にて取得した音声素片情報が表す音声素片と類似する音声素片を表す音声素片情報が、上記ステップ５０３にて作成したリスト内に存在するか否かを判定する。

具体的には、ＣＰＵは、取得した音声素片情報が表す音声素片と、リストに含まれる音声素片情報が表す音声素片と、の一致率（両者が一致している程度を表す指標値）を、所定のアルゴリズムに従って算出する。そして、ＣＰＵは、算出した一致率が所定の閾値よりも高くなる音声素片情報がリスト内に存在するか否かを判定する。

取得した音声素片情報が表す音声素片と類似する音声素片を表す音声素片情報が、リスト内に存在しない場合、ＣＰＵは、ステップ７０１にて、「Ｎｏ」と判定してステップ５０４へ進む。

一方、取得した音声素片情報が表す音声素片と類似する音声素片を表す音声素片情報が、リスト内に存在する場合、ＣＰＵは、ステップ７０１にて、「Ｙｅｓ」と判定してステップ７０２へ進む。

そして、ＣＰＵは、取得した音声素片情報が表す音声素片と類似する音声素片を表す音声素片情報をリストから抽出する。次いで、ＣＰＵは、ステップ７０３にて、抽出した音声素片情報と、音声素片識別情報としての、上記ステップ５０６にて生成した乱数に１を加えた値と、を対応付けてサーバ装置２０の記憶装置に記憶させる。

次いで、ＣＰＵは、ステップ７０４にて、抽出した音声素片情報をリストから削除する。そして、ＣＰＵは、ステップ５０４へ進む。
このように、サーバ装置２０は、互いに類似する２つの音声素片の一方に対応する音声素片識別情報が表す整数が、当該２つの音声素片の他方に対応する音声素片識別情報が表す整数に１を加えた値となるように、音声素片情報と音声素片識別情報とを対応付けて記憶装置に記憶させる。

以上、説明したように、本発明による音声合成システムの第１実施形態の第１の変形例によれば、不正なユーザが使用するクライアント装置１０が、連続する整数をサーバ装置２０へ送信した場合、サーバ装置２０は、互いに類似する２つの音声素片のそれぞれを表す音声素片情報を送信する。

これにより、サーバ装置２０から受信した音声素片情報に基づいて不正なユーザにより上記音声が推測される可能性をより一層低減することができる。その結果、不正なユーザが使用するクライアント装置１０において、上記音声が再現（復元）される可能性をより一層低減することができる。

＜第２変形例＞
次に、第１実施形態の第２の変形例に係る音声合成システムについて説明する。この第２の変形例に係る音声合成システムは、上記第１実施形態に係る音声合成システムに対して、サーバ装置２０が、記憶装置に記憶されていない音声素片識別情報を受信した場合にエラー情報を出力し且つその音声素片識別情報を送信してきた装置との間の通信を遮断するように構成されている点において相違している。従って、以下、かかる相違点を中心として説明する。

この第２の変形例に係るサーバ装置２０の音声素片情報送信部２３は、図８に示したように、エラー情報出力部（エラー情報出力手段）２３ａと、通信遮断部（通信遮断手段）２３ｂと、を含む。

エラー情報出力部２３ａは、クライアント装置１０から受信した音声素片識別情報が記憶装置に記憶されていない場合、その旨を表すエラー情報を出力する（ディスプレイに表示させる、及び／又は、ログファイルに書き出す）。これによれば、音声素片情報を不正に取得しようとしているクライアント装置１０が存在することを、サーバ装置２０の管理者に直ちに認識させることができる。この結果、管理者は、この状況に応じた行動を迅速に取ることができる。

通信遮断部２３ｂは、クライアント装置１０から受信した音声素片識別情報が記憶装置に記憶されていない場合、そのクライアント装置１０との間の通信を遮断する。これによれば、音声素片情報を不正に取得しようとしているクライアント装置１０へ、サーバ装置２０が音声素片情報を送信することを防止することができる。

なお、この第２の変形例において、音声素片情報送信部２３は、エラー情報出力部２３ａ及び通信遮断部２３ｂの両方を含んでいたが、いずれか一方のみを含んでいてもよい。

＜第２実施形態＞
次に、本発明に係る音声合成システムの第２実施形態について説明する。この第２実施形態に係る音声合成システムは、上記第１実施形態に係る音声合成システムに対して、サーバ装置２０が低音質の音声素片情報と高音質の音声素片情報とを記憶するとともに、サーバ装置２０がユーザ（音声合成ユーザ）からの要求に応じて高音質の音声素片情報に基づいて音声合成処理を行い、生成した音声情報をクライアント装置１０へ送信するように構成されている点において相違している。従って、以下、かかる相違点を中心として説明する。

図９に示したように、クライアント装置１０の機能は、上記第１実施形態に係るクライアント装置１０の機能と同様の文字列情報受付部１１〜音声合成部１４に加えて、文字列情報送信部（文字列情報送信手段）１５と、音声情報受信部（音声情報受信手段）１６と、を含む。

文字列情報送信部１５は、文字列情報受付部１１により受け付けられた文字列情報をサーバ装置２０へ送信する。
音声情報受信部１６は、サーバ装置２０が送信した音声情報を受信する。

また、サーバ装置２０の機能は、上記第１実施形態に係るサーバ装置２０の機能と同様の音声素片識別情報受信部２１〜音声素片情報送信部２３に加えて、文字列情報受信部（文字列情報受信手段）２４と、音声素片情報取得部（音声合成手段の一部）２５と、音声合成部（音声合成手段の一部）２６と、音声情報送信部（音声情報送信手段）２７と、を含む。

更に、サーバ装置２０は、音声素片識別情報記憶部１２と同様に、音声素片特定情報と音声素片識別情報とを対応付けてサーバ装置２０の記憶装置に記憶させている。

また、音声素片情報記憶部２２は、図１０に示したように、整数を表す音声素片識別情報と、低音質の低音質音声素片情報（第１の音声素片情報）と、低音質音声素片情報よりも高音質の高音質音声素片情報（第２の音声素片情報）と、を対応付けてサーバ装置２０の記憶装置に記憶させている。互いに対応付けて記憶されている低音質音声素片情報及び高音質音声素片情報は、同一の音声素片を表す情報である。

なお、本例では、低音質音声素片情報は、サンプリング周波数が８ｋＨｚである音声から抽出された音声素片を表す情報であり、高音質音声素片情報は、サンプリング周波数４４ｋＨｚである音声から抽出された音声素片を表す情報である。即ち、高音質音声素片情報は、低音質音声素片情報よりも高音質の情報である、と言うことができる。また、一般に、低音質音声素片情報は、高音質音声素片情報よりもデータ量（データサイズ）が小さい。

なお、低音質音声素片情報が、圧縮率が高い情報であり、高音質音声素片情報が、低音質音声素片情報よりも圧縮率が低い情報であってもよい。

また、音声素片情報記憶部２２は、第１実施形態と同様に、音声登録ユーザが発した音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、音声素片情報（第１の音声素片情報及び第２の音声素片情報）と音声素片識別情報とを対応付けてサーバ装置２０の記憶装置に記憶させる。

また、文字列情報受信部２４は、クライアント装置１０により送信された文字列情報を受信する。
音声素片情報取得部２５は、上記第１実施形態に係るクライアント装置１０の機能である、言語解析部１３ａ、韻律生成部１３ｂ及び音声素片選択部１３ｃと同様の機能を有する。

即ち、音声素片情報取得部２５は、文字列情報受信部２４により受信された文字列情報が表す文字列に基づいて、音韻情報及び韻律情報を含む音声素片特定情報を生成する。そして、音声素片情報取得部２５は、生成した音声素片特定情報と対応付けてサーバ装置２０の記憶装置に記憶されている音声素片識別情報を取得する。

音声合成部２６は、音声合成部１４と同様の機能を有する。即ち、音声合成部２６は、音声素片情報取得部２５により取得された音声素片情報に基づいて音声合成処理を実行する。
音声情報送信部２７は、音声合成部２６により生成された音声情報をクライアント装置１０へ送信する。

次に、この第２実施形態に係る音声合成システム１の作動について説明する。
この音声合成システム１は、クライアント装置１０のユーザ（音声合成ユーザ）が低音質の音声合成処理の実行を要求した場合（例えば、音声合成ユーザが低音質の音声合成処理の実行を要求する旨を表す情報を入力した場合）には、上述した第１実施形態と同様に作動する。

即ち、クライアント装置１０は、音声合成ユーザにより入力された文字列情報に基づいて音声素片識別情報を取得し、取得した音声素片識別情報をサーバ装置２０へ送信する。一方、サーバ装置２０は、クライアント装置１０から音声素片識別情報を受信し、受信した音声素片識別情報と対応付けて記憶されている低音質の音声素片情報をクライアント装置１０へ送信する。

そして、クライアント装置１０は、サーバ装置２０から低音質の音声素片情報を受信し、受信した低音質の音声素片情報に基づいて音声合成処理を実行する。そして、クライアント装置１０は、生成した音声情報が表す音声をスピーカから出力する。

一方、クライアント装置１０の音声合成ユーザが高音質の音声合成処理の実行を要求した場合、図１１に示したように、クライアント装置１０は、受け付けた文字列情報をサーバ装置２０へ送信する（ステップＡ１２）。

一方、サーバ装置２０は、クライアント装置１０により送信された文字列情報を受信する。そして、サーバ装置２０は、受信した文字列情報に基づいて音声素片特定情報（音韻情報及び韻律情報等）を生成する（ステップＢ１１）。

そして、サーバ装置２０は、生成した音声素片特定情報と対応付けてサーバ装置２０の記憶装置に記憶されている音声素片識別情報を取得する（ステップＢ１２）。次いで、サーバ装置２０は、取得した音声素片識別情報と対応付けて記憶装置に記憶されている高音質の音声素片情報を取得する（ステップＢ１３）。

そして、サーバ装置２０は、取得した高音質の音声素片情報に基づいて音声合成処理を実行する（ステップＢ１４）。次いで、サーバ装置２０は、生成した音声情報をクライアント装置１０へ送信する（ステップＢ１５）。
そして、クライアント装置１０は、サーバ装置２０により送信された音声情報を受信し、受信した音声情報が表す音声をスピーカから出力する。

以上、説明したように、本発明による音声合成システムの第２実施形態によれば、音声合成システム１は、音声素片情報の迅速な伝達、及び／又は、通信負荷の軽減が要求される場合には、低音質音声素片情報（第１の音声素片情報）に基づいて音声合成処理を実行し、一方、生成される音声情報の音質が高音質であることが要求される場合には、高音質音声素片情報（第２の音声素片情報）に基づいて音声合成処理を実行することができる。これにより、クライアント装置１０を使用する音声合成ユーザの利便性を向上させることができる。

更に、上記第２実施形態によれば、サーバ装置２０とクライアント装置１０との間の通信経路において情報が傍受された場合であっても、高音質音声素片情報が不正なユーザにより取得されることを防止できる。即ち、高音質音声素片情報が不正に利用されることを防止することができる。

また、上記第２実施形態によっても、上記第１実施形態と同様の作用及び効果を奏することができる。

＜第３実施形態＞
次に、本発明の第３実施形態に係る音声合成システムについて図１２を参照しながら説明する。
第３実施形態に係る音声合成システム１００は、互いに通信可能に接続されたサーバ装置１１０及びクライアント装置１２０を含むシステムである。

サーバ装置１１０の機能は、音声素片情報記憶部（音声素片情報記憶手段）１１１と、音声素片識別情報受信部（音声素片識別情報受信手段）１１２と、音声素片情報送信部（音声素片情報送信手段）１１３と、を含む。

音声素片情報記憶部１１１は、音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも１つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する。

音声素片識別情報受信部１１２は、クライアント装置１２０から上記音声素片識別情報を受信する。
音声素片情報送信部１１３は、上記受信された音声素片識別情報に対応付けて、音声素片情報記憶部１１１に記憶されている音声素片情報をクライアント装置１２０へ送信する。

また、クライアント装置１２０の機能は、音声素片識別情報記憶部（音声素片識別情報記憶手段）１２１と、文字列情報受付部（文字列情報受付手段）１２２と、音声素片識別情報送信部（音声素片識別情報送信手段）１２３と、音声合成部（音声合成手段）１２４と、を含む。

音声素片識別情報記憶部１２１は、音声素片を特定する音声素片特定情報と、上記音声素片識別情報と、を対応付けて記憶する。
文字列情報受付部１２２は、文字列を表す文字列情報を受け付ける。

音声素片識別情報送信部１２３は、文字列情報受付部１２２により受け付けられた文字列情報に基づいて音声素片特定情報を生成し、当該生成した音声素片特定情報と対応付けて音声素片識別情報記憶部１２１に記憶されている音声素片識別情報をサーバ装置１１０へ送信する。

音声合成部１２４は、サーバ装置１１０から音声素片情報を受信し、当該受信した音声素片情報に基づいて、文字列情報受付部１２２により受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する。

この第３実施形態によれば、不正なユーザが使用するクライアント装置が、規則に従って並んだ音声素片識別情報（例えば、１ずつ増加させた複数の整数（即ち、連続する整数））をサーバ装置１１０へ送信した場合であっても、ユーザ（音声登録ユーザ）が発した音声のうちの連続する複数の音声素片を含む部分をサーバ装置１１０がクライアント装置へ送信することを防止することができる。従って、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性を低減することができる。

この場合、上記音声素片識別情報は、整数を表す情報であり、
上記音声素片情報記憶手段は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する２つの整数の組であって末尾側の整数が先頭側の整数に１を加えた値と異なる値を有する組を含むように、上記音声素片情報と上記音声素片識別情報とを対応付けて記憶するように構成されることが好適である。

これによれば、不正なユーザが使用するクライアント装置が、連続する整数をサーバ装置へ送信した場合であっても、ユーザ（音声登録ユーザ）が発した音声のうちの連続する複数の音声素片を含む部分をサーバ装置がクライアント装置へ送信することを防止することができる。従って、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性を低減することができる。

この場合、上記音声素片情報記憶手段は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、上記音声素片情報と上記音声素片識別情報とを対応付けて記憶するように構成されることが好適である。

これによれば、不正なユーザが使用するクライアント装置が、連続する整数をサーバ装置へ送信した場合に、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分をサーバ装置がクライアント装置へ送信する可能性をより一層低減することができる。この結果、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性をより一層低減することができる。

この場合、上記音声素片情報記憶手段は、互いに類似する２つの音声素片の一方に対応する音声素片識別情報が表す整数が、当該２つの音声素片の他方に対応する音声素片識別情報が表す整数に１を加えた値となるように、上記音声素片情報と上記音声素片識別情報とを対応付けて記憶するように構成されることが好適である。

これによれば、不正なユーザが使用するクライアント装置が、連続する整数をサーバ装置へ送信した場合、サーバ装置は、互いに類似する２つの音声素片のそれぞれを表す音声素片情報を送信する。これにより、サーバ装置から受信した音声素片情報に基づいて不正なユーザにより上記音声が推測される可能性をより一層低減することができる。その結果、不正なユーザが使用するクライアント装置において、上記音声が再現（復元）される可能性をより一層低減することができる。

この場合、上記サーバ装置は、
上記クライアント装置から受信した音声素片識別情報が上記音声素片情報記憶手段により記憶されていない場合、その旨を表すエラー情報を出力するエラー情報出力手段を備えることが好適である。

これによれば、音声素片情報を不正に取得しようとしているクライアント装置が存在することを、サーバ装置の管理者に直ちに認識させることができる。この結果、管理者は、この状況に応じた行動を迅速に取ることができる。

この場合、上記サーバ装置は、
上記クライアント装置から受信した音声素片識別情報が上記音声素片情報記憶手段により記憶されていない場合、上記クライアント装置との間の通信を遮断する通信遮断手段を備えることが好適である。

これによれば、音声素片情報を不正に取得しようとしているクライアント装置へ、サーバ装置が音声素片情報を送信することを防止することができる。

この場合、上記音声素片情報記憶手段は、１つの音声素片を表す上記音声素片情報として、低音質の第１の音声素片情報と、当該第１の音声素片情報よりも高音質の第２の音声素片情報と、のそれぞれを記憶するように構成されることが好適である。

低音質の音声素片情報は、高音質の音声素片情報よりもデータ量（データサイズ）が小さい。従って、上記構成によれば、音声合成システムは、音声素片情報の迅速な伝達、及び／又は、通信負荷の軽減が要求される場合には、低音質の第１の音声素片情報に基づいて音声合成処理を実行し、一方、生成される音声情報の音質が高音質であることが要求される場合には、高音質の第２の音声素片情報に基づいて音声合成処理を実行することができる。これにより、クライアント装置を使用するユーザ（音声合成ユーザ）の利便性を向上させることができる。

この場合、上記クライアント装置は、
上記受け付けられた文字列情報を上記サーバ装置へ送信する文字列情報送信手段と、
上記サーバ装置から送信された音声情報を受信する音声情報受信手段と、
を備え、
上記サーバ装置は、
上記クライアント装置から送信された文字列情報を受信する文字列情報受信手段と、
上記受信された文字列情報と、上記記憶されている第２の音声素片情報と、に基づいて当該受信された文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
上記生成された音声情報を上記クライアント装置へ送信する音声情報送信手段と、
を備えることが好適である。

これによれば、サーバ装置とクライアント装置との間の通信経路において情報が傍受された場合であっても、高音質の音声素片情報が不正なユーザにより取得されることを防止できる。即ち、高音質の音声素片情報が不正に利用されることを防止することができる。

この場合、上記音声素片識別情報は、整数を表す情報であり、
上記音声素片提供方法は、
上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させる際、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する２つの整数の組であって末尾側の整数が先頭側の整数に１を加えた値と異なる値を有する組を含むように、上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させるように構成されることが好適である。

この場合、上記音声素片提供方法は、
上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させる際、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させるように構成されることが好適である。

この場合、上記音声素片識別情報は、整数を表す情報であり、
上記音声素片情報記憶処理手段は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する２つの整数の組であって末尾側の整数が先頭側の整数に１を加えた値と異なる値を有する組を含むように、上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させるように構成されることが好適である。

この場合、上記音声素片情報記憶処理手段は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させるように構成されることが好適である。

この場合、上記音声素片識別情報は、整数を表す情報であり、
上記音声合成方法は、
上記サーバ装置が上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させる際、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する２つの整数の組であって末尾側の整数が先頭側の整数に１を加えた値と異なる値を有する組を含むように、上記音声素片情報と上記音声素片識別情報とを対応付けて当該記憶装置に記憶させるように構成されることが好適である。

この場合、上記音声合成方法は、
上記サーバ装置が上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させる際、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、上記音声素片情報と上記音声素片識別情報とを対応付けて当該記憶装置に記憶させるように構成されることが好適である。

この場合、上記音声素片識別情報は、整数を表す情報であり、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する２つの整数の組であって末尾側の整数が先頭側の整数に１を加えた値と異なる値を有する組を含むように設定されることが好適である。

この場合、上記音声素片識別情報は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように設定されることが好適である。

また、本発明の他の形態である音声合成プログラムは、
サーバ装置と通信可能に接続されたクライアント装置に、
文字列を表す文字列情報を受け付ける文字列情報受付手段と、
上記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも１つが、所定の規則に従って並べられた情報と異なる情報を有するように設定された音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する記憶装置に、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を上記サーバ装置へ送信する音声素片識別情報送信手段と、
上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
を実現させるためのプログラムである。

上述した構成を有する、音声素片提供装置、音声素片提供方法、音声素片提供プログラム、音声合成方法、クライアント装置、又は、音声合成プログラム、の発明であっても、上記音声合成システムと同様の作用を有するために、上述した本発明の目的を達成することができる。

以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。

例えば、上記各実施形態においては、サーバ装置２０は、音声登録ユーザが発した音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、音声素片情報と音声素片識別情報とを対応付けて記憶していた。

ところで、上記各実施形態の変形例においては、サーバ装置２０は、音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する２つの整数の組であって末尾側の整数が先頭側の整数に１を加えた値と異なる値を有する組を含むように、音声素片情報と音声素片識別情報とを対応付けて記憶していてもよい。

これによれば、不正なユーザが使用するクライアント装置１０が、連続する整数をサーバ装置２０へ送信した場合であっても、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分をサーバ装置２０がクライアント装置１０へ送信することを防止することができる。従って、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性を低減することができる。

また、上記各実施形態においては、音声素片識別情報は、整数であったが、実数であってもよく、文字列であってもよい。また、上記各実施形態においては、音声素片識別情報が表す整数は、１０進数により表される整数であったが、Ｎ進数（Ｎは、１０以外の数）により表される整数であってもよい。

更に、上記各実施形態において、音声素片情報は、音声素片を波形により表した情報であってもよく、音声素片をパラメータ（例えば、ＰＡＲＣＯＲ係数（ＰａｒｔｉａｌＡｕｔｏ−ｃｏｒｒｅｌａｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔ））により表した情報であってもよい。

また、上記各実施形態の変形例においては、音声素片情報は、音声登録ユーザが発した音声を表す音声情報と、その音声における音声素片の開始位置及び終了位置を表す位置情報と、から構成されていてもよい。

更に、上記各実施形態においては、１つの音声素片情報と対応付けて記憶されている音声素片識別情報は、１つのみであったが複数であってもよい。

また、上記各実施形態は、ユーザにより入力された文字列情報を受け付けるように構成されていたが、予め記憶されている文字列情報を受け付けるように構成されていてもよく、他の装置から受信した文字列情報を受け付けるように構成されていてもよい。

なお、本発明は、日本国にて２００８年８月１３日に出願された特願２００８−２０８２８９の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願にて開示された内容のすべてが本明細書に含まれるものとする。

本発明は、サーバ装置とクライアント装置とが通信を行うことにより音声合成処理を実行する音声合成システム等に適用可能である。

１音声合成システム
１０クライアント装置
１１文字列情報受付部
１２音声素片識別情報記憶部
１３音声素片識別情報送信部
１３ａ言語解析部
１３ｂ韻律生成部
１３ｃ音声素片選択部
１４音声合成部
１５文字列情報送信部
１６音声情報受信部
２０サーバ装置
２１音声素片識別情報受信部
２２音声素片情報記憶部
２３音声素片情報送信部
２３ａエラー情報出力部
２３ｂ通信遮断部
２４文字列情報受信部
２５音声素片情報取得部
２６音声合成部
２７音声情報送信部
１００音声合成システム
１１０サーバ装置
１１１音声素片情報記憶部
１１２音声素片識別情報受信部
１１３音声素片情報送信部
１２０クライアント装置
１２１音声素片識別情報記憶部
１２２文字列情報受付部
１２３音声素片識別情報送信部
１２４音声合成部

Claims

互いに通信可能に接続されたサーバ装置及びクライアント装置を含む音声合成システムであって、
前記サーバ装置は、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも１つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する音声素片情報記憶手段と、
前記クライアント装置から前記音声素片識別情報を受信する音声素片識別情報受信手段と、
前記受信された音声素片識別情報に対応付けて記憶されている音声素片情報を前記クライアント装置へ送信する音声素片情報送信手段と、
を備え、
前記クライアント装置は、
音声素片を特定する音声素片特定情報と、前記音声素片識別情報と、を対応付けて記憶する音声素片識別情報記憶手段と、
文字列を表す文字列情報を受け付ける文字列情報受付手段と、
前記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を前記サーバ装置へ送信する音声素片識別情報送信手段と、
前記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、前記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
を備える音声合成システム。
請求項１に記載の音声合成システムであって、
前記音声素片識別情報は、整数を表す情報であり、
前記音声素片情報記憶手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する２つの整数の組であって末尾側の整数が先頭側の整数に１を加えた値と異なる値を有する組を含むように、前記音声素片情報と前記音声素片識別情報とを対応付けて記憶するように構成された音声合成システム。
請求項２に記載の音声合成システムであって、
前記音声素片情報記憶手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、前記音声素片情報と前記音声素片識別情報とを対応付けて記憶するように構成された音声合成システム。
請求項２又は請求項３に記載の音声合成システムであって、
前記音声素片情報記憶手段は、互いに類似する２つの音声素片の一方に対応する音声素片識別情報が表す整数が、当該２つの音声素片の他方に対応する音声素片識別情報が表す整数に１を加えた値となるように、前記音声素片情報と前記音声素片識別情報とを対応付けて記憶するように構成された音声合成システム。
請求項１乃至請求項４のいずれか一項に記載の音声合成システムであって、
前記サーバ装置は、
前記クライアント装置から受信した音声素片識別情報が前記音声素片情報記憶手段により記憶されていない場合、その旨を表すエラー情報を出力するエラー情報出力手段を備える音声合成システム。
請求項１乃至請求項５のいずれか一項に記載の音声合成システムであって、
前記サーバ装置は、
前記クライアント装置から受信した音声素片識別情報が前記音声素片情報記憶手段により記憶されていない場合、前記クライアント装置との間の通信を遮断する通信遮断手段を備える音声合成システム。
請求項１乃至請求項６のいずれか一項に記載の音声合成システムであって、
前記音声素片情報記憶手段は、１つの音声素片を表す前記音声素片情報として、低音質の第１の音声素片情報と、当該第１の音声素片情報よりも高音質の第２の音声素片情報と、のそれぞれを記憶するように構成された音声合成システム。
請求項７に記載の音声合成システムであって、
前記クライアント装置は、
前記受け付けられた文字列情報を前記サーバ装置へ送信する文字列情報送信手段と、
前記サーバ装置から送信された音声情報を受信する音声情報受信手段と、
を備え、
前記サーバ装置は、
前記クライアント装置から送信された文字列情報を受信する文字列情報受信手段と、
前記受信された文字列情報と、前記記憶されている第２の音声素片情報と、に基づいて当該受信された文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
前記生成された音声情報を前記クライアント装置へ送信する音声情報送信手段と、
を備える音声合成システム。
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも１つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する音声素片情報記憶手段と、
前記音声素片識別情報を受信する音声素片識別情報受信手段と、
前記受信された音声素片識別情報に対応付けて前記音声素片情報記憶手段に記憶されている音声素片情報を送信する音声素片情報送信手段と、
を備える音声素片提供装置。
請求項９に記載の音声素片提供装置であって、
前記音声素片識別情報は、整数を表す情報であり、
前記音声素片情報記憶手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する２つの整数の組であって末尾側の整数が先頭側の整数に１を加えた値と異なる値を有する組を含むように、前記音声素片情報と前記音声素片識別情報とを対応付けて記憶するように構成された音声素片提供装置。
請求項１０に記載の音声素片提供装置であって、
前記音声素片情報記憶手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、前記音声素片情報と前記音声素片識別情報とを対応付けて記憶するように構成された音声素片提供装置。
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも１つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶装置に記憶させ、
前記音声素片識別情報を受信し、
前記受信された音声素片識別情報に対応付けて前記記憶装置に記憶されている音声素片情報を送信する、音声素片提供方法。
請求項１２に記載の音声素片提供方法であって、
前記音声素片識別情報は、整数を表す情報であり、
前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる際、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する２つの整数の組であって末尾側の整数が先頭側の整数に１を加えた値と異なる値を有する組を含むように、前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる、音声素片提供方法。
請求項１３に記載の音声素片提供方法であって、
前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる際、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる、音声素片提供方法。
記憶装置を備える音声素片提供装置に、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも１つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて前記記憶装置に記憶させる音声素片情報記憶処理手段と、
前記音声素片識別情報を受信する音声素片識別情報受信手段と、
前記受信された音声素片識別情報に対応付けて前記記憶装置に記憶されている音声素片情報を送信する音声素片情報送信手段と、
を実現させるための音声素片提供プログラム。
請求項１５に記載の音声素片提供プログラムであって、
前記音声素片識別情報は、整数を表す情報であり、
前記音声素片情報記憶処理手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する２つの整数の組であって末尾側の整数が先頭側の整数に１を加えた値と異なる値を有する組を含むように、前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させるように構成された音声素片提供プログラム。
請求項１６に記載の音声素片提供プログラムであって、
前記音声素片情報記憶処理手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させるように構成された音声素片提供プログラム。
互いに通信可能に接続されたサーバ装置及びクライアント装置を含む音声合成システムに適用され、
前記クライアント装置が、文字列を表す文字列情報を受け付け、
前記クライアント装置が、音声素片を特定する音声素片特定情報を、前記受け付けられた文字列情報に基づいて生成し、
音声素片を表す音声素片情報を識別する音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する記憶装置であって前記クライアント装置が備える記憶装置に、前記生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を、当該クライアント装置が前記サーバ装置へ送信し、
前記サーバ装置が前記クライアント装置から前記音声素片識別情報を受信し、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも１つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する記憶装置であって前記サーバ装置が備える記憶装置に、前記受信された音声素片識別情報と対応付けて記憶されている音声素片情報を、当該サーバ装置が前記クライアント装置へ送信し、
前記クライアント装置が前記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、前記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する、音声合成方法。
請求項１８に記載の音声合成方法であって、
前記音声素片識別情報は、整数を表す情報であり、
前記サーバ装置が前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる際、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する２つの整数の組であって末尾側の整数が先頭側の整数に１を加えた値と異なる値を有する組を含むように、前記音声素片情報と前記音声素片識別情報とを対応付けて当該記憶装置に記憶させる、音声合成方法。
請求項１９に記載の音声合成方法であって、
前記サーバ装置が前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる際、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、前記音声素片情報と前記音声素片識別情報とを対応付けて当該記憶装置に記憶させる、音声合成方法。
サーバ装置と通信可能に接続されたクライアント装置であって、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも１つが、所定の規則に従って並べられた情報と異なる情報を有するように設定された音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する音声素片識別情報記憶手段と、
文字列を表す文字列情報を受け付ける文字列情報受付手段と、
前記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を前記サーバ装置へ送信する音声素片識別情報送信手段と、
前記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、前記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
を備えるクライアント装置。
請求項２１に記載のクライアント装置であって、
前記音声素片識別情報は、整数を表す情報であり、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する２つの整数の組であって末尾側の整数が先頭側の整数に１を加えた値と異なる値を有する組を含むように設定されたクライアント装置。
請求項２２に記載のクライアント装置であって、
前記音声素片識別情報は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように設定されたクライアント装置。
サーバ装置と通信可能に接続されたクライアント装置に、
文字列を表す文字列情報を受け付ける文字列情報受付手段と、
前記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも１つが、所定の規則に従って並べられた情報と異なる情報を有するように設定された音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する記憶装置に、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を前記サーバ装置へ送信する音声素片識別情報送信手段と、
前記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、前記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
を実現させるための音声合成プログラム。
請求項２４に記載の音声合成プログラムであって、
前記音声素片識別情報は、整数を表す情報であり、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する２つの整数の組であって末尾側の整数が先頭側の整数に１を加えた値と異なる値を有する組を含むように設定された音声合成プログラム。
請求項２５に記載の音声合成プログラムであって、
前記音声素片識別情報は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように設定された音声合成プログラム。