JP2018155774A

JP2018155774A - 音声合成装置、音声合成方法およびプログラム

Info

Publication number: JP2018155774A
Application number: JP2017049801A
Authority: JP
Inventors: 眞弘森田; Shinko Morita; 紘一郎森; Koichiro Mori; 大和大谷; Yamato Otani
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2017-03-15
Filing date: 2017-03-15
Publication date: 2018-10-04
Also published as: WO2018168032A1; US20200066250A1; CN110431621A

Abstract

【課題】登録された話者性が第三者によって不用意に利用されることを有効に防止して、話者性の独占利用を可能にする。
【解決手段】実施形態の音声合成装置は、音声合成部と、話者パラメータ記憶部と、利用可否判定部と、話者パラメータ制御部と、を備える。音声合成部は、話者性に関するパラメータの値である話者パラメータ値に基づいて、合成音の話者性を制御可能である。話者パラメータ記憶部は、登録済み話者パラメータ値を記憶する。利用可否判定部は、入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定する。話者パラメータ制御部は、前記利用可否判定部により利用不可と判定された話者パラメータ値の利用を禁止または制限する。
【選択図】図１

Description

本発明の実施形態は、音声合成装置、音声合成方法およびプログラムに関する。

音声合成では、生成する合成音の話者について、事前に用意された少数の候補から選ぶだけではなく、読ませたいコンテンツに適した話者性や利用者独自の話者性を新たに作り出したいというニーズがある。このニーズに応える手段として、例えば、話者性に関わるパラメータの操作によって、新たな話者性を作り出せる技術が提案されている。

こうした技術の性能が高まるにつれて、オリジナリティの高い様々な話者性を利用者が自在に作り出せるようになると、新たに作り出した話者性を独自の話者性として独占的に利用したいといったニーズが高まることが予想される。しかし、ある利用者が作り出した話者性と同一あるいは類似の話者性が、他の利用者によってたまたま作り出されて実際の製品・サービスなどで使われてしまう可能性があり、そうしたニーズに応えることができない。

特許第４２９６２３１号公報

本発明が解決しようとする課題は、話者性の独占利用を可能にする音声合成装置、音声合成方法およびプログラムを提供することである。

実施形態の音声合成装置は、音声合成部と、話者パラメータ記憶部と、利用可否判定部と、話者パラメータ制御部と、を備える。音声合成部は、話者性に関するパラメータの値である話者パラメータ値に基づいて、合成音の話者性を制御可能である。話者パラメータ記憶部は、登録済み話者パラメータ値を記憶する。利用可否判定部は、入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定する。話者パラメータ制御部は、前記利用可否判定部により利用不可と判定された話者パラメータ値の利用を禁止または制限する。

図１は、第１実施形態に係る音声合成装置の機能的な構成例を示すブロック図である。図２は、音声合成部と音声合成モデル記憶部の構成例を示すブロック図である。図３は、話者パラメータ値をサブモデルの重みに変換する具体例を示す図である。図４は、話者パラメータ記憶部に格納される情報の一例を示す図である。図５は、利用可否判定部による処理手順の一例を示すフローチャートである。図６は、ユーザインタフェースの画面構成例を示す図である。図７は、ユーザインタフェースの画面構成例を示す図である。図８は、ユーザインタフェースの画面構成例を示す図である。図９は、ユーザインタフェースの画面構成例を示す図である。図１０は、ユーザインタフェースの画面構成例を示す図である。図１１は、ユーザインタフェースの画面構成例を示す図である。図１２は、第２実施形態に係る音声合成装置の機能的な構成例を示すブロック図である。図１３は、利用可否の判定と登録可否の判定との違いを示す概念図である。図１４は、ユーザインタフェースの画面構成例を示す図である。図１５は、ユーザインタフェースの画面構成例を示す図である。図１６は、ユーザインタフェースの画面構成例を示す図である。図１７は、ユーザインタフェースの画面構成例を示す図である。図１８は、ユーザインタフェースの画面構成例を示す図である。図１９は、音声合成装置のハードウェア構成例を示すブロック図である。

以下、実施形態の音声合成装置、音声合成方法およびプログラムの詳細について、図面を参照しながら説明する。なお、以下の説明において、同様の機能を持つ構成要素については同一の符号を付して、重複した説明を適宜省略する。

＜第１実施形態＞
図１は、第１実施形態に係る音声合成装置の機能的な構成例を示すブロック図である。図１に示すように、本実施形態の音声合成装置は、音声合成部１０と、音声合成モデル記憶部２０と、表示・入力制御部３０と、話者パラメータ制御部４０と、話者パラメータ記憶部５０と、利用可否判定部６０とを備える。

音声合成部１０は、テキスト情報が入力されると、音声合成モデル記憶部２０に格納されている各種のモデルや規則を用いて、合成音の音声波形を生成する。その際、話者パラメータ制御部４０から話者性に関わるパラメータの値である話者パラメータ値が入力されていれば、入力された話者パラメータ値に応じて話者性を制御しながら音声波形を生成する。話者性とは、話者固有の音声の特徴を表し、例えば、年齢、明るさ、硬さ、クリアさ・・・といった複数の要素を持つ。話者パラメータ値は、例えば、これら話者性の各要素に対応する値の集合である。

音声合成モデル記憶部２０には、音声の音響的な特徴をモデル化した音響モデルや、抑揚・リズムなどの韻律をモデル化した韻律モデル、その他の音声合成に必要な各種情報が格納されている。さらに本実施形態の音声合成装置においては、話者性の制御に必要なモデルも音声合成モデル記憶部２０に格納されている。

ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）に基づく音声合成方式の場合、音声合成モデル記憶部２０に格納されている韻律モデルや音響モデルは、テキストから抽出されるテキスト情報と、韻律や音響などのパラメータ系列との対応関係をモデル化したものである。テキスト情報は一般的に、テキストの読みやアクセントに対応した音韻情報や、語句の区切りや品詞などの言語情報からなり、モデルは各パラメータを状態ごとに音韻・言語環境でクラスタリングした決定木と、決定木の各リーフノードに割り当てられたパラメータの確率分布からなる。

韻律パラメータとしては、声の高さを表すピッチパラメータや、音の長さを表す継続時間長などがある。また、音響パラメータとしては、声道の特徴を表すスペクトルパラメータや、音源信号の非周期性の程度を表す非周期性指標などがある。状態とは、各パラメータの時間変化をＨＭＭでモデル化したときの内部状態を指す。通常、各音素区間は、後戻り無しで左から右の状態に遷移する３〜５状態のＨＭＭでモデル化されるため、３〜５個の状態を含む。そこで、例えばピッチパラメータの第一状態に対する決定木では、音素区間内の先頭区間のピッチ値の確率分布が音韻・言語環境でクラスタリングされており、対象の音素区間に関する音韻・言語情報を基にこの決定木をたどることで、その音素の先頭区間のピッチパラメータの確率分布を得ることができる。パラメータの確率分布には正規分布が用いられることが多く、その場合、分布の中心を表す平均ベクトルと分布の広がりを表す共分散行列で表現される。

音声合成部１０では、入力されたテキスト情報をもとに、各パラメータの各状態に対する確率分布を上述のような決定木で選択して、これらの確率分布を基に確率が最大となるパラメータ系列をそれぞれ生成し、これらのパラメータ系列を基に音声波形を生成する。一般的なＨＭＭに基づく方式の場合、生成されたピッチパラメータと非周期性指標を基に音源波形を生成し、この音源波形に、生成されたスペクトルパラメータに従ってフィルタ特性が時間変化する声道フィルタを畳み込むことで、音声波形を生成する。

本実施形態の音声合成装置における音声合成部１０では、話者パラメータ制御部４０からの話者パラメータ値の指定により話者性の制御が可能である。これを実現する方法として、例えば、特許文献１に記載されているように、声質の異なる複数話者の声をそれぞれモデル化した複数の音響モデルを音声合成モデル記憶部２０に格納しておき、指定された話者パラメータ値に応じて、いくつかの音響モデルを選択して、選択された音響モデルからの音響パラメータを重み付け和などで補間することによって、所望の話者性を実現することができる。

あるいは、図２に示すような構成の音声合成部１０と音声合成モデル記憶部２０によっても、話者性の制御を実現することが可能である。図２に示す構成では、音声合成モデル記憶部２０に、ベースとなる話者性の韻律・声質をモデル化したベースモデルと、話者性の各要素の違いによる韻律・音響パラメータの違いをモデル化した話者性制御モデルとが格納される。

ベースモデルは、複数話者の平均的な話者性を表現した平均声モデルと呼ばれるモデルでもよいし、ある話者の話者性を表現したモデルでもよい。ベースモデルの具体的な構成は、例えば、上述のＨＭＭに基づく方式での韻律モデルや音響モデルと同様に、各パラメータを状態ごとに音韻・言語環境でクラスタリングした決定木と、決定木の各リーフノードに割り当てられたパラメータの確率分布からなる。

話者性制御モデルについても、決定木と、決定木の各リーフノードに割り当てられた確率分布からなるモデルでよいが、このモデルでの確率分布は、話者性の各要素の違いに対応した韻律・音響パラメータの差分を表すものである。具体的には、年齢の違いによる韻律・声質パラメータの違いをモデル化した年齢モデルや、声の明るさの違いによる韻律・声質パラメータの違いをモデル化した明るさモデル、声の硬さの違いによる韻律・声質パラメータの違いをモデル化した硬さモデル、声のクリアさの違いによる韻律・声質パラメータの違いをモデル化したクリアさモデルなどのサブモデルが含まれている。

図２に示す構成の音声合成部１０は、選択部１１と、加算部１２と、パラメータ生成部１３と、波形生成部１４と、重み設定部１５とを含む。選択部１１は、入力されたテキスト情報をもとに、ベースモデルと話者性制御モデルの各サブモデルのそれぞれから決定木により確率分布を選択する。加算部１２は、選択部１１で選択された確率分布の平均値を、重み設定部１５から与えられた各サブモデルの重みに従って重み付きで加算し、分散はベースモデルのものを用いることで、話者性制御モデルを反映した確率分布を得る。

ここで、サブモデルの重みは、話者パラメータ制御部４０から与えられた話者パラメータ値を重み設定部１５が変換したものである。一つの具体例を図３に示す。この例では、話者パラメータ値とサブモデルの重みのいずれも、各要素は話者性制御モデルの各サブモデルと対応しているが、値の表現方法が異なる。話者パラメータ値は、要素によって連続値と離散的なカテゴリとがあり、値のレンジも要素ごとに異なる一方、サブモデルの重みはいずれも連続値で値の範囲は−１．０〜１．０に正規化されている。ただし、話者パラメータ値とサブモデルの重みの値の表現方法はこれに限定されず、両者で必ずしも異なる必要はない。

加算部１２は、上述の加算処理を各パラメータの各状態で行い、各パラメータについて、重み付き加算された確率分布の系列を生成する。

パラメータ生成部１３は、スペクトルパラメータやピッチパラメータなどの各パラメータについて、加算部１２から与えられた確率分布の系列をもとに、確率が最大となるパラメータ系列を生成する。波形生成部１４は、生成されたパラメータ系列をもとに、合成音の音声波形を生成する。

以上のように、図２に示す構成の音声合成部１０は、話者パラメータ制御部４０で指定された話者パラメータ値に応じて、話者性を自在に制御することができる。

図１に戻り、表示・入力制御部３０は、話者パラメータ制御部４０に設定される話者パラメータ値を可視化して表示するとともに、利用者が話者パラメータ値を変更・入力できるユーザインタフェースを利用者に提供する。利用者がこのユーザインタフェースを利用して話者パラメータ値を変更・入力する操作を行うと、表示・入力制御部３０は、そのユーザ操作に応じた話者パラメータ値を話者パラメータ制御部４０に送る。また、話者パラメータ制御部４０から話者パラメータ値の利用禁止あるいは制限に関する情報が返された場合は、表示・入力制御部３０は、ユーザインタフェースを通じてその内容を利用者に通知する。また、話者パラメータ記憶部５０に格納された登録済み話者パラメータ値を所有する利用者については、利用者を特定できる情報（利用者情報）を入力することで、所有する話者パラメータ値を話者パラメータ記憶部５０から呼び出す指示を出すこともできる。ユーザインタフェースの具体例については、詳細を後述する。

話者パラメータ制御部４０は、表示・入力制御部３０や利用可否判定部６０と連携しながら話者パラメータ値に関する処理を行う。例えば、表示・入力制御部３０から利用者が入力した話者パラメータ値が与えられた場合、話者パラメータ制御部４０は、その話者パラメータ値と利用者情報などを利用可否判定部６０に渡して話者パラメータ値の利用可否を判定させる。そして、利用者が入力した話者パラメータ値が利用可と判定された場合、話者パラメータ制御部４０は、その話者パラメータ値を音声合成部１０に渡して、音声合成に利用できるようにする。また、利用者が入力した話者パラメータ値が利用不可と判定された場合、話者パラメータ制御部４０は、その話者パラメータの利用を禁止または制限し、利用の禁止や制限に関する情報を表示・入力制御部３０に渡す。なお、利用の制限とは、条件付きで利用を許可することを意味する。また、表示・入力制御部３０から登録済み話者パラメータ値の呼び出し指示が出された場合、話者パラメータ制御部４０は、利用者を特定した上で話者パラメータ記憶部５０から該当する登録済み話者パラメータ値を取り出し、表示・入力制御部３０や音声合成部１０に渡す。

話者パラメータ記憶部５０には、各利用者が所有する登録済み話者パラメータ値が格納されている。本実施形態では、図１に示す音声合成装置とは別の装置により話者パラメータ値の登録が行われ、登録済み話者パラメータ値が話者パラメータ記憶部５０に格納されるものとする。話者パラメータ値の登録が行われると、話者パラメータ記憶部５０には、登録済み話者パラメータ値のほか、登録済み話者パラメータ値に関わる補助情報が格納される。

話者パラメータ記憶部５０に格納される情報の一例を図４に示す。図４における各行は、登録済みパラメータ値およびその補助情報を示しており、登録済みパラメータ値に対して一意に割り当てられた識別情報である話者性ＩＤに対応付けて、登録済みパラメータ値を構成する話者性の各要素の値と、その登録済みパラメータ値の所有者や登録済みパラメータ値の利用条件などの補助情報が格納されている。所有者は、話者性ＩＤが０００１や０００２の登録済みパラメータ値のように会社や部門などのグループの場合もあれば、話者性ＩＤが０００３や０００４の登録済みパラメータ値のように個人の場合もある。利用条件については、例えば、話者性ＩＤが０００１の登録済みパラメータ値のように所有者以外の利用は全て利用不可とするもの、話者性ＩＤが０００２や０００３の登録済みパラメータ値のように期間や用途によって利用可能とするものなど、いくつかの設定があり得る。あるいは、他者に所有されて利用できなくなるのを防ぐため、話者性ＩＤが０００４の登録済みパラメータ値のように利用制限をかけることなく所有される場合もある。

利用可否判定部６０は、話者パラメータ制御部４０から、利用者により入力された話者パラメータ値と利用者情報などが入力されると、これらを話者パラメータ記憶部５０に格納されている登録済み話者パラメータ値および補助情報の各々と照合して、入力された話者パラメータ値の利用可否を判定し、判定結果を話者パラメータ制御部４０に返す。

ここで、図５を参照して利用可否判定部６０による判定方法の一例を説明する。図５は、利用可否判定部６０による処理手順の一例を示すフローチャートである。利用可否判定部６０は、利用者により入力された話者パラメータ値（Ｐ_ｉｎ＝｛ｐ_ｉｎ ^（０），ｐ_ｉｎ ^（１），ｐ_ｉｎ ^（２），・・・，ｐ_ｉｎ ^{（Ｃ−１）}｝とする。ここで、ｐ_ｉｎ ^（ｋ）はｋ番目の要素の値、Ｃは要素の個数を表す。）と利用者情報を話者パラメータ制御部４０から受け取ると（ステップＳ１０１）、話者性ＩＤのカウンタｊを最初の登録済みパラメータ値（この例ではｊ＝０００１）に設定する（ステップＳ１０２）。

次に、利用可否判定部６０は、話者パラメータ記憶部５０を参照して、話者性ＩＤ＝ｊの登録済み話者パラメータ値および補助情報を取得し（ステップＳ１０３）、次のステップＳ１０４に進む。ここで話者性ＩＤ＝ｊの登録済み話者パラメータ値をＰ_（ｊ）＝｛ｐ_（ｊ） ^（０），ｐ_（ｊ） ^（１），ｐ_（ｊ） ^（２），・・・，ｐ_（ｊ） ^{（Ｃ−１）}｝とする。また、話者パラメータ記憶部５０に格納されている登録済み話者パラメータ値の総数をＮとする。

次のステップＳ１０４では、利用可否判定部６０は、ステップＳ１０１で受け取った利用者情報とステップＳ１０３で取得した補助情報とに基づき、話者パラメータ値を入力した利用者が話者性ＩＤ＝ｊの登録済み話者パラメータ値の所有者かどうかを判定する（ステップＳ１０４）。そして、話者パラメータ値を入力した利用者が話者性ＩＤ＝ｊの登録済み話者パラメータ値の所有者であれば（ステップＳ１０４：Ｙｅｓ）ステップＳ１０９に進み、所有者でない場合は（ステップＳ１０４：Ｎｏ）ステップＳ１０５に進む。

ステップＳ１０５では、利用可否判定部６０は、ステップＳ１０３で取得した補助情報に基づき、利用者による話者パラメータ値の利用が話者性ＩＤ＝ｊの登録済み話者パラメータ値の利用条件に抵触するかどうかを判定し（ステップＳ１０５）、抵触しなければ（ステップＳ１０５：Ｎｏ）ステップＳ１０９に進み、抵触する場合は（ステップＳ１０５：Ｙｅｓ）ステップＳ１０６に進む。登録済み話者パラメータ値の利用条件に抵触するかどうかの判定方法は、話者パラメータ記憶部５０に補助情報として格納された登録済み話者パラメータ値の利用条件によって異なる。例えば、話者性ＩＤ＝ｊの登録済み話者パラメータ値の利用条件が利用不可である場合は、利用条件に抵触すると判定される。また、話者性ＩＤ＝ｊの登録済み話者パラメータ値の利用条件が所定期間のみ利用可とするものである場合は、例えば現在時刻がその所定期間内であれば利用条件に抵触しないと判定され、現在時刻が所定期間外であれば利用条件に抵触すると判定される。

ステップＳ１０６では、利用可否判定部６０は、ステップＳ１０１で受け取った話者パラメータ値（利用者により入力された話者パラメータ値）と、ステップＳ１０３で取得した登録済み話者パラメータ値（話者性ＩＤ＝ｊの登録済み話者パラメータ値）とから、所定の評価関数を用いてそれらの差異であるＤｉｆｆ（Ｐ_ｉｎ，Ｐ_（ｊ））を算出し、次のステップＳ１０７に進む。

ステップＳ１０７では、利用可否判定部６０は、ステップＳ１０６で算出したＤｉｆｆ（Ｐ_ｉｎ，Ｐ_（ｊ））の値を、登録済み話者パラメータ値の範囲を示す第１閾値と比較し、Ｄｉｆｆ（Ｐ_ｉｎ，Ｐ_（ｊ））の値が第１閾値以下の場合（ステップＳ１０７：Ｙｅｓ）、すなわち利用者に入力された話者パラメータ値と話者性ＩＤ＝ｊの登録済み話者パラメータ値とが類似する場合は、ステップＳ１０８において、利用者により入力された話者パラメータ値を「利用不可」と判定し、判定結果を話者パラメータ制御部４０に返して処理を終了する。一方、Ｄｉｆｆ（Ｐ_ｉｎ，Ｐ_（ｊ））の値が第１閾値を超えている場合は（ステップＳ１０７：Ｎｏ）、ステップＳ１０９に進む。

ステップＳ１０９では、利用可否判定部６０は、ｊ＝Ｎかどうか、すなわち、話者パラメータ記憶部５０に格納されている全ての登録済み話者パラメータ値および補助情報との照合が完了したかどうかを確認し、ｊ＝Ｎでなければ（ステップＳ１０９：Ｎｏ）、ステップＳ１１０において話者性ＩＤのカウンタｊをインクリメントした後、ステップＳ１０３に戻って以降の処理を繰り返す。一方、ｊ＝Ｎであれば（ステップＳ１０９：Ｙｅｓ）、ステップＳ１１１において、利用者により入力された話者パラメータ値を「利用可」と判定し、判定結果を話者パラメータ制御部４０に返して処理を終了する。

ここで、上記ステップＳ１０６で用いる、２つの話者パラメータ値Ｐ_１，Ｐ_２の差異Ｄｉｆｆ（Ｐ_１，Ｐ_２）について説明する。Ｄｉｆｆ（Ｐ_１，Ｐ_２）は、例えば、下記式（１）に示すように、話者パラメータ値を構成する話者性の各要素の差異を重み付け和したものとして定義できる。

ここで、Ｐ_１＝｛ｐ_１ ^（０），ｐ_１ ^（１），ｐ_１ ^（２），・・・，ｐ_１ ^{（Ｃ−１）}｝、Ｐ_２＝｛ｐ_２ ^（０），ｐ_２ ^（１），ｐ_２ ^（２），・・・，ｐ_２ ^{（Ｃ−１）}｝であり、λ^（ｋ）はｋ番目の要素の重み、ｄ^（ｋ）（ｐ_１ ^（ｋ），ｐ_２ ^（ｋ））はｋ番目の要素での差異を表す。ｄ^（ｋ）（ｐ_１ ^（ｋ），ｐ_２ ^（ｋ））は、連続値で表現される要素についてはｐ_１ ^（ｋ）とｐ_２ ^（ｋ）の二乗誤差、離散的なカテゴリで表現される要素についてはｐ_１ ^（ｋ）とｐ_２ ^（ｋ）が一致すれば０、それ以外は１などで定義できる。λ^（ｋ）は、話者性の主観的な差異への影響の大きい要素ほど重みが大きくなっているのが望ましい。例えば、様々なＰ_１とＰ_２の組み合わせに対して生成された音声での話者性の違いを主観評価し、その結果を重回帰分析することで、ｄ^（０）（ｐ_１ ^（０），ｐ_２ ^（０））、・・・、ｄ^{（Ｃ−１）}（ｐ_１ ^{（Ｃ−１）}，ｐ_２ ^{（Ｃ−１）}）と、主観評価値との関係を求め、その結果として得られる重回帰式の係数を重みとして用いるといったことが考えられる。

上記のＤｉｆｆ（Ｐ_１，Ｐ_２）の例は、各要素が話者性の違いに独立に影響することを仮定したものであるが、上記のような主観評価を大量に実施して得たｄ^（０）（ｐ_１ ^（０），ｐ_２ ^（０））、・・・、ｄ^{（Ｃ−１）}（ｐ_１ ^{（Ｃ−１）}，ｐ_２ ^{（Ｃ−１）}）と主観評価値の多数の組合せのデータから、Ｄｉｆｆ（Ｐ_１，Ｐ_２）を推定するニューラルネットワークを深層学習の手法を用いて学習すれば、各要素間の相互作用もある程度反映したＤｉｆｆ（Ｐ_１，Ｐ_２）の推定が可能である。

上記ステップＳ１０７の判定で用いる第１閾値は、話者パラメータ記憶部５０に格納されている全ての登録済み話者パラメータ値に共通の値でもよいが、登録済み話者パラメータ値ごとに異なってもよい。この場合、話者パラメータ記憶部５０に格納される補助情報には、図４に示した所有者や利用条件の情報に加え、登録済み話者パラメータ値の登録範囲を示す第１閾値も含まれる。例えば所有者が、ある特定の登録済み話者パラメータ値を広めに独占したい場合は、その登録済み話者パラメータ値に対応する第１閾値を大き目に登録しておけば、利用不可と判定される範囲を広げることができる。

次に、上述の表示・入力制御部３０により利用者に提供されるユーザインタフェースの具体例を例示しながら、利用者の操作に応じた音声合成装置のインタラクティブな動作の一例を説明する。

図６乃至図１１は、表示・入力制御部３０により利用者に提供されるユーザインタフェースの画面構成例を示す図である。図６乃至図１１に示す画面は、表示・入力制御部３０によって、例えば、キーボードやマウスなどの入力デバイスを用いた入力操作を受け付け可能な画面として、液晶ディスプレイなどの表示装置に表示される。なお、ここで例示するユーザインタフェースはあくまで一例であり、様々な変形や変更が可能である。表示・入力制御部３０により利用者に提供されるユーザインタフェースは、少なくとも、利用者が所望の話者パラメータ値を入力できる構成であればよい。

本実施形態の音声合成装置の起動後、利用者が所定の手続きを経てログインすると、音声合成装置に接続された表示装置、あるいは利用者の端末が備える表示装置に、例えば図６に示す画面１００が表示される。この図６に示す画面１００は、音声合成の対象となるテキスト情報を入力するためのテキストボックス１０１と、利用したい話者性を選択するためのプルダウンメニュー１０２と、声の大きさ、話す速さ、声の高さといった一般的な声質のパラメータを設定するためのスライドバー１０３ａ，１０３ｂ，１０３ｃと、合成音の音声波形の生成を指示する「合成」ボタン１０４と、生成した合成音の音声波形の保存を指示する「保存」ボタン１０５とを含む。プルダウンメニュー１０２には、事前に用意された典型的な話者性のほか、利用者が作成する話者性を利用する選択肢「作成話者」と、利用者が過去に作成して登録した話者性を利用する選択肢「登録話者」とが用意されている。

この図６に示す画面１００のプルダウンメニュー１０２から「落ち着いた中年男性」、「元気な若い女性」、「ナレータ風の女性」などの事前に用意された典型的な話者性を選択した場合は、利用者は、この画面１００上の操作により、選択した話者性に対応する話者パラメータ値を適用した合成音の音声波形を得ることができる。すなわち、テキストボックス１０１に音声合成の対象となるテキスト情報を入力し、必要に応じてスライドバー１０３ａ，１０３ｂ，１０３ｃを操作して声質のパラメータを調整した後、「合成」ボタン１０４を押す。これにより、選択した話者性に対応する話者パラメータ値を適用した合成音の音声波形が音声合成部１０により生成される。また、利用者が「保存」ボタン１０５を押した場合は、音声合成部１０により生成された合成音の音声波形が、所定の保存先に保存される。

また、利用者が図６に示す画面１００のプルダウンメニュー１０２から「作成話者」を選択する操作を行うと、図６に示す画面１００が図７に示す画面１１０に遷移する。この図７に示す画面１１０は、利用者が所望の話者パラメータ値を入力するための画面であり、話者パラメータ値を可視化したレーダーチャート１１１と、利用者情報を入力するためのテキストボックス１１２と、試聴用テキストを入力するためのテキストボックス１１３と、レーダーチャート１１１で示される話者パラメータ値を用いた試聴用テキストの合成音の試聴を要求する「試聴」ボタン１１４と、レーダーチャート１１１で示される話者パラメータ値を音声合成に利用することを指示する「本設定を利用」ボタン１１５とを含む。

レーダーチャート１１１は、話者性の各要素に対応する軸上にその要素に対応する値を変更するための操作子を持つ。利用者は、このレーダーチャート１１１上で操作子を操作することにより、所望の話者パラメータ値を入力できる。入力した話者パラメータ値を反映した合成音は、テキストボックス１１３に試聴用テキストを入力し、「試聴」ボタン１１４を押すことにより確認できる。

また、利用者がレーダーチャート１１１を用いて所望の話者パラメータ値を入力した後、テキストボックス１１２に利用者情報を入力して「本設定を利用」ボタン１１５を押すと、利用者が入力した話者パラメータ値と利用者情報が表示・入力制御部３０から話者パラメータ制御部４０に渡される。話者パラメータ制御部４０は、表示・入力制御部３０から話者パラメータ値および利用者情報を受け取ると、これらを話者パラメータ値および利用者情報を利用可否判定部６０に渡して、利用可否の判定を依頼する。利用可否判定部６０は、例えば上述した方法により、利用者により入力された話者パラメータ値の利用可否を判定し、判定結果を話者パラメータ制御部４０に返す。

ここで、利用可否判定部６０による判定結果が利用不可であった場合、話者パラメータ制御部４０は、表示・入力制御部３０に利用の禁止や制限に関する情報を渡す。表示・入力制御部３０は、話者パラメータ制御部４０から受け取った情報をユーザインタフェースの画面に反映させる。例えば、話者パラメータ制御部４０から利用の禁止に関する情報を受け取った場合、表示・入力制御部３０は、図８に示すように、入力された話者パラメータ値を利用できないことを利用者に通知するエラーメッセージ１１６を画面１１０上にポップアップ表示させる。そして、このエラーメッセージ１１６内の「ＯＫ」ボタン１１６ａが押されると、図７に示した画面１１０に戻る。また、話者パラメータ制御部４０から利用の制限に関する情報を受け取った場合、表示・入力制御部３０は、例えば、所定の期間内のみ利用できる、あるいは非商用目的に限り利用できるといった話者パラメータ値の利用が可能となる条件を利用者に通知する注意メッセージを画面１１０にポップアップ表示させてもよい。

一方、利用可否判定部６０による判定結果が利用可であった場合、ユーザインタフェースの画面は、図７に示す画面１１０から図９に示す画面１２０に遷移する。この図９に示す画面１２０は、基本的な構成は図６に示した画面１００と同様であるが、プルダウンメニュー１０２には選択された「作成話者」が表示され、その下に、利用可と判定された話者パラメータ値に対応するレーダーチャートのサムネイル１２１が表示される。

利用者は、この画面１２０を用いて、テキストボックス１０１に音声合成の対象となるテキスト情報を入力し、必要に応じてスライドバー１０３ａ，１０３ｂ，１０３ｃを操作して声質のパラメータを調整した後、「合成」ボタン１０４を押す。これにより、利用者により入力された話者パラメータ値を適用した合成音の音声波形が音声合成部１０により生成される。また、利用者が「保存」ボタン１０５を押した場合は、音声合成部１０により生成された合成音の音声波形が、所定の保存先に保存される。

また、図６に示した画面１００のプルダウンメニュー１０２から利用者が「登録話者」を選択する操作を行った場合は、図６に示す画面１００が図１０に示す画面１３０に遷移する。この図１０に示す画面１３０は、利用者情報を入力するためのテキストボックス１３１と、利用者が所有する登録済み話者パラメータ値を選択するためのプルダウンメニュー１３２と、試聴用テキストを入力するためのテキストボックス１３３と、プルダウンメニュー１３２で選択された登録済み話者パラメータ値を用いた試聴用テキストの合成音の試聴を要求する「試聴」ボタン１３４と、プルダウンメニュー１３２で選択された登録済み話者パラメータ値を音声合成に利用することを指示する「本設定を利用」ボタン１３５とを含む。

利用者がテキストボックス１３１に利用者情報を入力すると、プルダウンメニュー１３２に、利用者が所有する登録済み話者パラメータ値の一覧が選択可能に表示される。そして、利用者がプルダウンメニュー１３２から所望の登録済み話者パラメータ値を選択し、テキストボックス１３３に試聴用テキストを入力して「試聴」ボタン１３４を押すと、選択した登録済み話者パラメータ値を反映した合成音を確認できる。また、利用者がプルダウンメニュー１３２から所望の登録済み話者パラメータ値を選択した後、「本設定を利用」ボタン１３５を押すと、利用者が選択した登録済み話者パラメータ値が話者パラメータ制御部４０に設定され、図１０に示す画面１３０が図１１に示す画面１４０に遷移する。この図１１に示す画面１４０は、基本的な構成は図６に示した画面１００と同様であるが、プルダウンメニュー１０２には「登録話者」が表示され、その下に、選択された登録済み話者パラメータ値に対応するレーダーチャートのサムネイル１４１が表示される。

利用者は、この画面１４０を用いて、テキストボックス１０１に音声合成の対象となるテキスト情報を入力し、必要に応じてスライドバー１０３ａ，１０３ｂ，１０３ｃを操作して声質のパラメータを調整した後、「合成」ボタン１０４を押す。これにより、利用者により選択された登録済み話者パラメータ値を適用した合成音の音声波形が音声合成部１０により生成される。また、利用者が「保存」ボタン１０５を押した場合は、音声合成部１０により生成された合成音の音声波形が、所定の保存先に保存される。

なお、上記においては、登録済み話者パラメータ値を選択してそのまま利用する例について説明したが、選択した登録済み話者パラメータ値を、図７に示す画面１１０などで更に調整して利用してもよい。この場合、元々選択された登録済み話者パラメータ値とは利用条件が異なる可能性が生じるため、調整後の話者パラメータ値で改めて利用可否判断を行った上、最終的な利用可否を決定する。

以上、具体的な例を挙げながら詳細に説明したように、本実施形態によれば、入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定し、利用不可と判定された話者パラメータ値の利用を禁止または制限するようにしている。したがって、所望の話者性を表す話者パラメータ値を登録しておけば、その話者性を独占利用することが可能となる。

＜第２実施形態＞
次に、第２実施形態について説明する。上述の第１実施形態においては、音声合成装置とは別の装置を用いて話者パラメータ値の登録を行うことを前提としていたが、話者パラメータ値の設定や利用を行う音声合成装置を用いて話者パラメータ値の登録を行うこともできれば、利用者の使い勝手が向上する。そこで、本実施形態では、話者パラメータを登録する機能を音声合成装置に持たせるようにしている。

図１２は、第２実施形態に係る音声合成装置の機能的な構成例を示すブロック図である。図１に示した第１実施形態との構成上の違いは、話者パラメータ登録部７０が追加されていることである。話者パラメータ値の登録に対して利用者に課金する場合は、さらに課金処理部８０も備える。

本実施形態において、利用者は、表示・入力制御部３０により提供されるユーザインタフェースを用いて、入力した話者パラメータ値の登録可否の確認や登録要請を行うことができる。利用者が登録可否の確認のための指示を出すと、表示・入力制御部３０から話者パラメータ制御部４０に登録可否の確認指示とともに登録対象の話者パラメータ値や利用者情報などの情報が送られ、話者パラメータ制御部４０から利用可否判定部６０に対してこれらの情報が渡される。本実施形態においては、利用可否判定部６０は、登録可否を判定する機能と登録料を算出する機能とを有し、話者パラメータ制御部４０から登録可否の判定が依頼されると、話者パラメータ記憶部５０を参照して登録可否を判定し、登録可の場合はさらに登録料を算出して、結果を話者パラメータ制御部４０に返す。そして、利用可否判定部６０の判定結果や登録可の場合の登録料は、話者パラメータ制御部４０から表示・入力制御部３０に渡され、表示・入力制御部３０が提供するユーザインタフェースを通じて、利用者に通知される。

利用者は、登録可と判定された話者パラメータ値について、表示・入力制御部３０により提供されるユーザインタフェースを用いて登録要請を行うことができる。登録料が必要な場合は、課金処理部８０に登録料が通知され、課金処理部８０は利用者に対して課金処理を行う。入金が確認されれば、その結果が課金処理部８０から表示・入力制御部３０に通知され、表示・入力制御部３０から話者パラメータ制御部４０に話者パラメータ値や利用者情報、利用条件に関する情報が送られて、これらの情報が登録指示とともに、話者パラメータ制御部４０から話者パラメータ登録部７０に渡される。話者パラメータ登録部７０は、話者パラメータ制御部４０からの登録指示に応じて、指定された話者パラメータ値を利用者情報や利用条件などの補助情報とともに話者パラメータ記憶部５０に格納する。

利用可否判定部６０による話者パラメータ値の登録可否の判定は、基本的には利用可否の判定と同様の方法で判定を行うが、登録対象の話者パラメータ値の登録範囲を考慮する点が利用可否の判定と異なる。利用可否の判定と登録可否の判定との違いを図１３に示す。図１３（ａ）に利用可否の判定の概念図、図１３（ｂ）に登録可否の判定の概念図をそれぞれ示している。図中の×は話者パラメータ値、点線は話者パラメータ値の登録範囲を示しており、Ｄｉｆｆ（Ｐ_ｉｎ，Ｐ_（ｊ））は話者パラメータ値間の差異、ＴＨＲＥ_（ｊ）は登録済み話者パラメータ値Ｐ_（ｊ）の登録範囲を示す第１閾値、ＴＨＲＥ_ｉｎは登録対象の話者パラメータ値Ｐ_ｉｎの登録範囲を示す第２閾値を示している。図１３（ａ）に示す利用可否の判定では、登録済み話者パラメータ値Ｐ_（ｊ）の登録範囲に話者パラメータ値Ｐ_ｉｎが含まれているかを判定すればよいが、図１３（ｂ）に示す登録可否の判定では、登録済み話者パラメータ値Ｐ_（ｊ）の登録範囲と登録対象の話者パラメータ値Ｐ_ｉｎの登録範囲が重なる可能性を考慮する必要がある。

登録可否の判定において登録範囲の重複を許容しない場合、利用可否判定部６０は、図５に示したフローチャートのステップＳ１０７に相当する判定において、例えば下記式（２）に示す条件式を用い、これを満たす場合は登録不可と判定する。
Ｄｉｆｆ（Ｐ_ｉｎ，Ｐ_（ｊ））≦（ＴＨＲＥ_（ｊ）＋ＴＨＲＥ_ｉｎ）・・・（２）

一方、登録範囲が重複した際に、重複した範囲を登録済み話者パラメータ値の所有者による利用を優先する場合、利用可否判定部６０は、利用可否の判定と同様に、下記式（３）に示す条件式を用いて登録可否を判定するが、登録可と判定されたものの上記式（２）の条件式を満たす場合は、条件付きで登録可と判定する。この場合、利用可否判定部６０は、表示・入力制御部３０が提供するユーザインタフェースを用いた通知により、話者パラメータ値や登録範囲を調整した上で登録するか否かを利用者に問い合わせる。
Ｄｉｆｆ（Ｐ_ｉｎ，Ｐ_（ｊ））≦ＴＨＲＥ_（ｊ）・・・（３）

例えば、利用可否判定部６０は、下記式（４）を満たすように調整された話者パラメータ値Ｐ_ｉｎ ^{ｓｕｂｓｅｔ}を求める。
Ｄｉｆｆ（Ｐ_ｉｎ ^{ｓｕｂｓｅｔ}，Ｐ_（ｊ））＞（ＴＨＲＥ_（ｊ）＋ＴＨＲＥ_ｉｎ）（ｊ＝０，１，・・・，Ｃ−１）・・・（４）
そして、利用可否判定部６０は、この調整された話者パラメータ値Ｐ_ｉｎ ^{ｓｕｂｓｅｔ}を話者パラメータ制御部４０に渡すとともに、この調整された話者パラメータ値Ｐ_ｉｎ ^{ｓｕｂｓｅｔ}を登録するか否かの問い合わせを話者パラメータ制御部４０に要請する。この要請に応じて、話者パラメータ制御部４０は、調整されたパラメータ値Ｐ_ｉｎ ^{ｓｕｂｓｅｔ}を登録するか否かを利用者に問い合わせることを表示・入力制御部３０に指示し、表示・入力制御部３０が提供するユーザインタフェースを通じて、利用者に対する問い合わせが行われる。そして、利用者から調整された話者パラメータ値Ｐ_ｉｎ ^{ｓｕｂｓｅｔ}の登録要請があると、話者パラメータ制御部４０が調整された話者パラメータ値Ｐ_ｉｎ ^{ｓｕｂｓｅｔ}の登録を話者パラメータ登録部７０に指示する。

あるいは、利用可否判定部６０は、下記式（５）を満たすように小さくした第２閾値の代替案（つまり、話者パラメータの登録範囲を狭くする代替案）ＴＨＲＥ_ｉｎ ^{ｓｕｂｓｅｔ}を求めるようにしてもよい。
Ｄｉｆｆ（Ｐ_ｉｎ，Ｐ_（ｊ））＞（ＴＨＲＥ_（ｊ）＋ＴＨＲＥ_ｉｎ ^{ｓｕｂｓｅｔ}）（ｊ＝０，１，・・・，Ｃ−１）・・・（５）
この場合、利用可否判定部６０は、この代替案ＴＨＲＥ_ｉｎ ^{ｓｕｂｓｅｔ}を話者パラメータ制御部４０に渡すとともに、登録範囲を狭くして話者パラメータ値Ｐ_ｉｎを登録するか否かの問い合わせを話者パラメータ制御部４０に要請する。この要請に応じて、話者パラメータ制御部４０は、登録範囲を狭くして話者パラメータ値Ｐ_ｉｎを登録するかを利用者に問い合わせることを表示・入力制御部３０に指示し、表示・入力制御部３０が提供するユーザインタフェースを通じて、利用者に対する問い合わせが行われる。そして、利用者から登録範囲を狭くした話者パラメータ値Ｐ_ｉｎの登録要請があると、話者パラメータ制御部４０が、登録範囲を狭くした話者パラメータ値Ｐ_ｉｎの登録を話者パラメータ登録部７０に指示する。

また、登録対象の話者パラメータ値を登録可と判定した場合、利用可否判定部６０は、登録対象の話者パラメータ値の登録料を算出する。利用可否判定部６０は、例えば、話者パラメータ記憶部５０に格納されている登録済み話者パラメータ値の分布などに基づいて、人気のある話者性ほど高くなるような登録料を算出することができる。すなわち、登録対象の話者パラメータ値の周辺領域に位置する登録済み話者パラメータ値の個数に応じて登録料を決める。具体的には、所定のＤ_ａｄｊについて、下記式（６）となるようなＰ_（ｊ）の個数を求め、その個数に対して単調増加するような関数を用いて登録料を算出する。
Ｄｉｆｆ（Ｐ_ｉｎ，Ｐ_（ｊ））≦Ｄ_ａｄｊ・・・（６）

あるいは、登録済みの話者パラメータ値の数だけでなく、入力された話者パラメータ値やその周辺の値の利用頻度も考慮して、登録料を算出してもよい。この場合は、全利用者によって利用されたパラメータ値の履歴情報も、話者パラメータ記憶部５０に記録される。

次に、本実施形態の表示・入力制御部３０により利用者に提供されるユーザインタフェースの具体例を例示しながら、話者パラメータの登録に関わる音声合成装置のインタラクティブな動作の一例を説明する。

本実施形態では、利用者が図６に示した画面１００のプルダウンメニュー１０２から「作成話者」を選択する操作を行うと、図６に示した画面１００が図１４に示す画面２１０に遷移する。この図１４に示す画面２１０は、図７に示した画面１１０に対して、レーダーチャート１１１で示される話者パラメータ値の登録可否の確認を指示する「本設定の利用権を登録」ボタン２１１が追加された構成である。

利用者が図１４に示す画面２１０のレーダーチャート１１１を用いて所望の話者パラメータ値を入力した後、「本設定の利用権を登録」ボタン２１１を押すと、利用者が入力した話者パラメータ値や利用者情報などが登録可否の確認指示とともに表示・入力制御部３０から話者パラメータ制御部４０に送られる。話者パラメータ制御部４０は、表示・入力制御部３０から受け取った話者パラメータ値を利用可否判定部６０に渡してこの話者パラメータ値の登録可否の判定を依頼する。利用可否判定部６０は、話者パラメータ制御部４０からの依頼に応じて、例えば上述した方法により話者パラメータ値の登録可否を判定し、判定結果を話者パラメータ制御部４０に返す。

ここで、利用可否判定部６０による判定結果が登録可であった場合、話者パラメータ制御部４０から表示・入力制御部３０に対して話者パラメータ値が登録可であることを示す確認結果が通知され、ユーザインタフェースの画面は、図１４に示す画面２１０から図１５に示す画面２２０に遷移する。この図１５に示す画面２２０は、利用者が話者パラメータ値の登録要請を行う画面であり、登録対象の話者パラメータ値を示すレーダーチャートのサムネイル２２１と、登録者名を入力するためのテキストボックス２２２と、登録者カテゴリを選択するためのチェックボタン２２３と、登録条件を入力するためのテキストボックス２２４と、登録期間を入力するための入力欄２２５と、登録範囲を選択するためのチェックボタン２２６と、チェックボタン２２６で選択した登録範囲の話者パラメータ値を適用した場合の合成音を確認するための「確認音声合成」ボタン２２７と、登録料の算出を指示する「登録料計算」ボタン２２８と、算出された登録料が表示される登録料表示エリア２２９と、登録要請を行う「登録」ボタン２３０と、登録処理のキャンセルを指示する「キャンセル」ボタン２３１とを含む。

利用者は、この図１５に示す画面２２０上で話者パラメータ値の登録に必要な各種情報を入力することができる。例えば、チェックボタン２２６で登録する話者パラメータ値の登録範囲を選択することが可能である。話者パラメータ値の登録範囲は上述の第１閾値に相当し、通常、登録範囲を広くすると登録料が割高となり、登録範囲を狭くすると登録料が割安となる。この構成の場合、話者パラメータ値の登録時に、選択された登録範囲を示す第１閾値が補助情報として話者パラメータ記憶部５０に格納される。

また、利用者が「登録料計算」ボタン２２８を押すと、利用可否判定部６０により算出された登録料が登録料表示エリア２２９に表示される。利用者は、この登録料表示エリア２２９に表示された登録料を参照し、登録要請を行うかどうかを決めることができる。そして、利用者が「登録」ボタン２３０を押すと、課金処理部８０による課金処理が行われ、入金が確認されると、話者パラメータ制御部４０からの登録指示に応じて話者パラメータ登録部７０が話者パラメータ値の登録処理を行い、登録対象の話者パラメータ値と補助情報が話者パラメータ記憶部５０に格納される。また、利用者が「キャンセル」ボタン２３１を押した場合は、話者パラメータ値の登録処理がキャンセルされ、図１４に示した画面２１０に戻る。

一方、利用可否判定部６０による判定結果が登録不可であった場合、話者パラメータ制御部４０から表示・入力制御部３０に対して話者パラメータ値が登録不可であることを示す確認結果が通知される。この場合、表示・入力制御部３０は、例えば図１６に示すように、話者パラメータ値を登録できないことを利用者に通知するエラーメッセージ２１２を画面２１０上にポップアップ表示させる。そして、このエラーメッセージ２１２内の「ＯＫ」ボタン２１２ａが押されると、図１４に示した画面２１０に戻る。

また、判定結果が条件付きで登録可であった場合、利用可否判定部６０は、例えば、上述の調整されたパラメータ値を算出し、調整された話者パラメータ値を登録するか否かの問い合わせを話者パラメータ制御部４０に要請する。話者パラメータ制御部４０は、表示・入力制御部３０に対して、調整された話者パラメータ値を登録するか否かの問い合わせを指示する。この場合、表示・入力制御部３０は、例えば図１７に示すように、調整された話者パラメータ値を登録するか否かを問い合わせる確認メッセージ２１３を画面２１０上にポップアップ表示させる。そして、この確認メッセージ２１３内の「はい」ボタン２１３ａが押されると、図１５に示した画面２２０に遷移する。一方、確認メッセージ２１３内の「いいえ」ボタン２１３ｂが押された場合は、図１４に示した画面２１０に戻る。

また、利用可否判定部６０は、判定結果が条件付きで登録可であった場合に、上述のように話者パラメータの登録範囲を狭くする代替案を求めて、登録範囲を狭くして話者パラメータ値を登録するか否かの問い合わせを話者パラメータ制御部４０に要請してもよい。この場合、表示・入力制御部３０は、例えば図１８に示すように、登録範囲を狭くして話者パラメータ値を登録するか否かを問い合わせる確認メッセージ２１４を画面２１０上にポップアップ表示させる。そして、この確認メッセージ２１４内の「はい」ボタン２１４ａが押されると、図１５に示した画面２２０に遷移する。このとき、画面２２０の登録範囲を選択するためのチェックボタン２２６は「狭め」の選択肢に固定される。一方、確認メッセージ２１４内の「いいえ」ボタン２１４ｂが押された場合は、図１４に示した画面２１０に戻る。

以上説明したように、本実施形態によれば、利用者の操作に応じて話者パラメータ値の登録も行えるようにしているので、利用者の使い勝手を向上させることができる。また、話者パラメータの登録にかかる登録料の課金処理なども適切に行うことができる。

話者パラメータ値の登録に係る本実施形態において、登録時における課金の仕組みについて説明したが、話者パラメータ値を利用した合成音の利用に係る第１実施形態においても、利用時に課金する仕組みを設けてもよい。この場合、話者パラメータ値の登録条件に他人による利用料設定の項目を設けることで、利用料を設定することができる。例えば、登録範囲と同様、予め無料を含む複数の料金パターンを設定しておき、選択する方式、登録者が自由に設定できる方式、何れであってもよい。当該項目の設定値は、例えば図４に示した情報の一部として話者パラメータ記憶部５０に格納することで、利用可否判定部６０による判定の際に、該当の話者性ＩＤに設定されている条件に基づき、利用可否と共に利用料を表示することで利用者へ利用料を知らせることができる。利用料が設定された話者パラメータ値を利用する場合は、登録時と同様、課金機能で対応することができる。

＜第３実施形態＞
次に、第３実施形態について説明する。上述の第１実施形態においては、話者パラメータ値そのものを用いて入力された話者パラメータ値と登録済み話者パラメータ値との差異を求めたが、この場合、音声合成モデルの更新などによって、話者パラメータの定義や値の種類が変わった場合、変更前後での話者パラメータ値の比較ができず、変更前に登録された話者パラメータ値が変更後には使えなくなってしまう。そこで、本実施形態では、入力された話者パラメータ値と登録済み話者パラメータ値との差異を求める際に、その値そのものを使うのではなく、比較する話者パラメータ値のそれぞれを、共通する別のパラメータ空間に写像して、そのパラメータ空間において差異を算出する。

本実施形態の音声合成装置の構成は、図１に示した第１実施形態の構成あるいは図１２に示した第２実施形態の構成と同様である。ただし、本実施形態では、利用可否判定部６０が、入力された話者パラメータ値と登録済み話者パラメータ値との差異を算出する際に、これら比較する話者パラメータ値のそれぞれを共通のパラメータ空間に写像する。そして、このパラメータ空間において、両者の差異を算出する。

比較する話者パラメータ値をＰ_１ ^ＳＡとＰ_２ ^ＳＢ（それぞれパラメータ空間ＳＡ、ＳＢのパラメータ）とし、共通のパラメータ空間ＳＸに写像する関数をｍａｐ^{ＳＡ→ＳＸ}（）、ｍａｐ^{ＳＢ→ＳＸ}（）とすると、これら話者パラメータ値間の差異Ｄｉｆｆ（Ｐ_１ ^ＳＡ，Ｐ_２ ^ＳＢ）は、下記式（７）に示すように、写像空間上で算出される。
Ｄｉｆｆ（Ｐ_１ ^ＳＡ，Ｐ_２ ^ＳＢ）＝Ｄｉｆｆ^ＳＸ（ｍａｐ^{ＳＡ→ＳＸ}（Ｐ_１ ^ＳＡ），ｍａｐ^{ＳＢ→ＳＸ}（Ｐ_２ ^ＳＢ））・・・（７）
ただし、Ｄｉｆｆ^ＳＸはパラメータ空間ＳＸに写像された話者パラメータ間での差異を表す。

このような方法を用いることによって、話者パラメータの定義や値の種類が異なる話者パラメータ間でも差異の算出ができる。また、定義や値の種類が同一の話者パラメータの値の間でも、元の話者パラメータ空間より写像先の空間の方が話者性を直接的に表す空間の場合は、この方法で差異を求めることにより、より適切な差異を求めることも可能である。例えば、写像先の話者パラメータ空間を、対数振幅スペクトルのベクトル空間など、話者性を直接的に表せ、様々な話者パラメータ値から算出可能な汎用的なパラメータ空間にすればよい。

＜補足説明＞
上述の各実施形態の音声合成装置は、例えば、汎用のコンピュータを基本ハードウェアとして用いて実現することが可能である。すなわち、上述の各実施形態の音声合成装置の各部の機能は、汎用のコンピュータに搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声合成装置は、上記のプログラムをコンピュータにあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータに適宜インストールすることで実現してもよい。

図１９は、音声合成装置のハードウェア構成例を示すブロック図である。音声合成装置は、例えば図１９に示すように、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサ１と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）やＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などのメモリ２と、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などのストレージデバイス３と、液晶ディスプレイなどの表示装置６やキーボード、マウス、タッチパネルなどの入力デバイス７、音声を出力するスピーカ８といった機器を接続するための機器Ｉ／Ｆ４と、装置外部と通信を行う通信Ｉ／Ｆ５と、これら各部を接続するバス９とを備えた一般的なコンピュータとしてのハードウェア構成を有する。

音声合成装置が図１９のようなハードウェア構成を有する場合、例えば、プロセッサ１がメモリ２を利用して、ストレージデバイス３などに格納されたプログラムを読み出して実行することにより、上述の音声合成部１０、表示・入力制御部３０、話者パラメータ制御部４０、利用可否判定部６０、話者パラメータ登録部７０、課金処理部８０などの機能を実現することができる。また、音声合成モデル記憶部２０や話者パラメータ記憶部５０は、ストレージデバイス３を用いて実現することができる。

なお、上述の音声合成装置の各部の機能は、その一部または全部を、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などの専用のハードウェア（汎用のプロセッサではなく専用のプロセッサ）により実現することもできる。また、複数のプロセッサを用いて上述した各部の機能を実現する構成であってもよい。

また、実施形態の音声合成装置は、複数台のコンピュータを用い、上述の各部の機能を複数台のコンピュータに分散して実現したシステムとして構成してもよい。また、実施形態の音声合成装置は、クラウドシステム上で動作する仮想マシンであってもよい。

以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０音声合成部
１１選択部
１２加算部
２０音声合成モデル記憶部
３０表示・入力制御部
４０話者パラメータ制御部
５０話者パラメータ記憶部
６０利用可否判定部
７０話者パラメータ登録部
８０課金処理部

Claims

話者性に関するパラメータの値である話者パラメータ値に基づいて、合成音の話者性を制御可能な音声合成部と、
登録済み話者パラメータ値を記憶する話者パラメータ記憶部と、
入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定する利用可否判定部と、
前記利用可否判定部により利用不可と判定された話者パラメータ値の利用を禁止または制限する話者パラメータ制御部と、
を備える音声合成装置。
ベースとなる話者性をモデル化したベースモデルと、話者性の各要素の特徴をモデル化した話者性制御モデルと、を含む音声合成モデルを記憶する音声合成モデル記憶部をさらに備え、
前記音声合成部は、前記ベースモデルと前記話者性制御モデルから複数の統計量を選択する選択部と、指定された話者パラメータ値に従って、前記統計量を重み付き加算する加算部とを含み、前記加算部によって重み付き加算された統計量を用いて前記合成音の音声波形を生成する
請求項１に記載の音声合成装置。
前記利用可否判定部は、入力された話者パラメータ値と登録済み話者パラメータ値との差異を所定の関数によって算出し、算出した差異が、登録済み話者パラメータ値の登録範囲を示す第１閾値以下である場合に、入力された話者パラメータ値を利用不可と判定する
請求項１または２に記載の音声合成装置。
前記話者パラメータ記憶部は、登録済み話者パラメータ値に固有の前記第１閾値をさらに記憶する
請求項３に記載の音声合成装置。
前記利用可否判定部は、入力された話者パラメータ値と登録済み話者パラメータ値のそれぞれを共通の話者パラメータ空間に写像し、該話者パラメータ空間上で入力された話者パラメータ値と登録済み話者パラメータ値との差異を算出する
請求項３または４に記載の音声合成装置。
入力された話者パラメータ値を前記話者パラメータ記憶部に登録する話者パラメータ登録部をさらに備え、
前記話者パラメータ制御部は、利用者からの登録要請に基づき、前記話者パラメータ登録部に対して話者パラメータ値の登録指示を出す
請求項１乃至５のいずれか一項に記載の音声合成装置。
前記利用可否判定部は、入力された話者パラメータ値の登録可否をさらに判定し、
前記話者パラメータ制御部は、前記利用可否判定部により登録可と判定された場合に、前記話者パラメータ登録部に対して、入力された話者パラメータ値の登録指示を出す
請求項６に記載の音声合成装置。
前記利用可否判定部は、入力された話者パラメータ値と登録済み話者パラメータ値との差異を所定の関数によって算出し、算出した差異が、登録済み話者パラメータ値の登録範囲を示す第１閾値に対し、入力された話者パラメータ値の登録範囲を示す第２閾値を加算して得られた第３閾値以下である場合に、入力された話者パラメータ値を登録不可と判定する
請求項７に記載の音声合成装置。
前記利用可否判定部は、入力された話者パラメータ値との差異が前記第１閾値を超えるが前記第３閾値以下となるような登録済み話者パラメータ値があった場合、前記差異が前記第３閾値を超えるように調整された話者パラメータ値を登録するか否かを利用者に問い合わせ、
前記パラメータ制御部は、利用者から前記調整された話者パラメータ値の登録要請があった場合に、前記話者パラメータ登録部に対して、前記調整された話者パラメータ値の登録指示を出す
請求項８に記載の音声合成装置。
前記利用可否判定部は、入力された話者パラメータ値との差異が前記第１閾値を超えるが前記第３閾値以下となるような登録済み話者パラメータ値があった場合、前記差異が前記第３閾値を超えるように、入力された話者パラメータ値の登録範囲を狭くして登録するか否かを利用者に問い合わせ、
前記パラメータ制御部は、利用者から登録範囲を狭くした話者パラメータの登録要請があった場合に、前記話者パラメータ登録部に対して、登録範囲を狭くした話者パラメータ値の登録指示を出す
請求項８に記載の音声合成装置。
前記利用可否判定部は、さらに、話者パラメータ値を登録する場合の登録料を算出し、
話者パラメータ値が前記話者パラメータ記憶部に登録された場合に、前記登録料に基づいた課金処理を行う課金処理部をさらに備える
請求項６乃至１０のいずれか一項に記載の音声合成装置。
前記利用可否判定部は、登録する話者パラメータ値と、登録済み話者パラメータ値の分布との関係に基づいて、前記登録料を算出する
請求項１１に記載の音声合成装置。
前記話者パラメータ記憶部は、登録済み話者パラメータ値の所有者の情報と利用条件に関わる情報の少なくとも一方をさらに記憶する
請求項１乃至１２のいずれか一項に記載の音声合成装置。
話者性に関するパラメータの値である話者パラメータ値に基づいて、合成音の話者性を制御可能な音声合成装置において実行される音声合成方法であって、
入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定するステップと、
利用不可と判定された話者パラメータ値の利用を禁止または制限するステップと、
を含む音声合成方法。
コンピュータを、話者性に関するパラメータの値である話者パラメータ値に基づいて、合成音の話者性を制御可能な音声合成装置として機能させるためのプログラムであって、
前記コンピュータに、
入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定するステップと、
利用不可と判定された話者パラメータ値の利用を禁止または制限するステップと、
を実行させるプログラム。