JP5631915B2

JP5631915B2 - 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置

Info

Publication number: JP5631915B2
Application number: JP2012075967A
Authority: JP
Inventors: 大和大谷; 正統田村; 眞弘森田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-03-29
Filing date: 2012-03-29
Publication date: 2014-11-26
Anticipated expiration: 2032-03-29
Also published as: US9110887B2; US20130262087A1; JP2013205697A

Description

本発明の実施形態は、音声合成装置、音声合成方法、音声合成プログラムならびに学習装置に関する。

統計モデルに基づく合成音声の品質は、統計モデルの構築に用いられる音声パラメータの品質に左右される。音声パラメータとしては、比較的次元数が少ないものを統計モデルの構築に用いることが必要である。

特開２００９−１３９４０６号公報特許第３７３２７９３号公報

K. Tokuda, T. Yoshimura, T. Masuko, T. Kobayashi, T. Kitamura, Speech parameter generation algorithms for HMM-based speech synthesis, Proc. of ICASSP, pp.1315-1318, June 2000.

音声の制限された帯域ごとの情報を表現する基底モデルを用いて抽出された音声パラメータを統計モデルに基づく音声合成に適用することにより、合成音声の品質を向上することが望まれている。

実施形態によれば、音声合成装置が提供される。この音声合成装置は、テキストデータを解析することにより言語的な情報を表す言語情報データを出力する言語解析部と、音声に含まれる音響情報を統計的にモデル化した複数の統計モデルを保持する統計モデル保持部と、前記言語情報データに基づいて前記複数の統計モデルからいずれかの統計モデルを選択するモデル選択部と、前記モデル選択部において選択された統計モデルを用いて複数の音声パラメータの系列を生成するパラメータ生成部と、それぞれが制限された帯域ごとの音声の情報を表現する複数の基底ベクトルを含む基底モデルを保持する基底モデル保持部と、前記複数の音声パラメータの系列と前記基底モデルとをフィルタ処理することにより合成音声を出力するフィルタ処理部と、を具備する。

第１の実施形態に係る音声合成装置を示す図第１の実施形態に係るスペクトル特徴量抽出部を示す図第２の実施形態に係る音声合成装置を示す図第２の実施形態に係る位相特徴量抽出部を示す図第２の実施形態に係る音声波形生成部の第１構成例を示す図第２の実施形態に係る音声波形生成部の第２構成例を示す図

（第１の実施形態）
図１は、第１の実施形態に係る統計モデルを利用した音声合成装置を示すブロック図である。この音声合成装置は、合成音声を生成するために必要な合成辞書である統計モデルをオフラインで学習する辞書学習部１０１と、辞書学習部１０１で作成された合成辞書を用いて任意の音声波形をオンラインで生成する音声合成部１０２とで構成される。本明細書では、最初に辞書学習部１０１による統計モデルの学習について説明し、次に音声合成部１０２による音声合成の処理について説明する。

まず統計モデルの学習について説明する。

辞書学習部１０１は、音声データ保持部１０３、言語情報抽出部１０４、基本周波数抽出部１０５、雑音強度比計算部１０６、スペクトル包絡抽出部１０７、スペクトル特徴量抽出部１０８、統計モデル学習部１０９から構成される。

音声データ保持部１０３は、合成辞書として用いる統計モデルの学習に必要な音声データが格納されている。具体的には、音声データは、話者が発声した複数の音声波形データとそれら音声波形データに対応するテキストデータである。テキストデータとしては、任意の音声波形データに対応する漢字、仮名、英数字、記号などが混在したテキストデータのほか、音声波形データが表現する話者の発声方法、すなわち発声した際の音韻列やアクセント、ポーズ位置やポーズの長さなどの情報を含んだテキストデータであってもよい。

言語情報抽出部１０４は、音声データ保持部１０３に保持されているテキストデータを解析することにより言語的な情報を抽出する。具体的には、音素、句末位置、文長、呼気段落長、呼気段落位置、アクセント句長、アクセント句位置、単語長、単語位置、モーラ長、モーラ位置、アクセント型、係り受け情報、文法情報および各特徴の先行、先々行、後続、後々続に関する情報および音素境界情報などが言語情報抽出部１０４により抽出されて言語情報データ１が出力される。

基本周波数抽出部１０５は、音声データ保持部１０３に保持されている音声データに含まれる基本周波数の系列（以下「Ｆ０系列」）２を抽出する。人は声帯を振るわせることで音源を生成し咽頭から口唇にかけて形成される声道と呼ばれる空間を通じて音声を発声する。Ｆ０系列２はこのときの短時間区間（フレーム）当たりの声帯の振動回数（周波数）の情報である。本実施形態では、抽出したＦ０系列２を自然対数の値に変換したもの、および対数Ｆ０の時間変動情報を用いることとする。

雑音強度比計算部１０６は、音声データ保持部１０３に保持されている音声データから短時間区間内における帯域毎の周期性と非周期性の度合いを計算する。本実施形態では、さらに雑音強度比の時間変化量３も計算する。

スペクトル包絡抽出部１０７は、音声データ保持部１０３に保持されている音声データから短時間のスペクトル包絡を抽出する。スペクトル包絡とは、咽頭から口唇にかけて形成される声道の各周波数における振幅特性および位相特性といった伝達特性を表す特徴量である。この伝達特性が時間方向に変化することで様々な音韻や声色を表現することができる。本実施形態では、スペクトル包絡における振幅特性のみを用い、この振幅特性を自然対数に変換した対数振幅スペクトルを利用する。

スペクトル特徴量抽出部１０８は、スペクトル包絡抽出部１０７により抽出された対数振幅スペクトルのスペクトル包絡から、スパース基底モデル保持部１１０に保持された基底モデルを用いてスペクトル特徴量４を抽出する。基底モデルは、音声の制限された帯域ごとの情報を表現する。

本実施形態では、スペクトル特徴量４の抽出にスパース基底モデル（ＳｐａｒｓｅＢａｓｅＭｏｄｅｌ、以下「ＳＢＭ」）を用いる。ＳＢＭは、空間的に疎な複数の基底を有する基底モデルである。このようなＳＢＭとして、特許文献１に開示された基底モデルを用いてもよい。特許文献１で開示された基底モデルは次のような特徴を持つ。

（１）ＳＢＭにおける基底は、周波数軸上で単一の最大値を与えるピーク周波数を含む所定の周波数帯域に値が存在し、前記周波数帯域の外側は値を零（または計算上では無視可能な値）とし、フーリエ変換やコサイン変換で用いられるような周期的な基底のように同じ最大値を複数持たない。このようにＳＢＭの基底は、帯域が制限されており、かつ、周期的な基底のように同じ最大値を複数持つものではない。この点でケプストラム分析に用いられる基底とは相違する。

（２）基底モデルの持つ基底ベクトルの数はスペクトル包絡がもつ分析点数（量子化された音声波形信号を分析するときに用いる分析点数）よりも数が少なく、その数は分析点数の半分未満の数である。

（３）ピーク周波数位置が隣り合う２つの基底間には重なりがある。すなわちピーク周波数が隣り合う２つの基底は、値の存在する周波数の範囲が重なる。

ＳＢＭの基底ベクトルは例えば次式（１）（２）により定義される。

また、ＳＢＭは、上記のような特徴をもつ基底ベクトルの重みづけ線形結合により、次式（３）のように対数振幅スペクトルｘ（ｋ）を表現することができる。

ここで、ｃ_ｎはＳＢＭの各基底ベクトルに対する重みである。

本実施形態では、ＳＢＭの各基底ベクトルの重みｃ_ｎがスペクトル特徴量４である。スペクトル特徴量４の抽出には、特許文献１記載されているような非負最小二乗誤差法を利用してもよい。すなわち、ＳＢＭの重み付けされた各基底ベクトルの線形結合と対数振幅スペクトルの誤差が最小となるように、各基底ベクトルの重みｃ_ｎを最適化する。この場合、最適化は、スペクトル特徴量４の値が必ず零以上であるという制約の下で行われる。

本実施形態において、ＳＢＭの基底の数は例えば５０とする。０ラジアンからπ／２ラジアンまでの低帯域の基底について、１番目から３４番目までの基底としては、メルケプストラム分析で用いられるオールパスフィルタの伸縮係数値（ここでは０．３５）に基づいたメル尺度で作成されたものを用いる。高帯域の周波数分解能を高いものとするため、π／２ラジアンからπラジアンまでの高帯域について、３５番目から５０番目までの基底については、線形尺度で作成されたものを用いる。

なお、ＳＢＭの低帯域の基底について、上記メル尺度以外の尺度が用いられてもよい。例えば、線形尺度やバーク尺度、ＥＲＢ（ＥｑｕｉｖａｌｅｎｔＲｅｃｔａｎｇｕｌａｒＢａｎｄｗｉｄｔｈ）尺度などを用いてもよい。

また、スパースコーディング法を用いてＳＢＭの基底を自動的に決定してもよい。

図２は、第１の実施形態に係るスペクトル特徴量抽出部１０８の構成例を示すブロック図である。スペクトル特徴量抽出部１０８は、スペクトル特徴量算出部１１９と変換部１２０を有する。スペクトル特徴量算出部１１９は、上述したようにスペクトル包絡抽出部１０７により抽出されたスペクトル包絡（ここでは対数振幅スペクトル包絡）からスペクトル特徴量４を算出する。ここで得られたスペクトル特徴量４を統計モデル学習１０９に導入してもよいが、これをそのまま用いると学習が適切に行われない場合がある。そこで本実施形態では、統計モデル学習で容易に扱えるようにするための変換処理を施す。具体的には、スペクトル特徴量算出部１１９により算出されたスペクトル特徴量４に対して変換部１２０が変換処理を施してスペクトル特徴量４’を出力する。変換部１２０による変換処理の方法としては離散フーリエ変換、離散サイン変換、離散コサイン変換などの直交変換を利用することができるが、離散コサイン変換、修正離散コサイン変換または高速コサイン変換を用いることが好ましい。

例えば変換部１２０による変換処理の方法として離散コサイン変換（ＤＣＴ−ＩＩ）を利用する場合、統計モデルの学習に適用すべく変換されたスペクトル特徴量４’に相当するＣ_ｍは次式（４）のように表される。

上式で表されるスペクトル特徴量４’は、統計モデル学習部１０９に渡されて統計モデルの学習に用いられる。上記の変換によれば、各スペクトル特徴量間の相関が平均的に減少することから、統計モデルの学習を適切に行うことができる。

統計モデル学習部１０９は、言語情報抽出部１０４により得られた言語情報データ１、基本周波数抽出部１０５により得られたＦ０系列（基本周波数）２、雑音強度比抽出部１０６により得られた雑音強度比３、およびスペクトル特徴量抽出部１０８により得られたスペクトル特徴量４’を用いて統計モデルを学習する。

学習された統計モデルは統計モデル保持部１１０によって保持される。統計モデルとしては、非特許文献１に示されているような隠れマルコフモデルまたは隠れセミマルコフモデルを用いても良い。なお、統計モデルとして上記の隠れマルコフモデルのほか、混合正規分布モデルや条件付き確率場などを用いても良い。

次に、音声合成部１０２による音声合成の処理について説明する。

図１に示すように、音声合成部１０２は、テキスト解析部１１３、モデル選択部１１４、パラメータ生成部１１５、音源信号生成部１１６、スペクトル復元部１１７、フィルタ処理部１１８を含む。

テキスト解析部１１３は、入力された任意のテキストデータ５を解析し、言語情報データを抽出する。具体的には、音素、句末位置、文長、呼気段落長、呼気段落位置、アクセント句長、アクセント句位置、単語長、単語位置、モーラ長、モーラ位置、アクセント型、係り受け情報、文法情報および各特徴の先行、先々行、後続、後々続に関する情報などである。テキスト解析部１１３に入力可能なテキストデータ５としては、プレーンのテキストデータのほか、ユーザが文の読み方、すなわち音韻列やアクセント位置、ポーズ位置やポーズ長などを任意に決定したテキストデータを入力してもよい。

モデル選択部１１４は、テキスト解析部１１３で得られた言語情報データに最も適合した統計モデルを統計モデル保持部１１１から選択する。パラメータ生成部１１５は、モデル選択部１１４で選択された統計モデルを用いて複数の音声パラメータの系列、すなわち基本周波数の系列６、雑音強度比の系列７、およびスペクトル特徴量の系列８を生成する。

ここで用いるパラメータ生成法としては、非特許文献１に示されているように、統計モデルが持つ各音声特徴量および時間変動量の平均情報および分散情報を用いて一文ごとに各音声特徴量系列を生成してもよい。そのほか、統計モデルが持つ各音声特徴量および時間変動量の平均情報および分散情報を用いて再帰的に特徴量系列を求めてもよい。あるいは、音声特徴量の平均情報の系列をそのまま出力し、各平均情報に区分線形補間やスプライン補間などの補間処理を行ったものを出力してもよい。

また、パラメータを生成する際にパラメータ強調処理を行うことにより、品質の向上を図ることが望ましい。

音源信号生成部１１６は、パラメータ生成部１１５により生成された基本周波数の系列６および雑音強度比の系列７を用いて音源信号を生成する。具体的な音源信号の生成方法として、まず基本周波数の系列６に基づいてパルス信号系列および雑音信号系列を生成する。次に雑音信号とパルス信号系列の重みづけ和を行うことにより音源信号を生成する。ここで重みづけ和を行うための重み情報として、雑音強度比の系列７に基づいて生成される重み情報を用いる。

スペクトル復元部１１７は、パラメータ生成部１１５により生成されたスペクトル特徴量の系列８から、スパース基底モデル保持部１１０において保持されている基底モデルを用いてスペクトル包絡を復元する。本実施形態では、スパース基底モデル（ＳＢＭ）を用いている。対数振幅スペクトル包絡は、ＳＢＭの基底ベクトルにスペクトル特徴量４による重みづけを行って線形結合することにより復元可能である。特に本実施形態ではスペクトル特徴量４を離散コサイン変換により変換したスペクトル特徴量４’（Ｃ_ｍ）を用いている。このためスペクトル復元部１１７は、次式（５）に示す逆離散コサイン変換

によりスペクトル特徴量４’をＳＢＭのスペクトル特徴量４へ変換したのちに式（３）に示した線形結合を行うことで対数振幅スペクトル包絡を復元する。

フィルタ処理部１１８は、音源信号生成部１１６で得られた音源信号およびスペクトル復元部１１７において得られた対数振幅スペクトル包絡の系列を畳み込むことで合成音声９を生成する。

なお、音源信号生成部１１６、スペクトル復元部１１７およびフィルタ処理部１１８は、各音声特徴量の系列を1フレームずつ入力することで逐次的に処理が可能である。

以上説明した実施形態によれば、音声の制限された帯域ごとの情報を表現する基底モデルを用いて抽出された音声パラメータを統計モデルに基づく音声合成に適用することにより、合成音声の品質を向上することができる。本実施形態では、ＳＢＭに基づくスペクトル特徴量（対数振幅スペクトル包絡のパラメータ）を統計モデル学習部１０９の学習に用いることとした。スペクトル特徴量は、スパース基底モデル（ＳＢＭ）保持部１１０に保持されたＳＢＭを用いてスペクトル特徴量抽出部１０８により抽出されたものである。特に本実施形態では、スペクトル特徴量が統計モデルの学習に適したものとなるように、変換部１２０がスペクトル特徴量に離散コサイン変換を施す構成とした。

なお、本実施形態ではＳＢＭを利用することとしたが、ＳＢＭに代えて、非負値行列因子分解によって得られる基底や特許文献２で示されているホルマント波形（ＦＷＦ）モデルのような空間的に疎な基底を持つ基底モデルを用いてもよい。ここで、ＦＷＦモデルとは、音声波形をスペクトル包絡が持ついくつかのピーク形状（ホルマント）を表現する窓関数と、窓関数と同じ数だけ用意された正弦波との線形結合によって表現されるモデルである。スペクトル包絡のホルマントを表す窓関数は、周波数軸上においてはある限られた周波数帯域において値を持ち、そのほかの帯域においては零となるような特性を持つため、ＳＢＭと同様にスパースな基底モデルとして扱うことが可能である。このようなモデルは本実施形態および次に説明する第２の実施形態において利用可能である。

（第２の実施形態）
図３は、第２の実施形態に係る音声合成装置を示すブロック図である。第１の実施形態と同様、この音声合成装置は、合成音声を生成するために必要な合成辞書である統計モデルをオフラインで学習する辞書学習部２０１と、辞書学習部２０１で作成された合成辞書を用いて任意の音声波形をオンラインで生成する音声合成部２０２とで構成される。

上述した第１の実施形態は、ＳＢＭに基づく統計モデルの学習および音声合成においてスペクトル特徴量４’を利用するものであった。これに対し第２の実施形態は、スペクトル特徴量４’のみならず位相特徴量を利用する。

最初に辞書学習部２０１による統計モデルの学習について説明し、次に音声合成部２０２による音声合成の処理について説明する。

まず統計モデルの学習について説明する。

辞書学習部２０１は、音声データ保持部２０３、言語情報抽出部２０４、基本周波数抽出部２０５、雑音強度比計算部２０６、スペクトル包絡抽出部２０７、スペクトル特徴量抽出部２０８、位相特徴量抽出部２０９、統計モデル学習部２１０から構成される。

音声データ保持部２０３は、合成辞書として用いる統計モデルの学習に必要な音声データが格納されている。音声データの具体例は第１の実施形態と同様である。言語情報抽出部２０４は、音声データ保持部１０３に保持されているテキストデータを解析することにより言語的な情報を抽出する。言語情報データの具体例は第１の実施形態と同様である。

また、第１の実施形態と同様に、基本周波数抽出部２０５は、基本周波数の系列（「Ｆ０系列」）２を抽出し、雑音強度比計算部２０６は、雑音強度比の時間変化量３等を計算する。

スペクトル包絡抽出部２０７は、第１の実施形態と同様に音声データから短時間のスペクトル包絡を抽出するが、特に本実施形態では、対数振幅スペクトルのみならず位相スペクトルの抽出も行う。

スペクトル特徴量抽出部２０８は、スペクトル包絡抽出部２０７により抽出された対数振幅スペクトル包絡から、スパース基底モデル保持部２１１に保持されている基底モデルを用いてスペクトル特徴量４’を抽出する。このスペクトル特徴量４’の抽出については第１の実施形態と同様である。

図４は、第２の実施形態に係る位相特徴量抽出部２０９の構成例を示すブロック図である。位相特徴量抽出部２０９は、変換部２１７と位相特徴量算出部２１８を有する。変換部２１７は、スペクトル包絡抽出部２０７により抽出された極座標表現の位相スペクトルを直交座標表現の位相スペクトルに変換する。位相特徴量算出部２１８は、変換部２１７により直交座標表現に変換された位相スペクトルから位相特徴量１０’を算出する。この場合、位相特徴量算出部２１８は、スパース基底モデル保持部２１１に保持されている基底モデルを用いて位相特徴量１０’を抽出する。

本実施形態では、位相特徴量のアンラップ問題に適切に対処するために変換部２１７を設ける構成とした。

位相には２πの不定性という特性がある。数値計算において、位相の値が−π〜πの範囲で変化すると、周波数軸上の値が細切れの状態で抽出される。そのため、位相が連続的に変化するように、２πの整数倍だけずらす処理（アンラップ）を施すことが考えられる。

本実施形態では、このようなアンラップを行っても位相の遅延特性が正確には求まらないことに着目した。また、統計モデルの学習において、この場合の扱いが難しくなることも予想される。

そこで、本実施形態では、角度による表現を次式（５）のように再表現する。

変換部２１７は、極座標における表現である位相スペクトルθ（ｋ）を複素平面の座標における表現、すなわち直交座標における表現である位相スペクトルξ（ｋ）に変換する。位相スペクトルξ（ｋ）は、複素平面における単位円上の値を表す。すなわち、実数を余弦の値とし、虚数を正弦の値とする。

このような直交座標における表現とすることにより、上記のアンラップ問題を回避することができる。しかも、統計モデルの学習において扱いやすい形へと変換することができる。

位相特徴量算出部２１８は、変換部２１７により直交座標表現に変換された位相スペクトルから、ＳＢＭを用いて位相特徴量１０’を算出する。この位相特徴量１０’の算出には、対数振幅スペクトル包絡の場合と同様、特許文献１記載されているような非負最小二乗誤差法を利用してもよい。すなわち、ＳＢＭの重み付けされた各基底ベクトルの線形結合と位相スペクトル包絡の誤差が最小となるように、各基底ベクトルの重みを最適化する。

なお、本実施形態では、位相を直交座標表現で扱っているが、そのほかに群遅延による表現を用いてもよい。

統計モデル学習部２１０は、言語情報抽出部２０４により得られた言語情報データ１、基本周波数抽出部２０５により得られたＦ０系列（基本周波数）２、雑音強度比抽出部２０６により得られた雑音強度比３、スペクトル特徴量抽出部１０８により得られたスペクトル特徴量４’、および位相特徴量抽出部２０９により得られた位相特徴量１０’を用いて統計モデルを学習する。

学習された統計モデルは統計モデル保持部２１２によって保持される。統計モデルとしては、非特許文献１に示されているような隠れマルコフモデルまたは隠れセミマルコフモデルを用いても良い。なお、統計モデルとして上記の隠れマルコフモデルのほか、混合正規分布モデルや条件付き確率場などを用いても良い。

次に、音声合成部２０２による音声合成の処理について説明する。

図１に示すように、音声合成部２０２は、テキスト解析部２１３、モデル選択部２１４、パラメータ生成部２１５、音源波形生成部２１６を含む。

テキスト解析部２１３は、入力された任意のテキストデータ５を解析し、言語情報データを抽出する。言語情報データの具体例は第1の実施形態と同様である。

モデル選択部２１４は、テキスト解析部２１３で得られた言語情報データに最も適合した統計モデルを統計モデル保持部２１１から選択する。パラメータ生成部２１５は、モデル選択部２１４で選択された統計モデルを用いて複数の音声パラメータの系列、すなわち基本周波数の系列６、雑音強度比の系列７、スペクトル特徴量の系列８、および位相特徴量の系列１１を生成する。

音声波形生成部２１６は、パラメータ生成部２１５で得られたパラメータ系列を用いて合成音声９を生成する。

音声波形生成部２１６の２つの構成例を図５および図６に示す。以下、図５および図６それぞれの構成例における音声波形の生成方法について述べる。

図５は、音声波形生成部２１６の第１の構成例を示すブロック図である。

音源信号生成部３０１は、まず、基本周波数の情報６に基づいたパルス信号系列および雑音信号系列を生成する。次に雑音信号とパルス信号系列を雑音強度比の系列７の情報に基づいて生成された重み情報を用いて重みづけ和を行い、音源信号を生成する。

位相復元部３０２は、パラメータ生成部２１５において生成された位相特徴量１１を式（３）に適用し、スパース基底モデル保持部２１１に保持されている基底モデルを用いて位相スペクトルを復元する。本実施形態では、スパース基底モデルとしてＳＢＭを用いており、座標表現された位相スペクトルをＳＢＭの線形結合により復元する。ただし、復元された位相スペクトルは、その絶対値が単位円上に存在しないことがあるため、位相スペクトルの値が単位円上に存在するように適宜変形を加える。

スペクトル復元部３０３は、パラメータ生成部２１５において生成されたスペクトル特徴量の系列８と、スパース基底モデル保持部２１１に保持されているＳＢＭとを用いて対数振幅スペクトルを復元する。

複素スペクトル生成部３０４は、位相復元部３０２およびスペクトル復元部３０３において得られた位相スペクトルおよび対数振幅スペクトルから複素スペクトルを生成する。

ここで、位相スペクトルは複素数平面における座標表現であるため、対数振幅スペクトルを線形表現の振幅スペクトルに変換した後、位相スペクトルの実部の値および虚部の値それぞれを振幅スペクトルとかけ合わせることで容易に複素スペクトルが得られる。

フィルタ処理部３０５は、音源信号生成部３０１で得られた音源信号および複素スペクトル生成部３０４において得られた複素スペクトル系列を畳み込むことで合成音声９を生成する。

なお、図５に示されるブロック図の処理は、各音声特徴量の系列を1フレームずつ入力することで逐次的に処理が可能である。

図６は、音声波形生成部２１６の第２の構成例を示すブロック図である。

位相復元部４０１は、パラメータ生成部２１５において生成された位相特徴量１１を式（３）に適用し、スパース基底モデル保持部２１１に保持されている基底モデルを用いて位相スペクトルを復元する。本実施形態では、スパース基底モデルとしてＳＢＭを用いており、座標表現された位相スペクトルをＳＢＭの線形結合により復元する。ただし、復元された位相スペクトルは、その絶対値が単位円上に存在しないことがあるため、位相スペクトルの値が単位円上に存在するように適宜変形を加える。

マルチパルス信号生成部４０２は、基本周波数の系列６と位相復元部４０１で復元された位相スペクトルを用いてマルチパルス信号系列を生成する。ここでは、まず、基本周波数の情報６に基づいたパルス信号系列を生成する。次に、位相スペクトル系列とパルス信号系列をかけ合わせることでマルチパルス信号系列を生成する。

音源信号生成部４０３は、マルチパルス信号生成部４０２で得られたマルチパルス信号系列と雑音強度比の系列７を用いて音源信号を生成する。ここでは、マルチパルス信号と雑音信号系列について、雑音強度比の系列７の情報に基づいて生成された重み情報を用いて重みづけ和を行うことにより音源信号を生成する。

スペクトル復元部４０４は、パラメータ生成部２１５において生成されたスペクトル特徴量の系列８と、スパース基底モデル保持部２１１に保持されているＳＢＭを用いて対数振幅スペクトルを復元する。

フィルタ処理部４０５は、音源信号生成部４０３で得られた音源信号およびスペクトル復元部４０４により得られた振幅スペクトル系列を畳み込むことで合成音声９を生成する。なお、図６に示されるブロック図の処理は、各音声特徴量の系列を1フレームずつ入力することで逐次的に処理が可能である。

以上説明した音声合成装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、本実施形態に記載した手法は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどの記憶媒体などを適宜利用して実現することができる。

以上説明した実施形態によれば、音声の制限された帯域ごとの情報を表現する基底モデルを用いて抽出された音声パラメータを統計モデルに基づく音声合成に適用することにより、合成音声の品質を向上することができる。本実施形態では、ＳＢＭに基づくスペクトル特徴量（対数振幅スペクトル包絡のパラメータ）を統計モデル学習部１０９の学習に用いることとした。スペクトル特徴量は、スパース基底モデル（ＳＢＭ）保持部１１０に保持されたＳＢＭを用いてスペクトル特徴量抽出部１０８により抽出されたものである。特に本実施形態では、位相のアンラップ問題に適切に対処するために、変換部２１が極座標表現の位相スペクトルを直交座標表現の位相スペクトルに変換する構成とした。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０１…辞書学習部；
１０２…音声合成部；
１０３…音声データ保持部；
１０４…言語情報抽出部；
１０５…基本周波数抽出部；
１０６…雑音強度比計算部；
１０７…スペクトル包絡抽出部；
１０８…スペクトル特徴量抽出部；
１０９…統計モデル学習部；
１１０…スパース基底モデル保持部；
１１１…統計モデル保持部；
１１２…テキスト解析部；
１１３…モデル選択部；
１１４…パラメータ生成部；
１１５…音源信号生成部；
１１６…スペクトル復元部；
１１７…フィルタ処理部

Claims

テキストデータを解析することにより言語的な情報を表す言語情報データを出力する言語解析部と、
音声に含まれる音響情報を統計的にモデル化した複数の統計モデルを保持する統計モデル保持部と、
前記言語情報データに基づいて前記複数の統計モデルからいずれかの統計モデルを選択するモデル選択部と、
前記モデル選択部において選択された統計モデルを用いて複数の音声パラメータの系列を生成するパラメータ生成部と、
それぞれが制限された帯域ごとの音声の情報を表現する複数の基底ベクトルを含む基底モデルを保持する基底モデル保持部と、
前記複数の音声パラメータの系列と前記基底モデルとをフィルタ処理することにより合成音声を出力するフィルタ処理部と、を具備し、
前記複数の音声パラメータの系列のいずれかは、前記複数の基底ベクトルを線形結合する際に各基底ベクトルに適用される重みを表し、
前記複数の音声パラメータの系列のいずれかは、前記基底モデルを用いて抽出された複数のスペクトル特徴量に対し各スペクトル特徴量間の相関を平均的に減少させるように変換を施したのちのスペクトル特徴量により学習した統計モデルから生成される、音声合成装置。
テキストデータを解析することにより言語的な情報を表す言語情報データを出力する言語解析部と、
音声に含まれる音響情報を統計的にモデル化した複数の統計モデルを保持する統計モデル保持部と、
前記言語情報データに基づいて前記複数の統計モデルからいずれかの統計モデルを選択するモデル選択部と、
前記モデル選択部において選択された統計モデルを用いて複数の音声パラメータの系列を生成するパラメータ生成部と、
それぞれが制限された帯域ごとの音声の情報を表現する複数の基底ベクトルを含む基底モデルを保持する基底モデル保持部と、
前記複数の音声パラメータの系列と前記基底モデルとをフィルタ処理することにより合成音声を出力するフィルタ処理部と、を具備し、
前記複数の音声パラメータの系列のいずれかは、前記複数の基底ベクトルを線形結合する際に各基底ベクトルに適用される重みを表し、
前記複数の音声パラメータの系列のいずれかは、前記基底モデルを用いて抽出された、音声信号に含まれる周波数帯域ごとの極座標表現の複数の位相特徴量を直交座標表現の位相特徴量に変換したのちの位相特徴量により学習した統計モデルから生成される、音声合成装置。
前記複数の基底ベクトルの各々は、限られた周波数帯域のみに値を持ち、当該限られた周波数帯域の外側の帯域には零または計算上では無視可能な値を持つ、請求項１または２に記載の装置。
前記複数の基底ベクトルの数は、量子化された音声波形信号を分析するときに用いる分析点数の半分未満である請求項１乃至３のいずれかに記載の装置。
前記複数の基底ベクトルの各々は、周波数帯域ごとで可変の周波数尺度に基づいた周波数位置にピークを持つ請求項１乃至４のいずれかに記載の装置。
前記音声パラメータの系列は、前記基底モデルが持つ複数の基底ベクトルと同じ次元数を持つ請求項１乃至５のいずれかに記載の装置。
前記複数の音声パラメータの系列は、スペクトル包絡を示す特徴量、音声の周期・非周期性を示す特徴量、音声の位相特性を示す特徴量の少なくともいずれかである請求項１乃至６のいずれかに記載の装置。
前記スペクトル包絡の特徴量と、前記複数の基底ベクトルとを線形結合することによりスペクトル包絡を復元するスペクトル復元部をさらに具備する請求項７に記載の装置。
前記位相特性を示す特徴量と、前記複数の基底ベクトルとを線形結合することにより位相スペクトルを復元する位相復元部をさらに具備する請求項７に記載の装置。
前記位相スペクトルからマルチパルス音源信号を生成する生成部をさらに具備する請求項９記載の装置。
音声データに基づく言語情報データと、前記音声データに基づき前記基底モデルを用いて抽出された音響特徴量とを用いて前記統計モデルの学習を行う学習部をさらに具備する請求項１に記載の装置。
テキストデータを解析することにより言語的な情報を表す言語情報データを出力するステップと、
音声に含まれる音響情報を統計的にモデル化した複数の統計モデルを保持するステップと、
前記言語情報データに基づいて前記複数の統計モデルからいずれかの統計モデルを選択するステップと、
選択された統計モデルを用いて複数の音声パラメータの系列を生成するステップと、
それぞれが制限された帯域ごとの音声の情報を表現する複数の基底ベクトルを含む基底モデルを保持するステップと、
前記複数の音声パラメータの系列と前記基底モデルとをフィルタ処理することにより合成音声を出力するステップと、を具備し、
前記複数の音声パラメータの系列のいずれかは、前記複数の基底ベクトルを線形結合する際に各基底ベクトルに適用される重みを表し、
前記複数の音声パラメータの系列のいずれかは、前記基底モデルを用いて抽出された複数のスペクトル特徴量に対し各スペクトル特徴量間の相関を平均的に減少させるように変換を施したのちのスペクトル特徴量により学習した統計モデルから生成される、音声合成方法。
テキストデータを解析することにより言語的な情報を表す言語情報データを出力するステップと、
音声に含まれる音響情報を統計的にモデル化した複数の統計モデルを保持するステップと、
前記言語情報データに基づいて前記複数の統計モデルからいずれかの統計モデルを選択するステップと、
選択された統計モデルを用いて複数の音声パラメータの系列を生成するステップと、
それぞれが制限された帯域ごとの音声の情報を表現する複数の基底ベクトルを含む基底モデルを保持するステップと、
前記複数の音声パラメータの系列と前記基底モデルとをフィルタ処理することにより合成音声を出力するステップと、を具備し、
前記複数の音声パラメータの系列のいずれかは、前記複数の基底ベクトルを線形結合する際に各基底ベクトルに適用される重みを表し、
前記複数の音声パラメータの系列のいずれかは、前記基底モデルを用いて抽出された、音声信号に含まれる周波数帯域ごとの極座標表現の複数の位相特徴量を直交座標表現の位相特徴量に変換したのちの位相特徴量により学習した統計モデルから生成される、音声合成方法。
コンピュータを、
テキストデータを解析することにより言語的な情報を表す言語情報データを出力する言語解析部、
音声に含まれる音響情報を統計的にモデル化した複数の統計モデルを保持する統計モデル保持部、
前記言語情報データに基づいて前記複数の統計モデルからいずれかの統計モデルを選択するモデル選択部、
前記モデル選択部において選択された統計モデルを用いて複数の音声パラメータの系列を生成するパラメータ生成部、
それぞれが制限された帯域ごとの音声の情報を表現する複数の基底ベクトルを含む基底モデルを保持する基底モデル保持部、
前記複数の音声パラメータの系列と前記基底モデルとをフィルタ処理することにより合成音声を出力するフィルタ処理部、として機能させるためのプログラムであって、
前記複数の音声パラメータの系列のいずれかは、前記複数の基底ベクトルを線形結合する際に各基底ベクトルに適用される重みを表し、
前記複数の音声パラメータの系列のいずれかは、前記基底モデルを用いて抽出された複数のスペクトル特徴量に対し各スペクトル特徴量間の相関を平均的に減少させるように変換を施したのちのスペクトル特徴量により学習した統計モデルから生成される、プログラム。
コンピュータを、
テキストデータを解析することにより言語的な情報を表す言語情報データを出力する言語解析部、
音声に含まれる音響情報を統計的にモデル化した複数の統計モデルを保持する統計モデル保持部、
前記言語情報データに基づいて前記複数の統計モデルからいずれかの統計モデルを選択するモデル選択部、
前記モデル選択部において選択された統計モデルを用いて複数の音声パラメータの系列を生成するパラメータ生成部、
それぞれが制限された帯域ごとの音声の情報を表現する複数の基底ベクトルを含む基底モデルを保持する基底モデル保持部、
前記複数の音声パラメータの系列と前記基底モデルとをフィルタ処理することにより合成音声を出力するフィルタ処理部、として機能させるためのプログラムであって、
前記複数の音声パラメータの系列のいずれかは、前記複数の基底ベクトルを線形結合する際に各基底ベクトルに適用される重みを表し、
前記複数の音声パラメータの系列のいずれかは、前記基底モデルを用いて抽出された、音声信号に含まれる周波数帯域ごとの極座標表現の複数の位相特徴量を直交座標表現の位相特徴量に変換したのちの位相特徴量により学習した統計モデルから生成される、プログラム。
音声データに基づく言語情報データと、前記音声データに基づき前記基底モデルを用いて抽出された音響特徴量とを用い、請求項１乃至１１のいずれかに記載の音声合成装置に適用される統計モデルの学習を行う学習装置。