JP2012058343A

JP2012058343A - 音声合成装置、音声合成方法および音声合成プログラム

Info

Publication number: JP2012058343A
Application number: JP2010199288A
Authority: JP
Inventors: Nobuyuki Nishizawa; 信行西澤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2010-09-06
Filing date: 2010-09-06
Publication date: 2012-03-22
Anticipated expiration: 2030-09-06
Also published as: JP5474713B2

Abstract

【課題】高精度な計算が困難な場合でも、正確な音声合成パラメータ時系列データに基づく音声合成装置、音声合成方法および音声合成プログラムを提供する。
【解決手段】与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第１の音声合成パラメータ時系列データを生成し、与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、第１の音声合成パラメータとの差の時系列データとして、第１の音声合成パラメータ時系列データよりも数値範囲が小さい第２の音声合成パラメータ時系列データを生成し、第１の音声合成パラメータ時系列データと第２の音声合成パラメータ時系列データとを加算し、第３の音声合成パラメータ時系列データを生成し、第３の音声合成パラメータ時系列データに基づく合成音声波形を生成する。
【選択図】図１

Description

本発明は、音素の集合として構成される音声合成用情報から合成音声波形を生成する音声合成装置、音声合成方法および音声合成プログラムに関する。

音声合成技術の代表的な利用方法として、テキスト音声変換（Text-To-Speech）が挙げられる。以下、テキスト解析等の結果得られる音素の種類や韻律的特徴を表記した記号を入力とし、音声波形を生成する装置を音声合成装置と呼ぶ。音声合成装置は、テキスト音声変換システムの構成要素である。

この音声合成装置に入力される記号を、以下、音声合成用記号と呼ぶ。音声合成用記号には様々な形式があり得るが、ここでは、一連の音声を構成する音韻的情報と、主としてポーズや声の高さとして表現される韻律的情報を同時に表記したものを考える。そのような音声合成用記号の例として、ＪＥＩＴＡ（電子情報技術産業協会）規格ＩＴ−４００２「日本語テキスト音声合成用記号」がある（非特許文献１参照）。音声合成装置は、このような音声合成用記号に基づいてそれに対応する音声波形を生成する。ただし、一般に音声波形は合成対象の音素だけでなく、前後の音素の種類や韻律的特徴の影響を強く受けるため、一般的に記号と音声波形の対応関係は複雑になる。

音声合成装置による音声波形の生成方法には様々な方式があるが、音声の短時間スペクトルの特徴や有声・無声情報、基本周波数（F0）を直接パラメータとし、このパラメータに基づき音声波形を生成する方法が主な背景技術である。代表的な音声波形の生成方法に、音源・フィルタモデルに基づく音声合成がある。音源・フィルタモデルでは、音声の響きをつくる調音フィルタを適当な音源で駆動することで、音声波形を信号処理的に合成する。

インパルス列や白色雑音源といった比較的に単純な構成の音源を用いる場合、インパルス列と白色雑音源の切り替えは有声・無声情報に基づき、インパルス列の基本周波数はF0パラメータに基づきそれぞれ制御することができる。一方、スペクトルの特徴を表すパラメータとしてはＭＦＣＣ（Mel-Frequency Cepstral Coefficient）や線形予測係数が用いられ、調音フィルタとしては、ＡＲ（自己回帰）型のフィルタや、特にパラメータとしてＭＦＣＣを用いる場合には、ＭＦＣＣを直接そのパラメータとする、ＭＬＳＡ（メル対数スペクトル近似）フィルタ（非特許文献２参照）等が用いられる。

例えば子音のような音声を合成するためには、音声合成パラメータを時間的に変化させることが必要である。そのため、この方法では、例えば５ｍｓ程度の一定周期で音声合成パラメータを更新し、その特徴を変化させながら音声を合成することが一般的である。この一定周期の１周期分は一般に１フレームと呼ばれる。したがって、一般的に音声を合成するためには、音声合成用記号から、音声合成パラメータについてフレーム周期の時系列データを作成する必要がある。

最も簡単な方法としては、ある音素の長さ分だけのフレーム周期の時系列データを、必要な音素のそれぞれについて事前に準備しておき、生成したい音声の音素系列に合わせて、それらの音声合成パラメータ時系列をつなぎ合わせて１発声の音声合成パラメータ時系列とする方法が考えられる。しかし、先述のように、同じ音素であっても、前後の音素の種類や、話速や声の高さ、直前や直後のポーズからの時間的距離によって、その特徴が大きく異なる場合がある。このような場合に対応するためには、前後の音素や韻律的特徴を考慮した複雑な音素分類を用いる必要があるが、このような複雑な音素分類を用いると、音素の種類の個数は莫大になり、必要な全ての音声合成パラメータ時系列のセットを事前に作成、蓄積しておくことは困難である。

そこで、実際には、音声合成パラメータ時系列の時間変化を適当なモデルに基づきモデル化し、そのモデルパラメータを音声合成用記号からまず予測することで生成し、得られたモデルから音声合成パラメータ時系列を生成することで、任意の音声を合成可能とする方法が用いられる。以下では、このモデルのことを音声生成モデルと呼ぶ。

例えば、ある音素の音声合成パラメータの特徴が時間的に３つの状態に分かれ、各状態のフレーム数について、それらの統計分布パラメータベクトルを最初の状態から順にd1、d2、d3とし、この３つのベクトルの要素を連結して１つのベクトルdを作り、また、音声合成パラメータの各状態の統計分布パラメータベクトルを最初の状態から順にv1、v2、v3とすれば、その音素を合成するための音声合成パラメータの特徴は、音声生成モデルのパラメータを構成するd、v1、v2、v3の4つのベクトルで表すことができる。さらに、音声合成用記号からこれらのパラメータベクトルを生成するような予測器を前もって構築し、音声合成時に予測器を用いることで、比較的少量のデータから音声を合成することができる。

この方法に基づく代表的なものに、ＨＭＭ音声合成方式がある。ＨＭＭ音声合成方式は、音声生成モデルとしてＨＭＭ（隠れマルコフモデル）に基づくモデルを仮定している。そして、音声生成モデルのパラメータを構成する複数のベクトルは、音声認識技術における状態共有ＨＭＭで用いられる方法と同様に、それぞれ音声合成用記号から決定木に基づき決定される（非特許文献３参照）。ここで決定木は、予め用意しておいた学習音声と、それに対応する音声合成用記号を用いて構築（学習）する。

１発話の音声を合成する際には、まず単位音声毎の音声生成モデルを連結して１発話分の音声生成モデルを構成する。そして、その構成された音声生成モデルに対し、ゆう度が最大となる音声合成パラメータ時系列を求め、これを音声波形生成に用いる。音声合成パラメータ時系列に対する、音声生成モデルのゆう度は、例えば、音声生成モデルにおいて、次のように表わされる。

すなわち、フレームiにおける音声合成パラメータxの値xiの統計的分布が他の種類の音声合成パラメータに対し独立でかつ正規分布に従い、その分布の平均がμi、分散がσi²であるとき、音声の長さが全体でnフレームとすると、１発声の音声合成パラメータxの時系列xiに対する音声生成モデルの対数ゆう度は、以下の数式で与えられる。

しかし、フレーム周期の音声合成パラメータを数個の正規分布で直接モデル化した場合、最ゆうなパラメータ系列は、状態内で正規分布の平均値が連続的に出力されたものとなり、状態が切り替わる際に、その値が不連続となる。すなわち、階段状のパラメータ時系列となる。これは実際の音声の特徴と異なるため、音声合成パラメータそのものだけでなく（以下、これを静的特徴と呼ぶ）、音声合成パラメータの動的特徴として、音声合成パラメータ時系列データの一階差分（デルタ）や二階差分（デルタデルタ）等を組み合わせたベクトルを特徴ベクトルとすることで、音声合成パラメータの連続的な変化も考慮したモデル化が行われる（非特許文献４参照）。ある音声合成パラメータxのi番目のフレームにおける値xiのデルタΔxiおよびデルタデルタΔ²xiは、例えばそれぞれ数式（２）、数式（３）により与えられる。

以下、音声合成パラメータの時系列データの計算方法を説明する。まず説明のためにフレームｉにおける特徴ベクトルをo_iとする。数式中の英大文字および太字の英小文字はベクトルを意味する（以下、同様）。

また音声の長さはｎフレームとする。また、以下の行列を定義する。ただし、上付きのTは転置行列、上付きの-1は逆行列を表す（以下同様）。

さらに、数式（２）、（３）で定義される静的特徴の時系列Xから動的特徴を含む特徴
ベクトル時系列Oを求める変換行列をここではＷとする。つまり、以下の関係が成り立つ。ここでＷは３ｎ行×ｎ列の行列である。

パラメータの分布が正規分布に従う場合、Xの対数ゆう度p(X)は以下の数式で与えられる。ここでμはＯの分布の平均ベクトル、UはＯの分布の分散共分散行列である。μおよびＵの各要素は事前に学習した決定木により、音声合成用記号から決定する。

対数ゆう度p(X)を最大とするXは以下の関係を満たす。

数式（８）および数式（９）をXについて解くと以下の数式が得られる。

すなわち、数式（１０）を計算することで、最ゆう基準に基づく、動的特徴を考慮したパラメータ時系列が得られる。音声合成パラメータxを多次元のベクトルに拡張した場合も同様である。

「日本語テキスト音声合成用記号」ＪＥＩＴＡ規格ＩＴ−４００２、２００５年3月今井聖、住田一男、古市千枝子、「音声合成のためのメル対数スペクトル近似（ＭＬＳＡ）フィルタ」、電子情報通信学会論文誌(A), J66-A, 2, Feb.1983, pp.122-129 吉村貴克、徳田恵一、益子貴史、小林隆夫、北村正、「ＨＭＭに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化」、電子情報通信学会論文誌(D-II), J83-D-II, 11, Nov.2000, pp.2099-2107 益子貴史、徳田恵一、小林隆夫、今井聖、「動的特徴を用いたＨＭＭに基づく音声合成」、電子情報通信学会論文誌(D-II), J79-D-II, 12, Dec.1996, pp.2184-2190

音声合成パラメータ分布のパラメータベクトルを予測するための決定木を、音韻的な音素の種類だけでなく、アクセント型やアクセント句境界といった言語的な韻律的特徴の違いもその説明変数に含めて学習すると、学習された決定木で予測される特徴ベクトルの分布において、しばしば、デルタ特徴やデルタデルタ特徴に関連する要素の値の分散が、静的特徴に関連する要素の値の分散より小さくなる傾向が現れる。これは、言語的な韻律的特徴が音声合成パラメータの絶対値よりもその短時間変化に対して強い相関を持つことに起因すると考えられる。

生成するパラメータ時系列の対数ゆう度の数式（８）によると、対数ゆう度の計算では、分布平均は常に分布の分散の逆数で重み付けられる。よって上記の傾向から、計算の過程において、デルタ特徴やデルタデルタ特徴の情報を含む値が、静的特徴の情報を含む値よりも相対的に大きくなる場合が多い。

携帯端末のように計算資源が限られ固定小数点数演算が必要な装置による計算では、計算時の桁あふれを防止するために、計算結果の値をある一定値以下にする必要が生じる。このため処理可能な値の範囲（例えば最大値と最小値の比）を充分にとることができない場合、小さい値で表された情報は桁落ちにより値が丸められ、誤差が生じやすくなる。つまり、音声合成パラメータ時系列の生成過程で、静的特徴分布に関する正確な情報が失われやすい。静的特徴は特徴パラメータの絶対位置を決める情報であるため、この丸め誤差により、特徴軸にそって上下に位置がずれたような音声合成パラメータ時系列が生成されうるが、このずれは合成音声の不自然さの原因となる。

本発明は、このような事情に鑑みてなされたものであり、高精度な計算が困難な場合でも、正確な音声合成パラメータ時系列に基づく、音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。

（１）上記の目的を達成するため、本発明の音声合成装置は、一連の単位音声列に含まれる単位音声の種類を記述する音声合成用情報から合成音声波形を生成する音声合成装置であって、与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第１の音声合成パラメータ時系列データを生成する第１の音声合成パラメータ生成部と、前記与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、前記第１の音声合成パラメータとの差の時系列データとして、前記第１の音声合成パラメータ時系列データよりも数値範囲が小さい第２の音声合成パラメータ時系列データを生成する第２の音声合成パラメータ生成部と、前記第１の音声合成パラメータ時系列データと前記第２の音声合成パラメータ時系列データとを加算し、第３の音声合成パラメータ時系列データを生成する音声合成パラメータ加算部を備え、前記第３の音声合成パラメータ時系列データに基づく合成音声波形を生成することを特徴としている。

このように、第１の音声合成パラメータ生成部では、数値範囲の大きい第１の音声合成パラメータ時系列データを生成し、第２の音声合成パラメータ生成部では、第１の音声合成パラメータ時系列データよりも数値範囲が小さい第２の音声合成パラメータ時系列データを生成している。

これにより、第１の音声合成パラメータ生成部では、従来手法で丸め誤差が問題になっていた特徴情報を主な処理対象とし、それ以外の特徴を処理から除外することで、全ての特徴情報も一括して処理する場合に比べて処理途中での丸め誤差を抑えることができる。これにより、最終的な音声合成パラメータ時系列データの計算誤差を全体として小さくすることができる。

（２）また、本発明の音声合成装置は、前記第２の音声合成パラメータ生成部は、最ゆう基準に基づく一般的なパラメータ時系列の算出過程において、特徴ベクトルの分布情報における平均パラメータを前記第１の音声合成パラメータ時系列データに対する特徴ベクトルとの差に置換して計算することで、前記特徴ベクトルの分布情報を修正することを特徴としている。

これにより、第２の音声合成パラメータを求めるための特徴分布パラメータの修正が、従来手法における分布平均に関するパラメータμを、第１の音声合成パラメータ時系列データＸ_０に対応する動的特徴を含む特徴ベクトルとの差に置き換えることで実現できる。

このとき、数式上、第１の音声合成パラメータ時系列データと第２の音声合成パラメータ時系列データの和は、従来手法による音声合成パラメータ時系列データと完全に一致するため、近似的な音声合成パラメータ時系列データ生成処理を含む手法よりも正確な音声合成パラメータ時系列を生成することができる。

（３）また、本発明の音声合成装置は、前記第１の音声合成パラメータ生成部は、直接的に時間的変化を表さない静的特徴の分布情報から音声合成パラメータ時系列データを生成することを特徴としている。これにより、従来手法で問題となっていた静的特徴に関する値の丸め誤差の影響を小さくすることができ、最終的に正確な音声合成パラメータ時系列を生成することができる。

（４）また、本発明の音声合成装置は、前記静的特徴の特徴ベクトルの分布情報から生成される音声合成パラメータ時系列データは、静的特徴の分布平均パラメータの時系列であることを特徴としている。このとき、第２の音声合成パラメータを求めるための特徴分布パラメータの修正結果であるベクトル（μ−ＷＸ_０）において、静的特徴の分布平均パラメータに対応する要素の値は全て０となる。値０に対して計算による丸めの誤差は生じないため、従来手法で問題となっていた静的特徴に関する値の丸め誤差の影響が小さくなり、最終的に従来手法よりも正確な音声合成パラメータ時系列を生成することができる。

（５）また、本発明の音声合成装置は、前記第１の音声合成パラメータ生成部は、前記第１の音声合成パラメータの生成により、最終的に生成しようとする前記第３の音声合成パラメータ時系列データの区分された時間ごとの数値範囲情報を保存し、前記第２の音声合成パラメータ生成部は、前記第２の音声合成パラメータの生成により、前記第３の音声合成パラメータ時系列データの前記区分された時間ごとの数値変化を算出し、前記音声合成パラメータ加算部は、前記加算により、前記保存した数値範囲情報を前記算出された数値変化に反映させることを特徴としている。

このように最終的に生成しようとする音声合成パラメータ時系列データの区分された時間ごとの値を一時的に記憶し、第２の音声合成パラメータに反映させるだけであり、第１の音声合成パラメータについては実質的な計算が発生しないため、誤差も生じない。

（６）また、本発明の音声合成方法は、一連の単位音声列に含まれる単位音声の種類を記述する音声合成用情報から合成音声波形を生成する音声合成方法であって、与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第１の音声合成パラメータ時系列データを生成するステップと、前記与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、前記第１の音声合成パラメータとの差の時系列データとして、前記第１の音声合成パラメータ時系列データよりも数値範囲が小さい第２の音声合成パラメータ時系列データを生成するステップと、前記第１の音声合成パラメータ時系列データと前記第２の音声合成パラメータ時系列データとを加算し、第３の音声合成パラメータ時系列データを生成するステップと、を含み、前記第３の音声合成パラメータ時系列データに基づく合成音声波形を生成することを特徴としている。

これにより、従来手法で丸め誤差が問題になっていた特徴情報を主な処理対象とし、それ以外の特徴を処理から除外することで、全ての特徴情報も一括して処理する場合に比べて処理途中での丸め誤差を抑えることができる。

（７）また、本発明の音声合成プログラムは、一連の単位音声列に含まれる単位音声の種類を記述する音声合成用情報から合成音声波形を生成するためにコンピュータに実行させる音声合成プログラムであって、与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第１の音声合成パラメータ時系列データを生成する処理と、前記与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、前記第１の音声合成パラメータとの差の時系列データとして、前記第１の音声合成パラメータ時系列データよりも数値範囲が小さい第２の音声合成パラメータ時系列データを生成する処理と、前記第１の音声合成パラメータ時系列データと前記第２の音声合成パラメータ時系列データとを加算し、第３の音声合成パラメータ時系列データを生成する処理と、を含み、前記第３の音声合成パラメータ時系列データに基づく合成音声波形を生成することを特徴としている。

第１の音声合成パラメータ生成部では、主に従来の手法において計算誤差が問題となっていた情報から第１の音声合成パラメータ時系列データを生成し、第２の音声合成パラメータ時系列生成部では、最終的な音声合成パラメータ時系列データと第１の音声合成パラメータ時系列データの差を第２の音声合成パラメータ時系列データとして生成する。

第１の音声合成パラメータ生成部では、従来手法で丸め誤差が問題になっていた特徴情報を主な処理対象とし、それ以外の特徴を処理から除外することで、全ての特徴情報も一括して処理していた従来手法と比較し、処理途中での丸め誤差を抑えることができる。これにより、最終的な音声合成パラメータ時系列データの計算誤差を全体として小さくすることができる。

本発明の音声合成装置を示すブロック図である。本発明の音声合成装置の動作を示すフローチャートである。（ａ）〜（ｃ）各音声合成パラメータ時系列データの一例を示す図である。（ａ）〜（ｃ）各音声合成パラメータ時系列データの一例を示す図である。

以下の説明において“単位音声”とは、音声合成装置における、音声の最小処理単位である。単位音声の具体例には、音素、音節、単語がある。単位音声は、例えば前後の音素の種類といった音韻環境に関する違い、またアクセントやイントネーション、話速といった韻律的特徴の違いを考慮して分類される。“単位発話”は、連続的な特徴を有する一連の単位音声列を指し、１文の発声や、呼気段落（一息で読む単位）に対応する。また“音声合成用記号”とは、１単位発話の音声に含まれる単位音声のそれぞれの種類を記述するための一連の記号である。

音声合成装置１００は、最終的に音声合成パラメータ時系列から音声波形を生成する。ただし、音声合成パラメータ時系列データから音源・調音フィルタにより信号処理的に音声波形を生成するシステムに限らない。例えば、事前収録した音声データから音声素片データベースを構築しておき、音声合成パラメータ時系列データに対応する音声素片系列を選択し、接続することで音声を合成する、素片接続型音声合成システムも対象に含まれる。また、音声合成パラメータは多次元のベクトルでもよい。

（音声合成装置の構成）
図１は、音声合成装置１００を示すブロック図である。音声合成装置１００は音声合成用記号の入力に対して合成音声波形を出力する。図１に示すように、音声合成装置１００は、音声特徴分布パラメータ生成部１０５、第１の音声合成パラメータ生成部１１０、第２の音声合成パラメータ生成部１２０、音声合成パラメータ加算部１３０、音声波形生成部１４０で構成される。また、第２の音声合成パラメータ生成部は音声特徴分布パラメータ修正部１２１と音声合成パラメータ時系列計算部１２２で構成される。

以下、音声合成用記号から合成音声波形を生成する処理の流れに沿って各部を説明する。音声特徴分布パラメータ生成部１０５は、音声合成記号列から音声特徴分布パラメータを生成する。なお、ここで音声特徴は静的特徴だけでなく、そのデルタ特徴やデルタデルタ特徴等の動的特徴を含む。音声特徴分布パラメータ生成部は、学習音声を用いて音声特徴の分布パラメータを予測する予測器を有する。上記の特徴は全て正規分布を仮定し、分布パラメータはその平均ベクトルと分散共分散行列で構成される。上記のパラメータはそれぞれ決定木を用いて生成できる。ここで用いる決定木は、音声合成用記号と、それぞれ対応する特徴との関係について、それぞれ学習用音声を用いて事前に学習されている。

第１の音声合成パラメータ生成部１１０は、音声特徴分布パラメータから第１の音声合成パラメータ時系列データＸ_０を生成する。ただし、第１の音声合成パラメータ時系列データは音声波形生成部１４０で最終的に用いられる音声合成パラメータ時系列データと同一でなくてもよい。

第２の音声合成パラメータ生成部１２０は、音声特徴分布パラメータと第１の音声合成パラメータ時系列データＸ_０を入力として受け付け、音声波形生成部１４０で最終的に用いられる音声合成パラメータ時系列データＸと、第１の音声合成パラメータ時系列データＸ_０の差の時系列データを第２の音声合成パラメータ時系列データＸ_１として生成する。すなわち、以下の関係が成り立つ。

音声合成パラメータ加算部１３０は、第１の音声合成パラメータ時系列データＸ_０および第２の音声合成パラメータ時系列データＸ_１を入力として受け付け、各時刻における和の系列を、最終的な音声合成パラメータ時系列データ、すなわち第３の音声合成パラメータ時系列Ｘとして出力する。最後に、音声波形生成部１４０は、音声合成パラメータ時系列データＸに対応する音声波形を合成し出力する。

第２の音声合成パラメータ生成部１２０は、音声特徴分布パラメータ修正部１２１において、入力された音声特徴分布パラメータμ、Ｕを、Ｘ_０を用いて修正する。次に音声合成パラメータ時系列計算部で第２の音声合成パラメータ時系列データＸ_１を計算する。

数式（１０）および式（１１）から、Ｘ_１は以下の計算で求めることができる。

式（１２）は、Ｘ₁を求めるための特徴分布パラメータの修正が、一般的な場合の算出過程（式（１０））における分布平均に関するパラメータμを、Ｘ_０に対応する動的特徴を含む特徴ベクトルＷＸ_０との差に置き換えることで実現できることを示している。

第１の音声合成パラメータ生成部１１０が出力する第１の音声合成パラメータ時系列データＸ_０は、任意の時系列データを設定することができる。その場合、最終的な計算誤差が小さくなるようなＸ_０を設定することがより好ましい。そのようなＸ_０として、各時刻における静的特徴の分布平均で構成した系列がある。このとき、ベクトル（μ−ＷＸ_０）における静的特徴の分布平均パラメータに対応する要素の値は全て０となる。値０に対して計算による丸めの誤差は生じないため、第２の音声合成パラメータ生成部でＸ_１を計算する際の、従来手法で問題となっていた静的特徴に関する値の丸め誤差の影響が小さくなり、最終的に従来手法よりも正確な音声合成パラメータ時系列データを生成することができる。

あるいは、静的特徴の分布平均パラメータ時系列をローパスフィルタにより時間的に平滑化した系列等、Ｘ_０にＸとの差が小さいと考えられる系列を設定することで、生成されるＸ_１の値の範囲を従来手法によるＸの値の範囲よりも狭めることができる。これにより、固定小数点演算における小数点以下の桁数をより増やし、計算途中の丸め誤差を削減することができる。

（音声合成装置の動作）
上記のように構成される音声合成装置１００の動作を説明する。図２は、音声合成装置１００の動作を示すフローチャートである。まず音声合成記号列をもとに音声合成特徴分布パラメータを生成する（ステップＳ１）。次に、音声合成特徴分布パラメータから、予め設定された基準により第１の音声合成パラメータ時系列データＸ_０を生成する（ステップＳ２）。予め設定された基準は、たとえば計算結果の数値範囲の大きいものと小さいものに分離するという基準である。

次に、上記の設定基準に基づいて第２の音声合成パラメータ時系列データの生成のための音声特徴分布パラメータを修正する（ステップＳ３）。そして、修正された音声特徴分布パラメータから第２の音声合成パラメータ時系列データＸ_１を生成する（ステップＳ４）。そして、上記のように得られた２つの音声合成パラメータ時系列データＸ_０、Ｘ_１を加算し、第３の音声合成パラメータ時系列データＸを生成する（ステップＳ５）。そして、第３の音声合成パラメータ時系列データＸを用いて音声波形を生成する（ステップＳ６）。なお、上記の一連の処理は、携帯端末等に実装されるプログラムを実行することにより実施可能である。また、上記のような手法は、最終的に生成しようとする時系列データの数値範囲情報を一旦保存し、それ以外の数値変化を算出し、保存した数値範囲情報を算出された数値変化に反映させるものとも言える。

（音声合成パラメータ時系列データの一例）
上記の実施形態により得られる音声合成パラメータ時系列データの一例を説明する。図３（ａ）〜（ｃ）は、各音声合成パラメータ時系列データの一例を示す図である。図の横軸は時間を、縦軸は音声特徴ベクトルのある次元の値を表している。図３（ａ）は、ある区分された時間ごとの平均値として得られた第１の音声合成パラメータ時系列データＸ_０を示している。これは区分された時間内で特徴分布パラメータが一定であることを想定した音声生成モデルに対応する。第１の音声合成パラメータは広い数値範囲にわたっているが、区分された時間ごとに独立に平均値を計算できるので、計算の際に誤差は生じにくい。図３（ｂ）は、これと最終的に得ようとする第３の音声合成パラメータ時系列データＸとの差として得られた第２の音声合成パラメータ時系列データＸ_１を示している。第２の音声合成パラメータは、時系列の変化は複雑であるが、狭い数値範囲に制約されている。図３（ｃ）は、第１の音声合成パラメータ時系列データＸ_０と第２の音声合成パラメータ時系列データＸ_１とを加算して得られる第３の音声合成パラメータ時系列データＸを示している。

図４（ａ）〜（ｃ）も、同様に各音声合成パラメータ時系列データの一例を示す図である。図の横軸は時間を、縦軸は音声特徴ベクトルのある次元の値を表している。図４（ａ）は、区分された時間ごとの平均値系列に対し、折れ線近似による平滑化を行って得られた第１の音声合成パラメータ時系列データＸ_０を示している。第１の音声合成パラメータ時系列データＸ_０は広い数値範囲にわたっているが、時系列の変化は単純で計算の際に誤差は生じにくい。この場合には、第１の音声合成パラメータ時系列データＸ_０は、区分された区間ごとに計算した平均値による階段状の系列より、最終的に得ようとする音声合成パラメータに近いものとなる。図４（ｂ）は、これと最終的に得ようとする第３の音声合成パラメータ時系列データＸとの差として得られた第２の音声合成パラメータ時系列データＸ_１を示している。第２の音声合成パラメータ時系列データＸ_１は、時系列の変化は複雑であるが、上記の図３（ｂ）に示す場合よりさらに狭い数値範囲に制約されている。図４（ｃ）は、第１の音声合成パラメータ時系列データＸ_０と第２の音声合成パラメータ時系列データＸ_１とを加算して得られる第３の音声合成パラメータ時系列データＸを示している。

（変形例）
以上の説明では、１つのベクトルＸから音声波形を生成するが、スペクトル、基本周波数等、音声の音響的特徴の種類毎に音声合成ベクトル時系列を独立に計算し、音声波形生成処理でそれらを結合して用いてもよい。

また、上記の実施形態では、第１の音声合成パラメータ生成部と第２の音声合成パラメータ生成部で音声合成記号列から生成した同一の音声特徴分布パラメータからそれぞれ音声合成パラメータ時系列を生成しているが、両者で異なる音声特徴分布パラメータを用いてもよい。例えば、Ｘ_０の生成処理を簡略化するために、より簡素化された音声特徴分布パラメータ生成処理で生成された音声特徴分布パラメータを用いて、Ｘ_０を生成することができる。

１００音声合成装置
１０５音声特徴分布パラメータ生成部
１１０第１の音声合成パラメータ生成部
１２０第２の音声合成パラメータ生成部
１２１音声特徴分布パラメータ修正部
１２２音声合成パラメータ時系列計算部
１３０音声合成パラメータ加算部
１４０音声波形生成部

Claims

一連の単位音声列に含まれる単位音声の種類を記述する音声合成用情報から合成音声波形を生成する音声合成装置であって、
与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第１の音声合成パラメータ時系列データを生成する第１の音声合成パラメータ生成部と、
前記与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、前記第１の音声合成パラメータとの差の時系列データとして、前記第１の音声合成パラメータ時系列データよりも数値範囲が小さい第２の音声合成パラメータ時系列データを生成する第２の音声合成パラメータ生成部と、
前記第１の音声合成パラメータ時系列データと前記第２の音声合成パラメータ時系列データとを加算し、第３の音声合成パラメータ時系列データを生成する音声合成パラメータ加算部を備え、
前記第３の音声合成パラメータ時系列データに基づく合成音声波形を生成することを特徴とする音声合成装置。
前記第２の音声合成パラメータ生成部は、最ゆう基準に基づく一般的なパラメータ時系列の算出過程において、特徴ベクトルの分布情報における平均パラメータを前記第１の音声合成パラメータ時系列データに対する特徴ベクトルとの差に置換して計算することで、前記特徴ベクトルの分布情報を修正することを特徴とする請求項１記載の音声合成装置。
前記第１の音声合成パラメータ生成部は、直接的に時間的変化を表さない静的特徴の分布情報から音声合成パラメータ時系列データを生成することを特徴とする請求項１または請求項２記載の音声合成装置。
前記静的特徴の特徴ベクトルの分布情報から生成される音声合成パラメータ時系列データは、静的特徴の分布平均パラメータの時系列であることを特徴とする請求項３記載の音声合成装置。
前記第１の音声合成パラメータ生成部は、前記第１の音声合成パラメータの生成により、最終的に生成しようとする前記第３の音声合成パラメータ時系列データの区分された時間ごとの数値範囲情報を保存し、
前記第２の音声合成パラメータ生成部は、前記第２の音声合成パラメータの生成により、前記第３の音声合成パラメータ時系列データの前記区分された時間ごとの数値変化を算出し、
前記音声合成パラメータ加算部は、前記加算により、前記保存した数値範囲情報を前記算出された数値変化に反映させることを特徴とする請求項１または請求項２記載の音声合成装置。
一連の単位音声列に含まれる単位音声の種類を記述する音声合成用情報から合成音声波形を生成する音声合成方法であって、
与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第１の音声合成パラメータ時系列データを生成するステップと、
前記与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、前記第１の音声合成パラメータとの差の時系列データとして、前記第１の音声合成パラメータ時系列データよりも数値範囲が小さい第２の音声合成パラメータ時系列データを生成するステップと、
前記第１の音声合成パラメータ時系列データと前記第２の音声合成パラメータ時系列データとを加算し、第３の音声合成パラメータ時系列データを生成するステップと、を含み、
前記第３の音声合成パラメータ時系列データに基づく合成音声波形を生成することを特徴とする音声合成方法。
一連の単位音声列に含まれる単位音声の種類を記述する音声合成用情報から合成音声波形を生成するためにコンピュータに実行させる音声合成プログラムであって、
与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第１の音声合成パラメータ時系列データを生成する処理と、
前記与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、前記第１の音声合成パラメータとの差の時系列データとして、前記第１の音声合成パラメータ時系列データよりも数値範囲が小さい第２の音声合成パラメータ時系列データを生成する処理と、
前記第１の音声合成パラメータ時系列データと前記第２の音声合成パラメータ時系列データとを加算し、第３の音声合成パラメータ時系列データを生成する処理と、を含み、
前記第３の音声合成パラメータ時系列データに基づく合成音声波形を生成することを特徴とする音声合成プログラム。