JP2012058343A - 音声合成装置、音声合成方法および音声合成プログラム - Google Patents

音声合成装置、音声合成方法および音声合成プログラム Download PDF

Info

Publication number
JP2012058343A
JP2012058343A JP2010199288A JP2010199288A JP2012058343A JP 2012058343 A JP2012058343 A JP 2012058343A JP 2010199288 A JP2010199288 A JP 2010199288A JP 2010199288 A JP2010199288 A JP 2010199288A JP 2012058343 A JP2012058343 A JP 2012058343A
Authority
JP
Japan
Prior art keywords
speech synthesis
speech
series data
synthesis parameter
parameter time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010199288A
Other languages
English (en)
Other versions
JP5474713B2 (ja
Inventor
Nobuyuki Nishizawa
信行 西澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2010199288A priority Critical patent/JP5474713B2/ja
Publication of JP2012058343A publication Critical patent/JP2012058343A/ja
Application granted granted Critical
Publication of JP5474713B2 publication Critical patent/JP5474713B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】高精度な計算が困難な場合でも、正確な音声合成パラメータ時系列データに基づく音声合成装置、音声合成方法および音声合成プログラムを提供する。
【解決手段】与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第1の音声合成パラメータ時系列データを生成し、与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、第1の音声合成パラメータとの差の時系列データとして、第1の音声合成パラメータ時系列データよりも数値範囲が小さい第2の音声合成パラメータ時系列データを生成し、第1の音声合成パラメータ時系列データと第2の音声合成パラメータ時系列データとを加算し、第3の音声合成パラメータ時系列データを生成し、第3の音声合成パラメータ時系列データに基づく合成音声波形を生成する。
【選択図】図1

Description

本発明は、音素の集合として構成される音声合成用情報から合成音声波形を生成する音声合成装置、音声合成方法および音声合成プログラムに関する。
音声合成技術の代表的な利用方法として、テキスト音声変換(Text-To-Speech)が挙げられる。以下、テキスト解析等の結果得られる音素の種類や韻律的特徴を表記した記号を入力とし、音声波形を生成する装置を音声合成装置と呼ぶ。音声合成装置は、テキスト音声変換システムの構成要素である。
この音声合成装置に入力される記号を、以下、音声合成用記号と呼ぶ。音声合成用記号には様々な形式があり得るが、ここでは、一連の音声を構成する音韻的情報と、主としてポーズや声の高さとして表現される韻律的情報を同時に表記したものを考える。そのような音声合成用記号の例として、JEITA(電子情報技術産業協会)規格IT−4002「日本語テキスト音声合成用記号」がある(非特許文献1参照)。音声合成装置は、このような音声合成用記号に基づいてそれに対応する音声波形を生成する。ただし、一般に音声波形は合成対象の音素だけでなく、前後の音素の種類や韻律的特徴の影響を強く受けるため、一般的に記号と音声波形の対応関係は複雑になる。
音声合成装置による音声波形の生成方法には様々な方式があるが、音声の短時間スペクトルの特徴や有声・無声情報、基本周波数(F0)を直接パラメータとし、このパラメータに基づき音声波形を生成する方法が主な背景技術である。代表的な音声波形の生成方法に、音源・フィルタモデルに基づく音声合成がある。音源・フィルタモデルでは、音声の響きをつくる調音フィルタを適当な音源で駆動することで、音声波形を信号処理的に合成する。
インパルス列や白色雑音源といった比較的に単純な構成の音源を用いる場合、インパルス列と白色雑音源の切り替えは有声・無声情報に基づき、インパルス列の基本周波数はF0パラメータに基づきそれぞれ制御することができる。一方、スペクトルの特徴を表すパラメータとしてはMFCC(Mel-Frequency Cepstral Coefficient)や線形予測係数が用いられ、調音フィルタとしては、AR(自己回帰)型のフィルタや、特にパラメータとしてMFCCを用いる場合には、MFCCを直接そのパラメータとする、MLSA(メル対数スペクトル近似)フィルタ(非特許文献2参照)等が用いられる。
例えば子音のような音声を合成するためには、音声合成パラメータを時間的に変化させることが必要である。そのため、この方法では、例えば5ms程度の一定周期で音声合成パラメータを更新し、その特徴を変化させながら音声を合成することが一般的である。この一定周期の1周期分は一般に1フレームと呼ばれる。したがって、一般的に音声を合成するためには、音声合成用記号から、音声合成パラメータについてフレーム周期の時系列データを作成する必要がある。
最も簡単な方法としては、ある音素の長さ分だけのフレーム周期の時系列データを、必要な音素のそれぞれについて事前に準備しておき、生成したい音声の音素系列に合わせて、それらの音声合成パラメータ時系列をつなぎ合わせて1発声の音声合成パラメータ時系列とする方法が考えられる。しかし、先述のように、同じ音素であっても、前後の音素の種類や、話速や声の高さ、直前や直後のポーズからの時間的距離によって、その特徴が大きく異なる場合がある。このような場合に対応するためには、前後の音素や韻律的特徴を考慮した複雑な音素分類を用いる必要があるが、このような複雑な音素分類を用いると、音素の種類の個数は莫大になり、必要な全ての音声合成パラメータ時系列のセットを事前に作成、蓄積しておくことは困難である。
そこで、実際には、音声合成パラメータ時系列の時間変化を適当なモデルに基づきモデル化し、そのモデルパラメータを音声合成用記号からまず予測することで生成し、得られたモデルから音声合成パラメータ時系列を生成することで、任意の音声を合成可能とする方法が用いられる。以下では、このモデルのことを音声生成モデルと呼ぶ。
例えば、ある音素の音声合成パラメータの特徴が時間的に3つの状態に分かれ、各状態のフレーム数について、それらの統計分布パラメータベクトルを最初の状態から順にd1、d2、d3とし、この3つのベクトルの要素を連結して1つのベクトルdを作り、また、音声合成パラメータの各状態の統計分布パラメータベクトルを最初の状態から順にv1、v2、v3とすれば、その音素を合成するための音声合成パラメータの特徴は、音声生成モデルのパラメータを構成するd、v1、v2、v3の4つのベクトルで表すことができる。さらに、音声合成用記号からこれらのパラメータベクトルを生成するような予測器を前もって構築し、音声合成時に予測器を用いることで、比較的少量のデータから音声を合成することができる。
この方法に基づく代表的なものに、HMM音声合成方式がある。HMM音声合成方式は、音声生成モデルとしてHMM(隠れマルコフモデル)に基づくモデルを仮定している。そして、音声生成モデルのパラメータを構成する複数のベクトルは、音声認識技術における状態共有HMMで用いられる方法と同様に、それぞれ音声合成用記号から決定木に基づき決定される(非特許文献3参照)。ここで決定木は、予め用意しておいた学習音声と、それに対応する音声合成用記号を用いて構築(学習)する。
1発話の音声を合成する際には、まず単位音声毎の音声生成モデルを連結して1発話分の音声生成モデルを構成する。そして、その構成された音声生成モデルに対し、ゆう度が最大となる音声合成パラメータ時系列を求め、これを音声波形生成に用いる。音声合成パラメータ時系列に対する、音声生成モデルのゆう度は、例えば、音声生成モデルにおいて、次のように表わされる。
すなわち、フレームiにおける音声合成パラメータxの値xiの統計的分布が他の種類の音声合成パラメータに対し独立でかつ正規分布に従い、その分布の平均がμi、分散がσi2であるとき、音声の長さが全体でnフレームとすると、1発声の音声合成パラメータxの時系列xiに対する音声生成モデルの対数ゆう度は、以下の数式で与えられる。
Figure 2012058343
しかし、フレーム周期の音声合成パラメータを数個の正規分布で直接モデル化した場合、最ゆうなパラメータ系列は、状態内で正規分布の平均値が連続的に出力されたものとなり、状態が切り替わる際に、その値が不連続となる。すなわち、階段状のパラメータ時系列となる。これは実際の音声の特徴と異なるため、音声合成パラメータそのものだけでなく(以下、これを静的特徴と呼ぶ)、音声合成パラメータの動的特徴として、音声合成パラメータ時系列データの一階差分(デルタ)や二階差分(デルタデルタ)等を組み合わせたベクトルを特徴ベクトルとすることで、音声合成パラメータの連続的な変化も考慮したモデル化が行われる(非特許文献4参照)。ある音声合成パラメータxのi番目のフレームにおける値xiのデルタΔxiおよびデルタデルタΔ2xiは、例えばそれぞれ数式(2)、数式(3)により与えられる。
Figure 2012058343

Figure 2012058343
以下、音声合成パラメータの時系列データの計算方法を説明する。まず説明のためにフレームiにおける特徴ベクトルをoiとする。数式中の英大文字および太字の英小文字はベクトルを意味する(以下、同様)。
Figure 2012058343
また音声の長さはnフレームとする。また、以下の行列を定義する。ただし、上付きのTは転置行列、上付きの-1は逆行列を表す(以下同様)。
Figure 2012058343

Figure 2012058343
さらに、数式(2)、(3)で定義される静的特徴の時系列Xから動的特徴を含む特徴
ベクトル時系列Oを求める変換行列をここではWとする。つまり、以下の関係が成り立つ。ここでWは3n行×n列の行列である。
Figure 2012058343
パラメータの分布が正規分布に従う場合、Xの対数ゆう度p(X)は以下の数式で与えられる。ここでμはOの分布の平均ベクトル、UはOの分布の分散共分散行列である。μおよびUの各要素は事前に学習した決定木により、音声合成用記号から決定する。
Figure 2012058343
対数ゆう度p(X)を最大とするXは以下の関係を満たす。
Figure 2012058343
数式(8)および数式(9)をXについて解くと以下の数式が得られる。
Figure 2012058343

すなわち、数式(10)を計算することで、最ゆう基準に基づく、動的特徴を考慮したパラメータ時系列が得られる。音声合成パラメータxを多次元のベクトルに拡張した場合も同様である。
「日本語テキスト音声合成用記号」JEITA規格 IT−4002、2005年3月 今井聖、住田一男、古市千枝子、「音声合成のためのメル対数スペクトル近似(MLSA)フィルタ」、電子情報通信学会論文誌(A), J66-A, 2, Feb.1983, pp.122-129 吉村貴克、徳田恵一、益子貴史、小林隆夫、北村正、「HMMに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化」、電子情報通信学会論文誌(D-II), J83-D-II, 11, Nov.2000, pp.2099-2107 益子貴史、徳田恵一、小林隆夫、今井 聖、「動的特徴を用いたHMMに基づく音声合成」、電子情報通信学会論文誌(D-II), J79-D-II, 12, Dec.1996, pp.2184-2190
音声合成パラメータ分布のパラメータベクトルを予測するための決定木を、音韻的な音素の種類だけでなく、アクセント型やアクセント句境界といった言語的な韻律的特徴の違いもその説明変数に含めて学習すると、学習された決定木で予測される特徴ベクトルの分布において、しばしば、デルタ特徴やデルタデルタ特徴に関連する要素の値の分散が、静的特徴に関連する要素の値の分散より小さくなる傾向が現れる。これは、言語的な韻律的特徴が音声合成パラメータの絶対値よりもその短時間変化に対して強い相関を持つことに起因すると考えられる。
生成するパラメータ時系列の対数ゆう度の数式(8)によると、対数ゆう度の計算では、分布平均は常に分布の分散の逆数で重み付けられる。よって上記の傾向から、計算の過程において、デルタ特徴やデルタデルタ特徴の情報を含む値が、静的特徴の情報を含む値よりも相対的に大きくなる場合が多い。
携帯端末のように計算資源が限られ固定小数点数演算が必要な装置による計算では、計算時の桁あふれを防止するために、計算結果の値をある一定値以下にする必要が生じる。このため処理可能な値の範囲(例えば最大値と最小値の比)を充分にとることができない場合、小さい値で表された情報は桁落ちにより値が丸められ、誤差が生じやすくなる。つまり、音声合成パラメータ時系列の生成過程で、静的特徴分布に関する正確な情報が失われやすい。静的特徴は特徴パラメータの絶対位置を決める情報であるため、この丸め誤差により、特徴軸にそって上下に位置がずれたような音声合成パラメータ時系列が生成されうるが、このずれは合成音声の不自然さの原因となる。
本発明は、このような事情に鑑みてなされたものであり、高精度な計算が困難な場合でも、正確な音声合成パラメータ時系列に基づく、音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。
(1)上記の目的を達成するため、本発明の音声合成装置は、一連の単位音声列に含まれる単位音声の種類を記述する音声合成用情報から合成音声波形を生成する音声合成装置であって、与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第1の音声合成パラメータ時系列データを生成する第1の音声合成パラメータ生成部と、前記与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、前記第1の音声合成パラメータとの差の時系列データとして、前記第1の音声合成パラメータ時系列データよりも数値範囲が小さい第2の音声合成パラメータ時系列データを生成する第2の音声合成パラメータ生成部と、前記第1の音声合成パラメータ時系列データと前記第2の音声合成パラメータ時系列データとを加算し、第3の音声合成パラメータ時系列データを生成する音声合成パラメータ加算部を備え、前記第3の音声合成パラメータ時系列データに基づく合成音声波形を生成することを特徴としている。
このように、第1の音声合成パラメータ生成部では、数値範囲の大きい第1の音声合成パラメータ時系列データを生成し、第2の音声合成パラメータ生成部では、第1の音声合成パラメータ時系列データよりも数値範囲が小さい第2の音声合成パラメータ時系列データを生成している。
これにより、第1の音声合成パラメータ生成部では、従来手法で丸め誤差が問題になっていた特徴情報を主な処理対象とし、それ以外の特徴を処理から除外することで、全ての特徴情報も一括して処理する場合に比べて処理途中での丸め誤差を抑えることができる。これにより、最終的な音声合成パラメータ時系列データの計算誤差を全体として小さくすることができる。
(2)また、本発明の音声合成装置は、前記第2の音声合成パラメータ生成部は、最ゆう基準に基づく一般的なパラメータ時系列の算出過程において、特徴ベクトルの分布情報における平均パラメータを前記第1の音声合成パラメータ時系列データに対する特徴ベクトルとの差に置換して計算することで、前記特徴ベクトルの分布情報を修正することを特徴としている。
これにより、第2の音声合成パラメータを求めるための特徴分布パラメータの修正が、従来手法における分布平均に関するパラメータμを、第1の音声合成パラメータ時系列データXに対応する動的特徴を含む特徴ベクトルとの差に置き換えることで実現できる。
このとき、数式上、第1の音声合成パラメータ時系列データと第2の音声合成パラメータ時系列データの和は、従来手法による音声合成パラメータ時系列データと完全に一致するため、近似的な音声合成パラメータ時系列データ生成処理を含む手法よりも正確な音声合成パラメータ時系列を生成することができる。
(3)また、本発明の音声合成装置は、前記第1の音声合成パラメータ生成部は、直接的に時間的変化を表さない静的特徴の分布情報から音声合成パラメータ時系列データを生成することを特徴としている。これにより、従来手法で問題となっていた静的特徴に関する値の丸め誤差の影響を小さくすることができ、最終的に正確な音声合成パラメータ時系列を生成することができる。
(4)また、本発明の音声合成装置は、前記静的特徴の特徴ベクトルの分布情報から生成される音声合成パラメータ時系列データは、静的特徴の分布平均パラメータの時系列であることを特徴としている。このとき、第2の音声合成パラメータを求めるための特徴分布パラメータの修正結果であるベクトル(μ−WX)において、静的特徴の分布平均パラメータに対応する要素の値は全て0となる。値0に対して計算による丸めの誤差は生じないため、従来手法で問題となっていた静的特徴に関する値の丸め誤差の影響が小さくなり、最終的に従来手法よりも正確な音声合成パラメータ時系列を生成することができる。
(5)また、本発明の音声合成装置は、前記第1の音声合成パラメータ生成部は、前記第1の音声合成パラメータの生成により、最終的に生成しようとする前記第3の音声合成パラメータ時系列データの区分された時間ごとの数値範囲情報を保存し、前記第2の音声合成パラメータ生成部は、前記第2の音声合成パラメータの生成により、前記第3の音声合成パラメータ時系列データの前記区分された時間ごとの数値変化を算出し、前記音声合成パラメータ加算部は、前記加算により、前記保存した数値範囲情報を前記算出された数値変化に反映させることを特徴としている。
このように最終的に生成しようとする音声合成パラメータ時系列データの区分された時間ごとの値を一時的に記憶し、第2の音声合成パラメータに反映させるだけであり、第1の音声合成パラメータについては実質的な計算が発生しないため、誤差も生じない。
(6)また、本発明の音声合成方法は、一連の単位音声列に含まれる単位音声の種類を記述する音声合成用情報から合成音声波形を生成する音声合成方法であって、与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第1の音声合成パラメータ時系列データを生成するステップと、前記与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、前記第1の音声合成パラメータとの差の時系列データとして、前記第1の音声合成パラメータ時系列データよりも数値範囲が小さい第2の音声合成パラメータ時系列データを生成するステップと、前記第1の音声合成パラメータ時系列データと前記第2の音声合成パラメータ時系列データとを加算し、第3の音声合成パラメータ時系列データを生成するステップと、を含み、前記第3の音声合成パラメータ時系列データに基づく合成音声波形を生成することを特徴としている。
これにより、従来手法で丸め誤差が問題になっていた特徴情報を主な処理対象とし、それ以外の特徴を処理から除外することで、全ての特徴情報も一括して処理する場合に比べて処理途中での丸め誤差を抑えることができる。
(7)また、本発明の音声合成プログラムは、一連の単位音声列に含まれる単位音声の種類を記述する音声合成用情報から合成音声波形を生成するためにコンピュータに実行させる音声合成プログラムであって、与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第1の音声合成パラメータ時系列データを生成する処理と、前記与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、前記第1の音声合成パラメータとの差の時系列データとして、前記第1の音声合成パラメータ時系列データよりも数値範囲が小さい第2の音声合成パラメータ時系列データを生成する処理と、前記第1の音声合成パラメータ時系列データと前記第2の音声合成パラメータ時系列データとを加算し、第3の音声合成パラメータ時系列データを生成する処理と、を含み、前記第3の音声合成パラメータ時系列データに基づく合成音声波形を生成することを特徴としている。
これにより、従来手法で丸め誤差が問題になっていた特徴情報を主な処理対象とし、それ以外の特徴を処理から除外することで、全ての特徴情報も一括して処理する場合に比べて処理途中での丸め誤差を抑えることができる。
第1の音声合成パラメータ生成部では、主に従来の手法において計算誤差が問題となっていた情報から第1の音声合成パラメータ時系列データを生成し、第2の音声合成パラメータ時系列生成部では、最終的な音声合成パラメータ時系列データと第1の音声合成パラメータ時系列データの差を第2の音声合成パラメータ時系列データとして生成する。
第1の音声合成パラメータ生成部では、従来手法で丸め誤差が問題になっていた特徴情報を主な処理対象とし、それ以外の特徴を処理から除外することで、全ての特徴情報も一括して処理していた従来手法と比較し、処理途中での丸め誤差を抑えることができる。これにより、最終的な音声合成パラメータ時系列データの計算誤差を全体として小さくすることができる。
本発明の音声合成装置を示すブロック図である。 本発明の音声合成装置の動作を示すフローチャートである。 (a)〜(c)各音声合成パラメータ時系列データの一例を示す図である。 (a)〜(c)各音声合成パラメータ時系列データの一例を示す図である。
以下の説明において“単位音声”とは、音声合成装置における、音声の最小処理単位である。単位音声の具体例には、音素、音節、単語がある。単位音声は、例えば前後の音素の種類といった音韻環境に関する違い、またアクセントやイントネーション、話速といった韻律的特徴の違いを考慮して分類される。“単位発話”は、連続的な特徴を有する一連の単位音声列を指し、1文の発声や、呼気段落(一息で読む単位)に対応する。また“音声合成用記号”とは、1単位発話の音声に含まれる単位音声のそれぞれの種類を記述するための一連の記号である。
音声合成装置100は、最終的に音声合成パラメータ時系列から音声波形を生成する。ただし、音声合成パラメータ時系列データから音源・調音フィルタにより信号処理的に音声波形を生成するシステムに限らない。例えば、事前収録した音声データから音声素片データベースを構築しておき、音声合成パラメータ時系列データに対応する音声素片系列を選択し、接続することで音声を合成する、素片接続型音声合成システムも対象に含まれる。また、音声合成パラメータは多次元のベクトルでもよい。
(音声合成装置の構成)
図1は、音声合成装置100を示すブロック図である。音声合成装置100は音声合成用記号の入力に対して合成音声波形を出力する。図1に示すように、音声合成装置100は、音声特徴分布パラメータ生成部105、第1の音声合成パラメータ生成部110、第2の音声合成パラメータ生成部120、音声合成パラメータ加算部130、音声波形生成部140で構成される。また、第2の音声合成パラメータ生成部は音声特徴分布パラメータ修正部121と音声合成パラメータ時系列計算部122で構成される。
以下、音声合成用記号から合成音声波形を生成する処理の流れに沿って各部を説明する。音声特徴分布パラメータ生成部105は、音声合成記号列から音声特徴分布パラメータを生成する。なお、ここで音声特徴は静的特徴だけでなく、そのデルタ特徴やデルタデルタ特徴等の動的特徴を含む。音声特徴分布パラメータ生成部は、学習音声を用いて音声特徴の分布パラメータを予測する予測器を有する。上記の特徴は全て正規分布を仮定し、分布パラメータはその平均ベクトルと分散共分散行列で構成される。上記のパラメータはそれぞれ決定木を用いて生成できる。ここで用いる決定木は、音声合成用記号と、それぞれ対応する特徴との関係について、それぞれ学習用音声を用いて事前に学習されている。
第1の音声合成パラメータ生成部110は、音声特徴分布パラメータから第1の音声合成パラメータ時系列データXを生成する。ただし、第1の音声合成パラメータ時系列データは音声波形生成部140で最終的に用いられる音声合成パラメータ時系列データと同一でなくてもよい。
第2の音声合成パラメータ生成部120は、音声特徴分布パラメータと第1の音声合成パラメータ時系列データXを入力として受け付け、音声波形生成部140で最終的に用いられる音声合成パラメータ時系列データXと、第1の音声合成パラメータ時系列データXの差の時系列データを第2の音声合成パラメータ時系列データXとして生成する。すなわち、以下の関係が成り立つ。
Figure 2012058343
音声合成パラメータ加算部130は、第1の音声合成パラメータ時系列データXおよび第2の音声合成パラメータ時系列データXを入力として受け付け、各時刻における和の系列を、最終的な音声合成パラメータ時系列データ、すなわち第3の音声合成パラメータ時系列Xとして出力する。最後に、音声波形生成部140は、音声合成パラメータ時系列データXに対応する音声波形を合成し出力する。
第2の音声合成パラメータ生成部120は、音声特徴分布パラメータ修正部121において、入力された音声特徴分布パラメータμ、Uを、Xを用いて修正する。次に音声合成パラメータ時系列計算部で第2の音声合成パラメータ時系列データXを計算する。
数式(10)および式(11)から、Xは以下の計算で求めることができる。
Figure 2012058343
式(12)は、X1を求めるための特徴分布パラメータの修正が、一般的な場合の算出過程(式(10))における分布平均に関するパラメータμを、Xに対応する動的特徴を含む特徴ベクトルWXとの差に置き換えることで実現できることを示している。
第1の音声合成パラメータ生成部110が出力する第1の音声合成パラメータ時系列データXは、任意の時系列データを設定することができる。その場合、最終的な計算誤差が小さくなるようなXを設定することがより好ましい。そのようなXとして、各時刻における静的特徴の分布平均で構成した系列がある。このとき、ベクトル(μ−WX)における静的特徴の分布平均パラメータに対応する要素の値は全て0となる。値0に対して計算による丸めの誤差は生じないため、第2の音声合成パラメータ生成部でXを計算する際の、従来手法で問題となっていた静的特徴に関する値の丸め誤差の影響が小さくなり、最終的に従来手法よりも正確な音声合成パラメータ時系列データを生成することができる。
あるいは、静的特徴の分布平均パラメータ時系列をローパスフィルタにより時間的に平滑化した系列等、XにXとの差が小さいと考えられる系列を設定することで、生成されるXの値の範囲を従来手法によるXの値の範囲よりも狭めることができる。これにより、固定小数点演算における小数点以下の桁数をより増やし、計算途中の丸め誤差を削減することができる。
(音声合成装置の動作)
上記のように構成される音声合成装置100の動作を説明する。図2は、音声合成装置100の動作を示すフローチャートである。まず音声合成記号列をもとに音声合成特徴分布パラメータを生成する(ステップS1)。次に、音声合成特徴分布パラメータから、予め設定された基準により第1の音声合成パラメータ時系列データXを生成する(ステップS2)。予め設定された基準は、たとえば計算結果の数値範囲の大きいものと小さいものに分離するという基準である。
次に、上記の設定基準に基づいて第2の音声合成パラメータ時系列データの生成のための音声特徴分布パラメータを修正する(ステップS3)。そして、修正された音声特徴分布パラメータから第2の音声合成パラメータ時系列データXを生成する(ステップS4)。そして、上記のように得られた2つの音声合成パラメータ時系列データX、Xを加算し、第3の音声合成パラメータ時系列データXを生成する(ステップS5)。そして、第3の音声合成パラメータ時系列データXを用いて音声波形を生成する(ステップS6)。なお、上記の一連の処理は、携帯端末等に実装されるプログラムを実行することにより実施可能である。また、上記のような手法は、最終的に生成しようとする時系列データの数値範囲情報を一旦保存し、それ以外の数値変化を算出し、保存した数値範囲情報を算出された数値変化に反映させるものとも言える。
(音声合成パラメータ時系列データの一例)
上記の実施形態により得られる音声合成パラメータ時系列データの一例を説明する。図3(a)〜(c)は、各音声合成パラメータ時系列データの一例を示す図である。図の横軸は時間を、縦軸は音声特徴ベクトルのある次元の値を表している。図3(a)は、ある区分された時間ごとの平均値として得られた第1の音声合成パラメータ時系列データXを示している。これは区分された時間内で特徴分布パラメータが一定であることを想定した音声生成モデルに対応する。第1の音声合成パラメータは広い数値範囲にわたっているが、区分された時間ごとに独立に平均値を計算できるので、計算の際に誤差は生じにくい。図3(b)は、これと最終的に得ようとする第3の音声合成パラメータ時系列データXとの差として得られた第2の音声合成パラメータ時系列データXを示している。第2の音声合成パラメータは、時系列の変化は複雑であるが、狭い数値範囲に制約されている。図3(c)は、第1の音声合成パラメータ時系列データXと第2の音声合成パラメータ時系列データXとを加算して得られる第3の音声合成パラメータ時系列データXを示している。
図4(a)〜(c)も、同様に各音声合成パラメータ時系列データの一例を示す図である。図の横軸は時間を、縦軸は音声特徴ベクトルのある次元の値を表している。図4(a)は、区分された時間ごとの平均値系列に対し、折れ線近似による平滑化を行って得られた第1の音声合成パラメータ時系列データXを示している。第1の音声合成パラメータ時系列データXは広い数値範囲にわたっているが、時系列の変化は単純で計算の際に誤差は生じにくい。この場合には、第1の音声合成パラメータ時系列データXは、区分された区間ごとに計算した平均値による階段状の系列より、最終的に得ようとする音声合成パラメータに近いものとなる。図4(b)は、これと最終的に得ようとする第3の音声合成パラメータ時系列データXとの差として得られた第2の音声合成パラメータ時系列データXを示している。第2の音声合成パラメータ時系列データXは、時系列の変化は複雑であるが、上記の図3(b)に示す場合よりさらに狭い数値範囲に制約されている。図4(c)は、第1の音声合成パラメータ時系列データXと第2の音声合成パラメータ時系列データXとを加算して得られる第3の音声合成パラメータ時系列データXを示している。
(変形例)
以上の説明では、1つのベクトルXから音声波形を生成するが、スペクトル、基本周波数等、音声の音響的特徴の種類毎に音声合成ベクトル時系列を独立に計算し、音声波形生成処理でそれらを結合して用いてもよい。
また、上記の実施形態では、第1の音声合成パラメータ生成部と第2の音声合成パラメータ生成部で音声合成記号列から生成した同一の音声特徴分布パラメータからそれぞれ音声合成パラメータ時系列を生成しているが、両者で異なる音声特徴分布パラメータを用いてもよい。例えば、Xの生成処理を簡略化するために、より簡素化された音声特徴分布パラメータ生成処理で生成された音声特徴分布パラメータを用いて、Xを生成することができる。
100 音声合成装置
105 音声特徴分布パラメータ生成部
110 第1の音声合成パラメータ生成部
120 第2の音声合成パラメータ生成部
121 音声特徴分布パラメータ修正部
122 音声合成パラメータ時系列計算部
130 音声合成パラメータ加算部
140 音声波形生成部

Claims (7)

  1. 一連の単位音声列に含まれる単位音声の種類を記述する音声合成用情報から合成音声波形を生成する音声合成装置であって、
    与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第1の音声合成パラメータ時系列データを生成する第1の音声合成パラメータ生成部と、
    前記与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、前記第1の音声合成パラメータとの差の時系列データとして、前記第1の音声合成パラメータ時系列データよりも数値範囲が小さい第2の音声合成パラメータ時系列データを生成する第2の音声合成パラメータ生成部と、
    前記第1の音声合成パラメータ時系列データと前記第2の音声合成パラメータ時系列データとを加算し、第3の音声合成パラメータ時系列データを生成する音声合成パラメータ加算部を備え、
    前記第3の音声合成パラメータ時系列データに基づく合成音声波形を生成することを特徴とする音声合成装置。
  2. 前記第2の音声合成パラメータ生成部は、最ゆう基準に基づく一般的なパラメータ時系列の算出過程において、特徴ベクトルの分布情報における平均パラメータを前記第1の音声合成パラメータ時系列データに対する特徴ベクトルとの差に置換して計算することで、前記特徴ベクトルの分布情報を修正することを特徴とする請求項1記載の音声合成装置。
  3. 前記第1の音声合成パラメータ生成部は、直接的に時間的変化を表さない静的特徴の分布情報から音声合成パラメータ時系列データを生成することを特徴とする請求項1または請求項2記載の音声合成装置。
  4. 前記静的特徴の特徴ベクトルの分布情報から生成される音声合成パラメータ時系列データは、静的特徴の分布平均パラメータの時系列であることを特徴とする請求項3記載の音声合成装置。
  5. 前記第1の音声合成パラメータ生成部は、前記第1の音声合成パラメータの生成により、最終的に生成しようとする前記第3の音声合成パラメータ時系列データの区分された時間ごとの数値範囲情報を保存し、
    前記第2の音声合成パラメータ生成部は、前記第2の音声合成パラメータの生成により、前記第3の音声合成パラメータ時系列データの前記区分された時間ごとの数値変化を算出し、
    前記音声合成パラメータ加算部は、前記加算により、前記保存した数値範囲情報を前記算出された数値変化に反映させることを特徴とする請求項1または請求項2記載の音声合成装置。
  6. 一連の単位音声列に含まれる単位音声の種類を記述する音声合成用情報から合成音声波形を生成する音声合成方法であって、
    与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第1の音声合成パラメータ時系列データを生成するステップと、
    前記与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、前記第1の音声合成パラメータとの差の時系列データとして、前記第1の音声合成パラメータ時系列データよりも数値範囲が小さい第2の音声合成パラメータ時系列データを生成するステップと、
    前記第1の音声合成パラメータ時系列データと前記第2の音声合成パラメータ時系列データとを加算し、第3の音声合成パラメータ時系列データを生成するステップと、を含み、
    前記第3の音声合成パラメータ時系列データに基づく合成音声波形を生成することを特徴とする音声合成方法。
  7. 一連の単位音声列に含まれる単位音声の種類を記述する音声合成用情報から合成音声波形を生成するためにコンピュータに実行させる音声合成プログラムであって、
    与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第1の音声合成パラメータ時系列データを生成する処理と、
    前記与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、前記第1の音声合成パラメータとの差の時系列データとして、前記第1の音声合成パラメータ時系列データよりも数値範囲が小さい第2の音声合成パラメータ時系列データを生成する処理と、
    前記第1の音声合成パラメータ時系列データと前記第2の音声合成パラメータ時系列データとを加算し、第3の音声合成パラメータ時系列データを生成する処理と、を含み、
    前記第3の音声合成パラメータ時系列データに基づく合成音声波形を生成することを特徴とする音声合成プログラム。
JP2010199288A 2010-09-06 2010-09-06 音声合成装置、音声合成方法および音声合成プログラム Expired - Fee Related JP5474713B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010199288A JP5474713B2 (ja) 2010-09-06 2010-09-06 音声合成装置、音声合成方法および音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010199288A JP5474713B2 (ja) 2010-09-06 2010-09-06 音声合成装置、音声合成方法および音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2012058343A true JP2012058343A (ja) 2012-03-22
JP5474713B2 JP5474713B2 (ja) 2014-04-16

Family

ID=46055544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010199288A Expired - Fee Related JP5474713B2 (ja) 2010-09-06 2010-09-06 音声合成装置、音声合成方法および音声合成プログラム

Country Status (1)

Country Link
JP (1) JP5474713B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017049535A (ja) * 2015-09-04 2017-03-09 Kddi株式会社 音声合成システムならびにその予測モデル学習方法および装置
US11186093B2 (en) 2018-07-13 2021-11-30 Hewlett-Packard Development Company, L.P. Spouts with angled clamp flanges for a print liquid supply
US11807016B2 (en) 2018-07-13 2023-11-07 Hewlett-Packard Development Company, L.P. Pliable print liquid supply reservoirs with offset spout

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210081059A (ko) 2019-12-23 2021-07-01 삼성전자주식회사 배터리 상태 추정 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161000A (ja) * 1994-12-02 1996-06-21 Yamaha Corp 音声情報圧縮方法及び装置
JPH0916198A (ja) * 1995-06-27 1997-01-17 Japan Radio Co Ltd 低ビットレートボコーダにおける励起信号発生装置及び励起信号発生方法
JP2004077918A (ja) * 2002-08-20 2004-03-11 Yamaha Corp 音声合成装置、方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161000A (ja) * 1994-12-02 1996-06-21 Yamaha Corp 音声情報圧縮方法及び装置
JPH0916198A (ja) * 1995-06-27 1997-01-17 Japan Radio Co Ltd 低ビットレートボコーダにおける励起信号発生装置及び励起信号発生方法
JP2004077918A (ja) * 2002-08-20 2004-03-11 Yamaha Corp 音声合成装置、方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017049535A (ja) * 2015-09-04 2017-03-09 Kddi株式会社 音声合成システムならびにその予測モデル学習方法および装置
US11186093B2 (en) 2018-07-13 2021-11-30 Hewlett-Packard Development Company, L.P. Spouts with angled clamp flanges for a print liquid supply
US11807016B2 (en) 2018-07-13 2023-11-07 Hewlett-Packard Development Company, L.P. Pliable print liquid supply reservoirs with offset spout

Also Published As

Publication number Publication date
JP5474713B2 (ja) 2014-04-16

Similar Documents

Publication Publication Date Title
JP4328698B2 (ja) 素片セット作成方法および装置
JP6293912B2 (ja) 音声合成装置、音声合成方法およびプログラム
WO2017046887A1 (ja) 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
Wang et al. An RNN-based quantized F0 model with multi-tier feedback links for text-to-speech synthesis
JP5474713B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
Zen et al. Recent development of the HMM-based speech synthesis system (HTS)
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Chen et al. Discrete Duration Model for Speech Synthesis.
JP6580911B2 (ja) 音声合成システムならびにその予測モデル学習方法および装置
JP5143809B2 (ja) 時空間分解装置、発話リズム変換装置、これらの方法及びプログラム
US20220172703A1 (en) Acoustic model learning apparatus, method and program and speech synthesis apparatus, method and program
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5268731B2 (ja) 音声合成装置、方法およびプログラム
WO2011118207A1 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP6167063B2 (ja) 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム
JP6959901B2 (ja) 時系列データ生成装置、方法及びプログラム
JP6840124B2 (ja) 言語処理装置、言語処理プログラムおよび言語処理方法
JP5345967B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP4230254B2 (ja) 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体
KR20180041114A (ko) 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법
JP4034751B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP4226831B2 (ja) 音声分析方法及びその装置、音声分析プログラム並びにその記録媒体
WO2023157066A1 (ja) 音声合成学習方法、音声合成方法、音声合成学習装置、音声合成装置及びプログラム
JP5763414B2 (ja) 特徴パラメータ生成装置、特徴パラメータ生成方法および特徴パラメータ生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140205

R150 Certificate of patent or registration of utility model

Ref document number: 5474713

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees