JP2010224418A

JP2010224418A - 音声合成装置、方法およびプログラム

Info

Publication number: JP2010224418A
Application number: JP2009073988A
Authority: JP
Inventors: Nobuyuki Nishizawa; 信行西澤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2009-03-25
Filing date: 2009-03-25
Publication date: 2010-10-07
Anticipated expiration: 2029-03-25
Also published as: JP5268731B2

Abstract

【課題】特定音声に特化されていない音声生成モデル予測器を含む音声合成装置において、音声合成記号と比較的小さい修正情報を用いて、原音声の特徴を再現した音声を合成する。
【解決手段】一連の音声合成記号入力に基づき音声生成モデルを生成し、生成された音声生成モデルに基づき音声波形を生成する音声合成装置であって、音声生成モデルの修正情報を入力する手段と、音声生成モデルの修正情報に基づき、音声合成記号入力に基づき生成された音声生成モデルを修正する手段とを備えており、前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータを生成する音声生成モデルと、一連の音声合成記号入力から生成された音声生成モデルとの間で定義される、所定の誤差尺度が小さくなるように音声生成モデルを修正する情報で構成される。
【選択図】図１

Description

本発明は、音声生成モデルを予測し、予測された音声生成モデルに基づき音声波形を生成する音声合成装置、方法およびプログラムに関する。

音声に特化した高効率な音声符号化方式として、ＣＥＬＰ（Code Excited Linear Prediction）方式が知られている。ＣＥＬＰ方式は音声波形の物理的な特徴に関する知見に基づいた方法だが、音声の言語的制約を直接的には用いていないため、どのような言語のどのようなスタイルの音声でも高効率に符号化可能な特徴を有する。しかし、符号化された音声のビットレートは最低でも数ｋｂｐｓ(bits per second)となる。これに対し、言語的な情報から音声を合成する技術は、一般に音声合成技術に属する。音声合成技術の代表的な利用方法は、テキスト音声変換（Text-To-Speech）だが、ここでは例えば、テキストを解析して得られる、音素の種類や韻律的特徴を表記した記号をその入力とし、音声波形を生成する装置を特に音声合成装置と呼び、その入力を構成する記号を、音声合成用記号と呼ぶ。音声合成用記号には様々な形式がありうるが、ここでは、一連の音声を構成する音韻的情報と、主としてポーズや声の高さとして表現される韻律的情報を同時に表記したものを考える。そのような音声合成記号の例として、ＪＥＩＴＡ（電子情報技術産業協会）規格ＩＴ−４００２「日本語テキスト音声合成用記号」（非特許文献１）がある。

音声合成装置における音声波形の生成方法には様々な方式があるが、ここでは、ＣＥＬＰ方式と同様に、音源とフィルタを組み合わせた音源・フィルタモデル等に基づき、信号処理で音声波形を合成する方法を対象とする。音源・フィルタモデルでは、音声の響きをつくるフィルタを適当な音源で駆動することで、音声波形を信号処理的に合成するが、ここではＣＥＬＰ方式とは異なり、インパルス列や白色雑音源といった比較的に単純な構成の音源で駆動する場合を主に考える。また以下では、音源のパラメータとフィルタのパラメータをまとめて音声合成パラメータと呼ぶ。音声合成パラメータは、スペクトルの特徴を表現するためのＭＦＣＣ（Mel-Frequency Cepstral Coefficient）や、声の高さに対応する、波形の基本周波数（Ｆ０）などの複数のパラメータで構成される。また、フィルタにはＡＲ（自己回帰）型のフィルタや、ＭＦＣＣを直接そのパラメータとする、ＭＬＳＡ（メル対数スペクトル近似）フィルタ（非特許文献２）等が用いられる。

例えば子音のような音声を合成するためには、音声合成パラメータを時間的に変化させることが必要なため、この方法では、例えば５ｍｓ程度の一定周期で音声合成パラメータを更新し、その特徴を変化させながら音声を合成することが一般的である。この一定周期の１周期分は一般に１フレームと呼ばれる。したがって、この構成で音声を合成するためには、音声合成用記号からフレーム毎の音声合成パラメータの値を決める必要がある。もっとも簡単な方法としては、ある音素を合成するための音声合成パラメータの値のフレーム周期の時系列を、必要な音素のそれぞれについて事前に準備しておき、生成したい音声の音素系列に合わせて、それらの音声合成パラメータ時系列を繋ぎ１発声の音声合成パラメータ時系列とする方法が考えられる。しかし実際には、同じ音素であっても、前後の音素の種類や、話速や声の高さ、直前や直後のポーズからの時間的距離によって、その特徴は異なる。これらを全て区別する音素分類を用いた場合、音素の種類の個数は非常に莫大なものとなり、必要な全ての音声合成パラメータ時系列のセットを作成、蓄積することは困難である。

そこで実際には、音声合成パラメータ時系列の時間変化を適当なモデルに基づきモデル化し、そのモデルパラメータを音声合成用記号からまず予測することで生成し、得られたモデルから音声合成パラメータ時系列を生成することで、任意の音声を合成可能とする方法が用いられる。以下では、このモデルのことを音声生成モデルと呼ぶ。例えば、ある音素の音声合成パラメータの特徴が時間的に３つの状態に分かれ、各状態のフレーム数について、その統計的特徴を現すベクトルを最初の状態から順にd1、d2、d3とし、この３つのベクトルの要素を連結して１つのベクトルdを作り、また、各状態の統計的特徴を現すベクトルを最初の状態から順にv1、v2、v3とすれば、その音素を合成するための音声合成パラメータの特徴は、音声生成モデルのパラメータを構成するd、v1、v2、v3の４つのベクトルで表すことができる。

このように全ての音素がこのように４つのベクトルで表すことができると仮定し、予めそれぞれのベクトルについて、最適なコードブックを作成しておく。あるいは、v1、v2、v3は同じコードブックを用いて表しても良い。音声合成の際は、まず、音声合成用記号から各音素の音声生成モデルのパラメータを構成する最適なコードブックのベクトルをそれぞれ予測し、各音素を合成するため音声生成モデルを構築する。そして、それらの音声生成モデルを時間順に連結して１発声分の音声生成モデルとし、そのモデルに基づき最適な音声合成パラメータ時系列を求める。この音声合成パラメータ時系列に基づき、音源・フィルタを制御することで、音声波形は生成される。

この方法に基づく音声合成装置の構成方法の代表的なものとして、ＨＭＭ音声合成方式がある。ＨＭＭ音声合成方式は、音声生成モデルとしてＨＭＭ（隠れマルコフモデル）に基づくモデルを仮定した方法であり、音声生成モデルのパラメータを構成する複数のベクトルは、音声認識技術における状態共有ＨＭＭで用いられる方法と同様に、それぞれ音声合成記号から決定木に基づき決定される（非特許文献３）。

音声を合成する際には、単位音声毎の音声生成モデルを連結して１発話分の音声生成モデルをまず構成し、その構成された音声生成モデルに対し、そのゆう度が最大となる音声合成パラメータ時系列を求め、これを音声波形生成に用いる。音声合成パラメータ時系列に対する、音声生成モデルのゆう度は、例えば、音声生成モデルにおいて、フレームｔにおける音声合成パラメータの種類ｉの値ｘ_ｉ（ｔ）の統計的分布が他の種類の音声合成パラメータに対し独立でかつ正規分布に従うという形で音声合成パラメータ時系列がモデル化されていて、その分布の平均値がμ_ｉ（ｔ）、分散がσ_ｉ（ｔ）^２であるとき、音声の長さが全体でＴフレーム（０≦ｔ≦Ｔ−１）とすると、音声合成パラメータｉの時系列ｘ_ｉ（ｔ）（０≦ｔ≦Ｔ−１）に対する音声生成モデルのゆう度は、
と定義できる。

ただし実際には、音声合成パラメータの連続的な変化も合わせてモデル化するために、音声合成パラメータだけでなく、そのデルタパラメータおよびデルタデルタパラメータについても、あわせて音声生成モデルによるモデリング対象とすることが多い。ある音声合成パラメータｉのｔ番目のフレームにおける値ｘ_ｉ（ｔ）のデルタパラメータΔｘ_ｉ（ｔ）およびデルタデルタパラメータΔ^２ｘ_ｉ（ｔ）は、例えばそれぞれ式２、式３により与えられる。
Δx_i(t)＝｛x_i(t＋1)−x_i(t−1)｝／2 （２）
Δ²x_i(t)＝x_i(t＋1)−2x_i(t)＋x_i(t−1) （３）

音声合成パラメータ時系列の生成では、このデルタおよびデルタデルタパラメータも含めて計算されるゆう度が最大となる音声合成パラメータ時系列を求める。これにより、滑らかな時間遷移を有する音声合成パラメータが生成される。このデルタおよびデルタデルタパラメータを考慮した、音声合成パラメータ時系列の生成方法の詳細は非特許文献４に示されている。

以上、上記のような方法を用いることにより、音声合成記号列の形で表現された数百ｂｐｓ程度のデータから音声波形を生成することができる。

「日本語テキスト音声合成用記号」ＪＥＩＴＡ規格ＩＴ−４００２、２００５年３月今井聖、住田一男、古市千枝子、「音声合成のためのメル対数スペクトル近似（ＭＬＳＡ）フィルタ」、電子情報通信学会論文誌(A), J66-A, 2, pp.122-129, Feb. 1983. 吉村貴克、徳田恵一、益子貴史、小林隆夫、北村正、「ＨＭＭに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化」、電子情報通信学会論文誌(D-II), J83-D-II, 11, pp.2099-2107, Nov.2000. 益子貴史、徳田恵一、小林隆夫、今井聖、「動的特徴を用いたＨＭＭに基づく音声合成」、電子情報通信学会論文誌(D-II), J79-D-II, 12, pp.2184-2190, Dec. 1996.

携帯端末等の、データサイズや通信ビットレートの限られた装置で音声を再生するために、あらかじめある話者による読み上げ音声データを、音声合成記号の形に一度符号化しておき、これを用いて上記構成の音声合成装置により音声合成し、元の音声を再現する場合を考える。原稿がある文章の読み上げ音声を合成する場合、音声合成に必要な音声合成記号は元の原稿から比較的容易に作成できるので、このような構成が可能であり、これにより高効率な符号化が達成される。

音声合成装置が出力する音声の声質や読み上げスタイルは、音声合成装置における、音声生成モデルの予測性能で主に決まるので、その話者の音声を再現するためには、そのための高精度な予測器を事前に構築しておき、これを用いて音声の合成を行えばよい。特に、合成する音声内容が予め決まっている場合、その音声内容に特化した、音声合成用記号からの音声生成モデル予測器を構築すればよい。

しかしながら、実際には特定内容に特化した予測器を構築すると、その予測結果に予測器構築に用いたデータの特徴が強く現れ、予測器構築に用いた音声とは別の内容の音声を高品質に合成できない、という問題が生じる。この状態は一般に過学習と呼ばれる。実用上は、合成する音声を後で修正、あるいは追加したい場合が多く、このため予測器構築に用いる音声に極端に特化した予測器を用いることができない場合が一般的である。また、そのような極端に特化した予測器は、予測器構築に使ったデータの細かい特徴までもが予測器に含まれることになり、予測器自体のサイズが大きくなってしまうという問題がある。

このため実際には、ある程度の誤差を許容した予測器の構築が行われる。これにより、予測器構築に使ったデータとは別の入力に対しても、ある程度の予測性能が得られる。この能力のことは一般に汎化と呼ばれる。しかし、一般に汎化性能を獲得しようとするほど、符号化の元になったその話者の実際の音声との間では、大きな誤差が生じる。特に、話速や声の高さの微妙な変化といった特徴を音声合成用記号だけから正確に再現することは困難で、元の話者の音声の特徴が、充分に再現されない場合があった。

したがって、本発明は、特定音声に特化されていない音声生成モデル予測器を含む音声合成装置において、音声合成記号と比較的小さい修正情報を用いて、原音声の特徴を再現した音声を合成する音声合成装置を提供することを目的とする。

上記目的を実現するため本発明による音声合成装置は、一連の音声合成記号入力に基づき音声生成モデルを生成し、生成された音声生成モデルに基づき音声波形を生成する音声合成装置であって、前記音声生成モデルの修正情報を入力する手段と、前記音声生成モデルの修正情報に基づき、前記音声合成記号入力に基づき生成された音声生成モデルを修正する手段とを備えている。

また、音声生成モデル生成のためのコードブックをさらに備え、前記音声生成モデルの生成は、前記音声合成記号入力に対応するコードブックのベクトルを出力することであり、前記音声生成モデルの修正情報は、前記コードブックのベクトルを表す符号をその構成要素として含むことも好ましい。

また、前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータを生成する音声生成モデルと、一連の音声合成記号入力から生成された音声生成モデルとの間で定義される、所定の誤差尺度が小さくなるように音声生成モデルを修正する情報で構成されることも好ましい。

また、前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータと、一連の音声合成記号入力から生成された音声生成モデルに基づき生成された所定の音声合成パラメータとの間で定義される、所定の誤差尺度が小さくなるように音声生成モデルを修正する情報で構成されることも好ましい。

また、前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータと、一連の音声合成記号入力から生成された音声生成モデルとの間で定義される、音声合成パラメータに対する音声生成モデルのゆう度を表す所定の尺度が大きくなるように音声生成モデルを修正する情報で構成されることことも好ましい。

上記目的を実現するため本発明による音声合成方法は、一連の音声合成記号入力に基づき音声生成モデルを生成し、生成された音声生成モデルに基づき音声波形を生成する音声合成方法であって、前記音声生成モデルの修正情報を入力するステップと、前記音声生成モデルの修正情報に基づき、前記音声合成記号入力に基づき生成された音声生成モデルを修正するステップとを備えている。

上記目的を実現するため本発明によるプログラムは、上記に記載の音声合成装置としてコンピュータを機能させる。

本発明により、音声合成記号だけから音声を合成した場合に生じる原音声との間との誤差を、音声波形生成の基となる音声生成モデルを修正することで、小さくすることができる。特に、誤差の大きい箇所に対応する音声生成モデルを選択的に修正することで、原音声の特性に近い音声を、音声合成記号と小さい修正情報で合成することができる。

また本発明により、音声生成モデルのパラメータ修正情報は、音声生成モデル予測器に組み込まれたコードブックを用いて構成できるので、修正情報はさらに小さくすることができる。

また本発明により、修正情報は、原音声から推定された音声合成パラメータと、音声生成モデルから生成された音声合成パラメータとの間の誤差が小さくなるような音声生成モデルの修正情報を探すことで、決定することができる。

また本発明により、修正情報は、原音声から推定された音声合成パラメータに対する、音声生成モデルのゆう度が大きくなるような音声生成モデルを探すことで、決定することができる。

以上の特徴から、特定音声に特化されていない音声生成モデル予測器を含む音声合成装置でも、音声合成記号と比較的小さい修正情報のみを用いて、原音声の特徴を再現した音声を合成することができる。

本発明の第１の実施形態による音声合成装置のブロック図である。本発明の第１の実施形態による音声合成装置のための、修正情報を作成するための第１の手順を説明する図である。本発明の第１の実施形態による音声合成装置のための、修正情報を作成するための第２の手順を説明する図である。本発明の第２の実施形態による音声合成装置のブロック図である。本発明の第３の実施形態による音声合成装置のブロック図である。

本発明を実施するための最良の実施形態について、以下では図面を用いて詳細に説明する。なお、以下において、“単位音声”とは、本発明による音声合成装置における、音声の最小処理単位である。単位音声の具体例としては、音素、音節、単語がある。ただしここでは、単位音声は、例えば前後の音素の種類といった音韻環境に関する違い、またアクセントやイントネーション、話速といった韻律的特徴の違いを考慮した分類が行われているものとする。また“音声合成用記号”とは、１発声の音声に含まれる単位音声のそれぞれの種類を記述するための一連の記号である。

図１は、本発明の第１の実施形態による音声合成装置のブロック図である。図１によると、音声合成装置１は、音声生成モデル生成部１１と、音声生成モデル修正部１２と、音声合成パラメータ生成部１３と、音声波形生成部１４を備えている。音声生成モデル生成部１１には、音声合成記号列から音声生成モデルのパラメータを予測するための、音声生成モデル予測器が組み込まれている。また、音声合成装置１は、音声合成記号と音声生成モデル修正情報（以下、修正情報と記す）をその入力とし、音声波形を出力する。

ここでは、１発声に対応する音声生成モデルのパラメータ全てが、適当な次元数Ｎのベクトルで表現されるものとする。また修正情報には、０個以上の修正情報要素が含まれる。ここで１つの修正情報要素は、例えば、指令符号とその引数、といった形で表現できる。指令符号により示される指令の例としては、音声生成モデルのあるパラメータｊを値ａに書き換える、といったものがある。この値の修正を行う指令符号をＳ１とすると、この修正処理を表す修正情報要素は、Ｓ１，ｊ，ａの３つの記号で表現できる。なお、ｊにより指定される音声生成モデルのパラメータの例としては、音声生成モデルの特定の状態におけるＭＦＣＣの特定の次数の値の平均値、音声生成モデルの特定の状態におけるフレーム数分布の分散の値などがある。

この構成では、ある１発声がＫ個の単位音声で構成されるとき、その１発声の音声合成記号入力に対して、まず音声生成モデル生成部１１が、Ｋ個の単位音声のそれぞれについて、事前に構築された音声生成モデル予測器を用いて、その単位音声のための音声生成モデルのパラメータを予測する。そして、それらを連結してその１発声のための音声生成モデルのパラメータを構成するＮ次元のベクトルを構成し、音声生成モデル修正部１２にそのデータを送信する。以下、このベクトルを音声生成モデルパラメータベクトルと呼ぶ。次に音声生成モデル修正部１２で、音声生成モデルパラメータベクトルの、修正情報において指示されている次元の要素は、修正情報で指定された値に書き換えられる。そして、音声合成パラメータ生成部１３は、書き換えられた音声生成モデルパラメータベクトルに対して、音声合成パラメータ時系列を生成する。最後に音声波形生成部１４において、音声合成パラメータ時系列に基づき、音源およびフィルタが制御され、音声波形が合成される。

第１の実施形態における修正情報を作成する第１の作成手段を以下で説明する。図２は本発明の第１の実施形態による音声合成装置のための、修正情報を作成するための第１の手順を説明する図である。
Ｓ１１．音響分析により原音声から目標となる音声合成パラメータ時系列をまず作成する。
Ｓ１２．そして、原音声に対応する音声合成記号列から音声生成モデルを生成した場合と同じ構造のモデルのうちで、音声合成パラメータ時系列に対しゆう度が最大となる音声生成モデルを求める。音声生成モデルがＨＭＭに基づくものである場合は、音声生成モデルはフォワード・バックワードアルゴリズムにより効率的に求めることができる。または、ビタビアルゴリズムにより近似的に求めることができる。
Ｓ１３．一方、これとは別に、音声合成記号のみを用いて音声生成モデルを作成する。
Ｓ１４．作成されたパラメータベクトルをＳ１５で作成された指令情報で修正する。なお、最初は指令情報がないため修正は行わない。
Ｓ１５．作成された２つの音声生成モデルのパラメータベクトルについて、その要素をそれぞれ比較し、所定の誤差尺度が最も大きい要素について、その値を原音声から作成したモデルパラメータベクトルの要素の値で修正する指令情報を作成し、修正情報要素として出力する。
Ｓ１６．そして所定の条件を満たすまで、修正情報要素を蓄積しながらこのパラメータベクトル修正手順を繰り返す。ただし繰り返し以降の処理では、パラメータベクトルに対して、それまでに蓄積された音声生成モデル修正情報要素を適用し、パラメータベクトルを修正する。最終的に、蓄積された修正情報要素の集合が、当該の１発声を修正するための音声生成モデル修正情報となる。前記の条件の例としては、修正後の全パラメータにおける所定の誤差尺度の最大値が事前に設定したしきい値以下になった、修正情報のサイズがある設定値に達した、等がある。

また誤差尺度としては、パラメータの種類ｊに対する原音声から作成された音声生成モデルにおけるそのパラメータの値と、音声合成記号から作成される音声生成モデルにおけるそのパラメータの値との差をｅ_ｊとするとき、パラメータ毎の重要度を考慮した重み付け誤差ｅ_ｊ’＝ｗ_ｊｅ_ｊがある。ただし、ｗ_ｊは音声生成モデルのパラメータｊの重み係数である。例えば、この係数を比較的品質上影響の大きい音声の基本周波数といったパラメータに対し、特に音声上で大きな誤差を生じさせたくない箇所でのみ大きな値に設定することで、そのパラメータの影響のある部分を優先的に修正することができる。

次に、第１の実施形態における修正情報を作成する第２の作成手段を以下で説明する。図３は本発明の第１の実施形態による音声合成装置のための、修正情報を作成するための第２の手順を説明する図である。
Ｓ２１．この方法でも第１の手順と同様、音響分析により原音声から目標となる音声合成パラメータ時系列をまず作成する。
Ｓ２２．またそれとは独立に、原音声に対応する音声合成記号から音声生成モデルを構築する。
Ｓ２３．作成された音声生成モデルをＳ２５で作成された修正情報で修正する。なお、最初は修正情報がないため修正は行わない。
Ｓ２４．構築された音声生成モデルに基づき音声合成パラメータ時系列を作成する。
Ｓ２５．これら２つの音声合成パラメータの誤差を評価し、修正後の音声生成モデルを用いて音声合成パラメータ時系列を作成した時に目標音声合成パラメータ時系列との誤差指標が最小となる、音声生成モデルに対する音声生成モデル修正情報を作成する。このような修正情報要素は山登り法により求めることができる。
Ｓ２６．そして所定の条件を満たすまで、修正情報要素を蓄積しながらこの音声モデル修正手順を繰り返す。ただし繰り返し以降の処理では、音声合成記号から生成された音声生成モデルに対して、それまでに蓄積された音声生成モデル修正情報要素を適用し、音声生成モデルを修正する。前記の条件の例としては、誤差指標が事前に設定したしきい値以下になるか、修正情報のサイズがある設定値に達した、等がある。最終的に、蓄積された修正情報要素の集合が、当該の１発声を修正するための音声生成モデル修正情報となる。

ここでの誤差指標ｅは次のように与えられる。
ｅ＝ｆ（Ｘ，Ａ）（４）
ここで、Ａは目標となる音声合成パラメータ時系列を表す行列、Ｘは音声生成モデルに基づき生成される音声合成パラメータ時系列を表す行列で、それぞれ合成パラメータの種類ｉのフレームｔにおける値ａ_ｉ（ｔ）、ｘ_ｉ（ｔ）を、ｉ行ｔ列の要素とする。

ただし以下では、Ｘはその合計フレーム数がＡの合計フレーム数と等しくなる、という制約条件の下で１発話の音声生成モデルのゆう度が最大となる音声合成パラメータ時系列とする。つまり、ＸとＡの行列の大きさは等しい。この場合の誤差指標関数ｆは例えば次のように定義される。
ここでｗ_ｉ（ｔ）はフレームｔにおける音声合成パラメータの種類ｉに対する重み係数である。この係数を例えば音声の基本周波数といった比較的品質上影響の大きいパラメータの、特に音声上で大きな誤差を生じさせたくない箇所について大きく設定することで、その部分だけを優先的に修正することができる。

次に、第１の実施形態における修正情報を作成する第３の作成手段を以下で説明する。本手段では、図３のＳ２４の音声合成パラメータ作成を行わず、図３のＳ２５で、音声合成パラメータ同士の誤差を評価ではなく、音声合成パラメータ時系列と音声生成モデルと間で定義されるゆう度の評価を行い、ゆう度が最大となるような修正情報を求める。

図４は、本発明の第２の実施形態による音声合成装置のブロック図である。本構成では、音声生成モデル生成のためのコードブック１５が備えられており、音声生成モデルパラメータベクトルを構築するために、このコードブック１５が用いられるようになっている。音声生成モデル修正部１２でも、そのコードブック１５を参照できるようになっている。修正情報には、このコードブック１５のベクトルを指す符号がその情報の一部として含まれており、符号に対応するコードブック１５のベクトルを用いて、音声生成モデルパラメータベクトルの修正が行われる。音声生成モデル修正部１２における修正処理では、音声生成モデルパラメータベクトルの要素のうち、修正に用いるコードブック１５のベクトルに関係する要素全てが、一度に変更される。

図５は、本発明の第３の実施形態による音声合成装置のブロック図である。本構成では、コードブック１５を参照する音声生成モデルパラメータベクトル構成部１６が備えられており、音声生成モデル生成部１１ではコードブック１５を直接参照せず、音声生成モデル生成部１１はコードブック１５を指すベクトル符号列のみを出力する。そしてその符号の列に対して、先に音声生成モデル修正部１２で符号を部分的に置換し、この修正された符号列に対して、音声生成モデルパラメータベクトル構成部１６でコードブック１５を参照し、音声生成モデルパラメータベクトルを構成する。図５の構成では、修正情報要素は、変更を表す指令符号と、変更するベクトルを表す値、修正後のコードブックのベクトルを指す符号で構成される。

図５の構成は、図４の構成と比較し、音声生成モデルの修正は限られたものとなるが、コードブックを参照しなければならない処理が減ることで、装置全体の規模を抑えることができる。

第２および第３の実施形態における修正情報を作成する手段を以下で説明する。これらの構成における修正情報の作成は、音声生成モデルパラメータの修正値を得た後、最適なコードワードを探索する処理が加わることを除くと、第１の実施形態における修正情報の作成手段１〜３と同様に作成することができる。

あるいは、修正値を一度求めてから最適なコードブックのベクトルを探索するのではなく、あるベクトルを用いた修正を幾つかのベクトルに対して試行し、その結果から最適なベクトルを選ぶという手順を繰り返して、修正に用いるベクトルを決定しても良い。

また第２の実施形態の場合は、コードブックの複数のベクトルを組み合わせて音声生成モデルパラメータの修正を表現しても良い。例えば、音声生成モデルに対する修正をＫ個のベクトルを用いて表現する時、それらの符号語をｃ_ｋ（０≦ｋ≦Ｋ−１）、また、符号語ｃに対応するベクトルをＶ_ｃとするとき、パラメータ修正値を構成するベクトルｄは式６で表現することができる。
ただし、ｕ_ｋは修正情報のｋ番目のベクトルに対する重み係数である。またこの場合、１つの修正情報要素は、コードブックのベクトルを使って修正をすることを示す指令符号、修正するベクトルを示す符号、コードブックのベクトルをＫ個使うことを示す符号、コードブックのベクトルを表すＫ個の符号、およびＫ個の重み係数で構成される。

なお、上記修正情報の作成でそれぞれ示した、修正情報の作成方法は例示であって、その作成方法はこれに限定されない。また音声生成モデルパラメータおよび音声合成パラメータの値の修正に関する表現は、修正後の値を直接的に修正情報上で表現する形式に限定されない。例えば、音声生成モデル生成部、あるいは音声合成パラメータ生成部の出力結果に対する差分値の形で表現してもよい。

また、以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様および変更態様で実施することができる。従って本発明の範囲は特許請求の範囲およびその均等範囲によってのみ規定されるものである。

１音声合成装置
１１音声生成モデル生成部
１２音声生成モデル修正部
１３音声合成パラメータ生成部
１４音声波形生成部
１５音声生成モデル用コードブック
１６音声生成モデルパラメータベクトル構成部

Claims

一連の音声合成記号入力に基づき音声生成モデルを生成し、生成された音声生成モデルに基づき音声波形を生成する音声合成装置であって、
前記音声生成モデルの修正情報を入力する手段と、
前記音声生成モデルの修正情報に基づき、前記音声合成記号入力に基づき生成された音声生成モデルを修正する手段と、
を備えていることを特徴とする音声合成装置。
音声生成モデル生成のためのコードブックをさらに備え、
前記音声生成モデルの生成は、前記音声合成記号入力に対応するコードブックのベクトルを出力することであり、
前記音声生成モデルの修正情報は、前記コードブックのベクトルを表す符号をその構成要素として含むことを特徴とする請求項１に記載の音声合成装置。
前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータを生成する音声生成モデルと、一連の音声合成記号入力から生成された音声生成モデルとの間で定義される、所定の誤差尺度が小さくなるように音声生成モデルを修正する情報で構成されることを特徴とする請求項１または請求項２に記載の音声合成装置。
前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータと、一連の音声合成記号入力から生成された音声生成モデルに基づき生成された所定の音声合成パラメータとの間で定義される、所定の誤差尺度が小さくなるように音声生成モデルを修正する情報で構成されることを特徴とする請求項１または請求項２に記載の音声合成装置。
前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータと、一連の音声合成記号入力から生成された音声生成モデルとの間で定義される、音声合成パラメータに対する音声生成モデルのゆう度を表す所定の尺度が大きくなるように音声生成モデルを修正する情報で構成されることを特徴とする請求項１または請求項２に記載の音声合成装置。
一連の音声合成記号入力に基づき音声生成モデルを生成し、生成された音声生成モデルに基づき音声波形を生成する音声合成方法であって、
前記音声生成モデルの修正情報を入力するステップと、
前記音声生成モデルの修正情報に基づき、前記音声合成記号入力に基づき生成された音声生成モデルを修正するステップと、
を備えていることを特徴とする音声合成方法。
請求項１から５のいずれか１項に記載の音声合成装置としてコンピュータを機能させることを特徴とするプログラム。