JP2014109669A

JP2014109669A - 音声合成装置、音声合成方法および音声合成プログラム

Info

Publication number: JP2014109669A
Application number: JP2012263607A
Authority: JP
Inventors: Nobuyuki Nishizawa; 信行西澤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2012-11-30
Filing date: 2012-11-30
Publication date: 2014-06-12
Anticipated expiration: 2032-11-30
Also published as: JP6201205B2

Abstract

【課題】音声合成における周波数解像度および時間解像度を高めつつ、処理量を低減する。
【解決手段】入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成装置２００であって、音源波形を複数の周波数帯域の成分に分解する成分分解部２０５と、分解された成分をそれぞれサブバンド符号化するサブバンド符号化部２１０と、サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、分解成分について重み付き和を算出する重み付き和算出部２２０と、重み付き和を算出されたサブバンド符号化波形ベクトルを復号し、単一の音声波形に合成するサブバンド復号部１４０と、を備える。
【選択図】図６

Description

本発明は、入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成装置、音声合成方法および音声合成プログラムに関する。

音声合成技術とは、一般にテキストから音声波形を合成する一連の技術の総称であるが、まず、その一要素である、合成したい音声のスペクトル情報および音源情報から、音声波形を合成する処理を説明する。この処理にあたり、合成したい音声のスペクトル情報や音源情報は、予め対応する自然音声等から求めておく。

音声合成波形の合成の方法として代表的なものに、ソース・フィルタモデルに基づく音声合成方法がある。この方式は、まず適当な音源（ソース）波形を生成し、それを適当な特性のフィルタを通過させることで、所望の特徴を有した音声波形を合成する方法である。これは、例えば、音源が声帯振動に伴う声門体積流に、フィルタが声道伝達特性にそれぞれ対応すると考えると、人間の音声生成過程に対応したモデルであるとも言える。

ただし、音声の波形から観測できるのは、音声波形のスペクトル特性や周期的な音声波形で観測される基本周波数といった最終的な音声波形に対する物理量であり、音声生成過程に関連した特徴との厳密な対応付けは難しい。そのため、実際には、インパルス列や白色雑音といったスペクトル的に白色な音源波形に対して、フィルタにより合成目標となる音声のスペクトル特性を直接的に与えることで、音声波形を合成することが多い。

なお、音声波形が周期性を有する場合、観測されるスペクトル情報には、その周期性に由来した基本周波数成分およびその調波成分が含まれる。そして、通常、この周期性は、インパルス列等により音源側で表現される。

以下、スペクトル情報とは、基本周波数およびその調波成分の影響を除いた、平滑化されたスペクトル情報をいう。この平滑化の方法には、周波数軸上で、調波成分のピーク点のみをつなぐ方法等がある。また、音声波形は短時間的にはほぼ定常と見なせるが、長時間的には時変であるので、通常は、ある一定間隔（例えば１ミリ秒から２０ミリ秒程度）毎の特性を考慮し、そのそれぞれの時刻においてはその定常性を仮定する。ここで、各サンプルのスペクトル情報は例えば複数次のメルケプストラム係数や線形予測係数等で表現する。

一般に、声帯振動を伴う音声は有声音、伴わない音声は無声音と呼ばれ、有声音では通常、波形の周期性が観測される。ソース・フィルタに基づく音声波形合成では、有声音の音源としてインパルス列のみを、無声音の音源に白色雑音のみを用いる方法がしばしば用いられている。この方法でも合成音声の言語的な了解度の点では問題ないことが多いが、実際の有声音には雑音的成分も含まれており、その自然性が低下するという問題が生じていた。

そこで、インパルス列と白色雑音を同時に生成し、それを組み合わせた波形を音源波形とすることで、合成音声の自然性を改善する方法が開発されている。しかし通常、最適なインパルスと雑音のパワー比が各周波数帯域で一定ではなく、それは合成対象の音声の種類ごとに異なる。そこで、フィルタバンク等を用いて、インパルスと白色雑音の振幅特性を周波数帯域（サブバンド）毎に変える必要がある。

この際、従来のソース・フィルタモデルとの対応を考え、各音源を足し合わせた結果が白色になるように制御する方法がしばしば用いられる。以下、このような音源をマルチバンド混合励振源と呼ぶ。サブバンド毎の混合比は、時間変化させなくてもある程度の自然性が得られると考えられるが、スペクトル情報同様に時間変化させた方が、より自然性の高い音声を合成することができる。

よって、音声合成には、時間軸上である間隔毎の、音声のスペクトル情報、有声・無声情報、有声についての基本周波数の情報、およびマルチバンド混合励振源を用いてかつその特性を動的に変化させる場合における各サブバンドの混合比の情報が必要となる。なお、以下で説明される音声合成の形態では、説明の便宜上、音源のパワーは常に一定とし、合成音声のパワーはスペクトル特性に含めて制御されるものとする。

今井聖、住田一男、古市千枝子、「音声合成のためのメル対数スペクトル近似（ＭＬＳＡ）フィルタ」、電子情報通信学会論文誌(A)、 J66-A、 2、 Feb.1983、 pp.122-129

上記のような従来技術ではソース・フィルタモデルのフィルタに、ＭＬＳＡ（メル対数スペクトル近似）フィルタ等の比較的演算量の大きいフィルタが用いられている（非特許文献１参照）。ＭＬＳＡフィルタは、ｚ変換領域における指数関数を、ｚ変換領域上でパデ近似により直接有理式近似することで、目標特性を近似的に実現する回路を構成する手法が用いられている。そして、メルケプストラム係数をほぼそのままフィルタ係数とできる、といった利点があるが、波形１サンプル当たりの積和演算回数が、およそフィルタの次数とパデ近似の次数の積となり、計算量が比較的大きい。

例えば合成音声品質上は、１６ｋＨｚサンプリング時に３０〜４０次のメルケプストラムを用いる必要があるが、その場合、指数関数を必要な精度で近似するためには４次または５次のパデ近似が必要、つまり１サンプル当たり１５０〜２００回程度の積和演算が必要である。

さらにマルチバンド混合励振を行なう場合、指定の混合比となるように、インパルス列と白色雑音のそれぞれにフィルタを掛ける必要があるため、それぞれのフィルタ処理の分、さらに計算量が増える。このため、携帯端末等の計算処理性能が限られた環境では、比較的高次のフィルタを用いた音声合成処理や、混合励振を行なうことが難しい。

これを解決するため、インパルス列や白色雑音列の音源波形に対して、疑似直交鏡像フィルタバンク等に基づき、サンプルレート削減を包含したサブバンド符号化を行なう方法が考えられる。その方法では、サブバンド符号化領域で各帯域要素の振幅調整を行なってから、復号処理し、音声波形を合成する。

上記の方法では、高速コサイン変換等を用いたフィルタバング処理を用いることで、サンプル当たりの処理量をサブバンド数に対して対数オーダとすることができる。従来のフィルタに基づく方法では、サンプル当たりの処理量がフィルタ次数に対して線形オーダとなるため、設定条件によっては、従来手法よりも処理量を減らすことが可能である。

さらに、全ての信号処理が線形な処理である場合に、サブバンド符号領域で事前符号化された白色雑音やインパルス列を組み合わせる方法が考えられる。この方法を用いた場合、音声合成時のサブバンド符号化処理が不要になるため、処理量をさらに削減することができる。

これに対し、インパルス列や白色雑音列といった白色な音源波形に対して、疑似直交鏡像フィルタバンク等に基づき、サンプルレート削減を包含したサブバンド符号化を行なうことが考えられる。その場合には、サブバンド符号化領域で各帯域要素の振幅調整を行なってから、復号処理を行うことで音声波形を合成できる。

この方法では、高速コサイン変換等を用いたフィルタバング処理を用いることで、サンプル当たりの処理量をサブバンド数に対して対数オーダとすることができる。従来のフィルタに基づく方法は、フィルタ次数に対して線形オーダとなるため、設定条件により、従来手法よりも処理量を減らすことが可能である。さらに、全ての信号処理が線形な処理である場合に、サブバンド符号領域で事前符号化された白色雑音やインパルス列を組み合わせる方法が示されている。この方法を用いた場合、音声合成時のサブバンド符号化処理が不要になるため、処理量をさらに削減することができる。

しかし、この方法では、音声スペクトル特徴生成において、その周波数軸方向の解像度がサブバンド符号化におけるサブバンド数で決まる。所望のスペクトル特徴からの誤差を抑えた音声を合成するためには、サブバンド数を大きく設定しなければならないが、サブバンド数を増やすと処理量も増える。この処理量の増加はフレーム周期を長くすることで抑えられるものの、一方でフレーム周期を長くするとスペクトル特徴変化の時間軸方向への解像度が不足し、品質が損なわれる。

また、疑似直交鏡像フィルタバンクでは、ダウンサンプリングに伴うエイリアスをアップサンプリングによるエイリアスで打ち消す構成が可能であり、サブバンド符号化ではこのような構成が通常用いられる。しかし、スペクトル特性の合成のために各サブバンドの振幅係数を独立に変えると、このエイリアスを互いに打ち消し合う処理が崩れ、エイリアスに起因するノイズが生じる。

このようなエイリアスを生じさせないようにするため、ダウンサンプリングを通常のサブバンド符号化の半分に制限する方法が考えられる。しかし、その結果、処理量が倍になることに加え、エイリアスを生じさせる周波数を挟んで隣り合う２つのサブバンドの振幅調整係数を等しく設定する必要があるため、結果として周波数解像度もサブバンド分割数の約半分となってしまう。

本発明は、このような事情に鑑みてなされたものであり、音声合成における周波数解像度および時間解像度を高めつつ、処理量を低減することができる音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。

（１）上記の目的を達成するため、本発明の音声合成装置は、入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成装置であって、音源波形を複数の周波数帯域の成分に分解する成分分解部と、前記分解された成分をそれぞれサブバンド符号化するサブバンド符号化部と、前記サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、前記分解成分について重み付き和を算出する重み付き和算出部と、前記重み付き和を算出されたサブバンド符号化波形ベクトルを復号し、単一の音声波形に合成するサブバンド復号部と、を備えることを特徴としている。

これにより、スペクトル特性の合成のために各サブバンドの振幅係数を独立に変える構成においてもエイリアスに起因するノイズを防止するための設定や処理が不要となり、処理量を低減できる。また、成分分解に伴うサブバンド符号化波形ベクトルの重み付き和算出処理の分、処理量が増加するが、サブバンド符号化した際にサブバンド符号化波形ベクトルに０となる要素を多く含むように音源波形を分解し、それらをサブバンド符号上で組み合わせて音声波形を構成することで、サブバンド符号上での重み付き和の計算処理において、実際の積和演算処理の多くを省くことができる。

また、音源波形の分解の方法は、サブバンド符号化とは別に任意に定めることができるので、音源波形をより細かく分解することで、合成する音声波形の周波数解像度を高めることができる。これにより、サブバンド符号化におけるサブバンド数を増やした際の処理量増加や時間解像度低下の問題を避けることができる。このようにして、携帯端末等の計算処理性能が限られた環境でも、十分な音声合成処理を可能となる。

（２）また、本発明の音声合成装置は、前記成分分解部が、帯域通過フィルタの集合で構成され、前記分解された成分の和により前記音源波形を近似的に再現できるように前記音源波形を成分分解することを特徴としている。このように、分解された成分ごとにサブバンド符号化して、サブバンド符号化波形ベクトルの重み付き和を算出する処理を行なうことでスペクトル情報に対応した音声を再現できる。

（３）また、本発明の音声合成装置は、前記成分分解部が、前記音源波形として、インパルス列および白色雑音の２種類の音源波形を用い、前記重み付き和算出部は、入力されたスペクトル特性情報に基づくインパルス列と白色雑音との混合比で、前記２種類の音源波形に基づくサブバンド符号化波形ベクトルの重み付き和を求めることを特徴としている。これにより、インパルス列と白色雑音を音源波形とし、音声の種類ごとに異なる最適なインパルスと雑音のパワー比で音声合成することで合成音声の自然性を改善できる。

（４）また、本発明の音声合成装置は、前記成分分解部が、前記サブバンド符号化および復号を行なう対象の周波数帯域と同じ幅で、前記音源波形を成分分解することを特徴としている。これにより、事前の成分分解が無い方法に比べて、３／４程度の処理量で同等の周波数および時間の解像度を得られる。

（５）また、本発明の音声合成方法は、入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成方法であって、音源波形を複数の周波数帯域の成分に分解するステップと、前記分解された成分をそれぞれサブバンド符号化するステップと、前記サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、前記分解成分について重み付き和を算出するステップと、前記重み付き和を算出されたサブバンド符号化波形ベクトルを、復号し、単一の音声波形に合成するステップと、を含むことを特徴としている。これにより、音声合成における周波数解像度および時間解像度を高めつつ、処理量を低減することができる。

（６）また、本発明の音声合成プログラムは、入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成プログラムであって、音源波形を複数の周波数帯域の成分に分解する処理と、前記分解された成分をそれぞれサブバンド符号化する処理と、前記サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、前記分解成分について重み付き和を算出する処理と、前記重み付き和を算出されたサブバンド符号化波形ベクトルを復号し、単一の音声波形に合成する処理と、をコンピュータに実行させることを特徴としている。これにより、音声合成における周波数解像度および時間解像度を高めつつ、処理量を低減することができる。

本発明によれば、音声合成における周波数解像度および時間解像度を高めつつ、処理量を低減することができる。その結果、携帯端末等の計算処理性能が限られた環境でも、十分な音声合成処理を可能となる。

基礎となる実施形態に係る音声合成装置の基本構成を示すブロック図である。基礎となる実施形態に係る音声合成装置の具体的構成を示すブロック図である。サブバンド符号化部の実際の回路構成を示すブロック図である。サブバンド符号化部の理論的な構成を示すブロック図である。サブバンド復号部の実際の回路構成を示すブロック図である。サブバンド復号部の理論的な構成を示すブロック図である。帯域分割フィルタバンクについて周波数に対する振幅特性を示すグラフである。第１の実施形態に係る音声合成装置の基本構成を示すブロック図である。第１の実施形態に係る音声合成装置の具体的構成を示すブロック図である。第１の実施形態に係る音声合成装置の動作の一例を示すフローチャートである。第１の実施形態に係る音声合成装置の動作の一例を示すフローチャートである。

次に、本発明の実施形態について、図面を参照しながら説明する。説明の理解を容易にするため、各図面において同一の構成要素に対しては同一の参照番号を付し、重複する説明は省略する。

［基礎となる実施形態］
（音声合成装置の構成）
図１は、音声合成装置１００の基本構成を示すブロック図であり、図２は、音声合成装置１００の具体的構成を示すブロック図である。音声合成装置１００は、音源波形をサブバンド符号化部１１０によりサブバンド符号化して蓄積し、入力情報に応じてサブバンド毎に振幅を調整する。そして、振幅を調整されたサブバンド符号化波形ベクトルを用いてサブバンド復号部１４０により合成し、目標となるスペクトル特性を近似的に有する音声波形を合成する。

音声合成装置１００は、入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する。本実施形態において、音源制御情報とは基本周波数である。図１に示すように、音声合成装置１００は、サブバンド符号化部１１０、サブバンド符号化音源生成部１２０、サブバンドパワー調整部１３０およびサブバンド復号部１４０を備えている。

サブバンド符号化部１１０は、音源波形を複数の周波数帯域に分割し、音源波形の分割によりベクトル系列を生成する。サブバンド符号化部１１０は、等時間間隔内のベクトル系列からベクトルを間引き、音源として蓄積をするためのサブバンド符号化波形ベクトルを生成することが好ましい。

なお、サブバンド符号化部１１０は、例えば分析フィルタバンクＥ_０（ｚ）〜Ｅ_Ｍ−１（ｚ）およびダウンサンプラＤ↓により構成される。分析フィルタバンクＥ_０（ｚ）〜Ｅ_Ｍ−１（ｚ）は、Ｍ個の周波数帯域に等分割するフィルタバンクで構成される。ダウンサンプラＤ↓は、サブバンド符号化後のＭ次元のベクトル系列に対し、等時間間隔でＤ（ただしＤ≦Ｍとする）サンプルのベクトル系列から（Ｄ−１）のベクトルを間引いて１つのベクトルのみを残す処理を行なう。このような間引き処理により、事前蓄積のサイズと、合成フィルタバンクの処理量をそれぞれ削減できる。

サブバンド符号化音源生成部１２０は、音源波形を複数の周波数帯域に分割して蓄積されたサブバンド符号化波形ベクトルに基づいて、入力された音源制御情報に対応するサブバンド符号化波形ベクトルを生成する。その際には、蓄積されたサブバンド符号化波形ベクトルのうち複数のサブバンド符号化波形ベクトルを組み合わせて、入力された音源制御情報に対応するサブバンド符号化波形ベクトルを生成する。

サブバンド符号化音源生成部１２０は、さらに蓄積部１２１および選択部１２２を備えている。蓄積部１２１は、事前に生成した、比較的短時間の音源波形（音源波形素片）をサブバンド符号化した結果としてのベクトルを格納する。このベクトルは、サブバンド符号化によるサブバンド分割数と同じ次元数のベクトルであり、これをサブバンド符号化波形ベクトルという。

選択部１２２は、入力された基本周波数の情報に基づき、事前蓄積されたサブバンド符号化波形ベクトルを選択する。このようにして、サブバンド符号化音源生成部１２０は、選択されたサブバンド符号化波形ベクトルを用いて、または、複数種類のサブバンド符号化波形ベクトルをサブバンド符号化波形ベクトルとして構成して、サブバンド符号化された音源波形ベクトルを出力する。なお、上記の蓄積までは事前処理として予め行ない、それ以降の処理は入力情報があったときに行なう。

サブバンドパワー調整部１３０は、生成されたサブバンド符号化波形ベクトルに対して、入力されたスペクトル特性情報に応じたサブバンド毎の振幅調整を行なう。サブバンドパワー調整部１３０には、各サブバンドのパワーを制御するための乗算回路を設けている。サブバンドパワー調整部１３０は、入力されるスペクトル特徴情報に基づき、サブバンド毎にこの係数Ａ_０〜Ａ_Ｍ−１を調整する。その結果、目標音声のスペクトル特性を再現する。なお、入力となるスペクトル情報は、直接的に各サブバンドのパワー情報で構成してもよいが、例えばメルケプストラム係数を入力とし、内部的に各サブバンドのパワー情報を計算し、その結果を用いてもよい。

サブバンド復号部１４０は、振幅調整がなされたサブバンド符号化波形ベクトルを単一の音声波形に合成する。すなわち、サブバンド符号化波形を合成し、最終的な合成音声波形を生成する。サブバンド復号部１４０は、例えばアップサンプラＤ↑および合成フィルタバンクＲ_０（ｚ）〜Ｒ_Ｍ−１（ｚ）により構成される。アップサンプラＤ↑は、振幅調整がなされたサブバンド符号化波形ベクトルに対し、帯域分割信号間にゼロ値サンプルを挿入し、Ｄ倍のアップサンプリングを行なう。合成フィルタバンクＲ_０（ｚ）〜Ｒ_Ｍ−１（ｚ）は、Ｍ個の周波数帯域に分割されたサブバンド符号化波形ベクトルを単一の音声波形に合成する。

（フィルタバンクの構成）
フィルタバンクを構成するあるフィルタの係数に離散フーリエ変換（ＤＦＴ）や離散コサイン変換（ＤＣＴ）、あるいはそれらの逆変換の係数系列を掛けると、基となったフィルタの特性を、周波数軸上でシフトした形のフィルタ特性が得られる。そして、このようなフィルタでフィルタバンクを構成することで、フィルタバンクの処理で必要な計算に、ＦＦＴ（高速フーリエ変換）等の高速化手法が利用可能となる。これにより、サブバンド符号化・サブバンド合成の処理を高速化することができる。

図３Ａおよび図３Ｂは、それぞれサブバンド符号化部１１０の実際の回路構成および理論的な構成を示すブロック図である。また、図４Ａおよび図４Ｂは、それぞれサブバンド復号部１４０の実際の回路構成および理論的な構成を示すブロック図である。いずれの例も離散コサイン変換を用いた構成例を示している。

サブバンド符号化部１１０およびサブバンド復号部１４０のいずれについても、実際の回路構成には、遅延要素ｚ^−１が設けられ、離散コサイン変換要素ＤＣＴまたは逆離散コサイン変換要素ＩＤＣＴが設けられている。これに対し、サブバンド符号化部１１０およびサブバンド復号部１４０と理論的に等価な構成では、上記の各要素が含まれない形が等価となっている。サブバンド符号化部１１０と理論的に等価な構成では、フィルタ処理を行なってからダウンサンプリングを行なうため、処理のサンプルレートが大きく、処理量も大きくなるが、実際の構成では、先にダウンサンプリングを行なっているため、処理量は少なくなる。これは、サブバンド復号部１４０も同様である。

図５は、等帯域分割フィルタバンクについて周波数に対する振幅特性を示すグラフである。ＤＦＴやＤＣＴのみを用いた場合、矩形窓関数をインパルス応答とする帯域通過フィルタを、周波数軸上でシフトした形の帯域通過フィルタで構成されるフィルタバンクと通常見なせる。以下、シフト前の基となるフィルタを基礎フィルタと呼ぶ。なお、基礎フィルタを、一般にはより好ましいと考えられる、遮断域での減衰量がより大きい周波数特性を持つ帯域通過フィルタ（なお周波数０を中心とする場合は、低域通過フィルタとなる）とすることも可能である。ただし、サブバンド符号化処理結果をサブバンド合成した場合に原音声波形が復元できるようにフィルタを設計する必要がある。その条件は完全再構成条件と呼ばれる。また、フィルタ構成によっては厳密な復元が不可能な場合があり、その場合は、近似的に復元されるようにフィルタを設計する。また、長さＭのＤＦＴを用いた場合は、基となるフィルタを、正規化角周波数で２πｋ／Ｍ（ｋ≦０＜Ｍ）シフトさせたＭ個のフィルタでフィルタバンクが構成され、ＤＣＴを用いた場合は、その定義にもよるが、以下の例で定義されるＤＣＴ変換の場合、正規化角周波数でπ（ｋ＋１／２）／Ｍシフトさせた特徴と、π（−ｋ＋１／２）／Ｍシフトさせた特徴の和をその周波数特性とする、Ｍ個のフィルタでフィルタバンクが構成される。

以下の例では、ＤＣＴ変換および逆ＤＣＴ変換のペアを用いている。ＤＦＴの入出力は複素数で定義されるのに対し、ＤＣＴの入出力は実数であり、処理をより簡単に行なうことができる。例えば、（１）式のＭ次のＤＣＴ係数を係数とするフィルタとして（２）式（０≦ｋ＜Ｍ）を用いても分析フィルタバンクを構成できる。

ＤＣＴ係数の特性上、これはＭ分割の等帯域分割フィルタバンクであり、さらにこのフィルタバンクは、完全再構成条件を満たすように構成できるので、帯域分割波形から入力波形を復元することができる。

なお、上記の構成において、サブバンド数はスペクトル特徴情報で記述されるスペクトルを所定の精度で模擬できるだけの数とする。例えば、１サンプルのスペクトル情報がｋ次（０次係数も含めパラメータ数としてはｋ＋１個）のメルケプストラムの場合で、かつここでのｋがスペクトル特徴を表現するのに必要な次元数の場合、そのようなスペクトルを一般的に模擬するために、少なくとも（ｋ＋１）個のサブバンド数が必要となる。

また、サブバンドパワー調整部１３０は、白色な音源に対して、各サブバンドのゲインを調整し、入力されたスペクトル特徴情報に対応する音声波形を生成するように動作する。なお、マルチバンド混合励振を行なう場合は、予めインパルス音源と白色雑音源が等パワーとなるように正規化しておき、各サブバンドのパワー重みの和が１となるように制御することで白色な音源を得ることができる。

先述のように、スペクトル情報として各サブバンドのパワー値を直接入力とする構成ではなく、メルケプストラム係数等から変換して各サブバンドのパワー係数を求めてもよい。サブバンド中心のスペクトル強度を、サブバンドのパワー値と見なして制御することで、目標のスペクトル特徴を近似的に得ることができる。サブバンドの中心は、ＤＦＴに基づくフィルタバンクを構成する場合、正規化角周波数軸上で、０，２π／Ｍ，４π／Ｍ，…となる。

一方、先述のＤＣＴに基づくフィルタバンクを構成する場合は、±π／２Ｍ，±３π／２Ｍ，…となる。ただし、入力が実数系列でかつ、インパルス応答が対称な基礎フィルタを用いる場合は、周波数特性も全て周波数０を中心に対称となるので、例えば正規化角周波数で０からπの範囲のみ考えればよい。サブバンド毎のスペクトル特性はフィルタバンク係数から求めることができるので、目標のスペクトル特徴との誤差を、周波数軸上で、サブバンド数よりもより細かい間隔で評価してもよい。例えば平均二乗誤差が最少となるようなサブバンドのパワー係数の組を、反復近似推定等により求めることで、より正確な制御を実現できる。なお、上記の例は一例であり、ＤＣＴ変換・逆ＤＣＴ変換のペアを、他の可逆変換のペアに置き換えることもできる。

（音源の制御方法）
次に、音源の制御方法について説明する。まず前提として、サブバンド符号化・サブバンド合成の前後で処理の線形性が保証されているものとする。先述のＤＦＴやＤＣＴに基づくフィルタバンクは、線形な操作の組み合わせだけでその処理が構成されているので、この条件を満たす。

このとき、インパルス列について、例えば、過去の３２サンプルから３２帯域の分割を行ない、かつ各帯域の分析フィルタ・合成フィルタがＦＩＲフィルタで表現可能な場合、サブバンド符号化した結果を次のように得ることができる。すなわち、入力フレームの１番目と２０番目のサンプルでインパルスが立っているようなインパルス音源波形を帯域分割した場合には、１番目のサンプルのみでインパルスが立っている音源波形をサブバンド符号化した結果と、２０番目のサンプルのみでインパルスが立っている音源波形をサブバンド符号化した結果の各要素を足すことにより得ることができる。

つまり、Ｍ帯域分割の場合、インパルス音源については、Ｍ種類の音源波形の変化の事前蓄積があればよい。実際には、音声合成で用いる基本周波数は比較的に低いので、音源波形のＭサンプル内に２つ以上のインパルスが含まれるケースが少ない場合も考えられる。その場合、足し合わせ処理の処理量はほぼ無視することができる。

なお、事前作成・蓄積する波形を生成するための処理量は音声合成時の処理ではないためあまり問題とならない。したがって、例えば、１．５番目のサンプルでインパルスが立っているといった、仮想的にサンプリング周期以上の時間精度でインパルスの位置を制御することも容易である。そのような音源波形は、例えば２倍のサンプリング周波数を用いた対応する波形をまず作成し、高域遮断フィルタであるアンチエイリアスフィルタを掛けることで、元のサンプリング周波数におけるナイキスト周波数以上の成分を除去してから、２：１のダウンサンプリングによりサンプルを間引くことで得ることができる。

このような手法は、サンプリング周波数が低く、インパルス位置をサンプル点に丸めてしまうと合成される音声の基本周波数の誤差が大きくなるケースで特に有効である。逆にサンプリングレートが高い場合は、逆にインパルスの位置精度を下げ、蓄積するサブバンド符号化波形の数を減らすという方法も考えられる。

一方、白色雑音源については、インパルスの足し合わせで白色雑音を合成してもよいが、適当な個数、フレーム長の白色雑音列を事前に帯域分割・蓄積しておき、それをフレーム毎にランダムに選択することで、近似的に構成してもよい。この場合、変換波形を蓄積する必要はあるものの、重みづけ和の計算処理が不要となるので、処理量を減らすことができる。なお、比較的少ない数の蓄積のみから白色な雑音を生成するため、蓄積された帯域分割音源波形を複数個足し合わせて、帯域分割音源波形を構成する方法も考えられる。

（非最大間引きフィルタバンクを用いた構成）
フィルタバンクにおける間引き率Ｍはその値が１（全く間引かない）からＭまでの場合で、少なくとも再合成前に各サブバンドでパワー調整を行なわない場合、サブバンド合成結果がサブバンド符号化前の入力信号と一致するようなフィルタバンクを構成することができることが理論上知られている。例えば、ＤＦＴやＤＣＴのみでフィルタバンクを構成し、間引き率Ｌの間引きを行なう場合、計算誤差を無視すれば、それらの逆変換により入力波形が完全に復元できることは明らかである。

しかし、特にＤ＝Ｍ（間引き率が最大であり、最大間引きと呼ばれる）の場合は、ＤＣＴを用いると、正規化角周波数において（ただしここではその対称性から０からπの範囲のみ考えることとする）、０〜π／Ｍ，π／Ｍ〜２π／Ｍ，…，（Ｍ−２）π／Ｍ〜（Ｍ−１）π／Ｍの各帯域の成分が、それが通過帯域、遮断帯域であるかに関わらず、それぞれのサブバンドに全て折り返されて格納される。そして、合成時に、各サブバンドの折り返し雑音成分が互いに打ち消しあうことで、入力波形が復元される。

各サブバンドのフィルタを帯域通過と見た場合、その通過域の幅もπ／Ｍだが、実際には、通過域で常にゲインが１、遮断域で常に０となるような理想的なフィルタは、有限長のフィルタでは理論上実現できない。実際には、遮断域でもある程度の通過量があり、最大間引きの場合、大きな折り返し雑音が各サブバンドには含まれている。このため、各サブバンドのパワーをサブバンド毎に独立に変更してしまうと、サブバンド間で互いに打ち消しあっている折り返し雑音の構造が崩れてしまい、その折り返し雑音が問題となる。

これに対し、ＤにＭより小さい値を設定すると、サンプルの間引きによる折り返しの幅が、フィルタバンクにおける帯域通過フィルタの通過域の幅より広くなるので、各サブバンドの折り返し雑音が減り、サブバンド毎に独立にパワーを調整した場合でも、折り返し雑音の影響を小さくすることができる。このような設定は非最大間引きと呼ばれる。一般に間引き率Ｄを小さくするほど、折り返し雑音の影響は小さくなるが、情報量的には冗長となり、蓄積・処理するデータ量が増える。このため、折り返し雑音の影響を抑えるために必要な範囲で、Ｄはできるだけ大きな値を設定することが好ましい。

先述の非最大間引きは、帯域分割前、帯域合成後の波形系列から見ると、フレームシフトＤのオーバラップ分析を行なっていることと等価である。また、時間領域におけるＤサンプルの処理毎に、サブバンド符号化によるサブバンド分割領域における１サンプルの処理が行なわれる。ここで、簡単のためにＤがＭの約数であるとする。なお、完全再構成条件を満たすフィルタバンクを用いるものとする。

まず、インパルス音源については、非最大間引きであっても、上記で説明している音源の制御方法と同様の方法で制御する。ただし、例えば長さＭのフレームにおいて、先頭からＮサンプル目（ただしＭ＞Ｎ≧Ｄとする）のサンプルが立っている場合、Ｄサンプルのフレームシフトにより、次のフレームでは先頭からＮ−Ｄ番目のサンプルにインパルスが立つ。このとき、インパルス音源はそれぞれのタイミングで、対応する事前蓄積されたサブバンド符号化波形ベクトルを出力する。

一方、白色雑音については、例えば、最も簡単な方法として、Ｍ×Ｎサンプル周期で同じ波形を繰り返すことで生成する方法が考えられる。その場合は、フレームシフトに対応する、Ｍ×Ｎ×（Ｍ／Ｄ）通りの、長さＭの波形を事前蓄積しておき、フレームシフトに応じて順に出力する方法がまず考えられる。ここでＮは、雑音周期が聴感上問題ない程度となるものであればよい。例えば雑音の周期Ｍ×Ｎが、可聴周波数の下限（例えば２０Ｈｚ）に対応する周期より長ければよい。

あるいは、長さＭの白色雑音波形素片を予め何個か用意しておき、それをランダムに繋ぎ合わせる方法もある。ここで１つの長さＭの白色雑音波形素片について、時間軸上の素片範囲外でサンプル値が全て０として扱う。この白色雑音波形素片単独の時間領域における1フレーム内での出現パターンは、フレーム内における波形の開始点の違いで決まり、開始点には−Ｍ＋Ｄ，−Ｍ＋２Ｄ，…，−Ｄ，０，Ｄ，…，Ｍ−Ｄの計（２（Ｍ／Ｄ）−１）個のパターンがある。

１フレーム分の雑音波形は１種類(開始点が０の場合)または２種類の長さＭの雑音波形の組み合わせで表現できる。したがって、事前作成する長さＭのサンプルの白色雑音波形素片がＮ種類のとき、合計Ｎ（２（Ｍ／Ｄ）−１）個の事前蓄積から、１または２個のサブバンド符号化波形を取得し、それをサブバンド符号化におけるサブバンド分割領域で足し合わせる処理により、白色雑音源を実現できる。

また、白色雑音波形素片の長さをＭ／２，Ｍ／４，…と短くしていくことで、その場合、１フレーム内での出現パターン数が減り、音源で必要な足し合せ処理が増えていく。逆に白色雑音波形素片の長さを長くすることもできる。その場合は出現パターン数が増えるため、必要な蓄積の数が増えるが、音源で足し合わせの処理が必要となる場合が減ることとなる。

［第１の実施形態］
（成分分解を行う装置の構成）
上記の実施形態は、サブバンド符号化により周波数分割された帯域ごとに振幅調整をしているが、本発明の実施形態においてはサブバンド符号化前に成分分解しておき、符号化とは別に、分解された成分ごとに振幅調整を行なう。

図６は、サブバンド符号化とは別に成分分解して振幅調整する音声合成装置２００の基本構成を示すブロック図であり、図７は、音声合成装置２００の具体的構成を示すブロック図である。音声合成装置２００の基本構成は、音声合成装置１００と同様であり、音源波形をサブバンド符号化部２１０によりサブバンド符号化して蓄積し、入力情報に応じて振幅を調整した後にサブバンド符号を復号する。図６に示すように、音声合成装置２００は、成分分解部２０５、サブバンド符号化部２１０、重み付き和算出部２２０およびサブバンド復号部１４０を備えている。

成分分解部２０５は、インパルス側分解部２０６ａ、白色雑音側分解部２０６ｂを備え、音源波形として、インパルス列および白色雑音の２種類の音源波形を用い、音源波形を複数の周波数帯域の成分に分解する。成分分解部２０５は、帯域通過フィルタの集合で構成され、分解された成分の和により音源波形を近似的に再現できるように音源波形を成分分解する。このように、分解された成分ごとにサブバンド符号化して、重み付き和を行なうことでスペクトル情報に対応した音声を再現できる。

成分分解部２０５は、それぞれＭ個、Ｎ個のフィルタＦｐおよびＦａを有し、インパルス列と白色雑音の音源波形をそれぞれＭ個、Ｎ個の音源要素波形に分割する。分割については、適当な音源波形に対し、分割波形の和が元の音源波形を再現するか、近似的に特徴を再現するように分割すればよい。このような分割を実現するようなフィルタとして、１／２のハーフバンドフィルタを１／Ｎの帯域制限に拡張した、Ｎ−ｔｈバンドフィルタを基礎フィルタとして、その係数をコサイン変調して周波数軸上でシフトさせることで構築したフィルタバンクを用いることができる。なお、成分分解部２０５における帯域分割方法は、続くサブバンド符号化処理のおける帯域分割処理とは独立に定めることができる。

また、成分分解部２０５で帯域制限フィルタの遮断域における遮断量を大きくとり、遮断域の振幅強度を仮想的に０と見なすことが好ましい。これにより、サブバンド符号化結果のベクトルにおいて、帯域制限フィルタの遮断域と完全に重なる周波数帯域のサブバンドの要素の値を０とすることができる。そして、多くの０要素を含んだサブバンド符号化波形ベクトルを音声合成処理に用いることができる。その結果、重み付き和算出部２２０における重み付き和の計算処理において、０要素の積和演算処理を省いて、実際の処理量を減らすことができる。

サブバンド符号化部２１０は、分解された成分のそれぞれをＤ分割でサブバンド符号化する。すなわち、分割された音源要素波形をＤ次元のベクトルに変換する。サブバンド符号化部２１０は、インパルス側符号化部２１１ａおよび白色雑音側符号化部２１１ｂを備えている。インパルス側符号化部２１１ａはインパルス音源をサブバンド符号化し、白色雑音側符号化部２１１ｂは、白色雑音源をサブバンド符号化する。

重み付き和算出部２２０は、サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、分解成分に重みを掛け、重み付き和を求める。そして、入力されたスペクトル特性情報に基づくインパルス列と白色雑音との混合比で、２種類の音源波形に基づくサブバンド符号化波形ベクトルの重み付き和を求める。これにより、インパルス列と白色雑音を音源波形とし、音声の種類ごとに異なる最適なインパルスと雑音のパワー比で音声合成することで合成音声の自然性を改善できる。

重み付き和算出部２２０は、インパルス側蓄積部２２１ａ、インパルス側選択部２２２ａ、インパルス側重み付け乗算部２２３ａ、白色雑音側蓄積部２２１ｂ、白色雑音側選択部２２２ｂ、白色雑音側重み付け乗算部２２３ｂおよび加算部２２４を備えている。

インパルス側蓄積部２２１ａおよび白色雑音側蓄積部２２１ｂのそれぞれは、Ｄ次元のベクトルに変換された音源要素波形を蓄積する。インパルス側蓄積部２２１ａは、インパルス音源に基づくサブバンド符号化波形ベクトルを蓄積する。白色雑音側蓄積部２２１ｂは、白色雑音源に基づくサブバンド符号化波形ベクトルを蓄積する。蓄積までの動作は、音声合成前に行なわれる。

インパルス側選択部２２２ａおよび白色雑音側選択部２２２ｂは、音声合成時に音源情報およびスペクトル特徴情報に基づき、合成音声波形を構成するために必要なサブバンド符号化波形ベクトルを選択する。インパルス側選択部２２２ａは、入力された基本周波数の情報に基づき、事前蓄積されたインパルス音源に基づくサブバンド符号化波形ベクトルを選択する。白色雑音側選択部２２２ｂは、例えば上記の「音源の制御方法」に基づき、事前蓄積された白色雑音源に基づくサブバンド符号化波形ベクトルを選択する。

インパルス側重み付け乗算部２２３ａおよび白色雑音側重み付け乗算部２２３ｂは、選択したベクトルの重み付き和を計算することで、合成音声波形を構成するサブバンド符号化波形ベクトルを生成する。インパルス側重み付け乗算部２２３ａは、選択されたサブバンド符号化波形ベクトルの各要素に重み付け係数Ａ_ｐ０〜Ａ_{ｐ（Ｍ−１）}をそれぞれ乗算する。白色雑音側重み付け乗算部２２３ｂは、選択されたサブバンド符号化波形ベクトルの各要素に重み付け係数Ａ_ａ０〜Ａ_{ａ（Ｎ−１）}をそれぞれ乗算する。なお、各係数は、Ａ_ｐｘ＋Ａ_ａｘ＝１となるように決められる。

重み付き和算出部２２０は、音源波形要素選択において、インパルス列を帯域分割した要素と、白色雑音を帯域分割した要素を組み合わせる方法を用いることができる。その重み係数は、まず、音源情報として含まれるインパルス列と雑音の混合比から、インパルス列成分のみのスペクトル特徴と、雑音成分のみのスペクトル特徴を求める。そして、帯域分割した要素の各中心周波数において、それぞれ目標となるスペクトル特徴と、音源要素波形のスペクトル特徴の振幅強度が一致するように重み付き係数を求めればよい。

なお、インパルス側蓄積部２２１ａ、インパルス側選択部２２２ａおよびインパルス側重み付け乗算部２２３ａは、インパルス側重み付き和算出部２２０ａを構成する。白色雑音側蓄積部２２１ｂ、白色雑音側選択部２２２ｂおよび白色雑音側重み付け乗算部２２３ｂは、白色雑音側重み付き和算出部２２０ｂを構成する。

加算部２２４は、それぞれインパルス側および白色雑音側で重み付け乗算されたサブバンド符号化波形ベクトルを加算する。このように、複数種類のサブバンド符号化波形ベクトルを、音源情報に基づき１つのサブバンド符号化波形ベクトルとして生成する。混合励振源を音源に用いる場合、音源情報に基づき、インパルス列と雑音源の混合比調整も同時に行なう。このように、音声合成装置２００は、音源波形の種類に応じて、サブバンド符号化した結果を音声合成時に計算し、事前蓄積した帯域サブバンド符号化波形ベクトルとを組み合わせて、音源となるサブバンド符号化波形ベクトルを生成する。

サブバンド復号部１４０は、生成されたサブバンド符号化波形ベクトルを、サブバンド符号化に伴うエイリアスを打ち消す構成で復号し、単一の音声波形に合成する。そして、生成されたサブバンド符号化波形ベクトルを最終的な合成音声波形に変換する。

これにより、スペクトル特性の合成のために各サブバンドの振幅係数を独立に変える構成においてもエイリアスに起因するノイズを防止するための設定や処理が不要となり、処理量を低減できる。また、成分分解に伴う処理の分、処理量が増加するが、サブバンド符号化した際にサブバンド符号化波形ベクトルに０となる要素を多く含むような音源波形を分解し、それらをサブバンド符号上で組み合わせて音声波形を構成することで、サブバンド符号上での重み付き和の計算処理において、実際の積和演算処理の多くを省くことができる。

（音声合成装置の動作例）
次に、音声合成装置２００の動作例を説明する。雑音素片は、成分分解部２０５における音源波形に対する帯域制限フィルタのタップ数と、サブバンド符号化部２１０におけるフィルタのタップ数の影響を考慮する必要がある。ランダムに選択した素片の足し合わせで雑音を構成する方法をとることもできるが、そのようにすると、足し合わせの数が増え、処理が複雑になる。

そこで、もっと単純な方法として、有限長の音源波形を繰り返し出力する方法により雑音源を構成するのが容易である。有限長の音源波形は、例えば、白色雑音を帯域制限フィルタに通した結果を周期のサンブル分だけ切り出したものである。その周期は充分に長ければ(例えば数千サンプル以上)であれば実質ランダムと見なせる。

この場合、例えばサブバンド数Ｄ、周期Ｌのとき、雑音素片ＩＤは（ｎ,ｉ）で表せる。ｎは、分割帯域番号であり、帯域制限フィルタＦａの添字に対応している。ｉは雑音素片ＩＤである。ｉを０から（Ｌ／Ｄ）−１まで順に変更して出力し、また０に戻る、という処理を行なう。

図８および図９は、音声合成装置２００の動作の一例を示すフローチャートである。なお、図中のＡ、Ｂは、図８と図９との流れを結ぶ点を示している。

まず、分割帯域番号ｎを０に設定する（ステップＴ１）。次に、入力データの有無を判定する（ステップＴ２）。入力データが無い場合には、処理を終了する。入力データがある場合には、入力データとして、基本周波数、混合重み、スペクトル特徴情報を取得する（ステップＴ３）。

入力された基本周波数からインパルスの位置を決定する（ステップＴ４）。各インパルスに対応するサブバンド符号化波形ベクトルを蓄積されたサブバンド符号化波形ベクトルから取得する（ステップＴ５）。なお、取得数はインパルスの数と同じ個数である。そして、インパルス側で取得したサブバンド符号化波形ベクトルに対して混合重みおよびスペクトル特徴情報を反映した重みを掛ける（ステップＴ６）。そして、インパルス側でそれらの和を計算する（ステップＴ７）。

一方、白色雑音のサブバンド符号化波形ベクトルであるｎの情報に基づき蓄積されたサブバンド符号化波形ベクトルから取得する（ステップＴ８）。そして、取得したサブバンド符号化波形ベクトルに対して、（１−混合重み係数）およびスペクトル特徴情報を反映した重みを掛ける（ステップＴ９）。そして、白色雑音側でそれらの和を計算する（ステップＴ１０）。

次に、分割帯域番号ｎをｎ＋１に設定する（ステップＴ１１）。分割帯域番号ｎがＬ／Ｎより小さいか否かを判定し（ステップＴ１２）、小さい場合には、ステップＴ１４に進む。分割帯域番号ｎがＬ／Ｄ以上である場合には、分割帯域番号ｎを０に設定する（ステップＴ１３）。

次に、混合励振源のサブバンド符号化波形ベクトルとして、インパルス側と白色雑側の重み付きサブバンド符号化波形ベクトルの和を計算する（ステップＴ１４）。そして、サブバンド合成処理を行ない（ステップＴ１５）、Ｄサンプルを出力して（ステップＴ１６）、ステップＴ２に戻る。このような処理により、処理量を削減し、十分な音声合成処理や混合励振が可能になる。

（処理量の低減）
サブバンド符号化および復号を行なう対象の周波数帯域と同じ幅で、音源波形を成分分解する例を上げて、本発明の処理量の低減を説明する。この例では、事前に成分分解しない方法に比べて、３／４程度の処理量で同等の周波数および時間の解像度を得られる。

折り返し雑音を防止するためには、ダウンサンプリングを通常のサブバンド符号化の半分に制限する方法を採用できる。この方法によれば、間引き率を最大間引きの半分に抑え、折り返し雑音が生じる周波数を挟んで隣接する片側のサブバンドとの間で等しい振幅調整係数を設定する。このようにして、折り返し雑音の影響を解消した音声合成を実現できる。これに対し、一方、本発明ではそのような考慮は不要である。

例えば、最終出力のサンプリングレートが１６ｋＨｚで、サブバンド符号化におけるサブバンド数が３２のとき、最大間引き条件でのサブバンド符号のサンプルレートは５００Ｈｚとなる。このサンプルレートは、通常、音声特徴を表す場合の時間解像度としては充分なものである。よって、時間解像度の観点からも最大間引きで問題なく、周波数解像度の低下も生じない。その結果、サブバンド符号復号部における出力サンプル当たりの乗算回数は、上記の折り返し雑音を防止するための方法を採用した場合と比較し、単純計算で約１／４以下にできる。

一方で、混合重みおよびスペクトル特徴情報から決まる振幅乗数は、サブバンド符号化波形ベクトルの全ての乗数に乗じる必要がある。例えば、音源波形の分割数Ｎが、サブバンド符号化におけるサブバンド数Ｄと等しい場合、この処理の乗算回数は、上記の方法における同様の処理に対してＮ（＝Ｄ）倍となる。

ただし、サブバンド符号化の際の帯域制限フィルタＥ（ｚ）の遮断域における振幅特性を０と見なせるときは、実際にはサブバンド符号化波形ベクトルのうち、帯域制限フィルタの通過域と対応するサブバンドは３個となり、この３つのサブバンドの要素以外の値は全て０となる。よって、この乗算処理の回数処理量はＮ倍ではなく、３倍に抑えることができる。このようにして、事前に成分分解しない方法と比較しても、処理量を抑えることができる。

なお、以上のような装置の動作は、装置内のコンピュータによりプログラムが実行されることで行なわれる。また、上記の実施形態では、出力目標音声のスペクトル特性を模擬するように、振幅調整された正弦波を合成し、特定のサブバンドにおいて振幅調整されたサブバンド分割音源波形ベクトルおよび正弦波が合成された正弦波合成成分を組み合わせて１つのサブバンド分割波形ベクトルを生成してもよい。その場合には、生成されたサブバンド分割波形ベクトルおよび振幅調整がなされたサブバンド分割音源波形ベクトルをそれぞれ単一の音声波形に合成できる。

１００音声合成装置
１１０サブバンド符号化部
１２０サブバンド符号化音源生成部
１２１蓄積部
１２２選択部
１３０サブバンドパワー調整部
１４０サブバンド復号部
２００音声合成装置
２０５成分分解部
２０６ａインパルス側分解部
２０６ｂ白色雑音側分解部
２１０サブバンド符号化部
２１１ａインパルス側符号化部
２１１ｂ白色雑音側符号化部
２２０重み付き和算出部
２２０ａインパルス側重み付き和算出部
２２０ｂ白色雑音側重み付き和算出部
２２１ａインパルス側蓄積部
２２１ｂ白色雑音側蓄積部
２２２ａインパルス側選択部
２２２ｂ白色雑音側選択部
２２３ａインパルス側重み付け乗算部
２２３ｂ白色雑音側重み付け乗算部
２２４加算部

Claims

入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成装置であって、
音源波形を複数の周波数帯域の成分に分解する成分分解部と、
前記分解された成分をそれぞれサブバンド符号化するサブバンド符号化部と、
前記サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、前記分解成分について重み付き和を算出する重み付き和算出部と、
前記重み付き和を算出されたサブバンド符号化波形ベクトルを復号し、単一の音声波形に合成するサブバンド復号部と、を備えることを特徴とする音声合成装置。
前記成分分解部は、帯域通過フィルタの集合で構成され、前記分解された成分の和により前記音源波形を近似的に再現できるように前記音源波形を成分分解することを特徴とする請求項１記載の音声合成装置。
前記成分分解部は、前記音源波形として、インパルス列および白色雑音の２種類の音源波形を用い、
前記重み付き和算出部は、入力されたスペクトル特性情報に基づくインパルス列と白色雑音との混合比で、前記２種類の音源波形に基づくサブバンド符号化波形ベクトルの重み付き和を求めることを特徴とする請求項１または請求項２記載の音声合成装置。
前記成分分解部は、前記サブバンド符号化および復号を行なう対象の周波数帯域と同じ幅で、前記音源波形を成分分解することを特徴とする請求項１から請求項３のいずれかに記載の音声合成装置。
入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成方法であって、
音源波形を複数の周波数帯域の成分に分解するステップと、
前記分解された成分をそれぞれサブバンド符号化するステップと、
前記サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、前記分解成分について重み付き和を算出するステップと、
前記重み付き和を算出されたサブバンド符号化波形ベクトルを復号し、単一の音声波形に合成するステップと、を含むことを特徴とする音声合成方法。
入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成プログラムであって、
音源波形を複数の周波数帯域の成分に分解する処理と、
前記分解された成分をそれぞれサブバンド符号化する処理と、
前記サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、前記分解成分について重み付き和を算出する処理と、
前記重み付き和を算出されたサブバンド符号化波形ベクトルを復号し、単一の音声波形に合成する処理と、をコンピュータに実行させることを特徴とする音声合成プログラム。