JP2012048154A

JP2012048154A - 音声合成装置、音声合成方法およびプログラム

Info

Publication number: JP2012048154A
Application number: JP2010192656A
Authority: JP
Inventors: Masanori Tamura; 正統田村; Shinko Morita; 眞弘森田; Takehiko Kagoshima; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-08-30
Filing date: 2010-08-30
Publication date: 2012-03-08
Anticipated expiration: 2030-08-30
Also published as: US20120053933A1; JP5085700B2; US9058807B2

Abstract

【課題】高速に音声波形を生成する。
【解決手段】第１記憶部は、ｎ個の帯域通過フィルタを雑音信号に適用したｎ個の帯域雑音信号を記憶する。第２記憶部は、ｎ個の帯域通過フィルタをパルス信号に適用したｎ個の帯域パルス信号を記憶する。パラメータ入力部は、基本周波数、ｎ個の帯域雑音強度およびスペクトルパラメータを入力する。切出部は、ピッチマークごとにｎ個の帯域雑音信号をシフトしながら切り出す。振幅制御部は、切り出した帯域雑音信号の振幅と帯域パルス信号の振幅とを帯域雑音強度に応じて変更する。生成部は、ｎ個の帯域雑音信号とｎ個の帯域パルス信号とを加算した混合音源信号を生成する。重畳部は、ピッチマークに基づいて生成された混合音源信号を重畳する。声道フィルタ部は、重畳された混合音源信号にスペクトルパラメータを用いた声道フィルタを適用して音声波形を生成する。
【選択図】図１

Description

本発明の実施形態は、音声合成装置、音声合成方法およびプログラムに関する。

音声の特徴パラメータから音声波形を生成する装置を音声合成装置という。音声合成装置の１つとして、ソースフィルタ型の音声合成装置が用いられている。ソースフィルタ型の音声合成装置は、声帯振動による音源成分を表すパルス音源や空気の乱流などによる音源を表す雑音音源から生成した音源信号（励振源信号）を入力し、声道特性などを表すスペクトル包絡のパラメータによってフィルタリングを行うことによって音声波形を生成する。音源信号は、単純には、有声音区間には基本周波数系列から得られるピッチ情報に従って作成するパルス信号を用い、無声音区間にはガウスノイズ信号を用い、これらを切り替えることによって作成することができる。また、声道フィルタとしては、スペクトル包絡パラメータとして線形予測係数を利用した場合の全極フィルタをはじめ、ＰＡＲＣＯＲ係数のための格子形フィルタ、ＬＳＰパラメータのためのＬＳＰ合成フィルタ、および、ケプストラムパラメータのためのＬＭＡフィルタ（対数振幅近似フィルタ）などが用いられる。また、声道フィルタとして、非直線周波数に対応した、メルＬＰＣのためのメル全極フィルタ、メルケプストラムのためのＭＬＳＡフィルタ（メル対数スペクトル近似フィルタ）、および、メル一般化ケプストラムのためのＭＧＬＳＡフィルタ（メル一般化対数スペクトル近似フィルタ）なども用いられる。

このようなソースフィルタ型音声合成装置に用いる音源信号は、上述したようなパルス音源と雑音音源の切り替えによって作成することができる。しかし、単純にパルスと雑音を切り替えた場合、例えば有声摩擦音など、高い周波数領域は雑音的な信号、低い周波数領域は周期的な信号になるような、雑音成分と周期成分が混合された信号に用いた場合、バジー感が生じて不自然な音質になる。

この問題に対応するため、ＭＥＬＰ（混合励振線形予測）など、ある周波数より高い帯域は雑音音源とし、低い帯域はパルス音源として切り替えることにより生じるバズ（ｂｕｚｚ）音またはブザー的な音による劣化を防ぐ技術が提案されている。また、より適切に混合音源を作成するために、信号をサブバンドに帯域分割し、サブバンドごとに雑音音源とパルス音源を混合比に従って混合する技術も用いられている。

特許第３２９２７１１号公報

ＨｅｉｇａＺｅｎａｎｄＴｏｍｏｋｉＴｏｄａ，"ＡｎＯｖｅｒｖｉｅｗｏｆＮｉｔｅｃｈＨＭＭ−ｂａｓｅｄＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓＳｙｓｔｅｍｆｏｒＢｌｉｚｚａｒｄＣｈａｌｌｅｎｇｅ２００５，" Ｐｒｏｃ．ｏｆＩｎｔｅｒｓｐｅｅｃｈ２００５（Ｅｕｒｏｓｐｅｅｃｈ），ｐｐ．９３−９６，Ｌｉｓｂｏｎ，Ｓｅｐｔ．２００５．

しかしながら、従来技術では、再生音声の生成時に雑音信号およびパルス信号に帯域通過フィルタを適用するため、高速に波形生成することができないという問題があった。

実施形態の音声合成装置は、第１記憶部と、第２記憶部と、パラメータ入力部と、切出部と、振幅制御部と、生成部と、重畳部と、声道フィルタ部とを備える。第１記憶部は、ｎ個の帯域通過フィルタを雑音信号に適用したｎ個の帯域雑音信号を記憶する。第２記憶部は、ｎ個の帯域通過フィルタをパルス信号に適用したｎ個の帯域パルス信号を記憶する。パラメータ入力部は、基本周波数、ｎ個の帯域雑音強度およびスペクトルパラメータを入力する。切出部は、ピッチマークごとにｎ個の帯域雑音信号をシフトしながら切り出す。振幅制御部は、切り出した帯域雑音信号の振幅と帯域パルス信号の振幅とを帯域雑音強度に応じて変更する。生成部は、ｎ個の帯域雑音信号とｎ個の帯域パルス信号とを加算した混合音源信号を生成する。重畳部は、ピッチマークに基づいて生成された混合音源信号を重畳する。声道フィルタ部は、重畳された混合音源信号にスペクトルパラメータを用いた声道フィルタを適用して音声波形を生成する。

第１の実施形態にかかる音声合成装置のブロック図。音源信号生成部のブロック図。音声波形の例を示す図。入力するパラメータの一例を示す図。帯域通過フィルタの仕様の一例を示す図。雑音信号と、雑音信号から作成される帯域雑音信号の一例を示す図。パルス信号から作成される帯域パルス信号の一例を示す図。音声波形の例を示す図。基本周波数系列、ピッチマーク、および帯域雑音強度系列の一例を示す図。混合音源作成部の処理の詳細を示す図。重畳部によって作成された混合音源信号の例を示す図。音声波形の一例を示す図。第１の実施形態における音声合成処理の全体の流れを示すフローチャート。合成音声のスペクトログラムを示す図。声道フィルタ部のブロック図。メルＬＰＣフィルタ部の回路図。第２の実施形態にかかる音声合成装置のブロック図。スペクトル算出部のブロック図。音声波形を音声分析部が分析する例を示す図。フレーム位置を中心として分析したスペクトルの一例を表す図。３９次のメルＬＳＰパラメータの一例を示す図。音声波形と、当該音声波形の周期成分および雑音成分を表す図。音声波形を音声分析部が分析する例を示す図。雑音成分指標の一例を示す図。帯域雑音強度の一例を示す図。後処理の具体例を説明するための図。境界周波数からより得られた帯域雑音強度を示す図。第２の実施形態におけるスペクトルパラメータ算出処理の全体の流れを示すフローチャート。第２の実施形態における帯域雑音強度算出処理の全体の流れを示すフローチャート。第３の実施形態にかかる音声合成装置のブロック図。ｌｅｆｔ−ｒｉｇｈｔ型ＨＭＭの一例を示す図。決定木の一例を示す図。音声パラメータ生成処理を説明するための図。第３の実施形態における音声合成処理の全体の流れを示すフローチャート。第１〜第３の実施形態にかかる音声合成装置のハードウェア構成図。

以下に添付図面を参照して、この発明にかかる音声合成装置の好適な実施形態を詳細に説明する。

（第１の実施形態）
第１の実施形態にかかる音声合成装置は、予め帯域通過フィルタを適用したパルス信号（帯域パルス信号）および雑音信号（帯域雑音信号）を記憶し、帯域雑音信号から巡回シフトまたは往復シフトさせながら切り出した帯域雑音信号を用いてソースフィルタモデルの音源信号を生成することにより、高速に音声波形を生成する。

図１は、第１の実施形態にかかる音声合成装置１００の構成の一例を示すブロック図である。音声合成装置１００は、合成する音声の基本周波数系列、帯域雑音強度系列、およびスペクトルパラメータ系列からなる音声パラメータ列を入力して音声波形を生成するソースフィルタ型の音声合成装置である。

図１に示すように、音声合成装置１００は、第１パラメータ入力部１１と、音源信号を生成する音源信号生成部１２と、声道フィルタを適用する声道フィルタ部１３と、音声波形を出力する波形出力部１４と、を備えている。

第１パラメータ入力部１１は、音声波形を生成するための特徴パラメータを入力する。第１パラメータ入力部１１は、基本周波数または基本周期の情報を表す系列（以降基本周波数系列と記載する）とスペクトルパラメータの系列とを少なくとも含む特徴パラメータの系列を入力する。

基本周波数系列としては、有声音のフレームにおける基本周波数の値と、無声音のフレームは０に固定するなど予め定めた無声音フレームであることを示す値との系列を用いる。有声音のフレームでは、周期信号のフレームごとのピッチ周期、基本周波数（Ｆ_０）、または対数Ｆ_０などの値が記録されている。本実施形態では、フレームとは、音声信号の区間を示す。固定のフレームレートによって分析する場合、例えば５ｍｓごとに特徴パラメータを持つことになる。

スペクトルパラメータは、音声のスペクトル情報をパラメータとして表現したものである。基本周波数系列と同様に、固定のフレームレートで分析した場合、例えば５ｍｓごとの区間に対応するパラメータ系列を蓄積している。スペクトルパラメータとしては様々なパラメータを用いることができるが、本実施形態では、一例として、メルＬＳＰをパラメータとして利用する場合について記述する。この場合、１つのフレームに対応するスペクトルパラメータは、１次元のゲイン成分を表す項と、ｐ次元の線スペクトル周波数とから構成される。ソースフィルタ型音声合成は、これら基本周波数系列および、スペクトルパラメータ系列を入力して音声を生成する。

本実施形態では、第１パラメータ入力部１１は、さらに帯域雑音強度系列を入力する。帯域雑音強度系列とは、フレームごとの帯域雑音強度の系列である。帯域雑音強度とは、各フレームのスペクトル中の所定の周波数帯域における雑音成分の強さを、該当する帯域のスペクトル全体に対する比率として表す情報である。帯域雑音強度は、比率の値、または、比率の値をデシベルに変換した値などにより表わされる。第１パラメータ入力部１１は、このように基本周波数系列、スペクトルパラメータ系列、および帯域雑音強度系列を入力する。

音源信号生成部１２は、入力された基本周波数系列および帯域雑音強度系列から音源信号を生成する。図２は、音源信号生成部１２の構成例を示すブロック図である。図２に示すように、音源信号生成部１２は、第１記憶部２２１と、第２記憶部２２２と、第３記憶部２２３と、第２パラメータ入力部２０１と、判断部２０２と、ピッチマーク作成部２０３と、混合音源作成部２０４と、重畳部２０５と、雑音音源作成部２０６と、接続部２０７と、を備えている。

第１記憶部２２１は、雑音信号に対して、所定のｎ個（ｎは２以上の整数）の通過帯域の周波数帯域をそれぞれ通過させるｎ個の帯域通過フィルタを適用して得られるｎ個の雑音信号を表す帯域雑音信号を記憶する。第２記憶部２２２は、パルス信号に対して、上記ｎ個の帯域通過フィルタを適用して得られるｎ個のパルス信号を表す帯域パルス信号を記憶する。第３記憶部２２３は、無声音源作成のための雑音信号を記憶する。以下では、ｎ＝５、すなわち、５つに分割した通過帯域の帯域通過フィルタにより得られる５つの帯域雑音信号および帯域パルス信号を用いる例を説明する。

なお、第１記憶部２２１、第２記憶部２２２、および第３記憶部２２３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、光ディスク、メモリカード、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

第２パラメータ入力部２０１は、基本周波数系列と、帯域雑音強度系列とを入力する。判断部２０２は、基本周波数系列の着目しているフレームが無声音のフレームか否かを判断する。例えば、判断部２０２は、基本周波数系列中で無声音フレームの値を０としている場合は、当該フレームの値が０か否かを判定することによって、無声音のフレームか否かを判断する。

ピッチマーク作成部２０３は、フレームが有声音の場合に、ピッチマーク列を作成する。ピッチマーク列は、ピッチパルスを配置する時刻の列を表す情報である。ピッチマーク作成部２０３は、基準時刻を定め、当該基準時刻におけるピッチ周期を基本周波数系列内の該当するフレームの値から計算し、該ピッチ周期の長さ分進めた時刻にマークを付与する処理を繰り返すことにより、ピッチマークを作成する。ピッチマーク作成部２０３は、基本周波数の逆数を求めることによりピッチ周期を計算する。

混合音源作成部２０４は、混合音源信号を作成する。本実施形態では、混合音源作成部２０４は、帯域雑音信号および帯域パルス信号の波形重畳によって混合音源信号を作成する。混合音源作成部２０４は、切出部３０１と、振幅制御部３０２と、生成部３０３とを備えている。

切出部３０１は、合成する音声のピッチマークごとに、第１記憶部２２１に記憶されたｎ個の帯域雑音信号のそれぞれをシフトしながら切り出す。第１記憶部２２１に記憶されている帯域雑音信号は有限長であるため、帯域雑音を切り出す際には、有限な帯域雑音信号を繰り返し利用する必要がある。シフトとは、ある時点で利用した帯域雑音信号サンプルの隣のサンプルを次の時点において利用する、帯域雑音信号からサンプル点の決定方法であり、例えば巡回シフト、もしくは往復シフトによって実現できる。このため、切出部３０１は、例えば巡回シフトまたは往復シフトによって有限な長さの帯域雑音信号から任意の長さの音源信号を切り出す。巡回シフトとは、予め用意されている帯域雑音信号を先頭から順に用い、終端まで到達した場合に、先頭を終端の後続点とみなして、再度先頭から順に利用していくシフト方法である。往復シフトとは、終端まで到達した場合に逆方向に先頭に向かって順に利用し、先頭まで到達したら再度終端に向かって順に利用していくシフト方法である。

振幅制御部３０２は、ｎ個の帯域ごとに、切り出した帯域雑音信号の振幅と、第２記憶部２２２に記憶された帯域パルス信号の振幅とを、入力された帯域雑音強度系列に応じて変更する振幅制御を行う。生成部３０３は、振幅制御したｎ個の帯域雑音信号およびｎ個の帯域パルス信号を加算したピッチマークごとの混合音源信号を生成する。

重畳部２０５は、生成部３０３により得られた混合音源信号を、ピッチマークに従って重畳合成することにより、有声音の音源である混合音源信号を作成する。

雑音音源作成部２０６は、判断部２０２で無声音と判断された場合に、第３記憶部２２３に記憶されている雑音信号を利用して雑音音源信号を作成する。

接続部２０７は、重畳部２０５により得られた有声音区間に対応する混合音源信号と、雑音音源作成部２０６により得られた無声音区間に対応する雑音音源信号とを接続する。

図１に戻り、声道フィルタ部１３は、接続部２０７により得られた音源信号と、スペクトルパラメータ系列から音声波形を生成する。メルＬＳＰパラメータを用いた場合、例えば声道フィルタ部１３は、メルＬＳＰからメルＬＰＣに変換し、メルＬＰＣフィルタを利用してフィルタリングを行うことにより、音声波形を生成する。声道フィルタ部１３が、メルＬＳＰをメルＬＰＣに変換せず、メルＬＳＰから直接波形生成するフィルタを適用することにより音声波形を生成するように構成してもよい。また、スペクトルパラメータはメルＬＳＰに限定するものではなく、ケプストラム、メルケプストラム、線形予測係数等、およびスペクトル包絡をパラメータとして表し、声道フィルタとして波形生成できるスペクトルパラメータであればよい。メルＬＳＰ以外のスペクトルパラメータを用いる場合も、声道フィルタ部１３は、それぞれのパラメータに対応した声道フィルタを適用することにより波形生成を行う。波形出力部１４は、得られた音声波形を出力する。

以下、このように構成された音声合成装置１００により音声合成の具体例を説明する。図３は、以下の説明に用いる音声波形の例を示す図である。図３は、「ＡｆｔｅｒｔｈｅＴ−Ｊｕｎｃｔｉｏｎ，ｔｕｒｎｒｉｇｈｔ．」という音声の音声波形の例である。以下、図３の音声波形を利用し、分析した音声パラメータから波形生成を行う例を示す。

図４は、第１パラメータ入力部１１で入力する、スペクトルパラメータ系列（メルＬＳＰパラメータ）、基本周波数系列、および帯域雑音強度系列の一例を示す図である。ＬＳＰパラメータは、線形予測分析の結果から変換したパラメータであり、周波数の値として表される。メルＬＳＰパラメータは、メル周波数スケール上で求めたＬＳＰパラメータであり、メルＬＰＣパラメータから変換して作成される。図４のメルＬＳＰパラメータは、音声のスペクトログラム上にメルＬＳＰパラメータをプロットしたものである。無音区間や雑音的な区間ではノイズ的な変化になり、有声音の区間ではフォルマント周波数の変化に近い動きをしている。メルＬＳＰパラメータは、ゲイン項と、図４の例では１６次のパラメータとで表されており、ゲイン成分を同時に示している。

基本周波数系列は、図４の例ではＨｚ単位で表されている。基本周波数系列は、無声音の区間は０とし、有声音の区間はその基本周波数の値を保持している。

帯域雑音強度系列は、図４の例では、５つの帯域に分割したそれぞれの帯域（ｂａｎｄ１〜ｂａｎｄ５）の雑音成分の強さを、スペクトルに対する割合で示したパラメータであり、０から１の間の値になる。無声音の区間は全帯域雑音成分であるとみなすため、帯域雑音強度の値は１となる。有声音の区間では、帯域雑音強度は１未満の値を持つ。一般的に高い帯域で雑音成分は強くなる。また、有声摩擦音の高域成分では、帯域雑音強度は１に近い高い値になる。なお、基本周波数系列は対数基本周波数としてもよく、帯域雑音強度はデシベル単位で保持してもよい。

上述のように、第１記憶部２２１は、帯域雑音強度系列のパラメータに対応した帯域雑音信号を記憶している。帯域雑音信号は、雑音信号に帯域通過フィルタを適用することにより作成される。図５は、帯域通過フィルタの仕様の一例を示す図である。図５は、ＢＰＦ１からＢＰＦ５の５つのフィルタの周波数に対する振幅を表している。図５の例では、１６ｋＨｚサンプリングの音声信号を用いて、１ｋＨｚ、２ｋＨｚ、４ｋＨｚ、および６ｋＨｚを境界とし、境界間の中心周波数を中心とした以下の（１）式で表されるハニング窓関数により形状を作成している。

このように定めた周波数特性から、帯域通過フィルタを作成し、雑音信号に適用することで帯域雑音信号および帯域パルス信号が作成される。図６は、第３記憶部２２３に記憶される雑音信号と、この雑音信号から作成され第１記憶部２２１に記憶される帯域雑音信号の一例を示す図である。図７は、パルス信号から作成され第２記憶部２２２に記憶される帯域パルス信号の一例を示す図である。

図６は、６４ｍｓ（１０２４点）の雑音信号に対し、図５に示す振幅特性の帯域通過フィルタＢＰＦ１からＢＰＦ５を適用し、帯域雑音信号ＢＮ１からＢＮ５が作成される例を示している。図７は、同様の手順により、パルス信号Ｐに対し、ＢＰＦ１からＢＰＦ５を適用し、帯域パルス信号ＢＰ１からＢＰ５が作成される例を示している。図７では、３．１２５ｍｓ（５０点）の長さの信号を作成している。

図６および図７のＢＰＦ１からＢＰＦ５は、図５の周波数特性から作成されるフィルタである。ＢＰＦ１からＢＰＦ５は、各振幅特性に対し零位相として逆ＦＦＴし、端にハニング窓をかけることによって作成している。帯域雑音信号は、このように得られたフィルタを用いて畳み込み演算により作成される。なお、図６に示すように、第３記憶部２２３は帯域通過フィルタを適用する前の雑音信号Ｎを記憶している。

図８〜図１２は、図１に示す音声合成装置１００の動作例を説明するための図である。音源信号生成部１２の第２パラメータ入力部２０１は、上述した基本周波数系列および帯域雑音強度系列を入力する。判断部２０２は、処理対象のフレームの基本周波数系列の値が０であるか否かを判断する。値が０以外の場合、すなわち、有声音の場合は、ピッチマーク作成部２０３へ処理が進む。

ピッチマーク作成部２０３は、基本周波数系列からピッチマーク系列を作成する。図８は、例として用いる音声波形を示している。この音声波形は、図４に示した基本周波数系列の１．８秒付近から１．９５秒付近（Ｔ−ｊｕｎｃｔｉｏｎの“ｊｕ”付近）を拡大した波形である。

図９は、図８の音声波形（音声信号）に対応する基本周波数系列、ピッチマーク、および帯域雑音共同系列の一例を示す図である。図９の上部のグラフが、図８の音声波形の基本周波数系列を表す。ピッチマーク作成部２０３は、この基本周波数系列から開始点を設定し、現在の位置での基本周波数からピッチ周期を求め、該ピッチ周期を加えた時刻を次のピッチマークとする処理を繰り返すことにより図９の中央部に示すようなピッチマークを作成する。

混合音源作成部２０４は、ピッチマーク列と、帯域雑音強度系列とから各ピッチマークでの混合音源信号を作成する。図９の下部の２つのグラフは、１．８５秒付近および、１．９１秒付近のピッチマークでの帯域雑音強度の例を示している。このグラフの横軸は周波数であり、縦軸は強度（０から１の値）である。２つのグラフのうち左側のグラフは、「ｊ」の音素に対応しており、有声摩擦音区間なので、高域は雑音成分が強くなり１．０付近になっている。２つのグラフのうち右側のグラフは、有声音である「ｕ」の音素に対応しており、低域は０に近く、高域でも０．５程度になっている。これら各ピッチマークに対応した帯域雑音強度は、各ピッチマークに隣接したフレームの帯域雑音強度から線形補間することにより作成することができる。

図１０は、混合音源信号を作成する混合音源作成部２０４の処理の詳細を示す図である。まず、切出部３０１が、第１記憶部２２１に記憶された各帯域の帯域雑音信号に対して、ピッチの２倍の長さのハニング窓（ＨＡＮ）をかけることにより帯域雑音信号を切り出す。切出部３０１は、巡回シフトを用いる場合は、以下の（２）式により帯域雑音信号ｂｎ^ｂ _ｐ（ｔ）を切り出す。

ここで、ｂｎ^ｂ _ｐ（ｔ）は、時刻ｔ、帯域ｂ、ピッチマークｐにおける帯域雑音信号を表す。ｂａｎｄｎｏｉｓｅ^ｂは、第１記憶部２２１に記憶されている帯域ｂの帯域雑音信号を表す。Ｂ^ｂは、ｂａｎｄｎｏｉｓｅ^ｂの長さを表す。％は剰余演算子を表す。ｐｉｔは、ピッチを表す。ｐｍは、ピッチマーク時刻を表す。“０．５−０．５ｃｏｓ（ｔ）”は、ハニング窓の式を表している。

振幅制御部３０２は、（２）式により切り出された各帯域の帯域雑音信号に対して、各帯域の帯域雑音強度ＢＡＰ（ｂ）を乗じて、ＢＮ０からＢＮ４の帯域雑音信号を作成する。振幅制御部３０２は、第２記憶部２２２に記憶されている帯域パルス信号に（１．０−ＢＡＰ（ｂ））を乗じることにより、ＢＰ０からＢＰ４の帯域パルス信号を作成する。振幅制御部３０２は、各帯域の帯域雑音信号（ＢＮ０〜ＢＮ４）および帯域パルス信号（ＢＰ０からＢＰ４）を、中心位置を揃えて加算することにより、混合音源信号ＭＥを作成する。

すなわち、振幅制御部３０２は、以下の（３）式により混合音源信号ｍｅ_ｐ（ｔ）を作成する。ここで、ｂａｎｄｐｕｌｓｅ^ｂ（ｔ）は、帯域ｂのパルス信号を表しており、ｂａｎｄｐｕｌｓｅ^ｂ（ｔ）は中心が時刻０となるように作成されているものとしている。

以上の処理により、各ピッチマークにおける混合音源信号が作成される。なお、巡回シフトではなく往復シフトを用いる場合は、式（２）におけるｔ％Ｂ^ｂの部分が、時刻０においてｔ＝０とし、続いてｔ＝ｔ＋１として順に移動し、ｔ＝Ｂ^ｂとなった時点から、ｔ＝ｔ−１として移動し、再度ｔ＝０となった時点からｔ＝ｔ＋１として移動していくことを繰り返すように変更される。すなわち、巡回シフトの場合は、帯域雑音信号を始点から順にシフトして終点に達した次時刻で始点にシフトすることを繰り返す。往復シフトの場合は、終点に達した次時刻で逆方向にシフトすることを繰り返す。

次に重畳部２０５が、ピッチマーク作成部２０３によって作成されたピッチマークに従って、作成された混合音源信号を重畳し、区間全体の混合音源信号を作成する。図１１は、重畳部２０５によって作成された混合音源信号の例を示す図である。図１１に示すように、これまでの処理により、有声摩擦音区間では雑音信号が強くなり、母音区間ではパルス信号の強い適切な混合音源信号が生成されていることがわかる。

上述した処理は有声音区間に対する処理であり、無声音区間では、第３記憶部２２３に記憶されている雑音信号から合成する無声音区間または無音区間の雑音音源信号が作成される。例えば記憶された雑音信号をコピーすることにより、無声音区間の雑音音源信号が作成される。

接続部２０７は、このように作成された有声音区間における混合音源信号と、無声音または無音区間の雑音音源信号を接続し、文全体の音源信号を作成する。なお、（３）式では帯域雑音強度のみをかけているが、さらに振幅を制御する値をかけてもよい。例えばピッチによって定まる音源信号のスペクトルの振幅を１とするような値をかけることで、適切な音源信号が作成される。

次に、声道フィルタ部１３が、接続部２０７に得られた音源信号にスペクトルパラメータ（メルＬＳＰパラメータ）による声道フィルタを適用し、音声波形を生成する。図１２は、得られた音声波形の一例を示す図である。

次に、第１の実施形態にかかる音声合成装置１００による音声合成処理について図１３を用いて説明する。図１３は、第１の実施形態における音声合成処理の全体の流れを示すフローチャートである。

図１３は、第１パラメータ入力部１１により基本周波数系列、スペクトルパラメータ系列および帯域雑音強度系列が入力された後に開始され、音声フレーム単位で処理される。

まず、判断部２０２が、処理対象のフレームが有声音か否かを判断する（ステップＳ１０１）。有声音の場合（ステップＳ１０１：Ｙｅｓ）、ピッチマーク作成部２０３が、ピッチマーク列を作成する（ステップＳ１０２）。この後、ピッチマーク単位でステップＳ１０３〜ステップＳ１０８の処理がループして実行される。

まず、混合音源作成部２０４は、入力された帯域雑音強度系列から各ピッチマークにおける各帯域の帯域雑音強度を算出する（ステップＳ１０３）。この後、帯域ごとにステップＳ１０４およびステップＳ１０５の処理がループして実行される。すなわち、切出部３０１が、現在処理している帯域の帯域雑音信号を、第１記憶部２２１に記憶された対応する帯域の帯域雑音信号から切り出す（ステップＳ１０４）。また、混合音源作成部２０４は、現在処理している帯域の帯域パルス信号を、第２記憶部２２２から読み出す（ステップＳ１０５）。

混合音源作成部２０４は、すべての帯域を処理したか否かを判断し（ステップＳ１０６）、処理していない場合（ステップＳ１０６：Ｎｏ）、ステップＳ１０４に戻り次の帯域に対して処理を繰り返す。すべての帯域を処理した場合（ステップＳ１０６：Ｙｅｓ）、生成部３０３が、各帯域に対して得られた帯域雑音信号および帯域パルス信号を加算し、全帯域の混合音源信号を作成する（ステップＳ１０７）。次に、重畳部２０５が、得られた混合音源信号を重畳する（ステップＳ１０８）。

次に、混合音源作成部２０４は、すべてのピッチマークを処理したか否かを判断し（ステップＳ１０９）、処理していない場合（ステップＳ１０９：Ｎｏ）、ステップＳ１０３に戻り次のピッチマークに対して処理を繰り返す。

ステップＳ１０１で、有声音でないと判断された場合（ステップＳ１０１：Ｎｏ）、雑音音源作成部２０６が、第３記憶部２２３に記憶されている雑音信号を用いて無声音の音源信号（雑音音源信号）を作成する（ステップＳ１１０）。

ステップＳ１１０で雑音音源信号生成後、または、ステップＳ１０９すべてのピッチマークを処理したと判断された場合（ステップＳ１０９：Ｙｅｓ）、接続部２０７が、ステップＳ１０９で得られた有声音の混合音源信号と、ステップＳ１１０で得られた無声音の雑音音源信号とを接続して、文全体の音源信号を作成する（ステップＳ１１１）。

音源信号生成部１２は、すべてのフレームを処理したか否かを判断し（ステップＳ１１２）、処理していない場合（ステップＳ１１２：Ｎｏ）、ステップＳ１０１に戻り処理を繰り返す。すべてのフレームを処理した場合（ステップＳ１１２：Ｙｅｓ）、声道フィルタ部１３が、文全体の音源信号に声道フィルタを適用することで合成音声を作成する（ステップＳ１１３）。次に、波形出力部１４が合成音声の波形を出力し（ステップＳ１１４）、音声合成処理を終了する。

なお、音声合成処理の順序は図１３に限定するものではなく適宣変更してもよい。例えば、音源の作成と声道フィルタとをフレームごとに同時に行ってもよい。また、文全体のピッチマークを作成してから、音声フレームのループを行ってもよい。

上述した手順で混合音源信号を作成することにより、波形生成時に帯域通過フィルタを適用する必要がなくなるため、従来法より高速に波形生成を行うことができる。例えば、有声音部分の１点あたりの音源作成のための計算量（積の回数）は、Ｂ（帯域数）×３（パルス信号と雑音信号の強度制御と、窓かけ）×２（重畳合成）のみである。従って、例えば５０タップのフィルタリングを行いつつ波形生成する場合（Ｂ×５３×２）と比べると、計算量は大幅に小さく抑えられる。

なお、上述した処理では、ピッチマークごとの混合音源波形（混合音源信号）生成とその重畳により文全体の混合音源信号を作成しているが、これに限定するものではない。例えば、ピッチマークごとの帯域雑音強度を、入力された帯域雑音強度を補間して算出し、第１記憶部２２１に記憶されている帯域雑音信号に、算出された帯域雑音強度を掛けることによりピッチマークごとの混合音源信号を順に作成し、帯域パルス信号のみピッチマーク位置に重畳合成する方法などによっても、文全体の混合音源信号を作成することができる。

上述したように、第１の実施形態の音声合成装置１００では、帯域雑音信号を予め作成しておくことにより処理の高速化を行っている。しかし、雑音音源に用いる白色雑音信号は周期性を持たないことが特徴である。従って、予め作成した雑音信号を記憶しておく方法では、雑音信号の長さによる周期性が生じる。例えば、巡回シフトを用いた場合には、バッファの長さの周期の周期性が生じ、往復シフトを用いた場合にはバッファの長さの２倍の周期の周期性が生じる。この周期性は、帯域雑音信号の長さが周期性を知覚する範囲を超える場合には知覚されず、問題は生じない。しかし、周期性を知覚する範囲の長さしか帯域雑音信号を用意していない場合には、不自然なブザー音や不自然な周期音が生じ、合成音声の音質劣化の原因となる。ただし、帯域雑音信号は短いほど記憶領域の利用量が減少するために、メモリ量の観点では短い方が望ましい。

そこで、第１記憶部２２１が、音質劣化しない最小の長さとして予め定められた規定長以上の長さの帯域雑音信号を記憶するように構成してもよい。規定長は例えば以下のように定めることができる。図１４は、帯域雑音信号の長さを変更した場合の合成音声のスペクトログラムを示す図である。図１４は、上から帯域雑音信号の長さを２ｍｓ、４ｍｓ、５ｍｓ、８ｍｓ、１６ｍｓ、および１ｓに変更したときの“Ｈｅｄａｎｃｅｄａｊｉｇｔｈｅｒｅａｎｄｔｈｅｎｏｎａｒｕｓｈｔｈａｔｃｈ．”という文を合成した場合のスペクトログラムを示している。

２ｍｓのスペクトルでは、無声音の部分「ｃ、ｊ、ｓｈ、ｃｈ」の音素付近などで横縞が観察される。これは、周期性が生じ、ブザー的な音になっている場合に現れるスペクトルである。この場合は、通常の合成音声として利用できる音質は得られない。帯域雑音信号を長くするほど横方向の縞模様は減少し、１６ｍｓおよび１ｓ程度の長さとした場合にはほとんど横方向の縞模様は観察されなくなる。これらのスペクトルを比較すると、５ｍｓより短い場合は、横方向の縞模様が明確に現れている。例えば、４ｍｓの“ｓｈ”付近のスペクトルの領域１４０１では、黒の横線が明確に現れているのに対し、５ｍｓの対応する領域１４０２では、縞模様は不明瞭になっている。このことから、５ｍｓより短い帯域雑音信号長では、メモリサイズは少なくなるものの利用可能ではないことがわかる。

以上から、規定長を５ｍｓとし、第１記憶部２２１が、５ｍｓ以上の長さの帯域雑音信号を記憶するように構成してもよい。これにより高品質な合成音声が得られることになる。このように第１記憶部２２１に含まれる帯域雑音信号を短くする場合には、高域の信号ほど周期性は短くなり、また振幅も小さくなる傾向がある。このため、低域ほど長くし、高域ほど短くしてもかまわない。また、例えば低域成分のみ規定長（例えば５ｍｓ）以上に限定し、高域成分は規定長より短くしてもかまわない。これにより、さらに効率よく帯域雑音を記憶することができ、かつ高品質な合成音声が得られる。

次に、声道フィルタ部１３の詳細について説明する。図１５は、声道フィルタ部１３の構成例を示すブロック図である。図１５に示すように、声道フィルタ部１３は、メルＬＳＰメルＬＰＣ変換部１１１と、メルＬＰＣパラメータ変換部１１２と、メルＬＰＣフィルタ部１１３とを備えている。

声道フィルタ部１３は、スペクトルパラメータによるフィルタリングを行う。メルＬＳＰパラメータから波形生成する場合は、図１５に示すように、まず、メルＬＳＰメルＬＰＣ変換部１１１が、メルＬＳＰパラメータをメルＬＰＣパラメータに変換する。次に、メルＬＰＣパラメータ変換部１１２が、変換されたメルＬＰＣパラメータからゲイン項くくりだしの処理を行ってフィルタパラメータを求める。次に、メルＬＰＣフィルタ部１１３が、得られたフィルタパラメータからメルＬＰＣフィルタによってフィルタリングを行う。図１６は、メルＬＰＣフィルタ部１１３の一例を示す回路図である。

メルＬＳＰパラメータは、次数が偶数の場合、Ａ（ｚ^−１）を伝達関数の分母を表す式とした場合、以下の（４）式のω_ｉおよびθ_ｉとして表されるパラメータである。

メルＬＳＰメルＬＰＣ変換部１１１は、これらのパラメータをｚ^−１の時数ごとに展開した係数ａ_ｋを計算する。αは、周波数ワーピングパラメータを表し、１６ｋＨｚサンプリングの音声の場合は０．４２などの値が用いられる。メルＬＰＣパラメータ変換部１１２は、（４）式を展開して得られた線形予測係数ａ_ｋからゲイン項をくくりだして、フィルタに用いるパラメータを作成する。フィルタ処理に用いるｂ_ｋは、以下の（５）式によって算出できる。

なお、図４のメルＬＳＰパラメータがω_ｉおよびθ_ｉであり、ゲイン項がｇであり、変換したゲイン項がｇ’で表されている。図１６のメルＬＰＣフィルタ部１１３は、これらの処理によって得られたパラメータを用いてフィルタリングを行う。

このように、第１の実施形態にかかる音声合成装置１００では、第１記憶部２２１に記憶されている帯域雑音信号および第２記憶部２２２に記憶されている帯域パルス信号を用いて混合音源信号を作成し、声道フィルタの入力に用いることにより、適切に制御された混合音源信号を用いて高速かつ高品質に音声波形を合成することが可能となる。

（第２の実施形態）
第２の実施形態にかかる音声合成装置２００は、ピッチマークと音声波形を入力し、ピッチ同期分析したスペクトルを固定フレームレートに補間することにより得られたスペクトルにより音声を分析して音声パラメータを生成する。これにより精密な音声分析が可能になり、このようにして生成された音声パラメータから音声を合成することで、高品質な合成音声を作成することが可能になる。

図１７は、第２の実施形態にかかる音声合成装置２００の構成の一例を示すブロック図である。図１７に示すように、音声合成装置２００は、入力した音声信号を分析する音声分析部１２０と、第１パラメータ入力部１１と、音源信号生成部１２と、声道フィルタ部１３と、波形出力部１４と、を備えている。

第２の実施形態では、音声分析部１２０を追加したことが第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる音声合成装置１００の構成を表すブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

音声分析部１２０は、音声信号を入力する音声入力部１２１と、スペクトルを算出するスペクトル算出部１２２と、得られたスペクトルから音声パラメータを算出するパラメータ算出部１２３とを備えている。

以下、音声分析部１２０の処理について述べる。音声分析部１２０は、入力した音声信号から音声パラメータ列を算出する。音声分析部１２０は、固定フレームレートの音声パラメータを求めるものとする。すなわち、固定のフレームレートの時間間隔による音声パラメータを求めて出力する。

音声入力部１２１は、分析対象の音声信号を入力する。音声入力部１２１は、音声信号に対するピッチマーク系列、基本周波数系列、および、有声フレームか無声フレームかを判別するフレーム判別情報も同時に入力してもよい。スペクトル算出部１２２は、入力された音声信号から固定のフレームレートのスペクトルを算出する。ピッチマーク系列、基本周波数系列およびフレーム判別情報を入力しない場合は、スペクトル算出部１２２がこれらの情報も抽出する。これらの抽出では、従来から用いられている様々な有声／無声判別方法、ピッチ抽出方法、およびピッチマーク作成方法を用いることができる。例えば、波形の自己相関値に基づいてこれらの情報を抽出することができる。以下では、これらの情報は予め付与され、音声入力部１２１で入力されるものとして記述する。

スペクトル算出部１２２は、入力された音声信号からスペクトルを算出する。本実施形態ではピッチ同期分析したスペクトルを補間することによって固定フレームレートのスペクトルを算出する。

パラメータ算出部１２３は、スペクトル算出部１２２で算出されたスペクトルからスペクトルパラメータを求める。メルＬＳＰパラメータを用いる場合は、パラメータ算出部１２３は、パワースペクトルからメルＬＰＣパラメータを算出し、メルＬＰＣパラメータから変換することによってメルＬＳＰパラメータを求めることができる。

図１８は、スペクトル算出部１２２の構成例を示すブロック図である。図１８に示すように、スペクトル算出部１２２は、波形抽出部１３１と、スペクトル分析部１３２と、補間部１３３と、指標算出部１３４と、境界周波数抽出部１３５と、補正部１３６と、を備えている。

スペクトル算出部１２２は、波形抽出部１３１によりピッチマークに従ってピッチ波形を抽出し、スペクトル分析部１３２によりピッチ波形のスペクトルを求め、補間部１３３により固定のフレームレートの各フレーム中心の前後に隣接するピッチマークのスペクトルを補間することにより、該当フレームにおけるスペクトルを算出する。以下、波形抽出部１３１、スペクトル分析部１３２、および、補間部１３３の機能の詳細について説明する。

波形抽出部１３１は、ピッチマーク位置を中心とし、ピッチの２倍のハニング窓を音声波形にかけることによりピッチ波形を抽出する。スペクトル分析部１３２は、得られたピッチ波形に対してフーリエ変換を行って振幅スペクトルを求めることにより、該ピッチマークにおけるスペクトルを算出する。補間部１３３は、このように得られた各ピッチマークのスペクトルを補間することにより、固定フレームレートのスペクトルを求める。

従来のスペクトル分析に広く用いられている固定の分析窓長および固定フレームレートの分析を行う場合は、フレーム中心位置を中心とした固定の分析窓長の窓関数を用いて音声を切り出し、切り出した音声から各フレーム中心のスペクトルのスペクトル分析を行う。

例えば、２５ｍｓの窓長のブラックマン窓による分析、および、５ｍｓのフレームレートなどが用いられる。この場合、一般的に窓関数の長さはピッチの数倍程度のものが用いられ、有声音の音声波形の周期性を含む波形、または、有声音および無声音が混在された波形を用いてスペクトル分析が行われる。このため、パラメータ算出部１２３でのスペクトルパラメータ分析の際に、周期性に起因するスペクトルの微細構造を取り除くようなパラメータ化が必要になる。従って、高い次数の特徴パラメータを用いることは困難である。また、フレームの中心位置の位相の違いもスペクトル分析に影響を与え、求められるスペクトルが不安定になる場合がある。

これに対し、本実施形態のようにピッチ同期分析したピッチ波形のスペクトルの補間によって音声パラメータを求める場合は、より適切な分析窓長で分析を行うことができる。このため、精密なスペクトルが得られ、ピッチに起因する周波数方向の微細変動が生じない。また、分析中心時刻の位相のずれに起因するスペクトルの変動も低減されたスペクトルが得られ、高い次数の精密な特徴パラメータを求めることができる。

非特許文献１に記載されているＳＴＲＡＩＧＨＴ方式によるスペクトル算出は、本実施形態と同様に、ピッチ長程度の長さのスペクトルを、時間方向平滑化および周波数方向平滑化によって求めている。ＳＴＲＡＩＧＨＴ方式は、ピッチマークを入力せず、基本周波数系列と音声波形とからスペクトル分析を行う。スペクトルの時間方向平滑化によって、分析中心位置のずれに起因するスペクトルの微細構造を取り除き、周波数方向平滑化によってハーモニクス間を補間するような滑らかなスペクトル包絡を求める。しかし、ＳＴＲＡＩＧＨＴ方式は、周期性の明瞭でない有声破裂音の立ち上がりの部分や声門閉鎖音などの基本周波数抽出が難しい区間における分析は困難であり、また処理も複雑で効率的に計算することはできない。

本実施形態によるスペクトル分析は、有声破裂音等では、隣接する有声音のピッチマークから、滑らかに変化する擬似的なピッチマークを付与することで基本周波数抽出の困難な区間でも大きな影響を受けずに分析することができる。また、フーリエ変換とその補間とで計算できるため、高速に分析を行うことができる。このように、本実施形態では、音声分析部１２０により、有声音の周期性の影響を取り除いた各フレーム時刻での精密なスペクトル包絡を求めることができる。

なお、これまではピッチマークを保持している有声音区間の分析方法について述べた。無声音の区間では、スペクトル算出部１２２は、固定のフレームレート（例えば５ｍｓ）および固定の窓長（例えば１０ｍｓの窓長のハニング窓）によりスペクトル分析する。また、パラメータ算出部１２３は、得られたスペクトルをスペクトルパラメータに変換する。

音声分析部１２０は、スペクトルパラメータのみでなく、帯域強度パラメータ（帯域雑音強度系列）も同様の処理により求めることができる。予め周期成分および雑音成分に分離した音声波形（周期成分音声波形および雑音成分音声波形）を用意し、この音声波形を用いて帯域雑音強度系列を求める場合は、音声入力部１２１が、周期成分音声波形および雑音成分音声波形を同時に入力する。

音声波形から周期成分音声波形と雑音成分音声波形への分離は、例えばＰＳＨＦ（Ｐｉｔｃｈ−ｓｃａｌｅｄＨａｒｍｏｎｉｃＦｉｌｔｅｒ）の方法によって行うことができる。ＰＳＨＦでは、基本周期の数倍の長さのＤＦＴ（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を用いる。ＰＳＨＦでは、基本周波数の整数倍位置以外の位置でのスペクトルをつないだスペクトルを雑音成分とし、基本周波数の整数倍位置におけるスペクトルを周期成分スペクトルとして、それぞれのスペクトルから作成される波形が求められ、雑音成分音声波形と周期成分音声波形に分離される。

周期成分と雑音成分の分離はこの方法に限るものではない。本実施形態では、音声入力部１２１によって雑音成分音声波形を音声波形と共に入力し、スペクトルの雑音成分指標を求め、得られた雑音成分指標から帯域雑音強度系列を算出する例を説明する。

この場合、スペクトル算出部１２２は、雑音成分指標をスペクトルと同時に算出する。雑音成分指標は、スペクトル中の雑音成分の割合を表すパラメータである。雑音成分指標は、スペクトルと同じ点数で表され、スペクトルの各次元に対応した雑音成分の割合を０から１の値として表したパラメータである。ただし、デシベル単位としたものを用いてもよい。

波形抽出部１３１は、入力した音声波形に対するピッチ波形と共に、雑音成分波形から雑音成分ピッチ波形を抽出する。波形抽出部１３１は、雑音成分ピッチ波形もピッチ波形と同様にピッチマークを中心としてピッチの２倍の窓かけを行うことにより求める。

スペクトル分析部１３２は、音声波形に対するピッチ波形と同様に、雑音成分ピッチ波形のフーリエ変換を行って各ピッチマーク時刻における雑音成分スペクトルを求める。

補間部１３３は、音声波形から得られたスペクトルと同様に、各フレーム時刻に隣接するピッチマーク時刻における雑音成分スペクトルを線形補間することにより、該時刻における雑音成分スペクトルを求める。

指標算出部１３４は、得られた各フレーム時刻における雑音成分の振幅スペクトル（雑音成分スペクトル）を音声の振幅スペクトルで除算することにより、音声の振幅スペクトルに対する雑音成分スペクトルの割合を表す雑音成分指標を算出する。

以上の処理により、スペクトル算出部１２２では、スペクトルおよび雑音成分指標が算出される。

パラメータ算出部１２３は、得られた雑音成分指標から帯域雑音強度を求める。帯域雑音強度は、予め定めた帯域分割により得られる各帯域の雑音成分の割合を表すパラメータであり、雑音成分指標から求められる。図５に定めた帯域通過フィルタを用いる場合、雑音成分指標はフーリエ変換の点数から定まる次元を持つ。これに対し、本実施形態の雑音成分指標は帯域分割数の次元になり、例えば１０２４点のフーリエ変換を用いた場合雑音成分指標は５１３点のパラメータになり、帯域雑音強度は５点のパラメータになる。

パラメータ算出部１２３は、雑音成分指標の各帯域における平均値、フィルタの特性で重み付けして用いた平均値、または、振幅スペクトルで重み付けした平均値などにより帯域雑音強度を算出することができる。

スペクトルパラメータは、上述したようにスペクトルから求められる。音声分析部１２０による上述の処理により、スペクトルパラメータおよび帯域雑音強度が求められる。得られたスペクトルパラメータおよび帯域雑音強度により、第１の実施形態と同様の音声合成処理が実行される。すなわち、音源信号生成部１２は、得られたパラメータを用いて音源信号を生成する。声道フィルタ部１３は、生成された音源信号に声道フィルタを適用して音声波形を生成する。そして、波形出力部１４が生成された音声波形を出力する。

なお、上述した処理では、各ピッチマーク時刻におけるスペクトルおよび雑音成分スペクトルから固定フレームレートの各フレームにおけるスペクトルおよび雑音成分スペクトルを作成し、雑音成分指標を算出した。これに対し、各ピッチマーク時刻における雑音成分指標を算出し、算出した雑音成分指標を補間して固定フレームレートの各フレームにおける雑音成分指標を算出してもよい。いずれの場合も、パラメータ算出部１２３が、作成された各フレーム位置の雑音成分指標から帯域雑音強度系列を作成する。なお、上述した処理はピッチマークの付与されている有声音区間について記述しているが、無声音区間では全帯域が雑音成分であるものとして、すなわち帯域雑音強度は１として帯域雑音強度系列が作成される。

なお、スペクトル算出部１２２が、さらに高品質な合成音声を得るための後処理を行ってもよい。

後処理の１つは、スペクトルの低域成分に適用することができる。上述した処理により抽出したスペクトルは、フーリエ変換の０次の直流成分から基本周波数位置のスペクトル成分に向けて増加する傾向がある。このようなスペクトルを用いて韻律変形を行い、基本周波数を低くした場合、基本周波数成分の振幅は減少してしまう。このような基本周波数成分の振幅の減少による韻律変形後の音質劣化を避けるため、基本周波数成分から直流成分の間の振幅スペクトルとして、基本周波数成分位置の振幅スペクトルをコピーして用いることができる。これにより、基本周波数（Ｆ_０）を低くする方向に韻律変形した場合にも基本周波数成分の振幅の減少が避けられ、音質劣化を避けることができる。

また、雑音成分指標を求める際にも後処理を行うことができる。雑音成分指標抽出の後処理として、例えば、振幅スペクトルに基づいて雑音成分を補正する方法を用いることができる。境界周波数抽出部１３５および補正部１３６が、このような後処理を実行する。なお、後処理を行わない場合は、境界周波数抽出部１３５および補正部１３６を備える必要はない。

境界周波数抽出部１３５は、有声音のスペクトルに対して予め定められたスペクトル振幅値の閾値を超える値を持つ最大の周波数を抽出して境界周波数とする。補正部１３６は、境界周波数より低い帯域では、雑音成分指標を０とするなど、全成分がパルス信号で駆動されるように雑音成分指標を補正する。

また、有声摩擦音などに対しては、境界周波数抽出部１３５は、予め定められた境界周波数の初期値から単調増加または減少する範囲で、予め定められたスペクトル振幅値を超える値を持つ最大の周波数を境界周波数として抽出する。補正部１３６は、得られた境界周波数より低い帯域は全成分パルス成分として駆動されるように雑音成分指標を０に補正し、さらに境界周波数より高い周波数成分は、全成分雑音成分であるように、雑音成分指標を１に補正する。

これにより、有声音のパワーの強い成分が雑音成分として扱われてしまうことにより生ずるパワーの大きな雑音的な音声波形が生成されることが減少する。また、有声摩擦音の高域成分などで、雑音成分が分離誤り等の影響によってパルス駆動成分として扱われてしまいバジー感の高いパルス的な音声波形が生成されることを抑えることができる。

以下、第２の実施形態による音声パラメータ生成処理の具体例を、図１９〜図２１を用いて説明する。図１９は、図８に示した分析元の音声波形を音声分析部１２０が分析する例を示す図である。図１９の最上部はピッチマークを表し、その下部は分析フレームの中心を表している。図８のピッチマークは、波形生成のために基本周波数系列から作成したものである。これに対し、図１９のピッチマークは、音声波形から求めたものであり、音声波形の周期と同期して付与される。分析フレームの中心は、５ｍｓ単位の固定のフレームレートの分析フレームを表している。以下では、図１９の黒丸で示した２か所のフレーム（１．８６５秒、１．９秒）でのスペクトル分析を例として示す。

スペクトル１９０１ａ〜１９０１ｄは、分析対象フレームの前後のピッチマーク位置で分析したスペクトル（ピッチ同期スペクトル）を示している。スペクトル算出部１２２は、音声波形にピッチの２倍の長さのハニング窓をかけ、フーリエ変換することにより、ピッチ同期スペクトルを算出する。

スペクトル１９０２ａ、１９０２ｂは、ピッチ同期スペクトルを補間することにより作成した分析対象フレームのスペクトル（フレームスペクトル）を示している。該フレームの時刻をｔ、スペクトルをＸ_ｔ（ω）、前のピッチマークの時刻をｔ_ｐ、スペクトルをＸ_ｐ（ω）、次のピッチマークの時刻をｔ_ｎ、スペクトルをＸ_ｎ（ω）とすると、補間部１３３は、以下の（６）式により時刻ｔのフレームのフレームスペクトルＸ_ｔ（ω）を算出する。

スペクトル１９０３ａ、１９０３ｂは、それぞれスペクトル１９０２ａ、１９０２ｂに直流成分から基本周波数成分までの振幅を基本周波数位置の振幅値にする上述の後処理を適用して得られる後処理スペクトルを示している。これにより、ピッチを低くするように韻律変形した際のＦ_０成分の振幅の減衰を抑えることができる。

図２０は、比較のため、フレーム位置を中心として分析して求められたスペクトルの一例を表す図である。スペクトル２００１ａ、２００１ｂは、ピッチの２倍の窓関数を用いて分析した場合のスペクトルの例を示している。スペクトル２００２ａ、２００２ｂは、２５ｍｓの固定長の窓関数を用いて分析した場合の例を示している。

１．８６５秒のフレームのスペクトル２００１ａは、１つ前のピッチマークとフレーム位置とが近いために、前側のスペクトルと近いスペクトルであり、補間して作成した該フレームのスペクトル（図１９のスペクトル１９０２ａ）とも近い。それに対し、１．９秒のフレームのスペクトル２００１ｂは、フレームの中心位置がピッチマーク位置から大きくずれているため、スペクトルの微細な変動が生じており、補間して作成したフレームスペクトル（図１９のスペクトル１９０２ｂ）との違いが大きい。すなわち、図１９のように補間フレームによるスペクトルを用いることにより、ピッチマーク位置から離れたフレーム位置のスペクトルも安定して算出することができることがわかる。

また、スペクトル２００２ａ、２００２ｂのような固定窓長のスペクトルは、ピッチの影響によるスペクトルの微細な変動が生じており、スペクトル包絡とはならないため、次数の高い精密なスペクトルパラメータを求めることは困難である。

図２１は、図１９の後処理スペクトル（スペクトル１９０３ａ、１９０３ｂ）から求めた３９次のメルＬＳＰパラメータの一例を示す図である。パラメータ２１０１ａ、２１０１ｂが、それぞれスペクトル１９０３ａ、１９０３ｂから求められるメルＬＳＰパラメータを表す。

図２１のメルＬＳＰパラメータは、メルＬＳＰの値（周波数）を線で示しており、スペクトルと共にプロットしている。このメルＬＳＰパラメータをスペクトルパラメータとして用いる。

図２２〜図２７は、帯域雑音成分を分析する例を示す図である。図２２は、図８の音声波形と、当該音声波形の周期成分および雑音成分を表す図である。図２２の上部の波形が、分析元の音声波形を表す。図２２の中央部の波形が、ＰＳＨＦによって音声波形を分離した結果の周期成分の音声波形を表す。図２２の下部の波形が、雑音成分の音声波形を表す。図２３は、図２２の音声波形を音声分析部１２０が分析する例を示す図である。図１９と同様に、図２３の最上部はピッチマークを表し、その下部は分析フレームの中心を表している。

スペクトル２３０１ａ〜２３０１ｄは、着目しているフレームの前後のピッチマークでピッチ同期分析した雑音成分のスペクトル（ピッチ同期スペクトル）を示している。スペクトル２３０２ａ、２３０２ｂは、前後のピッチマークの雑音成分を上記（６）式によって補間することにより作成した各フレームの雑音成分スペクトル（フレームスペクトル）を示している。図２３では、実線は雑音成分のスペクトルを示しており、点線は音声全体のスペクトルを示している。

図２４は、雑音成分スペクトルと音声全体のスペクトルから求めた雑音成分指標の一例を示す図である。雑音成分指標２４０１ａ、２４０１ｂが、それぞれ図２３のスペクトル２３０２ａ、２３０２ｂに対応する。指標算出部１３４は、スペクトルをＸ_ｔ（ω）、雑音成分スペクトルをＸ_ｔ ^ａｐ（ω）としたとき、以下の（７）式により雑音成分指標ＡＰ_ｔ（ω）を算出する。

図２５は、図２４の雑音成分指標２４０１ａ、２４０１ｂから求められる帯域雑音強度２５０１ａ、２５０１ｂの一例を示す図である。本実施形態では、５つの帯域の境界とする周波数を１、２、４、６［ｋＨｚ］として、その周波数間の雑音成分指標の重み付け平均値を用いて帯域雑音強度を算出する。すなわち、パラメータ算出部１２３は、振幅スペクトルを重みとして用い、以下の（８）式により帯域雑音強度ＢＡＰ_ｔ（ｂ）を算出する。なお、（８）式中の加算範囲は、対応する帯域の範囲内の周波数である。

以上の処理により、音声波形から分離した雑音成分波形と、音声波形とを用いて帯域雑音強度を求めることができる。このように求めた帯域雑音強度は、図１９〜図２１で説明した方法で求めたメルＬＳＰパラメータと時間方向に同期がとれている。このため、上記のようにして求めた帯域雑音強度とメルＬＳＰパラメータとから音声波形を生成することができる。

上述した雑音成分抽出の後処理を行う場合は、境界周波数を抽出し、得られた境界周波数に基づいて雑音成分指標を補正する。ここで用いる後処理は、有声摩擦音とその他の有声音とで処理を分けている。例えば音素“ｊｈ”は有声摩擦音であり、“ｕｈ”は有声音であるため、それぞれ異なる後処理が行われる。

図２６は、後処理の具体例を説明するための図である。グラフ２６０１ａ、２６０１ｂは、境界周波数抽出のための閾値と得られた境界周波数とを示している。有声摩擦音の場合は（グラフ２６０１ａ）、５００Ｈｚ付近で閾値より振幅が大きくなる境界を抽出し、境界周波数としている。その他の有声音の場合は（グラフ２６０１ｂ）、振幅が閾値を超える最大周波数を抽出し、境界周波数としている。

図２６に示すように、有声摩擦音の場合は、境界周波数以下の帯域は０、境界周波数より大きい帯域は１とした雑音成分指標２６０２ａに補正される。有声摩擦音以外の場合は、境界周波数以下を０とし、境界周波数以上の帯域は求められた値をそのまま用いた雑音成分指標２６０２ｂに補正される。

図２７は、このように作成された境界周波数から（８）式により得られた帯域雑音強度を示す図である。帯域雑音強度２７０１ａ、２７０１ｂは、それぞれ図２６の雑音成分指標２６０２ａ、２６０２ｂに対応する。

以上のような処理により、有声摩擦音の高域成分は雑音音源から合成できるようになり、有声音の低域成分はパルス音源から合成できるようになるため、より適切に波形生成が行われる。さらに後処理として、スペクトルと同様に基本周波数成分以下の雑音成分指標を基本周波数成分における雑音成分指標の値としてもよい。これにより後処理をしたスペクトルと同期した雑音成分指標が求められる。

次に、第２の実施形態にかかる音声合成装置２００によるスペクトルパラメータ算出処理について図２８を用いて説明する。図２８は、第２の実施形態におけるスペクトルパラメータ算出処理の全体の流れを示すフローチャートである。図２８は、音声入力部１２１により音声信号およびピッチマークが入力された後に開始され、音声フレーム単位で処理される。

まず、スペクトル算出部１２２は、処理対象のフレームが有声音か否かを判断する（ステップＳ２０１）。有声音の場合（ステップＳ２０１：Ｙｅｓ）、波形抽出部１３１が該フレームの前後のピッチマークに従ってピッチ波形を抽出した後、スペクトル分析部１３２が抽出されたピッチ波形をスペクトル分析する（ステップＳ２０２）。

次に、補間部１３３が、得られた前後のピッチマークのスペクトルを、（６）式に従って補間する（ステップＳ２０３）。次に、スペクトル算出部１２２は、得られたスペクトルに対して後処理を行う（ステップＳ２０４）。ここでは、スペクトル算出部１２２は基本周波数以下の振幅を補正する。次に、パラメータ算出部１２３は、スペクトルパラメータ分析を行い、補正後のスペクトルをメルＬＳＰパラメータなどの音声パラメータに変換する（ステップＳ２０５）。

ステップＳ２０１で無声音であると判断された場合（ステップＳ２０１：Ｎｏ）、スペクトル算出部１２２は、フレームごとにスペクトル分析を行う（ステップＳ２０６）。そして、パラメータ算出部１２３は、フレームごとにスペクトルパラメータ分析を行う（ステップＳ２０７）。

次に、スペクトル算出部１２２は、すべてのフレームを処理したか否かを判断し（ステップＳ２０８）、処理していない場合は（ステップＳ２０８：Ｎｏ）、ステップＳ２０１に戻り処理を繰り返す。すべてのフレームを処理した場合（ステップＳ２０８：Ｙｅｓ）は、スペクトルパラメータ算出処理を終了する。以上の処理により、スペクトルパラメータ系列が求められる。

次に、第２の実施形態にかかる音声合成装置２００による帯域雑音強度算出処理について図２９を用いて説明する。図２９は、第２の実施形態における帯域雑音強度算出処理の全体の流れを示すフローチャートである。図２９は、音声入力部１２１により音声信号、音声信号の雑音成分およびピッチマークが入力された後に開始され、音声フレーム単位で処理される。

まず、スペクトル算出部１２２は、処理対象のフレームが有声音か否かを判断する（ステップＳ３０１）。有声音の場合（ステップＳ３０１：Ｙｅｓ）、波形抽出部１３１が該フレームの前後のピッチマークに従って雑音成分のピッチ波形を抽出した後、スペクトル分析部１３２が抽出された雑音成分のピッチ波形をスペクトル分析する（ステップＳ３０２）。次に、補間部１３３は、前後のピッチマークの雑音成分スペクトルを補間し、該フレームの雑音成分スペクトルを算出する（ステップＳ３０３）。次に、指標算出部１３４は、図２８のステップＳ２０２に示す音声信号のスペクトル分析により得られたスペクトルと雑音成分スペクトルとから、（７）式により雑音成分指標を算出する（ステップＳ３０４）。

次に、境界周波数抽出部１３５および補正部１３６が、雑音成分指標を補正する後処理を行う（ステップＳ３０５）。次に、パラメータ算出部１２３は、得られた雑音成分指標から（８）式を用いて帯域雑音強度を算出する（ステップＳ３０６）。なお、ステップＳ３０１で無声音であると判断された場合は（ステップＳ３０１：Ｎｏ）、帯域雑音強度はすべて１として処理が行われる。

次に、スペクトル算出部１２２は、すべてのフレームを処理したか否かを判断し（ステップＳ３０７）、処理していない場合は（ステップＳ３０７：Ｎｏ）、ステップＳ３０１に戻り処理を繰り返す。すべてのフレームを処理した場合（ステップＳ３０７：Ｙｅｓ）は、帯域雑音強度算出処理を終了する。以上の処理により、帯域雑音強度系列が算出される。

このように、第２の実施形態にかかる音声合成装置２００では、ピッチマークと音声波形を入力し、ピッチ同期分析したスペクトルを固定フレームレートに補間することにより得られたスペクトルにより精密な音声分析が可能になる。そして、分析した音声パラメータから音声を合成することにより、高品質な合成音声を作成することが可能になる。さらに同様の処理により雑音成分指標および帯域雑音強度を分析することが可能となるため、高品質な合成音声を作成することが可能になる。

（第３の実施形態）
音声パラメータを入力して音声波形の生成を行う音声合成装置のみでなく、入力したテキストデータ（以下、単にテキストという）から音声を合成する装置も広く音声合成装置と呼ばれる。このような音声合成装置の１つとして隠れマルコフモデル（ＨＭＭ）に基づく音声合成が提案されている。ＨＭＭに基づく音声合成は、様々なコンテキスト情報（文内の位置、呼気段落内の位置、単語内の位置、および、前後の音素環境など）を考慮した音素単位のＨＭＭを、最尤推定および、決定木に基づく状態クラスタリングによって構築する。音声を合成する際には、入力テキストから変換して得られるコンテキスト情報によって決定木を辿ることにより分布列を作成し、得られた分布列から音声パラメータ列を生成する。音声パラメータ列から、例えばメルケプストラムによるソースフィルタ型の音声合成装置などを利用することにより音声波形生成を行う。ＨＭＭの出力分布に、動的特徴量を加え、この動的特徴量を考慮したパラメータ生成アルゴリズムを用いて音声パラメータ列を生成することにより、滑らかに接続された音声が合成される。

ＨＭＭに基づく音声合成の１つとして非特許文献１では、ＳＴＲＡＩＧＨＴパラメータを用いた音声合成システムが提案されている。ＳＴＲＡＩＧＨＴとは、Ｆ_０抽出、非周期成分（雑音成分）分析、およびスペクトル分析を行う音声の分析合成方法である。この方法では、時間方向平滑化および周波数方向平滑化に基づいてスペクトル分析を行う。音声合成時には、これらのパラメータから周波数領域でガウス雑音およびパルスを混合し、高速フーリエ変換（ＦＦＴ）を利用して波形生成を行う。

非特許文献１に記載されている音声合成装置では、ＳＴＲＡＩＧＨＴにより分析したスペクトルをメルケプストラムに変換し、雑音成分を５個の帯域の帯域雑音強度に変換し、ＨＭＭを学習している。音声合成の際には、入力したテキストから得られるＨＭＭ系列から、これらのパラメータを生成し、得られたメルケプストラムと帯域雑音強度をＳＴＲＡＩＧＨＴのスペクトルおよび雑音成分に変換し、ＳＴＲＡＩＧＨＴの波形生成部を用いて合成音声の波形を得ている。このように、非特許文献１の方法では、ＳＴＲＡＩＧＨＴの波形生成部を用いる。このため、パラメータ変換処理、および、波形生成の際のＦＦＴ処理など多くの計算量が必要となり、高速に波形生成することができず、処理時間がかかる。

第３の実施形態にかかる音声合成装置では、例えば第２の実施形態の方法により分析した音声パラメータを用いて隠れマルコフモデル（ＨＭＭ）を学習し、得られたＨＭＭを利用することにより、任意の文章を入力して、該入力文章に対応する音声パラメータを生成する。そして、生成した音声パラメータから第１の実施形態にかかる音声合成装置と同様の方法により音声波形生成を行う。

図３０は、第３の実施形態にかかる音声合成装置３００の構成の一例を示すブロック図である。図３０に示すように、音声合成装置３００は、ＨＭＭ学習部１９５と、ＨＭＭ記憶部１９６と、テキスト入力部１９１と、言語解析部１９２と、音声パラメータ生成部１９３と、音声合成部１９４と、を備えている。

ＨＭＭ学習部１９５は、第２の実施形態にかかる音声合成装置２００で分析した音声パラメータであるスペクトルパラメータ、帯域雑音強度系列、および基本周波数系列を用いてＨＭＭの学習を行う。この際、これらのパラメータの動的特徴量も同時にパラメータとして用い、ＨＭＭの学習に利用する。ＨＭＭ記憶部１９６は、学習により得られたＨＭＭのモデルのパラメータを記憶する。

テキスト入力部１９１は、合成するテキストを入力する。言語解析部１９２は、テキストから形態素解析処理などを行い、読みやアクセントなど音声合成に用いる言語情報を出力する。音声パラメータ生成部１９３は、予めＨＭＭ学習部１９５によって学習しＨＭＭ記憶部１９６に記憶したモデルを用いて音声パラメータを生成する。

音声パラメータ生成部１９３は、言語解析の結果得られた音素系列やアクセント情報の系列に従って文単位のＨＭＭ（文ＨＭＭ）を構築する。文ＨＭＭは、音素単位のＨＭＭを接続して並べることにより構築する。ＨＭＭとしては、状態ごと、および、ストリームごとの決定木クラスタリングを行ったモデルを利用できる。音声パラメータ生成部１９３は、入力された属性情報に従って決定木をたどり、リーフノードの分布をＨＭＭの各状態の分布として用いて音素モデルを作成し、作成した音素モデルを並べることにより、文ＨＭＭを作成する。音声パラメータ生成部１９３は、作成した文ＨＭＭの出力確率のパラメータから音声パラメータの生成を行う。音声パラメータ生成部１９３は、まず、ＨＭＭの各状態の継続長分布のモデルから、各状態に対応したフレーム数を決定し、各フレームのパラメータを生成する。パラメータ生成の際に動的特徴量を考慮した生成アルゴリズムを利用することで、滑らかに接続された音声パラメータが生成される。なお、これらＨＭＭの学習およびパラメータ生成は非特許文献１に記載された方法によって行うことができる。

音声合成部１９４は、生成された音声パラメータから音声波形を生成する。音声合成部１９４は、帯域雑音強度系列、基本周波数系列およびスペクトルパラメータ系列から、第１の実施形態にかかる音声合成装置１００と同様の方法によって波形生成を行う。これにより、高速かつパルス成分と雑音成分の適切に混合された混合音源信号から波形生成を行うことができる。

上述のように、ＨＭＭ記憶部１９６は、ＨＭＭ学習部１９５により学習されたＨＭＭを記憶している。ＨＭＭは、本実施形態では音素単位として記述するが、音素だけでなく音素を分割した半音素や、音節などいくつかの音素を含む単位を用いてもよい。ＨＭＭはいくつかの状態を持つ統計モデルであり、状態ごとの出力分布と、状態遷移の確率を表す状態遷移確率とから構成される。

図３１は、ｌｅｆｔ−ｒｉｇｈｔ型ＨＭＭの一例を示す図である。ｌｅｆｔ−ｒｉｇｈｔ型ＨＭＭは、図３１に示すように左側の状態から右側の状態への遷移と、自己遷移のみ可能なＨＭＭの形であり、音声など時系列情報のモデル化に用いられる。図３１は、５状態のモデルで、状態ｉから状態ｊへの状態遷移確率をａ_ｉｊ、ガウス分布による出力分布をＮ（ｏ｜μ_ｓ、Σ_ｓ）として表している。

ＨＭＭ記憶部１９６は、このようなＨＭＭを記憶している。ただし、状態ごとのガウス分布は、決定木によって共有された形で記憶されている。図３２は、決定木の一例を示す図である。図３２に示すように、ＨＭＭ記憶部１９６は、ＨＭＭの各状態の決定木を記憶しており、リーフノードにはガウス分布を保持している。

決定木の各ノードには、音素や言語属性に基づいて子ノードを選択する質問が保持されている。質問としては、例えば中心音素が「有声音かどうか」、「文章の先頭からの音素数が１かどうか」、「アクセント核からの距離が１である」、「音素が母音である」、および、「左音素が“ａ”である」といった質問が記憶されている。音声パラメータ生成部１９３は、言語解析部１９２で得られた音素系列や言語情報に基づいて決定木を辿ることにより分布を選択することができる。

用いる属性としては、｛先行、当該、後続｝音素、当該音素の単語内での音節位置、｛先行、当該、後続｝の品詞、｛先行、当該、後続｝単語の音節数、アクセント音節からの音節数、文内の単語の位置、前後のポーズの有無、｛先行、当該、後続｝呼気段落の音節数、当該呼気段落の位置、および、文の音節数などを用いる。以下、これらの情報を含む音素単位のラベルをコンテキストラベルと呼ぶ。これらの決定木は、特徴パラメータのストリームごとに作成しておくことができる。特徴パラメータとして、以下の（９）式に示すように学習データＯを用いる。

ただし、Ｏの時刻ｔのフレームｏ_ｔは、スペクトルパラメータｃ_ｔ、帯域雑音強度パラメータｂ_ｔ、基本周波数パラメータｆ_ｔであり、それらの動的特徴を表すデルタパラメータにΔ、２次のΔパラメータにΔ^２を付して示している。基本周波数は、無声音のフレームでは、無声音であることを表す値として表されている。多空間上の確率分布に基づくＨＭＭによって、有声音と無声音の混在した学習データからＨＭＭを学習することができる。

ストリームとは、（ｃ’_ｔ，Δｃ’_ｔ，Δ^２ｃ’_ｔ）、（ｂ’_ｔ，Δｂ’_ｔ，Δ^２ｂ’_ｔ）、（ｆ’_ｔ，Δｆ’_ｔ，Δ^２ｆ’_ｔ）のように、それぞれの特徴パラメータなど特徴ベクトルの一部分を取り出したものを指す。ストリームごとの決定木とは、スペクトルパラメータを表す決定木、帯域雑音強度パラメータｂ、基本周波数パラメータｆそれぞれに対して、決定木を持つことを意味する。この場合、合成時には入力した音素系列および言語属性に基づいて、ＨＭＭの各状態に対して、それぞれの決定木を辿ってそれぞれのガウス分布を決定し、それらを併せて出力分布を作成し、ＨＭＭを作成することになる。

例えば“ｒｉｇｈｔ（ｒ・ａｉ・ｔ）”という音声を合成する場合について説明する。図３３は、この例での音声パラメータ生成処理を説明するための図である。図３３に示すように、音素ごとのＨＭＭを接続して全体のＨＭＭが作成され、各状態の出力分布から音声パラメータが生成される。ＨＭＭの各状態の出力分布は、ＨＭＭ記憶部１９６に記憶されている決定木から選択されたものである。音声パラメータ生成部１９３は、これらの平均ベクトルおよび共分散行列から、音声パラメータを生成する。音声パラメータは、非特許文献１でも利用されている動的特徴量に基づくパラメータ生成アルゴリズムによって生成できる。ただし、平均ベクトルの線形補間やスプライン補間など、その他のＨＭＭの出力分布からパラメータを生成するアルゴリズムを用いてもよい。これらの処理により、合成した文章に対する声道フィルタの系列（メルＬＳＰ系列）、帯域雑音強度系列、および、基本周波数（Ｆ_０）系列による音声パラメータの系列が生成される。

音声合成部１９４は、このように生成された音声パラメータから、第１の実施形態にかかる音声合成装置１００と同様の方法を用いて音声波形を生成する。これにより、高速かつ適切に混合された混合音源信号を用いて音声波形の生成が可能となる。

ＨＭＭ学習部１９５は、学習データとして用いる音声信号およびそのラベル列からＨＭＭの学習を行う。ＨＭＭ学習部１９５は、非特許文献１と同様に、それぞれの音声信号から（９）式によって表わされる特徴パラメータを作成し、学習に用いる。音声の分析は、第２の実施形態の音声合成装置２００の音声分析部１２０の処理によって行うことができる。ＨＭＭ学習部１９５は、得られた特徴パラメータ、および、決定木構築に用いる属性情報を付与したコンテキストラベルからＨＭＭの学習を行う。通常、音素ごとのＨＭＭの学習、コンテキスト依存ＨＭＭの学習、ストリーム別のＭＤＬ基準を用いた決定木に基づく状態クラスタリング、およびそれぞれのモデルの最尤推定とから学習が実行される。ＨＭＭ学習部１９５は、このようにして得られた決定木とガウス分布をＨＭＭ記憶部１９６に記憶させる。なお、ＨＭＭ学習部１９５は、さらに状態ごとの継続時間長を表す分布も同時に学習し、決定木クラスタリングを行い、ＨＭＭ記憶部１９６に記憶する。これらの処理により、音声合成に用いるＨＭＭのパラメータが学習される。

次に、第３の実施形態にかかる音声合成装置３００による音声合成処理について図３４を用いて説明する。図３４は、第３の実施形態における音声合成処理の全体の流れを示すフローチャートである。

音声パラメータ生成部１９３は、言語解析部１９２による言語解析の結果得られたコンテキストラベル列を入力する（ステップＳ４０１）。音声パラメータ生成部１９３は、ＨＭＭ記憶部１９６に記憶されている決定木を探索し、状態継続長のモデルおよびＨＭＭを作成する（ステップＳ４０２）。次に、音声パラメータ生成部１９３は、状態ごとの継続長を決定する（ステップＳ４０３）。次に、音声パラメータ生成部１９３は、継続長に従って文全体のスペクトルパラメータ、帯域雑音強度、および基本周波数の分布列を作成する（ステップＳ４０４）。音声パラメータ生成部１９３は、これらの分布列からパラメータ生成を行い（ステップＳ４０５）、所望の文に対応するパラメータ列を得る。次に、音声合成部１９４が、得られたパラメータから、音声波形を生成する（ステップＳ４０６）。

このように、第３の実施形態にかかる音声合成装置３００によれば、第１および第２の実施形態にかかる音声合成装置を用いて、ＨＭＭ音声合成を用いることにより任意の文章に対応した合成音声を作成することが可能となる。

以上説明したとおり、第１から第３の実施形態によれば、記憶された帯域雑音信号および帯域パルス信号を用いて混合音源信号を作成し、声道フィルタの入力に用いることにより、適切に制御された混合音源信号を用いて高速かつ高品質に音声波形を合成することが可能となる。

次に、第１〜第３の実施形態にかかる音声合成装置のハードウェア構成について図３５を用いて説明する。図３５は、第１〜第３の実施形態にかかる音声合成装置のハードウェア構成を示す説明図である。

第１〜第３の実施形態にかかる音声合成装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ（Random Access Memory）５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１〜第３の実施形態にかかる音声合成装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１〜第３の実施形態にかかる音声合成装置で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、第１〜第３の実施形態にかかる音声合成装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１〜第３の実施形態にかかる音声合成装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１〜第３の実施形態にかかる音声合成装置で実行されるプログラムは、コンピュータを上述した音声合成装置の各部（第１パラメータ入力部、音源信号生成部、声道フィルタ部、波形出力部）として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

なお、本実施形態は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１００、２００、３００音声合成装置
１１第１パラメータ入力部
１２音源信号生成部
１３声道フィルタ部
１４波形出力部
２０１第２パラメータ入力部
２０２判断部
２０３ピッチマーク作成部
２０４混合音源作成部
２０５重畳部
２０６雑音音源作成部
２０７接続部
２２１第１記憶部
２２２第２記憶部
２２３第３記憶部
３０１切出部
３０２振幅制御部
３０３生成部

Claims

ｎ個（ｎは２以上の整数）の通過帯域に対応するｎ個の帯域通過フィルタそれぞれを雑音信号に適用して得られるｎ個の帯域雑音信号を記憶する第１記憶部と、
ｎ個の前記帯域通過フィルタそれぞれをパルス信号に適用して得られるｎ個の帯域パルス信号を記憶する第２記憶部と、
合成する音声の基本周波数系列と、ｎ個の前記通過帯域それぞれの雑音の強度を表すｎ個の帯域雑音強度系列と、スペクトルパラメータ系列とを入力するパラメータ入力部と、
前記基本周波数系列から作成した前記合成する音声のピッチマークごとに、前記第１記憶部に記憶されたｎ個の前記帯域雑音信号をシフトしながら切り出す切出部と、
ｎ個の前記通過帯域ごとに、切り出した前記帯域雑音信号の振幅と、前記帯域パルス信号の振幅とを、前記通過帯域の前記帯域雑音強度系列に応じて変更する振幅制御部と、
振幅を変更したｎ個の前記帯域雑音信号と、振幅を変更したｎ個の前記帯域パルス信号とを加算した前記ピッチマークごとの混合音源信号を生成する生成部と、
前記ピッチマークごとの前記混合音源信号を重畳する重畳部と、
重畳された前記混合音源信号に前記スペクトルパラメータ系列を用いた声道フィルタを適用して音声波形を生成する声道フィルタ部と、
を備えることを特徴とする音声合成装置。
音声信号と前記ピッチマークとを入力する音声入力部と、
前記ピッチマークを中心として前記音声信号に窓関数を適用することにより音声波形を抽出する波形抽出部と、
前記音声波形をスペクトル分析して前記音声波形のスペクトルを表す音声スペクトルを算出するスペクトル分析部と、
予め定められたフレームレートの各フレーム時刻に隣接する複数の前記ピッチマークの前記音声スペクトルを補間することにより、前記フレームレートの各フレーム時刻の音声スペクトルを算出する補間部と、
前記補間部により得られた音声スペクトルに基づいて前記スペクトルパラメータ系列を算出するパラメータ算出部と、をさらに備え、
前記パラメータ入力部は、前記基本周波数系列と、前記帯域雑音強度系列と、算出された前記スペクトルパラメータ系列とを入力すること、
を特徴とする請求項１に記載の音声合成装置。
音声信号と前記音声信号の雑音成分と前記ピッチマークとを入力する音声入力部と、
前記ピッチマークを中心として前記音声信号に窓関数を適用することにより音声波形を抽出し、前記ピッチマークを中心として前記雑音成分に窓関数を適用することにより雑音成分波形を抽出する波形抽出部と、
前記音声波形および前記雑音成分波形をスペクトル分析して前記音声波形のスペクトルを表す音声スペクトルおよび前記雑音成分のスペクトルを表す雑音成分スペクトルを算出するスペクトル分析部と、
予め定められたフレームレートの各フレーム時刻に隣接する複数の前記ピッチマークの前記音声スペクトルおよび前記雑音成分スペクトルを補間することにより、前記フレームレートの各フレーム時刻の音声スペクトルおよび雑音成分スペクトルを算出し、算出した音声スペクトルに対する雑音成分スペクトルの割合を表す雑音成分指標を算出する、または、前記フレームレートの各フレーム時刻に隣接する複数の前記ピッチマークの前記音声スペクトルに対する前記雑音成分スペクトルの割合を補間することにより、前記フレームレートの各フレーム時刻の音声スペクトルに対する雑音成分スペクトルの割合を表す雑音成分指標を算出する補間部と、
算出された雑音成分指標に基づいて、前記帯域雑音強度系列を算出するパラメータ算出部と、をさらに備え、
前記パラメータ入力部は、前記基本周波数系列と、算出された前記帯域雑音強度系列と、前記スペクトルパラメータ系列とを入力すること、
を特徴とする請求項１に記載の音声合成装置。
前記音声入力部は、前記音声信号と、前記音声信号のスペクトルの基本周波数の整数倍以外の成分を表す前記雑音成分と、前記ピッチマークとを入力すること、
を特徴とする請求項３に記載の音声合成装置。
予め定められた閾値を超える最大の周波数である境界周波数を、有声音のスペクトルから抽出する境界周波数抽出部と、
前記境界周波数より低い周波数帯域は音源信号がパルス信号となるように前記雑音成分指標を補正する補正部と、をさらに備えること、
を特徴とする請求項３に記載の音声合成装置。
予め定められた初期周波数から単調増加または単調減少する範囲で予め定められた閾値を超える最大の周波数である境界周波数を、有声摩擦音のスペクトルから抽出する境界周波数抽出部と、
前記境界周波数より低い周波数帯域は音源信号がパルス信号となるように前記雑音成分指標を補正する補正部と、をさらに備えること、
を特徴とする請求項３に記載の音声合成装置。
予め定められた音声単位に対する基本周波数系列、帯域雑音強度系列、およびスペクトルパラメータ系列の出力確率分布パラメータを含む隠れマルコフモデルパラメータを記憶する隠れマルコフモデル記憶部と、
入力されたテキストデータに含まれる前記音声単位を解析する言語解析部と、
解析された前記音声単位および前記隠れマルコフモデルパラメータに基づいて、入力されたテキストデータに対する前記基本周波数系列、前記帯域雑音強度系列および前記スペクトルパラメータ系列を生成する音声パラメータ生成部と、をさらに備え、
前記パラメータ入力部は、生成された前記基本周波数系列、前記帯域雑音強度系列、および、前記スペクトルパラメータ系列を入力すること、
を特徴とする請求項１に記載の音声合成装置。
前記第１記憶部に記憶された前記帯域雑音信号は、音質劣化しない最小の長さとして予め定められた規定長以上の長さであること、
を特徴とする請求項１に記載の音声合成装置。
前記規定長は５ミリ秒であること、
を特徴とする請求項７に記載の音声合成装置。
前記第１記憶部に記憶された前記帯域雑音信号は、対応する前記通過帯域が大きい前記帯域雑音信号が、対応する前記通過帯域が小さい前記帯域雑音信号より長く、対応する前記通過帯域が小さい前記帯域雑音信号が、音質劣化しない最小の長さとして予め定められた規定長以上の長さであること、
を特徴とする請求項１に記載の音声合成装置。
ｎ個（ｎは２以上の整数）の通過帯域に対応するｎ個の帯域通過フィルタそれぞれを雑音信号に適用して得られるｎ個の帯域雑音信号を記憶する第１記憶部と、ｎ個の前記帯域通過フィルタそれぞれをパルス信号に適用して得られるｎ個の帯域パルス信号を記憶する第２記憶部と、を備える音声合成装置で実行される音声合成方法であって、
合成する音声の基本周波数系列と、ｎ個の前記通過帯域それぞれの雑音の強度を表すｎ個の帯域雑音強度系列と、スペクトルパラメータ系列とを入力するパラメータ入力ステップと、
前記基本周波数系列から作成した合成する音声のピッチマークごとに、前記第１記憶部に記憶されたｎ個の前記帯域雑音信号をシフトしながら切り出す切出ステップと、
ｎ個の前記通過帯域ごとに、切り出した前記帯域雑音信号の振幅と、前記帯域パルス信号の振幅とを、前記通過帯域の前記帯域雑音強度系列に応じて変更する振幅制御ステップと、
振幅を変更したｎ個の前記帯域雑音信号と、振幅を変更したｎ個の前記帯域パルス信号とを加算した前記ピッチマークごとの混合音源信号を生成する生成ステップと、
前記ピッチマークごとの前記混合音源信号を重畳する重畳ステップと、
重畳された前記混合音源信号に前記スペクトルパラメータ系列を用いた声道フィルタを適用して音声波形を生成する声道フィルタステップと、
を含むことを特徴とする音声合成方法。
コンピュータを、
ｎ個（ｎは２以上の整数）の通過帯域に対応するｎ個の帯域通過フィルタそれぞれを雑音信号に適用して得られるｎ個の帯域雑音信号を記憶する第１記憶部と、
ｎ個の前記帯域通過フィルタそれぞれをパルス信号に適用して得られるｎ個の帯域パルス信号を記憶する第２記憶部と、
合成する音声の基本周波数系列と、ｎ個の前記通過帯域それぞれの雑音の強度を表すｎ個の帯域雑音強度系列と、スペクトルパラメータ系列とを入力するパラメータ入力部と、
前記基本周波数系列から作成した前記合成する音声のピッチマークごとに、前記第１記憶部に記憶されたｎ個の前記帯域雑音信号をシフトしながら切り出す切出部と、
ｎ個の前記通過帯域ごとに、切り出した前記帯域雑音信号の振幅と、前記帯域パルス信号の振幅とを、前記通過帯域の前記帯域雑音強度系列に応じて変更する振幅制御部と、
振幅を変更したｎ個の前記帯域雑音信号と、振幅を変更したｎ個の前記帯域パルス信号とを加算した前記ピッチマークごとの混合音源信号を生成する生成部と、
前記ピッチマークごとの前記混合音源信号を重畳する重畳部と、
重畳された前記混合音源信号に前記スペクトルパラメータ系列を用いた声道フィルタを適用して音声波形を生成する声道フィルタ部、
として機能させるためのプログラム。