JP2987089B2

JP2987089B2 - 音声素片作成方法および音声合成方法とその装置

Info

Publication number: JP2987089B2
Application number: JP7220963A
Authority: JP
Inventors: 孝浩釜井; 謙二松井; 紀代原
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1995-08-30
Filing date: 1995-08-30
Publication date: 1999-12-06
Anticipated expiration: 2015-08-30
Also published as: JPH0962295A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、電話照会サービ
ス、音声情報案内システム、パソコン用音声規則合成装
置などに応用可能な音声素片作成方法及び音声合成方
法、装置に関するものである。

【０００２】

【従来の技術】テキストを音声に変換する音声規則合成
技術は、例えばパソコンなどで別の仕事をしながら説明
文や電子メールを聞いたり、ワープロで作成した原稿を
耳で聞きながら校正するのに用いることができる。ま
た、電子ブックなどの機器に組み込むことによりフロッ
ピーディスクやＣＤ−ＲＯＭなどに格納されたテキスト
を液晶ディスプレイを用いずに読むことが可能となる。

【０００３】このような目的に用いられる音声合成シス
テムは小型化および低価格化が可能であることが要求さ
れるが、従来の音声合成方式ではＤＳＰ（ディジタル・
シグナル・プロセッサ）等の特殊なハードウェアや大容
量のメモリを利用しているので、上記のような用途への
応用はほとんど行われていない。

【０００４】テキストを音声に変換するためには、音韻
の連鎖をモデルによってルール化し、目的のテキストに
従ってルールによってパラメータを変化させながら合成
を行う方法と、音声をＣＶ単位やＶＣＶ単位と言った細
かな音韻連鎖単位でとらえ（Ｃは子音、Ｖは母音を表
す）、必要な全ての音韻連鎖を実音声から採取し、素片
として蓄積しておき、目的のテキストに従って接続しな
がら合成する方法がある。

【０００５】ここでは前者をパラメータ合成法、後者を
接続合成法と呼ぶことにする。

【０００６】パラメータ合成法で代表的なものはフォル
マント合成方式である。これは音声の生成過程を、声帯
振動の音源モデルと声道の伝達関数モデルに分離し、目
的とする音声を上記の二つのモデルのパラメータ時間変
化で合成する方式である。フォルマント合成法における
パラメータの代表的なものはフォルマントと呼ばれる音
声振動の周波数軸上でのピークの位置である。これらの
パラメータ生成は音声学的な知見に基づくルールとパラ
メータの代表値を記憶したテーブルを用いて行う。

【０００７】パラメータ合成法は声道伝達関数の演算な
どで計算コストが大きいので、リアルタイムの合成には
ＤＳＰなどが不可欠である。また、パラメータ制御には
膨大なルールが関与するため音質改良が難しいという欠
点がある。しかし、テーブルやルールなどはデータ量と
しては小さいので記憶容量が少なくて済むという利点が
ある。

【０００８】一方、接続合成法には素片の記憶形態によ
って以下の二つの種類がある。素片を音声モデルを用い
てＰＡＲＣＯＲ係数やＬＳＰパラメータなどに変換して
おくパラメータ接続法と、音声モデルを用いずに音声波
形を直接蓄積する波形接続法である。

【０００９】パラメータ接続法は記憶形態が音声パラメ
ータであるため、合成時にピッチや時間長などを容易に
変更できるという利点があり、また、記憶容量も比較的
小容量で済む。

【００１０】しかし、再合成のための計算処理量が比較
的大きいという欠点がある。このため、ＤＳＰ（ディジ
タル・シグナル・プロセッサ）などの専用のハードウェ
アが必要である。また、音声のモデル化が十分ではない
ために、パラメータから再合成できる音声の音質に限界
があることも問題である。

【００１１】一方、波形接続法はパラメータ接続法に比
べて忠実な音声が合成できる可能性がある。しかし、素
片ごとの記憶容量はパラメータ接続法に比べて１０倍以
上となり、高品質をねらう場合さらに大きな記憶容量を
必要とする。

【００１２】記憶容量が大きくなる要因としては素片に
用いる音韻連鎖単位の複雑さと、ピッチや時間長のバリ
エーションを考慮した素片を用意することが支配的であ
る。

【００１３】音韻連鎖単位には前述したようにＣＶ単位
やＶＣＶ単位等が考えられる。

【００１４】ＣＶ単位とは日本語の１音節に対応する一
対の子音と母音の組み合わせの単位である。ＣＶ単位は
子音が２６種類、母音が５種類とするとその組み合わせ
は１３０種類である。ＣＶ単位の接続では直前の母音か
ら子音への連続的な波形変化を表現できないため、自然
性が損なわれる。

【００１５】そこで、ＣＶ単位の直前の母音も含めた単
位がＶＣＶ単位である。ＶＣＶ単位はＣＶ単位の５倍の
６５０種類に上る。

【００１６】また、ピッチや時間長に関しては、波形接
続法ではパラメータ接続法と違って一旦作成した素片の
ピッチや時間長を変更することが困難であることから、
あらかじめ様々なピッチや時間長で発声した音声から、
それらのバリエーションを含めた形で素片化しておく必
要性から、記憶容量の増大を招く。

【００１７】このように、波形接続法で高品質の音声を
合成するには大きな記憶容量が必要である。

【００１８】波形接続法における上記の問題を克服する
ために、ＰＳＯＬＡ（Pitch Synchronous Overlap Add)
法が発明されている（特表平３−５０１８９６）。

【００１９】この方法は音声波形をピッチに同期して窓
関数で切り出し、合成時に目的のピッチになるように重
ね合わせを行う方法である。また、切り出したピッチ波
形を間引いたり繰り返したりすることによって、時間長
の変更も可能である。

【００２０】これによってピッチや時間長のバリエーシ
ョンのための記憶容量増大は軽減された。しかし、合成
時の窓かけの計算コストが大きいという問題がある。窓
かけには窓関数の演算と乗算が必要なので計算コストが
大きくなる。

【００２１】音韻連鎖単位の増大を防ぐ方法としてハイ
ブリッド方式が考案されている（特願平６−０５０８９
０）。この方式は基本的にＣＶ単位のみで素片を構築
し、母音から子音への波形変化の部分はパラメータ合成
方式を用いて生成する方法である。

【００２２】したがって、音韻連鎖単位の種類は１３０
種類程度でよく、また、パラメータ合成法式部分の稼働
率を低くできるので、純粋なパラメータ合成方式に比べ
ると計算コストを低く抑えることができる方法である。

【００２３】ＰＳＯＬＡ方式の窓関数演算の計算コスト
を低減する目的で事前窓かけ方式（特願平６−０３１
３）が発明されている。この方式はＰＳＯＬＡ方式で合
成時に行っていた窓関数演算を、素片作成時に済ませて
おくことによって、合成時には窓関数演算や乗算がなく
なり、計算コストを低く抑えることができる。ＰＳＯＬ
Ａ方式では合成ピッチに合わせて窓の長さを変化させる
が、事前窓かけ方式では当然固定の長さとなる。しか
し、固定の窓長を用いても合成品質が劣化することはな
く、理論的にも無理はない。

【００２４】この、事前窓かけ方式とハイブリッド方式
を融合する事によって（以下、事前窓かけハイブリッド
方式）、少ない記憶容量と低い計算コストを実現するこ
とができる。

【００２５】しかし、残る課題として、ハイブリッド方
式を用いる以上パラメータ合成方式部分の計算コストが
大きいという問題がある。

【００２６】すなわち事前窓かけハイブリッド方式の特
性として、接続合成方式部分の計算コストとパラメータ
合成方式部分の計算コストに極めて大きい差があり、合
成時の計算量が周期的に変動することが上げられる。こ
のことは、事前窓かけハイブリッド方式をリアルタイム
の合成に用いるとき、パラメータ合成方式部分の計算コ
ストの大きさを、接続合成方式部分で吸収できるだけの
計算能力と、計算速度の変動を吸収するためのバッファ
メモリが必要であることを意味する。

【００２７】また、パラメータ合成をリアルタイムで行
う場合、パラメータの変化速度が大きい場合などに計算
精度の影響や合成伝達関数（いわゆるフィルタ）の過渡
特性の影響で、有害な雑音が発生する場合がある。これ
によって合成音の途中に「ポコッ」とか「ケロッ」とい
った異音が発生する場合がある。

【００２８】

【発明が解決しようとする課題】このように、従来の技
術ではパラメータ合成方式部分の計算コストが大きく、
その分の計算能力とメモリの消費が問題である。また、
パラメータ合成をリアルタイムで駆動した場合、計算精
度や過渡特性の影響で異音が発生することがあり、この
ことによって音質が劣化するという問題もあった。

【００２９】本発明は、このような従来の課題を解決す
ることを目的とする。

【００３０】

【課題を解決するための手段】この課題を解決するため
に、本発明は従来パラメータ合成を行っていた母音から
子音への波形変化部分を特殊な接続合成に置き換える。
その手段として、波形変化部分の生成に用いる素片をパ
ラメータ合成によって事前に合成しておく。

【００３１】上記の手段によって、従来のパラメータ合
成部分に相当する子音から母音への波形変化部分におけ
る計算コストは、そのほかの接続合成部分と同程度とな
り、従来以上に低い計算能力での合成が可能であり、ま
た、計算速度の変動を吸収するためのバッファメモリの
容量も小さくすることが可能となる。さらに、波形変化
部分に用いる素片は事前に定常なパラメータを用いて合
成されたものであるため、パラメータを変動させながら
合成した場合の問題点である異音が原理的に発生しな
い。

【００３２】

【発明の実施の形態】以下に本発明の実施の形態例につ
いて図面を参照しながら詳しく説明する。

【００３３】図１は本発明にかかる音声合成装置の実施
の形態例を示したものである。その音声合成装置には音
韻記号解析部１が設けられ、その出力は制御部２に接続
されている。また、個人情報ＤＢ１０が設けられ、制御
部２と互いに接続されている。自然音声素片チャンネル
１２と合成音声素片チャンネル１１が設けられ、自然音
声素片チャンネル１２の内部には音声素片ＤＢ６と音声
素片読み出し部５が設けられている。合成音声素片チャ
ンネル１１の内部にも同様に音声素片ＤＢ４と音声素片
読み出し部３が設けられている。音声素片読み出し部５
は音声素片ＤＢ６と互いに接続されている。音声素片読
み出し部３は音声素片ＤＢ４と互いに接続されている。
音声素片読み出し部３と音声素片読み出し部５の出力は
混合部７の二つの入力に接続されており、混合部７の出
力は振幅制御部８に入力されている。振幅制御部８の出
力は出力部９に入力されている。

【００３４】制御部２からは各種の制御情報が出力され
る。制御情報には自然音声素片インデックス、合成音声
素片ンデックス、混合制御情報、振幅制御情報がある。
まず、自然音声素片インデックスは自然音声素片チャン
ネル１２の音声素片読み出し部５に入力されている。合
成音声素片インデックスは合成音声素片チャンネル１１
の音声素片読み出し部３に入力されている。混合制御情
報は混合部７に入力されている。そして、振幅制御情報
は振幅制御部８に入力されている。

【００３５】図３に音声素片ＤＢ６に格納されているデ
ータの形式を示す。素片ＩＤとは例えば音節一つ一つに
対して録音されたそれぞれの自然音声素片を区別する値
である。この素片ＩＤ一つ一つに対して、複数のピッチ
ＩＤがある。ピッチＩＤは０から順に自然音声素片の先
頭から窓かけによって切り出されたピッチ波形を区別す
る値である。

【００３６】図４に窓かけによってピッチ波形を切り出
す様子を示す。図４の最上段は切り出しの対象となる原
音声波形である。ピッチＩＤが０に相当する波形は図４
のように子音の先頭部分が含まれる場合があるので、先
頭部分が長い非対称な窓で切り出されている。ピッチＩ
Ｄが１以降はその時点でのピッチ周期の1.5〜2倍程度の
ハニング窓で切り出されている。

【００３７】このようにして１素片ＩＤ分の自然音声素
片が作成される。同様に複数の波形についてこのような
操作を行って音声素片ＤＢ６が作成される。

【００３８】続いて、図５は音声素片ＤＢ４に格納され
ているデータの形式を示したものである。図のようにＦ
１インデックスとＦ２インデックスを軸にとった平面に
ピッチ波形を配置している。

【００３９】Ｆ１インデックス、Ｆ２インデックスはそ
れぞれ音声の第１フォルマント周波数及び第２フォルマ
ント周波数に対応している。Ｆ１インデックスが０、
１、２、と大きくなるにつれて第１フォルマント周波数
が高くなることに対応する。Ｆ２インデックスについて
も同様である。つまり、音声素片ＤＢ４に記憶されたピ
ッチ波形はＦ１インデックスとＦ２インデックスの２つ
の値によって特定される。

【００４０】さて、このようにＦ１インデックス、Ｆ２
インデックスで表される波形は事前にフォルマント合成
によって作成される。そのような処理のアルゴリズムを
図６のフローチャートを参照しながら説明する。

【００４１】まず、第１、第２フォルマント周波数の最
小値と最大値を決定する。これらの値は自然音声素片を
録音した際の話者の個人データから決定する。次に、Ｆ
１インデックスおよびＦ２インデックスの階級数を決定
する。この値はどちらも２０前後が適当である（以上ス
テップ６００１）。

【００４２】ステップ６００１で決定した値から、第１
フォルマント周波数及び第２フォルマント周波数のステ
ップ幅を求める（ステップ６００２）。次にＦ１インデ
ックス及びＦ２インデックスを０に初期化し（ステップ
６００３、及びステップ６００４）、ステップ６００５
の式に従って第１フォルマント周波数及び第２フォルマ
ント周波数を計算する。こうして得られたフォルマント
パラメータを用いてステップ６００６においてフォルマ
ント合成を行い、その波形からピッチ波形を切り出す。

【００４３】次に、Ｆ２インデックスに１を加算し（ス
テップ６００７）、ステップ６００５以降の処理を繰り
返す。Ｆ２インデックスが階級数を越えたら（ステップ
６００８）Ｆ１インデックスに１を加える（ステップ６
００９）。その後、ステップ６００４以降の処理を繰り
返す。もし、Ｆ１インデックスが階級数を越えたら処理
を終える。

【００４４】このように、第１フォルマント周波数と第
２フォルマント周波数のとり得る範囲を均等に区切り、
２つの値の組み合わせを網羅した波形を合成することに
より音声素片ＤＢ４を構築する。

【００４５】ステップ６００６における処理は以下のよ
うなものである。まず、第１フォルマント周波数及び第
２フォルマント周波数以外のパラメータを、自然音声素
片の話者の個人データから決定する。そのパラメータは
第１フォルマントバンド幅、第２フォルマントバンド
幅、第３から６フォルマント周波数及びバンド幅、ピッ
チ周波数などである。

【００４６】上記のパラメータはその話者における平均
値を用いるとよい。第１及び第２フォルマント周波数は
母音の種類によって大きく変化し、第３以上のフォルマ
ント周波数は変化が少ないという性質がある。また、第
１及び第２フォルマントバンド幅は母音による変化は大
きいが、フォルマント周波数ほど近くに与える効果は大
きくない。すなわち、第１及び第２フォルマント周波数
が狂うと音韻性（音声が特定の音韻に聞こえやすい度合
い）が大きく低下するが、第１及び第２フォルマントバ
ンド幅は音韻性をあまり低下させることはない。従っ
て、第１及び第２フォルマント周波数以外のパラメータ
を固定とする。

【００４７】ステップ６００５によって算出された第１
及び第２フォルマント周波数と上記の固定パラメータを
用いて音声波形を数ピッチ周期分合成する。こうして合
成された波形から、図４で自然音声素片のピッチ波形を
切り出したように窓関数を用いて切り出しを行う。ただ
し、ここでは切り出すピッチ波形は一つだけでよい。

【００４８】こうして、ステップ６００５からステップ
６００８までのループを１回実行するごとに、Ｆ１イン
デックスとＦ２インデックスの組み合わせに対する合成
音声素片が一つ生成される。

【００４９】ところで、フォルマント合成に用いる音源
波形には一般的に使われる関数によるものを用いてもよ
いが、自然音声素片の録音時の話者の音声から声道逆フ
ィルタで抽出した波形を使用することが望ましい。声道
逆フィルタとは「従来の技術」の項目で述べた声道の伝
達関数の逆関数を用いて、音声波形から伝達特性を除去
し、その結果得られる波形である。その波形は声帯の振
動波形を表している。

【００５０】そこで、その波形をそのままフォルマント
合成の音源として用いることにより、合成された波形は
極めてその話者の個人的な特性を忠実に再現することと
なる。

【００５１】このようにして、音声素片ＤＢ４が構築さ
れる。

【００５２】次に、上記のように構成された音声合成装
置の動作を説明する。まず、音韻記号列が音韻記号解析
部１に入力されると、その入力に対応した音韻情報、時
間長情報、ピッチ情報などが制御部２に出力される。図
２に音韻記号解析部１で解析され、制御部２に出力され
る情報の例を示す。図２では音韻記号列は入力される文
字列である。この例ではカタカナで表現されている。音
韻情報は音韻記号列に対応する音韻を表す値である。こ
の例ではカタカナ１文字ずつに対応して、すなわち音節
単位で値が決められる。時間長は各音節の持続時間であ
る。この例ではミリ秒(msec)で表現されている。この値
は発声の速度、音韻ごとの統計データ、自然音声素片の
ラベル情報などから決定される。開始ピッチおよび中央
ピッチはそれぞれ音節開始部と音節の中央部でのピッチ
であり、この例ではヘルツ(Hz)で表現されている。

【００５３】制御部２はこれらの情報と個人情報ＤＢ１
０に記憶された個人情報から自然音声素片インデック
ス、合成音声素片インデックス、混合制御情報、振幅制
御情報の制御情報を生成する。個人情報ＤＢ１０には各
自然音声素片ごとに母音部の第１、第２フォルマント周
波数、開始部の子音の種類などが記憶されている。

【００５４】自然音声素片インデックスは、音韻情報に
対応する適切な自然音声素片を指す情報である。例えば
図２の最初の音韻情報/a/に対応して、「あ」という音
声で作成された自然音声素片を指す値を出力する。

【００５５】同時に自然音声素片インデックスにはピッ
チＩＤの情報も含まれており、開始ピッチと中央ピッチ
を補間してなめらかなピッチ変化を作り出し、その情報
からピッチ波形を適切なタイミングで読み出すような情
報として、音声素片読み出し部５に出力される。音声素
片読み出し部５はその情報に従って音声素片ＤＢ６から
波形を次々と読み出し、それらの波形を重ね合わせるこ
とによって自然音声素片チャンネル１２の合成波形を生
成する。自然音声素片インデックスの例とそれに従って
自然音声素片を読み出し、自然音声素片チャンネル１２
の波形として合成される様子を図７に示す。

【００５６】合成音声素片インデックスは、音韻情報に
対応する適切な合成音声素片を指す情報である。その情
報の本質は第１及び第２フォルマント周波数である。実
際にはフォルマント周波数情報を対応するフォルマント
インデックスに変換したものである。フォルマントイン
デックスは図６で用いられたもので、（数１）（数２）
で与えられる。Ｆ１ｉｄｘは第１フォルマントインデッ
クス、Ｆ２ｉｄｘは第２フォルマントインデックスであ
る。

【００５７】

【数１】F1idx = (F1-F1min)/(F1max-F1min)*nF1idx

【００５８】

【数２】F2idx = (F2-F2min)/(F2max-F2min)*nF2idx Ｆ１、Ｆ２はそれぞれ第１フォルマント周波数、第２フ
ォルマント周波数で、そのとき合成されている自然音声
素片の母音部の第１、第２フォルマント周波数と、次に
接続される子音の種類により決まる。これらの情報は個
人情報ＤＢ１０を参照することによって得られる。具体
的には母音から子音への過渡域において、母音のフォル
マント周波数を個人情報ＤＢ１０から取り出し、その値
から開始して子音にかけて変化していくフォルマント周
波数のパターンをルールによって生成し、それに従って
フォルマント周波数の軌跡を描く。その軌跡とピッチ情
報で決まる各素片のタイミングで、その時点でのフォル
マント周波数を算出する。

【００５９】このようにして生成される合成音声素片イ
ンデックス情報の例と、それに従って合成音声素片チャ
ンネル１１の波形が合成される様子を図８に示す。また
混合制御情報は図９のように生成される。すなわち、混
合比は各音節に対して開始部から中間部までは完全に自
然音声素片チャンネル１２で、中間部から終了部にかけ
て徐々に合成音声素片チャンネル１１側に移る。終了部
から次の音節の開始部にかけては比較的短い区間で自然
音声素片チャンネル１２側に戻る。

【００６０】このように、各音節の主要部分は自然音声
素片を用い、次の音節との変化部を合成音声素片でなめ
らかにつなぐように変化させる。

【００６１】最後に振幅制御情報によって全体の波形の
振幅が制御を受けて、出力部から音声波形として出力さ
れる。振幅制御情報は例えば文末でなめらかに振幅を小
さくするなどの目的で用いられる。

【００６２】以上説明したように、音節間のつなぎに用
いられる合成音声素片波形は、従来の技術ではリアルタ
イムに合成を行う必要があったが、本実施の形態例によ
れば次々に変化する波形をピッチごとに読み出しながら
接続するという、きわめて低い計算コストで生成するこ
とができる。また、別の従来技術ではこのようなつなぎ
部分を自然音声素片側に含めるために、非常に大容量の
音声素片ＤＢを保持する必要があったが、本実施の形態
例では自然音声素片のデータは基本的にＣＶ単位で構築
すればよいので、小容量となる。そのために合成音声素
片を保持しなければならないが、その容量は本実施の形
態例ではＦ１インデックスとＦ２インデックスをともに
２０個とした場合、わずか４００ピッチ波形を保持する
だけでよいので、非常に少ない記憶容量でよい。

【００６３】続いて、図１０に合成音声素片チャンネル
１１の別の実施の形態例を示す。そこには、第１の音声
素片読み出し部１３と第２の音声素片読み出し部１５が
設けられている。第１の音声素片読み出し部１３には第
１の音声素片ＤＢ１４が接続され、第２の音声素片読み
出し部１５には第２の音声素片ＤＢ１６が接続されてい
る。また、混合部１７が設けられ、その２つの入力には
それぞれ第１の音声素片読み出し部１３と第２の音声素
片読み出し部１５の出力が接続されている。混合部１７
の出力は合成音声素片チャンネル１１の出力となってい
る。

【００６４】第１の音声素片ＤＢ１４と第２の音声素片
ＤＢ１６に格納された合成音声素片はそれぞれ同じＦ１
インデックス、Ｆ２インデックスで構成されているが、
異なる音源波形を使用して合成されたものである。

【００６５】第１の音声素片ＤＢ１４で使用する音源は
通常のスタイルで発声された音声から抽出されたもので
ある。一方、第２の音声素片ＤＢ１６で使用する音源は
弱く発声された音声から抽出されたものである。

【００６６】それらの音源の違いは周波数スペクトルの
全体の傾斜にある。強く発声されたとき、音源波形は高
い周波数まで高調波を多く含んでおり、スペクトルの傾
斜は小さい（水平に近い）。一方、弱く発声されたと
き、音源波形の高調波は少なくなり、スペクトルの傾斜
は大きい（高周波数方向に行くに従って低下する）。

【００６７】実際の音声では発声中に音源のスペクトル
傾斜はめまぐるしく変化しており、そのような特性を模
擬するために二つの音源波形を比率を変えながら混合す
るという方法がある。本実施の形態例では、合成音声素
片チャンネルは事前に合成した波形を使うため、二つの
特性を持った音源波形で別々に合成された合成波形を後
から混合することで同様の効果を得ることができる。

【００６８】このような構成にすることで、文頭から文
末にかけて、あるいは鼻音などでのスペクトル傾斜の変
化を模擬することが可能となる。

【００６９】なお、本実施の形態例では合成音声素片の
作成時にフォルマント合成を用いたが、これはパラメー
タ合成に属する合成方法、例えばＬＰＣ合成、ＰＡＲＣ
ＯＲ合成、ＬＳＰ合成等でももちろんかまわない。

【００７０】この時、声道逆フィルタを用いて抽出した
音源波形を用いる代わりに、ＬＰＣ残差波形などを用い
てももちろん構わない。

【００７１】また、合成音声素片でＦ１インデックス、
Ｆ２インデックスの全ての組み合わせに対して素片を対
応させたが、第１フォルマント周波数と第２フォルマン
ト周波数には物理的に考えられない組み合わせもあり、
また生起確立が低い組み合わせも存在するので、そのよ
うな素片は用意しなくても構わない。そうすることによ
って記憶容量をさらに低減することができる。

【００７２】また、この生起確立を調べることによって
第１フォルマントと第２フォルマントを軸とする空間を
ベクトル量子化などの手法で不均一に分割することによ
ってさらに効率良くメモリを活用し、合成品質が向上さ
せることも考えられる。

【００７３】本実施の形態例では合成音声素片のパラメ
ータ軸として、第１フォルマント周波数、第２フォルマ
ント周波数を用い、さらに別の実施の形態例では音源の
スペクトル傾斜を用いたが、記憶容量に余裕があればさ
らに別のパラメータを加えてももちろん構わない。例え
ば第１フォルマント周波数、第２フォルマント周波数に
加えて第３フォルマント周波数を加えれば、それらによ
って張られる３次元空間を分割して合成音声素片を構築
すればよい。あるいは、スペクトル傾斜以外の音源特性
変化、例えば地声と裏声などを変化させたい場合は、そ
れぞれの音源で別々の合成音声素片を構築し、合成時に
混合するなどとすればよい。

【００７４】また、本実施の形態例では個人情報ＤＢ１
０を設け、音声素片ＤＢ６の自然音声素片のフォルマン
ト周波数を用いて合成音声素片インデックスを生成した
が、フォルマント周波数は母音が決まればだいたい決定
するので、母音別のフォルマント周波数表を設けること
によって代用しても構わない。

【００７５】

【発明の効果】以上説明したように、本発明によれば従
来のパラメータ合成部分に相当する子音から母音への波
形変化部分における計算コストは、そのほかの接続合成
部分と同程度となり、全体の計算コストを極めて低く抑
えることが可能である。

【００７６】また、従来計算速度の変動を吸収するため
に必要であったバッファメモリの容量も小さくすること
が可能である。

【００７７】さらに、パラメータ合成を行うことにより
発生していた異音の問題も原理的に取り除くことができ
る。

【図面の簡単な説明】

【図１】本発明の音声合成装置の実施の形態例を示す構
成図

【図２】音韻記号解析部１から制御部２に出力される情
報構成図

【図３】音声素片ＤＢ６に格納されているデータの形式
図

【図４】自然音声波形から窓かけによってピッチ波形を
切り出す様子を示す波形図

【図５】音声素片ＤＢ４に格納されているデータの形式
図

【図６】音声素片ＤＢ４に格納するピッチ波形の生成ア
ルゴリズムを示すフローチャート

【図７】自然音声素片インデックスの例、及び自然音声
素片チャンネル波形が合成される様子を示す波形図

【図８】合成音声素片インデックスの例、及び合成音声
素片チャンネル波形が合成される様子を示す波形図

【図９】混合制御情報の例のグラフ

【図１０】合成音声素片チャンネルの別の実施の形態例
を示す構成図

【符号の説明】

１音韻記号解析部２制御部３音声素片読み出し部４音声素片ＤＢ５音声素片読み出し部６音声素片ＤＢ７混合部８振幅制御部９出力部１０個人情報ＤＢ１１合成音声素片チャンネル１２自然音声素片チャンネル１３音声素片読み出し部１４音声素片ＤＢ１５音声素片読み出し部１６音声素片ＤＢ１７混合部

フロントページの続き (56)参考文献特開平７−72898（ＪＰ，Ａ) 特開昭60−57399（ＪＰ，Ａ) 特開昭62−296198（ＪＰ，Ａ) 特開平５−19790（ＪＰ，Ａ) 特開平７−110697（ＪＰ，Ａ) 特開平６−266390（ＪＰ，Ａ) 特開平８−36397（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 - 9/20 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】パラメータを生成するパラメータ生成部
と、前記パラメータ生成部が生成したパラメータに従っ
て合成波形を生成する音声合成部と、前記合成波形を記
憶する波形記憶部と、前記合成波形に対応するパラメー
タの値を記憶するパラメータ記憶部とを利用して音声素
片を作成する方法であって、前記パラメータ生成部は、Ｎ（Ｎは正の整数）個のパラ
メータからなるパラメータベクトルＰが張るＮ次元空間
ＳをＭ（Ｍは正の整数）個の領域Ａ0〜ＡM-1に分割し、
０からＭ−１に渡って変化する全ての整数ｉについて領
域Ａi内の所望の位置に対応するパラメータベクトルＰi
を生成し、前記音声合成部はパラメータベクトルＰiに従って合成
波形を生成し、前記波形記憶部は前記合成波形を記憶するとともに、前
記パラメータ記憶部は前記合成波形に対応するパラメー
タベクトルＰiを記憶し、前記パラメータベクトルＰｉ
の要素パラメータは、音声の一つまたは複数のフォルマ
ントの中心周波数、声帯振動のスペクトル傾斜角の内
の、一つまたは任意の組み合わせであることを特徴とす
る音声素片作成方法。
【請求項２】音声合成部は、パラメータに従って合成
した波形の適当な位置の単一のピッチ周期の波形を該ピ
ッチ周期内のピークを中心として窓関数で切り出したピ
ッチ波形を生成し、前記波形記憶部は前記ピッチ波形を
記憶することを特徴とする請求項１記載の音声素片作成
方法。
【請求項３】音声合成部はいわゆるフォルマント合成
方式によるものであることを特徴とする請求項１又は２
記載のいずれかの音声素片作成方法。
【請求項４】自然音声波形から声道伝達特性を抽出
し、前記声道伝達特性の逆特性を有する声道逆フィルタ
を構成し、前記自然音声波形から前記声道逆フィルタに
より声道伝達特性を除去し、その結果得られる振動波形
を励振音源波形として用いることを特徴とする請求項３
記載の音声素片作成方法。
【請求項５】自然音声素片記憶部により、あらかじめ
録音された音声波形を、所定の音韻連鎖ごとに切り出し
て作成された自然音声素片を記憶し、合成音声素片記憶部により、請求項１〜４のいずれかの
音声素片作成方法によって作成された音声素片を記憶
し、接続合成部により、前記自然音声素片と前記合成音
声素片を接続しながら音声を合成することを特徴とする
音声合成方法。
【請求項６】自然音声素片記憶部に記憶された自然音
声素片のパラメータを記憶する自然音声素片パラメータ
記憶部と、前記合成音声素片記憶部に記憶された合成音
声素片のパラメータを記憶する合成音声素片パラメータ
記憶部とを利用して音声を合成する音声合成方法であっ
て、前記自然音声素片パラメータ記憶部と前記合成音声素片
パラメータ記憶部に記憶されたパラメータは同一または
同一の組み合わせであり、前記接続合成部は、二つの自然音声素片を互いに接続す
る際に、接続部における互いのパラメータの違いを所定
の時間区間に渡って内挿し、各タイミングにおいて内挿
されたパラメータの組み合わせに最も近いパラメータで
合成された合成音声素片を前記合成音声素片記憶部から
読み出し、前記二つの自然音声素片の間を前記合成音声
素片で接続することを特徴とする請求項５記載の音声合
成方法。
【請求項７】合成音声素片記憶部は請求項４の音声素
片作成方法によって作成された合成音声素片を記憶し、
前記自然音声素片記憶部に記憶された自然音声素片と、
前記音声合成部の励振音源波形は同一の話者によって発
声されたものであることを特徴とする請求項５又は６
記載の音声合成方法。
【請求項８】合成音声素片パラメータ記憶部は請求項
４の音声素片作成方法によって作成された合成音声素片
のパラメータを記憶することを特徴とする請求項７記載
の音声合成方法。
【請求項９】あらかじめ録音された音声波形を所定の
音韻連鎖ごとに切り出して作成された自然音声素片を記
憶する合成音声素片記憶部と、請求項１〜４のいずれかの音声素片作成方法によって作
成された音声素片を記憶する自然音声素片記憶部と、前
記自然音声素片と前記合成音声素片を接続しながら音声
を合成する接続合成部とを備えたことを特徴とする音声
合成装置。
【請求項１０】自然音声素片記憶部に記憶された自然
音声素片のパラメータを記憶する自然音声素片パラメー
タ記憶部と、前記合成音声素片記憶部に記憶された合成
音声素片のパラメータを記憶する合成音声素片パラメー
タ記憶部とを有し、前記自然音声素片パラメータ記憶部
と前記合成音声素片パラメータ記憶部に記憶されたパラ
メータは、同一または同一の組み合わせであり、前記接続合成部は、二つの自然音声素片を互いに接続す
る際に、接続部における互いのパラメータの違いを所定
の時間区間に渡って内挿し、各タイミングにおいて内挿
されたパラメータの組み合わせに最も近いパラメータで
合成された合成音声素片を合成音声素片記憶部から読み
出し、前記二つの自然音声素片の間を前記合成音声素片
で接続することを特徴とする請求項９記載の音声合成装
置。
【請求項１１】合成音声素片記憶部は請求項４の音声
素片作成方法によって作成された合成音声素片を記憶
し、前記自然音声素片記憶部に記憶された自然音声素片と、
前記音声合成部の励振音源波形は同一の話者によって発
声されたものであることを特徴とする請求項９又は１０
記載の音声合成装置。
【請求項１２】合成音声素片パラメータ記憶部は、請
求項４の音声素片作成方法によって作成された合成音声
素片のパラメータを記憶することを特徴とする請求項１
１記載の音声合成装置。