JP2004053738A

JP2004053738A - 音声合成方法および装置並びに音声合成用辞書生成方法および装置

Info

Publication number: JP2004053738A
Application number: JP2002208340A
Authority: JP
Inventors: Masaaki Yamada; 山田　雅章
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2002-07-17
Filing date: 2002-07-17
Publication date: 2004-02-19
Anticipated expiration: 2022-07-17
Also published as: JP3897654B2

Abstract

【課題】微細素片を得るために適用した窓関数による音声のスペクトルの「ぼやけ」を軽減するための処理に必要な計算量、記憶容量を削減する。
【解決手段】音声合成用辞書には、音声波形３０１に基づいて得られたスペクトル補正フィルタ３１０を代替する近似スペクトル補正フィルタ３０６と、スペクトル補正フィルタ３１０に代わって近似スペクトル補正フィルタ３０６を用いることによる影響を低減するべく、音声波形３０１に近似補正フィルタ３０２作用させて修正音声波形とが格納される。音声合成に際しては、修正音声波形３０３から窓関数３０４を用いて微細素片３０５を切り出し、これに近似スペクトル補正フィルタ３０６を作用させてスペクトル補正された微細素片３０７を得、これらを再配置後、重畳して合成音声波形３０９を得る。
【選択図】　図４

Description

【０００１】
【発明の属する技術分野】
本発明は、音声を合成する音声合成装置および方法に関する。
【０００２】
【従来の技術】
従来より、所望の合成音声を得るための音声合成方法として、あらかじめ収録し蓄えられた音声素片を複数の微細素片に分割し、分割の結果得られた微細素片の再配置を行って所望の合成音声を得る方法がある。これら微細素片の再配置において、微細素片に対して間隔変更・繰り返し・間引き等の処理が行われることにより、所望の時間長・基本周波数を持つ合成音声が得られる。
【０００３】
図８は、音声波形を微細素片に分割する方法を模式的に示した図である。図８に示された音声波形は、切り出し窓関数（以下、窓関数）によって微細素片に分割される。このとき、有声音の部分（音声波形の後半部）では原音声のピッチ間隔に同期した窓関数が用いられる。一方、無声音の部分では、適当な間隔の窓関数が用いられる。
【０００４】
そして、図８に示すようにこれらの微細素片を間引いて用いることにより音声の継続時間長を短縮することができる。一方、これらの微細素片を繰り返して用いれば、音声の継続時間長を伸長することができる。更に、図８に示すように、有声音の部分では、微細素片の間隔を詰めることにより合成音声の基本周波数を上げることが可能となる。一方、微細素片の間隔を広げることにより合成音声の基本周波数を下げることが可能である。
【０００５】
以上のような繰り返し・間引き・間隔変更を行なって再配置された微細素片を再び重畳することにより所望の合成音声が得られる。なお、音声素片を収録・蓄積する単位としては、音素やＣＶ・ＶＣあるいはＶＣＶといった単位が用いられる。ＣＶ・ＶＣは音素内に素片境界を置いた単位、ＶＣＶは母音内に素片境界を置いた単位である。
【０００６】
【発明が解決しようとする課題】
しかしながら、上記従来法においては、音声波形から微細素片を得るために窓関数が適用されることにより、音声のスペクトルに所謂「ぼやけ」が生じてしまう。すなわち、音声のホルマントが広がったりスペクトル包絡の山谷が曖昧になる等の現象が起こり、合成音声の音質が低下することになる。
【０００７】
本発明は上記の課題に鑑みてなされたものであり、微細素片を得るために適用した窓関数による音声のスペクトルの「ぼやけ」を軽減し、高音質な音声合成を実現することを目的とする。
【０００８】
更に、本発明の目的は、音声のスペクトルの「ぼやけ」を軽減して高音質な音声合成を少ないハードウエア資源で実現可能とすることにある。
【０００９】
【課題を解決するための手段】
上記の目的を達成するための本発明による音声合成方法は、
音声波形データに基づいて得られたスペクトル補正用の補正フィルタを代替する代替フィルタと、前記補正フィルタに代わって前記代替フィルタを用いることによる影響を補正するように前記音声波形データを処理して生成された修正波形データを格納する格納手段を有し、
前記修正波形データと窓関数とから微細素片を取得する取得工程と、
前記取得工程で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置工程と、
前記再配置工程で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成工程と、
前記修正波形データに対応する代替フィルタを、前記取得再配置工程、合成工程を含む処理の過程において作用させるスペクトル補正工程とを備える。
【００１０】
また、上記の目的を達成するための本発明による音声合成用辞書生成方法は、
音声合成処理に用いる辞書の生成方法であって、
音声波形データに基づいて得られるスペクトル補正用の補正フィルタを代替する代替フィルタを生成する第１生成工程と、
前記代替フィルタを用いることによる影響を補正するように前記音声波形データを処理して修正波形データを生成する第２生成工程と、
前記第２生成工程で生成された修正波形データに前記第１生成工程で生成された代替フィルタを対応付けて格納する格納工程とを備える。
【００１１】
また、本発明によれば、上記音声合成方法を実行する音声合成装置並びに音声合成用辞書生成方法を実行する音声合成用辞書生成装置が提供される。
【００１２】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態のいくつかについて詳細に説明する。
【００１３】
〈第１実施形態〉
本出願人は、特願２００２−１６４６２４において、図８に示した微細素片に対してスペクトル補正フィルタを適用して微細素片のスペクトルを補正することにより、上述した音声スペクトルの「ぼやけ」を改善する音声合成装置及び方法を提案した。これは、音声波形から微細素片を得るために窓関数が適用されることによって生じた、音声のホルマントが広がる減少や、スペクトル包絡の山谷が曖昧になる現象等を緩和し、合成音声の音質低下を防ぐものである。
【００１４】
図９は、スペクトル補正フィルタを適用する方法を模式的に表した図である。窓関数９０２によって音声波形９０１より切り出された微細素片９０３の各々に、対応するスペクトル補正フィルタ９０７を作用させることにより、スペクトル補正された微細素片９０４（例えばホルマントが補正された微細素片）を得る。そして、スペクトル補正された微細素片９０４を用いて合成音声９０６を生成する。
【００１５】
ここで、スペクトル補正フィルタは音響分析によって得られ、上記処理に適用可能なスペクトル補正フィルタ９０７の具体例として、以下の３つのフィルタが挙げられる。
【００１６】
（１）まず、音響分析にｐ次の線形予測分析を用いた場合には、以下の［数１］式で表される特性を持ったフィルタをスペクトル補正フィルタ９０７として用いることができる。
【００１７】
【数１】

【００１８】
（２）また、音響分析にｐ次のケプストラム分析を用いた場合には、以下の［数２］式で表される特性を持ったフィルタをスペクトル補正フィルタとして用いることができる。
【００１９】
【数２】

【００２０】
（３）あるいは、上記フィルタのインパルス応答を適当な次数で打ち切って構成した、以下の［数３］式で表されるＦＩＲフィルタを用いることも可能である。
【００２１】
【数３】

【００２２】
上記各式において、ｐは分析次数、μ，γは適当な係数、αは線形予測係数、ｃはケプストラム係数である。また、βは［数１］，［数２］で表されるフィルタのインパルス応答から得られたＦＩＲフィルタ係数である。
【００２３】
さて、上記スペクトル補正フィルタの演算には、波形１サンプル当たり、少なくとも十回〜数十回以上程度の積和演算が必要である。これは、音声合成の基本処理（図８に示された処理）の計算量に対して非常に大きい。また、通常、上記補正フィルタの係数は音声合成用辞書作成時に求めておくため、補正フィルタ係数を保持しておくための記憶領域も必要となる。すなわち、音声合成用辞書のサイズが肥大化してしまう。
【００２４】
もちろん、上記フィルタ次数ｐやＦＩＲフィルタ次数ｐ’を小さくすれば、計算量や記憶容量を削減することが出来る。あるいは、スペクトル補正フィルタ係数をクラスタリングすることにより、スペクトル補正フィルタ係数を保持するのに必要な記憶容量を削減できる。しかしながら、この場合にはスペクトル補正の効果が薄れ、音質が低下することになる。そこで、以下に説明する実施形態では、スペクトル補正フィルタリングに必要な計算量・記憶容量を軽減して、計算量・記憶容量の増加を抑えながら、音声のスペクトルの「ぼやけ」を軽減し、高音質な音声合成を実現する。
【００２５】
第１実施形態では、フィルタ次数を小さくした近似フィルタを用いて計算量や記憶容量を低減するとともに、音声合成用辞書の波形データを当該近似フィルタに適するように修正しておくことにより、合成音声の品質を維持する。
【００２６】
図１は第１実施形態におけるハードウェア構成を示すブロック図である。図１において、１１は中央処理装置であり、数値演算・制御等の処理を行なう。特に、中央処理装置１１は、以下に説明する手順に従った音声合成処理を実行する。１２は出力装置であり、中央処理装置１１の制御下でユーザに対して各種の情報を提示する。１３はタッチパネル或はキーボード等を備えた入力装置であり、ユーザが本装置に対して動作の指示を与えたり、各種の情報を入力するのに用いられる。１４は音声を出力する音声出力装置であり音声合成された内容を出力する。
【００２７】
１５はディスク装置や不揮発メモリ等の記憶装置であり、音声合成用辞書５０１等が保持される。音声合成用辞書５０１には後述の方法で音声波形に修正を加えた修正波形データと、後述の方法で近似されたスペクトル補正フィルタが格納される。１６は読み取り専用の記憶装置であり、本実施形態の音声合成処理の手順や、必要な固定的データが格納される。１７はＲＡＭ等の一時情報を保持する記憶装置であり、一時的なデータや各種フラグ等が保持される。以上の各構成（１１〜１７）は、バス１８によって接続されている。なお、本実施形態ではＲＯＭ１６に音声合成処理のための制御プログラムが格納され、中央処理装置１１がこれを実行する形態とするが、そのような制御プログラムを外部記憶装置１５に格納しておき、実行に際してＲＡＭ１７にロードするような形態としてもよい。
【００２８】
以上のような構成を備えた本実施形態の音声出力装置の動作について、図２，図３及び図４を参照して以下に説明する。図２及び図３は第１実施形態による音声出力処理を説明するフローチャートである。また、図４は第１実施形態の音声合成処理の様子を表す図である。
【００２９】
本実施形態では、スペクトル補正フィルタの構成を音声合成に先立って行い、フィルタを構成するための構成情報（フィルタ係数）を所定の記憶領域（音声合成用辞書）に保持しておく構成となっている。すなわち、音声合成用辞書を作成するためのデータ作成処理（図２）と音声合成処理（図３）の２つのプロセスになっている。ここで、データ作成処理ではスペクトル補正フィルタの近似を採用して構成情報の情報量低減を図るとともに、当該スペクトル補正フィルタの近似による合成音声の劣化を防止するように音声合成辞書の音声波形を修正する。
【００３０】
まず、ステップＳ１において、合成音声の元となる波形データ（図４の音声波形３０１）を取得する。そして、ステップＳ２において、ステップＳ１で取得した波形データについて線形予測（ＬＰＣ）分析、ケプストラム分析、一般化ケプストラム分析等の音響分析を行い、スペクトル補正フィルタ３１０を構成するのに必要なパラメータを計算する。なお、波形データの分析は、ある定められた時間間隔で行なっても良いし、ピッチ同期分析を行なっても良い。
【００３１】
次に、スペクトル補正フィルタ構成ステップＳ３において、ステップＳ２で計算されたパラメータを用いてスペクトル補正フィルタ３１０を構成する。例えば、音響分析にｐ次の線形予測分析を用いた場合には、上記［数１］で表される特性を持ったフィルタをスペクトル補正フィルタ３１０として用いる。また、ｐ次のケプストラム分析を用いた場合には、［数２］で表される特性を持ったフィルタをスペクトル補正フィルタ３１０として用いる。あるいは、上記フィルタのインパルス応答を適当な次数で打ち切って構成した、［数３］で表されるＦＩＲフィルタがスペクトル補正フィルタ３１０として用いられる場合もある。なお、実際には、上記の各式において、システムのゲインを考慮する必要がある。
【００３２】
次に、ステップＳ４において、ステップＳ３で構成したスペクトル補正フィルタ３１０を近似によって簡略化し、より少ない計算量・記憶量で実現可能な近似スペクトル補正フィルタ３０６を構成する。近似スペクトル補正フィルタ３０６の簡単な例としては、上記［数３］で表されるＦＩＲフィルタの打ち切り次数を低次に限ったフィルタが考えられる。あるいは、スペクトル補正フィルタとの周波数特性の差をスペクトル領域における距離として定義し、その差が最小となるフィルタ係数をニュートン法等によって求めることで近似補正フィルタを構成することも可能である。
【００３３】
次に、ステップＳ５において、ステップＳ４で構成した近似スペクトル補正フィルタ３０６を音声合成用辞書５０１に記録する（実際には近似スペクトル補正フィルタの係数を格納することになる）。
【００３４】
次のステップＳ６〜Ｓ８では、上記ステップＳ４、Ｓ５で構成し、音声合成用辞書５０１に記録した近似スペクトル補正フィルタを音声波形に適用した際の、音質劣化を低減するべく音声波形データを修正して音声波形辞書５０１に登録する。
【００３５】
まず、ステップＳ６において、スペクトル補正フィルタ３１０と近似スペクトル補正フィルタ３０６の逆フィルタを合成し、近似補正フィルタ３０２を構成する。例えば、スペクトル補正フィルタとして［数１］で表されるフィルタを用い、近似スペクトル補正フィルタとして［数３］で表される低次ＦＩＲフィルタを用いた場合、近似補正フィルタは以下の［数４］のようになる。
【００３６】
【数４】

【００３７】
次に、ステップＳ７において、ステップＳ１で得られた音声波形データに対して上記近似補正フィルタ３０２を適用し、修正音声波形３０３を作成する。そして、ステップＳ８において、ステップＳ７で得られた修正音声波形を音声合成用辞書５０１に記録する。
【００３８】
以上がデータ作成処理である。次に、音声合成処理を図３のフローチャートを参照して説明する。音声合成処理では、上記データ作成処理によって音声合成用辞書５０１に登録された近似スペクトル補正フィルタ３０６と修正音声波形３０３が用いられる。
【００３９】
まず、韻律目標値取得ステップＳ９において、合成音声の目標韻律値を取得する。合成音声の目標韻律値は、歌声合成の様に直接上位モジュールから与えられる場合もあれば、何らかの手段を用いて推定される場合もある。例えば、テキストからの音声合成であるならばテキストの言語解析結果より推定される。
【００４０】
次に、ステップＳ１０において、ステップＳ９で取得した目標韻律値に基づいて音声合成用辞書５０１に記録された修正音声波形を取得する。そして、ステップＳ１１において、ステップＳ５で音声合成用辞書５０１に記録された近似スペクトル補正フィルタを読み込む。なお、読み込まれる近似スペクトル補正フィルタはステップＳ１０で取得した修正音声波形に対応する近似スペクトル補正フィルタである。
【００４１】
次に、ステップＳ１２において、ステップＳ１０で取得した修正音声波形に窓関数３０４を適用し、微細素片３０５を切り出す。なお、窓関数としてはハニング窓等が用いられる。次に、ステップＳ１３において、ステップＳ１２で切り出した微細素片３０５の各々に対して、ステップＳ１１で読み込まれた近似スペクトル補正フィルタ３０６を適用し、微細素片３０５のスペクトルを補正する。こうして、スペクトル補正された微細素片３０７が取得される。
【００４２】
次に、ステップＳ１４において、ステップＳ１３でスペクトル補正された微細素片３０７を、ステップＳ９で取得した韻律目標値に合致するように、間引き・繰り返し・間隔変更して再配置（３０８）することにより、韻律変更する。そしてステップＳ１５において、ステップＳ１４で再配置した微細素片を重畳し、合成音声３０９（音声素片）を得る。その後、ステップＳ１６において、ステップＳ１５で得られた合成音声３０９（音声素片）を接続して合成音声を得て音声出力する。
【００４３】
なお、微細素片の再配置処理に関して、「間引き」については、図４に示すように近似スペクトル補正フィルタ３０６を作用させる前に実行するようにしてもよい。このようにすれば、不要な微細素片についてフィルタ処理を施すという無駄な処理を省くことができるからである。
【００４４】
〈第２実施形態〉
上記第１実施形態においては、近似によってフィルタ係数の次数を減らし、計算量や記憶容量を低減した例について説明した。第２実施形態では、スペクトル補正フィルタのクラスタリングによって記憶容量を削減する場合について説明する。第２実施形態のプロセスは、クラスタリング処理（図５）、データ作成処理（図６）および音声合成処理（図７）の３つのプロセスとなる。なお、本処理を実現するための装置構成は第１実施形態（図１）と同様である。
【００４５】
図５のフローチャートにおいて、ステップＳ１、Ｓ２、Ｓ３はスペクトル補正フィルタを構成する処理であり、第１実施形態（図２）と同様である。これらの処理を音声合成用辞書５０１に含まれる全ての波形データに対して行なう（ステップＳ１００）。
【００４６】
全波形データについてスペクトル補正フィルタが構成されると、ステップＳ１０１へ進み、ステップＳ３で得られたスペクトル補正フィルタをクラスタリングする。なお、クラスタリングとしては、例えばＬＢＧアルゴリズムと呼ばれる手法等を適用できる。そして、ステップＳ１０２で、ステップＳ１０１によるクラスタリングの結果（クラスタリング情報）を外部記憶装置１５に記録する。具体的には、各クラスタの代表ベクトル（フィルタ係数）とクラスタ番号の対応表が作成され、記録される。この代表ベクトルによって当該クラスタのスペクトル補正フィルタ（代表フィルタ）が構成される。本実施形態では、ステップＳ３で音声合成用辞書５０１に登録されている各波形データについてスペクトル補正フィルタを構成し、各波形データに対応するスペクトル補正フィルタの係数を上記クラスタ番号で音声合成用辞書５０１内に保持する。すなわち、図６により後述するように、第２実施形態の音声合成用辞書５０１には、各音声波形の波形データ（正確には修正音声波形データ（図６により後述））とスペクトル補正フィルタのクラスタ番号、及び各クラスタ番号と代表ベクトル（各係数の代表値）が登録されることになる。
【００４７】
次に、辞書作成処理（図６）を説明する。辞書作成処理において、ステップＳ１〜Ｓ３によるスペクトルフィルタの構成処理は第１実施形態と同様である。第１実施形態と異なる点は、近似スペクトル補正フィルタを構成する代わりに、スペクトル補正フィルタのフィルタ係数をベクトル量子化してクラスタ番号で登録する点である。すなわち、まず、ステップＳ１０３において、ステップＳ３で得られたスペクトル補正フィルタに最も近いベクトルをステップＳ１０２で記録されたクラスタリング情報の代表ベクトルから選択する。次に、ステップＳ１０４において、ステップＳ１０３で選択された代表ベクトルに対応する番号（クラスタ番号）を、音声合成用辞書５０１に記録する。
【００４８】
さらに、スペクトル補正フィルタのフィルタ係数を量子化することによって生じる合成音声の劣化を低減するために修正音声波形を生成し、音声合成用辞書に登録する。すなわち、ステップＳ１０５において、量子化誤差を補正するための量子化誤差補正フィルタを構成する。量子化誤差補正フィルタは、上記代表ベクトルを使って構成されるフィルタの逆フィルタと当該音声波形のスペクトル補正フィルタとを合成することによって構成される。例えば、スペクトル補正フィルタとして［数１］で表されるフィルタを用いた場合、量子化誤差補正フィルタは［数５］のようになる。
【００４９】
【数５】

【００５０】
数５において，α’がベクトル量子化された線形予測係数である。その他の形式のフィルタを用いた場合も同様に量子化誤差補正フィルタを構成できる。こうして構成された量子化誤差補正フィルタを用いて波形データを修正して修正音声波形を作成し（ステップＳ７）、得られた修正音声波形を音声合成用辞書５０１に登録する（ステップＳ８）。スペクトル補正フィルタをクラスタ番号と対応表（クラスタ情報）によって登録するので、音声合成用辞書に要求される記憶容量を低減できる。
【００５１】
音声合成時においては、図７のフローチャートに示されるように、第１実施形態の処理におけるステップＳ１１（近似スペクトル補正フィルタを読み込むステップ）が不要となり、代りにステップＳ１０６（スペクトル補正フィルタ番号（クラスタ番号）を読込む処理）およびステップＳ１０７（読み込んだクラスタ番号からスペクトル補正フィルタを取得する処理）が追加される。
【００５２】
第１実施形態と同様に、韻律目標値を取得し（ステップＳ９）、図６のステップＳ８で登録された修正音声波形データを取得する（ステップＳ１０）。ステップＳ１０６では、ステップＳ１０４で記録したスペクトル補正フィルタ番号を読み込む。次に、ステップＳ１０７において、ステップＳ１０２で記録された対応表を元に、スペクトル補正フィルタ番号に対応するスペクトル補正フィルタを取得する。以下、第１実施形態と同様にステップＳ１２〜Ｓ１６により合成音声を出力する。すなわち、修正音声波形に窓関数を適用して微細素片を切り出し（ステップＳ１２）、切り出された微細素片にステップＳ１０７で取得したスペクトル補正フィルタを適用してスペクトル補正された微細素片を取得し（ステップＳ１３）、韻律目標値に従ってスペクトル補正された微細素片を再配置し（ステップＳ１４）、再配置した微細素片を重畳して合成音声３０９（音声素片）を得る（ステップＳ１５）。
【００５３】
以上のように、クラスタリングによって，スペクトル補正フィルタを量子化しても、［数５］に示したようなフィルタによって修正された修正音声波形を用いることにより量子化誤差を補正することが可能となり、音質を損なうことなく記憶容量を削減することが可能となる。
【００５４】
〈その他の実施形態〉
上記各実施形態において、波形のサンプリング周波数が高い場合には、帯域分割フィルタによって帯域分割を行い、帯域制限された個々の波形に対してスペクトル補正フィルタリングを行なっても良い。この場合、帯域毎にフィルタを持ち、対象となる音声波形そのものも帯域分割して、それぞれの波形について処理を行なうことになる。帯域分割によってスペクトル補正フィルタの次数が押えられ、計算量を削減する効果がある。メルケプストラムのような周波数軸の伸縮によっても同様の効果がある。
また、上記第１および第２実施形態を組み合わせた実施形態も可能である。この場合、近似前のスペクトル補正フィルタをベクトル量子化した後、代表ベクトルによるフィルタを近似しても良いし、近似スペクトル補正フィルタの係数をベクトル量子化しても良い。
また、第２実施形態において、音響分析の結果を一旦変換し、変換後のベクトルをベクトル量子化しても良い。例えば、音響分析に線形予測係数を用いた場合、線形予測係数を直接ベクトル量子化するのではなく、ＬＳＰ係数に変換し、ＬＳＰ係数を量子化する。スペクトル補正フィルタを構成する際には、量子化されたＬＳＰ係数を線形予測係数に逆変換して用いることができる。一般に、線形予測係数よりもＬＳＰ係数の方が量子化特性が良いため、より適切なベクトル量子化が可能となる。
【００５５】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【００５６】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【００５７】
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク，ハードディスク，光ディスク，光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ−Ｒ，磁気テープ，不揮発性のメモリカード，ＲＯＭなどを用いることができる。
【００５８】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００５９】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００６０】
【発明の効果】
以上説明したように、本発明によれば、微細素片を得るために適用した窓関数による音声のスペクトルの「ぼやけ」を軽減するための処理に必要な計算量・記憶容量を削減することができ、少ない計算機資源で音質が高い音声合成を実現することができる。
【図面の簡単な説明】
【図１】第１実施形態におけるハードウェア構成を示すブロック図である。
【図２】第１実施形態による音声出力処理における近似スペクトル補正フィルタ登録処理を説明するフローチャートである。
【図３】第１実施形態による音声出力処理における音声合成処理を説明するフローチャートである。
【図４】第１実施形態の音声合成処理の様子を表す図である。
【図５】第２実施形態による音声出力処理におけるクラスタリング処理を説明するフローチャートである。
【図６】第２実施形態による音声出力処理におけるスペクトル補正フィルタ登録処理を説明するフローチャートである。
【図７】第２実施形態による音声出力処理における音声合成処理を説明するフローチャートである。
【図８】音声波形の微細素片への分割、再配置、合成による音声合成方法を模式的に示した図である。
【図９】音声波形の微細素片への分割、再配置、合成による音声合成方法において、スペクトル補正を用いる方法を模式的に示した図である。

Claims

音声波形データに基づいて得られたスペクトル補正用の補正フィルタを代替する代替フィルタと、前記補正フィルタに代わって前記代替フィルタを用いることによる影響を補正するように前記音声波形データを処理して生成された修正波形データを格納する格納手段を有し、
前記修正波形データと窓関数とから微細素片を取得する取得工程と、
前記取得工程で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置工程と、
前記再配置工程で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成工程と、
前記修正波形データに対応する代替フィルタを、前記取得再配置工程、合成工程を含む処理の過程において作用させるスペクトル補正工程と
を備えることを特徴とする音声合成方法。
前記代替フィルタは、前記音声波形データに基づいて構成される補正フィルタを近似して得られるフィルタであることを特徴とする請求項１に記載の音声合成方法。
前記修正波形データは、前記代替フィルタの逆フィルタと前記補正フィルタとの合成フィルタを前記音声波形データに作用させて得られたものであることを特徴とする請求項２に記載の音声合成方法。
前記代替フィルタは、前記補正フィルタのインパルス応答からＦＩＲフィルタを生成し、該ＦＩＲフィルタを低次で打ち切って得られたフィルタであることを特徴とする請求項２に記載の音声合成方法。
前記代替フィルタは、前記補正フィルタよりも次数が少ないことを特徴とする請求項２に記載の音声合成方法。
前記格納手段は、複数の補正フィルタをクラスタリングして得られた各クラス毎に代表補正フィルタを登録したクラスタリング情報を格納し、前記クラスタリング情報に登録された代表補正フィルタのいずれかが各音声波形データの前記代替フィルタとして割り当てられることを特徴とする請求項１に記載の音声合成方法。
前記修正波形データは、前記クラスタリングによる近似の影響を補正するように前記音声波形データを処理して得られたものであることを特徴とする請求項６に記載の音声合成方法。
音声合成処理に用いる辞書の生成方法であって、
音声波形データに基づいて得られるスペクトル補正用の補正フィルタを代替する代替フィルタを生成する第１生成工程と、
前記代替フィルタを用いることによる影響を補正するように前記音声波形データを処理して修正波形データを生成する第２生成工程と、
前記第２生成工程で生成された修正波形データに前記第１生成工程で生成された代替フィルタを対応付けて格納する格納工程と
を備えることを特徴とする音声合成用辞書生成方法。
前記第１生成工程は、音声波形データに基づいて得られたスペクトル補正用の補正フィルタを近似するフィルタを前記代替フィルタとして生成することを特徴とする請求項８に記載の音声合成用辞書生成方法。
前記第１生成工程は、複数の補正フィルタをクラスタリングして所定数のクラスに分け、各クラスに代表的な補正フィルタを代替フィルタとして割り当てたクラスタリング情報を生成し、
前記格納工程は、前記クラスタリング情報を格納するとともに、前記第２生成工程で生成された修正波形データに前記所定数のクラスのいずれかを特定するクラス識別情報を割り当てて格納することを特徴とする請求項８に記載の音声合成用辞書生成方法。
音声波形データに基づいて得られたスペクトル補正用の補正フィルタを代替する代替フィルタと、前記補正フィルタに代わって前記代替フィルタを用いることによる影響を補正するように前記音声波形データを処理して生成された修正波形データを格納する格納手段と、
前記修正波形データと窓関数とから微細素片を取得する取得手段と、
前記取得手段で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置手段と、
前記再配置手段で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成手段と、
前記修正波形データに対応する代替フィルタを、前記取得再配置手段、合成手段を含む処理の過程において作用させるスペクトル補正手段と
を備えることを特徴とする音声合成装置。
音声合成処理に用いる辞書を生成する装置であって、
音声波形データに基づいて得られるスペクトル補正用の補正フィルタを代替する代替フィルタを生成する第１生成手段と、
前記代替フィルタを用いることによる影響を補正するように前記音声波形データを処理して修正波形データを生成する第２生成手段と、
前記第２生成手段で生成された修正波形データに前記第１生成手段で生成された代替フィルタを対応付けて格納する格納手段と
を備えることを特徴とする音声合成用辞書生成装置。
請求項１乃至７のいずれかに記載の音声合成方法をコンピュータに実行させるための制御プログラム。
請求項８乃至１０のいずれかに記載の音声合成用辞書生成方法をコンピュータに実行させるための制御プログラム。
請求項１３又は１４に記載の制御プログラムを格納する記憶媒体。