JP2004053738A - 音声合成方法および装置並びに音声合成用辞書生成方法および装置 - Google Patents
音声合成方法および装置並びに音声合成用辞書生成方法および装置 Download PDFInfo
- Publication number
- JP2004053738A JP2004053738A JP2002208340A JP2002208340A JP2004053738A JP 2004053738 A JP2004053738 A JP 2004053738A JP 2002208340 A JP2002208340 A JP 2002208340A JP 2002208340 A JP2002208340 A JP 2002208340A JP 2004053738 A JP2004053738 A JP 2004053738A
- Authority
- JP
- Japan
- Prior art keywords
- filter
- waveform data
- speech
- correction
- speech synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】音声合成用辞書には、音声波形301に基づいて得られたスペクトル補正フィルタ310を代替する近似スペクトル補正フィルタ306と、スペクトル補正フィルタ310に代わって近似スペクトル補正フィルタ306を用いることによる影響を低減するべく、音声波形301に近似補正フィルタ302作用させて修正音声波形とが格納される。音声合成に際しては、修正音声波形303から窓関数304を用いて微細素片305を切り出し、これに近似スペクトル補正フィルタ306を作用させてスペクトル補正された微細素片307を得、これらを再配置後、重畳して合成音声波形309を得る。
【選択図】 図4
Description
【発明の属する技術分野】
本発明は、音声を合成する音声合成装置および方法に関する。
【0002】
【従来の技術】
従来より、所望の合成音声を得るための音声合成方法として、あらかじめ収録し蓄えられた音声素片を複数の微細素片に分割し、分割の結果得られた微細素片の再配置を行って所望の合成音声を得る方法がある。これら微細素片の再配置において、微細素片に対して間隔変更・繰り返し・間引き等の処理が行われることにより、所望の時間長・基本周波数を持つ合成音声が得られる。
【0003】
図8は、音声波形を微細素片に分割する方法を模式的に示した図である。図8に示された音声波形は、切り出し窓関数(以下、窓関数)によって微細素片に分割される。このとき、有声音の部分(音声波形の後半部)では原音声のピッチ間隔に同期した窓関数が用いられる。一方、無声音の部分では、適当な間隔の窓関数が用いられる。
【0004】
そして、図8に示すようにこれらの微細素片を間引いて用いることにより音声の継続時間長を短縮することができる。一方、これらの微細素片を繰り返して用いれば、音声の継続時間長を伸長することができる。更に、図8に示すように、有声音の部分では、微細素片の間隔を詰めることにより合成音声の基本周波数を上げることが可能となる。一方、微細素片の間隔を広げることにより合成音声の基本周波数を下げることが可能である。
【0005】
以上のような繰り返し・間引き・間隔変更を行なって再配置された微細素片を再び重畳することにより所望の合成音声が得られる。なお、音声素片を収録・蓄積する単位としては、音素やCV・VCあるいはVCVといった単位が用いられる。CV・VCは音素内に素片境界を置いた単位、VCVは母音内に素片境界を置いた単位である。
【0006】
【発明が解決しようとする課題】
しかしながら、上記従来法においては、音声波形から微細素片を得るために窓関数が適用されることにより、音声のスペクトルに所謂「ぼやけ」が生じてしまう。すなわち、音声のホルマントが広がったりスペクトル包絡の山谷が曖昧になる等の現象が起こり、合成音声の音質が低下することになる。
【0007】
本発明は上記の課題に鑑みてなされたものであり、微細素片を得るために適用した窓関数による音声のスペクトルの「ぼやけ」を軽減し、高音質な音声合成を実現することを目的とする。
【0008】
更に、本発明の目的は、音声のスペクトルの「ぼやけ」を軽減して高音質な音声合成を少ないハードウエア資源で実現可能とすることにある。
【0009】
【課題を解決するための手段】
上記の目的を達成するための本発明による音声合成方法は、
音声波形データに基づいて得られたスペクトル補正用の補正フィルタを代替する代替フィルタと、前記補正フィルタに代わって前記代替フィルタを用いることによる影響を補正するように前記音声波形データを処理して生成された修正波形データを格納する格納手段を有し、
前記修正波形データと窓関数とから微細素片を取得する取得工程と、
前記取得工程で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置工程と、
前記再配置工程で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成工程と、
前記修正波形データに対応する代替フィルタを、前記取得再配置工程、合成工程を含む処理の過程において作用させるスペクトル補正工程とを備える。
【0010】
また、上記の目的を達成するための本発明による音声合成用辞書生成方法は、
音声合成処理に用いる辞書の生成方法であって、
音声波形データに基づいて得られるスペクトル補正用の補正フィルタを代替する代替フィルタを生成する第1生成工程と、
前記代替フィルタを用いることによる影響を補正するように前記音声波形データを処理して修正波形データを生成する第2生成工程と、
前記第2生成工程で生成された修正波形データに前記第1生成工程で生成された代替フィルタを対応付けて格納する格納工程とを備える。
【0011】
また、本発明によれば、上記音声合成方法を実行する音声合成装置並びに音声合成用辞書生成方法を実行する音声合成用辞書生成装置が提供される。
【0012】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態のいくつかについて詳細に説明する。
【0013】
〈第1実施形態〉
本出願人は、特願2002−164624において、図8に示した微細素片に対してスペクトル補正フィルタを適用して微細素片のスペクトルを補正することにより、上述した音声スペクトルの「ぼやけ」を改善する音声合成装置及び方法を提案した。これは、音声波形から微細素片を得るために窓関数が適用されることによって生じた、音声のホルマントが広がる減少や、スペクトル包絡の山谷が曖昧になる現象等を緩和し、合成音声の音質低下を防ぐものである。
【0014】
図9は、スペクトル補正フィルタを適用する方法を模式的に表した図である。窓関数902によって音声波形901より切り出された微細素片903の各々に、対応するスペクトル補正フィルタ907を作用させることにより、スペクトル補正された微細素片904(例えばホルマントが補正された微細素片)を得る。そして、スペクトル補正された微細素片904を用いて合成音声906を生成する。
【0015】
ここで、スペクトル補正フィルタは音響分析によって得られ、上記処理に適用可能なスペクトル補正フィルタ907の具体例として、以下の3つのフィルタが挙げられる。
【0016】
(1)まず、音響分析にp次の線形予測分析を用いた場合には、以下の[数1]式で表される特性を持ったフィルタをスペクトル補正フィルタ907として用いることができる。
【0017】
【数1】
【0018】
(2)また、音響分析にp次のケプストラム分析を用いた場合には、以下の[数2]式で表される特性を持ったフィルタをスペクトル補正フィルタとして用いることができる。
【0019】
【数2】
【0020】
(3)あるいは、上記フィルタのインパルス応答を適当な次数で打ち切って構成した、以下の[数3]式で表されるFIRフィルタを用いることも可能である。
【0021】
【数3】
【0022】
上記各式において、pは分析次数、μ,γは適当な係数、αは線形予測係数、cはケプストラム係数である。また、βは[数1],[数2]で表されるフィルタのインパルス応答から得られたFIRフィルタ係数である。
【0023】
さて、上記スペクトル補正フィルタの演算には、波形1サンプル当たり、少なくとも十回〜数十回以上程度の積和演算が必要である。これは、音声合成の基本処理(図8に示された処理)の計算量に対して非常に大きい。また、通常、上記補正フィルタの係数は音声合成用辞書作成時に求めておくため、補正フィルタ係数を保持しておくための記憶領域も必要となる。すなわち、音声合成用辞書のサイズが肥大化してしまう。
【0024】
もちろん、上記フィルタ次数pやFIRフィルタ次数p’を小さくすれば、計算量や記憶容量を削減することが出来る。あるいは、スペクトル補正フィルタ係数をクラスタリングすることにより、スペクトル補正フィルタ係数を保持するのに必要な記憶容量を削減できる。しかしながら、この場合にはスペクトル補正の効果が薄れ、音質が低下することになる。そこで、以下に説明する実施形態では、スペクトル補正フィルタリングに必要な計算量・記憶容量を軽減して、計算量・記憶容量の増加を抑えながら、音声のスペクトルの「ぼやけ」を軽減し、高音質な音声合成を実現する。
【0025】
第1実施形態では、フィルタ次数を小さくした近似フィルタを用いて計算量や記憶容量を低減するとともに、音声合成用辞書の波形データを当該近似フィルタに適するように修正しておくことにより、合成音声の品質を維持する。
【0026】
図1は第1実施形態におけるハードウェア構成を示すブロック図である。図1において、11は中央処理装置であり、数値演算・制御等の処理を行なう。特に、中央処理装置11は、以下に説明する手順に従った音声合成処理を実行する。12は出力装置であり、中央処理装置11の制御下でユーザに対して各種の情報を提示する。13はタッチパネル或はキーボード等を備えた入力装置であり、ユーザが本装置に対して動作の指示を与えたり、各種の情報を入力するのに用いられる。14は音声を出力する音声出力装置であり音声合成された内容を出力する。
【0027】
15はディスク装置や不揮発メモリ等の記憶装置であり、音声合成用辞書501等が保持される。音声合成用辞書501には後述の方法で音声波形に修正を加えた修正波形データと、後述の方法で近似されたスペクトル補正フィルタが格納される。16は読み取り専用の記憶装置であり、本実施形態の音声合成処理の手順や、必要な固定的データが格納される。17はRAM等の一時情報を保持する記憶装置であり、一時的なデータや各種フラグ等が保持される。以上の各構成(11〜17)は、バス18によって接続されている。なお、本実施形態ではROM16に音声合成処理のための制御プログラムが格納され、中央処理装置11がこれを実行する形態とするが、そのような制御プログラムを外部記憶装置15に格納しておき、実行に際してRAM17にロードするような形態としてもよい。
【0028】
以上のような構成を備えた本実施形態の音声出力装置の動作について、図2,図3及び図4を参照して以下に説明する。図2及び図3は第1実施形態による音声出力処理を説明するフローチャートである。また、図4は第1実施形態の音声合成処理の様子を表す図である。
【0029】
本実施形態では、スペクトル補正フィルタの構成を音声合成に先立って行い、フィルタを構成するための構成情報(フィルタ係数)を所定の記憶領域(音声合成用辞書)に保持しておく構成となっている。すなわち、音声合成用辞書を作成するためのデータ作成処理(図2)と音声合成処理(図3)の2つのプロセスになっている。ここで、データ作成処理ではスペクトル補正フィルタの近似を採用して構成情報の情報量低減を図るとともに、当該スペクトル補正フィルタの近似による合成音声の劣化を防止するように音声合成辞書の音声波形を修正する。
【0030】
まず、ステップS1において、合成音声の元となる波形データ(図4の音声波形301)を取得する。そして、ステップS2において、ステップS1で取得した波形データについて線形予測(LPC)分析、ケプストラム分析、一般化ケプストラム分析等の音響分析を行い、スペクトル補正フィルタ310を構成するのに必要なパラメータを計算する。なお、波形データの分析は、ある定められた時間間隔で行なっても良いし、ピッチ同期分析を行なっても良い。
【0031】
次に、スペクトル補正フィルタ構成ステップS3において、ステップS2で計算されたパラメータを用いてスペクトル補正フィルタ310を構成する。例えば、音響分析にp次の線形予測分析を用いた場合には、上記[数1]で表される特性を持ったフィルタをスペクトル補正フィルタ310として用いる。また、p次のケプストラム分析を用いた場合には、[数2]で表される特性を持ったフィルタをスペクトル補正フィルタ310として用いる。あるいは、上記フィルタのインパルス応答を適当な次数で打ち切って構成した、[数3]で表されるFIRフィルタがスペクトル補正フィルタ310として用いられる場合もある。なお、実際には、上記の各式において、システムのゲインを考慮する必要がある。
【0032】
次に、ステップS4において、ステップS3で構成したスペクトル補正フィルタ310を近似によって簡略化し、より少ない計算量・記憶量で実現可能な近似スペクトル補正フィルタ306を構成する。近似スペクトル補正フィルタ306の簡単な例としては、上記[数3]で表されるFIRフィルタの打ち切り次数を低次に限ったフィルタが考えられる。あるいは、スペクトル補正フィルタとの周波数特性の差をスペクトル領域における距離として定義し、その差が最小となるフィルタ係数をニュートン法等によって求めることで近似補正フィルタを構成することも可能である。
【0033】
次に、ステップS5において、ステップS4で構成した近似スペクトル補正フィルタ306を音声合成用辞書501に記録する(実際には近似スペクトル補正フィルタの係数を格納することになる)。
【0034】
次のステップS6〜S8では、上記ステップS4、S5で構成し、音声合成用辞書501に記録した近似スペクトル補正フィルタを音声波形に適用した際の、音質劣化を低減するべく音声波形データを修正して音声波形辞書501に登録する。
【0035】
まず、ステップS6において、スペクトル補正フィルタ310と近似スペクトル補正フィルタ306の逆フィルタを合成し、近似補正フィルタ302を構成する。例えば、スペクトル補正フィルタとして[数1]で表されるフィルタを用い、近似スペクトル補正フィルタとして[数3]で表される低次FIRフィルタを用いた場合、近似補正フィルタは以下の[数4]のようになる。
【0036】
【数4】
【0037】
次に、ステップS7において、ステップS1で得られた音声波形データに対して上記近似補正フィルタ302を適用し、修正音声波形303を作成する。そして、ステップS8において、ステップS7で得られた修正音声波形を音声合成用辞書501に記録する。
【0038】
以上がデータ作成処理である。次に、音声合成処理を図3のフローチャートを参照して説明する。音声合成処理では、上記データ作成処理によって音声合成用辞書501に登録された近似スペクトル補正フィルタ306と修正音声波形303が用いられる。
【0039】
まず、韻律目標値取得ステップS9において、合成音声の目標韻律値を取得する。合成音声の目標韻律値は、歌声合成の様に直接上位モジュールから与えられる場合もあれば、何らかの手段を用いて推定される場合もある。例えば、テキストからの音声合成であるならばテキストの言語解析結果より推定される。
【0040】
次に、ステップS10において、ステップS9で取得した目標韻律値に基づいて音声合成用辞書501に記録された修正音声波形を取得する。そして、ステップS11において、ステップS5で音声合成用辞書501に記録された近似スペクトル補正フィルタを読み込む。なお、読み込まれる近似スペクトル補正フィルタはステップS10で取得した修正音声波形に対応する近似スペクトル補正フィルタである。
【0041】
次に、ステップS12において、ステップS10で取得した修正音声波形に窓関数304を適用し、微細素片305を切り出す。なお、窓関数としてはハニング窓等が用いられる。次に、ステップS13において、ステップS12で切り出した微細素片305の各々に対して、ステップS11で読み込まれた近似スペクトル補正フィルタ306を適用し、微細素片305のスペクトルを補正する。こうして、スペクトル補正された微細素片307が取得される。
【0042】
次に、ステップS14において、ステップS13でスペクトル補正された微細素片307を、ステップS9で取得した韻律目標値に合致するように、間引き・繰り返し・間隔変更して再配置(308)することにより、韻律変更する。そしてステップS15において、ステップS14で再配置した微細素片を重畳し、合成音声309(音声素片)を得る。その後、ステップS16において、ステップS15で得られた合成音声309(音声素片)を接続して合成音声を得て音声出力する。
【0043】
なお、微細素片の再配置処理に関して、「間引き」については、図4に示すように近似スペクトル補正フィルタ306を作用させる前に実行するようにしてもよい。このようにすれば、不要な微細素片についてフィルタ処理を施すという無駄な処理を省くことができるからである。
【0044】
〈第2実施形態〉
上記第1実施形態においては、近似によってフィルタ係数の次数を減らし、計算量や記憶容量を低減した例について説明した。第2実施形態では、スペクトル補正フィルタのクラスタリングによって記憶容量を削減する場合について説明する。第2実施形態のプロセスは、クラスタリング処理(図5)、データ作成処理(図6)および音声合成処理(図7)の3つのプロセスとなる。なお、本処理を実現するための装置構成は第1実施形態(図1)と同様である。
【0045】
図5のフローチャートにおいて、ステップS1、S2、S3はスペクトル補正フィルタを構成する処理であり、第1実施形態(図2)と同様である。これらの処理を音声合成用辞書501に含まれる全ての波形データに対して行なう(ステップS100)。
【0046】
全波形データについてスペクトル補正フィルタが構成されると、ステップS101へ進み、ステップS3で得られたスペクトル補正フィルタをクラスタリングする。なお、クラスタリングとしては、例えばLBGアルゴリズムと呼ばれる手法等を適用できる。そして、ステップS102で、ステップS101によるクラスタリングの結果(クラスタリング情報)を外部記憶装置15に記録する。具体的には、各クラスタの代表ベクトル(フィルタ係数)とクラスタ番号の対応表が作成され、記録される。この代表ベクトルによって当該クラスタのスペクトル補正フィルタ(代表フィルタ)が構成される。本実施形態では、ステップS3で音声合成用辞書501に登録されている各波形データについてスペクトル補正フィルタを構成し、各波形データに対応するスペクトル補正フィルタの係数を上記クラスタ番号で音声合成用辞書501内に保持する。すなわち、図6により後述するように、第2実施形態の音声合成用辞書501には、各音声波形の波形データ(正確には修正音声波形データ(図6により後述))とスペクトル補正フィルタのクラスタ番号、及び各クラスタ番号と代表ベクトル(各係数の代表値)が登録されることになる。
【0047】
次に、辞書作成処理(図6)を説明する。辞書作成処理において、ステップS1〜S3によるスペクトルフィルタの構成処理は第1実施形態と同様である。第1実施形態と異なる点は、近似スペクトル補正フィルタを構成する代わりに、スペクトル補正フィルタのフィルタ係数をベクトル量子化してクラスタ番号で登録する点である。すなわち、まず、ステップS103において、ステップS3で得られたスペクトル補正フィルタに最も近いベクトルをステップS102で記録されたクラスタリング情報の代表ベクトルから選択する。次に、ステップS104において、ステップS103で選択された代表ベクトルに対応する番号(クラスタ番号)を、音声合成用辞書501に記録する。
【0048】
さらに、スペクトル補正フィルタのフィルタ係数を量子化することによって生じる合成音声の劣化を低減するために修正音声波形を生成し、音声合成用辞書に登録する。すなわち、ステップS105において、量子化誤差を補正するための量子化誤差補正フィルタを構成する。量子化誤差補正フィルタは、上記代表ベクトルを使って構成されるフィルタの逆フィルタと当該音声波形のスペクトル補正フィルタとを合成することによって構成される。例えば、スペクトル補正フィルタとして[数1]で表されるフィルタを用いた場合、量子化誤差補正フィルタは[数5]のようになる。
【0049】
【数5】
【0050】
数5において,α’がベクトル量子化された線形予測係数である。その他の形式のフィルタを用いた場合も同様に量子化誤差補正フィルタを構成できる。こうして構成された量子化誤差補正フィルタを用いて波形データを修正して修正音声波形を作成し(ステップS7)、得られた修正音声波形を音声合成用辞書501に登録する(ステップS8)。スペクトル補正フィルタをクラスタ番号と対応表(クラスタ情報)によって登録するので、音声合成用辞書に要求される記憶容量を低減できる。
【0051】
音声合成時においては、図7のフローチャートに示されるように、第1実施形態の処理におけるステップS11(近似スペクトル補正フィルタを読み込むステップ)が不要となり、代りにステップS106(スペクトル補正フィルタ番号(クラスタ番号)を読込む処理)およびステップS107(読み込んだクラスタ番号からスペクトル補正フィルタを取得する処理)が追加される。
【0052】
第1実施形態と同様に、韻律目標値を取得し(ステップS9)、図6のステップS8で登録された修正音声波形データを取得する(ステップS10)。ステップS106では、ステップS104で記録したスペクトル補正フィルタ番号を読み込む。次に、ステップS107において、ステップS102で記録された対応表を元に、スペクトル補正フィルタ番号に対応するスペクトル補正フィルタを取得する。以下、第1実施形態と同様にステップS12〜S16により合成音声を出力する。すなわち、修正音声波形に窓関数を適用して微細素片を切り出し(ステップS12)、切り出された微細素片にステップS107で取得したスペクトル補正フィルタを適用してスペクトル補正された微細素片を取得し(ステップS13)、韻律目標値に従ってスペクトル補正された微細素片を再配置し(ステップS14)、再配置した微細素片を重畳して合成音声309(音声素片)を得る(ステップS15)。
【0053】
以上のように、クラスタリングによって,スペクトル補正フィルタを量子化しても、[数5]に示したようなフィルタによって修正された修正音声波形を用いることにより量子化誤差を補正することが可能となり、音質を損なうことなく記憶容量を削減することが可能となる。
【0054】
〈その他の実施形態〉
上記各実施形態において、波形のサンプリング周波数が高い場合には、帯域分割フィルタによって帯域分割を行い、帯域制限された個々の波形に対してスペクトル補正フィルタリングを行なっても良い。この場合、帯域毎にフィルタを持ち、対象となる音声波形そのものも帯域分割して、それぞれの波形について処理を行なうことになる。帯域分割によってスペクトル補正フィルタの次数が押えられ、計算量を削減する効果がある。メルケプストラムのような周波数軸の伸縮によっても同様の効果がある。
また、上記第1および第2実施形態を組み合わせた実施形態も可能である。この場合、近似前のスペクトル補正フィルタをベクトル量子化した後、代表ベクトルによるフィルタを近似しても良いし、近似スペクトル補正フィルタの係数をベクトル量子化しても良い。
また、第2実施形態において、音響分析の結果を一旦変換し、変換後のベクトルをベクトル量子化しても良い。例えば、音響分析に線形予測係数を用いた場合、線形予測係数を直接ベクトル量子化するのではなく、LSP係数に変換し、LSP係数を量子化する。スペクトル補正フィルタを構成する際には、量子化されたLSP係数を線形予測係数に逆変換して用いることができる。一般に、線形予測係数よりもLSP係数の方が量子化特性が良いため、より適切なベクトル量子化が可能となる。
【0055】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0056】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0057】
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
【0058】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0059】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0060】
【発明の効果】
以上説明したように、本発明によれば、微細素片を得るために適用した窓関数による音声のスペクトルの「ぼやけ」を軽減するための処理に必要な計算量・記憶容量を削減することができ、少ない計算機資源で音質が高い音声合成を実現することができる。
【図面の簡単な説明】
【図1】第1実施形態におけるハードウェア構成を示すブロック図である。
【図2】第1実施形態による音声出力処理における近似スペクトル補正フィルタ登録処理を説明するフローチャートである。
【図3】第1実施形態による音声出力処理における音声合成処理を説明するフローチャートである。
【図4】第1実施形態の音声合成処理の様子を表す図である。
【図5】第2実施形態による音声出力処理におけるクラスタリング処理を説明するフローチャートである。
【図6】第2実施形態による音声出力処理におけるスペクトル補正フィルタ登録処理を説明するフローチャートである。
【図7】第2実施形態による音声出力処理における音声合成処理を説明するフローチャートである。
【図8】音声波形の微細素片への分割、再配置、合成による音声合成方法を模式的に示した図である。
【図9】音声波形の微細素片への分割、再配置、合成による音声合成方法において、スペクトル補正を用いる方法を模式的に示した図である。
Claims (15)
- 音声波形データに基づいて得られたスペクトル補正用の補正フィルタを代替する代替フィルタと、前記補正フィルタに代わって前記代替フィルタを用いることによる影響を補正するように前記音声波形データを処理して生成された修正波形データを格納する格納手段を有し、
前記修正波形データと窓関数とから微細素片を取得する取得工程と、
前記取得工程で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置工程と、
前記再配置工程で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成工程と、
前記修正波形データに対応する代替フィルタを、前記取得再配置工程、合成工程を含む処理の過程において作用させるスペクトル補正工程と
を備えることを特徴とする音声合成方法。 - 前記代替フィルタは、前記音声波形データに基づいて構成される補正フィルタを近似して得られるフィルタであることを特徴とする請求項1に記載の音声合成方法。
- 前記修正波形データは、前記代替フィルタの逆フィルタと前記補正フィルタとの合成フィルタを前記音声波形データに作用させて得られたものであることを特徴とする請求項2に記載の音声合成方法。
- 前記代替フィルタは、前記補正フィルタのインパルス応答からFIRフィルタを生成し、該FIRフィルタを低次で打ち切って得られたフィルタであることを特徴とする請求項2に記載の音声合成方法。
- 前記代替フィルタは、前記補正フィルタよりも次数が少ないことを特徴とする請求項2に記載の音声合成方法。
- 前記格納手段は、複数の補正フィルタをクラスタリングして得られた各クラス毎に代表補正フィルタを登録したクラスタリング情報を格納し、前記クラスタリング情報に登録された代表補正フィルタのいずれかが各音声波形データの前記代替フィルタとして割り当てられることを特徴とする請求項1に記載の音声合成方法。
- 前記修正波形データは、前記クラスタリングによる近似の影響を補正するように前記音声波形データを処理して得られたものであることを特徴とする請求項6に記載の音声合成方法。
- 音声合成処理に用いる辞書の生成方法であって、
音声波形データに基づいて得られるスペクトル補正用の補正フィルタを代替する代替フィルタを生成する第1生成工程と、
前記代替フィルタを用いることによる影響を補正するように前記音声波形データを処理して修正波形データを生成する第2生成工程と、
前記第2生成工程で生成された修正波形データに前記第1生成工程で生成された代替フィルタを対応付けて格納する格納工程と
を備えることを特徴とする音声合成用辞書生成方法。 - 前記第1生成工程は、音声波形データに基づいて得られたスペクトル補正用の補正フィルタを近似するフィルタを前記代替フィルタとして生成することを特徴とする請求項8に記載の音声合成用辞書生成方法。
- 前記第1生成工程は、複数の補正フィルタをクラスタリングして所定数のクラスに分け、各クラスに代表的な補正フィルタを代替フィルタとして割り当てたクラスタリング情報を生成し、
前記格納工程は、前記クラスタリング情報を格納するとともに、前記第2生成工程で生成された修正波形データに前記所定数のクラスのいずれかを特定するクラス識別情報を割り当てて格納することを特徴とする請求項8に記載の音声合成用辞書生成方法。 - 音声波形データに基づいて得られたスペクトル補正用の補正フィルタを代替する代替フィルタと、前記補正フィルタに代わって前記代替フィルタを用いることによる影響を補正するように前記音声波形データを処理して生成された修正波形データを格納する格納手段と、
前記修正波形データと窓関数とから微細素片を取得する取得手段と、
前記取得手段で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置手段と、
前記再配置手段で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成手段と、
前記修正波形データに対応する代替フィルタを、前記取得再配置手段、合成手段を含む処理の過程において作用させるスペクトル補正手段と
を備えることを特徴とする音声合成装置。 - 音声合成処理に用いる辞書を生成する装置であって、
音声波形データに基づいて得られるスペクトル補正用の補正フィルタを代替する代替フィルタを生成する第1生成手段と、
前記代替フィルタを用いることによる影響を補正するように前記音声波形データを処理して修正波形データを生成する第2生成手段と、
前記第2生成手段で生成された修正波形データに前記第1生成手段で生成された代替フィルタを対応付けて格納する格納手段と
を備えることを特徴とする音声合成用辞書生成装置。 - 請求項1乃至7のいずれかに記載の音声合成方法をコンピュータに実行させるための制御プログラム。
- 請求項8乃至10のいずれかに記載の音声合成用辞書生成方法をコンピュータに実行させるための制御プログラム。
- 請求項13又は14に記載の制御プログラムを格納する記憶媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002208340A JP3897654B2 (ja) | 2002-07-17 | 2002-07-17 | 音声合成方法および装置 |
US10/449,072 US7546241B2 (en) | 2002-06-05 | 2003-06-02 | Speech synthesis method and apparatus, and dictionary generation method and apparatus |
DE60332980T DE60332980D1 (de) | 2002-06-05 | 2003-06-04 | Sprachsynthese |
EP03253523A EP1369846B1 (en) | 2002-06-05 | 2003-06-04 | Speech synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002208340A JP3897654B2 (ja) | 2002-07-17 | 2002-07-17 | 音声合成方法および装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006293157A Division JP2007052456A (ja) | 2006-10-27 | 2006-10-27 | 音声合成用辞書生成方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004053738A true JP2004053738A (ja) | 2004-02-19 |
JP3897654B2 JP3897654B2 (ja) | 2007-03-28 |
Family
ID=31932513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002208340A Expired - Fee Related JP3897654B2 (ja) | 2002-06-05 | 2002-07-17 | 音声合成方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3897654B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016146174A (ja) * | 2015-02-06 | 2016-08-12 | パナソニックIpマネジメント株式会社 | 決定方法およびプログラム |
JP2017085259A (ja) * | 2015-10-26 | 2017-05-18 | 清水建設株式会社 | 物理量補正方法及び物理量補正システム |
-
2002
- 2002-07-17 JP JP2002208340A patent/JP3897654B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016146174A (ja) * | 2015-02-06 | 2016-08-12 | パナソニックIpマネジメント株式会社 | 決定方法およびプログラム |
JP2017085259A (ja) * | 2015-10-26 | 2017-05-18 | 清水建設株式会社 | 物理量補正方法及び物理量補正システム |
Also Published As
Publication number | Publication date |
---|---|
JP3897654B2 (ja) | 2007-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3294604B2 (ja) | 波形の加算重畳による音声合成のための処理装置 | |
EP1308928B1 (en) | System and method for speech synthesis using a smoothing filter | |
US7120584B2 (en) | Method and system for real time audio synthesis | |
JP3728172B2 (ja) | 音声合成方法および装置 | |
JP4516863B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JPS62160495A (ja) | 音声合成装置 | |
JP4406440B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JPH10171484A (ja) | 音声合成方法および装置 | |
US20090112580A1 (en) | Speech processing apparatus and method of speech processing | |
JP2001282278A (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
JP3450237B2 (ja) | 音声合成装置および方法 | |
US7546241B2 (en) | Speech synthesis method and apparatus, and dictionary generation method and apparatus | |
JP3728173B2 (ja) | 音声合成方法、装置および記憶媒体 | |
JP4287785B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP3897654B2 (ja) | 音声合成方法および装置 | |
JP3912913B2 (ja) | 音声合成方法及び装置 | |
JP2005004104A (ja) | 規則音声合成装置及び規則音声合成方法 | |
JP6011039B2 (ja) | 音声合成装置および音声合成方法 | |
JP4332323B2 (ja) | 音声合成方法および装置並びに辞書生成方法および装置 | |
JP5075865B2 (ja) | 音声処理装置、方法、及びプログラム | |
JP2002287784A (ja) | 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法並びにそのプログラム | |
JP2007052456A (ja) | 音声合成用辞書生成方法及び装置 | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
JPH06318094A (ja) | 音声規則合成装置 | |
JPH08160991A (ja) | 音声素片作成方法および音声合成方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040609 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060523 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060605 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060803 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060828 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061027 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20061115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061219 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110105 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120105 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130105 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140105 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |