JP2004012700A - Method and apparatus for synthesizing voice and method and apparatus for preparing dictionary - Google Patents
Method and apparatus for synthesizing voice and method and apparatus for preparing dictionary Download PDFInfo
- Publication number
- JP2004012700A JP2004012700A JP2002164624A JP2002164624A JP2004012700A JP 2004012700 A JP2004012700 A JP 2004012700A JP 2002164624 A JP2002164624 A JP 2002164624A JP 2002164624 A JP2002164624 A JP 2002164624A JP 2004012700 A JP2004012700 A JP 2004012700A
- Authority
- JP
- Japan
- Prior art keywords
- waveform data
- spectrum correction
- correction filter
- voice
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、音声を合成する音声合成装置および方法に関する。
【0002】
【従来の技術】
従来より、所望の合成音声を得るための音声合成方法として、あらかじめ収録し蓄えられた音声素片を複数の微細素片に分割し、分割の結果得られた微細素片の再配置を行って所望の合成音声を得る方法がある。これら微細素片の再配置において、微細素片に対して間隔変更・繰り返し・間引き等の処理が行われることにより、所望の時間長・基本周波数を持つ合成音声が得られる。
【0003】
図10は、音声波形を微細素片に分割する方法を模式的に示した図である。図10に示された音声波形は、切り出し窓関数(以下、窓関数)によって微細素片に分割される。このとき、有声音の部分(音声波形の後半部)では原音声のピッチ間隔に同期した窓関数が用いられる。一方、無声音の部分では、適当な間隔の窓関数が用いられる。
【0004】
そして、図10に示すようにこれらの微細素片を間引いて用いることにより音声の継続時間長を短縮することができる。一方、これらの微細素片を繰り返して用いれば、音声の継続時間長を伸長することができる。更に、図10に示すように、有声音の部分では、微細素片の間隔を詰めることにより合成音声の基本周波数を上げることが可能となる。一方、微細素片の間隔を広げることにより合成音声の基本周波数を下げることが可能である。
【0005】
以上のような繰り返し・間引き・間隔変更を行なって再配置された微細素片を再び重畳することにより所望の合成音声が得られる。なお、音声素片を収録・蓄積する単位としては、音素やCV・VCあるいはVCVといった単位が用いられる。CV・VCは音素内に素片境界を置いた単位、VCVは母音内に素片境界を置いた単位である。
【0006】
【発明が解決しようとする課題】
しかしながら、上記従来法においては、音声波形から微細素片を得るために窓関数が適用されることにより、音声のスペクトルに所謂「ぼやけ」が生じてしまう。すなわち、音声のホルマントが広がったりスペクトル包絡の山谷が曖昧になる等の現象が起こり、合成音声の音質が低下することになる。
【0007】
本発明は上記の課題に鑑みてなされたものであり、微細素片を得るために適用した窓関数による音声のスペクトルの「ぼやけ」を軽減し、高音質な音声合成を実現することを目的とする。
【0008】
【課題を解決するための手段】
上記の目的を達成するための本発明による音声合成方法は、
音声波形データと窓関数とから微細素片を取得する取得工程と、
前記取得工程で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置工程と、
前記再配置工程で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成工程と、
前記取得工程で処理される音声波形データに基づいて構成されたスペクトル補正フィルタを、前記取得工程、再配置工程、合成工程を含む処理の過程において作用させる補正工程とを備える。
【0009】
また、上記の目的を達成するための本発明による音声合成装置は以下の構成を備える。すなわち、
音声波形データと窓関数とから微細素片を取得する取得手段と、
前記取得手段で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置手段と、
前記再配置手段で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成手段と、
前記取得手段で処理される音声波形データに基づいて構成されたスペクトル補正フィルタを、前記取得手段、再配置手段、合成手段を含む処理の過程において作用させる補正手段とを備える。
【0010】
また、本発明によれば、上記音声合成方法或は音声合成装置に好適な音声合成用の辞書生成方法が提供される。
【0011】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態のいくつかについて詳細に説明する。
【0012】
〈第1実施形態〉
図1は第1実施形態におけるハードウェア構成を示すブロック図である。
【0013】
図1において、11は中央処理装置であり、数値演算・制御等の処理を行なう。特に、中央処理装置11は、以下に説明する手順に従った音声合成処理を実行する。12は出力装置であり、中央処理装置11の制御下でユーザに対して各種の情報を提示する。13はタッチパネル或はキーボード等を備えた入力装置であり、ユーザが本装置に対して動作の指示を与えたり、各種の情報を入力するのに用いられる。14は音声を出力する音声出力装置であり音声合成された内容を出力する。
【0014】
15はディスク装置や不揮発メモリ等の記憶装置であり、音声合成用辞書501等が保持される。16は読み取り専用の記憶装置であり、本実施形態の音声合成処理の手順や、必要な固定的データが格納される。17はRAM等の一時情報を保持する記憶装置であり、一時的なデータや各種フラグ等が保持される。以上の各構成(11〜17)は、バス18によって接続されている。なお、本実施形態ではROM16に音声合成処理のための制御プログラムが格納され、中央処理装置11がこれを実行する形態とするが、そのような制御プログラムを外部記憶装置15に格納しておき、実行に際してRAM17にロードするような形態としてもよい。
【0015】
以上のような構成を備えた本実施形態の音声出力装置の動作について、図2及び図3を参照して以下に説明する。図2は第1実施形態による音声出力処理を説明するフローチャートである。また、図3は第1実施形態の音声合成処理の様子を表す図である。
【0016】
まず、韻律目標値取得ステップS1において、合成音声の目標韻律値を取得する。合成音声の目標韻律値は、歌声合成の様に直接上位モジュールから与えられる場合もあれば、何らかの手段を用いて推定される場合もある。例えば、テキストからの音声合成であるならばテキストの言語解析結果より推定される。
【0017】
次に、波形データ取得ステップS2において、合成音声の元となる波形データ(図3の音声波形301)を取得する。そして、音響分析ステップS3において、線形予測(LPC)分析・ケプストラム分析・一般化ケプストラム分析等の音響分析を取得した波形データについて行い、スペクトル補正フィルタ304を構成するのに必要なパラメータを計算する。なお波形データの分析は、ある定められた時間間隔で行なっても良いし、ピッチ同期分析を行なっても良い。
【0018】
次に、スペクトル補正フィルタ構成ステップS4において、前記音響分析ステップS3で計算されたパラメータを用いてスペクトル補正フィルタを構成する。例えば、前記音響分析にp次の線形予測分析を用いた場合には、以下の[数1]式で表される特性を持ったフィルタをスペクトル補正フィルタ304として用いる。なお、[数1]式を用いる場合、上記パラメータ計算においては線形予測係数αjが算出されることになる。
【0019】
【数1】
【0020】
また、p次のケプストラム分析を用いた場合には、以下の[数2]式で表される特性を持ったフィルタをスペクトル補正フィルタとして用いる。なお、[数2]式を用いる場合、上記パラメータ計算においてはケプストラム係数cjが算出されることになる。
【0021】
【数2】
【0022】
上記各式において、μ、γは適当な係数、αは線形予測係数、cはケプストラム係数である。あるいは、上記フィルタのインパルス応答を適当な次数で打ち切って構成した、以下の[数3]式で表されるFIRフィルタが用いられる場合もある。なお、[数3]式を用いる場合、上記パラメータ計算においては係数βjが計算されることになる。
【0023】
【数3】
【0024】
なお、実際には、上記の各式において、システムのゲインを考慮する必要がある。以上のようにして構成されたスペクトル補正フィルタは音声合成用辞書501に格納される(実際にはフィルタの係数を格納することになる)。
【0025】
次に、微細素片切り出しステップS5において、前記波形データ取得ステップS2で取得した波形に窓関数302を適用し、微細素片303を切り出す。窓関数としてはハニング窓等が用いられる。
【0026】
次に、微細素片スペクトル補正ステップS6において、微細素片切り出しステップS5で切り出した微細素片303に対して、スペクトル補正フィルタ構成ステップS4で構成されたフィルタ304を適用し、微細素片切り出しステップS5で切り出した微細素片のスペクトルを補正する。こうして、スペクトル補正された微細素片305が取得される。
【0027】
次に、韻律変更ステップS7において、微細素片スペクトル補正ステップS6でスペクトル補正された微細素片305を、韻律目標値取得ステップS1で取得した韻律目標値に合致するように、間引き・繰り返し・間隔変更して再配置(306)する。そして波形重畳ステップS8において、韻律変更ステップS7で再配置した微細素片を重畳し、合成音声307を得る。なお、ステップS8で得られるのは音声素片であるので、実際の合成音声は波形重畳ステップS8で得られた複数の音声素片を接続して得られる。すなわち、音声出力ステップS9において、波形重畳ステップS8で得られた音声素片を接続して合成音声を出力する。
【0028】
なお、微細素片の再配置処理に関して、「間引き」については、図3に示すようにスペクトル補正フィルタを作用させる前に実行するようにしてもよい。このようにすれば、不要な微細素片についてフィルタ処理を施すという無駄な処理を省くことができるからである。
【0029】
〈第2実施形態〉
上記第1実施形態においてはスペクトル補正フィルタを音声合成時に構成しているが、スペクトル補正フィルタの構成を音声合成に先立って行い、フィルタを構成するための構成情報(フィルタ係数)を所定の記憶領域に保持しておくようにしてもよい。すなわち、第1実施形態のプロセスをデータ作成(図4)と音声合成(図5)の2つのプロセスに分離することが可能である。第2実施形態ではこの場合の処理について説明する。なお、本処理を実現するための装置構成は第1実施形態(図1)と同様である。また、本実施形態では、構成情報を音声合成用辞書501に格納することとする。
【0030】
図4のフローチャートにおいて、ステップS2、S3、S4は第1実施形態(図2)と同様である。そして、スペクトル補正フィルタ記録ステップS101では、スペクトル補正フィルタ構成ステップS4で構成されたスペクトル補正フィルタのフィルタ係数を外部記憶装置15に記録する。本実施形態では、音声合成用辞書501に登録された各波形データについてスペクトル補正フィルタを構成し、各波形データに対応するフィルタの係数をスペクトル補正フィルタとして音声合成用辞書501内に保持する。すなわち、第2実施形態の音声合成用辞書501には、各音声波形の波形データとスペクトル補正フィルタが登録されていることになる。
【0031】
一方、音声合成時においては、図5のフローチャートに示されるように、第1実施形態の処理における音響分析ステップS3およびスペクトル補正フィルタ構成ステップS4が不要となり、代りにスペクトル補正フィルタ読込みステップS102が追加される。スペクトル補正フィルタ読込みステップS102では、スペクトル補正フィルタ記録ステップS101で記録したスペクトル補正フィルタ係数を読み込む。すなわち、波形データ取得ステップS2で取得された波形データに対応するスペクトル補正フィルタの係数を音声合成用辞書501から読み込んでスペクトル補正フィルタを構成する。そして、微細素片スペクトル補正ステップS6では、スペクトル補正フィルタ読込みステップS102で読込まれたスペクトル補正フィルタを用いて微細素片の処理が行われる。
【0032】
以上のように、予め全ての波形データについてスペクトル補正フィルタを記録しておくことにより、音声合成時にスペクトル補正フィルタを構成する必要がなくなる。このため、第1実施形態に比べて音声合成時の処理量を軽減することが可能となる。
【0033】
〈第3実施形態〉
上記第1及び第2実施形態では、スペクトル補正フィルタ構成ステップS4で構成されたフィルタを微細素片切り出しステップS5で切り出された微細素片に適用していた。しかし、スペクトル補正フィルタを前記波形データ取得ステップS2で取得した波形データ(音声波形301)に対して適用しても良い。第3実施形態ではこのようは音声合成処理について説明する。なお、本処理を実現するための装置構成は第1実施形態(図1)と同様である。
【0034】
図6は第3実施形態による音声合成処理を説明するフローチャートである。図6において、波形データ取得ステップS2〜スペクトル補正フィルタ構成ステップS4の各ステップは上記第2実施形態と同様である。第3実施形態では、スペクトル補正フィルタ構成ステップS4によってスペクトル補正フィルタを構成した後、波形データスペクトル補正ステップS201において、波形データ取得ステップS2で取得した波形データに対してスペクトル補正フィルタ構成ステップS4で構成したスペクトル補正フィルタを適用し、波形データのスペクトルを補正する。
【0035】
次に、スペクトル補正波形データ記録ステップS202において、波形データスペクトル補正ステップS201でスペクトル補正された波形データを記録する。すなわち、第2実施形態では、図1の音声合成用辞書501において、「スペクトル補正フィルタ」の代わりに「スペクトル補正された波形データ」が記憶されることになる。
【0036】
一方、音声合成処理においては、図7のフローチャートに示される処理が実行される。第3実施形態では、上述の各実施形態における波形データ取得ステップS2の代りにスペクトル補正波形データ取得ステップS203が設けられる。これにより、スペクトル補正波形データ記録ステップS202で記録されたスペクトル補正後の波形データを、ステップS5における微細素片の切り出しの対象として取得させる。そして、この取得された波形データについて微細素片の切り出し、再配置が行なわれることで、スペクトル補正が施された合成音声を得ることになる。なお、スペクトル補正された波形データを用いるので、微細素片に対するスペクトル補正処理(第1、第2実施形態のステップS6)は不要となっている。
【0037】
第3実施形態のように、微細素片ではなく波形データに対してスペクトル補正フィルタを適用した場合、微細素片切り出しステップS5にて用いられる窓関数の影響を完全に排除することは出来ない。すなわち、上記第1及び第2実施形態と比べて音質は若干劣ってしまう。しかし、スペクトル補正フィルタによるフィルタリングまでを音声合成に先立って行なうことが出来るため、音声合成時(図7)の処理量は第1、第2実施形態に比べて大幅に削減されるという特長がある。
【0038】
尚、第3実施形態では、第2実施形態のように、データ作成と音声合成の2つのプロセスに分けた構成を説明したが、第1実施形態のように合成処理を実行する毎にフィルタリングを行なうように構成することもできる。この場合、図2のフローチャートにおいて、ステップS4とステップS5の間で合成処理対象の波形データにスペクトル補正フィルタを作用させることになる。また、ステップS6は不要となる。
【0039】
〈第4実施形態〉
第1、第2実施形態では、スペクトル補正フィルタ構成ステップS4で構成されたフィルタを微細素片切り出しステップS5で切り出された微細素片に適用した。また、第3実施形態では、スペクトル補正フィルタ構成ステップS4で構成されたフィルタを、微細素片に切り出される前の波形データに適用した。これらに対して、スペクトル補正フィルタを波形重畳ステップS8で合成した合成音声の波形データに対して適用することもできる。第4実施形態ではこの場合の処理について説明する。なお、本処理を実現するための装置構成は第1実施形態(図1)と同様である。
【0040】
図8は第4実施形態による音声合成処理を説明するフローチャートである。第1実施形態の処理(図2)と同様の処理には同一の参照番号が付されている。第4実施形態では、図8に示されるように、波形重畳ステップS8の後に合成音声スペクトル補正ステップS301を設け、微細素片スペクトル補正ステップS6を廃する。合成音声スペクトル補正ステップS301では、スペクトル補正フィルタ構成ステップS4において構成されたフィルタを、波形重畳ステップS8で得られた合成音声の波形データに適用し、スペクトル補正を行なう。
【0041】
以上の第4実施形態によれば、韻律変更ステップS7の結果、同一微細素片の繰り返し回数が少ない場合等においては、第1実施形態に比べて処理量が少なくなる。
【0042】
また、本実施形態においても、スペクトル補正フィルタをあらかじめ構成しておくことが可能な点は、第1及び第2実施形態との関係と同様である。即ち、予めフィルタ係数を音声合成用辞書501に格納しておき、音声合成時にはこれを読出してスペクトル補正用フィルタを構成し、ステップS8で波形重畳された波形データに作用させる。
【0043】
〈第5実施形態〉
スペクトル補正フィルタとして、複数の部分フィルタの合成フィルタとして表現できる場合には、上記第1〜第4実施形態のように1ステップでスペクトル補正を行なうのではなく、スペクトル補正を複数のステップに分散させることが可能となる。スペクトル補正の分散により、上記各実施形態と比べて、音質と処理量のバランスを柔軟に調節することが可能となる。第5実施形態では、このようにスペクトル補正フィルタを分散させて音声合成処理する場合について説明する。なお、本処理を実現するための装置構成は第1実施形態(図1)と同様である。
【0044】
図9は第5実施形態による音声合成処理を説明するフローチャートである。図9に示されるように、まず、韻律目標値取得ステップS1〜スペクトル補正フィルタ構成ステップS4の処理を行なう。これらの処理は、上記第1〜第4実施形態におけるステップS1〜S4の処理と同様である。
【0045】
次に、スペクトル補正フィルタ分解ステップS401で、スペクトル補正フィルタ構成ステップS4で構成されたスペクトル補正フィルタを2乃至3個の部分フィルタ(要素フィルタ)に分解する。例えば、前記音響分析にp次の線形予測分析を用いた場合のスペクトル補正フィルタF1(z)は、分母多項式と分子多項式の積として、以下の[数4]式のように表現される。
【0046】
【数4】
【0047】
あるいは、以下の式のように分子・分母多項式を1次または2次の実係数多項式の積に因数分解することも可能である(以下の[数5]式は、pが偶数の場合を示したものである)。同様に、スペクトル補正フィルタにFIRフィルタを使用した場合も、1次または2次の実係数多項式の積に因数分解することができる。すなわち、[数3]式を因数分解して、[数6]式のように表される。
【0048】
【数5】
【数6】
【0049】
また、p次のケプストラム分析を用いた場合には、フィルタ特性は指数で表現されるため、[数7]式のようにケプストラム係数をグループ分けするだけで良い。
【0050】
【数7】
【0051】
次に、スペクトル補正フィルタ部分適用(1)ステップS402において、スペクトル補正フィルタ分解ステップS401で分解されたフィルタの1つを用いて、波形データ取得ステップS2で取得した波形データをフィルタリングする。すなわち、ステップS401で得られた複数のフィルタ要素のうちの一つである第1のフィルタ要素を用いて、微細素片切り出し前の波形データに対してスペクトル補正処理を施す。
【0052】
次に、微細素片切り出しステップS5において、スペクトル補正フィルタ部分適用(1)ステップS402の結果として得られた波形データに対して窓関数を適用し、微細素片を切り出す。そして、スペクトル補正フィルタ部分適用(2)ステップS403において、スペクトル補正フィルタ分解ステップS401で分解されたフィルタの1つを用いて、微細素片切り出しステップS5で切り出された微細素片をフィルタリングする。すなわち、ステップS401で得られた複数のフィルタ要素のうちの一つである第2のフィルタ要素を用いて、切り出された各微細素片に対してスペクトル補正処理を施す。
【0053】
次に、第1及び第2実施形態と同様に韻律変更ステップS7と波形重畳ステップS8を行なう。そして、スペクトル補正フィルタ部分適用(3)ステップS404において、スペクトル補正フィルタ分解ステップS401で分解されたフィルタの1つを用いて、波形重畳ステップS8の結果得られた合成音声をフィルタリングする。すなわち、ステップS401で得られた複数のフィルタ要素のうちの一つである第3のフィルタ要素を用いて、得られた合成音声の波形データに対してスペクトル補正処理を施す。
【0054】
そして、音声出力ステップS9において、スペクトル補正フィルタ部分適用(3)ステップS404の結果得られた合成音声を出力する。
以上の構成において、例えば、[数5]式の分解を行った場合は、F1,1(z)をステップS402で、F1,2(z)をステップS403で、F1,3(z)をステップS404で用いるというようなことが可能である。
【0055】
尚、[数4]式の様に、2要素の積に分割した場合にはステップS402,S403,S404のいずれかではフィルタリングを行わないことになる。すなわち、スペクトル補正フィルタ分解ステップS401においてスペクトル補正フィルタを2つに分解した場合(この例では、分母多項式と分子多項式の2つに分割している)には、スペクトル補正フィルタ部分適用(1)ステップS402、スペクトル補正フィルタ部分適用(2)ステップS403、スペクトル補正フィルタ部分適用(3)ステップS404のうちのいずれかは省略される。
【0056】
また、第5実施形態においても、スペクトル補正フィルタや各要素フィルタをあらかじめ構成して音声合成用辞書501の一部として登録しておくようにしてもよいことは、第1及び第2実施形態の関連と同様、明らかである。
以上のように、第5の実施形態によれば、どの多項式(フィルタ)をどのステップ(S402,S403,S404)に割り当てるかという任意性があり、その割り当て方によって、音質・処理量の配分が変わってくる。特に、[数5]式や[数7]式、あるいはFIRフィルタを因数分解した[数6]式の場合には、それぞれのステップに因数を何個ずつ割り当てるかまで制御できるので、さらに柔軟性があることになる。
【0057】
〈その他の実施形態〉
上記各実施形態において、スペクトル補正フィルタ係数を直接記録するのではなく、ベクトル量子化等の手法を使って量子化した後に記録しても良い。これにより、外部記憶装置15に記録されるデータ量を削減することが可能である。
【0058】
このとき、音響分析の手法としてLPC分析や一般化ケプストラム分析を用いている場合には、フィルタ係数を線スペクトル対(LSP)に変換した後に量子化を行なうと量子化の効率が良くなる。
【0059】
また、波形のサンプリング周波数が高い場合には、帯域分割フィルタによって帯域分割を行い、帯域制限された個々の波形に対してスペクトル補正フィルタリングを行なっても良い。帯域分割によってスペクトル補正フィルタの次数が押えられ、計算量を削減する効果がある。メルケプストラムのような周波数軸の伸縮によっても同様の効果がある。
【0060】
また、前記各実施形態で、スペクトル補正フィルタリングを行なうタイミングには、複数の選択肢があることを示した。どのタイミングでスペクトル補正フィルタリングを行なうか、あるいはスペクトル補正を行なうか行なわないかの選択を、素片毎に行なっても良い。選択のための情報として、音素種別や有声/無声の種別等を利用することができる。
なお、上記各実施形態において、スペクトル補正フィルタの一例としては、ホルマントを強調するホルマント強調フィルタが挙げられる。
【0061】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0062】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0063】
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
【0064】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0065】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0066】
【発明の効果】
以上説明したように、本発明によれば、微細素片を得るために適用した窓関数による、音声のスペクトルの「ぼやけ」を軽減することができ、音質が高い音声合成を実現することができる。
【図面の簡単な説明】
【図1】第1実施形態におけるハードウェア構成を示すブロック図である。
【図2】第1実施形態による音声出力処理を説明するフローチャートである。
【図3】第1実施形態の音声合成処理の様子を表す図である。
【図4】第2実施形態による音声出力処理におけるスペクトル補正フィルタ登録処理を説明するフローチャートである。
【図5】第2実施形態による音声出力処理における音声合成処理を説明するフローチャートである。
【図6】第3実施形態による音声出力処理におけるスペクトル補正フィルタ登録処理を説明するフローチャートである。
【図7】第3実施形態による音声出力処理における音声合成処理を説明するフローチャートである。
【図8】第4実施形態による音声出力処理を説明するフローチャートである。
【図9】第5実施形態による音声出力処理を説明するフローチャートである。
【図10】音声波形の微細素片への分割、再配置、合成による音声合成方法を模式的に示した図である。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a speech synthesis apparatus and method for synthesizing speech.
[0002]
[Prior art]
Conventionally, as a speech synthesis method for obtaining a desired synthesized speech, a speech unit recorded and stored in advance is divided into a plurality of minute units, and the resulting minute units are rearranged. There is a method for obtaining a desired synthesized voice. In the rearrangement of these fine segments, a synthesized speech having a desired time length and fundamental frequency can be obtained by performing processing such as interval change, repetition, and thinning on the fine segments.
[0003]
FIG. 10 is a diagram schematically showing a method of dividing a speech waveform into fine segments. The speech waveform shown in FIG. 10 is divided into fine segments by a cutout window function (hereinafter, a window function). At this time, a window function synchronized with the pitch interval of the original voice is used in the voiced portion (the latter half of the voice waveform). On the other hand, in the unvoiced portion, a window function with an appropriate interval is used.
[0004]
Then, as shown in FIG. 10, by using these fine pieces thinned out, the duration of the voice can be shortened. On the other hand, if these fine segments are used repeatedly, the duration of the voice can be extended. Further, as shown in FIG. 10, in the voiced sound portion, it is possible to increase the fundamental frequency of the synthesized speech by reducing the interval between the fine segments. On the other hand, it is possible to lower the fundamental frequency of the synthesized speech by increasing the interval between the fine segments.
[0005]
The desired synthesized speech can be obtained by repeating the above-described repetition / thinning / interval change and superimposing the re-arranged fine segments again. As a unit for recording and storing speech units, units such as phonemes, CV / VC or VCV are used. CV · VC is a unit in which a unit boundary is placed in a phoneme, and VCV is a unit in which a unit boundary is placed in a vowel.
[0006]
[Problems to be solved by the invention]
However, in the above-described conventional method, a so-called “blur” occurs in the spectrum of a voice because a window function is applied to obtain a fine segment from the voice waveform. That is, phenomena such as the spread of the formant of the voice and the valley of the spectral envelope become ambiguous occur, and the sound quality of the synthesized voice is deteriorated.
[0007]
The present invention has been made in view of the above problems, and aims to reduce the `` blurring '' of the voice spectrum by a window function applied to obtain fine fragments, and to realize high-quality voice synthesis. I do.
[0008]
[Means for Solving the Problems]
To achieve the above object, a speech synthesis method according to the present invention comprises:
An obtaining step of obtaining a fine segment from the audio waveform data and the window function,
A re-arrangement step of re-arranging the fine segments obtained in the obtaining step to change the prosody at the time of synthesis,
A synthesizing step of outputting synthesized speech waveform data based on superimposed waveform data obtained by superimposing the fine elements relocated in the rearrangement step,
A correction step of applying a spectrum correction filter configured based on the audio waveform data processed in the obtaining step in a process including the obtaining step, the rearranging step, and the synthesizing step.
[0009]
Further, a speech synthesizer according to the present invention for achieving the above object has the following configuration. That is,
Acquiring means for acquiring a fine segment from the audio waveform data and the window function,
A re-arrangement unit that re-arranges the fine segments acquired by the acquisition unit to change the prosody at the time of synthesis,
A synthesizing unit that outputs synthesized voice waveform data based on superimposed waveform data obtained by superimposing the fine segments relocated by the rearrangement unit,
And a correction means for causing a spectrum correction filter configured based on the audio waveform data processed by the obtaining means to act in a process of processing including the obtaining means, the rearranging means, and the synthesizing means.
[0010]
Further, according to the present invention, there is provided a dictionary synthesis method for speech synthesis suitable for the above speech synthesis method or speech synthesis apparatus.
[0011]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, some preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.
[0012]
<First embodiment>
FIG. 1 is a block diagram illustrating a hardware configuration according to the first embodiment.
[0013]
In FIG. 1,
[0014]
[0015]
The operation of the audio output device according to the present embodiment having the above-described configuration will be described below with reference to FIGS. FIG. 2 is a flowchart illustrating the audio output processing according to the first embodiment. FIG. 3 is a diagram illustrating a speech synthesis process according to the first embodiment.
[0016]
First, in a prosody target value obtaining step S1, a target prosody value of a synthesized speech is obtained. The target prosody value of the synthesized speech may be provided directly from a higher-level module as in singing voice synthesis, or may be estimated using some means. For example, in the case of speech synthesis from text, it is estimated from the result of language analysis of text.
[0017]
Next, in a waveform data acquisition step S2, waveform data (
[0018]
Next, in a spectrum correction filter configuration step S4, a spectrum correction filter is configured using the parameters calculated in the acoustic analysis step S3. For example, when a p-order linear prediction analysis is used for the acoustic analysis, a filter having a characteristic represented by the following [Equation 1] is used as the
[0019]
(Equation 1)
[0020]
Further, when the p-order cepstrum analysis is used, a filter having a characteristic represented by the following [Equation 2] is used as a spectrum correction filter. In the case of using the expression 2, the cepstrum coefficient c j is calculated in the above parameter calculation.
[0021]
(Equation 2)
[0022]
In the above equations, μ and γ are appropriate coefficients, α is a linear prediction coefficient, and c is a cepstrum coefficient. Alternatively, an FIR filter expressed by the following [Equation 3], in which the impulse response of the filter is truncated at an appropriate order, may be used. In the case of using Equation 3, the coefficient β j is calculated in the above parameter calculation.
[0023]
[Equation 3]
[0024]
In practice, in each of the above equations, it is necessary to consider the gain of the system. The spectrum correction filter configured as described above is stored in the speech synthesis dictionary 501 (actually, the filter coefficients are stored).
[0025]
Next, in a fine segment extracting step S5, the
[0026]
Next, in the fine element spectrum correction step S6, the
[0027]
Next, in the prosody changing step S7, the
[0028]
In addition, regarding the rearrangement processing of the fine element, “thinning-out” may be executed before applying the spectrum correction filter as shown in FIG. By doing so, it is possible to omit unnecessary processing of performing filter processing on unnecessary fine fragments.
[0029]
<Second embodiment>
In the first embodiment, the spectrum correction filter is configured at the time of speech synthesis. However, the configuration of the spectrum correction filter is performed prior to speech synthesis, and configuration information (filter coefficient) for configuring the filter is stored in a predetermined storage area. May be held. That is, the process of the first embodiment can be separated into two processes of data creation (FIG. 4) and speech synthesis (FIG. 5). In the second embodiment, processing in this case will be described. Note that the device configuration for implementing this processing is the same as in the first embodiment (FIG. 1). In the present embodiment, the configuration information is stored in the
[0030]
In the flowchart of FIG. 4, steps S2, S3, and S4 are the same as in the first embodiment (FIG. 2). Then, in the spectrum correction filter recording step S101, the filter coefficient of the spectrum correction filter configured in the spectrum correction filter configuration step S4 is recorded in the
[0031]
On the other hand, at the time of speech synthesis, as shown in the flowchart of FIG. 5, the acoustic analysis step S3 and the spectrum correction filter configuration step S4 in the processing of the first embodiment are not required, and instead, a spectrum correction filter reading step S102 is added. Is done. In the spectrum correction filter reading step S102, the spectrum correction filter coefficient recorded in the spectrum correction filter recording step S101 is read. That is, the coefficients of the spectrum correction filter corresponding to the waveform data obtained in the waveform data obtaining step S2 are read from the
[0032]
As described above, by storing the spectrum correction filters for all the waveform data in advance, it is not necessary to configure the spectrum correction filters at the time of speech synthesis. For this reason, it is possible to reduce the processing amount at the time of speech synthesis as compared with the first embodiment.
[0033]
<Third embodiment>
In the first and second embodiments, the filter configured in the spectrum correction filter configuration step S4 is applied to the fine element cut out in the fine element extraction step S5. However, a spectrum correction filter may be applied to the waveform data (audio waveform 301) acquired in the waveform data acquisition step S2. In the third embodiment, such a speech synthesis process will be described. Note that the device configuration for implementing this processing is the same as in the first embodiment (FIG. 1).
[0034]
FIG. 6 is a flowchart illustrating a speech synthesis process according to the third embodiment. In FIG. 6, each step of the waveform data acquisition step S2 to the spectrum correction filter configuration step S4 is the same as in the second embodiment. In the third embodiment, after the spectrum correction filter is configured in the spectrum correction filter configuration step S4, in the waveform data spectrum correction step S201, the spectrum correction filter configuration step S4 is performed on the waveform data acquired in the waveform data acquisition step S2. The spectrum of the waveform data is corrected by applying the calculated spectrum correction filter.
[0035]
Next, in a spectrum correction waveform data recording step S202, the waveform data subjected to the spectrum correction in the waveform data spectrum correction step S201 is recorded. That is, in the second embodiment, “spectral corrected waveform data” is stored in the
[0036]
On the other hand, in the speech synthesis processing, the processing shown in the flowchart of FIG. 7 is executed. In the third embodiment, a spectrum correction waveform data acquisition step S203 is provided instead of the waveform data acquisition step S2 in each of the above embodiments. As a result, the waveform data after the spectrum correction recorded in the spectrum correction waveform data recording step S202 is obtained as a target for cutting out the fine element in the step S5. Then, a minute speech is cut out and rearranged with respect to the acquired waveform data, thereby obtaining a synthesized speech subjected to spectrum correction. Since the spectrum-corrected waveform data is used, the spectrum correction process (step S6 in the first and second embodiments) for the fine element is not required.
[0037]
As in the third embodiment, when the spectrum correction filter is applied to waveform data instead of fine segments, the effect of the window function used in the fine segment extraction step S5 cannot be completely eliminated. That is, the sound quality is slightly inferior to those of the first and second embodiments. However, since filtering up to the spectral correction filter can be performed prior to speech synthesis, the processing amount at the time of speech synthesis (FIG. 7) is greatly reduced as compared with the first and second embodiments. .
[0038]
In the third embodiment, as in the second embodiment, a configuration in which the processes are divided into two processes of data creation and speech synthesis has been described. However, as in the first embodiment, filtering is performed every time a synthesis process is performed. It can also be configured to do so. In this case, in the flowchart of FIG. 2, a spectrum correction filter is applied to the waveform data to be synthesized between steps S4 and S5. Step S6 becomes unnecessary.
[0039]
<Fourth embodiment>
In the first and second embodiments, the filter configured in the spectrum correction filter configuration step S4 is applied to the fine element cut out in the fine element extraction step S5. In the third embodiment, the filter configured in the spectrum correction filter configuration step S4 is applied to waveform data before being cut out into fine pieces. On the other hand, a spectrum correction filter can be applied to the waveform data of the synthesized voice synthesized in the waveform superimposing step S8. In the fourth embodiment, processing in this case will be described. Note that the device configuration for implementing this processing is the same as in the first embodiment (FIG. 1).
[0040]
FIG. 8 is a flowchart illustrating a speech synthesis process according to the fourth embodiment. The same processes as those in the first embodiment (FIG. 2) are denoted by the same reference numerals. In the fourth embodiment, as shown in FIG. 8, a synthesized speech spectrum correction step S301 is provided after the waveform superposition step S8, and the fine unit spectrum correction step S6 is omitted. In the synthesized voice spectrum correction step S301, the filter configured in the spectrum correction filter configuration step S4 is applied to the waveform data of the synthesized voice obtained in the waveform superposition step S8 to perform spectrum correction.
[0041]
According to the above-described fourth embodiment, as a result of the prosody changing step S7, when the number of repetitions of the same fine segment is small or the like, the processing amount is smaller than in the first embodiment.
[0042]
Also in this embodiment, the point that the spectrum correction filter can be configured in advance is the same as the relationship between the first and second embodiments. That is, the filter coefficients are stored in the
[0043]
<Fifth embodiment>
When the spectrum correction filter can be expressed as a synthesis filter of a plurality of partial filters, the spectrum correction is not performed in one step as in the first to fourth embodiments, but the spectrum correction is distributed to a plurality of steps. It becomes possible. The dispersion of the spectrum correction makes it possible to flexibly adjust the balance between the sound quality and the processing amount as compared with the above embodiments. In the fifth embodiment, a case will be described in which the spectrum correction filters are dispersed to perform the speech synthesis processing. Note that the device configuration for implementing this processing is the same as in the first embodiment (FIG. 1).
[0044]
FIG. 9 is a flowchart illustrating a speech synthesis process according to the fifth embodiment. As shown in FIG. 9, first, the processing of the prosody target value acquisition step S1 to the spectrum correction filter configuration step S4 is performed. These processes are the same as the processes of steps S1 to S4 in the first to fourth embodiments.
[0045]
Next, in a spectrum correction filter decomposition step S401, the spectrum correction filter formed in the spectrum correction filter construction step S4 is decomposed into two or three partial filters (element filters). For example, the spectrum correction filter F1 (z) when the p-order linear prediction analysis is used for the acoustic analysis is expressed as the following [Equation 4] as the product of the denominator polynomial and the numerator polynomial.
[0046]
(Equation 4)
[0047]
Alternatively, it is also possible to factorize the numerator / denominator polynomial into a product of a first-order or second-order real coefficient polynomial as in the following equation (the following [Equation 5] shows the case where p is an even number) It is). Similarly, when an FIR filter is used as a spectrum correction filter, it can be factorized into a product of a first-order or second-order real coefficient polynomial. That is, the expression [3] is factorized and expressed as the expression [6].
[0048]
(Equation 5)
(Equation 6)
[0049]
When the p-order cepstrum analysis is used, since the filter characteristics are expressed by exponents, it is only necessary to group the cepstrum coefficients as shown in Expression [7].
[0050]
(Equation 7)
[0051]
Next, in the spectral correction filter partial application (1) step S402, the waveform data obtained in the waveform data obtaining step S2 is filtered using one of the filters decomposed in the spectral correction filter decomposing step S401. That is, the spectrum correction process is performed on the waveform data before the fine segment extraction using the first filter element which is one of the plurality of filter elements obtained in step S401.
[0052]
Next, in a fine segment extraction step S5, a window function is applied to the waveform data obtained as a result of the spectral correction filter partial application (1) step S402 to cut out a fine segment. Then, in the spectral correction filter partial application (2) step S403, one of the filters decomposed in the spectral correction filter decomposing step S401 is used to filter the fine element cut out in the fine element extracting step S5. That is, using the second filter element which is one of the plurality of filter elements obtained in step S401, a spectrum correction process is performed on each of the cut fine elements.
[0053]
Next, a prosody change step S7 and a waveform superposition step S8 are performed as in the first and second embodiments. Then, in the spectrum correction filter partial application (3) step S404, the synthesized speech obtained as a result of the waveform superposition step S8 is filtered using one of the filters decomposed in the spectrum correction filter decomposition step S401. That is, using the third filter element, which is one of the plurality of filter elements obtained in step S401, performs spectrum correction processing on the obtained synthesized speech waveform data.
[0054]
Then, in the voice output step S9, the synthesized voice obtained as a result of the spectral correction filter partial application (3) step S404 is output.
In the above configuration, for example, when the decomposition of Expression 5 is performed, F 1,1 (z) is determined in step S402, F 1,1 (z) is determined in step S403, and F 1,3 (z ) Can be used in step S404.
[0055]
Note that when the image is divided into a product of two elements as in Expression 4, filtering is not performed in any of steps S402, S403, and S404. That is, if the spectrum correction filter is decomposed into two in the spectrum correction filter decomposition step S401 (in this example, the spectrum correction filter is divided into a denominator polynomial and a numerator polynomial), the spectrum correction filter partial application (1) step One of S402, spectral correction filter partial application (2) step S403, and spectral correction filter partial application (3) step S404 is omitted.
[0056]
Also, in the fifth embodiment, the spectrum correction filter and each element filter may be pre-configured and registered as a part of the
As described above, according to the fifth embodiment, there is an option of assigning which polynomial (filter) to which step (S402, S403, S404), and the allocation of sound quality / processing amount depends on the assignment. It will change. In particular, in the case of the formulas [5] and [7] or the formula [6] obtained by factoring the FIR filter, it is possible to control how many factors are assigned to each step, so that more flexibility is provided. There will be.
[0057]
<Other embodiments>
In each of the above embodiments, instead of directly recording the spectrum correction filter coefficient, the spectrum correction filter coefficient may be recorded after being quantized using a method such as vector quantization. Thus, the amount of data recorded in the
[0058]
At this time, when LPC analysis or generalized cepstrum analysis is used as the acoustic analysis method, if the quantization is performed after converting the filter coefficients into a line spectrum pair (LSP), the quantization efficiency is improved.
[0059]
When the sampling frequency of the waveform is high, band division may be performed by a band division filter, and spectrum correction filtering may be performed on each band-limited waveform. The band division suppresses the order of the spectrum correction filter, which has the effect of reducing the amount of calculation. The same effect can be obtained by expansion and contraction of the frequency axis such as mel cepstrum.
[0060]
Further, in each of the embodiments, it has been described that there are a plurality of options for the timing of performing the spectrum correction filtering. The timing at which spectrum correction filtering is performed or whether spectrum correction is performed or not may be selected for each unit. As information for selection, a phoneme type, a voiced / unvoiced type, or the like can be used.
In each of the above embodiments, an example of the spectrum correction filter is a formant emphasis filter that emphasizes formants.
[0061]
Further, an object of the present invention is to provide a storage medium storing a program code of software for realizing the functions of the above-described embodiments to a system or an apparatus, and a computer (or CPU or MPU) of the system or apparatus to store the storage medium. It is needless to say that the present invention can also be achieved by reading and executing the program code stored in the program.
[0062]
In this case, the program code itself read from the storage medium realizes the function of the above-described embodiment, and the storage medium storing the program code constitutes the present invention.
[0063]
As a storage medium for supplying the program code, for example, a flexible disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a magnetic tape, a nonvolatile memory card, a ROM, and the like can be used.
[0064]
When the computer executes the readout program code, not only the functions of the above-described embodiments are realized, but also an OS (Operating System) running on the computer based on the instruction of the program code. It goes without saying that a part or all of the actual processing is performed and the functions of the above-described embodiments are realized by the processing.
[0065]
Further, after the program code read from the storage medium is written into a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion is performed based on the instruction of the program code. It goes without saying that a CPU or the like provided in the board or the function expansion unit performs part or all of the actual processing, and the processing realizes the functions of the above-described embodiments.
[0066]
【The invention's effect】
As described above, according to the present invention, it is possible to reduce the “blur” of the speech spectrum by the window function applied to obtain a fine segment, and to realize speech synthesis with high sound quality. .
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a hardware configuration according to a first embodiment.
FIG. 2 is a flowchart illustrating audio output processing according to the first embodiment.
FIG. 3 is a diagram illustrating a state of a speech synthesis process according to the first embodiment.
FIG. 4 is a flowchart illustrating a spectrum correction filter registration process in the audio output process according to the second embodiment.
FIG. 5 is a flowchart illustrating a speech synthesis process in a speech output process according to a second embodiment.
FIG. 6 is a flowchart illustrating a spectrum correction filter registration process in the audio output process according to the third embodiment.
FIG. 7 is a flowchart illustrating a speech synthesis process in a speech output process according to a third embodiment.
FIG. 8 is a flowchart illustrating an audio output process according to a fourth embodiment.
FIG. 9 is a flowchart illustrating audio output processing according to a fifth embodiment.
FIG. 10 is a diagram schematically illustrating a speech synthesis method by dividing, rearranging, and synthesizing a speech waveform into fine segments.
Claims (22)
前記取得工程で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置工程と、
前記再配置工程で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成工程と、
前記取得工程で処理される音声波形データに基づいて構成されたスペクトル補正フィルタを、前記取得工程、再配置工程、合成工程を含む処理の過程において作用させる補正工程と
を備えることを特徴とする音声合成方法。An obtaining step of obtaining a fine segment from the audio waveform data and the window function,
A re-arrangement step of re-arranging the fine segments obtained in the obtaining step to change the prosody at the time of synthesis,
A synthesizing step of outputting synthesized speech waveform data based on superimposed waveform data obtained by superimposing the fine elements relocated in the rearrangement step,
A sound processing apparatus comprising: a correction step of operating a spectrum correction filter configured based on the audio waveform data processed in the obtaining step in a process including the obtaining step, the rearranging step, and the synthesizing step. Synthesis method.
前記取得工程で処理される音声波形データに基づいてスペクトル補正フィルタを構成する構成工程を有し、
前記取得工程で取得された微細素片に対して前記構成工程で構成されたスペクトル補正フィルタを作用させることを特徴とする請求項1に記載の音声合成方法。The correcting step includes:
Having a configuration step of configuring a spectrum correction filter based on the audio waveform data processed in the obtaining step,
The speech synthesis method according to claim 1, wherein the spectrum correction filter configured in the configuration step is applied to the fine segment acquired in the acquisition step.
前記補正工程は、前記取得工程で処理される音声波形データに対応する構成情報を前記音声合成用辞書から取得してスペクトル補正フィルタを構成し、前記取得工程で取得された微細素片に対して該スペクトル補正フィルタを作用させることを特徴とする請求項1に記載の音声合成方法。For each of the voice waveform data, comprises a voice synthesis dictionary in which configuration information for a spectrum correction filter is registered,
The correction step acquires a configuration information corresponding to the audio waveform data processed in the acquisition step from the speech synthesis dictionary to configure a spectrum correction filter, and for the fine element acquired in the acquisition step 2. The speech synthesis method according to claim 1, wherein said spectrum correction filter is operated.
前記補正工程は、前記取得工程にスペクトル補正後の音声波形データを提供することを特徴とする請求項1に記載の音声合成方法。A speech synthesis dictionary in which the speech waveform data after the spectrum correction is registered by applying a spectrum correction filter configured based on each of the speech waveform data,
The voice synthesizing method according to claim 1, wherein the correcting step provides the voice waveform data after spectrum correction to the obtaining step.
前記補正工程は、前記構成工程で得られた複数の要素フィルタのそれぞれを、前記取得工程、再配置工程、合成工程を含む処理過程中の複数個所において作用させることを特徴とする請求項1に記載の音声合成方法。A spectral correction filter is configured based on the audio waveform data processed in the obtaining step, and further includes a configuration step of decomposing this into a plurality of element filters,
The method according to claim 1, wherein the correcting step causes each of the plurality of element filters obtained in the configuration step to act on a plurality of points in a processing process including the obtaining step, the rearranging step, and the combining step. Described speech synthesis method.
前記補正工程は、前記第1の要素フィルタを前記取得工程で処理される音声波形データに作用させ、前記第2の要素フィルタを前記取得工程で得られた微細素片に作用させ、前記第3の要素フィルタを前記合成工程で得られた重畳波形データに作用させることを特徴とする請求項7に記載の音声合成方法。The configuration step decomposes the spectrum correction filter into first to third element filters,
The correction step includes causing the first element filter to act on the audio waveform data processed in the acquisition step, causing the second element filter to act on the fine element obtained in the acquisition step, 8. The speech synthesis method according to claim 7, wherein the element filter is applied to the superimposed waveform data obtained in the synthesis step.
前記補正工程は、前記取得工程で処理する音声波形データに対応する複数の要素フィルタを前記音声合成用辞書より取得し、得られた複数の要素フィルタのそれぞれを、前記取得工程、再配置工程、合成工程を含む処理過程中の複数個所において作用させることを特徴とする請求項1に記載の音声合成方法。Provide a dictionary for speech synthesis registered by decomposing the spectrum correction filter configured based on the speech waveform data into a plurality of element filters,
The correction step acquires a plurality of element filters corresponding to the speech waveform data processed in the acquisition step from the speech synthesis dictionary, and obtains each of the plurality of element filters, the acquisition step, the rearrangement step, 2. The speech synthesis method according to claim 1, wherein the method is performed at a plurality of points in a process including a synthesis step.
音声合成用辞書に登録された音声波形データに基づいてスペクトル補正用フィルタを生成する生成工程と、
前記生成工程で生成されたスペクトル補正用フィルタを前記音声波形データに対応付けて登録する登録工程と
を備えることを特徴とする辞書生成方法。A method for generating a dictionary for speech synthesis in which speech waveform data is registered,
A generation step of generating a spectrum correction filter based on the voice waveform data registered in the voice synthesis dictionary;
A registration step of registering the spectrum correction filter generated in the generation step in association with the audio waveform data.
音声合成用辞書に登録された音声波形データの各々に基づいてスペクトル補正用フィルタを生成する第1生成工程と、
前記スペクトル補正用フィルタを対応する音声波形データに作用させて、スペクトル補正後の音声波形データを生成する第2生成工程と、
前記第2生成工程で生成されたスペクトル補正後の音声波形データを辞書に登録する登録工程と
を備えることを特徴とする辞書生成方法。A method for generating a dictionary for speech synthesis in which speech waveform data is registered,
A first generation step of generating a spectrum correction filter based on each of the voice waveform data registered in the voice synthesis dictionary;
A second generation step of causing the spectrum correction filter to act on the corresponding voice waveform data to generate voice waveform data after spectrum correction;
A registration step of registering the spectrum-corrected audio waveform data generated in the second generation step in a dictionary.
音声合成用辞書に登録された音声波形データに基づいてスペクトル補正用フィルタを生成し、これを複数の要素フィルタに分解する分解工程と、
前記分解工程で生成された複数の要素フィルタを前記音声波形データに対応付けて登録する登録工程と
を備えることを特徴とする辞書生成方法。A method for generating a dictionary for speech synthesis in which speech waveform data is registered,
A decomposition step of generating a spectrum correction filter based on the voice waveform data registered in the voice synthesis dictionary and decomposing this into a plurality of element filters;
A registration step of registering the plurality of element filters generated in the decomposition step in association with the audio waveform data.
前記取得手段で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置手段と、
前記再配置手段で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成手段と、
前記取得手段で処理される音声波形データに基づいて構成されたスペクトル補正フィルタを、前記取得手段、再配置手段、合成手段を含む処理の過程において作用させる補正手段と
を備えることを特徴とする音声合成装置。Acquiring means for acquiring a fine segment from the audio waveform data and the window function,
A re-arrangement unit that re-arranges the fine segments acquired by the acquisition unit to change the prosody at the time of synthesis,
A synthesizing unit that outputs synthesized voice waveform data based on superimposed waveform data obtained by superimposing the fine segments relocated by the rearrangement unit,
A sound processing apparatus comprising: a correction means for causing a spectrum correction filter configured based on voice waveform data processed by the obtaining means to act in a process of processing including the obtaining means, the rearranging means, and the synthesizing means. Synthesizer.
音声合成用辞書に登録された音声波形データに基づいてスペクトル補正用フィルタを生成する生成手段と、
前記生成手段で生成されたスペクトル補正用フィルタを前記音声波形データに対応付けて登録する登録手段と
を備えることを特徴とする辞書生成装置。An apparatus for generating a dictionary for speech synthesis in which speech waveform data is registered,
Generating means for generating a spectrum correction filter based on the voice waveform data registered in the voice synthesis dictionary;
A registration unit for registering the spectrum correction filter generated by the generation unit in association with the audio waveform data.
音声合成用辞書に登録された音声波形データの各々に基づいてスペクトル補正用フィルタを生成する第1生成手段と、
前記スペクトル補正用フィルタを対応する音声波形データに作用させて、スペクトル補正後の音声波形データを生成する第2生成手段と、
前記第2生成手段で生成されたスペクトル補正後の音声波形データを辞書に登録する登録手段と
を備えることを特徴とする辞書生成装置。An apparatus for generating a dictionary for speech synthesis in which speech waveform data is registered,
First generating means for generating a spectrum correction filter based on each of the voice waveform data registered in the voice synthesis dictionary;
Second generating means for causing the spectrum correction filter to act on the corresponding voice waveform data to generate voice waveform data after spectrum correction;
A registration unit for registering in the dictionary the spectrum-corrected speech waveform data generated by the second generation unit.
音声合成用辞書に登録された音声波形データに基づいてスペクトル補正用フィルタを生成し、これを複数の要素フィルタに分解する分解手段と、
前記分解手段で生成された複数の要素フィルタを前記音声波形データに対応付けて登録する登録手段と
を備えることを特徴とする辞書生成装置。An apparatus for generating a dictionary for speech synthesis in which speech waveform data is registered,
Decomposition means for generating a spectrum correction filter based on the voice waveform data registered in the voice synthesis dictionary and decomposing the filter into a plurality of element filters;
Registering means for registering the plurality of element filters generated by the decomposing means in association with the audio waveform data.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002164624A JP4332323B2 (en) | 2002-06-05 | 2002-06-05 | Speech synthesis method and apparatus and dictionary generation method and apparatus |
US10/449,072 US7546241B2 (en) | 2002-06-05 | 2003-06-02 | Speech synthesis method and apparatus, and dictionary generation method and apparatus |
EP03253523A EP1369846B1 (en) | 2002-06-05 | 2003-06-04 | Speech synthesis |
DE60332980T DE60332980D1 (en) | 2002-06-05 | 2003-06-04 | speech synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002164624A JP4332323B2 (en) | 2002-06-05 | 2002-06-05 | Speech synthesis method and apparatus and dictionary generation method and apparatus |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004012700A true JP2004012700A (en) | 2004-01-15 |
JP2004012700A5 JP2004012700A5 (en) | 2005-10-13 |
JP4332323B2 JP4332323B2 (en) | 2009-09-16 |
Family
ID=30432718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002164624A Expired - Fee Related JP4332323B2 (en) | 2002-06-05 | 2002-06-05 | Speech synthesis method and apparatus and dictionary generation method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4332323B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006129814A1 (en) * | 2005-05-31 | 2006-12-07 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus |
JP2008026777A (en) * | 2006-07-25 | 2008-02-07 | Casio Comput Co Ltd | Speech synthesis dictionary structuring device, speech synthesis dictionary structuring method, and program |
JP2009058708A (en) * | 2007-08-31 | 2009-03-19 | Internatl Business Mach Corp <Ibm> | Voice processing system, method and program |
-
2002
- 2002-06-05 JP JP2002164624A patent/JP4332323B2/en not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006129814A1 (en) * | 2005-05-31 | 2006-12-07 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus |
JP2008026777A (en) * | 2006-07-25 | 2008-02-07 | Casio Comput Co Ltd | Speech synthesis dictionary structuring device, speech synthesis dictionary structuring method, and program |
JP2009058708A (en) * | 2007-08-31 | 2009-03-19 | Internatl Business Mach Corp <Ibm> | Voice processing system, method and program |
US8812312B2 (en) | 2007-08-31 | 2014-08-19 | International Business Machines Corporation | System, method and program for speech processing |
Also Published As
Publication number | Publication date |
---|---|
JP4332323B2 (en) | 2009-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3294604B2 (en) | Processor for speech synthesis by adding and superimposing waveforms | |
US8280738B2 (en) | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method | |
JPS62160495A (en) | Voice synthesization system | |
JP2009109805A (en) | Speech processing apparatus and method of speech processing | |
JP3450237B2 (en) | Speech synthesis apparatus and method | |
EP1369846B1 (en) | Speech synthesis | |
JP3728173B2 (en) | Speech synthesis method, apparatus and storage medium | |
JP4332323B2 (en) | Speech synthesis method and apparatus and dictionary generation method and apparatus | |
JP5075865B2 (en) | Audio processing apparatus, method, and program | |
JP3897654B2 (en) | Speech synthesis method and apparatus | |
JP2000075879A (en) | Method and device for voice synthesis | |
JP3756864B2 (en) | Speech synthesis method and apparatus and speech synthesis program | |
JP2008058379A (en) | Speech synthesis system and filter device | |
JP4963345B2 (en) | Speech synthesis method and speech synthesis program | |
JP2007052456A (en) | Method and system for generating dictionary for speech synthesis | |
JP6834370B2 (en) | Speech synthesis method | |
JP4929896B2 (en) | Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program | |
JP3289511B2 (en) | How to create sound source data for speech synthesis | |
JP2005024794A (en) | Method, device, and program for speech synthesis | |
JP2987089B2 (en) | Speech unit creation method, speech synthesis method and apparatus therefor | |
JPS5880699A (en) | Voice synthesizing system | |
JP3592617B2 (en) | Speech synthesis method, apparatus and program recording medium | |
JPH08160991A (en) | Method for generating speech element piece, and method and device for speech synthesis | |
Alcaraz Meseguer | Speech analysis for automatic speech recognition | |
JP2001100777A (en) | Method and device for voice synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050606 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070515 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070615 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070814 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070827 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20070914 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090521 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090622 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4332323 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120626 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120626 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130626 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |