JP2004012700A - Method and apparatus for synthesizing voice and method and apparatus for preparing dictionary - Google Patents

Method and apparatus for synthesizing voice and method and apparatus for preparing dictionary Download PDF

Info

Publication number
JP2004012700A
JP2004012700A JP2002164624A JP2002164624A JP2004012700A JP 2004012700 A JP2004012700 A JP 2004012700A JP 2002164624 A JP2002164624 A JP 2002164624A JP 2002164624 A JP2002164624 A JP 2002164624A JP 2004012700 A JP2004012700 A JP 2004012700A
Authority
JP
Japan
Prior art keywords
waveform data
spectrum correction
correction filter
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002164624A
Other languages
Japanese (ja)
Other versions
JP2004012700A5 (en
JP4332323B2 (en
Inventor
Masaaki Yamada
山田 雅章
Toshiaki Fukada
深田 俊明
Yasuhiro Komori
小森 康弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2002164624A priority Critical patent/JP4332323B2/en
Priority to US10/449,072 priority patent/US7546241B2/en
Priority to EP03253523A priority patent/EP1369846B1/en
Priority to DE60332980T priority patent/DE60332980D1/en
Publication of JP2004012700A publication Critical patent/JP2004012700A/en
Publication of JP2004012700A5 publication Critical patent/JP2004012700A5/ja
Application granted granted Critical
Publication of JP4332323B2 publication Critical patent/JP4332323B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To reduce "diffusion" of voice spectrum due to a windowing function applied for the purpose of obtaining minute element pieces and to realize voice synthesis of high tone quality. <P>SOLUTION: At a spectrum correction filter constituting step S4, a spectrum correction filter is constituted based on waveform data acquired at a waveform data acquiring step S2. On the other hand, at a minute element piece segmenting step S5, minute element pieces are segmented by the windowing function and the waveform data acquired at the step S2. Then at a minute element piece spectrum correcting step S6, spectrum correction processing by the spectrum correction filter is performed to each minute element piece. At a rhythm changing step S7, the minute element pieces of corrected spectrum are rearranged in order to realize desired rhythm. At a waveform superposing step S8, rearranged minute element pieces are superposed to obtain synthesized voice waveform data. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、音声を合成する音声合成装置および方法に関する。
【0002】
【従来の技術】
従来より、所望の合成音声を得るための音声合成方法として、あらかじめ収録し蓄えられた音声素片を複数の微細素片に分割し、分割の結果得られた微細素片の再配置を行って所望の合成音声を得る方法がある。これら微細素片の再配置において、微細素片に対して間隔変更・繰り返し・間引き等の処理が行われることにより、所望の時間長・基本周波数を持つ合成音声が得られる。
【0003】
図10は、音声波形を微細素片に分割する方法を模式的に示した図である。図10に示された音声波形は、切り出し窓関数(以下、窓関数)によって微細素片に分割される。このとき、有声音の部分(音声波形の後半部)では原音声のピッチ間隔に同期した窓関数が用いられる。一方、無声音の部分では、適当な間隔の窓関数が用いられる。
【0004】
そして、図10に示すようにこれらの微細素片を間引いて用いることにより音声の継続時間長を短縮することができる。一方、これらの微細素片を繰り返して用いれば、音声の継続時間長を伸長することができる。更に、図10に示すように、有声音の部分では、微細素片の間隔を詰めることにより合成音声の基本周波数を上げることが可能となる。一方、微細素片の間隔を広げることにより合成音声の基本周波数を下げることが可能である。
【0005】
以上のような繰り返し・間引き・間隔変更を行なって再配置された微細素片を再び重畳することにより所望の合成音声が得られる。なお、音声素片を収録・蓄積する単位としては、音素やCV・VCあるいはVCVといった単位が用いられる。CV・VCは音素内に素片境界を置いた単位、VCVは母音内に素片境界を置いた単位である。
【0006】
【発明が解決しようとする課題】
しかしながら、上記従来法においては、音声波形から微細素片を得るために窓関数が適用されることにより、音声のスペクトルに所謂「ぼやけ」が生じてしまう。すなわち、音声のホルマントが広がったりスペクトル包絡の山谷が曖昧になる等の現象が起こり、合成音声の音質が低下することになる。
【0007】
本発明は上記の課題に鑑みてなされたものであり、微細素片を得るために適用した窓関数による音声のスペクトルの「ぼやけ」を軽減し、高音質な音声合成を実現することを目的とする。
【0008】
【課題を解決するための手段】
上記の目的を達成するための本発明による音声合成方法は、
音声波形データと窓関数とから微細素片を取得する取得工程と、
前記取得工程で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置工程と、
前記再配置工程で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成工程と、
前記取得工程で処理される音声波形データに基づいて構成されたスペクトル補正フィルタを、前記取得工程、再配置工程、合成工程を含む処理の過程において作用させる補正工程とを備える。
【0009】
また、上記の目的を達成するための本発明による音声合成装置は以下の構成を備える。すなわち、
音声波形データと窓関数とから微細素片を取得する取得手段と、
前記取得手段で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置手段と、
前記再配置手段で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成手段と、
前記取得手段で処理される音声波形データに基づいて構成されたスペクトル補正フィルタを、前記取得手段、再配置手段、合成手段を含む処理の過程において作用させる補正手段とを備える。
【0010】
また、本発明によれば、上記音声合成方法或は音声合成装置に好適な音声合成用の辞書生成方法が提供される。
【0011】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態のいくつかについて詳細に説明する。
【0012】
〈第1実施形態〉
図1は第1実施形態におけるハードウェア構成を示すブロック図である。
【0013】
図1において、11は中央処理装置であり、数値演算・制御等の処理を行なう。特に、中央処理装置11は、以下に説明する手順に従った音声合成処理を実行する。12は出力装置であり、中央処理装置11の制御下でユーザに対して各種の情報を提示する。13はタッチパネル或はキーボード等を備えた入力装置であり、ユーザが本装置に対して動作の指示を与えたり、各種の情報を入力するのに用いられる。14は音声を出力する音声出力装置であり音声合成された内容を出力する。
【0014】
15はディスク装置や不揮発メモリ等の記憶装置であり、音声合成用辞書501等が保持される。16は読み取り専用の記憶装置であり、本実施形態の音声合成処理の手順や、必要な固定的データが格納される。17はRAM等の一時情報を保持する記憶装置であり、一時的なデータや各種フラグ等が保持される。以上の各構成(11〜17)は、バス18によって接続されている。なお、本実施形態ではROM16に音声合成処理のための制御プログラムが格納され、中央処理装置11がこれを実行する形態とするが、そのような制御プログラムを外部記憶装置15に格納しておき、実行に際してRAM17にロードするような形態としてもよい。
【0015】
以上のような構成を備えた本実施形態の音声出力装置の動作について、図2及び図3を参照して以下に説明する。図2は第1実施形態による音声出力処理を説明するフローチャートである。また、図3は第1実施形態の音声合成処理の様子を表す図である。
【0016】
まず、韻律目標値取得ステップS1において、合成音声の目標韻律値を取得する。合成音声の目標韻律値は、歌声合成の様に直接上位モジュールから与えられる場合もあれば、何らかの手段を用いて推定される場合もある。例えば、テキストからの音声合成であるならばテキストの言語解析結果より推定される。
【0017】
次に、波形データ取得ステップS2において、合成音声の元となる波形データ(図3の音声波形301)を取得する。そして、音響分析ステップS3において、線形予測(LPC)分析・ケプストラム分析・一般化ケプストラム分析等の音響分析を取得した波形データについて行い、スペクトル補正フィルタ304を構成するのに必要なパラメータを計算する。なお波形データの分析は、ある定められた時間間隔で行なっても良いし、ピッチ同期分析を行なっても良い。
【0018】
次に、スペクトル補正フィルタ構成ステップS4において、前記音響分析ステップS3で計算されたパラメータを用いてスペクトル補正フィルタを構成する。例えば、前記音響分析にp次の線形予測分析を用いた場合には、以下の[数1]式で表される特性を持ったフィルタをスペクトル補正フィルタ304として用いる。なお、[数1]式を用いる場合、上記パラメータ計算においては線形予測係数αが算出されることになる。
【0019】
【数1】

Figure 2004012700
【0020】
また、p次のケプストラム分析を用いた場合には、以下の[数2]式で表される特性を持ったフィルタをスペクトル補正フィルタとして用いる。なお、[数2]式を用いる場合、上記パラメータ計算においてはケプストラム係数cが算出されることになる。
【0021】
【数2】
Figure 2004012700
【0022】
上記各式において、μ、γは適当な係数、αは線形予測係数、cはケプストラム係数である。あるいは、上記フィルタのインパルス応答を適当な次数で打ち切って構成した、以下の[数3]式で表されるFIRフィルタが用いられる場合もある。なお、[数3]式を用いる場合、上記パラメータ計算においては係数βが計算されることになる。
【0023】
【数3】
Figure 2004012700
【0024】
なお、実際には、上記の各式において、システムのゲインを考慮する必要がある。以上のようにして構成されたスペクトル補正フィルタは音声合成用辞書501に格納される(実際にはフィルタの係数を格納することになる)。
【0025】
次に、微細素片切り出しステップS5において、前記波形データ取得ステップS2で取得した波形に窓関数302を適用し、微細素片303を切り出す。窓関数としてはハニング窓等が用いられる。
【0026】
次に、微細素片スペクトル補正ステップS6において、微細素片切り出しステップS5で切り出した微細素片303に対して、スペクトル補正フィルタ構成ステップS4で構成されたフィルタ304を適用し、微細素片切り出しステップS5で切り出した微細素片のスペクトルを補正する。こうして、スペクトル補正された微細素片305が取得される。
【0027】
次に、韻律変更ステップS7において、微細素片スペクトル補正ステップS6でスペクトル補正された微細素片305を、韻律目標値取得ステップS1で取得した韻律目標値に合致するように、間引き・繰り返し・間隔変更して再配置(306)する。そして波形重畳ステップS8において、韻律変更ステップS7で再配置した微細素片を重畳し、合成音声307を得る。なお、ステップS8で得られるのは音声素片であるので、実際の合成音声は波形重畳ステップS8で得られた複数の音声素片を接続して得られる。すなわち、音声出力ステップS9において、波形重畳ステップS8で得られた音声素片を接続して合成音声を出力する。
【0028】
なお、微細素片の再配置処理に関して、「間引き」については、図3に示すようにスペクトル補正フィルタを作用させる前に実行するようにしてもよい。このようにすれば、不要な微細素片についてフィルタ処理を施すという無駄な処理を省くことができるからである。
【0029】
〈第2実施形態〉
上記第1実施形態においてはスペクトル補正フィルタを音声合成時に構成しているが、スペクトル補正フィルタの構成を音声合成に先立って行い、フィルタを構成するための構成情報(フィルタ係数)を所定の記憶領域に保持しておくようにしてもよい。すなわち、第1実施形態のプロセスをデータ作成(図4)と音声合成(図5)の2つのプロセスに分離することが可能である。第2実施形態ではこの場合の処理について説明する。なお、本処理を実現するための装置構成は第1実施形態(図1)と同様である。また、本実施形態では、構成情報を音声合成用辞書501に格納することとする。
【0030】
図4のフローチャートにおいて、ステップS2、S3、S4は第1実施形態(図2)と同様である。そして、スペクトル補正フィルタ記録ステップS101では、スペクトル補正フィルタ構成ステップS4で構成されたスペクトル補正フィルタのフィルタ係数を外部記憶装置15に記録する。本実施形態では、音声合成用辞書501に登録された各波形データについてスペクトル補正フィルタを構成し、各波形データに対応するフィルタの係数をスペクトル補正フィルタとして音声合成用辞書501内に保持する。すなわち、第2実施形態の音声合成用辞書501には、各音声波形の波形データとスペクトル補正フィルタが登録されていることになる。
【0031】
一方、音声合成時においては、図5のフローチャートに示されるように、第1実施形態の処理における音響分析ステップS3およびスペクトル補正フィルタ構成ステップS4が不要となり、代りにスペクトル補正フィルタ読込みステップS102が追加される。スペクトル補正フィルタ読込みステップS102では、スペクトル補正フィルタ記録ステップS101で記録したスペクトル補正フィルタ係数を読み込む。すなわち、波形データ取得ステップS2で取得された波形データに対応するスペクトル補正フィルタの係数を音声合成用辞書501から読み込んでスペクトル補正フィルタを構成する。そして、微細素片スペクトル補正ステップS6では、スペクトル補正フィルタ読込みステップS102で読込まれたスペクトル補正フィルタを用いて微細素片の処理が行われる。
【0032】
以上のように、予め全ての波形データについてスペクトル補正フィルタを記録しておくことにより、音声合成時にスペクトル補正フィルタを構成する必要がなくなる。このため、第1実施形態に比べて音声合成時の処理量を軽減することが可能となる。
【0033】
〈第3実施形態〉
上記第1及び第2実施形態では、スペクトル補正フィルタ構成ステップS4で構成されたフィルタを微細素片切り出しステップS5で切り出された微細素片に適用していた。しかし、スペクトル補正フィルタを前記波形データ取得ステップS2で取得した波形データ(音声波形301)に対して適用しても良い。第3実施形態ではこのようは音声合成処理について説明する。なお、本処理を実現するための装置構成は第1実施形態(図1)と同様である。
【0034】
図6は第3実施形態による音声合成処理を説明するフローチャートである。図6において、波形データ取得ステップS2〜スペクトル補正フィルタ構成ステップS4の各ステップは上記第2実施形態と同様である。第3実施形態では、スペクトル補正フィルタ構成ステップS4によってスペクトル補正フィルタを構成した後、波形データスペクトル補正ステップS201において、波形データ取得ステップS2で取得した波形データに対してスペクトル補正フィルタ構成ステップS4で構成したスペクトル補正フィルタを適用し、波形データのスペクトルを補正する。
【0035】
次に、スペクトル補正波形データ記録ステップS202において、波形データスペクトル補正ステップS201でスペクトル補正された波形データを記録する。すなわち、第2実施形態では、図1の音声合成用辞書501において、「スペクトル補正フィルタ」の代わりに「スペクトル補正された波形データ」が記憶されることになる。
【0036】
一方、音声合成処理においては、図7のフローチャートに示される処理が実行される。第3実施形態では、上述の各実施形態における波形データ取得ステップS2の代りにスペクトル補正波形データ取得ステップS203が設けられる。これにより、スペクトル補正波形データ記録ステップS202で記録されたスペクトル補正後の波形データを、ステップS5における微細素片の切り出しの対象として取得させる。そして、この取得された波形データについて微細素片の切り出し、再配置が行なわれることで、スペクトル補正が施された合成音声を得ることになる。なお、スペクトル補正された波形データを用いるので、微細素片に対するスペクトル補正処理(第1、第2実施形態のステップS6)は不要となっている。
【0037】
第3実施形態のように、微細素片ではなく波形データに対してスペクトル補正フィルタを適用した場合、微細素片切り出しステップS5にて用いられる窓関数の影響を完全に排除することは出来ない。すなわち、上記第1及び第2実施形態と比べて音質は若干劣ってしまう。しかし、スペクトル補正フィルタによるフィルタリングまでを音声合成に先立って行なうことが出来るため、音声合成時(図7)の処理量は第1、第2実施形態に比べて大幅に削減されるという特長がある。
【0038】
尚、第3実施形態では、第2実施形態のように、データ作成と音声合成の2つのプロセスに分けた構成を説明したが、第1実施形態のように合成処理を実行する毎にフィルタリングを行なうように構成することもできる。この場合、図2のフローチャートにおいて、ステップS4とステップS5の間で合成処理対象の波形データにスペクトル補正フィルタを作用させることになる。また、ステップS6は不要となる。
【0039】
〈第4実施形態〉
第1、第2実施形態では、スペクトル補正フィルタ構成ステップS4で構成されたフィルタを微細素片切り出しステップS5で切り出された微細素片に適用した。また、第3実施形態では、スペクトル補正フィルタ構成ステップS4で構成されたフィルタを、微細素片に切り出される前の波形データに適用した。これらに対して、スペクトル補正フィルタを波形重畳ステップS8で合成した合成音声の波形データに対して適用することもできる。第4実施形態ではこの場合の処理について説明する。なお、本処理を実現するための装置構成は第1実施形態(図1)と同様である。
【0040】
図8は第4実施形態による音声合成処理を説明するフローチャートである。第1実施形態の処理(図2)と同様の処理には同一の参照番号が付されている。第4実施形態では、図8に示されるように、波形重畳ステップS8の後に合成音声スペクトル補正ステップS301を設け、微細素片スペクトル補正ステップS6を廃する。合成音声スペクトル補正ステップS301では、スペクトル補正フィルタ構成ステップS4において構成されたフィルタを、波形重畳ステップS8で得られた合成音声の波形データに適用し、スペクトル補正を行なう。
【0041】
以上の第4実施形態によれば、韻律変更ステップS7の結果、同一微細素片の繰り返し回数が少ない場合等においては、第1実施形態に比べて処理量が少なくなる。
【0042】
また、本実施形態においても、スペクトル補正フィルタをあらかじめ構成しておくことが可能な点は、第1及び第2実施形態との関係と同様である。即ち、予めフィルタ係数を音声合成用辞書501に格納しておき、音声合成時にはこれを読出してスペクトル補正用フィルタを構成し、ステップS8で波形重畳された波形データに作用させる。
【0043】
〈第5実施形態〉
スペクトル補正フィルタとして、複数の部分フィルタの合成フィルタとして表現できる場合には、上記第1〜第4実施形態のように1ステップでスペクトル補正を行なうのではなく、スペクトル補正を複数のステップに分散させることが可能となる。スペクトル補正の分散により、上記各実施形態と比べて、音質と処理量のバランスを柔軟に調節することが可能となる。第5実施形態では、このようにスペクトル補正フィルタを分散させて音声合成処理する場合について説明する。なお、本処理を実現するための装置構成は第1実施形態(図1)と同様である。
【0044】
図9は第5実施形態による音声合成処理を説明するフローチャートである。図9に示されるように、まず、韻律目標値取得ステップS1〜スペクトル補正フィルタ構成ステップS4の処理を行なう。これらの処理は、上記第1〜第4実施形態におけるステップS1〜S4の処理と同様である。
【0045】
次に、スペクトル補正フィルタ分解ステップS401で、スペクトル補正フィルタ構成ステップS4で構成されたスペクトル補正フィルタを2乃至3個の部分フィルタ(要素フィルタ)に分解する。例えば、前記音響分析にp次の線形予測分析を用いた場合のスペクトル補正フィルタF1(z)は、分母多項式と分子多項式の積として、以下の[数4]式のように表現される。
【0046】
【数4】
Figure 2004012700
【0047】
あるいは、以下の式のように分子・分母多項式を1次または2次の実係数多項式の積に因数分解することも可能である(以下の[数5]式は、pが偶数の場合を示したものである)。同様に、スペクトル補正フィルタにFIRフィルタを使用した場合も、1次または2次の実係数多項式の積に因数分解することができる。すなわち、[数3]式を因数分解して、[数6]式のように表される。
【0048】
【数5】
Figure 2004012700
【数6】
Figure 2004012700
【0049】
また、p次のケプストラム分析を用いた場合には、フィルタ特性は指数で表現されるため、[数7]式のようにケプストラム係数をグループ分けするだけで良い。
【0050】
【数7】
Figure 2004012700
【0051】
次に、スペクトル補正フィルタ部分適用(1)ステップS402において、スペクトル補正フィルタ分解ステップS401で分解されたフィルタの1つを用いて、波形データ取得ステップS2で取得した波形データをフィルタリングする。すなわち、ステップS401で得られた複数のフィルタ要素のうちの一つである第1のフィルタ要素を用いて、微細素片切り出し前の波形データに対してスペクトル補正処理を施す。
【0052】
次に、微細素片切り出しステップS5において、スペクトル補正フィルタ部分適用(1)ステップS402の結果として得られた波形データに対して窓関数を適用し、微細素片を切り出す。そして、スペクトル補正フィルタ部分適用(2)ステップS403において、スペクトル補正フィルタ分解ステップS401で分解されたフィルタの1つを用いて、微細素片切り出しステップS5で切り出された微細素片をフィルタリングする。すなわち、ステップS401で得られた複数のフィルタ要素のうちの一つである第2のフィルタ要素を用いて、切り出された各微細素片に対してスペクトル補正処理を施す。
【0053】
次に、第1及び第2実施形態と同様に韻律変更ステップS7と波形重畳ステップS8を行なう。そして、スペクトル補正フィルタ部分適用(3)ステップS404において、スペクトル補正フィルタ分解ステップS401で分解されたフィルタの1つを用いて、波形重畳ステップS8の結果得られた合成音声をフィルタリングする。すなわち、ステップS401で得られた複数のフィルタ要素のうちの一つである第3のフィルタ要素を用いて、得られた合成音声の波形データに対してスペクトル補正処理を施す。
【0054】
そして、音声出力ステップS9において、スペクトル補正フィルタ部分適用(3)ステップS404の結果得られた合成音声を出力する。
以上の構成において、例えば、[数5]式の分解を行った場合は、F1,1(z)をステップS402で、F1,2(z)をステップS403で、F1,3(z)をステップS404で用いるというようなことが可能である。
【0055】
尚、[数4]式の様に、2要素の積に分割した場合にはステップS402,S403,S404のいずれかではフィルタリングを行わないことになる。すなわち、スペクトル補正フィルタ分解ステップS401においてスペクトル補正フィルタを2つに分解した場合(この例では、分母多項式と分子多項式の2つに分割している)には、スペクトル補正フィルタ部分適用(1)ステップS402、スペクトル補正フィルタ部分適用(2)ステップS403、スペクトル補正フィルタ部分適用(3)ステップS404のうちのいずれかは省略される。
【0056】
また、第5実施形態においても、スペクトル補正フィルタや各要素フィルタをあらかじめ構成して音声合成用辞書501の一部として登録しておくようにしてもよいことは、第1及び第2実施形態の関連と同様、明らかである。
以上のように、第5の実施形態によれば、どの多項式(フィルタ)をどのステップ(S402,S403,S404)に割り当てるかという任意性があり、その割り当て方によって、音質・処理量の配分が変わってくる。特に、[数5]式や[数7]式、あるいはFIRフィルタを因数分解した[数6]式の場合には、それぞれのステップに因数を何個ずつ割り当てるかまで制御できるので、さらに柔軟性があることになる。
【0057】
〈その他の実施形態〉
上記各実施形態において、スペクトル補正フィルタ係数を直接記録するのではなく、ベクトル量子化等の手法を使って量子化した後に記録しても良い。これにより、外部記憶装置15に記録されるデータ量を削減することが可能である。
【0058】
このとき、音響分析の手法としてLPC分析や一般化ケプストラム分析を用いている場合には、フィルタ係数を線スペクトル対(LSP)に変換した後に量子化を行なうと量子化の効率が良くなる。
【0059】
また、波形のサンプリング周波数が高い場合には、帯域分割フィルタによって帯域分割を行い、帯域制限された個々の波形に対してスペクトル補正フィルタリングを行なっても良い。帯域分割によってスペクトル補正フィルタの次数が押えられ、計算量を削減する効果がある。メルケプストラムのような周波数軸の伸縮によっても同様の効果がある。
【0060】
また、前記各実施形態で、スペクトル補正フィルタリングを行なうタイミングには、複数の選択肢があることを示した。どのタイミングでスペクトル補正フィルタリングを行なうか、あるいはスペクトル補正を行なうか行なわないかの選択を、素片毎に行なっても良い。選択のための情報として、音素種別や有声/無声の種別等を利用することができる。
なお、上記各実施形態において、スペクトル補正フィルタの一例としては、ホルマントを強調するホルマント強調フィルタが挙げられる。
【0061】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0062】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0063】
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
【0064】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0065】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0066】
【発明の効果】
以上説明したように、本発明によれば、微細素片を得るために適用した窓関数による、音声のスペクトルの「ぼやけ」を軽減することができ、音質が高い音声合成を実現することができる。
【図面の簡単な説明】
【図1】第1実施形態におけるハードウェア構成を示すブロック図である。
【図2】第1実施形態による音声出力処理を説明するフローチャートである。
【図3】第1実施形態の音声合成処理の様子を表す図である。
【図4】第2実施形態による音声出力処理におけるスペクトル補正フィルタ登録処理を説明するフローチャートである。
【図5】第2実施形態による音声出力処理における音声合成処理を説明するフローチャートである。
【図6】第3実施形態による音声出力処理におけるスペクトル補正フィルタ登録処理を説明するフローチャートである。
【図7】第3実施形態による音声出力処理における音声合成処理を説明するフローチャートである。
【図8】第4実施形態による音声出力処理を説明するフローチャートである。
【図9】第5実施形態による音声出力処理を説明するフローチャートである。
【図10】音声波形の微細素片への分割、再配置、合成による音声合成方法を模式的に示した図である。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a speech synthesis apparatus and method for synthesizing speech.
[0002]
[Prior art]
Conventionally, as a speech synthesis method for obtaining a desired synthesized speech, a speech unit recorded and stored in advance is divided into a plurality of minute units, and the resulting minute units are rearranged. There is a method for obtaining a desired synthesized voice. In the rearrangement of these fine segments, a synthesized speech having a desired time length and fundamental frequency can be obtained by performing processing such as interval change, repetition, and thinning on the fine segments.
[0003]
FIG. 10 is a diagram schematically showing a method of dividing a speech waveform into fine segments. The speech waveform shown in FIG. 10 is divided into fine segments by a cutout window function (hereinafter, a window function). At this time, a window function synchronized with the pitch interval of the original voice is used in the voiced portion (the latter half of the voice waveform). On the other hand, in the unvoiced portion, a window function with an appropriate interval is used.
[0004]
Then, as shown in FIG. 10, by using these fine pieces thinned out, the duration of the voice can be shortened. On the other hand, if these fine segments are used repeatedly, the duration of the voice can be extended. Further, as shown in FIG. 10, in the voiced sound portion, it is possible to increase the fundamental frequency of the synthesized speech by reducing the interval between the fine segments. On the other hand, it is possible to lower the fundamental frequency of the synthesized speech by increasing the interval between the fine segments.
[0005]
The desired synthesized speech can be obtained by repeating the above-described repetition / thinning / interval change and superimposing the re-arranged fine segments again. As a unit for recording and storing speech units, units such as phonemes, CV / VC or VCV are used. CV · VC is a unit in which a unit boundary is placed in a phoneme, and VCV is a unit in which a unit boundary is placed in a vowel.
[0006]
[Problems to be solved by the invention]
However, in the above-described conventional method, a so-called “blur” occurs in the spectrum of a voice because a window function is applied to obtain a fine segment from the voice waveform. That is, phenomena such as the spread of the formant of the voice and the valley of the spectral envelope become ambiguous occur, and the sound quality of the synthesized voice is deteriorated.
[0007]
The present invention has been made in view of the above problems, and aims to reduce the `` blurring '' of the voice spectrum by a window function applied to obtain fine fragments, and to realize high-quality voice synthesis. I do.
[0008]
[Means for Solving the Problems]
To achieve the above object, a speech synthesis method according to the present invention comprises:
An obtaining step of obtaining a fine segment from the audio waveform data and the window function,
A re-arrangement step of re-arranging the fine segments obtained in the obtaining step to change the prosody at the time of synthesis,
A synthesizing step of outputting synthesized speech waveform data based on superimposed waveform data obtained by superimposing the fine elements relocated in the rearrangement step,
A correction step of applying a spectrum correction filter configured based on the audio waveform data processed in the obtaining step in a process including the obtaining step, the rearranging step, and the synthesizing step.
[0009]
Further, a speech synthesizer according to the present invention for achieving the above object has the following configuration. That is,
Acquiring means for acquiring a fine segment from the audio waveform data and the window function,
A re-arrangement unit that re-arranges the fine segments acquired by the acquisition unit to change the prosody at the time of synthesis,
A synthesizing unit that outputs synthesized voice waveform data based on superimposed waveform data obtained by superimposing the fine segments relocated by the rearrangement unit,
And a correction means for causing a spectrum correction filter configured based on the audio waveform data processed by the obtaining means to act in a process of processing including the obtaining means, the rearranging means, and the synthesizing means.
[0010]
Further, according to the present invention, there is provided a dictionary synthesis method for speech synthesis suitable for the above speech synthesis method or speech synthesis apparatus.
[0011]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, some preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.
[0012]
<First embodiment>
FIG. 1 is a block diagram illustrating a hardware configuration according to the first embodiment.
[0013]
In FIG. 1, reference numeral 11 denotes a central processing unit which performs processing such as numerical calculation and control. In particular, the central processing unit 11 executes a speech synthesis process according to a procedure described below. An output device 12 presents various information to the user under the control of the central processing unit 11. An input device 13 includes a touch panel or a keyboard, and is used by a user to give an operation instruction to the device and to input various information. Reference numeral 14 denotes a voice output device for outputting voice, and outputs voice-synthesized contents.
[0014]
Reference numeral 15 denotes a storage device such as a disk device or a non-volatile memory, and holds a dictionary for speech synthesis 501 and the like. Reference numeral 16 denotes a read-only storage device, which stores the procedure of the speech synthesis process of the present embodiment and necessary fixed data. Reference numeral 17 denotes a storage device such as a RAM that stores temporary information, and stores temporary data, various flags, and the like. The above components (11 to 17) are connected by a bus 18. In this embodiment, a control program for speech synthesis processing is stored in the ROM 16 and executed by the central processing unit 11. However, such a control program is stored in the external storage device 15, At the time of execution, a configuration in which the program is loaded into the RAM 17 may be adopted.
[0015]
The operation of the audio output device according to the present embodiment having the above-described configuration will be described below with reference to FIGS. FIG. 2 is a flowchart illustrating the audio output processing according to the first embodiment. FIG. 3 is a diagram illustrating a speech synthesis process according to the first embodiment.
[0016]
First, in a prosody target value obtaining step S1, a target prosody value of a synthesized speech is obtained. The target prosody value of the synthesized speech may be provided directly from a higher-level module as in singing voice synthesis, or may be estimated using some means. For example, in the case of speech synthesis from text, it is estimated from the result of language analysis of text.
[0017]
Next, in a waveform data acquisition step S2, waveform data (speech waveform 301 in FIG. 3) as a source of the synthesized speech is acquired. In the acoustic analysis step S3, acoustic analysis such as linear prediction (LPC) analysis, cepstrum analysis, and generalized cepstrum analysis is performed on the acquired waveform data, and parameters necessary for configuring the spectrum correction filter 304 are calculated. The analysis of the waveform data may be performed at a predetermined time interval or a pitch synchronization analysis may be performed.
[0018]
Next, in a spectrum correction filter configuration step S4, a spectrum correction filter is configured using the parameters calculated in the acoustic analysis step S3. For example, when a p-order linear prediction analysis is used for the acoustic analysis, a filter having a characteristic represented by the following [Equation 1] is used as the spectrum correction filter 304. In the case where the equation [1] is used, a linear prediction coefficient α j is calculated in the above parameter calculation.
[0019]
(Equation 1)
Figure 2004012700
[0020]
Further, when the p-order cepstrum analysis is used, a filter having a characteristic represented by the following [Equation 2] is used as a spectrum correction filter. In the case of using the expression 2, the cepstrum coefficient c j is calculated in the above parameter calculation.
[0021]
(Equation 2)
Figure 2004012700
[0022]
In the above equations, μ and γ are appropriate coefficients, α is a linear prediction coefficient, and c is a cepstrum coefficient. Alternatively, an FIR filter expressed by the following [Equation 3], in which the impulse response of the filter is truncated at an appropriate order, may be used. In the case of using Equation 3, the coefficient β j is calculated in the above parameter calculation.
[0023]
[Equation 3]
Figure 2004012700
[0024]
In practice, in each of the above equations, it is necessary to consider the gain of the system. The spectrum correction filter configured as described above is stored in the speech synthesis dictionary 501 (actually, the filter coefficients are stored).
[0025]
Next, in a fine segment extracting step S5, the window function 302 is applied to the waveform acquired in the waveform data acquiring step S2 to extract a fine segment 303. A Hanning window or the like is used as the window function.
[0026]
Next, in the fine element spectrum correction step S6, the filter 304 configured in the spectrum correction filter forming step S4 is applied to the fine element 303 extracted in the fine element extraction step S5, and the fine element extraction step is performed. The spectrum of the fine element cut out in S5 is corrected. In this way, the fine element 305 whose spectrum has been corrected is obtained.
[0027]
Next, in the prosody changing step S7, the fine segment 305, whose spectrum has been corrected in the fine segment spectrum correction step S6, is thinned out, repeated, and spaced so as to match the prosody target value acquired in the prosody target value acquisition step S1. Change and rearrange (306). Then, in the waveform superimposing step S8, the fine segments rearranged in the prosody changing step S7 are superimposed to obtain a synthesized speech 307. Note that since speech units are obtained in step S8, an actual synthesized speech is obtained by connecting a plurality of speech units obtained in the waveform superimposing step S8. That is, in the voice output step S9, the voice units obtained in the waveform superposition step S8 are connected to output a synthesized voice.
[0028]
In addition, regarding the rearrangement processing of the fine element, “thinning-out” may be executed before applying the spectrum correction filter as shown in FIG. By doing so, it is possible to omit unnecessary processing of performing filter processing on unnecessary fine fragments.
[0029]
<Second embodiment>
In the first embodiment, the spectrum correction filter is configured at the time of speech synthesis. However, the configuration of the spectrum correction filter is performed prior to speech synthesis, and configuration information (filter coefficient) for configuring the filter is stored in a predetermined storage area. May be held. That is, the process of the first embodiment can be separated into two processes of data creation (FIG. 4) and speech synthesis (FIG. 5). In the second embodiment, processing in this case will be described. Note that the device configuration for implementing this processing is the same as in the first embodiment (FIG. 1). In the present embodiment, the configuration information is stored in the speech synthesis dictionary 501.
[0030]
In the flowchart of FIG. 4, steps S2, S3, and S4 are the same as in the first embodiment (FIG. 2). Then, in the spectrum correction filter recording step S101, the filter coefficient of the spectrum correction filter configured in the spectrum correction filter configuration step S4 is recorded in the external storage device 15. In the present embodiment, a spectrum correction filter is configured for each waveform data registered in the speech synthesis dictionary 501, and a coefficient of a filter corresponding to each waveform data is stored in the speech synthesis dictionary 501 as a spectrum correction filter. That is, in the speech synthesis dictionary 501 of the second embodiment, the waveform data of each speech waveform and the spectrum correction filter are registered.
[0031]
On the other hand, at the time of speech synthesis, as shown in the flowchart of FIG. 5, the acoustic analysis step S3 and the spectrum correction filter configuration step S4 in the processing of the first embodiment are not required, and instead, a spectrum correction filter reading step S102 is added. Is done. In the spectrum correction filter reading step S102, the spectrum correction filter coefficient recorded in the spectrum correction filter recording step S101 is read. That is, the coefficients of the spectrum correction filter corresponding to the waveform data obtained in the waveform data obtaining step S2 are read from the speech synthesis dictionary 501 to form a spectrum correction filter. Then, in the fine segment spectrum correction step S6, processing of the fine segment is performed using the spectrum correction filter read in the spectrum correction filter reading step S102.
[0032]
As described above, by storing the spectrum correction filters for all the waveform data in advance, it is not necessary to configure the spectrum correction filters at the time of speech synthesis. For this reason, it is possible to reduce the processing amount at the time of speech synthesis as compared with the first embodiment.
[0033]
<Third embodiment>
In the first and second embodiments, the filter configured in the spectrum correction filter configuration step S4 is applied to the fine element cut out in the fine element extraction step S5. However, a spectrum correction filter may be applied to the waveform data (audio waveform 301) acquired in the waveform data acquisition step S2. In the third embodiment, such a speech synthesis process will be described. Note that the device configuration for implementing this processing is the same as in the first embodiment (FIG. 1).
[0034]
FIG. 6 is a flowchart illustrating a speech synthesis process according to the third embodiment. In FIG. 6, each step of the waveform data acquisition step S2 to the spectrum correction filter configuration step S4 is the same as in the second embodiment. In the third embodiment, after the spectrum correction filter is configured in the spectrum correction filter configuration step S4, in the waveform data spectrum correction step S201, the spectrum correction filter configuration step S4 is performed on the waveform data acquired in the waveform data acquisition step S2. The spectrum of the waveform data is corrected by applying the calculated spectrum correction filter.
[0035]
Next, in a spectrum correction waveform data recording step S202, the waveform data subjected to the spectrum correction in the waveform data spectrum correction step S201 is recorded. That is, in the second embodiment, “spectral corrected waveform data” is stored in the speech synthesis dictionary 501 of FIG. 1 instead of the “spectral correction filter”.
[0036]
On the other hand, in the speech synthesis processing, the processing shown in the flowchart of FIG. 7 is executed. In the third embodiment, a spectrum correction waveform data acquisition step S203 is provided instead of the waveform data acquisition step S2 in each of the above embodiments. As a result, the waveform data after the spectrum correction recorded in the spectrum correction waveform data recording step S202 is obtained as a target for cutting out the fine element in the step S5. Then, a minute speech is cut out and rearranged with respect to the acquired waveform data, thereby obtaining a synthesized speech subjected to spectrum correction. Since the spectrum-corrected waveform data is used, the spectrum correction process (step S6 in the first and second embodiments) for the fine element is not required.
[0037]
As in the third embodiment, when the spectrum correction filter is applied to waveform data instead of fine segments, the effect of the window function used in the fine segment extraction step S5 cannot be completely eliminated. That is, the sound quality is slightly inferior to those of the first and second embodiments. However, since filtering up to the spectral correction filter can be performed prior to speech synthesis, the processing amount at the time of speech synthesis (FIG. 7) is greatly reduced as compared with the first and second embodiments. .
[0038]
In the third embodiment, as in the second embodiment, a configuration in which the processes are divided into two processes of data creation and speech synthesis has been described. However, as in the first embodiment, filtering is performed every time a synthesis process is performed. It can also be configured to do so. In this case, in the flowchart of FIG. 2, a spectrum correction filter is applied to the waveform data to be synthesized between steps S4 and S5. Step S6 becomes unnecessary.
[0039]
<Fourth embodiment>
In the first and second embodiments, the filter configured in the spectrum correction filter configuration step S4 is applied to the fine element cut out in the fine element extraction step S5. In the third embodiment, the filter configured in the spectrum correction filter configuration step S4 is applied to waveform data before being cut out into fine pieces. On the other hand, a spectrum correction filter can be applied to the waveform data of the synthesized voice synthesized in the waveform superimposing step S8. In the fourth embodiment, processing in this case will be described. Note that the device configuration for implementing this processing is the same as in the first embodiment (FIG. 1).
[0040]
FIG. 8 is a flowchart illustrating a speech synthesis process according to the fourth embodiment. The same processes as those in the first embodiment (FIG. 2) are denoted by the same reference numerals. In the fourth embodiment, as shown in FIG. 8, a synthesized speech spectrum correction step S301 is provided after the waveform superposition step S8, and the fine unit spectrum correction step S6 is omitted. In the synthesized voice spectrum correction step S301, the filter configured in the spectrum correction filter configuration step S4 is applied to the waveform data of the synthesized voice obtained in the waveform superposition step S8 to perform spectrum correction.
[0041]
According to the above-described fourth embodiment, as a result of the prosody changing step S7, when the number of repetitions of the same fine segment is small or the like, the processing amount is smaller than in the first embodiment.
[0042]
Also in this embodiment, the point that the spectrum correction filter can be configured in advance is the same as the relationship between the first and second embodiments. That is, the filter coefficients are stored in the speech synthesis dictionary 501 in advance, and are read out at the time of speech synthesis to constitute a spectrum correction filter, and act on the waveform data with the superimposed waveform in step S8.
[0043]
<Fifth embodiment>
When the spectrum correction filter can be expressed as a synthesis filter of a plurality of partial filters, the spectrum correction is not performed in one step as in the first to fourth embodiments, but the spectrum correction is distributed to a plurality of steps. It becomes possible. The dispersion of the spectrum correction makes it possible to flexibly adjust the balance between the sound quality and the processing amount as compared with the above embodiments. In the fifth embodiment, a case will be described in which the spectrum correction filters are dispersed to perform the speech synthesis processing. Note that the device configuration for implementing this processing is the same as in the first embodiment (FIG. 1).
[0044]
FIG. 9 is a flowchart illustrating a speech synthesis process according to the fifth embodiment. As shown in FIG. 9, first, the processing of the prosody target value acquisition step S1 to the spectrum correction filter configuration step S4 is performed. These processes are the same as the processes of steps S1 to S4 in the first to fourth embodiments.
[0045]
Next, in a spectrum correction filter decomposition step S401, the spectrum correction filter formed in the spectrum correction filter construction step S4 is decomposed into two or three partial filters (element filters). For example, the spectrum correction filter F1 (z) when the p-order linear prediction analysis is used for the acoustic analysis is expressed as the following [Equation 4] as the product of the denominator polynomial and the numerator polynomial.
[0046]
(Equation 4)
Figure 2004012700
[0047]
Alternatively, it is also possible to factorize the numerator / denominator polynomial into a product of a first-order or second-order real coefficient polynomial as in the following equation (the following [Equation 5] shows the case where p is an even number) It is). Similarly, when an FIR filter is used as a spectrum correction filter, it can be factorized into a product of a first-order or second-order real coefficient polynomial. That is, the expression [3] is factorized and expressed as the expression [6].
[0048]
(Equation 5)
Figure 2004012700
(Equation 6)
Figure 2004012700
[0049]
When the p-order cepstrum analysis is used, since the filter characteristics are expressed by exponents, it is only necessary to group the cepstrum coefficients as shown in Expression [7].
[0050]
(Equation 7)
Figure 2004012700
[0051]
Next, in the spectral correction filter partial application (1) step S402, the waveform data obtained in the waveform data obtaining step S2 is filtered using one of the filters decomposed in the spectral correction filter decomposing step S401. That is, the spectrum correction process is performed on the waveform data before the fine segment extraction using the first filter element which is one of the plurality of filter elements obtained in step S401.
[0052]
Next, in a fine segment extraction step S5, a window function is applied to the waveform data obtained as a result of the spectral correction filter partial application (1) step S402 to cut out a fine segment. Then, in the spectral correction filter partial application (2) step S403, one of the filters decomposed in the spectral correction filter decomposing step S401 is used to filter the fine element cut out in the fine element extracting step S5. That is, using the second filter element which is one of the plurality of filter elements obtained in step S401, a spectrum correction process is performed on each of the cut fine elements.
[0053]
Next, a prosody change step S7 and a waveform superposition step S8 are performed as in the first and second embodiments. Then, in the spectrum correction filter partial application (3) step S404, the synthesized speech obtained as a result of the waveform superposition step S8 is filtered using one of the filters decomposed in the spectrum correction filter decomposition step S401. That is, using the third filter element, which is one of the plurality of filter elements obtained in step S401, performs spectrum correction processing on the obtained synthesized speech waveform data.
[0054]
Then, in the voice output step S9, the synthesized voice obtained as a result of the spectral correction filter partial application (3) step S404 is output.
In the above configuration, for example, when the decomposition of Expression 5 is performed, F 1,1 (z) is determined in step S402, F 1,1 (z) is determined in step S403, and F 1,3 (z ) Can be used in step S404.
[0055]
Note that when the image is divided into a product of two elements as in Expression 4, filtering is not performed in any of steps S402, S403, and S404. That is, if the spectrum correction filter is decomposed into two in the spectrum correction filter decomposition step S401 (in this example, the spectrum correction filter is divided into a denominator polynomial and a numerator polynomial), the spectrum correction filter partial application (1) step One of S402, spectral correction filter partial application (2) step S403, and spectral correction filter partial application (3) step S404 is omitted.
[0056]
Also, in the fifth embodiment, the spectrum correction filter and each element filter may be pre-configured and registered as a part of the speech synthesis dictionary 501, as described in the first and second embodiments. As well as the associations are obvious.
As described above, according to the fifth embodiment, there is an option of assigning which polynomial (filter) to which step (S402, S403, S404), and the allocation of sound quality / processing amount depends on the assignment. It will change. In particular, in the case of the formulas [5] and [7] or the formula [6] obtained by factoring the FIR filter, it is possible to control how many factors are assigned to each step, so that more flexibility is provided. There will be.
[0057]
<Other embodiments>
In each of the above embodiments, instead of directly recording the spectrum correction filter coefficient, the spectrum correction filter coefficient may be recorded after being quantized using a method such as vector quantization. Thus, the amount of data recorded in the external storage device 15 can be reduced.
[0058]
At this time, when LPC analysis or generalized cepstrum analysis is used as the acoustic analysis method, if the quantization is performed after converting the filter coefficients into a line spectrum pair (LSP), the quantization efficiency is improved.
[0059]
When the sampling frequency of the waveform is high, band division may be performed by a band division filter, and spectrum correction filtering may be performed on each band-limited waveform. The band division suppresses the order of the spectrum correction filter, which has the effect of reducing the amount of calculation. The same effect can be obtained by expansion and contraction of the frequency axis such as mel cepstrum.
[0060]
Further, in each of the embodiments, it has been described that there are a plurality of options for the timing of performing the spectrum correction filtering. The timing at which spectrum correction filtering is performed or whether spectrum correction is performed or not may be selected for each unit. As information for selection, a phoneme type, a voiced / unvoiced type, or the like can be used.
In each of the above embodiments, an example of the spectrum correction filter is a formant emphasis filter that emphasizes formants.
[0061]
Further, an object of the present invention is to provide a storage medium storing a program code of software for realizing the functions of the above-described embodiments to a system or an apparatus, and a computer (or CPU or MPU) of the system or apparatus to store the storage medium. It is needless to say that the present invention can also be achieved by reading and executing the program code stored in the program.
[0062]
In this case, the program code itself read from the storage medium realizes the function of the above-described embodiment, and the storage medium storing the program code constitutes the present invention.
[0063]
As a storage medium for supplying the program code, for example, a flexible disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a magnetic tape, a nonvolatile memory card, a ROM, and the like can be used.
[0064]
When the computer executes the readout program code, not only the functions of the above-described embodiments are realized, but also an OS (Operating System) running on the computer based on the instruction of the program code. It goes without saying that a part or all of the actual processing is performed and the functions of the above-described embodiments are realized by the processing.
[0065]
Further, after the program code read from the storage medium is written into a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion is performed based on the instruction of the program code. It goes without saying that a CPU or the like provided in the board or the function expansion unit performs part or all of the actual processing, and the processing realizes the functions of the above-described embodiments.
[0066]
【The invention's effect】
As described above, according to the present invention, it is possible to reduce the “blur” of the speech spectrum by the window function applied to obtain a fine segment, and to realize speech synthesis with high sound quality. .
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a hardware configuration according to a first embodiment.
FIG. 2 is a flowchart illustrating audio output processing according to the first embodiment.
FIG. 3 is a diagram illustrating a state of a speech synthesis process according to the first embodiment.
FIG. 4 is a flowchart illustrating a spectrum correction filter registration process in the audio output process according to the second embodiment.
FIG. 5 is a flowchart illustrating a speech synthesis process in a speech output process according to a second embodiment.
FIG. 6 is a flowchart illustrating a spectrum correction filter registration process in the audio output process according to the third embodiment.
FIG. 7 is a flowchart illustrating a speech synthesis process in a speech output process according to a third embodiment.
FIG. 8 is a flowchart illustrating an audio output process according to a fourth embodiment.
FIG. 9 is a flowchart illustrating audio output processing according to a fifth embodiment.
FIG. 10 is a diagram schematically illustrating a speech synthesis method by dividing, rearranging, and synthesizing a speech waveform into fine segments.

Claims (22)

音声波形データと窓関数とから微細素片を取得する取得工程と、
前記取得工程で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置工程と、
前記再配置工程で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成工程と、
前記取得工程で処理される音声波形データに基づいて構成されたスペクトル補正フィルタを、前記取得工程、再配置工程、合成工程を含む処理の過程において作用させる補正工程と
を備えることを特徴とする音声合成方法。
An obtaining step of obtaining a fine segment from the audio waveform data and the window function,
A re-arrangement step of re-arranging the fine segments obtained in the obtaining step to change the prosody at the time of synthesis,
A synthesizing step of outputting synthesized speech waveform data based on superimposed waveform data obtained by superimposing the fine elements relocated in the rearrangement step,
A sound processing apparatus comprising: a correction step of operating a spectrum correction filter configured based on the audio waveform data processed in the obtaining step in a process including the obtaining step, the rearranging step, and the synthesizing step. Synthesis method.
前記補正工程は、
前記取得工程で処理される音声波形データに基づいてスペクトル補正フィルタを構成する構成工程を有し、
前記取得工程で取得された微細素片に対して前記構成工程で構成されたスペクトル補正フィルタを作用させることを特徴とする請求項1に記載の音声合成方法。
The correcting step includes:
Having a configuration step of configuring a spectrum correction filter based on the audio waveform data processed in the obtaining step,
The speech synthesis method according to claim 1, wherein the spectrum correction filter configured in the configuration step is applied to the fine segment acquired in the acquisition step.
音声波形データの各々について、スペクトル補正フィルタのための構成情報が登録された音声合成用辞書を具備し、
前記補正工程は、前記取得工程で処理される音声波形データに対応する構成情報を前記音声合成用辞書から取得してスペクトル補正フィルタを構成し、前記取得工程で取得された微細素片に対して該スペクトル補正フィルタを作用させることを特徴とする請求項1に記載の音声合成方法。
For each of the voice waveform data, comprises a voice synthesis dictionary in which configuration information for a spectrum correction filter is registered,
The correction step acquires a configuration information corresponding to the audio waveform data processed in the acquisition step from the speech synthesis dictionary to configure a spectrum correction filter, and for the fine element acquired in the acquisition step 2. The speech synthesis method according to claim 1, wherein said spectrum correction filter is operated.
前記補正工程は、前記取得工程で処理される音声波形データに対して、当該音声波形データに基づいて構成されたスペクトル補正フィルタを作用させることを特徴とする請求項1に記載の音声合成方法。The voice synthesizing method according to claim 1, wherein the correcting step applies a spectrum correction filter configured based on the voice waveform data to the voice waveform data processed in the obtaining step. 音声波形データに対して、それぞれに基づいて構成されたスペクトル補正フィルタを作用させてスペクトル補正後の音声波形データを登録した音声合成用辞書を具備し、
前記補正工程は、前記取得工程にスペクトル補正後の音声波形データを提供することを特徴とする請求項1に記載の音声合成方法。
A speech synthesis dictionary in which the speech waveform data after the spectrum correction is registered by applying a spectrum correction filter configured based on each of the speech waveform data,
The voice synthesizing method according to claim 1, wherein the correcting step provides the voice waveform data after spectrum correction to the obtaining step.
前記補正工程は、前記合成工程で得られた重畳波形データに対して前記スペクトル補正フィルタを作用させることを特徴とする請求項1に記載の音声合成方法。2. The speech synthesis method according to claim 1, wherein in the correction step, the spectrum correction filter is applied to the superimposed waveform data obtained in the synthesis step. 前記取得工程で処理される音声波形データに基づいてスペクトル補正フィルタを構成し、これを複数の要素フィルタに分解する構成工程を更に備え、
前記補正工程は、前記構成工程で得られた複数の要素フィルタのそれぞれを、前記取得工程、再配置工程、合成工程を含む処理過程中の複数個所において作用させることを特徴とする請求項1に記載の音声合成方法。
A spectral correction filter is configured based on the audio waveform data processed in the obtaining step, and further includes a configuration step of decomposing this into a plurality of element filters,
The method according to claim 1, wherein the correcting step causes each of the plurality of element filters obtained in the configuration step to act on a plurality of points in a processing process including the obtaining step, the rearranging step, and the combining step. Described speech synthesis method.
前記構成工程は前記スペクトル補正フィルタを第1乃至第3の要素フィルタに分解し、
前記補正工程は、前記第1の要素フィルタを前記取得工程で処理される音声波形データに作用させ、前記第2の要素フィルタを前記取得工程で得られた微細素片に作用させ、前記第3の要素フィルタを前記合成工程で得られた重畳波形データに作用させることを特徴とする請求項7に記載の音声合成方法。
The configuration step decomposes the spectrum correction filter into first to third element filters,
The correction step includes causing the first element filter to act on the audio waveform data processed in the acquisition step, causing the second element filter to act on the fine element obtained in the acquisition step, 8. The speech synthesis method according to claim 7, wherein the element filter is applied to the superimposed waveform data obtained in the synthesis step.
音声波形データに基づいて構成されたスペクトル補正フィルタを複数の要素フィルタに分解して登録した音声合成用辞書を提供し、
前記補正工程は、前記取得工程で処理する音声波形データに対応する複数の要素フィルタを前記音声合成用辞書より取得し、得られた複数の要素フィルタのそれぞれを、前記取得工程、再配置工程、合成工程を含む処理過程中の複数個所において作用させることを特徴とする請求項1に記載の音声合成方法。
Provide a dictionary for speech synthesis registered by decomposing the spectrum correction filter configured based on the speech waveform data into a plurality of element filters,
The correction step acquires a plurality of element filters corresponding to the speech waveform data processed in the acquisition step from the speech synthesis dictionary, and obtains each of the plurality of element filters, the acquisition step, the rearrangement step, 2. The speech synthesis method according to claim 1, wherein the method is performed at a plurality of points in a process including a synthesis step.
前記窓関数で切り出された微細素片の再配置は、各微細素片の間隔の変更、微細素片の繰返し、微細素片の間引きの少なくとも何れかであることを特徴とする請求項1乃至9のいずれかに記載の音声合成方法。The rearrangement of the fine pieces cut out by the window function is at least one of a change of an interval between the fine pieces, a repetition of the fine pieces, and a thinning of the fine pieces. 10. The speech synthesis method according to any one of 9. 音声波形データを登録した音声合成用の辞書を生成する方法であって、
音声合成用辞書に登録された音声波形データに基づいてスペクトル補正用フィルタを生成する生成工程と、
前記生成工程で生成されたスペクトル補正用フィルタを前記音声波形データに対応付けて登録する登録工程と
を備えることを特徴とする辞書生成方法。
A method for generating a dictionary for speech synthesis in which speech waveform data is registered,
A generation step of generating a spectrum correction filter based on the voice waveform data registered in the voice synthesis dictionary;
A registration step of registering the spectrum correction filter generated in the generation step in association with the audio waveform data.
音声波形データを登録した音声合成用の辞書を生成する方法であって、
音声合成用辞書に登録された音声波形データの各々に基づいてスペクトル補正用フィルタを生成する第1生成工程と、
前記スペクトル補正用フィルタを対応する音声波形データに作用させて、スペクトル補正後の音声波形データを生成する第2生成工程と、
前記第2生成工程で生成されたスペクトル補正後の音声波形データを辞書に登録する登録工程と
を備えることを特徴とする辞書生成方法。
A method for generating a dictionary for speech synthesis in which speech waveform data is registered,
A first generation step of generating a spectrum correction filter based on each of the voice waveform data registered in the voice synthesis dictionary;
A second generation step of causing the spectrum correction filter to act on the corresponding voice waveform data to generate voice waveform data after spectrum correction;
A registration step of registering the spectrum-corrected audio waveform data generated in the second generation step in a dictionary.
音声波形データを登録した音声合成用の辞書を生成する方法であって、
音声合成用辞書に登録された音声波形データに基づいてスペクトル補正用フィルタを生成し、これを複数の要素フィルタに分解する分解工程と、
前記分解工程で生成された複数の要素フィルタを前記音声波形データに対応付けて登録する登録工程と
を備えることを特徴とする辞書生成方法。
A method for generating a dictionary for speech synthesis in which speech waveform data is registered,
A decomposition step of generating a spectrum correction filter based on the voice waveform data registered in the voice synthesis dictionary and decomposing this into a plurality of element filters;
A registration step of registering the plurality of element filters generated in the decomposition step in association with the audio waveform data.
前記分解工程は、スペクトル補正フィルタを表す特性多項式を因数分解して該スペクトル補正フィルタを要素フィルタの積へ変換することを含むことを特徴とする請求項13に記載の辞書生成方法。14. The dictionary generation method according to claim 13, wherein the decomposing step includes factorizing a characteristic polynomial representing a spectrum correction filter and converting the spectrum correction filter into a product of element filters. 前記分解工程は、スペクトル補正フィルタを多項式で表現されるフィルタで近似し、前記多項式を因数分解することにより、該スペクトル補正フィルタを要素フィルタの積へ変換することを含むことを特徴とする請求項13に記載の辞書生成方法。The method according to claim 1, wherein the decomposition step includes converting the spectrum correction filter into a product of element filters by approximating the spectrum correction filter with a filter expressed by a polynomial, and factorizing the polynomial. 13. The dictionary generation method according to item 13. 音声波形データと窓関数とから微細素片を取得する取得手段と、
前記取得手段で取得された微細素片を、合成時の韻律を変更するべく再配置する再配置手段と、
前記再配置手段で再配置された微細素片を重畳して得られる重畳波形データに基づいて合成音声波形データを出力する合成手段と、
前記取得手段で処理される音声波形データに基づいて構成されたスペクトル補正フィルタを、前記取得手段、再配置手段、合成手段を含む処理の過程において作用させる補正手段と
を備えることを特徴とする音声合成装置。
Acquiring means for acquiring a fine segment from the audio waveform data and the window function,
A re-arrangement unit that re-arranges the fine segments acquired by the acquisition unit to change the prosody at the time of synthesis,
A synthesizing unit that outputs synthesized voice waveform data based on superimposed waveform data obtained by superimposing the fine segments relocated by the rearrangement unit,
A sound processing apparatus comprising: a correction means for causing a spectrum correction filter configured based on voice waveform data processed by the obtaining means to act in a process of processing including the obtaining means, the rearranging means, and the synthesizing means. Synthesizer.
音声波形データを登録した音声合成用の辞書を生成する装置であって、
音声合成用辞書に登録された音声波形データに基づいてスペクトル補正用フィルタを生成する生成手段と、
前記生成手段で生成されたスペクトル補正用フィルタを前記音声波形データに対応付けて登録する登録手段と
を備えることを特徴とする辞書生成装置。
An apparatus for generating a dictionary for speech synthesis in which speech waveform data is registered,
Generating means for generating a spectrum correction filter based on the voice waveform data registered in the voice synthesis dictionary;
A registration unit for registering the spectrum correction filter generated by the generation unit in association with the audio waveform data.
音声波形データを登録した音声合成用の辞書を生成する装置であって、
音声合成用辞書に登録された音声波形データの各々に基づいてスペクトル補正用フィルタを生成する第1生成手段と、
前記スペクトル補正用フィルタを対応する音声波形データに作用させて、スペクトル補正後の音声波形データを生成する第2生成手段と、
前記第2生成手段で生成されたスペクトル補正後の音声波形データを辞書に登録する登録手段と
を備えることを特徴とする辞書生成装置。
An apparatus for generating a dictionary for speech synthesis in which speech waveform data is registered,
First generating means for generating a spectrum correction filter based on each of the voice waveform data registered in the voice synthesis dictionary;
Second generating means for causing the spectrum correction filter to act on the corresponding voice waveform data to generate voice waveform data after spectrum correction;
A registration unit for registering in the dictionary the spectrum-corrected speech waveform data generated by the second generation unit.
音声波形データを登録した音声合成用の辞書を生成する装置であって、
音声合成用辞書に登録された音声波形データに基づいてスペクトル補正用フィルタを生成し、これを複数の要素フィルタに分解する分解手段と、
前記分解手段で生成された複数の要素フィルタを前記音声波形データに対応付けて登録する登録手段と
を備えることを特徴とする辞書生成装置。
An apparatus for generating a dictionary for speech synthesis in which speech waveform data is registered,
Decomposition means for generating a spectrum correction filter based on the voice waveform data registered in the voice synthesis dictionary and decomposing the filter into a plurality of element filters;
Registering means for registering the plurality of element filters generated by the decomposing means in association with the audio waveform data.
請求項1乃至11のいずれかに記載の音声合成方法をコンピュータに実行させるための制御プログラム。A control program for causing a computer to execute the speech synthesis method according to claim 1. 請求項12乃至13のいずれかに記載の辞書生成方法をコンピュータに実行させるための制御プログラム。A control program for causing a computer to execute the dictionary generation method according to claim 12. 請求項20又は21に記載の制御プログラムを格納する記憶媒体。A storage medium storing the control program according to claim 20.
JP2002164624A 2002-06-05 2002-06-05 Speech synthesis method and apparatus and dictionary generation method and apparatus Expired - Fee Related JP4332323B2 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2002164624A JP4332323B2 (en) 2002-06-05 2002-06-05 Speech synthesis method and apparatus and dictionary generation method and apparatus
US10/449,072 US7546241B2 (en) 2002-06-05 2003-06-02 Speech synthesis method and apparatus, and dictionary generation method and apparatus
EP03253523A EP1369846B1 (en) 2002-06-05 2003-06-04 Speech synthesis
DE60332980T DE60332980D1 (en) 2002-06-05 2003-06-04 speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002164624A JP4332323B2 (en) 2002-06-05 2002-06-05 Speech synthesis method and apparatus and dictionary generation method and apparatus

Publications (3)

Publication Number Publication Date
JP2004012700A true JP2004012700A (en) 2004-01-15
JP2004012700A5 JP2004012700A5 (en) 2005-10-13
JP4332323B2 JP4332323B2 (en) 2009-09-16

Family

ID=30432718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002164624A Expired - Fee Related JP4332323B2 (en) 2002-06-05 2002-06-05 Speech synthesis method and apparatus and dictionary generation method and apparatus

Country Status (1)

Country Link
JP (1) JP4332323B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006129814A1 (en) * 2005-05-31 2006-12-07 Canon Kabushiki Kaisha Speech synthesis method and apparatus
JP2008026777A (en) * 2006-07-25 2008-02-07 Casio Comput Co Ltd Speech synthesis dictionary structuring device, speech synthesis dictionary structuring method, and program
JP2009058708A (en) * 2007-08-31 2009-03-19 Internatl Business Mach Corp <Ibm> Voice processing system, method and program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006129814A1 (en) * 2005-05-31 2006-12-07 Canon Kabushiki Kaisha Speech synthesis method and apparatus
JP2008026777A (en) * 2006-07-25 2008-02-07 Casio Comput Co Ltd Speech synthesis dictionary structuring device, speech synthesis dictionary structuring method, and program
JP2009058708A (en) * 2007-08-31 2009-03-19 Internatl Business Mach Corp <Ibm> Voice processing system, method and program
US8812312B2 (en) 2007-08-31 2014-08-19 International Business Machines Corporation System, method and program for speech processing

Also Published As

Publication number Publication date
JP4332323B2 (en) 2009-09-16

Similar Documents

Publication Publication Date Title
JP3294604B2 (en) Processor for speech synthesis by adding and superimposing waveforms
US8280738B2 (en) Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
JPS62160495A (en) Voice synthesization system
JP2009109805A (en) Speech processing apparatus and method of speech processing
JP3450237B2 (en) Speech synthesis apparatus and method
EP1369846B1 (en) Speech synthesis
JP3728173B2 (en) Speech synthesis method, apparatus and storage medium
JP4332323B2 (en) Speech synthesis method and apparatus and dictionary generation method and apparatus
JP5075865B2 (en) Audio processing apparatus, method, and program
JP3897654B2 (en) Speech synthesis method and apparatus
JP2000075879A (en) Method and device for voice synthesis
JP3756864B2 (en) Speech synthesis method and apparatus and speech synthesis program
JP2008058379A (en) Speech synthesis system and filter device
JP4963345B2 (en) Speech synthesis method and speech synthesis program
JP2007052456A (en) Method and system for generating dictionary for speech synthesis
JP6834370B2 (en) Speech synthesis method
JP4929896B2 (en) Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program
JP3289511B2 (en) How to create sound source data for speech synthesis
JP2005024794A (en) Method, device, and program for speech synthesis
JP2987089B2 (en) Speech unit creation method, speech synthesis method and apparatus therefor
JPS5880699A (en) Voice synthesizing system
JP3592617B2 (en) Speech synthesis method, apparatus and program recording medium
JPH08160991A (en) Method for generating speech element piece, and method and device for speech synthesis
Alcaraz Meseguer Speech analysis for automatic speech recognition
JP2001100777A (en) Method and device for voice synthesis

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050606

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070515

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070814

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070827

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090521

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090622

R150 Certificate of patent or registration of utility model

Ref document number: 4332323

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120626

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120626

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130626

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees