JP2002268660A

JP2002268660A - テキスト音声合成方法および装置

Info

Publication number: JP2002268660A
Application number: JP2001071098A
Authority: JP
Inventors: Keiichi Tokuda; 恵一徳田; Takakatsu Yoshimura; 貴克吉村; Takao Kobayashi; 隆夫小林; Takashi Masuko; 貴史益子; Tadashi Kitamura; 正北村
Original assignee: Japan Science and Technology Corp
Current assignee: Japan Science and Technology Agency
Priority date: 2001-03-13
Filing date: 2001-03-13
Publication date: 2002-09-20

Abstract

(57)【要約】【課題】スペクトルパラメータ列をＨＭＭに学習させ、
テキストによりＨＭＭからスペクトルパラメータ列を生
成して音声合成するボコーダ型のテキスト音声合成シス
テムにおいて、より高品質の合成音声を出力できるよう
にするとともに、システムの自動構築を容易にすること
にある。【解決手段】ボコーダ型の音声符号化方式における高精
度励振源モデルのパラメータ列を隠れマルコフモデルの
学習によりモデル化し、テキストに基づいてこの隠れマ
ルコフモデルから高精度励振源パラメ一タ列を生成して
高精度励振源を制御し、高精度励振源からつくられた励
振信号を合成フィルタに加えることにより、音声波形を
生成するようにした。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、ボコーダ型の音
声符号化方式によりテキストから高品質な音声を合成す
るテキスト音声合成方法および装置に関するものであ
る。

【０００２】

【従来の技術】自動電話番号案内／自動残高照会／電子
メール読み上げなどの電話サービス、カーナビゲーショ
ンにおける音声インタフェース、パソコンの音声入出力
インタフェース、自動翻訳電話、など、音声認識、音声
合成の技術を用いた各種システムが実用化の段階に入ろ
うとしており、その将来への期待が高まっている。本発
明は、このような応用における音声合成方式と装置に関
するものである。従来の多くのテキスト音声合成方式に
おいては、音素、音節などの音声単位をつなぎ会わせる
ことにより、任意のテキストに対応する音声を合成して
いる。音声単位接続に際しては、音声波形そのものを接
続するものと、音声波形から抽出されたスペクトルパラ
メータ（合成フィルタのパラメータ）の領域で接続を行
った後、時間波形領域に戻すものに大別される。波形接
続によるものでは、音声単位内部では、高品質な音声が
得られるが、接続部において、不連続が起こり、接続歪
と呼ばれる品質劣化が起こる欠点がある。一方、スペク
トルパラメ一タ領域で接続を行うものでは、スペクトル
領域で適切な平滑化や補間を行うことにより、接続歪の
問題が起こりにくいという利点があるが、一度スペクト
ル領域に変換し、そこから音声波形領域に戻すことによ
って起こる音声品質の劣化が問題となる。波形接続、ス
ペクトル領域接続、いずれの場合に関しても、音声単位
の接続法に関して様々な工夫がなされている。しかし、
これらの多くは試行錯誤的なものであり、音声合成シス
テムを構築する度に、高度な専門知識を有した者が多大
な時間と労力をかけて、接続のための規則を記述した
り、接続の際のなんらかのパラメータをチューニングし
たりする必要があった。

【０００３】ところで、スペクトルパラメ一タから音声
を合成する際には、スペクトルパラメータによって与え
られる合成フィルタを、何らかの励振信号によって励振
することにより、合成音声を得ている。通常は、励振信
号として、有声音部分にはパルス列、無声音部分には白
色雑音が用いられるが、これらは励振源モデルとして単
純化され過ぎており、合成音声の品質劣化は、このよう
な単純な励振源モデルを用いることが原因である。一
方、音声の低ビットレート符号化においても、同様の合
成フィルタを何らかの励根源信号により励振する音声生
成モデルが広く用いられている。このような音声符号化
方式は、ボコーダ型音声符号化方式と呼ばれる。近年、
励振源モデルの高精度化により、ボコーダ型音声符号化
方式の音声品質は格段に向上しつつある。

【０００４】図６に、従来のボコーダ型音声符号化方式
による音声符号化システムの概略構成を示す。符号化器
４１は、高精度励振源パラメータ抽出部４２とスペクト
ルパラメータ抽出部４３を備え、復号化器４４は、高精
度励振源生成部４５と合成フィルタ４６を備えている。

【０００５】符号化器４１では、高精度励振源パラメー
タ抽出部４２が入力音声信号から励振源パラメータ列を
抽出して高精度励振源モデルの符号化を行ない、またス
ペクトルパラメータ抽出部４３が入力音声信号のスペク
トルパラメータ列を抽出して符号化している。これらの
符号化された音声情報は、任意に蓄積あるいは伝送され
たあと、復号化器４４により復号化される。復号化器４
４では、高精度励振源生成部４５が励振源パラメータ列
から高精度励振源モデルを生成して、合成フィルタ４６
への励振信号をつくり、合成フィルタ４６は、スペクト
ルパラメータ列から音道特性をシミュレートして、励振
信号から音声波形を生成し、出力する。ボコーダ型音声
符号化システムとして、ＭＥＬＰ方式を考えた場合に
は、励振源パラメータ列は、フーリエ振幅、有声強度、
有声／無声フラグ、ピッチを含む。

【０００６】

【発明が解決しようとする課題】音声合成システムの普
及に伴い、様々な話者の声質や発話様式で音声を合成す
ることが要求されるようになってきているが、これらの
要求のたびに、上記のような試行錯誤的な作業を行うこ
とは効率的ではない。このため、与えられた音声データ
から、音声合成システムを自動構築する方法が検討され
ている。このような手法のひとつに隠れマルコフモデル
（以下、ＨＭＭともいう）によるものがある。これは、
ＨＭＭを用いてスペクトルパラメータ列およびその動的
特徴量を学習し、音声合成時には、スペクトルパラメー
タ列をＨＭＭから生成するもので、システムの自動構築
が可能である（＊参考文献１）。更に、この手法では、
ＨＭＭのパラメータを適切に変換することにより，多様
な声質や発話様式の音声を合成することが可能となる利
点がある。但し、上記のＨＭＭに基づく手法は、スペク
トル領域の処理を行う方式の一つとなっているため、一
度スペクトル領域に変換し、そこから音声波形領域に戻
すことによって起こる音声品質の劣化を避けることはで
きないという問題があった（＊参考文献２，３）。＊参考文献１：吉村貴克，徳田恵一，益子貴史，小
林隆夫，北村正，“ＨＭＭに基づく音声合成におけるス
ペクトル・ピッチ・継続長の同時モデル化，”電子情報
通信学会論文誌(D-II),vol.J83-D-II,no.11,pp.2099-21
07,Nov.2000. ＊参考文献２：徳田恵一，“ＨＭＭによる音声合成
の基礎, ”信学技報,vol.100no.392,SP2000-74,pp.43-5
0,Oct.2000 (ビギナーセミナー) ＊参考文献３：徳田恵一，“隠れマルコフモデルの
音声合成への応用”信学技報vol.99, no.255,SP99-61,p
p.47-54,Aug.1999 (特別講演)

【０００７】

【課題を解決するための手段】本発明は、スペクトルパ
ラメータ列をＨＭＭに学習させ、テキストによりＨＭＭ
からスペクトルパラメータ列を生成して音声合成するボ
コーダ型のテキスト音声合成システムにおいて、高精度
励振源のパラメータもＨＭＭにモデル化して、音声合成
時に高精度励振源パラメータをＨＭＭから得て励振信号
を生成するようにして、上記の課題を解決するものであ
る。

【０００８】図１に、本発明によるテキスト音声合成装
置の概要構成を示す。テキスト音声合成装置は、学習部
１と音声合成部２からなり、学習部１は、音声データベ
ース３、高精度励振源パラメータ抽出部４、スペクトル
パラメータ抽出部５、ＨＭＭの学習部６を備えている。
また音声合成部２は、コンテキスト依存ＨＭＭファイル
７、テキスト解析部８、パラメータ生成部９、高精度励
振源生成部１０、合成フィルタ１１を備えている。

【０００９】学習部１は、音声データベース３の音声情
報でコンテキスト依存ＨＭＭファイル７を学習させる機
能をもつ。音声データベース３には、あらかじめサンプ
ルとして用意された多数の音声情報が格納されている。
音声情報は、図示の例のように，音声信号に波形の各音
素等の部分を識別するラベル（ａｒａｕｒｕやｎｕｕｙ
ｏｏｋｕ）を付加したものである。高精度励振源パラメ
ータ抽出部４とスペクトルパラメータ抽出部５は、それ
ぞれ音声データベース３から取り出した音声信号ごと
に、高精度励振源パラメータ列とスペクトルパラメータ
列を抽出する。ＨＭＭの学習部６は、抽出された高精度
励振源パラメータ列とスペクトルパラメータ列につい
て、音声データベース３から音声信号とともに取り出し
たラベルおよび時間情報を用いて、ＨＭＭの学習処理を
行なう。学習されたＨＭＭは、コンテキスト依存ＨＭＭ
ファイル７に格納される。

【００１０】励振源モデルのパラメータは、有声・無声
などのモ一ドにより、パラメータの数や次元数が異なる
ことが多いため、直接、従来の離散ＨＭＭや連続ＨＭＭ
によりこのようなパラメータ列のモデル化を行うことは
できないが、本発明では、多空間分布ＨＭＭ（＊参考文
献４）を用いることによりこれを可能としている。多空
間分布ＨＭＭは、パラメータベクトルの次元が、毎回、
異なることを許すように拡張されたＨＭＭであり、有声
／無声フラグを含んだピッチは、このような次元が変化
するパラメータ列の例である。つまり、有声時には１次
元、無声時には０次元のパラメータベクトルとなる。学
習部１では、この多空間分布ＨＭＭによる学習を行って
いる。ラベル情報とは、具体的には、例えば、以下のよ
うなものを指し、各ＨＭＭは、これらを属性名（コンテ
キスト）としてもつ。・｛先行、当該、後続｝音素・当該音素のアクセント句内でのモーラ位置・｛先行、当該，後続｝の品詞，活用形，活用型・｛先行，当該、後続｝アクセント句のモーラ長，アク
セント型・当該アクセント句の位置，前後のポーズの有無・｛先行，当該，後続｝呼気段落のモーラ長・当該呼気段落の位置・文のモーラ長このようなＨＭＭは、コンテキスト依存ＨＭＭと呼ばれ
る。

【００１１】音声合成部２は、任意の電子的なテキスト
から読み上げ形式の音声信号列を生成する機能をもつ。
テキスト解析部８は、入力されたテキストを解析して、
音素の配列であるラベル情報に変換する。パラメータ生
成部９は、ラベル情報に基づいてコンテキスト依存ＨＭ
Ｍファイル７を検索し、得られたコンテキスト依存ＨＭ
Ｍを接続し、文ＨＭＭを構成する。得られた文ＨＭＭか
ら、さらにパラメータ生成アルゴリズムにより、高精度
励振源パラメータ、およびスペクトルパラメータの列を
生成する。得られた高精度励振源パラメータ列とスペク
トルパラメータ列を、それぞれ高精度励振源生成部１０
と合成フィルタ１１に与える。高精度励振源生成部１０
は、与えられた高精度励振源パラメータに対応する励振
源モデルにより励振信号を生成して、合成フィルタ１１
に加える。合成フィルタ１１は、与えられたスペクトル
パラメータに対応するフィルタ特性を形成し、入力され
た励振信号を逐次周波数領域で変形して、テキストに対
応する音声波形を生成する。

【００１２】このように、本発明は、スペクトルパラメ
ータだけでなく、励振源モデルのパラメータをもＨＭＭ
によってモデル化することにより、以下の特徴をもつテ
キスト音声合成システムを構築することができる。ａ．システムの自動構築が可能ｂ．ＨＭＭのパラメータ変換により多様な声質、発話様
式の実現が可能ｃ．高い品質の合成音声を出力可能本発明は、以下のように構成される。（１）ボコーダ型の音声符号化方式における高精度励
振源モデルのパラメータ列を隠れマルコフモデルにより
モデル化し、テキストに基づいてこの隠れマルコフモデ
ルから高精度励振源パラメ一タ列を生成して高精度励振
源を制御し、高精度励振源からつくられた励振信号を合
成フィルタに加えることにより、音声波形を生成するこ
とを特徴とするテキスト音声合成方法の構成。（２）学習用音声データベースの音声信号から抽出し
た高精度励振源パラメータ列およびスペクトルパラメー
タ列を、その音声信号のラベルおよび時間情報を用い
て、隠れマルコフモデルに学習させる段階と、入力され
たテキストから生成したラベル情報に基づいて上記隠れ
マルコフモデルから対応する高精度励振源パラメ一タ列
およびスペクトルパラメータ列を生成して、それぞれ高
精度励振源および合成フィルタを制御し、高精度励振源
からつくられた励振信号を合成フィルタに加えて音声波
形を生成する段階とからなることを特徴とするテキスト
音声合成方法の構成。（３）前項（１）または（２）において、高精度励振
源パラメータ列は、フーリエ振幅、有声強度、有声／無
声フラグ、ピッチであることを特徴とするテキスト音声
合成方法の構成。（４）ボコーダ型の音声符号化方式における高精度励
振源モデルのパラメータ列を学習によりモデル化した隠
れマルコフモデルと、テキストに基づいてこの隠れマル
コフモデルから励振源パラメ一タを生成して高精度励振
源を制御し、高精度励振源からつくらボコーダ型の音声
符号化方式における高精度励振源モデルのパラメータ列
をモデル化した隠れマルコフモデルと、テキストに基づ
いてこの隠れマルコフモデルから高精度励振源パラメ一
タを生成して高精度励振源を制御し、高精度励振源から
つくられる励振信号を合成フィルタに加えて音声波形を
生成する音声合成部とを有することを特徴とするテキス
ト音声合成装置の構成。（５）前項（４）において、音声信号から抽出する高
精度励振源パラメータ列は、フーリエ振幅、有声強度、
有声／無声フラグ、ピッチであることを特徴とするテキ
スト音声合成装置の構成。（６）前項（４）において、高精度励振源は、パルス
とノイズを混合した混合励振源であることを特徴とする
テキスト音声合成装置の構成。（７）入力されたテキストを解析してラベル情報を生
成し、生成したラベル情報に基づいて、高精度励振源パ
ラメータ列をモデル化した隠れマルコフモデルから対応
する高精度励振源パラメ一タ列を生成し、高精度励振源
を制御し、高精度励振源からつくられた励振信号を合成
フィルタに加えて音声波形を生成する音声合成プログラ
ムを格納したプログラム記憶媒体の構成。（８）学習用音声データベースの音声信号から高精度
励振源パラメータ列およびスペクトルパラメータ列を抽
出し、その音声信号のラベルおよび時間情報とを用い
て、高精度励振源モデルを隠れマルコフモデルに学習さ
せる励振源モデル学習プログラムを格納したプログラム
記憶媒体の構成。＊参考文献４：徳田恵一，益子貴史，宮崎昇, 小林
隆夫，多空間上の確率分布基づいたＨＭＭ，”電子情報
通信学会論文誌(D-II),vol.J83-D-II,no.7,pp.1579-158
9,July 2000.

【００１３】

【発明の実施の形態】本発明の実施の態様として、具体
例を説明する。特徴ベクトル学習データとしてＡＴＲ日本語音声データベースの男性
話者ＭＨＴによる音韻バランス４５０文章を用いた、サ
ンプリング周波数は１６ｋＨｚ、分析周期は５ｍｓとし
た。図２に、特徴ベクトルの構成を示す。

【００１４】スペクトルパラメータとしては、２５ｍｓ
長ブラックマン窓を用いて２４次メルケプストラム分析
により得られたｃ（０）〜ｃ（２４）のメルケプストラ
ム係数を用いた。励振源パラメータとしては、ＭＥＬＰ
と同様に、・ピッチ（ｐ）（有声／無声フラグを含む）・有声強度（bandpass voicing strength （Ｖｂｐ））・フーリエ振幅（Fourier magnitude （Ｍ））の３つを用いた、ピッチは対数周波数に変換して用い
た。有声強度は５つの周波数帯域０−１ｋＨｚ、１−２
ｋＨｚ、２−４ｋＨｚ、４−６ｋＨｚ、６−８ｋＨｚで
それぞれ求め、５次元のベクトルとした。フーリエ振幅
は１０次元のベクトルとした。

【００１５】学習に用いる特徴べクトルはスペクトルパ
ラメータ、励振源パラメータとそれぞれのデルタ、デル
タデルタパラメータから成る計２１３次元のべクトルと
した。ＨＭＭの学習ＨＭＭは５状態のleft-to-right モデルとし、音素単位
で用意する。メルケプストラム、有声強度、フーリエ振
幅はそれぞれ連続分布ＨＭＭ、ピッチは多空間分布ＨＭ
Ｍ（ＭＳＤ−ＨＭＭ）、継続長は多次元ガウス分布でモ
デル化する。ここでは、有声強度とフーリエ振幅が、メ
ルケプストラム、ピッチ、継続長の学習に影響を与えな
いよう、有声強度とフーリエ振幅のストリーム重みを０
とした。また使用するＨＭＭは、音素環境、品詞、アク
セントなどのコンテキストを考慮したコンテキスト依存
モデルとした。

【００１６】作成したコンテキスト依存ＨＭＭは、決定
木に基づくコンテキストクラスタリングによりメルケプ
ストラム、ピッチ、有声強度、フーリエ振幅、継続長
を、それぞれ別々に状態クラスタリングする。クラスタ
リングの結果、メルケプストラム、ピッチ、有声強度、
フーリエ振幅、継続長の総状態数はそれぞれ９３４、１
０５５、１６５１、１０１６となった。混合励振源モデルによる音声合成図３に、音声合成システムのブロック構成を示す。ま
ず、入力テキストに基づき連結された文ＨＭＭからメル
ケプストラム、ピッチ、有声強度、フーリエ振幅を生成
する。次に、生成したピッチとフーリエ振幅に基づいて
パルス列を出力する。このとき、低域の有声強度が０．
５以下になるとき、ピッチに揺らぎを加えるようにす
る。有声強度の有声／無声の閾値を０．５に設定し、５
つの帯域それぞれについて有声／無声を判定する。有声
ならパルス列、無声ならノイズを各帯域に割り当て、周
波数帯域上で混合する。混合された信号はpulse disper
sion filter に通される。本稿に用いるpulse dispersi
on filter は、ＭＥＬＰと同様に三角パルスのスペクト
ルを白色化したものを使用する。最後に、メルケプスト
ラムに基づき構成されたＭＬＳＡフィルタを、得られた
混合励振源により励振し、合成音声を得た。但し、puls
e dispersion filter には遅延があるため、ＭＥＬＰで
は合成フィルタとpulse dispersion filter の処理の順
を逆にしており、ここでも、図３に示されているよう
に、ＭＬＳＡフィルタとpulse dispersion filter の処
理の順を逆にしている。

【００１７】ＨＭＭから生成した励振源として、パルス
とノイズを混合した混合励振源の例を図４（ｂ）に示
す。図４（ａ）は従来の励振源の例である。ここで、図
４（ｂ）の混合励振源は、ＭＬＳＡフィルタに通す前に
pulse dispersion filter に通したものである。この図
から、生成された混合励振源が有声摩擦音“ｚ”で周期
性と非周期性を共にもつ様子が観察できる。主観評価実験混合励振源モデルを導入したテキスト音声合成システム
を主観評価実験により評価した。本稿で行なった主観評
価実験では、従来のパルスとノイズを切替える方式の励
振源によって得られた合成音声と混合励振源によって得
られた合成音声の比較を行い、さらに、有声強度、フー
リエ振幅、ピッチ揺らぎ、pulse dispersion filter の
それぞれの効果を確かめた。

【００１８】受聴試験に用いた文章は５３の中から被験
者毎にランダムに８文章を選んだ。受聴試験のサンプル
として以下の５種類の励振源を用いて合成した音声を用
意し、被験者８名に対比較試験をさせた。・従来のパルスとノイズを切替える方式の励振源（Ｎ
Ｏ）・有声強度を用いてパルスとノイズを混合した混合励
振源（ＢＰ）・ＢＰにおいて、パルスを発振する際にフーリエ振幅
を考慮したもの（ＦＭ）・ＦＭパルス発生器にピッチ揺らぎを加えたもの（Ｊ
Ｔ）・ＪＴで得られた信号をpulse dispersion filter に
通したもの（ＰＤ）図５に、評価結果のプレファレンススコアを示す。結果
から、混合励振源によって得られた合成音声の品質が、
従来のものよりも向上することが確認できた。また、本
実験においては、フーリエ振幅（ＦＭ）やピッチ揺らぎ
（ＪＴ）の効果はなかったものの、pulse dispersion f
ilter （ＰＤ）による品質の向上がみられた。

【００１９】以上説明した本発明に基づくテキスト音声
合成装置の機能は、マイクロプロセッサあるいはＤＳＰ
を含むハードウェア上で、プログラムにより実現され
る。プログラムはＨＤＤなどのファイル記憶装置に記憶
され、動作中は主記憶にロードされるが、ＣＤ−ＲＯＭ
などの可搬型の各種記憶媒体に記録しておくことも可能
である。

【００２０】

【発明の効果】本発明のＨＭＭを用いた励振源モデルに
よるテキスト音声合成方法および装置によれば、高い品
質の合成音声を出力できるとともに、システムの自動構
築が可能であり、また、ＨＭＭのパラメータ変換により
多様な声質、発話様式を容易に実現できる利点が得られ
る。さらに励振源として混合励振源を用いた場合、従来
のパルスとノイズを切替える方式の励振源を用いた場合
に比べて合成音声の品質を一層向上させることができ
る。

【図面の簡単な説明】

【図１】本発明によるテキスト音声合成装置の概要構成
図である。

【図２】本発明の１実施の形態においてＨＭＭの学習に
用いられる特徴ベクトルの説明図である。

【図３】本発明の１実施の形態における音声合成シテム
の構成図である。

【図４】ＨＭＭから生成した励振源の例「少しずつ（ｓ
ｕｋｏｓｈｉｚｕｔｓｕ）」の説明図である。

【図５】本発明の１実施の形態におけるパルスとノイズ
の混合励振源の効果の説明図である。

【図６】従来の高精度励振源モデルを用いたボコーダ型
音声符号化システムの概要構成図である。

【符号の説明】

１：学習部２：音声合成部３：音声データベース４：高精度励振源パラメータ抽出部５：スペクトルパラメータ抽出部６：ＨＭＭの学習部７：コンテキスト依存ＨＭＭファイル８：テキスト解析部１０：高精度励振源生成部１１：合成フィルタ

───────────────────────────────────────────────────── フロントページの続き (72)発明者益子貴史東京都町田市南成瀬５−３−８ハイツかねこ102 (72)発明者北村正名古屋市瑞穂区彌富町字円山16−２八事雲雀ヶ岡パークホームズ503 Ｆターム(参考） 5D045 AA01 CA02 CA04 CC01 CC07

Claims

【特許請求の範囲】

【請求項１】ボコーダ型の音声符号化方式における高
精度励振源モデルのパラメータ列を隠れマルコフモデル
によりモデル化し、テキストに基づいてこの隠れマルコ
フモデルから高精度励振源パラメ一タ列を生成して高精
度励振源を制御し、高精度励振源からつくられた励振信
号を合成フィルタに加えることにより、音声波形を生成
することを特徴とするテキスト音声合成方法。
【請求項２】学習用音声データベースの音声信号から
抽出した励振源パラメータ列およびスペクトルパラメー
タ列を、その音声信号のラベルおよび時間情報を用い
て、隠れマルコフモデルに学習させる段階と、入力され
たテキストから生成したラベル情報に基づいて上記隠れ
マルコフモデルから対応する励振源パラメ一タ列および
スペクトルパラメータ列を生成して、それぞれ高精度励
振源および合成フィルタを制御し、高精度励振源からつ
くられた励振信号を合成フィルタに加えて音声波形を生
成する段階とからなることを特徴とするテキスト音声合
成方法。
【請求項３】請求項１または請求項２において、励振
源パラメータ列は、フーリエ振幅、有声強度、有声／無
声フラグ、ピッチであることを特徴とするテキスト音声
合成方法。
【請求項４】ボコーダ型の音声符号化方式における高
精度励振源モデルのパラメータ列をモデル化した隠れマ
ルコフモデルと、テキストに基づいてこの隠れマルコフ
モデルから高精度励振源パラメ一タを生成して高精度励
振源を制御し、高精度励振源からつくられる励振信号を
合成フィルタに加えて音声波形を生成する音声合成部と
を有することを特徴とするテキスト音声合成装置。
【請求項５】請求項４において、高精度励振源パラメ
ータ列は、フーリエ振幅、有声強度、有声／無声フラ
グ、ピッチであることを特徴とするテキスト音声合成装
置。
【請求項６】請求項４において、高精度励振源は、パ
ルスとノイズを混合した混合励振源であることを特徴と
するテキスト音声合成装置。
【請求項７】入力されたテキストを解析してラベル情
報を生成し、生成したラベル情報に基づいて、高精度励
振源パラメータをモデル化した隠れマルコフモデルから
対応する高精度励振源パラメ一タ列を生成し、高精度励
振源を制御し、高精度励振源からつくられた励振信号を
合成フィルタに加えて音声波形を生成する音声合成プロ
グラムを格納したプログラム記憶媒体。
【請求項８】学習用音声データベースの音声信号から
高精度励振源パラメータ列およびスペクトルパラメータ
列を抽出し、その音声信号のラベルおよび時間情報とを
用いて、高精度励振源モデルを隠れマルコフモデルに学
習させる励振源モデル学習プログラムを格納したプログ
ラム記憶媒体。