JPH10171484A

JPH10171484A - 音声合成方法および装置

Info

Publication number: JPH10171484A
Application number: JP8329845A
Authority: JP
Inventors: Hirofumi Nishimura; 村洋文西; Toshimitsu Minowa; 輪利光簑; Yasuhiko Arai; 居康彦新
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1996-12-10
Filing date: 1996-12-10
Publication date: 1998-06-26
Anticipated expiration: 2016-12-10
Also published as: US6125346A; ES2190500T3; EP0848372B1; CA2219056A1; CN1190236A; EP0848372A3; CA2219056C; EP0848372A2; DE69718284D1; DE69718284T2; JP3349905B2

Abstract

(57)【要約】（修正有）【課題】波形重畳による音声合成方法においては、合
成単位を大きな単位、例えばＣＶからＶＣＶというよう
にすると、合成音声の品質は向上するが、合成単位とな
る音声片の数が増えるため、波形データベースが膨大に
なる。【解決の手段】ＶＣＶの合成単位１０２、１０５、１
０６について、すべての音声片の有声区間を１１０〜１
１９、１２０〜１２９のようなピッチ波形に分解し、似
通ったピッチ波形ごとにグループ分けを行い、グループ
毎に代表となる１つのピッチ波形だけをデータベースに
蓄積し、音声片間でピッチ波形を共有することにより、
波形データベースの容量を小さくする。また、無声音波
形についても音韻ごとにグループ分けを行い、似通った
波形を音声片間で共有することにより、波形データベー
スの容量を小さくする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声合成方法およ
びその装置に関し、特に入力されたテキストデータを音
声に変換する音声合成方法およびその装置に関する。

【０００２】

【従来の技術】従来、音声片を接続して音声を合成する
音声合成方法においては、特開平７−４０４２２号公報
に記載されているように、合成単位とする音声片ごとに
波形データを蓄積し、合成する際は、選ばれた音声片の
データのみで音声を合成していた。

【０００３】

【発明が解決しようとする課題】しかしながら、従来の
音声合成方法では、音声片が異なると、全く別のものと
してデータベース化しているので、音声片の間で非常に
似通った波形データがデータベースに蓄積されており、
データベースが冗長になっていた。また、データベース
規模の増大を抑えるために、限られた音声片を用いて無
理に変形して音声を合成すると、合成音声の音質劣化を
招くと言う問題があった。

【０００４】本発明は、このような従来の問題を解決す
るものであり、波形データベースの冗長性を取り除き、
波形データベースを縮小するとともに、波形データベー
スをより有効に利用して、合成音声の品質を向上させる
ことのできる音声合成方法およびその装置を提供するこ
とを目的とする。

【０００５】

【課題を解決するための手段】上記目的を達成するため
に、本発明は、ピッチ波形を最小単位としてピッチ波形
データベースを構成し、このピッチ波形を組み合わせて
ＣＶ、ＣＶ／ＶＣ、ＶＣＶ、ＣＶ／ＶＣＶのような合成
単位となる音声片を構成できるようにしたものであり、
これにより、音声片が異なってもピッチ波形を共有する
ことができるため、波形データベースを縮小するとがで
き、さらに音声片の加工を行う場合に、他の音声片のピ
ッチ波形も有効に利用することができるため、合成音声
の品質を改善することができる。

【０００６】

【発明の実施の形態】本発明の請求項１に記載の発明
は、ＣＶ、ＣＶ／ＶＣ、ＶＣＶ、ＣＶ／ＶＣＶのような
音声片を変形、接続して音声を合成する波形重畳方式の
音声合成方法において、合成単位として利用する音声片
の原音声波形すべてから予めピッチ波形を切り出し、こ
のピッチ波形全体に対し、似通った波形毎にいくつかの
グループ分けを行い、それぞれのグループを１つのピッ
チ波形で代表させ、これらの代表ピッチ波形を使って音
声を合成するようにしたものであり、波形データベース
の冗長を取り除き、効率のよいデータベースを構築する
ことができるという作用を有する。

【０００７】請求項２に記載の発明は、合成しようとす
る音声の読みを入力する手段と、その読みの入力からＣ
Ｖ、ＣＶ／ＶＣ、ＶＣＶ、ＣＶ／ＶＣＶといった合成単
位の音声片を選択し、韻律を計算する手段と、計算した
韻律に従って、ピッチ波形および無声音波形をどのよう
に組み合わせたら合成単位となる音声片が構成できるか
を示したテーブルを参照してピッチ波形を選択する手段
と、選択されたピッチ波形をピッチ波形データベースお
よび無声音波形データベースから引き出して韻律情報に
従って音声片を合成する手段と、合成された音声片を接
続して音声を合成する手段と、合成された音声を出力す
る手段とを備えた音声合成装置であり、ピッチ波形デー
タベースの冗長を取り除き、効率のよいデータベースを
構築することができるので、データ記憶装置の容量を小
さくすることができるという作用を有する。

【０００８】請求項３に記載の発明は、請求項１に記載
の音声合成方法において、ピッチ波形のスペクトルパラ
メータを基準として、類似性を判断してグループ分けを
行うようにしたものであり、音声片を録音する際の音韻
カテゴリー（例えば、ＶＣＶ音声片の“ａｋａ”の
“ａ”の部分）などで分類した場合には、それ以上の細
かな分類はできないが、ピッチ波形のスペクトルパラメ
ータを基準にして分類を行えば、１つの音韻の中のスペ
クトル変動や、音韻が別の音韻に遷移する部分なども、
一定の物理量で正確に分類できるという作用を有する。

【０００９】請求項４に記載の発明は、請求項１に記載
の音声合成方法において、グループ分けされたピッチ波
形の中から、ピッチ波形のパワーが最大のものをそのグ
ループを代表するピッチ波形とするようにしたものであ
り、ピッチ波形データベースのＳ／Ｎを改善することに
より、合成音声のＳ／Ｎを改善し、品質を向上すること
ができるという作用を有する。

【００１０】請求項５に記載の発明は、請求項１に記載
の音声合成方法において、グループ分けされたピッチ波
形の中から代表するピッチ波形を選択する際に、全ての
グループの代表ピッチ波形の位相特性が似通ったものと
なるように選択するようにしたものであり、合成単位と
なる音声片を接続する際に、音声片の位相特性が似たも
のになるので、位相特性が似ていない音声片同士を接続
する場合に生じる音質の劣化を抑制することができると
いう作用を有する。

【００１１】請求項６に記載の発明は、請求項１記載の
音声合成方法において、スペクトルパラメータなどを基
準として似通った波形毎にいくつかのグループ分けを行
い、さらにそれぞれのグループの中でピッチ波形の長さ
を基準としてサブグループを作成し、サブグループの中
で代表して１つのピッチ波形だけをデータベースに格納
し、音声片のピッチ変更を行う場合には、合成しようと
するピッチ周期に見合ったサブグループの代表ピッチ波
形を利用するようにしたものであり、合成単位にする音
声片のピッチ変更をする際に、もとのピッチ波形よりも
適切なものを選択することができるので、ピッチ変更の
際に生じる品質の劣化を抑えることができるという作用
を有する。

【００１２】請求項７に記載の発明は、ピッチ波形デー
タベースが、ピッチ波形が周波数パワースペクトルのよ
うな音韻を区別できる基準でグループ分けされ、さらに
そのグループがピッチ波形の長さを基準としてサブグル
ープ分けされ、サブグループの中で代表して１つのピッ
チ波形だけが格納されており、音声片を合成する際に、
合成しようとする音声片のピッチ周期に見合った１つの
代表ピッチ波形をサブグループから抽出することを特徴
とする請求項２に記載の音声合成装置であり、合成しよ
うとする音声の音韻条件を満たし、さらにピッチ周期が
適当なピッチ波形を非常に効率よく選択することができ
るので、従来の音声片を接続する方式の合成方法とほと
んど同じ計算量で品質の高い音声を合成することができ
るという作用を有する。

【００１３】請求項８に記載の発明は、請求項７に記載
の音声合成装置において、無声音部分についても同じ音
韻カテゴリーで無声音波形を共有するするようにしたも
のであり、無声音波形データベースの容量を小さくする
ことにより、波形データベースの容量を小さくすること
ができるという作用を有する。

【００１４】以下、本発明の実施の形態について、図１
から図１２を用いて説明する。（実施の形態１）まず、本発明の請求項１に記載の発明
について、具体的に説明する。図１は「いぬ」と「いわ
し」という単語をＶＣＶを合成単位として規則合成する
様子を示している。この図において１０２、１０５、１
０６がＶＣＶの合成単位である。１０１、１０４は語頭
用、１０３、１０７は語尾用の合成単位である。今まで
のＣＶ、ＶＣＶ、ＣＶ／ＶＣ、ＣＶ／ＶＣＶなどを合成
単位とする波形重畳方式の合成方法では、それぞれの合
成単位となる音声片ごとに波形データを蓄積し、その音
声片にのみ、その波形データを利用していた。つまり、
１０２の［ｉｎｕ］で使用される波形データは［ｉｎ
ｕ］という音声片が必要な時にのみ利用され、他の音声
片に利用されることはなかった。

【００１５】このとき、音声片の波形データをピッチ波
形程度にまで分割すると、多くのピッチ波形において、
他の音声片に含まれるピッチ波形の中から非常に似通っ
たものを探しだすことができる。図１では、１０２の
「ｉｎｕ」と１０５の「ｉｗａ」を、それぞれピッチ
波形１１０〜１１９と１２０〜１２９にまで分割し、そ
れぞれの音声片のはじめのピッチ波形が非常に似通った
場合を示している。このとき、ピッチ波形１１１と１２
０を別々の波形データとして蓄積するのではなく、どち
らか１つのピッチ波形を代表ピッチ波形とし、ピッチ波
形ＩＤ（波形データベースの中から代表ピッチ波形を識
別するための記号）を付与して、波形データベースに蓄
積し、ＶＣＶやＣＶ／ＶＣＶなどの合成単位としては、
これらの代表ピッチ波形のピッチ波形ＩＤを記録してお
くことにより、ピッチ波形の共有化を行うことができ
る。当然、１つの音声片の中で似通ったピッチ波形があ
れば、これらも１つの代表ピッチ波形を波形データに蓄
積する。

【００１６】このように、本実施の形態１によれば、ピ
ッチ波形を共有化することにより、波形データベースを
飛躍的に縮小することが可能となる。

【００１７】（実施の形態２）次に、本発明の請求項２
に記載の発明について、具体的に説明する。図２は請求
項２に記載の音声合成装置を示すブロックの構成図であ
る。図２において、２０１は読み入力手段、２０２は韻
律計算手段、２０３はピッチ波形選択手段、２０４は音
声片合成手段、２０５は音声片接続手段、２０６は合成
音声出力手段、２０７はピッチ波形ポインタテーブル、
２０８はピッチ波形データベース、２０９は無声音波形
データベースである。

【００１８】読み入力手段２０１では漢字仮名交じりの
文章や、発音表記などの情報が入力される。その入力に
対して、必要な音声片の種別、ピッチパターン、継続時
間長、パワーパターンなどの韻律をどのようにするのか
を韻律計算手段２０２で計算する。この計算された韻律
情報に従ってピッチ波形選択手段２０３が、ピッチ波形
ポインタテーブル２０７を参照して計算された音韻継続
時間長とパワーを持つ音声片を構成するのに必要なピッ
チ波形を選択する。音声片合成手段２０４では、この選
択されたピッチ波形をピッチ波形データベース２０８か
ら引き出し、無声区間では従来通り、無声音波形データ
ベース２０９から無声音波形データを引き出して、韻律
情報に従って音声片を合成する。この合成された音声片
を音声片接続手段２０５で接続し、合成音声を作成し、
合成音声出力手段２０６で合成音声を出力する。

【００１９】図３にピッチ波形ポインタテーブル２０７
の構成を示す。このピッチ波形ポインタテーブル２０７
には、音声片毎にその音声片を構成するピッチ波形のＩ
Ｄが記載されている。ピッチ波形が共有される場合に
は、その共有される音声片の欄にも同じピッチ波形ＩＤ
が記載されることになる。また、ピッチ波形ポインタテ
ーブル２０７には、ピッチ波形選択時に必要となる音声
片のラベリング情報も同時に記載しておく。図３は最も
簡単な例であり、先行する母音部分のピッチ波形の数
と、子音部分のピッチ波形の数と、後続する母音部分の
ピッチ波形の数を記載したものである。

【００２０】（実施の形態３）次に、本発明の請求項３
に記載の発明について、具体的に説明する。音声片を、
似通った波形毎に分類しようとするとき、例えば、ＶＣ
Ｖ音声片の“ａｋａ”の“ａ”や“ｋ”の部分という分
類を行うと、音韻ごとに分類することはできるが、それ
以上の細かな分類はできない。例えば、ＶＣＶ音声片の
“ａｍａ”などでは、“ａ”から“ｍ”に遷移する部分
では同じ“ａ”に分類されていても、先頭の部分は単独
発声の“ａ”に似たスペクトルをしているが、後部では
“ｍ”の影響を大きく受けた“ａ”のスペクトルにな
る。そこで、音声片を適当に細かく分割し、これをパワ
ースペクトルやＬＰＣケプストラムなどのスペクトルパ
ラメータを求め、これを基準にして分類を行えば、さら
に細かく、正確な分類が可能になる。ここでは、パワー
スペクトル包絡を基準にして分類を行う場合を説明す
る。

【００２１】一般にパワースペクトル包絡を求めるに
は、図４（ａ）に示す計算が必要である。まず同期波形
４０１に対して、４０２でフーリエ変換を行い、４０３
でその対数パワースペクトル（図５の５０１）を求め、
さらに４０４でフーリエ変換、４０５でリフタリング、
４０６でフーリエ逆変換を行い、スペクトル包絡４０７
（図５の５０２）を求める。しかし、分析する対象がピ
ッチ波形の場合には、図４（ｂ）に示すように、ピッチ
波形４１１に対して、４１２でフーリエ変換を行い、４
１３で対数パワーを求めれば、そのスペクトル包絡４１
４が求められる。このことに着目し、音声波形を従来行
われてきたように数十ミリ秒程度の分析窓長で分析する
のではなく、ピッチ波形に切り出してからパワースペク
トル包絡を計算する。そして、このパワースペクトル包
絡を分類尺度として音韻を分類すれば、少ない計算量で
正確な分類が行える。

【００２２】（実施の形態４）次に、本発明の請求項４
に記載の発明について、具体的に説明する。図６に代表
するピッチ波形の選択方法の様子を示す。６０１、６０
２、６０３、６０４は合成単位となる音声片を示してい
る。この図では語尾に使用される音声片６０４につい
て、その代表ピッチ波形選択の様子が示されている。音
声片６０４の後半部分から切り出されたピッチ波形は、
比較的パワースペクトルが似通っていると判断されるも
のどうしを集めてグループ６１０と６２０に分類され
る。そして、グループ６２０から代表して１つのピッチ
波形をデータベースに登録する際に、もし、振幅の小さ
いピッチ波形６２５のような波形を選択してしまうと、
振幅の大きいピッチ波形６２１などに代用する際にＳ／
Ｎが低下してしまう。そこで、それぞれのピッチ波形の
最大振幅をグループ内で比較し、最も大きいピッチ波形
を代表ピッチ波形とする。例えば、グループ６１０では
６１１を代表ピッチ波形として選択し、グループ６２０
では６２１を代表ピッチ波形として選択する。これによ
り、データベース全体のＳ／Ｎを改善することが可能に
なる。当然、グループの中には他の音声片のピッチ波形
も存在するので、録音の際にＳ／Ｎの低い音声片があっ
ても、他の音声片から抽出されたＳ／Ｎの高いピッチ波
形で代用される部分があるので、本来よりもＳ／Ｎの高
いデータベースを構成することができる。

【００２３】（実施の形態５）次に、本発明の請求項５
に記載の発明について、具体的に説明する。図７はグル
ープ分けされたピッチ波形から代表ピッチ波形を選択す
る方法を示している。図７において、７１０、７２０、
７３０、７４０、７５０は音韻により分類されたグルー
プを示している。このグループの中から代表するピッチ
波形を選択する際、グループを越えて位相特性が似通っ
た波形を選択する。この図では正の方向の最大振幅が、
切り出されたピッチ波形の中でなるべく中央にあるもの
を選択している。すなわち、グループ７１０では、ピッ
チ波形７１１〜７１４のうち７１４、グループ７２０で
は、ピッチ波形７２１〜７２４のうち７２２、グループ
７３０では、ピッチ波形７３１〜７３４のうち７３３、
グループ７４０では、ピッチ波形７４１〜７４４のうち
７４３、グループ７５０では、ピッチ波形７５１〜７５
４のうち７５１が、それぞれ代表ピッチ波形として選択
される。当然ことながら、それぞれのピッチ波形の位相
特性をフーリエ変換などで分析し、さらに厳密に選択す
ることも可能である。

【００２４】このようにして代表ピッチ波形を選択する
ことにより、それぞれ別々の音声片からピッチ波形をか
き集めてきても、位相特性が似通ったピッチ波形が隣合
うことになるので、位相特性が異なることによる音質の
劣化を防ぐことができ、品質が向上する。

【００２５】（実施の形態６）次に、本発明の請求項６
に記載の発明について、具体的に説明する。図８はピッ
チ波形データベース８１０（図２の２０８）の構造を示
している。音韻別グループ８２０、８３０、８４０、…
は、パワースペクトルなどの音韻によって分類したグル
ープである。これらのグループからただ１つの代表ピッ
チ波形を決定するのではなく、さらに、ピッチ波形のピ
ッチ周期長によってサブグループ８２１〜８２９、８３
１〜８３４、８４１・・・に分類する。そして、これら
サブグループの中から代表して１つのピッチ波形をデー
タベースに蓄積する。

【００２６】音声片を合成する際には、合成しようとす
るピッチパターンに合わせてピッチ波形の間隔を変更す
る必要がある。このときに、その音声片から切り出した
ピッチ波形またはこのピッチ波形に似通った他の音声片
から切り出したピッチ波形を利用して音声片を合成する
よりも、合成するピッチ周期に見合ったピッチ波形を利
用した方が、ピッチ変更による品質の劣化を抑制するこ
とができる。そこで、まず音韻を合わせるために音韻別
グループを決定し、その中のサブグループの中で合成す
るピッチ周期に見合った代表ピッチ波形を利用して音声
片を合成する。これにより、ピッチ変更する際の品質の
劣化を抑制することができる。

【００２７】（実施の形態７）次に、本発明の請求項７
に記載の発明について、具体的に説明する。図９は請求
項７に記載の音声合成装置の構成を示すブロック図であ
る。図９において、９０１は読み入力手段、９０２は韻
律計算手段、９０３はピッチ波形選択手段、９０４は音
声片合成手段、９０５は音声片接続手段、９０６は合成
音声出力手段、９０７はピッチ波形ポインタテーブル、
９０８は無声音波形データベース、９０９はピッチ波形
データベースである。ピッチ波形データベース９０９
は、音韻別データベース９１０、９２０... からなり、
各音韻別データベースは、ピッチ周期別データベース９
１１〜９１９、９２１、９２２... のようなサブグルー
プに分類されている。

【００２８】読み入力手段９０１では漢字仮名交じりの
文章や、発音表記などの情報が入力される。その入力に
対して、必要な音声片の種別、ピッチパターン、継続時
間長、パワーパターンなどの韻律をどのようにするのか
韻律計算手段９０２で計算する。この計算された韻律情
報に従ってピッチ波形選択手段９０３が、ピッチ波形ポ
インタテーブル９０７を参照して音声片を構成するのに
必要なピッチ波形を選択する。その際、音韻により音韻
別データベースを決定し、合成するピッチ周期によりそ
の中のサブグループを決定する。音声片合成手段９０４
では、この選択されたピッチ波形をデータベース９０９
から引き出し、無声区間では従来通り、無声音波形デー
タベース９０８から無声音波形データを引き出して、韻
律情報に従い音声片を合成する。この合成された音声片
を音声片接続手段９０５で接続し、合成音声を作成し、
合成音声出力手段９０６で合成音声を出力する。

【００２９】図１０にピッチ波形ポインタテーブル９０
７の構成を示す。ピッチ波形ポインタテーブルは音声片
毎にそれぞれ存在し、ここではＶＣＶ「いぬ」の場合を
示している。ここで、［ｉ１００］や［ｎ１００］は、
ピッチ波形ＩＤである。網掛けされた部分のピッチ波形
ＩＤは、元々この音声片から切り出されたピッチ波形ま
たはそのピッチ波形に似通った他の音声片から切り出さ
れたピッチ波形のＩＤである。したがって、この表にお
いてピッチ波形ＩＤの縦方向の欄に必ず１つ存在する。
しかし、それ以外の欄には、該当するピッチ波形が存在
する保証はないので、空欄になる可能性がある。このよ
うな、空欄のピッチ波形ＩＤが参照される場合には、最
も近くの欄に記載されているピッチ波形ＩＤを参照すれ
ばよい。また、ピッチ波形ポインタテーブル９０７に
は、ピッチ波形選択時に必要となる音声片のラベリング
情報も同時に記載しておく。図１０は最も簡単な例であ
り、先行する母音部分のピッチ波形の数と、子音部分の
ピッチ波形の数と、後続する母音部分のピッチ波形の数
を記載したものである。

【００３０】（実施の形態８）次に、本発明の請求項８
に記載の発明について、具体的に説明する。ＶＣＶなど
を合成単位とする場合に、音声片ごとに波形データを構
成すると、似通った無声音が多く波形データベースに蓄
積されるため、波形データベースが冗長になる。そこ
で、この無声音波形データを音声片間で共有することに
より、波形データベースの縮小が行える。図１１は別々
の音声片で無声音波形を共有する概念図である。ここで
は、ＶＣＶを合成単位として音声片「ａｋａ」１１０２
と音声片「ｉｋａ」１１０５の破裂部分の「ｋ」を共有
している。

【００３１】図１２はこの音声合成装置の構成図であ
る。図１２において、１２０１は読み入力手段、１２０
２は韻律計算手段、１２０３はピッチ波形選択手段、１
２０４は音声片合成手段、１２０５は音声片接続手段、
１２０６は合成音声出力手段、１２０７はピッチ波形ポ
インタテーブルである。１２０８は音韻別無声音波形デ
ータベースであり、無声音波形データベース１２９１〜
１２９９からなる。１２０９はピッチ波形データベース
であり、音韻別データベース１２１０、１２２０・・・
からなり、各音韻別データベースは、ピッチ周期別デー
タベース１２１１〜１２１９、１２２１、１２２２・・
・のようなサブグループに分類されている。

【００３２】この装置においはて、無声音波形がいくつ
かのグループ１２９１〜１２９９に分類されている点が
大きな特徴である。従来の無声音波形データベースの構
築方法は、予めデータベースに蓄積する音声片ごとに録
音し、それをそのままあるいは圧縮を行ってデータベー
スに蓄積していたが、本装置では、録音はそれぞれの合
成単位とする音声片ごとに録音し、その録音された音声
片から無声音波形を切り出し、似通った波形ごとに分類
してグループ毎に代表となる１つの無声音波形だけをデ
ータベースに蓄積する点が従来の装置と大きく異なる。

【００３３】

【発明の効果】以上のように本発明によれば、合成単位
とするすべての音声片の有声区間をピッチ波形に分解
し、似通ったピッチ波形ごとにグループ分けを行い、グ
ループ毎に代表となる１つのピッチ波形だけをデータベ
ースに蓄積し、音声片間でピッチ波形を共有することに
より、データベースを削減し、有声音の部分ではピッチ
変換も音質を落とさずに行うことができるという有利な
効果が得られる。

【図面の簡単な説明】

【図１】本発明の実施の形態１における音声合成方法の
概念図

【図２】本発明の実施の形態２における音声合成装置の
構成を示すブロック図

【図３】実施の形態２におけるピッチ波形ポインタテー
ブルの構成を示す模式図

【図４】本発明の実施の形態３におけるパワースペクト
ル包絡を求めるためのフロー図

【図５】実施の形態３における対数パワースペクトルの
周波数特性図

【図６】本発明の実施の形態４におけるピッチ波形選択
方法の概念図

【図７】本発明の実施の形態５におけるピッチ波形選択
方法の概念図

【図８】本発明の実施の形態６におけるピッチ波形デー
タベースの構造を示す模式図

【図９】本発明の実施の形態７における音声合成装置の
構成を示すブロック図

【図１０】実施の形態７におけるピッチ波形ポインタテ
ーブルの構成を示す模式図

【図１１】本発明の実施の形態８における無声音波形を
共有する場合の概念図

【図１２】実施の形態８における音声合成装置の構成を
示すブロック図

【符号の説明】

２０１、９０１、１２０１読み入力手段２０２、９０２、１２０２韻律計算手段２０３、９０３、１２０３ピッチ波形選択手段２０４、９０４、１２０４音声片合成手段２０５、９０５、１２０５音声片接続手段２０６、９０６、１２０６合成音声出力手段２０７、９０７、１２０７ピッチ波形ポインタテーブ
ル２０８、９０９、１２０９ピッチ波形データベース２０９、９０８、１２９１、１２９９無声音波形デー
タベース９１０、９２０音韻別データベース９１１、９１２、９１９、９２１、９２２ピッチ周期
別データベース１２０８音韻別無声音波形データベース

Claims

【特許請求の範囲】

【請求項１】ＣＶ、ＣＶ／ＶＣ、ＶＣＶ、ＣＶ／ＶＣ
Ｖのような音声片を変形、接続して音声を合成する波形
重畳方式の音声合成方法において、合成単位として利用
する音声片の原音声波形すべてから予めピッチ波形を切
り出し、このピッチ波形全体に対し、似通った波形毎に
いくつかのグループ分けを行い、それぞれのグループを
１つのピッチ波形で代表させ、これらの代表ピッチ波形
を使って音声を合成する音声合成方法。
【請求項２】合成しようとする音声の読みを入力する
手段と、その読みの入力からＣＶ、ＣＶ／ＶＣ、ＶＣ
Ｖ、ＣＶ／ＶＣＶといった合成単位の音声片を選択し、
韻律を計算する手段と、計算した韻律に従って、ピッチ
波形および無声音波形をどのように組み合わせたら合成
単位となる音声片が構成できるかを示したテーブルを参
照してピッチ波形を選択する手段と、選択されたピッチ
波形をピッチ波形データベースおよび無声音波形データ
ベースから引き出して韻律情報に従って音声片を合成す
る手段と、合成された音声片を接続して音声を合成する
手段と、合成された音声を出力する手段とを備えた音声
合成装置。
【請求項３】ピッチ波形のスペクトルパラメータを基
準として、類似性を判断してグループ分けを行う請求項
１に記載の音声合成方法。
【請求項４】グループ分けされたピッチ波形の中か
ら、ピッチ波形のパワーが最大のものをそのグループを
代表するピッチ波形とする請求項１に記載の音声合成方
法。
【請求項５】グループ分けされたピッチ波形の中から
代表するピッチ波形を選択する際に、全てのグループの
代表ピッチ波形の位相特性が似通ったものとなるように
選択する請求項１に記載の音声合成方法。
【請求項６】スペクトルパラメータなどを基準として
似通った波形毎にいくつかのグループ分けを行い、さら
にそれぞれのグループの中でピッチ波形の長さを基準と
してサブグループを作成し、サブグループの中で代表し
て１つのピッチ波形だけをデータベースに格納し、音声
片のピッチ変更を行う場合には、合成しようとするピッ
チ周期に見合ったサブグループの代表ピッチ波形を利用
する請求項１記載の音声合成方法。
【請求項７】ピッチ波形データベースが、ピッチ波形
が周波数パワースペクトルのような音韻を区別できる基
準でグループ分けされ、さらにそのグループがピッチ波
形の長さを基準としてサブグループ分けされ、サブグル
ープの中で代表して１つのピッチ波形だけが格納されて
おり、音声片を合成する際に、合成しようとする音声片
のピッチ周期に見合った１つの代表ピッチ波形をサブグ
ループから抽出することを特徴とする請求項２に記載の
音声合成装置。
【請求項８】無声音部分についても同じ音韻カテゴリ
ーで無声音波形を共有することを特徴とする請求項７に
記載の音声合成装置。