JP3089940B2

JP3089940B2 - 音声合成装置

Info

Publication number: JP3089940B2
Application number: JP06050890A
Authority: JP
Inventors: 孝浩釜井; 謙二松井
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1993-03-24
Filing date: 1994-03-22
Publication date: 2000-09-18
Anticipated expiration: 2015-09-18
Also published as: JPH07152396A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、任意のテキストを音声
に変換する音声合成装置に関する。

【０００２】

【従来の技術】任意のテキストを音声に変換する音声合
成方式には、大きく分けて２種類ある。一つは音声の発
声機構、即ち、声帯や口、喉の動きを理解し、その知識
を規則にして電気回路などを制御する合成方式である。
もう一つの方式は、音声の知識はあまり必要とせず、音
声の素片をたくさん用意して入力に応じて適した素片を
つなぎあわせる方式である。前者には、例えばホルマン
ト合成方式とホルマント制御規則の組合せがよく知られ
ている。図４は、このホルマント合成方式とホルマント
制御規則の組合せの構成例である。同図において、ホル
マント合成器制御規則格納部９はホルマント合成器を制
御するための複数の規則を格納する部分、ホルマント合
成器制御用係数生成部８は、前記の制御規則に基づいて
ホルマント合成器を制御するための係数を生成する部
分、ホルマント合成器１０は実際に音声を合成する部
分、有声音源部１は声帯の振動を模擬する部分、直列型
ホルマント合成部２はホルマント共振器を直列に接続
し、母音や鼻音などの有声音を合成する部分、無声音源
部６は摩擦音や破裂音などの合成に必要な乱流雑音源、
並列型ホルマント合成部７は共振器が並列に接続され摩
擦音や破裂音などの無声子音部分を合成する。合成部５
は直列型ホルマント合成部２の出力と並列型ホルマント
合成部７の出力を合成し合成音を出力する部分である。

【０００３】音声合成に必要な発音記号、アクセント位
置、イントネーションに関する情報などがホルマント合
成器制御用係数生成部８に入力されると、ホルマント合
成器制御用係数生成部８はホルマント合成器制御規則格
納部９から必要な規則を参照し、ホルマント合成器制御
用係数をホルマント合成器１０に出力する。ホルマント
合成器１０の内部において、以下のように動作する。有
声音源部１は母音などの有声音を合成する時に人間の声
帯で生じるパルス状の音源波形を模擬する。このパルス
状の信号は直列型ホルマント合成部２に入力され、直列
型ホルマント合成部２は、複数のホルマント共振器によ
って音源波形に母音や鼻音として適切な特徴を与え、合
成部５に出力する。一方、無声音源部６は摩擦音や破裂
音の音源となる雑音状の波形を並列型ホルマント合成部
７に送り、並列型ホルマント合成部７で複数の共振器に
よりそれぞれの子音に必要な周波数的特徴を瞬時に形成
し、合成部５に出力する。合成部５は、直列型ホルマン
ト合成部２の母音や鼻音と並列型ホルマント合成部７の
子音を合成し合成音声として出力する。

【０００４】次に、もう一つの従来例である波形素片
（音声素片）を用いる方式を説明する。図５はこの方式
の構成図である。波形素片選択部１１は入力である発音
記号列やアクセント情報から合成に必要な波形素片を波
形素片データベース格納部１２から選択する。この場
合、波形素片は例えば線形予測係数などのような係数に
圧縮されて格納されているのが通常である。選択された
複数の波形素片は素片接続合成部１３で接続され適切な
基本周波数で音声波形に合成される。

【０００５】

【発明が解決しようとする課題】ところで、我々発明者
は、上記２つの方式を検討した結果、それらの２つの方
式には、次に示すような異なる特徴があることを見いだ
した。

【０００６】すなわち、前者の方式の長所は、音をすべ
て規則で作り上げるので柔軟性に富み様々な音質やイン
トネーションの音声を合成できることである。短所とし
ては、特に子音などのように発声メカニズムが複雑な音
声は合成規則がまだ十分研究されていないのが現状で、
自然な音質の子音生成が難しい点である。

【０００７】また、後者の方式の場合の長所は、波形素
片が基本的にモデルとなる自然音声から切り出されてい
るので素片間の滑らかな接続が出来れば合成品質は極め
て高い。一方、この方式の短所は波形素片格納に大容量
の記憶装置が必要であるのでコストが高くなる。また、
モデル音声の声質しか合成できず、柔軟性に欠けるとい
う問題がある。

【０００８】まとめると、音をすべて規則で作り上げる
方式の場合は、柔軟性に富み様々な音質やイントネーシ
ョンの音声を合成できるが、子音などのように発声メカ
ニズムが複雑な音声は合成規則がまだはっきりしていな
いので合成が難しい。一方、波形素片を用いた方式の場
合は、合成品質は極めて高いが、波形素片格納に大容量
の記憶装置が必要という問題や、モデル音声の声質しか
合成できず、柔軟性に欠けるという問題がある。

【０００９】本発明の目的は、音質の柔軟性に富み、記
憶容量も波形素片を用いる従来方式に比べて大幅に削減
できる、合成品質の高い音声合成装置の提供を目的とす
るものである。

【００１０】

【課題を解決するための手段】請求項１の本発明は、有
声音源信号を出力する有声音源部と、前記有声音源部か
らの有声音源信号を入力とし、複数の直列に接続された
ホルマント共振器を有し、母音など所定の音を合成する
直列型ホルマント合成部と、無声および有声の複数の子
音など所定の音の波形を記憶する波形記憶部と、前記波
形記憶部の中から必要な波形を読み出す波形読み出し部
と、前記直列型ホルマント合成部からの出力と前記波形
読み出し部が読み出す波形とを接続して合成音声として
出力する波形結合部と、を具備する音声合成装置であっ
て、前記波形結合部は接続時に前記直列型ホルマント合
成部からの出力波形と前記波形読み出し部が読み出す波
形を有声音部での波形上のピークの位置を一致させるよ
うにして重ね合わせを行い、徐々に混合比率を変化させ
ることで滑らかに両者の波形を接続することを特徴とす
る音声合成装置である。

【００１１】請求項３の本発明は、有声音源信号を出力
する有声音源部と、音声信号を生成する音生成手段と、
音声から切り出された波形素片を記憶する波形素片記憶
手段と、その記憶された波形素片についての所定の特徴
量を記憶する波形素片特徴量記憶手段と、その記憶され
た波形素片の特徴量に基づき、前記音生成手段により生
成された音声信号と前記波形素片記憶手段から得られる
波形素片信号とを合成させる制御手段とを備えた音声合
成装置であって、前記特徴パラメータは前記波形素片の
子音に後続する母音開始部付近の波形上のピーク位置で
あり、前記有声音源部は前記ピーク位置と同じ位置にピ
ークが発生するようなタイミングで有声音源波形を生成
し、前記音生成手段は前記有声音源信号を入力として母
音音声波形を合成し、前記制御手段は前記ピーク位置付
近で前記母音音声波形と前記波形素片を重ね合わせるこ
とによって両者を接続することを特徴とする音声合成装
置である。

【００１２】請求項１７の本発明は、有声音を生成する
有声音源波形生成手段と直列型ホルマント合成部と子音
を生成する子音波形生成手段と波形を接続する波形接続
手段とピッチ同期信号生成手段を具備し、前記ピッチ同
期信号生成手段は所望のピッチ周期に対応したピッチ同
期信号を出力し、前記有声音源波形生成手段と前記子音
波形生成手段はともに前記ピッチ同期信号に同期した位
相の波形を生成し、前記直列型ホルマント合成部は前記
有声音源波形生成手段の出力波形に声道特性を模擬した
伝達関数にて周波数特性の変更を行い、前記波形接続手
段は前記直列型ホルマント合成部の出力波形と前記子音
波形生成手段の出力波形を接続または混合することによ
り音声波形を生成する音声合成装置である。

【００１３】

【作用】請求項１の本発明では、有声音源部が有声音源
信号を出力し、直列型ホルマント合成部が、有声音源部
からの有声音源信号を入力とし、複数の直列に接続され
たホルマント共振器を有し、母音など所定の音を合成
し、波形記憶部が複数の子音など所定の音の波形を記憶
し、波形読み出し部が、前記波形記憶部の中から必要な
波形を読み出す。また、波形結合部が、前記直列型ホル
マント合成部からの出力と前記波形読み出し部が読み出
す波形とを重ね合わせたり、切り替えたりして合成音声
として出力する。

【００１４】請求項３の本発明では、音生成手段が、音
声から抽出された特徴パラメータに基づいて、音声信号
を生成し、波形素片記憶手段が、音声から切り出された
波形素片を記憶し、波形素片特徴量記憶手段が、その記
憶された波形素片についての所定の特徴量を記憶し、制
御手段が、その記憶された波形素片の特徴量に基づき、
前記音生成手段により生成された音声信号と前記波形素
片記憶手段から得られる波形素片信号とを合成させる。

【００１５】請求項１７の本発明では、ピッチ同期信号
生成手段は所望のピッチ周期に対応したピッチ同期信号
を出力し、有声音源波形生成手段と前記子音波形生成手
段はともにピッチ同期信号に同期した位相の波形を生成
し、直列型ホルマント合成部は有声音源波形生成手段の
出力波形に声道特性を模擬した伝達関数にて周波数特性
の変更を行い、波形接続手段は直列型ホルマント合成部
の出力波形と子音波形生成手段の出力波形を接続または
混合することにより音声波形を生成する。

【００１６】

【実施例】以下、本発明の実施例について図面を参照し
て説明する。

【００１７】図１は本発明の第１の実施例における音声
合成装置の構成を示すものである。以下の実施例では、
おもに日本語を対象として説明するが、支障の無い限り
英語等他の言語にも適用可能である。同図において、有
声音源部１は、声帯の振動を模擬し音源信号を生成する
部分である。直列型ホルマント合成部２は、母音などの
有声音を合成する部分である。子音波形記憶部３は、自
然な音声から切り出した子音の波形素片を格納する部
分、子音波形読み出し部４は必要な波形素片を選択し取
り出す部分、合成部５は直列型ホルマント合成部２の出
力と子音波形読み出し部４の出力を合成し、合成音声と
して出力する部分である。

【００１８】上記のように構成された本実施例の音声合
成装置について以下にその動作を説明する。

【００１９】従来例で説明したように本合成装置に対し
て先ずホルマント合成器制御用係数が与えられる。有声
音源部１は、ホルマント合成器制御用係数の中の基本周
波数に関する情報、音源の振幅情報に関する情報などか
ら所望の音源信号を生成し、直列型ホルマント合成部２
に入力する。子音区間や無声区間では、音源信号は出力
されない。直列型ホルマント合成部２は、ホルマント合
成器制御用係数の中のホルマント周波数情報、ホルマン
ト共振峰のバンド幅に関する情報、などから直列に並ん
だ共振器の特性を決定し、上記の音源信号から母音など
の音声信号に変換する。直列型ホルマント合成部２の出
力は合成部５に送られる。一方、ホルマント合成器制御
用係数の中の音素に関する情報から子音波形読み出し部
４は、その音素が子音波形記憶部３に存在するかどうか
を確認して、もし存在すればその波形素片を子音波形記
憶部３から取り出し、合成部５に送る。例えば、図２に
示すように、合成しようとする音素が「ｋ」で後続母音
が「あ」の場合、子音波形読み出し部４は、子音波形記
憶部３の中に子音「ｋ」で「か」から切り出した波形素
片があるか検索する。合成部５は、直列型ホルマント合
成部２からの母音信号と子音波形読み出し部４の子音信
号を加算処理や重ねあわせ処理などにより合成する。こ
のように構成することにより、母音に関してはホルマン
ト合成方式により柔軟で様々な音質やイントネーション
を付与でき、子音に関しては波形素片を用いた方式によ
りホルマント合成方式では実現出来ない高品質な音声を
提供できる。波形素片としての格納は持続時間の短い子
音に限るため小容量の記憶装置で実現が可能である。

【００２０】次に、図３を参照しながら、上記方式の特
長を保持し、且つ、波形素片の種類を減らすことができ
必要な記憶容量の削減が可能な本発明の第２の実施例に
おける音声合成装置を説明する。

【００２１】同図において、無声音源部６は、子音の音
源となる部分、並列型ホルマント合成部７は前記無声音
源部６からの信号を複数の並列に接続された共振器によ
り破裂音や摩擦音などの子音を合成する部分である。他
の手段は、第１の実施例と同様である。

【００２２】上記のように構成された本実施例の音声合
成装置について以下その動作を説明する。

【００２３】第１の実施例と同様に、本合成装置に対し
て先ずホルマント合成器制御用係数が与えられ、有声音
源部１と直列型ホルマント合成部２によって母音性信号
に変換し合成部５に送られる。さらに、子音の中でホル
マント合成方式で十分高品質が実現できるものに関して
は、無声音源部６と並列型ホルマント合成部７が取り扱
う。即ち、与えられたホルマント合成器制御用係数の中
の無声音源に関する情報に基づいて無声音源部６が雑音
性信号の振幅、タイミングなどを調整し並列型ホルマン
ト合成部７に送る。並列型ホルマント合成部７では合成
しようとする子音の周波数特徴に関する情報などを基に
並列に並べられた共振器によって雑音性信号が所望の子
音性信号に変換され合成部５に渡される。子音波形読み
出し部４と子音波形記憶部３は第１の実施例と同様に、
上記並列型ホルマント合成部７で取り扱わない子音を波
形素片データベースから検索し、それを合成部５に送
る。合成部５は、第１の実施例と同様に、直列型ホルマ
ント合成部２からの母音性信号と子音波形読み出し部４
からの子音性信号あるいは並列型ホルマント合成部７か
らの子音性信号を加算処理や重ねあわせ処理などにより
合成する。このように構成することにより、子音の中で
ホルマント合成方式で十分高品質が実現できるものに関
しては、無声音源部と並列型ホルマント合成部が利用で
き、波形素片格納に必要な記憶容量の削減が可能にな
る。

【００２４】また、並列型ホルマント合成部７と子音波
形読み出し部９を同時に駆動することにより、例えば、
ある波形素片の破裂部分を並列型ホルマント合成部７の
信号によってさらに強調するなど、雑音環境下などで明
瞭度を自然音声以上に高めることが可能になる。

【００２５】次に、本発明の別の実施例に付いて説明す
る。

【００２６】上記子音波形記憶部には自然音声波形から
子音部分を切り出したものが格納されている。無声子音
の場合は破裂部分や摩擦部分などの子音部分を有声音部
分すなわち声帯振動が開始した後の部分と切り離すこと
が可能で、それらのみを格納しておくことにより同一の
素片を任意のピッチの合成に使用することが可能であ
る。しかし、有声子音は子音部分を有声音部分と分離す
ることが出来ないので、声帯振動が開始した後の波形を
素片に含めなくてはならない。

【００２７】また、一般に子音の知覚のためのキューは
後続母音にも含まれている。したがって、子音波形素片
に後続母音の冒頭部分を含めることにより音質を向上さ
せることが出来る。

【００２８】したがって、子音波形素片と直列型ホルマ
ント合成波形を後続母音部分で接続しなくてはならな
い。この時、例えば子音波形素片の途中で瞬間的に直列
型ホルマント合成波形に切り替えると波形不連続が発生
し、インパルス性の雑音が発生する。

【００２９】所定の区間幅でなめらかな重ね合わせを行
う方法が考えられる。すなわち、子音波形素片をなめら
かに減衰させるとともに、直列型ホルマント合成波形を
なめらかに立ち上げる。後続母音部分の先頭１〜２ピッ
チ周期を子音波形素片に含め、１ピッチ周期程度の区間
幅で重ね合わせを行えば、ピッチを考慮せずに子音波形
素片を用いることができる。

【００３０】しかし、上記の方法で接続を行っても両者
の波形のタイミングを制御しなければ位相不連続が起こ
り、音質劣化が起こる。例えば、同じピッチを持つ子音
波形素片と直列型ホルマント合成波形を接続すると、両
者のタイミングが正確に制御されていなければ接続点付
近でピッチ周期が瞬間的に変化する。これは言い替えれ
ば両者の位相が異なるためである。

【００３１】また、そのほかにも子音の発音（出力）タ
イミングを正確に制御しなければ音韻性が損なわれ、例
えば「さ」が「つぁ」に変化してしまうなどの問題が発
生する。

【００３２】そこで、次の実施例では上記の問題を解決
するために子音波形素片にラベルを付与し、それをもと
に接続点での波形タイミングを制御する構成を取る。

【００３３】すなわち、図６は本発明にかかる第３の実
施例の音声合成装置の構成図である。すなわち、音声合
成装置には有声音生成部１４および子音波形生成部１７
が設けられ、それら有声音生成部１４と子音波形生成部
１７には、音声波形の生成を制御する制御部２１が接続
されている。その制御部２１には、子音波形生成部１７
の子音波形記憶部１９に記憶されている各子音素片に付
けられたラベルを記憶する子音波形ラベル記憶部１８が
接続され、又、有声音生成部１４と子音波形生成部１７
の出力は合成部２２を介して出力部２０に並列に接続さ
れている。又、有声音生成部１５の内部には有声音源部
１５及び直列型ホルマント合成部１６が設けられ、有声
音源部１５の出力は直列型ホルマント合成部１６に接続
され、直列型ホルマント合成部１６の出力は有声音生成
部１４の出力として合成部２２へ接続されている。ここ
で、前述の有声音生成部１４が音生成手段であり、子音
波形記憶部１９が波形素片記憶手段であり、子音波形ラ
ベル記憶部１８が波形素片特徴量記憶手段である。

【００３４】上述の子音波形ラベル記憶部１８には必要
な全ての子音素片に対し、図７に示すように、特徴量と
して波形のタイミングを表すラベルが記憶されている。
図７は無声子音素片に対するラベル付与方法の説明図で
ある。図７においてstrtは「開始ラベル」、brstは「バ
ーストラベル」、sovは「ボイシング開始ラベル」、pea
kは「ピークラベル」、endは「終了ラベル」である。特
徴量としてはその他に、gainとmagnという値も記憶され
ている。gainは「利得情報」、magnは「ピーク値情報」
である。

【００３５】ここで、開始ラベル、終了ラベルは文字ど
おり子音素片の発音（出力）開始点、および終了点であ
る。終了ラベルは声帯音源振動の開始後２ピッチ周期の
ゼロクロス点に付けられている。これは後続母音部分に
含まれている子音の特徴を子音素片に含めるためであ
る。できるだけ多くの特徴を子音素片に含めるために、
ピッチ周期数を大きくとりたいが、そうすると子音素片
自身のピッチが強く知覚されるようになる。合成時のピ
ッチがこれと異なるとき、ピッチの不連続を生むために
音質は劣化する。そこで、これらを考慮して子音の特徴
を十分含む範囲でできるだけ少ないピッチ周期数を個々
の子音素片に対して選択する。ピッチ周期数が１または
２の子音素片はピッチの知覚の度合い（ピッチ性と呼
ぶ）が弱いため合成時のピッチを考慮せずにそのまま用
いても差し支えない。ピッチ周期数がそれよりも大きい
子音素片や有声子音などはピッチ性が強いので、合成時
のピッチを考慮する必要がある。そこで、複数のピッチ
の子音素片を用意しておき、合成時にそれらの中から最
も近いピッチのものを選んで用いる方法や、子音素片に
ピッチ変更操作を行う（線形伸縮法やピッチ同期重畳
法）方法などを用いる。

【００３６】バーストラベルは破裂子音の破裂部、摩擦
子音の摩擦部などそれぞれの子音を特徴づける調音が行
われる瞬間（ここではそれらを総称して破裂事象とす
る）に付けられるラベルで、合成時に子音素片の発音タ
イミングを決定するために使用する。

【００３７】ボイシング開始ラベルは子音素片が無声子
音の場合に付けられるラベルである。このラベルは無声
化した子音を合成するために用いられる。無声化とは語
尾や後続の音韻環境によって無声子音の後続母音が消滅
する現象である。無声化した子音を合成するときは子音
素片の発音をこのラベルで終了する。無声化は、本質的
には子音部分の後に声帯が振動するかしないかの差であ
るので、このように声帯振動開始点で発音を停止すれば
再現できる。

【００３８】ピークラベルは終了ラベル直前の波形上の
ピークに付与され、後述する有声音生成部１４と子音波
形生成部１７の出力の同期に用いられる。このピークは
声帯が閉じた瞬間に発生する。

【００３９】子音素片が有声子音の場合にはボイシング
開始ラベルの代わりに音韻性開始ラベルが付与される。
図８は有声子音素片に対するラベル付与方法の説明図で
ある。strt、brst、peak、endは無声子音と同様に付与
されるがボイシング開始ラベルは付与されない。ここで
はsovは音韻性開始ラベルとして使用されている。音韻
性開始ラベルは発音開始位置を開始ラベルから徐々に遅
らせて行ったときに音韻性が変化する直前に付与する。
この位置は一般にバーストラベル以前にあり、破裂音で
は閉鎖区間の中、その他の音韻では閉鎖区間に相当する
区間内にある。閉鎖区間とは破裂音の発音の際に声道の
ある箇所が閉鎖し、声道内圧力を高めている間の波形で
ある。有声子音素片の発音は文の先頭、または休止の直
後では開始ラベルから行い、それ以外（文の途中など、
直前が無音や休止でない場合）では音韻性開始ラベルか
ら行うように制御する。このようにして、文中で閉鎖区
間などが短縮する現象を再現し、文頭と文中の子音素片
を共通にすることを可能にする。

【００４０】利得情報は個々の子音素片が持つ音量の違
いを吸収し、合成時に適切な音量で発音させるための値
である。

【００４１】ピーク値情報はピークラベルを付与された
ピーク波形の振幅を示し、子音素片の振幅包絡と有声音
生成部１４の出力波形の振幅包絡をなめらかに接続する
ために用いる。

【００４２】有声音源部１５は声帯音源波形を発生す
る。この波形は実音声から逆フィルタ法で抽出されたも
のである。逆フィルタ法とは実音声波形に含まれる声道
の影響すなわちホルマントを、声道の逆特性を持ったフ
ィルタ（逆フィルタ）で除去することによって声帯音源
波形を抽出する方法である。こうして得られる波形は微
分声門体積流波形と呼ばれ、声道に加わる音響振動波形
を微分した波形に相当する。従って、この波形は急速に
声帯が閉じた瞬間に上向きの鋭いパルスを発生する。こ
の波形の上向きの鋭いパルスは急速に声帯が閉じること
により発生したものである。

【００４３】次に、上記実施例の音声合成装置の動作に
ついて、図面を参照しながら説明する。

【００４４】まず、合成したい音声が母音の場合、有声
音源部１５はピッチ周期に対応した声帯音源波形を生成
する。自然な音声では母音開始部分でパワーがなだらか
に立ち上がるので、有声音源部１５は出力の振幅を適当
な時定数で立ち上げるように制御する。この音源波形に
直列型ホルマント合成部１６がホルマントを付加するこ
とにより母音となって出力される。

【００４５】次に、合成したい音声が子音の場合につい
て説明する。子音の合成には子音波形生成部１７の出力
とと有声音生成部１４の出力を合わせて用いる。まず、
子音素片の発音タイミングを決定する。音声合成装置に
は刻々と変化する合成パラメータが伝送されてくるが、
この中には音素セグメントの切り替わりに関する情報が
含まれている。たとえば、「ｋａ」という音節の場合は
「／ｋ／」のセグメントと「／ａ／」のセグメントに分
かれる。それらのセグメントの切り替わりをパラメータ
列から取り出し、そこにバーストラベルが一致するよう
に子音波形生成部１７があらかじめ子音素片の発音を開
始する。このようにすることで子音の自然な発音タイミ
ングが生成される。また、子音波形生成部１７は利得情
報を用いて子音素片の出力レベルを制御する。

【００４６】バーストラベルが発音された後、制御部２
１は終了ラベルが訪れるまでの間に、有声音生成部１４
の発音を開始する。このときに、ピークラベルと有声音
源部１５の出力のピークが一致するように有声音源部１
５の発音開始タイミングを制御する。前述したように有
声音源部１５の声帯閉鎖に伴う上向きの鋭いパルスは直
列型ホルマント合成部１６の出力波形上に上向きのピー
クを発生させるので、結果的にピークラベルと直列型ホ
ルマント合成部１６の出力波形のピークは一致する。

【００４７】終了ラベルの１ピッチ周期手前に来た時点
で有声音生成部１４と子音波形生成部１７の出力の重ね
合わせを開始する。すなわち、子音波形生成部１７の出
力を余弦特性で終了ラベルまでの区間で減衰させるとと
もに、有声音生成部１４の出力をその逆の特性で立ち上
げる。この操作により、波形上の不連続は除去される
が、ピークマークによる子音波形生成部１７と有声音生
成部１４の同期が行われているので、ピッチ周期の変動
がない極めてスムーズな波形接続が実現される。

【００４８】また、同時に有声音源部１５の出力振幅立
ち上げの時定数を制御することで、有声音生成部１４と
子音波形生成部１７の出力の振幅包絡をなめらかに接続
する。この制御にはピーク値情報を用いる。すなわち、
ピークラベル時点での有声音生成部１４の振幅が、ピー
ク値情報の表す値になるように時定数を決定すれば良
い。なお、ピーク値は子音素片のピークラベル時点での
値を読みだすことでも得られるので、子音波形ラベル記
憶部１８に記憶しておかなくても構わない。

【００４９】次に、波形接続の様子を図９に示す。図９
は上から有声音源部１５の出力波形、有声音生成部１４
（直列型ホルマント合成部１６）の出力波形、子音波形
生成部１７の出力波形、出力部２０の出力波形（合成波
形）を表している。図９において４つの波形全てに渡っ
て記されている破線は子音素片のピークラベルを表して
いる。有声音源部１５のピークが子音素片のピークラベ
ルと同期する事によって、有声音生成部１４の出力が子
音素片と適正なタイミングで接続されていることがわか
る。

【００５０】同様の波形接続手法は有声音源部１５の出
力波形の後に子音素片を接続する際にも用いることがで
きる。子音素片が有声子音の場合は子音素片開始直後の
波形上のピークなどにピークラベルを付与しておき、こ
のピークラベルを先行する有声音源部１５の出力波形の
ピークに同期させるように制御することでスムーズな接
続ができる。

【００５１】以上のように、接続点での波形不連続及び
ピッチ変動を防ぐために、子音素片にあらかじめラベル
を付与し、これを手がかりとして有声音生成部１４と子
音波形生成部１７の出力の同期をはかるものである。ま
た、無声化のために専用の子音素片を用意する必要をな
くするために、無声化していない通常の子音素片にラベ
ルを付与し、合成時にラベルを利用して無声化を再現す
るものである。そして、音韻性開始ラベルの利用により
文頭と文中で共通の子音素片を用いて合成することを可
能とするものである。

【００５２】その結果、有声音生成部１４の出力と子音
波形生成部１７の出力がなめらか、かつ適正なタイミン
グで接続され、雑音やピッチの不連続のない高品質な音
声を合成することができる。また、無声化や文頭、文中
のための専用の波形素片を用意する必要がなく、共通の
子音素片を用いることができ、記憶容量及び録音作業の
時間を縮小することができる。

【００５３】なお、上記実施例では、波形素片として子
音素片を用いる場合について説明したが、用いる波形素
片はそれ以外の音韻のものでも勿論構わない。

【００５４】また、上記実施例では、制御部２１は、波
形上のピーク位置を一致させるのに有声音源部１５の発
音開始タイミングを制御するようにしたが、これに限ら
ず、有声音源部１５の出力波形及び子音波形生成部１７
の発音時期のいずれか一方、またはその両方を制御する
ようにしても良い。

【００５５】また、上記実施例では、各処理部を専用の
ハードウェアにより構成したが、これに代えて、同様の
機能をコンピュータを用いてソフトウェア的に実現して
も勿論良い。

【００５６】以上これまで、無声子音、有声摩擦音、有
声破裂音などの合成のための構成法について説明した
が、鼻音のように特徴パラメータが相当長い時間長にお
よぶ音韻については、上記の子音素片の構成では十分な
音質が得られない。前述したように、ピッチを考慮せず
に接続を行うためには素片の長さは十分に短くなければ
ならない。しかし、そのような短い素片の中に鼻音のよ
うな長時間におよぶ特徴パラメータの変化を含めること
は不可能である。また、鼻音以外にも後続母音部分にま
で特徴パラメータが長く存在する音韻は多く、それらに
ついては調音結合を考慮せずにすむ範囲で素片長を長く
することにより音質の向上が期待できる。

【００５７】素片長を長くしたとき、素片と直列型ホル
マント合成波形との接続は母音の中心付近で行われる。
母音の中心付近はスペクトル変化が少ない比較的定常な
部位なので、接続による急速なスペクトル変化が音質に
与える影響は大きい。この問題を解決するためには接続
点での重ね合わせ処理をより長い区間で行うことが効果
的である。

【００５８】しかし、重ね合わせ区間において素片のピ
ッチと合成ピッチが異なる場合、両波形が干渉し、エコ
ーや雑音を発生する。また、長い素片自身がピッチ性を
強く持つために接続前後のピッチ不連続が大きく音質を
損ねる。

【００５９】そこで、合成ピッチに合わせた各種のピッ
チを持つ子音素片を用意しておくことが考えられるが、
十分に精度の高いピッチ整合を行うためには極めて多く
の種類の素片を用意しなくてはならない。また、合成ピ
ッチはイントネーションパターンによって変化してお
り、子音素片の継続時間内にも大きく変化が起こる。こ
のように多様なピッチ変化に対応した子音素片を用意す
ることは実質的に不可能である。

【００６０】そこで、用意した子音素片にピッチ変更操
作を加えることが不可欠になる。ピッチ変更法として簡
単なものには線形伸縮法がある。この方法は記憶された
波形を読み出す際に通常は１サンプルずつを順番に読み
出すところを、１以外の間隔で読み出すことによって時
間軸に沿って伸縮した波形を得る方法である。非整数の
間隔によって記憶波形の読み出し番地が実際には存在し
ない非整数の番地になるので、前後の値から直線を用い
て内挿する。

【００６１】しかし、重ね合わせ区間内でピッチが整合
しても、位相の同期を正確に行うことは困難である。そ
れは、線形伸縮法があくまで原ピッチを元に一定の割合
でピッチ変更を行う方法のため、極めて正確な原ピッチ
およびその揺らぎに関する情報を持っていなければなら
ないからである。このため、上記の実施例による波形同
期方法では長期に渡る位相同期は不可能といえる。ま
た、線形伸縮によるピッチ変更操作はスペクトル形状の
変化を伴うため、音質劣化、音韻性の低下、接続による
スペクトル不連続の発生などの問題を引き起こす。この
ため、原ピッチに比べて極めて小さい範囲でしかピッチ
変更ができない。

【００６２】そこで、次の実施例では上記の問題を解決
するためにピッチ同期重畳法を用い、ピッチ同期信号を
用いて常に波形の位相同期をはかる方法をとる。

【００６３】図１０は本発明にかかる第４の実施例の音
声合成装置の構成図である。その音声合成装置にはピッ
チ制御部１が設けられ、その出力はピッチ同期信号生成
部２４、波形読み出し部２６ａ、２６ｂ、２６ｃ、２６
ｄ、窓掛け部２８ａ、２８ｂ、２８ｃ、２８ｄに接続さ
れている。ピッチ同期信号生成部２４の出力はピッチ同
期信号分配部２４ａおよび遅延部３７に接続されてい
る。ピッチ同期信号分配部２５ａの第１の出力は波形読
み出し部２６ａに、第２の出力は波形読み出し部２６ｂ
にそれぞれ入力されている。遅延部３７の出力はピッチ
同期信号分配部２５ｂに入力され、その第１の出力は波
形読み出し部２６ｃに、第２の出力は波形読み出し部２
６ｄにそれぞれ入力されている。

【００６４】波形読み出し部２６ａ、２６ｂには有声音
源波形記憶部２７とオフセット制御部４１の出力が接続
されている。オフセット制御部４１の入力には有声音源
ピーク位置記憶部２９の出力が接続されている。波形読
み出し部２６ａの出力は窓掛け部２８ａに、波形読み出
し部２６ｂの出力は窓掛け部２８ｂにそれぞれ入力され
ている。窓掛け部２８ａの出力は混合部３１ａに接続さ
れている。窓掛け部２８ｂの出力は利得制御部３０を介
して混合部３１ａに接続されている。混合部３１ａの出
力は利得制御部４０ａを介して直列型ホルマント合成部
３２に入力されている。

【００６５】波形読み出し部２６ｃ、２６ｄには子音波
形記憶部３３、子音波形ピーク位置記憶部３４、および
子音波形ラベル記憶部４２の出力が接続され、波形読み
出し部２６ｃの出力は窓掛け部２８ｃに、波形読み出し
部２６ｄの出力は窓掛け部２８ｄにそれぞれ入力されて
いる。窓掛け部２８ｃおよび窓掛け部２８ｄの出力はと
もに混合部３１ｂに入力されている。混合部３１ｂの出
力は利得制御部４０ｂに接続されている。

【００６６】直列型ホルマント合成部３２および利得制
御部４０ｂの出力は合成部３５に接続され、その出力は
出力部３６に接続されている。

【００６７】続いて、以上のように構成された音声合成
装置の動作について説明する。

【００６８】ピッチ制御部２３がイントネーションパタ
ーンに従って生成したF0パラメータはピッチ同期信号生
成部２４、波形読み出し部２６ａ、２６ｂ、２６ｃ、２
６ｄ、窓掛け部２８ａ、２８ｂ、２８ｃ、２８ｄに伝達
される。ピッチ同期信号生成部２４はF0パラメータに従
った周期のピッチ同期信号を生成し、ピッチ同期信号分
配部２５ａおよび遅延部３７に出力する。

【００６９】それではまずピッチ同期重畳法を用いた有
声音源の生成方法について説明する。

【００７０】ピッチ同期信号分配部２５ａは入力された
ピッチ同期信号を２つの波形読み出し部２６ａ、２６ｂ
に交互に出力する。

【００７１】波形読み出し部２６ａはピッチ同期信号を
受け取ったとき、オフセット制御部４１を通じて有声音
源ピーク位置記憶部２９から最初のピーク位置を読み取
る。オフセット制御部４１は有声音源ピーク位置記憶部
２９の出力にオフセットNoffを加算して出力する。Noff
については後述する。波形読み出し部２６ａはこうして
得られたオフセット付きピーク位置を元に有声音源波形
記憶部２７に記憶された有声音源波形の読み出しを開始
する。読み出し開始位置N0は（数１）で与えられる。

【００７２】

【数１】 N0 = P0 - Noff - Tsyn ここで、P0は有声音源ピーク位置記憶部２９に記憶され
た０番目のピーク位置、TsynはF0パラメータに基づいた
合成ピッチ周期である。

【００７３】波形読み出し部２６ａの出力は窓掛け部２
８ａに入力され、Hanning窓によって窓掛けが行われ
る。Hanning窓の長さTwinは合成ピッチ周期Tsynと有声
音源波形の原ピッチ周期Torgのどちらか小さい方の２倍
である。これは、TwinがTorgの２倍を越えると両隣のピ
ークがHanning窓の中に入ることによる音質劣化を防ぐ
ためである。このようにしてピッチ波形が生成される。

【００７４】この動作よりも１ピッチ周期遅れて波形読
み出し部２６ｂにピッチ同期信号が伝達される。波形読
み出し部２６ｂは先ほどと同様に波形を読み出し、窓掛
け部２８ｂによって窓掛けが行われる。この時の波形読
み出し開始位置は（数２）で与えられる。

【００７５】

【数２】 N1 = P1 - Noff - Tsyn ここで、P1は有声音源ピーク位置記憶部２９に記憶され
た１番目のピーク位置である。

【００７６】窓掛け部２８ｂの出力は利得制御部３０に
おいて０〜１の範囲で利得制御を受ける。この目的は語
頭や語尾などで発生する不安定な声帯振動を模擬するた
めである。すなわち、語頭、語尾においては声帯が１ピ
ッチ周期ごとに大小の振動を繰り返す場合があり、その
結果倍ピッチ周期成分が生まれる。利得制御部３０にお
いて利得を0.5などにすることにより、倍ピッチ周期成
分を発生させることが可能である。

【００７７】以上のようにして交互に生成されたピッチ
波形を混合部３１ａにおいて重ね合わせることにより、
所望のピッチ周期を持った有声音源波形が生成される。
また、個々のピッチ波形は時間軸に対して伸縮されてい
ないのでスペクトル形状の変化は起きない。

【００７８】このようにして生成された有声音源波形は
利得制御部４０ａにおいて振幅の制御を受けた後、従来
通りの直列型ホルマント合成部３２によって調音を受け
て母音成分となる。

【００７９】続いて前述のNoffについて説明する。有声
音源波形のピッチ変更を行うと以下のような理由でスペ
クトル歪を生じる場合がある。逆フィルタ法により抽出
された声門体積流波形は図１１のような構造を持ってい
る。この中で声門開放部波形は低域のエネルギーを持っ
ており、声門閉鎖部波形は高域のエネルギーを持ってい
る。

【００８０】図１２はNoff=0のもとでピッチ周波数を原
ピッチ周波数よりも低く変更した場合の図である。声門
閉鎖部はHanning窓の端に近い部分に位置するため、両
隣のHanning窓が重なり合っている区間が短くなると減
衰する。このために生成された有声音源波形は低域のエ
ネルギー成分が低下する。

【００８１】このことを防ぐために図１３のように声門
閉鎖部をHanning窓の中心からNoffサンプルずらし、声
門開放部がHanning窓の中心に近付くようにする。ただ
し、Noffを大きくし過ぎるとピッチを上げたときに声門
閉鎖部のパルス状波形が減衰し、高域のエネルギーが低
下する。これは、ピッチ周波数を原ピッチ周波数よりも
高く変更したときにHanning窓長が短くなることによ
り、Hanning窓の端に近付いた声門閉鎖パルスが減衰す
るためである。このような理由からNoffは例えば0.1To
程度を用いる。

【００８２】子音の生成過程では有声音源と同様に波形
の読み出しおよび窓掛けが行われるが、その入力である
ピッチ同期信号は遅延部３７によってNoffサンプルの遅
延を受ける。これにより子音波形のピーク位置と有声音
源波形のピーク位置の同期が行われる。また、第３の実
施例と同様に子音波形ラベル記憶部４２に従って発音タ
イミングの制御が行われる。

【００８３】このように互いの同期をとって生成された
母音成分波形と子音成分波形は合成部３５においてなめ
らかに重ね合わせが行われ、出力部３６で音声に変換さ
れて出力される。その結果、子音部分に波形素片を用い
た波形不連続、ピッチ不連続、位相不連続のない極めて
高品質な合成音が得られる。

【００８４】本実施例では有声音源部に単一の有声音源
波形を用いたが、簡単な拡張により複数の音源波形を用
いたさらに高品質な合成音を得ることも可能である。例
えば、高調波成分が多い音源と少ない音源を場合によっ
て混合することや、５母音に対して専用の音源を用意し
ておいて切り替えながら合成することなどが考えられ
る。

【００８５】図１４は本発明にかかる第５の実施例の音
声合成装置の構成図である。その音声合成装置は第４の
実施例における有声音源部３８が５系統設けられた構成
である。すなわち、ピッチ制御部１が設けられ、その出
力はピッチ同期信号生成部２４、有声音源部３８ａ、３
８ｂ、３８ｃ、３８ｄ、３８ｅに入力されている。ピッ
チ同期信号生成部２４の出力はピッチ同期信号分配部２
５ａと遅延部３７に入力されている。ピッチ同期信号分
配部２５ａの２つの出力はそれぞれが有声音源部３８
ａ、３８ｂ、３８ｃ、３８ｄ、３８ｅにそれぞれ２つず
つ設けられた入力に接続されている。有声音源部３８
ａ、３８ｂ、３８ｃ、３８ｄ、３８ｅの内部では第４の
実施例と同様に有声音源が生成され、それらの出力は混
合されて直列型ホルマント合成部３２に入力される。

【００８６】一方、遅延部３７の出力はピッチ同期信号
分配部２５ｂに接続されている。ピッチ同期信号分配部
２５ｂの２つの出力は子音生成部３９に接続されてい
る。子音生成部３９の内部では第４の実施例と同様に子
音波形素片を用いて子音成分が生成される。

【００８７】直列型ホルマント合成部３２と子音生成部
３９の出力は合成部３５に入力され、合成部３５の出力
は出力部３６に入力されている。

【００８８】５つの有声音源部３８ａ〜３８ｅには５母
音／ａ／〜／ｏ／から逆フィルタ法で抽出した声門体積
流波形を格納しておく。逆フィルタ法によって抽出され
る音源波形は５母音によって微妙に異なっている。した
がって、５母音の合成を共通の音源波形から行うより
も、５母音それぞれから抽出した音源波形から行う方が
高品質の音声が合成できる。

【００８９】そこで、母音や音節の区切りでこれらの音
源を切り替えることにより、それぞれの母音の音質を向
上することができる。切り替え時には利得制御部４０ａ
によって互いの音源の利得をなめらかに上下させること
で雑音や異音を抑制することができる。各音源は正確に
ピーク同期されているので、このように重ね合わせや切
り替えをおこなっても極めて自然な音源波形を生成する
ことができる。

【００９０】５母音の音源の原ピッチが互いに異なるこ
とや、それぞれのピッチが揺らぎを含んでいることによ
り、従来の線形伸縮を用いた有声音源部の構成による完
全な同期は極めて困難である。しかし、本発明の構成に
よれば各音源の原ピッチは異なっていてもよく、ピッチ
が揺らぎを含んでいても差し支えない。

【００９１】なお、本実施例では有声音源部を５母音に
対して複数化したが、別の基準で複数化しても勿論構わ
ない。例えば、高調波の多い音源と高調波の少ない音源
による複数化や、ピッチ範囲による複数化、文中の位置
（文頭、文中、文末など）による複数化などである。

【００９２】また、本実施例では全ての有声音源部、子
音部に共通のピッチ同期信号を用いて同期を行ったが、
F0パラメータをもとにそれぞれの部分でピッチ周期を算
出し、波形の読み出しを行ってもかまわない。この場合
には発音開始時に互いの同期をとればよい。

【００９３】また、窓関数は合成ピッチ周期と原ピッチ
周期のいずれか小さい方の２倍の長さのHanning窓とし
たが、他の形状や長さの窓を用いても勿論構わない。

【００９４】

【発明の効果】以上述べたところから明らかなように、
本発明によれば、母音性信号は直列型ホルマント合成方
式により柔軟で様々な音質やイントネーションを付与で
き、子音性信号は波形素片を用いた方式によりホルマン
ト合成方式では実現出来ない高品質な子音を提供できる
ので、それらを組み合わせた合成音は高品質で且つ色々
な声質に対応できる。また、従来の波形素片を用いた方
式に対して、本方式の場合、波形素片としての格納が持
続時間の短い子音に限るため小容量の記憶装置で実現が
可能である。

【００９５】さらに、無声音源部と並列型ホルマント合
成部を設けることにより、子音の中でホルマント合成方
式で十分高品質が実現できるものに関しては、並列型ホ
ルマント合成部が利用でき、波形素片格納に必要な記憶
容量の一層の削減が可能になる。また、並列型ホルマン
ト合成部と波形素片を同時に用いることにより、波形素
片自体の特性を変化させることができ、電話帯域や、雑
音環境化などで明瞭度を確保する場合に有効である。

【００９６】また、本発明は、波形素片の特徴量に基づ
き、音生成手段により生成された音声信号と波形素片記
憶手段から得られる波形素片信号とを合成させる制御手
段とを備えているので、音声波形の接続による雑音の発
生を抑制でき、波形素片を格納するための記憶容量、録
音作業が軽減できるという長所を有する。

【００９７】さらに、本発明は、有声音源部と子音生成
部のピッチ制御にピッチ同期重畳法を用いることによ
り、有声音源波形と子音波形の完全な同期がとれ、波形
不連続、ピッチ不連続、位相不連続のない極めて高品質
な音声を合成することができる。また、ピッチ変更にと
もなうスペクトル形状の変化を回避することができる。
さらに、複数の異なる特徴を持った有声音源を目的に応
じて混合または切り替えて用いることが可能となり、様
々な局面に応じて適切な音源を用いた高品質な音声を合
成することができる。

【図面の簡単な説明】

【図１】本発明第１の実施例における音声合成装置のブ
ロック図である。

【図２】子音「／ｋ／」の波形素片と母音「あ」の合成
信号が合わされて「か」になる様子。

【図３】本発明第２の実施例における並列型ホルマント
合成部を併せ持つ音声合成装置のブロック図である。

【図４】従来のホルマント型音声合成装置のブロック図
である。

【図５】従来の波形素片を用いた音声合成装置のブロッ
ク図である。

【図６】本発明第３の実施例における音声合成装置のブ
ロック図である。

【図７】同実施例における無声子音素片のラベル付けを
説明する図である。

【図８】同実施例における有声子音素片のラベル付けを
説明する図である。

【図９】同実施例における波形接続を説明する図であ
る。

【図１０】本発明第４の実施例における音声合成装置の
ブロック図である。

【図１１】声門体積流波形を説明する図である。

【図１２】ピッチ同期重畳法でピッチ周波数を下げる操
作を説明する図である。

【図１３】本発明のHanning窓と声門体積流波形の位置
関係を説明する図である。

【図１４】本発明第５の実施例における音声合成装置の
ブロック図である。

【符号の説明】

１有声音源部２直列型ホルマント合成部３子音波形記憶部４子音波形読み出し部５合成部６無声音源部７並列型ホルマント合成部８ホルマント合成器制御用係数生成部９ホルマント合成器制御規則格納部１０ホルマント合成器１１音声素片選択部１２音声素片データベース格納部１３素片接続合成部１４有声音生成部１５有声音源部１６直列型ホルマント合成部１７子音波形生成部１８子音波形ラベル記憶部１９子音波形記憶部２０出力部２１制御部２２合成部２３ピッチ制御部２４ピッチ同期信号生成部２５ピッチ同期信号分配部２６波形読み出し部２７有声音源波形記憶部２８窓掛け部２９有声音源ピーク位置記憶部３０利得制御部３１混合部３２直列型ホルマント合成部３３子音波形記憶部３４子音波形ピーク位置記憶部３５合成部３６出力部３７遅延部３８有声音源部３９子音生成部４０利得制御部４１オフセット制御部４２子音波形ラベル記憶部

フロントページの続き (56)参考文献特開昭59−72494（ＪＰ，Ａ) 特開平４−263299（ＪＰ，Ａ) 特開昭60−225198（ＪＰ，Ａ) 特開平７−72898（ＪＰ，Ａ) 特公平３−15759（ＪＰ，Ｂ２) 特公平４−80399（ＪＰ，Ｂ２) 特公昭45−35323（ＪＰ，Ｂ１) 古井「ディジタル音声処理」（1985− ９−25）東海大学出版会ｐ．138−141 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 11/00 - 13/08 G10L 19/00 - 21/06 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】有声音源信号を出力する有声音源部と、前記有声音源部からの有声音源信号を入力とし、複数の
直列に接続されたホルマント共振器を有し、母音など所
定の音を合成する直列型ホルマント合成部と、無声および有声の複数の子音など所定の音の波形を記憶
する波形記憶部と、前記波形記憶部の中から必要な波形を読み出す波形読み
出し部と、前記直列型ホルマント合成部からの出力と前記波形読み
出し部が読み出す波形とを接続して合成音声として出力
する波形結合部と、を具備する音声合成装置であって、前記波形結合部は接続時に前記直列型ホルマント合成部
からの出力波形と前記波形読み出し部が読み出す波形を
有声音部での波形上のピークの位置を一致させるように
して重ね合わせを行い、徐々に混合比率を変化させるこ
とで滑らかに両者の波形を接続することを特徴とする音
声合成装置。
【請求項２】有声音源信号を出力する有声音源部と、前記有声音源部からの有声音源信号を入力とし、複数の
直列に接続されたホルマント共振器を有し、母音など所
定の音を合成する直列型ホルマント合成部と、無声および有声の複数の子音など所定の音の波形を記憶
する波形記憶部と、前記波形記憶部の中から必要な波形を読み出す波形読み
出し部と、白色雑音などの無声音を生成する無声音源部と、前記無声音源部からの音源信号を入力とし、複数の並列
に接続された共振器を有し、破裂音や摩擦音などの所定
の音を合成する並列型ホルマント合成部と、前記直列型ホルマント合成部の出力と、前記並列型合成
部の出力と、前記子音波形読み出し部が読み出す波形と
を接続して合成音声として出力する波形結合部とを具備
する音声合成装置であって、前記波形結合部は前記直列型ホルマント合成部からの出
力波形と前記波形読み出し部が読み出す波形を接続する
再に有声音部での波形上のピークの位置を一致させるよ
うにして重ね合わせを行い、徐々に混合比率を変化させ
ることで滑らかに両者の波形を接続することを特徴とす
る音声合成装置。
【請求項３】有声音源信号を出力する有声音源部と、音声信号を生成する音生成手段と、音声から切り出された波形素片を記憶する波形素片記憶
手段と、その記憶された波形素片についての所定の特徴量を記憶
する波形素片特徴量記憶手段と、その記憶された波形素片の特徴量に基づき、前記音生成
手段により生成された音声信号と前記波形素片記憶手段
から得られる波形素片信号とを合成させる制御手段とを
備えた音声合成装置であって、前記特徴パラメータは前記波形素片の子音に後続する母
音開始部付近の波形上のピーク位置であり、前記有声音源部は前記ピーク位置と同じ位置にピークが
発生するようなタイミングで有声音源波形を生成し、前記音生成手段は前記有声音源信号を入力として母音音
声波形を合成し、前記制御手段は前記ピーク位置付近で前記母音音声波形
と前記波形素片を重ね合わせることによって両者を接続
することを特徴とする音声合成装置。
【請求項４】所定の特徴量は、波形素片の利得値であっ
て、前記波形素片信号の振幅は、その利得値により制御
されることを特徴とする請求項３記載の音声合成装置。
【請求項５】波形素片特徴量記憶手段は、前記波形素片
上の所望の特徴を有する波形の存在時期を記憶するもの
であることを特徴とする請求項３、または請求項４記載
の音声合成装置。
【請求項６】所望の特徴は、前記波形素片の波形上のい
ずれかのピーク位置、またはピーク値であることを特徴
とする請求項５記載の音声合成装置。
【請求項７】音生成手段は有声音源を生成する有声音源
生成部を有し、前記制御手段は、前記波形素片の波形上
のピーク位置に、前記音生成手段の出力波形のピーク位
置が一致するように、前記有声音源生成部の出力波形の
位相、または前記波形素片の発音（出力）時期のいずれ
か一方または両方を制御することを特徴とする請求項６
記載の音声合成装置。
【請求項８】波形素片の波形上の前記ピーク位置に、前
記有声音源生成部の出力波形のピークを一致させるよう
に、前記有声音源生成部の駆動を開始することを特徴と
する請求項７記載の音声合成装置。
【請求項９】音生成手段の出力の振幅包絡が前記ピーク
位置でピークの振幅値になるように、前記有声音源生成
部の振幅を制御することを特徴とする請求項７または請
求項８記載の音声合成装置。
【請求項１０】波形素片は子音の開始部から後続母音の
所定の数ピッチ周期分までを切り出して作られているこ
とを特徴とする請求項３または請求項４または請求項５
または請求項６または請求項７または請求項８または請
求項９記載の音声合成装置。
【請求項１１】所望の特徴は、子音素片が破裂音のとき
は、破裂事象、摩擦音のときは、摩擦事象など、それぞ
れの子音の調音の時期であることを特徴とする請求項５
記載の音声合成装置。
【請求項１２】調音の時期を基準として、あらかじめ子
音素片の発音を開始することを特徴とする請求項１１記
載の音声合成装置。
【請求項１３】子音素片が無声子音である場合、所望の
特徴は、前記無声子音の声帯振動開始事象の存在時期で
あることを特徴とする請求項５記載の音声合成装置。
【請求項１４】無声化した子音を合成する際に、前記声
帯振動開始事象の位置を用いて子音素片の発音を停止す
ることを特徴とする請求項１１記載の音声合成装置。
【請求項１５】子音素片が有声子音である場合、所望の
特徴は、その位置以前の波形を除去しても音韻の特徴に
変化をきたさない位置である音韻性開始事象の存在位置
であることを特徴とする請求項５記載の音声合成装置。
【請求項１６】発音すべき対象の子音の直前が無音また
は休止でない場合、前記音韻性開始事象の存在時期から
発音を開始することを特徴とする請求項１５記載の音声
合成装置。
【請求項１７】有声音を生成する有声音源波形生成手段
と直列型ホルマント合成部と子音を生成する子音波形生
成手段と波形を接続する波形接続手段とピッチ同期信号
生成手段を具備し、前記ピッチ同期信号生成手段は所望
のピッチ周期に対応したピッチ同期信号を出力し、前記
有声音源波形生成手段と前記子音波形生成手段はともに
前記ピッチ同期信号に同期した位相の波形を生成し、前
記直列型ホルマント合成部は前記有声音源波形生成手段
の出力波形に声道特性を模擬した伝達関数にて周波数特
性の変更を行い、前記波形接続手段は前記直列型ホルマ
ント合成部の出力波形と前記子音波形生成手段の出力波
形を接続または混合することにより音声波形を生成する
ことを特徴とする音声合成装置。
【請求項１８】ピッチ同期信号分配手段を具備し、前記有声音源波形生成手段は有声音源波形記憶手段と前
記有声音源波形記憶手段に記憶された有声音源波形上の
ピーク位置を記憶する有声音源ピーク位置記憶手段と第
１のピッチ波形切り出し手段と第２のピッチ波形切り出
し手段と混合部を具備し、前記ピッチ同期信号分配手段はピッチ同期信号を交互に
２つに分配した分配ピッチ同期信号をおのおの前記第１
のピッチ波形切り出し手段および前記第２のピッチ波形
切り出し手段に出力し、前記第１のピッチ波形切り出し手段および前記第２のピ
ッチ波形切り出し手段は前記有声音源波形記憶手段から
前記有声音源ピーク位置記憶手段に記憶されたピーク位
置を中心に、窓長が所望のピッチ周期の２倍程度で両端
が零近傍に集束する窓関数にて切り出したピッチ波形
を、前記分配ピッチ同期信号を受信した直後から前記混
合部に出力し、前記混合部は前記第１のピッチ波形切り出し手段および
前記第２のピッチ波形切り出し手段の出力を混合する、ことを特徴とする請求項１７記載の音声合成装置。
【請求項１９】有声音源生成手段は利得制御手段を具備
し、前記混合手段に入力される２つの波形のいずれか一
方の利得を制御することを特徴とする請求項１８記載の
音声合成装置。
【請求項２０】ピッチ同期信号分配手段を具備し、前記子音波形生成手段は複数の子音波形記憶手段と前記
複数の子音波形記憶手段に対応する複数の子音波形ピー
ク位置記憶手段と第１のピッチ波形切り出し手段と第２
のピッチ波形切り出し手段と混合手段を具備し、前記ピッチ同期信号分配手段はピッチ同期信号を交互に
２つに分配した分配ピッチ同期信号をおのおの前記第１
のピッチ波形切り出し手段および前記第２のピッチ波形
切り出し手段に出力し、前記第１のピッチ波形切り出し手段および前記第２のピ
ッチ波形切り出し手段は前記子音波形記憶手段から所望
の子音に対応する子音波形を、前記子音波形ピーク位置
記憶手段に記憶された前記所望の子音に対応するピーク
位置を中心に、窓長が所望のピッチ周期の２倍程度で両
短が零近傍に集束する窓関数にて切り出したピッチ波形
を、前記分配ピッチ同期信号を受信した直後から前記混
合部に出力し、前記混合部は前記第１の窓掛け部および前記第２の窓掛
け部の出力を混合する、ことを特徴とする請求項１７記載の音声合成装置。
【請求項２１】ピッチ同期信号分配手段を具備し、前記子音波形生成手段は複数の子音波形記憶手段と前記
複数の子音波形記憶手段に対応する複数の子音波形ピー
ク位置記憶手段と第１のピッチ波形切り出し手段と第２
のピッチ波形切り出し手段と混合手段を具備し、前記ピッチ同期信号分配手段はピッチ同期信号を交互に
２つに分配した分配ピッチ同期信号をおのおの前記第１
のピッチ波形切り出し手段および前記第２のピッチ波形
切り出し手段に出力し、前記第１のピッチ波形切り出し手段および前記第２のピ
ッチ波形切り出し手段は前記子音波形記憶手段から所望
の子音に対応する子音波形を、前記子音波形ピーク位置
記憶手段に記憶された前記所望の子音に対応するピーク
位置を中心に、窓長が所望のピッチ周期の２倍程度で両
短が零近傍に集束する窓関数にて切り出したピッチ波形
を、前記分配ピッチ同期信号を受信した直後から前記混
合部に出力し、前記混合部は前記第１の窓掛け部および前記第２の窓掛
け部の出力を混合する、ことを特徴とする請求項１８記載の音声合成装置。
【請求項２２】ピッチ同期信号遅延手段を有し、前記有声音源波形生成手段はオフセット制御手段を具備
し、前記オフセット制御手段はピッチ波形切り出し手段の読
み出し開始位置をオフセット値分早めることによって窓
関数の中心に対する有声音源波形の位相を遅らせ、前記ピッチ同期信号遅延手段はピッチ同期信号を前記オ
フセット値分遅延させ、前記子音波形生成手段の出力を
前記オフセット分遅延させることによって前記有声音源
波形の遅れを補償することを特徴とする請求項２１記載
の音声合成装置。
【請求項２３】複数の有声音源生成手段を有し、前記有
声音源生成手段は全て共通のピッチ同期信号または分配
ピッチ同期信号を用いて同期を行うことを特徴とする請
求項１８、請求項１９または請求項２１記載の音声合成
装置。
【請求項２４】複数の有声音源生成手段を有し、前記有
声音源生成手段は全て共通のピッチ同期信号または分配
ピッチ信号およびオフセット値を用いて同期を行う請求
項２２記載の音声合成装置。