JPH11249676A

JPH11249676A - 音声合成装置

Info

Publication number: JPH11249676A
Application number: JP10047471A
Authority: JP
Inventors: Tomoki Hamagami; 知樹濱上; Mitsuo Furumura; 光夫古村
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 1998-02-27
Filing date: 1998-02-27
Publication date: 1999-09-17

Abstract

(57)【要約】【課題】音声合成装置において、スペクトルパタンの
データベースサイズを抑制しつつ、任意の発話速度に対
して自然な音韻を実現する。【解決手段】異なる代表時間長に対応したスペクトル
パタンを格納する複数のデータベース１００〜１０４か
ら、目的継続時間長に近い時間長のものを２つ選択す
る。それらから取り出した２つのスペクトルパタン間の
非線形の対応関係をＤＰマッチングにより求める（Ｓ１
３０）。この対応関係を分析して線形成分であるマクロ
パス、残りの非線形成分であるミクロパスが得られる
（Ｓ１３５）。目的時間長に対するマクロパスは時間長
の比を傾きとする直線として求められる。目的時間長に
対するミクロパスは、対応関係から得られる各点での値
を補間して求められる（Ｓ１４０）。これらを合成した
ＤＰパスに基づいて、基準スペクトルパタンの非線形伸
縮が行われ、目的時間長のスペクトルパタンが得られ
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声を規則合成する
音声合成装置、特に自然で滑らかな音韻変化を生成し合
成音声の品質を向上する音声合成装置に関する。

【０００２】

【従来の技術】音声合成の方式は、再生方式、分析合成
方式、及び規則合成方式の３つに大きく分類できる。再
生方式は、予め記録した単語単位の音声波形を接続して
再生する方式である。分析合成方式は、例えば単語や文
といった単位のある程度まとまった音声データを予め分
析し、音声の冗長性を取り除き、圧縮された形のパラメ
ータで蓄えておき、必要に応じて合成装置にて音声を合
成する方式である。規則合成方式は、単語構成、文型な
どによって多様に変化する文の韻律的特徴を規則により
表現する高度な合成方式であり、細かな音声単位を基
に、これを組合せ、発話速度（又は継続時間長）に応じ
て個々の単位パラメータの長さを調整し、変形、アクセ
ントやイントネーション、パワーの変化を規則によって
導出する。この方式によれば任意の文字から高品質の合
成音声を生成することができる。

【０００３】音声は、音色、基本周波数の高さ、及び強
度の３要素に分解して捉えることができる。つまり、こ
れら３要素を決定することにより音声を合成することが
できる。スペクトルパタンは、これらのうち音色を表す
情報である。スペクトルパタンは、日本語テキスト（漢
字仮名交じり文）を構成する各音韻の周波数スペクトル
の包絡パタンを、日本語テキストから生成される音韻記
号列に従った順序で結合して生成される。このスペクト
ルパタンは、合成音声の音韻性そのものや滑らかさに影
響を及ぼすため、その生成は規則合成方式における重要
な技術の１つである。

【０００４】図８は、従来のスペクトルパタン生成方式
における処理の流れを示す模式図である。従来より行わ
れているスペクトルパタンの生成方法は、日本語テキス
トから生成された音韻記号列をＶＣＶ音節といった所定
の音節単位に分解する（Ｓ１０）。次に当該音節単位毎
のスペクトルパタンをデータベース１５から検索し（Ｓ
２０）、これらを滑らかに結合した後（Ｓ２５）、各音
節単位のスペクトルパタンを当該音節単位の音韻継続時
間長に応じて線形に伸縮する（Ｓ３０）というものであ
った。ここで用いられる音節単位は、母音−子音−母音
の連鎖パタンであるＶＣＶ音節や、子音−母音の連鎖パ
タンであるＣＶ音節である。

【０００５】また、他の従来方法として、例えば、「音
韻環境に基づくクラスタリングによる規則合成法」（中
嶋他、電子情報通信学会論文誌Ｄ−II Vol.J72-D-II
No.8pp.1174、1989年8月）に示されるような合成単位を
一定の音節単位ではなく可変としたもの（可変単位合成
方式と称する。）もあった。この方式は、結合要素とな
る音韻単位の種類を例えばＶＣＶ音節といった一定の連
鎖パタンに限ることなく、発話速度や音韻環境条件に応
じて拡張したデータベースを構築することにより、伸縮
操作なしに自然性の高いスペクトルパタンを得ようとす
るものである。また、他の可変単位合成方式としては、
例えば、「動的特徴を用いたＨＭＭに基づく音声合成」
（益子他、電子情報通信学会論文誌Ｄ−II Vol.J79-D
-II No.12 pp.2184、1996年12月）に示されるような、
スペクトルパタンの動的特徴を抽出・蓄積し、スペクト
ルパタンの生成においてその動的特徴を反映させること
により自然性の向上を図るものも提案されている。

【０００６】

【発明が解決しようとする課題】音節単位のデータベー
スを用いた従来の合成方法においては、与えられた音節
単位の継続時間長に対しては自然な音韻を実現するスペ
クトルパタンが得られる。しかし、音節単位の継続時間
長は発話速度によって変化し、その他、音韻環境や隣接
音韻の影響による音韻継続時間長の変動などによっても
変化する。従来の音節単位のデータベースを用いたスペ
クトルパタンの合成方法は、このような変化に対応した
音節単位の任意の継続時間長に対するスペクトルパタン
を、音節単位毎の所与の継続時間長のスペクトルパタン
を当該単位内で単純に線形伸縮して生成するため、上記
要因等による音節単位の継続時間長の変化に伴うスペク
トルパタン変化の推移が不自然になるおそれがあるとい
った問題を有していた。つまり、例えば、文章全体又は
部分で発話速度を変化させる場合に、自然な音韻性が得
られないという問題や、音韻環境や隣接音韻の影響を補
償した音韻継続時間長を生成しても、その補償効果を十
分に音韻の自然さに反映することが容易でないという問
題があった。

【０００７】また、音韻単位の種類を拡大する可変単位
合成方式では、データベースの規模が大きくなるといっ
た問題や、単位同士の接続組合せパタンが増えることに
より、各スペクトルパタンの端部の調整が難しくなり接
続部で歪みが発生しやすくなるという問題や、特徴を抽
出するための学習データの増加に伴い学習時間がかかる
といった問題があった。

【０００８】また、伸縮規則を適用する区間（セグメン
テーション）を決定するためのラベリングを人手により
行うことは、その者の主観に依存する部分も大きく、区
間の定義が不正確、不安定になる。そのため、例えば異
なる者のラベリングに基づいて作成された規則同士は異
なるものとなり、普遍性がないという問題がある。例え
ば、音節単位といった比較的大きな単位では人に依存す
る誤差は小さいと考えられるが、より微細な区間につい
てのラベリングでは上記問題が顕著になるおそれがあ
る。

【０００９】本発明は上記問題を解決することを目的と
したものであり、音韻単位のデータベースを用いた合成
方式において、データベースの規模を抑制し、かつ学習
を行うことなく、音節単位の接続歪みが生じにくく、自
然な合成音声を得ることができる音声合成装置を提供す
ることを目的とする。

【００１０】

【課題を解決するための手段】本発明に係る音声合成装
置は、同一の音韻区画に対する異なる代表継続時間長に
対応した複数の代表時間長スペクトルパタンそれぞれの
時間変化同士の対応関係に基づき、いずれかの前記代表
時間長スペクトルパタンの前記時間変化を目的継続時間
長に応じて非線形伸縮変換して、前記目的継続時間長に
対応した目的時間長スペクトルパタンを生成するスペク
トルパタン生成手段を有し、当該目的時間長スペクトル
パタンを用いて音声合成するものである。

【００１１】本発明によれば、音韻記号列を区分した音
韻区画毎にスペクトルパタンが生成され、接続され、そ
のスペクトルパタンを用いて音声が規則合成される。音
韻区画は、例えばＶＣＶ音節といった音節単位である。
同一の音韻記号列を含んだ音韻区画を異なる継続時間
長、すなわち異なる発話速度、音韻継続時間長で発声し
た場合、一般にそれら異なる継続時間長に対応するスペ
クトルパタンは互いに時間軸を継続時間長に応じて単純
に比例伸縮して得られる相似形とはならない。つまり、
継続時間長が異なった場合、一般にスペクトルパタンの
時間的変化（ラベル付けされた各点）の順序は維持され
るが、スペクトルパタンの各部分は時間軸方向に必ずし
も一様に伸縮しない。本発明はこの点に鑑み、複数の代
表的な継続時間長（代表継続時間長）それぞれについて
の同一音韻区画のスペクトルパタン（代表時間長スペク
トルパタン）間での時間変化同士の対応関係に基づい
て、所望の目的継続時間長に対応した目的時間長スペク
トルパタンを生成する。

【００１２】複数のスペクトルパタンの時間変化同士の
対応関係は、代表時間長スペクトルパタン間での時間軸
の変換関係を表し、例えば、第一の代表時間長スペクト
ルパタンのその先頭からのある時刻ｔ1におけるスペク
トルが、第二の代表時間長スペクトルパタンのどの時刻
ｔ2に現れるかというものである。例えば２つの代表時
間長スペクトルパタン間の対応関係に基づく場合、例え
ば目的継続時間長が第一の代表継続時間長と第二の代表
継続時間長との間の値であるときは、第一の代表時間長
スペクトルパタンのある時刻ｔ1に対応するスペクトル
が目的時間長スペクトルパタン上に現れる時刻ｔは、例
えばｔ1とｔ2との間の値に定めることができ、時刻ｔは
目的継続時間長が第一の代表継続時間長に近いほど、時
刻ｔ1に近くなり、目的継続時間長が第二の代表継続時
間長に近いほど、時刻ｔ2に近くなる。時刻ｔを定める
ために用いられる時間変化の対応関係は、一般には２つ
以上の異なる代表継続時間長に対応した代表時間長スペ
クトルパタン相互間のものであり、必ずしも２つの代表
時間長スペクトルパタン間のものに限られない。２つの
代表時間長スペクトルパタンの対応時刻ｔ1、ｔ2から目
的時間長スペクトルパタンの対応時刻ｔを定める方法に
は、例えば目的継続時間長に応じたｔ1、ｔ2の線形補間
がある。また、３つ以上の代表時間長スペクトルパタン
の対応時刻ｔ1、ｔ2、、…、ｔiから目的時間長スペク
トルパタンの対応時刻ｔを定める場合には、例えば高次
関数を用いた補間を用いることができる。

【００１３】代表時間長スペクトルパタン間の時間変化
の対応関係から、代表時間長スペクトルパタンの時間軸
から目的時間長スペクトルパタンの時間軸への変換関係
が定められる。目的時間長スペクトルパタンは、この変
換関係に基づいて、ある代表時間長スペクトルパタンを
時間軸方向に関して伸縮変換することにより得られる。
上述したように一般にある継続時間長の代表時間長スペ
クトルパタンに対する他の継続時間長の代表時間長スペ
クトルパタンの伸縮が不均一であることから、目的時間
長スペクトルパタンの時間軸の伸縮も不均一である。つ
まり、例えば、目的継続時間長が第一の代表継続時間長
のα倍になった場合、伸縮が一様であれば第一の代表時
間長スペクトルパタンの時刻ｔ1と目的時間長スペクト
ルパタンの時刻ｔとの間にはｔ＝α・ｔ1という線形関
係が成り立つのであるが、一般には上記不均一性により
このような線形関係は成り立たず、代表時間長スペクト
ルパタンと目的時間長スペクトルパタンとは非線形の伸
縮変換により関係付けられる。本発明はこの一般的な場
合である非線形伸縮変換に対応することにより、滑らか
で自然な合成音声を得るという目的を達成する。

【００１４】本発明の好適な態様は、前記スペクトルパ
タン生成手段が、前記音韻区画の種類毎に前記複数の代
表時間長スペクトルパタンを格納したスペクトルパタン
記憶手段と、前記目的継続時間長に応じて前記複数の代
表時間長スペクトルパタンのいずれかを選択する基準ス
ペクトルパタン選択手段と、前記スペクトルパタン記憶
手段に格納された前記代表時間長スペクトルパタンに基
づいて、前記各音韻区画毎に前記複数の代表時間長スペ
クトルパタンそれぞれの時間変化同士の前記対応関係を
生成する対応関係生成手段と、前記対応関係に基づく前
記音韻区画内での非線形伸縮変換を、前記目的継続時間
長に応じて前記基準スペクトルパタンに施す非線形伸縮
手段とを有するものである。また本発明の他の好適な態
様は、上記態様における対応関係生成手段に代えて、前
記音韻区画の種類毎に前記複数の代表時間長スペクトル
パタンそれぞれの時間変化同士の前記対応関係を格納し
た対応関係記憶手段を有するものである。これらの態様
において、基準スペクトルパタンは、例えば、その継続
時間長が目的継続時間長に近いものを採用するのが好適
である。

【００１５】本発明の別の好適な態様は、前記スペクト
ルパタン生成手段が、前記音韻区画の種類毎の前記複数
の代表時間長スペクトルパタンのうち基準となる基準ス
ペクトルパタンを格納したスペクトルパタン記憶手段
と、前記音韻区画の種類毎に前記基準スペクトルパタン
と他の前記代表時間長スペクトルパタンと間での時間変
化の前記対応関係を格納した対応関係記憶手段と、前記
対応関係に基づく前記音韻区画内での非線形伸縮変換
を、前記目的継続時間長に応じて前記基準スペクトルパ
タンに施す非線形伸縮手段とを有するものである。本態
様において、特に基準スペクトルパタンには、音韻情報
の欠落が少ない発話速度が遅いものを採用するのが好適
である。

【００１６】他の本発明に係る音声合成装置において
は、前記複数の代表時間長スペクトルパタンそれぞれの
時間変化同士の前記対応関係は、当該代表時間長スペク
トルパタンの前記継続時間長に比例した線形伸縮成分
と、当該線形伸縮成分を除いた非線形伸縮成分とに分解
され、前記非線形伸縮変換は、前記線形伸縮成分を前記
継続時間長に応じて補間して補間線形伸縮成分を求め、
前記非線形伸縮成分を前記継続時間長に応じて補間して
補間非線形伸縮成分を求め、前記補間線形伸縮成分と前
記補間非線形伸縮成分とを合成する。

【００１７】本発明に係る音声合成装置は、前記複数の
代表時間長スペクトルパタンそれぞれの時間変化同士の
前記対応関係が、ＤＰマッチング（動的計画法）により
求められるものである。

【００１８】本発明によれば、ＤＰマッチングを用いて
対応関係を定めることにより、前記代表時間長スペクト
ルパタンのある時刻に対応する他のスペクトルパタン上
での時刻が客観的・定量的に決定される。

【００１９】

【発明の実施の形態】［実施の形態１］以下、本発明の
実施の形態を図面を参照して説明する。図１は本実施形
態に係る日本語音声合成装置のブロック構成図である。
本音声合成装置は従来同様に、電子化された日本語テキ
ストの文字データから合成音声を規則合成して出力する
ものである。

【００２０】テキスト解析処理部５２は、入力された日
本語テキストの言語解析結果を出力する。この解析結果
には、音声合成処理に必要なアクセントの情報、フレー
ズの境界、ポーズ、母音の無声化といった発音情報を加
えた音韻記号列や、フレーズやアクセント句の分類結果
が含まれている。

【００２１】この言語解析結果は音韻継続時間長生成部
５４に入力される。音韻継続時間長生成部５４は、目的
の発話速度を実現する音韻の時間長情報を音韻記号列に
基づいて音節や音素に付加し、これをスペクトルパタン
生成部５６、音源振幅パタン生成部５８及びピッチパタ
ン生成部６０に出力する。

【００２２】本実施形態の特徴的構成要素であるスペク
トルパタン生成部５６は、音韻結合規則により、母音・
子音といった音韻の種類からデータベースを検索し、各
音韻のスペクトルパタンを結合し、一連の新たなスペク
トルパタンを生成して出力するものであり、これについ
ては後に詳述する。

【００２３】音源振幅パタン生成部５８は、音声のパワ
ー包絡をパワーに関する規則により決定する。ピッチパ
タン生成部６０は、韻律制御についての規則からピッチ
パタンを生成するものである。

【００２４】音源生成部６２は、音源振幅パタン生成部
５８からのパワーパタンと、ピッチパタン生成部６０か
らのピッチパタンとを入力とし、音源情報を生成する。
音声合成部６４は、スペクトルパタン生成部５６から入
力されるスペクトルパタンによって、音源生成部６２か
らの音源情報を変調して音色を付加し合成音声を生成す
る。

【００２５】図２は、本実施形態に係る音声合成装置の
スペクトルパタン生成部５６の処理を説明する模式図で
ある。

【００２６】スペクトルパタン生成部５６は、ＶＣＶ単
位の各種類についてそれぞれ３種類の代表的な発話速度
のスペクトルパタン（代表時間長スペクトルパタン）を
データベースに格納・保持している。例えば、代表的な
発話速度は、標準的な速度である７〜８mora/秒、及び
その前後の速度を用いることが好ましい。例えば、低
速、中速、高速の各発話速度として６mora/秒、８mora/
秒、１１mora/秒を用いることができる。図では各速度
に対応する代表時間長スペクトルパタンはそれぞれ低速
発声ＶＣＶデータベース１００、中速発声ＶＣＶデータ
ベース１０２、高速発声ＶＣＶデータベース１０４に格
納されている。ここで、ＶＣＶ音節は、例えば両端の母
音部重心位置を端点とするように定義される。

【００２７】スペクトルパタン生成部５６には、音韻継
続時間長生成部５４から音韻継続時間長を付与された音
韻記号列が入力される。音韻記号列はＶＣＶ単位に分割
される（Ｓ１１０）。そしてＶＣＶ音節毎にその音韻継
続時間長に最も近い発話速度に対応するデータベースと
２番目に近い発話速度に対応するデータベースとを上記
データベース１００〜１０４からそれぞれ選択し、各デ
ータベースから当該ＶＣＶ音節に対応する代表時間長ス
ペクトルパタンを検索し取り出す（Ｓ１１５）。次に、
各ＶＣＶ音節に対して選択された最も発話速度が近い代
表時間長スペクトルパタン（以下、基準スペクトルパタ
ンと呼ぶ。）同士の接続（Ｓ１２０）と、各ＶＣＶ音節
に対して選択された２番目に発話速度が近い代表時間長
スペクトルパタン（以下、参照スペクトルパタンと呼
ぶ。）同士の接続（Ｓ１２５）とを行い、最も近い発話
速度と２番目に近い発話速度に対応したＶＣＶ単位接続
スペクトルパタンをそれぞれ生成する。ちなみに、各Ｖ
ＣＶ単位接続スペクトルパタン中では、異なる発話速度
のＶＣＶ単位が接続されうる。つまり、例えば、最も近
い発話速度のＶＣＶ単位接続スペクトルパタン中におい
て、高速のＶＣＶ単位に中速のＶＣＶ単位が接続される
ということが起こりうる。

【００２８】本装置のスペクトルパタン生成部５６は、
ＶＣＶ音節をさらに細かな基本単位であるフレームに区
分し、基準スペクトルパタンと参照スペクトルパタンと
の各フレームの対応関係をＤＰマッチングにより求める
（Ｓ１３０）。そして、音韻継続時間長生成部５４から
与えられる目的とする継続時間長のスペクトルパタン
が、このＤＰマッチングにより得られた対応関係に基づ
いて生成される（Ｓ１３５〜Ｓ１５０）。以下、このＤ
Ｐマッチングを用いた本装置のスペクトルパタン生成方
法を詳しく述べる。

【００２９】図３は、同一のＶＣＶ音節に対応した３種
類の発話速度の代表時間長スペクトルパタンをそれぞれ
示す模式図である。スペクトルパタン１６０は、低速の
発話速度の代表時間長スペクトルパタンであり、その全
体はＩ個のフレームに分割される。この低速に対応した
代表時間長スペクトルパタンは、ＬＰＣ（Linear Predi
ctive Coding）フレーム分析によって、スペクトルパタ
ンの系列Ｓs[i]として低速発声ＶＣＶデータベース１０
０に登録されている。ここでｉは先頭から数えたフレー
ム番号であり、１≦ｉ≦Ｉである。同様に、スペクトル
パタン１６２、１６４は、それぞれ中速、高速の発話速
度の代表時間長スペクトルパタンであり、その全体はそ
れぞれＪ、Ｋ個のフレームに分割され、スペクトルパタ
ンの系列Ｓm[j]、Ｓf[k]として中速発声ＶＣＶデータベ
ース１０２、高速発声ＶＣＶデータベース１０４に登録
されている。ここでｊ、ｋは先頭から数えたフレーム番
号であり、１≦ｊ≦Ｊ、１≦ｋ≦Ｋである。なお、ここ
では、各フレームの時間幅が均等である場合を説明する
こととし、その時間幅は例えば１０ｍｓといった値であ
る。

【００３０】ＤＰマッチングを行うことにより、２つの
音声ｘ、ｙのスペクトルパタンＳx[n]、Ｓy[m]（１≦ｎ
≦Ｘ、１≦ｍ≦Ｙ）の間の対応関係がＤＰパスにより表
される。ＤＰパスＰxyは、音声ｘの時刻ζのスペクトル
が音声ｙのどの時刻ξのスペクトルと一致するかを表す
ものである。図４は、横軸に音声ｘの時間軸、縦軸に音
声ｙの時間軸をとり、ＤＰパスを示した模式図である。
図において、ＤＰパスは、ｘ、ｙの継続時間長の比Ｙ／
Ｘを傾きとする直線１７０におおよそ沿った折れ線１７
２で表されている。ここでは、ＤＰパスを次式で表すこ
ととする。なお、音声ｘ、ｙの端部では、ＤＰパスと直
線１７０とは交わる。

【００３１】Ｐxy ≡（ζ，ξ）ここでｐをＤＰパス上のノード番号とし、これを媒介変
数としてζ、ξを次式で表すことにする。

【００３２】ζ ≡ Ｐxy1[p] ξ ≡ Ｐxy2[p] すると、ＤＰパスは次式で表される。

【００３３】Ｐxy[p]＝（Ｐxy1[p]，Ｐxy2[p]）一方、直線１７０は、音声ｘとｙの線形に伸縮させた、
つまり全体を均一に伸縮させた場合のパスに相当し、こ
こではこれをマクロパス（Ｐ'xy）と呼び、次式で表
す。

【００３４】Ｐ'xy[p]≡（Ｐ'xy1[p]，Ｐ'xy2[p]）上述したようにマクロパスは、傾きＹ／Ｘの直線である
ので、Ｐ'xy[p]＝（Ｐxy1[p]，(Ｙ/Ｘ)Ｐxy1[p]） ………（１）である。また、ｐ軸上におけるＤＰパスとマクロパスと
の差をミクロパス（dＰxy）と呼ぶこととする。ミクロ
パスは次式で表され、また、図４において折れ線１７４
にて表される。

【００３５】 dＰxy[p]≡（dＰxy1[p]，dＰxy2[p]）＝Ｐxy[p]−Ｐ'xy[p] ＝（Ｐxy1[p]，Ｐxy2[p]−(Ｙ/Ｘ)Ｐxy1[p]） ………（２）以上の手法により、ＤＰパスは線形伸縮よりなるマクロ
パスと、非線形伸縮よりなるミクロパスに分解される。
すなわち、Ｐxy[p]＝Ｐ'xy[p]＋dＰxy[p] ………（３）と表される。

【００３６】このようにして同一のＶＣＶ音節に対する
異なる代表継続時間長に対応した代表時間長スペクトル
パタン間の対応関係がマクロパス、ミクロパスとして与
えられる。これらを用い、いずれかの代表時間長スペク
トルパタンを基準スペクトルパタンとして、伸縮するこ
とにより当該ＶＣＶ音節に対する任意の継続時間長に対
応したスペクトルパタン（目的時間長スペクトルパタ
ン）を生成することができる。例えば、基準スペクトル
パタンと目的時間長スペクトルパタンとの間のＤＰパス
のマクロパス（Ｐ'xt）は、それぞれの継続時間長の比
により定まる直線であるので、当該継続時間長比から直
接的に求めることができる。一方、ミクロパス（dＰx
t）は、まず自然音声を代表時間長スペクトルパタンと
して用いて求めたミクロパスdＰxyを、継続時間長差の
比によってスケーリングすることにより定めることがで
きる。目的時間長スペクトルパタンをＳt[h]（１≦ｈ≦
Ｔ）、基準スペクトルパタンを例えばＳx[n]とすると、
これら目的時間長スペクトルパタンと基準スペクトルパ
タンとに関するマクロパスＰ'xt、ミクロパスdＰxtは、
それぞれ次式で表される。

【００３７】Ｐ'xt[p]＝ (Ｔ/Ｙ)Ｐ'xy[p] ＝（Ｐxy1[p]，(Ｔ/Ｘ)Ｐxy1[p]） ………（４） dＰxt[p]＝｛(Ｘ−Ｔ)/(Ｘ−Ｙ)｝dＰxy[p] ＝（dＰxy1[p]，dＰxy2[p]）＝（Ｐxy1[p]，{(Ｘ−Ｔ)/(Ｘ−Ｙ)}{Ｐxy2[p]−(Ｙ/Ｘ)Ｐxy1[p]}） ………（５）本装置は、データベース１００〜１０４に格納されたス
ペクトルパタンＳs[i]、Ｓm[j]、Ｓf[k]と以上のスペク
トルパタンの伸縮方法とにより、目的時間長スペクトル
パタンＳt[h]（１≦h≦Ｔ）を以下の手順で生成する。
なお、ここではＩ≦Ｔ≦Ｋであるものとする。

【００３８】スペクトルパタン生成部５６は、処理Ｓ１
２０により継続時間長Ｄx（ｘ＝ｓ，ｍ，ｆ）である基
準スペクトルパタンＳx[n]（１≦ｎ≦Ｎ）を選択し、処
理Ｓ１２５により継続時間長Ｄy（ｙ＝ｓ，ｍ，ｆ、但
しｙ≠ｘ）である参照スペクトルパタンＳy[m]（１≦ｍ
≦Ｍ）を選択する。

【００３９】次に、ＤＰマッチングによりＳx[n]に対す
るＳy[m]のＤＰパスＰxyを作成する（Ｓ１３０）。そし
て上述手順の（２）式により、ＤＰパスＰxyからミクロ
パスを求め（Ｓ１３５）、目的時間長スペクトルパタン
Ｓt[h]に関するミクロパスdＰxtを（５）式により生成
する（Ｓ１４０）。一方、マクロパスＰ'xtは、上述し
たように継続時間長比から直接的に求めることができ、
これと処理Ｓ１４０で求めたミクロパスとを合成して、
ＤＰパスＰxtが生成される（Ｓ１４５）。ちなみに、こ
のようにミクロパスとマクロパスとを分解することによ
り、処理上、各点に対してミクロパスのデータのみを例
えばメモり上に保持すればよい。これにより計算上、取
り扱うパラメータを削減することができ処理上有利であ
る。またミクロパスのデータがとりうる範囲は、分解し
ない場合のＤＰパスのデータがとりうる範囲より狭くす
ることができるので、例えば保持すべきデータ量を削減
したり、同一のビット数でより精度の高い数値を保持す
ることができるといったメリットも得られる。

【００４０】なお、分解しない場合は、（４）（５）式
から得られる次式、Ｐxt[p]＝（Ｐxy1[p]， {(Ｘ−Ｔ)/(Ｘ−Ｙ)}Ｐxy2[p]＋{(Ｔ−Ｙ)/(Ｘ−Ｙ)}Ｐxy1[p]}） ………（６）を用いて目的時間長スペクトルパタンに対するＤＰパス
を求めることができる。ちなみに（６）式は、代表時間
長スペクトルパタンＳx[n]、Ｓy[m]の互いに対応する点
Ｐxy1[p]、Ｐxy2[p]に対応する目的時間長スペクトルパ
タンのＳt[h]の点は、Ｐxy1[p]、Ｐxy2[p]を各継続時間
長に応じて内分した点であることを示している。

【００４１】さて、ここで、求められたＤＰパス上の各
点は、それを表す座標を四捨五入することにより、フレ
ームの格子に吸着させられる。つまりＤＰパスの各点は
フレームを単位として表される。

【００４２】このＤＰパスのフレーム格子への吸着によ
り、基準スペクトルパタンのあるフレームに対応する目
的時間長スペクトルパタンのフレームがない（フレーム
の欠落）といったことや、基準スペクトルパタンのある
フレームに目的時間長スペクトルパタンの複数のフレー
ムが対応する（フレームの伸長）といったことが起こり
うる。よってＤＰマッチングによって得られたパスを基
に、ＶＣＶ音節スペクトルパタンの伸縮を行うために
は、フレームが欠落する箇所やフレームが伸長している
箇所において不連続が生じないように補間操作を行う必
要がある。本装置は以下の手順で、スペクトルの連続性
を保ちながら、欠落したフレームに対応するスペクトル
パタン部分を目的時間長スペクトルパタンから間引き、
また伸長したフレームに対応するスペクトルパタン部分
を接続し（Ｓ１５０）、目的時間長スペクトルパタンを
合成する。

【００４３】まず、合成されたＤＰパスＰxtに基づい
て、基準スペクトルパタンＳx[n]（１≦ｎ≦Ｎ）の各フ
レームに、目的時間長スペクトルパタンのフレームとの
対応関係に応じてラベルを付与する。目的時間長スペク
トルパタンに対応するフレームがないとき、すなわちフ
レームの欠落が生じている箇所においては、消去ラベル
“０”が付与される。また、基準スペクトルパタンのフ
レームに対して目的時間長スペクトルパタンのフレーム
が一つのみ対応付けられるときは、保存ラベル“１”
を、一方、ｋ個のフレームが対応付けられるとき、すな
わち伸長が生じる箇所においては、伸長するフレーム数
で表される伸長ラベル“ｋ”が付与される。

【００４４】保存ラベル“１”が付与されたフレームに
対しては補間操作は行われない。伸長ラベル“ｋ”が付
与された基準スペクトルパタンのフレームに対する目的
時間長スペクトルパタンのｋ個のフレームに対しては、
基準スペクトルパタンにおけるラベル“ｋ”のフレーム
とこれに先行するフレームとを線形補間したフレーム、
及び基準スペクトルパタンにおけるラベル“ｋ”のフレ
ームとこれに後続するフレームとを線形補間したフレー
ムが生成され割り当てられる。

【００４５】消去ラベル“０”を付与されたフレームが
拗音、鼻音を除く子音区間の場合、もともとスペクトル
の連続性が低いので補間は行わずフレームを除去する。
一方、消去ラベル“０”を付与されたフレームが母音、
撥音、拗音、鼻音の場合、当該フレーム（ラベル“０”
が連続する場合は、当該連続フレーム）を除去した後、
当該フレームを含む音素（Ｖ又はＣ）内のフレーム間で
次に示す平滑化操作を行い、フレーム消去に伴うスペク
トルの不連続を生じさせないようにする。

【００４６】ここで、スペクトルパタンはＬＳＰ（Line
Spectrum Pair）パラメータを用いて表され、基準ス
ペクトルパタンのｎフレーム目のｒ次のＬＳＰパラメー
タをＳx[n][r]、平滑化後のパラメータをＳ'x[n][r]と
表記する。消去された結果、互いに接続する必要のある
境界フレームをｃ、ｃ＋ｄ、消去フレームを含む音素区
間の開始フレーム、終了フレームをそれぞれｂ、ｅとす
ると、以下に示す計算により平滑化後のパラメータを求
めることができる。まず接続されるｃフレームと（ｃ＋
ｄ）フレームではパラメータは等しくなるという境界条
件から、両境界フレームの平滑化後のパラメータの値
に、平滑化前のｃフレームと（ｃ＋ｄ）フレームとのパ
ラメータの平均値を与える。つまり、Ｓ'x[c][r] ≡ Ｓ'x[c+d][r] ≡（Ｓx[c][r]＋Ｓx[c
+d][r]）/２とする。そしてこの境界条件の下、ｂ〜ｃフレームと
（ｃ＋ｄ）〜ｅフレームとの各区間において、それぞれ
重み関数ｗ1[n]、ｗ2[m]を用いて平滑化を行う。具体的
にはｂ≦ｎ＜ｃなるｎフレームにおいてはＳ'x[n][r] ≡ Ｓx[n][r]−（Ｓx[n+1][r]−Ｓ'x[n+
1][r]）ｗ1[n] またｃ＋ｄ＜ｍ≦ｅなるｍフレームにおいてはＳ'x[m][r] ≡ Ｓx[m][r]−（Ｓx[m-1][r]−Ｓ'x[m-
1][r]）ｗ2[m] である。

【００４７】重み関数ｗ1[n]、ｗ2[m]は、接続点での不
連続を滑らかに補間する目的で用いる滑らかな関数であ
り、接続点で最大値をとり、音素区間の開始フレームｂ
及び終了フレームｅで０となる。例えば、重み関数ｗ1
[n]、ｗ2[m]として、ｗ1[n] ＝ sin{π(n-b)/２(c-b)} ｗ2[m] ＝ cos{π(m-c-d)/２(e-c-d)} を用いることができる。

【００４８】以上が補間操作であり、これにより滑らか
に補間された目的時間長スペクトルパタンが生成され
る。ちなみに、上述した基準スペクトルパタンの非線形
伸縮及び補間操作は、処理Ｓ１２０にて生成されたＶＣ
Ｖ単位接続スペクトルパタンに対して行われる。これは
先に個々のＶＣＶ単位を伸縮するとＶＣＶ単位の接続区
間が不定となり、接続を行いにくくなるからである。

【００４９】さて、１つのＶＣＶ単位のスペクトルパタ
ン内には、各母音、子音に対応した定常部分と、母音か
ら子音、また子音から母音へといった遷移部分が含まれ
る。自然音声の観察から、発話速度を例えば速くしたと
き、継続時間長の短縮に寄与するのは、主として定常部
分であり、遷移部分は定常部分ほどには短縮されないと
いう知見が得られる。これは例えば、スペクトログラム
におけるフォルマントの観察から理解される。スペクト
ログラムにおいては、定常部分はフォルマントがほぼ同
一周波数位置に継続して現れるために時間軸に沿った一
定のパタンとして観察され、遷移部分はフォルマントの
周波数位置がある音素における位置から次の音素におけ
る位置へ移動するために変動パタンとして観察される。
上述した発話速度を速くした場合の現象は、定常部分が
短縮され、遷移部分はそれほど変化しないといった形で
観察される。スペクトルパタン生成部５６により生成さ
れた目的時間長スペクトルパタンを用い、本装置から出
力される合成音声は、このような自然音声の特徴を再現
することができ、自然な合成音声を得ることができた。
ちなみに、従来の合成音声装置は、ＶＣＶ単位内を一様
に伸縮するため、例えば発話速度を速くした場合、遷移
部分の短縮によりそのフォルマントの変化の傾きが保た
れず大きくなり、自然音声の特徴の再現の程度が十分で
なかった。

【００５０】ＶＣＶ音節の継続時間長の変化は文全体の
発話速度の変化以外に、音韻環境や隣接音韻の影響によ
っても変動する。上述したスペクトルパタンの伸縮の特
徴は、このような要因による場合にも同様である。よっ
て本装置は、音韻継続時間長生成部５４にて、これら要
因の影響を補償した音韻継続時間長を生成すれば、スペ
クトルパタン生成部５６における規則上では特に意識す
ることなく、これら要因の補償効果が反映されたスペク
トルパタンを生成することができる。

【００５１】なお、上述の例では、発話速度は３種類と
したが、上述の説明から明らかなように本発明はその種
類の数に限定されず、２つ以上の異なる発話速度の代表
時間長スペクトルパタンを用いて実施することができ
る。また、上述の例では、目的時間長スペクトルパタン
を求めるために、その継続時間長を挟む大小の継続時間
長に対応した２つの代表時間長スペクトルパタンを選択
し、それらの対応関係を用いた。この場合、上述したよ
うに目的時間長スペクトルパタンの各点の位置はそれに
対応する２つの代表時間長スペクトルパタンの点の位置
を継続時間長に応じて内分することにより定められる。
しかし、３つ以上の代表時間長スペクトルパタンを同時
に用いて、目的時間長スペクトルパタンの精度の向上を
図ることも理論上、可能である。例えば、３つの代表時
間長スペクトルパタン（継続時間長Ｄi（ｉ＝１〜
３））の互いに対応する点をＰxyi[p]とするとき、例え
ば３つの点（Ｄi，Ｐxyi[p]）を通る２次関数を求め、
その関数の目的継続時間長における値により、目的時間
長スペクトルパタンに対応するＤＰパスを定義すること
により継続時間長変化の２次項を考慮することができ
る。

【００５２】スペクトルパタン生成部５６は、上述した
ように各ＶＣＶ音節毎にＤＰマッチングを行う構成とし
たが、例えば、ＶＣＶ音韻の種類毎に予めＤＰマッチン
グを行ってそのＤＰパスをデータベースに格納してお
き、音声合成時にはそれを読み出して用いるという構成
も可能である。その構成によれば合成時における処理Ｓ
１３０を省略することができ、装置の処理負荷を軽減す
ることができる。また、さらに、ＤＰパスのマクロパ
ス、ミクロパスの分解も予め行うことも可能であり、ミ
クロパスをデータベースに格納して、音声合成時にこれ
を取り出して使用する構成とすることができる。

【００５３】本装置は、ＶＣＶ音節という限定された単
位のみに基づいてデータベースが構成されるので、従来
の単位を拡大する方法に比べてデータベースの規模が小
さくすることができる。しかも自然音声が有する異なる
継続時間長間での非線形伸縮を反映した目的時間長スペ
クトルパタンが得られるので、自然な音韻の合成音声が
実現される。

【００５４】［実施の形態２］本発明の第２の実施形態
に係る日本語音声合成装置のブロック構成は、上記第１
の実施形態の装置と同様であり、スペクトルパタン生成
部以外の他の構成要素は同様の機能を有するので、説明
を省略する。本装置のスペクトルパタン生成部に関して
は、上記装置と異なるスペクトルパタン生成方法が採用
されるため、区別のためその符号を変え、スペクトルパ
タン生成部２００と記す。以下、スペクトルパタン生成
部２００の処理を詳しく説明する。

【００５５】スペクトルパタン生成部２００はＶＣＶデ
ータベース２０２を有し、これにＶＣＶ単位のスペクト
ルパタン（代表時間長スペクトルパタン）が格納・保持
されている。

【００５６】ＶＣＶデータベース２０２は、ＶＣＶ単位
の各種類について基本的に１種類の代表的な発話速度に
ついてのスペクトルパタン（代表時間長スペクトルパタ
ン）しか保持しない。その代わりに、ＶＣＶデータベー
ス２０２に保持された代表時間長スペクトルパタンに対
する他の代表時間長スペクトルパタンのミクロパス情報
が、ＶＣＶデータベース２０２に予め格納・保持され
る。以上の点が上記実施形態のスペクトルパタン生成部
５６と異なる主な点である。

【００５７】ＶＣＶデータベース２０２に格納する代表
時間長スペクトルパタンの発話速度は、例えば６mora/
秒といった低速であることが望ましい。その理由は、発
話速度が速くなるにつれ、スペクトルパタンに含まれう
る音韻情報が欠落するからである。つまり情報が欠落し
た高速発声におけるスペクトルパタンから精度のよい低
速発声におけるスペクトルパタンを生成することは難し
いが、逆に低速発声におけるスペクトルパタンを捨象し
て精度のよい高速発声におけるスペクトルパタンを生成
することは容易であるからである。

【００５８】ミクロパスをＶＣＶデータベース２０２に
格納する方法について説明する。図５は、ミクロパスを
ＶＣＶデータベース２０２に格納する方法を示す模式図
である。以下、記号に関して上記実施形態と同一の表記
を用いる。ＶＣＶデータベース２０２の作成時には、例
えば３種類の発話速度（低速、中速、高速）で発声され
た音声のスペクトルパタンＳs[i]、Ｓm[j]、Ｓf[k]が用
意される。上述したように、これらのうち、最も発話速
度の遅いスペクトルパタンＳs[i]が、ＶＣＶデータベー
ス２０２に格納される基準スペクトルパタンに選ばれ
る。この基準スペクトルパタンＳs[i]に対する代表時間
長スペクトルパタンＳm[j]、Ｓf[k]それぞれのＤＰパス
が求められ（Ｓ２１０）、これを上記実施形態にて説明
したように分解してミクロパスdＰsm、dＰsfが生成され
る。そして、基準スペクトルパタンＳs[i]の各フレーム
に対応するミクロパスの値dＰsm[i]、dＰsf[i]が求めら
れる（Ｓ２１５）。これら各フレームに対応した複数の
ミクロパスの値をミクロパスベクトルと呼ぶことにす
る。なお、dＰssは敢えて計算する必要はなく、全ての
フレームにおいてdＰss[i]＝０である。よってdＰss[i]
をミクロパスベクトルの成分に含めるかどうかは任意で
ある。一般には、処理の都合上問題がなければ、データ
量を抑制するため、dＰss[i]はミクロパスベクトルの成
分には含めない。

【００５９】これらミクロパスベクトル（dＰsm[i]、d
Ｐsf[i]）が基準スペクトルパタンの各フレームの情報
と組み合わされ（Ｓ２２０）、基準スペクトルパタンの
各フレーム毎にＶＣＶデータベース２０２に格納され
る。なお、スペクトルパタン生成部２００は、スペクト
ルパタン生成処理において各代表時間長スペクトルパタ
ンが発声された継続時間長Ｄs、Ｄm、Ｄfを必要とする
ため、これらを何らかの手段で保持する。これら継続時
間長を基準スペクトルパタンの情報と組にして保持する
構成とすることも可能である。

【００６０】以上の手順により、基準スペクトルパタン
Ｓs[i]の各フレームに、発話速度に応じたミクロパス変
化の各サンプル点の情報が付加され、その基準スペクト
ルパタンがＶＣＶデータベース２０２に音声合成処理に
先だって格納される。スペクトルパタン生成部２００
は、このＶＣＶデータベース２０２を用いて、音韻継続
時間長生成部５４から出力されるＶＣＶ音節の継続時間
長に応じた目的時間長スペクトルパタンＳt[h]の生成を
行う。図６、図７は、スペクトルパタン生成部２００の
処理を説明する模式図である。

【００６１】スペクトルパタン生成部２００には、音韻
継続時間長生成部５４から音韻継続時間長を付与された
音韻記号列が入力される。音韻記号列はＶＣＶ単位に分
割される（Ｓ２５０）。当該ＶＣＶ音節に対応する基準
スペクトルパタンに関するデータが、ＶＣＶデータベー
ス２０２から検索され取り出される（Ｓ２５５）。そし
て、各ＶＣＶ音節の基準スペクトルパタン同士の接続が
行われる（Ｓ２６０）。

【００６２】次に、ＶＣＶデータベース２０２に格納さ
れたミクロパスベクトル３００に基づいて、音韻継続時
間長生成部５４から与えられるＶＣＶ音節の継続時間長
に応じたミクロパス３１０（dＰst）の生成が行われる
（Ｓ２６５）。このミクロパスの合成は、例えば、各フ
レームのミクロパスベクトルの成分を目的時間長に応じ
て線形補間して、各フレームに対応する目的時間長スペ
クトルパタンのミクロパスの値を定めることにより行わ
れる。具体的には、目的時間長ＤtがＤs≦Ｄt≦Ｄmを満
たすときには、 dＰst2[i] ＝{(Ｄs−Ｄt)/(Ｄs−Ｄm)}dＰsm2[i] ………（７）であり、目的時間長ＤtがＤm＜Ｄt≦Ｄfを満たすときに
は、 dＰst2[i] ＝dＰsf2[i]＋{(Ｄt−Ｄf)/(Ｄm−Ｄf)}(dＰsm2[i]−dＰsf2[i]) ………（８）である。なお、ここで媒介変数としてｐの代わりにフレ
ーム番号ｉを用いた。

【００６３】マクロパスＰ'st[i]は、（４）式に表され
るように継続時間長の比を傾きとする直線である。よっ
て、マクロパス３１５として傾き（Ｄt／Ｄs）を有する
直線が生成される。このマクロパスＰ'stにミクロパスd
Ｐstを加算することにより、目的時間長スペクトルパタ
ンに対するＤＰパス３２０（Ｐst）が生成される（Ｓ２
７０）。また、ここで上記実施形態同様、ＤＰパスのフ
レームの格子への吸着が行われ、それに対応して、やは
り上記実施形態同様、フレームの間引き・伸長処理が行
われるとともに、補間処理によるスムージング処理が行
われる（Ｓ２７５）。

【００６４】以上のスペクトルパタン生成部２００にお
ける処理により得られたスペクトルパタンを用いて、音
声合成部６４にて音声の合成が行われる。

【００６５】第１の実施形態の装置は保持するスペクト
ルパタンがＶＣＶ単位のみに限定される分、データベー
スを小さくできた。しかも、目的時間長に最も近い時間
長のスペクトルパタンを伸縮することにより精度のよい
目的時間長スペクトルパタンが得られる。

【００６６】第２の実施形態に係る本装置は、第一の装
置が３つの発話速度に対応したスペクトルパタンをデー
タベースに保持していたのに対し、保持するスペクトル
パタンを単一の発話速度のものに限定することにより一
層のデータベースの縮小を図ることができる。具体的に
は、本装置において、ＶＣＶデータベース２０２に保持
する必要があるのは基本的には１つの発話速度に対応し
たスペクトルパタンとミクロパスベクトルである。例え
ば、スペクトルパタンの１フレームのデータは１９個の
パラメータで構成され、ミクロパスベクトルを構成する
パラメータは上述の例では最低２つとすることができ
る。よって、ミクロパスベクトルによるデータ量の増加
は、スペクトルパタンを３つから１つにすることによる
データ量の削減に比べればわずかなものであり、ＶＣＶ
データベース２０２に格納されるデータ量を大幅に抑制
することができる。

【００６７】また、ＶＣＶ単位のデータが代表時間長の
種類に比例して増加すると、それらの接続における組合
せ数も増加する。そのため、それぞれの接続の滑らかさ
を確保するためには、データ収録を慎重に行わなければ
ならなくなり、データベース作成の労力が増大する。こ
のＶＣＶ単位の接続に関しても、本装置では１つの発話
速度のＶＣＶ単位間でのみ接続が行われるため、その組
合せも大幅に減少し、データ収録、データベース作成の
労力を低減することができる。よって本装置によれば、
非線形伸縮による自然な音声の合成を可能としつつ、か
つ簡便に合成音声装置を構成することができる。

【００６８】

【発明の効果】本発明の音声合成装置によれば、データ
ベースを小規模に抑制しつつ、かつ任意の目的発話速度
に対して、接続歪みや音色の不自然な変化が抑制された
スペクトルパタンが生成され、自然な音韻の合成音声を
生成することができるという効果が得られる。

【図面の簡単な説明】

【図１】本発明に係る日本語音声合成装置のブロック
構成図である。

【図２】第１の実施形態に係る音声合成装置のスペク
トルパタン生成部の処理を説明する模式図である。

【図３】同一のＶＣＶ音節に対応した３種類の発話速
度の代表時間長スペクトルパタンをそれぞれ示す模式図
である。

【図４】ＤＰパスを示す模式図である。

【図５】第２の実施形態に係る音声合成装置におい
て、ミクロパスをＶＣＶデータベースに格納する方法を
示す模式図である。

【図６】第２の実施形態に係る音声合成装置のスペク
トルパタン生成部の処理を説明する模式図である。

【図７】第２の実施形態に係る音声合成装置のスペク
トルパタン生成部によるＤＰパスの合成処理を説明する
模式図である。

【図８】従来のスペクトルパタン生成方式における処
理の流れを示す模式図である。

【符号の説明】

５２テキスト解析処理部、５４音韻継続時間長生成
部、５６，２００スペクトルパタン生成部、５８音
源振幅パタン生成部、６０ピッチパタン生成部、６２
音源生成部、６４音声合成部、１００低速発声Ｖ
ＣＶデータベース、１０２中速発声ＶＣＶデータベー
ス、１０４高速発声ＶＣＶデータベース、２０２Ｖ
ＣＶデータベース、３００ミクロパスベクトル、３１
０ミクロパス、３１５マクロパス、３２０ＤＰパ
ス。

Claims

【特許請求の範囲】

【請求項１】テキストから音韻記号列を生成し、前記
音韻記号列を区分した音韻区画毎にスペクトルパタンを
生成し、音声を規則合成する音声合成装置において、同一の前記音韻区画に対する異なる代表継続時間長に対
応した複数の代表時間長スペクトルパタンそれぞれの時
間変化同士の対応関係に基づき、いずれかの前記代表時
間長スペクトルパタンの前記時間変化を目的継続時間長
に応じて非線形伸縮変換して、前記目的継続時間長に対
応した目的時間長スペクトルパタンを生成するスペクト
ルパタン生成手段を有し、当該目的時間長スペクトルパタンを用いて音声合成する
ことを特徴とする音声合成装置。
【請求項２】請求項１記載の音声合成装置において、前記スペクトルパタン生成手段は、前記音韻区画の種類毎に前記複数の代表時間長スペクト
ルパタンを格納したスペクトルパタン記憶手段と、前記目的継続時間長に応じて前記複数の代表時間長スペ
クトルパタンのいずれかを選択する基準スペクトルパタ
ン選択手段と、前記スペクトルパタン記憶手段に格納された前記代表時
間長スペクトルパタンに基づいて、前記各音韻区画毎に
前記複数の代表時間長スペクトルパタンそれぞれの時間
変化同士の前記対応関係を生成する対応関係生成手段
と、前記対応関係に基づく前記音韻区画内での非線形伸縮変
換を、前記目的継続時間長に応じて前記基準スペクトル
パタンに施す非線形伸縮手段と、を有することを特徴とする音声合成装置。
【請求項３】請求項１記載の音声合成装置において、前記スペクトルパタン生成手段は、前記音韻区画の種類毎に前記複数の代表時間長スペクト
ルパタンを格納したスペクトルパタン記憶手段と、前記目的継続時間長に応じて前記複数の代表時間長スペ
クトルパタンのいずれかを選択する基準スペクトルパタ
ン選択手段と、前記音韻区画の種類毎に前記複数の代表時間長スペクト
ルパタンそれぞれの時間変化同士の前記対応関係を格納
した対応関係記憶手段と、前記対応関係に基づく前記音韻区画内での非線形伸縮変
換を、前記目的継続時間長に応じて前記基準スペクトル
パタンに施す非線形伸縮手段と、を有することを特徴とする音声合成装置。
【請求項４】請求項１記載の音声合成装置において、前記スペクトルパタン生成手段は、前記音韻区画の種類毎の前記複数の代表時間長スペクト
ルパタンのうち基準となる基準スペクトルパタンを格納
したスペクトルパタン記憶手段と、前記音韻区画の種類毎に前記基準スペクトルパタンと他
の前記代表時間長スペクトルパタンと間での時間変化の
前記対応関係を格納した対応関係記憶手段と、前記対応関係に基づく前記音韻区画内での非線形伸縮変
換を、前記目的継続時間長に応じて前記基準スペクトル
パタンに施す非線形伸縮手段と、を有することを特徴とする音声合成装置。
【請求項５】請求項１から請求項４のいずれかに記載
の音声合成装置において、前記複数の代表時間長スペクトルパタンそれぞれの時間
変化同士の前記対応関係は、当該代表時間長スペクトル
パタンの継続時間長に比例した線形伸縮成分と、当該線
形伸縮成分を除いた非線形伸縮成分とに分解され、前記非線形伸縮変換は、前記線形伸縮成分を前記継続時間長に応じて補間して補
間線形伸縮成分を求め、前記非線形伸縮成分を前記継続時間長に応じて補間して
補間非線形伸縮成分を求め、前記補間線形伸縮成分と前記補間非線形伸縮成分とを合
成すること、を特徴とする音声合成装置。
【請求項６】請求項１から請求項５のいずれかに記載
の音声合成装置において、前記複数の代表時間長スペクトルパタンそれぞれの時間
変化同士の前記対応関係は、ＤＰマッチング（動的計画
法）により求められることを特徴とする音声合成装置。