JPH09510554A

JPH09510554A - 言語合成

Info

Publication number: JPH09510554A
Application number: JP7524461A
Authority: JP
Inventors: ロウリー、アンドリュー
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1994-03-18
Filing date: 1995-03-17
Publication date: 1997-10-21
Also published as: DE69519086T2; AU692238B2; WO1995026024A1; DE69519086D1; NZ282012A; AU1899595A; SG43076A1; CN1144008A; ES2152390T3; CA2185134C; CA2185134A1; EP0750778B1; EP0750778A1

Abstract

(57)【要約】合成した言語信号のピッチが言語信号をスペクトル成分と刺激成分とに分けることによって変えられる。後者は、有声言語の場合には、発声刺激の瞬間と少くともほぼ一致して、対応するピッチタイミングマーク信号と同期している一連の重なっている窓関数と乗算されて、窓がけされた言語セグメントに分けられ、このセグメントが制御可能な時間シフトを加えられた後に再び一緒に加算される。スペクトル及び刺激成分は次に再結合される。乗算はピッチ当り少くとも２つの窓を採用し、その各々は１ピッチ期間よりも短い期間を有している。あるいは代って、各窓がタイミングマークの間のピッチ期間の２倍よりも短い期間を有し、タイミングマークに対して非対称とする。

Description

【発明の詳細な説明】言語合成この発明は、（例えば符号化されたテキスト入力からの）言語（speech）の自動生成に関する。とくに、分析・合成方法に係り、ここでは“合成”(synthetic )言語がもともとはヒトの話者から得られた記憶してある言語波形から生成される（“規則による合成”(synthesis by rule)システムに対抗するものである）。自然な音の響きをもつ言語を生成するためには、合成言語にあっては、ヒトの言語で発生するのと同類のイントネーションの脈絡に依存する（韻律的：prosod ic）変化を作り出す必要がある。この発明は、作ろうとしているピッチの変化を規定する韻律的情報の生成を前もって推定し、このようなピッチを得るために言語信号を処理する問題を手がけるものである。（Speech synthesisは音声合成と訳されることが多いがvoice と区別するためにspeechを言語と訳すこととした。）ピッチ調整のための一方法は“Diphone Synthesis Using an Overlap-add Tec hnique for Speech Waveform Concatenation”，Ｆ．Ｊ．Charpentier and Ｍ．Ｇ．Stella，Proc．Int．Conf．ASSP，IEEE，Tokyo，1986，pp.2015-2018．に記述されている。ジフォン（diphone:二音）をそれぞれ表わす言語波形の部分がピッチマーク(p itchmark)に従って記憶され、ピッチマークは（有声言語に対して）波形の各ピッチ期間の最大ピークと時間的に一致し、したがって話者の声門閉鎖(glottal c losure)の瞬間と大まかに対応する；あるいは無声言語に対しては任意的なものとなる。使用対象の波形部分は、ピッチ期間の３倍に等しい長さをもつHamming 窓を用いて重なり合ったセグメント（区分）に分けられる。全体のスペクトルエンベロープがその波形について得られ、また短期間のスペクトルエンベロープが離散的なFourier 変換を用いて得られる。“ソース（源）成分”がスペクトルエンベロープで割った短期間スペクトラムとして求められる。このソース成分は次にそのピッチを線形補間過程によって修正し、エンベロープ情報と再結合される。このような前処理の後に、セグメントは重畳加算過程(overlap-add process)によって連結されて所望の基本ピッチが求められる。別な提案は周波数領域前処理を不要とし、ピッチ周期継続期間の２倍のHammin g 窓を使用する(“A Diphone Synthesis System based on Time−domain Prosod ic Modification of Speech”，C.Hamon，E.Moulines and F.Charpentier，Int ．Conf．ASSP，Glasgow，1989，pp.238-241)。完全な言語信号に対して時間領域重畳加算過程を適用する代りとして、刺激成分を加えることができる。たとえばレシデュアル（誤差）信号（もしくはそのパラメトリック（助変数）表現）を作るためにＬＰＣ解析を用い、さらにＬＰＣ合成フィルタを通す前にレシデュアルに対して重畳加算過程を適用する（“Pitch- synchronous Waveform Processing Techniques for Text-to Speech Synthesis using Diphones"，F.Charpentier and E.Moulines，European Conference on Sp eech Communications and Technology，Paris，1989，vol.II.pp.13-19）。重畳加算過程の基本原理を図１に示し、そこでは言語信号Ｓが示されていて、ピッチマークＰが刺激ピークの中心にある；信号は窓かけ用波形Ｗ（そのうちの２つだけを図示）による乗算によって重なったセグメントに分けられている。合成された波形はセグメントが時間シフトを組入れて一緒に加算されて作られ、あるセグメントがそれぞれ時として除去されたり繰返されたりしてピッチをもち上げたり、低くしたりするようにしている。この発明によると、言語合成装置であって、そこで合成された言語信号のピッチを変えるように制御できる手段を備えたものが用意され、次のものを具備している：（ｉ）言語信号をスペクトル成分と刺激成分とに分離するための手段（ii）刺激成分に一連の重なった窓関数を乗算するための手段。この窓関数は、有声言語の場合には、少くとも発声刺激の瞬間とほぼ一致した対応をもつピッチタイミングマーク情報と同期しているものとする。（iii）セグメントに対して制御可能な時間シフトを与えて、それらを一緒に加算するための手段（iv）スペクトル及び刺激成分を再結合するための手段。ここでは乗算手段が１つのピッチ期間（周期）当り少くとも２つの窓を採用し、その各々は１ピッチ期間（周期）よりも短い期間をもつようにしている。好ましくは、窓の構成は、第１の窓で１ピッチ期間に１つあってタイミングマーク部分を包含したものと、複数の中間窓とがあり、この中間窓の各々は第１の窓よりも幅が小さいようにする。この発明の別な特徴によれば、言語合成装置であって、そこで合成された言語信号のピッチを変えるように制御可能な手段を備えたものが用意され、かつ次の手段を備えている。（ｉ）言語信号をスペクトル成分と刺激成分とに分けるための手段（ii）入力信号サンプルから新しい信号サンプルを補間することによって、刺激成分の時間的な圧縮／伸長をするための手段、及び（iii）スペクトル及び刺激成分を再結合するための手段であって、そこでは乗算手段が１ピッチ期間当り少くとも２つの窓を採用し、各窓は１ピッチ期間よりも短い期間をもつようにしたもの。好ましくは、圧縮／伸長手段は有声刺激の瞬間と、少くともほぼ一致した、対応をもつタイミングマーク情報に応答して動作し、それと同期をとりながら圧縮／伸長の程度を変えて、刺激信号が２つの連続するタイミングマークの間のピッチ期間の中心にあるよりもタイミングマークの近くにあるときの方がわずかな程度で圧縮／伸長されるようにする。この発明のいくつかの実施例を図面を参照して記述して行く。図２はこの発明による合成装置の一形態の構成図である。図３及び５は重畳加算ピッチ調整の２つの方法を示すタイミング図である。図４はスペクトル解析を目的とした言語信号の窓かけを示すタイミング図である。図２の装置ではディジタル言語波形Ｓの一部が記憶部１００内に記憶され、各々には前述のように対応するピッチマークタイミング情報Ｐが備えられている。波形部分はテキスト対言語ドライバ１０１（必要な記憶アドレスを作る）の制御の下に読取られる。ドライバ１０１の動作は通常のもので、ピッチ情報ＰＰも作るという点を指摘するにとどめておく。波形部分のうちの刺激及び発声トラクト成分(excitation and vocal tract components)で記憶部１００から読取られたものはＬＰＣ解析ユニット１０２によって分離され、そこでは言語波形部分の周波数スペクトラムと類似の周波数応答を有する合成フィルタの係数が定期的に作られる。これが合成フィルタの逆である解析フィルタ１０３（インバースフィルタ）を駆動して、レシデュアル（誤差）信号Ｒをその出力として送出する。後述するように、ＬＰＣ解析と逆フィルタとの動作はピッチマークＰと同期している。過程の次の段階はレシデュアル信号のピッチを修正する過程である。有声言語セグメントに対しては、これは複数窓方式によって実行され、そこではレシデュアル信号が処理ユニット１０４内で、１ピッチ期間に少くとも２つの、一連の重なった窓関数を乗算することにより、セグメントに分けられる；図３では５つを示してあり、そこではピッチ期間の中心にある１つの台形の窓と、４つの中間の三角形の窓とが示されている。ピッチ期間窓は中間の窓のよりも幾分幅広で、ピッチを下げるときに主たる刺激の重複を避けるようにしている。ピッチを上げるときは、窓がけしたセグメントを一緒に加算するが、時間間隔は小さくするのであり、図３の下部に示してある。もしピッチを下げるのであれば、時間間隔を増す。いずれの場合も、相対的な窓の幅は正しい信号振幅が確かに得るために、合成の際に傾斜のわきの重なりが得られるように（すなわち、中間の窓で５０％の重なりがあるように）選ばれる。時間的な調整は信号ＰＰによって制御される。中間の窓に対する典型的な幅は２ｍｓであり、ピッチマーク上に位置する窓の幅は特別な信号のピッチ期間に依存することになるが、２ないし１０ｍｓの範囲となることが好ましい。複数の窓を使うことは１ピッチ期間で１つの窓を使用するのと比べて位相ひずみを減らすと考えられる。時間的な処理の後に、レシデュアル（誤差）がＬＰＣフィルタ１０５に送られて、所望の言語信号を再形成する。記憶部１００にはまた各波形部分に対する有声／無声表示器が含まれ、無声部分はユニット１０４と同一のピッチユニット１０４′によって処理されるが、ＬＰＣ解析と合成とをバイパスしている。２つの経路間の切替えが１０６で制御されている。他に、無声部分は有声部分と同じ経路をとることができる。いずれの場合も、ピッチマークに対しては任意の位置がとられる。レシデュアルに対する重畳加算に代って、他のアルゴリズムが開発されており、レシデュアルの形を保存し、さらにシフトと重畳加算から生じ得る位相ひずみを低減させることを意図している。基本的原理はオープンフェーズ（開相）（換言すれば、ピッチマーク間の波形の一部で、ピッチマークの近くの重要な情報を不変のままとしているもの）を再サンプリングし、閉じたところに注入された高周波を保存し、さらに刺激期間に一層現実的な全体波形をもたせるようにしてピッチ期間を変えることである。一般には期間の８０％を再サンプリングすることができる。再サンプリングは各サンプリング瞬間をもとのサンプリングレートで時間軸上の新しい点に写像することによって達成される。次に、再サンプルされた信号に対する各サンプリング瞬間の信号振幅が２つの直近に写像されたサンプル間の線形補間によって推定される。線形補間は再サンプリングにとって理想的ではないが、実現が簡単であり、かつ、少くともこの技術がどんなに有用であるかを示すことにはなる。ピッチ期間を減らすダウンサンプリングの場合は、信号はエーリエーシングを避けるために低域濾波されねばならない。始めは窓設計法を用いて別個のフィルタが各ピッチ期間用に設計されていたが、結果として、計算を減らすために一覧表によって生成することができるようになった。さらに精細なものとするために、再サンプリング因子を処理されるセグメントにわたって滑らかに変えて、境界での信号特性における鋭い変化を避けるように処理される。これなしには、信号の効率的なサンプリングレートは段階の変更を容認しなければならない。正弦波関数が使用され、平滑化の程度が制御可能とされる。可変再サンプリングは次の式によって写像過程で実施される。ここで、Ｍはもとの信号のサンプル数Ｎは新信号のサンプル数 α＝［０，１］は平滑化の程度を制御するＴ（ｎ）は再サンプリングした信号のｎ番目のサンプルの位置である。このやり方と単一窓重畳加算との主たる相違は、ピッチ期間の変化が時間シフトしたセグメントの重畳加算なしに達成されることである。ただし、合成ピッチマークが連続する解析ピッチマークに写像されることを条件とする。もしピッチマークが連続していないと、再サンプリング後に滑らかな信号を与えるようにするために、重畳加算が依然として必要となる。期間が重複したり、必要な期間を提供し損ねたりするときにこれが生ずる。別な実施では各ピッチ期間の選択した部分よりもむしろ全体の信号を再サンプリングすることが行なわれる。これはエーリエーシングを妨げるために適切なフィルタをかけることをすればピッチを上げるのに問題はなく、その理由は調和のとれた構造が依然として全周波数範囲を支配していることによる。しかし、ピッチを下げるときは、補間は、スペクトラムの高い端でのギャップを残す電話への応用をねらった実用システムでは、４ｋＨｚよりも大きな帯域幅（例えば６ｋＨｚ）で言語を記憶し処理することによってこの効果を最小とすることができる。 “失なわれた”高周波数は電話帯域のほとんど外にあることになるから、さして問題はなくなる。どちらの種類の再サンプリング技術も補間／デシメーションと関係する大量の計算が必要となり、とくに再サンプリング因子が２つの整数の比でない場合はそのようになる。ＤＳＰ技術の継続的な発展によって、この技術はさらに魅力のあるものとなろう。上述のＬＰＣ解析に戻ると、これはピッチマーキングと同期することとなり、とくに、一組のＬＰＣパラメータが言語信号内の各ピッチマークに対して必要とされる。言語修正過程の一環として、もとのピッチマークと修正されたピッチマークとの間で写像（マッピング）が行なわれる。その後、レシデュアルから言語を再合成するために、適当なＬＰＣパラメータが各修正されたピッチマークに対して選ばれることになる。ＬＰＣ技術では、フレーム境界におけるパラメータの突然の変化に起因して合成された言語内に不連続が生じ得る。これがクリック（カチッ），ポップ（ポン）及び一般に言う荒い音質を生じ、このいずれもが認識の妨げとなる。こういった効果を最小とするためにＬＰＣパラメータは解析と合成の両方のフェーズ（相）での言語サンプリングレートで補間される。ＬＰＣ解析は通常の方法のいずれかを用いて実行でき、共分散（covariance）もしくは安定化した共分散（stabilised covariance）方法を用いるときは、ＬＰＣパラメータの各組はピッチ期間と等しい長さの言語部分の一部（解析フレーム）に対して求められる（ピッチマーク上ではなくピッチ期間の中点に中心を置くものとする）。あるいはもっと長い、重なった部分が使われ、この場合はピッチに従った固定長の解析フレームを使うことが許されるという利点がある。代って、自己相関法（autocorrelation method）では、窓がけ解析フレームが好ましく、図４にそれを示した。図４のフレームは明瞭にするために三角形の窓をもつものとして示してあるが、実際には窓関数の選定は使用する解析方法に依存する。例えばHamming 窓を用いてもよい。フレーム中心はピッチマークではなく、ピッチ期間の中心に合わせる。この目的は、短いフレームでの閉じたフェーズの解析に頼らずにＬＰＣ解析での声門刺激（glottal excitation）の影響を低減するためである。その結果、各パラメータ組はピッチマークではなく期間の中心を基準とすることになる。フレーム長は固定されるが、その理由はこの方がピッチ依存値よりも一層堅実な結果が得られることが判明したことによる。短いフレーム長では、安定化した共分散方法が正確さの点で好ましい。より長いフレームを使うと３つの方法の間の認知の上での差が観察されないから、計算上効率がよく、安定した合成フィルタが確実に得られる自己相関方法が好ましいこととなる。ＬＰＣパラメータを決定すると、次の段階はピッチ同期に基づいて言語に逆フィルタをかけることである。上述のように、パラメータは補間されて、フレーム境界におけるパラメータ値の大きな変化に起因する過渡現象を最小とする。各ピッチ期間の中心では、フィルタは解析から得られたものと正確に対応する。連続する期間中心間の各サンプリング瞬間では、フィルタは解析から得られた２つのフィルタの重みづけした組合せである。好ましくは、補間がフィルタ係数に対して直接適用されるようにする。これが他のパラメータ（ＬＡＲとかＬＳＰなどのもの）よりもスペクトルひずみを少なくすることは知られているが、安定した補間フィルタが得られることは保証されてはいない。実際には不安定の問題は生じていない。サンプルｎについて、フィルタ係数は次式で与えられ、ａ_n(i)＝α_nａ_l(i)＋（1−α_n）ａ_r(i)，ｉ＝０，…，ｐここでｐはＬＰＣ解析の次数であり、α_nはサンプルｎ．ａ_l及びａ_rにおける重みづけ関数の値である。ａ_lとａ_rとは直近の左と右の期間中心を基準としたパラメータ組を表わす。フィルタ係数の滑らかな変遷を確かなものとするために、重みづけ関数は継続する期間中心間の持ち上げた半余弦（raised half-cosine）であり、次式で与えられ、 α(i)＝０．５＋０．５cos（πｉ／Ｎ），ｉ＝０，…，Ｎ−１ただしＮは期間中心間距離であり、各期間の中心に対応している。再合成フィルタ１０５用のフィルタ係数は逆フィルタに対するのと同じ方法で計算される。ピッチと継続期間とに対する修正は、フィルタのシーケンスと期間値とが解析で使われたものとは異なるが、補間がなおサンプル対サンプルからのフィルタ係数において滑らかな変化を確かにもたらしていることを意味している。有声セグメントにおける第１のピッチマークに対して、フィルタ作用はピッチマークで始まり、期間中心に達するまで補間は適用されない。有声セグメント内の最後のピッチマークに対して、解析フレームを位置決めするために許される最大値を期間と仮定し、フィルタ作用をピッチマークで止める。このフィルタ作用条件は解析と再合成との両方に適用される。第１のピッチマークからの再合成の際に、フィルタメモリは先行する信号サンプルからの初期化が行なわれる。ピッチ調整１０４のさらにまた別な実施例として、単一窓の重畳加算過程を使用する。しかしこの場合は、窓幅が２ピッチ周期継続期間よりも小さい（望ましくは１．７よりも小さく、例えば１．２５ないし１．６の範囲にある）。１００％の重なりよりも小さくすると（すなわちいずれの側も５０％とすると）、窓関数は必然的に平坦な上部をもち、さらにピッチマークに対して好ましくは非対称に位置するようになる（好ましくは２ピッチマーク間の全期間に包含する）。典型的な窓関数を図５に示し、平坦な上部は合成ピッチ期間と等しい長さを有し、かつ、持ち上げられた半余弦もしくは線形形状の側部を有している。上述のように継続期間を制限された窓では、ピッチを下げるときに問題をはらんでいる。合成ピッチマーマー力が十分に離れているときは、窓は全く重ならないし、この状態は標準ピッチ同期重畳加算の場合よりも短い窓の場合の方がすぐに発生する。その効果は合成言語に幾分かバジイ（ブンブン）という音質をもたらすが、これはＴＴＳシステムでかなり極端なピッチの低下を要求するときだけ生ずるものである。ピッチの低下は一般にはピッチの上昇よりも一層むずかしいものであることに変りはなく、既存のデータを除去するのではなく、失なわれたデータを生成する必要があることによる。ピッチを上げるときは修正した窓が、少ない重なり期間が原因して、よい結果をもたらし、従って、信号がひずむ間隔が短い。この窓の形が有利なものとされるのは、信号のわずかな時間部分が長い窓による場合よりも重畳加算過程で作られることにより、また、非対称形状がピッチ期間の終りに対して重畳加算ひずみを加え、その部分では言語（音声）のエネルギーが声門刺激直後よりも近いところとなっている。再サンプリングと複数窓のピッチ制御との使用が（図２に示すように）レシデュアル（誤差）信号に対して作用することが（フォルマントのひずみを避けるために）予想されているが、しかし、短い非対称窓方法もまたスペクトラム端刺激を分離することなく、直接言語信号に対して採用されるのであって、この場合は図２の解析ユニット１０２とフィルタ１０３，１０５は除去され、記憶部１００からの言語信号が直接にピッチユニット１０４，１０４′に加えられる。

【手続補正書】特許法第１８４条の８【提出日】１９９６年４月２日【補正内容】請求の範囲１．そこで合成される言語信号のピッチを変えるように制御可能な手段を備えた言語合成装置であって、（ｉ）言語信号をスペクトル成分と刺激成分とに分けるための手段と、（ii）有声言語の場合には、有声刺激の瞬間もしくはその付近に対応するピッチタイミングマーク情報と同期している一連の重なっている窓関数を刺激成分に乗算して、それを窓がけをした言語セグメントに分離するための乗算手段と、 (iii)セグメントに対して制御可能な時間シフトを与え、かつセグメントを一緒に加算する手段と、（iv）スペクトル及び刺激成分を再結合するための手段とを備え、かつ前記乗算手段がピッチ期間当り少くとも２つの窓を採用し、その各々が１ピッチ期間よりも短い継続期間をもつことを特徴とする言語合成装置。２．窓はピッチ期間当り１つの第１の窓であってタイミングマーク位置を包含するものと、複数の中間窓とで成る請求項１記載の言語合成装置。３．中間窓の各々は第１の窓よりも小さな幅である請求項２記載の言語合成装置。４．そこで合成される言語信号のピッチを変えるように制御可能な手段を含んだ言語合成装置であって、（ｉ）言語信号をスペクトル成分と刺激成分とに分けるための手段と、（ii）入力信号サンプルから新しい信号サンプルを補間することによって刺激成分の時間的な圧縮／伸長をするための手段と、 (iii)スペクトル及び刺激成分を再結合するための手段とを備えたことを特徴とする言語合成装置。５．圧縮／伸長手段は有声刺激の瞬間もしくはその付近に対応するタイミングマーク情報に応答するように動作し、それと同期して圧縮／伸長の程度を変えて刺激信号が２つの連続するタイミングマークの間のピッチ期間の中心にあるよりもタイミングマークの近くにあるときの方がわずかな程度で圧縮／伸長されるようにすることを特徴とする言語合成装置。６．（ａ）言語信号波形の一部をそれぞれが規定し、かつ有声刺激のピークもしくはその近くに対応するタイミングマーク情報をそれぞれが含むデータの項目を有する記憶部と、（ｂ）入力される信号に応答して記憶部からデータの項目を読取るためのアドレスを用意し、かつ言語を作るために脈絡に依存したピッチ変化を表わすピッチ信号を用意するためのドライバ手段とを備えた請求項１ないし５のいずれか１つの請求項に記載の言語合成装置。７．前記スペクトル成分と刺激成分とに分けるための手段が、（ａ）合成された言語を受領し、かつその言語のスペクトル内容と類似の周波数応答を有するフィルタと、逆応答をもつフィルタとのパラメータを生成するための解析手段と、（ｂ）レシデュアル信号を作るために言語にフィルタをかけるパラメータを受領するように接続されたフィルタとを備え、前記再結合するための手段が、（ｃ）パラメータを受領し、かつ逆応答に従ってレシデュアル信号にフィルタをかけるように接続されたインバースフィルタを備えていることを特徴とする請求項１ないし６のいずれか１つの請求項に記載の言語合成装置。８．入力信号を一連の重なった窓と乗算してセグメントに分け、セグメントを時間シフトに与えた後にそれらを再結合することによって入力信号のピッチを制御するための手段を含み、該窓は有声刺激の瞬間を表わすタイミングマークと同期していて、各窓はタイミングマーク間のピッチ期間の２倍よりも短い継続期間を有し、かつタイミングマークに対して非対称であることを特徴とする言語合成装置。９．言語信号をスペクトル成分と刺激成分とに分けるための手段と、入力信号として刺激成分を受領するように接続されているピッチ制御手段と、スペクトル成分とピッチ調整した刺激成分とを再結合するための手段とを備えた請求項８記載の言語合成装置。

Claims

【特許請求の範囲】１．そこで合成される言語信号のピッチを変えるように制御可能な手段を備えた言語合成装置であって、（ｉ）言語信号をスペクトル成分と刺激成分とに分けるための手段と、（ii）有声言語の場合には、有声刺激の瞬間もしくはその付近に対応するピッチタイミングマーク情報と同期している一連の重なっている窓関数を刺激成分に乗算して、それを窓がけをした言語セグメントに分離するための乗算手段と、 (iii)セグメントに対して制御可能な時間シフトを与え、かつセグメントを一緒に加算する手段と、（iv）スペクトル及び刺激成分を再結合するための手段とを備え、かつ前記乗算手段がピッチ期間当り少くとも２つの窓を採用し、その各々が１ピッチ期間よりも短い継続期間をもつことを特徴とする言語合成装置。２．窓はピッチ期間当り１つの第１の窓であってタイミングマーク位置を包含するものと、複数の中間窓とで成る請求項１記載の言語合成装置。３．中間窓の各々は第１の窓よりも小さな幅である請求項２記載の言語合成装置。４．そこで合成される言語信号のピッチを変えるように制御可能な手段を含んだ言語合成装置であって、（ｉ）言語信号をスペクトル成分と刺激成分とに分けるための手段と、（ii）入力信号サンプルから新しい信号サンプルを補間することによって刺激成分の時間的な圧縮／伸長をするための手段と、 (iii)スペクトル及び刺激成分を再結合するための手段とを備えたことを特徴とする言語合成装置。５．圧縮／伸長手段は有声刺激の瞬間もしくはその付近に対応するタイミングマーク情報に応答するように動作し、それと同期して縮・伸長の程度を変えて刺激信号が２つの連続するタイミングマークの間のピッチ期間の中心にあるよりもタイミングマークの近くにあるときの方がわずかな程度で圧縮／伸長されるようにすることを特徴とする言語合成装置。６．（ａ）言語信号波形の一部をそれぞれが規定し、かつ有声刺激のピークもしくはその近くに対応するタイミングマーク情報をそれぞれが含むデータの項目を有する記憶部と、（ｂ）入力される信号に応答して記憶部からデータの項目を読取るためのアドレスを用意し、かつ言語を作るために脈絡に依存したピッチ変化を表わすピッチ信号を用意するためのドライバ手段とを備えた請求項１ないし５のいずれか１つの請求項に記載の言語合成装置。７．前記スペクトル成分と刺激成分とに分けるための手段が、（ａ）合成された言語を受領し、かつその言語のスペクトル内容と類似の周波数応答を有するフィルタと、逆応答をもつフィルタとのパラメータを生成するための解析手段と、（ｂ）レシデュアル信号を作るために言語にフィルタをかけるパラメータを受領するように接続されたフィルタとを備え、前記再結合するための手段が、（ｃ）パラメータを受領し、かつ逆応答に従ってレシデュアル信号にフィルタをかけるように接続されたインバースフィルタを備えていることを特徴とする請求項１ないし６のいずれか１つの請求項に記載の言語合成装置。８．信号を一連の重なった窓と乗算してセグメントに分け、セグメントを時間シフトに与えた後にそれらを再結合することによって信号のピッチを制御するための手段を含み、該窓は有声刺激の瞬間を表わすタイミングマークと同期していて、各窓はタイミングマーク間のピッチ期間の２倍よりも短い継続期間を有し、かつタイミングマークに対して非対称であることを特徴とする言語合成装置。９．言語信号をスペクトル成分と刺激成分とに分けるための手段と、刺激成分を受領するように接続されているピッチ制御手段と、スペクトル成分とピッチ調整した刺激成分とを再結合するための手段とを備えた請求項８記載の言語合成装置。