JPH09510554A - 言語合成 - Google Patents

言語合成

Info

Publication number
JPH09510554A
JPH09510554A JP7524461A JP52446195A JPH09510554A JP H09510554 A JPH09510554 A JP H09510554A JP 7524461 A JP7524461 A JP 7524461A JP 52446195 A JP52446195 A JP 52446195A JP H09510554 A JPH09510554 A JP H09510554A
Authority
JP
Japan
Prior art keywords
language
pitch
signal
stimulus
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP7524461A
Other languages
English (en)
Inventor
ロウリー、アンドリュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JPH09510554A publication Critical patent/JPH09510554A/ja
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Abstract

(57)【要約】 合成した言語信号のピッチが言語信号をスペクトル成分と刺激成分とに分けることによって変えられる。後者は、有声言語の場合には、発声刺激の瞬間と少くともほぼ一致して、対応するピッチタイミングマーク信号と同期している一連の重なっている窓関数と乗算されて、窓がけされた言語セグメントに分けられ、このセグメントが制御可能な時間シフトを加えられた後に再び一緒に加算される。スペクトル及び刺激成分は次に再結合される。乗算はピッチ当り少くとも2つの窓を採用し、その各々は1ピッチ期間よりも短い期間を有している。あるいは代って、各窓がタイミングマークの間のピッチ期間の2倍よりも短い期間を有し、タイミングマークに対して非対称とする。

Description

【発明の詳細な説明】 言語合成 この発明は、(例えば符号化されたテキスト入力からの)言語(speech)の自 動生成に関する。とくに、分析・合成方法に係り、ここでは“合成”(synthetic )言語がもともとはヒトの話者から得られた記憶してある言語波形から生成され る(“規則による合成”(synthesis by rule)システムに対抗するものである) 。自然な音の響きをもつ言語を生成するためには、合成言語にあっては、ヒトの 言語で発生するのと同類のイントネーションの脈絡に依存する(韻律的:prosod ic)変化を作り出す必要がある。この発明は、作ろうとしているピッチの変化を 規定する韻律的情報の生成を前もって推定し、このようなピッチを得るために言 語信号を処理する問題を手がけるものである。(Speech synthesisは音声合成と 訳されることが多いがvoice と区別するためにspeechを言語と訳すこととした。 ) ピッチ調整のための一方法は“Diphone Synthesis Using an Overlap-add Tec hnique for Speech Waveform Concatenation”,F.J.Charpentier and M. G.Stella,Proc.Int.Conf.ASSP,IEEE,Tokyo,1986,pp.2015-2018.に記 述されている。 ジフォン(diphone:二音)をそれぞれ表わす言語波形の部分がピッチマーク(p itchmark)に従って記憶され、ピッチマークは(有声言語に対して)波形の各ピ ッチ期間の最大ピークと時間的に一致し、したがって話者の声門閉鎖(glottal c losure)の瞬間と大まかに対応する;あるいは無声言語に対しては任意的なもの となる。 使用対象の波形部分は、ピッチ期間の3倍に等しい長さをもつHamming 窓を用 いて重なり合ったセグメント(区分)に分けられる。全体のスペクトルエンベロ ープがその波形について得られ、また短期間のスペクトルエンベロープが離散的 なFourier 変換を用いて得られる。“ソース(源)成分”がスペクトルエンベロ ープで割った短期間スペクトラムとして求められる。このソース成分は次にその ピッチを線形補間過程によって修正し、エンベロープ情報と再結合される。この ような前処理の後に、セグメントは重畳加算過程(overlap-add process)によって連結されて所望の基本ピッチが求められる。 別な提案は周波数領域前処理を不要とし、ピッチ周期継続期間の2倍のHammin g 窓を使用する(“A Diphone Synthesis System based on Time−domain Prosod ic Modification of Speech”,C.Hamon,E.Moulines and F.Charpentier,Int .Conf.ASSP,Glasgow,1989,pp.238-241)。 完全な言語信号に対して時間領域重畳加算過程を適用する代りとして、刺激成 分を加えることができる。たとえばレシデュアル(誤差)信号(もしくはそのパ ラメトリック(助変数)表現)を作るためにLPC解析を用い、さらにLPC合 成フィルタを通す前にレシデュアルに対して重畳加算過程を適用する(“Pitch- synchronous Waveform Processing Techniques for Text-to Speech Synthesis using Diphones",F.Charpentier and E.Moulines,European Conference on Sp eech Communications and Technology,Paris,1989,vol.II.pp.13-19)。 重畳加算過程の基本原理を図1に示し、そこでは言語信号Sが示されていて、 ピッチマークPが刺激ピークの中心にある;信号は窓かけ用波形W(そのうちの 2つだけを図示)による乗算によって重なったセグメントに分けられている。合 成された波形はセグメントが時間シフトを組入れて一緒に加算されて作られ、あ るセグメントがそれぞれ時として除去されたり繰返されたりしてピッチをもち上 げたり、低くしたりするようにしている。 この発明によると、言語合成装置であって、そこで合成された言語信号のピッ チを変えるように制御できる手段を備えたものが用意され、次のものを具備して いる: (i) 言語信号をスペクトル成分と刺激成分とに分離するための手段 (ii) 刺激成分に一連の重なった窓関数を乗算するための手段。この窓関数 は、有声言語の場合には、少くとも発声刺激の瞬間とほぼ一致した対応をもつピ ッチタイミングマーク情報と同期しているものとする。 (iii) セグメントに対して制御可能な時間シフトを与えて、それらを一緒に 加算するための手段 (iv) スペクトル及び刺激成分を再結合するための手段。ここでは乗算手 段が1つのピッチ期間(周期)当り少くとも2つの窓を採用し、その各々は1ピ ッチ期間(周期)よりも短い期間をもつようにしている。好ましくは、窓の構成 は、第1の窓で1ピッチ期間に1つあってタイミングマーク部分を包含したもの と、複数の中間窓とがあり、この中間窓の各々は第1の窓よりも幅が小さいよう にする。 この発明の別な特徴によれば、言語合成装置であって、そこで合成された言語 信号のピッチを変えるように制御可能な手段を備えたものが用意され、かつ次の 手段を備えている。 (i) 言語信号をスペクトル成分と刺激成分とに分けるための手段 (ii) 入力信号サンプルから新しい信号サンプルを補間することによって、 刺激成分の時間的な圧縮/伸長をするための手段、及び (iii) スペクトル及び刺激成分を再結合するための手段であって、そこでは 乗算手段が1ピッチ期間当り少くとも2つの窓を採用し、各窓は1ピッチ期間よ りも短い期間をもつようにしたもの。好ましくは、圧縮/伸長手段は有声刺激の 瞬間と、少くともほぼ一致した、対応をもつタイミングマーク情報に応答して動 作し、それと同期をとりながら圧縮/伸長の程度を変えて、刺激信号が2つの連 続するタイミングマークの間のピッチ期間の中心にあるよりもタイミングマーク の近くにあるときの方がわずかな程度で圧縮/伸長されるようにする。 この発明のいくつかの実施例を図面を参照して記述して行く。 図2はこの発明による合成装置の一形態の構成図である。 図3及び5は重畳加算ピッチ調整の2つの方法を示すタイミング図である。 図4はスペクトル解析を目的とした言語信号の窓かけを示すタイミング図であ る。 図2の装置ではディジタル言語波形Sの一部が記憶部100内に記憶され、各 々には前述のように対応するピッチマークタイミング情報Pが備えられている。 波形部分はテキスト対言語ドライバ101(必要な記憶アドレスを作る)の制御 の下に読取られる。ドライバ101の動作は通常のもので、ピッチ情報PPも作 るという点を指摘するにとどめておく。波形部分のうちの刺激及び発 声トラクト成分(excitation and vocal tract components)で記憶部100から 読取られたものはLPC解析ユニット102によって分離され、そこでは言語波 形部分の周波数スペクトラムと類似の周波数応答を有する合成フィルタの係数が 定期的に作られる。これが合成フィルタの逆である解析フィルタ103(インバ ースフィルタ)を駆動して、レシデュアル(誤差)信号Rをその出力として送出 する。 後述するように、LPC解析と逆フィルタとの動作はピッチマークPと同期し ている。 過程の次の段階はレシデュアル信号のピッチを修正する過程である。有声言語 セグメントに対しては、これは複数窓方式によって実行され、そこではレシデュ アル信号が処理ユニット104内で、1ピッチ期間に少くとも2つの、一連の重 なった窓関数を乗算することにより、セグメントに分けられる;図3では5つを 示してあり、そこではピッチ期間の中心にある1つの台形の窓と、4つの中間の 三角形の窓とが示されている。ピッチ期間窓は中間の窓のよりも幾分幅広で、ピ ッチを下げるときに主たる刺激の重複を避けるようにしている。 ピッチを上げるときは、窓がけしたセグメントを一緒に加算するが、時間間隔 は小さくするのであり、図3の下部に示してある。もしピッチを下げるのであれ ば、時間間隔を増す。いずれの場合も、相対的な窓の幅は正しい信号振幅が確か に得るために、合成の際に傾斜のわきの重なりが得られるように(すなわち、中 間の窓で50%の重なりがあるように)選ばれる。時間的な調整は信号PPによ って制御される。中間の窓に対する典型的な幅は2msであり、ピッチマーク上 に位置する窓の幅は特別な信号のピッチ期間に依存することになるが、2ないし 10msの範囲となることが好ましい。複数の窓を使うことは1ピッチ期間で1 つの窓を使用するのと比べて位相ひずみを減らすと考えられる。時間的な処理の 後に、レシデュアル(誤差)がLPCフィルタ105に送られて、所望の言語信 号を再形成する。 記憶部100にはまた各波形部分に対する有声/無声表示器が含まれ、無声部 分はユニット104と同一のピッチユニット104′によって処理されるが、L PC解析と合成とをバイパスしている。2つの経路間の切替えが106で制 御されている。他に、無声部分は有声部分と同じ経路をとることができる。いず れの場合も、ピッチマークに対しては任意の位置がとられる。 レシデュアルに対する重畳加算に代って、他のアルゴリズムが開発されており 、レシデュアルの形を保存し、さらにシフトと重畳加算から生じ得る位相ひずみ を低減させることを意図している。基本的原理はオープンフェーズ(開相)(換 言すれば、ピッチマークの波形の一部で、ピッチマークの近くの重要な情報を 不変のままとしているもの)を再サンプリングし、閉じたところに注入された高 周波を保存し、さらに刺激期間に一層現実的な全体波形をもたせるようにしてピ ッチ期間を変えることである。一般には期間の80%を再サンプリングすること ができる。 再サンプリングは各サンプリング瞬間をもとのサンプリングレートで時間軸上 の新しい点に写像することによって達成される。次に、再サンプルされた信号に 対する各サンプリング瞬間の信号振幅が2つの直近に写像されたサンプル間の線 形補間によって推定される。線形補間は再サンプリングにとって理想的ではない が、実現が簡単であり、かつ、少くともこの技術がどんなに有用であるかを示す ことにはなる。ピッチ期間を減らすダウンサンプリングの場合は、信号はエーリ エーシングを避けるために低域濾波されねばならない。始めは窓設計法を用いて 別個のフィルタが各ピッチ期間用に設計されていたが、結果として、計算を減ら すために一覧表によって生成することができるようになった。 さらに精細なものとするために、再サンプリング因子を処理されるセグメント にわたって滑らかに変えて、境界での信号特性における鋭い変化を避けるように 処理される。これなしには、信号の効率的なサンプリングレートは段階の変更を 容認しなければならない。正弦波関数が使用され、平滑化の程度が制御可能とさ れる。可変再サンプリングは次の式によって写像過程で実施される。 ここで、Mはもとの信号のサンプル数 Nは新信号のサンプル数 α=[0,1]は平滑化の程度を制御する T(n)は再サンプリングした信号のn番目のサンプルの位置 である。 このやり方と単一窓重畳加算との主たる相違は、ピッチ期間の変化が時間シフ トしたセグメントの重畳加算なしに達成されることである。ただし、合成ピッチ マークが連続する解析ピッチマークに写像されることを条件とする。もしピッチ マークが連続していないと、再サンプリング後に滑らかな信号を与えるようにす るために、重畳加算が依然として必要となる。期間が重複したり、必要な期間を 提供し損ねたりするときにこれが生ずる。 別な実施では各ピッチ期間の選択した部分よりもむしろ全体の信号を再サンプ リングすることが行なわれる。これはエーリエーシングを妨げるために適切なフ ィルタをかけることをすればピッチを上げるのに問題はなく、その理由は調和の とれた構造が依然として全周波数範囲を支配していることによる。しかし、ピッ チを下げるときは、補間は、スペクトラムの高い端でのギャップを残す電話への 応用をねらった実用システムでは、4kHzよりも大きな帯域幅(例えば6kH z)で言語を記憶し処理することによってこの効果を最小とすることができる。 “失なわれた”高周波数は電話帯域のほとんど外にあることになるから、さして 問題はなくなる。 どちらの種類の再サンプリング技術も補間/デシメーションと関係する大量の 計算が必要となり、とくに再サンプリング因子が2つの整数の比でない場合はそ のようになる。DSP技術の継続的な発展によって、この技術はさらに魅力のあ るものとなろう。 上述のLPC解析に戻ると、これはピッチマーキングと同期することとなり、 とくに、一組のLPCパラメータが言語信号内の各ピッチマークに対して必要と される。言語修正過程の一環として、もとのピッチマークと修正されたピッチマ ークとの間で写像(マッピング)が行なわれる。その後、レシデュアルから言語 を再合成するために、適当なLPCパラメータが各修正されたピッチマ ークに対して選ばれることになる。 LPC技術では、フレーム境界におけるパラメータの突然の変化に起因して合 成された言語内に不連続が生じ得る。これがクリック(カチッ),ポップ(ポン )及び一般に言う荒い音質を生じ、このいずれもが認識の妨げとなる。こういっ た効果を最小とするためにLPCパラメータは解析と合成の両方のフェーズ(相 )での言語サンプリングレートで補間される。 LPC解析は通常の方法のいずれかを用いて実行でき、共分散(covariance) もしくは安定化した共分散(stabilised covariance)方法を用いるときは、L PCパラメータの各組はピッチ期間と等しい長さの言語部分の一部(解析フレー ム)に対して求められる(ピッチマーク上ではなくピッチ期間の中点に中心を置 くものとする)。あるいはもっと長い、重なった部分が使われ、この場合はピッ チに従った固定長の解析フレームを使うことが許されるという利点がある。 代って、自己相関法(autocorrelation method)では、窓がけ解析フレームが 好ましく、図4にそれを示した。 図4のフレームは明瞭にするために三角形の窓をもつものとして示してあるが 、実際には窓関数の選定は使用する解析方法に依存する。例えばHamming 窓を用 いてもよい。フレーム中心はピッチマークではなく、ピッチ期間の中心に合わせ る。この目的は、短いフレームでの閉じたフェーズの解析に頼らずにLPC解析 での声門刺激(glottal excitation)の影響を低減するためである。その結果、 各パラメータ組はピッチマークではなく期間の中心を基準とすることになる。フ レーム長は固定されるが、その理由はこの方がピッチ依存値よりも一層堅実な結 果が得られることが判明したことによる。 短いフレーム長では、安定化した共分散方法が正確さの点で好ましい。より長 いフレームを使うと3つの方法の間の認知の上での差が観察されないから、計算 上効率がよく、安定した合成フィルタが確実に得られる自己相関方法が好ましい こととなる。 LPCパラメータを決定すると、次の段階はピッチ同期に基づいて言語に逆フ ィルタをかけることである。上述のように、パラメータは補間されて、フレ ーム境界におけるパラメータ値の大きな変化に起因する過渡現象を最小とする。 各ピッチ期間の中心では、フィルタは解析から得られたものと正確に対応する。 連続する期間中心間の各サンプリング瞬間では、フィルタは解析から得られた2 つのフィルタの重みづけした組合せである。好ましくは、補間がフィルタ係数に 対して直接適用されるようにする。これが他のパラメータ(LARとかLSPな どのもの)よりもスペクトルひずみを少なくすることは知られているが、安定し た補間フィルタが得られることは保証されてはいない。実際には不安定の問題は 生じていない。 サンプルnについて、フィルタ係数は次式で与えられ、 an(i)=αnl(i)+(1−αn)ar(i), i=0,…,p ここでpはLPC解析の次数であり、αnはサンプルn.al及びarにおける重 みづけ関数の値である。alとarとは直近の左と右の期間中心を基準としたパラ メータ組を表わす。フィルタ係数の滑らかな変遷を確かなものとするために、重 みづけ関数は継続する期間中心間の持ち上げた半余弦(raised half-cosine)で あり、次式で与えられ、 α(i)=0.5+0.5cos(πi/N), i=0,…,N−1 ただしNは期間中心間距離であり、各期間の中心に対応している。 再合成フィルタ105用のフィルタ係数は逆フィルタに対するのと同じ方法で 計算される。ピッチと継続期間とに対する修正は、フィルタのシーケンスと期間 値とが解析で使われたものとは異なるが、補間がなおサンプル対サンプルからの フィルタ係数において滑らかな変化を確かにもたらしていることを意味している 。有声セグメントにおける第1のピッチマークに対して、フィルタ作用はピッチ マークで始まり、期間中心に達するまで補間は適用されない。有声セグメント内 の最後のピッチマークに対して、解析フレームを位置決めするために許される最 大値を期間と仮定し、フィルタ作用をピッチマークで止める。このフィルタ作用 条件は解析と再合成との両方に適用される。第1のピッチマークからの再合成の 際に、フィルタメモリは先行する信号サンプルからの初期 化が行なわれる。 ピッチ調整104のさらにまた別な実施例として、単一窓の重畳加算過程を使 用する。しかしこの場合は、窓幅が2ピッチ周期継続期間よりも小さい(望まし くは1.7よりも小さく、例えば1.25ないし1.6の範囲にある)。100 %の重なりよりも小さくすると(すなわちいずれの側も50%とすると)、窓関 数は必然的に平坦な上部をもち、さらにピッチマークに対して好ましくは非対称 に位置するようになる(好ましくは2ピッチマーク間の全期間に包含する)。典 型的な窓関数を図5に示し、平坦な上部は合成ピッチ期間と等しい長さを有し、 かつ、持ち上げられた半余弦もしくは線形形状の側部を有している。 上述のように継続期間を制限された窓では、ピッチを下げるときに問題をはら んでいる。合成ピッチマーマー力が十分に離れているときは、窓は全く重ならな いし、この状態は標準ピッチ同期重畳加算の場合よりも短い窓の場合の方がすぐ に発生する。その効果は合成言語に幾分かバジイ(ブンブン)という音質をもた らすが、これはTTSシステムでかなり極端なピッチの低下を要求するときだけ 生ずるものである。ピッチの低下は一般にはピッチの上昇よりも一層むずかしい ものであることに変りはなく、既存のデータを除去するのではなく、失なわれた データを生成する必要があることによる。ピッチを上げるときは修正した窓が、 少ない重なり期間が原因して、よい結果をもたらし、従って、信号がひずむ間隔 が短い。 この窓の形が有利なものとされるのは、信号のわずかな時間部分が長い窓によ る場合よりも重畳加算過程で作られることにより、また、非対称形状がピッチ期 間の終りに対して重畳加算ひずみを加え、その部分では言語(音声)のエネルギ ーが声門刺激直後よりも近いところとなっている。 再サンプリングと複数窓のピッチ制御との使用が(図2に示すように)レシデ ュアル(誤差)信号に対して作用することが(フォルマントのひずみを避けるた めに)予想されているが、しかし、短い非対称窓方法もまたスペクトラム端刺激 を分離することなく、直接言語信号に対して採用されるのであって、この場合は 図2の解析ユニット102とフィルタ103,105は除去され、記 憶部100からの言語信号が直接にピッチユニット104,104′に加えられ る。
【手続補正書】特許法第184条の8 【提出日】1996年4月2日 【補正内容】 請求の範囲 1.そこで合成される言語信号のピッチを変えるように制御可能な手段を備え た言語合成装置であって、 (i)言語信号をスペクトル成分と刺激成分とに分けるための手段と、 (ii)有声言語の場合には、有声刺激の瞬間もしくはその付近に対応するピッ チタイミングマーク情報と同期している一連の重なっている窓関数を刺激成分に 乗算して、それを窓がけをした言語セグメントに分離するための乗算手段と、 (iii)セグメントに対して制御可能な時間シフトを与え、かつセグメントを一 緒に加算する手段と、 (iv)スペクトル及び刺激成分を再結合するための手段とを備え、かつ前記乗 算手段がピッチ期間当り少くとも2つの窓を採用し、その各々が1ピッチ期間よ りも短い継続期間をもつことを特徴とする言語合成装置。 2.窓はピッチ期間当り1つの第1の窓であってタイミングマーク位置を包含 するものと、複数の中間窓とで成る請求項1記載の言語合成装置。 3.中間窓の各々は第1の窓よりも小さな幅である請求項2記載の言語合成装 置。 4.そこで合成される言語信号のピッチを変えるように制御可能な手段を含ん だ言語合成装置であって、 (i)言語信号をスペクトル成分と刺激成分とに分けるための手段と、 (ii)入力信号サンプルから新しい信号サンプルを補間することによって刺激 成分の時間的な圧縮/伸長をするための手段と、 (iii)スペクトル及び刺激成分を再結合するための手段とを備えたことを特徴 とする言語合成装置。 5.圧縮/伸長手段は有声刺激の瞬間もしくはその付近に対応するタイミング マーク情報に応答するように動作し、それと同期して圧縮/伸長の程度を変えて 刺激信号が2つの連続するタイミングマークの間のピッチ期間の中心にあるより もタイミングマークの近くにあるときの方がわずかな程度で圧縮/伸長されるよ うにすることを特徴とする言語合成装置。 6.(a)言語信号波形の一部をそれぞれが規定し、かつ有声刺激のピークも しくはその近くに対応するタイミングマーク情報をそれぞれが含むデータの項目 を有する記憶部と、 (b)入力される信号に応答して記憶部からデータの項目を読取るためのアド レスを用意し、かつ言語を作るために脈絡に依存したピッチ変化を表わすピッチ 信号を用意するためのドライバ手段とを備えた請求項1ないし5のいずれか1つ の請求項に記載の言語合成装置。 7.前記スペクトル成分と刺激成分とに分けるための手段が、 (a)合成された言語を受領し、かつその言語のスペクトル内容と類似の周波 数応答を有するフィルタと、逆応答をもつフィルタとのパラメータを生成するた めの解析手段と、 (b)レシデュアル信号を作るために言語にフィルタをかけるパラメータを受 領するように接続されたフィルタとを備え、 前記再結合するための手段が、 (c)パラメータを受領し、かつ逆応答に従ってレシデュアル信号にフィルタ をかけるように接続されたインバースフィルタを備えていることを特徴とする請 求項1ないし6のいずれか1つの請求項に記載の言語合成装置。 8.入力信号を一連の重なった窓と乗算してセグメントに分け、セグメントを 時間シフトに与えた後にそれらを再結合することによって入力信号のピッチを制 御するための手段を含み、該窓は有声刺激の瞬間を表わすタイミングマークと同 期していて、各窓はタイミングマーク間のピッチ期間の2倍よりも短い継続期間 を有し、かつタイミングマークに対して非対称であることを特徴とする言語合成 装置。 9.言語信号をスペクトル成分と刺激成分とに分けるための手段と、入力信号 として刺激成分を受領するように接続されているピッチ制御手段と、スペクトル 成分とピッチ調整した刺激成分とを再結合するための手段とを備えた請求項8記 載の言語合成装置。

Claims (1)

  1. 【特許請求の範囲】 1.そこで合成される言語信号のピッチを変えるように制御可能な手段を備え た言語合成装置であって、 (i)言語信号をスペクトル成分と刺激成分とに分けるための手段と、 (ii)有声言語の場合には、有声刺激の瞬間もしくはその付近に対応するピッ チタイミングマーク情報と同期している一連の重なっている窓関数を刺激成分に 乗算して、それを窓がけをした言語セグメントに分離するための乗算手段と、 (iii)セグメントに対して制御可能な時間シフトを与え、かつセグメントを一 緒に加算する手段と、 (iv)スペクトル及び刺激成分を再結合するための手段とを備え、かつ前記乗 算手段がピッチ期間当り少くとも2つの窓を採用し、その各々が1ピッチ期間よ りも短い継続期間をもつことを特徴とする言語合成装置。 2.窓はピッチ期間当り1つの第1の窓であってタイミングマーク位置を包含 するものと、複数の中間窓とで成る請求項1記載の言語合成装置。 3.中間窓の各々は第1の窓よりも小さな幅である請求項2記載の言語合成装 置。 4.そこで合成される言語信号のピッチを変えるように制御可能な手段を含ん だ言語合成装置であって、 (i)言語信号をスペクトル成分と刺激成分とに分けるための手段と、 (ii)入力信号サンプルから新しい信号サンプルを補間することによって刺激 成分の時間的な圧縮/伸長をするための手段と、 (iii)スペクトル及び刺激成分を再結合するための手段とを備えたことを特徴 とする言語合成装置。 5.圧縮/伸長手段は有声刺激の瞬間もしくはその付近に対応するタイミング マーク情報に応答するように動作し、それと同期して縮・伸長の程度を変えて刺 激信号が2つの連続するタイミングマークの間のピッチ期間の中心にあるよりも タイミングマークの近くにあるときの方がわずかな程度で圧縮/伸長されるよう にすることを特徴とする言語合成装置。 6.(a)言語信号波形の一部をそれぞれが規定し、かつ有声刺激のピークも しくはその近くに対応するタイミングマーク情報をそれぞれが含むデータの項目 を有する記憶部と、 (b)入力される信号に応答して記憶部からデータの項目を読取るためのアド レスを用意し、かつ言語を作るために脈絡に依存したピッチ変化を表わすピッチ 信号を用意するためのドライバ手段とを備えた請求項1ないし5のいずれか1つ の請求項に記載の言語合成装置。 7.前記スペクトル成分と刺激成分とに分けるための手段が、 (a)合成された言語を受領し、かつその言語のスペクトル内容と類似の周波 数応答を有するフィルタと、逆応答をもつフィルタとのパラメータを生成するた めの解析手段と、 (b)レシデュアル信号を作るために言語にフィルタをかけるパラメータを受 領するように接続されたフィルタとを備え、 前記再結合するための手段が、 (c)パラメータを受領し、かつ逆応答に従ってレシデュアル信号にフィルタ をかけるように接続されたインバースフィルタを備えていることを特徴とする請 求項1ないし6のいずれか1つの請求項に記載の言語合成装置。 8.信号を一連の重なった窓と乗算してセグメントに分け、セグメントを時間 シフトに与えた後にそれらを再結合することによって信号のピッチを制御するた めの手段を含み、該窓は有声刺激の瞬間を表わすタイミングマークと同期してい て、各窓はタイミングマーク間のピッチ期間の2倍よりも短い継続期間を有し、 かつタイミングマークに対して非対称であることを特徴とする言語合成装置。 9.言語信号をスペクトル成分と刺激成分とに分けるための手段と、刺激成分 を受領するように接続されているピッチ制御手段と、スペクトル成分とピッチ調 整した刺激成分とを再結合するための手段とを備えた請求項8記載の言語合成装 置。
JP7524461A 1994-03-18 1995-03-17 言語合成 Ceased JPH09510554A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
SG1996003308A SG43076A1 (en) 1994-03-18 1994-03-18 Speech synthesis
AT94301953.9 1994-03-18
EP94301953 1994-03-18
PCT/GB1995/000588 WO1995026024A1 (en) 1994-03-18 1995-03-17 Speech synthesis

Publications (1)

Publication Number Publication Date
JPH09510554A true JPH09510554A (ja) 1997-10-21

Family

ID=26136991

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7524461A Ceased JPH09510554A (ja) 1994-03-18 1995-03-17 言語合成

Country Status (10)

Country Link
EP (1) EP0750778B1 (ja)
JP (1) JPH09510554A (ja)
CN (1) CN1144008A (ja)
AU (1) AU692238B2 (ja)
CA (1) CA2185134C (ja)
DE (1) DE69519086T2 (ja)
ES (1) ES2152390T3 (ja)
NZ (1) NZ282012A (ja)
SG (1) SG43076A1 (ja)
WO (1) WO1995026024A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3093113B2 (ja) * 1994-09-21 2000-10-03 日本アイ・ビー・エム株式会社 音声合成方法及びシステム
AU3978595A (en) * 1994-11-25 1996-06-19 Fink, Flemming K. Method for transforming a speech signal using a pitch manipulator
AU6044398A (en) * 1997-01-27 1998-08-26 Entropic Research Laboratory, Inc. A system and methodology for prosody modification
CN104205213B (zh) * 2012-03-23 2018-01-05 西门子公司 语音信号处理方法及装置以及使用其的助听器
JP6446993B2 (ja) * 2014-10-20 2019-01-09 ヤマハ株式会社 音声制御装置およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5163110A (en) * 1990-08-13 1992-11-10 First Byte Pitch control in artificial speech

Also Published As

Publication number Publication date
DE69519086T2 (de) 2001-05-10
AU692238B2 (en) 1998-06-04
WO1995026024A1 (en) 1995-09-28
DE69519086D1 (de) 2000-11-16
NZ282012A (en) 1997-05-26
AU1899595A (en) 1995-10-09
SG43076A1 (en) 1997-10-17
CN1144008A (zh) 1997-02-26
ES2152390T3 (es) 2001-02-01
CA2185134C (en) 2001-04-24
CA2185134A1 (en) 1995-09-28
EP0750778B1 (en) 2000-10-11
EP0750778A1 (en) 1997-01-02

Similar Documents

Publication Publication Date Title
US8121834B2 (en) Method and device for modifying an audio signal
Charpentier et al. Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones.
Moulines et al. Non-parametric techniques for pitch-scale and time-scale modification of speech
Moulines et al. Time-domain and frequency-domain techniques for prosodic modification of speech
US8706496B2 (en) Audio signal transforming by utilizing a computational cost function
EP1454312B1 (en) Method and system for real time speech synthesis
US8280738B2 (en) Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
US5987413A (en) Envelope-invariant analytical speech resynthesis using periodic signals derived from reharmonized frame spectrum
US5787398A (en) Apparatus for synthesizing speech by varying pitch
Stylianou et al. Diphone concatenation using a harmonic plus noise model of speech.
Cabral et al. Pitch-synchronous time-scaling for prosodic and voice quality transformations.
WO1997019444A1 (en) Method and device for resynthesizing a speech signal
Roebel A shape-invariant phase vocoder for speech transformation
O'Brien et al. Concatenative synthesis based on a harmonic model
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JPH09510554A (ja) 言語合成
JP2904279B2 (ja) 音声合成方法および装置
US7822599B2 (en) Method for synthesizing speech
Edgington et al. Residual-based speech modification algorithms for text-to-speech synthesis
JP3089940B2 (ja) 音声合成装置
JP2615856B2 (ja) 音声合成方法とその装置
JP3557124B2 (ja) 音声変形方法、その装置、及びプログラム記録媒体
CA2409308C (en) Method and system for real time audio synthesis
Ferencz et al. The new version of the ROMVOX text-to-speech synthesis system based on a hybrid time domain-LPC synthesis technique
JPS6228800A (ja) 規則音声合成用駆動信号生成方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050125

A313 Final decision of rejection without a dissenting response from the applicant

Free format text: JAPANESE INTERMEDIATE CODE: A313

Effective date: 20050613

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050719