JP2005539261A - 音声合成における時間幅を制御する方法 - Google Patents

音声合成における時間幅を制御する方法 Download PDF

Info

Publication number
JP2005539261A
JP2005539261A JP2004537353A JP2004537353A JP2005539261A JP 2005539261 A JP2005539261 A JP 2005539261A JP 2004537353 A JP2004537353 A JP 2004537353A JP 2004537353 A JP2004537353 A JP 2004537353A JP 2005539261 A JP2005539261 A JP 2005539261A
Authority
JP
Japan
Prior art keywords
interval
audio signal
signal
speech
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004537353A
Other languages
English (en)
Other versions
JP2005539261A5 (ja
JP5175422B2 (ja
Inventor
エルカン、エフ.ヒヒ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2005539261A publication Critical patent/JP2005539261A/ja
Publication of JP2005539261A5 publication Critical patent/JP2005539261A5/ja
Application granted granted Critical
Publication of JP5175422B2 publication Critical patent/JP5175422B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Electrotherapy Devices (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electric Clocks (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本発明は音声信号の合成方法に関し、オリジナル音声信号のインターバルの第1クラスに第1識別子を割り当て、オリジナル音声信号のインターバルの第2クラスに第2識別子を割り当て、オリジナル信号をウインドゥイングして幾つかのピッチベルを用意し、割り当てられた第1識別子を有するピッチベルを処理して音声信号の時間幅を調整し、処理されたピッチベルに重畳及び加え合わせ操作を実行する。

Description

本発明は、音声処理の分野、より詳細には、それに限定されるものではないが、テキストを音声に変換し合成する分野に関する。
テキストを音声に変換し合成する、すなわちテキスト・ツー・スピーチ(TTS)合成を行うシステムの機能は、与えられた言語の一般的なテキストから音声を合成することである。現今では、TTSシステムは電話回線を介してデータベースにアクセスしたり障害者を手助けしたりするような多くの用途にとって実用期に入ってきた。音声を合成する一つの方法は、半音節(デミシラブル)又は多音節(ポリフォン)のような音声のサブユニットの記録セットのエレメントを連結することによるものである。成功している商業システムの大部分は多音節の連結を用いている。多音節は、2つのグループ(2音節)、3つのグループ(3音節)、又はそれを超える音節を含み、無意味な言葉(ナンセンスワード)から安定スペクトル領域において音声の所望のグループ分けをセグメント化することによって決定される。連結ベースの合成においては、隣接する2音間の移行部の会話は合成された音声の品質を保証するのに非常に重要なものである。多音を基本的なサブユニットとして選択することによって、隣接する2音間の移行部が記録用サブユニット内に保存され、その連結は類似音間で行われる。しかしながら、そのような音を含む新しいワードの韻律論上の連結を実行するために、合成の前に、音は調整された時間幅及びピッチを持っていなければならない。この処理は合成音声の単調な(モノトーンの)響きの生成を避けるために必要なものである。TTSシステムでは、この機能は韻律モジュールによって実行される。記録用サブユニットにおける時間幅及びピッチの調整を可能とするために、多くの連結に基づくTTSシステムがタイムドメイン・ピッチ同期・重畳加え合わせ(TD−PSOLA)合成モデルを用いる(E.Moulines and F.Charpentier“Pitch synchronous waveform processing techniques for text-to-speech synthesis using diphones,”Speech Commun., vol.9, pp.453-467, 1990)。このTD−PSOLAモデルでは、音声信号はまずピッチマーキングアルゴリズムに通される。このアルゴリズムは発声されたセグメント内の信号のピーク点にマークを割り当て、無音声セグメント内に10ms離してマークを割り当てる。合成は、ピッチマークに中心を合わされたハニング(Hanning)ウインドウセグメントと、次のものへと先のピッチマークから延びるセグメントとの重畳によって作られる。時間幅の調整はウインドウセグメントの幾つかを削除または複写することによって行われる。他方、ピッチ周期の調整はウインドウセグメント間の重畳を増加又は減少することによって行われる。
しかしながら、多くの商業的TTSシステムにおいて達成された成功にもかかわらず、合成のTD−PSOLSAモデルを用いることによって生成される合成音声は幾つかの欠点を持っている。その主たるものは大きな韻律論的な変化にあり、次にその概要について説明する。
上述のようなPSOLA法の例が、欧州特許第0363233号明細書、米国特許第5479564号明細書、及び欧州特許第0706170号明細書に開示されている。具体例は、T.Dutoit and H.Leich, “Speech Communications”, Elsevier Publisher, November 1993に開示されているMBR−PSOLA法である。米国特許第5479564号明細書は、一定の基本周波数を有する音響信号の周波数を、その信号から抽出された短期信号を重畳して加え合わせることによって調整する手段を示唆している。短期信号を得るのに用いられる重み付けウインドウの長さは音響信号の周期の2倍にほぼ等しく、周期内のそれらの位置は任意の値にセットされうる(連続するウインドウ間の時間シフトが音響信号の周期に等しいとすれば)。米国特許第5479564号明細書は又、不連続性を平滑化するように、連結するセグメント間に波形補間を施す手段についても記載している。このPSOLA法は与えられた音声信号の時間幅調整を可能とする。これは音声合成のために重畳及び加え合わせ操作が施される前にピッチベル(pitch bell)を繰り返し、又は削除することによって行われる。ピッチベル内の情報は常に破裂音内のような繰り返しに対して適しているとは限らない。このようにして人工音が導入されることは、従来技術によるPSOLA法の一般的な欠点である。これらの人工音は合成された音声信号を金属音にしてしまうことがあり、合成信号の明瞭性に重大な悪影響を与え、又はそれを破壊してしまうことさえありうる。
したがって本発明の目的は、音声信号の改善された処理方法を提供することである。
本発明は又、音声信号を処理する方法、コンピュータプログラム(コンピュータプログラムプロダクト)、及びコンピュータシステムを提供するものである。要するに、本発明は改善された明瞭性をもって自然に響く合成音声信号の合成を可能にするものである。
これらの目的は、オリジナル音声信号に含まれるある一定のインターバルを分類することによって達成される。本発明の好ましい実施態様によれば、オリジナル音声信号内で「ステッディ(steady)」及び「ダイナミック」インターバルが識別される。この分類分けはただ一回だけ実行されることが必要である。それは調整された時間幅を有するオリジナル音声信号に基づいて音声信号を合成するために用いられる。
本発明は、ピッチベル型ダイナミックインターバルの繰り返しは、従来のPSOLA法において行われているように、意図的ではない周期性を導入し、それが金属音的に響く合成信号のような人工音に導き、又、明瞭性を減少させたり破壊したりする、という認識に基づくものである。
本発明によれば、この問題は、時間幅調整の目的のためにピッチベルの処理をオリジナル音声信号のステッディインターバルのピッチベルに限定することによって解決される。言い換えれば、時間幅調整は、異なる時間幅を持つことができる音声インターバル上でのみ実行される。これは、母音の中央又は/s/音のような子音に対しては真である。しかし、最後が短周期より短い局部事象が起こる場合がある。これらは、発声されない破裂音(/p/,/t/,/k/)、又は舌及び唇によって生成されるティックアンドクリック(ticks and clicks)のスタートのように急に変化する。これらの事象を含む周期は明瞭性にとって重要なものであり、マニュアル操作によって省略されてはならない。それらの繰り返しは不自然に響く人工音を導入するので、これも又問題である。非発声音から母音への移行のスタート時の周期も又長くしたり短くしたりしてはならない局部特徴を持つ。人工音を避けるために、全ての周期が特別な周期クラス型情報でマークされる。この情報は周期が繰り返されるか省略されるかを決定するために用いられる。そのため、オリジナル音声信号のダイナミックインターバルのウインドゥイング(windowing)によって得られるピッチベルは時間幅調整のために繰り返されることはない。ダイナミックとして分類分けされ明瞭性にとって重要であるインターバルから得られるピッチベルは、明瞭性を維持するために合成信号内に保持される。ダイナミックとして分類分けされるが明瞭性にとって重要でないオリジナル音声信号のインターバルのウインドゥイングによって得られるピッチベルは、結果的に得られる合成音声信号の品質に重大な悪影響を与えることもなく、重畳及び加え合わせを実行する前に削除されてもよいし、削除されなくてもよい。
本発明の好ましい応用例は、テキスト/音声合成のプロセスにおいて調整される大量の自然音声記録を保存するテキスト/音声変換システムに対するものである。
本発明の好ましい実施態様によれば、音声信号のウインドゥイングのために、二乗コサイン関数が用いられる。好ましくは、非発声音声を含むステッディインターバルのためにサインウインドウが用いられる。非発声音声を含むそのようなステッディインターバルのために得られたピッチベルは、時間幅調整のプロセスに導入されうる意図的でない、いかなる周期性をも除去するために無作為化される。
次に本発明の好ましい実施例について図面を参照して詳細に説明する。
図1は本発明の方法の好ましい実施例を示すフローチャートである。ステップ100において、自然音声の記録が用意される。ステップ102において、自然音声記録中のインターバルが識別され、分類分けされる。音声インターバルの分類のために、一例として次の分類体系が用いられる。すなわち、
− 沈黙(無言)
. 非発声周期
v 発声周期
p 非常に重要なダイナミック非発声周期(1回だけ用いられるべき
b 非常に重要なダイナミック発声周期(1回だけ用いられるべき
q ダイナミック非発声周期(1回だけ用いてもよい
c ダイナミック発声周期(1回だけ用いてもよい
がそれである。
音声インターバルの2つの基本カテゴリーは、「ステッディ」と「ダイナミック」音声インターバルである。音声インターバルは、自然音声信号の基本周波数の少なくとも2つの周期の連番に対して実質的に一定の信号特性を持っている時、「ステッディ」と分類される。対照的に、その信号特性が基本周波数の1つの周期内でのみ出現する時、オリジナル音声記録の音声インターバルは「ダイナミック」と分類される。
ここで考慮される分類体系において、「.」及び「v」周期はステッディ周期である。「p」、「b」、「q」及び「c」周期は、連続する処理において異なる処理がなされるダイナミック周期である。
ステップ104において、自然音声信号はピッチベルを得るためにウインドゥイングが施される。好ましくは、ウインドゥイングは二乗コサインウインドウ手段によって実行され、又は「.」周期に対してはサインウインドウによって実行される。
ステップ106において、「ステッディ」と分類された周期に対して得られたピッチベルは音声信号の時間幅を調整するために処理される。これは、オリジナル時間幅を増加させるか減少させるように、ピッチベルの繰り返し又は削除によって行われる。「ダイナミック」と分類された周期から得られたピッチベルは、人工音の導入を避けるために、繰り返しは行われない。「p」又は「b」と分類された周期から得られたピッチベルは、オリジナル信号の明瞭性を維持するために削除されない。「q」又は[c」と分類された周期に対して得られたピッチベルも又繰り返されないが、結果的に得られる合成信号の明瞭性を大きく損なうことなく削除されうる。
好ましくは、「.」と分類された周期に対して得られたピッチベルは周期性の導入を避けるために無作為化法で得られる。さらにこれは、その周期のウインドゥイングのためにサインウインドウの利用によって助けられる。
ステップ108において、処理されたピッチベルは合成信号を得るために重畳され、加え合わされる。
図2は自然音声信号200の処理の一例を示すものである。自然音声信号200はダイナミックインターバル202、204、206、208、210及び212を持っている。ダイナミックインターバル202は「b」、「c」と分類された周期を含む。ダイナミックインターバル204は「c」、「qと分類された周期を含む。ダイナミックインターバル206は「q」と分類された周期を含む。ダイナミックインターバル208は「q」、「c」及び「b」と分類された周期を含む。ダイナミックインターバル210は「c」、「b」と分類された周期を含む。最後に、ダイナミックインターバル212は「c」、「b」と分類された周期を含む。さらに、自然音声信号200はステッディインターバル214、216、218、220、222及び224を含む。ステッディインターバル214は「v」と分類された周期を含み、ステッディインターバル216は「.」と分類された周期を含み、ステッディインターバル218は「.」と分類された周期を含み、ステッディインターバル220は「v」と分類された周期を含み、ステッディインターバル222は「v」と分類された周期を含み、最後にステッディインターバル224は「v」と分類された周期を含む。この分類は適当な信号分析プログラム手段によってマニュアル操作か自動的に行われる。好ましくは、自動分析は、専門家によって制御されるプログラム手段によって実行され、若しくは、もし必要ならマニュアルによって修正される。この分類は無制限数の信号合成を可能とするために、ただ1回だけ実行される必要がある。
ここで考慮される例においては、オリジナル音声信号200に比較して拡張された時間幅を有する自然音声信号200に基づいて1つの信号が合成されるものとする。この目的のために、自然音声信号200は、従来技術で公知のPSOLA法で用いられるような自然音声信号200の基本周波数に同期して位置するウインドウ手段によってウインドウされる。
好ましくは、ウインドウとして、二乗コサイン関数が用いられる。「.」と分類された周期に対しては、ノイズの入った信号音声のピッチベルが繰り返された時に導入されうる意図しない周期性を減少させるために、サインウインドウが用いられる。さらに意図しない周期性に対する対策として、「.」と分類された周期に対するピッチベルが無作為化された方法で得られる。ここで考慮される例では、合成されるべき信号は時間軸226の領域内で次のように構成されている。
合成されるべき音声信号の第1インターバル228はダイナミックインターバル202からのピッチベルを含む。これらのピッチベルは、インターバル228の時間幅が、ダイナミックインターバル202に関して変化しないことを示す調整なしに、インターバル228のために用いられる。インターバル230の時間幅は対応するステッディインターバル214の時間幅の約2倍である。これは、ステッディインターバル214に対して得られたピッチベルのそれぞれを繰り返すことによって達成される。インターバル232の時間幅はダイナミックインターバル204に比較して変化していない。インターバル234はステッディインターバル216から得られたピッチベルによって構成される。ステッディインターバル216に含まれる各ピッチベルは、このインターバルの時間幅を倍増させるために再び繰り返される。次のインターバル236、238、240、242、・・・もインターバル206、218、208、220、210、222、212、224から同様に得られる。次に、結果として生じる合成信号を得るために、ピッチベルは時間軸226の領域内で重畳される。代替的に、「q」又は「c」と分類された自然音声信号200の周期から得られたピッチベルが削除されることもありうる。いずれの場合でも、「ダイナミック」と分類された自然音声信号200の周期から得られたピッチベルはどれでも繰り返えされることはない。この時間幅調整の方法は合成信号の品質及び明瞭性に重大な影響を及ぼしかねない人工音を導入することなしに達成されうる。
ここで考慮される例では、「p」は発話の明瞭性に対して非常に重要な局部(非発声)イベントをマークするために用いられる。通常、唇又は舌による空気排出後のノイズ突発がこのタイプである。音素/p/、/t/及び/k/は少なくとも1つのそのような周期を持っている。「p」でマークされた周期は、音素の最終時間幅にもかかわらず、合成音声にただ一度だけ現れるようにしなければならない。幾つかの局部(非発声)イベントは明瞭性に対して非常に重要ということはないが、繰り返しが不自然に響く周期のシリーズに導入するかもしれないほどダイナミックである。これらの周期は文字「q」でマークされる。これらは一度だけ用いられうるが、より重要な品質又は明瞭性の悪化を伴うことがない限り省略されることもできる。「p」及び「q」に対する発声対照は「b」及び「c」によって示されるタイプである。発声された破裂音/b/、/d/及び/g/は、通常、「b」でマークされる少なくとも1つの周期を持つ。舌は、それが唇の他の部分を当たるか離れる時、ティックアンドクリック音を生成することもある。音素/l/はこれが起こりうる一例である。沈黙から母音への移行部、又は非発声子音から母音への移行部も、局部イベント付きの周期を持っている。母音の中間における周期は自然性に悪影響を与えることがない限り、複数回、繰り返すことができるが、移行部の中間に正しく落ちる周期は繰り返しに対してダイナミックでありすぎる。
図3は本発明のコンピュータシステムの一実施例のブロック図を示すものである。好ましくは、コンピュータシステムは本発明の原理を具体化するテキスト/音声変換システムである。このコンピュータシステム300は自然音声信号を保存するために用いられるモジュール302を備えている。モジュール302に保存された自然音声信号の周期を自動的に、マニュアル操作で、又は対話形式で、分類するためにモジュール304が用いられる。又、モジュール302に保存された自然音声信号のウインドゥイングを実行するためにモジュール306が用いられる。このようにして幾つかのピッチベルが得られる。ピッチベル処理のためにモジュール308が用いられる。周期調整のためのピッチベル処理はステッディと分類されたインターバルから得られたピッチベル上でのみ実行される。加えて、明瞭性にとってあまり重要でないものと分類されたダイナミックインターバルから得られたピッチベルは、それらが合成信号内に生じないように、モジュール308によって削除することができる。合成信号を得るために、結果的に得られるピッチベルの重畳及び加え合わせ操作を実行するためにモジュール310が用いられる。モジュール302に保存されたオリジナル自然音声信号の周期の所望の調整結果がコンピュータシステム300内に入力される。結果的に得られた合成信号はコンピュータシステム300から搬送波に乗せて、又はデータファイルとして、出力される。
本発明の好ましい実施例のフローチャートである。 本発明の実施例によるオリジナル音声信号に基づく音声信号の合成について説明する図である。 本発明のコンピュータシステムの構成例を示すブロック図である。
符号の説明
200 自然音声信号
202 ダイナミックインターバル
204 ダイナミックインターバル
206 ダイナミックインターバル
208 ダイナミックインターバル
210 ダイナミックインターバル
212 ダイナミックインターバル
214 ステッディインターバル
216 ステッディインターバル
218 ステッディインターバル
220 ステッディインターバル
222 ステッディインターバル
224 ステッディインターバル
226 時間軸インターバル
230 インターバル
232 インターバル
234 インターバル
236 インターバル
238 インターバル
240 インターバル
242 インターバル
300 コンピュータシステム
302 モジュール
304 モジュール
306 モジュール
308 モジュール
310 モジュール

Claims (14)

  1. オリジナル音声信号のインターバルの第1クラスに第1識別子を割り当て、前記オリジナル音声信号のインターバルの第2クラスに第2識別子を割り当て、
    前記オリジナル信号をウインドゥイングして複数のピッチベルを用意し、
    割り当てられた前記第1識別子を有するピッチベルを処理して前記音声信号の時間幅を調整し、
    処理されたピッチベルに重畳及び加え合わせ操作を実行する、
    音声信号の合成方法。
  2. 前記インターバルの第1クラスがステッディインターバルである、請求項1に記載の方法。
  3. 前記第1識別子として第1コード又は第2コードが用いられ、前記第コードが非発声インターバルを表し、前記第2コードが発声インターバルを表す、請求項1又は2に記載の方法。
  4. 前記インターバルの第2クラスがダイナミックインターバルである、請求項1ないし3のいずれか1項に記載の方法。
  5. 前記第2識別子として第3コード、第4コード、第5コード、又は第6コードが用いられ、前記第3コードは音声信号の明瞭性に対して不可欠な非発声インターバルを表し、前記第4コードは音声信号の明瞭性に対して不可欠な発声インターバルを表し、前記第5コードは音声信号の明瞭性に対して不可欠なものではない非発声インターバルを表し、前記第6コードは音声信号の明瞭性に対して不可欠なものではない発声インターバルを表す、 請求項1ないし4のいずれか1項に記載の方法。
  6. 前記第5又は第6コードに割り当てられたピッチベルが任意に削除される、請求項5に記載の方法。
  7. 前記音声信号のウインドゥイングのために二乗コサイン関数が用いられる、請求項1ないし6のいずれか1項に記載の方法。
  8. 前記音声信号の非発声ステッディインターバルのウインドゥイングのためにサインウインドウが用いられる、請求項1ないし7のいずれか1項に記載の方法。
  9. さらに、前記重畳及び加え合わせ操作を実行する前に、非発声ステッディ周期のピッチベルを無作為化する、請求項1ないし7のいずれか1項に記載の方法。
  10. 前記ウインドゥイングが、前記音声信号の基本周波数と同期して位置するウインドウ手段によって実行される、請求項1ないし9のいずれか1項に記載の方法。
  11. オリジナル音声信号の時間幅を調整するために、
    オリジナル音声信号のインターバルの第1クラスに第1識別子を割り当て、前記オリジナル音声信号のインターバルの第2クラスに第2識別子を割り当てる処理ステップと、
    前記オリジナル信号をウインドゥイングして複数のピッチベルを用意する処理ステップと、
    割り当てられた前記第1識別子を有するピッチベルを処理して前記音声信号の時間幅を調整する処理ステップと、
    処理されたピッチベルに重畳及び加え合わせ操作を施す処理ステップと、
    を実行するためのプログラム手段を備えた、
    ディジタル記憶媒体のようなコンピュータプログラム。
  12. 音声信号を保存する手段(302)と、
    オリジナル音声信号のインターバルの第1クラスに割り当てられた第1識別子を記憶し、オリジナル音声信号のインターバルの第2クラスに割り当てられた第2識別子を記憶する手段(304)と、
    前記オリジナル信号をウインドゥイングして複数のピッチベルを用意する手段(306)と、
    割り当てられた前記第1識別子を有するピッチベルを処理して前記音声信号の時間幅を調整する処理手段(308)と、
    処理されたピッチベルに重畳及び加え合わせ操作を施す手段(310)と、
    を備えた、コンピュータシステム、特にテキスト/音声変換システム。
  13. 重畳され加え合わせされた複数のピッチベルからなる合成音声信号であって、オリジナル音声信号の時間幅調整を実行するために、前記オリジナル音声信号のステッディ発声インターバル又はステッディ非発声インターバルのピッチベルのみが処理されている、合成音声信号。
  14. 重畳及び加え合わせ操作の前に、ダイナミック発声又は非発声インターバルに属する1つ又はそれ以上のピッチベルが削除されている、請求項13に記載の音声信号。
JP2004537353A 2002-09-17 2003-08-05 音声合成における時間幅を制御する方法 Expired - Lifetime JP5175422B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP02078847.7 2002-09-17
EP02078847 2002-09-17
PCT/IB2003/003360 WO2004027758A1 (en) 2002-09-17 2003-08-05 Method for controlling duration in speech synthesis

Publications (3)

Publication Number Publication Date
JP2005539261A true JP2005539261A (ja) 2005-12-22
JP2005539261A5 JP2005539261A5 (ja) 2006-08-03
JP5175422B2 JP5175422B2 (ja) 2013-04-03

Family

ID=32010976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004537353A Expired - Lifetime JP5175422B2 (ja) 2002-09-17 2003-08-05 音声合成における時間幅を制御する方法

Country Status (10)

Country Link
US (1) US7912708B2 (ja)
EP (1) EP1543503B1 (ja)
JP (1) JP5175422B2 (ja)
KR (1) KR101029493B1 (ja)
CN (1) CN1682281B (ja)
AT (1) ATE352837T1 (ja)
AU (1) AU2003249443A1 (ja)
DE (1) DE60311482T2 (ja)
TW (1) TWI307875B (ja)
WO (1) WO2004027758A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100343893C (zh) * 2002-09-17 2007-10-17 皇家飞利浦电子股份有限公司 用于稳定音信号合成的方法和文本到语音转换的合成系统
US20050227657A1 (en) * 2004-04-07 2005-10-13 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for increasing perceived interactivity in communications systems
US8036903B2 (en) * 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
JP6047922B2 (ja) * 2011-06-01 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
CN109712634A (zh) * 2018-12-24 2019-05-03 东北大学 一种自动声音转换方法
CN114827657A (zh) * 2022-04-28 2022-07-29 腾讯音乐娱乐科技(深圳)有限公司 一种音频拼接方法、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63199399A (ja) * 1987-02-16 1988-08-17 キヤノン株式会社 音声合成装置
JPH0193795A (ja) * 1987-10-06 1989-04-12 Nippon Hoso Kyokai <Nhk> 音声の発声速度変換方法
JP2001513225A (ja) * 1997-12-19 2001-08-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 伸長オーディオ信号からの周期性の除去
JP2001350500A (ja) * 2000-06-07 2001-12-21 Mitsubishi Electric Corp 話速変更装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5189702A (en) * 1987-02-16 1993-02-23 Canon Kabushiki Kaisha Voice processing apparatus for varying the speed with which a voice signal is reproduced
FR2636163B1 (fr) 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
EP0527527B1 (en) * 1991-08-09 1999-01-20 Koninklijke Philips Electronics N.V. Method and apparatus for manipulating pitch and duration of a physical audio signal
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
SE516521C2 (sv) * 1993-11-25 2002-01-22 Telia Ab Anordning och förfarande vid talsyntes
US5787398A (en) * 1994-03-18 1998-07-28 British Telecommunications Plc Apparatus for synthesizing speech by varying pitch
JP3528258B2 (ja) * 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置
IT1266943B1 (it) 1994-09-29 1997-01-21 Cselt Centro Studi Lab Telecom Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda.
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6324501B1 (en) * 1999-08-18 2001-11-27 At&T Corp. Signal dependent speech modifications
US6963833B1 (en) * 1999-10-26 2005-11-08 Sasken Communication Technologies Limited Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63199399A (ja) * 1987-02-16 1988-08-17 キヤノン株式会社 音声合成装置
JPH0193795A (ja) * 1987-10-06 1989-04-12 Nippon Hoso Kyokai <Nhk> 音声の発声速度変換方法
JP2001513225A (ja) * 1997-12-19 2001-08-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 伸長オーディオ信号からの周期性の除去
JP2001350500A (ja) * 2000-06-07 2001-12-21 Mitsubishi Electric Corp 話速変更装置

Also Published As

Publication number Publication date
KR101029493B1 (ko) 2011-04-18
WO2004027758A1 (en) 2004-04-01
ATE352837T1 (de) 2007-02-15
CN1682281A (zh) 2005-10-12
KR20050057409A (ko) 2005-06-16
US20060004578A1 (en) 2006-01-05
DE60311482D1 (de) 2007-03-15
TWI307875B (en) 2009-03-21
EP1543503B1 (en) 2007-01-24
EP1543503A1 (en) 2005-06-22
TW200416668A (en) 2004-09-01
AU2003249443A1 (en) 2004-04-08
US7912708B2 (en) 2011-03-22
DE60311482T2 (de) 2007-10-25
CN1682281B (zh) 2010-05-26
JP5175422B2 (ja) 2013-04-03

Similar Documents

Publication Publication Date Title
US8326613B2 (en) Method of synthesizing of an unvoiced speech signal
JPH086592A (ja) 音声合成方法及び装置
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JP4490818B2 (ja) 定常音響信号のための合成方法
JP4510631B2 (ja) 音声波形の連結を用いる音声合成
JP4451665B2 (ja) 音声を合成する方法
US7130799B1 (en) Speech synthesis method
JP3394281B2 (ja) 音声合成方式および規則合成装置
JP3081300B2 (ja) 残差駆動型音声合成装置
JP3241582B2 (ja) 韻律制御装置及び方法
JP3310217B2 (ja) 音声合成方法とその装置
JPH11161297A (ja) 音声合成方法及び装置
JP2573586B2 (ja) 規則型音声合成装置
JP3284634B2 (ja) 規則音声合成装置
JP2573585B2 (ja) 音声スペクトルパタン生成装置
JPH1091191A (ja) 音声合成方法
JPH0553595A (ja) 音声合成装置
Maeda Vocal-tract acoustics and speech synthesis
US20060074675A1 (en) Method of synthesizing creaky voice
JPH03198098A (ja) 音声合成装置及び方法
JP2004206145A (ja) 基本周波数パタン生成方法、及びプログラム記録媒体
JP2004220043A (ja) 基本周波数パタン生成方法、及びプログラム記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060616

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060803

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070509

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100215

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110215

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110224

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20110527

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120622

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130107

R150 Certificate of patent or registration of utility model

Ref document number: 5175422

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term