JPH08508127A - システムをトレーニングする方法、その結果得られる装置、およびその使用方法 - Google Patents
システムをトレーニングする方法、その結果得られる装置、およびその使用方法Info
- Publication number
- JPH08508127A JPH08508127A JP7512015A JP51201595A JPH08508127A JP H08508127 A JPH08508127 A JP H08508127A JP 7512015 A JP7512015 A JP 7512015A JP 51201595 A JP51201595 A JP 51201595A JP H08508127 A JPH08508127 A JP H08508127A
- Authority
- JP
- Japan
- Prior art keywords
- intonation
- sentence
- text
- boundaries
- statistical representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000003066 decision tree Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000012805 post-processing Methods 0.000 claims 2
- 230000001419 dependent effect Effects 0.000 claims 1
- 238000012549 training Methods 0.000 abstract description 19
- 238000007796 conventional method Methods 0.000 abstract description 2
- 241000282326 Felis catus Species 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 241000220225 Malus Species 0.000 description 4
- 206010039740 Screaming Diseases 0.000 description 3
- 235000021016 apples Nutrition 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000011435 rock Substances 0.000 description 3
- 206010011469 Crying Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000002688 persistence Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 229910001369 Brass Inorganic materials 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000010951 brass Substances 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】
従来の方法の欠点を克服したテキスト入力をするために、イントネーションの特徴(たとえばイントネーションフレーズ境界など)を割り当てるTTSその他のシステムを訓練する方法が記載されている。この訓練方法では、一群の所定のテキスト(話し声または話し声を表す信号ではない)を取り出して、人にイントネーションの特徴についての注釈をつけさせる工程を含む。これにより注釈付きのテキストができる。次に、一群の所定のテキストの構造が分析され、情報が生成される。この情報は、イントネーションの特徴についての注釈とともに使用されて、統計的表現を生成する。その統計的表現は記憶され、さらにそのTTSシステムを訓練することなく、新しい一群のテキスト入力から合成スピーチを生成するために、繰り返し利用される。この結果として得られる訓練されたシステムおよびその使用方法も本発明の一部である。
Description
【発明の詳細な説明】
システムをトレーニングする方法、その結果得られる装置、及びその使用方法
[発明の分野]
この発明は、テキスト(書かれた文字)からスピーチ(音声言語)への変換(
TTS)のための方法およびシステムに関する。また、TTSシステムの訓練に
関する。
[発明の背景]
典型的なTTSシステムを使用する場合、たとえば、人がコンピュータシステ
ムを通じてテキストを入力する。そのテキストはTTSシステムに伝送される。
次に、そのTTSシステムが、テキストを分析して音声(スピーチ)信号を合成
してそれを音響出力装置に伝送する。音響出力装置は合成音声信号を出力する。
TTSシステムによる音声の生成については、二つの特性、すなわち明瞭さと
自然さが、重要である。明瞭さは、聞き手が生成された音声による話を理解でき
るかどうかである。たとえば、”dog”が生成されたときに実際に”dog”と聞こ
えるかまたは”dock”と聞こえるかである。しかし、その生成された話し方の人
間らしさ、すなわち自然さも、明瞭さと同じくらい重要である。実際に、不自然
さが、明瞭さにも影響することがあることが実証されている。
これまでに多くの人が、TTSシステムにより自然な話し方を生成する試みを
行っている。これらの試みは、種々の問題点に向けられてきた。
これらの問題点の一つは、その話し方に適当なイントネーション(抑揚)を割
り当てる必要があることである。イントネーションには、強勢(intonational p
rominence)ピッチ幅、イントネーションの輪郭(contour)、イントネーション
のフレージングなどのイントネーションの特徴(features,variation)が含まれ
る。イントネーションのフレージングとは、一つの文を、いくつかのポーズ(休
止、すなわちイントネーションフレーズの境界)で区切ることによって意味のあ
るいくつかの単語の塊に分けること(chunking)をいう。イントネーションフレ
ーズの境界をテキストに割り当てる作業は、隣接する二つの単語の組それぞれに
ついて、その間にイントネーションフレーズ境界を挿入するかどうかを判定する
作業を含
む。イントネーションフレーズ境界を、候補位置のうちのどこに置くかによって
、TTSシステムによって生成される話し方が、とても自然に聞こえたり、とて
も不自然に聞こえたりする。
これまでに知られたイントネーションフレーズ境界割り当て方法は、いくつか
の理由により欠点がある。すなわち、一つのモデルの開発に非常に時間がかかる
。さらに、モデルの開発に長時間を費やした後であっても、そのモデルを使用し
て自然な話し方を合成できるほど十分な正確さが得られない。すなわち、ポーズ
を入れてはならないところにポーズがはいったり、ポーズを入れるべきところに
ポーズがはいらなかったりする。
人の話において、ポーズやその他のイントネーション変化は、その話の意味に
おいて大きな役割を持つことが多く、したがってたいへん重要である。たとえば
、”The child isn't screaming,because he is sick.”という文を一つのイン
トネーションフレーズで言うと、聞き手は、「子供は泣いている。しかしそれは
子供が病気だからではない。」という意味に受け取るだろう。しかし、同じ文を
、”screaming”と”because”の間にポーズを入れて言うと(すなわち、”The
child isn't screaming,because he is sick.”のように言うと)、聞き手はた
ぶん「子供は病気だから泣いていない。」という意味に受け取るだろう。
これまでのイントネーションフレージング割り当て方法には、少なくとも五つ
の方法があった。それらのうち初めの四つの方法は、人間の話し方(たとえば話
手がポーズをとるかとらないか)に対して試験した結果、約65〜75パーセン
トの正確度であった。5番目の方法は、他の四つの方法よりも正確度が高い(約
90パーセント)が、分析に長時間を要する。
第1の方法は、入力テキストが文中の句読符(punctuation internal.たとえ
ば、コンマ、コロン、セミコロン。ただし、ピリオドは除く。)のあるすべての
位置にイントネーションフレーズ境界を割り当てる方法である。この方法にはた
くさんの欠点がある。たとえば、文中のすべての句読符には、必ずしもイントネ
ーションフレーズ境界を割り当てるべきでないものもある。たとえば、”Little
Rock,Arkansas”(アーカンソー州リトルロック市)というフレーズにおける
”Rock”と”Arkansas”との間にはイントネーションフレーズ境界があるべきで
ない。も
う一つの欠点は、人がスピーチを読むとき、その人は通常、そのスピーチの中で
、文中の句読符以外の位置でイントネーションフレーズ境界を割り当てる点であ
る。
第2の方法は、”and”,”today”,”now”,”when”,”that”,”but”等の
特定の単語の前または後にイントネーションフレーズ境界を割り当てる方法であ
る。たとえば、二つの独立句を連結するのに”and”という単語が使用される場
合、具体的には”I like apples and I like oranges.”のような場合、”apple
s”と”and”の間にイントネーションフレーズ境界を割り当てるのが妥当である
ことが多い。しかし、”and”が二つの名詞を連結する場合、具体的には”I lik
e apples and oranges”のような場合、”apples”と”and”の間にイントネー
ションフレーズ境界を割り当てるのは不適当なことが多い。さらに、”I take t
he 'nuts and bolts'approach.”のような文では、”nuts”と”and”の間にイ
ントネーションフレーズ境界を割り当てることは明らかに不適当である。
第3の方法は、第1と第2の方法の結合である。これらの方法の欠点は上述の
例から明かである。
第4の方法は、適用または領域によって、(たとえば、名前と住所、株式相場
の引用句のように)入力が限られているTTSシステムのイントネーションフレ
ーズ境界の割り当てに使用されてきた方法である。この方法は一般に、文解析す
なわち構文解析(a sentence or syntactic parser,その目的は、一つの文を主
語、動詞、目的語、補語等に分解することにある)を使用してきた。イントネー
ションフレーズ境界と構文(syntactic structure)との関係がまだ明確に確立
していないため、構文解析をイントネーションフレーズ境界の割り当てに利用す
るには不十分な点がある。このため、この方法では、フレーズ境界の割り当てが
不正確になることがしばしば起こる。構文解析のもう一つの欠点は、スピードが
遅いこと、すなわち実時間で実行できないことである。さらにもう一つの欠点は
、必要なメモリが大きいことである。これらの欠点があるために、構文解析は、
これまで限られたTTSシステムでの使用にしか成功していない。さらに、限ら
れた領域のTTSシステムでも、構文解析は、なじみのない入力に対しては特に
成功せず、新しい入力や新しい領域に拡張するのが困難である。
イントネーションフレーズ境界の割り当てに使用される第5の方法は、イント
ネーションフレーズ境界の割り当ての正確度を90パーセントにまで高めること
が可能である。これについては、Wang and Hirschberg著”Automatic classific
ation of intonational phrase boundarles,”Conputer Speech and Language,v
ol.6(1992)175-196ページに記載されている。この方法では、話し手に、テキス
トをマイクに向かって読んでもらってそれを録音する。次にその録音された話し
声に対して韻律学的に(prosodically)ラベル付けする。このラベル付けをする
ためには、TTSシステムで生成される話し声のモデルとして人が望むイントネ
ーションの特徴を特定する必要がある。
この方法にも重大な欠点がある。この方法では通常、プロの話し手を雇う必要
があるので、高価になる。録音された話し声を韻律学的にラベル付けするのに膨
大な時間が必要である。通常、ラベル付けする人がよく慣れた人であっても、録
音された話し声の1秒あたりのラベル付けに約1分間を要する。さらに、処理に
長時間を要しかつ高価であるために、この処理を、異なった言語、異なった用途
、異なった話し方に適用するのは困難である。
実際に、約45〜60分間の自然な話し声(スピーチ)について上述の第5の
方法を適用して韻律学的にラベル付けを行った。60分間のスピーチのラベル付
けだけで約60時間(3600分間)も要した。さらに、そのスピーチを録音し
、データの分析のために処理する(たとえば、録音されたデータを文に分割した
り、それらの文にフィルタをかけたりする)のにも膨大な時間が必要である。こ
れに通常、40〜50時間を要する。さらに、ラベル付けする人の訓練には、何
週間も、さらには何ヵ月も必要である。
[発明の概要]
発明者らは、従来の方法の欠点を克服したテキスト入力をするために、イント
ネーションの特徴(たとえばイントネーションフレーズ境界など)を割り当てる
TTSその他のシステムを訓練する方法を発明した。この訓練方法では、一群の
所定のテキスト(話し声または話し声を表す信号ではない)を取り出して、人に
イントネーションの特徴(たとえばイントネーションフレーズ境界)についての
注釈(annotations)をつけさせる工程を含む。これにより注釈付きのテキスト
ができる。次に、統計的表現(statistical representation)を生成するように
、イン
トネーションの特徴についての注釈に沿って、使用される情報を生成するべく、
たとえばテキストに向けた(text-oriented)一群の質問に答えることによって
、その一群の所定のテキストの構造が分析される。次にその統計的表現は、さら
にそのTTSシステムを訓練することなく、新しい一群のテキスト入力から合成
スピーチを生成するために、繰り返し利用される。
この発明によれば、イントネーションの特徴を割り当てるシステムを人が訓練
するスピードが改善され、それにより、この発明を異なる言語や方言などに応用
できる範囲が増大する。
さらに、この方法で訓練したシステムは、人の動作に比べて、イントネーショ
ンの特徴の型すなわちイントネーションフレーズ境界を正確に割り当てる正確度
は約95パーセントを達成できる。
[図面の簡単な説明]
図1はTTSシステムの一例を示す。
図2は、図1のTTSシステムのより詳細な内容を示す。
図3は、あらかじめ決められたテキストと、その中に挿入されたイントネーシ
ョンの特徴についての注釈を示す。
[詳細な説明]
図1はTTSシステム104を示す。一人の人が、たとえばコンピュータ10
8のキーボード106を通じて、入力テキスト110を入力する。入力テキスト
110は、通信回線112を通じてTTSシステム104に伝送される。TTS
システム104は入力テキスト110を分析して合成音声信号114を生成し、
合成音声信号114はラウドスピーカ116へ伝送される。ラウドスピーカ11
6は音声信号118を出力する。
図2はTTSシステム104をさらに詳細に示す。TTSシステム104は4
個のブロックからなる。すなわち、前置プロセッサ120と、フレージングモジ
ュール122と、後置プロセッサ124と、音響出力装置(たとえば電話、ラウ
ドスピーカ、ヘッドホン等)116とからなる。前置プロセッサ120は、その
入力として、通信回線112から入力テキスト110を受信する。前置プロセッ
サ120は、入力テキスト110を受信してその入力テキストに対応する記録構
造128のリンクしたリストを出力する。この記録構造128(以下、記録12
8という)のリンクしたリストは、入力テキスト110内の単語の表現と、テキ
スト分析から確かめられたこれらの単語に関するデータとからなる。記録128
は、単純な一群の配列されたデータ構造である。フレージングモジュール122
はこの発明を実行するものであるが、このシステムの他の構成要素は従来から存
在するものである。
(前置プロセッサ)
前置プロセッサ120は従来の設計であって、図2に示すように、4個の小ブ
ロックからなる。すなわち、テキスト正規化モジュール(TNM)132と、言
語論的(morphological)分析器(MA)134と、イントネーション特徴(int
onational prominence)割当モジュール(IPAM)136と、辞書参照モジュ
ール(DLUM)138とである。これらの小ブロックは並列ではなく、パイプ
ライン構造に配列されている。入力テキスト110を受信して、入力テキスト1
10と入力テキスト110に関するデータとに対応する記録128を生成する。
パイプラインの最後の小ブロックすなわち辞書参照モジュール138はフレージ
ングモジュール122に記録128を出力する。
図2のテキスト正規化モジュール132は、その入力として通信回線112か
ら入力テキスト110を受信する。テキスト正規化モジュール132の出力は、
入力テキスト110を表現するとともに、その入力テキスト110に関する付加
データをも含むもので、これを第1中間記録群140と呼ぶ。たとえば、第1中
間記録群140は、次の事項に関するデータを含む。
(1)単語、句読符、および、エスケープシーケンス等のTTSシステム1
04への明示的コマンドの特定
(2)省略形、番号等の翻訳(interpretation)
(3)上記(1)で特定された単語(たとえば、名詞、動詞等の特定)に基
づく話し声の最後につける決まり文句の部分(part of speech tagging)
第1中間記録群140は、図2の言語論的分析器134に入力される。言語論
的分析器134の出力は第2中間記録群142であって、これはたとえば、単語
の「見出し語(lemma)」(すなわちルーツ)に関する追加データを含む。たと
えば、
”child”は”children”の見出し語であり、”go”は”went”の見出し語であ
り、”cat”は”cats”の見出し語である。
第2中間記録群142は、図2のイントネーション特徴割当モジュール136
に入力される。イントネーション特徴割当モジュール136の出力は第3中間記
録群144であって、これはたとえば、テキスト正規化モジュール132によっ
て特定された実単語(句読符等でないもの)それぞれが、最終的に生成されたと
きにイントネーションとして重要かどうかに関する追加データを含む。
第3中間記録群144は、図2の辞書参照モジュール138に入力される。辞
書参照モジュール138の出力は記録128である。辞書参照モジュール138
は、たとえば、テキスト正規化モジュール132で特定された実単語それぞれが
どのように発音されるべきか(たとえば”brass”という単語をどう発音するか
)、および構成要素は何か(たとえば音素(phonemes)および音節(syllables)
)についての追加データを第3中間記録群144に付加する。
(フレージングモジュール)
この発明の実施例としての図2のフレージングモジュール122には、記録1
28が入力される。フレージングモジュール122は、新たな記録構造146の
リンクしたリストを出力する。記録構造146は、たとえば、フレージングモジ
ュール122によって各イントネーション境界に対して割り当てられた新たな記
録を含む追加のデータを有している。フレージングモジュール122は、イント
ネーションフレーズ境界がある可能性のある各位置(すなわち二つの実単語の間
の位置)それぞれで、そこにイントネーションフレーズ境界を割り当てるかどう
か判断する。この判断は、それぞれの位置に関連するベクトル148に基づいて
なされる。各位置のベクトル148は一群の変数150からなる。たとえば、イ
ントネーションフレーズ境界となる可能性のある各位置<wi,wj>で(ただし
、wiおよびwjはそれぞれ、イントネーションフレーズ境界となる可能性のある
各位置の左側および右側の実単語を表す)、その位置のベクトル148を生成す
るために、次のような一群のテキスト向け質問をする。
(l)wiはイントネーション上の強勢(prominent)か?もし強勢でないなら
ば、さらに弱勢か(すなわち、cliticizedか)?
(2)wjはイントネーション上の強勢か?もし強勢でないならば、さらに弱
勢か(すなわち、cliticizedか)?
(3)wiは話の何の部分か?
(4)wi-1は話の何の部分か?
(5)wjは話の何の部分か?
(6)wj+1は話の何の部分か?
(7)その文の中にいくつの単語があるか?
(8)wjからその文の初めまで、実単語数でどれだけ離れているか?
(9)wjからその文の終わりまで、実単語数でどれだけ離れているか?
(10)その可能性のあるイントネーション境界は、最も近い名詞句との関係
でどの位置か?(たとえば、名詞句の直前か、直後か、二つの名詞句の間か、も
しくはそれらのいずれでもないか?)
(11)可能性のあるイントネーション境界が一つの名詞句の中にあるならば
、それがその名詞句の初めから(実単語数で)どれだけ離れているか?
(12)その名詞句の大きさは実単語数でどれだけか?(wjが名詞句内にな
い場合は、ゼロとする。)
(13)wjは名詞句の中にどれだけはいり込んでいるか?(すなわち、wjが
名詞句の中にある場合、上記(11)を上記(12)で割った値。その他の場合
はゼロとする。)
(14)その文の中のイントネーション境界の可能性のある位置の前にいくつ
の音節があるか?
(15)その文の中のイントネーション境界の可能性のある位置の前にいくつ
の強勢音節があるか?
(16)その文の中に全部でいくつの強勢音節があるか?
(17)その文の中のイントネーション境界の可能性のある位置の直前の音節
の強勢レベル(すなわち、第1強勢、第2強勢、または弱勢)は何か?
(18)wjから最後に割り当てられたイントネーション境界までの距離を最
後のイントネーションフレーズの全長で割った値は?
(19)イントネーション境界の可能性のある位置に句読符(たとえば、コン
マ、ダッシュ(ハイフン)等)があるか?
(20)イントネーション境界の可能性のある位置とその文の初めとの間に第
1強勢または第2強勢の音節がいくつ存在するか?
上記20の質問に対する回答に対応する変数は、ベクトル発生器(VG)15
1内でその位置のベクトル148に暗号化される。それぞれの位置について一つ
のベクトル148が形成される。ベクトル148は、直列的に一群の判定ノード
152に伝送される。一群の判定ノード152は、イントネーションフレーズ境
界の可能性のある各位置について、最終的にイントネーションフレーズ境界を割
り当てるかどうかの判断を与える。上記20の質問がなされるのは、本発明によ
れば、20の同じテキスト向き質問を一群の注釈付きテキストに対して問うこと
によって一群の判定ノード152が生成されるからである。望ましくは、一群の
判定ノード152は一つの判定ツリーからなる。望ましくは、その判定ツリーは
、分類と逆行のツリー(classification and regression tree,”CART”)手法
を使用して生成されたものである。この手法は、Brieman,Olshen,and Stone著
の”Classification and Regression Trees”,Wadsworth & Brooks(カリフォル
ニア州モンテレー市)(1984年)に説明されているように公知である。
上記の一群の質問は、テキスト向けの質問であって、現在のところ、望ましい
質問群である。しかし、上記の質問群の一部分や、異なる質問群や、追加の質問
であっても、満足な結果を得られることもある。たとえば、文中の話の一部の単
語に関する質問(たとえば上記(3)〜(6))をする代わりに、同じ結果を得
るために、入力されたテキストの構文に関する質問、もしくは入力されたテキス
トの中で隣合う単語が同時に出現する統計値に関する質問をしてもよい。構文に
関する質問は、イントネーションフレーズ境界の可能性のある位置と、その文の
構文との関係に注目する。たとえば、「イントネーションフレーズ境界の可能性
のある位置は、名詞句と動詞句との間に生ずるか?」という質問である。同時に
出現するかどうかについての質問は、入力されたテキストの中で、二つの単語が
互いに近い位置にまたは互いに隣接して出現する可能性(たとえば、”cat”と
いう単語が”walk”という単語と同時に出現する頻度)に注目する。
(後置プロセッサ)
図2において、後置プロセッサ124は従来のものと同様の設計であって、新
しいリンクされた記録構造のリスト146が入力される。後置プロセッサ124
の出力は、合成音声信号114である。後置プロセッサ124は7個の小ブロッ
クを有する。すなわち、フレーズ音声モジュール(PPM)162と、持続モジ
ュール(DM)164と、イントネーションモジュール(IM)166と、振幅
モジュール(AM)168と、二個群選択(dyad selectlon)モジュール(DS
M)170と、二個群連結(dyad concatenation)モジュール(DCM)172
と、合成モジュール(SM)173である。上記7個のモジュールは、音声の中
の記録構造146のリンクされた新しいリストの実現に向けて順番に処理を進め
るものである。
フレーズ音声モジュール162は、記録構造146のリンクされた新しいリス
トを受信して、第4中間記録群174を出力する。第4中間記録群174は、た
とえば、フレーズアクセント、ピッチアクセントおよび境界トーンについてどの
トーンを使用するか、また、これらのトーンそれぞれに関連してどの強勢(prom
inences)を使用するかという情報を含む。上記の術語については、Pierrehumbe
rt著M.I.T.博士論文”The Phonology and Phonetics fo English Intonation”
に記載されている。
持続モジュール164は、第4中間記録群174を入力として受信し、第5中
間記録群176を出力する。第5中間記録群176は、たとえば、入力テキスト
110を実現するのに使用される各音素(phoneme)の持続性に関する情報を含
んでいる。たとえば、”The cat is happy.”という文の中で、”happy”の中の
音素”p”がどれだけ長く持続するかを判定する情報を含んでいる。
イントネーションモジュール166は、第5中間記録群176を入力として受
信し、第6中間記録群178を出力する。第6中間記録群178は、たとえば、
各文についての基本的頻度輪郭(frequency contour)すなわちピッチ輪郭(pit
ch contour)情報を含む。たとえば、”The cat is happy”という文は、上がる
イントネーションで生成するか、下がるイントネーションで生成するかという情
報を含む。
振幅モジュール168は、第6中間記録群178を入力として受信し、第7中
間記録群180を出力する。第7中間記録群180は、たとえば、各文の振幅輪
郭(amplitude contour)、すなわちその文の各部文がどれだけ大きな声で発音
されるかという情報を含む。
二個群選択モジュール170は、第7中間記録群180を入力として受信し、
第8中間記録群182を出力する。第8中間記録群182は、たとえば、そのス
ピーチを実現するためにどの連結ユニット(すなわち一つの音素から次の音素へ
の推移)が使用されるべきかを示す表を含む。
二個群連結モジュール172は、第8中間記録群182を入力として受信する
。このモジュールは、望ましい合成スピーチ信号の線形予測コーディング反射係
数群184を出力する。
合成モジュール173は、線形予測コーディング反射係数群184を入力とし
て受信する。このモジュールは、音響出力装置126に、合成スピーチ信号を出
力する。
(システムの訓練)
次に、本発明によるTTSシステム104の訓練について述べる。
訓練方法は、注釈付きテキストを生成するべく、イントネーションの特徴につ
いての注釈をもって一群の所定のテキスト105に注釈を加える過程を含む。次
に、その一群の所定のテキスト105の構造に基づいて、情報が生成される。最
後に、その情報およびイントネーションの特徴についての注釈に依存する統計デ
ータが生成される。
図3に、一群の所定のテキスト105の例が単独で示され、また、「注釈テキ
スト」として示されている。図中の縦線190は、「予測されるイントネーショ
ン境界」を表す。実際にTTSシステム104を訓練するには、図3に示すより
も多くのテキストが必要であろう。次に、一群の所定のテキスト105を前置プ
ロセッサ120およびフレージングモジュール122に通す。フレージングモジ
ュール122では、たとえば、統計的情報分析により、一群の判定ノード152
が生成される。具体的には、統計的に分析される情報(たとえば情報群)は、前
記一群の所定のテキスト105の構造に基づく。次に、たとえば上述のCART
手法を使用して統計的分析を行う。これにより、統計的表現(statistical repr
esentation,たとえば一群の判定ノード152)が生成される。一群の判定ノー
ド152は判定ツリーの形式をとる。しかし、この一群の判定ノードを、隠れマ
ルコフ(hidden Markof)モデルとニューラルネットワークを含む多数の統計的
分析で置き換えることもできる。
次に、統計的表現(たとえば一群の判定ノード152)を繰り返し使用して、
それ以上TTSシステムを訓練しなくとも新しいテキスト群からスピーチを合成
できるようにする。より具体的には、一群の判定ノード152は、通ることので
きる複数の経路(paths)をもつ。各経路は、その時点で対象となるイントネー
ションの特徴の境界となる可能性のある位置においてイントネーションの特徴(
intonational feature)を挿入するかどうかをTTSシステムに指示するイント
ネーション特徴割り当て予測手段で終端となる。合成されたスピーチは、TTS
システムによって挿入されたイントネーションの特徴を含んでいる。これらのイ
ントネーションの特徴により、音響出力装置116から出る音の自然さが増す。
音響出力装置116の入力は合成されたスピーチである。
訓練モードには、システム内で単に「フラグ」を設定するだけではいることが
できる。システムが訓練モードにあるときは、フレージングモジュール122は
、図1および図2を参照して述べた「合成」モードではなく、「訓練」モードで
動作する。訓練モードでは、一群の判定ノード152が、フレージングモジュー
ル122にアクセスされることはない。実際、訓練モードの目的は、一群の判定
ノード152を生成することにある。
注釈付きテキストの群が複数種類あれば、判定ノードの群も異なったものとな
る。たとえば、小説のテキストは、科学、詩、その他の型のテキストに比べて、
注釈をする人により、大きく異なる注釈を加えられる可能性がある。
一つのTTSシステムの例について、本発明を記述した。本発明をTTSシス
テムに適用する他の例として、限定または非限定入力の場合がある。また、TT
Sシステムを適用するその他の例として、主たる(major)フレーズ境界と従た
る(minor)フレーズ境界の間またはその他のフレージングのレベルを区別する
方法もある。さらに、本発明は、音声言語(スピーチ)認識システムにも適用で
きる。それに加えて、本発明は、TTSおよび音声言語認識システムの双方にお
ける他
のイントネーション変化に適用できる。最後に、前置プロセッサおよび後置プロ
セッサの中の複数の小ブロックは、それらがデータを収集・作成することが重要
なのであって、このデータの収集と作成の順序は本発明にとって重要でない。た
とえば、小ブロックの順序を代えたり、小ブロックを結合したり、小ブロックを
さらに小さな小ブロックに分割したりしてもよい。ここで述べたのはTTSシス
テムであるが、本発明のフレージングモジュールは、音声言語認識システム等、
他のシステムにも利用できる。さらに、以上の説明は各イントネーションフレー
ズ境界の可能性のある位置にイントネーションフレーズ境界を挿入するかどうか
という点に焦点を当てたが、その他のイントネーション特徴の可能性のある位置
についても利用できる。
Claims (1)
- 【特許請求の範囲】 1.(a)注釈付きテキストを生成するべく、一群の所定のテキストをイン トネーションの特徴について注釈するステップと、 (b)前記所定のテキストの構造に関する情報を生成するステップと、 (c)前記情報とイントネーションの特徴についての注釈に依存する統計的表 現を生成するステップと、 を具備する方法。 2.前記注釈するステップは、前記所定にテキストに、予想されるイントネ ーションの特徴を韻律学的に注釈するものであることを特徴とする請求項1の方 法。 3.前記方法はテキストからスピーチへの変換システムを訓練するのに使用 されるものであることを特徴とする請求項1の方法。 4.前記イントネーションの特徴はイントネーションフレーズ境界であるこ とを特徴とする請求項3の方法。 5.統計的表現を生成するステップは一群の判定ノードを生成するステップ を有することを特徴とする請求項1の方法。 6.一群の判定ノードを生成するステップは隠れマルコフモデルを生成する ステップを有することを特徴とする請求項5の方法。 7.一群の判定ノードを生成するステップはニューラルネットワークを生成 するステップを有することを特徴とする請求項5の方法。 8.一群の判定ノードを生成するステップは分類分けおよび逆行ツリー手法 を実行するステップを有することを特徴とする請求項5の方法。 9.(a)一群の所定のテキストとそのテキストについてのイントネーショ ンの特徴の注釈とに依存する、記憶された統計的表現と、 (b)一群の入力テキストの出力の表現を生成するべく、その入力テキストを 前記記憶された統計的表現に適用する手段と、 を有する装置。 10.テキストをスピーチに変換する請求項9の装置において、 (a)合成スピーチ信号を生成するために前記出力を後処理する手段と、 (b)前記合成スピーチ信号を音響出力装置に送る手段と、 を有する装置。 11.前記記憶された統計的表現は判定ツリーを有することを特徴とする請 求項9の装置。 12.前記記憶された統計的表現は隠れマルコフモデルを有することを特徴 とする請求項9の装置。 13.前記記憶された統計的表現はニューラルネットワークを有することを 特徴とする請求項9の装置。 14.請求項9の装置において、 前記適用する手段は、前記一群の入力テキストについての一群の記憶された質 問に答える手段を含み、 その質問は、次の質問群のうちの少なくとも一つを含むことを特徴とする装置 : (a)wiはイントネーション上の強勢(prominent)か?もし強勢でないなら ば、さらに弱勢か? (b)wjはイントネーション上の強勢か?もし強勢でないならば、さらに弱 勢か? (c)wiは話の何の部分か? (d)wi-1は話の何の部分か? (e)wjは話の何の部分か? (f)wj+1は話の何の部分か? (g)その文の中にいくつの単語があるか? (h)wjからその文の初めまで、実単語数でどれだけ離れているか? (i)wjからその文の終わりまで、実単語数でどれだけ離れているか? (j)その可能性のあるイントネーション境界は、最も近い名詞句との関係で どの位置か? (k)可能性のあるイントネーション境界が一つの名詞句の中にあるならば、 それがその名詞句の初めからどれだけ離れているか? (l)その名詞句の大きさは実単語数でどれだけか? (m)wjは名詞句の中にどれだけはいり込んでいるか? (n)その文の中のイントネーション境界の可能性のある位置の前にいくつの 音節があるか? (o)その文の中のイントネーション境界の可能性のある位置の前にいくつの 強勢音節があるか? (p)その文の中に全部でいくつの強勢音節があるか? (q)その文の中のイントネーション境界の可能性のある位置の直前の音節の 強勢レベルは何か? (r)wjから最後に割り当てられたイントネーション境界までの距離を最後 のイントネーションフレーズの全長で割った値は? (s)イントネーション境界の可能性のある位置に句読符があるか? (t)イントネーション境界の可能性のある位置とその文の初めとの間に第1 強勢または第2強勢の音節がいくつ存在するか? 15.(a)一群の所定のテキストとそのテキストについてのイントネーシ ョンの特徴の注釈とに依存する、記憶された統計的表現にアクセスするステップ と、 (b)一群の入力テキストの出力の表現を生成するべく、その入力テキストを 前記記憶された統計的表現に適用するステップと、 を有する方法。 16.テキストをスピーチに変換する請求項15の方法において、 (a)合成スピーチ信号を生成するために前記出力を後処理するステップと、 (b)前記合成スピーチ信号を音響出力装置に送るステップと、 を有する方法。 17.前記記憶された統計的表現は判定ツリーを有することを特徴とする請 求項15の方法。 18.前記記憶された統計的表現は隠れマルコフモデルを有することを特徴 とする請求項15の方法。 19.前記記憶された統計的表現はニューラルネットワークを有することを 特徴とする請求項15の方法。 20.請求項15の装置において、 前記適用するステップは、前記一群の入力テキストについての一群の記憶され た質問に答えるステップを含み、 その質問は、次の質問群のうちの少なくとも一つを含むことを特徴とする装置 (a)wiはイントネーション上の強勢(prominent)か?もし強勢でないなら ば、さらに弱勢か? (b)wjはイントネーション上の強勢か?もし強勢でないならば、さらに弱 勢か? (c)wiは話の何の部分か? (d)wi-1は話の何の部分か? (e)wjは話の何の部分か? (f)wj+1は話の何の部分か? (g)その文の中にいくつの単語があるか? (h)wjからその文の初めまで、実単語数でどれだけ離れているか? (i)wjからその文の終わりまで、実単語数でどれだけ離れているか? (j)その可能性のあるイントネーション境界は、最も近い名詞句との関係で どの位置か? (k)可能性のあるイントネーション境界が一つの名詞句の中にあるならば、 それがその名詞句の初めからどれだけ離れているか? (l)その名詞句の大きさは実単語数でどれだけか? (m)wjは名詞句の中にどれだけはいり込んでいるか? (n)その文の中のイントネーション境界の可能性のある位置の前にいくつの 音節があるか? (o)その文の中のイントネーション境界の可能性のある位置の前にいくつの 強勢音節があるか? (p)その文の中に全部でいくつの強勢音節があるか? (q)その文の中のイントネーション境界の可能性のある位置の直前の音節の 強勢レベルは何か? (r)wjから最後に割り当てられたイントネーション境界までの距離を最後 のイントネーションフレーズの全長で割った値は? (s)イントネーション境界の可能性のある位置に句読符があるか? (t)イントネーション境界の可能性のある位置とその文の初めとの間に第1 強勢または第2強勢の音節がいくつ存在するか?
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13857793A | 1993-10-15 | 1993-10-15 | |
US08/138,577 | 1993-10-15 | ||
PCT/US1994/011569 WO1995010832A1 (en) | 1993-10-15 | 1994-10-12 | A method for training a system, the resulting apparatus, and method of use thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH08508127A true JPH08508127A (ja) | 1996-08-27 |
Family
ID=22482643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7512015A Withdrawn JPH08508127A (ja) | 1993-10-15 | 1994-10-12 | システムをトレーニングする方法、その結果得られる装置、およびその使用方法 |
Country Status (7)
Country | Link |
---|---|
US (2) | US6173262B1 (ja) |
EP (1) | EP0680653B1 (ja) |
JP (1) | JPH08508127A (ja) |
KR (1) | KR950704772A (ja) |
CA (1) | CA2151399C (ja) |
DE (1) | DE69427525T2 (ja) |
WO (1) | WO1995010832A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013242515A (ja) * | 2012-04-27 | 2013-12-05 | Nippon Telegr & Teleph Corp <Ntt> | 局所韻律コンテキスト付与装置、局所韻律コンテキスト付与方法、およびプログラム |
JP2021196598A (ja) * | 2020-06-15 | 2021-12-27 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995010832A1 (en) * | 1993-10-15 | 1995-04-20 | At & T Corp. | A method for training a system, the resulting apparatus, and method of use thereof |
US6944298B1 (en) * | 1993-11-18 | 2005-09-13 | Digimare Corporation | Steganographic encoding and decoding of auxiliary codes in media signals |
CA2346145A1 (en) * | 1998-10-05 | 2000-04-13 | Lernout & Hauspie Speech Products N.V. | Speech controlled computer user interface |
US6453292B2 (en) * | 1998-10-28 | 2002-09-17 | International Business Machines Corporation | Command boundary identifier for conversational natural language |
CA2366952A1 (en) * | 1999-03-15 | 2000-09-21 | British Telecommunications Public Limited Company | Speech synthesis |
US7010489B1 (en) * | 2000-03-09 | 2006-03-07 | International Business Mahcines Corporation | Method for guiding text-to-speech output timing using speech recognition markers |
US20020007315A1 (en) * | 2000-04-14 | 2002-01-17 | Eric Rose | Methods and apparatus for voice activated audible order system |
US6684187B1 (en) * | 2000-06-30 | 2004-01-27 | At&T Corp. | Method and system for preselection of suitable units for concatenative speech |
DE10040991C1 (de) * | 2000-08-18 | 2001-09-27 | Univ Dresden Tech | Verfahren zur parametrischen Synthese von Sprache |
AU2002212992A1 (en) * | 2000-09-29 | 2002-04-08 | Lernout And Hauspie Speech Products N.V. | Corpus-based prosody translation system |
US7400712B2 (en) * | 2001-01-18 | 2008-07-15 | Lucent Technologies Inc. | Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access |
US6625576B2 (en) | 2001-01-29 | 2003-09-23 | Lucent Technologies Inc. | Method and apparatus for performing text-to-speech conversion in a client/server environment |
US6535852B2 (en) * | 2001-03-29 | 2003-03-18 | International Business Machines Corporation | Training of text-to-speech systems |
US8644475B1 (en) | 2001-10-16 | 2014-02-04 | Rockstar Consortium Us Lp | Telephony usage derived presence information |
US6816578B1 (en) * | 2001-11-27 | 2004-11-09 | Nortel Networks Limited | Efficient instant messaging using a telephony interface |
US20030135624A1 (en) * | 2001-12-27 | 2003-07-17 | Mckinnon Steve J. | Dynamic presence management |
US7136802B2 (en) * | 2002-01-16 | 2006-11-14 | Intel Corporation | Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system |
US7136816B1 (en) * | 2002-04-05 | 2006-11-14 | At&T Corp. | System and method for predicting prosodic parameters |
GB2388286A (en) * | 2002-05-01 | 2003-11-05 | Seiko Epson Corp | Enhanced speech data for use in a text to speech system |
US8392609B2 (en) | 2002-09-17 | 2013-03-05 | Apple Inc. | Proximity detection for media proxies |
US7308407B2 (en) * | 2003-03-03 | 2007-12-11 | International Business Machines Corporation | Method and system for generating natural sounding concatenative synthetic speech |
JP2005031259A (ja) * | 2003-07-09 | 2005-02-03 | Canon Inc | 自然言語処理方法 |
CN1320482C (zh) * | 2003-09-29 | 2007-06-06 | 摩托罗拉公司 | 标识文本串中的自然语音停顿的方法 |
US9118574B1 (en) | 2003-11-26 | 2015-08-25 | RPX Clearinghouse, LLC | Presence reporting using wireless messaging |
US7957976B2 (en) * | 2006-09-12 | 2011-06-07 | Nuance Communications, Inc. | Establishing a multimodal advertising personality for a sponsor of a multimodal application |
CN101202041B (zh) * | 2006-12-13 | 2011-01-05 | 富士通株式会社 | 一种汉语韵律词组词方法及装置 |
US20090083035A1 (en) * | 2007-09-25 | 2009-03-26 | Ritchie Winson Huang | Text pre-processing for text-to-speech generation |
US8374873B2 (en) | 2008-08-12 | 2013-02-12 | Morphism, Llc | Training and applying prosody models |
US8165881B2 (en) * | 2008-08-29 | 2012-04-24 | Honda Motor Co., Ltd. | System and method for variable text-to-speech with minimized distraction to operator of an automotive vehicle |
US20100057465A1 (en) * | 2008-09-03 | 2010-03-04 | David Michael Kirsch | Variable text-to-speech for automotive application |
US8219386B2 (en) * | 2009-01-21 | 2012-07-10 | King Fahd University Of Petroleum And Minerals | Arabic poetry meter identification system and method |
US20110112823A1 (en) * | 2009-11-06 | 2011-05-12 | Tatu Ylonen Oy Ltd | Ellipsis and movable constituent handling via synthetic token insertion |
JP2011180416A (ja) * | 2010-03-02 | 2011-09-15 | Denso Corp | 音声合成装置、音声合成方法およびカーナビゲーションシステム |
CN102237081B (zh) * | 2010-04-30 | 2013-04-24 | 国际商业机器公司 | 语音韵律评估方法与系统 |
US9069757B2 (en) * | 2010-10-31 | 2015-06-30 | Speech Morphing, Inc. | Speech morphing communication system |
US9164983B2 (en) | 2011-05-27 | 2015-10-20 | Robert Bosch Gmbh | Broad-coverage normalization system for social media language |
US9984062B1 (en) | 2015-07-10 | 2018-05-29 | Google Llc | Generating author vectors |
RU2632424C2 (ru) | 2015-09-29 | 2017-10-04 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для синтеза речи по тексту |
WO2021118604A1 (en) | 2019-12-13 | 2021-06-17 | Google Llc | Training speech synthesis to generate distinct speech sounds |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4695962A (en) * | 1983-11-03 | 1987-09-22 | Texas Instruments Incorporated | Speaking apparatus having differing speech modes for word and phrase synthesis |
JPS6254716A (ja) * | 1985-09-04 | 1987-03-10 | Nippon Synthetic Chem Ind Co Ltd:The | 空乾性樹脂組成物 |
US4829580A (en) * | 1986-03-26 | 1989-05-09 | Telephone And Telegraph Company, At&T Bell Laboratories | Text analysis system with letter sequence recognition and speech stress assignment arrangement |
US5146405A (en) * | 1988-02-05 | 1992-09-08 | At&T Bell Laboratories | Methods for part-of-speech determination and usage |
US4979216A (en) * | 1989-02-17 | 1990-12-18 | Malsheen Bathsheba J | Text to speech synthesis system and method using context dependent vowel allophones |
US5075896A (en) * | 1989-10-25 | 1991-12-24 | Xerox Corporation | Character and phoneme recognition based on probability clustering |
DE69022237T2 (de) * | 1990-10-16 | 1996-05-02 | Ibm | Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell. |
US5212730A (en) * | 1991-07-01 | 1993-05-18 | Texas Instruments Incorporated | Voice recognition of proper names using text-derived recognition models |
US5267345A (en) * | 1992-02-10 | 1993-11-30 | International Business Machines Corporation | Speech recognition apparatus which predicts word classes from context and words from word classes |
US5796916A (en) | 1993-01-21 | 1998-08-18 | Apple Computer, Inc. | Method and apparatus for prosody for synthetic speech prosody determination |
CA2119397C (en) | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
WO1995010832A1 (en) * | 1993-10-15 | 1995-04-20 | At & T Corp. | A method for training a system, the resulting apparatus, and method of use thereof |
GB2291571A (en) * | 1994-07-19 | 1996-01-24 | Ibm | Text to speech system; acoustic processor requests linguistic processor output |
-
1994
- 1994-10-12 WO PCT/US1994/011569 patent/WO1995010832A1/en active IP Right Grant
- 1994-10-12 JP JP7512015A patent/JPH08508127A/ja not_active Withdrawn
- 1994-10-12 EP EP94930096A patent/EP0680653B1/en not_active Expired - Lifetime
- 1994-10-12 DE DE69427525T patent/DE69427525T2/de not_active Expired - Lifetime
- 1994-10-12 CA CA002151399A patent/CA2151399C/en not_active Expired - Fee Related
- 1994-10-12 KR KR1019950702405A patent/KR950704772A/ko not_active Application Discontinuation
-
1995
- 1995-11-02 US US08/548,794 patent/US6173262B1/en not_active Expired - Lifetime
-
1997
- 1997-11-25 US US08/978,359 patent/US6003005A/en not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013242515A (ja) * | 2012-04-27 | 2013-12-05 | Nippon Telegr & Teleph Corp <Ntt> | 局所韻律コンテキスト付与装置、局所韻律コンテキスト付与方法、およびプログラム |
JP2021196598A (ja) * | 2020-06-15 | 2021-12-27 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
US11769480B2 (en) | 2020-06-15 | 2023-09-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium |
Also Published As
Publication number | Publication date |
---|---|
KR950704772A (ko) | 1995-11-20 |
US6003005A (en) | 1999-12-14 |
CA2151399A1 (en) | 1995-04-20 |
US6173262B1 (en) | 2001-01-09 |
EP0680653B1 (en) | 2001-06-20 |
CA2151399C (en) | 2001-02-27 |
DE69427525T2 (de) | 2002-04-18 |
EP0680653A1 (en) | 1995-11-08 |
WO1995010832A1 (en) | 1995-04-20 |
DE69427525D1 (de) | 2001-07-26 |
EP0680653A4 (en) | 1998-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH08508127A (ja) | システムをトレーニングする方法、その結果得られる装置、およびその使用方法 | |
US7280968B2 (en) | Synthetically generated speech responses including prosodic characteristics of speech inputs | |
Athanaselis et al. | ASR for emotional speech: clarifying the issues and enhancing performance | |
Cosi et al. | Festival speaks italian! | |
CN113593522B (zh) | 一种语音数据标注方法和装置 | |
US9798653B1 (en) | Methods, apparatus and data structure for cross-language speech adaptation | |
CN110390928B (zh) | 一种自动拓增语料的语音合成模型训练方法和系统 | |
Cooper | Text-to-speech synthesis using found data for low-resource languages | |
Hamad et al. | Arabic text-to-speech synthesizer | |
Hwang et al. | A Mandarin text-to-speech system | |
Hess et al. | Prosodic modules for speech recognition and understanding in VERBMOBIL | |
Bruce et al. | On the analysis of prosody in interaction | |
Bhatia | Bird song synthesis using neural vocoders | |
Carlson et al. | The Waxholm spoken dialogue system | |
Houidhek et al. | Evaluation of speech unit modelling for HMM-based speech synthesis for Arabic | |
CN116403562B (zh) | 一种基于语义信息自动预测停顿的语音合成方法、系统 | |
Zhang et al. | Chinese speech synthesis system based on end to end | |
KR102418465B1 (ko) | 동화 낭독 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램 | |
EP1640968A1 (en) | Method and device for speech synthesis | |
Alrige et al. | End-to-End Text-to-Speech Systems in Arabic: A Comparative Study | |
EP1589524A1 (en) | Method and device for speech synthesis | |
Khalil et al. | Optimization of Arabic database and an implementation for Arabic speech synthesis system using HMM: HTS_ARAB_TALK | |
Lenzo et al. | Rapid-deployment text-to-speech in the DIPLOMAT system. | |
Pavešić et al. | An overview of the Slovenian spoken dialog system | |
Horne et al. | Implementation and evaluation of a model for synthesis of Swedish intonation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20051004 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20051017 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20060106 |