JP2002530703A - 音声波形の連結を用いる音声合成 - Google Patents
音声波形の連結を用いる音声合成Info
- Publication number
- JP2002530703A JP2002530703A JP2000582998A JP2000582998A JP2002530703A JP 2002530703 A JP2002530703 A JP 2002530703A JP 2000582998 A JP2000582998 A JP 2000582998A JP 2000582998 A JP2000582998 A JP 2000582998A JP 2002530703 A JP2002530703 A JP 2002530703A
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- speech
- audio
- database
- waveforms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title description 27
- 238000003786 synthesis reaction Methods 0.000 title description 27
- 230000006870 function Effects 0.000 claims description 37
- 238000000034 method Methods 0.000 claims description 20
- 238000013518 transcription Methods 0.000 claims description 17
- 230000035897 transcription Effects 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 17
- 238000004891 communication Methods 0.000 claims description 12
- 230000005236 sound signal Effects 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 11
- 230000000630 rising effect Effects 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 2
- 238000009499 grossing Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000220010 Rhode Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 206010013887 Dysarthria Diseases 0.000 description 1
- 229930188970 Justin Natural products 0.000 description 1
- 241000700159 Rattus Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
Description
された音声ユニットの連結に基づき、音声の、音表象の、及び数の記述子に結び
付けられた音声合成器に関する。
声を構成ブロックとして用いる。音声ユニットのデータベースは、予め記録され
た自然の音声データの目録(インベントリ)からとられた音声サンプルを所有し
得る。本物の音声の記録を用いることは、実在する人の声のいくつかの固有の特
徴を保存する。正しい発音が与えられ、音声ユニットは、任意の単語又は文を構
成するように連結され得る。音声ユニット連結の利点は、もし、適切な音声ユニ
ットが選択されるならば、現実的な連結効果を作り出すことが容易であるという
ことである。合成メッセージに関するすべての知識が連結されるべき音声ユニッ
トに固有であるという点で、その単純化に関して、興味をそそるものである。し
たがって、結合動作のモデリングに注意を払う必要はほとんどない。しかしなが
ら、音声ユニット結合は、たとえあるとしても抑揚の変化をほとんど持たない中
立の口頭テキストの比較的限定されたタスクに有用性において予め制限された。
慎重に設計される音声ユニットデータベースの設計への周知のアプローチである
。生音声データベースは、必要とされる音声ユニットのためのキャリアから成る
。このアプローチは、比較的小さいフットプリント音声合成システムには最適で
ある。主な目的は、同時調音効果の合理的な量を含む、目的言語の音声の適用範
囲である。韻律的な変化はデータベースによって提供されず、システムは、その
代わりとして、望ましい発話にデータベース音声ユニットを適合するために、韻
律操作技術を用いる。
(例えば、Klatt, D.H.の1987年9月のJ. Acoust. Soc. Am. 82(3)「英語の
ためのテキストから音声への翻訳の再検討(レビュー)」を見よ。)。最初は、
研究者は音素を用いることを好んだ。なぜならば、ただ少数のユニットだけが貯
蔵要求を最小限に保持して、アメリカ英語ではおよそ40を要求された。しかし
ながら、このアプローチは、音素間の境界で同時調音効果に多くの注意を必要と
する。その結果として、音素を用いる合成は、複雑な同時調音規則の定式化を要
求する。
一つの人気の高いユニットは二音字(ダイフォン:diphone)である。それは、
一つの音素の中心から次の音素の中心への遷移から成る。このモデルは、音素間
の遷移情報を取り込むのを助ける。音素対の可能な結合がおよそ(40)2ある
ので、二音字の完全セットは、およそ1600に達する。したがって、二音字音
声合成は、適量の収容力のみを要求する。二音字の一つの不利益は、好ましくは
重要な信頼が二音字境界最適化と共同して効率的な平滑化アルゴリズム上に置か
れるように、それらが多くの連結点(音素毎に一つ)を導くことである。Lernou
t &Hauspie音声及び言語プロダクツN.V.のTTS-3000のような従来の二音字合成器
は、二音字毎にただ一つの候補音声ユニットのみを用いる。限定された韻律的可
変性のために、調子(ピッチ)と持続時間操作技術は、音声メッセージを総合す
るのに必要とされる。それに加えて、二音字合成が良い出力音声品質を常にもた
らすわけではない。
って、音節の連結は、一般に良質の音声をもたらす。一つの不利益は、十分な記
憶スペースを必要とする所定の言語における音節の数が多いことである。音節を
説明する間記憶必要量を最小にするために、小音節(demi-syllable)が導入さ
れた。これらの半音節は、母音の核に置いて音節を分割することによって得られ
る。しかしながら、音節又は小音節方法は、ユニット境界で容易な連結を保証し
ない。なぜならば、有声音の音声ユニットにおける連結は、通常摩擦音のような
無声音の音声ユニットにおける連結より困難だからである。
けが必要であることを要求する。しかしながら、これは常に真実ではない。同時
調音の問題は、単語サイズのユニットを用いることによって大いに減少され、曖
昧な音調(イントネーション)で分離して記録され得る。それから、単語は、文
節を形成するために連結される。この技術で、各単語の調子とアクセント(スト
レス)パターンは、自然に聞こえる文を与えるために部分的に変えられ得る。単
語連結は、線形予測符号化システムで正常に使用された。
、小音節、二音字及び接尾辞を用いた(Hess, W.J.の「音声合成−解決された問
題、信号処理VI:理論と応用」、1992年、エルゼビア科学出版社B.V.、J.
Vandewalle、R. Boite、M. Moonen、A. Oosterlinck(編)を見よ。)。
成ユニット生成システムが開発された(Nakajima S.の「多層文脈指向群に基づ
く英語音声合成のための自動合成ユニット生成」1994年、エルゼビア科学出
版社B.V.、音声通信14,313〜324頁を見よ。)。ここで、音声ユニット
目録は、音声の注釈データベースの解析から自動的に得られる。すなわち、シス
テムは、データベースを解析することによってユニットセットを「学習する」。
そのようなシステムの実行の一態様は、音声及び韻律的な調和関数の定義を含む
。
の処理能力を増すことによって引き起こされた。音声ユニットデータベースを慎
重に選択されたユニットセットに制限する代わりに、連続音声の大きいデータベ
ースを用い、一律でない音声ユニットを用い、実行時にユニット選択を実行する
ことを可能にした。このタイプの合成は、今日、コーパスベースの連結音声合成
として一般に知られる。
適選択を用いる規則による音声合成」1988年4月、IEEE、ICASSP-88ニ
ューヨーク第1巻、679〜682頁に示された。それは、音声データベースと
候補ユニットテンプレートの辞書、すなわち、データベースに存在するすべての
音素副記号列の目録を用いる。この連結ベースの合成器は、次のように機能する
。 (1)任意の入力音素記号列のために、無声音群のすべての音素副記号列が列挙
され、 (2)合成ユニット入力辞書内に見出されるすべての候補音素副記号列が集めら
れ、 (3)入力記号列の対応する部分に文脈上の高い類似性を示す候補音素副記号列
が保持され、 (4)最も好ましい合成ユニットシーケンスが、(音素記号列にのみ基づいた)
ユニットテンプレート間の連続性を評価することによって主に選択され、 (5)選択された合成ユニットは、データベース内の符号化(LPC)音声サン
プルから抽出され、 (6)韻律制御モジュールによって計算された単音持続時間によって長くされ、
あるいは短くされた後、それらがともに連結される。
の維持、長いユニット選択、選択されたユニット間の重複度を考慮に入れて、適
切さ基準に基づく。システムは、日本語のために開発され、音声データベースは
、5240の一般に使用される単語から成った。
いコーパスからの連結合成における最初の試み」1993年、Proc. Eurospeech
'93、ベルリン、1701〜1704頁に記述される。このシステムの前提は、
もし、十分な音声が記憶され、データベースに目録を作られるならば、合成は、
記憶された音声の適切な要素を選択し、それらをともにくっつけることだけから
成る。3200以上の文の音声上バランスのとれたコーパス内の115,000
の音素のデータベースを用いる。音素クラス、出典発話、ストレスマーカー、音
素境界、左右文脈音素の同一性、音節内の音素の位置、単語内の音素の位置、発
話内の音素の位置、ピッチピーク位置の注釈がある音素同一性を別として、デー
タベースの注釈は、Sagisakaシステムの場合よりもいっそう洗練されている。
素のためのデータベースを検索することによって実行される。文脈マッチのため
のペナルティーは、データベース音素候補に隣接する対応する音素で対象音素を
取り巻くすぐ近くに近接する音素間の相違として計算される。文脈マッチは、ま
た、音素の隔たりによって、左右文節境界、左右単語境界、及び左右発話境界に
影響を与えられる。SpeakEZの音声ユニット波形は、近接する音素間を平滑化す
る調子同期重複加算(PSOLA)を用いて、時間領域に連結される。理想的な
目標値における既存の韻律を修正するよりむしろ、システムは、修正なく、正確
な持続時間、データベース音素の音調及び調音を用いる。適切な韻律的目標情報
の欠如は、このシステムの最も目立つ欠点であると考えられる。
ampbell, Nの「連結合成のための音声データベースからのユニットの最適化選択
」1995年、Proc. Eurospeech '95、マドリード、581〜584頁、及びHu
nt, A.J.とBlack, A.W.の「大音声データベースを用いる連結音声合成システム
におけるユニット選択」、1996年、ICASSP-96、373〜376頁に記述さ
れる。音声データベースの注釈は、音響特徴、ピッチ(F0)を更に組み込むス
テップをとられ、能力とスペクトルパラメーターが含まれる。音声データベース
は、音サイズのユニットに分割される。ユニット選択アルゴリズムは、次のよう
に機能する: (1)ユニット歪み測度Du(ui,Ti)は、選択されたユニットuiと目標
音声ユニットtiとの間の相違、すなわち、選択されたユニット特徴ベクトル{
uf1,uf2,・・・,ufn}と重みベクトルWu{w1,w2,・・・,
wn}によって掛けられた目標音声ユニットベクトル{tf1,tf2,・・・
,tfn}との間の相違として定義される。 (2)連続歪み測度Dc(ui,ui−1)は、選択されたユニットとそのすぐ
隣接する前に選択されたユニットとの間の相違として定義され、選択されたユニ
ットのユニット特徴ベクトルと重みベクトルWcによって掛けられたその前のも
のとの間の相違として定義される。 (3)最も良いユニットシーケンスは、以下を最小にするデータベースからのユ
ニットのパスとして定義される:
、及び音響接合コストである。音声及び韻律的文脈の音程は、選択されたユニッ
トと他の選択されたユニットの文脈(データベース)ユニットとの間で計算され
る。音響接合コストは、2つの連続する選択されたユニット間で計算される。音
響接合コストは、標識付けされた境界の周りの最も良い接合点で計算された、メ
ル−ケプストラムの量子化に基づく。
用いられる。網羅的な検索は、選択処理におけるいくつかの段階で候補リストを
取り除くことによって避けられる。ユニットは、あらゆる信号処理(すなわち、
未処理の連結)をすることなく、連結される。
音声合成におけるユニット選択のために自動的にひとまとめにする類似のユニッ
ト」、1997年、Proc. Eurospeech '97、ロードス、601〜604頁に示さ
れる。それは、データベース内のユニットのためのCART(分類及び復帰ツリ
ー)を作る。CARTは、候補ユニットの検索領域を制限するために用いられ、
ユニット歪みコストは、候補ユニットとそのクラスター中心との間の相違である
。
音声合成システムの音源とフォルマントを持つ最適化するユニット選択」、19
97年、Proc. Eurospeech ’97、ロードス、537〜540頁は、ユニット選
択のための音響特徴として音源パラメーターとフォルマント情報の使用を示す。
器は、 音声波形を参照する大音声データベースであって、多音字(ポリフォン:poly
phone)によってアクセスされる、大音声データベースと、 音声転写入力にたいそうする多音字指示符号を用いるデータベースによって参
照される波形を選択する、前記大音声データベースと通信する音声波形選択器と
、 音声信号出力を作り出すために前記音声波形選択器によって選択された波形を
連結する、前記大音声データベースと通信する音声波形連結器と、 を含む。
実施の形態の関連したセットでは、合成器は、また、(i) 音声波形が音声符号化
形状に格納されるデジタル記憶媒体と、(ii)波形選択器によってサクセスされる
とき、符号化音声波形を復号する復号器と、を含む。同じく随意的に、合成器は
、長い時間にわたって特定の目標持続時間値あるいは特定の目標ピッチ音調曲線
に頼ることなく、波形候補間で選択するために機能する。
れ、その実施の形態は、 大音声データベースと、 音声転写入力に応答して一連の目標特徴ベクトルを生成するための目標発生器
と、 前記データベースによって参照された一連の波形を選択し、該一連の各波形が
目標特徴ベクトルの第1の非空集合に対応する波形選択器であって、該波形選択
器が少なくとも一つの波形候補とノードコストとに分類し、該ノードコストが複
数の特徴のそれぞれに結び付けられた個別のコスト関数であり、少なくとも一つ
の個別のコストが言語規則に従って変化するコスト関数を用いて決定される、前
記波形選択器と、 音声信号出力を作るために前記音声波形選択器によって選択された波形を連結
する、前記音声データベースと通信する音声波形連結器と、 を含む。
、その実施の形態は、 大音声データベースと、 音声転写入力に応答して一連の目標特徴ベクトルを生成するための目標発生器
と、 前記大音声データベースによって参照される一連の波形を選択する波形選択器
であって、該波形選択器が2以上の波形候補の少なくとも一つの順序付けされた
列と遷移コストとに分類し、該遷移コストが複数の特徴のそれぞれに結び付けら
れた個別のコスト関数であり、少なくとも一つの個別のコストが言語規則に従っ
て非自明的に変化するコスト関数を用いて決定される、前記波形選択器と、 音声信号出力を作り出すために前記音声波形選択器によって選択された波形を
連結する、前記大音声データベースと通信する音声波形連結器と、 を含む。
であって、該波形選択器が少なくとも一つの波形候補とコストとに分類し、該コ
ストが複数の特徴のそれぞれに結び付けられた個別のコスト関数であり、音表象
的特徴の少なくとも一つの個別のコストが非二進数関数を用いて決定される、前
記波形選択器と、 音声信号出力を作り出すために前記音声波形選択器によって選択された波形を
連結する、前記大音声データベースと通信する音声波形連結器と、 を含む。
ンス、(ii) ストレス、(iii) 相内の音節位置、(iv) 文タイプ、(v) 境界タイプ
。その代わりにあるいはそれに加えて、非二進数関数は、表に頼ることによって
決定される。その代わりに、非二進数関数は、一セットの規則に頼ることによっ
て決定されてもよい。
と、 前記データベースによって参照された一連の波形を選択し、該一連の各波形が
目標特徴ベクトルの第1の非空集合に対応する波形選択器であって、該波形選択
器が少なくとも一つの波形候補とコストとに分類し、該コストが複数の特徴のそ
れぞれに結び付けられた重み付けされた個別のコスト関数であり、個別のコスト
の少なくとも一つに結び付けられる重みが該一連の波形内の目標特徴ベクトルの
第2の非空集合に従って非自明的に変化する、前記波形選択器と、 音声信号出力を作り出すために前記音声波形選択器によって選択された波形を
連結する、前記大音声データベースと通信する音声波形連結器と、 を含む。
に、第2の空集合は、一連の波形内の第1の非空集合に近似している。
選択する、前記音声データベースと通信する音声波形選択器と、 音声信号出力を作るために前記音声波形選択器によって選択された波形を連結
する、前記音声データベースと通信する音声波形連結器であって、第1の波形と
第2の波形の少なくとも一つの順序付けられた列のために、該音声連結器が (i) 該第1の波形の立ち下がり縁の位置と、(ii) 該第2の波形の立ち上がり縁の位
置とを選択し、各位置がその位置近くの領域で第1及び第2の波形間の位相マッ
チの最適化を作り出すように選択される、前記音声波形連結器と、 を含む。
び立ち下がり縁の位置だけを変えることによって達成される。任意的に、あるい
はそれに加えて、最適化は、その位置に近い領域で第1及び第2の波形の形状に
おける類似性を基礎にして決定される。さらなる実施の形態では、類似性は、任
意的に相関関係の全域で標準化される相互相関技術を用いて決定される。任意的
に又はそれに加えて、最適化は、少なくとも一つの非方形窓を用いて決定される
。同じく、任意的に又はそれに加えて、最適化は、第1及び第2の波形に結び付
けられた時間分解能が連続的に細かく作られる連続する複数の段階において決定
される。任意的に、あるいはそれに加えて、分解能の変化は、ダウンサンプリン
グによって達成される。
本発明の代表的な実施の形態は、音声仕様から高品質の音声を作り出す。それは
、目標(target)として知られる、大データベースに保持された本物の記録され
た音声のパーツを連結することによるテキストプロセッサの出力であり得る。図
1に示されるように、エンジンを構成する主処理目的(メインプロセスオブジェ
クト)は、テキストプロセッサ101と、目標発生器111と、音声ユニットデ
ータベース141と、波形選択器131と、音声波形連結器151とを含む。
た音声ユニット記述子とともに、それらの音声記述子によって個別の音声ユニッ
トに索引を付けられる実際の音声の大きいコーパスの、例えば、PCMのような
デジタルフォーマットの録音を含む。一実施の形態では、音声ユニットデータベ
ース141の音声ユニットは、2つの隣接する音素に始まって終わる二音字の形
式である。他の実施の形態は、異なったサイズの構築された音声ユニットを用い
てもよい。音声ユニット記述子は、例えば、音表象的記述子、例えば、語彙のア
クセント、単語位置などと、韻律的記述子、例えば、持続時間、振幅、ピッチな
どとを含む。
グッバイ(Hello, goodbye!)」を受け取る。テキスト句は、テキストプロセッ
サ101によって入力音声データシーケンスに変換される。図1において、これ
は、単純な音声転写−#hE-lO#'Gud-bY#−である。種々の代わりの実施の形態で
は、入力音声データシーケンスは、種々の異なる形式の一つであってもよい。入
力音声データシーケンスは、目標発生器111によって合成されるべき多層の内
部データシーケンスに変換される。拡張音声転写(XPT)として知られる、こ
の内部データシーケンス表示は、音声記述子と、音表象的記述子と、音声ユニッ
トデータベース141内のもののような韻律的記述子とを含む。
ができる候補音声ユニットの記述子を音声ユニットデータベース141から検索
する。波形選択器131は、ノードコストを各候補に割り当て、目標XPTのX
PTと候補音声ユニットのXPTを比較することによって、候補音声ユニットの
順序付きリストを作る。候補から目標へのマッチングは、音声文脈及び韻律的文
脈のような音表象的記述子と、数的記述子に基づき、各候補が目標仕様にどれほ
ど適しているかを決定する。不完全にマッチする候補は、この時点で除外されて
もよい。
品質低下を起こすことなく、どの候補音声ユニットが連結され得るかを決定する
。連続した候補音声ユニットは、品質低下コスト関数に従って波形選択器131
によって評価される。候補から候補へのマッチングは、どれほど候補がともに接
合され得るかを決定するために、エネルギー、ピッチ及びスペクトル情報のよう
なフレームベースの情報を用いる。動的計画法を用いて、候補音声ユニットの最
良の順序が音声波形連結器151への出力のために選択される。
ベース141からの出力音声ユニット(二音字及び/又は多音字)を要求する。
音声波形連結器151は、目標入力テキストを表す出力音声を形成して選択され
た音声ユニットを連結する。
ファイルを含む: (1)音声信号ファイル61 (2)時調整拡張音声転写(XPT)ファイル62 (3)二音字ルックアップテーブル63
音字ルックアップテーブル63への鍵である。二音字インデックステーブル63
1は、これらの二音字の参照が二音字参照テーブル632内のどこで見出され得
るかを記述する、その言語の各可能な二音字のための見出し語を含む。二音字参
照テーブル632は、音声ユニットデータベース141内のすべての二音字への
参照を含む。これらの参照は、二音字識別子によってアルファベット順に整理さ
れる。識別によってすべての二音字を参照するために、リストが二音字ルックア
ップテーブル63のどこから開始し、いくつの二音字が含まれているかを明示す
ることは十分である。各二音字参照は、音声ユニットデータベース141内のど
こで見出され、二音字がどの音素で始まり、二音字が音声信号内のどこで始まる
かのメッセージ(発話)の数と、二音字の持続時間とを含む。
1内の音声信号を表すために用いられる転写である。代表的な実施の形態は、シ
ステムが正確なピッチと持続時間目標を必要としないで音声ユニットデータベー
ス141内の本質的な韻律を用いるのを可能にする転写を用い始める。これは、
システムが入力転写に音声的に韻律的にマッチされる音声ユニットを選択できる
ことを意味する。音声波形連結器151による選択された音声ユニットの連結は
、望ましい韻律を持つ発話に効果的に至る。
られ得る特徴)と音響的特徴(すなわち、記録された音声波形からのみ得られ得
る特徴)とを含む。音声ユニットデータベース141から音声ユニットを効率的
に抽出するために、XPTは、典型的に発話の音声記述を調整された時間を含む
。信号内の各音素の始まりは転写に含まれる。XPTは、合図に関連した多くの
韻律、例えば、音の抑揚法や位置情報も含む。音表象的情報を別として、転写は
また、韻律に関する音響情報、例えば、音素持続時間を含む。典型的な実施の形
態は、それらの韻律的あるいはスペクトル実現の修正なく、音声ユニットデータ
ベース141から音声ユニットを連結する。それゆえ、音声ユニットの境界は、
マッチするスペクトルの及び韻律的実現を有するべきである。このマッチを確か
めるために要求される必要な情報は、典型的に、境界ピッチ値及びスペクトルデ
ータによってXPTに組み込まれる。境界ピッチ値及びスペクトルは、多音字端
で計算される。
体、例えば、ハードディスク、CD−ROM、DVD、ランダムアクセルメモリ
ー(RAM)などに格納されてもよい。データアクセススピードは、これら種々
の媒体間のデータをどのように分配するかを効率的に選択することによって増さ
れ得る。コンピューターシステムの最も遅いアクセス構成部材は、典型的にハー
ドディスクである。もし、連結用の候補を選択するために必要である音声ユニッ
ト情報の一部がそのような比較的遅い大容量記憶装置に格納されていたならば、
貴重な処理時間がこの遅い装置にアクセスすることによって浪費されるであろう
。もし、選択関連データがRAMに格納されていたならば、ずっと速い実行が得
られ得るだろう。したがって、代表的実施の形態では、音声ユニットデータベー
ス141は、RAMに格納される、しばしば必要とされる選択関連データ21と
、例えば、CD−ROM又はDVDに格納される、ほとんど必要とされない連結
関連データ22に分割される。結果として、データベースの音声データの量が非
常に大きい(ギガバイト程度)になるときでさえ、システムのRAM要求が大き
くないままである。比較的小さい数のCD−ROM検索は、並列線のために一つ
のCD−ROMを用いて多重チャネルアプリケーションを適応させてもよく、音
声データベースは、CD上の他のアプリケーションデータと並存してもよい(例
えば、自動車PCのナビゲーションシステム)。
されてもよい。
1の多くの利用可能なマッチング二音字を含む。ここで、マッチングは、単に二
音字識別が一致することを意味する。したがって、頭文字‘l’が目標の最初の
ストレスを持つ二音字‘#l’の一例では、波形選択器131の候補リストは、
ストレスのないもの、あるいは第2の‘l’を含む、音声ユニットデータベース
141内に見出されるあらゆる‘#l’を含む。波形選択器131は、二音字の
最良のシーケンスを見付けるために動的計画法を用い、そうして、 (1)最良のシーケンスのデータベース二音字がストレス、位置、文脈などに関
する目標二音字に類似し、 (2)最良のシーケンスのデータベース二音字が低い連結人工物とともに接合さ
れ得る。 これらの目標を達成するために、2つのタイプのコストが用いられる。それは、
特定の目標を合成するために用いられるべき各候補二音字の適合性を評価するNo
deCostと、二音字の「接合可能性(joinability)」を評価するTransitionCost
である。これらのコストは、最適なパスを見出すDPアルゴリズムによって結合
される。
わち、非数字、例えば、ストレス、プロミネンス、音素文脈)か、数的(例えば
、スペクトル、ピッチ、持続時間)かのいずれかに依存する2つのタイプであっ
てもよい。
た目標ユニットに評価するために、よい一致と悪い一致の間の「グレー」領域が
ある。最も単純なコスト重み関数は、2進数の0/1である。もし、候補が目標
と同じ値を有するならば、コストは0であり、候補が異なるものであるならば、
コストは1である。例えば、最も強いストレスを持つ目標のために、そのストレ
ス(文節アクセント(最も強い)、第1、第2のストレスがない(最も弱い))
のための候補を評価するとき、この単純なシステムは、第1、第2、又はストレ
スのない候補を1のコストと評価する。もし、目標が最も強いストレスならば、
第1のストレスの候補はストレスのない候補より好ましいので、これは、反直感
的である。
のコストを記述する表を構成することができる。いくつかの例は、ファジー理論
からの概念に似ているので、「ファジー表」と呼ばれる付表の表1及び表2に示
される。類似の表は、NodeCost計算で用いられた音表象的特徴のいずれか又はす
べてのために構成され得る。
ように、特別な音表象を用いてもよい。それは、「悪い:BAD」及び「非常に悪
い:VERY BAD」を意味する。実際には、言語学者は、付表の表1に示されるよう
に、3の目標プロミネンス及び0の候補プロミネンスのために、ファジー表にお
けるBADのために特別な象徴/1、あるいはVERY BADのために2を与える。あら
ゆる特徴からの標準最小貢献が0であり、最大が1であることは、以前にも言及
された。/1又は/2を用いることによって、特徴ミスマッチのコストは、候補
が高いコストを取ることを保証されるように、1よりもずっと高く作られ得る。
したがって、もし、特定の特徴のために、表の適切な見出し語が/1ならば、候
補はめったに用いられず、もし、表の適切な見出し語が/2ならば、その候補は
ほとんど用いられない。表1の例では、もし、目標プロミネンスが3ならば、a
/1を用いることは、プロミネンス0を持つ候補が常に選択されることを見込み
のないものとする。
良い組み合わせを音表象的に選択するために用いられる。しかしながら、どの音
声ユニットが最も良いかを決定するために、音表象的特徴のための固定コスト関
数を用いることは、いくつかの音表象的特徴が他よりもある文脈では重要である
という事実のような周知の言語学上の現象を無視する。
音節が発話の他の部分よりも長い傾向にあることは周知である。それゆえ、動的
計画法アルゴリズムが発話の最後の音節を合成するために、候補音声ユニットを
検索するとき、その候補音声ユニットはまた、発話の最後の音節からなるべきで
あり、同じく、発話の最後の位置において、もっと多くの重要性が「音節位置」
の特徴に認められることは望ましい。この種の現象は、言語から言語へ変化し、
それゆえ、規則が波形選択器131コスト関数の実パラメーターを直接扱うため
に有するよりもむしろ語学の専門家によって条件を指定され得るように、規則ベ
ースの骨組みにおける文脈依存の音声ユニット選択を導入する方法を有すること
は有益である。したがって、コスト関数のために指定される重みは、また、特徴
、例えば、音素識別に関連した多くの規則に従って扱われてもよい。そのうえ、
コスト関数そのものもまた、特徴、例えば、現象識別に関連した規則に従って扱
われてもよい。もし、規則の条件が満たされるならば、以下のようないくつかの
可能なアクションが起こり得る、 (1)音表象的又は数的特徴のために、その特徴に結び付けられた重みは、変え
られてもよく、もし特徴がこの文脈においてより需要ならば増加され、もし特徴
が重要でないならば減少される。例えば、「r」がしばしばその前後の母音に影
響を与えるので、母音文脈における「r」が出合わされるとき、候補項目が音声
文脈のための目標仕様にマッチする重要性を増加する専門家規則は、興奮する。
(2)音表象的特徴のために、特徴が通常用いるファジー表は、異なるものに変
えられてもよい。 (3)数的特徴のために、コスト関数の形は、変えられ得る。 いくつかの例が付表の表3に示される。そこでは、*が「あらゆる音」を表示す
るために用いられ、[]が現在の中心に音字を取り巻くために用いられる。した
がって、R[at]#は、文脈r_#における二音字「at」示す。
重要な関心事である。音声ユニット選択ストラテジーは、いくつかのスケーリン
グ可能性を提供する。波形選択器131は、データ検索を速めるルックアップテ
ーブルによって音声ユニットデータベース141から音声ユニット候補を検索す
る。ルックアップテーブルにアクセスするために用いられる入力キーは、一つの
拡大縮小可能性ファクターを表す。このルックアップテーブルへの入力キーは、
最小、例えば、音声ユニットコアを記述する一対の音素からより複雑、例えば、
一対の音素+音声ユニット特徴(音の抑揚法、文脈、・・・)まで変化すること
ができる。入力キーをより複雑にすることは、ルックアップテーブルを通して見
出される候補音声ユニットを少なくする結果になる。したがって、より小さい(
必ずしもより良くないけれども)候補リストは、より複雑なルックアップテーブ
ルを犠牲にして作られる。
理スピードの両方に影響を与える、重要なスケーリングファクターである。利用
可能なデータが多くなればなるほど、最適な音声ユニットを見付けるためにより
長い時間がかかる。必要とされる最小データベースは、(線形予測符号化ベース
の音組織から音声へのシステムにおいて用いられる音声データベース匹敵する)
入力の音組織をカバーする孤立された音声ユニットから成る。精選された音声信
号をデータベースに加えることは、システム条件を増加することを犠牲にして出
力音声の品質を改善する。
可能性ファクターを表す。それ以上の拡大縮小ファクターは、音声データベース
のサイズを減少するために音声符号化及び/又は音声圧縮技術の使用に関連する
。
質の音声セグメントを供に加えることによって音声信号を生成する。時間領域に
おける変更されていないPCM音声波形を連結することは、本質的な分節情報が
維持されるという利点を有する。これは、また、ミクロ韻律を含む自然な韻律的
情報が合成された音声に転送されることを意味する。分節内の音響品質が最適で
あるけれども、分節間歪みをもたらし得る波形連結処理に注意されたい。波形連
結の主な関心は、接合箇所の近傍に生じ得る不連続や速い過渡現象のような波形
不規則さを避けることにおいてである。これらの波形不規則さは、一般に連結人
工物として言及される。
グメントの連結は、周知の重み重複及び加算(OLA)方法を用いることによっ
て実行され得る。セグメント連結のための重複及び加算手順は、実際には、音声
セグメントの(非線形の)短時間フェードイン/フェードアウトより他はない。
高品質の連結を得るために、我々は、2つの領域間の位相ミスマッチの程度が最
小にされるように、第1のセグメントの立ち下がり部分の領域を見付け、第2の
セグメントの立ち上がり部分の領域を見付ける。この処理は、次のように実行さ
れる: ・我々は、2つの引き窓、第1の音声セグメントの立ち下がり部分内のものと第
2の音声セグメントの立ち上がり部分のものとの間の最大の標準化された相互相
関を検索する。 ・第1の音声セグメントの立ち下がり部分と第2の音声セグメントの立ち上がり
部分は、データベースのルックアップテーブルに格納されるように、二音字境界
の周りに集中される。 ・好ましい実施の形態では、立ち下がり及び立ち上がり領域の長さは、1〜2ピ
ッチ期間のオーダーであり、引き窓はベル形状である。 網羅的な検索の計算負荷を減らすために、検索は、多数の段階で実行され得る。
第1の段階は、より低い時間分解能で上述される包括的な検索を実行する。より
低い時間分解能は、音声セグメントの段階的に行うダウンサンプリング(downsa
mpling)に基づく。連続する段階は、前段階で決定された最適な領域の周りで逐
次より高い時間分解能において近傍検索を実行する。
タープログラムプロダクトとして実行され得る。そのような実行は、コンピュー
ターに読取可能な媒体(例えば、ディスケット、CD−ROM、ROM、又は固
定ディスク)のような有形的媒体上に、あるいは、モデム、又は媒体上のネット
ワークに接続された通信アダプタのような他のインターフェース装置を介してコ
ンピューターシステムと伝送可能なもののいずれかに固定された一連のコンピュ
ーター命令を含んでもよい。その媒体は、有形な媒体(例えば、光学式又はアナ
ログ式通信ライン)、あるいは無線技術で実行される媒体(例えば、マイクロ波
、赤外線又は他の伝送技術)のいずれかであってもよい。一連のコンピューター
命令は、システムに関してここで前述された関数性のすべて又は一部を具体化す
る。当業者は、そのようなコンピューター命令が多くのコンピューターアーキテ
クチャ又はオペレーティングシステムで使用するために多くのプログラミング言
語で書かれ得ることを認識すべきである。さらに、そのような命令は、半導体、
磁気式、光学式又は他の記憶装置のようなあらゆる記憶装置に格納され得、光学
式、赤外線、マイクロ波、又は他の伝送技術のようなあらゆる通信技術を用いて
伝送され得る。そのようなコンピュータープログラムプロダクトが、印刷された
あるいは電子文書(例えば、圧縮されたソフトウェア)に添付する移動可能な媒
体として配布され、コンピューターシステム(例えば、システムROM又は固定
ディスク上に)にプリインストールして、あるいは、サーバー又はネットワーク
(例えば、インターネット(Internet)又はWorld Wide Web)上の電子掲示板か
ら配布されてもよい。勿論、本発明のいくつかの実施の形態は、ソフトウェア(
例えば、コンピュータープログラムプロダクト)とハードウェアの両方の組み合
わせとして実行されてもよい。本発明のまだ他の実施の形態は、完全にハードウ
ェア、あるいは完全にソフトウェア(例えば、コンピュータープログラムプロダ
クト)として実行される。
ある。
ユニットである。したがって、二音字の左と右の境界は、中間的な音境界である
。二音字の中心は、音遷移領域を含む。単音よりもむしろ二音字を用いるための
動機は、二音字の端が比較的定常状態であり、又、2つの単音を接合するよりも
可聴の減損なく2つの二音字を接合する方が容易である。
、そのようなユニットに関して、音の抑揚法、音声文脈、並びに、適用可能な文
、句、単語、及び音節の位置を含む。
音声データベースに関する。そのデータベースは、デジタル方式でサンプルされ
た波形を直接含んでもよく、そのような波形へのポインタを含んでもよく、ある
いは、波形合成器の動作を管理するパラメーターセットへのポインタを含んでも
よい。データベースは、音声合成の目的のための波形参照中、データベースが一
般に種々の言語条件下で発生する多くの波形候補を参照するとき、「大きい(la
rge)」と考えられる。この方法では、音声合成のほとんどの時間、データベー
スは、そこから選択する多くの波形候補を提供するだろう。多くのそのような波
形候補の利用可能性は、ここを通して、特に概観において記述されるように、音
声出力における韻律的な及び他の言語の変化を可能にすることができる。
ようなユニットに関して、ピッチ曲線と持続時間を含む。
なくとも3値のいずれかを想定する。
字は、2つの二音字から成る多音字である。
写は、任意的に、語彙のストレス、文アクセントなどのための象徴に注釈を付け
られる。例(単語「価値がある(worthwhile)」のために):#‘werT−’
wYl# 「三音字(triphone)」は、ともに接合される2つの二音字である。したがっ
て、それは、3つの要素、左境界における半音素、完全な音素、及び右境界にお
ける半音素を含む。
端がフェードインとフェードアウトに曝される技術に関する。
容易に理解される。
。
Claims (22)
- 【請求項1】 音声合成器であって、 a.音声波形を参照する大音声データベースであって、多音字によってアクセス
される、大音声データベースと、 b.音声転写入力に対応する多音字指示符号を用いるデータベースによって参照
される波形を選択する、前記大音声データベースと通信する音声波形選択器と、 c.音声信号出力を作り出すために前記音声波形選択器によって選択された波形
を連結する、前記大音声データベースと通信する音声波形連結器と、 を備えることを特徴とする音声合成器。 - 【請求項2】 前記多音字指示符号が二音字指示符号であることを特徴とす
る請求項1記載の音声合成器。 - 【請求項3】 音声波形が音声符号化形状に格納されるデジタル記憶媒体と
、 前記波形選択器によってアクセスされるとき、符号化音声波形を復号する復号
器と、 を更に備えることを特徴とする請求項1又は2記載の音声合成器。 - 【請求項4】 前記音声合成器は、長い時間にわたって特定の目標持続時間
値あるいは特定の目標ピッチ音調曲線に頼ることなく、波形候補間で選択するよ
うに機能することを特徴とする請求項1乃至3のいずれかに記載の音声合成器。 - 【請求項5】 音声合成器であって、 a.大音声データベースと、 b.音声転写入力に応答して一連の目標特徴ベクトルを生成するための目標発生
器と、 c.前記データベースによって参照された一連の波形を選択し、該一連の各波形
が目標特徴ベクトルの第1の非空集合に対応する波形選択器であって、該波形選
択器が少なくとも一つの波形候補とノードコストとに分類し、該ノードコストが
複数の特徴のそれぞれに結び付けられた個別のコスト関数であり、少なくとも一
つの個別のコストが言語規則に従って変化するコスト関数を用いて決定される、
前記波形選択器と、 d.音声信号出力を作るために前記音声波形選択器によって選択された波形を連
結する、前記音声データベースと通信する音声波形連結器と、 を備えることを特徴とする音声合成器。 - 【請求項6】 音声合成器であって、 a.大音声データベースと、 b.音声転写入力に応答して一連の目標特徴ベクトルを生成するための目標発生
器と、 c.前記大音声データベースによって参照される一連の波形を選択する波形選択
器であって、該波形選択器が2以上の波形候補の少なくとも一つの順序付けされ
た列と遷移コストとに分類し、該遷移コストが複数の特徴のそれぞれに結び付け
られた個別のコスト関数であり、少なくとも一つの個別のコストが言語規則に従
って非自明的に変化するコスト関数を用いて決定される、前記波形選択器と、 d.音声信号出力を作り出すために前記音声波形選択器によって選択された波形
を連結する、前記大音声データベースと通信する音声波形連結器と、 を備えることを特徴とする音声合成器。 - 【請求項7】 音声合成器であって、 a.大音声データベースと、 b.前記大音声データベースによって参照される一連の波形を選択する波形選択
器であって、該波形選択器が少なくとも一つの波形候補とコストとに分類し、該
コストが複数の特徴のそれぞれに結び付けられた個別のコスト関数であり、音表
象的特徴の少なくとも一つの個別のコストが非二進数関数を用いて決定される、
前記波形選択器と、 c.音声信号出力を作り出すために前記音声波形選択器によって選択された波形
を連結する、前記大音声データベースと通信する音声波形連結器と、 を備えることを特徴とする音声合成器。 - 【請求項8】 前記音表象的特徴は、(i) プロミネンス、(ii) ストレス、(
iii) 相内の音節位置、(iv) 文タイプ、(v) 境界タイプ、の一つであることを特
徴とする請求項7記載の音声合成器。 - 【請求項9】 前記非二進数関数は、表に頼ることによって決定されること
を特徴とする請求項7又は8記載の音声合成器。 - 【請求項10】 前記非二進数関数は、一セットの規則に頼ることによって
決定されることを特徴とする請求項7又は8記載の音声合成器。 - 【請求項11】 音声合成器であって、 a.大音声データベースと、 b.音声転写入力に応答して一連の目標特徴ベクトルを生成するための目標発生
器と、 c.前記データベースによって参照された一連の波形を選択し、該一連の各波形
が目標特徴ベクトルの第1の非空集合に対応する波形選択器であって、該波形選
択器が少なくとも一つの波形候補とコストとに分類し、該コストが複数の特徴の
それぞれに結び付けられた重み付けされた個別のコスト関数であり、個別のコス
トの少なくとも一つに結び付けられる重みが該一連の波形内の目標特徴ベクトル
の第2の非空集合に従って非自明的に変化する、前記波形選択器と、 d.音声信号出力を作り出すために前記音声波形選択器によって選択された波形
を連結する、前記大音声データベースと通信する音声波形連結器と、 を備えることを特徴とする音声合成器。 - 【請求項12】 前記第1及び第2の非空集合が同一であることを特徴とす
る請求項11記載の音声合成器。 - 【請求項13】 前記第2の空集合は、一連の波形内の前記第1の非空集合
に近似していることを特徴とする請求項11記載の音声合成器。 - 【請求項14】 音声合成器であって、 a.音声波形を参照する音声データベースと、 b.音声転写に対応する指示符号を用いるデータベースによって参照される波形
を選択する、前記音声データベースと通信する音声波形選択器と、 c.音声信号出力を作るために前記音声波形選択器によって選択された波形を連
結する、前記音声データベースと通信する音声波形連結器であって、第1の波形
と第2の波形の少なくとも一つの順序付けられた列のために、該音声連結器が(i
) 該第1の波形の立ち下がり縁の位置と、(ii) 該第2の波形の立ち上がり縁の
位置とを選択し、各位置がその位置近くの領域で第1及び第2の波形間の位相マ
ッチの最適化を作り出すように選択される、前記音声波形連結器と、 を備えることを特徴とする音声合成器。 - 【請求項15】 音声合成器であって、 a.音声波形を参照する音声データベースと、 b.音声転写に対応する指示符号を用いるデータベースによって参照される波形
を選択する、前記音声データベースと通信する音声波形選択器と、 c.音声信号出力を作るために前記音声波形選択器によって選択された波形を連
結する、前記音声データベースと通信する音声波形連結器であって、第1の波形
と第2の波形の少なくとも一つの順序付けられた列のために、該第2の波形が立
ち上がり縁を有し、該音声連結器が該第1の波形の立ち下がり縁の位置を選択し
、該位置がその位置及び該立ち上がり位置近くの領域で第1及び第2の波形間の
位相マッチの最適化を作り出すように選択される、前記音声波形連結器と、 を備えることを特徴とする音声合成器。 - 【請求項16】 音声合成器であって、 a.音声波形を参照する音声データベースと、 b.音声転写に対応する指示符号を用いるデータベースによって参照される波形
を選択する、前記音声データベースと通信する音声波形選択器と、 c.音声信号出力を作るために前記音声波形選択器によって選択された波形を連
結する、前記音声データベースと通信する音声波形連結器であって、第1の波形
と第2の波形の少なくとも一つの順序付けられた列のために、該第1の波形が立
ち下がり縁を有し、該音声連結器が該第2の波形の立ち上がり縁の位置を選択し
、該位置がその位置及び該立ち下がり位置近くの領域で第1及び第2の波形間の
位相マッチの最適化を作り出すように選択される、前記音声波形連結器と、 を備えることを特徴とする音声合成器。 - 【請求項17】 前記最適化は、前記位置近くの領域で前記第1及び第2の
波形の形状における類似性を基礎にして決定されることを特徴とする請求項14
乃至16のいずれかに記載の音声合成器。 - 【請求項18】 前記類似性は、相互相関技術を用いて決定されることを特
徴とする請求項17記載の音声合成器。 - 【請求項19】 前記相互相関技術は、相関関係の全域で標準化されること
を特徴とする請求項18記載の音声合成器。 - 【請求項20】 前記最適化は、少なくとも一つの非方形窓を用いて決定さ
れることを特徴とする請求項14乃至16、又は18のいずれかに記載の音声合
成器。 - 【請求項21】 前記最適化は、前記第1及び第2の波形に結び付けられる
時間分解能が連続的に細かい複数の連続する段階において決定されることを特徴
とする請求項14乃至16、又は18のいずれかに記載の音声合成器。 - 【請求項22】 時間分解能における縮小が波形ダウンサンプリングによっ
て達成されることを特徴とする請求項21記載の音声合成器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10820198P | 1998-11-13 | 1998-11-13 | |
US60/108,201 | 1998-11-13 | ||
PCT/IB1999/001960 WO2000030069A2 (en) | 1998-11-13 | 1999-11-12 | Speech synthesis using concatenation of speech waveforms |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002530703A true JP2002530703A (ja) | 2002-09-17 |
Family
ID=22320842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000582998A Pending JP2002530703A (ja) | 1998-11-13 | 1999-11-12 | 音声波形の連結を用いる音声合成 |
Country Status (8)
Country | Link |
---|---|
US (2) | US6665641B1 (ja) |
EP (1) | EP1138038B1 (ja) |
JP (1) | JP2002530703A (ja) |
AT (1) | ATE298453T1 (ja) |
AU (1) | AU772874B2 (ja) |
CA (1) | CA2354871A1 (ja) |
DE (2) | DE69940747D1 (ja) |
WO (1) | WO2000030069A2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006047916A (ja) * | 2004-08-09 | 2006-02-16 | Advanced Telecommunication Research Institute International | 音声素片選択装置および音声合成装置 |
JP2007114236A (ja) * | 2005-10-18 | 2007-05-10 | Nippon Hoso Kyokai <Nhk> | 音声合成装置および音声合成プログラム |
JP2012225950A (ja) * | 2011-04-14 | 2012-11-15 | Yamaha Corp | 音声合成装置 |
Families Citing this family (302)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6144939A (en) * | 1998-11-25 | 2000-11-07 | Matsushita Electric Industrial Co., Ltd. | Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains |
WO2000055842A2 (en) * | 1999-03-15 | 2000-09-21 | British Telecommunications Public Limited Company | Speech synthesis |
CN1168068C (zh) * | 1999-03-25 | 2004-09-22 | 松下电器产业株式会社 | 语音合成系统与语音合成方法 |
US7369994B1 (en) | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
JP2001034282A (ja) * | 1999-07-21 | 2001-02-09 | Konami Co Ltd | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
JP3361291B2 (ja) * | 1999-07-23 | 2003-01-07 | コナミ株式会社 | 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
US7219061B1 (en) * | 1999-10-28 | 2007-05-15 | Siemens Aktiengesellschaft | Method for detecting the time sequences of a fundamental frequency of an audio response unit to be synthesized |
US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
JP3483513B2 (ja) * | 2000-03-02 | 2004-01-06 | 沖電気工業株式会社 | 音声録音再生装置 |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP2001265375A (ja) * | 2000-03-17 | 2001-09-28 | Oki Electric Ind Co Ltd | 規則音声合成装置 |
US7039588B2 (en) * | 2000-03-31 | 2006-05-02 | Canon Kabushiki Kaisha | Synthesis unit selection apparatus and method, and storage medium |
JP2001282278A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理装置及びその方法と記憶媒体 |
JP3728172B2 (ja) * | 2000-03-31 | 2005-12-21 | キヤノン株式会社 | 音声合成方法および装置 |
US6684187B1 (en) | 2000-06-30 | 2004-01-27 | At&T Corp. | Method and system for preselection of suitable units for concatenative speech |
US6505158B1 (en) * | 2000-07-05 | 2003-01-07 | At&T Corp. | Synthesis-based pre-selection of suitable units for concatenative speech |
EP1193616A1 (en) * | 2000-09-29 | 2002-04-03 | Sony France S.A. | Fixed-length sequence generation of items out of a database using descriptors |
US7069216B2 (en) * | 2000-09-29 | 2006-06-27 | Nuance Communications, Inc. | Corpus-based prosody translation system |
US6871178B2 (en) * | 2000-10-19 | 2005-03-22 | Qwest Communications International, Inc. | System and method for converting text-to-voice |
US7451087B2 (en) * | 2000-10-19 | 2008-11-11 | Qwest Communications International Inc. | System and method for converting text-to-voice |
US6990450B2 (en) * | 2000-10-19 | 2006-01-24 | Qwest Communications International Inc. | System and method for converting text-to-voice |
US6990449B2 (en) | 2000-10-19 | 2006-01-24 | Qwest Communications International Inc. | Method of training a digital voice library to associate syllable speech items with literal text syllables |
US6978239B2 (en) * | 2000-12-04 | 2005-12-20 | Microsoft Corporation | Method and apparatus for speech synthesis without prosody modification |
US7263488B2 (en) * | 2000-12-04 | 2007-08-28 | Microsoft Corporation | Method and apparatus for identifying prosodic word boundaries |
JP3673471B2 (ja) * | 2000-12-28 | 2005-07-20 | シャープ株式会社 | テキスト音声合成装置およびプログラム記録媒体 |
EP1221692A1 (en) * | 2001-01-09 | 2002-07-10 | Robert Bosch Gmbh | Method for upgrading a data stream of multimedia data |
US20020133334A1 (en) * | 2001-02-02 | 2002-09-19 | Geert Coorman | Time scale modification of digitally sampled waveforms in the time domain |
JP2002258894A (ja) * | 2001-03-02 | 2002-09-11 | Fujitsu Ltd | 音声データ圧縮・解凍装置及び方法 |
US7035794B2 (en) * | 2001-03-30 | 2006-04-25 | Intel Corporation | Compressing and using a concatenative speech database in text-to-speech systems |
JP2002304188A (ja) * | 2001-04-05 | 2002-10-18 | Sony Corp | 単語列出力装置および単語列出力方法、並びにプログラムおよび記録媒体 |
US6950798B1 (en) * | 2001-04-13 | 2005-09-27 | At&T Corp. | Employing speech models in concatenative speech synthesis |
JP4747434B2 (ja) * | 2001-04-18 | 2011-08-17 | 日本電気株式会社 | 音声合成方法、音声合成装置、半導体装置及び音声合成プログラム |
DE10120513C1 (de) * | 2001-04-26 | 2003-01-09 | Siemens Ag | Verfahren zur Bestimmung einer Folge von Lautbausteinen zum Synthetisieren eines Sprachsignals einer tonalen Sprache |
GB0112749D0 (en) * | 2001-05-25 | 2001-07-18 | Rhetorical Systems Ltd | Speech synthesis |
GB0113587D0 (en) * | 2001-06-04 | 2001-07-25 | Hewlett Packard Co | Speech synthesis apparatus |
GB2376394B (en) | 2001-06-04 | 2005-10-26 | Hewlett Packard Co | Speech synthesis apparatus and selection method |
GB0113581D0 (en) | 2001-06-04 | 2001-07-25 | Hewlett Packard Co | Speech synthesis apparatus |
US6829581B2 (en) * | 2001-07-31 | 2004-12-07 | Matsushita Electric Industrial Co., Ltd. | Method for prosody generation by unit selection from an imitation speech database |
US20030028377A1 (en) * | 2001-07-31 | 2003-02-06 | Noyes Albert W. | Method and device for synthesizing and distributing voice types for voice-enabled devices |
DE02765393T1 (de) * | 2001-08-31 | 2005-01-13 | Kabushiki Kaisha Kenwood, Hachiouji | Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
KR100438826B1 (ko) * | 2001-10-31 | 2004-07-05 | 삼성전자주식회사 | 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법 |
US20030101045A1 (en) * | 2001-11-29 | 2003-05-29 | Peter Moffatt | Method and apparatus for playing recordings of spoken alphanumeric characters |
US7483832B2 (en) * | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
US7401020B2 (en) * | 2002-11-29 | 2008-07-15 | International Business Machines Corporation | Application of emotion-based intonation and prosody to speech in text-to-speech systems |
US7266497B2 (en) * | 2002-03-29 | 2007-09-04 | At&T Corp. | Automatic segmentation in speech synthesis |
TW556150B (en) * | 2002-04-10 | 2003-10-01 | Ind Tech Res Inst | Method of speech segment selection for concatenative synthesis based on prosody-aligned distortion distance measure |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
JP4178319B2 (ja) * | 2002-09-13 | 2008-11-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理におけるフェーズ・アライメント |
US7529672B2 (en) * | 2002-09-17 | 2009-05-05 | Koninklijke Philips Electronics N.V. | Speech synthesis using concatenation of speech waveforms |
US7539086B2 (en) * | 2002-10-23 | 2009-05-26 | J2 Global Communications, Inc. | System and method for the secure, real-time, high accuracy conversion of general-quality speech into text |
KR100463655B1 (ko) * | 2002-11-15 | 2004-12-29 | 삼성전자주식회사 | 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법 |
JP3881620B2 (ja) * | 2002-12-27 | 2007-02-14 | 株式会社東芝 | 話速可変装置及び話速変換方法 |
US7328157B1 (en) * | 2003-01-24 | 2008-02-05 | Microsoft Corporation | Domain adaptation for TTS systems |
US6988069B2 (en) * | 2003-01-31 | 2006-01-17 | Speechworks International, Inc. | Reduced unit database generation based on cost information |
US6961704B1 (en) * | 2003-01-31 | 2005-11-01 | Speechworks International, Inc. | Linguistic prosodic model-based text to speech |
US7308407B2 (en) * | 2003-03-03 | 2007-12-11 | International Business Machines Corporation | Method and system for generating natural sounding concatenative synthetic speech |
US7496498B2 (en) * | 2003-03-24 | 2009-02-24 | Microsoft Corporation | Front-end architecture for a multi-lingual text-to-speech system |
JP4433684B2 (ja) * | 2003-03-24 | 2010-03-17 | 富士ゼロックス株式会社 | ジョブ処理装置及び該装置におけるデータ管理方法 |
JP4225128B2 (ja) * | 2003-06-13 | 2009-02-18 | ソニー株式会社 | 規則音声合成装置及び規則音声合成方法 |
US7280967B2 (en) * | 2003-07-30 | 2007-10-09 | International Business Machines Corporation | Method for detecting misaligned phonetic units for a concatenative text-to-speech voice |
JP4150645B2 (ja) * | 2003-08-27 | 2008-09-17 | 株式会社ケンウッド | 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム |
US7990384B2 (en) * | 2003-09-15 | 2011-08-02 | At&T Intellectual Property Ii, L.P. | Audio-visual selection process for the synthesis of photo-realistic talking-head animations |
CN1604077B (zh) * | 2003-09-29 | 2012-08-08 | 纽昂斯通讯公司 | 对发音波形语料库的改进方法 |
US7409347B1 (en) * | 2003-10-23 | 2008-08-05 | Apple Inc. | Data-driven global boundary optimization |
US7643990B1 (en) * | 2003-10-23 | 2010-01-05 | Apple Inc. | Global boundary-centric feature extraction and associated discontinuity metrics |
JP4080989B2 (ja) * | 2003-11-28 | 2008-04-23 | 株式会社東芝 | 音声合成方法、音声合成装置および音声合成プログラム |
JP4839838B2 (ja) * | 2003-12-12 | 2011-12-21 | 日本電気株式会社 | 情報処理システム、情報処理方法および情報処理用プログラム |
US7567896B2 (en) * | 2004-01-16 | 2009-07-28 | Nuance Communications, Inc. | Corpus-based speech synthesis based on segment recombination |
US8666746B2 (en) * | 2004-05-13 | 2014-03-04 | At&T Intellectual Property Ii, L.P. | System and method for generating customized text-to-speech voices |
CN100524457C (zh) * | 2004-05-31 | 2009-08-05 | 国际商业机器公司 | 文本至语音转换以及调整语料库的装置和方法 |
WO2005119650A1 (ja) * | 2004-06-04 | 2005-12-15 | Matsushita Electric Industrial Co., Ltd. | 音声合成装置 |
JP4483450B2 (ja) * | 2004-07-22 | 2010-06-16 | 株式会社デンソー | 音声案内装置、音声案内方法およびナビゲーション装置 |
JP2006047866A (ja) * | 2004-08-06 | 2006-02-16 | Canon Inc | 電子辞書装置およびその制御方法 |
US7869999B2 (en) * | 2004-08-11 | 2011-01-11 | Nuance Communications, Inc. | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis |
US20060074678A1 (en) * | 2004-09-29 | 2006-04-06 | Matsushita Electric Industrial Co., Ltd. | Prosody generation for text-to-speech synthesis based on micro-prosodic data |
US7475016B2 (en) * | 2004-12-15 | 2009-01-06 | International Business Machines Corporation | Speech segment clustering and ranking |
US7467086B2 (en) * | 2004-12-16 | 2008-12-16 | Sony Corporation | Methodology for generating enhanced demiphone acoustic models for speech recognition |
US20060136215A1 (en) * | 2004-12-21 | 2006-06-22 | Jong Jin Kim | Method of speaking rate conversion in text-to-speech system |
JP2008545995A (ja) * | 2005-03-28 | 2008-12-18 | レサック テクノロジーズ、インコーポレーテッド | ハイブリッド音声合成装置、方法および用途 |
JP4586615B2 (ja) * | 2005-04-11 | 2010-11-24 | 沖電気工業株式会社 | 音声合成装置,音声合成方法およびコンピュータプログラム |
JP4570509B2 (ja) * | 2005-04-22 | 2010-10-27 | 富士通株式会社 | 読み生成装置、読み生成方法及びコンピュータプログラム |
US20060259303A1 (en) * | 2005-05-12 | 2006-11-16 | Raimo Bakis | Systems and methods for pitch smoothing for text-to-speech synthesis |
WO2006125346A1 (en) * | 2005-05-27 | 2006-11-30 | Intel Corporation | Automatic text-speech mapping tool |
WO2006128480A1 (en) | 2005-05-31 | 2006-12-07 | Telecom Italia S.P.A. | Method and system for providing speech synthsis on user terminals over a communications network |
US20080177548A1 (en) * | 2005-05-31 | 2008-07-24 | Canon Kabushiki Kaisha | Speech Synthesis Method and Apparatus |
WO2006134736A1 (ja) * | 2005-06-16 | 2006-12-21 | Matsushita Electric Industrial Co., Ltd. | 音声合成装置、音声合成方法およびプログラム |
JP2007004233A (ja) * | 2005-06-21 | 2007-01-11 | Yamatake Corp | 文章分類装置、文章分類方法、およびプログラム |
JP2007024960A (ja) * | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | システム、プログラムおよび制御方法 |
US7809572B2 (en) * | 2005-07-20 | 2010-10-05 | Panasonic Corporation | Voice quality change portion locating apparatus |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US7464065B2 (en) * | 2005-11-21 | 2008-12-09 | International Business Machines Corporation | Object specific language extension interface for a multi-level data structure |
US20070203706A1 (en) * | 2005-12-30 | 2007-08-30 | Inci Ozkaragoz | Voice analysis tool for creating database used in text to speech synthesis system |
US20070219799A1 (en) * | 2005-12-30 | 2007-09-20 | Inci Ozkaragoz | Text to speech synthesis system using syllables as concatenative units |
US8600753B1 (en) * | 2005-12-30 | 2013-12-03 | At&T Intellectual Property Ii, L.P. | Method and apparatus for combining text to speech and recorded prompts |
US20070203705A1 (en) * | 2005-12-30 | 2007-08-30 | Inci Ozkaragoz | Database storing syllables and sound units for use in text to speech synthesis system |
US8036894B2 (en) * | 2006-02-16 | 2011-10-11 | Apple Inc. | Multi-unit approach to text-to-speech synthesis |
EP1835488B1 (en) * | 2006-03-17 | 2008-11-19 | Svox AG | Text to speech synthesis |
JP2007264503A (ja) * | 2006-03-29 | 2007-10-11 | Toshiba Corp | 音声合成装置及びその方法 |
JP5045670B2 (ja) * | 2006-05-17 | 2012-10-10 | 日本電気株式会社 | 音声データ要約再生装置、音声データ要約再生方法および音声データ要約再生用プログラム |
JP4241762B2 (ja) | 2006-05-18 | 2009-03-18 | 株式会社東芝 | 音声合成装置、その方法、及びプログラム |
JP2008006653A (ja) * | 2006-06-28 | 2008-01-17 | Fuji Xerox Co Ltd | 印刷システム、印刷制御方法及びプログラム |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8027837B2 (en) * | 2006-09-15 | 2011-09-27 | Apple Inc. | Using non-speech sounds during text-to-speech synthesis |
US20080077407A1 (en) * | 2006-09-26 | 2008-03-27 | At&T Corp. | Phonetically enriched labeling in unit selection speech synthesis |
JP4878538B2 (ja) * | 2006-10-24 | 2012-02-15 | 株式会社日立製作所 | 音声合成装置 |
US20080126093A1 (en) * | 2006-11-28 | 2008-05-29 | Nokia Corporation | Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System |
US8032374B2 (en) * | 2006-12-05 | 2011-10-04 | Electronics And Telecommunications Research Institute | Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition |
US20080147579A1 (en) * | 2006-12-14 | 2008-06-19 | Microsoft Corporation | Discriminative training using boosted lasso |
US8438032B2 (en) * | 2007-01-09 | 2013-05-07 | Nuance Communications, Inc. | System for tuning synthesized speech |
JP2008185805A (ja) * | 2007-01-30 | 2008-08-14 | Internatl Business Mach Corp <Ibm> | 高品質の合成音声を生成する技術 |
US9251782B2 (en) | 2007-03-21 | 2016-02-02 | Vivotext Ltd. | System and method for concatenate speech samples within an optimal crossing point |
EP2140448A1 (en) * | 2007-03-21 | 2010-01-06 | Vivotext Ltd. | Speech samples library for text-to-speech and methods and apparatus for generating and using same |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
JP2009047957A (ja) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | ピッチパターン生成方法及びその装置 |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
JP2009109805A (ja) * | 2007-10-31 | 2009-05-21 | Toshiba Corp | 音声処理装置及びその方法 |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
JP2009294640A (ja) * | 2008-05-07 | 2009-12-17 | Seiko Epson Corp | 音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法 |
US8536976B2 (en) * | 2008-06-11 | 2013-09-17 | Veritrix, Inc. | Single-channel multi-factor authentication |
US8185646B2 (en) * | 2008-11-03 | 2012-05-22 | Veritrix, Inc. | User authentication for social networks |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US8166297B2 (en) | 2008-07-02 | 2012-04-24 | Veritrix, Inc. | Systems and methods for controlling access to encrypted data stored on a mobile device |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8301447B2 (en) * | 2008-10-10 | 2012-10-30 | Avaya Inc. | Associating source information with phonetic indices |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
JP5471858B2 (ja) * | 2009-07-02 | 2014-04-16 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
RU2421827C2 (ru) | 2009-08-07 | 2011-06-20 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ синтеза речи |
US8805687B2 (en) * | 2009-09-21 | 2014-08-12 | At&T Intellectual Property I, L.P. | System and method for generalized preselection for unit selection synthesis |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
CN102203853B (zh) * | 2010-01-04 | 2013-02-27 | 株式会社东芝 | 合成语音的方法和装置 |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8571870B2 (en) * | 2010-02-12 | 2013-10-29 | Nuance Communications, Inc. | Method and apparatus for generating synthetic speech with contrastive stress |
US8447610B2 (en) * | 2010-02-12 | 2013-05-21 | Nuance Communications, Inc. | Method and apparatus for generating synthetic speech with contrastive stress |
US8949128B2 (en) * | 2010-02-12 | 2015-02-03 | Nuance Communications, Inc. | Method and apparatus for providing speech output for speech-enabled applications |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
CN102237081B (zh) * | 2010-04-30 | 2013-04-24 | 国际商业机器公司 | 语音韵律评估方法与系统 |
US8731931B2 (en) | 2010-06-18 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for unit selection text-to-speech using a modified Viterbi approach |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8688435B2 (en) | 2010-09-22 | 2014-04-01 | Voice On The Go Inc. | Systems and methods for normalizing input media |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US20120143611A1 (en) * | 2010-12-07 | 2012-06-07 | Microsoft Corporation | Trajectory Tiling Approach for Text-to-Speech |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
CN102651217A (zh) * | 2011-02-25 | 2012-08-29 | 株式会社东芝 | 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
WO2012134877A2 (en) * | 2011-03-25 | 2012-10-04 | Educational Testing Service | Computer-implemented systems and methods evaluating prosodic features of speech |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
JP5758713B2 (ja) * | 2011-06-22 | 2015-08-05 | 株式会社日立製作所 | 音声合成装置、ナビゲーション装置および音声合成方法 |
WO2013008384A1 (ja) * | 2011-07-11 | 2013-01-17 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
TWI467566B (zh) * | 2011-11-16 | 2015-01-01 | Univ Nat Cheng Kung | 多語言語音合成方法 |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
FR2993088B1 (fr) * | 2012-07-06 | 2014-07-18 | Continental Automotive France | Procede et systeme de synthese vocale |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
CN112230878B (zh) | 2013-03-15 | 2024-09-27 | 苹果公司 | 对中断进行上下文相关处理 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9484044B1 (en) * | 2013-07-17 | 2016-11-01 | Knuedge Incorporated | Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms |
US9530434B1 (en) | 2013-07-18 | 2016-12-27 | Knuedge Incorporated | Reducing octave errors during pitch determination for noisy audio signals |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US20150149178A1 (en) * | 2013-11-22 | 2015-05-28 | At&T Intellectual Property I, L.P. | System and method for data-driven intonation generation |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9905218B2 (en) * | 2014-04-18 | 2018-02-27 | Speech Morphing Systems, Inc. | Method and apparatus for exemplary diphone synthesizer |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10915543B2 (en) | 2014-11-03 | 2021-02-09 | SavantX, Inc. | Systems and methods for enterprise data search and analysis |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9520123B2 (en) * | 2015-03-19 | 2016-12-13 | Nuance Communications, Inc. | System and method for pruning redundant units in a speech synthesis process |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9972301B2 (en) * | 2016-10-18 | 2018-05-15 | Mastercard International Incorporated | Systems and methods for correcting text-to-speech pronunciation |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10528668B2 (en) * | 2017-02-28 | 2020-01-07 | SavantX, Inc. | System and method for analysis and navigation of data |
US11328128B2 (en) | 2017-02-28 | 2022-05-10 | SavantX, Inc. | System and method for analysis and navigation of data |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN108364632B (zh) * | 2017-12-22 | 2021-09-10 | 东南大学 | 一种具备情感的中文文本人声合成方法 |
AU2020211809A1 (en) * | 2019-01-25 | 2021-07-29 | Soul Machines Limited | Real-time generation of speech animation |
KR102637341B1 (ko) * | 2019-10-15 | 2024-02-16 | 삼성전자주식회사 | 음성 생성 방법 및 장치 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04238397A (ja) * | 1991-01-23 | 1992-08-26 | Matsushita Electric Ind Co Ltd | 中国語発声記号生成装置及びその多音字辞典 |
JPH0695692A (ja) * | 1992-09-14 | 1994-04-08 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 音声合成装置 |
JPH08263095A (ja) * | 1995-03-20 | 1996-10-11 | N T T Data Tsushin Kk | 音声素片選択方法および音声合成装置 |
JPH08335095A (ja) * | 1995-06-02 | 1996-12-17 | Matsushita Electric Ind Co Ltd | 音声波形接続方法 |
JPH1049193A (ja) * | 1996-05-15 | 1998-02-20 | A T R Onsei Honyaku Tsushin Kenkyusho:Kk | 自然発話音声波形信号接続型音声合成装置 |
JPH10247097A (ja) * | 1997-03-04 | 1998-09-14 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 自然発話音声波形信号接続型音声合成装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03504897A (ja) * | 1987-10-09 | 1991-10-24 | サウンド エンタテインメント インコーポレーテッド | デジタル的に記憶され調音された言語セグメントからの言語の発生 |
DE69022237T2 (de) * | 1990-10-16 | 1996-05-02 | Ibm | Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell. |
DE69228211T2 (de) | 1991-08-09 | 1999-07-08 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals |
DE69231266T2 (de) | 1991-08-09 | 2001-03-15 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium |
SE469576B (sv) * | 1992-03-17 | 1993-07-26 | Televerket | Foerfarande och anordning foer talsyntes |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5490234A (en) * | 1993-01-21 | 1996-02-06 | Apple Computer, Inc. | Waveform blending technique for text-to-speech system |
DE69428612T2 (de) | 1993-01-25 | 2002-07-11 | Matsushita Electric Industrial Co., Ltd. | Verfahren und Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen |
GB2291571A (en) * | 1994-07-19 | 1996-01-24 | Ibm | Text to speech system; acoustic processor requests linguistic processor output |
US5920840A (en) | 1995-02-28 | 1999-07-06 | Motorola, Inc. | Communication system and method using a speaker dependent time-scaling technique |
US5978764A (en) * | 1995-03-07 | 1999-11-02 | British Telecommunications Public Limited Company | Speech synthesis |
US5749064A (en) | 1996-03-01 | 1998-05-05 | Texas Instruments Incorporated | Method and system for time scale modification utilizing feature vectors about zero crossing points |
US5913193A (en) * | 1996-04-30 | 1999-06-15 | Microsoft Corporation | Method and system of runtime acoustic unit selection for speech synthesis |
-
1999
- 1999-11-12 AU AU14031/00A patent/AU772874B2/en not_active Ceased
- 1999-11-12 US US09/438,603 patent/US6665641B1/en not_active Expired - Lifetime
- 1999-11-12 WO PCT/IB1999/001960 patent/WO2000030069A2/en active IP Right Grant
- 1999-11-12 AT AT99972346T patent/ATE298453T1/de not_active IP Right Cessation
- 1999-11-12 EP EP99972346A patent/EP1138038B1/en not_active Expired - Lifetime
- 1999-11-12 JP JP2000582998A patent/JP2002530703A/ja active Pending
- 1999-11-12 DE DE69940747T patent/DE69940747D1/de not_active Expired - Lifetime
- 1999-11-12 CA CA002354871A patent/CA2354871A1/en not_active Abandoned
- 1999-11-12 DE DE69925932T patent/DE69925932T2/de not_active Expired - Lifetime
-
2003
- 2003-12-01 US US10/724,659 patent/US7219060B2/en not_active Expired - Lifetime
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04238397A (ja) * | 1991-01-23 | 1992-08-26 | Matsushita Electric Ind Co Ltd | 中国語発声記号生成装置及びその多音字辞典 |
JPH0695692A (ja) * | 1992-09-14 | 1994-04-08 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 音声合成装置 |
JPH08263095A (ja) * | 1995-03-20 | 1996-10-11 | N T T Data Tsushin Kk | 音声素片選択方法および音声合成装置 |
JPH08335095A (ja) * | 1995-06-02 | 1996-12-17 | Matsushita Electric Ind Co Ltd | 音声波形接続方法 |
JPH1049193A (ja) * | 1996-05-15 | 1998-02-20 | A T R Onsei Honyaku Tsushin Kenkyusho:Kk | 自然発話音声波形信号接続型音声合成装置 |
JPH10247097A (ja) * | 1997-03-04 | 1998-09-14 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 自然発話音声波形信号接続型音声合成装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006047916A (ja) * | 2004-08-09 | 2006-02-16 | Advanced Telecommunication Research Institute International | 音声素片選択装置および音声合成装置 |
JP4512846B2 (ja) * | 2004-08-09 | 2010-07-28 | 株式会社国際電気通信基礎技術研究所 | 音声素片選択装置および音声合成装置 |
JP2007114236A (ja) * | 2005-10-18 | 2007-05-10 | Nippon Hoso Kyokai <Nhk> | 音声合成装置および音声合成プログラム |
JP2012225950A (ja) * | 2011-04-14 | 2012-11-15 | Yamaha Corp | 音声合成装置 |
Also Published As
Publication number | Publication date |
---|---|
CA2354871A1 (en) | 2000-05-25 |
US7219060B2 (en) | 2007-05-15 |
AU1403100A (en) | 2000-06-05 |
US20040111266A1 (en) | 2004-06-10 |
DE69925932D1 (de) | 2005-07-28 |
DE69940747D1 (de) | 2009-05-28 |
WO2000030069A2 (en) | 2000-05-25 |
EP1138038A2 (en) | 2001-10-04 |
DE69925932T2 (de) | 2006-05-11 |
EP1138038B1 (en) | 2005-06-22 |
WO2000030069A3 (en) | 2000-08-10 |
ATE298453T1 (de) | 2005-07-15 |
AU772874B2 (en) | 2004-05-13 |
US6665641B1 (en) | 2003-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1138038B1 (en) | Speech synthesis using concatenation of speech waveforms | |
US20230058658A1 (en) | Text-to-speech (tts) processing | |
US7233901B2 (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
US7460997B1 (en) | Method and system for preselection of suitable units for concatenative speech | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
Hamza et al. | The IBM expressive speech synthesis system. | |
Stöber et al. | Speech synthesis using multilevel selection and concatenation of units from large speech corpora | |
Bulyko et al. | Efficient integrated response generation from multiple targets using weighted finite state transducers | |
O'Shaughnessy | Modern methods of speech synthesis | |
Cadic et al. | Towards Optimal TTS Corpora. | |
Yin | An overview of speech synthesis technology | |
JP3576066B2 (ja) | 音声合成システム、および音声合成方法 | |
EP1589524B1 (en) | Method and device for speech synthesis | |
Kim et al. | Unit Generation Based on Phrase Break Strength and Pruning for Corpus‐Based Text‐to‐Speech | |
JPH10254471A (ja) | 音声合成装置 | |
EP1501075B1 (en) | Speech synthesis using concatenation of speech waveforms | |
EP1640968A1 (en) | Method and device for speech synthesis | |
Eady et al. | Pitch assignment rules for speech synthesis by word concatenation | |
Narupiyakul et al. | Thai syllable analysis for rule-based text to speech system | |
STAN | TEZA DE DOCTORAT | |
Gupta et al. | INTERNATIONAL JOURNAL OF ADVANCES IN COMPUTING AND INFORMATION TECHNOLOGY |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060901 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100401 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101221 |