JP2002530703A - 音声波形の連結を用いる音声合成 - Google Patents

音声波形の連結を用いる音声合成

Info

Publication number
JP2002530703A
JP2002530703A JP2000582998A JP2000582998A JP2002530703A JP 2002530703 A JP2002530703 A JP 2002530703A JP 2000582998 A JP2000582998 A JP 2000582998A JP 2000582998 A JP2000582998 A JP 2000582998A JP 2002530703 A JP2002530703 A JP 2002530703A
Authority
JP
Japan
Prior art keywords
waveform
speech
audio
database
waveforms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000582998A
Other languages
English (en)
Inventor
コアマン、グリート
デプリツ、フィリプ
デ・ブロック、マリオ
ファクレル、ジャスティン
ライス、スチーブン
ラッテン、ペイタ
デムアテル、ジャン
シェンク、アンドレ
ヴァン・コイル、バート
Original Assignee
ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ filed Critical ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ
Publication of JP2002530703A publication Critical patent/JP2002530703A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

(57)【要約】 種々の実施の形態における高品質の音声合成器は、大音声データベースによって参照される音声波形を連結する。音声品質は、音声ユニット選択及び連結平滑化によって更に改善される。

Description

【発明の詳細な説明】
【0001】 発明の技術分野 本発明は、そのようなサンプルの大データベースからデジタル方式でサンプル
された音声ユニットの連結に基づき、音声の、音表象の、及び数の記述子に結び
付けられた音声合成器に関する。
【0002】 発明の背景技術 連結ベースの音声合成器は、任意の発話を再構築するために、数片の自然の音
声を構成ブロックとして用いる。音声ユニットのデータベースは、予め記録され
た自然の音声データの目録(インベントリ)からとられた音声サンプルを所有し
得る。本物の音声の記録を用いることは、実在する人の声のいくつかの固有の特
徴を保存する。正しい発音が与えられ、音声ユニットは、任意の単語又は文を構
成するように連結され得る。音声ユニット連結の利点は、もし、適切な音声ユニ
ットが選択されるならば、現実的な連結効果を作り出すことが容易であるという
ことである。合成メッセージに関するすべての知識が連結されるべき音声ユニッ
トに固有であるという点で、その単純化に関して、興味をそそるものである。し
たがって、結合動作のモデリングに注意を払う必要はほとんどない。しかしなが
ら、音声ユニット結合は、たとえあるとしても抑揚の変化をほとんど持たない中
立の口頭テキストの比較的限定されたタスクに有用性において予め制限された。
【0003】 調整されたコーパスは、音声ユニット目録がデータベース記録を作成する前に
慎重に設計される音声ユニットデータベースの設計への周知のアプローチである
。生音声データベースは、必要とされる音声ユニットのためのキャリアから成る
。このアプローチは、比較的小さいフットプリント音声合成システムには最適で
ある。主な目的は、同時調音効果の合理的な量を含む、目的言語の音声の適用範
囲である。韻律的な変化はデータベースによって提供されず、システムは、その
代わりとして、望ましい発話にデータベース音声ユニットを適合するために、韻
律操作技術を用いる。
【0004】 調整されたコーパスの構築のために、種々の異なる音声ユニットが用いられた
(例えば、Klatt, D.H.の1987年9月のJ. Acoust. Soc. Am. 82(3)「英語の
ためのテキストから音声への翻訳の再検討(レビュー)」を見よ。)。最初は、
研究者は音素を用いることを好んだ。なぜならば、ただ少数のユニットだけが貯
蔵要求を最小限に保持して、アメリカ英語ではおよそ40を要求された。しかし
ながら、このアプローチは、音素間の境界で同時調音効果に多くの注意を必要と
する。その結果として、音素を用いる合成は、複雑な同時調音規則の定式化を要
求する。
【0005】 同時調音問題は、代わりのユニットを選択することによって最小にされ得る。
一つの人気の高いユニットは二音字(ダイフォン:diphone)である。それは、
一つの音素の中心から次の音素の中心への遷移から成る。このモデルは、音素間
の遷移情報を取り込むのを助ける。音素対の可能な結合がおよそ(40)ある
ので、二音字の完全セットは、およそ1600に達する。したがって、二音字音
声合成は、適量の収容力のみを要求する。二音字の一つの不利益は、好ましくは
重要な信頼が二音字境界最適化と共同して効率的な平滑化アルゴリズム上に置か
れるように、それらが多くの連結点(音素毎に一つ)を導くことである。Lernou
t &Hauspie音声及び言語プロダクツN.V.のTTS-3000のような従来の二音字合成器
は、二音字毎にただ一つの候補音声ユニットのみを用いる。限定された韻律的可
変性のために、調子(ピッチ)と持続時間操作技術は、音声メッセージを総合す
るのに必要とされる。それに加えて、二音字合成が良い出力音声品質を常にもた
らすわけではない。
【0006】 音節は、ほとんどの同時調音が音節境界内で起こるという利点を持つ。したが
って、音節の連結は、一般に良質の音声をもたらす。一つの不利益は、十分な記
憶スペースを必要とする所定の言語における音節の数が多いことである。音節を
説明する間記憶必要量を最小にするために、小音節(demi-syllable)が導入さ
れた。これらの半音節は、母音の核に置いて音節を分割することによって得られ
る。しかしながら、音節又は小音節方法は、ユニット境界で容易な連結を保証し
ない。なぜならば、有声音の音声ユニットにおける連結は、通常摩擦音のような
無声音の音声ユニットにおける連結より困難だからである。
【0007】 小音節変化系列は、同時調音が音節境界で最小にされ、ただ単純な連結規則だ
けが必要であることを要求する。しかしながら、これは常に真実ではない。同時
調音の問題は、単語サイズのユニットを用いることによって大いに減少され、曖
昧な音調(イントネーション)で分離して記録され得る。それから、単語は、文
節を形成するために連結される。この技術で、各単語の調子とアクセント(スト
レス)パターンは、自然に聞こえる文を与えるために部分的に変えられ得る。単
語連結は、線形予測符号化システムで正常に使用された。
【0008】 幾らかの研究者は、音質を増すために音声ユニットの混合目録、例えば、音節
、小音節、二音字及び接尾辞を用いた(Hess, W.J.の「音声合成−解決された問
題、信号処理VI:理論と応用」、1992年、エルゼビア科学出版社B.V.、J.
Vandewalle、R. Boite、M. Moonen、A. Oosterlinck(編)を見よ。)。
【0009】 連結合成のための音声ユニットデータベースの開発を加速するために、自動合
成ユニット生成システムが開発された(Nakajima S.の「多層文脈指向群に基づ
く英語音声合成のための自動合成ユニット生成」1994年、エルゼビア科学出
版社B.V.、音声通信14,313〜324頁を見よ。)。ここで、音声ユニット
目録は、音声の注釈データベースの解析から自動的に得られる。すなわち、シス
テムは、データベースを解析することによってユニットセットを「学習する」。
そのようなシステムの実行の一態様は、音声及び韻律的な調和関数の定義を含む
【0010】 連結ベースの音声合成への新たなアプローチは、メモリーを増加し、計算装置
の処理能力を増すことによって引き起こされた。音声ユニットデータベースを慎
重に選択されたユニットセットに制限する代わりに、連続音声の大きいデータベ
ースを用い、一律でない音声ユニットを用い、実行時にユニット選択を実行する
ことを可能にした。このタイプの合成は、今日、コーパスベースの連結音声合成
として一般に知られる。
【0011】 この種の最初の音声合成器は、Sagisaka, Y.の「一律でない合成ユニットの最
適選択を用いる規則による音声合成」1988年4月、IEEE、ICASSP-88ニ
ューヨーク第1巻、679〜682頁に示された。それは、音声データベースと
候補ユニットテンプレートの辞書、すなわち、データベースに存在するすべての
音素副記号列の目録を用いる。この連結ベースの合成器は、次のように機能する
。 (1)任意の入力音素記号列のために、無声音群のすべての音素副記号列が列挙
され、 (2)合成ユニット入力辞書内に見出されるすべての候補音素副記号列が集めら
れ、 (3)入力記号列の対応する部分に文脈上の高い類似性を示す候補音素副記号列
が保持され、 (4)最も好ましい合成ユニットシーケンスが、(音素記号列にのみ基づいた)
ユニットテンプレート間の連続性を評価することによって主に選択され、 (5)選択された合成ユニットは、データベース内の符号化(LPC)音声サン
プルから抽出され、 (6)韻律制御モジュールによって計算された単音持続時間によって長くされ、
あるいは短くされた後、それらがともに連結される。
【0012】 ステップ(3)は、4つのファクター:子音−母音遷移の維持、母音の音遷移
の維持、長いユニット選択、選択されたユニット間の重複度を考慮に入れて、適
切さ基準に基づく。システムは、日本語のために開発され、音声データベースは
、5240の一般に使用される単語から成った。
【0013】 更にこの原理を基に構築された合成器は、Hauptmann, A.G.の「SpeakEZ:大き
いコーパスからの連結合成における最初の試み」1993年、Proc. Eurospeech
'93、ベルリン、1701〜1704頁に記述される。このシステムの前提は、
もし、十分な音声が記憶され、データベースに目録を作られるならば、合成は、
記憶された音声の適切な要素を選択し、それらをともにくっつけることだけから
成る。3200以上の文の音声上バランスのとれたコーパス内の115,000
の音素のデータベースを用いる。音素クラス、出典発話、ストレスマーカー、音
素境界、左右文脈音素の同一性、音節内の音素の位置、単語内の音素の位置、発
話内の音素の位置、ピッチピーク位置の注釈がある音素同一性を別として、デー
タベースの注釈は、Sagisakaシステムの場合よりもいっそう洗練されている。
【0014】 SpeakEZの音声ユニット選択は、対象音素記号列として同一の文脈に現れる音
素のためのデータベースを検索することによって実行される。文脈マッチのため
のペナルティーは、データベース音素候補に隣接する対応する音素で対象音素を
取り巻くすぐ近くに近接する音素間の相違として計算される。文脈マッチは、ま
た、音素の隔たりによって、左右文節境界、左右単語境界、及び左右発話境界に
影響を与えられる。SpeakEZの音声ユニット波形は、近接する音素間を平滑化す
る調子同期重複加算(PSOLA)を用いて、時間領域に連結される。理想的な
目標値における既存の韻律を修正するよりむしろ、システムは、修正なく、正確
な持続時間、データベース音素の音調及び調音を用いる。適切な韻律的目標情報
の欠如は、このシステムの最も目立つ欠点であると考えられる。
【0015】 コーパスベースの連結音声合成へのもう一つのアプローチは、Black, A.W.とC
ampbell, Nの「連結合成のための音声データベースからのユニットの最適化選択
」1995年、Proc. Eurospeech '95、マドリード、581〜584頁、及びHu
nt, A.J.とBlack, A.W.の「大音声データベースを用いる連結音声合成システム
におけるユニット選択」、1996年、ICASSP-96、373〜376頁に記述さ
れる。音声データベースの注釈は、音響特徴、ピッチ(F)を更に組み込むス
テップをとられ、能力とスペクトルパラメーターが含まれる。音声データベース
は、音サイズのユニットに分割される。ユニット選択アルゴリズムは、次のよう
に機能する: (1)ユニット歪み測度D(u,T)は、選択されたユニットuと目標
音声ユニットtとの間の相違、すなわち、選択されたユニット特徴ベクトル{
uf,uf,・・・,uf}と重みベクトルW{w,w,・・・,
}によって掛けられた目標音声ユニットベクトル{tf,tf,・・・
,tf}との間の相違として定義される。 (2)連続歪み測度D(u,ui−1)は、選択されたユニットとそのすぐ
隣接する前に選択されたユニットとの間の相違として定義され、選択されたユニ
ットのユニット特徴ベクトルと重みベクトルWによって掛けられたその前のも
のとの間の相違として定義される。 (3)最も良いユニットシーケンスは、以下を最小にするデータベースからのユ
ニットのパスとして定義される:
【式1】 ここで、nは、目標発話における音声ユニットの数である。
【0016】 連続歪みでは、3つの特徴が用いられる。すなわち、音声の文脈、韻律的文脈
、及び音響接合コストである。音声及び韻律的文脈の音程は、選択されたユニッ
トと他の選択されたユニットの文脈(データベース)ユニットとの間で計算され
る。音響接合コストは、2つの連続する選択されたユニット間で計算される。音
響接合コストは、標識付けされた境界の周りの最も良い接合点で計算された、メ
ル−ケプストラムの量子化に基づく。
【0017】 Viterbi検索は、(3)に表されるように、最小コストでパスを見出すために
用いられる。網羅的な検索は、選択処理におけるいくつかの段階で候補リストを
取り除くことによって避けられる。ユニットは、あらゆる信号処理(すなわち、
未処理の連結)をすることなく、連結される。
【0018】 クラスタリング(ひとまとめにする)技術は、Black, A.W.とTaylor, P.の「
音声合成におけるユニット選択のために自動的にひとまとめにする類似のユニッ
ト」、1997年、Proc. Eurospeech '97、ロードス、601〜604頁に示さ
れる。それは、データベース内のユニットのためのCART(分類及び復帰ツリ
ー)を作る。CARTは、候補ユニットの検索領域を制限するために用いられ、
ユニット歪みコストは、候補ユニットとそのクラスター中心との間の相違である
【0019】 メル−ケプストラムへの代案として、Ding, W.とCampbell, N.の「CHATR
音声合成システムの音源とフォルマントを持つ最適化するユニット選択」、19
97年、Proc. Eurospeech ’97、ロードス、537〜540頁は、ユニット選
択のための音響特徴として音源パラメーターとフォルマント情報の使用を示す。
【0020】 上述の各引用文献は、参照によりここに組み込まれる。
【0021】 発明の概要 一実施の形態では、本発明は、音声合成器を提供する。この実施の形態の合成
器は、 音声波形を参照する大音声データベースであって、多音字(ポリフォン:poly
phone)によってアクセスされる、大音声データベースと、 音声転写入力にたいそうする多音字指示符号を用いるデータベースによって参
照される波形を選択する、前記大音声データベースと通信する音声波形選択器と
、 音声信号出力を作り出すために前記音声波形選択器によって選択された波形を
連結する、前記大音声データベースと通信する音声波形連結器と、 を含む。
【0022】 さらに関連する実施の形態では、多音字指示符号は、二音字指示符号である。
実施の形態の関連したセットでは、合成器は、また、(i) 音声波形が音声符号化
形状に格納されるデジタル記憶媒体と、(ii)波形選択器によってサクセスされる
とき、符号化音声波形を復号する復号器と、を含む。同じく随意的に、合成器は
、長い時間にわたって特定の目標持続時間値あるいは特定の目標ピッチ音調曲線
に頼ることなく、波形候補間で選択するために機能する。
【0023】 もう一つの実施の形態では、文脈依存コスト関数を用いる音声合成器が提供さ
れ、その実施の形態は、 大音声データベースと、 音声転写入力に応答して一連の目標特徴ベクトルを生成するための目標発生器
と、 前記データベースによって参照された一連の波形を選択し、該一連の各波形が
目標特徴ベクトルの第1の非空集合に対応する波形選択器であって、該波形選択
器が少なくとも一つの波形候補とノードコストとに分類し、該ノードコストが複
数の特徴のそれぞれに結び付けられた個別のコスト関数であり、少なくとも一つ
の個別のコストが言語規則に従って変化するコスト関数を用いて決定される、前
記波形選択器と、 音声信号出力を作るために前記音声波形選択器によって選択された波形を連結
する、前記音声データベースと通信する音声波形連結器と、 を含む。
【0024】 もう一つの実施の形態では、文脈依存コスト関数を持つ音声合成器が提供され
、その実施の形態は、 大音声データベースと、 音声転写入力に応答して一連の目標特徴ベクトルを生成するための目標発生器
と、 前記大音声データベースによって参照される一連の波形を選択する波形選択器
であって、該波形選択器が2以上の波形候補の少なくとも一つの順序付けされた
列と遷移コストとに分類し、該遷移コストが複数の特徴のそれぞれに結び付けら
れた個別のコスト関数であり、少なくとも一つの個別のコストが言語規則に従っ
て非自明的に変化するコスト関数を用いて決定される、前記波形選択器と、 音声信号出力を作り出すために前記音声波形選択器によって選択された波形を
連結する、前記大音声データベースと通信する音声波形連結器と、 を含む。
【0025】 更に関連する実施の形態では、コスト関数は複数の急な側面を有する。
【0026】 さらなる実施の形態では、音声合成器が提供され、その実施の形態は、 大音声データベースと、 前記大音声データベースによって参照される一連の波形を選択する波形選択器
であって、該波形選択器が少なくとも一つの波形候補とコストとに分類し、該コ
ストが複数の特徴のそれぞれに結び付けられた個別のコスト関数であり、音表象
的特徴の少なくとも一つの個別のコストが非二進数関数を用いて決定される、前
記波形選択器と、 音声信号出力を作り出すために前記音声波形選択器によって選択された波形を
連結する、前記大音声データベースと通信する音声波形連結器と、 を含む。
【0027】 関連する実施の形態では、音表象的特徴は、以下の一つである、(i) プロミネ
ンス、(ii) ストレス、(iii) 相内の音節位置、(iv) 文タイプ、(v) 境界タイプ
。その代わりにあるいはそれに加えて、非二進数関数は、表に頼ることによって
決定される。その代わりに、非二進数関数は、一セットの規則に頼ることによっ
て決定されてもよい。
【0028】 更にもう一つの実施の形態では、音声合成器が提供され、その実施の形態は、 大音声データベースと、 音声転写入力に応答して一連の目標特徴ベクトルを生成するための目標発生器
と、 前記データベースによって参照された一連の波形を選択し、該一連の各波形が
目標特徴ベクトルの第1の非空集合に対応する波形選択器であって、該波形選択
器が少なくとも一つの波形候補とコストとに分類し、該コストが複数の特徴のそ
れぞれに結び付けられた重み付けされた個別のコスト関数であり、個別のコスト
の少なくとも一つに結び付けられる重みが該一連の波形内の目標特徴ベクトルの
第2の非空集合に従って非自明的に変化する、前記波形選択器と、 音声信号出力を作り出すために前記音声波形選択器によって選択された波形を
連結する、前記大音声データベースと通信する音声波形連結器と、 を含む。
【0029】 さらなる実施の形態では、第1及び第2の非空集合が同一である。その代わり
に、第2の空集合は、一連の波形内の第1の非空集合に近似している。
【0030】 もう一つの実施の形態は、音声合成器を提供する。その実施の形態は、 音声波形を参照する音声データベースと、 音声転写に対応する指示符号を用いるデータベースによって参照される波形を
選択する、前記音声データベースと通信する音声波形選択器と、 音声信号出力を作るために前記音声波形選択器によって選択された波形を連結
する、前記音声データベースと通信する音声波形連結器であって、第1の波形と
第2の波形の少なくとも一つの順序付けられた列のために、該音声連結器が (i) 該第1の波形の立ち下がり縁の位置と、(ii) 該第2の波形の立ち上がり縁の位
置とを選択し、各位置がその位置近くの領域で第1及び第2の波形間の位相マッ
チの最適化を作り出すように選択される、前記音声波形連結器と、 を含む。
【0031】 関連する実施の形態では、位相マッチは、立ち上がり縁の位置のみを変え、及
び立ち下がり縁の位置だけを変えることによって達成される。任意的に、あるい
はそれに加えて、最適化は、その位置に近い領域で第1及び第2の波形の形状に
おける類似性を基礎にして決定される。さらなる実施の形態では、類似性は、任
意的に相関関係の全域で標準化される相互相関技術を用いて決定される。任意的
に又はそれに加えて、最適化は、少なくとも一つの非方形窓を用いて決定される
。同じく、任意的に又はそれに加えて、最適化は、第1及び第2の波形に結び付
けられた時間分解能が連続的に細かく作られる連続する複数の段階において決定
される。任意的に、あるいはそれに加えて、分解能の変化は、ダウンサンプリン
グによって達成される。
【0032】 好ましい実施の形態の詳細な記述 概観 RealSpeakTMテキストを音声に変換する(TTS)エンジンとして知られる、
本発明の代表的な実施の形態は、音声仕様から高品質の音声を作り出す。それは
、目標(target)として知られる、大データベースに保持された本物の記録され
た音声のパーツを連結することによるテキストプロセッサの出力であり得る。図
1に示されるように、エンジンを構成する主処理目的(メインプロセスオブジェ
クト)は、テキストプロセッサ101と、目標発生器111と、音声ユニットデ
ータベース141と、波形選択器131と、音声波形連結器151とを含む。
【0033】 音声ユニットデータベース141は、種々の音声ユニット特徴の関連付けられ
た音声ユニット記述子とともに、それらの音声記述子によって個別の音声ユニッ
トに索引を付けられる実際の音声の大きいコーパスの、例えば、PCMのような
デジタルフォーマットの録音を含む。一実施の形態では、音声ユニットデータベ
ース141の音声ユニットは、2つの隣接する音素に始まって終わる二音字の形
式である。他の実施の形態は、異なったサイズの構築された音声ユニットを用い
てもよい。音声ユニット記述子は、例えば、音表象的記述子、例えば、語彙のア
クセント、単語位置などと、韻律的記述子、例えば、持続時間、振幅、ピッチな
どとを含む。
【0034】 テキストプロセッサ101は、テキスト入力、例えば、テキスト句「ハロー、
グッバイ(Hello, goodbye!)」を受け取る。テキスト句は、テキストプロセッ
サ101によって入力音声データシーケンスに変換される。図1において、これ
は、単純な音声転写−#hE-lO#'Gud-bY#−である。種々の代わりの実施の形態で
は、入力音声データシーケンスは、種々の異なる形式の一つであってもよい。入
力音声データシーケンスは、目標発生器111によって合成されるべき多層の内
部データシーケンスに変換される。拡張音声転写(XPT)として知られる、こ
の内部データシーケンス表示は、音声記述子と、音表象的記述子と、音声ユニッ
トデータベース141内のもののような韻律的記述子とを含む。
【0035】 波形選択器131は、XPT転写によって明記された目標発話に連結すること
ができる候補音声ユニットの記述子を音声ユニットデータベース141から検索
する。波形選択器131は、ノードコストを各候補に割り当て、目標XPTのX
PTと候補音声ユニットのXPTを比較することによって、候補音声ユニットの
順序付きリストを作る。候補から目標へのマッチングは、音声文脈及び韻律的文
脈のような音表象的記述子と、数的記述子に基づき、各候補が目標仕様にどれほ
ど適しているかを決定する。不完全にマッチする候補は、この時点で除外されて
もよい。
【0036】 波形選択器131は、クリック、ピッチ不連続などのような不安を生じさせる
品質低下を起こすことなく、どの候補音声ユニットが連結され得るかを決定する
。連続した候補音声ユニットは、品質低下コスト関数に従って波形選択器131
によって評価される。候補から候補へのマッチングは、どれほど候補がともに接
合され得るかを決定するために、エネルギー、ピッチ及びスペクトル情報のよう
なフレームベースの情報を用いる。動的計画法を用いて、候補音声ユニットの最
良の順序が音声波形連結器151への出力のために選択される。
【0037】 音声波形連結器151は、音声波形連結器151のための音声ユニットデータ
ベース141からの出力音声ユニット(二音字及び/又は多音字)を要求する。
音声波形連結器151は、目標入力テキストを表す出力音声を形成して選択され
た音声ユニットを連結する。
【0038】 システムの種々の態様の動作は、より詳細に記述される。
【0039】 音声ユニットデータベース 図2に示されるように、音声ユニットデータベース141は、3つのタイプの
ファイルを含む: (1)音声信号ファイル61 (2)時調整拡張音声転写(XPT)ファイル62 (3)二音字ルックアップテーブル63
【0040】 データベースのインデックス化 各二音字は、2つの音素記号によって識別される。これらの2つの記号は、二
音字ルックアップテーブル63への鍵である。二音字インデックステーブル63
1は、これらの二音字の参照が二音字参照テーブル632内のどこで見出され得
るかを記述する、その言語の各可能な二音字のための見出し語を含む。二音字参
照テーブル632は、音声ユニットデータベース141内のすべての二音字への
参照を含む。これらの参照は、二音字識別子によってアルファベット順に整理さ
れる。識別によってすべての二音字を参照するために、リストが二音字ルックア
ップテーブル63のどこから開始し、いくつの二音字が含まれているかを明示す
ることは十分である。各二音字参照は、音声ユニットデータベース141内のど
こで見出され、二音字がどの音素で始まり、二音字が音声信号内のどこで始まる
かのメッセージ(発話)の数と、二音字の持続時間とを含む。
【0041】 XPT システムの品質のための重要なファクターは、音声ユニットデータベース14
1内の音声信号を表すために用いられる転写である。代表的な実施の形態は、シ
ステムが正確なピッチと持続時間目標を必要としないで音声ユニットデータベー
ス141内の本質的な韻律を用いるのを可能にする転写を用い始める。これは、
システムが入力転写に音声的に韻律的にマッチされる音声ユニットを選択できる
ことを意味する。音声波形連結器151による選択された音声ユニットの連結は
、望ましい韻律を持つ発話に効果的に至る。
【0042】 XPTは、2つのタイプのデータ、音表象的特徴(すなわち、テキストから得
られ得る特徴)と音響的特徴(すなわち、記録された音声波形からのみ得られ得
る特徴)とを含む。音声ユニットデータベース141から音声ユニットを効率的
に抽出するために、XPTは、典型的に発話の音声記述を調整された時間を含む
。信号内の各音素の始まりは転写に含まれる。XPTは、合図に関連した多くの
韻律、例えば、音の抑揚法や位置情報も含む。音表象的情報を別として、転写は
また、韻律に関する音響情報、例えば、音素持続時間を含む。典型的な実施の形
態は、それらの韻律的あるいはスペクトル実現の修正なく、音声ユニットデータ
ベース141から音声ユニットを連結する。それゆえ、音声ユニットの境界は、
マッチするスペクトルの及び韻律的実現を有するべきである。このマッチを確か
めるために要求される必要な情報は、典型的に、境界ピッチ値及びスペクトルデ
ータによってXPTに組み込まれる。境界ピッチ値及びスペクトルは、多音字端
で計算される。
【0043】 データベース記憶装置 音声ユニットデータベース141の異なるタイプのデータは、異なる物理的媒
体、例えば、ハードディスク、CD−ROM、DVD、ランダムアクセルメモリ
ー(RAM)などに格納されてもよい。データアクセススピードは、これら種々
の媒体間のデータをどのように分配するかを効率的に選択することによって増さ
れ得る。コンピューターシステムの最も遅いアクセス構成部材は、典型的にハー
ドディスクである。もし、連結用の候補を選択するために必要である音声ユニッ
ト情報の一部がそのような比較的遅い大容量記憶装置に格納されていたならば、
貴重な処理時間がこの遅い装置にアクセスすることによって浪費されるであろう
。もし、選択関連データがRAMに格納されていたならば、ずっと速い実行が得
られ得るだろう。したがって、代表的実施の形態では、音声ユニットデータベー
ス141は、RAMに格納される、しばしば必要とされる選択関連データ21と
、例えば、CD−ROM又はDVDに格納される、ほとんど必要とされない連結
関連データ22に分割される。結果として、データベースの音声データの量が非
常に大きい(ギガバイト程度)になるときでさえ、システムのRAM要求が大き
くないままである。比較的小さい数のCD−ROM検索は、並列線のために一つ
のCD−ROMを用いて多重チャネルアプリケーションを適応させてもよく、音
声データベースは、CD上の他のアプリケーションデータと並存してもよい(例
えば、自動車PCのナビゲーションシステム)。
【0044】 任意的に、音声波形は、その分野の周知の技術を用いて符号化及び/又は圧縮
されてもよい。
【0045】 波形選択 最初に、波形選択器131の各候補リストは、音声ユニットデータベース14
1の多くの利用可能なマッチング二音字を含む。ここで、マッチングは、単に二
音字識別が一致することを意味する。したがって、頭文字‘l’が目標の最初の
ストレスを持つ二音字‘#l’の一例では、波形選択器131の候補リストは、
ストレスのないもの、あるいは第2の‘l’を含む、音声ユニットデータベース
141内に見出されるあらゆる‘#l’を含む。波形選択器131は、二音字の
最良のシーケンスを見付けるために動的計画法を用い、そうして、 (1)最良のシーケンスのデータベース二音字がストレス、位置、文脈などに関
する目標二音字に類似し、 (2)最良のシーケンスのデータベース二音字が低い連結人工物とともに接合さ
れ得る。 これらの目標を達成するために、2つのタイプのコストが用いられる。それは、
特定の目標を合成するために用いられるべき各候補二音字の適合性を評価するNo
deCostと、二音字の「接合可能性(joinability)」を評価するTransitionCost
である。これらのコストは、最適なパスを見出すDPアルゴリズムによって結合
される。
【0046】 コスト関数 ユニット選択で用いられるコスト関数は、含まれる特徴が象徴的である(すな
わち、非数字、例えば、ストレス、プロミネンス、音素文脈)か、数的(例えば
、スペクトル、ピッチ、持続時間)かのいずれかに依存する2つのタイプであっ
てもよい。
【0047】 音表象的特徴のためのコスト関数 音表象的特徴(すなわち、数的でない特徴)の類似性に基づく候補を指定され
た目標ユニットに評価するために、よい一致と悪い一致の間の「グレー」領域が
ある。最も単純なコスト重み関数は、2進数の0/1である。もし、候補が目標
と同じ値を有するならば、コストは0であり、候補が異なるものであるならば、
コストは1である。例えば、最も強いストレスを持つ目標のために、そのストレ
ス(文節アクセント(最も強い)、第1、第2のストレスがない(最も弱い))
のための候補を評価するとき、この単純なシステムは、第1、第2、又はストレ
スのない候補を1のコストと評価する。もし、目標が最も強いストレスならば、
第1のストレスの候補はストレスのない候補より好ましいので、これは、反直感
的である。
【0048】 これを適応させるために、ユーザーは、特定の音表象的特徴のあらゆる2値間
のコストを記述する表を構成することができる。いくつかの例は、ファジー理論
からの概念に似ているので、「ファジー表」と呼ばれる付表の表1及び表2に示
される。類似の表は、NodeCost計算で用いられた音表象的特徴のいずれか又はす
べてのために構成され得る。
【0049】 波形選択器131のファジー表は、また、開発的言語学者によって定義される
ように、特別な音表象を用いてもよい。それは、「悪い:BAD」及び「非常に悪
い:VERY BAD」を意味する。実際には、言語学者は、付表の表1に示されるよう
に、3の目標プロミネンス及び0の候補プロミネンスのために、ファジー表にお
けるBADのために特別な象徴/1、あるいはVERY BADのために2を与える。あら
ゆる特徴からの標準最小貢献が0であり、最大が1であることは、以前にも言及
された。/1又は/2を用いることによって、特徴ミスマッチのコストは、候補
が高いコストを取ることを保証されるように、1よりもずっと高く作られ得る。
したがって、もし、特定の特徴のために、表の適切な見出し語が/1ならば、候
補はめったに用いられず、もし、表の適切な見出し語が/2ならば、その候補は
ほとんど用いられない。表1の例では、もし、目標プロミネンスが3ならば、a
/1を用いることは、プロミネンス0を持つ候補が常に選択されることを見込み
のないものとする。
【0050】 文脈依存コスト関数 入力仕様は、その入力仕様にマッチするデータベースから音声ユニットの最も
良い組み合わせを音表象的に選択するために用いられる。しかしながら、どの音
声ユニットが最も良いかを決定するために、音表象的特徴のための固定コスト関
数を用いることは、いくつかの音表象的特徴が他よりもある文脈では重要である
という事実のような周知の言語学上の現象を無視する。
【0051】 例えば、いくつかの言語において、発話の終わりでの音素、すなわち、最後の
音節が発話の他の部分よりも長い傾向にあることは周知である。それゆえ、動的
計画法アルゴリズムが発話の最後の音節を合成するために、候補音声ユニットを
検索するとき、その候補音声ユニットはまた、発話の最後の音節からなるべきで
あり、同じく、発話の最後の位置において、もっと多くの重要性が「音節位置」
の特徴に認められることは望ましい。この種の現象は、言語から言語へ変化し、
それゆえ、規則が波形選択器131コスト関数の実パラメーターを直接扱うため
に有するよりもむしろ語学の専門家によって条件を指定され得るように、規則ベ
ースの骨組みにおける文脈依存の音声ユニット選択を導入する方法を有すること
は有益である。したがって、コスト関数のために指定される重みは、また、特徴
、例えば、音素識別に関連した多くの規則に従って扱われてもよい。そのうえ、
コスト関数そのものもまた、特徴、例えば、現象識別に関連した規則に従って扱
われてもよい。もし、規則の条件が満たされるならば、以下のようないくつかの
可能なアクションが起こり得る、 (1)音表象的又は数的特徴のために、その特徴に結び付けられた重みは、変え
られてもよく、もし特徴がこの文脈においてより需要ならば増加され、もし特徴
が重要でないならば減少される。例えば、「r」がしばしばその前後の母音に影
響を与えるので、母音文脈における「r」が出合わされるとき、候補項目が音声
文脈のための目標仕様にマッチする重要性を増加する専門家規則は、興奮する。
(2)音表象的特徴のために、特徴が通常用いるファジー表は、異なるものに変
えられてもよい。 (3)数的特徴のために、コスト関数の形は、変えられ得る。 いくつかの例が付表の表3に示される。そこでは、*が「あらゆる音」を表示す
るために用いられ、[]が現在の中心に音字を取り巻くために用いられる。した
がって、R[at]#は、文脈r_#における二音字「at」示す。
【0052】 拡大縮小可能性 システム拡大縮小可能性は、また、代表的実施の形態を実行することにおいて
重要な関心事である。音声ユニット選択ストラテジーは、いくつかのスケーリン
グ可能性を提供する。波形選択器131は、データ検索を速めるルックアップテ
ーブルによって音声ユニットデータベース141から音声ユニット候補を検索す
る。ルックアップテーブルにアクセスするために用いられる入力キーは、一つの
拡大縮小可能性ファクターを表す。このルックアップテーブルへの入力キーは、
最小、例えば、音声ユニットコアを記述する一対の音素からより複雑、例えば、
一対の音素+音声ユニット特徴(音の抑揚法、文脈、・・・)まで変化すること
ができる。入力キーをより複雑にすることは、ルックアップテーブルを通して見
出される候補音声ユニットを少なくする結果になる。したがって、より小さい(
必ずしもより良くないけれども)候補リストは、より複雑なルックアップテーブ
ルを犠牲にして作られる。
【0053】 音声ユニットデータベース141のサイズは、また、要求されるメモリーと処
理スピードの両方に影響を与える、重要なスケーリングファクターである。利用
可能なデータが多くなればなるほど、最適な音声ユニットを見付けるためにより
長い時間がかかる。必要とされる最小データベースは、(線形予測符号化ベース
の音組織から音声へのシステムにおいて用いられる音声データベース匹敵する)
入力の音組織をカバーする孤立された音声ユニットから成る。精選された音声信
号をデータベースに加えることは、システム条件を増加することを犠牲にして出
力音声の品質を改善する。
【0054】 上述の取り除く技術は、また、ユニット選択をスピードアップできる拡大縮小
可能性ファクターを表す。それ以上の拡大縮小ファクターは、音声データベース
のサイズを減少するために音声符号化及び/又は音声圧縮技術の使用に関連する
【0055】 信号処理/連結 音声波形連結器151は、連結に関する信号処理を実行する。合成器は、高品
質の音声セグメントを供に加えることによって音声信号を生成する。時間領域に
おける変更されていないPCM音声波形を連結することは、本質的な分節情報が
維持されるという利点を有する。これは、また、ミクロ韻律を含む自然な韻律的
情報が合成された音声に転送されることを意味する。分節内の音響品質が最適で
あるけれども、分節間歪みをもたらし得る波形連結処理に注意されたい。波形連
結の主な関心は、接合箇所の近傍に生じ得る不連続や速い過渡現象のような波形
不規則さを避けることにおいてである。これらの波形不規則さは、一般に連結人
工物として言及される。
【0056】 したがって、各接合点で信号不連続を最小にすることは需要である。2つのセ
グメントの連結は、周知の重み重複及び加算(OLA)方法を用いることによっ
て実行され得る。セグメント連結のための重複及び加算手順は、実際には、音声
セグメントの(非線形の)短時間フェードイン/フェードアウトより他はない。
高品質の連結を得るために、我々は、2つの領域間の位相ミスマッチの程度が最
小にされるように、第1のセグメントの立ち下がり部分の領域を見付け、第2の
セグメントの立ち上がり部分の領域を見付ける。この処理は、次のように実行さ
れる: ・我々は、2つの引き窓、第1の音声セグメントの立ち下がり部分内のものと第
2の音声セグメントの立ち上がり部分のものとの間の最大の標準化された相互相
関を検索する。 ・第1の音声セグメントの立ち下がり部分と第2の音声セグメントの立ち上がり
部分は、データベースのルックアップテーブルに格納されるように、二音字境界
の周りに集中される。 ・好ましい実施の形態では、立ち下がり及び立ち上がり領域の長さは、1〜2ピ
ッチ期間のオーダーであり、引き窓はベル形状である。 網羅的な検索の計算負荷を減らすために、検索は、多数の段階で実行され得る。
第1の段階は、より低い時間分解能で上述される包括的な検索を実行する。より
低い時間分解能は、音声セグメントの段階的に行うダウンサンプリング(downsa
mpling)に基づく。連続する段階は、前段階で決定された最適な領域の周りで逐
次より高い時間分解能において近傍検索を実行する。
【0057】 結論 代表的な実施の形態は、コンピューターシステムでの使用のためのコンピュー
タープログラムプロダクトとして実行され得る。そのような実行は、コンピュー
ターに読取可能な媒体(例えば、ディスケット、CD−ROM、ROM、又は固
定ディスク)のような有形的媒体上に、あるいは、モデム、又は媒体上のネット
ワークに接続された通信アダプタのような他のインターフェース装置を介してコ
ンピューターシステムと伝送可能なもののいずれかに固定された一連のコンピュ
ーター命令を含んでもよい。その媒体は、有形な媒体(例えば、光学式又はアナ
ログ式通信ライン)、あるいは無線技術で実行される媒体(例えば、マイクロ波
、赤外線又は他の伝送技術)のいずれかであってもよい。一連のコンピューター
命令は、システムに関してここで前述された関数性のすべて又は一部を具体化す
る。当業者は、そのようなコンピューター命令が多くのコンピューターアーキテ
クチャ又はオペレーティングシステムで使用するために多くのプログラミング言
語で書かれ得ることを認識すべきである。さらに、そのような命令は、半導体、
磁気式、光学式又は他の記憶装置のようなあらゆる記憶装置に格納され得、光学
式、赤外線、マイクロ波、又は他の伝送技術のようなあらゆる通信技術を用いて
伝送され得る。そのようなコンピュータープログラムプロダクトが、印刷された
あるいは電子文書(例えば、圧縮されたソフトウェア)に添付する移動可能な媒
体として配布され、コンピューターシステム(例えば、システムROM又は固定
ディスク上に)にプリインストールして、あるいは、サーバー又はネットワーク
(例えば、インターネット(Internet)又はWorld Wide Web)上の電子掲示板か
ら配布されてもよい。勿論、本発明のいくつかの実施の形態は、ソフトウェア(
例えば、コンピュータープログラムプロダクト)とハードウェアの両方の組み合
わせとして実行されてもよい。本発明のまだ他の実施の形態は、完全にハードウ
ェア、あるいは完全にソフトウェア(例えば、コンピュータープログラムプロダ
クト)として実行される。
【0058】 用語集 以下の定義は、本発明の記述とこの記述に続く特許請求の範囲の両方に関係が
ある。
【0059】 「二音字(Diphone)」は、2つの隣接する半音から構成された基本的な音声
ユニットである。したがって、二音字の左と右の境界は、中間的な音境界である
。二音字の中心は、音遷移領域を含む。単音よりもむしろ二音字を用いるための
動機は、二音字の端が比較的定常状態であり、又、2つの単音を接合するよりも
可聴の減損なく2つの二音字を接合する方が容易である。
【0060】 多音字又は他の音声ユニットの「ハイレベル(High level)」な言語的特徴は
、そのようなユニットに関して、音の抑揚法、音声文脈、並びに、適用可能な文
、句、単語、及び音節の位置を含む。
【0061】 「大音声データベース(large speech database)」は、音声波形を参照する
音声データベースに関する。そのデータベースは、デジタル方式でサンプルされ
た波形を直接含んでもよく、そのような波形へのポインタを含んでもよく、ある
いは、波形合成器の動作を管理するパラメーターセットへのポインタを含んでも
よい。データベースは、音声合成の目的のための波形参照中、データベースが一
般に種々の言語条件下で発生する多くの波形候補を参照するとき、「大きい(la
rge)」と考えられる。この方法では、音声合成のほとんどの時間、データベー
スは、そこから選択する多くの波形候補を提供するだろう。多くのそのような波
形候補の利用可能性は、ここを通して、特に概観において記述されるように、音
声出力における韻律的な及び他の言語の変化を可能にすることができる。
【0062】 多音字又は他の音声ユニットの「低レベル(low level)」言語特徴は、その
ようなユニットに関して、ピッチ曲線と持続時間を含む。
【0063】 「非二進数(non-binary numeric)」関数は、その関数の引数に依存して、少
なくとも3値のいずれかを想定する。
【0064】 「多音字(polyphone)」は、ともに接合される1以上の二音字である。三音
字は、2つの二音字から成る多音字である。
【0065】 「SPT(simple phonetic transcription)」は、音素を記述する。この転
写は、任意的に、語彙のストレス、文アクセントなどのための象徴に注釈を付け
られる。例(単語「価値がある(worthwhile)」のために):#‘werT−’
wYl# 「三音字(triphone)」は、ともに接合される2つの二音字である。したがっ
て、それは、3つの要素、左境界における半音素、完全な音素、及び右境界にお
ける半音素を含む。
【0066】 「第1及び第2の隣接する波形の重み重複及び加算」は、その波形の隣接する
端がフェードインとフェードアウトに曝される技術に関する。
【0067】
【表1】
【0068】
【表2】
【0069】
【表3】
【0070】
【表4】
【0071】
【表5】
【0072】
【表6】
【0073】
【表7】
【0074】
【表8】
【0075】
【表9】
【0076】
【表10】
【0077】
【表11】
【図面の簡単な説明】
本発明は、添付図面についてとられる次の詳細な記述を参照して、いっそう
容易に理解される。
【図1】 図1は、代表的な実施の形態における音声合成器を示す。
【図2】 図2は、代表的な実施の形態における音声ユニットデータベースの構造を示す
───────────────────────────────────────────────────── フロントページの続き (72)発明者 デ・ブロック、マリオ ベルギー国、ビー−9600・ローンサ、ボル フストラート 60 (72)発明者 ファクレル、ジャスティン ベルギー国、ビー−9000・ゼント、グスタ ーフ・キャリアラーン 28 (72)発明者 ライス、スチーブン ベルギー国、ビー−8500・コートライク、 ジャーコプ・ヴァン・マーラーントストラ ート 23 (72)発明者 ラッテン、ペイタ ベルギー国、ビー−9050・ゼント、エミー ル・ヴァハーレンラーン 15 (72)発明者 デムアテル、ジャン ベルギー国、ビー−8510・ローレゼム、リ ンデンドリーフ 13 (72)発明者 シェンク、アンドレ ベルギー国、ビー−8500・コートライク、 エイバリスト・カーペンティアラーン (番地なし) (72)発明者 ヴァン・コイル、バート ベルギー国、ビー−8200・ブリューガ、ビ ータ・モーレンストラート 49 Fターム(参考) 5D045 AA07

Claims (22)

    【特許請求の範囲】
  1. 【請求項1】 音声合成器であって、 a.音声波形を参照する大音声データベースであって、多音字によってアクセス
    される、大音声データベースと、 b.音声転写入力に対応する多音字指示符号を用いるデータベースによって参照
    される波形を選択する、前記大音声データベースと通信する音声波形選択器と、 c.音声信号出力を作り出すために前記音声波形選択器によって選択された波形
    を連結する、前記大音声データベースと通信する音声波形連結器と、 を備えることを特徴とする音声合成器。
  2. 【請求項2】 前記多音字指示符号が二音字指示符号であることを特徴とす
    る請求項1記載の音声合成器。
  3. 【請求項3】 音声波形が音声符号化形状に格納されるデジタル記憶媒体と
    、 前記波形選択器によってアクセスされるとき、符号化音声波形を復号する復号
    器と、 を更に備えることを特徴とする請求項1又は2記載の音声合成器。
  4. 【請求項4】 前記音声合成器は、長い時間にわたって特定の目標持続時間
    値あるいは特定の目標ピッチ音調曲線に頼ることなく、波形候補間で選択するよ
    うに機能することを特徴とする請求項1乃至3のいずれかに記載の音声合成器。
  5. 【請求項5】 音声合成器であって、 a.大音声データベースと、 b.音声転写入力に応答して一連の目標特徴ベクトルを生成するための目標発生
    器と、 c.前記データベースによって参照された一連の波形を選択し、該一連の各波形
    が目標特徴ベクトルの第1の非空集合に対応する波形選択器であって、該波形選
    択器が少なくとも一つの波形候補とノードコストとに分類し、該ノードコストが
    複数の特徴のそれぞれに結び付けられた個別のコスト関数であり、少なくとも一
    つの個別のコストが言語規則に従って変化するコスト関数を用いて決定される、
    前記波形選択器と、 d.音声信号出力を作るために前記音声波形選択器によって選択された波形を連
    結する、前記音声データベースと通信する音声波形連結器と、 を備えることを特徴とする音声合成器。
  6. 【請求項6】 音声合成器であって、 a.大音声データベースと、 b.音声転写入力に応答して一連の目標特徴ベクトルを生成するための目標発生
    器と、 c.前記大音声データベースによって参照される一連の波形を選択する波形選択
    器であって、該波形選択器が2以上の波形候補の少なくとも一つの順序付けされ
    た列と遷移コストとに分類し、該遷移コストが複数の特徴のそれぞれに結び付け
    られた個別のコスト関数であり、少なくとも一つの個別のコストが言語規則に従
    って非自明的に変化するコスト関数を用いて決定される、前記波形選択器と、 d.音声信号出力を作り出すために前記音声波形選択器によって選択された波形
    を連結する、前記大音声データベースと通信する音声波形連結器と、 を備えることを特徴とする音声合成器。
  7. 【請求項7】 音声合成器であって、 a.大音声データベースと、 b.前記大音声データベースによって参照される一連の波形を選択する波形選択
    器であって、該波形選択器が少なくとも一つの波形候補とコストとに分類し、該
    コストが複数の特徴のそれぞれに結び付けられた個別のコスト関数であり、音表
    象的特徴の少なくとも一つの個別のコストが非二進数関数を用いて決定される、
    前記波形選択器と、 c.音声信号出力を作り出すために前記音声波形選択器によって選択された波形
    を連結する、前記大音声データベースと通信する音声波形連結器と、 を備えることを特徴とする音声合成器。
  8. 【請求項8】 前記音表象的特徴は、(i) プロミネンス、(ii) ストレス、(
    iii) 相内の音節位置、(iv) 文タイプ、(v) 境界タイプ、の一つであることを特
    徴とする請求項7記載の音声合成器。
  9. 【請求項9】 前記非二進数関数は、表に頼ることによって決定されること
    を特徴とする請求項7又は8記載の音声合成器。
  10. 【請求項10】 前記非二進数関数は、一セットの規則に頼ることによって
    決定されることを特徴とする請求項7又は8記載の音声合成器。
  11. 【請求項11】 音声合成器であって、 a.大音声データベースと、 b.音声転写入力に応答して一連の目標特徴ベクトルを生成するための目標発生
    器と、 c.前記データベースによって参照された一連の波形を選択し、該一連の各波形
    が目標特徴ベクトルの第1の非空集合に対応する波形選択器であって、該波形選
    択器が少なくとも一つの波形候補とコストとに分類し、該コストが複数の特徴の
    それぞれに結び付けられた重み付けされた個別のコスト関数であり、個別のコス
    トの少なくとも一つに結び付けられる重みが該一連の波形内の目標特徴ベクトル
    の第2の非空集合に従って非自明的に変化する、前記波形選択器と、 d.音声信号出力を作り出すために前記音声波形選択器によって選択された波形
    を連結する、前記大音声データベースと通信する音声波形連結器と、 を備えることを特徴とする音声合成器。
  12. 【請求項12】 前記第1及び第2の非空集合が同一であることを特徴とす
    る請求項11記載の音声合成器。
  13. 【請求項13】 前記第2の空集合は、一連の波形内の前記第1の非空集合
    に近似していることを特徴とする請求項11記載の音声合成器。
  14. 【請求項14】 音声合成器であって、 a.音声波形を参照する音声データベースと、 b.音声転写に対応する指示符号を用いるデータベースによって参照される波形
    を選択する、前記音声データベースと通信する音声波形選択器と、 c.音声信号出力を作るために前記音声波形選択器によって選択された波形を連
    結する、前記音声データベースと通信する音声波形連結器であって、第1の波形
    と第2の波形の少なくとも一つの順序付けられた列のために、該音声連結器が(i
    ) 該第1の波形の立ち下がり縁の位置と、(ii) 該第2の波形の立ち上がり縁の
    位置とを選択し、各位置がその位置近くの領域で第1及び第2の波形間の位相マ
    ッチの最適化を作り出すように選択される、前記音声波形連結器と、 を備えることを特徴とする音声合成器。
  15. 【請求項15】 音声合成器であって、 a.音声波形を参照する音声データベースと、 b.音声転写に対応する指示符号を用いるデータベースによって参照される波形
    を選択する、前記音声データベースと通信する音声波形選択器と、 c.音声信号出力を作るために前記音声波形選択器によって選択された波形を連
    結する、前記音声データベースと通信する音声波形連結器であって、第1の波形
    と第2の波形の少なくとも一つの順序付けられた列のために、該第2の波形が立
    ち上がり縁を有し、該音声連結器が該第1の波形の立ち下がり縁の位置を選択し
    、該位置がその位置及び該立ち上がり位置近くの領域で第1及び第2の波形間の
    位相マッチの最適化を作り出すように選択される、前記音声波形連結器と、 を備えることを特徴とする音声合成器。
  16. 【請求項16】 音声合成器であって、 a.音声波形を参照する音声データベースと、 b.音声転写に対応する指示符号を用いるデータベースによって参照される波形
    を選択する、前記音声データベースと通信する音声波形選択器と、 c.音声信号出力を作るために前記音声波形選択器によって選択された波形を連
    結する、前記音声データベースと通信する音声波形連結器であって、第1の波形
    と第2の波形の少なくとも一つの順序付けられた列のために、該第1の波形が立
    ち下がり縁を有し、該音声連結器が該第2の波形の立ち上がり縁の位置を選択し
    、該位置がその位置及び該立ち下がり位置近くの領域で第1及び第2の波形間の
    位相マッチの最適化を作り出すように選択される、前記音声波形連結器と、 を備えることを特徴とする音声合成器。
  17. 【請求項17】 前記最適化は、前記位置近くの領域で前記第1及び第2の
    波形の形状における類似性を基礎にして決定されることを特徴とする請求項14
    乃至16のいずれかに記載の音声合成器。
  18. 【請求項18】 前記類似性は、相互相関技術を用いて決定されることを特
    徴とする請求項17記載の音声合成器。
  19. 【請求項19】 前記相互相関技術は、相関関係の全域で標準化されること
    を特徴とする請求項18記載の音声合成器。
  20. 【請求項20】 前記最適化は、少なくとも一つの非方形窓を用いて決定さ
    れることを特徴とする請求項14乃至16、又は18のいずれかに記載の音声合
    成器。
  21. 【請求項21】 前記最適化は、前記第1及び第2の波形に結び付けられる
    時間分解能が連続的に細かい複数の連続する段階において決定されることを特徴
    とする請求項14乃至16、又は18のいずれかに記載の音声合成器。
  22. 【請求項22】 時間分解能における縮小が波形ダウンサンプリングによっ
    て達成されることを特徴とする請求項21記載の音声合成器。
JP2000582998A 1998-11-13 1999-11-12 音声波形の連結を用いる音声合成 Pending JP2002530703A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10820198P 1998-11-13 1998-11-13
US60/108,201 1998-11-13
PCT/IB1999/001960 WO2000030069A2 (en) 1998-11-13 1999-11-12 Speech synthesis using concatenation of speech waveforms

Publications (1)

Publication Number Publication Date
JP2002530703A true JP2002530703A (ja) 2002-09-17

Family

ID=22320842

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000582998A Pending JP2002530703A (ja) 1998-11-13 1999-11-12 音声波形の連結を用いる音声合成

Country Status (8)

Country Link
US (2) US6665641B1 (ja)
EP (1) EP1138038B1 (ja)
JP (1) JP2002530703A (ja)
AT (1) ATE298453T1 (ja)
AU (1) AU772874B2 (ja)
CA (1) CA2354871A1 (ja)
DE (2) DE69940747D1 (ja)
WO (1) WO2000030069A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006047916A (ja) * 2004-08-09 2006-02-16 Advanced Telecommunication Research Institute International 音声素片選択装置および音声合成装置
JP2007114236A (ja) * 2005-10-18 2007-05-10 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
JP2012225950A (ja) * 2011-04-14 2012-11-15 Yamaha Corp 音声合成装置

Families Citing this family (302)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6144939A (en) * 1998-11-25 2000-11-07 Matsushita Electric Industrial Co., Ltd. Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains
WO2000055842A2 (en) * 1999-03-15 2000-09-21 British Telecommunications Public Limited Company Speech synthesis
CN1168068C (zh) * 1999-03-25 2004-09-22 松下电器产业株式会社 语音合成系统与语音合成方法
US7369994B1 (en) 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP3361291B2 (ja) * 1999-07-23 2003-01-07 コナミ株式会社 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
US7219061B1 (en) * 1999-10-28 2007-05-15 Siemens Aktiengesellschaft Method for detecting the time sequences of a fundamental frequency of an audio response unit to be synthesized
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
JP3483513B2 (ja) * 2000-03-02 2004-01-06 沖電気工業株式会社 音声録音再生装置
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2001265375A (ja) * 2000-03-17 2001-09-28 Oki Electric Ind Co Ltd 規則音声合成装置
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP2001282278A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP3728172B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
US6684187B1 (en) 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
US6505158B1 (en) * 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech
EP1193616A1 (en) * 2000-09-29 2002-04-03 Sony France S.A. Fixed-length sequence generation of items out of a database using descriptors
US7069216B2 (en) * 2000-09-29 2006-06-27 Nuance Communications, Inc. Corpus-based prosody translation system
US6871178B2 (en) * 2000-10-19 2005-03-22 Qwest Communications International, Inc. System and method for converting text-to-voice
US7451087B2 (en) * 2000-10-19 2008-11-11 Qwest Communications International Inc. System and method for converting text-to-voice
US6990450B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. System and method for converting text-to-voice
US6990449B2 (en) 2000-10-19 2006-01-24 Qwest Communications International Inc. Method of training a digital voice library to associate syllable speech items with literal text syllables
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
US7263488B2 (en) * 2000-12-04 2007-08-28 Microsoft Corporation Method and apparatus for identifying prosodic word boundaries
JP3673471B2 (ja) * 2000-12-28 2005-07-20 シャープ株式会社 テキスト音声合成装置およびプログラム記録媒体
EP1221692A1 (en) * 2001-01-09 2002-07-10 Robert Bosch Gmbh Method for upgrading a data stream of multimedia data
US20020133334A1 (en) * 2001-02-02 2002-09-19 Geert Coorman Time scale modification of digitally sampled waveforms in the time domain
JP2002258894A (ja) * 2001-03-02 2002-09-11 Fujitsu Ltd 音声データ圧縮・解凍装置及び方法
US7035794B2 (en) * 2001-03-30 2006-04-25 Intel Corporation Compressing and using a concatenative speech database in text-to-speech systems
JP2002304188A (ja) * 2001-04-05 2002-10-18 Sony Corp 単語列出力装置および単語列出力方法、並びにプログラムおよび記録媒体
US6950798B1 (en) * 2001-04-13 2005-09-27 At&T Corp. Employing speech models in concatenative speech synthesis
JP4747434B2 (ja) * 2001-04-18 2011-08-17 日本電気株式会社 音声合成方法、音声合成装置、半導体装置及び音声合成プログラム
DE10120513C1 (de) * 2001-04-26 2003-01-09 Siemens Ag Verfahren zur Bestimmung einer Folge von Lautbausteinen zum Synthetisieren eines Sprachsignals einer tonalen Sprache
GB0112749D0 (en) * 2001-05-25 2001-07-18 Rhetorical Systems Ltd Speech synthesis
GB0113587D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Speech synthesis apparatus
GB2376394B (en) 2001-06-04 2005-10-26 Hewlett Packard Co Speech synthesis apparatus and selection method
GB0113581D0 (en) 2001-06-04 2001-07-25 Hewlett Packard Co Speech synthesis apparatus
US6829581B2 (en) * 2001-07-31 2004-12-07 Matsushita Electric Industrial Co., Ltd. Method for prosody generation by unit selection from an imitation speech database
US20030028377A1 (en) * 2001-07-31 2003-02-06 Noyes Albert W. Method and device for synthesizing and distributing voice types for voice-enabled devices
DE02765393T1 (de) * 2001-08-31 2005-01-13 Kabushiki Kaisha Kenwood, Hachiouji Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
KR100438826B1 (ko) * 2001-10-31 2004-07-05 삼성전자주식회사 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법
US20030101045A1 (en) * 2001-11-29 2003-05-29 Peter Moffatt Method and apparatus for playing recordings of spoken alphanumeric characters
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US7401020B2 (en) * 2002-11-29 2008-07-15 International Business Machines Corporation Application of emotion-based intonation and prosody to speech in text-to-speech systems
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
TW556150B (en) * 2002-04-10 2003-10-01 Ind Tech Res Inst Method of speech segment selection for concatenative synthesis based on prosody-aligned distortion distance measure
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
US7529672B2 (en) * 2002-09-17 2009-05-05 Koninklijke Philips Electronics N.V. Speech synthesis using concatenation of speech waveforms
US7539086B2 (en) * 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
KR100463655B1 (ko) * 2002-11-15 2004-12-29 삼성전자주식회사 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법
JP3881620B2 (ja) * 2002-12-27 2007-02-14 株式会社東芝 話速可変装置及び話速変換方法
US7328157B1 (en) * 2003-01-24 2008-02-05 Microsoft Corporation Domain adaptation for TTS systems
US6988069B2 (en) * 2003-01-31 2006-01-17 Speechworks International, Inc. Reduced unit database generation based on cost information
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
US7308407B2 (en) * 2003-03-03 2007-12-11 International Business Machines Corporation Method and system for generating natural sounding concatenative synthetic speech
US7496498B2 (en) * 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
JP4433684B2 (ja) * 2003-03-24 2010-03-17 富士ゼロックス株式会社 ジョブ処理装置及び該装置におけるデータ管理方法
JP4225128B2 (ja) * 2003-06-13 2009-02-18 ソニー株式会社 規則音声合成装置及び規則音声合成方法
US7280967B2 (en) * 2003-07-30 2007-10-09 International Business Machines Corporation Method for detecting misaligned phonetic units for a concatenative text-to-speech voice
JP4150645B2 (ja) * 2003-08-27 2008-09-17 株式会社ケンウッド 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム
US7990384B2 (en) * 2003-09-15 2011-08-02 At&T Intellectual Property Ii, L.P. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
CN1604077B (zh) * 2003-09-29 2012-08-08 纽昂斯通讯公司 对发音波形语料库的改进方法
US7409347B1 (en) * 2003-10-23 2008-08-05 Apple Inc. Data-driven global boundary optimization
US7643990B1 (en) * 2003-10-23 2010-01-05 Apple Inc. Global boundary-centric feature extraction and associated discontinuity metrics
JP4080989B2 (ja) * 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
JP4839838B2 (ja) * 2003-12-12 2011-12-21 日本電気株式会社 情報処理システム、情報処理方法および情報処理用プログラム
US7567896B2 (en) * 2004-01-16 2009-07-28 Nuance Communications, Inc. Corpus-based speech synthesis based on segment recombination
US8666746B2 (en) * 2004-05-13 2014-03-04 At&T Intellectual Property Ii, L.P. System and method for generating customized text-to-speech voices
CN100524457C (zh) * 2004-05-31 2009-08-05 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
WO2005119650A1 (ja) * 2004-06-04 2005-12-15 Matsushita Electric Industrial Co., Ltd. 音声合成装置
JP4483450B2 (ja) * 2004-07-22 2010-06-16 株式会社デンソー 音声案内装置、音声案内方法およびナビゲーション装置
JP2006047866A (ja) * 2004-08-06 2006-02-16 Canon Inc 電子辞書装置およびその制御方法
US7869999B2 (en) * 2004-08-11 2011-01-11 Nuance Communications, Inc. Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
US20060074678A1 (en) * 2004-09-29 2006-04-06 Matsushita Electric Industrial Co., Ltd. Prosody generation for text-to-speech synthesis based on micro-prosodic data
US7475016B2 (en) * 2004-12-15 2009-01-06 International Business Machines Corporation Speech segment clustering and ranking
US7467086B2 (en) * 2004-12-16 2008-12-16 Sony Corporation Methodology for generating enhanced demiphone acoustic models for speech recognition
US20060136215A1 (en) * 2004-12-21 2006-06-22 Jong Jin Kim Method of speaking rate conversion in text-to-speech system
JP2008545995A (ja) * 2005-03-28 2008-12-18 レサック テクノロジーズ、インコーポレーテッド ハイブリッド音声合成装置、方法および用途
JP4586615B2 (ja) * 2005-04-11 2010-11-24 沖電気工業株式会社 音声合成装置,音声合成方法およびコンピュータプログラム
JP4570509B2 (ja) * 2005-04-22 2010-10-27 富士通株式会社 読み生成装置、読み生成方法及びコンピュータプログラム
US20060259303A1 (en) * 2005-05-12 2006-11-16 Raimo Bakis Systems and methods for pitch smoothing for text-to-speech synthesis
WO2006125346A1 (en) * 2005-05-27 2006-11-30 Intel Corporation Automatic text-speech mapping tool
WO2006128480A1 (en) 2005-05-31 2006-12-07 Telecom Italia S.P.A. Method and system for providing speech synthsis on user terminals over a communications network
US20080177548A1 (en) * 2005-05-31 2008-07-24 Canon Kabushiki Kaisha Speech Synthesis Method and Apparatus
WO2006134736A1 (ja) * 2005-06-16 2006-12-21 Matsushita Electric Industrial Co., Ltd. 音声合成装置、音声合成方法およびプログラム
JP2007004233A (ja) * 2005-06-21 2007-01-11 Yamatake Corp 文章分類装置、文章分類方法、およびプログラム
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
US7809572B2 (en) * 2005-07-20 2010-10-05 Panasonic Corporation Voice quality change portion locating apparatus
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US7464065B2 (en) * 2005-11-21 2008-12-09 International Business Machines Corporation Object specific language extension interface for a multi-level data structure
US20070203706A1 (en) * 2005-12-30 2007-08-30 Inci Ozkaragoz Voice analysis tool for creating database used in text to speech synthesis system
US20070219799A1 (en) * 2005-12-30 2007-09-20 Inci Ozkaragoz Text to speech synthesis system using syllables as concatenative units
US8600753B1 (en) * 2005-12-30 2013-12-03 At&T Intellectual Property Ii, L.P. Method and apparatus for combining text to speech and recorded prompts
US20070203705A1 (en) * 2005-12-30 2007-08-30 Inci Ozkaragoz Database storing syllables and sound units for use in text to speech synthesis system
US8036894B2 (en) * 2006-02-16 2011-10-11 Apple Inc. Multi-unit approach to text-to-speech synthesis
EP1835488B1 (en) * 2006-03-17 2008-11-19 Svox AG Text to speech synthesis
JP2007264503A (ja) * 2006-03-29 2007-10-11 Toshiba Corp 音声合成装置及びその方法
JP5045670B2 (ja) * 2006-05-17 2012-10-10 日本電気株式会社 音声データ要約再生装置、音声データ要約再生方法および音声データ要約再生用プログラム
JP4241762B2 (ja) 2006-05-18 2009-03-18 株式会社東芝 音声合成装置、その方法、及びプログラム
JP2008006653A (ja) * 2006-06-28 2008-01-17 Fuji Xerox Co Ltd 印刷システム、印刷制御方法及びプログラム
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8027837B2 (en) * 2006-09-15 2011-09-27 Apple Inc. Using non-speech sounds during text-to-speech synthesis
US20080077407A1 (en) * 2006-09-26 2008-03-27 At&T Corp. Phonetically enriched labeling in unit selection speech synthesis
JP4878538B2 (ja) * 2006-10-24 2012-02-15 株式会社日立製作所 音声合成装置
US20080126093A1 (en) * 2006-11-28 2008-05-29 Nokia Corporation Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System
US8032374B2 (en) * 2006-12-05 2011-10-04 Electronics And Telecommunications Research Institute Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition
US20080147579A1 (en) * 2006-12-14 2008-06-19 Microsoft Corporation Discriminative training using boosted lasso
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
JP2008185805A (ja) * 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
US9251782B2 (en) 2007-03-21 2016-02-02 Vivotext Ltd. System and method for concatenate speech samples within an optimal crossing point
EP2140448A1 (en) * 2007-03-21 2010-01-06 Vivotext Ltd. Speech samples library for text-to-speech and methods and apparatus for generating and using same
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
JP2009109805A (ja) * 2007-10-31 2009-05-21 Toshiba Corp 音声処理装置及びその方法
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
JP2009294640A (ja) * 2008-05-07 2009-12-17 Seiko Epson Corp 音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法
US8536976B2 (en) * 2008-06-11 2013-09-17 Veritrix, Inc. Single-channel multi-factor authentication
US8185646B2 (en) * 2008-11-03 2012-05-22 Veritrix, Inc. User authentication for social networks
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US8166297B2 (en) 2008-07-02 2012-04-24 Veritrix, Inc. Systems and methods for controlling access to encrypted data stored on a mobile device
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8301447B2 (en) * 2008-10-10 2012-10-30 Avaya Inc. Associating source information with phonetic indices
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP5471858B2 (ja) * 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
RU2421827C2 (ru) 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
US8805687B2 (en) * 2009-09-21 2014-08-12 At&T Intellectual Property I, L.P. System and method for generalized preselection for unit selection synthesis
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
CN102203853B (zh) * 2010-01-04 2013-02-27 株式会社东芝 合成语音的方法和装置
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8571870B2 (en) * 2010-02-12 2013-10-29 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
US8447610B2 (en) * 2010-02-12 2013-05-21 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
US8949128B2 (en) * 2010-02-12 2015-02-03 Nuance Communications, Inc. Method and apparatus for providing speech output for speech-enabled applications
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与系统
US8731931B2 (en) 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8688435B2 (en) 2010-09-22 2014-04-01 Voice On The Go Inc. Systems and methods for normalizing input media
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US20120143611A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Trajectory Tiling Approach for Text-to-Speech
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
WO2012134877A2 (en) * 2011-03-25 2012-10-04 Educational Testing Service Computer-implemented systems and methods evaluating prosodic features of speech
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
JP5758713B2 (ja) * 2011-06-22 2015-08-05 株式会社日立製作所 音声合成装置、ナビゲーション装置および音声合成方法
WO2013008384A1 (ja) * 2011-07-11 2013-01-17 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
TWI467566B (zh) * 2011-11-16 2015-01-01 Univ Nat Cheng Kung 多語言語音合成方法
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
FR2993088B1 (fr) * 2012-07-06 2014-07-18 Continental Automotive France Procede et systeme de synthese vocale
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
CN112230878B (zh) 2013-03-15 2024-09-27 苹果公司 对中断进行上下文相关处理
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
US9484044B1 (en) * 2013-07-17 2016-11-01 Knuedge Incorporated Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) 2013-07-18 2016-12-27 Knuedge Incorporated Reducing octave errors during pitch determination for noisy audio signals
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US20150149178A1 (en) * 2013-11-22 2015-05-28 At&T Intellectual Property I, L.P. System and method for data-driven intonation generation
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9905218B2 (en) * 2014-04-18 2018-02-27 Speech Morphing Systems, Inc. Method and apparatus for exemplary diphone synthesizer
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10915543B2 (en) 2014-11-03 2021-02-09 SavantX, Inc. Systems and methods for enterprise data search and analysis
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9520123B2 (en) * 2015-03-19 2016-12-13 Nuance Communications, Inc. System and method for pruning redundant units in a speech synthesis process
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9972301B2 (en) * 2016-10-18 2018-05-15 Mastercard International Incorporated Systems and methods for correcting text-to-speech pronunciation
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10528668B2 (en) * 2017-02-28 2020-01-07 SavantX, Inc. System and method for analysis and navigation of data
US11328128B2 (en) 2017-02-28 2022-05-10 SavantX, Inc. System and method for analysis and navigation of data
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN108364632B (zh) * 2017-12-22 2021-09-10 东南大学 一种具备情感的中文文本人声合成方法
AU2020211809A1 (en) * 2019-01-25 2021-07-29 Soul Machines Limited Real-time generation of speech animation
KR102637341B1 (ko) * 2019-10-15 2024-02-16 삼성전자주식회사 음성 생성 방법 및 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04238397A (ja) * 1991-01-23 1992-08-26 Matsushita Electric Ind Co Ltd 中国語発声記号生成装置及びその多音字辞典
JPH0695692A (ja) * 1992-09-14 1994-04-08 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声合成装置
JPH08263095A (ja) * 1995-03-20 1996-10-11 N T T Data Tsushin Kk 音声素片選択方法および音声合成装置
JPH08335095A (ja) * 1995-06-02 1996-12-17 Matsushita Electric Ind Co Ltd 音声波形接続方法
JPH1049193A (ja) * 1996-05-15 1998-02-20 A T R Onsei Honyaku Tsushin Kenkyusho:Kk 自然発話音声波形信号接続型音声合成装置
JPH10247097A (ja) * 1997-03-04 1998-09-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 自然発話音声波形信号接続型音声合成装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03504897A (ja) * 1987-10-09 1991-10-24 サウンド エンタテインメント インコーポレーテッド デジタル的に記憶され調音された言語セグメントからの言語の発生
DE69022237T2 (de) * 1990-10-16 1996-05-02 Ibm Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
DE69228211T2 (de) 1991-08-09 1999-07-08 Koninklijke Philips Electronics N.V., Eindhoven Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
DE69231266T2 (de) 1991-08-09 2001-03-15 Koninklijke Philips Electronics N.V., Eindhoven Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium
SE469576B (sv) * 1992-03-17 1993-07-26 Televerket Foerfarande och anordning foer talsyntes
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5490234A (en) * 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system
DE69428612T2 (de) 1993-01-25 2002-07-11 Matsushita Electric Industrial Co., Ltd. Verfahren und Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen
GB2291571A (en) * 1994-07-19 1996-01-24 Ibm Text to speech system; acoustic processor requests linguistic processor output
US5920840A (en) 1995-02-28 1999-07-06 Motorola, Inc. Communication system and method using a speaker dependent time-scaling technique
US5978764A (en) * 1995-03-07 1999-11-02 British Telecommunications Public Limited Company Speech synthesis
US5749064A (en) 1996-03-01 1998-05-05 Texas Instruments Incorporated Method and system for time scale modification utilizing feature vectors about zero crossing points
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04238397A (ja) * 1991-01-23 1992-08-26 Matsushita Electric Ind Co Ltd 中国語発声記号生成装置及びその多音字辞典
JPH0695692A (ja) * 1992-09-14 1994-04-08 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声合成装置
JPH08263095A (ja) * 1995-03-20 1996-10-11 N T T Data Tsushin Kk 音声素片選択方法および音声合成装置
JPH08335095A (ja) * 1995-06-02 1996-12-17 Matsushita Electric Ind Co Ltd 音声波形接続方法
JPH1049193A (ja) * 1996-05-15 1998-02-20 A T R Onsei Honyaku Tsushin Kenkyusho:Kk 自然発話音声波形信号接続型音声合成装置
JPH10247097A (ja) * 1997-03-04 1998-09-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 自然発話音声波形信号接続型音声合成装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006047916A (ja) * 2004-08-09 2006-02-16 Advanced Telecommunication Research Institute International 音声素片選択装置および音声合成装置
JP4512846B2 (ja) * 2004-08-09 2010-07-28 株式会社国際電気通信基礎技術研究所 音声素片選択装置および音声合成装置
JP2007114236A (ja) * 2005-10-18 2007-05-10 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
JP2012225950A (ja) * 2011-04-14 2012-11-15 Yamaha Corp 音声合成装置

Also Published As

Publication number Publication date
CA2354871A1 (en) 2000-05-25
US7219060B2 (en) 2007-05-15
AU1403100A (en) 2000-06-05
US20040111266A1 (en) 2004-06-10
DE69925932D1 (de) 2005-07-28
DE69940747D1 (de) 2009-05-28
WO2000030069A2 (en) 2000-05-25
EP1138038A2 (en) 2001-10-04
DE69925932T2 (de) 2006-05-11
EP1138038B1 (en) 2005-06-22
WO2000030069A3 (en) 2000-08-10
ATE298453T1 (de) 2005-07-15
AU772874B2 (en) 2004-05-13
US6665641B1 (en) 2003-12-16

Similar Documents

Publication Publication Date Title
EP1138038B1 (en) Speech synthesis using concatenation of speech waveforms
US20230058658A1 (en) Text-to-speech (tts) processing
US7233901B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US20200410981A1 (en) Text-to-speech (tts) processing
US7460997B1 (en) Method and system for preselection of suitable units for concatenative speech
US11763797B2 (en) Text-to-speech (TTS) processing
US8626510B2 (en) Speech synthesizing device, computer program product, and method
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
US10699695B1 (en) Text-to-speech (TTS) processing
Hamza et al. The IBM expressive speech synthesis system.
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
Bulyko et al. Efficient integrated response generation from multiple targets using weighted finite state transducers
O'Shaughnessy Modern methods of speech synthesis
Cadic et al. Towards Optimal TTS Corpora.
Yin An overview of speech synthesis technology
JP3576066B2 (ja) 音声合成システム、および音声合成方法
EP1589524B1 (en) Method and device for speech synthesis
Kim et al. Unit Generation Based on Phrase Break Strength and Pruning for Corpus‐Based Text‐to‐Speech
JPH10254471A (ja) 音声合成装置
EP1501075B1 (en) Speech synthesis using concatenation of speech waveforms
EP1640968A1 (en) Method and device for speech synthesis
Eady et al. Pitch assignment rules for speech synthesis by word concatenation
Narupiyakul et al. Thai syllable analysis for rule-based text to speech system
STAN TEZA DE DOCTORAT
Gupta et al. INTERNATIONAL JOURNAL OF ADVANCES IN COMPUTING AND INFORMATION TECHNOLOGY

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060901

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100401

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101221