JP2000172288A - 韻律テンプレ―トを用いるスピ―チ合成 - Google Patents
韻律テンプレ―トを用いるスピ―チ合成Info
- Publication number
- JP2000172288A JP2000172288A JP11332642A JP33264299A JP2000172288A JP 2000172288 A JP2000172288 A JP 2000172288A JP 11332642 A JP11332642 A JP 11332642A JP 33264299 A JP33264299 A JP 33264299A JP 2000172288 A JP2000172288 A JP 2000172288A
- Authority
- JP
- Japan
- Prior art keywords
- information
- prosody
- stress
- text
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000033764 rhythmic process Effects 0.000 title abstract description 6
- 238000001308 synthesis method Methods 0.000 title 1
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000014509 gene expression Effects 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 description 21
- 238000012549 training Methods 0.000 description 10
- 239000011295 pitch Substances 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000012152 algorithmic method Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
(57)【要約】
【課題】 自然な肉声の響きがする韻律を生成する。
【解決手段】 入力単語のテキストから合成スピーチを
生成するための装置において、複数の格納された単語に
ついての情報を含む単語辞書であって、情報が格納され
た単語の各々に対応する強勢パターンを特定する辞書
と、入力単語の音素表現を生成し、単語辞書を用いて入
力単語の強勢パターンを特定するテキスト処理部と、韻
律情報を含むテンプレートのデータベースを持つ韻律モ
ジュールであって、データベースがいくつかの音節と一
つの強勢パターンを特定することによってアクセスされ
るものであって、更に、韻律モジュールが、特定された
いくつかの音節と強勢パターンを用いてデータベースを
アクセスし、それによってテンプレートの一つを選択
し、この選択されたテンプレートを、入力単語の各々に
適用する韻律モジュールと、音素表現と韻律情報に基づ
いて合成スピーチを生成する音生成モジュールとから構
成する。
生成するための装置において、複数の格納された単語に
ついての情報を含む単語辞書であって、情報が格納され
た単語の各々に対応する強勢パターンを特定する辞書
と、入力単語の音素表現を生成し、単語辞書を用いて入
力単語の強勢パターンを特定するテキスト処理部と、韻
律情報を含むテンプレートのデータベースを持つ韻律モ
ジュールであって、データベースがいくつかの音節と一
つの強勢パターンを特定することによってアクセスされ
るものであって、更に、韻律モジュールが、特定された
いくつかの音節と強勢パターンを用いてデータベースを
アクセスし、それによってテンプレートの一つを選択
し、この選択されたテンプレートを、入力単語の各々に
適用する韻律モジュールと、音素表現と韻律情報に基づ
いて合成スピーチを生成する音生成モジュールとから構
成する。
Description
【0001】
【発明の属する技術分野】本発明は、一般的には、テキ
ストからスピーチへの変換システム(tts)及びスピ
ーチ合成に関する。特に、本発明は、韻律テンプレート
を使用して、より自然に響く韻律を生成するシステムに
関する。
ストからスピーチへの変換システム(tts)及びスピ
ーチ合成に関する。特に、本発明は、韻律テンプレート
を使用して、より自然に響く韻律を生成するシステムに
関する。
【0002】
【従来の技術及び発明が解決しようとする課題】テキス
トからスピーチへの変換及びスピーチ合成のために、自
然な肉声の響きがする韻律を生成する課題は、歴史的
に、研究者並びに開発者が直面していた最も挑戦的な問
題の一つである。テキストからスピーチへの変換システ
ムは、一般にその「ロボット的」抑揚によって悪名が高く
なった。この問題に対処するため、一部の従来技術で
は、自然な響きのする韻律を模倣するため、神経回路網
とベクトル集団化アルゴリズムを使用してきた。ただ周
辺的に成功したたことを別にして、これらの「ブラック
ボックス」計算技法は、自然な響きのする韻律にとっ
て、何が決定的に重要なパラメータなのかということに
関して開発者に対し何のフィードバックも与えない。
トからスピーチへの変換及びスピーチ合成のために、自
然な肉声の響きがする韻律を生成する課題は、歴史的
に、研究者並びに開発者が直面していた最も挑戦的な問
題の一つである。テキストからスピーチへの変換システ
ムは、一般にその「ロボット的」抑揚によって悪名が高く
なった。この問題に対処するため、一部の従来技術で
は、自然な響きのする韻律を模倣するため、神経回路網
とベクトル集団化アルゴリズムを使用してきた。ただ周
辺的に成功したたことを別にして、これらの「ブラック
ボックス」計算技法は、自然な響きのする韻律にとっ
て、何が決定的に重要なパラメータなのかということに
関して開発者に対し何のフィードバックも与えない。
【0003】
【課題を解決するための手段と作用】本発明ではある異
なった方法を取る。この方法においては、韻律テンプレ
ートを開発するために実際の肉声スピーチを利用してい
る。これらテンプレートは、音節の強勢パターンと韻律
的変数(例えば抑揚(F0)と持続時間)の間の関係を
定義する。このように、従来のアルゴリズムによる方法
とは違って、本発明では、研究者と開発者によって直接
観測され理解される、自然に発生する語彙的かつ音響学
的諸性質(例えば、強勢パターン、音節数、抑揚、持続
時間)を利用している。
なった方法を取る。この方法においては、韻律テンプレ
ートを開発するために実際の肉声スピーチを利用してい
る。これらテンプレートは、音節の強勢パターンと韻律
的変数(例えば抑揚(F0)と持続時間)の間の関係を
定義する。このように、従来のアルゴリズムによる方法
とは違って、本発明では、研究者と開発者によって直接
観測され理解される、自然に発生する語彙的かつ音響学
的諸性質(例えば、強勢パターン、音節数、抑揚、持続
時間)を利用している。
【0004】現に好ましい実施化は、韻律テンプレート
を、与えられた単語に対応する音節数と強勢パターンを
特定化することによってアクセスできるデータベースに
格納する。一つの単語辞書が提供され、それが音節数と
強勢パターンに関する必要な情報をシステムに供給す
る。テキスト処理部は、この単語辞書を使って入力単語
の強勢パターンを特定し、入力単語の音素表現を生成す
る。韻律モジュールがそれから、音節数と強勢パターン
情報を用いてテンプレートのデータベースをアクセスす
る。与えられた単語に対する韻律モジュールがこのデー
タベースから得られ、音生成モジュールに韻律情報を供
給するため用いられる。そして音生成モジュールは、前
記音素表現と韻律情報に基づき合成スピーチを生成す
る。
を、与えられた単語に対応する音節数と強勢パターンを
特定化することによってアクセスできるデータベースに
格納する。一つの単語辞書が提供され、それが音節数と
強勢パターンに関する必要な情報をシステムに供給す
る。テキスト処理部は、この単語辞書を使って入力単語
の強勢パターンを特定し、入力単語の音素表現を生成す
る。韻律モジュールがそれから、音節数と強勢パターン
情報を用いてテンプレートのデータベースをアクセスす
る。与えられた単語に対する韻律モジュールがこのデー
タベースから得られ、音生成モジュールに韻律情報を供
給するため用いられる。そして音生成モジュールは、前
記音素表現と韻律情報に基づき合成スピーチを生成す
る。
【0005】現に好ましい実施化では、単語レベルにお
けるスピーチに絞られている。単語は音節に部分分割さ
れて韻律の基本単位を表現する。この好ましいシステム
では、音節によって定義された強勢パターンが、抑揚
(F0)と持続時間両者の最も知覚的に重要な特徴を決
定するということを想定している。粒状のこのレベルに
おいて、テンプレート集合はそのサイズにおいて全く小
さく、テキストからスピーチへの変換及びスピーチ合成
において容易に実施する事ができる。音節を用いる単語
レベルの韻律分析がここでは好ましいが、本発明の韻律
テンプレート技法は、粒状の他のレベルを表示するシス
テムにおいても使用することができる。例えば、テンプ
レート集合は、音節及び単語レベルの両者において、よ
り多くの特徴決定物を許容するように拡張することがで
きる。この点に関して、子音タイプ、発声、母音の固有
ピッチ、及び一音節における区分構造によって引き起こ
される、顕微鏡的F0摂動は、ある種の韻律パターンを
分類するために使用することができる。更に、本技法
は、単語レベルF0の輪郭及び持続パターンを越えて、
フレーズレベル及び文レベルにまで拡張することができ
る。
けるスピーチに絞られている。単語は音節に部分分割さ
れて韻律の基本単位を表現する。この好ましいシステム
では、音節によって定義された強勢パターンが、抑揚
(F0)と持続時間両者の最も知覚的に重要な特徴を決
定するということを想定している。粒状のこのレベルに
おいて、テンプレート集合はそのサイズにおいて全く小
さく、テキストからスピーチへの変換及びスピーチ合成
において容易に実施する事ができる。音節を用いる単語
レベルの韻律分析がここでは好ましいが、本発明の韻律
テンプレート技法は、粒状の他のレベルを表示するシス
テムにおいても使用することができる。例えば、テンプ
レート集合は、音節及び単語レベルの両者において、よ
り多くの特徴決定物を許容するように拡張することがで
きる。この点に関して、子音タイプ、発声、母音の固有
ピッチ、及び一音節における区分構造によって引き起こ
される、顕微鏡的F0摂動は、ある種の韻律パターンを
分類するために使用することができる。更に、本技法
は、単語レベルF0の輪郭及び持続パターンを越えて、
フレーズレベル及び文レベルにまで拡張することができ
る。
【0006】本発明、その目的及び利点をより完全に理
解するためには、以下の明細と添付の図面を参照してい
ただきたい。
解するためには、以下の明細と添付の図面を参照してい
ただきたい。
【0007】
【発明の実施の形態】テキストが肉声の語り手によって
読まれるとき、ピッチは上がったり下がったりするし、
音節はより強く又より弱く発声され、母音は引き延ばさ
れたり縮められ、休止が挿入され、そのため話される文
節に一定のリズムが与えられる。これらの諸特徴は、ス
ピーチの研究者が韻律と呼ぶ諸性質を形成している。肉
声の語り手は、テキストの一節を声を出して読むときに
自動的に韻律情報を加える。この韻律情報は、この資料
の読者による解釈を伝えている。この印刷されたテキス
トは韻律情報を何も含まないので、この解釈は人間の経
験による技巧である。
読まれるとき、ピッチは上がったり下がったりするし、
音節はより強く又より弱く発声され、母音は引き延ばさ
れたり縮められ、休止が挿入され、そのため話される文
節に一定のリズムが与えられる。これらの諸特徴は、ス
ピーチの研究者が韻律と呼ぶ諸性質を形成している。肉
声の語り手は、テキストの一節を声を出して読むときに
自動的に韻律情報を加える。この韻律情報は、この資料
の読者による解釈を伝えている。この印刷されたテキス
トは韻律情報を何も含まないので、この解釈は人間の経
験による技巧である。
【0008】コンピュータにより実施化されたスピーチ
合成システムがテキストの一節を読んだり朗読する場
合、従来のシステムにおいてはこの人間的響きのする韻
律が欠如している。端的に言って、テキスト自身は、実
質的には何の韻律情報も含まないので、従来のスピーチ
シンセサイザは、欠落している韻律情報を生成するため
の手段をほとんど持たない。前に述べたように、韻律情
報を加えようとする従来の試みは、ルールに基づく技
法、及び神経回路網に基づく技法あるいはベクトル集団
化技法のようなアルゴリズム技法に集中してきた。ルー
ルに基づく技法は全然自然に響かないし、アルゴリズム
技法は、より進んだ修正に必要な、またそれらを生成す
るために用いられる訓練集合以外の応用に必要な推測を
引き出すために、適応させられないし使用できない。
合成システムがテキストの一節を読んだり朗読する場
合、従来のシステムにおいてはこの人間的響きのする韻
律が欠如している。端的に言って、テキスト自身は、実
質的には何の韻律情報も含まないので、従来のスピーチ
シンセサイザは、欠落している韻律情報を生成するため
の手段をほとんど持たない。前に述べたように、韻律情
報を加えようとする従来の試みは、ルールに基づく技
法、及び神経回路網に基づく技法あるいはベクトル集団
化技法のようなアルゴリズム技法に集中してきた。ルー
ルに基づく技法は全然自然に響かないし、アルゴリズム
技法は、より進んだ修正に必要な、またそれらを生成す
るために用いられる訓練集合以外の応用に必要な推測を
引き出すために、適応させられないし使用できない。
【0009】本発明は、話し言葉に発見される音節強勢
パターンに結びつけられた韻律テンプレートを使用する
ことによってこの問題に対処する。特に、このテンプレ
ートはF0抑揚情報と持続時間情報を格納する。この格
納された情報はデータベース内に取り込まれ、音節強勢
パターンに従って配列される。好ましい実施例では、三
つの異なった強勢レベルを定義する。これらは数字0、
1、2により表される。これらの強勢レベルは次の 0 無強勢 1 主強勢 2 副強勢 である。好ましい実施例によれば、単音節の単語は、主
強勢パターン「1」に対応する単純強勢パターンを持つ
と見なされる。多音節の単語は強勢レベルの様々な組み
合わせパターンを有することができる。例えば、二音節
単語は強勢パターン「10」、「01」「12」を持つ
ことができる。
パターンに結びつけられた韻律テンプレートを使用する
ことによってこの問題に対処する。特に、このテンプレ
ートはF0抑揚情報と持続時間情報を格納する。この格
納された情報はデータベース内に取り込まれ、音節強勢
パターンに従って配列される。好ましい実施例では、三
つの異なった強勢レベルを定義する。これらは数字0、
1、2により表される。これらの強勢レベルは次の 0 無強勢 1 主強勢 2 副強勢 である。好ましい実施例によれば、単音節の単語は、主
強勢パターン「1」に対応する単純強勢パターンを持つ
と見なされる。多音節の単語は強勢レベルの様々な組み
合わせパターンを有することができる。例えば、二音節
単語は強勢パターン「10」、「01」「12」を持つ
ことができる。
【0010】好ましい実施例では、それぞれの異なった
強勢組み合わせパターンに対して一つの韻律テンプレー
トを用いる。従って、強勢パターン「1」は第一の韻律
テンプレートを持ち、強勢パターン「10」はそれとは
異なった一つの韻律テンプレートを持つという風に順番
に続く。それぞれの韻律テンプレートは、抑揚及び持続
時間のような韻律情報を含み、選択により他の情報も含
むことができる。
強勢組み合わせパターンに対して一つの韻律テンプレー
トを用いる。従って、強勢パターン「1」は第一の韻律
テンプレートを持ち、強勢パターン「10」はそれとは
異なった一つの韻律テンプレートを持つという風に順番
に続く。それぞれの韻律テンプレートは、抑揚及び持続
時間のような韻律情報を含み、選択により他の情報も含
むことができる。
【0011】図1は、本発明の韻律テンプレート技術を
採用するスピーチシンセサイザを示す。図1において、
入力テキスト10は、単語を定義する列、すなわち文字
列として、テキスト処理部12に供給される。テキスト
処理部12は、格納された単語に関する情報を含む単語
辞書14を持つ。好ましい実施例においては、この単語
辞書は、16で示したようなデータ構造を持ち、このデ
ータ構造に従って、単語は、ある音素表現情報とある強
勢パターン情報とともに格納される。詳述すれば、この
辞書の各単語は、その音素表現、単語の音節間の境界を
特定する情報、及び強勢がどのように各音節に割り当て
られるかを表す情報を伴っている。このように、単語辞
書14は、探索できる電子形式において、単語の発音を
生成するために必要な基本的情報を含んでいる。
採用するスピーチシンセサイザを示す。図1において、
入力テキスト10は、単語を定義する列、すなわち文字
列として、テキスト処理部12に供給される。テキスト
処理部12は、格納された単語に関する情報を含む単語
辞書14を持つ。好ましい実施例においては、この単語
辞書は、16で示したようなデータ構造を持ち、このデ
ータ構造に従って、単語は、ある音素表現情報とある強
勢パターン情報とともに格納される。詳述すれば、この
辞書の各単語は、その音素表現、単語の音節間の境界を
特定する情報、及び強勢がどのように各音節に割り当て
られるかを表す情報を伴っている。このように、単語辞
書14は、探索できる電子形式において、単語の発音を
生成するために必要な基本的情報を含んでいる。
【0012】テキスト処理部12は、更に、韻律モジュ
ール18と対をなしていて、この韻律モジュールに付随
して韻律テンプレートデータベース20が存在する。好
ましい実施例においては、韻律テンプレートは、異なっ
た強勢パターンのそれぞれに対する抑揚(F0)及び持
続時間データを格納する。単音節強勢パターン「1」は
第一テンプレートを構成し、二音節パターン「10」は
第二テンプレートを構成し、パターン「01」は更に別
のテンプレートを構成し、以下同様である。テンプレー
トは、図1のデータ構造22で概略的に示したように、
強勢パターンによってデータベースに格納される。与え
られた単語に対する、強勢パターンはデータベースのア
クセスキーとして使われ、それによって韻律モジュール
18は対応する抑揚と持続時間情報を検出する。韻律モ
ジュール18は、テキスト処理部12を通じて供給され
る情報によって、与えられた単語に対する強勢パターン
を確認する。テキストモジュール12はこの情報を単語
辞書14を使って獲得する。
ール18と対をなしていて、この韻律モジュールに付随
して韻律テンプレートデータベース20が存在する。好
ましい実施例においては、韻律テンプレートは、異なっ
た強勢パターンのそれぞれに対する抑揚(F0)及び持
続時間データを格納する。単音節強勢パターン「1」は
第一テンプレートを構成し、二音節パターン「10」は
第二テンプレートを構成し、パターン「01」は更に別
のテンプレートを構成し、以下同様である。テンプレー
トは、図1のデータ構造22で概略的に示したように、
強勢パターンによってデータベースに格納される。与え
られた単語に対する、強勢パターンはデータベースのア
クセスキーとして使われ、それによって韻律モジュール
18は対応する抑揚と持続時間情報を検出する。韻律モ
ジュール18は、テキスト処理部12を通じて供給され
る情報によって、与えられた単語に対する強勢パターン
を確認する。テキストモジュール12はこの情報を単語
辞書14を使って獲得する。
【0013】好ましいテンプレートは、抑揚及び持続時
間情報を格納するが、韻律構造は他の韻律に関する諸性
質を含むように直ちに拡張することができる。
間情報を格納するが、韻律構造は他の韻律に関する諸性
質を含むように直ちに拡張することができる。
【0014】テキスト処理部12と韻律モジュール18
は、ともに情報を音生成モジュール24に供給する。特
に、テキスト処理部12は、単語辞書14から得られる
音素情報を供給し、韻律モジュール18は韻律情報(す
なわち抑揚と持続時間)を供給する。音生成モジュール
24はそれから、音素情報及び韻律情報に基づいて合成
スピーチを生成する。
は、ともに情報を音生成モジュール24に供給する。特
に、テキスト処理部12は、単語辞書14から得られる
音素情報を供給し、韻律モジュール18は韻律情報(す
なわち抑揚と持続時間)を供給する。音生成モジュール
24はそれから、音素情報及び韻律情報に基づいて合成
スピーチを生成する。
【0015】目下の好ましい実施例は、韻律情報を標準
形式において符号化する。この形式においては、韻律情
報は、データベース20に対する格納と検出を単純化す
るため、正規化されパラメータ表現される。音生成モジ
ュール24は、標準化されたテンプレートを非正規化
し、テキスト処理部12によって供給される音素情報に
適用することができる形式に変換する。この処理の詳細
については以後、詳述するが、先ず、韻律テンプレート
の詳しい説明とそれらの構成について説明する。
形式において符号化する。この形式においては、韻律情
報は、データベース20に対する格納と検出を単純化す
るため、正規化されパラメータ表現される。音生成モジ
ュール24は、標準化されたテンプレートを非正規化
し、テキスト処理部12によって供給される音素情報に
適用することができる形式に変換する。この処理の詳細
については以後、詳述するが、先ず、韻律テンプレート
の詳しい説明とそれらの構成について説明する。
【0016】図2Aと2Bに関して、適当な韻律テンプ
レートを生成する手順の概略を述べる。韻律テンプレー
トは肉声の訓練スピーチを使用して構成される。このス
ピーチはあらかじめ記録され、訓練スピーチ部の集まり
30として供給されることができる。本発明の好ましい
実施化は、文の最初の位置に固有名詞を有する、およそ
3、000の文章を用いて構成される。訓練スピーチの
集まり30は、米語の一人の女性の話し手から集められ
る。もちろん訓練スピーチの他のソースを使っても良
い。
レートを生成する手順の概略を述べる。韻律テンプレー
トは肉声の訓練スピーチを使用して構成される。このス
ピーチはあらかじめ記録され、訓練スピーチ部の集まり
30として供給されることができる。本発明の好ましい
実施化は、文の最初の位置に固有名詞を有する、およそ
3、000の文章を用いて構成される。訓練スピーチの
集まり30は、米語の一人の女性の話し手から集められ
る。もちろん訓練スピーチの他のソースを使っても良
い。
【0017】訓練スピーチデータは一連のステップによ
って、最初に前処理される。先ず、レッテル付け手段3
2によって、文は単語に区分化され、単語は音節に区分
化され、音節は音素に区分化され、これら音素は34に
おいて格納される。それから、強勢がステップ36にお
いて音節に割り当てられる。好ましい実施化において
は、3レベルの強勢割り当てが使用され、38において
概略的に示したように「0」は無強勢を表し、「1」は
主強勢を表し、「2」は副強勢を表す。単語の音節と音
素への部分分割及び強勢レベルの割り当ては、手動によ
って、あるいはF0編集を行う、自動的または半自動的
追跡部の援助の下で行うことができる。これに関して、
訓練スピーチデータの前処理はかなり時間消費が多い
が、韻律テンプレートの開発の間にのみ一度だけ実行し
なければならないだけである。正確にレッテルを付けら
れ強勢を割り当てられたデータのみが、確実性を保証
し、引き続く統計的解析において雑音レベルを減少させ
るために必要である。
って、最初に前処理される。先ず、レッテル付け手段3
2によって、文は単語に区分化され、単語は音節に区分
化され、音節は音素に区分化され、これら音素は34に
おいて格納される。それから、強勢がステップ36にお
いて音節に割り当てられる。好ましい実施化において
は、3レベルの強勢割り当てが使用され、38において
概略的に示したように「0」は無強勢を表し、「1」は
主強勢を表し、「2」は副強勢を表す。単語の音節と音
素への部分分割及び強勢レベルの割り当ては、手動によ
って、あるいはF0編集を行う、自動的または半自動的
追跡部の援助の下で行うことができる。これに関して、
訓練スピーチデータの前処理はかなり時間消費が多い
が、韻律テンプレートの開発の間にのみ一度だけ実行し
なければならないだけである。正確にレッテルを付けら
れ強勢を割り当てられたデータのみが、確実性を保証
し、引き続く統計的解析において雑音レベルを減少させ
るために必要である。
【0018】単語にレッテルを付けられ、強勢が割り当
てられると、これら単語を、強勢パターンに従ってグル
ープに分けることができる。40で示したように単音節
の単語は第一グループを構成し、二音節の単語は、四つ
の追加グループ、「10」グループ、「01」グルー
プ、「12」グループ、「21」グループを構成する。
同様に、三音節の単語、四音節の単語、n音節の単語
が、強勢パターンによってグループに分けられる。
てられると、これら単語を、強勢パターンに従ってグル
ープに分けることができる。40で示したように単音節
の単語は第一グループを構成し、二音節の単語は、四つ
の追加グループ、「10」グループ、「01」グルー
プ、「12」グループ、「21」グループを構成する。
同様に、三音節の単語、四音節の単語、n音節の単語
が、強勢パターンによってグループに分けられる。
【0019】次に、各強勢パターングループに対して、
基本ピッチ、あるいは抑揚データF0が時間に関して標
準化され、ステップ42に示されているようにその記録
に特有の時間次元が取り除かれる。これはいくつかの方
法で達成することができる。44において説明した好ま
しい技法は、ある固定数のF0点を標本抽出する。例え
ば、一音節あたり30個の標本を抽出する。
基本ピッチ、あるいは抑揚データF0が時間に関して標
準化され、ステップ42に示されているようにその記録
に特有の時間次元が取り除かれる。これはいくつかの方
法で達成することができる。44において説明した好ま
しい技法は、ある固定数のF0点を標本抽出する。例え
ば、一音節あたり30個の標本を抽出する。
【0020】次に、一連の追加的処理ステップが、46
を以て示したようにベースラインピッチ定数オフセット
を取り除くため実行される。好ましい方法としては、文
全体に対するF0点を、48に示したように対数領域に
変換することを含む。一度これらの点が対数領域に変換
されれば、これらは、50に示したようにテンプレート
データベースに加えられる。好ましい実施化において
は、与えられたグループに対するすべての対数領域デー
タが平均化され、この平均値は韻律テンプレートに配置
されるために使用される。このように、一つのグループ
のすべての単語(例えば「10」パターンのすべての二
音節単語)は、このグループに対するテンプレートに配
置されるために使用される一つの平均値に貢献する。デ
ータの算術平均は良好な結果をもたらすが、他の統計的
処理も又、所望に応じて採用しても良い。
を以て示したようにベースラインピッチ定数オフセット
を取り除くため実行される。好ましい方法としては、文
全体に対するF0点を、48に示したように対数領域に
変換することを含む。一度これらの点が対数領域に変換
されれば、これらは、50に示したようにテンプレート
データベースに加えられる。好ましい実施化において
は、与えられたグループに対するすべての対数領域デー
タが平均化され、この平均値は韻律テンプレートに配置
されるために使用される。このように、一つのグループ
のすべての単語(例えば「10」パターンのすべての二
音節単語)は、このグループに対するテンプレートに配
置されるために使用される一つの平均値に貢献する。デ
ータの算術平均は良好な結果をもたらすが、他の統計的
処理も又、所望に応じて採用しても良い。
【0021】韻律テンプレートのたくましさを評価する
ために、ステップ52から始まる追加的処理が、図2B
に図解されているように実行される。上記対数領域デー
タが文全体に対する線形回帰を計算するため使用され
る。この回帰線は、ステップ54に示したように単語末
の境界と交わり、この交点が目標単語に対する高度点と
して使われる。ステップ56においてこの高度点は共通
参照点にずらされる。この好ましい実施例は、データを
名目的な100Hzの共通参照点に上げたり下げたりす
る。
ために、ステップ52から始まる追加的処理が、図2B
に図解されているように実行される。上記対数領域デー
タが文全体に対する線形回帰を計算するため使用され
る。この回帰線は、ステップ54に示したように単語末
の境界と交わり、この交点が目標単語に対する高度点と
して使われる。ステップ56においてこの高度点は共通
参照点にずらされる。この好ましい実施例は、データを
名目的な100Hzの共通参照点に上げたり下げたりす
る。
【0022】前述したように、従来の神経回路網技法
は、システム設計者に、パラメータを意味のあるように
調整する機会、あるいはどのファクタが出力に影響する
かを発見する機会を与えない。本発明は、設計者が、関
連するパラメータを統計的解析によって開発する事を可
能にする。これはステップ58に始まる処理に示されて
いる。所望によっては、データは、60における面積距
離の如くの距離尺度を計算するため、58において各標
本を算術平均と比較する事によって統計的に解析され
る。本願発明者らは、下の数式に表現されている如くの
ベクトル間の面積距離を使用する。本願発明者らは、こ
の尺度が標本が、互いにどれだけ似ているかあるいは違
っているかに関する情報を作り出すのに通常全く適当だ
ということを発見した。センサー神経システムの心理的
聴覚的諸性質を考慮に入れた重み付き尺度を含む他の距
離尺度も使用することができる。 ここに d:二つのベクトルの間の距離尺度、 i:比較されるベクトルの指標、 Yi:F0輪郭ベクトル、 :グループの算術平均ベクトルのk番目の値 N:ベクトルにおける標本 yik:F0輪郭ベクトルYiのk番目の標本値、 Vik:有声関数、有声ならば1、無声ならば0、 c:スケールファクタ(選択的)。
は、システム設計者に、パラメータを意味のあるように
調整する機会、あるいはどのファクタが出力に影響する
かを発見する機会を与えない。本発明は、設計者が、関
連するパラメータを統計的解析によって開発する事を可
能にする。これはステップ58に始まる処理に示されて
いる。所望によっては、データは、60における面積距
離の如くの距離尺度を計算するため、58において各標
本を算術平均と比較する事によって統計的に解析され
る。本願発明者らは、下の数式に表現されている如くの
ベクトル間の面積距離を使用する。本願発明者らは、こ
の尺度が標本が、互いにどれだけ似ているかあるいは違
っているかに関する情報を作り出すのに通常全く適当だ
ということを発見した。センサー神経システムの心理的
聴覚的諸性質を考慮に入れた重み付き尺度を含む他の距
離尺度も使用することができる。 ここに d:二つのベクトルの間の距離尺度、 i:比較されるベクトルの指標、 Yi:F0輪郭ベクトル、 :グループの算術平均ベクトルのk番目の値 N:ベクトルにおける標本 yik:F0輪郭ベクトルYiのk番目の標本値、 Vik:有声関数、有声ならば1、無声ならば0、 c:スケールファクタ(選択的)。
【0023】各パターンに対し、この距離尺度は62に
おいて作表され、64においてヒストグラムプロットが
構成される。そのようなヒストグラムの一例は、強勢パ
ターン「1」の分布プロットを示す図3に表されてい
る。このプロットにおいて、x軸は任意のスケールによ
り、y軸は与えられた距離の数え上げられた頻度であ
る。非類似性はx軸上の1/3の付近で有意である。
おいて作表され、64においてヒストグラムプロットが
構成される。そのようなヒストグラムの一例は、強勢パ
ターン「1」の分布プロットを示す図3に表されてい
る。このプロットにおいて、x軸は任意のスケールによ
り、y軸は与えられた距離の数え上げられた頻度であ
る。非類似性はx軸上の1/3の付近で有意である。
【0024】上に説明したヒストグラムプロットを構成
することにより、韻律テンプレートは、標本がどれほど
互いに近いか、従って、結果として得られるテンプレー
トがどれだけ自然に響く抑揚に近いかを判定するために
評価される。言い換えれば、このヒストグラムは、グル
ープ化の目安(強勢パターン)が適切に観測される形を
説明するかどうかを告げる。大きく広がったものはそれ
が適切でないことを示し、平均値の周りに近く集中した
ものは、強勢のみによって決定されるパターン、したが
って韻律テンプレートの良い候補を我々が発見したこと
を示す。図4は、「1」パターンに対する平均F0輪郭
の対応するプロットを示す。図4のデータグラフは図3
の分布プロットに対応する。図4のプロットは正規化さ
れた対数座標を表現していることに注意していただきた
い。最下部、真ん中、最上部はそれぞれ50Hz、10
0Hz、200Hzにそれぞれ対応する。図4は、単音
節に対する平均F0輪郭がゆっくりと上昇する輪郭であ
ることを示す。
することにより、韻律テンプレートは、標本がどれほど
互いに近いか、従って、結果として得られるテンプレー
トがどれだけ自然に響く抑揚に近いかを判定するために
評価される。言い換えれば、このヒストグラムは、グル
ープ化の目安(強勢パターン)が適切に観測される形を
説明するかどうかを告げる。大きく広がったものはそれ
が適切でないことを示し、平均値の周りに近く集中した
ものは、強勢のみによって決定されるパターン、したが
って韻律テンプレートの良い候補を我々が発見したこと
を示す。図4は、「1」パターンに対する平均F0輪郭
の対応するプロットを示す。図4のデータグラフは図3
の分布プロットに対応する。図4のプロットは正規化さ
れた対数座標を表現していることに注意していただきた
い。最下部、真ん中、最上部はそれぞれ50Hz、10
0Hz、200Hzにそれぞれ対応する。図4は、単音
節に対する平均F0輪郭がゆっくりと上昇する輪郭であ
ることを示す。
【0025】図5は二音節パターンの族に関する本願発
明者らによるF0研究の結果を示す。図5において、パ
ターン「10」はAに示され、パターン「01」はBに
示され、パターン「12」はCに示されている。三音節
グループ「010」に対する平均輪郭パターンも図5に
含まれている。
明者らによるF0研究の結果を示す。図5において、パ
ターン「10」はAに示され、パターン「01」はBに
示され、パターン「12」はCに示されている。三音節
グループ「010」に対する平均輪郭パターンも図5に
含まれている。
【0026】図5における二音節パターンを比較するこ
とにより、全体のF0輪郭の形だけでなく、ピークの位
置が異なることに注目していただきたい。「10」パタ
ーンは第一音節に80%入った位置にピークを持つ上昇
−下降を示し、一方「01」パターンは第二音節に60
%入った位置にピークを持つ平坦な上昇−下降パターン
を示す。これらの図において、鉛直方向の線は音節間の
境界を示す。
とにより、全体のF0輪郭の形だけでなく、ピークの位
置が異なることに注目していただきたい。「10」パタ
ーンは第一音節に80%入った位置にピークを持つ上昇
−下降を示し、一方「01」パターンは第二音節に60
%入った位置にピークを持つ平坦な上昇−下降パターン
を示す。これらの図において、鉛直方向の線は音節間の
境界を示す。
【0027】「12」パターンは「10」パターンに極
めて似ているが、一度F0が上昇の目標点に到着する
や、「12」パターンはこの高いF0領域において、よ
り長い広がりを持つ。このことが第二の強勢がある可能
性を意味する。
めて似ているが、一度F0が上昇の目標点に到着する
や、「12」パターンはこの高いF0領域において、よ
り長い広がりを持つ。このことが第二の強勢がある可能
性を意味する。
【0028】図示した三音節単語の「010」パターン
は分布において明確なベル形曲線及びいくつかの異常性
を示す。平均の輪郭は低い平坦部とそれに続く上昇−下
降輪郭であって、第二音節に85%入った位置にピーク
を持つ。この分布の一部の異常性は訓練データにおける
間違って発音された単語に対応するかもしれない。
は分布において明確なベル形曲線及びいくつかの異常性
を示す。平均の輪郭は低い平坦部とそれに続く上昇−下
降輪郭であって、第二音節に85%入った位置にピーク
を持つ。この分布の一部の異常性は訓練データにおける
間違って発音された単語に対応するかもしれない。
【0029】ヒストグラムプロットと平均輪郭曲線は、
訓練データに反映されている異なったパターンに対して
計算することができる。本願発明者らの研究は、このよ
うにして生み出されたF0輪郭及び持続時間パターンは
肉声のスピーチのそれらに近いか同一であるとことを示
した。我々は、強勢パターンのみを区別する特徴として
使用した場合、F0曲線の類似性分布は明確なベル型曲
線形を表すことを発見した。このことは強勢パターンが
韻律情報を割り当てるための非常に有効な基準であるこ
とを確認する。
訓練データに反映されている異なったパターンに対して
計算することができる。本願発明者らの研究は、このよ
うにして生み出されたF0輪郭及び持続時間パターンは
肉声のスピーチのそれらに近いか同一であるとことを示
した。我々は、強勢パターンのみを区別する特徴として
使用した場合、F0曲線の類似性分布は明確なベル型曲
線形を表すことを発見した。このことは強勢パターンが
韻律情報を割り当てるための非常に有効な基準であるこ
とを確認する。
【0030】韻律テンプレートの作成を頭に入れて、音
生成モジュール24(図1)をより詳細にこれから説明
する。韻律モジュール18によって抽出された韻律情報
は正規化され、ピッチを移動され、対数領域の形式で格
納される。従って、韻律プレートを使用するためには、
音生成モジュールは、図6に示されているように、先
ず、この情報をステップ70に始まる処理によって非正
規化しなければならない。この非正規化過程は先ず、フ
レーム文ピッチ輪郭に適切な高さに、テンプレートをず
らせる(ステップ72)。この定数は、フレーム文に対
して検出されるデータの一部として与えられ、この文の
ピッチ輪郭に対する回帰線の係数によって計算される
(図2のステップ52から56を見よ)。
生成モジュール24(図1)をより詳細にこれから説明
する。韻律モジュール18によって抽出された韻律情報
は正規化され、ピッチを移動され、対数領域の形式で格
納される。従って、韻律プレートを使用するためには、
音生成モジュールは、図6に示されているように、先
ず、この情報をステップ70に始まる処理によって非正
規化しなければならない。この非正規化過程は先ず、フ
レーム文ピッチ輪郭に適切な高さに、テンプレートをず
らせる(ステップ72)。この定数は、フレーム文に対
して検出されるデータの一部として与えられ、この文の
ピッチ輪郭に対する回帰線の係数によって計算される
(図2のステップ52から56を見よ)。
【0031】その間持続時間テンプレートがアクセスさ
れ、持続時間情報が非正規化され、各音節に対応する時
間(ミリセカンドの単位で)が確認される。テンプレー
トの対数領域値は、それからステップ74において、線
形のHz値に変換される。次いで、ステップ76におい
て、これらのテンプレートの各音節区分は、各点に対し
て、固定された持続時間、再標本抽出され(本実施例で
は10ミリセカンド)、各点の全持続時間が特定され、
非正規化された時間値に対応するようにされる。これ
は、抑揚輪郭を物理的時間線に置き戻す。このとき、変
換されたテンプートデータは音生成モジュールによって
使用される用意が出来上がる。当然、非正規化ステップ
は韻律情報を取り扱うモジュールのいずれによっても実
行できる。従って、図6に示した非正規化ステップは、
音生成モジュール24かまたは韻律モジュール18によ
って実行することができる。
れ、持続時間情報が非正規化され、各音節に対応する時
間(ミリセカンドの単位で)が確認される。テンプレー
トの対数領域値は、それからステップ74において、線
形のHz値に変換される。次いで、ステップ76におい
て、これらのテンプレートの各音節区分は、各点に対し
て、固定された持続時間、再標本抽出され(本実施例で
は10ミリセカンド)、各点の全持続時間が特定され、
非正規化された時間値に対応するようにされる。これ
は、抑揚輪郭を物理的時間線に置き戻す。このとき、変
換されたテンプートデータは音生成モジュールによって
使用される用意が出来上がる。当然、非正規化ステップ
は韻律情報を取り扱うモジュールのいずれによっても実
行できる。従って、図6に示した非正規化ステップは、
音生成モジュール24かまたは韻律モジュール18によ
って実行することができる。
【0032】好ましい実施例では、持続時間情報を音素
値対大域的に決定される持続時間の比として格納してい
る。この大域的に決定される値は全訓練集に渉って観測
される平均持続時間値に対応する。音節あたりの値は、
与えられた音節内の、観測される音素又は音素グループ
の持続時間の合計を表す。音節あたりの値対大域的値の
比は計算され、平均化され、韻律テンプレートの各メン
バーに配置される。これらの比は韻律テンプレートに格
納され、各音節の実際の持続時間を計算するために用い
られる。
値対大域的に決定される持続時間の比として格納してい
る。この大域的に決定される値は全訓練集に渉って観測
される平均持続時間値に対応する。音節あたりの値は、
与えられた音節内の、観測される音素又は音素グループ
の持続時間の合計を表す。音節あたりの値対大域的値の
比は計算され、平均化され、韻律テンプレートの各メン
バーに配置される。これらの比は韻律テンプレートに格
納され、各音節の実際の持続時間を計算するために用い
られる。
【0033】詳細な、時間的韻律パターンを得ること
は、F0輪郭のためであるということから、幾分もっと
複雑である。これは、高いレベルの抑揚の強さを、純粋
に発声的諸制約から、単に個別の区分化されたデータを
検討することによっては分離できないと言う事実によ
る。
は、F0輪郭のためであるということから、幾分もっと
複雑である。これは、高いレベルの抑揚の強さを、純粋
に発声的諸制約から、単に個別の区分化されたデータを
検討することによっては分離できないと言う事実によ
る。
【0034】(韻律データベースの設計)目下の好まし
い韻律データベースの構造と配列を図7の関係ダイアグ
ラム及び次のデータベース設計明細によって更に説明す
る。この明細は本発明の好ましい実施例を図解するため
に提供されている。他のデータベース設計明細も又可能
である。 NORMDATA NDID−−主キー Target−−キー Sentence−−キー(文ID) SentencePos−−テキスト Follow−−キー(単語ID) Session−−キー(セッションID) Recording−−テキスト Attributes−−テキスト WORD WordID−−主キー Spelling−−テキスト Phonemes−−テキスト Syllables−−数 Stress−−テキスト Subwords−−数 Origin−−テキスト Feature1−−数(Submorphs) Feature2−−数 FRAMESENTENCE SentID−−主キー Sentence−−テキスト Type−−数 Syllables−−数 SESSION SessID−−主キー Speaker−−テキスト DateRecorded−−Date/Time Tape−−テキスト F0DATA NDID−−キー Index−−数 Value−−カレンシー DURDATA NDID−−キー Index−−数 Value−−カレンシー Abs−−カレンシー PHONDATA NDID−−キー Phones−−テキスト Dur−−カレンシー Stress−−テキスト SylPos−−数 PhonPos−−数 Rate−−数 Parse−−テキスト RECORDING ID Our A(y=A+Bx) B(y=A+Bx) Descript GROUP GroupID−−主キー Syllables−−数 Stress−−テキスト Feature1−−数 Feature2−−数 SentencePos−−テキスト <Future exp.> TEMPLATEF0 GroupID−−キー Index−−数 Value−−数 TEMPLATEDUR GroupID−−キー Index−−数 Value−−数 DISTRIBUTIONF0 GroupID−−キー Index−−数 Value−−数 DISTRIBUTIONDUR GroupID−−キー Index−−数 Value−−数 GROUPMEMBERS GroupID−−キー NDID−−キー DistanceF0−−カレンシー DistanceDur−−カレンシー PHONSTAT Phones−−テキスト Mean−−カレンシー SSD−−カレンシー Min−−カレンシー Max−−カレンシー CoVar−−カレンシー N−−数 Class−−テキスト
い韻律データベースの構造と配列を図7の関係ダイアグ
ラム及び次のデータベース設計明細によって更に説明す
る。この明細は本発明の好ましい実施例を図解するため
に提供されている。他のデータベース設計明細も又可能
である。 NORMDATA NDID−−主キー Target−−キー Sentence−−キー(文ID) SentencePos−−テキスト Follow−−キー(単語ID) Session−−キー(セッションID) Recording−−テキスト Attributes−−テキスト WORD WordID−−主キー Spelling−−テキスト Phonemes−−テキスト Syllables−−数 Stress−−テキスト Subwords−−数 Origin−−テキスト Feature1−−数(Submorphs) Feature2−−数 FRAMESENTENCE SentID−−主キー Sentence−−テキスト Type−−数 Syllables−−数 SESSION SessID−−主キー Speaker−−テキスト DateRecorded−−Date/Time Tape−−テキスト F0DATA NDID−−キー Index−−数 Value−−カレンシー DURDATA NDID−−キー Index−−数 Value−−カレンシー Abs−−カレンシー PHONDATA NDID−−キー Phones−−テキスト Dur−−カレンシー Stress−−テキスト SylPos−−数 PhonPos−−数 Rate−−数 Parse−−テキスト RECORDING ID Our A(y=A+Bx) B(y=A+Bx) Descript GROUP GroupID−−主キー Syllables−−数 Stress−−テキスト Feature1−−数 Feature2−−数 SentencePos−−テキスト <Future exp.> TEMPLATEF0 GroupID−−キー Index−−数 Value−−数 TEMPLATEDUR GroupID−−キー Index−−数 Value−−数 DISTRIBUTIONF0 GroupID−−キー Index−−数 Value−−数 DISTRIBUTIONDUR GroupID−−キー Index−−数 Value−−数 GROUPMEMBERS GroupID−−キー NDID−−キー DistanceF0−−カレンシー DistanceDur−−カレンシー PHONSTAT Phones−−テキスト Mean−−カレンシー SSD−−カレンシー Min−−カレンシー Max−−カレンシー CoVar−−カレンシー N−−数 Class−−テキスト
【0035】(フィールドの説明) NORMDATA NDID: 主キー。 Target: 目標単語。WORDテーブルへのキ
ー。 Sentence: ソースフレーム文。 FRAME
SENTENCEテーブルへのキー。 SentencePos: 文の位置。INITIA
L、MEDIAL、FINAL。 Follow: 目標単語に続く単語。WORDテーブ
ルへのキーあるいはもしなければ0。 Session: 記録がどのセッションの一部か。S
ESSIONテーブルへのキー。 Recording: UNIXディレクトリにおける
記録(生データ)のための特定部。 Attributes:雑多な情報。 F:異常と見なされるF0データ。 D:異常と見なされる持続時間データ。 A:代わりのF0データ。 B:代わりの持続時間。 PHONDATA NDID: NORMDATAへのキー。 Phones: 一つ又は二つの音素の文字列。 Dur: Phonesに対する全持続時間。 Stress: Phonesが属する音節の強勢。 SylPos: Phonesを含む音節の位置(0か
ら数える)。 PhonPos: 音節内のPhonesの位置(0か
ら数える)。 Rate: 発語のスピーチレート尺度。 Parse: L:左からの分解により作られるPho
nes。 R:右からの分解により作られるPhones。 PHONSTAT Phones: 一つ又は二つの音素の文字列。 Mean: Phonesに対する持続時間の統計的平
均。 SSD: 標本の標準偏差。 Min: 観測された最小値。 Max: 観測された最大値。 CoVar: 変動係数(SSD/平均) N: このPhonesグループの標本数 Class: 分類。 A:すべての標本が含まれる。
ー。 Sentence: ソースフレーム文。 FRAME
SENTENCEテーブルへのキー。 SentencePos: 文の位置。INITIA
L、MEDIAL、FINAL。 Follow: 目標単語に続く単語。WORDテーブ
ルへのキーあるいはもしなければ0。 Session: 記録がどのセッションの一部か。S
ESSIONテーブルへのキー。 Recording: UNIXディレクトリにおける
記録(生データ)のための特定部。 Attributes:雑多な情報。 F:異常と見なされるF0データ。 D:異常と見なされる持続時間データ。 A:代わりのF0データ。 B:代わりの持続時間。 PHONDATA NDID: NORMDATAへのキー。 Phones: 一つ又は二つの音素の文字列。 Dur: Phonesに対する全持続時間。 Stress: Phonesが属する音節の強勢。 SylPos: Phonesを含む音節の位置(0か
ら数える)。 PhonPos: 音節内のPhonesの位置(0か
ら数える)。 Rate: 発語のスピーチレート尺度。 Parse: L:左からの分解により作られるPho
nes。 R:右からの分解により作られるPhones。 PHONSTAT Phones: 一つ又は二つの音素の文字列。 Mean: Phonesに対する持続時間の統計的平
均。 SSD: 標本の標準偏差。 Min: 観測された最小値。 Max: 観測された最大値。 CoVar: 変動係数(SSD/平均) N: このPhonesグループの標本数 Class: 分類。 A:すべての標本が含まれる。
【0036】これまでの説明から理解されるように、本
発明は、合成スピーチを生成するための装置と方法を提
供し、そこにおいて、通常欠落している韻律情報を、肉
声のスピーチから抽出されたデータに基づいて供給す
る。本発明の如くこの韻律情報はテンプレートのデータ
ベースから選択され、入力単語のテキストに対応する強
勢パターンに基づいて、参照手続きを経て、音素情報に
適用される。
発明は、合成スピーチを生成するための装置と方法を提
供し、そこにおいて、通常欠落している韻律情報を、肉
声のスピーチから抽出されたデータに基づいて供給す
る。本発明の如くこの韻律情報はテンプレートのデータ
ベースから選択され、入力単語のテキストに対応する強
勢パターンに基づいて、参照手続きを経て、音素情報に
適用される。
【0037】本発明は、広く、様々に異なる、テキスト
からスピーチへの変換及びスピーチ合成の応用物に利用
できる。それらは、教科書読書応用の様な大きな領域の
応用物、及び自動車走行あるいはフレーズ本翻訳応用の
様なより制限された応用を含む。この制限された領域の
場合には、固定された、フレーム文の小さな集合を前も
って取り上げておき、それらの文における目標単語を、
任意の単語(例えば街路の名前のような固有名詞)によ
って置き換えることができる。この場合には、フレーム
文に対するピッチとタイミングは実際のスピーチから測
定し、格納し、これらの文の大部分において非常に自然
な韻律を保証する。それから、置き換えられた目標単語
のみに対して、本発明の韻律テンプレートを用いて、ピ
ッチタイミングの制御をすればよい。
からスピーチへの変換及びスピーチ合成の応用物に利用
できる。それらは、教科書読書応用の様な大きな領域の
応用物、及び自動車走行あるいはフレーズ本翻訳応用の
様なより制限された応用を含む。この制限された領域の
場合には、固定された、フレーム文の小さな集合を前も
って取り上げておき、それらの文における目標単語を、
任意の単語(例えば街路の名前のような固有名詞)によ
って置き換えることができる。この場合には、フレーム
文に対するピッチとタイミングは実際のスピーチから測
定し、格納し、これらの文の大部分において非常に自然
な韻律を保証する。それから、置き換えられた目標単語
のみに対して、本発明の韻律テンプレートを用いて、ピ
ッチタイミングの制御をすればよい。
【0038】本発明は好ましい実施例について説明した
が、本発明は、添付の請求項目において表明されている
本発明の精神からはずれることなく、変更を加えること
ができるものと理解されるべきである。
が、本発明は、添付の請求項目において表明されている
本発明の精神からはずれることなく、変更を加えること
ができるものと理解されるべきである。
【図1】 本発明に関わる、韻律プレートを用いるスピ
ーチシンセサイザのブロック図。
ーチシンセサイザのブロック図。
【図2A】 韻律テンプレートが開発される方法を図解
するブロック図。
するブロック図。
【図2B】 韻律テンプレートが開発される方法を図解
するブロック図。
するブロック図。
【図3】 例示的な強勢パターンに関する分布プロット
図。
図。
【図4】 図3の強勢パターンに対する平均F0輪郭の
グラフ。
グラフ。
【図5】 例示的な二音節及び三音節データに対する平
均輪郭を図解する一連のグラフ。
均輪郭を図解する一連のグラフ。
【図6】 好ましい実施例に用いる非正規化手続きを図
解するフローチャート。
解するフローチャート。
【図7】 好ましい実施例におけるデータベース内の項
目間の関係を示すデータベースの構造図。
目間の関係を示すデータベースの構造図。
10 入力テキスト 12 テキ
スト処理部 14 単語辞書 18 韻律
モジュール 20 韻律テンプレートデータベース 22 強勢
パターン 24 音生成モジュール
スト処理部 14 単語辞書 18 韻律
モジュール 20 韻律テンプレートデータベース 22 強勢
パターン 24 音生成モジュール
Claims (1)
- 【請求項1】 入力単語のテキストから合成スピーチを
生成するための装置であって、 複数の格納された単語についての情報を含む単語辞書で
あって、前記情報が前記格納された単語の各々に対応す
る強勢パターンを特定する辞書と、 前記入力単語の音素表現を生成し、前記単語辞書を用い
て前記入力単語の強勢パターンを特定するテキスト処理
部と、 韻律情報を含むテンプレートのデータベースを持つ韻律
モジュールであって、前記データベースがいくつかの音
節と一つの強勢パターンを特定することによってアクセ
スされるものであって、更に、前記韻律モジュールが、
前記特定されたいくつかの音節と強勢パターンを用いて
前記データベースをアクセスし、それによって前記テン
プレートの一つを選択し、この選択されたテンプレート
を、前記入力単語の各々に適用する韻律モジュールと、 前記音素表現と前記韻律情報に基づいて合成スピーチを
生成する音生成モジュールとから構成してなる装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/200027 | 1998-11-25 | ||
US09/200,027 US6260016B1 (en) | 1998-11-25 | 1998-11-25 | Speech synthesis employing prosody templates |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000172288A true JP2000172288A (ja) | 2000-06-23 |
Family
ID=22740012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11332642A Pending JP2000172288A (ja) | 1998-11-25 | 1999-11-24 | 韻律テンプレ―トを用いるスピ―チ合成 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6260016B1 (ja) |
EP (1) | EP1005018B1 (ja) |
JP (1) | JP2000172288A (ja) |
DE (1) | DE69917415T2 (ja) |
ES (1) | ES2218959T3 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009518663A (ja) * | 2005-12-05 | 2009-05-07 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | エコー検出 |
Families Citing this family (160)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7076426B1 (en) * | 1998-01-30 | 2006-07-11 | At&T Corp. | Advance TTS for facial animation |
JP3361066B2 (ja) * | 1998-11-30 | 2003-01-07 | 松下電器産業株式会社 | 音声合成方法および装置 |
US6185533B1 (en) * | 1999-03-15 | 2001-02-06 | Matsushita Electric Industrial Co., Ltd. | Generation and synthesis of prosody templates |
CN1168068C (zh) * | 1999-03-25 | 2004-09-22 | 松下电器产业株式会社 | 语音合成系统与语音合成方法 |
US6981155B1 (en) * | 1999-07-14 | 2005-12-27 | Symantec Corporation | System and method for computer security |
US7117532B1 (en) * | 1999-07-14 | 2006-10-03 | Symantec Corporation | System and method for generating fictitious content for a computer |
AU6218800A (en) * | 1999-07-14 | 2001-01-30 | Recourse Technologies, Inc. | System and method for quickly authenticating messages using sequence numbers |
JP3361291B2 (ja) * | 1999-07-23 | 2003-01-07 | コナミ株式会社 | 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
US7203962B1 (en) | 1999-08-30 | 2007-04-10 | Symantec Corporation | System and method for using timestamps to detect attacks |
US6496801B1 (en) * | 1999-11-02 | 2002-12-17 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words |
US7386450B1 (en) * | 1999-12-14 | 2008-06-10 | International Business Machines Corporation | Generating multimedia information from text information using customized dictionaries |
JP4465768B2 (ja) * | 1999-12-28 | 2010-05-19 | ソニー株式会社 | 音声合成装置および方法、並びに記録媒体 |
US6785649B1 (en) * | 1999-12-29 | 2004-08-31 | International Business Machines Corporation | Text formatting from speech |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6542867B1 (en) * | 2000-03-28 | 2003-04-01 | Matsushita Electric Industrial Co., Ltd. | Speech duration processing method and apparatus for Chinese text-to-speech system |
US6845358B2 (en) * | 2001-01-05 | 2005-01-18 | Matsushita Electric Industrial Co., Ltd. | Prosody template matching for text-to-speech systems |
JP2002244688A (ja) * | 2001-02-15 | 2002-08-30 | Sony Computer Entertainment Inc | 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム |
US6513008B2 (en) * | 2001-03-15 | 2003-01-28 | Matsushita Electric Industrial Co., Ltd. | Method and tool for customization of speech synthesizer databases using hierarchical generalized speech templates |
JP4680429B2 (ja) * | 2001-06-26 | 2011-05-11 | Okiセミコンダクタ株式会社 | テキスト音声変換装置における高速読上げ制御方法 |
CN1234109C (zh) * | 2001-08-22 | 2005-12-28 | 国际商业机器公司 | 语调生成方法、语音合成装置、语音合成方法及语音服务器 |
US6810378B2 (en) * | 2001-08-22 | 2004-10-26 | Lucent Technologies Inc. | Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech |
US7024362B2 (en) * | 2002-02-11 | 2006-04-04 | Microsoft Corporation | Objective measure for estimating mean opinion score of synthesized speech |
US20040198471A1 (en) * | 2002-04-25 | 2004-10-07 | Douglas Deeds | Terminal output generated according to a predetermined mnemonic code |
US20030202683A1 (en) * | 2002-04-30 | 2003-10-30 | Yue Ma | Vehicle navigation system that automatically translates roadside signs and objects |
US7200557B2 (en) * | 2002-11-27 | 2007-04-03 | Microsoft Corporation | Method of reducing index sizes used to represent spectral content vectors |
US6961704B1 (en) * | 2003-01-31 | 2005-11-01 | Speechworks International, Inc. | Linguistic prosodic model-based text to speech |
US6988069B2 (en) * | 2003-01-31 | 2006-01-17 | Speechworks International, Inc. | Reduced unit database generation based on cost information |
US7308407B2 (en) * | 2003-03-03 | 2007-12-11 | International Business Machines Corporation | Method and system for generating natural sounding concatenative synthetic speech |
US7386451B2 (en) * | 2003-09-11 | 2008-06-10 | Microsoft Corporation | Optimization of an objective measure for estimating mean opinion score of synthesized speech |
JP2006309162A (ja) * | 2005-03-29 | 2006-11-09 | Toshiba Corp | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム |
US20060229877A1 (en) * | 2005-04-06 | 2006-10-12 | Jilei Tian | Memory usage in a text-to-speech system |
JP4738057B2 (ja) * | 2005-05-24 | 2011-08-03 | 株式会社東芝 | ピッチパターン生成方法及びその装置 |
JP2007024960A (ja) * | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | システム、プログラムおよび制御方法 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
KR100744288B1 (ko) * | 2005-12-28 | 2007-07-30 | 삼성전자주식회사 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7996222B2 (en) * | 2006-09-29 | 2011-08-09 | Nokia Corporation | Prosody conversion |
JP2008134475A (ja) * | 2006-11-28 | 2008-06-12 | Internatl Business Mach Corp <Ibm> | 入力された音声のアクセントを認識する技術 |
US8135590B2 (en) * | 2007-01-11 | 2012-03-13 | Microsoft Corporation | Position-dependent phonetic models for reliable pronunciation identification |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
EP2188729A1 (en) * | 2007-08-08 | 2010-05-26 | Lessac Technologies, Inc. | System-effected text annotation for expressive prosody in speech synthesis and recognition |
JP2009047957A (ja) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | ピッチパターン生成方法及びその装置 |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
CN101814288B (zh) * | 2009-02-20 | 2012-10-03 | 富士通株式会社 | 使语音合成时长模型自适应的方法和设备 |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110066438A1 (en) * | 2009-09-15 | 2011-03-17 | Apple Inc. | Contextual voiceover |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8731931B2 (en) | 2010-06-18 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for unit selection text-to-speech using a modified Viterbi approach |
US8965768B2 (en) * | 2010-08-06 | 2015-02-24 | At&T Intellectual Property I, L.P. | System and method for automatic detection of abnormal stress patterns in unit selection synthesis |
TWI413104B (zh) * | 2010-12-22 | 2013-10-21 | Ind Tech Res Inst | 可調控式韻律重估測系統與方法及電腦程式產品 |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9286886B2 (en) * | 2011-01-24 | 2016-03-15 | Nuance Communications, Inc. | Methods and apparatus for predicting prosody in speech synthesis |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US9928832B2 (en) * | 2013-12-16 | 2018-03-27 | Sri International | Method and apparatus for classifying lexical stress |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9685169B2 (en) * | 2015-04-15 | 2017-06-20 | International Business Machines Corporation | Coherent pitch and intensity modification of speech signals |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5636325A (en) * | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
US5796916A (en) | 1993-01-21 | 1998-08-18 | Apple Computer, Inc. | Method and apparatus for prosody for synthetic speech prosody determination |
CA2119397C (en) | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US5642520A (en) | 1993-12-07 | 1997-06-24 | Nippon Telegraph And Telephone Corporation | Method and apparatus for recognizing topic structure of language data |
US5592585A (en) | 1995-01-26 | 1997-01-07 | Lernout & Hauspie Speech Products N.C. | Method for electronically generating a spoken message |
US5696879A (en) | 1995-05-31 | 1997-12-09 | International Business Machines Corporation | Method and apparatus for improved voice transmission |
US5704009A (en) | 1995-06-30 | 1997-12-30 | International Business Machines Corporation | Method and apparatus for transmitting a voice sample to a voice activated data processing system |
US5729694A (en) | 1996-02-06 | 1998-03-17 | The Regents Of The University Of California | Speech coding, reconstruction and recognition using acoustics and electromagnetic waves |
US5850629A (en) * | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
US5878393A (en) * | 1996-09-09 | 1999-03-02 | Matsushita Electric Industrial Co., Ltd. | High quality concatenative reading system |
US5905972A (en) | 1996-09-30 | 1999-05-18 | Microsoft Corporation | Prosodic databases holding fundamental frequency templates for use in speech synthesis |
US5924068A (en) * | 1997-02-04 | 1999-07-13 | Matsushita Electric Industrial Co. Ltd. | Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion |
US5966691A (en) * | 1997-04-29 | 1999-10-12 | Matsushita Electric Industrial Co., Ltd. | Message assembler using pseudo randomly chosen words in finite state slots |
-
1998
- 1998-11-25 US US09/200,027 patent/US6260016B1/en not_active Expired - Lifetime
-
1999
- 1999-11-22 EP EP99309292A patent/EP1005018B1/en not_active Expired - Lifetime
- 1999-11-22 ES ES99309292T patent/ES2218959T3/es not_active Expired - Lifetime
- 1999-11-22 DE DE69917415T patent/DE69917415T2/de not_active Expired - Fee Related
- 1999-11-24 JP JP11332642A patent/JP2000172288A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009518663A (ja) * | 2005-12-05 | 2009-05-07 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | エコー検出 |
Also Published As
Publication number | Publication date |
---|---|
DE69917415T2 (de) | 2005-06-02 |
ES2218959T3 (es) | 2004-11-16 |
EP1005018A3 (en) | 2001-02-07 |
US6260016B1 (en) | 2001-07-10 |
DE69917415D1 (de) | 2004-06-24 |
EP1005018A2 (en) | 2000-05-31 |
EP1005018B1 (en) | 2004-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2000172288A (ja) | 韻律テンプレ―トを用いるスピ―チ合成 | |
US6185533B1 (en) | Generation and synthesis of prosody templates | |
Johns-Lewis | Intonation in discourse | |
Terken et al. | The perception of prosodic prominence | |
Taylor | Analysis and synthesis of intonation using the tilt model | |
Chu et al. | Locating boundaries for prosodic constituents in unrestricted Mandarin texts | |
AU2285095A (en) | Computer system and computer-implemented process for phonology-based automatic speech recognition | |
Chodroff et al. | Testing the distinctiveness of intonational tunes: Evidence from imitative productions in American English | |
Chomphan et al. | Tone correctness improvement in speaker dependent HMM-based Thai speech synthesis | |
Chomphan et al. | Tone correctness improvement in speaker-independent average-voice-based Thai speech synthesis | |
German | Dialect adaptation and two dimensions of tune | |
Seppänen et al. | MediaTeam speech corpus: a first large Finnish emotional speech database | |
Gwizdzinski et al. | Perceptual identification of oral and nasalized vowels across American English and British English listeners and TTS voices | |
Gu et al. | Analysis of tones in Cantonese speech based on the command-response model | |
Chu et al. | Modeling stylized invariance and local variability of prosody in text-to-speech synthesis | |
Chen et al. | A Mandarin Text-to-Speech System | |
Maia et al. | An HMM-based Brazilian Portuguese speech synthesizer and its characteristics | |
Ekpenyong et al. | Unsupervised visualization of Under-resourced speech prosody | |
Pedone et al. | Phoneme-level text to audio synchronization on speech signals with background music | |
Imam et al. | The Computation of Assimilation of Arabic Language Phonemes | |
Gogoi et al. | Analysing word stress and its effects on assamese and mizo using machine learning | |
JPH09146576A (ja) | 原文対音声の人工的神経回路網にもとづく韻律の合成装置 | |
Rao | Modeling supra-segmental features of syllables using neural networks | |
Rasmussen | A Comparative Tone Analysis of Several Bantu D30 Languages (DR Congo) | |
Gu et al. | Model spectrum-progression with DTW and ANN for speech synthesis |