JP3294604B2 - 波形の加算重畳による音声合成のための処理装置 - Google Patents
波形の加算重畳による音声合成のための処理装置Info
- Publication number
- JP3294604B2 JP3294604B2 JP50962189A JP50962189A JP3294604B2 JP 3294604 B2 JP3294604 B2 JP 3294604B2 JP 50962189 A JP50962189 A JP 50962189A JP 50962189 A JP50962189 A JP 50962189A JP 3294604 B2 JP3294604 B2 JP 3294604B2
- Authority
- JP
- Japan
- Prior art keywords
- diphone
- window
- phoneme
- synthesis
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003786 synthesis reaction Methods 0.000 title claims description 36
- 230000015572 biosynthetic process Effects 0.000 title claims description 34
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 claims description 36
- 238000000034 method Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 10
- 230000001755 vocal effect Effects 0.000 claims description 9
- 210000001260 vocal cord Anatomy 0.000 claims description 4
- 230000000638 stimulation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims 5
- 238000001308 synthesis method Methods 0.000 claims 4
- 230000007423 decrease Effects 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 238000001228 spectrum Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000007792 addition Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000005428 wave function Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000003936 working memory Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Description
【発明の詳細な説明】 この発明は音声合成の方法および装置に関する。より
特定的には、この発明は、合成されるべきテキストを、
対応する音エレメントの順位数および韻律素のパラメー
タ(音エレメントの始まりと終りでの音の高さおよび音
エレメントの持続時間に関する情報)により各々識別さ
れるマイクロフレームへ細分化し、それから加算重畳基
準による音エレメントの適合および連結により音エレメ
ントの辞書から合成することに関する。
特定的には、この発明は、合成されるべきテキストを、
対応する音エレメントの順位数および韻律素のパラメー
タ(音エレメントの始まりと終りでの音の高さおよび音
エレメントの持続時間に関する情報)により各々識別さ
れるマイクロフレームへ細分化し、それから加算重畳基
準による音エレメントの適合および連結により音エレメ
ントの辞書から合成することに関する。
辞書に記憶された音エレメントまたは原形はしばしば
ダイフォン、すなわち音素間の遷移であり、それはフラ
ンス語では約1300個の音エレメントの辞書にすることが
可能である。しかしながら、たとえば音節または単語と
いった異なる音エレメントは使用されてもよい。韻律素
のパラメータは文脈に関する標準の関数として決定され
る。イントネーションに対応する音声の高さは単語およ
び文章における音エレメントの位置に依存し、かつ音エ
レメントに与えられる持続時間は文章のリズムに依存す
る。
ダイフォン、すなわち音素間の遷移であり、それはフラ
ンス語では約1300個の音エレメントの辞書にすることが
可能である。しかしながら、たとえば音節または単語と
いった異なる音エレメントは使用されてもよい。韻律素
のパラメータは文脈に関する標準の関数として決定され
る。イントネーションに対応する音声の高さは単語およ
び文章における音エレメントの位置に依存し、かつ音エ
レメントに与えられる持続時間は文章のリズムに依存す
る。
音声合成の方法は2つのグループに分けられることに
留意されたい。声道の数学的モデル(線形予測合成、フ
ォルマント合成および高速フーリエ変換合成)を使用す
るものは音声のデコンボルーションおよび声道の伝達関
数のデコンボルーションに依存し、かつ一般的にはデジ
タル・アナログ変換および修復の前に音声のデジタルサ
ンプルごとに約50の算術動作を必要とする。
留意されたい。声道の数学的モデル(線形予測合成、フ
ォルマント合成および高速フーリエ変換合成)を使用す
るものは音声のデコンボルーションおよび声道の伝達関
数のデコンボルーションに依存し、かつ一般的にはデジ
タル・アナログ変換および修復の前に音声のデジタルサ
ンプルごとに約50の算術動作を必要とする。
ソース−音声管のデコンボルーションにより有声音の
基本周波数の値を修正することが可能で、すなわちそれ
ら音声は倍音構造を有しかつ声帯の振動および音声信号
を表わすデータの圧縮により引起される。
基本周波数の値を修正することが可能で、すなわちそれ
ら音声は倍音構造を有しかつ声帯の振動および音声信号
を表わすデータの圧縮により引起される。
第2のグループの方法に属するものは波形の連結によ
る時間領域合成を使用する。この解決は使用における融
通性の利点と、サンプル当りの算術動作の数をかなり減
らす可能性とを有する。他方、数学的モデルに基づく方
法の場合と同じだけの伝送に必要とされるフローレート
を減じることは不可能である。しかしながら、良好な修
復品質が本質的であり、かつ狭いチャネルを介してデー
タを伝送する必要がない場合はこの欠点は存在しない。
る時間領域合成を使用する。この解決は使用における融
通性の利点と、サンプル当りの算術動作の数をかなり減
らす可能性とを有する。他方、数学的モデルに基づく方
法の場合と同じだけの伝送に必要とされるフローレート
を減じることは不可能である。しかしながら、良好な修
復品質が本質的であり、かつ狭いチャネルを介してデー
タを伝送する必要がない場合はこの欠点は存在しない。
この発明に従う音声合成は第2のグループに属する。
それは綴字法の連鎖(たとえばプリンタにより伝達され
るテキストにより形成される)を、たとえば修復され、
直接伝達され、または通常の電話線を介して伝送される
音声信号へ変換する分野で特に重要な応用を見出す。
それは綴字法の連鎖(たとえばプリンタにより伝達され
るテキストにより形成される)を、たとえば修復され、
直接伝達され、または通常の電話線を介して伝送される
音声信号へ変換する分野で特に重要な応用を見出す。
短期間信号加算重畳技術を使用する音エレメントから
の音声合成方法は知られている(音声波形連結のための
重畳加算技術を使用するダイフォン合成、シャルパンテ
ィエ(Charpentier)他による、ICASSP1986年,音響音
声および信号処理に関するIEEE−IECEJ−ASJ国際会議,2
015頁−2018頁参照)。しかしながら、それは大変複雑
な以下の手順により得られる、合成窓の重畳の標準化を
伴う短期間合成信号に関する。
の音声合成方法は知られている(音声波形連結のための
重畳加算技術を使用するダイフォン合成、シャルパンテ
ィエ(Charpentier)他による、ICASSP1986年,音響音
声および信号処理に関するIEEE−IECEJ−ASJ国際会議,2
015頁−2018頁参照)。しかしながら、それは大変複雑
な以下の手順により得られる、合成窓の重畳の標準化を
伴う短期間合成信号に関する。
−有声化の同期窓かけによる原信号の分析、 −短期間信号のフーリエ変換、 −エンベロープ検知、 −音源のスペクトル上の周波数軸のホモセティック(ho
methetic)変換、 −原信号のエンベロープによる修正された源スペクトル
の重み付け、 −逆フーリエ変換。
methetic)変換、 −原信号のエンベロープによる修正された源スペクトル
の重み付け、 −逆フーリエ変換。
この発明の主たる目的は、音声の許容できる再生を可
能にする比較的単純な方法を提供することである。それ
は有声音がディラック(Dirac)連続、すなわち、スペ
クトルフィールドに倍音スペクトルを生じる音源、すな
わち音声の基本周波数と同期的に「パルス コーム」
(pulse comb)により励起された、(声道に対応して)
数ミリ秒の間静止する、フィルタのインパルス応答の総
和として考慮されてもよいという仮定から始まり、当該
倍音は基本周波数から離れてスペース決めされかつ声道
の伝達関数に依存して、フォルマントと呼ばれる最大値
を有するエンベロープによって重み付けされる。
能にする比較的単純な方法を提供することである。それ
は有声音がディラック(Dirac)連続、すなわち、スペ
クトルフィールドに倍音スペクトルを生じる音源、すな
わち音声の基本周波数と同期的に「パルス コーム」
(pulse comb)により励起された、(声道に対応して)
数ミリ秒の間静止する、フィルタのインパルス応答の総
和として考慮されてもよいという仮定から始まり、当該
倍音は基本周波数から離れてスペース決めされかつ声道
の伝達関数に依存して、フォルマントと呼ばれる最大値
を有するエンベロープによって重み付けされる。
有声音の基本周波数の低減は、それが韻律素のデータ
に応じるために必要とされるとき、0の挿入によって行
なわれ、記憶されたマイクロ音素は修復されるべき音声
の最大の可能な高さに義務的に応答しなければならない
か、または0の挿入により同様に基本周波数を低減しか
つ各周期の大きさを低減することによりそれを増大しな
ければならない(米国特許第4692941号)ことが、既に
提案されている(ラックスウイック(Lackszewic)他に
よる、音声合成のマイクロ音素法、ICASSP1987年,IEEE1
426頁−1429頁参照)。これら2つの方法は基本周波数
の修正の間に少なくない歪みを音声信号に導入する。
に応じるために必要とされるとき、0の挿入によって行
なわれ、記憶されたマイクロ音素は修復されるべき音声
の最大の可能な高さに義務的に応答しなければならない
か、または0の挿入により同様に基本周波数を低減しか
つ各周期の大きさを低減することによりそれを増大しな
ければならない(米国特許第4692941号)ことが、既に
提案されている(ラックスウイック(Lackszewic)他に
よる、音声合成のマイクロ音素法、ICASSP1987年,IEEE1
426頁−1429頁参照)。これら2つの方法は基本周波数
の修正の間に少なくない歪みを音声信号に導入する。
この発明の目的は上記の制限を伴わずかつ良品質の音
声を供給することが可能で、かつわずかな量の算術計算
しか必要としない波形の連結を有する合成の方法と装置
を提供することである。
声を供給することが可能で、かつわずかな量の算術計算
しか必要としない波形の連結を有する合成の方法と装置
を提供することである。
このために、この発明は下記のとおり特徴付けられる
方法を特に提案する。
方法を特に提案する。
−少なくとも音エレメントの有声音に関して、声帯の刺
激に対する声道の各パルス応答の始まりを中心にして窓
かけが行なわれ(この始まりはおそらくは辞書内に記憶
される)、窓は前記始まりのための最大値を有しかつ振
幅は窓の端縁で0にまで減少し、 −各音エレメントに対応する窓かけされた信号が、基本
周波数の韻律素の高さ情報に依存して原基本周期とは異
なる、得られるべき基本合成周期に等しい時間シフトだ
け移動されかつその信号が総和される。
激に対する声道の各パルス応答の始まりを中心にして窓
かけが行なわれ(この始まりはおそらくは辞書内に記憶
される)、窓は前記始まりのための最大値を有しかつ振
幅は窓の端縁で0にまで減少し、 −各音エレメントに対応する窓かけされた信号が、基本
周波数の韻律素の高さ情報に依存して原基本周期とは異
なる、得られるべき基本合成周期に等しい時間シフトだ
け移動されかつその信号が総和される。
これらの動作は音声信号の窓かけにより得られる基本
波形に適用される重畳加算手順を形成する。
波形に適用される重畳加算手順を形成する。
一般的には、ダイフォンで合成される音エレメントが
使用される。
使用される。
窓の幅は、原周期の2倍と異なる値で変化し得る。以
下に記載される実施例では、窓の幅は基本周期を増大さ
せる場合には原周期の約2倍に等しく、または、基本周
波数を増大させる場合には最終の合成周期の約2倍に等
しく有利に選択され、したがって合成デジタル信号のサ
ンプルの振幅への各窓の貢献を考慮する可能なエネルギ
の標準化によって補われない、基本周波数の変化による
エネルギの修正を部分的に補償する。基本周期の低減の
場合には、窓の幅は、したがって、原基本周期の2倍よ
り小さくなる。この値を下回ることは好ましくない。
下に記載される実施例では、窓の幅は基本周期を増大さ
せる場合には原周期の約2倍に等しく、または、基本周
波数を増大させる場合には最終の合成周期の約2倍に等
しく有利に選択され、したがって合成デジタル信号のサ
ンプルの振幅への各窓の貢献を考慮する可能なエネルギ
の標準化によって補われない、基本周波数の変化による
エネルギの修正を部分的に補償する。基本周期の低減の
場合には、窓の幅は、したがって、原基本周期の2倍よ
り小さくなる。この値を下回ることは好ましくない。
両方向に基本周波数の値を修正することができるの
で、ダイフォンはスピーカの自然な基本周波数で記憶さ
れる。
で、ダイフォンはスピーカの自然な基本周波数で記憶さ
れる。
「有声」の場合、2つの連続的な基本周期に等しい持
続時間を有する窓ではそのスペクトルが音声信号スペク
トルまたは広域短期間スペクトルのエンベロープを表わ
す基本波形が得られる。というのはこのスペクトルは音
声信号の倍音スペクトルおよび窓の周波数応答のコンボ
ルーションにより得られ、それはこの場合には倍音間の
距離より大きい帯域を有する。これら基本波形の時間再
分布は倍音距離の間の修正された距離ではなく原信号と
同じエンベロープを実質的に有する信号を与える。
続時間を有する窓ではそのスペクトルが音声信号スペク
トルまたは広域短期間スペクトルのエンベロープを表わ
す基本波形が得られる。というのはこのスペクトルは音
声信号の倍音スペクトルおよび窓の周波数応答のコンボ
ルーションにより得られ、それはこの場合には倍音間の
距離より大きい帯域を有する。これら基本波形の時間再
分布は倍音距離の間の修正された距離ではなく原信号と
同じエンベロープを実質的に有する信号を与える。
窓が2つの基本周期より大きい持続時間を有する場
合、そのスペクトルが依然として倍音または狭域短期間
スペクトルである基本波形が得られる。というのはその
場合は窓の周波数応答は倍音の距離よりも狭いからであ
る。これら基本波形の時間再分布は前述の合成信号のよ
うに、残響期間が導入される場合を除いては、原信号と
実質的に同じエンベロープを有する信号(そのスペクト
ルがより低い振幅で異なる位相の、しかし原信号の振幅
スペクトルと同じ形を有する信号)を与え、その効果は
約3つの周期の窓幅を超える場合にのみ可聴で、この再
反響の効果はその振幅が低いときには合成信号の品質を
劣化させない。
合、そのスペクトルが依然として倍音または狭域短期間
スペクトルである基本波形が得られる。というのはその
場合は窓の周波数応答は倍音の距離よりも狭いからであ
る。これら基本波形の時間再分布は前述の合成信号のよ
うに、残響期間が導入される場合を除いては、原信号と
実質的に同じエンベロープを有する信号(そのスペクト
ルがより低い振幅で異なる位相の、しかし原信号の振幅
スペクトルと同じ形を有する信号)を与え、その効果は
約3つの周期の窓幅を超える場合にのみ可聴で、この再
反響の効果はその振幅が低いときには合成信号の品質を
劣化させない。
典型的にはハニング窓が使用され得るが、他の形式の
窓もまた許容される。
窓もまた許容される。
上記に定義される処理はまたその形式が白色雑音の形
式に関連し、しかしながら窓をかけられた信号の同期化
を伴わない信号により表わされ得る、いわゆる「無声
音」または非有声音にも適用され得る。これは、一方で
は音エレメント(ダイフォン)の間ならびに無声および
有声の音素の間を滑らかにし、かつ他方ではリズムの修
正を可能にする、無声音と有声音の処理を均質化するた
めである。ダイフォンの間の接合において問題が生じ
る。この困難を克服する解決はダイフォンの間の2つの
近接する基本遷移周期からの基本波形の抽出を省略する
ことにある(無声音の場合には、有声化マークは任意に
配置されたマークにより置き換えられる)、ダイフォン
の各側で抽出された2つの基本波動関数の手段を計算す
ることにより第3の基本波動関数を規定することまたは
これら2つの基本波動関数に直接加算重畳手続きを使用
することのいずれかが可能になる。
式に関連し、しかしながら窓をかけられた信号の同期化
を伴わない信号により表わされ得る、いわゆる「無声
音」または非有声音にも適用され得る。これは、一方で
は音エレメント(ダイフォン)の間ならびに無声および
有声の音素の間を滑らかにし、かつ他方ではリズムの修
正を可能にする、無声音と有声音の処理を均質化するた
めである。ダイフォンの間の接合において問題が生じ
る。この困難を克服する解決はダイフォンの間の2つの
近接する基本遷移周期からの基本波形の抽出を省略する
ことにある(無声音の場合には、有声化マークは任意に
配置されたマークにより置き換えられる)、ダイフォン
の各側で抽出された2つの基本波動関数の手段を計算す
ることにより第3の基本波動関数を規定することまたは
これら2つの基本波動関数に直接加算重畳手続きを使用
することのいずれかが可能になる。
この発明は以下の実施例の記載によりよりよく理解さ
れるであろうが、この発明はこの実施例に限られるもの
ではない。
れるであろうが、この発明はこの実施例に限られるもの
ではない。
第1図はこの発明による、時間領域でのダイフォンの
連結および韻律素のパラメータの修正による音声合成を
示すグラフである。
連結および韻律素のパラメータの修正による音声合成を
示すグラフである。
第2図はホストコンピュータに組込まれる合成装置の
可能な構成を示すブロック図である。
可能な構成を示すブロック図である。
第3図は特定の音素の事例において、自然な信号の韻
律素のパラメータがいかに修正されるかを例により示
す。
律素のパラメータがいかに修正されるかを例により示
す。
第4A図、第4B図および第4C図は有声合成信号に対しな
されるスペクトルの修正を示し、第4A図は原スペクトル
を示し、第4B図は基本周波数の低減を伴うスペクトルを
示しかつ第4C図はこの周波数の増大を伴うスペクトルを
示す。
されるスペクトルの修正を示し、第4A図は原スペクトル
を示し、第4B図は基本周波数の低減を伴うスペクトルを
示しかつ第4C図はこの周波数の増大を伴うスペクトルを
示す。
第5図はダイフォンの間の不連続を低減する原則を示
すグラフである。
すグラフである。
第6図は2周期を上回る周期にわたって窓かけを示す
図である。
図である。
音素の合成は辞書に記憶される2つのダイフォンから
行なわれ、各音素は2つの半ダイフォンから形成され
る。たとえば、「priode」の中の音声「」は「pa
i」の第2の半ダイフォンから、および「air」の第1の
半ダイフォンから得られるであろう。
行なわれ、各音素は2つの半ダイフォンから形成され
る。たとえば、「priode」の中の音声「」は「pa
i」の第2の半ダイフォンから、および「air」の第1の
半ダイフォンから得られるであろう。
韻律素の綴字法音声翻訳および計算のためのモジュー
ル(これはこの発明の一部を形成しない)は、所与の時
間に次のもの、すなわち 順序Pの修復されるべき音素 順序P−1の先行する音素 順序P+1の次の音素 を識別し、始端周期および終端周期と同じく音素Pに割
当てられる持続時間を与えるデータを伝える(第1
図)。
ル(これはこの発明の一部を形成しない)は、所与の時
間に次のもの、すなわち 順序Pの修復されるべき音素 順序P−1の先行する音素 順序P+1の次の音素 を識別し、始端周期および終端周期と同じく音素Pに割
当てられる持続時間を与えるデータを伝える(第1
図)。
この発明により修正されない第1の分析動作は、使用
される音素に選択される2つのダイフォンを決めるこ
と、ならびに音素の名前および韻律素の表示をデコード
することにより有声化することにある。
される音素に選択される2つのダイフォンを決めるこ
と、ならびに音素の名前および韻律素の表示をデコード
することにより有声化することにある。
すべての使用可能な音素(たとえば数で1300)は、辞
書10に記憶され、この辞書10は、記述子12を形成し、か
つ各ダイフォンの始めのアドレス(256バイトのブロッ
ク数で)、ダイフォンの長さおよびダイフォンのまん中
(最後の2つのパラメータは始めからサンプルの数とし
て表現される)、ならびに有声音の場合の声帯の刺激に
対する声道の反応の始めを示す有声化マーク(たとえば
数で35)を含むテーブルを有する。ダイフォン辞書はた
とえば国立テレコミニュケーション研究センター(Cent
re National d'Etudes des Telecommunication)から入
手可能であるような標準に従う。
書10に記憶され、この辞書10は、記述子12を形成し、か
つ各ダイフォンの始めのアドレス(256バイトのブロッ
ク数で)、ダイフォンの長さおよびダイフォンのまん中
(最後の2つのパラメータは始めからサンプルの数とし
て表現される)、ならびに有声音の場合の声帯の刺激に
対する声道の反応の始めを示す有声化マーク(たとえば
数で35)を含むテーブルを有する。ダイフォン辞書はた
とえば国立テレコミニュケーション研究センター(Cent
re National d'Etudes des Telecommunication)から入
手可能であるような標準に従う。
ダイフォンはその後第1図に概略的に図示される分析
および合成処理で使用される。このプロセスは、それが
たとえばパーソナルコンピュータの中央処理装置のよう
なホストコンピュータに接続されるように意図される、
第2図に図示される構成を有する合成装置において使用
されるということを仮定して記述されるであろう。ダイ
フォンの表現を与えるサンプリング周波数は16kHzであ
るとまた想定されるであろう。
および合成処理で使用される。このプロセスは、それが
たとえばパーソナルコンピュータの中央処理装置のよう
なホストコンピュータに接続されるように意図される、
第2図に図示される構成を有する合成装置において使用
されるということを仮定して記述されるであろう。ダイ
フォンの表現を与えるサンプリング周波数は16kHzであ
るとまた想定されるであろう。
合成装置(第2図)はメインランダムアクセスメモリ
16を含み、このメモリ16は計算マイクロプログラム、記
述子のアドレスの順序で記憶されるダイフォン辞書10
(すなわちサンプルにより表わされる波形)、辞書記述
子を形成するテーブル12、および、たとえば500点以上
でサンプリングされるハニング窓を含む。ランダムアク
セスメモリ16はまたマイクロフレームメモリおよびワー
キングメモリを形成する。それはデータバス18およびア
ドレスバス20によりホストコンピュータのポート22に接
続される。
16を含み、このメモリ16は計算マイクロプログラム、記
述子のアドレスの順序で記憶されるダイフォン辞書10
(すなわちサンプルにより表わされる波形)、辞書記述
子を形成するテーブル12、および、たとえば500点以上
でサンプリングされるハニング窓を含む。ランダムアク
セスメモリ16はまたマイクロフレームメモリおよびワー
キングメモリを形成する。それはデータバス18およびア
ドレスバス20によりホストコンピュータのポート22に接
続される。
音素を修復するために発せられる各マイクロフレーム
(第2図)は、干渉し合う2つの音素PおよびP+1の
各々について、 音素の通し番号、 音素の始端周期の値、 音素の終端周期の値、および 第2の音素のためのダイフォンの持続時間により置換
されてもよい、音素の合計の持続時間からなる。
(第2図)は、干渉し合う2つの音素PおよびP+1の
各々について、 音素の通し番号、 音素の始端周期の値、 音素の終端周期の値、および 第2の音素のためのダイフォンの持続時間により置換
されてもよい、音素の合計の持続時間からなる。
装置はさらにバス18および20に接続される、ローカル
計算ユニット24および経路選択回路26を含む。経路選択
回路26は出力バッファとして役立つランダムアクセスメ
モリ28をコンピュータかまたは出力デジタルアナログコ
ンバータ32の制御器30へ接続することを可能にする。コ
ンバータ32は、慨して、8kHzに制限される低域フィルタ
34を駆動し、それは音声増幅器36を駆動する。
計算ユニット24および経路選択回路26を含む。経路選択
回路26は出力バッファとして役立つランダムアクセスメ
モリ28をコンピュータかまたは出力デジタルアナログコ
ンバータ32の制御器30へ接続することを可能にする。コ
ンバータ32は、慨して、8kHzに制限される低域フィルタ
34を駆動し、それは音声増幅器36を駆動する。
装置の動作は次のとおりである。
ホストコンピュータ(図示せず)はポート22ならびに
バス18および20を介してメモリ16に保有されるテーブル
の中のマイクロフレームをロードし、その後それは計算
ユニット24による合成を開始させる。この計算ユニット
24は、1に初期設定されたワーキングメモリに記憶され
るインデックスを使用して、マイクロフレームテーブル
の中の現在の音素Pの、後続音素P+1の、および先行
する音素P−1の数をサーチする。第1の音素の場合に
は、計算ユニットは現在の音素の、および後続する音素
の数だけをサーチする。最後の音素の場合には、それは
先行する音素の数、および現在の音素の数をサーチす
る。
バス18および20を介してメモリ16に保有されるテーブル
の中のマイクロフレームをロードし、その後それは計算
ユニット24による合成を開始させる。この計算ユニット
24は、1に初期設定されたワーキングメモリに記憶され
るインデックスを使用して、マイクロフレームテーブル
の中の現在の音素Pの、後続音素P+1の、および先行
する音素P−1の数をサーチする。第1の音素の場合に
は、計算ユニットは現在の音素の、および後続する音素
の数だけをサーチする。最後の音素の場合には、それは
先行する音素の数、および現在の音素の数をサーチす
る。
一般的な場合には、音素は2つの半ダイフォンから形
成され、各ダイフォンのアドレスは次の公式により辞書
の記述子にマトリックスアドレス指定することによりサ
ーチされる。
成され、各ダイフォンのアドレスは次の公式により辞書
の記述子にマトリックスアドレス指定することによりサ
ーチされる。
ダイフォン記述子の数=第1の音素の数 +(第2の音素の数−1)*ダイフォンの数 有声音 計算ユニットはワーキングメモリ16に、ダイフォンの
アドレス、ダイフォンの長さ、ダイフォンのまん中、な
らびに35個の有声化マークをロードする。それはその
後、音素の記述子テーブルに、ダイフォンの第2の部分
に対応する有声化マークをロードする。その後、それは
波形辞書でダイフォンの第2の部分をサーチし、それは
それを分析音素の信号を表わすテーブルに置く。音素記
述子テーブルに記憶されるマークはダイフォンのまん中
の値だけダウンカウントされる。
アドレス、ダイフォンの長さ、ダイフォンのまん中、な
らびに35個の有声化マークをロードする。それはその
後、音素の記述子テーブルに、ダイフォンの第2の部分
に対応する有声化マークをロードする。その後、それは
波形辞書でダイフォンの第2の部分をサーチし、それは
それを分析音素の信号を表わすテーブルに置く。音素記
述子テーブルに記憶されるマークはダイフォンのまん中
の値だけダウンカウントされる。
この動作は第2のダイフォンの第1の部分により形成
される音素の第2の部分について反復される。第2のダ
イフォンの第1の部分の有声化マークは音素の有声化マ
ークに追加され、音素のまん中の値だけ増分される。
される音素の第2の部分について反復される。第2のダ
イフォンの第1の部分の有声化マークは音素の有声化マ
ークに追加され、音素のまん中の値だけ増分される。
有声音の場合に、計算ユニットは韻律素のパラメータ
(持続時間、音素の始端周期および終端周期)を形成
し、その後音素の持続時間を要求される周期の数を公
式、すなわち 周期の数=2*音素の持続時間/(始端周期+終端周期) から判断する。計算ユニットは有声化マークの数と等し
い自然の音素のマークの数を記憶し、その後合成周期の
数と分析周期の数との間の差を計算することにより除去
されるべき、または追加されるべき周期の数を決定す
る。その差は辞書に対応するそれから導入される調性の
修正により決定される。
(持続時間、音素の始端周期および終端周期)を形成
し、その後音素の持続時間を要求される周期の数を公
式、すなわち 周期の数=2*音素の持続時間/(始端周期+終端周期) から判断する。計算ユニットは有声化マークの数と等し
い自然の音素のマークの数を記憶し、その後合成周期の
数と分析周期の数との間の差を計算することにより除去
されるべき、または追加されるべき周期の数を決定す
る。その差は辞書に対応するそれから導入される調性の
修正により決定される。
選択される各合成周期について、計算ユニットはその
後、次の考慮すべき事柄から音素の周期間の選択される
分析周期を判断する。考慮すべき事柄は次のとおりであ
る。
後、次の考慮すべき事柄から音素の周期間の選択される
分析周期を判断する。考慮すべき事柄は次のとおりであ
る。
持続時間の修正は分析信号のn個の有声化マークと合
成信号のp個のマークとの間の合成信号の時間軸の変形
により対応を生じると考えられてもよく、nおよびpは
所定の整数であること、および 合成信号のp個のマークの各々と分析信号の一番近い
マークは関連しなければならないこと。
成信号のp個のマークとの間の合成信号の時間軸の変形
により対応を生じると考えられてもよく、nおよびpは
所定の整数であること、および 合成信号のp個のマークの各々と分析信号の一番近い
マークは関連しなければならないこと。
全体の音素にわたって規則的に広がった周期の複製、
または逆に削除は後者の持続時間を修正する。
または逆に削除は後者の持続時間を修正する。
ダイフォン間の2つの隣り合った遷移周期から基本の
波形を抽出する必要は全くなく、第5図に図示されるよ
うに、第1のダイフォンの最後の2つの周期から、およ
び第2のダイフォンの最初の2つの周期から抽出される
基本関数の加算重畳演算はこれらのダイフォンの間の平
坦化を可能にする。
波形を抽出する必要は全くなく、第5図に図示されるよ
うに、第1のダイフォンの最後の2つの周期から、およ
び第2のダイフォンの最初の2つの周期から抽出される
基本関数の加算重畳演算はこれらのダイフォンの間の平
坦化を可能にする。
各合成周期について、計算ユニットは分析周期と合成
周期との間の差を計算することにより分析周期へ追加さ
れるべきまたは分析周期から省かれるべき点の数を決定
する。
周期との間の差を計算することにより分析周期へ追加さ
れるべきまたは分析周期から省かれるべき点の数を決定
する。
上に記述されたように、第3図に図示される次の方法
で分析窓の幅を選択することは有利である。すなわち もし合成周期が分析周期より小さければ(第3図にお
けるラインAおよびB),窓38の大きさは合成周期の2
倍であり、 逆の場合、窓40の大きさは現在の分析周期の、および
先行する分析周期の最小のものに2を乗算することによ
り得られる(ラインCおよびD)。
で分析窓の幅を選択することは有利である。すなわち もし合成周期が分析周期より小さければ(第3図にお
けるラインAおよびB),窓38の大きさは合成周期の2
倍であり、 逆の場合、窓40の大きさは現在の分析周期の、および
先行する分析周期の最小のものに2を乗算することによ
り得られる(ラインCおよびD)。
計算ユニットは、たとえば500以上の点で表にされる
窓の値を読出す前進ステップを規定し、ステップは、そ
のとき、500を前に計算された窓の大きさで割ったもの
に等しい。それは分析音素信号バッファメモリ28から、
先行する周期の、および現在の周期の、サンプルを読出
し、表にされた窓における前進ステップにより乗算され
る現在のサンプルの数により指標付けされるハニング窓
38または40の値だけそれらに重みを付け、かつ現在の出
力サンプルのカウンタと分析音素のサンプルのサーチイ
ンデックスとの和により指標付けされた、計算された値
を出力信号のバッファメモリへ漸進的に加える。現在の
出力カウンタはその後合成周期の値だけ増分される。
窓の値を読出す前進ステップを規定し、ステップは、そ
のとき、500を前に計算された窓の大きさで割ったもの
に等しい。それは分析音素信号バッファメモリ28から、
先行する周期の、および現在の周期の、サンプルを読出
し、表にされた窓における前進ステップにより乗算され
る現在のサンプルの数により指標付けされるハニング窓
38または40の値だけそれらに重みを付け、かつ現在の出
力サンプルのカウンタと分析音素のサンプルのサーチイ
ンデックスとの和により指標付けされた、計算された値
を出力信号のバッファメモリへ漸進的に加える。現在の
出力カウンタはその後合成周期の値だけ増分される。
無声音(有声化されない) 無声音音素について、疑似周期の値(2つの有声化マ
ーク間の距離)は決して修正されず、音素のまん中にお
ける疑似周期の除去は単に後者の持続時間を低減すると
いうこと以外に、処理は先行するものと同様である。
ーク間の距離)は決して修正されず、音素のまん中にお
ける疑似周期の除去は単に後者の持続時間を低減すると
いうこと以外に、処理は先行するものと同様である。
「サイレンス」音素の中間で0を加えること以外に、
無声音素の持続時間は増加されない。
無声音素の持続時間は増加されない。
窓かけ処理は信号に印加される窓の値の和を標準化す
るための各周期について行なわれ、 先行する周期の始めから先行する周期の終りまで、テ
ーブルにされた窓を読出すときの前進ステップが(500
点以上のタビュレーションの場合に)、500を先行する
周期の持続時間の2倍で割ったものに等しく、 現在の周期の始めから現在の周期の終りまで、表にさ
れた窓の前進ステップは500を現在の周期の持続時間の
2倍で割ったものに、250点の一定シフトを加えたもの
に等しい。
るための各周期について行なわれ、 先行する周期の始めから先行する周期の終りまで、テ
ーブルにされた窓を読出すときの前進ステップが(500
点以上のタビュレーションの場合に)、500を先行する
周期の持続時間の2倍で割ったものに等しく、 現在の周期の始めから現在の周期の終りまで、表にさ
れた窓の前進ステップは500を現在の周期の持続時間の
2倍で割ったものに、250点の一定シフトを加えたもの
に等しい。
合成音素の信号の計算が終わると、計算ユニットはバ
ッファメモリ28における分析および合成音素の最後の周
期を記憶し、それは音素間の可能な遷移をなす。現在の
出力サンプルカウンタは最後の合成周期の値だけ減分さ
れる。
ッファメモリ28における分析および合成音素の最後の周
期を記憶し、それは音素間の可能な遷移をなす。現在の
出力サンプルカウンタは最後の合成周期の値だけ減分さ
れる。
このように発生された信号は、2048のサンプルのブロ
ックにより、計算ユニットとD/Aコンバータ32の制御器3
0との間の通信に予約された2つのメモリスペースの1
つに送られる。第1のブロックが第1のバッファゾーン
にロードされるとすぐ、制御器30は計算ユニットにより
可能化され、この第1のバッファゾーンを空にする。そ
の間に計算ユニットは第2のバッファゾーンを2048のサ
ンプルで充填する。計算ユニットはその後代替的に、音
素の合成の各シーケンスの終りでデジタル合成信号をそ
れにロードするためのフラグによって、これら2つのバ
ッファゾーンをテストする。各バッファゾーンを読出す
最後で制御器30は対応するフラグを設定する。合成の終
りで、制御器は最後のバッファゾーンを空にし、通信ポ
ート22を介してホストコンピュータが読出すかもしれな
い合成の終りフラグを設定する。
ックにより、計算ユニットとD/Aコンバータ32の制御器3
0との間の通信に予約された2つのメモリスペースの1
つに送られる。第1のブロックが第1のバッファゾーン
にロードされるとすぐ、制御器30は計算ユニットにより
可能化され、この第1のバッファゾーンを空にする。そ
の間に計算ユニットは第2のバッファゾーンを2048のサ
ンプルで充填する。計算ユニットはその後代替的に、音
素の合成の各シーケンスの終りでデジタル合成信号をそ
れにロードするためのフラグによって、これら2つのバ
ッファゾーンをテストする。各バッファゾーンを読出す
最後で制御器30は対応するフラグを設定する。合成の終
りで、制御器は最後のバッファゾーンを空にし、通信ポ
ート22を介してホストコンピュータが読出すかもしれな
い合成の終りフラグを設定する。
第4A図ないし第4C図に図解される有声の音声信号スペ
クトルの分析および合成の例は、デジタル音声信号の時
間における変形は音声信号のエンベロープに影響せず、
同時に倍音間の距離、すなわち音声信号の基本周波数を
修正するということを示す。
クトルの分析および合成の例は、デジタル音声信号の時
間における変形は音声信号のエンベロープに影響せず、
同時に倍音間の距離、すなわち音声信号の基本周波数を
修正するということを示す。
計算の複雑さは低いままである。サンプルあたりの演
算数は、平均して、分析により供給される基本関数に重
みを付け合計するための2回の乗算および2回の加算で
ある。
算数は、平均して、分析により供給される基本関数に重
みを付け合計するための2回の乗算および2回の加算で
ある。
この発明の多くの修正された実施例が可能であり、特
に上に述べられたように、第6図に図示されたように、
おそらく固定された大きさの、2つの周期より大きい幅
の窓は満足な結果を与えるかもしれない。
に上に述べられたように、第6図に図示されたように、
おそらく固定された大きさの、2つの周期より大きい幅
の窓は満足な結果を与えるかもしれない。
ダイフォンによる合成へのそれの応用以外にデジタル
音声信号に関する基本周波数を修正するプロセスを使用
することもまた可能である。
音声信号に関する基本周波数を修正するプロセスを使用
することもまた可能である。
フロントページの続き (56)参考文献 特開 昭59−201099(JP,A) Proceedings of 1986 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.3,F.J.Charpe ntier et al,”Dipho ne Synthes is usin g an Overlap−add T echnique for Speec h Waveforms Concat enation”,p.2015−2017,A pril 7−11,1986,Tokyo, Japan
Claims (5)
- 【請求項1】音エレメント(ワード、音節、ダイフォ
ン、…)からの音声合成の方法であって、 (a) 声帯の刺激に対する声道の各パルス応答の始め
でセンタリングされたフィルタリング窓によって窓をか
けることにより、少なくとも音エレメントの有声音につ
いて分析を実行するステップを備え、前記フィルタリン
グ窓は窓の端縁で0まで減少する振幅を有し、それの幅
は原基本周期の2倍または基本合成周期の2倍に少なく
とも等しく、 (b) 各音エレメントに対応する窓かけから得られる
信号を、基本合成周波数に関する韻律素情報に応答し
て、原基本周期と異なる基本合成周期に等しい時間互い
にシフトさせて変位させるステップと、 (c) そのようなシフトされた信号を合計することに
より合成を実行するステップとを備え、 それにより前記方法は、前記ステップ(a)および
(b)において、前記分析された信号の基本周波数を変
調するため分析された信号のスペクトル変換を含まない
ことを特徴とする、音声合成方法。 - 【請求項2】前記ステップ(a)に先立ち、たとえばダ
イフォンである音エレメントの辞書は形成され、合成さ
れるべきテキストはマイクロフレームに細分され、マイ
クロフレームの各々は、対応する音エレメント(ダイフ
ォン)の通し番号と、少なくとも1つの韻律素情報とに
より識別され、当該韻律素情報はエレメントの始めの、
および終りの基本周波数の値によりおよびエレメントの
持続時間により少なくとも形成される、請求項1に記載
の音声合成方法。 - 【請求項3】窓の幅は、基本周波数が減少されるべき場
合、原基本周期の2倍の値に、または基本周波数が増加
されるべき場合、最終的に合成される周期の2倍の値に
選ばれることを特徴とする、請求項1または請求項2に
記載の音声合成方法。 - 【請求項4】窓がハニング窓であることを特徴とする、
請求項1ないし3のいずれかに記載の音声合成方法。 - 【請求項5】テキスト−音声変換のためのデジタル音声
合成装置であって、 データおよびアドレスバスに接続されるメインRAMメモ
リ手段を備え、前記メインRAMメモリ手段は、 各々が複数のサンプルとして記憶されかつ各々が複数の
ダイフォンの1つを表わす波形を含むダイフォン辞書
と、 各ダイフォンごとに、かつそれぞれのアドレスに、記憶
された波形の中のダイフォンの始めの位置、ダイフォン
の長さ、記憶された波形の中のダイフォンのまん中の位
置および有声化マークを識別するデータを含む辞書記述
子テーブルとを含み、前記波形は、辞書記述子テーブル
におけるそれぞれのアドレスの順番に前記辞書に記憶さ
れ、ダイフォンの通し番号が前記ダイフォン辞書に記憶
され、 前記メインRAMメモリ手段はさらに、サンプルされた形
式のフィルタリングハニング窓と、 計算マイクロプログラムと、 連続するマイクロフレームを受けるために確保されるテ
ーブルスペースとを含み、マイクロフレームの各々は音
素を表わし、かつマイクロフレームの各々は前記辞書に
おけるダイフォンの通し番号と、合成されるべき音素の
始めおよび終りの基本周期の長さを少なくとも含む前記
音素に関する韻律素情報とを含み、 前記ハニング窓は声帯の刺激に対する声道のパルス応答
の開始を表わす波形の点に窓がセンタリングされるよう
に選ばれた波形に関して予め定められる位置を有し、 前記デジタル音声合成装置は、さらに、 前記マイクロプログラムに応答して作動し、かつ(1)
前記マイクロフレームの1つずつによって順次識別され
る各音素のうち2つのそれぞれの音声化されたダイフォ
ンの種別データを前記記述子テーブルから読出すため
に、(2)それぞれの波形にサンプル化された前記ハニ
ング窓によるフィルタリングを受けさせ、それにそれぞ
れのマイクロフレームによって与えられる合成された周
期の2倍に実質的に等しい幅を与えるために、(3)基
本合成周期に等しい周期で、それぞれの波形のフィルタ
リングから生じる信号を再分布するために、かつ(4)
再分布された信号を加えるために、配列される、データ
およびアドレスバスに接続されるローカル計算ユニット
と、 データおよびアドレスバスに接続されるバッファメモリ
と、 前記バッファメモリの入力を前記計算ユニットの出力へ
かつ前記バッファメモリの出力をコントローラを介して
デジタル/アナログコンバータの入力へ二者択一的に接
続するための経路選択回路と、 前記デジタルアナログコンバータによって駆動される、
データおよびアドレスバスに接続される音声増幅器とを
備えた、デジタル音声合成装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR8811517A FR2636163B1 (fr) | 1988-09-02 | 1988-09-02 | Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde |
FR88/11517 | 1988-09-02 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03501896A JPH03501896A (ja) | 1991-04-25 |
JP3294604B2 true JP3294604B2 (ja) | 2002-06-24 |
Family
ID=9369671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP50962189A Expired - Fee Related JP3294604B2 (ja) | 1988-09-02 | 1989-09-01 | 波形の加算重畳による音声合成のための処理装置 |
Country Status (9)
Country | Link |
---|---|
US (2) | US5327498A (ja) |
EP (1) | EP0363233B1 (ja) |
JP (1) | JP3294604B2 (ja) |
CA (1) | CA1324670C (ja) |
DE (1) | DE68919637T2 (ja) |
DK (1) | DK175374B1 (ja) |
ES (1) | ES2065406T3 (ja) |
FR (1) | FR2636163B1 (ja) |
WO (1) | WO1990003027A1 (ja) |
Families Citing this family (218)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0527529B1 (en) * | 1991-08-09 | 2000-07-19 | Koninklijke Philips Electronics N.V. | Method and apparatus for manipulating duration of a physical audio signal, and a storage medium containing a representation of such physical audio signal |
DE69228211T2 (de) * | 1991-08-09 | 1999-07-08 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals |
DE69231266T2 (de) * | 1991-08-09 | 2001-03-15 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium |
KR940002854B1 (ko) * | 1991-11-06 | 1994-04-04 | 한국전기통신공사 | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 |
FR2689667B1 (fr) * | 1992-04-01 | 1995-10-20 | Sagem | Recepteur de bord d'aide a la navigation d'un vehicule automobile. |
US5613038A (en) * | 1992-12-18 | 1997-03-18 | International Business Machines Corporation | Communications system for multiple individually addressed messages |
US5490234A (en) * | 1993-01-21 | 1996-02-06 | Apple Computer, Inc. | Waveform blending technique for text-to-speech system |
US6122616A (en) * | 1993-01-21 | 2000-09-19 | Apple Computer, Inc. | Method and apparatus for diphone aliasing |
JP2782147B2 (ja) * | 1993-03-10 | 1998-07-30 | 日本電信電話株式会社 | 波形編集型音声合成装置 |
JPH0736776A (ja) * | 1993-07-23 | 1995-02-07 | Reader Denshi Kk | 線形フィルタ処理した複合信号の発生装置及び発生方法 |
US6502074B1 (en) * | 1993-08-04 | 2002-12-31 | British Telecommunications Public Limited Company | Synthesising speech by converting phonemes to digital waveforms |
US5987412A (en) * | 1993-08-04 | 1999-11-16 | British Telecommunications Public Limited Company | Synthesising speech by converting phonemes to digital waveforms |
SE516521C2 (sv) * | 1993-11-25 | 2002-01-22 | Telia Ab | Anordning och förfarande vid talsyntes |
US5970454A (en) * | 1993-12-16 | 1999-10-19 | British Telecommunications Public Limited Company | Synthesizing speech by converting phonemes to digital waveforms |
US5787398A (en) * | 1994-03-18 | 1998-07-28 | British Telecommunications Plc | Apparatus for synthesizing speech by varying pitch |
US5633983A (en) * | 1994-09-13 | 1997-05-27 | Lucent Technologies Inc. | Systems and methods for performing phonemic synthesis |
JP3093113B2 (ja) * | 1994-09-21 | 2000-10-03 | 日本アイ・ビー・エム株式会社 | 音声合成方法及びシステム |
IT1266943B1 (it) * | 1994-09-29 | 1997-01-21 | Cselt Centro Studi Lab Telecom | Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda. |
US5694521A (en) * | 1995-01-11 | 1997-12-02 | Rockwell International Corporation | Variable speed playback system |
JP4112613B2 (ja) * | 1995-04-12 | 2008-07-02 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 波形言語合成 |
US6591240B1 (en) * | 1995-09-26 | 2003-07-08 | Nippon Telegraph And Telephone Corporation | Speech signal modification and concatenation method by gradually changing speech parameters |
BE1010336A3 (fr) * | 1996-06-10 | 1998-06-02 | Faculte Polytechnique De Mons | Procede de synthese de son. |
SE509919C2 (sv) * | 1996-07-03 | 1999-03-22 | Telia Ab | Metod och anordning för syntetisering av tonlösa konsonanter |
US5751901A (en) * | 1996-07-31 | 1998-05-12 | Qualcomm Incorporated | Method for searching an excitation codebook in a code excited linear prediction (CELP) coder |
US5832441A (en) * | 1996-09-16 | 1998-11-03 | International Business Machines Corporation | Creating speech models |
US5950162A (en) * | 1996-10-30 | 1999-09-07 | Motorola, Inc. | Method, device and system for generating segment durations in a text-to-speech system |
US5915237A (en) * | 1996-12-13 | 1999-06-22 | Intel Corporation | Representing speech using MIDI |
US6377917B1 (en) | 1997-01-27 | 2002-04-23 | Microsoft Corporation | System and methodology for prosody modification |
US5924068A (en) * | 1997-02-04 | 1999-07-13 | Matsushita Electric Industrial Co. Ltd. | Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion |
US6020880A (en) * | 1997-02-05 | 2000-02-01 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for providing electronic program guide information from a single electronic program guide server |
US6130720A (en) * | 1997-02-10 | 2000-10-10 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for providing a variety of information from an information server |
KR100269255B1 (ko) * | 1997-11-28 | 2000-10-16 | 정선종 | 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법 |
JP2001513225A (ja) * | 1997-12-19 | 2001-08-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 伸長オーディオ信号からの周期性の除去 |
JP3902860B2 (ja) * | 1998-03-09 | 2007-04-11 | キヤノン株式会社 | 音声合成制御装置及びその制御方法、コンピュータ可読メモリ |
DE19837661C2 (de) * | 1998-08-19 | 2000-10-05 | Christoph Buskies | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten |
DE19861167A1 (de) | 1998-08-19 | 2000-06-15 | Christoph Buskies | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten |
US6178402B1 (en) | 1999-04-29 | 2001-01-23 | Motorola, Inc. | Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network |
US6298322B1 (en) | 1999-05-06 | 2001-10-02 | Eric Lindemann | Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal |
JP2001034282A (ja) * | 1999-07-21 | 2001-02-09 | Konami Co Ltd | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
AU7991900A (en) * | 1999-10-04 | 2001-05-10 | Joseph E. Pechter | Method for producing a viable speech rendition of text |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
AU2001290882A1 (en) * | 2000-09-15 | 2002-03-26 | Lernout And Hauspie Speech Products N.V. | Fast waveform synchronization for concatenation and time-scale modification of speech |
US7280969B2 (en) * | 2000-12-07 | 2007-10-09 | International Business Machines Corporation | Method and apparatus for producing natural sounding pitch contours in a speech synthesizer |
US7683903B2 (en) | 2001-12-11 | 2010-03-23 | Enounce, Inc. | Management of presentation time in a digital media presentation system with variable rate presentation capability |
US6950798B1 (en) * | 2001-04-13 | 2005-09-27 | At&T Corp. | Employing speech models in concatenative speech synthesis |
JP3901475B2 (ja) * | 2001-07-02 | 2007-04-04 | 株式会社ケンウッド | 信号結合装置、信号結合方法及びプログラム |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7546241B2 (en) * | 2002-06-05 | 2009-06-09 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus, and dictionary generation method and apparatus |
US8145491B2 (en) * | 2002-07-30 | 2012-03-27 | Nuance Communications, Inc. | Techniques for enhancing the performance of concatenative speech synthesis |
WO2004027754A1 (en) | 2002-09-17 | 2004-04-01 | Koninklijke Philips Electronics N.V. | A method of synthesizing of an unvoiced speech signal |
US7529672B2 (en) | 2002-09-17 | 2009-05-05 | Koninklijke Philips Electronics N.V. | Speech synthesis using concatenation of speech waveforms |
EP1543503B1 (en) | 2002-09-17 | 2007-01-24 | Koninklijke Philips Electronics N.V. | Method for controlling duration in speech synthesis |
DE60305944T2 (de) | 2002-09-17 | 2007-02-01 | Koninklijke Philips Electronics N.V. | Verfahren zur synthese eines stationären klangsignals |
EP1628288A1 (en) * | 2004-08-19 | 2006-02-22 | Vrije Universiteit Brussel | Method and system for sound synthesis |
DE102004044649B3 (de) * | 2004-09-15 | 2006-05-04 | Siemens Ag | Verfahren zur integrierten Sprachsynthese |
EP1895511B1 (en) * | 2005-06-23 | 2011-09-07 | Panasonic Corporation | Audio encoding apparatus, audio decoding apparatus and audio encoding information transmitting apparatus |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US20070106513A1 (en) * | 2005-11-10 | 2007-05-10 | Boillot Marc A | Method for facilitating text to speech synthesis using a differential vocoder |
JP4246790B2 (ja) * | 2006-06-05 | 2009-04-02 | パナソニック株式会社 | 音声合成装置 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
JP4805121B2 (ja) * | 2006-12-18 | 2011-11-02 | 三菱電機株式会社 | 音声合成装置、音声合成方法及び音声合成プログラム |
US8457959B2 (en) * | 2007-03-01 | 2013-06-04 | Edward C. Kaiser | Systems and methods for implicitly interpreting semantically redundant communication modes |
EP1970894A1 (fr) | 2007-03-12 | 2008-09-17 | France Télécom | Procédé et dispositif de modification d'un signal audio |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8706496B2 (en) * | 2007-09-13 | 2014-04-22 | Universitat Pompeu Fabra | Audio signal transforming by utilizing a computational cost function |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10706373B2 (en) * | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
CN102422531B (zh) * | 2009-06-29 | 2014-09-03 | 三菱电机株式会社 | 音频信号处理装置 |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9401138B2 (en) * | 2011-05-25 | 2016-07-26 | Nec Corporation | Segment information generation device, speech synthesis device, speech synthesis method, and speech synthesis program |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
WO2013014876A1 (ja) * | 2011-07-28 | 2013-01-31 | 日本電気株式会社 | 素片処理装置、素片処理方法および素片処理プログラム |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8744854B1 (en) | 2012-09-24 | 2014-06-03 | Chengjun Julian Chen | System and method for voice transformation |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
CN112230878B (zh) | 2013-03-15 | 2024-09-27 | 苹果公司 | 对中断进行上下文相关处理 |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
DE102014114845A1 (de) * | 2014-10-14 | 2016-04-14 | Deutsche Telekom Ag | Verfahren zur Interpretation von automatischer Spracherkennung |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10015030B2 (en) * | 2014-12-23 | 2018-07-03 | Qualcomm Incorporated | Waveform for transmitting wireless communications |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
WO2017129270A1 (en) * | 2016-01-29 | 2017-08-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
WO2019068915A1 (en) * | 2017-10-06 | 2019-04-11 | Sony Europe Limited | AUDIO FILE ENVELOPE BASED ON RMS POWER IN SUB-WINDOW SEQUENCES |
US10594530B2 (en) * | 2018-05-29 | 2020-03-17 | Qualcomm Incorporated | Techniques for successive peak reduction crest factor reduction |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4398059A (en) * | 1981-03-05 | 1983-08-09 | Texas Instruments Incorporated | Speech producing system |
US4692941A (en) | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
US4852168A (en) * | 1986-11-18 | 1989-07-25 | Sprague Richard P | Compression of stored waveforms for artificial speech |
US4833718A (en) * | 1986-11-18 | 1989-05-23 | First Byte | Compression of stored waveforms for artificial speech |
-
1988
- 1988-09-02 FR FR8811517A patent/FR2636163B1/fr not_active Expired - Lifetime
-
1989
- 1989-09-01 DE DE68919637T patent/DE68919637T2/de not_active Expired - Lifetime
- 1989-09-01 US US07/487,942 patent/US5327498A/en not_active Expired - Lifetime
- 1989-09-01 CA CA000610127A patent/CA1324670C/fr not_active Expired - Lifetime
- 1989-09-01 ES ES89402394T patent/ES2065406T3/es not_active Expired - Lifetime
- 1989-09-01 EP EP89402394A patent/EP0363233B1/fr not_active Expired - Lifetime
- 1989-09-01 WO PCT/FR1989/000438 patent/WO1990003027A1/fr unknown
- 1989-09-01 JP JP50962189A patent/JP3294604B2/ja not_active Expired - Fee Related
-
1990
- 1990-05-01 DK DK199001073A patent/DK175374B1/da not_active IP Right Cessation
-
1994
- 1994-04-04 US US08/224,652 patent/US5524172A/en not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
Proceedings of 1986 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.3,F.J.Charpentier et al,"Diphone Synthes is using an Overlap−add Technique for Speech Waveforms Concatenation",p.2015−2017,April 7−11,1986,Tokyo,Japan |
Also Published As
Publication number | Publication date |
---|---|
WO1990003027A1 (fr) | 1990-03-22 |
US5524172A (en) | 1996-06-04 |
FR2636163A1 (fr) | 1990-03-09 |
DK107390A (da) | 1990-05-30 |
JPH03501896A (ja) | 1991-04-25 |
DK107390D0 (da) | 1990-05-01 |
EP0363233A1 (fr) | 1990-04-11 |
DE68919637T2 (de) | 1995-07-20 |
FR2636163B1 (fr) | 1991-07-05 |
DK175374B1 (da) | 2004-09-20 |
ES2065406T3 (es) | 1995-02-16 |
DE68919637D1 (de) | 1995-01-12 |
CA1324670C (fr) | 1993-11-23 |
US5327498A (en) | 1994-07-05 |
EP0363233B1 (fr) | 1994-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3294604B2 (ja) | 波形の加算重畳による音声合成のための処理装置 | |
JP3408477B2 (ja) | フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ | |
EP1308928B1 (en) | System and method for speech synthesis using a smoothing filter | |
JPH031200A (ja) | 規則型音声合成装置 | |
JP3732793B2 (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
JP3450237B2 (ja) | 音声合成装置および方法 | |
Violaro et al. | A hybrid model for text-to-speech synthesis | |
JP3841596B2 (ja) | 音素データの生成方法及び音声合成装置 | |
US6829577B1 (en) | Generating non-stationary additive noise for addition to synthesized speech | |
JP2612867B2 (ja) | 音声ピッチ変換方法 | |
JP2001034284A (ja) | 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体 | |
JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
JP2987089B2 (ja) | 音声素片作成方法および音声合成方法とその装置 | |
JP3059751B2 (ja) | 残差駆動型音声合成装置 | |
JP2001100777A (ja) | 音声合成方法及び装置 | |
JP3083830B2 (ja) | 音声の発声時間長制御方法および装置 | |
JPS5880699A (ja) | 音声合成方式 | |
JP3241582B2 (ja) | 韻律制御装置及び方法 | |
JPH0258640B2 (ja) | ||
JP2001312300A (ja) | 音声合成装置 | |
Yazu et al. | The speech synthesis system for an unlimited Japanese vocabulary | |
Glinski | Diphone speech synthesis based on a pitch-adaptive short-time Fourier transform | |
JP3532059B2 (ja) | 音声合成方法及び音声合成装置 | |
JP3283657B2 (ja) | 音声規則合成装置 | |
JPS61259300A (ja) | 音声合成方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |