JPH03501896A - 波形の加算重畳による音声合成のための処理装置 - Google Patents
波形の加算重畳による音声合成のための処理装置Info
- Publication number
- JPH03501896A JPH03501896A JP1509621A JP50962189A JPH03501896A JP H03501896 A JPH03501896 A JP H03501896A JP 1509621 A JP1509621 A JP 1509621A JP 50962189 A JP50962189 A JP 50962189A JP H03501896 A JPH03501896 A JP H03501896A
- Authority
- JP
- Japan
- Prior art keywords
- period
- window
- fundamental
- speech synthesis
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003786 synthesis reaction Methods 0.000 title claims description 38
- 230000015572 biosynthetic process Effects 0.000 title claims description 37
- 238000012545 processing Methods 0.000 title description 4
- 238000000034 method Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 12
- 239000000872 buffer Substances 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 8
- 239000002131 composite material Substances 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 7
- 210000001260 vocal cord Anatomy 0.000 claims description 6
- 230000003936 working memory Effects 0.000 claims description 4
- 230000005284 excitation Effects 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 2
- 238000004804 winding Methods 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims 1
- 239000003623 enhancer Substances 0.000 claims 1
- 238000001914 filtration Methods 0.000 claims 1
- 238000001228 spectrum Methods 0.000 description 16
- 230000005236 sound signal Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000007792 addition Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000005428 wave function Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000287462 Phalacrocorax carbo Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000013766 direct food additive Nutrition 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 235000021419 vinegar Nutrition 0.000 description 1
- 239000000052 vinegar Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。
Description
【発明の詳細な説明】
波形の加算重畳による音声合成のための処理装置この発明は音声合成(spee
ch 5yf1thesiS)の方法および装置に関する、より特定的には合成
されるべきテキストを対応する音エレメントの順位数および韻律素のパラメータ
(音エレメントの始まりと終りでの応答の高さおよび音エレメントの持続時間に
関する情報)により各々識別されるマイクロフレームへ細分化し、それから重畳
手順による音エレメントの適合および連結による音エレメントの辞書からの合成
に関する。
辞書に記憶された音エレメントまたは原形はしばしばシフオン(d i pho
ne) 、すなわち音素の間の遷移であり、それはフランス語では約1300の
音エレメントの辞書にすることが可能である、しかしながら、たとえば音節また
は単語といった異なる音エレメントが使用され得る。
韻律素のパラメータは文脈に関する標準の関数として決定され得る、イントネー
ションに対応する音声の高さは単語および文章における音エレメントの位置に依
存しかつ音エレメントに与えられる持続時間は文章のリズムに依存する。
音声合成の方法は2つのグループに分けられることに留意されたい。音声管〔線
形予測合成(linear prediction 5ynthesis)、フ
ォルマント合成および高速フーリエ変換合成〕の数学的モデルを使用するものは
音声のデコンボルーション(deconvolution)および音声管の伝達
関数のデコンボルーションに依存しかつ一般的にはディジタル・アナログ変換お
よび復元の前に音声のディジタルサンプルごとに約50の算術動作を必要とする
。
音声源管(source−vocal duct)のデコンボルーションにより
有声音の基本周波数の値を修正することが可能で、すなわちそれら音声は調波構
造を有しかつ声帯の振動および音声信号を表わすデータの圧縮により引起こされ
る。
第2のグループの方法に属するものは波形の連結による時間領域合成を使用する
。この解決は使用における融通性の利点とサンプル当りの算術動作の数をかなり
減らす可能性とを有する。他方、数学的モデルに基づく方法の場合と同じだけの
伝送に必要とされるフローレートを減じることは不可能である。しかしながら良
好な復元品質が本質的であり、かつ狭いチャネルごしにデータを伝送する必要が
ない場合はこの欠点は存在しない。
この発明に従う音声合成は第2のグループに属する。それは綴字法の連鎖(たと
えばプリンタにより伝達されるテキストにより形成される)をたとえば復元され
、直接伝達され、または通常の電話線ごしに伝送される音声信号へ変換する分野
での特に重要な応用を発見する。
短期間信号加算重畳技術を使用する音エレメントからの音声合成方法は既知であ
る(音声波形連結のための重畳加算技術を使用するシフオン合成、シャルパンテ
ィエ(Charpentier)他による、ICASSP1986年、音響音声
および信号処理に関するI EEE−I ECEJ −ASJ国際会議、201
5頁−2018頁参照)。しかしながらそれは大変複雑な手順により得られる、
合成ウィンドウの重畳の標準化を伴う短期間合成信号に関する、−有声化の同期
ウィンドウィングによる元の信号の分析、−短期間信号のフーリエ変換、
一エンベロープ検知、
2源のスペクトル上の周波数軸のホモセティック(h。
mothetic)な偏移、
一元の信号のエンベロープによる修正された源スペクトルの重みづけ、
一フーリエ変換の逆転。
この発明の主要な目的は音声の許容できる再生を可能にする比較的単純な方法を
提供することである。それは有声音がディラック(D i r a c)連続、
すなわち、スペクトルフィールドに調波スペクトル、すなわち基本周波数から離
れてスペース決めされかつ音声管の伝達関数に依存する最大呼出フォルマントを
有するエンベロープによって重みづけされる調波を引起こす、音源の基本周波数
、すなわち声帯の周波数を同期的に伴う「パルス コームJ(puls e c
omb)により励起された、(音声管に対応して)数ミリセカンドの間静止す
る、フィルタのインパルス応答の総和ととして考慮され得るという仮定から始ま
る。
韻律素のデータに応じるためにそれが必要とされるとき、有声音の基本周波数の
低減が、0の挿入、またはOの挿入により同様に基本周波数を低減しかつ各周期
の大きさを低減することによりそれを増大するための復元されるべき音声の最大
の可能な高さまたはその他(米国特許第4692941号)に義務的に応答しな
ければならない記憶されたマイクロ音素の挿入により実行される音声合成を実行
することは既に提案されている〔ラックスウィック(Lacszewic)他に
よる、音声合成のマイクロ音素法、1CASSP1987年、IEEE1426
頁−1429頁参照〕。これら2つの方法は基本周波数の修正の間に少なくない
歪みを音声信号に導入する。
この発明の目的は上記の制限を伴わずかつ良品質の音声を供給することが可能で
、かつわずかな量の算術計算しか必要としない波形の連結を有する合成の方法と
装置を提供することである。
このために、この発明は下記のとおり特徴づけられる方法を特に提案する、
2少なくとも音エレメントの有声音に関して、声帯の励起に対する音声管の各パ
ルスの応答の始まりを中心にしてウィンドウィングが実行され(この始まりは恐
らくは辞書内に記憶される)、ウィンドウは前記始まりのために最大値を有しか
つ振幅はウィンドウの端縁でOにまで減少する、−各音エレメントに対応するウ
ィンドウ化された信号が、基本周波数の韻律素の高さの情報に依存して元の基本
周期よりも小さいまたは大きい、得られるべき基本合成周期に等しい時間シフト
と置換えられかつ信号が総和される。
これらの動作は音声信号のウィンドウィングにより得られる基本波形に適用され
る重畳とそれに続く加算手順を形成する。
一般的には、シフオンで構成される音エレメントが使用される。
ウィンドウの幅は本来の周期の2倍より小さいまたは大きい値の間で変化し得る
。以下に記載される実施例では、ウィンドウの幅は基本周期を増大させる場合に
は元の周期の約2倍に等しくまたは基本周波数を増大させる場合には最終の合成
周期の約2倍に等しく有利に選択され、したがって合成ディジタル信号のサンプ
ルの振幅への各ウィンドウの貢献を考慮する可能なエネルギの標準化によって補
われない、基本周波数の変化によるエネルギの修正を部分的に補償する。基本周
期の低減の場合には、ウィンドウの幅はしたがって元の基本周期の2倍より小さ
くなる。この値を下回ることは好ましくない。
どちらの方向にも基本周波数の値を修正することは可能なので、シフオンはスピ
ーカの自然な基本周波数で記憶される。
「有声」の場合、2つの連続的な基本周期に等しい持続時間を有するウィンドウ
ではそのスペクトルが音声信号スペクトルまたは広域短期間スペクトルのエンベ
ローフヲ表わす基本波形が得られる、−というのはこのスペクトル1ま音声信号
の調波スペクトルおよびウィンドウの周波数応答のコンポルージョンにより得ら
れ、それはこの場合には調波の間の距離より大きい帯域を有するー、これら基本
的波形の時間再分布は調波距離の間の修正された距離ではなく元の信号と同じエ
ンベロープを実質的に有する信号を与える。
窓が2つの基本周期より大きい持続時間を有する場合、そのスペクトルが依然と
して調波または狭域短期間スペクトルである基本波形が得られる。−というのは
その場合はウィンドウの周波数応答は調波の距離よりも狭いからであるー、これ
ら基本波形の時間再分布は先述の合成信号のように、残響期間が導入される場合
を除いては、元の信号と実質的に同じエンベロープを有する信号(そのスペクト
ルがより低い振幅で異なる位相のしかしながら元の信号の振幅スペクトルと同じ
形を有する信号)を与え、その効果は約3つの周期のウィンドウ幅を超える場合
にのみ可聴で、この再反響の効果はその振幅が低いときには合成信号の品質を劣
化させない。
典型的にはハニング(Hanning)ウィンドウが使用され得るが、他のウィ
ンドウの形式もまた許容される。
上記に定義される処理はまたその形式が白色雑音の形式に関連し、しかしながら
ウィンドウ化された信号の同期化を伴わない信号により表わされ得る、いわゆる
「無声音の」または非有声(non−voiced 5ound)の音にも適用
され得る、これは、一方では音エレメント(シフオン)の間ならびに無声および
有声の音素の間を滑らかにしかつ他方ではリズムの修正を可能にする、無声音と
有声音の処理を均質化するためである。シフオンの間の接合において問題が生じ
る。この困難を克服する解決はシフオンの間の2つの近接する基本的遷移周期か
らの基本波形の抽出を省くことにある(無声音の場合には、有声化マークは任意
に配置されたマークにより置換えられる)、シフオンの各側で抽出された2つの
基本的波動関数の手段を計算することにより第3の基本的波動関数を規定するこ
とまたはこれら2つの基本的波動関数に直接加算重畳手続きを使用することのい
ずれかが可能になる。
この発明は非制限的な例により提示される、この発明の特定の実施例の以下の記
載によりより良く理解されるであろう。記述は添付の図面を参照する、
−第1図はこの発明に従う、時間領域でのシフオンの連結および韻律素のパラメ
ータの修正による音声合成を示すグラフである。
2第2図はホストコンピュータに組込まれる合成装置の可能な構成を示すブロッ
ク図である。
−第3図は特定の音素の事例において、自然な信号の韻律素のパラメータがいか
に修正されるかを例により示す。
−第4A図、第4B図および第4C図は有声合成信号に対しなされるスペクトル
の修正を示し、第4A図は元のスペクトルを示し、第4B図は基本周波数の低減
を伴うスペクトルを示しかつ第4C図はこの周波数の増大を伴うスペクトルを示
す、
2第5図はシフオンの間の不連続を低減する原則を示すグラフである。
2第6図は2つの周期を上回る周期にわたってのウィンドウィングを示す図であ
る。
音素の合成は辞書に記憶される2つのシフオンから果たされ、各音素は2つの半
シフオンから形成される。、たとえばrpc+1ode lの中の音声reJは
rpaiJの第2の半シフオンから、およびrairJの第1の半シフオンから
得られるであろう。
韻律素の綴字性音声翻訳および計算のためのモジュール(それはこの発明の一部
を形成しない)は、所与の時間に次のもの、すなわち
順序Pの復元される音素
順序P−1の先行する音素
順序P+1の次の音素
を識別し、初めおよび終りの周期と同じ(音素Pに割当てられる持続時間を与え
るデータを伝える(第1図)。
この発明により修正されない第1の分析動作は、使用される音素に選択される2
つのシフオンを決めること、および音素の名前および韻律素の表示をデコードす
ることにより、有声化することにある。
すべての使用可能な音素(たとえば数で1300)は、記述子12を形成しかつ
各シフオンの初めのアドレス(256バイトのブロックの数で)、シフオンおよ
びシフオンの中間の長さく最後の2つのパラメータは初めからのサンプルの数と
して表現される)、および有声音の場合の声帯の興奮への音声管の反応の初めを
示す有声化マーク(たとえば数で35)を含む表を有する辞書10に記憶される
。
シフオン辞書はたとえば国立テレコミュニケーション研究センター(Cpnl+
e National d’Etudes det Telpcommunic
ajion)から入手可能であるような標準に従う。
シフオンはその後第1図に概略的に図示される分析および合成処理で使用される
。このプロセスは、それがたとえばパーソナルコンピュータの中央処理装置のよ
うなホストコンピュータに接続されるように意図される、第2図に図示される構
成を有する合成装置において使用されるということを仮定して記述されるであろ
う。シフオンの表現を与えるサンプリング周波数は16kHzであるとまた仮定
されるであろう。
合成装置(第2図)はその時計算マイクロプログラム、記述子のアドレスの順序
で記憶されるシフオン辞書10(すなわちサンプルにより表わされる波形)、辞
書記述子を形成する表12、およびたとえば500点以上でサンプリンフサれる
ハニング()Inning )ウィンドウを含むメインランダムアクセスメモリ
16を含む。ランダムアクセスメモリ16はまたマイクロフレームメモリおよび
ワーキングメモリを形成する。それはデータバス18およびアドレスバス20に
よりホストコンピュータのボート22に接続される。
音素を復元するために発せられる各マイクロフレーム(第2図)は、干渉しあう
2つの音素PおよびP+1の各々について、
音素の連続番号、
音素の初めの周期の値、音素の終りの周期の値、および第2の音素についてシフ
オンの持続時間により置換され得る音素の合計の持続時間から成る。
装置はさらにバス18および20に接続される、ローカル計算ユニット24およ
び経路選択回路26を含む。後者は出力バッフ7として役立つランダムアクセス
メモリ28をコンピュータか、または出力ディジタルアナログコンバータ32の
制御器30へ接続することを可能にする。後者は概して8kHzに制限される低
域フィルタ34を駆動し、それは音声増幅器36を駆動する。
装置の動作は次のとおりである。
ホストコンピュータ(図示されない)はボート22およびバス18および20を
介してメモリ16に予約される表の中のマイクロフレームをロードし、その後そ
れは計算ユニット24により合成の初めを順序づける。この計算ユニットは、1
に初期設定される、ワーキングメモリに記憶されるインデックスを使用して、マ
イクロフレーム表の中の現在の音素Pの、後続する音素P+1の、および先行す
る音素P−1の数をサーチする。第1の音素の場合には、計算ユニットは現在の
音素の、および後続する音素の数だけをサーチする。最後の音素の場合には、そ
れは先行する音素の数、および現在の音素のそれをサーチする。
一般的な場合には、音素は2つの半シフオンから形成され、各シフオンのアドレ
スは次の公式により辞書の記述子のマトリクスアドレス指定によりサーチされ、
すなわちシフオン記述子の数=第1の音素の数+シフオンの(第2の音素−1の
数)1数
有声音
計算ユニットはワーキングメモリ16に、シフオンのアドレス、それの長さ、3
5の有声化マークと同じくそれの中間をロードする。それはその後音素の記述子
表に、シフオンの第2の部分に対応する有声化マークをロードする。
その後それは波形辞書でシフオンの第2の部分をサーチし、それはそれを分析音
素の信号を表わす表に置く。音素記述子表に記憶されるマークはシフオンの中間
の値だけダウンカウントされる。
この動作は第2のシフオンの第1の部分により形成される音素の第2の部分につ
いて反復される。第2のシフオンの第1の部分の有声化マークは音素の有声化マ
ークに追加され、音素の中間の値だけ増分される。
有声音の場合に、計算ユニットは韻律素のパラメータ(持続時間、音素の初めの
周期および終りの周期)を形成し、その後音素の持続時間に要求される周期の数
を公式、すなわち
周期の数=音素の28持続時間/(初め周期+終り周期)から判断する。
計算ユニットは有声化マークの数と等しい自然の音素のマークの数を記憶し、そ
の後合成周期の数と分析周期の数との間の差を計算することにより、除去される
、または追加される周期の数を判断し、その差は辞書に対応するそれから導入さ
れる調整の修正により判断される。
選択される各合成周期について、計算ユニットはその後、次の考慮すべき事柄、
持続時間の修正は分析信号のn有声化マークと合成信号のpマークとの間の合成
信号の時間軸の変形により対応を生じるように考えられてもよく、nおよびpは
所定の整数であり、
合成信号のpマークの各々と分析信号の一番近いマークは関連するはずである、
から音素の周期間の選択される分析周期を判断する。
全体の音素にわたって規則的に拡がった周期の複製、または逆に削除は後者の持
続時間を修正する。
シフオン間の2つの隣合った遷移周期から基本の波形を抽出する必要はまったく
なく、第5図に図示されるように、第1のシフオンの最後の2つの周期から、お
よび第2のシフオンの最初の2つの周期から抽出される基本関数の加算重畳演算
はこれらのシフオン間の平坦化を可能にする。
各合成周期について、計算ユニットは後者と合成周期との間の差を計算すること
により分析周期から、追加されるまたは省かれる点の数を判断する。
上に記述されたように、第3図に図示される次の方法で分析ウィンドウの幅を選
択することは有利であり、もし合成周期が分析周期より小さいならば(第3図に
おけるラインAおよびB)、ウィンドウ38の大きさは合成周期の2倍であり、
逆の場合、ウィンドウ4oの大きさは現在の分析周期の、および先行する分析周
期の最小のものに2で乗算することにより得られる(ラインCおよびD)。
計算ユニットはたとえば500以上の点で表にされるウィンドウの値を読aす前
進ステップを規定し、ステップはそのとき前に計算されたウィンドウの大きさに
より除算される500に等しい。それは分析音素信号バッファメモリ28を読出
し、先行する周期の、および現在の周期のサンプルは表にされたウィンドウにお
ける前進ステップにより乗算される現在のサンプルの数により指標づけされるハ
ニングウィンドウ38または40の値だけそれらに重みをっケ、現在の出力サン
プルの、および分析音素のサンプルのサーチインデックスのカウンタの和により
指標づけされた、出力信号のノゞツファメモリへ計算された値を漸進的に加える
。現在の出力カウンタはその後合成周期の値だけ増分される。
無声音(有声化されない)
無声音音素について、擬似周期の値(2つの有声化マーク間の距離)は決して修
正されず、音素の中央における擬似周期の除去は単に後者の持続時間を低減する
ということ以外に、処理は先行するものと同様である。
「サイレンス」音素の中間で0を加えること以外に、無声音素の持続時間は増加
されない。
ウィンドウィングは信号に印加されるウィンドウの値の和を標準化するための各
周期について果たせられ、先行する周期の初めから先行する周期の終りまで、表
にされたウィンドウを読出すときの前進ステップが(500点以上のタビュレー
ションの場合に)先行する周期の持続時間の2倍により除算される500に等し
く、現在の周期の初めから現在の周期の終りまで、表にされたウィンドウの前進
ステップは現在の周期の持続時間の2倍により除算される500プラス250点
の2定シフトに等しい。
合成音素の信号の計算が終わると、計算ユニットはバッファメモリ28における
分析および合成音素の最後の周期を記憶し、それは音素間の可能な遷移をなす。
現在の出力サンプルカウンタは最後の合成周期の値だけ減分される。
そのように発生された信号は、2048のサンプルのブロックにより、計算ユニ
ットとD/Aコンバータ32の制御器30との間の通信に予約された2つのメモ
リスペースの1つに送られる。第1のブロックが第1のバッファゾーンにロード
されるとすぐ、制御器30は計算ユニットにより可能化され、この第1のバッフ
ァゾーンを空にする。その間に計算ユニットは第2のバッファゾーンを2048
のサンプルで充填する。計算ユニットはその後代替的に、音素の合成の各シーケ
ンスの終りでディジタル合成信号をそれにロードするためのフラグによって、こ
れら2つのバッファゾーンをテストする。各バッファゾーンを読出す最後で制御
器30は対応するフラグを設定する。合成の終りで、制御器は最後のバッファゾ
ーンを空にし、通信ボート22を介してホストコンピュータが読出すかもしれな
い合成の終りフラグを設定する。
第4八図ないし第4C図に図解される有声の音声信号スペクトルの分析および合
成の例は、ディジタル音声信号の時間における変形は合成信号のエンベロープに
影響せず、同時に調波、すなわち音声信号の基本周波数間の距離を修正するとい
うことを示す。
計算の複雑さは低いままであり、サンプル当りの演算の数は平均して分析により
供給される基本関数に重みをっけ合計するための2つの乗算および2つの加算で
ある。
この発明の多数の修正された実施例が可能であり、特に上に述べられたように、
第6図に図示されたように、恐らく固定された大きさの、2つの周期より大きい
幅のウィンドウは満足な結果を与えるかもしれない。
シフオンによる合成へのそれの応用以外にディジタル音声信号に関する基本周波
数を修正するプロセスを使用することはまた可能である。
浄書(内容に変更なし)
′1−基座用液牧。瓜゛父 ゾ
手続補正書坊式)
Claims (5)
- 1.音エレメント(ワード、音節、ジフォン、…)からの音声合成のプロセスで あって、 ウィンドウの端縁で0まで減少する振幅を有するウィンドウをフィルタリングす ることにより声帯の興奮への声帯の各パルス応答の初めで実質上センタリングさ れたウインドウィングにより、少なくとも音エレメントの有声音について分析が 実行され、それの幅は最初の基本周期の2倍または基本の合成周期の2倍に少な くとも等しく、各音エレメントに対応するウインドウィングから結果として生じ る信号は基本合成周期に等しいそれの時間シフトと置換され、それは基本合成周 波数に関連する韻律素の情報に応答する最初の基本周期より小さく、または大き く、そのようにシフトされた信号を合計することにより合成が実行されることを 特徴とするプロセス。
- 2.たとえばジフォンである音エレメントの辞書が形成され、合成されるテキス トはマイクロフレームに細分され各々が対応する音エレメント(ジフォン)の連 続番号およびエレメントの初めの、および終りの基本周波数の値により、および エレメントの持続時間により少なくとも形成される少なくとも1つの韻律素情報 により識別されることを特徴とする、請求項1に記載の音声合成プロセス。
- 3.ウィンドウの幅が基本周波数の減少の場合の最初の周期の2倍または基本周 波数の増加の場合の最終の合成周期の2倍に等しいことを特徴とする、請求項1 または請求項2の1つに記載の音声合成プロセス。
- 4.ウィンドウがハニングウィンドウであることを特徴とする、請求項1ないし 請求項3の1つに記載の音声合成プロセス。
- 5.それがバス(18、20)に接続された、計算マイクロプログラム、辞書記 述子(12)のアドレスの順序に記憶されたサンプルにより表わされる波形から 形成されるジフォンの辞書(10)、およびサンプリングされたハニングウィン ドウを含むメインランダムアクセスメモリ(16)を含み、前記ランダムアクセ スメモリ(16)はまたマイクロフレームメモリおよびワーキングメモリを形成 し、ローカル計算ユニット(24)および経路選択回路(26)は出力バッファ として役立つランダムアクセスメモリ(28)を計算ユニットか、または音声増 幅器(36)を駆動する低域フィルタ(34)を駆動する出力ディジタル/アナ ログコンバータ(32)の制御器(30)へ接続するのを可能にすることを特徴 とする、請求項1に記載のプロセスを実施するための音声合成装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR88/11517 | 1988-09-02 | ||
FR8811517A FR2636163B1 (fr) | 1988-09-02 | 1988-09-02 | Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03501896A true JPH03501896A (ja) | 1991-04-25 |
JP3294604B2 JP3294604B2 (ja) | 2002-06-24 |
Family
ID=9369671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP50962189A Expired - Fee Related JP3294604B2 (ja) | 1988-09-02 | 1989-09-01 | 波形の加算重畳による音声合成のための処理装置 |
Country Status (9)
Country | Link |
---|---|
US (2) | US5327498A (ja) |
EP (1) | EP0363233B1 (ja) |
JP (1) | JP3294604B2 (ja) |
CA (1) | CA1324670C (ja) |
DE (1) | DE68919637T2 (ja) |
DK (1) | DK175374B1 (ja) |
ES (1) | ES2065406T3 (ja) |
FR (1) | FR2636163B1 (ja) |
WO (1) | WO1990003027A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008152042A (ja) * | 2006-12-18 | 2008-07-03 | Mitsubishi Electric Corp | 音声合成装置、音声合成方法及び音声合成プログラム |
WO2013014876A1 (ja) * | 2011-07-28 | 2013-01-31 | 日本電気株式会社 | 素片処理装置、素片処理方法および素片処理プログラム |
CN107113270A (zh) * | 2014-12-23 | 2017-08-29 | 高通股份有限公司 | 通过平滑波形段之间的相位来减小波形峰值 |
Families Citing this family (215)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0527529B1 (en) * | 1991-08-09 | 2000-07-19 | Koninklijke Philips Electronics N.V. | Method and apparatus for manipulating duration of a physical audio signal, and a storage medium containing a representation of such physical audio signal |
EP0527527B1 (en) * | 1991-08-09 | 1999-01-20 | Koninklijke Philips Electronics N.V. | Method and apparatus for manipulating pitch and duration of a physical audio signal |
DE69231266T2 (de) * | 1991-08-09 | 2001-03-15 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium |
KR940002854B1 (ko) * | 1991-11-06 | 1994-04-04 | 한국전기통신공사 | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 |
FR2689667B1 (fr) * | 1992-04-01 | 1995-10-20 | Sagem | Recepteur de bord d'aide a la navigation d'un vehicule automobile. |
US5613038A (en) * | 1992-12-18 | 1997-03-18 | International Business Machines Corporation | Communications system for multiple individually addressed messages |
US6122616A (en) * | 1993-01-21 | 2000-09-19 | Apple Computer, Inc. | Method and apparatus for diphone aliasing |
US5490234A (en) * | 1993-01-21 | 1996-02-06 | Apple Computer, Inc. | Waveform blending technique for text-to-speech system |
JP2782147B2 (ja) * | 1993-03-10 | 1998-07-30 | 日本電信電話株式会社 | 波形編集型音声合成装置 |
JPH0736776A (ja) * | 1993-07-23 | 1995-02-07 | Reader Denshi Kk | 線形フィルタ処理した複合信号の発生装置及び発生方法 |
US5987412A (en) * | 1993-08-04 | 1999-11-16 | British Telecommunications Public Limited Company | Synthesising speech by converting phonemes to digital waveforms |
US6502074B1 (en) * | 1993-08-04 | 2002-12-31 | British Telecommunications Public Limited Company | Synthesising speech by converting phonemes to digital waveforms |
SE516521C2 (sv) * | 1993-11-25 | 2002-01-22 | Telia Ab | Anordning och förfarande vid talsyntes |
US5970454A (en) * | 1993-12-16 | 1999-10-19 | British Telecommunications Public Limited Company | Synthesizing speech by converting phonemes to digital waveforms |
US5787398A (en) * | 1994-03-18 | 1998-07-28 | British Telecommunications Plc | Apparatus for synthesizing speech by varying pitch |
US5633983A (en) * | 1994-09-13 | 1997-05-27 | Lucent Technologies Inc. | Systems and methods for performing phonemic synthesis |
JP3093113B2 (ja) * | 1994-09-21 | 2000-10-03 | 日本アイ・ビー・エム株式会社 | 音声合成方法及びシステム |
IT1266943B1 (it) * | 1994-09-29 | 1997-01-21 | Cselt Centro Studi Lab Telecom | Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda. |
US5694521A (en) * | 1995-01-11 | 1997-12-02 | Rockwell International Corporation | Variable speed playback system |
DE69615832T2 (de) * | 1995-04-12 | 2002-04-25 | British Telecommunications P.L.C., London | Sprachsynthese mit wellenformen |
US6591240B1 (en) * | 1995-09-26 | 2003-07-08 | Nippon Telegraph And Telephone Corporation | Speech signal modification and concatenation method by gradually changing speech parameters |
BE1010336A3 (fr) * | 1996-06-10 | 1998-06-02 | Faculte Polytechnique De Mons | Procede de synthese de son. |
SE509919C2 (sv) * | 1996-07-03 | 1999-03-22 | Telia Ab | Metod och anordning för syntetisering av tonlösa konsonanter |
US5751901A (en) | 1996-07-31 | 1998-05-12 | Qualcomm Incorporated | Method for searching an excitation codebook in a code excited linear prediction (CELP) coder |
US5832441A (en) * | 1996-09-16 | 1998-11-03 | International Business Machines Corporation | Creating speech models |
US5950162A (en) * | 1996-10-30 | 1999-09-07 | Motorola, Inc. | Method, device and system for generating segment durations in a text-to-speech system |
US5915237A (en) * | 1996-12-13 | 1999-06-22 | Intel Corporation | Representing speech using MIDI |
WO1998035339A2 (en) * | 1997-01-27 | 1998-08-13 | Entropic Research Laboratory, Inc. | A system and methodology for prosody modification |
US5924068A (en) * | 1997-02-04 | 1999-07-13 | Matsushita Electric Industrial Co. Ltd. | Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion |
US6020880A (en) * | 1997-02-05 | 2000-02-01 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for providing electronic program guide information from a single electronic program guide server |
US6130720A (en) * | 1997-02-10 | 2000-10-10 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for providing a variety of information from an information server |
KR100269255B1 (ko) * | 1997-11-28 | 2000-10-16 | 정선종 | 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법 |
JP2001513225A (ja) * | 1997-12-19 | 2001-08-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 伸長オーディオ信号からの周期性の除去 |
JP3902860B2 (ja) * | 1998-03-09 | 2007-04-11 | キヤノン株式会社 | 音声合成制御装置及びその制御方法、コンピュータ可読メモリ |
DE19837661C2 (de) * | 1998-08-19 | 2000-10-05 | Christoph Buskies | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten |
DE19861167A1 (de) | 1998-08-19 | 2000-06-15 | Christoph Buskies | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten |
US6178402B1 (en) | 1999-04-29 | 2001-01-23 | Motorola, Inc. | Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network |
US6298322B1 (en) | 1999-05-06 | 2001-10-02 | Eric Lindemann | Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal |
JP2001034282A (ja) * | 1999-07-21 | 2001-02-09 | Konami Co Ltd | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
WO2001026091A1 (en) * | 1999-10-04 | 2001-04-12 | Pechter William H | Method for producing a viable speech rendition of text |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
EP1319227B1 (en) * | 2000-09-15 | 2007-03-14 | Lernout & Hauspie Speech Products N.V. | Fast waveform synchronization for concatenation and time-scale modification of speech |
US7280969B2 (en) * | 2000-12-07 | 2007-10-09 | International Business Machines Corporation | Method and apparatus for producing natural sounding pitch contours in a speech synthesizer |
US7683903B2 (en) | 2001-12-11 | 2010-03-23 | Enounce, Inc. | Management of presentation time in a digital media presentation system with variable rate presentation capability |
US6950798B1 (en) * | 2001-04-13 | 2005-09-27 | At&T Corp. | Employing speech models in concatenative speech synthesis |
JP3901475B2 (ja) * | 2001-07-02 | 2007-04-04 | 株式会社ケンウッド | 信号結合装置、信号結合方法及びプログラム |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7546241B2 (en) * | 2002-06-05 | 2009-06-09 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus, and dictionary generation method and apparatus |
US8145491B2 (en) * | 2002-07-30 | 2012-03-27 | Nuance Communications, Inc. | Techniques for enhancing the performance of concatenative speech synthesis |
AU2003249443A1 (en) | 2002-09-17 | 2004-04-08 | Koninklijke Philips Electronics N.V. | Method for controlling duration in speech synthesis |
US7558727B2 (en) | 2002-09-17 | 2009-07-07 | Koninklijke Philips Electronics N.V. | Method of synthesis for a steady sound signal |
EP1543498B1 (en) | 2002-09-17 | 2006-05-31 | Koninklijke Philips Electronics N.V. | A method of synthesizing of an unvoiced speech signal |
DE60303688T2 (de) | 2002-09-17 | 2006-10-19 | Koninklijke Philips Electronics N.V. | Sprachsynthese durch verkettung von sprachsignalformen |
EP1628288A1 (en) * | 2004-08-19 | 2006-02-22 | Vrije Universiteit Brussel | Method and system for sound synthesis |
DE102004044649B3 (de) * | 2004-09-15 | 2006-05-04 | Siemens Ag | Verfahren zur integrierten Sprachsynthese |
WO2006137425A1 (ja) * | 2005-06-23 | 2006-12-28 | Matsushita Electric Industrial Co., Ltd. | オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US20070106513A1 (en) * | 2005-11-10 | 2007-05-10 | Boillot Marc A | Method for facilitating text to speech synthesis using a differential vocoder |
WO2007141993A1 (ja) * | 2006-06-05 | 2007-12-13 | Panasonic Corporation | 音声合成装置 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
EP2135231A4 (en) * | 2007-03-01 | 2014-10-15 | Adapx Inc | SYSTEM AND METHOD FOR DYNAMIC LEARNING |
EP1970894A1 (fr) | 2007-03-12 | 2008-09-17 | France Télécom | Procédé et dispositif de modification d'un signal audio |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8706496B2 (en) * | 2007-09-13 | 2014-04-22 | Universitat Pompeu Fabra | Audio signal transforming by utilizing a computational cost function |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10706373B2 (en) * | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
WO2011001589A1 (ja) * | 2009-06-29 | 2011-01-06 | 三菱電機株式会社 | オーディオ信号処理装置 |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
WO2012160767A1 (ja) * | 2011-05-25 | 2012-11-29 | 日本電気株式会社 | 素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8744854B1 (en) | 2012-09-24 | 2014-06-03 | Chengjun Julian Chen | System and method for voice transformation |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN112230878B (zh) | 2013-03-15 | 2024-09-27 | 苹果公司 | 对中断进行上下文相关处理 |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US11151899B2 (en) | 2013-03-15 | 2021-10-19 | Apple Inc. | User training by intelligent digital assistant |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
DE102014114845A1 (de) * | 2014-10-14 | 2016-04-14 | Deutsche Telekom Ag | Verfahren zur Interpretation von automatischer Spracherkennung |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
WO2017129270A1 (en) * | 2016-01-29 | 2017-08-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
CN111183476B (zh) * | 2017-10-06 | 2024-03-22 | 索尼欧洲有限公司 | 基于子窗口序列内的rms功率的音频文件包络 |
US10594530B2 (en) * | 2018-05-29 | 2020-03-17 | Qualcomm Incorporated | Techniques for successive peak reduction crest factor reduction |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4398059A (en) * | 1981-03-05 | 1983-08-09 | Texas Instruments Incorporated | Speech producing system |
US4692941A (en) | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
US4833718A (en) * | 1986-11-18 | 1989-05-23 | First Byte | Compression of stored waveforms for artificial speech |
US4852168A (en) * | 1986-11-18 | 1989-07-25 | Sprague Richard P | Compression of stored waveforms for artificial speech |
-
1988
- 1988-09-02 FR FR8811517A patent/FR2636163B1/fr not_active Expired - Lifetime
-
1989
- 1989-09-01 JP JP50962189A patent/JP3294604B2/ja not_active Expired - Fee Related
- 1989-09-01 WO PCT/FR1989/000438 patent/WO1990003027A1/fr unknown
- 1989-09-01 EP EP89402394A patent/EP0363233B1/fr not_active Expired - Lifetime
- 1989-09-01 CA CA000610127A patent/CA1324670C/fr not_active Expired - Lifetime
- 1989-09-01 US US07/487,942 patent/US5327498A/en not_active Expired - Lifetime
- 1989-09-01 ES ES89402394T patent/ES2065406T3/es not_active Expired - Lifetime
- 1989-09-01 DE DE68919637T patent/DE68919637T2/de not_active Expired - Lifetime
-
1990
- 1990-05-01 DK DK199001073A patent/DK175374B1/da not_active IP Right Cessation
-
1994
- 1994-04-04 US US08/224,652 patent/US5524172A/en not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008152042A (ja) * | 2006-12-18 | 2008-07-03 | Mitsubishi Electric Corp | 音声合成装置、音声合成方法及び音声合成プログラム |
WO2013014876A1 (ja) * | 2011-07-28 | 2013-01-31 | 日本電気株式会社 | 素片処理装置、素片処理方法および素片処理プログラム |
CN107113270A (zh) * | 2014-12-23 | 2017-08-29 | 高通股份有限公司 | 通过平滑波形段之间的相位来减小波形峰值 |
CN107113270B (zh) * | 2014-12-23 | 2020-06-16 | 高通股份有限公司 | 通过平滑波形段之间的相位来减小波形峰值的方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
ES2065406T3 (es) | 1995-02-16 |
DE68919637T2 (de) | 1995-07-20 |
US5327498A (en) | 1994-07-05 |
FR2636163B1 (fr) | 1991-07-05 |
DK107390A (da) | 1990-05-30 |
EP0363233A1 (fr) | 1990-04-11 |
US5524172A (en) | 1996-06-04 |
FR2636163A1 (fr) | 1990-03-09 |
DK107390D0 (da) | 1990-05-01 |
JP3294604B2 (ja) | 2002-06-24 |
EP0363233B1 (fr) | 1994-11-30 |
CA1324670C (fr) | 1993-11-23 |
WO1990003027A1 (fr) | 1990-03-22 |
DK175374B1 (da) | 2004-09-20 |
DE68919637D1 (de) | 1995-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH03501896A (ja) | 波形の加算重畳による音声合成のための処理装置 | |
EP1220195B1 (en) | Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method | |
JP3078205B2 (ja) | 波形の連結及び部分的重複化による音声合成方法 | |
EP0427485A2 (en) | Speech synthesis apparatus and method | |
US20040172251A1 (en) | Speech synthesis method | |
US20050131680A1 (en) | Speech synthesis using complex spectral modeling | |
EP0813184B1 (en) | Method for audio synthesis | |
US20040024600A1 (en) | Techniques for enhancing the performance of concatenative speech synthesis | |
US5787398A (en) | Apparatus for synthesizing speech by varying pitch | |
US7089187B2 (en) | Voice synthesizing system, segment generation apparatus for generating segments for voice synthesis, voice synthesizing method and storage medium storing program therefor | |
US6829577B1 (en) | Generating non-stationary additive noise for addition to synthesized speech | |
EP1543497B1 (en) | Method of synthesis for a steady sound signal | |
JP2600384B2 (ja) | 音声合成方法 | |
CN100508025C (zh) | 合成语音的方法和设备及分析语音的方法和设备 | |
EP0750778B1 (en) | Speech synthesis | |
JP2001034284A (ja) | 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体 | |
JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
JP3059751B2 (ja) | 残差駆動型音声合成装置 | |
JPH09179576A (ja) | 音声合成方法 | |
JP2987089B2 (ja) | 音声素片作成方法および音声合成方法とその装置 | |
JP2615856B2 (ja) | 音声合成方法とその装置 | |
JP2001100777A (ja) | 音声合成方法及び装置 | |
Yazu et al. | The speech synthesis system for an unlimited Japanese vocabulary | |
JP3532059B2 (ja) | 音声合成方法及び音声合成装置 | |
Rahman | Pitch shifting of voices in real-time |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |