JP4112613B2 - 波形言語合成 - Google Patents

波形言語合成 Download PDF

Info

Publication number
JP4112613B2
JP4112613B2 JP53079896A JP53079896A JP4112613B2 JP 4112613 B2 JP4112613 B2 JP 4112613B2 JP 53079896 A JP53079896 A JP 53079896A JP 53079896 A JP53079896 A JP 53079896A JP 4112613 B2 JP4112613 B2 JP 4112613B2
Authority
JP
Japan
Prior art keywords
sequence
waveform
beginning
language
overlapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP53079896A
Other languages
English (en)
Other versions
JPH11503535A (ja
Inventor
アンドリュー ロウリー、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JPH11503535A publication Critical patent/JPH11503535A/ja
Application granted granted Critical
Publication of JP4112613B2 publication Critical patent/JP4112613B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Manufacture Of Motors, Generators (AREA)

Description

この発明は言語合成(スピーチ・シンセシス)に係り、とくにディジタイズされた波形の記憶されたセグメントが検索されて組合されるようにする言語合成に関する。
言語合成器でディジタイズした波形の記憶したセグメントを検索して組合せるものの例は、Tomohisa Hirokawa他の文献(“High Quality Speech Synthesis System Based on Waveform Concatenation of Phoneme Segment”、IEICE Transactions on Fundamentals of Electronics、Communications and Computer Sciences 76a、1993年11月、No.11)の論文に記述されている。
この発明によると、言語合成方法が提供され、その構成は:第1の所望言語波形に対応するディジタルサンプルの第1のシーケンスとその波形の励起瞬間を定義する第1のピッチデータとを検索する段階と;
第2の所望言語波形に対応するディジタルサンプルの第2のシーケンスとこの第2の波形の励起瞬間を定義する第2のピッチデータとを検索する段階と;
少くとも1つのシーケンスから拡張シーケンスを合成することによってオーバーラップを形成して、拡張シーケンスがそれぞれの他のシーケンスの励起瞬間が同期するようにする調整されるようにする段階と;
もとのシーケンスのサンプルと拡張シーケンスのサンプルとの重み付け和をオーバーラップ領域のために形成する段階;とから成る。
この発明を別な観点からとらえると、言語合成用装置が提供され、その構成は:
言語波形の部分に対応するディジタルサンプルのシーケンスとこれら波形の励起瞬間とを定義するピッチデータとを記憶する手段と;
この記憶手段1から言語波形の所望部分に対応するディジタルサンプルのシーケンスとこの波形の励起瞬間を定義する対応するピッチデータとを検索するために制御可能な制御手段と;
検索されたシーケンスを結合するための手段であって、この結合用手段は動作時に、(a)1対の検索されたシーケンスの少くとも第1のものからその対の他のシーケンスとともにオーバーラップ範囲にまで、そのシーケンスを拡張するために拡張シーケンスを合成して、この拡張シーケンスが他のシーケンスの励起瞬間と同期するようにピッチ調整がされ、かつ(b)このオーバーラップ範囲に対してもとのシーケンスのサンプルと拡張シーケンスのサンプルとの重み付け和を形成するように、されている結合用手段とから成る。
この発明の他の特徴は従属する請求項で規定されている。
この発明の若干の実施態様を添付の図面を参照して例として記述していく。
図1はこの発明による言語合成器の一形式の構成図である。
図2は図1の装置の結合部5の動作を示す流れ図である。
図3ないし9は結合部5の動作を示す波形図である。
図1の言語合成器では、メモリ1は言語のディジタイズした一節から生成された言語波形部を含んでいて、この言語の一節は人間の話者があらゆる可能性をもつ異なる音を含むか、少くとも異なる音の幅広い選択を含むように選んだ(おそらくは200の文章の)一節を読んだものからもともとは記録されたものである。こうして波形メモリ1内への各エントリイは1又は複数の音素に対応する言語の一部のディジタルサンプルと、音素間の境界を示すマーカー情報とを備えている。各部分に付随して、“ピッチマーク”を定義するデータが記憶されており、これは信号内の声門閉鎖(glottal closure)の点を表わしており、もとの記録の際に普通のやり方で生成されるものである。
合成すべき言語を表わす入力信号は、音声学上の表現形式で入力2へ送られる。この入力は望むならば通常の手段(図示せず)によるテキスト(文書)入力から生成されてもよい。この入力は選択部3によって既知の方法で処理され、そこで入力の各ユニットに対してそのユニットによって表わされる音に対応する記憶された波形部分のメモリ1内のアドレスを決める。このユニットは、上述のように、音素でも、ジフォーン(2音)、トライフォーン(3音)でも、あるいは他のサブワード(sub-word)ユニットでもよく、また一般的にはユニットの長さは対応する波形部分の波形メモリ内での利用可能性に従って変えられる。可能な場合には、1つの音素によって先行するユニットが重なる(オーバーラップする)ようなユニットを選ぶのが好ましい。これを達成する手段は出願人が出願中の国際出願番号PCT/GB/9401688と米合衆国特許出願番号166,988、1993年12月16日付に記述されている。
これらのユニットは一度読出されると、各々が個々に振幅正規化処理を振幅調節部4で受けることになり、ここでの動作はわれわれの未決欧州特許出願番号95301478.4に記述されている。
これらユニットは次に5で一緒に結合させる。この装置の動作のための流れ図が図2に示されている。この記述では、ユニットとそれに続くユニットとがそれぞれ左ユニットと右ユニットと呼ばれている。ユニットがオーバーラップするとき、すなわち、左ユニットの最後の音素と右ユニットの最初の音素とが同じ音を表わし、かつ最終出力で一個の音素だけを形成するときは、余分な情報を削除してから“併合(merge)”式結合を作り;そうでなければ“隣接(abut)”式結合が適当となる。
図2の段階10では、ユニットが受けられて、併合の型式に従って(段階11)切落し(トランケーション)が必要か不必要かになる。段階12では、対応するピッチアレイが切落される;左ユニットに対応するアレイでは、そのアレイは第1のピッチマークの後に最終の音素の中間点の右まで切られて、中間点後のピッチマークは1つを残してすべてが削除され、また右ユニットに対するアレイでは最終ピッチマークの前の第1の音素の中間点の左まで切られて、中間点前のピッチマークが1つを残して削除される。これが図3に示されている。
先に進む前に、結合の各側部にある音素は各音素のピッチマークの存在と位置とに基づいて、有声か無声かに分類されることを要する。これは“ピッチ切断(カッテング)”段階後に行なわれるので(段階13)、有声の判断は何がしかのピッチマークの可能な除去後の各音素の状態を反映していることに留意したい。音素は次の場合に有声に分類される:
1.ピッチアレイの対応する部分が2以上のピッチマークを含む場合、
2.結合に一番近い2つのピッチマーク間の時間差がしきい値より小さい場合、
3a.併合式結合に対しては、結合に一番近いピッチマークとその音素の中間点との時間差がしきい値より小さい場合、または、
3b.隣接式結合に対しては、結合に一番近いピッチマークと左ユニットの終り(又は右ユニットの始め)との間の時間差がしきい値より小さい場合である。その他の場合は無声と分類される。
3aと3bの規則は次の段階での言語サンプルの過剰な損失を回避するように設計されている。
併合式結合の場合には(段階14)、言語サンプルは有声音素から削除され(段階15)、次のようにされる:
左ユニット、最終の音素―最終ピッチマークに続くすべてのサンプルを削除する;
右ユニット、最初の音素―第1のピッチマークの前のすべてのサンプルを削除する;
また、無声音素からは音素の中間点の右又は左までのすべてのサンプルを削除することによる(それぞれ左と右のユニットに対して)。
隣接式結合の場合には(段階16、15)、無声音素は除去されるサンプルはなく、他方で有声サンプルは普通は併合式の場合と同じように取扱われるが、何もピッチマークが全く削除されないときにより僅かなサンプルが失なわれる。これがサンプルの過剰な数(例えば20msを超えて)の損失を生じさせることになる場合には、サンプルは一切除去されれず、音素は別な処理では無声として取扱われるようにマークが付けられる。
図4は有声音素からのサンプル除去を示している。ピッチマーク位置は矢印で示されている。図示された波形は単なる例であって、実際の言語波形の典型でないことに留意すべきである。
2つの音素を結合するために用いられる手順はオーバーラップ−アド(重ねて加える)プロセスである。しかし、両方の音素が有声である(有声結合)か、一方または両方が無声である(無声結合)か(段階17)によって別の手順を使用する。
有声結合(段階18)を先ず記述する。これは次のような基本的な段階を含んでいる:既存の波形の部分をコピーすることによって音素の拡張を合成すること、ただし結合されることになる相手のの音素に対応するピッチ期間を用いる。しかしながら、これは整合用ピッチマークをもつオーバーラップ領域を生成する(あるいは、併合式結合の場合には再び生成される)。サンプルは次に重み付け加算を受けて(段階19)、結合全体で滑らかな遷移(トランジション)を生成する。オーバーラップは左音素又は右音素の拡張によって生成できるが、好ましい方法は左と右の音素が両方とも拡張することであり、次のようにされる。もっと詳細は:
1.ハニング(Hanning)窓を用いて、合成のために既存波形の1セグメントが選ばれる。この窓の長さは左ユニットの最後の2ピッチ期間と右ユニットの最初の2ピッチ期間とを眺めて、これら4つの値の最小のものを見つけることにより選ばれる。結合の両側で使用する窓の幅はこの値の2倍に設定される。
2.窓期間に対するソースサンプルで、左ユニットの終りから2番目のピッチマーク又は右ユニットの第2のものに中心を置くものは、図5に示すように、抽出されてハニング窓関数により乗算される。他の音素ピッチマークと同期した位置における、シフトしたバージョンが加えられて合成した波形拡張が作られる。これが図7に示されている。左ユニットの最終ピッチ期間は窓関数の半分で乗算され、シフトされ、窓がけをしたセグメントが最終のもとのピッチマーク位置また右ユニットの継続するピッチマーク位置で重ね加算がされる。同様のプロセスが右ユニットに対しても行なわれる。
3.結果として生じたオーバーラップした音素が次に併合される;各々は図7に示すように2つの合成した部分の全長に等しい長さをもつハニング窓の半分で乗算され、その2つが一緒に加算される(左ユニットの最後のピッチマークは右の最初のピッチマークと整列している);結果として生じた波形は、図8で示すように左音素の波形から右の波形への滑らかな遷移を示すようにしなければならない。
4.合成と併合プロセスのためのオーバーラップ(重なり)のピッチ期間の数は次のように決まる。オーバーラップは次の条件の1つが発生するまで他の音素の時間内に延長される。
(a)音素の境界に到達する、
(b)ピッチ期間が所定の最大値を超える、
(c)オーバーラップが所定の最大値に到達する(例えば5ピッチ期間)。
しかしもし条件(a)が所定の最小値(例えば3)未満となるピッチ期間数内で生じるときは、さらに1つの追加ピッチ期間を許容するように緩めてもよい。
無声結合は、段階20で単に2つのユニットを時間的にシフトして、オーバーラップ領域を生成し、段階21では図9に示されているようにハニング重み付け重ね加算を用いることによって行われる。オーバーラップしている継続時間として選ばれたものは、もし音素の1つが有声であれば、結合での有声ピッチ期間の継続時間であり、あるいはいずれもが無声であれば、固定値(典型例は5ms)である。しかしながら(隣接に対する)オーバーラップは2つの音素の短い方の長さの半分を超えてはならない。オーバーラップ領域のピッチマークは削除する。併合のために切落しされていれば残った長さの半分を超えてはならない。隣接式結合に対しては、2つの音素間の境界が後の処理のために考慮して、オーバーラップ範囲(領域)の中間点に来るようにする。
無論、オーバーラップを生成するこのシフト方法は言語の継続時間を短縮する。これは、併合結合の場合には、サンプルを削除するときに、中間点ではなく僅かに片側によったところで“切落し”て、音素がその(もとの)中間点として整列したものをもっているときにオーバーラップが生ずるようにすると短縮を回避できる。
記述した方法は好結果を生ずる;しかし、ピッチマークと記憶した言語波形との間の位相は、ピッチマークがどのように生成されたかに依って変えることができる。したがって、ピッチマークが結合で同期しているとしても、これは結合をまたいでの連続波形を保証していない。それだから、右ユニットのサンプルは(もし必要であれば)そのピッチマークに対して選ばれた量だけシフトされていて、オーバーラップ範囲内で2つのユニット間の相互相関が最大となるようにするのが好ましい。これはオーバーラップ範囲内で2つの波形間の相互相関を異なる試行シフト(例えば125μsの段階で±3ms)で計算することにより実施できる。一度これがされると、右ユニットの拡張に対する合成が繰返されることになる。
結合後には、全体のピッチ調節が通常の方法でされることが図1の6に示されている。
結合部5は実際には、ディジタル処理部と上述の段階を実施する一連のプログラム命令を含むメモリとによって実現できる。

Claims (5)

  1. 言語合成の方法であって、
    第1の所望言語波形に対応するディジタルサンプルの第1のシーケンスとその波形の励起瞬間を定義する第1のピッチデータとを記憶装置から検索する段階と、
    第2の所望言語波形に対応するディジタルサンプルの第2のシーケンスとその波形の励起瞬間を定義する第2のピッチデータとを記憶装置から検索する段階と、
    前記検索された第1のシーケンスの終わりを前記検索された第2のシーケンスの始めに結合する段階とを含み、前記結合する段階は、
    前記第1のシーケンスの終わりの波形と同じ波形を前記第1のシーケンスの終わりに付加してなる拡張シーケンスを、前記第2のシーケンスの始めの波形にオーバーラップするか、
    または前記第2のシーケンスの始めの波形と同じ波形を前記第2のシーケンスの始めに付加してなる拡張シーケンスを、前記第1のシーケンスの終わりの波形にオーバーラップするか、
    あるいは、前記第1のシーケンスの終わりの波形と同じ波形を前記第1のシーケンスの終わりに付加してなる拡張シーケンスを、前記第2のシーケンスの始めの波形と同じ波形を前記第2のシーケンスの始めに付加してなる拡張シーケンスとオーバーラップするかのいずれかを行うことと、
    前記オーバーラップされたシーケンスの各励起瞬間が互いに同期するように調整することと、
    前記オーバーラップされたシーケンスの各サンプルの重み付け和を形成することとを含む方法。
  2. 言語合成の方法であって、
    第1の所望言語波形に対応するディジタルサンプルの第1のシーケンスとその波形の励起瞬間を定義する第1のピッチデータとを記憶装置から検索する段階と、
    第2の所望言語波形に対応するディジタルサンプルの第2のシーケンスとその波形の励起瞬間を定義する第2のピッチデータとを記憶装置から検索する段階と、
    前記検索された第1のシーケンスの終わりを前記検索された第2のシーケンスの始めに結合する段階とを含み、前記結合する段階は、
    前記第1のシーケンスの終わりの波形と同じ波形を前記第1のシーケンスの終わりに付加してなる第1の拡張シーケンスを、前記第2のシーケンスの始めの波形にオーバーラップして、オーバーラップされた両シーケンスの各励起瞬間が互いに同期するように調整することと、
    前記第2のシーケンスの始めの波形と同じ波形を前記第2のシーケンスの始めに付加してなる第2の拡張シーケンスを、前記第1のシーケンスの終わりの波形にオーバーラップし、オーバーラップされた両シーケンスの各励起瞬間が互いに同期するように調整することと、
    オーバーラップされた前記第1の拡張シーケンスおよび第2のシーケンスの各サンプルの重み付け和と、オーバーラップされた前記第2の拡張シーケンスおよび第1のシーケンスの各サンプルの重み付け和とを形成こととを含む方法。
  3. 前記第1のシーケンスはその終りに特定の音に対応する部分を有し、また前記第2のシーケンスはその始めに同じ音に対応する部分を有し、かつ結合前には、前記第1のシーケンスの前記終りの部分と前記第2のシーケンスの前記始めの部分から幾つかのサンプルを除去する段階を含む請求項2記載の方法。
  4. 前記オーバーラップすることは、オーバーラップされる前記シーケンスの一方からサンプルのサブシーケンスを抽出し、窓関数によってサブシーケンスを乗算し、乗算されたサブシーケンスに前記オーバーラップされる他方のシーケンスの励起瞬間に対応するシフトを繰返し加えることを含む請求項1、2、又は3の何れか1項記載の方法。
  5. 言語合成用装置であって、
    言語波形の部分に対応するディジタルサンプルのシーケンスとこれら波形の励起瞬間を定義するピッチデータとを記憶する記憶手段(1)と、
    言語波形の所望部分に対応するディジタルサンプルと該波形の励起瞬間を定義する対応するピッチデータとを該記憶手段(1)から検索するように制御できる制御手段(2)と、
    検索したシーケンスを結合するための結合用手段(5)とで成り、該結合用手段が動作時に、
    (a)前記記憶手段から第1のシーケンスおよび第2のシーケンスを検索し、
    (b)第1のシーケンスの終わりの波形と同じ波形を前記第1のシーケンスの終わりに付加してなる拡張シーケンスを、前記第2のシーケンスの始めの波形にオーバーラップするか、
    または前記第2のシーケンスの始めの波形と同じ波形を前記第2のシーケンスの始めに付加してなる拡張シーケンスを、前記第1のシーケンスの終わりの波形にオーバーラップするか、
    あるいは、前記第1のシーケンスの終わりの波形と同じ波形を前記第1のシーケンスの終わりに付加してなる拡張シーケンスを、前記第2のシーケンスの始めの波形と同じ波形を前記第2のシーケンスの始めに付加してなる拡張シーケンスとオーバーラップするかのいずれかを行い、
    (c)前記オーバーラップされたシーケンスの各励起瞬間が互いに同期するように調整し、
    (d)前記オーバーラップされたシーケンスの各サンプルの重み付け和を形成するようにされている言語合成用装置。
JP53079896A 1995-04-12 1996-04-03 波形言語合成 Expired - Fee Related JP4112613B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AT95302474.2 1995-04-12
EP95302474 1995-04-12
PCT/GB1996/000817 WO1996032711A1 (en) 1995-04-12 1996-04-03 Waveform speech synthesis

Publications (2)

Publication Number Publication Date
JPH11503535A JPH11503535A (ja) 1999-03-26
JP4112613B2 true JP4112613B2 (ja) 2008-07-02

Family

ID=8221165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP53079896A Expired - Fee Related JP4112613B2 (ja) 1995-04-12 1996-04-03 波形言語合成

Country Status (11)

Country Link
US (1) US6067519A (ja)
EP (1) EP0820626B1 (ja)
JP (1) JP4112613B2 (ja)
CN (1) CN1145926C (ja)
AU (1) AU707489B2 (ja)
CA (1) CA2189666C (ja)
DE (1) DE69615832T2 (ja)
HK (1) HK1008599A1 (ja)
NO (1) NO974701D0 (ja)
NZ (1) NZ304418A (ja)
WO (1) WO1996032711A1 (ja)

Families Citing this family (130)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE509919C2 (sv) * 1996-07-03 1999-03-22 Telia Ab Metod och anordning för syntetisering av tonlösa konsonanter
US6175821B1 (en) 1997-07-31 2001-01-16 British Telecommunications Public Limited Company Generation of voice messages
JP3912913B2 (ja) * 1998-08-31 2007-05-09 キヤノン株式会社 音声合成方法及び装置
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
AU2001290882A1 (en) * 2000-09-15 2002-03-26 Lernout And Hauspie Speech Products N.V. Fast waveform synchronization for concatenation and time-scale modification of speech
JP2003108178A (ja) * 2001-09-27 2003-04-11 Nec Corp 音声合成装置及び音声合成用素片作成装置
GB2392358A (en) * 2002-08-02 2004-02-25 Rhetorical Systems Ltd Method and apparatus for smoothing fundamental frequency discontinuities across synthesized speech segments
US7529672B2 (en) * 2002-09-17 2009-05-05 Koninklijke Philips Electronics N.V. Speech synthesis using concatenation of speech waveforms
KR100486734B1 (ko) * 2003-02-25 2005-05-03 삼성전자주식회사 음성 합성 방법 및 장치
US7409347B1 (en) * 2003-10-23 2008-08-05 Apple Inc. Data-driven global boundary optimization
US7643990B1 (en) * 2003-10-23 2010-01-05 Apple Inc. Global boundary-centric feature extraction and associated discontinuity metrics
FR2884031A1 (fr) * 2005-03-30 2006-10-06 France Telecom Concatenation de signaux
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
ES2382319B1 (es) * 2010-02-23 2013-04-26 Universitat Politecnica De Catalunya Procedimiento para la sintesis de difonemas y/o polifonemas a partir de la estructura frecuencial real de los fonemas constituyentes.
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
JP5782799B2 (ja) * 2011-04-14 2015-09-24 ヤマハ株式会社 音声合成装置
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
JP6171711B2 (ja) * 2013-08-09 2017-08-02 ヤマハ株式会社 音声解析装置および音声解析方法
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
EP3857541B1 (en) * 2018-09-30 2023-07-19 Microsoft Technology Licensing, LLC Speech waveform generation
CN109599090B (zh) * 2018-10-29 2020-10-30 创新先进技术有限公司 一种语音合成的方法、装置及设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4802224A (en) * 1985-09-26 1989-01-31 Nippon Telegraph And Telephone Corporation Reference speech pattern generating method
US4820059A (en) * 1985-10-30 1989-04-11 Central Institute For The Deaf Speech processing apparatus and methods
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
US5490234A (en) * 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system
US5787398A (en) * 1994-03-18 1998-07-28 British Telecommunications Plc Apparatus for synthesizing speech by varying pitch
US5978764A (en) * 1995-03-07 1999-11-02 British Telecommunications Public Limited Company Speech synthesis

Also Published As

Publication number Publication date
HK1008599A1 (en) 1999-05-14
DE69615832T2 (de) 2002-04-25
JPH11503535A (ja) 1999-03-26
MX9707759A (es) 1997-11-29
AU707489B2 (en) 1999-07-08
DE69615832D1 (de) 2001-11-15
NO974701L (no) 1997-10-10
US6067519A (en) 2000-05-23
CA2189666C (en) 2002-08-20
NZ304418A (en) 1998-02-26
CN1145926C (zh) 2004-04-14
AU5159696A (en) 1996-10-30
CA2189666A1 (en) 1996-10-17
CN1181149A (zh) 1998-05-06
NO974701D0 (no) 1997-10-10
EP0820626B1 (en) 2001-10-10
WO1996032711A1 (en) 1996-10-17
EP0820626A1 (en) 1998-01-28

Similar Documents

Publication Publication Date Title
JP4112613B2 (ja) 波形言語合成
US7054815B2 (en) Speech synthesizing method and apparatus using prosody control
EP1220195B1 (en) Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method
JP3815347B2 (ja) 歌唱合成方法と装置及び記録媒体
JP3078205B2 (ja) 波形の連結及び部分的重複化による音声合成方法
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JPS62160495A (ja) 音声合成装置
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
US6212501B1 (en) Speech synthesis apparatus and method
KR19980702608A (ko) 음성 합성기
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
US5729657A (en) Time compression/expansion of phonemes based on the information carrying elements of the phonemes
JP3583852B2 (ja) 音声合成装置
WO2004027753A1 (en) Method of synthesis for a steady sound signal
WO2011030424A1 (ja) 音声合成装置およびプログラム
US6112178A (en) Method for synthesizing voiceless consonants
JP2577372B2 (ja) 音声合成装置および方法
JP3853923B2 (ja) 音声合成装置
MXPA97007759A (en) Synthesis of discourse in the form of on
JPH09160582A (ja) 音声合成装置
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2006133559A (ja) 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体
JPS63208099A (ja) 音声合成装置
JP2001109485A (ja) 音声合成装置及び音声合成方法並びに音声合成プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051129

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060228

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060529

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070220

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080410

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110418

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110418

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120418

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120418

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130418

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees