JPH11507740A - 言語合成 - Google Patents

言語合成

Info

Publication number
JPH11507740A
JPH11507740A JP9502810A JP50281097A JPH11507740A JP H11507740 A JPH11507740 A JP H11507740A JP 9502810 A JP9502810 A JP 9502810A JP 50281097 A JP50281097 A JP 50281097A JP H11507740 A JPH11507740 A JP H11507740A
Authority
JP
Japan
Prior art keywords
duration
phonetic
unit
value
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9502810A
Other languages
English (en)
Inventor
ブリーン、アンドリュー・ポール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JPH11507740A publication Critical patent/JPH11507740A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 入力テキストをシラブルまたはその他のフォネティックユニットの表示のシーケンスに変換し、記憶したデータ部分を検索して、シラブルに対応する波形を生成する。シラブルの音長を判断するために、規則正しいビート期間に対応する一定の音長を定め、シーケンス内のシラブルおよび/またはその前後関係の特色にしたがって調節する。

Description

【発明の詳細な説明】 言語合成 本発明は、言語合成、とくに、これのみに限定しないが、記憶した言語波形の セグメントを連結することによって動作する、テキスト(文書)から言語への合 成器に関する。 本発明にしたがって、言語合成器として、とくに、 フォネティックユニット(phonetic unit)表示のシーケンスを供給する手段 と、 データの記憶した部分を検索して、フォネティックユニットに対応する波形 を生成する手段と、 フォネティックユニットの音長(duration:継続期間の意)を判断する手段と 、 データ部分を処理して、判断した音長にしたがって波形の時間的継続期間を 調節する手段とを含み、 判断手段が規則正しいビート期間に対応する一定の期間を定めて、シーケン ス内のフォネティックユニットおよび/またはその前後関係の特色に依存してそ の音長を調節するように動作する言語合成器を提供する。 好ましくは、記憶したデータはそれら自身がデジタルの言語波形である(しか しながら、これは絶対的ではなく、本発明は他の形式の合成器、例えばフォルマ ント合成器に応用することもできる)。したがって好ましい構成では、合成器は 、音声サブユニットに対応する波形を表わすデータ項目を含むメモリ、各フォネ ティックユニットに対して、1または複数のデータ部分(1データ部分はサブユ ニットに対応する)を検索するように動作する検索手段、および各サブユニット において、最大値および最小値を含む統計的音長のデータを含む別のメモリを含 み、判断手段は、その構成要素のサブユニットに対して最小音長値の和と最大音 長値の和を計算し、前記一定の音長を調節し、最小値の和よりも小さくなったり 、最大値の和よりも大きくなったりしないように動作する。 好ましい実施形態では、フォネティックユニットはシラブルであり、サブユニ ットはフォニームである。 ここで本発明の1実施形態を添付の図面に示した言語合成器のブロック図を引 用して記載する。 図1の言語構成器は、コード形式の入力テキスト、例えばアスキー(ASCI I)コードを受信する入力1を有する。テキスト正規化ユニット2はテキストを 力すると“百ポンド(one hundred pound)”と変換される。テキスト正規化ユニ ット2からの出力は発音ユニット3へ送られ、このテキストはディクショナリま たは1組の規則、あるいは一層好ましくは両者を使用することによって音声表示 に変換される。発音ユニット3はさらに各シラブルに対して、このシラブルの代 りに辞書的ストレス(lexical stress)を示すパラメータを生成する。 パーサ4は各センテンス(sentence)を解析して、言語(speech)の部分(形容詞 、名詞、動詞、など)に関してセンテンスの構造を判断し、言語運用構造、例え ば主フレーズ(major phrase)(主フレーズは単語および沈黙(silence)によって 境界を定められた1纏まりの単語)および副フレーズを生成する。ピッチ割当て ユニット5は、ユニット3および4の出力に基いて各シラブルに対する“特徴(s ailence)”値を計算する。この値は、辞書的ストレス、主フレーズと副フレーズ との間の境界、言語の部分、およびその他の要素の機能として各シラブルに与え られた相対的ストレスを示している。一般的に相対的ストレスを使用して、合成 された言語の基本的なピッチを制御する(しかし、相対的ストレスの構成は図に 示されていない)。 音声表示はユニット3から、さらに選択ユニット6へ送られ、データベース7 へアクセスする。データベース7は言語波形のデジタルセグメントを含み、各セ グメントは各フォニームに対応する。好ましくは(本発明に不可欠というわけで はない)、データベースは各フォニームの多数の例を含み、(ヒューマンスピー カによって)異なる前後関係(コンテキスト)で記録され、選択ユニットはフォ ニームの例を選択するように動作し、この例となるフォニームの前後関係が最も よく整合する前後関係を有していて、生成されたフォニームが(このフォニーム に隣接するフォニーム間の整合という点で)入力テキストに実際に現れるように する。この選択に対する構成は々の同時出願である欧州特許出願第93306219.2号 に記載されている。波形セグメント(以下で一層詳細に記載する)を連結して、 デジタル波形サンプルの連続するシーケンスを生成する。このサンプルは入力1 で受信したテキストに対応する。 上記のユニットは、従来のユニットのように動作する。しかしながら装置はさ らに音長計算ユニット8を含む。音長計算ユニット8は、各フォニームにおいて 、ミリ秒の音長(または、その他の好都合な仮の測定単位)を示す出力を生成す るように動作する。この動作は規則正しいビートレート、すなわちシラブルの生 成レートが一定である、または言語の一部では少なくとも一定であるという発想 に基いている。このビートによって、シラブルが可能な限り適合していなければ ならない一定の期間を定められるとみることができるが、実際の音長は時々この 期間から逸脱することが分かるであろう。図示された装置は、固定された基本の ビートレートを仮定しているが、ユーザはこの設定を修正することができる。一 般的なレートは0.015ビート/m(すなわち、66.7msのビート期間で ある)であってもよい。 音長ユニット8は、データベース9へアクセスし、データベース9は各フォニ ームにおいて次のような統計的情報を含んでいる。 −フォニームの最小セグメント音長Pi,min −フォニームの最大セグメント音長Pi,max −フォニームの平均または最頻数(並数)セグメントの音長Pi,M 全ての論理フォニームの組Pの各フォニーム(i=1,…,n)に対して、こ れらの値を記憶していることが分かる。最頻数音長は、フォニーム長を分配する ときに最も頻繁に発生する値であり、この値は平均値であることが好ましい。こ れらの値は、注釈付きの言語サンプルのデータベースから判断することができる 。未処理の統計値はデータを使用するか、または平滑化(smooth)して、ガンマモ デルの音長のようなデータを使用することができる。最良の結果を得るには、こ の統計的情報は合成されるフォニームと同じ形式の言語から導き出すべきである 。事実、データベース7が各フォニームpiの多数の例を含むとき、統計的情報 はデータベース7それ自身の情報から生成することができる。なお、これらの値 を1回だけで判断することも記載しておく。 音長ユニット8は各シラブルjに対して以下のように処理を進める。この記法 は各シラブルはL個のフォニーム(Lは明らかに各シラブル毎に変化する)を含 み、1番目のフォニームは指標i(1)として識別される−すなわち、フォニームp3 がシラブル内の位置2にあるとき、i(2)=3と表すことができる。 (1)シラブルの最小および最大の可能な音長を判断する−すなわち、 最大値および最小値は、シラブル音長の第1の組の境界を表わしている。 (2)各シラブルと関係しているものは特徴の程度を表わしている要素であり、 これはユニット5から得られ;上述のように、シラブルが単語内にあることがど の程度明らかであるか、およびシラブルがセンテンス内にあることがどの程度明 らかであるかを示す情報から判断される。したがってこの要素を使用して、所定 のシラブルを時間内にどの程度多く押込むことができるかを判断する。特徴要素 Salj(j番目のシラブル)は0乃至100の範囲を有すると仮定される。0の特 徴要素はシラブルを最小の音長にSylj.minに押込むことができることを示し 、一方で100の特徴要素は最大の音長Sylj,maxを有することを示している 。したがって修正した最大音長は次のように算出される。 Syl´j,min=Sylj,min+ (Sylj,max−Sylj,min)Salj/100 (3)ビート期間Tが修正した最小音長および最大音長によって定められる範囲 内にあるときはこれを使用し、そうでないときは修正した最小の音長または最大 の音長を使用して所望の音長Sylj,cを計算する。 T<Syl´j,minであるとき、 Sylj,c=Syl´j,minである。 さもなければ、 T<Syl´j,maxであるとき、 Sylj,c=Sylj,maxである。 さもなければ、 Sylj,c=Tである。 (4)シラブルの音長を判断するとき、シラブル内の個々のフォニームの音長が 判断されるはずである。これは、最頻数音長の相対的な重み付けにしたがって有 効時間Sylj,cをLのフォニーム間で割当てることによって達成される。 −第1に、シラブルの比r1は1番目のフォニームによって占められることが分 かる。 次の式からj番目のシラブルの1番目の算出された音長が得られる。 Pi(1),c=r1・Sylj.c 一般的に、人は一定の速度で話しをしない。とくに、多数の単語を含む発話(u tterance)は、小数の単語を含む発話よりも速い。 したがって、本発明の好ましい実施形態では、問題となっているフォニームを 含む主フレーズの長さに依存してフォニームの音長Pi(r)cに対してさらに修正 を加える。 この修正を計算するとき、フォニームの音長の増減率を、7つのシラブルでカ ットオフをもつ主フレーズ内のシラブル数の簡単な線形関数として算出する。主 フレーズの中に1つだけのシラブルがあるときに、フォニームの音長の増加率は 最大であり、この修正ではシラブル数が7に増加するまで線形に減少する。主フ レーズに含まれるフォニームの音長へ加えられる修正は、主フレーズが7より多 くのシラブルを有していても、7のシラブルを有するものと同じやり方で行なわ れる。ある状況では、7よりも多いかまたは少ないシラブルで分割する分割点が 好ましいことが分かることもある。 加えて、非線形関数から主フレーズ内のシラブル数と主フレーズ内のシラブル の音長との関係のより良いモデルを得られることが分かる。さらに、主フレーズ 以外の単語群を使用することもできる。 フォニームの音長が算出されると(好ましい実施形態の場合は、修正されると )、次にユニット6から各フォニームごとに対応する波形セグメントを実現ユニ ット10が受取り、その長さを調節して、オーバーラップおよび加算方法を使用し て算出した(および、修正する場合もある)音長に対応させる。これは言語波形 セグメントの長さを調節する既知の方法であり、これによって言語のピッチ期間 に対応する部分はオーバーラッピング窓関数を使用して分割され、(発声した言 語 に関して)ピッチマーク(データベース7に波形それ自身と一緒に記憶されてい る)と同期し、ピッチマークは元の話者の声門励起(glottal excitation)に対応 している。これらの部分を削除することによって、または場合によってはこれら の部分を付加して元に戻す前にこれらの部分を反復することによって音長を増減 させるのは簡単なことである。オーバーラップ−加算処理で、1つのフォニーム を次のフォニームと連結させることもできる。すなわち所望であれば、これに我 々の同時出願の欧州特許出願第95302474.2号明細書に記載した改良したオーバー ラップ−加算方法を使用することもできる。 代りに、本発明の好ましい実施形態に対して記載された修正を使用して、シラ ブルの音長を計算せずにフォニームの最頻数音長を得ることができる。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(KE,LS,MW,SD,S Z,UG),UA(AM,AZ,BY,KG,KZ,MD ,RU,TJ,TM),AL,AM,AT,AU,AZ ,BB,BG,BR,BY,CA,CH,CN,CZ, DE,DK,EE,ES,FI,GB,GE,HU,I L,IS,JP,KE,KG,KP,KR,KZ,LK ,LR,LS,LT,LU,LV,MD,MG,MK, MN,MW,MX,NO,NZ,PL,PT,RO,R U,SD,SE,SG,SI,SK,TJ,TM,TR ,TT,UA,UG,US,UZ,VN

Claims (1)

  1. 【特許請求の範囲】 1.フォネティックユニットの表示のシーケンスを供給する手段と、 データの記憶した部分を検索して、フォネティックユニットに対応する波形 を発生する手段と、 フォネティックユニットの音長を判断する手段と、 データの一部分を処理して、判断された音長にしたがって波形の時間的継続 期間を調節する手段とを含み、 判断手段が規則正しいビート期間に対応する一定の音長を定め、シーケンス内 のフォネティックユニットおよび/またはその前後関係の特色に依存して音長を 調節するように動作する言語合成器。 2.前記シーケンス内で単語群を識別する手段とをさらに含み、 判断手段がさらに、対応する単語群内に含まれるフォネティックユニット数 に依存してフォネティックユニットに対する前記音長を調節する請求項1記載の 言語合成器。 3.前記単語群が主フレーズである請求項2記載の言語合成器。 4.フォネティックユニットがシラブルである請求項1乃至3の何れか1項記載 の言語合成器。 5.音声サブユニットに対応する波形を表わすデータ項目を含むメモリ、各フォ ネティックユニットにおいて音声サブユニットに対応する1以上のデータ部分を 検索する検索手段、および各サブユニットにおいて最大値および最小値を含む統 計的音長データを含む別のメモリを含み、判断手段が、各フォネティックユニッ トにおいてその構成構成のサブユニットの最小音長値の和と最大音長値の和とを 計算し、前記一定の音長を調節し、この一定の音長が最小値の和よりも小さくな ったり、または最大値の和よりも大きくなったりしないように動作する請求項1 乃至4の何れか1項記載の言語合成器。 6.サブユニットがフォニームである請求項5記載の言語合成器。 7.判断手段が前記一定の音長の値を調節するように動作して、前記一定の音長 値が修正した最小値より小さくならず、前記一定の音長値がこの最小値よりもフ ォネティックユニットの前後関係によって判断される範囲だけ大きい請求項5ま たは6記載の言語合成器。 8.統計的音長データが各サブユニットの中心値を含んでおり、フォネティック ユニットの各サブユニットを音長に割当てる手段において、この音長がフォネテ ィックユニットの調節された一定の値の一部であり、このサブユニットの中心値 と、フォネティックユニットの構成要素のサブユニットの中心値の和との比に比 例する手段を具備する請求項5乃至7の何れか1項記載の言語合成器。 9.処理手段がその動作において、オーバーラップ−加算方法を使用して波形部 分の音長を調節するように構成されている請求項1乃至8の何れか1項記載の言 語合成器。 10.添付の図面を引用し、それに図示されているように実質的に記載された言 語合成器。 11.フォネティックユニットの表示のシーケンスを供給する手段と、 記憶したデータ部分を検索して、フォネティックユニットに対応する波形を 発生する手段と、 前記シーケンス内の単語群を識別する手段と、 フォネティックユニットを含む単語群内のフォネティックユニット数に依存 してフォネティックユニットの音長を判断する手段と、 データの一部分を処理して、判断した音長にしたがって波形の時間的音長を 調節する手段とを含む言語合成器。 12.前記単語群が主フレーズである請求項11記載の言語合成器。 13.フォネティックユニットがシラブルである請求項11または12記載の言 語合成器。
JP9502810A 1995-06-13 1996-06-13 言語合成 Pending JPH11507740A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP95304079.7 1995-06-13
EP95304079 1995-06-13
PCT/GB1996/001430 WO1996042079A1 (en) 1995-06-13 1996-06-13 Speech synthesis

Publications (1)

Publication Number Publication Date
JPH11507740A true JPH11507740A (ja) 1999-07-06

Family

ID=8221224

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9502810A Pending JPH11507740A (ja) 1995-06-13 1996-06-13 言語合成

Country Status (7)

Country Link
US (1) US6330538B1 (ja)
EP (1) EP0832481B1 (ja)
JP (1) JPH11507740A (ja)
AU (1) AU713208B2 (ja)
CA (1) CA2221762C (ja)
DE (1) DE69620399T2 (ja)
WO (1) WO1996042079A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118385A (ja) * 2010-12-02 2012-06-21 Yamaha Corp 音声合成情報編集装置

Families Citing this family (133)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6775264B1 (en) 1997-03-03 2004-08-10 Webley Systems, Inc. Computer, internet and telecommunications based network
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
JP3854713B2 (ja) * 1998-03-10 2006-12-06 キヤノン株式会社 音声合成方法および装置および記憶媒体
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
DE19942171A1 (de) * 1999-09-03 2001-03-15 Siemens Ag Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung
US7516190B2 (en) 2000-02-04 2009-04-07 Parus Holdings, Inc. Personal voice-based information retrieval system
US6721705B2 (en) 2000-02-04 2004-04-13 Webley Systems, Inc. Robust voice browser system and voice activated device controller
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6542867B1 (en) * 2000-03-28 2003-04-01 Matsushita Electric Industrial Co., Ltd. Speech duration processing method and apparatus for Chinese text-to-speech system
US6684187B1 (en) 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
US6950798B1 (en) * 2001-04-13 2005-09-27 At&T Corp. Employing speech models in concatenative speech synthesis
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
US7593849B2 (en) * 2003-01-28 2009-09-22 Avaya, Inc. Normalization of speech accent
US20060229877A1 (en) * 2005-04-06 2006-10-12 Jilei Tian Memory usage in a text-to-speech system
US20070038455A1 (en) * 2005-08-09 2007-02-15 Murzina Marina V Accent detection and correction system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9484019B2 (en) * 2008-11-19 2016-11-01 At&T Intellectual Property I, L.P. System and method for discriminative pronunciation modeling for voice search
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US20130117026A1 (en) * 2010-09-06 2013-05-09 Nec Corporation Speech synthesizer, speech synthesis method, and speech synthesis program
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
JP6127371B2 (ja) * 2012-03-28 2017-05-17 ヤマハ株式会社 音声合成装置および音声合成方法
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
KR102525209B1 (ko) * 2016-03-03 2023-04-25 한국전자통신연구원 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
DE69228211T2 (de) * 1991-08-09 1999-07-08 Koninkl Philips Electronics Nv Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
JPH05108084A (ja) * 1991-10-17 1993-04-30 Ricoh Co Ltd 音声合成装置
JP3265654B2 (ja) * 1992-11-18 2002-03-11 株式会社明電舎 音声合成装置の継続時間長処理方式
US5832434A (en) * 1995-05-26 1998-11-03 Apple Computer, Inc. Method and apparatus for automatic assignment of duration values for synthetic speech
US6038533A (en) * 1995-07-07 2000-03-14 Lucent Technologies Inc. System and method for selecting training text
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118385A (ja) * 2010-12-02 2012-06-21 Yamaha Corp 音声合成情報編集装置
US9135909B2 (en) 2010-12-02 2015-09-15 Yamaha Corporation Speech synthesis information editing apparatus

Also Published As

Publication number Publication date
US6330538B1 (en) 2001-12-11
AU6231196A (en) 1997-01-09
DE69620399D1 (de) 2002-05-08
CA2221762A1 (en) 1996-12-27
AU713208B2 (en) 1999-11-25
CA2221762C (en) 2002-08-20
EP0832481B1 (en) 2002-04-03
WO1996042079A1 (en) 1996-12-27
DE69620399T2 (de) 2002-11-07
EP0832481A1 (en) 1998-04-01

Similar Documents

Publication Publication Date Title
JPH11507740A (ja) 言語合成
US6470316B1 (en) Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
US7460997B1 (en) Method and system for preselection of suitable units for concatenative speech
Zen et al. An overview of Nitech HMM-based speech synthesis system for Blizzard Challenge 2005
Zhang The role of contrast-specific and language-specific phonetics in contour tone distribution
EP0833304A2 (en) Prosodic databases holding fundamental frequency templates for use in speech synthesis
JPH08512150A (ja) ニューラル・ネットワークを利用してテキストを可聴信号に変換する方法および装置
Fant et al. Acoustic-phonetic analysis of prominence in Swedish
RU2421827C2 (ru) Способ синтеза речи
EP1668628A1 (en) Method for synthesizing speech
JP4532862B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
KR0146549B1 (ko) 한국어 텍스트/음성 변환 방법
JPS6050600A (ja) 規則合成方式
JP3006240B2 (ja) 音声合成方法および装置
JP3094622B2 (ja) テキスト音声合成装置
JPH0962286A (ja) 音声合成装置および音声合成方法
KR100387232B1 (ko) 한국어운율생성장치및방법
KR0123845B1 (ko) 음성합성 및 인식시스템
JP6191094B2 (ja) 音声素片切出装置
O'Shaughnessy Fundamental frequency by rule for a text-to-speech system
Duez Reduction and assimilatory processes in conversational French speech. Implication for speech synthesis
JPH09292897A (ja) 音声合成装置
JPH10500783A (ja) 音韻論に基く自動音声認識のためのコンピュータ・システムおよびコンピュータで実現されるプロセス
JP3297221B2 (ja) 音韻継続時間長制御方式