JPH11507740A - 言語合成 - Google Patents
言語合成Info
- Publication number
- JPH11507740A JPH11507740A JP9502810A JP50281097A JPH11507740A JP H11507740 A JPH11507740 A JP H11507740A JP 9502810 A JP9502810 A JP 9502810A JP 50281097 A JP50281097 A JP 50281097A JP H11507740 A JPH11507740 A JP H11507740A
- Authority
- JP
- Japan
- Prior art keywords
- duration
- phonetic
- unit
- value
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title description 3
- 238000003786 synthesis reaction Methods 0.000 title description 3
- 238000000034 method Methods 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000004148 unit process Methods 0.000 claims 1
- 239000011295 pitch Substances 0.000 description 18
- 230000007423 decrease Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 240000005343 Azadirachta indica Species 0.000 description 1
- 235000013500 Melia azadirachta Nutrition 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】
入力テキストをシラブルまたはその他のフォネティックユニットの表示のシーケンスに変換し、記憶したデータ部分を検索して、シラブルに対応する波形を生成する。シラブルの音長を判断するために、規則正しいビート期間に対応する一定の音長を定め、シーケンス内のシラブルおよび/またはその前後関係の特色にしたがって調節する。
Description
【発明の詳細な説明】
言語合成
本発明は、言語合成、とくに、これのみに限定しないが、記憶した言語波形の
セグメントを連結することによって動作する、テキスト(文書)から言語への合
成器に関する。
本発明にしたがって、言語合成器として、とくに、
フォネティックユニット(phonetic unit)表示のシーケンスを供給する手段
と、
データの記憶した部分を検索して、フォネティックユニットに対応する波形
を生成する手段と、
フォネティックユニットの音長(duration:継続期間の意)を判断する手段と
、
データ部分を処理して、判断した音長にしたがって波形の時間的継続期間を
調節する手段とを含み、
判断手段が規則正しいビート期間に対応する一定の期間を定めて、シーケン
ス内のフォネティックユニットおよび/またはその前後関係の特色に依存してそ
の音長を調節するように動作する言語合成器を提供する。
好ましくは、記憶したデータはそれら自身がデジタルの言語波形である(しか
しながら、これは絶対的ではなく、本発明は他の形式の合成器、例えばフォルマ
ント合成器に応用することもできる)。したがって好ましい構成では、合成器は
、音声サブユニットに対応する波形を表わすデータ項目を含むメモリ、各フォネ
ティックユニットに対して、1または複数のデータ部分(1データ部分はサブユ
ニットに対応する)を検索するように動作する検索手段、および各サブユニット
において、最大値および最小値を含む統計的音長のデータを含む別のメモリを含
み、判断手段は、その構成要素のサブユニットに対して最小音長値の和と最大音
長値の和を計算し、前記一定の音長を調節し、最小値の和よりも小さくなったり
、最大値の和よりも大きくなったりしないように動作する。
好ましい実施形態では、フォネティックユニットはシラブルであり、サブユニ
ットはフォニームである。
ここで本発明の1実施形態を添付の図面に示した言語合成器のブロック図を引
用して記載する。
図1の言語構成器は、コード形式の入力テキスト、例えばアスキー(ASCI
I)コードを受信する入力1を有する。テキスト正規化ユニット2はテキストを
力すると“百ポンド(one hundred pound)”と変換される。テキスト正規化ユニ
ット2からの出力は発音ユニット3へ送られ、このテキストはディクショナリま
たは1組の規則、あるいは一層好ましくは両者を使用することによって音声表示
に変換される。発音ユニット3はさらに各シラブルに対して、このシラブルの代
りに辞書的ストレス(lexical stress)を示すパラメータを生成する。
パーサ4は各センテンス(sentence)を解析して、言語(speech)の部分(形容詞
、名詞、動詞、など)に関してセンテンスの構造を判断し、言語運用構造、例え
ば主フレーズ(major phrase)(主フレーズは単語および沈黙(silence)によって
境界を定められた1纏まりの単語)および副フレーズを生成する。ピッチ割当て
ユニット5は、ユニット3および4の出力に基いて各シラブルに対する“特徴(s
ailence)”値を計算する。この値は、辞書的ストレス、主フレーズと副フレーズ
との間の境界、言語の部分、およびその他の要素の機能として各シラブルに与え
られた相対的ストレスを示している。一般的に相対的ストレスを使用して、合成
された言語の基本的なピッチを制御する(しかし、相対的ストレスの構成は図に
示されていない)。
音声表示はユニット3から、さらに選択ユニット6へ送られ、データベース7
へアクセスする。データベース7は言語波形のデジタルセグメントを含み、各セ
グメントは各フォニームに対応する。好ましくは(本発明に不可欠というわけで
はない)、データベースは各フォニームの多数の例を含み、(ヒューマンスピー
カによって)異なる前後関係(コンテキスト)で記録され、選択ユニットはフォ
ニームの例を選択するように動作し、この例となるフォニームの前後関係が最も
よく整合する前後関係を有していて、生成されたフォニームが(このフォニーム
に隣接するフォニーム間の整合という点で)入力テキストに実際に現れるように
する。この選択に対する構成は々の同時出願である欧州特許出願第93306219.2号
に記載されている。波形セグメント(以下で一層詳細に記載する)を連結して、
デジタル波形サンプルの連続するシーケンスを生成する。このサンプルは入力1
で受信したテキストに対応する。
上記のユニットは、従来のユニットのように動作する。しかしながら装置はさ
らに音長計算ユニット8を含む。音長計算ユニット8は、各フォニームにおいて
、ミリ秒の音長(または、その他の好都合な仮の測定単位)を示す出力を生成す
るように動作する。この動作は規則正しいビートレート、すなわちシラブルの生
成レートが一定である、または言語の一部では少なくとも一定であるという発想
に基いている。このビートによって、シラブルが可能な限り適合していなければ
ならない一定の期間を定められるとみることができるが、実際の音長は時々この
期間から逸脱することが分かるであろう。図示された装置は、固定された基本の
ビートレートを仮定しているが、ユーザはこの設定を修正することができる。一
般的なレートは0.015ビート/m(すなわち、66.7msのビート期間で
ある)であってもよい。
音長ユニット8は、データベース9へアクセスし、データベース9は各フォニ
ームにおいて次のような統計的情報を含んでいる。
−フォニームの最小セグメント音長Pi,min
−フォニームの最大セグメント音長Pi,max
−フォニームの平均または最頻数(並数)セグメントの音長Pi,M
全ての論理フォニームの組Pの各フォニーム(i=1,…,n)に対して、こ
れらの値を記憶していることが分かる。最頻数音長は、フォニーム長を分配する
ときに最も頻繁に発生する値であり、この値は平均値であることが好ましい。こ
れらの値は、注釈付きの言語サンプルのデータベースから判断することができる
。未処理の統計値はデータを使用するか、または平滑化(smooth)して、ガンマモ
デルの音長のようなデータを使用することができる。最良の結果を得るには、こ
の統計的情報は合成されるフォニームと同じ形式の言語から導き出すべきである
。事実、データベース7が各フォニームpiの多数の例を含むとき、統計的情報
はデータベース7それ自身の情報から生成することができる。なお、これらの値
を1回だけで判断することも記載しておく。
音長ユニット8は各シラブルjに対して以下のように処理を進める。この記法
は各シラブルはL個のフォニーム(Lは明らかに各シラブル毎に変化する)を含
み、1番目のフォニームは指標i(1)として識別される−すなわち、フォニームp3
がシラブル内の位置2にあるとき、i(2)=3と表すことができる。
(1)シラブルの最小および最大の可能な音長を判断する−すなわち、
最大値および最小値は、シラブル音長の第1の組の境界を表わしている。
(2)各シラブルと関係しているものは特徴の程度を表わしている要素であり、
これはユニット5から得られ;上述のように、シラブルが単語内にあることがど
の程度明らかであるか、およびシラブルがセンテンス内にあることがどの程度明
らかであるかを示す情報から判断される。したがってこの要素を使用して、所定
のシラブルを時間内にどの程度多く押込むことができるかを判断する。特徴要素
Salj(j番目のシラブル)は0乃至100の範囲を有すると仮定される。0の特
徴要素はシラブルを最小の音長にSylj.minに押込むことができることを示し
、一方で100の特徴要素は最大の音長Sylj,maxを有することを示している
。したがって修正した最大音長は次のように算出される。
Syl´j,min=Sylj,min+
(Sylj,max−Sylj,min)Salj/100
(3)ビート期間Tが修正した最小音長および最大音長によって定められる範囲
内にあるときはこれを使用し、そうでないときは修正した最小の音長または最大
の音長を使用して所望の音長Sylj,cを計算する。
T<Syl´j,minであるとき、
Sylj,c=Syl´j,minである。
さもなければ、
T<Syl´j,maxであるとき、
Sylj,c=Sylj,maxである。
さもなければ、
Sylj,c=Tである。
(4)シラブルの音長を判断するとき、シラブル内の個々のフォニームの音長が
判断されるはずである。これは、最頻数音長の相対的な重み付けにしたがって有
効時間Sylj,cをLのフォニーム間で割当てることによって達成される。
−第1に、シラブルの比r1は1番目のフォニームによって占められることが分
かる。
次の式からj番目のシラブルの1番目の算出された音長が得られる。
Pi(1),c=r1・Sylj.c
一般的に、人は一定の速度で話しをしない。とくに、多数の単語を含む発話(u
tterance)は、小数の単語を含む発話よりも速い。
したがって、本発明の好ましい実施形態では、問題となっているフォニームを
含む主フレーズの長さに依存してフォニームの音長Pi(r)cに対してさらに修正
を加える。
この修正を計算するとき、フォニームの音長の増減率を、7つのシラブルでカ
ットオフをもつ主フレーズ内のシラブル数の簡単な線形関数として算出する。主
フレーズの中に1つだけのシラブルがあるときに、フォニームの音長の増加率は
最大であり、この修正ではシラブル数が7に増加するまで線形に減少する。主フ
レーズに含まれるフォニームの音長へ加えられる修正は、主フレーズが7より多
くのシラブルを有していても、7のシラブルを有するものと同じやり方で行なわ
れる。ある状況では、7よりも多いかまたは少ないシラブルで分割する分割点が
好ましいことが分かることもある。
加えて、非線形関数から主フレーズ内のシラブル数と主フレーズ内のシラブル
の音長との関係のより良いモデルを得られることが分かる。さらに、主フレーズ
以外の単語群を使用することもできる。
フォニームの音長が算出されると(好ましい実施形態の場合は、修正されると
)、次にユニット6から各フォニームごとに対応する波形セグメントを実現ユニ
ット10が受取り、その長さを調節して、オーバーラップおよび加算方法を使用し
て算出した(および、修正する場合もある)音長に対応させる。これは言語波形
セグメントの長さを調節する既知の方法であり、これによって言語のピッチ期間
に対応する部分はオーバーラッピング窓関数を使用して分割され、(発声した言
語
に関して)ピッチマーク(データベース7に波形それ自身と一緒に記憶されてい
る)と同期し、ピッチマークは元の話者の声門励起(glottal excitation)に対応
している。これらの部分を削除することによって、または場合によってはこれら
の部分を付加して元に戻す前にこれらの部分を反復することによって音長を増減
させるのは簡単なことである。オーバーラップ−加算処理で、1つのフォニーム
を次のフォニームと連結させることもできる。すなわち所望であれば、これに我
々の同時出願の欧州特許出願第95302474.2号明細書に記載した改良したオーバー
ラップ−加算方法を使用することもできる。
代りに、本発明の好ましい実施形態に対して記載された修正を使用して、シラ
ブルの音長を計算せずにフォニームの最頻数音長を得ることができる。
─────────────────────────────────────────────────────
フロントページの続き
(81)指定国 EP(AT,BE,CH,DE,
DK,ES,FI,FR,GB,GR,IE,IT,L
U,MC,NL,PT,SE),OA(BF,BJ,CF
,CG,CI,CM,GA,GN,ML,MR,NE,
SN,TD,TG),AP(KE,LS,MW,SD,S
Z,UG),UA(AM,AZ,BY,KG,KZ,MD
,RU,TJ,TM),AL,AM,AT,AU,AZ
,BB,BG,BR,BY,CA,CH,CN,CZ,
DE,DK,EE,ES,FI,GB,GE,HU,I
L,IS,JP,KE,KG,KP,KR,KZ,LK
,LR,LS,LT,LU,LV,MD,MG,MK,
MN,MW,MX,NO,NZ,PL,PT,RO,R
U,SD,SE,SG,SI,SK,TJ,TM,TR
,TT,UA,UG,US,UZ,VN
Claims (1)
- 【特許請求の範囲】 1.フォネティックユニットの表示のシーケンスを供給する手段と、 データの記憶した部分を検索して、フォネティックユニットに対応する波形 を発生する手段と、 フォネティックユニットの音長を判断する手段と、 データの一部分を処理して、判断された音長にしたがって波形の時間的継続 期間を調節する手段とを含み、 判断手段が規則正しいビート期間に対応する一定の音長を定め、シーケンス内 のフォネティックユニットおよび/またはその前後関係の特色に依存して音長を 調節するように動作する言語合成器。 2.前記シーケンス内で単語群を識別する手段とをさらに含み、 判断手段がさらに、対応する単語群内に含まれるフォネティックユニット数 に依存してフォネティックユニットに対する前記音長を調節する請求項1記載の 言語合成器。 3.前記単語群が主フレーズである請求項2記載の言語合成器。 4.フォネティックユニットがシラブルである請求項1乃至3の何れか1項記載 の言語合成器。 5.音声サブユニットに対応する波形を表わすデータ項目を含むメモリ、各フォ ネティックユニットにおいて音声サブユニットに対応する1以上のデータ部分を 検索する検索手段、および各サブユニットにおいて最大値および最小値を含む統 計的音長データを含む別のメモリを含み、判断手段が、各フォネティックユニッ トにおいてその構成構成のサブユニットの最小音長値の和と最大音長値の和とを 計算し、前記一定の音長を調節し、この一定の音長が最小値の和よりも小さくな ったり、または最大値の和よりも大きくなったりしないように動作する請求項1 乃至4の何れか1項記載の言語合成器。 6.サブユニットがフォニームである請求項5記載の言語合成器。 7.判断手段が前記一定の音長の値を調節するように動作して、前記一定の音長 値が修正した最小値より小さくならず、前記一定の音長値がこの最小値よりもフ ォネティックユニットの前後関係によって判断される範囲だけ大きい請求項5ま たは6記載の言語合成器。 8.統計的音長データが各サブユニットの中心値を含んでおり、フォネティック ユニットの各サブユニットを音長に割当てる手段において、この音長がフォネテ ィックユニットの調節された一定の値の一部であり、このサブユニットの中心値 と、フォネティックユニットの構成要素のサブユニットの中心値の和との比に比 例する手段を具備する請求項5乃至7の何れか1項記載の言語合成器。 9.処理手段がその動作において、オーバーラップ−加算方法を使用して波形部 分の音長を調節するように構成されている請求項1乃至8の何れか1項記載の言 語合成器。 10.添付の図面を引用し、それに図示されているように実質的に記載された言 語合成器。 11.フォネティックユニットの表示のシーケンスを供給する手段と、 記憶したデータ部分を検索して、フォネティックユニットに対応する波形を 発生する手段と、 前記シーケンス内の単語群を識別する手段と、 フォネティックユニットを含む単語群内のフォネティックユニット数に依存 してフォネティックユニットの音長を判断する手段と、 データの一部分を処理して、判断した音長にしたがって波形の時間的音長を 調節する手段とを含む言語合成器。 12.前記単語群が主フレーズである請求項11記載の言語合成器。 13.フォネティックユニットがシラブルである請求項11または12記載の言 語合成器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP95304079.7 | 1995-06-13 | ||
EP95304079 | 1995-06-13 | ||
PCT/GB1996/001430 WO1996042079A1 (en) | 1995-06-13 | 1996-06-13 | Speech synthesis |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11507740A true JPH11507740A (ja) | 1999-07-06 |
Family
ID=8221224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9502810A Pending JPH11507740A (ja) | 1995-06-13 | 1996-06-13 | 言語合成 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6330538B1 (ja) |
EP (1) | EP0832481B1 (ja) |
JP (1) | JPH11507740A (ja) |
AU (1) | AU713208B2 (ja) |
CA (1) | CA2221762C (ja) |
DE (1) | DE69620399T2 (ja) |
WO (1) | WO1996042079A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012118385A (ja) * | 2010-12-02 | 2012-06-21 | Yamaha Corp | 音声合成情報編集装置 |
Families Citing this family (133)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6775264B1 (en) | 1997-03-03 | 2004-08-10 | Webley Systems, Inc. | Computer, internet and telecommunications based network |
US6064960A (en) * | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
JP3854713B2 (ja) * | 1998-03-10 | 2006-12-06 | キヤノン株式会社 | 音声合成方法および装置および記憶媒体 |
JP2000305582A (ja) * | 1999-04-23 | 2000-11-02 | Oki Electric Ind Co Ltd | 音声合成装置 |
DE19942171A1 (de) * | 1999-09-03 | 2001-03-15 | Siemens Ag | Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung |
US7516190B2 (en) | 2000-02-04 | 2009-04-07 | Parus Holdings, Inc. | Personal voice-based information retrieval system |
US6721705B2 (en) | 2000-02-04 | 2004-04-13 | Webley Systems, Inc. | Robust voice browser system and voice activated device controller |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6542867B1 (en) * | 2000-03-28 | 2003-04-01 | Matsushita Electric Industrial Co., Ltd. | Speech duration processing method and apparatus for Chinese text-to-speech system |
US6684187B1 (en) | 2000-06-30 | 2004-01-27 | At&T Corp. | Method and system for preselection of suitable units for concatenative speech |
US6950798B1 (en) * | 2001-04-13 | 2005-09-27 | At&T Corp. | Employing speech models in concatenative speech synthesis |
US20030093280A1 (en) * | 2001-07-13 | 2003-05-15 | Pierre-Yves Oudeyer | Method and apparatus for synthesising an emotion conveyed on a sound |
US7593849B2 (en) * | 2003-01-28 | 2009-09-22 | Avaya, Inc. | Normalization of speech accent |
US20060229877A1 (en) * | 2005-04-06 | 2006-10-12 | Jilei Tian | Memory usage in a text-to-speech system |
US20070038455A1 (en) * | 2005-08-09 | 2007-02-15 | Murzina Marina V | Accent detection and correction system |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9484019B2 (en) * | 2008-11-19 | 2016-11-01 | At&T Intellectual Property I, L.P. | System and method for discriminative pronunciation modeling for voice search |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
US20130117026A1 (en) * | 2010-09-06 | 2013-05-09 | Nec Corporation | Speech synthesizer, speech synthesis method, and speech synthesis program |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
JP6127371B2 (ja) * | 2012-03-28 | 2017-05-17 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200731A1 (en) | 2013-06-13 | 2014-12-18 | Apple Inc. | System and method for emergency calls initiated by voice command |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
KR102525209B1 (ko) * | 2016-03-03 | 2023-04-25 | 한국전자통신연구원 | 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5146405A (en) * | 1988-02-05 | 1992-09-08 | At&T Bell Laboratories | Methods for part-of-speech determination and usage |
DE69228211T2 (de) * | 1991-08-09 | 1999-07-08 | Koninkl Philips Electronics Nv | Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals |
JPH05108084A (ja) * | 1991-10-17 | 1993-04-30 | Ricoh Co Ltd | 音声合成装置 |
JP3265654B2 (ja) * | 1992-11-18 | 2002-03-11 | 株式会社明電舎 | 音声合成装置の継続時間長処理方式 |
US5832434A (en) * | 1995-05-26 | 1998-11-03 | Apple Computer, Inc. | Method and apparatus for automatic assignment of duration values for synthetic speech |
US6038533A (en) * | 1995-07-07 | 2000-03-14 | Lucent Technologies Inc. | System and method for selecting training text |
US6064960A (en) * | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
-
1996
- 1996-06-13 WO PCT/GB1996/001430 patent/WO1996042079A1/en active IP Right Grant
- 1996-06-13 JP JP9502810A patent/JPH11507740A/ja active Pending
- 1996-06-13 US US08/973,737 patent/US6330538B1/en not_active Expired - Lifetime
- 1996-06-13 AU AU62311/96A patent/AU713208B2/en not_active Ceased
- 1996-06-13 EP EP96920927A patent/EP0832481B1/en not_active Expired - Lifetime
- 1996-06-13 DE DE69620399T patent/DE69620399T2/de not_active Expired - Lifetime
- 1996-06-13 CA CA002221762A patent/CA2221762C/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012118385A (ja) * | 2010-12-02 | 2012-06-21 | Yamaha Corp | 音声合成情報編集装置 |
US9135909B2 (en) | 2010-12-02 | 2015-09-15 | Yamaha Corporation | Speech synthesis information editing apparatus |
Also Published As
Publication number | Publication date |
---|---|
US6330538B1 (en) | 2001-12-11 |
AU6231196A (en) | 1997-01-09 |
DE69620399D1 (de) | 2002-05-08 |
CA2221762A1 (en) | 1996-12-27 |
AU713208B2 (en) | 1999-11-25 |
CA2221762C (en) | 2002-08-20 |
EP0832481B1 (en) | 2002-04-03 |
WO1996042079A1 (en) | 1996-12-27 |
DE69620399T2 (de) | 2002-11-07 |
EP0832481A1 (en) | 1998-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH11507740A (ja) | 言語合成 | |
US6470316B1 (en) | Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing | |
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
US7460997B1 (en) | Method and system for preselection of suitable units for concatenative speech | |
Zen et al. | An overview of Nitech HMM-based speech synthesis system for Blizzard Challenge 2005 | |
Zhang | The role of contrast-specific and language-specific phonetics in contour tone distribution | |
EP0833304A2 (en) | Prosodic databases holding fundamental frequency templates for use in speech synthesis | |
JPH08512150A (ja) | ニューラル・ネットワークを利用してテキストを可聴信号に変換する方法および装置 | |
Fant et al. | Acoustic-phonetic analysis of prominence in Swedish | |
RU2421827C2 (ru) | Способ синтеза речи | |
EP1668628A1 (en) | Method for synthesizing speech | |
JP4532862B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
KR0146549B1 (ko) | 한국어 텍스트/음성 변환 방법 | |
JPS6050600A (ja) | 規則合成方式 | |
JP3006240B2 (ja) | 音声合成方法および装置 | |
JP3094622B2 (ja) | テキスト音声合成装置 | |
JPH0962286A (ja) | 音声合成装置および音声合成方法 | |
KR100387232B1 (ko) | 한국어운율생성장치및방법 | |
KR0123845B1 (ko) | 음성합성 및 인식시스템 | |
JP6191094B2 (ja) | 音声素片切出装置 | |
O'Shaughnessy | Fundamental frequency by rule for a text-to-speech system | |
Duez | Reduction and assimilatory processes in conversational French speech. Implication for speech synthesis | |
JPH09292897A (ja) | 音声合成装置 | |
JPH10500783A (ja) | 音韻論に基く自動音声認識のためのコンピュータ・システムおよびコンピュータで実現されるプロセス | |
JP3297221B2 (ja) | 音韻継続時間長制御方式 |