JP3836502B2 - テキスト・波形変換 - Google Patents
テキスト・波形変換 Download PDFInfo
- Publication number
- JP3836502B2 JP3836502B2 JP52141094A JP52141094A JP3836502B2 JP 3836502 B2 JP3836502 B2 JP 3836502B2 JP 52141094 A JP52141094 A JP 52141094A JP 52141094 A JP52141094 A JP 52141094A JP 3836502 B2 JP3836502 B2 JP 3836502B2
- Authority
- JP
- Japan
- Prior art keywords
- grapheme
- word
- rhymes
- text
- consonants
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 12
- 238000000034 method Methods 0.000 claims description 70
- 230000008569 process Effects 0.000 claims description 47
- 230000009471 action Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 description 27
- 238000013500 data storage Methods 0.000 description 12
- 238000012546 transfer Methods 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 235000014443 Pyrus communis Nutrition 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005415 magnetization Effects 0.000 description 1
- 238000013404 process transfer Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Devices For Executing Special Programs (AREA)
Description
この全体的な変換は、非常に複雑であり、あるモジュールの出力が次のものの入力を構成する、いくつかのモジュールでしばしば実行される。最初のモジュールは通常のテキストを表す信号を受信し、最後のモジュールはその出力として合成スピーチを生成する。この合成スピーチは、可聴音響出力を生成するために通常のデジタル・アナログ変換がそれに続いて行われる波形のデジタル表示であってもよい。多くの場合、電話システムに対して可聴出力を供給することが所望される。この場合、伝送がデジタル形態で行われるように、伝送後にデジタル・アナログ変換を行うことが便利である。
モジューラ構造には、各モジュールが別々に設計され、フレキシビリティを与え、改良を行い、或は環境の変化に対処するためにモジュールの任意の1個を置換または変更することができる等の利点がある。
いくつかの過程において、3個の一連のモジュール、すなわち
(A)予備編集、
(B)書記素の音素への変換、および
(C)音素の(デジタル)波形への変換が使用される。
以下、これらのモジュールを簡単に説明する。
モジュール(A)は、例えば本明細書のテキスト等の通常のテキストを表す信号を受信し、選択された特徴を変形する。このようにして、モジュール(A)は番号が処理される方法を具体的に示す。例えば、それは数字例“1345”が
1,3,4,5、
13,45、或は
1345になるのかを決定する。異なる形態の出力を生じさせるように、後に続くモジュールとそれぞれ適合した異なる形態のモジュール(A)を提供することは比較的容易であることは明らかであろう。
モジュール(B)は、書記素を音素に変換する。“書記素”とは、通常の方法で使用される通常のアルファベットのシンボルに対応したデータ表示を意味する。本明細書のテキストが“書記素”のよい例である。合成スピーチの問題は、書記素が、特に英語のような言語においてワードが発音される方法とほとんど関係ないことである。したがって、波形を生成するために、ワードの音と非常に密接な相関関係を有し、本明細書において音素と呼んでいる、異なるアルファベットに書記素を変換することが適切である。換言すると、モジュール(B)の目的は、通常のアルファベットが音声を表わさないという問題に対処することである。
モジュール(C)は、上述のようにアナログフォーマットに、したがって可聴音波形に変換されることができるるデジタル波形に音素を変換する。
本発明はモジュール(B)において使用される方法および装置に関するものであり、以下このモジュールをさらに詳細に説明する。
モジュール(B)は、非常に多数の独立エントリィから成る結合されたデータベースを使用する。各エントリィは、例えば一連の書記素のバイト等の表示の形態のアクセスデータと、アクセス部分に含まれている書記素と等価の音素のバイト等の表示を含む出力ストリングとを含む。書記素/音素変換の主要な問題は、言語を処理するために必要なデータベースの寸法に帰する。理論的には理想的である1つの簡単な解決方法は、言語の中の可能性のある全ワードの可能性のある全ての抑揚を含む、言語の中の可能性のある全ワードに対して個別のエントリィを有する程大きいデータベースを提供することである。明らかに、完全なデータベースを与えられた場合には、入力テキストの中のあらゆるワードが個別に認識され、すぐれた等価な音素が出力される。このような完全なデータベースを提供することは不可能なことが明らかである。第1に、言語の中のあらゆるワードを列挙することは不可能であり、このようなリストが入手できたとしても、それは処理するには膨大過ぎる。
完全なデータベースは可能ではないが、例えば共通のワードや、発音が単に綴りに関連していないワードを含む使用に適した寸法のデータベースを提供することができる。このようなデータベースは、そこに含まれたワードのすぐれた書記素/音素変換を実行するが、それは抜けているワードに対しては失敗する。すなわち、出力を全く供給しない。実際の構造において、これは許容できないほど高い比率の失敗を意味する。
別の可能性は、音素の等価なストリングにそれぞれ結合された書記素の短いストリングにアクセスデータが対応したデータベースを使用することである。この方法において、管理できる寸法のデータベースが使用されるが、それはそこに含まれているストリングをデータベース中のアクセスデータと一致させるための入力テキストの解析に依存する。この種のシステムでは、すぐれた発音が高い比率で提供され、ごく少数の深刻な誤発音が発生する。解析できなかったために、或は必要な書記素のストリングがデータベースのアクセス部分から欠落しているために、出力が全く行われない失敗がやはり発生する。
最後の可能性は、好ましい技術が使用できない場合にのみ使用されるために“省略”過程としてよく知られている。“省略”過程は、入力テキストのシンボルを“発音する”形態を取る。入力シンボルの範囲は知られてるだけでなく、制限されている(通常100より少なく、多くの場合に50より少ない)ため、データベースを生成できないだけでなく、最近のデータ記憶システムの容量との関連で、その寸法も非常に小さい。したがって、この省略過程は、その出力が最も適切な解ではない可能性があっても出力することを保証する。この例は、イニシャルの使用された名前、身分および敬称、並びにいくつかのユニットの省略形を含む。これらの状況では文字を“発音”するのが普通であり、これらの場合に省略過程が最も良い結果を出すことが理解されるであろう。
以上、書記素を音素に変換する3つの異なる方法が確認され、これらの方法は互いに相いれないことを認識することが重要である。事実、厳密な優先順序にしたがって3つの方法を全て使用することが望ましい。したがって、最初に“全体的ワード”のデータベースが使用され、それが出力を発生した場合、その出力はすぐれている。それが失敗した場合、少ないが許容可能な数の誤発音を伴う“解析”技術が使用される。最終的に、“解析”できない場合、“文字”を発音する省略オプションが使用され、これは確実に出力を生じさせることができる。これは完全に満足できるものではないかもしれないが、上述されたような場合には最も適切な結果を提供する。
本発明は上記の概説したシーケンスの中間オプションに関する。すなわち、本発明は入力テキストの対応した音素であるデータ表示の出力セットを生成するために入力テキスト書記素に対応したデータ表示の解析に関する。本発明の動作環境は、上記に詳細に説明されている完全なテキスト・波形変換であることが強調される。すなわち、本発明はシステム全体のうちの特定の素子に関する。
本発明によると、例えば書記素のような第1の文字セットから選択された文字のストリングを表すデータ表示等のバイトの入力シーケンスは、例えば音素のような第2の文字セットから選択された文字のストリングを表すデータ表示等のバイトの出力シーケンスへの変換のためにサブストリングに細分され、この方法は、
(i)第1の記憶領域が、第1の文字セットから選択された文字をそれぞれ表している複数のバイトを含み、
(ii)第2の記憶領域が、第1の文字セットから選択された文字をそれぞれ表している複数のバイトを含み、前記第2の記憶領域の内容全体が前記第1の記憶領域の内容全体と異なっており、
(iii)第3の記憶領域が、第1の文字セットの文字を表す1以上のバイトからなるストリングを含み、各ストリングの第1のバイトが第1の記憶領域に含まれており、
(iv)第4の記憶領域が、第2の記憶領域にそれぞれ含まれている1以上のバイトのストリングを含んでいる第1、第2、第3および第4の記憶領域を含む信号記憶手段と共に行われる逆行解析を含む。
第1の領域に記憶されたバイトは母音を表わしていることが好ましく、一方第2の領域のものは子音を表わしていることが好ましい。例えば文字“y”等は重複の可能性がある。第3の領域のストリングは韻を表わしていることが好ましく、一方第4の領域のものは語頭子音を表わしていることが好ましい。以下、母音、子音、韻および語頭子音の概念を詳細に説明する。
分割は、第3および第4の記憶領域に含まれているストリングと入力信号のサブストリングを整合することを含んでいる。比較用のサブストリングは、第1および第2の記憶領域を使用して形成される。
逆行解析には、遅く発生したサブストリングが早く発生したサブストリングの前に選択されることが必要である。サブストリングが選択されると、そこに含まれているバイトは、早く発生したサブストリングを形成するように選択または再選択に利用できない。この利用不可能性は、早いサブストリングを形成するための選択を制限し、したがって前の選択は少なくとも部分的に早いサブストリングの遅い選択を制限する。
本発明の方法は、特に例えばワードに対応したブロック等のブロックに分割された入力ストリングの処理に適している。ブロックは終りから始まって、始めの部分まで動作するセグメントに解析され、セグメントは残りの処理されていないストリングの終りから選択される。
請求の範囲に規定されている本発明は、この方法を実行する方法および装置を含んでいる。
本発明による方法において使用される例えばバイトのようなデータ表示は、計算回路における使用に適した任意の信号形態を取る。すなわち、データ表示は電流(アンペア)、電位(ボルト)、磁界、電界または電磁放射線の形態の信号であってもよい。さらに、データ表示は、処理の一部として過渡状態の記憶を含み、例えば磁気媒体における磁化の程度および、または方向として適切な記憶媒体に記憶されてもよい。
以下、理論的な根拠およびいくつかの好ましい実施例を説明する。好ましい実施例において、入力信号はテキストの個別のワードに対応したブロックに分割され、本発明が各ブロックに対して個別に作用する。したがって、プロセスは“ワード単位”の処理と考えることができる。
上述されたように、全体的システムがこのような失敗を処理するモジュールを含んでいるため、各ブロック全てに対して出力を生成することが不要であるという条件を便宜上再度述べておく。
前置きとして、英語のワードの構造を考慮し、数個の特定のワードについて説明することによって本発明の理論的な根拠を示す。この解析は、通常“母音”および“子音”として区別される違いを使用する。機械的な処理のためには、文字の2つのリストを記憶することが必要である。これらのリストの一方は“母音”と呼ばれる文字を含み、他方のリストは“子音”と呼ばれる文字を含む。全ての文字は、一方または他方のリストに含まれることが好ましいが、好ましい実施例において“Y”に対応したデータ表示は両リストに含まれている。これは通常の英語の綴りが時には文字“Y”を母音として、また時には子音として使用するためである。したがって、第1のリスト(母音の)はa,e,i,o,uおよびyを含み、一方第2の子音のリストはb,c,d,f,g,h,j,k,l,m,n,p,q,r,s,t,v,w,x,yおよびzを含む。“Y”が両リストにおいて認められるということは、“非母音”という状態が“子音”という状態と異なることを意味する。
解析の主要な目的は、データ表示のブロック、すなわちワードを“韻”と“語頭子音群”に分割することである。解析は、それらの等価な音素に結合された韻および語頭子音群の等価な書記素を含む結合データベースを使用することを認識することが重要である。解析の目的は、韻および語頭子音群を表す任意のシーケンスだけでなく、データベースに含まれるシーケンスにデータを分割することである。
韻は、母音のリストにそれぞれ含まれる1以上の文字のストリング、または母音のリストに含まれない文字の第2のストリングが後続するこのようなストリングを示す。この要求を換言すると、韻は第2のストリングによって後続された第1のストリングから成り、第1のストリングに含まれる全ての文字は母音のリストに含まれ、第1のストリングは空であってはならず、完全に第2のストリングが空であってもよいという条件で第2のストリングは母音のリストの中に見出だされない文字から成る。
語頭子音群は、全てが子音のリストに含まれる文字のストリングである。
解析には、ワードの最後が韻を踏むものであることが必要である。ワードが隣接した韻を含むことは許されているが、それが隣接した語頭子音を含むことは許されていない。ワードの最後は韻でなければならないことが述べられているが、ワードの始めは韻または語頭子音のいずれかであることができることに留意しなければならない。例えば、“orange”は韻で始まり、一方“pear”は語頭子音で始まる。
本発明の基本的な理論を示すために、英語から随意に選択された4つの見本ワードが表示され、それらの韻および語頭子音に解析される。
[第1の見本]
CATS
韻“ats”
語頭子音“c”
“ats”は韻としてリストに入れられ、“c”は語頭子音としてリストに入れられると考えられる。したがって、その等価な音素によるそれぞれの置換は、“cats”を音素に変換する。
韻“ats”は、単一の母音“a”からなる第1のストリングおよび2つの非母音すなわち“t”および“s”からなる第2のストリングを有することに注意しなければならない。
[第2の見本]
STREET
韻“eet”
語頭子音“str”
この場合、韻の第1のストリングは2つの文字すなわち“ee”を含み、第2のストリングは第一の非母音“t”を含む。語頭子音は、3つの子音のストリングから成る。
語頭子音“str”および韻“eet”は、等価な音素が与えられるように共にデータベースに含まれていなければならない。
[第3の見本]
HIGH
韻“igh”
語頭子音“h”
この例において、韻“igh”は英語の音の任意の1つであるが、データベースは正しい音素への変換を行うことができる。
[第4の見本]
HIGHSTREET
第2の韻“eet”
第2の語頭子音“str”
第1の韻“igh”
第1の語頭子音“h”
明らかに、ワード“highstreet”は前の2つの例の複合であり、その解析はこれら2つの例と非常に類似している。しかしながら、“high”と“street”にワードを分割するために第4と第5の文字との間に休止が存在していることを認識する必要があるという重要な特別の要求がある。この分割は、データベースの内容のために認識される。したがって、子音ストリング“ghstr”は、英語の語頭子音ではなく、それ故それはデータベースには存在しないため、認識されることができない。さらに、ストリング“hstr”はベース中に存在しない。しかしながら、“strは英語の共通の”語頭子音であり、データベース中に存在しなければならない。したがって、“str”は語頭子音として認識されることができ、“str”はストリング“ghstr”の後半部分である。ストリングの末尾が語頭子音として認識されると、それより前の部分は先行する韻の部分として識別され、ワード“high”は上記に説明されたように分割されることができる。この例の目的は、子音の内部ストリングの分割がしばしば重要であり、分割がデータベースの使用によって達成されることを示すことである。
以下、本発明の技術の基本をなす理論を説明するが、添付された概略図に示されている自動計算装置を使用してどのようにしてこれが実行されるかを示すことが適切である。
自動計算装置は、信号のストリング例えば電気パルスで動作する。最も小さい計算の単位は、オリジナルのテキストの単一の書記素に対応した信号のストリングである。便宜上、それがどれだけ多数のビットを“バイト”中に含んでいても、このような信号のストリングを“バイト”と呼ぶ。元来、“バイト”という用語は8ビットのシーケンスを示した。このような8ビットは、255のカウントを供給するため、これはほとんどのアルファベットに適合させるのに十分である。しかしながら、“バイト”は必ずしも8ビットを含む必要はない。
以下説明する処理はブロック単位で実行され、各ブロックは1以上のバイトのストリングである。データは、翻訳が可能でなく、変換に失敗するブロックを含んでいる可能性があるため、各ブロックが個々のワード(すなわち潜在的なワード)に対応する。この方法の目的は、バイトが書記素を表す入力ブロックをバイトが音素を表す出力ブロックに変換することである。この方法は、サブストリングに入力ブロックを分割し、検索表に各サブストリングを変換して、出力ブロックを生成するように連結することによって行われる。
計算装置の動作モードは、2つの動作過程を有する。すなわち、それは2つのフェイズを含む第1の過程を有し、第1の過程は韻に対応したバイトストリングを識別するために使用される。第2の過程は、1つのフェイズしか持たず、それは語頭子音に対応したバイトストリングを識別するために使用される。
図面に示されているように、計算装置は、前の処理装置からのブロックが処理される準備ができるまでそれらを保持する入力バッファ10を含んでいる。入力バッファ10はデータ記憶装置11に接続され、それは要求時にデータ記憶装置11に個々のブロックを供給する。
計算装置の重要な部分は記憶手段12である。これは、プログラミング命令と、処理を実行するために必要とされるデータベースおよびリストを含む。以下、さらに詳細に説明するように、記憶手段12は種々の機能領域に分割される。
データ処理装置はまた、記憶装置12に含まれたデータベースに保持されたバイトストリングとの比較および処理のために、データ記憶装置11から得られたバイトのサブセットを保持するために必要な動作記憶装置14を含んでいる。単一のバイトすなわち個々の書記素に対応した信号ストリングは、チェック記憶装置13を介して入力バッファ10から動作記憶装置14に転送され、チェック記憶装置13は1バイトの容量を有している。チェック記憶装置13中のバイトは、動作記憶装置14へ転送する前にデータ記憶装置12に含まれたリストに対してチェックされる。
動作記憶装置12に含まれた項目との整合に成功した後、ストリングは動作記憶装置14から出力記憶装置15に転送される。整合ができない場合の使用のために、装置は動作記憶装置14からデータ記憶装置11にバイトを戻す手段を含んでいる。
例えばプログラム命令用の別の領域に加えて、記憶手段12は4つの主要な記憶領域を有している。これらの領域は、次のように区別される。
最初に、記憶手段は2つの異なるバイトのリストのための領域を有している。これらは、母音に対応したバイトのリストを含む第1の記憶領域12.1および子音に対応したバイトのリストを含む第2の記憶領域12.2である。(母音および子音は、この明細書において前に区別が説明されている。)
記憶手段12はまた2つの異なった、実質的な結合されたデータベースを構成する2つの記憶領域を含んでいる。まず、12.31,12.32,12.33等で示された領域にさらに分割される韻データベース12.3が存在する。各領域は、図面に示されているように書記素中の“韻”に対応したバイトストリグを含む入力部分を有し、これは“ATS”を含む12.31、“EET”を含む12.32、“IGH”を含む12.33、および図面には示されていないさらに多数の部分を有している。
記憶手段12はまた第2の主要な領域12.4を含み、それは語頭子音に等しい含むバイトストリングを有している。韻の場合のように、語頭子音データベースもまた多数の領域に分割される。例えば、それは“C”を含む12.41、“STR”を含む12.42、および“H”を含む12.43を有する。
各入力部分(12.3および12.4)は、その入力部分の内容に対応したバイトのストリングを含む出力部分に結合される。
動作方法が2つの異なる過程を含んでいることは既に述べた。第1の過程は記憶領域12.1および12.3を利用し、一方第2の過程は記憶領域12.2および12.4を利用する。実際に使用されるデータベースの領域は、動作の過程によって全体的に限定されることが強調される。過程は交互に使用され、過程番号1が最初に使用される。
[特定の例]
[ワード“HIGHSTREET”の解析]
この特定の例は、上記の説明の第4の見本として選択されたワードに関連していることが認められるであろう。したがって、その韻および語頭子音は既に定められ、特定の例はこれらが機械的な計算によってどのように行われるかを説明する。
入力バッファ10がワード“HIGHSTREET”に対応したバイトストリングをデータ記憶装置12に転送したときに、解析が始まる。したがって、この過程のスタート時に、重要な記憶装置は次のような内容を有する:
記憶装置 内容
11 HIGHSTREET
13 −−
14 −−
15 −−
(シンボル“−−”は、相当する記憶装置が空であることを示す。)
解析は常にそうであるように第1の過程で始まる。上述のように、第1の過程は記憶領域12.1および12.3を使用する。第1の過程は、その基間中にバイトがチェック記憶装置13を介してデータ記憶装置11から動作記憶装置14に転送される2つのフェイズを有する。第1のフェイズは、バイトが記憶領域12.1において見出だされない限り連続する。
過程は逆行(retrograde)であり、それはワードの後部から動作することを意味し、したがって第1の転送は領域12.1に含まれない“T”である。第2の転送は、領域12.1に含まれる“E”であり、それ故第1の過程の第2のフェイズが開始される。これは、動作記憶装置14中のバイトが領域12.1において整合される限り連続し、したがって第2の“E”は転送されるが、次のバイト“R”が送られた場合にはチェックができない。この段階において、種々の記憶装置の状態は次のとおりである:
記憶装置 内容
11 HIGHST
13 R
14 EET
15 −−
動作記憶装置14の内容は、記憶領域12.3にアクセスするために使用され、整合が領域12.32において見出だされる。したがって、整合は成功しており、動作記憶装置14の内容すなわち“EET”は、出力記憶装置15の領域に転送され、種々の記憶装置の状態は次の通りである。
記憶装置 内容
11 HIGHST
13 R
14 −−
15 EET
第1の韻は、機械的に見出だされていることが認識されるであろう。
上述のように、チェック記憶装置13における“R”の非整合は、第1の過程の第1のパフォーマンスを終了させた。解析は続くが、2つの過程は常に交互に行われるため、第2の過程が使用される。第2の過程は、記憶領域12.2および12.4を使用する。チェック記憶装置13における“R”に対応したバイトは、領域12.2が現在使用され、またこのバイトがそこに含まれているためここで整合する。したがって、“R”は動作記憶装置14に転送され、第2の過程はチェック記憶装置13中のバイトが整合する限り連続する。したがって、文字“T”、“S”、“H”および“G”は全てチェック記憶装置13を介して転送される。この時点で、“I”に対応したバイトがチェック記憶装置13に到着し、“I”に対応したバイトは記憶領域12.2に含まれないため、チェックが失敗する。チェックができないため、第2の過程のこのパフォーマンスは終了する。種々の記憶装置の内容は:
記憶装置 内容
11 “H”
13 “I”
14 “GHSTR”
15 “EET”
第2の過程は、領域12.4に含まれたデータベースと動作記憶装置14の内容を整合させることを試みるが、整合は得られない。したがって、第2の過程は、バイトがチェック記憶装置13を介してデータ記憶装置11に転送して戻される補修部分に移行する。各転送時に、記憶領域12.4において動作記憶装置14の内容を配置することが試みられる。整合は、“STR”に等しいストリングが領域12.42に含まれているため、文字GおよびHが戻されたときに達成される。整合が達成されると、動作記憶装置の内容は、出力記憶装置15の領域に出力される。この時点の種々の記憶装置の内容は次の通りである:
記憶装置 内容
11 “HIG”
13 “H”
14 −−
15 “STR”および“EET”
第2の過程は、整合を見出だすことによって終了されたので、解析は第1の過程、特に第1の過程の第1のフェイズに戻る。この方法において、文字“H”および“G”は動作記憶装置14に転送され、第1のフェイズが終了する。第2のフェイズは“I”を送り、“H”がチェック記憶装置13に転送されたときに終了する。この段階で、種々の記憶装置は次の内容を有している:
記憶装置 内容
11 −−
13 “H”
14 “IGH”
15 “STR”および“EET”
第1の過程は、記憶領域12.3中のデータベースと動作記憶装置14の内容を整合することを試み、整合が領域12.33において見出だされる。したがって、動作記憶装置14の内容は出力記憶装置15の領域に転送される。
解析は第2の過程により連続し、文字“H”(チェック記憶装置13中の)は記憶領域12.2において配置される(この領域は、解析が第2の過程に戻っているので、使用状態であることに留意されたい)。解析は、データ記憶装置11が転送すべきバイトを持たないため終了することができ、動作記憶装置の内容すなわち“H”が出力記憶装置15に転送され、この出力記憶装置15が機械的な解析によって見出だされた正しい4つのストリングを含んでいる。
必要な出力ストリングが配置されており、記憶領域12.3および12.4が結合されたデータベースであることを使用してそれらを変換することだけが必要である。各領域は出力記憶装置に含まれたストリングだけでなく、適切な音素に対応したストリングを含む結合された出力領域もまた有している。したがって、出力記憶装置中の各ストリングは、その適切な領域にアクセスし、したがって必要な出力を生成するために使用される。最後のステップは検索表だけを使用し、これは重要な解析が終了しているため可能である。
上記のように、識別されたストリングは、結合されたデータベースへのアクセスとして機能し、簡単なシステムでは各アクセスストリングに対して出力ストリングが1つづつ存在している。しかしながら、発音は時には内容に依存し、改良された変換はアクセスストリングの少なくともいくつかに複数の出力を供給することによって達成されることができる。適切な出力流の選択は、例えばワード中の位置、或は後続するものまたは先行するものを考慮するためにアクセス流の内容の解析に依存する。この別の複雑さは本発明に影響を与えず、適切な部分への分割だけに関連している。それは検索プロセスを複雑にするに過ぎない。
上記に説明されたように、失敗の場合に例えば各書記素に等しい音素を供給する完全なシステムが省略技術を含んでいるため、本発明は出力を生成することを必ずしも必要とされない。本発明の説明を完全にするために、この失敗が発生して、省略技術の使用が必要とされる状況を簡単に示すことが望ましいと考えられる。
[失敗モード1]
第1の失敗モードは、データ記憶装置の内容が母音を含まず、それがワードでないことを意味した場合に発生する。通常のように、解析は第1の過程、特に第1の過程の第1のフェイズを使用することによってスタートし、これは第1のリスト12.1との整合がない限り連続する。ストリングおよびデータ記憶装置11は整合を含まないため、第1のフェイズは、ワードの始めまで連続し、これは失敗が存在することを示す。
[第2の失敗モード]
この失敗は次の場合に発生する:
(i)第2の過程が使用状態である;
(ii)ワードの始めに到達している;
(iii)データベース12.4において動作記憶装置14の内容に関する整合が存在しない。
これは、母音がチェック記憶装置13に含まれることを意味する、ワードの中間において整合できないことと対照的である。この段階の失敗は、第1の過程による後の時期の解析のためにバイトが戻ることを可能にし、少なくとも解析のこの時点で失敗は生じていない。ワードの始めに到達している場合、さらに解析する可能性はなく、したがって解析はできない。
[第3の失敗モード]
第3の失敗モードは、第1の過程が使用状態のときに発生し、データベース12.3に含まれたストリングと動作記憶装置14の内容を整合することは不可能である。これらの状況下において、第1の過程はチェック記憶装置13およびデータ記憶装置11にバイトを転送して戻し、この転送は、動作記憶装置14が空になり、また解析ができなくなるまで連続することができる。
第2の失敗モードにおいて、第2の過程は、第2の過程のよる以後の解析のために入力にバイトを戻すことが可能であることが説明された。しかしながら、転送されたバイトは、幾度か整合されなければならず、これは第1の過程の次のパフォーマンス期間中を意味する。第3の失敗モードは、以降の整合を行うことができない場合に対応する。
このように、本発明の方法は、検索表を使用して変換されることができるセグメントへのデータストリングの解析を行う。解析はあらゆるケースで成功する必要はないが、良好なデータベースが提供されたならば、この方法は非常に頻繁に作用し、テキストのスピーチ変換に必要なその他のモジュールを含む完全なシステムの特性を高める。
Claims (10)
- 書記素のテキストに相当するデジタル信号から合成スピーチを生成するためのスピーチエンジンにおいて使用するための装置であって、
書記素のテキストに相当するデータ表示を音素の同じテキストに相当するデータ表示へ変換するための第1のモジュールと、
前記第1のモジュールによる音素の出力を、合成スピーチを生成するために前記スピーチエンジンによって使用されるデジタル信号へ変換するための第2のモジュールとを具備し、
前記第1のモジュールは、書記素の語頭子音およびその語頭子音に等価な音素と、書記素の韻およびその韻に等価な音素とを記憶するためのメモリと、
ワードを書記素の語頭子音および韻へ分割し、その語頭子音および韻に等価な記憶された音素を使用して、その語頭子音および韻を音素に変換することで、書記素のテキストのワードを処理するための制御回路とを備え、
前記語頭子音のそれぞれは1つ以上の子音のストリングからなり、前記韻のそれぞれは1つ以上の母音のストリングか、1つ以上の子音のストリングが後続する1つ以上の母音のストリング、のいずれかからなり、
前記制御回路は、ワードのそれぞれの最後が韻であるように、書記素のテキストのワードを処理するように構成され、
書記素の語頭子音および韻への書記素のテキストのワードの前記分割は、ワードの最後から始まる逆行動作である装置。 - 前記メモリは書記素の完全なワードおよびそれに等価な音素をさらに記憶し、前記制御回路は、前記メモリに記憶されていない書記素のテキストの完全なワードを書記素の語頭子音および韻へ分割する、請求項1にしたがった装置。
- 合成スピーチを生成するための方法であって、
書記素の語頭子音およびそれに等価な音素と、書記素の韻およびそれに等価な音素とをメモリに記憶し、
前記語頭子音のそれぞれは1つ以上の子音のストリングからなり、前記韻のそれぞれは1つ以上の母音のストリングか、1つ以上の子音のストリングが後続する1つ以上の母音のストリング、のいずれかからなり、
書記素のテキストのワードを書記素の語頭子音および韻へ分割し、
前記ワードはワードのそれぞれの最後が韻であるように分割され、
前記素の語頭子音および韻への書記素のテキストのワードの前記分割は、ワードの最後から始まる逆行動作であり、
前記語頭子音および韻に等価な記憶された音素を使用して、前記語頭子音および韻を音素へ変換し、
前記音素を可聴音波形に変換して合成スピーチを生成することを備えた方法。 - 書記素の完全なワードおよびそれに等価な音素を前記メモリに記憶することをさらに備え、前記メモリに記憶されていない書記素のテキストの完全なワードだけが書記素の語頭子音および韻へ分割される、請求項3にしたがった方法。
- 書記素のテキストに相当するデジタル信号から合成スピーチを生成するためのスピーチエンジンにおいて使用するための装置であって、
書記素のテキストに相当するデータ表示を音素の同じテキストに相当するデータ表示へ変換するための第1のモジュールと、
前記第1のモジュールによる音素の出力を、合成スピーチを生成するために前記スピーチエンジンによって使用されるデジタル信号へ変換するための第2のモジュールとを具備し、
前記第1のモジュールは、書記素の語頭子音およびその語頭子音に等価な音素と、書記素の韻およびその韻に等価な音素とを記憶するためのメモリと、
ワードを書記素の語頭子音および韻へ分割することで、書記素のテキストのワードを処理するための制御回路とを備え、
前記語頭子音のそれぞれは1つ以上の子音のストリングからなり、前記韻のそれぞれは1つ以上の母音のストリングか、1つ以上の子音のストリングが後続する1つ以上の母音のストリング、のいずれかからなり、
前記制御回路は、ワードにおける韻と語頭子音を識別するための交互の第1および第2の過程を使用して、逆行の方法でワードを処理するように構成されており、
前記交互の第1および第2の過程はそれぞれのワードの最後が韻であるように動作可能であり、
前記制御回路は、識別された語頭子音および韻を、その語頭子音および韻に等価な記憶された音素を使用して、音素へ変換するようにさらに構成される装置。 - 前記交互の第1および第2の過程は、ワードが隣接する韻を含み、隣接する語頭子音を含まないように動作可能である、請求項5にしたがった装置。
- 前記交互の第1および第2の過程は、ワードが語頭子音か韻のいずれかで始まるように動作可能である、請求項5にしたがった装置。
- 書記素のテキストに相当するデータ表示を音素の同じテキストに相当するデータ表示へ変換するためのコンピュータ化された装置であって、
前記テキストはワードを含み、
前記装置は、書記素の韻および語頭子音と、前記韻および語頭子音に等価な音素とを記憶するためのメモリと、書記素のテキストのワードを書記素の語頭子音および書記素の韻へ分割し、前記語頭子音および韻を音素へ変換するための制御回路とを含み、
前記語頭子音のそれぞれは1つ以上の子音のストリングからなり、前記韻のそれぞれは1つ以上の母音のストリングか、1つ以上の子音のストリングが後続する1つ以上の母音のストリングのいずれかからなり、
語頭子音および韻への前記分割は、ワードの最後から始まる逆行動作であり、子音の内部ストリングから、後続の韻と関連する語頭子音である前記内部ストリングの後ろの部分を分割し、これにより、1つ以上の先行する母音と組み合さって韻を形成する前記内部ストリングの前の部分を識別することを含む装置。 - 前記コンピュータ化された装置は、書記素の完全なワードおよび音素へのそれらの変換を含むデータベースを備え、データベースに含まれるワードは前記データベースを使用して変換され、前記データベースに含まれていないその他のワードは韻および語頭子音への分割によって変換される、請求項8にしたがったコンピュータ化された装置。
- 前記音素に相当するデータ表示をデジタル波形にも変換する、請求項8にしたがったコンピュータ化された装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP93302383 | 1993-03-26 | ||
EP93302383.0 | 1993-03-26 | ||
PCT/GB1994/000430 WO1994023423A1 (en) | 1993-03-26 | 1994-03-07 | Text-to-waveform conversion |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08508346A JPH08508346A (ja) | 1996-09-03 |
JP3836502B2 true JP3836502B2 (ja) | 2006-10-25 |
Family
ID=8214357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP52141094A Expired - Fee Related JP3836502B2 (ja) | 1993-03-26 | 1994-03-07 | テキスト・波形変換 |
Country Status (8)
Country | Link |
---|---|
US (1) | US6094633A (ja) |
EP (1) | EP0691023B1 (ja) |
JP (1) | JP3836502B2 (ja) |
CA (1) | CA2158850C (ja) |
DE (1) | DE69420955T2 (ja) |
ES (1) | ES2139066T3 (ja) |
SG (1) | SG47774A1 (ja) |
WO (1) | WO1994023423A1 (ja) |
Families Citing this family (126)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995032497A1 (en) * | 1994-05-23 | 1995-11-30 | British Telecommunications Public Limited Company | Speech engine |
US5927988A (en) | 1997-12-17 | 1999-07-27 | Jenkins; William M. | Method and apparatus for training of sensory and perceptual systems in LLI subjects |
EP0952531A1 (en) * | 1998-04-24 | 1999-10-27 | BRITISH TELECOMMUNICATIONS public limited company | Linguistic converter |
US7369994B1 (en) * | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP2001358602A (ja) * | 2000-06-14 | 2001-12-26 | Nec Corp | 文字情報受信装置 |
DE10042942C2 (de) * | 2000-08-31 | 2003-05-08 | Siemens Ag | Verfahren zur Sprachsynthese |
DE10042944C2 (de) | 2000-08-31 | 2003-03-13 | Siemens Ag | Graphem-Phonem-Konvertierung |
DE10042943C2 (de) | 2000-08-31 | 2003-03-06 | Siemens Ag | Zuordnen von Phonemen zu den sie erzeugenden Graphemen |
US7805307B2 (en) | 2003-09-30 | 2010-09-28 | Sharp Laboratories Of America, Inc. | Text to speech conversion system |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US7991615B2 (en) * | 2007-12-07 | 2011-08-02 | Microsoft Corporation | Grapheme-to-phoneme conversion using acoustic data |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8523574B1 (en) * | 2009-09-21 | 2013-09-03 | Thomas M. Juranka | Microprocessor based vocabulary game |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
DE102012202391A1 (de) * | 2012-02-16 | 2013-08-22 | Continental Automotive Gmbh | Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
EP3809407A1 (en) | 2013-02-07 | 2021-04-21 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP2016521948A (ja) | 2013-06-13 | 2016-07-25 | アップル インコーポレイテッド | 音声コマンドによって開始される緊急電話のためのシステム及び方法 |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
RU2632137C2 (ru) * | 2015-06-30 | 2017-10-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер транскрипции лексической единицы из первого алфавита во второй алфавит |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10643600B1 (en) * | 2017-03-09 | 2020-05-05 | Oben, Inc. | Modifying syllable durations for personalizing Chinese Mandarin TTS using small corpus |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
CN110335583B (zh) * | 2019-04-15 | 2021-08-03 | 浙江工业大学 | 一种带隔断标识的复合文件生成及解析方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4811400A (en) * | 1984-12-27 | 1989-03-07 | Texas Instruments Incorporated | Method for transforming symbolic data |
-
1994
- 1994-03-07 WO PCT/GB1994/000430 patent/WO1994023423A1/en active IP Right Grant
- 1994-03-07 SG SG1996004323A patent/SG47774A1/en unknown
- 1994-03-07 US US08/525,729 patent/US6094633A/en not_active Expired - Lifetime
- 1994-03-07 ES ES94908433T patent/ES2139066T3/es not_active Expired - Lifetime
- 1994-03-07 CA CA002158850A patent/CA2158850C/en not_active Expired - Fee Related
- 1994-03-07 JP JP52141094A patent/JP3836502B2/ja not_active Expired - Fee Related
- 1994-03-07 DE DE69420955T patent/DE69420955T2/de not_active Expired - Lifetime
- 1994-03-07 EP EP94908433A patent/EP0691023B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
CA2158850C (en) | 2000-08-22 |
CA2158850A1 (en) | 1994-10-13 |
EP0691023B1 (en) | 1999-09-29 |
SG47774A1 (en) | 1998-04-17 |
US6094633A (en) | 2000-07-25 |
DE69420955D1 (de) | 1999-11-04 |
ES2139066T3 (es) | 2000-02-01 |
EP0691023A1 (en) | 1996-01-10 |
JPH08508346A (ja) | 1996-09-03 |
DE69420955T2 (de) | 2000-07-13 |
WO1994023423A1 (en) | 1994-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3836502B2 (ja) | テキスト・波形変換 | |
US6347298B2 (en) | Computer apparatus for text-to-speech synthesizer dictionary reduction | |
US6076060A (en) | Computer method and apparatus for translating text to sound | |
US5745875A (en) | Stenographic translation system automatic speech recognition | |
KR100209816B1 (ko) | 텍스트로부터 음성을 합성하는 장치 | |
JP2002358091A (ja) | 音声合成方法および音声合成装置 | |
JP2002123281A (ja) | 音声合成装置 | |
JPH11161296A (ja) | 文書読み上げ装置および方法 | |
JPH0916575A (ja) | 発音辞書装置 | |
JP3048793B2 (ja) | 文字変換装置 | |
JPH03245192A (ja) | 外国語単語の発音決定方法 | |
JPS6024621A (ja) | 日本語文作成装置 | |
JPH1063651A (ja) | 中国語入力装置 | |
JPH037999A (ja) | 音声出力装置 | |
JPH0337764A (ja) | 巣語辞書検索装置 | |
JP2000235567A (ja) | 声調符号無入力式中国語文字変換装置 | |
JPS62279458A (ja) | 仮名漢字変換装置 | |
JPS63187299A (ja) | 単語つづり―発音記号変換装置 | |
JPH04114278A (ja) | 文字列比較方式 | |
JPS60251461A (ja) | 仮名漢字変換装置 | |
JPS62226369A (ja) | かな漢字変換装置 | |
Daelemans et al. | walter@ kub. nl, antalb@ kub. nl | |
JPS62119592A (ja) | つづり字音韻記号変換処理方式 | |
JPH0656559B2 (ja) | 単語検出方式 | |
JPS59117624A (ja) | 日本語入力装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20040510 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20040621 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040810 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050104 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050421 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20050707 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20051226 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060601 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060727 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090804 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100804 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110804 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110804 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120804 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |