JPH08508346A - テキスト・波形変換 - Google Patents

テキスト・波形変換

Info

Publication number
JPH08508346A
JPH08508346A JP6521410A JP52141094A JPH08508346A JP H08508346 A JPH08508346 A JP H08508346A JP 6521410 A JP6521410 A JP 6521410A JP 52141094 A JP52141094 A JP 52141094A JP H08508346 A JPH08508346 A JP H08508346A
Authority
JP
Japan
Prior art keywords
string
storage area
bytes
character set
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6521410A
Other languages
English (en)
Other versions
JP3836502B2 (ja
Inventor
ガベッド、マーガレット
ハウキー、ジェイムズ
Original Assignee
ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=8214357&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JPH08508346(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー filed Critical ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー
Publication of JPH08508346A publication Critical patent/JPH08508346A/ja
Application granted granted Critical
Publication of JP3836502B2 publication Critical patent/JP3836502B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Devices For Executing Special Programs (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 本発明は、通常のテキストからの合成スピーチの生成、特に書記素のテキストが音素のテキストに変換されるステップに関する。書記素テキストは、韻および語頭子音群に解析され、各ワードは、早く発生したセグメントが遅く発生したセグメントの識別によって少なくとも部分的に限定されるように末尾から解析される。子音の内部ストリング、すなわち母音によって先行および後続された子音のストリングは、2つの部分、すなわち語頭子音群のデータベースに含まれる第2の部分と、先行する母音と共に韻のデータベースに含まれる前の部分とに分割される。

Description

【発明の詳細な説明】 テキスト・波形変換 本発明は、テキストを波形に変換する方法および装置に関する。特に、通常の テキストを表わす信号の形態の出力からの音波の形態の出力の生成、すなわち合 成スピーチの生成に関する。 この全体的な変換は、非常に複雑であり、あるモジュールの出力が次のものの 入力を構成する、いくつかのモジュールでしばしば実行される。最初のモジュー ルは通常のテキストを表す信号を受信し、最後のモジュールはその出力として合 成スピーチを生成する。この合成スピーチは、可聴音響出力を生成するために通 常のデジタル・アナログ変換がそれに続いて行われる波形のデジタル表示であっ てもよい。多くの場合、電話システムに対して可聴出力を供給することが所望さ れる。この場合、伝送がデジタル形態で行われるように、伝送後にデジタル・ア ナログ変換を行うことが便利である。 モジュラー構造には、各モジュールが別々に設計され、フレキシビリティを与 え、改良を行い、或は環境の変化に対処するためにモジュールの任意の1個を置 換または変更することができる等の利点がある。 いくつかの過程において、3個の一連のモジュール、すなわち (A)予備編集、 (B)書記素の音素への変換、および (C)音素の(デジタル)波形への変換が使用される。 以下、これらのモジュールを簡単に説明する。 モジュール(A)は、例えば本明細書のテキスト等の通常のテキストを表す信 号を受信し、選択された特徴を変形する。このようにして、モジュール(A)は 番号が処理される方法を具体的に示す。例えば、それは数字例“1345”が 1,3,4,5、 13,45、或は 1345になるのかを決定する。異なる形態の出力を生じさせるように、後 に続くモジュールとそれぞれ適合した異なる形態のモジュール(A)を提供する ことは比較的容易であることは明らかであろう。 モジュール(B)は、書記素を音素に変換する。“書記素”とは、通常の方法 で使用される通常のアルファベットのシンボルに対応したデータ表示を意味する 。本明細書のテキストが“書記素”のよい例である。合成スピーチの問題は、書 記素が、特に英語のような言語においてワードが発音される方法とほとんど関係 ないことである。したがって、波形を生成するために、ワードの音と非常に密接 な相関関係を有し、本明細書において音素と呼んでいる、異なるアルファベット に書記素を変換することが適切である。換言すると、モジュール(B)の目的は 、通常のアルファベットが音声を表わさないという問題に対処することである。 モジュール(C)は、上述のようにアナログフォーマット に、したがって可聴音波形に変換されることができるるデジタル波形に音素を変 換する。 本発明はモジュール(B)において使用される方法および装置に関するもので あり、以下このモジュールをさらに詳細に説明する。 モジュール(B)は、非常に多数の独立エントリィから成る結合されたデータ ベースを使用する。各エントリィは、例えば一連の書記素のバイト等の表示の形 態のアクセスデータと、アクセス部分に含まれている書記素と等価の音素のバイ ト等の表示を含む出力ストリングとを含む。書記素/音素変換の主要な問題は、 言語を処理するために必要なデータベースの寸法に帰する。理論的には理想的で ある1つの簡単な解決方法は、言語の中の可能性のある全ワードの可能性のある 全ての抑揚を含む、言語の中の可能性のある全ワードに対して個別のエントリィ を有する程大きいデータベースを提供することである。明らかに、完全なデータ ベースを与えられた場合には、入力テキストの中のあらゆるワードが個別に認識 され、すぐれた等価な音素が出力される。このような完全なデータベースを提供 することは不可能なことが明らかである。第1に、言語の中のあらゆるワードを 列挙することは不可能であり、このようなリストが入手できたとしても、それは 処理するには膨大過ぎる。 完全なデータベースは可能ではないが、例えば共通のワードや、発音が単に綴 りに関連していないワードを含む使用に適した寸法のデータベースを提供するこ とができる。このよ うなデータベースは、そこに含まれたワードのすぐれた書記素/音素変換を実行 するが、それは抜けているワードに対しては失敗する。すなわち、出力を全く供 給しない。実際の構造において、これは許容できないほど高い比率の失敗を意味 する。 別の可能性は、音素の等価なストリングにそれぞれ結合された書記素の短いス トリングにアクセスデータが対応したデータベースを使用することである。この 方法において、管理できる寸法のデータベースが使用されるが、それはそこに含 まれているストリングをデータベース中のアクセスデータと一致させるための入 力テキストの解析に依存する。この種のシステムでは、すぐれた発音が高い比率 で提供され、ごく少数の深刻な誤発音が発生する。解析できなかったために、或 は必要な書記素のストリングがデータベースのアクセス部分から欠落しているた めに、出力が全く行われない失敗がやはり発生する。 最後の可能性は、好ましい技術が使用できない場合にのみ使用されるために“ 省略”過程としてよく知られている。“省略”過程は、入力テキストのシンボル を“発音する”形態を取る。入力シンボルの範囲は知られてるだけでなく、制限 されている(通常100より少なく、多くの場合に50より少ない)ため、データベ ースを生成できないだけでなく、最近のデータ記憶システムの容量との関連で、 その寸法も非常に小さい。したがって、この省略過程は、その出力が最も適切な 解ではない可能性があっても出力することを保証する。こ の例は、イニシャルの使用された名前、身分および敬称、並びにいくつかのユニ ットの省略形を含む。これらの状況では文字を“発音”するのが普通であり、こ れらの場合に省略過程が最も良い結果を出すことが理解されるであろう。 以上、書記素を音素に変換する3つの異なる方法が確認され、これらの方法は 互いに相いれないことを認識することが重要である。事実、厳密な優先順序にし たがって3つの方法を全て使用することが望ましい。したがって、最初に“全体 的ワード”のデータベースが使用され、それが出力を発生した場合、その出力は すぐれている。それが失敗した場合、少ないが許容可能な数の誤発音を伴う“解 析”技術が使用される。最終的に、“解析”できない場合、“文字”を発音する 省略オプションが使用され、これは確実に出力を生じさせることができる。これ は完全に満足できるものではないかもしれないが、上述されたような場合には最 も適切な結果を提供する。 本発明は上記の概説したシーケンスの中間オプションに関する。すなわち、本 発明は入力テキストに対応した音素であるデータ表示の出力セットを生成するた めに入力テキスト書記素に対応したデータ表示の解析に関する。本発明の動作環 境は、上記に詳細に説明されている完全なテキスト・波形変換であることが強調 される。すなわち、本発明はシステム全体のうちの特定の素子に関する。 本発明によると、例えば書記素のような第1の文字セットから選択された文字 のストリングを表すデータ表示等のバイ トの入力シーケンスは、例えば音素のような第2の文字セットから選択された文 字のストリングを表すデータ表示等のバイトの出力シーケンスへの変換のために サブストリングに細分され、この方法は、遅く発生したバイトが早く発生したバ イトの前に選択され、それによって早く発生したバイトの選択が遅く発生したバ イトの前の選択によって少なくとも部分的に決定される、逆行解析を含む。 本発明の方法は、特に例えばワードに対応したブロック等のブロックに分割さ れた入力ストリングの処理に適している。ブロックは終りから始まって、始めの 部分まで動作するセグメントに解析され、セグメントは残りの処理されていない ストリングの終りから選択される。 請求の範囲に規定されている本発明は、この方法を実行する方法および装置を 含んでいる。 本発明による方法において使用される例えばバイトのようなデータ表示は、計 算回路における使用に適した任意の信号形態を取る。すなわち、データ表示は電 流(アンペア)、電位(ボルト)、磁界、電界または電磁放射線の形態の信号で あってもよい。さらに、データ表示は、処理の一部として過渡状態の記憶を含み 、例えば磁気媒体における磁化の程度および、または方向として適切な記憶媒体 に記憶されてもよい。 以下、理論的な根拠およびいくつかの好ましい実施例を説明する。好ましい実 施例において、入力信号はテキストの個別のワードに対応したブロックに分割さ れ、本発明が各ブロックに対して個別に作用する。したがって、プロセスは“ワ ード単位”の処理と考えることができる。 上述されたように、全体的システムがこのような失敗を処理するモジュールを 含んでいるため、各ブロック全てに対して出力を生成することが不要であるとい う条件を便宜上再度述べておく。 前置きとして、英語のワードの構造を考慮し、数個の特定のワードについて説 明することによって本発明の理論的な根拠を示す。この解析は、通常“母音”お よび“子音”として区別される違いを使用する。機械的な処理のためには、文字 の2つのリストを記憶することが必要である。これらのリストの一方は“母音” と呼ばれる文字を含み、他方のリストは“子音”と呼ばれる文字を含む。全ての 文字は、一方または他方のリストに含まれることが好ましいが、好ましい実施例 において“Y”に対応したデータ表示は両リストに含まれている。これは通常の 英語の綴りが時には文字“Y”を母音として、また時には子音として使用するた めである。したがって、第1のリスト(母音の)はa,e,i,o,uおよびy を含み、一方第2の子音のリストはb,c,d,f,g,h,j,k,l,m, n,p,q,r,s,t,v,w,x,yおよびzを含む。“Y”が両リストに おいて認められるということは、“非母音”という状態が“子音”という状態と 異なることを意味する。 解析の主要な目的は、データ表示のブロック、すなわちワードを“韻”と“語 頭子音群”に分割することである。解析は、それらの等価な音素に結合された韻 および語頭子音群の 等価な書記素を含む結合データベースを使用することを認識することが重要であ る。解析の目的は、韻および語頭子音群を表す任意のシーケンスだけでなく、デ ータベースに含まれるシーケンスにデータを分割することである。 韻は、母音のリストにそれぞれ含まれる1以上の文字のストリング、または母 音のリストに含まれない文字の第2のストリングが後続するこのようなストリン グを示す。この要求を換言すると、韻は第2のストリングによって後続された第 1のストリングから成り、第1のストリングに含まれる全ての文字は母音のリス トに含まれ、第1のストリングは空であってはならず、第2のストリングは完全 に第2のストリングが空であってもよいという条件で母音のリストの中に見出だ されない文字から成る。 語頭子音群は、全てが子音のリストに含まれる文字のストリングである。 解析には、ワードの最後が韻を踏むものであることが必要である。ワードが隣 接した韻を含むことは許されているが、それが隣接した語頭子音を含むことは許 されていない。ワードの最後は韻でなければならないことが述べられているが、 ワードの始めは韻または子音のいずれかであることができることに留意しなけれ ばらない。例えば、“orange”は韻で始まり、一方“pear”は語頭子 音で始まる。 本発明の基本的な理論を示すために、英語から随意に選択された4つの見本ワ ードが表示され、それらの韻および語頭子音に解析される。 [第1の見本] CATS 韻“ats” 語頭子音“c” “ats”は韻としてリストに入れられ、“C”は語頭子音としてリストに入 れられると考えられる。したがって、その等価な音素によるそれぞれの置換は、 “cats”を音素に変換する。 韻“ats”は、単一の母音“a”からなる第1のストリングおよび2つの非 母音すなわち“t”および“s”からなる第2のストリングを有することに注意 しなければならない。 [第2の見本] STREET 韻“eet” 語頭子音“str” この場合、韻の第1のストリングは2つの文字すなわち“ee”を含み、第2 のストリングは単一の非母音“t”を含む。語頭子音は、3つの子音のストリン グから成る。 語頭子音“str”および韻“eet”は、等価な音素が与えられるように共 にデータベースに含まれていなければならない。 [第3の見本] HIGH 韻“igh” 語頭子音“h” この例において、韻“igh”は英語の音の任意の1つであるが、データベー スは正しい音素への変換を行うことができる。 [第4の見本] HIGHSTREET 第2の韻“eet” 第2の語頭子音“str” 第1の韻“igh” 第1の語頭子音“h” 明らかに、ワード”highstreet”は前の2つの例の複合であり、そ の解析はこれら2つの例と非常に類似している。しかしながら、“high”と “street”にワードを分割するために第4と第5の文字との間に休止が存 在していることを認識する必要があるという重要な特別の要求がある。この分割 は、データベースの内容のために認識される。したがって、子音ストリング“g hstr”は、英語の語頭子音ではなく、それ故それはデータベースには存在し ないため、認識されることができない。さらに、ストリング“hstr”はベー ス中に存在しない。しかしながら、“strは英語の共通の”語頭子音であり、 データベース中に存在しなければならない。したがって、“str”は語頭子音 とて認識されることができ、“str”はストリング“ghstr”の後半部分 である。ストリングの末尾が語頭子音として認識されると、それより前の部分は 先行する韻の部分として識別され、ワード“high”は上記に説明されたよ うに分割されることができる。この例の目的は、子音の内部ストリングの分割が しばしば重要であり、分割がデータベースの使用によって達成されることを示す ことである。 以下、本発明の技術の基本をなす理論を説明するが、添付された概略図に示さ れている自動計算装置を使用してどのようにしてこれが実行されるかを示すこと が適切である。 自動計算装置は、信号のストリング例えば電気パルスで動作する。最も小さい 計算の単位は、オリジナルのテキストの単一の書記素に対応した信号のストリン グである。便宜上、それがどれだけ多数のビットを“バイト”中に含んでいても 、このような信号のストリングを“バイト”と呼ぶ。元来、“バイト”という用 語は8ビットのシーケンスを示した。このような8ビットは、255のカウントを 供給するため、これはほとんどのアルファベットに適合させるのに十分である。 しかしながら、“バイト”は必ずしも8ビットを含む必要はない。 以下説明する処理はブロック単位で実行され、各ブロックは1以上のバイトの ストリングである。データは、翻訳が可能でなく、変換に失敗するブロックを含 んでいる可能性があるため、各ブロックが個々のワード(すなわち潜在的なワー ド)に対応する。この方法の目的は、バイトが書記素を表す入力ブロックをバイ トが音素を表す出力ブロックに変換することである。この方法は、サブストリン グに入力ブロックを分割し、検索表に各サブストリングを変換して、出力ブロッ クを生成するように連結することによって行われる。 計算装置の動作モードは、2つの動作過程を有する。すなわち、それは2つの フェイズを含む第1の過程を有し、第1の過程は韻に対応したバイトストリング を識別するために使用される。第2の過程は、1つのフェイズしか持たず、それ は語頭子音に対応したバイトストリングを識別するために使用される。 図面に示されているように、計算装置は、前の処理装置からのブロックが処理 される準備ができるまでそれらを保持する入力バッファ10を含んでいる。入力バ ッファ10はデータ記憶装置11に接続され、それは要求時にデータ記憶装置11に個 々のブロックを供給する。 計算装置の重要な部分は記憶手段12である。これは、プログラミング命令と、 処理を実行するために必要とされるデータベースおよびリストを含む。以下、さ らに詳細に説明するように、記憶手段12は種々の機能領域に分割される。 データ処理装置はまた、記憶装置12に含まれたデータベースに保持されたバイ トストリングとの比較および処理のために、データ記憶装置11から得られたバイ トのザブセットを保持するために必要な動作記憶装置14を含んでいる。単一のバ イトすなわち個々の書記素に対応した信号ストリングは、チェック記憶装置13を 介して入力バッファ10から動作記憶装置14に転送され、チェック記憶装置13は1 バイトの容量を有している。チェック記憶装置13中のバイトは、動作記憶装置14 へ転送する前にデータ記憶装置10に含まれたリストに対してチェックされる。 動作記憶装置12に含まれた項目との整合に成功した後、ストリングは動作記憶 装置14から出力記憶装置15に転送される。整合ができない場合の使用のために、 装置は動作記憶装置14からデータ記憶装置11にバイトを戻す手段を含んでいる。 例えばプログラム命令用の別の領域に加えて、記憶手段12は4つの主要な記憶 領域を有している。これらの領域は、次のように区別される。 最初に、記憶手段は2つの異なるバイトのリストのための領域を有している。 これらは、母音に対応したバイトのリストを含む第1の記憤領域12.1および子音 に対応したバイトのリストを含む第2の記憶領域12.3である。(母音および子音 は、この明細書において前に区別が説明されている。) 記憶手段12はまた2つの異なった、実質的な結合されたデータベースを構成す る2つの記憶領域を含んでいる。まず、12.31,12.32,12.33等で示された領域 にさらに分割される韻データベース12.3が存在する。各領域は、図面に示されて いるように書記素中の“韻”に対応したバイトストリグを含む入力部分を有し、 これは“ATS”を含む12.31、“EET”を含む12.32、“IGH”を含む12.3 3、および図面には示されていないさらに多数の部分を有している。 記憶手段12はまた第2の主要な領域12.4を含み、それは語頭子音に等しい含む バイトストリングを有している。韻の場合のように、語頭子音データベースもま た多数の領域に分割される。例えば、それは“C”を含む12.41、“STR”を 含む12.42、および“H”を含む12.43を有する。 各入力部分(12.3および12.4)は、その入力部分の内容に対応したバイトのス トリングを含む出力部分に結合される。 動作方法が2つの異なる過程を含んでいることは既に述べた。第1の過程は記 憶領域12.1および12.3を利用し、一方第2の過程は記憶領域12.2および12.4を利 用する。実際に使用されるデータベースの領域は、動作の過程によって全体的に 限定されることが強調される。過程は交互に使用され、過程番号1が最初に使用 される。 [特定の例] [ワード“HIGHSTREET”の解析] この特定の例は、上記の説明の第4の見本として選択されたワードに関連して いることが認められるであろう。したがって、その韻および語頭子音は既に定め られ、特定の例はこれらが機械的な計算によってどのように行われるかを説明す る。 入力バッファ10がワード“HIGHSTREET”に対応したバイトストリン グをデータ記憶装置12に転送したときに、解析が始まる。したがって、この過程 のスタート時に、重要な記憶装置は次のような内容を有する: 記憶装置 内容 11 HIGHSTREET 13 −− 14 −− 15 −− (シンボル“−−”は、相当する記憶装置が空であることを 示す。) 解析は常にそうであるように第1の過程で始まる。上述のように、第1の過程 は記憶領域21.1および12.3を使用する。第1の過程は、その期間中にバイトがチ ェック記憶装置13を介してデータ記憶装置11から動作記憶装置14に転送される2 つのフェイズを有する。第1のフェイズは、バイトが記憶領域12.1において見出 だされない限り連続する。 過程は逆行(retrograde)であり、それはワードの後部から動作することを意 味し、したがって第1の転送は領域12.1に含まれない“T”である。第2の転送 は、領域12.1に含まれない“E”であり、それ故第1の過程の第2のフェイズが 開始される。これは、動作記憶装置14中のバイトが領域12.1において整合される 限り連続し、したがって第2の“E”は転送されるが、次のバイト“R”が送ら れた場合にはチェックができない。この段階において、種々の記憶装置の状態は 次のとおりである: 記憶装置 内容 11 HIGHST 13 R 14 EET 15 −− 動作記憶装置14の内容は、記憶領域12.3にアクセスするために使用され、整合 が領域12.32において見出だされる。したがって、整合は成功しており、動作記 憶装置14の内容すなわち“EET”は出力記憶装置15の領域に転送され、種々の 記憶装置の状態は次の通りである。 記憶装置 内容 11 HIGHST 13 R 14 −− 15 EET 第1の韻は、機械的に見出だされていることが認識されるであろう。 上述のように、チェック記憶装置13における“R”の非整合は、第1の過程の 第Tのパフォーマンスを終了させた。解析は続くが、2つの過程は常に交互に行 われるため、第2の過程が使用される。第2の過程は、記憶領域12.2および12.4 を使用する。チェック記憶装置13における“R”に対応したバイトは、領域12.2 が現在使用され、またこのバイトがそこに含まれているためここで整合する。し たがって、“R”は動作置く装置14に転送され、第2の過程はチェック記憶装置 13中のバイトが整合する限り連続する。したがって、文字“T”、“S”、“H ”および“G”は全てチェック記憶装置13を介して転送される。この時点で、“ I”に対応したバイトがチェック記憶装置13に到着し、“I”に対応したバイト は記憶領域12.2に含まれないため、チェックが失敗する。チェックができないた め、第2の過程のこのパフォーマンスは終了する。種々の記憶装置の内容は: 記憶装置 内容 11 “H” 13 “I” 14 “GHSTR” 15 “EET” 第2の過程は、領域12.4に含まれたデータベースと動作記憶装置14の内容を整 合させることを試みるが、整合は得られない。したがって、第2の過程は、バイ トがチェック記憶装置13を介してデータ記憶装置11に転送して戻される補修部分 に移行する。各転送時に、記憶領域12.4において動作記憶装置14の内容を配置す ることが試みられる。整合は、“STR”に等しいストリングが領域12.42に含 まれているため、文字GおよびHが戻されたときに達成される。整合が達成され ると、動作記憶装置の内容は、出力記憶装置15の領域に出力される。この時点の 種々の記憶装置の内容は次の通りである: 記憶装置 内容 11 “HIG” 13 “H” 14 −− 15 “STR”および“EET” 第2の過程は、整合を見出だすことによって終了されたので、解析は第1の過程 、特に第1の過程の第1のフェイズに戻る。この方法において、文字“H”およ び”G”は動作記憶装置14に転送され、第1のフェイズが終了する。第2のフェ イズは“I”を送り、“H”がチェック記憶装置13に転送されたときに終了する 。この段階で、種々の記憶装置は次の内容を有している: 記憶装置 内容 11 −− 13 “H” 14 “IGH” 15 “STR”および“EET” 第1の過程は、記憶領域12.3中のデータベースと動作記憶装置14の内容を整合す ることを試み、整合が領域12.33において見出だされる。したがって、動作記憶 装置14の内容は出力記憶装置15の領域に転送される。 解析は第2の過程により連続し、文字“H”(チェック記恒装置13中の)は記 憶領域12.2において配置される(この領域は、解析が第2の過程に戻っているの で、使用状態であることに留意されたい)。解析は、データ記憶装置11が転送す べきバイトを持たないため終了することができ、動作記憶装置の内容すなわち“ H”が出力記憶装置15に転送され、この出力記憶装置15が機械的な解析によって 見出だされた正しい4つのストリングを含んでいる。 必要な出力ストリングが配置されており、記憶領域12.3および12,4が結合され たデータベースであることを使用してそれらを変換することだけが必要である。 各領域は出力記憶装置に含まれたストリングだけでなく、適切な音素に対応した ストリングを含む結合された出力領域もまた有している。したがって、出力記憶 装置中の各ストリングは、その適切な領域にアクセスし、したがって必要な出力 を生成するために使用される。最後のステップは検索表だけを使用し、これは重 要な解析が終了しているため可能である。 上記のように、識別されたストリングは、結合されたデータベースへのアクセ スとして機能し、簡単なシステムでは各アクセスストリングに対して出力ストリ ングが1つづつ存在している。しかしながら、発音は時には内容に依存し、改良 された変換はアクセスストリングの少なくともいくつかに複数の出力を供給する ことによって達成されることができる。適切な出力流の選択は、例えばワード中 の位置、或は後続するものまたは先行するものを考慮するためにアクセス流の内 容の解析に依存する。この別の複雑さは本発明に影響を与えず、適切な部分への 分割だけに関連している。それは検索プロセスを複雑にするに過ぎない。 上記に説明されたように、失敗の場合に例えば各書記素に等しい音素を供給す る完全なシステムが省略技術を含んでいるため、本発明は出力を生成することを 必ずしも必要とされない。本発明の説明を完全にするために、この失敗が発生し て、省略技術の使用が必要とされる状況を簡単に示すことが望ましいと考えられ る。 [失敗モード1] 第1の失敗モードは、データ記憶装置の内容が母音を含まず、それがワードで ないことを意味した場合に発生する。通常のように、解析は第1の過程、特に第 1の過程の第1のフェイズを使用することによってスタートし、これは第1のリ スト12.1との整合がない限り連続する。ストリングおよびデータ記憶装置11は整 合を含まないため、第1のフェイズは、 ワードの始めまで連続し、これは失敗が存在することを示す。 [第2の失敗モード] この失敗は次の場合に発生する: (i)第2の過程が使用状態である: (ii)ワードの始めに到達している; (iii)データベース12.4において動作記憶装置14の内容に関する整合が存在し ない。 これは、母音がチェック記憶装置13に含まれることを意味する、ワードの中間 において整合できないことと対照的である。この段階の失敗は、第1の過程によ る後の時期の解析のためにバイトが戻ることを可能にし、少なくとも解析のこの 時点で失敗は生じていない。ワードの始めに到達している場合、さらに解析する 可能性はなく、したがって解析はできない。 [第3の失敗モード] 第3の失敗モードは、第1の過程が使用状態のときに発生し、データベース12 .3に含まれたストリングと動作記憶装置14の内容を整合することは不可能である 。これらの状況下において、第1の過程はチェック記憶装置13およびデータ記憶 装置11にバイトを転送して戻し、この転送は、動作記憶装置14が空になり、また 解析ができなくなるまで連続することができる。 第2の失敗モードにおいて、第2の過程は、第2の過程のよる以後の解析のた めに入力にバイトを戻すことが可能であ ることが説明された。しかしながら、転送されたバイトは、幾度か整合されなけ ればならず、これは第1の過程の次のパフォーマンス期間中を意味する。第3の 失敗モードは、以降の整合を行うことができない場合に対応する。 このように、本発明の方法は、検索表を使用して変換されることができるセグ メントへのデータストリングの解析を行う。解析はあらゆるケースで成功ずる必 要はないが、良好なデータベースが提供されたならば、この方法は非常に頻繁に 作用し、テキストのスピーチ変換に必要なその他のモジュールを含む完全なシス テムの特性を高める。
【手続補正書】特許法第184条の8 【提出日】1995年2月13日 【補正内容】 明細書 テキスト・波形変換 本発明は、テキストを波形に変換する方法および装置に関する。特に、通常の テキストを表わす信号の形態の出力からの音波の形態の出力の生成、すなわち合 成スピーチの生成に関する。 この全体的な変換は、非常に複雑であり、あるモジュールの出力が次のものの 入力を構成する、いくつかのモジュールでしばしば実行される。最初のモジュー ルは通常のテキストを表す信号を受信し、最後のモジュールはその出力として合 成スピーチを生成する。この合成スピーチは、可聴音響出力を生成するために通 常のデジタル・アナログ変換がそれに続いて行われる波形のデジタル表示であっ てもよい。多くの場合、電話システムに対して可聴出力を供給することが所望さ れる。この場合、伝送がデジタル形態で行われるように、伝送後にデジタル・ア ナログ変換を行うことが便利である。 モジュラー構造には、各モジュールが別々に設計され、フレキシビリティを与 え、改良を行い、或は環境の変化に対処するためにモジュールの任意の1個を置 換または変更することができる等の利点がある。 いくつかの過程において、3個の一連のモジュール、すなわち (A)予備編集、 (B)書記素の音素への変換、および (C)音素の(デジタル)波形への変換が使用される。 以下、これらのモジュールを簡単に説明する。 モジュール(A)は、例えば本明細書のテキスト等の通常のテキストを表す信 号を受信し、選択された特徴を変形する。このようにして、モジュール(A)は 番号が処理される方法を具体的に示す。例えば、それは数字例“1345”が 1,3,4,5、 13,45、或は 1345になるのかを決定する。異なる形態の出力を生じさせるように、後 に続くモジュールとそれぞれ適合した異なる形態のモジュール(A)を提供する ことは比較的容易であることは明らかであろう。 モジュール(B)は、書記素を音素に変換する。“書記素”とは、通常の方法 で使用される通常のアルファベットのシンボルに対応したデータ表示を意味する 。本明細書のテキストが“書記素”のよい例である。合成スピーチの問題は、書 記素が、特に英語のような言語においてワードが発音される方法とほとんど関係 ないことである。したがって、波形を生成するために、ワードの音と非常に密接 な相関関係を有し、本明細書において音素と呼んでいる、異なるアルファベット に書記素を変換することが適切である。換言すると、モジュール(B)の「目的 は、通常のアルファベットが音声を表わさないという問題に対処することである 。 モジュール(C)は、上述のようにアナログフォーマット トの入力シーケンスは、例えば音素のような第2の文字セットから選択された文 字のストリングを表すデータ表示等のバイトの出力シーケンスへの変換のために サブストリングに細分され、この方法は、 (i)第1の記憶領域が、第1の文字セットから選択された文字をそれぞれ表 している複数のバイトを含み、 (ii)第2の記憶領域が、第1の文字セットから選択された文字をそれぞれ表 している段数のバイトを含み、前記第2の記憶領域の内容全体が前記第1の記憶 領域の内容全体と異なっており、 (iii)第3の記憶領域が、第1の文字セットの文字を表す1以上のバイトか らなるストリングを含み、各ストリングの第1のバイトが第1の記憶領域に含ま れており、 (iv)第4の記憶領域が、第2の記憶領域にそれぞれ含まれている1以上のバ イトのストリングを含んでいる第1、第2、第3および第4の記憶領域を含む信 号記憶手段と共に行われる逆行解析を含む。 第1の領域に記憶されたバイトは母音を表わしていることが好ましく、一方第 2の領域のものは子音を表わしていることが好ましい。例えば文字“y”等は重 複の可能性がある。第3の領域のストリングは韻を表わしていることが好ましく 、一方第4の領域のものは語頭子音を表わしていることが好ましい。以下、母音 、子音、韻および語頭子音の概念を詳細に説明する。 分割は、第3および第4の記憶領域に含まれているストリ ングと入力信号のザブストリングを整合することを含んでいる。比較用のサブス トリングは、第1および第2の記憶領域を使用して形成される。 逆行解析には、遅く発牛したサブストリングが早く発生したサブストリングの 前に選択されることが必要である。サブストリングが選択されると、そこに含ま れているバイトは、早く発生したサブストリングを形成するように選択または再 選択に利用できない。この利用不可能性は、早いサブストリングを形成するため の選択を制限し、したがって前の選択は少なくとも部分的に早いサブストリング の遅い選択を制限する。 本発明の方法は、特に例えばワードに対応したブロック等のブロックに分割さ れた入力ストリングの処理に適している。ブロックは終りから始まって、始めの 部分まで動作するセグメントに解析され、セグメントは残りの処理されていない ストリングの終りから選択される。 請求の範囲に規定されている本発明は、この方法を実行する方法および装置を 含んでいる。 本発明による方法において使用される例えばバイトのようなデータ表示は、計 算回路における使用に適した任意の信号形態を取る。すなわち、データ表示は電 流(アンペア)、電位(ボルト)、磁界、電界または電磁放射線の形態の信号で あってもよい。さらに、データ表示は、処理の一部として過渡状態の記憶を含み 、例えば磁気媒体における磁化の程度および、または方向として適切な記憶媒体 に記憶されてもよい。 以下、理論的な根拠およびいくつかの好ましい実施例を説明する。好ましい実 施例において、入力信号はテキストの個別のワードに対応したブロックに分割さ れ、本発明が各ブロックに対して個別に作用する。したがって、プロセスは“ワ 等価な書記素を含む結合データベースを使用することを認識することが重要であ る。解析の目的は、韻および語頭子音群を表す任意のシーケンスだけでなく、デ ータベースに含まれるシーケンスにデータを分割することである。 韻は、母音のリストにそれぞれ含まれる1以上の文字のストリング、または母 音のリストに含まれない文字の第2のストリングが後続するこのようなストリン グを示す。この要求を換言すると、韻は第2のストリングによって後続された第 1のストリングから成り、第1のストリングに含まれる全ての文字は母音のリス トに含まれ、第1のストリングは空であってはならず、完全に第2のストリング が空であってもよいという条件で第2のストリングは母音のリストの中に見出だ されない文字から成る。 語頭子音群は、全てが子音のリストに含まれる文字のストリングである。 解析には、ワードの最後が韻を踏むものであることが必要である。ワードが隣 接した韻を含むことは許されているが、それが隣接した語頭子音を含むことは許 されていない。ワードの最後は韻でなければならないことか述べられているが、 ワードの始めは韻または語頭子音のいずれかであることができることに留意しな ければらない。例えば、“orange”は韻で始まり、一方“pear”は語 頭子音で始まる。 本発明の基本的な理論を示すために、英語から随意に選択された4つの見本ワ ードが表示され、それらの韻および語頭子音に解析される。 示す。) 解析は常にそうであるように第1の過程で始まる。上述のように、第1の過程 は記憶領域12.1および12.3を使用する。第1の過程は、その期間中にバイトがチ ェック記憶装置13を介してデータ記憶装置11から動作記憶装置14に転送される2 つのフェイズを有する。第1のフェイズは、バイトが記憶領域12.1において見出 だされない限り連続する。 過程は逆行(retrograde)であり、それはワードの後部から動作することを意 味し、したがって第1の転送は領域12.1に含まれない“T”である。第2の転送 は、領域12.1に含まれない“E”であり、それ故第1の過程の第2のフェイズが 開始される。これは、動作記憶装置14中のバイトが領域12.1において整合される 限り連続し、したがって第2の“E”は転送されるか、次のバイト“R”が送ら れた場合にはチェックができない。この段階において、種々の記憶装置の状態は 次のとおりである: 記憶装置 内容 11 HIGHST 13 R 14 EET 15 −− 動作記憶装置14の内容は、記憶領域12.3にアクセスするために使用され、整合 が領域12.32において見出だされる。したがって、整合は成功しており、動作記 憶装置14の内容すなわち“EET”は、出力記憶装置15の領域に転送され、種々 請求の範囲 1.第1の文字セットの文字にそれぞれ対応したバイトのストリングからなる入 力信号を第1の文字セットとは異なる第2の文字セットから選択された文字のス トリングを表す出力信号へ変換するためにサブストリングを識別するように処理 する方法において、 逆行解析によってサブストリングに前記入力信号を分割し、前記分割が第1、 第2、第3および第4の記憶領域を含む信号記憶手段と共に実行され、 (i)第1の記憶領域が、第1の文字セットから選択された文字をそれぞれ表 している複数のバイトを含み、 (ii)第2の記憶領域が、第1の文字セットから選択された文字をそれぞれ表 している複数のバイトを含み、前記第2の記憶領域の内容全体が前記第1の記憶 領域の内容全体と異なっており、 (iii)第3の記憶領域が、第1の文字セットの文字を表す1以上のバイトか らなるストリングを含み、各ストリングの第1のバイトが第1の記憶領域に含ま れており、 (iv)第4の記憶領域が、第2の記憶領域にそれぞれ含まれている1以上のバ イトのストリングを含み、 前記分割が、前記信号記憶手段の第3および第4の領域に含まれているストリ ングと面記入力信号のサブストリングを比較し、早く発生したザブストリングの 前に遅く発生したサブストリングを選択することを含み、遅いサブストリングの 先行した選択が早いサブストリングの選択を少なくとも部分 的に限定し、 比較用の前記サブストリングが、第1および第2の記憶領域の内容と入力信号 のバイトを比較して前記第1の記憶領域に含まれているバイトで始まるか、或は それから成るサブストリングを形成することによって形成され、その他のストリ ンクが完全に第2の記憶領域内に含まれるバイトを構成している方法。 2.入力信号はブロックに分割され、前記ブロックの少なくともいくつかの処理 は、 (a)第2の記憶領域にそれぞれ含まれている連続したバイトの内部ストリン グを識別し、前記ストリングが前記第1の記憶領域に含まれた先行バイトによっ て直ぐに連続され、第1の記憶領域に含まれる後続バイトによって直ぐに後続さ れ、 (b)第4の記憶領域に含まれているストリングと前記内部ストリングの最も 長い末尾ストリングを識別し、 (c)(b)で限定された末尾ストリングの分離後の前記内部ストリングの残 りである前記内部ストリングの最初の部分を限定し、(a)において特定された 前記先行ビットと前記最初のストリングを結合し、前記先行ビットを含むストリ ングを識別し、記憶されたストリングを有する前記最初の部分が前記第2の記憶 領域である請求項1記載の方法。 3.第3の記憶領域に含まれる各ストリングは2次ストリングによって後続され る1次ストリングから成り、1次ストリングは第1の記憶領域に含まれているバ イトから成り、2次 ストリングは空であるか、或は第2の記憶領域に含まれているバイトから構成さ れている請求項3記載の方法。 4.第1の文字セットから選択された文字のストリングを表す入力信号を第2の 文字セットから選択された文字のストリングを表す等価な信号に変換し、請求項 1乃至4のいずれか1項記載の方法によってサブストリングを識別し、前記サブ ストリングの1つをそれぞれ含む入力部分を有し、各入力部分が入力部分の内容 の等価な出力を含む出力部分に結合される結合されたデータベースによってサブ ストリングを変換する方法。 5.入力信号は入力ブロックに分割され、各ブロックは別々に変換され、前記ブ ロックの少なくともいくつかは細分せずに全体として変換され、面記ブロックの 少なくともいくつかは請求項3記載の方法によって変換される請求項4記載の方 法。 6.(i)第1の記憶領域が、第1の文字セットから選択された文字をそれぞれ 表している複数のバイトを含み、 (ii)第2の記憶領域が、第1の文字セットから選択された文字をそれぞれ表 している複数のバイトを含み、前記第2の記憶領域の内容全体が前記第1の記憶 領域の内容全体と異なっており、 (iii)第3の記憶領域が、第1の文字セットの文字を表す1以上のバイトか らなるストリングを含み、各ストリングの第1のバイトが第1の記憶領域に含ま れており、 (iv)第4の記憶領域が、第2の記憶領域にそれぞれ含まれ ている1以上のバイトのストリングを含んでいる、スピーチエンジンに内蔵され 、請求項1乃至5のいずれか1項による方法を実行する信号記憶手段。 7.第3の記憶領域に含まれる各ストリングは2次ストリングによって後続され る1次ストリングから構成され、1次ストリングは第1の記憶領域に含まれてい るバイトから成り、2次ストリングは空であるか、或は第2の記憶領域に含まれ ているバイトから構成されている請求項6記載の信号記憶手段。 8.請求項6または7のいずれか1項による信号記憶手段を含んでいるスピーチ エンジン。

Claims (1)

  1. 【特許請求の範囲】 1.第1の文字セットから選択された文字のストリングを表す入力信号を第2の 文字セットから選択された文字のストリングを表す出力信号へ変換するためにサ ブストリングを識別するように処理する方法において、 逆行解析によってサブストリングに前記入力信号を分割し、前記逆行解析が入 力信号の早く発生した部分の前にその遅く発生した部分を選択することを含み、 遅い部分の先行した選択は早く発生した部分の選択を少なくとも部分的に限定し 、前記遅く発生した部分が前記サブストリングの1つに含まれ、前記早く発生し た部分が前記ザブストリングの異なる1つに含まれている方法。 2.前記入力信号は、第1の文字セットの1文字にそれぞれ対応しているバイト のストリングから構成されている請求項1記載の方法。 3.第1、第2、第3および第4の記憶領域を含む信号記憶手段と共に実行され 、 (i)第1の記憶領域が、第1の文字セットから選択された文字をそれぞれ表 している複数のバイトを含み、 (ii)第2の記憶領域が、第1の文字セットから選択された文字をそれぞれ表 している複数のバイトを含み、前記第2の記憶領域の内容全体が前記第1の記憶 領域の内容全体と異なっており、 (iii)第3の記憶領域が、第1の文字セットの文字を表す1以上のバイトか らなるストリングを含み、各ストリングの 第1のバイトが第1の記憶領域に含まれており、 (iv)第4の記憶領域が、第2の記憶領域にそれぞれ含まれている1以上のバ イトのストリングを含んでいる請求項1または2記載の方法。 4.入力信号はブロックに分割され、前記ブロックの少なくともいくつかの処理 は、 (a)第2の記憶領域にそれぞれ含まれている連続したバイトの内部ストリン グを識別し、前記ストリングが前記第1の記憶領域に含まれた先行バイトによっ て直ぐに連続され、第1の記憶領域に含まれる後続バイトによって直ぐに後続さ れ、 (b)第4の記憶領域に含まれているストリングと前記内部ストリングの最も 長い末尾ストリングを識別し、 (c)(b)で限定された末尾ストリングの分離後の前記内部ストリングの残 りである前記内部ストリングの最初の部分を限定し、(a)において特定された 前記先行ビットと前記最初のストリングを結合し、前記先行ビットを含むストリ ングを識別し、記憶されたストリングを有する前記最初の部分が前記第2の記憶 領域である請求項3記載の方法。 5.第1の文字セットから選択された文字のストリングを表す入力信号を第2の 文字セットから選択された文字のストリングを表す等価な信号に変換し、請求項 1乃至4のいずれか1項記載の方法によってサブストリングを識別し、前記サブ ストリングの1つをそれぞれ含む入力部分を有し、各入力部分が入力部分の内容 の等価な出力を含む出力部分に結合され る結合されたデータベースによってサブストリングを変換する方法。 6.入力信号は入力ブロックに分割され、各ブロックは別々に変換され、前記ブ ロックの少なくともいくつかは細分せずに全体として変換され、前記ブロックの 少なくともいくつかは請求項5記載の方法によって変換される請求項5記載の方 法。
JP52141094A 1993-03-26 1994-03-07 テキスト・波形変換 Expired - Fee Related JP3836502B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP93302383.0 1993-03-26
EP93302383 1993-03-26
PCT/GB1994/000430 WO1994023423A1 (en) 1993-03-26 1994-03-07 Text-to-waveform conversion

Publications (2)

Publication Number Publication Date
JPH08508346A true JPH08508346A (ja) 1996-09-03
JP3836502B2 JP3836502B2 (ja) 2006-10-25

Family

ID=8214357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP52141094A Expired - Fee Related JP3836502B2 (ja) 1993-03-26 1994-03-07 テキスト・波形変換

Country Status (8)

Country Link
US (1) US6094633A (ja)
EP (1) EP0691023B1 (ja)
JP (1) JP3836502B2 (ja)
CA (1) CA2158850C (ja)
DE (1) DE69420955T2 (ja)
ES (1) ES2139066T3 (ja)
SG (1) SG47774A1 (ja)
WO (1) WO1994023423A1 (ja)

Families Citing this family (126)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2189574C (en) * 1994-05-23 2000-09-05 Andrew Paul Breen Speech engine
US5927988A (en) * 1997-12-17 1999-07-27 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI subjects
EP0952531A1 (en) * 1998-04-24 1999-10-27 BRITISH TELECOMMUNICATIONS public limited company Linguistic converter
US7369994B1 (en) * 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2001358602A (ja) * 2000-06-14 2001-12-26 Nec Corp 文字情報受信装置
DE10042943C2 (de) 2000-08-31 2003-03-06 Siemens Ag Zuordnen von Phonemen zu den sie erzeugenden Graphemen
DE10042942C2 (de) * 2000-08-31 2003-05-08 Siemens Ag Verfahren zur Sprachsynthese
DE10042944C2 (de) * 2000-08-31 2003-03-13 Siemens Ag Graphem-Phonem-Konvertierung
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7991615B2 (en) * 2007-12-07 2011-08-02 Microsoft Corporation Grapheme-to-phoneme conversion using acoustic data
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8523574B1 (en) * 2009-09-21 2013-09-03 Thomas M. Juranka Microprocessor based vocabulary game
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
DE102012202391A1 (de) * 2012-02-16 2013-08-22 Continental Automotive Gmbh Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
RU2632137C2 (ru) * 2015-06-30 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер транскрипции лексической единицы из первого алфавита во второй алфавит
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10643600B1 (en) * 2017-03-09 2020-05-05 Oben, Inc. Modifying syllable durations for personalizing Chinese Mandarin TTS using small corpus
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN110335583B (zh) * 2019-04-15 2021-08-03 浙江工业大学 一种带隔断标识的复合文件生成及解析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4811400A (en) * 1984-12-27 1989-03-07 Texas Instruments Incorporated Method for transforming symbolic data

Also Published As

Publication number Publication date
EP0691023B1 (en) 1999-09-29
DE69420955D1 (de) 1999-11-04
WO1994023423A1 (en) 1994-10-13
ES2139066T3 (es) 2000-02-01
EP0691023A1 (en) 1996-01-10
SG47774A1 (en) 1998-04-17
CA2158850C (en) 2000-08-22
US6094633A (en) 2000-07-25
JP3836502B2 (ja) 2006-10-25
DE69420955T2 (de) 2000-07-13
CA2158850A1 (en) 1994-10-13

Similar Documents

Publication Publication Date Title
JPH08508346A (ja) テキスト・波形変換
US6347298B2 (en) Computer apparatus for text-to-speech synthesizer dictionary reduction
US6016471A (en) Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word
KR100509797B1 (ko) 결정 트리에 의한 스펠형 문자의 복합 발음 발생과 스코어를위한 장치 및 방법
Bagshaw Phonemic transcription by analogy in text-to-speech synthesis: Novel word pronunciation and lexicon compression
JP2633824B2 (ja) 仮名漢字変換装置
US6961695B2 (en) Generating homophonic neologisms
KR100209816B1 (ko) 텍스트로부터 음성을 합성하는 장치
Pearson et al. Automatic methods for lexical stress assignment and syllabification.
van Leeuwen A development tool for linguistic rules
JP2002358091A (ja) 音声合成方法および音声合成装置
JP2002123281A (ja) 音声合成装置
JPH0916575A (ja) 発音辞書装置
JP2002189490A (ja) ピンイン音声入力の方法
JP3048793B2 (ja) 文字変換装置
JP2001117577A (ja) 音声合成装置
JPS5958493A (ja) 認識装置
Hain A hybrid approach for grapheme-to-phoneme conversion based on a combination of partial string matching and a neural network
JPH0827635B2 (ja) 文―音声変換装置に用いる複合語処理装置
JPS63187299A (ja) 単語つづり―発音記号変換装置
JP2000235567A (ja) 声調符号無入力式中国語文字変換装置
FROM et al. Caroline B. Huangf, Mark A. Son-Bellţ, David M. Baggettf
JPH04127199A (ja) 外国語単語の日本語発音決定方法
JPS63182699A (ja) 単語読み情報格納辞書
JPH04289899A (ja) 口語音声認識装置及び方法

Legal Events

Date Code Title Description
A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040510

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040810

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050104

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050421

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050707

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20051226

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060601

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060727

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090804

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100804

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110804

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110804

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120804

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees