JP3142803B2 - テキストを音声に変換するシンセサイザ - Google Patents

テキストを音声に変換するシンセサイザ

Info

Publication number
JP3142803B2
JP3142803B2 JP09244012A JP24401297A JP3142803B2 JP 3142803 B2 JP3142803 B2 JP 3142803B2 JP 09244012 A JP09244012 A JP 09244012A JP 24401297 A JP24401297 A JP 24401297A JP 3142803 B2 JP3142803 B2 JP 3142803B2
Authority
JP
Japan
Prior art keywords
text
user
speech
tts
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP09244012A
Other languages
English (en)
Other versions
JPH1091389A (ja
Inventor
フローデ・ホルム
スティーブ・ペアソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JPH1091389A publication Critical patent/JPH1091389A/ja
Application granted granted Critical
Publication of JP3142803B2 publication Critical patent/JP3142803B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般的にテキスト
を音声に変換する(text-to-speech、TTS)シンセサ
イザに関する。特に、本発明は、ユーザーがTTSシン
セサイザと相互作用して制御することを可能にする改良
されたシステムに関する。
【0002】
【従来の技術及び発明が解決しようとする課題】テキス
トを音声に変換する(text-to-speech、TTS)変換
は、労働環境における日々の幾つかの仕事の正確性を単
純化して向上する見込みがある。しかしながら、TTS
システムはより直感的でユーザーフレンドリーに作られ
るほど、TTSシステムの最大限能力を引き出すのに至
らないであろう。テキストを音声に変換する特徴が過去
に幾つかのコンピュータのソフトウェアアプリケーショ
ンにおいてある限度まで実施されたが、これらは通例よ
りむしろ例外である。現在では、TTSの有用性は、話
されるべきデータを含む任意のアプリケーションと機能
するように全く設計されてないように、すべてのソフト
ウェアアプリケーションに利用できるわけではない。こ
の欠点は、TTS技術が真に利用できるようになる前に
解決しなければならない。現在、TTSを支持するアプ
リケーションでさえ、いまだに改良の余地はかなり存在
する。理想的には、合成される音声は、適切なポーズ
(句切り)や音声の調節が自然な音声を模擬するように
加えられながら、流暢に連続的に発音すべきである。現
在のTTSシステムはこの点をかなり不足しており、適
切な抑揚に対する感覚を完全に欠いて話される、単語の
まとまりの悪い連結のように発音される。現在の技術に
欠けているものは、韻律的文脈の必須の複数の知識であ
る。例えば、スプレッドシートの表の行から読まれるテ
キストと対比されるように、タイプライターで打たれた
散文から読まれるテキストの間を識別するユーザーフレ
ンドリーな機構が存在しない。数字のTTS変換を参照
すると、数字が読まれるべき内容を識別する簡単に使用
できる機構が現在では存在しない。自然な話し言葉にお
いて、数字の部分はドルとセントとは異なって読まれ
る。テキストを音声に変換するシステムも同様にするこ
とができるようにすべきである。
【0003】テキストを通して前後に移動することは、
より挑戦すべき問題を与えてくれる。時間毎に単語1つ
でテキストを通して前後に移動する未完成のシステムは
存在する一方、ユーザーインターフェースは不自然で、
合成された音声は話されるテキストの韻律的ニュアンス
を欠いている。理想的には、テキストのブロックを前後
に動かすユーザーは、現在の音声がどこで始まるかに拘
わらずに適切な音声の調節を含む合成された音声セグメ
ントの出力を好むであろう。テープレコーダに類似なも
のによって、話される出力は、テキストが開始点から又
は中間のランダムな点から再生されるかどうかにかかわ
らず、同一のポーズと音声の調節を有すべきである。現
在の技術はこれを達成していない。
【0004】チャートやスプレッドシートにおけるデー
タのTTS変換はさらに挑戦を申し込む。チャートやス
プレッドシートにおける−完全に定義された開始点と中
間点と最終点とを有する−段落形式のテキストのタイプ
打ちされた散文を用いて、チャートやスプレッドシート
のテキストは任意のランダムな順番で読まれるかもしれ
ない。現在のTTSシステムはこれを動作する簡単にコ
ントロールするシステムを有しない。スプレッドシート
におけるランダムな位置から読取り、もう1つの位置に
ジャンプし、その位置から読み取る現在利用できる方式
はない。理想的なシステムは、ユーザーにどのセグメン
トがどの順序で読まれるべきかを定義させるであろう。
【0005】結局は、ほんの少しの又は全く注意がユー
ザーの選択の管理には費やされていない。TTS変換シ
ステムは、ユーザーによる優れたチューニングの幾つか
の度合いを必要とし、システムがユーザーがそれを望む
方式で音声を出力することを保証してもよい。しかしな
がら、これは実行されるより簡単である。音声技術にお
ける先進の技術を有する洗練されたユーザーは音声シン
セサイザにおいて用いられる音組織をどうのようにして
変更するかを理解するであろうが、平均的なユーザーは
無理である。それゆえ、理想のTTSシステムは、ユー
ザーがテキストがシステムによって話される方式で変更
することを助ける、簡単に使えるツールを含むべきであ
る。ツールの使用は自明かつ簡単に用いることができる
べきである。システムはまた、格納され、呼び戻され、
変更されるべきツールによって実行される変化を可能に
する、ユーザーの選択の管理に対する容易さを含むべき
である。現在のシステムはこの点については不十分であ
る。
【0006】本発明は、ユーザーが“転送バー”を介し
て多くの予めのトレーニングなしでTTS変換機能を制
御することができるような簡単に使える“転送バー”を
使用する改良したTTSシステムを通じて先の問題に注
目する。コントロールシステムは独立したアプリケーシ
ョンである。それは、ウィンドウズスタイルのクリップ
ボードの容易さをサポートする実質的にすべてのソフト
ウェアアプリケーションと協働する。好ましい転送バー
は、再生と、停止と、早送りと、巻戻しとを含むテープ
レコーダ上に見受けられるそれらによく似たボタンを提
供する。好ましい転送バーはまた、テキストの指定され
た部分を逐次分類される1組のバッファにロードするた
めに使用される固有のLEDボタンを含む。LEDボタ
ンは、ユーザーが、ユーザーにより定義されたシーケン
スにおける再生のために、ランダムに選択されたスプレ
ッドシートのセルのようなテキストの離れた部分を選択
することを可能にする。
【0007】本発明の目的は、以上の問題点を解決し、
ユーザーがTTS変換システムを簡単に使用しかつ制御
することを可能にするシンセサイザを提供することにあ
る。
【0008】
【課題を解決するための手段】本発明に係る請求項1記
載のシンセサイザは、独立した目標のアプリケーション
の可視表示におけるテキストのユーザーにより選択され
た部分を、人間の言葉のように発音する音声出力に変換
するテキストを音声に変換するシンセサイザであって、
上記シンセサイザは、上記独立した目標のアプリケーシ
ョンの上記可視表示から離れて表示される転送コントロ
ールバーと、オンされたとき、上記テキストのユーザー
により選択された部分のコピーをメモリの予約されたセ
グメントに入れる上記転送コントロールバー上に含まれ
る再生ボタンと、上記テキストのユーザーにより選択さ
れた部分を上記メモリの予約されたセグメントから受信
するテキスト記憶バッファと、上記テキスト記憶バッフ
ァに含まれる上記テキストのユーザーにより選択された
部分を、人間の言葉のように発音する音声出力に変換す
る、テキストを音声に変換するエンジンとを備えること
を特徴とする。
【0009】また、本発明に係る請求項2記載のシンセ
サイザは、独立した目標のアプリケーションの可視表示
におけるテキストのユーザーにより選択された複数の不
連続の部分を、人間の言葉のように発音する音声出力に
変換するテキストを音声に変換するシンセサイザであっ
て、上記シンセサイザは、上記独立した目標のアプリケ
ーションの上記可視表示から離れて表示される転送コン
トロールバーと、オンされたとき、上記テキストのユー
ザーにより選択された部分のコピーをメモリの予約され
たセグメントに入れる上記転送コントロールバー上に含
まれる領域記憶ボタンと、メモリの上記予約されたセグ
メントにコピーされた上記テキストのユーザーにより選
択された複数の不連続の部分の各々を連続して記憶する
複数のテキスト記憶バッファと、起動されたとき、上記
テキストのユーザーにより選択された複数の不連続な部
分に含まれる上記テキストのユーザーにより選択された
部分を、人間の話法のように音を出す音声出力に変換す
るテキストを音声に変換するエンジンとを備えることを
特徴とする。
【0010】
【発明の実施の形態】テキストを音声に変換する(TT
S)コントローラは異なるオペレーティングシステム
(OS)のプラットフォームの領域で実施されるかもし
れない。本発明を説明するために、ウィンドウズOS環
境における本発明をここに詳細に記述する。特に、ウィ
ンドウズ3.1における本発明を開示する。ウィンドウ
ズ95やウィンドウズNT上のシステムを実施する適用
可能な変形例も与えられる。ウィンドウズ3.1、ウィ
ンドウズ95及びウィンドウズNTは、ワシントン、レ
ドモンドのマイクロソフト・コーポレイションから市販
用が入手できる。本発明はマイクロソフトのウィンドウ
ズの環境に制限されるものではなく、むしろ、本発明
は、必要なグラフィカルユーザーインターフェースコン
ポーネントと適切なクリップボード機構を提供する、任
意の適切なオペレーティングシステム環境において実施
されてもよいことは理解されるであろう。従って、本発
明はまた、UNIXオペレーティングシステム、OS2
(IBMコーポレイションの製品)及びマッキントッシ
ュオペレーティングシステム(アップルコンピュータ・
コーポレイションの製品)上において実施されてもよ
い。
【0011】図1は、本発明の好ましい実施形態のオー
プンテキストウィンドウ34を有するワードプロセッサ
の目標のアプリケーション32(図1では、「WordPerf
ect(ワードパーフェクト)-[document(文書)]」と示
される。)と、4つのグラフィカルユーザーインターフ
ェース(GUI)パネルとを含むウィンドウズ30を図
示する。好ましい実施形態の4つのGUIパネルは転送
バー36(図1では、「CYBERTALK TRANSPORT(サイバ
ートーク転送)」と示される。)と、コントロールパネ
ル38(図1では、「CyberTalk Control Panel(サイ
バートークコントロールパネル)」と示される。)と、
プリファレンスパネル40(図1では、「CyberTalk Pr
eferences(サイバートークプリファレンス)」と示さ
れる。)と、辞書エディタパネル42(図1では、「Us
er Dictionary-test2(ユーザー辞書−テスト2)」と
示される。)とである。
【0012】好ましい実施形態の基本的オペレーション
は、テキストを音声に変換(TTS)するアプリケーシ
ョンの起動を必要とする。この第1の起動はウィンドウ
ズ30の表示上に転送バー36を生成する。第1の起動
の後に、ユーザーは可聴音声に変換されるオープンテキ
ストウィンドウ34上のテキストを選択する。この場合
における選択は、音声に変換されるオープンテキストウ
ィンドウ34のテキストのその部分をユーザーが強調表
示することによって実行される。例えば、ユーザーは、
マウス又は他のポインティングデバイスを用いて選択さ
れたテキストを強調表示してもよい。ユーザーの選択の
後に、強調表示されたテキスト44の変換は、ユーザー
によって起動される転送バー36に含まれるプレイボタ
ン46を一度クリックすることで開始する。
【0013】変換プロセスにおける第1のステップは、
ワードプロセッサの目標のアプリケーション32のオー
プンテキストウィンドウ34からの強調表示されたテキ
スト44の抽出である。図2は基本的抽出アルゴリズム
を表す。
【0014】TTS変換アプリケーションはステップ1
1で実行を開始し、ステップ12において、ワードプロ
セッサの目標のアプリケーション32が入力キーボード
フォーカスを有することを保証することによって始ま
る。1度この状況が満たされると、ステップ13におい
て、TTS変換アプリケーションはワードプロセッサの
目標のアプリケーション32における“コピー”コマン
ドを起動するために必要なキー打ちをシミュレーション
する。特に、このことはウィンドウズ30のカーネル機
能(キーb)へのコールを実行して達成され、それは、
キーボードの活動化の情報を、開始されたコピーコマン
ドがシステムの幅広い待ち行列(キュー)からワードプ
ロセッサの目標のアプリケーション32にルートされる
上記システムの幅広いキューに逐次提供する。TTS変
換アプリケーションは、OSに“コピー”コマンド(例
えば、Ctrl-C)を意味するキー打ちをメッセージキュー
に入力させる。
【0015】シミュレーションされたコピーのキー打ち
の受信で、ワードプロセッサの目標のアプリケーション
32は、それを別のものに挿入するために、強調表示さ
れたテキスト44を、ウィンドウズのクリップボード、
又はメモリの他の適切な予約されたセグメントに置くこ
とによって応答し、上記メモリは、あるテキスト、デー
タ又はグラフィックスの文書からコピーされたデータを
保持するために使用される。このことは、ウィンドウズ
への読取りクリップボード機能のコールを実行して行わ
れる。一旦、強調表示されたテキスト44がクリップボ
ード上で利用されると、ステップ14において、TTS
変換アプリケーションは、クリップボードの内容をTT
Sテキストバッファに転送し、ステップ15においてT
TS変換エンジンによって処理される。“コピー”動作
は、ユーザーが選択されたテキストを強調表示してプレ
イボタン46をオンすると、自動的に実行される。
【0016】好ましい実施形態はまた、目標のアプリケ
ーションにおけるテキストの離れた領域が単一で連続的
なTTS変換において抜粋されてその後に話される機能
を含む。図3は、オープンスプレッドシートウィンドウ
52を有するスプレッドシートの目標のアプリケーショ
ン50(図3では、「Microsoft Excel-TJL.XLS(マイ
クロソフト エクセル−TJL.XLS)」と示され
る。)を含む第2のウィンドウズ48の環境を表し、オ
ープンスプレッドシートウィンドウ52は、ユーザーに
よるTTS変換が上記オープンスプレッドシートウィン
ドウ52から離れた領域に対して所望される上記オープ
ンスプレッドシートウィンドウ52である。
【0017】図3において示されるように、スプレッド
シートアプリケーション50は、ユーザーの入力データ
(54、56、58)と、組み込み型の計算式(オープ
ンスプレッドシートウィンドウ52には見えない。)
と、スプレッドシートの結果(60、62)とを通常含
み、上記スプレッドシートの結果(60、62)は上記
組み込み型の計算式を上記ユーザーの入力データに適用
することによって計算される。校正のために、ユーザー
の入力データ(54、56、58)のみが概して対象と
される。このユーザーの入力データは離れた位置で分散
されるので、校正されるべきそれらの位置だけの個々の
TTS変換は困難である。さらに、個々の離れた位置の
選択と変換は、ユーザーが、連続するユーザーの相互作
用なしで所望される位置の完全な1組を聞くことができ
ないように、扱いにくい。
【0018】本発明の好ましい実施形態は、ユーザーの
選択した複数の領域が音声に連続的に変換された後、ユ
ーザーの選択した複数の領域を選択して記憶する能力を
提供する。離れた領域の選択、記憶及び変換は、所望す
る範囲を強調表示することによってオープンスプレッド
シートウィンドウ52における位置をユーザーが選択す
ることで開始する。オープンスプレッドシートウィンド
ウ52におけるこの位置が強調表示された後に、ユーザ
ーは転送バー36に含まれるLED記憶ボタン64を介
してアプリケーションの記憶機能を起動する。このLE
D記憶ボタン64の選択によって、強調表示された位置
はスプレッドシートの目標のアプリケーション50のオ
ープンスプレッドシートウィンドウ52から抽出され
る。前述した基本的オペレーションと共に、第1の強調
表示された位置はウィンドウズのコピー機能とクリップ
ボードを用いることによって抽出される。しかしなが
ら、LED記憶ボタン64がオンされると、アプリケー
ションはクリップボードからデータを検索せず、選択さ
れたデータを変換するTTSエンジンにすぐに送信する
が、むしろ、選択された位置はアプリケーションのロー
カルバッファに記憶される。LED記憶ボタン64は、
選択された情報の1つのバッファが記憶されていること
を示す、表示された数値をインクリメントし、上記プロ
セスは、すべての読まれるべきテキストがすべて選択さ
れて記憶されるまで、追加の位置に対してユーザーによ
って繰り返される。
【0019】アプリケーションはまた、テキストを含む
1つ又はそれ以上のバッファが、転送バー36に含まれ
る停止ボタン66の色を変更することによって変換のた
めに待機していることを示す。好ましい実施形態におい
ては、停止ボタン66の色は、ユーザーによって記憶さ
れた複数のバッファが存在するときに、黄色から赤に変
わる。
【0020】抽出された望ましいテキストを用いて、プ
レイボタン46のユーザーによるオンは、記憶されたテ
キストバッファを、連続してかつ選択された順番で、変
換のためのTTSエンジンに送信する。各記憶されたバ
ッファの音声に対するこの変換の間に、LED記憶ボタ
ン64は、現在話されているバッファを反映する数値を
表示する。
【0021】記憶されたテキストバッファのTTS変換
の間に、ユーザーは、記憶されたテキストバッファを介
して前進する又は以前再生されたテキストバッファを繰
り返す機能を与えられる。これらの2つの機能は、転送
バー36の前進スキップボタン70と後退スキップボタ
ン72とを介して与えられる。前進スキップボタン70
のユーザーによるオンは再生されている又は再生される
べき現在のバッファを前進させ、一方、後退スキップボ
タン72は再生されている又は再生されるべき現在のバ
ッファを後戻りさせる。
【0022】ユーザーがもはや、ローカルテキストバッ
ファに記憶されたテキストを再生することを所望しない
後に、ローカルテキストバッファは消去されてもよい。
このことは全バッファの消去コマンドを発生することに
よって達成される。全バッファの消去コマンドは、停止
ボタン66を2度オンすることによって発生され、アプ
リケーションは停止ボタン66の色を赤から黄色に変え
ることによって記憶されたテキストの消去を示す。
【0023】選択されたテキストがTTSエンジンによ
って再生されている間に、基本的転送コマンド(転送バ
ー)36はユーザーによって発生されてもよい。転送コ
マンド36によって、変換が停止ボタン66の1度のオ
ンによって停止されることができ、又はユーザーは一時
停止ボタン74のオンを実行して変換プロセスを一時停
止してもよい。加えて、早送り及び巻戻しのコマンドは
それぞれ、早送りボタン76及び巻戻しボタン78を通
して発生されてもよい。
【0024】一旦、選択されたテキストがTTSエンジ
ンに送信されると、変換はコントロールパネル38と、
プリファレンスパネル40と、辞書エディタパネル42
とを通して与えられるユーザーの入力に基礎を置かれ
る。コントロールパネル38は、転送パネル36に設け
られたコントロールボタン80がユーザーによって選択
されるときに、起動される。
【0025】図5に見られるように、コントロールパネ
ル38は、焦点次元コントロール82と、男女の性選択
84と、数値/テーブル変換コントロール86と、早送
り及び巻戻しジャンプサイジング88(図5では、「FF
W/FRW」と示される。)との4つのコントロールグルー
プを有する。焦点次元コントロール82は、ユーザーに
ボリュームレバー90(図5では、「vol」と示され
る。)を用いて音声の増幅度の設定を提供する。テキス
トが読まれるペースはスピードレバー92(図5では、
「Spd」と示される。)を用いて増減させてもよく、基
本的音声周波数は周波数レバー94(図5では、「Fr
q」と示される。)を用いてユーザーの好みに設定され
てもよい。
【0026】数値/テーブル変換コントロール86は、
数値のテキストが存在し又は選択されたテキストが行列
の形状を有するテーブル内に含まれるとき、TTS変換
の態様を制御するインタフェースをユーザーに提供す
る。常時先頭ボタン98(図では、「Always on top
(常時先頭)」と示される。)は、転送バー36をいつ
もウィンドウズの表示の最上層に表示させる。この方式
において、転送バー36はいつも可視できる。それゆ
え、任意の目標のアプリケーションが動作している上に
転送バー36を“浮かせる”ことが望ましい。
【0027】テーブルモードボタン100(図5では、
「Table mode(テーブルモード)」と示される。)は、
情報をより自然な表現で話されるべきテーブルから読ま
せる特別な韻律アルゴリズムを呼出して実行する。特
に、特別な韻律アルゴリズムは、TTSエンジンに各行
の後に少し間を置かせ、各列の後に文の最後のイントネ
ーションを用いる。ドルモードボタン102(図5で
は、「Say “dollar/cent"(“ドル/セント”とい
う)」と示される。)は、TTSエンジンが、数字の前
にドル記号を置かれる場合における“ダラーズ(dollar
s)”と“センツ(cents)”を発音するようイネーブル
し、ゼロモードボタン104(図5では、「Say0 as
“zero"(0を“ゼロ”という)」と示される。)は、
ユーザーに数値の“0”を“ゼロ(zero)”又は“オー
(oh)”のどちらで発音するのかを選択させる。
【0028】早送り及び巻戻しジャンプのサイズの決定
領域88は、ユーザーに、早送りボタン76又は巻戻し
ボタン78がオンされたときにジャンプのサイズを決定
させる。テキストにおいて進められる距離は、句106
(図5では、「Phrase(句)」で示される。)、文10
8(図5では、「Sentence(文)」で示される。)又は
段落110(図5では、「Paragraph(段落)」で示さ
れる。)の3つのサイズのうちの1つに設定可能であ
る。本発明の好ましい実施形態において、句106が選
択され、テキストが数字から構成されているとき、ジャ
ンプするサイズは個々の数字となることに注意された
い。
【0029】従来技術のTTS変換アプリケーション
は、ジャンプのサイズを単語のサイズに制限する。さら
に、従来技術のTTS変換アプリケーションは、口頭の
会話での情報のタイプを伝える音節や単語に用いられる
韻律、又はアクセント及びリズムを変える便利な方式を
提供しない。本発明を用いると、早送り及び巻戻し機能
がTTS変換エンジンに密接に一体化されているので、
単語とは別の粒状度を有するジャンプサイズが選択され
てもよいし、巻戻し又は早送りが要求されるときに韻律
は失くされたり、歪まされはしない。
【0030】コントロールパネル38の4つのコントロ
ールパネルのグループのプリファレンスに加えて、サン
プリング周波数のユーザーによる制御と、アプリケーシ
ョンを開始する構成と、辞書のパスの構成と、ロードさ
れる音声がプリファレンスパネル40を介して提供され
る。プリファレンスパネル40に与えられるこの付加的
なコントロールは、プリファレンスボタン112(図5
では、「Preference(プリファレンス)」と示され
る。)のオンに伴いコントロールパネル38を介してア
クセスされる。
【0031】図6を参照すると、プリファレンスパネル
40は機能的な領域に好ましくはさらに細分化される。
音声の品質の領域114(図6では、「QUALITY(品
質)」と示される。)においては、ユーザーは2つの周
波数ボタン116及び118(図6では、それぞれ「11
KHz[Low]」及び「22 KHz[High]」と示される。)のどち
らかを選択して、ローサンプリングレート(11KHz)と
ハイサンプリングレート(22KHz)の間で選べる。TT
Sエンジンはディジタル方式で録音されたサンプルを連
結し、音声を生成する。プリファレンスパネル40にお
けるサンプリングレートの選択は、サンプリングされた
1組の音声には(よりコンパクトなローサンプリングレ
ート又はより高品質なハイサンプリングレートの)どち
らを用いるかをTTSエンジンに伝達する。
【0032】好ましい実施形態によって、ユーザーはT
TSエンジンが開始時でどのように形成されるかを構成
することができる。このことはプリファレンスパネル4
0の領域120(図6では、「START UP(開始)」と示
される。)において制御される。チェックボックス12
2(図6では、「Restore settings(設定を戻す)」と
示される。)によって、ユーザーは、TTSアプリケー
ションにユーザーの設定を前のセッションの最後で存在
した値に戻すように命令する。あるいは一方、ユーザー
はチェックボックス124(図6では、「Load user-di
ctionaries(ユーザーの辞書をロードする)」と示され
る。)をチェックして、複数の定義されたユーザーの辞
書のうちの1つををロードする。リストボタン126が
クリックされて、現在利用できるユーザーの辞書のすべ
てを列挙するプルダウンメニューを表示する。本質的に
は、任意のユーザーは、ユーザーの辞書が用いられると
きにTTSエンジンがどのようにして発音するかを指定
する彼又は彼女自身の辞書を定義することができる。ユ
ーザーがこのことを達成できる技術は、図7において示
されるユーザー辞書パネル42(辞書エディタパネル)
に関連して以下でより全体的に論じられる。
【0033】好ましい実施形態は、TTSエンジンとユ
ーザー辞書がユーザーの選んだ任意の位置に記憶される
ことを可能にする。換言すれば、ユーザーは、辞書/補
助辞書、又はTTSエンジンとユーザー辞書とを記憶す
るフォルダの位置を指定できる。領域128(図6で
は、「DIRECTORIES(ディレクトリ)」と図示され
る。)はこれらのコンポーネントの正確な位置を入力し
て、その結果、コントローラはこれらのコンポーネント
を配置してそれらを他のコンポーネントと一体化するこ
とができる。テキストボックス130(図6では、「En
gine:(エンジン:)」と示される。)は、TTSエン
ジンが置かれる完全なパスの位置を入力することに用い
られる。テキストボックス132(図6では、「Dictio
naries:(辞書:)」と示される。)は、ユーザー辞書
が置かれる場所を指定する同様の機能を提供する。実験
的作業の間では、異なるTTSエンジンと異なる辞書ラ
イブラリとの間を素早く変更することができることは便
利である。このことはディスク上で異なるパスの位置で
異なるTTSエンジンと異なる辞書ライブラリを記憶す
ることによって簡便に実行される。次いで、所望される
TTSエンジン又はユーザー辞書は、テキストボックス
130及び132における適切なパスの情報での簡単な
ファイル整頓によって、素早く選択されることができ
る。
【0034】ローサンプリングレートの音声とハイサン
プリングレートの音声との間で変更できることは別とし
て、TTSエンジンはまた、両方のサンプリングレート
で複数の異なる音声の間で選択することができる。好ま
しい実施形態は、TTSエンジンが、女性の声でサンプ
リングされた音声と男性の声でサンプリングされた音声
とを使用できるようにする。さらに、別のサンプリング
された音声が数字の発音の質を向上することを(両方の
声で)提供される。
【0035】プリファレンスパネル40の領域134
(図6では、「LOAD:1360Kb(ロードする:1360kb)」と
示される。)において、ユーザーがこれらの利用できる
サンプリングされた音声のどれかが、TTSエンジンが
それらにアクセスするメモリ内にロードされるかを指定
してもよい。サンプリングされた音声は文書の記憶の目
的のためのコンピュータのハードディスクに通常は記憶
される。−自然な可聴音声を提供して−サンプルがリア
ルタイムで連結されて再生されることを可能にすること
では、サンプルは、より速いランダムアクセスメモリ又
はRAM内にロードされるべきである。幾つかのコンピ
ュータシステムは限定的に入手可能であって自由にアク
セス可能なRAMを有しているので、好ましい実施形態
は、ユーザーにより必要とされるそれらの音声だけを選
択することを可能にする。従って、チェックボックス1
36、138及び140(図6では、それぞれ、「Fema
le(女性)」、「Male(男性)」及び「Numbers(数
字)」と示される。)をチェックすることによって、ユ
ーザーは要求されるそれらの音声だけをロードすること
ができ、又は既に必要とされない音声をロードすること
ができない。図6においては、表示はRAMの1360
Kbがロードされていることを示す。これは選択されて
いるチェックボックス138に対応する。
【0036】TTS変換においては、音声はサブ単語と
単語との両方のレベルで分類される。上記分類は音韻論
における構成単位を定義するベースである音素に基礎を
置く。音素を用いて、解析は、音素が異なる文脈におい
て形成されるときに異なる音声が発生されることで行わ
れてもよい。それゆえ、与えられた状況における適切な
音声を生成するルールは形成される。単語はまた、それ
らの構造のために解析されてもよい。単語は音素と共に
形態素として一般に参照される構成単位に分解されても
よく、形態素から単語を形成するルールは存在する。ユ
ーザー辞書パネル42は、個々のユーザーが、個々に区
別される音素のルールを形成することを可能にする。
【0037】図7は、個々に区別される辞書を編集する
又は生成することに用いられる辞書エディタパネル42
を表す。辞書エディタパネル42は、この機能を達成す
る、オープン/新しい辞書ウィンドウ142(図7で
は、「Open/New Dictionary(オープン/新しい辞
書)」と示される。)と、単語編集ウィンドウ144
と、音素編集ウィンドウ146と、母音選択テーブル1
48(図7では、「VOWELS(母音)」と示される。)と
の4つのメイングループを有する。
【0038】オープン/新しい辞書ウィンドウ142
は、ユーザーが現存する辞書を開いて変更したり、又は
新しいファイルにおける現在の編集セッションの間に生
成された編集を記憶することを可能にする。辞書の名前
ウィンドウ154は現在選択されている辞書を表示し、
又はユーザーが新規に生成した辞書にラベル付けするこ
とを可能にする。現在、存在する辞書はまた、辞書プル
ダウンバー150から選択されてもよい。ファイルボタ
ン152は、それらの辞書だけが現在利用できる辞書の
パスに存在するように、プリファレンスパネル40に示
される辞書を開く。
【0039】単語編集ウィンドウ144は、音声上変更
されている又は変更可能とされる単語のリストを表す。
ユーザーが単語編集ウィンドウ144において見つけら
れた単語の音声的表現を編集することを所望する場合で
は、音素編集ウィンドウ146は音声を変更することに
用いられてもよい。単語“melodrama(メロドラマ)”
156は辞書から選ばれるので、単語“melodrama(メ
ロドラマ)”156はスペリングボックス166(図7
では、「Spelling(スペリング)」と示される。)内に
置かれる。ユーザーが、現在選択されている単語を、ユ
ーザーの選択によるもう1つの単語と同一の方式で発音
されることを好むような場合では、音声の好みボックス
168(図7では、「Sounds like(音声の好み)」と
示される。)はこの機能を実行することに使用されても
よい。単語が選択されると、選択された単語の音声的表
現は音素ボックス170に表される(図7では、「Phon
emes(音素)」と示される。)。上記音素ボックス17
0はクラットコード(Klatt Code)の形式で音声的表現
を含み、それはユーザーが現在選択されている単語を形
成するように共に連結された個々の音素のトークンを見
えるようにする。示される好ましい実施形態はクラット
コード表現を使用するが、しかしながら、国際音標文字
(International phonetic alphabet、IPA)はま
た、ランダムハウス(Random・House)によって提供され
る音声表現に加えてユーザーに利用可能である。
【0040】音素編集ウィンドウ146はまた、生成さ
れたときの音節の各1つに置かれるべき選択可能なアク
セントのレベルをユーザーに提供する。このユーザーの
選択可能なアクセントのレベルは、表された音節の各々
のすぐ真下に設けられたアクセントボタン(172、1
74、176、178)を与えられる。アクセントボタ
ン(172、174、176、178)はアクセントの
3つのレベルを提供し、上記3つのレベルはアクセント
ボタン(172、174、176、178)の色の変化
を通してユーザーに示される。
【0041】音素編集ウィンドウ146において提供さ
れる音声表現には精通していないユーザーのために、母
音選択テーブル148は、ユーザーが与えられた音節を
強調表示することによって与えられた音節に対する適切
な母音を選択することを可能にし、次いで、アプリケー
ションによって音声的に生成された利用可能な母音の音
声を通して循環し、その結果、ユーザーは選択されたト
ークンによって生成された音声を聞いてもよい。ユーザ
ーが次の母音ボタン190(図7では、「NEXT(次)」
と示される。)をオンするたびに、利用できる次の母音
の音声はユーザーのために再生される。さらに、母音ド
ロップダウンメニュー192(図7では、「Select in
table(テーブルにおいて選択する)」と示される。)
は、一例としての単語によって表される音声を選択する
ことに用いられてもよく、上記単語は、ユーザーが音素
ボックス170において選択された音節又トークンに置
き換えたいと望むものである。
【0042】図8は本発明の好ましい実施形態のTTS
シンセサイザのハイレベルの概観を表す。示されるよう
に、シンセサイザはウィンドウズ環境に存在する3つの
独立したアプリケーションを含む。目標のアプリケーシ
ョン200は、TTSエンジンアプリケーション202
とTTSコントロール又はTTSコントロールアプリケ
ーション204と共に協働して動作する。ウィンドウズ
オペレーティングシステム環境206(図8では、ウィ
ンドウズ3.1とウィンドウズ95として示される。以
下、ウィンドウズOS環境206という。)は、目標の
アプリケーション200と、TTSエンジン202と、
TTSコントロールアプリケーション204とを相互作
用させる手段である。TTSコントロールアプリケーシ
ョン204は、ウィンドウズカーネル機能208を用い
て、前述したように目標のアプリケーション200にお
ける入力キーボードのコピーコマンドをシミュレーショ
ンする。ウィンドウズカーネル機能208はウィンドウ
ズOS環境206の一部分である。ここでは図解するた
めに分離されて208で示されている。
【0043】ウィンドウズOS環境206は、ウィンド
ウズのアプリケーションにおいてTTSを実施すること
に用いられることができるハイレベルとローレベルの両
方の音声のオブジェクトをサポートする。これらの音声
のオブジェクトは、OLEのコンポーネントオブジェク
トモデル(component object model、COM)を確立する
OLEのコンポーネントである。マイクロソフト・コー
ポレイションは、ウィンドウズの互換性のある音声アプ
リケーションが確立するアプリケーションプログラミン
グインターフェース(application programming interf
ace、API)を定義する詳細を開示している。マイクロソ
フトの音声APIを準拠することなく、音声オブジェク
トを実施することは可能だが、好ましい実施形態はこの
APIを準拠するように実施され、その結果、他のマイ
クロソフトウィンドウズアプリケーションと互換性を有
する。
【0044】本質的に、音声APIは1組のインターフ
ェースのルールである。ウィンドウズOS環境において
TTS機能を実施することが所望されるアプリケーショ
ンは、それらのルールを確立すべきである。従って、図
8において、ウインドウズTTSアプリケーションプロ
グラミングインターフェース(TTS・API)が21
0で図示される。図8が示唆するように、本発明のTT
Sエンジン202とTTSコントローラ204はマイク
ロソフトの音声APIを準拠するように図示されてい
る。マイクロソフトの標準の音声APIのより良い情報
は、マイクロソフト・コーポレイションによって公開さ
れているマイクロソフト・スピーチ・ソフトウェア・デ
ベロップメント・キット・デベロッパーズ・ガイド(Mi
crosoft Speech SoftWare Development Kit Developer'
s Guide)を参照されたし。
【0045】本発明のコントローラは、マイクロソフト
のTTS・APIを準拠する任意のTTSエンジンと協
働するように容易に構成されることができる。このアプ
リケーションに対する適切なTTSエンジンはセンチグ
ラム(Centigram)から入手できる。しかしながら、本
発明の全ての特徴を実施するために、基本的なTTSエ
ンジンの正確な変更例がここに提供された説明に従って
生成されてもよい。
【0046】図9は、TTSコントローラ204とTT
Sエンジン202の両方の付加的な詳細を提供する。図
9の図示された実施形態は、ウィンドウズ3.1のOS
環境に対するものである。TTSエンジン202は、異
なる音声に対する音声データを含む幾つかの異なる動的
にリンクされたライブラリ(different dynamicallylin
ked libraries、DDL)へのアクセスを有するTTS
エンジンカーネル220を備える。好ましい実施形態に
おいて、サンプルの特別なコレクションは数値のアプリ
ケーションのために含まれる。これらのサンプルは数値
のDLL228を備える。男性及び女性の声のDLL2
30及び232は、ユーザーの選択に依存して、音声サ
ンプルデータを男性の声又は女性の声のいずれかで一般
的に連結された音声信号を提供する。ユーザーの選択は
適切な設定データテーブル226における設定として記
憶される。コントローラ204は、変更されるべきこの
設定データテーブル226における値を発生するメッセ
ージを送信することができる。この方式においては、ユ
ーザーは、再生のサンプリングレートを含む他のTTS
エンジンの設定同様、どちらの音声のサンプルが再生中
に使用されるべきかを選択することができる。
【0047】本発明のコントローラ204は基本的なT
TS・APIカーネルDLL250を備える。TTS・
APIカーネルDLL250はマイクロソフトのTTS
・APIに準拠するように設計される。転送コントロー
ルプロセス252、対話ボックスコントロールプロセス
254及び辞書エディタプロセス256のようなクライ
アントのプロセスはTTS・APIカーネルDDL25
0から送られる。この好ましい実施において、対話ボッ
クスコントロールプロセス254は、ユーザーが転送バ
ー36上のコントロールボタン80をオンしたときに起
動される。辞書エディタプロセス256は2つの方式の
うちの1つで起動されてもよい。対話ボックスコントロ
ールプロセス254によって発生されるコントロールパ
ネル38から起動されてもよい。また、基本のウィンド
ウズのユーザーインターフェースから分離した独立型の
アプリケーションとして独立して起動されてもよい。
【0048】本質的に、コントローラ204はマルチタ
スクOS環境において実行可能なタスクの分配を利用す
るように構成される。従って、TTS・APIカーネル
DDL250は、ウィンドウズOS環境206とTTS
エンジン202ともまた第1の通信機能を操作する。T
TS・APIカーネルDDL250は、マイクロソフト
のTTS・APIを準拠するように応答する。クライア
ントのプロセス252、254及び256は、TTS・
APIカーネルDDL250の機能を用いて、TTS・
APIに応じて保証するように応答する。特に、転送コ
ントロールプロセス252はスクリーン上に転送バー3
6を表示して、転送バー36上のボタンの動作を調整し
て統合する。それゆえ、転送コントロールプロセス25
2は、すべてのボタンが与えられたテキストで適切に動
作することを保証するように応答する。例えば、今、再
生機能が動作してないとき、停止ボタン66が現在利用
できないことを示す、より淡い色調又は異なる色で停止
ボタン66が表示される。また、転送コントロールプロ
セス252は、要求されるディジットカウンタを更新す
るLED記憶ボタン64がどのように表示されるかの詳
細を操作する。
【0049】対話ボックスコントロールプロセス254
は、コントロールパネル38に関する同様の機能を実行
する。同様に、辞書エディタプロセス256は辞書エデ
ィタパネル42を発生して操作する。
【0050】ウィンドウズ3.1の実施において、TT
S・APIはメッセージループを有しない。よって、通
信は基本のウィンドウズのメッセージループを介して直
接実行されることができない。このことを克服するため
に、シェアされたメモリモジュールが提供される。シェ
アされたメモリモジュールは、図9においてエンジング
ルー(接着剤、glue)モジュール212と呼ばれる。本
質的に、エンジングルーモジュール212は、TTSエ
ンジン202とTTSコントローラ204が互いに通信
するために使用してもよいシェアされたメモリの領域を
定義する。通信はシェアされたメモリ空間に読み込んだ
り書き込んだりすることによって実行される。
【0051】図10はより詳細にTTSエンジンを示
す。図示されるように、TTSエンジン260の出力
は、TTS・APIの仕様で定義された音声オブジェク
トとして、連結されたシーケンスのサンプルを順番にデ
ィジタル/アナログ変換回路264に出力するTTSエ
ンジン出力ドライバ262に供給される。この回路はま
た、音声を聞くことを可能にする適切な増幅器とスピー
カシステムを供給する。
【0052】TTSエンジン260は、目標のアプリケ
ーション200からTTSエンジン260におけるTT
Sエンジンローカルバッファ272にコピーされる目標
のアプリケーションデータ268を処理する。図10に
おいて、目標のアプリケーション200は1組の目標の
アプリケーションデータ268を有する。これらの目標
のアプリケーションデータ268は目標のアプリケーシ
ョン200に用いられてコンピュータスクリーン上にテ
キスト又は数字を表示してもよい。前述されたように、
ユーザーはこれらのテキスト又は数字を強調表示して、
次いで、転送バー36上のプレイボタン46をオンす
る。転送コントロールプロセス252(図9)は、ウィ
ンドウズOS環境を介して一連のコマンドを発生し、強
調表示されたデータ上でウィンドウズのコピーとペース
トの動作をシミュレーションする。次いで、クリップボ
ード270から、データはTTSエンジン260のTT
Sエンジンローカルバッファ272にコピーされる。L
ED記憶ボタン64がテキストの一部を選択することに
用いられる場合では、プレイボタン46をオンすること
が、LED記憶ボタン64のバッファに記憶されたテキ
ストの一部分をTTSエンジン260のTTSエンジン
ローカルバッファ272内にロードする。
【0053】上記TTSエンジン260は以下のように
TTSエンジンローカルバッファ272に記憶されたデ
ータを処理する。合成がプレイボタン46をオンするこ
とによって開始されるときに、TTSエンジンローカル
バッファ272は与えられたテキストの量と共にロード
される。これは移動させるリターン、スペース、タブ等
のすべてを含む。実際にTTSエンジンローカルバッフ
ァ272に転送されるデータのサイズは、ユーザーによ
って選択されたものに依存する。一般的には、より多く
のデータが記憶されると、これはより完全な文脈を提供
して合成プロセスにおいてより完全に助ける。従って、
完全な段落は単一の文より良い。完全なテーブルはテー
ブルにおける独立した語彙項目より良い。もし十分なメ
モリが利用できれば、本のような完全なテキストがTT
Sエンジンローカルバッファ272内にロードされるこ
とができる。典型的には、これは、完全な本より少なく
識別されることができるテキストの文脈としては必要で
はない。
【0054】TTSエンジンローカルバッファ272に
ロードした後に、テキストはフォーマット又は走査と言
われる処理を実行して解析される。フォーマット又は走
査の処理を表すハイレベルなフローチャートが図11に
表される。S21において、上記プロセスは、数字、省
略語及び頭字語を正確な単語シーケンスに変換して、テ
キストを正規化する。次いで、S22において、フォー
マット及び走査の処理は、テキストを個々の単語又は数
字を表すトークンに分割する。これらは単語間の空白を
検出することによって識別される。次に、S23におい
て、ハイレベルな構文解析が実行されて、埋込まれた句
読記号に基づいて、段落の境界と、文の境界と、節の境
界とを見付ける。このテキストの解析の一部として、任
意の埋込み型コマンドが検出されて実行される。典型的
に、音声シンセサイザは埋込みコマンドを与えられ、音
声レートや声の品質を変更するようなコントロール機能
を達成することができる。例えば、埋込み型コマンド
は、次の単語が強調表示されるべきであること又はテキ
ストの次のブロックがテーブルとして扱われるべきであ
ることを示す信号を送信してもよい。しかしながら、埋
込み型コマンドが必要とされずに、それらが無くてもシ
ンセサイザは優れて機能する。
【0055】テキストのトークンに対するハイレベルな
構文解析は、幾つかの一般的に遭遇する状況に適応させ
る。例えば、“805-687-0110”はおそらく、電話番号と
して認識されることができ、おそらく日々の時間である
“8:30”とは異なって話される。同様に、“(即ち、ニ
ューヨーク)”における括弧はイントネーションにおい
て息継ぎをして変化し、ここでは“(”における括弧は
“左の括弧”を読まれなければならず、“can't”又は
“O'Malley”における単一の引用符は一対の一部として
は考えられない。
【0056】S24において、ハイレベルな構文解析
は、そのとき辞書においてルックアップされる単語を識
別することを含む。辞書は、音声の起こりうる部分に対
応する1組の実行できる発音を提供する。この情報はT
TSエンジンに関する辞書に記憶される。S25におい
て後で、句レベルでの構文解析を実行するとき、音声の
幾つかの部分は現在の文脈において不可能であることを
発見されてもよい。それは各単語に対する音声の最適な
一部分と、対応する最適な発音に制限することを可能に
する。従って、各単語はそれに関連する情報のパケット
を収集することを開始する。情報のこのパケットはより
完全に記述された適切なデータ構造に記憶される。
【0057】音声情報の発音と一部分を記憶することに
加えて、パーサーによって識別されて各単語はまた、ロ
ーカルバッファ214に戻るポインタ又はインデックス
を含む。これは、TTSエンジンが、単語がダウンロー
ドされたテキストのどこに設けられたかを“覚える”こ
とを可能にする。本質において、これらの情報パケット
は構文木における葉となる。トークンは多くの話される
単語に変換されてもよいので、単語は、単語の範囲を定
められたテキストバッファの空白に厳密には対応しな
い。例えば、“687-0110”のトークンは、“six-eight-
seven…zero-one-one-zero(シックス−エイト−セブン
…ゼロ−ワン−ワン−ゼロ)”に変換する。
【0058】それらは入れられた句読記号によって範囲
を制限されるので、段落と、文と、節とに対応する構造
木のノードはすでに適所にある。しかしながら、句読記
号によってマークを付けられない幾つかの付加的な節の
境界が存在する。これらの節の境界はTTSエンジンに
よって加えられなければならない。テキストバッファ内
の開始点及び終了点へのポインタ、文のタイプ等のよう
な構造的な語彙項目についての情報は、構文木のノード
内に記憶される。この文脈における構文木はまた、文法
木と呼ばれてもよい。それは節レベルと単語レベルの間
で構築される。現在の実施形態は、節の始まりで開始し
て前方を見て又は節の終わりで開始して後方を見る句レ
ベルのパーサーを使用する。上記パーサーは名詞の句又
は動詞の句を検出するときに単語を機能させる。
【0059】節を句に分割する幾つかの可能な方式があ
る。典型的には、ベストなアプローチはより大きい句を
好むことである。句は音声の選択された部分の予め定義
されたシーケンスを備える。構文解析の後に、各単語の
情報パケットは更新されて、音声の選択された部分と選
択された発音とを含む。これらは音声コードに表され
る。さらに、すべての構文句が句のタイプと境界として
マークを付けられる。
【0060】構文(文法)句はTTSコントローラ20
4によって用いられる句と同一でなくてもよい。むし
ろ、TTSコントローラ204は、境界がポーズ又は息
継ぎによって範囲を決定される韻律的句で機能する。
“韻律”は、それのタイミングと、ポーズと、イントネ
ーションとに音声の話し方又は感覚を参照する。ポーズ
又は息継ぎの境界が音声が途切れて連続して発音されな
い場所で典型的に線引きするので、これらの境界は転送
のコントロールの間に前方又は後方にジャンプする良い
場所である。逆に言えば、韻律の境界と境界との間の音
声は通常途切られず、しばしば連続して発音される(声
門振動)。途切れない領域では、理解度を失うことなく
停止すること又は再開始することは困難である。
【0061】パーサー情報と単語情報とのパケットは、
好ましい実施形態において同時に1つの文のために記憶
されるだけである。非常に長い文の場合では、文の一部
分だけが計算されて記憶される−このような状況は希で
ある−。含まれる計算量が相当な時間量を費やすので、
この“パイプライン処理”が必要である。双方向的な状
況において、バッファ内に記憶された非常に大きなテキ
スト量を有することは、開始時の待ち時間の問題として
認識される望ましくない遅延を招く。出力がディジタル
/アナログ変換ハードウェアに送信される前に、データ
の構文木を構文解析して満たすには長い時間を要するの
で、待ち時間の問題が発生する。本実施は、明らかな中
断なしの容易に送信されるものにバッファサイズを制限
することによってこれを回避する。好ましい実施はデー
タをコンピュータのディジタル/アナログ変換器に送信
して、ここではファースト−イン、ファースト−アウト
(FIFO)バッファに記憶される。一度、FIFOバ
ッファに記憶されると、データは割り込み又は直接メモ
リアクセス(direct memory access、DMA)を用いて
再生されてもよい。一度、FIFOバッファ内にロード
されると、コンピュータは話されるべき次の文を計算す
るタスクを再開することができる。
【0062】1つの文を構文解析した後に、S26にお
いて、文の韻律的解析が実行される。幾つかのことがこ
のステージで実行される。第1に、付加的な構文の境界
は接続詞によって示される節の境界を表すことで定義さ
れる。例えば、次の文“He went to the store but lef
t his money at home.(彼は店に行ったが、彼のお金を
家に置いて来た。)”において、接続詞“but”によっ
て分離された2つの節がある。第2に、単語は、音声の
一部分に基づいて機能の単語又は内容の単語としてマー
クを付けられる。“the”や“at”のような単語は機能
の単語であり、一方、“Bill”や“running”のような
単語は内容の単語である。内容の単語はアクセントを付
けられ、又は強調表示される。
【0063】次に、音声の一部分に基づいて、(“トー
ンの境界”によって制限される)韻律的な句の正確なタ
イプがマーク付けられる。もしここまでは他の単語が内
容又は機能の区分に従ってアクセント付けされれば、こ
れらはアクセントを付けられた単語を与えられる。最終
的に、幾つかの場合では、内容の単語は、アクセントを
付けられた単語の密度と単語の重要性の序列とに基づい
て“アクセントをはずされる”。結局、イントネーショ
ンカーブは、アクセントを付けられた単語と、韻律的な
句と、他の考慮すべきものとに依存して、文に対して計
算される。
【0064】前述のステップが達成されると、ステップ
27において、ポーズ挿入アルゴリズムが実行される。
幾つかのポーズは、節の境界のような上述の説明におい
て述べられた複数の境界によって既に決定されている。
付加的なポーズは以下のように挿入されてもよい。付加
的なポーズは、音声の一部分に基づいて若しくは単語の
内容又は機能に基づいて挿入されてもよい。また、ポー
ズは人間の話者がどこで息継ぎするかをシミュレーショ
ンするように挿入されてもよい。これらのポーズが決定
されている間に、ステップ28において、TTSエンジ
ンは、ポインタを、実質的に文をポーズのグループに分
けるテキストバッファに後戻りするように設置する。ポ
ーズ挿入アルゴリズムは、文の中間で開始すれば音声が
“オンする”点でマークを付ける。TTS処理のサイク
ルの後で、幾つかの音声生成アルゴリズムは、このスイ
ッチがオンされるまで、実行しない。
【0065】もしユーザーが巻戻しボタン78をオンし
て前の文の中間のどこかに後方にジャンプすると、TT
Sエンジンは音声の再生をキャンセルし、残存する音声
データを捨て、次いで、現在の文の残存する計算をキャ
ンセルする。同じときに、すべての現在の句レベルと単
語レベルの情報は放棄されてもよい。次いで、テキスト
バッファにおける段落と、文と、韻律的な句との境界
を、マークを付けられた以前に計算されたデータを用い
て、TTSエンジンは後方に戻り、前の文の計算を開始
する。ほとんどすべての計算は(限りある利用できるR
AM記憶部のために)再実行されなければならない。一
般的に、テキストにおける後方にスキップするコマンド
はユーザーのマウスのクリックによるので、これは作業
を大幅には低下させない。心理学的に、マウスをクリッ
クする行動は、何かが起こることを予期される前の約1
/4秒の余裕をみておく。これは文を話すことを再開始
するために必要なおおよその待ち時間である。また、再
開始が文内における韻律的な句の境界で起こるので、音
声を生成するために必要とされる他の計算のすべては実
行される必要はない。むしろ、文内における開始点に対
して文脈を正確に設定するために必要とされる1つのも
のだけが、このステージで実行されなければならない。
例えば、韻律は、辞書においてルックアップされる文全
体と文のすべての単語に対して計算される。しかしなが
ら、これらは話されるべき最初の句での文脈上の効果を
有しないので、音声レベルの同時発音の効果とフォルマ
ントの軌道は、最初の話されないセグメントに対しては
計算されない。TTSエンジンが、話されるべき句が始
まる予め決定された単語に達するときに、後のすべての
単語は“on(オン)”としてマーク付けられ、これらの
後の単語が後で話されることを明らかにする。
【0066】TTSコントローラ204によって実行さ
れることができるある早送りと巻戻しの特徴を実施する
ために、“スクラブ(scrub)”モードはTTSエンジ
ン202に含まれてもよい。スクラブモードは上述した
“スキップ”モードと対照されるものである。スキップ
モードでは、スキップサイズは、単語、句、文、段落又
はバッファの最終点に基づいて予め設定される。早送り
又は巻戻しボタン76又は78がオンされると、TTS
エンジン202は音声を停止させ、次いで先に続くユニ
ット又は後に続くユニットを再開始させる。対照的に、
スクラブモードは、内容の(又は重要な)単語だけを話
している間に、単に再生の速度を変えるだけである。機
能の単語は削除される。およそ4つの係数によって音声
レートを増加することによって、その効果は、テープの
ヘッドがテープに接して残っているようにアナログテー
プレコーダでの早送り又は巻戻し動作と同様である。
【0067】スキップモードとスクラブモードとの間を
選択するために、TTSコントローラ204はマウスの
ボタンが押されている時間の長さに敏感に形成されるこ
とができる。早送り又は巻戻しボタン76又は78上の
素早いクリックはスキップモードを実行させる。予め決
定された長い時間マウスのボタンを押し続けると、スク
ラブモードが実行される。
【0068】前述に加えて、以下で、本実施形態のTT
Sエンジンがどのようにして文の境界と、段落の境界
と、ポーズ又は息継ぎの境界とを決定するかの詳細を説
明する。
【0069】文の境界は、TTSエンジンのローカルバ
ッファ214内から決定されてもよいし、又は辞書とパ
ーサーによって生成された情報を用いて決定されてもよ
い。好ましい実施形態は、「真」に初期化される可変な
“実行された文”を設定する。実行された文の状態が
「真」であるとき、遭遇する次の英数字のテキストは新
しい文を開始し、実行された文の変数が「偽」に設定さ
れる。従って、始められた文が終了したと考えられる
と、決定のロジックがまず決定することに焦点を当て
る。
【0070】幾つかの簡単な場合と幾つかの特殊な場合
とがある。文が開始されてバッファの最後に達すると、
次いで、文が実行されたとして扱われる。もし文が開始
されて空白の行が現在のトークンに続くと、これはまた
文が実行されたとして扱われる。この場合において、空
白の行は文の最後のトークンとして扱われる。
【0071】次に特殊な場合を考えると、複数行のテー
ブルに遭遇してシステムがテーブルモードにあるとき
に、列は(列の最後で文の最後のイントネーションを下
げさせるために)文として扱われる。ここでは、システ
ムは列の最後の収録語を検索し、それを文の最後と見な
す。もう1つの特殊な場合は、新しいテキストで発生す
るか、又は他のテキストの同じ線上の先頭で発生する。
例えば、次の:“WASHINGTON(UPI)-the Senate, sympat
hetic about the economic...,(ワシントン(UPI)
−...経済について賛成する上院)”又は“THE USE
OF ACRYLIC IN MODERN ART For centuries artists hav
e been...(数世紀間の芸術家に対して近代芸術におけ
るアクリルの使用は...)”の引用文を考えて戴きた
い。
【0072】上記の例において、ほとんどの固有名詞は
大文字で始まるので、システムは、文の開始を正確に指
示する最初の大文字を有する単語をもう用いることはで
きない。上記の例において、すべての上の場合のモード
が確立されている所で、最初の大文字を有する次の下の
場合の単語は新しい文の開始を示す。テキストがすべて
の上の場合のモードにあることを確立するために、幾つ
かの上の場合の単語が発生しなければならず、又は上述
の例の“−”のような幾つかの種類の境界のマークが発
生しなければならない。これらは、上の場合の単語が次
に示される文内における頭字語より多いことを示す。こ
の状況が発見されると、上の場合の部分は単独で文とし
て扱われる。これは、システムが文の最後のイントネー
ションを下げて境界を目立たせることを可能にする。
【0073】開始された文を終える残る方式は、ピリオ
ド又は疑問符又は感嘆符のような句読記号を含む。一般
的に、これらの句読記号は文の最後にマークを付ける
が、これらの句読記号が付いてないときもあるが、それ
らは文の最後にマークを付ける。もし、単独で、句読記
号が一対のダブル引用符又はシングル引用符内にあれ
ば、シンセサイザは、まるで句読記号の名前が話される
かのようにこれを扱う。また、もし句読記号が、数字又
は発音できない文字列若しくは他の句読記号を含む無意
味な言葉の列に現れれば、トークンは無意味な言葉であ
るか、若しくは一部の数字又は電子メールのアドレス又
は表現的なトークンのようなものであるかもしれない。
システムはそのような無意味な言葉又は部分的な数字を
チェックし、その結果、これらの発生によって文の最後
は明らかにされない。
【0074】テキストの列におけるピリオドの発生は幾
つかのあいまいな場合を有する。ピリオドが文字列の最
後で見付かると、システムは省略語のリストにおいてこ
の文字列をルックアップする。省略語の幾つかは、“10
in.(10インチ)”のように数字の前又は後のような
正確な文脈を要求する。もし同じものが省略語リストに
見付かり、かつ(1)もし省略語が一般的に“Mr.Jones
(ジョーンズ氏)”のように次の単語を必要とすれば;
(2)、もし省略語(とピリオド)が引用記号でなく他
のもう1つの句読記号により続いていれば;(3)もし
省略語(とピリオド)がスペース又は新しい行によって
続き、かつ次のトークンが大文字でなければ、のような
以上の状況のいずれかが「真」であれば、ピリオドは文
の最後としては無視される。
【0075】ピリオドが省略語の後に見つかり、かつス
ペースが次にきて、次いで大文字でない単語が次にくる
と、システムはこれを新しい文であるとは考えない。こ
の場合におけるピリオドの機能は知られされてなく、そ
れゆえ、システムによって無視される。ピリオドが他の
文字はないが(適切な位置に)コンマを有した数列にお
いて見付かったとき、システムは10進法の点としてピ
リオドを使用する。もしピリオドが単一の大文字化され
た文字の後に見付かり、かつスペースが次にきて、次い
で、間に句読記号を有さず又はピリオドを有したもう1
つの大文字を有さない大文字化された単語が次にくるれ
ば、システムは名前のミドルイニシャルとしてこれを扱
い、他はピリオドを無視する。最終的には、もしシステ
ムが上記の理由のうちの1つのためにピリオドを無視し
なければ、及びもし文が開始されれば、ピリオドは文の
最後を示すために取られる。1つの文に複数のピリオド
がある場合において、幾つかは省略語として無視される
が、文はまだ終了したとしては明言されない。
【0076】段落の境界は文の境界を有して並べられる
ことが予想されるが、特別な基準と処理されなければな
らない。もし最後の文が終了して、かつ新しい行が大文
字化された単語の後のタブ又は幾つかのスペースで開始
されれば、段落の境界はマークを付けられる。あるいは
代わって、もし最後の文が終了して次の単語の前に空白
の行があれば、新しい段落が始められる。
【0077】ポーズ又は息継ぎの境界の決定は、まだも
う1つの一連の決定を含む。第1に、(最初に句読記号
をたどる)すべての節の境界がポーズを割り当てられ
る。同様に、すべての文の内部の句読記号(又は句読記
号グループ)は、コンマによって分けられた単一の単語
のリストの場合を除いて、ポーズが割り当てられる。
【0078】次に、ポーズは発音のない幾つかの一対の
単語の間に挿入される。好ましい実施形態のアルゴリズ
ムにおいて、ポーズを設ける場所の決定は、(1)前の
ポーズの近さ;(2)文法的ルールに基づく、2つの単
語が接される密接度;(3)文法的構造と内容又は機能
の単語の種類とに基づいたポーズに対する参照のルー
ル、以上の要因に起因する。
【0079】以下で記述する擬似コードのリストにおい
て、1組のルールは上述の(1)と(3)の場合をカバ
ーするように与えられる。これらのルールはまた、定義
してないが単語間の“密接度(tightness)”を組み込
む。この密接度はたまに、ブレークインデックス(brea
k index)と呼ばれる。この好ましい実施形態は現在
は、ブレークインデックスを確定する決定論的なルール
を用いていない。むしろ、現在のシステムは1組のルー
ルを適用して一般に起こる状況を処理する。これらのル
ールは、もしそれらが他のルールと矛盾しなければ適用
され、この場合では、より高い優先権を有するルールが
用いられ、他の場合は両方のルールが無視される。一例
として、“John broke down and went to the store.
(ジョンは気落ちして店に行った。)”の一文がある。
“to the”という一対の単語は密接に結ばれ、ほとんど
1つの単語として話される。システムはこれらのような
一対の単語を識別し、それらの間にポーズを入れない。
冠詞が次にくる短い前置詞は、2つの単語の密接な結び
付きを示す低いブレークインデックスを割り当てられる
一対である。同様に、非常に一般的で短い、しばしば一
対で用いられる単語は、さらに低いブレークインデック
スを与えられる。従って、現在のシステムは1組のルー
ルを、よく発生することが知られる単語のグループに適
用する。ブレークインデックスはこれらのグループに割
り当てられ、その結果、それらの間にポーズを入れるか
どうかの決定が行われることができる。
【0080】上記で言及したように、TTSエンジンは
また、埋込みコントロールコマンド又はコントロール
“タグ”を操作する機能を有する。コントロールタグ
は、テキストに組み込まれてシンセサイザを制御するコ
マンドである。コントロールタグは、シンセサイザが知
的で自然な音声化を行うようにより良い仕事を実行する
ことを助ける。コントロールタグは、他では計算的に算
出することが難しい手掛かりを与える。それらはまた、
有効な方式において音声を変更する。例えば、コントロ
ールタグは、音声レート又はピッチを調整することによ
って、男性から女性に又はその逆に声を変更することが
できる。これは2人の間のタイプ打ちされた会話を変換
することに用いられてもよい。コントロールタグはま
た、正確な単語が、正確な単語が音声の正確な部分とし
て扱われるべきであることを記す又は2つの単語間の与
えられたポーズを記すように、強調されるべきものであ
ることを記すことができる。
【0081】多くのコントロールタグはシンセサイザの
状態を変更する。例えば、一度、システムが男性の声か
ら女性の声に変えられると、シンセサイザは、他のこと
を言うまで新しい状態(女性の声)を残す。相互作用的
な状況において、状態はまた、上述したコントロールパ
ネル38のうちの1つをユーザーがマウスでクリックす
ることのような他の手段によって変更されることができ
る。現在の状態の適切な処理は、転送バー(コマンドバ
ー)36の実施において考慮されなければならない。も
し、校正の間に、正確な文が女性の声で話されるように
提案されるが、周囲のテキストは男性の声で話されるな
らば、女性の文から男性の文へのジャンプ、又は他のど
こかから女性の文へのジャンプが適切に処理されなけれ
ばならない。本実施は、もう1度ローカルバッファの全
体を走査してジャンプの目標位置に対してどの状態であ
るべきかを実際に決定することによって、この状況を処
理する。あるいは代わって、状態の変数は、以前走査さ
れたテキストの部分に対して記憶されて保持されること
ができる。前者のアプローチは、上述されたようにロー
カルバッファ内におけるデータの再走査が非常に素早く
実行されることができるので、好ましい実施において採
用され、従って、ユーザーによって気付かれる所望され
ない遅延はない。
【0082】適切な句、文又は段落の境界にスキップ又
はジャンプする任意の再位置決めを実施するために、好
ましい実施形態は、ユーザーが、所望する句、文又は段
落内における任意の単語を選択することを可能にし、シ
ステムはその句、文又は段落の開始点にスキップ又はジ
ャンプする。もしユーザーがテキストバッファ内におい
て任意の位置を特定し、また構成単位(句、文、段落
等)をも特定すれば、TTSエンジンは、ジャンプに対
する特定された構成単位に基づいて、任意の位置を含む
句、文又は段落から、もう1つの句、文又は段落の開始
点にジャンプする。TTSエンジンは実際に話されるで
あろうテキストのブロックより大きいテキストのブロッ
クを走査するように設計されるので、システムは、ユー
ザーによって選択されて指定された開始点より前の点に
巻戻すことができる。従って、もしユーザーが段落の中
間にいて、TTS変換を選択して段落の中間で開始すれ
ば、ユーザーは巻戻しボタンを押して最初の挿入点より
前の点に移動することができる。
【0083】システムが元のテキストバッファへのポイ
ンタを保持するので、TTSエンジンは現在の開始点の
境界を目標のアプリケーションに伝達する。これは、例
えば、現在の境界の最初の単語が目標のアプリケーショ
ンにおける強調表示されたテキストに表示されることを
可能にする。
【0084】もし所望するなら、システムは実施される
ことができ、その結果、一時停止ボタンがオンされると
きに、音声出力が句の中間又は数字の中間内で進行して
いれば、音声の試みが停止されたサンプルで開始する。
【0085】好ましいTTSエンジンは、音声がシステ
ムを介して完全に再生された後に、構文木に記憶された
データが保持されるバッファ保持技術を使用する。従っ
て、出力の最後でのバッファのデータを放出することよ
りむしろ、新しい情報がロードされなければ、情報は保
持される。これは、ユーザーがそれが完全に再生された
後でさえテキスト内に巻戻すことを可能にする。この特
徴がないと、読み上げの最後で悩まされるユーザーは、
バッファを再ロードして、次いで最後まで早送り、もう
一度最後を聞かなければならない。合成の終了後の情報
を保持することは、この不自由さを回避する。
【0086】上記から、本発明が単語のテキストのアプ
リケーションとスプレッドシートアプリケーションに関
連して図示されて記述されたが、図示された実施形態に
おいて使用された技術は他のアプリケーションに適用さ
れることができることは明白であるということを認識さ
れるであろう。従って、本発明は、添付された特許請求
の範囲における本発明の精神から逸脱することなく正確
に変更又は変形することができることは理解されるであ
ろう。
【0087】<付録>ここで、句読記号を付けられてい
ない単語の境界においてポーズを挿入するルールを列挙
する。これらのルールは、もし前に決定されたブレーク
インデックスが極めて低いと考えられれば、適用されな
い。
【0088】1.もし、名詞の句の最後で、この句に少
なくとも5個の音節があり、かつこの句が一部分である
より大きい節が18個以上の音節を有し、かつ上記句の
最後から上記より大きい節の最後までにある音節の数が
少なくとも5個であれば、この点でポーズを挿入する。
言い換えれば、ある重要な名詞の句は節として扱われ
る。
【0089】2.これは以下のある条件下で1つのポー
ズを挿入するもう1つのルールである。 (1)次の単語が機能の単語であり、(2)現在の単語
が内容の単語であり、(3)現在の節までにかつ現在の
単語を含む音節の数が5以上であり、(4)現在の節に
おける音節のすべての数が17以上であり、(5)現在
の単語を越えた現在の節における音節の数が5以上であ
り、(6)節に少なくとも5以上の単語がある。
【0090】3.これは以下のある条件下で1つのポー
ズを挿入するもう1つのルールである。 (1)次の単語が内容の単語であり、(2)現在の単語
が内容の単語であり、(3)現在の節までにかつ現在の
単語を含む音節の数が20以上であり、(4)現在の単
語を越えた現在の節における音節の数が7以上であり、
(5)節に少なくとも7以上の単語があり、(6)やが
て来る単語に続く単語が機能の単語ではない。
【0091】
【発明の効果】以上詳述したように本発明に係る請求項
1記載のシンセサイザは、独立した目標のアプリケーシ
ョンの可視表示におけるテキストのユーザーにより選択
された部分を、人間の言葉のように発音する音声出力に
変換するテキストを音声に変換するシンセサイザであっ
て、上記シンセサイザは、上記独立した目標のアプリケ
ーションの上記可視表示から離れて表示される転送コン
トロールバーと、オンされたとき、上記テキストのユー
ザーにより選択された部分のコピーをメモリの予約され
たセグメントに入れる上記転送コントロールバー上に含
まれるプレイボタンと、上記テキストのユーザーにより
選択された部分を上記メモリの予約されたセグメントか
ら受信するテキスト記憶バッファと、上記テキスト記憶
バッファに含まれる上記テキストのユーザーにより選択
された部分を、人間の言葉のように発音する音声出力に
変換する、テキストを音声に変換するエンジンとを備え
る。従って、テキストを変換して人間の言葉のように発
音するシンセサイザは、転送コントロールバーと、プレ
イボタンと、テキスト記憶バッファと、テキストを音声
に変換するエンジンとを有するので、上記シンセサイザ
は、ユーザーが簡単に自分の好みでテキストを上記シン
セサイザに読ませることを可能にする。
【0092】また、本発明に係る請求項2記載のシンセ
サイザは、独立した目標のアプリケーションの可視表示
におけるテキストのユーザーにより選択された複数の不
連続の部分を、人間の言葉のように発音する音声出力に
変換するテキストを音声に変換するシンセサイザであっ
て、上記シンセサイザは、上記独立した目標のアプリケ
ーションの上記可視表示から離れて表示される転送コン
トロールバーと、オンされたとき、上記テキストのユー
ザーにより選択された部分のコピーをメモリの予約され
たセグメントに入れる上記転送コントロールバー上に含
まれる領域記憶ボタンと、メモリの上記予約されたセグ
メントにコピーされた上記テキストのユーザーにより選
択された複数の不連続の部分の各々を連続して記憶する
複数のテキスト記憶バッファと、起動されたとき、上記
テキストのユーザーにより選択された複数の不連続な部
分に含まれる上記テキストのユーザーにより選択された
部分を、人間の話法のように音を出す音声出力に変換す
るテキストを音声に変換するエンジンとを備える。従っ
て、テキストを変換して人間の言葉のように発音するシ
ンセサイザは、転送コントロールバーと、領域記憶ボタ
ンと、テキスト記憶バッファと、テキストを音声に変換
するエンジンとを有するので、上記シンセサイザは、ユ
ーザーが簡単に自分の好みでテキストを上記シンセサイ
ザに読ませることを可能にする。
【図面の簡単な説明】
【図1】 目標のアプリケーション(ワードプロセッサ
のアプリケーション)の一例と組み合わせた本発明の好
ましい実施形態の第1のグラフィカルユーザーインター
フェースのパネルを示すスクリーンの表示の正面図であ
る。
【図2】 好ましい抽出アルゴリズムを図示したフロー
チャートである。
【図3】 LEDボタンの使用を図示する、目標のアプ
リケーション(スプレッドシートアプリケーション)と
組み合わせた本発明の好ましい実施形態の転送バーを示
すスクリーンの表示の正面図である。
【図4】 図3において示される転送バーのより詳細な
正面図である。
【図5】 好ましい実施形態の第1のコントロールパネ
ルのより詳細な正面図である。
【図6】 好ましい実施形態のプリファレンスコントロ
ールパネルのより詳細な正面図である。
【図7】 本発明の好ましい実施形態のユーザー辞書エ
ディタコントロールパネルの詳細な正面図である。
【図8】 本発明に係るテキストを音声に変換するシン
セサイザとコントローラのハイレベルな概観を表すソフ
トウェアシステムのブロック図である。
【図9】 好ましい実施形態がウィンドウズ3.1にお
いてどのように実施されるかを図示したソフトウェアの
ブロック図である。
【図10】 目標のアプリケーションがテキストを音声
に変換するエンジンのローカルバッファにどのようにロ
ードされるかを示す、テキストを音声に変換するエンジ
ンを図示した詳細に示したソフトウェアのブロック図で
ある。
【図11】 より詳細に、本発明のフォーマット又は走
査処理を図示したハイレベルなフローチャートである。
【符号の説明】
30…ウィンドウズ、 32…ワードプロセッサの目標のアプリケーション、 34…オープンテキストウィンドウ、 36…転送バー、 38…コントロールパネル、 40…プリファレンスパネル、 42…辞書エディタパネル、 44…強調表示されたテキスト、 46…プレイボタン、 48…第2のウィンドウズ、 50…スプレッドシートの目標のアプリケーシュン、 52…オープンスプレッドシートウィンドウズ、 54,56,58…ユーザーの入力データ、 60,62…スプレッドシートの結果、 64…LED記憶ボタン、 66…停止ボタン、 70…前進スキップボタン、 72…後退スキップボタン、 74…一時停止ボタン、 76…早送りボタン、 78…巻戻しボタン、 80…コントロールボタン、 82…焦点次元コントロール、 84…男女の性選択、 86…数値/テーブル変換コントロール、 88…早送り及び巻戻しのジャンプのサイズの決定領
域、 90…ボリュームレバー、 92…スピードレバー、 94…周波数レバー、 98…常時先頭ボタン、 100…テーブルモードボタン、 102…ドルモードボタン、 104…ゼロモードボタン、 106…句、 108…文、 110…段落、 112…プリファレンスボタン、 114…音声の品質の範囲、 116…周波数ボタン(ロー)、 118…周波数ボタン(ハイ)、 122…チェックボックス、 124…領域(開始時)、 126…リストボタン、 128…領域(ディレクトリ)、 130,132…テキストボックス、 134…領域(ロード:1360Kb)、 136,138,140…チェックボックス、 142…オープン/新しい辞書ウィンドウ、 144…単語編集ウィンドウ、 146…音素編集ウィンドウ、 148…母音選択ウィンドウ、 150…辞書プルダウンバー、 152…ファイルボタン、 154…辞書の名前ウィンドウ、 156…単語“melodrama(メロドラマ)”、 166…スペリングボックス、 168…音声プリファレンスボックス、 170…音素ボックス、 172,174,176,178…アクセントボタン、 190…次の母音ボタン、 200…目標のアプリケーション、 202…TTSエンジン、 204…TTSコントローラ、 206…ウィンドウズオペレーティングシステム(O
S)環境、 208…ウィンドウズカーネル機能、 210…TTS・API、 212…エンジングルーモジュール、 214…TTSエンジンローカルバッファ、 220…TTSエンジンカーネル、 226…設定データモジュール、 228…数値DDL、 230…女性の声のDDL、 232…男性の声のDDL、 250…TTSAPIカーネルDDL、 252…転送コントロールプロセス、 254…対話ボックスコントロールプロセス、 256…辞書エディタプロセス、 260…TTSエンジン、 262…TTSエンジン出力ドライバ、 264…ディジタル/アナログ変換回路、 268…目標のアプリケーションデータ、 270…クリップボード、 272…TTSエンジンローカルバッファ。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06F 3/16 G10L 13/00 G10L 13/04

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 独立した目標のアプリケーションの可視
    表示におけるテキストのユーザーにより選択された部分
    を、人間の言葉のように発音する音声出力に変換するテ
    キストを音声に変換するシンセサイザであって、上記シ
    ンセサイザは、 上記独立した目標のアプリケーションの上記可視表示か
    ら離れて表示される転送コントロールバーと、 オンされたとき、上記テキストのユーザーにより選択さ
    れた部分のコピーをメモリの予約されたセグメントに入
    れる上記転送コントロールバー上に含まれる再生ボタン
    と、 上記テキストのユーザーにより選択された部分を上記メ
    モリの予約されたセグメントから受信するテキスト記憶
    バッファと、 上記テキスト記憶バッファに含まれる上記テキストのユ
    ーザーにより選択された部分を、人間の言葉のように発
    音する音声出力に変換する、テキストを音声に変換する
    エンジンとを備えたことを特徴とするシンセサイザ。
  2. 【請求項2】 独立した目標のアプリケーションの可視
    表示におけるテキストのユーザーにより選択された複数
    の不連続の部分を、人間の言葉のように発音する音声出
    力に変換するテキストを音声に変換するシンセサイザで
    あって、上記シンセサイザは、 上記独立した目標のアプリケーションの上記可視表示か
    ら離れて表示される転送コントロールバーと、 オンされたとき、上記テキストのユーザーにより選択さ
    れた部分のコピーをメモリの予約されたセグメントに入
    れる上記転送コントロールバー上に含まれる領域記憶ボ
    タンと、 メモリの上記予約されたセグメントにコピーされた上記
    テキストのユーザーにより選択された複数の不連続の部
    分の各々を連続して記憶する複数のテキスト記憶バッフ
    ァと、 起動されたとき、上記テキストのユーザーにより選択さ
    れた複数の不連続な部分に含まれる上記テキストのユー
    ザーにより選択された部分を、人間の話法のように音を
    出す音声出力に変換するテキストを音声に変換するエン
    ジンとを備えたことを特徴とするシンセサイザ。
JP09244012A 1996-09-09 1997-09-09 テキストを音声に変換するシンセサイザ Expired - Fee Related JP3142803B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/709,582 US5850629A (en) 1996-09-09 1996-09-09 User interface controller for text-to-speech synthesizer
US08/709582 1996-09-09

Publications (2)

Publication Number Publication Date
JPH1091389A JPH1091389A (ja) 1998-04-10
JP3142803B2 true JP3142803B2 (ja) 2001-03-07

Family

ID=24850458

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09244012A Expired - Fee Related JP3142803B2 (ja) 1996-09-09 1997-09-09 テキストを音声に変換するシンセサイザ

Country Status (2)

Country Link
US (1) US5850629A (ja)
JP (1) JP3142803B2 (ja)

Families Citing this family (274)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7835989B1 (en) 1992-12-09 2010-11-16 Discovery Communications, Inc. Electronic book alternative delivery systems
US5990927A (en) 1992-12-09 1999-11-23 Discovery Communications, Inc. Advanced set top terminal for cable television delivery systems
US8073695B1 (en) 1992-12-09 2011-12-06 Adrea, LLC Electronic book with voice emulation features
US7849393B1 (en) 1992-12-09 2010-12-07 Discovery Communications, Inc. Electronic book connection to world watch live
US7509270B1 (en) 1992-12-09 2009-03-24 Discovery Communications, Inc. Electronic Book having electronic commerce features
US8095949B1 (en) 1993-12-02 2012-01-10 Adrea, LLC Electronic book with restricted access features
US7861166B1 (en) 1993-12-02 2010-12-28 Discovery Patent Holding, Llc Resizing document pages to fit available hardware screens
US9053640B1 (en) 1993-12-02 2015-06-09 Adrea, LLC Interactive electronic book
US7865567B1 (en) 1993-12-02 2011-01-04 Discovery Patent Holdings, Llc Virtual on-demand electronic book
US6733295B2 (en) 1996-09-25 2004-05-11 Sylvan Learning Systems, Inc. Learning system for enabling separate teacher-student interaction over selected interactive channels
DE69717659T2 (de) * 1996-09-25 2003-09-18 Sylvan Learning Systems Inc Automatische prüfung und elektronisches system für die vermittlung des lehrstoffes und die verwaltung der studenten
US8342854B2 (en) * 1996-09-25 2013-01-01 Educate Online Technology, Llc Language-based computer generated instructional material
US20030198930A1 (en) * 1997-09-24 2003-10-23 Sylvan Learning Systems, Inc. System and method for conducting a learning session based on a teacher privilege
US6804489B2 (en) 1996-09-25 2004-10-12 Laureate Education, Inc. Learning system and method for teacher load balancing
US6729885B2 (en) 1996-09-25 2004-05-04 Sylvan Learning Systems, Inc. Learning system and method for engaging in concurrent interactive and non-interactive learning sessions
US6733296B2 (en) 1996-09-25 2004-05-11 Sylvan Learning Systems, Inc. Learning system and method for holding incentive-based learning
US6996533B2 (en) * 1997-03-21 2006-02-07 Fujitsu Limited Information processing system
KR100240637B1 (ko) * 1997-05-08 2000-01-15 정선종 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
JPH10340180A (ja) * 1997-06-06 1998-12-22 Olympus Optical Co Ltd 音声データの処理制御装置及び音声データの処理を制御するための制御プログラムを記録した記録媒体
DE69840408D1 (de) * 1997-07-31 2009-02-12 Cisco Tech Inc Erzeugung von sprachnachrichten
US6411931B1 (en) * 1997-08-08 2002-06-25 Sony Corporation Character data transformer and transforming method
JP3195279B2 (ja) * 1997-08-27 2001-08-06 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 音声出力システムおよびその方法
US5995918A (en) * 1997-09-17 1999-11-30 Unisys Corporation System and method for creating a language grammar using a spreadsheet or table interface
US6400378B1 (en) * 1997-09-26 2002-06-04 Sony Corporation Home movie maker
WO1999049394A1 (en) 1998-03-23 1999-09-30 Microsoft Corporation Application program interfaces in an operating system
JPH11327870A (ja) * 1998-05-15 1999-11-30 Fujitsu Ltd ドキュメント読み上げ装置、読み上げ制御方法及び記 録媒体
US6446040B1 (en) * 1998-06-17 2002-09-03 Yahoo! Inc. Intelligent text-to-speech synthesis
US6457031B1 (en) * 1998-09-02 2002-09-24 International Business Machines Corp. Method of marking previously dictated text for deferred correction in a speech recognition proofreader
US6188983B1 (en) * 1998-09-02 2001-02-13 International Business Machines Corp. Method for dynamically altering text-to-speech (TTS) attributes of a TTS engine not inherently capable of dynamic attribute alteration
US6338038B1 (en) * 1998-09-02 2002-01-08 International Business Machines Corp. Variable speed audio playback in speech recognition proofreader
IL142363A0 (en) * 1998-10-02 2002-03-10 Ibm System and method for providing network coordinated conversational services
US6601030B2 (en) * 1998-10-28 2003-07-29 At&T Corp. Method and system for recorded word concatenation
US6285980B1 (en) * 1998-11-02 2001-09-04 Lucent Technologies Inc. Context sharing of similarities in context dependent word models
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
US6256610B1 (en) * 1998-12-30 2001-07-03 Lernout & Hauspie Speech Products N.V. Header/footer avoidance for reading system
US6324507B1 (en) * 1999-02-10 2001-11-27 International Business Machines Corp. Speech recognition enrollment for non-readers and displayless devices
CA2364807A1 (en) 1999-02-26 2000-08-31 Lucent Technologies Inc. Voice messaging platform as intelligent peripheral
US6925159B1 (en) 1999-02-26 2005-08-02 Avaya Technology Corp. System and method of billing a predetermined telephone line for service utilized by a calling party
CA2364974C (en) 1999-02-26 2005-01-04 Joel Brand Automatic conversion of telephone number to internet protocol address
JP4360514B2 (ja) 1999-02-26 2009-11-11 アバイア インコーポレーテッド インテリジェントネットワークにおける音声メッセージシステム
CA2364832A1 (en) 1999-02-26 2000-08-31 Lucent Technologies Inc. Audible confirmation using text to speech conversion
US7292980B1 (en) * 1999-04-30 2007-11-06 Lucent Technologies Inc. Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
US7475343B1 (en) * 1999-05-11 2009-01-06 Mielenhausen Thomas C Data processing apparatus and method for converting words to abbreviations, converting abbreviations to words, and selecting abbreviations for insertion into text
US6466909B1 (en) * 1999-06-28 2002-10-15 Avaya Technology Corp. Shared text-to-speech resource
JP2001014306A (ja) * 1999-06-30 2001-01-19 Sony Corp 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体
GB2353927B (en) * 1999-09-06 2004-02-11 Nokia Mobile Phones Ltd User interface for text to speech conversion
US6456973B1 (en) * 1999-10-12 2002-09-24 International Business Machines Corp. Task automation user interface with text-to-speech output
US7386450B1 (en) * 1999-12-14 2008-06-10 International Business Machines Corporation Generating multimedia information from text information using customized dictionaries
EP1109105A1 (en) * 1999-12-14 2001-06-20 Sun Microsystems, Inc. Inserting a data object into a text document
US6513009B1 (en) * 1999-12-14 2003-01-28 International Business Machines Corporation Scalable low resource dialog manager
WO2001046853A1 (en) * 1999-12-20 2001-06-28 Koninklijke Philips Electronics N.V. Audio playback for text edition in a speech recognition system
GB2357943B (en) 1999-12-30 2004-12-08 Nokia Mobile Phones Ltd User interface for text to speech conversion
US7386452B1 (en) * 2000-01-27 2008-06-10 International Business Machines Corporation Automated detection of spoken numbers in voice messages
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20010049602A1 (en) * 2000-05-17 2001-12-06 Walker David L. Method and system for converting text into speech as a function of the context of the text
US6684187B1 (en) 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
US7139709B2 (en) * 2000-07-20 2006-11-21 Microsoft Corporation Middleware layer between speech related applications and engines
EP1325486A1 (en) * 2000-08-04 2003-07-09 Sylvan Learning Systems, Inc. Automated testing and electronic instructional delivery and student management system
US6961895B1 (en) 2000-08-10 2005-11-01 Recording For The Blind & Dyslexic, Incorporated Method and apparatus for synchronization of text and audio data
US6856958B2 (en) * 2000-09-05 2005-02-15 Lucent Technologies Inc. Methods and apparatus for text to speech processing using language independent prosody markup
US6745163B1 (en) * 2000-09-27 2004-06-01 International Business Machines Corporation Method and system for synchronizing audio and visual presentation in a multi-modal content renderer
US6990449B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. Method of training a digital voice library to associate syllable speech items with literal text syllables
US6990450B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. System and method for converting text-to-voice
US6871178B2 (en) * 2000-10-19 2005-03-22 Qwest Communications International, Inc. System and method for converting text-to-voice
US7451087B2 (en) * 2000-10-19 2008-11-11 Qwest Communications International Inc. System and method for converting text-to-voice
US6678354B1 (en) * 2000-12-14 2004-01-13 Unisys Corporation System and method for determining number of voice processing engines capable of support on a data processing system
JP2002221980A (ja) * 2001-01-25 2002-08-09 Oki Electric Ind Co Ltd テキスト音声変換装置
US20020156630A1 (en) * 2001-03-02 2002-10-24 Kazunori Hayashi Reading system and information terminal
US7366979B2 (en) 2001-03-09 2008-04-29 Copernicus Investments, Llc Method and apparatus for annotating a document
KR20020081912A (ko) * 2001-04-20 2002-10-30 황규오 웹상에서의 음성 서비스 방법
US7020663B2 (en) * 2001-05-30 2006-03-28 George M. Hay System and method for the delivery of electronic books
GB0113587D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Speech synthesis apparatus
GB2376394B (en) * 2001-06-04 2005-10-26 Hewlett Packard Co Speech synthesis apparatus and selection method
US7203647B2 (en) * 2001-08-21 2007-04-10 Canon Kabushiki Kaisha Speech output apparatus, speech output method, and program
US7809574B2 (en) * 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
US7444286B2 (en) 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US7467089B2 (en) 2001-09-05 2008-12-16 Roth Daniel L Combined speech and handwriting recognition
US7505911B2 (en) * 2001-09-05 2009-03-17 Roth Daniel L Combined speech recognition and sound recording
US7526431B2 (en) 2001-09-05 2009-04-28 Voice Signal Technologies, Inc. Speech recognition using ambiguous or phone key spelling and/or filtering
KR20030030328A (ko) * 2001-10-09 2003-04-18 (주)신종 음성합성엔진을 이용한 전자책 브라우저 시스템
US7099828B2 (en) * 2001-11-07 2006-08-29 International Business Machines Corporation Method and apparatus for word pronunciation composition
US20040039602A1 (en) * 2001-11-16 2004-02-26 Greenberg Robert S. Clinician's assistant system
KR20030058708A (ko) * 2001-12-31 2003-07-07 에스엘투(주) 텍스트/음성 변환을 이용한 음성 녹음 시스템
DE60314929T2 (de) * 2002-02-15 2008-04-03 Canon K.K. Informationsverarbeitungsgerät und Verfahren mit Sprachsynthesefunktion
US7299182B2 (en) * 2002-05-09 2007-11-20 Thomson Licensing Text-to-speech (TTS) for hand-held devices
JP2004037721A (ja) * 2002-07-02 2004-02-05 Pioneer Electronic Corp 音声応答システム、音声応答プログラム及びそのための記憶媒体
GB2392592B (en) * 2002-08-27 2004-07-07 20 20 Speech Ltd Speech synthesis apparatus and method
US7200560B2 (en) * 2002-11-19 2007-04-03 Medaline Elizabeth Philbert Portable reading device with display capability
US7979281B2 (en) * 2003-04-29 2011-07-12 Custom Speech Usa, Inc. Methods and systems for creating a second generation session file
JP2005031259A (ja) * 2003-07-09 2005-02-03 Canon Inc 自然言語処理方法
US7359085B2 (en) * 2003-07-14 2008-04-15 Lexmark International, Inc. Method and apparatus for recording sound information and playing sound information back using an all-in-one printer
US7363221B2 (en) * 2003-08-19 2008-04-22 Microsoft Corporation Method of noise reduction using instantaneous signal-to-noise ratio as the principal quantity for optimal estimation
US20050096909A1 (en) * 2003-10-29 2005-05-05 Raimo Bakis Systems and methods for expressive text-to-speech
US8726145B2 (en) * 2003-11-18 2014-05-13 Gh Llc Content communication system and methods
US20050177369A1 (en) * 2004-02-11 2005-08-11 Kirill Stoimenov Method and system for intuitive text-to-speech synthesis customization
KR20070004788A (ko) * 2004-03-05 2007-01-09 레삭 테크놀로지스 인코포레이티드. 프로소딕 스피치 텍스트 코드 및 컴퓨터화 스피치 시스템내에서의 프로소딕 스피치 텍스트 코드의 사용법
JP2006047866A (ja) * 2004-08-06 2006-02-16 Canon Inc 電子辞書装置およびその制御方法
US7675641B2 (en) * 2004-10-28 2010-03-09 Lexmark International, Inc. Method and device for converting scanned text to audio data via connection lines and lookup tables
CN1773536A (zh) * 2004-11-11 2006-05-17 国际商业机器公司 生成话音纪要的方法、设备和系统
US7559028B2 (en) * 2005-01-24 2009-07-07 Oracle International Corporation Method and apparatus for user function variable processing system and prompt
JP4586615B2 (ja) * 2005-04-11 2010-11-24 沖電気工業株式会社 音声合成装置,音声合成方法およびコンピュータプログラム
US20060241945A1 (en) * 2005-04-25 2006-10-26 Morales Anthony E Control of settings using a command rotor
US20060293888A1 (en) * 2005-06-27 2006-12-28 Lucent Technologies Inc. Providing text during a live voice conversation over a telephone network
US20070021924A1 (en) * 2005-07-21 2007-01-25 Ishikawa Muriel Y Selective resonance of chemical structures
US8386186B2 (en) * 2005-07-21 2013-02-26 The Invention Science Fund I, Llc Selective resonance of chemical structures
US8386183B2 (en) * 2005-07-21 2013-02-26 The Invention Science Fund I, Llc Selective resonant reconfiguration of chemical structures
US9427465B2 (en) * 2005-07-21 2016-08-30 Deep Science, Llc Selective resonance of chemical structures
US8346484B2 (en) * 2005-07-21 2013-01-01 The Invention Science Fund I, Llc Selective resonance of chemical structures
US8364412B2 (en) * 2005-07-21 2013-01-29 The Invention Science Fund I, Llc Selective resonance of chemical structures
US8195403B2 (en) * 2005-07-21 2012-06-05 The Invention Science Fund I, Llc Selective resonance of bodily agents
US8364407B2 (en) * 2005-07-21 2013-01-29 The Invention Science Fund I, Llc Selective resonance of chemical structures
US9211332B2 (en) 2005-07-21 2015-12-15 The Invention Science Fund I, Llc Selective resonance of bodily agents
US20070055526A1 (en) * 2005-08-25 2007-03-08 International Business Machines Corporation Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis
KR100724868B1 (ko) 2005-09-07 2007-06-04 삼성전자주식회사 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7711562B1 (en) 2005-09-27 2010-05-04 At&T Intellectual Property Ii, L.P. System and method for testing a TTS voice
US7693716B1 (en) * 2005-09-27 2010-04-06 At&T Intellectual Property Ii, L.P. System and method of developing a TTS voice
US7742919B1 (en) 2005-09-27 2010-06-22 At&T Intellectual Property Ii, L.P. System and method for repairing a TTS voice database
US7630898B1 (en) 2005-09-27 2009-12-08 At&T Intellectual Property Ii, L.P. System and method for preparing a pronunciation dictionary for a text-to-speech voice
US7742921B1 (en) * 2005-09-27 2010-06-22 At&T Intellectual Property Ii, L.P. System and method for correcting errors when generating a TTS voice
US20070078655A1 (en) * 2005-09-30 2007-04-05 Rockwell Automation Technologies, Inc. Report generation system with speech output
US8036894B2 (en) * 2006-02-16 2011-10-11 Apple Inc. Multi-unit approach to text-to-speech synthesis
JP2007264466A (ja) * 2006-03-29 2007-10-11 Canon Inc 音声合成装置
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8027837B2 (en) * 2006-09-15 2011-09-27 Apple Inc. Using non-speech sounds during text-to-speech synthesis
US9087507B2 (en) * 2006-09-15 2015-07-21 Yahoo! Inc. Aural skimming and scrolling
US8171402B2 (en) 2006-11-10 2012-05-01 Research In Motion Limited Handheld electronic device including auto completion of punctuation in numerical entry, and associated method
CN101202041B (zh) * 2006-12-13 2011-01-05 富士通株式会社 一种汉语韵律词组词方法及装置
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
US20140236597A1 (en) * 2007-03-21 2014-08-21 Vivotext Ltd. System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
US20080243510A1 (en) * 2007-03-28 2008-10-02 Smith Lawrence C Overlapping screen reading of non-sequential text
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7895041B2 (en) * 2007-04-27 2011-02-22 Dickson Craig B Text to speech interactive voice response system
WO2008149547A1 (ja) * 2007-06-06 2008-12-11 Panasonic Corporation 声質編集装置および声質編集方法
JP5313466B2 (ja) * 2007-06-28 2013-10-09 ニュアンス コミュニケーションズ,インコーポレイテッド 音声の再生に同期して音声の内容を表示させる技術
KR20090047159A (ko) * 2007-11-07 2009-05-12 삼성전자주식회사 오디오-북 재생 방법 및 장치
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
WO2009105735A2 (en) 2008-02-21 2009-08-27 Globalenglish Corporation Web-based tool for collaborative, social learning
US8612469B2 (en) 2008-02-21 2013-12-17 Globalenglish Corporation Network-accessible collaborative annotation tool
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
JP2009294640A (ja) * 2008-05-07 2009-12-17 Seiko Epson Corp 音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20090313020A1 (en) * 2008-06-12 2009-12-17 Nokia Corporation Text-to-speech user interface control
US8983841B2 (en) * 2008-07-15 2015-03-17 At&T Intellectual Property, I, L.P. Method for enhancing the playback of information in interactive voice response systems
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8160881B2 (en) * 2008-12-15 2012-04-17 Microsoft Corporation Human-assisted pronunciation generation
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US8812459B2 (en) * 2009-04-01 2014-08-19 Touchstone Systems, Inc. Method and system for text interpretation and normalization
EP2419839B1 (en) * 2009-04-14 2014-03-05 Freedom Scientific Inc. Document navigation method
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110145823A1 (en) * 2009-12-10 2011-06-16 The Go Daddy Group, Inc. Task management engine
US20110145822A1 (en) * 2009-12-10 2011-06-16 The Go Daddy Group, Inc. Generating and recommending task solutions
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8965768B2 (en) * 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
KR101525842B1 (ko) 2011-03-25 2015-06-09 엘지전자 주식회사 차량에 장착되는 영상표시기기에서의 이미지 처리
US20120303570A1 (en) * 2011-05-27 2012-11-29 Verizon Patent And Licensing, Inc. System for and method of parsing an electronic mail
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9240180B2 (en) 2011-12-01 2016-01-19 At&T Intellectual Property I, L.P. System and method for low-latency web-based text-to-speech without plugins
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9368104B2 (en) * 2012-04-30 2016-06-14 Src, Inc. System and method for synthesizing human speech using multiple speakers and context
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8862985B2 (en) 2012-06-08 2014-10-14 Freedom Scientific, Inc. Screen reader with customizable web page output
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8856007B1 (en) * 2012-10-09 2014-10-07 Google Inc. Use text to speech techniques to improve understanding when announcing search results
WO2014069220A1 (ja) * 2012-10-31 2014-05-08 Necカシオモバイルコミュニケーションズ株式会社 再生装置、設定装置、再生方法およびプログラム
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014176489A2 (en) * 2013-04-26 2014-10-30 Vivo Text Ltd. A system and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9508338B1 (en) * 2013-11-15 2016-11-29 Amazon Technologies, Inc. Inserting breath sounds into text-to-speech output
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US10102852B2 (en) * 2015-04-14 2018-10-16 Google Llc Personalized speech synthesis for acknowledging voice actions
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10713428B2 (en) 2015-11-02 2020-07-14 Microsoft Technology Licensing, Llc Images associated with cells in spreadsheets
US9990349B2 (en) 2015-11-02 2018-06-05 Microsoft Technology Licensing, Llc Streaming data associated with cells in spreadsheets
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
DE102016005962A1 (de) * 2016-05-13 2017-11-16 Köppern Und Eberts Ug (Haftungsbeschränkt) Verfahren zum verständlicheren Ausgeben eines Texts eines Dokuments und Textvorleseeinrichtung
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US11170757B2 (en) * 2016-09-30 2021-11-09 T-Mobile Usa, Inc. Systems and methods for improved call handling
CN107943405A (zh) 2016-10-13 2018-04-20 广州市动景计算机科技有限公司 语音播报装置、方法、浏览器及用户终端
TR201616881A2 (tr) * 2016-11-21 2017-01-23 Dener Makina Sanayi Ve Ticaret Ltd Sirketi Levhanin eni̇ni̇n, boyunun, kesi̇m başlangiç noktasinin ve döndürme açisini tespi̇ti̇ni̇ sağlayan kamerali otomati̇k levha ölçüm si̇stemi̇
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN108053821B (zh) * 2017-12-12 2022-09-06 腾讯科技(深圳)有限公司 生成音频数据的方法和装置
EP3841458A1 (en) * 2019-11-14 2021-06-30 Google LLC Automatic audio playback of displayed textual content

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5111409A (en) * 1989-07-21 1992-05-05 Elon Gasper Authoring and use systems for sound synchronized animation
US5475796A (en) * 1991-12-20 1995-12-12 Nec Corporation Pitch pattern generation apparatus
US5500919A (en) * 1992-11-18 1996-03-19 Canon Information Systems, Inc. Graphics user interface for controlling text-to-speech conversion
US5634084A (en) * 1995-01-20 1997-05-27 Centigram Communications Corporation Abbreviation and acronym/initialism expansion procedures for a text to speech reader

Also Published As

Publication number Publication date
JPH1091389A (ja) 1998-04-10
US5850629A (en) 1998-12-15

Similar Documents

Publication Publication Date Title
JP3142803B2 (ja) テキストを音声に変換するシンセサイザ
KR100378898B1 (ko) 발음 설정 방법, 컴퓨터 판독가능 매체를 포함하는 제조 물품 및, 그래픽 사용자 인터페이스 시스템
EP1096472B1 (en) Audio playback of a multi-source written document
US20020143535A1 (en) Method of providing concise forms of natural commands
JP3795692B2 (ja) 文字処理装置および方法
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
JPH11161298A (ja) 音声合成方法及び装置
JPS6184771A (ja) 音声入力装置
JP2580565B2 (ja) 音声情報辞書作成装置
JP2006031725A (ja) 文字処理装置
JP3284976B2 (ja) 音声合成装置及びコンピュータ可読記録媒体
JPH07210185A (ja) 朗読情報作成装置および朗読装置
JP2002023781A (ja) 音声合成装置、音声合成装置におけるフレーズ単位修正方法、音声合成装置における韻律パターン編集方法、音声合成装置における音設定方法および音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003202886A (ja) テキスト入力処理装置及び方法並びにプログラム
JPH06119144A (ja) 文書読み上げ装置
JPH08221095A (ja) 文章読み上げ方法
Portele et al. Adapting a TTS system to a reading machine for the blind
JPH10254676A (ja) 音声合成装置及びその方法
JPH06176023A (ja) 音声合成システム
JP3280729B2 (ja) 発音記号作成装置
CN115798454A (zh) 音码标记声纹拼接编码方法及其音码
JPH0229798A (ja) 音声出力装置
JPH05210482A (ja) 発音辞書管理方法
JPH04177526A (ja) 文章読み上げ装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees