JP3142803B2

JP3142803B2 - テキストを音声に変換するシンセサイザ

Info

Publication number: JP3142803B2
Application number: JP09244012A
Authority: JP
Inventors: フローデ・ホルム; スティーブ・ペアソン
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1996-09-09
Filing date: 1997-09-09
Publication date: 2001-03-07
Anticipated expiration: 2017-09-09
Also published as: JPH1091389A; US5850629A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的にテキスト
を音声に変換する（text-to-speech、ＴＴＳ)シンセサ
イザに関する。特に、本発明は、ユーザーがＴＴＳシン
セサイザと相互作用して制御することを可能にする改良
されたシステムに関する。

【０００２】

【従来の技術及び発明が解決しようとする課題】テキス
トを音声に変換する（text-to-speech、ＴＴＳ）変換
は、労働環境における日々の幾つかの仕事の正確性を単
純化して向上する見込みがある。しかしながら、ＴＴＳ
システムはより直感的でユーザーフレンドリーに作られ
るほど、ＴＴＳシステムの最大限能力を引き出すのに至
らないであろう。テキストを音声に変換する特徴が過去
に幾つかのコンピュータのソフトウェアアプリケーショ
ンにおいてある限度まで実施されたが、これらは通例よ
りむしろ例外である。現在では、ＴＴＳの有用性は、話
されるべきデータを含む任意のアプリケーションと機能
するように全く設計されてないように、すべてのソフト
ウェアアプリケーションに利用できるわけではない。こ
の欠点は、ＴＴＳ技術が真に利用できるようになる前に
解決しなければならない。現在、ＴＴＳを支持するアプ
リケーションでさえ、いまだに改良の余地はかなり存在
する。理想的には、合成される音声は、適切なポーズ
（句切り）や音声の調節が自然な音声を模擬するように
加えられながら、流暢に連続的に発音すべきである。現
在のＴＴＳシステムはこの点をかなり不足しており、適
切な抑揚に対する感覚を完全に欠いて話される、単語の
まとまりの悪い連結のように発音される。現在の技術に
欠けているものは、韻律的文脈の必須の複数の知識であ
る。例えば、スプレッドシートの表の行から読まれるテ
キストと対比されるように、タイプライターで打たれた
散文から読まれるテキストの間を識別するユーザーフレ
ンドリーな機構が存在しない。数字のＴＴＳ変換を参照
すると、数字が読まれるべき内容を識別する簡単に使用
できる機構が現在では存在しない。自然な話し言葉にお
いて、数字の部分はドルとセントとは異なって読まれ
る。テキストを音声に変換するシステムも同様にするこ
とができるようにすべきである。

【０００３】テキストを通して前後に移動することは、
より挑戦すべき問題を与えてくれる。時間毎に単語１つ
でテキストを通して前後に移動する未完成のシステムは
存在する一方、ユーザーインターフェースは不自然で、
合成された音声は話されるテキストの韻律的ニュアンス
を欠いている。理想的には、テキストのブロックを前後
に動かすユーザーは、現在の音声がどこで始まるかに拘
わらずに適切な音声の調節を含む合成された音声セグメ
ントの出力を好むであろう。テープレコーダに類似なも
のによって、話される出力は、テキストが開始点から又
は中間のランダムな点から再生されるかどうかにかかわ
らず、同一のポーズと音声の調節を有すべきである。現
在の技術はこれを達成していない。

【０００４】チャートやスプレッドシートにおけるデー
タのＴＴＳ変換はさらに挑戦を申し込む。チャートやス
プレッドシートにおける−完全に定義された開始点と中
間点と最終点とを有する−段落形式のテキストのタイプ
打ちされた散文を用いて、チャートやスプレッドシート
のテキストは任意のランダムな順番で読まれるかもしれ
ない。現在のＴＴＳシステムはこれを動作する簡単にコ
ントロールするシステムを有しない。スプレッドシート
におけるランダムな位置から読取り、もう１つの位置に
ジャンプし、その位置から読み取る現在利用できる方式
はない。理想的なシステムは、ユーザーにどのセグメン
トがどの順序で読まれるべきかを定義させるであろう。

【０００５】結局は、ほんの少しの又は全く注意がユー
ザーの選択の管理には費やされていない。ＴＴＳ変換シ
ステムは、ユーザーによる優れたチューニングの幾つか
の度合いを必要とし、システムがユーザーがそれを望む
方式で音声を出力することを保証してもよい。しかしな
がら、これは実行されるより簡単である。音声技術にお
ける先進の技術を有する洗練されたユーザーは音声シン
セサイザにおいて用いられる音組織をどうのようにして
変更するかを理解するであろうが、平均的なユーザーは
無理である。それゆえ、理想のＴＴＳシステムは、ユー
ザーがテキストがシステムによって話される方式で変更
することを助ける、簡単に使えるツールを含むべきであ
る。ツールの使用は自明かつ簡単に用いることができる
べきである。システムはまた、格納され、呼び戻され、
変更されるべきツールによって実行される変化を可能に
する、ユーザーの選択の管理に対する容易さを含むべき
である。現在のシステムはこの点については不十分であ
る。

【０００６】本発明は、ユーザーが“転送バー”を介し
て多くの予めのトレーニングなしでＴＴＳ変換機能を制
御することができるような簡単に使える“転送バー”を
使用する改良したＴＴＳシステムを通じて先の問題に注
目する。コントロールシステムは独立したアプリケーシ
ョンである。それは、ウィンドウズスタイルのクリップ
ボードの容易さをサポートする実質的にすべてのソフト
ウェアアプリケーションと協働する。好ましい転送バー
は、再生と、停止と、早送りと、巻戻しとを含むテープ
レコーダ上に見受けられるそれらによく似たボタンを提
供する。好ましい転送バーはまた、テキストの指定され
た部分を逐次分類される１組のバッファにロードするた
めに使用される固有のＬＥＤボタンを含む。ＬＥＤボタ
ンは、ユーザーが、ユーザーにより定義されたシーケン
スにおける再生のために、ランダムに選択されたスプレ
ッドシートのセルのようなテキストの離れた部分を選択
することを可能にする。

【０００７】本発明の目的は、以上の問題点を解決し、
ユーザーがＴＴＳ変換システムを簡単に使用しかつ制御
することを可能にするシンセサイザを提供することにあ
る。

【０００８】

【課題を解決するための手段】本発明に係る請求項１記
載のシンセサイザは、独立した目標のアプリケーション
の可視表示におけるテキストのユーザーにより選択され
た部分を、人間の言葉のように発音する音声出力に変換
するテキストを音声に変換するシンセサイザであって、
上記シンセサイザは、上記独立した目標のアプリケーシ
ョンの上記可視表示から離れて表示される転送コントロ
ールバーと、オンされたとき、上記テキストのユーザー
により選択された部分のコピーをメモリの予約されたセ
グメントに入れる上記転送コントロールバー上に含まれ
る再生ボタンと、上記テキストのユーザーにより選択さ
れた部分を上記メモリの予約されたセグメントから受信
するテキスト記憶バッファと、上記テキスト記憶バッフ
ァに含まれる上記テキストのユーザーにより選択された
部分を、人間の言葉のように発音する音声出力に変換す
る、テキストを音声に変換するエンジンとを備えること
を特徴とする。

【０００９】また、本発明に係る請求項２記載のシンセ
サイザは、独立した目標のアプリケーションの可視表示
におけるテキストのユーザーにより選択された複数の不
連続の部分を、人間の言葉のように発音する音声出力に
変換するテキストを音声に変換するシンセサイザであっ
て、上記シンセサイザは、上記独立した目標のアプリケ
ーションの上記可視表示から離れて表示される転送コン
トロールバーと、オンされたとき、上記テキストのユー
ザーにより選択された部分のコピーをメモリの予約され
たセグメントに入れる上記転送コントロールバー上に含
まれる領域記憶ボタンと、メモリの上記予約されたセグ
メントにコピーされた上記テキストのユーザーにより選
択された複数の不連続の部分の各々を連続して記憶する
複数のテキスト記憶バッファと、起動されたとき、上記
テキストのユーザーにより選択された複数の不連続な部
分に含まれる上記テキストのユーザーにより選択された
部分を、人間の話法のように音を出す音声出力に変換す
るテキストを音声に変換するエンジンとを備えることを
特徴とする。

【００１０】

【発明の実施の形態】テキストを音声に変換する（ＴＴ
Ｓ）コントローラは異なるオペレーティングシステム
（ＯＳ）のプラットフォームの領域で実施されるかもし
れない。本発明を説明するために、ウィンドウズＯＳ環
境における本発明をここに詳細に記述する。特に、ウィ
ンドウズ３．１における本発明を開示する。ウィンドウ
ズ９５やウィンドウズＮＴ上のシステムを実施する適用
可能な変形例も与えられる。ウィンドウズ３．１、ウィ
ンドウズ９５及びウィンドウズＮＴは、ワシントン、レ
ドモンドのマイクロソフト・コーポレイションから市販
用が入手できる。本発明はマイクロソフトのウィンドウ
ズの環境に制限されるものではなく、むしろ、本発明
は、必要なグラフィカルユーザーインターフェースコン
ポーネントと適切なクリップボード機構を提供する、任
意の適切なオペレーティングシステム環境において実施
されてもよいことは理解されるであろう。従って、本発
明はまた、ＵＮＩＸオペレーティングシステム、ＯＳ２
（ＩＢＭコーポレイションの製品）及びマッキントッシ
ュオペレーティングシステム（アップルコンピュータ・
コーポレイションの製品）上において実施されてもよ
い。

【００１１】図１は、本発明の好ましい実施形態のオー
プンテキストウィンドウ３４を有するワードプロセッサ
の目標のアプリケーション３２（図１では、「WordPerf
ect（ワードパーフェクト）-[document（文書）]」と示
される。）と、４つのグラフィカルユーザーインターフ
ェース（ＧＵＩ）パネルとを含むウィンドウズ３０を図
示する。好ましい実施形態の４つのＧＵＩパネルは転送
バー３６（図１では、「CYBERTALK TRANSPORT（サイバ
ートーク転送）」と示される。）と、コントロールパネ
ル３８（図１では、「CyberTalk Control Panel（サイ
バートークコントロールパネル）」と示される。）と、
プリファレンスパネル４０（図１では、「CyberTalk Pr
eferences（サイバートークプリファレンス）」と示さ
れる。）と、辞書エディタパネル４２（図１では、「Us
er Dictionary-test2（ユーザー辞書−テスト２）」と
示される。）とである。

【００１２】好ましい実施形態の基本的オペレーション
は、テキストを音声に変換（ＴＴＳ）するアプリケーシ
ョンの起動を必要とする。この第１の起動はウィンドウ
ズ３０の表示上に転送バー３６を生成する。第１の起動
の後に、ユーザーは可聴音声に変換されるオープンテキ
ストウィンドウ３４上のテキストを選択する。この場合
における選択は、音声に変換されるオープンテキストウ
ィンドウ３４のテキストのその部分をユーザーが強調表
示することによって実行される。例えば、ユーザーは、
マウス又は他のポインティングデバイスを用いて選択さ
れたテキストを強調表示してもよい。ユーザーの選択の
後に、強調表示されたテキスト４４の変換は、ユーザー
によって起動される転送バー３６に含まれるプレイボタ
ン４６を一度クリックすることで開始する。

【００１３】変換プロセスにおける第１のステップは、
ワードプロセッサの目標のアプリケーション３２のオー
プンテキストウィンドウ３４からの強調表示されたテキ
スト４４の抽出である。図２は基本的抽出アルゴリズム
を表す。

【００１４】ＴＴＳ変換アプリケーションはステップ１
１で実行を開始し、ステップ１２において、ワードプロ
セッサの目標のアプリケーション３２が入力キーボード
フォーカスを有することを保証することによって始ま
る。１度この状況が満たされると、ステップ１３におい
て、ＴＴＳ変換アプリケーションはワードプロセッサの
目標のアプリケーション３２における“コピー”コマン
ドを起動するために必要なキー打ちをシミュレーション
する。特に、このことはウィンドウズ３０のカーネル機
能（キーｂ）へのコールを実行して達成され、それは、
キーボードの活動化の情報を、開始されたコピーコマン
ドがシステムの幅広い待ち行列（キュー）からワードプ
ロセッサの目標のアプリケーション３２にルートされる
上記システムの幅広いキューに逐次提供する。ＴＴＳ変
換アプリケーションは、ＯＳに“コピー”コマンド（例
えば、Ctrl-C）を意味するキー打ちをメッセージキュー
に入力させる。

【００１５】シミュレーションされたコピーのキー打ち
の受信で、ワードプロセッサの目標のアプリケーション
３２は、それを別のものに挿入するために、強調表示さ
れたテキスト４４を、ウィンドウズのクリップボード、
又はメモリの他の適切な予約されたセグメントに置くこ
とによって応答し、上記メモリは、あるテキスト、デー
タ又はグラフィックスの文書からコピーされたデータを
保持するために使用される。このことは、ウィンドウズ
への読取りクリップボード機能のコールを実行して行わ
れる。一旦、強調表示されたテキスト４４がクリップボ
ード上で利用されると、ステップ１４において、ＴＴＳ
変換アプリケーションは、クリップボードの内容をＴＴ
Ｓテキストバッファに転送し、ステップ１５においてＴ
ＴＳ変換エンジンによって処理される。“コピー”動作
は、ユーザーが選択されたテキストを強調表示してプレ
イボタン４６をオンすると、自動的に実行される。

【００１６】好ましい実施形態はまた、目標のアプリケ
ーションにおけるテキストの離れた領域が単一で連続的
なＴＴＳ変換において抜粋されてその後に話される機能
を含む。図３は、オープンスプレッドシートウィンドウ
５２を有するスプレッドシートの目標のアプリケーショ
ン５０（図３では、「Microsoft Excel-TJL.XLS（マイ
クロソフトエクセル−ＴＪＬ．ＸＬＳ）」と示され
る。）を含む第２のウィンドウズ４８の環境を表し、オ
ープンスプレッドシートウィンドウ５２は、ユーザーに
よるＴＴＳ変換が上記オープンスプレッドシートウィン
ドウ５２から離れた領域に対して所望される上記オープ
ンスプレッドシートウィンドウ５２である。

【００１７】図３において示されるように、スプレッド
シートアプリケーション５０は、ユーザーの入力データ
（５４、５６、５８）と、組み込み型の計算式（オープ
ンスプレッドシートウィンドウ５２には見えない。）
と、スプレッドシートの結果（６０、６２）とを通常含
み、上記スプレッドシートの結果（６０、６２）は上記
組み込み型の計算式を上記ユーザーの入力データに適用
することによって計算される。校正のために、ユーザー
の入力データ（５４、５６、５８）のみが概して対象と
される。このユーザーの入力データは離れた位置で分散
されるので、校正されるべきそれらの位置だけの個々の
ＴＴＳ変換は困難である。さらに、個々の離れた位置の
選択と変換は、ユーザーが、連続するユーザーの相互作
用なしで所望される位置の完全な１組を聞くことができ
ないように、扱いにくい。

【００１８】本発明の好ましい実施形態は、ユーザーの
選択した複数の領域が音声に連続的に変換された後、ユ
ーザーの選択した複数の領域を選択して記憶する能力を
提供する。離れた領域の選択、記憶及び変換は、所望す
る範囲を強調表示することによってオープンスプレッド
シートウィンドウ５２における位置をユーザーが選択す
ることで開始する。オープンスプレッドシートウィンド
ウ５２におけるこの位置が強調表示された後に、ユーザ
ーは転送バー３６に含まれるＬＥＤ記憶ボタン６４を介
してアプリケーションの記憶機能を起動する。このＬＥ
Ｄ記憶ボタン６４の選択によって、強調表示された位置
はスプレッドシートの目標のアプリケーション５０のオ
ープンスプレッドシートウィンドウ５２から抽出され
る。前述した基本的オペレーションと共に、第１の強調
表示された位置はウィンドウズのコピー機能とクリップ
ボードを用いることによって抽出される。しかしなが
ら、ＬＥＤ記憶ボタン６４がオンされると、アプリケー
ションはクリップボードからデータを検索せず、選択さ
れたデータを変換するＴＴＳエンジンにすぐに送信する
が、むしろ、選択された位置はアプリケーションのロー
カルバッファに記憶される。ＬＥＤ記憶ボタン６４は、
選択された情報の１つのバッファが記憶されていること
を示す、表示された数値をインクリメントし、上記プロ
セスは、すべての読まれるべきテキストがすべて選択さ
れて記憶されるまで、追加の位置に対してユーザーによ
って繰り返される。

【００１９】アプリケーションはまた、テキストを含む
１つ又はそれ以上のバッファが、転送バー３６に含まれ
る停止ボタン６６の色を変更することによって変換のた
めに待機していることを示す。好ましい実施形態におい
ては、停止ボタン６６の色は、ユーザーによって記憶さ
れた複数のバッファが存在するときに、黄色から赤に変
わる。

【００２０】抽出された望ましいテキストを用いて、プ
レイボタン４６のユーザーによるオンは、記憶されたテ
キストバッファを、連続してかつ選択された順番で、変
換のためのＴＴＳエンジンに送信する。各記憶されたバ
ッファの音声に対するこの変換の間に、ＬＥＤ記憶ボタ
ン６４は、現在話されているバッファを反映する数値を
表示する。

【００２１】記憶されたテキストバッファのＴＴＳ変換
の間に、ユーザーは、記憶されたテキストバッファを介
して前進する又は以前再生されたテキストバッファを繰
り返す機能を与えられる。これらの２つの機能は、転送
バー３６の前進スキップボタン７０と後退スキップボタ
ン７２とを介して与えられる。前進スキップボタン７０
のユーザーによるオンは再生されている又は再生される
べき現在のバッファを前進させ、一方、後退スキップボ
タン７２は再生されている又は再生されるべき現在のバ
ッファを後戻りさせる。

【００２２】ユーザーがもはや、ローカルテキストバッ
ファに記憶されたテキストを再生することを所望しない
後に、ローカルテキストバッファは消去されてもよい。
このことは全バッファの消去コマンドを発生することに
よって達成される。全バッファの消去コマンドは、停止
ボタン６６を２度オンすることによって発生され、アプ
リケーションは停止ボタン６６の色を赤から黄色に変え
ることによって記憶されたテキストの消去を示す。

【００２３】選択されたテキストがＴＴＳエンジンによ
って再生されている間に、基本的転送コマンド（転送バ
ー）３６はユーザーによって発生されてもよい。転送コ
マンド３６によって、変換が停止ボタン６６の１度のオ
ンによって停止されることができ、又はユーザーは一時
停止ボタン７４のオンを実行して変換プロセスを一時停
止してもよい。加えて、早送り及び巻戻しのコマンドは
それぞれ、早送りボタン７６及び巻戻しボタン７８を通
して発生されてもよい。

【００２４】一旦、選択されたテキストがＴＴＳエンジ
ンに送信されると、変換はコントロールパネル３８と、
プリファレンスパネル４０と、辞書エディタパネル４２
とを通して与えられるユーザーの入力に基礎を置かれ
る。コントロールパネル３８は、転送パネル３６に設け
られたコントロールボタン８０がユーザーによって選択
されるときに、起動される。

【００２５】図５に見られるように、コントロールパネ
ル３８は、焦点次元コントロール８２と、男女の性選択
８４と、数値／テーブル変換コントロール８６と、早送
り及び巻戻しジャンプサイジング８８（図５では、「FF
W/FRW」と示される。）との４つのコントロールグルー
プを有する。焦点次元コントロール８２は、ユーザーに
ボリュームレバー９０（図５では、「vol」と示され
る。）を用いて音声の増幅度の設定を提供する。テキス
トが読まれるペースはスピードレバー９２（図５では、
「Spd」と示される。）を用いて増減させてもよく、基
本的音声周波数は周波数レバー９４（図５では、「Fr
q」と示される。）を用いてユーザーの好みに設定され
てもよい。

【００２６】数値／テーブル変換コントロール８６は、
数値のテキストが存在し又は選択されたテキストが行列
の形状を有するテーブル内に含まれるとき、ＴＴＳ変換
の態様を制御するインタフェースをユーザーに提供す
る。常時先頭ボタン９８（図では、「Always on top
（常時先頭）」と示される。)は、転送バー３６をいつ
もウィンドウズの表示の最上層に表示させる。この方式
において、転送バー３６はいつも可視できる。それゆ
え、任意の目標のアプリケーションが動作している上に
転送バー３６を“浮かせる”ことが望ましい。

【００２７】テーブルモードボタン１００（図５では、
「Table mode（テーブルモード）」と示される。）は、
情報をより自然な表現で話されるべきテーブルから読ま
せる特別な韻律アルゴリズムを呼出して実行する。特
に、特別な韻律アルゴリズムは、ＴＴＳエンジンに各行
の後に少し間を置かせ、各列の後に文の最後のイントネ
ーションを用いる。ドルモードボタン１０２（図５で
は、「Say “dollar/cent"（“ドル／セント”とい
う）」と示される。）は、ＴＴＳエンジンが、数字の前
にドル記号を置かれる場合における“ダラーズ（dollar
s）”と“センツ（cents）”を発音するようイネーブル
し、ゼロモードボタン１０４（図５では、「Say0 as
“zero"（０を“ゼロ”という）」と示される。）は、
ユーザーに数値の“０”を“ゼロ（zero）”又は“オー
（oh）”のどちらで発音するのかを選択させる。

【００２８】早送り及び巻戻しジャンプのサイズの決定
領域８８は、ユーザーに、早送りボタン７６又は巻戻し
ボタン７８がオンされたときにジャンプのサイズを決定
させる。テキストにおいて進められる距離は、句１０６
（図５では、「Phrase（句）」で示される。）、文１０
８（図５では、「Sentence（文）」で示される。）又は
段落１１０（図５では、「Paragraph（段落）」で示さ
れる。）の３つのサイズのうちの１つに設定可能であ
る。本発明の好ましい実施形態において、句１０６が選
択され、テキストが数字から構成されているとき、ジャ
ンプするサイズは個々の数字となることに注意された
い。

【００２９】従来技術のＴＴＳ変換アプリケーション
は、ジャンプのサイズを単語のサイズに制限する。さら
に、従来技術のＴＴＳ変換アプリケーションは、口頭の
会話での情報のタイプを伝える音節や単語に用いられる
韻律、又はアクセント及びリズムを変える便利な方式を
提供しない。本発明を用いると、早送り及び巻戻し機能
がＴＴＳ変換エンジンに密接に一体化されているので、
単語とは別の粒状度を有するジャンプサイズが選択され
てもよいし、巻戻し又は早送りが要求されるときに韻律
は失くされたり、歪まされはしない。

【００３０】コントロールパネル３８の４つのコントロ
ールパネルのグループのプリファレンスに加えて、サン
プリング周波数のユーザーによる制御と、アプリケーシ
ョンを開始する構成と、辞書のパスの構成と、ロードさ
れる音声がプリファレンスパネル４０を介して提供され
る。プリファレンスパネル４０に与えられるこの付加的
なコントロールは、プリファレンスボタン１１２（図５
では、「Preference（プリファレンス）」と示され
る。）のオンに伴いコントロールパネル３８を介してア
クセスされる。

【００３１】図６を参照すると、プリファレンスパネル
４０は機能的な領域に好ましくはさらに細分化される。
音声の品質の領域１１４（図６では、「QUALITY（品
質）」と示される。）においては、ユーザーは２つの周
波数ボタン１１６及び１１８（図６では、それぞれ「11
KHz[Low]」及び「22 KHz[High]」と示される。）のどち
らかを選択して、ローサンプリングレート（11KHz）と
ハイサンプリングレート（22KHz）の間で選べる。ＴＴ
Ｓエンジンはディジタル方式で録音されたサンプルを連
結し、音声を生成する。プリファレンスパネル４０にお
けるサンプリングレートの選択は、サンプリングされた
１組の音声には（よりコンパクトなローサンプリングレ
ート又はより高品質なハイサンプリングレートの）どち
らを用いるかをＴＴＳエンジンに伝達する。

【００３２】好ましい実施形態によって、ユーザーはＴ
ＴＳエンジンが開始時でどのように形成されるかを構成
することができる。このことはプリファレンスパネル４
０の領域１２０（図６では、「START UP（開始）」と示
される。）において制御される。チェックボックス１２
２（図６では、「Restore settings（設定を戻す）」と
示される。）によって、ユーザーは、ＴＴＳアプリケー
ションにユーザーの設定を前のセッションの最後で存在
した値に戻すように命令する。あるいは一方、ユーザー
はチェックボックス１２４（図６では、「Load user-di
ctionaries（ユーザーの辞書をロードする）」と示され
る。）をチェックして、複数の定義されたユーザーの辞
書のうちの１つををロードする。リストボタン１２６が
クリックされて、現在利用できるユーザーの辞書のすべ
てを列挙するプルダウンメニューを表示する。本質的に
は、任意のユーザーは、ユーザーの辞書が用いられると
きにＴＴＳエンジンがどのようにして発音するかを指定
する彼又は彼女自身の辞書を定義することができる。ユ
ーザーがこのことを達成できる技術は、図７において示
されるユーザー辞書パネル４２（辞書エディタパネル）
に関連して以下でより全体的に論じられる。

【００３３】好ましい実施形態は、ＴＴＳエンジンとユ
ーザー辞書がユーザーの選んだ任意の位置に記憶される
ことを可能にする。換言すれば、ユーザーは、辞書／補
助辞書、又はＴＴＳエンジンとユーザー辞書とを記憶す
るフォルダの位置を指定できる。領域１２８（図６で
は、「DIRECTORIES（ディレクトリ）」と図示され
る。）はこれらのコンポーネントの正確な位置を入力し
て、その結果、コントローラはこれらのコンポーネント
を配置してそれらを他のコンポーネントと一体化するこ
とができる。テキストボックス１３０（図６では、「En
gine:（エンジン：）」と示される。）は、ＴＴＳエン
ジンが置かれる完全なパスの位置を入力することに用い
られる。テキストボックス１３２（図６では、「Dictio
naries:（辞書：）」と示される。）は、ユーザー辞書
が置かれる場所を指定する同様の機能を提供する。実験
的作業の間では、異なるＴＴＳエンジンと異なる辞書ラ
イブラリとの間を素早く変更することができることは便
利である。このことはディスク上で異なるパスの位置で
異なるＴＴＳエンジンと異なる辞書ライブラリを記憶す
ることによって簡便に実行される。次いで、所望される
ＴＴＳエンジン又はユーザー辞書は、テキストボックス
１３０及び１３２における適切なパスの情報での簡単な
ファイル整頓によって、素早く選択されることができ
る。

【００３４】ローサンプリングレートの音声とハイサン
プリングレートの音声との間で変更できることは別とし
て、ＴＴＳエンジンはまた、両方のサンプリングレート
で複数の異なる音声の間で選択することができる。好ま
しい実施形態は、ＴＴＳエンジンが、女性の声でサンプ
リングされた音声と男性の声でサンプリングされた音声
とを使用できるようにする。さらに、別のサンプリング
された音声が数字の発音の質を向上することを（両方の
声で）提供される。

【００３５】プリファレンスパネル４０の領域１３４
（図６では、「LOAD:1360Kb（ロードする:1360kb）」と
示される。）において、ユーザーがこれらの利用できる
サンプリングされた音声のどれかが、ＴＴＳエンジンが
それらにアクセスするメモリ内にロードされるかを指定
してもよい。サンプリングされた音声は文書の記憶の目
的のためのコンピュータのハードディスクに通常は記憶
される。−自然な可聴音声を提供して−サンプルがリア
ルタイムで連結されて再生されることを可能にすること
では、サンプルは、より速いランダムアクセスメモリ又
はＲＡＭ内にロードされるべきである。幾つかのコンピ
ュータシステムは限定的に入手可能であって自由にアク
セス可能なＲＡＭを有しているので、好ましい実施形態
は、ユーザーにより必要とされるそれらの音声だけを選
択することを可能にする。従って、チェックボックス１
３６、１３８及び１４０（図６では、それぞれ、「Fema
le（女性）」、「Male（男性）」及び「Numbers（数
字）」と示される。）をチェックすることによって、ユ
ーザーは要求されるそれらの音声だけをロードすること
ができ、又は既に必要とされない音声をロードすること
ができない。図６においては、表示はＲＡＭの１３６０
Ｋｂがロードされていることを示す。これは選択されて
いるチェックボックス１３８に対応する。

【００３６】ＴＴＳ変換においては、音声はサブ単語と
単語との両方のレベルで分類される。上記分類は音韻論
における構成単位を定義するベースである音素に基礎を
置く。音素を用いて、解析は、音素が異なる文脈におい
て形成されるときに異なる音声が発生されることで行わ
れてもよい。それゆえ、与えられた状況における適切な
音声を生成するルールは形成される。単語はまた、それ
らの構造のために解析されてもよい。単語は音素と共に
形態素として一般に参照される構成単位に分解されても
よく、形態素から単語を形成するルールは存在する。ユ
ーザー辞書パネル４２は、個々のユーザーが、個々に区
別される音素のルールを形成することを可能にする。

【００３７】図７は、個々に区別される辞書を編集する
又は生成することに用いられる辞書エディタパネル４２
を表す。辞書エディタパネル４２は、この機能を達成す
る、オープン／新しい辞書ウィンドウ１４２（図７で
は、「Open/New Dictionary（オープン／新しい辞
書）」と示される。）と、単語編集ウィンドウ１４４
と、音素編集ウィンドウ１４６と、母音選択テーブル１
４８（図７では、「VOWELS（母音）」と示される。）と
の４つのメイングループを有する。

【００３８】オープン／新しい辞書ウィンドウ１４２
は、ユーザーが現存する辞書を開いて変更したり、又は
新しいファイルにおける現在の編集セッションの間に生
成された編集を記憶することを可能にする。辞書の名前
ウィンドウ１５４は現在選択されている辞書を表示し、
又はユーザーが新規に生成した辞書にラベル付けするこ
とを可能にする。現在、存在する辞書はまた、辞書プル
ダウンバー１５０から選択されてもよい。ファイルボタ
ン１５２は、それらの辞書だけが現在利用できる辞書の
パスに存在するように、プリファレンスパネル４０に示
される辞書を開く。

【００３９】単語編集ウィンドウ１４４は、音声上変更
されている又は変更可能とされる単語のリストを表す。
ユーザーが単語編集ウィンドウ１４４において見つけら
れた単語の音声的表現を編集することを所望する場合で
は、音素編集ウィンドウ１４６は音声を変更することに
用いられてもよい。単語“melodrama（メロドラマ）”
１５６は辞書から選ばれるので、単語“melodrama（メ
ロドラマ）”１５６はスペリングボックス１６６（図７
では、「Spelling（スペリング）」と示される。）内に
置かれる。ユーザーが、現在選択されている単語を、ユ
ーザーの選択によるもう１つの単語と同一の方式で発音
されることを好むような場合では、音声の好みボックス
１６８（図７では、「Sounds like（音声の好み）」と
示される。）はこの機能を実行することに使用されても
よい。単語が選択されると、選択された単語の音声的表
現は音素ボックス１７０に表される（図７では、「Phon
emes（音素）」と示される。）。上記音素ボックス１７
０はクラットコード（Klatt Code）の形式で音声的表現
を含み、それはユーザーが現在選択されている単語を形
成するように共に連結された個々の音素のトークンを見
えるようにする。示される好ましい実施形態はクラット
コード表現を使用するが、しかしながら、国際音標文字
（International phonetic alphabet、ＩＰＡ）はま
た、ランダムハウス（Random・House）によって提供され
る音声表現に加えてユーザーに利用可能である。

【００４０】音素編集ウィンドウ１４６はまた、生成さ
れたときの音節の各１つに置かれるべき選択可能なアク
セントのレベルをユーザーに提供する。このユーザーの
選択可能なアクセントのレベルは、表された音節の各々
のすぐ真下に設けられたアクセントボタン（１７２、１
７４、１７６、１７８）を与えられる。アクセントボタ
ン（１７２、１７４、１７６、１７８）はアクセントの
３つのレベルを提供し、上記３つのレベルはアクセント
ボタン（１７２、１７４、１７６、１７８）の色の変化
を通してユーザーに示される。

【００４１】音素編集ウィンドウ１４６において提供さ
れる音声表現には精通していないユーザーのために、母
音選択テーブル１４８は、ユーザーが与えられた音節を
強調表示することによって与えられた音節に対する適切
な母音を選択することを可能にし、次いで、アプリケー
ションによって音声的に生成された利用可能な母音の音
声を通して循環し、その結果、ユーザーは選択されたト
ークンによって生成された音声を聞いてもよい。ユーザ
ーが次の母音ボタン１９０（図７では、「NEXT（次）」
と示される。）をオンするたびに、利用できる次の母音
の音声はユーザーのために再生される。さらに、母音ド
ロップダウンメニュー１９２（図７では、「Select in
table（テーブルにおいて選択する）」と示される。）
は、一例としての単語によって表される音声を選択する
ことに用いられてもよく、上記単語は、ユーザーが音素
ボックス１７０において選択された音節又トークンに置
き換えたいと望むものである。

【００４２】図８は本発明の好ましい実施形態のＴＴＳ
シンセサイザのハイレベルの概観を表す。示されるよう
に、シンセサイザはウィンドウズ環境に存在する３つの
独立したアプリケーションを含む。目標のアプリケーシ
ョン２００は、ＴＴＳエンジンアプリケーション２０２
とＴＴＳコントロール又はＴＴＳコントロールアプリケ
ーション２０４と共に協働して動作する。ウィンドウズ
オペレーティングシステム環境２０６（図８では、ウィ
ンドウズ３．１とウィンドウズ９５として示される。以
下、ウィンドウズＯＳ環境２０６という。）は、目標の
アプリケーション２００と、ＴＴＳエンジン２０２と、
ＴＴＳコントロールアプリケーション２０４とを相互作
用させる手段である。ＴＴＳコントロールアプリケーシ
ョン２０４は、ウィンドウズカーネル機能２０８を用い
て、前述したように目標のアプリケーション２００にお
ける入力キーボードのコピーコマンドをシミュレーショ
ンする。ウィンドウズカーネル機能２０８はウィンドウ
ズＯＳ環境２０６の一部分である。ここでは図解するた
めに分離されて２０８で示されている。

【００４３】ウィンドウズＯＳ環境２０６は、ウィンド
ウズのアプリケーションにおいてＴＴＳを実施すること
に用いられることができるハイレベルとローレベルの両
方の音声のオブジェクトをサポートする。これらの音声
のオブジェクトは、ＯＬＥのコンポーネントオブジェク
トモデル（component object model、COM）を確立する
ＯＬＥのコンポーネントである。マイクロソフト・コー
ポレイションは、ウィンドウズの互換性のある音声アプ
リケーションが確立するアプリケーションプログラミン
グインターフェース（application programming interf
ace、API）を定義する詳細を開示している。マイクロソ
フトの音声ＡＰＩを準拠することなく、音声オブジェク
トを実施することは可能だが、好ましい実施形態はこの
ＡＰＩを準拠するように実施され、その結果、他のマイ
クロソフトウィンドウズアプリケーションと互換性を有
する。

【００４４】本質的に、音声ＡＰＩは１組のインターフ
ェースのルールである。ウィンドウズＯＳ環境において
ＴＴＳ機能を実施することが所望されるアプリケーショ
ンは、それらのルールを確立すべきである。従って、図
８において、ウインドウズＴＴＳアプリケーションプロ
グラミングインターフェース（ＴＴＳ・ＡＰＩ）が２１
０で図示される。図８が示唆するように、本発明のＴＴ
Ｓエンジン２０２とＴＴＳコントローラ２０４はマイク
ロソフトの音声ＡＰＩを準拠するように図示されてい
る。マイクロソフトの標準の音声ＡＰＩのより良い情報
は、マイクロソフト・コーポレイションによって公開さ
れているマイクロソフト・スピーチ・ソフトウェア・デ
ベロップメント・キット・デベロッパーズ・ガイド（Mi
crosoft Speech SoftWare Development Kit Developer'
s Guide）を参照されたし。

【００４５】本発明のコントローラは、マイクロソフト
のＴＴＳ・ＡＰＩを準拠する任意のＴＴＳエンジンと協
働するように容易に構成されることができる。このアプ
リケーションに対する適切なＴＴＳエンジンはセンチグ
ラム（Centigram）から入手できる。しかしながら、本
発明の全ての特徴を実施するために、基本的なＴＴＳエ
ンジンの正確な変更例がここに提供された説明に従って
生成されてもよい。

【００４６】図９は、ＴＴＳコントローラ２０４とＴＴ
Ｓエンジン２０２の両方の付加的な詳細を提供する。図
９の図示された実施形態は、ウィンドウズ３．１のＯＳ
環境に対するものである。ＴＴＳエンジン２０２は、異
なる音声に対する音声データを含む幾つかの異なる動的
にリンクされたライブラリ（different dynamicallylin
ked libraries、ＤＤＬ）へのアクセスを有するＴＴＳ
エンジンカーネル２２０を備える。好ましい実施形態に
おいて、サンプルの特別なコレクションは数値のアプリ
ケーションのために含まれる。これらのサンプルは数値
のＤＬＬ２２８を備える。男性及び女性の声のＤＬＬ２
３０及び２３２は、ユーザーの選択に依存して、音声サ
ンプルデータを男性の声又は女性の声のいずれかで一般
的に連結された音声信号を提供する。ユーザーの選択は
適切な設定データテーブル２２６における設定として記
憶される。コントローラ２０４は、変更されるべきこの
設定データテーブル２２６における値を発生するメッセ
ージを送信することができる。この方式においては、ユ
ーザーは、再生のサンプリングレートを含む他のＴＴＳ
エンジンの設定同様、どちらの音声のサンプルが再生中
に使用されるべきかを選択することができる。

【００４７】本発明のコントローラ２０４は基本的なＴ
ＴＳ・ＡＰＩカーネルＤＬＬ２５０を備える。ＴＴＳ・
ＡＰＩカーネルＤＬＬ２５０はマイクロソフトのＴＴＳ
・ＡＰＩに準拠するように設計される。転送コントロー
ルプロセス２５２、対話ボックスコントロールプロセス
２５４及び辞書エディタプロセス２５６のようなクライ
アントのプロセスはＴＴＳ・ＡＰＩカーネルＤＤＬ２５
０から送られる。この好ましい実施において、対話ボッ
クスコントロールプロセス２５４は、ユーザーが転送バ
ー３６上のコントロールボタン８０をオンしたときに起
動される。辞書エディタプロセス２５６は２つの方式の
うちの１つで起動されてもよい。対話ボックスコントロ
ールプロセス２５４によって発生されるコントロールパ
ネル３８から起動されてもよい。また、基本のウィンド
ウズのユーザーインターフェースから分離した独立型の
アプリケーションとして独立して起動されてもよい。

【００４８】本質的に、コントローラ２０４はマルチタ
スクＯＳ環境において実行可能なタスクの分配を利用す
るように構成される。従って、ＴＴＳ・ＡＰＩカーネル
ＤＤＬ２５０は、ウィンドウズＯＳ環境２０６とＴＴＳ
エンジン２０２ともまた第１の通信機能を操作する。Ｔ
ＴＳ・ＡＰＩカーネルＤＤＬ２５０は、マイクロソフト
のＴＴＳ・ＡＰＩを準拠するように応答する。クライア
ントのプロセス２５２、２５４及び２５６は、ＴＴＳ・
ＡＰＩカーネルＤＤＬ２５０の機能を用いて、ＴＴＳ・
ＡＰＩに応じて保証するように応答する。特に、転送コ
ントロールプロセス２５２はスクリーン上に転送バー３
６を表示して、転送バー３６上のボタンの動作を調整し
て統合する。それゆえ、転送コントロールプロセス２５
２は、すべてのボタンが与えられたテキストで適切に動
作することを保証するように応答する。例えば、今、再
生機能が動作してないとき、停止ボタン６６が現在利用
できないことを示す、より淡い色調又は異なる色で停止
ボタン６６が表示される。また、転送コントロールプロ
セス２５２は、要求されるディジットカウンタを更新す
るＬＥＤ記憶ボタン６４がどのように表示されるかの詳
細を操作する。

【００４９】対話ボックスコントロールプロセス２５４
は、コントロールパネル３８に関する同様の機能を実行
する。同様に、辞書エディタプロセス２５６は辞書エデ
ィタパネル４２を発生して操作する。

【００５０】ウィンドウズ３．１の実施において、ＴＴ
Ｓ・ＡＰＩはメッセージループを有しない。よって、通
信は基本のウィンドウズのメッセージループを介して直
接実行されることができない。このことを克服するため
に、シェアされたメモリモジュールが提供される。シェ
アされたメモリモジュールは、図９においてエンジング
ルー（接着剤、glue）モジュール２１２と呼ばれる。本
質的に、エンジングルーモジュール２１２は、ＴＴＳエ
ンジン２０２とＴＴＳコントローラ２０４が互いに通信
するために使用してもよいシェアされたメモリの領域を
定義する。通信はシェアされたメモリ空間に読み込んだ
り書き込んだりすることによって実行される。

【００５１】図１０はより詳細にＴＴＳエンジンを示
す。図示されるように、ＴＴＳエンジン２６０の出力
は、ＴＴＳ・ＡＰＩの仕様で定義された音声オブジェク
トとして、連結されたシーケンスのサンプルを順番にデ
ィジタル／アナログ変換回路２６４に出力するＴＴＳエ
ンジン出力ドライバ２６２に供給される。この回路はま
た、音声を聞くことを可能にする適切な増幅器とスピー
カシステムを供給する。

【００５２】ＴＴＳエンジン２６０は、目標のアプリケ
ーション２００からＴＴＳエンジン２６０におけるＴＴ
Ｓエンジンローカルバッファ２７２にコピーされる目標
のアプリケーションデータ２６８を処理する。図１０に
おいて、目標のアプリケーション２００は１組の目標の
アプリケーションデータ２６８を有する。これらの目標
のアプリケーションデータ２６８は目標のアプリケーシ
ョン２００に用いられてコンピュータスクリーン上にテ
キスト又は数字を表示してもよい。前述されたように、
ユーザーはこれらのテキスト又は数字を強調表示して、
次いで、転送バー３６上のプレイボタン４６をオンす
る。転送コントロールプロセス２５２（図９）は、ウィ
ンドウズＯＳ環境を介して一連のコマンドを発生し、強
調表示されたデータ上でウィンドウズのコピーとペース
トの動作をシミュレーションする。次いで、クリップボ
ード２７０から、データはＴＴＳエンジン２６０のＴＴ
Ｓエンジンローカルバッファ２７２にコピーされる。Ｌ
ＥＤ記憶ボタン６４がテキストの一部を選択することに
用いられる場合では、プレイボタン４６をオンすること
が、ＬＥＤ記憶ボタン６４のバッファに記憶されたテキ
ストの一部分をＴＴＳエンジン２６０のＴＴＳエンジン
ローカルバッファ２７２内にロードする。

【００５３】上記ＴＴＳエンジン２６０は以下のように
ＴＴＳエンジンローカルバッファ２７２に記憶されたデ
ータを処理する。合成がプレイボタン４６をオンするこ
とによって開始されるときに、ＴＴＳエンジンローカル
バッファ２７２は与えられたテキストの量と共にロード
される。これは移動させるリターン、スペース、タブ等
のすべてを含む。実際にＴＴＳエンジンローカルバッフ
ァ２７２に転送されるデータのサイズは、ユーザーによ
って選択されたものに依存する。一般的には、より多く
のデータが記憶されると、これはより完全な文脈を提供
して合成プロセスにおいてより完全に助ける。従って、
完全な段落は単一の文より良い。完全なテーブルはテー
ブルにおける独立した語彙項目より良い。もし十分なメ
モリが利用できれば、本のような完全なテキストがＴＴ
Ｓエンジンローカルバッファ２７２内にロードされるこ
とができる。典型的には、これは、完全な本より少なく
識別されることができるテキストの文脈としては必要で
はない。

【００５４】ＴＴＳエンジンローカルバッファ２７２に
ロードした後に、テキストはフォーマット又は走査と言
われる処理を実行して解析される。フォーマット又は走
査の処理を表すハイレベルなフローチャートが図１１に
表される。Ｓ２１において、上記プロセスは、数字、省
略語及び頭字語を正確な単語シーケンスに変換して、テ
キストを正規化する。次いで、Ｓ２２において、フォー
マット及び走査の処理は、テキストを個々の単語又は数
字を表すトークンに分割する。これらは単語間の空白を
検出することによって識別される。次に、Ｓ２３におい
て、ハイレベルな構文解析が実行されて、埋込まれた句
読記号に基づいて、段落の境界と、文の境界と、節の境
界とを見付ける。このテキストの解析の一部として、任
意の埋込み型コマンドが検出されて実行される。典型的
に、音声シンセサイザは埋込みコマンドを与えられ、音
声レートや声の品質を変更するようなコントロール機能
を達成することができる。例えば、埋込み型コマンド
は、次の単語が強調表示されるべきであること又はテキ
ストの次のブロックがテーブルとして扱われるべきであ
ることを示す信号を送信してもよい。しかしながら、埋
込み型コマンドが必要とされずに、それらが無くてもシ
ンセサイザは優れて機能する。

【００５５】テキストのトークンに対するハイレベルな
構文解析は、幾つかの一般的に遭遇する状況に適応させ
る。例えば、“805-687-0110”はおそらく、電話番号と
して認識されることができ、おそらく日々の時間である
“8:30”とは異なって話される。同様に、“（即ち、ニ
ューヨーク）”における括弧はイントネーションにおい
て息継ぎをして変化し、ここでは“（”における括弧は
“左の括弧”を読まれなければならず、“can't”又は
“O'Malley”における単一の引用符は一対の一部として
は考えられない。

【００５６】Ｓ２４において、ハイレベルな構文解析
は、そのとき辞書においてルックアップされる単語を識
別することを含む。辞書は、音声の起こりうる部分に対
応する１組の実行できる発音を提供する。この情報はＴ
ＴＳエンジンに関する辞書に記憶される。Ｓ２５におい
て後で、句レベルでの構文解析を実行するとき、音声の
幾つかの部分は現在の文脈において不可能であることを
発見されてもよい。それは各単語に対する音声の最適な
一部分と、対応する最適な発音に制限することを可能に
する。従って、各単語はそれに関連する情報のパケット
を収集することを開始する。情報のこのパケットはより
完全に記述された適切なデータ構造に記憶される。

【００５７】音声情報の発音と一部分を記憶することに
加えて、パーサーによって識別されて各単語はまた、ロ
ーカルバッファ２１４に戻るポインタ又はインデックス
を含む。これは、ＴＴＳエンジンが、単語がダウンロー
ドされたテキストのどこに設けられたかを“覚える”こ
とを可能にする。本質において、これらの情報パケット
は構文木における葉となる。トークンは多くの話される
単語に変換されてもよいので、単語は、単語の範囲を定
められたテキストバッファの空白に厳密には対応しな
い。例えば、“687-0110”のトークンは、“six-eight-
seven…zero-one-one-zero（シックス−エイト−セブン
…ゼロ−ワン−ワン−ゼロ）”に変換する。

【００５８】それらは入れられた句読記号によって範囲
を制限されるので、段落と、文と、節とに対応する構造
木のノードはすでに適所にある。しかしながら、句読記
号によってマークを付けられない幾つかの付加的な節の
境界が存在する。これらの節の境界はＴＴＳエンジンに
よって加えられなければならない。テキストバッファ内
の開始点及び終了点へのポインタ、文のタイプ等のよう
な構造的な語彙項目についての情報は、構文木のノード
内に記憶される。この文脈における構文木はまた、文法
木と呼ばれてもよい。それは節レベルと単語レベルの間
で構築される。現在の実施形態は、節の始まりで開始し
て前方を見て又は節の終わりで開始して後方を見る句レ
ベルのパーサーを使用する。上記パーサーは名詞の句又
は動詞の句を検出するときに単語を機能させる。

【００５９】節を句に分割する幾つかの可能な方式があ
る。典型的には、ベストなアプローチはより大きい句を
好むことである。句は音声の選択された部分の予め定義
されたシーケンスを備える。構文解析の後に、各単語の
情報パケットは更新されて、音声の選択された部分と選
択された発音とを含む。これらは音声コードに表され
る。さらに、すべての構文句が句のタイプと境界として
マークを付けられる。

【００６０】構文（文法）句はＴＴＳコントローラ２０
４によって用いられる句と同一でなくてもよい。むし
ろ、ＴＴＳコントローラ２０４は、境界がポーズ又は息
継ぎによって範囲を決定される韻律的句で機能する。
“韻律”は、それのタイミングと、ポーズと、イントネ
ーションとに音声の話し方又は感覚を参照する。ポーズ
又は息継ぎの境界が音声が途切れて連続して発音されな
い場所で典型的に線引きするので、これらの境界は転送
のコントロールの間に前方又は後方にジャンプする良い
場所である。逆に言えば、韻律の境界と境界との間の音
声は通常途切られず、しばしば連続して発音される（声
門振動）。途切れない領域では、理解度を失うことなく
停止すること又は再開始することは困難である。

【００６１】パーサー情報と単語情報とのパケットは、
好ましい実施形態において同時に１つの文のために記憶
されるだけである。非常に長い文の場合では、文の一部
分だけが計算されて記憶される−このような状況は希で
ある−。含まれる計算量が相当な時間量を費やすので、
この“パイプライン処理”が必要である。双方向的な状
況において、バッファ内に記憶された非常に大きなテキ
スト量を有することは、開始時の待ち時間の問題として
認識される望ましくない遅延を招く。出力がディジタル
／アナログ変換ハードウェアに送信される前に、データ
の構文木を構文解析して満たすには長い時間を要するの
で、待ち時間の問題が発生する。本実施は、明らかな中
断なしの容易に送信されるものにバッファサイズを制限
することによってこれを回避する。好ましい実施はデー
タをコンピュータのディジタル／アナログ変換器に送信
して、ここではファースト−イン、ファースト−アウト
（ＦＩＦＯ）バッファに記憶される。一度、ＦＩＦＯバ
ッファに記憶されると、データは割り込み又は直接メモ
リアクセス（direct memory access、ＤＭＡ）を用いて
再生されてもよい。一度、ＦＩＦＯバッファ内にロード
されると、コンピュータは話されるべき次の文を計算す
るタスクを再開することができる。

【００６２】１つの文を構文解析した後に、Ｓ２６にお
いて、文の韻律的解析が実行される。幾つかのことがこ
のステージで実行される。第１に、付加的な構文の境界
は接続詞によって示される節の境界を表すことで定義さ
れる。例えば、次の文“He went to the store but lef
t his money at home.（彼は店に行ったが、彼のお金を
家に置いて来た。）”において、接続詞“but”によっ
て分離された２つの節がある。第２に、単語は、音声の
一部分に基づいて機能の単語又は内容の単語としてマー
クを付けられる。“the”や“at”のような単語は機能
の単語であり、一方、“Bill”や“running”のような
単語は内容の単語である。内容の単語はアクセントを付
けられ、又は強調表示される。

【００６３】次に、音声の一部分に基づいて、（“トー
ンの境界”によって制限される）韻律的な句の正確なタ
イプがマーク付けられる。もしここまでは他の単語が内
容又は機能の区分に従ってアクセント付けされれば、こ
れらはアクセントを付けられた単語を与えられる。最終
的に、幾つかの場合では、内容の単語は、アクセントを
付けられた単語の密度と単語の重要性の序列とに基づい
て“アクセントをはずされる”。結局、イントネーショ
ンカーブは、アクセントを付けられた単語と、韻律的な
句と、他の考慮すべきものとに依存して、文に対して計
算される。

【００６４】前述のステップが達成されると、ステップ
２７において、ポーズ挿入アルゴリズムが実行される。
幾つかのポーズは、節の境界のような上述の説明におい
て述べられた複数の境界によって既に決定されている。
付加的なポーズは以下のように挿入されてもよい。付加
的なポーズは、音声の一部分に基づいて若しくは単語の
内容又は機能に基づいて挿入されてもよい。また、ポー
ズは人間の話者がどこで息継ぎするかをシミュレーショ
ンするように挿入されてもよい。これらのポーズが決定
されている間に、ステップ２８において、ＴＴＳエンジ
ンは、ポインタを、実質的に文をポーズのグループに分
けるテキストバッファに後戻りするように設置する。ポ
ーズ挿入アルゴリズムは、文の中間で開始すれば音声が
“オンする”点でマークを付ける。ＴＴＳ処理のサイク
ルの後で、幾つかの音声生成アルゴリズムは、このスイ
ッチがオンされるまで、実行しない。

【００６５】もしユーザーが巻戻しボタン７８をオンし
て前の文の中間のどこかに後方にジャンプすると、ＴＴ
Ｓエンジンは音声の再生をキャンセルし、残存する音声
データを捨て、次いで、現在の文の残存する計算をキャ
ンセルする。同じときに、すべての現在の句レベルと単
語レベルの情報は放棄されてもよい。次いで、テキスト
バッファにおける段落と、文と、韻律的な句との境界
を、マークを付けられた以前に計算されたデータを用い
て、ＴＴＳエンジンは後方に戻り、前の文の計算を開始
する。ほとんどすべての計算は（限りある利用できるＲ
ＡＭ記憶部のために）再実行されなければならない。一
般的に、テキストにおける後方にスキップするコマンド
はユーザーのマウスのクリックによるので、これは作業
を大幅には低下させない。心理学的に、マウスをクリッ
クする行動は、何かが起こることを予期される前の約１
／４秒の余裕をみておく。これは文を話すことを再開始
するために必要なおおよその待ち時間である。また、再
開始が文内における韻律的な句の境界で起こるので、音
声を生成するために必要とされる他の計算のすべては実
行される必要はない。むしろ、文内における開始点に対
して文脈を正確に設定するために必要とされる１つのも
のだけが、このステージで実行されなければならない。
例えば、韻律は、辞書においてルックアップされる文全
体と文のすべての単語に対して計算される。しかしなが
ら、これらは話されるべき最初の句での文脈上の効果を
有しないので、音声レベルの同時発音の効果とフォルマ
ントの軌道は、最初の話されないセグメントに対しては
計算されない。ＴＴＳエンジンが、話されるべき句が始
まる予め決定された単語に達するときに、後のすべての
単語は“on（オン）”としてマーク付けられ、これらの
後の単語が後で話されることを明らかにする。

【００６６】ＴＴＳコントローラ２０４によって実行さ
れることができるある早送りと巻戻しの特徴を実施する
ために、“スクラブ（scrub）”モードはＴＴＳエンジ
ン２０２に含まれてもよい。スクラブモードは上述した
“スキップ”モードと対照されるものである。スキップ
モードでは、スキップサイズは、単語、句、文、段落又
はバッファの最終点に基づいて予め設定される。早送り
又は巻戻しボタン７６又は７８がオンされると、ＴＴＳ
エンジン２０２は音声を停止させ、次いで先に続くユニ
ット又は後に続くユニットを再開始させる。対照的に、
スクラブモードは、内容の（又は重要な）単語だけを話
している間に、単に再生の速度を変えるだけである。機
能の単語は削除される。およそ４つの係数によって音声
レートを増加することによって、その効果は、テープの
ヘッドがテープに接して残っているようにアナログテー
プレコーダでの早送り又は巻戻し動作と同様である。

【００６７】スキップモードとスクラブモードとの間を
選択するために、ＴＴＳコントローラ２０４はマウスの
ボタンが押されている時間の長さに敏感に形成されるこ
とができる。早送り又は巻戻しボタン７６又は７８上の
素早いクリックはスキップモードを実行させる。予め決
定された長い時間マウスのボタンを押し続けると、スク
ラブモードが実行される。

【００６８】前述に加えて、以下で、本実施形態のＴＴ
Ｓエンジンがどのようにして文の境界と、段落の境界
と、ポーズ又は息継ぎの境界とを決定するかの詳細を説
明する。

【００６９】文の境界は、ＴＴＳエンジンのローカルバ
ッファ２１４内から決定されてもよいし、又は辞書とパ
ーサーによって生成された情報を用いて決定されてもよ
い。好ましい実施形態は、「真」に初期化される可変な
“実行された文”を設定する。実行された文の状態が
「真」であるとき、遭遇する次の英数字のテキストは新
しい文を開始し、実行された文の変数が「偽」に設定さ
れる。従って、始められた文が終了したと考えられる
と、決定のロジックがまず決定することに焦点を当て
る。

【００７０】幾つかの簡単な場合と幾つかの特殊な場合
とがある。文が開始されてバッファの最後に達すると、
次いで、文が実行されたとして扱われる。もし文が開始
されて空白の行が現在のトークンに続くと、これはまた
文が実行されたとして扱われる。この場合において、空
白の行は文の最後のトークンとして扱われる。

【００７１】次に特殊な場合を考えると、複数行のテー
ブルに遭遇してシステムがテーブルモードにあるとき
に、列は（列の最後で文の最後のイントネーションを下
げさせるために）文として扱われる。ここでは、システ
ムは列の最後の収録語を検索し、それを文の最後と見な
す。もう１つの特殊な場合は、新しいテキストで発生す
るか、又は他のテキストの同じ線上の先頭で発生する。
例えば、次の：“WASHINGTON(UPI)-the Senate, sympat
hetic about the economic...,（ワシントン（ＵＰＩ）
−．．．経済について賛成する上院）”又は“THE USE
OF ACRYLIC IN MODERN ART For centuries artists hav
e been...（数世紀間の芸術家に対して近代芸術におけ
るアクリルの使用は．．．）”の引用文を考えて戴きた
い。

【００７２】上記の例において、ほとんどの固有名詞は
大文字で始まるので、システムは、文の開始を正確に指
示する最初の大文字を有する単語をもう用いることはで
きない。上記の例において、すべての上の場合のモード
が確立されている所で、最初の大文字を有する次の下の
場合の単語は新しい文の開始を示す。テキストがすべて
の上の場合のモードにあることを確立するために、幾つ
かの上の場合の単語が発生しなければならず、又は上述
の例の“−”のような幾つかの種類の境界のマークが発
生しなければならない。これらは、上の場合の単語が次
に示される文内における頭字語より多いことを示す。こ
の状況が発見されると、上の場合の部分は単独で文とし
て扱われる。これは、システムが文の最後のイントネー
ションを下げて境界を目立たせることを可能にする。

【００７３】開始された文を終える残る方式は、ピリオ
ド又は疑問符又は感嘆符のような句読記号を含む。一般
的に、これらの句読記号は文の最後にマークを付ける
が、これらの句読記号が付いてないときもあるが、それ
らは文の最後にマークを付ける。もし、単独で、句読記
号が一対のダブル引用符又はシングル引用符内にあれ
ば、シンセサイザは、まるで句読記号の名前が話される
かのようにこれを扱う。また、もし句読記号が、数字又
は発音できない文字列若しくは他の句読記号を含む無意
味な言葉の列に現れれば、トークンは無意味な言葉であ
るか、若しくは一部の数字又は電子メールのアドレス又
は表現的なトークンのようなものであるかもしれない。
システムはそのような無意味な言葉又は部分的な数字を
チェックし、その結果、これらの発生によって文の最後
は明らかにされない。

【００７４】テキストの列におけるピリオドの発生は幾
つかのあいまいな場合を有する。ピリオドが文字列の最
後で見付かると、システムは省略語のリストにおいてこ
の文字列をルックアップする。省略語の幾つかは、“10
in.（１０インチ）”のように数字の前又は後のような
正確な文脈を要求する。もし同じものが省略語リストに
見付かり、かつ（１）もし省略語が一般的に“Mr.Jones
（ジョーンズ氏）”のように次の単語を必要とすれば；
（２）、もし省略語（とピリオド）が引用記号でなく他
のもう１つの句読記号により続いていれば；（３）もし
省略語（とピリオド）がスペース又は新しい行によって
続き、かつ次のトークンが大文字でなければ、のような
以上の状況のいずれかが「真」であれば、ピリオドは文
の最後としては無視される。

【００７５】ピリオドが省略語の後に見つかり、かつス
ペースが次にきて、次いで大文字でない単語が次にくる
と、システムはこれを新しい文であるとは考えない。こ
の場合におけるピリオドの機能は知られされてなく、そ
れゆえ、システムによって無視される。ピリオドが他の
文字はないが（適切な位置に）コンマを有した数列にお
いて見付かったとき、システムは１０進法の点としてピ
リオドを使用する。もしピリオドが単一の大文字化され
た文字の後に見付かり、かつスペースが次にきて、次い
で、間に句読記号を有さず又はピリオドを有したもう１
つの大文字を有さない大文字化された単語が次にくるれ
ば、システムは名前のミドルイニシャルとしてこれを扱
い、他はピリオドを無視する。最終的には、もしシステ
ムが上記の理由のうちの１つのためにピリオドを無視し
なければ、及びもし文が開始されれば、ピリオドは文の
最後を示すために取られる。１つの文に複数のピリオド
がある場合において、幾つかは省略語として無視される
が、文はまだ終了したとしては明言されない。

【００７６】段落の境界は文の境界を有して並べられる
ことが予想されるが、特別な基準と処理されなければな
らない。もし最後の文が終了して、かつ新しい行が大文
字化された単語の後のタブ又は幾つかのスペースで開始
されれば、段落の境界はマークを付けられる。あるいは
代わって、もし最後の文が終了して次の単語の前に空白
の行があれば、新しい段落が始められる。

【００７７】ポーズ又は息継ぎの境界の決定は、まだも
う１つの一連の決定を含む。第１に、（最初に句読記号
をたどる）すべての節の境界がポーズを割り当てられ
る。同様に、すべての文の内部の句読記号（又は句読記
号グループ）は、コンマによって分けられた単一の単語
のリストの場合を除いて、ポーズが割り当てられる。

【００７８】次に、ポーズは発音のない幾つかの一対の
単語の間に挿入される。好ましい実施形態のアルゴリズ
ムにおいて、ポーズを設ける場所の決定は、（１）前の
ポーズの近さ；（２）文法的ルールに基づく、２つの単
語が接される密接度；（３）文法的構造と内容又は機能
の単語の種類とに基づいたポーズに対する参照のルー
ル、以上の要因に起因する。

【００７９】以下で記述する擬似コードのリストにおい
て、１組のルールは上述の（１）と（３）の場合をカバ
ーするように与えられる。これらのルールはまた、定義
してないが単語間の“密接度（tightness）”を組み込
む。この密接度はたまに、ブレークインデックス（brea
k index）と呼ばれる。この好ましい実施形態は現在
は、ブレークインデックスを確定する決定論的なルール
を用いていない。むしろ、現在のシステムは１組のルー
ルを適用して一般に起こる状況を処理する。これらのル
ールは、もしそれらが他のルールと矛盾しなければ適用
され、この場合では、より高い優先権を有するルールが
用いられ、他の場合は両方のルールが無視される。一例
として、“John broke down and went to the store.
（ジョンは気落ちして店に行った。）”の一文がある。
“to the”という一対の単語は密接に結ばれ、ほとんど
１つの単語として話される。システムはこれらのような
一対の単語を識別し、それらの間にポーズを入れない。
冠詞が次にくる短い前置詞は、２つの単語の密接な結び
付きを示す低いブレークインデックスを割り当てられる
一対である。同様に、非常に一般的で短い、しばしば一
対で用いられる単語は、さらに低いブレークインデック
スを与えられる。従って、現在のシステムは１組のルー
ルを、よく発生することが知られる単語のグループに適
用する。ブレークインデックスはこれらのグループに割
り当てられ、その結果、それらの間にポーズを入れるか
どうかの決定が行われることができる。

【００８０】上記で言及したように、ＴＴＳエンジンは
また、埋込みコントロールコマンド又はコントロール
“タグ”を操作する機能を有する。コントロールタグ
は、テキストに組み込まれてシンセサイザを制御するコ
マンドである。コントロールタグは、シンセサイザが知
的で自然な音声化を行うようにより良い仕事を実行する
ことを助ける。コントロールタグは、他では計算的に算
出することが難しい手掛かりを与える。それらはまた、
有効な方式において音声を変更する。例えば、コントロ
ールタグは、音声レート又はピッチを調整することによ
って、男性から女性に又はその逆に声を変更することが
できる。これは２人の間のタイプ打ちされた会話を変換
することに用いられてもよい。コントロールタグはま
た、正確な単語が、正確な単語が音声の正確な部分とし
て扱われるべきであることを記す又は２つの単語間の与
えられたポーズを記すように、強調されるべきものであ
ることを記すことができる。

【００８１】多くのコントロールタグはシンセサイザの
状態を変更する。例えば、一度、システムが男性の声か
ら女性の声に変えられると、シンセサイザは、他のこと
を言うまで新しい状態（女性の声）を残す。相互作用的
な状況において、状態はまた、上述したコントロールパ
ネル３８のうちの１つをユーザーがマウスでクリックす
ることのような他の手段によって変更されることができ
る。現在の状態の適切な処理は、転送バー（コマンドバ
ー）３６の実施において考慮されなければならない。も
し、校正の間に、正確な文が女性の声で話されるように
提案されるが、周囲のテキストは男性の声で話されるな
らば、女性の文から男性の文へのジャンプ、又は他のど
こかから女性の文へのジャンプが適切に処理されなけれ
ばならない。本実施は、もう１度ローカルバッファの全
体を走査してジャンプの目標位置に対してどの状態であ
るべきかを実際に決定することによって、この状況を処
理する。あるいは代わって、状態の変数は、以前走査さ
れたテキストの部分に対して記憶されて保持されること
ができる。前者のアプローチは、上述されたようにロー
カルバッファ内におけるデータの再走査が非常に素早く
実行されることができるので、好ましい実施において採
用され、従って、ユーザーによって気付かれる所望され
ない遅延はない。

【００８２】適切な句、文又は段落の境界にスキップ又
はジャンプする任意の再位置決めを実施するために、好
ましい実施形態は、ユーザーが、所望する句、文又は段
落内における任意の単語を選択することを可能にし、シ
ステムはその句、文又は段落の開始点にスキップ又はジ
ャンプする。もしユーザーがテキストバッファ内におい
て任意の位置を特定し、また構成単位（句、文、段落
等）をも特定すれば、ＴＴＳエンジンは、ジャンプに対
する特定された構成単位に基づいて、任意の位置を含む
句、文又は段落から、もう１つの句、文又は段落の開始
点にジャンプする。ＴＴＳエンジンは実際に話されるで
あろうテキストのブロックより大きいテキストのブロッ
クを走査するように設計されるので、システムは、ユー
ザーによって選択されて指定された開始点より前の点に
巻戻すことができる。従って、もしユーザーが段落の中
間にいて、ＴＴＳ変換を選択して段落の中間で開始すれ
ば、ユーザーは巻戻しボタンを押して最初の挿入点より
前の点に移動することができる。

【００８３】システムが元のテキストバッファへのポイ
ンタを保持するので、ＴＴＳエンジンは現在の開始点の
境界を目標のアプリケーションに伝達する。これは、例
えば、現在の境界の最初の単語が目標のアプリケーショ
ンにおける強調表示されたテキストに表示されることを
可能にする。

【００８４】もし所望するなら、システムは実施される
ことができ、その結果、一時停止ボタンがオンされると
きに、音声出力が句の中間又は数字の中間内で進行して
いれば、音声の試みが停止されたサンプルで開始する。

【００８５】好ましいＴＴＳエンジンは、音声がシステ
ムを介して完全に再生された後に、構文木に記憶された
データが保持されるバッファ保持技術を使用する。従っ
て、出力の最後でのバッファのデータを放出することよ
りむしろ、新しい情報がロードされなければ、情報は保
持される。これは、ユーザーがそれが完全に再生された
後でさえテキスト内に巻戻すことを可能にする。この特
徴がないと、読み上げの最後で悩まされるユーザーは、
バッファを再ロードして、次いで最後まで早送り、もう
一度最後を聞かなければならない。合成の終了後の情報
を保持することは、この不自由さを回避する。

【００８６】上記から、本発明が単語のテキストのアプ
リケーションとスプレッドシートアプリケーションに関
連して図示されて記述されたが、図示された実施形態に
おいて使用された技術は他のアプリケーションに適用さ
れることができることは明白であるということを認識さ
れるであろう。従って、本発明は、添付された特許請求
の範囲における本発明の精神から逸脱することなく正確
に変更又は変形することができることは理解されるであ
ろう。

【００８７】＜付録＞ここで、句読記号を付けられてい
ない単語の境界においてポーズを挿入するルールを列挙
する。これらのルールは、もし前に決定されたブレーク
インデックスが極めて低いと考えられれば、適用されな
い。

【００８８】１．もし、名詞の句の最後で、この句に少
なくとも５個の音節があり、かつこの句が一部分である
より大きい節が１８個以上の音節を有し、かつ上記句の
最後から上記より大きい節の最後までにある音節の数が
少なくとも５個であれば、この点でポーズを挿入する。
言い換えれば、ある重要な名詞の句は節として扱われ
る。

【００８９】２．これは以下のある条件下で１つのポー
ズを挿入するもう１つのルールである。（１）次の単語が機能の単語であり、（２）現在の単語
が内容の単語であり、（３）現在の節までにかつ現在の
単語を含む音節の数が５以上であり、（４）現在の節に
おける音節のすべての数が１７以上であり、（５）現在
の単語を越えた現在の節における音節の数が５以上であ
り、（６）節に少なくとも５以上の単語がある。

【００９０】３．これは以下のある条件下で１つのポー
ズを挿入するもう１つのルールである。（１）次の単語が内容の単語であり、（２）現在の単語
が内容の単語であり、（３）現在の節までにかつ現在の
単語を含む音節の数が２０以上であり、（４）現在の単
語を越えた現在の節における音節の数が７以上であり、
（５）節に少なくとも７以上の単語があり、（６）やが
て来る単語に続く単語が機能の単語ではない。

【００９１】

【発明の効果】以上詳述したように本発明に係る請求項
１記載のシンセサイザは、独立した目標のアプリケーシ
ョンの可視表示におけるテキストのユーザーにより選択
された部分を、人間の言葉のように発音する音声出力に
変換するテキストを音声に変換するシンセサイザであっ
て、上記シンセサイザは、上記独立した目標のアプリケ
ーションの上記可視表示から離れて表示される転送コン
トロールバーと、オンされたとき、上記テキストのユー
ザーにより選択された部分のコピーをメモリの予約され
たセグメントに入れる上記転送コントロールバー上に含
まれるプレイボタンと、上記テキストのユーザーにより
選択された部分を上記メモリの予約されたセグメントか
ら受信するテキスト記憶バッファと、上記テキスト記憶
バッファに含まれる上記テキストのユーザーにより選択
された部分を、人間の言葉のように発音する音声出力に
変換する、テキストを音声に変換するエンジンとを備え
る。従って、テキストを変換して人間の言葉のように発
音するシンセサイザは、転送コントロールバーと、プレ
イボタンと、テキスト記憶バッファと、テキストを音声
に変換するエンジンとを有するので、上記シンセサイザ
は、ユーザーが簡単に自分の好みでテキストを上記シン
セサイザに読ませることを可能にする。

【００９２】また、本発明に係る請求項２記載のシンセ
サイザは、独立した目標のアプリケーションの可視表示
におけるテキストのユーザーにより選択された複数の不
連続の部分を、人間の言葉のように発音する音声出力に
変換するテキストを音声に変換するシンセサイザであっ
て、上記シンセサイザは、上記独立した目標のアプリケ
ーションの上記可視表示から離れて表示される転送コン
トロールバーと、オンされたとき、上記テキストのユー
ザーにより選択された部分のコピーをメモリの予約され
たセグメントに入れる上記転送コントロールバー上に含
まれる領域記憶ボタンと、メモリの上記予約されたセグ
メントにコピーされた上記テキストのユーザーにより選
択された複数の不連続の部分の各々を連続して記憶する
複数のテキスト記憶バッファと、起動されたとき、上記
テキストのユーザーにより選択された複数の不連続な部
分に含まれる上記テキストのユーザーにより選択された
部分を、人間の話法のように音を出す音声出力に変換す
るテキストを音声に変換するエンジンとを備える。従っ
て、テキストを変換して人間の言葉のように発音するシ
ンセサイザは、転送コントロールバーと、領域記憶ボタ
ンと、テキスト記憶バッファと、テキストを音声に変換
するエンジンとを有するので、上記シンセサイザは、ユ
ーザーが簡単に自分の好みでテキストを上記シンセサイ
ザに読ませることを可能にする。

【図面の簡単な説明】

【図１】目標のアプリケーション（ワードプロセッサ
のアプリケーション）の一例と組み合わせた本発明の好
ましい実施形態の第１のグラフィカルユーザーインター
フェースのパネルを示すスクリーンの表示の正面図であ
る。

【図２】好ましい抽出アルゴリズムを図示したフロー
チャートである。

【図３】ＬＥＤボタンの使用を図示する、目標のアプ
リケーション（スプレッドシートアプリケーション）と
組み合わせた本発明の好ましい実施形態の転送バーを示
すスクリーンの表示の正面図である。

【図４】図３において示される転送バーのより詳細な
正面図である。

【図５】好ましい実施形態の第１のコントロールパネ
ルのより詳細な正面図である。

【図６】好ましい実施形態のプリファレンスコントロ
ールパネルのより詳細な正面図である。

【図７】本発明の好ましい実施形態のユーザー辞書エ
ディタコントロールパネルの詳細な正面図である。

【図８】本発明に係るテキストを音声に変換するシン
セサイザとコントローラのハイレベルな概観を表すソフ
トウェアシステムのブロック図である。

【図９】好ましい実施形態がウィンドウズ３．１にお
いてどのように実施されるかを図示したソフトウェアの
ブロック図である。

【図１０】目標のアプリケーションがテキストを音声
に変換するエンジンのローカルバッファにどのようにロ
ードされるかを示す、テキストを音声に変換するエンジ
ンを図示した詳細に示したソフトウェアのブロック図で
ある。

【図１１】より詳細に、本発明のフォーマット又は走
査処理を図示したハイレベルなフローチャートである。

【符号の説明】

３０…ウィンドウズ、３２…ワードプロセッサの目標のアプリケーション、３４…オープンテキストウィンドウ、３６…転送バー、３８…コントロールパネル、４０…プリファレンスパネル、４２…辞書エディタパネル、４４…強調表示されたテキスト、４６…プレイボタン、４８…第２のウィンドウズ、５０…スプレッドシートの目標のアプリケーシュン、５２…オープンスプレッドシートウィンドウズ、５４，５６，５８…ユーザーの入力データ、６０，６２…スプレッドシートの結果、６４…ＬＥＤ記憶ボタン、６６…停止ボタン、７０…前進スキップボタン、７２…後退スキップボタン、７４…一時停止ボタン、７６…早送りボタン、７８…巻戻しボタン、８０…コントロールボタン、８２…焦点次元コントロール、８４…男女の性選択、８６…数値／テーブル変換コントロール、８８…早送り及び巻戻しのジャンプのサイズの決定領
域、９０…ボリュームレバー、９２…スピードレバー、９４…周波数レバー、９８…常時先頭ボタン、１００…テーブルモードボタン、１０２…ドルモードボタン、１０４…ゼロモードボタン、１０６…句、１０８…文、１１０…段落、１１２…プリファレンスボタン、１１４…音声の品質の範囲、１１６…周波数ボタン（ロー）、１１８…周波数ボタン（ハイ）、１２２…チェックボックス、１２４…領域（開始時）、１２６…リストボタン、１２８…領域（ディレクトリ）、１３０，１３２…テキストボックス、１３４…領域（ロード：１３６０Ｋｂ）、１３６，１３８，１４０…チェックボックス、１４２…オープン／新しい辞書ウィンドウ、１４４…単語編集ウィンドウ、１４６…音素編集ウィンドウ、１４８…母音選択ウィンドウ、１５０…辞書プルダウンバー、１５２…ファイルボタン、１５４…辞書の名前ウィンドウ、１５６…単語“melodrama（メロドラマ）”、１６６…スペリングボックス、１６８…音声プリファレンスボックス、１７０…音素ボックス、１７２，１７４，１７６，１７８…アクセントボタン、１９０…次の母音ボタン、２００…目標のアプリケーション、２０２…ＴＴＳエンジン、２０４…ＴＴＳコントローラ、２０６…ウィンドウズオペレーティングシステム（Ｏ
Ｓ）環境、２０８…ウィンドウズカーネル機能、２１０…ＴＴＳ・ＡＰＩ、２１２…エンジングルーモジュール、２１４…ＴＴＳエンジンローカルバッファ、２２０…ＴＴＳエンジンカーネル、２２６…設定データモジュール、２２８…数値ＤＤＬ、２３０…女性の声のＤＤＬ、２３２…男性の声のＤＤＬ、２５０…ＴＴＳＡＰＩカーネルＤＤＬ、２５２…転送コントロールプロセス、２５４…対話ボックスコントロールプロセス、２５６…辞書エディタプロセス、２６０…ＴＴＳエンジン、２６２…ＴＴＳエンジン出力ドライバ、２６４…ディジタル／アナログ変換回路、２６８…目標のアプリケーションデータ、２７０…クリップボード、２７２…ＴＴＳエンジンローカルバッファ。

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 3/16 G10L 13/00 G10L 13/04

Claims

(57)【特許請求の範囲】

【請求項１】独立した目標のアプリケーションの可視
表示におけるテキストのユーザーにより選択された部分
を、人間の言葉のように発音する音声出力に変換するテ
キストを音声に変換するシンセサイザであって、上記シ
ンセサイザは、上記独立した目標のアプリケーションの上記可視表示か
ら離れて表示される転送コントロールバーと、オンされたとき、上記テキストのユーザーにより選択さ
れた部分のコピーをメモリの予約されたセグメントに入
れる上記転送コントロールバー上に含まれる再生ボタン
と、上記テキストのユーザーにより選択された部分を上記メ
モリの予約されたセグメントから受信するテキスト記憶
バッファと、上記テキスト記憶バッファに含まれる上記テキストのユ
ーザーにより選択された部分を、人間の言葉のように発
音する音声出力に変換する、テキストを音声に変換する
エンジンとを備えたことを特徴とするシンセサイザ。
【請求項２】独立した目標のアプリケーションの可視
表示におけるテキストのユーザーにより選択された複数
の不連続の部分を、人間の言葉のように発音する音声出
力に変換するテキストを音声に変換するシンセサイザで
あって、上記シンセサイザは、上記独立した目標のアプリケーションの上記可視表示か
ら離れて表示される転送コントロールバーと、オンされたとき、上記テキストのユーザーにより選択さ
れた部分のコピーをメモリの予約されたセグメントに入
れる上記転送コントロールバー上に含まれる領域記憶ボ
タンと、メモリの上記予約されたセグメントにコピーされた上記
テキストのユーザーにより選択された複数の不連続の部
分の各々を連続して記憶する複数のテキスト記憶バッフ
ァと、起動されたとき、上記テキストのユーザーにより選択さ
れた複数の不連続な部分に含まれる上記テキストのユー
ザーにより選択された部分を、人間の話法のように音を
出す音声出力に変換するテキストを音声に変換するエン
ジンとを備えたことを特徴とするシンセサイザ。