JPH06214741A - テキスト−音声変換を制御するグラフィックスユーザインターフェイス - Google Patents

テキスト−音声変換を制御するグラフィックスユーザインターフェイス

Info

Publication number
JPH06214741A
JPH06214741A JP5288073A JP28807393A JPH06214741A JP H06214741 A JPH06214741 A JP H06214741A JP 5288073 A JP5288073 A JP 5288073A JP 28807393 A JP28807393 A JP 28807393A JP H06214741 A JPH06214741 A JP H06214741A
Authority
JP
Japan
Prior art keywords
text
speech
controller
command
user interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5288073A
Other languages
English (en)
Inventor
Willis J Luther
ジェイ. ルター ウイリス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Information Systems Inc
Original Assignee
Canon Information Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Information Systems Inc filed Critical Canon Information Systems Inc
Publication of JPH06214741A publication Critical patent/JPH06214741A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computer And Data Communications (AREA)
  • Telephonic Communication Services (AREA)
  • Digital Computer Display Output (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 柔軟にテキストを編集して発声を制御して発
声するテキスト-音声変換を制御するグラフィックスユ
ーザインターフェイスを提供する。 【構成】テキストのテキスト-スピーチ変換器への供給
方法を制御するシステムである。テキストはテキストバ
ッファからテキスト-スピーチ変換器に供給され、オペ
レータコマンドによる制御は語または文の境界等のテキ
スト境界で実行される。オペレータコマンドは、ファイ
ル内テキストを前進させるコマンドを含み、この場合、
例えば、次の語、次の文、次のパラグラフ等の選択可能
な粒状度レベルで、テキストはテキスト-スピーチ変換
器に送られる。また、テキストファイルを早く進ませる
こともできる。この場合、テキストセグメントのサンプ
リング、例えば、20語のうちの3語が、テキスト-ス
ピーチ変換器に送られる。テキストセグメントは反復可
能であり、またテキストセグメントを検索することもで
きる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、テキスト-スピーチ変
換器のために使用されるテキストを制御するための方法
と装置に関し、特に、語(ワード)または文の終りのよ
うなテキストの境界で実行されるユーザの命令に基づい
て、テキストがテキスト-スピーチ変換器に制御可能な
ように供給されるシステムに関するものである。
【0002】
【従来技術】直接的なテキストー音声変換技術の利用が
増加するにつれて、一つのテキストファイルまたはテキ
ストを含む任意のファイルを、一人のオペレータが、そ
のファイルに含まれるテキストを”話す”直接的テキス
ト-音声変換システムに供給することはますます広く行
われてきている。しかしながら従来技術によるシステム
では、テキスト-スピーチ変換器に与えられるテキスト
管理においては、非常に限られた制御しかできなかっ
た。一般的に、録音を制御するのに使用される単純な制
御だけが行われ、例えば、テキストファイルの発声を開
始させたり、またはファイルの音声を停止させるだけの
ものであった。
【0003】
【発明が解決しようとする課題】上述した従来方法によ
る制御は、録音にとっては十分であるが、テキスト-ス
ピーチ変換器に与えられるテキスト管理を制御するには
不十分である。特に、これらの制御は、しばしばテキス
トの任意の場所、例えばワードや文の途中から、テキス
トー音声変換を開始させたりまたは中止させたりさせる
ことが必要となる。
【0004】これはオペレータにとって、特に、テキス
トファイルを含む電子郵便ファイルを”スピーチ”出力
する時や、プレゼンテーション用の媒体を”スピーチ”
出力する場合のように、大量のテキストが含まれる場合
に必要となる。
【0005】本発明は上記従来例に鑑みてなされたもの
で、例えば、テキストの任意の場所から発声させたり、
繰り返し発声させたり等、柔軟にテキストを編集して発
声を制御することができるテキスト-スピーチ変換を制
御するグラフィックスユーザインターフェイスを提供す
ることを目的とする。
【0006】
【課題を解決する為の手段】テキストファイルを、テキ
ストバッファからテキスト-スピーチ変換器に供給する
供給手段と、テキスト境界で実行されるユーザコマンド
に基づいて、テキストファイルのテキストバッファへの
供給を制御する制御手段と、を備える。
【0007】
【実施例】本発明はその一態様において、テキスト-ス
ピーチ変換器に供給されるテキストを制御するシステム
を提供するものである。本発明のこの態様からすると、
テキスト-スピーチ制御器は、テキストバッファからテ
キスト-スピーチ変換器にテキストを制御可能なように
送る手段と、オペレータの命令に基づいてどの様にテキ
ストをテキスト-スピーチ変換器に供給するかを制御す
るコントローラとから構成されている。その命令は出さ
れたときに実行されるとは限らず、語や文の終りのテキ
スト境界で実行されることも多い。オペレータ命令は、
ファイルにあるテキストを前進する命令を含むこともで
きるが、この場合、例えば、次ワード、次文、または次
パラグラフ等の粒状度のある選択レベルで、テキストは
テキスト-スピーチ変換器に供給される。また、テキス
トファイルを高速に前進させることも可能である。この
場合、テキストのセグメントのサンプリング、例えば、
20ワードのうちから3ワードだけをテキスト-スピー
チ変換器に供給したりできる。テキストセグメントを繰
り返すことが可能であり、そして、テキストセグメント
を探すこともできる。
【0008】別の態様によれば、グラフィックユーザイ
ンターフェースが用意されていて、どの様にテキストを
テキスト-スピーチ変換器に供給するかを制御するため
のオペレータ命令を受け入れることが出来る。ここに述
べたグラフィカルユーザインターフェースは、普通の市
販のビデオカセットレコーダの制御に類似していて、例
えば、ファイルのロード制御、ファイルの先頭から音声
出力の開始、ファイルの巻戻し、ファイルからテキスト
セグメントの解析、テキストのファイルへの記録、早送
り、休止、停止、ファイルの取り出しの制御を備えてい
る。
【0009】オペレータによって、グラフィカルユーザ
インターフェイスを経由して、入力された命令は、テキ
ストの境界で実行される。例えば、停止命令は、テキス
トのテキスト-スピーチ変換器への供給を続けさせ、現
行の文の終りで停止させる。このグラフィカルユーザイ
ンタフェイスはまた、本発明の装置の現行の状態を示す
状態レジスタと、現在発音されているテキストと話し手
に似た個人の頭の絵を表示するテキストデイスプレイと
を備えることができる。更に、グラフィカルユーザイン
ターフェイスはオペレイターの選択に基づいて用意さ
れ、これによって、テキスト-スピーチのパラメータ、
例えば、ボリューム、速度、ピッチ、及び音声等を変え
ることができる。
【0010】本発明のテキストスピーチコントローラは
パーソナルコンピュータ上、例えば、IBMPCまたは
PC互換コンピュータ上に提供することができる。最も
便利なのは、テキスト-スピーチ変換器で発音されるテ
キストがテキストバッファにロードされ、そのバッファ
を示すポインタやインデックスが、どのテキストをテキ
スト-スピーチ変換器に供給すべきかを指示する。ポイ
ンタは、グラフィカルユーザインターフェイスコマンド
を経由してテキストバッファ内に制御可能なように設定
される。
【0011】図1は本発明による一実施例の装置の概略
ブロック図である。
【0012】図1において、10はIBM PCまたは
PC互換コンピューター等のパーソナルコンピュータを
示す。コンピュータ10は、80386プロセッサのよ
うなCPU11を備え、記憶されたプログラムの命令を
実行する。例えば、RAM12に記憶されたようなオペ
レータの選択によるアプリケーションプログラムとか、
ROM14に記憶されたスタート・アッププログラムな
どである。コンピュータ10はさらに局部エリアネット
ワークインデックスデバイス15を備える。これによっ
て、コンピュータ10は、電子メイルを送/受信する既
知の技術に基ずいて、リモートファイルサーバ上のファ
イルをアクセスするか、リモート印刷のためにファイル
を転送するか、ローカルエリアネットワークと交信する
ことができる。
【0013】コンピュータ10は更に、グラフィック像
をデイスプレイさせるモニター17と、オペレータの指
示や入力機能のためのキーボードやマウスを備える。
【0014】固定デイスクやフロッピーデイスクドライ
ブのような大容量記憶装置20はCPU11によってア
クセスできるよう接続される。大容量記憶装置20は、
ストアド・プログラム命令シーケンスを備える。例え
ば、本発明によるテキスト解析の為の命令シーケンス
や、ワード処理アプリケーションプログラム、光学式文
字認識プログラム、拡張シートアプリケーションプログ
ラム、及びその他の情報及びデータ処理プログラム等の
アプリケーションプログラムを含む。大容量記憶装置2
0はさらに、テキスト-スピーチ変換器によって話され
るテキスト ファイルと、ビットマップイメージや実行
可能なプログラムや制御シーケンスなどの発音できない
文字を含むテキストを含む任意のファイルを格納する。
その他のデータもオペレータが希望すれば大容量記憶装
置20に格納できる。
【0015】モデム21、ファクシミリインターフェイ
ス22、及び音声電話インターフェイス24が用意さ
れ、このためにCPU11は通常の電話線25とインタ
ーフェイス出来る。モデム21、ファクシミリインター
フェース22及び音声電話インターフェース24は、電
話線スイッチ26を経由して電話線25の利用が可能で
あり、このスイッチはCPU11の制御下で活性化さ
れ、電話線25は、電話線のデータに適合するモデム2
1とファクシミリ22と音声電話インターフェース24
のうちの一つに接続される。従って、CPU11はAS
CIIテキストファイルのような2進データをモデム2
1を経由して送受信できる。また、ファクシミリインタ
ーフェイス22を経由してファクシミリメッセージを送
受信できる。さらに、音声電話インターフェース24を
経由して普通の音声電話ラインで対話することができ
る。この点について、音声電話インターフェース24
は、電話キーパッドのオペレータによる押下げに対応す
る音声電話のトーンをデコードするDTMFデコーダが
備えられている。デコードされたトーンは、大容量記憶
装置20に格納されたプログラム命令に対応するオペレ
ータコマンドとして、CPU11によって解読される。
【0016】従来のテキスト-スピーチ変換器26はCP
U11に接続される。テキスト-スピーチ変換器26はそ
れに送られてきたテキストストリングを翻訳してテキス
トストリングを音声スピーチ情報に変換する。テキスト
-スピーチ変換器26は、音声スピーチ情報をサウンド
サブシステム/スピーカ27に供給して、ローカルなコ
ンピュータオペレータに対して発音させるか、または、
音声スピーチ情報を音声電話インターフェイス24に提
供して、通常の音声電話ラインを通じて、発音させる。
【0017】図2は、どの様にテキストが選択され、テ
キスト-スピーチ変換器に供給されるかを説明する機能
ブロック図である。図2において、テキストパーサ30
は入力バッファ31に格納されたテキストを構文解析
し、解析されたテキストと組み込みのスピーチコマンド
を出力バッファ32に格納する。組み込みスピーチコマ
ンドは、ボリューム、ピッチ、速度、音声などのような
テキスト-スピーチ変換パラメータを変化させるように
テキスト-スピーチ変換器26を動作させる。出力バッ
ファ32の構文解析されたテキストは、テキスト-スピ
ーチ変換器によって、上述した音声電話インターフェー
ス24またはスピーカ27を通して話される。
【0018】テキストパーサ30は、大容量記憶装置2
0に格納されたストアド・プログラム命令シーケンスに
一致してインプリメントされており、CPU11によっ
て実行される。適切なテキストパーサは、同じ発明者の
係属中出願の’テキスト-スピーチプロセッサ用テキス
トパーサ(Text Parser For Text-To-SpeechProcesso
r)’に記載されており、その内容は、ここで全て記載
した内容と同様である。標準的に、テキストスパーサ用
のストアドプログラム命令ステップはRAM12に格納
され、RAM12から読みだされて実行される。同様
に、入力バッファ31および出力バッファ32はRAM
12の別の領域に割り当てられている。
【0019】入力バッファ31に記憶され、テキストパ
ーサ30で構文解析されるテキストは、様々なテキスト
ソースから構成されているかもしれない。例えば、テキ
ストは、単語処理プログラムによって生成されるかもし
れない。その単語処理プログラムは、CPU11によっ
て実行され、大容量記憶装置にその結果の単語処理され
たファイルを格納する。テキストはまた、同様に単語処
理されたファイルから得られる。そのファイルは、ロー
カルエリアネットワーク16を介してファイルサーバか
らアクセスされる。或は、テキストは電子メールメッセ
ージからも得られる。この電子メールメッセージは、ロ
ーカルエリアネットワーク16を介して、ローカルエリ
アネットワーク内のユーザに送受信される。テキストフ
ァイルは、例えばASCIIのような2進フォーマット
でもよく、電話ライン25と電話ラインスイッチ26経
由でモデム21から得てもよい。このような2進データ
は、しばしばコンピュータ掲示板と結合され、ストアド
プログラム命令シーケンスをもつCPU11によってダ
ウンロードされる。
【0020】テキストファイルはまた、ファクシミリイ
ンターフェイス22を経由して電話ライン25から入力
されたファクシミリ文書の光学式文字認識処理によって
得られる。従来技術では、ファクシミリインターフェイ
ス22から入力したファクシミリのイメージは、ビット
マップイメージにCPU11で変換され、ビットマップ
イメージは、光学式文字認識処理が行われる。光学式文
字認識処理結果であるテキストファイルは、大容量記憶
装置20に格納され、そこから入力バッファ31へ送ら
れるか、または直接入力バッファ31へ送られる。
【0021】入力バッファ31のテキストは、制御的に
位置決め可能なポインタ34のポインタ値に対応してテ
キストパーサ30に供給される。ポインタ34のポイン
タ値は、ポインタコントローラ35によって制御され、
それはグラフィカルユーザインターフェイス36からの
コマンドまたはDTMFデコーダ24aからのコマンド
のようなオペレータコマンドを許容する。コマンドはテ
キストの境界で実行される。例えば、グラフィカルユー
ザインターフェイス36を介して、オペレータはテキス
ト-スピーチ変換プロセスを停止させるコマンドを発行
することができる。このコマンドによって、ポインタコ
ントローラ35は、ポインタ34が出力バッファ32内
のテキストの位置を継続して前進させ、次ぎのテキスト
境界、例えば文の終わりで停止させるように制御する。
グラフィカルユーザインターフェイス36と関連するポ
インタコントローラ35の詳細な動作を、図5aと図5
bのフロー図を参照して以下説明する。
【0022】図3および図4は、CPU11がモニター
17に表示するグラフィカルユーザインターフェイスを
示す図である。図3に示すように、グラフィカルユーザ
インターフェイスは制御パネル40を含み、これはデイ
スプレイエリア41とグラフィカルユーザインターフェ
イスエリア42を持つ。デイスプレイエリア41は、テ
キストを表示する領域であり、このテキストは、現在テ
キスト-スピーチ変換器26へ送られて、発音されてい
る。制御パネル42は、VCR型の制御パネルであり、
以下のものを備える、即ち、ロードボタン”LOA
D”、再開ボタン”|<”、巻戻しボタン”<<”、プ
レイ/パースボタン”>”、レコードボタン”0”、早
送りボタン”>>”、パースボタン”ll”、停止ボタ
ン”[]”、アンロードボタン”UNLOAD”、繰り
返しボタン”REPEAT”、ステータスレジスタ4
4、自動/ステップ・トグルセレクタ45、そして選択
用の別のメニュー供給するオプションボタン46であ
る。
【0023】エリア42のボタンの各々は、キーボード
/マウス19を介してオペレータの入力によって選択可
能である。好ましくは、別個のマウスを用意した方がよ
く、これによって、ユーザは、グラフィカルユーザイン
ターフェイスにおける一つのエリアに狙いをつけて、マ
ウスをクリックし目標のボタンを選ぶことができる。
【0024】グラフィカルユーザインターフェイスは、
さらに話すヘッドエリア47を持ち、この中でアニメ化
された人の姿は、テキストを発声しているスピーカのま
ねを行う。ここで、そのテキストは、エリア41に表示
され、また、テキスト-スピーチ変換器26によって発
声されている。
【0025】図4は、オプションボタン46(図3)が
押されたときにモニタに表示されるグラフィカルユーザ
インターフェイス50を示している。図4に示すよう
に、このグラフィカルユーザインターフェイスは、エリ
ア51を含み、これは男性または女性の話す顔を選択で
きるようになっていて、これによって話す顔をセレクタ
52(”ANIMATED PICTURE”)を介し
て表示するかしないかを決めることができる。エリア5
1は、また別のオプション54を含み、これによって、
エリア41で表示したテキストが発音中にハイライト表
示、例えば、下線を引くとか、パッと発光させてること
ができる。
【0026】グラフィカルユーザインターフェイス50
はまた、エリア55を含み、これによって、テキストか
ら音声への変換パラメータを選択することができる。こ
のパラメータは、ボリューム、ピッチ、速度、そして、
エリア51の仲介とする音声を含む。またオペレータ
は、未知の単語、即ちスペリング用辞書と一致しない単
語を一字一字読み取るか発音させるかを選択することが
できる。
【0027】図5aと図5bは本実施例の動作を示す詳
細なフロー図である。図5aと図5bに示すプロセスの
ステップは、プログラムインストラクションシーケンス
として大容量記憶装置20に格納され、CPU11によ
って実行される。
【0028】ステップS501において、入力テキスト
ファイルが得られて入力バッファ31にロードされる。
前述のように、入力テキストファイルは種々なソース、
例えば、ワード処理テキストスピーチコントローラ, DO
Sテキストファイル, 電子メールなどから得られる。
【0029】ステップS502において、ポインタ34
は入力バッファ31の先頭を指すように設定され、そし
てテキストや、ポインタ34が指す入力バッファ31内
の組み込みコマンドは、テキストパーサ30によって解
析される。これについては、前述した係属中出願の”テ
キスト-スピーチプロセッサ用テキストパーサ (TextPa
rserFor Text-To-Speech Processor)”(ステップS5
03)でさらに詳細に述べられている。組み込みスピー
チコマンドと共に、解析されたテキストは、出力バッフ
ァ32に格納され、そこからテキストや組み込みコマン
ドが、スピーカ27や電話インターフェース24を介し
て発音させるために、テキスト-スピーチ変換器26に
送られる。同時に、テキストがグラフィカルユーザイン
ターフェイ36に送られ、エリア41で表示される。ま
た、コントローラ35がテキスト境界を検出するよう
に、ポインタコントローラ35へもそのテキストが送ら
れる。
【0030】ステップS504では、オペレータコマン
ド、即ちここではグラフィカルユーザインターフェイコ
マンドがオペレータによって発行されたかどうかを調べ
る。もし、グラフィカルユーザインターフェイスコマン
ドをまだ入力していなければ、ステップS505に進
み、ここでテキストは発音される。それから、ステップ
S506に進み、ポインタコントローラ35はポインタ
34のポインタ値を増加させる。ポインタ34のポイン
タ値は、自動/ステップトグル45に対応して増加し、
自動モードが選ばれるとポインタは連続的に文から文に
進み、連続的にスピーチを行う。一方、もし自動/ステ
ップトグル45がステップモードにセットされると、
ポインタコントローラ35は、各文の後でポインタ34を
停止させる。ポインタコントローラ35は、グラフィカ
ルユーザインターフェイスからプレイ/解析コマン
ド(”>”、ステップS516参照)を受信後にポイン
タ34を進める。
【0031】ステップS507において、状態レジスタ
44は、装置の現在の状態を基にして更新される。これ
によってたとえば、CPU11は状態レジスタ44に、
次ぎのような表示をさせる、即ち、"LOADED(ロード完
了)", "PLAYING(プレイ中)", "RECORDING(レコーデイン
グ中)","REWINDING(巻戻し中)", "FAST FORWARDING(早
送り中)", "PAUSED(休止)", "STOPPED(停止)", "UNLOAD
ED(未ロード)", これらは全て装置の現在の状態と一致
する。
【0032】フローは、その後ステップS503に戻
り、ポインタ34は自動的に入力バッファ31のテキス
トを前進する。そして、そのテキストはパーサ30によ
って解析され、それからテキスト-スピーチ変換器26
によって発音される。これらの処理は、グラフィカルユ
ーザインターフェイスコマンドが受信されるまで継続さ
れる。
【0033】ステップS504では、オペレータのコマ
ンドを受信したならば、フローはコマンドの種類を調べ
るために分岐する。
【0034】もし、オペレータが ”LOAD”グラフ
ィカルユーザインターフェイスコマンド(ステップS5
08)を入力すると、フローはステップS509に進
み、そこで、CPU11は新しいファイルネームを要求
し、オペレータが新しいファイルネームを選択するため
に援助を行い、新しいファイルを入力バッフア31にロ
ードし、そしてファイルを解析し、出力バッファ32に
送る。それから、ステップS501に戻る。
【0035】もし、オペレータが ”UNLOAD”グ
ラフィカルユーザインターフェイスコマンド(ステップ
S510)を入力すると、フローはステップS511に
進み、現在のファイルは閉じられる。
【0036】もし、オペレータが、”l<”グラフィカ
ルユーザインターフェイコマンド(ステップS512)
を選択すると、フローはステップS513に進み、ポイ
ンタは、出力バッファ32の先頭を再度指すように設定
される。これによって、出力バッファ32のテキストの
発声を再開する。そして、フローはステップS503に
戻り、入力バッファ31のテキストが解析され、再設定
されたポインタから発音される。
【0037】もし、オペレータが、”<<”グラフィカ
ルユーザインターフェースコマンド(ステップS51
4)を選ぶと、フローはステップS515に進み、ポイ
ンタ34は、入力バッファ31においてテキストの後ろ
に再設定される。もし必要ならば、このポインタ再設定
は、後方キューイングによって実行可能である。この後
方キューイングによって、テキスト境界上でテキストの
サンプル、例えば、20語から3語が抽出され、そし
て、それを発音させるためにテキスト-スピーチ変換器
26に送信される。この長所によって、オペレータは、
入力バッファ31のテキスト上をポインタ34が後進す
るところをモニタすることが出来る。CPU11は、”
<<”コマンドがもはや選択されないと判定すると、ス
テップS503に戻る。そこで、テキストは解析され、
変更されたポインタから発音を開始する。
【0038】もし、オペレータが”>”グラフィカルユ
ーザインターフェースコマンド(ステップS516)を
選ぶと、ステップS517に進み、ポインタ34は入力
バッファ31のテキスト上を前進する。ポインタは、テ
キスト境界を前進し、そして、例えば、もし、自動/ス
テップトグル45がステップモードにセットされると、
このコマンドの選択は、入力バッファ上のポインタ34
の移動を再開させる。もし、自動/ステップトグル45
が自動モードにセットされると、このコマンドの選択は
プレイボタンと同様の実行を行い、テキストはテキスト
-スピーチ変換器26に連続的に送られる。そして、ス
テップS503に戻る。
【0039】もし、オペレータが ”0”グラフィカル
ユーザインターフェースコマンド(ステップS518)
を選ぶと、フローはステップS519に進み、音声が記
録される。音声記録は二つの形態を持つ。第1の形態で
は、テキスト(例えば、テキストクリップボード)は単
純に現行のテキストファイルにコピーされる。第2の形
態では、スピーチや音楽のようなデイジタル化サウンド
に対応する波形ファイルは、一つの波形ファイルに記録
される。特に、テキスト-スピーチ変換器26によっ
て、生成された波形ファイルを記録することができる。
このような波形ファイルは、テキスト-スピーチ変換器
を持たないシステムに有効である。そして、ステップS
503に戻る。
【0040】もし、オペレータが、”>>”グラフィカ
ルユーザインターフェースコマンド(ステップS52
0)を選ぶと、ステップS520に進み、それからステ
ップS521に進む。ここでは、入力バッファ31のテ
キストを早送りする。特に、ポインタコントローラ35
はポインタ34を制御し、これによってテキストファイ
ル上を高速に移動させる。もし、必要ならば、ポインタ
コントローラ35は、ポインタ34を動作させて、テキ
スト境界の入力バッファ31にあるテキストのサンプリ
ングをする。例えば、20語から3語をサンプリングさ
せ、それらテキストサンプルを抽出させ、テキスト-ス
ピーチ変換器26を介して発声させる。CPU11
は、”>>”コマンドがもはや選択されないと判定する
と、ステップS503に戻り、変更したポインタ位置か
らテキスト-スピーチ処理を継続する。
【0041】もし、オペレータが、”||”グラフェカ
ルユーザインターフェースコマンド(ステップS52
2)を選ぶと、ステップS522に進み、ポインタコン
トローラ35は次ぎのテキスト境界、例えば、現在の文
の終りでポインタ35を休止させる。”ll”ボタンを
2度目に動作させると、CPU11は、ポインタコント
ローラ35がポインタ34の自動的前進を再開させ、ス
テップS503に戻る。
【0042】もし、オペレータが”[]”グラフィカル
ユーザインターフェイスコマンド(ステップS524)
を選ぶと、ステップS525に進み、ポインタコントロ
ーラ35は次ぎのテキストの境界、例えば現行の文また
はワードの終りでポインタ34を停止させる。もし、必
要ならば、ポインタはテキストファイルの先頭に再設定
されるか、または現在の設定を保持して、”>”グラフ
ィカルユーザインターフェースコマンドの駆動によっ
て、テキスト-スピーチ処理を再開する。そして、ステ
ップS503に戻る。
【0043】もし、オペレータが、”REPEAT”グラフィ
カルユーザインターフェースコマンド(ステップS52
6)を選ぶと、ステップS527に進み、ポインタコン
トローラ35は、前文の先頭にポインタ34を再設定
し、その文を繰り返させる。そして、ステップS503
に戻り、テキスト-スピーチ処理を変更したポインタ位
置から再開させる。
【0044】もし、オペレータが、自動/ステップトグ
ルグラフィカルユーザインターフェースコマンド(ステ
ップS528)を選ぶとステップS529に進み、自動
/ステップトグル45はオペレータの選択に基ずいて変
更される。そして、ステップS503に戻る。
【0045】もし、オペレータが、”SEARCH”グラフィ
カルユーザインターフェースコマンド(ステップS53
0)を選ぶと、ステップS531に進み、CPU11は
テキストを前方後方にスキャンして、最初の目標テキス
トストリングを検索する。それから、ポインタコントロ
ーラ35は、ポインタ34を検索された位置に変更さ
せ、ステップS503に戻る。そこでは、変更したポイ
ンタ位置からテキスト-スピーチ処理を再開する。
【0046】もし、オペレータが ”MARK”グラフ
ィカルユーザインターフェースコマンド(ステップS5
32)を選ぶと、ステップS533に進み、現在のポイ
ンタ位置のテキストにはマークが付けられる。これによ
って、将来、マークされたテキスト位置に戻ることがで
きる。そして、ステップS503に戻り、現在のポイン
タ位置からテキスト-スピーチ処理を継続する。
【0047】前述のフロー図は、グラフィカルユーザイ
ンターフェイスを介して受信したオペレータコマンドに
関連して説明している。オペレータコマンドは、また他
のオペレータ入力、例えば、キーボード19から直接的
に、或は遠隔のオペレータからDTMFデコーダ24a
及び音声電話インターフェース24を介して受信するこ
ともできる。より正確に言うと、遠離のオペレータは、
普通の音声電話線を介して本発明のテキストコントロー
ラにアクセス可能であり、また、テキスト-スピーチ変
換器26に、オペレータが識別可能なファイルを音声電話
インターフェース24を通して発音するように要求でき
る。この状況で、オペレータコマンドは、例えば、音声
電話ラインから受信され、音声認識、またはより従来的
な方法では、タッチ電話キーパッド上でボタンを操作す
ることで受信される。タッチ電話キーパッドによって発
生されたトーンは、DTMFデコーダ24aによってデ
コードされてCPU11に送られ、そこでコマンドは図
5aと図5bのフロー図に従って解読される。
【0048】
【発明の効果】以上説明したように本発明によれば、例
えば、テキストの任意の場所から発声させたり、繰り返
し発声させたり等、柔軟にテキストを編集して発声を制
御することができる。
【図面の簡単な説明】
【図1】図1は本発明の実施例を示すブロック図であ
る。
【図2】図2は、どの様にしてテキストがテキスト-ス
ピーチ変換器に供給されるかを説明する機能ブロック図
である。
【図3】本実施例のグラフィカルユーザインターフェイ
スの詳細な一例を示す図である。
【図4】本実施例のグラフィカルユーザインターフェイ
スの詳細な一例を示す図である。
【図5a】本実施例のテキスト制御説明するためのフロ
ー図である。
【図5b】本実施例のテキスト制御説明するためのフロ
ー図である。
【符号の説明】
11 CPU 12 RAM 14 ROM 17 モニタ 19 キーボード/マウス 20 大容量記憶装置 26 テキスト-スピーチ変換器 27 スピーカ 30 テキスト パーサ 31 入力バッファ 32 出力バッファ 36 グラフィカルユーザインターフェース

Claims (72)

    【特許請求の範囲】
  1. 【請求項1】 テキストファイルを、テキストバッファ
    からテキスト-スピーチ変換器に供給する供給手段と、 テキスト境界で実行されるユーザコマンドに基づいて、
    テキストファイルのテキストバッファへの供給を制御す
    る制御手段と、を備えることを特徴とするテキスト-ス
    ピーチコントローラ。
  2. 【請求項2】 テキストバッファからテキストースピー
    チ変換器に、テキストを供給する仕方を変更する入力オ
    ペレータコマンドを入力するグラフィカルユーザインタ
    ーフェイスを、更に備えることを特徴とする請求項1に
    記載のテキスト-スピーチコントローラ。
  3. 【請求項3】 前記グラフィカルユーザインターフェイ
    スは、テキスト-スピーチ変換をモニタするモニタ手段
    を、備えることを特徴とする請求項2に記載のテキスト
    -スピーチコントローラ。
  4. 【請求項4】 前記モニタ手段は、前記コントローラの
    現在の状態を表示する状態レジスタデイスプレイと、現
    在テキスト-スピーチ変換処理中のテキストを表示する
    テキストデイスプレイと、を備えることを特徴とする請
    求項3に記載のテキスト-スピーチコントローラ。
  5. 【請求項5】 DTMFデコーダを備える音声電話イン
    ターフェースをさらに備え、 オペレータコマンドは前記DTMFデコーダを介して受
    信される、ことを特徴とする請求項1に記載のテキスト
    -スピーチコントローラ。
  6. 【請求項6】 前記テキスト-スピーチ変換器は、音声
    電話インターフェースを介してテキストを発声する、こ
    とを特徴とする請求項5に記載のテキスト-スピーチコ
    ントローラ。
  7. 【請求項7】 遠隔のテキストファイルにアクセスする
    インターフェース手段を備え、 前記遠隔のテキストファイルからのファイルは、前記テ
    キストバッファに格納される、ことを特徴とする請求項
    1に記載のテキスト-スピーチコントローラ。
  8. 【請求項8】 前記遠隔のテキストファイルからテキス
    トを解析して、テキストバッファに格納する解析手段
    を、更に備えることを特徴とする請求項7に記載のテキ
    スト-スピーチコントローラ。
  9. 【請求項9】 テキスト-スピーチ変換パラメータを変
    更するパラメータコマンドを受信するパラメータコマン
    ド受信手段を、さらに備えることを特徴とする請求項1
    に記載のテキストースピーチコントローラ。
  10. 【請求項10】 前記パラメータコマンド受信手段は、
    グラフィカルユーザインターフェイスによって供給され
    る、ことを特徴とする請求項9に記載のテキスト-スピ
    ーチコントローラ。
  11. 【請求項11】 テキストファイルを格納するテキスト
    バッファと、 前記テキストバッファからテキスト-スピーチ変換器に
    テキストを供給するコントローラと、 前記コントローラがテキストをテキストースピーチ変換
    器に供給する方法を変更する入力コマンドを受信するグ
    ラフィカルユーザインターフェイスを備えるコマンド手
    段と、を備えるテキスト-スピーチコントローラであっ
    て、 前記コントローラは、前記コマンド手段からのコマンド
    がなくても、順にテキストを、前記テキストバッファか
    ら前記テキスト-スピーチ変換器に供給し、 前記コントローラは、前記コマンド手段からのコマンド
    に応答して、テキストのテキストースピーチ変換器への
    供給方法を変更する、ことを特徴とするテキスト-スピ
    ーチコントローラ。
  12. 【請求項12】 前記コントローラは、テキスト境界で
    テキスト制御を実行する、ことを特徴とする請求項11
    に記載のテキスト-スピーチコントローラ。
  13. 【請求項13】 前記コントローラは、語の境界でテキ
    スト制御を実行する、ことを特徴とする請求項12に記
    載のテキスト-スピーチコントローラ。
  14. 【請求項14】 前記コントローラは、文の境界でテキ
    スト制御を実行する、ことを特徴とする請求項12に記
    載のテキスト-スピーチコントローラ。
  15. 【請求項15】 前記グラフィカルユーザインターフェ
    イスは、前記テキストバッファ内のテキストを前進させ
    る前進コマンドを備え、前記コントローラは、テキスト
    境界で前記前進コマンドを実行する、ことを特徴とする
    請求項11に記載のテキスト-スピーチコントローラ。
  16. 【請求項16】 前記前進コマンドは、高速前進コマン
    ドであり、 テキストのサンプルは、テキスト境界で抽出され、抽出
    されたテキストは前記テキスト-スピーチ変換器に供給
    される、ことを特徴とする請求項15に記載のテキスト
    -スピーチコントローラ。
  17. 【請求項17】 前記グラフィカルユーザインターフェ
    イスは、テキストセグメントを繰り返すコマンドを備
    え、 前記コントローラは、テキスト境界で始まるテキストセ
    グメントを繰り返す、ことを特徴とする請求項11に記
    載のテキストースピーチコントローラ。
  18. 【請求項18】 前記グラフィカルユーザインターフェ
    イスは、テキストをテキストースピーチ変換器に供給す
    ることを停止するコマンドを備え、 前記コントローラ
    は、テキスト境界で停止する、ことを特徴とする請求項
    11に記載のテキスト-スピーチコントローラ。
  19. 【請求項19】 前記グラフィカルユーザインターフェ
    イスは、指定可能なテキストストリングを探すコマンド
    を備え、 前記コントローラは、前記テキストバッファのテキスト
    内で、前記指定可能なテキストストリングを探し、 テキストを、前記テキストバッファから、前記指定可能
    なテキストストリングの検出によって開始する前記テキ
    スト-スピーチ変換器に対して供給を始める、ことを特
    徴とする請求項11に記載のテキスト-スピーチコント
    ローラ。
  20. 【請求項20】 前記グラフィカルユーザインターフェ
    イスは状態レジスタを表示する手段を、備えることを特
    徴とする請求項11に記載のテキスト-スピーチコント
    ローラ。
  21. 【請求項21】 前記グラフィカルユーザインターフェ
    イスは、前記テキスト-スピーチ変換器に供給されるテ
    キストを表示するためのテキストデイスプレイを備え
    る、ことを特徴とする請求項11に記載のテキスト-ス
    ピーチコントローラ。
  22. 【請求項22】 前記グラフィカルユーザインターフェ
    イスは、前記テキストースピーチ変換器に供給されるテ
    キストの発音を真似して話す顔を備える、ことを特徴と
    する請求項11に記載のテキスト-スピーチコントロー
    ラ。
  23. 【請求項23】 前記グラフィカルユーザインターフェ
    イスは、前記テキスト-スピーチ変換パラメータを変化
    させる手段を、備えることを特徴とする請求項11に記
    載のテキスト-スピーチコントローラ。
  24. 【請求項24】 前記コントローラは、少なくとも2個
    の選択可能なモードのうちの一つに対応して、前記テキ
    ストバッファ内のテキストを自動的に前進し、前記第1
    のモードでは、前記コントローラは継続的にテキスト中
    を前進し、前記第2のモードでは、前記コントローラ
    は、前記グラフィカルユーザインターフェイスから、マ
    ニュアルモードに基づいて、前記テキストバッファ内の
    テキストをステップする、ことを特徴とする請求項11
    に記載のテキスト-スピーチコントローラ。
  25. 【請求項25】 前記第2のモードにおいて、選択可能
    な粒状度レベルはグラフィカルユーザインターフェイス
    を介して指定できる、ことを特徴とする請求項24に記
    載のテキスト-スピーチコントローラ。
  26. 【請求項26】 前記選択可能な粒状度レベルは、文、
    語、パラグラフを、備えることを特徴とする請求項25
    に記載のテキスト-スピーチコントローラ。
  27. 【請求項27】 前記コントローラは、前記テキストバ
    ッファ内のテキストをポイントするためのポインタを備
    え、 前記コントローラは、前記コマンド手段からの入力コマ
    ンドに従って、前記ポインタの位置を制御する、こと特
    徴とする請求項11に記載のテキスト-スピーチコント
    ローラ。
  28. 【請求項28】 前記コントローラは、前記コマンド手
    段からの入力コマンドに従って、前記ポインタを自動的
    に進ませ、前記ポインタの位置を変更する、ことを特徴
    とする請求項27に記載のテキスト-スピーチコントロ
    ーラ。
  29. 【請求項29】 前記テキスト-スピーチ変換器によっ
    て生成されたスピーチを受信し、生成されたスピーチを
    音声電話ラインに送る音声電話インターフェイスを、さ
    らに備えることを特徴とする請求項11に記載のテキス
    ト-スピーチコントローラ。
  30. 【請求項30】 前記音声電話インターフェイスは、D
    TMFコマンドを解読するためのDTMFデコーダを備
    え、 前記コントローラは、前記テキスト-スピーチ変換器へ
    のテキスト供給方法の変更を行うDYMFコマンドに応
    答する、ことを特徴とする請求項29に記載のテキスト
    -スピーチコントローラ。
  31. 【請求項31】 遠隔のファイルをアクセスするインタ
    ーフェイス 手段を、さらに備えることを特徴とする請
    求項11に記載のテキスト-スピーチコントローラ。
  32. 【請求項32】 前記テキストバッファのテキストを解
    析するパーサを、さらに備えることを特徴とする請求項
    31に記載のテキスト-スピーチコントローラ。
  33. 【請求項33】 テキスト文字を含むファイルを格納す
    る入力バッファと、 テキストと組み込みスピーチコマンドを格納する出力バ
    ッファと、 前記入力ファイルのテキストを解析し、解析されたテキ
    ストと組み込みスピーチコマンドを前記出力バッファに
    格納するテキストパーサと、 前記出力バッファのテキストをスピーチに変換し、前記
    テキスト内の組み込みスピーチコマンドに応答するテキ
    スト-スピーチ変換器と、 入力コマンドを受け取るグラフィカルユーザインターフ
    ェイスを備えるコマンド手段と、 前記ポインタの指すテキストを、前記テキスト-スピー
    チ変換器に供給するための前記入力バッファのテキスト
    へのポインタを備えるコントローラと、を備え、 前記コントローラは、入力コマンドがなくても、前記ポ
    インタ位置を自動的に進ませ、 前記コントローラは、入力コマンドに応答して、前記ポ
    インタ位置を変更させる、ことを特徴とするテキスト-
    スピーチプロセッサ。
  34. 【請求項34】 前記コントローラは、テキスト境界で
    テキスト制御を実行する、ことを特徴とする請求項33
    に記載のテキスト-スピーチプロセッサ。
  35. 【請求項35】 前記コントローラは、語の境界で、テ
    キスト制御を実行する、ことを特徴とする請求項34に
    記載のテキスト-スピーチプロセッサ。
  36. 【請求項36】 前記コントローラは、文の境界で、テ
    キスト制御を実行する、ことを特徴とする請求項34に
    記載のテキスト-スピーチプロセッサ。
  37. 【請求項37】 前記コントローラは、グラフィカルユ
    ーザインターフェイスを、備えることを特徴とする請求
    項33に記載のテキスト-スピーチプロセッサ。
  38. 【請求項38】 前記グラフィカルユーザインターフェ
    イスは、前記テキストバッファ内のテキストを前進させ
    る前進コマンドを備え、 前記コントローラは、前記ポインタ位置を変え、テキス
    ト境界で、前記前進コマンドを実行する、ことを特徴と
    する請求項37に記載のテキスト-スピーチプロセッ
    サ。
  39. 【請求項39】 前記前進コマンドは、高速前進コマン
    ドであり、その中でテキストサンプルはテキスト境界で
    抽出され、抽出されたテキストはテキスト-スピーチ変
    換器に供給される、ことを特徴とする請求項38に記載
    のテキスト-スピーチプロセッサ。
  40. 【請求項40】 前記グラフィカルユーザインターフェ
    イスは、テキストセグメントを繰り返すコマンドを備
    え、 前記コントローラは、前記ポインタ位置を変更し、テキ
    スト境界の先頭から始まるテキストセグメントを繰り返
    すこと、を特徴とする請求項37に記載のテキスト-ス
    ピーチプロセッサ。
  41. 【請求項41】 前記グラフィカルユーザインターフェ
    イスは、前記テキスト-スピーチ変換器にテキストを送
    ることを停止するコマンドを備え、 前記コントローラ
    は、前記ポインタをテキスト境界で停止させる、ことを
    特徴とする請求項37に記載のテキスト-スピーチプロ
    セッサ。
  42. 【請求項42】 前記グラフィカルユーザインターフェ
    イスは、指定可能なテキストストリングを探すコマンド
    を備え、 前記コントローラは、前記テキストバッファのテキスト
    内で指定可能なテキストストリングを探し、指名可能な
    テキストストリングの検出によってテキストを前記テキ
    ストバッファから前記テキスト-スピーチ変換器に供給
    することを開始する、ことを特徴とする請求項37に記
    載のテキスト-スピーチプロセッサ。
  43. 【請求項43】 前記グラフィカルユーザインターフェ
    イスは、状態レジスタを表示する手段を、備えることを
    特徴とする請求項37に記載のテキスト-スピーチプロ
    セッサ。
  44. 【請求項44】 前記グラフィカルユーザインターフェ
    イスは、前記テキスト-スピーチ変換器に供給されるテ
    キストを表示するテキストデイスプレイを、備えること
    を特徴とする請求項37に記載のテキスト-スピーチプ
    ロセッサ。
  45. 【請求項45】 前記グラフィカルユーザインターフェ
    イスは、テキスト-スピーチ変換パラメータを、備える
    ことを特徴とする請求項37に記載のテキスト-スピー
    チプロセッサ。
  46. 【請求項46】 前記グラフィカルユーザインターフェ
    イスは、テキスト-スピーチ変換パラメータを変化させ
    る手段を、備えることを特徴とする請求項37に記載の
    テキスト-スピーチプロセッサ。
  47. 【請求項47】 前記コントローラは、少なくとも2個
    の選択可能なモードのうちの一つに対応して、前記テキ
    ストバッファ内のテキストを自動的に前進し、 第1のモードでは、前記コントローラは継続的にテキス
    ト中を前進し、 第2のモードでは、前記コントローラはマニュアル入力
    オペレータコマンドに基ずいて、テキストバッファ内の
    テキストをステップする、ことを特徴とする請求項33
    に記載のテキスト-スピーチプロセッサ。
  48. 【請求項48】 前記2番目のモードは、選択可能な粒
    状度レベルが指定できることを特徴とする請求項47に
    記載のテキスト-スピーチプロセッサ。
  49. 【請求項49】 前記選択可能な粒状度レベルは、文、
    語、パラグラフを備える、ことを特徴とする請求項48
    に記載のテキスト-スピーチプロセッサ。
  50. 【請求項50】 ストアドプログラムとプロセスステッ
    プを実行するコンピュータを含む処理ユニットと、 オペレータがコマンドを発行できるコマンド手段と、 テキストを含む少なくとも幾つかのファイルを含む複数
    ファイルを格納し、前記処理ユニットによって実行され
    るプロセスステップを格納するメモリと、 テキストをスピーチに変換し、スピーチコマンドを実行
    するテキスト-スピーチ変換器を備え、 前記プロセスステップは、前記メモリに格納されたファ
    イルのうち一つを選択し、 前記選択されたファイルから前記テキスト-スピーチ変
    換器へ、テキストを供給し、 前記コマンド手段からのオペレータコマンドに対応し
    て、テキストの前記テキスト-スピーチ変換器への供給
    方法を変更する、ステップを備え、 前記選択されたファイル内のテキストは、オペレータが
    制御可能な順序でスピーチに変換される、ことを特徴と
    するテキスト-スピーチ処理装置。
  51. 【請求項51】 遠隔のテキストファイルにアクセスす
    るインターフェイス手段と、 前記プロセスステップは、前記遠隔のファイルのテキス
    トを解析し、その解析されたテキストを格納するプロセ
    スステップと、をさらに備えることを特徴とする請求項
    50に記載のテキスト-スピーチ処理装置。
  52. 【請求項52】 前記インターフェース手段は、ローカ
    ルネットワークのファイルにアクセスするLANインタ
    ーフェイスを、備えることを特徴とする請求項51に記
    載のテキスト-スピーチ処理装置。
  53. 【請求項53】 前記インターフェース手段は、音声電
    話ラインで変調された2進データファイルをダーウンロ
    ードするモデムを備えることを特徴とする請求項51に
    記載のテキスト-スピーチ処理装置。
  54. 【請求項54】 前記インターフェース手段は、ファク
    シミリインターフェイスを備え、 前記プロセスステップは、受信したファクシミリに対し
    て光学式文字認識を行い、その結果として得られたテキ
    ストを前記記憶装置のファイルに記憶するステップを、
    さらに備えることを特徴とする請求項51に記載のテキ
    スト-スピーチ処理装置。
  55. 【請求項55】 前記コントローラは、テキスト境界で
    テキスト制御を実行する、ことを特徴とする請求項50
    に記載のテキスト-スピーチ処理装置。
  56. 【請求項56】 前記コントローラは、語境界で、テキ
    スト制御を実行する、ことを特徴とする請求項55に記
    載のテキスト-スピーチ処理装置。
  57. 【請求項57】 前記コントローラは、文の境界でテキ
    スト制御を実行する、ことを特徴とする請求項55に記
    載のテキスト-スピーチ処理装置。
  58. 【請求項58】 グラフィカルユーザインターフェイス
    を表示するモニタと、 前記グラフィカルユーザインターフェイスは、前記コマ
    ンド手段を備え、 前記プロセスステップは、グラフィカルユーザインター
    フェイス表示を生成するステップを備える、ことを特徴
    とする請求項50に記載のテキスト-スピーチ処理装
    置。
  59. 【請求項59】 前記グラフィカルユーザインターフェ
    イスは、前記テキストバッファのテキストを前進させる
    前進コマンドを備え、 前記処理ユニットは、前記前進コマンドをテキスト境界
    で実行させる、ことを特徴とする請求項58に記載のテ
    キスト-スピーチ処理装置。
  60. 【請求項60】 前記前進コマンドは、高速前進コマン
    ドであり、 テキストのサンプルは、テキスト境界で抽出され、その
    抽出されたテキストは前記テキスト-スピーチ変換器に
    供給される、ことを特徴とする請求項59に記載のテキ
    スト-スピーチ処理装置。
  61. 【請求項61】 前記グラフィカルユーザインターフェ
    イスは、テキストセグメントを繰り返すコマンドを備
    え、 前記処理ユニットは、テキスト境界で始まるテキストセ
    グメントを繰り返す、ことを特徴とする請求項58に記
    載のテキスト-スピーチ処理装置。
  62. 【請求項62】 前記グラフィカルユーザインターフェ
    イスは、テキスト-スピーチ変換器にテキストを供給す
    ることを停止するコマンドを備え、 前記処理ユニットは、テキスト境界で停止する、ことを
    特徴とする請求項58に記載のテキスト-スピーチ処理
    装置。
  63. 【請求項63】 前記グラフィカルユーザインターフェ
    イスは、指定可能なテキストストリングを探すコマンド
    を備え、 前記処理ユニットは、前記テキストバッファのテキスト
    内で前記指定可能なテキストストリングを探し、指定可
    能なテキストストリングが探索されれば、テキストのテ
    キスト-スピーチ変換器への供給を開始する、ことを特
    徴とする請求項58に記載のテキスト-スピーチ処理装
    置。
  64. 【請求項64】 前記グラフィカルユーザインターフェ
    イスは、状態レジスタを表示する手段を、備えることを
    特徴とする請求項58に記載のテキスト-スピーチ処理
    装置。
  65. 【請求項65】 前記グラフィカルユーザインターフェ
    イスは、テキスト-スピーチ変換器に供給されているテ
    キストを表示するテキストデイスプレイを、備えること
    を特徴とする請求項58に記載のテキスト-スピーチ処
    理装置。
  66. 【請求項66】 前記グラフィカルユーザインターフェ
    イスは、テキスト-スピーチ変換器に供給されているテ
    キストの発音を真似する、話す顔を、備えることを特徴
    とする請求項58に記載のテキスト-スピーチ処理装
    置。
  67. 【請求項67】 前記グラフィカルユーザインターフェ
    イスは、テキスト-スピーチ変換パラメータを変更させ
    る手段を、備えることを特徴とする請求項58に記載の
    テキスト-スピーチ処理装置。
  68. 【請求項68】 前記プロセスステップは、少なくとも
    2つの選択可能モードの一つに対応して、前記テキスト
    -スピーチ変換器にテキストを供給するステップを備
    え、 第1のモードでは、テキストは連続して進み、 第2のモードでは、テキストは、前記コマンド手段から
    のマニュアルオペレータコマンドに基ずいて前進する、
    ことを特徴とする請求項50に記載のテキスト-スピー
    チ処理装置前記処理装置。
  69. 【請求項69】 前記第2のモードでは、選択可能な粒
    状度レベルを指定できる、ことを特徴とする請求項68
    に記載のテキスト-スピーチ処理装置。
  70. 【請求項70】 前記選択可能な粒状度レベルは、文
    章、語、パラグラフを、備えることを特徴とする請求項
    68に記載のテキスト-スピーチ処理装置。
  71. 【請求項71】 前記処理ユニットは、前記テキスト-
    スピーチ変換器に供給されたテキストをポイントするポ
    インタを保持し、 前記処理ユニットは、前記コマンド手段からのオペレー
    タコマンドに従って、前記ポインタ値を制御する、こと
    を特徴とする請求項50に記載のテキスト-スピーチ処
    理装置。
  72. 【請求項72】 前記処理ユニットは、 前記コマンド手段からのオペレータコマンド入力に従っ
    て、前記ポインタを自動的に進め、前記ポインタ値を変
    更する、ことを特徴とする請求項71に記載のテキスト
    -スピーチ処理装置。
JP5288073A 1992-11-18 1993-11-17 テキスト−音声変換を制御するグラフィックスユーザインターフェイス Pending JPH06214741A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/977680 1992-11-18
US07/977,680 US5500919A (en) 1992-11-18 1992-11-18 Graphics user interface for controlling text-to-speech conversion

Publications (1)

Publication Number Publication Date
JPH06214741A true JPH06214741A (ja) 1994-08-05

Family

ID=25525403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5288073A Pending JPH06214741A (ja) 1992-11-18 1993-11-17 テキスト−音声変換を制御するグラフィックスユーザインターフェイス

Country Status (4)

Country Link
US (1) US5500919A (ja)
EP (1) EP0598599B1 (ja)
JP (1) JPH06214741A (ja)
DE (1) DE69317510T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003219052A (ja) * 2001-11-20 2003-07-31 Gateway Inc 音声−テキスト変換機能を有するハンドヘルド装置

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2149006C (en) * 1994-06-07 2003-07-15 Cecil Henry Bannister Synchronous voice/data messaging system
US5983236A (en) * 1994-07-20 1999-11-09 Nams International, Inc. Method and system for providing a multimedia presentation
US5572677A (en) * 1994-08-04 1996-11-05 Canon Information Systems, Inc. Method and apparatus for conversing over a network
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US5832441A (en) * 1996-09-16 1998-11-03 International Business Machines Corporation Creating speech models
US6961700B2 (en) * 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
US6006187A (en) * 1996-10-01 1999-12-21 Lucent Technologies Inc. Computer prosody user interface
US6199076B1 (en) * 1996-10-02 2001-03-06 James Logan Audio program player including a dynamic program selection controller
US20010044725A1 (en) * 1996-11-19 2001-11-22 Koichi Matsuda Information processing apparatus, an information processing method, and a medium for use in a three-dimensional virtual reality space sharing system
KR100236974B1 (ko) 1996-12-13 2000-02-01 정선종 동화상과 텍스트/음성변환기 간의 동기화 시스템
US6411696B1 (en) * 1996-12-31 2002-06-25 Intel Corporation System for finding a user with a preferred communication mechanism
JP3573907B2 (ja) * 1997-03-10 2004-10-06 株式会社リコー 音声合成装置
JP3237566B2 (ja) * 1997-04-11 2001-12-10 日本電気株式会社 通話方法、音声送信装置及び音声受信装置
KR100240637B1 (ko) * 1997-05-08 2000-01-15 정선종 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
US6199043B1 (en) * 1997-06-24 2001-03-06 International Business Machines Corporation Conversation management in speech recognition interfaces
EP1016078B1 (en) * 1997-06-27 2003-09-03 M.H. Segan Limited Partnership Speech recognition computer input method and device
JP3195279B2 (ja) * 1997-08-27 2001-08-06 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 音声出力システムおよびその方法
AU1402199A (en) * 1997-11-12 1999-05-31 Kurzweil Educational Systems, Inc. Reading system that displays an enhanced image representation
JPH11327870A (ja) * 1998-05-15 1999-11-30 Fujitsu Ltd ドキュメント読み上げ装置、読み上げ制御方法及び記 録媒体
JP3125746B2 (ja) * 1998-05-27 2001-01-22 日本電気株式会社 人物像対話装置及び人物像対話プログラムを記録した記録媒体
US6601030B2 (en) * 1998-10-28 2003-07-29 At&T Corp. Method and system for recorded word concatenation
NO986118L (no) * 1998-12-23 2000-06-26 Multimedia Capital As FremgangsmÕte for interaktiv fordeling av meldinger
US6243676B1 (en) * 1998-12-23 2001-06-05 Openwave Systems Inc. Searching and retrieving multimedia information
US6978127B1 (en) * 1999-12-16 2005-12-20 Koninklijke Philips Electronics N.V. Hand-ear user interface for hand-held device
GB2357943B (en) * 1999-12-30 2004-12-08 Nokia Mobile Phones Ltd User interface for text to speech conversion
US7386452B1 (en) * 2000-01-27 2008-06-10 International Business Machines Corporation Automated detection of spoken numbers in voice messages
US6895558B1 (en) * 2000-02-11 2005-05-17 Microsoft Corporation Multi-access mode electronic personal assistant
JP4547768B2 (ja) * 2000-04-21 2010-09-22 ソニー株式会社 情報処理装置および方法、並びに記録媒体
US7406657B1 (en) * 2000-09-22 2008-07-29 International Business Machines Corporation Audible presentation and verbal interaction of HTML-like form constructs
US7366979B2 (en) 2001-03-09 2008-04-29 Copernicus Investments, Llc Method and apparatus for annotating a document
US7020663B2 (en) * 2001-05-30 2006-03-28 George M. Hay System and method for the delivery of electronic books
GB0113583D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Speech system barge-in control
US20030028377A1 (en) * 2001-07-31 2003-02-06 Noyes Albert W. Method and device for synthesizing and distributing voice types for voice-enabled devices
US7043432B2 (en) * 2001-08-29 2006-05-09 International Business Machines Corporation Method and system for text-to-speech caching
US7099828B2 (en) * 2001-11-07 2006-08-29 International Business Machines Corporation Method and apparatus for word pronunciation composition
WO2003063067A1 (en) * 2002-01-24 2003-07-31 Chatterbox Systems, Inc. Method and system for locating positions in printed texts and delivering multimedia information
US20050177369A1 (en) * 2004-02-11 2005-08-11 Kirill Stoimenov Method and system for intuitive text-to-speech synthesis customization
US20050234724A1 (en) * 2004-04-15 2005-10-20 Andrew Aaron System and method for improving text-to-speech software intelligibility through the detection of uncommon words and phrases
US8666746B2 (en) * 2004-05-13 2014-03-04 At&T Intellectual Property Ii, L.P. System and method for generating customized text-to-speech voices
US20070130002A1 (en) * 2005-11-22 2007-06-07 Miva, Inc. System and method for delivery pay for performance advertising with enhanced effectiveness
CN103778806B (zh) * 2012-10-23 2016-04-13 中国电信股份有限公司 有声阅读的方法、终端和系统
US9558736B2 (en) * 2014-07-02 2017-01-31 Bose Corporation Voice prompt generation combining native and remotely-generated speech data
US11170757B2 (en) * 2016-09-30 2021-11-09 T-Mobile Usa, Inc. Systems and methods for improved call handling
US11145288B2 (en) 2018-07-24 2021-10-12 Google Llc Systems and methods for a text-to-speech interface

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4695962A (en) * 1983-11-03 1987-09-22 Texas Instruments Incorporated Speaking apparatus having differing speech modes for word and phrase synthesis
US4805207A (en) * 1985-09-09 1989-02-14 Wang Laboratories, Inc. Message taking and retrieval system
US4799254A (en) * 1986-06-30 1989-01-17 Wang Laboratories, Inc. Portable communication terminal for remote database query
US4856066A (en) * 1986-11-06 1989-08-08 Lemelson Jerome H Speech communication system and method
US4884972A (en) * 1986-11-26 1989-12-05 Bright Star Technology, Inc. Speech synchronized animation
JPH0315899A (ja) * 1989-06-14 1991-01-24 Hitachi Ltd 情報処理システム
US5091931A (en) * 1989-10-27 1992-02-25 At&T Bell Laboratories Facsimile-to-speech system
US5278943A (en) * 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003219052A (ja) * 2001-11-20 2003-07-31 Gateway Inc 音声−テキスト変換機能を有するハンドヘルド装置

Also Published As

Publication number Publication date
DE69317510T2 (de) 1998-08-13
EP0598599A1 (en) 1994-05-25
EP0598599B1 (en) 1998-03-18
US5500919A (en) 1996-03-19
DE69317510D1 (de) 1998-04-23

Similar Documents

Publication Publication Date Title
JPH06214741A (ja) テキスト−音声変換を制御するグラフィックスユーザインターフェイス
JP3142803B2 (ja) テキストを音声に変換するシンセサイザ
US5555343A (en) Text parser for use with a text-to-speech converter
US6173259B1 (en) Speech to text conversion
JP2768727B2 (ja) 報告書作成装置および方法
US6513009B1 (en) Scalable low resource dialog manager
EP0598597A1 (en) Method and apparatus for scripting a text-to-speech-based multimedia presentation
CN112219214A (zh) 用于面试训练的具有时间匹配反馈的系统及方法
JPH10274997A (ja) 文書読み上げ装置
GB2323693A (en) Speech to text conversion
JPH05181491A (ja) 音声合成装置
KR20120051517A (ko) 음성데이터를 이용한 문서생성 방법 및 시스템과, 이를 구비한 화상형성장치
JP2741833B2 (ja) マルチメデイア提示内で音声的サーチ・パターンを使用するためのシステム及びその方法
EP1073036B1 (en) Parsing of downloaded documents for a speech synthesis enabled browser
KR950014504B1 (ko) 전자문서를 음성 처리하는 휴대용 컴퓨터 디바이스
US7266500B2 (en) Method and system for automatic action control during speech deliveries
US6246984B1 (en) Device having functionality means supported by ancillary message reproduction means
US11890882B2 (en) Printing device
JPH09311775A (ja) 音声出力装置及びその方法
JP7048141B1 (ja) プログラム、ファイル生成方法、情報処理装置、及び情報処理システム
JP2002023781A (ja) 音声合成装置、音声合成装置におけるフレーズ単位修正方法、音声合成装置における韻律パターン編集方法、音声合成装置における音設定方法および音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003288098A (ja) ディクテーション装置、方法及びプログラム
JP3280729B2 (ja) 発音記号作成装置
JP2000293187A (ja) データ音声合成装置及びデータ音声合成方法
JPH08221095A (ja) 文章読み上げ方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20031222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040319

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040806