JP3065924B2

JP3065924B2 - 音声注釈方法、テキスト入力ストリームの音声注釈を機能強化するための方法および装置

Info

Publication number: JP3065924B2
Application number: JP8011677A
Authority: JP
Inventors: ウィリアム・ジェイ・ジョンソン; オーウェン・ダブリュー・ウェーバー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1995-02-02
Filing date: 1996-01-26
Publication date: 2000-07-17
Anticipated expiration: 2016-01-26
Also published as: JPH08255047A; US5787231A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、全般的には音声制
御システムの分野に関し、具体的には、音声制御システ
ムに注釈をつけるシステムおよび方法に関する。さら
に、本発明には、ユーザが開発する、音声制御システム
用のオーバーライド式辞書が含まれる。

【０００２】

【発明が解決しようとする課題】音声注釈システムをサ
ポートする音声制御システムは、単語の発声に対する音
声学的手法を使用することがしばしばである。単語の発
声に音声学を使用すると、望ましくない結果が生じる場
合がある。すなわち、ある単語が、ユーザの望みどおり
に発音されない可能性がある。たとえば、一般に普及し
ているオペレーティング・システムＯＳ／２（正しくは
「オー・エス・ツー」と発音する）が、音声学的には
「オズ・ツー」と発音される可能性がある。したがっ
て、音声学的注釈を機能強化し、その結果、発音がぎこ
ちないか誤って発音された単語が、ユーザの好む形で発
音されるようにする方法が求められている。

【０００３】単語に注釈をつけるのに単語辞書を使用す
る注釈システムでは、単語が、その文字列の作者でなけ
れば意味が判らない文字の寄せ集め（たとえばPGMXYZ.E
XE）なので認識されない時にも、問題が発生する。した
がって、そのような場合に所望の注釈を伝えるための方
法が必要である。

【０００４】主に直列インターフェースまたは並列イン
ターフェースを介してコンピュータに接続される既知の
システムは、テキスト列から音声を生成する。このよう
な既知のシステムは、音声学の規則の組に従う一連の音
を音声学的に生成する。しかし、前に説明したように、
英語（ならびに他の言語）は、必ずしもこれらの音声学
の規則に厳密に従うわけではない。

【０００５】他の既知のシステムでは、ユーザがワード
・プロセッサ文書に音声ファイルすなわちディジタル化
されたオーディオ信号（本明細書では「ウェーブ・ファ
イル」と呼称する）を挿入できるようになっている。た
とえば、ワード・プロセッサ・プログラム「マイクロソ
フト・ワード」では、ユーザが、音声注釈コマンドと称
するものをテキスト・ファイルに挿入できる。しかし、
このコマンドは、テキストの指定された位置にウェーブ
・ファイルの２進表現を挿入するにすぎない。

【０００６】ウェーブ・ファイルは、通常はＷＡＶ拡張
子としてセーブされる、記録されたアナログ信号の２進
（すなわちディジタル）ファイルである。近代的なオペ
レーティング・システムの一部には、現在、ストックの
ＷＡＶファイルの組が付属している。このようなストッ
クＷＡＶファイルは、オーディオ信号再生用の標準化さ
れたフォーマットに従う。しかし、このようなシステム
は、現在、テキスト・ファイルを発声するための音声学
的発音システムへのインターフェースを提供しない。し
たがって、ユーザに透過的な形でテキスト・ファイルの
再生を提供できるシステムの必要が存在する。

【０００７】さらに、そのようなシームレス・システム
では、ユーザが以前に遭遇し、正しく発音されたテキス
ト列を記憶するオーバーライド式辞書も必要である。こ
の方法では、テキスト・ファイルを処理している間に、
ユーザは、そのようなテキスト列を訂正するために１回
だけ処理を停止すればよい。次にその列に遭遇した時に
は、オーバーライド式辞書が、ウェーブ・ファイルを使
用して正しい音の連なりを自動的に展開する。このよう
なシステムは、システムが音を作成する際のためらいが
ない、滑らかな再生がもたらされるように、進行中の作
業を記憶するための待ち行列も提供すべきである。

【０００８】このようなシステムは、簡単に使用できる
ように、さまざまな供給源からテキストを取り込む能力
も有する必要がある。たとえば、ユーザは、テキストを
取り込むために画面上のテキストを強調表示するオプシ
ョンを有する必要があり、また、ユーザは、ネットワー
クに結合されるか他の方法でユーザのステーションと通
信する他のワークステーションからテキストをインポー
トする能力を与えられる必要がある。

【０００９】

【課題を解決するための手段】本発明は、このような音
声注釈システムを提供する。このシステムは、ファイ
ル、ウィンドウなどの供給源からテキストを受け入れ、
テキストの供給源に無関係にユーザが注釈をつけられる
ようにする。

【００１０】本発明は、ユーザが、音声コマンドで注釈
システムに割り込めるようにする。その後、ユーザは、
後続の出現のすべてについて注釈される単語を、認識の
ために発音することができる。"STOP（停止）"などの音
声コマンドによるシステム割込みの際には、システム
は、ユーザの音声によって"YES（はい）"などの別の指
令が命令されるまで、逆の順序で単語に注釈をつける。
この"YES"などの別の指令は、現在注釈をつけられてい
る単語を置換することをシステムに指示する。したがっ
て、本発明のもう１つの態様は、音声注釈を改良するた
めの、音声認識と音声注釈の統合である。

【００１１】"YES"指令を検出した際には、システム
は、疑わしい単語をもう一度注釈し、ユーザに置換を促
す。ユーザは、その単語がその発音で許容できる場合に
は、"OK"などのコマンドを発行することができる。ユー
ザは、その単語の望ましい発音を発声し、システムは、
それを繰り返すことによってその発声が認識されたこと
を保証する。ユーザがその単語のシステム音声に満足す
る場合、ユーザは、注釈を継続するために"OK"などの指
示をもう一度発行する。望ましい発音は、ウェーブ・フ
ァイルとしてセーブされることが好ましい。ユーザが、
システムの発音に満足できない場合、"NO"などの指示を
発行して、システムに、別の入力発音を求めるプロンプ
トを表示させることができる。

【００１２】ユーザは、綴りの通りに単語を発音する必
要はない。システムは、後にリコールされ、正確にユー
ザの望みどおりに発音される形式にユーザ入力を変換す
る。更新された単語の発音は、実行の先読みスレッドを
用いて参照される注釈辞書に記憶され、したがって、注
釈処理は、単語に遭遇した時に正しい単語を発声する準
備が調う。

【００１３】本発明は、注釈処理中のキーボード、マウ
スその他からのコマンドにも同等に適用可能である。

【００１４】辞書ファイルのほかに、本発明は、作業待
ち行列と再生待ち行列を提供する。作業待ち行列は、再
生スレッド中の単語の発声（聞取り可能な再生）が滑ら
かで遮られないようにする、単語項目のリザーバを提供
する。再生待ち行列は、再生スレッド中の直近の過去の
単語の後入れ先出し聞取り可能再生のためのリザーバを
提供する。この形で、ユーザは、前に発音された単語へ
選択的に戻って、単語を訂正または修正することができ
る。

【００１５】１態様では、本発明に、テキスト入力スト
リームの音声注釈を機能強化するためのデータ処理シス
テム内の方法が含まれる。この方法には、テキスト入力
ストリームからテキストを受け取るステップと、カスト
マイズ可能な注釈辞書（本明細書ではオーバーライド式
辞書とも称する）とテキストを比較するステップと、テ
キストに関連する音声を再生するための複数の再生方法
（テキスト・ファイルを音声学的に発音する、ウェーブ
・ファイルを聞取り可能に再生するなど）のうちの１つ
に従って音声インターフェース入力を決定するステップ
と、複数の再生方法のうちの１つに従って適切な装置イ
ンターフェースへ音声インターフェース入力を経路指定
するステップとが含まれる。

【００１６】

【発明の実施の形態】図１は、本発明を有用に応用でき
るデータ処理システム１０のブロック図である。データ
処理システム１０には、中央処理装置（ＣＰＵ）１４お
よびメモリ１６を含むプロセッサ１２が含まれる。ハー
ド・ディスク・ファイル記憶装置１８およびフロッピ・
ディスク装置２０の形式の追加記憶装置が、プロセッサ
１２に結合される。フロッピ・ディスク装置２０は、デ
ータ処理システム１０内で本発明を実施するコンピュー
タ・プログラム・コードを記録されたディスケット２２
を受ける。

【００１７】データ処理システム１０には、プロセッサ
１２へのユーザ・アクセスを可能にするためのマウス２
４およびキーボード２６と、視覚データをユーザに提示
するためのディスプレイ２８とを含むユーザ・インター
フェース・ハードウェアを含めることができる。また、
データ処理システム１０には、ネットワークまたは他の
データ処理システムとの通信のための通信ポート３０を
含めることができる。また、データ処理システム１０に
は、データ処理システム１０にアナログ信号を入力する
ためのオーディオ信号入力装置３２、ウェーブ・ファイ
ルからアナログ信号を再生するためのオーディオ信号出
力装置３４、および、テキスト列からオーディオ信号を
再生するための音声学的発音装置３６を含めることがで
きる。オーディオ信号出力装置３４および音声学的発音
装置３６は、同一のハードウェア装置として実装される
ことが好ましい。

【００１８】本明細書で使用する用語「インターフェー
ス」は、システム内の任意の装置間の通信の手段のすべ
てを指す。したがって、インターフェースは、システム
内の具体的な装置と選択からもたらされる、ソフトウェ
ア・インターフェースとハードウェア・インターフェー
スとに広範囲に適用可能である。たとえば、テキスト音
声化処理またはウェーブ・ファイル再生処理は、用語
「インターフェース」の範囲に含まれる。

【００１９】図２は、本発明の実行に使用できる、プロ
セッサ１２と、特に、さまざまなメモリ・ユニットとの
アーキテクチャの概略を示す図である。前に述べたよう
に、プロセッサ１２にはＣＰＵ１４とメモリ１６が含ま
れる。メモリの一部は、下で詳細に説明するように、本
発明の目的のための特定のデータの保持に割り当てられ
る。

【００２０】本発明の重要な態様に、作業待ち行列４０
と再生待ち行列４２の使用が含まれる。作業待ち行列４
０は、後で説明するように処理のための連続的な同時作
業のために特定の量の作業を保証する。再生待ち行列４
２は、辞書ファイル４４の辞書更新処理でユーザを援助
するための所定の数の単語の再生を簡単にする。

【００２１】作業待ち行列４０と再生待ち行列４２のそ
れぞれには、再生タイプ・フィールドと、ウェーブ・フ
ァイル・フィールドがある。これらのフィールドは、単
語の聞取り可能な再生が、音声学的発音装置３６（単語
列またはテキスト・ファイル用）またはウェーブ・ファ
イル用のオーディオ信号出力装置３４（ウェーブ・ファ
イルが発音できる状態になっているので）のどちらに対
して行われるかを定義する。この特徴は、本発明を既存
のシステムに簡単に適合させることができるように含め
られ、本発明の重要な特徴である。

【００２２】図２からわかるように、本発明の装置は、
オーディオ信号入力装置３２も必要とする。この装置に
は、音声学的発音装置３６も含まれる。オーディオ信号
入力装置３２と音声学的発音装置３６のいずれもが、当
技術分野で周知である。

【００２３】本発明のシステムには、たとえばテキスト
・ファイルおよびユーザ指定のコマンドを受け取り、処
理するためにプロセッサ１２が通信ポート３０やマウス
２４などの他の装置と通信できるようにするため、全般
的に入力バス５０として図示されるインターフェース・
アダプタも含まれる。任意指定として、多数の入力バス
５０が、入力バス５０によって表されることを理解され
たい。また、入力バス５０の個数は、接続される装置の
数に対応する。

【００２４】図３、図４および図５の概要ここで図３を参照すると、作業待ち行列４０を展開する
方法の好ましい論理流れ図が示されている。ユーザに
は、注釈のため取り込むことのできる画面上などの供給
源またはテキスト・ファイルからのテキストが提供され
る。

【００２５】注釈をつける単語が識別された後に、図３
の注釈処理が開始される。図３の処理では、作業待ち行
列に項目を置き、その結果、図４の再生スレッド中に、
処理中の作業のバックログが使用できるようにする。こ
の方法で、再生スレッドでの単語の聞取り可能な再生
が、滑らかで遮られなくなる。というのは、再生スレッ
ドが、次に発音する単語を待つ必要がなくなるからであ
る。再生スレッドは、単語の再生を終えると同時に、即
座に次の待ち行列項目を再生可能にすることができる。
そうでなければ、単語の間にかなりの休止が導入され
る。したがって、本発明は、ＯＳ／２やＵＮＩＸなどの
マルチタスク式システムで実施されることが好ましい。

【００２６】図４の流れ図では、先入れ先出し（ＦＩＦ
Ｏ）順で作業待ち行列から項目を除去し、これらを順次
再生する。この再生スレッドは、前の項目の再生を完了
すると同時に、作業待ち行列から次項目を即座に取り出
す。図３および図４の論理の流れは、独立に非同期に動
作し、その結果、次単語の処理での取出しの速度を低下
させる可能性がある辞書探索その他の処理などの特定の
機能が、発音の間のギャップを導入しないようにするこ
とが好ましい。用語「スレッド」は、当技術分野で既知
の用語であり、実行の別々の非同期処理という特徴があ
る。

【００２７】図５の論理流れ図は、辞書ファイル４４の
更新および改訂の好ましい方法の実例を示す図である。
再生スレッド中に、テキスト・ファイルの不満足な音声
学的発音に遭遇した場合、図５の処理が、割込み能力を
提供する。再生スレッドに割り込んだならば、ユーザ
は、遭遇した単語の自分自身の好みの発音を提供するこ
とができる。辞書が更新されたならば、このシステム
は、次にその単語に遭遇した時にその単語を認識し、ユ
ーザの好みの発音を提供する。

【００２８】図３、図４および図５の詳細な説明図３は、通常の形で開始ブロックから始まる。ステップ
６０で、テキスト供給源に無関係に、注釈をつける次の
単語をファイルから選択する。次に、ステップ６２で、
注釈をつける単語が他にまだ残っているかどうかを検査
する。注釈をつける単語がもうない場合、このシステム
は、ステップ６４で作業待ち行列に終了項目を挿入した
後に、停止する。

【００２９】判断ステップ６２の判定として、注釈をつ
ける単語が残っている場合、このシステムは、ステップ
６６で、その単語が辞書内で見つかるかどうかを検査す
る。次に、ステップ６８で、作業待ち行列が満杯である
かどうかを判定する。そうである場合には、ステップ７
０で、作業待ち行列の空間を得るために休止を導入す
る。作業待ち行列に空間が空いたならば、このシステム
は、現単語が辞書内で見つかったかどうかを検査する。

【００３０】これらのステップは、本発明の特徴を示す
ものである。作業待ち行列に項目を置く処理は、図４の
再生スレッドと独立に動作する。これによって、再生ス
レッドが使用可能な項目が常に存在し、再生スレッドが
作業を待っている再生機能の停止は生じない。テキスト
供給源から単語を抽出し、辞書を検索するデータ処理ス
テップは、再生処理より数倍高速に動作し、したがっ
て、再生は滑らかで連続的になる。

【００３１】単語が辞書にあった場合、ステップ７４
で、関連するウェーブ・ファイルを用いてその単語を作
業待ち行列に置く。辞書には、ウェーブ・ファイルとし
て単語の発音が保存され、ステップ７４では、単にこの
ウェーブ・ファイルを辞書から抽出し、作業待ち行列に
置くことに留意されたい。単語が辞書になかった場合、
ステップ７６で、その単語の文字列自体を作業待ち行列
に置く。

【００３２】現単語を作業待ち行列に置いたならば、ス
テップ７８で、作業待ち行列に対するユーザ定義可能な
閾値に達したかどうかを検査する。作業待ち行列閾値
は、本発明のもう１つの特徴である。作業待ち行列に最
小量の作業を置くことによって、図４の再生スレッドが
作業待ち行列からの項目を待つ必要がなくなることが保
証される。作業待ち行列は、十分に満たされる。これに
よって、再生処理中の単語間のギャップが除去される。
作業待ち行列の閾値に達した場合、ブロック８０で図４
の非同期再生スレッドを開始する。その後、この方法
は、ステップ６０に戻って、注釈をつける次の単語を抽
出する。図４の処理が開始されたか否かにかかわらず、
注釈をつける単語を抽出する図３の処理が、ファイルが
終了するまで継続されることは、当業者には明白であろ
う。

【００３３】ここで図４を参照すると、前に説明した再
生スレッドが示されている。ステップ８２で、ＦＩＦＯ
順に作業待ち行列から次項目を除去する。その後、ステ
ップ８４で、この次項目が終了項目（図３のステップ６
４）であるかどうかを調べる。次項目が「終了」である
ことを示す場合、ステップ８６で、大域フラグ「再生」
を「偽」にセットし、再生スレッドを停止する。終了項
目でない場合には、この作業項目が、注釈をつける有効
な単語項目であることが示される。その場合、ステップ
８８で、大域フラグ「再生」を「真」にセットして、再
生スレッドを継続する。

【００３４】次に、現項目を再生する方法に関する決定
を行わなければならない。これは、本発明のもう１つの
特徴である。ステップ９０で、次項目が単語の文字列で
あると判定される場合、この項目はステップ９２で音声
学的に再生される。文字列ではない場合には、この項目
はウェーブ・ファイルであるに違いなく、したがって、
ステップ９４でウェーブ・ファイルとして再生される。
この再生は、同一の装置上であってもなくてもよい。

【００３５】作業待ち行列項目が再生されたならば、そ
の項目は、再生待ち行列に置かれるが、再生待ち行列
に、その項目を受け取る余地が存在しなければならな
い。したがって、ステップ９６で、再生待ち行列が満杯
であるかどうかを判定する。再生待ち行列が満杯の場
合、ステップ９８で待ち行列内の最古の項目をクリアし
た後に、ステップ１００で、現項目を再生待ち行列４２
に置く。再生待ち行列が満杯でない場合、今説明したよ
うにステップ１００を実行する。本発明のこの特徴によ
って、ユーザが、再生待ち行列の最大容量、たとえば１
０項目までさかのぼり、前に再生された項目を聞くこと
ができることが保証される。その後、この処理は、ステ
ップ８２に戻り、次の作業待ち行列項目を取り出す。

【００３６】本発明のもう１つの特徴は、再生スレッド
を中断する能力である。たとえば、ユーザは、辞書ファ
イル４４を更新したいので再生スレッドを停止するコマ
ンドを入力する。このようなコマンドは、音声コマン
ド、キーボード、マウスなど、適当な手段によって入力
することができる。たとえば、ユーザは、音声学的に発
音された単語文字列の発音が誤っているので再生処理を
停止させたいと思う場合がある。再生スレッドは、ステ
ップ９２、９４または９６の間には中断可能になっては
ならない。というのは、この処理が、現項目の再生に直
接対処しており、この処理が、自動的に進行して再生待
ち行列上に現項目を置くからである。したがって、ブロ
ック９０から始まりブロック８２で終わる作業の単位
を、割込み不能な作業単位になるように保護することが
好ましい。この作業単位の間に中断要求が発生した場合
には、ステップ８２の実行の前に、ステップ８２に遭遇
した時に中断が発生する。

【００３７】図５の流れ図は、オーバーライド式辞書の
更新の好ましい処理を示す図である。ステップ１０２
で、注釈割込みコマンドが検出される。好ましい実施例
では、この割込みコマンドは、音声コマンドである。こ
れは、音声コマンドを記録し、キーボードに自動的に入
力されるキーボード・マクロを割り当てることによっ
て、当技術分野で既知の形で実行できる。

【００３８】ステップ１０４の判定で、再生スレッドが
走行中（ステップ８８参照）の場合、変数「再生」は真
ではなく、この処理は単純に停止する。ステップ１０６
で、前に説明した中断の規則に従って再生スレッドを中
断させる。ステップ１０８で、項目に関して再生待ち行
列を検査する。再生待ち行列が空の場合、この処理は、
ステップ１１０でユーザに適切な表示を提供し、ステッ
プ１１２で応答を待ち、ユーザが空の再生待ち行列を確
認したならば、ステップ１１４で再生スレッドを再開す
る。

【００３９】再生待ち行列が空でない場合、この処理
は、ステップ１１６で、再生待ち行列から最も最近の項
目を抽出する。その後、ステップ１１８で、この項目が
単語の文字列かウェーブ・ファイルかを判定する。ステ
ップ１２０は、単語の文字列を音声学的に再生し、ステ
ップ１２２は、単にウェーブ・ファイルを再生する。こ
の処理は、ステップ１２６で単語を選択することによっ
て現項目を変更するか否かについて考える時間を、ステ
ップ１２４でユーザに与える。ユーザが単語を選択しな
い場合、おそらくこのシステムは、再生待ち行列をさら
に遡る必要がある。したがって、この処理は、ステップ
１０８に戻って、再生待ち行列上の項目について検査す
る。

【００４０】ステップ１２６でユーザが単語を選択した
場合、ステップ１２８で、発音の定式化を助けるために
単語をもう一度再生するか、単語を新しい発音で置換す
るか、終了するかという選択肢のうちの１つを選択する
ようユーザに促す。ユーザが単語の再生を決定した場
合、ステップ１３０からステップ１１８に進んで、具体
的な再生タイプを識別した後に、前と同様にステップ１
２０またはステップ１２２で単語を再生する。ユーザが
終了を選択した場合、ステップ１３２からステップ１１
４に進んで、前と同様に再生スレッドを継続させる。

【００４１】ユーザが終了を選択しなかった場合、この
処理は、ステップ１３４で置換記録についてユーザに促
す。置換記録は、ステップ１３６でウェーブ・ファイル
に記録され、このウェーブ・ファイルは、その後、ステ
ップ１３８で、現在識別されている待ち行列項目の更新
に使用される。この新ウェーブが、その単語が次に現れ
た時に使用可能になるように、ステップ１４０で、この
テキストの将来の遭遇のすべてのオーバーライドのため
の項目として、このウェーブ・ファイルを辞書に置く。
最後に、ステップ１４２で、この新項目を再生して、そ
れがユーザの意図したものであることを検証する。この
処理は、前に説明したステップ１２８に継続する。

【００４２】辞書は、特定の応用例に合わせてカストマ
イズすることができる。さらに、ウェーブ・ファイル項
目が辞書内に作成されたならば、既知のシステムは、こ
の辞書項目をアクセスし、ファイルを修正することがで
きる。たとえば、音量（すなわち振幅）、周波数など
を、ユーザの自由裁量で簡単に修正できる。辞書ファイ
ル４４（図２参照）には、テキスト列とウェーブ・ファ
イルの完全修飾パス名という少なくとも２つのフィール
ドが含まれる。したがって、ウェーブ・ファイル内の項
目は、たとえば異なる発生パターンを開発するためな
ど、既知のツールと技法を使用して簡単に操作すること
ができる。

【００４３】

【００４４】

【００４５】

【図面の簡単な説明】

【図１】本発明を応用することのできる一般的なデータ
処理システムのブロック図である。

【図２】本発明を実行するためのプロセッサの詳細を示
す図である。

【図３】本発明の作業待ち行列を展開する方法の論理流
れ図である。

【図４】本発明の再生待ち行列を展開する方法の論理流
れ図である。

【図５】音声学的に発声される項目の注釈付けならびに
本発明のオーバーライド式辞書の更新の方法の論理流れ
図である。

【符号の説明】

１０データ処理システム１２プロセッサ１４中央処理装置（ＣＰＵ）１６メモリ１８ハード・ディスク・ファイル記憶装置２０フロッピ・ディスク装置２２ディスケット２４マウス２６キーボード２８ディスプレイ３０通信ポート３２オーディオ信号入力装置３４オーディオ信号出力装置３６音声学的発音装置４０作業待ち行列４２再生待ち行列４４辞書ファイル５０入力バス

───────────────────────────────────────────────────── フロントページの続き (72)発明者オーウェン・ダブリュー・ウェーバーアメリカ合衆国75019 テキサス州コペルタラ・コート 210 (56)参考文献特開平６−149291（ＪＰ，Ａ) 特開平６−175700（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 3/02 360 G06F 3/16 330 G06F 3/16 340 G06F 17/21 G06F 17/22

Claims

(57)【特許請求の範囲】

【請求項１】（ａ）テキスト単語をメモリに記憶するス
テップと、（ｂ）前記メモリから前記テキスト単語を順次抽出する
ステップと、（ｃ）前記順次抽出された単語のそれぞれが辞書内にあ
るかどうかを調べ、単語が前記辞書内で見つかる場合に
は、その単語をウェーブ・ファイル項目として作業待ち
行列に置き、単語が前記辞書内で見つからない場合に
は、その単語を単語列項目として前記作業待ち行列に置
くステップと、（ｄ）所定数の単語が前記作業待ち行列に置かれるま
で、前記作業待ち行列に単語を置き続けるステップと、（ｅ）前記所定数の単語が前記作業待ち行列に置かれた
時に、非同期再生スレッドであって、（ｅ１）前記作業待ち行列から項目を抽出するステッ
プ、（ｅ２）前記項目がウェーブ・ファイル項目および単語
列項目のどちらであるかを判定するステップ、（ｅ３）前記項目がウェーブ・ファイル項目の場合に
は、そのウェーブ・ファイルを聞取り可能に再生するス
テップ、および（ｅ４）前記項目が単語列の場合には、その単語列を音
声学的に聞取り可能に再生するステップを含んでいる前
記非同期再生スレッドを開始するステップと、（ｆ）前記作業待ち行列からの項目が聞取り可能に再生
された後に、ユーザによる前記辞書の更新を援助するた
めの再生待ち行列が満杯になるまで、その項目を前記再
生待ち行列に置くステップと、（ｇ）前記再生待ち行列が満杯になった後に、前記再生
待ち行列から最古の項目を除去するステップとを含む、
音声注釈方法。
【請求項２】前記作業待ち行列が満杯になるまで、前記
作業待ち行列に単語を置き続けるステップと、前記作業待ち行列が満杯になった時に、前記作業待ち行
列上で記憶空間が使用可能になるまで待つステップとを
さらに含む、請求項１に記載の方法。
【請求項３】前記作業待ち行列からの項目の聞取り可能
な再生に割り込むステップをさらに含む、請求項１に記
載の方法。
【請求項４】前記再生待ち行列からの項目を後入れ先出
し順で聞取り可能に再生するステップをさらに含む、請
求項３に記載の方法。
【請求項５】前記再生待ち行列内の項目を置換するステ
ップをさらに含む、請求項４に記載の方法。
【請求項６】ユーザが選択可能なウェーブ・ファイルを
用いて前記辞書を更新するステップをさらに含む、請求
項４に記載の方法。
【請求項７】（ａ）テキスト入力ストリームからテキス
トを受け取るステップと、（ｂ）前記テキストをカストマイズ可能な注釈辞書と比
較するステップと、（ｃ）前記テキスト入力ストリームからの１つまたは複
数のテキスト部分が誤って発音されたことをユーザが認
識した際に、ユーザの指示によって前記辞書を即座にカ
ストマイズするステップであって、（ｃ１）前記テキスト入力ストリームの処理中にユーザ
の指示により注釈処理割込みを呼び出すステップ、（ｃ２）前記テキスト入力ストリームの処理を完了する
前に注釈処理を自動的に中断するステップ、および（ｃ３）正しい発音のためにテキスト部分を選択し編集
するのに適したインターフェースを提示するステップを
含んでいる前記カストマイズするステップと、（ｄ）前記テキストに関連する音声を再生するための複
数の再生方法のうちの１つに従って、音声インターフェ
ース入力を決定するステップと、（ｅ）前記複数の再生方法のうちの１つに従って、前記
音声インターフェース入力を適切な装置インターフェー
スへ経路指定するステップとを含む、テキスト入力スト
リームの音声注釈を機能強化するための方法。
【請求項８】前記ステップ（ｄ）が、前記辞書を用いた前記テキストの検索の際に、発見状態
または非発見状態を受け取るステップ、状態が非発見状態である時に、前記テキストに従って音
声を再生する第１インターフェースのために前記テキス
トを用意するステップ、および状態が発見状態である時
に、前記辞書内で一致した前記テキストに対応するウェ
ーブ・ファイルに従って音声を再生する第２インターフ
ェースのために前記テキストに関連する前記ウェーブ・
ファイルを用意するステップを含むことを特徴とする、
請求項７に記載の方法。
【請求項９】前記ステップ（ｅ）が、前記音声インター
フェース入力をテキスト音声化処理またはウェーブ・フ
ァイル再生処理へ経路指定するステップを含むことを特
徴とする、請求項７に記載の方法。
【請求項１０】前記ステップ（ｃ１）が、音声コマンド
を介して実行されることを特徴とする、請求項７に記載
の方法。
【請求項１１】正しい発音が、前記辞書にセーブされる
ことを特徴とする、請求項７に記載の方法。
【請求項１２】前記辞書が、１つまたは複数のレコード
を含み、各レコードが、少なくとも２つのフィールドを
含み、当該少なくとも２つのフィールドが、テキスト列
フィールドと、当該テキスト列に関連する音声用の関連
するウェーブ・ファイル・フィールドとを含むことを特
徴とする、請求項７に記載の方法。
【請求項１３】前記ステップ（ｃ３）が、予め定義され
た数の項目の再生を許容することを特徴とする、請求項
７に記載の方法。
【請求項１４】（ａ）テキスト入力ストリームからテキ
ストを受け取る手段と、（ｂ）前記テキストをカストマイズ可能注釈辞書と比較
する手段と、（ｃ）前記テキスト入力ストリームからの１つまたは複
数のテキスト部分が誤って発音されたことをユーザが認
識した際に、ユーザの指示によって前記辞書を即座にカ
ストマイズする手段であって、（ｃ１）前記テキスト入力ストリームの処理中にユーザ
の指示により注釈処理割込みを呼び出す手段、（ｃ２）前記テキスト入力ストリームの処理を完了する
前に注釈処理を自動的に中断する手段、および（ｃ３）正しい発音のために前記テキスト部分を選択し
編集するのに適したインターフェースを提示する手段を
含んでいる前記カストマイズする手段と、（ｄ）前記テキストに関連する音声を再生するための複
数の再生方法のうちの１つに従って、音声インターフェ
ース入力を決定する手段と、（ｅ）前記複数の再生方法のうちの１つに従って、前記
音声インターフェース入力を適切な装置インターフェー
スへ経路指定する手段とを備える、テキスト入力ストリ
ームの音声注釈を機能強化するための装置。
【請求項１５】前記手段（ｄ）が、前記辞書を用いた前記テキストの検索の際に、発見状態
または非発見状態を受け取る手段、状態が非発見状態である時に、前記テキストに従って音
声を再生する第１インターフェースのために前記テキス
トを用意する手段、および状態が発見状態である時に、
前記辞書内で一致した前記テキストに対応するウェーブ
・ファイルに従って音声を再生する第２インターフェー
スのために前記テキストに関連する前記ウェーブ・ファ
イルを用意する手段を含むことを特徴とする、請求項１
４に記載の装置。
【請求項１６】前記手段（ｅ）が、前記音声インターフ
ェース入力をテキスト音声化処理またはウェーブ・ファ
イル再生処理へ経路指定する手段を含むことを特徴とす
る、請求項１４に記載の装置。
【請求項１７】前記手段（ｃ１）が、音声コマンドを介
して作動されることを特徴とする、請求項１４に記載の
装置。
【請求項１８】正しい発音を前記辞書にセーブする手段
をさらに備える、請求項１４に記載の装置。
【請求項１９】前記辞書が、１つまたは複数のレコード
を含み、各レコードが、少なくとも２つのフィールドを
含み、当該少なくとも２つのフィールドが、テキスト列
フィールドと、当該テキスト列に関連する音声用の関連
するウェーブ・ファイル・フィールドとを含むことを特
徴とする、請求項１４に記載の装置。
【請求項２０】前記手段（ｃ３）が、予め定義された数
の項目の再生を許容することを特徴とする、請求項１４
に記載の装置。