JP3065924B2 - 音声注釈方法、テキスト入力ストリームの音声注釈を機能強化するための方法および装置 - Google Patents

音声注釈方法、テキスト入力ストリームの音声注釈を機能強化するための方法および装置

Info

Publication number
JP3065924B2
JP3065924B2 JP8011677A JP1167796A JP3065924B2 JP 3065924 B2 JP3065924 B2 JP 3065924B2 JP 8011677 A JP8011677 A JP 8011677A JP 1167796 A JP1167796 A JP 1167796A JP 3065924 B2 JP3065924 B2 JP 3065924B2
Authority
JP
Japan
Prior art keywords
text
dictionary
word
queue
work queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP8011677A
Other languages
English (en)
Other versions
JPH08255047A (ja
Inventor
ウィリアム・ジェイ・ジョンソン
オーウェン・ダブリュー・ウェーバー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH08255047A publication Critical patent/JPH08255047A/ja
Application granted granted Critical
Publication of JP3065924B2 publication Critical patent/JP3065924B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Input From Keyboards Or The Like (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、全般的には音声制
御システムの分野に関し、具体的には、音声制御システ
ムに注釈をつけるシステムおよび方法に関する。さら
に、本発明には、ユーザが開発する、音声制御システム
用のオーバーライド式辞書が含まれる。
【0002】
【発明が解決しようとする課題】音声注釈システムをサ
ポートする音声制御システムは、単語の発声に対する音
声学的手法を使用することがしばしばである。単語の発
声に音声学を使用すると、望ましくない結果が生じる場
合がある。すなわち、ある単語が、ユーザの望みどおり
に発音されない可能性がある。たとえば、一般に普及し
ているオペレーティング・システムOS/2(正しくは
「オー・エス・ツー」と発音する)が、音声学的には
「オズ・ツー」と発音される可能性がある。したがっ
て、音声学的注釈を機能強化し、その結果、発音がぎこ
ちないか誤って発音された単語が、ユーザの好む形で発
音されるようにする方法が求められている。
【0003】単語に注釈をつけるのに単語辞書を使用す
る注釈システムでは、単語が、その文字列の作者でなけ
れば意味が判らない文字の寄せ集め(たとえばPGMXYZ.E
XE)なので認識されない時にも、問題が発生する。した
がって、そのような場合に所望の注釈を伝えるための方
法が必要である。
【0004】主に直列インターフェースまたは並列イン
ターフェースを介してコンピュータに接続される既知の
システムは、テキスト列から音声を生成する。このよう
な既知のシステムは、音声学の規則の組に従う一連の音
を音声学的に生成する。しかし、前に説明したように、
英語(ならびに他の言語)は、必ずしもこれらの音声学
の規則に厳密に従うわけではない。
【0005】他の既知のシステムでは、ユーザがワード
・プロセッサ文書に音声ファイルすなわちディジタル化
されたオーディオ信号(本明細書では「ウェーブ・ファ
イル」と呼称する)を挿入できるようになっている。た
とえば、ワード・プロセッサ・プログラム「マイクロソ
フト・ワード」では、ユーザが、音声注釈コマンドと称
するものをテキスト・ファイルに挿入できる。しかし、
このコマンドは、テキストの指定された位置にウェーブ
・ファイルの2進表現を挿入するにすぎない。
【0006】ウェーブ・ファイルは、通常はWAV拡張
子としてセーブされる、記録されたアナログ信号の2進
(すなわちディジタル)ファイルである。近代的なオペ
レーティング・システムの一部には、現在、ストックの
WAVファイルの組が付属している。このようなストッ
クWAVファイルは、オーディオ信号再生用の標準化さ
れたフォーマットに従う。しかし、このようなシステム
は、現在、テキスト・ファイルを発声するための音声学
的発音システムへのインターフェースを提供しない。し
たがって、ユーザに透過的な形でテキスト・ファイルの
再生を提供できるシステムの必要が存在する。
【0007】さらに、そのようなシームレス・システム
では、ユーザが以前に遭遇し、正しく発音されたテキス
ト列を記憶するオーバーライド式辞書も必要である。こ
の方法では、テキスト・ファイルを処理している間に、
ユーザは、そのようなテキスト列を訂正するために1回
だけ処理を停止すればよい。次にその列に遭遇した時に
は、オーバーライド式辞書が、ウェーブ・ファイルを使
用して正しい音の連なりを自動的に展開する。このよう
なシステムは、システムが音を作成する際のためらいが
ない、滑らかな再生がもたらされるように、進行中の作
業を記憶するための待ち行列も提供すべきである。
【0008】このようなシステムは、簡単に使用できる
ように、さまざまな供給源からテキストを取り込む能力
も有する必要がある。たとえば、ユーザは、テキストを
取り込むために画面上のテキストを強調表示するオプシ
ョンを有する必要があり、また、ユーザは、ネットワー
クに結合されるか他の方法でユーザのステーションと通
信する他のワークステーションからテキストをインポー
トする能力を与えられる必要がある。
【0009】
【課題を解決するための手段】本発明は、このような音
声注釈システムを提供する。このシステムは、ファイ
ル、ウィンドウなどの供給源からテキストを受け入れ、
テキストの供給源に無関係にユーザが注釈をつけられる
ようにする。
【0010】本発明は、ユーザが、音声コマンドで注釈
システムに割り込めるようにする。その後、ユーザは、
後続の出現のすべてについて注釈される単語を、認識の
ために発音することができる。"STOP(停止)"などの音
声コマンドによるシステム割込みの際には、システム
は、ユーザの音声によって"YES(はい)"などの別の指
令が命令されるまで、逆の順序で単語に注釈をつける。
この"YES"などの別の指令は、現在注釈をつけられてい
る単語を置換することをシステムに指示する。したがっ
て、本発明のもう1つの態様は、音声注釈を改良するた
めの、音声認識と音声注釈の統合である。
【0011】"YES"指令を検出した際には、システム
は、疑わしい単語をもう一度注釈し、ユーザに置換を促
す。ユーザは、その単語がその発音で許容できる場合に
は、"OK"などのコマンドを発行することができる。ユー
ザは、その単語の望ましい発音を発声し、システムは、
それを繰り返すことによってその発声が認識されたこと
を保証する。ユーザがその単語のシステム音声に満足す
る場合、ユーザは、注釈を継続するために"OK"などの指
示をもう一度発行する。望ましい発音は、ウェーブ・フ
ァイルとしてセーブされることが好ましい。ユーザが、
システムの発音に満足できない場合、"NO"などの指示を
発行して、システムに、別の入力発音を求めるプロンプ
トを表示させることができる。
【0012】ユーザは、綴りの通りに単語を発音する必
要はない。システムは、後にリコールされ、正確にユー
ザの望みどおりに発音される形式にユーザ入力を変換す
る。更新された単語の発音は、実行の先読みスレッドを
用いて参照される注釈辞書に記憶され、したがって、注
釈処理は、単語に遭遇した時に正しい単語を発声する準
備が調う。
【0013】本発明は、注釈処理中のキーボード、マウ
スその他からのコマンドにも同等に適用可能である。
【0014】辞書ファイルのほかに、本発明は、作業待
ち行列と再生待ち行列を提供する。作業待ち行列は、再
生スレッド中の単語の発声(聞取り可能な再生)が滑ら
かで遮られないようにする、単語項目のリザーバを提供
する。再生待ち行列は、再生スレッド中の直近の過去の
単語の後入れ先出し聞取り可能再生のためのリザーバを
提供する。この形で、ユーザは、前に発音された単語へ
選択的に戻って、単語を訂正または修正することができ
る。
【0015】1態様では、本発明に、テキスト入力スト
リームの音声注釈を機能強化するためのデータ処理シス
テム内の方法が含まれる。この方法には、テキスト入力
ストリームからテキストを受け取るステップと、カスト
マイズ可能な注釈辞書(本明細書ではオーバーライド式
辞書とも称する)とテキストを比較するステップと、テ
キストに関連する音声を再生するための複数の再生方法
(テキスト・ファイルを音声学的に発音する、ウェーブ
・ファイルを聞取り可能に再生するなど)のうちの1つ
に従って音声インターフェース入力を決定するステップ
と、複数の再生方法のうちの1つに従って適切な装置イ
ンターフェースへ音声インターフェース入力を経路指定
するステップとが含まれる。
【0016】
【発明の実施の形態】図1は、本発明を有用に応用でき
るデータ処理システム10のブロック図である。データ
処理システム10には、中央処理装置(CPU)14お
よびメモリ16を含むプロセッサ12が含まれる。ハー
ド・ディスク・ファイル記憶装置18およびフロッピ・
ディスク装置20の形式の追加記憶装置が、プロセッサ
12に結合される。フロッピ・ディスク装置20は、デ
ータ処理システム10内で本発明を実施するコンピュー
タ・プログラム・コードを記録されたディスケット22
を受ける。
【0017】データ処理システム10には、プロセッサ
12へのユーザ・アクセスを可能にするためのマウス2
4およびキーボード26と、視覚データをユーザに提示
するためのディスプレイ28とを含むユーザ・インター
フェース・ハードウェアを含めることができる。また、
データ処理システム10には、ネットワークまたは他の
データ処理システムとの通信のための通信ポート30を
含めることができる。また、データ処理システム10に
は、データ処理システム10にアナログ信号を入力する
ためのオーディオ信号入力装置32、ウェーブ・ファイ
ルからアナログ信号を再生するためのオーディオ信号出
力装置34、および、テキスト列からオーディオ信号を
再生するための音声学的発音装置36を含めることがで
きる。オーディオ信号出力装置34および音声学的発音
装置36は、同一のハードウェア装置として実装される
ことが好ましい。
【0018】本明細書で使用する用語「インターフェー
ス」は、システム内の任意の装置間の通信の手段のすべ
てを指す。したがって、インターフェースは、システム
内の具体的な装置と選択からもたらされる、ソフトウェ
ア・インターフェースとハードウェア・インターフェー
スとに広範囲に適用可能である。たとえば、テキスト音
声化処理またはウェーブ・ファイル再生処理は、用語
「インターフェース」の範囲に含まれる。
【0019】図2は、本発明の実行に使用できる、プロ
セッサ12と、特に、さまざまなメモリ・ユニットとの
アーキテクチャの概略を示す図である。前に述べたよう
に、プロセッサ12にはCPU14とメモリ16が含ま
れる。メモリの一部は、下で詳細に説明するように、本
発明の目的のための特定のデータの保持に割り当てられ
る。
【0020】本発明の重要な態様に、作業待ち行列40
と再生待ち行列42の使用が含まれる。作業待ち行列4
0は、後で説明するように処理のための連続的な同時作
業のために特定の量の作業を保証する。再生待ち行列4
2は、辞書ファイル44の辞書更新処理でユーザを援助
するための所定の数の単語の再生を簡単にする。
【0021】作業待ち行列40と再生待ち行列42のそ
れぞれには、再生タイプ・フィールドと、ウェーブ・フ
ァイル・フィールドがある。これらのフィールドは、単
語の聞取り可能な再生が、音声学的発音装置36(単語
列またはテキスト・ファイル用)またはウェーブ・ファ
イル用のオーディオ信号出力装置34(ウェーブ・ファ
イルが発音できる状態になっているので)のどちらに対
して行われるかを定義する。この特徴は、本発明を既存
のシステムに簡単に適合させることができるように含め
られ、本発明の重要な特徴である。
【0022】図2からわかるように、本発明の装置は、
オーディオ信号入力装置32も必要とする。この装置に
は、音声学的発音装置36も含まれる。オーディオ信号
入力装置32と音声学的発音装置36のいずれもが、当
技術分野で周知である。
【0023】本発明のシステムには、たとえばテキスト
・ファイルおよびユーザ指定のコマンドを受け取り、処
理するためにプロセッサ12が通信ポート30やマウス
24などの他の装置と通信できるようにするため、全般
的に入力バス50として図示されるインターフェース・
アダプタも含まれる。任意指定として、多数の入力バス
50が、入力バス50によって表されることを理解され
たい。また、入力バス50の個数は、接続される装置の
数に対応する。
【0024】図3、図4および図5の概要 ここで図3を参照すると、作業待ち行列40を展開する
方法の好ましい論理流れ図が示されている。ユーザに
は、注釈のため取り込むことのできる画面上などの供給
源またはテキスト・ファイルからのテキストが提供され
る。
【0025】注釈をつける単語が識別された後に、図3
の注釈処理が開始される。図3の処理では、作業待ち行
列に項目を置き、その結果、図4の再生スレッド中に、
処理中の作業のバックログが使用できるようにする。こ
の方法で、再生スレッドでの単語の聞取り可能な再生
が、滑らかで遮られなくなる。というのは、再生スレッ
ドが、次に発音する単語を待つ必要がなくなるからであ
る。再生スレッドは、単語の再生を終えると同時に、即
座に次の待ち行列項目を再生可能にすることができる。
そうでなければ、単語の間にかなりの休止が導入され
る。したがって、本発明は、OS/2やUNIXなどの
マルチタスク式システムで実施されることが好ましい。
【0026】図4の流れ図では、先入れ先出し(FIF
O)順で作業待ち行列から項目を除去し、これらを順次
再生する。この再生スレッドは、前の項目の再生を完了
すると同時に、作業待ち行列から次項目を即座に取り出
す。図3および図4の論理の流れは、独立に非同期に動
作し、その結果、次単語の処理での取出しの速度を低下
させる可能性がある辞書探索その他の処理などの特定の
機能が、発音の間のギャップを導入しないようにするこ
とが好ましい。用語「スレッド」は、当技術分野で既知
の用語であり、実行の別々の非同期処理という特徴があ
る。
【0027】図5の論理流れ図は、辞書ファイル44の
更新および改訂の好ましい方法の実例を示す図である。
再生スレッド中に、テキスト・ファイルの不満足な音声
学的発音に遭遇した場合、図5の処理が、割込み能力を
提供する。再生スレッドに割り込んだならば、ユーザ
は、遭遇した単語の自分自身の好みの発音を提供するこ
とができる。辞書が更新されたならば、このシステム
は、次にその単語に遭遇した時にその単語を認識し、ユ
ーザの好みの発音を提供する。
【0028】図3、図4および図5の詳細な説明 図3は、通常の形で開始ブロックから始まる。ステップ
60で、テキスト供給源に無関係に、注釈をつける次の
単語をファイルから選択する。次に、ステップ62で、
注釈をつける単語が他にまだ残っているかどうかを検査
する。注釈をつける単語がもうない場合、このシステム
は、ステップ64で作業待ち行列に終了項目を挿入した
後に、停止する。
【0029】判断ステップ62の判定として、注釈をつ
ける単語が残っている場合、このシステムは、ステップ
66で、その単語が辞書内で見つかるかどうかを検査す
る。次に、ステップ68で、作業待ち行列が満杯である
かどうかを判定する。そうである場合には、ステップ7
0で、作業待ち行列の空間を得るために休止を導入す
る。作業待ち行列に空間が空いたならば、このシステム
は、現単語が辞書内で見つかったかどうかを検査する。
【0030】これらのステップは、本発明の特徴を示す
ものである。作業待ち行列に項目を置く処理は、図4の
再生スレッドと独立に動作する。これによって、再生ス
レッドが使用可能な項目が常に存在し、再生スレッドが
作業を待っている再生機能の停止は生じない。テキスト
供給源から単語を抽出し、辞書を検索するデータ処理ス
テップは、再生処理より数倍高速に動作し、したがっ
て、再生は滑らかで連続的になる。
【0031】単語が辞書にあった場合、ステップ74
で、関連するウェーブ・ファイルを用いてその単語を作
業待ち行列に置く。辞書には、ウェーブ・ファイルとし
て単語の発音が保存され、ステップ74では、単にこの
ウェーブ・ファイルを辞書から抽出し、作業待ち行列に
置くことに留意されたい。単語が辞書になかった場合、
ステップ76で、その単語の文字列自体を作業待ち行列
に置く。
【0032】現単語を作業待ち行列に置いたならば、ス
テップ78で、作業待ち行列に対するユーザ定義可能な
閾値に達したかどうかを検査する。作業待ち行列閾値
は、本発明のもう1つの特徴である。作業待ち行列に最
小量の作業を置くことによって、図4の再生スレッドが
作業待ち行列からの項目を待つ必要がなくなることが保
証される。作業待ち行列は、十分に満たされる。これに
よって、再生処理中の単語間のギャップが除去される。
作業待ち行列の閾値に達した場合、ブロック80で図4
の非同期再生スレッドを開始する。その後、この方法
は、ステップ60に戻って、注釈をつける次の単語を抽
出する。図4の処理が開始されたか否かにかかわらず、
注釈をつける単語を抽出する図3の処理が、ファイルが
終了するまで継続されることは、当業者には明白であろ
う。
【0033】ここで図4を参照すると、前に説明した再
生スレッドが示されている。ステップ82で、FIFO
順に作業待ち行列から次項目を除去する。その後、ステ
ップ84で、この次項目が終了項目(図3のステップ6
4)であるかどうかを調べる。次項目が「終了」である
ことを示す場合、ステップ86で、大域フラグ「再生」
を「偽」にセットし、再生スレッドを停止する。終了項
目でない場合には、この作業項目が、注釈をつける有効
な単語項目であることが示される。その場合、ステップ
88で、大域フラグ「再生」を「真」にセットして、再
生スレッドを継続する。
【0034】次に、現項目を再生する方法に関する決定
を行わなければならない。これは、本発明のもう1つの
特徴である。ステップ90で、次項目が単語の文字列で
あると判定される場合、この項目はステップ92で音声
学的に再生される。文字列ではない場合には、この項目
はウェーブ・ファイルであるに違いなく、したがって、
ステップ94でウェーブ・ファイルとして再生される。
この再生は、同一の装置上であってもなくてもよい。
【0035】作業待ち行列項目が再生されたならば、そ
の項目は、再生待ち行列に置かれるが、再生待ち行列
に、その項目を受け取る余地が存在しなければならな
い。したがって、ステップ96で、再生待ち行列が満杯
であるかどうかを判定する。再生待ち行列が満杯の場
合、ステップ98で待ち行列内の最古の項目をクリアし
た後に、ステップ100で、現項目を再生待ち行列42
に置く。再生待ち行列が満杯でない場合、今説明したよ
うにステップ100を実行する。本発明のこの特徴によ
って、ユーザが、再生待ち行列の最大容量、たとえば1
0項目までさかのぼり、前に再生された項目を聞くこと
ができることが保証される。その後、この処理は、ステ
ップ82に戻り、次の作業待ち行列項目を取り出す。
【0036】本発明のもう1つの特徴は、再生スレッド
を中断する能力である。たとえば、ユーザは、辞書ファ
イル44を更新したいので再生スレッドを停止するコマ
ンドを入力する。このようなコマンドは、音声コマン
ド、キーボード、マウスなど、適当な手段によって入力
することができる。たとえば、ユーザは、音声学的に発
音された単語文字列の発音が誤っているので再生処理を
停止させたいと思う場合がある。再生スレッドは、ステ
ップ92、94または96の間には中断可能になっては
ならない。というのは、この処理が、現項目の再生に直
接対処しており、この処理が、自動的に進行して再生待
ち行列上に現項目を置くからである。したがって、ブロ
ック90から始まりブロック82で終わる作業の単位
を、割込み不能な作業単位になるように保護することが
好ましい。この作業単位の間に中断要求が発生した場合
には、ステップ82の実行の前に、ステップ82に遭遇
した時に中断が発生する。
【0037】図5の流れ図は、オーバーライド式辞書の
更新の好ましい処理を示す図である。ステップ102
で、注釈割込みコマンドが検出される。好ましい実施例
では、この割込みコマンドは、音声コマンドである。こ
れは、音声コマンドを記録し、キーボードに自動的に入
力されるキーボード・マクロを割り当てることによっ
て、当技術分野で既知の形で実行できる。
【0038】ステップ104の判定で、再生スレッドが
走行中(ステップ88参照)の場合、変数「再生」は真
ではなく、この処理は単純に停止する。ステップ106
で、前に説明した中断の規則に従って再生スレッドを中
断させる。ステップ108で、項目に関して再生待ち行
列を検査する。再生待ち行列が空の場合、この処理は、
ステップ110でユーザに適切な表示を提供し、ステッ
プ112で応答を待ち、ユーザが空の再生待ち行列を確
認したならば、ステップ114で再生スレッドを再開す
る。
【0039】再生待ち行列が空でない場合、この処理
は、ステップ116で、再生待ち行列から最も最近の項
目を抽出する。その後、ステップ118で、この項目が
単語の文字列かウェーブ・ファイルかを判定する。ステ
ップ120は、単語の文字列を音声学的に再生し、ステ
ップ122は、単にウェーブ・ファイルを再生する。こ
の処理は、ステップ126で単語を選択することによっ
て現項目を変更するか否かについて考える時間を、ステ
ップ124でユーザに与える。ユーザが単語を選択しな
い場合、おそらくこのシステムは、再生待ち行列をさら
に遡る必要がある。したがって、この処理は、ステップ
108に戻って、再生待ち行列上の項目について検査す
る。
【0040】ステップ126でユーザが単語を選択した
場合、ステップ128で、発音の定式化を助けるために
単語をもう一度再生するか、単語を新しい発音で置換す
るか、終了するかという選択肢のうちの1つを選択する
ようユーザに促す。ユーザが単語の再生を決定した場
合、ステップ130からステップ118に進んで、具体
的な再生タイプを識別した後に、前と同様にステップ1
20またはステップ122で単語を再生する。ユーザが
終了を選択した場合、ステップ132からステップ11
4に進んで、前と同様に再生スレッドを継続させる。
【0041】ユーザが終了を選択しなかった場合、この
処理は、ステップ134で置換記録についてユーザに促
す。置換記録は、ステップ136でウェーブ・ファイル
に記録され、このウェーブ・ファイルは、その後、ステ
ップ138で、現在識別されている待ち行列項目の更新
に使用される。この新ウェーブが、その単語が次に現れ
た時に使用可能になるように、ステップ140で、この
テキストの将来の遭遇のすべてのオーバーライドのため
の項目として、このウェーブ・ファイルを辞書に置く。
最後に、ステップ142で、この新項目を再生して、そ
れがユーザの意図したものであることを検証する。この
処理は、前に説明したステップ128に継続する。
【0042】辞書は、特定の応用例に合わせてカストマ
イズすることができる。さらに、ウェーブ・ファイル項
目が辞書内に作成されたならば、既知のシステムは、こ
の辞書項目をアクセスし、ファイルを修正することがで
きる。たとえば、音量(すなわち振幅)、周波数など
を、ユーザの自由裁量で簡単に修正できる。辞書ファイ
ル44(図2参照)には、テキスト列とウェーブ・ファ
イルの完全修飾パス名という少なくとも2つのフィール
ドが含まれる。したがって、ウェーブ・ファイル内の項
目は、たとえば異なる発生パターンを開発するためな
ど、既知のツールと技法を使用して簡単に操作すること
ができる。
【0043】
【0044】
【0045】
【図面の簡単な説明】
【図1】本発明を応用することのできる一般的なデータ
処理システムのブロック図である。
【図2】本発明を実行するためのプロセッサの詳細を示
す図である。
【図3】本発明の作業待ち行列を展開する方法の論理流
れ図である。
【図4】本発明の再生待ち行列を展開する方法の論理流
れ図である。
【図5】音声学的に発声される項目の注釈付けならびに
本発明のオーバーライド式辞書の更新の方法の論理流れ
図である。
【符号の説明】
10 データ処理システム 12 プロセッサ 14 中央処理装置(CPU) 16 メモリ 18 ハード・ディスク・ファイル記憶装置 20 フロッピ・ディスク装置 22 ディスケット 24 マウス 26 キーボード 28 ディスプレイ 30 通信ポート 32 オーディオ信号入力装置 34 オーディオ信号出力装置 36 音声学的発音装置 40 作業待ち行列 42 再生待ち行列 44 辞書ファイル 50 入力バス
───────────────────────────────────────────────────── フロントページの続き (72)発明者 オーウェン・ダブリュー・ウェーバー アメリカ合衆国75019 テキサス州コペ ル タラ・コート 210 (56)参考文献 特開 平6−149291(JP,A) 特開 平6−175700(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 3/02 360 G06F 3/16 330 G06F 3/16 340 G06F 17/21 G06F 17/22

Claims (20)

    (57)【特許請求の範囲】
  1. 【請求項1】(a)テキスト単語をメモリに記憶するス
    テップと、(b) 前記メモリから前記テキスト単語を順次抽出する
    ステップと、(c)前記 順次抽出された単語のそれぞれが辞書にあ
    るかどうかを調べ、単語が前記辞書内で見つかる場合に
    は、その単語をウェーブ・ファイル項目として作業待ち
    行列に置き、単語が前記辞書内で見つからない場合に
    は、その単語を単語列項目として前記作業待ち行列に置
    くステップと (d)所定数の単語が前記作業待ち行列に置かれるま
    で、前記作業待ち行列に単語を置き続けるステップと、 (e)前記所定数の単語が前記作業待ち行列に置かれた
    時に、非同期再生スレッドであって、 (e1)前記作業待ち行列から項目を抽出するステッ
    プ、 (e2)前記項目がウェーブ・ファイル項目および単語
    列項目のどちらであるかを判定するステップ、 (e3)前記項目がウェーブ・ファイル項目の場合に
    は、そのウェーブ・ファイルを聞取り可能に再生するス
    テップ、および (e4)前記項目が単語列の場合には、その単語列を音
    声学的に聞取り可能に再生するステップ を含んでいる前
    記非同期再生スレッドを開始するステップと、 (f)前記作業待ち行列からの項目が聞取り可能に再生
    された後に、ユーザによる前記辞書の更新を援助するた
    めの再生待ち行列が満杯になるまで、その項目を前記再
    生待ち行列に置くステップと、 (g)前記再生待ち行列が満杯になった後に、前記再生
    待ち行列から最古の項目を除去するステップと を含む、
    音声注釈方法。
  2. 【請求項2】前記作業待ち行列が満杯になるまで、前記
    作業待ち行列に単語を置き続けるステップと、 前記作業待ち行列が満杯になった時に、前記作業待ち行
    列上で記憶空間が使用可能になるまで待つステップ
    さらに含む、請求項に記載の方法。
  3. 【請求項3】記作業待ち行列からの項目の聞取り可能
    な再生に割り込むステップをさらに含む、請求項に記
    載の方法。
  4. 【請求項4】記再生待ち行列からの項目を後入れ先出
    し順で聞取り可能に再生するステップをさらに含む、請
    求項に記載の方法。
  5. 【請求項5】記再生待ち行列内の項目を置換するステ
    ップをさらに含む、請求項に記載の方法。
  6. 【請求項6】ーザが選択可能なウェーブ・ファイルを
    用いて前記辞書を更新するステップをさらに含む、請求
    に記載の方法。
  7. 【請求項7】(a)テキスト入力ストリームからテキス
    トを受け取るステップと、(b)前記テキストを カストマイズ可能な注釈辞書と比
    較するステップと、(c)前記テキスト入力ストリームからの1つまたは複
    数のテキスト部分が誤って発音されたことをユーザが認
    識した際に、ユーザの指示によって前記辞書を即座にカ
    ストマイズするステップであって、 (c1)前記テキスト入力ストリームの処理中にユーザ
    の指示により注釈処理割込みを呼び出すステップ、 (c2)前記テキスト入力ストリームの処理を完了する
    前に注釈処理を自動的に中断するステップ、および (c3)正しい発音のためにテキスト部分を選択し編集
    するのに適したインターフェースを提示するステップ
    含んでいる前記カストマイズするステップと、 (d)前記 テキストに関連する音声を再生するための複
    数の再生方法のうちの1つに従って、音声インターフェ
    ース入力を決定するステップと、(e) 前記複数の再生方法のうちの1つに従って、前記
    音声インターフェース入力を適切な装置インターフェー
    へ経路指定するステップとを含む、テキスト入力スト
    リームの音声注釈を機能強化するための方法。
  8. 【請求項8】前記ステップ(d)が、 前記辞書を用いた前記テキストの検索の際に、発見状態
    または非発見状態を受け取るステップ、 状態が非発見状態である時に、前記テキストに従って音
    声を再生する第1インターフェースのために前記テキス
    トを用意するステップ、および状態が発見状態である時
    に、前記辞書内で一致した前記テキストに対応するウェ
    ーブ・ファイルに従って音声を再生する第2インターフ
    ェースのために前記テキストに関連する前記ウェーブ・
    ファイルを用意するステッ を含むことを特徴とする、
    請求項に記載の方法。
  9. 【請求項9】前記ステップ(e)が、前記音声インター
    フェース入力をテキスト音声化処理またはウェーブ・フ
    ァイル再生処理へ経路指定するステップを含むことを特
    徴とする、請求項に記載の方法。
  10. 【請求項10】前記ステップ(c1)が、音声コマンド
    を介して実行されることを特徴とする、請求項に記載
    の方法。
  11. 【請求項11】正しい発音が、前記辞書にセーブされる
    ことを特徴とする、請求項に記載の方法。
  12. 【請求項12】前記辞書が、1つまたは複数のレコード
    を含み、各レコードが、少なくとも2つのフィールドを
    含み、該少なくとも2つのフィールドが、テキスト列
    フィールドと、当該テキスト列に関連する音声用の関連
    するウェーブ・ファイル・フィールドとを含むことを特
    徴とする、請求項に記載の方法。
  13. 【請求項13】前記ステップ(c3)が、予め定義され
    た数の項目の再生を許容することを特徴とする、請求項
    に記載の方法。
  14. 【請求項14】(a)テキスト入力ストリームからテキ
    ストを受け取る手段と、(b)前記テキストを カストマイズ可能注釈辞書と比
    する手段と、(c)前記テキスト入力ストリームからの1つまたは複
    数のテキスト部分が誤って発音されたことをユーザが認
    識した際に、ユーザの指示によって前記辞書を即座にカ
    ストマイズする手段であって、 (c1)前記テキスト入力ストリームの処理中にユーザ
    の指示により注釈処理割込みを呼び出す手段、 (c2)前記テキスト入力ストリームの処理を完了する
    前に注釈処理を自動的に中断する手段、および (c3)正しい発音のために前記テキスト部分を選択し
    編集するのに適したインターフェースを提示する手段
    含んでいる前記カストマイズする手段と、 (d) 前記テキストに関連する音声を再生するための複
    数の再生方法のうちの1つに従って、音声インターフェ
    ース入力を決定する手段と、(e) 前記複数の再生方法のうちの1つに従って、前記
    音声インターフェース入力を適切な装置インターフェー
    へ経路指定する手段とを備える、テキスト入力ストリ
    ームの音声注釈を機能強化するための装置。
  15. 【請求項15】前記手(d)が、 前記辞書を用いた前記テキストの検索の際に、発見状態
    または非発見状態を受け取る手段、 状態が非発見状態である時に、前記テキストに従って音
    声を再生する第1インターフェースのために前記テキス
    トを用意する手段、および状態が発見状態である時に、
    前記辞書内で一致した前記テキストに対応するウェーブ
    ・ファイルに従って音声を再生する第2インターフェー
    スのために前記テキストに関連する前記ウェーブ・ファ
    イルを用意する手段を含むことを特徴とする、請求項
    に記載の装置。
  16. 【請求項16】前記手(e)が、前記音声インターフ
    ェース入力をテキスト音声化処理またはウェーブ・ファ
    イル再生処理へ経路指定する手段を含むことを特徴とす
    る、請求項14に記載の装置。
  17. 【請求項17】前記手(c1)が、音声コマンドを介
    して作動されることを特徴とする、請求項14に記載の
    装置。
  18. 【請求項18】正しい発音を前記辞書にセーブする手段
    をさらに備える、請求項14に記載の装置。
  19. 【請求項19】前記辞書が、1つまたは複数のレコード
    を含み、各レコードが、少なくとも2つのフィールドを
    含み、該少なくとも2つのフィールドが、テキスト列
    フィールドと、当該テキスト列に関連する音声用の関連
    するウェーブ・ファイル・フィールドとを含むことを特
    徴とする、請求項14に記載の装置。
  20. 【請求項20】前記手段(c3)が、予め定義された数
    の項目の再生を許容することを特徴とする、請求項14
    に記載の装置。
JP8011677A 1995-02-02 1996-01-26 音声注釈方法、テキスト入力ストリームの音声注釈を機能強化するための方法および装置 Expired - Fee Related JP3065924B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/382,737 US5787231A (en) 1995-02-02 1995-02-02 Method and system for improving pronunciation in a voice control system
US382737 1995-02-02

Publications (2)

Publication Number Publication Date
JPH08255047A JPH08255047A (ja) 1996-10-01
JP3065924B2 true JP3065924B2 (ja) 2000-07-17

Family

ID=23510199

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8011677A Expired - Fee Related JP3065924B2 (ja) 1995-02-02 1996-01-26 音声注釈方法、テキスト入力ストリームの音声注釈を機能強化するための方法および装置

Country Status (2)

Country Link
US (1) US5787231A (ja)
JP (1) JP3065924B2 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7292980B1 (en) * 1999-04-30 2007-11-06 Lucent Technologies Inc. Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
US6879957B1 (en) * 1999-10-04 2005-04-12 William H. Pechter Method for producing a speech rendition of text from diphone sounds
US6963841B2 (en) * 2000-04-21 2005-11-08 Lessac Technology, Inc. Speech training method with alternative proper pronunciation database
WO2001082291A1 (en) * 2000-04-21 2001-11-01 Lessac Systems, Inc. Speech recognition and training methods and systems
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
US7280964B2 (en) * 2000-04-21 2007-10-09 Lessac Technologies, Inc. Method of recognizing spoken language with recognition of language color
US6847931B2 (en) 2002-01-29 2005-01-25 Lessac Technology, Inc. Expressive parsing in computerized conversion of text to speech
US7050376B2 (en) 2000-09-19 2006-05-23 Lg Electronics Inc. Optical disc player and method for reproducing thereof
US7366979B2 (en) 2001-03-09 2008-04-29 Copernicus Investments, Llc Method and apparatus for annotating a document
US20050120300A1 (en) * 2003-09-25 2005-06-02 Dictaphone Corporation Method, system, and apparatus for assembly, transport and display of clinical data
US7783474B2 (en) * 2004-02-27 2010-08-24 Nuance Communications, Inc. System and method for generating a phrase pronunciation
US20070127652A1 (en) * 2005-12-01 2007-06-07 Divine Abha S Method and system for processing calls
US20070206747A1 (en) * 2006-03-01 2007-09-06 Carol Gruchala System and method for performing call screening
JP2007264466A (ja) * 2006-03-29 2007-10-11 Canon Inc 音声合成装置
KR100837750B1 (ko) * 2006-08-25 2008-06-13 엔에이치엔(주) 성조를 이용하여 중국어를 검색하는 방법 및 상기 방법을수행하는 시스템
JP2008090771A (ja) * 2006-10-05 2008-04-17 Hitachi Ltd デジタルコンテンツ版管理システム
US8719027B2 (en) * 2007-02-28 2014-05-06 Microsoft Corporation Name synthesis
EP2062982A1 (fr) * 2007-11-26 2009-05-27 ImmunID Procédé d'étude de la diversité combinatoire V(D)J
US20160068905A1 (en) 2007-11-26 2016-03-10 Immunid Method for Studying V(D)J Combinatory Diversity
US9141445B2 (en) * 2008-01-31 2015-09-22 Red Hat, Inc. Asynchronous system calls
GB0920480D0 (en) * 2009-11-24 2010-01-06 Yu Kai Speech processing and learning
GB2481992A (en) * 2010-07-13 2012-01-18 Sony Europe Ltd Updating text-to-speech converter for broadcast signal receiver
US9111457B2 (en) * 2011-09-20 2015-08-18 International Business Machines Corporation Voice pronunciation for text communication
US9613140B2 (en) * 2014-05-16 2017-04-04 International Business Machines Corporation Real-time audio dictionary updating system
US10102852B2 (en) * 2015-04-14 2018-10-16 Google Llc Personalized speech synthesis for acknowledging voice actions

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH644246B (fr) * 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
US4779209A (en) * 1982-11-03 1988-10-18 Wang Laboratories, Inc. Editing voice data
US4523055A (en) * 1983-11-25 1985-06-11 Pitney Bowes Inc. Voice/text storage and retrieval system
US4831654A (en) * 1985-09-09 1989-05-16 Wang Laboratories, Inc. Apparatus for making and editing dictionary entries in a text to speech conversion system
AR242675A1 (es) * 1985-10-11 1993-04-30 Ibm Una disposiciones de almacenamiento intermedio de voz
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
EP0372734B1 (en) * 1988-11-23 1994-03-09 Digital Equipment Corporation Name pronunciation by synthesizer
US4979216A (en) * 1989-02-17 1990-12-18 Malsheen Bathsheba J Text to speech synthesis system and method using context dependent vowel allophones
JPH031200A (ja) * 1989-05-29 1991-01-07 Nec Corp 規則型音声合成装置
US5157759A (en) * 1990-06-28 1992-10-20 At&T Bell Laboratories Written language parser system
US5305205A (en) * 1990-10-23 1994-04-19 Weber Maria L Computer-assisted transcription apparatus
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis

Also Published As

Publication number Publication date
JPH08255047A (ja) 1996-10-01
US5787231A (en) 1998-07-28

Similar Documents

Publication Publication Date Title
JP3065924B2 (ja) 音声注釈方法、テキスト入力ストリームの音声注釈を機能強化するための方法および装置
US6801897B2 (en) Method of providing concise forms of natural commands
JP3610083B2 (ja) マルチメディアプレゼンテーション装置および方法
US6792409B2 (en) Synchronous reproduction in a speech recognition system
US6961700B2 (en) Method and apparatus for processing the output of a speech recognition engine
US6334102B1 (en) Method of adding vocabulary to a speech recognition system
EP1049072B1 (en) Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
US6172675B1 (en) Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US4866778A (en) Interactive speech recognition apparatus
EP0840288B1 (en) Method and system for editing phrases during continuous speech recognition
US5950160A (en) Method and system for displaying a variable number of alternative words during speech recognition
JP3333123B2 (ja) 音声認識中に認識されたワードをバッファする方法及びシステム
US20030225578A1 (en) System and method for improving the accuracy of a speech recognition program
US20040138894A1 (en) Speech transcription tool for efficient speech transcription
WO1998025216A9 (en) Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
JP2002524776A (ja) 音声認識および自然言語処理を使用した対話型ユーザ・インタフェース
US7010485B1 (en) Method and system of audio file searching
JP3104661B2 (ja) 日本語文章作成装置
JP3795692B2 (ja) 文字処理装置および方法
US7103533B2 (en) Method for preserving contextual accuracy in an extendible speech recognition language model
KR20080051876A (ko) 전자사전 검색이 가능한 멀티미디어 파일 재생장치 및검색방법
AU776890B2 (en) System and method for improving the accuracy of a speech recognition program
JPH09128409A (ja) データ検索装置および方法、情報記憶媒体
JP2000276189A (ja) 日本語ディクテーションシステム
JPH08221095A (ja) 文章読み上げ方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees