JP4444396B2 - 音声認識におけるポジション操作 - Google Patents
音声認識におけるポジション操作 Download PDFInfo
- Publication number
- JP4444396B2 JP4444396B2 JP16830399A JP16830399A JP4444396B2 JP 4444396 B2 JP4444396 B2 JP 4444396B2 JP 16830399 A JP16830399 A JP 16830399A JP 16830399 A JP16830399 A JP 16830399A JP 4444396 B2 JP4444396 B2 JP 4444396B2
- Authority
- JP
- Japan
- Prior art keywords
- command
- word
- recognition
- user
- identification information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Description
【発明の属する技術分野】
本発明は、音声認識におけるポジション操作に関する。
【0002】
【従来の技術】
音声認識システムは、ユーザの音声を解析して、ユーザが何を話しているかを判定するシステムである。音声認識システムの殆どは、フレーム方式のシステムである。フレーム方式のシステムでは、プロセッサが、認識対象音声を表している信号を非常に短い時間部分に分割して、一連のディジタル・フレームを生成する。
【0003】
連続音声認識システムは、ユーザが個々の単語ごと、ないしは語句ごとに区切って発声する必要がなく、連続して発声した一連の単語ないし語句を認識する能力を備えた音声認識システムである。これに対して、分離音声認識システムは、個々に区切って発声した単語ないし語句を認識するようにした音声認識システムであり、ユーザは、個々の単語ないし語句を発声するたびに、その後に短い間を置かなければならない。一般的に、連続音声認識システムは、分離音声認識システムと比べて誤認識の発生頻度が高いが、それは、連続した音声を認識するための認識作業がそれだけ複雑だからである。
【0004】
連続音声認識システムのプロセッサは、一般的に、音声の「アタランス(utterance:前後を沈黙で区切られたひとまとまりの発声)」を解析するように設定されている。1個のアタランスに含まれるフレームの数は一定しておらず、所定長さ以上のポーズ(沈黙)が発生した場合に、そのポーズまでの音声部分をもって、1個のアタランスと見なすようにしている。
【0005】
ユーザが何を話しているかを判定するために、プロセッサは先ず、1個のアタランスに含まれている複数のディジタル・フレームの各々に対して最良のマッチングを示す夫々の音響モデルを判定し、続いて、それら音響モデルに対応するテキストを判定する。様々な単語、語句、それにコマンドの集合をボキャブラリと呼び、1個の音響モデルは、ボキャブラリのうちの、1個の単語、1個の語句、または1個のコマンドに対応していることもあれば、単語等の部分を構成している1個の音、即ち音素に対応していることもある。1個の単語が複数の音素によって構成されているとき、それら音素の集合により、その単語の表音綴り字(phonetic spelling)が表されている。音響モデルのうちには、沈黙を表す音響モデルや、種々の環境ノイズを表す音響モデルも含まれている。
【0006】
最良のマッチングを示す音響モデルの集合に対応する単語ないし語句は、認識候補と呼ばれる。プロセッサは、1個のアタランスに対して、ただ1つの認識候補しか生成しない(即ち、ただ1つの単語列ないし語句列しか生成しない)こともあれば、複数の認識候補を生成することもあり、後者の場合には、それら認識候補を列挙したリストを生成することになる。
【0007】
従来の分離音声認識システムでは、その修正機構として次のようなものが用いられていた。それは、1個の単語を認識するたびに、その単語に対応した選択肢リストを表示して、もし誤った認識がなされていたならば、ユーザが、その選択肢リストから正しい単語を選択するか、或いはキーボードから正しい単語を打ち込むことによって、その誤認識を訂正できるようにしたものである。例えば、米国、マサチューセッツ州、ニュートン市に所在のドラゴン・システムズ社(Dragon Systems, Inc.)が販売している「DragonDictate for Windows」という製品では、ユーザが1個の単語を発声するごとに、その単語に対応した、番号付きの複数の認識候補を列挙したリスト(即ち「選択肢リスト」)が表示され、一方、ユーザの口述内容(ディクテーション)を表示しているテキストには、それら複数の認識候補のうちの、最良スコアの認識候補が書き込まれる。そして、その最良スコアの認識候補が誤りであった場合には、ユーザは、「チューズ・N(choose−N)」と発声することで、その選択リスト中の1つの認識候補を選択することができ、ここで「N」は、正しい認識候補に付されている番号である。更に、もし、正しい単語が選択肢リスト中になければ、ユーザは、正しい単語の先頭の幾つかの文字をキーボードから打ち込むか、あるいは、先頭の幾つかの文字の夫々に対応した単語(例えば「アルファ(alpha)」、「ブラボー(bravo)」等)を発声することによって、選択肢リストを、より精緻なリストに更新することができる。ユーザは更に「スクラッチ・ザット(scratch that)」と発声することによって、誤った認識結果を廃棄させることができる。
【0008】
ユーザが口述作業を続行して新たな単語を発声したならば、そのことによって先に表示した認識結果が容認されたものと見なされる。ただし、ユーザが、口述作業を続行して新たな単語を幾つか発声した後に、先の認識結果が誤っていたことに気付いた場合には、ユーザは「ウップ(Oops)」と発声すればよく、それによって、それまでに認識された複数の認識済単語を列挙した番号付きリストが表示される。そのリストが表示されたならば、ユーザは、「ワード・N(word−N)」と発声することで、そのリストのうちから1つの認識済単語を選択することができ、ここで「N」は、その認識済単語に付されている番号である。音声認識システムは、この発声に応答して、その選択された認識済単語のために作成された選択肢リストを表示するため、ユーザは、その選択肢リストを使用して、上述の方法で、その認識済単語に修正を加えることができる。
【0009】
【発明の概要】
大局的にとらえた特徴の1つは、コンピュータで実行する音声認識において、発声されたコマンドを表すデータを受取り、その受取ったデータに応答して、アクション・ポジションを操作することにある。前記コマンドは、コマンド識別情報と、少なくとも1個の発声済単語を指定した発声済単語指定情報とを含んでいる。前記データに対する音声認識処理を実行し、それによって、前記コマンド識別情報と前記発声済単語指定情報とを識別する。続いて、アクション・ポジション設定処理を実行し、このアクション・ポジション設定処理においては、前記発声済単語の位置を基準とした相対位置であって前記コマンド識別情報に応じて定まる相対位置にアクション・ポジションを設定する。
【0010】
具体的な実施の形態は、以下に列挙する特徴の1つまたは幾つかを備えたものとすることができる。先ず、前記発声済単語指定情報は、1個または2個以上の発声済単語から成るものとしてもよく、或いは、発声によって行われた選択を表すか、または発声されたアタランスを表す、省略形式の識別子(例えば「ザット(that)」から成るものとしてもよい。
【0011】
前記コマンド識別情報は、前記発声済単語の位置の前方にアクション・ポジションを設定すべきことを指示した識別情報とすることもでき(例えば「インサート・ビフォー(insert before)」)、前記発声済単語の位置の後方にアクション・ポジションを設定すべきことを指示した識別情報とすることもできる(例えば「インサート・アフター(insert after)」)。これらの場合には、その発声済単語ないし発声済アタランスの位置の直前、ないし直後にアクション・ポジションを設定するようにすればよい。
【0012】
前記発声済単語指定情報は、1個または2個以上の発声済単語と、1個または2個以上の新単語とを含んでいるものとすることができる。また、このようにした場合には、そのコマンドに含まれている発声済単語以降の単語から成る単語列を、そのコマンドに含まれている新単語で置換する置換処理を実行するようにすればよい。そして更に、新単語の直後にアクション・ポジションを設定するようにすればよい。このコマンドは、例えば、「レジューム・ウィズ(resumewith)」コマンドであり、このコマンドは、単語「レジューム・ウィズ」の後に1個または2個以上の認識済単語と、1個または2個以上の新単語とが続くものである。
【0013】
「レジューム・ウィズ」コマンドは、それを実行する上で、ディスプレイ上に情報が表示されていることを必要としない。そのため、このコマンドは、ユーザが、例えばアナログ録音装置やディジタル録音装置等の、ポータブル録音装置を用いて音声を録音し、その録音した音声を後に音声認識システムへ転送して音声認識処理を行わせるという利用の仕方をするとき、特に有用なコマンドである。従って「レジューム・ウィズ」コマンドは、ユーザに、口述内容を訂正するための、ないしは誤って発声した単語を消去するための、簡明で効率的な方法を提供するコマンドである。
【0014】
発生されたコマンドを表している前記データを生成する方法としては、音声認識を実行するコンピュータとは物理的に分離した録音装置を用いてコマンドを録音するという方法がある。その録音装置がディジタル録音装置であれば、前記データを、そのディジタル録音装置によって生成されたファイルの形とすることができる。また、前記データは、例えばアナログ録音装置を用いる場合には、発声された前記コマンドをそのアナログ録音装置で再生することによって生成される信号の形とすることができる。
【0015】
大局的にとらえたもう1つの特徴は、コンピュータで実行する音声認識において、発声された選択コマンドを表すデータに応答して、テキスト・ブロックを選択することにある。前記選択コマンドは、コマンド識別情報と、認識済テキストのブロックである1個のテキスト・ブロックを指定したテキスト・ブロック識別情報とを含んでいる。前記テキスト・ブロックには含まれていて前記テキスト・ブロック識別情報には含まれていない単語が少なくとも1個存在している。前記データに対する音声認識処理を実行し、それによって、前記コマンド識別情報と前記テキスト・ブロック識別情報とを識別する。続いて、前記テキスト・ブロック識別情報に対応したテキスト・ブロックを選択する。
【0016】
具体的な実施の形態は、以下に列挙する特徴の1つまたは幾つかを備えたものとすることができる。先ず、テキスト・ブロック識別情報は、前記テキスト・ブロックの認識済単語のうちの少なくとも先頭の認識済単語と、前記テキスト・ブロックの認識済単語のうちの少なくとも末尾の認識済単語とを含んでいるものとすることができる。この場合、例えば、前記コマンド識別情報が「セレクト(select)」を含んでおり、前記テキスト・ブロック識別情報が、前記テキスト・ブロックの認識済単語のうちの先頭の認識済単語と、「スルー(through)」と、前記テキスト・ブロックの認識済単語のうちの末尾の認識済単語とを含んでいるものとすることができる(即ち、「セレクト・X・スルー・Y(select X through Y)」となる)。また、別法として、テキスト・ブロック識別情報を、発声によって行われた選択を表すか、または発声されたアタランスを表す、省略形式の識別子(例えば「ザット(that)」から成るものとしてもよい。
【0017】
前記音声認識処理は、制約グラマーを使用して実行するようにすることができる。その場合に、前記制約グラマーは、前記テキスト・ブロックの先頭の単語と末尾の単語とが、認識済単語集合に含まれる任意の単語であればよいというものにすることができる。また、前記認識済単語集合は、前記選択コマンドが発声されたときにディスプレイ装置に表示されている認識済単語から成るものとすることができる。
【0018】
前記音声認識処理において、前記テキスト・ブロック識別情報が指定しているテキスト・ブロックである可能性のあるテキスト・ブロックを候補として複数生成し、更に、そのブロックの先頭の認識済単語がそのブロックの末尾の認識済単語より後に発声されたテキスト・ブロックを候補から排除するようにすることができる。
【0019】
前記音声認識処理において、前記複数の候補の各々のスコアを求めるようにしてもよい。一般的に、1つの候補は複数の構成要素で構成されており、それら構成要素の夫々のスコアに基づいて、当該候補のスコアを求めるようにする。ある候補のある構成要素と、それとは別の候補のある構成要素とが、同音異義語の関係にある場合には、それら2つの候補のスコアに調整を加えて、それら候補の各々のスコアのうちの同音異義語に原因している部分のスコアを、該当する同音異義語のうちで最良スコアを有する同音異義語のスコアに等しくするようにするのもよい。
【0020】
大局的にとらえた更に別の特徴として、コンピュータを用いてテキストに対する作業を行う方法において、前記テキストのある部分を指定しているアタランスを含んでいるコマンドを受取り、前記アタランスに対する音声認識を実行して前記テキストの前記部分を識別し、識別した前記テキストの前記部分の位置を基準とした相対位置であって前記コマンドに応じて定まる相対位置に、前記テキスト内のアクション・ポジションを設定するということがある。
【0021】
その他の特徴及び利点は、以下の詳細な説明、図面、及び請求項から明らかな通りである。
【0022】
【詳細な説明】
図1において、音声認識システム100は、複数の入出力(I/O)デバイス(図示例では、マイクロホン105,マウス110,キーボード115,及びディスプレイ120)と、汎用コンピュータ125とを備えている。汎用コンピュータ125は、プロセッサ(CPU)130,I/Oユニット135,及びサウンド・カード140を備えている。メモリ145には、データ及びプログラムが格納されており、格納されているプログラムには、オペレーティング・システム150、アプリケーション・プログラム155(例えば、ワード・プロセッサのプログラム等)、それに音声認識ソフトウェア160などが含まれている。
【0023】
マイクロホン105は、ユーザの音声をひろって、その音声をアナログ信号の形でサウンド・カード140へ伝達する。サウンド・カード140では、その信号がA/Dコンバータで処理され、それによって、そのアナログ信号がディジタル・サンプル集合に変換される。プロセッサ130は、オペレーティング・システム150及び音声認識ソフトウェア160の制御下にあって、ユーザの連続音声に含まれている複数のアタランスの各々を識別する。アタランスとは、十分に長い所定時間長さ(例えば、160〜250ミリ秒)の休止(ポーズ)によって前後が区切られた、ひとまとまりの発声部分をいう。アタランスには、ユーザの音声中の1個の単語だけから成るアタランスもあれば、2個以上の単語から成るアタランスもある。
【0024】
この音声認識システムには更に、アナログ・レコーダ・ポート165,及び/または、ディジタル・レコーダ・ポート170を装備することができる。アナログ・レコーダ・ポート165は、サウンド・カード140に接続しており、ハンドヘルド型レコーダ(手持型録音装置)を用いて録音した音声をサウンド・カード140へ入力する際にこのポート165を使用する。このアナログ・レコーダ・ポート165は、ハンドヘルド型レコーダをこのポート165に挿入したときに、そのレコーダのスピーカと対向する位置にマイクロホンを配設した構成のものとしてもよく、また、マイクロホン105をアナログ・レコーダ・ポートとして利用するようにしてもよい。また更に、アナログ・レコーダ・ポート165をテープ・プレーヤで構成し、ハンドヘルド型レコーダで録音したテープを、そのテープ・プレーヤに挿入することによって、そのテープに録音されている情報がサウンド・カード140へ転送されるようにしてもよい。
【0025】
ディジタル・レコーダ・ポート170は、例えばハンドヘルド型ディジタル録音装置を使用して生成したディジタル・ファイルを転送するためのポートとして構成することができる。またその場合には、そのディジタル・ファイルを直接、メモリ145へ転送する構成としてもよい。更に、ディジタル・レコーダ・ポート170は、コンピュータ125の記憶装置(例えばフロッピー・ドライブ)で構成することもできる。
【0026】
図2は、音声認識ソフトウェア160の構成要素を示した図である。理解を容易にするために、以下の説明では、それら構成要素が、ある特定の結果を得るための動作を実行するというように説明する。ただし実際には、それら構成要素の各々は、プロセッサ130が特定の処理手順に従って動作することによって実現されるものである。
【0027】
先ず、フロントエンド処理モジュール200は、サウンド・カード140から(またはディジタル・レコーダ・ポート170から)転送されてくる一連のディジタル・サンプル205を、1個のアタランスの周波数成分を表す一連のパラメータ・フレーム210へ変換する。各々のフレームは、24個のパラメータを含んでおり、1個のアタランスの非常に短い時間部分(例えば10ミリ秒に相当する部分)を表している。
【0028】
認識部215は、ある1個のアタランスに対応した一連のフレームを受取ったならば、それらフレームに処理を施して、当該アタランスに対応したテキストを識別する。そのために、認識部215は、そのテキストに関する幾つかの仮定を考察して、それら仮定の夫々のスコアを付与する。各々の仮定に付与するスコアは、その仮定がユーザの音声に対応している確率を反映した値を有する。処理を容易にするために、このスコアの値は、負の対数値で表すようにしている。この場合、スコアの値が小さいほど、マッチングは良好であり(即ち、仮定が真実である確率が高い)、一方、スコアの値が大きいほど、マッチングの見込みは小さい(即ち、仮定が真実である確率が低い)。従って、スコアの値が大きければ、それだけマッチングの尤度は低下する。認識部215は、1個のアタランスについて以上の処理を完了したならば、スコアが良好な幾つかの仮定を、複数の認識候補を列挙したリスト形で、制御/インターフェース・モジュール220へ供給する。この場合、そのリストに列挙されている認識候補は、その各々が、1つずつの仮定に対応しており、また、その各々にスコアが付与されている。それら認識候補のうちには、テキストに対応した認識候補が含まれていることもあり、また、コマンドに対応した認識候補が含まれていることもある。また、コマンドには、単語から成るコマンド、語句から成るコマンド、それに、センテンスから成るコマンドなどがある。
【0029】
認識部215は、1個のアタランスを構成している複数のフレーム210を処理する際に、1個または2個以上の制約グラマー225に従ってその処理を実行する。制約グラマーは、テンプレートと呼ばれることもあり、また、規制ルールと呼ばれることもある。制約グラマーのうちには、あるアタランスに対応することのできる単語の条件をを規定しているもの、単語どうしの間の並び順の条件を規定しているもの、単語どうしの間の文法形態の条件を規定しているもの、それに、単語どうしの間の並び順の条件と文法形態の条件との両方を規定しているものなどがある。例えば、メニュー操作コマンドに関係した制約グラマーのうちには、メニューに示される項目(例えば「ファイル」や「編集」等)だけを集めた制約グラマーや、メニュー画面内での移動を行わせるコマンド単語(例えば「アップ(up)」、「ダウン(down)」、「トップ(top)」、「ボトム(bottom)」等)だけを集めた制約グラマーがある。制約グラマーは、アクティブ状態にされたり、非アクティブ状態にされたりするため、その時々で、アクティブ状態にある制約グラマーは異なっている。例えば、制約グラマーのうちには、特定のアプリケーション・プログラム155に関連付けられているものがあり、そのような制約グラマーは、ユーザがそのアプリケーション・プログラムを開いたならばアクティブ状態にされ、ユーザがそのアプリケーション・プログラムを閉じたならば非アクティブ状態にされる。認識部215は、アクティブ状態にある制約グラマーに違反する仮定を廃棄する。更に、認識部215は、ある種の制約グラマーに関連付けられている仮定のスコアに対しては、その制約グラマーの特性に基づいて調整を加えることがある。
【0030】
図3は、認識済テキストを選択するのに用いる「セレクト(select)」コマンドのための制約グラマーの具体例を示した図である。図示のごとく、一般的に、制約グラマーは状態図によって表すことができ、図3にはそのための状態図400を示した。「セレクト」コマンドは、その先頭の単語が「セレクト」であって、その後に1個または2個以上の認識済単語が続く構成を有するものであり、2個以上の認識済単語を含んでいるときには、それら単語が、認識された時間の順に並んでいなければならない。この制約グラマーの第1状態405は、そのコマンドの先頭の単語が「セレクト」であることを要求している。先頭の単語が「セレクト」であったならば、この制約グラマーは、パス410で示したように第2状態415へ遷移することを許容し、この第2状態415は、そのコマンドを構成している次の単語が認識済単語であることを要求している。この第2状態415に付したリターンパス420は、そのコマンドが更にその他の認識済単語を含んでいてもよいことを示している。第2状態415から脱出してコマンドを完了させるパス425は、そのコマンドが更に含んでいてもよいのは認識済単語だけであることを示している。図4は、認識したアタランスが「フォー・スコア・アンド・セブン(four score and seven)」であった場合に、以上に説明した「セレクト」コマンドのための制約グラマーが、どのような状態図で表されるかを示したものであり、図4にはそれを状態図450で示した。この状態図を更に拡張して、その他のアタランスの単語も含む状態図にすることも可能である。
【0031】
制約グラマーは、状態図で表せるばかりでなく、Backus−Naur形式(BNF)や、拡張BNF(EBNF)で表すこともできる。「セレクト」コマンドのための制約グラマーは、EBNFで表すと次のように表される。
<認識結果>::=セレクト<単語列>
このEBNF表記において、
<単語列>::=[PRW1[PRW2[PRW3...PRWn]]]|
[PRW2[PRW3...PRWn]]|...[PRWn]、であり、
また、
「PRWi」は、第i番の認識済単語であり、
[]は、オプションであることを表しており、
<>は、ルールであることを表しており、
|は、OR関数であり、
::=は、定義であって、左右両辺が等しいことを表している。
図3及び図4から明らかなように、上記EBNF表記は、「セレクト(select)」の後に任意の認識済単語の単語列が続いてよいが、ただし、その単語列に含まれている認識済単語の並び順が正しくなければならないことを示している。この制約グラマーでは、オプション単語を含むことも、また交代単語を含むことも許容していない。ただし、場合によっては、この制約グラマーに修正を加えて、オプション単語や、交代単語ないし交代語句を含むことを許容するようにした制約グラマーを使用することもある。(例えば、「アンド」をオプション単語として許容するならば、「フォー・スコア・アンド・セブン」と「フォー・スコア・セブン」とのどちらも許容されるようになり、また、交代単語ないし交代語句を用いる場合には、例えば「フォー・スコア・アンド・セブン」と「エイティ・セブン」とのどちらも許容するようにすることができる。)。
【0032】
再び図2について説明する。音声認識ソフトウェア160が使用する制約グラマー225のうちの1つに、ラージ・ボキャブラリ・ディクテーション・グラマーがある。ラージ・ボキャブラリ・ディクテーション・グラマーは、アクティブ・ボキャブラリ230に含まれている単語を識別するためのグラマーであり、アクティブ・ボキャブラリ230は、ソフトウェアにとって既知の単語から成るボキャブラリである。ラージ・ボキャブラリ・ディクテーション・グラマーは、更に、夫々の単語の出現頻度も示している。ラージ・ボキャブラリ・ディクテーション・グラマーに用いる言語モデルは、各々の単語の出現頻度を、その単語の前後にどのような単語があるかを考慮せずに示したユニグラム・モデルとしてもよく、或いは、各々の単語の出現頻度を、その単語に先行する単語がどのようなものであるかを考慮して示したバイグラム・モデルとしてもよい。例えばバイグラム・モデルを使用する場合には、名詞や形容詞は、動詞や前置詞と比べて、「ザ(the)」の後にくる確率が高いということを規定することができる。
【0033】
制約グラマー225のうちには、更に、インライン・ディクテーション・マクロ・グラマーがあり、これは、様々なディクテーション・コマンドのための制約グラマーである。ディクテーション・コマンドには、例えば、単語の頭文字を大文字化するための「キャップ(CAP)」コマンドまたは「キャピタライズ(Capitalize)」コマンドと呼ばれるコマンドや、新たな段落をはじめるための「ニュー・パラグラフ(New−Paragraph)」コマンドなどがある。制約グラマー225のうちには、更に、先に説明したようにテキストを選択するために使用する「セレクト・X・Y・Z(select X Y Z)」グラマー、誤り修正コマンド・グラマー、ディクテーション編集グラマー、特定のアプリケーション・プログラム155を制御するために使用するアプリケーション・コマンド・アンド・コントロール・グラマー、オペレーティング・システム150及び音声認識ソフトウェア160を制御するために使用するグローバル・コマンド・アンド・コントロール・グラマー、メニューを操作するために使用するメニュー・アンド・ダイアログ・トラッキング・グラマー、それに、キーボード115やマウス110等の入力デバイスの代わりに音声を使用できるようにするためのキーボード・コントロール・グラマーがある。
【0034】
アクティブ・ボキャブラリ230に含まれている各単語は、発音モデルで表されており、より詳しくは、各単語は、その単語の表音綴り字を成す音素列によって表されている。また、各音素は、3個のノードから成るトライフォンで表すことができる。トライフォンは前後関係を考慮した音素であり、例えば「abc」というトライフォンは、音素「b」の前に音素「a」が存在し、音素「b」の後に音素「c」が存在するものであり、従って、音素「a」及び「c」が前後関係として付随する音素「b」を表している。
【0035】
ユーザごとに、そのユーザに専用のボキャブラリ・ファイルを作成することができ、1人のユーザに対して2つ以上のボキャブラリ・ファイルを作成することも可能である。あるユーザのボキャブラリ・ファイルには、そのユーザに対応した単語、発音、及び言語モデルに関する情報の全てが収容される。また、ディクテーション及びコマンドに関連した様々なグラマーは、それらを複数の専用ボキャブラリ・ファイルに分けて収容しておくようにすれば、言語モデル情報を最適化し、また、メモリ利用効率を最適化するのに有利であり、またそれによって、1つのボキャブラリ・ファイルに収容する単語の個数を6万4千語までに抑えることができる。また、複数のシステム・ボキャブラリから成る、システム・ボキャブラリ集合も使用される。
【0036】
音響モデル235は、音声認識システムを使用する各ユーザごとに、そのユーザの専用の音響モデルを用意するようにしている。そのために、音声認識システムをはじめて使用するときには、エンロールメント・プログラムを実行して、男性音声または女性音声の、発声者独立の(即ち、特定の発声者に対応するのではなく、どの発声者にも対応する)音響モデルを、特定のユーザの音声に適応させる。また、音声認識システムの使用中にも、音響モデルの適応化を更に進行させることができる。尚、音響モデルは、アクティブ・ボキャブラリ230とは別のファイルに収容しておくようにしている。
【0037】
音響モデル235は、音素を表すものである。音素としてトライフォンを使用している場合には、音響モデル235は、トライフォンの各ノードを、複数のガウス型(正規分布型)確率密度関数(PDF)の混合によって表すものとなっている。例えば、トライフォン「abc」のノード「i」は、次の[式1]に示したabicで表される。
【0038】
【数1】
この[式1]において、wkで表した各係数は混合重みであり、次の[式2]が成り立つ。
【0039】
【数2】
また[式1]において、μkは、確率密度関数(PDF)Nkの平均ベクトルであり、ckは、確率密度関数(PDF)Nkの共分散行列である。フレーム・シーケンス中の各フレームが24個のパラメータを含んでいるのと同様に、各ベクトルμkも24個のパラメータを含んでいる。行列ckは、24×24行列である。トライフォンの各ノードは、最多では、例えば16個のPDFの混合として表される。
【0040】
ラージ・ボキャブラリ・ディクテーション・グラマーは、複数のディクテーション・トピックを含む構成とすることができる(トピックとは、分野別辞書であり、例えば「医学」トピックや「法律」トピック等がある)。各ディクテーション・トピックは、そのトピック専用のボキャブラリ・ファイルと、そのトピック専用の言語モデルとで構成される。ディクテーション・トピックに収容されている単語群は、アクティブ・ボキャブラリ230の構成要素である。1つのディクテーション・トピックには、典型的な具体例では、通常の音声認識において考察対象とされる約3万語程度の単語が収容されている。
【0041】
1つのディクテーション・ボキャブラリの全体は、アクティブ・ボキャブラリ230と、バックアップ・ボキャブラリ245とで構成されている。これらのうちバックアップ・ボキャブラリ245は、例えば、特定ユーザ用バックアップ・ボキャブラリ単語群と、全システム的バックアップ・ボキャブラリ単語群とを収容した複数のファイルで構成されるものである。
【0042】
ユーザが音声認識ソフトウェアの使用中に生成した単語は、特定ユーザ用バックアップ・ボキャブラリ単語群に該当する。また、この種の単語は、そのユーザの専用のボキャブラリ・ファイルに収容されると共に、そのとき使用しているディクテーション・トピックに対応したボキャブラリ・ファイルにも収容される。そのため、その単語は、そのディクテーション・トピックに対応したバックアップ・ディクショナリの一部分として、どのユーザからも利用できるようになると共に、当該ユーザは、そのとき使用しているディクテーション・トピックの種類にかかわらず常にその単語を利用できるようになる。例えば、あるユーザが、医学トピックの使用中に「ガングリオン(ganglion)」という単語をディクテーション・ボキャブラリに追加したならば、それ以後、どのユーザも、医学トピックの使用中にはこの単語「ガングリオン」に即座にアクセスできるようになる。またそれに加えて、その単語は、当該ユーザのための特定ユーザ用バックアップ・ボキャブラリにも書き込まれる。そのため、当該ユーザは、法律トピックを使用しているときであっても、修正作業中に「ガングリオン」と発声することで、バックアップ・ディクショナリに収容されている単語「ガングリオン」を取出すことができる。
【0043】
以上に説明した特定ユーザ用バックアップ・ボキャブラリの他に、更に、全システム的バックアップ・ボキャブラリが装備されている。全システム的バックアップ・ボキャブラリは、システムにとって既知の単語の全てを収容したものであり、ある時点でアクティブ・ボキャブラリに収容されている可能性のある単語は全て、この全システム的バックアップ・ボキャブラリに収容されている。
【0044】
認識部215は、プリフィルタ処理部240と並行して動作できるようにしてある。あるアタランスの処理を開始する際には、認識部215がプリフィルタ処理部240へ要求を発して、そのアタランスの先頭の単語として発声された可能性のある単語(即ち、そのアタランスの先頭の幾つかのフレームに対応する可能性のある単語)のリストを出力させる。プリフィルタ処理部240は、それら一連のフレームとアクティブ・ボキャブラリ230とを粗比較し、それによって、アクティブ・ボキャブラリ230に含まれている単語のうち、認識部215において、より精緻な比較を実行することが適当であると判断される単語だけを拾い出すことで、ボキャブラリの部分集合を編成する。
【0045】
制御/インターフェース・モジュール220は、音声認識ソフトウェアの動作を制御しており、また、その他のソフトウェアとの間のインターフェース、並びに、ユーザとの間のインターフェースの機能を担っている。制御/インターフェース・モジュール220は、認識部215から、各アタランスに対応した複数の認識候補を列挙したリストを受取る。それら認識候補は、ディクテーション・テキストに対応した認識候補であったり、音声認識コマンドに対応した認識候補であったり、外部コマンドに対応した認識候補であったりする。このリスト中の最良スコアの認識候補がディクテーション・テキストに対応した認識候補であったならば、制御/インターフェース・モジュール220は、そのディクテーション・テキストを、例えばワード・プロセッサ等の、その時点でアクティブ状態にあるアプリケーションへ転送する。制御/インターフェース・モジュール220は更に、その最良スコアの認識候補を、グラフィカル・ユーザ・インターフェースを介してユーザに表示することもできる。また、最良スコアの認識候補が、何らかのコマンドであった場合には、制御/インターフェース・モジュール220は、そのコマンドを実行する。例えば、制御/インターフェース・モジュール220は、音声認識コマンド(例えば「ウェイク・アップ(wake up)」コマンドや、「メイク・ザット(make that)」コマンド)に応答して、音声認識ソフトウェアの動作を制御することもあり、また、外部コマンドを、そのコマンドが対応しているソフトウェアへ転送することもある。
【0046】
制御/インターフェース・モジュール220は更に、認識部215が使用するアクティブ・ボキャブラリ、音響モデル、及び制約グラマーの制御を実行する。例えば、音声認識ソフトウェアが、特定のアプリケーション(例えばMicrosoft Word等)に利用されているときには、制御/インターフェース・モジュール220は、アクティブ・ボキャブラリを更新して、そのアプリケーションに対応したコマンド単語を組込み、また、そのアプリケーションに対応した制約グラマーをアクティブ状態にする。
【0047】
制御/インターフェース・モジュール220が担当しているその他の機能としては、ボキャブラリ・カスタマイザとしての機能、及びボキャブラリ・マネージャとしての機能がある。ボキャブラリ・カスタマイザは、ユーザから供給されたテキストをスキャンすることによって、特定のトピックの言語モデルを最適化するものである。また、ボキャブラリ・マネージャは、ボキャブラリ、グラマー、及びマクロのブラウズ(閲覧)及び操作を行うために用いられる開発ツールである。制御/インターフェース・モジュール220のこれら機能の各々は、メイン音声認識ソフトウェアから分離した実行プログラムとして構成するようにしてもよい。同様に、制御/インターフェース・モジュール220それ自体も、独立した実行プログラムとして構成するようにしてもよい。
【0048】
制御/インターフェース・モジュール220は更に、エンロールメント・プログラムを実行する機能も担当している。エンロールメント・プログラムは、エンロール用テキストと、このエンロール用テキストに対応したエンロール用グラマーとを使用して、音声認識ソフトウェアを、特定のユーザに適応するようにカスタマイズするためのプログラムである。エンロールメント・プログラムの動作モードとしては、エンロールメント作業をどのように行うべきかを、エンロールメント・プログラムがユーザに指示するインタラクティブ・モードと、コンピュータとは無関係にユーザに自由にエンロールメント作業を行わせるノンインタラクティブ・モードとの、両方のモードが利用可能である。インタラクティブ・モードでは、エンロールメント・プログラムがエンロール用テキストをユーザに表示して、ユーザはその表示されたテキストを読み上げる。ユーザがそのテキストを読み上げて行くのに合わせて、認識部215が、エンロール用グラマーを使用して、ユーザが次々と発声する一連のアタランスとエンロール用テキストのうちのそれらアタランスに対応した夫々の部分とをマッチングさせて行く。そして、認識部215が、両者をマッチングさせることができなかったときには、エンロールメント・プログラムがユーザへプロンプトを発して、エンロール用テキストの該当部分の読み上げを再度実行させる。認識部215は更に、ユーザが発声するアタランスから得られる音響情報に基づいて、エンロール用テキストのマッチング部分に対応した音響モデル235のトレーニング、即ち適応化を実行する。
【0049】
一方、ノンインタラクティブ・モードにおいては、ユーザは、コンピュータが発するプロンプトによって読み上げを指示されることなく、みずからの判断でエンロール用テキストの読み上げを行う。このモードでは、ユーザは、コンピュータがディスプレイ上に表示したテキストを読み上げるばかりでなく、コンピュータの動作とは全く無関係に、紙に印刷されたテキストを読み上げることによってエンロールメントを行うことも可能であるということが、このモードの大きな利点の1つである。従って、このモードを利用する場合、ユーザは、エンロール用テキストをポータブル録音装置に吹き込み、その録音した情報を後刻コンピュータにダウンロードして認識部215に処理を行わせるという方法を採ることができる。また、このモードを利用する場合には、ユーザは、エンロール用テキストの全ての単語を読み上げる必要はなく、読み飛ばしたい単語やパラグラフは読み飛ばしてかまわない。更に、エンロール用テキストのうちのある部分を反復して読み上げてもかまわない。これらのことによって、エンロールメント作業の融通性が大いに高まっている。
【0050】
エンロールメント・プログラムは、複数のエンロール用テキストを列挙したリストを提示して、使用するエンロール用テキストをユーザに選択させることができ、それらエンロール用テキストの各々には、そのテキストに対応したエンロール用グラマーが付属している。これとは別の方法として、ユーザが、よそで入手したエンロール用テキストを入力することも可能である。この場合には、エンロールメント・プログラムが、その入力されたエンロール用テキストからエンロール用グラマーを生成するか、或いは、予め生成しておいたエンロール用グラマーを使用するようにすればよい。
【0051】
制御/インターフェース・モジュール220は、更に、音声認識ソフトウェア160が実行する様々な処理のうちの、誤り修正処理と、カーソル/ポジション操作処理とを担当している。誤り修正処理には、「メイク・ザット」コマンドに関する処理や、「スペル・ザット」コマンドに関する処理が含まれる。また、カーソル/ポジション操作処理には、上述の「セレクト」コマンド、そのバリエーション(例えば、「セレクト(始点単語)スルー(終点単語)」コマンド等)、「インサート・ビフォー(insert before)」コマンド、「インサート・アフター(insert after)」コマンド、それに「レジューム・ウィズ(resume with)」コマンドに関する処理が含まれる。
【0052】
誤り修正作業の実行中には、バックアップ・ボキャブラリを対象とした単語検索を行うが、その際には、先に、特定ユーザ用バックアップ・ディクショナリを検索し、その後に、全システム的バックアップ・ディクショナリを検索する。また、これらバックアップ・ディクショナリの検索は、ユーザがキーボードから打ち込んだテキストに新単語が含まれていた場合にも実行される。
【0053】
システムが誤認識を発生した場合には、ユーザは、適当な修正コマンドを発することによって、その誤認識の修正を行う。図5〜図18は、テキスト及びコマンドのあるシーケンスに応答して、制御/インターフェース・モジュール220が起動したユーザ・インターフェースを示した図である。図5に示した例では、認識部215が、先頭の(第1番)アタランス1300(「ホエン・ア・ジャスティス・ニーズ・ア・フレンド・ニューパラグラフ(When a justice needs a friend New−Paragraph)」)を正しく認識し、そして、制御/インターフェース・モジュール220が、ディクテーション・ウィンドウ1310の中にこのアタランスの認識結果1305(「When a justice needs a friend))を表示している。ここで、制御/インターフェース・モジュール220は、そのアタランスのうちのテキスト部分に対応したテキスト1305(「When a justice needs a friend」)をディスプレイに表示して、そのアタランスに含まれているフォーマット・コマンド(「ニューパラグラフ」)を実行している。
【0054】
認識部215は、第2番アタランス(「ゼア・アー・ツー・カインズ・オブ・リーガル・キビツァーズ(There are two kinds of legal kibitzers)」)を誤認識しており、即ち、単語「kibitzers」を、誤って「cancers」であると認識している。制御/インターフェース・モジュール220は、この誤った認識結果1316(「There are two kinds of lega cancers」)をディクテーション・ウィンドウ1310の中に表示している。制御/インターフェース・モジュール220は更に、現在アタランス(ここでは第2番アタランス)の認識結果を、ディクテーション・ウィンドウ1310の最下段の表示フィールド1320にも表示している。
【0055】
図6は、ユーザが、この誤認識を修正するところを示した。ユーザは、マウス110を操作して単語「cancer」を選択した上で「スペル・ザット・ケー・アイ・ビー・アイ(Spell that k i b i)」と発声する。制御/インターフェース・モジュール220は、その発声に応答して、その「スペル・ザット」コマンドを認識し、図6に示したような、修正ダイアログボックス1325を表示する。修正ダイアログボックス1325には、指定された文字列(「kibi」)で始まる単語の番号付きリスト1326が表示される。尚、ユーザは、マウス110を操作して単語「cancer」を選択する代わりに、「セレクト」コマンドを使用して言葉によってこの単語を選択することもでき、それには、「セレクト・キャンサー(selsct cancer)」と発声すればよい。また同様に、ユーザは、「スペル・ザット・ケー・アイ・ビー・アイ(Spell That k i b i)」と発声する代わりに、キーボードから文字列「kibi」を打ち込んでもよい。
【0056】
ユーザは、「チューズ・4(Choose 4)」と発声することで、正しい単語1327(「kibitzers」)を選択することができ、それは、「kibitzers」が、選択肢リストの第4番目に表示されているからである。図7に示したように、制御/インターフェース・モジュール220が、この発声に応答して、ディクテーション・ウィンドウ1310に表示されている誤った単語(「cancer」)を、選択された単語1327で置換する。
【0057】
再び図6を参照して説明すると、修正ダイアログボックス1325は「トレーニング(Train)」ボタン1328を備えており、ユーザがこのボタンを選択すると、制御/インターフェース・モジュールがそれに応答して、トレーニング・セッションを開始する。トレーニング・セッションにおいては、ユーザにプロンプトを発し、トレーニングしようとする単語をユーザに発声させて、サンプルを収集する。認識部215は、そのようにして収集したサンプルを使用して、単語の音響モデルをユーザの発声パターンに適応させる。
【0058】
図8に示したように、認識部215は次に、第3番アタランス1329(「ゾウズ・フー・プロナウンス・アミーカス(those who pronounce amicus)」)を誤認識しており、制御/インターフェース・モジュール220が、この誤認識に応答して、ディクテーション・ウィンドウ1310の中に、誤ったテキスト1330(「ゾウズ・フー・ブラウン・ツー・ミート・ジス(those who Brown to meet this)」)を表示している。この場合、ユーザは、「コレクト・ザット(Correct That)」コマンド1331を発声することで、制御/インターフェース・モジュール220に、図9に示すような修正ダイアログボックス1325を開かせる。この修正ダイアログボックス1325には、第3番アタランス1329の全体に対応した認識候補を列挙した選択肢リスト1332が表示される。修正ダイアログボックス1325に一度に表示可能な認識候補の数は、最多で10個までであるが、認識候補を列挙したリスト1332のエントリの個数は10個を超えることがあり得る。その場合には、スクロールバー1333を操作すれば、第11番目以降のエントリにアクセスすることができる。
【0059】
図10に示したように、ユーザは、マウス110を操作して、単語「ブラウン(Brown)」を選択する。ただし、上で説明したように、ユーザは、音声コマンドによって単語「ブラウン(Brown)」を選択することもでき、それには、「セレクト・ブラウン(select Brown)」と発声すればよい。図11に示すように、ユーザはこれに続いて、「ピー・アール・オー・エヌ(pron)」1340と発声することによって、単語「Brown」を置換すべき単語が、文字列「pron」ではじまる単語であることを指定する。この場合、ユーザは、キーボードから文字列「pron」を打ち込んでもよく、それによっても同じ結果が得られる。この選択に応答して、制御/インターフェース・モジュール220が、更新した認識候補のリスト1341を表示する。この新たなリスト1341に含まれている認識候補は全て、更新前のリストでは単語「Brown」となっていた部分が、「pron」ではじまる単語に置換されている。また、それら認識候補はいずれも、「Brown」に先行する単語列(「those who」)は正しく認識された単語列になっているが、「Brown」に後続する単語列は「to meet this」になっている。
【0060】
図12に示したように、ユーザは、マウスを操作してそのリストの第3番エントリを選択することによって、単語「pronounce」を含んでいる認識候補1345を選択する。尚、ユーザは、「チューズ・3(Choose 3)」と発声するようにしてもよく、それによっても同じ結果が得られる。
【0061】
続いてユーザは、図13に示したように、マウスを操作して単語列「to meet this」1350を選択する。続いてユーザは、図14に示したように、キーボードから文字列「amicu」を打ち込む。すると、制御/インターフェース・モジュール220がそれに応答して、更新した認識候補のリスト1351を生成する。この更新したリスト1351に含まれている認識候補はいずれも、単語列「those who pronounce」ではじまっており、また、文字列「amicu」ではじまる単語を含んでいる。例えば、このリストのうちの1つのエントリ1352は、文字列「amicu」ではじまる語句「amicus curiae」を含んでいる。図示例では、第1番エントリ1353が正しいエントリであるため、ユーザは、修正ダイアログボックス1325の最下段にある「OK」ボタン1354をクリックする。すると、制御/インターフェース・モジュール220が、そのクリック操作に応答して、図15に示したように、そのアタランスの訂正バージョン1355を、ディクテーション・ウィンドウ1310の中に表示する。以上に説明したように、アタランスの修正作業の全ステップが、1つの修正ダイアログボックス1325の中で実行される。
【0062】
図16に示したように、認識部215は、次のアタランス1360(「イーチ・サブミッツ・ア・ブリーフ・アズ・アン・アウトサイダー(Each submits a brief as an outsider)」)も誤って認識しており、その誤認識に応答して、制御/インターフェース・モジュール220がディクテーション・ウィンドウ1310の中に誤ったテキスト1361(「イーチ・サブミッツ・ア・ブリーフ・イズ・アン・アウトサイダー(Each submits a brief is an outsider)」)を表示している。図16には、このユーザ・インターフェースの更にもう1つの特徴が示されている。その特徴とは、あるアタランスの認識作業中に、制御/インターフェース・モジュール220は、そのアタランスの部分認識候補1365を表示できるということである。この部分認識候補は、認識部215がそのアタランスの認識処理を完了する前のある時点における、そのアタランスに対応した仮定のうちの、スコアが良好な一連の仮定によって表された候補である。長いアタランスは処理に長時間を要することがあるため、部分認識候補を表示することが有用である。ユーザはここで再び「コレクト・ザット」コマンド1331を発声して、制御/インターフェース・モジュール220に、図17に示したような修正ダイアログボックス1325を表示させる。この修正ダイアログボックス1325には、アタランス1360の全体に対応した複数の認識候補のリスト1370が含まれている。アタランス1360の正しいテキストは、リスト1370の第2番エントリ1372として表示されているため、ユーザは、「チューズ・2(Choose 2)」と発声して、そのテキストを選択する。この発声に応答して、制御/インターフェース・モジュール220が、図18に示したように、ディクテーション・ウィンドウ1310の中にそのテキスト1372を表示する。
【0063】
図19に、制御/インターフェース・モジュール220が、認識結果に対する処理を実行するときの処理手順500を示した。先ず最初に、制御/インターフェース・モジュール220は、認識部215から、あるアタランスの認識結果を受取る(ステップ505)。音声認識ソフトウェアの動作モードが、修正モードになっていなければ(即ち、修正ダイアログボックス1325が表示されていなければ)(ステップ505)、制御/インターフェース・モジュール220は、最良スコアの認識候補が、テキストしか含んでいないかどうかを判定する(ステップ510)。それがテキストしか含んでいなかったならば、制御/インターフェース・モジュールは、そのテキストの処理を実行する(ステップ515)。このとき、制御/インターフェース・モジュールは、例えば、そのテキストをディクテーション・ウィンドウ1310に加入する。
【0064】
一方、その最良スコアの認識候補が、テキスト以外のものを含んでいたならば(ステップ510)、制御/インターフェース・モジュールは、その認識候補が修正コマンドを含んでいるか否かを判定する(ステップ520)。修正コマンドが発せられたのであれば、修正ダイアログボックス1325をアクティブ状態にする。また、修正コマンドとしては、既に説明した「セレクト」コマンド、「スペル・ザット」コマンド、及び「コレクト・ザット」コマンドに加えて、更にもう1つのコマンドがあり、それは「メイク・ザット」コマンドである。
【0065】
もし、その最良スコアの認識候補が、修正コマンドを含んでいなかったならば(ステップ520)、制御/インターフェース・モジュールは、その最良スコアの認識候補に含まれているコマンドが何であれ、そのコマンドの処理を実行する(ステップ525)。例えば、図5に示したように、その最良スコアの認識候補が、テキストの他に、「ニュー・パラグラフ」コマンド等のフォーマット・コマンドを含んでいたならば、制御/インターフェース・モジュールは、その認識候補のテキスト部分の処理を実行すると共に、そのフォーマット・コマンドを実行する。
【0066】
一方、最良スコアの認識候補が修正コマンドを含んでいると判定されたならば(ステップ520)、制御/インターフェース・モジュールは、修正ダイアログボックス1325を表示して(ステップ530)、修正モードに入る(ステップ535)。
【0067】
続いて、制御/インターフェース・モジュールは、その最良スコアの認識候補を、修正コマンドとして処理する(ステップ540)。また、制御/インターフェース・モジュールが最初に認識結果を受け取ったときに、音声認識ソフトウェアが既に修正モードで動作していた場合(即ち、修正ダイアログボックスが既に表示されていた場合)にも、制御/インターフェース・モジュールは、最良スコアの認識候補を、修正コマンドとして処理する。
【0068】
一般的に、制御/インターフェース・モジュールは、修正コマンドに応答して動作するときには、修正ダイアログボックス1325の中に、選択肢リストを表示する。その修正コマンドが「コレクト・ザット」コマンドであって、しかも、最良スコアの認識候補のいずれの部分も、マウス110、キーボード115、ないしは「セレクト」コマンド等によって選択されていなければ、その選択肢リストは、認識部215から受け取った認識候補を列挙したリストになっており、そのリスト中の認識候補は、スコアの良い順に並べられている。一方、その修正コマンドが「コレクト・ザット」コマンドであっても、最良スコアの認識候補のある部分が選択されている場合には、その選択肢リストは、最初に認識部215から受取ったオリジナルの認識候補のうちの、選択部分だけが変更された、新バージョンの認識候補を列挙したリストになっている。オリジナルの認識候補をそのように変更した、新バージョンの認識候補を生成させるためには、例えば、オリジナルの認識候補のうちの選択部分だけを、オリジナルのものから変化させることを許容する制約グラマーを使用して当該アタランスの認識作業を再度実行するように、認識部215に指令を発すればよい。
【0069】
修正コマンドが「スペル・ザット」コマンドである場合もこれと同様であり、オリジナルの認識候補の部分選択がされていなければ、表示される選択肢リストのエントリは全て、その「スペル・ザット」コマンドの、「スペル・ザット」という単語列に続く文字列からはじまるエントリになっている。そして、オリジナルの認識候補のある部分が選択されている場合には、表示される選択肢リストのエントリは、オリジナルの認識候補の選択部分が「スペル・ザット」コマンドに指定された文字列からはじまるように変更された、新バージョンの選択候補になっている。
【0070】
また、「メイク・ザット」コマンドは、そのコマンドの先頭が「メイク・ザット(Make That)」という単語列から成り、その後に、1個または2個以上の置換単語から成る置換単語列が続いているコマンドである。このコマンドが発せられたときに、オリジナルの認識候補のいずれの部分も選択がされていなければ、表示される選択肢リストは、その置換単語列の認識結果をエントリとして含むリストになっており、この場合には、オリジナルの認識候補の全体が、その置換単語列で置換されることになる。ただし、別法として、オリジナルの認識候補の部分選択がなされていなかったならば音声認識ソフトウェアが自動的に、それらオリジナルの認識候補の適当な部分を、置換単語列で置換すべき部分として選択するようにしてもよく、その場合には、表示される選択リストは、その選択部分が様々に異なった種々の認識候補を含んだリストになる。一方、オリジナルの認識候補のある部分が選択がなされているのであれば、表示される選択肢リストには、オリジナルの認識候補の選択部分を、置換単語列の様々な認識候補で置換した様々なバージョンの認識候補を含むものとなる。
【0071】
制御/インターフェース・モジュールは、最良スコアの認識候補の処理を完了したならば(ステップ540)、その認識候補に含まれていたコマンドによる修正セッションが完了しているか否かを判定する(ステップ545)。修正セッションが完了していたならば、制御/インターフェース・モジュールは、修正モードから脱出して、修正ダイアログボックスを閉じる(ステップ550)。修正セッションが完了していたために修正モードから脱出した場合も、またそうでない場合も、制御/インターフェース・モジュールは、続いて、次の認識候補集合が供給されるのを待つ(ステップ500)。更に、制御/インターフェース・モジュールは、テキストしか含まない認識候補の処理を完了したときにも(ステップ515)、また、修正コマンド以外のコマンドしか含まない認識候補の処理を完了したときにも(ステップ525)、同様に、次の認識候補集合が供給されるのを待つことになる。
【0072】
既述のごとく、ユーザは、「メイク・ザット」コマンドを使用して正しい単語ないし単語列の読みを発声するという方法と、「スペル・ザット」コマンドを使用して正しい単語のスペル(またはそのスペルの一部)を発声するという方法との、いずれを選択することも可能である。ユーザが「メイク・ザット」コマンドを起動したならば、認識部215は、そのコマンドを含むアタランスの音声認識を実行し、複数の順序付け音素群(即ち、認識候補)を列挙したリストを、認識結果として返してくる。この場合に、例えば、「メイク・ザット・アップル(Make That Apple)」というアタランスの認識結果には、第1番の認識候補として「メイク・ザット・ア・プル(Make That a pull)」に対応した音素群が含まれ、また、第2番の認識候補として「メイク・ザット・アップル(Make That apple)」に対応した音素群が含まれているということがあるかもしれない。
【0073】
制御/インターフェース・モジュール220は、認識部215から供給される認識候補のリストを拡張して、各々の認識候補の「メイク・ザット」に続く部分の音素群に対応する「混同発音」のマッチング検索を実行する。この混同発音という概念は、特性が類似した音素群どうしは互いに混同されがちであるという知見に基づいたものである。制御/インターフェース・モジュール220は、続いて、混同発音の検索結果に対応した単語を列挙したリストを生成し、それら単語を使用することによって、修正ダイアログボックス1325に表示される選択肢リストのエントリを増大させる。
【0074】
更に、音声認識ソフトウェア160のコンフィギュレーションの設定を、修正ダイアログボックスを使用せずに「メイク・ザット」コマンド及び「スペル・ザット」コマンドを実行できるような設定とすることも可能である。音声認識ソフトウェア160のコンフィギュレーションをそのように設定したならば、制御/インターフェース・モジュール220は、1個のアタランスの全体、またはそのアタランスのうちのユーザによって選択された部分、またはそのアタランスのうちの自動選択によって選択された部分を、その「メイク・ザット」コマンドまたは「スペル・ザット」コマンドの最良スコアの認識結果のテキスト部分で置換する。制御/インターフェース・モジュール220は、この置換を実行するためには、例えば、認識作業の認識結果が上述のリスト中のエントリの1つを必ず含むことを要求する制約グラマーを使用して当該アタランスの認識作業を再度実行するように、認識部215に指令を発すればよい。
【0075】
ユーザが「スペル・ザット」コマンドを起動した場合には、認識部215は、文字列以外を認識することを許容しないスペル制約グラマーの規定に従って、単語のスペルの認識を実行する。この場合、認識部215から供給される認識候補のリストは、複数の文字列を列挙したリストとなり、このリストに含まれる各文字列は、ユーザがその全体または一部のスペルを指定した単語に該当する可能性のある認識結果となっている。次に、制御/インターフェース・モジュールは、その認識結果のリストに含まれている夫々の文字列に対応した「混同スペル」のマッチング検索を実行することができる。混同スペルのマッチング検索は、混同発音のマッチング検索と同様のものであり、発音が類似した文字列どうしは互いに混同されがちであるという知見に基づいたものである。続いて、混同スペルのマッチング検索の結果を、混同発音のマッチング検索の結果と同様に利用して、先に誤認識したテキストを修正する。
【0076】
ここで概要を述べておくと、音声認識システムは、混同発音のマッチング検索や混同スペルのマッチング検索を、ディクショナリを検索することによって実行する。もし、最初に誤認識された単語を修正するために使用された単語が、アクティブ・ボキャブラリに含まれていなければ、認識部215が、最初の認識作業においてその単語を誤認識したことは不可避であったはずである。そこで、同じ誤認識の再発を防止するために、制御/インターフェース・モジュールは、バックアップ・ディクショナリに収容されているその単語をアクティブ・ボキャブラリ230に追加することで、その単語を「アクティブ状態」にする。
【0077】
図21は、制御/インターフェース・モジュール220が修正コマンドを実行する際の処理手順600を示した図である。ユーザが発したコマンドが「コレクト・ザット」コマンドであったならば(ステップ600)、制御/インターフェース・モジュールは、上で説明したのと同様に、選択肢リストを表示する(ステップ605)。
【0078】
一方、ユーザが発したコマンドが「コレクト・ザット」コマンドではなく(ステップ600)、「セレクト」コマンドまたはその変形コマンド(例えば「セレクト[始点単語]スルー[終点単語]」コマンド等)であったならば(ステップ610)、制御/インターフェース・モジュールは、その「セレクト」コマンド等に指定されている単語ないし単語列と同じものを、表示されているテキスト中から探し出してハイライト表示にする(ステップ615)。例えばそのコマンドが基本的な「セレクト」コマンドであったならば、制御/インターフェース・モジュールは、先頭の単語「セレクト」の後に続く単語を調べて、表示されているテキスト中のその単語をハイライト表示にする。同様に、もしそのコマンドが、「セレクト[始点単語]スルー[終点単語]」コマンドであったならば、制御/インターフェース・モジュールは、そのコマンドの「[始点単語]」の部分に示された単語ではじまり「[終点単語]」の部分に示された単語で終わるような、表示されているテキスト中のブロックを、ハイライト表示にする。認識部215は、拡張「セレクト」コマンドに対応した制約グラマーを使用してそれら単語を識別するようにしており、この制約グラマーは次のように表される。
この式において、
<単語列>::=[PRW1[PRW2[PRW3...PRWn]]]|
[PRW2[PRW3...PRWn]]|...[PRWn]、であり、
また、
「PRWi」は、第i番の認識済単語である。
一般的に、この種のコマンドを処理するときには、ディスプレイ120上に表示されている全ての認識済単語が考察対象となる。
【0079】
上式に示した制約グラマーが適用されるコマンドは、「セレクト[単語(または単語列)]」コマンド、「セレクト[始点単語]スルー[終点単語]」コマンド、「セレクト・フロム[始点単語]ツー[終点単語]」コマンド、「セレクト・ザット」コマンド、それに、「セレクト・アゲイン」コマンドである。また、それらコマンドの変形コマンドに対しても適用される。
【0080】
上式中の{順序付け}という表示は、コマンドに含まれる2つの<単語列>のうち、前の<単語列>に示された単語列が、後の<単語列>に示された単語列よりも、表示されているテキスト中で先に出現することを条件として要求する表示である。この{順序付け}表示を制約グラマーに含めることによって、単に、後の<単語列>に該当する単語列が、前の<単語列>に示された単語に応じて異なったものとなることを要求する方式と比べて、処理量が大幅に軽減される。この{順序付け}演算子を実行する場合には、例えば、最初に、前の<単語列>及び後の<単語列>が表示されている認識済テキスト中に含まれているような仮定の全てを容認し、その後に、順序が正しくない認識結果を含む仮定(即ち、選択ブロックの「始点単語」が実は「終点単語」より後に出現するような認識結果)を放棄するようにすればよい。従って、上式に示した制約グラマーは、位置情報に基づいて、無意味な認識結果を排除するようにしたものである。
【0081】
「セレクト・ザット」コマンドは、ユーザの発声済アタランスを選択してハイライト表示にするための、迅速で効率的な手段を提供するものである。より詳しくは、制御/インターフェース・モジュールが、「セレクト・ザット」コマンドに応答して、ユーザの発声済アタランスに対応した単語列をハイライト表示にするのである。
【0082】
「セレクト・アゲイン」コマンドは、1つの文章中に同じ単語が繰返して出現しているときに、その単語の特定の出現箇所を選択するための、迅速で効率的な手段を提供するものである。例えば、ディスプレイ画面上に表示されているテキスト中の3カ所に「音声」という単語が出現しており、音声認識システムが、それら3箇所のうちの先頭の「音声」を(または、その先頭の「音声」を始点単語とする単語列、或いはその先頭の「音声」を終点単語とする単語列を)ハイライト表示にしている場合に、ユーザは「セレクト・アゲイン」と発声することによって、第2番目に出現している「音声」へ移動させることができる。また、このとき、カーソル・ポジションより前方の当該単語の出現箇所へ移動させるか、それとも後方の当該単語の出現箇所へ移動させるかは、ユーザがパラメータを設定することで指定可能である。
【0083】
以上に説明した種々の選択コマンドに応答して仮定を生成する際には、同音異義語の関係にある複数の単語に対しては、それらの全てに同じスコアを付与するように、認識部215のコンフィギュレーションを設定することができる。例えば、ディスプレイ上に表示されているテキスト中に「トライフォンズ(triphones)」という単語と「トライ・フォンズ(try phones)」という語句との両方が含まれているならば、認識部215は、それら2つの要素のいずれかを含んでいる様々な仮定を生成するにあたって、それら仮定の全てにおいて、それら2つの要素のスコアのうちのより良い方のスコアを、それら要素の各々に適用するようにする。
【0084】
上記の制約グラマーのうちの<単語列>の部分は、ディスプレイ上に表示されているテキストが変化するたびに更新することができる。例えば、表示テキストがスクロールされて、ディスプレイ画面の最上段では1行ずつ消えて行き、最下段では1行ずつ追加されるときには、消えて行くテキスト部分は、その制約グラマーの<単語列>の先頭部分から次々と除去し、追加される表示テキストは、その制約グラマーの<単語列>の末尾に追加するようにすればよい。
【0085】
尚、マウス110またはキーボード115を操作して、アタランスの所望の部分を選択することによっても、「セレクト」コマンドを使用した場合と同じ結果を得ることができる。
【0086】
もし、ユーザが発したコマンドが「コレクト・ザット」コマンドでもなく(ステップ600)、また「セレクト」コマンドでもなかったならば(ステップ610)、制御/インターフェース・モジュールは、そのコマンドが「メイク・ザット」コマンドか否かを判定する(ステップ620)。認識部215が「メイク・ザット」コマンドを識別するために用いる制約グラマーは、「セレクト」コマンドを識別するために用いる上述の制約グラマーと同様のものである。より詳しくは、その制約グラマーは、先頭に「メイク・ザット」という単語列があり、その後に1個または2個以上の、認識ボキャブラリに収容されている単語が続くことを条件とするものである。この制約グラマーは、次のように表される。
<認識結果>::=メイク・ザット<音素列>
この式において、
<音素列>::=<音素列><音素>、であり、
また、
<音素>は、任意の有効音素である。
ユーザが起動したコマンドが「メイク・ザット」コマンドであったならば(ステップ620)、制御/インターフェース・モジュールは,MAKE・THAT修正処理(ステップ625)を実行する。
【0087】
一方、そのコマンドが「コレクト・ザット」コマンドでもなく(ステップ600)、「セレクト」コマンドでもなく(ステップ610)、「メイク・ザット」コマンドでもなかったならば(ステップ620)、制御/インターフェース・モジュールは、そのコマンドが「スペル・ザット」コマンドか否かを判定する(ステップ630)。認識部215が「スペル・ザット」コマンドを識別するために用いる制約グラマーは、次のように表される。
<認識結果>::=スペル・ザット<文字列>
この式において、
<文字列>::=<文字列><文字>、であり、
また、
<文字>は、任意の英文字である。
ユーザが起動したコマンドが「スペル・ザット」コマンドであったならば(ステップ630)、制御/インターフェース・モジュールは、SPELL・THAT修正処理(ステップ635)を実行する。ユーザは、修正ダイアログボックスが開かれているときに、キーボードから文字列を打ち込むか、または、文字列を発声すれば、それによっても、この「スペル・ザット」コマンドを起動することができる。
【0088】
制御/インターフェース・モジュールは、MAKE・THAT修正処理(ステップ625)またはSPELL・THAT修正処理(ステップ635)を実行したときには、それに続いてFIND&REPLACE処理(ステップ640)を実行する。この処理を実行すると、認識済テキストのうちの一部が、MAKE・THAT修正処理またはSPELL・THAT修正処理によって生成されたテキストで置換される。簡単に述べるならば、「セレクト」コマンドを使用する等の方法によってそのアタランスのある部分が既に選択されている場合には、制御/インターフェース・モジュール220は、認識部215に認識作業を再度実行させて、その選択部分の単語をその認識結果の単語で置換する。一方、どの部分の選択もされていなければ、制御/インターフェース・モジュールは、そのアタランスの全体を、MAKE・THAT修正処理またはSPELL・THAT修正処理の実行によって生成されたテキストで置換するか、或いは、認識済単語の音声フレームの認識作業を再度実行させて、その認識結果として得られる単語で置換する。
【0089】
また、もしその修正コマンドが「チューズ・N」コマンドであったならば(ステップ645)、制御/インターフェース・モジュールは、修正ダイアログボックス1325に表示されているリストの第N番のエントリを選択した上で(ステップ650)、修正が完了したことを表示する(ステップ655)。もしその修正コマンドが「OK」コマンドをはじめとする肯定的な応答であったならば(ステップ660)、制御/インターフェース・モジュールは、修正ダイアログボックス1325の最上段に表示されているエントリを選択した上で(ステップ665)、修正が完了したことを表示する(ステップ655)。
【0090】
図20は、最良スコアの認識候補に含まれているコマンドが、例えばカーソル/アクション・ポジション操作コマンド等の、修正コマンドには該当しないコマンドである場合に、制御/インターフェース・モジュールがそのコマンドを実行するための処理手順を示したものである(これは、上述のステップ525に対応した処理手順である)。図20には、特に、「インサート・ビフォー(Insert Before)」コマンド、「インサート・アフター(Insert After)」コマンド、それに、「レジューム・ウィズ(Resume With)」コマンドが示されている。
【0091】
もし修正コマンドには該当しないそのコマンドが「インサート・ビフォー」コマンドであったならば(ステップ555)、制御/インターフェース・モジュールは、カーソル/アクション・ポジションを、そのコマンドに指定されているテキスト部分の先頭の直前の位置へ移動させる(ステップ560)。同様に、もしそのコマンドが「インサート・アフター」コマンドであったならば(ステップ565)、制御/インターフェース・モジュールは、カーソル/アクション・ポジションを、そのコマンドに指定されているテキスト部分の末尾の直後の位置へ移動させる(ステップ570)。
【0092】
これら「インサート・ビフォー/アフター」コマンドは、ユーザがテキスト上の所望の位置へ容易に移動するための手段を提供するものである。認識部215は、これらコマンドを識別するために「インサート」制約グラマーを使用し、この制約グラマーは次のように表される。
<認識結果>::=インサート
[ビフォー<単語列>]|
[アフター<単語列>]|
[ビフォー・ザット]|
[アフター・ザット]
この式において、
<単語列>::=[PRW1[PRW2[PRW3...PRWn]]]|
[PRW2[PRW3...PRWn]]|...[PRWn]、であり、
また、
「PRWi」は、第i番の認識済単語である。
「インサート・ビフォー・ザット」コマンドないし「インサート・アフター・ザット」コマンドは、直前に認識されたユーザ・アタランスに対応したテキスト部分の先頭ないし末尾へ、または、ユーザが直前に選択したテキスト部分の先頭ないし末尾へ、迅速且つ効率的に移動するための手段を提供するものである。もしユーザが、これらコマンドを発する前に、テキストの部分選択を行っていなかったならば、制御/インターフェース・モジュールは、これらのコマンドに応答して、カーソル/アクション・ポジションを、(「インサート・ビフォー・ザット」コマンドの場合であれば)直前に認識したアタランスの先頭の直前の位置へ移動させ、或いは、(「インサート・アフター・ザット」コマンドの場合であれば)直前に認識したアタランスの末尾の直後の位置へ移動させる。従って、ユーザは、アタランスの先頭に何らかの単語または単語列を入れ忘れて発声してしまったことに気付いたなら、「インサート・ビフォー・ザット」と発声すれば、そのアタランスの先頭へ移動することができる。そして、入れ忘れた単語を発声した後に、「インサート・アフター・ザット」と発声すれば、そのアタランスの末尾の位置へ戻ることができる。
【0093】
一方、もしユーザが、「インサート・ビフォー・ザット」コマンドないし「インサート・アフター・ザット」コマンドを発する前に、テキストのある部分を選択していたならば、制御/インターフェース・モジュールは、「インサート・ビフォー・ザット」コマンドないし「インサート・アフター・ザット」コマンドに応答して、その選択部分の直前の位置ないし直後の位置へカーソル/アクション・ポジションを移動させる。従ってユーザは、例えば、「セレクト[始点単語]スルー[終点単語]」と発声して、所望のテキスト部分を選択した上で「インサート・ビフォー・ザット」と発声すれば、その選択部分の先頭へ移動することができる。
【0094】
もし修正コマンドには該当しないそのコマンドが「レジューム・ウィズ」コマンドであったならば(ステップ575)、制御/インターフェース・モジュールは、表示されているテキストの中から、そのコマンドに指定されている単語または単語列の一部とオーバーラップする部分を探し出し(ステップ585)、表示されているテキストのうちの、そのオーバーラップする部分から後の全ての部分を、そのコマンドに指定されている単語または単語列で置換する(ステップ585)。従って、例えば、ユーザが最初に「トゥデイ・アイ・ソウ・ア・ジラーフ・アット・ザ・ズウ(Today, I saw a giraffe at the zoo)」と発声し、それに続けて「レジューム・ウィズ・ソウ・アン・エレファント・アット・ザ・サーカス(Resume With saw an elephat at the circus)」と発声したならば、制御/インターフェース・モジュールは、音声認識システムに「トゥデイ・アイ・ソウ・アン・エレファント・アット・ザ・サーカス(Today, I saw an elephant at the circus)」と表示させる。この具体例では、オーバーラップしている単語は「ソウ(saw)」である。
【0095】
同様に、例えば、ユーザが最初に「トゥデイ・アイ・ソウ・ア・ジラーフ・アット・ザ・ズウ・ピリオド(Today, I saw a giraffe at the zoo PERIOD)」と発声し、続いて「ザ・ジラーフ・ハッド・ア・ロング・ネック・ピリオド(The giraffe had a long neck PERIOD)」と発声し、更に続いて「レジューム・ウィズ・ソウ・アン・エレファント・アット・ザ・サーカス(Resume With saw an elephat at the circus)」と発声したならば、制御/インターフェース・モジュールは、音声認識システムに「トゥデイ・アイ・ソウ・アン・エレファント・アット・ザ・サーカス(Today, I saw an elephant at the circus)」と表示させる。従って、最初のディクテーションのうちの、第1番のセンテンスの大部分と、第2番のセンテンスの全体とが、「レジューム・ウィズ」コマンドに含まれているテキストで上書きされる。このことから明らかなように、「レジューム・ウィズ」コマンドを使用することによって、一度に多くのアタランスを上書きによって消去することができる。尚、ユーザが「レジューム・ウィズ」と発声する直前にポーズを取ることを要求する実施の形態とすることもでき、これを要求しない実施の形態とすることもできる。
【0096】
この「レジューム・ウィズ」コマンドは、ディスプレイに情報が表示されていることを必要としない。そのためこのコマンドは、ユーザが、例えばアナログ録音装置やディジタル録音装置等のポータブル録音装置を使用して音声を録音し、その録音した音声を後に音声認識システムへ転送して処理するという方法を用いる場合に特に有用なコマンドである。また、その場合に、この「レジューム・ウィズ」コマンドは、ユーザがディクテーションをやり直すための、または誤って発声した単語を削除するための、簡明で効率的な手段を提供するものである。
【0097】
認識部215は、この「レジューム・ウィズ」コマンドを識別するために「レジューム・ウィズ」制約グラマーを使用する。この制約グラマーは次のように表される。
<認識結果>::=レジューム・ウィズ<単語列>[<新単語列>]
この式において、
<単語列>::=[PRW1[PRW2[PRW3...PRWn]]]|
[PRW2[PRW3...PRWn]]|...[PRWn]、であり、
また、
「PRWi」は、第i番の認識済単語であり、
<新単語列>::=アクティブ・ボキャブラリに含まれる任意の単語または単語列、である。
もし修正コマンドには該当しないそのコマンドが、「インサート」コマンドでもなく、また「レジューム・ウィズ」コマンドでもなかったならば、制御/インターフェース・モジュールは、そのコマンドの種類に応じた適当な処理を実行する(ステップ590)。
【0098】
請求項に記載した範囲には、その他の実施の形態も含まれる。例えば、以上に説明した様々な技法は、特定のハードウェアないしソフトウェアの形態に限定されるものではなく、音声認識を実行することのできるコンピュータ環境ないし処理環境であれば、いかなる環境においても適用可能な技法である。また、それら技法は、ハードウェアで実施することも、ソフトウェアで実施することも、更にはハードウェアとソフトウェアとを組合せて実施することも可能である。それら技法は、プログラム可能なコンピュータ上で動作するコンピュータ・プログラムによって実施することが好ましく、この場合のコンピュータは、プロセッサと、そのプロセッサで読出しが可能な格納媒体(揮発性ないし不揮発性のメモリや、格納装置等)と、少なくとも1つの入力デバイスと、少なくとも1つの出力デバイスとを備えたものであることが好ましい。更にその場合に、入力デバイスを使用して入力したデータに対して、プログラム・コードを適用することで、以上に説明した機能を実行し、出力情報を生成すればよい。そして、その出力情報を、1つないし複数の出力デバイスに供給するようにすればよい。
【0099】
いずれのプログラムも、コンピュータ・システムとコミュニケートすることのできるハイレベルの手続型またはオブジェクト指向のプログラミング言語で作成したプログラムとすることが好ましい。ただし場合によっては、それらプログラムをアセンブリ言語またはマシン語で作成することが好ましいことがあるかもしれず、そのような場合には、それら言語を使用すればよい。更に、いずれの場合も、それら言語をコンパイルして使用するようにしてもよく、或いは、インタープリター言語として使用するようにしてもよい。
【0100】
それらコンピュータ・プログラムは、いずれも、記録媒体ないし記録装置(例えば、CD−ROM、ハード・ディスク、または磁気ディスケット)に格納しておき、それらに格納してあるものを、プログラム可能な汎用型ないし特定用途向けのコンピュータが読出し、その読出したコンピュータ・プログラムによって、そのコンピュータのコンフィギュレーションを設定し、また、そのコンピュータを動作させ、それによって、本明細書に説明した処理手順を実行させるようにすることが好ましい。本発明の音声認識システムは更に、コンピュータによって読出しが可能な、コンピュータ・プログラムを設定した記録媒体として実現することもでき、この場合、コンピュータ・プログラムを設定したその記録媒体が、コンピュータを、以上に説明した特定の方式で動作させることになる。
【図面の簡単な説明】
【図1】音声認識システムのブロック図である。
【図2】図1のシステムの音声認識ソフトウェアのブロック図である。
【図3】認識済テキストを選択するために用いる「セレクト」コマンドに対応した制約グラマーの具体例を示した図である。図示のごとく、この制約グラマーは、状態図400で表すことができる。「セレクト」コマンドは、「セレクト」という単語の後に、1個または2個以上の認識済単語が続くものであり、それら単語は、それらが認識された順番に並んでいなくてはならない。この制約グラマーの第1状態405は、「セレクト」コマンドの先頭の単語が「セレクト」であることを要求している。この制約グラマーは、単語「セレクト」が存在していたならば、それに続いて、パス410を介して第2状態415へ遷移することを許容しており、この第2状態415は、そのコマンドの、単語「セレクト」に続くの次の単語が、認識済単語であることを要求している。パス420は、第2状態415へリターンするパスであり、そのコマンドが、更にその他の認識済単語を含んでいてもよいことを表している。第2状態415から脱出してコマンドを完了させるパス415は、そのコマンドが、認識済単語以外の単語を更に含んでいてはならないことを表している。
【図4】認識済アタランスが「フォー・スコア・アンド・セブン」である場合に、図3に示したセレクト・コマンドのための制約グラマーの状態図がどのように表されるかを示した図である。この図3の状態図は、更に別のアタランスの単語を含むように拡張することもできる。
【図5】図1の音声認識システムのユーザ・インターフェースの画面ディスプレイを示した図である。
【図6】図1の音声認識システムのユーザ・インターフェースの画面ディスプレイを示した図である。
【図7】図1の音声認識システムのユーザ・インターフェースの画面ディスプレイを示した図である。
【図8】図1の音声認識システムのユーザ・インターフェースの画面ディスプレイを示した図である。
【図9】図1の音声認識システムのユーザ・インターフェースの画面ディスプレイを示した図である。
【図10】図1の音声認識システムのユーザ・インターフェースの画面ディスプレイを示した図である。
【図11】図1の音声認識システムのユーザ・インターフェースの画面ディスプレイを示した図である。
【図12】図1の音声認識システムのユーザ・インターフェースの画面ディスプレイを示した図である。
【図13】図1の音声認識システムのユーザ・インターフェースの画面ディスプレイを示した図である。
【図14】図1の音声認識システムのユーザ・インターフェースの画面ディスプレイを示した図である。
【図15】図1の音声認識システムのユーザ・インターフェースの画面ディスプレイを示した図である。
【図16】図1の音声認識システムのユーザ・インターフェースの画面ディスプレイを示した図である。
【図17】図1の音声認識システムのユーザ・インターフェースの画面ディスプレイを示した図である。
【図18】図1の音声認識システムのユーザ・インターフェースの画面ディスプレイを示した図である。
【図19】図2のソフトウェアの制御/インターフェース・モジュールが実行する処理手順を示したフローチャートである。
【図20】図2のソフトウェアの制御/インターフェース・モジュールが実行する処理手順を示したフローチャートである。
【図21】図2のソフトウェアの制御/インターフェース・モジュールが実行する処理手順を示したフローチャートである。
Claims (14)
- コンピュータで実行する音声認識におけるアクション・ポジションの操作方法(500)であって、
発声されたコマンドを表すデータを受取るデータ受取り処理(520)を実行し、該コマンドは、コマンド識別情報と、少なくとも1個の発声済単語を備える指定情報とを含んでおり、
前記データに対する音声認識処理を実行し、前記コマンド識別情報と前記指定情報とを識別すること(505,555,565,575)を含み、
前記コマンド識別情報に基づいて実行されるアクション(560、570,580)においてアクション・ポジション設定処理を実行し、該アクション・ポジション設定処理は、前記少なくとも1個の発生済単語に関連している、ことを特徴とする方法。 - 前記コマンド識別情報は、前記少なくとも1個の発声済単語の前方にアクション・ポジションを設定すべきことを指示し、前記アクション・ポジション設定処理は、前記少なくとも1個の発声済単語の直前にアクション・ポジションを設定すること(560)を含む請求項1記載の方法。
- 前記コマンド識別情報は、「インサート・ビフォー(insert before)」を含む請求項2記載の方法。
- 前記コマンド識別情報は、前記少なくとも1個の発声済単語の後にアクション・ポジションを設定すべきことを指示し、前記アクション・ポジション設定処理は、前記少なくとも1個の発声済単語の直後にアクション・ポジションを設定すること(560)を含む請求項1記載の方法。
- 前記コマンド識別情報は「インサート・アフター(insert after)」を含む請求項4記載の方法。
- 前記指定情報は、複数の単語で構成された1個のアタランスを表す指定辞からなる請求項1記載の方法。
- 前記指定情報は、少なくとも1個の新単語を含み、前記方法は更に、前記少なくとも1個の発声済単語以降の任意の複数の単語を、前記少なくとも1個の新単語で置換する置換処理(585)を実行すること含む、請求項1記載の方法。
- 前記アクション・ポジション設定処理は、前記少なくとも1個の新単語の後にアクション・ポジションを設定すること(570)を含む請求項1から7のいずれか1項に記載の記載の方法。
- 前記コマンド識別情報は「レジューム・ウィズ(resume with)」を含む請求項7記載の方法。
- 前記データ受取り処理は、発声された前記コマンドを、前記音声認識を実行するコンピュータとは物理的に分離した録音装置を用いて録音することによって生成されるデータを受取ることを含む請求項1から9のいずれか1項に記載の方法。
- 前記録音装置はディジタル録音装置を備えており、
前記データ受取り処理は、前記ディジタル録音装置からファイルを受取ることを含む請求項10に記載の方法。 - 前記データ受取り処理は、発声された前記コマンドを前記録音装置で再生することによって生成される信号を受取ることを含む請求項10または11に記載の方法。
- コンピュータ・プログラム(160)を記録したコンピュータが読取り可能な記憶媒体であって、該コンピュータに
発声されたコマンドを表すデータを受取るデータ受取り処理(520)を実行させ、該コマンドは、コマンド識別情報と、少なくとも1個の発声済単語を備える識別情報とを含み、
前記データに対する音声認識処理を実行させ、前記コマンド識別情報と前記指定情報とを識別させることを含み、
システム(100)は前記コマンド識別情報に基づいて実行されるべきアクション(560,570,580)におけるアクション・ポジション設定処理を実行し、前記アクション・ポジション設定処理は前記少なくとも1個の発声済単語に対応している、
ことを特徴とする記憶媒体。 - 音声認識システム(100)であって、
音声信号を受取るための入力デバイス(105、110,115、120)と、
プロセッサ(130)とを備え、該プロセッサは、
発声されたコマンドを表すデータを受取るデータ受取り処理(520)を実行し、該コマンドは、コマンド識別情報と、少なくとも1個の発声済単語を備える指定情報とを含んでおり、
前記データに対する音声認識処理を実行し、前記コマンド識別情報と前記指定情報とを識別する(505,555,565,575)よう構成され、前記音声認識システム(100)は
前記コマンド識別情報に基づいて実行されるアクション(560、570、580)においてアクション・ポジション設定処理を実行し、該アクション・ポジション設定処理は、前記少なくとも1個の発生済み単語に関連している、
ことを特徴とする音声認識システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/094,611 US6601027B1 (en) | 1995-11-13 | 1998-06-15 | Position manipulation in speech recognition |
US09/094611 | 1998-06-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000035799A JP2000035799A (ja) | 2000-02-02 |
JP4444396B2 true JP4444396B2 (ja) | 2010-03-31 |
Family
ID=22246158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP16830399A Expired - Fee Related JP4444396B2 (ja) | 1998-06-15 | 1999-06-15 | 音声認識におけるポジション操作 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6601027B1 (ja) |
EP (1) | EP0965979B1 (ja) |
JP (1) | JP4444396B2 (ja) |
DE (1) | DE69914131T2 (ja) |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7689416B1 (en) | 1999-09-29 | 2010-03-30 | Poirier Darrell A | System for transferring personalize matter from one computer to another |
JP2001100781A (ja) * | 1999-09-30 | 2001-04-13 | Sony Corp | 音声処理装置および音声処理方法、並びに記録媒体 |
JP2003515777A (ja) * | 1999-12-02 | 2003-05-07 | トムソン ライセンシング ソシエテ アノニム | 会話中の典型的な誤り用の相補的言語モデルを用いる音声認識 |
US7243069B2 (en) * | 2000-07-28 | 2007-07-10 | International Business Machines Corporation | Speech recognition by automated context creation |
US6836759B1 (en) | 2000-08-22 | 2004-12-28 | Microsoft Corporation | Method and system of handling the selection of alternates for recognized words |
EP1317750B1 (en) * | 2000-09-08 | 2007-06-06 | Koninklijke Philips Electronics N.V. | Speech recognition method with a replace command |
US7085716B1 (en) * | 2000-10-26 | 2006-08-01 | Nuance Communications, Inc. | Speech recognition using word-in-phrase command |
DE10119677A1 (de) * | 2001-04-20 | 2002-10-24 | Philips Corp Intellectual Pty | Verfahren zum Ermitteln von Datenbankeinträgen |
US20030061053A1 (en) * | 2001-09-27 | 2003-03-27 | Payne Michael J. | Method and apparatus for processing inputs into a computing device |
US20090106251A1 (en) * | 2001-10-24 | 2009-04-23 | Harris Scott C | Web based communication of information with reconfigurable format |
US20030130867A1 (en) * | 2002-01-04 | 2003-07-10 | Rohan Coelho | Consent system for accessing health information |
US20030130875A1 (en) * | 2002-01-04 | 2003-07-10 | Hawash Maher M. | Real-time prescription renewal transaction across a network |
KR100438838B1 (ko) * | 2002-01-29 | 2004-07-05 | 삼성전자주식회사 | 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법 |
JP3967952B2 (ja) * | 2002-04-16 | 2007-08-29 | 富士通株式会社 | 文法更新システム及び方法 |
EP1733382A2 (en) * | 2004-03-09 | 2006-12-20 | Ashwin Rao | System and method for computer recognition and interpretation of arbitrary spoken-characters |
US7580837B2 (en) | 2004-08-12 | 2009-08-25 | At&T Intellectual Property I, L.P. | System and method for targeted tuning module of a speech recognition system |
US7925506B2 (en) * | 2004-10-05 | 2011-04-12 | Inago Corporation | Speech recognition accuracy via concept to keyword mapping |
KR100679042B1 (ko) * | 2004-10-27 | 2007-02-06 | 삼성전자주식회사 | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 |
GB0426347D0 (en) * | 2004-12-01 | 2005-01-05 | Ibm | Methods, apparatus and computer programs for automatic speech recognition |
US7242751B2 (en) | 2004-12-06 | 2007-07-10 | Sbc Knowledge Ventures, L.P. | System and method for speech recognition-enabled automatic call routing |
US7751551B2 (en) | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
US7627096B2 (en) * | 2005-01-14 | 2009-12-01 | At&T Intellectual Property I, L.P. | System and method for independently recognizing and selecting actions and objects in a speech recognition system |
JP4574390B2 (ja) * | 2005-02-22 | 2010-11-04 | キヤノン株式会社 | 音声認識方法 |
US7949536B2 (en) * | 2006-08-31 | 2011-05-24 | Microsoft Corporation | Intelligent speech recognition of incomplete phrases |
US8502876B2 (en) | 2006-09-12 | 2013-08-06 | Storz Endoskop Producktions GmbH | Audio, visual and device data capturing system with real-time speech recognition command and control system |
US9830912B2 (en) | 2006-11-30 | 2017-11-28 | Ashwin P Rao | Speak and touch auto correction interface |
US8731925B2 (en) * | 2006-12-22 | 2014-05-20 | Nuance Communications, Inc. | Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack |
KR20090020265A (ko) * | 2007-08-23 | 2009-02-26 | 삼성전자주식회사 | 휴대 단말기 및 그 메시지 작성 방법 |
US20090234655A1 (en) * | 2008-03-13 | 2009-09-17 | Jason Kwon | Mobile electronic device with active speech recognition |
US8536976B2 (en) * | 2008-06-11 | 2013-09-17 | Veritrix, Inc. | Single-channel multi-factor authentication |
US8849672B2 (en) * | 2008-05-22 | 2014-09-30 | Core Wireless Licensing S.A.R.L. | System and method for excerpt creation by designating a text segment using speech |
US8166297B2 (en) * | 2008-07-02 | 2012-04-24 | Veritrix, Inc. | Systems and methods for controlling access to encrypted data stored on a mobile device |
US9922640B2 (en) | 2008-10-17 | 2018-03-20 | Ashwin P Rao | System and method for multimodal utterance detection |
WO2010051342A1 (en) * | 2008-11-03 | 2010-05-06 | Veritrix, Inc. | User authentication for social networks |
US9197736B2 (en) | 2009-12-31 | 2015-11-24 | Digimarc Corporation | Intuitive computing methods and systems |
JP5753769B2 (ja) * | 2011-11-18 | 2015-07-22 | 株式会社日立製作所 | 音声データ検索システムおよびそのためのプログラム |
US9336776B2 (en) * | 2013-05-01 | 2016-05-10 | Sap Se | Enhancing speech recognition with domain-specific knowledge to detect topic-related content |
JP6100101B2 (ja) * | 2013-06-04 | 2017-03-22 | アルパイン株式会社 | 音声認識を利用した候補選択装置および候補選択方法 |
USD747733S1 (en) * | 2013-08-30 | 2016-01-19 | SkyBell Technologies, Inc. | Display screen or portion thereof with a graphical user interface |
JP6193736B2 (ja) * | 2013-11-15 | 2017-09-06 | 日本電信電話株式会社 | 同音異義語除去方法と複合語除去方法と同音異義語・複合語除去方法とそれらの装置とプログラム |
US9311639B2 (en) | 2014-02-11 | 2016-04-12 | Digimarc Corporation | Methods, apparatus and arrangements for device to device communication |
USD762688S1 (en) | 2014-05-16 | 2016-08-02 | SkyBell Technologies, Inc. | Display screen or a portion thereof with a graphical user interface |
USD760738S1 (en) | 2015-01-15 | 2016-07-05 | SkyBell Technologies, Inc. | Display screen or a portion thereof with a graphical user interface |
USD759702S1 (en) | 2015-01-15 | 2016-06-21 | SkyBell Technologies, Inc. | Display screen or a portion thereof with a graphical user interface |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
US10832675B2 (en) | 2018-08-24 | 2020-11-10 | Denso International America, Inc. | Speech recognition system with interactive spelling function |
US10325597B1 (en) * | 2018-10-08 | 2019-06-18 | Sorenson Ip Holdings, Llc | Transcription of communications |
US11875780B2 (en) * | 2021-02-16 | 2024-01-16 | Vocollect, Inc. | Voice recognition performance constellation graph |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4355302A (en) | 1980-09-12 | 1982-10-19 | Bell Telephone Laboratories, Incorporated | Spelled word recognizer |
US4674065A (en) | 1982-04-30 | 1987-06-16 | International Business Machines Corporation | System for detecting and correcting contextual errors in a text processing system |
US4566065A (en) * | 1983-04-22 | 1986-01-21 | Kalman Toth | Computer aided stenographic system |
US4726065A (en) * | 1984-01-26 | 1988-02-16 | Horst Froessl | Image manipulation by speech signals |
US4914704A (en) | 1984-10-30 | 1990-04-03 | International Business Machines Corporation | Text editor for speech input |
NL8500339A (nl) | 1985-02-07 | 1986-09-01 | Philips Nv | Adaptief responderend systeem. |
US4833712A (en) | 1985-05-29 | 1989-05-23 | International Business Machines Corporation | Automatic generation of simple Markov model stunted baseforms for words in a vocabulary |
US4783803A (en) | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
US4866778A (en) | 1986-08-11 | 1989-09-12 | Dragon Systems, Inc. | Interactive speech recognition apparatus |
US4829576A (en) | 1986-10-21 | 1989-05-09 | Dragon Systems, Inc. | Voice recognition system |
US4805219A (en) | 1987-04-03 | 1989-02-14 | Dragon Systems, Inc. | Method for speech recognition |
US4805218A (en) | 1987-04-03 | 1989-02-14 | Dragon Systems, Inc. | Method for speech analysis and speech recognition |
US5231670A (en) | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
US4931950A (en) | 1988-07-25 | 1990-06-05 | Electric Power Research Institute | Multimedia interface and method for computer system |
JPH0293597A (ja) | 1988-09-30 | 1990-04-04 | Nippon I B M Kk | 音声認識装置 |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5127055A (en) * | 1988-12-30 | 1992-06-30 | Kurzweil Applied Intelligence, Inc. | Speech recognition apparatus & method having dynamic reference pattern adaptation |
US5033087A (en) | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
JPH03163623A (ja) | 1989-06-23 | 1991-07-15 | Articulate Syst Inc | 音声制御コンピュータ・インターフェース |
US5036538A (en) | 1989-11-22 | 1991-07-30 | Telephonics Corporation | Multi-station voice recognition and processing system |
US5202952A (en) | 1990-06-22 | 1993-04-13 | Dragon Systems, Inc. | Large-vocabulary continuous speech prefiltering and processing system |
US5329609A (en) | 1990-07-31 | 1994-07-12 | Fujitsu Limited | Recognition apparatus with function of displaying plural recognition candidates |
US5386494A (en) | 1991-12-06 | 1995-01-31 | Apple Computer, Inc. | Method and apparatus for controlling a speech recognition function using a cursor control device |
EP0634042B1 (en) | 1992-03-06 | 2001-07-11 | Dragon Systems Inc. | Speech recognition system for languages with compound words |
US5398220A (en) | 1992-04-06 | 1995-03-14 | Barker; Bruce J. | Portable dictation recording device having a mechanism for transmitting recorded dictation to a remote device |
US5428707A (en) | 1992-11-13 | 1995-06-27 | Dragon Systems, Inc. | Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance |
DE69326431T2 (de) | 1992-12-28 | 2000-02-03 | Toshiba Kawasaki Kk | Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist |
US5384892A (en) | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
US5497373A (en) | 1994-03-22 | 1996-03-05 | Ericsson Messaging Systems Inc. | Multi-media interface |
US5491774A (en) * | 1994-04-19 | 1996-02-13 | Comp General Corporation | Handheld record and playback device with flash memory |
US5477511A (en) * | 1994-07-13 | 1995-12-19 | Englehardt; C. Duane | Portable documentation system |
US5765132A (en) | 1995-10-26 | 1998-06-09 | Dragon Systems, Inc. | Building speech models for new words in a multi-word utterance |
US6064959A (en) * | 1997-03-28 | 2000-05-16 | Dragon Systems, Inc. | Error correction in speech recognition |
US5799279A (en) * | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
US5794189A (en) * | 1995-11-13 | 1998-08-11 | Dragon Systems, Inc. | Continuous speech recognition |
US6212498B1 (en) * | 1997-03-28 | 2001-04-03 | Dragon Systems, Inc. | Enrollment in speech recognition |
US6167377A (en) * | 1997-03-28 | 2000-12-26 | Dragon Systems, Inc. | Speech recognition language models |
US5875429A (en) * | 1997-05-20 | 1999-02-23 | Applied Voice Recognition, Inc. | Method and apparatus for editing documents through voice recognition |
US6138098A (en) * | 1997-06-30 | 2000-10-24 | Lernout & Hauspie Speech Products N.V. | Command parsing and rewrite system |
US6085159A (en) * | 1998-03-26 | 2000-07-04 | International Business Machines Corporation | Displaying voice commands with multiple variables |
US6163768A (en) * | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
-
1998
- 1998-06-15 US US09/094,611 patent/US6601027B1/en not_active Expired - Lifetime
-
1999
- 1999-06-15 EP EP99304637A patent/EP0965979B1/en not_active Expired - Lifetime
- 1999-06-15 JP JP16830399A patent/JP4444396B2/ja not_active Expired - Fee Related
- 1999-06-15 DE DE69914131T patent/DE69914131T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2000035799A (ja) | 2000-02-02 |
US6601027B1 (en) | 2003-07-29 |
DE69914131T2 (de) | 2004-11-11 |
DE69914131D1 (de) | 2004-02-19 |
EP0965979A1 (en) | 1999-12-22 |
EP0965979B1 (en) | 2004-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4444396B2 (ja) | 音声認識におけるポジション操作 | |
JP4510953B2 (ja) | 音声認識におけるノンインタラクティブ方式のエンロールメント | |
US7315818B2 (en) | Error correction in speech recognition | |
US6212498B1 (en) | Enrollment in speech recognition | |
EP1346343B1 (en) | Speech recognition using word-in-phrase command | |
US6064959A (en) | Error correction in speech recognition | |
EP0376501B1 (en) | Speech recognition system | |
US6092044A (en) | Pronunciation generation in speech recognition | |
US7584102B2 (en) | Language model for use in speech recognition | |
US7580838B2 (en) | Automatic insertion of non-verbalized punctuation | |
JP4604178B2 (ja) | 音声認識装置及び方法ならびにプログラム | |
EP0840288B1 (en) | Method and system for editing phrases during continuous speech recognition | |
EP1693827B1 (en) | Extensible speech recognition system that provides a user with audio feedback | |
JP2002117026A (ja) | 確率的入力方法によって生成された候補リストからフィルタリングおよび選択を行うための方法およびシステム | |
JP2010525415A (ja) | アジア文字を生成するための認識アーキテクチャ | |
JP2001184088A (ja) | コンピュータ読取自在の記録媒体、及びバックグランド・オーディオ・リカバリー・システム | |
EP1189203B1 (en) | Homophone selection in speech recognition | |
JP2003162524A (ja) | 言語処理装置 | |
JP2003510662A (ja) | 音声認識器における綴りモード |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060329 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090702 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20091001 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20091006 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20091030 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20091105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091216 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100114 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4444396 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130122 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130122 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |