JP4827274B2

JP4827274B2 - コマンド辞書を使用する音声認識方法

Info

Publication number: JP4827274B2
Application number: JP53586899A
Authority: JP
Inventors: ヤネク，ハボル; ウユッテ，ヘリベルト; グラブハー，マンフレッド
Original assignee: ニュアンスコミュニケーションズオーストリアゲーエムベーハー
Priority date: 1997-12-30
Filing date: 1998-12-14
Publication date: 2011-11-30
Anticipated expiration: 2018-12-14
Also published as: WO1999035640A3; EP0962014B1; US6253176B1; EP0962014A2; DE69819690T2; ATE254327T1; KR20000075828A; JP2001515611A; WO1999035640A2; DE69819690D1

Description

本発明は、作動され得る少なくとも一つの動作状態を有し作動状態に駆動され得る少なくとも一つの処理ユニットと、内容に関して作動状態の少なくとも一つの処理ユニットの少なくとも一つの作動された動作状態に依存するコマンドを収容するコマンド辞書を使用して、少なくとも一つの処理ユニットを少なくとも一つの動作状態に関して制御する音声認識装置とを備えた製品であって、音声認識装置が、コマンド辞書のコマンドがコマンド情報及びコマンド情報に割り当てられた識別情報の形式で記憶され得るコマンド辞書メモリと、少なくとも話者によって発話されたコマンドを表現する音声情報が供給され、上記コマンド辞書メモリに記憶された識別情報を用いてかかる音声情報に割り当てられるべきコマンド情報を検出するよう構成され、上記発話されたコマンドに対応する処理ユニット動作状態が供給された上記検出されたコマンド情報によって作動され得る処理ユニットに上記検出されたコマンド情報を転送するよう構成された音声認識手段とを含む製品に関する。
また、本発明は、作動され得る少なくとも一つの動作状態を有し作動状態に駆動され得る少なくとも一つの処理ユニットと協働するよう構成され、内容に関して作動状態の少なくとも一つの処理ユニットの少なくとも一つの作動された動作状態に依存するコマンドを収容するコマンド辞書を使用して、少なくとも一つの処理ユニットを少なくとも一つの動作状態に関して制御するよう構成された音声認識装置であって、コマンド辞書のコマンドがコマンド情報及びコマンド情報に割り当てられた識別情報の形式で記憶され得るコマンド辞書メモリと、少なくとも話者によって発話されたコマンドを表現する音声情報が供給され、上記コマンド辞書メモリに記憶された識別情報を用いてかかる音声情報に割り当てられるべきコマンド情報を検出するよう構成され、上記発話されたコマンドに対応する処理ユニット動作状態が供給された上記検出されたコマンド情報によって作動され得る処理ユニットに上記検出されたコマンド情報を転送するよう構成された音声認識手段とを含む音声認識装置に関する。
本発明は、コマンド情報及びコマンド情報に割り当てられた識別情報の形式でコマンド辞書メモリに記憶され得るコマンドを収容するコマンド辞書を用いて、作動され得る少なくとも一つの動作状態を有し作動状態に駆動され得る少なくとも一つの処理ユニットを少なくとも一つの動作状態に関して制御するよう構成された音声認識装置用のコマンド辞書を作成する方法であって、少なくとも話者によって発話されコマンドを表現する音声情報が音声認識手段に供給され、上記音声認識手段は上記コマンド辞書メモリに記憶された識別情報を用いてかかる音声情報に対するコマンド情報を検出し、上記検出されたコマンド情報は、発話されたコマンドに対応する処理ユニットの動作状態を作動させるため処理ユニットに供給され得る方法に関する。
上記の製品、音声認識装置及び方法は、例えば、文献：欧州特許ＥＰ０６０７６１５Ａ１によって公知である。公知の製品において、音声認識装置は、複数の処理ユニットと協働するよう構成され、テキストを構築するテキスト要素を入力し、処理ユニットをその動作状態に関して制御するコマンドを入力するため使用される。このような処理ユニットは、例えば、Ｗｉｎｄｏｗｓ^TM用のＷｏｒｄプログラムを実装するテキストプロセッサによって形成される。この音声認識装置には、音声認識装置のユーザによって発話された音声情報がコマンドとして、又は、処理ユニットのためのテキスト要素としてテキスト入力モードで入力されるマイクロホンが接続される。音声認識装置は、コマンド辞書を形成するコマンドが処理ユニットを制御するコマンド情報及びこのコマンド情報に割り当てられたいわゆる音素により形成される識別情報の形式で記憶されるコマンド辞書メモリを含む音声認識手段を具備する。ユーザによってコマンドとして入力された音声情報は、音声認識手段において処理され、コマンド入力モードでコマンド辞書メモリに記憶された識別情報と比較され、コマンドとして入力された音声情報に割り当てられたコマンド情報が発生され、上記コマンドに対応した処理ユニットの動作状態を作動させるため処理ユニットに送られる。
従来の音声認識装置が処理ユニットを制御するため動作を開始する前に、音声認識装置は、学習モードでこの処理ユニットに適応する必要があり、音声コマンド処理手段がこの処理ユニットに追加される。学習モードでは、従来の音声認識装置は、種々の処理ユニットに適応し、さらに、音声認識手段のより良好な認識結果を得るためそれぞれの処理ユニットの種々の動作状態に適応し得る。したがって、学習処理モードの場合、音声認識装置のユーザは、処理ユニットの動作状態に対し、この動作状態で使用可能であり、処理ユニットの動作状態を変更するため適するコマンドを選択する。これらのコマンドは、この処理ユニットのこの動作状態に割り当てられたコマンド辞書の収集用メモリにコマンド情報として記憶される。次に、ユーザは、学習モードでこれらのコマンドを音声情報としてマイクロホンに発話し、コマンド情報に基づいてコマンド辞書の収集用メモリに記憶された識別情報を発生させながら、これらのコマンドに対し音声認識手段を訓練することができる。各動作状態に対し指定された方法で発生されたすべてのコマンド辞書は、音声認識装置のコマンド辞書の収集用メモリに記憶され、処理ユニット及び処理ユニットテーブル内の動作状態に割り当てられる。
音声コマンド処理手段の追加によって音声認識装置と協働するため準備され、従来の音声処理装置が学習モードで準備した処理ユニットの動作状態が変更されたとき、処理ユニットは、処理ユニットの動作状態に関する情報を音声処理装置に送信する。処理ユニットテーブルを使用しながら、音声認識装置は、学習モードで他の全てのコマンド辞書と組み合わせて発生された、現在の動作状態に適したコマンド辞書を検出し、このコマンド辞書の収集用メモリのコマンド辞書をコマンド辞書メモリに再格納する。ユーザが処理ユニットの動作状態を変更するコマンドを音声情報としてマイクロホンに発話したとき、音声認識のために使用されるコマンドはこの動作状態に対しユーザが選択した非常に少数のコマンドだけであるため、発話コマンドの認識結果はかなり高い。コマンド表現する音声情報に割り当てられた音声認識手段によって検出されたコマンド情報は、処理手段の音声コマンド処理手段にテキスト要素として送信される。処理ユニットの音声コマンド処理手段は、制御情報信号を送信されたテキスト要素に割り当て、この制御情報はコマンド情報に対応したコマンドを発生させ、これにより、テキスト要素は処理ユニットで処理され、次に、処理ユニットの動作状態は処理されたコマンドに従って変更される。
従来の音声認識装置の場合、複数の処理ユニットの各動作状態に対しコマンド辞書を作成することは、非常に時間的コストが高く、費用的に高価であることがわかる。また、従来の音声認識装置の用途は、音声コマンド処理手段が付加され、コマンド辞書が作成された処理ユニットに制限されている。さらに、従来の音声認識装置の場合、作成されたすべてのコマンド辞書はコマンド辞書収集用メモリに記憶、管理される必要があり、そのために、従来の音声認識装置はかなり大容量のメモリと、非常に複雑な制御手段とを共に備えている。
本発明の目的は、上記従来技術の問題点を回避し、音声認識装置を含む改良された製品、改良された音声認識装置を含む改良された製品、並びに、音声認識装置のためのコマンド辞書を作成する改良された方法を提供することである。
本発明によれば、上記本発明の目的は、処理ユニットの動作状態が作動された後に、この作動された動作状態だけに割り当てられるコマンド辞書を作成するよう構成された作成手段が設けられている冒頭の第１節に記載されたタイプの製品によって達成される。
また、本発明によれば、上記目的は、処理ユニットの動作状態が作動された後に、この作動された動作状態だけに割り当てられるコマンド辞書を作成するよう構成された作成手段が設けられている冒頭の第２節に記載されたタイプの音声認識装置によって達成される。
また、本発明によれば、上記目的は、処理ユニットの動作状態が作動された後に、この作動された動作状態だけに割り当てられるコマンド辞書が作成手段によって作成される冒頭の第３節に記載されたタイプの方法によって達成される。
本発明により得られる利点は、処理ユニットの単一の動作状態に割り当てられ、この動作状態に正確に適応したコマンド辞書は、処理ユニットの新しい動作状態が出現した都度に作成されるので、音声認識装置が処理ユニットと協働するため最初に準備させられる学習モードを設ける必要がないことである。また、処理ユニットの異なる動作状態に対する多数のコマンド辞書を記憶するコマンド辞書の収集用メモリを省いても構わない。さらに、複数のコマンド辞書を管理する制御手段を省略してもよい。これらの結果として、費用効果率の良い製品若しくは費用効果率の良い音声認識装置を実現することが可能である。
請求項１に係わる本発明による製品は、請求項２に係わる手段を設けることにより有利になることが示される。請求項６に係わる本発明による音声認識装置は、請求項７に係わる手段を設けることにより有利になることが示される。請求項１１に係わる本発明による方法は、請求項１２に係わる手段を設けることにより有利になることが示される。これらの手段は、簡単、かつ、信頼性の高い形で実現できる点で有利である。
請求項２に係わる本発明による製品は、請求項３に係わる手段を設けることにより有利になることが示される。請求項７に係わる本発明による音声認識装置は、請求項８に係わる手段を設けることにより有利になることが示される。請求項１２に係わる本発明による方法は、請求項１３に係わる手段を設けることにより有利になることが示される。その結果として、ユーザによって発話され、コマンドを表現する音声情報が現れたとき、音声認識装置は、処理ユニット内の発話コマンドの処理に直結する制御情報を処理ユニットに送信するので、製品に含まれる音声認識装置と協働するため設けられた処理ユニット内の音声コマンド処理手段を省略してもよい利点が得られる。これにより、コストが削減されるだけではなく、音声コマンド処理手段を音声認識装置と協働するため設けられたすべての処理ユニットに配備するため要する時間も削減される。
請求項２に係わる本発明による製品は、請求項４に係わる手段を設けることにより有利になることが示される。請求項７に係わる本発明による音声認識装置は、請求項９に係わる手段を設けることにより有利になることが示される。請求項１２に係わる本発明による方法は、請求項１４に係わる手段を設けることにより有利になることが示される。この結果として、製品に含まれる音声認識装置は、時間窓方式若しくは並列処理方式で別々に作動状態にされ得る複数の処理ユニットと協働するよう構成される利点と、適当なコマンド情報が動作状態に駆動された処理窓だけによって検出される利点とが得られる。
請求項２に係わる本発明による製品は、請求項５に係わる手段を設けることにより有利になることが示される。請求項７に係わる本発明による音声認識装置は、請求項１０に係わる手段を設けることにより有利になることが示される。請求項１２に係わる本発明による方法は、請求項１５に係わる手段を設けることにより有利になることが示される。例えば、Ｗｉｎｄｏｗｓ９５^TM、ＷｉｎｄｏｗｓＮＴ^TM、若しくは、Ｘ−Ｗｉｎｄｏｗｓ^TMのようなプログラムを用いて実現されるウィンドウズ処理ユニットと協働する音声認識装置を構成する本発明による製品の手段によって、認識手段及び検出手段を非常に簡単に構成することができるようになるので、ウィンドウズ処理ユニットと協働するため設けられた複数の音声処理ユニットと協働し得る簡単な音声認識装置が実現される。
本発明の上記並びに他の局面は、以下の実施例の説明によって明らかにされ、解説される。図面中、
図１は、本発明による方法が実施され、３種類の処理ユニットを制御するよう構成され、処理ユニットのある動作状態から処理ユニットの別の動作状態への変化後にコマンド辞書を作成する作成手段を含む本発明による音声認識装置を備えた本発明による製品としてのパーソナルコンピュータをブロック形式で概略的に示す図である。
図２は、図１に示されたパーソナルコンピュータのウィンドウズ処理ユニットの処理ウィンドウマネージャーに記憶された処理ウィンドウテーブルを表す図である。
図３は、図１に示されたパーソナルコンピュータのウィンドウズ処理ユニットの切換領域マネージャーに記憶された切換領域テーブルを表わす図である。
図４は、図１に示されたパーソナルコンピュータに実装され、音声認識装置がコマンド辞書を作成するため使用される本発明による方法の少なくとも基本的な部分が説明されているフローチャートである。
図５は、図１に示されたパーソナルコンピュータに実装され、作成されたコマンド辞書が実装される間に話者によって発話された音声情報を認識し、処理ユニットのある動作状態を別の動作状態に変えるため制御情報を処理ユニットに送出する音声認識装置を利用する本発明による方法の少なくとも基本的な部分が説明されている更なるフローチャートである。
図１には、音声認識装置２とＰＣ（パーソナルコンピュータ）処理ユニット３とを含み、モニター４を具備し、マイクロホン５、キーボード６及びスピーカー７が接続されたパーソナルコンピュータ１が示されている。
パーソナルコンピュータ１の音声認識装置２は、本例では、特に、コマンドを収容するコマンド辞書を用いて少なくとも一つの処理ユニットをその動作状態に関して制御するため使用される。以下に詳細に説明するように、辞書はその内容に関して作動的な処理ユニットの作動された動作状態に依存する。
話者によって発話された複数の相関関係のある語又は別々の語を含むアナログ音声情報ＳＩは、マイクロホン５を介して音声認識装置２のアナログ／デジタル変換器段８に供給することができる。デジタル音声情報ＳＩは、アナログ／デジタル変換器段８を介して記憶手段９に送られ、記憶手段に記憶される。
記憶手段９から読み出されたデジタル音声情報ＳＩは、音声再生モードでデジタル／アナログ変換器段１２に供給され、このデジタル／アナログ変換器段１２を介してアナログ音声情報ＳＩとしてスピーカー７に送出される。音声再生モードは、ここでは説明しない方法で作動され得る状態である。
記憶手段９から読み出されるデジタル音声情報ＳＩは、音声認識装置２の音声認識手段１０、すなわち、音声認識手段１０に含まれる音声認識段１１に供給することが可能である。音声情報によって表現され、話者によって発話されたコマンドは、音声認識手段１０に送られ得る。これらの音声認識手段１０は、特に、コマンド情報ＢＩ、すなわち、供給されたコマンドに実際に割り当てられ、供給されたコマンドを表現するコマンドを、コマンド辞書メモリに格納された識別情報ＰＩを用いて検出し、コマンドを表現するコマンド情報ＢＩを処理ユニットに転送するよう構成される。処理ユニットに転送され、コマンドを表現する検出されたコマンド情報ＢＩは、発話されたコマンドと対応した処理ユニットの所望の動作状態を作動させる際に役立つ。
マイクロホン５は、音声認識装置２のコマンド入力モードが作動されるコマンド入力モード駆動用信号ＣＭＩを供給するため、話者によって作動され得るキー１３を有する。コマンド入力モード駆動用情報ＣＭＩは、キー１３を用いて音声認識段１１に供給され得る。
音声認識手段１０に送られたデジタル音声情報ＳＩを検出し、テキスト情報ＴＩを検出された音声情報ＳＩに割り当てるため、音声認識手段１０は、音声認識段１１、辞書メモリ１４、音声モデルメモリ１５及び参照メモリ１６を含む。これらの３種類のメモリ１４、１５及び１６は、音声認識段１１に接続される。
辞書メモリ１４は、コマンド辞書メモリ１７及びテキスト辞書メモリ１８を含む。コマンド辞書メモリ１７は、コマンド語彙メモリ１９及び基本語彙メモリ２０を含む。テキスト辞書メモリ１８は、本例の場合、必須ではない基本語彙メモリ２０と、テキスト語彙メモリ２１とを含む。
単語を記憶するため、辞書メモリ１４は、テキスト情報ＴＩと、テキスト情報に割り当てられた識別情報ＰＩとを記憶することができる。この記憶方式は、単語毎にテキスト情報ＴＩ、すなわち、書記素と、テキスト情報ＴＩに割り当てられた識別情報ＰＩ、すなわち、音素列とが記憶されるように組織化される。単語メモリの組織化は他の方法で実現してもよいことに注意する必要がある。
基本語彙メモリ２０は、基本表記を表現し、基本語彙を形成する多少の単語を格納する。基本語彙は、これ以上には説明しない方法で作動されるテキスト入力モードで基本単語であり、基本単語は、音声認識手段１０によって認識可能な総合的なテキスト語彙の一部を形成する単語であり、音声認識手段１０によって認識可能な総合的なコマンド語彙の一部を形成するコマンド入力モードにおける基本コマンドである。基本語彙メモリ２０は、例えば、テキスト入力モードではその目的のために構成された処理ユニットによって基本単語として処理され、コマンド入力モードでは、適当に構成された処理ユニットによってヘルプメニューを表示させる基本コマンドとして処理され得る単語「ｈｅｌｐ」を記憶することが可能である。
テキスト語彙メモリ２１はテキスト語彙を形成する多数の単語を格納する。テキスト語彙は、基本表記と併せて、音声認識装置２のテキスト入力モードにおいて音声認識手段１０によって認識可能な全体的なテキスト語彙を形成する。
コマンド語彙メモリ１９はコマンド語彙を形成する単語を格納する。コマンド語彙は、基本表記と併せて、音声認識装置２のコマンド入力モードにおいて音声認識手段１０によって認識可能な全体的なコマンド語彙を形成する。換言すれば、コマンド入力モードの場合に、基本表記によって形成される最良のコマンド語彙は、全体的なコマンド語彙を形成するためコマンド語彙メモリ１９に格納されたコマンドによって拡張され得る。コマンド入力モードでこのようなコマンドを用いることによって、例えば、処理ユニットのある動作状態から処理ユニットの別の動作状態への変化を作動させ、すなわち、少なくとも一つの処理ユニットをある動作状態から所望の新しい動作状態までルート変更、若しくは、切り換えることが可能である。これらのコマンドは、処理ユニットの所望の動作状態を作動させ、少なくとも一つの処理ユニットをその動作状態に関して所望の動作状態を作動させるためルート変更するため適当である。
上述の通り、キー１３によって発生されたコマンド入力モード作動情報ＣＭＩは音声認識段１１に送られる。音声認識段１１からこの情報は辞書メモリ１４の伝達される。コマンド入力モード作動情報ＣＭＩがコマンド入力モードで生じたとき、辞書メモリ１４のコマンド辞書メモリ１７は音声認識段１１に接続される。テキスト入力モードにおいてコマンド入力モード作動情報ＣＭＩが存在しない場合、辞書メモリ１４のテキスト辞書メモリ１８は音声認識段１１に接続される。このように、各コマンドを形成する単語はコマンド辞書メモリ１７に記憶されることが保証される。これらのコマンド形成単語を記憶するため、コマンド情報ＢＩと、コマンド情報ＢＩに割り当てられた識別情報ＰＩとはテキスト情報としてコマンド辞書メモリ１７に記憶される。すなわち、１個のコマンド情報信号ＢＩと、１個の割り当てられた識別情報信号ＰＩが各単語毎に記憶される。
音声モデルメモリ１５は、音声認識段１１によって認識されたある種の単語の組合せ若しくは系列の後のある単語の出現確率を示す音声モデル情報ＳＭＩを記憶する。音声認識中に、複数の連続した単語を含む音声情報ＳＩに現れた次の単語が、辞書メモリ１４及び参照メモリ１６に記憶された情報に従って２個の単語のうちのいずれか一方の単語であることが等確率で確からしいとき、音声認識装置１１は、音声モデル情報ＳＭＩに従って出現確率の高い方の単語を認識する。
参照メモリ１６は、話者が音素の系列中の１個の音素を発音する方法に関する情報を表現する参照情報ＲＩを格納する。音声認識段１１はこの参照情報ＲＩを利用して話者に適応する。
パーソナルコンピュータ１のＰＣ処理ユニット３は、ウィンドウズ処理ユニット２２と、第１の処理ユニット２３と、第２の処理ユニット２４と、第３の処理ユニット２５とを含む。パーソナルコンピュータ１が作動されたとき、ウィンドウズ処理ユニット２２は常時作動状態に駆動される。他の３種類の処理ユニット２３、２４及び２５は、個別の動作状態に移され、作動状態で制御され、或いは、動作状態に切り換えられる。
本質的に、いわゆるＷｉｎｄｏｗｓ^TMプログラムを処理するプログラム処理ユニットの特徴を示し、本例の場合に公知のＷｉｎｄｏｗｓ９５^TMプログラムにより形成されたウィンドズ処理ユニット２２は、主に３種類の処理ユニット２３、２４及び２５を管理するため使用され、ウィンドウマネージャー２６、切換領域マネージャー２７、及び、コマンドマネージャー２８を含む。図２に示された処理ウィンドウテーブル２９は、処理ウィンドウマネージャー２６に格納することができる。図３に示された切換領域テーブル３０は、切換領域マネージャー２７に格納される。コマンドマネージャー２８は、制御情報ＣＩの形でキーボード６若しくは音声認識装置２から入力されたウィンドウズ処理ユニット２２のためのコマンドを管理、実現し、或いは、入力されたコマンドを制御情報ＣＩの形式で３種類の処理ユニット２３、２４及び２５の中のいずれかの処理ユニットに転送するよう構成されている。
本質的にプログラムプロセッサを表す３種類の処理ユニット２３、２４及び２５は、主として、４個の処理ウィンドウＷ１、Ｗ２、Ｗ３及びＷ４を駆動し、グラフィックス情報及びテキスト情報が４個の処理ウィンドウＷ１、Ｗ２、Ｗ３及びＷ４に表示できるようにグラフィックス情報及びテキスト情報を準備、生成するため使用される。３種類の各処理ユニット２３、２４及び２５毎に、作動状態にあるとき、異なる動作状態に切り換えられ得る。処理ユニット２３、２４及び２５の中の何れの処理ユニットであるかに依存して、例えば、以下に説明される決定動作状態、印刷準備動作状態、少なくとも一つのデータベースを開く動作状態、若しくは、テキスト入力動作状態のような異なる動作状態が存在する。
モニター４は、３種類の処理ユニット２３、２４及び２５に割り当てられた処理ウィンドウＷ_n、図１の場合には、第１の処理ウィンドウＷ１と、第２の処理ウィンドウＷ２と、第３の処理ウィンドウＷ３と、第４の処理ウィンドウＷ４とを表示することができる。上記の各処理ウィンドウＷ１、Ｗ２、Ｗ３及びＷ４は、処理ユニット２３、２４及び２５を用いて処理状態に駆動され得る。
第４の処理ウィンドウＷ４は、いわゆる決定処理ウィンドウであり、テキスト入力のためではなく、コマンド入力のため使用され、テキスト情報“ＯＫ（確認）”を含む第１の切り換え領域３１と、テキスト情報“ＣＡＮＣＥＬ（取消）”を含む第２の切り換え領域３２と、テキスト情報“ＢＡＣＫ（戻る）”を含む第３の切り換え領域３３とを有する。３通りの処理ユニット２３、２４及び２５は、処理ウィンドウＷ１、Ｗ２、Ｗ３及びＷ４に情報を表示させるため、グラフィックス情報及びテキスト情報を転送する４種類のコネクション２３Ａ、２４Ａ、２５Ａ及び２５Ｂによってそれぞれの割り当てられた処理ウィンドウＷ１、Ｗ２、Ｗ３及びＷ４に接続される。第３の処理ウィンドウと第４の処理ウィンドウは、共に２本のコネクション２５Ａ及び２５Ｂを介して第３の処理ユニット２５に接続される。
音声認識段１１によってテキスト入力モードで認識されたテキスト情報ＴＩは、音声認識段１１からコネクション１１Ａを介してウィンドウ処理ユニット２２に転送され、ウィンドウ処理ユニット２２から３本の更なるコネクション２２Ａ、２２Ｂ及び２２Ｃの中の１本のコネクションを介して作動状態に駆動された処理ユニット２３、２４及び２５にそれぞれ転送され、一方、一つの処理ユニット２３又は２４又は２５は、認識されたテキスト情報ＴＩと対応したテキストをコネクション２３Ａ、２４Ａ及び２５Ａの中のいずれかのコネクションによって駆動されたそれぞれの処理ウィンドウＷ１、Ｗ２又はＷ３に表示させる。常に、３通りの処理ユニット２３、２４及び２５の中の一つの処理ユニットだけが作動状態に駆動され得、４個の処理ウィンドウＷ１、Ｗ２、Ｗ３及びＷ４の中の一つのウィンドウだけがその処理状態に駆動され得ることに注意する必要がある。
ここまでの説明で、音声認識装置２は、例えば、発話コマンド若しくはキーボード６のキーを用いて入力されたコマンドに対応した処理ユニット２３、２４又は２５の唯一の所望の動作状態に割り当てられたコマンド辞書を作成する作成手段３４を有する。作成手段３４は、情報処理手段によって形成され、認識手段３５と、検出手段３６と、更なる割り当て手段３７とを含む。
認識手段３５は、処理ユニット２３、２４及び２５の処理ウィンドウＷ１、Ｗ２、Ｗ３及びＷ４の処理状態を認識するため設けられ、音声認識装置２に収容される。この目的のため、認識手段３５は、ログオン情報ＡＩを処理ウィンドウマネージャー２６に送出する。認識手段３５は、処理ウィンドウマネージャー２６から到来する処理ウィンドウ情報ＷＩを受信し、処理ウィンドウ情報ＷＩは作動状態の処理ユニット２３、２４又は２５がある動作状態から別の動作状態に変更されたときに送信される。処理ウィンドウ情報ＷＩは、４個の処理ウィンドウＷ１、Ｗ２、Ｗ３及びＷ４の中で処理状態、すなわち、作動状態である処理ウィンドウに関する情報を含み、これについては、処理ウィンドウ情報ＷＩに基づいて認識手段３５によって認識又は検出される。認識手段３５は、この処理ウィンドウ情報ＷＩを検出手段３６に送出し得る。
検出手段３６は、例えば、処理ユニット２３、２４又は２５のある動作状態から処理ユニット２３、２４又は２５の別の動作状態への変化後に、すなわち、例えば、発話コマンドによって、或いは、キーボード６のキーの押下によって決定されたコマンド情報を用いて行われる処理ユニット２３、２４又は２５の所望の動作状態が作動された後に、少なくとも１台の処理ユニット２３、２４及び２５の別の動作状態を作動させるための、本例の場合にテキスト情報ＴＩ（ＣＩ）によって形成された適当なコマンド情報を検出するため構成される。検出手段３６は、受信されたテキスト情報ＴＩ（ＣＩ）を割り当て手段３７に送るよう構成される。
検出手段３６によって検出されたコマンド情報ＴＩ（ＣＩ）が与えられる割り当て手段３７は、識別情報ＰＩを検出された適当なコマンド情報ＴＩ（ＣＩ）に割り当てるため使用され、音素系列によって形成されたこの識別情報ＰＩは、本例の場合に、テキスト辞書メモリ１８から読み出してもよく、或いは、割り当て手段３７を用いて作成してもよい。また、割り当て手段３７自体は、検出された適当なコマンド情報ＴＩ（ＣＩ）及び識別情報ＰＩをコマンド語彙メモリ１９及びコマンド辞書メモリ１７に記憶するよう構成され、その結果として、それぞれの処理ユニット２３、２４及び２５の作動された動作状態にだけ割り当てられたコマンド辞書を生成する。
上記の通り、処理ウィンドウ情報ＷＩは認識手段３５によって検出手段３６に与えられる。このような処理ウィンドウ情報ＷＩが発生したとき、検出手段３６は、質問情報ＧＩ（Ｗ_n）を切換領域マネージャー２７に送出し、制御情報ＣＩ及び検出された適当なテキスト情報ＴＩ（ＣＩ）を切換領域マネージャー２７から受け、以下に詳述するこの情報を記憶する。基本語彙メモリ２０に格納された次の情報ＴＩも検出手段３６に記憶される。この目的のため、制御情報ＣＩは初期化ルーチンでこのテキスト情報ＴＩに割り当てられ、さらに、テキスト情報ＴＩ及び制御情報ＣＩは、相互に割り当てられて検出手段３６に記憶される点が重要である。
割り当て手段３７は、受信されたテキスト情報ＴＩ（ＣＩ）をテキスト辞書メモリ１８に記憶されたテキスト情報ＴＩと比較し、両者が一致したとき、テキスト辞書メモリ１８からテキスト情報ＴＩ及び割り当てられた識別情報ＰＩ、すなわち、割り当てられた音素系列を読み出すよう構成される。受信されたテキスト情報ＴＩ（ＣＩ）がテキスト辞書メモリ１８内に見つからないとき、割り当て手段３７自体は、テキスト情報ＴＩ（ＣＩ）に割り当てられるべき割り当て情報ＰＩを作成し、音素系列が発生される。テキスト辞書メモリ１８内でテキスト情報ＴＩの同一又は類似テキスト部に割り当てられた音素系列は、テキスト情報ＴＩ（ＣＩ）のテキスト部に割り当てられる。このようなテキスト情報ＴＩ（ＣＩ）に割り当てられた音素系列を発生させる方法は、従来技術において当業者に知られている。テキスト情報ＴＩ（ＣＩ）及び割り当てられた音素系列、すなわち、割り当てられた識別情報ＰＩは、コマンド語彙メモリに格納してもよい。
コマンド入力モードにおいて音声認識段１１によって識別されたコマンド情報ＢＩを形成するテキスト情報は、別のコネクション１１Ｂを介して音声認識段１１によって検出手段３６に送出してもよい。検出手段３６は、別のコネクション１１Ｂを介して供給されたコマンド情報ＢＩを、検出手段３６に格納されている検出された適当なテキスト情報ＴＩ（ＣＩ）と比較する。比較の結果が肯定的である場合に、検出手段３６は、コマンド情報ＢＩに割り付けれられ、検出手段３６に格納された制御情報ＣＩを、後述するコマンドマネージャー２８に送出する。処理ユニット２３、２４、２５の動作状態は制御情報ＣＩを用いてトリガされ得る。
以下、図４に示されたフローチャート３８を参照して、作動状態に駆動された処理ユニット２３、２４、２５の動作状態に適応した、すなわち、この動作状態に割り当てられたコマンド辞書を作成し、記憶するため音声認識装置２を含むパーソナルコンピュータ１で実行されるプログラムについて説明する。
プログラムの実行は、音声認識装置２が音声情報ＳＩをパーソナルコンピュータ１に入力するため作動されたときにステップ３９で開始される。次のステップ４０において、認識手段３５は、ログオン情報ＡＩを処理ウィンドウマネージャー２６に送る。ログオン情報ＡＩは、処理ウィンドウマネージャー２６内に現れる情報の中で、更なる処理中に認識手段３５に転送されるべき情報に関する情報を含む。また、ログオン情報ＡＩは、特に、処理ウィンドウマネージャー２６に出現する処理ウィンドウ情報ＷＩが更なる処理中に認識手段３５に常に転送されるべきかについての情報を含む。
処理ウィンドウマネージャー２６には図２に示された処理ウィンドウテーブル２８が格納される。処理ウィンドウテーブル２９の列ＡＰは、処理ウィンドウＷ_nが割り当てられた処理ユニット２３、２４及び２５で処理可能なプログラムを示す。第１の処理ユニット２３はＷｉｎｄｏｗｓ用Ｅｘｃｅｌ^TMプログラムを用いて形成され、このプログラムには第１の処理ウィンドウＷ１が処理ウィンドウテーブル２９の列Ｗ_nで割り当てられている。第２の処理ユニット２４は、ＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒ^TMプログラムを用いて形成され、このプログラムには第２の処理ウィンドウＷ２が処理ウィンドウテーブル２９の列Ｗ_nで割り当てられている。第３の処理ユニット２５はＷｉｎｄｏｗｓ用Ｗｏｒｄ^TMプログラムを用いて形成され、このプログラムには第３の処理ウィンドウＷ３及び第４の処理ウィンドウＷ４が処理ウィンドウテーブル２９の列Ｗ_nで割り当てられている。第３の処理ユニット２５が作動状態に駆動されている場合を考える。第４の処理ウィンドウＷ４は、テキスト入力モードのテキスト入力用又はコマンド入力モードのコマンド入力用の作動的な処理ウィンドウとして処理ウィンドウテーブル２９内で矢印を用いて表されている。第４の処理ウィンドウＷ４は決定処理ウィンドウであるため、１個のコマンドだけがコマンド入力モードで入力できる。第３の処理ユニット２５の作動状態において、パーソナルコンピュータ１のユーザは、ある種の処理を行うべきかどうかについてのコマンドを入力することが期待され、このコマンド入力は、テキスト情報“ＯＫ”を含む第１の切換領域３１の作動によって実行される。このような特別の処理は、例えば、文書のテキストを処理するためパーソナルコンピュータのメインメモリに文書をロードする場合である。コマンド入力は、テキスト情報“ＣＡＮＣＥＬ”を含む第２の切換領域の作動でもよく、その結果として、特定の処理が中断される。また、テキスト情報“ＢＡＣＫ”を含む第３の切換領域３３がコマンドを入力することにより作動され、特定の処理が実行されず、第３の処理ユニットの前の動作状態に戻される場合がある。
ステップ４０に続くステップ４１において、認識手段３５は、処理ウィンドウ情報ＷＩが処理ウィンドウマネージャー２６から着信したかどうかを検査する。着信していない限り、プログラム実行はステップ４１に留まる。処理ウィンドウマネージャー２６は、ログオン情報ＡＩが発生した場合、及び、本例の場合には作動状態の処理ユニット２５がある動作状態から別の動作状態に変更されたときに処理ウィンドウ情報ＷＩを生成する。処理ウィンドウマネージャー２６は、２個の処理ユニット２３又は２４の中のどちらか一方が作動状態に駆動された場合にも処理ウィンドウ情報ＷＩを生成することに注意する必要がある。処理ウィンドウ情報ＷＩが発生したとき、プログラム実行はステップ４２に進む。
ステップ４２において、作動的な処理状態に駆動された第４の処理ウィンドウＷ４の処理ウィンドウ情報ＷＩは、認識手段３５から検出手段３６に転送される。処理ウィンドウ情報ＷＩが出現したとき、検出手段３６は、それぞれの作動的処理ウィンドウＷ_nと関連した質問情報ＧＩ（Ｗ_n）、本例の場合には作動的な第４の処理ウィンドウＷ４の質問情報ＧＩ（Ｗ４）を切換領域マネージャー２７に送出する。図３に示された切換領域テーブル３０は切換領域マネージャー２７に格納される。切換領域テーブル３０の中の列Ｗ_nは、切換領域マネージャー２７によって管理される処理ウィンドウＷ１、Ｗ２、Ｗ３及びＷ４を示し、これらのウィンドウはウィンドウズ処理手段２２と協働する処理ユニット２３、２４及び２５に属する。切換領域テーブル３０の列ＴＩ（ＣＩ）は、コントロール部としても知られている切換領域と、処理ウィンドウＷ１、Ｗ２、Ｗ３及びＷ４の他の要素、例えば、メニューリスト、或いは、いわゆるプルダウンメニューのような要素とに割り当てられた処理ウィンドウＷ１、Ｗ２、Ｗ３及びＷ４用のテキスト情報ＴＩ（ＣＩ）を示す。切換領域テーブル３０の各テキスト情報ＴＩ（ＣＩ）、切換領域がそれぞれの処理ウィンドウＷ_nに割り当てられた処理手段上でユーザによって作動されたときに生成された制御情報ＣＩに割り当てられ、作動された切換領域のコマンドを実行させる。切換領域テーブル３０からわかるように、テキスト情報“ＯＫ”を含む第１の切換領域３１は、割り当てられた制御情報３０である。パーソナルコンピュータ１のユーザが、第１の切換領域３１を作動させるため、例えば、キーボード６のキーを押下したとき、コマンドマネージャー２８は、第３の処理ユニット２５の動作状態を変更するため制御情報“３０”を第３の処理ユニット２５に転送する。
ステップ４２に続くステップ４３において、切換領域マネージャー２７は、質問情報ＧＩ（Ｗ４）が発生したとき、切換領域テーブル３０内で第４の処理ウィンドウＷ４のテキスト情報ＴＩ（ＣＩ）及び割り当てられた制御情報ＣＩを検出し、検出手段３６に伝達する。検出手段３６に伝達され、第３の処理ユニット２５の更なる動作状態を作動させるため適した、検出されたテキスト情報ＴＩ（ＣＩ）及び割り当てられた制御情報ＣＩは、検出手段３６に格納され、検出された適当なテキスト情報ＴＩ（ＣＩ）は割り当て手段３７に転送される。その結果として、テキスト情報“ＯＫ”、“取消”、“戻る”は、本例の場合に割り当て手段３７に転送される。
ステップ４３に続くステップ４４において、検出された適当なテキスト情報ＴＩ（ＣＩ）は、割り当てられた識別情報ＰＩ、すなわち、音素系列である。第１のステップにおいて、検出されたテキスト情報ＴＩ（ＣＩ）が既にテキスト辞書メモリ１８に格納されているかどうかがテストされる。かかるテキスト情報ＴＩ（ＣＩ）が既に適すと辞書メモリ１８に格納されている場合、すなわち、見つけられた場合、テキスト辞書メモリ１８内でこのテキスト情報に割り当てられ、音素系列を表現する識別情報ＰＩは、テキスト辞書メモリ１８から読み出され、見つけられたテキスト情報ＴＩ（ＣＩ）に割り当てられる。このようなテキスト情報ＴＩ（ＣＩ）がテキスト辞書メモリ１８内で見つけられなかった場合、音素系列を表現する識別情報ＰＩが割り当て手段３７自体によって作成され、既に説明したように見つけられたなかったテキスト情報ＴＩ（ＣＩ）に割り当てられる。
ステップ４４に続くステップ４５において、検出された適当なテキスト情報ＴＩ（ＣＩ）及びステップ４４においてこのテキスト情報ＴＩ（ＣＩ）に割り当てられた識別情報ＰＩは、コマンド語彙メモリ、すなわち、コマンド辞書メモリ１７に記憶される。このようにして、作成手段３４によって作成されたコマンド辞書は、本例の場合には、第３の処理ユニット２５の作動された動作状態の場合に限り、コマンド語彙メモリに記憶されるので、コマンド辞書メモリ１７の内容は第３の処理ユニット２５の作動された動作状態に適応する。ステップ４５の実行後、プログラム実行はステップ４１に進む。
上記の本発明の方法によれば、本発明による音声認識装置２は、処理ユニットの動作状態が出現した直後に作動状態に駆動されたその処理ユニットの作動された動作状態に適応したコマンド辞書を自動的に作成する。このような適応したコマンド辞書は、先行して作動的な処理ユニットの動作状態が作動状態に駆動された別の処理ユニットの動作状態に変更されるときに自動的に作成される点が有利である。その結果として、コマンド語彙メモリに記憶されたコマンド語彙は、それぞれの作動的な処理ウィンドウＷ_nに適応するので、コマンド入力モードで音声情報ＳＩとして入力されたコマンド情報ＢＩの認識のための次の音声認識実行の際に非常に高い認識率が達成される。
以下、図５に示されたフローチャート４６を参照して、コマンド入力モードで音声認識装置２を備えた音声認識動作を実行するプログラム実行について説明する。
プログラム実行は、話者がキー１３を押下することによりコマンド入力モード作動コマンドＣＭＩを音声認識装置２に提示し、その結果として、コマンド入力モードが作動されるときに、ステップ４７から始まる。ステップ４７に続くステップ４８において、音声認識段１１で音声情報ＳＩが既に発生し、記憶手段９に記憶されたかどうかについてテストが行われる。テスト結果が否定的である限り、プログラム実行はステップ４８に留まる。一方、音声情報ＳＩが実際に出現し、記憶手段９に記憶されたとき、プログラム実行はステップ４９に進む。ステップ４９において、音声認識段１１は、少なくとも一つの音素系列を、参照メモリ１６に格納された参照情報ＲＩを用いて、記憶手段９から読み出された音声情報ＳＩに割り当てる。この少なくとも１個の割り当てられた音素系列は、コマンド入力モードで音声認識段１１に接続されたコマンド辞書メモリ１７に識別情報ＰＩの形式で記憶された音素系列と比較される。音声情報ＳＩに基づいて検出された音素系列がコマンド辞書メモリ１７に記憶された音素系列と一致するとき、同様にコマンド辞書メモリ１７に記憶された音素系列に割り当てられたテキスト情報は、音声認識段１１によって認識された情報としてコマンド辞書メモリ１７から読み出される。かかる認識されたテキスト情報はコマンド情報Ｂ１を形成し、このコマンド情報Ｂ１は、コマンド入力モードにおいて、音声認識段１１によって別のコネクション１１Ｂを介して検出手段３６に送られる。
ステップ５０において、検出手段３６は認識されたコマンド情報Ｂ１を検出手段３６に格納されたテキスト情報と比較する。検出されたコマンド情報Ｂ１は検出手段３６に格納されたすべてのテキスト情報と比較されるので、作動的な第４の処理ウィンドウＷ４に示される検出された適当なテキスト情報ＴＩ（ＣＩ）及び初期化ルーチン中に検出手段３６に格納されたテキスト情報ＴＩの両方の情報と比較される。認識されたコマンド情報ＢＩと検出手段３６に格納されたテキスト情報との間に一致が見つけられたとき、プログラムルーチンはステップ５１に進む。
ステップ５１において、検出手段３６は、記憶されたテキスト情報に割り当てられた制御情報ＣＩを、制御情報ＣＩを処理するコマンドマネージャー２８に送信する。コマンドマネージャー２８は、第３の処理ユニットをある動作状態から別の動作状態に駆動若しくは切り換えるため、制御情報ＣＩを作動状態に移された第３の処理ユニット２５に送信する。ステップ５１に続いて、プログラムルーチンはステップ４８に戻る。
話者がキー１３に触れ、単語“ＯＫ”をマイクロホン５に発話したとき、音声認識段１１は、この音声情報ＳＩを用いて音声認識段によって作成された音素系列を、コマンド語彙メモリ及び基本語彙メモリ２０に、したがって、コマンド辞書メモリ１７に識別情報ＰＩの形式で記憶された音素系列と比較する。コマンド語彙メモリには、コマンド“ＯＫ”、“ＣＡＮＣＥＬ（取消）”及び“ＢＡＣＫ（戻る）”に対する音素系列が記憶される。音声認識段１１によって認識可能であり、かつ、コマンド辞書メモリ１７に格納されたコマンド情報ＢＩの数が非常に少ないため、認識率は非常に高く、そのため、音声認識段１１は、単語“ＯＫ”に関する音素系列が検出された音素系列と一致していることを非常に高速かつ高い信頼性で認識する。この音素系列に割り当てられた情報“ＯＫ”は音声認識段１１によって検出手段３６に送られる。検出手段３６の比較の結果として、テキスト情報“ＯＫ”と対応するコマンド情報ＢＩが検出手段３６に格納された作動的な第４の処理ウィンドウＷ４の第１の切換領域３１のテキスト情報ＴＩ（ＣＩ）と一致することが得られる。テキスト情報ＴＩ（ＣＩ）に割り当てられた制御情報“３０”は、制御情報“３０”を実行させるため、検出手段３６からコマンドマネージャー２８に転送される。コマンドマネージャー２８は、制御情報“３０”を、制御情報“３０”によって表現されたコマンド“ＯＫ”を実行する第３の処理ユニット２５に転送する。第３の処理ユニット２５は、制御情報“３０”の第３の処理ユニット２５への転送が、第１の切換領域３１を作動させることにより行われるか、又は、キーボード６の少なくとも１個のキーを作動させるか、或いは、話者からの音声によって作動されることにより行われるかどうかによって違いが生じない。
これにより得られる利点は、音声認識装置２が処理ユニットを制御するコマンド情報として制御情報ＣＩを処理ユニットに送出し、処理ユニット内の制御情報は話者によって発話されたコマンドを直ちに実行させることである。したがって、本発明による音声認識装置２と協働する処理ユニットは、処理ユニットを従来の音声認識装置と協働させる殆どの場合に必要とされたように音声コマンド処理手段を具備する必要がない。これにより、本発明による音声認識装置２は、すべてのウィンドウズ処理ユニットで使用できるようになる。
本発明による音声認識装置２は、認識手段３５が作動状態に駆動された処理ユニット２３、２４又は２５の作動的な処理ウィンドウＷ_nを検出し、音声情報ＳＩとして入力されたコマンド情報ＢＩが作動状態に駆動された処理ユニット２３、２４又は２５だけに対し有効になることにより、複数の処理ユニット２３、２４及び２５と協働する点が有利である。
本発明による音声認識装置２の作成手段３４は、図１に示されるように、例えば、Ｗｉｎｄｏｗｓ９５^TMプログラムを利用して実現されるウィンドウズプロセッサ２２と協働するよう構成された場合に、非常に簡単な構造を有する。これは、Ｗｉｎｄｏｗｓ９５^TMプログラムが、コマンド辞書を作成するために必要である処理ウィンドウ情報ＷＩと、作動的な動作ウィンドウＷ_nのテキスト情報ＴＩ（ＣＩ）及び割り当てられた制御情報ＣＩとを利用できるようにすることに起因する。
本発明の第２の実施例によれば、音声認識装置は、いわゆるインターネットブラウザによって形成された処理ユニットを制御するよう構成される。この本発明の第２の実施例による音声認識装置は、図１に示された本発明の第１の実施例による音声認識装置と同じ構造を有し、一方、第２の実施例による音声認識装置とインターネットブラウザとを含むパーソナルコンピュータは、コンピュータネットワークインターネットに接続される。
インターネットブラウザは、インターネットに接続された記憶手段であるいわゆるサーバーに記憶された情報、すなわち、インターネットホームページを検出するため使用される。インターネットホームページは、テキスト情報及びグラフィックス情報を格納し、場合によってはビデオ情報を格納する。インターネットブラウザは、特定のインターネットアドレス、いわゆるＵＲＬによって表されたインターネットホームページを検出するよう構成される。インターネットブラウザは、本発明の第２の実施例の場合に、公知のウィンドウズ“Ｍｉｃｒｏｓｏｆｔ^TM ＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒ^TM”プログラムを利用して実現される。例えば、Ｎｅｔｓｃａｐｅ^TMのようなインターネットブラウザを実現するため適当な他の複数のプログラムを利用することが可能である。
インターネットホームページのテキスト情報は、別のインターネットホームページのインターネットアドレスがテキスト情報に割り当てられている場合に、コマンド情報を形成する。このようなテキスト情報は、このテキスト情報を作動することにより更なるインターネットホームページがインターネットブラウザによって検出できることに関してユーザの注目を惹くため、パーソナルコンピュータに接続されたモニターに表示されるとき、特別な方法、例えば、下線付きでインターネットホームページ上に表示される。このテキスト情報に割り当てられたインターネットアドレスは、インターネットブラウザに送られたときに、インターネットブラウザにこのインターネットアドレスに割り当てられたインターネットホームページを検出させ、インターネットブラウザの動作状態を変更する制御情報を形成する。
本発明の第２の実施例による音声認識装置は、インターネットブラウザを用いてインターネットホームページを検出した後、インターネットホームページ上で見つかったコマンド情報を形成するテキスト情報を検出する検出手段を含む。インターネットブラウザは、“Ｍｉｃｒｏｓｏｆｔ^TM ＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒ^TM”ウィンドウズプログラムを用いて構成されているので、本発明の第２の実施例による音声認識装置の検出手段、並びに、本発明の第１の実施例による音声認識装置の検出手段は、ウィンドウズプロセッサのコマンド情報を検出するよう構成される。
本発明の第２の実施例による音声認識装置は、第１の実施例による音声認識手段の割り当て手段と対応した割り当て手段を備え、第２の実施例による音声認識装置内で、コマンド情報を形成するテキスト情報用の割り当て情報を検出若しくは作成するので、第２の実施例による音声認識装置は、インターネットブラウザにより検出されたインターネットホームページに適応したコマンド辞書を作成するよう構成される。
検出手段は、インターネットブラウザによって最後に検出されたインターネットホームページ上にコマンド情報を形成するテキスト情報に割り当てられたインターネットアドレスを検出するよう構成される。さらに、検出手段は、音声認識装置の音声認識手段が、本発明の第１の実施例に従って実行され、音声情報に割り当てられるべきコマンドを表現するテキスト情報を、検出手段によって検出されたテキスト情報と比較し、その比較の結果が肯定的である場合に、実行されるべきコマンドを表現するテキスト情報に割り当てられたインターネットアドレスをインターネットブラウザに送出するように構成される。このインターネットアドレスは、インターネットアドレスに割り当てられたインターネットホームページをインターネットブラウザで検出するため使用される。
したがって、上記第１の実施例に関して説明した利点は、インターネットブラウザが話者によって発話されたコマンドによって制御される場合にも得られる。
本発明による音声認識装置は、ウィンドウズ処理ユニットと協働するよう構成されていない処理ユニットを制御するよう構成されることに注意する必要がある。処理ユニットとしては、ＵＮＩＸオペレーティングシステム、或いは、ＤＯＳオペレーティングシステムと協働する処理ユニットが考えられる。
さらに、検出された適当なテキスト情報ＴＩ（ＣＩ）は、いわゆるメニューリストやプルダウンメニューだけではなく、他の類似したコマンド表示形式上で検出され得ることに注意する必要がある。

Claims

コンピュータ上でオペレーティング・システム上で実行される、音声コマンド処理手段をもたない少なくとも一つのアプリケーション・プログラムと協働するコンピュータ・プログラムの動作方法であって、アクティブなアプリケーション・プログラムが現在の動作状態にはいったあとに実行される以下の段階：
前記アクティブなアプリケーション・プログラムの現在の動作状態に関する質問をオペレーティング・システムに送る段階と；
オペレーティング・システムから、（ｉ）現在の動作状態についての、アプリケーション・プログラムを次の動作状態に遷移させる制御情報および（ｉｉ）該制御情報に割り当てられたテキスト情報を検出する段階と；
前記テキスト情報に関連付けられた音声コマンドとしてはたらく第一の音声入力をユーザーから受領する段階と；
前記音声コマンドを表す音素系列を生成する段階と；
前記音素系列を前記テキスト情報および制御情報に割り当てる段階と；
前記テキスト情報および割り当てられた音素系列をコマンド辞書に記憶して、その後は前記音声コマンドが前記制御情報を作動させて前記アプリケーション・プログラムを前記現在の動作状態から次の動作状態に遷移させるようにする、段階とを含む、
方法。
請求項１記載の方法であって、前記音素系列を割り当てる段階は：
前記アプリケーションが前記現在状態にあるときに前記ユーザーから第二の音声入力を受け取る段階と；
前記第二の音声入力が前記割り当てられた音素系列に一致するかどうかを判定する段階と；
前記割り当てられた音素系列が前記第二の音声入力に一致する場合、関連付けられたコマンド系列を与えて前記アプリケーション・プログラムを前記現在の動作状態から次の動作状態に遷移させ、それにより、認識された音声コマンドからの帰結として動作状態遷移を引き起こす、段階とを含む、
方法。
請求項１または２に記載の方法であって、
アクティブなアプリケーション・プログラムがある動作状態から別の動作状態に変わるときおよび別のアプリケーション・プログラムがアクティブになるときに、どのアプリケーション・プログラムがアクティブかについての情報を含む処理ウィンドウ情報がオペレーティング・システムによって生成され、
オペレーティング・システムから処理ウィンドウ情報が受信されたときに前記各段階が実行される、
方法。
請求項１ないし３のうちいずれか一項記載の方法であって、さらに、
ユーザーの命令に応じてコマンド入力モードにはいる段階と；
前記アプリケーション・プログラムの現在の動作状態についてのコマンド辞書を使って音声認識手段によって認識された、音声ユーザー・コマンドに対応するテキスト情報を受領する段階と；
前記認識されたテキスト情報を前記検出されたテキスト情報を比較する段階と；
前記比較において一致が見出されたら、オペレーティング・システムに、前記音声ユーザー・コマンドに対応する一致したテキスト情報に割り当てられている制御情報を送る段階とを含む、
方法。
請求項４記載の方法であって、
前記音声ユーザー・コマンドに対応する前記認識されたテキスト情報を得るのが：
前記音声ユーザー・コマンドの音声情報に少なくとも一つの音素系列を割り当て；
前記少なくとも一つの割り当てられた音素系列を、アクティブなアプリケーション・プログラムの現在の動作状態についてのコマンド辞書に記憶されている音素系列と比較し；
前記少なくとも一つの割り当てられた音素系列の一つが前記コマンド辞書に記憶されている音素系列に一致する場合、一致した音素系列に割り当てられているテキスト情報を認識されたテキスト情報として前記コマンド辞書から読み出すことによってである、
方法。
請求項１ないし５のうちいずれか一項記載の方法であって、
前記コマンド辞書がさらに基本語彙を含む、
方法。