JP4827274B2 - コマンド辞書を使用する音声認識方法 - Google Patents

コマンド辞書を使用する音声認識方法 Download PDF

Info

Publication number
JP4827274B2
JP4827274B2 JP53586899A JP53586899A JP4827274B2 JP 4827274 B2 JP4827274 B2 JP 4827274B2 JP 53586899 A JP53586899 A JP 53586899A JP 53586899 A JP53586899 A JP 53586899A JP 4827274 B2 JP4827274 B2 JP 4827274B2
Authority
JP
Japan
Prior art keywords
command
information
processing unit
voice
assigned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP53586899A
Other languages
English (en)
Other versions
JP2001515611A (ja
Inventor
ヤネク,ハボル
ウユッテ,ヘリベルト
グラブハー,マンフレッド
Original Assignee
ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー filed Critical ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー
Publication of JP2001515611A publication Critical patent/JP2001515611A/ja
Application granted granted Critical
Publication of JP4827274B2 publication Critical patent/JP4827274B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Description

本発明は、作動され得る少なくとも一つの動作状態を有し作動状態に駆動され得る少なくとも一つの処理ユニットと、内容に関して作動状態の少なくとも一つの処理ユニットの少なくとも一つの作動された動作状態に依存するコマンドを収容するコマンド辞書を使用して、少なくとも一つの処理ユニットを少なくとも一つの動作状態に関して制御する音声認識装置とを備えた製品であって、音声認識装置が、コマンド辞書のコマンドがコマンド情報及びコマンド情報に割り当てられた識別情報の形式で記憶され得るコマンド辞書メモリと、少なくとも話者によって発話されたコマンドを表現する音声情報が供給され、上記コマンド辞書メモリに記憶された識別情報を用いてかかる音声情報に割り当てられるべきコマンド情報を検出するよう構成され、上記発話されたコマンドに対応する処理ユニット動作状態が供給された上記検出されたコマンド情報によって作動され得る処理ユニットに上記検出されたコマンド情報を転送するよう構成された音声認識手段とを含む製品に関する。
また、本発明は、作動され得る少なくとも一つの動作状態を有し作動状態に駆動され得る少なくとも一つの処理ユニットと協働するよう構成され、内容に関して作動状態の少なくとも一つの処理ユニットの少なくとも一つの作動された動作状態に依存するコマンドを収容するコマンド辞書を使用して、少なくとも一つの処理ユニットを少なくとも一つの動作状態に関して制御するよう構成された音声認識装置であって、コマンド辞書のコマンドがコマンド情報及びコマンド情報に割り当てられた識別情報の形式で記憶され得るコマンド辞書メモリと、少なくとも話者によって発話されたコマンドを表現する音声情報が供給され、上記コマンド辞書メモリに記憶された識別情報を用いてかかる音声情報に割り当てられるべきコマンド情報を検出するよう構成され、上記発話されたコマンドに対応する処理ユニット動作状態が供給された上記検出されたコマンド情報によって作動され得る処理ユニットに上記検出されたコマンド情報を転送するよう構成された音声認識手段とを含む音声認識装置に関する。
本発明は、コマンド情報及びコマンド情報に割り当てられた識別情報の形式でコマンド辞書メモリに記憶され得るコマンドを収容するコマンド辞書を用いて、作動され得る少なくとも一つの動作状態を有し作動状態に駆動され得る少なくとも一つの処理ユニットを少なくとも一つの動作状態に関して制御するよう構成された音声認識装置用のコマンド辞書を作成する方法であって、少なくとも話者によって発話されコマンドを表現する音声情報が音声認識手段に供給され、上記音声認識手段は上記コマンド辞書メモリに記憶された識別情報を用いてかかる音声情報に対するコマンド情報を検出し、上記検出されたコマンド情報は、発話されたコマンドに対応する処理ユニットの動作状態を作動させるため処理ユニットに供給され得る方法に関する。
上記の製品、音声認識装置及び方法は、例えば、文献:欧州特許EP 0 607 615 A1によって公知である。公知の製品において、音声認識装置は、複数の処理ユニットと協働するよう構成され、テキストを構築するテキスト要素を入力し、処理ユニットをその動作状態に関して制御するコマンドを入力するため使用される。このような処理ユニットは、例えば、WindowsTM用のWordプログラムを実装するテキストプロセッサによって形成される。この音声認識装置には、音声認識装置のユーザによって発話された音声情報がコマンドとして、又は、処理ユニットのためのテキスト要素としてテキスト入力モードで入力されるマイクロホンが接続される。音声認識装置は、コマンド辞書を形成するコマンドが処理ユニットを制御するコマンド情報及びこのコマンド情報に割り当てられたいわゆる音素により形成される識別情報の形式で記憶されるコマンド辞書メモリを含む音声認識手段を具備する。ユーザによってコマンドとして入力された音声情報は、音声認識手段において処理され、コマンド入力モードでコマンド辞書メモリに記憶された識別情報と比較され、コマンドとして入力された音声情報に割り当てられたコマンド情報が発生され、上記コマンドに対応した処理ユニットの動作状態を作動させるため処理ユニットに送られる。
従来の音声認識装置が処理ユニットを制御するため動作を開始する前に、音声認識装置は、学習モードでこの処理ユニットに適応する必要があり、音声コマンド処理手段がこの処理ユニットに追加される。学習モードでは、従来の音声認識装置は、種々の処理ユニットに適応し、さらに、音声認識手段のより良好な認識結果を得るためそれぞれの処理ユニットの種々の動作状態に適応し得る。したがって、学習処理モードの場合、音声認識装置のユーザは、処理ユニットの動作状態に対し、この動作状態で使用可能であり、処理ユニットの動作状態を変更するため適するコマンドを選択する。これらのコマンドは、この処理ユニットのこの動作状態に割り当てられたコマンド辞書の収集用メモリにコマンド情報として記憶される。次に、ユーザは、学習モードでこれらのコマンドを音声情報としてマイクロホンに発話し、コマンド情報に基づいてコマンド辞書の収集用メモリに記憶された識別情報を発生させながら、これらのコマンドに対し音声認識手段を訓練することができる。各動作状態に対し指定された方法で発生されたすべてのコマンド辞書は、音声認識装置のコマンド辞書の収集用メモリに記憶され、処理ユニット及び処理ユニットテーブル内の動作状態に割り当てられる。
音声コマンド処理手段の追加によって音声認識装置と協働するため準備され、従来の音声処理装置が学習モードで準備した処理ユニットの動作状態が変更されたとき、処理ユニットは、処理ユニットの動作状態に関する情報を音声処理装置に送信する。処理ユニットテーブルを使用しながら、音声認識装置は、学習モードで他の全てのコマンド辞書と組み合わせて発生された、現在の動作状態に適したコマンド辞書を検出し、このコマンド辞書の収集用メモリのコマンド辞書をコマンド辞書メモリに再格納する。ユーザが処理ユニットの動作状態を変更するコマンドを音声情報としてマイクロホンに発話したとき、音声認識のために使用されるコマンドはこの動作状態に対しユーザが選択した非常に少数のコマンドだけであるため、発話コマンドの認識結果はかなり高い。コマンド表現する音声情報に割り当てられた音声認識手段によって検出されたコマンド情報は、処理手段の音声コマンド処理手段にテキスト要素として送信される。処理ユニットの音声コマンド処理手段は、制御情報信号を送信されたテキスト要素に割り当て、この制御情報はコマンド情報に対応したコマンドを発生させ、これにより、テキスト要素は処理ユニットで処理され、次に、処理ユニットの動作状態は処理されたコマンドに従って変更される。
従来の音声認識装置の場合、複数の処理ユニットの各動作状態に対しコマンド辞書を作成することは、非常に時間的コストが高く、費用的に高価であることがわかる。また、従来の音声認識装置の用途は、音声コマンド処理手段が付加され、コマンド辞書が作成された処理ユニットに制限されている。さらに、従来の音声認識装置の場合、作成されたすべてのコマンド辞書はコマンド辞書収集用メモリに記憶、管理される必要があり、そのために、従来の音声認識装置はかなり大容量のメモリと、非常に複雑な制御手段とを共に備えている。
本発明の目的は、上記従来技術の問題点を回避し、音声認識装置を含む改良された製品、改良された音声認識装置を含む改良された製品、並びに、音声認識装置のためのコマンド辞書を作成する改良された方法を提供することである。
本発明によれば、上記本発明の目的は、処理ユニットの動作状態が作動された後に、この作動された動作状態だけに割り当てられるコマンド辞書を作成するよう構成された作成手段が設けられている冒頭の第1節に記載されたタイプの製品によって達成される。
また、本発明によれば、上記目的は、処理ユニットの動作状態が作動された後に、この作動された動作状態だけに割り当てられるコマンド辞書を作成するよう構成された作成手段が設けられている冒頭の第2節に記載されたタイプの音声認識装置によって達成される。
また、本発明によれば、上記目的は、処理ユニットの動作状態が作動された後に、この作動された動作状態だけに割り当てられるコマンド辞書が作成手段によって作成される冒頭の第3節に記載されたタイプの方法によって達成される。
本発明により得られる利点は、処理ユニットの単一の動作状態に割り当てられ、この動作状態に正確に適応したコマンド辞書は、処理ユニットの新しい動作状態が出現した都度に作成されるので、音声認識装置が処理ユニットと協働するため最初に準備させられる学習モードを設ける必要がないことである。また、処理ユニットの異なる動作状態に対する多数のコマンド辞書を記憶するコマンド辞書の収集用メモリを省いても構わない。さらに、複数のコマンド辞書を管理する制御手段を省略してもよい。これらの結果として、費用効果率の良い製品若しくは費用効果率の良い音声認識装置を実現することが可能である。
請求項1に係わる本発明による製品は、請求項2に係わる手段を設けることにより有利になることが示される。請求項6に係わる本発明による音声認識装置は、請求項7に係わる手段を設けることにより有利になることが示される。請求項11に係わる本発明による方法は、請求項12に係わる手段を設けることにより有利になることが示される。これらの手段は、簡単、かつ、信頼性の高い形で実現できる点で有利である。
請求項2に係わる本発明による製品は、請求項3に係わる手段を設けることにより有利になることが示される。請求項7に係わる本発明による音声認識装置は、請求項8に係わる手段を設けることにより有利になることが示される。請求項12に係わる本発明による方法は、請求項13に係わる手段を設けることにより有利になることが示される。その結果として、ユーザによって発話され、コマンドを表現する音声情報が現れたとき、音声認識装置は、処理ユニット内の発話コマンドの処理に直結する制御情報を処理ユニットに送信するので、製品に含まれる音声認識装置と協働するため設けられた処理ユニット内の音声コマンド処理手段を省略してもよい利点が得られる。これにより、コストが削減されるだけではなく、音声コマンド処理手段を音声認識装置と協働するため設けられたすべての処理ユニットに配備するため要する時間も削減される。
請求項2に係わる本発明による製品は、請求項4に係わる手段を設けることにより有利になることが示される。請求項7に係わる本発明による音声認識装置は、請求項9に係わる手段を設けることにより有利になることが示される。請求項12に係わる本発明による方法は、請求項14に係わる手段を設けることにより有利になることが示される。この結果として、製品に含まれる音声認識装置は、時間窓方式若しくは並列処理方式で別々に作動状態にされ得る複数の処理ユニットと協働するよう構成される利点と、適当なコマンド情報が動作状態に駆動された処理窓だけによって検出される利点とが得られる。
請求項2に係わる本発明による製品は、請求項5に係わる手段を設けることにより有利になることが示される。請求項7に係わる本発明による音声認識装置は、請求項10に係わる手段を設けることにより有利になることが示される。請求項12に係わる本発明による方法は、請求項15に係わる手段を設けることにより有利になることが示される。例えば、Windows 95TM、Windows NTTM、若しくは、X−WindowsTMのようなプログラムを用いて実現されるウィンドウズ処理ユニットと協働する音声認識装置を構成する本発明による製品の手段によって、認識手段及び検出手段を非常に簡単に構成することができるようになるので、ウィンドウズ処理ユニットと協働するため設けられた複数の音声処理ユニットと協働し得る簡単な音声認識装置が実現される。
本発明の上記並びに他の局面は、以下の実施例の説明によって明らかにされ、解説される。図面中、
図1は、本発明による方法が実施され、3種類の処理ユニットを制御するよう構成され、処理ユニットのある動作状態から処理ユニットの別の動作状態への変化後にコマンド辞書を作成する作成手段を含む本発明による音声認識装置を備えた本発明による製品としてのパーソナルコンピュータをブロック形式で概略的に示す図である。
図2は、図1に示されたパーソナルコンピュータのウィンドウズ処理ユニットの処理ウィンドウマネージャーに記憶された処理ウィンドウテーブルを表す図である。
図3は、図1に示されたパーソナルコンピュータのウィンドウズ処理ユニットの切換領域マネージャーに記憶された切換領域テーブルを表わす図である。
図4は、図1に示されたパーソナルコンピュータに実装され、音声認識装置がコマンド辞書を作成するため使用される本発明による方法の少なくとも基本的な部分が説明されているフローチャートである。
図5は、図1に示されたパーソナルコンピュータに実装され、作成されたコマンド辞書が実装される間に話者によって発話された音声情報を認識し、処理ユニットのある動作状態を別の動作状態に変えるため制御情報を処理ユニットに送出する音声認識装置を利用する本発明による方法の少なくとも基本的な部分が説明されている更なるフローチャートである。
図1には、音声認識装置2とPC(パーソナルコンピュータ)処理ユニット3とを含み、モニター4を具備し、マイクロホン5、キーボード6及びスピーカー7が接続されたパーソナルコンピュータ1が示されている。
パーソナルコンピュータ1の音声認識装置2は、本例では、特に、コマンドを収容するコマンド辞書を用いて少なくとも一つの処理ユニットをその動作状態に関して制御するため使用される。以下に詳細に説明するように、辞書はその内容に関して作動的な処理ユニットの作動された動作状態に依存する。
話者によって発話された複数の相関関係のある語又は別々の語を含むアナログ音声情報SIは、マイクロホン5を介して音声認識装置2のアナログ/デジタル変換器段8に供給することができる。デジタル音声情報SIは、アナログ/デジタル変換器段8を介して記憶手段9に送られ、記憶手段に記憶される。
記憶手段9から読み出されたデジタル音声情報SIは、音声再生モードでデジタル/アナログ変換器段12に供給され、このデジタル/アナログ変換器段12を介してアナログ音声情報SIとしてスピーカー7に送出される。音声再生モードは、ここでは説明しない方法で作動され得る状態である。
記憶手段9から読み出されるデジタル音声情報SIは、音声認識装置2の音声認識手段10、すなわち、音声認識手段10に含まれる音声認識段11に供給することが可能である。音声情報によって表現され、話者によって発話されたコマンドは、音声認識手段10に送られ得る。これらの音声認識手段10は、特に、コマンド情報BI、すなわち、供給されたコマンドに実際に割り当てられ、供給されたコマンドを表現するコマンドを、コマンド辞書メモリに格納された識別情報PIを用いて検出し、コマンドを表現するコマンド情報BIを処理ユニットに転送するよう構成される。処理ユニットに転送され、コマンドを表現する検出されたコマンド情報BIは、発話されたコマンドと対応した処理ユニットの所望の動作状態を作動させる際に役立つ。
マイクロホン5は、音声認識装置2のコマンド入力モードが作動されるコマンド入力モード駆動用信号CMIを供給するため、話者によって作動され得るキー13を有する。コマンド入力モード駆動用情報CMIは、キー13を用いて音声認識段11に供給され得る。
音声認識手段10に送られたデジタル音声情報SIを検出し、テキスト情報TIを検出された音声情報SIに割り当てるため、音声認識手段10は、音声認識段11、辞書メモリ14、音声モデルメモリ15及び参照メモリ16を含む。これらの3種類のメモリ14、15及び16は、音声認識段11に接続される。
辞書メモリ14は、コマンド辞書メモリ17及びテキスト辞書メモリ18を含む。コマンド辞書メモリ17は、コマンド語彙メモリ19及び基本語彙メモリ20を含む。テキスト辞書メモリ18は、本例の場合、必須ではない基本語彙メモリ20と、テキスト語彙メモリ21とを含む。
単語を記憶するため、辞書メモリ14は、テキスト情報TIと、テキスト情報に割り当てられた識別情報PIとを記憶することができる。この記憶方式は、単語毎にテキスト情報TI、すなわち、書記素と、テキスト情報TIに割り当てられた識別情報PI、すなわち、音素列とが記憶されるように組織化される。単語メモリの組織化は他の方法で実現してもよいことに注意する必要がある。
基本語彙メモリ20は、基本表記を表現し、基本語彙を形成する多少の単語を格納する。基本語彙は、これ以上には説明しない方法で作動されるテキスト入力モードで基本単語であり、基本単語は、音声認識手段10によって認識可能な総合的なテキスト語彙の一部を形成する単語であり、音声認識手段10によって認識可能な総合的なコマンド語彙の一部を形成するコマンド入力モードにおける基本コマンドである。基本語彙メモリ20は、例えば、テキスト入力モードではその目的のために構成された処理ユニットによって基本単語として処理され、コマンド入力モードでは、適当に構成された処理ユニットによってヘルプメニューを表示させる基本コマンドとして処理され得る単語「help」を記憶することが可能である。
テキスト語彙メモリ21はテキスト語彙を形成する多数の単語を格納する。テキスト語彙は、基本表記と併せて、音声認識装置2のテキスト入力モードにおいて音声認識手段10によって認識可能な全体的なテキスト語彙を形成する。
コマンド語彙メモリ19はコマンド語彙を形成する単語を格納する。コマンド語彙は、基本表記と併せて、音声認識装置2のコマンド入力モードにおいて音声認識手段10によって認識可能な全体的なコマンド語彙を形成する。換言すれば、コマンド入力モードの場合に、基本表記によって形成される最良のコマンド語彙は、全体的なコマンド語彙を形成するためコマンド語彙メモリ19に格納されたコマンドによって拡張され得る。コマンド入力モードでこのようなコマンドを用いることによって、例えば、処理ユニットのある動作状態から処理ユニットの別の動作状態への変化を作動させ、すなわち、少なくとも一つの処理ユニットをある動作状態から所望の新しい動作状態までルート変更、若しくは、切り換えることが可能である。これらのコマンドは、処理ユニットの所望の動作状態を作動させ、少なくとも一つの処理ユニットをその動作状態に関して所望の動作状態を作動させるためルート変更するため適当である。
上述の通り、キー13によって発生されたコマンド入力モード作動情報CMIは音声認識段11に送られる。音声認識段11からこの情報は辞書メモリ14の伝達される。コマンド入力モード作動情報CMIがコマンド入力モードで生じたとき、辞書メモリ14のコマンド辞書メモリ17は音声認識段11に接続される。テキスト入力モードにおいてコマンド入力モード作動情報CMIが存在しない場合、辞書メモリ14のテキスト辞書メモリ18は音声認識段11に接続される。このように、各コマンドを形成する単語はコマンド辞書メモリ17に記憶されることが保証される。これらのコマンド形成単語を記憶するため、コマンド情報BIと、コマンド情報BIに割り当てられた識別情報PIとはテキスト情報としてコマンド辞書メモリ17に記憶される。すなわち、1個のコマンド情報信号BIと、1個の割り当てられた識別情報信号PIが各単語毎に記憶される。
音声モデルメモリ15は、音声認識段11によって認識されたある種の単語の組合せ若しくは系列の後のある単語の出現確率を示す音声モデル情報SMIを記憶する。音声認識中に、複数の連続した単語を含む音声情報SIに現れた次の単語が、辞書メモリ14及び参照メモリ16に記憶された情報に従って2個の単語のうちのいずれか一方の単語であることが等確率で確からしいとき、音声認識装置11は、音声モデル情報SMIに従って出現確率の高い方の単語を認識する。
参照メモリ16は、話者が音素の系列中の1個の音素を発音する方法に関する情報を表現する参照情報RIを格納する。音声認識段11はこの参照情報RIを利用して話者に適応する。
パーソナルコンピュータ1のPC処理ユニット3は、ウィンドウズ処理ユニット22と、第1の処理ユニット23と、第2の処理ユニット24と、第3の処理ユニット25とを含む。パーソナルコンピュータ1が作動されたとき、ウィンドウズ処理ユニット22は常時作動状態に駆動される。他の3種類の処理ユニット23、24及び25は、個別の動作状態に移され、作動状態で制御され、或いは、動作状態に切り換えられる。
本質的に、いわゆるWindowsTMプログラムを処理するプログラム処理ユニットの特徴を示し、本例の場合に公知のWindows 95TMプログラムにより形成されたウィンドズ処理ユニット22は、主に3種類の処理ユニット23、24及び25を管理するため使用され、ウィンドウマネージャー26、切換領域マネージャー27、及び、コマンドマネージャー28を含む。図2に示された処理ウィンドウテーブル29は、処理ウィンドウマネージャー26に格納することができる。図3に示された切換領域テーブル30は、切換領域マネージャー27に格納される。コマンドマネージャー28は、制御情報CIの形でキーボード6若しくは音声認識装置2から入力されたウィンドウズ処理ユニット22のためのコマンドを管理、実現し、或いは、入力されたコマンドを制御情報CIの形式で3種類の処理ユニット23、24及び25の中のいずれかの処理ユニットに転送するよう構成されている。
本質的にプログラムプロセッサを表す3種類の処理ユニット23、24及び25は、主として、4個の処理ウィンドウW1、W2、W3及びW4を駆動し、グラフィックス情報及びテキスト情報が4個の処理ウィンドウW1、W2、W3及びW4に表示できるようにグラフィックス情報及びテキスト情報を準備、生成するため使用される。3種類の各処理ユニット23、24及び25毎に、作動状態にあるとき、異なる動作状態に切り換えられ得る。処理ユニット23、24及び25の中の何れの処理ユニットであるかに依存して、例えば、以下に説明される決定動作状態、印刷準備動作状態、少なくとも一つのデータベースを開く動作状態、若しくは、テキスト入力動作状態のような異なる動作状態が存在する。
モニター4は、3種類の処理ユニット23、24及び25に割り当てられた処理ウィンドウWn、図1の場合には、第1の処理ウィンドウW1と、第2の処理ウィンドウW2と、第3の処理ウィンドウW3と、第4の処理ウィンドウW4とを表示することができる。上記の各処理ウィンドウW1、W2、W3及びW4は、処理ユニット23、24及び25を用いて処理状態に駆動され得る。
第4の処理ウィンドウW4は、いわゆる決定処理ウィンドウであり、テキスト入力のためではなく、コマンド入力のため使用され、テキスト情報“OK(確認)”を含む第1の切り換え領域31と、テキスト情報“CANCEL(取消)”を含む第2の切り換え領域32と、テキスト情報“BACK(戻る)”を含む第3の切り換え領域33とを有する。3通りの処理ユニット23、24及び25は、処理ウィンドウW1、W2、W3及びW4に情報を表示させるため、グラフィックス情報及びテキスト情報を転送する4種類のコネクション23A、24A、25A及び25Bによってそれぞれの割り当てられた処理ウィンドウW1、W2、W3及びW4に接続される。第3の処理ウィンドウと第4の処理ウィンドウは、共に2本のコネクション25A及び25Bを介して第3の処理ユニット25に接続される。
音声認識段11によってテキスト入力モードで認識されたテキスト情報TIは、音声認識段11からコネクション11Aを介してウィンドウ処理ユニット22に転送され、ウィンドウ処理ユニット22から3本の更なるコネクション22A、22B及び22Cの中の1本のコネクションを介して作動状態に駆動された処理ユニット23、24及び25にそれぞれ転送され、一方、一つの処理ユニット23又は24又は25は、認識されたテキスト情報TIと対応したテキストをコネクション23A、24A及び25Aの中のいずれかのコネクションによって駆動されたそれぞれの処理ウィンドウW1、W2又はW3に表示させる。常に、3通りの処理ユニット23、24及び25の中の一つの処理ユニットだけが作動状態に駆動され得、4個の処理ウィンドウW1、W2、W3及びW4の中の一つのウィンドウだけがその処理状態に駆動され得ることに注意する必要がある。
ここまでの説明で、音声認識装置2は、例えば、発話コマンド若しくはキーボード6のキーを用いて入力されたコマンドに対応した処理ユニット23、24又は25の唯一の所望の動作状態に割り当てられたコマンド辞書を作成する作成手段34を有する。作成手段34は、情報処理手段によって形成され、認識手段35と、検出手段36と、更なる割り当て手段37とを含む。
認識手段35は、処理ユニット23、24及び25の処理ウィンドウW1、W2、W3及びW4の処理状態を認識するため設けられ、音声認識装置2に収容される。この目的のため、認識手段35は、ログオン情報AIを処理ウィンドウマネージャー26に送出する。認識手段35は、処理ウィンドウマネージャー26から到来する処理ウィンドウ情報WIを受信し、処理ウィンドウ情報WIは作動状態の処理ユニット23、24又は25がある動作状態から別の動作状態に変更されたときに送信される。処理ウィンドウ情報WIは、4個の処理ウィンドウW1、W2、W3及びW4の中で処理状態、すなわち、作動状態である処理ウィンドウに関する情報を含み、これについては、処理ウィンドウ情報WIに基づいて認識手段35によって認識又は検出される。認識手段35は、この処理ウィンドウ情報WIを検出手段36に送出し得る。
検出手段36は、例えば、処理ユニット23、24又は25のある動作状態から処理ユニット23、24又は25の別の動作状態への変化後に、すなわち、例えば、発話コマンドによって、或いは、キーボード6のキーの押下によって決定されたコマンド情報を用いて行われる処理ユニット23、24又は25の所望の動作状態が作動された後に、少なくとも1台の処理ユニット23、24及び25の別の動作状態を作動させるための、本例の場合にテキスト情報TI(CI)によって形成された適当なコマンド情報を検出するため構成される。検出手段36は、受信されたテキスト情報TI(CI)を割り当て手段37に送るよう構成される。
検出手段36によって検出されたコマンド情報TI(CI)が与えられる割り当て手段37は、識別情報PIを検出された適当なコマンド情報TI(CI)に割り当てるため使用され、音素系列によって形成されたこの識別情報PIは、本例の場合に、テキスト辞書メモリ18から読み出してもよく、或いは、割り当て手段37を用いて作成してもよい。また、割り当て手段37自体は、検出された適当なコマンド情報TI(CI)及び識別情報PIをコマンド語彙メモリ19及びコマンド辞書メモリ17に記憶するよう構成され、その結果として、それぞれの処理ユニット23、24及び25の作動された動作状態にだけ割り当てられたコマンド辞書を生成する。
上記の通り、処理ウィンドウ情報WIは認識手段35によって検出手段36に与えられる。このような処理ウィンドウ情報WIが発生したとき、検出手段36は、質問情報GI(Wn)を切換領域マネージャー27に送出し、制御情報CI及び検出された適当なテキスト情報TI(CI)を切換領域マネージャー27から受け、以下に詳述するこの情報を記憶する。基本語彙メモリ20に格納された次の情報TIも検出手段36に記憶される。この目的のため、制御情報CIは初期化ルーチンでこのテキスト情報TIに割り当てられ、さらに、テキスト情報TI及び制御情報CIは、相互に割り当てられて検出手段36に記憶される点が重要である。
割り当て手段37は、受信されたテキスト情報TI(CI)をテキスト辞書メモリ18に記憶されたテキスト情報TIと比較し、両者が一致したとき、テキスト辞書メモリ18からテキスト情報TI及び割り当てられた識別情報PI、すなわち、割り当てられた音素系列を読み出すよう構成される。受信されたテキスト情報TI(CI)がテキスト辞書メモリ18内に見つからないとき、割り当て手段37自体は、テキスト情報TI(CI)に割り当てられるべき割り当て情報PIを作成し、音素系列が発生される。テキスト辞書メモリ18内でテキスト情報TIの同一又は類似テキスト部に割り当てられた音素系列は、テキスト情報TI(CI)のテキスト部に割り当てられる。このようなテキスト情報TI(CI)に割り当てられた音素系列を発生させる方法は、従来技術において当業者に知られている。テキスト情報TI(CI)及び割り当てられた音素系列、すなわち、割り当てられた識別情報PIは、コマンド語彙メモリに格納してもよい。
コマンド入力モードにおいて音声認識段11によって識別されたコマンド情報BIを形成するテキスト情報は、別のコネクション11Bを介して音声認識段11によって検出手段36に送出してもよい。検出手段36は、別のコネクション11Bを介して供給されたコマンド情報BIを、検出手段36に格納されている検出された適当なテキスト情報TI(CI)と比較する。比較の結果が肯定的である場合に、検出手段36は、コマンド情報BIに割り付けれられ、検出手段36に格納された制御情報CIを、後述するコマンドマネージャー28に送出する。処理ユニット23、24、25の動作状態は制御情報CIを用いてトリガされ得る。
以下、図4に示されたフローチャート38を参照して、作動状態に駆動された処理ユニット23、24、25の動作状態に適応した、すなわち、この動作状態に割り当てられたコマンド辞書を作成し、記憶するため音声認識装置2を含むパーソナルコンピュータ1で実行されるプログラムについて説明する。
プログラムの実行は、音声認識装置2が音声情報SIをパーソナルコンピュータ1に入力するため作動されたときにステップ39で開始される。次のステップ40において、認識手段35は、ログオン情報AIを処理ウィンドウマネージャー26に送る。ログオン情報AIは、処理ウィンドウマネージャー26内に現れる情報の中で、更なる処理中に認識手段35に転送されるべき情報に関する情報を含む。また、ログオン情報AIは、特に、処理ウィンドウマネージャー26に出現する処理ウィンドウ情報WIが更なる処理中に認識手段35に常に転送されるべきかについての情報を含む。
処理ウィンドウマネージャー26には図2に示された処理ウィンドウテーブル28が格納される。処理ウィンドウテーブル29の列APは、処理ウィンドウWnが割り当てられた処理ユニット23、24及び25で処理可能なプログラムを示す。第1の処理ユニット23はWindows用ExcelTMプログラムを用いて形成され、このプログラムには第1の処理ウィンドウW1が処理ウィンドウテーブル29の列Wnで割り当てられている。第2の処理ユニット24は、Internet ExplorerTMプログラムを用いて形成され、このプログラムには第2の処理ウィンドウW2が処理ウィンドウテーブル29の列Wnで割り当てられている。第3の処理ユニット25はWindows用WordTMプログラムを用いて形成され、このプログラムには第3の処理ウィンドウW3及び第4の処理ウィンドウW4が処理ウィンドウテーブル29の列Wnで割り当てられている。第3の処理ユニット25が作動状態に駆動されている場合を考える。第4の処理ウィンドウW4は、テキスト入力モードのテキスト入力用又はコマンド入力モードのコマンド入力用の作動的な処理ウィンドウとして処理ウィンドウテーブル29内で矢印を用いて表されている。第4の処理ウィンドウW4は決定処理ウィンドウであるため、1個のコマンドだけがコマンド入力モードで入力できる。第3の処理ユニット25の作動状態において、パーソナルコンピュータ1のユーザは、ある種の処理を行うべきかどうかについてのコマンドを入力することが期待され、このコマンド入力は、テキスト情報“OK”を含む第1の切換領域31の作動によって実行される。このような特別の処理は、例えば、文書のテキストを処理するためパーソナルコンピュータのメインメモリに文書をロードする場合である。コマンド入力は、テキスト情報“CANCEL”を含む第2の切換領域の作動でもよく、その結果として、特定の処理が中断される。また、テキスト情報“BACK”を含む第3の切換領域33がコマンドを入力することにより作動され、特定の処理が実行されず、第3の処理ユニットの前の動作状態に戻される場合がある。
ステップ40に続くステップ41において、認識手段35は、処理ウィンドウ情報WIが処理ウィンドウマネージャー26から着信したかどうかを検査する。着信していない限り、プログラム実行はステップ41に留まる。処理ウィンドウマネージャー26は、ログオン情報AIが発生した場合、及び、本例の場合には作動状態の処理ユニット25がある動作状態から別の動作状態に変更されたときに処理ウィンドウ情報WIを生成する。処理ウィンドウマネージャー26は、2個の処理ユニット23又は24の中のどちらか一方が作動状態に駆動された場合にも処理ウィンドウ情報WIを生成することに注意する必要がある。処理ウィンドウ情報WIが発生したとき、プログラム実行はステップ42に進む。
ステップ42において、作動的な処理状態に駆動された第4の処理ウィンドウW4の処理ウィンドウ情報WIは、認識手段35から検出手段36に転送される。処理ウィンドウ情報WIが出現したとき、検出手段36は、それぞれの作動的処理ウィンドウWnと関連した質問情報GI(Wn)、本例の場合には作動的な第4の処理ウィンドウW4の質問情報GI(W4)を切換領域マネージャー27に送出する。図3に示された切換領域テーブル30は切換領域マネージャー27に格納される。切換領域テーブル30の中の列Wnは、切換領域マネージャー27によって管理される処理ウィンドウW1、W2、W3及びW4を示し、これらのウィンドウはウィンドウズ処理手段22と協働する処理ユニット23、24及び25に属する。切換領域テーブル30の列TI(CI)は、コントロール部としても知られている切換領域と、処理ウィンドウW1、W2、W3及びW4の他の要素、例えば、メニューリスト、或いは、いわゆるプルダウンメニューのような要素とに割り当てられた処理ウィンドウW1、W2、W3及びW4用のテキスト情報TI(CI)を示す。切換領域テーブル30の各テキスト情報TI(CI)、切換領域がそれぞれの処理ウィンドウWnに割り当てられた処理手段上でユーザによって作動されたときに生成された制御情報CIに割り当てられ、作動された切換領域のコマンドを実行させる。切換領域テーブル30からわかるように、テキスト情報“OK”を含む第1の切換領域31は、割り当てられた制御情報30である。パーソナルコンピュータ1のユーザが、第1の切換領域31を作動させるため、例えば、キーボード6のキーを押下したとき、コマンドマネージャー28は、第3の処理ユニット25の動作状態を変更するため制御情報“30”を第3の処理ユニット25に転送する。
ステップ42に続くステップ43において、切換領域マネージャー27は、質問情報GI(W4)が発生したとき、切換領域テーブル30内で第4の処理ウィンドウW4のテキスト情報TI(CI)及び割り当てられた制御情報CIを検出し、検出手段36に伝達する。検出手段36に伝達され、第3の処理ユニット25の更なる動作状態を作動させるため適した、検出されたテキスト情報TI(CI)及び割り当てられた制御情報CIは、検出手段36に格納され、検出された適当なテキスト情報TI(CI)は割り当て手段37に転送される。その結果として、テキスト情報“OK”、“取消”、“戻る”は、本例の場合に割り当て手段37に転送される。
ステップ43に続くステップ44において、検出された適当なテキスト情報TI(CI)は、割り当てられた識別情報PI、すなわち、音素系列である。第1のステップにおいて、検出されたテキスト情報TI(CI)が既にテキスト辞書メモリ18に格納されているかどうかがテストされる。かかるテキスト情報TI(CI)が既に適すと辞書メモリ18に格納されている場合、すなわち、見つけられた場合、テキスト辞書メモリ18内でこのテキスト情報に割り当てられ、音素系列を表現する識別情報PIは、テキスト辞書メモリ18から読み出され、見つけられたテキスト情報TI(CI)に割り当てられる。このようなテキスト情報TI(CI)がテキスト辞書メモリ18内で見つけられなかった場合、音素系列を表現する識別情報PIが割り当て手段37自体によって作成され、既に説明したように見つけられたなかったテキスト情報TI(CI)に割り当てられる。
ステップ44に続くステップ45において、検出された適当なテキスト情報TI(CI)及びステップ44においてこのテキスト情報TI(CI)に割り当てられた識別情報PIは、コマンド語彙メモリ、すなわち、コマンド辞書メモリ17に記憶される。このようにして、作成手段34によって作成されたコマンド辞書は、本例の場合には、第3の処理ユニット25の作動された動作状態の場合に限り、コマンド語彙メモリに記憶されるので、コマンド辞書メモリ17の内容は第3の処理ユニット25の作動された動作状態に適応する。ステップ45の実行後、プログラム実行はステップ41に進む。
上記の本発明の方法によれば、本発明による音声認識装置2は、処理ユニットの動作状態が出現した直後に作動状態に駆動されたその処理ユニットの作動された動作状態に適応したコマンド辞書を自動的に作成する。このような適応したコマンド辞書は、先行して作動的な処理ユニットの動作状態が作動状態に駆動された別の処理ユニットの動作状態に変更されるときに自動的に作成される点が有利である。その結果として、コマンド語彙メモリに記憶されたコマンド語彙は、それぞれの作動的な処理ウィンドウWnに適応するので、コマンド入力モードで音声情報SIとして入力されたコマンド情報BIの認識のための次の音声認識実行の際に非常に高い認識率が達成される。
以下、図5に示されたフローチャート46を参照して、コマンド入力モードで音声認識装置2を備えた音声認識動作を実行するプログラム実行について説明する。
プログラム実行は、話者がキー13を押下することによりコマンド入力モード作動コマンドCMIを音声認識装置2に提示し、その結果として、コマンド入力モードが作動されるときに、ステップ47から始まる。ステップ47に続くステップ48において、音声認識段11で音声情報SIが既に発生し、記憶手段9に記憶されたかどうかについてテストが行われる。テスト結果が否定的である限り、プログラム実行はステップ48に留まる。一方、音声情報SIが実際に出現し、記憶手段9に記憶されたとき、プログラム実行はステップ49に進む。ステップ49において、音声認識段11は、少なくとも一つの音素系列を、参照メモリ16に格納された参照情報RIを用いて、記憶手段9から読み出された音声情報SIに割り当てる。この少なくとも1個の割り当てられた音素系列は、コマンド入力モードで音声認識段11に接続されたコマンド辞書メモリ17に識別情報PIの形式で記憶された音素系列と比較される。音声情報SIに基づいて検出された音素系列がコマンド辞書メモリ17に記憶された音素系列と一致するとき、同様にコマンド辞書メモリ17に記憶された音素系列に割り当てられたテキスト情報は、音声認識段11によって認識された情報としてコマンド辞書メモリ17から読み出される。かかる認識されたテキスト情報はコマンド情報B1を形成し、このコマンド情報B1は、コマンド入力モードにおいて、音声認識段11によって別のコネクション11Bを介して検出手段36に送られる。
ステップ50において、検出手段36は認識されたコマンド情報B1を検出手段36に格納されたテキスト情報と比較する。検出されたコマンド情報B1は検出手段36に格納されたすべてのテキスト情報と比較されるので、作動的な第4の処理ウィンドウW4に示される検出された適当なテキスト情報TI(CI)及び初期化ルーチン中に検出手段36に格納されたテキスト情報TIの両方の情報と比較される。認識されたコマンド情報BIと検出手段36に格納されたテキスト情報との間に一致が見つけられたとき、プログラムルーチンはステップ51に進む。
ステップ51において、検出手段36は、記憶されたテキスト情報に割り当てられた制御情報CIを、制御情報CIを処理するコマンドマネージャー28に送信する。コマンドマネージャー28は、第3の処理ユニットをある動作状態から別の動作状態に駆動若しくは切り換えるため、制御情報CIを作動状態に移された第3の処理ユニット25に送信する。ステップ51に続いて、プログラムルーチンはステップ48に戻る。
話者がキー13に触れ、単語“OK”をマイクロホン5に発話したとき、音声認識段11は、この音声情報SIを用いて音声認識段によって作成された音素系列を、コマンド語彙メモリ及び基本語彙メモリ20に、したがって、コマンド辞書メモリ17に識別情報PIの形式で記憶された音素系列と比較する。コマンド語彙メモリには、コマンド“OK”、“CANCEL(取消)”及び“BACK(戻る)”に対する音素系列が記憶される。音声認識段11によって認識可能であり、かつ、コマンド辞書メモリ17に格納されたコマンド情報BIの数が非常に少ないため、認識率は非常に高く、そのため、音声認識段11は、単語“OK”に関する音素系列が検出された音素系列と一致していることを非常に高速かつ高い信頼性で認識する。この音素系列に割り当てられた情報“OK”は音声認識段11によって検出手段36に送られる。検出手段36の比較の結果として、テキスト情報“OK”と対応するコマンド情報BIが検出手段36に格納された作動的な第4の処理ウィンドウW4の第1の切換領域31のテキスト情報TI(CI)と一致することが得られる。テキスト情報TI(CI)に割り当てられた制御情報“30”は、制御情報“30”を実行させるため、検出手段36からコマンドマネージャー28に転送される。コマンドマネージャー28は、制御情報“30”を、制御情報“30”によって表現されたコマンド“OK”を実行する第3の処理ユニット25に転送する。第3の処理ユニット25は、制御情報“30”の第3の処理ユニット25への転送が、第1の切換領域31を作動させることにより行われるか、又は、キーボード6の少なくとも1個のキーを作動させるか、或いは、話者からの音声によって作動されることにより行われるかどうかによって違いが生じない。
これにより得られる利点は、音声認識装置2が処理ユニットを制御するコマンド情報として制御情報CIを処理ユニットに送出し、処理ユニット内の制御情報は話者によって発話されたコマンドを直ちに実行させることである。したがって、本発明による音声認識装置2と協働する処理ユニットは、処理ユニットを従来の音声認識装置と協働させる殆どの場合に必要とされたように音声コマンド処理手段を具備する必要がない。これにより、本発明による音声認識装置2は、すべてのウィンドウズ処理ユニットで使用できるようになる。
本発明による音声認識装置2は、認識手段35が作動状態に駆動された処理ユニット23、24又は25の作動的な処理ウィンドウWnを検出し、音声情報SIとして入力されたコマンド情報BIが作動状態に駆動された処理ユニット23、24又は25だけに対し有効になることにより、複数の処理ユニット23、24及び25と協働する点が有利である。
本発明による音声認識装置2の作成手段34は、図1に示されるように、例えば、Windows 95TMプログラムを利用して実現されるウィンドウズプロセッサ22と協働するよう構成された場合に、非常に簡単な構造を有する。これは、Windows 95TMプログラムが、コマンド辞書を作成するために必要である処理ウィンドウ情報WIと、作動的な動作ウィンドウWnのテキスト情報TI(CI)及び割り当てられた制御情報CIとを利用できるようにすることに起因する。
本発明の第2の実施例によれば、音声認識装置は、いわゆるインターネットブラウザによって形成された処理ユニットを制御するよう構成される。この本発明の第2の実施例による音声認識装置は、図1に示された本発明の第1の実施例による音声認識装置と同じ構造を有し、一方、第2の実施例による音声認識装置とインターネットブラウザとを含むパーソナルコンピュータは、コンピュータネットワークインターネットに接続される。
インターネットブラウザは、インターネットに接続された記憶手段であるいわゆるサーバーに記憶された情報、すなわち、インターネットホームページを検出するため使用される。インターネットホームページは、テキスト情報及びグラフィックス情報を格納し、場合によってはビデオ情報を格納する。インターネットブラウザは、特定のインターネットアドレス、いわゆるURLによって表されたインターネットホームページを検出するよう構成される。インターネットブラウザは、本発明の第2の実施例の場合に、公知のウィンドウズ“MicrosoftTM Internet ExplorerTM”プログラムを利用して実現される。例えば、NetscapeTMのようなインターネットブラウザを実現するため適当な他の複数のプログラムを利用することが可能である。
インターネットホームページのテキスト情報は、別のインターネットホームページのインターネットアドレスがテキスト情報に割り当てられている場合に、コマンド情報を形成する。このようなテキスト情報は、このテキスト情報を作動することにより更なるインターネットホームページがインターネットブラウザによって検出できることに関してユーザの注目を惹くため、パーソナルコンピュータに接続されたモニターに表示されるとき、特別な方法、例えば、下線付きでインターネットホームページ上に表示される。このテキスト情報に割り当てられたインターネットアドレスは、インターネットブラウザに送られたときに、インターネットブラウザにこのインターネットアドレスに割り当てられたインターネットホームページを検出させ、インターネットブラウザの動作状態を変更する制御情報を形成する。
本発明の第2の実施例による音声認識装置は、インターネットブラウザを用いてインターネットホームページを検出した後、インターネットホームページ上で見つかったコマンド情報を形成するテキスト情報を検出する検出手段を含む。インターネットブラウザは、“MicrosoftTM Internet ExplorerTM”ウィンドウズプログラムを用いて構成されているので、本発明の第2の実施例による音声認識装置の検出手段、並びに、本発明の第1の実施例による音声認識装置の検出手段は、ウィンドウズプロセッサのコマンド情報を検出するよう構成される。
本発明の第2の実施例による音声認識装置は、第1の実施例による音声認識手段の割り当て手段と対応した割り当て手段を備え、第2の実施例による音声認識装置内で、コマンド情報を形成するテキスト情報用の割り当て情報を検出若しくは作成するので、第2の実施例による音声認識装置は、インターネットブラウザにより検出されたインターネットホームページに適応したコマンド辞書を作成するよう構成される。
検出手段は、インターネットブラウザによって最後に検出されたインターネットホームページ上にコマンド情報を形成するテキスト情報に割り当てられたインターネットアドレスを検出するよう構成される。さらに、検出手段は、音声認識装置の音声認識手段が、本発明の第1の実施例に従って実行され、音声情報に割り当てられるべきコマンドを表現するテキスト情報を、検出手段によって検出されたテキスト情報と比較し、その比較の結果が肯定的である場合に、実行されるべきコマンドを表現するテキスト情報に割り当てられたインターネットアドレスをインターネットブラウザに送出するように構成される。このインターネットアドレスは、インターネットアドレスに割り当てられたインターネットホームページをインターネットブラウザで検出するため使用される。
したがって、上記第1の実施例に関して説明した利点は、インターネットブラウザが話者によって発話されたコマンドによって制御される場合にも得られる。
本発明による音声認識装置は、ウィンドウズ処理ユニットと協働するよう構成されていない処理ユニットを制御するよう構成されることに注意する必要がある。処理ユニットとしては、UNIXオペレーティングシステム、或いは、DOSオペレーティングシステムと協働する処理ユニットが考えられる。
さらに、検出された適当なテキスト情報TI(CI)は、いわゆるメニューリストやプルダウンメニューだけではなく、他の類似したコマンド表示形式上で検出され得ることに注意する必要がある。

Claims (6)

  1. コンピュータ上でオペレーティング・システム上で実行される、音声コマンド処理手段をもたない少なくとも一つのアプリケーション・プログラムと協働するコンピュータ・プログラムの動作方法であって、アクティブなアプリケーション・プログラムが現在の動作状態にはいったあとに実行される以下の段階
    前記アクティブなアプリケーション・プログラムの現在の動作状態に関する質問をオペレーティング・システムに送る段階と;
    オペレーティング・システムから、(i)現在の動作状態についての、アプリケーション・プログラムを次の動作状態に遷移させる制御情報および(ii)該制御情報に割り当てられたテキスト情報を検出する段階と;
    前記テキスト情報に関連付けられた音声コマンドとしてはたらく第一の音声入力をユーザーから受領する段階と;
    前記音声コマンドを表す音素系列を生成する段階と;
    前記音素系列を前記テキスト情報および制御情報に割り当てる段階と;
    前記テキスト情報および割り当てられた音素系列をコマンド辞書に記憶して、その後は前記音声コマンドが前記制御情報を作動させて前記アプリケーション・プログラムを前記現在の動作状態から次の動作状態に遷移させるようにする、段階とを含む、
    方法
  2. 請求項1記載の方法であって、前記音素系列を割り当てる段階は:
    前記アプリケーションが前記現在状態にあるときに前記ユーザーから第二の音声入力を受け取る段階と;
    前記第二の音声入力が前記割り当てられた音素系列に一致するかどうかを判定する段階と;
    前記割り当てられた音素系列が前記第二の音声入力に一致する場合、関連付けられたコマンド系列を与えて前記アプリケーション・プログラムを前記現在の動作状態から次の動作状態に遷移させ、それにより、認識された音声コマンドからの帰結として動作状態遷移を引き起こす、段階とを含む、
    方法
  3. 請求項1または2に記載の方法であって、
    アクティブなアプリケーション・プログラムがある動作状態から別の動作状態に変わるときおよび別のアプリケーション・プログラムがアクティブになるときに、どのアプリケーション・プログラムがアクティブかについての情報を含む処理ウィンドウ情報がオペレーティング・システムによって生成され、
    オペレーティング・システムから処理ウィンドウ情報が受信されたときに前記各段階が実行される、
    方法
  4. 請求項1ないし3のうちいずれか一項記載の方法であって、さらに、
    ユーザーの命令に応じてコマンド入力モードにはいる段階と;
    前記アプリケーション・プログラムの現在の動作状態についてのコマンド辞書を使って音声認識手段によって認識された、音声ユーザー・コマンドに対応するテキスト情報を受領する段階と;
    前記認識されたテキスト情報を前記検出されたテキスト情報を比較する段階と;
    前記比較において一致が見出されたら、オペレーティング・システムに、前記音声ユーザー・コマンドに対応する一致したテキスト情報に割り当てられている制御情報を送る段階とを含む
    方法
  5. 請求項4記載の方法であって、
    前記音声ユーザー・コマンドに対応する前記認識されたテキスト情報を得るのが:
    前記音声ユーザー・コマンドの音声情報に少なくとも一つの音素系列を割り当て;
    前記少なくとも一つの割り当てられた音素系列を、アクティブなアプリケーション・プログラムの現在の動作状態についてのコマンド辞書に記憶されている音素系列と比較し;
    前記少なくとも一つの割り当てられた音素系列の一つが前記コマンド辞書に記憶されている音素系列に一致する場合、一致した音素系列に割り当てられているテキスト情報を認識されたテキスト情報として前記コマンド辞書から読み出すことによってである、
    方法
  6. 請求項1ないし5のうちいずれか一項記載の方法であって、
    前記コマンド辞書がさらに基本語彙を含む、
    方法
JP53586899A 1997-12-30 1998-12-14 コマンド辞書を使用する音声認識方法 Expired - Fee Related JP4827274B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP97890259.1 1997-12-30
EP97890259 1997-12-30
PCT/IB1998/002038 WO1999035640A2 (en) 1997-12-30 1998-12-14 Speech recognition device using a command lexicon

Publications (2)

Publication Number Publication Date
JP2001515611A JP2001515611A (ja) 2001-09-18
JP4827274B2 true JP4827274B2 (ja) 2011-11-30

Family

ID=8231130

Family Applications (1)

Application Number Title Priority Date Filing Date
JP53586899A Expired - Fee Related JP4827274B2 (ja) 1997-12-30 1998-12-14 コマンド辞書を使用する音声認識方法

Country Status (7)

Country Link
US (1) US6253176B1 (ja)
EP (1) EP0962014B1 (ja)
JP (1) JP4827274B2 (ja)
KR (1) KR20000075828A (ja)
AT (1) ATE254327T1 (ja)
DE (1) DE69819690T2 (ja)
WO (1) WO1999035640A2 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60143506D1 (de) 2000-01-27 2011-01-05 Nuance Comm Austria Gmbh Sprachdetektiongsgerät mit zwei abschaltkriterien
ATE336776T1 (de) 2000-02-25 2006-09-15 Koninkl Philips Electronics Nv Vorrichtung zur spracherkennung mit referenztransformationsmitteln
GB2365189A (en) * 2000-07-26 2002-02-13 Canon Kk Voice-controlled machine
JP2002123283A (ja) * 2000-10-12 2002-04-26 Nissan Motor Co Ltd 音声認識操作装置
US20030069733A1 (en) * 2001-10-02 2003-04-10 Ryan Chang Voice control method utilizing a single-key pushbutton to control voice commands and a device thereof
US7184960B2 (en) * 2002-06-28 2007-02-27 Intel Corporation Speech recognition command via an intermediate mobile device
DE10337823A1 (de) * 2003-08-18 2005-03-17 Siemens Ag Sprachsteuerung von Audio- und Videogeräten
JP4377718B2 (ja) * 2004-02-27 2009-12-02 富士通株式会社 対話制御システム及び方法
KR100657059B1 (ko) * 2004-07-19 2006-12-13 삼성전자주식회사 음성인식구동방법
JP4282590B2 (ja) * 2004-11-29 2009-06-24 株式会社東芝 音声移動制御装置および音声移動制御方法
KR101073154B1 (ko) * 2005-01-07 2011-10-12 주식회사 현대오토넷 윈도우 환경에서의 음성인식을 이용한 사용자 인터페이스장치 및 그 제어 방법
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9368107B2 (en) * 2011-04-20 2016-06-14 Nuance Communications, Inc. Permitting automated speech command discovery via manual event to command mapping
US9992745B2 (en) 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
KR20180137041A (ko) 2011-12-07 2018-12-26 퀄컴 인코포레이티드 디지털화된 오디오 스트림을 분석하는 저전력 집적 회로
CN103247290A (zh) * 2012-02-14 2013-08-14 富泰华工业(深圳)有限公司 通信装置及其控制方法
KR101944414B1 (ko) * 2012-06-04 2019-01-31 삼성전자주식회사 음성 인식 서비스를 제공하기 위한 방법 및 그 전자 장치
US20130338995A1 (en) * 2012-06-12 2013-12-19 Grant Street Group, Inc. Practical natural-language human-machine interfaces
DE112015001468T5 (de) * 2014-03-27 2016-12-15 Sony Corporation Elektronische Vorrichtung und Verfahren zum Identifizieren von Eingabebefehlen eines Benutzers
US10515632B2 (en) 2016-11-15 2019-12-24 At&T Intellectual Property I, L.P. Asynchronous virtual assistant
CN108022586B (zh) * 2017-11-30 2019-10-18 百度在线网络技术(北京)有限公司 用于控制页面的方法和装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63153597A (ja) * 1986-12-17 1988-06-25 日本電信電話株式会社 検索照合型認識システム
JPH03163623A (ja) * 1989-06-23 1991-07-15 Articulate Syst Inc 音声制御コンピュータ・インターフェース
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
JP3286339B2 (ja) * 1992-03-25 2002-05-27 株式会社リコー ウインドウ画面制御装置
US5850627A (en) * 1992-11-13 1998-12-15 Dragon Systems, Inc. Apparatuses and methods for training and operating speech recognition systems
JP3725566B2 (ja) * 1992-12-28 2005-12-14 株式会社東芝 音声認識インターフェース
EP0607615B1 (en) * 1992-12-28 1999-09-15 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
US5890122A (en) * 1993-02-08 1999-03-30 Microsoft Corporation Voice-controlled computer simulateously displaying application menu and list of available commands
CA2115210C (en) * 1993-04-21 1997-09-23 Joseph C. Andreshak Interactive computer system recognizing spoken commands
JPH07219586A (ja) * 1994-01-31 1995-08-18 Canon Inc 情報処理方法及び装置
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
JP2924717B2 (ja) * 1995-06-12 1999-07-26 日本電気株式会社 プレゼンテーション装置
US5873064A (en) * 1996-11-08 1999-02-16 International Business Machines Corporation Multi-action voice macro method

Also Published As

Publication number Publication date
WO1999035640A3 (en) 1999-09-16
EP0962014B1 (en) 2003-11-12
US6253176B1 (en) 2001-06-26
EP0962014A2 (en) 1999-12-08
DE69819690T2 (de) 2004-08-12
ATE254327T1 (de) 2003-11-15
KR20000075828A (ko) 2000-12-26
JP2001515611A (ja) 2001-09-18
WO1999035640A2 (en) 1999-07-15
DE69819690D1 (de) 2003-12-18

Similar Documents

Publication Publication Date Title
JP4827274B2 (ja) コマンド辞書を使用する音声認識方法
US10748530B2 (en) Centralized method and system for determining voice commands
US8831956B2 (en) Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
US6366882B1 (en) Apparatus for converting speech to text
JP3662780B2 (ja) 自然言語を用いた対話システム
US6513009B1 (en) Scalable low resource dialog manager
EP1162602B1 (en) Two pass speech recognition with active vocabulary restriction
JP3454897B2 (ja) 音声対話システム
Rabiner Applications of speech recognition in the area of telecommunications
EP1544719A2 (en) Information processing apparatus and input method
JPH08335160A (ja) ビデオスクリーン表示を音声対話型にするシステム
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
WO2002050817A1 (en) Speechdriven setting of a language of interaction
JP2011504624A (ja) 自動同時通訳システム
US7349844B2 (en) Minimizing resource consumption for speech recognition processing with dual access buffering
US20030216915A1 (en) Voice command and voice recognition for hand-held devices
JP3526101B2 (ja) 音声認識装置
JP2001268669A (ja) 移動電話端末を利用した機器制御装置、方法、及び記録媒体
JP3468572B2 (ja) 対話処理装置
JP4229627B2 (ja) ディクテーション装置、方法及びプログラム
JP2002023903A (ja) ユーザ対話方法、この方法を実施する装置、およびこの方法を実行するプログラムを記憶する記憶媒体
CN112489640A (zh) 语音处理装置以及语音处理方法
JP2000132183A (ja) 音声認識装置
JPH06250689A (ja) 音声認識装置
JPH04344930A (ja) 音声ガイダンス出力方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090428

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090723

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090728

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100805

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110816

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110913

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140922

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees