JPH06348452A

JPH06348452A - 話されたコマンドを認識する対話式コンピュータ・システム

Info

Publication number: JPH06348452A
Application number: JP6050064A
Authority: JP
Inventors: Joseph C Andreshak; ジョセフ・チャールズ・アンダーシャック; Gregg H Daggett; グレッグ・エイチ・ダゲット; John Karat; ジョン・カラット; John Lucassen; ジョン・ルカッセン; Stephen E Levy; ステファン・エリック・レビィ; Robert L Mack; ロバート・ローレンス・マック
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-04-21
Filing date: 1994-03-22
Publication date: 1994-12-22
Anticipated expiration: 2014-02-10
Also published as: CN1105464A; CN1086484C; US5664061A; KR970006403B1; CA2115210C; CA2115210A1; DE69420888T2; DE69420888D1; EP0621531B1; JP2856671B2; ATE185203T1; EP0621531A1

Abstract

(57)【要約】（修正有）【目的】発話を目標コンピュータ・プログラム用のコ
マンド信号に変換する。【構成】第１時限間に発生する第１活動状態イメージ
に表示される１つのオブジェクトを識別し、該オブジェ
クトから、目標コンピュータ・プログラムの第１活動状
態で実行できる機能を識別する１つ又は複数の第１活動
状態コマンドのリストを生成する。第１活動状態の音響
コマンド・モデルの第１活動状態語彙に、システム語彙
からの、第１活動状態コマンドを表す音響コマンド・モ
デルが含まれ、第１時限の連続した時間間隔の間に発話
の１つの特徴の値を測定し、特徴信号を第１活動状態語
彙の音響コマンド・モデルと比較して、その発話と各音
響コマンド・モデルとの一致スコアを生成する。音声認
識機構が、第１活動状態語彙からのコマンド・モデルの
うちで最高の一致スコアに対応するコマンド信号を出力
する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、使用者が入力装置によ
って、コンピュータ・システム上で実行中の目標コンピ
ュータ・プログラムにコマンドを供給する対話式コンピ
ュータ・システムに関する。この入力装置は、たとえ
ば、キーボード、マウス装置または音声認識機構（本明
細書で使用する用語「音声認識機構」は、ハードウェア
だけではなく、ソフトウェアをも含むものとして広義に
解釈されたい）とすることができる。入力装置ごとに、
その入力装置の生成した入力信号を、目標コンピュータ
・プログラムによって使用できる形態に変換する。

【０００２】

【従来の技術】使用者がコマンドを話すことによってコ
マンドを供給できる対話式コンピュータ・システムは、
目標コンピュータ・プログラムによって実行できる機能
を識別するコマンドを有する目標コンピュータ・プログ
ラムを実行するプロセッサから構成できる。このコンピ
ュータ・システムにはさらに、話されたコマンドを認識
し、認識されたコマンドに対応するコマンド信号を出力
するための音声認識機構が含まれる。音声認識機構は、
一連の連続した時間間隔のそれぞれの間に発話の少なく
とも１つの特徴の値を測定して、一連の特徴信号を作
り、測定された特徴信号を複数の音響コマンド・モデル
のそれぞれと比較して、その発話と各音響コマンド・モ
デルの一致スコアを生成し、最高の一致スコアを有する
コマンド・モデルに対応するコマンド信号を出力するこ
とによって、話されたコマンドを認識する。

【０００３】音声認識機構が認識できる発話モデルとそ
の発話モデルによって表現される単語の組を、システム
語彙と称する。システム語彙は有限であり、たとえば、
１発話モデルから数千の発話モデルにおよぶ可能性があ
る。各発話モデルは１単語を表しても、連続して（単語
の間に休止をおかないで）話される２つ以上の単語の組
合せを表してもよい。

【０００４】システム語彙には、たとえば、目標コンピ
ュータ・プログラムが応答できるコマンドのすべての発
話モデルが含まれてよい。しかし、発話モデルの数が増
えるにつれて、システム語彙全体を使用して発話認識を
実行するのに必要な時間が増え、認識精度が下がる。

【０００５】一般に、目標コンピュータ・プログラム
は、一連の時限にわたって発生する一連の活動状態を有
する。活動状態ごとに、その活動状態で実行できる機能
を識別する活動コマンドのリストがあってよい。活動コ
マンドは、システム語彙の小さなサブセットである場合
がある。目標コンピュータ・プログラムによって使用可
能な形態への発話されたコマンドの変換は、目標コンピ
ュータ・プログラムの状態によって異なる可能性があ
る。

【０００６】音声認識機構の速度と精度を改良するため
には、音声認識機構が所与の時限内に認識できる発話モ
デルの活動語彙を、その時限内に目標コンピュータ・プ
ログラムによって実行できる機能を識別する活動コマン
ドに制限することが望ましい。この結果を得ようとし
て、活動状態を複写し、目標コンピュータ・プログラム
の活動状態の間で遷移する有限状態機械を、音声認識機
構に設ける場合がある。

【０００７】実際には、活動状態を正確に複写し、目標
コンピュータ・プログラムの活動状態の間で遷移する、
音声認識機構用の有限状態を作ることは、不可能である
ことがわかっている。目標コンピュータ・プログラム
は、使用者と対話するだけではなく、前もって状態を知
ることのできないコンピュータ・システムのデータや他
の装置とも対話する。

【０００８】たとえば、ファイルをロードするコマンド
は、そのファイルが存在するならばコンピュータ・プロ
グラムにある状態への遷移を起こさせ、そのファイルが
存在しない場合には異なる状態への遷移を起こさせる。
しかし、音声認識機構の有限状態機械は、ファイルが存
在するまたは存在しないという何らかの前提を設けて作
成しなければならない。ファイルをロードするコマンド
が、音声認識機構を使用するコンピュータ・プログラム
に話された場合、音声認識機構の有限状態機械は、その
ファイルが存在するか否かによって、コンピュータ・プ
ログラムの状態を正確に追跡できたりできなかったりす
る。音声認識機構の有限状態機械が、ファイルが存在す
ることを前提にしているが、実際にはそのファイルが存
在しない場合、その音声認識機構の状態機械は、目標コ
ンピュータ・プログラムの状態と異なる状態に入る。そ
の結果、目標コンピュータ・プログラムは、この音声認
識機構から有効な入力を受け取れなくなる。

【０００９】

【発明が解決しようとする課題】本発明の目的は、一連
の時限にわたって発生する一連の活動プログラム状態を
有する目標コンピュータ・プログラムを有し、可能なす
べての状況で発生する目標コンピュータ・プログラムの
状態とその状態の間の遷移を前もって予測する必要なし
に、所与の時限の間に音声認識機構によって認識される
コマンドの活動語彙が、その所与の時限に目標コンピュ
ータ・プログラムによって実行できる機能を識別する活
動コマンドのリストに制限される音声認識機構を有す
る、対話式コンピュータ・システムを提供することであ
る。

【００１０】

【課題を解決するための手段】本発明によれば、対話式
コンピュータ・システムに、一連の時限にわたって発生
する一連の活動プログラム状態を有する目標コンピュー
タ・プログラムを実行するプロセッサが含まれる。目標
コンピュータ・プログラムは、時限のそれぞれの間に発
生する目標コンピュータ・プログラムの活動状態の活動
状態イメージを表現する活動状態イメージ・データ信号
を生成する。活動状態イメージのそれぞれに、１つまた
は複数のオブジェクトが含まれる。

【００１１】この対話式コンピュータ・システムには、
さらに、第１時限の間に発生する第１活動状態の第１活
動状態イメージを少なくとも表示するための手段が含ま
れる。第１活動状態イメージに表示される少なくとも１
つのオブジェクトを識別し、識別されたオブジェクトか
ら、目標コンピュータ・プログラムの第１活動状態で実
行できる機能を識別する１つまたは複数の第１活動状態
コマンドのリストを生成するための手段を設ける。

【００１２】また、音響コマンド・モデルのシステム語
彙を記憶するための手段を設ける。音響コマンド・モデ
ルのそれぞれは、その音響コマンド・モデルに関連する
１つまたは複数の単語の発話を表す音響特徴値の１つま
たは複数の連なりを表す。このシステムには、さらに、
第１活動状態に関して音響コマンド・モデルの第１活動
状態語彙を識別するための手段が含まれる。第１活動状
態語彙には、システム語彙からの、第１活動状態コマン
ドを表す音響コマンド・モデルが含まれる。

【００１３】この対話式コンピュータ・システムには、
一連の特徴信号を作るため、第１時限の中の一連の連続
した時間間隔のそれぞれの間に発話の少なくとも１つの
特徴の値を測定するための音声認識機構が含まれる。音
声認識機構は測定された特徴信号を、第１活動状態語彙
の音響コマンド・モデルのそれぞれと比較して、その発
話と各音響コマンド・モデルの一致スコアを生成する。
その後、音声認識機構は、第１活動状態語彙からのコマ
ンド・モデルのうちで最高の一致スコアを有するものに
対応するコマンド信号を出力する。

【００１４】第１活動状態語彙には、システム語彙から
の音響コマンド・モデルのすべてよりもかなり少ない音
響コマンド・モデルが含まれることが好ましい。音声認
識機構は第１時限の間に測定された特徴信号を、第１活
動状態語彙に含まれない音響コマンド・モデルと比較し
ない。

【００１５】本発明による対話式コンピュータ・システ
ムの１実施例では、表示手段が、少なくとも、第１時限
と異なる第２時限の間に発生する第２活動状態に関し
て、第１活動状態イメージと異なる第２活動状態イメー
ジを表示する。オブジェクト識別手段が第２活動状態イ
メージに表示される少なくとも１つのオブジェクトを識
別し、目標コンピュータ・プログラムの第２活動状態で
実行できる機能を識別する１つまたは複数の第２活動状
態コマンドのリストを生成する。

【００１６】活動状態語彙識別手段は、第２活動状態の
間に、音響コマンド・モデルの第２活動状態語彙を識別
する。第２活動状態語彙には、システム語彙からの、第
２活動状態コマンドを表す音響コマンド・モデルが含ま
れる。第２活動状態語彙は、少なくとも部分的に、第１
活動状態語彙と異なる。

【００１７】音声認識機構は第２時限の中の一連の連続
した時間間隔のそれぞれの間に発話の少なくとも１つの
特徴の値を測定して、一連の特徴信号を作る。音声認識
機構は第２時限の間に測定された特徴信号を、第２活動
状態語彙に含まれる音響コマンド・モデルのそれぞれと
比較して、発話と各音響モデルの一致スコアを生成す
る。その後、音声認識機構は、第２活動状態語彙からの
コマンド・モデルのうちで最高の一致スコアを有するも
のに対応するコマンド信号を出力する。

【００１８】目標コンピュータ・プログラムは、たとえ
ば、時限のそれぞれの間に発生する活動状態を１つだけ
有してよい。目標コンピュータ・プログラムには、オペ
レーティング・システム・プログラムだけ、１つのアプ
リケーション・プログラムとオペレーティング・システ
ム・プログラムの組合せ、または、２つ以上のアプリケ
ーション・プログラムとオペレーティング・システム・
プログラムが含まれる。

【００１９】活動状態のコマンドのうちの少なくともい
くつかが、その状態の活動状態イメージで識別されたオ
ブジェクトに対して実行できる機能を識別する。

【００２０】活動状態イメージ内で識別されるオブジェ
クトには、たとえば、文字、単語、アイコン、ボタン、
スクロール・バー、スライダ、リスト・ボックス、メニ
ュー、チェック・ボックス、コンテナまたはノートのう
ちの１つまたは複数が含まれる。

【００２１】本発明の代替実施例では、音声認識機構
が、活動状態語彙からのコマンド・モデルのうちで所与
の時限に関する最高の一致スコアを有する複数のコマン
ド・モデルに対応する２つ以上のコマンド信号を出力で
きる。

【００２２】活動状態ごとの音響コマンド・モデルの語
彙に、さらに、目標コンピュータ・プログラムのどの活
動状態でも実行できる機能を識別する大域コマンドを表
す大域音響コマンド・モデルの組を含めることができ
る。

【００２３】表示手段には、たとえば、陰極線管表示装
置、液晶表示装置またはプリンタが含まれる。

【００２４】表示手段はある時限の間に発生する活動状
態の活動状態イメージと、その時限の間には発生しない
プログラム状態の１つまたは複数のイメージの少なくと
も一部の両方を表示できる。

【００２５】本発明によるコンピュータ対話の方法に
は、一連の時限にわたって発生する一連の活動プログラ
ム状態を有する目標コンピュータ・プログラムを、プロ
セッサ上で実行することが含まれる。目標コンピュータ
・プログラムは、それぞれの時限の間に発生する目標コ
ンピュータ・プログラムの活動状態の活動状態イメージ
を表す活動状態イメージ・データ信号を生成する。活動
状態イメージのそれぞれに、１つまたは複数のオブジェ
クトが含まれる。この方法にはさらに、第１時限の間に
発生する第１活動状態の間に少なくとも第１活動状態イ
メージを表示することが含まれる。第１活動状態イメー
ジに表示される少なくとも１つのオブジェクトを識別
し、目標コンピュータ・プログラムの第１活動状態で実
行できる機能を識別する１つまたは複数の第１活動状態
コマンドのリストを、識別されたオブジェクトから生成
する。

【００２６】音響コマンド・モデルのシステム語彙を記
憶する。音響コマンド・モデルのそれぞれは、その音響
コマンド・モデルに関連する１つまたは複数の単語の発
話を表す音響特徴値の１つまたは複数の連なりを表す。
第１活動状態に関する音響コマンド・モデルの第１活動
状態語彙を識別する。第１活動状態語彙には、システム
語彙からの音響コマンド・モデルのうちで第１活動状態
コマンドを表すものが含まれる。

【００２７】ある発話の少なくとも１つの特徴の値を、
第１時限の中の一連の連続した時間間隔のそれぞれの間
に測定して、一連の特徴信号を作る。測定された特徴信
号を、第１活動状態語彙の音響コマンド・モデルのそれ
ぞれと比較して、その発話と各音響コマンド・モデルの
一致スコアを生成する。第１活動状態語彙からのコマン
ド・モデルのうちで最高の一致スコアを有するものに対
応するコマンド信号を出力する。

【００２８】目標コンピュータ・プログラムの活動状態
イメージに表示される少なくとも１つのオブジェクトを
識別し、識別されたオブジェクトから、目標コンピュー
タ・プログラムの活動状態で実行できる機能を識別する
１つまたは複数の活動状態コマンドのリストを生成する
ことによって、可能なすべての状況で発生する目標コン
ピュータ・プログラムの状態とその状態の間の遷移を前
もって予測する必要なしに、音声認識機構の活動状態語
彙を、活動状態コマンドを表すシステム語彙の小さなサ
ブセットに制限することができる。

【００２９】

【実施例】図１は、本発明による対話式コンピュータ・
システムの例を示すブロック図である。この対話式コン
ピュータ・システムには、一連の時限にわたって発生す
る一連の活動プログラム状態を有する目標コンピュータ
・プログラムを実行するプロセッサ１０が含まれる。目
標コンピュータ・プログラムは、各時限の間に発生する
目標コンピュータ・プログラムの活動状態の活動状態イ
メージを表す活動状態イメージ・データ信号を生成す
る。活動状態イメージのそれぞれに、１つまたは複数の
オブジェクトが含まれる。

【００３０】プロセッサは、たとえば、パーソナル・コ
ンピュータ、コンピュータ・ワークステーション、また
は他のマイクロコンピュータ、ミニコンピュータもしく
はメインフレーム・コンピュータとすることができる。

【００３１】目標コンピュータ・プログラムは、ＤＯ
Ｓ、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（商標）、Ｏ
Ｓ／２（商標）、ＡＩＸ（商標）、ＵＮＩＸ（商
標）、Ｘ−Ｗｉｎｄｏｗまたは他のオペレーティング・
システムとすることができる。目標コンピュータ・プロ
グラムに、あるオペレーティング・システム・プログラ
ムと共に実行される１つまたは複数のアプリケーション
・プログラムを含めてよい。アプリケーション・プログ
ラムには、スプレッドシート・プログラム、ワード・プ
ロセッシング・プログラム、データベース・プログラ
ム、教育プログラム、リクリエーション・プログラム、
通信プログラムその他多数が含まれる。

【００３２】活動状態イメージのオブジェクトには、文
字、単語、アイコン、ボタン、スクロール・バー、スラ
イダ、リスト・ボックス、メニュー、チェック・ボック
ス、コンテナ、ノートまたは他の項目のうちの１つまた
は複数が含まれる。

【００３３】この対話式コンピュータ・システムには、
さらに、表示手段１２が含まれ、この表示手段１２は、
少なくとも第１時限の間に発生する第１活動状態の第１
活動状態イメージを表示するためのものである。表示手
段は、たとえば、陰極線管表示装置、液晶表示装置また
はプリンタとすることができる。

【００３４】図２は、第１時限の間に発生する第１活動
状態の仮定の第１活動状態イメージの例を示す図であ
る。この例では、活動状態イメージに、タイトル・バー
・オブジェクト１６、メニュー・バー・オブジェクト１
８、リスト・ボックス・オブジェクト２０および押しボ
タン・オブジェクト２２を含むフレーム・オブジェクト
１４が含まれる。メニュー・バー・オブジェクト１８に
は、「ｉｔｅｍｓ（項目）」オブジェクト、「ｏｐｔｉ
ｏｎｓ（オプション）」オブジェクトおよび「ｅｘｉｔ
（終了）」オブジェクトが含まれる。リスト・ボックス
・オブジェクト２０には、垂直スクロール・バー・オブ
ジェクト２４と、「ｂｌｕｅ（青）」、「ｇｒｅｅｎ
（緑）」、「ｒｅｄ（赤）」、「ｏｒａｎｇｅ
（橙）」、「ｂｌａｃｋ（黒）」、「ｗｈｉｔｅ
（白）」および「ｐｕｒｐｌｅ（紫）」のオブジェクト
が含まれる。リスト・ボックス・オブジェクト２０内に
は、図２では「ｂｌｕｅ」、「ｇｒｅｅｎ」、「ｒｅ
ｄ」、「ｏｒａｎｇｅ」および「ｂｌａｃｋ」のオブジ
ェクトだけが示されている。「ｗｈｉｔｅ」オブジェク
トと「ｐｕｒｐｌｅ」オブジェクトは、このリスト・ボ
ックスに含まれており、垂直スクロール・バー・オブジ
ェクト２４を用いてスクロールすることで表示できる。

【００３５】活動状態イメージ・データ信号は、たとえ
ばオペレーティング・システムの割込み、機能呼出しま
たはアプリケーション・プログラム・インターフェース
呼出しを使用することによって、目標コンピュータ・プ
ログラムによって生成できる。

【００３６】下の例Ｉに、活動状態イメージ・データ信
号を作成するためのＣプログラミング言語のソース・コ
ードを示す。

【００３７】図１に戻って、この対話式コンピュータ・
システムには、さらに、第１活動状態イメージに表示さ
れる少なくとも１つのオブジェクトを識別し、識別され
たオブジェクトから、目標コンピュータ・プログラムの
第１活動状態で実行できる機能を識別する１つまたは複
数の第１活動状態コマンドのリストを生成するための、
イメージ・オブジェクト識別機能２６が含まれる。

【００３８】イメージ・オブジェクト識別機能２６に
は、オペレーティング・システムの機能呼出しと１つま
たは複数の目標コンピュータ・プログラムが提供するア
プリケーション・プログラム・インターフェースをイン
ターセプト（フック）するように設計されたコンピュー
タ・プログラム・サブルーチンを含めることができ、ま
た、オペレーティング・システムの割込み、機能呼出し
またはアプリケーション・プログラム・インターフェー
ス呼出しを使用して、目標コンピュータ・プログラムの
第１活動状態イメージに表示されるオブジェクトを識別
するためのコンピュータ・プログラム・サブルーチンを
含めることもできる。下の例ＩＩに、活動状態イメージ
に表示される少なくとも１つのオブジェクトを識別する
ためのＣプログラミング言語のソース・コードを示す。

【００３９】表１は、図２の第１活動状態イメージに表
示されたオブジェクトに関して、目標コンピュータ・プ
ログラムの第１活動状態で実行することのできる機能を
識別する第１活動状態コマンドのリストの仮定の例を示
す表である。

【００４０】

【表１】話されたオブジェクトコマンド機能 Frame FRAME フォーカスをフレーム全体に変更する TOP BORDER 移動するフレーム要素を識別する BOTTOM BORDER 移動するフレーム要素を識別する LEFT BORDER 移動するフレーム要素を識別する RIGHT BORDER 移動するフレーム要素を識別する LEFT フレームまたはフレーム要素を左に移動する RIGHT フレームまたはフレーム要素を右に移動する UP フレームまたはフレーム要素を上に移動する DOWN フレームまたはフレーム要素を下に移動する Title Bar none なし Menu Bar CLOSE MENU メニューを隠す MENU フォーカスをメニュー・バーに変更する SELECT カーソル位置にある項目を選択する "ITEMS" ITEMS 「ＩＴＥＭＳ」メニューを活動化する "COLORS" COLORS 「ＣＯＬＯＲＳ」メニューを活動化する "NAMES" NAMES 「ＮＡＭＥＳ」メニューを活動化する "ADDRESSES" ADDRESSES 「ＡＤＤＲＥＳＳＥＳ」メニューを活動化する "OPTIONS" OPTIONS オプション選択用のダイアログを活動化する "EXIT" EXIT 現在のプログラム状態を終了する CANCEL ポップアップ・メニューを隠す System menu CLOSE MENU メニューを隠す MENU 別のメニューがあれば、フォーカスをそのメニューに変更する SELECT カーソル位置にある項目を選択する RESTORE ウィンドウを前のサイズと位置に復元する MINIMIZE ウィンドウを最小サイズに縮小する MAXIMIZE ウィンドウを最大サイズに拡大する CLOSE 現在のプログラム状態を終了する WINDOW LISTS 走行中のプログラムのリストを表示する Vertical Scroll Bar SCROLL BAR スクロール・バーにフォーカスをセットする UP リスト・ボックスの表示を上に移動する DOWN リスト・ボックスの表示を下に移動する TOP リスト・ボックスの一番上の表示対象に移動する BOTTOM リスト・ボックスの一番下の表示対象に移動する PAGE UP リスト・ボックスの表示を１ページ上に移動する PAGE DOWN リスト・ボックスの表示を１ページ下に移動する Push Button PRESS 押しボタンを実行する PUSH BUTTON 押しボタンを実行する "HELP" HELP ヘルプ機能を実行する List Box LIST BOX フォーカスをリスト・ボックスに変更する "BLUE" BLUE その名前の色を選択する "GREEN" GREEN その名前の色を選択する "RED" RED その名前の色を選択する "ORANGE" ORANGE その名前の色を選択する "BLACK" BLACK その名前の色を選択する "WHITE" WHITE その名前の色を選択する "PURPLE" PURPLE その名前の色を選択する

【００４１】表１の例からわかるように、各オブジェク
トは、目標コンピュータ・プログラムの第１活動状態で
実行できる機能を識別する０個またはそれ以上のコマン
ドを有する。少なくともいくつかのコマンドが、その状
態の活動状態イメージで識別されたオブジェクトに対し
て実行できる機能を識別する。たとえば、コマンド「Ｆ
ＲＡＭＥ」によって、フォーカスが図２のフレーム・オ
ブジェクト１４全体に変更される。フレーム・オブジェ
クト１４全体にフォーカスがある状態で、コマンド「Ｌ
ＥＦＴ」を話すと、そのフレーム・オブジェクトが表示
画面の左に移動される。

【００４２】もう一度図１に戻ると、この対話式コンピ
ュータ・システムには、音響コマンド・モデルのシステ
ム語彙を記憶するためのシステム音響コマンド・モデル
語彙記憶域２８が含まれる。音響コマンド・モデルのそ
れぞれは、その音響コマンド・モデルに関連する１つま
たは複数の単語の発話を表す音響特徴値の１つまたは複
数の連なりを表す。

【００４３】記憶される音響コマンド・モデルは、たと
えば、マルコフ・モデルまたは他の動的プログラミング
・モデルとすることができる。音響コマンド・モデルの
パラメータは、たとえばｆｏｒｗａｒｄ−ｂａｃｋｗｏ
ｒｄアルゴリズムによって得られるパラメータの平滑化
によって、既知の発話トレーニング・テキスト（たとえ
ば２５７文）から評価できる（たとえば、Ｊｅｌｉｎｅ
ｋ著"ＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏ
ｇｎｉｔｉｏｎＢｙＳｔａｔｉｓｔｉｃａｌＭｅ
ｔｈｏｄｓ」、Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ
ＩＥＥＥ、Ｖｏｌｕｍｅ６４、Ｎｏ．４、１９７６
年４月、５３２−５３６ページを参照されたい）。

【００４４】音響コマンド・モデルのそれぞれが、分離
して話された（すなわち、前後の発話の文脈から独立
な）コマンドを表すことが好ましい。文脈独立の音響コ
マンド・モデルは、たとえば、音素のモデルから手動で
作るか、たとえば米国特許４７５９０６８号明細書に記
載の方法もしくは他の既知の文脈独立モデルを生成する
方法によって自動的に作ることができる。

【００４５】その代わりに、コマンドの発話を文脈依存
カテゴリにグループ化することによって、文脈独立モデ
ルから文脈依存モデルを作ることができる。文脈は、た
とえば、手動で選択するか、コマンドに対応する特徴信
号のそれぞれにその文脈を用いてタグを付け、その文脈
に従って特徴信号をグループ化して、選択された評価関
数を最適化することによって、自動的に選択できる（た
とえば、米国特許第５１９５１６７号明細書を参照され
たい）。

【００４６】図１のブロック図からわかるように、この
対話式コンピュータ・システムには、第１活動状態の音
響コマンド・モデルの第１活動状態語彙を識別するため
の、活動状態コマンド・モデル語彙識別機能３０が含ま
れる。第１活動状態語彙には、システム音響コマンド・
モデル語彙記憶域２８からの音響コマンド・モデルのう
ち、イメージ・オブジェクト識別機能２６からの第１活
動状態コマンドを表すものが含まれる。下の例ＩＩＩ
に、活動状態語彙を識別するためのＣ言語のソース・コ
ードを示す。下の例ＩＶに、音声認識機構に対して活動
状態語彙を定義するためのＣ言語のソース・コードを示
す。

【００４７】活動状態語彙には、システム語彙の音響コ
マンド・モデルのすべてよりもかなり少ない音響コマン
ド・モデルが含まれることが好ましい。たとえば、活動
状態語彙のそれぞれに、５０ないし２００個のコマンド
を含めることができる。システム・コマンド語彙全体に
は、５００ないし７００またはそれ以上のコマンドが含
まれる可能性がある。音声認識機構は、ある時限の間に
測定された特徴信号を、その時限の活動状態語彙に含ま
れない音響コマンド・モデルと比較しない。

【００４８】音声認識機構３２は、第１時限の中の一連
の連続した時間間隔のそれぞれの間に発話の少なくとも
１つの特徴の値を測定して、一連の特徴信号を作る。音
声認識機構３２は測定された特徴信号を、第１活動状態
語彙の音響コマンド・モデルのそれぞれと比較して、そ
の発話と各音響コマンド・モデルの一致スコアを生成す
る。その後、音声認識機構３２は、第１活動状態語彙か
らのコマンド・モデルのうちで最高の一致スコアを有す
るものに対応するコマンド信号を出力する。

【００４９】下の例Ｖは、活動状態語彙からのコマンド
・モデルのうちで最高の一致スコアを有するものに対応
するコマンド信号を出力するためのＣ言語のソース・コ
ードである。

【００５０】図３は、本発明による対話式コンピュータ
・システムのための音声認識機構の例を示すブロック図
である。この例では、音声認識機構３２に、システム音
響コマンド・モデル語彙記憶域２８からの音響コマンド
・モデルのうち、活動状態コマンド・モデル語彙識別機
能３０で識別された活動状態コマンドを表す音響コマン
ド・モデルを含む活動状態語彙を記憶するための活動状
態音響コマンド・モデル記憶域３４が含まれる。

【００５１】音声認識機構３２には、さらに、一連の特
徴信号を作るため活動状態時限のそれぞれの中の一連の
連続した時間間隔のそれぞれの間に発話の少なくとも１
つの特徴の値を測定するための音響プロセッサ３６が含
まれる。音響一致スコア・プロセッサ３８が音響プロセ
ッサ３６からの測定された特徴信号を、活動状態音響コ
マンド・モデル記憶域３４の音響コマンド・モデルのそ
れぞれと比較して、その発話と各音響コマンド・モデル
の一致スコアを生成する。出力４０は、活動状態語彙か
らのコマンド・モデルのうちで所与の時限に関して最高
のスコアを有するコマンド・モデルに対応する１つまた
は複数のコマンド信号を出力する。

【００５２】第１活動状態語彙からのコマンド・モデル
のうちで最高のスコアを有するコマンド・モデルに対応
する１つのコマンド信号だけを出力することが好まし
い。この場合、その唯一の出力コマンドを、即座に実行
できる。活動状態語彙からのコマンド・モデルのうちで
所与の時限に関して最高のスコアを有するコマンド・モ
デルに対応する２つ以上のコマンド信号を出力する場
合、実行されるコマンドをユーザが選択できるように、
認識されたコマンド群を表示することができる。

【００５３】音声認識機構は、ＩＢＭＶｏｉｃｅＴ
ｙｐｅＩＩ（商標）やＩＢＭＳｐｅｅｃｈＳｅｒ
ｖｅｒＳｅｒｉｅｓ（商標）など、一般に入手可能な
製品とすることができる。高速音響一致と詳細音響一致
を含む製品では、両方の音響一致を本発明に使用でき
る。あるいは、イメージ・オブジェクト識別機能２６と
活動状態コマンド・モデル語彙識別機能３０が、音響一
致のためにシステム音響コマンド・モデル語彙記憶域２
８の小さなサブセットだけを選択するので、高速音響一
致を省略することもできる。

【００５４】言語モデルを含む音声認識製品では、その
言語モデルを省略できる。その代わりに、活動状態語彙
のすべての単語に、同じ値の言語モデル確率を割り当て
ることができる。

【００５５】複数単語仮説を生成するための仮説検索ア
ルゴリズムを有する音声認識機構製品では、ある単語の
認識が、連続した単語の認識に部分的に依存する。この
ような仮説検索アルゴリズムは、各コマンドが連続した
コマンドと独立であることが好ましい本発明と共に使用
する必要がない。

【００５６】目標コンピュータ・プログラムと音声認識
機構の両方を、同一の中央処理装置で時分割式に実行す
ることが好ましい。あるいは、目標コンピュータ・プロ
グラムと音声認識機構を、たとえばクライアント・サー
バ・アーキテクチャを使用して、異なる中央処理装置で
実行することもできる。

【００５７】本発明による対話式コンピュータ・システ
ムでは、表示手段が、さらに、少なくとも第２活動状態
イメージを表示でき、この第２活動状態イメージは、第
１活動状態イメージと異なり、第１時限と異なる第２時
限の間に発生する第２活動状態に対応する。

【００５８】図４は、目標コンピュータ・プログラムの
第２活動状態の第２活動状態イメージの例を示す図であ
る。図４に示された第２活動状態イメージには、フレー
ム・オブジェクト４２、タイトル・バー・オブジェクト
４４、システム・メニュー・オブジェクト４６、垂直ス
クロール・バー・オブジェクト４８、水平スクロール・
バー・オブジェクト５０およびコンテナ・オブジェクト
５２が含まれる。コンテナ・オブジェクト５２には、
「ｅｄｉｔｏｒ（エディタ）」オブジェクト、「ｐｈｏ
ｎｅｂｏｏｋ（電話帳）」オブジェクト、「ｓｐｒｅ
ａｄｓｈｅｅｔ（スプレッドシート）」オブジェクト、
「ｍａｉｌ（メール）」オブジェクトおよび「ｓｏｌｉ
ｔａｉｒｅ（ソリティア）」オブジェクトが含まれる。

【００５９】オブジェクト識別手段は、第２活動状態イ
メージに表示された少なくとも１つのオブジェクトを識
別し、識別されたオブジェクトから、目標コンピュータ
・プログラムの第２活動状態で実行できる機能を識別す
る１つまたは複数の第２活動状態コマンドのリストを生
成する。

【００６０】表２は、目標コンピュータ・プログラムの
第２活動状態で実行できる機能を識別する、図４に示さ
れたオブジェクトごとのコマンドの仮定のリストの例で
ある。

【００６１】

【表２】話されたオブジェクトコマンド機能 Frame FRAME フォーカスをフレーム全体に移動する TOP BORDER 移動するフレーム要素を識別する BOTTOM BORDER 移動するフレーム要素を識別する LEFT BORDER 移動するフレーム要素を識別する RIGHT BORDER 移動するフレーム要素を識別する LEFT フレームまたはフレーム要素を左に移動する RIGHT フレームまたはフレーム要素を右に移動する UP フレームまたはフレーム要素を上に移動する DOWN フレームまたはフレーム要素を下に移動する Title Bar none なし System Menu CLOSE MENU メニューを隠す MENU 別のメニューがあれば、フォーカスをそのメニューに変更する SELECT カーソル位置にある項目を選択する RESTORE ウィンドウを前のサイズと位置に復元する MINIMIZE ウィンドウを最小サイズに縮小する MAXIMIZE ウィンドウを最大サイズに拡大する CLOSE 現在のプログラム状態を終了する WINDOW LIST 走行中のプログラムのリストを表示する Vertical Scroll Bar SCROLL BAR 次のスクロール・バーにフォーカスをセットする UP コンテナの表示を上に移動する DOWN コンテナの表示を下に移動する TOP コンテナの一番上の表示対象に移動する BOTTOM コンテナの一番下の表示対象に移動する PAGE UP コンテナの表示を１ページ上に移動する PAGE DOWN コンテナの表示を１ページ下に移動する Horizontal Scroll Bar SCROLL BAR 次のスクロール・バーにフォーカスをセットする LEFT コンテナの表示を左に移動する RIGHT コンテナの表示を右に移動する EXTREME LEFT コンテナの一番左の表示対象に移動する EXTREME RIGHT コンテナの一番右の表示対象に移動する PAGE LEFT コンテナの表示を１ページ左に移動する PAGE RIGHT コンテナの表示を１ページ右に移動する Container CONTAINER フォーカスをコンテナに変更する SELECT ALL コンテナ内のすべてのプログラムを実行する Editor EDITOR Editorプログラムを実行する Phone Book PHONE BOOK Phone Bookプログラムを実行する Spreadsheet SPREADSHEET Spreadsheetプログラムを実行する Mail MAIL Mailプログラムを実行する Solitaire SOLITAIRE Solitaireプログラムを実行する

【００６２】図２と図４を比較すると、第１活動状態イ
メージと第２活動状態イメージの間には、第１活動状態
イメージにはメニュー・バー・オブジェクト１８、リス
ト・ボックス・オブジェクト２０および押しボタン・オ
ブジェクト２２があるが、第２活動状態イメージにはな
いという相違がある。垂直スクロール・バー・オブジェ
クト５０と、ｅｄｉｔｏｒ、ｐｈｏｎｅｂｏｏｋ、ｍ
ａｉｌ、ｓｐｒｅａｄｓｈｅｅｔおよびｓｏｌｉｔａｉ
ｒｅの各オブジェクトは、第２活動状態イメージにはあ
るが、第１活動状態イメージにはない。

【００６３】活動状態語彙識別手段は、さらに、第２活
動状態の音響コマンド・モデルの第２活動状態語彙を識
別する。第２活動状態語彙には、システム語彙からの音
響コマンド・モデルのうちで第２活動状態コマンドを表
すものが含まれる。第２活動状態語彙は、少なくとも部
分的に第１活動状態語彙と異なる。

【００６４】表１と表２を比較すると、第１活動状態語
彙には、表１にリストされた話されたコマンドが含まれ
る。第２活動状態語彙には、表２にリストされた話され
たコマンドが含まれる。この例では、表に示されるよう
に、第１活動状態語彙が、少なくとも部分的に第２活動
状態語彙と異なる。

【００６５】音声認識機構は第２時限の中の一連の連続
した時間間隔のそれぞれの間に発話の少なくとも１つの
特徴の値を測定して、一連の特徴信号を作る。音声認識
機構は第２時限の間に測定された特徴信号を、第２活動
状態語彙の音響コマンド・モデルのそれぞれと比較し
て、その発話と各音響コマンド・モデルの一致スコアを
生成する。音声認識機構は、第２活動状態語彙からのコ
マンド・モデルのうちで最高のスコアを有するコマンド
・モデルに対応するコマンド信号を出力する。

【００６６】目標コンピュータ・プログラムは時限の間
に発生する活動状態を、１時限ごとに１つだけ有するこ
とが好ましい。

【００６７】図５は、図１のシステム音響コマンド・モ
デル語彙記憶域２８の例を示すブロック図である。この
システム語彙には、たとえば、目標コンピュータ・プロ
グラムのすべての活動状態で実行できる機能を識別する
大域コマンドを表す大域音響コマンド・モデルの組を含
めることができる。

【００６８】表３に、大域音響コマンド・モデルが表現
する大域コマンドの例をいくつかリストする。

【００６９】

【表３】大域コマンド話されたコマンド機能 MICROPHONE OFF マイクロフォンをオフにする ENTER キーボード入力バッファにキーストローク「ＥＮＴＥＲ」を送る LEET キーボード入力バッファにキーストローク「ＬＥＦＴＡＲＲＯＷ（←）」を送る RIGHT キーボード入力バッファにキーストローク「ＲＩＧＨＴＡＲＲＯＷ（→）」を送る PASTE フォーカスのあるアプリケーションに、クリップボードの内容を挿入する WINDOW LIST 走行中のプログラムのリストを表示する EDITOR ｅｄｉｔｏｒプログラムを実行する DESK top デスク・トップ・ウィンドウをアクティブにする

【００７０】システム語彙には、さらに、オブジェクト
の異なる型に関連するオブジェクト型の音響コマンド・
モデルを含めることができる。たとえば、表１と表２に
示されるように、フレーム・オブジェクト型の音響コマ
ンドに、「ｆｒａｍｅ」、「ｔｏｐｂｏｒｄｅｒ」、
「ｂｏｔｔｏｍｂｏｒｄｅｒ」、「ｌｅｆｔｂｏｒ
ｄｅｒ」、「ｒｉｇｈｔｂｏｒｄｅｒ」、「ｌｅｆ
ｔ」、「ｒｉｇｈｔ」、「ｕｐ」および「ｄｏｗｎ」が
含まれる。垂直スクロール・バー・オブジェクト型の音
響コマンドには、「ｓｃｒｏｌｌｂａｒ」、「ｕ
ｐ」、「ｄｏｗｎ」、「ｔｏｐ」、「ｂｏｔｔｏｍ」、
「ｐａｇｅｕｐ」および「ｐａｇｅｄｏｗｎ」が含
まれる。押しボタン・オブジェクト型の音響コマンド・
モデルには、「ｐｒｅｓｓ」と「ｐｕｓｈｂｕｔｔｏ
ｎ」が含まれる。

【００７１】最後に、システム語彙に、アプリケーショ
ン固有のオブジェクトを表すアプリケーション固有音響
コマンド・モデルが含まれる。表１と表２の例では、ア
プリケーション固有オブジェクトに、単語「ＩＴＥＭ
Ｓ」、「ＣＯＬＯＲＳ」、「ＮＡＭＥＳ」、「ＡＤＤＲ
ＥＳＳＥＳ」、「ＰＨＯＮＥＢＯＯＫ」、「ＳＰＲＥ
ＡＤＳＨＥＥＴ」、「ＭＡＩＬ」および「ＳＯＬＩＴＡ
ＩＲＥ」が含まれる。

【００７２】図１の表示手段１２は、ある時限の間に発
生する活動状態の活動状態イメージと、その時限の間に
発生しないプログラム状態の１つまたは複数のイメージ
の少なくとも一部の、両方を表示できる。

【００７３】図３の音響プロセッサ３６の１例を、図６
に示す。この音響プロセッサには、発話に対応するアナ
ログ電気信号を生成するためのマイクロフォン５４が含
まれる。マイクロフォン５４からのアナログ電気信号
は、アナログ・ディジタル変換器５６によってディジタ
ル電気信号に変換される。この目的のために、このアナ
ログ信号はアナログ・ディジタル変換器５６によって、
たとえば、２０ＫＨｚの速度でサンプリングされる。

【００７４】ウィンドウ・ジェネレータ５８は、たとえ
ば、１０ミリ秒（１センチ秒）ごとに、アナログ・ディ
ジタル変換器５６からのディジタル信号の２０ミリ秒の
持続時間を有するサンプルを取得する。たとえば、２０
個の周波数帯域のそれぞれでのディジタル信号サンプル
の振幅を得るために、このディジタル信号の２０ミリ秒
サンプルのそれぞれを、スペクトル・アナライザ６０に
よって分析する。スペクトル・アナライザ６０は、２０
ミリ秒ディジタル信号サンプルの全振幅または全出力を
表す第２１次元の信号も生成することが好ましい。スペ
クトル・アナライザ６０は、たとえば高速フーリエ変換
プロセッサとすることができる。その代わりに、これが
２０個の帯域フィルタであってもよい。

【００７５】スペクトル・アナライザ６０が作る２１次
元ベクトルの信号は、適応式雑音キャンセル・プロセッ
サ６２によって、暗騒音を除去するよう適合させること
ができる。適応式雑音キャンセル・プロセッサ６２は、
適応式雑音キャンセル・プロセッサへ入力された特徴ベ
クトルＦ（ｔ）から雑音ベクトルＮ（ｔ）を減算して、
出力の特徴ベクトルＦ'（ｔ）を作る。適応式雑音キャ
ンセル・プロセッサ６２は、前の特徴ベクトルＦ（ｔ−
１）が雑音または静粛として識別される時に、必ず雑音
ベクトルＮ（ｔ）を周期的に更新することによって、変
化する雑音レベルに適応する。雑音ベクトルＮ（ｔ）
は、次式に従って更新される。

【数１】

【００７６】ここで、Ｎ（ｔ）は、時刻ｔでの雑音ベク
トル、Ｎ（ｔ−１）は、時刻（ｔ−１）での雑音ベクト
ル、ｋは、適応式雑音キャンセル・モデルの定数係数、
Ｆ（ｔ−１）は、時刻（ｔ−１）に適応式雑音キャンセ
ル・プロセッサ６２に入力された、雑音または静粛を表
す特徴ベクトル、Ｆｐ（ｔ−１）は、特徴ベクトルＦ
（ｔ−１）に最も近い、プロトタイプ記憶域６４からの
静粛プロトタイプ・ベクトルまたは雑音プロトタイプ・
ベクトルである。

【００７７】前の特徴ベクトルＦ（ｔ−１）が雑音また
は静粛として認識されるのは、（ａ）そのベクトルの全
エネルギが閾値未満であるか、（ｂ）適応プロトタイプ
・ベクトル記憶域６６内でその特徴ベクトルに最も近い
プロトタイプ・ベクトルが、雑音または静粛を表すプロ
トタイプである場合である。特徴ベクトルの全エネルギ
を分析するという目的のため、この閾値は、たとえば、
評価中の特徴ベクトルの前の２秒間に作られたすべての
特徴ベクトル（音声と静粛の両方に対応する）の５パー
セント点とすることができる。

【００７８】雑音キャンセルの後、入力音声の音量変化
を調節するため、短時間平均正規化プロセッサ６８によ
って特徴ベクトルＦ'（ｔ）を正規化する。短時間平均
正規化プロセッサ６８は２１次元の特徴ベクトルＦ'
（ｔ）を正規化して、２１次元の正規化特徴ベクトルＸ
（ｔ）を作る。全振幅または全出力を表す特徴ベクトル
Ｆ'（ｔ）の第２１次元は捨てられる。時刻ｔの正規化
特徴ベクトルＸ（ｔ）の成分ｉのそれぞれを、たとえば
対数領域で、次式によって与えることができる。

【数２】 X_i(t)=F'_i(t)-Z(t) (2)

【００７９】ここで、Ｆ'_i（ｔ）は時刻ｔでの正規化さ
れないベクトルのｉ番目の成分であり、Ｚ（ｔ）は下記
の式（３）と式（４）によるＦ'（ｔ）の諸成分とＺ
（ｔ−１）の加重平均である。

【数３】 Z(t)=0.9Z(t-1)+0.lM(t) (3)

【００８０】ここで、

【数４】

【００８１】正規化された２０次元の特徴ベクトルＸ
（ｔ）を、適応ラベラー７０によってさらに処理して、
音声の発音の変動に適合させることができる。適応化さ
れた２０次元の特徴ベクトルＸ'（ｔ）は、適応ラベラ
ー７０の入力に供給された２０次元の特徴ベクトルＸ
（ｔ）から２０次元の適応ベクトルＡ（ｔ）を減算する
ことによって生成される。時刻ｔでの適応ベクトルＡ
（ｔ）は、たとえば次式によって与えることができる。

【数５】

【００８２】ここで、ｋは適応ラベル化モデルの定数係
数、Ｘ（ｔ−１）は時刻（ｔ−１）に適応ラベラー７０
に入力された正規化された２０次元ベクトル、Ｘｐ（ｔ
−１）は時刻（ｔ−１）の２０次元特徴ベクトルＸ（ｔ
−１）に最も近い適応プロトタイプ・ベクトル（適応プ
ロトタイプ・ベクトル記憶域６６からの）、Ａ（ｔ−
１）は時刻（ｔ−１）の適応ベクトルである。

【００８３】適応ラベラー７０からの２０次元の適応化
された特徴ベクトル信号Ｘ'（ｔ）を、聴覚モデル７２
に供給することが好ましい。聴覚モデル７２は、たとえ
ば、人間の聴覚系が音信号を知覚する方法のモデルを提
供する。聴覚モデルの例が、米国特許第４９８０９１８
号明細書に記載されている。

【００８４】本発明によれば、時刻ｔの適応特徴ベクト
ル信号Ｘ'（ｔ）の周波数帯域ｉごとに、聴覚モデル７
２が下記の式（６）および（７）に従って新しい係数Ｅ
_i（ｔ）を計算することが好ましい。

【数６】 E_i(t)=K₁+K₂(X'_i(t))(N_i(t-1)) (6)

【００８５】ここで、

【数７】 N_i(t)=K₃×N_i(t-1)-E_i(t-1) (7)

【００８６】ここで、Ｋ₁、Ｋ₂およびＫ₃は、この聴覚
モデルの定数係数である。

【００８７】センチ秒時間間隔ごとの聴覚モデル７２の
出力が、修正された２０次元の特徴ベクトル信号にな
る。この特徴ベクトルに、他の２０次元の値の自乗和平
方根に等しい値を有する第２１次元を補う。

【００８８】センチ秒時間間隔ごとに、連結機能７４が
現センチ秒時間間隔と、４つの前のセンチ秒時間間隔
と、４つの後のセンチ秒時間間隔とを表す９つの２１次
元特徴ベクトルとを連結して、単一の１８９次元のつな
がれたベクトルを形成することが好ましい。回転機能７
６で、１８９次元のつながれたベクトルのそれぞれに回
転行列をかけることによって、このつながれたベクトル
を回転し、つながれたベクトルを５０次元に縮小するこ
とが好ましい。

【００８９】回転機能７６で使用される回転行列は、た
とえば、トレーニング・セッションの間に得られた１８
９次元のつながれたベクトルの組をＭ個のクラスに分類
することによって得られる。トレーニング・セット内の
つながれたベクトルのすべてに関する分散行列に、Ｍ個
のクラスのすべてのつながれたベクトルのすべてに関す
るクラス内分散行列の逆行列をかける。得られた行列の
最初の５０個の固有ベクトルが、回転行列を形成する
（たとえば、"ＶｅｃｔｏｒＱｕａｎｔｉｚａｔｉｏ
ｎＰｒｏｃｅｄｕｒｅＦｏｒＳｐｅｅｃｈＲｅ
ｃｏｇｎｉｔｉｏｎＳｙｓｔｅｍｓＵｓｉｎｇＤ
ｉｓｃｒｅｔｅＰａｒａｍｅｔｅｒＰｈｏｎｅｍｅ
−ＢａｓｅｄＭａｒｋｏｖＷｏｒｄＭｏｄｅｌ
ｓ"、Ｌ．Ｒ．Ｂａｈｌ他著、ＩＢＭＴｅｃｈｎｉｃ
ａｌＤｉｓｃｌｏｓｕｒｅＢｕｌｌｅｔｉｎ、Ｖｏ
ｌｕｍｅ３２，Ｎｏ．７、１９８９年１２月、３２０
ないし３２１ページを参照されたい）。

【００９０】ウィンドウ・ジェネレータ５８、スペクト
ル・アナライザ６０、適応式雑音キャンセル・プロセッ
サ６２、短時間平均正規化プロセッサ６８、適応ラベラ
ー７０、聴覚モデル７２、連結機能７４および回転機能
７６は、適当にプログラミングされた専用または汎用の
ディジタル信号プロセッサとすることができる。プロト
タイプ記憶域６４と適応プロトタイプ・ベクトル記憶域
６６は、上で述べた種類の電子コンピュータ・メモリと
することができる。

【００９１】プロトタイプ記憶域６４のプロトタイプ・
ベクトルは、たとえば、トレーニング・セットからの特
徴ベクトル信号を複数のクラスタにクラスタ化し、その
後、クラスタごとに平均と標準偏差を計算して、プロト
タイプ・ベクトルの係数値を形成することによって得る
ことができる。トレーニング・スクリプトに、一連の単
語・分節モデル（一連の単語のモデルを形成する）が含
まれ、単語・分節モデルのそれぞれに、単語・分節モデ
ル内で指定された位置を有する一連の基本モデルが含ま
れる時には、各クラスタが単一の単語・分節モデル内の
単一の位置にある単一の基本モデルに対応するよう指定
することによって、特徴ベクトル信号をクラスタ化でき
る。このような方法は、米国特許出願通し番号第７３０
７１４号明細書に詳細に記載されている。

【００９２】その代わりに、トレーニング・テキストの
発話によって生成された、所与の基本モデルに対応する
音響特徴ベクトルのすべてを、Ｋ平均ユークリッド・ク
ラスタ化またはＫ平均ガウス・クラスタ化もしくはその
両方によってクラスタ化できる。このような方法は、た
とえば、米国特許第５１８２７７３号明細書に記載され
ている。

【００９３】図７は、音響コマンド・モデルの仮定の例
を示す概略図である。図７に示された仮定のモデルは、
開始状態Ｓ１、終了状態Ｓ４および開始状態Ｓ１から終
了状態Ｓ４までの複数の経路を有する。

【００９４】図８は、ある音素の音響マルコフ・モデル
の仮定の例を示す概略図である。この例では、音響音素
モデルに、３回の遷移Ｔ１の発生、４回の遷移Ｔ２の発
生および３回の遷移Ｔ３の発生が含まれる。破線で示さ
れた遷移は、空遷移である。

【００９５】図７および図８の音響モデルの実線の遷移
のそれぞれが、音響特徴値を含むモデル出力を少なくと
も１つ有する。モデル出力のそれぞれが、出力確率を有
する。空遷移のそれぞれは、出力を有しない。ある状態
からの実線の遷移のそれぞれと破線の遷移のそれぞれ
は、モデルがその状態にある時の発生の確率を有する。

【００９６】図９は、図７の音響モデルを通る経路の仮
定の例を示す概略図である。ある発話と音響コマンド・
モデルの一致スコアは、その音響コマンド・モデルを通
るすべての経路に関してその発話の測定された特徴の確
率を合計したものである。経路のそれぞれについて、そ
の発話の測定された特徴の確率は、その経路に沿う遷移
の確率と、測定された特徴のその経路に沿う遷移のそれ
ぞれでの確率の積に等しい。

【００９７】本発明による対話式コンピュータ・システ
ムは、汎用ディジタル・コンピュータ・システムを適当
にプログラミングすることによって作られることが好ま
しい。具体的に言うと、プロセッサ１０、イメージ・オ
ブジェクト識別機能２６および活動状態コマンド・モデ
ル語彙識別機能３０は、汎用ディジタル・プロセッサを
適当にプログラミングすることによって作ることができ
る。システム音響コマンド・モデル語彙記憶域２８と活
動状態音響コマンド・モデル記憶域３４は、電子コンピ
ュータ・メモリとすることができる。表示手段１２に
は、陰極線管などのビデオ表示装置、液晶表示装置また
はプリンタを含めることができる。

【００９８】上で述べたように、目標コンピュータ・プ
ログラムは、１つまたは複数のアプリケーション・プロ
グラムとオペレーティング・システム・プログラムとす
ることができる。たとえば、目標コンピュータ・プログ
ラムは、ＩＢＭＯＳ／２（商標）バージョン２．０お
よびプレゼンテーション・マネージャ（商標）とするこ
とができる。

【００９９】ＩＢＭ社のＯＳ／２バージョン２．０オペ
レーティング・システムおよびプレゼンテーション・マ
ネージャは、Ｃプログラミング言語、アセンブリ・プロ
グラミング言語およびＲＥＸＸプログラミング言語を含
むさまざまな言語のアプリケーション・プログラム・イ
ンターフェース呼出しを有する。アプリケーション・プ
ログラム・インターフェース呼出しの完全な集合が、Ｏ
Ｓ／２２．０ＴｅｃｈｎｉｃａｌＬｉｂｒａｒｙ
の一部である。ある言語でのアプリケーション・プログ
ラム・インターフェース呼出しの構文は、その言語での
標準呼出しの動作方法と互換性を有する。特定のアプリ
ケーション・プログラム・インターフェース呼出しの名
前は、言語によって異なる場合がある。また、ある言語
でのアプリケーション・プログラム・インターフェース
の態様の一部が、別の言語ではサポートされない場合が
ある。

【０１００】Ｃプログラミング言語の場合、アプリケー
ション・プログラム・インターフェースは、多数のライ
ブラリ呼出しからなる。Ｃプログラミング言語のソース
・コードは、ＩＢＭＣＳｅｔ／２コンパイラを用い
てコンパイルされる。

【０１０１】例ＩないしＶに、（ａ）イメージを作成し
表示し、（ｂ）活動状態イメージに表示される少なくと
も１つのオブジェクトを識別するために活動状態イメー
ジを読み取り、（ｃ）活動状態イメージから語彙を作成
し、（ｄ）音声認識機構に対して語彙を定義し、（ｅ）
活動状態語彙からのコマンド・モデルのうちで最高の一
致スコアを有するコマンド・モデルに対応するコマンド
信号を出力するための、ＯＳ／２およびプレゼンテーシ
ョン・マネージャ用のＣプログラミング言語のソース・
コードを示す。

【０１０２】例Ｉ例Ｉに、図２に示された仮定の第１活動状態イメージを
作成するためのＣプログラミング言語のソース・コード
を示す。

【０１０３】ＯＳ／２およびプレゼンテーション・マネ
ージャには、「標準ウィンドウ」という概念がある。標
準ウィンドウとは、複数の一般的に使用されるウィンド
ウの組合せである。図２では、フレーム・ウィンドウ、
タイトル・バー、システム・メニューおよびメニュー・
バーが、標準ウィンドウの一部であるとみなすことがで
きる。標準ウィンドウは、ＯＳ／２アプリケーション・
インターフェース呼出しＷｉｎＣｒｅａｔｅＳｔｄＷｉ
ｎｄｏｗ（）を使用する下記のＣプログラミング言語ソ
ース・コードを用いて作成される。二重スラッシュ（／
／）の後のコメントで、ソース・コードの動作を説明す
る。

【０１０４】 #define INCL_WIN // プレゼンテーション・マネージャの定義文 // を得るために必要。 #include <os2.h> // プレゼンテーション・マネージャの定義文 // を得るために必要。 // ウィンドウ・プロシージャのためのプロト // タイプ定義。 MRESULT EXPENTRY SampleProc( HWND hwnd, ULONG ulMsg, MPARAM mp1, MPARAM mp2 ); HWND hwndFrame; // これは、フレーム・ウィンドウへの「ハン // ドル」を保持する変数である。ウィンドウ // ・ハンドルは、ウィンドウごとにユニーク // である。 HWND hwndClient; // これは、クライアント・ウィンドウへの「 // ハンドル」を保持する変数である。 ULONG ulFlags; // これは、作成時に使用されるフレーム・デ // ータのための変数である。 HAB hAB; // プレゼンテーション・マネージャのアンカ // ー・ブロック・ハンドル。この例には重要 // でない。これは、初期設定の間に受け取ら // れ、終了時に使用されるハンドルである。 HMQ hMQ; // メッセージ待ち行列。プレゼンテーション // ・マネージャは、これを使用してアプリケ // ーション・ウィンドウにメッセージを送る。 // どのアプリケーションも、この呼出しを行 // ってプレゼンテーション・マネージャを初 // 期設定しなければならない。 hAB = WinInitialize(0); // プレゼンテーション・マネージャが使用す // るメッセージ待ち行列を作成する。第２パ // ラメータは、省略時サイズのメッセージ待 // ち行列を使用することを意味する。 hMQ = WinCreateMsgQueue( hAB, 0 ); // クライアント・ウィンドウのクラスを登録 // する。ここでは、ウィンドウが知りたいイ // ベントのメッセージを送るのにプレゼンテ // ーション・マネージャが使用する関数を指 // 定する。メッセージの例は、ウィンドウの // サイズが変更されようとしていることをそ // のウィンドウに知らせるWM_SIZE、ウィン // ドウが作成されたことをそのウィンドウに // 知らせるWM_CREATE、ウィンドウ内でマウ // ス・ボタンがクリックされた時を知らせる // WM_BUTTON1DOWNである。 // WinRegisterClass()の引数： // // hAB - WinInitialize()から受け取ったハンド // ル。 // "Generic" - ウィンドウ・クラスの名前。この文字列 // は、そのタイプのウィンドウを作成する // のに使用される。 // SampleProc - 上のプロトタイプを用いて定義されるウ // ィンドウ・プロシージャの名前。 // 0L - クラス・スタイル…なし。 // 0L - アプリケーションが使用するために予約 // される特殊記憶域の量…なし。 WinRegisterClass( hAB, "Generic", SampleProc, 0L, 0L ); // フレーム作成データをセットアップして、 // 望みの特定のウィンドウの一部を指定する。 ulFlags = FCF_TITLEBAR | FCF_SYSMENU | FCF_BORDER; // WinCreateStdWindow()の引数： // // HWND_DESKTOP - 親ウィンドウ。フレームをプレゼンテー // ション・マネージャ・デスク・トップの // 子にする。 // 0L - フレーム・スタイル…なし。 // ulFlags - フレーム作成フラグ。 // "Generic" - 前に登録したウィンドウ・プロシージャ。 // "Title" - タイトル・バーに表示するタイトル。 // 0L - クライアント・ウィンドウ・スタイル… // なし。 // NULLHANDLE - アプリケーション・プログラム・インタ // ーフェース用のOS/2ツールキットの一部 // であるリソース・コンパイラを使用して、 // 結果のEXEにメニュー・バー記述などの // フレーム・リソースをコンパイルするこ // とを意味する。 // 10 - EXE内のリソースのID。 // &hwndClient - アプリケーション・プログラム・インタ // ーフェースが新たに作成されたクライア // ント・ハンドルをコピー・バックできる // ように、クライアント・ウィンドウ・ハ // ンドルのアドレスを渡す。 // hwndFrame = WinCreateStdWindow( HWND_DESKTOP, 0L, &ulFlags, "Generic", "Title", 0L, NULLHANDLE, 10, &hwndClient ); // WinSetWindowPos()を用いて、画面上 // でのフレームのサイズと位置を決め、 // 可視にする。 // WinSetWindowPos()の引数： // // hwndFrame - サイズと位置をセットしたいフレーム // へのハンドル。 // HWND_TOP - このフレームを他のすべてのフレーム // の上にセットし、このフレームが見え、 // 使用できるようにする。 // 10, 20 - 望みの位置(x, y)。 // 300, 500 - 望みのサイズ(幅, 高さ)。 // SWP_... - プレゼンテーション・マネージャに、 // サイズを処理し、ウィンドウを移動し、 // 表示するよう伝えるフラグ。 // WinSetWindowPos( hwndFrame, HWND_TOP, 10, 20, 300, 500, SWP_SIZE | SWP_MOVE | SWP_SHOW ); // プレゼンテーション・マネージャは、メッセージ・ベースの // システムであり、作成呼出しの間に、WM_CREATEメッセージ // が、上で登録したウィンドウ・プロシージャに送られる。他 // の子ウィンドウは、このメッセージの処理中に作成される。 // これを下で示す。 MRESULT EXPENTRY SampleProc( HWND hwndClient, ULONG ulMsg, MPARAM mp1, MPARAM mp2 ) { HWND hwndList; HWND hwndButton; switch ( ulMsg ) { . . . case WM_CREATE: // 作成したばかりのクライアント・ウィンド // ウに対するWM_CREATEメッセージを処理し // ている。渡されたウィンドウ・ハンドルで // あるhwndClientは、WinCreateStdWindow() // の最終パラメータを介して返される。 // ここで子リスト・ボックスを作成する。 // WinCreateWindow()の引数： // // hwndClient - クライアント・ウィンドウ // になる親をセットする。 // WC_LISTBOX - ウィンドウ・クラス。これ // はリスト・ボックスである。 // "" - このリスト・ボックスに関 // 連するタイトル・テキスト // はない。 // WS_... - ウィンドウ・スタイル…可 // 視の押しボタンを作る。 // 0, 0 - ウィンドウを置く初期座標。 // 50, 30 - ウィンドウの初期サイズ。 // hwndClient - クライアント・ウィンドウ // になるオーナーをセットす // る。 // HWND_TOP - このウィンドウを他のすべ // てのウィンドウの上に置く。 // ID_BUTTON - ウィンドウＩＤ。 // NULL - コントロール・データなし。 // NULL - プレゼンテーション・パラ // メータなし。 // hwndList = WinCreateWindow( hwndClient, WC_LISTBOX, "", WS_VISIBLE | LS_MULTIPLESEL, 0, 0, 50, 30, hwndClient, HWND_TOP, ID_LISTBOX, NULL, NULL ); // WinCreateWindow()の引数は、ボタン・ク // ラスのための異なるウィンドウ・スタイル // があること、異なるクラス名があること、 // IDが異なること、ボタンに意味のあるテキ // ストがあることを除いて、上と同じである。 // hwndButton = WinCreateWindow( hwndClient, WC_BUTTON, "Help", WS_VISIBLE | BS_PUSHBUTTON, 0, 70, 100, 250, hwndClient, HWND_TOP, ID_BUTTON, NULL, NULL ); // メッセージの処理が終わった。プレゼンテ // ーション・マネージャに制御を返す。 break; . . . } return ( FALSE ); }

【０１０５】例ＩＩ例ＩＩに、活動状態イメージを読み取るためのＣプログ
ラミング言語のソース・コードを示す。

【０１０６】プレゼンテーション・マネージャは、ウィ
ンドウの間でやり取りされるメッセージの待ち行列にア
プリケーションが「フック」を置くためのアプリケーシ
ョン・プログラム・インターフェース呼出しを提供す
る。フックは、メッセージが送られるごとに呼び出され
るコール・バック関数を用いて導入される。フック用の
コール・バック関数は、プレゼンテーション・マネージ
ャのダイナミック・リンク・ライブラリ内に常駐しなけ
ればならない。必要な手順は、コール・バック関数を含
むダイナミック・リンク・ライブラリをロードし、その
後にフックをロードすることである。

【０１０７】 HMODULE hm; // ロードされたダイナミック・リンク・ライブラ // リのための、フレーム・ウィンドウへのハンド // ル。ウィンドウ・ハンドルは、ウィンドウごと // にユニークである。 // これは、コール・バック関数の関数プロトタイ // プである。これは、IBM Presentation // Manager Programming Reference, Volume III // に記載のSendMsgHookの構文に従っている。 VOID EXPENTRY CallbackProc( HAB hAB, PSMHSTRUCT pSmh, BOOL bTask ); // コールバック関数を含むダイナミック・リンク・ライブラリ // をロードするには、DosLoadModule()を使用する。 // DosLoadModule()の引数は次のとおり： // NULL - エラー情報を返すバッファはない。 // 0 - バッファの長さ。 // "MYDLL" - ロードするDLLの名前。 // &hm - モジュール・ハンドルを返すアドレス。 DosLoadModule( NULL, 0, "MYDLL", &hm ) // ここでフックをセットする。 // WinSetHook()の引数は次のとおり： // // hAB - プレゼンテーション・マネージャの初期設 // 定から返されたアンカー・ブロック・ハン // ドル。 // NULLHANDLE - プレゼンテーション・マネージャのシステ // ム待ち行列にフックする。 // HK_SEND - 送られたメッセージに対してフックを導入 // する。 // CallbackProc - ロード済みのダイナミック・リンク・ライ // ブラリからのコールバック・プロシージャ。 // hm - ロード済みモジュールへのハンドル。 // WinSetHook( hAB, hMQ, HK_SENDMSG, (PFN)CallbackProc, hm ); // フックが導入されると、プログラム・マネージャ内でメッセ // ージが送られるたびに、コール・バック・ルーチンが呼び出 // されるようになる。新しいイメージ（ウィンドウ）がアクテ // ィブであることの情報を含むメッセージの１つが、 // WM_SETFOCUSである。これを下記に従って処理して、アクテ // ィブなフレーム・ウィンドウを得ることができる。 VOID EXPENTRY CallbackProc( HAB hAB, PSMHSTRUCT pSmh, BOOL bTask ) { // 変数をいくつか宣言する。 HWND hwndWithFocus; HWND hwndFrame; HWND hwndParent; HWND hwndDesktop; if (pSmh->msg == WM_SETFOCUS) { // このコール・バックは、 // WM_SETFOCUSメッセージと共に呼 // び出された。 // メッセージの第２パラメータを // アンパックする。これによって、 // このメッセージがフォーカスを // 受け取るウィンドウとフォーカ // スを失うウィンドウのどちらの // ためのものであるのかがわかる。 if (SHORT1FROMMP(pSmh->mp2)) { // このウィンドウは、フォーカス // を受け取ろうとしている。 hwndWithFocus = pSmh->hwnd; // これは、アクティブになる実際 // のイメージの子ウィンドウであ // る可能性がある。フレームであ // る絶対的な親を取得する。可視 // のすべてのウィンドウのルート // であるプレゼンテーション・マ // ネージャ・デスク・トップに達 // するまで調べる。 // 限界に関する比較対象としてデ // スク・トップ・ハンドルを取得 // する。 hwndDesktop = WinQueryDesktopWindow( hAB, NULLHANDLE ); hwndParent = hwndWithFocus; // ウィンドウ・チェーンの最後の // 親を見つけるためのループ。 while ( hwndParent != hwndDesktop ) { hwndFrame = hwndParent; // 次の親を求める問合せ. hwndParent = WinQueryWindow( hwndFrame, QW_PARENT ); } //==================================================== // この時点で、hwndFrameがアクティブ・イメージのフ // レームである！ //==================================================== } } }

【０１０８】例ＩＩＩ例ＩＩＩに、活動状態イメージから活動状態コマンドの
リストを識別するためのＣプログラミング言語のソース
・コードを示す。

【０１０９】イメージから活動状態コマンドのリストを
作成するための手順は、次のとおりである。（１）上で
発見したアクティブ・フレームの子（直接または間接
の）であるすべてのウィンドウのリストを作成する。
（２）リスト内のすべてのウィンドウを、そのウィンド
ウ・クラスによって識別する。（３）ユーザにテキスト
を表示するウィンドウ・クラスからのウィンドウについ
て、すべてのウィンドウ・テキスト（隠されているもの
と可視のもの）を問い合わせる。（４）単語の大域リス
トに、ウィンドウ・タイプごとの単語の標準リストと、
ステップ（３）でアプリケーションから問い合わせた単
語を組み合わせる。

【０１１０】ステップ（４）では、単語の複数の配列を
単語の１つの配列に組み合わせることだけが行われる。
したがって、ステップ（４）のソース・コードは示さな
い。

【０１１１】 // ステップ（１）上で発見したアクティブ・フレームの // 子（直接または間接の）であるすべて // のウィンドウのリストを作成する。 // 子ウィンドウが１００個を超えることはないと仮定する。 HWND AllWindows[100]; // ウィンドウ・ハンドルを保持する // 配列を宣言する。 int index = 0; // ウィンドウを配列AllWindows[]に // 入れる時のインデックス。 HWND hwndFrame; // 上で輪郭を示したように、 // CallbackProc()でアクティブ・ウ // ィンドウに初期設定されるものと // 仮定する。 // 再帰関数を使用して、すべての子を得る。 // 最初は、フレームを用いて次のように呼び出す。 // // FindChildren( hwndFrame ); VOID FindChildren( HWND hwndParent ) { HENUM hwndList; HWND hwndChild; // このウィンドウをリストに入れる。インデックス // （index）を増分して、配列内の次に使用可能なスロッ // トを指させる。 AllWindows[index] = hwndChild; index = index + 1; // 直接の子ウィンドウの列挙を開始する。列挙ハンドル // hwndListが返される。これを使用して、すべての子ウィ // ンドウを順にアクセスする。 hwndList = WinBeginEnumWindows( hwndParent ); // これ以上ウィンドウがないことを意味する０のウィンド // ウ・ハンドルが列挙から返されるまで、すべての子をル // ープする。 while ( hwndChild = WinGetNextWindow( hwndList ) ) { // ウィンドウ呼出しごとに、この関数で「この」ウィンド // ウのすべての子をもう一度取得する。 FindChildren( hwndChild ); } // 列挙を終了する。 WinEndEnumWindows( hwndList ); } // ステップ（２）リスト内のすべてのウィンドウを、そ // のウィンドウ・クラスによって識別す // る。 // リスト内のウィンドウごとに、その型を取得する。 int i; // カウント用インデックス CHAR szBuffer[200]; // クラス名を取得するバッファ int BufSize = sizeof(szBuffer); HWND hwnd; for (i = 0; i < index; i++ ) { hwnd = AllWindows[i]; // この次の関数は、引数として渡されたバッファに、文字 // 列としてクラス名を返す。 WinQueryClassName( hwnd, BufSize, szBuffer ); // ここに、プレゼンテーション・マネージャで一般ウィン // ドウとして定義されたクラス名がある。実際の文字列は、 // Ｃプログラミング言語の文字列の慣習に従って、 // 引用符(")で囲まれる。 // // "#1" フレーム・ウィンドウ // "#3" ボタン // "#4" メニュー // "#7" リスト・ボックス // "#8" スクロール・バー } // ステップ（３）ユーザにテキストを表示するウィンド // ウ・クラスからのウィンドウについて、 // すべてのウィンドウ・テキスト（隠さ // れているものと可視のもの）を問い合 // わせる。 // このコード・サンプルでは、あるアプリケーションが表 // 示したテキストを読み取る方法を示す。 // ・この例では、２００バイトを越えるテキストがない // ものと仮定する。 // ・pBufferは、ウィンドウが常駐するプロセスに与え // られた共用メモリのバッファを指しているものと仮 // 定する。 // ・classnameに、上の（２）に記載のオブジェクトの // クラス名が書き込まれていると仮定する。 CHAR classname[100]; CHAR *pBuffer; int BufSize = 201; int ListboxCount; int i; // リスト・ボックスとボタンのためのアプリケーション・ // テキストを取得する。 if (strcmp( classname, "#3" ) == 0) { // これはボタンである。そのテキストを取得する。 WinQueryWindowText( hwndButton, Bufsize, pBuffer ); } if (strcmp( classname, "#7" ) == 0) { // これはリスト・ボックスである。項目のすべてをループ // して、すべてのテキストを取得する。リスト・ボックス // とのインターフェースには、プレゼンテーション・マネ // ージャのアプリケーション・プログラム・インターフェ // ース呼出しWinSendMsg()が必要である。これは、必ず下 // 記の４つのパラメータをとる。 // ・ウィンドウ・ハンドル // ・メッセージ // ・メッセージ固有パラメータまたは０ // ・メッセージ固有パラメータまたは０ ListboxCount = WinSendMsg( hwndListbox, LM_QUERYITEMCOUNT, 0, 0 ); // これがループである。 for (i = 0; i < ListboxCount; i++ ) { // 最後の２つのパラメータに、プレゼンテーション・ // マネージャのアプリケーション・プログラム・イン // ターフェースのパッキング・マクロを使用する。最 // 初のパラメータは、２つの数字から作られる。 // // MPFROM2SHORT( 項目のインデックス, // バッファ・サイズ ) // // ２番目のパラメータは、バッファを指すポインタで // ある。 // // MPFROMP( バッファ ) WinSendMsg( hwndListbox, LM_QUERYITEMTEXT, MPFROM2SHORT( i, Bufsize ), MPFROMP( pBuffer ) ); // 現在、１項目分のテキストがバッファに入っている。 // これをコピーして、どこかにセーブしなければなら // ない。 } }

【０１１２】例ＩＶ例ＩＶに、音声認識機構に対して活動状態語彙を定義す
るためのＣプログラミング言語のソース・コードを示
す。

【０１１３】音声認識機構のためのアプリケーション・
プログラム・インターフェースを使用して、これを認識
用にセットアップする。使用できる可能なアプリケーシ
ョン・プログラム・インターフェースは、ＩＢＭＳｐ
ｅｅｃｈＳｅｒｖｅｒＳｅｒｉｅｓ（商標）製品に
付属するＳｐｅｅｃｈＭａｎａｇｅｒ（商標）アプリ
ケーション・プログラム・インターフェースである。同
様のアプリケーション・プログラム・インターフェース
のためのソース・コードを、下に示す。

【０１１４】 #include "smapi.h" // Speech Managerアプリケーション・プ // ログラム・インターフェースのヘッダ // ・ファイル。 SmArg Args[9]; // ローカル変数−音声システムの初期設 // 定に使用する引数の配列。 int iNumArgs; // 音声システムを初期設定する。パラメータは使用しない。 // SmOpen( 0, NULL ); // 接続を行うのに使用する引数をセットアップする。関数 // SmSetArg()の第２引数は、引数の名前である。第３パラメー // タは、その値である。 // // 認識用の初期設定。 SmSetArg( Args[0], SmNrecognize, TRUE ); // ユーザID。 SmSetArg( Args[3], SmNuserId, "User" ); // ユーザのトレーニング後の統計。 SmSetArg( Args[4], SmNenrollId, "Enroll ID" ); // 使用するテキストの定義域。 SmSetArg( Args[5], SmNtask, "Office System" ); // 音声認識機構がこのアプリケーションと通 // 信するのに使用する、前に作成されたウィ // ンドウ。 SmSetArg( Args[6], SmNwindowHandle, hwndCommunication ); // 音声認識機構から来るメッセージを識別す // るためのID。 SmSetArg( Args[7], SmNconnectionId, 27 ); // アプリケーションの名前。 SmSetArg( Args[8], SmNapplicationName, "Patent Application" ); // 音声認識機構に接続する。この関数の最終パラメータで、こ // の呼出しを非同期にするよう音声認識機構に伝える。 SmConnect( 9, Args, SmAsynchronous ); // この時点で、音声認識機構との接続が存在する。この時点で、 // 上で作成した語彙を定義し、使用可能にし、認識に使用する // ことができる。 // 語彙を定義するには、SmDefineVocab()を使用する。定義の // 間に、音声認識機構が、単語の大きなプールの中を調べて、 // 単語の音声モデルを見つける。音声モデルが存在しない場合、 // その単語を使用する前に、音声モデルを追加しなければなら // ない。存在するモデルに対しては、それらだけを含むテーブ // ルを作って、認識に使用する。 // SmDefineVocab()の引数： // // "Active Vocabulary" - その語彙に関連する名前 // 35 - 語彙に含まれる単語の数 // pWords - アプリケーション・プログラ // ム・インターフェースで指定 // される形式の単語の配列を指 // すポインタ // SmAsynchronous - 呼出しを非同期にする SmDefineVocab( "Active Vocabulary", 35, pWords, SmAsynchronous ); // 認識のために語彙を使用可能にするためには、アプリケーシ // ョン・プログラム・インターフェース呼出し // SmEnableVocab()を使用する。 // SmEnableVocab()の引数： // // "Active Vocabulary" - 使用可能にする語彙の名前 // SmAsynchronous - 呼出しを非同期にする SmEnableVocab( "Active Vocabulary", SmAsynchronous ); // このシステムは現在、認識の準備ができている。認識を開始 // するには、SmMicOn()を使用してマイクロフォンのスイッチ // を入れ、SmRecognizeNextWord()を使用して単語を要求する。 // どちらの呼出しも、ここでは非同期に行われる。 SmMicOn( SmAsynchronous ); SmRecognizeNextWord( SmAsynchronous );

【０１１５】例Ｖ例Ｖに、活動状態語彙からのコマンド・モデルのうちで
最高の一致スコアを有するものに対応するコマンド信号
を出力するためのＣプログラミング言語のソース・コー
ドを示す。

【０１１６】まず、コマンドとコマンド対オブジェクト
の関連とのリストを、上で説明したように手動で定義す
る。大域コマンド以外のコマンドのそれぞれに、１つの
オブジェクトが関連する。

【０１１７】表１の単語「ＲＩＧＨＴ」を認識すると仮
定する。コマンド対オブジェクトの関連のリストから、
コマンドの目標がわかる。この目標には、この例ではhw
ndTargetが指定される。 HWND hwndTarget;

【０１１８】この目標に関して「ＲＩＧＨＴ」によって
定義される処置は、前に定義された増分、たとえば１０
画素だけ、目標を右に移動することである。 #define INCREMENT_RIGHT 10

【０１１９】このコマンドは、WinSetWindowPos()とい
う名前のＯＳ／２プレゼンテーション・マネージャ・ア
プリケーション・プログラム・インターフェース呼出し
を使用して、目標に対して実行される。新しい位置を決
定できるように、まず現在のウィンドウ位置を問い合わ
せる必要がある。

【０１２０】 SWP swp; // ウィンドウ位置のためのプレゼンテーショ // ン・マネージャ構造体 // 初期ウィンドウ位置を得る。 // hwndTarget - 目標のウィンドウまたはオブジェクト // &swp - 目標のウィンドウ機能が返されるアド // レス WinQueryWindowPos( hwndTarget, &swp ); // コマンド"RIGHT"を実行する。 // // hwndTarget - 目標のウィンドウまたはオブジェクト // NULLHANDLE - 必要のないパラメータ // swp.x + INCREMENT_RIGHT // - ウィンドウの新しいＸ座標 // swp.y - 同一のＹ座標を使用する // 0, 0, - 必要のないパラメータ // SWP_MOVE - ウィンドウに移動するよう伝える // WinSetWindowPos( hwndTarget, NULLHANDLE, swp.x + INCREMENT_RIGNT, swp.y, 0, 0, SWP_MOVE );

【０１２１】その代わりに、単語「ＯＲＡＮＧＥ」を認
識すると仮定する。コマンド対オブジェクトの関連のリ
ストから、このコマンドの目標がわかる。これは、この
例ではhwndTargetである。 HWND hwndTarget;

【０１２２】この目標に関して「ＯＲＡＮＧＥ」によっ
て定義される処置は、リストボックス内の項目を選択す
ることである。このコマンドは、WinSendMsg()という名
前のＯＳ／２プレゼンテーション・マネージャ・アプリ
ケーション・インターフェース呼出しを使用して、リス
トボックスにメッセージLM_SELECTITEMを送ることによ
って、目標に対して実行される。まず、項目のインデッ
クスを見つけなければならない。

【０１２３】 SHORT sItem; // 問合せのための項目インデックス // リスト内で認識された単語を見つける。 // // hwndTarget - 目標のウィンドウまたはオブジェクト // LM_SEARCHSTRING - 送られるメッセージ // MPFROM2SHORT() - プレゼンテーション・マネージャのパ // ッキング・マクロ // LSS_PREFIX - 次のパラメータの文字列から始まる項 // 目のインデックスを要求する // LIT_FIRST - 一致する最初の項目を要求する // MPFROMP() - プレゼンテーション・マネージャのパ // ッキング・マクロ // pListboxWord - 認識される単語"ORANGE" // sItem = (SHORT)WinSendMsg( hwndTarget, LM_SEARCHSTRING, MPFROM2SHORT( LSS_PREFIX, LIT_FIRST ), MPFROMP( pListboxWord ) ); // 認識された単語を選択する。 // // hwndTarget - 目標のウィンドウまたはオブジェクト // LM_SELECTITEM - 送られるメッセージ // sItem - 処置の対象となる、リスト内の項目 // TRUE - 項目を選択する // WinSendMsg( hwndTarget, LM_SELECTITEM, MPFROMSHORT( sItem ), MPFROMLONG( TRUE ) );

【図面の簡単な説明】

【図１】本発明による対話式コンピュータ・システムの
例を示すブロック図である。

【図２】目標コンピュータ・プログラムの第１活動状態
の第１活動状態イメージの例を示す図である。

【図３】本発明による対話式コンピュータ・システムの
ための音声認識機構の例を示すブロック図である。

【図４】目標コンピュータ・プログラムの第２活動状態
の第２活動状態イメージの例を示す図である。

【図５】本発明による対話式コンピュータ・システムの
システム語彙のための音響コマンド・モデル記憶域の例
を示すブロック図である。

【図６】図３の音声認識機構のための音響プロセッサの
ブロック図である。

【図７】音響コマンド・モデルの例を示す概略図であ
る。

【図８】音響コマンド・モデルを構築するための音素の
音響モデルの例を示す概略図である。

【図９】図７の音響モデルを通る経路の例を示す概略図
である。

【符号の説明】

２８システム音響コマンド・モデル語彙記憶域３０活動状態コマンド・モデル語彙識別機能３２音声認識機構３４活動状態音響コマンド・モデル記憶域３６音響プロセッサ３８音響一致スコア・プロセッサ４０出力５４マイクロフォン５６アナログ・ディジタル変換器５８ウィンドウ・ジェネレータ６０スペクトル・アナライザ６２適応式雑音キャンセル・プロセッサ６４プロトタイプ記憶域６６適応プロトタイプ・ベクトル記憶域６８短時間平均正規化プロセッサ７０適応ラベラー７２聴覚モデル７４連結機能７６回転機能

───────────────────────────────────────────────────── フロントページの続き (72)発明者グレッグ・エイチ・ダゲットアメリカ合衆国10598 ニューヨーク州ヨークタウン・ハイツコーンウォール・サークル70 (72)発明者ジョン・カラットアメリカ合衆国06831 コネチカット州グリニッジペンバーウィック・ロード26 (72)発明者ジョン・ルカッセンアメリカ合衆国10025 ニューヨーク州ニューヨークウェスト・ワンハンドレッド・サード・ストリート308 アパートメント・ピーエイチ−１ (72)発明者ステファン・エリック・レビィアメリカ合衆国10595−1029 ニューヨーク州ヴァルハライーストビュー・ドライブ106 (72)発明者ロバート・ローレンス・マックアメリカ合衆国10598 ニューヨーク州ヨークタウン・ハイツオールド・ヨークタウン・ロード3006

Claims

【特許請求の範囲】

【請求項１】一連の時限にわたって発生する一連の活動
プログラム状態を有する目標コンピュータ・プログラム
を実行するプロセッサであって、前記目標コンピュータ
・プログラムが、各時限の間に発生する目標コンピュー
タ・プログラムの活動状態の活動状態イメージを表す活
動状態イメージ・データ信号を生成し、各活動状態イメ
ージが、１つまたは複数のオブジェクトを含む、前記プ
ロセッサと、第１時限の間に発生する第１活動状態の第１活動状態イ
メージを少なくとも表示するための手段と、第１活動状態イメージに表示された少なくとも１つのオ
ブジェクトを識別し、識別されたオブジェクトから、目
標コンピュータ・プログラムの第１活動状態で実行でき
る機能を識別する１つまたは複数の第１活動状態コマン
ドのリストを生成するための手段と、各音響コマンド・モデルがその音響コマンド・モデルに
関連する１つまたは複数の単語の発話を表す音響特徴値
の１つまたは複数の連なりを表す、音響コマンド・モデ
ルのシステム語彙を記憶するための手段と、第１活動状態コマンドを表すシステム語彙からの音響コ
マンド・モデルを含む、第１活動状態の音響コマンド・
モデルの第１活動状態語彙を識別するための手段と、一連の特徴信号を作るため第１時限内の一連の連続した
時間間隔のそれぞれの間に発話の少なくとも１つの特徴
の値を測定するための音声認識機構であって、発話と各
音響コマンド・モデルの一致スコアを生成するため、測
定された特徴信号を第１活動状態語彙内の音響コマンド
・モデルのそれぞれと比較し、最高の一致スコアを有す
る第１活動状態語彙からのコマンド・モデルに対応する
コマンド信号を出力する、前記音声認識機構とを具備す
る、対話式コンピュータ・システム。
【請求項２】第１活動状態語彙が、システム語彙からの
音響コマンド・モデルのすべてよりかなり少ない音響コ
マンド・モデルを含み、音声認識機構が、第１時限の間に測定された特徴信号
を、第１活動状態語彙の中にない音響コマンド・モデル
と比較しないことを特徴とする、請求項１に記載の対話
式コンピュータ・システム。
【請求項３】表示手段が、第１時限と異なる第２時限の
間に発生する第２活動状態の、第１活動状態イメージと
異なる第２活動状態イメージを、少なくとも表示し、オブジェクト識別手段が、第２活動状態イメージに表示
された少なくとも１つのオブジェクトを識別し、識別さ
れたオブジェクトから、目標コンピュータ・プログラム
の第２活動状態で実行できる機能を識別する１つまたは
複数の第２活動状態コマンドのリストを生成し、活動状態語彙識別手段が、第２活動状態コマンドを表す
システム語彙からの音響コマンド・モデルを含み、少な
くとも部分的に第１活動状態語彙と異なる、第２活動状
態の音響コマンド・モデルの第２活動状態語彙を識別
し、音声認識機構が、一連の特徴信号を作るため第２時限内
の一連の連続した時間間隔のそれぞれの間に発話の少な
くとも１つの特徴の値を測定し、前記音声認識機構が、
発話と各音響コマンド・モデルの一致スコアを生成する
ため、第２時限の間に測定された特徴信号を第２活動状
態語彙内の音響コマンド・モデルのそれぞれと比較し、
前記音声認識機構が、最高の一致スコアを有する第２活
動状態語彙からのコマンド・モデルに対応するコマンド
信号を出力することを特徴とする、請求項２に記載の対
話式コンピュータ・システム。
【請求項４】目標コンピュータ・プログラムが、各時限
の間に発生する活動状態を１つだけ有することを特徴と
する、請求項３に記載の対話式コンピュータ・システ
ム。
【請求項５】目標コンピュータ・プログラムが、オペレ
ーティング・システム・プログラムを含むことを特徴と
する、請求項４に記載の対話式コンピュータ・システ
ム。
【請求項６】目標コンピュータ・プログラムが、アプリ
ケーション・プログラムとオペレーティング・システム
・プログラムとを含むことを特徴とする、請求項５に記
載の対話式コンピュータ・システム。
【請求項７】目標コンピュータ・プログラムが、２つ以
上のアプリケーション・プログラムとオペレーティング
・システム・プログラムとを含むことを特徴とする、請
求項６に記載の対話式コンピュータ・システム。
【請求項８】活動状態のコマンドの少なくともいくつか
が、その状態の活動状態イメージで識別されたオブジェ
クトに対して実行できる機能を識別することを特徴とす
る、請求項６に記載の対話式コンピュータ・システム。
【請求項９】活動状態イメージで識別されるオブジェク
トに、文字、単語、アイコン、ボタン、スクロール・バ
ー、スライダ、リスト・ボックス、メニュー、チェック
・ボックス、コンテナまたはノートのうちの１つまたは
複数を含むことを特徴とする、請求項８に記載の対話式
コンピュータ・システム。
【請求項１０】音声認識機構が、所与の時限に関して最
高の一致スコアを有する活動状態語彙からのコマンド・
モデルに対応する２つ以上のコマンド信号を出力するこ
とを特徴とする、請求項９に記載の対話式コンピュータ
・システム。
【請求項１１】各活動状態の音響コマンド・モデルの語
彙が、さらに、目標コンピュータ・プログラムの各活動
状態で実行できる機能を識別する大域コマンドを表す大
域音響コマンド・モデルの組を含むことを特徴とする、
請求項１０に記載の対話式コンピュータ・システム。
【請求項１２】表示手段が、表示装置を含むことを特徴
とする、請求項１１に記載の対話式コンピュータ・シス
テム。
【請求項１３】表示手段が、ある時限の間に発生する活
動状態の活動状態イメージと、その時限の間に発生しな
いプログラム状態の１つまたは複数のイメージの少なく
とも一部との両方を表示することを特徴とする、請求項
１１に記載の対話式コンピュータ・システム。
【請求項１４】一連の時限にわたって発生する一連の活
動プログラム状態を有する目標コンピュータ・プログラ
ムであって、前記目標コンピュータ・プログラムが、各
時限の間に発生する目標コンピュータ・プログラムの活
動状態の活動状態イメージを表す活動状態イメージ・デ
ータ信号を生成し、各活動状態イメージが、１つまたは
複数のオブジェクトを含む、前記目標コンピュータ・プ
ログラムを、プロセッサ上で実行するステップと、少なくとも、第１時限の間に発生する第１活動状態の第
１活動状態イメージを表示するステップと、第１活動状態イメージに表示された少なくとも１つのオ
ブジェクトを識別し、識別されたオブジェクトから、目
標コンピュータ・プログラムの第１活動状態で実行でき
る機能を識別する１つまたは複数の第１活動状態コマン
ドのリストを生成するステップと、各音響コマンド・モデルがその音響コマンド・モデルに
関連する１つまたは複数の単語の発話を表す音響特徴値
の１つまたは複数の連なりを表す、音響コマンド・モデ
ルのシステム語彙を記憶するステップと、第１活動状態コマンドを表すシステム語彙からの音響コ
マンド・モデルを含む、第１活動状態の音響コマンド・
モデルの第１活動状態語彙を識別するステップと、一連の特徴信号を作るため第１時限内の一連の連続した
時間間隔のそれぞれの間に発話の少なくとも１つの特徴
の値を測定するステップと、発話と各音響コマンド・モデルの一致スコアを生成する
ため、測定された特徴信号を第１活動状態語彙内の音響
コマンド・モデルのそれぞれと比較するステップと、最高の一致スコアを有する第１活動状態語彙からのコマ
ンド・モデルに対応するコマンド信号を出力するステッ
プとを含む、コンピュータ対話の方法。
【請求項１５】第１活動状態語彙が、システム語彙から
の音響コマンド・モデルのすべてよりかなり少ない音響
コマンド・モデルを含み、比較のステップが、第１時限の間に測定された特徴信号
を、第１活動状態語彙の中にない音響コマンド・モデル
と比較しないことを特徴とする、請求項１４に記載のコ
ンピュータ対話の方法。
【請求項１６】少なくとも、第１時限と異なる第２時限
の間に発生する第２活動状態の、第１活動状態イメージ
と異なる第２活動状態イメージを、表示するステップ
と、第２活動状態イメージに表示された少なくとも１つのオ
ブジェクトを識別し、識別されたオブジェクトから、目
標コンピュータ・プログラムの第２活動状態で実行でき
る機能を識別する１つまたは複数の第２活動状態コマン
ドのリストを生成するステップと、第２活動状態コマンドを表すシステム語彙からの音響コ
マンド・モデルを含み、少なくとも部分的に第１活動状
態語彙と異なる、第２活動状態の音響コマンド・モデル
の第２活動状態語彙を識別するステップと、一連の特徴信号を作るため、第２時限内の一連の連続し
た時間間隔のそれぞれの間に発話の少なくとも１つの特
徴の値を測定するステップと、発話と各音響コマンド・モデルの一致スコアを生成する
ため、第２時限の間に測定された特徴信号を第２活動状
態語彙内の音響コマンド・モデルのそれぞれと比較する
ステップと、最高の一致スコアを有する第２活動状態語彙からのコマ
ンド・モデルに対応するコマンド信号を出力するステッ
プとをさらに含むことを特徴とする、請求項１５に記載
のコンピュータ対話の方法。
【請求項１７】目標コンピュータ・プログラムが、各時
限の間に発生する活動状態を１つだけ有することを特徴
とする、請求項１６に記載のコンピュータ対話の方法。
【請求項１８】目標コンピュータ・プログラムが、オペ
レーティング・システム・プログラムを含むことを特徴
とする、請求項１７に記載のコンピュータ対話の方法。
【請求項１９】目標コンピュータ・プログラムが、アプ
リケーション・プログラムとオペレーティング・システ
ム・プログラムとを含むことを特徴とする、請求項１８
に記載のコンピュータ対話の方法。
【請求項２０】目標コンピュータ・プログラムが、２つ
以上のアプリケーション・プログラムとオペレーティン
グ・システム・プログラムとを含むことを特徴とする、
請求項１９に記載のコンピュータ対話の方法。
【請求項２１】活動状態のコマンドの少なくともいくつ
かが、その状態の活動状態イメージで識別されたオブジ
ェクトに対して実行できる機能を識別することを特徴と
する、請求項１９に記載のコンピュータ対話の方法。
【請求項２２】活動状態イメージで識別されるオブジェ
クトに、文字、単語、アイコン、ボタン、スクロール・
バー、スライダ、リスト・ボックス、メニュー、チェッ
ク・ボックス、コンテナまたはノートのうちの１つまた
は複数を含むことを特徴とする、請求項２１に記載のコ
ンピュータ対話の方法。
【請求項２３】コマンド信号を出力するステップが、所
与の時限に関して最高の一致スコアを有する活動状態語
彙からのコマンド・モデルに対応する２つ以上のコマン
ド信号の出力を含むことを特徴とする、請求項２２に記
載のコンピュータ対話の方法。
【請求項２４】各活動状態の音響コマンド・モデルの語
彙が、さらに、目標コンピュータ・プログラムの各活動
状態で実行できる機能を識別する大域コマンドを表す大
域音響コマンド・モデルの組を含むことを特徴とする、
請求項２３に記載のコンピュータ対話の方法。
【請求項２５】ある時限の間に発生する活動状態の活動
状態イメージと、その時限の間に発生しないプログラム
状態の１つまたは複数のイメージの少なくとも一部との
両方を表示するステップを更に含むことを特徴とする、
請求項２４に記載のコンピュータ対話の方法。