JP2001272995A

JP2001272995A - 音声認識方法及び装置

Info

Publication number: JP2001272995A
Application number: JP2001042385A
Authority: JP
Inventors: Robert Alexander Keiller; アレキサンダーケイラーロバート; Nicholas David Fortescue; デビッドフォーテスキュニコラス
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-02-18
Filing date: 2001-02-19
Publication date: 2001-10-05
Also published as: EP1126436B1; DE60120247T2; US20010037201A1; EP1126436A2; GB0003903D0; EP1126436A3; US6823308B2; DE60120247D1

Abstract

(57)【要約】【課題】音声認識の精度を改善する。【解決手段】マルチモーダル入力システムで使用するた
めの本発明に係る音声認識方法では、第１のモダリティ
入力としてのデジタル音声と、少なくとも１つの別のモ
ダリティ入力のデータとから構成されるマルチモーダル
入力を受信する工程（Ｓ６）を含む。そして、音声と、
少なくとも１つの別のモダリティのデータとから特徴を
識別する（Ｓ７）。識別後の音声及びデータの特徴を語
のモデルにおける状態と比較することにより、語の認識
に利用する（Ｓ８）。モデルは音声の認識に関わる状態
を有し、関連する少なくとも１つの別のモダリティで特
徴を有する語について、モデルは上述の又は各別のモダ
リティにおけるイベントの認識に関わる状態を更に有す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、相補マルチモーダ
ル入力システムにおける音声認識の精度の改善に関す
る。

【０００２】

【従来の技術】入力として、音声と、更に少なくとも１
つの別のモダリティ入力を使用するインタフェースは、
マルチモーダルシステムとして知られている。２つのモ
ダリティが同じ情報内容を含むマルチモーダルシステム
においては、それらを冗長システムと言い、その例は音
声認識と唇の動きの認識である。２つのモダリティがそ
れぞれ独自の情報を含む場合には、それらを相補システ
ムと言い、その例は音声認識とまゆの動きの認識（まゆ
の動きを音声と関連付けることは可能であるが、まゆの
動きは感情のような独自の情報を含むことができる）
や、音声認識とマウスクリックなどの指示イベントであ
る。相補モダリティ入力システムは、通信に関しては、
単一モダリティだけの場合と比べてより自然で、強力な
方法である。別のモダリティには、例えば、マウス、タ
ッチ画面、ジョイスティック、トラッカーボール又はト
ラックパッドなどの指示装置からの指示イベント、手書
き文字を認識するペン入力、又はジェスチャ認識などが
ある。すなわち、相補マルチモーダルシステムにおいて
は、並列マルチモーダル入力を受信し、処理して、コン
ピュータなどのシステムを制御することになる。

【０００３】音声認識エンジンが音声について常に正確
な認識を実行するとは限らないことは知られている。

【０００４】

【発明が解決しようとする課題】従って、本発明の目的
は、相補マルチモーダルシステムにおいて別のモダリテ
ィ入力を使用して音声認識の精度を改善することであ
る。

【０００５】

【課題を解決するための手段】第１の面によれば、本発
明は、第１のモダリティである音声入力と、少なくとも
１つの別の相補モダリティのデータとを受信する、相補
マルチモーダル入力システムで使用するための音声認識
方法及び装置を提供する。音声における特徴を抽出又は
識別する。また、別のモダリティ入力それぞれのデータ
における特徴も抽出又は識別する。次に、識別された特
徴を語のモデルの状態と比較することにより、語の認識
を実行する。モデルは音声の認識のための状態を有し、
語が関連する別のモダリティを有する場合には、それら
の語のモデルは各々の別のモダリティにおける関連イベ
ントの認識のための状態を更に有する。すなわち、認識
において使用される語のモデルは第１のモダリティ入力
の特徴のみならず、別のモダリティ入力の特徴をも利用
する。これにより、異なる情報源からより多くのデータ
を利用でき、それが認識を助けることになるため、認識
の精度は大きく向上する。話された語と関連して別のモ
ダリティ入力が受信されなければ、認識エンジンは、そ
れら別のモダリティ入力を有しているべき語を語として
は認識しない。

【０００６】本発明は、認識される語の入力のために改
善された音声認識技法を使用し、且つ処理システムに対
する入力が認識済みの語と少なくとも１つの別のモダリ
ティ入力からのデータとをマルチモーダル文法規則に従
って処理することにより生成されるような相補マルチモ
ーダル入力システムに適用可能である。すなわち、本発
明のこの面においては、処理システムに対する入力の精
度の改善が実現される。

【０００７】実施例では、モデルは、受信されるマルチ
モーダル入力におけるモードの数に等しい次元数を有す
る状態の配列から構成される。そこで、認識は、音声入
力の特徴を受信した時点で第１の次元で状態間を順次遷
移し、上述の又は各別のモダリティ入力の適切な特徴を
受信したときには、上述の又は各別の次元で状態に沿っ
て遷移することにより行われるのが好ましい。すなわ
ち、実施例においては、語のモデルは音声については隠
れマルコフモデルの状態を使用し、上述の又は各別のモ
ダリティ入力に関しては有限状態機械の状態を使用す
る。実施例では、モデルにおける状態間の遷移はそれに
関連する確率を有し、その結果、認識プロセス中に累積
確率が得られることになる。そこで、この実施例では、
従来の音声認識プロセスに従って、語モデルにおいて最
終状態で最大の累積確率を有する語が認識される。

【０００８】本発明は専用の、特定の用途向けに設計さ
れたハードウェアで実現できる。しかし、ソフトウェア
により制御される汎用コンピュータを使用して本発明を
実現するほうがより好ましい。すなわち、本発明は、こ
の技法を実現するためにプロセッサを制御するためのプ
ログラムコードを含む。従って、そのプログラムコード
を格納する媒体として本発明を具現化することができ
る。そのようなキャリア媒体は、例えば、フロッピーデ
ィスク、ＣＤ−ＲＯＭ、ハードディスクドライブ又はプ
ログラム可能読み取り専用メモリ装置などの記憶媒体で
あっても良いし、あるいはインターネットなどのネット
ワークを介して搬送される電気信号のような信号であっ
ても良い。

【０００９】

【発明の実施の形態】そこで、添付の図面を参照して本
発明の一実施例を説明する。

【００１０】図１は、本発明の実施例による相補マルチ
モーダルシステムの概略図である。なお、図では「マル
チモーダル」の略称として「ＭＭ」を用いている。この
システムは機能の上で３つの部分に分割できる。初期化
部では、認識部で使用するための複数のワードモデルか
ら成る単語ネットワーク（ｗｏｒｄｎｅｔ）を生成す
る。認識部は音声入力と、第２のモダリティ入力とから
構成されるマルチモーダル入力に対して認識を実行し、
認識済みテキストを生成する。この認識済みテキストは
第２のモダリティ入力と共にマルチモーダルアプリケー
ション部に入力される。

【００１１】初期化部はマルチモーダル文法記憶部１を
具備する。マルチモーダル文法記憶部１は認識プロセス
において使用すべき文法規則を記憶している。この文法
規則は文脈自由文法から成り、音声モダリティ入力の関
数としてのみならず、第２のモダリティ入力の関数とし
ても定義される。例えば、文書をファクシミリにより宛
先へ送信するという命令の場合、ユーザに「fax this t
o him（これを彼宛てに送信せよ）」と言わせる一方
で、「this（これを）」というときに表示されている文
書を指示し、続いて「him（彼宛てに）」と言うときに
表示されている識別された人物名を指示するように、文
法規則を規定することができる。

【００１２】同義語を使用できるようにし、それによ
り、より融通性に富んだ入力システムを提供するため
に、文法規則を次のように定義できる。＜fax rule＞＝＜fax word＞[(＜this word＞&!click)|
(these&!click(2+))]to(＜him word＞&!click) ここで、＜fax word＞＝fax | send ＜this word＞＝this | that ＜him word＞＝him | her すなわち、文法規則open ＜fax rule＞は、認識される
語（fax，send，this，that，these，to，him，her）
と、マウス操作（click）の関数として定義されるので
ある。文法規則をより単純に定義できるように、文法規
則＜fax rule＞を＜fax word＞などの変数に関して定義
することができる。

【００１３】図１の構成においては、文法規則は文法記
憶部１から単語ネットワーク発生部３に入力される。単
語ネットワーク発生部３は文法規則を使用して単語ネッ
トワークを生成する。前に挙げた文法規則を使用して生
成された単語ネットワークを図５に示す。単語ネットワ
ークのいくつかのノードの間で、すなわち、ノード１と
ノード２の間、ノード１とノード３の間及びノード５と
ノード６の間で、同時にマウス操作が必要であることが
わかる。単語ネットワークを使用する認識プロセスでこ
れらの同時マウス操作に対処するため、第２のモダリテ
ィ入力に関して有限状態機械（ＦＳＭ）を生成する有限
状態機械発生部（ＦＳＭ発生部）２が設けられている。
図６ａは、２回以上のマウスクリックから成るイベント
に対する有限状態機械の状態を示す。図６ｂは、１回の
マウスクリックから成るイベントに対する状態を示す。
単語ネットワーク発生部３は生成された状態を受信し、
それらを以下に更に詳細に説明するように単語ネットワ
ークの中に組み込む。

【００１４】その後、生成された単語ネットワークをＦ
ＳＭプロセッサ６が利用して、認識部で認識を実行す
る。

【００１５】認識部は、デジタル化音声を入力するため
の音声入力部４を具備する。特徴抽出部５はデジタル化
音声を受信して、当該技術分野では良く知られているよ
うに音声の特徴を抽出する。第２のモダリティ入力部７
は、マウスやトラックボールのクリック操作、画面上の
ある座標への指やペンでのタップ操作などの第２のモダ
リティイベントを入力するために設けられている。それ
らのイベントから特徴を取り出す別の特徴抽出部７ａも
設けられている。この特定の実施例では、特徴抽出部７
ａは、単に、１回、２回又は３回以上のマウスクリック
を含むイベントにおける個別のマウスクリックを識別す
るだけである。音声入力及び第２のモダリティ入力から
抽出された特徴はＦＳＭプロセッサ６に入力され、ＦＳ
Ｍプロセッサ６は生成された単語ネットワークを使用し
て認識を実行する。認識テキスト出力部８は、ＦＳＭプ
ロセッサ６により認識された語をマルチモーダルアプリ
ケーション部のマルチモーダルアプリケーションプロセ
ッサ９へ出力する。

【００１６】マルチモーダルアプリケーション部では、
マルチモーダルアプリケーションプロセッサ９が認識さ
れたテキストと、第２のモダリティ入力部７からの第２
のモダリティ入力とを受信し、アプリケーションに対す
る入力を生成する。また、マルチモーダルアプリケーシ
ョンプロセッサ９は、初期化部のマルチモーダル文法記
憶部１と同じ文法規則を格納しているマルチモーダル文
法記憶部１ａから文法規則を受信する。

【００１７】このように、マルチモーダルアプリケーシ
ョンプロセッサ９は、第２のモダリティ入力を考慮に入
れて正確に認識されたテキストに基づいて、プロセスに
対する入力を生成することができる。

【００１８】図２は、本発明の実施例の実際の実現形態
を示す概略図である。本発明のこの実施例は、汎用コン
ピュータによりコンピュータコードを実行することによ
り実現される。

【００１９】コンピュータは、デジタル化音声を入力す
るための音声入力装置１０を具備する。指示装置１１
は、この場合には１回以上のマウスクリックから成るマ
ウス操作イベント等の第２のモダリティ入力を入力する
ために設けられている。コンピュータは従来通りのキー
ボード１２と表示装置１３とを更に具備する。

【００２０】コンピュータは、プログラムメモリ１５に
格納されているプログラムコードモジュールを実現する
プロセッサ１４を具備する。プログラムコードモジュー
ルは、フロッピーディスクなどの適切なキャリア媒体１
６によりプログラムメモリ１５に供給できる。プロセッ
サ１４は、プログラムメモリ１５からＦＳＭ発生部コー
ドモジュールをロードし、それを実行することにより、
ＦＳＭ発生部１４ａを実現する。また、プロセッサ１４
は、プログラムメモリ１５から単語ネットワーク発生部
コードモジュールをロードし、それを実行することによ
り、単語ネットワーク発生部１４ｂを実現する。更に、
プロセッサは、プログラムメモリ１５からＦＳＭプロセ
ッサコードモジュールをロードし、それを実行すること
により、ＦＳＭプロセッサ１４ｃを実現する。また、プ
ロセッサ１４は、プログラムメモリ１５から特徴抽出部
コードモジュールをロードすることにより、特徴抽出部
１４ｄを実現する。更に、プロセッサ１４は、プログラ
ムメモリ１５に格納されているテキスト出力コードモジ
ュールをロードし、それを実行することにより、テキス
ト出力モジュール１４ｅを実現する。更に、プロセッサ
１４は、プログラムメモリ１５に格納されているマルチ
モーダルアプリケーションコードモジュールをロード
し、それを実行することにより、マルチモーダルアプリ
ケーション１４ｆを実現する。プロセッサ１４は汎用コ
ンピュータの中央処理ユニット（ＣＰＵ）であり、プロ
グラムメモリ１５はランダムアクセスメモリ（ＲＡ
Ｍ）、読み取り専用メモリ（ＲＯＭ）、ハードディスク
ドライブ又はＣＤＲＯＭなどのプログラムを格納でき
る何らかのメモリである。

【００２１】コンピュータは、プロセッサ１４の動作中
にプロセッサ１４により使用されるべきワーキングメモ
リ７を更に具備する。ワーキングメモリ７は生成された
有限状態機械、文法規則、単語ネットワークデータ及び
認識済みテキストを格納できる。ワーキングメモリ７
は、ランダムアクセスメモリ（ＲＡＭ）などの、プロセ
ッサ１４によりアクセス可能である従来の何らかのメモ
リである。

【００２２】次に、図３の流れ図を参照して、本発明の
この実施例の初期化部の動作を説明する。

【００２３】ステップＳ１では、文法規則が入力され、
ステップＳ２では、その文法規則に照らして単語ネット
ワークを形成する。次に、ステップＳ３で、第２のモダ
リティイベントと同期させるべき単語ネットワークの語
を識別し、ステップＳ４では、第２のモダリティイベン
トに対する有限状態機械を生成する。次に、単語ネット
ワークの語ごとに、識別された語の２次元有限状態配列
を、語状態及び第２のモダリティイベント状態を使用し
て作成する。これは図７に更に詳細に示されている。文
法規則で語「these」を考えてみると、第２のモダリテ
ィ状態（クリック状態）は０、１又は２＋である。語状
態は、語「these」について音声から抽出される６つの
特徴に対応する６つの状態を含む。各状態からの遷移に
関連して、確率が設定されている。この確率は以下に更
に詳細に説明するように認識プロセスで使用される。

【００２４】図４は、認識プロセスを示す流れ図であ
る。ステップＳ６では、音声入力と第２のモダリティ入
力を受信し、ステップＳ７では、音声特徴を抽出する。
ステップＳ８では、単語ネットワークを使用して認識を
実行する。図５からわかるように、文法規則は、語「fa
x」又は「send」の後には語「this」、「that」又は「t
hese」が続くと定義している。そこで、認識はこれらの
文法規則を使用する。しかし、語「this」、「that」又
は「these」を認識するために、図７に示すような状態
の配列を使用して認識を実行する。音声の特徴が入力さ
れるにつれて、それらの特徴は配列に沿った遷移に整合
される。また、第２のモダリティ入力で特徴、すなわ
ち、クリックが受信されるにつれて、それらの特徴も配
列に沿って遷移に整合されてゆく。すなわち、図７に示
すように、語状態３への遷移として識別される音声特徴
が受信されている。次に、クリック特徴が受信され、ク
リック状態１への遷移として識別される。その後、別の
２つの音声特徴が受信され、それらは語状態５への遷移
であると識別される。次に、別のクリック特徴が受信さ
れ、クリック状態２＋への遷移であると識別され、最後
に、別の音声特徴が受信されて、語状態６への遷移とし
て識別される。このようにして、語モデルの最終状態に
到達する。

【００２５】先に述べた通り、状態遷移には確率が関連
している。すなわち、認識プロセスでクリック状態２＋
及び語状態６に到達したときには、高い累積確率が得ら
れる。その他の状態については、より低い確率が得られ
る。

【００２６】１つの語について図７に示した認識プロセ
スが単語ネットワークの後続する語に対して順次実行さ
れ、語が関連する第２のモダリティイベントを有すると
ころでは、語モデルは、語状態を含む第１の次元に加え
て第２のモダリティ状態により定義される第２の次元を
有することになる。

【００２７】認識プロセスで使用される語状態は、隠れ
マルコフモデルの状態又はダイナミックタイムワーピン
グにより定義される状態などの、音声認識で使用される
何らかの従来の状態であれば良い。

【００２８】以上、本発明を特定の一実施例を参照して
説明したが、本発明の趣旨から逸脱せずに変形を実施で
きることは当業者には明白であろう。

【００２９】この実施例では、１つの第２の相補モダリ
ティしか使用しなかったが、本発明は更に多くの数の相
補モダリティにも適用でき、その場合、それに対応して
状態の配列の次元も増すことになる。

【００３０】第２のモダリティ入力は上記の実施例にお
けるマウスイベントには限定されない。第２のモダリテ
ィ入力は、ジェスチャ又は手書き文字認識などの他の種
類の入力であっても良い。更に複雑な第２のモダリティ
入力を使用する場合、語と関連するイベントを識別する
ために更に複雑な特徴抽出が必要になる。

【００３１】例えば、マウスのクリックのような第２の
モダリティイベントは認識プロセスに同時に入力可能で
あるが、例えば、１本の指を伸ばし、手を広げるなどの
ジェスチャから認識される特徴を同時に認識プロセスに
入力することも可能である。

【００３２】上述の実施例において、第２のモダリティ
入力もしくは第２のモダリティイベントは単一の語と関
連している。しかしながら、本発明では第２のモダリテ
ィ入力もしくは第２のモダリティイベントが多くの語す
なわち成句と関連していても良い。

【００３３】以上の本発明の実施例の説明及びその変形
から、認識プロセスにおいて、音声入力のみならず、別
の（各）モダリティ入力にも基づく語モデルを使用する
ことにより、マルチモーダル入力システムで本発明は正
確な認識を実行することがわかる。

【００３４】

【発明の効果】以上説明したように、相補マルチモーダ
ルシステムにおける単語の認識に際して、入力音声の特
徴と、音声とともに入力される別のモダリティ入力の特
徴とに基づいて認識確率を決定することで、音声認識の
精度を改善することができる。

【図面の簡単な説明】

【図１】本発明の実施例による相補マルチモーダルシ
ステムの概略図。

【図２】本発明の実施例によるマルチモーダルシステ
ムの１つの実現形態を示す概略図。

【図３】本発明の実施例における初期化の方法を示す
流れ図。

【図４】本発明の実施例における認識の方法を示す流
れ図。

【図５】本発明の実施例の認識プロセスで使用される
単語ネットワークを示す図。

【図６ａ】別のモダリティ入力としての有限状態機械
を示す図。

【図６ｂ】別のモダリティ入力としての有限状態機械
を示す図。

【図７】本発明の実施例の認識プロセスを使用する語
モデルにおける状態の配列を示す図。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ニコラスデビッドフォーテスキュイギリス国ジーユー２５ワイジェイサリー，ギルドフォード，サリーリサーチパーク，オッカムロード，オッカムコート１キヤノンリサーチセンターヨーロッパリミテッド内

Claims

【特許請求の範囲】

【請求項１】相補マルチモーダル入力システムで使用
するための音声認識方法において、第１のモダリティ入力である音声と、少なくとも１つの
別のモダリティ入力のデータとから構成される相補マル
チモーダル入力を受信する工程と、前記音声の少なくとも１つの特徴と、前記少なくとも１
つの別のモダリティ入力のデータの少なくとも１つの特
徴とを識別する工程と、音声の認識のための状態を有し、且つ関連する前記別の
モダリティの特徴を有する語に対しては、前記別のモダ
リティのイベントの認識のための状態を更に有する語の
モデルにおける状態と、音声及びデータの識別された特
徴を比較することにより、語を認識する工程とを有する
ことを特徴とする音声認識方法。
【請求項２】前記モデルは、それぞれ、受信されるマ
ルチモーダル入力のモードの数に等しい次元数を有する
状態の配列から構成されることを特徴とする請求項１記
載の音声認識方法。
【請求項３】前記語のモデルは文法規則に従って単語
ネットワークとして編成されていることを特徴とする請
求項１又は２記載の音声認識方法。
【請求項４】前記少なくとも１つの別のモダリティ入
力の前記データはイベントを識別するデータであること
を特徴とする請求項１から３のいずれか１項に記載の音
声認識方法。
【請求項５】前記語は、第１の次元で、音声の識別さ
れた特徴を前記状態と順次比較し且つまた、前記又は各
別の次元で、前記又は各別のモダリティ入力の識別され
た特徴を比較して最終状態に到達することを試みること
により認識されることを特徴とする請求項２記載の音声
認識方法。
【請求項６】音声の認識のための前記モデルの状態は
隠れマルコフモデルの状態であることを特徴とする請求
項１から５のいずれか１項に記載の音声認識方法。
【請求項７】前記識別された特徴は前記又は各別のモ
ダリティ入力のイベントを定義することを特徴とする請
求項１から６のいずれか１項に記載の音声認識方法。
【請求項８】前記イベントは１回以上のアクションを
含む指示イベントであることを特徴とする請求項７記載
の音声認識方法。
【請求項９】前記状態は関連する確率を有し、且つ認
識する工程は、前記識別された特徴を前記状態と比較し
て、最終状態で最大の確率を有する語を判定することか
ら成ることを特徴とする請求項１から８のいずれか１項
に記載の音声認識方法。
【請求項１０】第１のモダリティ入力として認識済み
語を生成するために請求項１から９のいずれか１項に記
載の音声認識方法を含むマルチモーダル入力方法におい
て、少なくとも１つの別のモダリティ入力を受信する工程
と、前記認識済み語と、前記又は各別のモダリティ入力とを
規則に従って処理して、プロセスに対し入力を生成する
工程とを有することを特徴とするマルチモーダル入力方
法。
【請求項１１】相補マルチモーダル入力システムで使
用するための音声認識装置において、第１のモダリティ入力である音声と、少なくとも１つの
別のモダリティ入力のデータとから構成される相補マル
チモーダル入力を受信する受信手段と、前記音声の少なくとも１つの特徴と、前記少なくとも１
つの別のモダリティ入力のデータの少なくとも１つの特
徴とを識別する識別手段と、音声の認識のための状態を有し、且つ関連する前記別の
モダリティの特徴を有する語に対しては、前記別のモダ
リティのイベントの認識のための状態を更に有する語の
モデルにおける状態と、音声及びデータの識別された特
徴を比較することにより、語を認識する認識手段とを具
備することを特徴とする音声認識装置。
【請求項１２】前記モデルを格納する記憶手段を含む
請求項１１記載の音声認識装置。
【請求項１３】前記認識手段は、受信されるマルチモ
ーダル入力のモデルの数に等しい次元数を有する状態の
配列からそれぞれ構成される前記モデルを使用すること
を特徴とする請求項１１又は１２記載の音声認識装置。
【請求項１４】前記認識手段は、文法規則に従って単
語ネットワークとして編成された前記モデルを使用する
ことを特徴とする請求項１１から１３のいずれか１項に
記載の音声認識装置。
【請求項１５】前記受信手段は、イベントを識別する
データから構成される前記少なくとも１つの別のモダリ
ティ入力の前記データを受信することを特徴とする請求
項１１から１４のいずれか１項に記載の音声認識装置。
【請求項１６】前記認識手段は、第１の次元で、音声
の識別された特徴を前記状態と順次比較し且つまた、前
記又は各別の次元で、前記又は各別のモダリティ入力の
識別された特徴を比較して最終状態に到達することを試
みることにより語を認識することを特徴とする請求項１
３記載の音声認識装置。
【請求項１７】前記認識手段は、音声の認識のための
前記モデルの状態として隠れマルコフモデルの状態を使
用することを特徴とする請求項１１から１６のいずれか
１項に記載の音声認識装置。
【請求項１８】前記識別手段は、前記又は各別のモダ
リティ入力のイベントを定義する前記特徴を識別するこ
とを特徴とする請求項１１から１７のいずれか１項に記
載の音声認識装置。
【請求項１９】前記イベントは１回以上のアクション
を含む指示イベントである請求項１８記載の音声認識装
置。
【請求項２０】前記認識手段は、前記状態が関連する
確率を有するような前記モデルを使用し、且つ前記識別
された特徴を前記状態と比較して、最終状態で最大の確
率を有する語を判定することを特徴とする請求項１１か
ら１９のいずれか１項に記載の音声認識装置。
【請求項２１】第１のモダリティ入力として音声を入
力する音声入力手段と、前記入力された音声をデジタル化する音声デジタル化手
段と、少なくとも１つの別のモダリティのデータを入力する別
のモダリティ入力手段と、認識済み語を生成する請求項１１から２０のいずれか１
項に記載の前記音声認識装置と、前記認識済み語と、前記又は各別のモダリティ入力とを
規則に従って処理して、プロセスに対し入力を生成する
処理手段とを具備することを特徴とするマルチモーダル
入力システム。
【請求項２２】入力を生成する請求項２１記載の前記
マルチモーダル入力システムと、前記生成された入力を処理する処理手段とを具備するプ
ロセスを実現する処理システム。
【請求項２３】請求項１から１０のいずれか１項に記
載の前記方法を実現するためにプロセッサを制御するた
めのプログラムコード。
【請求項２４】請求項２３記載の前記プログラムコー
ドを格納するコンピュータ可読記憶媒体。