JP2001272995A - 音声認識方法及び装置 - Google Patents

音声認識方法及び装置

Info

Publication number
JP2001272995A
JP2001272995A JP2001042385A JP2001042385A JP2001272995A JP 2001272995 A JP2001272995 A JP 2001272995A JP 2001042385 A JP2001042385 A JP 2001042385A JP 2001042385 A JP2001042385 A JP 2001042385A JP 2001272995 A JP2001272995 A JP 2001272995A
Authority
JP
Japan
Prior art keywords
input
modality
word
state
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001042385A
Other languages
English (en)
Inventor
Robert Alexander Keiller
アレキサンダー ケイラー ロバート
Nicholas David Fortescue
デビッド フォーテスキュ ニコラス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2001272995A publication Critical patent/JP2001272995A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features

Abstract

(57)【要約】 【課題】音声認識の精度を改善する。 【解決手段】マルチモーダル入力システムで使用するた
めの本発明に係る音声認識方法では、第1のモダリティ
入力としてのデジタル音声と、少なくとも1つの別のモ
ダリティ入力のデータとから構成されるマルチモーダル
入力を受信する工程(S6)を含む。そして、音声と、
少なくとも1つの別のモダリティのデータとから特徴を
識別する(S7)。識別後の音声及びデータの特徴を語
のモデルにおける状態と比較することにより、語の認識
に利用する(S8)。モデルは音声の認識に関わる状態
を有し、関連する少なくとも1つの別のモダリティで特
徴を有する語について、モデルは上述の又は各別のモダ
リティにおけるイベントの認識に関わる状態を更に有す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、相補マルチモーダ
ル入力システムにおける音声認識の精度の改善に関す
る。
【0002】
【従来の技術】入力として、音声と、更に少なくとも1
つの別のモダリティ入力を使用するインタフェースは、
マルチモーダルシステムとして知られている。2つのモ
ダリティが同じ情報内容を含むマルチモーダルシステム
においては、それらを冗長システムと言い、その例は音
声認識と唇の動きの認識である。2つのモダリティがそ
れぞれ独自の情報を含む場合には、それらを相補システ
ムと言い、その例は音声認識とまゆの動きの認識(まゆ
の動きを音声と関連付けることは可能であるが、まゆの
動きは感情のような独自の情報を含むことができる)
や、音声認識とマウスクリックなどの指示イベントであ
る。相補モダリティ入力システムは、通信に関しては、
単一モダリティだけの場合と比べてより自然で、強力な
方法である。別のモダリティには、例えば、マウス、タ
ッチ画面、ジョイスティック、トラッカーボール又はト
ラックパッドなどの指示装置からの指示イベント、手書
き文字を認識するペン入力、又はジェスチャ認識などが
ある。すなわち、相補マルチモーダルシステムにおいて
は、並列マルチモーダル入力を受信し、処理して、コン
ピュータなどのシステムを制御することになる。
【0003】音声認識エンジンが音声について常に正確
な認識を実行するとは限らないことは知られている。
【0004】
【発明が解決しようとする課題】従って、本発明の目的
は、相補マルチモーダルシステムにおいて別のモダリテ
ィ入力を使用して音声認識の精度を改善することであ
る。
【0005】
【課題を解決するための手段】第1の面によれば、本発
明は、第1のモダリティである音声入力と、少なくとも
1つの別の相補モダリティのデータとを受信する、相補
マルチモーダル入力システムで使用するための音声認識
方法及び装置を提供する。音声における特徴を抽出又は
識別する。また、別のモダリティ入力それぞれのデータ
における特徴も抽出又は識別する。次に、識別された特
徴を語のモデルの状態と比較することにより、語の認識
を実行する。モデルは音声の認識のための状態を有し、
語が関連する別のモダリティを有する場合には、それら
の語のモデルは各々の別のモダリティにおける関連イベ
ントの認識のための状態を更に有する。すなわち、認識
において使用される語のモデルは第1のモダリティ入力
の特徴のみならず、別のモダリティ入力の特徴をも利用
する。これにより、異なる情報源からより多くのデータ
を利用でき、それが認識を助けることになるため、認識
の精度は大きく向上する。話された語と関連して別のモ
ダリティ入力が受信されなければ、認識エンジンは、そ
れら別のモダリティ入力を有しているべき語を語として
は認識しない。
【0006】本発明は、認識される語の入力のために改
善された音声認識技法を使用し、且つ処理システムに対
する入力が認識済みの語と少なくとも1つの別のモダリ
ティ入力からのデータとをマルチモーダル文法規則に従
って処理することにより生成されるような相補マルチモ
ーダル入力システムに適用可能である。すなわち、本発
明のこの面においては、処理システムに対する入力の精
度の改善が実現される。
【0007】実施例では、モデルは、受信されるマルチ
モーダル入力におけるモードの数に等しい次元数を有す
る状態の配列から構成される。そこで、認識は、音声入
力の特徴を受信した時点で第1の次元で状態間を順次遷
移し、上述の又は各別のモダリティ入力の適切な特徴を
受信したときには、上述の又は各別の次元で状態に沿っ
て遷移することにより行われるのが好ましい。すなわ
ち、実施例においては、語のモデルは音声については隠
れマルコフモデルの状態を使用し、上述の又は各別のモ
ダリティ入力に関しては有限状態機械の状態を使用す
る。実施例では、モデルにおける状態間の遷移はそれに
関連する確率を有し、その結果、認識プロセス中に累積
確率が得られることになる。そこで、この実施例では、
従来の音声認識プロセスに従って、語モデルにおいて最
終状態で最大の累積確率を有する語が認識される。
【0008】本発明は専用の、特定の用途向けに設計さ
れたハードウェアで実現できる。しかし、ソフトウェア
により制御される汎用コンピュータを使用して本発明を
実現するほうがより好ましい。すなわち、本発明は、こ
の技法を実現するためにプロセッサを制御するためのプ
ログラムコードを含む。従って、そのプログラムコード
を格納する媒体として本発明を具現化することができ
る。そのようなキャリア媒体は、例えば、フロッピーデ
ィスク、CD−ROM、ハードディスクドライブ又はプ
ログラム可能読み取り専用メモリ装置などの記憶媒体で
あっても良いし、あるいはインターネットなどのネット
ワークを介して搬送される電気信号のような信号であっ
ても良い。
【0009】
【発明の実施の形態】そこで、添付の図面を参照して本
発明の一実施例を説明する。
【0010】図1は、本発明の実施例による相補マルチ
モーダルシステムの概略図である。なお、図では「マル
チモーダル」の略称として「MM」を用いている。この
システムは機能の上で3つの部分に分割できる。初期化
部では、認識部で使用するための複数のワードモデルか
ら成る単語ネットワーク(wordnet)を生成す
る。認識部は音声入力と、第2のモダリティ入力とから
構成されるマルチモーダル入力に対して認識を実行し、
認識済みテキストを生成する。この認識済みテキストは
第2のモダリティ入力と共にマルチモーダルアプリケー
ション部に入力される。
【0011】初期化部はマルチモーダル文法記憶部1を
具備する。マルチモーダル文法記憶部1は認識プロセス
において使用すべき文法規則を記憶している。この文法
規則は文脈自由文法から成り、音声モダリティ入力の関
数としてのみならず、第2のモダリティ入力の関数とし
ても定義される。例えば、文書をファクシミリにより宛
先へ送信するという命令の場合、ユーザに「fax this t
o him(これを彼宛てに送信せよ)」と言わせる一方
で、「this(これを)」というときに表示されている文
書を指示し、続いて「him(彼宛てに)」と言うときに
表示されている識別された人物名を指示するように、文
法規則を規定することができる。
【0012】同義語を使用できるようにし、それによ
り、より融通性に富んだ入力システムを提供するため
に、文法規則を次のように定義できる。 <fax rule>=<fax word>[(<this word>&!click)|
(these&!click(2+))]to(<him word>&!click) ここで、<fax word>=fax | send <this word>=this | that <him word>=him | her すなわち、文法規則open <fax rule> は、認識される
語(fax,send,this,that,these,to,him,her)
と、マウス操作(click)の関数として定義されるので
ある。文法規則をより単純に定義できるように、文法規
則<fax rule>を<fax word>などの変数に関して定義
することができる。
【0013】図1の構成においては、文法規則は文法記
憶部1から単語ネットワーク発生部3に入力される。単
語ネットワーク発生部3は文法規則を使用して単語ネッ
トワークを生成する。前に挙げた文法規則を使用して生
成された単語ネットワークを図5に示す。単語ネットワ
ークのいくつかのノードの間で、すなわち、ノード1と
ノード2の間、ノード1とノード3の間及びノード5と
ノード6の間で、同時にマウス操作が必要であることが
わかる。単語ネットワークを使用する認識プロセスでこ
れらの同時マウス操作に対処するため、第2のモダリテ
ィ入力に関して有限状態機械(FSM)を生成する有限
状態機械発生部(FSM発生部)2が設けられている。
図6aは、2回以上のマウスクリックから成るイベント
に対する有限状態機械の状態を示す。図6bは、1回の
マウスクリックから成るイベントに対する状態を示す。
単語ネットワーク発生部3は生成された状態を受信し、
それらを以下に更に詳細に説明するように単語ネットワ
ークの中に組み込む。
【0014】その後、生成された単語ネットワークをF
SMプロセッサ6が利用して、認識部で認識を実行す
る。
【0015】認識部は、デジタル化音声を入力するため
の音声入力部4を具備する。特徴抽出部5はデジタル化
音声を受信して、当該技術分野では良く知られているよ
うに音声の特徴を抽出する。第2のモダリティ入力部7
は、マウスやトラックボールのクリック操作、画面上の
ある座標への指やペンでのタップ操作などの第2のモダ
リティイベントを入力するために設けられている。それ
らのイベントから特徴を取り出す別の特徴抽出部7aも
設けられている。この特定の実施例では、特徴抽出部7
aは、単に、1回、2回又は3回以上のマウスクリック
を含むイベントにおける個別のマウスクリックを識別す
るだけである。音声入力及び第2のモダリティ入力から
抽出された特徴はFSMプロセッサ6に入力され、FS
Mプロセッサ6は生成された単語ネットワークを使用し
て認識を実行する。認識テキスト出力部8は、FSMプ
ロセッサ6により認識された語をマルチモーダルアプリ
ケーション部のマルチモーダルアプリケーションプロセ
ッサ9へ出力する。
【0016】マルチモーダルアプリケーション部では、
マルチモーダルアプリケーションプロセッサ9が認識さ
れたテキストと、第2のモダリティ入力部7からの第2
のモダリティ入力とを受信し、アプリケーションに対す
る入力を生成する。また、マルチモーダルアプリケーシ
ョンプロセッサ9は、初期化部のマルチモーダル文法記
憶部1と同じ文法規則を格納しているマルチモーダル文
法記憶部1aから文法規則を受信する。
【0017】このように、マルチモーダルアプリケーシ
ョンプロセッサ9は、第2のモダリティ入力を考慮に入
れて正確に認識されたテキストに基づいて、プロセスに
対する入力を生成することができる。
【0018】図2は、本発明の実施例の実際の実現形態
を示す概略図である。本発明のこの実施例は、汎用コン
ピュータによりコンピュータコードを実行することによ
り実現される。
【0019】コンピュータは、デジタル化音声を入力す
るための音声入力装置10を具備する。指示装置11
は、この場合には1回以上のマウスクリックから成るマ
ウス操作イベント等の第2のモダリティ入力を入力する
ために設けられている。コンピュータは従来通りのキー
ボード12と表示装置13とを更に具備する。
【0020】コンピュータは、プログラムメモリ15に
格納されているプログラムコードモジュールを実現する
プロセッサ14を具備する。プログラムコードモジュー
ルは、フロッピーディスクなどの適切なキャリア媒体1
6によりプログラムメモリ15に供給できる。プロセッ
サ14は、プログラムメモリ15からFSM発生部コー
ドモジュールをロードし、それを実行することにより、
FSM発生部14aを実現する。また、プロセッサ14
は、プログラムメモリ15から単語ネットワーク発生部
コードモジュールをロードし、それを実行することによ
り、単語ネットワーク発生部14bを実現する。更に、
プロセッサは、プログラムメモリ15からFSMプロセ
ッサコードモジュールをロードし、それを実行すること
により、FSMプロセッサ14cを実現する。また、プ
ロセッサ14は、プログラムメモリ15から特徴抽出部
コードモジュールをロードすることにより、特徴抽出部
14dを実現する。更に、プロセッサ14は、プログラ
ムメモリ15に格納されているテキスト出力コードモジ
ュールをロードし、それを実行することにより、テキス
ト出力モジュール14eを実現する。更に、プロセッサ
14は、プログラムメモリ15に格納されているマルチ
モーダルアプリケーションコードモジュールをロード
し、それを実行することにより、マルチモーダルアプリ
ケーション14fを実現する。プロセッサ14は汎用コ
ンピュータの中央処理ユニット(CPU)であり、プロ
グラムメモリ15はランダムアクセスメモリ(RA
M)、読み取り専用メモリ(ROM)、ハードディスク
ドライブ又はCD ROMなどのプログラムを格納でき
る何らかのメモリである。
【0021】コンピュータは、プロセッサ14の動作中
にプロセッサ14により使用されるべきワーキングメモ
リ7を更に具備する。ワーキングメモリ7は生成された
有限状態機械、文法規則、単語ネットワークデータ及び
認識済みテキストを格納できる。ワーキングメモリ7
は、ランダムアクセスメモリ(RAM)などの、プロセ
ッサ14によりアクセス可能である従来の何らかのメモ
リである。
【0022】次に、図3の流れ図を参照して、本発明の
この実施例の初期化部の動作を説明する。
【0023】ステップS1では、文法規則が入力され、
ステップS2では、その文法規則に照らして単語ネット
ワークを形成する。次に、ステップS3で、第2のモダ
リティイベントと同期させるべき単語ネットワークの語
を識別し、ステップS4では、第2のモダリティイベン
トに対する有限状態機械を生成する。次に、単語ネット
ワークの語ごとに、識別された語の2次元有限状態配列
を、語状態及び第2のモダリティイベント状態を使用し
て作成する。これは図7に更に詳細に示されている。文
法規則で語「these」を考えてみると、第2のモダリテ
ィ状態(クリック状態)は0、1又は2+である。語状
態は、語「these」について音声から抽出される6つの
特徴に対応する6つの状態を含む。各状態からの遷移に
関連して、確率が設定されている。この確率は以下に更
に詳細に説明するように認識プロセスで使用される。
【0024】図4は、認識プロセスを示す流れ図であ
る。ステップS6では、音声入力と第2のモダリティ入
力を受信し、ステップS7では、音声特徴を抽出する。
ステップS8では、単語ネットワークを使用して認識を
実行する。図5からわかるように、文法規則は、語「fa
x」又は「send」の後には語「this」、「that」又は「t
hese」が続くと定義している。そこで、認識はこれらの
文法規則を使用する。しかし、語「this」、「that」又
は「these」を認識するために、図7に示すような状態
の配列を使用して認識を実行する。音声の特徴が入力さ
れるにつれて、それらの特徴は配列に沿った遷移に整合
される。また、第2のモダリティ入力で特徴、すなわ
ち、クリックが受信されるにつれて、それらの特徴も配
列に沿って遷移に整合されてゆく。すなわち、図7に示
すように、語状態3への遷移として識別される音声特徴
が受信されている。次に、クリック特徴が受信され、ク
リック状態1への遷移として識別される。その後、別の
2つの音声特徴が受信され、それらは語状態5への遷移
であると識別される。次に、別のクリック特徴が受信さ
れ、クリック状態2+への遷移であると識別され、最後
に、別の音声特徴が受信されて、語状態6への遷移とし
て識別される。このようにして、語モデルの最終状態に
到達する。
【0025】先に述べた通り、状態遷移には確率が関連
している。すなわち、認識プロセスでクリック状態2+
及び語状態6に到達したときには、高い累積確率が得ら
れる。その他の状態については、より低い確率が得られ
る。
【0026】1つの語について図7に示した認識プロセ
スが単語ネットワークの後続する語に対して順次実行さ
れ、語が関連する第2のモダリティイベントを有すると
ころでは、語モデルは、語状態を含む第1の次元に加え
て第2のモダリティ状態により定義される第2の次元を
有することになる。
【0027】認識プロセスで使用される語状態は、隠れ
マルコフモデルの状態又はダイナミックタイムワーピン
グにより定義される状態などの、音声認識で使用される
何らかの従来の状態であれば良い。
【0028】以上、本発明を特定の一実施例を参照して
説明したが、本発明の趣旨から逸脱せずに変形を実施で
きることは当業者には明白であろう。
【0029】この実施例では、1つの第2の相補モダリ
ティしか使用しなかったが、本発明は更に多くの数の相
補モダリティにも適用でき、その場合、それに対応して
状態の配列の次元も増すことになる。
【0030】第2のモダリティ入力は上記の実施例にお
けるマウスイベントには限定されない。第2のモダリテ
ィ入力は、ジェスチャ又は手書き文字認識などの他の種
類の入力であっても良い。更に複雑な第2のモダリティ
入力を使用する場合、語と関連するイベントを識別する
ために更に複雑な特徴抽出が必要になる。
【0031】例えば、マウスのクリックのような第2の
モダリティイベントは認識プロセスに同時に入力可能で
あるが、例えば、1本の指を伸ばし、手を広げるなどの
ジェスチャから認識される特徴を同時に認識プロセスに
入力することも可能である。
【0032】上述の実施例において、第2のモダリティ
入力もしくは第2のモダリティイベントは単一の語と関
連している。しかしながら、本発明では第2のモダリテ
ィ入力もしくは第2のモダリティイベントが多くの語す
なわち成句と関連していても良い。
【0033】以上の本発明の実施例の説明及びその変形
から、認識プロセスにおいて、音声入力のみならず、別
の(各)モダリティ入力にも基づく語モデルを使用する
ことにより、マルチモーダル入力システムで本発明は正
確な認識を実行することがわかる。
【0034】
【発明の効果】以上説明したように、相補マルチモーダ
ルシステムにおける単語の認識に際して、入力音声の特
徴と、音声とともに入力される別のモダリティ入力の特
徴とに基づいて認識確率を決定することで、音声認識の
精度を改善することができる。
【図面の簡単な説明】
【図1】 本発明の実施例による相補マルチモーダルシ
ステムの概略図。
【図2】 本発明の実施例によるマルチモーダルシステ
ムの1つの実現形態を示す概略図。
【図3】 本発明の実施例における初期化の方法を示す
流れ図。
【図4】 本発明の実施例における認識の方法を示す流
れ図。
【図5】 本発明の実施例の認識プロセスで使用される
単語ネットワークを示す図。
【図6a】 別のモダリティ入力としての有限状態機械
を示す図。
【図6b】 別のモダリティ入力としての有限状態機械
を示す図。
【図7】 本発明の実施例の認識プロセスを使用する語
モデルにおける状態の配列を示す図。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ニコラス デビッド フォーテスキュ イギリス国 ジーユー2 5ワイジェイ サリー, ギルドフォード, サリー リ サーチ パーク, オッカム ロード, オッカム コート 1 キヤノン リサー チ センター ヨーロッパ リミテッド 内

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 相補マルチモーダル入力システムで使用
    するための音声認識方法において、 第1のモダリティ入力である音声と、少なくとも1つの
    別のモダリティ入力のデータとから構成される相補マル
    チモーダル入力を受信する工程と、 前記音声の少なくとも1つの特徴と、前記少なくとも1
    つの別のモダリティ入力のデータの少なくとも1つの特
    徴とを識別する工程と、 音声の認識のための状態を有し、且つ関連する前記別の
    モダリティの特徴を有する語に対しては、前記別のモダ
    リティのイベントの認識のための状態を更に有する語の
    モデルにおける状態と、音声及びデータの識別された特
    徴を比較することにより、語を認識する工程とを有する
    ことを特徴とする音声認識方法。
  2. 【請求項2】 前記モデルは、それぞれ、受信されるマ
    ルチモーダル入力のモードの数に等しい次元数を有する
    状態の配列から構成されることを特徴とする請求項1記
    載の音声認識方法。
  3. 【請求項3】 前記語のモデルは文法規則に従って単語
    ネットワークとして編成されていることを特徴とする請
    求項1又は2記載の音声認識方法。
  4. 【請求項4】 前記少なくとも1つの別のモダリティ入
    力の前記データはイベントを識別するデータであること
    を特徴とする請求項1から3のいずれか1項に記載の音
    声認識方法。
  5. 【請求項5】 前記語は、第1の次元で、音声の識別さ
    れた特徴を前記状態と順次比較し且つまた、前記又は各
    別の次元で、前記又は各別のモダリティ入力の識別され
    た特徴を比較して最終状態に到達することを試みること
    により認識されることを特徴とする請求項2記載の音声
    認識方法。
  6. 【請求項6】 音声の認識のための前記モデルの状態は
    隠れマルコフモデルの状態であることを特徴とする請求
    項1から5のいずれか1項に記載の音声認識方法。
  7. 【請求項7】 前記識別された特徴は前記又は各別のモ
    ダリティ入力のイベントを定義することを特徴とする請
    求項1から6のいずれか1項に記載の音声認識方法。
  8. 【請求項8】 前記イベントは1回以上のアクションを
    含む指示イベントであることを特徴とする請求項7記載
    の音声認識方法。
  9. 【請求項9】 前記状態は関連する確率を有し、且つ認
    識する工程は、前記識別された特徴を前記状態と比較し
    て、最終状態で最大の確率を有する語を判定することか
    ら成ることを特徴とする請求項1から8のいずれか1項
    に記載の音声認識方法。
  10. 【請求項10】 第1のモダリティ入力として認識済み
    語を生成するために請求項1から9のいずれか1項に記
    載の音声認識方法を含むマルチモーダル入力方法におい
    て、 少なくとも1つの別のモダリティ入力を受信する工程
    と、 前記認識済み語と、前記又は各別のモダリティ入力とを
    規則に従って処理して、プロセスに対し入力を生成する
    工程とを有することを特徴とするマルチモーダル入力方
    法。
  11. 【請求項11】 相補マルチモーダル入力システムで使
    用するための音声認識装置において、 第1のモダリティ入力である音声と、少なくとも1つの
    別のモダリティ入力のデータとから構成される相補マル
    チモーダル入力を受信する受信手段と、 前記音声の少なくとも1つの特徴と、前記少なくとも1
    つの別のモダリティ入力のデータの少なくとも1つの特
    徴とを識別する識別手段と、 音声の認識のための状態を有し、且つ関連する前記別の
    モダリティの特徴を有する語に対しては、前記別のモダ
    リティのイベントの認識のための状態を更に有する語の
    モデルにおける状態と、音声及びデータの識別された特
    徴を比較することにより、語を認識する認識手段とを具
    備することを特徴とする音声認識装置。
  12. 【請求項12】 前記モデルを格納する記憶手段を含む
    請求項11記載の音声認識装置。
  13. 【請求項13】 前記認識手段は、受信されるマルチモ
    ーダル入力のモデルの数に等しい次元数を有する状態の
    配列からそれぞれ構成される前記モデルを使用すること
    を特徴とする請求項11又は12記載の音声認識装置。
  14. 【請求項14】 前記認識手段は、文法規則に従って単
    語ネットワークとして編成された前記モデルを使用する
    ことを特徴とする請求項11から13のいずれか1項に
    記載の音声認識装置。
  15. 【請求項15】 前記受信手段は、イベントを識別する
    データから構成される前記少なくとも1つの別のモダリ
    ティ入力の前記データを受信することを特徴とする請求
    項11から14のいずれか1項に記載の音声認識装置。
  16. 【請求項16】 前記認識手段は、第1の次元で、音声
    の識別された特徴を前記状態と順次比較し且つまた、前
    記又は各別の次元で、前記又は各別のモダリティ入力の
    識別された特徴を比較して最終状態に到達することを試
    みることにより語を認識することを特徴とする請求項1
    3記載の音声認識装置。
  17. 【請求項17】 前記認識手段は、音声の認識のための
    前記モデルの状態として隠れマルコフモデルの状態を使
    用することを特徴とする請求項11から16のいずれか
    1項に記載の音声認識装置。
  18. 【請求項18】 前記識別手段は、前記又は各別のモダ
    リティ入力のイベントを定義する前記特徴を識別するこ
    とを特徴とする請求項11から17のいずれか1項に記
    載の音声認識装置。
  19. 【請求項19】 前記イベントは1回以上のアクション
    を含む指示イベントである請求項18記載の音声認識装
    置。
  20. 【請求項20】 前記認識手段は、前記状態が関連する
    確率を有するような前記モデルを使用し、且つ前記識別
    された特徴を前記状態と比較して、最終状態で最大の確
    率を有する語を判定することを特徴とする請求項11か
    ら19のいずれか1項に記載の音声認識装置。
  21. 【請求項21】 第1のモダリティ入力として音声を入
    力する音声入力手段と、 前記入力された音声をデジタル化する音声デジタル化手
    段と、 少なくとも1つの別のモダリティのデータを入力する別
    のモダリティ入力手段と、 認識済み語を生成する請求項11から20のいずれか1
    項に記載の前記音声認識装置と、 前記認識済み語と、前記又は各別のモダリティ入力とを
    規則に従って処理して、プロセスに対し入力を生成する
    処理手段とを具備することを特徴とするマルチモーダル
    入力システム。
  22. 【請求項22】 入力を生成する請求項21記載の前記
    マルチモーダル入力システムと、 前記生成された入力を処理する処理手段とを具備するプ
    ロセスを実現する処理システム。
  23. 【請求項23】 請求項1から10のいずれか1項に記
    載の前記方法を実現するためにプロセッサを制御するた
    めのプログラムコード。
  24. 【請求項24】 請求項23記載の前記プログラムコー
    ドを格納するコンピュータ可読記憶媒体。
JP2001042385A 2000-02-18 2001-02-19 音声認識方法及び装置 Withdrawn JP2001272995A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB0003903.2A GB0003903D0 (en) 2000-02-18 2000-02-18 Improved speech recognition accuracy in a multimodal input system
GB0003903.2 2000-02-18

Publications (1)

Publication Number Publication Date
JP2001272995A true JP2001272995A (ja) 2001-10-05

Family

ID=9885984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001042385A Withdrawn JP2001272995A (ja) 2000-02-18 2001-02-19 音声認識方法及び装置

Country Status (5)

Country Link
US (1) US6823308B2 (ja)
EP (1) EP1126436B1 (ja)
JP (1) JP2001272995A (ja)
DE (1) DE60120247T2 (ja)
GB (1) GB0003903D0 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100777569B1 (ko) 2006-09-20 2007-11-20 주식회사 케이티 멀티모달을 이용한 음성 인식 방법 및 그 장치
CN102623029A (zh) * 2005-05-19 2012-08-01 吉田健治 声音信息记录装置

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
GB2378776A (en) * 2001-05-22 2003-02-19 Canon Kk Apparatus and method for managing a multi-modal interface in which the inputs feedback on each other
US6868383B1 (en) * 2001-07-12 2005-03-15 At&T Corp. Systems and methods for extracting meaning from multimodal inputs using finite-state devices
CA2397703C (en) * 2001-08-15 2009-04-28 At&T Corp. Systems and methods for abstracting portions of information that is represented with finite-state devices
US20040034531A1 (en) * 2002-08-15 2004-02-19 Wu Chou Distributed multimodal dialogue system and method
US7257575B1 (en) * 2002-10-24 2007-08-14 At&T Corp. Systems and methods for generating markup-language based expressions from multi-modal and unimodal inputs
US20060031071A1 (en) * 2004-08-03 2006-02-09 Sony Corporation System and method for automatically implementing a finite state automaton for speech recognition
JP4218758B2 (ja) * 2004-12-21 2009-02-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕生成装置、字幕生成方法、及びプログラム
US20060155546A1 (en) * 2005-01-11 2006-07-13 Gupta Anurag K Method and system for controlling input modalities in a multimodal dialog system
US8204995B2 (en) * 2005-06-29 2012-06-19 Nokia Corporation Multidevice session establishment for multimodal browsing
JP4878471B2 (ja) * 2005-11-02 2012-02-15 キヤノン株式会社 情報処理装置およびその制御方法
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
DE102008016172B4 (de) 2008-03-28 2020-10-01 Volkswagen Ag Kraftfahrzeug mit einem Display und Verfahren zum Betrieb eines Kraftfahrzeuges mit einem Display
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
DE102008033056A1 (de) 2008-07-15 2010-01-21 Volkswagen Ag Kraftfahrzeug mit einem Mikrofon zur akustischen Eingabe eines Befehls zur Bedienung der Funktion des Kraftfahrzeuges
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US20100281435A1 (en) * 2009-04-30 2010-11-04 At&T Intellectual Property I, L.P. System and method for multimodal interaction using robust gesture processing
WO2011008978A1 (en) * 2009-07-15 2011-01-20 Google Inc. Commands directed at displayed text
US8417223B1 (en) 2010-08-24 2013-04-09 Google Inc. Advanced voicemail features without carrier voicemail support
CN107003996A (zh) 2014-09-16 2017-08-01 声钰科技 语音商务
US10056083B2 (en) 2016-10-18 2018-08-21 Yen4Ken, Inc. Method and system for processing multimedia content to dynamically generate text transcript
US11288038B2 (en) * 2018-07-30 2022-03-29 John Holst, III System and method for voice recognition using a peripheral device
CN111797617A (zh) * 2020-05-26 2020-10-20 北京捷通华声科技股份有限公司 一种数据处理方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62232000A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン 音声認識装置
US5689616A (en) * 1993-11-19 1997-11-18 Itt Corporation Automatic language identification/verification system
JPH0895734A (ja) * 1994-09-29 1996-04-12 Toshiba Corp マルチモーダル入力制御方法およびマルチモーダル対話システム
US5748974A (en) 1994-12-13 1998-05-05 International Business Machines Corporation Multimodal natural language interface for cross-application tasks
JPH0981364A (ja) 1995-09-08 1997-03-28 Nippon Telegr & Teleph Corp <Ntt> マルチモーダル情報入力方法及び装置
US5960395A (en) 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
US6115683A (en) * 1997-03-31 2000-09-05 Educational Testing Service Automatic essay scoring system using content-based techniques
US5895464A (en) * 1997-04-30 1999-04-20 Eastman Kodak Company Computer program product and a method for using natural language for the description, search and retrieval of multi-media objects
ATE254328T1 (de) * 1998-03-09 2003-11-15 Lernout & Hauspie Speechprod Vorrichtung und verfahren zum gleichzeitigen multimodalen diktieren
WO2000008547A1 (en) * 1998-08-05 2000-02-17 British Telecommunications Public Limited Company Multimodal user interface
GB9822930D0 (en) * 1998-10-20 1998-12-16 Canon Kk Speech processing apparatus and method
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102623029A (zh) * 2005-05-19 2012-08-01 吉田健治 声音信息记录装置
CN102623029B (zh) * 2005-05-19 2014-08-20 吉田健治 声音识别系统
KR100777569B1 (ko) 2006-09-20 2007-11-20 주식회사 케이티 멀티모달을 이용한 음성 인식 방법 및 그 장치

Also Published As

Publication number Publication date
EP1126436B1 (en) 2006-06-07
DE60120247T2 (de) 2007-04-05
US20010037201A1 (en) 2001-11-01
EP1126436A2 (en) 2001-08-22
GB0003903D0 (en) 2000-04-05
EP1126436A3 (en) 2001-09-26
US6823308B2 (en) 2004-11-23
DE60120247D1 (de) 2006-07-20

Similar Documents

Publication Publication Date Title
JP2001272995A (ja) 音声認識方法及び装置
US9563395B2 (en) Systems and methods for generating markup-language based expressions from multi-modal and unimodal inputs
US9123341B2 (en) System and method for multi-modal input synchronization and disambiguation
CN106663189B (zh) 用于叠加的笔迹的识别技术的系统和方法
US7548859B2 (en) Method and system for assisting users in interacting with multi-modal dialog systems
CA2397703C (en) Systems and methods for abstracting portions of information that is represented with finite-state devices
US9093072B2 (en) Speech and gesture recognition enhancement
Mankoff et al. OOPS: a toolkit supporting mediation techniques for resolving ambiguity in recognition-based interfaces
JP2741575B2 (ja) 文字認識文字補完方法及びコンピュータ・システム
JPH07295784A (ja) 音声による情報処理装置
JPH08263258A (ja) 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
KR20180115699A (ko) 다중 입력 관리를 위한 시스템 및 방법
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
US10831297B2 (en) Method, apparatus and computer-readable media for touch and speech interface
JPH1124813A (ja) マルチモーダル入力統合システム
Sun et al. Informal user interface for graphical computing
JP6735775B2 (ja) 重畳手書き入力認識技術のためのシステム及び方法
Jüngling et al. Innovation Potential for Human Computer Interaction Domains in the Digital Enterprise
JP2004062517A (ja) 音声制御装置、音声制御方法、およびプログラム
JP3170103B2 (ja) 複合形態による対象物指示方法
KR20030010279A (ko) 음성인식이 가능한 컴퓨터시스템 및 그 제어방법
JPH0689158A (ja) 複合形態情報入力方法
CN113760210A (zh) 一种处理方法和装置
CN116430999A (zh) 一种语音助手实现指尖视觉交互技术的方法和系统
JP2002183130A (ja) 漢字入力方式,方法,およびプログラム記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080513