JP3530591B2 - 音声認識装置及びこれを用いた情報処理装置とそれらの方法 - Google Patents

音声認識装置及びこれを用いた情報処理装置とそれらの方法

Info

Publication number
JP3530591B2
JP3530591B2 JP22040494A JP22040494A JP3530591B2 JP 3530591 B2 JP3530591 B2 JP 3530591B2 JP 22040494 A JP22040494 A JP 22040494A JP 22040494 A JP22040494 A JP 22040494A JP 3530591 B2 JP3530591 B2 JP 3530591B2
Authority
JP
Japan
Prior art keywords
line
sight
recognition
weight
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP22040494A
Other languages
English (en)
Other versions
JPH0883093A (ja
Inventor
勝彦 川崎
康弘 小森
恭則 大洞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP22040494A priority Critical patent/JP3530591B2/ja
Priority to US08/524,949 priority patent/US6076061A/en
Priority to EP95306401A priority patent/EP0702355B1/en
Priority to DE69524829T priority patent/DE69524829T2/de
Publication of JPH0883093A publication Critical patent/JPH0883093A/ja
Application granted granted Critical
Publication of JP3530591B2 publication Critical patent/JP3530591B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、視線による制御を用い
た音声認識装置及びこれを用いた情報処理装置とそれら
の方法に関するものである。
【0002】
【従来の技術】対話情報により音声認識の認識対象を制
御することにより音声認識の精度を向上する手法が提案
されている。ここで、認識対象とは、単語,文,文法や
それらの確率などの偏りを表すものである。例えば、カ
レンダーのアプリケーションにおいて、「ネン」と入力
された音声は、「念」や「燃」等ではなく、「年」に相
当する確率を高く設定することで、認識対象を制御でき
る。又、画像情報等と音声認識を組み合わせて装置の性
能を向上するという方法も提案されている。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
た音声認識手法では、ユーザの注意や興味を用いておら
ず、認識対象は、せいぜい対話状況等により制御される
程度のものであった。このため、対話状況等による制御
の精度で音声認識の精度は大きく左右されることにな
る。又、対話状況によって制御する場合は、ユーザによ
って異なる振舞い(対話状況)に対応することが困難で
あり、十分な音声認識率や認識速度を得ることができな
いという問題があった。
【0004】本発明は、ユーザの視線の動きを検出する
ことによりユーザの注意や興味を適切に把握し、この把
握に基づいて音声認識する認識対象を制御することによ
り、音声認識率や認識速度等の性能の向上を図る音声認
識装置及び方法を提供することを目的とする。
【0005】又、本発明の他の目的は、ユーザの視線の
動きを検出することによりユーザの注意や興味を適切に
把握し、この把握に基づいて音声認識する認識対象を制
御し、音声の認識結果に基づいてアプリケーションの実
行等を制御する情報処理装置及び方法を提供することを
目的とする。
【0006】
【課題を解決するための手段】上記の目的を達成するた
めの本発明の音声認識装置は以下の構成を備える。即
ち、ユーザの視線位置を検出する検出手段と、前記検出
手段により検出された視線位置に基づいて音声認識のた
めの複数の認識対象の各々に重みを設定する設定手段
と、前記複数の認識対象の各々により音声認識して得ら
れた認識結果と、前記設定手段により設定された重みと
に基づいて音声認識結果を得る認識手段とを備える。
【0007】又、上記の目的を達成する本発明の他の構
成の音声認識装置は、異なる認識対象が関連づけられた
視線検出範囲に基づく範囲を表示する表示手段と、ユー
ザの前記表示手段上の視線位置を検出する検出手段と、
前記検出手段により検出された視線位置と前記表示手段
により表示された各範囲の表示位置とに基づいて音声認
識のための複数の認識対象の各々の重みを設定する設定
手段と、前記複数の認識対象の各々により音声認識して
得られた認識結果と、前記設定手段により設定された重
みとに基づいて音声認識結果を得る認識手段とを備え
る。
【0008】又、上記の目的を達成する本発明の情報処
理装置は、異なる認識対象が関連づけられた視線検出範
囲に基づく範囲を表示する表示手段と、ユーザの前記表
示手段上の視線位置を検出する検出手段と、前記検出手
段により検出された視線位置と前記表示手段により表示
された各範囲の表示位置とに基づいて音声認識のための
複数の認識対象の各々の重みを設定する設定手段と、前
記複数の認識対象の各々により音声認識して得られた認
識結果と、前記設定手段により設定された重みとに基づ
いて音声認識結果を得る認識手段と、前記認識手段で得
られた音声認識結果と対応する認識対象に関連づけられ
たアプリケーションによる処理を、該認識手段で得られ
た音声認識結果の内容に基づいて実行する実行手段とを
備える。
【0009】上記の目的を達成するための本発明の音声
認識方法は以下の工程を備える。即ち、ユーザの視線位
置を検出する検出工程と、前記検出工程において検出さ
れた視線位置に基づいて音声認識のための複数の認識対
象の各々の重みを設定する設定工程と、前記複数の認識
対象の各々により音声認識して得られた認識結果と、前
記設定工程において設定された重みとに基づいて音声認
識結果を得る認識工程とを備える。
【0010】又、上記の目的を達成する本発明の他の形
態による音声認識方法は、異なる認識対象が関連づけら
れた視線検出範囲に基づく範囲を表示する表示工程と、
ユーザの前記表示工程において表示された画面上の視線
位置を検出する検出工程と、前記検出工程において検出
された視線位置と前記表示工程において表示された各範
囲の表示位置とに基づいて音声認識のための複数の認識
対象の各々の重みを設定する設定工程と、前記複数の認
識対象の各々により音声認識して得られた認識結果と、
前記設定工程において設定された重みとに基づいて音声
認識結果を得る認識工程とを備える。
【0011】又、上記の目的を達成する本発明の情報処
理方法は、異なる認識対象が関連づけられた視線検出範
囲に基づく範囲を表示する表示工程と、前記表示工程に
おいて表示された表示画面上のユーザの視線位置を検出
する検出工程と、前記検出工程において検出された視線
位置と前記表示工程において表示された各範囲の表示位
置とに基づいて音声認識のための複数の認識対象の各々
の重みを設定する設定工程と、前記複数の認識対象の各
々により音声認識して得られた認識結果と、前記設定工
程において設定された重みとに基づいて音声認識結果を
得る認識工程と、前記認識で得られた音声認識結果と対
応する認識対象に関連づけられたアプリケーションによ
る処理を、該認識手段で得られた音声認識結果の内容に
基づいて実行する実行工程とを備える。
【0012】
【0013】
【0014】
【0015】
【0016】
【0017】
【0018】
【実施例】以下に添付の図面を参照して本発明の好適な
実施例を説明する。
【0019】<実施例1>図1は本実施例による情報処
理装置の概略の構成を表すブロック図である。同図にお
いて、101は音声を入力するマイク101aやA/D
変換器101bを含む音声入力部である。102は表示
装置であり、各種アイコンの表示や、視線の位置(範
囲)を表示する。103は視線検出部であり、カメラ1
03a等による撮像画像に基づいて視線を検出する検出
部103bを備える。104は音声認識部であり、入力
された音声を選択された認識対象を用いて認識する。本
実施例では、認識対象は各種アプリケーションに対応し
た単語,文,文法やそれらの確率などの偏りを有する辞
書である。
【0020】105は認識対象制御部であり、視線管理
部106による視線位置の認識結果に従って認識対象を
制御する(即ち、辞書を選択する)。106は視線管理
部であり、視線検出部103によって検出された視線の
動き(表示装置102のどの部分にどのくらい停留した
か等)を管理する。107はコマンド処理部であり、音
声認識によって検出されたコマンドに基づいて各種の処
理を実行する。コマンド処理部107には、不図示のC
PUやROM、RAM等が備えられている。
【0021】次に本実施例の情報処理装置における音声
認識処理について説明する。本実施例の音声認識処理
は、上記の101〜106で示される構成によって実現
される。図2は本実施例の音声認識処理の動作を説明す
る流れ図である。
【0022】まず、ユーザが電源を入れて本装置を立ち
あげると、視線検出処理201において、視線検出部1
03を用いてユーザの視線がどの方向を向いているのか
が検出される。次に、視線管理処理202によって、視
線検出処理201によって検出された視線が、表示画面
上およびその周辺のどの位置(範囲)に対応している
か、また、どのくらいの時間滞在しているかが視線管理
部106により求められる。又、求められた視線の位置
と軌跡が表示装置102に表示される。
【0023】次に、認識対象制御処理203によって、
視線位置(範囲)やその動きと、認識対象(単語,文,
文法やそれらの確率などの偏り)との関連が、視線重み
P()として獲得される。認識対象204の視線重みP
()は、視線の位置や動きに応じて制御される。
【0024】一方、ユーザが単語(または文)を発声す
ると、音声入力処理205により、音声入力部101を
介して音声がA/D変換されて取り込まれる。次に、音
声認識処理206によって、音声認識率PS()が求め
られ、視線重みP()と音声認識率PS()との積が、
最終的な単語(または文)認識率PT()として得られ
る。
【0025】本実施例では、認識対象として複数の辞書
を用意し、ユーザの視線の動きに基づいて選択された辞
書の視線重みを1に、その他の辞書の視線重みをゼロと
することで、認識対象の選別を行う。尚、実施例1で
は、認識対象の重みが“1”か“0”かであるので、認
識対象が切替えられるかのように動作している。
【0026】以上の流れについて、具体例を用いて説明
する。図3は、ユーザが電源を入れて、本装置を立ち上
げた時の初期状態である。ここで、301は表示装置1
02の画面を表す。また、302、305、308は夫
々画面301上に表示された音声入力制御パネル、アプ
リケーションA(ここではカレンダー)、アプリケーシ
ョンB(ここでは電卓)のアイコンを表す。
【0027】又、303、306、309は夫々のアイ
コン(302、305、308)の視線検出範囲を表わ
す。即ち、視線検出範囲303は音声入力制御パネルの
視線検出範囲を示し、この視線検出範囲303に視線が
停留していると、ユーザの興味が音声入力制御パネルに
むいていると判定する。同様に、視線検出範囲306、
309は夫々アプリケーションA、アプリケーションB
の視線検出範囲を表す。尚、これらの視線検出範囲は画
面301上には表示されない。又、304は音声入力制
御辞書、307はアプリケーションA(ここではカレン
ダー)の辞書、310はアプリケーションBの辞書であ
る。
【0028】311は現在の視線の位置を表わしてい
る。312は視線の軌跡であり過去の一定時間(例えば
1sec間)の、ユーザの画面上の視線の位置が表示さ
れる。視線の動きには停留(図において黒丸)と、飛越
運動(図において曲線)とがあり、それらが交互に繰り
返される。
【0029】図4〜図6は各辞書の内容を表す図であ
る。図4は音声入力制御辞書304の内容であり、認識
単語は「開始(カイシ)」、「終了(シュウリョウ)」
である。図5はアプリケーションA(カレンダー)の辞
書307の内容であり、認識単語(または文)は、ここ
では一例として、「1990年(センキュウヒャクキュ
ウジュウネン)」、「1994年5月(センキュウヒャ
クキュウジュウヨネンゴガツ)」「終了(シュウリョ
ウ)」等である。図6はアプリケーションB(電卓)の
辞書310の内容であり、認識単語(または文)は、こ
こでは一例として、「3+6=(サンタスロクワ)」、
「終了(シュウリョウ)」等である。次に、図7〜図1
2を用いて、動作例を説明する。図7〜図9は実施例1
の動作例における画面の表示状態を表す図である。又、
図10は各視線位置における視線重みの変化を表す図で
ある。更に、図11、図12は実施例1の動作手順を説
明するフローチャートである。以下の説明で示されたス
テップ番号は、図11、図12のフローチャート中に示
されたステップ番号である。
【0030】装置を立ち上げると、視線の位置(ここで
はX1に視線がある)を検出し、その位置を画面上に表
示する(図7)。この時点では、音声認識制御辞書30
4が視線重みP(O)=0で、音声入力制御視線検出範
囲303と結び付けられており、アプリケーションAの
辞書とアプリケーションBの辞書は、視線検出範囲とは
結び付けられていない(図10(1))。
【0031】次に、ユーザが視線を音声入力制御パネル
302上の位置X2に移す(図7)。今、視線の停留
が、一定時間(例えば1sec)の間に、音声入力制御
視線検出範囲303に、一定回数(例えば3回)以上存
在すれば、視線管理部202によって、ユーザが音声入
力制御パネル302を選択していると判定される(ステ
ップS10、ステップS11)。すると、音声認識制御
辞書304が視線重みP(O)=1で、音声入力制御の
視線検出範囲303と結び付けられる(図10(2)及
びステップS12)。但し、この時点におけるステップ
S12の処理では、他のアプリケーションの辞書と視線
検出範囲はまだ接続されていないので、他の辞書につい
ては何の設定もなされない。
【0032】そして、ユーザが音声入力制御パネル30
2を見ながら「開始(カイシ)」と発声する(図10
(3))と、音声入力制御視線検出範囲303に結び付
けられた、音声入力制御辞書304内の各単語の音声認
識率PS()が次のように得られる(音声認識には公知
の手法を適用することが可能である)。
【0033】PS(開始)=0.7 PS(終了)=0.3 と得られると、単語認識率PT()=P()×PS()
は、 PT(開始)=P(O)×PS(開始)=1×0.7=
0.7 PT(終了)=P(O)×PS(終了)=1×0.3=
0.3 となる。
【0034】PT()が最大になる単語を認識単語とす
ると、「開始」が選択されるので、音声入力制御が実行
されることになる。その結果、アプリケーションAの視
線検出範囲306とアプリケーションAの辞書307と
が、視線重みP(A)=0で結びつけられ、アプリケー
ションBの視線検出範囲309とアプリケーションBの
辞書310とが、視線重みP(B)=0で結びつけられ
る(図10(4)及びステップS14〜ステップS1
6)。
【0035】次に、ユーザが視線をカレンダーアイコン
305上の位置X5に移す(図7)。視線の停留が、一
定時間(例えば1sec)の間に、アプリケーションA
の視線検出範囲306に、一定回数(例えば3回)以上
存在すれば、視線管理部202によって、ユーザがカレ
ンダー305を選択していると判定される(ステップS
10、ステップS20)。すると、アプリケーションA
の辞書307が視線重みP(A)=1で、アプリケーシ
ョンAの視線検出範囲306と結びつけられ、図5の辞
書単語(または文)が音声認識可能になる。また、アプ
リケーションBの辞書310とアプリケーションBの視
線検出範囲309とが結び付く視線重みがP(B)=0
となり、音声入力制御視線検出範囲303と音声入力制
御辞書310とが結び付く視線重みがP(O)=0とな
る(図10(5)及びステップS21)。
【0036】次に、アプリケーションAの視線検出範囲
306を見ながら「1994年5月(センキュウヒャク
キュウジュウヨネンゴガツ)」と発声する(図10
(6))。すると、アプリケーションAの視線検出範囲
306に結びつけられた、アプリケーションAの辞書3
07内の各単語(または文)の音声認識率PS()が次
のように得られる。即ち、 PS(1990年1月)=0.1 … PS(1994年5月)=0.5 … PS(終了)=0.01 となる。 すると、単語認識率PT()=P()×PS()は、 PT(1990年1月)=P(A)×PS(1990年
1月)=0.1 … PT(1994年5月)=P(A)×PS(1994年
5月)=0.5 … PT(終了)=P(A)×PS(終了)=0.01 となる。
【0037】PT()が最大になる単語を認識単語とす
ると、「1994年5月」が選択され、実行される。す
ると、1994年5月のカレンダーウインドウ501が
開き(図8)、アプリケーションAの辞書307が視線
重みP(A)=1でカレンダーウインドウの視線検出範
囲501と結びつけられる(図10(7)及びステップ
S22〜ステップS24)。
【0038】次に、カレンダーウインドウ501を見な
がら「2001年12月(ニセンイチネンジュウニガ
ツ)」と発声する(図10(8))と、カレンダーウイ
ンドウ501がアプリケーションAの視線検出範囲の一
部であるので、処理は再びステップS20からステップ
S24へと進む。
【0039】ステップS23において、アプリケーショ
ンAの辞書307内の各単語(または文)の音声認識率
PS()は次のように得られる。
【0040】即ち、 PS(1990年1月)=0.1 … PS(2001年12月)=0.5 … PS(終了)=0.1 となる。
【0041】すると、単語認識率PT()=P()×P
S()は、 PT(1990年1月)=P(A)×PS(1990年
1月)=0.1 … PT(2001年12月)=P(A)×PS(2001
年12月)=0.5 … PT(終了)=P(A)×PS(終了)=0.1 のようになる。
【0042】PT()が最大になる単語を認識単語とす
ると、「2001年12月」が選択され、これに従って
ステップS24でコマンドが実行される。すると、カレ
ンダーウインドウの内容が、1994年5月のものから
2001年12月のものに切り替わる。次に、ユーザが
カレンダーウインドウの視線検出範囲501を見ながら
「終了(シュウリョウ)」と発声する(図10(9))
と、アプリケーションAの辞書307内の各単語(また
は文)の音声認識率PS()が、 PS(1990年1月)=0.1 … PS(終了)=0.6 のように得られる。
【0043】すると、単語認識率PT()=P()×P
は、 PT(1990年1月)=P(A)×PS(1990年
1月)=0.1 … PT(終了)=P(A)×PS(終了)=0.6 のようになる。
【0044】PT()が最大になる単語を認識単語とす
ると、「終了」が選択され、カレンダーが終了して、カ
レンダーウインドウが閉じる。この時点で視線の位置が
X10にあれば(図9)、それは音声入力制御視線検出
範囲303、アプリケーションAの視線検出範囲30
6、アプリケーションBの視線検出範囲309のいずれ
の範囲にも入っていないので、状態重みP(O)=P
(A)=P(B)=0である(図10(10))。
【0045】次に、ユーザが視線を電卓アイコン308
上の位置X11に移す(図9)。今、視線の停留が、一
定時間(例えば1sec)の間に、アプリケーションB
の視線検出範囲309に、一定回数(例えば3回)以上
存在すれば、視線管理部202によって、ユーザが電卓
を選択していると判定される(ステップS10、ステッ
プS30)。すると、アプリケーションBの辞書310
が視線重みP(B)=1で、アプリケーションBの視線
検出範囲309と結びつけられ、図6の辞書の単語(ま
たは文または式)が音声認識可能になる。また、アプリ
ケーションAの辞書307とアプリケーションAの視線
検出範囲306とが結び付く視線重みがP(A)=0と
なり、音声入力制御視線検出範囲303と音声入力制御
辞書310とが結び付く視線重みがP(O)=0となる
(図10(11)及びステップS31)。ここではP
(B)=1となることによって、算術式と「終了」が音
声認識可能になる。
【0046】次に、アプリケーションBの視線検出範囲
309を見ながら「2+3=(ニタスサンワ)」と発声
する(図10(12))。すると、アプリケーションB
の視線検出範囲306に結びつけられた、アプリケーシ
ョンBの辞書307で記述される算術式と「終了」の音
声認識率PS()が、 PS(1+1=)=0.1 … PS(2+3=)=0.5 … PS(終了)=0.01 の様に得られる。
【0047】すると、単語(算術式)認識率PT()=
P()×PS()は、 PT(1+1=)=P(B)×PS(1+1=)=0.1 … PT(2+3=)=P(B)×PS(2+3=)=0.5 … PT(終了)=P(B)×PS(終了)=0.01 の様に得られる。
【0048】PT()が最大になる単語を認識単語(算
術式)とすると、「2+3=」が選択され、実行され
る。すると、電卓ウインドウ(不図示)が開き、計算結
果「5」が表示される(ステップS32〜ステップS3
4)。電卓ウインドウには、上記のカレンダーウインド
ウと同様にアプリケーションBの辞書310が結び付け
られる。次に、ユーザがアプリケーションBの視線検出
範囲309或は電卓ウインドウを見ながら「終了(シュ
ウリョウ)」と発声する(図10(13))。
【0049】すると、アプリケーションBの視線検出範
囲306に結びつけられた、アプリケーションBの辞書
307で記述される算術式と「終了」の音声認識率PS
()が、 PS(1+1=)=0.1 … PS(終了)=0.6 の様に得られる。
【0050】すると、単語(算術式)認識率PT()=
P()×PS()は、 PT(1+1=)=P(B)×PS(1+1=)=0.1 … PT(終了)=P(B)×PS(終了)=0.6 のようになる。
【0051】PT()が最大になる単語を認識単語(算
術式)とすると、「終了」が選択されて、電卓が終了し
て、電卓ウインドウが閉じる。この時点で視線の位置が
X14(図9)にあれば、それは音声入力制御視線検出
範囲303、アプリケーションAの視線検出範囲30
6、アプリケーションBの視線検出範囲309のいずれ
の範囲にも入っていないので、状態重みP(O)=P
(A)=P(B)=0である(図10(14)及びステ
ップS40)。
【0052】次に、ユーザが視線を音声入力制御パネル
302上の位置X15に移す(図9)。今、視線の停留
が、一定時間(例えば1sec)の間に、音声入力視線
検出範囲303に、一定回数(例えば3回)以上存在す
れば、視線管理部202によって、ユーザが音声入力制
御パネル302を選択していると判定される。すると、
視線重みはそれぞれP(O)=1,P(A)=0,P
(B)=0となる(図10(15)及びステップS1
2)。
【0053】次に、ユーザが音声入力制御パネル302
を見ながら「終了(シュウリョウ)」と発声する(図1
0(16))。すると、音声入力制御視線検出範囲30
3に結びつけられた、音声認識制御辞書304内の各単
語の音声認識率PS()が、 PS(開始)=0.3 PS(終了)=0.7 と得られる。
【0054】すると、単語認識率PT()=P()×P
S()は、 PT(開始)=P(O)×PS(開始)=1×0.3=
0.3 PT(終了)=P(O)×PS(終了)=1×0.7=
0.7 PT()が最大になる単語を認識単語とすると、「終
了」が選択され、実行さのようになる。
【0055】その結果、アプリケーションAの視線検出
範囲306とアプリケーションAの辞書307との辞書
307との結び付きが切り離されるとともに、アプリケ
ーションBの視線検出範囲309とアプリケーションB
の辞書310との結び付きが切り離される(図10(1
7)及びステップS17、S18)。
【0056】以上に述べたように、視線の位置によっ
て、認識対象が動的に切り替わる。また、同じ「終了」
という発声でも、ユーザがカレンダーを見ている時はカ
レンダーが終了し、ユーザが電卓を見ている時には電卓
が終了する、というような制御が可能になる。
【0057】以上説明したように実施例1によれば、表
示画面上に設けられた視線検出範囲への視線の停留に基
づいて、視線の停留した範囲に関連づけられた音声認識
用辞書への切替えが行われる。従って、視線位置によっ
て音声認識用辞書(認識対象)が適切に切替えられるの
で、音声認識率や音声認識速度が向上する。
【0058】<実施例2>次に実施例2について述べ
る。実施例1では、ある視線検出範囲に所定時間以上の
停留が所定回数以上存在することをアプリケーション選
択の条件とし視線重みP()を1に設定している。そし
て、非選択状態にあるアプリケーションの視線重み
P()はゼロに設定している。実施例2では、ある一定
時間内で、視線がある範囲にどれくらい留まっていたか
によって、画面上のアイコンや制御ボタンと結びつけら
れた、認識対象の各視線重みP()を制御する。
【0059】図13は実施例2における動作例を表す図
であり、ユーザが60秒間画面301を見ていた時の視
線の状態を示している。ここでは、1分間の停留回数
が、視線検出範囲303に5回、視線検出範囲306に
30回、視線検出範囲309に15回、その他の領域に
10回であるとする。又、図14は実施例2の動作手順
を表すフローチャートである。
【0060】図13の例のように、1分間にわたる視線
の停留位置のサンプリングの結果、いずれかの視線検出
範囲における停留回数の合計が5+30+15=50で
あるので、各視線重みは、 P(O)=5/50=0.1 P(A)=30/50=0.6 P(B)=15/50=0.3 となる(ステップS50、ステップS51)。
【0061】ここで、ユーザが「1990年5月」と発
声し、各単語(または文または算術式)の音声認識率P
S()が、 PS(1990年5月)=0.3 PS(1990+5=)=0.4 PS(その他)=0.1以下 と得られたとする。このとき、各単語の認識率PT()
=P()×PS()は、 PT(1990年5月)=P(A)×PS(1990年
5月)=0.6×0.3=0.18 PT(1990+5=)=P(B)×PS(1990+
5=)=0.3×0.4=0.12 PT(その他)=max{P(O),P(A),P
(B)}×PS(その他)=0.06以下 となる。
【0062】ここで、P()が最大になるものを認識単
語(または文または算術式)とすると「1990年5
月」が選択される(ステップS52、ステップS5
3)。更に、認識単語の存在する辞書より関連するアプ
リケーションが特定され(ステップS54)、実行され
る(ステップS55)。
【0063】以上説明したように実施例2によれば、所
定時間内の視線位置をサンプリングし、そのサンプリン
グ結果に基づいて各認識対象(アプリケーションに関連
づけられた辞書)の重みづけを変化させるので、視線位
置に曖昧さが発生しても安定して辞書の重みづけが行わ
れる。従って、所望の視線検出範囲に視線を釘付けにす
る必要が無くなり、ユーザの負担が減少する。
【0064】<実施例3>実施例3では、各時刻におい
て、視線が停留している位置から各制御対象までの距離
によって、画面上のアイコンや制御ボタンと結びつけら
れた、認識対象の視線重みP()を制御する。
【0065】図15は実施例3の動作例をあわす図であ
り、ユーザの現時刻の視線の位置を示している。視線の
位置から、アプリケーションAの視線検出範囲306ま
での距離をd(A)、アプリケーションBの視線検出範
囲309までの距離をd(B)、音声入力制御視線検出
範囲までの距離をd(O)とし、d(A)=5cm,d
(B)=20cm,d(O)=25cm,であったとす
る。
【0066】ここで、アイコンAに結びつけられた単語
の視線重みを、 P(A)=0.5×(d(B)+d(O))/(d
(A)+d(B)+d(O)) とおき、アイコンBに結びつけられた単語の視線重み
を、 P(B)=0.5×(d(A)+d(O))/(d
(A)+d(B)+d(O)) とおき、音声入力制御パネルに結びつけられた単語の視
線重みを、 P(O)=0.5×(d(A)+d(B))/(d
(A)+d(B)+d(O)) とおくと、各単語の視線重みは、 P(O)=0.25 P(A)=0.45 P(B)=0.3 となる。
【0067】ここで、ユーザが「1990年5月」と発
声し、各単語(または文または算術式)の音声認識率P
S()が、 PS(1990年5月)=0.3 PS(1990+5=)=0.4 PS(その他)=0.1以下 と得られたとする。このとき、各単語の単語認識率PT
()=P()×PS()は、 PT(1990年5月)P(A)×PS(1990年5
月)=0.45×0.3=0.135 PT(1990+5=)=P(B)×PS(1990+
5=)=0.3×0.4=0.12 PT(その他)=max{P(O),P(A),P
(B)}×PS(その他)=0.045以下 となる。
【0068】ここで、P()が最大になるものを認識単
語(または文または算術式)とすると「1990年5
月」が選択される。そして、認識単語の属する辞書から
該当するアプリケーションを特定し、実行する。ここで
は、視線重みP()を上記のように定義したが、距離の
増大に対して単調減少する関数(例えば、P(A)=e
xp(−d(A))等)であれば、どのようなものでも
よい。
【0069】尚、実施例3のフローチャートは実施例2
に類似したものとなるので、ここでは図示を省略する。
【0070】以上のように実施例3によれば、視線位置
と視線検出範囲の距離を検出し、その距離に基づいて認
識対象(アプリケーションに関連づけられた辞書)の重
みづけを制御するので、視線位置の曖昧さが許容され
る。即ち、視線検出範囲に視線を釘付けにせずとも、そ
の近辺に視線が向いていればよいので、ユーザの負担が
軽減される。
【0071】<実施例4>次に、実施例4について説明
する。ここでは、視線が停留していた位置より、視線が
外れても一定時間の間は、認識対象の視線重みを直ちに
変更せず、保持しておく場合を説明する。
【0072】今、視線の停留位置が、アプリケーション
Aの視線検出範囲306に存在する最も最後の時刻をt
0とすれば、この時のアプリケーションAの辞書307
内の認識対象の視線重みはP(A)=1である。
【0073】時刻t1において、視線の停留位置が、視
線検出範囲306から出ていても、t1−t0<T(例
えば、T=1sec)ならば、視線重みは変化せずP
(A)=1である。更に、時刻t2において、視線の停
留位置が視線検出範囲306から出ていて、t2−t0
≧Tならば、視線重みはP1(A)=0となる。
【0074】また、視線が停留していた位置より視線が
外れた時、認識対象の視線重みを徐々に変更することも
できる。この場合には、時刻tにおけるアプリケーショ
ンAの視線重みP(A)を図16のようにすればよい。
図16は実施例4における視線重みの変化形態を表す図
である。この図において、T1,T2,(T2>T1)
は適当な値(例えば、T1=1sec,T2=3se
c)である。
【0075】以上のように実施例4によれば、視線の素
早い動きに対して緩衝作用を提供するので、使用者はよ
り視線を意識的に固定する必要が無くなり、使いごこち
のより優れた情報処理装置を提供できる。
【0076】<実施例5> 実施例5について述べる。実施例5では、視線によって
制御される認識対象の視線重みの感度を、各認識対象に
よって異なるようにした場合を示す。いま、アイコンA
に視線が入ってから視線重みが1になるまでの時間をT
in(A)、アイコンAから視線が外れてから視線重み
が0になるまでの時間をTout(A)とする。同様
に、アイコンBに対してもTin(B),Tout
(B)が存在する。いま、Tin(A)=1sec,T
out(A)=2sec,Tin(B)=1sec,T
out(B)=1secとした場合の、各時刻の視線重
みの変化形態を図17に示す。
【0077】以上のような実施例5も実施例4と同様に
視線の動きに対する緩衝作用が提供される <実施例6>本発明の他の実施例について述べる。ここ
では、音声認識中において、視線の位置が変われば、変
わった視線の位置によって、認識対象の視線重みを制御
する場合について示す。図18は実施例6の動作例を表
す図である。
【0078】いま、ユーザがアイコンBを見つめてお
り、視線の位置がS1にある。この時点での各認識対象
の視線重みは、 P(O)=0 P(A)=0 P(B)=1 である。ここで、「1994年5月」と発声し、発声終
了直前の位置がS2にあったとすると、各認識対象の視
線重みはS2における、 P(O)=0 P(A)=1 P(B)=0 という値が用いられる。
【0079】本実施例6は、音声入力の後、音声認識の
処理に先立って視線位置を検出し、その視線位置に基づ
いて視線重みを算出するものである。その処理手順は当
業者には自明であるので、フローチャートによる図示は
省略する。
【0080】<実施例7>尚、図7〜図9、図13で
は、各視線検出領域の確定的な時空間で視線を検出した
が、確率等の曖昧な検出でも良い。図19は、実施例7
における視線検出範囲と視線重みとの対応を説明する図
である。ここでは、視線重みが、P(A)=0.9,
0.5,0.1の3種類の領域を設定する。即ち、視線
重みは、アイコンに近いほど大きな値に設定されてい
る。このため、ユーザの視線位置が近いアイコンほどユ
ーザの興味が高いと判定される。従って、ユーザの興味
の高いアイコンが選択される確率が高くなる。このよう
に、視線位置に対する曖昧さが許容されるので、操作者
への負担が軽減される。尚、実施例7において、視線重
みの算出は、所定時間内に視線が停留した位置の視線重
みの平均値を用いる。そして、得られた視線重みを音声
認識確率に掛け合わせるようにする。
【0081】尚、上記各実施例では、カメラを用いた画
像処理により視線検出を行っている例であるが、視線検
出眼鏡などの検出装置であっても一切問題はない。
【0082】更に、上記各実施例では、簡単のため単語
とその確率で示したが、認識対象が文、文法やその確率
でも一切問題はない。
【0083】尚、本発明は、複数の機器から構成される
システムに適用しても1つの機器からなる装置に適用し
ても良い。また、本発明はシステム或いは装置に本発明
により規定される処理を実行させるプログラムを供給す
ることによって達成される場合にも適用できることはい
うまでもない。
【0084】
【発明の効果】以上説明したように、本発明によれば、
ユーザの注意や興味を視線により確実に検出し、この視
線に応じて音声認識する認識対象を制御することが可能
となり、音声認識率や認識速度等の性能が向上する。
た、上記視線による音声認識の制御において、所望の視
線範囲に視線を釘付けにする必要がなくなり、ユーザの
負担が減少する。
【0085】
【図面の簡単な説明】
【図1】本実施例による情報処理装置の概略の構成を表
すブロック図である。
【図2】本実施例の音声認識処理の動作を説明する流れ
図である。
【図3】実施例1における動作例を表す図である。
【図4】音声入力制御辞書の内容を説明する図である。
【図5】アプリケーションAの辞書の内容を説明する図
である。
【図6】アプリケーションBの辞書の内容を説明する図
である。
【図7】実施例1の動作例における画面の表示状態を表
す図である。
【図8】実施例1の動作例における画面の表示状態を表
す図である。
【図9】実施例1の動作例における画面の表示状態を表
す図である。
【図10】各視線位置における視線重みの変化を表す図
である。
【図11】実施例1の動作手順を説明するフローチャー
トである。
【図12】実施例1の動作手順を説明するフローチャー
トである。
【図13】実施例2における動作例を表す図である。
【図14】実施例2の動作手順を表すフローチャートで
ある。
【図15】実施例3の動作例をあわす図である。
【図16】実施例4における視線重みの変化形態を表す
図である。
【図17】実施例5における各時刻の視線重みの変化形
態を表す図である。
【図18】実施例6の動作例を表す図である。
【図19】実施例7における視線検出範囲と視線重みと
の対応を説明する図である。
【符号の説明】
101 音声入力部 102 表示装置 103 視線検出部 104 音声認識部 105 認識対象制御部 106 視線管理部 107 コマンド処理部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 15/22 G10L 3/00 571H 15/28 571V (56)参考文献 特開 平6−51901(JP,A) 特開 平4−329598(JP,A) 特開 平6−205766(JP,A) 特開 平5−298015(JP,A) 特開 平5−307432(JP,A) 特開 平4−372012(JP,A) 特開 平6−214711(JP,A) 特開 昭62−37734(JP,A) 特開 平5−143273(JP,A) 特開 平8−83158(JP,A) 特開 平8−83157(JP,A) 特許2845926(JP,B2) 特許3160108(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 15/28 G06F 3/033 G06F 3/16 JICSTファイル(JOIS)

Claims (18)

    (57)【特許請求の範囲】
  1. 【請求項1】 ユーザの視線位置を検出する検出手段
    と、 前記検出手段により検出された視線位置に基づいて音声
    認識のための複数の認識対象の各々に重みを設定する設
    定手段と、前記複数の認識対象の各々により音声認識して得られた
    認識結果と、 前記設定手段により設定された重みに基
    づいて音声認識結果を得る認識手段とを備えることを特
    徴とする音声認識装置。
  2. 【請求項2】 異なる認識対象が関連づけられた視線検
    出範囲に基づく範囲を表示する表示手段と、 ユーザの前記表示手段上の視線位置を検出する検出手段
    と、 前記検出手段により検出された視線位置と前記表示手段
    により表示された各範囲の表示位置とに基づいて音声認
    識のための複数の認識対象の各々の重みを設定する設定
    手段と、前記複数の認識対象の各々により音声認識して得られた
    認識結果と、 前記設定手段により設定された重みに基
    づいて音声認識結果を得る認識手段とを備えることを特
    徴とする音声認識装置。
  3. 【請求項3】 前記検出手段により検出された視線位置
    を所定時間にわたって保持し、視線が各視線検出範囲に
    存在した存在時間を獲得する獲得手段を更に備え、 前記設定手段は、前記獲得手段により獲得された各視線
    検出範囲における視線の存在時間に基づいて夫々に関連
    する認識対象の重みを設定することを特徴とする請求項
    に記載の音声認識装置。
  4. 【請求項4】 視線が留まっている位置と前記夫々の視
    線検出範囲との距離を獲得する獲得手段とを更に備え、 前記設定手段は、前記獲得手段により獲得された各視線
    検出位置との距離に基づいて夫々の視線検出範囲に関連
    する認識対象の重みを設定することを特徴とする請求項
    に記載の音声認識装置。
  5. 【請求項5】 前記設定手段は、視線が留まっていた視
    線検出範囲より視線が外れた場合に、一定時間の間はそ
    の視線検出範囲に視線が存するものとして認識対象の重
    みを設定することを特徴とする請求項に記載の音声認
    識装置。
  6. 【請求項6】 前記設定手段は、視線検出範囲より視線
    が外れた場合に、該視線検出範囲と関連づけられた認識
    対象の重みを徐々に変更することを特徴とする請求項
    に記載の音声認識装置。
  7. 【請求項7】 各視線検出範囲への視線の出入りに際し
    て、関連する認識対象の重みの変化の形態を保持する保
    持手段を更に備え、 前記設定手段は、視線検出範囲における視線の出入りが
    あった場合に、関連する認識対象の変化の形態を前記保
    持手段より獲得し、該変化の形態に基づいて当該認識対
    象の重みを設定することを特徴とする請求項に記載の
    音声認識装置。
  8. 【請求項8】 前記認識手段による処理の実行中におい
    て、視線の位置が変化した場合には前記設定手段が実行
    されることを特徴とする請求項に記載の音声認識装
    置。
  9. 【請求項9】 異なる認識対象が関連づけられた視線検
    出範囲に基づく範囲を表示する表示手段と、 ユーザの前記表示手段上の視線位置を検出する検出手段
    と、 前記検出手段により検出された視線位置と前記表示手段
    により表示された各範囲の表示位置とに基づいて音声認
    識のための複数の認識対象の各々の重みを設定する設定
    手段と、前記複数の認識対象の各々により音声認識して得られた
    認識結果と、 前記設定手段により設定された重みに基
    づいて音声認識結果を得る認識手段と、 前記認識手段で得られた音声認識結果と対応する認識対
    象に関連づけられたアプリケーションによる処理を、該
    認識手段で得られた音声認識結果の内容に基づいて実行
    する実行手段とを備えることを特徴とする情報処理装
    置。
  10. 【請求項10】 ユーザの視線位置を検出する検出工程
    と、 前記検出工程において検出された視線位置に基づいて音
    声認識のための複数の認識対象の各々の重みを設定する
    設定工程と、前記複数の認識対象の各々により音声認識して得られた
    認識結果と、 前記設定工程において設定された重み
    基づいて音声認識結果を得る認識工程とを備えることを
    特徴とする音声認識方法。
  11. 【請求項11】 異なる認識対象が関連づけられた視線
    検出範囲に基づく範囲を表示する表示工程と、 ユーザの前記表示工程において表示された画面上の視線
    位置を検出する検出工程と、 前記検出工程において検出された視線位置と前記表示工
    程において表示された各範囲の表示位置とに基づいて音
    声認識のための複数の認識対象の各々の重みを設定する
    設定工程と、前記複数の認識対象の各々により音声認識して得られた
    認識結果と、 前記設定工程において設定された重み
    基づいて音声認識結果を得る認識工程とを備えることを
    特徴とする音声認識方法。
  12. 【請求項12】 前記検出工程において検出された視線
    位置を所定時間にわたって保持し、視線が各視線検出範
    囲に存在した存在時間を獲得する獲得工程を更に備え、 前記設定工程は、前記獲得工程において獲得された各視
    線検出範囲における視線の存在時間に基づいて夫々に関
    連する認識対象の重みを設定することを特徴とする請求
    11に記載の音声認識方法。
  13. 【請求項13】 視線が留まっている位置と前記夫々の
    視線検出範囲との距離を獲得する獲得工程とを更に備
    え、 前記設定工程は、前記獲得工程により獲得された各視線
    検出位置との距離に基づいて夫々の視線検出範囲に関連
    する認識対象の重みを設定することを特徴とする請求項
    11に記載の音声認識方法。
  14. 【請求項14】 前記設定工程は、視線が留まっていた
    視線検出範囲より視線が外れた場合に、一定時間の間は
    その視線検出範囲に視線が存するものとして認識対象の
    重みを設定することを特徴とする請求項11に記載の音
    声認識方法。
  15. 【請求項15】 前記設定工程は、視線検出範囲より視
    線が外れた場合に、該視線検出範囲と関連づけられた認
    識対象の重みを徐々に変更することを特徴とする請求項
    11に記載の音声認識方法。
  16. 【請求項16】 各視線検出範囲への視線の出入りに際
    して、関連する認識対象の重みの変化の形態を保持する
    保持工程を更に備え、 前記設定工程は、視線検出範囲における視線の出入りが
    あった場合に、関連する認識対象の変化の形態を前記保
    持工程より獲得し、該変化の形態に基づいて当該認識対
    象の重みを設定することを特徴とする請求項11に記載
    の音声認識方法。
  17. 【請求項17】 前記認識工程における処理の実行中に
    おいて、視線の位置が変化した場合には前記設定工程を
    実行することを特徴とする請求項11に記載の音声認識
    方法。
  18. 【請求項18】 異なる認識対象が関連づけられた視線
    検出範囲に基づく範囲を表示する表示工程と、 前記表示工程において表示された表示画面上のユーザの
    視線位置を検出する検出工程と、 前記検出工程において検出された視線位置と前記表示工
    程において表示された各範囲の表示位置とに基づいて音
    声認識のための複数の認識対象の各々の重みを設定する
    設定工程と、前記複数の認識対象の各々により音声認識して得られた
    認識結果と、 前記設定工程において設定された重み
    基づいて音声認識結果を得る認識工程と、 前記認識で得られた音声認識結果と対応する認識対象に
    関連づけられたアプリケーションによる処理を、該認識
    手段で得られた音声認識結果の内容に基づいて実行する
    実行工程とを備えることを特徴とする情報処理方法。
JP22040494A 1994-09-14 1994-09-14 音声認識装置及びこれを用いた情報処理装置とそれらの方法 Expired - Fee Related JP3530591B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP22040494A JP3530591B2 (ja) 1994-09-14 1994-09-14 音声認識装置及びこれを用いた情報処理装置とそれらの方法
US08/524,949 US6076061A (en) 1994-09-14 1995-09-08 Speech recognition apparatus and method and a computer usable medium for selecting an application in accordance with the viewpoint of a user
EP95306401A EP0702355B1 (en) 1994-09-14 1995-09-13 Speech recognition method and apparatus
DE69524829T DE69524829T2 (de) 1994-09-14 1995-09-13 Verfahren und Vorrichtung zur Spracherkennung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22040494A JP3530591B2 (ja) 1994-09-14 1994-09-14 音声認識装置及びこれを用いた情報処理装置とそれらの方法

Publications (2)

Publication Number Publication Date
JPH0883093A JPH0883093A (ja) 1996-03-26
JP3530591B2 true JP3530591B2 (ja) 2004-05-24

Family

ID=16750591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22040494A Expired - Fee Related JP3530591B2 (ja) 1994-09-14 1994-09-14 音声認識装置及びこれを用いた情報処理装置とそれらの方法

Country Status (4)

Country Link
US (1) US6076061A (ja)
EP (1) EP0702355B1 (ja)
JP (1) JP3530591B2 (ja)
DE (1) DE69524829T2 (ja)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1124694A (ja) * 1997-07-04 1999-01-29 Sanyo Electric Co Ltd 命令認識装置
US6308157B1 (en) * 1999-06-08 2001-10-23 International Business Machines Corp. Method and apparatus for providing an event-based “What-Can-I-Say?” window
JP3969908B2 (ja) 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
EP1250701B1 (de) * 2000-01-27 2004-11-17 Siemens Aktiengesellschaft System und verfahren zur blickfokussierten sprachverarbeitung
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP3728172B2 (ja) 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
JP2001282278A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP4632384B2 (ja) * 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
JP3728177B2 (ja) * 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
US6795806B1 (en) 2000-09-20 2004-09-21 International Business Machines Corporation Method for enhancing dictation and command discrimination
JP3774698B2 (ja) * 2000-10-11 2006-05-17 キヤノン株式会社 情報処理装置、情報処理方法及び記憶媒体
JP3760755B2 (ja) 2000-10-11 2006-03-29 日産自動車株式会社 音声入力装置
US7010490B2 (en) * 2001-01-26 2006-03-07 International Business Machines Corporation Method, system, and apparatus for limiting available selections in a speech recognition system
EP1654728A1 (en) * 2003-08-01 2006-05-10 Philips Intellectual Property & Standards GmbH Method for driving a dialog system
US7302392B1 (en) * 2003-10-07 2007-11-27 Sprint Spectrum L.P. Voice browser with weighting of browser-level grammar to enhance usability
DE602004025616D1 (de) * 2003-12-26 2010-04-01 Kenwood Corp Einrichtungssteuereinrichtung, -verfahren und -programm
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
JP4586443B2 (ja) * 2004-07-16 2010-11-24 トヨタ自動車株式会社 情報提供装置
JP4797588B2 (ja) 2005-11-17 2011-10-19 アイシン精機株式会社 車両周辺表示装置
US8131548B2 (en) * 2006-03-06 2012-03-06 Nuance Communications, Inc. Dynamically adjusting speech grammar weights based on usage
JP4767754B2 (ja) 2006-05-18 2011-09-07 富士通株式会社 音声認識装置および音声認識プログラム
JP4257661B2 (ja) 2006-06-30 2009-04-22 アイシン・エィ・ダブリュ株式会社 ナビゲーション装置
JP2008058409A (ja) * 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置
US20090196460A1 (en) * 2008-01-17 2009-08-06 Thomas Jakobs Eye tracking system and method
JP5169403B2 (ja) * 2008-04-07 2013-03-27 ソニー株式会社 画像信号生成装置、画像信号生成方法、プログラム及び記憶媒体
US8700332B2 (en) 2008-11-10 2014-04-15 Volkswagen Ag Operating device for a motor vehicle
US9108513B2 (en) 2008-11-10 2015-08-18 Volkswagen Ag Viewing direction and acoustic command based operating device for a motor vehicle
KR101581883B1 (ko) * 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
CN102063282B (zh) * 2009-11-18 2014-08-13 上海果壳电子有限公司 汉语语音输入系统及方法
GB2485145A (en) * 2010-10-29 2012-05-09 Displaylink Uk Ltd Audio command routing method for voice-controlled applications in multi-display systems
KR101295711B1 (ko) * 2011-02-15 2013-08-16 주식회사 팬택 음성 인식으로 애플리케이션의 실행 가능한 이동통신 단말 장치 및 방법
JP5765128B2 (ja) * 2011-08-09 2015-08-19 富士通株式会社 目視対象物判定装置、目視対象物判定方法および目視対象物判定プログラム
AU2013205535B2 (en) * 2012-05-02 2018-03-15 Samsung Electronics Co., Ltd. Apparatus and method of controlling mobile terminal based on analysis of user's face
US9734839B1 (en) * 2012-06-20 2017-08-15 Amazon Technologies, Inc. Routing natural language commands to the appropriate applications
KR102206383B1 (ko) * 2012-07-09 2021-01-22 엘지전자 주식회사 음성 인식 장치 및 그 방법
WO2015125274A1 (ja) * 2014-02-21 2015-08-27 三菱電機株式会社 音声認識装置、システムおよび方法
US9881605B2 (en) 2014-02-26 2018-01-30 Mitsubishi Electric Corporation In-vehicle control apparatus and in-vehicle control method
US9583105B2 (en) * 2014-06-06 2017-02-28 Microsoft Technology Licensing, Llc Modification of visual content to facilitate improved speech recognition
US9569174B2 (en) * 2014-07-08 2017-02-14 Honeywell International Inc. Methods and systems for managing speech recognition in a multi-speech system environment
JP6432405B2 (ja) 2015-03-18 2018-12-05 富士通株式会社 プレゼンテーション支援装置、プレゼンテーション支援方法及びプレゼンテーション支援プログラム
JP6516585B2 (ja) * 2015-06-24 2019-05-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御装置、その方法及びプログラム
US10148808B2 (en) 2015-10-09 2018-12-04 Microsoft Technology Licensing, Llc Directed personal communication for speech generating devices
US10262555B2 (en) 2015-10-09 2019-04-16 Microsoft Technology Licensing, Llc Facilitating awareness and conversation throughput in an augmentative and alternative communication system
US9679497B2 (en) * 2015-10-09 2017-06-13 Microsoft Technology Licensing, Llc Proxies for speech generating devices
JP6447578B2 (ja) 2016-05-27 2019-01-09 トヨタ自動車株式会社 音声対話装置および音声対話方法
JP7064952B2 (ja) * 2018-05-17 2022-05-11 オリンパス株式会社 情報処理装置、情報処理方法およびプログラム
WO2019235135A1 (ja) * 2018-06-07 2019-12-12 ソニー株式会社 タスク対応情報の表示位置を変更する情報処理装置
WO2021085193A1 (ja) * 2019-10-30 2021-05-06 ソニー株式会社 情報処理装置、及びコマンド処理方法
JP2021145788A (ja) * 2020-03-17 2021-09-27 ソニー・オリンパスメディカルソリューションズ株式会社 制御装置および医療用観察システム

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3986030A (en) * 1975-11-03 1976-10-12 Teltscher Erwin S Eye-motion operable keyboard-accessory
US4406626A (en) * 1979-07-31 1983-09-27 Anderson Weston A Electronic teaching aid
US4595990A (en) * 1980-12-31 1986-06-17 International Business Machines Corporation Eye controlled information transfer
US4702575A (en) * 1981-05-11 1987-10-27 The United States Of America As Represented By The Secretary Of The Navy Helmet mounted eye tracker using a position sensing detector
JPS6237734A (ja) * 1985-08-12 1987-02-18 Matsushita Electric Ind Co Ltd 命令選択装置
JPS6332624A (ja) * 1986-07-28 1988-02-12 Canon Inc 情報処理装置
JPH02239292A (ja) * 1989-03-13 1990-09-21 Canon Inc 音声合成装置
JP2845926B2 (ja) * 1989-03-20 1999-01-13 株式会社日立製作所 マンマシンシステム
JPH03163623A (ja) * 1989-06-23 1991-07-15 Articulate Syst Inc 音声制御コンピュータ・インターフェース
US5220629A (en) * 1989-11-06 1993-06-15 Canon Kabushiki Kaisha Speech synthesis apparatus and method
WO1991017522A1 (en) * 1990-05-01 1991-11-14 Wang Laboratories, Inc. Hands-free hardware keyboard
EP0472356B1 (en) * 1990-08-16 1994-03-30 Fujitsu Ten Limited Speech recognition apparatus for a vehicle, using a microphone arrangement to determine the seat from which a command is generated
EP0505621A3 (en) * 1991-03-28 1993-06-02 International Business Machines Corporation Improved message recognition employing integrated speech and handwriting information
JPH04372012A (ja) * 1991-06-20 1992-12-25 Fuji Xerox Co Ltd 入力装置
JPH05143273A (ja) * 1991-11-26 1993-06-11 Matsushita Electric Ind Co Ltd データ処理装置におけるウインドウ選択装置
WO1993014454A1 (en) * 1992-01-10 1993-07-22 Foster-Miller, Inc. A sensory integrated data interface
JPH05298015A (ja) * 1992-04-23 1993-11-12 Matsushita Electric Ind Co Ltd 視線検出システムおよび情報処理システム
JPH05307432A (ja) * 1992-04-30 1993-11-19 Nippon Telegr & Teleph Corp <Ntt> 時刻タグ付加による多チャネル間同期統合装置
JPH0651901A (ja) * 1992-06-29 1994-02-25 Nri & Ncc Co Ltd 視線認識によるコミュニケーション装置
FR2696258B1 (fr) * 1992-09-25 1994-10-28 Sextant Avionique Dispositif de gestion d'un système d'interaction homme-machine.
EP0677203B1 (en) * 1992-12-31 1999-10-27 Apple Computer, Inc. A speech recognition system
JPH06205766A (ja) * 1993-01-07 1994-07-26 Toshiba Corp 医用操作器具
JP3160108B2 (ja) * 1993-02-23 2001-04-23 三菱電機株式会社 運転支援システム
EP0618565A3 (en) * 1993-04-02 1996-06-26 Ibm Speech recognition with interactive dynamic grammar restriction.
JP3727960B2 (ja) * 1994-09-14 2005-12-21 キヤノン株式会社 情報処理方法及び装置
JPH0883158A (ja) * 1994-09-14 1996-03-26 Canon Inc 情報処理方法及び装置

Also Published As

Publication number Publication date
DE69524829D1 (de) 2002-02-07
EP0702355A3 (en) 1997-05-07
US6076061A (en) 2000-06-13
EP0702355B1 (en) 2002-01-02
JPH0883093A (ja) 1996-03-26
EP0702355A2 (en) 1996-03-20
DE69524829T2 (de) 2002-06-20

Similar Documents

Publication Publication Date Title
JP3530591B2 (ja) 音声認識装置及びこれを用いた情報処理装置とそれらの方法
US5950160A (en) Method and system for displaying a variable number of alternative words during speech recognition
EP1320848B1 (en) Eye gaze for contextual speech recognition
US5899976A (en) Method and system for buffering recognized words during speech recognition
US5884258A (en) Method and system for editing phrases during continuous speech recognition
JP3476006B2 (ja) コマンド境界識別装置、方法およびプログラム記憶装置
US20180277119A1 (en) Speech dialogue device and speech dialogue method
US7363224B2 (en) Method for entering text
US20200411008A1 (en) Voice control method and device
EP0785540A2 (en) Continuous speech recognition of text and commands
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
CN110544473B (zh) 语音交互方法和装置
CN110534109B (zh) 语音识别方法、装置、电子设备及存储介质
JP3399674B2 (ja) 画面制御装置とその方法
US20100131275A1 (en) Facilitating multimodal interaction with grammar-based speech applications
CN113272893A (zh) 用于多口语检测的系统和方法
US7526735B2 (en) Aiding visual search in a list of learnable speech commands
US20170301349A1 (en) Speech recognition system
JP4056711B2 (ja) 音声認識装置
US20030101053A1 (en) Sound signal recognition system and sound signal recogniton method, and dialog control system and dialog control method using soung signal recognition system
EP0840287A2 (en) Method and system for selecting recognized words when correcting recognized speech
KR100622019B1 (ko) 음성 인터페이스 시스템 및 방법
JP3254977B2 (ja) 音声認識方法及び音声認識装置
US7307615B2 (en) Method and apparatus for voice-controlled graphical user interface pointing device
JP3006497B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040301

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080305

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090305

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100305

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100305

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110305

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120305

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140305

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees