JP3530591B2

JP3530591B2 - 音声認識装置及びこれを用いた情報処理装置とそれらの方法

Info

Publication number: JP3530591B2
Application number: JP22040494A
Authority: JP
Inventors: 勝彦川崎; 康弘小森; 恭則大洞
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1994-09-14
Filing date: 1994-09-14
Publication date: 2004-05-24
Anticipated expiration: 2019-05-24
Also published as: DE69524829D1; EP0702355A3; US6076061A; EP0702355B1; JPH0883093A; EP0702355A2; DE69524829T2

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、視線による制御を用い
た音声認識装置及びこれを用いた情報処理装置とそれら
の方法に関するものである。

【０００２】

【従来の技術】対話情報により音声認識の認識対象を制
御することにより音声認識の精度を向上する手法が提案
されている。ここで、認識対象とは、単語，文，文法や
それらの確率などの偏りを表すものである。例えば、カ
レンダーのアプリケーションにおいて、「ネン」と入力
された音声は、「念」や「燃」等ではなく、「年」に相
当する確率を高く設定することで、認識対象を制御でき
る。又、画像情報等と音声認識を組み合わせて装置の性
能を向上するという方法も提案されている。

【０００３】

【発明が解決しようとする課題】しかしながら、上述し
た音声認識手法では、ユーザの注意や興味を用いておら
ず、認識対象は、せいぜい対話状況等により制御される
程度のものであった。このため、対話状況等による制御
の精度で音声認識の精度は大きく左右されることにな
る。又、対話状況によって制御する場合は、ユーザによ
って異なる振舞い（対話状況）に対応することが困難で
あり、十分な音声認識率や認識速度を得ることができな
いという問題があった。

【０００４】本発明は、ユーザの視線の動きを検出する
ことによりユーザの注意や興味を適切に把握し、この把
握に基づいて音声認識する認識対象を制御することによ
り、音声認識率や認識速度等の性能の向上を図る音声認
識装置及び方法を提供することを目的とする。

【０００５】又、本発明の他の目的は、ユーザの視線の
動きを検出することによりユーザの注意や興味を適切に
把握し、この把握に基づいて音声認識する認識対象を制
御し、音声の認識結果に基づいてアプリケーションの実
行等を制御する情報処理装置及び方法を提供することを
目的とする。

【０００６】

【課題を解決するための手段】上記の目的を達成するた
めの本発明の音声認識装置は以下の構成を備える。即
ち、ユーザの視線位置を検出する検出手段と、前記検出
手段により検出された視線位置に基づいて音声認識のた
めの複数の認識対象の各々に重みを設定する設定手段
と、前記複数の認識対象の各々により音声認識して得ら
れた認識結果と、前記設定手段により設定された重みと
に基づいて音声認識結果を得る認識手段とを備える。

【０００７】又、上記の目的を達成する本発明の他の構
成の音声認識装置は、異なる認識対象が関連づけられた
視線検出範囲に基づく範囲を表示する表示手段と、ユー
ザの前記表示手段上の視線位置を検出する検出手段と、
前記検出手段により検出された視線位置と前記表示手段
により表示された各範囲の表示位置とに基づいて音声認
識のための複数の認識対象の各々の重みを設定する設定
手段と、前記複数の認識対象の各々により音声認識して
得られた認識結果と、前記設定手段により設定された重
みとに基づいて音声認識結果を得る認識手段とを備え
る。

【０００８】又、上記の目的を達成する本発明の情報処
理装置は、異なる認識対象が関連づけられた視線検出範
囲に基づく範囲を表示する表示手段と、ユーザの前記表
示手段上の視線位置を検出する検出手段と、前記検出手
段により検出された視線位置と前記表示手段により表示
された各範囲の表示位置とに基づいて音声認識のための
複数の認識対象の各々の重みを設定する設定手段と、前
記複数の認識対象の各々により音声認識して得られた認
識結果と、前記設定手段により設定された重みとに基づ
いて音声認識結果を得る認識手段と、前記認識手段で得
られた音声認識結果と対応する認識対象に関連づけられ
たアプリケーションによる処理を、該認識手段で得られ
た音声認識結果の内容に基づいて実行する実行手段とを
備える。

【０００９】上記の目的を達成するための本発明の音声
認識方法は以下の工程を備える。即ち、ユーザの視線位
置を検出する検出工程と、前記検出工程において検出さ
れた視線位置に基づいて音声認識のための複数の認識対
象の各々の重みを設定する設定工程と、前記複数の認識
対象の各々により音声認識して得られた認識結果と、前
記設定工程において設定された重みとに基づいて音声認
識結果を得る認識工程とを備える。

【００１０】又、上記の目的を達成する本発明の他の形
態による音声認識方法は、異なる認識対象が関連づけら
れた視線検出範囲に基づく範囲を表示する表示工程と、
ユーザの前記表示工程において表示された画面上の視線
位置を検出する検出工程と、前記検出工程において検出
された視線位置と前記表示工程において表示された各範
囲の表示位置とに基づいて音声認識のための複数の認識
対象の各々の重みを設定する設定工程と、前記複数の認
識対象の各々により音声認識して得られた認識結果と、
前記設定工程において設定された重みとに基づいて音声
認識結果を得る認識工程とを備える。

【００１１】又、上記の目的を達成する本発明の情報処
理方法は、異なる認識対象が関連づけられた視線検出範
囲に基づく範囲を表示する表示工程と、前記表示工程に
おいて表示された表示画面上のユーザの視線位置を検出
する検出工程と、前記検出工程において検出された視線
位置と前記表示工程において表示された各範囲の表示位
置とに基づいて音声認識のための複数の認識対象の各々
の重みを設定する設定工程と、前記複数の認識対象の各
々により音声認識して得られた認識結果と、前記設定工
程において設定された重みとに基づいて音声認識結果を
得る認識工程と、前記認識で得られた音声認識結果と対
応する認識対象に関連づけられたアプリケーションによ
る処理を、該認識手段で得られた音声認識結果の内容に
基づいて実行する実行工程とを備える。

【００１２】

【００１３】

【００１４】

【００１５】

【００１６】

【００１７】

【００１８】

【実施例】以下に添付の図面を参照して本発明の好適な
実施例を説明する。

【００１９】＜実施例１＞図１は本実施例による情報処
理装置の概略の構成を表すブロック図である。同図にお
いて、１０１は音声を入力するマイク１０１ａやＡ／Ｄ
変換器１０１ｂを含む音声入力部である。１０２は表示
装置であり、各種アイコンの表示や、視線の位置（範
囲）を表示する。１０３は視線検出部であり、カメラ１
０３ａ等による撮像画像に基づいて視線を検出する検出
部１０３ｂを備える。１０４は音声認識部であり、入力
された音声を選択された認識対象を用いて認識する。本
実施例では、認識対象は各種アプリケーションに対応し
た単語，文，文法やそれらの確率などの偏りを有する辞
書である。

【００２０】１０５は認識対象制御部であり、視線管理
部１０６による視線位置の認識結果に従って認識対象を
制御する（即ち、辞書を選択する）。１０６は視線管理
部であり、視線検出部１０３によって検出された視線の
動き（表示装置１０２のどの部分にどのくらい停留した
か等）を管理する。１０７はコマンド処理部であり、音
声認識によって検出されたコマンドに基づいて各種の処
理を実行する。コマンド処理部１０７には、不図示のＣ
ＰＵやＲＯＭ、ＲＡＭ等が備えられている。

【００２１】次に本実施例の情報処理装置における音声
認識処理について説明する。本実施例の音声認識処理
は、上記の１０１〜１０６で示される構成によって実現
される。図２は本実施例の音声認識処理の動作を説明す
る流れ図である。

【００２２】まず、ユーザが電源を入れて本装置を立ち
あげると、視線検出処理２０１において、視線検出部１
０３を用いてユーザの視線がどの方向を向いているのか
が検出される。次に、視線管理処理２０２によって、視
線検出処理２０１によって検出された視線が、表示画面
上およびその周辺のどの位置（範囲）に対応している
か、また、どのくらいの時間滞在しているかが視線管理
部１０６により求められる。又、求められた視線の位置
と軌跡が表示装置１０２に表示される。

【００２３】次に、認識対象制御処理２０３によって、
視線位置（範囲）やその動きと、認識対象（単語，文，
文法やそれらの確率などの偏り）との関連が、視線重み
Ｐ（）として獲得される。認識対象２０４の視線重みＰ
（）は、視線の位置や動きに応じて制御される。

【００２４】一方、ユーザが単語（または文）を発声す
ると、音声入力処理２０５により、音声入力部１０１を
介して音声がＡ／Ｄ変換されて取り込まれる。次に、音
声認識処理２０６によって、音声認識率ＰＳ（）が求め
られ、視線重みＰ（）と音声認識率ＰＳ（）との積が、
最終的な単語（または文）認識率ＰＴ（）として得られ
る。

【００２５】本実施例では、認識対象として複数の辞書
を用意し、ユーザの視線の動きに基づいて選択された辞
書の視線重みを１に、その他の辞書の視線重みをゼロと
することで、認識対象の選別を行う。尚、実施例１で
は、認識対象の重みが“１”か“０”かであるので、認
識対象が切替えられるかのように動作している。

【００２６】以上の流れについて、具体例を用いて説明
する。図３は、ユーザが電源を入れて、本装置を立ち上
げた時の初期状態である。ここで、３０１は表示装置１
０２の画面を表す。また、３０２、３０５、３０８は夫
々画面３０１上に表示された音声入力制御パネル、アプ
リケーションＡ（ここではカレンダー）、アプリケーシ
ョンＢ（ここでは電卓）のアイコンを表す。

【００２７】又、３０３、３０６、３０９は夫々のアイ
コン（３０２、３０５、３０８）の視線検出範囲を表わ
す。即ち、視線検出範囲３０３は音声入力制御パネルの
視線検出範囲を示し、この視線検出範囲３０３に視線が
停留していると、ユーザの興味が音声入力制御パネルに
むいていると判定する。同様に、視線検出範囲３０６、
３０９は夫々アプリケーションＡ、アプリケーションＢ
の視線検出範囲を表す。尚、これらの視線検出範囲は画
面３０１上には表示されない。又、３０４は音声入力制
御辞書、３０７はアプリケーションＡ（ここではカレン
ダー）の辞書、３１０はアプリケーションＢの辞書であ
る。

【００２８】３１１は現在の視線の位置を表わしてい
る。３１２は視線の軌跡であり過去の一定時間（例えば
１ｓｅｃ間）の、ユーザの画面上の視線の位置が表示さ
れる。視線の動きには停留（図において黒丸）と、飛越
運動（図において曲線）とがあり、それらが交互に繰り
返される。

【００２９】図４〜図６は各辞書の内容を表す図であ
る。図４は音声入力制御辞書３０４の内容であり、認識
単語は「開始（カイシ）」、「終了（シュウリョウ）」
である。図５はアプリケーションＡ（カレンダー）の辞
書３０７の内容であり、認識単語（または文）は、ここ
では一例として、「１９９０年（センキュウヒャクキュ
ウジュウネン）」、「１９９４年５月（センキュウヒャ
クキュウジュウヨネンゴガツ）」「終了（シュウリョ
ウ）」等である。図６はアプリケーションＢ（電卓）の
辞書３１０の内容であり、認識単語（または文）は、こ
こでは一例として、「３＋６＝（サンタスロクワ）」、
「終了（シュウリョウ）」等である。次に、図７〜図１
２を用いて、動作例を説明する。図７〜図９は実施例１
の動作例における画面の表示状態を表す図である。又、
図１０は各視線位置における視線重みの変化を表す図で
ある。更に、図１１、図１２は実施例１の動作手順を説
明するフローチャートである。以下の説明で示されたス
テップ番号は、図１１、図１２のフローチャート中に示
されたステップ番号である。

【００３０】装置を立ち上げると、視線の位置（ここで
はＸ１に視線がある）を検出し、その位置を画面上に表
示する（図７）。この時点では、音声認識制御辞書３０
４が視線重みＰ（Ｏ）＝０で、音声入力制御視線検出範
囲３０３と結び付けられており、アプリケーションＡの
辞書とアプリケーションＢの辞書は、視線検出範囲とは
結び付けられていない（図１０（１））。

【００３１】次に、ユーザが視線を音声入力制御パネル
３０２上の位置Ｘ２に移す（図７）。今、視線の停留
が、一定時間（例えば１ｓｅｃ）の間に、音声入力制御
視線検出範囲３０３に、一定回数（例えば３回）以上存
在すれば、視線管理部２０２によって、ユーザが音声入
力制御パネル３０２を選択していると判定される（ステ
ップＳ１０、ステップＳ１１）。すると、音声認識制御
辞書３０４が視線重みＰ（Ｏ）＝１で、音声入力制御の
視線検出範囲３０３と結び付けられる（図１０（２）及
びステップＳ１２）。但し、この時点におけるステップ
Ｓ１２の処理では、他のアプリケーションの辞書と視線
検出範囲はまだ接続されていないので、他の辞書につい
ては何の設定もなされない。

【００３２】そして、ユーザが音声入力制御パネル３０
２を見ながら「開始（カイシ）」と発声する（図１０
（３））と、音声入力制御視線検出範囲３０３に結び付
けられた、音声入力制御辞書３０４内の各単語の音声認
識率ＰＳ（）が次のように得られる（音声認識には公知
の手法を適用することが可能である）。

【００３３】ＰＳ（開始）＝０．７ＰＳ（終了）＝０．３と得られると、単語認識率ＰＴ（）＝Ｐ（）×ＰＳ（）
は、ＰＴ（開始）＝Ｐ（Ｏ）×ＰＳ（開始）＝１×０．７＝
０．７ＰＴ（終了）＝Ｐ（Ｏ）×ＰＳ（終了）＝１×０．３＝
０．３となる。

【００３４】ＰＴ（）が最大になる単語を認識単語とす
ると、「開始」が選択されるので、音声入力制御が実行
されることになる。その結果、アプリケーションＡの視
線検出範囲３０６とアプリケーションＡの辞書３０７と
が、視線重みＰ（Ａ）＝０で結びつけられ、アプリケー
ションＢの視線検出範囲３０９とアプリケーションＢの
辞書３１０とが、視線重みＰ（Ｂ）＝０で結びつけられ
る（図１０（４）及びステップＳ１４〜ステップＳ１
６）。

【００３５】次に、ユーザが視線をカレンダーアイコン
３０５上の位置Ｘ５に移す（図７）。視線の停留が、一
定時間（例えば１ｓｅｃ）の間に、アプリケーションＡ
の視線検出範囲３０６に、一定回数（例えば３回）以上
存在すれば、視線管理部２０２によって、ユーザがカレ
ンダー３０５を選択していると判定される（ステップＳ
１０、ステップＳ２０）。すると、アプリケーションＡ
の辞書３０７が視線重みＰ（Ａ）＝１で、アプリケーシ
ョンＡの視線検出範囲３０６と結びつけられ、図５の辞
書単語（または文）が音声認識可能になる。また、アプ
リケーションＢの辞書３１０とアプリケーションＢの視
線検出範囲３０９とが結び付く視線重みがＰ（Ｂ）＝０
となり、音声入力制御視線検出範囲３０３と音声入力制
御辞書３１０とが結び付く視線重みがＰ（Ｏ）＝０とな
る（図１０（５）及びステップＳ２１）。

【００３６】次に、アプリケーションＡの視線検出範囲
３０６を見ながら「１９９４年５月（センキュウヒャク
キュウジュウヨネンゴガツ）」と発声する（図１０
（６））。すると、アプリケーションＡの視線検出範囲
３０６に結びつけられた、アプリケーションＡの辞書３
０７内の各単語（または文）の音声認識率ＰＳ（）が次
のように得られる。即ち、ＰＳ（１９９０年１月）＝０．１ … ＰＳ（１９９４年５月）＝０．５ … ＰＳ（終了）＝０．０１となる。すると、単語認識率ＰＴ（）＝Ｐ（）×ＰＳ（）は、ＰＴ（１９９０年１月）＝Ｐ（Ａ）×ＰＳ（１９９０年
１月）＝０．１ … ＰＴ（１９９４年５月）＝Ｐ（Ａ）×ＰＳ（１９９４年
５月）＝０．５ … ＰＴ（終了）＝Ｐ（Ａ）×ＰＳ（終了）＝０．０１となる。

【００３７】ＰＴ（）が最大になる単語を認識単語とす
ると、「１９９４年５月」が選択され、実行される。す
ると、１９９４年５月のカレンダーウインドウ５０１が
開き（図８）、アプリケーションＡの辞書３０７が視線
重みＰ（Ａ）＝１でカレンダーウインドウの視線検出範
囲５０１と結びつけられる（図１０（７）及びステップ
Ｓ２２〜ステップＳ２４）。

【００３８】次に、カレンダーウインドウ５０１を見な
がら「２００１年１２月（ニセンイチネンジュウニガ
ツ）」と発声する（図１０（８））と、カレンダーウイ
ンドウ５０１がアプリケーションＡの視線検出範囲の一
部であるので、処理は再びステップＳ２０からステップ
Ｓ２４へと進む。

【００３９】ステップＳ２３において、アプリケーショ
ンＡの辞書３０７内の各単語（または文）の音声認識率
ＰＳ（）は次のように得られる。

【００４０】即ち、ＰＳ（１９９０年１月）＝０．１ … ＰＳ（２００１年１２月）＝０．５ … ＰＳ（終了）＝０．１となる。

【００４１】すると、単語認識率ＰＴ（）＝Ｐ（）×Ｐ
Ｓ（）は、ＰＴ（１９９０年１月）＝Ｐ（Ａ）×ＰＳ（１９９０年
１月）＝０．１ … ＰＴ（２００１年１２月）＝Ｐ（Ａ）×ＰＳ（２００１
年１２月）＝０．５ … ＰＴ（終了）＝Ｐ（Ａ）×ＰＳ（終了）＝０．１のようになる。

【００４２】ＰＴ（）が最大になる単語を認識単語とす
ると、「２００１年１２月」が選択され、これに従って
ステップＳ２４でコマンドが実行される。すると、カレ
ンダーウインドウの内容が、１９９４年５月のものから
２００１年１２月のものに切り替わる。次に、ユーザが
カレンダーウインドウの視線検出範囲５０１を見ながら
「終了（シュウリョウ）」と発声する（図１０（９））
と、アプリケーションＡの辞書３０７内の各単語（また
は文）の音声認識率ＰＳ（）が、ＰＳ（１９９０年１月）＝０．１ … ＰＳ（終了）＝０．６のように得られる。

【００４３】すると、単語認識率ＰＴ（）＝Ｐ（）×Ｐ
は、ＰＴ（１９９０年１月）＝Ｐ（Ａ）×ＰＳ（１９９０年
１月）＝０．１ … ＰＴ（終了）＝Ｐ（Ａ）×ＰＳ（終了）＝０．６のようになる。

【００４４】ＰＴ（）が最大になる単語を認識単語とす
ると、「終了」が選択され、カレンダーが終了して、カ
レンダーウインドウが閉じる。この時点で視線の位置が
Ｘ１０にあれば（図９）、それは音声入力制御視線検出
範囲３０３、アプリケーションＡの視線検出範囲３０
６、アプリケーションＢの視線検出範囲３０９のいずれ
の範囲にも入っていないので、状態重みＰ（Ｏ）＝Ｐ
（Ａ）＝Ｐ（Ｂ）＝０である（図１０（１０））。

【００４５】次に、ユーザが視線を電卓アイコン３０８
上の位置Ｘ１１に移す（図９）。今、視線の停留が、一
定時間（例えば１ｓｅｃ）の間に、アプリケーションＢ
の視線検出範囲３０９に、一定回数（例えば３回）以上
存在すれば、視線管理部２０２によって、ユーザが電卓
を選択していると判定される（ステップＳ１０、ステッ
プＳ３０）。すると、アプリケーションＢの辞書３１０
が視線重みＰ（Ｂ）＝１で、アプリケーションＢの視線
検出範囲３０９と結びつけられ、図６の辞書の単語（ま
たは文または式）が音声認識可能になる。また、アプリ
ケーションＡの辞書３０７とアプリケーションＡの視線
検出範囲３０６とが結び付く視線重みがＰ（Ａ）＝０と
なり、音声入力制御視線検出範囲３０３と音声入力制御
辞書３１０とが結び付く視線重みがＰ（Ｏ）＝０となる
（図１０（１１）及びステップＳ３１）。ここではＰ
（Ｂ）＝１となることによって、算術式と「終了」が音
声認識可能になる。

【００４６】次に、アプリケーションＢの視線検出範囲
３０９を見ながら「２＋３＝（ニタスサンワ）」と発声
する（図１０（１２））。すると、アプリケーションＢ
の視線検出範囲３０６に結びつけられた、アプリケーシ
ョンＢの辞書３０７で記述される算術式と「終了」の音
声認識率ＰＳ（）が、ＰＳ（１＋１＝）＝０．１ … ＰＳ（２＋３＝）＝０．５ … ＰＳ（終了）＝０．０１の様に得られる。

【００４７】すると、単語（算術式）認識率ＰＴ（）＝
Ｐ（）×ＰＳ（）は、ＰＴ（１＋１＝）＝Ｐ（Ｂ）×ＰＳ（１＋１＝）＝０．１ … ＰＴ（２＋３＝）＝Ｐ（Ｂ）×ＰＳ（２＋３＝）＝０．５ … ＰＴ（終了）＝Ｐ（Ｂ）×ＰＳ（終了）＝０．０１の様に得られる。

【００４８】ＰＴ（）が最大になる単語を認識単語（算
術式）とすると、「２＋３＝」が選択され、実行され
る。すると、電卓ウインドウ（不図示）が開き、計算結
果「５」が表示される（ステップＳ３２〜ステップＳ３
４）。電卓ウインドウには、上記のカレンダーウインド
ウと同様にアプリケーションＢの辞書３１０が結び付け
られる。次に、ユーザがアプリケーションＢの視線検出
範囲３０９或は電卓ウインドウを見ながら「終了（シュ
ウリョウ）」と発声する（図１０（１３））。

【００４９】すると、アプリケーションＢの視線検出範
囲３０６に結びつけられた、アプリケーションＢの辞書
３０７で記述される算術式と「終了」の音声認識率ＰＳ
（）が、ＰＳ（１＋１＝）＝０．１ … ＰＳ（終了）＝０．６の様に得られる。

【００５０】すると、単語（算術式）認識率ＰＴ（）＝
Ｐ（）×ＰＳ（）は、ＰＴ（１＋１＝）＝Ｐ（Ｂ）×ＰＳ（１＋１＝）＝０．１ … ＰＴ（終了）＝Ｐ（Ｂ）×ＰＳ（終了）＝０．６のようになる。

【００５１】ＰＴ（）が最大になる単語を認識単語（算
術式）とすると、「終了」が選択されて、電卓が終了し
て、電卓ウインドウが閉じる。この時点で視線の位置が
Ｘ１４（図９）にあれば、それは音声入力制御視線検出
範囲３０３、アプリケーションＡの視線検出範囲３０
６、アプリケーションＢの視線検出範囲３０９のいずれ
の範囲にも入っていないので、状態重みＰ（Ｏ）＝Ｐ
（Ａ）＝Ｐ（Ｂ）＝０である（図１０（１４）及びステ
ップＳ４０）。

【００５２】次に、ユーザが視線を音声入力制御パネル
３０２上の位置Ｘ１５に移す（図９）。今、視線の停留
が、一定時間（例えば１ｓｅｃ）の間に、音声入力視線
検出範囲３０３に、一定回数（例えば３回）以上存在す
れば、視線管理部２０２によって、ユーザが音声入力制
御パネル３０２を選択していると判定される。すると、
視線重みはそれぞれＰ（Ｏ）＝１，Ｐ（Ａ）＝０，Ｐ
（Ｂ）＝０となる（図１０（１５）及びステップＳ１
２）。

【００５３】次に、ユーザが音声入力制御パネル３０２
を見ながら「終了（シュウリョウ）」と発声する（図１
０（１６））。すると、音声入力制御視線検出範囲３０
３に結びつけられた、音声認識制御辞書３０４内の各単
語の音声認識率ＰＳ（）が、ＰＳ（開始）＝０．３ＰＳ（終了）＝０．７と得られる。

【００５４】すると、単語認識率ＰＴ（）＝Ｐ（）×Ｐ
Ｓ（）は、ＰＴ（開始）＝Ｐ（Ｏ）×ＰＳ（開始）＝１×０．３＝
０．３ＰＴ（終了）＝Ｐ（Ｏ）×ＰＳ（終了）＝１×０．７＝
０．７ＰＴ（）が最大になる単語を認識単語とすると、「終
了」が選択され、実行さのようになる。

【００５５】その結果、アプリケーションＡの視線検出
範囲３０６とアプリケーションＡの辞書３０７との辞書
３０７との結び付きが切り離されるとともに、アプリケ
ーションＢの視線検出範囲３０９とアプリケーションＢ
の辞書３１０との結び付きが切り離される（図１０（１
７）及びステップＳ１７、Ｓ１８）。

【００５６】以上に述べたように、視線の位置によっ
て、認識対象が動的に切り替わる。また、同じ「終了」
という発声でも、ユーザがカレンダーを見ている時はカ
レンダーが終了し、ユーザが電卓を見ている時には電卓
が終了する、というような制御が可能になる。

【００５７】以上説明したように実施例１によれば、表
示画面上に設けられた視線検出範囲への視線の停留に基
づいて、視線の停留した範囲に関連づけられた音声認識
用辞書への切替えが行われる。従って、視線位置によっ
て音声認識用辞書（認識対象）が適切に切替えられるの
で、音声認識率や音声認識速度が向上する。

【００５８】＜実施例２＞次に実施例２について述べ
る。実施例１では、ある視線検出範囲に所定時間以上の
停留が所定回数以上存在することをアプリケーション選
択の条件とし視線重みＰ（）を１に設定している。そし
て、非選択状態にあるアプリケーションの視線重み
Ｐ（）はゼロに設定している。実施例２では、ある一定
時間内で、視線がある範囲にどれくらい留まっていたか
によって、画面上のアイコンや制御ボタンと結びつけら
れた、認識対象の各視線重みＰ（）を制御する。

【００５９】図１３は実施例２における動作例を表す図
であり、ユーザが６０秒間画面３０１を見ていた時の視
線の状態を示している。ここでは、１分間の停留回数
が、視線検出範囲３０３に５回、視線検出範囲３０６に
３０回、視線検出範囲３０９に１５回、その他の領域に
１０回であるとする。又、図１４は実施例２の動作手順
を表すフローチャートである。

【００６０】図１３の例のように、１分間にわたる視線
の停留位置のサンプリングの結果、いずれかの視線検出
範囲における停留回数の合計が５＋３０＋１５＝５０で
あるので、各視線重みは、Ｐ（Ｏ）＝５／５０＝０．１Ｐ（Ａ）＝３０／５０＝０．６Ｐ（Ｂ）＝１５／５０＝０．３となる（ステップＳ５０、ステップＳ５１）。

【００６１】ここで、ユーザが「１９９０年５月」と発
声し、各単語（または文または算術式）の音声認識率Ｐ
Ｓ（）が、ＰＳ（１９９０年５月）＝０．３ＰＳ（１９９０＋５＝）＝０．４ＰＳ（その他）＝０．１以下と得られたとする。このとき、各単語の認識率ＰＴ（）
＝Ｐ（）×ＰＳ（）は、ＰＴ（１９９０年５月）＝Ｐ（Ａ）×ＰＳ（１９９０年
５月）＝０．６×０．３＝０．１８ＰＴ（１９９０＋５＝）＝Ｐ（Ｂ）×ＰＳ（１９９０＋
５＝）＝０．３×０．４＝０．１２ＰＴ（その他）＝ｍａｘ｛Ｐ（Ｏ），Ｐ（Ａ），Ｐ
（Ｂ）｝×ＰＳ（その他）＝０．０６以下となる。

【００６２】ここで、Ｐ（）が最大になるものを認識単
語（または文または算術式）とすると「１９９０年５
月」が選択される（ステップＳ５２、ステップＳ５
３）。更に、認識単語の存在する辞書より関連するアプ
リケーションが特定され（ステップＳ５４）、実行され
る（ステップＳ５５）。

【００６３】以上説明したように実施例２によれば、所
定時間内の視線位置をサンプリングし、そのサンプリン
グ結果に基づいて各認識対象（アプリケーションに関連
づけられた辞書）の重みづけを変化させるので、視線位
置に曖昧さが発生しても安定して辞書の重みづけが行わ
れる。従って、所望の視線検出範囲に視線を釘付けにす
る必要が無くなり、ユーザの負担が減少する。

【００６４】＜実施例３＞実施例３では、各時刻におい
て、視線が停留している位置から各制御対象までの距離
によって、画面上のアイコンや制御ボタンと結びつけら
れた、認識対象の視線重みＰ（）を制御する。

【００６５】図１５は実施例３の動作例をあわす図であ
り、ユーザの現時刻の視線の位置を示している。視線の
位置から、アプリケーションＡの視線検出範囲３０６ま
での距離をｄ（Ａ）、アプリケーションＢの視線検出範
囲３０９までの距離をｄ（Ｂ）、音声入力制御視線検出
範囲までの距離をｄ（Ｏ）とし、ｄ（Ａ）＝５ｃｍ，ｄ
（Ｂ）＝２０ｃｍ，ｄ（Ｏ）＝２５ｃｍ，であったとす
る。

【００６６】ここで、アイコンＡに結びつけられた単語
の視線重みを、Ｐ（Ａ）＝０．５×（ｄ（Ｂ）＋ｄ（Ｏ））／（ｄ
（Ａ）＋ｄ（Ｂ）＋ｄ（Ｏ））とおき、アイコンＢに結びつけられた単語の視線重み
を、Ｐ（Ｂ）＝０．５×（ｄ（Ａ）＋ｄ（Ｏ））／（ｄ
（Ａ）＋ｄ（Ｂ）＋ｄ（Ｏ））とおき、音声入力制御パネルに結びつけられた単語の視
線重みを、Ｐ（Ｏ）＝０．５×（ｄ（Ａ）＋ｄ（Ｂ））／（ｄ
（Ａ）＋ｄ（Ｂ）＋ｄ（Ｏ））とおくと、各単語の視線重みは、Ｐ（Ｏ）＝０．２５Ｐ（Ａ）＝０．４５Ｐ（Ｂ）＝０．３となる。

【００６７】ここで、ユーザが「１９９０年５月」と発
声し、各単語（または文または算術式）の音声認識率Ｐ
Ｓ（）が、ＰＳ（１９９０年５月）＝０．３ＰＳ（１９９０＋５＝）＝０．４ＰＳ（その他）＝０．１以下と得られたとする。このとき、各単語の単語認識率ＰＴ
（）＝Ｐ（）×ＰＳ（）は、ＰＴ（１９９０年５月）Ｐ（Ａ）×ＰＳ（１９９０年５
月）＝０．４５×０．３＝０．１３５ＰＴ（１９９０＋５＝）＝Ｐ（Ｂ）×ＰＳ（１９９０＋
５＝）＝０．３×０．４＝０．１２ＰＴ（その他）＝ｍａｘ｛Ｐ（Ｏ），Ｐ（Ａ），Ｐ
（Ｂ）｝×ＰＳ（その他）＝０．０４５以下となる。

【００６８】ここで、Ｐ（）が最大になるものを認識単
語（または文または算術式）とすると「１９９０年５
月」が選択される。そして、認識単語の属する辞書から
該当するアプリケーションを特定し、実行する。ここで
は、視線重みＰ（）を上記のように定義したが、距離の
増大に対して単調減少する関数（例えば、Ｐ（Ａ）＝ｅ
ｘｐ（−ｄ（Ａ））等）であれば、どのようなものでも
よい。

【００６９】尚、実施例３のフローチャートは実施例２
に類似したものとなるので、ここでは図示を省略する。

【００７０】以上のように実施例３によれば、視線位置
と視線検出範囲の距離を検出し、その距離に基づいて認
識対象（アプリケーションに関連づけられた辞書）の重
みづけを制御するので、視線位置の曖昧さが許容され
る。即ち、視線検出範囲に視線を釘付けにせずとも、そ
の近辺に視線が向いていればよいので、ユーザの負担が
軽減される。

【００７１】＜実施例４＞次に、実施例４について説明
する。ここでは、視線が停留していた位置より、視線が
外れても一定時間の間は、認識対象の視線重みを直ちに
変更せず、保持しておく場合を説明する。

【００７２】今、視線の停留位置が、アプリケーション
Ａの視線検出範囲３０６に存在する最も最後の時刻をｔ
０とすれば、この時のアプリケーションＡの辞書３０７
内の認識対象の視線重みはＰ（Ａ）＝１である。

【００７３】時刻ｔ１において、視線の停留位置が、視
線検出範囲３０６から出ていても、ｔ１−ｔ０＜Ｔ（例
えば、Ｔ＝１ｓｅｃ）ならば、視線重みは変化せずＰ
（Ａ）＝１である。更に、時刻ｔ２において、視線の停
留位置が視線検出範囲３０６から出ていて、ｔ２−ｔ０
≧Ｔならば、視線重みはＰ１（Ａ）＝０となる。

【００７４】また、視線が停留していた位置より視線が
外れた時、認識対象の視線重みを徐々に変更することも
できる。この場合には、時刻ｔにおけるアプリケーショ
ンＡの視線重みＰ（Ａ）を図１６のようにすればよい。
図１６は実施例４における視線重みの変化形態を表す図
である。この図において、Ｔ１，Ｔ２，（Ｔ２＞Ｔ１）
は適当な値（例えば、Ｔ１＝１ｓｅｃ，Ｔ２＝３ｓｅ
ｃ）である。

【００７５】以上のように実施例４によれば、視線の素
早い動きに対して緩衝作用を提供するので、使用者はよ
り視線を意識的に固定する必要が無くなり、使いごこち
のより優れた情報処理装置を提供できる。

【００７６】＜実施例５＞実施例５について述べる。実施例５では、視線によって
制御される認識対象の視線重みの感度を、各認識対象に
よって異なるようにした場合を示す。いま、アイコンＡ
に視線が入ってから視線重みが１になるまでの時間をＴ
ｉｎ（Ａ）、アイコンＡから視線が外れてから視線重み
が０になるまでの時間をＴｏｕｔ（Ａ）とする。同様
に、アイコンＢに対してもＴｉｎ（Ｂ），Ｔｏｕｔ
（Ｂ）が存在する。いま、Ｔｉｎ（Ａ）＝１ｓｅｃ，Ｔ
ｏｕｔ（Ａ）＝２ｓｅｃ，Ｔｉｎ（Ｂ）＝１ｓｅｃ，Ｔ
ｏｕｔ（Ｂ）＝１ｓｅｃとした場合の、各時刻の視線重
みの変化形態を図１７に示す。

【００７７】以上のような実施例５も実施例４と同様に
視線の動きに対する緩衝作用が提供される＜実施例６＞本発明の他の実施例について述べる。ここ
では、音声認識中において、視線の位置が変われば、変
わった視線の位置によって、認識対象の視線重みを制御
する場合について示す。図１８は実施例６の動作例を表
す図である。

【００７８】いま、ユーザがアイコンＢを見つめてお
り、視線の位置がＳ１にある。この時点での各認識対象
の視線重みは、Ｐ（Ｏ）＝０Ｐ（Ａ）＝０Ｐ（Ｂ）＝１である。ここで、「１９９４年５月」と発声し、発声終
了直前の位置がＳ２にあったとすると、各認識対象の視
線重みはＳ２における、Ｐ（Ｏ）＝０Ｐ（Ａ）＝１Ｐ（Ｂ）＝０という値が用いられる。

【００７９】本実施例６は、音声入力の後、音声認識の
処理に先立って視線位置を検出し、その視線位置に基づ
いて視線重みを算出するものである。その処理手順は当
業者には自明であるので、フローチャートによる図示は
省略する。

【００８０】＜実施例７＞尚、図７〜図９、図１３で
は、各視線検出領域の確定的な時空間で視線を検出した
が、確率等の曖昧な検出でも良い。図１９は、実施例７
における視線検出範囲と視線重みとの対応を説明する図
である。ここでは、視線重みが、Ｐ（Ａ）＝０．９，
０．５，０．１の３種類の領域を設定する。即ち、視線
重みは、アイコンに近いほど大きな値に設定されてい
る。このため、ユーザの視線位置が近いアイコンほどユ
ーザの興味が高いと判定される。従って、ユーザの興味
の高いアイコンが選択される確率が高くなる。このよう
に、視線位置に対する曖昧さが許容されるので、操作者
への負担が軽減される。尚、実施例７において、視線重
みの算出は、所定時間内に視線が停留した位置の視線重
みの平均値を用いる。そして、得られた視線重みを音声
認識確率に掛け合わせるようにする。

【００８１】尚、上記各実施例では、カメラを用いた画
像処理により視線検出を行っている例であるが、視線検
出眼鏡などの検出装置であっても一切問題はない。

【００８２】更に、上記各実施例では、簡単のため単語
とその確率で示したが、認識対象が文、文法やその確率
でも一切問題はない。

【００８３】尚、本発明は、複数の機器から構成される
システムに適用しても１つの機器からなる装置に適用し
ても良い。また、本発明はシステム或いは装置に本発明
により規定される処理を実行させるプログラムを供給す
ることによって達成される場合にも適用できることはい
うまでもない。

【００８４】

【発明の効果】以上説明したように、本発明によれば、
ユーザの注意や興味を視線により確実に検出し、この視
線に応じて音声認識する認識対象を制御することが可能
となり、音声認識率や認識速度等の性能が向上する。ま
た、上記視線による音声認識の制御において、所望の視
線範囲に視線を釘付けにする必要がなくなり、ユーザの
負担が減少する。

【００８５】

【図面の簡単な説明】

【図１】本実施例による情報処理装置の概略の構成を表
すブロック図である。

【図２】本実施例の音声認識処理の動作を説明する流れ
図である。

【図３】実施例１における動作例を表す図である。

【図４】音声入力制御辞書の内容を説明する図である。

【図５】アプリケーションＡの辞書の内容を説明する図
である。

【図６】アプリケーションＢの辞書の内容を説明する図
である。

【図７】実施例１の動作例における画面の表示状態を表
す図である。

【図８】実施例１の動作例における画面の表示状態を表
す図である。

【図９】実施例１の動作例における画面の表示状態を表
す図である。

【図１０】各視線位置における視線重みの変化を表す図
である。

【図１１】実施例１の動作手順を説明するフローチャー
トである。

【図１２】実施例１の動作手順を説明するフローチャー
トである。

【図１３】実施例２における動作例を表す図である。

【図１４】実施例２の動作手順を表すフローチャートで
ある。

【図１５】実施例３の動作例をあわす図である。

【図１６】実施例４における視線重みの変化形態を表す
図である。

【図１７】実施例５における各時刻の視線重みの変化形
態を表す図である。

【図１８】実施例６の動作例を表す図である。

【図１９】実施例７における視線検出範囲と視線重みと
の対応を説明する図である。

【符号の説明】

１０１音声入力部１０２表示装置１０３視線検出部１０４音声認識部１０５認識対象制御部１０６視線管理部１０７コマンド処理部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ１０Ｌ 15/22 Ｇ１０Ｌ 3/00 ５７１Ｈ 15/28 ５７１Ｖ (56)参考文献特開平６−51901（ＪＰ，Ａ) 特開平４−329598（ＪＰ，Ａ) 特開平６−205766（ＪＰ，Ａ) 特開平５−298015（ＪＰ，Ａ) 特開平５−307432（ＪＰ，Ａ) 特開平４−372012（ＪＰ，Ａ) 特開平６−214711（ＪＰ，Ａ) 特開昭62−37734（ＪＰ，Ａ) 特開平５−143273（ＪＰ，Ａ) 特開平８−83158（ＪＰ，Ａ) 特開平８−83157（ＪＰ，Ａ) 特許2845926（ＪＰ，Ｂ２) 特許3160108（ＪＰ，Ｂ２) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 15/28 G06F 3/033 G06F 3/16 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】ユーザの視線位置を検出する検出手段
と、前記検出手段により検出された視線位置に基づいて音声
認識のための複数の認識対象の各々に重みを設定する設
定手段と、前記複数の認識対象の各々により音声認識して得られた
認識結果と、前記設定手段により設定された重みとに基
づいて音声認識結果を得る認識手段とを備えることを特
徴とする音声認識装置。
【請求項２】異なる認識対象が関連づけられた視線検
出範囲に基づく範囲を表示する表示手段と、ユーザの前記表示手段上の視線位置を検出する検出手段
と、前記検出手段により検出された視線位置と前記表示手段
により表示された各範囲の表示位置とに基づいて音声認
識のための複数の認識対象の各々の重みを設定する設定
手段と、前記複数の認識対象の各々により音声認識して得られた
認識結果と、前記設定手段により設定された重みとに基
づいて音声認識結果を得る認識手段とを備えることを特
徴とする音声認識装置。
【請求項３】前記検出手段により検出された視線位置
を所定時間にわたって保持し、視線が各視線検出範囲に
存在した存在時間を獲得する獲得手段を更に備え、前記設定手段は、前記獲得手段により獲得された各視線
検出範囲における視線の存在時間に基づいて夫々に関連
する認識対象の重みを設定することを特徴とする請求項
２に記載の音声認識装置。
【請求項４】視線が留まっている位置と前記夫々の視
線検出範囲との距離を獲得する獲得手段とを更に備え、前記設定手段は、前記獲得手段により獲得された各視線
検出位置との距離に基づいて夫々の視線検出範囲に関連
する認識対象の重みを設定することを特徴とする請求項
２に記載の音声認識装置。
【請求項５】前記設定手段は、視線が留まっていた視
線検出範囲より視線が外れた場合に、一定時間の間はそ
の視線検出範囲に視線が存するものとして認識対象の重
みを設定することを特徴とする請求項２に記載の音声認
識装置。
【請求項６】前記設定手段は、視線検出範囲より視線
が外れた場合に、該視線検出範囲と関連づけられた認識
対象の重みを徐々に変更することを特徴とする請求項２
に記載の音声認識装置。
【請求項７】各視線検出範囲への視線の出入りに際し
て、関連する認識対象の重みの変化の形態を保持する保
持手段を更に備え、前記設定手段は、視線検出範囲における視線の出入りが
あった場合に、関連する認識対象の変化の形態を前記保
持手段より獲得し、該変化の形態に基づいて当該認識対
象の重みを設定することを特徴とする請求項２に記載の
音声認識装置。
【請求項８】前記認識手段による処理の実行中におい
て、視線の位置が変化した場合には前記設定手段が実行
されることを特徴とする請求項２に記載の音声認識装
置。
【請求項９】異なる認識対象が関連づけられた視線検
出範囲に基づく範囲を表示する表示手段と、ユーザの前記表示手段上の視線位置を検出する検出手段
と、前記検出手段により検出された視線位置と前記表示手段
により表示された各範囲の表示位置とに基づいて音声認
識のための複数の認識対象の各々の重みを設定する設定
手段と、前記複数の認識対象の各々により音声認識して得られた
認識結果と、前記設定手段により設定された重みとに基
づいて音声認識結果を得る認識手段と、前記認識手段で得られた音声認識結果と対応する認識対
象に関連づけられたアプリケーションによる処理を、該
認識手段で得られた音声認識結果の内容に基づいて実行
する実行手段とを備えることを特徴とする情報処理装
置。
【請求項１０】ユーザの視線位置を検出する検出工程
と、前記検出工程において検出された視線位置に基づいて音
声認識のための複数の認識対象の各々の重みを設定する
設定工程と、前記複数の認識対象の各々により音声認識して得られた
認識結果と、前記設定工程において設定された重みとに
基づいて音声認識結果を得る認識工程とを備えることを
特徴とする音声認識方法。
【請求項１１】異なる認識対象が関連づけられた視線
検出範囲に基づく範囲を表示する表示工程と、ユーザの前記表示工程において表示された画面上の視線
位置を検出する検出工程と、前記検出工程において検出された視線位置と前記表示工
程において表示された各範囲の表示位置とに基づいて音
声認識のための複数の認識対象の各々の重みを設定する
設定工程と、前記複数の認識対象の各々により音声認識して得られた
認識結果と、前記設定工程において設定された重みとに
基づいて音声認識結果を得る認識工程とを備えることを
特徴とする音声認識方法。
【請求項１２】前記検出工程において検出された視線
位置を所定時間にわたって保持し、視線が各視線検出範
囲に存在した存在時間を獲得する獲得工程を更に備え、前記設定工程は、前記獲得工程において獲得された各視
線検出範囲における視線の存在時間に基づいて夫々に関
連する認識対象の重みを設定することを特徴とする請求
項１１に記載の音声認識方法。
【請求項１３】視線が留まっている位置と前記夫々の
視線検出範囲との距離を獲得する獲得工程とを更に備
え、前記設定工程は、前記獲得工程により獲得された各視線
検出位置との距離に基づいて夫々の視線検出範囲に関連
する認識対象の重みを設定することを特徴とする請求項
１１に記載の音声認識方法。
【請求項１４】前記設定工程は、視線が留まっていた
視線検出範囲より視線が外れた場合に、一定時間の間は
その視線検出範囲に視線が存するものとして認識対象の
重みを設定することを特徴とする請求項１１に記載の音
声認識方法。
【請求項１５】前記設定工程は、視線検出範囲より視
線が外れた場合に、該視線検出範囲と関連づけられた認
識対象の重みを徐々に変更することを特徴とする請求項
１１に記載の音声認識方法。
【請求項１６】各視線検出範囲への視線の出入りに際
して、関連する認識対象の重みの変化の形態を保持する
保持工程を更に備え、前記設定工程は、視線検出範囲における視線の出入りが
あった場合に、関連する認識対象の変化の形態を前記保
持工程より獲得し、該変化の形態に基づいて当該認識対
象の重みを設定することを特徴とする請求項１１に記載
の音声認識方法。
【請求項１７】前記認識工程における処理の実行中に
おいて、視線の位置が変化した場合には前記設定工程を
実行することを特徴とする請求項１１に記載の音声認識
方法。
【請求項１８】異なる認識対象が関連づけられた視線
検出範囲に基づく範囲を表示する表示工程と、前記表示工程において表示された表示画面上のユーザの
視線位置を検出する検出工程と、前記検出工程において検出された視線位置と前記表示工
程において表示された各範囲の表示位置とに基づいて音
声認識のための複数の認識対象の各々の重みを設定する
設定工程と、前記複数の認識対象の各々により音声認識して得られた
認識結果と、前記設定工程において設定された重みとに
基づいて音声認識結果を得る認識工程と、前記認識で得られた音声認識結果と対応する認識対象に
関連づけられたアプリケーションによる処理を、該認識
手段で得られた音声認識結果の内容に基づいて実行する
実行工程とを備えることを特徴とする情報処理方法。