JP5473520B2

JP5473520B2 - 入力装置及びその制御方法

Info

Publication number: JP5473520B2
Application number: JP2009232406A
Authority: JP
Inventors: 一弘松林
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-10-06
Filing date: 2009-10-06
Publication date: 2014-04-16
Anticipated expiration: 2029-10-06
Also published as: JP2011081541A

Description

本発明は、ユーザの発する音及びユーザの動きのうち少なくともいずれかを認識して電子機器に対する操作コマンドへ変換する入力装置及び入力装置の制御方法に関する。

近年、ユーザの声やジェスチャ（例えば、手の形や動き）などを認識して電子機器に対する操作コマンドへ変換する技術が提案されている（例えば、特許文献１、非特許文献１参照）。このような技術を用いれば、リモコン、キーボード、タッチパネルなどを用いずに、電子機器を操作することが可能となる。
しかしながら、マイクロホンから入力される音声からユーザの声を認識して操作コマンドへ変換する場合、該入力される音声には、ユーザの声の他に、周囲の雑音（周りの人の声、自動車や電車の騒音、テレビ受信機の出力音声など）も含まれる虞がある。入力される音声にそのような雑音が含まれると、認識（音声認識）に失敗する可能性が高くなる。
また、デジタルカメラから入力される映像からジェスチャを認識して操作コマンドへ変換する場合、周囲の明るさが認識（ジェスチャ認識）に影響してしまう。例えば、暗い場所ではジェスチャ自体を認識することが困難となる。また、暗い場所でジェスチャを認識可能とするために、デジタルカメラの感度を上げると、撮影された映像中のノイズが増すため、認識に失敗する可能性が高くなる。

そのような問題に鑑みた従来技術として、例えば、特許文献２，３がある。
具体的には、特許文献２には、周囲の雑音を含む音声から音声認識が可能か否かを判定し、判定結果を文字列で表示する技術が開示されている。
特許文献３には、複数の特徴量（音声と唇の動きの特徴量）を、それぞれの信頼度（高いか低いか）に応じた重みで合成し、合成された特徴量を用いて認識処理を行う技術が開示されている。

特開昭６３−２０９２９６号公報特開平１１−３５２９９５号公報特開２００６−３０４４７号公報

入江耕太、若村直弘、梅田和昇「ジェスチャ認識を用いたインテリジェントルームの構築 ‐手のジェスチャによる家電製品の操作‐」第２１回日本ロボット学会学術講演会（２００３年９月２０日〜２２日）２Ｊ１５

ユーザがテレビを視聴していてリモコンが手元にない場合、音声認識に成功する可能性が高ければ音声で操作コマンドを入力する方が早いが、音声認識に成功する可能性が低ければリモコンを取りに行った方が早い。即ち、ユーザは、操作コマンドの入力を音声で行う手間と、リモコンを取りに行く手間とを比較して、操作手段を選択する。ジェスチャ認識についても同様であり、ユーザは、操作コマンドの入力をジェスチャで行う手間と、リモコンを取りに行く手間とを比較して、操作手段を選択する。
しかしながら、上記特許文献２，３に開示の技術では、音声認識やジェスチャ認識などに成功する可能性（操作コマンドの認識に成功する可能性）がユーザに通知されないため
、ユーザは上述したような比較をすることができない。

そこで、本発明は、ユーザに対し操作コマンドの認識に成功する可能性を知らせることのできる入力装置及び入力装置の制御方法を提供することを目的とする。

本発明の入力装置は、電子機器に接続又は内蔵される入力装置であって、ユーザの発する音及びユーザの動きのうち少なくともいずれかを認識して前記電子機器に対する操作コマンドへ変換し、消費電力の異なる複数の動作モードを有し、動作モードごとに操作コマンドの認識率が異なる入力装置において、操作コマンドの認識率に影響を与える、前記入力装置の現在の外部環境に関する情報を取得する第１の取得手段と、外部環境と操作コマンドの認識率との対応関係に関する情報と、動作モードと操作コマンドの認識率との対応関係に関する情報と、を記憶している記憶手段と、前記第１の取得手段により取得された情報と、前記記憶手段に記憶されている情報と、現在の動作モードと、に基づいて、現在の外部環境における操作コマンドの認識率を取得する第２の取得手段と、前記第２の取得手段で取得された認識率に関する情報を表示部に表示する表示手段と、を有する。
また、本発明の入力装置は、電子機器に接続又は内蔵される入力装置であって、ユーザの発する音及びユーザの動きのうち少なくともいずれかを認識して前記電子機器に対する操作コマンドへ変換する入力装置において、操作コマンドの認識率に影響を与える、前記入力装置の現在の外部環境に関する情報を取得する第１の取得手段と、ユーザの位置を判定する判定手段と、外部環境と操作コマンドの認識率との対応関係に関する情報と、ユーザの位置と操作コマンドの認識率との対応関係に関する情報と、を記憶している記憶手段と、前記第１の取得手段により取得された情報と、前記記憶手段に記憶されている情報と、前記判定手段により判定された現在のユーザの位置と、に基づいて、現在の外部環境における操作コマンドの認識率を取得する第２の取得手段と、前記第２の取得手段で取得された認識率に関する情報を表示部に表示する表示手段と、を有する。
また、本発明の入力装置は、電子機器に接続又は内蔵される入力装置であって、ユーザの発する音及びユーザの動きのうち少なくともいずれかを認識して前記電子機器に対する操作コマンドへ変換し、消費電力の異なる複数の動作モードを有し、動作モードごとに操作コマンドの認識率が異なる入力装置において、操作コマンドの認識率に影響を与える、前記入力装置の現在の外部環境に関する情報を取得する第１の取得手段と、ユーザの位置を判定する判定手段と、外部環境と操作コマンドの認識率との対応関係に関する情報と、動作モードと操作コマンドの認識率との対応関係に関する情報と、ユーザの位置と操作コマンドの認識率との対応関係に関する情報と、を記憶している記憶手段と、前記第１の取得手段により取得された情報と、前記記憶手段に記憶されている情報と、現在の動作モードと、前記判定手段により判定された現在のユーザの位置と、に基づいて、現在の外部環境における操作コマンドの認識率を取得する第２の取得手段と、前記第２の取得手段で取得された認識率に関する情報を表示部に表示する表示手段と、を有する。

本発明の入力装置の制御方法は、電子機器に接続又は内蔵される入力装置であって、ユーザの発する音及びユーザの動きのうち少なくともいずれかを認識して前記電子機器に対する操作コマンドへ変換し、消費電力の異なる複数の動作モードを有し、動作モードごとに操作コマンドの認識率が異なる入力装置の制御方法において、操作コマンドの認識率に影響を与える、前記入力装置の現在の外部環境に関する情報を取得する第１の取得ステップと、外部環境と操作コマンドの認識率との対応関係に関する情報と、動作モードと操作
コマンドの認識率との対応関係に関する情報と、を記憶している記憶手段に記憶されている情報と、前記第１の取得ステップで取得された情報と、現在の動作モードと、に基づいて、現在の外部環境における操作コマンドの認識率を取得する第２の取得ステップと、前記第２の取得ステップで取得された認識率に関する情報を表示部に表示する表示ステップと、を有する。
また、本発明の入力装置の制御方法は、電子機器に接続又は内蔵される入力装置であって、ユーザの発する音及びユーザの動きのうち少なくともいずれかを認識して前記電子機器に対する操作コマンドへ変換する入力装置の制御方法において、操作コマンドの認識率に影響を与える、前記入力装置の現在の外部環境に関する情報を取得する第１の取得ステップと、ユーザの位置を判定する判定ステップと、外部環境と操作コマンドの認識率との対応関係に関する情報と、ユーザの位置と操作コマンドの認識率との対応関係に関する情報と、を記憶している記憶手段に記憶されている情報と、前記第１の取得ステップで取得された情報と、前記判定ステップで判定された現在のユーザの位置と、に基づいて、現在の外部環境における操作コマンドの認識率を取得する第２の取得ステップと、前記第２の取得ステップで取得された認識率に関する情報を表示部に表示する表示ステップと、を有する。
また、本発明の入力装置の制御方法は、電子機器に接続又は内蔵される入力装置であって、ユーザの発する音及びユーザの動きのうち少なくともいずれかを認識して前記電子機器に対する操作コマンドへ変換し、消費電力の異なる複数の動作モードを有し、動作モードごとに操作コマンドの認識率が異なる入力装置の制御方法において、操作コマンドの認識率に影響を与える、前記入力装置の現在の外部環境に関する情報を取得する第１の取得ステップと、ユーザの位置を判定する判定ステップと、外部環境と操作コマンドの認識率との対応関係に関する情報と、動作モードと操作コマンドの認識率との対応関係に関する情報と、ユーザの位置と操作コマンドの認識率との対応関係に関する情報と、を記憶している記憶手段に記憶されている情報と、前記第１の取得ステップで取得された情報と、現在の動作モードと、前記判定ステップで判定された現在のユーザの位置と、に基づいて、現在の外部環境における操作コマンドの認識率を取得する第２の取得ステップと、前記第２の取得ステップで取得された認識率に関する情報を表示部に表示する表示ステップと、を有する。

本発明によれば、ユーザに対し操作コマンドの認識に成功する可能性を知らせることのできる入力装置及び入力装置の制御方法を提供することができる。

本実施例に係るテレビ受信機の外観の一例を示す図。実施例１に係る入力装置の機能構成の一例を示す図。実施例１に係る入力装置の処理の流れの一例を示す図。実施例１の認識履歴記憶部に記憶されている情報の一例を示す図。認識成功率の表示方法の一例を示す図。認識成功率の表示方法の一例を示す図。実施例２に係る入力装置の機能構成の一例を示す図。実施例２の認識履歴記憶部に記憶されている情報の一例を示す図。認識成功率の表示方法の一例を示す図。

＜実施例１＞
以下、本発明の実施例１に係る入力装置及びその制御方法について説明する。本発明に係る入力装置は電子機器に接続又は内蔵されるものであり、本実施例では、入力装置を内蔵するテレビ受信機１について説明する（図１）。ユーザは、テレビ受信機１で、例えば、テレビ放送のコンテンツ、ビデオレコーダ、インターネットなどから取得されるコンテンツなどを視聴できる。メインディスプレイ２は、コンテンツの映像を表示し、スピーカ３は、コンテンツの音声を出力する。

また、ユーザは、ユーザの発する音やユーザの動きによって、テレビ受信機１を操作できる（詳細は後述する）。
人感センサ６は、人が現れたり去ったりしたことを検出する。人感センサ６は、例えば、赤外線センサによって構成される。これによって、テレビ受信機１の各デバイスの通電を必要に応じて制御することができ、消費電力を削減することができる。例えば、人（ユーザ）が去ったとき（即ち、ユーザがテレビ受信機１の周囲にいないとき）に各デバイスへの通電を絶つことにより、消費電力を削減することができる。
サブディスプレイ７は、テレビ受信機１に関する情報を必要に応じて表示する。上記情報は、メインディスプレイ２に表示しても構わないが、サブディスプレイ７に表示することでコンテンツの視聴の邪魔にならずに情報を表示することができる。また、電源スタンバイモード（メインディスプレイ２が通電されていない状態）において、サブディスプレイ７に情報を表示することができる。

図２は、本実施例に係る入力装置の機能構成を示すブロック図である。本実施例に係る入力装置は、ユーザの発する音及びユーザの動きのうち少なくともいずれかを認識して電子機器に対する操作コマンドに変換する。本実施例では、ユーザの発する音及びユーザの動きを認識して電子機器に対する操作コマンドに変換する。具体的には、ユーザの発する音としてユーザの声を認識し、ユーザの動きとしてジェスチャ（例えば、ユーザの手の形や動きなど）を認識する。

音声入力部１１は、マイクロホン４から入力される音声をデジタル信号（デジタル音声信号）として音声認識部１２へ出力する。
映像入力部１３は、カメラ５（撮像装置）から入力される映像をデジタル信号（デジタル映像信号）としてジェスチャ認識部１４へ出力する。

音声認識部１２は、マイクロホン４から入力される音声からユーザの声を認識して操作コマンドに変換する（第１の認識処理；音声認識）。具体的には、音声認識部１２は、デジタル音声信号から抽出した特徴データを所定の操作コマンドの特徴データとパターンマッチングすることで、入力される音声からユーザの声を認識して操作コマンドに変換する。例えば、「電源オフ」という声は、電子機器の電源をオフするための操作コマンドに変換される。また、「電源オン」という声は、電子機器の電源をオンするための操作コマンドに変換される。「音量アップ」、「音量ダウン」という声は、それぞれ、電子機器の音量をアップするための操作コマンド、電子機器の音量をダウンするための操作コマンドに変換される。「チャンネルアップ」、「チャンネルダウン」という声は、それぞれ、視聴するチャンネルをアップするための操作コマンド、視聴するチャンネルをダウンするための操作コマンドに変換される。

ジェスチャ認識部１４は、カメラ５から入力される映像からジェスチャを認識して操作コマンドに変換する（第２の認識処理；ジェスチャ認識）。具体的には、ジェスチャ認識部１４は、デジタル映像信号から抽出した特徴データを所定の操作コマンドの特徴データとパターンマッチングすることで、入力される映像からジェスチャを認識して操作コマンドに変換する。例えば、手を「ぐう」の形にするジェスチャは、電子機器の電源をオフするための操作コマンドに変換される。また、手を「ちょき」の形にするジェスチャは、電子機器の電源をオンするための操作コマンドに変換される。手を「上向き指差し」、「下向き指差し」の形にするジェスチャは、それぞれ、電子機器の音量をアップするための操作コマンド、電子機器の音量をダウンするための操作コマンドに変換される。手を「右向き指差し」、「左向き指差し」の形にするジェスチャは、それぞれ、視聴するチャンネルをアップするための操作コマンド、視聴するチャンネルをダウンするための操作コマンドに変換される。

ユーザの声（ユーザの発する音）を認識する構成においては、例えば、日常の会話の中で操作コマンドに対応する声（言葉）と同じ（または類似する）言葉が発せられた場合に
、その言葉が操作コマンドに誤変換されてしまう虞がある。ユーザの動きを認識する場合においても同様であり、日常の動きの中で操作コマンドに対応する動きと同じ（または類似する）動きが行われた場合に、その動きが操作コマンドに誤変換されてしまう虞がある。これを防ぐためには、入力装置が、自身の状態を、操作コマンド受け付け可能状態か操作コマンド受け付け不可能状態に切り換える機能（制御手段）を有していればよい。本実施例では、ユーザが開始操作を行うことで、後述の操作コマンド実行部１５が、入力装置の状態を操作コマンド受け付け可能状態に切り換えるものとする。そして、ユーザの声やジェスチャは、入力装置の状態が操作コマンド受け付け可能状態のときにのみ操作コマンドへ変換される。開始操作は、例えば、「テレビ操作」などの声、「テレビに向かって指差し」などのジェスチャなどである。
なお、開始操作と操作コマンドの入力とは、同じ操作手段によって行われてもよいし、互いに異なる操作手段によって行われてもよい。例えば、開始操作と操作コマンドの入力の両方を音声認識で行ってもよいし、それら両方をジェスチャ認識で行ってもよい。開始操作と操作コマンドの入力の一方を音声認識で行い、他方をジェスチャ認識で行ってもよい。また、開始操作や操作コマンドの入力はリモコンを用いて行われてもよい。

操作コマンド実行部１５は、認識された操作コマンドを実行することにより、テレビ受信機１を制御する。
認識結果表示部１６は、サブディスプレイ７に認識された操作コマンドを表す文字列やアイコンを表示する。
ユーザは、操作コマンドの実行結果（操作コマンド実行後のテレビ受信機１の状態）や、サブディスプレイ７に表示された情報（認識された操作コマンドを表す文字列やアイコン）により、所望の操作コマンドが正しく実行されたか否かを判断することができる。所望の操作コマンドと異なる操作コマンドが実行されてしまった場合には、ユーザは、取消操作（例えば、「取り消し」などの音声、「手を横に振る」などのジェスチャなど）によって、テレビ受信機１の状態を操作コマンド実行前の状態に戻すことができる。

動作モード切換部１７は、入力装置の動作モード（本実施例ではテレビ受信機１の動作モード）を、消費電力の異なる複数の動作モード（通常動作モード、省電力動作モード、電源スタンバイモード）のいずれかの動作モードに切り換える。動作モードは、ユーザ操作によって明示的に切り換えられてもよい。また、人感センサ６の検出結果、経過時間（例えば、所定の操作が行われた時点からの経過時間や所望の動作モードが選択された時点からの経過時間）、及び、時刻などに応じて自動的に切り換えられてもよい。
省電力動作モードでは、一部のセンサ（マイクロホン４やカメラ５）や回路が、低電圧や低動作クロックで動作する。それにより、通常動作モード時に比べ、センサの感度が低くなる（センサで生成される信号のレベルが小さくなったり、信号のサンプリング数が少なくなったりする）。そのため、操作コマンドの認識成功率（音声認識やジェスチャ認識に成功する可能性）が通常動作モード時よりも低くなる。
電源スタンバイモード（映像や音声を出力せず、電源オン操作を待っている状態）では、電源オン操作のみを受け付ける程度に消費電力が抑えられているため、操作コマンドの認識成功率が省電力動作モード時よりも低くなる。
即ち、上記複数の動作モードは、動作モードごとに操作コマンドの認識成功率が異なる。なお、動作モードの種類は３種類より少なくてもよいし、多くてもよい。

外部環境取得部１８は、操作コマンドの認識成功率に影響を与える、入力装置の外部環境に関する情報を取得する。音声認識の認識成功率に影響を与える外部環境は、例えば、マイクロホン４から入力される音声の音量などである。ジェスチャ認識の認識成功率に影響を与える外部環境は、例えば、カメラ５で取得される映像の明るさなどである。
認識履歴記憶部１９は、外部環境と動作モードの組み合わせごとに、操作コマンドの認識成功率を表す情報を記憶する。本実施例では、操作コマンドの認識成功率を表す情報と
して、操作コマンドの認識の成功及び失敗の履歴（認識成功数および認識失敗数）を記憶する。具体的には、図４に示すように、操作手段（音声認識、ジェスチャ認識）、動作モード、外部環境の組み合わせ毎に、認識成功数と認識失敗数を記憶する。認識成功数は、ユーザの声やジェスチャが正しく認識された回数であり、認識失敗数は、ユーザの声やジェスチャが正しく認識されなかった回数である。
また、本実施例では、操作コマンド実行部１５が、操作コマンドの認識の成功及び失敗の履歴を、操作コマンドの認識成功率を表す情報として、外部環境と動作モードの組み合わせ毎に、認識履歴記憶部１９に記録する機能（履歴記録手段）を有する。具体的には、操作コマンド実行部１５は、認識成功数と認識失敗数を変更する。

認識成功率取得部２０は、外部環境取得部１８で取得された情報（外部環境に関する情報）、動作モードの情報、及び、認識履歴記憶部１９に記憶された情報に基づいて、現在の外部環境と動作モードの組み合わせにおける操作コマンドの認識成功率を取得する。本実施例では、認識成功率取得部２０は、認識履歴記憶部１９に記録された認識の成功及び失敗の履歴から操作コマンドの認識成功率を算出（取得）する。具体的には、現在の外部環境と動作モードの組み合わせにおける、認識成功数／（認識成功数＋認識失敗数）の値が操作コマンドの認識成功率として算出される。
ユーザの声やジェスチャを認識すればするほど、上記式の母数が増え、操作コマンドの認識成功率は或る値に収束する。しかし、母数が小さいうちは、操作コマンドの認識成功率は安定した値とならないため、工場出荷時の初期値として、複数のテストユーザの使用履歴に基づく値を認識履歴記憶部１９に予め記憶しておくとよい。
認識成功率レベル表示部２１は、認識成功率取得部２０で取得された操作コマンドの認識成功率を表示部（サブディスプレイ７）に表示する。
本実施例では、第１の認識処理（音声認識）と第２の認識処理（ジェスチャ認識）のそれぞれについて、個別に、認識成功率を取得し、表示部に表示する。

以下、本実施例に係る入力装置の処理の流れについて、図３のフローチャートを用いて説明する。なお、以下の処理は操作手段（音声認識、ジェスチャ認識）毎に独立して行われる。
まず、認識成功率取得部２０が、現在の外部環境に関する情報及び動作モードの情報を取得する（ステップＳ１０１）。本実施例では、動作モード切換部１７から現在の動作モードの情報を取得するとともに、外部環境取得部１８から現在の外部環境に関する情報を取得する。具体的には、動作モードの情報として、通常動作モード、省電力動作モード、電源スタンバイモードのいずれかを表す識別子を取得する。外部環境に関する情報として、マイクロホン４から入力された音声の音量や、カメラ５から入力された映像の明るさに応じた値を取得する。ただし、音量や明るさはリアルタイムに刻々と変化するため、外部環境に関する情報として、ある程度の期間（数秒間〜数分間）における音量や明るさの積分値や平均値を用いるのが好ましい。そして、外部環境に関する情報は、その値に応じて、数段階の値（例えば、図４に示すように、良、中、悪の３段階）に分類される。なお、外部環境に関する情報は２段階の値であってもよいし、４段階以上の値であってもよい。

次に、認識成功率取得部２０が、現在の外部環境及び動作モードにおける操作コマンドの認識成功率を算出する（ステップＳ１０２）。
そして、認識成功率レベル表示部２１が、ステップＳ１０２で算出された操作コマンドの認識成功率をサブディスプレイ７に表示する（ステップＳ１０３）。操作コマンドの認識成功率は、例えば、図１に示すように、レベルメータで表示（レベル表示）される。
ステップＳ１０４においてユーザの発声やジェスチャが行われたと判断されるまで、ステップＳ１０１〜Ｓ１０３の処理が繰り返される。なお、動作モードや外部環境が変化すると、ステップＳ１０２で算出される操作コマンドの認識成功率は変化し、ステップＳ１０３で表示されるレベルメータも変化する。
例えば、音声入力部１１は、人間の話し声の周波数帯域の音声が所定値以上の音量で所定時間以上入力されたときに、発声が行われたと判断する。映像入力部１３は、入力された映像から人物を抽出し、抽出された人物から手を検出する。そして、さらに手が動いたことが検出されたときに、ジェスチャが行われたと判断する。

ステップＳ１０４においてユーザの発声やジェスチャが行われたと判断された場合に、ステップＳ１０５へ進む。ステップＳ１０５では、音声認識部１２やジェスチャ認識部１４が、認識処理を行う。具体的には、ステップＳ１０４においてユーザの発声が行われたと判断された場合に、音声認識部１２が認識処理（音声認識）を行い、ジェスチャが行われたと判断された場合に、ジェスチャ認識部１４が認識処理（ジェスチャ認識）を行う。
次に、音声認識部１２やジェスチャ認識部１４が、入力装置の状態が操作コマンド受け付け可能状態か否かを判定する（ステップＳ１０６）。操作コマンド受け付け可能状態でない場合には（ステップＳ１０６：ＮＯ）、ステップＳ１０７へ進み、操作コマンド受け付け可能状態である場合には（ステップＳ１０６：ＹＥＳ）、ステップＳ１０９へ進む。

ステップＳ１０７では、音声認識部１２やジェスチャ認識部１４が、ステップＳ１０５での認識結果が開始操作を示すものか否か判定する。
開始操作を示すものであると判定された場合には（ステップＳ１０７：ＹＥＳ）、ステップＳ１０８へ進む。ステップＳ１０８では、操作コマンド実行部１５が、入力装置の状態を操作コマンド受け付け可能状態に切り換える。操作コマンド受け付け可能状態においては、サブディスプレイ７に該状態であることを示す文字列やアイコンが表示される。
開始操作を示すものでないと判定された場合には（ステップＳ１０７：ＮＯ）、ユーザの行った発声やジェスチャが日常の会話や動きの中で行われたものであるとみなし、何も行わず、ステップＳ１０１へ戻る。
なお、本実施例では、操作コマンド受け付け可能状態において、ユーザの発声や動きが行われない時間や操作コマンドの入力、開始操作、取消操作が行われない時間が所定時間以上になった場合には、操作コマンド受け付け可能状態は解除される。

ステップＳ１０９，Ｓ１１０では、音声認識部１２やジェスチャ認識部１４が、ステップＳ１０５での認識結果が操作コマンドや取消操作を示すものか否かを判定する。
認識結果が操作コマンドを示すものであると判定された場合には（ステップＳ１１０：ＹＥＳ）、操作コマンド実行部１５が該操作コマンドを実行する（ステップＳ１１１）。また、認識結果表示部１６が、サブディスプレイ７に該操作コマンドを表す文字列やアイコンを表示する。
そして、操作コマンド実行部１５が、操作コマンドを入力するために利用された操作手段と、現在の外部環境及び動作モードとの組み合わせに対応する認識成功数を１カウントアップし（ステップＳ１１２）、ステップＳ１０１へ戻る。

認識結果が操作コマンドや取消操作を示すものでないと判定された場合には（ステップＳ１１０：ＮＯ）、ステップＳ１１３へ進む。ステップＳ１１３では、操作コマンド実行部１５が、利用された操作手段、現在の外部環境、及び、現在の動作モードの組み合わせに対応する認識失敗数を１カウントアップし、ステップＳ１０１へ戻る。このような構成にするのは、入力装置の状態が操作コマンド受け付け可能状態である場合に、ユーザの動きや発声はコマンド操作または取消操作を示すものである可能性が高く、そのように認識されないことは、認識に失敗した可能性が高いからである。

認識結果が取消操作を示すものであると判定された場合には（ステップＳ１０９：ＹＥＳ）、操作コマンド実行部１５が、直前に操作コマンドが実行されたか否かを判定する（ステップＳ１１４）。
直前に操作コマンドが実行されていない場合には（ステップＳ１１４：ＮＯ）、ステッ
プＳ１０１へ戻る。なお、この場合には、認識結果が取消操作と誤認識されたものである可能性が高いため、認識失敗数を１カウントアップしてもよい。
直前に操作コマンドが実行されていた場合には（ステップＳ１１４：ＹＥＳ）、操作コマンド実行部１５が、該直前の操作コマンドの実行を取り消す（ステップＳ１１５）。

そして、取り消された操作コマンドを入力するために利用された操作手段と、該操作コマンドの実行時の外部環境及び動作モードとの組み合わせに対応する認識成功数を１カウントダウンする（ステップＳ１１６）。即ち、取り消された操作コマンドの実行時に行ったカウントアップを取り消す。
次に、取り消された操作コマンドを入力するために利用された操作手段と、該操作コマンドの実行時の外部環境及び動作モードとの組み合わせに対応する認識失敗数を１カウントアップし（ステップＳ１１７）、ステップＳ１０１へ戻る。このような構成にするのは、取り消された操作コマンドは誤認識された操作コマンドである可能性が高いからである。
なお、取り消された操作コマンドを入力するために利用された操作手段と取消操作のために利用された操作手段は同じであってもよいし異なっていてもよい。例えば、直前の音声認識による操作コマンドを取り消すための取消操作は、音声認識、ジェスチャ認識、リモコン操作など、どの操作手段による操作であってもよい。認識処理の必要がない操作手段（例えばリモコン操作など）で取消操作を行う場合には、図３の処理は実行されないが、ステップＳ１１５〜Ｓ１１７の処理は同様に実行される。

以上の処理を繰り返すことにより、操作手段ごとに、現在の外部環境と動作モードの組み合わせにおける操作コマンドの認識成功率がレベルメータで表示される。それにより、ユーザは、各操作手段（音声認識、ジェスチャ認識）の認識成功率を把握することができ、各操作手段による電子機器の操作の手間を比較することが可能となる。

なお、本実施例では、操作コマンドの認識成功率を算出する構成としたが、操作コマンドの認識成功率は認識履歴記憶部１９に予め記憶された固定値であってもよい。それにより、より簡易な構成で上記効果を得ることができる。
また、本実施例では外部環境の他に動作モードをさらに考慮したが、外部環境のみを考慮してもよい。外部環境のみを考慮しても上記効果を得ることができる。

なお、本実施例では認識成功率をレベルメータで表示するものとしたが、認識成功率はどのように表示してもよい。例えば、図５（Ａ）のように数字で表示したり、図５（Ｂ）のようにアイコンの図柄（例えば、◎、○、△、×）で表示してもよい。また、ランプなどの色（例えば、青、緑、黄、橙、赤、非点灯）で表示してもよい。具体的には、図６（Ａ）のように、音声認識（第１の認識処理）の認識成功率をランプ８の色、ジェスチャ認識（第２の認識処理）の認識成功率をランプ９の色で表示してもよい。
また、音声認識の認識成功率をマイクロホン４に近接する位置に表示し、ジェスチャ認識の認識成功率をカメラ５に近接する位置に表示してもよい。具体的には、図６（Ｂ）に示すように、マイクロホン４付近にランプ８を配置し、カメラ５付近にランプ９を配置してもよい。それにより、操作手段と認識成功率との対応を文字などで表示しなくてもユーザに直感的に理解させやすくすることができる。

なお、本実施例では認識成功率が常に表示される構成としたが、認識成功率レベル表示部２１は、入力装置の状態が操作コマンド受け付け可能状態であるときのみ認識成功率を表示してもよい。それにより、ユーザは、操作コマンドの入力を行うとき以外に、コンテンツの視聴に集中することができる。
また、人感センサ６によって、人が現れたり去ったりしたことを検出して、適宜サブディスプレイ７やランプ８、ランプ９の点灯と消灯を切り換えるようにしてもよい。

なお、本実施例では、入力装置を内蔵するテレビ受信機１について説明したが、入力装置は、パーソナルコンピュータ、ハードディスクレコーダ、エアコン、冷蔵庫など、いかなる電子機器に接続または内蔵されてもよい。
なお、本実施例では、ユーザの声及びジェスチャを認識するものとしたが、いずれか一方を認識する構成であってもよいし、他の音や動き（ユーザの発する音やユーザの動き）を認識する構成であってもよい。例えば、ユーザの手叩きの音や、眼、口などの各器官の動きを検出してもよい。
なお、図３のステップＳ１１５で取り消される操作コマンドがリモコン操作によるものである可能性があるため、取り消される操作コマンドが音声認識やジェスチャ認識によるものか否かを判定してもよい。取り消された操作コマンドが、音声認識やジェスチャ認識によるものでない（リモコン操作などによるものである）場合には、認識成功数や認識失敗数を変更する必要はない。

＜実施例２＞
次に、本発明の実施例２に係る入力装置及びその制御方法について説明する。図７は、本実施例に係る入力装置の機能構成を示すブロック図である。本実施例に係る入力装置は、図２の構成のほかに、ユーザ識別部２２とユーザ位置判定部２３をさらに有する。

ユーザ識別部２２は、ユーザを識別する。ユーザは、例えば、カメラ５で撮影した人物の顔を認識することにより識別されてもよいし、マイクロホン４で取得した音声の声紋を解析することにより識別されてもよい。なお、識別されるユーザは１人でもよいし、複数でもよい。
ユーザ位置判定部２３は、ユーザの位置を判定する。具体的には、赤外線センサやカメラを用いて、テレビ受信機１からユーザまでの距離や角度を測定する。上記測定に用いる赤外線センサやカメラは、カメラ５や人感センサ６が兼ねてもよいし、別途設けてもよい。

以下、本実施例に係る入力装置の処理の流れについて図３のフローチャートを用いて説明する。基本的な処理の流れは実施例１と同様のため、ここでは実施例１と異なる点について説明する。
ステップＳ１０１では、認識成功率取得部２０が、現在の外部環境に関する情報、動作モードの情報、ユーザの識別情報、及び、ユーザの位置情報を取得する。具体的には、実施例１と同様に、動作モード切換部１７から現在の動作モードの情報を取得するとともに、外部環境取得部１８から現在の外部環境に関する情報を取得する。更に、本実施例では、ユーザ識別部２２から現在のユーザの識別情報を取得し、ユーザ位置判定部２３から現在のユーザの位置情報を取得する。

ステップＳ１０２では、認識成功率取得部２０が、現在の外部環境、動作モード、ユーザ、及び、ユーザの位置における認識成功率を算出する。本実施例の認識履歴記憶部１９には、図８に示すように、操作手段、動作モード、外部環境、ユーザ、ユーザの位置の組み合わせごとに、認識成功数と認識失敗数の値がそれぞれ記憶されている。なお、図８には、ユーザが「Ａ」と「Ｂ」の２人の例を示しているが、１人分だけ記憶されていてもよいし、３人以上について記憶されていてもよい。また、図８は、ユーザの位置が「近」と「遠」の２段階に分類される例を示しているが、３段階以上に分類されてもよい。距離と角度の組み合わせによって分類されてもよい。

ステップＳ１０３では、認識成功率レベル表示部２１が、ステップＳ１０２で算出された操作コマンドの認識成功率をサブディスプレイ７に表示する。本実施例では、認識成功率レベル表示部２１は、識別されたユーザに対する操作コマンドの認識成功率を表示する
。複数のユーザが識別された場合には、例えば、図９（Ａ）に示すように、ユーザ毎の認識成功率を同時に表示する。ユーザ毎の認識成功率を同時に表示しきれない場合には、図９（Ｂ）に示すように、所定時間ごとに表示するユーザ及びそのユーザについての認識成功率を切り換えればよい。

ステップＳ１１２，Ｓ１１３，Ｓ１１６，Ｓ１１７においてカウントアップ、カウントダウンの対象となる操作コマンドを入力したユーザは、例えば、以下のように特定される。カウントアップ、カウントダウンの対象となる操作コマンドを入力するために利用された操作手段が音声認識の場合には、声紋の解析や撮影した顔の唇の動きを解析することで特定される。カウントアップ、カウントダウンの対象となる操作コマンドを入力するために利用された操作手段がジェスチャ認識の場合には、ジェスチャを行った人物の顔を認識することで特定される。

以上の処理を繰り返すことにより、操作手段ごとに、現在の外部環境、動作モード、ユーザ、及び、ユーザの位置の組み合わせにおける操作コマンドの認識成功率がレベルメータで表示される。それにより、ユーザは、各操作手段（音声認識、ジェスチャ認識）の認識成功率を把握することができ、各操作手段による電子機器の操作の手間を比較することが可能となる。
なお、本実施例では、実施例１に比べ、ユーザとユーザの位置をさらに考慮したが、ユーザとユーザの位置のいずれか一方をさらに考慮した構成であってもよい。また、外部環境とユーザ、または、外部環境とユーザの位置を考慮した構成であってもよい。また、上慮するパラメータはこれらに限らない。操作コマンドの認識成功率に影響を与えるパラメータであればどのようなパラメータを考慮してもよい。

１８外部環境取得部
１９認識履歴記憶部
２０認識成功率取得部
２１認識成功率レベル表示部

Claims

電子機器に接続又は内蔵される入力装置であって、ユーザの発する音及びユーザの動きのうち少なくともいずれかを認識して前記電子機器に対する操作コマンドへ変換し、消費電力の異なる複数の動作モードを有し、動作モードごとに操作コマンドの認識率が異なる入力装置において、
操作コマンドの認識率に影響を与える、前記入力装置の現在の外部環境に関する情報を取得する第１の取得手段と、
外部環境と操作コマンドの認識率との対応関係に関する情報と、動作モードと操作コマンドの認識率との対応関係に関する情報と、を記憶している記憶手段と、
前記第１の取得手段により取得された情報と、前記記憶手段に記憶されている情報と、現在の動作モードと、に基づいて、現在の外部環境における操作コマンドの認識率を取得する第２の取得手段と、
前記第２の取得手段で取得された認識率に関する情報を表示部に表示する表示手段と、を有することを特徴とする入力装置。
電子機器に接続又は内蔵される入力装置であって、ユーザの発する音及びユーザの動きのうち少なくともいずれかを認識して前記電子機器に対する操作コマンドへ変換する入力装置において、
操作コマンドの認識率に影響を与える、前記入力装置の現在の外部環境に関する情報を取得する第１の取得手段と、
ユーザの位置を判定する判定手段と、
外部環境と操作コマンドの認識率との対応関係に関する情報と、ユーザの位置と操作コマンドの認識率との対応関係に関する情報と、を記憶している記憶手段と、
前記第１の取得手段により取得された情報と、前記記憶手段に記憶されている情報と、前記判定手段により判定された現在のユーザの位置と、に基づいて、現在の外部環境における操作コマンドの認識率を取得する第２の取得手段と、
前記第２の取得手段で取得された認識率に関する情報を表示部に表示する表示手段と、を有することを特徴とする入力装置。
電子機器に接続又は内蔵される入力装置であって、ユーザの発する音及びユーザの動き
のうち少なくともいずれかを認識して前記電子機器に対する操作コマンドへ変換し、消費電力の異なる複数の動作モードを有し、動作モードごとに操作コマンドの認識率が異なる入力装置において、
操作コマンドの認識率に影響を与える、前記入力装置の現在の外部環境に関する情報を取得する第１の取得手段と、
ユーザの位置を判定する判定手段と、
外部環境と操作コマンドの認識率との対応関係に関する情報と、動作モードと操作コマンドの認識率との対応関係に関する情報と、ユーザの位置と操作コマンドの認識率との対応関係に関する情報と、を記憶している記憶手段と、
前記第１の取得手段により取得された情報と、前記記憶手段に記憶されている情報と、現在の動作モードと、前記判定手段により判定された現在のユーザの位置と、に基づいて、現在の外部環境における操作コマンドの認識率を取得する第２の取得手段と、
前記第２の取得手段で取得された認識率に関する情報を表示部に表示する表示手段と、を有することを特徴とする入力装置。
操作コマンドの認識の成功及び失敗の履歴を、操作コマンドの認識率に関する情報として、外部環境ごとに前記記憶手段に記録する記録手段をさらに有し、
前記第２の取得手段は、前記記録手段によって前記記憶手段に記録された前記外部環境ごとの履歴のうち、現在の外部環境に対応する履歴から、現在の外部環境における操作コマンドの認識率を算出する
ことを特徴とする請求項１に記載の入力装置。
操作コマンドの認識の成功及び失敗の履歴を、操作コマンドの認識率に関する情報として、外部環境ごとに前記記憶手段に記録する記録手段をさらに有し、
前記第２の取得手段は、前記記録手段によって前記記憶手段に記録された前記外部環境ごとの履歴のうち、現在の外部環境に対応する履歴から、現在の外部環境における操作コマンドの認識率を算出する
ことを特徴とする請求項２又は３に記載の入力装置。
ユーザを識別する識別手段をさらに有し、
前記記憶手段は、ユーザと操作コマンドの認識率との対応関係に関する情報をさらに記憶しており、
前記第２の取得手段は、前記識別手段により識別された現在のユーザをさらに考慮して、現在の外部環境における操作コマンドの認識率を取得する
ことを特徴とする請求項１〜５のいずれか１項に記載の入力装置。
現在のユーザとして複数のユーザが存在する場合に、
前記第２の取得手段は、現在の外部環境における操作コマンドの認識率として、前記複数のユーザに対応する複数の認識率を取得し、
前記表示手段は、現在の外部環境における操作コマンドの認識率に関する情報として、前記複数のユーザに対応する複数の情報を前記表示部に表示する
ことを特徴とする請求項２，３，５または６のいずれか１項に記載の入力装置。
前記複数のユーザに対応する複数の情報を一度に表示できない場合に、前記表示手段は、当該複数の情報が複数回に分けて前記表示部に表示されるように、所定時間おきに表示する情報を切り換える
ことを特徴とする請求項７に記載の入力装置。
マイクロホンから入力される音声からユーザの発する音を認識して操作コマンドへ変換する第１の認識処理を行う第１の認識手段と、
撮像装置から入力される映像からユーザの動きを認識して操作コマンドへ変換する第２の認識処理を行う第２の認識手段と、
をさらに有し、
前記第１の認識処理と第２の認識処理のそれぞれについて、個別に、現在の外部環境における操作コマンドの認識率に関する情報が表示される
ことを特徴とする請求項１〜８のいずれか１項に記載の入力装置。
前記第１の認識処理の認識率に関する情報は、前記マイクロホンに近接する位置に表示され、
前記第２の認識処理の認識率に関する情報は、前記撮像装置に近接する位置に表示される
ことを特徴とする請求項９に記載の入力装置。
前記入力装置の状態を、操作コマンド受け付け可能状態か操作コマンド受け付け不可能状態に切り換える制御手段をさらに有し、
前記表示手段は、前記入力装置の状態が前記操作コマンド受け付け可能状態であるときにのみ、現在の外部環境における認識率に関する情報を前記表示部に表示する
ことを特徴とする請求項１〜１０のいずれか１項に記載の入力装置。
マイクロホンから入力される音声からユーザの発する音を認識して操作コマンドへ変換する第１の認識処理を行う第１の認識手段をさらに有し、
前記第１の認識処理の認識率に影響を与える外部環境に関する情報は、前記マイクロホンから入力される音声の音量である
ことを特徴とする請求項１〜１１のいずれか１項に記載の入力装置。
撮像装置から入力される映像からユーザの動きを認識して操作コマンドへ変換する第２の認識処理を行う第２の認識手段をさらに有し、
前記第２の認識処理の認識率に影響を与える外部環境に関する情報は、前記撮像装置から入力される映像の明るさである
ことを特徴とする請求項１〜１２のいずれか１項に記載の入力装置。
現在の外部環境における操作コマンドの認識率に関する情報は、レベルメータ、数字、アイコンの図柄、及び、ランプの色のいずれかの形式の情報を含む
ことを特徴とする請求項１〜１３のいずれか１項に記載の入力装置。
電子機器に接続又は内蔵される入力装置であって、ユーザの発する音及びユーザの動きのうち少なくともいずれかを認識して前記電子機器に対する操作コマンドへ変換し、消費電力の異なる複数の動作モードを有し、動作モードごとに操作コマンドの認識率が異なる入力装置の制御方法において、
操作コマンドの認識率に影響を与える、前記入力装置の現在の外部環境に関する情報を取得する第１の取得ステップと、
外部環境と操作コマンドの認識率との対応関係に関する情報と、動作モードと操作コマンドの認識率との対応関係に関する情報と、を記憶している記憶手段に記憶されている情報と、前記第１の取得ステップで取得された情報と、現在の動作モードと、に基づいて、現在の外部環境における操作コマンドの認識率を取得する第２の取得ステップと、
前記第２の取得ステップで取得された認識率に関する情報を表示部に表示する表示ステップと、を有することを特徴とする入力装置の制御方法。
電子機器に接続又は内蔵される入力装置であって、ユーザの発する音及びユーザの動きのうち少なくともいずれかを認識して前記電子機器に対する操作コマンドへ変換する入力
装置の制御方法において、
操作コマンドの認識率に影響を与える、前記入力装置の現在の外部環境に関する情報を取得する第１の取得ステップと、
ユーザの位置を判定する判定ステップと、
外部環境と操作コマンドの認識率との対応関係に関する情報と、ユーザの位置と操作コマンドの認識率との対応関係に関する情報と、を記憶している記憶手段に記憶されている情報と、前記第１の取得ステップで取得された情報と、前記判定ステップで判定された現在のユーザの位置と、に基づいて、現在の外部環境における操作コマンドの認識率を取得する第２の取得ステップと、
前記第２の取得ステップで取得された認識率に関する情報を表示部に表示する表示ステップと、を有することを特徴とする入力装置の制御方法。
電子機器に接続又は内蔵される入力装置であって、ユーザの発する音及びユーザの動きのうち少なくともいずれかを認識して前記電子機器に対する操作コマンドへ変換し、消費電力の異なる複数の動作モードを有し、動作モードごとに操作コマンドの認識率が異なる入力装置の制御方法において、
操作コマンドの認識率に影響を与える、前記入力装置の現在の外部環境に関する情報を取得する第１の取得ステップと、
ユーザの位置を判定する判定ステップと、
外部環境と操作コマンドの認識率との対応関係に関する情報と、動作モードと操作コマンドの認識率との対応関係に関する情報と、ユーザの位置と操作コマンドの認識率との対応関係に関する情報と、を記憶している記憶手段に記憶されている情報と、前記第１の取得ステップで取得された情報と、現在の動作モードと、前記判定ステップで判定された現在のユーザの位置と、に基づいて、現在の外部環境における操作コマンドの認識率を取得する第２の取得ステップと、
前記第２の取得ステップで取得された認識率に関する情報を表示部に表示する表示ステップと、を有することを特徴とする入力装置の制御方法。
操作コマンドの認識の成功及び失敗の履歴を、操作コマンドの認識率に関する情報として、外部環境ごとに前記記憶手段に記録する記録ステップをさらに有し、
前記第２の取得ステップでは、前記記録ステップによって前記記憶手段に記録された前記外部環境ごとの履歴のうち、現在の外部環境に対応する履歴から、現在の外部環境における操作コマンドの認識率が算出される
ことを特徴とする請求項１５に記載の入力装置の制御方法。
操作コマンドの認識の成功及び失敗の履歴を、操作コマンドの認識率に関する情報として、外部環境ごとに前記記憶手段に記録する記録ステップをさらに有し、
前記第２の取得ステップでは、前記記録ステップによって前記記憶手段に記録された前記外部環境ごとの履歴のうち、現在の外部環境に対応する履歴から、現在の外部環境における操作コマンドの認識率が算出される
ことを特徴とする請求項１６又は１７に記載の入力装置の制御方法。
ユーザを識別する識別ステップをさらに有し、
前記記憶手段は、ユーザと操作コマンドの認識率との対応関係に関する情報をさらに記憶しており、
前記第２の取得ステップでは、前記識別ステップで識別された現在のユーザをさらに考慮して、現在の外部環境における操作コマンドの認識率が取得される
ことを特徴とする請求項１５〜１９のいずれか１項に記載の入力装置の制御方法。
現在のユーザとして複数のユーザが存在する場合に、
前記第２の取得ステップでは、現在の外部環境における操作コマンドの認識率として、前記複数のユーザに対応する複数の認識率が取得され、
前記表示ステップでは、現在の外部環境における操作コマンドの認識率に関する情報として、前記複数のユーザに対応する複数の情報が前記表示部に表示される
ことを特徴とする請求項１６，１７，１９または２０のいずれか１項に記載の入力装置の制御方法。
前記複数のユーザに対応する複数の情報を一度に表示できない場合に、前記表示ステップでは、当該複数の情報が複数回に分けて前記表示部に表示されるように、所定時間おきに表示する情報が切り換えられる
ことを特徴とする請求項２１に記載の入力装置の制御方法。
マイクロホンから入力される音声からユーザの発する音を認識して操作コマンドへ変換する第１の認識処理を行う第１の認識ステップと、
撮像装置から入力される映像からユーザの動きを認識して操作コマンドへ変換する第２の認識処理を行う第２の認識ステップと、
をさらに有し、
前記第１の認識処理と第２の認識処理のそれぞれについて、個別に、現在の外部環境における操作コマンドの認識率に関する情報が表示される
ことを特徴とする請求項１５〜２２のいずれか１項に記載の入力装置の制御方法。
前記第１の認識処理の認識率に関する情報は、前記マイクロホンに近接する位置に表示され、
前記第２の認識処理の認識率に関する情報は、前記撮像装置に近接する位置に表示される
ことを特徴とする請求項２３に記載の入力装置の制御方法。
前記入力装置の状態を、操作コマンド受け付け可能状態か操作コマンド受け付け不可能状態に切り換える制御ステップをさらに有し、
前記表示ステップでは、前記入力装置の状態が前記操作コマンド受け付け可能状態であるときにのみ、現在の外部環境における認識率に関する情報が前記表示部に表示される
ことを特徴とする請求項１５〜２４のいずれか１項に記載の入力装置の制御方法。
マイクロホンから入力される音声からユーザの発する音を認識して操作コマンドへ変換する第１の認識処理を行う第１の認識ステップをさらに有し、
前記第１の認識処理の認識率に影響を与える外部環境に関する情報は、前記マイクロホンから入力される音声の音量である
ことを特徴とする請求項１５〜２５のいずれか１項に記載の入力装置の制御方法。
撮像装置から入力される映像からユーザの動きを認識して操作コマンドへ変換する第２の認識処理を行う第２の認識ステップをさらに有し、
前記第２の認識処理の認識率に影響を与える外部環境に関する情報は、前記撮像装置から入力される映像の明るさである
ことを特徴とする請求項１５〜２６のいずれか１項に記載の入力装置の制御方法。
現在の外部環境における操作コマンドの認識率に関する情報は、レベルメータ、数字、アイコンの図柄、及び、ランプの色のいずれかの形式の情報を含む
ことを特徴とする請求項１５〜２７のいずれか１項に記載の入力装置の制御方法。