JP2008145693A

JP2008145693A - 情報処理装置及び情報処理方法

Info

Publication number: JP2008145693A
Application number: JP2006332174A
Authority: JP
Inventors: Hideo Kuboyama; 英生久保山
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2006-12-08
Filing date: 2006-12-08
Publication date: 2008-06-26
Also published as: US8041576B2; US20080140423A1

Abstract

【課題】音声認識の認識対象である認識コマンドを次々と容易に切り換えて実行する補助手段を提供する。
【解決手段】コマンドを音声で入力するための認識コマンドを複数記憶する記憶手段を参照し、入力された音声を認識してコマンドを選択する第１選択手段と、前記記憶手段に記憶された複数の認識コマンドに対応するコマンドのいずれかを所定の順序に従って選択する第２選択手段と、所定の操作部に対する操作に基づいて、前記第１選択手段、前記第２選択手段のいずれかを選択する処理決定手段と、前記処理決定手段で選択された選択手段によって選択されたコマンドを実行する実行手段とを有することを特徴とする。
【選択図】図１

Description

本発明は、音声認識を実行する情報処理装置に関する。

ユーザの発声を認識する音声認識は、多数の選択項目から一発声で入力できる事や、ボタン数や操作のステップ数を削減できる事から、カーナビゲーションなどを中心に様々な機器で利用されるようになっている。しかしながら、音声認識は誤認識の問題や、認識単語をユーザが覚えていない場合に操作できなくなる問題がある。

そこで、音声認識のみで機器の操作を行なうのではなく、ボタンや画面のＧＵＩ操作と音声認識を併用することで、高い操作性を実現する場合が多い。その１つに特許文献１に記載の方法がある。またその他に例えば、音声認識で実行可能な認識コマンドをリストで表示してユーザに提示すると共に、ＧＵＩでリストの中から認識コマンドを選択可能にする方法がある。図１２に、音声認識装置が認識コマンドのリストを表示する様子を示す。同図において、１２０１は音声認識で実行可能な認識コマンドを表示したリストである。また１２０２は、リスト１２０１の一つの項目を選択するフォーカスである。音声認識装置で所定のボタンを押下すると、同図のようにリスト１２０１を表示する。さらに、ユーザはフォーカス１２０２をボタン操作等で動かし、所望の認識コマンドを選択して実行することができる。
特開平１０−１７１４９２号公報

しかしながら、複数ある認識コマンドを手早く次々に実行して内容を確認したい場合、音声認識による選択もリストからの選択も適さない事がある。例えば、動画、静止画、音楽などのコンテンツ選択では、選択肢を順次選択して内容を確認してから所望のコンテンツを選択したい。このような場合、一つ一つ音声で発声するのはユーザの負荷が大きい。また、リストからの選択では、リスト表示、フォーカス移動、認識コマンド実行と、操作回数が多く、次々と実行するのは困難である。

従って、認識コマンドを一操作で順次選択できる方法を備えることが望ましい。これによって、音声認識で所望の認識コマンドを選択する補助手段として、認識コマンドを一操作で順次選択して次々と確認することができる。

さらに、この認識コマンドの順次選択と音声認識操作という二つの操作の関連性を、ユーザに直感的にわからせるために、同じボタンで操作するなど、互いの操作に関連性を持たせることが望ましい。

上記課題を解決するために、本発明の情報処理装置は、コマンドに従って処理を実行する情報処理装置であって、前記コマンドを音声で入力するための認識コマンドを複数記憶する記憶手段を参照し、入力された音声を認識してコマンドを選択する第１選択手段と、前記記憶手段に記憶された複数の認識コマンドに対応するコマンドのいずれかを所定の順序に従って選択する第２選択手段と、所定の操作部に対する操作に基づいて、前記第１選択手段、前記第２選択手段のいずれかを選択する処理決定手段と、前記処理決定手段で選択された選択手段によって選択されたコマンドを実行する実行手段とを有することを特徴とする。

本発明によれば、音声認識の実行と、音声認識可能な認識コマンドの順次選択という関連する操作を、一つの操作部の操作に基づいて切り替えて実行することにより、ユーザにわかりやすく、また手早く操作できる手段を提供できる。

以下、添付図面を参照して本発明に係る実施の形態を詳細に説明する。ただし、この実施の形態に記載されている構成要素はあくまでも例示であり、本発明の範囲をそれらのみに限定する趣旨のものではない。

図１に、本発明の実施例１における情報処理装置の構成を表すブロック図を示す。同図において、１０１は、音声認識に割り当てられた音声認識ボタンの押下時間を取得する押下時間取得部である。１０２は、押下時間に基づいて認識コマンド選択処理を決定する処理決定部である。１０３は、ユーザの発声する音声を認識し、音声認識対象の認識コマンドを選択する音声認識部である。１０４は、所定の順序で認識コマンドを選択する認識コマンド選択部である。１０５は、選択した認識コマンドを実行する認識コマンド実行部である。

図２は、本発明の実施例１における情報処理装置の処理のフローチャートである。図１、図２を用いて、本発明の動作を説明する。

まず、ステップＳ２０１で、ユーザが音声認識のための音声認識ボタンを押下する。すると、ステップＳ２０２で、押下時間取得部１０１が、音声認識ボタンの押下時間を取得する。次に、処理決定部１０２が、ステップＳ２０３で、押下時間が所定の時間Ｔ以上であるか否かを判定する。もし押下時間がＴ以上であれば、処理決定部１０２が音声認識部１０３を選び、ステップＳ２０４で、音声認識部１０３が、ユーザの音声を認識して認識コマンドを選択する。一方、押下時間がＴ未満であれば、処理決定部１０２が認識コマンド選択部１０４を選び、ステップＳ２０５で、認識コマンド選択部１０４が、音声認識部１０３の認識対象である認識コマンドの中から所定の順番で認識コマンドを選択する。そして、ステップＳ２０６で、認識コマンド実行部１０５が、音声認識部１０３あるいは認識コマンド選択部１０４によって選択された認識コマンドを実行する。

図３は、本発明の実施例１における情報処理装置の使用例を表す図である。ここでは、マイクと音声認識ボタンを有するリモコンと、押下時間取得部１０１、処理決定部１０２、音声認識部１０３、認識コマンド選択部１０４、認識コマンド実行部１０５を備えるテレビで構成されるシステムを例に挙げて説明する。同図において、３０１はテレビである。３０２はテレビ３０１を操作するリモコンである。３０３は音声を入力するマイクである。３０４は音声認識に割り当てられた音声認識ボタンである。

同図において、ユーザが音声認識ボタン３０４を長押しすると、テレビ３０１では長押しを検知して音声認識を実行する。ここでユーザがマイク３０３に向かって発声すると、リモコン３０２が音声データをテレビ３０１に送信し、テレビ３０１で音声データを認識する。そしてテレビ３０１が認識結果の認識コマンドを実行する。同図ではユーザが“７００”と発声しており、テレビ３０１ではこの音声を認識して７００チャンネルに表示が切り換わっている。

一方、ユーザが音声認識ボタン３０４を短押しすると、テレビ３０１では短押しを検知する毎に音声認識可能な認識コマンドを所定の順序で実行する。同図では、短押しする毎に、認識対象のチャンネルに、１５２、３２７、４１８・・・と、次々と遷移して切り換わっている。順序についてはどのようなものでも良く、例えば番号順（名前順）でも良いし、音声認識対象として登録した順序でも良い。

図４に、ボタン押下時間のグラフを示す。同図において、横軸はボタン押下時間であり、時刻０がボタン押下開始を表す。また、グラフ（ａ）は短押し、グラフ（ｂ）は長押し時の押下時間を表す。

（ａ）の短押しの場合、４０１で音声認識ボタンの押下を検知してから、４０２で音声認識ボタンを放すまでの時間が閾値Ｔ未満である。そのため、４０２の時点で、処理決定部１０２が認識コマンド選択部１０４を選び、認識コマンド選択部１０４が認識コマンドを所定の順序に基づいて選択し、認識コマンド実行部１０５が認識コマンドを実行する。

（ｂ）の長押しの場合、４０１で音声認識ボタンの押下を検知してから、時刻Ｔを超えた４０３の時点で、処理決定部１０２が音声認識部１０３を選ぶ。音声認識部１０３は、４０３の時点からユーザが音声認識ボタンを放す４０４の時点までの間、ユーザの音声を取得して音声認識を実行し、音声認識結果の認識コマンドを認識コマンド実行部１０５が実行する。

以上により、長押しで音声認識を実行して所望の認識コマンドを実行すると共に、音声認識の補助手段として、短押しで認識コマンドを次々実行する操作を提供できる。

実施例１では図３に示すように、テレビ操作の用途を例として、マイク３０３と音声認識ボタン３０４とがテレビ３０１とは別装置のリモコン３０２に備わっている。そのため、テレビ３０１に備わるボタン押下時間取得部１０１はリモコン３０２から受信する制御信号に基づいて押下時間を取得する。

しかし、本発明はこのような形態に限るものではなく、１つの情報処理装置がマイク、音声認識ボタン、押下時間取得部、処理決定部、音声認識部、認識コマンド選択部、認識コマンド実行部を具備しても良い。この場合、押下時間取得部は同じ装置に具備されている音声認識ボタンの押下状態に基づいて押下時間を取得する。

またこの他、マイク、音声認識ボタン、押下時間取得部、処理決定部を備える第１の装置と、音声認識部、認識コマンド選択部、認識コマンド実行部を備える第２の装置で構成されても構わない。この場合、処理決定部で決定した結果を第２の装置に送信するよう構成すればよい。この他様々な構成を可能とすることは言うまでもない。

上記実施例では、図４に示すとおり、長押しの場合、長押しの区間にユーザの音声を取得して音声認識を実行している。しかし本発明はこれに限るものではなく、長押しを終了してからユーザの音声を取得して音声認識を実行しても良い。この実施例を表すグラフを図５に示す。同図では、音声認識ボタン押下５０１から時間Ｔを経過した時刻５０２で処理決定部１０２が音声認識部１０３を選ぶ。音声認識部１０３は、時間Ｔを経過した時刻５０２、あるいは音声認識ボタンが放された時刻５０３から音声を取得する。音声の取得は、音声区間検出技術によってユーザの発声の有無を検出し、ユーザの発声がなくなった時点５０４で音声取得を終了する。音声区間検出技術は、例えば音声のパワーに基づいて検出するなど、音声認識の分野で様々な手法が提案されており、いずれの方法でも良い。音声認識部１０３は、取得した音声を入力として音声認識によって認識コマンドを選択し、その認識コマンドを認識コマンド実行部１０５が実行する。

上記実施例では、音声認識ボタンの押下時間がＴ以上の場合に処理決定部１０２が音声認識部１０３を選び、Ｔ未満の場合に認識コマンド選択部を選んでいる。しかし本発明はこれに限るものではなく、音声認識ボタンの押下時間がＴ未満の場合に音声認識部１０３を選び、Ｔ以上の場合に認識コマンド選択部１０４を選ぶよう構成しても構わない。本実施例ではその例について説明する。

本実施例の様子をあらわすボタン押下時間のグラフを図６に示す。同図において、グラフ（ａ）は短押し、グラフ（ｂ）は長押し時の押下時間を表す。

（ａ）の短押しの場合、ボタン押下時刻６０１からボタンを放す時刻６０２までの時間がＴ未満であるため、処理決定部１０２が音声認識部１０３を選ぶ。音声認識部１０３は、時刻６０２から音声を取得し、音声区間検出技術によってユーザの発声の有無を検知する。音声区間検出技術は、例えば音声のパワーに基づいて検出するなど、音声認識の分野で様々な手法が提案されており、いずれの方法でも良い。そしてユーザ発声がなくなったことを検知した時刻６０３で音声の取得を終了し、音声認識を実行して認識コマンドを選択する。

（ｂ）の長押しの場合、時間Ｔを経過した時刻６０４で処理決定部１０２は認識コマンド選択部１０４を選び、認識コマンド選択部１０４が所定の順序で認識コマンドを選択し、認識コマンド実行部１０５が実行する。その後、長押ししている間、所定の時間間隔毎（６０５）に、認識コマンド選択部１０４が次々と所定の順序で認識コマンドを選択し、認識コマンド実行部１０５が実行する。

本実施例の動作としては、音声認識ボタンの短押し時には、短押し後にユーザが発声して音声認識による認識コマンドを実行し、長押し時には、長押し中に所定の時間間隔で認識コマンドを次々と実行する。

上記実施例では、図４、図５、図６のいずれの場合でも、処理決定部１０２が音声認識部１０３を選んだ時点（４０３、５０２あるいは５０３、６０２）から音声の取得を開始するよう説明している。

しかし本発明はこれに限るものではなく、ボタン押下開始時（４０１、５０１、６０１）で音声の取得を開始しても良い。ボタン押下開始時から音声取得を開始してメモリに保存しておき、処理決定部１０２が音声認識部１０３を選んだ時点（４０３、５０２あるいは５０３、６０２）で取得した音声に対して音声認識を実行する。一方、処理決定部１０２が認識コマンド選択部１０４を選んだ場合は、その時点（４０２、６０４）でメモリに保存した音声を消去する。

あるいは、ボタン押下開始時（４０１、５０１、６０１）で音声取得と共に音声認識の実行を開始しても良い。このとき、処理決定部１０２が認識コマンド選択部１０４を選んだ場合は、その時点（４０２、６０４）でメモリに保存した音声を消去すると共に音声認識処理を停止する。

この場合のフローチャートを図７に示す。同図において、まず、ステップＳ７０１で、ユーザが音声認識のための音声認識ボタンを押下する。すると、ステップＳ７０２で、音声認識部１０３が、音声の取得と音声認識を開始する。次に、ステップＳ７０３で、押下時間取得部１０１が、音声認識ボタンの押下時間を取得する。次に、処理決定部１０２が、ステップＳ７０４で、押下時間が所定の時間Ｔ以上であるか否かを判定する。もし押下時間がＴ以上（この条件は上記実施例の形態により以上／未満が逆になる。）であれば、処理決定部１０２が音声認識部１０３を選び、ステップＳ７０５で、音声認識部１０３が、音声認識結果から認識コマンドを選択する。一方、押下時間がＴ未満であれば、処理決定部１０２が認識コマンド選択部１０４を選び、ステップＳ７０６で、音声認識部１０３の実行する音声認識を停止する。そして、ステップＳ７０７で、認識コマンド選択部１０４が、認識コマンドの中から所定の順番で認識コマンドを選択する。そして、ステップＳ７０８で、認識コマンド実行部１０５が、音声認識部１０３あるいは認識コマンド選択部１０４によって選択された認識コマンドを実行する。

上記実施例では、図３において、音声認識ボタンの短押しで認識コマンド選択部１０４が認識コマンドを次々と選択して遷移する時に、単に認識コマンドに応じて画面が切り換わっている。本実施例では、ここでさらに認識コマンドのリストを表示する。図８にその様子を示す。同図において、８０１は、認識コマンドのリストである。８０２は、認識コマンド選択部１０４が選択した認識コマンドに対するフォーカスである。

音声認識ボタンを短押しすると、認識コマンド選択部１０４が選択した認識コマンドを認識コマンド実行部１０５が実行して画面遷移すると共に、リスト８０１を表示する。リスト８０１では、認識コマンド選択部１０４が選択した認識コマンドに対してフォーカス８０２をあてる。リスト８０１は。所定の時間表示した後に消去する。音声認識ボタンの短押しを連続で行なうと、認識コマンド選択部１０４が選択した認識コマンドを順々に実行すると共に、フォーカス８０２が、リスト７０１上の実行した認識コマンドに順々に移動する。リスト８０１は、短押ししてから所定の時間経過後に表示を消しても良い。

上記実施例の短押しにおける遷移において次々と所定の順序で遷移するには、認識コマンドのリストと、リストの順序における現在位置を記憶する必要がある。例えば、図８のリスト８０１を上から順に遷移する場合、１５２、３２７、４１８・・・と遷移するには、例えば短押しで１５２チャンネルから３２７チャンネルに遷移した時点で、リスト８０１と、現在そのリストの二番目であることを記憶することで、初めて次の短押しで４１８チャンネルへ遷移できる。

しかし本発明は、遷移先でリストの現在位置をずっと記憶する実施形態に限らない。例えば、リスト８０１上の位置を所定時間Ｒ経過後にリセットしても良い。短押し間の時間間隔をＲ未満で、連続して短押しすると、１５２、３２７、４１８とリスト上の所定の順序で次々と遷移する。その一方、４１８チャンネルで時間Ｒ以上留まると、リスト８０１上の位置が初期化され、次に短押しすると１５２チャンネルに遷移する。

上記実施例の短押しにおける遷移において次々と所定の順序で遷移するには、認識コマンドのリストと、リストの順序における現在位置を記憶する必要がある。

しかし、本発明の用途によっては、図８の認識コマンドのリストが、認識コマンド実行前と実行後とで異なる場合もある。この場合には、認識コマンド実行後、所定時間Ｓ経過したらリストを更新する方法を提供する。

図９を用いて本実施例における動作を説明する。同図において、９０１は、本実施例におけるテレビ３０１の番組視聴画面での認識コマンドのリストの一例である。９０２は、テレビ３０１の番組表画面での認識コマンドのリストの一例である。番組視聴画面では短押しごとにリスト９０１を移動する。ここで、リスト９０１の“番組表“に遷移したときに、遷移してから所定時間Ｓ以内に短押しを再度押下した場合、リスト９０１を保持したまま、”番組表“の次の”検索“に遷移する。その一方、“番組表“に遷移してから所定時間Ｓを経過した場合、番組表でのリスト９０２に切り換わる。その上で音声認識ボタンを短押しすると、リスト９０２の先頭である”明日“を認識コマンドとして選択して実行する。

上記実施例では、認識コマンド選択部１０４が、認識コマンド全ての中から所定の順序で認識コマンドを選択しているが、本発明はこれに限るものではなく、認識対象の認識コマンドのうち、所定のサブセットからのみ認識コマンドを選択しても良い。図１０にその様子を示す。同図では、認識コマンドとして、チャンネル遷移のほかに、メニュー、電源オフなどの認識コマンドも含まれている。しかし、認識コマンド選択部が選択する認識コマンドのサブセットは、チャンネル選択に限っている。こうすることで、音声認識ボタンを次々と短押しした時に起こる動作はチャンネル遷移に限られる。このサブセットはどのような基準で決めても構わない。このように、認識コマンドの中から、所定の基準によって選別した認識コマンドのサブセットのみ、認識コマンド選択部１０４が選択可能にしても良い。

上記実施例では認識コマンド選択部１０４が認識コマンドを選択する順序はどのような方法でも良いとし、図３では番号順（名前順）で次々と認識コマンドを選択する様子を示している。本実施例は認識コマンドを選択する順序を決める基準として音声認識難易度を用いる。

認識コマンドは、その発声内容によって音声認識の難易度が異なる。図１１に認識コマンドと、これを発声する際の読みである音素列を示す。同図において、認識コマンド“１５２”と認識コマンド“１５５”は１２音素中、１０音素が同じであり、互いに誤認識し易く、他と比べて音声認識難易度が高いといえる。音声認識難易度の計算方法は従来から様々な方法があり、そのどれを用いても良い。例えば他の認識コマンドと一致する音素数の割合に基づいて計算しても良いし、認識コマンドに含まれる音素特徴、音素間の類似度、音素数に基づいて計算しても良い。また、音声認識難易度は、あらかじめ計算した値をそれぞれの認識コマンドが有していても構わないし、認識コマンドのリストを音声認識部１０３が読み込んだ時に計算しても良い。これらいずれかの方法で求めた音声認識難易度の高い順に、認識コマンド選択部１０４が認識コマンドを選択する。

このように、音声認識難易度の高い順に認識コマンドを並べることで、音声認識で誤認識し易い認識コマンドが順次選択の前方に、誤認識し難い認識コマンドが順次選択の後方に並ぶ。従って、音声認識で難しい認識コマンドは順次選択で選択しやすく、順次選択で操作回数が多くなる認識コマンドは音声認識しやすい、という互いの選択方法を補助しあう操作を実現できる。

上記実施例は、図１に示すようにボタンの押下時間に基づいて処理決定部１０２が音声認識部１０３と認識コマンド選択部１０４のいずれかを選択している。しかし本発明はボタンの押下時間に限るものではなく、一つの操作部（レバー、タッチセンサなど）に対する異なる操作によって音声認識部１０３と認識コマンド選択部１０４を切り替えても、本発明は適用される（この場合、押下時間取得部１０１は必要ない）。例えば、レバーを前に倒すと処理決定部１０２が音声認識部１０３を選択し、レバーを後ろに倒すと処理決定部１０２が認識コマンド選択部１０４を選択する、という実施形態でも本発明は適用される。

なお、本発明の目的は次のようにしても達成される。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行する。このようにしても目的が達成されることは言うまでもない。

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、本発明に係る実施の形態は、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される場合に限られない。例えば、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、本発明に係る実施形態の機能は次のようにしても実現される。即ち、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれる。そして、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行う。この処理により前述した実施形態の機能が実現されることは言うまでもない。

本発明の実施例１における情報処理装置の機能構成を表すブロック図である。本発明の実施例１における情報処理装置の処理のフローチャートである。本発明の実施例１における情報処理装置の動作の様子を表す図である。本発明の実施例１におけるボタン押下時間を表すグラフである。本発明の実施例３におけるボタン押下時間を表すグラフである。本発明の実施例４におけるボタン押下時間を表すグラフである。本発明の実施例５における情報処理装置の処理のフローチャートである。本発明の実施例６における順次選択実行時の認識コマンドのリスト表示を表す図である。本発明の実施例８における認識コマンドのリストを表す図である。本発明の実施例９における認識コマンドのサブセットを表す図である。本発明の実施例１０における認識コマンドの音素列を表す図である。従来の技術における認識コマンドのリスト表示を表す図である。

符号の説明

１０１押下時間取得部
１０２処理決定部
１０３音声認識部
１０４認識コマンド選択部
１０５認識コマンド実行部

Claims

コマンドに従って処理を実行する情報処理装置であって、
前記コマンドを音声で入力するための認識コマンドを複数記憶する記憶手段を参照し、入力された音声を認識してコマンドを選択する第１選択手段と、
前記記憶手段に記憶された複数の認識コマンドに対応するコマンドのいずれかを所定の順序に従って選択する第２選択手段と、
所定の操作部に対する操作に基づいて、前記第１選択手段、前記第２選択手段のいずれかを選択する処理決定手段と、
前記処理決定手段で選択された選択手段によって選択されたコマンドを実行する実行手段と、
を有することを特徴とする情報処理装置。
前記操作部はボタンであり、
前記処理決定手段は、前記ボタンの押下時間に基づいて前記第１選択手段、前記第２選択手段のいずれかを選択することを特徴とする請求項１に記載の情報処理装置。
前記操作部は遠隔操作装置が有するボタンであり、
前記処理決定手段は、前記遠隔操作装置の前記ボタンの押下時間を取得し、該押下時間に基づいて前記第１選択手段と前記第２選択手段のいずれかを選択することを特徴とする請求項１に記載の情報処理装置。
前記処理決定手段は、前記押下時間が所定時間以上の場合に前記第１選択手段を選択し、前記所定時間未満の場合に前記第２選択手段を選択することを特徴とする請求項２又は３に記載の情報処理装置。
前記処理決定手段は、前記押下時間が所定時間未満の場合に前記第１選択手段を選択し、前記所定時間以上の場合に前記第２選択手段を選択し、
前記実行手段は、前記第２選択手段が選択された場合に、所定の時間間隔で所定の順序毎に前記コマンドを実行することを特徴とする請求項２又は３に記載の情報処理装置。
前記第２選択手段は、前記複数の認識コマンドに対応するコマンドのサブセットから一つを選択することを特徴とする前記請求項１乃至５のいずれかに記載の情報処理装置。
前記認識コマンドそれぞれに対して音声認識難易度を取得する音声認識難易度取得手段をさらに有し、
前記第２選択手段は、前記記憶手段に記憶された複数の認識コマンドに対応するコマンドを、対応する前記認識コマンドの音声認識難易度の大きい順に選択することを特徴とする請求項１乃至６にいずれかに記載の情報処理装置。
コマンドに従って処理を実行する情報処理方法であって、
所定の操作部に対する操作に基づいて、前記コマンドを音声で入力するための認識コマンドを複数記憶する記憶手段を参照し、入力された音声を認識してコマンドを選択する第１選択工程、前記記憶手段に記憶された複数の認識コマンドに対応するコマンドのいずれかを所定の順序に従って選択する第２選択工程のいずれかを選択する処理決定工程と、
前記処理決定工程で選択された選択工程によって選択されたコマンドを実行する実行工程と、
を有することを特徴とする情報処理方法。
前記操作部は所定のボタンであり、
前記処理決定工程は、前記ボタンの押下時間に基づいて前記第１選択工程と前記第２選択工程のいずれかを選択することを特徴とする請求項８に記載の情報処理方法。
前記操作部は遠隔操作装置が有する所定のボタンであり、
前記処理決定工程は、前記遠隔操作装置の前記ボタンの押下時間に基づいて前記１選択工程と前記第２選択工程のいずれかを選択することを特徴とする請求項８に記載の音声認識方法。
前記処理決定工程は、前記押下時間が所定時間以上の場合に前記第１選択工程を選択し、前記所定時間未満の場合に前記第２選択工程を選択することを特徴とする請求項９又は１０に記載の音声認識方法。
前記処理決定工程は、前記押下時間が所定時間未満の場合に前記第１選択工程を選択し、前記所定時間以上の場合に前記第２選択工程を選択し、
前記実行工程は、前記第２選択工程が選択された場合に、所定の時間間隔で所定の順序毎に前記コマンドを実行することを特徴とする請求項９又は１０に記載の情報処理方法。
前記第２選択工程は、前記複数の認識コマンドに対応するコマンドのサブセットから一つを選択することを特徴とする請求項８乃至１２のいずれかに記載の情報処理方法。
前記認識コマンドそれぞれに対して音声認識難易度を取得する音声認識難易度取得工程をさらに有し、
前記第２選択工程は、前記記憶手段に記憶された複数の認識コマンドに対応するコマンドを、対応する認識コマンドの前記音声認識難易度の大きい順に選択することを特徴とする請求項８乃至１３のいずれかに記載の情報処理方法。
請求項８乃至１４のいずれかに記載の情報処理方法をコンピュータに実行させるためのプログラム。
請求項１５に記載のプログラムを格納するコンピュータ読取可能な記憶媒体。