JP2008145693A - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP2008145693A
JP2008145693A JP2006332174A JP2006332174A JP2008145693A JP 2008145693 A JP2008145693 A JP 2008145693A JP 2006332174 A JP2006332174 A JP 2006332174A JP 2006332174 A JP2006332174 A JP 2006332174A JP 2008145693 A JP2008145693 A JP 2008145693A
Authority
JP
Japan
Prior art keywords
recognition
unit
command
selection
selects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006332174A
Other languages
English (en)
Inventor
Hideo Kuboyama
英生 久保山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2006332174A priority Critical patent/JP2008145693A/ja
Priority to US11/936,025 priority patent/US8041576B2/en
Publication of JP2008145693A publication Critical patent/JP2008145693A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】 音声認識の認識対象である認識コマンドを次々と容易に切り換えて実行する補助手段を提供する。
【解決手段】 コマンドを音声で入力するための認識コマンドを複数記憶する記憶手段を参照し、入力された音声を認識してコマンドを選択する第1選択手段と、前記記憶手段に記憶された複数の認識コマンドに対応するコマンドのいずれかを所定の順序に従って選択する第2選択手段と、所定の操作部に対する操作に基づいて、前記第1選択手段、前記第2選択手段のいずれかを選択する処理決定手段と、前記処理決定手段で選択された選択手段によって選択されたコマンドを実行する実行手段とを有することを特徴とする。
【選択図】 図1

Description

本発明は、音声認識を実行する情報処理装置に関する。
ユーザの発声を認識する音声認識は、多数の選択項目から一発声で入力できる事や、ボタン数や操作のステップ数を削減できる事から、カーナビゲーションなどを中心に様々な機器で利用されるようになっている。しかしながら、音声認識は誤認識の問題や、認識単語をユーザが覚えていない場合に操作できなくなる問題がある。
そこで、音声認識のみで機器の操作を行なうのではなく、ボタンや画面のGUI操作と音声認識を併用することで、高い操作性を実現する場合が多い。その1つに特許文献1に記載の方法がある。またその他に例えば、音声認識で実行可能な認識コマンドをリストで表示してユーザに提示すると共に、GUIでリストの中から認識コマンドを選択可能にする方法がある。図12に、音声認識装置が認識コマンドのリストを表示する様子を示す。同図において、1201は音声認識で実行可能な認識コマンドを表示したリストである。また1202は、リスト1201の一つの項目を選択するフォーカスである。音声認識装置で所定のボタンを押下すると、同図のようにリスト1201を表示する。さらに、ユーザはフォーカス1202をボタン操作等で動かし、所望の認識コマンドを選択して実行することができる。
特開平10−171492号公報
しかしながら、複数ある認識コマンドを手早く次々に実行して内容を確認したい場合、音声認識による選択もリストからの選択も適さない事がある。例えば、動画、静止画、音楽などのコンテンツ選択では、選択肢を順次選択して内容を確認してから所望のコンテンツを選択したい。このような場合、一つ一つ音声で発声するのはユーザの負荷が大きい。また、リストからの選択では、リスト表示、フォーカス移動、認識コマンド実行と、操作回数が多く、次々と実行するのは困難である。
従って、認識コマンドを一操作で順次選択できる方法を備えることが望ましい。これによって、音声認識で所望の認識コマンドを選択する補助手段として、認識コマンドを一操作で順次選択して次々と確認することができる。
さらに、この認識コマンドの順次選択と音声認識操作という二つの操作の関連性を、ユーザに直感的にわからせるために、同じボタンで操作するなど、互いの操作に関連性を持たせることが望ましい。
上記課題を解決するために、本発明の情報処理装置は、コマンドに従って処理を実行する情報処理装置であって、前記コマンドを音声で入力するための認識コマンドを複数記憶する記憶手段を参照し、入力された音声を認識してコマンドを選択する第1選択手段と、前記記憶手段に記憶された複数の認識コマンドに対応するコマンドのいずれかを所定の順序に従って選択する第2選択手段と、所定の操作部に対する操作に基づいて、前記第1選択手段、前記第2選択手段のいずれかを選択する処理決定手段と、前記処理決定手段で選択された選択手段によって選択されたコマンドを実行する実行手段とを有することを特徴とする。
本発明によれば、音声認識の実行と、音声認識可能な認識コマンドの順次選択という関連する操作を、一つの操作部の操作に基づいて切り替えて実行することにより、ユーザにわかりやすく、また手早く操作できる手段を提供できる。
以下、添付図面を参照して本発明に係る実施の形態を詳細に説明する。ただし、この実施の形態に記載されている構成要素はあくまでも例示であり、本発明の範囲をそれらのみに限定する趣旨のものではない。
図1に、本発明の実施例1における情報処理装置の構成を表すブロック図を示す。同図において、101は、音声認識に割り当てられた音声認識ボタンの押下時間を取得する押下時間取得部である。102は、押下時間に基づいて認識コマンド選択処理を決定する処理決定部である。103は、ユーザの発声する音声を認識し、音声認識対象の認識コマンドを選択する音声認識部である。104は、所定の順序で認識コマンドを選択する認識コマンド選択部である。105は、選択した認識コマンドを実行する認識コマンド実行部である。
図2は、本発明の実施例1における情報処理装置の処理のフローチャートである。図1、図2を用いて、本発明の動作を説明する。
まず、ステップS201で、ユーザが音声認識のための音声認識ボタンを押下する。すると、ステップS202で、押下時間取得部101が、音声認識ボタンの押下時間を取得する。次に、処理決定部102が、ステップS203で、押下時間が所定の時間T以上であるか否かを判定する。もし押下時間がT以上であれば、処理決定部102が音声認識部103を選び、ステップS204で、音声認識部103が、ユーザの音声を認識して認識コマンドを選択する。一方、押下時間がT未満であれば、処理決定部102が認識コマンド選択部104を選び、ステップS205で、認識コマンド選択部104が、音声認識部103の認識対象である認識コマンドの中から所定の順番で認識コマンドを選択する。そして、ステップS206で、認識コマンド実行部105が、音声認識部103あるいは認識コマンド選択部104によって選択された認識コマンドを実行する。
図3は、本発明の実施例1における情報処理装置の使用例を表す図である。ここでは、マイクと音声認識ボタンを有するリモコンと、押下時間取得部101、処理決定部102、音声認識部103、認識コマンド選択部104、認識コマンド実行部105を備えるテレビで構成されるシステムを例に挙げて説明する。同図において、301はテレビである。302はテレビ301を操作するリモコンである。303は音声を入力するマイクである。304は音声認識に割り当てられた音声認識ボタンである。
同図において、ユーザが音声認識ボタン304を長押しすると、テレビ301では長押しを検知して音声認識を実行する。ここでユーザがマイク303に向かって発声すると、リモコン302が音声データをテレビ301に送信し、テレビ301で音声データを認識する。そしてテレビ301が認識結果の認識コマンドを実行する。同図ではユーザが“700”と発声しており、テレビ301ではこの音声を認識して700チャンネルに表示が切り換わっている。
一方、ユーザが音声認識ボタン304を短押しすると、テレビ301では短押しを検知する毎に音声認識可能な認識コマンドを所定の順序で実行する。同図では、短押しする毎に、認識対象のチャンネルに、152、327、418・・・と、次々と遷移して切り換わっている。順序についてはどのようなものでも良く、例えば番号順(名前順)でも良いし、音声認識対象として登録した順序でも良い。
図4に、ボタン押下時間のグラフを示す。同図において、横軸はボタン押下時間であり、時刻0がボタン押下開始を表す。また、グラフ(a)は短押し、グラフ(b)は長押し時の押下時間を表す。
(a)の短押しの場合、401で音声認識ボタンの押下を検知してから、402で音声認識ボタンを放すまでの時間が閾値T未満である。そのため、402の時点で、処理決定部102が認識コマンド選択部104を選び、認識コマンド選択部104が認識コマンドを所定の順序に基づいて選択し、認識コマンド実行部105が認識コマンドを実行する。
(b)の長押しの場合、401で音声認識ボタンの押下を検知してから、時刻Tを超えた403の時点で、処理決定部102が音声認識部103を選ぶ。音声認識部103は、403の時点からユーザが音声認識ボタンを放す404の時点までの間、ユーザの音声を取得して音声認識を実行し、音声認識結果の認識コマンドを認識コマンド実行部105が実行する。
以上により、長押しで音声認識を実行して所望の認識コマンドを実行すると共に、音声認識の補助手段として、短押しで認識コマンドを次々実行する操作を提供できる。
実施例1では図3に示すように、テレビ操作の用途を例として、マイク303と音声認識ボタン304とがテレビ301とは別装置のリモコン302に備わっている。そのため、テレビ301に備わるボタン押下時間取得部101はリモコン302から受信する制御信号に基づいて押下時間を取得する。
しかし、本発明はこのような形態に限るものではなく、1つの情報処理装置がマイク、音声認識ボタン、押下時間取得部、処理決定部、音声認識部、認識コマンド選択部、認識コマンド実行部を具備しても良い。この場合、押下時間取得部は同じ装置に具備されている音声認識ボタンの押下状態に基づいて押下時間を取得する。
またこの他、マイク、音声認識ボタン、押下時間取得部、処理決定部を備える第1の装置と、音声認識部、認識コマンド選択部、認識コマンド実行部を備える第2の装置で構成されても構わない。この場合、処理決定部で決定した結果を第2の装置に送信するよう構成すればよい。この他様々な構成を可能とすることは言うまでもない。
上記実施例では、図4に示すとおり、長押しの場合、長押しの区間にユーザの音声を取得して音声認識を実行している。しかし本発明はこれに限るものではなく、長押しを終了してからユーザの音声を取得して音声認識を実行しても良い。この実施例を表すグラフを図5に示す。同図では、音声認識ボタン押下501から時間Tを経過した時刻502で処理決定部102が音声認識部103を選ぶ。音声認識部103は、時間Tを経過した時刻502、あるいは音声認識ボタンが放された時刻503から音声を取得する。音声の取得は、音声区間検出技術によってユーザの発声の有無を検出し、ユーザの発声がなくなった時点504で音声取得を終了する。音声区間検出技術は、例えば音声のパワーに基づいて検出するなど、音声認識の分野で様々な手法が提案されており、いずれの方法でも良い。音声認識部103は、取得した音声を入力として音声認識によって認識コマンドを選択し、その認識コマンドを認識コマンド実行部105が実行する。
上記実施例では、音声認識ボタンの押下時間がT以上の場合に処理決定部102が音声認識部103を選び、T未満の場合に認識コマンド選択部を選んでいる。しかし本発明はこれに限るものではなく、音声認識ボタンの押下時間がT未満の場合に音声認識部103を選び、T以上の場合に認識コマンド選択部104を選ぶよう構成しても構わない。本実施例ではその例について説明する。
本実施例の様子をあらわすボタン押下時間のグラフを図6に示す。同図において、グラフ(a)は短押し、グラフ(b)は長押し時の押下時間を表す。
(a)の短押しの場合、ボタン押下時刻601からボタンを放す時刻602までの時間がT未満であるため、処理決定部102が音声認識部103を選ぶ。音声認識部103は、時刻602から音声を取得し、音声区間検出技術によってユーザの発声の有無を検知する。音声区間検出技術は、例えば音声のパワーに基づいて検出するなど、音声認識の分野で様々な手法が提案されており、いずれの方法でも良い。そしてユーザ発声がなくなったことを検知した時刻603で音声の取得を終了し、音声認識を実行して認識コマンドを選択する。
(b)の長押しの場合、時間Tを経過した時刻604で処理決定部102は認識コマンド選択部104を選び、認識コマンド選択部104が所定の順序で認識コマンドを選択し、認識コマンド実行部105が実行する。その後、長押ししている間、所定の時間間隔毎(605)に、認識コマンド選択部104が次々と所定の順序で認識コマンドを選択し、認識コマンド実行部105が実行する。
本実施例の動作としては、音声認識ボタンの短押し時には、短押し後にユーザが発声して音声認識による認識コマンドを実行し、長押し時には、長押し中に所定の時間間隔で認識コマンドを次々と実行する。
上記実施例では、図4、図5、図6のいずれの場合でも、処理決定部102が音声認識部103を選んだ時点(403、502あるいは503、602)から音声の取得を開始するよう説明している。
しかし本発明はこれに限るものではなく、ボタン押下開始時(401、501、601)で音声の取得を開始しても良い。ボタン押下開始時から音声取得を開始してメモリに保存しておき、処理決定部102が音声認識部103を選んだ時点(403、502あるいは503、602)で取得した音声に対して音声認識を実行する。一方、処理決定部102が認識コマンド選択部104を選んだ場合は、その時点(402、604)でメモリに保存した音声を消去する。
あるいは、ボタン押下開始時(401、501、601)で音声取得と共に音声認識の実行を開始しても良い。このとき、処理決定部102が認識コマンド選択部104を選んだ場合は、その時点(402、604)でメモリに保存した音声を消去すると共に音声認識処理を停止する。
この場合のフローチャートを図7に示す。同図において、まず、ステップS701で、ユーザが音声認識のための音声認識ボタンを押下する。すると、ステップS702で、音声認識部103が、音声の取得と音声認識を開始する。次に、ステップS703で、押下時間取得部101が、音声認識ボタンの押下時間を取得する。次に、処理決定部102が、ステップS704で、押下時間が所定の時間T以上であるか否かを判定する。もし押下時間がT以上(この条件は上記実施例の形態により以上/未満が逆になる。)であれば、処理決定部102が音声認識部103を選び、ステップS705で、音声認識部103が、音声認識結果から認識コマンドを選択する。一方、押下時間がT未満であれば、処理決定部102が認識コマンド選択部104を選び、ステップS706で、音声認識部103の実行する音声認識を停止する。そして、ステップS707で、認識コマンド選択部104が、認識コマンドの中から所定の順番で認識コマンドを選択する。そして、ステップS708で、認識コマンド実行部105が、音声認識部103あるいは認識コマンド選択部104によって選択された認識コマンドを実行する。
上記実施例では、図3において、音声認識ボタンの短押しで認識コマンド選択部104が認識コマンドを次々と選択して遷移する時に、単に認識コマンドに応じて画面が切り換わっている。本実施例では、ここでさらに認識コマンドのリストを表示する。図8にその様子を示す。同図において、801は、認識コマンドのリストである。802は、認識コマンド選択部104が選択した認識コマンドに対するフォーカスである。
音声認識ボタンを短押しすると、認識コマンド選択部104が選択した認識コマンドを認識コマンド実行部105が実行して画面遷移すると共に、リスト801を表示する。リスト801では、認識コマンド選択部104が選択した認識コマンドに対してフォーカス802をあてる。リスト801は。所定の時間表示した後に消去する。音声認識ボタンの短押しを連続で行なうと、認識コマンド選択部104が選択した認識コマンドを順々に実行すると共に、フォーカス802が、リスト701上の実行した認識コマンドに順々に移動する。リスト801は、短押ししてから所定の時間経過後に表示を消しても良い。
上記実施例の短押しにおける遷移において次々と所定の順序で遷移するには、認識コマンドのリストと、リストの順序における現在位置を記憶する必要がある。例えば、図8のリスト801を上から順に遷移する場合、152、327、418・・・と遷移するには、例えば短押しで152チャンネルから327チャンネルに遷移した時点で、リスト801と、現在そのリストの二番目であることを記憶することで、初めて次の短押しで418チャンネルへ遷移できる。
しかし本発明は、遷移先でリストの現在位置をずっと記憶する実施形態に限らない。例えば、リスト801上の位置を所定時間R経過後にリセットしても良い。短押し間の時間間隔をR未満で、連続して短押しすると、152、327、418とリスト上の所定の順序で次々と遷移する。その一方、418チャンネルで時間R以上留まると、リスト801上の位置が初期化され、次に短押しすると152チャンネルに遷移する。
上記実施例の短押しにおける遷移において次々と所定の順序で遷移するには、認識コマンドのリストと、リストの順序における現在位置を記憶する必要がある。
しかし、本発明の用途によっては、図8の認識コマンドのリストが、認識コマンド実行前と実行後とで異なる場合もある。この場合には、認識コマンド実行後、所定時間S経過したらリストを更新する方法を提供する。
図9を用いて本実施例における動作を説明する。同図において、901は、本実施例におけるテレビ301の番組視聴画面での認識コマンドのリストの一例である。902は、テレビ301の番組表画面での認識コマンドのリストの一例である。番組視聴画面では短押しごとにリスト901を移動する。ここで、リスト901の“番組表“に遷移したときに、遷移してから所定時間S以内に短押しを再度押下した場合、リスト901を保持したまま、”番組表“の次の”検索“に遷移する。その一方、“番組表“に遷移してから所定時間Sを経過した場合、番組表でのリスト902に切り換わる。その上で音声認識ボタンを短押しすると、リスト902の先頭である”明日“を認識コマンドとして選択して実行する。
上記実施例では、認識コマンド選択部104が、認識コマンド全ての中から所定の順序で認識コマンドを選択しているが、本発明はこれに限るものではなく、認識対象の認識コマンドのうち、所定のサブセットからのみ認識コマンドを選択しても良い。図10にその様子を示す。同図では、認識コマンドとして、チャンネル遷移のほかに、メニュー、電源オフなどの認識コマンドも含まれている。しかし、認識コマンド選択部が選択する認識コマンドのサブセットは、チャンネル選択に限っている。こうすることで、音声認識ボタンを次々と短押しした時に起こる動作はチャンネル遷移に限られる。このサブセットはどのような基準で決めても構わない。このように、認識コマンドの中から、所定の基準によって選別した認識コマンドのサブセットのみ、認識コマンド選択部104が選択可能にしても良い。
上記実施例では認識コマンド選択部104が認識コマンドを選択する順序はどのような方法でも良いとし、図3では番号順(名前順)で次々と認識コマンドを選択する様子を示している。本実施例は認識コマンドを選択する順序を決める基準として音声認識難易度を用いる。
認識コマンドは、その発声内容によって音声認識の難易度が異なる。図11に認識コマンドと、これを発声する際の読みである音素列を示す。同図において、認識コマンド“152”と認識コマンド“155”は12音素中、10音素が同じであり、互いに誤認識し易く、他と比べて音声認識難易度が高いといえる。音声認識難易度の計算方法は従来から様々な方法があり、そのどれを用いても良い。例えば他の認識コマンドと一致する音素数の割合に基づいて計算しても良いし、認識コマンドに含まれる音素特徴、音素間の類似度、音素数に基づいて計算しても良い。また、音声認識難易度は、あらかじめ計算した値をそれぞれの認識コマンドが有していても構わないし、認識コマンドのリストを音声認識部103が読み込んだ時に計算しても良い。これらいずれかの方法で求めた音声認識難易度の高い順に、認識コマンド選択部104が認識コマンドを選択する。
このように、音声認識難易度の高い順に認識コマンドを並べることで、音声認識で誤認識し易い認識コマンドが順次選択の前方に、誤認識し難い認識コマンドが順次選択の後方に並ぶ。従って、音声認識で難しい認識コマンドは順次選択で選択しやすく、順次選択で操作回数が多くなる認識コマンドは音声認識しやすい、という互いの選択方法を補助しあう操作を実現できる。
上記実施例は、図1に示すようにボタンの押下時間に基づいて処理決定部102が音声認識部103と認識コマンド選択部104のいずれかを選択している。しかし本発明はボタンの押下時間に限るものではなく、一つの操作部(レバー、タッチセンサなど)に対する異なる操作によって音声認識部103と認識コマンド選択部104を切り替えても、本発明は適用される(この場合、押下時間取得部101は必要ない)。例えば、レバーを前に倒すと処理決定部102が音声認識部103を選択し、レバーを後ろに倒すと処理決定部102が認識コマンド選択部104を選択する、という実施形態でも本発明は適用される。
なお、本発明の目的は次のようにしても達成される。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行する。このようにしても目的が達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、本発明に係る実施の形態は、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される場合に限られない。例えば、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、本発明に係る実施形態の機能は次のようにしても実現される。即ち、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれる。そして、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行う。この処理により前述した実施形態の機能が実現されることは言うまでもない。
本発明の実施例1における情報処理装置の機能構成を表すブロック図である。 本発明の実施例1における情報処理装置の処理のフローチャートである。 本発明の実施例1における情報処理装置の動作の様子を表す図である。 本発明の実施例1におけるボタン押下時間を表すグラフである。 本発明の実施例3におけるボタン押下時間を表すグラフである。 本発明の実施例4におけるボタン押下時間を表すグラフである。 本発明の実施例5における情報処理装置の処理のフローチャートである。 本発明の実施例6における順次選択実行時の認識コマンドのリスト表示を表す図である。 本発明の実施例8における認識コマンドのリストを表す図である。 本発明の実施例9における認識コマンドのサブセットを表す図である。 本発明の実施例10における認識コマンドの音素列を表す図である。 従来の技術における認識コマンドのリスト表示を表す図である。
符号の説明
101 押下時間取得部
102 処理決定部
103 音声認識部
104 認識コマンド選択部
105 認識コマンド実行部

Claims (16)

  1. コマンドに従って処理を実行する情報処理装置であって、
    前記コマンドを音声で入力するための認識コマンドを複数記憶する記憶手段を参照し、入力された音声を認識してコマンドを選択する第1選択手段と、
    前記記憶手段に記憶された複数の認識コマンドに対応するコマンドのいずれかを所定の順序に従って選択する第2選択手段と、
    所定の操作部に対する操作に基づいて、前記第1選択手段、前記第2選択手段のいずれかを選択する処理決定手段と、
    前記処理決定手段で選択された選択手段によって選択されたコマンドを実行する実行手段と、
    を有することを特徴とする情報処理装置。
  2. 前記操作部はボタンであり、
    前記処理決定手段は、前記ボタンの押下時間に基づいて前記第1選択手段、前記第2選択手段のいずれかを選択することを特徴とする請求項1に記載の情報処理装置。
  3. 前記操作部は遠隔操作装置が有するボタンであり、
    前記処理決定手段は、前記遠隔操作装置の前記ボタンの押下時間を取得し、該押下時間に基づいて前記第1選択手段と前記第2選択手段のいずれかを選択することを特徴とする請求項1に記載の情報処理装置。
  4. 前記処理決定手段は、前記押下時間が所定時間以上の場合に前記第1選択手段を選択し、前記所定時間未満の場合に前記第2選択手段を選択することを特徴とする請求項2又は3に記載の情報処理装置。
  5. 前記処理決定手段は、前記押下時間が所定時間未満の場合に前記第1選択手段を選択し、前記所定時間以上の場合に前記第2選択手段を選択し、
    前記実行手段は、前記第2選択手段が選択された場合に、所定の時間間隔で所定の順序毎に前記コマンドを実行することを特徴とする請求項2又は3に記載の情報処理装置。
  6. 前記第2選択手段は、前記複数の認識コマンドに対応するコマンドのサブセットから一つを選択することを特徴とする前記請求項1乃至5のいずれかに記載の情報処理装置。
  7. 前記認識コマンドそれぞれに対して音声認識難易度を取得する音声認識難易度取得手段をさらに有し、
    前記第2選択手段は、前記記憶手段に記憶された複数の認識コマンドに対応するコマンドを、対応する前記認識コマンドの音声認識難易度の大きい順に選択することを特徴とする請求項1乃至6にいずれかに記載の情報処理装置。
  8. コマンドに従って処理を実行する情報処理方法であって、
    所定の操作部に対する操作に基づいて、前記コマンドを音声で入力するための認識コマンドを複数記憶する記憶手段を参照し、入力された音声を認識してコマンドを選択する第1選択工程、前記記憶手段に記憶された複数の認識コマンドに対応するコマンドのいずれかを所定の順序に従って選択する第2選択工程のいずれかを選択する処理決定工程と、
    前記処理決定工程で選択された選択工程によって選択されたコマンドを実行する実行工程と、
    を有することを特徴とする情報処理方法。
  9. 前記操作部は所定のボタンであり、
    前記処理決定工程は、前記ボタンの押下時間に基づいて前記第1選択工程と前記第2選択工程のいずれかを選択することを特徴とする請求項8に記載の情報処理方法。
  10. 前記操作部は遠隔操作装置が有する所定のボタンであり、
    前記処理決定工程は、前記遠隔操作装置の前記ボタンの押下時間に基づいて前記1選択工程と前記第2選択工程のいずれかを選択することを特徴とする請求項8に記載の音声認識方法。
  11. 前記処理決定工程は、前記押下時間が所定時間以上の場合に前記第1選択工程を選択し、前記所定時間未満の場合に前記第2選択工程を選択することを特徴とする請求項9又は10に記載の音声認識方法。
  12. 前記処理決定工程は、前記押下時間が所定時間未満の場合に前記第1選択工程を選択し、前記所定時間以上の場合に前記第2選択工程を選択し、
    前記実行工程は、前記第2選択工程が選択された場合に、所定の時間間隔で所定の順序毎に前記コマンドを実行することを特徴とする請求項9又は10に記載の情報処理方法。
  13. 前記第2選択工程は、前記複数の認識コマンドに対応するコマンドのサブセットから一つを選択することを特徴とする請求項8乃至12のいずれかに記載の情報処理方法。
  14. 前記認識コマンドそれぞれに対して音声認識難易度を取得する音声認識難易度取得工程をさらに有し、
    前記第2選択工程は、前記記憶手段に記憶された複数の認識コマンドに対応するコマンドを、対応する認識コマンドの前記音声認識難易度の大きい順に選択することを特徴とする請求項8乃至13のいずれかに記載の情報処理方法。
  15. 請求項8乃至14のいずれかに記載の情報処理方法をコンピュータに実行させるためのプログラム。
  16. 請求項15に記載のプログラムを格納するコンピュータ読取可能な記憶媒体。
JP2006332174A 2006-12-08 2006-12-08 情報処理装置及び情報処理方法 Withdrawn JP2008145693A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006332174A JP2008145693A (ja) 2006-12-08 2006-12-08 情報処理装置及び情報処理方法
US11/936,025 US8041576B2 (en) 2006-12-08 2007-11-06 Information processing apparatus and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006332174A JP2008145693A (ja) 2006-12-08 2006-12-08 情報処理装置及び情報処理方法

Publications (1)

Publication Number Publication Date
JP2008145693A true JP2008145693A (ja) 2008-06-26

Family

ID=39499332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006332174A Withdrawn JP2008145693A (ja) 2006-12-08 2006-12-08 情報処理装置及び情報処理方法

Country Status (2)

Country Link
US (1) US8041576B2 (ja)
JP (1) JP2008145693A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014089437A (ja) * 2012-10-29 2014-05-15 Samsung Electronics Co Ltd 音声認識装置及び音声認識方法
JP2021077142A (ja) * 2019-11-11 2021-05-20 株式会社ブイキューブ 情報処理装置、情報処理方法及びプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135809B2 (en) * 2008-06-20 2015-09-15 At&T Intellectual Property I, Lp Voice enabled remote control for a set-top box
US8639513B2 (en) * 2009-08-05 2014-01-28 Verizon Patent And Licensing Inc. Automated communication integrator
WO2013022135A1 (en) * 2011-08-11 2013-02-14 Lg Electronics Inc. Electronic device and method of controlling the same
EP3958255A1 (en) 2015-01-16 2022-02-23 Samsung Electronics Co., Ltd. Method and device for performing voice recognition
KR102371770B1 (ko) * 2015-01-19 2022-03-07 삼성전자주식회사 음성 인식 장지 및 방법
US11176930B1 (en) * 2016-03-28 2021-11-16 Amazon Technologies, Inc. Storing audio commands for time-delayed execution
CN110517673B (zh) * 2019-07-18 2023-08-18 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10171492A (ja) 1996-12-16 1998-06-26 Citizen Watch Co Ltd 電子辞書装置とその操作方法
US7324947B2 (en) * 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
EP1611504B1 (en) * 2003-04-07 2009-01-14 Nokia Corporation Method and device for providing speech-enabled input in an electronic device having a user interface
ES2675734T3 (es) * 2005-04-07 2018-07-12 Orange Procedimiento de sincronización entre una operación de procesamiento de reconocimiento vocal y una acción de activación de dicho procesamiento

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014089437A (ja) * 2012-10-29 2014-05-15 Samsung Electronics Co Ltd 音声認識装置及び音声認識方法
JP2021077142A (ja) * 2019-11-11 2021-05-20 株式会社ブイキューブ 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
US8041576B2 (en) 2011-10-18
US20080140423A1 (en) 2008-06-12

Similar Documents

Publication Publication Date Title
JP2008145693A (ja) 情報処理装置及び情報処理方法
KR101262700B1 (ko) 음성 인식 및 모션 인식을 이용하는 전자 장치의 제어 방법 및 이를 적용한 전자 장치
US10706853B2 (en) Speech dialogue device and speech dialogue method
JP6400109B2 (ja) 音声認識システム
ES2958183T3 (es) Procedimiento de control de aparatos electrónicos basado en el reconocimiento de voz y de movimiento, y aparato electrónico que aplica el mismo
JP4416643B2 (ja) マルチモーダル入力方法
US8726196B2 (en) Gesture input device, gesture input method, and program
JP4667138B2 (ja) 音声認識方法及び音声認識装置
US7027565B2 (en) Voice control system notifying execution result including uttered speech content
JPWO2007111162A1 (ja) テキスト表示装置、テキスト表示方法およびプログラム
JP2015153325A (ja) 情報処理装置、操作支援方法及び操作支援プログラム
CN112805662A (zh) 信息处理装置、信息处理方法和计算机程序
WO2012160843A1 (ja) 情報機器
CN104715005A (zh) 信息处理设备以及方法
WO2016103465A1 (ja) 音声認識システム
JP6746886B2 (ja) 学習支援装置及びその学習支援装置用のプログラム
JP2006134506A (ja) ディジタル映像再生装置
KR102656611B1 (ko) 보이스 어시스턴트 서비스를 이용한 컨텐츠 재생 장치 및 그 동작 방법
JP2006178898A (ja) 地点検索装置
JP4229627B2 (ja) ディクテーション装置、方法及びプログラム
JP2002268667A (ja) プレゼンテーションシステムおよびその制御方法
WO2012017525A1 (ja) 処理装置及びコマンド入力支援方法
KR102393774B1 (ko) 음성 인식 장치 및 그 제어방법
WO2015102039A1 (ja) 音声認識装置
JP2008059571A (ja) 音声入力装置及び機器操作方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100302