JP2012043281A - 情報処理装置およびその動作方法 - Google Patents

情報処理装置およびその動作方法 Download PDF

Info

Publication number
JP2012043281A
JP2012043281A JP2010185295A JP2010185295A JP2012043281A JP 2012043281 A JP2012043281 A JP 2012043281A JP 2010185295 A JP2010185295 A JP 2010185295A JP 2010185295 A JP2010185295 A JP 2010185295A JP 2012043281 A JP2012043281 A JP 2012043281A
Authority
JP
Japan
Prior art keywords
sound
determined
voice
unit
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010185295A
Other languages
English (en)
Inventor
Shunsuke Sato
俊介 佐藤
Hideo Kuboyama
英生 久保山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2010185295A priority Critical patent/JP2012043281A/ja
Publication of JP2012043281A publication Critical patent/JP2012043281A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Position Input By Displaying (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】 発声中に生じる、ポインティングされた位置のぶれを軽減する。
【解決手段】 異なる複数の時点において、ポインティングデバイスによってポインティングされた表示面上の位置を示す情報を保持し、音声区間を特定し、前記複数の時点のうち前記音声区間に含まれる各時点における前記位置を示す情報に基づいて、前記表示面上の注目位置を決定する。
【選択図】 図2

Description

本発明は、位置を指定する技術に関する。
従来、レーザーポインタをポインティングデバイスとして用いて、遠距離にある画面上のオブジェクトを指示し、音声認識を用いて制御を行う方法が知られている。尚、ポインティングデバイスを用いて音声認識による制御を行う方法としては、画面上のオブジェクトを選択して、指示語の発声を用いて音声制御を行う方法が知られている(例えば、特許文献1)。
特開平09−081364号公報
しかし、レーザーポインタは手の振動でポインタ像が意図した位置からずれる(ぶれる)場合が多く、手の振動は生理的な現象のために止めることが難しい。そのため上記従来の技術では、意図に反した位置を指示してしまうことがある。また、利用者が何らかの言葉を発声する際には発声に意識が向かうため、音声コマンドの発声時にはぶれが大きくなり、オブジェクトを正確に指示し続けることがさらに難しい。発声が行われているということは音声コマンドを入力しようとしている可能性が高く、その最中に予期せぬオブジェクトの選択や選択解除が発生することは、利用者の操作の大きな妨げとなり、利便を損ねる。
上記の課題を解決するために、本発明の情報処理装置は以下の構成を備える。すなわち、異なる複数の時点において、ポインティングデバイスによってポインティングされた表示面上の位置を示す情報を保持する保持手段と、音声区間を特定する特定手段と、前記複数の時点のうち前記音声区間に含まれる各時点における前記位置を示す情報に基づいて、前記表示面上の注目位置を決定する決定手段とを有する。
以上の構成により、音声コマンドの発声中に、ポインタの手ぶれによる予期せぬオブジェクトの選択や選択解除の発生を軽減することが出来る。
情報処理装置の機能構成を示す機能ブロック図。 記憶部が記憶するデータの履歴を説明する模式図。 情報処理装置の使用時の処理過程の一例を説明するフローチャート。 レーザーポインタの輝点の位置を認識する処理過程の一例を説明するフローチャート。 指示オブジェクトを決定する処理過程の一例を説明するフローチャート。 画面上のオブジェクトおよび、レーザーポインタの軌跡の一例を示す図。 図6の軌跡が全て音声区間でなかった場合に決定される、仮の指示オブジェクトを決定するための位置及び指示オブジェクトを説明する図。 図6の軌跡が全て音声区間であった場合に決定される、仮の指示オブジェクトを決定するための位置及び指示オブジェクトを説明する図。 図6の軌跡が全て音声区間であり、かつ25フレーム目に所定の単語が音声認識された場合に決定される、仮の指示オブジェクトを決定するための位置及び指示オブジェクトを説明する図。
以下、図面を参照しながら、本発明の実施形態について説明する。
(第一の実施形態)
図1は本実施形態における情報処理装置の機能構成を示す機能ブロック図である。表示部101、撮像部102、集音部103、ポインタ認識部104、音声区間検出部105、音声認識部106、画面情報制御部107、統合部108、設定部109、記憶部110から成る。表示部101は、画面(表示面)を表示するプロジェクターである。なお、液晶モニタやブラウン管を用いてもよい。撮像部102は、表示部101および利用者が照射するレーザーポインタの輝点を撮像するビデオカメラである。集音部103は、音を集音して電気信号に変換するマイクロホンである。ポインタ認識部104はMPU等によって構成され、撮像部102が撮像した画像中からレーザーポインタの輝点の位置を認識する。音声区間検出部105はMPU等によって構成され、集音部103が集音した音の信号から、音声を含む区間を検出する。音声認識部106はMPU等によって構成され、利用者の音声を認識して音声コマンドを発行する。
画面情報制御部107はMPU等によって構成され、表示部101が表示する情報を管理し、音声認識部106が発行した音声コマンドに従って制御を行う。統合部108はMPU等によって構成され、単位時間ごとにポインタ認識部104、音声区間検出部105、音声認識部106、画面情報制御部107の情報を統合した情報処理を行う。単位時間の長さは、例えば60分の1秒などに定め、これをフレームと呼ぶ。設定部109はMPU等によって構成され、処理に用いるパラメーターを保持および変更する。記憶部110は、集音部103で集音した音データ、音声区間検出部105による音声区間の判定結果、ポインタ認識部104によるポイント位置データを記憶する。また、記憶部110は、音声認識部106で認識した音声認識結果、および統合部108によって決定された仮の指示オブジェクトと指示オブジェクトをキャッシュとして記憶する。キャッシュは、例えば300フレーム前から現在のフレームまでの分、すなわち5秒分のデータを保持する。なお、データを保持するフレームの数はこの限りでなく、またデータの種類ごとに保持する長さを変えてもよい。
図2は、記憶部110が保持するキャッシュの一例を図示したものである。ここで、音声区間の判定結果(図2(b)の各フレームにおける「音声区間」の項目の結果に相当)とは、そのフレームにおいて人の声が発せられたか否かを表す情報である。そして、「音声区間である(「音声区間」の項目の結果が丸印である)」場合と、「音声区間でない(「音声区間」の項目の結果がバツ印である)」場合のいずれかを取る。なお、二値情報でなく、確からしさの程度を点数として保持するのでもよい。
また、音声区間検出部105は、所定の閾値以上の音量、音圧の音が継続して検知された区間を音声区間として検出してもよい。また、音声区間検出部105は、まず、所定の閾値以上の音量、音圧の音が検知された後、所定の閾値以上の音量、音圧の音が検知されなくなる。そして、所定の閾値以上の音量、音圧の音が検出されなくなった時点から所定の時間が経過する前に、再び所定の閾値以上の音量、音圧の音が検知された場合、以下に示す区間を音声区間として検出してもよい。即ち、最初に所定の閾値以上の音量、音圧の音が検知された時点から再び検知された所定の閾値以上の音量、音圧の音が消えるまでの区間である。つまり、所定の閾値以上の音量、音圧の音が継続して検知された複数の区間に挟まれる区間であって、所定の閾値以上の音量、音圧の音が検出されない時間が所定の時間に満たない区間も一連の音声区間の一部として検出してもよい。
ポイント位置データとは、そのフレームにおいてユーザーが照射したと考えられるレーザーポインタの輝点の、表示部101が表示する画面上(表示面上)における座標である。ポインタの輝点が発見されない場合は「なし」という値を取る。仮の指示オブジェクトとは、そのフレームおよびキャッシュの情報を加味して、そのフレームにおいてポインタが指示しようとしていると考えられる、画面上のオブジェクトである。指示オブジェクトとは、最終的にそのフレームにおいてユーザーが指示したものとするオブジェクトである。仮の指示オブジェクトおよび指示オブジェクトの情報は、画面情報制御部107で管理するオブジェクトのID、もしくはないと考えられる場合には「なし」を取る。仮の指示オブジェクトおよび指示オブジェクトは、後述する処理によって、統合部108が決定する。
図3は、フレームごとに行われる処理動作の流れを示したフローチャートである。まず、ステップS300において、ポインタ認識部104は現在のフレームにおけるレーザーポインタの輝点の画面上の座標を認識する。次に、ステップS301において、集音部103は現在のフレームの間の音を集音し、電気信号に変換して現在のフレームの音データとして記憶部110に記録する。次に、ステップS302において、音声区間検出部105は現在のフレームの音データについて音声区間検出(VAD:Voice Activity Detection)を行い、人間の音声であるか否かを判断する。音声であれば、現在のフレームは「音声区間である」とする。そうでなければ、現在のフレームは「音声区間でない」とする。音声区間検出には公知の方法、例えば音声、非音声のガウス混合分布(GMM)とそれぞれ比較する方法を用いる。次に、ステップS303において、統合部108はステップS302およびステップS300で得られた情報を用いて、仮の指示オブジェクトおよび指示オブジェクトを決定する。次に、ステップS304において、音声認識部106は、現在からの連続した音声区間の音データに対して音声認識を行う。音声認識には公知の手法、例えば隠れマルコフモデル(HMM)を用いて行う。現在の時点からの連続した音声区間の音データに対して音声認識を行い、最も尤度の高い認識結果の単語をキャッシュに記憶する。なお、現在のフレームが音声区間でない場合、もしくは音声区間であっても認識外の単語であるか、短すぎて判断できない場合は「なし」とする。
次に、ステップS305において、統合部108はキャッシュを調べ、現在のフレームの直前の、所定の個数の連続したフレームの間に指示されたオブジェクトが、全てステップS303で決定した指示オブジェクトであるかどうかを判断する。この所定の個数をK個とし、設定部109から取得するか、あるいは事前にたとえば40個などの固定値として定める。尚、ステップS305において、直前のK個のフレームの間に指示されたオブジェクトの全てがステップS303で決定した指示オブジェクトであると判断された場合、統合部108はステップS306の処理を実行する。一方、ステップS304において、直前のK個のフレームの間に指示されたオブジェクトの少なくとも一つがステップS303で決定した指示オブジェクトでないと判断された場合、統合部108はステップS307の処理を実行する。ステップS306において、画面情報制御部107は、ステップS305において得られた音声認識の結果に基づき、現在のフレームでの指示オブジェクトに対して所定の情報処理を行う。
ここで、ステップS306の次、もしくはステップS304において、直前のK個のフレームの間に指示されたオブジェクトの少なくとも一つがステップS303で決定した指示オブジェクトでないと判断された場合に実行される一連の処理について説明する。尚、この処理は、ステップS307から始まる処理に相当する。ステップS307において、統合部108は、現在のフレームの情報をキャッシュとして保持する。現在のフレームにおける音声区間の判定結果としてはステップS302で得られた音声区間の判定結果を用いる。ポイント位置データとしては、ステップS300で得られた画面上の座標を用いる。仮の指示オブジェクトおよび指示オブジェクトとしては、ステップS303で得られた仮の指示オブジェクトおよび指示オブジェクトをそれぞれ用いる。尚、最も古いキャッシュは破棄する。
図4は、ステップS300において行われるレーザーポインタの輝点の位置を認識する処理の流れを表したフローチャートである。まずステップS401において、撮像部102は画面を撮像する。次に、ステップS402において、ポインタ認識部104は撮像した画像を、所定の輝度を閾値とする二値画像に変換する。例えばYCbCr色空間の表現においてY成分が100以上の領域を白、それ以外を黒とする二値画像を作成する。なお、この閾値は他の値でもよく、また設定部109から取得するようにしてもよい。また輝度以外の成分の範囲を条件に設定してもよく、複数の成分を条件としてもよい。またL*a*b*表色系やRGBなど他の色空間を用いてもよい。次に、ステップS403において、ポインタ認識部104は二値画像から所定の半径、例えば5ピクセル以上の円形を含む白の領域を検索し、円の中心の画面上の座標を検出する。この領域はレーザーポインタの像として画面上に形成される輝点であると考えられる。
なお、ポインタとして大きすぎると考えられる領域、例えば15ピクセル以上の円形を含む範囲が発見された場合はエラーとするか、あるいはポインタが発見されなかったものとして処理してもよい。次に、ステップS404において、統合部108は、ステップS403において少なくとも1つの輝点が発見されたか否かを判断する。尚、ステップS404において、ステップS403において少なくとも1つの輝点が発見されたと判断された場合、統合部108はステップS407の処理を実行する。一方、ステップS404において、ステップS403において輝点が発見されなかったと判断された場合、統合部108はステップS405の処理を実行する。ステップS406において、統合部108は、ステップS403において発見された輝点の座標の、画面上の座標を取得する。画面上の座標は、撮像部が撮像した画像内の画面の四隅が成す四角形から、画面の座標への射影変換を、輝点の画像中の位置に対して行うことによって求める。次に、ステップS407において、統合部108は、現在のフレームの直前のフレームにおける輝点の座標を取得する。次に、ステップS408において、統合部108は、ステップS403において発見された輝点の中で、直前のフレームでの輝点の座標に最も近い輝点の座標を、現在のフレームにおけるポインタの座標と定める。
ここで、ステップS404において、ステップS403において輝点が発見されなかったと判断された場合に実行される一連の処理について説明する。尚、この処理は、ステップS405から始まる処理に相当する。ステップS405において、現在のフレームにおけるポインタの座標を「なし」と定める。
図5は、統合部108がステップS303において指示オブジェクトを決定する処理の流れを表したフローチャートである。まず、ステップS501において、統合部108は、ステップS302において現在のフレームが音声区間と判断されているか否かを判断する。尚、ステップS501において、ステップS302において現在のフレームが音声区間と判断されている場合、統合部108はステップS502の処理を実行する。一方、ステップS501において、ステップS302において現在のフレームが音声区間と判断されている場合、統合部108はステップS512の処理を実行する。ステップS502において、統合部108はキャッシュを参照して、現在からの連続した(特定された)音声区間におけるポイント位置データの座標値の相加平均を算出する。ここで、現在からの連続した音声区間とは、最後に音声区間でないと判断されたフレームの次のフレームから現在のフレームまでの範囲である。ポイント位置データが「なし」と判断されているフレームについては、平均を取る対象から除外する。なお、相加平均の代わりに相乗平均、調和平均、二乗平均、最頻値などを用いてもよい。
次に、ステップS523において、ステップS502で算出した座標値の平均の位置に存在する画面上のオブジェクトを取得し、これをオブジェクトOとする。ただし、オブジェクトOは存在しない可能性もある。次に、ステップS503において、統合部108はキャッシュを参照して、現在からの連続した音声区間において、最も多くのフレームで仮の指示オブジェクトとして判断されたオブジェクトを取得し、これをオブジェクトOmaxとする。次に、ステップ821において、統合部108はキャッシュを参照して、現在からの連続した音声区間において、最も新しいフレームでの音声認識結果を取得し、これを音声認識結果wとする。次に、ステップS504において、統合部108はステップS502においてオブジェクトOが存在したか否かを判断する。尚、ステップS504において、ステップS502においてオブジェクトOが存在したと判断された場合、統合部108はステップS505の処理を実行する。一方、ステップS504において、ステップS502においてオブジェクトOが存在しないと判断された場合、統合部108はステップS507の処理を実行する。
ステップS505において、統合部108は現在のフレームにおける仮の指示オブジェクトはオブジェクトOであると判断する。次に、ステップS506において、統合部108はオブジェクトOとオブジェクトOmaxが同一のオブジェクトであるか否かを判断する。
尚、ステップS506において、オブジェクトOとオブジェクトOmaxが同一のオブジェクトであると判断された場合、統合部108はステップS509の処理を実行する。一方、ステップS506において、オブジェクトOとオブジェクトOmaxが同一のオブジェクトでないと判断された場合、統合部108はステップS508の処理を実行する。
ここで、ステップS504において、ステップS502においてOが存在しないと判断された場合に実行される一連の処理について説明する。尚、この処理は、ステップS507から始まる処理に相当する。ステップS507において、統合部108は現在のフレームにおける仮の指示オブジェクトを「なし」であると判断する。ここで、ステップS507の次、もしくはステップS506において、OとOmaxが同一のオブジェクトでないと判断された場合に実行される一連の処理について説明する。尚、この処理は、ステップS522から始まる処理に相当する。ステップS522において、統合部108は音声認識結果wが音声認識結果の集合Wに含まれるか否かを判断する。音声認識結果の集合Wは、複数個のオブジェクトの指示を示す接頭語、例えば「これらを」「これと」「このあたり」などの単語であり、設定部109から取得するか、事前に固定した集合として定める。尚、ステップS522において、音声認識結果wが音声認識結果の集合Wに含まれないと判断された場合、統合部108はステップS512の処理を実行する。
一方、ステップS522において、音声認識結果wが音声認識結果の集合Wに含まれると判断された場合、統合部108はステップS508の処理を実行する。ここで、ステップS522において、音声認識結果wが音声認識結果の集合Wに含まれないと判断された場合に実行される一連の処理について説明する。尚、この処理は、ステップS508から始まる処理に相当する。
ステップS508において、統合部108は、現在からの連続した音声区間において、Omaxを仮の指示オブジェクトとするフレームの割合が所定の割合未満であるか否かを判断する。この所定の割合をR1パーセントとし、設定部109から取得するか、事前にたとえば50%などの固定値として定める。尚、ステップS508において、現在からの連続した音声区間において、オブジェクトOmaxを仮の指示オブジェクトとするフレームの割合がR1パーセント未満であると判断された場合、統合部108はステップS509の処理を実行する。一方、ステップS508において、現在からの連続した音声区間において、オブジェクトOmaxを仮の指示オブジェクトとするフレームの割合がR1パーセント以上と判断された場合、統合部108はステップS510の処理を実行する。
ここで、ステップS506において、オブジェクトOとオブジェクトOmaxが同一のオブジェクトであると判断された場合に実行される一連の処理について説明する。また、ステップS508において、現在からの連続した音声区間において、オブジェクトOmaxを仮の指示オブジェクトとするフレームの割合がR1パーセント以上であると判断された場合に実行される一連の処理について説明する。尚、この処理は、ステップS509から始まる処理に相当する。ステップS509において、統合部108は現在のフレームにおける指示オブジェクトはオブジェクトOmaxであると判断する。ここで、ステップS508において、現在からの連続した音声区間において、オブジェクトOmaxを仮の指示オブジェクトとするフレームの割合がR1パーセント未満であると判断された場合に実行される一連の処理について説明する。尚、この処理は、ステップS510から始まる処理に相当する。ステップS510において、統合部108はステップS504と同様に、ステップS502においてオブジェクトOが存在したか否かを判断する。尚、ステップS510において、ステップS502においてオブジェクトOが存在したと判断された場合、統合部108はステップS511の処理を実行する。一方、ステップS510において、ステップS502においてオブジェクトOが存在しないと判断された場合、統合部108はステップS512の処理を実行する。ステップS511において、統合部108は現在のフレームにおける指示オブジェクトはOであると判断する。
ここで、ステップS501において、ステップS302において現在のフレームが音声区間と判断されていると判断された場合に実行される一連の処理について説明する。また、ステップS510において、ステップS502においてオブジェクトOが存在しないと判断された場合に実行される一連の処理について説明する。尚、この処理は、ステップS512から始まる処理に相当する。ステップS512において、統合部108はキャッシュを参照して、現在のフレームの直前の、所定の個数の連続したフレームにおけるポイント位置データの座標値の相加平均を算出する。この所定の個数をN1個とし、設定部109から取得するか、事前にたとえば10個などの固定値として定める。ポイント位置データが「なし」と判断されているフレームについては、平均を取る対象から除外する。なお、相加平均の代わりに相乗平均、調和平均、二乗平均、最頻値などを用いてもよい。
次に、ステップS524において、ステップS512で算出した座標値の平均の位置に存在する画面上のオブジェクトを取得し、これをオブジェクトO’とする。ただし、オブジェクトO’は存在しない可能性もある。次に、ステップS513において、統合部108はキャッシュを参照して、現在のフレームの直前の所定の個数の連続したフレームにおいて、最も多くのフレームで仮の指示オブジェクトとして判断されたオブジェクトを取得し、オブジェクトO’maxとする。この所定の個数をN2個とし、設定部109から取得するか、事前にたとえば20個などの固定値として定める。次に、ステップS514において、統合部108はステップS512においてオブジェクトO’が存在したか否かを判断する。
尚、ステップS514において、ステップS512においてオブジェクトO’が存在したと判断された場合、統合部108はステップS515の処理を実行する。一方、ステップS514において、ステップS512においてオブジェクトO’が存在しないと判断された場合、統合部108はステップS517の処理を実行する。ステップS515において、統合部108は現在のフレームにおける仮の指示オブジェクトはO’であると判断する。次に、ステップS516において、統合部108はオブジェクトO’とオブジェクトO’maxが同一のオブジェクトであるか否かを判断する。尚、ステップS516において、オブジェクトO’とオブジェクトO’maxが同一のオブジェクトであると判断された場合、統合部108はステップS519の処理を実行する。一方、ステップS516において、オブジェクトO’とオブジェクトO’maxが同一のオブジェクトでないと判断された場合、統合部108はステップS518の処理を実行する。
ここで、ステップS514において、ステップS512においてオブジェクトO’が存在しないと判断された場合に実行される一連の処理について説明する。尚、この処理は、ステップS517から始まる処理に相当する。ステップS517において、統合部108は現在のフレームにおける仮の指示オブジェクトを「なし」であると判断する。ここで、ステップS517の次、もしくはステップS516において、オブジェクトO’とオブジェクトO’maxが同一のオブジェクトでないと判断された場合に実行される一連の処理について説明する。尚、この処理は、ステップS518から始まる処理に相当する。ステップS518において、統合部108は、現在のフレームの直前のN2個のフレームにおいて、オブジェクトO’maxを仮の指示オブジェクトとするフレームの割合がR2パーセント未満、ここでR2パーセント未満であるか否かを判断する。R2は設定部109から取得するか、事前にたとえば70などの固定値として定める。
尚、ステップS518において、現在のフレームの直前のN2個のフレームにおいて、オブジェクトO’maxを仮の指示オブジェクトとするフレームの割合がR2パーセント未満であると判断された場合、統合部108はステップS519の処理を実行する。一方、ステップS518において、現在からの連続した音声区間において、オブジェクトO’maxを仮の指示オブジェクトとするフレームの割合がR2パーセント以上と判断された場合、統合部108はステップS510の処理を実行する。ここで、ステップS516において、オブジェクトO’とオブジェクトO’maxが同一のオブジェクトであると判断された場合に実行される一連の処理について説明する。また、ステップS518において、現在からの連続した音声区間において、オブジェクトO’maxを仮の指示オブジェクトとするフレームの割合がR2パーセント以上であると判断された場合に実行される一連の処理について説明する。尚、この処理は、ステップS519から始まる処理に相当する。
ステップS519において、統合部108は現在のフレームにおける指示オブジェクトはオブジェクトO’maxであると判断する。ここで、ステップS518において、現在からの連続した音声区間において、オブジェクトO’maxを仮の指示オブジェクトとするフレームの割合がR2パーセント未満であると判断された場合に実行される一連の処理について説明する。尚、この処理は、ステップS520から始まる処理に相当する。ステップS520において、統合部108は現在のフレームにおける指示オブジェクトは「なし」であると判断する。尚、ステップS510において、ステップS512においてオブジェクトO’が存在したと判断された場合、統合部108はステップS511の処理を実行する。
以上の処理を実行することによる結果、及びその効果について例を用いて説明する。図6は、オブジェクトと、レーザーポインタの輝点の軌跡の一例を表したものである。601は50フレーム前のポイント位置データが示す位置であり、602は現在のフレームのポイント位置データが示す位置である。四角の節点は順に各フレームのポイント位置データが示す位置であり、隣り合うフレームの接点を直線で結んでいる。603および604は画面上のオブジェクトであり、オブジェクトIDとしてそれぞれ1、2が振られているものとする。このレーザーポインタの輝点の軌跡に対して、音声区間が検出されているか否かによってどのように処理が変化するかを比較することにより、本発明の効果を説明する。なお、51フレーム以前のポイント位置データは「なし」であるものとし、またK=60、N1=10、N2=20、R1=50、R2=70とする。また音声認識結果の集合Wは「これらを」を含むものとする。
図7では、50フレーム前から現在フレームまで全て「音声区間でない」と判断された場合に、ステップS512で得られたポイント位置データの座標値の平均の位置を節点として図示している。節点701は50フレーム前のポイント位置データの座標値の平均の位置であり、節点702が現在のフレームのポイント位置データの座標値の平均の位置である。尚、この平均の位置を注目位置とする。それぞれの節点のフレームで指示オブジェクトと判断されたオブジェクトを、接点の形状で表した。なお仮の指示オブジェクトは節点と実際に重なっているオブジェクトである。例えば節点701における仮の指示オブジェクトは「なし」であり、節点702における仮の指示オブジェクトはオブジェクト603である。
図8では、50フレーム前から現在フレームまで全て「音声区間である」と判断された場合に、ステップS502で得られたポイント位置データの座標値の平均の位置を節点として図示している。節点801は50フレーム前のポイント位置データの座標値の平均の位置であり、節点802が現在のフレームのポイント位置データの座標値の平均の位置である。尚、この平均の位置を注目位置とする。図7と同様に、それぞれの節点のフレームで指示オブジェクトと判断されたオブジェクトを、接点の形状で表した。なお仮の指示オブジェクトは節点と実際に重なっているオブジェクトである。例えば節点801における仮の指示オブジェクトは「なし」であり節点802における仮の指示オブジェクトはオブジェクト603である。
図9では、50フレーム前から現在フレームまで全て「音声区間である」と判断され、かつ25フレーム前において音声認識結果「これらを」を検出した場合に、ステップS502で得られたポイント位置データの座標値の平均の位置を節点として図示している。節点901は50フレーム前のポイント位置データの座標値の平均の位置であり、節点902が現在のフレームのポイント位置データの座標値の平均の位置である。尚、この平均の位置を注目位置とする。また、節点903は25フレーム前のポイント位置データの座標値の平均の位置である。尚、この平均の位置も同様に注目位置とする。図7と同様に、それぞれの節点のフレームで指示オブジェクトと判断されたオブジェクトを、接点の形状で表した。なお仮の指示オブジェクトは節点と実際に重なっているオブジェクトである。例えば節点901における仮の指示オブジェクトは「なし」であり、節点902における仮の指示オブジェクトはオブジェクト603である。
図7の場合は音声区間でないと判断されているので、ユーザーはコマンドを送ろうとする前であり、オブジェクトの選択を試みていると考えられる。この場合はより近い履歴のみを用いてポイント位置を平滑化することによって、オブジェクトの選択の切り替えを素早くすることが出来る。また、図8の場合は、音声区間であると判断されているので、音声コマンドの入力が既に開始していると考えられる。この場合は音声区間全体に渡って平滑化することで、コマンドを指示している最中のオブジェクトから容易に指示の状態が解除されなくなり、誤操作のリスクが軽減する。また、図9の場合は、音声区間であると判断されているが、音声認識結果「これらを」が途中で発声されたことを検出したため、複数のオブジェクトが選択対象とされることが想定される。この場合は、音声区間の平滑化を停止して、複数のオブジェクトを対象とする操作を容易とする。このようにして、音声コマンドの発声中と、そうでないときの両方の状況においてユーザーの意図に沿ったスムーズな操作が実現される。
(その他の実施例)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (5)

  1. 異なる複数の時点において、ポインティングデバイスによってポインティングされた表示面上の位置を示す情報を保持する保持手段と、
    音声区間を特定する特定手段と、
    前記複数の時点のうち前記音声区間に含まれる各時点における前記位置を示す情報に基づいて、前記表示面上の注目位置を決定する決定手段とを有する情報処理装置。
  2. 前記特定手段は、所定の閾値以上の音量の音が継続して検知された区間を前記音声区間として特定することを特徴とする請求項1に記載の情報処理装置。
  3. 前記特定手段は、前記閾値以上の音量の音が検知された後、前記閾値以上の音量の音が検知されなくなった時点から所定の時間が経過する前に、再び前記閾値以上の音量の音が検知された場合、前記閾値以上の音量の音が検知されなくなった時点から再び前記閾値以上の音量の音が検知された時点までの区間も前記音声区間の一部として特定することを特徴とする請求項2に記載の情報処理装置。
  4. 表示面上の注目位置を決定する情報処理装置の動作方法であって、
    異なる複数の時点において、ポインティングデバイスによってポインティングされた前記表示面上の位置を示す情報を保持する保持工程と、
    音声区間を特定する特定工程と、
    前記複数の時点のうち前記音声区間に含まれる各時点における前記位置を示す情報に基づいて、前記表示面上の注目位置を決定する決定工程とを有する動作方法。
  5. 請求項4に記載の動作方法をコンピュータに実行させるためのプログラム。
JP2010185295A 2010-08-20 2010-08-20 情報処理装置およびその動作方法 Pending JP2012043281A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010185295A JP2012043281A (ja) 2010-08-20 2010-08-20 情報処理装置およびその動作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010185295A JP2012043281A (ja) 2010-08-20 2010-08-20 情報処理装置およびその動作方法

Publications (1)

Publication Number Publication Date
JP2012043281A true JP2012043281A (ja) 2012-03-01

Family

ID=45899481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010185295A Pending JP2012043281A (ja) 2010-08-20 2010-08-20 情報処理装置およびその動作方法

Country Status (1)

Country Link
JP (1) JP2012043281A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014021933A (ja) * 2012-07-23 2014-02-03 Ricoh Co Ltd 投影装置、投影方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014021933A (ja) * 2012-07-23 2014-02-03 Ricoh Co Ltd 投影装置、投影方法

Similar Documents

Publication Publication Date Title
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP6848881B2 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2019128101A1 (zh) 一种投影区域自适应的动向投影方法、装置及电子设备
US20180070008A1 (en) Techniques for using lip movement detection for speaker recognition in multi-person video calls
JP2010066519A (ja) 音声対話装置、音声対話方法、および音声対話プログラム
JP4537901B2 (ja) 視線測定装置および視線測定プログラム、ならびに、視線校正データ生成プログラム
CN107430856B (zh) 信息处理系统和信息处理方法
US20220357915A1 (en) Information processing apparatus and command processing method
JP5278576B2 (ja) ジェスチャー認識装置、ジェスチャー認識方法及びそのプログラム
US10720154B2 (en) Information processing device and method for determining whether a state of collected sound data is suitable for speech recognition
JP2016181018A (ja) 情報処理システムおよび情報処理方法
US20200125398A1 (en) Information processing apparatus, method for processing information, and program
US10522140B2 (en) Information processing system and information processing method
JP2012043281A (ja) 情報処理装置およびその動作方法
US20230177705A1 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
JP2009251940A (ja) 情報処理装置および方法、並びにプログラム
US10410044B2 (en) Image processing apparatus, image processing method, and storage medium for detecting object from image
US9767347B2 (en) Analysis processing system
JP2007334810A (ja) 画像領域追跡装置及びその方法
JP2016156877A (ja) 情報処理装置、情報処理方法およびプログラム
JP5173861B2 (ja) 撮像装置及びその制御方法
JP7468360B2 (ja) 情報処理装置および情報処理方法
JP2010282083A (ja) 誤認識訂正装置、方法及びプログラム
JP2021056899A (ja) 画像処理装置、画像処理方法およびプログラム
JP2019101741A (ja) 情報処理装置、情報処理方法、及びプログラム