JP2012128523A - Information processing device and operating method thereof - Google Patents
Information processing device and operating method thereof Download PDFInfo
- Publication number
- JP2012128523A JP2012128523A JP2010277321A JP2010277321A JP2012128523A JP 2012128523 A JP2012128523 A JP 2012128523A JP 2010277321 A JP2010277321 A JP 2010277321A JP 2010277321 A JP2010277321 A JP 2010277321A JP 2012128523 A JP2012128523 A JP 2012128523A
- Authority
- JP
- Japan
- Prior art keywords
- user
- recognition
- blinking
- instruction input
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明は、ユーザからの指示を認識する技術に関する。 The present invention relates to a technique for recognizing an instruction from a user.
従来、ユーザのジェスチャ(体の動き)や音声による指示を認識し、認識された指示に応じた動作をする装置が知られている。一般にユーザは装置の利用中、装置への指示を行う他にも体を動かしたり、声を発したりする。そして、認識された指示に応じた動作をするディスプレイのような表示装置があった場合に、以下のような課題が生じる。即ち、ユーザが表示装置を見ながら手を動かして、食事をしたり、声を発して人と会話をしたりすると、装置は、ユーザのジェスチャや声が、装置への指示を意図して行ったものであるか判断できず、ユーザが意図しない動作が実行することがある。 2. Description of the Related Art Conventionally, an apparatus that recognizes a user's gesture (body movement) or a voice instruction and performs an operation according to the recognized instruction is known. In general, while using the device, the user moves his body or speaks in addition to giving instructions to the device. The following problems arise when there is a display device such as a display that operates in accordance with the recognized instruction. That is, when the user moves his hand while looking at the display device, eats or speaks with a person, the device makes the user's gesture or voice intentionally instruct the device. In some cases, it is impossible to determine whether the operation is unsuccessful, and an operation not intended by the user may be performed.
尚、この課題に対する解決策として、従来、ジェスチャ認識や音声認識を行う際に、ボタンを押したりメニューを選択したりする操作をユーザに行わせる技術がある。しかし、ジェスチャ認識は手の動きだけを、音声認識は口で発する音声だけを使って装置の操作が可能であることが利点である。即ち、ボタンの押下やメニューの選択といったそれ以外の操作が加わるとユーザにとって操作が煩雑となり、ジェスチャ認識や音声認識の利点を生かしきれない場合がある。 As a solution to this problem, conventionally, there is a technique for causing a user to perform an operation of pressing a button or selecting a menu when performing gesture recognition or voice recognition. However, it is an advantage that gesture recognition can be used to operate the device using only hand movements, and voice recognition can be performed using only voices emitted from the mouth. That is, when other operations such as button pressing and menu selection are added, the operation becomes complicated for the user, and the advantages of gesture recognition and voice recognition may not be fully utilized.
そこで、この課題を解決する方法として、ユーザの装置への凝視を指示開始の合図と判断し、凝視対象に応じてジェスチャ認識や音声認識を有効にする技術が知られている(特許文献1)。尚、この技術は、ユーザを観察するカメラ等を用いて、ユーザが向いている場所、領域、方向、物を検出し、それに応じて認識を有効とするものである。また、この技術は、表示領域の一部に擬人化イメージを提示し、ユーザが擬人化イメージを凝視した場合にユーザが発した音声の認識を開始するものである。 Therefore, as a method for solving this problem, a technique is known in which gaze on the user's device is determined as an instruction start signal, and gesture recognition and voice recognition are enabled according to the gaze target (Patent Document 1). . This technique detects a location, an area, a direction, and an object that the user is facing by using a camera or the like that observes the user, and makes recognition effective accordingly. In addition, this technique presents an anthropomorphic image in a part of the display area, and starts recognizing a voice uttered by the user when the user stares at the anthropomorphic image.
一方、従来から、目視している対象とまばたきの回数との関係を示す知見が存在する。例えば、まばたきはユーザの心理状況や目視している対象との距離等に応じてその特徴が変化することが知られている。特にテレビやモニタ等表示端末を見ているとき、まばたきの回数が極端に少なくなることが知られている(非特許文献1)。また、処理しなければならない刺激が提示されたり、処理をしている最中であったり、その刺激が提示されることを予期していたりするときにはまばたきが抑制され、その処理を終了した段階で、抑制が解除され、まばたきが多発することが知られている。(非特許文献2)。 On the other hand, conventionally, there is knowledge indicating the relationship between the object being visually observed and the number of blinks. For example, it is known that the characteristics of blinking change according to the psychological state of the user, the distance from the object being viewed, and the like. In particular, it is known that the number of blinks is extremely reduced when viewing a display terminal such as a television or a monitor (Non-Patent Document 1). In addition, when a stimulus that needs to be processed is presented, in the middle of processing, or when the stimulus is expected to be presented, blinking is suppressed, and when the processing is completed It is known that suppression is released and blinking occurs frequently. (Non-patent document 2).
しかしながら、特許文献1が示す方法において、ユーザと装置との距離が離れるにつれて、ユーザが凝視している対象の判別が困難となる。判別が困難となる第一の理由は、ユーザと装置との距離が離れるにつれて、ユーザの視線の向きをより高精度で算出することが必要になるからである。更にいえば、距離が離れるにつれて、ある対象を見ているときのユーザの視線の向きと、別の対象を見ているときのユーザの視線の角度の差が小さくなり、それに応じてユーザの目の映像上の差も小さくなるためである。また、判別が困難になる第二の理由は、ユーザと装置との距離が離れるにつれて、装置に取り付けられたカメラに映るユーザの目の映像が小さくなるため、細かい視線の向きの算出が困難になるからである。尚、ユーザの凝視対象を誤って判別した場合、ユーザが擬人化イメージを凝視しているのに認識が有効にならない、あるいは、ユーザが装置に表示されたコンテンツを見ているのに認識が有効になる、といった操作性の低下を招く場合がある。
However, in the method shown in
本発明は、以上の課題を解決するためのものであり、ユーザからの指示を認識する際の操作性を向上させることを目的とする。 SUMMARY An advantage of some aspects of the invention is to improve operability when recognizing an instruction from a user.
上記の目的を達成するために、本発明に係る情報処理装置は、ユーザの指示入力に応じた処理を実行する情報処理装置であって、ユーザのまばたきの頻度を測定する測定手段と、前記まばたきの頻度が所定の基準を満たすユーザを操作者として特定する特定手段と、まばたきとは異なる指示入力であって、操作者として特定したユーザによる指示入力を認識し、当該指示入力に応じた処理を実行する認識手段とを有する。 In order to achieve the above object, an information processing apparatus according to the present invention is an information processing apparatus that executes processing according to a user's instruction input, and includes a measurement unit that measures a user's blink frequency, and the blink. A means for specifying a user satisfying a predetermined standard as an operator and an instruction input different from blinking, recognizing the instruction input by the user specified as the operator, and performing a process according to the instruction input Recognition means to execute.
本発明によれば、ユーザからの指示を認識する際の操作性を向上させることが可能となる。 According to the present invention, it is possible to improve operability when recognizing an instruction from a user.
以下、本発明を実施するための形態について、図面を参照しながら説明する。尚、まばたきとは、まぶたを閉じたあと開けることを示す。 Hereinafter, embodiments for carrying out the present invention will be described with reference to the drawings. Note that blinking means opening after closing the eyelid.
(第1の実施形態)
図1(a)は、本発明に係る情報処理装置101の機能構成を示す機能ブロック図である。尚、情報処理装置101には出力部102といった動画像を表示するデバイスが接続されている。また、出力部102は、スピーカを備え、音声を出力してもよい。入力部103は、カメラ等によって構成される。また、入力部103は動画像を撮影し、撮影した動画像の各フレームを動作データ104に格納する。まばたき測定部105は、CPU、ROM、RAM(以下、CPU等)によって構成され、CPUがROMに格納されたプログラムをRAMに展開し実行することでその機能を実現する。また、まばたき測定部105は動作データ104に格納された動画像の1フレームに映っているユーザを推定し、ユーザがまばたきをしているかを測定し、結果をまばたき履歴106に出力する。まばたき測定部105における処理は図3(a)に示す通りであり、詳細は後述する。認識対象特定部107は、CPU等によって構成される。また、認識対象特定部107はまばたき履歴106、視線履歴110、距離履歴112からユーザを認識対象として特定し、特定したユーザを認識部108に指示する。認識部108は、CPU等によって構成される。また、認識部108は動作データ104に格納された動画像の1フレームからユーザのジェスチャによる装置への指示を認識し、その指示に従って出力部102を動作させる。また、認識部108は、認識対象特定部107から指示された特定のユーザのジェスチャ認識を有効にする。視線測定部109は、CPU等で構成される。また、視線測定部109は動作データ104に格納された動画像の1フレームに映っているユーザを推定し、ユーザの視線の向きを測定し、結果を視線履歴110に出力する。距離測定部111は、CPU等によって構成される。また、距離測定部111は動作データ104に格納された動画像の1フレームに映っているユーザを推定し、ユーザと装置との距離を測定し、結果を距離履歴112に出力する。
(First embodiment)
FIG. 1A is a functional block diagram showing a functional configuration of the
図2は、ユーザからの指示を認識する処理の流れを示すフローチャートである。本フローチャートに示す処理は、入力部103が動画像の1フレームを撮影するたびに実行される。まず、ステップS201で、入力部103は撮影した動画像の1フレームを動作データ104に格納する。次に、ステップS202で、視線測定部109は動作データ104に格納された動画像のうち、最新の1フレームを表す画像に映っているユーザの名前を推定する。さらにユーザの視線が入力部103に向けられているか判定し、その結果とユーザの名前、現在時刻を視線履歴110に格納する。ステップS203で、距離測定部111は動作データ104に格納された動画像のうち、最新の1フレームを表す画像に映っているユーザの名前を推定する。尚、本処理は、ユーザの名前を推定する処理にかえて、他のユーザと識別可能となるよう各ユーザを特定する処理としてもよい。さらにステップS203において、ユーザと装置との距離を測定し、その結果と動作データ104に格納されたユーザの名前、現在時刻を距離履歴112に格納する。ステップS204で、まばたき測定部105は動作データ104に格納された動画像のうち、最新の1フレームを表す画像に映っているユーザの名前を推定する。さらにユーザがまばたきをしているかを判定し、その結果とユーザの名前、現在時刻をまばたき履歴106に格納する。ステップS205で、認識対象特定部107はまばたき履歴106よりまばたきの頻度を決定する。
FIG. 2 is a flowchart showing a flow of processing for recognizing an instruction from the user. The processing shown in this flowchart is executed every time the
ステップS206で、認識対象特定部107は距離履歴112より、所定期間内のユーザと装置との距離の平均が予め定めておいた閾値より小さいか判定する。距離の平均が閾値より小さい場合、視線の向きのみからユーザの凝視を正確に判定できると判断し、ステップS210に進む。閾値より大きい場合、視線の向きとまばたきの頻度を用いないと凝視を正確に判定できないと判断し、ステップS207に進む。ステップS207で、認識対象特定部107はステップS205で決定したまばたきの頻度が予め定めておいた閾値より大きいか判定する。また視線履歴110より、所定期間内に視線が入力部103に向けられた期間が予め定めておいた閾値より大きいか判定する。まばたきの頻度が閾値より大きく、かつ視線が入力部103に向けられた期間が閾値より大きい場合は、ユーザが入力部103を凝視していると判断し、ステップS208に進む。まばたきの頻度が閾値より小さい、または視線が入力部103に向けられた期間が閾値より小さい場合は、ユーザが入力部103を凝視していないと判断し、一連の処理を終了する。即ち、ステップS207において、認識対象特定部107は、まばたきの頻度が所定の基準を満たすか否かを判定する。ステップS208で、認識対象特定部107はステップS207で入力部103を凝視していると判断したユーザの名前を認識部108に通知する。即ち、ステップS208において、認識対象特定部107は、操作者を特定する処理を実行する。ステップS209で、認識部108は認識対象特定部107より通知されたユーザのジェスチャ認識を有効にし、一連の処理を終了する。ステップS210で、認識対象特定部107は視線履歴110より、所定期間内に視線が入力部103に向けられた期間が閾値より大きいか判定する。視線が入力部に向けられた期間が閾値より大きい場合は、ユーザが入力部103を凝視していると判断し、ステップS208に進む。閾値より小さい場合は、ユーザが入力部103を凝視していないと判断し、一連の処理を終了する。
In step S206, the recognition
図3(a)は、ステップS204において実行される処理であって、ユーザがまばたきをしているかを判定する処理の流れを説明するフローチャートである。尚、ステップS204では、動作データ104に格納された動画像のうち、最新の1フレームを表す画像に映っているユーザの人数分だけ、このフローチャートを実行する。
FIG. 3A is a flowchart for explaining the flow of the process executed in step S204 to determine whether the user is blinking. In step S204, this flowchart is executed for the number of users shown in the image representing the latest one frame among the moving images stored in the
まず、ステップS301で、まばたき測定部105は、最新の1フレームを表す画像に映ったユーザの目が開いているか判定する。開いている場合はステップS302に進む。閉じている場合はステップS303に進む。ステップS302で、まばたき測定部105は、一つ前の1フレームを表す画像に映ったユーザの目が閉じているか判定する。閉じている場合はステップS304に進む。開いている場合はステップS303に進む。ステップS303で、まばたき測定部105は、まばたき履歴106に、最新の1フレームが撮影された時刻においてユーザがまばたきしていないと設定し、一連の処理を終了する。一方、ステップS304で、まばたき測定部105は、まばたき履歴106に、最新の1フレームが撮影された時刻においてユーザがまばたきしたと設定し、一連の処理を終了する。
First, in step S301, the
図3(b)は、ステップS205において実行される処理であって、ユーザのまばたきの頻度を決定する処理の流れを説明するフローチャートである。尚、ステップS205では、動作データ104に格納された動画像のうち、最新の1フレームを表す画像に映っているユーザの人数分だけ、このフローチャートを実行する。
FIG. 3B is a flowchart illustrating the flow of processing that is executed in step S205 and that determines the frequency of user blinking. In step S205, this flowchart is executed for the number of users shown in the image representing the latest frame among the moving images stored in the
まず、ステップS311で、認識対象特定部107は、まばたき頻度の計測期間を設定する。ステップS312で、認識対象特定部107は、まばたき履歴106を参照し、現在時刻から設定された計測期間だけ過去に遡った時刻までにユーザが行ったまばたきの回数を取得する。ステップS313で、認識対象特定部107は、まばたきの頻度を下記の数式を用いて算出し、一連の処理を終了する。
(まばたきの頻度)=(ステップS312で取得したまばたきの回数)/(ステップS311で決定した計測期間)
First, in step S311, the recognition
(Blink frequency) = (Number of blinks acquired in step S312) / (Measurement period determined in step S311)
図4(a)は動作データに格納されたユーザを撮影した動画像の各フレームとまばたき履歴に格納されたデータとの関係を示す図である。例えば、2009年12月17日20時59分40.2秒において、最新のフレームにおいてユーザTaroの目が閉じており、かつ1つ前のフレームである2009年12月17日20時59分40.1秒のフレームにおいてユーザTaroの目が開いている。そのため、まばたき履歴にはユーザTaroがまばたきしたと格納されている。 FIG. 4A is a diagram illustrating a relationship between each frame of a moving image obtained by photographing the user stored in the operation data and data stored in the blink history. For example, at 20: 59: 40.2 seconds on December 17, 2009, the eyes of the user Taro are closed in the latest frame, and 20:59:40 on December 17, 2009, which is the previous frame. The user Taro's eyes are open in a 1 second frame. Therefore, it is stored in the blink history that the user Taro has blinked.
図4(b)はまばたき履歴106、視線履歴110、距離履歴112を示す図である。図2のステップS206で用いる距離の閾値が200cm、ステップS207で用いるまばたき頻度の閾値が毎秒0.4回、視線の向きの閾値が過去5秒間で4秒間、ステップS311で用いるまばたきの測定期間が5秒間であるとする。このとき、2009年12月17日20時59分45.0秒の時点において、距離履歴112により、401が示す直前の5秒間における装置とのユーザTaroとの距離の平均が200cm以上である。そのため、ステップS206で閾値より小さくないと判定し、ステップS207に進む。ステップS207で、401が示す直前の5秒間において、ユーザTaroのまばたきの頻度が0.4回/秒と閾値以上であり、また視線の向きも5秒間で4.2秒と閾値以上であるため、ステップS208に進む。ステップS209で、認識部はユーザTaroがジェスチャ認識の対象(操作者)であると判断し、認識を有効とする。尚、認識が有効になると、情報処理装置101は、まばたきとは異なる指示入力であって、操作者として特定したユーザによる指示入力を認識し、当該指示入力に応じた処理を実行する。
FIG. 4B is a diagram showing the
以上説明したように、本実施形態によれば、まばたきの頻度を用いて、ユーザと装置との距離が離れている場合でも、ユーザが入力部を凝視していることを判別することができる。さらに、本実施形態によれば、まばたきの回数と視線の向きの両方を用いて、ユーザと装置との距離に関わらずユーザが入力部を凝視していることを判別している。これはユーザが入力部103と出力部102以外の表示端末以外の対象を凝視した場合、入力部103を凝視したときとまばたきの頻度が変わらないため、ジェスチャ認識が有効になってしまうという課題を解決する。さらに、本実施形態によれば、ユーザと装置との距離が近い場合は、まばたきの頻度を測定せず、視線の向きのみを測定して凝視の判別を行い、遠い場合は視線の向きとまばたきの頻度を測定して凝視の判別を行う。まばたきの頻度の測定には所定期間内のまばたきの回数を測定する必要があるため、測定に一定の時間がかかる。視線の向きのみで凝視を判別する場合、装置の応答性が向上する。
As described above, according to the present embodiment, it is possible to determine that the user is staring at the input unit even when the distance between the user and the apparatus is long, using the frequency of blinking. Furthermore, according to this embodiment, it is determined that the user is staring at the input unit regardless of the distance between the user and the apparatus, using both the number of blinks and the direction of the line of sight. This is because when the user gazes at an object other than the display unit other than the
尚、本実施形態において、操作者が複数人検知された場合、情報処理装置101は、当該複数人によるジェスチャ等の指示入力に応じた処理を実行してもよい。また、操作者が複数人検知された場合、情報処理装置101は、操作者が複数人いる旨を、ユーザに報知するための画像や音声を出力部102に出力させてもよい。また、操作者が複数人検知された場合、情報処理装置101は、図2に示す一連の処理を終了してもよい。
In the present embodiment, when a plurality of operators are detected, the
(第2の実施形態)
第1の実施形態では、あるユーザのジェスチャ認識を有効にしたあと、無効にする方法について述べていない。ジェスチャ認識を無効にするタイミングは、ジェスチャ認識を有効にするタイミングと同じく重要な課題である。ユーザが装置への指示を行う意図があるにも関わらず認識を無効にしてしまうと、ユーザは再度認識が有効になるよう装置へ指示しなければならず、操作感が低下する。一方、ユーザが装置の指示を行う意図がないにも関わらず認識を有効のままにしてしまうと、ユーザの装置への指示以外を意図して行ったジェスチャを誤認識してしまい、操作感が低下する。そこで本実施形態では、まばたきの頻度の変化に応じてジェスチャ認識を無効にするタイミングを決定する。特に、まばたきの頻度が増えたタイミングで認識を終了する。ユーザによるジェスチャを用いた装置の操作を1つの処理ととらえると、装置の操作をしている間、ユーザのまばたきは抑制され、装置の操作を終了した段階で、抑制が解除されまばたきが多発すると考えられる。そのためまばたきの頻度が増えたタイミングが、ユーザが装置の操作を終了したタイミングであると見なすことができる。さらに本実施形態では、認識を無効とするときのまばたきの頻度の閾値として、認識を有効とした直後に発生したまばたきの頻度を用いている。一般にまばたきの頻度は、装置とユーザとの距離やユーザの周囲の明るさといった周辺環境、またユーザの年齢や体調といった身体特徴によって変動するため、常に特定の値を利用することは難しい。一方、認識を有効とした直後は、抑制が解除されまばたきが多発すると考えられる。そのため、このときのまばたきの頻度を、ユーザの操作が終了したタイミングの判定に用いることができる。
(Second Embodiment)
The first embodiment does not describe a method of disabling gesture recognition after enabling a certain user. The timing for disabling gesture recognition is as important as the timing for enabling gesture recognition. If the user invalidates the recognition even though the user intends to give an instruction to the apparatus, the user has to instruct the apparatus to make the recognition valid again, and the operational feeling is lowered. On the other hand, if the recognition is left valid even though the user does not intend to give an instruction to the device, a gesture made by intention other than the user's instruction to the device will be erroneously recognized, and the operational feeling will be lost. descend. Therefore, in the present embodiment, the timing for invalidating the gesture recognition is determined according to the change in the blinking frequency. In particular, the recognition ends at the timing when the blinking frequency increases. If the operation of the device using the gesture by the user is regarded as one process, the blinking of the user is suppressed while operating the device, and when the suppression is released at the stage where the operation of the device is completed, Conceivable. Therefore, the timing at which the blinking frequency is increased can be regarded as the timing at which the user finishes the operation of the apparatus. Furthermore, in the present embodiment, the frequency of blinking that occurs immediately after the recognition is validated is used as the threshold value of the blinking frequency when the recognition is invalidated. In general, the frequency of blinking varies depending on the surrounding environment such as the distance between the device and the user and the brightness around the user, and physical characteristics such as the user's age and physical condition, and thus it is difficult to always use a specific value. On the other hand, immediately after the recognition is made effective, it is considered that the flapping frequently occurs when the suppression is released. Therefore, the frequency of blinking at this time can be used to determine the timing when the user's operation is completed.
図5は本実施形態に係る情報処理装置500の機能構成を示す機能ブロック図である。図1と同様の要素については、同符号を付しその説明を省略する。認識終了判断部501は、CPU等によって構成される。また、認識終了判断部501は認識部108が認識を有効にしている場合、まばたき履歴106と認識終了閾値502から認識を無効にすべきか判断し、無効にすべきと判断した場合は認識部108へ認識の無効を通知する。具体的には、ユーザのまばたきの頻度が認識終了閾値502より大きい場合、ユーザの認識を無効とするよう認識部108に指示する。認識対象特定部107は、ユーザの認識を有効としたことを出力部102が出力してから所定期間後、まばたき履歴106より閾値として用いるまばたきの頻度を計測し、認識終了閾値502に設定する。所定期間の経過を待つ理由は、出力部102がユーザの認識を有効としたことを出力してから、ユーザが反応してまばたきを多発させるまでに若干の期間が必要だからである。
FIG. 5 is a functional block diagram showing a functional configuration of the
図6は本実施形態において、ユーザからの指示を認識する処理の流れを示すフローチャートである。尚、図2と同様の処理については、同符号を付し、その説明を省略する。ステップS601で、認識終了判断部501は認識部108が認識を有効にしているか判定する。有効にしている場合はステップS602へ進む。有効にしていない場合はステップS206へ進む。ステップS602で、認識対象特定部107は、認識部108が認識を有効にしてからちょうど所定期間が経過したか判定する。経過した場合はステップS603へ進む。所定期間経過していない、または所定期間を超えた期間が経過した場合はステップS604へ進む。ステップS603で、認識対象特定部107は、下記に示した数式を用いて認識終了閾値502を算出し、一連の処理を終了する。
(認識終了閾値502)=(直前の所定期間内にユーザが行ったまばたきの回数)/(直前の所定期間)
FIG. 6 is a flowchart showing the flow of processing for recognizing an instruction from the user in this embodiment. In addition, about the process similar to FIG. 2, the same code | symbol is attached | subjected and the description is abbreviate | omitted. In step S601, the recognition
(Recognition end threshold 502) = (number of blinks performed by the user within the immediately preceding predetermined period) / (predetermined immediately preceding period)
ステップS604で、認識終了判断部501は認識を有効にしてから所定期間経過したかを判定する。経過した場合ステップS605へ進む。経過していない場合は一連の処理を終了する。本ステップで所定期間以上の経過を判定する理由は、認識を有効にした直後に頻発するユーザのまばたきを、認識終了のタイミングと誤判定しないためである。ユーザのまばたきが頻発する理由は、入力部103を凝視して装置に認識を開始してもらうユーザの処理が終了し、ユーザのまばたきの抑制が解除されるためである。ステップS605で、認識終了判断部501は認識部108より、認識中のユーザ名を取得する(ユーザと特定する)。ステップS606で、認識終了判断部501はステップS605で取得したユーザ名と関連したまばたき履歴106より、直前の所定期間内のまばたきの頻度が、認識終了閾値502より大きいか判定する。閾値より大きい場合、ユーザがジェスチャ操作を終了したと判定し、ステップS607に進む。閾値より小さい場合、ジェスチャ操作中であると判定し、一連の処理を終了する。ステップS607で、認識終了判断部501はステップS606でジェスチャ操作を終了したと判定したユーザの名前を認識部108に通知する。ステップS608で、認識部108は認識終了判断部501より通知されたユーザのジェスチャ認識を無効にし、一連の処理を終了する。
In step S604, the recognition
図4(b)が示すまばたき履歴106、視線履歴110、距離履歴112を用いて、本実施形態において認識対象特定部107が認識終了閾値502を設定する処理の流れを説明する。尚、ステップS602とステップS603で用いる一定の期間を5秒間であるとする。尚、2009年12月17日20時59分45.0秒の時点において、ユーザTaroの認識が有効になっているとする。2009年12月17日20時59分50.0秒の時点において、ステップS601において認識が有効であるためステップS602へ進む。ステップS602において認識有効後ちょうど5秒間が経過しているためステップS603へ進む。ステップS603において、402が示す直前の5秒間におけるまばたきの回数が3回であるため、認識終了閾値502に閾値0.6回/秒を設定する。
Using the
次に、図4(b)が示すまばたき履歴106、視線履歴110、距離履歴112を用いて、本実施形態において認識終了判断部501が認識終了閾値502の閾値を用いてユーザの認識を終了すると判断する処理の流れを説明する。尚、ステップS604とステップS605で用いる一定の期間を5秒間であるとする。尚、2009年12月17日20時59分45.0秒の時点において、ユーザTaroの認識が有効になっており、2009年12月17日20時59分50.0秒の時点において、ユーザTaroの認識終了閾値502が0.6回/秒と設定されているとする。2009年12月17日21時00分25.0の秒時点において、ステップS601において認識が有効であるためステップS602へ進む。ステップS602において認識有効後5秒間以上が経過しているためステップS604へ進む。ステップS604において認識有効後5秒間が計画しているためステップS605へ進む。ステップS605で認識中のユーザ名Taroを取得する。ステップS606で、403が示す直前の5秒間のまばたきの頻度が、認識終了閾値502に格納された0.6回/秒以上であるため、ステップS607へ進む。ステップS607で認識部108へユーザ名Taroを通知すると、ステップS1605で認識部108はジェスチャ認識を無効にする。
Next, using the
以上説明したように、本実施形態によれば、ユーザのまばたきの頻度を利用することで、ユーザが装置の操作を終えたタイミングでユーザの認識を無効とすることができ、操作性を低下させない。さらに、認識を無効とするときにユーザの周辺環境や身体特徴といった要因を加味した適切なまばたきの頻度の閾値を用いることで、ユーザが装置の操作を終えたタイミングをより正確に判定し、操作性を低下させない。尚、認識対象特定部107は、ステップS207で入力部103への凝視を判別するために用いるまばたきの頻度の閾値を、ユーザと表示装置との距離に応じて変更することも可能である。例えば、図6のステップS207で、距離履歴112を参照し、ユーザと表示装置との距離が100cmより小さい場合は、ユーザと表示装置との距離が近いため、ユーザのまばたきの頻度が通常時より少ないと想定する。そのため、まばたきの頻度が直前の5秒間に1回以上発生している場合にステップS208へ進む。一方、ユーザと表示装置との距離が100cmより大きい場合は、まばたきの頻度が直前の5秒間に2回以上発生している場合にステップS208へ進む。また、認識対象特定部107は、まばたきの頻度を計算する対象の期間を、ユーザと装置との距離に応じて変更することも可能である。具体的には、ユーザと装置との距離が近く、測定した視線の向きの精度が高い場合は期間を短めに取ることでユーザへの反応を早くする。一方、距離が遠く、測定した視線の向きの精度が低い場合はまばたきの頻度を正確に測定するため期間を長めに取る。また、認識対象特定部107は、認識部108がユーザの認識を有効にしたら、ユーザのジェスチャを正確に認識するため、撮影する動画像の中央に認識対象のユーザを映すよう入力部103に指示することも可能である。例えば、認識対象特定部107は動作データ104よりユーザの位置を測定する位置測定部が測定したユーザの位置をもとに、入力部103への指示をおこなうと、入力部103はユーザの正面を向くよう動作する。また、認識終了判断部501は、認識終了閾値502に加え、表示装置とユーザとの距離、および照度を測定する照度測定部が測定したユーザの周囲の明るさを元にしてユーザの認識を無効にするか判定することも可能である。表示装置とユーザとの距離が縮まると、まばたきの頻度が少なくなることが知られている。また周囲の明るさが変化した場合、まばたきの頻度が一時的に増えることが知られている。距離や明るさも用いて判定することで、ユーザの周辺環境を加味した適切なまばたきの頻度の閾値を求めることが可能であり、それによりユーザが装置の操作を終えたタイミングをより正確に判定し、操作性を低下させない。具体的には、以下に示す条件式を用いて、図6のステップS606で、認識終了判断部501がユーザの認識を無効とするか判定する。
As described above, according to the present embodiment, by using the user's blink frequency, the user's recognition can be invalidated at the timing when the user finishes the operation of the apparatus, and the operability is not deteriorated. . Furthermore, when the recognition is invalidated, the timing at which the user finishes the operation of the device can be determined more accurately by using an appropriate blink frequency threshold that takes into account factors such as the user's surrounding environment and body characteristics. Does not decrease the sex. Note that the recognition
尚、aは、まばたきの頻度(回数/秒)であり、bは、認識終了閾値502であり、cは、現在の距離(cm)であり、dは、認識有効時の距離(cm)である。また、eは、現在の照度(lux)であり、fは、認識有効時の照度(lux)であり、gは、最後に照度が一定以上変化してからの経過時間(秒)である。即ち、c/dは、はユーザとの距離に関するパラメータである。ユーザと装置との距離が小さくなるにつれてまばたきの頻度も減るため、それに応じて閾値を小さくする。(1+(e−f)/(f×g))は、照度に関するパラメータである。ユーザの周囲の照度が変化すると、その変化量(e−f)が大きくなるにつれてまばたきの頻度も増えるため、それに応じて閾値を大きくする。また、照度の変化によるまばたきの頻度の増加は一時的で、時間経過により元の頻度に戻るため、最後に照度が一定以上変化してからの経過時間gが長くなるに応じて、照度に関するパラメータが1に近づくようにする。例えば、認識終了閾値502が1回/秒 、現在の表示装置とユーザとの距離が240cm、認識有効時の表示装置とユーザとの距離が300cmとする。また現在の照度が600lux、認識有効時の照度が150lux、最後に照度が一定以上変化してからの経過時間が6秒であるとする。このとき、上記の条件式より、認識終了判断部501は、図6で示すステップS606において、ユーザのまばたきの頻度が1.25回/秒であるとき、ユーザの操作が終了したと判断する。そしてステップS607に進み、ステップS608で、認識部108はユーザの認識を無効にする。
Here, a is the frequency of blinking (number of times / second), b is the recognition
また、認識終了判断部501は、認識終了閾値502に加え、ユーザの視線や音声測定部が測定したユーザの発している音声をもとにユーザの認識を無効とするか判断することも可能である。特に、ユーザの視線が装置を向いていない、あるいはユーザが発声している場合は、ユーザが会話等別な事柄に集中していると判断し、まばたきが頻発してもユーザの認識を無効としないことも可能である。具体的には、図6のステップS606で、まばたきの頻度が閾値以上であることに加え、ユーザの視線の向きが装置を向いており、かつユーザが音声を発していないことを判定する。これらの結果が全て正のときのみステップS607に進み、ステップS608で認識を無効とする。
In addition to the
また、認識対象特定部107は、ユーザに認識が開始されたことを知らせるため、ユーザの認識を開始した後、認識を開始したことユーザに伝えるよう出力部102に対して指示することも可能である。特に、出力部102は、ユーザの認識が開始されたら、目の映像をユーザに表示し、目の映像の視線の方向が徐々にユーザを向くようなアニメーションを出力することも可能である。人間が別な人物から凝視されていることに気づいときその人物に視線を向けるという反応は極めて自然であるため、表示装置が凝視に対して目の映像を出力し、その視線を認識対象のユーザへ向ける反応をおこなうことはユーザにとって直感的であり、操作性を高める。
The recognition
また、認識対象特定部107は、同時にジェスチャ認識が有効となったユーザの中から、優先順位を用いて指示可能なユーザを決定することも可能である。優先順位はユーザにより予め定められていても良いし、それぞれのユーザのまばたきの頻度や視線の向き、装置との距離、位置を比較して決定しても良い。またどのユーザが装置に指示可能かを出力部102を介してユーザに通知しても良い。
Further, the recognition
また、入力部103は動作データ104が格納する動画像のフレームの画像を削除することも可能である。まばたき測定部105はまばたき履歴106が格納するまばたき履歴を削除することも可能である。また、出力部102は、音声を発したり、別な装置を動作させたりすることにより、ユーザに多様な情報を伝えてもよい。また、距離測定部111は、ユーザの発した音声を収録したり、ユーザの温度を計測したり、赤外線等を用いてユーザと装置との距離を計測しても良い。また動作データ104は、音声データや温度データ、距離データを格納しても良い。また認識部108はジェスチャのほかに音声やユーザの姿勢を、装置への指示入力として認識しても良い。
Further, the
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
(Other embodiments)
The present invention can also be realized by executing the following processing. That is, software (program) that realizes the functions of the above-described embodiments is supplied to a system or apparatus via a network or various storage media, and a computer (or CPU, MPU, or the like) of the system or apparatus reads the program. It is a process to be executed.
Claims (6)
ユーザのまばたきの頻度を測定する測定手段と、
前記まばたきの頻度が所定の基準を満たすユーザを操作者として特定する特定手段と、
まばたきとは異なる指示入力であって、操作者として特定したユーザによる指示入力を認識し、当該指示入力に応じた処理を実行する認識手段とを有する情報処理装置。 An information processing apparatus that executes processing according to a user instruction input,
A measuring means for measuring a user's blink frequency;
Identifying means for identifying a user whose blinking frequency satisfies a predetermined criterion as an operator;
An information processing apparatus comprising: an instruction input that is different from blinking, and that recognizes an instruction input by a user specified as an operator and executes a process according to the instruction input.
前記特定手段は、前記まばたきの頻度と前記視線の向きとが所定の基準を満たすユーザを操作者として特定することを特徴とする請求項1乃至請求項3のいずれか1項に記載の情報処理装置。 Furthermore, it has a detecting means for detecting the direction of the user's line of sight,
The information processing apparatus according to any one of claims 1 to 3, wherein the specifying unit specifies, as an operator, a user whose blinking frequency and the direction of the line of sight satisfy a predetermined criterion. apparatus.
ユーザのまばたきの頻度を測定する測定工程と、
前記まばたきの頻度が所定の基準を満たすユーザを操作者として特定する特定工程と、
まばたきとは異なる指示入力であって、操作者として特定したユーザによる指示入力を認識し、当該指示入力に応じた処理を実行する認識工程とを有する動作方法。 An operation method of an information processing apparatus that executes processing according to a user's instruction input,
A measurement process for measuring the frequency of user blinking;
A specific step of identifying a user whose blinking frequency satisfies a predetermined criterion as an operator;
An operation method including a recognition step of recognizing an instruction input by a user specified as an operator, and executing a process according to the instruction input, which is an instruction input different from blinking.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010277321A JP2012128523A (en) | 2010-12-13 | 2010-12-13 | Information processing device and operating method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010277321A JP2012128523A (en) | 2010-12-13 | 2010-12-13 | Information processing device and operating method thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012128523A true JP2012128523A (en) | 2012-07-05 |
Family
ID=46645501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010277321A Pending JP2012128523A (en) | 2010-12-13 | 2010-12-13 | Information processing device and operating method thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012128523A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104460998A (en) * | 2014-11-28 | 2015-03-25 | 广东欧珀移动通信有限公司 | Message prompt method, message prompt device and terminal |
JP2016071835A (en) * | 2014-09-30 | 2016-05-09 | 深▲せん▼市億思達科技集団有限公司 | Display control method for three-dimensional holographic virtual object based on eye tracking |
JP2017204156A (en) * | 2016-05-11 | 2017-11-16 | ソフトバンク株式会社 | Information terminal |
JP2018183532A (en) * | 2017-04-27 | 2018-11-22 | 株式会社デンソー | State estimation apparatus |
JP2020034577A (en) * | 2019-11-22 | 2020-03-05 | 株式会社ミツトヨ | Measurement data collection device and program |
US10747308B2 (en) | 2015-09-16 | 2020-08-18 | Fujifilm Corporation | Line-of-sight operation apparatus, method, and medical device |
JP2021151496A (en) * | 2014-03-19 | 2021-09-30 | インテュイティブ サージカル オペレーションズ, インコーポレイテッド | Medical devices, systems and methods using eye gaze tracking |
US11792386B2 (en) | 2014-03-19 | 2023-10-17 | Intuitive Surgical Operations, Inc. | Medical devices, systems, and methods using eye gaze tracking for stereo viewer |
JP7446913B2 (en) | 2020-05-21 | 2024-03-11 | キヤノン株式会社 | Electronic devices, control methods for electronic devices, and programs |
-
2010
- 2010-12-13 JP JP2010277321A patent/JP2012128523A/en active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021151496A (en) * | 2014-03-19 | 2021-09-30 | インテュイティブ サージカル オペレーションズ, インコーポレイテッド | Medical devices, systems and methods using eye gaze tracking |
US11792386B2 (en) | 2014-03-19 | 2023-10-17 | Intuitive Surgical Operations, Inc. | Medical devices, systems, and methods using eye gaze tracking for stereo viewer |
JP2016071835A (en) * | 2014-09-30 | 2016-05-09 | 深▲せん▼市億思達科技集団有限公司 | Display control method for three-dimensional holographic virtual object based on eye tracking |
CN104460998A (en) * | 2014-11-28 | 2015-03-25 | 广东欧珀移动通信有限公司 | Message prompt method, message prompt device and terminal |
CN104460998B (en) * | 2014-11-28 | 2017-07-28 | 广东欧珀移动通信有限公司 | Message prompt method, message notifying device and terminal |
US10747308B2 (en) | 2015-09-16 | 2020-08-18 | Fujifilm Corporation | Line-of-sight operation apparatus, method, and medical device |
JP2017204156A (en) * | 2016-05-11 | 2017-11-16 | ソフトバンク株式会社 | Information terminal |
JP2018183532A (en) * | 2017-04-27 | 2018-11-22 | 株式会社デンソー | State estimation apparatus |
JP2020034577A (en) * | 2019-11-22 | 2020-03-05 | 株式会社ミツトヨ | Measurement data collection device and program |
JP7446913B2 (en) | 2020-05-21 | 2024-03-11 | キヤノン株式会社 | Electronic devices, control methods for electronic devices, and programs |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2012128523A (en) | Information processing device and operating method thereof | |
US20090091650A1 (en) | Digital camera capable of appropriately discriminating the face of a person | |
EP3173017B1 (en) | Sleep state detection method, apparatus and system | |
JP4537901B2 (en) | Gaze measurement device, gaze measurement program, and gaze calibration data generation program | |
CN112118380A (en) | Camera control method, device, equipment and storage medium | |
JP2000347692A (en) | Person detecting method, person detecting device, and control system using it | |
US20200357408A1 (en) | Transcription summary presentation | |
JPH10260773A (en) | Information input method and device therefor | |
US20180238748A1 (en) | Pressure detection method and apparatus, and storage medium | |
US10963063B2 (en) | Information processing apparatus, information processing method, and program | |
JP5771998B2 (en) | Electronic device and electronic device control program | |
CN110969116A (en) | Method for determining gazing point position and related device | |
JP2009054101A (en) | Device, method and program for eye-gaze input | |
CN112114653A (en) | Terminal device control method, device, equipment and storage medium | |
US20220256094A1 (en) | Method and System for Assisting a User Who is Looking at a Screen of a User Device | |
JP2016021259A (en) | Electronic apparatus and control program for electronic apparatus | |
JP2012146216A (en) | Electronic device and program for controlling the same | |
JP5811537B2 (en) | Electronics | |
JPH05232908A (en) | Instruction input device | |
US10635802B2 (en) | Method and apparatus for accessing Wi-Fi network | |
JP6541497B2 (en) | Communication system, control method thereof and program | |
KR20140114283A (en) | Information processing device | |
JP2014048775A (en) | Apparatus and program for identifying position gazed | |
CN114740966A (en) | Multi-modal image display control method and system and computer equipment | |
WO2018056169A1 (en) | Interactive device, processing method, and program |