JP2017526078A - 実在および仮想のオブジェクトと対話するための生体力学ベースの眼球信号のためのシステムおよび方法 - Google Patents

実在および仮想のオブジェクトと対話するための生体力学ベースの眼球信号のためのシステムおよび方法 Download PDF

Info

Publication number
JP2017526078A
JP2017526078A JP2017511568A JP2017511568A JP2017526078A JP 2017526078 A JP2017526078 A JP 2017526078A JP 2017511568 A JP2017511568 A JP 2017511568A JP 2017511568 A JP2017511568 A JP 2017511568A JP 2017526078 A JP2017526078 A JP 2017526078A
Authority
JP
Japan
Prior art keywords
eye
user
display
movement
detector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017511568A
Other languages
English (en)
Other versions
JP2017526078A5 (ja
Inventor
パブリカバー,ネルソン・ジョージ
マルクグラーフ,ルイス・ジェームズ
ドレイク,エリオット
コノートン,スペンサー・ジェイムズ
Original Assignee
グーグル インコーポレイテッド
グーグル インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US201461991435P priority Critical
Priority to US61/991,435 priority
Priority to US201462023940P priority
Priority to US62/023,940 priority
Priority to US201462027777P priority
Priority to US201462027774P priority
Priority to US62/027,774 priority
Priority to US62/027,777 priority
Priority to US62/038,984 priority
Priority to US201462039001P priority
Priority to US201462038984P priority
Priority to US62/039,001 priority
Priority to US62/046,072 priority
Priority to US201462046072P priority
Priority to US62/074,927 priority
Priority to US201462074927P priority
Priority to US201462074920P priority
Priority to US62/074,920 priority
Application filed by グーグル インコーポレイテッド, グーグル インコーポレイテッド filed Critical グーグル インコーポレイテッド
Priority to PCT/US2015/030050 priority patent/WO2016018487A2/en
Publication of JP2017526078A publication Critical patent/JP2017526078A/ja
Publication of JP2017526078A5 publication Critical patent/JP2017526078A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS, OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS, OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS, OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/316User authentication by observing the pattern of computer usage, e.g. typical user behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00597Acquiring or recognising eyes, e.g. iris verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00597Acquiring or recognising eyes, e.g. iris verification
    • G06K9/00604Acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00597Acquiring or recognising eyes, e.g. iris verification
    • G06K9/0061Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00597Acquiring or recognising eyes, e.g. iris verification
    • G06K9/00617Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for supporting authentication of entities communicating through a packet data network
    • H04L63/0861Network architectures or network communication protocols for network security for supporting authentication of entities communicating through a packet data network using biometrical features, e.g. fingerprint, retina-scan
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment ; Cameras comprising an electronic image sensor, e.g. digital cameras, video cameras, TV cameras, video cameras, camcorders, webcams, camera modules for embedding in other devices, e.g. mobile phones, computers or vehicles
    • H04N5/225Television cameras ; Cameras comprising an electronic image sensor, e.g. digital cameras, video cameras, camcorders, webcams, camera modules specially adapted for being embedded in other devices, e.g. mobile phones, computers or vehicles
    • H04N5/232Devices for controlling television cameras, e.g. remote control ; Control of cameras comprising an electronic image sensor
    • H04N5/23229Devices for controlling television cameras, e.g. remote control ; Control of cameras comprising an electronic image sensor comprising further processing of the captured image without influencing the image pickup process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment ; Cameras comprising an electronic image sensor, e.g. digital cameras, video cameras, TV cameras, video cameras, camcorders, webcams, camera modules for embedding in other devices, e.g. mobile phones, computers or vehicles
    • H04N5/225Television cameras ; Cameras comprising an electronic image sensor, e.g. digital cameras, video cameras, camcorders, webcams, camera modules specially adapted for being embedded in other devices, e.g. mobile phones, computers or vehicles
    • H04N5/247Arrangements of television cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/44504Circuit details of the additional information generator, e.g. details of the character or graphics signal generator, overlay mixing circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/06Authentication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/06Authentication
    • H04W12/065Continuous authentication
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS, OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS, OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/014Head-up displays characterised by optical features comprising information/image processing systems
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS, OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B2027/0178Eyeglass type, eyeglass details G02C
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns

Abstract

主に眼球運動に基づいてデバイス着用者の意図を識別するためのシステムおよび方法が提供される。当該システムは、アイトラッキングを実行して画面表示を制御する邪魔にならないヘッドウェア内に含まれてもよい。当該システムは、リモートアイトラッキングカメラ、リモートディスプレイおよび/または他の補助的な入力も利用してもよい。画面レイアウトは、高速眼球信号の形成および確実な検出を容易にするように最適化される。眼球信号の検出は、デバイス着用者による自発的な制御下にある生理学的な眼球運動の追跡に基づく。眼球信号の検出は、ウェアラブルコンピューティングおよび幅広いディスプレイデバイスに適合する動作をもたらす。

Description

発明の分野
本発明は、一般に、ユーザの意図を識別し(Discerning the Intent of a User:DIU)、その後、オプションの補助入力サポートにより、主に眼を用いてコンピューティングデバイスおよび他のデバイスを制御して当該デバイスと対話するためのシステムおよび方法に関する。当該システムは、ヒューマン・マシン・インターフェイス(Human-Machine Interface:HMI)、ウェアラブルコンピューティング、人間生理学、画像処理および深層学習の分野における技術を利用する。DIUは、ヘッドマウントディスプレイ(head-mounted display:HMD)、リモートディスプレイおよび/または他のウェアラブルセンサもしくはアクチュエータに任意に関連付けられることができる邪魔にならないアイトラッキングヘッドウェアおよび/またはリモートアイトラッキングハードウェア内で実現可能である。当該システムは、ローカルまたはリモートコンピューティングデバイスを制御して当該デバイスと対話するための使いやすくて直感的でフレキシブルな入力メカニズムをユーザに提供することができる。
背景
コンピュータマウス、ジョイスティックおよび他の手動トラッキングデバイスは、人間とマシンとの対話中に位置情報を指定するための広く普及しているツールである。ウェアラブルコンピューティングの出現により、例えば適切なオペレーションのために静止面を概して必要とするこのようなかさばって邪魔なデバイスは、身体に着用されるように設計された装置の携帯性とは両立しなくなっている。
ウェアラブルディスプレイデバイスは、ソニー、サムスン、オキュラス、カール・ツァイスによって製造されるようなバーチャルリアリティ(virtual reality:VR)ディスプレイ、グーグル(例えばGlass(登録商標))およびビュージックスによって製造されるようなヘッドマウントディスプレイ(HMD)、マイクロソフト、ビュージックスおよびディジレンズによって製造されるような拡張現実(augmented reality:AR)ディスプレイ、ならびに類似のデバイスを含む。このようなディスプレイを閲覧して位置情報を指定するために、アイトラッキングが使用可能である。しかし、通常の人間活動中は眼も広く使用される。
したがって、対話および制御のための入力データストリームとして眼球位置を使用する際の課題は、眼球運動に基づいてユーザの意図を識別する(DIU)ことである。本明細書におけるシステムおよび方法の目的のうちの1つは、通常の日常活動に関連付けられる眼球運動と、スマートデバイスと対話して当該デバイスを制御することを目的とした、本明細書では「眼球信号」と称される意識的運動または随意運動とを区別することである。スマートデバイスは、一般にブルートゥース(登録商標)、NFC、Wi−Fi、3Gなどのさまざまな無線プロトコルを介して他のデバイスまたはネットワークに接続される電子デバイスであり、当該電子デバイスは、ある程度インタラクティブにおよび自律的に動作することができる。
眼球信号トラッキングは、人間がマシンと通信することを可能にするマシンビジョンの分野におけるコンポーネントであると考えることができる。眼球信号は、「ジェスチャ」制御とは異なっている。なぜなら、眼球信号は、日常生活に関連付けられる絶え間ない眼球運動とは識別されなければならないからである。また、眼球信号は、ユーザの環境(例えば日光対暗闇)、注意散漫、疲労、精神状態、認知的負荷、病気、薬などの影響を受ける可能性がある。
眼球信号は、ジェスチャベースのHMIを置換または補完するために使用されてもよい。現在のところ、ジェスチャ制御の最も一般的な形態は、顔、手または1本以上の指を追跡することを伴う。HMIジェスチャ制御の他の例は、両手、歩き方、全体的な身体的動作、脚、腕輪、指、指輪、ペンなどのモニタリングを伴う。「ジェスチャ制御」という用語は、タッチスクリーン、タブレット、および他の動作検知面またはタッチ検知面に向けられる動きを解釈するためにも適用されてきた。これらのデバイスを使用するほとんど全ての場合において、自発的な(すなわち意識的な)制御下であって通常の日常活動とは異なるジェスチャが行われ得る。
片眼または両眼を用いた眼球信号トラッキングは、特定の神経経路および運動神経の制御を伴う。6つの筋肉(上直筋、下直筋、外直筋、内直筋、上斜筋および下斜筋)が全ての形態の眼球運動を制御する。また、上眼瞼挙筋がまぶたの動きを制御する。これらの筋肉は、脳幹内の細胞核を有する3つの神経(動眼神経、外転神経および滑車神経)によって神経支配される。眼球運動の神経制御と結び付けられた筋肉付着点を含む眼球の構造は、眼球運動に対して解剖学的および生理学的制約(例えば、横軸、縦軸および回転軸における可動域、各次元における最大速度、静止したままでいる能力、動きの正確さなど)を課す。
眼球運動は、上昇、内方回旋(incyclotorsion)、内転、沈下、外旋、内旋および/または外転として分類される。盲目でない限り、眼は通常の日常活動を行うための必須の感覚であると考えられる。したがって、眼球信号を解釈するアルゴリズムは、眼球運動中にユーザの意図(例えば、動きが眼球信号の一部であるのか、何らかの他の機能を果たしているのか)を識別しなければならない。
また、眼球運動に特有の認知処理を考慮に入れることが非常に重要である。例えば、大半の人は、いかなる手がかりまたは手引きもなしに手で円運動を発生させることは比較的容易である。これは、眼を制御する能力とは際立って対照的である。視覚的な手がかりなしに片眼または両眼を用いて数回以上の円形回転を発生させることは困難であり、例えば追跡すべき参照視標を設けることなくこのような動きの半径を制御することはさらに一層困難である。実在または仮想の視覚的な手がかりを見ない状態での随意眼球運動は、困難であり、一般に不快感を生じさせる。どこを見ればいいかということに関する指図なしに単に「目をそらす」ように言われることは、不安を生じさせやすい可能性がある。
したがって、代替注視点を設けることなく単にオブジェクトから「目をそらす」ようにデバイス着用者に言うことにより、一般に実行可能であるが不快かつ一貫して繰返し可能でない動作が生じることになる。例えば主に近傍の(例えば屋内の)環境において目をそらすことは、より広範な(例えば屋外の)環境において目をそらすことと比較して、非常に異なる一連の眼球運動を生じさせやすい。特定の方向(例えば、左、右、上、下)に「目をそらす」および/または再び元の位置を閲覧するように指示されたときでさえ、このような眼球運動は、視覚的な手がかりなしでは一貫性を欠いたものになる。既存のアイトラッキング制御装置とは異なって、記憶誘導性サッケード眼球運動などの生理学的メカニズムを活用するためには、視覚的な手がかりは理想的には特定の視線位置に位置すべきである。
一方、眼および視覚野は、実在または仮想のオブジェクトが異なるパターンで動き回るときにそれらのオブジェクトを追跡するように精巧に設計されている。大半の人は、円形パターンで動く参照オブジェクト(例えばボールまたはカーソルの画像)を追跡することは容易である。(デバイスに知られている視線位置における)このような視覚的参照または手がかりを追従することによって、眼を用いてほとんどいかなる運動パターンも生じさせることが可能である。
同様の方向性に沿って、指または手ジェスチャの「スワイプ」または「スウィープ」動作は、マシン制御に用いられる1つのジェスチャタイプである。眼で「スウィープ」しようと試みた場合、実在または仮想のオブジェクトとともに眼が動かなければ、スウィープ経路内のいかなるオブジェクトもほとんどまたは全く認識されず、スウィープが開始された位置で起こったことを閲覧する能力は失われる。また、例えばデバイスユーザの周辺視野内で注目を引き付けたかもしれないオブジェクトに対する意図的な眼のスウィープと瞬間的な一瞥またはサッケードとを区別することは困難である。
これに加えて、眼の視界は、まぶたおよびまつ毛による正常機能中にしばしば遮られる。さらに、まぶたが眼の位置の視界を完全に遮るまばたきは、眼の表面の潤滑および水性環境を維持するための持続的機能として定期的に行われなければならない。まばたき継続時間(通常は0.3〜0.4秒間継続する)および速度は、疲労、注目、怪我、投薬、薬、アルコールおよび疾患の影響を受ける可能性がある。まばたきは、時間のうちの最大10%までにわたって個人の視覚および眼の視界を遮る可能性がある。
したがって、個人が環境を視覚化して環境と対話する能力を保持しながら眼球運動から意図を識別するための新たなパラダイムが必要である。
概要
上記に鑑みて、本明細書では、1つ以上の眼の目的のある動きに実質的に基づいて1人以上のユーザのさまざまな意図または動作目的を実質的に連続的に識別するためのシステムおよび方法が提供される。
一局面において、例示的なコンピュータによって実行される方法は、片眼または両眼に参照光を投射するステップと、参照光の反射の変化をモニタリングするステップと、眼および/または光の画像データを処理して眼球位置または運動を判断するステップと、コンテキスト基準、生理学的基準、解剖学的基準および/または神経学的基準に対して眼球位置または運動データをフィルタリングするステップと、フィルタリングされた眼球位置または運動データからユーザの動作意図または目的を示す眼球信号を導出するステップと、上記眼球信号をアプリケーションまたは対話式デバイスと関連付けるステップと、上記眼球信号を1つ以上の制御命令と相関付けて、関連付けられたアプリケーションまたはデバイスを作動的に制御するステップと、関連付けられたアプリケーションまたはデバイスに眼球信号または制御命令を通信するステップと、ユーザの意図に従って適切な命令または機能をアプリケーションまたはデバイスに実行させるステップとを含み得る。
別の局面において、例示的なシステムは、光の反射の変化をモニタリングするための1つ以上のカメラまたは少なくとも1つのセンサと、1つ以上の処理ユニットと、非一時的なコンピュータ読取可能な媒体と、非一時的なコンピュータ読取可能な媒体に記憶されたプログラム命令とを含み得る。プログラム命令は、少なくとも1つのプロセッサによって実行可能であり得て、少なくとも1つのプロセッサは、片眼または両眼に参照光を投射し、参照光および/または周辺光の反射の変化をモニタリングし、眼および/または光の測定データを処理して眼球位置または運動を判断し、コンテキスト基準、生理学的基準、解剖学的基準および/または神経学的基準に対して眼球位置または運動データをフィルタリングし、フィルタリングされた眼球位置または運動データからユーザの動作意図または目的を示す眼球信号を導出し、上記眼球信号をアプリケーションまたはデバイスと関連付け、上記眼球信号を1つ以上の制御命令と相関付けて、関連付けられたアプリケーションまたはデバイスを作動的に制御し、関連付けられたアプリケーションまたはデバイスに眼球信号または制御命令を通信し、ユーザの意図に従って適切な命令または機能をアプリケーションまたはデバイスに実行させる。
代替的な実施例は、1つ以上の携帯デバイス(電話、タブレット、ウェブカメラ、ラップトップ、カメラ、ビデオカメラ、ノマディックデバイス、電子付属部品など)またはウェアラブルデバイス(例えば、眼鏡、時計、帽子、宝飾品、衣服、個人の装備品など)に配設されるかまたは組み込まれる1つ以上の照明源、カメラまたは他のセンサを含み得る。または、代替的な実施例は、同様に、他の電子デバイス(例えば、コンピュータ、セキュリティシステム、ホームオートメーション、電力管理システム、ATM、ディスプレイ、テレビ、冷蔵庫、身元認証デバイス、電子カード読取機、端末デバイス、プロセス論理コントローラ、ネットワークルータ、無線アクセスポイント、キャッシュレジスタ、現金引出機など)、乗り物(例えば、車両コンソール/ダッシュボード、計器群、インフォテインメントシステム、鏡、座席、ハンドル、ドア、限定的な期間および/または特定の機能について作動的に結合される目的ベースのデバイスなど)または環境内の他の構造(例えば、標識、ウィンドウディスプレイ、売店、ドア、照明、通信システム、対話式乗り物、ゲーム機、競技会場など)に組み入れられ、1人以上のユーザに一般に近接して遠隔に位置決めされ、それによって、参照光画像、周辺光または構造化された光を1人以上のユーザの片眼または両眼、光の反射の変化をモニタリングするための1つ以上のカメラまたは少なくとも1つのセンサ、および1つ以上の処理ユニット、および非一時的なコンピュータ読取可能な媒体、および非一時的なコンピュータ読取可能な媒体に記憶されたプログラム命令に対して照射または配置してもよい。プログラム命令は、少なくとも1つのプロセッサによって実行可能であり得て、少なくとも1つのプロセッサは、片眼または両眼に参照光を投射し、光の反射の変化をモニタリングし、眼および/または光の画像データを処理して眼球位置または運動を判断し、コンテキスト基準、生理学的基準、解剖学的基準および/または神経学的基準に対して眼球位置または運動データをフィルタリングし、フィルタリングされた眼球位置または運動データからユーザの動作意図または目的を示す眼球信号を導出し、上記眼球信号をアプリケーションまたは対話式デバイスと関連付け、上記眼球信号を1つ以上の制御命令と相関付けて、関連付けられたアプリケーションまたはデバイスを作動的に制御し、関連付けられたアプリケーションまたはデバイスに眼球信号または制御命令を通信し、ユーザの意図に従って適切な命令または機能をアプリケーションまたはデバイスに実行させる。
別の実施例において、システムは、1つ以上の眼の表面上に配設されるコンタクトレンズ、または眼、眼窩内に移植されるかもしくは視神経および/もしくは筋肉に取り付けられて眼球位置および運動を追跡する生体力学もしくは生体電気センサなどのアイトラッキング装置を含み得る。当該センサは、1つ以上のプロセッサに作動的に結合され得て、非一時的なコンピュータ読取可能な媒体と、非一時的なコンピュータ読取可能な媒体に記憶されたプログラム命令とを含み得る。プログラム命令は、少なくとも1つのプロセッサによって実行可能であり得て、少なくとも1つのプロセッサは、1つ以上の生体力学センサから眼球位置または運動データを受信し、コンテキスト基準、生理学的基準、解剖学的基準および/または神経学的基準に対して眼球位置または運動データをフィルタリングし、フィルタリングされた眼球位置または運動データからユーザの動作意図または目的を示す眼球信号を導出し、上記眼球信号をアプリケーションまたは対話式デバイスと関連付け、上記眼球信号を1つ以上の制御命令と相関付けて、関連付けられたアプリケーションまたはデバイスを作動的に制御し、関連付けられたアプリケーションまたはデバイスに眼球信号または制御命令を通信し、ユーザの意図に従って適切な命令または機能をアプリケーションまたはデバイスに実行させる。
別の実施例によれば、検出器を用いて電子ディスプレイに対するユーザの眼の動きに基づいてグラフィカルユーザインターフェイスを提供するための方法が提供され、当該方法は、眼の視線がいつディスプレイ上のオブジェクトに向けられるかを特定するステップと、オブジェクトから動作に対応するディスプレイ上の第1のアイコンを含むターゲット位置の方への眼の運動を特定するステップと、第1のアイコンをターゲット位置におけるオブジェクトに対応する第2のアイコンと置換するステップと、運動後に眼の視線がターゲット位置に着地したことを確認するステップと、オブジェクト上の動作を実行するステップとを含む。
さらに別の実施例によれば、ユーザの眼の動きに基づいてグラフィカルユーザインターフェイスを提供するためのシステムが提供され、当該システムは、ユーザの眼の動きをモニタリングするように構成された検出器と、電子ディスプレイと、検出器および電子ディスプレイに作動的に結合される処理ユニットとを含み、処理ユニットは、眼の視線がいつディスプレイ上のオブジェクトに向けられるかを特定し、オブジェクトから動作に対応するディスプレイ上の第1のアイコンを含むターゲット位置の方への眼のサッケード運動を特定し、第1のアイコンをターゲット位置におけるオブジェクトに対応する第2のアイコンと置換し、サッケード運動後に眼の視線がターゲット位置に着地したことを確認し、オブジェクト上の動作を実行する。
さらに別の実施例によれば、検出器を用いて電子ディスプレイに対するユーザの眼の動きに基づいてグラフィカルユーザインターフェイスを提供するための方法が提供され、当該方法は、対応するディスプレイ上の第1のアイコンを含む第1のターゲット位置の方への眼の第1の運動を特定するステップと、ディスプレイ上の第1のアイコンを、第1の位置とは異なる複数の第2の位置における複数の第2のアイコンと置換するステップと、第1の運動後に眼の視線が第1のターゲット位置に着地したことを確認するステップと、その後、眼が複数の第2のターゲット位置のうちの1つの方への第2の運動を実行するか否かを特定するために眼をモニタリングするステップとを含む。
さらに別の実施例によれば、ユーザの眼の動きに基づいてグラフィカルユーザインターフェイスを提供するためのシステムが提供され、当該システムは、ユーザの眼の動きをモニタリングするように構成された検出器と、電子ディスプレイと、検出器および電子ディスプレイに作動的に結合される処理ユニットとを含み、処理ユニットは、対応するディスプレイ上の第1のアイコンを含む第1のターゲット位置の方への眼の第1の運動を特定し、ディスプレイ上の第1のアイコンを、第1の位置とは異なる複数の第2の位置における複数の第2のアイコンと置換し、第1のサッケード運動後に眼の視線が第1のターゲット位置に着地したことを確認し、その後、眼が複数の第2のターゲット位置のうちの1つの方への第2の運動を実行するか否かを特定するために眼をモニタリングする。
別の実施例において、眼の方に向けられる光の位置を制御するため、および/または、逆に眼から収集された光を空間的に選択するために、スイッチング可能なブラッグ格子またはMEMS(微小電気機械システム)ミラーなどの他の光操舵メカニズムが使用されてもよく、それによって、画像を取得するための単一の供給源(例えば発光ダイオード)および/または検出器(例えばフォトダイオード)を含む照明源および/または検出源の数を減少させることができる。
別の実施例において、眼球画像データの照明および取得は、いわゆる「ホットミラー」、フラウンホーファレンズおよび/またはホログラフィックレンズ、または他の光学部品からの反射を用いて取込まれてもよい。
さらなる実施例において、1つ以上のオブジェクトを視野から除去して、オブジェクトを知覚するのに必要な認知処理を概して減少させるために、「ギャップ効果」の生理学的原理が使用されてもよく、ユーザの眼の「解放」および後続のターゲットの方へのより高速な動きを可能にする。
さらなる実施例において、特にターゲットが眼球信号動作のための目的地である場合には、以前に閲覧されたもしくは「なじみのある」オブジェクトまたは画面の領域の画像または「サムネイル」が、ターゲット目的地に表示されてもよい。
さらに他の実施例において、眼球信号「言語」に関連付けられる表示は、意図されていそうなターゲット位置の方に眼球運動を引き付けるステップ、または逆に、ユーザの注目を引き付けないように設計された方法を用いてターゲットを導入するステップを含み得る。
さらなる実施例において、注目を引き付けることのないようにゆっくりとまたは観察者が見ていないときに導入される視覚的変化をディスプレイまたは対話式デバイスに生じさせるために、「変化の見落とし」の生理学的原理が使用されてもよい。
別の実施例において、デバイスによって制御されるディスプレイは、視野の周中心窩および/または周辺領域内のターゲットの詳細を変更してもよく、新たなターゲットは、サッケード眼球運動の高速部分の間などの観察者が「盲目」であるときにまたはゆっくりと導入されてもよい。
さらなる実施例において、新たなターゲットは、グラフィックがユーザに対して視覚的に「訴えている(yell)」ときに注目を引き付ける1つ以上のオブジェクトの例えば輝度、透明度、色および/または動きを制御する技術を用いて導入されてもよく、広告の方にユーザの眼を向けさせることによってゲーム環境内でユーザの視覚的注目を誘導することを含み得て、または、重要な方法もしくは手順に直接さらすことによって教示し得る。
さらなる実施例において、システムは、デバイス着用者の両眼の位置を同時に測定する両眼デバイスを備え得て、両眼からの測定は、眼球輻輳または反対方向への両眼の動きを判断して、観察者からさまざまな距離のところに光景の単一の両眼表示を維持するために使用されてもよい。
さらに他の実施例において、オブジェクトは、デバイス着用者からさまざまな距離のところに現れる複数の二次元表示面によって表示され、その後選択されてもよい。
さらなる実施例において、「連続起動」眼球信号は、特定の眼球信号または眼球信号のシーケンスのコンテキストに基づく眼球運動コンポーネントを含む場合もあれば、除外する場合もあり、オブジェクトの集合体は、特定の動作に関連付けられてもよい。
別の実施例において、眼球信号は、ユーザの意図を伝えるための他のモダリティ、例えば随意頭部運動(例えば点頭)、または、手ジェスチャ、他の身体部分による動き、音声、スイッチ起動、顔の表情などを含む他のモダリティと組み合わせられてもよい。
さらに他の実施例において、追跡される眼球運動およびジオメトリ(例えば瞳孔拡張、抗サッケード)は、個人の生理学的状態および/または感情状態を実質的に連続的に識別するためにユーザによって閲覧されている実在または仮想のオブジェクトについての情報と組み合わせられてもよい。
他の実施例において、アルゴリズムフィルタは、実行されている特定のタイプの行動(例えば読書、点検)を識別するために使用され得るステレオタイプ的眼球運動パターンの存在を判断するために眼球運動(例えば、タイミング、方向、サッケードシーケンスなど)を評価してもよい。
さらに他の実施例において、環境内のさまざまなオブジェクト(例えば、バルブ、ドア、スイッチ、照明、インジケータ)の状態または(例えば、観察可能な標識、QR(すなわちクイックレスポンス)コード、バーコード、独自の形状のオブジェクトによって示される)特定の位置を特定および確認する目的でオブジェクトまたは動作を認識、地理的に位置決め、時刻刻印、注釈付け、および/またはアーカイブするために、「手順遵守」プロセスが使用されてもよい。
他の実施例において、眼球運動に基づいてコンテンツを表示するために可変ビデオフレームレートが使用されてもよく、ビデオレートを減少させて電力および計算リソースを節約することができ、または、ビデオレートを増加させて、文法的要素を迅速に起動したりターゲット要素を表示から除去したりする「ギャップ効果」などの方法を可能にし、それによって、修正的サッケードおよび/または新たなターゲットをより迅速に選択できるようにすることが不要になる。
他の実施例において、眼球運動、例えば目的のある眼球運動の弾道的開始である「サッケードの立ち上がり」を分析するために予測が使用されてもよく、当該予測は、サッケードが「着地する」ことになる時刻および最終的な位置を計算する目的で速度および方向が測定されてもよく、それによって、カメラおよび他の処理リソースに対する制御が可能になる。
さらなる実施例において、例えばまばたきの間、サッケードの最中、または眼がディスプレイもしくはいかなる対話式オブジェクトの方にも向けられていないときには、詳細なアイトラッキングは低減または一時的に排除されてもよく、それによって、電力消費量を減少させることができ、安全性を向上させることができ、または他のデバイスをイネーブルにすることができる。
さらなる実施例において、ディスプレイの透明度、輝度または他の特性は変更されてもよく、ユーザによって閲覧されるさまざまなオブジェクトは、サイズ、形状、色および/または動きの点で一致させられてもよく、それによって、現実世界と仮想世界との間でのディスプレイデバイス内の実質的に連続的な遷移を含む、1つ以上のウェアラブルまたはリモートディスプレイデバイス上の現実または仮想環境内の実在または仮想のオブジェクトの追跡が可能になる。
さらなる実施例において、1つ以上のディスプレイの分解能、コンテンツおよび/または他の特性を制御することによって観察者の視野のおよそ中心窩領域内のコンテンツのみに表示リソースを集中させるために、眼球信号が使用されてもよい。
さらなる実施例において、「深層学習」を含む機械学習技術は、眼球運動パターンおよび他の入力を、予測または予期される眼球位置に変換し、それにしたがってユーザディスプレイを適合させてもよく、個々のユーザの解剖学的および生理学的機能および制約へのシステム適合が可能になる。
さらなる実施例において、コンテンツおよびユーザエクスペリエンスに基づいて自己適応の態様でディスプレイ内の資料およびオブジェクトの表示速度を動的に制御するために、記憶誘導性サッケード眼球運動技術が使用されてもよく、それによって、最終的には眼球信号をはるかに高速で実行することが可能になる。
図面および例示的な実施例の詳細な説明において、本明細書に提示されているシステムおよび方法の局面および用途について以下で説明する。
本発明のより完全な理解は、以下の例示的な図に関連付けて検討したときに詳細な説明を参照することによって導出されることができる。図中、同様の参照番号は、図面全体を通して同様の要素または行為を指す。これらの例示的な実施例は、添付の図面に示されている。
2個から1個の選択(1-of-2 selection)を迅速に実行するために「ギャップ効果」を利用することを含む一連の眼球運動を示す。 2個から1個の選択を迅速に実行するために「ギャップ効果」を利用することを含む一連の眼球運動を示す。 2個から1個の選択を迅速に実行するために「ギャップ効果」を利用することを含む一連の眼球運動を示す。 2個から1個の選択を迅速に実行するために「ギャップ効果」を利用することを含む一連の眼球運動を示す。 2個から1個の選択を迅速に実行するために「ギャップ効果」を利用することを含む一連の眼球運動を示す。 眼球信号および閲覧された指に基づくユーザ選択の起動を示す。 眼球信号および閲覧された指に基づくユーザ選択の起動を示す。 サッケード、マイクロサッケード、円滑追跡眼球運動および固視の分類を示すフローチャートである。 輻輳開散および前庭動眼眼球運動の分類を示すフローチャートである。 画像を閲覧するためにパンおよびズーム機能を実行する眼球信号メニューの一例である。 眼球信号メイン(すなわち最上位)メニューを示す。 低分解能視線追跡を必要とする眼球信号メインメニューの代替的なバージョンを示す。 ユーザ電子メールを閲覧して返答するために使用される眼球信号サブメニューの一例を示す。 眼球信号データ入力のために設計されたテンキーである。 テキストのページの閲覧に対する眼球信号制御を示す一連のスクリーンショットである。 眼による2個から1個の選択を行うために使用される表示されるオブジェクト(いわゆる「追跡オブジェクト」)の時間的なシーケンスを示す。 眼によるN個(N=2,3,4または5)から1個の選択を行うために使用可能な表示されるオブジェクトの一例を示す。 眼によるN個(N=2,3,4または5)から1個の選択を行うために使用可能な表示されるオブジェクトの一例を示す。 眼によるN個(N=2,3,4または5)から1個の選択を行うために使用可能な表示されるオブジェクトの一例を示す。 眼によるN個(N=2,3,4または5)から1個の選択を行うために使用可能な表示されるオブジェクトの一例を示す。 眼によるN個(N=2,3,4または5)から1個の選択を行うために使用可能な表示されるオブジェクトの一例を示す。 眼によるN個(N=2,3,4または5)から1個の選択を行うために使用可能な表示されるオブジェクトの一例を示す。 眼によるN個(N=2,3,4または5)から1個の選択を行うために使用可能な表示されるオブジェクトの一例を示す。 眼によるN個(N=2,3,4または5)から1個の選択を行うために使用可能な表示されるオブジェクトの一例を示す。 眼による4個から1個の選択を行うために使用可能なさまざまなグラフィックデザインおよび原理の一例を示す。 眼球信号言語を用いてテキストをスクロールするために使用されるスクリーンショットおよびオーバーレイを示す。 眼球信号言語を用いてテキストをスクロールするために使用されるスクリーンショットおよびオーバーレイを示す。 地図の閲覧中の眼球信号マルチレベルメニュー選択の一例を示す。 眼球信号に基づいて動作を実行するためのステップのフロー図である。 眼球信号言語を用いて「現実世界の」オブジェクトについての補足情報を検索および表示するためのステップのフロー図である。 画像取得率のフレーム単位の制御についてのタイミング検討事項のうちのいくつかを示す。 予想される眼球運動に基づく関心領域制御を示す。 予想される眼球運動に基づく関心領域制御を示す。 サッケード眼球運動中にデバイスユーザが盲目である場合の、透明度を急速に変化させることによるオブジェクトの導入を示す。 サッケード眼球運動中にデバイスユーザが盲目である場合の、透明度を徐々に変化させることによるオブジェクトの導入を示す。 輝度をゆっくりと変化させることによるオブジェクトの導入を示す。 複数のサッケード眼球運動中にデバイスユーザが盲目である場合の、透明度を変化させることによるオブジェクトの導入を示す。 ユーザの意図を判断する神経網への入力としての時系列位置データの制御を示す。 眼球信号言語メニューの各々に個々に対処するために初期隠れ層が分割されるセグメント化神経回路網の一例を示す。 一連のサンプリングされた眼球位置を一連の眼球運動に変換するためのステップを示す。 一連のサンプリングされた眼球位置を一連の眼球運動に変換するためのステップを示す。 一連のサンプリングされた眼球位置を一連の眼球運動に変換するためのステップを示す。 一連のサンプリングされた眼球位置を一連の眼球運動に変換するためのステップを示す。 一連のサンプリングされた眼球位置を一連の眼球運動に変換するためのステップを示す。 一連のサンプリングされた眼球位置を一連の眼球運動に変換するためのステップを示す。 一連のサンプリングされた眼球位置を一連の眼球運動に変換するためのステップを示す。 時系列眼球運動を意図を含むユーザ状態に変換することができる神経回路網アーキテクチャを示す。
例示的な実施例の詳細な説明
以下の説明には、説明の目的で、例示的な実施例のさまざまな局面について十分に理解してもらうために多数の具体的な詳細が記載されている。しかし、本明細書における装置、システムおよび方法はこれらの具体的な詳細がなくても実施可能であるということが、関連の技術分野における当業者によって理解されるであろう。本明細書における装置、システムおよび方法の範囲から逸脱することなく他の実施例が利用されてもよく、構造的および機能的変更がなされてもよい、ということが理解されるべきである。他の例では、例示的な実施例を曖昧にすることを回避するために、公知の構造およびデバイスはより一般的に示され、または説明されている。多くの場合、オペレーションの説明は、特にオペレーションがソフトウェアで実行される場合に、さまざまな形態を実現可能にするのに十分である。なお、開示されている実施例を適用できるさまざまな代替的な構成、デバイスおよび技術がある。実施例の全範囲は、以下に記載される例に限定されるものではない。
示されている実施例の以下の例では、その一部を構成し、さまざまな実施例を例示的に示す添付の図面を参照する。
本明細書では、片眼または両眼の動きに実質的に基づいてデバイス着用者の意図を実質的に連続的に識別するためのシステムおよび方法が提供される。本明細書におけるシステムおよび方法の一局面は、眼球運動の解剖学および生理学を特に考慮に入れて、視野内の光景を処理して当該光景に反応する(脳を含む)中枢神経系内のさまざまな経路において視覚的情報を処理することである。
デバイス局面および例
デバイスの一例として、装置は、邪魔にならないように遠隔に位置決めされてもよく、または、片眼または両眼を閲覧するためのヘッドウェアに装着されてもよい。また、装置は、例えば一般的な眼鏡のフレーム内に組み込まれるかもしくは取り付けられてもよく、または、グーグルグラス(登録商標)(グーグル)として知られているようないわゆるウェアラブルコンピューティングデバイスもしくはセンソモトリックインストゥルメンツ(SensoMotoric Instruments:SMI)によって製造されるようなリモートアイトラッキングデバイス内に組み込まれてもよい。さらにまたは代替的に、眼球運動を追跡するための装置は、コンタクトレンズ内に含まれてもよく、またはコンタクトレンズと併用して動作されてもよい。さらに、当該装置は、動きを追跡するために、眼もしくは眼窩内で実現されてもよく、または、視神経および/もしくは筋肉に取り付けられてもよい。
さらなる例として、当該装置は、スマートフォン、タブレット、コンピュータ、スマートウォッチ内に組み込まれてもよく、または、コンピュータ、ディスプレイ、自動車ダッシュボード、標識を含むその他の遠隔のオブジェクトもしくは位置内に組み込まれてもよく、または、他の人によって着用されるウェアラブルデバイス内に組み込まれてもよい。これらの場合、眼の画像化は、一般に、ヘッドマウントウェアラブルデバイスと比較して眼からより遠い距離で行われる。ユーザがデバイスの一般的な方向を見ているときにこのような距離から眼球運動をモニタリングするために、1つ以上のカメラまたは検知デバイスが使用される。
特に伝送が個人情報、金銭的情報、法的情報および/または他の形態の高価値情報を含む可能性がある場合には、ウェアラブルデバイスおよび/または遠隔に位置するデバイスは、一般に、安全な通信を必要とする。
さらなる例において、眼の画像の照明および/または取得は、さまざまな導波路技術によって制御可能である。より具体的には、光が眼の方に向けられる際に光の出所の位置を制御するためおよび/または逆に眼から収集された光を空間的に選択するために、ディジレンズによって製造されるようなスイッチング可能なブラッグ格子(switchable Bragg grating:SBG)、電気的にスイッチング可能な液晶格子、表面レリーフ格子(surface relief grating:SRG)、スイッチング可能な導波路ディスプレイ、またはMEMSベースのミラー(すなわちビームステアリング)デバイスが使用されてもよい。この場合、単一の供給源(例えば発光ダイオード(light-emitting diode:LED))を含む少ない数の照明源および/または単一の検出器(例えばフォトダイオード)を含む少ない数の検出器を用いて、画像を照明および/または取得することができる。照明源は、非コヒーレントなものであってもよく(例えばLED)、または(眼の安全確保のために)超低出力ダイオードレーザを含むコヒーレントなものであってもよい。空間分解能は、電子的に選択可能な導波路(例えば、SBG、SRG、液晶、MEMSミラー)によって提供され得る。さらにまたは代替的に、照明および画像取込みは、いわゆる「ホットミラー」、フラウンホーファレンズ、マイクロレンズアレイ、導波路結合器、全内部反射(total internal reflection:TIR)ホログラフィック導波路、および/または、ホログラフィックレンズもしくは他の光学部品の反射または屈折を伴ってもよい。
システムの局面は、眼の生理学および解剖学ならびに視覚野の認知的特性を考慮する眼球運動セットを備える眼球信号「言語」を含み得る。通常の日常活動中、眼は、随意行動も不随意行動も行うので、追跡可能である。このような実施例の一局面は、ユーザの眼が両方のタイプの動きをルーチン的に実行するときにユーザの意図を識別することである。これは、意図を伝えるために使用される随意運動と不随意眼球運動とを区別することを必然的に伴う。
随意運動は、通常の日常活動を行うことに関連付けられる場合もあれば、眼球信号「言語」に基づいて目的のある意図を伝えるために使用される場合もある。したがって、片眼または両眼のビデオ画像に基づいて意図を識別するためにアルゴリズム「フィルタ」および/または他のプログラミングアプローチが使用される。アルゴリズムは、ソフトウェア、ファームウェアにおいて符号化されてもよく、シリコンベースの論理デバイス内に組み込まれてもよく、またはこのようなアプローチの組み合わせであってもよい。また、処理は、ローカルで実行されてもよく、リモートで実行されてもよく、いわゆる「クラウドコンピューティング」を含むこのようなアプローチの組み合わせで実行されてもよい。
目的のある意図を伝え得る随意運動は、(眼の生理学に基づく)明確に定義された範囲の角速度および弾道プロファイルを有するサッケード、観察者からさまざまな距離のところを閲覧するために使用される輻輳開散運動、頭部の動きに関連付けられる前庭動眼眼球運動、および特定の(実在または仮想の)オブジェクトを追従するために使用される円滑追跡運動を含む。ユーザの意図を判断するためのさらなる情報は、瞳孔拡張、水晶体調節、まぶたの動き、顔面筋肉の動き、身体および頭部の動き、手の動き、関連のコンテキスト情報などの他の要因から判断されてもよい。
さらなる局面において、眼球信号「言語」および関連付けられる視覚的表示は、眼球信号をより直感的なものにするためのコンポーネントおよび/またはユーザが意図を伝えるための能力を迅速化するためのコンポーネントを含み得る。例えば、眼球信号「言語」は、意図された起動シーケンスを迅速に伝えるために、記憶誘導性サッケードを活用してもよい。同様に、オブジェクトを知覚するのに必要な認知処理の量を減少させ、それによって他のターゲットへと向かうより高速な動きのために眼を「解放する」(すなわちさらなる意図を伝える)ために、(視野からの1つ以上のオブジェクトの除去を含む)いわゆる「ギャップ効果」が使用されてもよい。
さらなる局面において、特にターゲットが眼球信号動作の目的地である場合には、以前に閲覧されたオブジェクトまたは画面の領域の画像または「サムネイル」が、例えばターゲット目的地に表示され得る。最近このサムネイルに「なじみがあること」(視覚野内の特定の形態の認識)により、オブジェクトを認識するための認知的負荷および時間が減少し、デバイスユーザがより迅速に後続の動作に遷移することが可能になる。特にサッケード後のオブジェクトからの固視中に、最近閲覧されたオブジェクトのコピーまたは類似物を表示することによっても、意図が確認され、不安が軽減され、および/または、ユーザの意図に由来するより心地よくかつ効果的な結果が促される。
さらに他の局面において、眼球信号「言語」に関連付けられる表示は、意図されていそうなターゲット位置の方に眼球運動を引き付けるステップ、または逆に、注目を引き付けないように設計された方法を用いてターゲットを導入するステップを含み得る。この戦略の根底にあるのは、眼を向けること、または、領域が色またはテクスチャの点で均一であるように見えるなどの観察すべきものが何もない位置を追跡することは、心理学的に不快であり、(特殊な訓練なしでは)しばしば生理学的に不可能であるという事実である。したがって、特定の眼球運動シーケンスにおけるターゲットが、注目を引き付けるように設計された態様で導入され得る。逆に、選択に利用可能でなければならないかもしれないがそれほど一般に使用されていないかまたは多数の可能な選択のうちの1つであるターゲットが、注目を引き付けない方法を用いて導入され得る。
さらなる局面において、眼球信号「言語」の一部であるターゲットは、人間視覚系の認知的特性を使用して、不随意のまたは意図せぬ眼球運動を引き起こさないように表示に導入されてもよい。これは、新たな潜在的ターゲットが導入されたときの当該ターゲットの方への不随意のまたは意図せぬ眼球運動による「故意でない起動」(すなわち偶発的動作を引き起こす眼球運動)なしに、ユーザが故意に意図を伝えることを可能にする。例えば、周辺視野内で詳細の変化を識別することは認知的に困難であるのに対して、背景に対するオブジェクトの輝度または動きの大きな変化は、眼の「注目」を引き付ける傾向がある。したがって、周辺視野内のターゲットの詳細は、注目を引き付けることなく変更可能である。「変化の見落とし」として知られているプロセスにおいて、ゆっくりとまたは観察者が見ていないとき(すなわち観察者が「盲目」であるとき)に変化が導入される場合、(注目を引き付ける)視覚的変化を識別することは困難である。したがって、さらなる実施例では、新たなターゲットは、ゆっくりと、または、サッケード眼球運動の高速部分の最中などの観察者が「盲目」であるときに導入され得る。
逆に、希望するなら、さらなる例において、新たなターゲットは、グラフィックがユーザに対して視覚的に「訴えている(yell)」ときに注目を引き付ける技術を用いて導入されてもよい。これは、ゲーム環境内でユーザの視覚的注目を誘導すること、(有料)広告の方にユーザの眼を向けさせること、または重要な方法もしくは手順に直接さらすことによって教示することを含み得る。
さらなる例において、システムは、デバイス着用者の両眼の位置を同時に測定する両眼デバイスを備え得る。両眼からの測定は、眼球輻輳または反対方向への両眼の動きを判断して、観察者からさまざまな距離のところに光景の単一の両眼表示を維持するために使用され得る。眼は、近くのオブジェクトを閲覧するために互いの方に回転する(すなわち収斂する)。逆に、眼は、より遠方のオブジェクトを閲覧するために互いから離れるように回転する(すなわち開散する)。
輻輳開散運動は、サッケード運動よりもはるかにゆっくりである(すなわち、25°/秒までの角速度に限定される)が、観察者からの閲覧されるオブジェクトの距離を判断および追跡するために使用可能である。水平(すなわちX次元)および垂直(すなわちY次元)閲覧方向と観察者からの輻輳ベースの距離(すなわちZ次元)とを組み合わせることにより、閲覧されるオブジェクトの三次元(3D)判断が可能になる。閲覧される実在または仮想のオブジェクトの(X,Y,Z)次元は、眼球信号作成および/またはオブジェクト選択中の三次元選択を可能にする。例えば、眼球信号は、すぐ近くを自発的に見ること(すなわちいわゆる「寄り目にすること」)を含み得る。オブジェクト選択は、デバイス着用者からさまざまな距離のところに出現する複数の二次元表示面によって表示され、その後選択され得る。
さらなる例示的な局面において、眼球信号「言語」は、特定の眼球信号または眼球信号のシーケンスのコンテキストに基づく眼球運動コンポーネントを含む場合もあれば、除外する場合もある。例えば、「連続起動」状態は、特定の動作に関連付けられ得るオブジェクトの集合体を指定するために使用されてもよい。「連続起動」中は、単に対象のオブジェクトを順番に見るだけでよいのに対して、「起動する」ためまたは各オブジェクトが何らかの形態の動作の対象であることを示すためには特定の眼球運動が実行される。
さらなる局面において、眼球信号は、ユーザの意図を伝えるための他のモダリティと組み合わせられてもよい。例えば、眼球信号は、眼球信号「言語」のコンポーネントとして随意頭部運動(例えば点頭)と組み合わせられてもよい。頭部の動きは、例えば加速度計を用いて、または外向きのカメラにおいて光景全体の動きを検出することによって、検出可能である。このモダリティでは、不随意眼球運動は、しばしば随意頭部運動(すなわちいわゆる前庭動眼運動)に関連付けられる。したがって、頭部の動きとは反対方向に反射的に起こる前庭動眼眼球運動は、随意頭部運動中の眼球信号制御内に含まれることができる。眼球信号言語と組み合わせられ得る他のモダリティは、手ジェスチャ、他の身体部分による動き、音声、スイッチ起動、顔の表情などを含む。
さらに他の局面において、個人の生理学的状態および/または感情状態を連続的に識別するために、追跡された眼球運動およびジオメトリが使用されてもよい。例えば、恐怖、関心などの感情状態または認知的負荷を識別するために、瞳孔拡張の程度が使用されてもよい。抗サッケード運動は、何か不快なものを閲覧していることの指標になり得る。例えば驚愕、魅了または関心を引き出すオブジェクトのクラスの指標は、ユーザによって閲覧されている実在または仮想のオブジェクトについての情報と組み合わせられると、識別可能である。このような情報は、例えば情報のその後の表示を適応させるために使用されてもよい。
他の局面において、実行されている特定のタイプの行動を識別するために、眼のステレオタイプ的運動パターンが使用されてもよい。例えば、読むプロセスが実行されていることを判断するために、サッケードおよび他の形態の眼球運動のタイミング、方向およびシーケンスが使用されてもよい。例えば、このようなステレオタイプ的眼球運動の存在を判断するアルゴリズムフィルタをその後に用いて、表示コンテンツ(例えばページめくり)を制御し、眼球信号言語要素に対してコンテキストを提供し、および/または、特定のコンテンツ(例えばチェックリスト)が閲覧および/または読まれたという記録を生成してアーカイブすることができる。
さらに他の例において、デバイス着用者は、特定のリスト、所定のシーケンスまたはチェックリスト内の全てのステップが確実に調査されるようにせざるを得ない。デバイス着用者の環境内のオブジェクトの状態(例えば、バルブ、ドア、スイッチ、照明、インジケータ)または(例えば、観察可能な標識、QR(すなわちクイックレスポンス)コード、バーコード、独自の形状のオブジェクトによって示される)特定の位置を特定するために、オブジェクト認識が使用されてもよい。特定されたオブジェクトまたは動作は、地理的に位置決めされ、時刻刻印され、注釈を付けられ、および/または、アーカイブされ得る。
チェックリスト内の特定のシーケンスが遵守されたことを保証することは、「手順遵守」と称される。修正動作を強制するために、チェックリスト内の特定のオブジェクトまたはステップの認識の欠如が使用されてもよい。手順遵守は、消防士、第一応答者、兵士、警察官、パイロット、安全検査官、石油掘削施設監督官、建築検査官および機械工などの規律において特に重要である。また、訓練、法的な検証、警察による科学捜査、ユーザによる条件付け、手順の最適化などを目的として、注視行動の厳密なシーケンスおよびパターンがアーカイブされ得る。
他の例において、眼球運動に基づいてコンテンツを表示するために、可変のビデオフレームレートが使用されてもよい。例えば、高速サッケード眼球運動の中心部分の最中は観察者が機能的に「盲目」であるということは、広く受け入れられている。したがって、この期間中に情報を表示することは、全く役に立たないであろう。このような期間中は、電力および/または計算リソースを節約するために表示の更新は一時停止されてもよく、または、「変化の見落とし」の生理学的原理を用いて注目を引き付けることなく新たな仮想オブジェクトが導入されてもよい。
一方、サッケードの開始時には、サッケードの着地ゾーンを予期するために高フレームレートが必要とされ得る。これは、例えば迅速に(例えばターゲット要素を知覚することさえ必要なく)文法的要素を起動するため、および/または、修正的サッケードを排除する目的でターゲット要素を表示から除去するため、および/または、いわゆる「ギャップ効果」を用いてより迅速に新たなターゲットを選択できるようにするために、使用され得る。
同様の方向性に沿って、さらなる局面において、カメラおよび他の処理リソースに対して「関心領域」制御を実行するために眼球運動が使用されてもよい。例えば、サッケード中、眼球運動は「弾道的」である。言い換えれば、サッケードが「着地する」時刻および位置は、サッケードの立ち上がり中の測定に基づいて計算可能である。サッケード中はカメラをオフにし、眼が着地したときにカメラを再びオンにすると、電力および計算リソースを節約することができる。また、最初は、(カメラの視野全体とは対照的に)眼が着地するだろうと予期される領域のみを1つ以上の眼球観察カメラによって検知するだけでよい。
同様に、円滑追跡眼球運動は、生理学的に限定された範囲の角速度で起こる。円滑追跡および他の眼球運動を追跡する際に、関心領域を生物学的に実現可能な範囲に制限するために生理学的制約が使用され得る。関心領域の制御は、(例えばASIC[すなわち特定用途向け集積回路]またはFPGA[すなわちフィールドプログラマブルゲートアレイ]内で)分散型および/または専用の処理リソースを用いて高速計算によって実行された場合に特に効果的であり得る。ASICまたはFPGAの高速計算機能は、フレーム単位までのレートでの関心領域(およびフレームレート)の制御を可能にすることができる。
さらなる局面において、詳細なアイトラッキングに関連付けられるプロセスは、眼が表示またはいかなる対話式オブジェクトの方にも向けられていないときには、低減または一時的に排除されてもよい。このような技術を用いて、電力および他のリソースを減少させて安全性を向上させることができる。
さらなる例において、意図を識別するために眼を用いてオブジェクトを追跡する際に、追跡されるオブジェクトは、デバイスユーザの環境における実在のオブジェクトであってもよく、1つ以上のウェアラブルもしくはリモートディスプレイデバイス上に表示される仮想オブジェクトであってもよく、または、現実世界と仮想世界との間でのディスプレイデバイス内での実質的に連続的な遷移を含む実在のオブジェクトと仮想のオブジェクトとの組み合わせであってもよい。これは、例えば、拡張現実ディスプレイの透明度もしくは輝度を制御することによって、または、ディスプレイのエッジ付近のオブジェクトのサイズ、形状、色および/または動きを一致させることによって、実行され得る。
さらなる局面において、デバイスユーザの中心窩視界内で1つ以上のディスプレイの分解能、コンテンツおよび/または他の特性を制御するために視線追跡が使用されてもよい。人間の眼の生理学は、高分解能閲覧が網膜の内面の1.5mm幅の領域内の錐体視細胞受容体によって行われるというようなものである。これは、観察者の視野内のおよそ1°〜3°の角度範囲に対応する。視線追跡を用いると、リソースを節約することができ、視野の中心窩領域内のコンテンツに表示リソースを集中させることによって気をそらすようなコンテンツを回避することができる。
さらなる例において、眼球運動パターンおよび他の入力を変換してユーザの意図を識別するために、いわゆる「深層学習」を含む機械学習技術が使用されてもよい。深層学習は、(上記のように眼の6つの筋肉によって形成される)眼球運動の一般的パターンを眼球信号言語のコンポーネントとして認識するために使用され得る。意図を伝える「目的のある」眼球パターンを認識することに加えて、眼球運動パターンは、デバイス着用者の感情状態および生理学的状態を判断するためにも使用されてもよい。
同一の機械学習技術は、眼球位置を予測または予期して、それにしたがってユーザディスプレイを適合させるために使用されてもよい。これを用いて、眼球信号を大幅にスピードアップして、個々のユーザの解剖学的および生理学的能力および制約に適合させることができる。
さらなる局面において、ディスプレイ内のオブジェクトの表示タイミングを制御する際に、特定のデバイスユーザのパフォーマンスおよび/またはエクスペリエンスが考慮されてもよい。ユーザがデバイスオペレーションに精通するにつれて、眼球運動は速くなることができ、これは、例えば(サーチではなく)記憶誘導性のサッケード眼球運動により大きく依存するようになることによる。したがって、資料の表示速度は、自己適応の態様でユーザエクスペリエンスに基づき得て、最終的には眼球信号をはるかに高速で実行することが可能になる。
生理学的眼球運動
眼球信号「言語」およびシステムの基本的コンポーネントは、人間視覚処理の解剖学および生理学との明確な統合である。したがって、人間の眼球運動の生理学を理解することが必要である。
4つの基本的タイプの眼球運動、すなわち1)前庭動眼、2)輻輳開散、3)円滑追跡および4)サッケード、があると一般に認められている。各タイプの運動は、可動域、速度プロファイル、両眼が(異なる方向ではなく)対をなす動きをしているか否か、および、頭部または視野も動いているか否かなどのパラメータに基づいて区別可能である。各タイプの眼球運動には特異な神経回路が関与している。異なる眼球運動は、異なる程度の、不随意(すなわち反射)神経経路ではなく随意(すなわち意識的な制御)神経経路を伴う。眼球信号を識別するプロセス中は、意識的な意図を伝える眼の随意運動を特定できることが特に重要である。
前庭動眼運動は、頭部の回転と同一の角度であるが反対方向に眼を動かすことによって頭部の動きを補償する。これは、眼の高感度・高分解能中心窩領域に投影される外界の画像を安定化させる効果を有する。前庭動眼運動は、高速であり、半規管からの感覚入力に対して純粋に反射的である。前庭動眼運動は反射性の性質があるが、前庭動眼運動の検出は、(特に、例えば頭部とともに動く加速度計からの他の入力と結び付けられると)一般に随意である頭部の動きの絶対位置を間接的に識別するために使用可能である。
輻輳開散眼球運動は、各々の眼の中心窩領域を独立して位置合わせして、観察者からある程度離れて位置するオブジェクトを閲覧するするために使用される。他の眼球運動とは異なって、輻輳開散運動は非共同性であり、各々の眼は異なる方向に動く。そのため、結果として生じる輻輳角は、観察者と観察されているターゲットオブジェクトとの間の距離を推定するために使用可能である。中枢神経系内で、このプロセスは、後頭葉および吻側中脳網様体を必要とする。両眼の動きおよび位置を同時に測定することによって、閲覧者と観察されているターゲットオブジェクトとの間の距離を推定することが可能である。これは、例えば、ディスプレイまでの輻輳ベースの距離が、デバイス着用者がディスプレイ上の画像を閲覧していることの指標としての実際の距離に対応するか否かを含み得る。
円滑追跡眼球運動は、ゆっくりとした随意眼球運動であり、動いているターゲットオブジェクトの投影を眼の高分解能中心窩領域に集中させ続ける。したがって、円滑追跡運動の全体速度は、一般に、観察されている動いているターゲットの速度に対応する。大半の人は、動いているターゲットを実際に閲覧することなく円滑追跡運動を実行することは困難である。言い換えれば、観察者による実質的な特殊な訓練が行われていなければ、動いているターゲットを追跡する能力が無い状態で円滑追跡を開始しようとする試みは、単に観察者が1つ以上のサッケード運動を行うことになるだけである。
サッケード眼球運動は、眼の固視点を突然変化させる高速の動きである。サッケードは、一旦開始されるとサッケードによってカバーされる方向および距離がもっぱらサッケードの立ち上がりによって支配されるという意味で、「弾道的」である。言い換えれば、ターゲットの位置がサッケードの開始および/またはその実行中に変化したとしても、サッケード中は中間軌道修正は不可能である。サッケードは、人体が発生させる最速の動きであり、900°/秒までの角速度に達する。
サッケードは、その速度プロファイルの観点でも「弾道的」である。予期せぬ刺激に反応して、サッケードの開始部分は約200ミリ秒かかる。開始は、急加速の局面をもたらし、当該局面では、(他の弾道速度プロファイルと同様に)ピーク速度は移動距離におよそ比例する。サッケードの運動局面は、総移動角距離に応じて20〜200ミリ秒にわたって継続する。通常は、頭部が静止したままである限り、サッケードは、ねじり軸において眼を回転させることはない(すなわちいわゆるリスティングの法則)。およそ20°よりも大きなサッケードは、人によって大きく異なるが、往々にして頭部の動きを伴う。
視野の方向が新たなターゲット位置に着地する際に急減速局面がある。非常に短い遅延の後に、大きなサッケードは、往々にして、ターゲット位置にさらに近付くための少なくとも1つのより小さな修正的サッケードを伴う。修正的サッケードは、ターゲットが見えなくなっても起こり得て、サッケード運動の予想される弾道的性質をさらにサポートする。しかし、修正的サッケードは、ターゲットが目に見えるままである場合により頻繁に起こる。
固視点の注意深い制御により、いかなる固視点もオフにすることによって運動以前のサッケード待ち時間を大幅に(半分に)減少させることができる。固視点をオフにすることは、閲覧者に対する通知として機能するように思われ、また固視点の維持に関連付けられる精神的処理を減少させるように思われる。新たなターゲット位置を固視するためにサッケード運動の前に固視点をオフにすることにより、視覚処理に「ギャップ」が残る。この状態は、「ギャップ効果」として知られている。
80〜120ミリ秒の開始待ち時間を有する高速サッケードは、「ギャップ」状況の間により頻繁に起こる。ユーザの練習および訓練に加えて固視点およびターゲットの出現を注意深く制御することにより、直列的ターゲット選択の最大速度を大幅に上昇させることができる。記憶誘導性サッケードを利用できるようにターゲット位置を配置することにより、ターゲット選択の最大速度をさらに上昇させることができる。
図1A〜図1Eは、基本的な「ギャップ効果」および2個から1個のメニュー選択プロセスを示す。デバイスユーザの視線133は、実在または仮想のオブジェクト130に向けられ得る。図1Aに示されるように、眼球信号言語内の動作の選択の開始は、(サッケード眼球運動によって)経路131に沿って視線を起動アイコン132の方に向けることによって行われる。図1Bは、この経路に沿って向けられる視線133を示している。しかし、このとき、起動アイコン132は表示から除去されることができ、サッケード着地箇所135に観察すべきものが何もない場合には、間に合うように空隙135および「ギャップ」が残される。この「ギャップ」は、後続のターゲットを迅速に追跡するために視覚認知を解放する。
図1B〜図1Eに示されている例では、2つの新たなターゲット134,136が導入され、デバイスユーザが2つのターゲット134,136のうちの1つに視線を向けることによって2個から1個の選択をさらに行うことを可能にする。星印アイコン134は、サッケード着地箇所135の上方に導入され、平行四辺形アイコン136は、反対方向に導入される。図1Cに示されるように、視線133がオブジェクトのない箇所に着地すると、眼は容易に「解放されて」、2つの新たに導入されたオブジェクト134,136のうちの1つの選択を行う。
図1Dは、平行四辺形アイコン136の方に下向きに向けられた視線33によって引き起こされる選択を示す。選択されたターゲット(図1E)136に到達すると、この特定のターゲットに関連付けられる動作が実行される。ギャップ効果は、眼がこの起動および/または選択シーケンスを行うのに必要な総時間を減少させることができる。
サッケードは、1)(ゆっくりとした)生理学的ドリフトおよびトレモアに加えて固視プロセスのコンポーネントであるより小さな運動(すなわちマイクロサッケード)と、2)外部環境を探索するために使用されるより大きなサッケード運動とにさらに細分されることができる。マイクロサッケードは、およそ0.2°未満の範囲にわたるもっぱら不随意の運動であり、当該範囲では、それらの厳密な生理学的役割は議論の余地がある。より大きなサッケード運動は、特に人が驚いたときには不随意であり得るが、観察者が外界を見渡す際には通常自発的な制御下にある。
生理学的ドリフト、トレモアおよび他のより小さな眼球運動の測定は、デバイス着用者の生理学的状態および精神状態を識別するためのコンポーネントとして使用されてもよい。これらの運動は、広範囲の病状(特に神経筋疾患)ならびに薬および他の化合物の効果を判断およびモニタリングする上で有益である。
また、サッケードは、それらの開始または意図に基づいて分類されることもできる。1)反射性サッケードは、周辺視覚系内であり得る外部事象の出現または消失によって引き起こされる。2)抗サッケードは、ターゲットオブジェクトから離れる眼球運動を伴う。3)走査性サッケードは、外部環境を意識的に閲覧して探索するための主要モデルである。4)記憶誘導性サッケードは、視覚的刺激がない状態でも個人の眼が記憶に残っている位置の方に動くことを可能にする。5)予測性サッケードは、時間的および/または空間的に予測される態様で、眼を動いているターゲットの方に向けた状態を保つことを助ける。
随意の走査性サッケード、記憶誘導性サッケードおよび予測性サッケードは、眼球信号言語内でユーザの意図を識別することを助けるのに有用であり得る。
眼球信号
例示的な実施例によれば、実質的に連続的または定期的に眼球信号を分類するためのシステムおよび方法が提供される。眼球信号は、ユーザによる意図の伝達に向けられる眼球運動で構成される。眼球信号のシーケンスは、その後、1つ以上のスマートデバイスによって実行される動作をもたらすことができる。
また、眼球信号は、他のウェアラブル入力デバイスから取得された補助情報に容易に結び付けられることができ、当該ウェアラブル入力デバイスは、スイッチ、マイクロフォン、GPS(グローバルポジションシステム)デバイス、温度計、デバイスユーザの環境内の位置を検知するためのRFID(無線自動識別)標識オブジェクト、および/または、例えば指輪、ボタンもしくは腕輪に組み込まれる、動きを検知するための加速度計のうちの1つ以上などである。また、脳波記録法(electroencephalography:EEG)、心電図(electrocardiogram:ECG)、心拍数(パルスオキシメータによってまたは眼の画像内でなどの複数の方法で検知可能)、呼吸および他の動きをモニタリングするためのひずみゲージ、他のバイオメトリクス、および/または、身体の他の領域から発生するジェスチャをモニタリングするためのさらなるカメラのうちの1つ以上を用いて取得された情報にアプリケーションが結び付けられてもよい。
以下の説明では、主に眼のみを用いたヒューマン・マシン制御に焦点を当てる。比較として、タブレットまたはタッチスクリーンを制御するために指を用いて発生させるジェスチャなどのジェスチャは、現代のコンピューティングデバイスにおいて広く普及している。もっぱら指ジェスチャを用いて多くのコンピューティングデバイス、特に携帯型のデバイスを完全に制御することが可能である。眼球信号法とは異なって、1本以上の指の動きは、完全に随意の性質があり、(コンピューティングデバイスによって検知可能な)画面にタッチするという物理的行為は、意図的でない画面タッチが時折行われることはあるが、デバイスユーザがコンピューティングデバイスを制御しようしている意図を表わす明らかな指標として使用可能である。それに反して、眼球信号を用いたコンピューティングデバイスの制御には、いくつかの独自の課題がある。
1.眼は、常に動いており、日常生活のほとんど全ての局面に関する情報を取得する。特に、ディスプレイまたは網膜投影デバイスを閲覧するプロセス中は、眼を使用しなければならない。意図を識別するために、ディスプレイの閲覧および探索に使用される調査的眼球運動と故意の眼球信号とは区別しなければならない。
2.「何もない」(すなわち、視覚的参照、エッジまたは手がかりがない)位置をいかなる期間も閲覧することは困難であり、不快である。同様に、追従すべき参照オブジェクトなしに特定のパターンで眼を動かすことは、(広範な訓練がなければ)困難である。したがって、眼球信号制御オペレーション中は、視野内での制御された動きとともにオブジェクトおよび境界のレイアウトが使用され得る。
3.大半の随意眼球運動は、1)円滑追跡または2)サッケードとして分類されることができ、サッケードは、随意である場合もあれば、不随意である場合もある。各タイプの運動の制御には脳の異なる領域が関与する。また、各タイプの眼球運動には、厳然たる制約がある。例えば、円滑追跡は、およそ30°/秒の角速度を超えることのないオブジェクトまたはエッジの追跡を伴わなければならない。この角速度を超えるターゲットオブジェクトを追跡しようと試みると、視野の周囲でオブジェクトを「追いかける」ために複数の短いサッケード運動が行われることになる。サッケードは、900°/秒までの角速度で発生し得るが、一旦開始されると、たとえターゲットが移動したり消失したりしても、調整を行ってターゲット位置を修正することはできない。円滑追跡眼球運動とは対照的に、サッケードは、知覚なしに視野の領域を通り過ぎていく。眼球信号の検出中は、円滑追跡、サッケードおよび他の形態の眼球運動をアルゴリズム的に区別する(すなわちフィルタリングする)ことが特に重要である。
4.中心窩の領域内で、眼は、表示または網膜投影内の非常に細かい詳細を知覚することができる。実際、通常の照明条件下では、眼は、レイリー基準に近い分解能で詳細を識別することができる。瞳孔直径が約3ミリメートルであると想定すると、これは、およそ0.013°の検出用角度分解能に対応する。これは、視線に関連付けられるアイトラッキングシステムとは対照的であり、当該アイトラッキングシステムは、最適な条件下でさえ、ユーザ知覚用分解能よりも少なくとも1桁大きい角度分解能測定値を生成し得る。眼球信号は、知覚力(すなわちディスプレイ画面上で知覚可能なオブジェクトの最小サイズ)と測定された視線追跡分解能(すなわち眼球信号形成中に確実に選択可能なオブジェクトの最小サイズ)との間のこの大きな不一致を考慮に入れなければならない。
これらの課題により、他の形態のジェスチャ制御と比較して眼球信号を効率的に生成および検出するための独自の視覚的レイアウトおよび戦略が要求されることになる。
一方、コンピュータマウス、ジョイスティックまたはタブレットなどのデバイスおよび何らかの形態の手ジェスチャ制御を使用する表示面と比較して、ヒューマン・マシン・インターフェイス(HMI)メカニズムとして眼球信号を利用することには利点がある。
1.眼を制御する筋肉は、人体内で最速の動きを生じさせることができる。したがって、戦略的に設計されたグラフィカルユーザインターフェイス(「GUI」、本明細書における眼球信号システムおよび方法では「iUi(登録商標)」と称される)により、高速眼球信号制御が可能になる。
2.眼球信号制御の検知および作動コンポーネントは、眼球信号制御と調和させるために使用される生物学的「プロセッサ」(すなわち脳)から短い距離だけ離れたところに位置する同一の器官(すなわち眼および動きを制御するその6つの筋肉)内にある。ニューロン経路が短いことにより、適切に設計されたiUi(登録商標)GUIによる高速眼球信号制御がさらに可能になる。
3.人間において、眼は、外部環境を検知するために使用される最高帯域幅の器官である。視線を用いて、当該環境において視覚化された現実世界のオブジェクトを正確に示して、その後、選択された動作と関連付けることが可能である。視線ベースの選択中、物理的観点または認知的観点から、他の感覚またはエフェクタ器官は関与する必要はない。例えば、眼球信号中に実在または仮想のオブジェクトを選択するためにいわゆる「視覚と手の協調」は不要である。
4.アイウェアまたはヘッドウェアデバイス内に内蔵される眼球信号制御は、デバイス着用者だけでなく当座の環境内の人にとっても邪魔にならないものであり得る。眼球信号は、眼およびヘッドウェアに個別に関連付けられるもの以外の明らかな動き、音または目に見える明暗を伴わない。デバイスユーザに隣接している人は、眼球信号が利用されていることに全く気付かない可能性がある。
眼球信号言語
眼球信号制御のためのパラダイムを説明するために、新たな用語に対して特有の意味を策定して割当てることが都合がよい。この専門用語は、眼球信号をより簡潔に説明することを可能にし、特に眼の神経制御または生理学的な動きに精通していない人にとってより有意義であろう。以下は、このような用語の一覧である。
「インタラクタブル(interactable)」は、ディスプレイ内で閲覧可能な、アイコンと同様のものであり得る仮想オブジェクトである。アイコンは、GUIの分野におけるよく知られた概念であり、最小の表示領域内で意味を伝えるために使用され、選択可能であり得て、しばしば言語に依存しない。本願では、「インタラクタブル」は、インタラクタブル選択プロセスが片眼または両眼を必要とすること以外は、同様の目的で使用可能である。
インタラクタブルの1つ形態は、注目を引き付けるおよび/または意味を伝える態様での実在のオブジェクトのタグ付けまたは標識付けを含む。例えば、拡張現実ディスプレイでは、1つ以上の英数字、ハロー(halo)、カーソル、矢印または他の記号は、特定のオブジェクト上の表示または特定のオブジェクトに隣接する表示内で重畳されてもよい。これらは、(仮想のアイコンと同一の一般的な態様で)眼球信号言語に含まれることができるようにオブジェクトに割当てられた特定の意味をデバイスユーザに対して示すことができる。例として、ハローが動作(例えばオンにすること)のオブジェクトであることができるように物理的な照明スイッチの周囲に配置されてもよく、または人の名前がその人の(実際の)顔に隣接して表示されてもよく、これにより、眼球信号言語を用いてテキストまたはメールをその人に送ることができるようになる。
「セレクト(select)」は、眼を用いたオブジェクトの選択である。オブジェクトは、1)例えば表示に隣接して閲覧される、または(インタラクタブルに注釈を付けるために上記の同一の技術を用いて示される)透光性表示を介して閲覧される現実世界のエンティティであってもよい。これは、1つ以上の遠隔画面(TV、コンピュータディスプレイ、標識など)上で閲覧されるオブジェクトもしくはグラフィック、ホログラム、または他の遠隔の仮想のもしくは物理的な目に見える構造物も含む。オブジェクトは、2)外向きのカメラによって取込まれ、次いでリモートまたはウェアラブルであり得るディスプレイ上で閲覧または拡張される現実世界のエンティティであってもよく、または3)テキスティング、電子メール、地図、天気予報などに関連付けられるようなアプリケーションを開始するために使用される仮想オブジェクトなどの、ディスプレイデバイス上で閲覧される仮想オブジェクト(例えばインタラクタブル)であってもよい。
デバイスユーザは自身の閲覧可能な環境を見渡すので、選択可能なオブジェクトは、通常、閲覧時に何らかの態様で強調または変更されて、視線方向を示す有益なユーザフィードバックをリアルタイムで提供する。「起動」インタラクタブル(以下の「ゴー(go)」を参照)に対するサッケード以前の最終的な閲覧位置が、「セレクト」の位置である。起動は、(選択された動作を実行するためにオブジェクトが必要とされる場合には、選択されたオブジェクト上で)動作を実行させる。「セレクト」という用語は、選択されたオブジェクトを指すために名詞として使用されてもよく、またはオブジェクトを選択するプロセスを示すために動詞として使用されてもよい。
実施例において、眼球信号言語内の通常のシーケンスは、閲覧されているオブジェクトに動作を適用するというものである。言い換えれば、オブジェクトを指定した後に動作が指定される。眼球信号言語ではまれであるが、1つ以上のオブジェクトを指定する前に動作のコンポーネントを指定することが有利であろう。一例として、以下で説明する連続起動モードは、1つ以上のオブジェクト上で繰返し動作を実行することを可能にする。この場合、動作(または少なくとも動作の何らかのコンポーネント)は最初に指定され得る。
「ルック(look)」は、サッケード眼球運動によって実在または仮想のオブジェクトから(すなわちサッケード立ち上がり位置から)別のオブジェクト(サッケード着地位置)に眼を動かすプロセスである。上記のように、サッケードは、高速の弾道的眼球運動である。「ルック」の随意性およびそれらの(必要に応じて)大きな角距離を迅速にカバーする潜在能力は、眼球信号制御の高速形成中は特に有益であり、重要である。
ルックに関連付けられるサッケードは、反射性であってもよく、走査性であってもよく、または記憶誘導性であってもよい。ルックは、ターゲット位置に焦点を合わせるために大距離サッケード後に小さな修正的サッケードを含み得る。ルックの重要な特徴は、ルックの発生をリアルタイムでアルゴリズム的に識別し、その結果、ルックの経路内の(すなわち立ち上がりまたは着地箇所ではない)インタラクタブルまたは他のオブジェクトが選択されないようにすることができることである。ルックは、必ずしも互いに隣接していない2つのオブジェクトまたはプロセスを眼球信号の形成中に関連付けるまたは接続することを可能にする。
「ゴー(go)」は、起動ターゲットである。「セレクト」から「ゴー」ターゲットを見ることは、選択または起動がユーザによって意図されていることを示す。「ゴー」インタラクタブルは、眼球信号形成中に記憶誘導性のルックを使用することができるように固定の(すなわち熟練したユーザに知られている)位置に位置してもよい。熟練したユーザは、選択または起動が望まれる場合以外は「ゴー」位置を閲覧しないようにすることを学習する。
眼球信号言語における制御事象のシーケンスは、ジェスチャベースの制御システムとは大きく異なっている。眼は日常活動を行うために常に使用されており、サッケードおよび円滑追跡などの特定のタイプの運動のみを容易に実行するということがシステム設計内で明らかに受け入れられているので、違いが生じる。簡単に言えば、これは、「自然にすることを眼にさせる」原理であるということになる。
ジェスチャベースのシステムとの1つの違いは、「オブジェクト」と「動作」とを結び付けるシーケンスである。他のシステムにおける多くのジェスチャシーケンスでは、動作(例えば、色の変更、削除)は、最初に指定され、次いで1つ以上のオブジェクトに適用される。眼球信号言語を用いる場合には、オブジェクトはいたるところで閲覧されることが認められている。動作を実行すべき場合には、当該動作は、サッケードまたはルーチン観察下のオブジェクトから動作シーケンスを開始させる位置を「ルック」すること(すなわち「ゴー」)によって開始される。類推として、オブジェクトが「名詞」または「主語」であり、動作が「動詞」であれば、眼球信号言語では、名詞/主語は動詞に先行する(すなわち、英語の一般的順序と同様である)。
このシーケンスは、大半の眼球運動の調査性を活用する。我々は、「すべきことを見つける」ために眼を常に使用する。1)オブジェクトの発見、2)動作の選択、次いで3)動作が適用されるべきオブジェクトの再配置、のシーケンスは、眼球運動にとって無駄が多い。その代わりに、眼球信号言語では、動作は、現実世界または仮想世界において閲覧される「動作可能な」何かに(すなわち単一のサッケード眼球運動によって起動位置に)すぐに適用されることができる。
実在または仮想のオブジェクトが「動作可能」であるという知識は、ユーザフィードバックの重要性を裏付ける。フィードバックは、デバイスユーザが「戸惑い」を覚えないようにするために非常に重要である。以下で説明するユーザフィードバックの例では、フィードバック自体が眼の通常動作と干渉しないことも重要である。したがって、例えば、動作可能な仮想オブジェクトの周囲の輪郭またはバーチャルリアリティシステム内の実在のオブジェクトの周囲のハローの特性(例えば、サイズ、厚み、位置、色)は、通常の眼球運動を邪魔または妨害しないように注意深く選択される。
世界を閲覧する際のこれらの条件下で、熟練したデバイスユーザは、記憶に残っている位置に対して記憶誘導性サッケードを使用して、動作を開始させる。その時点で、さらなる画面プロンプトまたはオブジェクト除去は、(ミリ秒の範囲内で)非常に注意深くタイミングを合わせられ、(注目を引き付けるように、または注目を引き付けないように)制御されて、さらなる対話が実行されるときに眼を誘導または「保持」する。さらに、ミリ秒の時間枠で高速眼球運動が行われるので、快適な動作のために眼球信号動作フィードバックは同一の時間枠でなければならない。
さらなる例示的な実施例において、ユーザは、いわゆる「寄り目」操作を実行することによって自発的「選択」または起動を示してもよい。顔の非常に近くにあるオブジェクトを観察しているのでない限り、寄り目にすることは、明らかに認識可能かつ自発的な動作である。これは、代替的な起動動作として眼球信号「言語」内に組み入れられることができる。しかし、頻繁に寄り目にすることは、厄介であると知覚される可能性がある。したがって、眼球信号言語は、寄り目にすることに対して、それほど使用されない動作を割当て得る。例えば、短時間の寄り目は、以前のメニュー選択に「戻る」ために使用されてもよく、長時間の寄り目操作は、デバイスを「ホーム」状態にリセットするために使用されてもよい。
「追跡(pursuit)」は、起動または動作がユーザによって意図されていることを示すためのさらなるメカニズムである。「追跡」は、特に、人間の眼が円滑追跡を用いてオブジェクトを追従する能力に即して設計されている。「追跡」は、2つの機能モードのうちの1つにおいて使用され得る。2つの機能モードとは、1)N個から1個の選択が望まれる場合に、2つ以上のグラフィック要素が一定速度で径方向外向きに投影され、元のターゲット位置のおよそ中心位置から離れる、または、2)選択が必要とされない(起動のみである)場合には、ターゲット追跡インタラクタブル自体がその元の位置から離れ得る、というものである。ある期間および/または距離にわたって追跡オブジェクトを追従することにより、起動が引き起こされる。閾値時間および/または距離に達する前の円滑追跡から離れるサッケード(またはまれなケースでは、前庭動眼または輻輳開散)眼球運動は、起動なしに眼球運動シーケンスを終了させる。全ての運動は、円滑追跡の神経制御されたメカニズムによって閲覧できるように注意深く制御される(例えば、角速度は30°/秒をはるかに下回るように維持される)。
N個から1個の選択の場合、「追跡オブジェクト」という用語は、元のターゲット位置から外向きにコンベアの態様で円滑かつ連続的に移動する際にN個の個々のサブインタラクタブルまたはオブジェクトを説明するために使用される。選択された距離にわたって(恐らく時間も考慮して)N個の「追跡オブジェクト」のうちの1つを追従するプロセスは、N個(Nは投影された追跡オブジェクトの数である)から1個の選択および起動を行うユーザの意図を特定するために使用される。N個の状態から1個の状態の自発的なユーザの選択は、主に円滑追跡眼球運動の方向によって伝えられる。この区別は、ユーザの意図を識別して追跡オブジェクトを追従するために必要なフィルタリングおよび処理を簡略化する上で重要である。これは、セキュリティまたは他の制御のためにユーザの視線が特定の経路を追従していることをシステムが識別する必要があることとは対照的であり得る。本明細書で提案されているアプローチは、はるかに単純であり、広く適用可能である。
円滑追跡によって単一の追跡インタラクタブルを追跡する際、2つの眼球信号制御モード、すなわち1)個別または2)連続、があり得る。個別モードの場合、選択された距離にわたって動いている追跡ターゲットが実質的に連続的に追従されると、起動基準が満たされ、デバイスは選択に応答する。連続モードでは、追跡インタラクタブル(すなわち、一般にその開始位置に対して)追従する際に眼によって追跡される距離は、(一般的なGUIにおける「スライダ」制御と同様の)アルゴリズム制御に利用可能な実質的に連続的な「尺度」または物差しとして使用される。
プログラム的に、連続モードは、指定の動作の途中での停止にも有用である。例えば、移動距離によっては、ユーザが追跡インタラクタブルから目をそらすと、ページは、読書アプリケーション内の部分的に移動した位置にとどまることができる。この動作は、ユーザの眼の「追跡のホッピング(hopping)」と称されることができ、これは、そうでなければユーザによる継続的なオブジェクトの追跡によって継続されるであろう何らかの行動の速度を落とすまたは停止させるためのものである。これは、自然な態様でのリアルタイムの粒状制御をユーザに対して提供する。このような場合、ユーザの眼が「ホップする」(すなわちサッケードとして移動する)先の特定のターゲットが提供され得る。ユーザが特定のターゲットを見なければならないという要件は、含まれる場合もあれば含まれない場合もある。
円滑追跡中、眼(および関連付けられる追跡オブジェクト)が終点位置に到達すると、プログラムは、終点位置の領域が閲覧される限り、選択されたオペレーションを繰返し得る。プログラム的に、これは一般にループまたは繰返し構造と称される。ループまたは繰返しの数に関連する視覚的指標が、終点位置に表示され得る。これは、眼の滞留時間がユーザの意図を伝えるために重要な役割を果たすいくつかの例のうちの1つである。図10の下部パネルに示される、テキストを読んでいる間に複数回のページめくりを制御するプロセスは、眼球固視によって制御される「ループ」または「繰返し」プロセスの一例である。
追跡プロセス中に、ユーザが動いているインタラクタブルまたは追跡オブジェクトを追従しない場合、または十分な距離を横断する前にユーザが別の位置の方を見る場合には、起動は行われない。サッケード眼球運動とは対照的に、個人が円滑追跡中に追跡されているものを実質的に連続的に閲覧および知覚できることは、追跡ベースの眼球信号の重要な要素である。追跡オブジェクトは、追跡されなければ、起動されるとすぐに消失するか、または短時間/距離の後に消失もしくはフェードアウトし得る。特定の追跡オブジェクトが追跡されると、追跡されている追跡オブジェクト以外の全てのオブジェクトは、消失するか、フェードアウトするか、または透光性になるか、および/またはほとんど目に見えなくなり得る。
さらなる実施例として、追跡オブジェクトは、水平(すなわちX方向)および垂直(すなわちY方向)軸によって規定される平面において動作可能であるだけでなく、デバイスユーザの焦点距離を判断するための方法が使用される第三次元(すなわちZ方向)でも動作可能である。これらの方法は、両眼輻輳、または、眼を構成する左および/もしくは右の水晶体の曲率、厚みもしくは他のジオメトリの評価を含む。追跡オブジェクトは、デバイス着用者の方にまたはデバイス着用者から離れるように動くように見えるようにされ得る。デバイス着用者の意図は、デバイス着用者がZ方向の仮想の動きを自発的に追従するか否かに基づいて推測され得る。
また、X、YおよびZ方向の任意の組み合わせにおける追跡オブジェクトの自発的な追跡の検出を組み合わせることも可能である。全ての利用可能な次元を用いると、追跡オブジェクト粒子は、全ての方向に「爆発する(explode)」ように見え、ユーザは、単一の粒子を追跡してN個から1個の選択を行うことができるようになる。
「リビール(reveal)」は、ゴーとは異なって、セレクトが先行する必要はないが、「リビール」に関連する追跡オブジェクトからのルックが先行し得るターゲットインタラクタブルである。「リビール」インタラクタブルの特別な例は、「メインリビール」である。この「リビール」は、全ての(または大半の)画面上でユーザがアクセス可能な固定の(すなわち熟練したユーザに知られている)位置に配置され、例えば「ホーム」、「戻る」、「設定」および/または「メニュー」インタラクタブルへのアクセスを提供することができる。「メインリビール」インタラクタブルを閲覧すると、付加的なインタラクタブルがさらに「公開される」か、または既存の表示に重畳され得る。
メインリビールの重要な局面は、ユーザがメインリビールの方を見ると公開されるインタラクタブルの表示の時間的制御である。公開されたインタラクタブルは、短時間だけ閲覧可能である。指定時間内に付加的な「リビール」インタラクタブルのうちの1つを(一般に見ることによって)閲覧できなければ、付加的なインタラクタブルはフェードアウトまたは消失し、選択が行われることはない。最初にメインリビールインタラクタブルを閲覧し、次いで一定の時間(一般に1秒未満)内に新たに公開されたターゲットインタラクタブルのうちの1つの方を「見る」ことによって、デバイスユーザの意図は識別される。
以下でより詳細に説明するように、リビールは、さらなる選択および/または情報へのコンテキスト的アクセスを提供するのに特に有用である。メインリビールインタラクタブルは、いかなるさらなる選択情報も必要としないインタラクタブルを公開する。メインリビールから公開された「ホーム」または「戻る」インタラクタブルの方を見ることは、選択されたインタラクタブルをすぐに起動させる。
通常はコンテキストに依存する(例えば表示の大半を占める画像を調査する)いくつかの例では、特定の量の「摩擦」が「戻る」インタラクタブルなどのいくつかのメニュー選択プロセスに追加され得る。これは、例えば視線選択領域をより小さなインタラクタブルに関連付けることによって実現可能である。コンテキスト依存のカスタマイゼーションは、特に高密度表示内で故意でない起動を回避するためのいくつかの戦略のうちの1つである。
リビールは、それ自体がネストにされるか、または層状にされてもよく、新たに公開されたインタラクタブルは、他の(一般に異なる)リビールインタラクタブルによって置換される。このリビールアイコンのネスティングは、何層にもわたって継続し得る。各層において、選択されたリビールインタラクタブルは、「戻る」機能および関連付けられるグラフィックによって置換され得る。このスキームは、複数の「戻る」オペレーションが、以前に表示された層状のリビール層またはグループに潔く戻ることを可能にする。また、以下でより詳細に説明するように、ユーザは、メインリビールによって引き起こされる「ホーム」インタラクタブルを使用することによって最上位(すなわちホーム)メニューに常に戻ることができる。インタラクタブルのリビール層化およびコンテキスト依存表示は、眼をベースにした選択が利用できる表示スペースを最大限に利用する。
「リビール」は、(いくつかのジェスチャベースのGUIではしばしば「ツール」と称される)機能を選択するプロセスであり、当該機能は、(他の情報が適用に必要でなければ)その後すぐに適用され、または、メニューリビール機能が適用される位置またはオブジェクトがその後選択された後に適用され得る。
別のタイプの「リビール」は、「メニューリビール」である。メニューリビールは、多数の可能な選択からある機能が選択されている場合に特に有用である。これは、「ホーム」および「戻る」を含む少数の頻繁に使用される選択が存在する状況において有用であるメインリビールとは対照的である。メインリビールとは異なって、メニューリビールおよび他のリビールは、時間に依存しない。
典型的な(非メイン)リビール選択プロセスは、コンテキスト依存の公開されたインタラクタブルセットをメニューとして表示することによって開始し、最初の選択は、サイドバー間の中央表示領域を占めていたコンテンツ(例えば、絵、テキスト、アプリケーション)に依存し得る。メニュー項目は、この中央表示領域上への重ね合わせ(例えば、透光性または不透明)によってレイアウトされる。メニュー選択は、デバイスユーザによって(やはり時間的制約なしに)調査され得る。次いで、個々のメニューリビールは、上記の確立されたルック・アンド・ゴーシーケンスを用いて選択され得る。他の場合には、公開されたメニューインタラクタブルは、当該メニューインタラクタブルから、現実世界で閲覧されるオブジェクトなどの表示内のオブジェクトまたはその他の場所の方を「見る」ことによって起動されてもよい。
このようなリビールステップにおける遷移は、満足のいくユーザエクスペリエンスにとって特に重要である。選択の不透明度を変化させること、および/または、眼が自然に新たな選択メニューの方を向くように表示のセグメントを移動させることは、このような遷移の例である。逆に、特に同時に複数の位置でオブジェクトが出現または消失することを含む突然の変化は、視環境では不快で疲れるものとして一般に知覚される。
メニューリビール選択は、(多くの他のGUIにおいてよく知られている)ドロップダウンメニューと同様のメニューの表示をもたらす。メニュー項目が選択されると、元の(すなわち選択された)メニューリビールを含んでいた領域は、すぐに「戻る」ボタンに変換され得て、ユーザは、選択を逆にすることができ、および/または、メニュー選択のプロセスを表わすツリー構造を上がることができる。
サブメニュー選択プロセスは、何回も繰り返されることができ、ユーザは、(理論上は)無限に大きいものであり得る選択のプールから選択することができる。メニューおよびサブメニュー構造の戦略的な選択によって、(例えば画面スクロールを行う必要なく)限られた画面表示スペース内でインタラクタブルのコンテキスト依存表示を生じさせることが可能である。一旦メニューリビールが選択および起動されると、表示は(絵またはテキスト本文などの)元の状態に戻され、希望するなら、公開されたインタラクタブルによって表わされるオペレーション(例えば拡大)が適用および再適用され得る。
広範囲の他のメニュー選択デバイスで利用されるGUIにおいて広く普及しているツールは、いわゆる「ドラッグ・アンド・ドロップ」である。眼球信号言語は、眼球運動の生理学的制約のために異なる態様で「ドラッグ・アンド・ドロップ」機能に対処しなければならない。弾道的サッケードを用いて特定の経路に沿ってオブジェクトを「ドラッグする」ことは不可能である。同様に、円滑追跡は、(ユーザではなく)表示によって誘導されなければならない。これらは、ポインティングデバイスに対する明らかな自発的制御が存在する手持ち式コンピュータマウスなどの他の制御装置を用いて実行可能な動作とは対照的である。
その代わりに、オブジェクトまたは領域のエッジは、眼球運動によって指定され得る。これは、エッジを識別する眼の先天的能力を活用する。また、これは、焦点(例えば格子、ドットのアレイまたは周期波形を含み得る)として機能するように適切な選択位置にエッジを設けるために注意深いユーザインターフェイスのレイアウトを必要とする。したがって、結果として生じる動作(すなわち起動されるとき)は、現在の眼による選択も1つ以上の以前の眼による選択も考慮に入れることができる。眼球信号を用いてこのプロセスを説明するために使用される(特徴的な)用語は、「ピック・アンド・プレース」である。
表1は、このような眼球信号によって利用可能な機能またはプログラミング要素のうちのいくつかを要約している。これらの要素は、眼球信号に基づく外殻フレームワークを有するiUi GUI構造のためのアプリケーション開発者による「プリミティブ」またはビルディングブロックとして機能する。
眼球信号シーケンスの他の例示的な組み合わせは、1)フレームワークとして表示される格子上の交点の集合体の一連の見渡しを実行して、均一であると考えられる背景(眼球固視にとっては不利)に対して選択を可能にして最後の点からゴーを見ることによって、領域を選択することを含む。代替的に、1つのインタラクタブルから開始して、複数の点に沿って最終位置を見て、最終的にインタラクタブルを見ることにより選択が引き起こされ、当該選択は、複数領域の強調によって示される。眼球信号シーケンスの他の例示的な組み合わせは、2)テキストのある領域の選択中に、リビールを見て、公開された「テキスト選択」インタラクタブルを見て、選択の最初の語、任意に中間の語を見て、最後の語を見て、テキスト選択(または、「テキスト削除」、「テキスト置換」、または他のテキストによって動作可能なインタラクタブル)を見ることを含む。ユーザは、「テキスト置換」を「見る」と、選択された語についての表示上の即時置換を用いて、音声テキスト変換のためにマイクロフォンによって取込まれ得る置換語を話し得る。
眼球言語の一般的な「文法」は、複数のアイトラッキングプラットフォームに適用可能である。眼球運動および対話パターンは、本明細書の他の箇所に記載されているシステムなどの邪魔にならないカメラを含むヘッドウェアベースのデバイスを用いて識別可能である。ヘッドウェアは、バーチャルリアリティディスプレイ、拡張現実ディスプレイおよび/もしくは他の近接場ディスプレイ、ならびに/または、ヘッドウェアから遠隔の1つ以上のディスプレイを含み得る。眼球運動およびパターンは、携帯電話、タブレット、ラップトップコンピュータおよびデスクトップコンピュータ内に組み込まれるものを含む頭部装着型でないカメラを用いても識別可能である。
処理ユニットの「周辺に」あるアイトラッキングカメラも使用可能であり、当該アイトラッキングカメラは、USB(ユニバーサルシリアルバス)を介して、無線で(例えばWi−Fiまたはブルートゥースを介して)接続されるもの、車のダッシュボードに貼付されるもの、テレビまたは他のディスプレイの付近に装着されるもの、標識内に取り付けられるもの、および他の眼球画像化構成などである。眼球運動および対話パターンは、鏡面仕上げ面、選択された波長を反射する面(いわゆる「ホットミラー」)、光ファイバ画像誘導、レンズ、および片眼または両眼の画像を伝えることができる他の光学的構成からの反射に基づいて眼の領域を画像化するカメラからも識別可能である。iUi GUI(ユーザインターフェイス)に含まれる文法および眼球信号は、これらのコンテキストのうちのいずれにおいても関連性があり、有用であり、および/または配備され得る。
頭部の動きによって補完される眼球信号
眼球信号文法は、任意に、小さな頭部の動きまたは「点頭」によって拡張されてもよい。サッケードおよび円滑追跡と同様の態様で、随意頭部運動は、眼球運動の自然な(すなわち快適な)拡張機能である。実際、約20°(この値は人によって大きく異なる)よりも大きな視線のシフトはいずれも、通常は頭部の動きに関連付けられる。これは、相当な意識的努力なしに日常活動中にルーチン的に起こり得る。サッケードに関連付けられる頭部の動きに関与する脳のさまざまな領域が研究され、例えば頭部の動きを生じさせる傾向の(あまり理解されていない)差は、年齢に応じてさまざまである。
一般に、加速度計がウェアラブルデバイス内に組み込まれる。頭部装着型多軸加速度計の出力に基づく地球の重力場に対する加速度および向きは、相対的な頭部の動きについての情報を提供し得る。閲覧されたオブジェクトに参照付けられる頭部の絶対位置および動きは、視線方向および前庭動眼眼球運動の追跡と結び付けられると識別可能である。これは、頭部ジェスチャを眼球信号制御と統合するための手段を提供する。
意図を伝えるために使用される小さな随意「点頭」は、1)動きの比較的小さな振幅、2)動きの速度、および3)眼が静止位置(例えば、インタラクタブル、実在または仮想のオブジェクト、エッジ、点)を閲覧している間の動きの性能に基づいて、一般的な頭部の動きと区別されることができる。これらの頭部の動きは、上記の4つの基本的タイプの眼球運動のうちの1つである前庭動眼眼球運動を活用する。
上記のように、前庭動眼運動は、純粋に反射性であり、頭部の動きと同一の回転であるが反対方向に眼を動かす。これは、眼の中心窩領域上で外界の画像を安定化させるために使用される。したがって、前庭動眼運動自体は不随意であるが、前庭動眼運動を生じさせる頭部の動きは随意であり得る。したがって、このような頭部の動きは、ユーザの意図を伝えるための眼球信号言語における1つのコンポーネントとして使用可能である。
いかにして点頭を用いて意図を伝えるかに関して個人に指示する際に、「鼻で指し示す」という表現を用いることが時には有用である。言い換えれば、オブジェクトを見たときに、鼻の方向にうなずく(すなわち眼を反対方向に動かす)と、鼻の動きの方向(例えば、左、右、上、下)に基づいて意図を伝えることができる。
「点頭」は、その元の位置に戻る場合もあれば、追跡オブジェクトと同様の態様で(上記を参照)所与の方向に継続する場合もある。4つの方向、すなわち1)左方向、2)右方向、3)上方向または4)下方向、のうちの1つの方向の点頭を生じさせることが快適である。もう少し努力すると、以下の4つのさらなる方向、すなわち1)左上方向、2)右上方向、3)左下方向または4)右下方向、の点頭を生じさせることも可能である。点頭の「振幅」(すなわち動きの範囲)も、特定の動作の「振幅」の連続的に可変の制御として使用可能である。
この柔軟性を備えていることにより、点頭は、複数の方法で認識され、眼球信号内に組み入れられることができる。第1に、点頭の存在は、「起動」の指標として使用可能である。このような随意頭部運動の存在は、動きの範囲、速度、方向およびユーザインターフェイスコンテキストに基づいて、他の頭部の動きからアルゴリズム的に区別またはフィルタリングされ得る(例えば図4を参照)。いくつかの眼球信号シーケンス中は、これは、「起動」シーケンスを実行するためのサッケードまたは他の眼球運動の必要性を無くすことができる。
第2に、頭部の動きの方向は、N個から1個の選択を行うために使用可能であり、Nは、2つの方向と、上記の少なくとも8つの異なる方向、すなわち1)左方向、2)右方向、3)上方向、4)下方向、5)左上方向、6)右上方向、7)左下方向、または8)右下方向、との間の任意の値であってもよい。例えば、行事予定表を閲覧するために一回の点頭を用いて7日間の選択肢から1つの選択を行ってもよい。別の例として、上下の点頭によって「イエス」の返事を選択し、または左右への点頭によって「ノー」の返答を選択してもよい。
第3に、点頭の振幅は、特定の動作の大きさ(すなわち非個別モード)を示すために使用可能である。例えば、点頭の方向および振幅の両方を用いて、画像、オブジェクトの大きなテーブルまたは地図上で「パン」機能を実行することができる。点頭の振幅が大きくなるにつれて、表示されるパン運動は大きくなる。
第4に、点頭は、回転を含み得る。回転は、時計回りの方向である場合もあれば、反時計回りの方向である場合もある。ある程度まで、頭部の回転は、漸次的であり得る(すなわち大きかったり小さかったりし得る)。頭部の回転は、一般に眼の回転(リスティングの法則のコンポーネント)として十分に反映されることはないが、頭部に貼付されたカメラ、加速度計、または顔もしくは頭部を閲覧することができるリモートカメラにおける全体的な光景の回転を含む他の手段によって検出されることができる。
第5に、点頭は、何回も繰り返されることができる。コンテキストによっては、これは、単一の動作を複数回繰返すため、または拡張メニューから(例えば8つの異なる点頭方向によって指定されるものを超える)動作の選択を示すために使用され得る。前者の例は、点頭が上下方向に行われる限り画像(例えば、絵、地図)上で繰返しズームインすることである。同様に、左右の点頭が繰返される限り、ズームアウトが実行され得る。他のコンテキストでは、例えば本を読んでいるときには、左右の点頭は、本のページをめくる方向(すなわち、左対右方向の最初の点頭)および速度(左右点頭の回数)を制御するために使用されてもよい。2回の上下点頭後の2回の左右点頭などの点頭ジェスチャの最も複雑なものは、それほど使用されないが重要である機能のために取っておくことができ。それによって、デバイスを低電力または「スリープ」モードにする。
眼によって追跡されるオブジェクト信号
別の実施例において、仮想オブジェクト用いて動作を作動または開始させるという通常の役割を逆にしてもよい。例えば、外向きのカメラは、拡張された指がユーザの視野内で約10°〜20°の範囲にわたって移動するのを追跡し得る。実在のオブジェクトを追跡する際に、追跡インタラクタブルの追跡を支配する同一のアイトラッキング規則を適用することができる。例えば十分な範囲(すなわち、より誇張された動きを必要とする用途では10°未満であるが、より一般的には1°未満)の指の動きの追跡が行われると、システムは、写真の動作(例えば撮影)を立ち上げることができる。どの動作が実行されるかを判断するために、指の属性(例えば、何を指しているか、曲げられているか否か)が使用されてもよい。
デバイスユーザの視覚視野内での指(または、ポインタ、照明、レーザビーム、手持ち式オブジェクトなどの、ユーザによって制御可能なその他のオブジェクト)の配置および使用は、意図の識別に役立つことができる。例えば腕、手および指の動きは、(関連付けられない行動に関係している場合はあるが)純粋に随意である。したがって、眼を用いて、運ばれたり指し示されたりするオブジェクトおよび動きから意図を識別することが容易になる。また、実在および仮想のオブジェクトのさまざまな起動の役割に合わせて構成されると、デバイス内で電力消費量に差がある場合がある。環境内で閲覧されるオブジェクトを眼球信号と結び付けることは、有用な特徴であり、これについては以下でさらに説明する。
環境内の実在のオブジェクトを見ることに加えて、ユーザは、環境内のディスプレイまたは画面において他の仮想オブジェクトを選択することが可能である。これらのディスプレイは、スマートウォッチ、健康管理機器の画面、(製造機器内の)工業用画面、テレビなどを含み得る。ユーザは、ウェアラブル画面またはこれらのリモート画面のうちのいずれかでディスプレイフィードバックを用いて眼球信号を実行することができる。
図2Aおよび図2Bは、眼によって追跡されたオブジェクト信号の一例を示す。この図では、デバイスユーザの視線位置は星印232によって示されている。特定の動作に関連付けられる実在または仮想のターゲットは、十字線230によって示されている。図2Aに示されるように、指231が起動ターゲット230に偶然隣接したとしても、デバイスユーザが指231を特に見ない限り、起動は行われない。一方、図2Bに示されるように、ユーザが指231を見て、それが起動ターゲット230に近接していると、起動が行われる。
音声によって補完される眼球信号
多様な眼球信号の容易さおよび効率は、コマンドシーケンスに音声を含めることによって大きく向上させることができる。検出およびユーザの音声を例えばテキストに書き換える機能は、眼球信号と併用されると特に有力な組み合わせである。ボーカライゼーションおよび/または他の形態のヒューマン・マシン制御は、眼球信号と自然に対話する。一般に、眼球信号の実行は、動作の形態およびいつ動作が行われるかを両方とも指定するために使用され得る。次いで、ボーカライゼーションは、このようなターゲット動作のために1つ以上の「対象」を供給し得る。
これは、音声認識を用いていわゆる「テキストメッセージ」を生成し、次いで眼球信号とボーカライゼーションとの組み合わせを用いて当該メッセージに対して修正を加える例によって示されることができる。まず、ユーザの音声がテキストに書き換えられることをデバイスに示すために眼球信号が使用される。音声入力の開始も終了も眼球信号制御下にある。これは、語のいかなる組み合わせも書き換えることを可能にする。眼球信号の後続のシーケンスを用いて、修正または挿入のために、眼を用いてテキスト内の位置が指定され得る。上記と同様に、(修正をスペリングする可能性を含む)修正を声に出すことは、ボーカライゼーションと眼球信号とを同時に適用することによって制御される。
相乗効果的な音声コマンド入力を用いた眼球信号制御は、単にコマンドの一部として実行されるオブジェクトを(信号ベースでないモードで)注視するまたは指し示すために眼を使用し得る音声制御とは異なっている。眼球信号ベースでない音声起動は、一般に、キーワードまたはキーフレーズの使用を必要とする。故意でない起動を回避するために、同じように聞こえるフレーズおよび/または近接する別の人が話す語は、故意でない音声起動のさらなる原因である。
また、任意の形態の自由形式の言葉による入力(例えば電子メールメッセージのためのフレーズ)をデバイスに提供しているときには、自由形式の入力が終了したことを示す何らかのものが必要である。これは、しばしば、長時間の間合いまたは特定のキーワードもしくは音を検出することによって実現される。上記と同様に、これは、故意でない終了の対象となる。なぜなら、例えばスピーチにおける間合いは、単に話題について考えていることを示す場合があるからである。眼球信号の熟練したユーザは、起動または完了が望まれる場合にのみ起動または完了を表わす位置を単に見ることによって、故意でない起動を回避する。
相乗効果的な音声入力を用いた眼球信号の利点を説明する別の方法は、1)すべきこと(すなわち動詞)および2)いつ動作を実行すべきかを両方とも指定するものとして眼球信号を取扱うことを含む。音声は、動作の実行を助けるためのデータ(すなわち対象)のさらなる源である。これは、デバイスが常に何らかの形態のアラートまたは動作フレーズ(すなわち動詞)を「聞いて」いなければならないもっぱら音声コマンドによる動作の開始とは対照的である。音声コマンド時に眼によって閲覧される位置またはオブジェクトは、補足的な入力になる。
このような眼球信号によって呼び出される音声のフィルタリングは、周囲の音が高く発話がたまにしか行われない場合にも有用である。特にアイトラッキングシステムが低電力方法(下記)を利用して眼がいつ表示位置を注視するかを判断する際に、常に聞いているシステムは、単純な眼球信号によって起動されるシステムよりも多くの電力を消費する。
眼球信号によって動作を指定することは、言葉による動作制御に関連付けられる曖昧さも回避する。眼球信号メニューを注意深く選択することにより、デバイスを特定の(すなわち曖昧でない)動作を実行することに向けることが可能になる。対照的に、「ジェーンを見つけて下さい」などの言葉によるコマンドを使用した要求は、「ジェーン」をテキスト本文内の語として見つけるのか、一組の画像内で顔認識を用いて見つけるのか、音声記録内の口頭での名前として見つけるのか、ジェーンが物理的にどこに位置しているのか、ジェーンについての体の寸法を表示するか否かなどをデバイスに知らせることはない。
他のモダリティによって補完される眼球信号
他の実施例において、眼球信号は、デバイス動作を制御するための他の入力モダリティと組み合わせられてもよい。これらのモダリティは、振る、傾けるまたはそり返る(例えば、「イエス」、「ノー」、関心、驚き、熟考を示す)などの頭部の動き、筋肉の収縮および動き(眼/頭部/顔の方に向けて装着されたカメラによる)、適切な外向きのカメラによる手の動きおよびジェスチャ、適切な音声センサ、力センサまたはモーションセンサによる顎の動きおよび歯の噛み合わせ、ならびに、キーボード、マウスおよびタッチスクリーンなどの従来のコンピュータ入力デバイスを含み得る。
眼球信号は、他のヒューマン・マシン制御モダリティと自然かつ相乗効果的に対話する。例えば、個人が指さしたり、照明スイッチを見て「オンにして下さい」と声に出したり、笑み(逆に、オフにするためにしかめ面をする)などの動作を実行したりすることを学習するために、訓練はほとんどまたは全く必要ない。眼を用いて指し示すことと動作の認識との組み合わせは、容易に理解され、他の状況に一般化されることができる。したがって、その後家またはオフィスを見渡して、例えば眉を上げてサーモスタットの方を向いて「温度を上げる」またはドアロックを見ながら「ドアを開けて下さい」と言うなどのコマンドの実行を開始することは、デバイスユーザにとって直感的になるであろう。視線を用いた制御は、通常のオペレーションおよび多数の他のデバイスの動作を向上させることができる。
検知された情報の別の有力な組み合わせは、メイン動作ユニット(Action Unit:AU)のための一連の「コード」としてFACSによって規定されるデータ、頭部の動き、眼球運動、(内向きカメラ、外向きカメラおよび慣性測定ユニットによって判断される顔の領域の)可視性状態、および肉眼的行動を収集することによって実現可能である。次いで、この情報は、時間的に同期された視線情報を統合されて、ユーザが何を注視しているかを正確に知るというさらなるコンテキストにおいて、感情状態およびユーザの意図に関する大量の情報を提供することができる。これは、さらに、ウェアラブルヘッドマウントディスプレイデバイスでローカルにまたは当該世界における任意のデバイスでリモートで動作を開始させることによってユーザの意図を動作に変換する目的をサポートする。
随意眼球運動を識別するためのアルゴリズム「フィルタ」
眼球信号の形成中、アルゴリズムフィルタは、全ての基本的タイプの眼球運動、すなわち1)サッケード(記憶誘導性または視覚誘導性)、2)円滑追跡(適切な生理学的速度でのオブジェクトの追跡を含む)、3)輻輳開散(オブジェクト選択中に第三次元を生成するための両眼アイトラッキングによる)、4)前庭動眼(点頭選択を組み入れる)、の生理学的根拠を活用する。
また、眼球信号を構成する一連の眼球運動中は、ギャップ効果を使用して、眼球運動を解放して眼球信号を迅速化する態様で、視野内のオブジェクトの出現を除去することができ、眼球動作を引き起こすターゲット位置が閲覧されると「なじみのある」サムネイルをユーザフィードバックとして表示することができ、これは視覚処理の低減およびさらなる動作へのより迅速な遷移を必要とし、変化の見落としに関連付けられる技術を使用して注目を引き付けることなくオブジェクトが導入され、オブジェクトは、視野を変更する際に視覚野によって生成される注目度合いを調整するように適合され(例えば、サイズ、輝度、背景に対する色、コントラスト、不透明度、詳細、反復画面位置)、オブジェクトのタイミングおよび特徴は、ユーザの視線方向ならびに関連付けられる中心窩視野、傍中心窩視野および周辺視野に依存する態様でさらに適合される。
これらの生理学的概念は、眼球信号の形成中にオブジェクトがいつ、どこでおよびどのようにして視野に導入されるか、または視野から除去されるかを制御するためにも使用される。
本明細書におけるシステムおよび方法の基礎をなしているのは、眼球運動の生理学的原理および制約である。上記のように、自発的な制御下で直接的または間接的に実行されることができる最も一般的なタイプの眼球運動は、1)サッケード、2)円滑追跡、3)輻輳開散、および4)前庭動眼である。一連の眼球画像から判断される眼球位置データを用いて、アルゴリズム「フィルタ」は、サッケードまたは円滑追跡眼球運動の存在をリアルタイムで特定および区別するように構成され得る。
サッケードフィルタは、主にサッケードが高速であるという事実に依拠する。実際、上記のように、サッケードは、人体において最速の動きであり、角速度は、900°/秒までである。サッケード速度プロファイルは弾道的であり、(約60°の変位までは)ピーク速度は移動距離の線形関数である。例えば、10°サッケードはおよそ300°/秒の角速度を有するのに対して、30°変位の場合のピーク角速度はおよそ500°/秒である。
本明細書におけるシステムおよび方法においてサッケードに基づいて眼球信号を実現する局面は、観察者の視野内のどこか2つの位置(すなわちサッケード立ち上がり位置およびサッケード着地位置)に位置する仮想または実在のオブジェクトを、当該2つの位置の間の視覚経路に沿ったオブジェクトによる干渉なしに、明確に連結または接続できることである。一連のサッケードを実行することによって、自発的なユーザ制御下で任意の数のオブジェクトまたは位置を論理的に接続して、意図を識別することができる。
サッケード運動は、円滑追跡に関連付けられる最速運動よりも1桁速い。この速度差は、円滑追跡フィルタでは重要な違いである。また、円滑追跡眼球運動の全体的な方向および速度は、(観察者がこれを回避するための広範な訓練を受けていない限り)観察されているオブジェクトの速度プロファイルと一致しなければならない。したがって、円滑追跡は、速度に基づいてサッケードと容易に区別可能であり、表示されたオブジェクトまたは実在のオブジェクトの速度プロファイルと比較して一致が存在するか否かに基づいて他の眼球運動(すなわち輻輳開散および前庭動眼運動)と容易に区別可能である。
より具体的には、ゆっくりと動くオブジェクトを閲覧しているときには、円滑追跡は、およそ100ミリ秒の待ち時間の後にオブジェクトを密接に追従することによって認識され得る。一般に、円滑追跡は、約30°/秒未満の角速度で認識されるが、特に水平方向においていくぶん高い速度が生じる場合がある。円滑追跡によって追従されることができるものよりも大きなオブジェクト移動速度では、当該環境においてオブジェクトを追跡するためにいわゆる「追い上げサッケード」が人間によって使用される。このサッケード−固視シーケンスは、全体的な速度およびサッケードシーケンスの開始/停止速度プロファイルに基づいて円滑追跡と容易に区別される。
本明細書におけるシステムおよび方法において円滑追跡フィルタを実現する別の局面は、ユーザがいつ画面上の特定のオブジェクトを自発的に追従するかを明確に判断することができることである。画面上を動き回ることができるさまざまなオブジェクトに意味または目的を割当てることによって、(もしあれば)どのオブジェクトが追従されているかを測定することによりユーザの意図を識別することができる。このアプローチは、画面を動き回るN個の「追跡可能な」オブジェクトが存在する場合にN個から1個を選択する状態(または追跡するオブジェクトが無い状態)において特に有力である(例えば図1を参照)。
図3は、サッケードおよび円滑追跡眼球運動を特定するためのアルゴリズム的アプローチを概略的に示す。330において眼の新たな画像が取得されると、それは331における眼の画像および/または戦略的測定値の先入先出し(first-in first-out:FIFO)バッファに追加される。332において、最古の画像および/または測定値は、331におけるFIFOバッファから廃棄される。333において、画像におけるアイトラッキングに基づいて眼球速度が測定される。334において眼球速度がサッケード運動のための最小閾値(一般に30°/秒)よりも大きければ、335において、システムは、何らかの形態のサッケード運動が生じたことを知らせる。335において一般に中心窩視界内(すなわちおよそ1°〜3°以内)の距離にわたってサッケード運動が生じると、336において眼球運動はマイクロサッケードとして記録される。一方、335において眼が移動した角距離がこの範囲よりも大きければ、337において当該事象はサッケードとして登録される。
334において眼球運動速度がサッケード運動のための閾値未満であり、338において(もしあれば)運動が中心窩視界内であれば、339において眼は基本的には静止しており、当該事象は固視として記録される。一方、310において実在または仮想のオブジェクトの速度および方向と一致する速度および方向で眼が動いていれば、311において変位は円滑追跡眼球運動として分類される。
眼球信号の別のクラスは、両眼アイトラッキングを用いて検出される「輻輳開散」である。輻輳開散眼球運動が一般に反射性であるとしても、ユーザは、どのオブジェクト(すなわちさまざまな距離のところに位置決めされる)が閲覧されているかを自発的に制御することができる。したがって、ユーザの輻輳開散は間接的に制御される。
輻輳開散信号は、(特に老眼などの症状により年をとるにつれて)一般に円滑追跡よりも速度が遅くなるが、オブジェクトと対話するための三次元パレットと連携したときに並はずれた柔軟性を提供する。輻輳開散制御は、ターゲットがなければ実現が困難であるが、大きい被写界深度(すなわち、同一の視線に沿った遠方オブジェクトに対して、窓ガラスのごみなどの近接オブジェクト)が存在する状況では、焦点距離がある程度意識的に制御される。
重要なことに、両眼表示(すなわち1つの眼当たり1つの表示)で表示される一組のオブジェクトを考察することができ、そのため、オブジェクトは、(恐らく両眼で輻輳開散を追跡することによって制御される)注視焦点に出入りすることができ、その結果、ユーザは、平面上のオブジェクトを見たり追跡したりすることができ、さまざまな距離/深さで表示および知覚される平面上のオブジェクト間で「ズーム」することができる。輻輳開散運動は、およそ25°/秒までの角速度に限定される。さまざまな深さにおける仮想オブジェクトの選択は、事実上、オブジェクト選択パレットに新たな次元を追加し、表示および/または選択/起動可能なオブジェクトの数を大きく増やす。
一般に、前庭動眼眼球運動も、頭部の動きに反応して反射性であると考えられる。しかし、頭部の動き自体は、特にデバイスユーザがオブジェクトに集中しているときには往々にして随意である。したがって、ユーザの前庭動眼眼球運動は間接的に制御される。
図4は、輻輳開散運動と前庭動眼運動とを見分けるためのアルゴリズム的アプローチを概略的に示す。輻輳開散運動の場合、右眼430aおよび左眼430bからの眼球位置測定値を考慮しなければならない。(以前の眼球位置測定値(図示せず)と比較して)右眼の位置431aまたは左眼の位置431bがデバイスユーザの中心窩視界内にあれば、輻輳開散運動または前庭動眼運動がさらに考慮されることはない。運動が中心窩視界を超える場合には、右眼433aおよび左眼433bのために速度が計算される。同時に、432において、加速度計、シーンカメラ内の画像の全体的な動き、または他の方法を用いて、頭部位置が判断される。434において頭部位置が著しいものでなければ、さらなる比較は行われない。そうでなければ、435において、432における頭部位置に基づいて頭部速度が計算される。
436において右眼および左眼が同一方向に動き、437においてこの方向が頭部の方向とは反対であり、動きの大きさの点で適切な対応関係を有している場合には、439において眼球運動は前庭動眼として分類される。436において右眼および左眼が反対方向に動き、およそ同一の動きの大きさを有している場合には、438において眼球運動は輻輳開散として分類される。
ユーザの意図を表現する眼球運動をアルゴリズム的に特定するための別の戦略は、意図の伝達に関連付けられない眼球運動も同時に特定するというものである。これらの運動は、一旦特定されると、随意眼球運動を全体的に解釈する際に無視されたり、差し引かれたり、またはそうでなければ釈明されたりすることができる。例えば、高頻度の振動またはトレモア(生理的眼振)は、ほとんど全ての形態の固視に重畳される。これらの振動は、網膜受容体上の画像をシフトさせ、境界付近に新鮮な網膜受容体を補充し、0.1秒ごとに2つの隣接する中心窩錐体視細胞の間の距離をおよそ移動する。
「通常の」(すなわち非病理学的)フィルタに加えて、アルゴリズムフィルタは、自発的な意図の伝達に関連付けられない病的眼球運動を区別および特定するようにも構成され得る。上記と同様に、これらの運動は、随意眼球運動を全体的に解釈する際に無視されたり、差し引かれたり、またはそうでなければ釈明されたりすることができる。例えば、3〜6サイクル/秒の振動は、パーキンソントレモアに関連付けられる。統合失調症は、眼筋の硬化および/または痙攣を引き起こす可能性がある。視覚的刺激の予見局面の間の注意欠陥多動性障害(attention deficit hyperactivity disorder:ADHD)の人の不随意眼球運動については、最近になって特徴付けられた。同様の方向性に沿って、アルコールを含む薬剤および他の薬は、眼球運動(およびまぶたの動き)に影響を及ぼす可能性があり、恐らくこのような条件の下では、目的のある眼球運動を識別するための1つ以上の基準を変更せざるを得ないであろう。
また、てんかんまたは震とうに関連付けられる眼球運動パターンなどのいくつかの眼球運動パターンは、即座の治療の必要性または特定の投薬治療(例えばインスリン)の必要性を示し得る。当該デバイスは、医療支援を自動的に要請し、および/または、投薬治療もしくは他の処置が必要であることをユーザに知らせるためのステップを開始させることができる。通常の眼球運動と病的眼球運動とを識別するためのアルゴリズムフィルタは、個人の健康の長期的モニタリングにおいても重要な要素であり得る。これは、広範囲の神経筋疾患、眼科疾患または中枢神経系疾患、ならびに、年齢に応じた眼球運動および挙動の「通常」の進行をモニタリングすることを含み得る。
本明細書におけるシステムおよび方法の別の特徴は、一般に(上記のように繰返し構造を実行する場合を除いて)意図を識別するために滞留時間または長時間のまばたきに頼らないことである。多くの市販のアイトラッキングシステムは、ユーザが意図を示すためにある時間にわたって仮想オブジェクトに焦点を合わせる(すなわち滞留)か、または選択プロセスの一部としてまばたきすることを必要とする。滞留は、知覚(約0.25秒を必要とする)および焦点のメンテナンスを必要とする。多くの場合、滞留が生じたことの指標は、閲覧されている領域の拡大を伴う。これは、視覚野による知覚の間にさらなる心像処理を引き起こす。まばたきはさらに長い時間かかり、複雑な一連の筋肉収縮を必要とする。まばたきの最小時間は、約0.3〜0.4秒である。
眼球信号コンポーネントが連結されて動作可能な選択肢が生成されるとき、遅延が蓄積して重大なものになる可能性がある。痙攣性眼球運動(およびぎくしゃくした表示)は不自然であると感じられ、不快感および不安を生じさせる。長期間の使用は、負担がかかって疲労を生じさせる。
読んでいる間にステレオタイプ的眼球運動パターンを識別するためのアルゴリズムフィルタ
デバイス着用者の意図を識別するためのさらなる実施例として、仮想または現実世界のオブジェクトを観察するコンテキストにおいてより複雑なパターンの眼球運動が分析され得る。デバイス着用者によって実行されているステレオタイプ的眼球動作を特定するために、眼球運動と結び付けられるシーケンスの知識および/または観察されたオブジェクトのIDが使用され得る。ユーザの意図を見分けるためのコンポーネントとして、シーケンスおよび閲覧されたオブジェクトのIDに加えて、動作が含まれ得る。このような動作および意図の識別は、個別モード(すなわち1つの期間にわたって)または連続モードで実行され得る。
眼球運動によって特定されることができるステレオタイプ的眼球動作の一例は、テキストを読むことである。テキスト本文が表示されるとき、読むプロセスが実行されているという事実を識別するために、デバイス着用者によるサッケード運動および短時間の固視のシーケンスが使用され得る。平均して、英語を伴う一般的な読むプロセスの間、サッケード運動は、7〜9(範囲1〜20)文字に20〜40ミリ秒かかる。固視は200〜250ミリ秒継続し、毎秒およそ4回の読取サッケードを可能にする。(資料の難しさによっては)時間のうちのおよそ10〜15%の間、読者の眼は後戻りする(すなわち、以前に読んだ資料に戻る)。サッケードおよびそれに続く固視の一連の繰返されるシーケンスを自動的に特定するために、アルゴリズムフィルタが使用可能である。
読むプロセスが行われているという事実を特定するために、スクリプトの位置および読みが実行される方向がさらに使用可能である。読むプロセスの特定は、ユーザインターフェイスにコンテキストを提供する。ユーザインターフェイスのコンポーネントは、その後、読みが実行されているという事実に基づいて変更され得る。例えば、読んでいる間、ページめくりまたはスクローリングは、表示境界に到達すると自動的に(すなわち特定のページめくりまたはスクロールコマンドシーケンスなしに)行われるようにされてもよい。
さらに、読者集団のために観察および一般化された、または、個々の読者に特有であるように体系化されたサッケードシグネチャは、生徒のための学習プロファイルを向上させることができ、理解困難などの認知的事例に自動的に注目する(読む速度のレートおよび変動、後戻り、一時停止、ノートを作成することを含むページから目を離すこと(ここではこのようなアイトラッキング関連の観察およびノートの作成が使用され得る)、他の関連のコンテンツの相互参照、関心の喪失、強い関心、ビゴツキーの学習の近接領域および/または意図的な眼球運動(苛立ちによる眼球上転)に関連する)。視線情報は、頭部の動き(左右または上下に頭を振る)などの他の検知されたデータと結び付けられてもよく、および/または、デバイス着用者の関心領域に下線を引いたり強調したり拡張したりするための書込ツールの観察された使用と結び付けられてもよい。
読むプロセス中にステレオタイプ的眼球運動を認識することによって、読む速度、読み飛ばされたかもしれないテキストおよび/または逆に長時間の注目を引き付けたテキストも特定されることができる。後戻りの回数、(さらなるセンサを用いた)サブボーカライゼーション、サッケード距離および固視時間は、資料への関心および資料の複雑さの両方の指標として使用され得る。これらは、デバイスユーザの関心(または無関心)を特定して特徴付けるためのコンポーネントとして使用され得る。このような特徴付けは、例えばサーチエンジン結果を調整し、命令セットの理解レベルを判断し、コンテンツ表示の速度を制御し、「後戻り」、流暢さなどのユーザの読む能力を索引付けするために使用され得る。
ユーザインターフェイスにさらに磨きをかけるために、読まれているものの内容が使用され得る。例えば、表示されたテキスト内にハイパーリンクが存在しなければ、組み込まれたハイパーリンクを追従するようにメニュー選択を提供する必要はないであろう。同様に、テキスト本文内に画像が存在しなければ、画像をズームインするためのツールは必要ないであろう。不要なユーザインターフェイスツールをコンテキスト依存的に除外することは、故意でない起動を回避することに役立ち、メニュー選択を単純化することができる。
一方、例えば一連の命令が読まれている場合には、それらの命令が読まれているときにそれらの命令に関連付けられるユーザインターフェイスツールを利用可能にすることが読者にとって有益であろう。多くの場合、他の箇所に記載されているように、これらのツールのためのターゲットを「目立たないように目に見える」ようにする(すなわち、注目を引き付けない態様で表示内に導入される)ことが妥当であろう。デバイス着用者が命令を読み続ける限り、このようなターゲットの形状および/または結果として生じる動作は、読まれているものに基づいて変更され得る。
斜め読みも特異な眼球運動として認識されることができる。(例えば英語のスクリプトに目を通している間の)眼の後戻りが少なくかつ垂直方向の動きが高速であることが、斜め読みプロセスを特徴付ける。斜め読みプロセスの認識は、表示された情報の表示速度(例えばスクロールまたはページめくり速度)、レクサイルレベルおよび/または認知密度を制御するために使用され得る。
読んでいる間のサッケード−固視シーケンスの一般的な方向およびタイミングは、読まれているスクリプトの形式および構造に強く依存する。例えば、英語、フランス語、ドイツ語およびイタリア語のスクリプトは、一般に左から右に読まれ、行の最後に到達すると、左端から始まる新たな行がその下に続いている。テキストの文および行は、さらに段落に編成され、段落は、各段落の最初および/または終わりにおいてテキスト内に意図的な隙間を含み得る。
対照的に、アラビア語およびヘブライ語のスクリプトは、右から左に書かれる。中国語、日本語および韓国語のスクリプトの変形体は、水平方向または垂直方向に書かれることがある。日本語のテキストを読んでいる間は、日本語のテキストが表音文字(すなわち平仮名またはカタカナ)として書かれているか表意文字(すなわち漢字)として書かれているかに基づいて、サッケード運動のサイズおよびタイミングが異なる。したがって、テキストを読んでいることを検出するためのアルゴリズムフィルタは、さまざまなスクリプトを読んでいるときに存在するサッケード運動および固視のシーケンシャルな方向および正確なタイミングに合わせて調整されなければならない。
表示されたテキストの内容がデバイスの制御の範囲内でなければ、デバイスユーザによる特定の焦点領域を特定するために視線追跡も使用され得る。このような領域は、標識、広告板、テレビ、リモートディスプレイモニタなどであってもよい。観察下の領域は、当該技術分野において周知の光学式文字認識(optical character recognition:OCR)技術を用いても、希望するならリアルタイムで、デバイスによって「読まれる」ことができる。このようなテキストの内容は、スピーチなどの他の形態に変換されてもよく、および/または、別のときに検索されるようにアーカイブされてもよい。観察される特定のスクリプトおよびオブジェクト、観察のシーケンス、ならびに、特定されたスクリプトおよびオブジェクトに対する注目度合いの尺度を特定するために、デバイス着用者による視線パターンが使用され得る。
オブジェクトを調査している間にステレオタイプ的眼球運動パターンを認識するためのフィルタ
他の例示的な実施例と同様の方向性に沿って、アルゴリズムフィルタは、写真または芸術作品などの画像の調査を検出するように開発され得る。画像を閲覧する際に走査経路を予測するためのモデルが開発されてきた。例えば顕著性が固視の期間に相関付けられるか否かに関して、これらのモデル含む文献では大いに議論が交わされている。しかし、実際の眼球運動とこれらの数学的モデルによって予測されるものとを相関付けることによって、アルゴリズムは、デバイス着用者の意図が画像内の特定のオブジェクトの詳細な調査であるか否かを特定するように開発されることができる。
ここで、機械学習を伴うコンピュータビジョンは、画像の自動解釈を可能にして、画像内のオブジェクトを特定する。現在のところ、大規模コンピュータデータベースは、全てのオブジェクトを既知のオブジェクトまたはオブジェクトクラスとして自動的に視覚的に特定することができるように構成されている。
一実施例は、オブジェクトのオブジェクト−視線データベースを備え、当該オブジェクトは、オブジェクト−視線データベースと相乗的な、グラフィックサポートされた眼球信号言語との眼球方式対話モデルによって、特定されたユーザによって検討可能、アクセス可能および制御可能な個々の虹彩認証された視線データまたは集合視線データにタグ付けされるか、索引付けされるか、またはそうでなければ関連付けられる。
このようなシステムは、多くのコンテキストにおいて高価値を提供する。このシステムは、人間の考えおよび行動を、オブジェクトに関連付けられる視線パターンに関連付けるまたは推測して、ヒューマン・マシンインターフェイスの新たな生成を可能にする機会を提供する。
ユーザによる静止画像内でのオブジェクトの調査を特定するための識別可能な眼球運動挙動の拡張機能は、現実世界またはビデオ画像内での動いているオブジェクトの追跡である。この場合、時間に応じて特定のオブジェクトの位置が分かるようになることは、オブジェクトがユーザによって積極的に閲覧されていることのさらなる確証を提供することができる。
オブジェクト−視線データは、人によって閲覧される特定のオブジェクトまたは関連のオブジェクトのクラスのログが記録された視線データを有する個人について取込まれてもよい。また、オブジェクト−視線データは、同一のオブジェクト、同様のオブジェクトのインスタンスおよび/またはオブジェクトのクラスを観察するユーザについて集約されてもよい。
このようなオブジェクト−視線データは、拡張現実またはバーチャルリアリティで使用される対話モデルによって可能とされる視線ベースのユーザインターフェイス内で使用され得る。また、このようなユーザインターフェイスは、多様であり、頭部の動き、手の動き、音声、および他の物理的または測定可能な脳によって生成される信号を組み入れることができる。
眼球運動によってユーザの意図を動作に変換するこのような対話モデルは、オブジェクト−視線データベースに記憶された視線パターンのシグネチャによって可能とされる、または強化されることができる。これらのオブジェクト−視線シグネチャは、ユーザによって観察される特定のオブジェクトについて取込まれて分析され得る。オブジェクト−視線シグネチャは、特定のオブジェクトの最初の観察、後続の観察および/またはコンテキストデータによって分類可能である。また、オブジェクト−視線データは、同様のオブジェクトまたはオブジェクトのクラスについて取込まれて使用されてもよい。オブジェクトという用語は、任意の特定可能な画像、すなわち人、場所、もの、または任意の特定可能な一組の反射光線を指す。
オブジェクト−視線シグネチャデータは、視覚的刺激を提供するシステム間で生じるダイアログを通知し、当該視覚的刺激は、エンターテイメント、ゲーム、情報、制御、行動変化、心理学的または生理学的治療、学習、創造力の向上、スポーツパフォーマンスの向上、論戦、通信などの分野において「拡張現実」画像としてユーザの物理的環境の視野上に重ねて表示される。
拡張現実ディスプレイにグラフィック情報を表示する際、対話モデルは、どのような視覚的拡張を表示すべきか、それをいつ表示すべきか、およびユーザの視野内のどこにそれを表示すべきかを判断し得る。オブジェクトについてのユーザの上記のオブジェクト−視線シグネチャの知識は、拡張エンジンが望ましい視線パターンを実現するようにグラフィックを配置すること、または、拡張エンジンが対話モデルにおける眼球信号言語のコンポーネントとして望ましくない視線パターンを回避することを可能にする。
拡張現実またはバーチャルリアリティ眼球方式対話モデルでは、特定の結果を実現するためにユーザが実行し得る意識的な動作、明確な動作、固視動作および追跡動作がある。例えば、ユーザは、オブジェクトを見て、次いでオブジェクトを起動するために起動要素を見てもよく、または、ユーザは、所定のパターンで動く動いているオブジェクトを追従して動作を開始させてもよい。システムは、ユーザの視野内にグラフィックを配置して、予測可能な視線パターンに基づいてユーザの意図を判断する。この実施例では、固視および追跡によって見分けることができ、かつ、一組のオブジェクトについての固視および追跡のユーザの自然な視線パターンとは異なる位置に静的および動的な起動グラフィックを配置するために、然るべきオブジェクト−視線シグネチャの知識が使用される。
他のステレオタイプ的眼球運動パターンの生成および認識
スポーツでは、熟練したアスリートのオブジェクト−視線シグネチャは、身体活動の重要な瞬間に伴って生じる。例えば、テニスではサーブの前および最中において、バスケットボールではシュートの前および最中において、サッカーではパスの前および最中において、ゴルフではスイングの前および最中において、ならびに他のスポーツにおいて、熟練者に共通の要素を表示するためにこれらのオブジェクト−視線シグネチャは観察された。拡張現実(「AR」)環境では、グラフィックは、重要なターゲットオブジェクト、すなわちテニスボール、バスケットボールゴールリング、受取り手、ゴルフボールなどに対する適切な位置に配置され、熟練者の視線をまねるようにユーザの視線を誘導し得る。逆に、グラフィックは、ユーザの視線を他の位置からそらすように表示されてもよい。経時的にユーザのオブジェクト−視線シグネチャをモニタリングすることにより、システムがグラフィカルな対話を分析して発展させることが可能になり得る。適切な刺激は、さまざまな活動において初心者のスキルの向上を加速させることができる。
ゲーム環境では、ゲームは、一般的には閲覧されない位置、頻繁に閲覧される位置、または予測可能なシーケンスで閲覧される位置のオブジェクト内の位置において「目立たないように目に見える」グラフィック要素を隠すように設計され得る。他のオブジェクトの導入は、特に注目を引き付けるように設計され得る。このようなグラフィックが閲覧されるとき、閲覧されないとき、またはシーケンスで閲覧されるときに、対話モデルおよびゲームによって動作が動作が行われ得る。既定の注視行動に基づいて、ポイントが付与されたり、ゲームプレーが変更されたりし得る。
可動性が限られているもしくはない人、および/または、「固定されている」人を含む眼科もしくは神経疾患を患う人のニーズに対処することは、特別なニーズおよびパターン分析セットをもたらす。眼球信号言語および原理は、これらの特別な場合を満たすように適合されることができる。例えば、前庭動眼反射への依拠は除外されてもよい。他の形態の神経疾患は、左の眼球運動と右の眼球運動との間の同期を減少させる可能性がある。これらの場合には、輻輳開散は、通信コンポーネントとして除外され得る。複数の神経疾患は、動きに多重トレモアまたは振動を生じさせる。これらの動きは、デジタル的にフィルタリングされ得る。固定されているかもしれない人を含む高レベル脊髄切断者では、垂直方向の眼球運動への依存が大きくなる傾向がある。このような人に対応するために眼球信号アプローチの自己適応性が使用され得る。
他の状況も眼球信号言語アプローチにおいて対処されてもよい。例えば、非常に若い者には、単純化された非テキストメニューが表示されてもよい。特に知覚(特に輝度または深さの変化への反応を含む)を伴う眼球信号ステップのタイミングは、高齢者に合わせられてもよい。色覚異常の可能性がある人に対応するために、選択を区別するための色の使用は、回避または除外され得る。
認知的負荷の管理
オブジェクト−視線データベースに取込まれるコンテキスト依存視線パターンIDは、認知的負荷のデバイス管理を通知するために使用され得る。ARディスプレイまたはバーチャルリアリティ(「VR」)環境において情報の表示を調整することは、認知的負荷管理の重要なコンポーネントである。例えば、時には、情報または情報にアクセスするためのオプションを物理的なまたは仮想のオブジェクト上に直接表示することが望ましい場合がある。またある時には、認知的負荷を管理するために、隠されたメニュー、または所定の動作セット(眼球信号、手ジェスチャ、頭部の動き、意図的または暗黙の脳波活動)後にユーザに公開され得る他のアフォーダンス、またはシステム/ユーザの刺激反応の交換を伴うシステムとのダイアログへの明示的なアクセスを提供することが望ましい場合がある。
例えば、個人が緊急救助を行うことを考えてみる。この個人の意図は、情報を収集して行動計画を決定し、その後当該行動計画を制定することにもっぱら焦点が合わせられる。収集局面は、コンテキスト的に関連性がある特定の手順にアクセスおよび参照し、その結果、このような視覚的に表示された情報に焦点を合わせることを含み得る。
当該システムは、炎上して逆さまになった自動車に閉じ込められた人について、ユーザが犠牲者を引っ張り出すのに数分しかないと判断し得て、状況(例えば、ガソリンタンクの位置、火炎温度)についての特定の情報が画面のある領域にポップアップとしてテキストで表示され得る。救助隊員の眼が、当該状況に精通していないことを示唆するパターンを証明すると、いくつかの画像を遮ることによって、または重要な領域のみを強調することによって、情報の表示は注意散漫を排除することができる。救助隊員が当該状況に熟練しているように思われると、情報の表示はより高密度および高速になり、救助隊員による知識および経験に基づいてより迅速な行動をサポートすることができる。
熟練者/初心者コンテキスト情報および動作のやりとりのこのような例は、第一応答者、すなわち警察官、消防士、救急医療隊員、EMI(すなわち救命士)から、インテリジェンスコミュニティのメンバー、軍隊までの幅広い範囲の状況および役割、および、外科医、アスリート(上記)、演者などの幅広い範囲の専門家にも適用される。
ARのシナリオで情報を表示するとき、当該情報は、さまざまなグラフィックの形態をとり得る。情報は、重ねて表示されたテキスト、記号、オブジェクトであってもよく、または、物理的なオブジェクトの表示の変化の形態であってもよく