JP2024514380A - 視線検出のための較正 - Google Patents

視線検出のための較正 Download PDF

Info

Publication number
JP2024514380A
JP2024514380A JP2023546576A JP2023546576A JP2024514380A JP 2024514380 A JP2024514380 A JP 2024514380A JP 2023546576 A JP2023546576 A JP 2023546576A JP 2023546576 A JP2023546576 A JP 2023546576A JP 2024514380 A JP2024514380 A JP 2024514380A
Authority
JP
Japan
Prior art keywords
image
eye
user
camera
gaze
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023546576A
Other languages
English (en)
Inventor
ヤコブ チェルニャク
グレゴリー チェルニャク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FOVE, INC.
Original Assignee
FOVE, INC.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FOVE, INC. filed Critical FOVE, INC.
Publication of JP2024514380A publication Critical patent/JP2024514380A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • Eye Examination Apparatus (AREA)
  • Position Input By Displaying (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

方法は、ある方向への頭の回転速度を測定することと、前記方向への眼球の回転速度を測定することと、前記頭の回転速度及び前記眼球の回転速度が閾値未満である場合に視線検出部の較正を行うことと、を備える。

Description

本発明は、とくにヘッドに取り付けられたディスプレイと注視検出装置とを備えるビデオシステムに係る、ビデオシステム、ビデオ生成方法、ビデオ配信方法、ビデオ生成プログラム、およびビデオ配信プログラムに関する。
従来、ユーザが見ている点を指定するための注視検出を行う場合、較正を行う必要がある。ここで、較正は、ユーザに特定のインジケータを注視させ、特定のインジケータが表示される位置とユーザの角膜中心との間の位置関係を指定することを指す。注視検出を実行するために較正を実行する注視検出システムは、ユーザが見ている点を特定することができる。
特開2012-216123号公報
しかしながら、較正の準備は、ユーザが特定の指標を見ていると判断される条件下で行われる。したがって、ユーザが特定の指標を注視しない状態で情報を取得した場合、実際の注視検出を正確に行うことができないという問題がある。この問題は、ユーザの目の周囲が装置によって覆われており、内部の状態を見ることができないヘッドマウントディスプレイの場合、ユーザが実際に特定の指標を見ているかどうかを周囲から確認することができないため、特に顕著である。
本発明は、上記の問題点を考慮してなされたものであり、ヘッドマウントディスプレイを装着したユーザの注視検出を実現するための較正を正確に実行することができる技術を提供することを目的とする。
このような問題を解決するために、本発明の態様は、ある方向への頭の回転速度を測定する工程と、前記方向への眼球回転速度を測定する工程と、頭の回転速度及び眼球回転速度が閾値よりも低い場合に注視検出部の較正を行う工程とを備えることを特徴とする方法である。
本発明によれば、ヘッドマウントディスプレイを装着したユーザの注視方向を検出する技術を提供することができる。
第1実施形態に係るビデオシステム1の概略図である。 実施形態に係るビデオシステム1の構成を示すブロック図である。 各部品の位置を示す図である。 眼を追跡する方法のフローチャートである。 仮想カメラとレンズの物理的位置を示す。 レンズ形状用のカメラ画像を示す。 3Dモデルに基づく瞳孔予測のプロセスのフローチャートを示す。 較正のためのシーン画像の一例を示す図である。 隠された較正のプロセスのフローチャートを示す。 ビデオシステムの概略図を示す。 ヘッドマウント型ディスプレイとクラウドサーバとの間の通信に関するプロセスのフローチャートを示す。 ビデオシステムの機能構成図を示す。 ビデオシステムの機能構成図の別の例を示す。 頭部および眼の回転速度を示すグラフを示す。 眼球の物理的構造を示す。 ACDの較正方法の一例を示す。 単一点較正の屈折モデルを示す。 暗黙的較正の分岐を示す。 暗黙的較正の概要を示す。 暗黙的較正のフローチャートを示す。
以下では、ビデオシステムの各実施形態を図面を参照して説明する。以下の説明では、同一の構成要素を同じ記号で表し、繰り返し説明を省略している。
以下、本発明の第1実施形態の概要を説明する。図1は、第1実施形態に係るビデオシステム1の概略図である。本実施形態によれば、ビデオシステム1は、ヘッドマウントディスプレイ100と視線検出装置200とを備える。図1に示すように、ヘッドマウントディスプレイ100は、ユーザ300の頭部に固定されたまま使用される。
視線検出装置200は、ヘッドマウントディスプレイ100を装着したユーザの右目および左目のうちの少なくとも1つの視線方向を検出し、ユーザの焦点、すなわち、ヘッドマウントディスプレイ上に表示される三次元画像内のユーザによって注視される点を指定する。視線検出装置200はまた、頭部に取り付けられたディスプレイ100によって表示されるべきビデオを生成するビデオ生成装置としても機能する。例えば、視線検出装置200は、据置きゲーム機、携帯ゲーム機、PC、タブレット、スマートフォン、ファブレット、ビデオプレーヤ、テレビ等のビデオを再生することができる装置であるが、本発明は、これらに限定されるものではない。視線検出装置200は、ヘッドマウントディスプレイ100に無線または無線で接続される。図1に示す例では、視線検出装置200は、ヘッドマウントディスプレイ100に無線で接続されている。視線検出装置200とヘッドマウントディスプレイ100との間の無線接続は、Wi-Fi(登録商標)またはBluetooth(登録商標)のような既知の無線通信技術を使用して実現することができる。例えば、ヘッドマウントディスプレイ100と視線検出装置200との間のビデオの転送は、Miracast(登録商標)、WiGig(登録商標)、WHDI(登録商標)などの標準に従って実行される。他の通信技術を使用することができ、例えば、音響通信技術または光伝送技術を使用することができる。
ヘッドマウントディスプレイ100は、筐体150と、取り付けハーネス160と、ヘッドフォン170とを備える。ハウジング150は、ユーザ300にビデオ画像を提示するための画像表示要素などの画像表示システムを収容し、図には示されていないが、Wi-Fiモジュール、Bluetooth(登録商標)モジュール、または他のタイプの無線通信モジュールを収容する。ヘッド取り付けディスプレイ100は、取り付けハーネス160でユーザ300のヘッドに固定される。取り付けハーネス160は、例えば、ベルトまたは弾性バンドの助けを借りて実施することができる。ユーザ300がヘッドマウントディスプレイ100を取り付けハーネス160で固定すると、ハウジング150はユーザ300の目が覆われる位置にある。したがって、ユーザ300がヘッドマウントディスプレイ100を装着すると、ユーザ300の視野はハウジング150によって覆われる。
ヘッドフォン170は、ビデオ生成装置200によって再生されたビデオのオーディオを出力する。ヘッドフォン170は、ヘッドマウントディスプレイ100に固定する必要はない。ヘッドマウントディスプレイ100が取り付けハーネス160で固定されていても、ユーザ300は、ヘッドフォン170を自由に取り付け又は取り外すことができる。
図2は、実施形態に係るビデオシステム1の構成を示すブロック図である。
ヘッドマウントディスプレイ100は、ビデオ提示部110と、撮像部120と、通信部130とを備える。
ビデオ提示部110は、ユーザ300にビデオを提示する。ビデオ提示部110は、例えば、液晶モニタまたは有機EL(エレクトロルミネッセンス)ディスプレイとして実装することができる。
撮像部120は、ユーザの眼の画像を捕捉する。撮像部120は、例えば、ハウジング150内に配置されたCCD(電荷結合素子)、CMOS(相補型金属酸化膜半導体)または他の画像センサとして実施することができる。
通信部130は、ヘッドマウントディスプレイ100とビデオ生成装置200との間の情報転送のために、ビデオ生成装置200に無線または有線接続を提供する。具体的には、通信部130は、撮像部120で撮影した画像を映像生成装置200に転送し、ビデオ提示部110で提示するための映像生成装置200からのビデオを受信する。通信部130は、例えば、Wi-Fiモジュール、Bluetooth(登録商標)モジュール、または他の無線通信モジュールとして実装することができる。
図2に示す視線検出装置200を導入する。視線検出装置200は、通信部210と、視線検出部220と、較正部230と、記憶部240とを備える。
通信部210は、ヘッドマウントディスプレイ100への無線または有線接続を提供する。通信部210は、撮像部120によって捕捉されたヘッドマウントディスプレイ100の画像を受信し、ヘッドマウントディスプレイ100にビデオを送信する。視線検出部220は、ディスプレイ100上に表示された画像を見るユーザの視線を検出し、視線データを生成する。較正部230は、視線検出の較正を行う。記憶部240は、視線検出および較正のためのデータを記憶する。
<レンズ補正による視線追跡>
レンズ補正による視線追跡は、以下を含む方法であってよい。
カメラからユーザの目の画像を取得する。
画像から目に反射光を見つける。
カメラから反射光までの光線を計算する。
レンズを通した光線として光線を伝達させる。
透過光線により角膜中心を発見する。
本方法は、以下をさらに含むことができる。
画像から目の瞳孔を見つける。
カメラから瞳孔への第二光線を計算する。
水晶体を通過する第二の光線として第二の光線を伝達させる。
透過した第2光線により瞳孔の位置を見つける。
図3に、レンズ補正による視線追跡の概略図を示す。図3は、人間の目、レンズ、仮想カメラ、及びヘッドマウントディスプレイのスクリーンを示す。カメラからの光線は標準レンズまたはフレネルレンズを通過し、人間の目に到達する。視線検出部220は、目の追跡を計算するために光線を使用する。
カメラと人間の目の間には、標準レンズまたはフレネルレンズが設けられる。視線検出部220は、目の視線方向を検出する際に、カメラから各反射光及び瞳孔への光線を用いて、人間の目の画像上の反射光及び瞳を検出する。レンズ補正による視線追跡では、光線はレンズを通過する。したがって、視線検出部220は、そのような伝達を計算しなければならない。
視線検出部220は、カメラ画像上の任意の2次元の点(反射光)に対して3次元光線を与えるために、内部マトリックス及び外部マトリックスを用いて、画像から検出された光の位置までのカメラからの光線(レンズより前の光線)を計算することができる。視線検出部220は、レンズより後の光線を計算するために、スネルの法則光線追跡を適用するか、または、事前計算された伝達マトリックスを使用することができる。視線検出部220は、目のトラッキング(視線方向)を計算するために、レンズの後にこの光線を使用する。
レンズ補正は、多項式フィッティングを用いて行うことができる。(x,y)がカメラ画像上の画素を表し、(xp,yp)がレンズ上のx-y位置を表し、(xd,yd,zd)がレンズからの光線のx-y-z方向を表すとする。次に、カメラ画像上の任意の画素に対して、視線検出部220は、レンズを通過した後の光線を見つけることができる。
ここで、ai,bi,ci,di,ei,fi,gi,hi,pi,qiは事前計算された多項式係数である。
(x,y)は、球面座標の角度など、ピクセル座標から直接導くことができるものであればどんなものでもよいことに留意されたい。さらに、(xd,yd,zd)は、代替表現(例えば、球面座標)を有することもできる。
図4は、視線追跡方法のフローチャートを示す。左は従来の流れを示し、右は本実施形態によるレンズ補正による視線追跡を示す。
まず、視線検出部220はカメラから目の画像を得る。そして、視線検出部220は、画像処理を行うことにより、反射光及び瞳孔を発見する。視線検出部220は、カメラから各光への光線を得るために、内部及び外部マトリックスを使用する。
ここで、レンズ補正による視線追跡において、視線検出部220は、レンズを介して光線を伝達させる。伝達は、上述の行列または多項式フィッティングで計算される。
視線検出部220は、角膜中心/半径を見つけるために逆問題を解決する。
次いで、視線検出部220は、カメラから瞳孔への光線を得るために、内部及び外部マトリックスを使用する。
我々のレンズ補正による視線追跡では、視線検出部220は、この光線をレンズを介して伝達する。
視線検出部220は、この光線を角膜の球と交差させる。
得られる交点は3Dの瞳孔位置である。得られる光軸は、角膜中心から3D瞳孔位置までのベクトルである。
<レンズフィッティングによるカメラ最適化>
レンズフィッティングによるカメラの最適化は、以下を含む方法であってもよい。
カメラからユーザの目の画像を取得する。
目とカメラの間に置かれたレンズの形状を検出する。
レンズの形状が期待されるレンズ形状に適合するように、カメラの位置および向きのうちの少なくとも1つを補正する。
図5は、仮想カメラとレンズの物理的位置を示す。このようなレンズを使用する場合、カメラから使用者の目への光線がレンズを介して伝達するので、カメラの予想される位置および向きは、視線方向を計算するのに多大な意味を有する。レンズフィッティングによるカメラの最適化では、カメラの位置と向きを調整する。
図6は、レンズ形状用のカメラ画像を示す。左側の写真は、カメラの向きが正しい場合に期待されるカメラ画像を示す。右側の写真は、カメラの向きが間違っている場合のカメラ画像を示す。右図のように、レンズ形状(白丸)は画像の中央にない。
較正部230は、カメラの位置および向きを補正するために数値最適化を実行する。最適化コスト関数として、較正部230は、観察されたレンズを期待されるレンズ形状に適合させようとする。
<3Dモデルに基づく瞳孔・虹彩・反射光予測>
3Dモデルに基づく予測は、以下を含む方法であり得る。
カメラから目の画像を取得する。
目の部分の位置を得るために目の画像を画像処理する。
目の部分の位置に基づいて眼球モデルパラメータを推定する。
眼球モデルパラメータに基づいて3D視線方向を計算する。
眼球モデルパラメータから3D眼球モデルを作成する。
次の眼球モデルパラメータを推定する。
推定された次の眼球モデルパラメータを画像処理にフィードバックする。
図7は、3Dモデルに基づく瞳孔予測のプロセスのフローチャートを示す。まず、視線追跡システムは、カメラによって目の画像を取得する。次に,瞳孔と虹彩の偏心,反射光位置,カメラからの目の画像に基づいて画像処理を行う。次に、眼球、瞳孔、虹彩の位置及び方向半径などの眼球モデルパラメータを推定する。3D視線推定を出力する。次に,以前の画像フレームから3D眼球モデルを作成し,瞳孔と虹彩の偏心度,および3Dモデルからの反射光位置を推定する。次に、瞳孔と虹彩の偏心、および反射光の位置を、画像処理の次のサイクルに使用する。
<隠し較正>
較正プロセスは、ユーザにさらなる努力を課す。隠し較正により、ユーザがコンテンツを視聴中に較正が実行される。
隠し較正は、以下を含む方法であってよい。
動く物体を、視覚的な場面で、利用者を楽しませるコンテンツとして表示する。
移動する物体を較正点として使用して、ユーザの視線方向の較正を実行する。
隠し較正では、シーンが変化するたびに較正が実行される。
図8は、較正のためのシーン画像の一例を示す。図8の左側の図は、従来の較正のスクリーム画像を示す。従来の較正では、コンテンツが開始される前に、移動するドットが画面上に表示され、ユーザがドットを見る。また、再較正を行う場合には、再度移動するドットを表示するためにコンテンツを停止する必要がある。しかし、較正のためにコンテンツを停止することは、ユーザーにストレスを与える。この問題に対処するためには、コンテンツを停止せずに較正を行うことが望ましい。
例えば、ビデオコンテンツは、ロゴ、ホタル、及び明るい物体のようなスクリーン上の移動物体のみを示す特定の時間の間のシーンを有する。表示されたシーンの間、ユーザは移動物体を見て、較正部は較正プロセスを実行することができる。図8の右側の図は、ホタルで表示されるシーンの一例を示す。
映像コンテンツに複数のシーンがある場合は、コンテンツ中に複数回キャリブレーションを行うことができ、視線追跡の精度が徐々に向上する。
図9は、隠し較正のプロセスのフローチャートを示す。アプリケーション(ビデオプレーヤーなど)は、他のコンテンツを含まずに画面上に移動オブジェクトを描画する。この較正が発表されていなくても、ユーザの目が動いているオブジェクトを追跡することが期待される。なぜなら、オブジェクトのみが画面に表示されるからである。
次に、アプリケーションは、オブジェクトの3D位置情報(3D座標)を視線追跡部に送信する。
次に、視線追跡部は、その位置情報を用いてリアルタイムで較正する。視線追跡部が較正を行う場合、アプリケーションは、3D位置情報と共に、さらなるタイムスタンプ情報を送信する。
<中心窩カメラストリーミング>
中心窩カメラストリーミングは、以下を含む方法であってよい。ユーザに表示する画像を取得する。ユーザの視線方向を検出する。視線方向に基づいて、画像上のユーザの関心領域を決定する。画像の関心領域を第1の圧縮率で圧縮する。関心領域以外の画像の外側領域を第2の圧縮率で圧縮する。第2の圧縮率は、第1の圧縮率よりも高い。圧縮された関心領域および圧縮された外側領域を伝送する。この方法では、関心領域の解像度は、外側領域の解像度よりも高い。
この方法では、画像はビデオであってよく、関心領域を符号化するステップにおいて、外部領域を第1のビデオに圧縮し、外部領域を符号化するステップにおいて、第2のビデオに圧縮し、第1のビデオのフレームレートは第2のビデオのフレームレートよりも高い。
中心窩カメラストリーミングはまた、以下を含む方法であってもよい。
ユーザに表示される最初の画像を取得する。
ユーザの視線方向を検出する。
視線方向に基づいて、第1の画像上のユーザの関心領域を決定する。
関心領域を拡大して第2の画像にする。
第1の画像と第2の画像とを結合する。
結合画像を送信する。
結合画像をデコードする。
結合画像から第1の画像と第2の画像を分離する。
第2の画像の拡大を解除する。
第1の画像及び第2の画像を処理する。
図10は、ビデオシステムの概略図を示す。この実施形態では、ビデオシステムは、ヘッドマウント型ディスプレイ100と、注視検出装置200と、クラウドサーバとを備える。
ヘッドマウントディスプレイ100は、外部カメラをさらに備える。外部カメラはハウジング150で固定され、ユーザの頭部の正面方向のビデオ画像を記録するように配置される。外部カメラは、外部カメラが記録できる全世界のビデオ画像をフル解像度で記録する。ビデオシステムは、ユーザの注視領域のための高解像度画像と他の領域のための低解像度画像を含む2つの画像ストリームを有する。高解像度画像及び低解像度画像を含む画像は、ヘッドマウントディスプレイ100から直接、又は視線検出装置200を介して、公衆通信ネットワークによってクラウドサーバに送信される。この技術では、外部カメラが記録できる全世界のフル解像度画像を送信する代わりに、ユーザが見る限られた領域(注視領域)に対してのみフル解像度画像を送信し、他の領域に対して低解像度画像を送信するため、映像システム1は映像送信の帯域幅を低減することができる。
受信した2種類の画像情報に基づいて、クラウドサーバは、AR(拡張現実)またはMR(混合現実)ディスプレイに使用されるコンテキスト情報を作成する。クラウドサーバは、コンテキスト情報を作成するために情報(例えば、オブジェクト識別、顔認識、ビデオ画像など)を集約し、コンテキスト情報をヘッドマウントディスプレイ100に送信する。
図11は、ヘッドマウントディスプレイとクラウドサーバとの間の通信に関するプロセスのフローチャートを示す。
ヘッドマウントディスプレイの外側を向いた外部カメラは、世界の画像を撮影する(S1101)。
次に、制御部は、視線追跡座標に基づいて、ビデオ画像を2つのストリームに分割する(S1102)。このステップでは、制御部は、視線追跡座標に基づいてユーザの注視点座標を検出し、ビデオ画像を関心領域と他の領域とに分割する。関心領域は、注視点を含む特定のサイズの領域を分割することによって、ビデオ画像から得ることができる。
次に、通信ネットワーク(例えば、5Gネットワーク)によって、2つのビデオ画像ストリームがクラウドサーバに送信される(S1103)。
このステップでは、関心領域の画像を高解像度画像としてサーバに送信する一方、他方の領域の画像は低解像度画像としてサーバに送信する。
その後、クラウドサーバは画像を処理し、コンテキスト情報を追加する(S1104)。
そして、画像及びコンテキスト情報がヘッドマウントディスプレイに送り返され、AR又はMR画像がユーザに表示される(S1105)。
図12は、ビデオシステムの機能構成図を示す。ヘッドマウントディスプレイおよび視線検出装置は、外部カメラ、制御部、視線追跡部、センシング部、通信部および表示部を含む。クラウドサーバは、一般認識処理部と詳細処理部、情報集約部から構成される。
外部カメラはビデオ画像を取得し、得られた高解像度のロービデオ画像を制御部に入力する。視線追跡部は、視線追跡に基づいて点(注視座標)を検出し、制御部に注視座標情報を入力する。制御部は、注視座標に基づいて、各画像内の関心領域を決定する。例えば、注視点を含む特定のサイズの領域を分割することによって、関心領域をビデオ画像から得ることができる。対象領域の画像データは、より低い圧縮比で圧縮され、通信部に入力される。また、通信部は、センシング部によって得られるヘッドセットの傾きおよび他のメタデータのようなセンシングデータを受信する。センシング部は、GPSまたは地磁気センサによって構成することができる。関心領域の画像データは、より高い解像度の画像でクラウドサーバに送信される。関心領域外の画像データは、より高い圧縮比で圧縮され、通信部に入力される。関心領域外の画像データは、より解像度の低い画像でクラウドサーバに送信される。
クラウドサーバの一般認識処理部は、解像度の低い「関心領域」以外の画像データ(ならびにヘッドセットの傾き及びメタデータ)を受信し、画像中のオブジェクト(オブジェクトの種類、数等)を識別するための画像処理を行う。
クラウドサーバの詳細処理部は、関心領域の高解像度の画像データ(及びヘッドセット角度、メタデータ)を受信し、顔認識、文字認識などの細部を識別するための画像処理を行う。
情報集約部は、一般認識処理部の識別結果と、詳細処理部の認識結果とを受信する。情報集約部は、受信した結果を集約して表示画像を作成し、表示画像を通信ネットワークを介してヘッドマウントディスプレイに送信する。
図13は、ビデオシステムの機能構成図の別の例を示す。図7-3では、関心領域の画像データ(高解像度)と関心領域外の画像データ(低解像度)を別々にクラウドサーバに送信する。しかし、これらの画像データは、図7-4に示すように、1つのビデオストリームで送信することもできる。関心領域を取得した後、制御部は、関心領域の外側のデータを低減するために、画像を拡大する。そして、拡大された画像とセンシングデータをセンシング部からクラウドサーバ内の拡大解消部に送信する。拡大解消は、受信した画像データの拡大を解消し、拡大解消された画像データを一般認識処理部および詳細処理部に送信する。
<光反応を利用した視線追跡較正>
視線追跡較正は、光動力学的応答を用いて行うことができる。すなわち、較正方法は、以下を含むことができる。ある方向のヘッド回転速度を測定する。当該方向での眼球回転速度を測定する。ヘッド回転速度、眼球回転速度が閾値未満の場合に視線検出部の較正を行う。
眼運動反応は、網膜上の画像の動きに反応して起こる眼の動きである。ある点を見ているとき、頭部回転速度と眼球回転速度の合計は、頭部回転中にゼロ(0)である。
較正部230は、ユーザが頭部回転速度と眼球回転速度の合計がゼロであることを検出することによって検出できる安定した点を注視したときに、視線検出装置200の較正を行うことができる。つまり、ユーザは頭を右に回転させるとき、ある点を注視するために、眼を左に回転させるべきである。
図14は、頭部および眼の回転速度を示すグラフを示す。点線は方向の眼球回転速度を示す。実線は逆頭回転速度(頭の回転速度に-1を掛けたもの)を示す。図14に示すように、逆頭回転速度は、ほぼ眼の回転速度と整合する。
ヘッドマウントディスプレイ100は、IMUを備える。IMUは、ユーザ300の頭の回転速度を測定することができる。視線検出ユニットは、ユーザの眼の回転速度を測定することができる。眼球回転速度は、注視点の移動速度で表すことができる。較正ユニット230は、IMUによって測定された値から、上下方向および左右方向の頭の回転速度を計算することができる。較正ユニット230はまた、注視点の履歴から、上下方向及び左右方向の眼球回転速度を計算することもできる。較正ユニット230は、ディスプレイに描画された仮想空間内にマーカーを表示する。マーカーを動かすことも、安定させることもできる。較正部230は、頭の回転速度を左右方向及び上下方向に、眼の回転速度を左右方向及び上下方向に計算する。較正ユニット230は、頭の回転速度と眼の回転速度の合計が所定の閾値よりも低い場合に較正を行うことができる。
<シングルポイント較正>
シングルポイント較正は、以下を含む方法であってよい。
瞳孔をカメラで撮像する。
前房の深さに基づいて瞳孔の位置を補正する。
瞳孔の補正位置を用いて視線方向を決定する。
較正方法では、角膜中心から瞳孔の位置までの方向を視線方向として決定する。
較正方法では、眼球中心から瞳孔の位置までの方向を視線方向として決定することができる。
較正方法は、さらに、瞳孔の位置を、カメラから瞳孔画像への方向に対する角度に補正することを含んでもよい。
図15は、眼球の物理的構造を示す。眼球は、瞳孔、角膜、および前房を含むいくつかの部分で構成される。瞳孔の位置は、カメラ画像によって認識されうる。実際には、角膜表面と瞳孔の間には、前房深度(ACD)がある。したがって、視線推定の精度を向上させるためには、ACDを考慮に入れて瞳孔の位置を補正する必要がある。補正した瞳孔の位置を用いて視線方向を推定する。
図16は、較正方法の一例を示す。この場合、眼はシステムによって知られている較正点を見ており、瞳孔はカメラによって観察される。P0は、光線(カメラで観察された瞳孔)と角膜球との交点を示す。P0はカメラ上の観察瞳孔である。P0は一般的な視線推定に用いられる。
しかし、実際には、瞳孔はACDによって角膜球内のP1に位置している。眼球の中心(または角膜球の中心)から瞳孔の中心までの方向は、眼の視線方向とみなされます。較正は、視線方向および既知の較正点を用いて行うことができる。
しかし、実際には、瞳孔はACDによって角膜球内のP1に位置している。眼球の中心(または角膜球の中心)から瞳孔の中心までの方向は、眼の視線方向とみなされます。較正は、視線方向および既知の較正点を用いて行うことができる。
<屈折モデル>
角膜が光線を屈折させるとすると、補正は調整される。すなわち,前房深度(ACD)と視軸に対する水平光学軸を考慮して瞳孔位置を補正する。
図17は、シングルポイント較正の屈折モデルを示す。光線(カメラで観察された瞳孔)と角膜球との交点からP0が得られる。我々は角膜の位置と入射光線を知っている。したがって、「スネルの法則」(または他の屈折モデル)を適用する。これにより方向が変わる。瞳孔P1と角膜球面(P0)との間に一定の距離(ACD)があるように光線を継続する。角膜中心(または眼球中心)からP1への方向は、既知の較正点に向いているべきである。そうでない場合、較正ユニット230は、ACDを最適化する。したがって、較正ユニット230は、ACDを較正する。
<暗黙的較正>
較正プロセスは、ユーザにさらなる努力を課す。暗黙的較正によって、較正は、ユーザがコンテンツを閲覧する間に実行される。
従来の(明示的な)キャリブレーションでは、次のようになる。
1.システムは、ユーザが既知の位置にポイントターゲットを示す。
2.ユーザは、一定期間、ターゲットを確認する必要がある。
3.システムは、その期間中のユーザの視線の推定値を記録する。
4.このシステムは、記録された視線と地上検証位置とを組み合わせて、視線追跡パラメータを推定する。
一方、暗黙的較正では、次のようになる。
1.明示的なポイントターゲットはない。
2.ユーザは、通常のVR/AR経験に従事するため、特定のアクションを行う必要はない。
3.システムは、通常のVR/AR経験の間、ユーザの視線の推定値とヘッドマウントスクリーン画像を記録する。
4.このシステムは、推定視線とスクリーン画像とを組み合わせて、地上検証位置を得る。
5.このシステムは、視線追跡パラメータを推定するために、記録された視線と地上検証位置を組み合わせた。
暗黙的較正は、以下を含む視線検出を較正するための方法であってよい。
利用者の目の画像を取得する。
眼の画像に基づいて注視点を検出する。
あらかじめ特定されたコンテンツを含む必要のないシーンを見ているユーザの視野の画像を取得する。
視野画像、注視点を含むサブ画像から抽出されたサブ画像のエッジを検出する。
検出されたエッジに従って注視点を調整する。
暗黙的較正では、注視点が調節される点は、エッジが発生する最も高い確率を有する点であってよい。
暗黙的較正は、さらに、以下を含むことができる。
所定期間での検出エッジを累積する。
エッジ分布から統計量を計算する。
所定期間経過後、統計量によって注視点を調整する。
スクリーン画像が必要であることを追加することが重要である。スクリーン画像は視野と呼ばれる。視野は、VRにおけるスクリーン画像とARにおける外部カメラ画像の両方をカバーすることができる。また、ユーザが特定のターゲットを見る必要がないことにも注目することが重要である。シーンの内容は任意にすることができる。画像には、目の画像と画面の画像の2種類があるので、どの画像を参照するかを明示的に指定するべきである。
注視点と視野の画像との相関は、人間の行動に関する仮定として定義できる。つまり、状況Aでは、AとBは視野画像から自動的に抽出できるものであり、Bを見る可能性が高い。現在のところ、すべての状況において、人々はエッジを見ている可能性が高いという仮定を用いている。
例えば、潜在的に使用可能な他の仮定がある。新しい画像が提示されると、人間/動物/等の顔を最初に見る可能性がある、あるいは、静止した背景に向かって動く物体を持つビデオが提示されると、人々は動いている物体を見る可能性が高い。我々は以下のことを行う。
1.経時的にエッジの平均を計算する。
2.最大平均エッジを持つ点までのベクトルを求める。
アイデアの一般的な性質は、「視野の画像から正データを自動的に抽出する」ことである。しかし、この根拠となる正データは単一の点ではなく、確率分布である。視野画像が1個であれば、実際の注視点は予測できないものの、実際の注視点がある確率で特定の領域に位置することを予測することができる。
関心領域を取る場合、基本的に注視点確率分布を視線追跡パラメータの確率分布に変換する。視野画像から時間の異なるモーメントで確率分布を蓄積した後、平均確率分布を計算することができる。この平均確率分布は、1点(視線追跡パラメータの単一値)に次第に収束する。つまり、画像数が多いほど、この分布の標準偏差は小さくなる。
視野の画像から注視を予測するという一般的な考えは新しいものではない。このテーマを研究する「サリエンシー予測」と呼ばれる研究分野がある。「人間は物体の端を見ている可能性が高い」という仮説もまた、サリエンシー予測に由来する。視線追跡較正にサリエンシー予測を統合する方法は新しい。
図18は、暗黙的較正の分岐を示す。「バイアス」とは、推定注視点と実際の注視点との差が一定であることを意味する。人間は、高いコントラスト、すなわち物体の縁を持つ点を見る傾向がある。したがって、エッジ累積を使用した暗黙的較正では、次のようになる。
1.ユーザーの推定注視とヘッドマウントディスプレイ画面の画像を取得する。
2.注視点周辺の画面画像の小さな領域(ROI;興味領域)を選択する。
3.ROI上のエッジを検出する。
4.経時的に統計を蓄積する。
5.経時的にエッジが最大になる点を見つける。
6.ROI中心と最大点の差としてバイアスを推定する。
図19は、暗黙的較正の概要を示す。丸は、視線追跡器(視線検出部220)からの注視点である。星は実際の注視点である。矩形は視野の累積領域である。筆者らは、較正のための正データとして、エッジの最大量の点を使用した。したがって、表示フィールドに較正点を設ける必要はない。
図20は、暗黙的較正のフローチャートを示す。視線追跡器(視線検出部220)は、近似的な視線方向を提供する。ヘッドマウントディスプレイは、ユーザが見る完全な視野の画像を提供する。近似視線方向および全視野の画像を使用して、較正部230は、経時的に統計を計算し、視線追跡パラメータを推定し、パラメータを視線追跡器にフィードバックする。このようにして、視線方向は徐々に較正される。

Claims (18)

  1. ある方向への頭の回転速度を測定することと、
    前記方向への眼球の回転速度を測定することと、
    前記頭の回転速度及び前記眼球の回転速度が閾値未満である場合に視線検出部の較正を行うことと、
    を備える方法。
  2. ユーザに表示する画像を取得することと、
    前記ユーザの視線方向を検出することと、
    前記視線方向に基づいて、前記画像における前記ユーザの関心領域を決定することと、
    第1の圧縮率で前記画像の前記関心領域を圧縮することと、
    前記第1の圧縮率よりも高い第2の圧縮率で、前記画像の前記関心領域以外の外側領域を圧縮することと、
    圧縮された前記関心領域及び圧縮された前記外側領域を送信することと、
    を備える方法。
  3. 前記外側領域の解像度よりも前記関心領域の解像度が高い、請求項2に記載の方法。
  4. 前記関心領域を圧縮するステップにおいて、前記外側領域を第1の動画に符号化し、前記外側領域を圧縮するステップにおいて、前記外側領域を第2の動画に符号化し、前記第1の動画のフレームレートが前記第2の動画のフレームレートよりも高い、請求項2に記載の方法。
  5. ユーザに表示される第1の画像を取得することと、
    前記ユーザの視線方向を検出することと、
    前記視線方向に基づいて、前記第1の画像における前記ユーザの関心領域を決定することと、
    前記関心領域を第2の画像に引き伸ばすことと、
    前記第1及び第2の画像を合成することと、
    前記合成した画像を送信することと、
    前記合成した画像を復号することと、
    前記合成した画像から前記第1及び第2の画像を分離することと、
    前記第2の画像の引き伸ばしを解除することと、
    前記第1及び第2の画像を処理することと、
    を備える方法。
  6. ユーザの目の画像を取得することと、
    前記目の画像から視点を検出することと、
    あらかじめ定められたコンテンツを含む必要のないシーンを見ている前記ユーザの視野の画像を取得することと、
    前記視野の画像から抽出された部分画像のエッジを検出することであって、前記部分画像は前記視点を含む、エッジを検出することと、
    検出されたエッジに応じて前記視点を調整することと、
    を備える方法。
  7. 前記注視点が調整された点は、エッジが発生する最も高い確率の点である、請求項6に記載の方法。
  8. 所定期間において検出されたエッジを蓄積することと、
    前記エッジの分布から統計量を計算することと、
    前記所定期間の後、前記統計量に応じて前記視点を調整することと、
    をさらに備える請求項6に記載の方法。
  9. 瞳孔をカメラで撮像することと、
    前房の深さに基づいて前記瞳孔の位置を補正することと、
    前記瞳孔の補正位置を用いて視線方向を決定することと、
    を備える方法。
  10. 角膜中心から前記瞳孔の位置までの方向を前記視線方向として決定することをさらに含む、請求項9に記載の方法。
  11. 前記視線方向を決定するステップにおいて、眼球中心から前記瞳孔の位置までの方向を前記注視方向として決定する、請求項9に記載の方法。
  12. 前記カメラから前記瞳画像への方向に向けて前記瞳孔の位置を補正するステップをさらに含む、請求項9に記載の方法。
  13. 視覚的な場面において移動する物体を、ユーザを楽しませるコンテンツとして表示することと、
    前記移動する物体を較正点として使用して、前記ユーザの視線方向の較正を実行することと、
    を備える方法。
  14. 前記較正は、場面が変化するたびに実行される、請求項13に記載の方法。
  15. カメラからユーザの目の画像を取得することと、
    前記目と前記カメラの間に置かれたレンズの形状を検出することと、
    前記レンズの前記形状が予定したレンズ形状に適合するように、前記カメラの位置および向きのうちの少なくとも1つを補正することと、
    を備える方法。
  16. カメラからユーザの目の画像を取得することと、
    前記画像から前記目の上の光を見つけることと、
    前記カメラから前記光までの光線を計算することと、
    レンズを通した光線として前記光線を伝達させることと、
    伝達した前記光線を用いて角膜中心を見つけることと、
    を備える方法。
  17. 前記画像から前記目の瞳孔を見つけることと、
    前記カメラから前記瞳孔への第2の光線を計算することと、
    前記第2の光線を、前記レンズを通した前記第2の光線として伝達させることと、
    伝達した前記第2の高専を用いて前記同校の一を見つけることと、
    をさらに備える請求項16に記載の方法。
  18. カメラから目の画像を取得することと、
    目の部分の位置を得るために前記目の画像を画像処理することと、
    前記目の部分の前記位置に基づいて眼球モデルパラメータを推定することと、
    前記眼球モデルパラメータに基づいて3D視線方向を計算することと、
    前記眼球モデルパラメータから3D眼球モデルを作成することと、
    次の眼球モデルパラメータを推定することと、
    推定された前記次の眼球モデルパラメータを画像処理にフィードバックすることと、
    を備える方法。
JP2023546576A 2020-10-12 2021-10-12 視線検出のための較正 Pending JP2024514380A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020172238 2020-10-12
JP2020172238 2020-10-12
PCT/IB2021/059329 WO2022079585A1 (en) 2020-10-12 2021-10-12 Calibration for gaze detection

Publications (1)

Publication Number Publication Date
JP2024514380A true JP2024514380A (ja) 2024-04-02

Family

ID=81207753

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2022557220A Pending JPWO2022079587A1 (ja) 2020-10-12 2021-10-12
JP2023546576A Pending JP2024514380A (ja) 2020-10-12 2021-10-12 視線検出のための較正
JP2022557219A Pending JPWO2022079584A1 (ja) 2020-10-12 2021-10-12

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2022557220A Pending JPWO2022079587A1 (ja) 2020-10-12 2021-10-12

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022557219A Pending JPWO2022079584A1 (ja) 2020-10-12 2021-10-12

Country Status (3)

Country Link
US (2) US20230393653A1 (ja)
JP (3) JPWO2022079587A1 (ja)
WO (3) WO2022079585A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240020960A (ko) * 2022-08-09 2024-02-16 삼성전자주식회사 시선 방향을 식별하는 전자 장치 및 그 작동 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0764709A (ja) * 1993-08-26 1995-03-10 Olympus Optical Co Ltd 指示処理装置
JP2013252301A (ja) * 2012-06-07 2013-12-19 Toyota Central R&D Labs Inc 眼球中心推定装置及びプログラム
WO2017156486A1 (en) * 2016-03-11 2017-09-14 Oculus Vr, Llc Corneal sphere tracking for generating an eye model
US10976813B2 (en) * 2016-06-13 2021-04-13 Apple Inc. Interactive motion-based eye tracking calibration
WO2018000020A1 (en) * 2016-06-29 2018-01-04 Seeing Machines Limited Systems and methods for performing eye gaze tracking
US10820796B2 (en) * 2017-09-08 2020-11-03 Tobii Ab Pupil radius compensation
CN108038884B (zh) * 2017-11-01 2020-12-11 北京七鑫易维信息技术有限公司 校准方法、装置、存储介质和处理器

Also Published As

Publication number Publication date
US20240134448A1 (en) 2024-04-25
JPWO2022079587A1 (ja) 2022-04-21
WO2022079587A1 (ja) 2022-04-21
US20230393653A1 (en) 2023-12-07
JPWO2022079584A1 (ja) 2022-04-21
WO2022079585A1 (en) 2022-04-21
WO2022079584A1 (ja) 2022-04-21

Similar Documents

Publication Publication Date Title
JP2021144227A (ja) 視線追跡情報に基づく画像領域内の適応パラメータ
US20230141039A1 (en) Immersive displays
US20120200667A1 (en) Systems and methods to facilitate interactions with virtual content
US11500459B2 (en) Data processing apparatus and method
US11983310B2 (en) Gaze tracking apparatus and systems
US20210382316A1 (en) Gaze tracking apparatus and systems
US11762459B2 (en) Video processing
US20220113795A1 (en) Data processing system and method for image enhancement
US11507184B2 (en) Gaze tracking apparatus and systems
US20220035449A1 (en) Gaze tracking system and method
US11925412B2 (en) Gaze tracking apparatus and systems
JP2024514380A (ja) 視線検出のための較正
GB2597917A (en) Gaze tracking method and apparatus
US20230015019A1 (en) Video recording and playback systems and methods
US20220004253A1 (en) Data processing apparatus and method
JP7258620B2 (ja) 画像処理システム、及び画像処理方法
US11619814B1 (en) Apparatus, system, and method for improving digital head-mounted displays
US11579690B2 (en) Gaze tracking apparatus and systems
US11023041B1 (en) System and method for producing images based on gaze direction and field of view
EP3961572A1 (en) Image rendering system and method
GB2598953A (en) Head mounted display
GB2613084A (en) Gaze tracking apparatus and systems
Nowatzyk et al. Omni-Directional Catadioptric Acquisition System

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240118

AA64 Notification of invalidation of claim of internal priority (with term)

Free format text: JAPANESE INTERMEDIATE CODE: A241764

Effective date: 20240118