JP2024514380A

JP2024514380A - 視線検出のための較正

Info

Publication number: JP2024514380A
Application number: JP2023546576A
Authority: JP
Inventors: ヤコブチェルニャク; グレゴリーチェルニャク
Original assignee: FOVE, INC.
Current assignee: FOVE, INC.
Priority date: 2020-10-12
Filing date: 2021-10-12
Publication date: 2024-04-02
Also published as: US20230393653A1; WO2022079587A1; US20240134448A1; WO2022079584A1; JPWO2022079587A1; US20240192771A1; WO2022079585A1; JPWO2022079584A1

Abstract

方法は、ある方向への頭の回転速度を測定することと、前記方向への眼球の回転速度を測定することと、前記頭の回転速度及び前記眼球の回転速度が閾値未満である場合に視線検出部の較正を行うことと、を備える。

Description

本発明は、とくにヘッドに取り付けられたディスプレイと注視検出装置とを備えるビデオシステムに係る、ビデオシステム、ビデオ生成方法、ビデオ配信方法、ビデオ生成プログラム、およびビデオ配信プログラムに関する。

従来、ユーザが見ている点を指定するための注視検出を行う場合、較正を行う必要がある。ここで、較正は、ユーザに特定のインジケータを注視させ、特定のインジケータが表示される位置とユーザの角膜中心との間の位置関係を指定することを指す。注視検出を実行するために較正を実行する注視検出システムは、ユーザが見ている点を特定することができる。

特開２０１２－２１６１２３号公報

しかしながら、較正の準備は、ユーザが特定の指標を見ていると判断される条件下で行われる。したがって、ユーザが特定の指標を注視しない状態で情報を取得した場合、実際の注視検出を正確に行うことができないという問題がある。この問題は、ユーザの目の周囲が装置によって覆われており、内部の状態を見ることができないヘッドマウントディスプレイの場合、ユーザが実際に特定の指標を見ているかどうかを周囲から確認することができないため、特に顕著である。

本発明は、上記の問題点を考慮してなされたものであり、ヘッドマウントディスプレイを装着したユーザの注視検出を実現するための較正を正確に実行することができる技術を提供することを目的とする。

このような問題を解決するために、本発明の態様は、ある方向への頭の回転速度を測定する工程と、前記方向への眼球回転速度を測定する工程と、頭の回転速度及び眼球回転速度が閾値よりも低い場合に注視検出部の較正を行う工程とを備えることを特徴とする方法である。

本発明によれば、ヘッドマウントディスプレイを装着したユーザの注視方向を検出する技術を提供することができる。

第１実施形態に係るビデオシステム１の概略図である。実施形態に係るビデオシステム１の構成を示すブロック図である。各部品の位置を示す図である。眼を追跡する方法のフローチャートである。仮想カメラとレンズの物理的位置を示す。レンズ形状用のカメラ画像を示す。３Ｄモデルに基づく瞳孔予測のプロセスのフローチャートを示す。較正のためのシーン画像の一例を示す図である。隠された較正のプロセスのフローチャートを示す。ビデオシステムの概略図を示す。ヘッドマウント型ディスプレイとクラウドサーバとの間の通信に関するプロセスのフローチャートを示す。ビデオシステムの機能構成図を示す。ビデオシステムの機能構成図の別の例を示す。頭部および眼の回転速度を示すグラフを示す。眼球の物理的構造を示す。 ACDの較正方法の一例を示す。単一点較正の屈折モデルを示す。暗黙的較正の分岐を示す。暗黙的較正の概要を示す。暗黙的較正のフローチャートを示す。

以下では、ビデオシステムの各実施形態を図面を参照して説明する。以下の説明では、同一の構成要素を同じ記号で表し、繰り返し説明を省略している。

以下、本発明の第１実施形態の概要を説明する。図１は、第１実施形態に係るビデオシステム１の概略図である。本実施形態によれば、ビデオシステム１は、ヘッドマウントディスプレイ１００と視線検出装置２００とを備える。図１に示すように、ヘッドマウントディスプレイ１００は、ユーザ３００の頭部に固定されたまま使用される。

視線検出装置２００は、ヘッドマウントディスプレイ１００を装着したユーザの右目および左目のうちの少なくとも１つの視線方向を検出し、ユーザの焦点、すなわち、ヘッドマウントディスプレイ上に表示される三次元画像内のユーザによって注視される点を指定する。視線検出装置２００はまた、頭部に取り付けられたディスプレイ１００によって表示されるべきビデオを生成するビデオ生成装置としても機能する。例えば、視線検出装置２００は、据置きゲーム機、携帯ゲーム機、ＰＣ、タブレット、スマートフォン、ファブレット、ビデオプレーヤ、テレビ等のビデオを再生することができる装置であるが、本発明は、これらに限定されるものではない。視線検出装置２００は、ヘッドマウントディスプレイ１００に無線または無線で接続される。図１に示す例では、視線検出装置２００は、ヘッドマウントディスプレイ１００に無線で接続されている。視線検出装置２００とヘッドマウントディスプレイ１００との間の無線接続は、Ｗｉ－Ｆｉ（登録商標）またはＢｌｕｅｔｏｏｔｈ（登録商標）のような既知の無線通信技術を使用して実現することができる。例えば、ヘッドマウントディスプレイ１００と視線検出装置２００との間のビデオの転送は、Ｍｉｒａｃａｓｔ（登録商標）、ＷｉＧｉｇ（登録商標）、ＷＨＤＩ（登録商標）などの標準に従って実行される。他の通信技術を使用することができ、例えば、音響通信技術または光伝送技術を使用することができる。

ヘッドマウントディスプレイ１００は、筐体１５０と、取り付けハーネス１６０と、ヘッドフォン１７０とを備える。ハウジング１５０は、ユーザ３００にビデオ画像を提示するための画像表示要素などの画像表示システムを収容し、図には示されていないが、Ｗｉ－Ｆｉモジュール、Ｂｌｕｅｔｏｏｔｈ（登録商標）モジュール、または他のタイプの無線通信モジュールを収容する。ヘッド取り付けディスプレイ１００は、取り付けハーネス１６０でユーザ３００のヘッドに固定される。取り付けハーネス１６０は、例えば、ベルトまたは弾性バンドの助けを借りて実施することができる。ユーザ３００がヘッドマウントディスプレイ１００を取り付けハーネス１６０で固定すると、ハウジング１５０はユーザ３００の目が覆われる位置にある。したがって、ユーザ３００がヘッドマウントディスプレイ１００を装着すると、ユーザ３００の視野はハウジング１５０によって覆われる。

ヘッドフォン１７０は、ビデオ生成装置２００によって再生されたビデオのオーディオを出力する。ヘッドフォン１７０は、ヘッドマウントディスプレイ１００に固定する必要はない。ヘッドマウントディスプレイ１００が取り付けハーネス１６０で固定されていても、ユーザ３００は、ヘッドフォン１７０を自由に取り付け又は取り外すことができる。

図２は、実施形態に係るビデオシステム１の構成を示すブロック図である。

ヘッドマウントディスプレイ１００は、ビデオ提示部１１０と、撮像部１２０と、通信部１３０とを備える。

ビデオ提示部１１０は、ユーザ３００にビデオを提示する。ビデオ提示部１１０は、例えば、液晶モニタまたは有機ＥＬ（エレクトロルミネッセンス）ディスプレイとして実装することができる。

撮像部１２０は、ユーザの眼の画像を捕捉する。撮像部１２０は、例えば、ハウジング１５０内に配置されたＣＣＤ（電荷結合素子）、ＣＭＯＳ（相補型金属酸化膜半導体）または他の画像センサとして実施することができる。

通信部１３０は、ヘッドマウントディスプレイ１００とビデオ生成装置２００との間の情報転送のために、ビデオ生成装置２００に無線または有線接続を提供する。具体的には、通信部１３０は、撮像部１２０で撮影した画像を映像生成装置２００に転送し、ビデオ提示部１１０で提示するための映像生成装置２００からのビデオを受信する。通信部１３０は、例えば、Ｗｉ－Ｆｉモジュール、Ｂｌｕｅｔｏｏｔｈ（登録商標）モジュール、または他の無線通信モジュールとして実装することができる。

図２に示す視線検出装置２００を導入する。視線検出装置２００は、通信部２１０と、視線検出部２２０と、較正部２３０と、記憶部２４０とを備える。

通信部２１０は、ヘッドマウントディスプレイ１００への無線または有線接続を提供する。通信部２１０は、撮像部１２０によって捕捉されたヘッドマウントディスプレイ１００の画像を受信し、ヘッドマウントディスプレイ１００にビデオを送信する。視線検出部２２０は、ディスプレイ１００上に表示された画像を見るユーザの視線を検出し、視線データを生成する。較正部２３０は、視線検出の較正を行う。記憶部２４０は、視線検出および較正のためのデータを記憶する。

＜レンズ補正による視線追跡＞

レンズ補正による視線追跡は、以下を含む方法であってよい。
カメラからユーザの目の画像を取得する。
画像から目に反射光を見つける。
カメラから反射光までの光線を計算する。
レンズを通した光線として光線を伝達させる。
透過光線により角膜中心を発見する。

本方法は、以下をさらに含むことができる。
画像から目の瞳孔を見つける。
カメラから瞳孔への第二光線を計算する。
水晶体を通過する第二の光線として第二の光線を伝達させる。
透過した第２光線により瞳孔の位置を見つける。

図３に、レンズ補正による視線追跡の概略図を示す。図３は、人間の目、レンズ、仮想カメラ、及びヘッドマウントディスプレイのスクリーンを示す。カメラからの光線は標準レンズまたはフレネルレンズを通過し、人間の目に到達する。視線検出部２２０は、目の追跡を計算するために光線を使用する。

カメラと人間の目の間には、標準レンズまたはフレネルレンズが設けられる。視線検出部２２０は、目の視線方向を検出する際に、カメラから各反射光及び瞳孔への光線を用いて、人間の目の画像上の反射光及び瞳を検出する。レンズ補正による視線追跡では、光線はレンズを通過する。したがって、視線検出部２２０は、そのような伝達を計算しなければならない。

視線検出部２２０は、カメラ画像上の任意の２次元の点（反射光）に対して３次元光線を与えるために、内部マトリックス及び外部マトリックスを用いて、画像から検出された光の位置までのカメラからの光線（レンズより前の光線）を計算することができる。視線検出部２２０は、レンズより後の光線を計算するために、スネルの法則光線追跡を適用するか、または、事前計算された伝達マトリックスを使用することができる。視線検出部２２０は、目のトラッキング（視線方向）を計算するために、レンズの後にこの光線を使用する。

レンズ補正は、多項式フィッティングを用いて行うことができる。（ｘ，ｙ）がカメラ画像上の画素を表し、（ｘｐ，ｙｐ）がレンズ上のｘ－ｙ位置を表し、（ｘｄ，ｙｄ，ｚｄ）がレンズからの光線のｘ－ｙ－ｚ方向を表すとする。次に、カメラ画像上の任意の画素に対して、視線検出部２２０は、レンズを通過した後の光線を見つけることができる。

ここで、ａｉ，ｂｉ，ｃｉ，ｄｉ，ｅｉ，ｆｉ，ｇｉ，ｈｉ，ｐｉ，ｑｉは事前計算された多項式係数である。

（ｘ，ｙ）は、球面座標の角度など、ピクセル座標から直接導くことができるものであればどんなものでもよいことに留意されたい。さらに、（ｘｄ，ｙｄ，ｚｄ）は、代替表現（例えば、球面座標）を有することもできる。

図４は、視線追跡方法のフローチャートを示す。左は従来の流れを示し、右は本実施形態によるレンズ補正による視線追跡を示す。

まず、視線検出部２２０はカメラから目の画像を得る。そして、視線検出部２２０は、画像処理を行うことにより、反射光及び瞳孔を発見する。視線検出部２２０は、カメラから各光への光線を得るために、内部及び外部マトリックスを使用する。

ここで、レンズ補正による視線追跡において、視線検出部２２０は、レンズを介して光線を伝達させる。伝達は、上述の行列または多項式フィッティングで計算される。

視線検出部２２０は、角膜中心／半径を見つけるために逆問題を解決する。

次いで、視線検出部２２０は、カメラから瞳孔への光線を得るために、内部及び外部マトリックスを使用する。

我々のレンズ補正による視線追跡では、視線検出部２２０は、この光線をレンズを介して伝達する。

視線検出部２２０は、この光線を角膜の球と交差させる。

得られる交点は３Ｄの瞳孔位置である。得られる光軸は、角膜中心から３Ｄ瞳孔位置までのベクトルである。

＜レンズフィッティングによるカメラ最適化＞

レンズフィッティングによるカメラの最適化は、以下を含む方法であってもよい。
カメラからユーザの目の画像を取得する。
目とカメラの間に置かれたレンズの形状を検出する。
レンズの形状が期待されるレンズ形状に適合するように、カメラの位置および向きのうちの少なくとも１つを補正する。

図５は、仮想カメラとレンズの物理的位置を示す。このようなレンズを使用する場合、カメラから使用者の目への光線がレンズを介して伝達するので、カメラの予想される位置および向きは、視線方向を計算するのに多大な意味を有する。レンズフィッティングによるカメラの最適化では、カメラの位置と向きを調整する。

図６は、レンズ形状用のカメラ画像を示す。左側の写真は、カメラの向きが正しい場合に期待されるカメラ画像を示す。右側の写真は、カメラの向きが間違っている場合のカメラ画像を示す。右図のように、レンズ形状（白丸）は画像の中央にない。

較正部２３０は、カメラの位置および向きを補正するために数値最適化を実行する。最適化コスト関数として、較正部２３０は、観察されたレンズを期待されるレンズ形状に適合させようとする。

＜３Ｄモデルに基づく瞳孔・虹彩・反射光予測＞

３Ｄモデルに基づく予測は、以下を含む方法であり得る。
カメラから目の画像を取得する。
目の部分の位置を得るために目の画像を画像処理する。
目の部分の位置に基づいて眼球モデルパラメータを推定する。
眼球モデルパラメータに基づいて３Ｄ視線方向を計算する。
眼球モデルパラメータから３Ｄ眼球モデルを作成する。
次の眼球モデルパラメータを推定する。
推定された次の眼球モデルパラメータを画像処理にフィードバックする。

図７は、３Ｄモデルに基づく瞳孔予測のプロセスのフローチャートを示す。まず、視線追跡システムは、カメラによって目の画像を取得する。次に，瞳孔と虹彩の偏心，反射光位置，カメラからの目の画像に基づいて画像処理を行う。次に、眼球、瞳孔、虹彩の位置及び方向半径などの眼球モデルパラメータを推定する。３Ｄ視線推定を出力する。次に，以前の画像フレームから３Ｄ眼球モデルを作成し，瞳孔と虹彩の偏心度，および３Ｄモデルからの反射光位置を推定する。次に、瞳孔と虹彩の偏心、および反射光の位置を、画像処理の次のサイクルに使用する。

＜隠し較正＞

較正プロセスは、ユーザにさらなる努力を課す。隠し較正により、ユーザがコンテンツを視聴中に較正が実行される。
隠し較正は、以下を含む方法であってよい。
動く物体を、視覚的な場面で、利用者を楽しませるコンテンツとして表示する。
移動する物体を較正点として使用して、ユーザの視線方向の較正を実行する。
隠し較正では、シーンが変化するたびに較正が実行される。

図８は、較正のためのシーン画像の一例を示す。図８の左側の図は、従来の較正のスクリーム画像を示す。従来の較正では、コンテンツが開始される前に、移動するドットが画面上に表示され、ユーザがドットを見る。また、再較正を行う場合には、再度移動するドットを表示するためにコンテンツを停止する必要がある。しかし、較正のためにコンテンツを停止することは、ユーザーにストレスを与える。この問題に対処するためには、コンテンツを停止せずに較正を行うことが望ましい。

例えば、ビデオコンテンツは、ロゴ、ホタル、及び明るい物体のようなスクリーン上の移動物体のみを示す特定の時間の間のシーンを有する。表示されたシーンの間、ユーザは移動物体を見て、較正部は較正プロセスを実行することができる。図８の右側の図は、ホタルで表示されるシーンの一例を示す。

映像コンテンツに複数のシーンがある場合は、コンテンツ中に複数回キャリブレーションを行うことができ、視線追跡の精度が徐々に向上する。

図９は、隠し較正のプロセスのフローチャートを示す。アプリケーション（ビデオプレーヤーなど）は、他のコンテンツを含まずに画面上に移動オブジェクトを描画する。この較正が発表されていなくても、ユーザの目が動いているオブジェクトを追跡することが期待される。なぜなら、オブジェクトのみが画面に表示されるからである。

次に、アプリケーションは、オブジェクトの３Ｄ位置情報（３Ｄ座標）を視線追跡部に送信する。

次に、視線追跡部は、その位置情報を用いてリアルタイムで較正する。視線追跡部が較正を行う場合、アプリケーションは、３Ｄ位置情報と共に、さらなるタイムスタンプ情報を送信する。

＜中心窩カメラストリーミング＞

中心窩カメラストリーミングは、以下を含む方法であってよい。ユーザに表示する画像を取得する。ユーザの視線方向を検出する。視線方向に基づいて、画像上のユーザの関心領域を決定する。画像の関心領域を第１の圧縮率で圧縮する。関心領域以外の画像の外側領域を第２の圧縮率で圧縮する。第２の圧縮率は、第１の圧縮率よりも高い。圧縮された関心領域および圧縮された外側領域を伝送する。この方法では、関心領域の解像度は、外側領域の解像度よりも高い。

この方法では、画像はビデオであってよく、関心領域を符号化するステップにおいて、外部領域を第１のビデオに圧縮し、外部領域を符号化するステップにおいて、第２のビデオに圧縮し、第１のビデオのフレームレートは第２のビデオのフレームレートよりも高い。

中心窩カメラストリーミングはまた、以下を含む方法であってもよい。
ユーザに表示される最初の画像を取得する。
ユーザの視線方向を検出する。
視線方向に基づいて、第１の画像上のユーザの関心領域を決定する。
関心領域を拡大して第２の画像にする。
第１の画像と第２の画像とを結合する。
結合画像を送信する。
結合画像をデコードする。
結合画像から第１の画像と第２の画像を分離する。
第２の画像の拡大を解除する。
第１の画像及び第２の画像を処理する。

図１０は、ビデオシステムの概略図を示す。この実施形態では、ビデオシステムは、ヘッドマウント型ディスプレイ１００と、注視検出装置２００と、クラウドサーバとを備える。

ヘッドマウントディスプレイ１００は、外部カメラをさらに備える。外部カメラはハウジング１５０で固定され、ユーザの頭部の正面方向のビデオ画像を記録するように配置される。外部カメラは、外部カメラが記録できる全世界のビデオ画像をフル解像度で記録する。ビデオシステムは、ユーザの注視領域のための高解像度画像と他の領域のための低解像度画像を含む２つの画像ストリームを有する。高解像度画像及び低解像度画像を含む画像は、ヘッドマウントディスプレイ１００から直接、又は視線検出装置２００を介して、公衆通信ネットワークによってクラウドサーバに送信される。この技術では、外部カメラが記録できる全世界のフル解像度画像を送信する代わりに、ユーザが見る限られた領域（注視領域）に対してのみフル解像度画像を送信し、他の領域に対して低解像度画像を送信するため、映像システム１は映像送信の帯域幅を低減することができる。

受信した２種類の画像情報に基づいて、クラウドサーバは、ＡＲ（拡張現実）またはＭＲ（混合現実）ディスプレイに使用されるコンテキスト情報を作成する。クラウドサーバは、コンテキスト情報を作成するために情報（例えば、オブジェクト識別、顔認識、ビデオ画像など）を集約し、コンテキスト情報をヘッドマウントディスプレイ１００に送信する。

図１１は、ヘッドマウントディスプレイとクラウドサーバとの間の通信に関するプロセスのフローチャートを示す。

ヘッドマウントディスプレイの外側を向いた外部カメラは、世界の画像を撮影する（Ｓ１１０１）。

次に、制御部は、視線追跡座標に基づいて、ビデオ画像を２つのストリームに分割する（Ｓ１１０２）。このステップでは、制御部は、視線追跡座標に基づいてユーザの注視点座標を検出し、ビデオ画像を関心領域と他の領域とに分割する。関心領域は、注視点を含む特定のサイズの領域を分割することによって、ビデオ画像から得ることができる。

次に、通信ネットワーク（例えば、５Ｇネットワーク）によって、２つのビデオ画像ストリームがクラウドサーバに送信される（Ｓ１１０３）。
このステップでは、関心領域の画像を高解像度画像としてサーバに送信する一方、他方の領域の画像は低解像度画像としてサーバに送信する。

その後、クラウドサーバは画像を処理し、コンテキスト情報を追加する（Ｓ１１０４）。

そして、画像及びコンテキスト情報がヘッドマウントディスプレイに送り返され、ＡＲ又はＭＲ画像がユーザに表示される（Ｓ１１０５）。

図１２は、ビデオシステムの機能構成図を示す。ヘッドマウントディスプレイおよび視線検出装置は、外部カメラ、制御部、視線追跡部、センシング部、通信部および表示部を含む。クラウドサーバは、一般認識処理部と詳細処理部、情報集約部から構成される。

外部カメラはビデオ画像を取得し、得られた高解像度のロービデオ画像を制御部に入力する。視線追跡部は、視線追跡に基づいて点（注視座標）を検出し、制御部に注視座標情報を入力する。制御部は、注視座標に基づいて、各画像内の関心領域を決定する。例えば、注視点を含む特定のサイズの領域を分割することによって、関心領域をビデオ画像から得ることができる。対象領域の画像データは、より低い圧縮比で圧縮され、通信部に入力される。また、通信部は、センシング部によって得られるヘッドセットの傾きおよび他のメタデータのようなセンシングデータを受信する。センシング部は、ＧＰＳまたは地磁気センサによって構成することができる。関心領域の画像データは、より高い解像度の画像でクラウドサーバに送信される。関心領域外の画像データは、より高い圧縮比で圧縮され、通信部に入力される。関心領域外の画像データは、より解像度の低い画像でクラウドサーバに送信される。

クラウドサーバの一般認識処理部は、解像度の低い「関心領域」以外の画像データ（ならびにヘッドセットの傾き及びメタデータ）を受信し、画像中のオブジェクト（オブジェクトの種類、数等）を識別するための画像処理を行う。

クラウドサーバの詳細処理部は、関心領域の高解像度の画像データ（及びヘッドセット角度、メタデータ）を受信し、顔認識、文字認識などの細部を識別するための画像処理を行う。

情報集約部は、一般認識処理部の識別結果と、詳細処理部の認識結果とを受信する。情報集約部は、受信した結果を集約して表示画像を作成し、表示画像を通信ネットワークを介してヘッドマウントディスプレイに送信する。

図１３は、ビデオシステムの機能構成図の別の例を示す。図７－３では、関心領域の画像データ（高解像度）と関心領域外の画像データ（低解像度）を別々にクラウドサーバに送信する。しかし、これらの画像データは、図７－４に示すように、１つのビデオストリームで送信することもできる。関心領域を取得した後、制御部は、関心領域の外側のデータを低減するために、画像を拡大する。そして、拡大された画像とセンシングデータをセンシング部からクラウドサーバ内の拡大解消部に送信する。拡大解消は、受信した画像データの拡大を解消し、拡大解消された画像データを一般認識処理部および詳細処理部に送信する。

＜光反応を利用した視線追跡較正＞

視線追跡較正は、光動力学的応答を用いて行うことができる。すなわち、較正方法は、以下を含むことができる。ある方向のヘッド回転速度を測定する。当該方向での眼球回転速度を測定する。ヘッド回転速度、眼球回転速度が閾値未満の場合に視線検出部の較正を行う。

眼運動反応は、網膜上の画像の動きに反応して起こる眼の動きである。ある点を見ているとき、頭部回転速度と眼球回転速度の合計は、頭部回転中にゼロ（０）である。

較正部２３０は、ユーザが頭部回転速度と眼球回転速度の合計がゼロであることを検出することによって検出できる安定した点を注視したときに、視線検出装置２００の較正を行うことができる。つまり、ユーザは頭を右に回転させるとき、ある点を注視するために、眼を左に回転させるべきである。

図１４は、頭部および眼の回転速度を示すグラフを示す。点線は方向の眼球回転速度を示す。実線は逆頭回転速度（頭の回転速度に－１を掛けたもの）を示す。図１４に示すように、逆頭回転速度は、ほぼ眼の回転速度と整合する。

ヘッドマウントディスプレイ１００は、ＩＭＵを備える。ＩＭＵは、ユーザ３００の頭の回転速度を測定することができる。視線検出ユニットは、ユーザの眼の回転速度を測定することができる。眼球回転速度は、注視点の移動速度で表すことができる。較正ユニット２３０は、ＩＭＵによって測定された値から、上下方向および左右方向の頭の回転速度を計算することができる。較正ユニット２３０はまた、注視点の履歴から、上下方向及び左右方向の眼球回転速度を計算することもできる。較正ユニット２３０は、ディスプレイに描画された仮想空間内にマーカーを表示する。マーカーを動かすことも、安定させることもできる。較正部２３０は、頭の回転速度を左右方向及び上下方向に、眼の回転速度を左右方向及び上下方向に計算する。較正ユニット２３０は、頭の回転速度と眼の回転速度の合計が所定の閾値よりも低い場合に較正を行うことができる。

＜シングルポイント較正＞

シングルポイント較正は、以下を含む方法であってよい。
瞳孔をカメラで撮像する。
前房の深さに基づいて瞳孔の位置を補正する。
瞳孔の補正位置を用いて視線方向を決定する。

較正方法では、角膜中心から瞳孔の位置までの方向を視線方向として決定する。

較正方法では、眼球中心から瞳孔の位置までの方向を視線方向として決定することができる。

較正方法は、さらに、瞳孔の位置を、カメラから瞳孔画像への方向に対する角度に補正することを含んでもよい。

図１５は、眼球の物理的構造を示す。眼球は、瞳孔、角膜、および前房を含むいくつかの部分で構成される。瞳孔の位置は、カメラ画像によって認識されうる。実際には、角膜表面と瞳孔の間には、前房深度（ＡＣＤ）がある。したがって、視線推定の精度を向上させるためには、ＡＣＤを考慮に入れて瞳孔の位置を補正する必要がある。補正した瞳孔の位置を用いて視線方向を推定する。

図１６は、較正方法の一例を示す。この場合、眼はシステムによって知られている較正点を見ており、瞳孔はカメラによって観察される。Ｐ０は、光線（カメラで観察された瞳孔）と角膜球との交点を示す。Ｐ０はカメラ上の観察瞳孔である。Ｐ０は一般的な視線推定に用いられる。

しかし、実際には、瞳孔はＡＣＤによって角膜球内のＰ１に位置している。眼球の中心（または角膜球の中心）から瞳孔の中心までの方向は、眼の視線方向とみなされます。較正は、視線方向および既知の較正点を用いて行うことができる。

＜屈折モデル＞

角膜が光線を屈折させるとすると、補正は調整される。すなわち，前房深度（ＡＣＤ）と視軸に対する水平光学軸を考慮して瞳孔位置を補正する。

図１７は、シングルポイント較正の屈折モデルを示す。光線（カメラで観察された瞳孔）と角膜球との交点からＰ０が得られる。我々は角膜の位置と入射光線を知っている。したがって、「スネルの法則」（または他の屈折モデル）を適用する。これにより方向が変わる。瞳孔Ｐ１と角膜球面（Ｐ０）との間に一定の距離（ＡＣＤ）があるように光線を継続する。角膜中心（または眼球中心）からＰ１への方向は、既知の較正点に向いているべきである。そうでない場合、較正ユニット２３０は、ＡＣＤを最適化する。したがって、較正ユニット２３０は、ＡＣＤを較正する。

＜暗黙的較正＞

較正プロセスは、ユーザにさらなる努力を課す。暗黙的較正によって、較正は、ユーザがコンテンツを閲覧する間に実行される。

従来の（明示的な）キャリブレーションでは、次のようになる。
１．システムは、ユーザが既知の位置にポイントターゲットを示す。
２．ユーザは、一定期間、ターゲットを確認する必要がある。
３．システムは、その期間中のユーザの視線の推定値を記録する。
４．このシステムは、記録された視線と地上検証位置とを組み合わせて、視線追跡パラメータを推定する。

一方、暗黙的較正では、次のようになる。
１．明示的なポイントターゲットはない。
２．ユーザは、通常のＶＲ／ＡＲ経験に従事するため、特定のアクションを行う必要はない。
３．システムは、通常のＶＲ／ＡＲ経験の間、ユーザの視線の推定値とヘッドマウントスクリーン画像を記録する。
４．このシステムは、推定視線とスクリーン画像とを組み合わせて、地上検証位置を得る。
５．このシステムは、視線追跡パラメータを推定するために、記録された視線と地上検証位置を組み合わせた。

暗黙的較正は、以下を含む視線検出を較正するための方法であってよい。
利用者の目の画像を取得する。
眼の画像に基づいて注視点を検出する。
あらかじめ特定されたコンテンツを含む必要のないシーンを見ているユーザの視野の画像を取得する。
視野画像、注視点を含むサブ画像から抽出されたサブ画像のエッジを検出する。
検出されたエッジに従って注視点を調整する。

暗黙的較正では、注視点が調節される点は、エッジが発生する最も高い確率を有する点であってよい。

暗黙的較正は、さらに、以下を含むことができる。
所定期間での検出エッジを累積する。
エッジ分布から統計量を計算する。
所定期間経過後、統計量によって注視点を調整する。

スクリーン画像が必要であることを追加することが重要である。スクリーン画像は視野と呼ばれる。視野は、ＶＲにおけるスクリーン画像とＡＲにおける外部カメラ画像の両方をカバーすることができる。また、ユーザが特定のターゲットを見る必要がないことにも注目することが重要である。シーンの内容は任意にすることができる。画像には、目の画像と画面の画像の２種類があるので、どの画像を参照するかを明示的に指定するべきである。

注視点と視野の画像との相関は、人間の行動に関する仮定として定義できる。つまり、状況Ａでは、ＡとＢは視野画像から自動的に抽出できるものであり、Ｂを見る可能性が高い。現在のところ、すべての状況において、人々はエッジを見ている可能性が高いという仮定を用いている。

例えば、潜在的に使用可能な他の仮定がある。新しい画像が提示されると、人間／動物／等の顔を最初に見る可能性がある、あるいは、静止した背景に向かって動く物体を持つビデオが提示されると、人々は動いている物体を見る可能性が高い。我々は以下のことを行う。
１．経時的にエッジの平均を計算する。
２．最大平均エッジを持つ点までのベクトルを求める。

アイデアの一般的な性質は、「視野の画像から正データを自動的に抽出する」ことである。しかし、この根拠となる正データは単一の点ではなく、確率分布である。視野画像が１個であれば、実際の注視点は予測できないものの、実際の注視点がある確率で特定の領域に位置することを予測することができる。

関心領域を取る場合、基本的に注視点確率分布を視線追跡パラメータの確率分布に変換する。視野画像から時間の異なるモーメントで確率分布を蓄積した後、平均確率分布を計算することができる。この平均確率分布は、１点（視線追跡パラメータの単一値）に次第に収束する。つまり、画像数が多いほど、この分布の標準偏差は小さくなる。

視野の画像から注視を予測するという一般的な考えは新しいものではない。このテーマを研究する「サリエンシー予測」と呼ばれる研究分野がある。「人間は物体の端を見ている可能性が高い」という仮説もまた、サリエンシー予測に由来する。視線追跡較正にサリエンシー予測を統合する方法は新しい。

図１８は、暗黙的較正の分岐を示す。「バイアス」とは、推定注視点と実際の注視点との差が一定であることを意味する。人間は、高いコントラスト、すなわち物体の縁を持つ点を見る傾向がある。したがって、エッジ累積を使用した暗黙的較正では、次のようになる。
１．ユーザーの推定注視とヘッドマウントディスプレイ画面の画像を取得する。
２．注視点周辺の画面画像の小さな領域（ＲＯＩ；興味領域）を選択する。
３．ＲＯＩ上のエッジを検出する。
４．経時的に統計を蓄積する。
５．経時的にエッジが最大になる点を見つける。
６．ＲＯＩ中心と最大点の差としてバイアスを推定する。

図１９は、暗黙的較正の概要を示す。丸は、視線追跡器（視線検出部２２０）からの注視点である。星は実際の注視点である。矩形は視野の累積領域である。筆者らは、較正のための正データとして、エッジの最大量の点を使用した。したがって、表示フィールドに較正点を設ける必要はない。

図２０は、暗黙的較正のフローチャートを示す。視線追跡器（視線検出部２２０）は、近似的な視線方向を提供する。ヘッドマウントディスプレイは、ユーザが見る完全な視野の画像を提供する。近似視線方向および全視野の画像を使用して、較正部２３０は、経時的に統計を計算し、視線追跡パラメータを推定し、パラメータを視線追跡器にフィードバックする。このようにして、視線方向は徐々に較正される。

Claims

ある方向への頭の回転速度を測定することと、
前記方向への眼球の回転速度を測定することと、
前記頭の回転速度及び前記眼球の回転速度が閾値未満である場合に視線検出部の較正を行うことと、
を備える方法。
ユーザに表示する画像を取得することと、
前記ユーザの視線方向を検出することと、
前記視線方向に基づいて、前記画像における前記ユーザの関心領域を決定することと、
第１の圧縮率で前記画像の前記関心領域を圧縮することと、
前記第１の圧縮率よりも高い第２の圧縮率で、前記画像の前記関心領域以外の外側領域を圧縮することと、
圧縮された前記関心領域及び圧縮された前記外側領域を送信することと、
を備える方法。
前記外側領域の解像度よりも前記関心領域の解像度が高い、請求項２に記載の方法。
前記関心領域を圧縮するステップにおいて、前記外側領域を第１の動画に符号化し、前記外側領域を圧縮するステップにおいて、前記外側領域を第２の動画に符号化し、前記第１の動画のフレームレートが前記第２の動画のフレームレートよりも高い、請求項２に記載の方法。
ユーザに表示される第１の画像を取得することと、
前記ユーザの視線方向を検出することと、
前記視線方向に基づいて、前記第１の画像における前記ユーザの関心領域を決定することと、
前記関心領域を第２の画像に引き伸ばすことと、
前記第１及び第２の画像を合成することと、
前記合成した画像を送信することと、
前記合成した画像を復号することと、
前記合成した画像から前記第１及び第２の画像を分離することと、
前記第２の画像の引き伸ばしを解除することと、
前記第１及び第２の画像を処理することと、
を備える方法。
ユーザの目の画像を取得することと、
前記目の画像から視点を検出することと、
あらかじめ定められたコンテンツを含む必要のないシーンを見ている前記ユーザの視野の画像を取得することと、
前記視野の画像から抽出された部分画像のエッジを検出することであって、前記部分画像は前記視点を含む、エッジを検出することと、
検出されたエッジに応じて前記視点を調整することと、
を備える方法。
前記注視点が調整された点は、エッジが発生する最も高い確率の点である、請求項６に記載の方法。
所定期間において検出されたエッジを蓄積することと、
前記エッジの分布から統計量を計算することと、
前記所定期間の後、前記統計量に応じて前記視点を調整することと、
をさらに備える請求項６に記載の方法。
瞳孔をカメラで撮像することと、
前房の深さに基づいて前記瞳孔の位置を補正することと、
前記瞳孔の補正位置を用いて視線方向を決定することと、
を備える方法。
角膜中心から前記瞳孔の位置までの方向を前記視線方向として決定することをさらに含む、請求項９に記載の方法。
前記視線方向を決定するステップにおいて、眼球中心から前記瞳孔の位置までの方向を前記注視方向として決定する、請求項９に記載の方法。
前記カメラから前記瞳画像への方向に向けて前記瞳孔の位置を補正するステップをさらに含む、請求項９に記載の方法。
視覚的な場面において移動する物体を、ユーザを楽しませるコンテンツとして表示することと、
前記移動する物体を較正点として使用して、前記ユーザの視線方向の較正を実行することと、
を備える方法。
前記較正は、場面が変化するたびに実行される、請求項１３に記載の方法。
カメラからユーザの目の画像を取得することと、
前記目と前記カメラの間に置かれたレンズの形状を検出することと、
前記レンズの前記形状が予定したレンズ形状に適合するように、前記カメラの位置および向きのうちの少なくとも１つを補正することと、
を備える方法。
カメラからユーザの目の画像を取得することと、
前記画像から前記目の上の光を見つけることと、
前記カメラから前記光までの光線を計算することと、
レンズを通した光線として前記光線を伝達させることと、
伝達した前記光線を用いて角膜中心を見つけることと、
を備える方法。
前記画像から前記目の瞳孔を見つけることと、
前記カメラから前記瞳孔への第２の光線を計算することと、
前記第２の光線を、前記レンズを通した前記第２の光線として伝達させることと、
伝達した前記第２の高専を用いて前記同校の一を見つけることと、
をさらに備える請求項１６に記載の方法。
カメラから目の画像を取得することと、
目の部分の位置を得るために前記目の画像を画像処理することと、
前記目の部分の前記位置に基づいて眼球モデルパラメータを推定することと、
前記眼球モデルパラメータに基づいて３Ｄ視線方向を計算することと、
前記眼球モデルパラメータから３Ｄ眼球モデルを作成することと、
次の眼球モデルパラメータを推定することと、
推定された前記次の眼球モデルパラメータを画像処理にフィードバックすることと、
を備える方法。