JP2021093125A

JP2021093125A - 目復元に基づく目追跡方法及び装置

Info

Publication number: JP2021093125A
Application number: JP2020142548A
Authority: JP
Inventors: 珍九許; Jin Gu Heo; 東佑姜; Dong-Woo Kang; 東▲きょん▼ 南; Dong Kyung Nam
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-12-10
Filing date: 2020-08-26
Publication date: 2021-06-17
Also published as: KR20210073135A; CN112950670A; EP3836073A1; US20210173476A1; US20220269343A1; EP3836073B1; US11327562B2

Abstract

【課題】本発明は、目復元に基づく目追跡方法及び装置を提供する。【解決手段】一実施形態によれば、目追跡方法は、入力映像に関する目復元を行って復元映像を生成し、入力映像と復元映像との間の差を決定し、その決定された差に基づいて入力映像、復元映像、及び代替映像のいずれか１つを選定して目追跡を行うステップを含む。【選択図】図１

Description

以下の実施形態は、目復元に基づく目追跡方法及び装置に関する。

ヘッドアップディスプレイ（ｈｅａｄｕｐｄｉｓｐｌａｙ；ＨＵＤ）装置は、運転者の前方に虚像（ｖｉｒｔｕａｌｉｍａｇｅ）を表示し、運行に役立つ様々な運行情報を運転者に提供する。最近、３次元ＨＵＤ装置が開発されているが、例えば、３次元ＨＵＤ装置は、拡張現実（ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ；ＡＲ）方式を使用することができる。この場合、運行情報は、実際の事物に重なるように表現され、運転者は運行情報をより直観的に認知することができる。現在、様々な３次元表示方式が存在するが、そのうち、相対的に高い解像度と自由度を有する視点追跡型３次元表示方式が３次元ＨＵＤ装置に適用されることができる。

以下の実施形態の目的は、目復元に基づく目追跡方法及び装置を提供することにある。

一実施形態によれば、目追跡方法は、入力映像に関する目復元を行って復元映像を生成するステップと、前記入力映像と前記復元映像との間の差を決定するステップと、前記決定された差に基づいて前記入力映像、前記復元映像、及び代替映像のいずれか１つを対象映像として決定するステップと、前記対象映像に基づいて目追跡を行うステップとを含む。

前記目復元は、前記入力映像でノイズ成分を低減させることを含むことができる。前記復元映像を生成するステップは、前記入力映像に対応する主成分ベクトルのうち、高い順位を有する一部を用いて前記復元映像を生成することを含み、前記主成分ベクトルは、それぞれ様々な顔映像に関する主成分分析に基づいて所定の固有の顔に対応し得る。

前記対象映像を選定するステップは、前記決定された差が第１閾値よりも小さい場合、前記入力映像を前記対象映像として選定し、前記決定された差が第１閾値よりも大きく、第２閾値よりも小さい場合、前記復元映像を前記対象映像として選定するし、前記決定された差が前記第２閾値よりも大きい場合、前記代替映像を前記対象映像として選定することを含み、前記第２閾値は、前記第１閾値よりも大きいとすることができる。

前記代替映像は、前記入力映像及び前記復元映像とは別個のものであることができる。前記目追跡方法は、データベースに格納されたサンプル映像のうち、前記入力映像と類似度の最も高いサンプル映像を前記代替映像として選択するステップをさらに含むことができる。前記類似度は、前記入力映像の特徴点と前記サンプル映像の各サンプル映像の特徴点との間の比較に基づいて決定されることができる。前記入力映像の前記特徴点及び前記各サンプル映像の前記特徴点は、それぞれ目を除いた領域から抽出されたものであってもよい。前記サンプル映像は、過去に目追跡に成功した映像に該当することができる。前記目追跡方法は、前記入力映像又は前記復元映像に基づいて前記目追跡に成功した場合、前記入力映像をデータベースにサンプル映像として格納するステップをさらに含むことができる。

前記復元映像を生成するステップは、前記入力映像に関する目検出が成功した場合に行われることができる。前記代替映像が前記対象映像として選定された場合、前記目追跡を行うステップは、前記代替映像にマッピングされた目位置情報を用いて前記目追跡を行うことを含むことができる。

一実施形態によると、目追跡装置は、プロセッサと、前記プロセッサで実行可能な命令語を含むメモリとを含み、前記命令語が前記プロセッサで実行されるときに、前記プロセッサは、入力映像に関する目復元を行って復元映像を生成し、前記入力映像と前記復元映像との間の差を決定し、前記決定された差に基づいて前記入力映像、前記復元映像、及び代替映像のいずれか１つを対象映像として決定し、前記対象映像に基づいて目追跡を行う。

本発明によると、目復元に基づく目追跡方法及び装置を提供することができる。

一実施形態に係る入力映像、復元映像、及び代替映像を用いた目追跡装置の動作を示す図である。一実施形態に係る目検出過程及び目の追跡過程を示したフローチャートである。一実施形態に係る対象映像の決定及び目の追跡過程を示したフローチャートである。一実施形態に係る増強された外見空間を示す図である。一実施形態に係る目の復元過程を示す図である。一実施形態に係る差値が第２閾値よりも小さい場合の対象映像選定動作を示す図である。一実施形態に係る差値が第２閾値よりも大きい場合の対象映像選定動作を示す図である。一実施形態に係る入力映像とサンプル映像との間の特徴マッチング動作を示す図である。一実施形態に係るデータベースに格納されたサンプル映像を示す図である。一実施形態に係る目復元に基づく目追跡方法を示したフローチャートである。一実施形態に係る目復元に基づく目追跡装置を示すブロック図である。一実施形態に係る目追跡装置を含む電子装置を示す図である。

本明細書で開示されている特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示されたものであり、実施形態は様々な異なる形態で実施され、本明細書に説明された実施形態に限定されることはない。

第１又は第２などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に第２構成要素は第１構成要素にも命名することができる。

単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なるように定義されない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

以下、実施形態を添付する図面を参照しながら詳細に説明する。添付の図面を参照して説明することにおいて、図面符号に関係なく、同じ構成要素は同じ参照符号を付し、これに対する重複する説明は省略することにする。

図１は、一実施形態に係る入力映像、復元映像、及び代替映像を用いた目追跡装置の動作を示す図である。図１を参照すると、目追跡装置１００は、入力映像１１０に関する目追跡を行い、その結果として目位置情報を出力する。入力映像１１０は、ユーザ（例：視聴者、運転者）の顔を含み得る。目位置情報は、裸眼３次元ディスプレイ、運転者状態の監視などのような様々なアプリケーションに用いられる。裸眼３次元ディスプレイは、３次元ＨＵＤ（ｈｅａｄｕｐｄｉｓｐｌａｙ）、３ＤＴＶ、３次元モバイルデバイスなどの様々なタイプのディスプレイを含んでもよい。

裸眼３次元ディスプレイは、ユーザの両目に互いに異なる映像を見せる方式であるが、これを実現するために、ユーザの両目位置の情報が求められる。例えば、３次元映像を提供するために、左目のための左側映像及び右目のための右側映像が提供される。この場合、３次元ディスプレイ装置は、目位置情報を介してユーザの両目の位置を把握し、左目の位置に左側映像を提供し、右目の位置に右側映像を提供することができる。このような方式により、ユーザは３次元映像を視聴することが可能になる。

適切な光が存在してユーザの目が全てあらわれた状態でユーザを撮影し、入力映像１１０が生成された場合、ユーザの目は比較的容易に追跡されることができる。一方、光が十分に存在していないか、サングラスなどでユーザの目が隠されており、ユーザの目の周辺に光反射成分が存在する状態で、ユーザを撮影して入力映像１１０が生成された場合、ユーザの目を追跡することが困難になる。目追跡装置１００は、状況に合うように入力映像１１０、復元映像１２１、及び代替映像１３１を任意に用いて、このような劣悪な環境でも目追跡を成功的に行うことができる。

入力映像１１０は、複数のフレームを含むビデオであってもよい。入力映像１１１は、入力映像１１０の１つのフレームに該当する。以下で説明される目の追跡過程は、入力映像１１０の各フレームについて順次に行われる。

入力映像１１１が受信されると、目追跡装置１００は、入力映像１１１に関する目復元（ｅｙｅｒｅｃｏｎｓｔｒｕｃｔｉｏｎ）を行って復元映像１２１を生成する。目復元は、入力映像１１１でノイズ成分を低減させる様々な方式を含んでもよい。例えば、ノイズ成分は、高周波成分（例えば、メガネに反射された光、後光など）及び遮断成分（例えば、サングラス、厚いメガネ、髪の毛など）などを含み得る。目復元のために、主成分分析（ｐｒｉｎｃｉｐａｌｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ：ＰＣＡ）を通した次元削減が用いられてもよい。目復元の具体的な例示については後で詳細に説明する。

復元映像１２１が生成されると、目追跡装置１００は、入力映像１１１と復元映像１２１とを比較して、入力映像１１１と復元映像１２１との間の差を決定する。以下、その決定された差は差値として称する。例えば、目追跡装置１００は、入力映像１１１と復元映像１２１の対応ピクセルを互いに比較し、入力映像１１１と復元映像１２１との間の差を決定する。対応ピクセルとは、各映像で同じ位置に存在するピクセルを意味する。

目追跡装置１００は、差値に基づいて入力映像１１１、復元映像１２１、及び代替映像１３１のいずれか１つを選定して対象映像を決定する。対象映像は、目追跡の対象となる映像を意味し、入力映像１１１、復元映像１２１、及び代替映像１３１のいずれか１つに該当する。例えば、差値が第１閾値よりも小さい場合、入力映像１１１が対象映像に選定されてもよく、差値が第１閾値よりも大きく、第２閾値よりも小さい場合、復元映像１２１が対象映像に選定されてもよく、差値が第２閾値よりも大きい場合、代替映像１３１が対象映像に選定されてもよい。第２閾値は、第１閾値よりも大きいものと仮定する。

代替映像１３１は、入力映像１１１と復元映像１２１とは別個のものであって、サンプル映像１３０から選択されたものとし得る。サンプル映像１３０は、目追跡に適切な状態の様々な映像を含んでもよく、サンプル映像１３０のうち、入力映像１１１と類似度の最も高いものが代替映像１３１として選択されることができる。例えば、入力映像１１１の特徴点とサンプル映像１３０の各サンプル映像の特徴点との間の比較に基づいて、入力映像１１１と各サンプル映像との間の類似度が決定されてもよい。

目追跡装置１００は、類似度と閾値を比較して入力映像１１１、復元映像１２１及び、代替映像１３１のうち目追跡に最も適切ないずれか１つを選定することができる。例えば、入力映像１１１が目追跡に適切な状態に該当する場合、入力映像１１１と復元映像１２１との間に小さい差（例えば、第１閾値よりも小さい差）しか存在しないため、入力映像１１１が対象映像として選定され得る。

又は、入力映像１１１に光反射のようなノイズ成分が存在する場合、入力映像１１１よりも復元映像１２１が目追跡にもっと適合している。この場合、目復元を介して該当ノイズ成分が除去され、ノイズ成分の有無に応じて、入力映像１１１と復元映像１２１との間に差（例えば、第１閾値よりも大きく第２閾値よりも小さい差）が発生する可能性がある。そのため、復元映像１２１が対象映像として選定され得る。

又は、ユーザがサングラスをしている場合のように、入力映像１１１に多くのノイズ成分が存在する場合、入力映像１１１及び復元映像１２１よりも代替映像１３１が目追跡にさらに適合している。この場合、目の復元過程において、入力映像１１１と復元映像１２１との間に大きい差（例えば、第２閾値よりも大きい差）が発生する可能性があり、そのため、代替映像１３１が対象映像として選定され得る。

入力映像１１１を構成している成分のうち、目追跡に妨害となる成分は、目の復元過程から取り除かれる。例えば、目の復元過程において、一般的な顔に対応する成分は保持され、一般的な顔に該当しない成分は取り除かれる。入力映像１１１において、目の復元過程で除去された成分の比率に応じて、入力映像１１１、復元映像１２１、及び代替映像１３１のいずれか１つが選択される。例えば、高周波成分の場合、除去された成分の比率が小さくなり得るため、復元映像１２１が対象映像として選択され、遮断成分の場合、除去された成分の比率が大きくなり得るため、代替映像１３１が対象映像として選択され得る。

対象映像が選択されると、目追跡装置１００は、対象映像について目追跡を行って目位置情報を生成する。目追跡装置１００は、複数のフレームを順次に受信し、各フレームから目を追跡する。目位置情報は、各フレームに存在する目の位置を含んでもよい。例えば、目の位置は、映像内の目の座標のように表現される。

図２は、一実施形態に係る目検出過程及び目の追跡過程を示したフローチャートである。図２を参照すると、入力映像の第１フレームが受信されると、目追跡装置は、ステップＳ２１０において、入力映像の第１フレームに関する目検出を行う。目追跡装置は、目検出過程を介してユーザの目を含んでいる目検出領域を決定する。ステップＳ２２０において、目追跡装置は、目検出に成功したか否かを決定する。目検出に失敗した場合、入力映像の第２フレームについてステップＳ２１０が行われ、目検出に成功した場合、ステップＳ２３０が行われる。言い換えれば、目検出に成功するまで、各フレームに関しステップＳ２１０、Ｓ２２０が繰り返される。

ステップＳ２３０において、目追跡装置は、入力映像の第１フレームについて目復元を行う。目復元の後に入力映像の第１フレームに対応する復元映像及び代替映像が生成され、入力映像の第１フレーム、復元映像、及び代替映像のいずれか１つが対象映像として選択される。ステップＳ２４０において、目追跡装置は、対象映像に関する目追跡を行う。目追跡装置は、目検出領域に基づいて目追跡のための目追跡領域を決定する。目追跡装置は、目追跡領域内で特徴点を抽出し、抽出された特徴点を整列（ａｌｉｇｎ）して目追跡を行うことができる。

ステップＳ２５０において、目追跡装置は、目追跡に成功したか否かを決定する。目追跡領域内にユーザの目が存在する場合、目追跡に成功したものと決定し、目追跡領域内にユーザの目が存在しない場合、目追跡に失敗したものと決定する。目追跡に成功した場合、目追跡装置は、目追跡領域をアップデートして、入力映像の第２領域についてステップＳ２３０を行う。例えば、目追跡装置は、目の位置に合わせて目追跡領域の位置を調整することができる。一例として、目追跡装置は、２つの目の中心が目追跡領域の中間に位置するように目追跡領域の位置を調整する。目追跡装置は、入力映像の第２フレームに対応する対象映像を決定し、対象映像及びアップデートされた目追跡領域を用いて目追跡を継続することができる。

図３は、一実施形態に係る対象映像の決定及び目の追跡過程を示したフローチャートである。図３に示すステップＳ３１０〜Ｓ３９０は、図２に示す点線ボックスのように表示されたステップＳ２３０、Ｓ２４０に対応し、図２に示すステップＳ２２０で目検出に成功したものと決定されることにより、ステップＳ３１０が行われる。

図３を参照すると、ステップＳ３１０において、目追跡装置は、目復元を行って復元映像を生成する。目復元は、入力映像でノイズ成分を低減する様々な方式が含まれている。例えば、目復元のために、ＰＣＡを通した次元削減が適用される。これは図４及び図５を参照してより詳細に説明する。

図４は、一実施形態に係る増強された外見空間を示す図である。様々な参照の顔映像についてＰＣＡを行って主成分ベクトルが取得される。主成分ベクトルの次元数は、各映像のデータ（例えば、ピクセル）の次元数と同一であってもよい。この場合、支配的な顔成分から例外的な顔成分に達する主成分ベクトルが取得され得る。参照の顔映像から、支配的な顔の形を含んでいる映像の比率が高くてもよい。この場合、支配的な顔成分は標準的な顔に該当し、例外的な顔成分はノイズに該当する。主成分ベクトルはそれぞれ互いに直交するため、全ての入力映像内の顔映像は、主成分ベクトルを介して表現されることができる。

主成分ベクトルは再び顔映像として解釈され、解釈された顔映像は、固有の顔（ｅｉｇｅｎｆａｃｅ）と称される。言い換えれば、様々な顔映像に関するＰＣＡに基づいて固有の顔が決定されることができ、主成分ベクトルはそれぞれ固有の顔に対応する。入力映像内の顔映像は、固有の顔を用いて増強された外見空間（ａｕｇｍｅｎｔｅｄａｐｐｅａｒａｎｃｅｓｐａｃｅ）のように表現される。

図４を参照すると、顔映像Ａはλ_ｉＡ_ｉの合計のように表現される。Ａ_ｉは主成分ベクトルを示し、λ_ｉは主成分ベクトルの係数を意味する。λ_ｉは外見パラメータと称されてもよい。λ_ｉは顔映像ＡでＡ_ｉが占めている比率を意味する。各λ_ｉＡ_ｉの値により、図４に示すような顔映像が表現される。インデックスｉは１〜ｎの値を有する。Ａ_ｉは_ｉの値が小さいほど、標準に近い成分であることを意味し、ｉの値が大きいほどノイズに近い成分であることを意味する。

図５は、一実施形態に係る目の復元過程を示す図である。図５を参照すると、入力映像Ｉはλ_０Ａ_０〜λ_ｎＡ_ｎの合計のように表現され、復元映像Ｉ‘はλ_０Ａ_０〜λ_ｍＡ_ｍの合計に表現される。ｎはｍよりも大きいとすることができ、目復元により次元が減少したものと見ることができる。また、入力映像Ｉにおいて、インデックスの値が大きい成分（ノイズに近い成分）が除去されるため、入力映像Ｉから高周波成分や遮断成分のようなノイズ成分が取り除かれる。入力映像Ｉにおいて、λ_ｍ＋１Ｉ_ｍ＋１〜λ_ｎＡ_ｎは、除去された成分又はノイズ成分と称される。インデックス値が小さいほど、主成分ベクトルの優先順位が高いものと表現される。この場合、目追跡装置は、入力映像に対応する主成分ベクトルＡ_０〜Ａ_ｎのうち、高い順位を有する一部Ａ_０〜Ａ_ｍを用いて復元映像を生成することができる。

再び図３を参照すると、ステップＳ３２０において、目追跡装置は、入力映像と復元映像と間の差を決定する。例えば、目追跡装置は、入力映像と復元映像の対応ピクセルを互いに比較して差値を決定する。目の復元過程で除去された各ノイズ成分の係数が大きいほど、入力映像にノイズが多いと解釈され、また、入力映像と復元映像との間の差が大きく決定される。従って、復元映像や代替映像が対象映像として活用される可能性が高くなる。

一実施形態によれば、差値は、目領域を基準にして決定されてもよい。言い換えれば、目追跡装置は、入力映像の目領域及び復元映像の目領域の対応ピクセルを互いに比較して差値を決定する。目復元により、映像全体に発生する変化を比較することよりも、目領域に発生する変化を比較することが復元映像や代替映像の活用に効果的であるためである。

例えば、ユーザがマスクをした場合、目追跡が可能であるが、ユーザがサングラスをした場合、目追跡が困難になる。従って、マスクをした場合でないサングラスをした場合を検出し、この場合に復元映像や代替映像を使用する必要性が高い。この場合、目領域は目検出領域又は目追跡領域に基づいて決定される。

ステップＳ３３０において、目追跡装置は、差値と第１閾値を比較する。差値が第１閾値よりも小さい場合、目追跡装置は、ステップＳ３４０において、入力映像を対象映像として決定する。差値が第１閾値よりも大きい場合、目追跡装置は、ステップＳ３５０において、差値と第２閾値とを比較する。差値が第２閾値よりも小さい場合、目追跡装置は、ステップＳ３６０において、復元映像を対象映像として決定する。差値が第２閾値よりも大きい場合、目追跡装置は、ステップＳ３７０において、サンプル映像のうち代替映像を選択し、ステップＳ３８０において、代替映像を対象映像として決定する。ステップＳ３９０において、目追跡装置は、対象映像から目追跡を行う。

図６は、一実施形態に係る差値が第２閾値よりも小さい場合の対象映像選定動作を示す図である。図６を参照すると、入力映像６１０に関する目復元により復元映像６２０が生成される。目復元により入力映像６１０でメガネの光反射を含んでいる高周波成分が除去され、復元映像６２０は、入力映像６１０に比べてスムーズ（ｓｍｏｏｔｈ）に表現される。

目復元の後、入力映像６１０と復元映像６２０との間の差値が決定される。差値が第１閾値よりも小さい場合に入力映像６１０が対象映像として決定され、差値が第１閾値よりも大きくて第２閾値よりも小さい場合、復元映像６２０が対象映像として決定される。例えば、入力映像６１０に含まれている高周波成分が除去されたため、復元映像６２０が対象映像として決定される。

図７は、一実施形態に係る差値が第２閾値よりも大きい場合の対象映像選定動作を示す図である。図７を参照すると、入力映像７１０に関する目復元により復元映像７２０が生成される。目復元により、入力映像７１０からサングラスの光反射を含んでいる高周波成分及びサングラスを含む遮断成分が除去され、復元映像７２０は、入力映像７１０に比べてスムーズに表現される。

目復元の後に入力映像７１０と復元映像７２０との間の差値が決定される。差値が第１閾値よりも小さい場合、入力映像７１０が対象映像として決定され、差値が第１閾値よりも大きくて第２閾値よりも小さい場合、復元映像７２０が対象映像として決定され、差値が第２閾値よりも大きい場合、代替映像７４０が生成される。例えば、入力映像７１０に含まれている遮断成分及び高周波成分が除去されたため、差値が第２閾値よりも大きく決定される。

この場合、入力映像７１０とサンプル映像７３０の各サンプル映像との間の特徴マッチングが行われ、サンプル映像７３０のうち、入力映像７１０に最も類似のサンプル映像が代替映像７４０として選択される。その後、代替映像７４０が対象映像として決定されて目追跡に使用され得る。サンプル映像７３０は、目追跡に容易な様々な顔映像を含んでもよい。例えば、サンプル映像７３０は、メガネが存在しない顔映像、メガネが存在するもののメガネ内の光反射がない映像などを含んでもよい。図７に示す実施形態において、メガネが存在するサンプル映像が、サングラスが存在する入力映像７１０に最も類似するものと決定され、そのため、該当サンプル映像が代替映像７４０として選択される。

図８は、一実施形態に係る入力映像とサンプル映像との間の特徴マッチング動作を示す図である。図８を参照すると、入力映像８１０の特徴点及びサンプル映像８２０の特徴点が比較され、そのため、入力映像８１０とサンプル映像８２０の類似度が決定される。入力映像の特徴点及びサンプル映像８２０の特徴点は、それぞれ目を除いた領域から抽出されてもよい。例えば、特徴点は、鼻、口、顔の輪郭などにより抽出されてもよい。代替映像は、目の位置にサングラスや他の遮断がある場合に使用される可能性が高い。従って、目を除いた領域から特徴点を抽出することが入力映像に類似の代替映像を取得し、代替映像から適切な視点を取得するために有利である。

図９は、一実施形態に係るデータベースに格納されたサンプル映像を示す図である。図９を参照すると、データベース９１０はサンプル映像９２１〜９２３を含む。データベース９１０は目追跡装置に存在してもよいし、目追跡装置とは別個の他の装置に存在してもよい。データベース９１０が他の装置に存在する場合、目追跡装置は、ネットワークを介してデータベース９１０にアクセスしてサンプル映像９２１〜９２３を用いることができる。サンプル映像９２１〜９２３は、それぞれ目追跡に適切な状態を有する。目追跡に適切な状態は、高周波成分や遮断成分が存在しない状態を含み得る。

サンプル映像９２１〜９２３は、過去に目追跡に成功した映像に該当する。ここで、過去は、現在のフレームに関する目追跡が行われる以前を意味する。例えば、目追跡装置の製造過程で目追跡に成功した映像のうち、代替映像に適切な映像がサンプル映像９２１〜９２３として選別されてもよい。又は、サンプル映像９２１〜９２３は、以前の入力映像の各フレームに関する目追跡が行われる過程、又は現在入力映像の以前フレームに関する目追跡が行われる過程で格納されたものであってもよい。一例として、現在のフレーム又は現在のフレームに対応する復元映像に基づいて目追跡に成功した場合、現在のフレームは、未来の代替映像として活用されるためにデータベース９１０へ格納される。

サンプル映像９２１〜９２３に目位置情報９３１〜９３３にマッピングされる。サンプル映像９２１〜９２３は、過去に目追跡に成功したものであるため、過去に目追跡に成功したときに、サンプル映像９２１〜９２３について目位置情報９３１〜９３３が確保される。従って、サンプル映像９２１〜９２３が代替映像として活用されるとき、サンプル映像９２１〜９２３で別途に目を追跡する代わり、あらかじめ確保されている目位置情報９３１〜９３３を使用することができる。例えば、入力映像の代替映像にサンプル映像９２１が選択されたと仮定すると、目追跡装置は、サンプル映像９２１から目を追跡して目位置情報を生成する代わりに、サンプル映像９２１にマッピングされた目位置情報９３１を直ちに出力することができる。

図１０は、一実施形態に係る目復元に基づく目追跡方法を示したフローチャートである。図１０を参照すると、目追跡装置は、ステップＳ１０１０において、入力映像に関する目復元を行って復元映像を生成し、ステップＳ１０２０において、入力映像と復元映像との間の差を決定し、ステップＳ１０３０において、決定された差に基づいて入力映像、復元映像、及び代替映像のいずれか１つを選定して対象映像を決定し、ステップＳ１０４０において、対象映像に基づいて目追跡を行う。その他に、図１〜図９を参照して説明された事項が図１０に示す目追跡方法に適用されてもよい。

図１１は、一実施形態に係る目復元に基づく目追跡装置を示すブロック図である。図１１を参照すると、目追跡装置１１００は、目追跡に関連して本明細書に説明されたり、又は示された１つ以上の動作を行うことができ、目位置情報を目追跡結果としてユーザに提供することができる。

目追跡装置１１００は、１つ以上のプロセッサ１１１０及びメモリ１１２０を含む。メモリ１１２０は、プロセッサ１１１０に接続され、プロセッサ１１１０によって実行可能な命令語、プロセッサ１１１０が演算するデータ又はプロセッサ１１１０によって処理されたデータを格納する。メモリ１１２０は、非一時的なコンピュータ読み出し可能記録媒体、例えば、高速ランダムアクセスメモリ及び／又は不揮発性コンピュータ読み出し可能記憶媒体（例えば、１つ以上のディスク記憶装置、フラッシュメモリ装置、又は、その他の不揮発性ソリッドステートメモリ装置）を含んでもよい。

プロセッサ１１１０は、図１〜図１０を参照して説明された１つ以上の動作を実行するための命令語を実行する。一実施形態によれば、メモリ１１２０に格納された命令語がプロセッサ１１１０で実行されるとき、プロセッサ１１１０は、入力映像に関する目復元を行って復元映像を生成し、入力映像と復元映像との間の差を決定し、決定された差に基づいて入力映像、復元映像、及び代替映像のいずれか１つを選定して対象映像を決定し、対象映像に基づいて目追跡を行うことができる。

図１２は、一実施形態に係る目追跡装置を含む電子装置を示す図である。図１２を参照すると、電子装置１２００は、図１〜図１１を参照して説明された目追跡装置を含むことができ、あるいは、図１〜図１２を参照して説明された目追跡装置の機能を行うことができる。

電子装置１２００は、プロセッサ１２１０、メモリ１２２０、カメラ１２３０、ストレージ装置１２４０、入力装置１２５０、出力装置１２６０、及びネットワークインターフェース１２７０を含んでいる。プロセッサ１２１０、メモリ１２２０、カメラ１２３０、ストレージ装置１２４０、入力装置１２５０、出力装置１２６０、及びネットワークインターフェース１２７０は、通信バス１２８０を介して通信する。例えば、電子装置１２００は、スマートフォン、タブレットＰＣ、ノート型パソコン、デスクトップＰＣ、ウェアラブルデバイス、スマート家電機器、スマートスピーカ、スマートカーなどを含んでもよい。一例として、電子装置１２００は、車両に搭載されて３次元ＨＵＤのための機能を提供することができる。

プロセッサ１２１０は、電子装置１２００内で実行するための機能及び命令語を実行する。例えば、プロセッサ１２１０は、メモリ１２２０又はストレージ装置１２４０に格納された命令語を処理する。プロセッサ１２１０は、図１〜図１１を参照して説明された１つ以上の動作を行うことができる。

メモリ１２２０は、ニューラルネットワークの動作を処理するための情報を格納する。メモリ１２２０は、コンピュータ読み出し可能記憶媒体又はコンピュータ読み出し可能記憶装置を含んでもよい。メモリ１２２０は、プロセッサ１２１０によって実行するための命令語を格納し、電子装置１２００によってソフトウェア又はアプリケーションが行われる間に関連情報を格納する。

カメラ１２３０は、静止画、ビデオ映像、又は、これら両方を撮影する。カメラ１２３０は、目追跡のためにユーザの顔を撮影し、入力映像を生成する。カメラ１２３０は、オブジェクトに関する深度情報を含む３次元映像を提供することもできる。

ストレージ装置１２４０は、コンピュータ読み出し可能記憶媒体又はコンピュータで読み出し可能記憶装置を含む。一実施形態によれば、ストレージ装置１２４０は、メモリ１２２０よりもさらに多くの量の情報を格納し、情報を長期間保存することができる。例えば、ストレージ装置１２４０は、磁気ハードディスク、光ディスク、フラッシュメモリ、フロッピー（登録商標）ディスク又はこの技術分野で知られた他の形態の不揮発性メモリを含んでもよい。ストレージ装置１２４０は、図９に示すデータベース９１０を含んでもよい。

入力装置１２５０は、キーボード及びマウスを通した伝統的な入力方式、及びタッチ入力、音声入力、及びイメージ入力のような新しい入力方式を介してユーザから入力を受信する。例えば、入力装置１２５０は、キーボード、マウス、タッチスクリーン、マイクロホン、又は、ユーザから入力を検出し、検出された入力を電子装置１２００に伝達できる任意の他の装置を含んでもよい。入力装置１２５０を介してユーザの指紋、紅彩、発話、音声、及びオーディオなどのデータが入力される。

出力装置１２６０は、視覚的、聴覚的又は触覚的なチャネルを介してユーザにユーザデバイス１２００の出力を提供する。出力装置１２６０は、例えば、ディスプレイ、タッチスクリーン、スピーカ、振動発生装置又はユーザに出力を提供できる任意の他の装置を含んでもよい。一例として、出力装置１２６０は、３次元ＨＵＤの実現のためのディスプレイパネル、３次元光学レイヤ（パララックスバリア、レンチキュラレンズ、方向性バックライトなど）、光学システム（鏡、レンズなど）などを含んでもよい。ネットワークインターフェース１２７０は、有線又は無線ネットワークを介して外部装置と通信する。

以上述した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

１００、１１００目追跡装置
１１１、６１０、７１０、８１０入力映像
１２１、６２０、７２０復元映像
１３０、７３０、８２０サンプル映像
１３１、７４０代替映像
９１０データベース
９２１−９２３サンプル映像
９３１−９３３目位置情報
１１１０、１２１０プロセッサ
１１２０、１２２０メモリ
１２００電子装置
１２３０カメラ

Claims

入力映像に関する目復元を行って復元映像を生成するステップと、
前記入力映像と前記復元映像との間の差を決定するステップと、
前記決定された差に基づいて前記入力映像、前記復元映像、及び代替映像のいずれか１つを対象映像として決定するステップと、
前記対象映像に基づいて目追跡を行うステップと、
を含む目追跡方法。
前記目復元は、前記入力映像でノイズ成分を低減する、請求項１に記載の目追跡方法。
前記復元映像を生成するステップは、前記入力映像に対応する主成分ベクトルのうち、高い順位を有する一部を用いて前記復元映像を生成することを含み、
前記主成分ベクトルは、それぞれ様々な顔映像に関する主成分分析に基づいた所定の固有の顔に対応する、請求項１又は２に記載の目追跡方法。
前記対象映像を選定するステップは、
前記決定された差が第１閾値よりも小さい場合、前記入力映像を前記対象映像として選定し、
前記決定された差が第１閾値よりも大きく、第２閾値よりも小さい場合、前記復元映像を前記対象映像として選定し、
前記決定された差が前記第２閾値よりも大きい場合、前記代替映像を前記対象映像として選定する、
ことを含み、
前記第２閾値は、前記第１閾値よりも大きい、請求項１乃至３のいずれか一項に記載の目追跡方法。
前記代替映像は、前記入力映像及び前記復元映像とは別個のものである、請求項１に記載の目追跡方法。
データベースに格納されたサンプル映像のうち、前記入力映像と類似度の最も高いサンプル映像を前記代替映像として選択するステップをさらに含む、請求項１に記載の目追跡方法。
前記類似度は、前記入力映像の特徴点と前記サンプル映像の各サンプル映像の特徴点との間の比較に基づいて決定される、請求項６に記載の目追跡方法。
前記入力映像の前記特徴点及び前記各サンプル映像の前記特徴点は、それぞれ目を除いた領域から抽出されたものである、請求項７に記載の目追跡方法。
前記サンプル映像は、過去に目追跡に成功した映像に該当する、請求項６に記載の目追跡方法。
前記入力映像又は前記復元映像に基づいて前記目追跡に成功した場合、前記入力映像をデータベースにサンプル映像として格納するステップをさらに含む、請求項１に記載の目追跡方法。
前記復元映像を生成するステップは、前記入力映像に関する目検出が成功した場合に行われる、請求項１に記載の目追跡方法。
前記代替映像が前記対象映像として選定された場合、前記目追跡を行うステップは、前記代替映像にマッピングされた目位置情報を用いて前記目追跡を行うことを含む、請求項１に記載の目追跡方法。
請求項１乃至１２のいずれか一項に記載の方法を実行する命令語を含む１つ以上のプログラムを格納したコンピュータ読み出し可能記憶媒体。
プロセッサと、
前記プロセッサで実行可能な命令語を含むメモリと、
ユーザを撮影して入力映像を生成するカメラと、
を含み、
前記命令語が前記プロセッサで実行されるときに、前記プロセッサは、前記入力映像に関する目復元を行って復元映像を生成し、前記入力映像と前記復元映像との間の差を決定し、前記決定された差に基づいて前記入力映像、前記復元映像、及び代替映像のいずれか１つを対象映像として決定し、前記対象映像に基づいて目追跡を行う、
電子装置。
プロセッサと、
前記プロセッサで実行可能な命令語を含むメモリと、
を含み、
前記命令語が前記プロセッサで実行されるときに、前記プロセッサは、入力映像に関する目復元を行って復元映像を生成し、前記入力映像と前記復元映像との間の差を決定し、前記決定された差に基づいて前記入力映像、前記復元映像、及び代替映像のいずれか１つを対象映像として決定し、前記対象映像に基づいて目追跡を行う、目追跡装置。
前記プロセッサは、前記入力映像に対応する主成分ベクトルのうち高い順位を有する一部を用いて前記復元映像を生成し、
前記主成分ベクトルは、それぞれ様々な顔映像に関する主成分分析に基づいた所定の固有の顔に対応する、請求項１５に記載の目追跡装置。
前記プロセッサは、
前記決定された差が第１閾値よりも小さい場合、前記入力映像を前記対象映像として選定し、
前記決定された差が第１閾値よりも大きく、第２閾値よりも小さい場合、前記復元映像を前記対象映像として選定し、
前記決定された差が前記第２閾値よりも大きい場合、前記代替映像を前記対象映像として選定し、
前記第２閾値は前記第１閾値よりも大きい、請求項１５に記載の目追跡装置。
前記プロセッサは、データベースに格納されたサンプル映像のうち、前記入力映像と類似度の最も高いサンプル映像を前記代替映像として選択する、請求項１５に記載の目追跡装置。
前記類似度は、前記入力映像の特徴点と前記サンプル映像の各サンプル映像の特徴点との間の比較に基づいて決定され、
前記入力映像の前記特徴点及び前記各サンプル映像の前記特徴点は、それぞれ目を除いた領域から抽出されたものである、請求項１８に記載の目追跡装置。
前記代替映像が前記対象映像として選定された場合、
前記目追跡を行うステップは、前記代替映像にマッピングされた目位置情報を用いて前記目追跡を行うことを含む、請求項１５に記載の目追跡装置。