JP2023082675A

JP2023082675A - 視線を推定する装置及び方法

Info

Publication number: JP2023082675A
Application number: JP2022188139A
Authority: JP
Inventors: リウエイミン; Weiming Li; ワンチアン; Qiang Wang; 現盛張; Hyun-Sung Chang; 知▲よん▼ 金; Jiyeon Kim; 性勳洪; Sung-Hoon Hong; マリン; Ma Ling
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-12-02
Filing date: 2022-11-25
Publication date: 2023-06-14
Also published as: US20230176649A1; EP4191545A1

Abstract

【課題】視線を推定する電子装置及び方法を開示する。【解決手段】電子装置によって行われる方法は、目の含まれているイメージのターゲット情報を取得する動作と、ターゲット情報に基づいてイメージで目に関する情報を表現するターゲット特徴マップを取得する動作と、ターゲット特徴マップに基づいてイメージ内の目に対する視線推定を行う動作と、を含む。ターゲット情報は、イメージに対するアテンション情報及びイメージ内のピクセル間の距離のいずれか１つ又は２以上を含む。【選択図】図２

Description

本発明は、視線を推定する装置及び方法に関する。

視線推定を介してユーザの目が注目している情報（例えば、ユーザの視覚的な注目又は焦点が向かっている箇所）が決定される。視線推定方法は、拡張現実、ヒト－コンピュータにおける相互作用のような様々な分野で広範囲な応用に活用されている。視線推定の正確度を向上するための様々な研究が進められている。

本発明は、視線推定を介してユーザの視線を高い正確度で推定するため求められている、多くの演算量及び長い演算時間を解決する。

本文書に開示される様々な実施形態に従って、ツーステップトランスフォーマーを用いて時空間関係を示す視線推定装置及び方法が提供される。

一実施形態に係る電子装置によって行われる方法は、目の含まれているイメージのターゲット情報を取得する動作と、前記ターゲット情報に基づいて前記イメージで前記目に関する情報を表現するターゲット特徴マップを取得する動作と、前記ターゲット特徴マップに基づいて前記イメージ内の前記目に対する視線推定を行う動作とを含み、前記ターゲット情報は、前記イメージに対するアテンション情報と前記イメージ内のピクセルとの間の距離のいずれか１つ又は２以上を含む。

前記アテンション情報は、少なくとも２つのフレームのイメージ間の時間関係情報を含み、前記ターゲット特徴マップを取得する動作は、前記少なくとも２つのフレームのイメージの第１特徴マップと前記少なくとも２つのフレームのイメージとの間の時間関係情報に基づいて、前記イメージのターゲット特徴マップを取得することができる。

前記アテンション情報は、前記顔又は頭の顔の正面特徴を含み、前記ターゲット特徴マップを取得する動作は、前記イメージの特定部分の第２特徴マップ及び前記顔の正面特徴に基づいて、前記ターゲット特徴マップを取得し、前記特定部分は、前記顔又は頭の目、口、鼻、耳、及び眉毛部分のうち１つ又は２以上を含むことができる。

前記アテンション情報は、少なくとも２つのフレームのイメージ間の時間関係情報及び前記顔又は頭の顔の正面特徴を含み、前記ターゲット特徴マップを取得する動作は、前記顔の正面特徴及び前記イメージの部分の第２特徴マップに基づいて前記イメージの第３特徴マップを取得し、前記少なくとも２つのフレームのイメージの第３特徴マップと前記少なくとも２つのフレームのイメージとの間の時間関係情報に基づいて前記ターゲット特徴マップを取得することができる。

前記顔の正面特徴は、前記イメージの顔マップ及び顔マスクを取得する動作と、前記イメージ、前記顔マップ、及び前記顔マスクに基づいて第１正面イメージを取得する動作と、前記第１正面イメージに基づいて前記顔の正面特徴を取得する動作と、に基づいて決定され、前記顔マップは、前記イメージで前記顔の各ピクセルのオフセットを含み、前記顔マスクは、前記イメージで顔以外の領域を遮ることができる。

前記第１正面イメージを取得する動作は、前記イメージ、前記顔マップ、及び前記顔マスクに基づいて顔データの領域を含む第２正面イメージを取得し（前記顔データの領域は、顔データのないホール領域を囲む）、前記第２正面イメージに基づいて前記第２正面イメージのホールマスク及び第３正面イメージを取得し、前記第２正面イメージ、前記ホールマスク、及び前記第３正面イメージに基づいて前記第１正面イメージを取得し、前記ホールマスクは、前記第２正面イメージでホール領域以外のイメージ領域を遮り、前記第３正面イメージは、前記第２正面イメージでホール領域の位置に対応するイメージ領域を含むことができる。

前記ターゲット情報は、ピクセル間の距離を含み、前記ターゲット特徴マップを取得する動作は、前記イメージの第４特徴マップ及び前記ピクセル間の相対距離情報に基づいて前記ターゲット特徴マップを取得することができる。

前記ターゲット情報は、加重値情報を含み、前記ターゲット情報を取得する動作は、前記イメージの第５特徴マップに基づいて、前記イメージの第１加重値マップを取得し、前記ターゲット特徴マップを取得する動作は、前記第１加重値マップ及び前記第５特徴マップに基づいて前記ターゲット特徴マップを取得することができる。

前記アテンション情報は、加重値情報を含み、前記ターゲット情報を取得する動作は、前記イメージのうち目の位置に基づいて、第２加重値マップを取得し、前記ターゲット特徴マップを取得する動作は、前記第２加重値マップ及び前記イメージの第６特徴マップに基づいて、前記ターゲット特徴マップを取得し、前記第６特徴マップは、少なくとも２つの畳み込みレイヤを介して、前記イメージから特徴を抽出して取得されることができる。

前記ターゲット特徴マップを取得する動作は、前記第２加重値マップ及び中間特徴マップに基づいて、第７特徴マップを取得し、前記第６特徴マップ及び前記第７特徴マップに基づいて、前記ターゲット特徴マップを取得し、前記中間特徴マップは、前記少なくとも２つの畳み込みレイヤのうちターゲットレイヤによって出力された特徴マップであってもよい。

前記視線推定を行う動作は、前記ターゲット特徴マップ及びターゲット姿勢情報に基づいて、前記イメージに対して視線推定を行い、前記ターゲット姿勢情報は、前記イメージのうちターゲット部分の姿勢情報であってもよい。

一実施形態に係る電子装置は、プロセッサと、前記プロセッサによって実行可能な命令語を含むメモリとを含み、前記命令語が前記プロセッサで実行されれば、前記プロセッサは、目の含まれているイメージのターゲット情報を取得し、前記ターゲット情報に基づいて前記イメージ内の前記目に関する情報を表現するターゲット特徴マップを取得し、前記ターゲット特徴マップに基づいて前記イメージに含まれている前記目に対する視線推定を行い、前記ターゲット情報は、前記イメージに対するアテンション情報と前記イメージ内のピクセルとの間の距離のいずれか１つ又は２以上を含む。

様々な実施形態によれば、連続しているフレームイメージに対する特徴マップに加重値マップを乗算して特徴マップを形成し、形成された特徴マップに基づいて正面の顔をＧＡＮを用いて推定し、推定された正面の顔を用いて視線を推定することで、相対的に低い演算量でも高い推定正確度を取得することができる。

一実施形態に係る視線を推定する電子装置の動作環境を説明するための図である。一実施形態に係る電子装置の動作方法を示すフローチャートである。一実施形態に係るイメージ内のホールを充填する過程を説明するための図である。一実施形態に係るピクセル間の距離を説明するための図である。一実施形態に係るターゲット特徴マップの取得過程を説明するための図である。一実施形態に係る視線推定過程を説明するための図である。一実施形態に係る空間関係を抽出するように構成された空間トランスフォーマーネットワークを説明するための図である。一実施形態に係る視線推定する例を示す図である。一実施形態に係るターゲット特徴マップの取得過程を説明するための図である。一実施形態に係る視線推定動作を説明するための図である。一実施形態に係る電子装置を示す図である。

実施形態に対する特定な構造的又は機能的な説明は、単なる例示のための目的として開示されたものであって、様々な形態に変更されることができる。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物、ないし代替物を含む。

本出願において、「Ａ又はＢ」、「Ａ及びＢのうち少なくとも１つ」、「Ａ又はＢのうち少なくとも１つ」、「Ａ、Ｂ又はＣ」、「Ａ、Ｂ及びＣのうち少なくとも１つ」、及び「Ａ、Ｂ、又は、Ｃのうち少なくとも１つ」のような文句のそれぞれは、その文句のうち該当する文句に共に羅列された項目のいずれか１つ、又は、それらの全ての可能な組み合せを含む。第１又は第２などの用語を様々な構成要素を説明するために用いることがあるが、このような用語は、１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は、第２構成要素と命名することができ、同様に、第２構成要素は、第１構成要素にも命名することができる。

いずれかの構成要素が他の構成要素に「連結」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。

単数の表現は、文脈上、明白に異なる意味をもたない限り、複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

いずれかの実施形態に含まれる構成要素と、共同的な機能を含む構成要素は、他の実施形態において同じ名称を用いて説明することにする。いずれかの実施形態に記載した説明は、他の実施形態にも適用でき、重複する範囲で具体的な説明は省略することにする。

異なるように定義がなされない限り、技術的又は科学的な用語を含んで、ここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されなければならず、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

以下、添付する図面を参照しながら実施形態を詳細に説明する。添付図面を参照して説明することにおいて、図面符号に関わらず同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。

本明細書で説明する視線推定方法は、人工知能技術、マシンラーニング及びコンピュータビジョン技術などを活用することができる。例えば、人工知能技術を用いてイメージから目の視線方向を認知し、推定することができる。例えば、コンピュータビジョン技術のうちイメージ認識及びイメージ意味論的理解のような技術を用いて、イメージから抽出された特徴に基づいて視線推定が行われることができる。マシンラーニング／ディープラーニングのような技術で視線推定過程に対して強化学習が行われ、例えば、人工知能モデルを用いて大量のイメージに対する視線推定が行われる。ＡＩモデル（ａｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅｍｏｄｅｌ）は、トレーニングを介して取得されてもよい。ここで、「トレーニングを介した取得」とは、トレーニングアルゴリズムを介して１つ以上のトレーニングデータで基本ＡＩモデルを訓練させ、所望する特徴（又は、目的）を行うように予め定義された動作規則又はＡＩモデルを取得することを意味する。ＡＩモデルには、複数の神経網レイヤが含まれてもよい。複数の神経網レイヤそれぞれは、複数の加重値を含み、神経網演算は、以前レイヤの算出結果と複数の加重値との間の演算に基づいて行われることができる。

人工知能（ａｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）方法及び／又はシステムは、環境を検出し、情報から学習し、学習された情報を用いて最適化された結果を取得するなどの作業を行う。ＡＩモデル及びアルゴリズムは、様々な知能型機器の設計原理及び実現方式によって、機器に検出、推理、及び決定機能を付与することができる。

ＡＩ技術は、センサ、専用ＡＩチップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理技術、動作／相互作用システム、及び電気機械的な統合といった、広範な技術分野に適用されてもよい。また、ＡＩ技術には、コンピュータビジョン技術、音声処理技術、自然言語処理技術、及びマシンラーニング／ディープラーニングといった、様々な技術を包括してもよい。本明細書において、コンピュータビジョン技術、マシンラーニング／ディープラーニング等に関するものであり得る。

機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、ＭＬ）は、確率理論、統計学、近似理論、凸分析（ｃｏｎｖｅｘａｎａｌｙｓｉｓ）、及びアルゴリズム複雑度理論のような様々な分野を扱っている。ＭＬは、ＡＩの様々な分野で適用されている。ＭＬ及びディープラーニングは、一般に、人工ニューラルネットワーク、ビリーフ・ネットワーク（ｂｅｌｉｅｆｎｅｔｗｏｒｋ）、強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）、転移学習（ｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇ）、帰納学習（ｉｎｄｕｃｔｉｖｅｌｅａｒｎｉｎｇ）、教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）及び試演（ｄｅｍｏｎｓｔｒａｔｉｏｎ）からの学習のような技術を含んでもよい。

コンピュータビジョン技術（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、ＣＶ）は、マシンがイメージから情報を抽出する方法に関し、例えば、カメラとコンピュータを用いたマシンビジョンでターゲットを認識、追跡、又は測定し、グラフィック処理を行い、コンピュータ処理を介して機器を用いて検出するために適切なイメージを提供することができる。ＣＶ技術は、一般にイメージ処理、イメージ認識、イメージ意味論的理解、イメージ検索、ＯＣＲ（ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）、映像処理、映像意味論的理解、映像コンテンツ／行動認識、３次元オブジェクト再構成、３Ｄ技術、仮想現実、拡張現実、同期ポジショニング及びマップ構成、自律走行、スマート交通などのみならず、顔認識及び指紋認識のような、生物学的特徴認識技術も含み得る。

以下で、図１を参照して電子装置の動作環境に対して説明する。

図１は、一実施形態に係る視線を推定する電子装置の動作環境を説明するための図である。

図１を参照すると、動作環境は、１つ以上の電子装置１０１を含む。電子装置１０１は、今後説明する視線推定方法に基づいてイメージからユーザの視線を推定することで、イメージのうち目の視線情報を取得してもよい。

図１に示すように、該当動作環境には、他の電子装置１０２をさらに含んでもよい。他の電子装置１０２は、電子装置１０１にイメージを提供することができる。電子装置１０１と他の電子装置１０２は、通信（例えば、ネットワーク）に接続されている。一例として、他の電子装置１０２は、電子装置１０１にイメージを送信し、電子装置１０１は、他の電子装置１０２から送信されたイメージを受信し、該当イメージに対して視線推定を行うことができる。異なる一例として、他の電子装置１０２は端末であってもよく、端末は、イメージを含む視線推定要求を電子装置１０１に送信することができる。例えば、端末は、携帯電話端末、車両端末などを含んでもよい。更なる一例として、他の電子装置１０２は、モデルトレーニングに使用されるイメージを電子装置１０１に送信し、電子装置１０１は、他の電子装置１０２から送信されたイメージに基づいて視線推定に使用される予め設定されたモデルをトレーニングし、トレーニングされたモデルを用いてイメージに対する視線推定を行うことができる。

本明細書で説明する視線推定方法は、様々なシナリオに適用可能な３Ｄ視線推定であってもよい。例えば、ヒト－コンピュータ相互作用シナリオにおいて、電子装置１０１は、本明細書の視線推定方法を用いて特定のユーザが注目していることが何かを推論し、その目的をさらに理解して対応する行動を取ることもできる。例えば、拡張現実（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ、ＡＲ）の集まりの活動で、電子装置１０１は、本明細書の視線推定方法を使用し、どのような人が注目しているか、どのような人が挨拶するかを類推することができる。したがって、自ら握手をし、または、挨拶をすることができる。更なる例として、電子装置１０１は、補助運転で視線の方向を推定することによって、人の目が注目しているターゲットを把握することができ、それによって、対応する情報を提供することができる。

また、電子装置１０１は、データ処理機能を有するサーバ、サービスクラスタ、又は任意の電子機器であってもよい。サーバは、独立的な物理的サーバ、又は、様々な物理的サーバから構成されたサーバクラスタ又は分散システムであってもよく、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメインネームサービス、セキュリティーサービス、ＣＤＮ（ＣｏｎｔｅｎｔＤｅｌｉｖｅｒｙＮｅｔｗｏｒｋ）、ビッグデータ、及び人工知能プラットフォームのような基本クラウドコンピューティングサービスを提供するクラウドサーバ又はサーバクラスタであってもよい。前述したネットワークは、有線ネットワーク及び無線ネットワークを含み、有線ネットワークは、近距離通信網、都市圏通信網、及び広域通信網を含み、無線ネットワークは、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ（登録商標）、及び無線通信を実現するその他のネットワークを含むが、これらに限定されることはない。他の電子装置１０２は、端末やカメラとして使用されてもよく、スマートフォン（Ａｎｄｒｏｉｄフォン、ｉＯＳフォンなど）、タブレットＰＣ、ノート型パソコン、デジタル放送受信機、ＭＩＤ（ＭｏｂｉｌｅＩｎｔｅｒｎｅｔＤｅｖｉｃｅｓ）、ＰＤＡ、デスクトップＰＣ、車両端末（車両用ナビゲーション端末、車両用コンピュータなど）、スマートスピーカ、スマートウォッチなどであってもよいが、これらに限定されることはない。電子装置１０１とは異なる電子装置１０２は、有線又は無線通信を介して直接的又は間接的に接続されるが、これらに限定されることはない。具体的に、実際の応用シナリオの要求に応じて決定されてもよく、これに特に限定されない。数個の実施形態において、単一装置がイメージをキャプチャーして視線推定を行ってもよい。

以下、例示的な実施形態によって本明細書の実施形態の技術方案及びこれによる技術効果について説明する。次の実施形態は互いに参照し、または、結合してもよく、他の実施形態において、同一の用語、類似の特徴、及び類似の実現ステップに対する重複する説明は省略する。

図２は、一実施形態に係る電子装置の動作方法を示すフローチャートである。

以下、実施形態で各動作は、順次に行われてもよいが、必ず順次行われなくてもよい。例えば、各動作の順序が変更されてもよく、少なくとも２つの動作が並列的に行われてもよい。動作２０１～２０４は、電子装置の少なくとも１つの構成要素（例えば、プロセッサ、センサなど）によって行われてもよい。

ステップＳ２０１において、電子装置は、処理するイメージを取得する。

イメージは、目を含むイメージであってもよい。目は、任意のオブジェクトの目であってもよい。例えば、イメージは、ユーザの目のイメージ、アバターの目のイメージ（例えば、ユーザがゲームで使用している仮想ゲームキャラクター）、アニメーションキャラクターの目のイメージ、ペットの目のイメージなどを含むが、これらに限定されない。イメージは、顔又は顔の一部を含むイメージであってもよく、例えば、ユーザの顔イメージであってもよい。顔イメージに含まれているユーザの顔のうち、目の視線が推定されてもよい。もちろん、イメージは、１つ以上のオブジェクトの目又は１つ以上の顔を含んでもよく、本明細書の実施形態でイメージのうち目又は顔の個数は制限されない。イメージは、視線推定が行われる前にいつでもキャプチャーされ、例えば、格納装置、格納サービスなどで取得されてもよい。

イメージは、電子装置に予め格納されているイメージや、イメージ取得装置から取得したイメージであってもよい。第１シナリオにおいて、電子装置は、クライアントからイメージをリアルタイム取得し、イメージに対して視線推定を行い、視線推定結果を格納し、このような視線推定結果に基づいて後続過程を行うことができ、次のステップを行う他の装置又はクライアントで視線推定結果を再び送信してもよい。本明細書の実施形態において、イメージ取得方法及び視線推定結果を取得した後の過程については、具体的に制限されない。

ステップＳ２０２において、電子装置は、イメージのターゲット情報を取得する。

ターゲット情報は、アテンション情報（ａｔｔｅｎｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ）又はピクセル間の距離のうち少なくとも１つを含んでもよい。

一例として、アテンション情報は、顔の正面特徴を含んでもよい。異なる一例として、アテンション情報は、少なくとも２つのフレームのイメージ間の時間関係情報を含んでもよく、少なくとも２つのフレームのイメージは、先に説明したイメージ特徴を有してもよい。更なる一例として、アテンション情報は、少なくとも２つのフレームのイメージ間の時間関係情報及び顔の正面特徴を含んでもよい。本明細書において、２つのフレームのイメージは、２以上のフレームイメージを示す。

また、ターゲット情報は、ピクセル間の距離を含む。異なる一例として、ターゲット情報は、加重値情報を含んでもよい。前述した複数の可能状況に応じて、ステップＳ２０２、は次の６種類の方式で実現されることができる。

最初の方式として、アテンション情報は、顔の正面特徴を含むことができる。電子装置は、イメージ及びイメージの顔マップに基づいて、第１正面イメージを取得することができる。電子装置は、第１正面イメージに基づいて顔の正面特徴を取得することができる。

第１正面イメージは、イメージ内の顔の正面を含んでもよい。顔マップは、顔正面に対するイメージで顔の各ピクセルのオフセットを含んでもよい。電子装置は、顔マップに基づいてイメージで顔の各ピクセルをオフセットするで、第１正面イメージを取得することができる。

顔位置がオフセットされた後、ホール（ｈｏｌｅ）、輪郭線の脱落、ピクセルの脱落などが発生し得る。電子装置は、ホール、輪郭線の脱落、ピクセルの脱落など、オフセットされたイメージから脱落した部分をさらに充填し、全体の顔の正面イメージを取得することができる。電子装置が、イメージ及びイメージの顔マップに基づいて、第１正面イメージを取得する動作は、電子装置が、顔マップに基づいてイメージのうち顔の各ピクセルをオフセットして充填される位置を含む第２正面イメージを取得する動作、及び、電子装置が。第２正面イメージの省略されたり、脱落した部分を充填して第１正面イメージを取得する動作を含む。例示的に、省略されたり、脱落した部分を充填することは、第２正面イメージのうち充填される位置を補完し、全体の顔イメージを取得することを意味する。一例として、充填される位置は、ピクセルのオフセットによって発生したホール、輪郭線の脱落、ピクセルの脱落などを含むが、これらに限定されない。

一実施形態において、電子装置は、イメージの顔マスクを結合し、第１正面イメージを取得することができる。最初の方式において、ステップＳ２０２は、次のステップＳ２０２１Ａ～Ｓ２０２３Ａ（図示せず）を介して実現することができる。

ステップＳ２０２１Ａにおいて、電子装置は、イメージの顔マップ及び顔マスクを取得する。

顔マスクは、イメージから顔以外のイメージ領域を遮るために使用される。電子装置は、イメージに基づいて顔マップ及び顔マスクを取得する。電子装置は、イメージの第８特徴マップを取得し、イメージの第８特徴マップに基づいてイメージの顔マップ及び顔マスクを取得することができる。

一実施形態において、電子装置は、トランスフォーマーネットワークを介して、ステップＳ２０２１Ａを実現することができる。例えば、電子装置は、イメージをトランスフォーマーネットワークに入力し、トランスフォーマーネットワークのエンコーダを介して、イメージの第８特徴マップを取得し、第８特徴マップに基づいて、トランスフォーマーネットワークのうち、畳み込みレイヤ及び完全接続レイヤを介して、顔マップと顔マスクを取得することができる。

ステップＳ２０２２Ａにおいて、電子装置は、イメージ、顔マップ及び顔マスクに基づいて、第１正面イメージを取得する。

電子装置は、イメージ、顔マップ及び顔マスクに基づいて、充填される位置を含む第２正面イメージを取得し、第２正面イメージのうち充填される位置にイメージを充填して、第１正面イメージを取得することができる。

一実施形態において、電子装置は、第２正面イメージに基づいて、第３正面イメージを生成し、第３正面イメージは、充填される位置に対応するイメージ領域を含み、第３正面イメージを用いて、イメージを充填する。ステップＳ２０２２Ａは、次のステップＳＡ１～Ａ３（図示せず）を介して実現される。

ステップＳＡ１において、電子装置は、イメージ、顔マップ及び顔マスクに基づいて、第２正面イメージを取得する。

第２正面イメージは、充填される位置を含んでもよい。電子装置は、顔マスクに基づいて、イメージで顔マスクによって遮られていない顔を決定し、顔マップに基づいて、イメージのうち顔の各ピクセルを移動することにより、第２正面イメージを取得することができる。例えば、顔マップは、正面の顔に対する顔イメージのうち顔の各ピクセルのオフセットを反映することができる。電子装置は、顔マップ、顔マスク、及び顔イメージに基づいて、顔イメージで、顔マスクによって遮られていない顔領域に対して、顔領域が含まれている各ピクセルを移動することによって、顔の正面イメージを取得することができる。

一実施形態において、電子装置は、マスクの助けで充填される位置を充填することができる。電子装置は、ステップＳＡ２を介して、ホールマスクを取得することができる。

ステップＳＡ２において、電子装置は、第２正面イメージに基づいて、第２正面イメージのホールマスクと第３正面イメージを取得する。

第３正面イメージは、充填されるホール位置に対応するイメージ領域を含み、ホールマスクは、第２正面イメージで充填される位置（言い換えれば、ホール）以外のイメージ領域を遮るために使用されることができる。

一実施形態において、電子装置は、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）（例えば、図３に示された生成器３１０及び判別器３６０）を介して、第３正面イメージ及びホールマスクを取得することができる。例示的に、電子装置は、第２正面イメージをＧＡＮネットワークに入力し、ＧＡＮネットワークを介して、第２正面イメージのホールマスク及び第２正面イメージに対応する第３正面イメージを生成することができる。

ステップＳＡ３において、電子装置は、第２正面イメージ、ホールマスク、及び第３正面イメージに基づいて、第１正面イメージを取得する。

電子装置は、ホールマスク及び第３正面イメージに基づいて、第２正面イメージのうち充填される位置に対してイメージを充填し、第１正面イメージを取得することができる。電子装置は、ホールマスクに基づいて、第３正面イメージで充填される位置の対応する位置を決定し、第３正面イメージのうち対応する位置の顔イメージに基づいて、第２正面イメージのうち充填される位置に対してイメージを充填することで、第１正面イメージを取得することができる。

一実施形態において、第３正面イメージは、第２正面イメージのうち顔に対応する全体の顔を含んでもよく、全体の顔位置は、第２正面イメージの顔位置及び第２正面イメージの顔のうち充填される位置に対応する顔イメージを含んでもよい。

例示的に、電子装置は、ＧＡＮネットワークを介して、第１正面イメージを取得することができる。図３に示すように、ＧＡＮネットワークは、生成器（ｇｅｎｅｒａｔｏｒ）３１０と判別器（ｄｉｓｃｒｉｍｉｎａｔｏｒ）３６０を含む。ここで、ＧＡＮネットワークの生成器３１０を介して、第２正面イメージ３２０に基づいて、第３正面イメージ３３０及びホールマスク３４０が取得され、ホールマスク３４０及び第３正面イメージ３３０に基づいて、第３正面イメージ３３０でホールマスク３４０によって遮られていない領域を第２正面イメージ３２０に充填することで、第１正面イメージ３５０が取得され得る。ＧＡＮネットワークは、判別器３６０をさらに含み、ＧＡＮネットワークをトレーニングするとき生成器３１０と判別器３６０でトレーニングすることができる。例えば、判別器３６０は、実際のイメージ３７０（例えば、偽イメージや生成されたイメージではないイメージ）に基づいて、生成器３１０が推定したイメージ（言い換えれば、第１正面イメージ３５０）を判別できるが、例えば、生成器３１０によって推定されたイメージが実際のイメージ３７０である確率を判別できる。生成器３１０が推定したイメージ及び判別器３６０によって推定されたイメージの判別結果に基づいて、ＧＡＮネットワークのパラメータを調整することで、トレーニングされたＧＡＮネットワークを取得することができる。

ステップＳ２０２３Ａにおいて、電子装置は、第１正面イメージに基づいて、顔の正面特徴を取得する。

電子装置は、第１正面イメージから特徴を抽出し、顔の正面特徴を取得することができる。一実施形態において、電子装置は、トランスフォーマーネットワークを介して、第１正面イメージから特徴抽出を行い、顔の正面特徴を取得することができる。

２番目の方式において、アテンション情報は、少なくとも２つのフレームのイメージ間の時間関係情報を含んでもよい。電子装置は、少なくとも２つのフレームのイメージ間の時間関係情報を取得することができる。

少なくとも２つのフレームのイメージは、ステップＳ２０１における処理すべきイメージのようなイメージを含んでもよい。一実施形態において、電子装置は、イメージの収集時間に基づいて、時間関係情報を取得することができる。２番目の方式として、ステップＳ２０２は、次のステップＳ２０２１Ｂ～２０２２Ｂ（図示せず）を介して実現されてもよい。

ステップＳ２０２１Ｂにおいて、電子装置は、少なくとも２つのフレームのイメージに対して各フレームのイメージの収集時間を取得する。

少なくとも２つのフレームのイメージは、収集時間が異なるイメージであってもよい。一実施形態において、電子装置は、イメージの収集に隣接する目標にする数量のフレームのイメージを取得することができる。目標とする数量は必要に応じて設定されるが、例えば、目標にする数量は６、８、２０などであってもよいが、本明細書の実施形態で少なくとも２つのフレームのイメージの数量は特に制限されない。例えば、イメージがｋ番目のフレームのイメージである場合、ｋ－６番目のフレームのイメージ、ｋ－５番目のフレームのイメージ、．．．、ｋ－１番目のフレームのイメージ、ｋ番目のフレームのイメージ、合計７フレームのイメージの収集時間を取得してもよい。

ステップＳ２０２２Ｂにおいて、電子装置は、少なくとも２つのフレームのイメージのうち各フレームのイメージの収集時間に基づいて、時間関係情報を取得することができる。

時間関係情報は、少なくとも２つのフレームのイメージの収集時間の前後順序を示す。電子装置は、少なくとも２つのフレームのイメージの収集時間に基づいて、少なくとも２つのフレームのイメージを順に整列し、時間関係情報を取得することができる。例示的に、電子装置は、ｋ－６番目のフレームのイメージ、ｋ－５番目のフレームのイメージ．．．、ｋ－１番目のフレームのイメージ及びｋ番目のフレームのイメージ、合計７個のフレームの収集時間を整列し、前後順序が７，６，５，４，３，２，１である、７個のフレームのイメージの収集時間を取得することができる。

３番目の方式において、アテンション情報は、少なくとも２つのフレームのイメージ間の時間関係情報及び顔の正面特徴を含んでもよい。電子装置は、イメージ及びイメージの顔マップに基づいて、第１正面イメージを取得し、第１正面イメージに基づいて顔特徴を取得することができる。また、電子装置は、少なくとも２つのフレームのイメージ間の時間関係情報を取得することができる。

電子装置が顔の正面特徴を取得する過程は、最初の方式で顔の正面特徴を取得する方法と同一であってもよい。例えば、ステップＳ２０２１Ａ～ステップＳ２０２３Ａと同じ過程に基づいて、正面イメージが取得され得る。また、電子装置が時間関係情報を取得する過程は、２番目の方式で時間関係情報を取得する方法と同一であってもよい。例えば、ステップＳ２０２１Ｂ～ステップＳ２０２３Ｂと同じ過程を介して、時間関係情報が取得されてもよい。したがって、顔の正面特徴及び時間関係情報の実現方式に対する詳しい説明は省略される。

４番目の方式において、ターゲット情報は、ピクセル間の距離を含んでもよい。電子装置は、イメージのピクセル間の距離を取得することができる。

一実施形態において、ピクセルの距離は、ピクセルの間の相対的な距離情報に表現される。電子装置は、イメージの特徴を介して、相対距離情報を取得できるが、例えば、４番目の方式で、ステップＳ２０２は、次のステップＳ２０２１Ｃ～２０２３Ｃ（図示せず）を介して実現されてもよい。

ステップＳ２０２１Ｃにおいて、電子装置は、イメージの第４特徴マップを取得する。

一実施形態において、電子装置は、イメージの特徴を抽出し、第９特徴マップを取得し、第９特徴マップをダウンサンプリングして、第４特徴マップを取得することができる。例示的に、電子装置は、イメージを特徴抽出ネットワークに入力し、特徴抽出ネットワークを介して、イメージで特徴を抽出し、特徴抽出ネットワークによって出力された第９特徴マップを取得することができる。例えば、電子装置は、ＮＮネットワークを介して、イメージの第９特徴マップを抽出してもよい。

ダウンサンプリングは、相対的に高解像度の特徴マップを用いて、相対的に低解像度の特徴マップに対して特徴を表現する処理方式である。一実施形態において、電子装置は、特徴ポイントの単位でダウンサンプリングすることができる。電子装置が第９特徴マップをダウンサンプリングし、第４特徴マップを取得する過程は、電子装置が第９特徴マップをダウンサンプリングし、複数の第１特徴ポイントを取得する動作、それぞれの第１特徴ポイントに対して電子装置が第９特徴マップで第１特徴ポイントに対応する第２特徴ポイントを決定する動作、第２特徴ポイントに基づいて第１特徴ポイントの特徴ベクトルを取得する動作、第１特徴ポイントの特徴ベクトルから第４特徴マップを取得する動作、に基づいて行われる。ここで、第４特徴マップは、複数の第１特徴ポイント及びそれらの特徴ベクトルを含んでもよい。ここで、第９特徴マップの解像度は、第４特徴マップの解像度よりも高い。例示的に、第１特徴ポイント及び第２特徴ポイントは、第９特徴マップの対応する位置に関わっている。第２特徴ポイントは、第１特徴ポイントが第９特徴マップに対応するように投影して取得した点である。例えば、電子装置は、第９特徴マップにおける第１特徴ポイントの位置に応じて、二重線形補間法を用いて、第９特徴マップにおける第１特徴ポイントに対応する投影位置を取得することができる。第２特徴ポイントは、第９特徴マップにおける第１特徴ポイントの投影ポイントであってもよい。例示的に、与えられた解像度が、Ｈ×ＷであるイメージＱを、上述したダウンサンプリングを介して、低解像度ｈ×ｗ特徴マップｑに縮小されるが（イメージＱの解像度は特徴マップｑよりも高い）、低解像度特徴マップは、少なくとも１つの特徴チャネルを含んでもよく、例えば、低解像度特徴マップは、３つのチャネルを有する。低解像度特徴マップは、イメージの特徴に対する表現であり、必ずしもイメージである必要はないことはもちろんである。

一実施形態において、電子装置は、特徴抽出を介して、第１特徴ポイントの特徴ベクトルを取得するが、この過程は、電子装置が第１特徴ポイントを第９特徴マップに投影して、第９特徴マップにおける第１特徴ポイントに対応する位置の第２特徴ポイントを取得し、第９特徴マップで第２特徴ポイントに対して特徴を抽出して、第１特徴ポイントの特徴ベクトルを取得することを含んでもよい。例示的に、電子装置は、第１特徴ポイントの特徴として、第２特徴ポイントの左側上段の角位置のピクセルの特徴ベクトルを抽出してもよい。電子装置は、上述した特徴抽出方法で、それぞれの第１特徴ポイントの特徴ベクトルを取得することができる。第４特徴マップは、複数の第１特徴ポイントの特徴ベクトルを含んでもよい。

例示的に、電子装置は、第１中間特徴マップ上の任意の第１特徴ポイントＰに対して、ポイントＰを二重線形補間法の投影方法により、第９特徴マップに投影して点Ｐに対応する第９特徴マップに投影された投影ポイントＰ’を取得し、ポイントＰ’の左側上段の角のピクセル位置の特徴ベクトルをポイントＰの特徴ベクトルに抽出することができる。例えば、低解像度１００×１００特徴マップのうちポイント（１，１）に対して、対応する２００×２００特徴マップのうち投影領域に含まれている４個のポイントがそれぞれ（２，２）、（２，３）、（３，２）、（３，３）の場合、２００×２００特徴マップのうちポイント（２，２）の特徴ベクトルを１００×１００特徴マップのうちポイント（１，１）の特徴ベクトルにすることができる。

他の一実施形態において、電子装置は、イメージから特徴を抽出し、第４特徴マップを取得することができる。例示的に、電子装置は、イメージを特徴抽出ネットワークに入力し、特徴抽出ネットワークを介して、イメージから特徴を抽出し、特徴抽出ネットワークによって出力された第４特徴マップを取得することができる。例えば、電子装置は、ＣＮＮネットワークを介して、イメージの第４特徴マップを抽出してもよい。

ステップＳ２０２２Ｃにおいて、電子装置は、第４特徴マップに基づいて、相対距離情報を取得する。

一実施形態において、ダウンサンプリングを介して、第４特徴マップを取得するとき、電子装置は、第９特徴マップにおける第１特徴ポイントに対応する第２特徴ポイントに基づいて、相対距離情報を決定することができる。

例示的に、電子装置は、第２特徴ポイントと周辺ポイントとの間の相対位置に基づいて、対応する第１特徴ポイントの相対距離情報を取得することができる。一実施形態において、第４特徴マップのうち少なくとも１つの第１特徴ポイントに対して、電子装置は、対応する第２特徴ポイントに隣接するポイント間の少なくとも１つの距離を取得し、電子装置は、少なくとも１つの距離に基づいて、第１特徴ポイントの相対距離情報を取得することができる。一実施形態において、電子装置は、少なくとも１つの距離に基づいて、距離関数を介して、第１特徴ポイントの相対距離情報を取得し、相対距離情報は、少なくとも１つの距離に対応する距離関数値を含んでもよい。例えば、電子装置は、少なくとも１つの距離関数を介して、少なくとも１つの距離に対応する、少なくとも１つの距離関数値を算出することができる。ここで、それぞれの距離関数は、距離と距離関数値との間のマッピング関係を対応するよう表示されてもよい。例示的に、それぞれの第１特徴ポイントは、少なくとも１つの距離関数値に対応し、電子装置は、それぞれの第１特徴ポイントの少なくとも１つの距離関数値を結合して、イメージ特徴の相対距離情報を取得することができる。例えば、電子装置は、特徴マップに対応する相対距離情報を取得してもよい。

一実施形態において、少なくとも１つの距離関数値の数量は、少なくとも１つの距離の数量よりも大きくてもよい。例えば、それぞれの距離は、１つ以上の距離関数値に対応し、または、それぞれの距離対は、１つ以上の距離関数値に対応してもよい。距離と距離関数値との間の対応関係及び距離関数は、予め構成されてもよく、電子装置は、１つ以上の距離関数を用いて、少なくとも１つの距離関数値を取得してもよい。例示的に、電子装置は、隣接するポイントに基づいて、多角形を構成し、構成された多角形に基づいて、少なくとも１つの距離を取得することができる。例えば、多角形が長方形である例として、電子装置は、第９特徴マップで第２特徴ポイントの隣接ポイントを取得し、隣接ポイントに対応する長方形を決定し、第２特徴ポイントと長方形の辺の間の距離を、第２特徴ポイントと隣接ポイントとの間の少なくとも１つの距離として用いてもよい。例えば、電子装置は、４個の隣接ポイントを取得し、４個の隣接ポイントを連結して長方形を取得し、第２特徴ポイントと長方形それぞれの辺の間の４個の距離を取得することができる。又は、電子装置は、３角形、５角形、及び６角形などのような異なる多角形を構成し、異なる多角形に基づいて、少なくとも１つの距離を取得することができる。

図４は、一実施形態に係る長方形を構成して取得した４個の距離の概略図である。図４に示すように、第２特徴ポイントＰ’に隣接する４個の点を連結して右側下段の長方形を構成することができる。ここで、第２特徴ポイントＰ’と長方形の４個の辺の間の距離は、それぞれｄ０、ｄ１、ｄ２、ｄ３であってもよい。電子装置は、ｄ０、ｄ１、ｄ２、ｄ３に基づいて、少なくとも１つの距離関数値を生成することができる。ここで、ポイントと長方形の辺との間の４個の距離のうち、２つの距離の数値が決定されれば、第２特徴ポイントと長方形の辺との間の距離が唯一決定され得る。したがって、ｄ０、ｄ１に基づいて、Ｎ個の距離関数値を生成することができる。Ｎ個の距離関数値は、それぞれｆ１（ｄ０、ｄ１）、ｆ２（ｄ０、ｄ１）、．．．、ｆＮ（ｄ０、ｄ１）であり、ここで、ｆ１、ｆ２、…、ｆＮは、距離関数であり、Ｎは、量の整数である。第１特徴ポイントＰに対する相対距離情報は、ｖに表示され、ここで、ｖ＝［ｆ１（ｄ０、ｄ１），ｆ２（ｄ０、ｄ１），．．．，ｆＮ（ｄ０、ｄ１）］であり、Ｎは、正数整数であり、ｆ１、．．．、ｆＮは、関数であってもよい。それぞれの第１特徴ポイントにおける相対距離情報を結合することで、ｈ×ｗ×Ｎである相対距離情報マップを取得できるが、ここで、ｈ×ｗは、第４特徴マップに対応する特徴マップの大きさである。

ＣＮＮネットワークを用いてステップＳ２０２１Ｃ～ステップＳ２０２２Ｃの過程を実現することができる。例えば、ＣＮＮネットワークでダウンサイズネットワーク（ＤｏｗｎｓｉｚｅＮｅｔ）を設計し、ダウンサイズネットワークを介して、上述したステップＳ２０２１Ｃ～ステップ０２２Ｃを行ってもよい。図５は、本明細書の一実施形態で提供する畳み込みネットワーク基盤のイメージ縮小方法の概略図であって、図５に示すように、オリジナルイメージ５１０を畳み込みネットワークに入力し、例えば、電子装置は、３×３の大きさの畳み込みを介して、オリジナルイメージ５１０から特徴を抽出し、第９特徴マップを取得することができる。そして、ｍｙｐｏｏｌ（ダウンサンプリング動作）方式により、第９特徴マップをダウンサンプリングし、第４特徴マップを取得することができる。第４特徴マップは、複数の第１特徴ポイント及びこれらの特徴ベクトルを含んでもよい。ここで、ｍｙｐｏｏｌ方式は、非定数サンプリングレートでダウンサンプリングする方法であって、例えば、１００×１００の特徴マップをダウンサンプリングして、７０×７０の低解像度特徴マップを取得することができる。ここで、１００は７０の整数倍ではないが、７０×７０の低解像度特徴マップのうち、任意のポイントは、全て１００×１００の特徴マップのうち対応する投影点に投影され、投影点の左側上段の角にあるピクセルの特徴ベクトルを抽出し、低解像度特徴マップのうち各ポイントの特徴ベクトルとして使用できる。非定数サンプリングレートのダウンサンプリングを介して、必要に応じて、任意の大きさの低解像度特徴マップをダウンサンプリングできるため、特徴マップの大きさに対する制限を解消し、ダウンサイズネットワークの適用性を向上させ得る。また、電子装置は、第４特徴マップに基づいて、相対距離情報を取得し、後続作業で、第４特徴マップと相対距離情報をステッチして、ターゲット特徴マップを取得し、新しく取得したターゲット特徴マップに対して畳み込みをさらに行い、最終ターゲット特徴マップを取得することができることはもちろんである。電子装置は、ターゲット特徴マップを、ＶＧＧ１６（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ）ネットワーク又はＲｅｓＮｅｔ（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ）などのネットワークモデルのような他の様々なネットワークに入力し、後続処理に使われて、全体作業を行わせることができる。例示的に、全体作業の損失関数を用いて、ダウンサイズネットワークを訓練し、ダウンサイズネットワークのパラメータを調整することができる。このステップにおいて、ＣＮＮネットワークで様々な活性化関数、一括処理動作などを設計して使用できるが、本明細書の実施形態は、これに制限されない。

他の一実施形態において、イメージから特徴を抽出して、第４特徴マップを直接取得した場合、電子装置は、第４特徴マップでそれぞれの第１特徴ポイントと周辺ポイントとの間の相対位置に基づいて、相対距離情報を取得することができる。例えば、第１特徴ポイントと第４特徴マップのうち周辺のポイントの間の少なくとも１つの距離を算出し、少なくとも１つの距離に基づいて、第１特徴ポイントの相対距離情報を取得することができる。例えば、多角形を構成し、少なくとも１つの距離を取得してもよい。少なくとも１つの距離を取得する実現方式、及び、少なくとも１つの距離に基づいて、相対距離情報を取得する実現方式は、上述したダウンサンプリング方式で第４特徴マップを取得する実現方式のうち少なくとも１つの距離を取得し、相対距離情報を取得する過程と同一であるため、重複する説明は省略する。

電子装置は、多角形を構成して、第２特徴ポイントと隣接するポイントとの間の距離を取得し、他の方式で距離を取得してもよい。但し、本明細書の実施形態においては、第２特徴ポイントに隣接するポイント間の距離を決定する具体的な方式は限定されず、例えば、電子装置は、第２特徴ポイントと隣接するポイントとの間の直線距離を直接算出してもよい。また、電子装置は、５角形を構成し、第２特徴ポイントと対応する５個の辺との間の５個の距離を取得したり、６角形を構成して、対応する６個の距離を取得してもよい。本明細書の実施形態では、上述した長方形を構成して４個の距離を取得する例について説明したが、実際に、どのような多角形を構成していくつの距離を取得するかは制限されない。

５番目の方式において、ターゲット情報は、加重値情報を含んでもよい。電子装置は、イメージの第５特徴マップに基づいてイメージの第１加重値マップを取得することができる。

第１加重値マップは、イメージの加重値情報を含んでもよい。本明細書の実施形態において、加重値マップは、イメージの加重値情報を示す。例示的に、５番目の方式で、ステップＳ２０２は、次のステップＳ２０２１Ｄ～２０２２Ｄ（図示せず）を介して、実現されることができる。

ステップＳ２０２１Ｄにおいて、電子装置は、イメージの第５特徴マップを取得する。

電子装置は、畳み込みネットワークを用いて、イメージで特徴を抽出し、第５特徴マップを取得することができる。例えば、電子装置は、ＣＮＮネットワークを用いて、イメージの第５特徴マップを抽出することができる。図６に示すように、電子装置は、畳み込みネットワークを用いて、顔イメージ６１０から特徴を抽出し、顔イメージ６１０の第５特徴マップを取得することができる。

ステップＳ２０２２Ｄにおいて、電子装置は、第５特徴マップに基づいてイメージの第１加重値マップを取得する。

第１加重値マップは、イメージの各位置の重要度を示す。第１加重値マップは、第１特徴マップ内の各特徴ポイントの加重値情報を含んでもよい。加重値情報は、加重値の形態であってもよく、加重値は、重要度と量の相関関係を有するが、加重値が大きいほど対応する特徴ポイントの重要度が高くなる。一実施形態において、電子装置は、畳み込みレイヤを介して、第５特徴マップに対して畳み込みを行い、イメージの第１加重値マップを取得することができる。

６番目の方式において、ターゲット情報は、加重値情報を含んでもよい。電子装置は、イメージで目の位置に基づいてイメージの第２加重値マップを取得することができる。

第２加重値マップは画像の加重値情報を含んでもよい。本明細書の実施形態において、加重値マップで画像の加重値情報を示す。一実施形態において、電子装置は、イメージから目を検出して、イメージのうち目の位置を取得し、イメージのうち目の位置に基づいて、第２加重値マップを取得することができる。

上述した５番目の方式と同様に、第２加重値マップは、イメージの加重値情報を含んでもよい。加重値情報は、加重値の形態であってもよく、加重値は、重要度と量の相関関係を有し、加重値が大きいほど対応する特徴ポイントの重要度が高くなる。６番目の方式で、電子装置は、イメージで目の位置を決定した後、目の位置に応じて、イメージのうち目の位置に対して、目ではない位置よりも大きい加重値を付与し、第２加重値マップを取得することができる。

ここで、イメージのうち目の位置に対して、目ではない位置よりも大きい加重値を付与することは、目の位置に対する加重値を増加させる方式でデータを処理し、目の位置の重要度を強調することができる。例えば、イメージで目の位置に対して、目の位置の加重値がＡよりも小さくないように設定され、イメージから目以外の位置に対しては、対応する加重値をＢよりも大きくないように設定され、ＡはＢよりも大きく設定される。このような設定から、イメージから目の位置とは異なる位置を効率よく区分することができる。例示的に、電子装置は、ＭＴＣＮＮ（Ｍｕｌｔｉ－ｔａｓｋＣａｓｃａｄｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）ネットワークを用いて、イメージから目を検出できるが、例えば、ＭＴＣＮＮネットワークで、顔イメージから目を検出し、イメージのうち目の位置を決定することができる。

例えば、ＭＴＣＮＮネットワークで、顔イメージから目の位置を検出し、取得した顔のうち目の中心点（例えば、瞳孔領域のような中央領域）位置の座標が、それぞれ（ｘ１、ｙ１）、（ｘ２、ｙ２）である場合、電子装置は、中心点が（ｘ１、ｙ１）であり、辺の長さがｄである長方形領域、及び、中心点が（ｘ２、ｙ２）であり、辺の長さがｄである長方形領域をイメージのうち目の領域として決定することができる。例えば、電子装置は、１００×１００の大きさイメージにおいて、中心点が（ｘ１、ｙ１）であり、辺の長さが５０であり、中心点が（ｘ２、ｙ２）であり、辺の長さが５０である、２つの正方形の領域を目の領域として決定することができる。イメージのうち、目の領域に対応する第２加重値マップにおけるポイントの加重値は、顔以外の領域よりも大きくてもよい。

ステップＳ２０３において、電子装置は、ターゲット情報に基づいて、イメージのターゲット特徴マップを取得する。

電子装置は、ターゲット情報及びイメージのイメージ特徴に基づいて、イメージのターゲット特徴マップを取得することができる。

上述したステップＳ２０２において、ターゲット情報を取得する６種類の実現方式に基づいて、このステップで、電子装置は、前のステップＳ２０２に対応する６種類の方式を介して、ターゲット特徴マップを取得することができる。

最初の方式において、ステップＳ２０２の最初の方式に対応して、電子装置は、イメージの特定部分の第２特徴マップ及び顔の正面特徴に基づいて、ターゲット特徴マップを取得することができる。

電子装置は、イメージの特定部分に対して特徴を抽出し、イメージの特定部分に対する第２特徴マップを取得することができる。第２特徴マップは、イメージの特定部分の特徴を特性化するために使用され得る。電子装置は、顔の正面特徴と第２特徴マップをステッチ（ｓｔｉｔｃｈ）し、ターゲット特徴マップを取得することができる。例示的に、電子装置は、特定部分に基づいて、イメージをクロッピングして、特定部分のイメージを取得してもよく、特定部分のイメージから特徴を抽出して、特定部分の第２特徴マップを取得してもよい。電子装置は、顔の正面特徴と第２特徴マップをステッチし、ターゲット特徴マップを取得してもよい。

一実施形態において、特定部分は、目の部分及び目鼻立ちのうち少なくとも１つを含んでもよい。目鼻立ちの部分は、目、口、鼻、耳、又は眉毛の部分の少なくとも１つを含んでもよい。一実施形態において、特定部分が目を含んでいる場合、電子装置は、イメージから目を検出してイメージのうち目の位置を取得し、目の位置に基づいて、イメージをクロッピングして、目の領域のイメージを取得することができる。電子装置は、目の領域イメージから特徴を抽出し、目の特徴を示す第２特徴マップを取得することができる。電子装置は、顔の正面特徴と目の特徴を示す第２特徴マップをステッチし、ターゲット特徴マップを取得することができる。異なる例示において、特定部分に目鼻立ちが含まれている場合、電子装置は、イメージから目鼻立ちを検出し、イメージのうち目鼻立ちの位置を取得し、目鼻立ちの位置に基づいて、イメージをクロッピングして、目鼻立ち領域イメージを取得することができる。電子装置は、目鼻立ち領域のイメージから特徴を抽出し、目鼻立ちの特徴を示す第２特徴マップを取得することができる。電子装置は、顔の正面特徴と目鼻立ちを示す第２特徴マップをステッチし、ターゲット特徴マップを取得することができる。

例示的に、電子装置は、トランスフォーマーモデルを用いて、上述したステップＳ２０２１Ａ～ステップＳ２０２３Ａ、及びステップＳ２０３の最初の方式のステップを実現することができる。電子装置は、トランスフォーマーモデルで、空間トランスフォーマーネットワークに設計してもよく、空間トランスフォーマーネットワークは、空間分布を基盤としたイメージの特徴を抽出することができる。空間トランスフォーマーネットワークは、トランスフォーマー、エンコーダ、及びパーセプトロンを含んでもよい。空間トランスフォーマーネットワークは、ステップＳ２０２及びステップＳ２０３の最初の方式で、空間トランスフォーマーネットワークのエンコーダを使用して、イメージのイメージ特徴を抽出し、空間トランスフォーマーネットワークのうち３つの独立的な多層パーセプトロンを介して、イメージから顔マップ、顔マスク、及び目の位置をそれぞれ取得することができる。ここで、多層パーセプトロンの層間は、完全接続され、多層パーセプトロンの完全接続レイヤ及び畳み込みネットワークの構造を用いて、対応する顔マップ、顔マスク、及び目の位置を取得することができる。さらに、空間トランスフォーマーネットワークのエンコーダで、第１正面イメージの顔の正面特徴を抽出し、目の位置の第２特徴マップと顔の正面特徴をステッチし、ステッチされた特徴マップに対して畳み込みをさらに行って、最終ターゲット特徴マップを取得することができる。

図７に示すように、図７の右側は、イメージの空間関係を抽出する空間トランスフォーマーネットワーク７１０である。顔イメージを例にすると、１つの顔イメージである場合、電子装置は、１つの顔イメージを空間トランスフォーマーネットワーク７１０に入力し、空間トランスフォーマーネットワーク７１０のエンコーダを用いて、特徴マップを取得した後、このような特徴マップから３つに分岐され、それぞれの分岐に対して、畳み込み及び完全接続レイヤを用いて、対応する３種類の情報を取得することができる。言い換えれば、３つの独立的な多層パーセプトロンを用いて、３種類の情報を対応するように取得するものであり、３種類の情報は、顔マップ、顔マスク、及び目の位置を含んでもよい。顔マップは、正面に対する顔の各ピクセルのオフセットを反映することができる。電子装置は、顔マップ、顔マスク、及びイメージにより、イメージのピクセルをオフセットし、顔を正面の顔にマッピングすると、正面イメージを取得することができる。例えば、電子装置は、顔マスクで遮られていないイメージの一部のピクセルを移動することができる。さらに、電子装置は、ＧＡＮネットワークでホールを含む正面イメージを充填し、全体正面イメージを取得することができる。したがって、電子装置は、空間トランスフォーマーネットワーク７１０のエンコーダにより、全体正面イメージから特徴を抽出し、顔の正面特徴を取得することができる。また、目の位置に対して、目の位置を用いて、オリジナルイメージをクロッピングし、クロッピングして取得した目のイメージに対して、畳み込みレイヤを介して、特徴を抽出し、目の特徴を取得し、前記目の特徴及び正面特徴をステッチして、ターゲット特徴マップを取得することができる。もちろん、電子装置は、畳み込みレイヤでステッチ結果から特徴を抽出し、ターゲット特徴マップを取得してもよい。

２番目の方式で、ステップＳ２０２の２番目の方式に対応し、電子装置は、少なくとも２つのフレームのイメージの第１特徴マップと少なくとも２つのフレームのイメージとの間の時間関係情報に基づいて、前記イメージのターゲット特徴マップを取得することができる。

電子装置は、少なくとも２つのフレームのイメージのうち各フレームのイメージで特徴を抽出し、各フレームのイメージの第１特徴マップを取得する。電子装置は、時間関係情報及び各フレームのイメージの第１特徴マップをトランスフォーマーネットワークに入力する。電子装置は、トランスフォーマーネットワークのエンコーダを介して、時間関係情報及び各フレームのイメージの第１特徴マップに基づいて、特徴を抽出し、イメージのターゲット特徴マップを取得することができる。例示的に、イメージがｋ番目のフレームのイメージである場合、電子装置は、ｋ－６番目のフレームのイメージ、ｋ－５番目のフレームのイメージ、．．．、ｋ－１番目のフレームのイメージ、ｋ番目のフレームのイメージ、合計７個のフレームのイメージ間の時間関係情報を取得し、７個のフレームのイメージの第１特徴マップ及び時間関係情報をトランスフォーマーネットワークに入力することができる。電子装置は、７個のフレームのイメージ間のインターフレーム関係に対して特徴抽出をさらに行い、ｋ番目のフレームのイメージのターゲット特徴マップ（例えば、６個の以前フレームのイメージ及び相対的キャプチャー時間の情報を反映するターゲット特徴マップ）を取得することができる。

一実施形態において、各フレームのイメージの第１特徴マップは、トランスフォーマーネットワークのエンコーダに基づいて、抽出することができる。

３番目の方式で、ステップＳ２０２の３番目の方式に対応し、電子装置は、イメージの顔の正面特徴及びイメージの特定部分の第２特徴マップに基づいて、イメージの第３特徴マップを取得することができる。電子装置は、少なくとも２つのフレームのイメージの第３特徴マップ及び少なくとも２つのフレームのイメージ間の時間関係情報に基づいて、ターゲット特徴マップを取得することができる。

電子装置は、顔の正面特徴及びイメージの特定部分の第２特徴マップをステッチして、第３特徴マップを取得することができる。特定部分は、目鼻立ちのうち少なくとも１つを含んでもよい。目鼻立ちの部分は、目、口、鼻、耳、又は眉毛の部分の少なくとも１つを含んでもよい。ここで、電子装置が、特定部分の第２特徴マップを取得する実現方式は、ステップＳ２０３の最初の方式で第２特徴マップを取得する方式と同一であり、顔の正面特徴及び第２特徴マップをステッチして第３特徴マップを取得する実現方式は、ステップＳ２０３の最初の方式で、顔の正面特徴及び第２特徴マップをステッチして、ターゲット特徴マップを取得する過程と同一であるため、重複する説明は省略する。

電子装置は、時間関係情報及び各フレームのイメージの第３特徴マップをトランスフォーマーネットワークに入力し、トランスフォーマーネットワークのエンコーダは、時間関係情報及び各フレームのイメージの第３特徴マップに基づいて、特徴を抽出し、イメージのターゲット特徴マップを取得することができる。

例示的に、前記イメージがｋ番目のフレームのイメージである場合、電子装置は、ｋ－６番目のフレームのイメージ、ｋ－５番目のフレームのイメージ、．．．、ｋ－１番目のフレームのイメージ、ｋ番目のフレームのイメージ、合計７個のフレームのイメージ間の時間関係情報を取得し、７個のフレームのイメージの第３特徴マップ及び時間関係情報をトランスフォーマーネットワークに入力し、７個のフレームのイメージ間のインターフレーム間の関係をさらに抽出して特徴を抽出することで、ｋ番目のフレームのイメージのターゲット特徴マップを取得することができる。

図７に示すように、本明細書の実施形態の３番目の方式で、時空間トランスフォーマーモデルを基盤とした視線推定方法を提供することができる。トランスフォーマーモデルで集中メカニズムを用いて上述したステップＳ２０２及びステップＳ２０３の過程を実現し、隣接する数個のフレームのイメージ間の時間関係とイメージの空間ドメイン特徴を取得することができる。例えば、顔イメージを例にすると、電子装置は、Ｋ個の隣接するフレームの顔イメージを入力し、空間トランスフォーマーネットワークで各イメージをそれぞれ処理した後、取得したＫ個特徴マップを、再び時間トランスフォーマーネットワークに入力してもよい。例えば、７個の隣接するフレームの顔イメージを使用するとき、電子装置は、図７に示すようなＦｋ－６、．．．、Ｆｋのような７個の特徴マップを時間トランスフォーマーネットワークに入力することができる。ここで、位置埋め込みは、７個の顔イメージの時間関係情報を意味し、例えば、７個の顔イメージの時間順序である（７，６，５，４，３，２，１）であってもよい。電子装置は、７個の隣接するフレームの顔イメージの７個の特徴マップと位置埋め込みを介して、Ｋ番目のフレームの顔イメージのターゲット特徴マップを取得することで、空間的関係と時間的関係を全て含む特徴を取得することができる。そして、電子装置は、該当の特徴に対して再び回帰を行うと、最終的に推定された視線方向及び対応する信頼度を取得することができる。空間トランスフォーマーネットワーク７１０は、顔を正面にして特徴を抽出することができる。１つの顔イメージの場合、電子装置は、先にトランスフォーマーで正面マッピングを行って充填される正面イメージを取得し、次に、ＧＡＮネットワークを用いて生成された充填される領域を充填する。次に、電子装置は、イメージを充填して取得した全体正面イメージに対して、トランスフォーマーネットワークのエンコーダを再び実行し、全体正面イメージに基づいて、顔の正面特徴を取得することができる。ここで、全体正面イメージの顔の正面特徴と目の位置の特徴をステッチして、畳み込みをさらに行い、特徴マップを取得することができる。Ｋ番目のフレームの隣接するイメージのターゲット特徴マップを、時間トランスフォーマーネットワークに入力して、視線を推定することができる。本明細書においては、ｔｗｏ－ｓｔｅｐトランスフォーマーモデルを用いて、イメージの時空間関係特徴を抽出するが、ＣＮＮネットワークと比較すると、トランスフォーマーモデルは、イメージから距離が遠い領域間の特徴関係を効率よく抽出し、互いに異なる特徴領域の時空間関係を効率よく表示することができ、また、正面からマッピングするとき、イメージで正面の顔に対する各ピクセルのオフセットなどを直接取得してもよい。

３番目の方式の有益な効果は、次の通りである。

電子装置は、顔マップ及び顔マスクに基づいて、第１正面イメージを取得し、第１正面イメージに基づいて、顔の正面特徴を取得し、顔の正面特徴とイメージのうち特定部分の第２特徴マップを介して、ターゲット特徴マップを取得することができる。そのため、ターゲット特徴マップが、顔の正面特徴及びオリジナルイメージのうち、本来の顔の特徴を表現できるようにする。正面の顔の特徴を利用し、また、本来の顔の特徴を結合して視線を推定することで、視線推定の正確度に対する大幅の頭姿勢の影響を減らし、小さい標本サイズの制限を解消することができる。例えば、頭が左右に傾いている、などの姿勢は、視線推定に大きい影響を及ぼし、大幅の頭姿勢は、標本サイズが小さいという問題があるが、顔の正面特徴に基づいて視線を推定することにより、正確かつ時効性のある推定結果を、より容易に取得することができ、大きい幅の頭姿勢である場合にも適用でき、視線推定の正確性、堅固性、及び実用性を向上させることができる。

また、電子装置は、顔マップを介して、イメージを正面マッピングして、第２正面イメージを取得することができ、イメージをさらに充填して、全体第１正面イメージを取得することができる。顔マップは、イメージのうち各ポイントの正面の顔に対するオフセット程度に至るまで正確に示すため、イメージのうちポイントまで精密化して、イメージのうち顔のポイントをオフセットし、第２正面イメージを充填することで、正面イメージ取得の正確度を高め、高い精密度の正面イメージを後続した視線推定に用いて、視線推定の堅固性を向上させることができる。

また、電子装置は、顔マスクで顔をオフセットして、２正面イメージを取得し、ホールマスクを用いて充填される位置に対してイメージを充填して、第１正面イメージを取得することができる。電子装置は、イメージのうち顔に対して対応するように、正面の顔マッピングを行って、充填される位置を充填し、関連のない領域の干渉を防止することで、正面イメージの取得効率がより向上され、後続する視線推定の処理効率を向上させることができる。

また、電子装置は、少なくとも２つのフレームイメージ間の時間関係情報を結合し、ターゲット特徴マップを取得してもよい。電子装置は、ターゲット特徴マップが空間的関係の特徴と時間的関係の特徴を全て表現できるようにし、このようなターゲット特徴を用いて推定することで、視線推定の堅固性をさらに向上させ得る。

４番目の方式で、ステップＳ２０２の４番目の方式に対応して、電子装置は、イメージの第４特徴マップとピクセルとの間の相対距離情報に基づいて、ターゲット特徴マップを取得することができる。

電子装置は、第４特徴マップと相対距離情報をステッチし、ターゲット特徴マップを取得することができる。電子装置は、第４特徴マップのうちそれぞれの第１特徴ポイントに対して、第１特徴ポイントの特徴ベクトルと第１特徴ポイントの相対距離情報の距離ベクトルをステッチし、ターゲット特徴マップを取得することができる。ターゲット特徴マップは、それぞれの第１特徴ポイントの特徴ベクトル及び相対距離情報を含んでもよい。

一実施形態において、電子装置は、イメージの第４特徴マップとピクセルとの間の相対距離情報に基づいて、融合した特徴マップを取得し、融合した特徴マップに基づいて、ターゲット特徴マップを取得することができる。例えば、電子装置は、第１特徴ポイントの特徴ベクトルと第１特徴ポイントの相対距離情報の距離ベクトルをステッチして、融合した特徴マップを取得し、畳み込みレイヤを介して、融合した特徴マップから、特徴をさらに抽出することで、ターゲット特徴マップを取得してもよい。

他の一実施形態において、電子装置は、イメージの第４特徴マップとピクセルとの間の相対距離情報に基づいて、融合した特徴マップを取得し、融合した特徴マップ及び第４特徴マップに基づいて、ターゲット特徴マップを取得することができる。例えば、電子装置は、第１特徴ポイントの特徴ベクトルと第１特徴ポイントの相対距離情報の距離ベクトルをステッチし、融合された特徴マップを取得し、融合された特徴マップと第４特徴マップに対して特徴融合を再び行い、畳み込みレイヤを介して、再び融合して取得した、融合した特徴マップについて特徴を抽出することで、ターゲット特徴マップを取得してもよい。もちろん、電子装置は、融合された特徴マップ及び相対距離情報に基づいて、ターゲット特徴マップを取得してもよい。例えば、電子装置は、第１特徴ポイントの特徴ベクトルと第１特徴ポイントの相対距離情報の距離ベクトルをステッチし、融合した特徴マップを取得し、融合した特徴マップと相対距離情報に対して特徴融合を再び行い、畳み込みレイヤを介して、再び融合して取得した、融合された特徴マップから特徴を抽出することで、ターゲット特徴マップを取得してもよい。

４番目の方式の有益な効果は、次の通りである。

電子装置は、第４特徴マップとイメージの相対距離情報を取得し、第４特徴マップと相対距離情報をステッチして、ターゲット特徴マップを取得することで、ターゲット特徴マップが、イメージの各ピクセル間の距離を表現可能にし、後続する全体作業において、相対距離情報に基づいて、効率よく行い、後続する視線推定の正確度を向上させることができる。

また、第２特徴ポイントと隣接するポイント間の距離に基づいて、相対距離情報を取得することができ、第４特徴マップは、ダウンサンプリングを介して取得した、縮小された低解像度特徴マップであり、それから第１特徴ポイントの特徴ベクトル及び相対距離情報を含むターゲット特徴マップを最終的に取得するので、ターゲット特徴マップで大量の情報量を保持し、処理すべきイメージを縮小するとき情報を保持し難いという問題を効率よく解決できる。

また、以前の技術は、相対的な距離情報が存在しないか、イメージの特徴と距離の特徴を分離していないため、後続する作業で特徴マップを用いて作業を行うとき、相対的に硬直されている。一方で、本明細書において、イメージ特徴を示す第４特徴マップと相対距離情報を分離し、２種類の特徴を結合して、新しい特徴、言い換えれば、ターゲット特徴マップを取得することにより、必要に応じて相対距離情報を柔軟に処理できることから、視線推定の柔軟性を向上させることができる。

また、少なくとも１つの距離関数値の数量は、少なくとも１つの距離の数量より多くてもよく、距離の数量が少ない場合にも、より多い又は大量の距離関数値を取得することができるため、距離情報が消滅しないようにし、イメージ特徴、相対距離情報など正確な表現を実現して、後続視線推定の正確度及び特徴マップ取得の柔軟性を向上させることができる。

５番目の方式で、ステップＳ２０２の５番目の方式に対応し、電子装置は、第１加重値マップ及び第５特徴マップに基づいて、ターゲット特徴マップを取得することができる。

電子装置は、第１加重値マップに基づいて第５特徴マップに加重値を付与し、現在のターゲット特徴マップを取得することができる。例示的に、電子装置は、第１加重値マップ及び第５特徴マップを対応するようにポイント乗算を行い、ターゲット特徴マップを取得することができる。

電子装置は、Ｇａｚｅ３６０モデルと空間集中メカニズムに基づいた、視線推定方法を用いてもよい。ここで、集中メカニズムは、畳み込みにより取得した畳み込み特徴マップに適用され、例えば、第５特徴マップは、ＣＮＮネットワークに基づいて取得した中間特徴マップ又は最終特徴マップであってもよい。図６に示すように、ここで、各顔イメージ６１０に対して畳み込みバックボーンネットワークを用いて、特徴マップを取得した後で、再び畳み込みネットワークを用いて、特徴マップから特徴を抽出して、加重値マップ、言い換えれば、第１加重値マップを取得することができる。電子装置は、第１加重値マップ及び特徴マップに対してベクトル乗算（ｅｌｅｍｅｎｔ－ｗｉｓｅｍｕｌｔｉｐｌｉｃａｔｉｏｎ）を行って、新しい特徴マップを取得することができる。新しい特徴マップは、再び後続の双方向ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）ネットワークに送信されて、視線方向を推定し、双方向ＬＳＴＭネットワークの出力は、完全接続レイヤを経て、視線推定結果を取得することができる。例えば、視線推定結果は、視線の方向、信頼度などを含んでもよい。

５番目の方式の有益な効果は、次の通りである。

電子装置は、空間集中メカニズムを追加して、イメージ内の各位置の重要情報を含む位置特徴及びイメージ特徴に基づいて、ターゲット特徴マップを取得するようにし、情報の豊かな位置であるほど、さらに高い重要度を付与し、視線推定により、核心的な情報を選択可能にし、不要な情報を抑制することで、視線推定の堅固性を向上させ得る。また、電子装置は、イメージの第１加重値マップに基づいて、各位置の重要情報を正確に表現することができ、第１加重値マップに基づいて、第５特徴マップに加重値を付与して、ターゲット特徴マップを取得できるため、ターゲット特徴マップが、イメージの重要かつ核心的な情報を正確に表現可能にし、視線推定の正確度を向上させ得る。

６番目の方式で、ステップＳ２０２の６番目の方式に対応し、電子装置は、イメージの第２加重値マップ及び第６特徴マップに基づいて、ターゲット特徴マップを取得することができる。

電子装置は、第２加重値マップに基づいて、第６特徴マップに加重値を付与し、現在のターゲット特徴マップを取得することができる。

一実施形態において、第６特徴マップは、少なくとも２つの畳み込みレイヤを介して、イメージから特徴抽出して、取得したものである。電子装置は、第２加重値マップ及び第６特徴マップを取得する過程のうち中間特徴マップを用いて、ターゲット特徴マップを取得することができる。６番目の方式では、ステップＳ２０３で、電子装置は、中間特徴マップ及び第２加重値マップに基づいて、第７特徴マップを取得することができる。ここで、第６特徴マップは、少なくとも２つの畳み込みレイヤで、イメージから特徴を抽出し、取得されるものであり、中間特徴マップは、少なくとも２つの畳み込みレイヤのターゲットレイヤによって出力された特徴マップであってもよい。電子装置は、第６特徴マップと第７特徴マップに基づいて、ターゲット特徴マップを取得することができる。一実施形態において、電子装置は、第２加重値マップに基づいて、中間特徴マップに加重値を付与し、第７特徴マップを取得することができる。電子装置は、第７特徴マップと第６特徴マップをステッチし、ターゲット特徴マップを取得することができる。例示的に、加重処理過程は、電子装置が、第２加重値マップ及び中間特徴マップに対してポイント－ワイズ乗算を行い、第７特徴マップを取得することを含む。

異なる例示において、電子装置は、第２加重値マップに基づいて、中間特徴マップに加重値を付与し、第７特徴マップを取得することができる。電子装置は、畳み込みレイヤを介して、第７特徴マップから特徴を抽出し、第１０特徴マップを取得してもよい。更なる例示において、電子装置は、第１０特徴マップと第６特徴マップをステッチし、ターゲット特徴マップを取得してもよい。

ターゲットレイヤは、必要に応じて構成され、本明細書の実施形態においては、これを制限しない。例えば、ターゲットレイヤは、ターゲット特徴データを抽出する特徴抽出レイヤ、又は、固定されたネットワーク位置に位置する特徴抽出レイヤであってもよい。

図８に示すように、電子装置は、顔イメージ８１０に対して目を検出して、目の位置を取得し、目の位置に基づいて、目の位置の加重値を強調する第２加重値マップを取得することができる。そして、電子装置は、第２加重値マップに基づいて畳み込みネットワークから抽出した特徴に加重値を付与し、最終的に取得したターゲット特徴マップを、後続する双方向ＬＳＴＭネットワークに入力し、視線推定を行うことができる。例えば、電子装置は、ターゲット特徴マップを、双方向ＬＳＴＭネットワークに入力し、ＬＳＴＭネットワークで出力した結果が完全接続レイヤ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）を経ることにより、イメージの視線方向及び信頼度を取得することができる。

ここで、電子装置は、加重処理された特徴マップを畳み込みネットワークで最終的に出力した特徴マップとステッチし、ターゲット特徴マップを取得することができる。例示的に、図８に示すように、電子装置は、畳み込みバックボーンネットワークを用いて、顔イメージ８１０の特徴を抽出し、抽出された特徴を、目の領域の加重値を介して加重処理し、抽出された特徴と加重処理された特徴マップをステッチし、ターゲット特徴マップを取得することができる。図９に示すように、電子装置は、畳み込みバックボーンネットワークの予め設定されたいずれかの畳み込みレイヤから抽出した中間特徴マップと第２加重値マップに対して、ポイント乗算９１０を行って、加重処理された特徴マップを取得し、畳み込みネットワークを引き続き用いて、加重処理された特徴マップから特徴を抽出し、処理された特徴マップと畳み込みバックボーンネットワークで最終的に出力した特徴マップをステッチし、ターゲット特徴マップを取得してもよい。

一実施形態において、電子装置は、上述した６種類の方式を結合することができる。例えば、電子装置は、上述した６種類の方式のうち２つ以上の方式を結合し、ターゲット特徴マップを取得することができる。例示的に、電子装置は、４番目の方式と５番目の方式を結合してもよい。例えば、電子装置は、イメージの第４特徴マップとピクセルとの間の相対距離情報に基づいて、第１１特徴マップを取得し、第１１特徴マップに基づいて、イメージの第１加重値マップを取得してもよい。電子装置は、第１加重値マップと第１１特徴マップに基づいて、ターゲット特徴マップを取得してもよい。４番目の方式と６番目の方式を結合できることも、もちろんである。又は、３番目の方式と４番目の方式を結合してもよい。代替的に、最初の方式、２番目の方式などは、全てそれぞれ４番目の方式と結合されてもよい。本明細書の実施形態は、上述した４番目及び５番目の方式を結合することについて、例示して、説明した。但し、ステップＳ２０２とステップＳ２０３のうち６種類の方式である方式を結合し、具体的にどのように結合して、結合した後、いかなる順序に実行するか、に対する特別な制限はない。

６番目の方式の有益な効果は、次の通りである。

位置特徴は、目の位置に対する重要情報を含んでもよく、目の位置に対する重要情報とイメージ特徴に基づいて、視線を推定し、イメージのうち特定位置まで重要情報を付与し、意図的に目の部分に対して、視線推定において、より核心的な情報を細分化して、視線推定の堅固性を向上させることができる。また、目の部分の位置を検出し、目の部分に対する第２加重値マップの形式により、イメージの目の領域に、さらに高い重要度を正確に付与し、第２加重値マップで、第６特徴マップに加重値を付与し、ターゲット特徴マップを取得することで、ターゲット特徴マップが、目の部分に対する重要かつ核心的な情報を、より正確に表現して、目の視線を推定することで、より優れた眼球運動の表現を取得することができ、視線推定の正確度を向上させ得る。

ステップＳ２０４において、電子装置は、ターゲット特徴マップに基づいて、イメージに対する視線推定を行う。

電子装置は、ターゲット特徴マップに基づいて、視線を推定して、視線推定結果を取得することができ、このような視線推定結果は、視線方向及び信頼度を含む。例示的に、視線方向は、視線のピッチ角及びヨー角を含み、信頼度は、視線方向の信頼度を含む。

例示的に、前述のステップＳ２０２及びステップＳ２０３の最初の方式、２番目の方式及び３番目の方式について、電子装置は、視線推定を行うためにトランスフォーマーモデルを使用することができる。例えば、３番目の方式では、トランスフォーマーモデルの完全接続レイヤを介して、ターゲット特徴マップに対する視線推定結果を出力し、例えば、イメージのうち目標とするオブジェクトの視線方向と信頼度を出力することができる。

一実施形態において、電子装置は、イメージのうちターゲット部分の姿勢を結合して、視線を推定してもよい。このような場合、ステップＳ２０４は、電子装置が、ターゲット特徴マップ及びターゲット姿勢情報に基づいて、イメージに対する視線推定を行うことを含んでもよく、ここで、ターゲット姿勢情報は、イメージのうちターゲット部分の姿勢情報を意味する。一実施形態において、ターゲットの部分は、頭の部分を含んでもよい。例えば、上述した最初の方式及び３番目の方式に対応して、即ち、顔の正面特徴に基づいて、ターゲット特徴マップを取得するとき、電子装置は、イメージで頭姿勢をさらに取得し、後続ステップで、頭姿勢に基づいて、初期の視線推定結果を調整可能にする。ステップＳ２０４は、電子装置が、ターゲット特徴マップに対して視線推定を行って、第１視線情報を取得し、電子装置が、頭姿勢及び第１視線情報に基づいて、イメージに対応する第２視線情報を取得することを含む。ここで、頭姿勢は、頭の角度を含むが、例えば、頭の垂直方向の角度、水平方向の角度などを含んでもよい。又は、電子装置は、頭姿勢パラメータ（ｈｅａｄｐｏｓｅｐａｒａｍｅｔｅｒ）を用いて、頭姿勢も示すことができるため、例えば、頭姿勢パラメータには、ヨー（ｙａｗ）、ピッチ（ｐｉｔｃｈ）、及びロール（ｒｏｌｌ）が含まれ、これらは、各顔の平面回転、上下反転、左右反転角度を意味する。第１視線情報は、第１視線角度を含んでもよく、電子装置は、頭の角度に応じて、第１視線情報のうち、第１視線角度を調整して、第２視線情報を取得し、ここで、第２視線情報は、第２視線角度を含んでもよい。例示的に、第２視線情報は、信頼度をさらに含んでもよい。もちろん、ターゲットの部分は、他の部分であってもよく、本明細書の実施形態においては、頭を例示にして説明したが、ターゲットの部分が示す具体的な部位については、特に制限されない。

一実施形態において、上述したステップＳ２０２及びステップＳ２０３の４番目の方式に対応して、電子装置は、ＣＮＮネットワークのダウンサイズネットワーク（ＤｏｗｎｓｉｚｅＮＥＴ）を介して、イメージ特徴及び相対距離情報を含むターゲット特徴マップを取得し、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）ネットワーク、ＶＧＧ１６ネットワーク、又はＲｅｓＮｅｔなど、ネットワークモデルを介して、ターゲット特徴マップに基づいて、視線を推定することができる。

上述したステップＳ２０２及びステップＳ２０３の５番目の方式で、電子装置は、Ｇａｚｅ３６０モデルに追加された空間集中メカニズムに基づいて行われるが、例えば、ＣＮＮネットワークを介して、第１加重値マップに基づいて、加重値を付与し、ターゲット特徴マップを取得することができる。上述したステップＳ２０２及びステップＳ２０３の６番目の方式で、電子装置は、Ｇａｚｅ３６０モデルによって追加された目の領域に対する空間集中メカニズムを基盤とすることができる。例えば、電子装置は、ＣＮＮネットワークを介して、第２加重値マップに加重値を付与し、ターゲット特徴マップを取得することができる。５番目及び６番目の方式の場合、取得したターゲット特徴マップを、双方向ＬＳＴＭネットワークに入力することができる。

前記の６種類の方式のうち任意の二種類を結合する場合、図１０に示すように、先に、ダウンサイズネットワーク１０１０を介して、相対距離情報を含む特徴マップを取得した後、集中メカニズム１０２０に基づいて、視線を推定することができる。例えば、前記の４番目の方式を用いて、ダウンサイズネットワーク１０１０を介して、相対距離情報を含む特徴マップを取得することができる。上述した最初、２番目、３番目、５番目、及び６番目の方式のいずれか１つを介して、集中メカニズム１０２０に基づいて、ターゲット特徴マップを取得し、ターゲット特徴マップに基づいて、視線推定を行うことができる。例えば、電子装置は、上述した４番目の方式を介して、相対距離情報を含む特徴マップを取得し、６番目の方式を介して、目の位置に対してイメージの第２加重値マップを取得し、相対距離情報を含む特徴マップ及び第２加重値マップに基づいて、最終ターゲット特徴マップを取得することができる。４番目の方式は、最初、２番目、及び３番目の方式と結合してもよく、具体的な結合方式は、４番目の方式と６番目の方式の結合方式と同一であることは、もちろん、重複する説明は省略する。上述した６種類の方式の間は、互いに結合され、本明細書の実施形態である方式を結合する。具体的に、どのように結合して結合した後、いかなる順序に実行するか、については特に制限されない。

本明細書は、３次元視線推定システムに使用され得る。与えられた隣接する数個のフレームの顔イメージは、イメージ特徴の空間関係及び時間関係を効率よく利用することができる。例えば、本明細書の最初の方式と３番目の方式は、顔の正面特徴を取得し、顔の正面特徴に基づいて、ターゲット特徴マップを取得することができる。ターゲットオブジェクトの頭姿勢の移動が大きい場合（例えば、左側に傾いたり、頭を下げる場合、など）にも、本明細書の視線推定方法が、実現され得る。したがって、本明細書の実施形態の視線推定方法は、頭姿勢が大きい状況においても処理可能であるため、堅固性が高い。例えば、本明細書の最初の方式によるイメージの縮小方法は、モデルの実行速度を向上させると同時に、イメージ情報を良好に格納して、正確度の損失を最小化できる。例えば、最初の方式、３番目の方式、６番目の方式の場合、目の位置、目鼻立ちの位置など、重要な位置について、更に多い注意を注ぐことができ、関連する技術のうち、目のような重要領域に注意を注がなかった場合と比較すると、本明細書は、より正確な視線推定結果を取得することができる。本明細書で説明された事項は、人の集まりのある場所で挨拶するとき、又は、自動車ヘッドアップディスプレイに適用されてもよい。視線推定は、また、ヒト－コンピュータの相互作用方式で、指で指す相互作用よりも、さらに明確に示し、相互作用が、さらに便利な長所がある。

本明細書で提供する視線推定方法は、アテンション情報又はピクセル間の距離のうち少なくとも１つを含む、イメージのターゲット情報を取得することで、アテンション情報の取得を介して、イメージのうち識別力のある情報を取得し、ピクセル間の距離の取得を介して、イメージの情報損失を最小化することができる。また、視線推定方法は、ターゲット情報に基づいて、イメージのターゲット特徴マップを取得することで、ターゲット特徴マップがイメージのうち識別力のある情報など、より多くの情報を効率よく表現することができ、ターゲット特徴マップに基づいて、イメージに対して視線推定を行うことで、イメージのうち、目の視線をより正確に推定し、視線推定の正確度を向上させることができる。

図１１は、一実施形態に係る電子装置を示す図である。

図１１を参照すると、一実施形態に係る電子装置１１００は、メモリ１１１０及びプロセッサ１１２０を含む。メモリ１１１０及びプロセッサ１１２０は、バス（ｂｕｓ）、ＰＣＩｅ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔＥｘｐｒｅｓｓ）及び／又はＮｏＣ（ＮｅｔｗｏｒｋｏｎａＣｈｉｐ）などを介して、通信することができる。例えば、電子装置１１００は、携帯電話、スマートフォン、タブレット、電子ブック装置、ラップトップ、パーソナルコンピュータ、デスクトップ、ワークステーション、又はサーバのような様々なコンピューティング装置、スマートウォッチ、スマートメガネ、ＨＭＤ（Ｈｅａｄ－ＭｏｕｎｔｅｄＤｉｓｐｌａｙ）、又は、スマート衣類のような様々なウェアラブル機器、スマートスピーカ、スマートＴＶ、又は、スマート冷蔵庫のような、様々な家電装置、スマート自動車、スマートキオスク、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）機器、ＷＡＤ（ＷａｌｋｉｎｇＡｓｓｉｓｔＤｅｖｉｃｅ）、ドローン、又は、ロボットを含んでもよい。

メモリ１１１０は、コンピュータで読出し可能な命令語を含んでもよい。プロセッサ１１２０は、メモリ１１１０に格納されている命令語が、プロセッサ１１２０で行われることにより先に言及した動作を行う。メモリ１１１０は、揮発性メモリ又は不揮発性メモリであってもよい。

プロセッサ１１２０は、命令語あるいはプログラムを実行し、または、電子装置１１００を制御する装置であって、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）及び／又はＧＰＵ（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）など、を含んでもよい。プロセッサ１１２０は、オブジェクトの目が含まれているイメージのターゲット情報を取得し、ターゲット情報に基づいて、イメージで目に関する情報を表現するターゲット特徴マップを取得し、ターゲット特徴マップに基づいて、イメージに含まれている目に対する視線推定を行う。ターゲット情報は、イメージに対するアテンション情報及びイメージ内のピクセル間の距離のいずれか１つ又は２以上を含む。

その他、電子装置１１００に関しては、上述した動作を処理することができる。

以上で説明された実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又は、ハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答して、データをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は、１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことを把握する。例えば、処理装置は、複数のプロセッサ、又は１つのプロセッサ、及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうち一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成し、または、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈され、または、処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は、送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアは、ネットワークに連結されたコンピュータシステム上に分散され、または、分散した方法で格納されて、実行され得る。ソフトウェア及びデータは、一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及び、ＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。

前記で説明したハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述のように、実施形態が限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、前記の説明に基づいて、様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が、説明された方法と異なる順に実行され、及び／又は、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態に結合又は組み合わせられてもよく、他の構成要素又は均等物によって置き換え又は置換されたとしても、適切な結果を達成することができる。

したがって、他の具現、他の実施形態、および特許請求の範囲と均等なものも、また、後述する特許請求範囲の範囲に属する。

１０１、１０２電子装置
３１０生成器
３５０第１正面イメージ
３６０判別器
３７０実際のイメージ
６１０顔イメージ
７１０空間トランスフォーマーネットワーク
８１０顔イメージ
９１０ポイント乗算
１１００電子装置

Claims

電子装置によって行われる方法であって、
目の含まれているイメージのターゲット情報を取得する動作と、
前記ターゲット情報に基づいて、前記イメージで前記目に関する情報を表現するターゲット特徴マップを取得する動作と、
前記ターゲット特徴マップに基づいて、前記イメージ内の前記目に対する視線推定を行う動作と、
を含み、
前記ターゲット情報は、前記イメージに対するアテンション情報と前記イメージ内のピクセルとの間の距離のいずれか１つ又は２以上を含む、
方法。
前記アテンション情報は、少なくとも２つのフレームのイメージ間の時間関係情報を含み、
前記ターゲット特徴マップを取得する動作は、前記少なくとも２つのフレームのイメージの第１特徴マップと前記少なくとも２つのフレームのイメージとの間の時間関係情報に基づいて、前記イメージのターゲット特徴マップを取得する、
請求項１に記載の方法。
前記アテンション情報は、顔又は頭の顔の正面特徴を含み、
前記ターゲット特徴マップを取得する動作は、
前記イメージの特定部分の第２特徴マップ及び前記顔の正面特徴に基づいて、前記ターゲット特徴マップを取得し、
前記特定部分は、前記顔又は頭の目、口、鼻、耳、及び眉毛部分のうち１つ又は２以上を含む、
請求項１に記載の方法。
前記アテンション情報は、少なくとも２つのフレームのイメージ間の時間関係情報及び前記顔又は頭の顔の正面特徴を含み、
前記ターゲット特徴マップを取得する動作は、
前記顔の正面特徴及び前記イメージの部分の第２特徴マップに基づいて前記イメージの第３特徴マップを取得し、
前記少なくとも２つのフレームのイメージの第３特徴マップと前記少なくとも２つのフレームのイメージとの間の時間関係情報に基づいて前記ターゲット特徴マップを取得する、
請求項３に記載の方法。
前記顔の正面特徴は、
前記イメージの顔マップ及び顔マスクを取得する動作と、
前記イメージ、前記顔マップ、及び前記顔マスクに基づいて、第１正面イメージを取得する動作と、
前記第１正面イメージに基づいて、前記顔の正面特徴を取得する動作と、
に基づいて決定され、
前記顔マップは、前記イメージで前記顔の各ピクセルのオフセットを含み、
前記顔マスクは、前記イメージで顔以外の領域を遮る、
請求項４に記載の方法。
前記第１正面イメージを取得する動作は、
前記イメージ、前記顔マップ、及び前記顔マスクに基づいて、顔データの領域を含む第２正面イメージを取得し（前記顔データの領域は、顔データのないホール領域を囲む）、
前記第２正面イメージに基づいて、前記第２正面イメージのホールマスク及び第３正面イメージを取得し、
前記第２正面イメージ、前記ホールマスク、及び前記第３正面イメージに基づいて、前記第１正面イメージを取得し、
前記ホールマスクは、前記第２正面イメージでホール領域以外のイメージ領域を遮り、
前記第３正面イメージは、前記第２正面イメージでホール領域の位置に対応するイメージ領域を含む、
請求項５に記載の方法。
前記ターゲット情報は、ピクセル間の距離を含み、
前記ターゲット特徴マップを取得する動作は、前記イメージの第４特徴マップ及び前記ピクセル間の相対距離情報に基づいて、前記ターゲット特徴マップを取得する、
請求項１に記載の方法。
前記ターゲット情報は、加重値情報を含み、
前記ターゲット情報を取得する動作は、前記イメージの第５特徴マップに基づいて、前記イメージの第１加重値マップを取得し、
前記ターゲット特徴マップを取得する動作は、前記第１加重値マップ及び前記第５特徴マップに基づいて、前記ターゲット特徴マップを取得する、
請求項１に記載の方法。
前記アテンション情報は、加重値情報を含み、
前記ターゲット情報を取得する動作は、前記イメージのうち目の位置に基づいて、第２加重値マップを取得し、
前記ターゲット特徴マップを取得する動作は、前記第２加重値マップ及び前記イメージの第６特徴マップに基づいて、前記ターゲット特徴マップを取得し、
前記第６特徴マップは、少なくとも２つの畳み込みレイヤを介して、前記イメージから特徴を抽出して取得される、
請求項１に記載の方法。
前記ターゲット特徴マップを取得する動作は、
前記第２加重値マップ及び中間特徴マップに基づいて、第７特徴マップを取得し、
前記第６特徴マップ及び前記第７特徴マップに基づいて、前記ターゲット特徴マップを取得し、
前記中間特徴マップは、前記少なくとも２つの畳み込みレイヤのうちターゲットレイヤによって出力された特徴マップである、
請求項９に記載の方法。
前記視線推定を行う動作は、
前記ターゲット特徴マップ及びターゲット姿勢情報に基づいて、前記イメージに対して視線推定を行い、
前記ターゲット姿勢情報は、前記イメージのうちターゲット部分の姿勢情報である、
請求項１に記載の方法。
請求項１～請求項１１のいずれか一項に記載の方法を実行するコンピュータプログラムを格納するコンピュータ読み取り可能な記録媒体。
プロセッサと、
前記プロセッサによって実行可能な命令語を含むメモリと、
を含み、
前記命令語が前記プロセッサによって実行されると、前記プロセッサは、
目の含まれているイメージのターゲット情報を取得し、
前記ターゲット情報に基づいて、前記イメージ内の前記目に関する情報を表現するターゲット特徴マップを取得し、
前記ターゲット特徴マップに基づいて、前記イメージに含まれている前記目に対する視線推定を行い、
前記ターゲット情報は、前記イメージに対するアテンション情報と前記イメージ内のピクセルとの間の距離のいずれか１つ又は２以上を含む、
電子装置。
前記アテンション情報は、少なくとも２つのフレームのイメージ間の時間関係情報を含み、
前記プロセッサは、前記少なくとも２つのフレームのイメージの第１特徴マップと前記少なくとも２つのフレームのイメージとの間の時間関係情報に基づいて前記イメージのターゲット特徴マップを取得する、
請求項１３に記載の電子装置。
前記アテンション情報は、頭又は顔の正面特徴を含み、
前記プロセッサは、
前記イメージの特定部分から取得された第２特徴マップ及び前記顔の正面特徴に基づいて、前記ターゲット特徴マップを取得し、
前記特定部分は、前記頭又は顔の目、口、鼻、耳、及び眉毛部分のうち１つ又は２以上を含む、
請求項１３に記載の電子装置。
前記アテンション情報は、少なくとも２つのフレームのイメージ間の時間関係情報及び前記顔又は頭の顔の正面特徴を含み、
前記プロセッサは、
前記顔の正面特徴及び前記イメージの特定部分の第２特徴マップに基づいて、前記イメージの第３特徴マップを取得し、
前記少なくとも２つのフレームのイメージの第３特徴マップと前記少なくとも２つのフレームのイメージとの間の時間関係情報に基づいて、前記ターゲット特徴マップを取得する、
請求項１５に記載の電子装置。
前記顔の正面特徴は、
前記イメージの顔マップ及び顔マスクを取得する動作と、
前記イメージ、前記顔マップ、及び前記顔マスクに基づいて、第１正面イメージを取得する動作と、
前記第１正面イメージに基づいて、前記顔の正面特徴を取得する動作と、
に基づいて決定され、
前記顔マップは、前記イメージで前記顔の各ピクセルのオフセットを含み、
前記顔マスクは、前記イメージで顔以外の領域を遮る、
請求項１６に記載の電子装置。
前記プロセッサは、
前記イメージ、前記顔マップ、及び前記顔マスクに基づいて顔領域にホールが存在する第２正面イメージを取得し（前記ホールは、前記イメージ、前記顔マップ、及び前記顔マスクに基づいて生成されていない前記第２正面イメージの領域を含む）、
前記第２正面イメージのホールに基づいて、前記第２正面イメージのホールマスク及び第３正面イメージを取得し、
前記第２正面イメージ、前記ホールマスク、及び前記第３正面イメージに基づいて前記第１正面イメージを取得し、
前記第３正面イメージは、前記第２正面イメージでホール位置に対応するイメージ領域を含む、請求項１７に記載の電子装置。
前記ターゲット情報は、ピクセル間の距離を含み、
前記プロセッサは、
前記イメージの第４特徴マップと前記ピクセルとの間の相対距離情報に基づいて、前記ターゲット特徴マップを取得する、
請求項１３に記載の電子装置。
前記ターゲット情報は、加重値情報を含み、
前記プロセッサは、
前記イメージの第５特徴マップに基づいて前記イメージの第１加重値マップを取得し、
前記第１加重値マップ及び前記第５特徴マップに基づいて前記ターゲット特徴マップを取得する、
請求項１３に記載の電子装置。