JP2023082675A - 視線を推定する装置及び方法 - Google Patents

視線を推定する装置及び方法 Download PDF

Info

Publication number
JP2023082675A
JP2023082675A JP2022188139A JP2022188139A JP2023082675A JP 2023082675 A JP2023082675 A JP 2023082675A JP 2022188139 A JP2022188139 A JP 2022188139A JP 2022188139 A JP2022188139 A JP 2022188139A JP 2023082675 A JP2023082675 A JP 2023082675A
Authority
JP
Japan
Prior art keywords
image
feature map
face
obtaining
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022188139A
Other languages
English (en)
Inventor
リ ウエイミン
Weiming Li
ワン チアン
Qiang Wang
現盛 張
Hyun-Sung Chang
知▲よん▼ 金
Jiyeon Kim
性勳 洪
Sung-Hoon Hong
マ リン
Ma Ling
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202111463213.4A external-priority patent/CN116229558A/zh
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2023082675A publication Critical patent/JP2023082675A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Ophthalmology & Optometry (AREA)
  • Image Analysis (AREA)

Abstract

【課題】視線を推定する電子装置及び方法を開示する。【解決手段】電子装置によって行われる方法は、目の含まれているイメージのターゲット情報を取得する動作と、ターゲット情報に基づいてイメージで目に関する情報を表現するターゲット特徴マップを取得する動作と、ターゲット特徴マップに基づいてイメージ内の目に対する視線推定を行う動作と、を含む。ターゲット情報は、イメージに対するアテンション情報及びイメージ内のピクセル間の距離のいずれか1つ又は2以上を含む。【選択図】 図2

Description

本発明は、視線を推定する装置及び方法に関する。
視線推定を介してユーザの目が注目している情報(例えば、ユーザの視覚的な注目又は焦点が向かっている箇所)が決定される。視線推定方法は、拡張現実、ヒト-コンピュータにおける相互作用のような様々な分野で広範囲な応用に活用されている。視線推定の正確度を向上するための様々な研究が進められている。
本発明は、視線推定を介してユーザの視線を高い正確度で推定するため求められている、多くの演算量及び長い演算時間を解決する。
本文書に開示される様々な実施形態に従って、ツーステップトランスフォーマーを用いて時空間関係を示す視線推定装置及び方法が提供される。
一実施形態に係る電子装置によって行われる方法は、目の含まれているイメージのターゲット情報を取得する動作と、前記ターゲット情報に基づいて前記イメージで前記目に関する情報を表現するターゲット特徴マップを取得する動作と、前記ターゲット特徴マップに基づいて前記イメージ内の前記目に対する視線推定を行う動作とを含み、前記ターゲット情報は、前記イメージに対するアテンション情報と前記イメージ内のピクセルとの間の距離のいずれか1つ又は2以上を含む。
前記アテンション情報は、少なくとも2つのフレームのイメージ間の時間関係情報を含み、前記ターゲット特徴マップを取得する動作は、前記少なくとも2つのフレームのイメージの第1特徴マップと前記少なくとも2つのフレームのイメージとの間の時間関係情報に基づいて、前記イメージのターゲット特徴マップを取得することができる。
前記アテンション情報は、前記顔又は頭の顔の正面特徴を含み、前記ターゲット特徴マップを取得する動作は、前記イメージの特定部分の第2特徴マップ及び前記顔の正面特徴に基づいて、前記ターゲット特徴マップを取得し、前記特定部分は、前記顔又は頭の目、口、鼻、耳、及び眉毛部分のうち1つ又は2以上を含むことができる。
前記アテンション情報は、少なくとも2つのフレームのイメージ間の時間関係情報及び前記顔又は頭の顔の正面特徴を含み、前記ターゲット特徴マップを取得する動作は、前記顔の正面特徴及び前記イメージの部分の第2特徴マップに基づいて前記イメージの第3特徴マップを取得し、前記少なくとも2つのフレームのイメージの第3特徴マップと前記少なくとも2つのフレームのイメージとの間の時間関係情報に基づいて前記ターゲット特徴マップを取得することができる。
前記顔の正面特徴は、前記イメージの顔マップ及び顔マスクを取得する動作と、前記イメージ、前記顔マップ、及び前記顔マスクに基づいて第1正面イメージを取得する動作と、前記第1正面イメージに基づいて前記顔の正面特徴を取得する動作と、に基づいて決定され、前記顔マップは、前記イメージで前記顔の各ピクセルのオフセットを含み、前記顔マスクは、前記イメージで顔以外の領域を遮ることができる。
前記第1正面イメージを取得する動作は、前記イメージ、前記顔マップ、及び前記顔マスクに基づいて顔データの領域を含む第2正面イメージを取得し(前記顔データの領域は、顔データのないホール領域を囲む)、前記第2正面イメージに基づいて前記第2正面イメージのホールマスク及び第3正面イメージを取得し、前記第2正面イメージ、前記ホールマスク、及び前記第3正面イメージに基づいて前記第1正面イメージを取得し、前記ホールマスクは、前記第2正面イメージでホール領域以外のイメージ領域を遮り、前記第3正面イメージは、前記第2正面イメージでホール領域の位置に対応するイメージ領域を含むことができる。
前記ターゲット情報は、ピクセル間の距離を含み、前記ターゲット特徴マップを取得する動作は、前記イメージの第4特徴マップ及び前記ピクセル間の相対距離情報に基づいて前記ターゲット特徴マップを取得することができる。
前記ターゲット情報は、加重値情報を含み、前記ターゲット情報を取得する動作は、前記イメージの第5特徴マップに基づいて、前記イメージの第1加重値マップを取得し、前記ターゲット特徴マップを取得する動作は、前記第1加重値マップ及び前記第5特徴マップに基づいて前記ターゲット特徴マップを取得することができる。
前記アテンション情報は、加重値情報を含み、前記ターゲット情報を取得する動作は、前記イメージのうち目の位置に基づいて、第2加重値マップを取得し、前記ターゲット特徴マップを取得する動作は、前記第2加重値マップ及び前記イメージの第6特徴マップに基づいて、前記ターゲット特徴マップを取得し、前記第6特徴マップは、少なくとも2つの畳み込みレイヤを介して、前記イメージから特徴を抽出して取得されることができる。
前記ターゲット特徴マップを取得する動作は、前記第2加重値マップ及び中間特徴マップに基づいて、第7特徴マップを取得し、前記第6特徴マップ及び前記第7特徴マップに基づいて、前記ターゲット特徴マップを取得し、前記中間特徴マップは、前記少なくとも2つの畳み込みレイヤのうちターゲットレイヤによって出力された特徴マップであってもよい。
前記視線推定を行う動作は、前記ターゲット特徴マップ及びターゲット姿勢情報に基づいて、前記イメージに対して視線推定を行い、前記ターゲット姿勢情報は、前記イメージのうちターゲット部分の姿勢情報であってもよい。
一実施形態に係る電子装置は、プロセッサと、前記プロセッサによって実行可能な命令語を含むメモリとを含み、前記命令語が前記プロセッサで実行されれば、前記プロセッサは、目の含まれているイメージのターゲット情報を取得し、前記ターゲット情報に基づいて前記イメージ内の前記目に関する情報を表現するターゲット特徴マップを取得し、前記ターゲット特徴マップに基づいて前記イメージに含まれている前記目に対する視線推定を行い、前記ターゲット情報は、前記イメージに対するアテンション情報と前記イメージ内のピクセルとの間の距離のいずれか1つ又は2以上を含む。
様々な実施形態によれば、連続しているフレームイメージに対する特徴マップに加重値マップを乗算して特徴マップを形成し、形成された特徴マップに基づいて正面の顔をGANを用いて推定し、推定された正面の顔を用いて視線を推定することで、相対的に低い演算量でも高い推定正確度を取得することができる。
一実施形態に係る視線を推定する電子装置の動作環境を説明するための図である。 一実施形態に係る電子装置の動作方法を示すフローチャートである。 一実施形態に係るイメージ内のホールを充填する過程を説明するための図である。 一実施形態に係るピクセル間の距離を説明するための図である。 一実施形態に係るターゲット特徴マップの取得過程を説明するための図である。 一実施形態に係る視線推定過程を説明するための図である。 一実施形態に係る空間関係を抽出するように構成された空間トランスフォーマーネットワークを説明するための図である。 一実施形態に係る視線推定する例を示す図である。 一実施形態に係るターゲット特徴マップの取得過程を説明するための図である。 一実施形態に係る視線推定動作を説明するための図である。 一実施形態に係る電子装置を示す図である。
実施形態に対する特定な構造的又は機能的な説明は、単なる例示のための目的として開示されたものであって、様々な形態に変更されることができる。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物、ないし代替物を含む。
本出願において、「A又はB」、「A及びBのうち少なくとも1つ」、「A又はBのうち少なくとも1つ」、「A、B又はC」、「A、B及びCのうち少なくとも1つ」、及び「A、B、又は、Cのうち少なくとも1つ」のような文句のそれぞれは、その文句のうち該当する文句に共に羅列された項目のいずれか1つ、又は、それらの全ての可能な組み合せを含む。第1又は第2などの用語を様々な構成要素を説明するために用いることがあるが、このような用語は、1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第1構成要素は、第2構成要素と命名することができ、同様に、第2構成要素は、第1構成要素にも命名することができる。
いずれかの構成要素が他の構成要素に「連結」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。
単数の表現は、文脈上、明白に異なる意味をもたない限り、複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
いずれかの実施形態に含まれる構成要素と、共同的な機能を含む構成要素は、他の実施形態において同じ名称を用いて説明することにする。いずれかの実施形態に記載した説明は、他の実施形態にも適用でき、重複する範囲で具体的な説明は省略することにする。
異なるように定義がなされない限り、技術的又は科学的な用語を含んで、ここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されなければならず、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
以下、添付する図面を参照しながら実施形態を詳細に説明する。添付図面を参照して説明することにおいて、図面符号に関わらず同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。
本明細書で説明する視線推定方法は、人工知能技術、マシンラーニング及びコンピュータビジョン技術などを活用することができる。例えば、人工知能技術を用いてイメージから目の視線方向を認知し、推定することができる。例えば、コンピュータビジョン技術のうちイメージ認識及びイメージ意味論的理解のような技術を用いて、イメージから抽出された特徴に基づいて視線推定が行われることができる。マシンラーニング/ディープラーニングのような技術で視線推定過程に対して強化学習が行われ、例えば、人工知能モデルを用いて大量のイメージに対する視線推定が行われる。AIモデル(artificial Intelligence model)は、トレーニングを介して取得されてもよい。ここで、「トレーニングを介した取得」とは、トレーニングアルゴリズムを介して1つ以上のトレーニングデータで基本AIモデルを訓練させ、所望する特徴(又は、目的)を行うように予め定義された動作規則又はAIモデルを取得することを意味する。AIモデルには、複数の神経網レイヤが含まれてもよい。複数の神経網レイヤそれぞれは、複数の加重値を含み、神経網演算は、以前レイヤの算出結果と複数の加重値との間の演算に基づいて行われることができる。
人工知能(artificial Intelligence、AI)方法及び/又はシステムは、環境を検出し、情報から学習し、学習された情報を用いて最適化された結果を取得するなどの作業を行う。AIモデル及びアルゴリズムは、様々な知能型機器の設計原理及び実現方式によって、機器に検出、推理、及び決定機能を付与することができる。
AI技術は、センサ、専用AIチップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理技術、動作/相互作用システム、及び電気機械的な統合といった、広範な技術分野に適用されてもよい。また、AI技術には、コンピュータビジョン技術、音声処理技術、自然言語処理技術、及びマシンラーニング/ディープラーニングといった、様々な技術を包括してもよい。本明細書において、コンピュータビジョン技術、マシンラーニング/ディープラーニング等に関するものであり得る。
機械学習(Machine Learning、ML)は、確率理論、統計学、近似理論、凸分析(convex analysis)、及びアルゴリズム複雑度理論のような様々な分野を扱っている。MLは、AIの様々な分野で適用されている。ML及びディープラーニングは、一般に、人工ニューラルネットワーク、ビリーフ・ネットワーク(belief network)、強化学習(reinforcement learning)、転移学習(transfer learning)、帰納学習(inductive learning)、教師なし学習(unsupervised learning)及び試演(demonstration)からの学習のような技術を含んでもよい。
コンピュータビジョン技術(ComputerVision、CV)は、マシンがイメージから情報を抽出する方法に関し、例えば、カメラとコンピュータを用いたマシンビジョンでターゲットを認識、追跡、又は測定し、グラフィック処理を行い、コンピュータ処理を介して機器を用いて検出するために適切なイメージを提供することができる。CV技術は、一般にイメージ処理、イメージ認識、イメージ意味論的理解、イメージ検索、OCR(optical character recognition)、映像処理、映像意味論的理解、映像コンテンツ/行動認識、3次元オブジェクト再構成、3D技術、仮想現実、拡張現実、同期ポジショニング及びマップ構成、自律走行、スマート交通などのみならず、顔認識及び指紋認識のような、生物学的特徴認識技術も含み得る。
以下で、図1を参照して電子装置の動作環境に対して説明する。
図1は、一実施形態に係る視線を推定する電子装置の動作環境を説明するための図である。
図1を参照すると、動作環境は、1つ以上の電子装置101を含む。電子装置101は、今後説明する視線推定方法に基づいてイメージからユーザの視線を推定することで、イメージのうち目の視線情報を取得してもよい。
図1に示すように、該当動作環境には、他の電子装置102をさらに含んでもよい。他の電子装置102は、電子装置101にイメージを提供することができる。電子装置101と他の電子装置102は、通信(例えば、ネットワーク)に接続されている。一例として、他の電子装置102は、電子装置101にイメージを送信し、電子装置101は、他の電子装置102から送信されたイメージを受信し、該当イメージに対して視線推定を行うことができる。異なる一例として、他の電子装置102は端末であってもよく、端末は、イメージを含む視線推定要求を電子装置101に送信することができる。例えば、端末は、携帯電話端末、車両端末などを含んでもよい。更なる一例として、他の電子装置102は、モデルトレーニングに使用されるイメージを電子装置101に送信し、電子装置101は、他の電子装置102から送信されたイメージに基づいて視線推定に使用される予め設定されたモデルをトレーニングし、トレーニングされたモデルを用いてイメージに対する視線推定を行うことができる。
本明細書で説明する視線推定方法は、様々なシナリオに適用可能な3D視線推定であってもよい。例えば、ヒト-コンピュータ相互作用シナリオにおいて、電子装置101は、本明細書の視線推定方法を用いて特定のユーザが注目していることが何かを推論し、その目的をさらに理解して対応する行動を取ることもできる。例えば、拡張現実(Augmented Reality、AR)の集まりの活動で、電子装置101は、本明細書の視線推定方法を使用し、どのような人が注目しているか、どのような人が挨拶するかを類推することができる。したがって、自ら握手をし、または、挨拶をすることができる。更なる例として、電子装置101は、補助運転で視線の方向を推定することによって、人の目が注目しているターゲットを把握することができ、それによって、対応する情報を提供することができる。
また、電子装置101は、データ処理機能を有するサーバ、サービスクラスタ、又は任意の電子機器であってもよい。サーバは、独立的な物理的サーバ、又は、様々な物理的サーバから構成されたサーバクラスタ又は分散システムであってもよく、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメインネームサービス、セキュリティーサービス、CDN(Content Delivery Network)、ビッグデータ、及び人工知能プラットフォームのような基本クラウドコンピューティングサービスを提供するクラウドサーバ又はサーバクラスタであってもよい。前述したネットワークは、有線ネットワーク及び無線ネットワークを含み、有線ネットワークは、近距離通信網、都市圏通信網、及び広域通信網を含み、無線ネットワークは、Bluetooth(登録商標)、Wi-Fi(登録商標)、及び無線通信を実現するその他のネットワークを含むが、これらに限定されることはない。他の電子装置102は、端末やカメラとして使用されてもよく、スマートフォン(Androidフォン、iOSフォンなど)、タブレットPC、ノート型パソコン、デジタル放送受信機、MID(Mobile Internet Devices)、PDA、デスクトップPC、車両端末(車両用ナビゲーション端末、車両用コンピュータなど)、スマートスピーカ、スマートウォッチなどであってもよいが、これらに限定されることはない。電子装置101とは異なる電子装置102は、有線又は無線通信を介して直接的又は間接的に接続されるが、これらに限定されることはない。具体的に、実際の応用シナリオの要求に応じて決定されてもよく、これに特に限定されない。数個の実施形態において、単一装置がイメージをキャプチャーして視線推定を行ってもよい。
以下、例示的な実施形態によって本明細書の実施形態の技術方案及びこれによる技術効果について説明する。次の実施形態は互いに参照し、または、結合してもよく、他の実施形態において、同一の用語、類似の特徴、及び類似の実現ステップに対する重複する説明は省略する。
図2は、一実施形態に係る電子装置の動作方法を示すフローチャートである。
以下、実施形態で各動作は、順次に行われてもよいが、必ず順次行われなくてもよい。例えば、各動作の順序が変更されてもよく、少なくとも2つの動作が並列的に行われてもよい。動作201~204は、電子装置の少なくとも1つの構成要素(例えば、プロセッサ、センサなど)によって行われてもよい。
ステップS201において、電子装置は、処理するイメージを取得する。
イメージは、目を含むイメージであってもよい。目は、任意のオブジェクトの目であってもよい。例えば、イメージは、ユーザの目のイメージ、アバターの目のイメージ(例えば、ユーザがゲームで使用している仮想ゲームキャラクター)、アニメーションキャラクターの目のイメージ、ペットの目のイメージなどを含むが、これらに限定されない。イメージは、顔又は顔の一部を含むイメージであってもよく、例えば、ユーザの顔イメージであってもよい。顔イメージに含まれているユーザの顔のうち、目の視線が推定されてもよい。もちろん、イメージは、1つ以上のオブジェクトの目又は1つ以上の顔を含んでもよく、本明細書の実施形態でイメージのうち目又は顔の個数は制限されない。イメージは、視線推定が行われる前にいつでもキャプチャーされ、例えば、格納装置、格納サービスなどで取得されてもよい。
イメージは、電子装置に予め格納されているイメージや、イメージ取得装置から取得したイメージであってもよい。第1シナリオにおいて、電子装置は、クライアントからイメージをリアルタイム取得し、イメージに対して視線推定を行い、視線推定結果を格納し、このような視線推定結果に基づいて後続過程を行うことができ、次のステップを行う他の装置又はクライアントで視線推定結果を再び送信してもよい。本明細書の実施形態において、イメージ取得方法及び視線推定結果を取得した後の過程については、具体的に制限されない。
ステップS202において、電子装置は、イメージのターゲット情報を取得する。
ターゲット情報は、アテンション情報(attention information)又はピクセル間の距離のうち少なくとも1つを含んでもよい。
一例として、アテンション情報は、顔の正面特徴を含んでもよい。異なる一例として、アテンション情報は、少なくとも2つのフレームのイメージ間の時間関係情報を含んでもよく、少なくとも2つのフレームのイメージは、先に説明したイメージ特徴を有してもよい。更なる一例として、アテンション情報は、少なくとも2つのフレームのイメージ間の時間関係情報及び顔の正面特徴を含んでもよい。本明細書において、2つのフレームのイメージは、2以上のフレームイメージを示す。
また、ターゲット情報は、ピクセル間の距離を含む。異なる一例として、ターゲット情報は、加重値情報を含んでもよい。前述した複数の可能状況に応じて、ステップS202、は次の6種類の方式で実現されることができる。
最初の方式として、アテンション情報は、顔の正面特徴を含むことができる。電子装置は、イメージ及びイメージの顔マップに基づいて、第1正面イメージを取得することができる。電子装置は、第1正面イメージに基づいて顔の正面特徴を取得することができる。
第1正面イメージは、イメージ内の顔の正面を含んでもよい。顔マップは、顔正面に対するイメージで顔の各ピクセルのオフセットを含んでもよい。電子装置は、顔マップに基づいてイメージで顔の各ピクセルをオフセットするで、第1正面イメージを取得することができる。
顔位置がオフセットされた後、ホール(hole)、輪郭線の脱落、ピクセルの脱落などが発生し得る。電子装置は、ホール、輪郭線の脱落、ピクセルの脱落など、オフセットされたイメージから脱落した部分をさらに充填し、全体の顔の正面イメージを取得することができる。電子装置が、イメージ及びイメージの顔マップに基づいて、第1正面イメージを取得する動作は、電子装置が、顔マップに基づいてイメージのうち顔の各ピクセルをオフセットして充填される位置を含む第2正面イメージを取得する動作、及び、電子装置が。第2正面イメージの省略されたり、脱落した部分を充填して第1正面イメージを取得する動作を含む。例示的に、省略されたり、脱落した部分を充填することは、第2正面イメージのうち充填される位置を補完し、全体の顔イメージを取得することを意味する。一例として、充填される位置は、ピクセルのオフセットによって発生したホール、輪郭線の脱落、ピクセルの脱落などを含むが、これらに限定されない。
一実施形態において、電子装置は、イメージの顔マスクを結合し、第1正面イメージを取得することができる。最初の方式において、ステップS202は、次のステップS2021A~S2023A(図示せず)を介して実現することができる。
ステップS2021Aにおいて、電子装置は、イメージの顔マップ及び顔マスクを取得する。
顔マスクは、イメージから顔以外のイメージ領域を遮るために使用される。電子装置は、イメージに基づいて顔マップ及び顔マスクを取得する。電子装置は、イメージの第8特徴マップを取得し、イメージの第8特徴マップに基づいてイメージの顔マップ及び顔マスクを取得することができる。
一実施形態において、電子装置は、トランスフォーマーネットワークを介して、ステップS2021Aを実現することができる。例えば、電子装置は、イメージをトランスフォーマーネットワークに入力し、トランスフォーマーネットワークのエンコーダを介して、イメージの第8特徴マップを取得し、第8特徴マップに基づいて、トランスフォーマーネットワークのうち、畳み込みレイヤ及び完全接続レイヤを介して、顔マップと顔マスクを取得することができる。
ステップS2022Aにおいて、電子装置は、イメージ、顔マップ及び顔マスクに基づいて、第1正面イメージを取得する。
電子装置は、イメージ、顔マップ及び顔マスクに基づいて、充填される位置を含む第2正面イメージを取得し、第2正面イメージのうち充填される位置にイメージを充填して、第1正面イメージを取得することができる。
一実施形態において、電子装置は、第2正面イメージに基づいて、第3正面イメージを生成し、第3正面イメージは、充填される位置に対応するイメージ領域を含み、第3正面イメージを用いて、イメージを充填する。ステップS2022Aは、次のステップSA1~A3(図示せず)を介して実現される。
ステップSA1において、電子装置は、イメージ、顔マップ及び顔マスクに基づいて、第2正面イメージを取得する。
第2正面イメージは、充填される位置を含んでもよい。電子装置は、顔マスクに基づいて、イメージで顔マスクによって遮られていない顔を決定し、顔マップに基づいて、イメージのうち顔の各ピクセルを移動することにより、第2正面イメージを取得することができる。例えば、顔マップは、正面の顔に対する顔イメージのうち顔の各ピクセルのオフセットを反映することができる。電子装置は、顔マップ、顔マスク、及び顔イメージに基づいて、顔イメージで、顔マスクによって遮られていない顔領域に対して、顔領域が含まれている各ピクセルを移動することによって、顔の正面イメージを取得することができる。
一実施形態において、電子装置は、マスクの助けで充填される位置を充填することができる。電子装置は、ステップSA2を介して、ホールマスクを取得することができる。
ステップSA2において、電子装置は、第2正面イメージに基づいて、第2正面イメージのホールマスクと第3正面イメージを取得する。
第3正面イメージは、充填されるホール位置に対応するイメージ領域を含み、ホールマスクは、第2正面イメージで充填される位置(言い換えれば、ホール)以外のイメージ領域を遮るために使用されることができる。
一実施形態において、電子装置は、GAN(Generative Adversarial Networks)(例えば、図3に示された生成器310及び判別器360)を介して、第3正面イメージ及びホールマスクを取得することができる。例示的に、電子装置は、第2正面イメージをGANネットワークに入力し、GANネットワークを介して、第2正面イメージのホールマスク及び第2正面イメージに対応する第3正面イメージを生成することができる。
ステップSA3において、電子装置は、第2正面イメージ、ホールマスク、及び第3正面イメージに基づいて、第1正面イメージを取得する。
電子装置は、ホールマスク及び第3正面イメージに基づいて、第2正面イメージのうち充填される位置に対してイメージを充填し、第1正面イメージを取得することができる。電子装置は、ホールマスクに基づいて、第3正面イメージで充填される位置の対応する位置を決定し、第3正面イメージのうち対応する位置の顔イメージに基づいて、第2正面イメージのうち充填される位置に対してイメージを充填することで、第1正面イメージを取得することができる。
一実施形態において、第3正面イメージは、第2正面イメージのうち顔に対応する全体の顔を含んでもよく、全体の顔位置は、第2正面イメージの顔位置及び第2正面イメージの顔のうち充填される位置に対応する顔イメージを含んでもよい。
例示的に、電子装置は、GANネットワークを介して、第1正面イメージを取得することができる。図3に示すように、GANネットワークは、生成器(generator)310と判別器(discriminator)360を含む。ここで、GANネットワークの生成器310を介して、第2正面イメージ320に基づいて、第3正面イメージ330及びホールマスク340が取得され、ホールマスク340及び第3正面イメージ330に基づいて、第3正面イメージ330でホールマスク340によって遮られていない領域を第2正面イメージ320に充填することで、第1正面イメージ350が取得され得る。GANネットワークは、判別器360をさらに含み、GANネットワークをトレーニングするとき生成器310と判別器360でトレーニングすることができる。例えば、判別器360は、実際のイメージ370(例えば、偽イメージや生成されたイメージではないイメージ)に基づいて、生成器310が推定したイメージ(言い換えれば、第1正面イメージ350)を判別できるが、例えば、生成器310によって推定されたイメージが実際のイメージ370である確率を判別できる。生成器310が推定したイメージ及び判別器360によって推定されたイメージの判別結果に基づいて、GANネットワークのパラメータを調整することで、トレーニングされたGANネットワークを取得することができる。
ステップS2023Aにおいて、電子装置は、第1正面イメージに基づいて、顔の正面特徴を取得する。
電子装置は、第1正面イメージから特徴を抽出し、顔の正面特徴を取得することができる。一実施形態において、電子装置は、トランスフォーマーネットワークを介して、第1正面イメージから特徴抽出を行い、顔の正面特徴を取得することができる。
2番目の方式において、アテンション情報は、少なくとも2つのフレームのイメージ間の時間関係情報を含んでもよい。電子装置は、少なくとも2つのフレームのイメージ間の時間関係情報を取得することができる。
少なくとも2つのフレームのイメージは、ステップS201における処理すべきイメージのようなイメージを含んでもよい。一実施形態において、電子装置は、イメージの収集時間に基づいて、時間関係情報を取得することができる。2番目の方式として、ステップS202は、次のステップS2021B~2022B(図示せず)を介して実現されてもよい。
ステップS2021Bにおいて、電子装置は、少なくとも2つのフレームのイメージに対して各フレームのイメージの収集時間を取得する。
少なくとも2つのフレームのイメージは、収集時間が異なるイメージであってもよい。一実施形態において、電子装置は、イメージの収集に隣接する目標にする数量のフレームのイメージを取得することができる。目標とする数量は必要に応じて設定されるが、例えば、目標にする数量は6、8、20などであってもよいが、本明細書の実施形態で少なくとも2つのフレームのイメージの数量は特に制限されない。例えば、イメージがk番目のフレームのイメージである場合、k-6番目のフレームのイメージ、k-5番目のフレームのイメージ、...、k-1番目のフレームのイメージ、k番目のフレームのイメージ、合計7フレームのイメージの収集時間を取得してもよい。
ステップS2022Bにおいて、電子装置は、少なくとも2つのフレームのイメージのうち各フレームのイメージの収集時間に基づいて、時間関係情報を取得することができる。
時間関係情報は、少なくとも2つのフレームのイメージの収集時間の前後順序を示す。電子装置は、少なくとも2つのフレームのイメージの収集時間に基づいて、少なくとも2つのフレームのイメージを順に整列し、時間関係情報を取得することができる。例示的に、電子装置は、k-6番目のフレームのイメージ、k-5番目のフレームのイメージ...、k-1番目のフレームのイメージ及びk番目のフレームのイメージ、合計7個のフレームの収集時間を整列し、前後順序が7,6,5,4,3,2,1である、7個のフレームのイメージの収集時間を取得することができる。
3番目の方式において、アテンション情報は、少なくとも2つのフレームのイメージ間の時間関係情報及び顔の正面特徴を含んでもよい。電子装置は、イメージ及びイメージの顔マップに基づいて、第1正面イメージを取得し、第1正面イメージに基づいて顔特徴を取得することができる。また、電子装置は、少なくとも2つのフレームのイメージ間の時間関係情報を取得することができる。
電子装置が顔の正面特徴を取得する過程は、最初の方式で顔の正面特徴を取得する方法と同一であってもよい。例えば、ステップS2021A~ステップS2023Aと同じ過程に基づいて、正面イメージが取得され得る。また、電子装置が時間関係情報を取得する過程は、2番目の方式で時間関係情報を取得する方法と同一であってもよい。例えば、ステップS2021B~ステップS2023Bと同じ過程を介して、時間関係情報が取得されてもよい。したがって、顔の正面特徴及び時間関係情報の実現方式に対する詳しい説明は省略される。
4番目の方式において、ターゲット情報は、ピクセル間の距離を含んでもよい。電子装置は、イメージのピクセル間の距離を取得することができる。
一実施形態において、ピクセルの距離は、ピクセルの間の相対的な距離情報に表現される。電子装置は、イメージの特徴を介して、相対距離情報を取得できるが、例えば、4番目の方式で、ステップS202は、次のステップS2021C~2023C(図示せず)を介して実現されてもよい。
ステップS2021Cにおいて、電子装置は、イメージの第4特徴マップを取得する。
一実施形態において、電子装置は、イメージの特徴を抽出し、第9特徴マップを取得し、第9特徴マップをダウンサンプリングして、第4特徴マップを取得することができる。例示的に、電子装置は、イメージを特徴抽出ネットワークに入力し、特徴抽出ネットワークを介して、イメージで特徴を抽出し、特徴抽出ネットワークによって出力された第9特徴マップを取得することができる。例えば、電子装置は、NNネットワークを介して、イメージの第9特徴マップを抽出してもよい。
ダウンサンプリングは、相対的に高解像度の特徴マップを用いて、相対的に低解像度の特徴マップに対して特徴を表現する処理方式である。一実施形態において、電子装置は、特徴ポイントの単位でダウンサンプリングすることができる。電子装置が第9特徴マップをダウンサンプリングし、第4特徴マップを取得する過程は、電子装置が第9特徴マップをダウンサンプリングし、複数の第1特徴ポイントを取得する動作、それぞれの第1特徴ポイントに対して電子装置が第9特徴マップで第1特徴ポイントに対応する第2特徴ポイントを決定する動作、第2特徴ポイントに基づいて第1特徴ポイントの特徴ベクトルを取得する動作、第1特徴ポイントの特徴ベクトルから第4特徴マップを取得する動作、に基づいて行われる。ここで、第4特徴マップは、複数の第1特徴ポイント及びそれらの特徴ベクトルを含んでもよい。ここで、第9特徴マップの解像度は、第4特徴マップの解像度よりも高い。例示的に、第1特徴ポイント及び第2特徴ポイントは、第9特徴マップの対応する位置に関わっている。第2特徴ポイントは、第1特徴ポイントが第9特徴マップに対応するように投影して取得した点である。例えば、電子装置は、第9特徴マップにおける第1特徴ポイントの位置に応じて、二重線形補間法を用いて、第9特徴マップにおける第1特徴ポイントに対応する投影位置を取得することができる。第2特徴ポイントは、第9特徴マップにおける第1特徴ポイントの投影ポイントであってもよい。例示的に、与えられた解像度が、H×WであるイメージQを、上述したダウンサンプリングを介して、低解像度h×w特徴マップqに縮小されるが(イメージQの解像度は特徴マップqよりも高い)、低解像度特徴マップは、少なくとも1つの特徴チャネルを含んでもよく、例えば、低解像度特徴マップは、3つのチャネルを有する。低解像度特徴マップは、イメージの特徴に対する表現であり、必ずしもイメージである必要はないことはもちろんである。
一実施形態において、電子装置は、特徴抽出を介して、第1特徴ポイントの特徴ベクトルを取得するが、この過程は、電子装置が第1特徴ポイントを第9特徴マップに投影して、第9特徴マップにおける第1特徴ポイントに対応する位置の第2特徴ポイントを取得し、第9特徴マップで第2特徴ポイントに対して特徴を抽出して、第1特徴ポイントの特徴ベクトルを取得することを含んでもよい。例示的に、電子装置は、第1特徴ポイントの特徴として、第2特徴ポイントの左側上段の角位置のピクセルの特徴ベクトルを抽出してもよい。電子装置は、上述した特徴抽出方法で、それぞれの第1特徴ポイントの特徴ベクトルを取得することができる。第4特徴マップは、複数の第1特徴ポイントの特徴ベクトルを含んでもよい。
例示的に、電子装置は、第1中間特徴マップ上の任意の第1特徴ポイントPに対して、ポイントPを二重線形補間法の投影方法により、第9特徴マップに投影して点Pに対応する第9特徴マップに投影された投影ポイントP’を取得し、ポイントP’の左側上段の角のピクセル位置の特徴ベクトルをポイントPの特徴ベクトルに抽出することができる。例えば、低解像度100×100特徴マップのうちポイント(1,1)に対して、対応する200×200特徴マップのうち投影領域に含まれている4個のポイントがそれぞれ(2,2)、(2,3)、(3,2)、(3,3)の場合、200×200特徴マップのうちポイント(2,2)の特徴ベクトルを100×100特徴マップのうちポイント(1,1)の特徴ベクトルにすることができる。
他の一実施形態において、電子装置は、イメージから特徴を抽出し、第4特徴マップを取得することができる。例示的に、電子装置は、イメージを特徴抽出ネットワークに入力し、特徴抽出ネットワークを介して、イメージから特徴を抽出し、特徴抽出ネットワークによって出力された第4特徴マップを取得することができる。例えば、電子装置は、CNNネットワークを介して、イメージの第4特徴マップを抽出してもよい。
ステップS2022Cにおいて、電子装置は、第4特徴マップに基づいて、相対距離情報を取得する。
一実施形態において、ダウンサンプリングを介して、第4特徴マップを取得するとき、電子装置は、第9特徴マップにおける第1特徴ポイントに対応する第2特徴ポイントに基づいて、相対距離情報を決定することができる。
例示的に、電子装置は、第2特徴ポイントと周辺ポイントとの間の相対位置に基づいて、対応する第1特徴ポイントの相対距離情報を取得することができる。一実施形態において、第4特徴マップのうち少なくとも1つの第1特徴ポイントに対して、電子装置は、対応する第2特徴ポイントに隣接するポイント間の少なくとも1つの距離を取得し、電子装置は、少なくとも1つの距離に基づいて、第1特徴ポイントの相対距離情報を取得することができる。一実施形態において、電子装置は、少なくとも1つの距離に基づいて、距離関数を介して、第1特徴ポイントの相対距離情報を取得し、相対距離情報は、少なくとも1つの距離に対応する距離関数値を含んでもよい。例えば、電子装置は、少なくとも1つの距離関数を介して、少なくとも1つの距離に対応する、少なくとも1つの距離関数値を算出することができる。ここで、それぞれの距離関数は、距離と距離関数値との間のマッピング関係を対応するよう表示されてもよい。例示的に、それぞれの第1特徴ポイントは、少なくとも1つの距離関数値に対応し、電子装置は、それぞれの第1特徴ポイントの少なくとも1つの距離関数値を結合して、イメージ特徴の相対距離情報を取得することができる。例えば、電子装置は、特徴マップに対応する相対距離情報を取得してもよい。
一実施形態において、少なくとも1つの距離関数値の数量は、少なくとも1つの距離の数量よりも大きくてもよい。例えば、それぞれの距離は、1つ以上の距離関数値に対応し、または、それぞれの距離対は、1つ以上の距離関数値に対応してもよい。距離と距離関数値との間の対応関係及び距離関数は、予め構成されてもよく、電子装置は、1つ以上の距離関数を用いて、少なくとも1つの距離関数値を取得してもよい。例示的に、電子装置は、隣接するポイントに基づいて、多角形を構成し、構成された多角形に基づいて、少なくとも1つの距離を取得することができる。例えば、多角形が長方形である例として、電子装置は、第9特徴マップで第2特徴ポイントの隣接ポイントを取得し、隣接ポイントに対応する長方形を決定し、第2特徴ポイントと長方形の辺の間の距離を、第2特徴ポイントと隣接ポイントとの間の少なくとも1つの距離として用いてもよい。例えば、電子装置は、4個の隣接ポイントを取得し、4個の隣接ポイントを連結して長方形を取得し、第2特徴ポイントと長方形それぞれの辺の間の4個の距離を取得することができる。又は、電子装置は、3角形、5角形、及び6角形などのような異なる多角形を構成し、異なる多角形に基づいて、少なくとも1つの距離を取得することができる。
図4は、一実施形態に係る長方形を構成して取得した4個の距離の概略図である。図4に示すように、第2特徴ポイントP’に隣接する4個の点を連結して右側下段の長方形を構成することができる。ここで、第2特徴ポイントP’と長方形の4個の辺の間の距離は、それぞれd0、d1、d2、d3であってもよい。電子装置は、d0、d1、d2、d3に基づいて、少なくとも1つの距離関数値を生成することができる。ここで、ポイントと長方形の辺との間の4個の距離のうち、2つの距離の数値が決定されれば、第2特徴ポイントと長方形の辺との間の距離が唯一決定され得る。したがって、d0、d1に基づいて、N個の距離関数値を生成することができる。N個の距離関数値は、それぞれf1(d0、d1)、f2(d0、d1)、...、fN(d0、d1)であり、ここで、f1、f2、…、fNは、距離関数であり、Nは、量の整数である。第1特徴ポイントPに対する相対距離情報は、vに表示され、ここで、v=[f1(d0、d1),f2(d0、d1),...,fN(d0、d1)]であり、Nは、正数整数であり、f1、...、fNは、関数であってもよい。それぞれの第1特徴ポイントにおける相対距離情報を結合することで、h×w×Nである相対距離情報マップを取得できるが、ここで、h×wは、第4特徴マップに対応する特徴マップの大きさである。
CNNネットワークを用いてステップS2021C~ステップS2022Cの過程を実現することができる。例えば、CNNネットワークでダウンサイズネットワーク(DownsizeNet)を設計し、ダウンサイズネットワークを介して、上述したステップS2021C~ステップ022Cを行ってもよい。図5は、本明細書の一実施形態で提供する畳み込みネットワーク基盤のイメージ縮小方法の概略図であって、図5に示すように、オリジナルイメージ510を畳み込みネットワークに入力し、例えば、電子装置は、3×3の大きさの畳み込みを介して、オリジナルイメージ510から特徴を抽出し、第9特徴マップを取得することができる。そして、mypool(ダウンサンプリング動作)方式により、第9特徴マップをダウンサンプリングし、第4特徴マップを取得することができる。第4特徴マップは、複数の第1特徴ポイント及びこれらの特徴ベクトルを含んでもよい。ここで、mypool方式は、非定数サンプリングレートでダウンサンプリングする方法であって、例えば、100×100の特徴マップをダウンサンプリングして、70×70の低解像度特徴マップを取得することができる。ここで、100は70の整数倍ではないが、70×70の低解像度特徴マップのうち、任意のポイントは、全て100×100の特徴マップのうち対応する投影点に投影され、投影点の左側上段の角にあるピクセルの特徴ベクトルを抽出し、低解像度特徴マップのうち各ポイントの特徴ベクトルとして使用できる。非定数サンプリングレートのダウンサンプリングを介して、必要に応じて、任意の大きさの低解像度特徴マップをダウンサンプリングできるため、特徴マップの大きさに対する制限を解消し、ダウンサイズネットワークの適用性を向上させ得る。また、電子装置は、第4特徴マップに基づいて、相対距離情報を取得し、後続作業で、第4特徴マップと相対距離情報をステッチして、ターゲット特徴マップを取得し、新しく取得したターゲット特徴マップに対して畳み込みをさらに行い、最終ターゲット特徴マップを取得することができることはもちろんである。電子装置は、ターゲット特徴マップを、VGG16(Visual Geometry Group)ネットワーク又はResNet(Residual Network)などのネットワークモデルのような他の様々なネットワークに入力し、後続処理に使われて、全体作業を行わせることができる。例示的に、全体作業の損失関数を用いて、ダウンサイズネットワークを訓練し、ダウンサイズネットワークのパラメータを調整することができる。このステップにおいて、CNNネットワークで様々な活性化関数、一括処理動作などを設計して使用できるが、本明細書の実施形態は、これに制限されない。
他の一実施形態において、イメージから特徴を抽出して、第4特徴マップを直接取得した場合、電子装置は、第4特徴マップでそれぞれの第1特徴ポイントと周辺ポイントとの間の相対位置に基づいて、相対距離情報を取得することができる。例えば、第1特徴ポイントと第4特徴マップのうち周辺のポイントの間の少なくとも1つの距離を算出し、少なくとも1つの距離に基づいて、第1特徴ポイントの相対距離情報を取得することができる。例えば、多角形を構成し、少なくとも1つの距離を取得してもよい。少なくとも1つの距離を取得する実現方式、及び、少なくとも1つの距離に基づいて、相対距離情報を取得する実現方式は、上述したダウンサンプリング方式で第4特徴マップを取得する実現方式のうち少なくとも1つの距離を取得し、相対距離情報を取得する過程と同一であるため、重複する説明は省略する。
電子装置は、多角形を構成して、第2特徴ポイントと隣接するポイントとの間の距離を取得し、他の方式で距離を取得してもよい。但し、本明細書の実施形態においては、第2特徴ポイントに隣接するポイント間の距離を決定する具体的な方式は限定されず、例えば、電子装置は、第2特徴ポイントと隣接するポイントとの間の直線距離を直接算出してもよい。また、電子装置は、5角形を構成し、第2特徴ポイントと対応する5個の辺との間の5個の距離を取得したり、6角形を構成して、対応する6個の距離を取得してもよい。本明細書の実施形態では、上述した長方形を構成して4個の距離を取得する例について説明したが、実際に、どのような多角形を構成していくつの距離を取得するかは制限されない。
5番目の方式において、ターゲット情報は、加重値情報を含んでもよい。電子装置は、イメージの第5特徴マップに基づいてイメージの第1加重値マップを取得することができる。
第1加重値マップは、イメージの加重値情報を含んでもよい。本明細書の実施形態において、加重値マップは、イメージの加重値情報を示す。例示的に、5番目の方式で、ステップS202は、次のステップS2021D~2022D(図示せず)を介して、実現されることができる。
ステップS2021Dにおいて、電子装置は、イメージの第5特徴マップを取得する。
電子装置は、畳み込みネットワークを用いて、イメージで特徴を抽出し、第5特徴マップを取得することができる。例えば、電子装置は、CNNネットワークを用いて、イメージの第5特徴マップを抽出することができる。図6に示すように、電子装置は、畳み込みネットワークを用いて、顔イメージ610から特徴を抽出し、顔イメージ610の第5特徴マップを取得することができる。
ステップS2022Dにおいて、電子装置は、第5特徴マップに基づいてイメージの第1加重値マップを取得する。
第1加重値マップは、イメージの各位置の重要度を示す。第1加重値マップは、第1特徴マップ内の各特徴ポイントの加重値情報を含んでもよい。加重値情報は、加重値の形態であってもよく、加重値は、重要度と量の相関関係を有するが、加重値が大きいほど対応する特徴ポイントの重要度が高くなる。一実施形態において、電子装置は、畳み込みレイヤを介して、第5特徴マップに対して畳み込みを行い、イメージの第1加重値マップを取得することができる。
6番目の方式において、ターゲット情報は、加重値情報を含んでもよい。電子装置は、イメージで目の位置に基づいてイメージの第2加重値マップを取得することができる。
第2加重値マップは画像の加重値情報を含んでもよい。本明細書の実施形態において、加重値マップで画像の加重値情報を示す。一実施形態において、電子装置は、イメージから目を検出して、イメージのうち目の位置を取得し、イメージのうち目の位置に基づいて、第2加重値マップを取得することができる。
上述した5番目の方式と同様に、第2加重値マップは、イメージの加重値情報を含んでもよい。加重値情報は、加重値の形態であってもよく、加重値は、重要度と量の相関関係を有し、加重値が大きいほど対応する特徴ポイントの重要度が高くなる。6番目の方式で、電子装置は、イメージで目の位置を決定した後、目の位置に応じて、イメージのうち目の位置に対して、目ではない位置よりも大きい加重値を付与し、第2加重値マップを取得することができる。
ここで、イメージのうち目の位置に対して、目ではない位置よりも大きい加重値を付与することは、目の位置に対する加重値を増加させる方式でデータを処理し、目の位置の重要度を強調することができる。例えば、イメージで目の位置に対して、目の位置の加重値がAよりも小さくないように設定され、イメージから目以外の位置に対しては、対応する加重値をBよりも大きくないように設定され、AはBよりも大きく設定される。このような設定から、イメージから目の位置とは異なる位置を効率よく区分することができる。例示的に、電子装置は、MTCNN(Multi-task Cascaded Convolutional Network)ネットワークを用いて、イメージから目を検出できるが、例えば、MTCNNネットワークで、顔イメージから目を検出し、イメージのうち目の位置を決定することができる。
例えば、MTCNNネットワークで、顔イメージから目の位置を検出し、取得した顔のうち目の中心点(例えば、瞳孔領域のような中央領域)位置の座標が、それぞれ(x1、y1)、(x2、y2)である場合、電子装置は、中心点が(x1、y1)であり、辺の長さがdである長方形領域、及び、中心点が(x2、y2)であり、辺の長さがdである長方形領域をイメージのうち目の領域として決定することができる。例えば、電子装置は、100×100の大きさイメージにおいて、中心点が(x1、y1)であり、辺の長さが50であり、中心点が(x2、y2)であり、辺の長さが50である、2つの正方形の領域を目の領域として決定することができる。イメージのうち、目の領域に対応する第2加重値マップにおけるポイントの加重値は、顔以外の領域よりも大きくてもよい。
ステップS203において、電子装置は、ターゲット情報に基づいて、イメージのターゲット特徴マップを取得する。
電子装置は、ターゲット情報及びイメージのイメージ特徴に基づいて、イメージのターゲット特徴マップを取得することができる。
上述したステップS202において、ターゲット情報を取得する6種類の実現方式に基づいて、このステップで、電子装置は、前のステップS202に対応する6種類の方式を介して、ターゲット特徴マップを取得することができる。
最初の方式において、ステップS202の最初の方式に対応して、電子装置は、イメージの特定部分の第2特徴マップ及び顔の正面特徴に基づいて、ターゲット特徴マップを取得することができる。
電子装置は、イメージの特定部分に対して特徴を抽出し、イメージの特定部分に対する第2特徴マップを取得することができる。第2特徴マップは、イメージの特定部分の特徴を特性化するために使用され得る。電子装置は、顔の正面特徴と第2特徴マップをステッチ(stitch)し、ターゲット特徴マップを取得することができる。例示的に、電子装置は、特定部分に基づいて、イメージをクロッピングして、特定部分のイメージを取得してもよく、特定部分のイメージから特徴を抽出して、特定部分の第2特徴マップを取得してもよい。電子装置は、顔の正面特徴と第2特徴マップをステッチし、ターゲット特徴マップを取得してもよい。
一実施形態において、特定部分は、目の部分及び目鼻立ちのうち少なくとも1つを含んでもよい。目鼻立ちの部分は、目、口、鼻、耳、又は眉毛の部分の少なくとも1つを含んでもよい。一実施形態において、特定部分が目を含んでいる場合、電子装置は、イメージから目を検出してイメージのうち目の位置を取得し、目の位置に基づいて、イメージをクロッピングして、目の領域のイメージを取得することができる。電子装置は、目の領域イメージから特徴を抽出し、目の特徴を示す第2特徴マップを取得することができる。電子装置は、顔の正面特徴と目の特徴を示す第2特徴マップをステッチし、ターゲット特徴マップを取得することができる。異なる例示において、特定部分に目鼻立ちが含まれている場合、電子装置は、イメージから目鼻立ちを検出し、イメージのうち目鼻立ちの位置を取得し、目鼻立ちの位置に基づいて、イメージをクロッピングして、目鼻立ち領域イメージを取得することができる。電子装置は、目鼻立ち領域のイメージから特徴を抽出し、目鼻立ちの特徴を示す第2特徴マップを取得することができる。電子装置は、顔の正面特徴と目鼻立ちを示す第2特徴マップをステッチし、ターゲット特徴マップを取得することができる。
例示的に、電子装置は、トランスフォーマーモデルを用いて、上述したステップS2021A~ステップS2023A、及びステップS203の最初の方式のステップを実現することができる。電子装置は、トランスフォーマーモデルで、空間トランスフォーマーネットワークに設計してもよく、空間トランスフォーマーネットワークは、空間分布を基盤としたイメージの特徴を抽出することができる。空間トランスフォーマーネットワークは、トランスフォーマー、エンコーダ、及びパーセプトロンを含んでもよい。空間トランスフォーマーネットワークは、ステップS202及びステップS203の最初の方式で、空間トランスフォーマーネットワークのエンコーダを使用して、イメージのイメージ特徴を抽出し、空間トランスフォーマーネットワークのうち3つの独立的な多層パーセプトロンを介して、イメージから顔マップ、顔マスク、及び目の位置をそれぞれ取得することができる。ここで、多層パーセプトロンの層間は、完全接続され、多層パーセプトロンの完全接続レイヤ及び畳み込みネットワークの構造を用いて、対応する顔マップ、顔マスク、及び目の位置を取得することができる。さらに、空間トランスフォーマーネットワークのエンコーダで、第1正面イメージの顔の正面特徴を抽出し、目の位置の第2特徴マップと顔の正面特徴をステッチし、ステッチされた特徴マップに対して畳み込みをさらに行って、最終ターゲット特徴マップを取得することができる。
図7に示すように、図7の右側は、イメージの空間関係を抽出する空間トランスフォーマーネットワーク710である。顔イメージを例にすると、1つの顔イメージである場合、電子装置は、1つの顔イメージを空間トランスフォーマーネットワーク710に入力し、空間トランスフォーマーネットワーク710のエンコーダを用いて、特徴マップを取得した後、このような特徴マップから3つに分岐され、それぞれの分岐に対して、畳み込み及び完全接続レイヤを用いて、対応する3種類の情報を取得することができる。言い換えれば、3つの独立的な多層パーセプトロンを用いて、3種類の情報を対応するように取得するものであり、3種類の情報は、顔マップ、顔マスク、及び目の位置を含んでもよい。顔マップは、正面に対する顔の各ピクセルのオフセットを反映することができる。電子装置は、顔マップ、顔マスク、及びイメージにより、イメージのピクセルをオフセットし、顔を正面の顔にマッピングすると、正面イメージを取得することができる。例えば、電子装置は、顔マスクで遮られていないイメージの一部のピクセルを移動することができる。さらに、電子装置は、GANネットワークでホールを含む正面イメージを充填し、全体正面イメージを取得することができる。したがって、電子装置は、空間トランスフォーマーネットワーク710のエンコーダにより、全体正面イメージから特徴を抽出し、顔の正面特徴を取得することができる。また、目の位置に対して、目の位置を用いて、オリジナルイメージをクロッピングし、クロッピングして取得した目のイメージに対して、畳み込みレイヤを介して、特徴を抽出し、目の特徴を取得し、前記目の特徴及び正面特徴をステッチして、ターゲット特徴マップを取得することができる。もちろん、電子装置は、畳み込みレイヤでステッチ結果から特徴を抽出し、ターゲット特徴マップを取得してもよい。
2番目の方式で、ステップS202の2番目の方式に対応し、電子装置は、少なくとも2つのフレームのイメージの第1特徴マップと少なくとも2つのフレームのイメージとの間の時間関係情報に基づいて、前記イメージのターゲット特徴マップを取得することができる。
電子装置は、少なくとも2つのフレームのイメージのうち各フレームのイメージで特徴を抽出し、各フレームのイメージの第1特徴マップを取得する。電子装置は、時間関係情報及び各フレームのイメージの第1特徴マップをトランスフォーマーネットワークに入力する。電子装置は、トランスフォーマーネットワークのエンコーダを介して、時間関係情報及び各フレームのイメージの第1特徴マップに基づいて、特徴を抽出し、イメージのターゲット特徴マップを取得することができる。例示的に、イメージがk番目のフレームのイメージである場合、電子装置は、k-6番目のフレームのイメージ、k-5番目のフレームのイメージ、...、k-1番目のフレームのイメージ、k番目のフレームのイメージ、合計7個のフレームのイメージ間の時間関係情報を取得し、7個のフレームのイメージの第1特徴マップ及び時間関係情報をトランスフォーマーネットワークに入力することができる。電子装置は、7個のフレームのイメージ間のインターフレーム関係に対して特徴抽出をさらに行い、k番目のフレームのイメージのターゲット特徴マップ(例えば、6個の以前フレームのイメージ及び相対的キャプチャー時間の情報を反映するターゲット特徴マップ)を取得することができる。
一実施形態において、各フレームのイメージの第1特徴マップは、トランスフォーマーネットワークのエンコーダに基づいて、抽出することができる。
3番目の方式で、ステップS202の3番目の方式に対応し、電子装置は、イメージの顔の正面特徴及びイメージの特定部分の第2特徴マップに基づいて、イメージの第3特徴マップを取得することができる。電子装置は、少なくとも2つのフレームのイメージの第3特徴マップ及び少なくとも2つのフレームのイメージ間の時間関係情報に基づいて、ターゲット特徴マップを取得することができる。
電子装置は、顔の正面特徴及びイメージの特定部分の第2特徴マップをステッチして、第3特徴マップを取得することができる。特定部分は、目鼻立ちのうち少なくとも1つを含んでもよい。目鼻立ちの部分は、目、口、鼻、耳、又は眉毛の部分の少なくとも1つを含んでもよい。ここで、電子装置が、特定部分の第2特徴マップを取得する実現方式は、ステップS203の最初の方式で第2特徴マップを取得する方式と同一であり、顔の正面特徴及び第2特徴マップをステッチして第3特徴マップを取得する実現方式は、ステップS203の最初の方式で、顔の正面特徴及び第2特徴マップをステッチして、ターゲット特徴マップを取得する過程と同一であるため、重複する説明は省略する。
電子装置は、時間関係情報及び各フレームのイメージの第3特徴マップをトランスフォーマーネットワークに入力し、トランスフォーマーネットワークのエンコーダは、時間関係情報及び各フレームのイメージの第3特徴マップに基づいて、特徴を抽出し、イメージのターゲット特徴マップを取得することができる。
例示的に、前記イメージがk番目のフレームのイメージである場合、電子装置は、k-6番目のフレームのイメージ、k-5番目のフレームのイメージ、...、k-1番目のフレームのイメージ、k番目のフレームのイメージ、合計7個のフレームのイメージ間の時間関係情報を取得し、7個のフレームのイメージの第3特徴マップ及び時間関係情報をトランスフォーマーネットワークに入力し、7個のフレームのイメージ間のインターフレーム間の関係をさらに抽出して特徴を抽出することで、k番目のフレームのイメージのターゲット特徴マップを取得することができる。
図7に示すように、本明細書の実施形態の3番目の方式で、時空間トランスフォーマーモデルを基盤とした視線推定方法を提供することができる。トランスフォーマーモデルで集中メカニズムを用いて上述したステップS202及びステップS203の過程を実現し、隣接する数個のフレームのイメージ間の時間関係とイメージの空間ドメイン特徴を取得することができる。例えば、顔イメージを例にすると、電子装置は、K個の隣接するフレームの顔イメージを入力し、空間トランスフォーマーネットワークで各イメージをそれぞれ処理した後、取得したK個特徴マップを、再び時間トランスフォーマーネットワークに入力してもよい。例えば、7個の隣接するフレームの顔イメージを使用するとき、電子装置は、図7に示すようなFk-6、...、Fkのような7個の特徴マップを時間トランスフォーマーネットワークに入力することができる。ここで、位置埋め込みは、7個の顔イメージの時間関係情報を意味し、例えば、7個の顔イメージの時間順序である(7,6,5,4,3,2,1)であってもよい。電子装置は、7個の隣接するフレームの顔イメージの7個の特徴マップと位置埋め込みを介して、K番目のフレームの顔イメージのターゲット特徴マップを取得することで、空間的関係と時間的関係を全て含む特徴を取得することができる。そして、電子装置は、該当の特徴に対して再び回帰を行うと、最終的に推定された視線方向及び対応する信頼度を取得することができる。空間トランスフォーマーネットワーク710は、顔を正面にして特徴を抽出することができる。1つの顔イメージの場合、電子装置は、先にトランスフォーマーで正面マッピングを行って充填される正面イメージを取得し、次に、GANネットワークを用いて生成された充填される領域を充填する。次に、電子装置は、イメージを充填して取得した全体正面イメージに対して、トランスフォーマーネットワークのエンコーダを再び実行し、全体正面イメージに基づいて、顔の正面特徴を取得することができる。ここで、全体正面イメージの顔の正面特徴と目の位置の特徴をステッチして、畳み込みをさらに行い、特徴マップを取得することができる。K番目のフレームの隣接するイメージのターゲット特徴マップを、時間トランスフォーマーネットワークに入力して、視線を推定することができる。本明細書においては、two-stepトランスフォーマーモデルを用いて、イメージの時空間関係特徴を抽出するが、CNNネットワークと比較すると、トランスフォーマーモデルは、イメージから距離が遠い領域間の特徴関係を効率よく抽出し、互いに異なる特徴領域の時空間関係を効率よく表示することができ、また、正面からマッピングするとき、イメージで正面の顔に対する各ピクセルのオフセットなどを直接取得してもよい。
3番目の方式の有益な効果は、次の通りである。
電子装置は、顔マップ及び顔マスクに基づいて、第1正面イメージを取得し、第1正面イメージに基づいて、顔の正面特徴を取得し、顔の正面特徴とイメージのうち特定部分の第2特徴マップを介して、ターゲット特徴マップを取得することができる。そのため、ターゲット特徴マップが、顔の正面特徴及びオリジナルイメージのうち、本来の顔の特徴を表現できるようにする。正面の顔の特徴を利用し、また、本来の顔の特徴を結合して視線を推定することで、視線推定の正確度に対する大幅の頭姿勢の影響を減らし、小さい標本サイズの制限を解消することができる。例えば、頭が左右に傾いている、などの姿勢は、視線推定に大きい影響を及ぼし、大幅の頭姿勢は、標本サイズが小さいという問題があるが、顔の正面特徴に基づいて視線を推定することにより、正確かつ時効性のある推定結果を、より容易に取得することができ、大きい幅の頭姿勢である場合にも適用でき、視線推定の正確性、堅固性、及び実用性を向上させることができる。
また、電子装置は、顔マップを介して、イメージを正面マッピングして、第2正面イメージを取得することができ、イメージをさらに充填して、全体第1正面イメージを取得することができる。顔マップは、イメージのうち各ポイントの正面の顔に対するオフセット程度に至るまで正確に示すため、イメージのうちポイントまで精密化して、イメージのうち顔のポイントをオフセットし、第2正面イメージを充填することで、正面イメージ取得の正確度を高め、高い精密度の正面イメージを後続した視線推定に用いて、視線推定の堅固性を向上させることができる。
また、電子装置は、顔マスクで顔をオフセットして、2正面イメージを取得し、ホールマスクを用いて充填される位置に対してイメージを充填して、第1正面イメージを取得することができる。電子装置は、イメージのうち顔に対して対応するように、正面の顔マッピングを行って、充填される位置を充填し、関連のない領域の干渉を防止することで、正面イメージの取得効率がより向上され、後続する視線推定の処理効率を向上させることができる。
また、電子装置は、少なくとも2つのフレームイメージ間の時間関係情報を結合し、ターゲット特徴マップを取得してもよい。電子装置は、ターゲット特徴マップが空間的関係の特徴と時間的関係の特徴を全て表現できるようにし、このようなターゲット特徴を用いて推定することで、視線推定の堅固性をさらに向上させ得る。
4番目の方式で、ステップS202の4番目の方式に対応して、電子装置は、イメージの第4特徴マップとピクセルとの間の相対距離情報に基づいて、ターゲット特徴マップを取得することができる。
電子装置は、第4特徴マップと相対距離情報をステッチし、ターゲット特徴マップを取得することができる。電子装置は、第4特徴マップのうちそれぞれの第1特徴ポイントに対して、第1特徴ポイントの特徴ベクトルと第1特徴ポイントの相対距離情報の距離ベクトルをステッチし、ターゲット特徴マップを取得することができる。ターゲット特徴マップは、それぞれの第1特徴ポイントの特徴ベクトル及び相対距離情報を含んでもよい。
一実施形態において、電子装置は、イメージの第4特徴マップとピクセルとの間の相対距離情報に基づいて、融合した特徴マップを取得し、融合した特徴マップに基づいて、ターゲット特徴マップを取得することができる。例えば、電子装置は、第1特徴ポイントの特徴ベクトルと第1特徴ポイントの相対距離情報の距離ベクトルをステッチして、融合した特徴マップを取得し、畳み込みレイヤを介して、融合した特徴マップから、特徴をさらに抽出することで、ターゲット特徴マップを取得してもよい。
他の一実施形態において、電子装置は、イメージの第4特徴マップとピクセルとの間の相対距離情報に基づいて、融合した特徴マップを取得し、融合した特徴マップ及び第4特徴マップに基づいて、ターゲット特徴マップを取得することができる。例えば、電子装置は、第1特徴ポイントの特徴ベクトルと第1特徴ポイントの相対距離情報の距離ベクトルをステッチし、融合された特徴マップを取得し、融合された特徴マップと第4特徴マップに対して特徴融合を再び行い、畳み込みレイヤを介して、再び融合して取得した、融合した特徴マップについて特徴を抽出することで、ターゲット特徴マップを取得してもよい。もちろん、電子装置は、融合された特徴マップ及び相対距離情報に基づいて、ターゲット特徴マップを取得してもよい。例えば、電子装置は、第1特徴ポイントの特徴ベクトルと第1特徴ポイントの相対距離情報の距離ベクトルをステッチし、融合した特徴マップを取得し、融合した特徴マップと相対距離情報に対して特徴融合を再び行い、畳み込みレイヤを介して、再び融合して取得した、融合された特徴マップから特徴を抽出することで、ターゲット特徴マップを取得してもよい。
4番目の方式の有益な効果は、次の通りである。
電子装置は、第4特徴マップとイメージの相対距離情報を取得し、第4特徴マップと相対距離情報をステッチして、ターゲット特徴マップを取得することで、ターゲット特徴マップが、イメージの各ピクセル間の距離を表現可能にし、後続する全体作業において、相対距離情報に基づいて、効率よく行い、後続する視線推定の正確度を向上させることができる。
また、第2特徴ポイントと隣接するポイント間の距離に基づいて、相対距離情報を取得することができ、第4特徴マップは、ダウンサンプリングを介して取得した、縮小された低解像度特徴マップであり、それから第1特徴ポイントの特徴ベクトル及び相対距離情報を含むターゲット特徴マップを最終的に取得するので、ターゲット特徴マップで大量の情報量を保持し、処理すべきイメージを縮小するとき情報を保持し難いという問題を効率よく解決できる。
また、以前の技術は、相対的な距離情報が存在しないか、イメージの特徴と距離の特徴を分離していないため、後続する作業で特徴マップを用いて作業を行うとき、相対的に硬直されている。一方で、本明細書において、イメージ特徴を示す第4特徴マップと相対距離情報を分離し、2種類の特徴を結合して、新しい特徴、言い換えれば、ターゲット特徴マップを取得することにより、必要に応じて相対距離情報を柔軟に処理できることから、視線推定の柔軟性を向上させることができる。
また、少なくとも1つの距離関数値の数量は、少なくとも1つの距離の数量より多くてもよく、距離の数量が少ない場合にも、より多い又は大量の距離関数値を取得することができるため、距離情報が消滅しないようにし、イメージ特徴、相対距離情報など正確な表現を実現して、後続視線推定の正確度及び特徴マップ取得の柔軟性を向上させることができる。
5番目の方式で、ステップS202の5番目の方式に対応し、電子装置は、第1加重値マップ及び第5特徴マップに基づいて、ターゲット特徴マップを取得することができる。
電子装置は、第1加重値マップに基づいて第5特徴マップに加重値を付与し、現在のターゲット特徴マップを取得することができる。例示的に、電子装置は、第1加重値マップ及び第5特徴マップを対応するようにポイント乗算を行い、ターゲット特徴マップを取得することができる。
電子装置は、Gaze360モデルと空間集中メカニズムに基づいた、視線推定方法を用いてもよい。ここで、集中メカニズムは、畳み込みにより取得した畳み込み特徴マップに適用され、例えば、第5特徴マップは、CNNネットワークに基づいて取得した中間特徴マップ又は最終特徴マップであってもよい。図6に示すように、ここで、各顔イメージ610に対して畳み込みバックボーンネットワークを用いて、特徴マップを取得した後で、再び畳み込みネットワークを用いて、特徴マップから特徴を抽出して、加重値マップ、言い換えれば、第1加重値マップを取得することができる。電子装置は、第1加重値マップ及び特徴マップに対してベクトル乗算(element-wise multiplication)を行って、新しい特徴マップを取得することができる。新しい特徴マップは、再び後続の双方向LSTM(Long Short-Term Memory)ネットワークに送信されて、視線方向を推定し、双方向LSTMネットワークの出力は、完全接続レイヤを経て、視線推定結果を取得することができる。例えば、視線推定結果は、視線の方向、信頼度などを含んでもよい。
5番目の方式の有益な効果は、次の通りである。
電子装置は、空間集中メカニズムを追加して、イメージ内の各位置の重要情報を含む位置特徴及びイメージ特徴に基づいて、ターゲット特徴マップを取得するようにし、情報の豊かな位置であるほど、さらに高い重要度を付与し、視線推定により、核心的な情報を選択可能にし、不要な情報を抑制することで、視線推定の堅固性を向上させ得る。また、電子装置は、イメージの第1加重値マップに基づいて、各位置の重要情報を正確に表現することができ、第1加重値マップに基づいて、第5特徴マップに加重値を付与して、ターゲット特徴マップを取得できるため、ターゲット特徴マップが、イメージの重要かつ核心的な情報を正確に表現可能にし、視線推定の正確度を向上させ得る。
6番目の方式で、ステップS202の6番目の方式に対応し、電子装置は、イメージの第2加重値マップ及び第6特徴マップに基づいて、ターゲット特徴マップを取得することができる。
電子装置は、第2加重値マップに基づいて、第6特徴マップに加重値を付与し、現在のターゲット特徴マップを取得することができる。
一実施形態において、第6特徴マップは、少なくとも2つの畳み込みレイヤを介して、イメージから特徴抽出して、取得したものである。電子装置は、第2加重値マップ及び第6特徴マップを取得する過程のうち中間特徴マップを用いて、ターゲット特徴マップを取得することができる。6番目の方式では、ステップS203で、電子装置は、中間特徴マップ及び第2加重値マップに基づいて、第7特徴マップを取得することができる。ここで、第6特徴マップは、少なくとも2つの畳み込みレイヤで、イメージから特徴を抽出し、取得されるものであり、中間特徴マップは、少なくとも2つの畳み込みレイヤのターゲットレイヤによって出力された特徴マップであってもよい。電子装置は、第6特徴マップと第7特徴マップに基づいて、ターゲット特徴マップを取得することができる。一実施形態において、電子装置は、第2加重値マップに基づいて、中間特徴マップに加重値を付与し、第7特徴マップを取得することができる。電子装置は、第7特徴マップと第6特徴マップをステッチし、ターゲット特徴マップを取得することができる。例示的に、加重処理過程は、電子装置が、第2加重値マップ及び中間特徴マップに対してポイント-ワイズ乗算を行い、第7特徴マップを取得することを含む。
異なる例示において、電子装置は、第2加重値マップに基づいて、中間特徴マップに加重値を付与し、第7特徴マップを取得することができる。電子装置は、畳み込みレイヤを介して、第7特徴マップから特徴を抽出し、第10特徴マップを取得してもよい。更なる例示において、電子装置は、第10特徴マップと第6特徴マップをステッチし、ターゲット特徴マップを取得してもよい。
ターゲットレイヤは、必要に応じて構成され、本明細書の実施形態においては、これを制限しない。例えば、ターゲットレイヤは、ターゲット特徴データを抽出する特徴抽出レイヤ、又は、固定されたネットワーク位置に位置する特徴抽出レイヤであってもよい。
図8に示すように、電子装置は、顔イメージ810に対して目を検出して、目の位置を取得し、目の位置に基づいて、目の位置の加重値を強調する第2加重値マップを取得することができる。そして、電子装置は、第2加重値マップに基づいて畳み込みネットワークから抽出した特徴に加重値を付与し、最終的に取得したターゲット特徴マップを、後続する双方向LSTMネットワークに入力し、視線推定を行うことができる。例えば、電子装置は、ターゲット特徴マップを、双方向LSTMネットワークに入力し、LSTMネットワークで出力した結果が完全接続レイヤ(fully connected layer)を経ることにより、イメージの視線方向及び信頼度を取得することができる。
ここで、電子装置は、加重処理された特徴マップを畳み込みネットワークで最終的に出力した特徴マップとステッチし、ターゲット特徴マップを取得することができる。例示的に、図8に示すように、電子装置は、畳み込みバックボーンネットワークを用いて、顔イメージ810の特徴を抽出し、抽出された特徴を、目の領域の加重値を介して加重処理し、抽出された特徴と加重処理された特徴マップをステッチし、ターゲット特徴マップを取得することができる。図9に示すように、電子装置は、畳み込みバックボーンネットワークの予め設定されたいずれかの畳み込みレイヤから抽出した中間特徴マップと第2加重値マップに対して、ポイント乗算910を行って、加重処理された特徴マップを取得し、畳み込みネットワークを引き続き用いて、加重処理された特徴マップから特徴を抽出し、処理された特徴マップと畳み込みバックボーンネットワークで最終的に出力した特徴マップをステッチし、ターゲット特徴マップを取得してもよい。
一実施形態において、電子装置は、上述した6種類の方式を結合することができる。例えば、電子装置は、上述した6種類の方式のうち2つ以上の方式を結合し、ターゲット特徴マップを取得することができる。例示的に、電子装置は、4番目の方式と5番目の方式を結合してもよい。例えば、電子装置は、イメージの第4特徴マップとピクセルとの間の相対距離情報に基づいて、第11特徴マップを取得し、第11特徴マップに基づいて、イメージの第1加重値マップを取得してもよい。電子装置は、第1加重値マップと第11特徴マップに基づいて、ターゲット特徴マップを取得してもよい。4番目の方式と6番目の方式を結合できることも、もちろんである。又は、3番目の方式と4番目の方式を結合してもよい。代替的に、最初の方式、2番目の方式などは、全てそれぞれ4番目の方式と結合されてもよい。本明細書の実施形態は、上述した4番目及び5番目の方式を結合することについて、例示して、説明した。但し、ステップS202とステップS203のうち6種類の方式である方式を結合し、具体的にどのように結合して、結合した後、いかなる順序に実行するか、に対する特別な制限はない。
6番目の方式の有益な効果は、次の通りである。
位置特徴は、目の位置に対する重要情報を含んでもよく、目の位置に対する重要情報とイメージ特徴に基づいて、視線を推定し、イメージのうち特定位置まで重要情報を付与し、意図的に目の部分に対して、視線推定において、より核心的な情報を細分化して、視線推定の堅固性を向上させることができる。また、目の部分の位置を検出し、目の部分に対する第2加重値マップの形式により、イメージの目の領域に、さらに高い重要度を正確に付与し、第2加重値マップで、第6特徴マップに加重値を付与し、ターゲット特徴マップを取得することで、ターゲット特徴マップが、目の部分に対する重要かつ核心的な情報を、より正確に表現して、目の視線を推定することで、より優れた眼球運動の表現を取得することができ、視線推定の正確度を向上させ得る。
ステップS204において、電子装置は、ターゲット特徴マップに基づいて、イメージに対する視線推定を行う。
電子装置は、ターゲット特徴マップに基づいて、視線を推定して、視線推定結果を取得することができ、このような視線推定結果は、視線方向及び信頼度を含む。例示的に、視線方向は、視線のピッチ角及びヨー角を含み、信頼度は、視線方向の信頼度を含む。
例示的に、前述のステップS202及びステップS203の最初の方式、2番目の方式及び3番目の方式について、電子装置は、視線推定を行うためにトランスフォーマーモデルを使用することができる。例えば、3番目の方式では、トランスフォーマーモデルの完全接続レイヤを介して、ターゲット特徴マップに対する視線推定結果を出力し、例えば、イメージのうち目標とするオブジェクトの視線方向と信頼度を出力することができる。
一実施形態において、電子装置は、イメージのうちターゲット部分の姿勢を結合して、視線を推定してもよい。このような場合、ステップS204は、電子装置が、ターゲット特徴マップ及びターゲット姿勢情報に基づいて、イメージに対する視線推定を行うことを含んでもよく、ここで、ターゲット姿勢情報は、イメージのうちターゲット部分の姿勢情報を意味する。一実施形態において、ターゲットの部分は、頭の部分を含んでもよい。例えば、上述した最初の方式及び3番目の方式に対応して、即ち、顔の正面特徴に基づいて、ターゲット特徴マップを取得するとき、電子装置は、イメージで頭姿勢をさらに取得し、後続ステップで、頭姿勢に基づいて、初期の視線推定結果を調整可能にする。ステップS204は、電子装置が、ターゲット特徴マップに対して視線推定を行って、第1視線情報を取得し、電子装置が、頭姿勢及び第1視線情報に基づいて、イメージに対応する第2視線情報を取得することを含む。ここで、頭姿勢は、頭の角度を含むが、例えば、頭の垂直方向の角度、水平方向の角度などを含んでもよい。又は、電子装置は、頭姿勢パラメータ(head pose parameter)を用いて、頭姿勢も示すことができるため、例えば、頭姿勢パラメータには、ヨー(yaw)、ピッチ(pitch)、及びロール(roll)が含まれ、これらは、各顔の平面回転、上下反転、左右反転角度を意味する。第1視線情報は、第1視線角度を含んでもよく、電子装置は、頭の角度に応じて、第1視線情報のうち、第1視線角度を調整して、第2視線情報を取得し、ここで、第2視線情報は、第2視線角度を含んでもよい。例示的に、第2視線情報は、信頼度をさらに含んでもよい。もちろん、ターゲットの部分は、他の部分であってもよく、本明細書の実施形態においては、頭を例示にして説明したが、ターゲットの部分が示す具体的な部位については、特に制限されない。
一実施形態において、上述したステップS202及びステップS203の4番目の方式に対応して、電子装置は、CNNネットワークのダウンサイズネットワーク(DownsizeNET)を介して、イメージ特徴及び相対距離情報を含むターゲット特徴マップを取得し、LSTM(Long Short-Term Memory)ネットワーク、VGG16ネットワーク、又はResNetなど、ネットワークモデルを介して、ターゲット特徴マップに基づいて、視線を推定することができる。
上述したステップS202及びステップS203の5番目の方式で、電子装置は、Gaze360モデルに追加された空間集中メカニズムに基づいて行われるが、例えば、CNNネットワークを介して、第1加重値マップに基づいて、加重値を付与し、ターゲット特徴マップを取得することができる。上述したステップS202及びステップS203の6番目の方式で、電子装置は、Gaze360モデルによって追加された目の領域に対する空間集中メカニズムを基盤とすることができる。例えば、電子装置は、CNNネットワークを介して、第2加重値マップに加重値を付与し、ターゲット特徴マップを取得することができる。5番目及び6番目の方式の場合、取得したターゲット特徴マップを、双方向LSTMネットワークに入力することができる。
前記の6種類の方式のうち任意の二種類を結合する場合、図10に示すように、先に、ダウンサイズネットワーク1010を介して、相対距離情報を含む特徴マップを取得した後、集中メカニズム1020に基づいて、視線を推定することができる。例えば、前記の4番目の方式を用いて、ダウンサイズネットワーク1010を介して、相対距離情報を含む特徴マップを取得することができる。上述した最初、2番目、3番目、5番目、及び6番目の方式のいずれか1つを介して、集中メカニズム1020に基づいて、ターゲット特徴マップを取得し、ターゲット特徴マップに基づいて、視線推定を行うことができる。例えば、電子装置は、上述した4番目の方式を介して、相対距離情報を含む特徴マップを取得し、6番目の方式を介して、目の位置に対してイメージの第2加重値マップを取得し、相対距離情報を含む特徴マップ及び第2加重値マップに基づいて、最終ターゲット特徴マップを取得することができる。4番目の方式は、最初、2番目、及び3番目の方式と結合してもよく、具体的な結合方式は、4番目の方式と6番目の方式の結合方式と同一であることは、もちろん、重複する説明は省略する。上述した6種類の方式の間は、互いに結合され、本明細書の実施形態である方式を結合する。具体的に、どのように結合して結合した後、いかなる順序に実行するか、については特に制限されない。
本明細書は、3次元視線推定システムに使用され得る。与えられた隣接する数個のフレームの顔イメージは、イメージ特徴の空間関係及び時間関係を効率よく利用することができる。例えば、本明細書の最初の方式と3番目の方式は、顔の正面特徴を取得し、顔の正面特徴に基づいて、ターゲット特徴マップを取得することができる。ターゲットオブジェクトの頭姿勢の移動が大きい場合(例えば、左側に傾いたり、頭を下げる場合、など)にも、本明細書の視線推定方法が、実現され得る。したがって、本明細書の実施形態の視線推定方法は、頭姿勢が大きい状況においても処理可能であるため、堅固性が高い。例えば、本明細書の最初の方式によるイメージの縮小方法は、モデルの実行速度を向上させると同時に、イメージ情報を良好に格納して、正確度の損失を最小化できる。例えば、最初の方式、3番目の方式、6番目の方式の場合、目の位置、目鼻立ちの位置など、重要な位置について、更に多い注意を注ぐことができ、関連する技術のうち、目のような重要領域に注意を注がなかった場合と比較すると、本明細書は、より正確な視線推定結果を取得することができる。本明細書で説明された事項は、人の集まりのある場所で挨拶するとき、又は、自動車ヘッドアップディスプレイに適用されてもよい。視線推定は、また、ヒト-コンピュータの相互作用方式で、指で指す相互作用よりも、さらに明確に示し、相互作用が、さらに便利な長所がある。
本明細書で提供する視線推定方法は、アテンション情報又はピクセル間の距離のうち少なくとも1つを含む、イメージのターゲット情報を取得することで、アテンション情報の取得を介して、イメージのうち識別力のある情報を取得し、ピクセル間の距離の取得を介して、イメージの情報損失を最小化することができる。また、視線推定方法は、ターゲット情報に基づいて、イメージのターゲット特徴マップを取得することで、ターゲット特徴マップがイメージのうち識別力のある情報など、より多くの情報を効率よく表現することができ、ターゲット特徴マップに基づいて、イメージに対して視線推定を行うことで、イメージのうち、目の視線をより正確に推定し、視線推定の正確度を向上させることができる。
図11は、一実施形態に係る電子装置を示す図である。
図11を参照すると、一実施形態に係る電子装置1100は、メモリ1110及びプロセッサ1120を含む。メモリ1110及びプロセッサ1120は、バス(bus)、PCIe(Peripheral Component Interconnect Express)及び/又はNoC(Network on a Chip)などを介して、通信することができる。例えば、電子装置1100は、携帯電話、スマートフォン、タブレット、電子ブック装置、ラップトップ、パーソナルコンピュータ、デスクトップ、ワークステーション、又はサーバのような様々なコンピューティング装置、スマートウォッチ、スマートメガネ、HMD(Head-Mounted Display)、又は、スマート衣類のような様々なウェアラブル機器、スマートスピーカ、スマートTV、又は、スマート冷蔵庫のような、様々な家電装置、スマート自動車、スマートキオスク、IoT(Internet of Things)機器、WAD(Walking Assist Device)、ドローン、又は、ロボットを含んでもよい。
メモリ1110は、コンピュータで読出し可能な命令語を含んでもよい。プロセッサ1120は、メモリ1110に格納されている命令語が、プロセッサ1120で行われることにより先に言及した動作を行う。メモリ1110は、揮発性メモリ又は不揮発性メモリであってもよい。
プロセッサ1120は、命令語あるいはプログラムを実行し、または、電子装置1100を制御する装置であって、例えば、CPU(Central Processing Unit)及び/又はGPU(Graphic Processing Unit)など、を含んでもよい。プロセッサ1120は、オブジェクトの目が含まれているイメージのターゲット情報を取得し、ターゲット情報に基づいて、イメージで目に関する情報を表現するターゲット特徴マップを取得し、ターゲット特徴マップに基づいて、イメージに含まれている目に対する視線推定を行う。ターゲット情報は、イメージに対するアテンション情報及びイメージ内のピクセル間の距離のいずれか1つ又は2以上を含む。
その他、電子装置1100に関しては、上述した動作を処理することができる。
以上で説明された実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又は、ハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答して、データをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は、1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことを把握する。例えば、処理装置は、複数のプロセッサ、又は1つのプロセッサ、及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうち一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成し、または、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈され、または、処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は、送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアは、ネットワークに連結されたコンピュータシステム上に分散され、または、分散した方法で格納されて、実行され得る。ソフトウェア及びデータは、一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及び、ROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。
前記で説明したハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述のように、実施形態が限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、前記の説明に基づいて、様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が、説明された方法と異なる順に実行され、及び/又は、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態に結合又は組み合わせられてもよく、他の構成要素又は均等物によって置き換え又は置換されたとしても、適切な結果を達成することができる。
したがって、他の具現、他の実施形態、および特許請求の範囲と均等なものも、また、後述する特許請求範囲の範囲に属する。
101、102 電子装置
310 生成器
350 第1正面イメージ
360 判別器
370 実際のイメージ
610 顔イメージ
710 空間トランスフォーマーネットワーク
810 顔イメージ
910 ポイント乗算
1100 電子装置

Claims (20)

  1. 電子装置によって行われる方法であって、
    目の含まれているイメージのターゲット情報を取得する動作と、
    前記ターゲット情報に基づいて、前記イメージで前記目に関する情報を表現するターゲット特徴マップを取得する動作と、
    前記ターゲット特徴マップに基づいて、前記イメージ内の前記目に対する視線推定を行う動作と、
    を含み、
    前記ターゲット情報は、前記イメージに対するアテンション情報と前記イメージ内のピクセルとの間の距離のいずれか1つ又は2以上を含む、
    方法。
  2. 前記アテンション情報は、少なくとも2つのフレームのイメージ間の時間関係情報を含み、
    前記ターゲット特徴マップを取得する動作は、前記少なくとも2つのフレームのイメージの第1特徴マップと前記少なくとも2つのフレームのイメージとの間の時間関係情報に基づいて、前記イメージのターゲット特徴マップを取得する、
    請求項1に記載の方法。
  3. 前記アテンション情報は、顔又は頭の顔の正面特徴を含み、
    前記ターゲット特徴マップを取得する動作は、
    前記イメージの特定部分の第2特徴マップ及び前記顔の正面特徴に基づいて、前記ターゲット特徴マップを取得し、
    前記特定部分は、前記顔又は頭の目、口、鼻、耳、及び眉毛部分のうち1つ又は2以上を含む、
    請求項1に記載の方法。
  4. 前記アテンション情報は、少なくとも2つのフレームのイメージ間の時間関係情報及び前記顔又は頭の顔の正面特徴を含み、
    前記ターゲット特徴マップを取得する動作は、
    前記顔の正面特徴及び前記イメージの部分の第2特徴マップに基づいて前記イメージの第3特徴マップを取得し、
    前記少なくとも2つのフレームのイメージの第3特徴マップと前記少なくとも2つのフレームのイメージとの間の時間関係情報に基づいて前記ターゲット特徴マップを取得する、
    請求項3に記載の方法。
  5. 前記顔の正面特徴は、
    前記イメージの顔マップ及び顔マスクを取得する動作と、
    前記イメージ、前記顔マップ、及び前記顔マスクに基づいて、第1正面イメージを取得する動作と、
    前記第1正面イメージに基づいて、前記顔の正面特徴を取得する動作と、
    に基づいて決定され、
    前記顔マップは、前記イメージで前記顔の各ピクセルのオフセットを含み、
    前記顔マスクは、前記イメージで顔以外の領域を遮る、
    請求項4に記載の方法。
  6. 前記第1正面イメージを取得する動作は、
    前記イメージ、前記顔マップ、及び前記顔マスクに基づいて、顔データの領域を含む第2正面イメージを取得し(前記顔データの領域は、顔データのないホール領域を囲む)、
    前記第2正面イメージに基づいて、前記第2正面イメージのホールマスク及び第3正面イメージを取得し、
    前記第2正面イメージ、前記ホールマスク、及び前記第3正面イメージに基づいて、前記第1正面イメージを取得し、
    前記ホールマスクは、前記第2正面イメージでホール領域以外のイメージ領域を遮り、
    前記第3正面イメージは、前記第2正面イメージでホール領域の位置に対応するイメージ領域を含む、
    請求項5に記載の方法。
  7. 前記ターゲット情報は、ピクセル間の距離を含み、
    前記ターゲット特徴マップを取得する動作は、前記イメージの第4特徴マップ及び前記ピクセル間の相対距離情報に基づいて、前記ターゲット特徴マップを取得する、
    請求項1に記載の方法。
  8. 前記ターゲット情報は、加重値情報を含み、
    前記ターゲット情報を取得する動作は、前記イメージの第5特徴マップに基づいて、前記イメージの第1加重値マップを取得し、
    前記ターゲット特徴マップを取得する動作は、前記第1加重値マップ及び前記第5特徴マップに基づいて、前記ターゲット特徴マップを取得する、
    請求項1に記載の方法。
  9. 前記アテンション情報は、加重値情報を含み、
    前記ターゲット情報を取得する動作は、前記イメージのうち目の位置に基づいて、第2加重値マップを取得し、
    前記ターゲット特徴マップを取得する動作は、前記第2加重値マップ及び前記イメージの第6特徴マップに基づいて、前記ターゲット特徴マップを取得し、
    前記第6特徴マップは、少なくとも2つの畳み込みレイヤを介して、前記イメージから特徴を抽出して取得される、
    請求項1に記載の方法。
  10. 前記ターゲット特徴マップを取得する動作は、
    前記第2加重値マップ及び中間特徴マップに基づいて、第7特徴マップを取得し、
    前記第6特徴マップ及び前記第7特徴マップに基づいて、前記ターゲット特徴マップを取得し、
    前記中間特徴マップは、前記少なくとも2つの畳み込みレイヤのうちターゲットレイヤによって出力された特徴マップである、
    請求項9に記載の方法。
  11. 前記視線推定を行う動作は、
    前記ターゲット特徴マップ及びターゲット姿勢情報に基づいて、前記イメージに対して視線推定を行い、
    前記ターゲット姿勢情報は、前記イメージのうちターゲット部分の姿勢情報である、
    請求項1に記載の方法。
  12. 請求項1~請求項11のいずれか一項に記載の方法を実行するコンピュータプログラムを格納するコンピュータ読み取り可能な記録媒体。
  13. プロセッサと、
    前記プロセッサによって実行可能な命令語を含むメモリと、
    を含み、
    前記命令語が前記プロセッサによって実行されると、前記プロセッサは、
    目の含まれているイメージのターゲット情報を取得し、
    前記ターゲット情報に基づいて、前記イメージ内の前記目に関する情報を表現するターゲット特徴マップを取得し、
    前記ターゲット特徴マップに基づいて、前記イメージに含まれている前記目に対する視線推定を行い、
    前記ターゲット情報は、前記イメージに対するアテンション情報と前記イメージ内のピクセルとの間の距離のいずれか1つ又は2以上を含む、
    電子装置。
  14. 前記アテンション情報は、少なくとも2つのフレームのイメージ間の時間関係情報を含み、
    前記プロセッサは、前記少なくとも2つのフレームのイメージの第1特徴マップと前記少なくとも2つのフレームのイメージとの間の時間関係情報に基づいて前記イメージのターゲット特徴マップを取得する、
    請求項13に記載の電子装置。
  15. 前記アテンション情報は、頭又は顔の正面特徴を含み、
    前記プロセッサは、
    前記イメージの特定部分から取得された第2特徴マップ及び前記顔の正面特徴に基づいて、前記ターゲット特徴マップを取得し、
    前記特定部分は、前記頭又は顔の目、口、鼻、耳、及び眉毛部分のうち1つ又は2以上を含む、
    請求項13に記載の電子装置。
  16. 前記アテンション情報は、少なくとも2つのフレームのイメージ間の時間関係情報及び前記顔又は頭の顔の正面特徴を含み、
    前記プロセッサは、
    前記顔の正面特徴及び前記イメージの特定部分の第2特徴マップに基づいて、前記イメージの第3特徴マップを取得し、
    前記少なくとも2つのフレームのイメージの第3特徴マップと前記少なくとも2つのフレームのイメージとの間の時間関係情報に基づいて、前記ターゲット特徴マップを取得する、
    請求項15に記載の電子装置。
  17. 前記顔の正面特徴は、
    前記イメージの顔マップ及び顔マスクを取得する動作と、
    前記イメージ、前記顔マップ、及び前記顔マスクに基づいて、第1正面イメージを取得する動作と、
    前記第1正面イメージに基づいて、前記顔の正面特徴を取得する動作と、
    に基づいて決定され、
    前記顔マップは、前記イメージで前記顔の各ピクセルのオフセットを含み、
    前記顔マスクは、前記イメージで顔以外の領域を遮る、
    請求項16に記載の電子装置。
  18. 前記プロセッサは、
    前記イメージ、前記顔マップ、及び前記顔マスクに基づいて顔領域にホールが存在する第2正面イメージを取得し(前記ホールは、前記イメージ、前記顔マップ、及び前記顔マスクに基づいて生成されていない前記第2正面イメージの領域を含む)、
    前記第2正面イメージのホールに基づいて、前記第2正面イメージのホールマスク及び第3正面イメージを取得し、
    前記第2正面イメージ、前記ホールマスク、及び前記第3正面イメージに基づいて前記第1正面イメージを取得し、
    前記第3正面イメージは、前記第2正面イメージでホール位置に対応するイメージ領域を含む、請求項17に記載の電子装置。
  19. 前記ターゲット情報は、ピクセル間の距離を含み、
    前記プロセッサは、
    前記イメージの第4特徴マップと前記ピクセルとの間の相対距離情報に基づいて、前記ターゲット特徴マップを取得する、
    請求項13に記載の電子装置。
  20. 前記ターゲット情報は、加重値情報を含み、
    前記プロセッサは、
    前記イメージの第5特徴マップに基づいて前記イメージの第1加重値マップを取得し、
    前記第1加重値マップ及び前記第5特徴マップに基づいて前記ターゲット特徴マップを取得する、
    請求項13に記載の電子装置。
JP2022188139A 2021-12-02 2022-11-25 視線を推定する装置及び方法 Pending JP2023082675A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN202111463213.4 2021-12-02
CN202111463213.4A CN116229558A (zh) 2021-12-02 2021-12-02 视线估计方法、装置、计算机设备、存储介质及程序产品
KR1020220135197A KR20230083213A (ko) 2021-12-02 2022-10-19 시선을 추정하는 전자 장치 및 그 동작 방법
KR10-2022-0135197 2022-10-19

Publications (1)

Publication Number Publication Date
JP2023082675A true JP2023082675A (ja) 2023-06-14

Family

ID=84360394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022188139A Pending JP2023082675A (ja) 2021-12-02 2022-11-25 視線を推定する装置及び方法

Country Status (3)

Country Link
US (1) US20230176649A1 (ja)
EP (1) EP4191545A1 (ja)
JP (1) JP2023082675A (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3511803B1 (en) * 2018-01-10 2021-11-03 Samsung Electronics Co., Ltd. Method and apparatus to determine trigger intent of user
US11340701B2 (en) * 2019-12-16 2022-05-24 Nvidia Corporation Gaze determination using glare as input

Also Published As

Publication number Publication date
US20230176649A1 (en) 2023-06-08
EP4191545A1 (en) 2023-06-07

Similar Documents

Publication Publication Date Title
Memo et al. Head-mounted gesture controlled interface for human-computer interaction
JP7178396B2 (ja) 入力映像に含まれた客体の3次元ポーズの推定のためのデータを生成する方法およびコンピュータシステム
CN110046546B (zh) 一种自适应视线追踪方法、装置、系统及存储介质
US8060272B2 (en) System and method for image mapping and visual attention
US11417069B1 (en) Object and camera localization system and localization method for mapping of the real world
EP4307233A1 (en) Data processing method and apparatus, and electronic device and computer-readable storage medium
CN112911393B (zh) 部位识别方法、装置、终端及存储介质
KR20170014491A (ko) 움직임 인식 방법 및 움직임 인식 장치
CN113034652A (zh) 虚拟形象驱动方法、装置、设备及存储介质
CN109508679A (zh) 实现眼球三维视线跟踪的方法、装置、设备及存储介质
US20220351405A1 (en) Pose determination method and device and non-transitory storage medium
WO2022100419A1 (zh) 一种图像处理方法及相关设备
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
Kang et al. Real-time eye tracking for bare and sunglasses-wearing faces for augmented reality 3D head-up displays
WO2021098554A1 (zh) 一种特征提取方法、装置、设备及存储介质
CN114402370A (zh) 基于面部-肩部特征坐标变换的自适应手部跟踪和手势识别
KR101189043B1 (ko) 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기
EP4394706A1 (en) Spatial positioning method and apparatus
JP2023082675A (ja) 視線を推定する装置及び方法
CN117981338A (zh) 用于底片快门滞后捕获的低功率融合
Algabri et al. Real-time 6DoF full-range markerless head pose estimation
CN115471863A (zh) 三维姿态的获取方法、模型训练方法和相关设备
KR20230083213A (ko) 시선을 추정하는 전자 장치 및 그 동작 방법
JP2023512359A (ja) 関連対象検出方法、及び装置
Li et al. Estimating gaze points from facial landmarks by a remote spherical camera