JP2022553776A - 視線方向特定方法、装置、電子機器及び記憶媒体 - Google Patents

視線方向特定方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2022553776A
JP2022553776A JP2022524710A JP2022524710A JP2022553776A JP 2022553776 A JP2022553776 A JP 2022553776A JP 2022524710 A JP2022524710 A JP 2022524710A JP 2022524710 A JP2022524710 A JP 2022524710A JP 2022553776 A JP2022553776 A JP 2022553776A
Authority
JP
Japan
Prior art keywords
feature
features
eye
facial
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022524710A
Other languages
English (en)
Other versions
JP7309116B2 (ja
Inventor
▲飛▼ 王
晨 ▲銭▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Lingang Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Publication of JP2022553776A publication Critical patent/JP2022553776A/ja
Application granted granted Critical
Publication of JP7309116B2 publication Critical patent/JP7309116B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/197Matching; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Ophthalmology & Optometry (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本発明は、視線方向特定方法、装置、電子機器及び記憶媒体を提供する。当該視線方向特定方法は、目標オブジェクトの顔部画像及び眼部画像を取得するステップと、顔部画像から目標オブジェクトの顔部特徴を抽出するステップと、目標オブジェクトの顔部特徴及び眼部画像に基づいて目標オブジェクトの眼部特徴を特定するステップと、顔部特徴に基づいて目標オブジェクトの初期視線方向を予測し、且つ、顔部特徴と眼部特徴とを融合した融合特徴に基づいて、視線残差情報を予測して取得するステップと、視線残差情報に基づいて初期視線方向を修正し、目標オブジェクトの視線方向を取得するステップとを含む。【選択図】図1

Description

本発明は、画像処理技術分野に関し、具体的に、視線方向特定方法、装置、電子機器及び記憶媒体に関する。
<関連出願の相互引用>
本願は、2019年12月30日に提出された、出願番号が201911403648.2である中国特許出願の優先権を要求し、当該出願の全文が引用によって本願に組み込まれる。
現在、視線追跡は、コンピュータビジョンにおける重要な分野であり、その主な目的がユーザの視線方向を予測することにある。ユーザの視線方向が一般的にユーザの個人意図に関連するため、視線追跡技術は、ユーザの意図理解に関して重要な役割を有する。したがって、如何にしてユーザの視線方向を正確に特定するかは、格段に重要になる。
本発明の実施例は、少なくとも視線方向特定案を提供する。
第1態様において、本発明の実施例は、視線方向特定方法を提供する。当該視線方向特定方法は、目標オブジェクトの顔部画像及び眼部画像を取得するステップと、前記顔部画像から前記目標オブジェクトの顔部特徴を抽出するステップと、前記目標オブジェクトの顔部特徴及び前記眼部画像に基づいて前記目標オブジェクトの眼部特徴を特定するステップと、前記顔部特徴に基づいて前記目標オブジェクトの初期視線方向を予測し、且つ、前記顔部特徴と前記眼部特徴とを融合した融合特徴に基づいて、視線残差情報を予測して取得するステップと、前記視線残差情報に基づいて前記初期視線方向を修正し、前記目標オブジェクトの視線方向を取得するステップと、を含む。
本発明の実施例に係る視線方向特定方法では、顔部画像に基づいて目標オブジェクトの顔部特徴を抽出し、且つ顔部特徴及び眼部画像に基づいて目標オブジェクトの眼部特徴を特定することができ、当該顔部特徴によって目標オブジェクトの初期視線方向を予測可能である。その後、顔部特徴と眼部特徴とを融合した融合特徴によって、目標オブジェクトの実視線方向と初期視線方向との間の差異を表す情報、即ち視線残差情報を予測することができる。その後、当該差異を表す情報によって、顔部特徴のみに基づいて予測された初期視線方向を調整すると、実視線方向に一層近接する視線方向を取得することができる。これにより、本発明の実施例に係る視線特定方法は、より正確な視線方向を予測して取得することができる。
1種の可能な実施形態において、前記眼部画像は、左目画像及び右目画像を含み、前記目標オブジェクトの顔部特徴及び前記眼部画像に基づいて前記目標オブジェクトの眼部特徴を特定するステップは、前記左目画像から左目特徴を抽出することと、前記右目画像から右目特徴を抽出することと、前記顔部特徴、前記左目特徴及び前記右目特徴に基づいて、前記左目特徴に対応する第1重みと前記右目特徴に対応する第2重みとを特定することと、前記第1重み及び前記第2重みに基づいて、前記左目特徴と前記右目特徴とを加重加算して前記眼部特徴を取得することと、を含む。
本発明の実施例では、顔部特徴と左目特徴とを組み合わせ、且つ顔部特徴と右目画像とを組み合わせることにより、視線方向を特定するときにおける左目画像及び右目画像の異なる貢献をそれぞれ特定する。これにより、正確度の高い眼部特徴を特定し、更に視線残差情報を予測する正確度の向上が容易になる。
1種の可能な実施形態において、前記顔部特徴、前記左目特徴及び前記右目特徴に基づいて、前記左目特徴に対応する第1重みと前記右目特徴に対応する第2重みとを特定することは、前記顔部特徴及び前記左目特徴に基づいて前記左目特徴の第1スコアを特定し、且つ前記顔部特徴及び前記右目特徴に基づいて前記右目特徴の第2スコアを特定することと、前記第1スコア及び第2スコアに基づいて、前記第1重み及び第2重みを特定することと、を含む。
1種の可能な実施形態において、前記顔部特徴に基づいて前記目標オブジェクトの初期視線方向を予測することは、前記顔部特徴における各特徴点の重みを特定し、前記顔部特徴における各特徴点の重みに基づいて前記顔部特徴を調整することと、調整された顔部特徴に基づいて前記目標オブジェクトの初期視線方向を特定することと、を含む。
ここで、顔部特徴における各特徴点の重みを調整することにより、初期視線方向への影響の大きな特徴点の重みを初期視線方向への影響の小さい特徴点の重みよりも大きくすることができ、調整後の顔部特徴に基づいて比較的に正確な初期視線方向を得ることができる。
1種の可能な実施形態において、前記顔部特徴及び前記眼部特徴に基づいて前記融合特徴を特定することは、前記調整された顔部特徴と、前記眼部特徴と、前記調整された顔部特徴における各特徴点の重みとに基づいて、中間特徴を特定することと、前記中間特徴と、前記調整された顔部特徴と、前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みとに基づいて、前記中間特徴と前記調整された顔部特徴とを加重加算して前記融合特徴を取得することと、によって実施される。
1種の可能な実施形態において、調整された顔部特徴における各特徴点の重みを特定することは、前記眼部特徴と前記調整された顔部特徴とに基づいて、調整された顔部特徴における各特徴点の重みを特定することによって実施される。
1種の可能な実施形態において、前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みを特定することは、前記眼部特徴と前記調整された顔部特徴とに基づいて、前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みを特定することによって実施される。
以上では、眼部特徴及び調整後の顔部特徴に基づいて、顔部特徴と眼部特徴とを融合した融合特徴を特定し、当該融合特徴が顔部画像及び眼部画像を総合的に考慮したため、当該融合特徴によって目標オブジェクトの実視線方向と初期視線方向との間の差異を特定することが便利になり、更に当該差異に基づいて初期視線方向を修正して比較的に正確な視線方向を得ることができる。
1種の可能な実施形態において、前記視線方向特定方法は、ニューラルネットワークによって実施され、前記ニューラルネットワークは、目標サンプルオブジェクトのマーキング視線方向を含むサンプル画像を利用してトレーニングされたものである。
1種の可能な実施形態において、前記ニューラルネットワークは、サンプル画像における目標サンプルオブジェクトの顔部サンプル画像及び眼部サンプル画像を取得することと、前記顔部サンプル画像から前記目標サンプルオブジェクトの顔部特徴を抽出することと、前記目標サンプルオブジェクトの顔部特徴と前記眼部サンプル画像とに基づいて前記目標サンプルオブジェクトの眼部特徴を特定することと、前記目標サンプルオブジェクトの顔部特徴に基づいて前記目標サンプルオブジェクトの初期視線方向を予測し、且つ、前記目標サンプルオブジェクトの顔部特徴と前記目標サンプルオブジェクトの眼部特徴とを融合した融合特徴に基づいて、前記目標サンプルオブジェクトの視線残差情報を予測して取得することと、前記目標サンプルオブジェクトの視線残差情報に基づいて前記目標サンプルオブジェクトの初期視線方向を修正し、前記目標サンプルオブジェクトの視線方向を取得することと、取得された前記目標サンプルオブジェクトの視線方向と前記目標サンプルオブジェクトのマーキング視線方向とに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、によってトレーニングされたものである。
本発明の実施例に係るニューラルネットワークのトレーニング方法によると、サンプル画像における目標サンプルオブジェクトの顔部サンプル画像及び眼部サンプル画像を取得することができる。その後、顔部サンプル画像に基づいて目標サンプルオブジェクトの顔部特徴を抽出し、当該目標サンプルオブジェクトの顔部特徴に基づいて、目標サンプルオブジェクトの初期視線方向を予測可能である。目標サンプルオブジェクトの顔部特徴及び眼部画像に基づいて目標サンプルオブジェクトの眼部特徴を特定する。目標サンプルオブジェクトの顔部特徴と眼部特徴とを融合した融合特徴に基づいて、目標サンプルオブジェクトの実視線方向と初期視線方向との間の差異を表す情報、即ち視線残差情報を予測可能である。その後、当該差異を表す情報によって、目標サンプルオブジェクトの顔部特徴のみに基づいて予測された初期視線方向を調整すれば、目標サンプルオブジェクトのマーキング視線方向に一層近接する視線方向を得ることができる。取得された目標サンプルオブジェクトの視線方向及びマーキング視線方向に基づいてニューラルネットワークのネットワークパラメータ値を調整すれば、正確度の高いニューラルネットワークを得ることができる。当該正確度の高いニューラルネットワークに基づくと、目標オブジェクトの視線方向を正確に予測することができる。
第2態様において、本発明の実施例は、視線方向特定装置を提供する。当該視線方向特定装置は、目標オブジェクトの顔部画像及び眼部画像を取得するための画像取得モジュールと、前記顔部画像から前記目標オブジェクトの顔部特徴を抽出し、且つ前記目標オブジェクトの顔部特徴及び前記眼部特徴に基づいて前記目標オブジェクトの眼部特徴を特定するための特徴抽出モジュールと、前記顔部特徴に基づいて前記目標オブジェクトの初期視線方向を予測し、且つ、前記顔部特徴と前記眼部特徴とを融合した融合特徴に基づいて、視線残差情報を予測して取得するための視線予測モジュールと、前記視線残差情報に基づいて前記初期視線方向を修正し、前記目標オブジェクトの視線方向を取得するための視線修正モジュールと、を備える。
第3態様において、本発明の実施例は、電子機器を提供する。当該電子機器は、プロセッサと、記憶媒体と、バスとを備え、前記記憶媒体には、前記プロセッサで実行され得る機器読み取り可能な指令が記憶され、前記プロセッサと前記記憶媒体との間は、バスを介して通信され、前記機器読み取り可能な指令により、前記プロセッサは、第1態様に記載の方法を実行する。
第4態様において、本発明の実施例は、コンピュータ可読記憶媒体を提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該コンピュータプログラムにより、プロセッサは、第1態様に記載の方法を実行する。
本発明の上記目的、特徴及びメリットがより明瞭で分かりやすくなるように、下記の実施例に基づいて図面を参照しながら以下のように詳細に説明する。
本発明の実施例の技術案がより明瞭に説明されるように、以下では、本発明の実施例に使用必要な図面を簡単に紹介する。ここでの図面は、明細書に組み込まれて明細書の一部を構成する。これらの図面は、本発明に合致する実施例を示しつつ、明細書の記載とともに本発明の解決手段を説明するために用いられる。理解できるように、以下の図面が本発明の幾つかの実施例を示すだけであり、範囲に対する限定として見なされるべきではない。当業者であれば、また進歩性に値する労力を掛けずにこれらの図面から他の関連する図面を取得可能である。
本発明の実施例に係る視線方向特定方法のフローチャートを示す。 本発明の実施例に係る視線方向特定の原理の模式図を示す。 本発明の実施例に係る眼部特徴の特定方法のフローチャートを示す。 本発明の実施例に係る左目特徴及び右目特徴のそれぞれに対応する重みの特定手順の模式図を示す。 本発明の実施例に係る初期視線方向の特定方法のフローチャートを示す。 本発明の実施例に係る融合特徴の特定方法のフローチャートを示す。 本発明の実施例に係る初期視線方向の特定及び視線残差情報の特定の手順の模式図を示す。 本発明の実施例に係る視線方向を特定する手順の模式図を示す。 本発明の実施例に係るニューラルネットワークトレーニング方法のフローチャートを示す。 本発明の実施例に係る視線方向特定装置の構造模式図を示す。 本発明の実施例に係る電子機器の構造模式図を示す。
本発明の実施例の目的、技術案及びメリットがより明瞭になるように、以下では、本発明の実施例における図面と併せて本発明の実施例における技術案を明瞭で完全に記述する。明らかに、記述される実施例は、単に本発明の一部の実施例であり、全ての実施例ではない。通常、ここでの図面に記述して示された本発明の実施例のユニットは、各種の異なる配置で配列や設計され得る。そのため、以下に図面に供される本発明の実施例に対する詳細な記述は、保護要求する本発明の範囲を制限するためではなく、単に本発明の好適な実施例を示す。本発明の実施例に基づいて、当業者が進歩性に値する労働をせずに成した全ての他の実施例は、何れも本発明の保護範囲に含まれる。
視線追跡は、コンピュータビジョンにおける重要分野であり、その主な目的がユーザの視線方向を予測することにある。研究で分かるように、外観に基づく視線予測モデルは、一般的にディープラーニングモデルを用いて実現され、例えば、顔部画像におけるフェイス特徴又は眼部画像における眼部特徴に基づいて視線方向を予測してもよい。
関連技術では、単に顔部画像と眼部画像とを異なる独立特徴源とし、顔部画像と眼部画像との間の内在関係を実質的に考慮していない。実際には、眼部画像から凝視に専念する細粒度(fine granularity)特徴が与えられる一方、顔部画像からより広範な情報を有する粗粒度(coarse granularity)特徴が与えられ、両者の組み合わせにより、視線方向をより正確に予測することができる。
上記研究を基に、本発明は、視線方向特定方法を提供する。顔部画像に基づいて目標オブジェクトの顔部特徴を抽出可能であり、当該顔部特徴は、目標オブジェクトの初期視線方向を予測するために用いられてもよい。顔部特徴及び眼部画像に基づいて目標オブジェクトの眼部特徴を特定した後、顔部特徴と眼部特徴とを融合した特徴(「融合特徴」とも呼称される)に基づいて、目標オブジェクトの実視線方向と初期視線方向との間の差異を表す情報、即ち視線残差情報を予測してもよい。その後、当該差異を表す情報によって、顔部特徴のみに基づいて予測された初期視線方向を調整すると、実視線方向に一層近接する視線方向を取得することができる。これにより、本発明の実施例に係る視線特定方法は、予測によってより正確な視線方向を得ることができることが分かる。
以下では、本発明における図面と併せて本発明における技術案を明瞭で完全に記述する。明らかに、記述される実施例は、単に本発明の一部の実施例であり、全ての実施例ではない。通常、ここでの図面に記述して示された本発明のユニットは、各種の異なる配置で配列や設計され得る。そのため、以下に図面に供される本発明の実施例に対する詳細な記述は、保護要求する本発明の範囲を制限するためではなく、単に本発明の好適な実施例を示す。本発明の実施例に基づいて、当業者が進歩性に値する労働をせずに成した全ての他の実施例は、何れも本発明の保護範囲に含まれる。
注意すべきことは、類似する符号やアルファベットが以下の図面において類似要素を示すため、一旦ある要素が1つの図面に定義されると、後の図面において更に定義及び解釈される必要がない。
本実施例に対する理解が容易になるように、まず、本発明の実施例に開示された視線方向特定方法を詳細に紹介する。本発明の実施例に関わる視線方向特定方法の実行主体は、一般的に一定の計算能力を有するコンピュータ機器である。当該コンピュータ機器は、例えば、端末機器やサーバ又は他の処理機器を含み、端末機器は、ユーザ機器(User Equipment、UE)、モバイル機器、ユーザ端末、端末等であってもよい。幾つかの可能な実現方式において、当該視線方向特定方法は、プロセッサがメモリに記憶されたコンピュータ可読指令を呼び出すことで実現されてもよい。
以下では、実行主体が端末機器であることを例として本発明の実施例に係る視線方向特定方法を説明する。
図1は、本発明の実施例に係る視線方向特定方法のフローチャートを示す。方法は、ステップS101~S103を含む。
S101では、目標オブジェクトの顔部画像及び眼部画像を取得する。
ここで、目標オブジェクトは、視線方向が予測されるべきユーザであってもよく、ビデオカメラ又はカメラ等の画像を収集可能な機器を介して目標オブジェクトのフェイスを撮像し、目標オブジェクトの顔部画像を取得し、その後当該顔部画像から目標オブジェクトの眼部画像を切り出してもよい。
S102では、顔部画像から目標オブジェクトの顔部特徴を抽出する。
S103では、目標オブジェクトの顔部特徴及び眼部画像に基づいて目標オブジェクトの眼部特徴を特定する。
ここで、目標オブジェクトの顔部特徴とは、より広範な情報を有する粗粒度特徴を指し、これらの顔部特徴により、目標オブジェクトの初期視線方向を予測可能である。目標オブジェクトの眼部特徴とは、凝視に専念することを表せる細粒度特徴を指す。眼部特徴と顔部特徴との組み合わせにより、視線方向を比較的に正確に予測することができる。
具体的に、ここで、顔部特徴及び眼部特徴は、予めトレーニングされた視線方向予測を行うニューラルネットワークのうちの特徴抽出を行うためのサブニューラルネットワークを介して抽出されてもよく、後文の実施例において詳細に紹介され、ここで繰り返し説明しない。
S104では、顔部特徴に基づいて目標オブジェクトの初期視線方向を予測し、且つ、顔部特徴と眼部特徴とを融合した融合特徴に基づいて、視線残差情報を予測して取得する。
視線残差情報は、目標オブジェクトの実視線方向と初期視線方向との間の差異を表すために用いられる。
ここでの初期視線方向は、顔部特徴に基づいて特定されてもよく、具体的に、予めトレーニングされた、視線方向予測を行うニューラルネットワークのうちの初期視線方向を特定するためのサブニューラルネットワークに基づいて予測されてもよく、具体的な予測方式は、後文で実施例と併せて詳細に記述される。
ここでの視線残差情報は、予めトレーニングされた、視線方向予測を行うニューラルネットワークのうちの視線残差情報を特定するためのサブニューラルネットワークに基づいて予測されてもよく、具体的な予測方式は、後文で詳細に記述される。
ここで、顔部特徴と眼部特徴とを融合した特徴によって、目標オブジェクトの実視線方向と初期視線方向との間の差異を表す情報を予測し、その後、当該差異を表す情報によって、顔部特徴のみに基づいて予測された初期視線方向を調整すると、実視線方向に一層近接する視線方向を取得することができる。即ち、本発明は、目標オブジェクトの顔部画像と眼部画像とを結合して、眼部画像に供される凝視に専念する細粒度特徴と、顔部画像に供されるより広範な情報に対応する粗粒度特徴とを組み合わせて、目標オブジェクトの実視線方向と初期視線方向との間の差異を表す視線残差情報を予測して取得することにより、当該視線残差情報を利用して、顔部特徴に基づいて予測された目標オブジェクトの初期視線方向を調整し、更により正確な目標オブジェクトの視線方向を取得する。
具体的に、顔部特徴及び眼部特徴を、予めトレーニングされた、視線方向予測を行うニューラルネットワークのうちの視線残差情報を特定するためのサブニューラルネットワークに入力して、顔部特徴と眼部特徴とを融合した特徴を取得し、当該方式は、後文で具体的な実施例と結合して記述を行う。
S105では、視線残差情報に基づいて初期視線方向を修正し、目標オブジェクトの視線方向を取得する。
具体的に、ここでの視線残差情報は、顔部特徴と眼部特徴とを融合した特徴に基づいて特定された、実視線方向と初期視線方向との間の差異を表す情報を含んでもよい。その後、当該視線残差情報に基づいて初期視線方向を調整し、例えば、当該視線残差情報と顔部特徴に基づいて予測された初期視線方向との和を求め、目標オブジェクトの実視線方向に一層近接する視線方向を取得してもよい。
例えば、図2は、1種の視線方向を特定するための原理模式図を示す。gが顔部特徴に基づいて予測された目標オブジェクトの初期視線方向を示し、gが視線残差情報を示すと、最終的に取得される目標オブジェクトの視線方向gは、以下の数式(1)によって表される。
g=g+g (1)
視線残差情報は、実視線方向と初期視線方向との差異を示すときに、ベクトルで示してもよい。ここで、世界座標系を導入して初期視線方向及び視線残差情報を示してもよい。視線残差情報と初期視線方向との和を求めるときに、初期視線方向と視線残差情報との世界座標系における同一方向軸の値を対応的に加算すると、目標オブジェクトの視線方向を取得する。
例えば、目標オブジェクトの実視線方向が東から南に30度であり、目標オブジェクトの顔部特徴予測によって得られた目標オブジェクトの初期視線方向が東から南に25度であり、顔部特徴と眼部特徴とを融合した後の特徴予測によって得られた視線残差情報が偏差4度である場合に、視線残差情報によって初期視線方向を修正すると、予測された目標オブジェクトの視線方向が東から南に29度であると取得され得る。東から南に29度が東から南に25度よりも目標オブジェクトの実視線方向に近接することは、明らかである。
以上のステップS101~S105に係る視線方向特定方法では、顔部画像から目標オブジェクトの顔部特徴を抽出し、当該顔部特徴によって目標オブジェクトの初期視線方向を予測可能であり、顔部特徴及び眼部画像に基づいて目標オブジェクトの眼部特徴を特定した後、顔部特徴と眼部特徴とを融合した特徴によって、目標オブジェクトの実視線方向と初期視線方向との間の差異を表す情報、即ち視線残差情報を予測することができ、その後、当該差異を表す情報によって、顔部特徴のみに基づいて予測された初期視線方向を調整すると、実視線方向に一層近接する視線方向を取得することができる。これにより、本発明の実施例に係る視線特定方法は、より正確な視線方向を予測して取得することができる。
以下では、具体的な実施例を用いて上記S101~S105の過程を分析する。
上記顔部画像から目標オブジェクトの顔部特徴を抽出するステップ(S102)について、顔部画像に対して画像分析を行うことにより、顔部画像から、顔部特徴を表せる位置点座標を目標オブジェクトの顔部特徴として抽出してもよい。例えば、頬、目尻等の位置点座標を抽出する。又は、ニューラルネットワークに基づいて目標オブジェクトの顔部特徴を抽出してもよい。
例えば、目標オブジェクトの顔部特徴は、予めトレーニングされた、視線方向予測を行うニューラルネットワークのうちの特徴抽出を行うサブニューラルネットワークを介して抽出されてもよく、具体的に、以下のことを含む。
顔部画像を第1特徴抽出ネットワークに入力して第1特徴抽出ネットワークの処理を経て顔部特徴を取得する。第1特徴抽出ネットワークは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、顔部特徴抽出を行うためのサブニューラルネットワークである。
ここでの第1特徴抽出ネットワークは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、顔部画像における顔部特徴を抽出するためのものである。即ち、顔部画像を当該第1特徴抽出ネットワークに入力した後、初期視線方向を予測するための顔部特徴を抽出することができる。
ここで、予めトレーニングされた視線方向予測を行うニューラルネットワークのうちの第1特徴抽出ネットワークを介して顔部画像における顔部特徴を抽出する。視線方向予測を行うニューラルネットワークのうち、当該第1特徴抽出ネットワークは、専ら顔部画像の顔部特徴を抽出するためのものであるため、より正確な顔部特徴を抽出可能であり、更に初期視線方向の正確度を向上させることは、容易になる。
上記眼部画像は、左目画像及び右目画像を含む。通常、左目画像で示された左目の外観と右目画像で示された右目の外観とは、環境の変化又は頭部ポーズの変化とともに変化する。このように、左目画像から抽出された左目特徴と右目画像から抽出された右目特徴とは、視線方向を特定する際に、異なる貢献が存在する可能性がある。これに鑑みて、目標オブジェクトの顔部特徴及び眼部画像に基づいて目標オブジェクトの眼部特徴を特定することは、図3に示すように、以下のステップS301~S304を含んでもよい。
S301では、左目画像から左目特徴を抽出する。
ここで、左目画像から左目特徴を抽出することは、左目画像から、眼部特徴を表せる位置点座標、例えば、瞳孔、目尻等の位置点座標を目標オブジェクトの左目特徴として抽出することであってもよく、又は、予めトレーニングされたニューラルネットワークに基づいて左目特徴を抽出してもよい。
S302では、右目画像から右目特徴を抽出する。
同様に、ここで、右目画像から右目特徴を抽出することは、右目画像から、眼部特徴を表せる位置点座標、例えば、瞳孔、目尻等の位置点座標を目標オブジェクトの右目特徴として抽出することであってもよく、又は、予めトレーニングされたニューラルネットワークに基づいて右目特徴を抽出してもよい。
本発明では、予めトレーニングされたニューラルネットワークを介して左目特徴及び右目特徴を抽出することを例として説明する。
左目画像を第2特徴抽出ネットワークに入力し、第2特徴抽出ネットワークの処理を経て左目特徴を取得し、且つ右目画像を第3特徴抽出ネットワークに入力し、第3特徴抽出ネットワークの処理を経て右目特徴を取得する。
第2特徴抽出ネットワークは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、左目特徴抽出を行うためのサブニューラルネットワークである。第3特徴抽出ネットワークは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、右目特徴抽出を行うためのサブニューラルネットワークである。
S303では、顔部特徴、左目特徴及び右目特徴に基づいて、左目特徴に対応する第1重みと右目特徴に対応する第2重みとを特定する。
ここで、左目特徴に対応する第1重みは、左目画像の視線方向特定時における貢献を示し、右目特徴に対応する第2重みは、右目画像の視線方向特定時における貢献を示す。当該第1重み及び第2重みを特定する際に、予めトレーニングされたニューラルネットワークによって特定してもよい。例えば、顔部特徴、左目特徴及び右目特徴を注意力ネットワークに入力し、注意力ネットワークの処理を経て左目特徴に対応する第1重みと右目特徴に対応する第2重みとを取得してもよい。
注意力ネットワークは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、左目特徴及び右目特徴各自の評価値を特定するためのサブニューラルネットワークである。当該評価値は、左目特徴/右目特徴の眼部特徴における重要度を表す。
顔部特徴、左目特徴及び右目特徴を当該注意力ネットワークに入力した後、左目特徴及び右目特徴各自の評価値を取得することができる。
具体的に、顔部特徴、左目特徴及び右目特徴を注意力ネットワークに入力し、注意力ネットワークの処理を経て第1重み及び第2重みを取得するときに、
(1)顔部特徴及び左目特徴に基づいて左目特徴の第1スコアを特定し、且つ、顔部特徴及び右目特徴に基づいて右目特徴の第2スコアを特定することと、
(2)第1スコア及び第2スコアに基づいて、第1重み及び第2重みを特定することと、を含む。
同様に、ここで、顔部特徴及び左目特徴に基づいて左目特徴の第1スコアを特定し、且つ顔部特徴及び右目特徴に基づいて右目特徴の第2スコアを特定するときに、予めトレーニングされたニューラルネットワークによって特定してもよく、例えば注意力ネットワークによって特定してもよい。即ち、
顔部特徴及び左目特徴を注意力ネットワークに入力し、注意力ネットワークの処理を経て左目特徴の第1スコアを取得し、且つ、顔部特徴及び右目特徴を注意力ネットワークに入力し、注意力ネットワークの処理を経て右目特徴の第2スコアを取得する。
ここで、第1スコア及び第2スコアに基づいて第1重み及び第2重みを特定することは、注意力ネットワークの処理によって実施されてもよい。第1スコアは、左目画像の視線方向特定時における貢献を示してもよく、事前テストで知られる。当該第1スコアは、フェイス特徴にも左目特徴にも関連する。第1スコアが顔部特徴に関連するとは、初期視線方向の顔部特徴を予測すると、左目特徴のスコアへ影響することができることを指す。また、第1スコアが左目特徴に関連するとは、左目形状、外観等も左目特徴のスコアへ影響することができることを指す。具体的に、注意力ネットワークは、顔部特徴及び左目特徴を受信した後、以下の数式(2)によって第1スコアを特定してもよい。
=W tanh(W +W ) (2)
ここでのmは、左目特徴に対応する第1スコアを示し、W、W及びWは、注意力ネットワークにおけるネットワークパラメータ、即ち、注意力ネットワークのトレーニングを完了して得たネットワークパラメータであり、fは、顔部特徴を示し、fは、左目特徴を示す。
それ相応に、第2スコアは、右目画像の視線方向特定時における貢献を示してもよく、事前テストで知られる。当該第2スコアは、フェイス特徴にも右目特徴にも関連する。第2スコアが顔部特徴に関連するとは、初期視線方向の顔部特徴を予測すると、右目特徴のスコアへ影響することができることを指す。また、第2スコアが右目特徴に関連するとは、右目形状、外観等も右目特徴のスコアへ影響することができることを指す。具体的に、注意力ネットワークは、顔部特徴及び右目特徴を受信した後、以下の数式(3)によって第2スコアを特定してもよい。
=W tanh(W +W ) (3)
ここでのmは、右目特徴に対応する第2スコアを示し、W、W及びWは、注意力ネットワークにおけるネットワークパラメータ、即ち、注意力ネットワークのトレーニングを完了して得たネットワークパラメータであり、fは、顔部特徴を示し、fは、右目特徴を示す。
左目特徴に対応する第1スコア、及び右目特徴に対応する第2スコアが取得された後、更に当該第1スコア及び第2スコアに基づいて左目特徴に対応する第1重みと右目特徴に対応する第2重みとを取得してもよい。具体的に、以下の数式(4)によって第1重み及び第2重みを特定してもよい。
[w,w]=soft max([m,m]) (4)
ここで、正規化指数関数softmax関数を導入すると、左目特徴に対応する第1重みwと、右目特徴に対応する第2重みwとを取得することができる。
以上の左目特徴及び右目特徴のそれぞれに対応する重みを特定する手順の模式図は、図4に示されてもよい。図4において、それぞれ深層ニューラルネットワークCNNを介して左目特徴f及び右目特徴fを取得し、その後、更にフェイス特徴f、左目特徴f及び右目特徴fを注意力ネットワークに入力し、左目特徴に対応する第1重みw、及び右目特徴に対応する第2重みwを取得してもよい。
S304では、第1重み及び第2重みに基づいて、左目特徴及び右目特徴を加重加算して眼部特徴を取得する。
ここで、第1重み及び第2重みに基づいて、左目特徴と右目特徴とを加重加算して眼部特徴を取得するステップは、注意力ネットワークを介して実行されてもよい。左目特徴に対応する第1重みと右目特徴に対応する第2重みとが取得された後、左目特徴及び右目特徴を加重加算してもよい。具体的に、以下の数式(5)によって眼部特徴fを取得してもよい。
=w*f+w*f (5)
本発明の実施例では、顔部特徴と左目特徴とを組み合わせ、且つ顔部特徴と右目画像とを組み合わせることにより、視線方向を特定するときにおける左目画像及び右目画像の異なる貢献をそれぞれ特定し、これによって正確度の高い眼部特徴を特定し、更に視線残差情報の正確度の向上を容易にする。
上記方式で顔部特徴及び眼部特徴が取得された後、更に顔部特徴及び眼部特徴に基づいて目標オブジェクトの視線方向を特定してもよい。目標オブジェクトの視線方向を特定することは、2つの部分を含んでもよい。第1部分は、顔部特徴に基づいて目標オブジェクトの初期視線方向を予測する過程であり、第2部分は、顔部特徴と眼部特徴とを融合した特徴に基づいて目標オブジェクトの視線残差情報を予測する過程である。
顔部特徴に基づいて目標オブジェクトの初期視線方向を予測するときに、図5に示すように、以下のステップS501~S502を含んでもよい。
S501では、顔部特徴における各特徴点の重みを特定し、顔部特徴における各特徴点の重みに基づいて顔部特徴を調整する。
S502では、調整された顔部特徴に基づいて目標オブジェクトの初期視線方向を特定する。
顔部特徴は、複数の特徴点を含んでもよい。特徴点は、顔部画像から抽出された異なる粗粒度特徴として理解され得る。これらの粗粒度特徴は、例えば顔部画像における領域特徴、位置点特徴等を含んでもよい。顔部特徴における各特徴点が初期視線方向を予測するときに奏する重要度合いは、異なる。ここで、各特徴点の重みに基づいて顔部特徴を調整してから、調整後の顔部特徴に基づいて目標オブジェクトの初期視線方向を特定してもよい。
ここで、顔部特徴を調整するときに、予めトレーニングされたニューラルネットワークを介して調整してもよく、これは、後文で詳細に紹介する。
調整後の顔部特徴が取得された後、図6に示す方式で顔部特徴及び眼部特徴に基づいて融合後の特徴を特定してもよく、具体的に以下のステップS601~S602を含む。
S601では、調整後の顔部特徴、眼部特徴、及び調整後の顔部特徴における各特徴点の重みに基づいて中間特徴を特定する。
S602では、中間特徴、調整後の顔部特徴、並びに、中間特徴及び調整後の顔部特徴のそれぞれに対応する重みに基づいて、中間特徴と調整後の顔部特徴とを加重加算して融合後の特徴を取得する。
ここでの中間特徴は、予めトレーニングされたニューラルネットワークを介して特定されてもよい。当該中間特徴及び調整後の顔部特徴により、顔部特徴と眼部特徴とを融合した特徴を特定することができる。
以上の顔部特徴を調整して調整後の顔部特徴を取得する手順、及び、顔部特徴と眼部特徴とを融合した特徴を取得する手順は、何れも予めトレーニングされたニューラルネットワーク、例えばゲートネットワークを介して処理されてもよい。調整された顔部特徴に基づいて目標オブジェクトの初期視線方向を特定することも、同様に予めトレーニングされたニューラルネットワークを介して特定されてもよい。これは、後文で詳細に紹介する。
本発明の実施例では、以下のステップによって調整後の顔部特徴における各特徴点の重みを特定してもよい。
眼部特徴及び調整後の顔部特徴に基づいて、調整後の顔部特徴における各特徴点の重みを特定する。
ここで、重みを特定する方式は、予め設定された重み割当方式で特定されてもよく、予めトレーニングされたニューラルネットワークを介して特定されてもよく、後文で詳細に紹介する。
本発明の実施例では、以下のステップによって中間特徴及び調整後の顔部特徴のそれぞれに対応する重みを特定する。
眼部特徴及び調整後の顔部特徴に基づいて、中間特徴及び調整後の顔部特徴のそれぞれに対応する重みを特定する。
同様に、ここで、重みを特定する方式も、予め設定された重み割当方式で特定されてもよく、予めトレーニングされたニューラルネットワークを介して特定されてもよく、後文で詳細に紹介する。
初期視線方向の特定手順、及び、顔部特徴と眼部特徴とを融合した特徴の特定手順を紹介する前に、ゲートネットワークを紹介する。まず、ここで、ゲートネットワークの概念を導入する。ゲートネットワークは、本発明の実施例に係る予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、受信された特徴を濾過・選別する役割を果たし、即ち、重要特徴の重みを大きくし、非重要特徴の重みを小さくする。詳細は、下文において実施例を結合して具体的に説明する。ここで、数式(7)~数式(10)を用いてゲートネットワークの特徴変化方式を紹介する。
Figure 2022553776000002
、W、Wは、ゲートネットワークにおけるネットワークパラメータであり、σは、sigmoid演算を示し、ReLUは、活性化関数を示し、fは、受信された対応する特徴(顔部特徴を処理するときに、ここでのfは、顔部特徴を示し、眼部特徴を処理するときに、ここでのfは、眼部特徴を示す)を示し、zは、sigmoid演算を行って得た重みを示し、rは、sigmoid演算を行って得た重みを示し、
Figure 2022553776000003
は、入力ゲートネットワークにおける特徴を融合して得た中間特徴を示し、hは、中間特徴と隣接ゲートネットワークから出力された特徴との加重和を示し、hは、0と設定される。
本発明の実施例では、顔部特徴に基づいて目標オブジェクトの初期視線方向を予測し、且つ、顔部特徴と眼部特徴とを融合した特徴に基づいて目標オブジェクトの視線残差情報を予測すると特定する必要がある。本発明の実施例では、2つのゲートネットワークを導入して特徴の濾過・選別をそれぞれ完了してもよく、当該2つのゲートネットワークは、それぞれ第1ゲートネットワーク及び第2ゲートネットワークと記されてもよく、第1ゲートネットワークから出力された特徴は、hと記され、第2ゲートネットワークから出力された特徴は、hと記されてもよい。以下では、具体的な実施例を用いて説明する。
まず、顔部特徴に基づいて目標オブジェクトの初期視線方向を予測する手順を紹介する。ここで、第1ゲートネットワークを介して顔部特徴に対して重み調整を行って調整後の顔部特徴hを取得してから、調整後の顔部特徴hに基づいて初期視線方向を予測してもよい。詳細は、以下のステップを含む。
(1)顔部特徴を第1ゲートネットワークに入力し、第1ゲートネットワークの処理を経て顔部特徴における各特徴点の重みを取得する。
ここでの顔部特徴は、複数の特徴点を含んでもよい。ここでの特徴点は、顔部画像における異なる粗粒度特徴として理解され得る。これらの粗粒度特徴は、顔部画像における領域特徴、位置点特徴等を含んでもよい。顔部特徴における各特徴点が初期視線方向を予測するときに奏する重要度合いは、異なる。ここで第1ゲートネットワークを介して顔部特徴における各特徴点の重みを特定する。ここでの第1ゲートネットワークは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、顔部特徴を調整するためのサブニューラルネットワークである。
ここで、第1ゲートネットワークが顔部特徴における各特徴点の重みを取得することは、上記数式(7)及び数式(8)によって取得されてもよい。第1ゲートネットワークから最終的に出力されたのがhであるため、数式(7)及び数式(8)を導入するときに、t=1、f=fとすると、z=σ(W・[h,f])及びr=σ(W・[h,f])は、取得される。その後、取得されたz及びrに基づいて顔部特徴を更に調整してもよい。ここでのhは、0に等しい。
(2)顔部特徴における各特徴点の重みに基づいて、顔部特徴を調整する。
ここで、第1ゲートネットワークを介して顔部特徴における各特徴点の重みに基づいて顔部特徴を調整してもよい。上記取得された顔部特徴における各特徴点の重みrを上記数式(9)に代入してt=1、f=fとすると、顔部特徴の中間特徴
Figure 2022553776000004
は、取得される。また、上記取得された顔部特徴の中間特徴の重みzと、隣接ゲートネットワークから出力された特徴hに対応する重み1-zとを上記数式(10)に代入してt=1、f=fとすると、調整後の顔部特徴
Figure 2022553776000005
は、取得される。ここで、hは、0に等しい。
(3)調整後の顔部特徴を第1多層パーセプトロン(multilayer perception、 MLP)に入力し、第1多層パーセプトロンの処理を経て目標オブジェクトの初期視線方向を取得する。
ここで、第1多層パーセプトロンは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、初期視線方向を予測するためのサブニューラルネットワークである。
調整後の顔部特徴は、hと記され、その後、調整後の顔部特徴を第1多層パーセプトロン(MLP)に入力すると、目標オブジェクトの初期視線方向を取得する。
ここで、初期視線方向への影響の大きい特徴点の重みが初期視線方向への影響の小さい特徴点の重みよりも大きくなるように、第1ゲートネットワークが顔部特徴における各特徴点の重みを調整する。このように、調整後の顔部特徴を初期視線方向を予測する第1多層パーセプトロンに入力すると、比較的に正確な初期視線方向は、得られる。
以下では、顔部特徴及び眼部特徴に基づいて融合後の特徴を特定する手順を紹介する。詳細は、下記のことを含む。
眼部特徴及び調整後の顔部特徴を第2ゲートネットワークに入力し、第2ゲートネットワークの処理を経て融合後の特徴を取得し、第2ゲートネットワークは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、融合後の特徴を予測するためのサブニューラルネットワークである。
ここで調整後の顔部特徴は、上記第1ゲートネットワークから出力されたhであり、その後、当該h及び眼部特徴fを第2ゲートネットワークに入力すると、第2ゲートネットワークから出力された融合後の特徴hを取得することができる。
具体的に、眼部特徴及び調整後の顔部特徴を第2ゲートネットワークに入力し、第2ゲートネットワークの処理を経て融合後の特徴を取得するときに、以下の2つのステップを含む。
(1)第2ゲートネットワークを介して、調整後の顔部特徴、眼部特徴、及び調整後の顔部特徴における各特徴点の重みを処理して中間特徴を取得する。
(2)中間特徴、調整後の顔部特徴、並びに、中間特徴及び調整後の顔部特徴のそれぞれに対応する重みに基づいて、第2ゲートネットワークを介して中間特徴及び調整後の顔部特徴を加重加算して融合後の特徴を取得する。
上記第(1)ステップに関し、ここでの調整後の顔部特徴における各特徴点の重みは、以下の方式によって特定されてもよい。
第2ゲートネットワークを介して眼部特徴及び調整後の顔部特徴に対して第1処理を行って調整後の顔部特徴における各特徴点の重みを取得する。ここで、第2ゲートネットワークは、第1処理を行うときに、トレーニングされた重み割当関数における第1ネットワークパラメータ情報を用いる。
ここで、第2ゲートネットワークを介して調整後の顔部特徴h及び眼部特徴fに対して第1処理を行って調整後の顔部特徴における各特徴点の重みを取得するときに、上記数式(8)を引用してもよい。ここで、t=2、f=fとすると、顔部特徴における各特徴点の重みr=σ(W・[h,f])を取得することができる。当該数式は、上記言及された第2ゲートネットワークによる眼部特徴及び調整後の顔部特徴に対する第1処理に対応する。重み割当関数は、σで示されるsigmoid演算であり、第1ネットワークパラメータ情報は、Wである。
顔部特徴における各特徴点の重みが取得された後、数式(9)を導入して調整後の顔部特徴、眼部特徴、及び調整後の顔部特徴における各特徴点の重みを処理して中間特徴を取得してもよい。即ち、取得された中間特徴は、
Figure 2022553776000006
である。
上記第(2)ステップに関し、中間特徴及び調整後の顔部特徴のそれぞれに対応する重みは、以下の方式で特定されてもよい。
眼部特徴及び調整後の顔部特徴に対して第2処理を行って中間特徴及び調整後の顔部特徴のそれぞれに対応する重みを取得する。ここで、第2ゲートネットワークは、第2処理を行うときに、トレーニングされた重み割当関数における第2ネットワークパラメータ情報を利用する。
調整後の顔部特徴h及び眼部特徴fに対して第2処理を行って中間特徴及び調整後の顔部特徴hのそれぞれに対応する重みを取得することは、上記数式(7)を引用可能であり、且つt=2、f=fとすると、中間特徴に対応する重みz=σ(W・[h,f])を取得することができる。当該数式は、上記言及された第2ゲートネットワークによる眼部特徴及び調整後の顔部特徴に対する第2処理に対応する。重み割当関数は、σで示されるsigmoid演算であり、第2ネットワークパラメータ情報は、Wである。このように、取得された中間特徴に対応する重みは、zであり、調整後の顔部特徴hに対応する重みは、1-zである。
その後、中間特徴及び調整後の顔部特徴のそれぞれに対応する重みが取得された後、更に、上記数式(10)を導入して且つ同様にt=2、f=fとすると、中間特徴、調整後の顔部特徴、並びに、中間特徴及び調整後の顔部特徴のそれぞれに対応する重みに基づいて、第2ゲートネットワークを介して中間特徴と調整後の顔部特徴とを加重加算することにより、顔部特徴と眼部特徴とを融合した特徴
Figure 2022553776000007
を取得する。
顔部特徴と眼部特徴とを融合した特徴が取得された後、以下の方式で顔部特徴と眼部特徴とを融合した特徴に基づいて、視線残差情報を予測して取得してもよい。
融合後の特徴を第2多層パーセプトロン(MLP)に入力し、第2多層パーセプトロンの処理を経て視線残差情報を取得する。第2多層パーセプトロンは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、視線残差情報を予測するためのサブニューラルネットワークである。
ここで融合後の特徴は、hと記され、その後、融合後の特徴を第2多層パーセプトロン(MLP)に入力すると、目標オブジェクトの視線残差情報を取得することができる。
以上の初期視線方向の特定及び視線残差情報の特定の手順模式図は、図7に示す2つのサブニューラルネットワークを介して特定を実施してもよい。第1サブニューラルネットワークは、第1ゲートネットワーク(Gate function)及び第1多層パーセプトロン(MLP)を含み、第2サブニューラルネットワークは、第2ゲートネットワーク(Gate function)及び第2多層パーセプトロン(MLP)を含む。顔部特徴(Face feature)を第1ゲートネットワークに入力した後、第1ゲートネットワークの調整を経て、調整後の顔部特徴hを取得することができる。当該調整後の顔部特徴hを第1多層パーセプトロンに入力して初期視線方向gを取得する一方、眼部特徴(Eye feature)とともに第2ゲートネットワークに入力した後、第2ゲートネットワークの処理を経て、顔部特徴と眼部特徴とを融合した特徴hを取得することができる。その後、融合後の特徴hを第2多層パーセプトロンに入力して視線残差情報gを取得する。
以上では、眼部特徴と第1ゲートネットワークによって調整された顔部特徴とを第2ゲートネットワークに入力して処理させることにより、顔部特徴と眼部特徴とを融合した特徴を取得する。当該融合後の特徴が顔部画像及び眼部画像を総合的に考慮した後で得られた特徴であるため、当該融合後の特徴に基づいて目標オブジェクトの実視線方向と初期視線方向との間の差異を特定することは、容易になる。当該差異に基づいて初期視線方向を修正した後、比較的に正確な視線方向を取得することができる。
上述した全ての実施例を纏めると、図8に示す模式図を参照して本発明の実施例に係る視線方向特定方法を説明してもよい。
顔部画像が取得された後、当該顔部画像から眼部画像を切り出す。当該眼部画像は、左目画像及び右目画像を含む。顔部画像を第1特徴抽出ネットワーク(CNN)に入力して顔部特徴fを取得する。その後、当該顔部特徴を上述した第1サブニューラルネットワーク(第1サブニューラルネットワークは、第1ゲートネットワークと第1多層パーセプトロンを含む)に入力して処理させると、初期視線方向gを取得することができる。また、切り出さられた眼部画像における左目画像を第2特徴抽出ネットワークに入力して左目特徴fを取得し、右目画像を第3特徴抽出ネットワークに入力して右目特徴fを取得する。その後、左目特徴、右目特徴及び顔部特徴を注意力ネットワークに入力すると、眼部特徴fを取得することができる。その後、眼部特徴と、初期視線方向を予測するサブニューラルネットワークを経て得られた調整後の顔部特徴hとを第2サブニューラルネットワーク(第2サブニューラルネットワークは、第2ゲートネットワークと第2多層パーセプトロンを含む)に入力して処理させると、視線残差情報gを取得することができる。
更に、初期視線方向g及び視線残差情報gが取得されると、視線残差情報gに基づいて初期視線方向を修正して目標オブジェクトの視線方向を取得する。
このように、本発明の実施例に係る視線方向特定方法は、ニューラルネットワークによって実現されてもよく、ニューラルネットワークは、目標サンプルオブジェクトのマーキング視線方向を含むサンプル画像を利用してトレーニングされたものである。当該マーキング視線方向そのものは、目標サンプルオブジェクトの実視線方向である。
具体的に、図9に示すように、本発明の実施例に係る視線方向を特定するためのニューラルネットワークは、ステップS901~S906を含む以下のステップによってトレーニングして取得されてもよい。
S901では、サンプル画像における目標サンプルオブジェクトの顔部サンプル画像及び眼部サンプル画像を取得する。
ここで、目標サンプルオブジェクトは、異なる空間位置点にそれぞれ存在する複数の目標オブジェクトを含んでもよい。このように。複数の目標オブジェクトは、何れも同一観測方向へ向かい、これらの目標サンプルオブジェクトの顔部画像は、顔部サンプル画像として取得される。その後、顔部サンプル画像から眼部サンプル画像を切り出す。又は、ここでの目標サンプルオブジェクトは、1つの目標オブジェクトを含んでもよい。このように、当該目標サンプル画像は、それぞれ異なる観測方向へ向かい、且つ当該目標サンプルオブジェクトの各観測方向に対応する顔部画像は、顔部サンプル画像として取得される。その後、顔部サンプル画像から眼部サンプル画像を切り出す。
S902では、顔部サンプル画像から目標サンプルオブジェクトの顔部特徴を抽出する。
ここで顔部サンプル画像から目標サンプルオブジェクトの顔部特徴を抽出することは、上文紹介された目標オブジェクトの顔部特徴を抽出する方式と類似するため、ここで繰り返し説明しない。
S903では、目標サンプルオブジェクトの顔部特徴と眼部サンプル画像とに基づいて目標サンプルオブジェクトの眼部特徴を特定する。
ここで目標サンプルオブジェクトの眼部特徴を特定することは、上文で紹介された目標オブジェクトの眼部特徴を特定する方式と類似するため、ここで繰り返し説明しない。
S904では、目標サンプルオブジェクトの顔部特徴に基づいて目標サンプルオブジェクトの初期視線方向を予測し、且つ、目標サンプルオブジェクトの顔部特徴と目標サンプルオブジェクトの眼部特徴とを融合した特徴に基づいて、目標サンプルオブジェクトの視線残差情報を予測して取得する。
同様に、ここで目標サンプルオブジェクトの初期視線方向及び視線残差情報を特定する方式は、上文で目標オブジェクトの初期視線方向及び視線残差情報を特定する方式と類似するため、ここで繰り返し説明しない。
S905では、目標サンプルオブジェクトの視線残差情報に基づいて目標サンプルオブジェクトの初期視線方向を修正し、目標サンプルオブジェクトの視線方向を取得する。
ここで目標サンプルオブジェクトの初期視線方向を修正する方式は、上文で紹介された目標オブジェクトの視線残差情報に基づいて目標オブジェクトの初期視線方向を修正する方式と類似するため、ここで繰り返し説明しない。
S906では、取得された目標サンプルオブジェクトの視線方向と目標サンプルオブジェクトのマーキング視線方向とに基づいて、ニューラルネットワークのネットワークパラメータ値を調整する。
ここで、損失関数を導入して予測視線方向に対応する損失値を特定してもよい。複数回のトレーニングを経た後、損失値によってニューラルネットワークのネットワークパラメータ値を調整する。例えば、損失値を設定閾値よりも小さくすると、トレーニングを停止可能であり、ニューラルネットワークのネットワークパラメータ値は、得られる。
また、如何にして顔部特徴、左目特徴、右目特徴及び注意力ネットワークに基づいて眼部特徴を取得するかは、上文で紹介された視線方向特定方法における眼部特徴を特定する詳細な手順と類似するため、ここで繰り返し説明しない。如何にして顔部特徴に基づいて目標サンプルオブジェクトの初期視線方向を予測するか、及び、如何にして顔部特徴及び眼部特徴に基づいて融合後の特徴を特定するか、及び、如何にして融合後の特徴に基づいて目標サンプルオブジェクトの視線残差情報を特定するかは、同様に上文で紹介された視線方向特定方法における融合後の特徴の特定及び視線残差情報の特定の手順と類似するため、ここで繰り返し説明しない。
本発明の実施例に係るニューラルネットワークのトレーニング方法によると、サンプル画像における目標サンプルオブジェクトの顔部サンプル画像及び眼部サンプル画像を取得することができる。その後、顔部サンプル画像に基づいて目標サンプルオブジェクトの顔部特徴を抽出し、当該目標サンプルオブジェクトの顔部特徴は、目標サンプルオブジェクトの初期視線方向を予測可能である。目標サンプルオブジェクトの顔部特徴と眼部サンプル画像とに基づいて目標サンプルオブジェクトの眼部特徴を特定した後、目標サンプルオブジェクトの顔部特徴と眼部特徴とを融合した特徴により、目標サンプルオブジェクトの実視線方向と初期視線方向との間の差異を表す情報、即ち視線残差情報を予測してもよい。その後、当該差異を表す情報によって、目標サンプルオブジェクトの顔部特徴のみに基づいて予測された初期視線方向を調整すると、目標サンプルオブジェクトのマーキング視線方向に一層近接する視線方向を取得することができる。取得された視線方向及びマーキング視線方向に基づいてニューラルネットワークのネットワークパラメータ値を調整すると、正確度の高いニューラルネットワークを取得することができる。当該正確度の高いニューラルネットワークに基づくと、目標オブジェクトの視線方向を正確に予測することができる。
当業者であれば理解できるように、具体的な実施形態の上記方法において、各ステップの記載順は、厳格な実行順を意味せず、実施手順について如何なる限定もなすことではない。各ステップの具体的な実行順は、その機能及び可能な内在論理で特定されるべきである。
同一の技術思想に基づくと、本発明の実施例は、上記視線方向特定方法に対応する視線方向特定装置を更に提供する。本発明の実施例における視線方向特定装置が問題を解決する原理が本発明の実施例の上記視線方向特定方法と類似するため、装置の実施は、方法の実施を参照すればよく、重複なところについて繰り返し説明しない。
図10は、本発明の実施例に係る視線方向特定装置1000の模式図を示す。当該視線方向特定装置1000は、画像取得モジュール1001、特徴抽出モジュール1002、視線予測モジュール1003及び視線修正モジュール1004を備える。
画像取得モジュール1001は、目標オブジェクトの顔部画像及び眼部画像を取得する。
特徴抽出モジュール1002は、顔部画像から目標オブジェクトの顔部特徴を抽出し、且つ目標オブジェクトの顔部特徴及び眼部特徴に基づいて目標オブジェクトの眼部特徴を特定する。
視線予測モジュール1003は、顔部特徴に基づいて目標オブジェクトの初期視線方向を予測し、且つ、顔部特徴と眼部特徴とを融合した融合特徴に基づいて、視線残差情報を予測して取得する。
視線修正モジュール1004は、視線残差情報に基づいて初期視線方向を修正し、目標オブジェクトの視線方向を取得する。
1種の可能な実施形態において、眼部画像は、左目画像及び右目画像を含み、特徴抽出モジュール1002は、目標オブジェクトの顔部特徴及び眼部特徴に基づいて目標オブジェクトの眼部特徴を特定する際に、左目画像から左目特徴を抽出することと、右目画像から右目特徴を抽出することと、顔部特徴、左目特徴及び右目特徴に基づいて、左目特徴に対応する第1重みと右目特徴に対応する第2重みとを特定することと、第1重み及び第2重みに基づいて、左目特徴及び右目特徴を加重加算して眼部特徴を取得することと、を実行する。
1種の可能な実施形態において、特徴抽出モジュール1002は、顔部特徴、左目特徴及び右目特徴に基づいて、左目特徴に対応する第1重みと右目特徴に対応する第2重みとを特定する際に、顔部特徴及び左目特徴に基づいて左目特徴の第1スコアを特定し、且つ、顔部特徴及び右目特徴に基づいて右目特徴の第2スコアを特定することと、第1スコア及び第2スコアに基づいて、第1重み及び第2重みを特定することと、を実行する。
1種の可能な実施形態において、視線予測モジュール1003は、顔部特徴に基づいて目標オブジェクトの初期視線方向を予測する際に、顔部特徴における各特徴点の重みを特定し、顔部特徴における各特徴点の重みに基づいて顔部特徴を調整することと、調整された顔部特徴に基づいて目標オブジェクトの初期視線方向を特定することと、を実行する。
1種の可能な実施形態において、視線予測モジュール1003は、調整後の顔部特徴、眼部特徴、及び調整後の顔部特徴における各特徴点の重みに基づいて、中間特徴を特定することと、中間特徴、調整後の顔部特徴、並びに、中間特徴及び調整後の顔部特徴のそれぞれに対応する重みに基づいて、中間特徴及び調整後の顔部特徴を加重加算して融合特徴を取得することとにより、顔部特徴及び眼部特徴に基づいて融合後の特徴を特定することを実施する。
1種の可能な実施形態において、視線予測モジュール1003は、眼部特徴及び調整後の顔部特徴に基づいて調整後の顔部特徴における各特徴点の重みを特定することにより、調整後の顔部特徴における各特徴点の重みを特定することを実施する。
1種の可能な実施形態において、視線予測モジュール1003は、眼部特徴及び調整後の顔部特徴に基づいて中間特徴及び調整後の顔部特徴のそれぞれに対応する重みを特定することにより、中間特徴及び調整後の顔部特徴のそれぞれに対応する重みを特定することを実施する。
1種の可能な実施形態において、視線方向特定装置1000は、目標オブジェクトの視線方向を特定するためのニューラルネットワークをトレーニングするためのニューラルネットワークトレーニングモジュール1005を更に備え、ニューラルネットワークは、目標サンプルオブジェクトのマーキング視線方向を含むサンプル画像を利用してトレーニングされたものである。
1種の可能な実施形態において、ニューラルネットワークトレーニングモジュール1005は、サンプル画像における目標サンプルオブジェクトの顔部サンプル画像及び眼部サンプル画像を取得することと、顔部サンプル画像から目標サンプルオブジェクトの顔部特徴を抽出することと、目標サンプルオブジェクトの顔部特徴と眼部サンプル画像とに基づいて目標サンプルオブジェクトの眼部特徴を特定することと、目標サンプルオブジェクトの顔部特徴に基づいて目標サンプルオブジェクトの初期視線方向を予測し、且つ、目標サンプルオブジェクトの顔部特徴と目標サンプルオブジェクトの眼部特徴とを融合した融合特徴に基づいて、目標サンプルオブジェクトの視線残差情報を予測して取得することと、目標サンプルオブジェクトの視線残差情報に基づいて目標サンプルオブジェクトの初期視線方向を修正し、目標サンプルオブジェクトの視線方向を取得することと、取得された目標サンプルオブジェクトの視線方向と目標サンプルオブジェクトのマーキング視線方向とに基づいて、ニューラルネットワークのネットワークパラメータ値を調整することとによって、ニューラルネットワークをトレーニングする。
装置における各モジュールの処理フロー、及び各モジュールの間のインタラクションフローの記述は、上記方法実施例における関連説明を参照すればよく、ここで再び詳細に説明しない。
図1における視線方向特定方法に対応し、本発明の実施例は、電子機器を更に提供する。図11は、本発明の実施例に係る電子機器1100の構造模式図を示す。電子機器1100は、プロセッサ1101、記憶媒体1102及びバス1103を備える。記憶媒体1102は、実行指令を記憶し、内部メモリ11021と外部メモリ11022を含む。ここでの内部メモリ11021は、内部用のメモリとも呼称され、プロセッサ1101の演算データ、及び、ハードディスク等の外部メモリ11022と交換するデータを一時的に格納し、プロセッサ1101は、内部メモリ11021を介して外部メモリ11022とデータ交換を行う。電子機器1100は、運転するときに、プロセッサ1101とメモリ1102との間はバス1103を介して通信され、機器読み取り可能な指令がプロセッサ1101によって実行されたときに、
目標オブジェクトの顔部画像及び眼部画像を取得することと、顔部画像から目標オブジェクトの顔部特徴を抽出することと、目標オブジェクトの顔部特徴及び眼部画像に基づいて目標オブジェクトの眼部特徴を特定することと、顔部特徴に基づいて目標オブジェクトの初期視線方向を予測し、且つ、顔部特徴と眼部特徴とを融合した融合特徴に基づいて、視線残差情報を予測して取得することと、視線残差情報に基づいて初期視線方向を修正し、目標オブジェクトの視線方向を取得することという処理は、実施される。
本発明の実施例は、コンピュータ可読記憶媒体を更に提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサで運転されたときに、上記視線方向特定方法の実施例における前記視線方向特定方法のステップは、実行される。当該記憶媒体は、揮発性又は不揮発性のコンピュータ可読取記憶媒体であってもよい。
本発明の実施例に係る視線方向特定方法のコンピュータプログラム製品は、プログラムコードが記憶されたコンピュータ可読記憶媒体を含み、前記プログラムコードに含まれる指令は、上記方法実施例における視線方向特定方法のステップを実行するために用いられ、詳細は、上記方法実施例を参照すればよく、ここで繰り返し説明しない。
本発明の実施例は、コンピュータプログラムを更に提供する。当該コンピュータプログラムがプロセッサによって実行されたときに、上記実施例の何れか1種の方法は、実施される。当該コンピュータプログラム製品は、具体的にハードウェア、ソフトウェア又はそれらの組合せの形態で実現され得る。1つのオプションの実施例において、前記コンピュータプログラム製品は、コンピュータ記憶媒体として具現化されてもよく、別のオプションの実施例において、コンピュータプログラム製品は、ソフトウェア製品、例えばソフトウェア開発キット(Software Development Kit、SDK)等として具現化される。
当業者であれば良く分かるように、記述の利便性及び簡潔性のために、上述したシステム及び装置の具体的な稼働過程は、上記方法実施例における対応過程を参照すればよく、ここで繰り返し説明しない。本発明に係る幾つかの実施例において、開示されたシステム、装置及び方法が他の方式にて実現され得ることは、理解されるべきである。上述した装置実施例が単に模式的なものであり、例えば、前記手段の区分が、単に1種の論理機能区分であり、実際に実施するときに別の区分方式もあり得る。更に例えば、複数の手段或いはユニットは、組み合わせられてもよく、又は、別のシステムに統合されてもよく、又は、幾つかの特徴が略され、若しくは実行しないようにしてもよい。また、示され或いは議論された各構成部分同士間は、結合が直接結合であってもよく、通信接続が幾つかのインターフェース、装置或いは手段を介する間接結合若しくは通信接続であってもよく、電気的なもの、機械的なもの或いは他の形態であってもよい。
上記分離部品として説明された手段が物理的に分離されるものであってもよくでなくてもよい。また、手段として表示された部品は、物理手段であってもでなくてもよい。更に、それらの手段は、1箇所に位置してもよく、複数のネットワークセルに分散してもよい。実際の需要に応じてその中の一部又は全部の手段を選択して本実施例の目的を果たすことが可能である。
また、本発明の各実施例における各機能手段は、全部で1つの処理手段に集積されてもよく、各手段がそれぞれ単独で物理的に存在してもよく、2つ或いは2つ以上の手段が1つの手段に集積されてもよい。
上記機能は、ソフトウェア機能手段の形式で実現され、且つ独立の製品として販売や使用されるときに、プロセッサで実行され得る不揮発性のコンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解を基に、本発明の技術案は、本質的に或いは従来技術に対して貢献を与える部分又は当該技術案の一部がソフトウェア製品の形式で体現されてもよい。当該コンピュータソフトウェア製品は、1つの記憶媒体に記憶され、幾つかの指令を含むことで一台のコンピュータ機器(パソコン、サーバ又はネットワーク機器等であってもよい)に本発明の各実施例の前記方法の全部或いは一部のステップを実行させる。上述した記憶媒体は、Uディスク、モバイルハードディスク、読み出し専用メモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、磁気ディスク又は光ディスク等の、プログラムコードを格納可能な各種の媒体を含む。
最後に説明すべきことは、上述した実施例が単に本発明の具体的な実施形態に過ぎず、本発明の技術案を説明するためのものであり、それに対する制限とはならない。本発明の保護範囲は、これに限定されない。上記実施例を参照して本発明を詳細に説明したが、当業者であれば理解できるように、本技術分野に精通している如何なる技術者も本発明に開示された技術範囲内で依然として上記実施例に記載された技術案を変更し、或いは容易に変化を想到し、又はその中の一部の技術特徴に対して均等物による置換を行うことができ、これらの変更、変化又は置換により、対応する技術案の本質が本発明の実施例の技術案の精神及び範囲から逸脱することがなく、何れも本発明の保護範囲内に含まれるべきである。したがって、本発明の保護範囲は、請求項の保護範囲に準じるべきである。

Claims (20)

  1. 視線方向特定方法であって、
    目標オブジェクトの顔部画像及び眼部画像を取得するステップと、
    前記顔部画像から前記目標オブジェクトの顔部特徴を抽出するステップと、
    前記目標オブジェクトの顔部特徴及び前記眼部画像に基づいて前記目標オブジェクトの眼部特徴を特定するステップと、
    前記顔部特徴に基づいて前記目標オブジェクトの初期視線方向を予測し、且つ、前記顔部特徴と前記眼部特徴とを融合した融合特徴に基づいて、視線残差情報を予測して取得するステップと、
    前記視線残差情報に基づいて前記初期視線方向を修正し、前記目標オブジェクトの視線方向を取得するステップと、を含むことを特徴とする視線方向特定方法。
  2. 前記眼部画像は、左目画像及び右目画像を含み、前記目標オブジェクトの顔部特徴及び前記眼部画像に基づいて前記目標オブジェクトの眼部特徴を特定するステップは、
    前記左目画像から左目特徴を抽出することと、
    前記右目画像から右目特徴を抽出することと、
    前記顔部特徴、前記左目特徴及び前記右目特徴に基づいて、前記左目特徴に対応する第1重みと前記右目特徴に対応する第2重みとを特定することと、
    前記第1重み及び前記第2重みに基づいて、前記左目特徴と前記右目特徴とを加重加算して前記眼部特徴を取得することと、を含むことを特徴とする請求項1に記載の視線方向特定方法。
  3. 前記顔部特徴、前記左目特徴及び前記右目特徴に基づいて、前記左目特徴に対応する第1重みと前記右目特徴に対応する第2重みとを特定することは、
    前記顔部特徴及び前記左目特徴に基づいて前記左目特徴の第1スコアを特定し、且つ前記顔部特徴及び前記右目特徴に基づいて前記右目特徴の第2スコアを特定することと、
    前記第1スコア及び第2スコアに基づいて、前記第1重み及び第2重みを特定することと、を含むことを特徴とする請求項2に記載の視線方向特定方法。
  4. 前記顔部特徴に基づいて前記目標オブジェクトの初期視線方向を予測することは、
    前記顔部特徴における各特徴点の重みを特定し、前記顔部特徴における各特徴点の重みに基づいて前記顔部特徴を調整することと、
    調整された顔部特徴に基づいて前記目標オブジェクトの初期視線方向を特定することと、を含むことを特徴とする請求項1から3の何れか一項に記載の視線方向特定方法。
  5. 前記顔部特徴及び前記眼部特徴に基づいて前記融合特徴を特定することは、
    前記調整された顔部特徴と、前記眼部特徴と、前記調整された顔部特徴における各特徴点の重みとに基づいて、中間特徴を特定することと、
    前記中間特徴と、前記調整された顔部特徴と、前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みとに基づいて、前記中間特徴と前記調整された顔部特徴とを加重加算して前記融合特徴を取得することと、によって実施されることを特徴とする請求項4に記載の視線方向特定方法。
  6. 前記調整された顔部特徴における各特徴点の重みを特定することは、
    前記眼部特徴と前記調整された顔部特徴とに基づいて、前記調整された顔部特徴における各特徴点の重みを特定することによって実施されることを特徴とする請求項5に記載の視線方向特定方法。
  7. 前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みを特定することは、
    前記眼部特徴と前記調整された顔部特徴とに基づいて、前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みを特定することによって実施されることを特徴とする請求項5に記載の視線方向特定方法。
  8. 前記視線方向特定方法は、ニューラルネットワークによって実施され、前記ニューラルネットワークは、目標サンプルオブジェクトのマーキング視線方向を含むサンプル画像を利用してトレーニングされたものであることを特徴とする請求項1から7の何れか一項に記載の視線方向特定方法。
  9. 前記ニューラルネットワークは、
    サンプル画像における目標サンプルオブジェクトの顔部サンプル画像及び眼部サンプル画像を取得することと、
    前記顔部サンプル画像から前記目標サンプルオブジェクトの顔部特徴を抽出することと、
    前記目標サンプルオブジェクトの顔部特徴と前記眼部サンプル画像とに基づいて前記目標サンプルオブジェクトの眼部特徴を特定することと、
    前記目標サンプルオブジェクトの顔部特徴に基づいて前記目標サンプルオブジェクトの初期視線方向を予測し、且つ、前記目標サンプルオブジェクトの顔部特徴と前記目標サンプルオブジェクトの眼部特徴とを融合した融合特徴に基づいて、前記目標サンプルオブジェクトの視線残差情報を予測して取得することと、
    前記目標サンプルオブジェクトの視線残差情報に基づいて前記目標サンプルオブジェクトの初期視線方向を修正し、前記目標サンプルオブジェクトの視線方向を取得することと、
    取得された前記目標サンプルオブジェクトの視線方向と前記目標サンプルオブジェクトのマーキング視線方向とに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、によってトレーニングされたものであることを特徴とする請求項8に記載の視線方向特定方法。
  10. 目標オブジェクトの顔部画像及び眼部画像を取得するための画像取得モジュールと、
    前記顔部画像から前記目標オブジェクトの顔部特徴を抽出し、且つ前記目標オブジェクトの顔部特徴及び前記眼部特徴に基づいて前記目標オブジェクトの眼部特徴を特定するための特徴抽出モジュールと、
    前記顔部特徴に基づいて前記目標オブジェクトの初期視線方向を予測し、且つ、前記顔部特徴と前記眼部特徴とを融合した融合特徴に基づいて、視線残差情報を予測して取得するための視線予測モジュールと、
    前記視線残差情報に基づいて前記初期視線方向を修正し、前記目標オブジェクトの視線方向を取得するための視線修正モジュールと、を備えることを特徴とする視線方向特定装置。
  11. 前記眼部画像は、左目画像及び右目画像を含み、
    前記特徴抽出モジュールは、前記目標オブジェクトの顔部特徴及び前記眼部特徴に基づいて前記目標オブジェクトの眼部特徴を特定する際に、
    前記左目画像から左目特徴を抽出することと、
    前記右目画像から右目特徴を抽出することと、
    前記顔部特徴、前記左目特徴及び前記右目特徴に基づいて、前記左目特徴に対応する第1重みと前記右目特徴に対応する第2重みとを特定することと、
    前記第1重み及び前記第2重みに基づいて、前記左目特徴と前記右目特徴とを加重加算して前記眼部特徴を取得することと、を実行することを特徴とする請求項10に記載の視線方向特定装置。
  12. 前記特徴抽出モジュールは、前記顔部特徴、前記左目特徴及び前記右目特徴に基づいて、前記左目特徴に対応する第1重みと前記右目特徴に対応する第2重みとを特定する際に、
    前記顔部特徴及び前記左目特徴に基づいて前記左目特徴の第1スコアを特定し、且つ前記顔部特徴及び前記右目特徴に基づいて前記右目特徴の第2スコアを特定することと、
    前記第1スコア及び第2スコアに基づいて、前記第1重み及び第2重みを特定することと、を実行することを特徴とする請求項11に記載の視線方向特定装置。
  13. 前記視線予測モジュールは、前記顔部特徴に基づいて前記目標オブジェクトの初期視線方向を予測する際に、
    前記顔部特徴における各特徴点の重みを特定し、前記顔部特徴における各特徴点の重みに基づいて前記顔部特徴を調整することと、
    調整された顔部特徴に基づいて前記目標オブジェクトの初期視線方向を特定することと、を実行することを特徴とする請求項10から12の何れか一項に記載の視線方向特定装置。
  14. 前記視線予測モジュールは、
    前記調整された顔部特徴と、前記眼部特徴と、前記調整された顔部特徴における各特徴点の重みとに基づいて、中間特徴を特定することと、
    前記中間特徴と、前記調整された顔部特徴と、前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みとに基づいて、前記中間特徴と前記調整された顔部特徴とを加重加算して前記融合特徴を取得することとにより、
    前記顔部特徴及び前記眼部特徴に基づいて前記融合特徴を特定することを実施することを特徴とする請求項13に記載の視線方向特定装置。
  15. 前記視線予測モジュールは、
    前記眼部特徴と前記調整された顔部特徴とに基づいて、前記調整された顔部特徴における各特徴点の重みを特定することにより、前記調整された顔部特徴における各特徴点の重みを特定することを実施することを特徴とする請求項14に記載の視線方向特定装置。
  16. 前記視線予測モジュールは、
    前記眼部特徴と前記調整された顔部特徴とに基づいて、前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みを特定することにより、前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みを特定することを実施することを特徴とする請求項14に記載の視線方向特定装置。
  17. 前記視線方向特定装置は、前記目標オブジェクトの視線方向を特定するためのニューラルネットワークをトレーニングするためのニューラルネットワークトレーニングモジュールを更に備え、前記ニューラルネットワークは、目標サンプルオブジェクトのマーキング視線方向を含むサンプル画像を利用してトレーニングされたものであることを特徴とする請求項10から16の何れか一項に記載の視線方向特定装置。
  18. 前記ニューラルネットワークトレーニングモジュールは、
    サンプル画像における目標サンプルオブジェクトの顔部サンプル画像及び眼部サンプル画像を取得することと、
    前記顔部サンプル画像から前記目標サンプルオブジェクトの顔部特徴を抽出することと、
    前記目標サンプルオブジェクトの顔部特徴と前記眼部サンプル画像とに基づいて前記目標サンプルオブジェクトの眼部特徴を特定することと、
    前記目標サンプルオブジェクトの顔部特徴に基づいて前記目標サンプルオブジェクトの初期視線方向を予測し、且つ、前記目標サンプルオブジェクトの顔部特徴と前記目標サンプルオブジェクトの眼部特徴とを融合した融合特徴に基づいて、前記目標サンプルオブジェクトの視線残差情報を予測して取得することと、
    前記目標サンプルオブジェクトの視線残差情報に基づいて前記目標サンプルオブジェクトの初期視線方向を修正し、前記目標サンプルオブジェクトの視線方向を取得することと、
    取得された前記目標サンプルオブジェクトの視線方向と前記目標サンプルオブジェクトのマーキング視線方向とに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することとによって、前記ニューラルネットワークをトレーニングすることを特徴とする請求項17に記載の視線方向特定装置。
  19. 電子機器であって、
    プロセッサと、非一時的な記憶媒体と、バスとを備え、
    前記記憶媒体には、前記プロセッサで実行され得る機器読み取り可能な指令が記憶され、前記プロセッサと前記記憶媒体との間は、バスを介して通信され、前記機器読み取り可能な指令により、前記プロセッサは、請求項1から9の何れか一項に記載の視線方向特定方法を実行することを特徴とする電子機器。
  20. コンピュータ可読記憶媒体であって、
    当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該コンピュータプログラムにより、プロセッサは、請求項1から9の何れか一項に記載の視線方向特定方法を実行することを特徴とするコンピュータ可読記憶媒体。
JP2022524710A 2019-12-30 2020-12-04 視線方向特定方法、装置、電子機器及び記憶媒体 Active JP7309116B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911403648.2A CN111178278B (zh) 2019-12-30 2019-12-30 视线方向确定方法、装置、电子设备及存储介质
CN201911403648.2 2019-12-30
PCT/CN2020/134049 WO2021135827A1 (zh) 2019-12-30 2020-12-04 视线方向确定方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022553776A true JP2022553776A (ja) 2022-12-26
JP7309116B2 JP7309116B2 (ja) 2023-07-18

Family

ID=70646509

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022524710A Active JP7309116B2 (ja) 2019-12-30 2020-12-04 視線方向特定方法、装置、電子機器及び記憶媒体

Country Status (4)

Country Link
JP (1) JP7309116B2 (ja)
KR (1) KR20210140763A (ja)
CN (1) CN111178278B (ja)
WO (1) WO2021135827A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2996269A1 (en) * 2014-09-09 2016-03-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio splicing concept
CN111178278B (zh) * 2019-12-30 2022-04-08 上海商汤临港智能科技有限公司 视线方向确定方法、装置、电子设备及存储介质
CN113743172B (zh) * 2020-05-29 2024-04-16 魔门塔(苏州)科技有限公司 一种人员注视位置检测方法及装置
CN113807119B (zh) * 2020-05-29 2024-04-02 魔门塔(苏州)科技有限公司 一种人员注视位置检测方法及装置
CN112183200B (zh) * 2020-08-25 2023-10-17 中电海康集团有限公司 一种基于视频图像的眼动追踪方法和系统
CN112749655A (zh) * 2021-01-05 2021-05-04 风变科技(深圳)有限公司 视线追踪方法、装置、计算机设备和存储介质
CN112766163B (zh) * 2021-01-13 2022-05-31 北京航空航天大学 一种基于对抗优化的视线方向确定方法
CN113361441B (zh) * 2021-06-18 2022-09-06 山东大学 基于头部姿态和空间注意力的视线区域估计方法及系统
CN113705550B (zh) * 2021-10-29 2022-02-18 北京世纪好未来教育科技有限公司 一种训练方法、视线检测方法、装置和电子设备
CN116052264B (zh) * 2023-03-31 2023-07-04 广州视景医疗软件有限公司 一种基于非线性偏差校准的视线估计方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193383A (zh) * 2017-06-13 2017-09-22 华南师范大学 一种基于人脸朝向约束的二级视线追踪方法
JP2019028843A (ja) * 2017-08-01 2019-02-21 オムロン株式会社 人物の視線方向を推定するための情報処理装置及び推定方法、並びに学習装置及び学習方法
EP3511803A1 (en) * 2018-01-10 2019-07-17 Samsung Electronics Co., Ltd. Method and apparatus to determine trigger intent of user
CN110503068A (zh) * 2019-08-28 2019-11-26 Oppo广东移动通信有限公司 视线估计方法、终端及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101489467B (zh) * 2006-07-14 2011-05-04 松下电器产业株式会社 视线方向检测装置和视线方向检测方法
JP4966816B2 (ja) * 2007-10-25 2012-07-04 株式会社日立製作所 視線方向計測方法および視線方向計測装置
CN102547123B (zh) * 2012-01-05 2014-02-26 天津师范大学 基于人脸识别技术的自适应视线跟踪系统及其跟踪方法
CN103246044B (zh) * 2012-02-09 2017-03-22 联想(北京)有限公司 一种自动对焦方法、系统及具有该系统的照相机和摄像机
US9563805B2 (en) * 2014-09-02 2017-02-07 Hong Kong Baptist University Method and apparatus for eye gaze tracking
CN108615014B (zh) * 2018-04-27 2022-06-21 京东方科技集团股份有限公司 一种眼睛状态的检测方法、装置、设备和介质
CN109508679B (zh) * 2018-11-19 2023-02-10 广东工业大学 实现眼球三维视线跟踪的方法、装置、设备及存储介质
CN111178278B (zh) * 2019-12-30 2022-04-08 上海商汤临港智能科技有限公司 视线方向确定方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193383A (zh) * 2017-06-13 2017-09-22 华南师范大学 一种基于人脸朝向约束的二级视线追踪方法
JP2019028843A (ja) * 2017-08-01 2019-02-21 オムロン株式会社 人物の視線方向を推定するための情報処理装置及び推定方法、並びに学習装置及び学習方法
EP3511803A1 (en) * 2018-01-10 2019-07-17 Samsung Electronics Co., Ltd. Method and apparatus to determine trigger intent of user
CN110503068A (zh) * 2019-08-28 2019-11-26 Oppo广东移动通信有限公司 视线估计方法、终端及存储介质

Also Published As

Publication number Publication date
KR20210140763A (ko) 2021-11-23
CN111178278B (zh) 2022-04-08
WO2021135827A1 (zh) 2021-07-08
CN111178278A (zh) 2020-05-19
JP7309116B2 (ja) 2023-07-18

Similar Documents

Publication Publication Date Title
JP7309116B2 (ja) 視線方向特定方法、装置、電子機器及び記憶媒体
Chen et al. Fsrnet: End-to-end learning face super-resolution with facial priors
EP3674852B1 (en) Method and apparatus with gaze estimation
US20210012093A1 (en) Method and apparatus for generating face rotation image
EP4307233A1 (en) Data processing method and apparatus, and electronic device and computer-readable storage medium
JP2016515242A (ja) 校正不要な注視点推定の方法と装置
JP7093427B2 (ja) オブジェクト追跡方法および装置、電子設備並びに記憶媒体
JP5098739B2 (ja) シミュレーション装置、シミュレーションプログラムおよびシミュレーションプログラムを記録した記録媒体
JP6956986B1 (ja) 判定方法、判定装置、及び判定プログラム
KR20180060559A (ko) 동공 거리 결정 방법 및 장치
CN110570383B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN112330730A (zh) 图像处理方法、装置、设备及存储介质
CN114120432A (zh) 基于视线估计的在线学习注意力跟踪方法及其应用
CN111259713A (zh) 一种基于自适应加权的视线跟踪方法
CN111723707A (zh) 一种基于视觉显著性的注视点估计方法及装置
CN112446322A (zh) 眼球特征检测方法、装置、设备及计算机可读存储介质
CN114187624A (zh) 图像生成方法、装置、电子设备及存储介质
WO2019076264A1 (zh) 虚拟现实文字显示的方法、装置和虚拟现实设备
WO2021217937A1 (zh) 姿态识别模型的训练方法及设备、姿态识别方法及其设备
US20160110909A1 (en) Method and apparatus for creating texture map and method of creating database
WO2022262209A1 (zh) 一种神经网络训练方法、装置、计算机设备及存储介质
CN112400148A (zh) 使用离轴相机执行眼睛跟踪的方法和系统
CN114399424A (zh) 模型训练方法及相关设备
CN113903210A (zh) 虚拟现实模拟驾驶方法、装置、设备和存储介质
Zhang et al. Eye gaze estimation and its applications

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220426

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230612

R150 Certificate of patent or registration of utility model

Ref document number: 7309116

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150