JP2022553776A

JP2022553776A - 視線方向特定方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2022553776A
Application number: JP2022524710A
Authority: JP
Inventors: ▲飛▼ 王; 晨 ▲銭▼
Original assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2020-12-04
Publication date: 2022-12-26
Anticipated expiration: 2040-12-04
Also published as: KR20210140763A; CN111178278B; WO2021135827A1; CN111178278A; JP7309116B2

Abstract

本発明は、視線方向特定方法、装置、電子機器及び記憶媒体を提供する。当該視線方向特定方法は、目標オブジェクトの顔部画像及び眼部画像を取得するステップと、顔部画像から目標オブジェクトの顔部特徴を抽出するステップと、目標オブジェクトの顔部特徴及び眼部画像に基づいて目標オブジェクトの眼部特徴を特定するステップと、顔部特徴に基づいて目標オブジェクトの初期視線方向を予測し、且つ、顔部特徴と眼部特徴とを融合した融合特徴に基づいて、視線残差情報を予測して取得するステップと、視線残差情報に基づいて初期視線方向を修正し、目標オブジェクトの視線方向を取得するステップとを含む。【選択図】図１

Description

本発明は、画像処理技術分野に関し、具体的に、視線方向特定方法、装置、電子機器及び記憶媒体に関する。

＜関連出願の相互引用＞
本願は、２０１９年１２月３０日に提出された、出願番号が２０１９１１４０３６４８．２である中国特許出願の優先権を要求し、当該出願の全文が引用によって本願に組み込まれる。

現在、視線追跡は、コンピュータビジョンにおける重要な分野であり、その主な目的がユーザの視線方向を予測することにある。ユーザの視線方向が一般的にユーザの個人意図に関連するため、視線追跡技術は、ユーザの意図理解に関して重要な役割を有する。したがって、如何にしてユーザの視線方向を正確に特定するかは、格段に重要になる。

本発明の実施例は、少なくとも視線方向特定案を提供する。

第１態様において、本発明の実施例は、視線方向特定方法を提供する。当該視線方向特定方法は、目標オブジェクトの顔部画像及び眼部画像を取得するステップと、前記顔部画像から前記目標オブジェクトの顔部特徴を抽出するステップと、前記目標オブジェクトの顔部特徴及び前記眼部画像に基づいて前記目標オブジェクトの眼部特徴を特定するステップと、前記顔部特徴に基づいて前記目標オブジェクトの初期視線方向を予測し、且つ、前記顔部特徴と前記眼部特徴とを融合した融合特徴に基づいて、視線残差情報を予測して取得するステップと、前記視線残差情報に基づいて前記初期視線方向を修正し、前記目標オブジェクトの視線方向を取得するステップと、を含む。

本発明の実施例に係る視線方向特定方法では、顔部画像に基づいて目標オブジェクトの顔部特徴を抽出し、且つ顔部特徴及び眼部画像に基づいて目標オブジェクトの眼部特徴を特定することができ、当該顔部特徴によって目標オブジェクトの初期視線方向を予測可能である。その後、顔部特徴と眼部特徴とを融合した融合特徴によって、目標オブジェクトの実視線方向と初期視線方向との間の差異を表す情報、即ち視線残差情報を予測することができる。その後、当該差異を表す情報によって、顔部特徴のみに基づいて予測された初期視線方向を調整すると、実視線方向に一層近接する視線方向を取得することができる。これにより、本発明の実施例に係る視線特定方法は、より正確な視線方向を予測して取得することができる。

１種の可能な実施形態において、前記眼部画像は、左目画像及び右目画像を含み、前記目標オブジェクトの顔部特徴及び前記眼部画像に基づいて前記目標オブジェクトの眼部特徴を特定するステップは、前記左目画像から左目特徴を抽出することと、前記右目画像から右目特徴を抽出することと、前記顔部特徴、前記左目特徴及び前記右目特徴に基づいて、前記左目特徴に対応する第１重みと前記右目特徴に対応する第２重みとを特定することと、前記第１重み及び前記第２重みに基づいて、前記左目特徴と前記右目特徴とを加重加算して前記眼部特徴を取得することと、を含む。

本発明の実施例では、顔部特徴と左目特徴とを組み合わせ、且つ顔部特徴と右目画像とを組み合わせることにより、視線方向を特定するときにおける左目画像及び右目画像の異なる貢献をそれぞれ特定する。これにより、正確度の高い眼部特徴を特定し、更に視線残差情報を予測する正確度の向上が容易になる。

１種の可能な実施形態において、前記顔部特徴、前記左目特徴及び前記右目特徴に基づいて、前記左目特徴に対応する第１重みと前記右目特徴に対応する第２重みとを特定することは、前記顔部特徴及び前記左目特徴に基づいて前記左目特徴の第１スコアを特定し、且つ前記顔部特徴及び前記右目特徴に基づいて前記右目特徴の第２スコアを特定することと、前記第１スコア及び第２スコアに基づいて、前記第１重み及び第２重みを特定することと、を含む。

１種の可能な実施形態において、前記顔部特徴に基づいて前記目標オブジェクトの初期視線方向を予測することは、前記顔部特徴における各特徴点の重みを特定し、前記顔部特徴における各特徴点の重みに基づいて前記顔部特徴を調整することと、調整された顔部特徴に基づいて前記目標オブジェクトの初期視線方向を特定することと、を含む。

ここで、顔部特徴における各特徴点の重みを調整することにより、初期視線方向への影響の大きな特徴点の重みを初期視線方向への影響の小さい特徴点の重みよりも大きくすることができ、調整後の顔部特徴に基づいて比較的に正確な初期視線方向を得ることができる。

１種の可能な実施形態において、前記顔部特徴及び前記眼部特徴に基づいて前記融合特徴を特定することは、前記調整された顔部特徴と、前記眼部特徴と、前記調整された顔部特徴における各特徴点の重みとに基づいて、中間特徴を特定することと、前記中間特徴と、前記調整された顔部特徴と、前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みとに基づいて、前記中間特徴と前記調整された顔部特徴とを加重加算して前記融合特徴を取得することと、によって実施される。

１種の可能な実施形態において、調整された顔部特徴における各特徴点の重みを特定することは、前記眼部特徴と前記調整された顔部特徴とに基づいて、調整された顔部特徴における各特徴点の重みを特定することによって実施される。

１種の可能な実施形態において、前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みを特定することは、前記眼部特徴と前記調整された顔部特徴とに基づいて、前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みを特定することによって実施される。

以上では、眼部特徴及び調整後の顔部特徴に基づいて、顔部特徴と眼部特徴とを融合した融合特徴を特定し、当該融合特徴が顔部画像及び眼部画像を総合的に考慮したため、当該融合特徴によって目標オブジェクトの実視線方向と初期視線方向との間の差異を特定することが便利になり、更に当該差異に基づいて初期視線方向を修正して比較的に正確な視線方向を得ることができる。

１種の可能な実施形態において、前記視線方向特定方法は、ニューラルネットワークによって実施され、前記ニューラルネットワークは、目標サンプルオブジェクトのマーキング視線方向を含むサンプル画像を利用してトレーニングされたものである。

１種の可能な実施形態において、前記ニューラルネットワークは、サンプル画像における目標サンプルオブジェクトの顔部サンプル画像及び眼部サンプル画像を取得することと、前記顔部サンプル画像から前記目標サンプルオブジェクトの顔部特徴を抽出することと、前記目標サンプルオブジェクトの顔部特徴と前記眼部サンプル画像とに基づいて前記目標サンプルオブジェクトの眼部特徴を特定することと、前記目標サンプルオブジェクトの顔部特徴に基づいて前記目標サンプルオブジェクトの初期視線方向を予測し、且つ、前記目標サンプルオブジェクトの顔部特徴と前記目標サンプルオブジェクトの眼部特徴とを融合した融合特徴に基づいて、前記目標サンプルオブジェクトの視線残差情報を予測して取得することと、前記目標サンプルオブジェクトの視線残差情報に基づいて前記目標サンプルオブジェクトの初期視線方向を修正し、前記目標サンプルオブジェクトの視線方向を取得することと、取得された前記目標サンプルオブジェクトの視線方向と前記目標サンプルオブジェクトのマーキング視線方向とに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、によってトレーニングされたものである。

本発明の実施例に係るニューラルネットワークのトレーニング方法によると、サンプル画像における目標サンプルオブジェクトの顔部サンプル画像及び眼部サンプル画像を取得することができる。その後、顔部サンプル画像に基づいて目標サンプルオブジェクトの顔部特徴を抽出し、当該目標サンプルオブジェクトの顔部特徴に基づいて、目標サンプルオブジェクトの初期視線方向を予測可能である。目標サンプルオブジェクトの顔部特徴及び眼部画像に基づいて目標サンプルオブジェクトの眼部特徴を特定する。目標サンプルオブジェクトの顔部特徴と眼部特徴とを融合した融合特徴に基づいて、目標サンプルオブジェクトの実視線方向と初期視線方向との間の差異を表す情報、即ち視線残差情報を予測可能である。その後、当該差異を表す情報によって、目標サンプルオブジェクトの顔部特徴のみに基づいて予測された初期視線方向を調整すれば、目標サンプルオブジェクトのマーキング視線方向に一層近接する視線方向を得ることができる。取得された目標サンプルオブジェクトの視線方向及びマーキング視線方向に基づいてニューラルネットワークのネットワークパラメータ値を調整すれば、正確度の高いニューラルネットワークを得ることができる。当該正確度の高いニューラルネットワークに基づくと、目標オブジェクトの視線方向を正確に予測することができる。

第２態様において、本発明の実施例は、視線方向特定装置を提供する。当該視線方向特定装置は、目標オブジェクトの顔部画像及び眼部画像を取得するための画像取得モジュールと、前記顔部画像から前記目標オブジェクトの顔部特徴を抽出し、且つ前記目標オブジェクトの顔部特徴及び前記眼部特徴に基づいて前記目標オブジェクトの眼部特徴を特定するための特徴抽出モジュールと、前記顔部特徴に基づいて前記目標オブジェクトの初期視線方向を予測し、且つ、前記顔部特徴と前記眼部特徴とを融合した融合特徴に基づいて、視線残差情報を予測して取得するための視線予測モジュールと、前記視線残差情報に基づいて前記初期視線方向を修正し、前記目標オブジェクトの視線方向を取得するための視線修正モジュールと、を備える。

第３態様において、本発明の実施例は、電子機器を提供する。当該電子機器は、プロセッサと、記憶媒体と、バスとを備え、前記記憶媒体には、前記プロセッサで実行され得る機器読み取り可能な指令が記憶され、前記プロセッサと前記記憶媒体との間は、バスを介して通信され、前記機器読み取り可能な指令により、前記プロセッサは、第１態様に記載の方法を実行する。

第４態様において、本発明の実施例は、コンピュータ可読記憶媒体を提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該コンピュータプログラムにより、プロセッサは、第１態様に記載の方法を実行する。

本発明の上記目的、特徴及びメリットがより明瞭で分かりやすくなるように、下記の実施例に基づいて図面を参照しながら以下のように詳細に説明する。

本発明の実施例の技術案がより明瞭に説明されるように、以下では、本発明の実施例に使用必要な図面を簡単に紹介する。ここでの図面は、明細書に組み込まれて明細書の一部を構成する。これらの図面は、本発明に合致する実施例を示しつつ、明細書の記載とともに本発明の解決手段を説明するために用いられる。理解できるように、以下の図面が本発明の幾つかの実施例を示すだけであり、範囲に対する限定として見なされるべきではない。当業者であれば、また進歩性に値する労力を掛けずにこれらの図面から他の関連する図面を取得可能である。
本発明の実施例に係る視線方向特定方法のフローチャートを示す。本発明の実施例に係る視線方向特定の原理の模式図を示す。本発明の実施例に係る眼部特徴の特定方法のフローチャートを示す。本発明の実施例に係る左目特徴及び右目特徴のそれぞれに対応する重みの特定手順の模式図を示す。本発明の実施例に係る初期視線方向の特定方法のフローチャートを示す。本発明の実施例に係る融合特徴の特定方法のフローチャートを示す。本発明の実施例に係る初期視線方向の特定及び視線残差情報の特定の手順の模式図を示す。本発明の実施例に係る視線方向を特定する手順の模式図を示す。本発明の実施例に係るニューラルネットワークトレーニング方法のフローチャートを示す。本発明の実施例に係る視線方向特定装置の構造模式図を示す。本発明の実施例に係る電子機器の構造模式図を示す。

本発明の実施例の目的、技術案及びメリットがより明瞭になるように、以下では、本発明の実施例における図面と併せて本発明の実施例における技術案を明瞭で完全に記述する。明らかに、記述される実施例は、単に本発明の一部の実施例であり、全ての実施例ではない。通常、ここでの図面に記述して示された本発明の実施例のユニットは、各種の異なる配置で配列や設計され得る。そのため、以下に図面に供される本発明の実施例に対する詳細な記述は、保護要求する本発明の範囲を制限するためではなく、単に本発明の好適な実施例を示す。本発明の実施例に基づいて、当業者が進歩性に値する労働をせずに成した全ての他の実施例は、何れも本発明の保護範囲に含まれる。

視線追跡は、コンピュータビジョンにおける重要分野であり、その主な目的がユーザの視線方向を予測することにある。研究で分かるように、外観に基づく視線予測モデルは、一般的にディープラーニングモデルを用いて実現され、例えば、顔部画像におけるフェイス特徴又は眼部画像における眼部特徴に基づいて視線方向を予測してもよい。

関連技術では、単に顔部画像と眼部画像とを異なる独立特徴源とし、顔部画像と眼部画像との間の内在関係を実質的に考慮していない。実際には、眼部画像から凝視に専念する細粒度（ｆｉｎｅｇｒａｎｕｌａｒｉｔｙ）特徴が与えられる一方、顔部画像からより広範な情報を有する粗粒度（ｃｏａｒｓｅｇｒａｎｕｌａｒｉｔｙ）特徴が与えられ、両者の組み合わせにより、視線方向をより正確に予測することができる。

上記研究を基に、本発明は、視線方向特定方法を提供する。顔部画像に基づいて目標オブジェクトの顔部特徴を抽出可能であり、当該顔部特徴は、目標オブジェクトの初期視線方向を予測するために用いられてもよい。顔部特徴及び眼部画像に基づいて目標オブジェクトの眼部特徴を特定した後、顔部特徴と眼部特徴とを融合した特徴（「融合特徴」とも呼称される）に基づいて、目標オブジェクトの実視線方向と初期視線方向との間の差異を表す情報、即ち視線残差情報を予測してもよい。その後、当該差異を表す情報によって、顔部特徴のみに基づいて予測された初期視線方向を調整すると、実視線方向に一層近接する視線方向を取得することができる。これにより、本発明の実施例に係る視線特定方法は、予測によってより正確な視線方向を得ることができることが分かる。

以下では、本発明における図面と併せて本発明における技術案を明瞭で完全に記述する。明らかに、記述される実施例は、単に本発明の一部の実施例であり、全ての実施例ではない。通常、ここでの図面に記述して示された本発明のユニットは、各種の異なる配置で配列や設計され得る。そのため、以下に図面に供される本発明の実施例に対する詳細な記述は、保護要求する本発明の範囲を制限するためではなく、単に本発明の好適な実施例を示す。本発明の実施例に基づいて、当業者が進歩性に値する労働をせずに成した全ての他の実施例は、何れも本発明の保護範囲に含まれる。

注意すべきことは、類似する符号やアルファベットが以下の図面において類似要素を示すため、一旦ある要素が１つの図面に定義されると、後の図面において更に定義及び解釈される必要がない。

本実施例に対する理解が容易になるように、まず、本発明の実施例に開示された視線方向特定方法を詳細に紹介する。本発明の実施例に関わる視線方向特定方法の実行主体は、一般的に一定の計算能力を有するコンピュータ機器である。当該コンピュータ機器は、例えば、端末機器やサーバ又は他の処理機器を含み、端末機器は、ユーザ機器（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、モバイル機器、ユーザ端末、端末等であってもよい。幾つかの可能な実現方式において、当該視線方向特定方法は、プロセッサがメモリに記憶されたコンピュータ可読指令を呼び出すことで実現されてもよい。

以下では、実行主体が端末機器であることを例として本発明の実施例に係る視線方向特定方法を説明する。

図１は、本発明の実施例に係る視線方向特定方法のフローチャートを示す。方法は、ステップＳ１０１～Ｓ１０３を含む。

Ｓ１０１では、目標オブジェクトの顔部画像及び眼部画像を取得する。

ここで、目標オブジェクトは、視線方向が予測されるべきユーザであってもよく、ビデオカメラ又はカメラ等の画像を収集可能な機器を介して目標オブジェクトのフェイスを撮像し、目標オブジェクトの顔部画像を取得し、その後当該顔部画像から目標オブジェクトの眼部画像を切り出してもよい。

Ｓ１０２では、顔部画像から目標オブジェクトの顔部特徴を抽出する。

Ｓ１０３では、目標オブジェクトの顔部特徴及び眼部画像に基づいて目標オブジェクトの眼部特徴を特定する。

ここで、目標オブジェクトの顔部特徴とは、より広範な情報を有する粗粒度特徴を指し、これらの顔部特徴により、目標オブジェクトの初期視線方向を予測可能である。目標オブジェクトの眼部特徴とは、凝視に専念することを表せる細粒度特徴を指す。眼部特徴と顔部特徴との組み合わせにより、視線方向を比較的に正確に予測することができる。

具体的に、ここで、顔部特徴及び眼部特徴は、予めトレーニングされた視線方向予測を行うニューラルネットワークのうちの特徴抽出を行うためのサブニューラルネットワークを介して抽出されてもよく、後文の実施例において詳細に紹介され、ここで繰り返し説明しない。

Ｓ１０４では、顔部特徴に基づいて目標オブジェクトの初期視線方向を予測し、且つ、顔部特徴と眼部特徴とを融合した融合特徴に基づいて、視線残差情報を予測して取得する。

視線残差情報は、目標オブジェクトの実視線方向と初期視線方向との間の差異を表すために用いられる。

ここでの初期視線方向は、顔部特徴に基づいて特定されてもよく、具体的に、予めトレーニングされた、視線方向予測を行うニューラルネットワークのうちの初期視線方向を特定するためのサブニューラルネットワークに基づいて予測されてもよく、具体的な予測方式は、後文で実施例と併せて詳細に記述される。

ここでの視線残差情報は、予めトレーニングされた、視線方向予測を行うニューラルネットワークのうちの視線残差情報を特定するためのサブニューラルネットワークに基づいて予測されてもよく、具体的な予測方式は、後文で詳細に記述される。

ここで、顔部特徴と眼部特徴とを融合した特徴によって、目標オブジェクトの実視線方向と初期視線方向との間の差異を表す情報を予測し、その後、当該差異を表す情報によって、顔部特徴のみに基づいて予測された初期視線方向を調整すると、実視線方向に一層近接する視線方向を取得することができる。即ち、本発明は、目標オブジェクトの顔部画像と眼部画像とを結合して、眼部画像に供される凝視に専念する細粒度特徴と、顔部画像に供されるより広範な情報に対応する粗粒度特徴とを組み合わせて、目標オブジェクトの実視線方向と初期視線方向との間の差異を表す視線残差情報を予測して取得することにより、当該視線残差情報を利用して、顔部特徴に基づいて予測された目標オブジェクトの初期視線方向を調整し、更により正確な目標オブジェクトの視線方向を取得する。

具体的に、顔部特徴及び眼部特徴を、予めトレーニングされた、視線方向予測を行うニューラルネットワークのうちの視線残差情報を特定するためのサブニューラルネットワークに入力して、顔部特徴と眼部特徴とを融合した特徴を取得し、当該方式は、後文で具体的な実施例と結合して記述を行う。

Ｓ１０５では、視線残差情報に基づいて初期視線方向を修正し、目標オブジェクトの視線方向を取得する。

具体的に、ここでの視線残差情報は、顔部特徴と眼部特徴とを融合した特徴に基づいて特定された、実視線方向と初期視線方向との間の差異を表す情報を含んでもよい。その後、当該視線残差情報に基づいて初期視線方向を調整し、例えば、当該視線残差情報と顔部特徴に基づいて予測された初期視線方向との和を求め、目標オブジェクトの実視線方向に一層近接する視線方向を取得してもよい。

例えば、図２は、１種の視線方向を特定するための原理模式図を示す。ｇ_ｂが顔部特徴に基づいて予測された目標オブジェクトの初期視線方向を示し、ｇ_ｒが視線残差情報を示すと、最終的に取得される目標オブジェクトの視線方向ｇは、以下の数式（１）によって表される。
ｇ＝ｇ_ｂ＋ｇ_ｒ（１）
視線残差情報は、実視線方向と初期視線方向との差異を示すときに、ベクトルで示してもよい。ここで、世界座標系を導入して初期視線方向及び視線残差情報を示してもよい。視線残差情報と初期視線方向との和を求めるときに、初期視線方向と視線残差情報との世界座標系における同一方向軸の値を対応的に加算すると、目標オブジェクトの視線方向を取得する。

例えば、目標オブジェクトの実視線方向が東から南に３０度であり、目標オブジェクトの顔部特徴予測によって得られた目標オブジェクトの初期視線方向が東から南に２５度であり、顔部特徴と眼部特徴とを融合した後の特徴予測によって得られた視線残差情報が偏差４度である場合に、視線残差情報によって初期視線方向を修正すると、予測された目標オブジェクトの視線方向が東から南に２９度であると取得され得る。東から南に２９度が東から南に２５度よりも目標オブジェクトの実視線方向に近接することは、明らかである。

以上のステップＳ１０１～Ｓ１０５に係る視線方向特定方法では、顔部画像から目標オブジェクトの顔部特徴を抽出し、当該顔部特徴によって目標オブジェクトの初期視線方向を予測可能であり、顔部特徴及び眼部画像に基づいて目標オブジェクトの眼部特徴を特定した後、顔部特徴と眼部特徴とを融合した特徴によって、目標オブジェクトの実視線方向と初期視線方向との間の差異を表す情報、即ち視線残差情報を予測することができ、その後、当該差異を表す情報によって、顔部特徴のみに基づいて予測された初期視線方向を調整すると、実視線方向に一層近接する視線方向を取得することができる。これにより、本発明の実施例に係る視線特定方法は、より正確な視線方向を予測して取得することができる。

以下では、具体的な実施例を用いて上記Ｓ１０１～Ｓ１０５の過程を分析する。

上記顔部画像から目標オブジェクトの顔部特徴を抽出するステップ（Ｓ１０２）について、顔部画像に対して画像分析を行うことにより、顔部画像から、顔部特徴を表せる位置点座標を目標オブジェクトの顔部特徴として抽出してもよい。例えば、頬、目尻等の位置点座標を抽出する。又は、ニューラルネットワークに基づいて目標オブジェクトの顔部特徴を抽出してもよい。

例えば、目標オブジェクトの顔部特徴は、予めトレーニングされた、視線方向予測を行うニューラルネットワークのうちの特徴抽出を行うサブニューラルネットワークを介して抽出されてもよく、具体的に、以下のことを含む。
顔部画像を第１特徴抽出ネットワークに入力して第１特徴抽出ネットワークの処理を経て顔部特徴を取得する。第１特徴抽出ネットワークは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、顔部特徴抽出を行うためのサブニューラルネットワークである。

ここでの第１特徴抽出ネットワークは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、顔部画像における顔部特徴を抽出するためのものである。即ち、顔部画像を当該第１特徴抽出ネットワークに入力した後、初期視線方向を予測するための顔部特徴を抽出することができる。

ここで、予めトレーニングされた視線方向予測を行うニューラルネットワークのうちの第１特徴抽出ネットワークを介して顔部画像における顔部特徴を抽出する。視線方向予測を行うニューラルネットワークのうち、当該第１特徴抽出ネットワークは、専ら顔部画像の顔部特徴を抽出するためのものであるため、より正確な顔部特徴を抽出可能であり、更に初期視線方向の正確度を向上させることは、容易になる。

上記眼部画像は、左目画像及び右目画像を含む。通常、左目画像で示された左目の外観と右目画像で示された右目の外観とは、環境の変化又は頭部ポーズの変化とともに変化する。このように、左目画像から抽出された左目特徴と右目画像から抽出された右目特徴とは、視線方向を特定する際に、異なる貢献が存在する可能性がある。これに鑑みて、目標オブジェクトの顔部特徴及び眼部画像に基づいて目標オブジェクトの眼部特徴を特定することは、図３に示すように、以下のステップＳ３０１～Ｓ３０４を含んでもよい。

Ｓ３０１では、左目画像から左目特徴を抽出する。

ここで、左目画像から左目特徴を抽出することは、左目画像から、眼部特徴を表せる位置点座標、例えば、瞳孔、目尻等の位置点座標を目標オブジェクトの左目特徴として抽出することであってもよく、又は、予めトレーニングされたニューラルネットワークに基づいて左目特徴を抽出してもよい。

Ｓ３０２では、右目画像から右目特徴を抽出する。

同様に、ここで、右目画像から右目特徴を抽出することは、右目画像から、眼部特徴を表せる位置点座標、例えば、瞳孔、目尻等の位置点座標を目標オブジェクトの右目特徴として抽出することであってもよく、又は、予めトレーニングされたニューラルネットワークに基づいて右目特徴を抽出してもよい。

本発明では、予めトレーニングされたニューラルネットワークを介して左目特徴及び右目特徴を抽出することを例として説明する。
左目画像を第２特徴抽出ネットワークに入力し、第２特徴抽出ネットワークの処理を経て左目特徴を取得し、且つ右目画像を第３特徴抽出ネットワークに入力し、第３特徴抽出ネットワークの処理を経て右目特徴を取得する。

第２特徴抽出ネットワークは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、左目特徴抽出を行うためのサブニューラルネットワークである。第３特徴抽出ネットワークは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、右目特徴抽出を行うためのサブニューラルネットワークである。

Ｓ３０３では、顔部特徴、左目特徴及び右目特徴に基づいて、左目特徴に対応する第１重みと右目特徴に対応する第２重みとを特定する。

ここで、左目特徴に対応する第１重みは、左目画像の視線方向特定時における貢献を示し、右目特徴に対応する第２重みは、右目画像の視線方向特定時における貢献を示す。当該第１重み及び第２重みを特定する際に、予めトレーニングされたニューラルネットワークによって特定してもよい。例えば、顔部特徴、左目特徴及び右目特徴を注意力ネットワークに入力し、注意力ネットワークの処理を経て左目特徴に対応する第１重みと右目特徴に対応する第２重みとを取得してもよい。

注意力ネットワークは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、左目特徴及び右目特徴各自の評価値を特定するためのサブニューラルネットワークである。当該評価値は、左目特徴／右目特徴の眼部特徴における重要度を表す。

顔部特徴、左目特徴及び右目特徴を当該注意力ネットワークに入力した後、左目特徴及び右目特徴各自の評価値を取得することができる。

具体的に、顔部特徴、左目特徴及び右目特徴を注意力ネットワークに入力し、注意力ネットワークの処理を経て第１重み及び第２重みを取得するときに、
（１）顔部特徴及び左目特徴に基づいて左目特徴の第１スコアを特定し、且つ、顔部特徴及び右目特徴に基づいて右目特徴の第２スコアを特定することと、
（２）第１スコア及び第２スコアに基づいて、第１重み及び第２重みを特定することと、を含む。

同様に、ここで、顔部特徴及び左目特徴に基づいて左目特徴の第１スコアを特定し、且つ顔部特徴及び右目特徴に基づいて右目特徴の第２スコアを特定するときに、予めトレーニングされたニューラルネットワークによって特定してもよく、例えば注意力ネットワークによって特定してもよい。即ち、
顔部特徴及び左目特徴を注意力ネットワークに入力し、注意力ネットワークの処理を経て左目特徴の第１スコアを取得し、且つ、顔部特徴及び右目特徴を注意力ネットワークに入力し、注意力ネットワークの処理を経て右目特徴の第２スコアを取得する。

ここで、第１スコア及び第２スコアに基づいて第１重み及び第２重みを特定することは、注意力ネットワークの処理によって実施されてもよい。第１スコアは、左目画像の視線方向特定時における貢献を示してもよく、事前テストで知られる。当該第１スコアは、フェイス特徴にも左目特徴にも関連する。第１スコアが顔部特徴に関連するとは、初期視線方向の顔部特徴を予測すると、左目特徴のスコアへ影響することができることを指す。また、第１スコアが左目特徴に関連するとは、左目形状、外観等も左目特徴のスコアへ影響することができることを指す。具体的に、注意力ネットワークは、顔部特徴及び左目特徴を受信した後、以下の数式（２）によって第１スコアを特定してもよい。
ｍ_ｌ＝Ｗ_１ ^Ｔｔａｎｈ（Ｗ_２ ^Ｔｆ_ｆ＋Ｗ_３ ^Ｔｆ_ｌ）（２）
ここでのｍ_ｌは、左目特徴に対応する第１スコアを示し、Ｗ_１、Ｗ_２及びＷ_３は、注意力ネットワークにおけるネットワークパラメータ、即ち、注意力ネットワークのトレーニングを完了して得たネットワークパラメータであり、ｆ_ｆは、顔部特徴を示し、ｆ_ｌは、左目特徴を示す。

それ相応に、第２スコアは、右目画像の視線方向特定時における貢献を示してもよく、事前テストで知られる。当該第２スコアは、フェイス特徴にも右目特徴にも関連する。第２スコアが顔部特徴に関連するとは、初期視線方向の顔部特徴を予測すると、右目特徴のスコアへ影響することができることを指す。また、第２スコアが右目特徴に関連するとは、右目形状、外観等も右目特徴のスコアへ影響することができることを指す。具体的に、注意力ネットワークは、顔部特徴及び右目特徴を受信した後、以下の数式（３）によって第２スコアを特定してもよい。
ｍ_ｒ＝Ｗ_１ ^Ｔｔａｎｈ（Ｗ_２ ^Ｔｆ_ｆ＋Ｗ_３ ^Ｔｆ_ｒ）（３）
ここでのｍ_ｒは、右目特徴に対応する第２スコアを示し、Ｗ_１、Ｗ_２及びＷ_３は、注意力ネットワークにおけるネットワークパラメータ、即ち、注意力ネットワークのトレーニングを完了して得たネットワークパラメータであり、ｆ_ｆは、顔部特徴を示し、ｆ_ｒは、右目特徴を示す。

左目特徴に対応する第１スコア、及び右目特徴に対応する第２スコアが取得された後、更に当該第１スコア及び第２スコアに基づいて左目特徴に対応する第１重みと右目特徴に対応する第２重みとを取得してもよい。具体的に、以下の数式（４）によって第１重み及び第２重みを特定してもよい。
［ｗ_ｌ，ｗ_ｒ］＝ｓｏｆｔｍａｘ（［ｍ_ｌ，ｍ_ｒ］）（４）
ここで、正規化指数関数ｓｏｆｔｍａｘ関数を導入すると、左目特徴に対応する第１重みｗ_ｌと、右目特徴に対応する第２重みｗ_ｒとを取得することができる。

以上の左目特徴及び右目特徴のそれぞれに対応する重みを特定する手順の模式図は、図４に示されてもよい。図４において、それぞれ深層ニューラルネットワークＣＮＮを介して左目特徴ｆ_ｌ及び右目特徴ｆ_ｒを取得し、その後、更にフェイス特徴ｆ_ｆ、左目特徴ｆ_ｌ及び右目特徴ｆ_ｒを注意力ネットワークに入力し、左目特徴に対応する第１重みｗ_ｌ、及び右目特徴に対応する第２重みｗ_ｒを取得してもよい。

Ｓ３０４では、第１重み及び第２重みに基づいて、左目特徴及び右目特徴を加重加算して眼部特徴を取得する。

ここで、第１重み及び第２重みに基づいて、左目特徴と右目特徴とを加重加算して眼部特徴を取得するステップは、注意力ネットワークを介して実行されてもよい。左目特徴に対応する第１重みと右目特徴に対応する第２重みとが取得された後、左目特徴及び右目特徴を加重加算してもよい。具体的に、以下の数式（５）によって眼部特徴ｆ_ｅを取得してもよい。
ｆ_ｅ＝ｗ_ｌ＊ｆ_ｌ＋ｗ_ｒ＊ｆ_ｒ（５）
本発明の実施例では、顔部特徴と左目特徴とを組み合わせ、且つ顔部特徴と右目画像とを組み合わせることにより、視線方向を特定するときにおける左目画像及び右目画像の異なる貢献をそれぞれ特定し、これによって正確度の高い眼部特徴を特定し、更に視線残差情報の正確度の向上を容易にする。

上記方式で顔部特徴及び眼部特徴が取得された後、更に顔部特徴及び眼部特徴に基づいて目標オブジェクトの視線方向を特定してもよい。目標オブジェクトの視線方向を特定することは、２つの部分を含んでもよい。第１部分は、顔部特徴に基づいて目標オブジェクトの初期視線方向を予測する過程であり、第２部分は、顔部特徴と眼部特徴とを融合した特徴に基づいて目標オブジェクトの視線残差情報を予測する過程である。

顔部特徴に基づいて目標オブジェクトの初期視線方向を予測するときに、図５に示すように、以下のステップＳ５０１～Ｓ５０２を含んでもよい。
Ｓ５０１では、顔部特徴における各特徴点の重みを特定し、顔部特徴における各特徴点の重みに基づいて顔部特徴を調整する。
Ｓ５０２では、調整された顔部特徴に基づいて目標オブジェクトの初期視線方向を特定する。

顔部特徴は、複数の特徴点を含んでもよい。特徴点は、顔部画像から抽出された異なる粗粒度特徴として理解され得る。これらの粗粒度特徴は、例えば顔部画像における領域特徴、位置点特徴等を含んでもよい。顔部特徴における各特徴点が初期視線方向を予測するときに奏する重要度合いは、異なる。ここで、各特徴点の重みに基づいて顔部特徴を調整してから、調整後の顔部特徴に基づいて目標オブジェクトの初期視線方向を特定してもよい。

ここで、顔部特徴を調整するときに、予めトレーニングされたニューラルネットワークを介して調整してもよく、これは、後文で詳細に紹介する。

調整後の顔部特徴が取得された後、図６に示す方式で顔部特徴及び眼部特徴に基づいて融合後の特徴を特定してもよく、具体的に以下のステップＳ６０１～Ｓ６０２を含む。

Ｓ６０１では、調整後の顔部特徴、眼部特徴、及び調整後の顔部特徴における各特徴点の重みに基づいて中間特徴を特定する。

Ｓ６０２では、中間特徴、調整後の顔部特徴、並びに、中間特徴及び調整後の顔部特徴のそれぞれに対応する重みに基づいて、中間特徴と調整後の顔部特徴とを加重加算して融合後の特徴を取得する。

ここでの中間特徴は、予めトレーニングされたニューラルネットワークを介して特定されてもよい。当該中間特徴及び調整後の顔部特徴により、顔部特徴と眼部特徴とを融合した特徴を特定することができる。

以上の顔部特徴を調整して調整後の顔部特徴を取得する手順、及び、顔部特徴と眼部特徴とを融合した特徴を取得する手順は、何れも予めトレーニングされたニューラルネットワーク、例えばゲートネットワークを介して処理されてもよい。調整された顔部特徴に基づいて目標オブジェクトの初期視線方向を特定することも、同様に予めトレーニングされたニューラルネットワークを介して特定されてもよい。これは、後文で詳細に紹介する。

本発明の実施例では、以下のステップによって調整後の顔部特徴における各特徴点の重みを特定してもよい。
眼部特徴及び調整後の顔部特徴に基づいて、調整後の顔部特徴における各特徴点の重みを特定する。

ここで、重みを特定する方式は、予め設定された重み割当方式で特定されてもよく、予めトレーニングされたニューラルネットワークを介して特定されてもよく、後文で詳細に紹介する。

本発明の実施例では、以下のステップによって中間特徴及び調整後の顔部特徴のそれぞれに対応する重みを特定する。
眼部特徴及び調整後の顔部特徴に基づいて、中間特徴及び調整後の顔部特徴のそれぞれに対応する重みを特定する。

同様に、ここで、重みを特定する方式も、予め設定された重み割当方式で特定されてもよく、予めトレーニングされたニューラルネットワークを介して特定されてもよく、後文で詳細に紹介する。

初期視線方向の特定手順、及び、顔部特徴と眼部特徴とを融合した特徴の特定手順を紹介する前に、ゲートネットワークを紹介する。まず、ここで、ゲートネットワークの概念を導入する。ゲートネットワークは、本発明の実施例に係る予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、受信された特徴を濾過・選別する役割を果たし、即ち、重要特徴の重みを大きくし、非重要特徴の重みを小さくする。詳細は、下文において実施例を結合して具体的に説明する。ここで、数式（７）～数式（１０）を用いてゲートネットワークの特徴変化方式を紹介する。

Ｗ_ｚ、Ｗ_ｒ、Ｗ_ｈは、ゲートネットワークにおけるネットワークパラメータであり、σは、ｓｉｇｍｏｉｄ演算を示し、ＲｅＬＵは、活性化関数を示し、ｆは、受信された対応する特徴（顔部特徴を処理するときに、ここでのｆは、顔部特徴を示し、眼部特徴を処理するときに、ここでのｆは、眼部特徴を示す）を示し、ｚ_ｔは、ｓｉｇｍｏｉｄ演算を行って得た重みを示し、ｒ_ｔは、ｓｉｇｍｏｉｄ演算を行って得た重みを示し、

は、入力ゲートネットワークにおける特徴を融合して得た中間特徴を示し、ｈ_ｔは、中間特徴と隣接ゲートネットワークから出力された特徴との加重和を示し、ｈ_０は、０と設定される。

本発明の実施例では、顔部特徴に基づいて目標オブジェクトの初期視線方向を予測し、且つ、顔部特徴と眼部特徴とを融合した特徴に基づいて目標オブジェクトの視線残差情報を予測すると特定する必要がある。本発明の実施例では、２つのゲートネットワークを導入して特徴の濾過・選別をそれぞれ完了してもよく、当該２つのゲートネットワークは、それぞれ第１ゲートネットワーク及び第２ゲートネットワークと記されてもよく、第１ゲートネットワークから出力された特徴は、ｈ_１と記され、第２ゲートネットワークから出力された特徴は、ｈ_２と記されてもよい。以下では、具体的な実施例を用いて説明する。

まず、顔部特徴に基づいて目標オブジェクトの初期視線方向を予測する手順を紹介する。ここで、第１ゲートネットワークを介して顔部特徴に対して重み調整を行って調整後の顔部特徴ｈ_１を取得してから、調整後の顔部特徴ｈ_１に基づいて初期視線方向を予測してもよい。詳細は、以下のステップを含む。

（１）顔部特徴を第１ゲートネットワークに入力し、第１ゲートネットワークの処理を経て顔部特徴における各特徴点の重みを取得する。

ここでの顔部特徴は、複数の特徴点を含んでもよい。ここでの特徴点は、顔部画像における異なる粗粒度特徴として理解され得る。これらの粗粒度特徴は、顔部画像における領域特徴、位置点特徴等を含んでもよい。顔部特徴における各特徴点が初期視線方向を予測するときに奏する重要度合いは、異なる。ここで第１ゲートネットワークを介して顔部特徴における各特徴点の重みを特定する。ここでの第１ゲートネットワークは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、顔部特徴を調整するためのサブニューラルネットワークである。

ここで、第１ゲートネットワークが顔部特徴における各特徴点の重みを取得することは、上記数式（７）及び数式（８）によって取得されてもよい。第１ゲートネットワークから最終的に出力されたのがｈ_１であるため、数式（７）及び数式（８）を導入するときに、ｔ＝１、ｆ＝ｆ_ｆとすると、ｚ_１＝σ（Ｗ_ｚ・［ｈ_０，ｆ_ｆ］）及びｒ_１＝σ（Ｗ_ｒ・［ｈ_０，ｆ_ｆ］）は、取得される。その後、取得されたｚ_１及びｒ_１に基づいて顔部特徴を更に調整してもよい。ここでのｈ_０は、０に等しい。

（２）顔部特徴における各特徴点の重みに基づいて、顔部特徴を調整する。

ここで、第１ゲートネットワークを介して顔部特徴における各特徴点の重みに基づいて顔部特徴を調整してもよい。上記取得された顔部特徴における各特徴点の重みｒ_１を上記数式（９）に代入してｔ＝１、ｆ＝ｆ_ｆとすると、顔部特徴の中間特徴

は、取得される。また、上記取得された顔部特徴の中間特徴の重みｚ_１と、隣接ゲートネットワークから出力された特徴ｈ_０に対応する重み１－ｚ_１とを上記数式（１０）に代入してｔ＝１、ｆ＝ｆ_ｆとすると、調整後の顔部特徴

は、取得される。ここで、ｈ_０は、０に等しい。

（３）調整後の顔部特徴を第１多層パーセプトロン（ｍｕｌｔｉｌａｙｅｒｐｅｒｃｅｐｔｉｏｎ、ＭＬＰ）に入力し、第１多層パーセプトロンの処理を経て目標オブジェクトの初期視線方向を取得する。

ここで、第１多層パーセプトロンは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、初期視線方向を予測するためのサブニューラルネットワークである。

調整後の顔部特徴は、ｈ_１と記され、その後、調整後の顔部特徴を第１多層パーセプトロン（ＭＬＰ）に入力すると、目標オブジェクトの初期視線方向を取得する。

ここで、初期視線方向への影響の大きい特徴点の重みが初期視線方向への影響の小さい特徴点の重みよりも大きくなるように、第１ゲートネットワークが顔部特徴における各特徴点の重みを調整する。このように、調整後の顔部特徴を初期視線方向を予測する第１多層パーセプトロンに入力すると、比較的に正確な初期視線方向は、得られる。

以下では、顔部特徴及び眼部特徴に基づいて融合後の特徴を特定する手順を紹介する。詳細は、下記のことを含む。
眼部特徴及び調整後の顔部特徴を第２ゲートネットワークに入力し、第２ゲートネットワークの処理を経て融合後の特徴を取得し、第２ゲートネットワークは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、融合後の特徴を予測するためのサブニューラルネットワークである。

ここで調整後の顔部特徴は、上記第１ゲートネットワークから出力されたｈ_１であり、その後、当該ｈ_１及び眼部特徴ｆ_ｅを第２ゲートネットワークに入力すると、第２ゲートネットワークから出力された融合後の特徴ｈ_２を取得することができる。

具体的に、眼部特徴及び調整後の顔部特徴を第２ゲートネットワークに入力し、第２ゲートネットワークの処理を経て融合後の特徴を取得するときに、以下の２つのステップを含む。
（１）第２ゲートネットワークを介して、調整後の顔部特徴、眼部特徴、及び調整後の顔部特徴における各特徴点の重みを処理して中間特徴を取得する。
（２）中間特徴、調整後の顔部特徴、並びに、中間特徴及び調整後の顔部特徴のそれぞれに対応する重みに基づいて、第２ゲートネットワークを介して中間特徴及び調整後の顔部特徴を加重加算して融合後の特徴を取得する。

上記第（１）ステップに関し、ここでの調整後の顔部特徴における各特徴点の重みは、以下の方式によって特定されてもよい。
第２ゲートネットワークを介して眼部特徴及び調整後の顔部特徴に対して第１処理を行って調整後の顔部特徴における各特徴点の重みを取得する。ここで、第２ゲートネットワークは、第１処理を行うときに、トレーニングされた重み割当関数における第１ネットワークパラメータ情報を用いる。

ここで、第２ゲートネットワークを介して調整後の顔部特徴ｈ_１及び眼部特徴ｆ_ｅに対して第１処理を行って調整後の顔部特徴における各特徴点の重みを取得するときに、上記数式（８）を引用してもよい。ここで、ｔ＝２、ｆ＝ｆ_ｅとすると、顔部特徴における各特徴点の重みｒ_２＝σ（Ｗ_ｒ・［ｈ_１，ｆ_ｅ］）を取得することができる。当該数式は、上記言及された第２ゲートネットワークによる眼部特徴及び調整後の顔部特徴に対する第１処理に対応する。重み割当関数は、σで示されるｓｉｇｍｏｉｄ演算であり、第１ネットワークパラメータ情報は、Ｗ_ｒである。

顔部特徴における各特徴点の重みが取得された後、数式（９）を導入して調整後の顔部特徴、眼部特徴、及び調整後の顔部特徴における各特徴点の重みを処理して中間特徴を取得してもよい。即ち、取得された中間特徴は、

である。

上記第（２）ステップに関し、中間特徴及び調整後の顔部特徴のそれぞれに対応する重みは、以下の方式で特定されてもよい。
眼部特徴及び調整後の顔部特徴に対して第２処理を行って中間特徴及び調整後の顔部特徴のそれぞれに対応する重みを取得する。ここで、第２ゲートネットワークは、第２処理を行うときに、トレーニングされた重み割当関数における第２ネットワークパラメータ情報を利用する。

調整後の顔部特徴ｈ_１及び眼部特徴ｆ_ｅに対して第２処理を行って中間特徴及び調整後の顔部特徴ｈ_１のそれぞれに対応する重みを取得することは、上記数式（７）を引用可能であり、且つｔ＝２、ｆ＝ｆ_ｅとすると、中間特徴に対応する重みｚ_２＝σ（Ｗ_ｚ・［ｈ_１，ｆ_ｅ］）を取得することができる。当該数式は、上記言及された第２ゲートネットワークによる眼部特徴及び調整後の顔部特徴に対する第２処理に対応する。重み割当関数は、σで示されるｓｉｇｍｏｉｄ演算であり、第２ネットワークパラメータ情報は、Ｗ_ｚである。このように、取得された中間特徴に対応する重みは、ｚ_２であり、調整後の顔部特徴ｈ_１に対応する重みは、１－ｚ_２である。

その後、中間特徴及び調整後の顔部特徴のそれぞれに対応する重みが取得された後、更に、上記数式（１０）を導入して且つ同様にｔ＝２、ｆ＝ｆ_ｅとすると、中間特徴、調整後の顔部特徴、並びに、中間特徴及び調整後の顔部特徴のそれぞれに対応する重みに基づいて、第２ゲートネットワークを介して中間特徴と調整後の顔部特徴とを加重加算することにより、顔部特徴と眼部特徴とを融合した特徴

を取得する。

顔部特徴と眼部特徴とを融合した特徴が取得された後、以下の方式で顔部特徴と眼部特徴とを融合した特徴に基づいて、視線残差情報を予測して取得してもよい。
融合後の特徴を第２多層パーセプトロン（ＭＬＰ）に入力し、第２多層パーセプトロンの処理を経て視線残差情報を取得する。第２多層パーセプトロンは、予めトレーニングされた視線方向予測を行うニューラルネットワークのうち、視線残差情報を予測するためのサブニューラルネットワークである。

ここで融合後の特徴は、ｈ_２と記され、その後、融合後の特徴を第２多層パーセプトロン（ＭＬＰ）に入力すると、目標オブジェクトの視線残差情報を取得することができる。

以上の初期視線方向の特定及び視線残差情報の特定の手順模式図は、図７に示す２つのサブニューラルネットワークを介して特定を実施してもよい。第１サブニューラルネットワークは、第１ゲートネットワーク（Ｇａｔｅｆｕｎｃｔｉｏｎ）及び第１多層パーセプトロン（ＭＬＰ）を含み、第２サブニューラルネットワークは、第２ゲートネットワーク（Ｇａｔｅｆｕｎｃｔｉｏｎ）及び第２多層パーセプトロン（ＭＬＰ）を含む。顔部特徴（Ｆａｃｅｆｅａｔｕｒｅ）を第１ゲートネットワークに入力した後、第１ゲートネットワークの調整を経て、調整後の顔部特徴ｈ_１を取得することができる。当該調整後の顔部特徴ｈ_１を第１多層パーセプトロンに入力して初期視線方向ｇ_ｂを取得する一方、眼部特徴（Ｅｙｅｆｅａｔｕｒｅ）とともに第２ゲートネットワークに入力した後、第２ゲートネットワークの処理を経て、顔部特徴と眼部特徴とを融合した特徴ｈ_２を取得することができる。その後、融合後の特徴ｈ_２を第２多層パーセプトロンに入力して視線残差情報ｇ_ｒを取得する。

以上では、眼部特徴と第１ゲートネットワークによって調整された顔部特徴とを第２ゲートネットワークに入力して処理させることにより、顔部特徴と眼部特徴とを融合した特徴を取得する。当該融合後の特徴が顔部画像及び眼部画像を総合的に考慮した後で得られた特徴であるため、当該融合後の特徴に基づいて目標オブジェクトの実視線方向と初期視線方向との間の差異を特定することは、容易になる。当該差異に基づいて初期視線方向を修正した後、比較的に正確な視線方向を取得することができる。

上述した全ての実施例を纏めると、図８に示す模式図を参照して本発明の実施例に係る視線方向特定方法を説明してもよい。

顔部画像が取得された後、当該顔部画像から眼部画像を切り出す。当該眼部画像は、左目画像及び右目画像を含む。顔部画像を第１特徴抽出ネットワーク（ＣＮＮ）に入力して顔部特徴ｆ_ｆを取得する。その後、当該顔部特徴を上述した第１サブニューラルネットワーク（第１サブニューラルネットワークは、第１ゲートネットワークと第１多層パーセプトロンを含む）に入力して処理させると、初期視線方向ｇ_ｂを取得することができる。また、切り出さられた眼部画像における左目画像を第２特徴抽出ネットワークに入力して左目特徴ｆ_ｌを取得し、右目画像を第３特徴抽出ネットワークに入力して右目特徴ｆ_ｒを取得する。その後、左目特徴、右目特徴及び顔部特徴を注意力ネットワークに入力すると、眼部特徴ｆ_ｅを取得することができる。その後、眼部特徴と、初期視線方向を予測するサブニューラルネットワークを経て得られた調整後の顔部特徴ｈ_１とを第２サブニューラルネットワーク（第２サブニューラルネットワークは、第２ゲートネットワークと第２多層パーセプトロンを含む）に入力して処理させると、視線残差情報ｇ_ｒを取得することができる。

更に、初期視線方向ｇ_ｂ及び視線残差情報ｇ_ｒが取得されると、視線残差情報ｇ_ｒに基づいて初期視線方向を修正して目標オブジェクトの視線方向を取得する。

このように、本発明の実施例に係る視線方向特定方法は、ニューラルネットワークによって実現されてもよく、ニューラルネットワークは、目標サンプルオブジェクトのマーキング視線方向を含むサンプル画像を利用してトレーニングされたものである。当該マーキング視線方向そのものは、目標サンプルオブジェクトの実視線方向である。

具体的に、図９に示すように、本発明の実施例に係る視線方向を特定するためのニューラルネットワークは、ステップＳ９０１～Ｓ９０６を含む以下のステップによってトレーニングして取得されてもよい。

Ｓ９０１では、サンプル画像における目標サンプルオブジェクトの顔部サンプル画像及び眼部サンプル画像を取得する。

ここで、目標サンプルオブジェクトは、異なる空間位置点にそれぞれ存在する複数の目標オブジェクトを含んでもよい。このように。複数の目標オブジェクトは、何れも同一観測方向へ向かい、これらの目標サンプルオブジェクトの顔部画像は、顔部サンプル画像として取得される。その後、顔部サンプル画像から眼部サンプル画像を切り出す。又は、ここでの目標サンプルオブジェクトは、１つの目標オブジェクトを含んでもよい。このように、当該目標サンプル画像は、それぞれ異なる観測方向へ向かい、且つ当該目標サンプルオブジェクトの各観測方向に対応する顔部画像は、顔部サンプル画像として取得される。その後、顔部サンプル画像から眼部サンプル画像を切り出す。

Ｓ９０２では、顔部サンプル画像から目標サンプルオブジェクトの顔部特徴を抽出する。

ここで顔部サンプル画像から目標サンプルオブジェクトの顔部特徴を抽出することは、上文紹介された目標オブジェクトの顔部特徴を抽出する方式と類似するため、ここで繰り返し説明しない。

Ｓ９０３では、目標サンプルオブジェクトの顔部特徴と眼部サンプル画像とに基づいて目標サンプルオブジェクトの眼部特徴を特定する。

ここで目標サンプルオブジェクトの眼部特徴を特定することは、上文で紹介された目標オブジェクトの眼部特徴を特定する方式と類似するため、ここで繰り返し説明しない。

Ｓ９０４では、目標サンプルオブジェクトの顔部特徴に基づいて目標サンプルオブジェクトの初期視線方向を予測し、且つ、目標サンプルオブジェクトの顔部特徴と目標サンプルオブジェクトの眼部特徴とを融合した特徴に基づいて、目標サンプルオブジェクトの視線残差情報を予測して取得する。

同様に、ここで目標サンプルオブジェクトの初期視線方向及び視線残差情報を特定する方式は、上文で目標オブジェクトの初期視線方向及び視線残差情報を特定する方式と類似するため、ここで繰り返し説明しない。

Ｓ９０５では、目標サンプルオブジェクトの視線残差情報に基づいて目標サンプルオブジェクトの初期視線方向を修正し、目標サンプルオブジェクトの視線方向を取得する。

ここで目標サンプルオブジェクトの初期視線方向を修正する方式は、上文で紹介された目標オブジェクトの視線残差情報に基づいて目標オブジェクトの初期視線方向を修正する方式と類似するため、ここで繰り返し説明しない。

Ｓ９０６では、取得された目標サンプルオブジェクトの視線方向と目標サンプルオブジェクトのマーキング視線方向とに基づいて、ニューラルネットワークのネットワークパラメータ値を調整する。

ここで、損失関数を導入して予測視線方向に対応する損失値を特定してもよい。複数回のトレーニングを経た後、損失値によってニューラルネットワークのネットワークパラメータ値を調整する。例えば、損失値を設定閾値よりも小さくすると、トレーニングを停止可能であり、ニューラルネットワークのネットワークパラメータ値は、得られる。

また、如何にして顔部特徴、左目特徴、右目特徴及び注意力ネットワークに基づいて眼部特徴を取得するかは、上文で紹介された視線方向特定方法における眼部特徴を特定する詳細な手順と類似するため、ここで繰り返し説明しない。如何にして顔部特徴に基づいて目標サンプルオブジェクトの初期視線方向を予測するか、及び、如何にして顔部特徴及び眼部特徴に基づいて融合後の特徴を特定するか、及び、如何にして融合後の特徴に基づいて目標サンプルオブジェクトの視線残差情報を特定するかは、同様に上文で紹介された視線方向特定方法における融合後の特徴の特定及び視線残差情報の特定の手順と類似するため、ここで繰り返し説明しない。

本発明の実施例に係るニューラルネットワークのトレーニング方法によると、サンプル画像における目標サンプルオブジェクトの顔部サンプル画像及び眼部サンプル画像を取得することができる。その後、顔部サンプル画像に基づいて目標サンプルオブジェクトの顔部特徴を抽出し、当該目標サンプルオブジェクトの顔部特徴は、目標サンプルオブジェクトの初期視線方向を予測可能である。目標サンプルオブジェクトの顔部特徴と眼部サンプル画像とに基づいて目標サンプルオブジェクトの眼部特徴を特定した後、目標サンプルオブジェクトの顔部特徴と眼部特徴とを融合した特徴により、目標サンプルオブジェクトの実視線方向と初期視線方向との間の差異を表す情報、即ち視線残差情報を予測してもよい。その後、当該差異を表す情報によって、目標サンプルオブジェクトの顔部特徴のみに基づいて予測された初期視線方向を調整すると、目標サンプルオブジェクトのマーキング視線方向に一層近接する視線方向を取得することができる。取得された視線方向及びマーキング視線方向に基づいてニューラルネットワークのネットワークパラメータ値を調整すると、正確度の高いニューラルネットワークを取得することができる。当該正確度の高いニューラルネットワークに基づくと、目標オブジェクトの視線方向を正確に予測することができる。

当業者であれば理解できるように、具体的な実施形態の上記方法において、各ステップの記載順は、厳格な実行順を意味せず、実施手順について如何なる限定もなすことではない。各ステップの具体的な実行順は、その機能及び可能な内在論理で特定されるべきである。

同一の技術思想に基づくと、本発明の実施例は、上記視線方向特定方法に対応する視線方向特定装置を更に提供する。本発明の実施例における視線方向特定装置が問題を解決する原理が本発明の実施例の上記視線方向特定方法と類似するため、装置の実施は、方法の実施を参照すればよく、重複なところについて繰り返し説明しない。

図１０は、本発明の実施例に係る視線方向特定装置１０００の模式図を示す。当該視線方向特定装置１０００は、画像取得モジュール１００１、特徴抽出モジュール１００２、視線予測モジュール１００３及び視線修正モジュール１００４を備える。

画像取得モジュール１００１は、目標オブジェクトの顔部画像及び眼部画像を取得する。

特徴抽出モジュール１００２は、顔部画像から目標オブジェクトの顔部特徴を抽出し、且つ目標オブジェクトの顔部特徴及び眼部特徴に基づいて目標オブジェクトの眼部特徴を特定する。

視線予測モジュール１００３は、顔部特徴に基づいて目標オブジェクトの初期視線方向を予測し、且つ、顔部特徴と眼部特徴とを融合した融合特徴に基づいて、視線残差情報を予測して取得する。

視線修正モジュール１００４は、視線残差情報に基づいて初期視線方向を修正し、目標オブジェクトの視線方向を取得する。

１種の可能な実施形態において、眼部画像は、左目画像及び右目画像を含み、特徴抽出モジュール１００２は、目標オブジェクトの顔部特徴及び眼部特徴に基づいて目標オブジェクトの眼部特徴を特定する際に、左目画像から左目特徴を抽出することと、右目画像から右目特徴を抽出することと、顔部特徴、左目特徴及び右目特徴に基づいて、左目特徴に対応する第１重みと右目特徴に対応する第２重みとを特定することと、第１重み及び第２重みに基づいて、左目特徴及び右目特徴を加重加算して眼部特徴を取得することと、を実行する。

１種の可能な実施形態において、特徴抽出モジュール１００２は、顔部特徴、左目特徴及び右目特徴に基づいて、左目特徴に対応する第１重みと右目特徴に対応する第２重みとを特定する際に、顔部特徴及び左目特徴に基づいて左目特徴の第１スコアを特定し、且つ、顔部特徴及び右目特徴に基づいて右目特徴の第２スコアを特定することと、第１スコア及び第２スコアに基づいて、第１重み及び第２重みを特定することと、を実行する。

１種の可能な実施形態において、視線予測モジュール１００３は、顔部特徴に基づいて目標オブジェクトの初期視線方向を予測する際に、顔部特徴における各特徴点の重みを特定し、顔部特徴における各特徴点の重みに基づいて顔部特徴を調整することと、調整された顔部特徴に基づいて目標オブジェクトの初期視線方向を特定することと、を実行する。

１種の可能な実施形態において、視線予測モジュール１００３は、調整後の顔部特徴、眼部特徴、及び調整後の顔部特徴における各特徴点の重みに基づいて、中間特徴を特定することと、中間特徴、調整後の顔部特徴、並びに、中間特徴及び調整後の顔部特徴のそれぞれに対応する重みに基づいて、中間特徴及び調整後の顔部特徴を加重加算して融合特徴を取得することとにより、顔部特徴及び眼部特徴に基づいて融合後の特徴を特定することを実施する。

１種の可能な実施形態において、視線予測モジュール１００３は、眼部特徴及び調整後の顔部特徴に基づいて調整後の顔部特徴における各特徴点の重みを特定することにより、調整後の顔部特徴における各特徴点の重みを特定することを実施する。

１種の可能な実施形態において、視線予測モジュール１００３は、眼部特徴及び調整後の顔部特徴に基づいて中間特徴及び調整後の顔部特徴のそれぞれに対応する重みを特定することにより、中間特徴及び調整後の顔部特徴のそれぞれに対応する重みを特定することを実施する。

１種の可能な実施形態において、視線方向特定装置１０００は、目標オブジェクトの視線方向を特定するためのニューラルネットワークをトレーニングするためのニューラルネットワークトレーニングモジュール１００５を更に備え、ニューラルネットワークは、目標サンプルオブジェクトのマーキング視線方向を含むサンプル画像を利用してトレーニングされたものである。

１種の可能な実施形態において、ニューラルネットワークトレーニングモジュール１００５は、サンプル画像における目標サンプルオブジェクトの顔部サンプル画像及び眼部サンプル画像を取得することと、顔部サンプル画像から目標サンプルオブジェクトの顔部特徴を抽出することと、目標サンプルオブジェクトの顔部特徴と眼部サンプル画像とに基づいて目標サンプルオブジェクトの眼部特徴を特定することと、目標サンプルオブジェクトの顔部特徴に基づいて目標サンプルオブジェクトの初期視線方向を予測し、且つ、目標サンプルオブジェクトの顔部特徴と目標サンプルオブジェクトの眼部特徴とを融合した融合特徴に基づいて、目標サンプルオブジェクトの視線残差情報を予測して取得することと、目標サンプルオブジェクトの視線残差情報に基づいて目標サンプルオブジェクトの初期視線方向を修正し、目標サンプルオブジェクトの視線方向を取得することと、取得された目標サンプルオブジェクトの視線方向と目標サンプルオブジェクトのマーキング視線方向とに基づいて、ニューラルネットワークのネットワークパラメータ値を調整することとによって、ニューラルネットワークをトレーニングする。

装置における各モジュールの処理フロー、及び各モジュールの間のインタラクションフローの記述は、上記方法実施例における関連説明を参照すればよく、ここで再び詳細に説明しない。

図１における視線方向特定方法に対応し、本発明の実施例は、電子機器を更に提供する。図１１は、本発明の実施例に係る電子機器１１００の構造模式図を示す。電子機器１１００は、プロセッサ１１０１、記憶媒体１１０２及びバス１１０３を備える。記憶媒体１１０２は、実行指令を記憶し、内部メモリ１１０２１と外部メモリ１１０２２を含む。ここでの内部メモリ１１０２１は、内部用のメモリとも呼称され、プロセッサ１１０１の演算データ、及び、ハードディスク等の外部メモリ１１０２２と交換するデータを一時的に格納し、プロセッサ１１０１は、内部メモリ１１０２１を介して外部メモリ１１０２２とデータ交換を行う。電子機器１１００は、運転するときに、プロセッサ１１０１とメモリ１１０２との間はバス１１０３を介して通信され、機器読み取り可能な指令がプロセッサ１１０１によって実行されたときに、
目標オブジェクトの顔部画像及び眼部画像を取得することと、顔部画像から目標オブジェクトの顔部特徴を抽出することと、目標オブジェクトの顔部特徴及び眼部画像に基づいて目標オブジェクトの眼部特徴を特定することと、顔部特徴に基づいて目標オブジェクトの初期視線方向を予測し、且つ、顔部特徴と眼部特徴とを融合した融合特徴に基づいて、視線残差情報を予測して取得することと、視線残差情報に基づいて初期視線方向を修正し、目標オブジェクトの視線方向を取得することという処理は、実施される。

本発明の実施例は、コンピュータ可読記憶媒体を更に提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサで運転されたときに、上記視線方向特定方法の実施例における前記視線方向特定方法のステップは、実行される。当該記憶媒体は、揮発性又は不揮発性のコンピュータ可読取記憶媒体であってもよい。

本発明の実施例に係る視線方向特定方法のコンピュータプログラム製品は、プログラムコードが記憶されたコンピュータ可読記憶媒体を含み、前記プログラムコードに含まれる指令は、上記方法実施例における視線方向特定方法のステップを実行するために用いられ、詳細は、上記方法実施例を参照すればよく、ここで繰り返し説明しない。

本発明の実施例は、コンピュータプログラムを更に提供する。当該コンピュータプログラムがプロセッサによって実行されたときに、上記実施例の何れか１種の方法は、実施される。当該コンピュータプログラム製品は、具体的にハードウェア、ソフトウェア又はそれらの組合せの形態で実現され得る。１つのオプションの実施例において、前記コンピュータプログラム製品は、コンピュータ記憶媒体として具現化されてもよく、別のオプションの実施例において、コンピュータプログラム製品は、ソフトウェア製品、例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）等として具現化される。

当業者であれば良く分かるように、記述の利便性及び簡潔性のために、上述したシステム及び装置の具体的な稼働過程は、上記方法実施例における対応過程を参照すればよく、ここで繰り返し説明しない。本発明に係る幾つかの実施例において、開示されたシステム、装置及び方法が他の方式にて実現され得ることは、理解されるべきである。上述した装置実施例が単に模式的なものであり、例えば、前記手段の区分が、単に１種の論理機能区分であり、実際に実施するときに別の区分方式もあり得る。更に例えば、複数の手段或いはユニットは、組み合わせられてもよく、又は、別のシステムに統合されてもよく、又は、幾つかの特徴が略され、若しくは実行しないようにしてもよい。また、示され或いは議論された各構成部分同士間は、結合が直接結合であってもよく、通信接続が幾つかのインターフェース、装置或いは手段を介する間接結合若しくは通信接続であってもよく、電気的なもの、機械的なもの或いは他の形態であってもよい。

上記分離部品として説明された手段が物理的に分離されるものであってもよくでなくてもよい。また、手段として表示された部品は、物理手段であってもでなくてもよい。更に、それらの手段は、１箇所に位置してもよく、複数のネットワークセルに分散してもよい。実際の需要に応じてその中の一部又は全部の手段を選択して本実施例の目的を果たすことが可能である。

また、本発明の各実施例における各機能手段は、全部で１つの処理手段に集積されてもよく、各手段がそれぞれ単独で物理的に存在してもよく、２つ或いは２つ以上の手段が１つの手段に集積されてもよい。

上記機能は、ソフトウェア機能手段の形式で実現され、且つ独立の製品として販売や使用されるときに、プロセッサで実行され得る不揮発性のコンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解を基に、本発明の技術案は、本質的に或いは従来技術に対して貢献を与える部分又は当該技術案の一部がソフトウェア製品の形式で体現されてもよい。当該コンピュータソフトウェア製品は、１つの記憶媒体に記憶され、幾つかの指令を含むことで一台のコンピュータ機器（パソコン、サーバ又はネットワーク機器等であってもよい）に本発明の各実施例の前記方法の全部或いは一部のステップを実行させる。上述した記憶媒体は、Ｕディスク、モバイルハードディスク、読み出し専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、磁気ディスク又は光ディスク等の、プログラムコードを格納可能な各種の媒体を含む。

最後に説明すべきことは、上述した実施例が単に本発明の具体的な実施形態に過ぎず、本発明の技術案を説明するためのものであり、それに対する制限とはならない。本発明の保護範囲は、これに限定されない。上記実施例を参照して本発明を詳細に説明したが、当業者であれば理解できるように、本技術分野に精通している如何なる技術者も本発明に開示された技術範囲内で依然として上記実施例に記載された技術案を変更し、或いは容易に変化を想到し、又はその中の一部の技術特徴に対して均等物による置換を行うことができ、これらの変更、変化又は置換により、対応する技術案の本質が本発明の実施例の技術案の精神及び範囲から逸脱することがなく、何れも本発明の保護範囲内に含まれるべきである。したがって、本発明の保護範囲は、請求項の保護範囲に準じるべきである。

Claims

視線方向特定方法であって、
目標オブジェクトの顔部画像及び眼部画像を取得するステップと、
前記顔部画像から前記目標オブジェクトの顔部特徴を抽出するステップと、
前記目標オブジェクトの顔部特徴及び前記眼部画像に基づいて前記目標オブジェクトの眼部特徴を特定するステップと、
前記顔部特徴に基づいて前記目標オブジェクトの初期視線方向を予測し、且つ、前記顔部特徴と前記眼部特徴とを融合した融合特徴に基づいて、視線残差情報を予測して取得するステップと、
前記視線残差情報に基づいて前記初期視線方向を修正し、前記目標オブジェクトの視線方向を取得するステップと、を含むことを特徴とする視線方向特定方法。
前記眼部画像は、左目画像及び右目画像を含み、前記目標オブジェクトの顔部特徴及び前記眼部画像に基づいて前記目標オブジェクトの眼部特徴を特定するステップは、
前記左目画像から左目特徴を抽出することと、
前記右目画像から右目特徴を抽出することと、
前記顔部特徴、前記左目特徴及び前記右目特徴に基づいて、前記左目特徴に対応する第１重みと前記右目特徴に対応する第２重みとを特定することと、
前記第１重み及び前記第２重みに基づいて、前記左目特徴と前記右目特徴とを加重加算して前記眼部特徴を取得することと、を含むことを特徴とする請求項１に記載の視線方向特定方法。
前記顔部特徴、前記左目特徴及び前記右目特徴に基づいて、前記左目特徴に対応する第１重みと前記右目特徴に対応する第２重みとを特定することは、
前記顔部特徴及び前記左目特徴に基づいて前記左目特徴の第１スコアを特定し、且つ前記顔部特徴及び前記右目特徴に基づいて前記右目特徴の第２スコアを特定することと、
前記第１スコア及び第２スコアに基づいて、前記第１重み及び第２重みを特定することと、を含むことを特徴とする請求項２に記載の視線方向特定方法。
前記顔部特徴に基づいて前記目標オブジェクトの初期視線方向を予測することは、
前記顔部特徴における各特徴点の重みを特定し、前記顔部特徴における各特徴点の重みに基づいて前記顔部特徴を調整することと、
調整された顔部特徴に基づいて前記目標オブジェクトの初期視線方向を特定することと、を含むことを特徴とする請求項１から３の何れか一項に記載の視線方向特定方法。
前記顔部特徴及び前記眼部特徴に基づいて前記融合特徴を特定することは、
前記調整された顔部特徴と、前記眼部特徴と、前記調整された顔部特徴における各特徴点の重みとに基づいて、中間特徴を特定することと、
前記中間特徴と、前記調整された顔部特徴と、前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みとに基づいて、前記中間特徴と前記調整された顔部特徴とを加重加算して前記融合特徴を取得することと、によって実施されることを特徴とする請求項４に記載の視線方向特定方法。
前記調整された顔部特徴における各特徴点の重みを特定することは、
前記眼部特徴と前記調整された顔部特徴とに基づいて、前記調整された顔部特徴における各特徴点の重みを特定することによって実施されることを特徴とする請求項５に記載の視線方向特定方法。
前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みを特定することは、
前記眼部特徴と前記調整された顔部特徴とに基づいて、前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みを特定することによって実施されることを特徴とする請求項５に記載の視線方向特定方法。
前記視線方向特定方法は、ニューラルネットワークによって実施され、前記ニューラルネットワークは、目標サンプルオブジェクトのマーキング視線方向を含むサンプル画像を利用してトレーニングされたものであることを特徴とする請求項１から７の何れか一項に記載の視線方向特定方法。
前記ニューラルネットワークは、
サンプル画像における目標サンプルオブジェクトの顔部サンプル画像及び眼部サンプル画像を取得することと、
前記顔部サンプル画像から前記目標サンプルオブジェクトの顔部特徴を抽出することと、
前記目標サンプルオブジェクトの顔部特徴と前記眼部サンプル画像とに基づいて前記目標サンプルオブジェクトの眼部特徴を特定することと、
前記目標サンプルオブジェクトの顔部特徴に基づいて前記目標サンプルオブジェクトの初期視線方向を予測し、且つ、前記目標サンプルオブジェクトの顔部特徴と前記目標サンプルオブジェクトの眼部特徴とを融合した融合特徴に基づいて、前記目標サンプルオブジェクトの視線残差情報を予測して取得することと、
前記目標サンプルオブジェクトの視線残差情報に基づいて前記目標サンプルオブジェクトの初期視線方向を修正し、前記目標サンプルオブジェクトの視線方向を取得することと、
取得された前記目標サンプルオブジェクトの視線方向と前記目標サンプルオブジェクトのマーキング視線方向とに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、によってトレーニングされたものであることを特徴とする請求項８に記載の視線方向特定方法。
目標オブジェクトの顔部画像及び眼部画像を取得するための画像取得モジュールと、
前記顔部画像から前記目標オブジェクトの顔部特徴を抽出し、且つ前記目標オブジェクトの顔部特徴及び前記眼部特徴に基づいて前記目標オブジェクトの眼部特徴を特定するための特徴抽出モジュールと、
前記顔部特徴に基づいて前記目標オブジェクトの初期視線方向を予測し、且つ、前記顔部特徴と前記眼部特徴とを融合した融合特徴に基づいて、視線残差情報を予測して取得するための視線予測モジュールと、
前記視線残差情報に基づいて前記初期視線方向を修正し、前記目標オブジェクトの視線方向を取得するための視線修正モジュールと、を備えることを特徴とする視線方向特定装置。
前記眼部画像は、左目画像及び右目画像を含み、
前記特徴抽出モジュールは、前記目標オブジェクトの顔部特徴及び前記眼部特徴に基づいて前記目標オブジェクトの眼部特徴を特定する際に、
前記左目画像から左目特徴を抽出することと、
前記右目画像から右目特徴を抽出することと、
前記顔部特徴、前記左目特徴及び前記右目特徴に基づいて、前記左目特徴に対応する第１重みと前記右目特徴に対応する第２重みとを特定することと、
前記第１重み及び前記第２重みに基づいて、前記左目特徴と前記右目特徴とを加重加算して前記眼部特徴を取得することと、を実行することを特徴とする請求項１０に記載の視線方向特定装置。
前記特徴抽出モジュールは、前記顔部特徴、前記左目特徴及び前記右目特徴に基づいて、前記左目特徴に対応する第１重みと前記右目特徴に対応する第２重みとを特定する際に、
前記顔部特徴及び前記左目特徴に基づいて前記左目特徴の第１スコアを特定し、且つ前記顔部特徴及び前記右目特徴に基づいて前記右目特徴の第２スコアを特定することと、
前記第１スコア及び第２スコアに基づいて、前記第１重み及び第２重みを特定することと、を実行することを特徴とする請求項１１に記載の視線方向特定装置。
前記視線予測モジュールは、前記顔部特徴に基づいて前記目標オブジェクトの初期視線方向を予測する際に、
前記顔部特徴における各特徴点の重みを特定し、前記顔部特徴における各特徴点の重みに基づいて前記顔部特徴を調整することと、
調整された顔部特徴に基づいて前記目標オブジェクトの初期視線方向を特定することと、を実行することを特徴とする請求項１０から１２の何れか一項に記載の視線方向特定装置。
前記視線予測モジュールは、
前記調整された顔部特徴と、前記眼部特徴と、前記調整された顔部特徴における各特徴点の重みとに基づいて、中間特徴を特定することと、
前記中間特徴と、前記調整された顔部特徴と、前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みとに基づいて、前記中間特徴と前記調整された顔部特徴とを加重加算して前記融合特徴を取得することとにより、
前記顔部特徴及び前記眼部特徴に基づいて前記融合特徴を特定することを実施することを特徴とする請求項１３に記載の視線方向特定装置。
前記視線予測モジュールは、
前記眼部特徴と前記調整された顔部特徴とに基づいて、前記調整された顔部特徴における各特徴点の重みを特定することにより、前記調整された顔部特徴における各特徴点の重みを特定することを実施することを特徴とする請求項１４に記載の視線方向特定装置。
前記視線予測モジュールは、
前記眼部特徴と前記調整された顔部特徴とに基づいて、前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みを特定することにより、前記中間特徴及び前記調整された顔部特徴のそれぞれに対応する重みを特定することを実施することを特徴とする請求項１４に記載の視線方向特定装置。
前記視線方向特定装置は、前記目標オブジェクトの視線方向を特定するためのニューラルネットワークをトレーニングするためのニューラルネットワークトレーニングモジュールを更に備え、前記ニューラルネットワークは、目標サンプルオブジェクトのマーキング視線方向を含むサンプル画像を利用してトレーニングされたものであることを特徴とする請求項１０から１６の何れか一項に記載の視線方向特定装置。
前記ニューラルネットワークトレーニングモジュールは、
サンプル画像における目標サンプルオブジェクトの顔部サンプル画像及び眼部サンプル画像を取得することと、
前記顔部サンプル画像から前記目標サンプルオブジェクトの顔部特徴を抽出することと、
前記目標サンプルオブジェクトの顔部特徴と前記眼部サンプル画像とに基づいて前記目標サンプルオブジェクトの眼部特徴を特定することと、
前記目標サンプルオブジェクトの顔部特徴に基づいて前記目標サンプルオブジェクトの初期視線方向を予測し、且つ、前記目標サンプルオブジェクトの顔部特徴と前記目標サンプルオブジェクトの眼部特徴とを融合した融合特徴に基づいて、前記目標サンプルオブジェクトの視線残差情報を予測して取得することと、
前記目標サンプルオブジェクトの視線残差情報に基づいて前記目標サンプルオブジェクトの初期視線方向を修正し、前記目標サンプルオブジェクトの視線方向を取得することと、
取得された前記目標サンプルオブジェクトの視線方向と前記目標サンプルオブジェクトのマーキング視線方向とに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することとによって、前記ニューラルネットワークをトレーニングすることを特徴とする請求項１７に記載の視線方向特定装置。
電子機器であって、
プロセッサと、非一時的な記憶媒体と、バスとを備え、
前記記憶媒体には、前記プロセッサで実行され得る機器読み取り可能な指令が記憶され、前記プロセッサと前記記憶媒体との間は、バスを介して通信され、前記機器読み取り可能な指令により、前記プロセッサは、請求項１から９の何れか一項に記載の視線方向特定方法を実行することを特徴とする電子機器。
コンピュータ可読記憶媒体であって、
当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該コンピュータプログラムにより、プロセッサは、請求項１から９の何れか一項に記載の視線方向特定方法を実行することを特徴とするコンピュータ可読記憶媒体。