JP2021530823A

JP2021530823A - ニューラルネットワークのトレーニング方法、視線追跡方法及び装置並びに電子機器

Info

Publication number: JP2021530823A
Application number: JP2021524086A
Authority: JP
Inventors: 王▲飛▼; 黄▲詩▼▲堯▼; ▲錢▼晨
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2018-09-29
Filing date: 2019-06-20
Publication date: 2021-11-11
Anticipated expiration: 2039-06-20
Also published as: US20210133469A1; SG11202100364SA; JP7146087B2; WO2020062960A1; CN110969060A

Abstract

本願はニューラルネットワークのトレーニング方法、視線追跡方法及び装置並びに電子機器を開示する。このニューラルネットワークのトレーニング方法は、第１のカメラ及び第１の画像における瞳孔に基づいて、第１の視線方向を決定するステップであって、前記第１のカメラが前記第１の画像を撮影するカメラであり、前記第１の画像が少なくとも眼部画像を含むステップと、ニューラルネットワークにより前記第１の画像の視線方向を検出し、第１の検出視線方向を取得するステップと、前記第１の視線方向と前記第１の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップと、を含む。それに対して、対応する装置及び電子機器を更に提供する。本願を用いて、視線追跡の正確性を高めることができる。

Description

（関連出願の相互参照）
本願は、出願番号が２０１８１１１５５５７８．９であり、出願日が２０１８年９月２９日である中国特許出願に基づいて提出され、この中国特許出願の優先権を主張し、この中国特許出願の全ての内容が参照によって本願に組み込まれる。

本願は、コンピューター技術に関し、特に、ニューラルネットワークのトレーニング方法及び装置、視線追跡方法及び装置、電子機器並びにコンピューター読取可能記憶媒体に関する。

視線追跡は、運転者監視、マンマシン対話及びセキュリティ監視等の用途において重要な作用を発揮している。視線追跡は、３次元空間で人の目の注視方向を検出する技術である。マンマシン対話において、人の目の空間における３次元位置を測定し、３次元の視線方向を参照して、人の注視点の３次元空間の位置を取得してデバイスに出力し、更なる対話処理を行う。注意力検出において、人の目の視線方向を推定し、人の注視方向を判断することにより、人の関心領域を取得し、更に人の注意力が集中されているか否かを判断する。

本願は、ニューラルネットワークのトレーニングの技術的手段及び視線追跡の技術的手段を提供する。

第１の態様によれば、本願の実施例は、
第１のカメラ及び第１の画像における瞳孔に基づいて、第１の視線方向を決定するステップであって、前記第１のカメラが前記第１の画像を撮影するカメラであり、前記第１の画像が少なくとも眼部画像を含むステップと、
ニューラルネットワークにより前記第１の画像の視線方向を検出し、第１の検出視線方向を取得するステップと、
前記第１の視線方向と前記第１の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップと、を含むニューラルネットワークのトレーニング方法を提供する。

第２の態様によれば、本願の実施例は、
ビデオストリームデータに含まれる第３の画像に対して顔検出を行うステップと、
検出された前記第３の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するステップと、
前記第３の画像における前記眼部領域画像を切り取るステップと、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するステップと、を含む視線追跡方法を提供する。

第３の態様によれば、本願の実施例は、
第１のカメラ及び第１の画像における瞳孔に基づいて、第１の視線方向を決定するための第１の決定ユニットであって、前記第１のカメラが前記第１の画像を撮影するカメラであり、前記第１の画像が少なくとも眼部画像を含む第１の決定ユニットと、
ニューラルネットワークにより前記第１の画像の視線方向を検出し、第１の検出視線方向を取得するための検出ユニットと、
前記第１の視線方向と前記第１の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニットと、を含むニューラルネットワークのトレーニング装置を提供する。

第４の態様によれば、本願の実施例は、
ビデオストリームデータに含まれる第３の画像に対して顔検出を行うための顔検出ユニットと、
検出された前記第３の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するための第１の決定ユニットと、
前記第３の画像における前記眼部領域画像を切り取るための切り取りユニットと、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するための入力出力ユニットと、を含む視線追跡装置を提供する。

第５の態様によれば、本願の実施例は、プロセッサーと、前記プロセッサーに接続され、プログラムコマンドを記憶するためのメモリとを含む電子機器であって、前記プロセッサーが前記電子機器に前記第１の態様の方法における対応の機能を実行させるように構成される電子機器を更に提供する。

選択可能に、前記電子機器は、前記電子機器と他の電子機器との通信に用いられる入力出力インタフェースを更に含む。

第６の態様によれば、本願の実施例は、プロセッサーと、前記プロセッサーに接続され、プログラムコマンドを記憶するためのメモリとを含む電子機器であって、前記プロセッサーが前記電子機器に前記第２の態様の方法における対応の機能を実行させるように構成される電子機器を更に提供する。

第７の態様によれば、本願の実施例は、
ニューラルネットワークをトレーニングするためのニューラルネットワークのトレーニング装置と、
前記ニューラルネットワークのトレーニング装置によりトレーニングされたニューラルネットワークを使用するための視線追跡装置と、を含み、
前記ニューラルネットワークのトレーニング装置と前記視線追跡装置が通信可能に接続される視線追跡システムを更に提供する。

選択可能に、前記ニューラルネットワークのトレーニング装置は、前記第１の態様に記載の方法を実行するために用いられ、
前記視線追跡装置は、前記第２の態様に記載の対応の方法を実行するために用いられる。

第８の態様によれば、本願の実施例は、コマンドが記憶されているコンピューター読取可能記憶媒体であって、コンピューター上で作動すると、コンピューターに本願の実施例で提供されたいずれか１つの方法を実行させるコンピューター読取可能記憶媒体を提供する。

第９の態様によれば、本願の実施例は、コマンドを含むコンピュータープログラム製品であって、コンピューター上で作動すると、コンピューターに本願の実施例で提供されたいずれか１つの方法を実行させるコンピュータープログラム製品を提供する。

本願の実施例又は背景技術における技術的手段をより明瞭に説明するために、以下、本願の実施例又は背景技術に用いられる図面について説明する。
本願の実施例で提供された視線追跡方法を模式的に示すフローチャートである。本願の実施例で提供された顔キーポイントのシーン模式図である。本願の実施例で提供された眼部領域画像のシーン模式図である。本願の実施例で提供されたニューラルネットワークのトレーニング方法を模式的に示すフローチャートである。本願の実施例で提供された第１の視線方向を決定する方法を模式的に示すフローチャートである。本願の実施例で提供された３種の人の目に関連する模式図である。本願の実施例で提供された瞳孔を決定する模式図である。本願の実施例で提供された別の視線追跡方法を模式的に示すフローチャートである。本願の実施例で提供されたニューラルネットワークのトレーニング装置の構造模式図である。本願の実施例で提供されたトレーニングユニットの構造模式図である。本願の実施例で提供された別のニューラルネットワークのトレーニング装置の構造模式図である。本願の実施例で提供された検出ユニットの構造模式図である。本願の実施例で提供された電子機器の構造模式図である。本願の実施例で提供された視線追跡装置の構造模式図である。本願の実施例で提供された別の視線追跡装置の構造模式図である。本願の実施例で提供された電子機器の構造模式図である。

本願の目的、技術的手段及び長所をより明瞭にするために、以下、図面を参照しながら本願を更に詳細に説明する。

本願の明細書、特許請求の範囲及び前記図面における「第１」、「第２」等の用語は、特定の順序を記述するものではなく、異なる対象を区別するためのものである。また、「含む」、「備える」という用語及びそれらのいかなる変形も、非排他的に含むことを意図する。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、挙げられたステップ又はユニットに限定されるものではなく、更に挙げられないステップ又はユニットを選択可能に含み、又は、更に、これらのプロセス、方法又は機器に固有の他のステップ又はユニットを選択可能に含む。

図１を参照し、図１は本願の実施例で提供された視線追跡方法を模式的に示すフローチャートであり、この視線追跡方法は、サーバと、携帯電話、タブレットコンピュータ、デスクトップパソコン、携帯情報端末、車載機器、運転者状態監視システム、テレビ、ゲーム機、レクリエーション施設、広告プッシュ装置等を含んでよい端末装置とを含んでよい視線追跡装置に利用可能であり、本願の実施例はこの視線追跡装置の具体的な形態を一意的に限定するものではない。

図１に示すように、この視線追跡方法は、以下のステップを含む。

１０１において、ビデオストリームデータに含まれる第３の画像に対して顔検出を行う。

本願の実施例では、第３の画像は、ビデオストリームデータ内の任意フレームの画像であっても、顔検出により第３の画像における顔の所在位置を検出することができる。選択可能に、この視線追跡装置は顔検出を行う時に、正方形の顔画像を検出してもよく、矩形の顔画像を検出してもよく、本願の実施例は限定するものではない。

選択可能に、このビデオストリームデータは視線追跡装置により撮影されるデータであってもよく、他の装置により撮影されてからこの視線追跡装置に送信されるデータ等であってもよく、本願の実施例は、このビデオストリームデータをどのように取得するかについて制限を加えない。

選択可能に、前記ビデオストリームデータは、車載カメラによる車両運転領域のビデオストリームであってもよい。つまり、ステップ１０４で出力される視線方向としては、前記眼部領域画像の視線方向は前記車両運転領域内の運転者の視線方向であり、又は、前記ビデオストリームデータは車載カメラによる車両の非運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両の非運転領域内の車内人員の視線方向である。このビデオストリームデータが車載カメラにより撮影されるデータであり、この車載カメラが直接視線追跡装置に接続されてもよく、間接的にこの視線追跡装置に接続される等のようになってもよいことが理解可能であり、本願の実施例はこの車載カメラがどのような形態で存在するかについて制限を加えない。

車両の運転領域のビデオストリームデータに含まれる第３の画像に対して顔検出を行う時に、視線追跡装置はリアルタイムで顔検出を行うことができ、更に特定の頻度又は特定の周期で顔検出を行う等のことができるのが理解可能であり、本願の実施例は限定するものではない。

しかしながら、視線追跡装置の電力損失を更に回避し、顔検出の効率を高めるために、ビデオストリームデータに含まれる第３の画像に対して顔検出を行う前記ステップは、
トリガコマンドを受信した場合に、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うステップ、
又は、車両作動中において、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うステップ、
又は、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うステップを含む。

本願の実施例に記載の車両は、例えば、自動車、トラック、定期運行車両、タクシー、貨車、汽車、作業車両等のような各種の用途を有する様々な車両を含む。

本願の実施例では、このトリガコマンドは、視線追跡装置により受信された、ユーザから入力されたトリガコマンドであってもよく、視線追跡装置に接続される端末から送信されるトリガコマンド等であってもよく、本願の実施例はこのトリガコマンドがどこからのものであるかについて制限を加えない。

本願の実施例では、車両が作動する時というのは車両が点火する時と理解でき、つまり、視線追跡装置により車両が作動し始めたことが検出されると、この視線追跡装置は取得されたビデオストリームデータ内の任意フレームの画像（第３の画像を含む）に対して顔検出を行うことができる。

本願の実施例では、基準速度は、車両がどのような作動速度に達した時に、視線追跡装置がビデオストリームデータに含まれる第３の画像に対して顔検出を行えるかを判断するために用いられるので、この基準速度の詳細は限定されない。この基準速度はユーザにより設置されてもよいし、視線追跡装置に接続される、車両作動速度を測定するデバイスにより設置されてもよく、更に視線追跡装置により設置されてもよい等のことになっており、本願の実施例は限定するものではない。

１０２において、検出された前記第３の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定する。

本願の実施例では、キーポイント位置決定プロセスでキーポイント位置決定を行うために、エッジ検出（ｒｏｂｅｒｔ）アルゴリズム、ソーベル（ｓｏｂｅｌ）アルゴリズム等のようなアルゴリズムを利用してもよいし、動的輪郭ｓｎａｋｅモデル等のような関連モデルを利用してもよく、また、顔キーポイント検出を行うためのニューラルネットワークを利用してキーポイントの検出や出力を行なってもよい。更に、サードパーティアプリケーションを利用して顔キーポイントの位置測定を行ってもよく、例えば、サードパーティツールキット（例えば、ｄｌｉｂ等）を利用して顔キーポイントの位置測定を行う。

例を挙げると、ｄｌｉｂは、顔キーポイントの位置測定効果に優れたオープンソースツールキットであり且つ機械学習アルゴリズムを含むＣ＋＋オープンソースツールキットである。ｄｌｉｂは、ロボット、組込み機器、携帯電話及び大型高性能計算環境を含む分野に広く利用されている。従って、このツールキットを効率的に利用して顔キーポイントの位置測定を行って、顔キーポイントを取得することができる。選択可能に、この顔キーポイントは６８個の顔キーポイント等であってもよい。顔キーポイントの位置測定により位置を決定する時に、各キーポイントはそれぞれ座標、即ち画素点座標を有するので、キーポイントの座標により眼部領域を決定できることが理解可能である。又は、ニューラルネットワークにより顔キーポイントを検出し、２１、１０６又は２４０個のキーポイントを検出することができる。

例を挙げると、図２ａを参照し、図２ａは本願の実施例で提供された顔キーポイントの模式図である。この図から分かるように、顔キーポイントはキーポイント０、キーポイント１……キーポイント６７、即ち６８個のキーポイントを含んでもよい。この６８個のキーポイントからキーポイント３６〜４７が眼部領域であることを決定できる。従って、図２ｂに示すように、キーポイント３６とキーポイント３９、及びキーポイント３７（又は３８）とキーポイント４０（又は４１）に基づいて、左眼領域を決定できる。また、キーポイント４２と４５、及びキーポイント４３（又は４４）とキーポイント４６（又は４７）に基づいて右眼領域を決定できる。選択可能に、更に直接キーポイント３６と４５、及びキーポイント３７（又は３８／４３／４４）と４１（又は４０／４６／４７）により眼部領域を決定できる。

以上は本願の実施例で提供された眼部領域を決定する例であり、具体的な実現では、更に他のキーポイントにより眼部領域等を決定できることが理解可能であり、本願の実施例は限定するものではない。

１０３において、前記第３の画像における前記眼部領域画像を切り取る。

本願の実施例では、顔領域の眼部領域を決定した後、眼部領域画像を切り取ることができる。図２ｂを例として、図に示す２つの矩形枠で眼部領域画像を切り取ることができる。

本願の実施例は、視線追跡装置により眼部領域画像を切り取る方法について制限を加えなく、例えば、画面取り込みソフトウェアにより切り取ってもよく、グラフィックスソフトウェア等により切り取ってもよいことが理解可能である。

１０４において、前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力する。

本願の実施例では、この予めトレーニングされたニューラルネットワークは、視線追跡装置によりトレーニングされたニューラルネットワークであってもよく、ニューラルネットワークのトレーニング装置のような他の装置によりトレーニングされたニューラルネットワークであってもよく、視線追跡装置がこのニューラルネットワークのトレーニング装置から視線追跡装置からニューラルネットワークを取得する。ニューラルネットワークのトレーニング方法については図３に示す方法を参照してもよいことが理解可能であり、ここで一つずつ詳細に説明することを省略する。

本願の実施例を実施する時に、予めトレーニングされたニューラルネットワークによりビデオストリームデータ内の任意フレームの画像に対して視線追跡を行って、視線追跡の正確度を効果的に高めることができ、また、更にビデオストリームデータ内の任意フレームの画像に対して視線追跡を行うことで、視線追跡装置はこの視線を利用して他の操作を実行できるようになる。

選択可能に、この視線追跡装置は、ゲーム機を含む場合に、この視線追跡に基づいてゲーム対話を行って、ユーザの満足度を高める。また、この視線追跡装置は、テレビ等の他の家庭用の電器を含む場合に、視線追跡によりウェイクアップ又は休止又は他の制御等を行うことができ、例えば、視線方向に基づいてユーザがテレビ等の家庭用の電器をオン又はオフしようとするか否か等を決定することができ、本願の実施例は限定するものではない。また、この視線追跡装置は、広告プッシュ装置を含む場合に、視線追跡により広告をプッシュすることができ、例えば、出力される視線方向に基づいて、ユーザの関心を持つ広告内容を決定し、更にユーザの関心を持つ広告をプッシュすることができる。

以上は本願の実施例で提供された視線追跡装置により出力される視線方向を用いて他の操作を実行するいくつかの例であり、具体的な実施形態で更に他の例が存在してもよいことが理解可能であり、従って、以上の例は本願の実施例を限定するものであると理解すべきではない。

ビデオストリームデータに含まれる第３の画像に対して視線追跡を行う時に、ニューラルネットワークの出力した視線方向に一定の振れが存在する可能性があることが理解可能であるので、前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力する前記ステップの後に、前記方法は、
前記眼部領域画像の視線方向及び前記第３の画像の少なくとも１フレームの隣接する画像の視線方向に基づいて、前記第３の画像の視線方向を決定するステップを更に含む。

本願の実施例では、少なくとも１フレームの隣接する画像は、第３の画像に隣接する少なくとも１フレームの画像と理解してもよい。例えば、第３の画像の前のＭフレームの画像であってもよく、第３の画像の後のＮフレームの画像であってもよく、このＭ及びＮはそれぞれ１以上の整数である。例を挙げると、第３の画像がビデオストリームデータ内の５番目のフレーム画像であり、そのようにこの視線追跡装置は４番目のフレーム画像の視線方向と５番目のフレーム画像の視線方向に基づいて、５番目のフレーム画像の視線方向を決定することができる。

選択可能に、眼部領域画像の視線方向及び第３の画像の少なくとも１フレームの隣接する画像の視線方向の算術平均を第３の画像の視線方向、即ち眼部領域画像の視線方向としてもよい。このような方式により、得られる視線方向はニューラルネットワークが振れた後予測する視線方向になることを効果的に回避することができ、視線方向予測の正確度が効果的に高められる。

例を挙げると、第３の画像の視線方向が（ｇｘ、ｇｙ、ｇｚ）_ｎであり、且つこの第３の画像がビデオストリームデータ内のＮ番目のフレーム画像であり、前のＮ−１フレームの画像に対応する視線方向がそれぞれ（ｇｘ、ｇｙ、ｇｚ）_ｎ−１、（ｇｘ、ｇｙ、ｇｚ）_ｎ−２、…（ｇｘ、ｇｙ、ｇｚ）_１であり、そのようにＮ番目のフレーム画像、即ち第３の画像の視線方向の計算方式は式（１）に示すようになってもよい。

ただし、ｇａｚｅは第３の画像の視線方向となる。

選択可能に、更に、前記Ｎ番目のフレーム画像に対応する視線方向と前記Ｎ−１番目のフレーム画像に対応する視線方向の加重和により、前記Ｎ番目のフレーム画像に対応する視線方向を計算することができる。

更に例を挙げると、前記パラメータを例とすれば、Ｎ番目のフレーム画像に対応する視線方向の計算方式は式（２）に示すようになってもよい。

以上の２つの式は、例に過ぎず、本願の実施例を限定するものと理解すべきではないことが理解可能である。

本願の実施例を実施することで、ニューラルネットワークの出力した視線方向に振れが存在することを効果的に防止でき、それにより視線方向予測の正確度を効果的に高めることができる。

本願の実施例は、ニューラルネットワークの出力した視線方向の利用方法を更に提供し、
前記眼部領域画像の視線方向を出力する前記ステップの後に、前記方法は、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップ、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行動を決定するステップ、又は、
前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するステップを更に含む。ここで、車両の制御に関しては、例えば、視線をエアコン制御領域に落として所定時間経った時に、エアコン等の車両に設置された機器をオンまたはオフし、例えば、視線を車両における車載ロボットに落とした時に、車載ロボットが笑顔等の対応の表情で応える。

本願の実施例では、視線追跡装置は視線方向を出力することにより、運転者の注視方向を解析することができ、即ちこの運転者の関心を持つ大まかな範囲を取得することができる。それによって、この関心領域に基づいて運転者か真面目に運転している否かを決定できる。例えば、一般的には、運転者か真面目に運転している時に、前方を注視しており、たまに左を見たり右を見たりすることがあるが、運転者の関心を持つ領域が前方ではないことが多くなっていることが発見されると、この運転者が脇見運転をしていると決定できる。

選択可能に、視線追跡装置は、この運転者が脇見運転をしていると決定した場合に、警報通知情報を出力することができる。警報通知情報を出力する正確度を高め、運転者に不必要なトラブルをもたらすことを回避するために、警報通知情報を出力する前記ステップは、
前記運転者脇見運転の回数が基準回数に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者の脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するステップを含んでもよい。

前記基準回数、基準時間は視線追跡装置がどのような警報通知情報を出力するかを判断するためのものであることが理解可能であるので、本願の実施例は前記基準回数と基準時間に具体的な制限を加えない。

この視線追跡装置は、無線又は有線の方式で端末に接続されてよく、それにより端末へ通知情報を送信して運転者又は車両内の他の人員にタイムリーで注意を与えることができるのが理解可能である。ここで、この端末は具体的には運転者の端末を指し、更に車両内の他の人員の端末であってもよく、本願の実施例は一意的に限定するものではない。

本願の実施例を実施することで、視線追跡装置はビデオストリームデータ内の任意フレームの画像の視線方向を数回解析したり、長時間解析したりすることができるようになって、更に運転者が脇見運転をしているか否かについての判断正確度が高められる。

更に、前記運転者が脇見運転をしている場合に、視線追跡装置は、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を記憶してもよく、
又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信してもよい。

本願の実施例では、この視線追跡装置は、眼部領域画像を記憶してもよく、眼部領域画像の前後の特定フレーム数の画像を記憶してもよく、更に眼部領域画像とこの眼部領域画像の前後の特定フレーム数の画像を同時に記憶してもよく、そのように後でユーザが視線方向を調べることを容易にする。また、前記画像を端末に送信することによって、ユーザは時々視線方向を調べることができ、眼部領域画像と眼部領域画像の前後の特定フレーム数の画像の少なくとも一項をタイムリーで取得できる。

本願の実施例では、視線追跡は、運転者又は車内の他の人員の疲労、注意散漫又は他の状態の検出に利用可能であることに加えて、更に対話制御に利用可能であり、例えば、視線追跡の結果により、視線が投げられた領域のスクリーンをオンにし、視線が投げられた領域のマルチメディアを起動する等のような制御コマンドを出力する。車両に応用されることに加えて、視線追跡は、更にゲーム内のマンマシン対話制御、スマートホームのマンマシン対話制御、広告掲載効果評価等のシーンに利用可能である。

本願の実施例のニューラルネットワークは畳み込み層、非線形層、プーリング層等の１種又は多種のネットワーク層を所定の方式で積み重ね、設計してなるものであってよく、本願の実施例は、具体的なネットワーク構造に制限を加えない。ニューラルネットワーク構造を設計した後、ラベル付け情報を有する正、負サンプル画像に基づいて、教師有り方式を駆使して設計済みニューラルネットワークに対して逆勾配伝搬等の方法により何千何万回の反復トレーニングを行うようにしてもよく、具体的なトレーニング方式は本願の実施例により限定されることがない。以下、本願の実施例の選択可能なニューラルネットワークのトレーニング方法を説明する。

まず、本願の実施例で言及された技術用語を説明する。

カメラ座標系に関しては、カメラ座標系の原点はカメラの光心であり、ｚ軸はカメラの光軸である。このカメラはビデオカメラと呼んでもよく、又はこのカメラは具体的には赤緑青（ＲｅｄＧｒｅｅｎＢｌｕｅ、ＲＧＢ）カメラ、赤外線カメラ又は近赤外線カメラ等であってもよいことが理解可能であり、本願の実施例は限定するものではない。本願の実施例では、このカメラ座標系はビデオカメラ座標系等と呼んでもよく、本願の実施例はその名称を限定するものではない。本願の実施例では、このカメラ座標系はそれぞれ第１の座標系と第２の座標系を含む。以下、第１の座標系と第２の座標系との関係を具体的に説明する。

第１の座標系は、本願の実施例では、カメラアレイから決定される任意カメラの座標系である。このカメラアレイはビデオカメラアレイ等と呼んでもよいことが理解可能であり、本願の実施例はこのカメラアレイの名称を限定するものではない。具体的には、この第１の座標系は第１のカメラに対応する座標系であってもよく、又は第１のビデオカメラに対応する座標系等と呼んでもよい。

第２の座標系は、本願の実施例では、第２のカメラに対応する座標系、即ち第２のカメラの座標系である。

例を挙げると、例えば、カメラアレイのカメラは順にｃ１、ｃ２、ｃ３、ｃ４、ｃ５、ｃ６、ｃ７、ｃ８、ｃ９、ｃ１０、ｃ１１、ｃ１２、ｃ１３……ｃ２０であり、ここで、第１のカメラはｃ１１であり、そのため、第１の座標系はｃ１１の座標系であってよい。第２のカメラはｃ２０であり、そのため第２の座標系はｃ２０の座標系である。

第１の座標系と第２の座標系との関係の決定方法は、
カメラアレイから第１のカメラを決定し、第１の座標系を決定し、
カメラアレイの各々のカメラの焦点距離と主点位置を取得し、
前記第１の座標系、前記カメラアレイの各々のカメラの焦点距離及び主点位置に基づいて、前記第２の座標系と前記第１の座標系との関係を決定するようになってもよい。

選択可能に、第１の座標系を決定した後、伝統的な碁盤目較正方法を利用して、カメラアレイの各々のカメラの焦点距離と主点位置を取得して、他の座標系のこの第１の座標系に対する回転と平行移動を決定することができる。

例を挙げると、カメラアレイがｃ１、ｃ２、ｃ３、ｃ４、ｃ５、ｃ６、ｃ７、ｃ８、ｃ９、ｃ１０、ｃ１１、ｃ１２、ｃ１３……ｃ２０であることを例とし、ｃ１１（中心に配置されたカメラ）を第１のカメラとし、第１の座標系を確立し、伝統的な碁盤目較正方法を用いて、全てのカメラの焦点距離ｆ、主点位置（ｕ，ｖ）及び第１のカメラに対する回転と平行移動を取得する。各々のカメラの所在する座標系を１つのカメラ座標系として定義し、双眼カメラ較正により、この第１の座標系における他のカメラのこの第１のカメラに対する位置と向きを計算する。それにより第１の座標系と第２の座標系との関係を決定できる。

本願の実施例では、このカメラアレイに少なくとも第１のカメラと第２のカメラが含まれ、また、本願の実施例は各カメラの間の位置や向きについて制限を加えなく、例えば、このカメラアレイのカメラが人の目の視線範囲をカバーできるように各カメラの間の関係を設置すればよい。

以上は例に過ぎず、具体的な実施形態では、更に、例えば、張正友較正法等の他の方法により第１の座標系と第２の座標系の関係を決定できることが理解可能であり、本願の実施例は限定するものではない。

図３を参照し、図３は本願の実施例で提供されたニューラルネットワークのトレーニング方法を模式的に示すフローチャートであり、このニューラルネットワークのトレーニング方法は、サーバと、携帯電話、タブレットコンピュータ、デスクトップコンピュータ、携帯情報端末等を含でよい端末装置とを含んでよい視線追跡装置に利用可能であり、本願の実施例はこの視線追跡装置の具体的な形態を一意的に限定するものではない。このニューラルネットワークのトレーニング方法は、更に、サーバと端末装置を含んでよいニューラルネットワークのトレーニング装置に利用可能であることが理解可能である。ここで、このニューラルネットワークのトレーニング装置は、視線追跡装置と同一の種類の装置であってもよく、又は、視線追跡装置と異なる種類の装置等であってもよく、本願の実施例は限定するものではない。

図３に示すように、このニューラルネットワークのトレーニング方法は、以下のステップを含む。

３０１において、第１のカメラ及び第１の画像における瞳孔に基づいて、第１の視線方向を決定し、前記第１のカメラが前記第１の画像を撮影するカメラであり、前記第１の画像が少なくとも眼部画像を含む。

本願の実施例では、第１の画像はカメラにより撮影された２Ｄ写真であり、この第１の画像はニューラルネットワークに入力されてこのニューラルネットワークをトレーニングする画像である。選択可能に、この第１の画像の数量は少なくとも２つであり、また、この第１の画像の具体的な数量は、トレーニング具合に応じて決定されるので、本願の実施例はこの第１の画像の数量について制限を加えない。

選択可能に、図４ａを参照し、図４ａは本願の実施例で提供された第１の視線方向を決定する方法を模式的に示すフローチャートである。

３０２において、ニューラルネットワークにより前記第１の画像の視線方向を検出して、第１の検出視線方向を取得し、前記第１の視線方向と前記第１の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングする。

選択可能に、第１の画像は瞳孔に対応する画像であってよく、即ちこの第１の画像は人の目の画像、例えば図４ｂに示す右の画像であってよい。しかしながら、実際の生活において、得られる画像が人の体全体の画像であり、又は図４ｂの左に示すような人の上半身の画像であり、又は図４ｂの中央に示すような人の頭部画像であり得る。これらの画像を直接ニューラルネットワークに入力すれば、ニューラルネットワークの処理負荷を増加することがあり、ニューラルネットワークに対して干渉を引き起こすこともある。

本願の実施例では、第１の視線方向と第１の検出視線方向を取得することにより、ニューラルネットワークのトレーニング正確性を効果的に高めることができる。

従って、本願の実施例は、第１の画像の取得方法を更に提供する。ここで、この第１の画像を取得する方法は、
顔検出方法により顔の画像における位置を取得し、この画像において眼の占める割合が所定割合以上であり、
顔キーポイントの位置測定により、この画像における眼の位置を決定し、
この画像を切り取り、この画像における眼の画像を取得するようになってもよい。

ここで、この画像における眼の画像は第１の画像である。

選択可能に、顔が一定の回転角度である可能性があるため、顔キーポイントの位置測定により、この画像における眼の位置を決定した後、更に両方の目の目頭の水平軸座標を同様になるように回転してもよい。そのようにして両方の目の目頭の水平軸座標を同様になるように回転した後、回転後の画像における眼を切り取って、第１の画像を取得する。

所定割合は、画像における眼の占める大きさを判断するために設定され、この所定割合の設定目的は、取得された画像を切り取る必要があるか否かを決定するためであり、そのため、所定割合の詳細はユーザに設定されてもよく、ニューラルネットワークのトレーニング装置により自動的に設定される等のようになってもよいことが理解可能であり、本願の実施例は限定するものではない。例を挙げると、前記画像がちょうど眼の画像であれば、この画像を直接ニューラルネットワークに入力してよい。更に例を挙げると、前記画像における眼の占める割合が１／１０であれば、第１の画像を取得するために画像に対して切り取る等の操作を行う必要があることを示す。

トレーニングの効果を高め、ニューラルネットワークの出力する視線方向の正確度を高めるために、本願の実施例では、更に第１の視線方向、第１の検出視線方向、第２の検出視線方向及び第２の視線方向に基づいて、このニューラルネットワークをトレーニングすることができる。従って、ニューラルネットワークにより前記第１の画像の視線方向を検出して、第１の検出視線方向を取得し、前記第１の視線方向と前記第１の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記ニューラルネットワークにより、前記第１の画像と第２の画像の視線方向をそれぞれ検出し、前記第１の検出視線方向と第２の検出視線方向をそれぞれ取得するステップであって、前記第２の画像が前記第１の画像にノイズを付加して得られたものであるステップと、
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップであって、前記第２の視線方向が前記第１の視線方向にノイズを付加して得られたものであるステップと、を含む。

本願の実施例では、第１の検出視線方向と第２の検出視線方向を取得し、第１の視線方向、この第１の検出視線方向、この第２の検出視線方向及び第２の視線方向に基づいて、ニューラルネットワークをトレーニングすることで、トレーニングの正確性を高めることができる。

前記ニューラルネットワークは深層ニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ、ＤＮＮ）又は畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ、ＣＮＮ）等を含んでよいことが理解可能であり、本願の実施例はこのニューラルネットワークの具体的な形態について制限を加えない。

本願の実施例では、第１の画像がビデオストリームデータ内の画像である場合に、第１の画像を取得する時に、振れが発生することがあり、即ち視線方向に一定の振れが発生することがあり、従って、視線方向の振れの発生を防止し、ニューラルネットワークの出力安定性を高めるために、第１の画像にノイズを付加することができる。ここで、第１の画像にノイズを付加する方法は、例えば、回転、平行移動、寸法拡大及び寸法縮小のいずれか一項又は複数項を含んでもよい。即ち、第１の画像に対して回転、平行移動、寸法拡大及び寸法縮小等を行うことで第２の画像を取得することができる。

ここで、第１の視線方向は、瞳孔が第１のカメラに注視する方向であり、即ちこの第１の視線方向は瞳孔とカメラの位置により決定される視線方向であり、第１の検出視線方向は第１の画像をニューラルネットワークにより出力した後の視線方向であり、即ち、この第１の検出視線方向はニューラルネットワークにより予測された視線方向であり、具体的にはニューラルネットワークにより予測された、第１の画像に対応する視線方向であり、第２の検出視線方向は、ノイズを付加した後の第１の画像、即ち第２の画像をニューラルネットワークにより出力した視線方向であり、即ちこの第２の検出視線方向はニューラルネットワークにより予測される視線方向であり、具体的にはニューラルネットワークにより予測される、第２の画像に対応する視線方向であり、第２の視線方向は第２の画像に対応する視線方向であり、即ちこの第２の視線方向は第１の視線方向に同様なノイズ付加処理（即ち、第２の画像を取得するノイズ付加方法と一致する）を行った後変換された視線方向である。

つまり、視線の取得方式に関しては、第２の視線方向は第１の視線方向に対応し、第１の検出視線方向は第２の検出視線方向に対応し、視線に対応する画像に関しては、第１の視線方向は第１の検出視線方向に対応し、第２の検出視線方向は第２の視線方向に対応する。以上の説明は第１の視線方向、第１の検出視線方向、第２の検出視線方向及び第２の視線方向をより容易に理解させるためのものであることが理解可能である。

本願の実施例を実施することで、ニューラルネットワークのトレーニング効果を効果的に高め、ニューラルネットワークの出力する視線方向の正確度を高めることができる。

更に、本願の実施例は、ニューラルネットワークをトレーニングする方法を２種提供し、具体的には以下のようになる。

（実施形態１）
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第１の視線方向と前記第１の検出視線方向との第３の損失及び前記第２の視線方向と前記第２の検出視線方向との第４の損失により、前記ニューラルネットワークのネットワークパラメータを調整するステップを含む。

ここで、ニューラルネットワークのネットワークパラメータは畳み込みカーネルの大きさ又は重みパラメータ等を含んでよく、本願の実施例はこのニューラルネットワークに具体的に含まれるネットワークパラメータについて制限を加えない。

前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップの前に、前記方法は、
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に対してそれぞれ正規化処理を行うステップを更に含み、
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップは、
正規化処理後の前記第１の視線方向、正規化処理後の前記第２の視線方向、正規化処理後の前記第１の検出視線方向及び正規化処理後の前記第２の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップを含むことが理解可能である。

本願の実施例では、ベクトルの第１の視線方向、第１の検出視線方向、第２の視線方向及び第２の検出視線方向に対して正規化処理を行うことにより、損失関数を簡単化し、損失関数の計算の正確性を高め、損失関数の計算の複雑性を回避することができる。ここで、この損失関数は第１の視線方向と第１の検出視線方向の損失であってもよく、第１のオフセットベクトルと第２のオフセットベクトルの損失であってよく、更に第２の視線方向と第２の検出視線方向の損失であってもよい。

つまり、正規化処理後の前記第１の視線方向と正規化処理後の前記第１の検出視線方向との第３の損失、及び正規化処理後の前記第２の視線方向と正規化処理後の前記第２の検出視線方向との第４の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整することができる。

ここで、第１の視線方向を（ｘ３、ｙ３、ｚ３）とし、第１の検出視線方向を（ｘ４、ｙ４、ｚ４）とすれば、正規化処理の方式は式（３）及び式（４）に示すようになってもよい。

ただし、

は正規化処理後の第１の視線方向である。

ただし、

は正規化処理後の第１の検出視線方向である。

第３の損失の計算方式は式（５）に示すようになってもよい

ただし、ｌｏｓｓは第３の損失である。

以上の各英字又はパラメータの表現形態は例に過ぎず、本願の実施例を限定するものであると理解すべきではないことが理解可能である。

第１の視線方向、第１の検出視線方向、第２の視線方向及び第２の検出視線方向の正規化処理により、各視線方向でのノルムの影響を解消することができ、そのように視線方向のみが注目され、更にニューラルネットワークのトレーニング正確度を更に高めることができる。

（実施形態２）
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第１の視線方向と前記第１の検出視線方向との第１の損失を決定するステップと、
第１のオフセットベクトルと第２のオフセットベクトルとの第２の損失を決定するステップであって、前記第１のオフセットベクトルが、前記第１の視線方向と前記第２の視線方向の間のオフセットベクトルであり、前記第２のオフセットベクトルが、前記第１の検出視線方向と前記第２の検出視線方向の間のオフセットベクトルであるステップと、
前記第１の損失と前記第２の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含む。

本願の実施例では、第１の視線方向と第１の検出視線方向の損失によりニューラルネットワークをトレーニングするだけではなく、更に第１のオフセットベクトルと第２のオフセットベクトルの損失によりこのニューラルネットワークをトレーニングし、入力画像データの強調により、視線追跡プロセスでの視線の振れの問題を効果的に防止すると共に、ニューラルネットワークのトレーニングの安定性や正確性を高めることができる。

ここで、第１の視線方向を（ｘ３、ｙ３、ｚ３）とし、第１の検出視線方向を（ｘ４、ｙ４、ｚ４）とし、第２の検出視線方向を（ｘ５、ｙ５、ｚ５）とし、第２の視線方向を（ｘ６、ｙ６、ｚ６）とすれば、第１のオフセットベクトルは（ｘ３−ｘ６、ｙ３−ｙ６、ｚ３−ｚ６）になり、第２のオフセットベクトルは（ｘ４−ｘ５、ｙ４−ｙ５、ｚ４−ｚ５）になる。

前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップの前に、前記方法は、
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に対してそれぞれ正規化処理を行うステップを更に含み、
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
正規化処理後の前記第１の視線方向、正規化処理後の前記第２の視線方向、正規化処理後の前記第１の検出視線方向及び正規化処理後の前記第２の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップを含むことが理解可能である。

即ち、正規化処理後の前記第１の視線方向と前記第１の検出視線方向との第１の損失、及び正規化処理後の第１のオフセットベクトルと正規化処理後の第２のオフセットベクトルの第２の損失に基づいて、ニューラルネットワークのネットワークパラメータを調整することができる。ここで、正規化処理後の第１のオフセットベクトルは正規化処理後の前記第１の視線方向と正規化処理後の前記第２の視線方向の間のオフセットベクトルであり、正規化処理後の第２のオフセットベクトルは正規化処理後の前記第１の検出視線方向と正規化処理後の前記第２の検出視線方向の間のオフセットベクトルである。

ここで、正規化処理の具体的な実施形態については、実施形態１に示す実施形態を参照してもよく、ここで詳細な説明は割愛する。

可能な実施形態では、前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に対してそれぞれ正規化処理を行う前記ステップの前に、前記方法は、
前記第１の画像における眼部位置を決定するステップと、
前記眼部位置に基づいて、前記第１の画像に対して回転処理を行って、前記第１の画像における双眼位置を水平軸上で同様にするステップと、を更に含む。

本願の実施例では、第１の画像における眼部位置の決定は、具体的にこの第１の画像における左眼位置と右眼位置をそれぞれ決定し、この左眼位置に対応する画像及び右眼位置に対応する画像を切り取り、次に前記右眼位置に対応する画像と左眼位置に対応する画像に対してそれぞれ回転処理を行って、双眼位置を水平軸上で同様にするようになってもよいことが理解可能である。

視線方向の平滑性を更に高めるために、前記ニューラルネットワークにより前記第１の画像の視線方向を検出して、第１の検出視線方向を取得するステップは、
前記第１の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するＮフレームの画像の視線方向をそれぞれ検出し、Ｎが１以上の整数であるステップと、
前記隣接するＮフレームの画像の視線方向に基づいて、Ｎ番目のフレーム画像の視線方向を前記第１の検出視線方向として決定するステップと、を含むことが理解可能である。

ここで、本願の実施例はＮの具体的な値について制限を加えなく、この隣接するＮフレームの画像はＮ番目のフレーム画像の前のＮフレームの画像（Ｎ番目のフレーム画像を含み）であってもよく、後のＮフレームの画像であってもよく、更に前後のＮフレームの画像等であってもよく、本願の実施例は限定するものではない。

本願の実施例では、ビデオ視線追跡において、ニューラルネットワークの出力した視線方向に依然として振れが存在することがあるので、Ｎフレームの画像の視線方向に基づいて、Ｎ番目のフレーム画像の視線方向を決定して、ニューラルネットワークに検出された視線方向に基づいて更に平滑処理を行うことで、ニューラルネットワークにより検出された視線方向の安定性を高めることができる。

選択可能に、隣接するＮフレームの画像の視線方向の算術平均によりＮ番目のフレーム画像の視線方向を決定して、この視線方向を平滑に処理することで、得られる第１の検出視線方向をより安定的にすることができる。

第２の検出視線方向の決定方法は前記方法により取得できることが理解可能であり、ここで一つずつ詳細に説明することを省略する。

本願の実施例では、第１の検出視線方向と第２の検出視線方向を取得し、第１の視線方向、この第１の検出視線方向及びこの第２の検出視線方向に基づいて、ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）をトレーニングすることにより、ニューラルネットワークのトレーニング正確性を高めると共に、ニューラルネットワークを効率的にトレーニングすることができる。

以上の方法によりニューラルネットワークをトレーニングしてニューラルネットワークを取得した後、このニューラルネットワークのトレーニング装置は直接このニューラルネットワークを用いて線方向を予測することができるようになり、又は、このニューラルネットワークのトレーニング装置はこのトレーニングされたニューラルネットワークを他の装置に送信し、この他の装置はこのトレーニングされたニューラルネットワークを用いて視線方向を予測することも可能になることが理解可能である。このニューラルネットワークのトレーニング装置は具体的にどの装置に送信するかについては、本願の実施例は限定するものではない。

図４ａを参照し、図４ａは本願の実施例で提供された第１の視線方向を決定する方法を模式的に示すフローチャートであり、図４ａに示すように、この第１の視線方向を決定する方法は、以下のステップを含む。

４０１において、カメラアレイから第１のカメラを決定し、瞳孔の前記第１のカメラに対応する第１の座標系における座標を決定する。

本願の実施例では、この第１のカメラの焦点距離及び主点位置に基づいて瞳孔の第１の座標系における座標を決定することができる。

選択可能に、前記瞳孔の前記第１の座標系における座標を決定する前記ステップは、
前記瞳孔の前記第１の画像における座標を決定するステップと、
前記瞳孔の前記第１の画像における座標、前記第１のカメラの焦点距離及び主点位置に基づいて、前記瞳孔の前記第１の座標系における座標を決定するステップと、を含む。

本願の実施例では、撮影された１枚の眼の２Ｄ写真、即ち第１の画像については、直接人の目の瞳孔縁点を検出するネットワークモデルにより瞳孔縁の周囲の一回りの点を抽出し、次にこの瞳孔縁の周囲の一回りの点により瞳孔位置の座標、例えば（ｍ、ｎ）を算出するようにしてもよい。ここで、算出される瞳孔位置の座標（ｍ、ｎ）は瞳孔の第１の画像における座標と理解してよい。また、この瞳孔の画素座標系における座標と理解してもよい。

この第１の画像を撮影するカメラ、即ち第１のカメラの焦点距離をｆとし、主点位置を（ｕ、ｖ）とすれば、瞳孔をこの第１のカメラの結像平面に投影した点のこの第１の座標系における座標が（ｍ−ｕ、ｎ−ｖ、ｆ）となる。

４０２において、前記カメラアレイの第２のカメラにより、前記瞳孔の第２の座標系における座標を決定するステップであって、前記第２の座標系が前記第２のカメラに対応する。

前記カメラアレイの第２のカメラにより前記瞳孔の第２の座標系における座標を決定する前記ステップは、
前記第１の座標系、前記カメラアレイの各々のカメラの焦点距離及び主点位置に基づいて、前記第１の座標系と前記第２の座標系との関係を決定するステップと、
前記第２の座標系と前記第１の座標系との関係に基づいて、前記瞳孔の前記第２の座標系における座標を決定するステップと、を含む。

本願の実施例では、第１の座標系と第２の座標系との関係の決定方法は、前述した実施例についての説明を参照してもよく、ここで一つずつ詳細に説明することを省略する。瞳孔の第１の座標系における座標を取得した後、この第１の座標系と第２の座標系との関係に基づいて、瞳孔の第２の座標系における座標を取得することができる。

４０３において、前記瞳孔の前記第１の座標系における座標及び前記瞳孔の前記第２の座標系における座標に基づいて、前記第１の視線方向を決定する。

本願の実施例では、第１のカメラはカメラアレイ内の任意カメラであってもよいことが理解可能であり、選択可能に、この第１のカメラは少なくとも２つのカメラである。つまり、少なくとも２つの第１のカメラで撮影して２つの第１の画像を取得して、瞳孔の少なくとも２つの第１のカメラの一方での座標をそれぞれ取得することができ（詳細については前記説明を参照してもよい）、更にそれぞれの座標系における座標を第２の座標系に統一することができる。そのようにして、瞳孔の第１の座標系における座標及び第２の座標系における座標を順に決定した後、カメラ、瞳孔の投影点及び瞳孔の三点が１本の線になる性質により同一の座標系における座標を取得することができ、図４ｃに示すように、瞳孔（即ち、図４ｃにおける瞳孔中心）のこの第２の座標系における座標はこれらの直線の共同の交点となる。

選択可能に、視線方向はカメラ位置と人の目の位置との接続線の方向と定義してもよい。選択可能に、前記第１の視線方向の計算式は式（６）に示すようになってもよい。

ただし、

は前記第１の視線方向であり、（ｘ１、ｙ１、ｚ１）は前記第１のカメラの座標系ｃでの座標であり、（ｘ２、ｙ２、ｚ２）は前記瞳孔の前記座標系ｃでの座標である。

本願の実施例は、この座標系ｃについて制限を加えなく、例えば、座標系ｃは第２の座標系であってよもよく、又は、この座標系は更に第１の座標系の任意の座標系等であってもよい。

以上は本願の実施例で提供された１種の第１の視線方向の決定方法に過ぎず、具体的な実施形態では更に他の形態を含んでもよいことが理解可能であり、ここで一つずつ詳細に説明することを省略する。

図５を参照し、図５は本願の実施例で提供された別の視線追跡方法を模式的に示すフローチャートであり、図５に示すように、この視線追跡方法は以下のステップを含む。

５０１において、第１のカメラ及び第１の画像における瞳孔に基づいて、第１の視線方向を決定し、前記第１のカメラが前記第１の画像を撮影するカメラであり、前記第１の画像が少なくとも眼部画像を含む。

５０２において、前記ニューラルネットワークにより、前記第１の画像と第２の画像の視線方向をそれぞれ検出し、前記第１の検出視線方向と第２の検出視線方向をそれぞれ取得し、前記第２の画像が、前記第１の画像にノイズを付加して得られたものである。

５０３において、前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングし、前記第２の視線方向が前記第１の視線方向にノイズを付加して得られたものである。

ステップ５０１〜ステップ５０３の具体的な実施形態については、図３に示すニューラルネットワークのトレーニング方法の具体的な実施形態を参照してもよく、ここで一つずつ詳細に説明することを省略することが理解可能である。

５０４において、ビデオストリームデータに含まれる第３の画像に対して顔検出を行う。

本願の実施例では、ビデオにより人の目の視線を追跡する時に、トレーニングされたニューラルネットワークにより各フレーム画像に対応する視線方向を取得することができる。

５０５において、検出された前記第３の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定する。

５０６において、前記第３の画像における前記眼部領域画像を切り取る。

５０７において、前記眼部領域画像を前記ニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力する。

本願の実施例でトレーニングされたニューラルネットワークは、写真データによる視線追跡にも利用できることが理解可能であり、ここで一つずつ詳細に説明することを省略する。

ステップ５０４〜ステップ５０７の具体的な実施形態については、図１に示す視線追跡方法の具体的な実施形態を参照してもよいことが理解可能であり、ここで一つずつ詳細に説明することを省略する。

図５に示す具体的な実施形態については、図１、図３及び図４ａに示す方法を対応して参照してもよいことが理解可能であり、ここで一つずつ詳細に説明することを省略する。

本願の実施例の実施で、第１の視線方向、第１の検出視線方向、第２の視線方向及び第２の検出視線方向を用いてニューラルネットワークをトレーニングして、ニューラルネットワークのトレーニング正確度を効果的に高めることができ、更に、第３の画像の視線方向予測の正確度を効果的に高めることができる。

以上の各実施例で説明された重点はそれぞれ異なっており、１つの実施例で詳細に説明されなかった実施形態については更に他の実施例を参照してもよく、ここで一つずつ詳細に説明することを省略する。

以上、本願の実施例の方法を詳細に説明したが、以下、本願の実施例の装置を提供する。

図６を参照し、図６は本願の実施例で提供されたニューラルネットワークのトレーニング装置の構造模式図であり、図６に示すように、このニューラルネットワークのトレーニング装置は、
第１のカメラ及び第１の画像における瞳孔に基づいて、第１の視線方向を決定し、前記第１のカメラが前記第１の画像を撮影するカメラであり、前記第１の画像が少なくとも眼部画像を含むための第１の決定ユニット６０１と、
ニューラルネットワークにより前記第１の画像の視線方向を検出して、第１の検出視線方向を取得するための検出ユニット６０２と、
前記第１の視線方向と前記第１の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニット６０３と、を含んでもよい。

本願の実施例を実施する場合に、第１の検出視線方向を取得し、第１の視線方向とこの第１の検出視線方向に基づいて、ニューラルネットワークをトレーニングすることで、トレーニングの正確性を高めることができる。

選択可能に、前記検出ユニット６０２は、具体的に、前記ニューラルネットワークにより、前記第１の画像と第２の画像の視線方向をそれぞれ検出し、前記第１の検出視線方向と第２の検出視線方向をそれぞれ取得するために用いられ、前記第２の画像が、前記第１の画像にノイズを付加して得られたものである。

前記トレーニングユニット６０３は、具体的に、前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングするために用いられ、前記第２の視線方向が前記第１の視線方向にノイズを付加して得られたものである。

選択可能に、前記トレーニングユニット６０３は、具体的に、前記第１の視線方向と前記第１の検出視線方向との第３の損失及び前記第２の視線方向と前記第２の検出視線方向との第４の損失により、前記ニューラルネットワークのネットワークパラメータを調整するために用いられる。

選択可能に、図７に示すように、前記トレーニングユニット６０３は、
前記第１の視線方向と前記第１の検出視線方向との第１の損失を決定するための第１の決定サブユニット６０３１と、
第１のオフセットベクトルと第２のオフセットベクトルとの第２の損失を決定するために用いられる第２の決定サブユニット６０３２であって、前記第１のオフセットベクトルが、前記第１の視線方向と前記第２の視線方向の間のオフセットベクトルであり、前記第２のオフセットベクトルが、前記第１の検出視線方向と前記第２の検出視線方向の間のオフセットベクトルである第２の決定サブユニット６０３２と、
前記第１の損失と前記第２の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整サブユニット６０３３と、を含む。

選択可能に、図８に示すように、前記装置は、
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に対してそれぞれ正規化処理を行うための正規化処理ユニット６０４と、
具体的に、正規化処理後の前記第１の視線方向、正規化処理後の前記第２の視線方向、正規化処理後の前記第１の検出視線方向及び正規化処理後の前記第２の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするための前記トレーニングユニット６０３と、を更に含む。

選択可能に、図８に示すように、前記装置は、
前記第１の画像内の眼部位置を決定するための第２の決定ユニット６０５と、
前記眼部位置に基づいて、前記第１の画像に対して回転処理を行って、前記第１の画像における双眼位置を水平軸上で同様にするための回転処理ユニット６０６と、を更に含む。

選択可能に、図９に示すように、前記検出ユニット６０２は、
前記第１の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するＮフレームの画像の視線方向をそれぞれ検出し、Ｎが１以上の整数であるための検出サブユニット６０２１と、
前記隣接するＮフレームの画像の視線方向に基づいて、Ｎ番目のフレーム画像の視線方向を前記第１の検出視線方向として決定するための第３の決定サブユニット６０２２と、を含む。

選択可能に、前記第３の決定サブユニット６０２２は、具体的に、前記隣接するＮフレームの画像の視線方向の算術平均に基づいて、前記Ｎ番目のフレーム画像の視線方向を前記第１の検出視線方向として決定するために用いられる。

選択可能に、前記第１の決定ユニット６０１は、具体的に、カメラアレイから前記第１のカメラを決定し、前記瞳孔の第１の座標系における座標を決定するステップであって、前記第１の座標系が、前記第１のカメラに対応するステップと、前記カメラアレイの第２のカメラにより、前記瞳孔の第２の座標系における座標を決定するステップであって、前記第２の座標系が前記第２のカメラに対応するステップと、前記瞳孔の前記第１の座標系における座標及び前記瞳孔の前記第２の座標系における座標に基づいて、前記第１の視線方向を決定するステップと、を実行するために用いられる。

選択可能に、前記第１の決定ユニット６０１は、具体的に、前記瞳孔の前記第１の画像における座標を決定するステップと、前記瞳孔の前記第１の画像における座標、前記第１のカメラの焦点距離及び主点位置に基づいて、前記瞳孔の前記第１の座標系における座標を決定するステップと、を実行するために用いられる。

選択可能に、前記第１の決定ユニット６０１は、具体的に、前記第１の座標系、前記カメラアレイの各々のカメラの焦点距離及び主点位置に基づいて、前記第１の座標系と前記第２の座標系との関係を決定するステップと、前記第２の座標系と前記第１の座標系との関係に基づいて、前記瞳孔の前記第２の座標系における座標を決定するステップと、を実行するために用いられる。

各ユニットの実現及びその装置類実施例の技術的効果については、以上の説明又は図３〜図５に示す方法の実施例の対応記述を対応して参照してもよいことを説明する必要がある。

図１０を参照し、図１０は本願の実施例で提供された電子機器の構造模式図である。図１０に示すように、この電子機器は、プロセッサー１００１、メモリ１００２及び入力出力インタフェース１００３を含み、前記プロセッサー１００１、メモリ１００２及び入力出力インタフェース１００３はバスを介して相互に接続される。

入力出力インタフェース１００３は、データ及び／又は信号の入力、データ及び／又は信号の出力に用いられる。

メモリ１００２は、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、読み出し専用メモリ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＥＰＲＯＭ）又はコンパクトディスク読み出し専用メモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、ＣＤ−ＲＯＭ）を含むが、それらに限定されなく、このメモリ１００２は、関連コマンド及びデータを記憶するために用いられる。

プロセッサー１００１は、１つ又は複数の中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）であってもよく、プロセッサー１００１が１つのＣＰＵである場合に、このＣＰＵはシングルコアＣＰＵであってもよく、マルチコアＣＰＵであってもよい。

選択可能に、各操作の実現については、図３〜図５に示す方法の実施例の対応記述を対応して参照してもよい。又は、各操作の実現については、図６〜図９に示す実施例の対応記述を対応して参照してもよい。

例えば、一実施例では、プロセッサー１００１は、ステップ３０１とステップ３０２に示す方法を実行するために用いられ、又は、プロセッサー１００１は、更に第１の決定ユニット６０１、検出ユニット６０２及びトレーニングユニット６０３に実行される方法を実行するために用いられる。

図１１を参照し、図１１は本願の実施例で提供された視線追跡装置の構造模式図であり、この視線追跡装置は図１〜図５に示す対応の方法を実行するために用いられ、図１１に示すように、この視線追跡装置は、
ビデオストリームデータに含まれる第３の画像に対して顔検出を行うための顔検出ユニット１１０１と、
検出された前記第３の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するための第１の決定ユニット１１０２と、
前記第３の画像における前記眼部領域画像を切り取るための切り取りユニット１１０３と、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するための入力出力ユニット１１０４と、を含む。

選択可能に、図１２に示すように、この視線追跡装置は、
前記眼部領域画像の視線方向及び前記第３の画像の少なくとも１フレームの隣接する画像の視線方向に基づいて、前記第３の画像の視線方向を決定するための第２の決定ユニット１１０５を更に含む。

選択可能に、前記顔検出ユニット１１０１は、具体的に、トリガコマンドを受信した場合に、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うために用いられ、
又は、前記顔検出ユニット１１０１は、具体的に、車両作動中において、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うために用いられ、
又は、前記顔検出ユニット１１０１は、具体的に、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うために用いられる。

選択可能に、前記ビデオストリームデータは、車載カメラによる車両運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両運転領域内の運転者の視線方向であり、又は、前記ビデオストリームデータは車載カメラによる車両の非運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両の非運転領域内の車内人員の視線方向である。

選択可能に、図１２に示すように、前記装置は、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップと、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行を決定するステップと、を実行するために用いられる第３の決定ユニット１１０６、又は、
前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するための出力ユニット１１０７を更に含む。

選択可能に、図１２に示すように、前記出力ユニット１１０７は、前記運転者が脇見運転をしている場合に、警報通知情報を出力するために用いられる。

選択可能に、前記出力ユニット１１０７は、具体的に、前記運転者脇見運転の回数が基準回数に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニット１１０７は、具体的に、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニット１１０７は、具体的に、前記運転者の脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニット１１０７は、具体的に、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するために用いられる。

図１２に示すように、前記装置は、
前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を記憶するための記憶ユニット１１０８、
又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信するための送信ユニット１１０９を更に含む。

選択可能に、図１２に示すように、前記装置は、
第１のカメラ及び第１の画像における瞳孔に基づいて、第１の視線方向を決定し、前記第１のカメラが前記第１の画像を撮影するカメラであり、前記第１の画像が少なくとも眼部画像を含むための第４の決定ユニット１１１０と、
ニューラルネットワークにより前記第１の画像の視線方向を検出して、第１の検出視線方向を取得するための検出ユニット１１１１と、
前記第１の視線方向と前記第１の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニット１１１２と、を更に含む。

選択可能に、各ユニットの実現及びその装置類実施例の技術的効果については、以上の説明又は図１〜図５に示す方法の実施例の対応記述を対応して参照してもよいことを説明する必要がある。

第４の決定ユニット、検出ユニット及びトレーニングユニットの具体的な実施形態については、図６と図８に示す方法を参照してもよいことが理解可能であり、ここで一つずつ詳細に説明することを省略する。

図１３を参照し、図１３は本願の実施例で提供された電子機器の構造模式図である。図１３に示すように、この電子機器はプロセッサー１３０１、メモリ１３０２及び入力出力インタフェース１３０３を含み、前記プロセッサー１３０１、メモリ１３０２及び入力出力インタフェース１３０３はバスを介して相互に接続される。

入力出力インタフェース１３０３は、データ及び／又は信号の入力、データ及び／又は信号の出力に用いられる。

メモリ１３０２は、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ又はＣＤ−ＲＯＭを含むが、それらに限定されなく、このメモリ１３０２は、関連コマンド及びデータを記憶するために用いられる。

プロセッサー１３０１は１つ又は複数のＣＰＵであってもよく、プロセッサー１３０１が１つのＣＰＵである場合に、このＣＰＵはシングルコアＣＰＵであってもよく、マルチコアＣＰＵであってもよい。

選択可能に、各操作の実現については、図１〜図５に示す方法の実施例の対応記述を対応して参照してもよい。又は、各操作の実現については、図１１及び図１２に示す実施例の対応記述を対応して参照してもよい。

例えば、一実施例では、プロセッサー１３０１は、ステップ１０１〜ステップ１０４に示す方法を実行するために用いられ、又は、プロセッサー１３０１は、更に顔検出ユニット１１０１、第１の決定ユニット１１０２、切り取りユニット１１０３及び入力出力ユニット１１０４に実行される方法を実行するために用いられる。

各操作の実現については他の実施例を参照してもよいことが理解可能であり、ここで一つずつ詳細に説明することを省略する。

本願が提供するいくつかの実施例では、開示したシステム、装置及び方法は、他の形態で実現することができることを理解すべきである。例えば、このユニットの分割は、論理機能の分割に過ぎず、実際に実現する場合に別の形態で分割してもよく、例えば、複数のユニットまたはコンポーネントは組み合わせてもよいし、または別のシステムに統合してもよいし、または一部の特徴を省略もしくは実行しなくてもよい。図示または説明した相互の結合、または直接結合、または通信接続は、いくつかのインタフェース、装置またはユニットを介した間接結合または通信接続であり得、電気的、機械的または他の形態であり得る。

別々の部材としてユニットは物理的に分離されてもされなくてもよく、ユニットとして表示された部材は物理的ユニットであってもなくてもよい、即ち一箇所にあっても複数のネットワークユニットに分散してもよいし、本実施例の解決手段の目的を達成するには、実際の必要に応じて一部または全てのユニットを選択することができる。

前記実施例では、ソフトウェア、ハードウエア、ファームウエア又はそれらの任意の組合により全体的又は部分的に実現することができる。ソフトウェアにより実現する時に、コンピュータープログラム製品として全体的又は部分的に実現することができる。このコンピュータープログラム製品は１つ又は複数のコンピューターコマンドを含む。コンピューターにこのコンピュータープログラムコマンドをロードし、実行する時に、本願の実施例によるフロー又は機能が全体的又は部分的に発生する。このコンピューターは汎用コンピューター、専用コンピューター、コンピューターネットワーク又は他のプログラマブルデバイスであってよい。このコンピューターコマンドはコンピューター読取可能記憶媒体に記憶されてもよいし、このコンピューター読取可能記憶媒体により伝送されてもよい。このコンピューターコマンドは１つのウエブサイト、コンピューター、サーバ又はデータセンタから有線（例えば、同軸ケーブル、光ファイバ、デジタル加入者回線（ＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ、ＤＳＬ））又は無線（例えば、赤外線、無線、マイクロ波等）で別のウエブサイト、コンピューター、サーバ又はデータセンタに伝送可能である。このコンピューター読取可能記憶媒体は、コンピューターがアクセス可能ないかなる利用可能な媒体或いは１つ又は複数の利用可能な媒体を含んで統合されたサーバ、データセンタ等のデータ記憶装置であってよい。この利用可能な媒体はＲＯＭ、ＲＡＭ、又は磁気媒体であってよく、例えば、フロッピー（登録商標）ディスク、ハードディスク、磁気テープ、磁気ディスク又は光媒体、例えば、デジタル多用途ディスク（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ、ＤＶＤ）又は半導体媒体、例えば、半導体ディスク（ＳｏｌｉｄＳｔａｔｅＤｉｓｋ、ＳＳＤ）等が挙げられる。

第９の態様によれば、本願の実施例は、コマンドを含むコンピュータープログラム製品であって、コンピューター上で作動すると、コンピューターに本願の実施例で提供されたいずれか１つの方法を実行させるコンピュータープログラム製品を提供する。
例えば、本願は以下の項目を提供する。
（項目１）
第１のカメラ及び第１の画像における瞳孔に基づいて、第１の視線方向を決定するステップであって、前記第１のカメラが前記第１の画像を撮影するカメラであり、前記第１の画像が少なくとも眼部画像を含むステップと、
ニューラルネットワークにより前記第１の画像の視線方向を検出し、第１の検出視線方向を取得するステップと、
前記第１の視線方向と前記第１の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップと、を含むニューラルネットワークのトレーニング方法。
（項目２）
ニューラルネットワークにより前記第１の画像の視線方向を検出し、第１の検出視線方向を取得する前記ステップは、
前記ニューラルネットワークにより、前記第１の画像と第２の画像の視線方向をそれぞれ検出し、前記第１の検出視線方向と第２の検出視線方向をそれぞれ取得するステップであって、前記第２の画像が、前記第１の画像にノイズを付加して得られたものであるステップを含み、
前記第１の視線方向と前記第１の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップであって、前記第２の視線方向が前記第１の視線方向にノイズを付加して得られたものであるステップを含む項目１に記載の方法。
（項目３）
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第１の視線方向と前記第１の検出視線方向との第１の損失を決定するステップと、
第１のオフセットベクトルと第２のオフセットベクトルとの第２の損失を決定するステップであって、前記第１のオフセットベクトルが、前記第１の視線方向と前記第２の視線方向の間のオフセットベクトルであり、前記第２のオフセットベクトルが、前記第１の検出視線方向と前記第２の検出視線方向の間のオフセットベクトルであるステップと、
前記第１の損失と前記第２の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含む項目２に記載の方法。
（項目４）
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第１の視線方向と前記第１の検出視線方向との第３の損失、及び前記第２の視線方向と前記第２の検出視線方向との第４の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップを含む項目２に記載の方法。
（項目５）
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップの前に、
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に対してそれぞれ正規化処理を行うステップを含み、
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
正規化処理後の前記第１の視線方向、正規化処理後の前記第２の視線方向、正規化処理後の前記第１の検出視線方向及び正規化処理後の前記第２の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップを更に含む項目３又は４に記載の方法。
（項目６）
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に対してそれぞれ正規化処理を行う前記ステップの前に、
前記第１の画像における眼部位置を決定するステップと、
前記眼部位置に基づいて、前記第１の画像に対して回転処理を行って、前記第１の画像における双眼位置を水平軸上で同様にするステップと、を更に含む項目５に記載の方法。
（項目７）
ニューラルネットワークにより前記第１の画像の視線方向を検出し、第１の検出視線方向を取得する前記ステップは、
前記第１の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するＮフレームの画像の視線方向をそれぞれ検出し、Ｎが１以上の整数であるステップと、
前記隣接するＮフレームの画像の視線方向に基づいて、Ｎ番目のフレーム画像の視線方向を前記第１の検出視線方向として決定するステップと、を含む項目１〜６のいずれか一項に記載の方法。
（項目８）
前記隣接するＮフレームの画像の視線方向に基づいて、Ｎ番目のフレーム画像の視線方向を前記第１の検出視線方向として決定する前記ステップは、
前記隣接するＮフレームの画像の視線方向の算術平均に基づいて、前記Ｎ番目のフレーム画像の視線方向を前記第１の検出視線方向として決定するステップを含む項目７に記載の方法。
（項目９）
第１のカメラ及び第１の画像における瞳孔に基づいて第１の視線方向を決定する前記ステップは、
カメラアレイから前記第１のカメラを決定し、前記瞳孔の第１の座標系における座標を決定するステップであって、前記第１の座標系が、前記第１のカメラに対応するステップと、
前記カメラアレイの第２のカメラにより、前記瞳孔の第２の座標系における座標を決定するステップであって、前記第２の座標系が前記第２のカメラに対応するステップと、
前記瞳孔の前記第１の座標系における座標及び前記瞳孔の前記第２の座標系における座標に基づいて、前記第１の視線方向を決定するステップと、を含む項目１〜８のいずれか一項に記載の方法。
（項目１０）
前記瞳孔の第１の座標系における座標を決定する前記ステップは、
前記瞳孔の前記第１の画像における座標を決定するステップと、
前記瞳孔の前記第１の画像における座標、前記第１のカメラの焦点距離及び主点位置に基づいて、前記瞳孔の前記第１の座標系における座標を決定するステップと、を含む項目９に記載の方法。
（項目１１）
前記カメラアレイの第２のカメラにより前記瞳孔の第２の座標系における座標を決定する前記ステップは、
前記第１の座標系、前記カメラアレイの各カメラの焦点距離及び主点位置に基づいて、前記第１の座標系と前記第２の座標系との関係を決定するステップと、
前記第２の座標系と前記第１の座標系との関係に基づいて、前記瞳孔の前記第２の座標系における座標を決定するステップと、を含む項目９又は１０に記載の方法。
（項目１２）
ビデオストリームデータに含まれる第３の画像に対して顔検出を行うステップと、
検出された前記第３の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するステップと、
前記第３の画像における前記眼部領域画像を切り取るステップと、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するステップと、を含む視線追跡方法。
（項目１３）
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力する前記ステップの後に、
前記眼部領域画像の視線方向及び前記第３の画像の少なくとも１フレームの隣接する画像の視線方向に基づいて、前記第３の画像の視線方向を決定するステップを更に含む項目１２に記載の方法。
（項目１４）
ビデオストリームデータに含まれる第３の画像に対して顔検出を行う前記ステップは、
トリガコマンドを受信した場合に、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うステップ、
又は、車両作動中において、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うステップ、
又は、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うステップを含む項目１２又は１３に記載の方法。
（項目１５）
前記ビデオストリームデータは、車載カメラによる車両運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両運転領域内の運転者の視線方向であり、又は、前記ビデオストリームデータは、車載カメラによる車両の非運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両の非運転領域内の車内人員の視線方向である項目１４に記載の方法。
（項目１６）
前記眼部領域画像の視線方向を出力する前記ステップの後に、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップ、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行動を決定するステップ、又は前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するステップを更に含む項目１５に記載の方法。
（項目１７）
前記運転者が脇見運転をしている場合に、警報通知情報を出力するステップを更に含む項目１６に記載の方法。
（項目１８）
警報通知情報を出力する前記ステップは、
前記運転者脇見運転の回数が基準回数に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するステップを含む項目１７に記載の方法。
（項目１９）
前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を記憶するステップ、
又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信するステップを更に含む項目１７又は１８に記載の方法。
（項目２０）
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力する前記ステップの前に、項目１〜１１のいずれか一項に記載の方法を用いて前記ニューラルネットワークをトレーニングするステップを更に含む項目１２〜１９のいずれか一項に記載の方法。
（項目２１）
第１のカメラ及び第１の画像における瞳孔に基づいて、第１の視線方向を決定するための第１の決定ユニットであって、前記第１のカメラが前記第１の画像を撮影するカメラであり、前記第１の画像が少なくとも眼部画像を含む第１の決定ユニットと、
ニューラルネットワークにより前記第１の画像の視線方向を検出し、第１の検出視線方向を取得するための検出ユニットと、
前記第１の視線方向と前記第１の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニットと、を含むニューラルネットワークのトレーニング装置。
（項目２２）
前記検出ユニットは、具体的に、前記ニューラルネットワークにより、前記第１の画像と第２の画像の視線方向をそれぞれ検出し、前記第１の検出視線方向と第２の検出視線方向をそれぞれ取得するステップであって、前記第２の画像が、前記第１の画像にノイズを付加して得られたものであるために用いられ、
前記トレーニングユニットは、具体的に、前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングするために用いられ、前記第２の視線方向が前記第１の視線方向にノイズを付加して得られたものである項目２１に記載の装置。
（項目２３）
前記トレーニングユニットは、
前記第１の視線方向と前記第１の検出視線方向との第１の損失を決定するための第１の決定サブユニットと、
第１のオフセットベクトルと第２のオフセットベクトルとの第２の損失を決定するための第２の決定サブユニットであって、前記第１のオフセットベクトルが、前記第１の視線方向と前記第２の視線方向の間のオフセットベクトルであり、前記第２のオフセットベクトルが、前記第１の検出視線方向と前記第２の検出視線方向の間のオフセットベクトルである第２の決定サブユニットと、
前記第１の損失と前記第２の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整サブユニットと、を含む項目２２に記載の装置。
（項目２４）
前記トレーニングユニットは、具体的に、前記第１の視線方向と前記第１の検出視線方向との第３の損失、及び前記第２の視線方向と前記第２の検出視線方向との第４の損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整するために用いられる項目２２に記載の装置。
（項目２５）
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に対してそれぞれ正規化処理を行うための正規化処理ユニットと、
具体的に、正規化処理後の前記第１の視線方向、正規化処理後の前記第２の視線方向、正規化処理後の前記第１の検出視線方向及び正規化処理後の前記第２の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするための前記トレーニングユニットと、を更に含む項目２３又は２４に記載の装置。
（項目２６）
前記第１の画像における眼部位置を決定するための第２の決定ユニットと、
前記眼部位置に基づいて、前記第１の画像に対して回転処理を行って、前記第１の画像における双眼位置を水平軸上で同様にするための回転処理ユニットと、を更に含む項目２５に記載の装置。
（項目２７）
前記検出ユニットは、
前記第１の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するＮフレームの画像の視線方向をそれぞれ検出し、Ｎが１以上の整数であるための検出サブユニットと、
前記隣接するＮフレームの画像の視線方向に基づいて、Ｎ番目のフレーム画像の視線方向を前記第１の検出視線方向として決定するための第３の決定サブユニットと、を含む項目２１〜２６のいずれか一項に記載の装置。
（項目２８）
前記第３の決定サブユニットは、具体的に、前記隣接するＮフレームの画像の視線方向の算術平均に基づいて、前記Ｎ番目のフレーム画像の視線方向を前記第１の検出視線方向として決定するために用いられる項目２７に記載の装置。
（項目２９）
前記第１の決定ユニットは、具体的に、カメラアレイから前記第１のカメラを決定し、前記瞳孔の第１の座標系における座標を決定するステップであって、前記第１の座標系が、前記第１のカメラに対応するステップと、前記カメラアレイの第２のカメラにより、前記瞳孔の第２の座標系における座標を決定するステップであって、前記第２の座標系が前記第２のカメラに対応するステップと、前記瞳孔の前記第１の座標系における座標及び前記瞳孔の前記第２の座標系における座標に基づいて、前記第１の視線方向を決定するステップと、を実行するために用いられる項目２１〜２８に記載の装置。
（項目３０）
前記第１の決定ユニットは、具体的に、前記瞳孔の前記第１の画像における座標を決定するステップと、前記瞳孔の前記第１の画像における座標、前記第１のカメラの焦点距離及び主点位置に基づいて、前記瞳孔の前記第１の座標系における座標を決定するステップと、を実行するために用いられる項目２９に記載の装置。
（項目３１）
前記第１の決定ユニットは、具体的に、前記第１の座標系、前記カメラアレイの各カメラの焦点距離及び主点位置に基づいて、前記第１の座標系と前記第２の座標系との関係を決定するステップと、前記第２の座標系と前記第１の座標系との関係に基づいて、前記瞳孔の前記第２の座標系における座標を決定するステップと、を実行するために用いられる項目２９又は３０に記載の装置。
（項目３２）
ビデオストリームデータに含まれる第３の画像に対して顔検出を行うための顔検出ユニットと、
検出された前記第３の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するための第１の決定ユニットと、
前記第３の画像における前記眼部領域画像を切り取るための切り取りユニットと、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するための入力出力ユニットと、を含む視線追跡装置。
（項目３３）
前記眼部領域画像の視線方向及び前記第３の画像の少なくとも１フレームの隣接する画像の視線方向に基づいて、前記第３の画像の視線方向を決定するための第２の決定ユニットを更に含む項目３２に記載の装置。
（項目３４）
前記顔検出ユニットは、具体的に、トリガコマンドを受信した場合に、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うために用いられ、
又は、前記顔検出ユニットは、具体的に、車両作動中において、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うために用いられ、
又は、前記顔検出ユニットは、具体的に、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うために用いられる項目３２又は３３に記載の装置。
（項目３５）
前記ビデオストリームデータは、車載カメラによる車両運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両運転領域内の運転者の視線方向であり、又は、前記ビデオストリームデータは車載カメラによる車両の非運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両の非運転領域内の車内人員の視線方向である項目３４に記載の装置。
（項目３６）
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップと、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行動を決定するステップと、を実行するために用いられる第３の決定ユニット、又は、
前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するための出力ユニットを更に含む項目３５に記載の装置。
（項目３７）
前記出力ユニットは、前記運転者が脇見運転をしている場合に、警報通知情報を出力するために用いられる項目３６に記載の装置。
（項目３８）
前記出力ユニットは、具体的に、前記運転者脇見運転の回数が基準回数に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニットは、具体的に、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニットは、具体的に、前記運転者脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニットは、具体的に、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するために用いられる項目３７に記載の装置。
（項目３９）
前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を記憶するための記憶ユニット、
又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信するための送信ユニットを更に含む項目３７又は３８に記載の装置。
（項目４０）
第１のカメラ及び第１の画像における瞳孔に基づいて、第１の視線方向を決定するための第４の決定ユニットであって、前記第１のカメラが前記第１の画像を撮影するカメラであり、前記第１の画像が少なくとも眼部画像を含む第４の決定ユニットと、
ニューラルネットワークにより前記第１の画像の視線方向を検出し、第１の検出視線方向を取得するための検出ユニットと、
前記第１の視線方向と前記第１の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニットと、を更に含む項目３２〜３９のいずれか一項に記載の装置。
（項目４１）
プロセッサーと、プログラムコマンドを記憶するためのメモリとを含み、前記プロセッサーと前記メモリが回路を介して接続され、前記プログラムコマンドが前記プロセッサーにより実行されると、前記プロセッサーに項目１〜１１のいずれか一項に記載の方法を実行させる電子機器。
（項目４２）
プロセッサーと、プログラムコマンドを記憶するためのメモリとを含み、前記プロセッサーと前記メモリが回路を介して接続され、前記プログラムコマンドが前記プロセッサーにより実行されると、前記プロセッサーに項目１２〜２０のいずれか一項に記載の方法を実行させる電子機器。
（項目４３）
プログラムコマンドを含むコンピュータープログラムが記憶されているコンピューター読取可能記憶媒体であって、前記プログラムコマンドがプロセッサーにより実行されると、前記プロセッサーに項目１〜１１のいずれか一項に記載の方法を実行させ、及び／又は前記プロセッサーに項目１２〜２０のいずれか一項に記載の方法を実行させるコンピューター読取可能記憶媒体。

Claims

第１のカメラ及び第１の画像における瞳孔に基づいて、第１の視線方向を決定するステップであって、前記第１のカメラが前記第１の画像を撮影するカメラであり、前記第１の画像が少なくとも眼部画像を含むステップと、
ニューラルネットワークにより前記第１の画像の視線方向を検出し、第１の検出視線方向を取得するステップと、
前記第１の視線方向と前記第１の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップと、を含むニューラルネットワークのトレーニング方法。
ニューラルネットワークにより前記第１の画像の視線方向を検出し、第１の検出視線方向を取得する前記ステップは、
前記ニューラルネットワークにより、前記第１の画像と第２の画像の視線方向をそれぞれ検出し、前記第１の検出視線方向と第２の検出視線方向をそれぞれ取得するステップであって、前記第２の画像が、前記第１の画像にノイズを付加して得られたものであるステップを含み、
前記第１の視線方向と前記第１の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップであって、前記第２の視線方向が前記第１の視線方向にノイズを付加して得られたものであるステップを含む請求項１に記載の方法。
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第１の視線方向と前記第１の検出視線方向との第１の損失を決定するステップと、
第１のオフセットベクトルと第２のオフセットベクトルとの第２の損失を決定するステップであって、前記第１のオフセットベクトルが、前記第１の視線方向と前記第２の視線方向の間のオフセットベクトルであり、前記第２のオフセットベクトルが、前記第１の検出視線方向と前記第２の検出視線方向の間のオフセットベクトルであるステップと、
前記第１の損失と前記第２の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含む請求項２に記載の方法。
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第１の視線方向と前記第１の検出視線方向との第３の損失、及び前記第２の視線方向と前記第２の検出視線方向との第４の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップを含む請求項２に記載の方法。
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップの前に、
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に対してそれぞれ正規化処理を行うステップを含み、
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
正規化処理後の前記第１の視線方向、正規化処理後の前記第２の視線方向、正規化処理後の前記第１の検出視線方向及び正規化処理後の前記第２の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップを更に含む請求項３又は４に記載の方法。
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に対してそれぞれ正規化処理を行う前記ステップの前に、
前記第１の画像における眼部位置を決定するステップと、
前記眼部位置に基づいて、前記第１の画像に対して回転処理を行って、前記第１の画像における双眼位置を水平軸上で同様にするステップと、を更に含む請求項５に記載の方法。
ニューラルネットワークにより前記第１の画像の視線方向を検出し、第１の検出視線方向を取得する前記ステップは、
前記第１の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するＮフレームの画像の視線方向をそれぞれ検出し、Ｎが１以上の整数であるステップと、
前記隣接するＮフレームの画像の視線方向に基づいて、Ｎ番目のフレーム画像の視線方向を前記第１の検出視線方向として決定するステップと、を含む請求項１〜６のいずれか一項に記載の方法。
前記隣接するＮフレームの画像の視線方向に基づいて、Ｎ番目のフレーム画像の視線方向を前記第１の検出視線方向として決定する前記ステップは、
前記隣接するＮフレームの画像の視線方向の算術平均に基づいて、前記Ｎ番目のフレーム画像の視線方向を前記第１の検出視線方向として決定するステップを含む請求項７に記載の方法。
第１のカメラ及び第１の画像における瞳孔に基づいて第１の視線方向を決定する前記ステップは、
カメラアレイから前記第１のカメラを決定し、前記瞳孔の第１の座標系における座標を決定するステップであって、前記第１の座標系が、前記第１のカメラに対応するステップと、
前記カメラアレイの第２のカメラにより、前記瞳孔の第２の座標系における座標を決定するステップであって、前記第２の座標系が前記第２のカメラに対応するステップと、
前記瞳孔の前記第１の座標系における座標及び前記瞳孔の前記第２の座標系における座標に基づいて、前記第１の視線方向を決定するステップと、を含む請求項１〜８のいずれか一項に記載の方法。
前記瞳孔の第１の座標系における座標を決定する前記ステップは、
前記瞳孔の前記第１の画像における座標を決定するステップと、
前記瞳孔の前記第１の画像における座標、前記第１のカメラの焦点距離及び主点位置に基づいて、前記瞳孔の前記第１の座標系における座標を決定するステップと、を含む請求項９に記載の方法。
前記カメラアレイの第２のカメラにより前記瞳孔の第２の座標系における座標を決定する前記ステップは、
前記第１の座標系、前記カメラアレイの各カメラの焦点距離及び主点位置に基づいて、前記第１の座標系と前記第２の座標系との関係を決定するステップと、
前記第２の座標系と前記第１の座標系との関係に基づいて、前記瞳孔の前記第２の座標系における座標を決定するステップと、を含む請求項９又は１０に記載の方法。
ビデオストリームデータに含まれる第３の画像に対して顔検出を行うステップと、
検出された前記第３の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するステップと、
前記第３の画像における前記眼部領域画像を切り取るステップと、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するステップと、を含む視線追跡方法。
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力する前記ステップの後に、
前記眼部領域画像の視線方向及び前記第３の画像の少なくとも１フレームの隣接する画像の視線方向に基づいて、前記第３の画像の視線方向を決定するステップを更に含む請求項１２に記載の方法。
ビデオストリームデータに含まれる第３の画像に対して顔検出を行う前記ステップは、
トリガコマンドを受信した場合に、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うステップ、
又は、車両作動中において、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うステップ、
又は、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うステップを含む請求項１２又は１３に記載の方法。
前記ビデオストリームデータは、車載カメラによる車両運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両運転領域内の運転者の視線方向であり、又は、前記ビデオストリームデータは、車載カメラによる車両の非運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両の非運転領域内の車内人員の視線方向である請求項１４に記載の方法。
前記眼部領域画像の視線方向を出力する前記ステップの後に、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップ、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行動を決定するステップ、又は前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するステップを更に含む請求項１５に記載の方法。
前記運転者が脇見運転をしている場合に、警報通知情報を出力するステップを更に含む請求項１６に記載の方法。
警報通知情報を出力する前記ステップは、
前記運転者脇見運転の回数が基準回数に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するステップを含む請求項１７に記載の方法。
前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を記憶するステップ、
又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信するステップを更に含む請求項１７又は１８に記載の方法。
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力する前記ステップの前に、請求項１〜１１のいずれか一項に記載の方法を用いて前記ニューラルネットワークをトレーニングするステップを更に含む請求項１２〜１９のいずれか一項に記載の方法。
第１のカメラ及び第１の画像における瞳孔に基づいて、第１の視線方向を決定するための第１の決定ユニットであって、前記第１のカメラが前記第１の画像を撮影するカメラであり、前記第１の画像が少なくとも眼部画像を含む第１の決定ユニットと、
ニューラルネットワークにより前記第１の画像の視線方向を検出し、第１の検出視線方向を取得するための検出ユニットと、
前記第１の視線方向と前記第１の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニットと、を含むニューラルネットワークのトレーニング装置。
前記検出ユニットは、具体的に、前記ニューラルネットワークにより、前記第１の画像と第２の画像の視線方向をそれぞれ検出し、前記第１の検出視線方向と第２の検出視線方向をそれぞれ取得するステップであって、前記第２の画像が、前記第１の画像にノイズを付加して得られたものであるために用いられ、
前記トレーニングユニットは、具体的に、前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び第２の視線方向に基づいて、前記ニューラルネットワークをトレーニングするために用いられ、前記第２の視線方向が前記第１の視線方向にノイズを付加して得られたものである請求項２１に記載の装置。
前記トレーニングユニットは、
前記第１の視線方向と前記第１の検出視線方向との第１の損失を決定するための第１の決定サブユニットと、
第１のオフセットベクトルと第２のオフセットベクトルとの第２の損失を決定するための第２の決定サブユニットであって、前記第１のオフセットベクトルが、前記第１の視線方向と前記第２の視線方向の間のオフセットベクトルであり、前記第２のオフセットベクトルが、前記第１の検出視線方向と前記第２の検出視線方向の間のオフセットベクトルである第２の決定サブユニットと、
前記第１の損失と前記第２の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整サブユニットと、を含む請求項２２に記載の装置。
前記トレーニングユニットは、具体的に、前記第１の視線方向と前記第１の検出視線方向との第３の損失、及び前記第２の視線方向と前記第２の検出視線方向との第４の損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整するために用いられる請求項２２に記載の装置。
前記第１の視線方向、前記第１の検出視線方向、前記第２の検出視線方向及び前記第２の視線方向に対してそれぞれ正規化処理を行うための正規化処理ユニットと、
具体的に、正規化処理後の前記第１の視線方向、正規化処理後の前記第２の視線方向、正規化処理後の前記第１の検出視線方向及び正規化処理後の前記第２の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするための前記トレーニングユニットと、を更に含む請求項２３又は２４に記載の装置。
前記第１の画像における眼部位置を決定するための第２の決定ユニットと、
前記眼部位置に基づいて、前記第１の画像に対して回転処理を行って、前記第１の画像における双眼位置を水平軸上で同様にするための回転処理ユニットと、を更に含む請求項２５に記載の装置。
前記検出ユニットは、
前記第１の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するＮフレームの画像の視線方向をそれぞれ検出し、Ｎが１以上の整数であるための検出サブユニットと、
前記隣接するＮフレームの画像の視線方向に基づいて、Ｎ番目のフレーム画像の視線方向を前記第１の検出視線方向として決定するための第３の決定サブユニットと、を含む請求項２１〜２６のいずれか一項に記載の装置。
前記第３の決定サブユニットは、具体的に、前記隣接するＮフレームの画像の視線方向の算術平均に基づいて、前記Ｎ番目のフレーム画像の視線方向を前記第１の検出視線方向として決定するために用いられる請求項２７に記載の装置。
前記第１の決定ユニットは、具体的に、カメラアレイから前記第１のカメラを決定し、前記瞳孔の第１の座標系における座標を決定するステップであって、前記第１の座標系が、前記第１のカメラに対応するステップと、前記カメラアレイの第２のカメラにより、前記瞳孔の第２の座標系における座標を決定するステップであって、前記第２の座標系が前記第２のカメラに対応するステップと、前記瞳孔の前記第１の座標系における座標及び前記瞳孔の前記第２の座標系における座標に基づいて、前記第１の視線方向を決定するステップと、を実行するために用いられる請求項２１〜２８に記載の装置。
前記第１の決定ユニットは、具体的に、前記瞳孔の前記第１の画像における座標を決定するステップと、前記瞳孔の前記第１の画像における座標、前記第１のカメラの焦点距離及び主点位置に基づいて、前記瞳孔の前記第１の座標系における座標を決定するステップと、を実行するために用いられる請求項２９に記載の装置。
前記第１の決定ユニットは、具体的に、前記第１の座標系、前記カメラアレイの各カメラの焦点距離及び主点位置に基づいて、前記第１の座標系と前記第２の座標系との関係を決定するステップと、前記第２の座標系と前記第１の座標系との関係に基づいて、前記瞳孔の前記第２の座標系における座標を決定するステップと、を実行するために用いられる請求項２９又は３０に記載の装置。
ビデオストリームデータに含まれる第３の画像に対して顔検出を行うための顔検出ユニットと、
検出された前記第３の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するための第１の決定ユニットと、
前記第３の画像における前記眼部領域画像を切り取るための切り取りユニットと、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するための入力出力ユニットと、を含む視線追跡装置。
前記眼部領域画像の視線方向及び前記第３の画像の少なくとも１フレームの隣接する画像の視線方向に基づいて、前記第３の画像の視線方向を決定するための第２の決定ユニットを更に含む請求項３２に記載の装置。
前記顔検出ユニットは、具体的に、トリガコマンドを受信した場合に、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うために用いられ、
又は、前記顔検出ユニットは、具体的に、車両作動中において、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うために用いられ、
又は、前記顔検出ユニットは、具体的に、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第３の画像に対して顔検出を行うために用いられる請求項３２又は３３に記載の装置。
前記ビデオストリームデータは、車載カメラによる車両運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両運転領域内の運転者の視線方向であり、又は、前記ビデオストリームデータは車載カメラによる車両の非運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両の非運転領域内の車内人員の視線方向である請求項３４に記載の装置。
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップと、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行動を決定するステップと、を実行するために用いられる第３の決定ユニット、又は、
前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するための出力ユニットを更に含む請求項３５に記載の装置。
前記出力ユニットは、前記運転者が脇見運転をしている場合に、警報通知情報を出力するために用いられる請求項３６に記載の装置。
前記出力ユニットは、具体的に、前記運転者脇見運転の回数が基準回数に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニットは、具体的に、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニットは、具体的に、前記運転者脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニットは、具体的に、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するために用いられる請求項３７に記載の装置。
前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を記憶するための記憶ユニット、
又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信するための送信ユニットを更に含む請求項３７又は３８に記載の装置。
第１のカメラ及び第１の画像における瞳孔に基づいて、第１の視線方向を決定するための第４の決定ユニットであって、前記第１のカメラが前記第１の画像を撮影するカメラであり、前記第１の画像が少なくとも眼部画像を含む第４の決定ユニットと、
ニューラルネットワークにより前記第１の画像の視線方向を検出し、第１の検出視線方向を取得するための検出ユニットと、
前記第１の視線方向と前記第１の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニットと、を更に含む請求項３２〜３９のいずれか一項に記載の装置。
プロセッサーと、プログラムコマンドを記憶するためのメモリとを含み、前記プロセッサーと前記メモリが回路を介して接続され、前記プログラムコマンドが前記プロセッサーにより実行されると、前記プロセッサーに請求項１〜１１のいずれか一項に記載の方法を実行させる電子機器。
プロセッサーと、プログラムコマンドを記憶するためのメモリとを含み、前記プロセッサーと前記メモリが回路を介して接続され、前記プログラムコマンドが前記プロセッサーにより実行されると、前記プロセッサーに請求項１２〜２０のいずれか一項に記載の方法を実行させる電子機器。
プログラムコマンドを含むコンピュータープログラムが記憶されているコンピューター読取可能記憶媒体であって、前記プログラムコマンドがプロセッサーにより実行されると、前記プロセッサーに請求項１〜１１のいずれか一項に記載の方法を実行させ、及び／又は前記プロセッサーに請求項１２〜２０のいずれか一項に記載の方法を実行させるコンピューター読取可能記憶媒体。