JP2021531601A

JP2021531601A - ニューラルネットワーク訓練、視線検出方法及び装置並びに電子機器

Info

Publication number: JP2021531601A
Application number: JP2021524087A
Authority: JP
Inventors: 王▲飛▼; 黄▲詩▼▲堯▼; ▲錢▼晨
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2018-09-29
Filing date: 2019-06-28
Publication date: 2021-11-18
Also published as: CN110969061A; WO2020063000A1; US20210165993A1

Abstract

本願はニューラルネットワーク訓練方法、視線検出方法及び装置並びに電子機器を開示する。該ニューラルネットワーク訓練方法は、第１カメラ座標系での、第１画像における瞳孔基準点の第１座標を決定し、前記第１カメラ座標系での、前記第１画像における角膜基準点の第２座標を決定することであって、前記第１画像は少なくとも眼部画像を含む、ことと、前記第１座標及び前記第２座標に基づいて、前記第１画像の第１視線方向を決定することと、ニューラルネットワークにより、前記第１画像に対して視線方向検出を行い、第１検出視線方向を得ることと、前記第１視線方向及び前記第１検出視線方向に基づいて前記ニューラルネットワークを訓練することと、を含む。

Description

（関連出願の相互参照）
本願は、２０１８年０９月２９日に提出された出願番号２０１８１１１５５６４８．０の中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

本願は、コンピュータ技術分野に関し、特にニューラルネットワーク訓練方法及び装置、視線検出方法及び装置、電子機器並びにコンピュータ可読記憶媒体に関する。

視線検出は、運転者モニタリング及びセキュリティモニタリングなどの用途において重要な役割を果たしている。視線検出は、三次元空間における目の注視方向を検出する技術である。ヒューマンインタラクションにおいて、空間における目の三次元位置に対して位置決めを行い、三次元視線方向を参照することで、三次元空間における人の注視点の位置を得て機器に出力し、更にインタラクション処理を行う。

本願は、ニューラルネットワーク訓練の技術的解決手段及び視線検出の技術的解決手段を提供する。

第１態様によれば、本願の実施例は、ニューラルネットワーク訓練方法を提供する。該方法は、第１カメラ座標系での、第１画像における瞳孔基準点の第１座標を決定し、前記第１カメラ座標系での、前記第１画像における角膜基準点の第２座標を決定することであって、前記第１画像は少なくとも眼部画像を含む、ことと、前記第１座標及び前記第２座標に基づいて、前記第１画像の第１視線方向を決定することと、ニューラルネットワークにより、前記第１画像に対して視線方向検出を行い、第１検出視線方向を得ることと、前記第１視線方向及び前記第１検出視線方向に基づいて前記ニューラルネットワークを訓練することと、を含む。

第２態様によれば、本願の実施例は、視線検出方法を提供する。該方法は、ビデオストリームデータに含まれる第２画像に対して顔検出を行うことと、検出された前記第２画像における顔領域に対してキーポイント位置決めを行い、前記顔領域における眼部領域を決定することと、前記第２画像における前記眼部領域画像を切り取ることと、前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力することと、を含む。

第３態様によれば、本願の実施例は、ニューラルネットワーク訓練装置を提供する。該装置は、第１カメラ座標系での、第１画像における瞳孔基準点の第１座標を決定し、前記第１カメラ座標系での、前記第１画像における角膜基準点の第２座標を決定するように構成される第１決定ユニットであって、前記第１画像は少なくとも眼部画像を含む、第１決定ユニットと、前記第１座標及び前記第２座標に基づいて、前記第１画像の第１視線方向を決定するように構成される第２決定ユニットと、ニューラルネットワークにより、前記第１画像に対して視線方向検出を行い、第１検出視線方向を得るように構成される検出ユニットと、前記第１視線方向及び前記第１検出視線方向に基づいて前記ニューラルネットワークを訓練するように構成される訓練ユニットと、を備える。

第４態様によれば、本願の実施例は、視線検出装置を提供する。該装置は、ビデオストリームデータに含まれる第２画像に対して顔検出を行うように構成される顔検出ユニットと、検出された前記第２画像における顔領域に対してキーポイント位置決めを行い、前記顔領域における眼部領域を決定するように構成される第１決定ユニットと、前記第２画像における前記眼部領域画像を切り取るように構成される切取ユニットと、前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するように構成される入力出力ユニットと、を備える。

第５態様によれば、本願の実施例は、電子機器を更に提供する。該電子機器は、プロセッサとメモリと備え、前記メモリは、前記プロセッサに結合するように構成され、前記メモリは更に、プログラム命令を記憶するように構成され、前記プロセッサは、前記電子機器による上記第１態様の方法における機能の実行をサポートするように構成される。

第６態様によれば、本願の実施例は、電子機器を更に提供する。該電子機器は、プロセッサとメモリと備え、前記メモリは、前記プロセッサに結合するように構成され、前記メモリは更に、プログラム命令を記憶するように構成され、前記プロセッサは、前記電子機器による上記第１態様の方法における機能の実行をサポートするように構成される。

第７態様によれば、本願の実施例は、視線検出システムを更に提供する。前記視線検出システムは、ニューラルネットワーク訓練装置と視線検出装置とを備え、前記ニューラルネットワーク訓練装置は前記視線検出装置と通信して接続され、前記ニューラルネットワーク訓練装置は、ニューラルネットワークを訓練するように構成され、前記視線検出装置は、前記ニューラルネットワーク訓練装置により訓練されたニューラルネットワークを適用するように構成される。

第８態様によれば、本願の実施例は、コンピュータ可読記憶媒体を更に提供する。前記コンピュータ可読記憶媒体に命令が記憶されており、該命令がコンピュータで実行される場合、コンピュータに上記各態様に記載の方法を実行させる。

第９態様によれば、本願の実施例は、命令を含むコンピュータプログラム製品を提供する。該製品がコンピュータで実行される場合、コンピュータに上記各態様に記載の方法を実行させる。

本願の実施例による視線検出方法を示すフローチャートである。本願の実施例による顔キーポイントのシーンを示す概略図である。本願の実施例による眼部領域画像のシーンを示す概略図である。本願の実施例によるニューラルネットワーク訓練方法を示すフローチャートである。本願の実施例による第１座標決定方法を示すフローチャートである。本願の実施例による第２座標決定方法を示すフローチャートである。本願の実施例による第１画像を示す概略図である。本願の実施例による瞳孔基準点の決定を示す概略図である。本願の実施例による角膜基準点の決定を示す概略図である。本願の実施例によるニューラルネットワーク訓練方法のシーンを示す概略図である。本願の実施例によるニューラルネットワーク訓練装置の構造を示す概略図である。本願の実施例によるもう１つのニューラルネットワーク訓練装置の構造を示す概略図である。本願の実施例による第１決定ユニットの構造を示す概略図である。本願の実施例によるもう１つの第１決定ユニットの構造を示す概略図である。本願の実施例による電子機器の構造を示す概略図である。本願の実施例による視線検出装置の構造を示す概略図である。本願の実施例によるもう１つの視線検出装置の構造を示す概略図である。本願の実施例による電子機器の構造を示す概略図である。

本願の実施例又は背景技術における技術的解決手段をより明確に説明するために、以下、本願の実施例又は背景技術に必要な図面を説明する。

本願の目的、技術的解決手段及び利点をより明確にするために、以下、図面を参照しながら、本願を更に詳しく説明する。

本願の明細書、特許請求の範囲及び上記図面における用語「第１」、「第２」などは、異なる対象物を区別するためのものであり、特定の順番を記述するためのものではない。なお、用語「含む」、「有する」、およびこれらの任意の他の変形は、非排他的包含を対象とすべきことを意図されている。例えば、一連の工程又はユニットを含むプロセス、方法、システム、製品又は機器は、列挙した工程又はユニットに限定されず、幾つかの実施例において、列挙されていない工程又はユニットを更に含むか又は幾つかの実施例において、これらの工程、方法又は機器固有の他の工程又はユニットを更に含む。

本願の実施例による視線検出方法を示すフローチャートである図１を参照すると、該視線検出方法は、視線検出装置に適用可能である。該視線検出装置は、サーバと端末装置とを備えてもよい。該端末装置は、携帯電話、タブレット、デスクトップパソコン、パーソナルデジタルアシスタント、車載装置、運転者状態監視システム、テレビ、ゲーム機、娯楽装置、広告プッシュ装置などを含んでもよく、本願の実施例は、該視線検出装置の具体的な形態を一意的に限定するものではない。

図１に示すように、該視線検出方法は以下を含む。

１０１において、ビデオストリームデータに含まれる第２画像に対して顔検出を行う。

本願の実施例において、第２画像は、ビデオストリームデータにおける任意フレームの画像であってもよい。顔検出は、第１画像における顔が所在する位置を検出することができる。幾つかの実施例において、該視線検出装置は、顔検出を行う時、検出枠で囲まれて検出された顔画像を検出することができる。検出枠の形状は、例えば正方形、非正方形などであってもよく、本願は、これを限定するものではない。

幾つかの実施例において、該ビデオストリームデータは、視線検出装置により撮られたデータであってもよく、他の装置により撮られて該視線検出装置に送信されたデータであってもよい。本願の実施例は、該ビデオストリームデータを如何に得るかについて限定しない。

幾つかの実施例において、上記ビデオストリームデータは、車載カメラによる車両（例えば、自動車、トラック、ワゴン、トラクターなどの様々なタイプの車）の運転領域のビデオストリームであってもよい。つまり、ステップ１０４で出力された視線方向である上記眼部領域画像の視線方向は、上記車両の運転領域における運転者の視線方向である。該ビデオストリームデータは、車載カメラにより撮られたデータであり、該車載カメラは、視線検出装置に直接的に接続されてもよく、該視線検出装置に間接的に接続されてもよく、本願の実施例は、該車載カメラがどのような形態で存在するかについて限定しないことが理解されるべきである。

車両の運転領域のビデオストリームデータに含まれる第２画像に対して顔検出を行う時、視線検出装置は、顔検出をリアルタイムで行うことができる。また、所定の周波数又は所定の周期で顔検出を行うことおもできる。本願の実施例はこれを限定するものではない。しかしながら、視線検出装置の消費電力損失を更に避け、顔検出の効率を向上させるために、ビデオストリームデータに含まれる第２画像に対して顔検出を行うことは、トリガ命令を受信した場合、上記ビデオストリームデータに含まれる第２画像に対して顔検出を行うこと、又は、車両運転中に、上記ビデオストリームデータに含まれる第２画像に対して顔検出を行うこと、又は、車両の運転速度が基準速度に達した場合、上記ビデオストリームデータに含まれる第２画像に対して顔検出を行うことを含む。

本願の実施例において、該トリガ命令は、視線検出装置が受信した、ユーザから入力されたトリガ命令であってもよく、視線検出装置に接続される端末からのトリガ命令などであってもよく、本願の実施例は、該トリガ命令のソースを限定するものではない。

本願の実施例において、車両運転は、車両点火と理解されてもよい。つまり、視線検出装置は、車両が運転し始まったことを検出した時、取得したビデオストリームデータにおける任意のフレームの画像（第２画像を含む）について顔検出を行うことができる。

本願の実施例において、基準速度は、視線検出装置がビデオストリームデータに含まれる第２画像に対して顔検出を行うようになるために車両の運転速度がどのくらいに達する必要があるかを評価するためのものである。従って、該基準速度を具体的に限定しない。該基準速度は、ユーザにより設定されてもよく、視線検出装置に接続される車両運転速度測定用デバイスにより設定されてもよく、視線検出装置により設定されてもよい。本願の実施例はこれを限定するものではない。

１０２において、検出された上記第２画像における顔領域に対してキーポイント位置決めを行い、上記顔領域における眼部領域を決定する。

本願の実施例において、キーポイント位置決めを行う過程において、エッジ検出ロバート（ｒｏｂｅｒｔ）アルゴリズム、ソーベル（ｓｏｂｅｌ）アルゴリズムなどのようなアルゴリズムによりキーポイント位置決めを行うことができる。また、動的輪郭ヘビ（ｓｎａｋｅ）モデルなどのような関連モデルによりキーポイント位置決めを行うことができる。顔キーポイント検出のためのニューラルネットワークによりキーポイント検出出力を行うこともできる。更に、サードパーティアプリケーションにより顔キーポイント位置決めを行うこともできる。例えば、サードパーティツールキットｄｌｉｂにより顔キーポイント位置決めを行うことができる。

例を挙げると、ｄｌｉｂは、顔キーポイント位置決め効果が高いオープンソースツールキットであって、機械学習アルゴリズムを含むＣ＋＋オープンソースツールキットである。現在、ツールキットｄｌｉｂは、ロボット、組み込み装置、携帯電話及び大型高性能コンピューティング環境分野に広く適用されている。従って、該ツールキットを効果的に利用して顔キーポイント位置決めを行い、顔キーポイントを得る。幾つかの実施例において、該顔キーポイントは、６８個の顔キーポイントなどであってもよい。顔キーポイント位置決めにより位置決めを行う場合、各キーポイントがいずれも、画素点座標である座標を有するため、キーポイントの座標に基づいて眼部領域を決定することができる。又は、ニューラルネットワークにより顔キーポイント検出を行い、２１、１０６又は２４０個のキーポイントを検出する。

例えば、本願の実施例による顔キーポイントを示す概略図である図２ａから分かるように、顔キーポイントは、キーポイント０、キーポイント１……キーポイント６７という６８個キーポイントを含んでもよい。該６８個のキーポイントのうち、３６から４７が眼部領域であることを決定することができる。従って、図２ｂに示すように、キーポイント３６、キーポイント３９、キーポイント３７（又は３８）及びキーポイント４０（又は４１）に基づいて左眼領域を決定することができる。また、キーポイント４２と４５、キーポイント４３（又は４４）及びキーポイント４６（又は４７）に基づいて右眼領域を決定することができる。幾つかの実施例において、キーポイント３６と４５、及びキーポイント３７（又は３８／４３／４４）と４１（又は４０／４６／４７）に基づいて眼部領域を直接的に決定することもできる。

以上は、本願の実施例で提供される眼部領域決定の例である。具体的な実現において、他のキーポイントに基づいて眼部領域を決定することもできる。本願は、これを限定するものではない。

１０３において、上記第２画像における上記眼部領域画像を切り取る。

本願の実施例において、顔領域の眼部領域を決定した後、眼部領域画像を切り取ることができる。図２ｂを例として、図面に示した２つの矩形枠により眼部領域画像を切り取ることができる。

本願の実施例は、視線検出装置による眼部領域画像の切取方法を限定するものではなく、例えば、スクリーンショットソフトウェアにより切り取ることができるが、ペイントソフトウェアにより切り取ることもできる。

１０４において、上記眼部領域画像を予め訓練されたニューラルネットワークに入力し、上記眼部領域画像の視線方向を出力する。

本願の実施例において、ニューラルネットワーク訓練装置は、第１視線方向を自動的に取得することができるだけでなく、大量の該第１視線方向を正確に取得することもできる。これにより、ニューラルネットワークのために、大量のデータを正確かつ確実に提供することができ、訓練効率を向上させる。従って、視線方向予測の正確性を向上させることができる。

ここで、ニューラルネットワークは、深層ニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ：ＤＮＮ）又は畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ：ＣＮＮ）等を含み、本願の実施例は、該ニューラルネットワークの具体的な形態を限定するものではない。

本願の実施例において、該予め訓練されたニューラルネットワークは、視線検出装置により訓練されたニューラルネットワークであってもよく、ニューラルネットワーク訓練装置のような他の装置により訓練されてから、視線検出装置により該ニューラルネットワーク訓練装置から取得されたニューラルネットワークであってもよい。本願の実施例を実施し、予め訓練されたニューラルネットワークにより、ビデオストリームデータにおける任意のフレームの画像に対して視線検出を行い、視線検出の正確性を向上させることができる。また、ビデオストリームデータにおける任意のフレームの画像に対して視線検出を行うことで、視線検出装置が該視線を効果的に利用して他の操作を実行できるようになる。

幾つかの実施例において、該視線検出装置がゲーム機を含む場合、該視線検出装置は、該視線検出に基づいてゲームインタラクションを行うことで、ユーザの満足度を向上させることができる。また、該視線検出装置がテレビなどのような家電機器を含む場合、該視線検出装置は、視線検出に基づいてウェイクアップ、休眠又は他の制御などを行う。例えば、視線方向に基づいて、ユーザがテレビなどのような家電機器をオン又はオフにする必要があるかを判定することができる。本願の実施例は、これを限定するものではない。また、該視線検出装置が広告プッシュ装置を含む場合、該視線検出装置は、視線検出に基づいて広告プッシュを行うことができる。例えば、出力された視線方向に基づいて、ユーザにとって関心のある広告コンテンツを決定し、ユーザにとって関心のある広告を更にプッシュする。

以上は、本願の実施例で提供される視線検出装置が出力された視線方向に基づいて他の操作を実行する幾つかの例に過ぎず、具体的な実現において、他の例が存在することがあるため、上記例が本願の実施例を限定するものであると理解されるべきではない。

ビデオストリームデータに含まれる第２画像に対して視線検出を行う時、ニューラルネットワークから出力方向にジッタが依然として存在することがあるため、上記眼部領域画像を予め訓練されたニューラルネットワークに入力し、上記眼部領域画像の視線方向を出力した後、上記方法は、
上記眼部領域画像の視線方向及び上記第２画像の少なくとも１つの隣接フレーム画像の視線方向に基づいて、上記第２画像の視線方向を決定することを更に含む。

本願の実施例において、少なくとも１つの隣接フレーム画像は、第２画像に隣接する少なくとも１フレームの画像と理解されてもよい。例えば、第２画像の前のＭフレームの画像であってもよく、第２画像の後のＮフレームの画像であってもよい。該Ｍ及びＮはそれぞれ１以上の整数である。例えば、第２画像は、ビデオストリームデータにおける５フレーム目の画像である場合、該視線検出装置は、４フレーム目の視線方向及び４フレーム目の視線方向に基づいて、５フレーム目の視線方向を決定することができる。

幾つかの実施例において、眼部領域画像の視線方向と第２画像の少なくとも１つの隣接フレーム画像の視線方向の平均和を第２画像の視線方向である眼部領域画像の視線方向とすることができる。このような形態によれば、得られた視線方向が、ニューラルネットワークにジッタが発生した後に予測された視線方向であることを効果的に避け、視線方向予測の正確性を効果的に向上させる。

例えば、第２画像の視線方向が（ｇｘ，ｇｙ，ｇｚ）_ｎであり、且つ該第２画像がビデオストリームデータにおけるＮフレーム目の画像であり、前のＮ−１フレームの画像に対応する視線方向がそれぞれ（ｇｘ，ｇｙ，ｇｚ）_ｎ−１，（ｇｘ，ｇｙ，ｇｚ）_ｎ−２，…（ｇｘ，ｇｙ，ｇｚ）_１である場合、Ｎフレーム目の画像である第２画像の視線方向の演算方式は、式（１）に示すとおりである。

ただし、ｇａｚｅは、第２画像の視線方向であり、即ち、第２画像の三次元（３ｄｉｍｅｎｓｉｏｎｓ：３Ｄ）視線方向である。

幾つかの実施例において、上記Ｎフレーム目の画像に対応する視線方向と上記Ｎ−１フレーム目の画像に対応する視線方向の加重和に基づいて、上記Ｎフレーム目の画像に対応する視線方向を算出することもできる。

また、例えば、上記したパラメータを例とすると、Ｎフレーム目の画像に対応する視線方向の計算式は、式（２）に示すとおりである。

上記２つの式は例に過ぎず、本願の実施例を限定するものと理解されるべきではない。

本願の実施例を実行すると、ニューラルネットワークから出力された視線方向にジッタが存在するという状況を効果的に防止することができ、視線方向予測の正確性を効果的に向上させることができる。

従って、図１によれば、本願の実施例は、以下のように、ニューラルネットワークから出力視線方向の利用方法を更に提供する。

上記眼部領域画像の視線方向を出力した後、上記方法は、
上記眼部領域画像の視線方向に基づいて上記運転者の関心領域を決定することと、
上記運転者の関心領域に基づいて、上記運転者の運転行為を決定し、上記運転行為には上記運転者が注意力散漫運転を行っているかどうかが含まれることと、を更に含む。

本願の実施例において、視線検出装置は、出力視線方向に基づいて、運転者の注視方向を解析することができる。つまり、該運転者の関心があるおおまかな領域を得ることができる。これにより、該関心領域に基づいて、該運転者が注意深く運転しているかを判定することができる。例えば、一般的には、運転者が注意深く運転している時、前方を注視し、偶には左右を確認する。しかしながら、運転者の関心領域が前方ではないこと多いと、該運転者が注意力散漫運転を行っていると判定することができる。

幾つかの実施例において、視線検出装置が、運転者が注意力散漫運転を行っていると判定した場合、該視線検出装置は、早期警告リマインド情報を出力することができる。出力される早期警告リマインド情報の正確性を向上させ、運転者に過度の負担を与えるのを避けるために、上記早期警告リマインド情報を出力することは、
運転者の注意力散漫運転の回数が基準回数に達した場合、上記早期警告リマインド情報を出力すること、
又は、上記運転者の注意力散漫運転時間が基準時間に達した場合、上記早期警告リマインド情報を出力すること、
又は、上記運転者の注意力散漫運転時間が上記基準時間に達して且つ回数が上記基準回数に達した場合、上記早期警告リマインド情報を出力すること、
又は、上記運転者が注意力散漫運転を行っている場合、上記車両に接続される端末にリマインド情報を送信することを含んでもよい。

上記基準回数、基準時間は、視線検出装置がいつ早期警告リマインド情報を出力するかを判定するためのものであるため、本願の実施例は、上記基準回数及び基準時間を具体的に限定するものではない。

該視線検出装置が無線又は有線の形態で端末に接続されることで、該視線検出装置が端末にリマインド情報を送信し、運転者又は車両内の他の者の注意を喚起するようにする。ここで、該端末は具体的には運転者の端末であってもよく、車両内の他の者の端末であってもよく、本願の実施例は一意的に限定しない。

本願の実施例を実施すると、視線検出装置がビデオストリームデータにおける任意のフレームの画像の視線方向を複数回分析するか又は長時間分析することができ、運転者が注意力散漫運転を行っているかを判定する場合の正確性を更に向上させることができる。

幾つかの実施例において、上記運転者が注意力散漫運転を行っている場合、視線検出装置は、上記眼部領域画像及び上記眼部領域画像の前後の所定数のフレームの画像のうちの１つ又は複数を記憶することができる。又は、上記運転者が注意力散漫運転を行っている場合、上記眼部領域画像及び上記眼部領域画像の前後の所定数のフレームの画像のうちの１つ又は複数を上記車両に接続される端末に送信することができる。

本願の実施例において、該視線検出装置は、眼部領域画像を記憶することができ、眼部領域画像の前後の所定数のフレームの画像を記憶することもでき、また、眼部領域画像及び該眼部領域画像の前後の所定数のフレームの画像を同時に記憶することもできる。これにより、後続のユーザによる視線方向の照会に寄与する。なお、上記画像を端末に送信することで、ユーザは、視線方向照会を何時でも行うことができる。ユーザは、眼部領域画像及び眼部領域画像の前後の所定数のフレームの画像のうちの少なくとも１つを直ちに得ることができる。

本願の実施例におけるニューラルネットワークは、畳み込み層、非線形層、プーリング層などのネットワーク層を所定の形態で積層してなるものであってもよい。本願の実施例は、具体的なネットワーク構造を限定するものではない。ニューラルネットワーク構造を設定した後、マーキング情報を持つ正、負のサンプル画像に基づいて、設計されたニューラルネットワークについて教師あり方式で逆勾配伝搬を行う等の方法で、何千何万回の反復訓練を行うことができる。本願の実施例は、具体的な訓練方式を限定するものではない。以下、本願の幾つかの実施例におけるニューラルネットワークの訓練方法を説明する。

まず、本願の実施例における技術的用語を説明する。ワールド座標系は、即ち測定座標系であり、絶対的な座標系である。カメラ座標系にいていえば、カメラ座標系の原点は、カメラの光学中心であり、ｚ軸は、カメラ光軸である。ワールド座標系とカメラ座標系との関係の取得方法は、以下に示すとおりである。座標系原点及びｘ、ｙ、ｚ軸を含むワールド座標系を決定し、測定の方法により、ワールド座標系における任意の物体の座標系を得ることができる。例えば、測定により、座標系における一組の点の座標点を得てから、それぞれカメラにより該一組の点を撮影することで、該一組の点の該カメラにおける座標系を得る。カメラ座標系に対するワールド座標系の３＊３回転行列Ｒ，３＊１に対する並進ベクトルをＴとすれば、ワールド座標系とカメラ座標系との回転及び並進を得ることができる。上記は、ワールド座標系とカメラ座標系との関係の取得例に過ぎず、具体的な実現において、他の方式も存在する。従って、本願の実施例で提供される方法は制限と見なされるべきではない。

カメラ座標系についていえば、カメラ座標系の原点は、カメラの光学中心であり、ｚ軸は、カメラ光軸である。該カメラはウェブカメラと呼ばれてもよく、又は該カメラは具体的には、赤緑青（ｒｅｄｇｒｅｅｎｂｌｕｅ：ＲＧＢ）カメラ、赤外カメラ又は近赤外カメラなどであってもよいことが理解される。本願の実施例はこれを限定するものではない。本願の実施例において、該カメラ座標系は、ウェブカメラ座標系等と呼ばれてもよい。本願の実施例はその名称を限定するものではない。本願の実施例において、該カメラ座標系はそれぞれ、第１カメラ座標系及び第２カメラ座標系を含む。以下、第１カメラ座標系と第２カメラ座標系との関係を具体的に説明する。

第１カメラ座標系についていえば、本願の実施例において、該第１カメラ座標は、カメラアレイから決定された任意のカメラの座標系である。該カメラアレイは、ウェブカメラアレイ等と呼ばれてもよい。本願の実施例は、該カメラアレイの名称を限定するものではない。具体的には、該第１カメラ座標系は、第１カメラに対応する座標系であり、つまり、第１ウェブカメラに対応する座標系である。第２カメラ座標系についていえば、本願の実施例において、第２カメラ座標系は、第２カメラに対応する座標系であり、即ち、第２カメラの座標系である。第１カメラ座標系と第２カメラ座標系との関係の決定方法は以下に示すとおりである。カメラアレイから第１カメラを決定し、第１カメラ座標系を決定する。カメラアレイにおける各カメラの焦点距離及び主点位置を取得する。上記第１カメラ座標系、上記カメラアレイにおける各カメラの焦点距離及び主点位置に基づいて、上記第１カメラ座標系と上記第１カメラ座標系との関係を決定する。例えば、第１カメラ座標系を確立した後、従来の碁盤目キャリブレーション方法で、カメラアレイにおける各カメラの焦点距離及び主点位置を取得することで、該第１カメラ座標系に対する他のカメラ座標系（例えば、第２カメラ座標系）の回転及び並進を決定することができる。本願の実施例において、該カメラアレイには少なくとも第１カメラ及び第２カメラが含まれ、また、本願の実施例は、各カメラの位置及び向きを限定するものではない。例えば、該カメラアレイにおけるカメラが人の目視線範囲をカバーできるものであることを基準として、各カメラ同士の関係を設定する。

例えば、カメラアレイがｃ１、ｃ２、ｃ３、ｃ４、ｃ５、ｃ６、ｃ７、ｃ８、ｃ９、ｃ１０であることを例として、ｃ５（中央に配置されたカメラ）を第１カメラとし、第１カメラ座標系を確立し、従来の碁盤目キャリブレーション方法で、全てのカメラの焦点距離ｆ、主点位置（ｕ，ｖ）及び第１カメラに対する回転及び並進を決定する。各カメラの所在する座標系を１つのカメラ座標系と定義し、双眼カメラキャリブレーションにより、該第１カメラ座標系での、該第１カメラに対する他のカメラの位置及び向きを算出する。これにより、第１カメラ座標系と第２カメラ座標系との関係を決定することができる。第１カメラを決定した後、第２カメラは、該第１カメラ以外の他のカメラであってもよく、該カメラは、少なくとも２つを含んでもよいことが理解される。

以上は、例に過ぎず、具体的な実現において、張正友キャリブレーション法などのような他の方法により、基準カメラ座標系と他のカメラ座標系との関係を決定することもでき、本願は、これを限定するものではないことが理解される。本願の実施例におけるカメラは、赤外カメラ、又は他のタイプのカメラ等であってもよく、本願の実施例はこれを限定するものではないことが理解される。

本願の実施例によるニューラルネットワーク訓練方法を示すフローチャートである図３に示すように、該ニューラルネットワーク訓練方法は、視線検出装置に適用可能である。該視線検出装置は、サーバと端末装置とを備えてもよい。該端末装置は、携帯電話、タブレット、デスクトップパソコン、パーソナルデジタルアシスタントなどを含んでもよい。本願の実施例は、該視線検出装置の具体的な形態を一意的に限定するものではない。該ニューラルネットワークの訓練方法は、ニューラルネットワーク訓練装置にも適用可能であり、該ニューラルネットワーク訓練装置は、サーバと端末装置とを備えてもよいことが理解される。ここで、該ニューラルネットワーク訓練装置は、タイプが視線検出装置と同一である装置であってもよく、該ニューラルネットワーク訓練装置は、タイプが視線検出装置と異なる装置であってもよい。本願の実施例はこれを限定するものではない。

図３に示すように、該ニューラルネットワーク訓練方法は、以下を含む。

３０１において、少なくとも眼部画像を含んでいる第１カメラ座標系での、第１画像における瞳孔基準点の第１座標を決定し、上記第１カメラ座標系での、上記第１画像における角膜基準点の第２座標を決定する。

本願の実施例において、第１画像は、カメラにより撮られた眼を含む２Ｄ画像であり、且つ該第１画像は、ニューラルネットワークに入力されて該ニューラルネットワークを訓練するための画像である。具体的には、該第１画像の数は、少なくとも２つであり、該第１画像の具体的な数は、訓練程度によるものである。従って、本願の実施例は、該第１画像の数を限定するものではない。

本願の実施例において、第１画像を撮るカメラが第２カメラ（少なくとも２つのカメラを含む）である場合、第２カメラ座標系での瞳孔基準点の座標を決定した後、該第１カメラ座標系と第２カメラ座標系との関係に基づいて、該第１座標を決定することができる。具体的な実現形態は、図４に示すとおりである。

同様に、光源の角膜基準点における結像位置である反射点の第２カメラ座標系での座標を決定した後、該第１カメラ座標系と第２カメラ座標系との関係に基づいて、該第２座標を決定することもできる。具体的な実現形態は、図５に示すとおりである。

本願の実施例において、該角膜基準点は、角膜における任意の点であってもよい。幾つかの実施例において、該角膜基準点は、角膜中心又は縁点であってもよく、角膜上における他のキーポイントなどであってもよい。本願の実施例は、該角膜基準点の位置を一意的に限定するものではない。瞳孔基準点は、瞳孔における任意の点であってもよい。幾つかの実施例において、該瞳孔基準点は、瞳孔中心又は瞳孔縁点であってもよく、瞳孔における他のキーポイントなどであってもよい。本願の実施例は、該瞳孔基準点の位置を一意的に限定するものではない。

３０２において、上記第１座標及び上記第２座標に基づいて、上記第１画像の第１視線方向を決定する。本願の実施例において、第１座標及び第２座標を得てから、該２つの座標の連結線に基づいて第１視線方向を得ることができる。つまり、瞳孔基準点と角膜基準点との連結に基づいて、第１視線方向を決定し、該第１視線方向の正確性を向上させることもできる。

３０３において、ニューラルネットワークにより、上記第１画像に対して、視線方向検出を行い、第１検出視線方向を得る。該第１画像は、単に眼に関わる画像であってもよい。これにより、他の体部位を含むことによりニューラルネットワークによる視線方向検出に負担を与えてしまうことを避ける。図６ａは、本願の実施例による第１画像を示す概略図である。図面において、光源が角膜上に形成した反射点を更に示す。本願の実施例における第１画像は、片方の眼に対応する画像であってもよく、両眼に対応する画像であってもよい。本願の実施例はこれを限定するものではない。

幾つかの実施例において、本願の実施例は、第１画像の取得方法を更に提供する。ここで、該第１画像の取得方法は以下のとおりである。顔検出方法により、画像における顔の位置を取得する。ここで、該画像における眼の割合が所定の割合以上である。顔キーポイント位置決めにより、該画像における眼の位置を決定する。該画像をトリミングし、画像におけう眼の画像を得る。該画像における眼の画像は、第１画像である。

幾つかの実施例において、顔に一定の回転角度があるため、顔キーポイント位置決めにより、該画像における眼の位置を決定した後、双眼の目頭水平軸座標を等しくなるまで回転することもできる。これにより、双眼の目頭水平軸座標を等しくなるまで回転した後、回転された画像における眼を切り出し、第１画像を更に得る。

所定の割合は、画像における眼の占める割合を判定するために設けられたものである。該所定の割合の設定目的は、取得された画像をトリミングする必要があるかどうかを判定するためのものである。したがって、所定の割合は具体的にはユーザにより設定されてもよく、ニューラルネットワーク訓練装置により自動的に設定されてもよい。本願の実施例はこれを限定するものではない。例えば、上記画像がちょうど眼の画像である場合、該画像をニューラルネットワークに直接的に入力することができる。また、例えば、上記画像における眼の割合が十分の一である場合、第１画像を得るために画像に対してトリミングなどの操作を行う必要があることを表す。

視線方向の平滑性を更に向上させるために、ニューラルネットワークにより上記第１画像に対して視線方向検出を行い、第１検出視線方向を得ることは、上記第１画像がビデオ画像に属する場合、上記ニューラルネットワークにより、隣接するＮ個フレームの画像の視線方向をそれぞれ検出し、Ｎが１以上の整数であることと、上記隣接するＮ個フレームの画像の視線方向に基づいて、Ｎフレーム目の画像の視線方向が上記第１検出視線方向であると判定することと、を含む。

本願の実施例は、Ｎの具体的な値を限定するものではなく、該隣接Ｎフレームの画像は、Ｎフレーム目の画像の前のＮフレームの画像（Ｎフレーム目を含む）であってもよく、後のＮフレームの画像であってもよく、前後のＮフレームの画像であってもよい。本願の実施例はこれを限定するものではない。

幾つかの実施例において、隣接するＮフレームの視線方向の平均和に基づいて、Ｎフレーム目の画像の視線方向を決定することで、該視線方向を平滑化処理し、得られた第１検出視線方向を更に安定させることができる。

３０４において、上記第１視線方向及び上記第１検出視線方向に基づいて上記ニューラルネットワークを訓練する。

なお、ニューラルネットワークを訓練した後、該ニューラルネットワークを利用して第２画像の視線方向を検出することができる。具体的な検出形態は、図１に示した実現形態を参照されたい。ここで、詳細な説明を省略する。

なお、上記方法でニューラルネットワークを訓練し、ニューラルネットワークを得てから、該ニューラルネットワーク訓練装置は、直接的に該ニューラルネットワークを利用して視線方向を検出することができる。又は、該ニューラルネットワーク訓練装置は、該訓練されたニューラルネットワークを他の装置に送信してもよい。該他の装置は、該訓練されたニューラルネットワークを利用して視線方向を検出する。該ニューラルネットワーク訓練装置が具体的にどのような装置に送信するかについて、本願の実施例は限定しない。

幾つかの実施例において、第１視線方向及び上記第１検出視線方向に基づいて上記ニューラルネットワークを訓練することは、
上記第１視線方向及び上記第１検出視線方向の損失に基づいて、上記ニューラルネットワークのネットワークパラメータを調整することを含む。

幾つかの実施例において、上記第１視線方向及び上記第１検出視線方向に基づいて上記ニューラルネットワークを訓練する前に、上記方法は、
上記第１視線方向及び上記第１検出視線方向をそれぞれ正規化処理することを更に含み、
上記第１視線方向及び上記第１検出視線方向に基づいて上記ニューラルネットワークを訓練することは、
正規化処理された上記第１視線方向及び正規化処理された上記第１検出視線方向に基づいて上記ニューラルネットワークを訓練することを含む。

ここで、正規化処理された第１視線方向及び正規化処理された第１検出視線方向の損失に基づいて、ニューラルネットワークのネットワークパラメータを調整することもできる。具体的には、該ネットワークパラメータは、畳み込みカーネルサイズパラメータ、重みパラメータなどを含んでもよい。本願の実施例は、該ニューラルネットワークに具体的に含まれるネットワークパラメータを限定するものではない。

具体的には、第１視線方向が（ｘ１，ｙ１，ｚ１）であり、第１検出視線方向が（ｘ２，ｙ２，ｚ２）であるとすれば、正規化処理の形態は以下に示すとおりである。

ただし、

は、正規化処理された第１視線方向であり、

は、正規化処理された第１検出視線方向である。

損失関数の演算形態は以下に示すとおりである。

ただし、ｌｏｓｓは、正規化処理された第１視線方向及び正規化処理された第１検出視線方向の損失である。上記各アルファベット及びパラメータを表す形態は、例に過ぎず、本願の実施例を限定するものと理解されるべきではない。

本願の実施例において、第１視線方向及び第１検出視線方向を正規化処理することで、第１視線方向及び第１検出視線方向における長さによる影響を無くし、視線方向のみに注目することができる。

幾つかの実施例において、正規化処理された第１視線方向及び正規化処理された第１検出視線方向との余弦値に基づいて、第１視線方向及び該第１検出視線方向の損失を評価することもできる。具体的には、上記正規化処理された第１視線方向と正規化処理された第１検出視線方向との挟角の余弦値が小さいほど、上記第１視線方向及び上記第１検出視線方向の損失値が小さくなる。つまり、正規化処理された第１視線方向と正規化処理された第１検出視線方向との挟角が大きいほど、該２つのベクトルの間のユークリッド距離が大きくなり、損失値が大きくなる。該２つのベクトルが完全に重なり合う場合、損失値は、０である。

本願の実施例を実施することで、ニューラルネットワーク訓練装置は、第１視線方向を自動的に得ることができるだけでなく、大量の該第１視線方向を正確に得ることもできる。これにより、ニューラルネットワークの訓練のために、正確かつ確実な大量のデータを提供し、訓練効率を向上させ、視線方向検出の正確性を向上させることができる。

本願の実施例は、第１座標の決定方法を更に提供する。本願の実施例による第１座標の決定方法を示すフローチャートである図４を参照すると、該方法は、ニューラルネットワーク訓練装置に適用可能である。図４に示すように、該方法は以下を含む。

４０１において、カメラアレイから第２カメラを決定し、第２カメラ座標系での瞳孔基準点の座標を決定し、上記第２カメラ座標系が上記第２カメラに対応する座標系である。

本願の実施例において、第２カメラ座標系及び第２カメラに関する具体的な説明は、前記実施例を参照されたい。ここで、詳細な説明を省略する。

幾つかの実施例において、上記第２カメラ座標系での瞳孔基準点の座標を決定することは、
上記第１画像における上記瞳孔基準点の座標を決定することと、
上記第１画像における上記瞳孔基準点の座標、及び上記第２カメラの焦点距離及び主点位置に基づいて、上記第２カメラ座標系での上記瞳孔基準点の座標を決定することと、を含む。

例えば、瞳孔縁点の検出方法により、第１画像における瞳孔基準点の座標を検出することができる。例えば、撮られた眼の２Ｄ画像である第１画像に対して、眼の瞳孔縁点を検出するネットワークモデルにより、瞳孔縁を取り囲む点を直接的に抽出した後、該瞳孔縁を取り囲む点に基づいて、（ｍ，ｎ）のような瞳孔基準点位置の座標を算出することができる。ここで、算出された瞳孔基準点位置の座標（ｍ，ｎ）は、第１画像における瞳孔基準点の座標と理解されてもよい。該瞳孔基準点の画素座標系における座標と理解されてもよい。

該第１画像を撮るカメラである第２カメラの焦点距離がｆであり、主点位置が（ｕ，ｖ）であるとすれば、瞳孔基準点が該第２カメラの結像平面へ投影した点の、該第２カメラ座標系での座標は、（ｍ−ｕ，ｎ−ｖ，ｆ）であり、つまり、第２カメラ座標系での３Ｄ座標である。

第２カメラが少なくとも２つを含む場合、様々なカメラ（即ち、様々な第２カメラ）により撮られた第１画像に基づいて、該瞳孔基準点が各カメラの結像平面へ投影した点の、それぞれのカメラ座標系での座標を算出することが理解される。

４０２において、第１カメラ座標系と上記第２カメラ座標系との関係、及び上記第１カメラ座標系での上記瞳孔基準点の座標に基づいて、上記第１カメラ座標系での上記瞳孔基準点の第１座標を決定する。

本願の実施例において、第２カメラは、ウェブカメラアレイにおける任意のカメラであってもよく、幾つかの実施例において、該第２カメラが少なくとも２つのカメラを含むことが理解される。つまり、少なくとも２つのカメラにより撮影することで、２つの第１画像を得て、また瞳孔の少なくとも２つカメラのうちのいずれか１つの第２カメラ座標系での座標をそれぞれ得る（具体的には上記説明を参照されたい）。更に、それぞれの座標系における座標を第１カメラ座標系に統合する。こにより、瞳孔の第１カメラ座標系での座標及び第２カメラ座標系での座標をそれぞれ決定した後、カメラ、瞳孔基準点の投影点及び瞳孔基準点という３点が同じ直線にあるという特性を利用して、同一の座標系における座標を得る。瞳孔基準点（即ち、図６ｂにおける瞳孔基準点）の該第１カメラ座標系での座標は、図６ｂに示すように、これらの直線の共通の交点である。

幾つかの実現形態において、第１カメラ座標系は、基準カメラ座標又は参照カメラ座標と呼ばれてもよいため、本願の実施例は該名称を一意的に限定するものではないことが理解される。

本願の実施例を実施することで、第１カメラ座標系での瞳孔基準点の座標を正確に得て、第１視線方向決定のために確実な基礎を提供し、ニューラルネットワーク訓練の正確性を向上させることができる。

幾つかの実施例において、本願の実施例は、第２座標の決定方法を更に提供する。本願の実施例による第２座標の決定方法を示すフローチャートである図５を参照すると、該方法は、ニューラルネットワーク訓練装置に適用可能である。

図５に示すように、該方法は、以下を含む。

５０１において、第２カメラ座標系での光源の座標を決定する。

本願の実施例において、該光源は、赤外光源又は近赤外光源を含む。又は非赤外光源などを含む。本願の実施例は、光源の具体的な形態を限定するものではない。

本願の実施例において、上記光源は、少なくとも２つである。しかしながら、実際の適用において、実験により、２つの光源のみを用いると確実な結果を得ることができないことが発見された。その原因は、方程式により角膜基準点を求める場合、数が少なすぎて騒音による干渉を除去できないことである。もう１つの原因は、ある角度で、光源の角膜における反射光が撮られない可能性があることである。従って、本願の実施例において、上記赤外光源は少なくとも３つである。

幾つかの実施例において、第２カメラ座標系での光源の座標を決定することは、
ワールド座標系における上記光源の座標を決定することと、
上記ワールド座標系と上記第２カメラ座標系との関係に基づいて、上記第２カメラ座標系での上記光源の座標を決定することと、を含む。

ここで、ワールド座標系と第２カメラ座標系との関係の決定方法は、ワールド座標系とカメラ座標系との関係の決定方法を参照されたい。ここで、詳細な説明を省略する。

例えば、赤外光源が８つであり、それぞれＬ１からＬ８であり、ワールド座標系における座標が｛ａｉ，ｉ＝１から８｝であり、第２カメラ座標系での座標が｛ｂｉ，ｉ＝１から８｝であるとすれば、下記式が得られる。

ａｉ＝Ｒ × ｂｉ＋Ｔ（６）
ただし、Ｒ及びＴの取得方法は、前記実施例を参照されたい。

５０２において、上記第２カメラ座標系での、上記第１画像における角膜上の反射点の座標を決定し、上記反射点は、上記光源が角膜上に結像される位置である。

本願の実施例において、上記反射点は、上記光源が上記角膜上に形成した反射点である。例えば図６ａに示すように、図６ａに示す眼における輝点は、反射点である。ここで、反射点の数は、光源の数と同じであってもよい。

ここで、第２カメラ座標系での、第１画像における角膜上の反射点の座標を決定することは、
上記第１画像における上記反射点の座標を決定することと、
上記第１画像における上記反射点の座標、及び第２カメラの焦点距離及び主点位置に基づいて、第２カメラ座標系での上記反射点の座標を決定することと、を含む。

第２カメラ座標系での、角膜上の反射点の座標を決定するための具体的な実現形態は、第２カメラ座標系での瞳孔基準点の座標の実現形態を参照されたいことが理解される。

５０３において、上記第２カメラ座標系での上記光源の座標、上記第１カメラ座標系と上記第２カメラ座標系との関係、及び上記第２カメラ座標系での上記角膜上の反射点の座標に基づいて、上記第１カメラ座標系での上記角膜基準点の第２座標を決定する。

本願の実施例において、光源、反射点及び反射光線の結像平面における交点に基づいて、第２座標を決定することができる。つまり、入射光線、反射光線及び法線という３本の線が同一の平面にあることに基づいて決定する。具体的な形態は以下に示すとおりである。

上記第２カメラ座標系での上記光源の座標、上記第１カメラ座標系と上記第２カメラ座標系との関係、及び上記第２カメラ座標系での上記角膜上の反射点の座標に基づいて、上記第１カメラ座標系での上記角膜基準点の第２座標を決定することは、
上記第２カメラ座標系での上記赤外光源の座標、及び上記第２カメラ座標系での上記角膜上の反射点の座標に基づいて、上記第２カメラ座標系での、上記光源に対応するプルキンエスポットの座標を決定することと、
上記第２カメラ座標系での上記光源の座標、上記第２カメラ座標系での上記角膜上の反射点の座標、上記第２カメラ座標系での上記プルキンエスポットの座標、及び上記第２カメラ座標系と上記第１カメラ座標系との関係に基づいて、上記第２座標を決定することと、を含む。

該方法を明確に理解するために、本願の実施例による角膜基準点の決定を示す概略図である図６ｃを参照されたい。ここで、Ｌ１、Ｌ２……Ｌ８はそれぞれ８個の赤外光源を表す。

ここで、赤外光源Ｌ２が角膜により反射されてからカメラＣ２について結像することを例として、Ｌ２からの光線は、角膜外表面Ｇ２２で反射される（即ち、反射点）。反射光線は、Ｃ２により、プルキンエ（Ｐｕｒｋｉｎｊｅ）スポットＧ’２２で結像平面Ｐ２と交差する。反射の法則から分かるように、入射光線Ｇ２２Ｌ２、反射光線Ｇ’２２Ｃ２及び法線Ｇ２２Ａという３本の線が同一の平面にある。該平面をπ２２＝（Ｌ２ − Ｃ２） × （Ｇ′２２ −Ｃ２）とすれば、角膜が所在する球体の中心Ａは、π２２＊（Ａ − Ｃ２）＝０を満たす。ただし、π２２における１番目の２は、赤外光源の番号を表し、２番目の２は、カメラの番号を表す。以下、同様である。

同様に、球体中心Ａを含む別の３つのπ１１，π１２，π２１を列挙することができる。下記一連の方程式を解くことで、Ａのカメラ座標系での座標を得ることができる。

π１１＊（Ａ − Ｃ１）＝０（７）
π１２＊（Ａ − Ｃ２）＝０（８）
π２１＊（Ａ − Ｃ１）＝０（９）
π２２＊（Ａ − Ｃ２）＝０（１０）
上記から分かるように、原理の観点から言えば、上記４つの式のうちの３つを利用すると、角膜基準点Ａの基準カメラ座標系での座標を解くことができるが、実際のデータ収集において、２つの光源のみを利用すると、確実な結果を得ることができない。１つの原因は、方程式の数が少なすぎて騒音による干渉を除去することができないことである。もう１つの原因は、光源の角膜における反射が撮られないことである。該課題を解決するために、収集システムにおいて、計８個の光源が入れられる。大部分の頭部姿勢及び視角において、各膜基準点の座標を演算するための十分な反射輝点が角膜にあることを確保する。

本願の実施例を実施し、角膜基準点を決定する時、複数のスポットにより、過決定連立方程式を構築することで、演算プロセスのロバスト性及び正確性を向上させることができる。これにより、角膜基準点の基准カメラ座標系での座標を正確に得て、更に、ＤＮＮ訓練のために精度の高いデータを提供し、訓練効率を向上させる。

図１から図５に示した方法には、それぞれ偏りがあり、一実施例に詳しく説明されていない部分に対して、ほかの実施例に関する説明を参照することができることが理解される。

幾つかの実施例において、本願の実施例による視線検出方法のシーンを示す概略図である図７を参照すると。該方法は、以下を含む。

７０１において、複数の赤外カメラをキャリブレーションし、各カメラの焦点距離、主点位置、及びカメラ同士の相対的回転及び並進を得る。

７０２において、カメラ座標系での赤外光源の３Ｄ座標を算出する。

７０３において、カメラ座標系での眼（即ち、第１画像における眼）の瞳孔基準点の３Ｄ座標（即ち、第１座標）を算出する。

７０４において、カメラ座標系での、眼の角膜上に形成された赤外光源の反射点の３Ｄ座標を算出する。

７０５において、角膜モデルを利用して、カメラ座標系での角膜基準点の３Ｄ座標（即ち、第２座標）を算出する。

７０６において、角膜基準点と瞳孔基準点との連結線を利用して、眼視線の３Ｄベクトルの真値を得る。

７０７において、収集されたデータを利用して眼３Ｄ視線検出用ニューラルネットワークを訓練する。

本願の実施例を実施することで、大量の眼視線データ（即ち、第１検出視線方向）及び対応する視線方向の真値（即ち、第１視線方向）をより迅速、正確かつ確実に得ることができる。また、エンドツーエンドの方式で、眼３Ｄ視線検出用深層畳み込みニューラルネットワークを訓練し、眼３Ｄ視線検出というタスクの訓練を容易にし、訓練されたネットワークをより容易に直接適用することもできる。

本願の実施例によるニューラルネットワーク訓練装置の構造を示す概略図である図８ａに示すように、該ニューラルネットワーク訓練装置は、
少なくとも眼部画像を含んでいる第１カメラ座標系での、第１画像における瞳孔基準点の第１座標を決定し、前記第１カメラ座標系での、前記第１画像における角膜基準点の第２座標を決定するように構成される第１決定ユニット８０１と、
前記第１座標及び前記第２座標に基づいて、前記第１画像の第１視線方向を決定するように構成される第２決定ユニット８０２と、
ニューラルネットワークにより、前記第１画像に対して視線方向検出を行い、第１検出視線方向を得るように構成される検出ユニット８０３と、
前記第１視線方向及び前記第１検出視線方向に基づいて前記ニューラルネットワークを訓練するように構成される訓練ユニット８０４と、を備えてもよい。

幾つかの実施例において、上記訓練ユニット８０４は具体的には、上記第１視線方向及び上記第１検出視線方向の損失に基づいて、上記ニューラルネットワークのネットワークパラメータを調整するように構成される。

幾つかの実施例において、図８ｂに示すように、上記装置は、
上記第１視線方向及び上記第１検出視線方向をそれぞれ正規化処理するように正規化処理ユニットを更に備え、
上記訓練ユニットは具体的には、正規化処理された上記第１視線方向及び正規化処理された上記第１検出視線方向に基づいて、上記ニューラルネットワークを訓練するように構成される。

幾つかの実施例において、上記検出ユニット８０３は具体的には、上記第１画像がビデオ画像に属する場合、上記ニューラルネットワークにより、隣接するＮ個フレームの画像の視線方向をそれぞれ検出し、Ｎが１より大きい整数であり、上記隣接するＮ個フレームの画像の視線方向に基づいて、Ｎフレーム目の画像の視線方向が上記第１検出視線方向であると判定するように構成される。

幾つかの実施例において、上記検出ユニット８０３は具体的には、上記隣接するＮ個フレームの画像の視線方向の平均和に基づいて、上記Ｎフレーム目の画像の視線方向が上記第１検出視線方向であると判定するように構成される。

具体的には、図９ａに示すように、上記第１決定ユニット８０１は、
上記第２カメラ座標系での瞳孔基準点の座標を決定するように構成される第１決定サブユニット８０１１と、
上記第１カメラ座標系と上記第２カメラ座標系との関係、及び上記第１カメラ座標系での上記瞳孔基準点の座標に基づいて、上記第１カメラ座標系での上記瞳孔基準点の第１座標を決定するように構成される第２決定サブユニット８０１２と、を備える。

幾つかの実施例において、上記第１決定サブユニット８０１１は具体的には、上記第１画像における上記瞳孔基準点の座標を決定し、上記第１画像における上記瞳孔基準点の座標、及び上記第２カメラの焦点距離及び主点位置に基づいて、上記第２カメラ座標系での上記瞳孔基準点の座標を決定するように構成される。

幾つかの実施例において、図９ｂに示すように、上記第１決定ユニット８０１は、
上記第１画像における角膜における上記第２カメラ座標系での反射点の座標を決定し、上記反射点が、光源の上記角膜基準点における結像位置であるように構成される第３決定サブユニット８０１３と、
上記第１カメラ座標系と上記第２カメラ座標系との関係、及び上記第２カメラ座標系での上記角膜上の反射点の座標に基づいて、上記第１カメラ座標系での上記角膜基準点の第２座標を決定するように構成される第４決定サブユニット８０１４とを更に備える。

幾つかの実施例において、上記第４決定サブユニット８０１４は具体的には、上記第２カメラ座標系での上記光源の座標を決定し、上記第２カメラ座標系での上記光源の座標、上記第１カメラ座標系と上記第２カメラ座標系との関係、及び上記第２カメラ座標系での上記角膜上の反射点の座標に基づいて、上記第１カメラ座標系での上記角膜基準点の第２座標を決定するように構成される。

幾つかの実施例において、上記第４決定サブユニット８０１４は具体的には、上記第２カメラ座標系での、上記光源に対応するプルキンエスポットの座標を決定し、上記第２カメラ座標系での上記プルキンエスポットの座標、上記光源の上記第２カメラ座標系にける座標、上記第１カメラ座標系と上記第２カメラ座標系との関係、及び上記第２カメラ座標系での上記角膜上の反射点の座標に基づいて、上記第１カメラ座標系での上記角膜基準点の第２座標を決定するように構成される。

幾つかの実施例において、上記第３決定サブユニット８０１３は具体的には、上記第１画像における上記反射点の座標を決定し、上記第１画像における上記反射点の座標、上記第２カメラの焦点距離及び主点位置に基づいて、上記第２カメラ座標系での反射点の座標を決定するように構成される。

幾つかの実施例において、上記第４決定サブユニット８０１４は具体的には、ワールド座標系における上記光源の座標を決定し、上記ワールド座標系と上記第２カメラ座標系との関係に基づいて、上記第２カメラ座標系での上記光源の座標を決定するように構成される。

幾つかの実施例において、上記光源は赤外光源又は近赤外光源を含み、上記光源の数は少なくとも２つであり、上記反射点の数は、上記光源の数に対応する。

各ユニットの実現及び装置実施例の技術的効果について、上述又は図３から図５及び図７に示した方法実施例における説明を参照することができる。

本願の実施例による電子機器の構造を示す概略図である図１０を参照すると、該電子機器は、プロセッサ１００１、メモリ１００２及び入力出力インタフェース１００３を備え、前記プロセッサ１００１、メモリ１００２及び入力出力インタフェース１００３は、バスを介して相互接続される。

入力出力インタフェース１００３は、データ及び／又は信号を入力し、データ及び／又は信号を出力するように構成される。例えば、該入力出力インタフェース１００３は、電子機器によりニューラルネットワークを訓練した後、該訓練されたニューラルネットワークを他の電子機器に送信するように構成される。

メモリ１００２は、ランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ：ＲＡＭ）、読み出し専用メモリ（ｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ：ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄｏｎｌｙｍｅｍｏｒｙ：ＥＰＲＯＭ）、又はポータブル読み出し専用メモリ（ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ：ＣＤ−ＲＯＭ）を含むが、これらに限定されない。該メモリ１００２は、関連データ及びデータの記憶に用いられる。

プロセッサ１００１は、１つ又は複数の中央演算処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ：ＣＰＵ）であってもよい。プロセッサ１００１が１つのＣＰＵである場合、該ＣＰＵはシングルコアＣＰＵであってもよく、マルチコアＣＰＵであってもよい。

幾つかの実施例において、各操作の実現について、図３から図５及び図７に示した方法実施例における説明を参照することもできる。各操作の実現について、図８ａ、図８ｂ、図９ａ及び図９ｂに示した装置実施例における説明を参照することもできる。

例えば、一実施例において、プロセッサ１００１は、ステップ３０１、ステップ３０２、ステップ３０３及びステップ３０４に示す方法を実行するように構成される。また例えば、プロセッサ１００１は更に第１決定ユニット８０１、第２決定ユニット８０２、検出ユニット８０３及び訓練ユニット８０４により実行される方法を実行するように構成される。

各操作の実現は、他の実施例を参照することもできる。ここで、詳細な説明を省略する。

本願の実施例による視線検出装置の構造を示す概略図である図１１を参照すると、該視線検出装置は、図１から図７に示す方法を実行するように構成される。図１１に示すように、該視線検出装置は、
ビデオストリームデータに含まれる第２画像に対して顔検出を行うように構成される顔検出ユニット１１０１と
検出された上記第２画像における顔領域に対してキーポイント位置決めを行い、上記顔領域における眼部領域を決定するように構成される第１決定ユニット１１０２と、
上記第２画像における上記眼部領域画像を切り取るように構成される切取ユニット１１０３と、
上記眼部領域画像を予め訓練されたニューラルネットワークに入力し、上記眼部領域画像の視線方向を出力するように構成される入力出力ユニット１１０４と、を備える。

幾つかの実施例において、図１２に示すように、該視線検出装置は、
上記眼部領域画像の視線方向及び上記第２画像の少なくとも１つの隣接するフレームの画像の視線方向に基づいて、上記第２画像の視線方向を決定するように構成される第２決定ユニット１１０５を更に備える。

幾つかの実施例において、上記顔検出ユニット１１０１は具体的には、トリガ命令を受信した場合、上記ビデオストリームデータに含まれる第２画像に対して顔検出を行うように構成され、
又は、上記顔検出ユニット１１０１は具体的には、車両運転中に、上記ビデオストリームデータに含まれる第２画像に対して顔検出を行うように構成され、
又は、上記顔検出ユニット１１０１は具体的には、車両の運転速度が基準速度に達した場合、上記ビデオストリームデータに含まれる第２画像に対して顔検出を行うように構成される。

幾つかの実施例において、ビデオストリームデータは、車載カメラによる車両の運転領域のビデオストリームであり、
上記眼部領域画像の視線方向は、上記車両の運転領域における運転者の視線方向である。

幾つかの実施例において、図１２に示すように、上記装置は、
上記眼部領域画像の視線方向に基づいて、上記運転者の関心領域を決定し、上記運転者の関心領域に基づいて上記運転者の運転行為を決定するように構成される第３決定ユニット１１０６を更に備え、上記運転行為には上記運転者が注意力散漫運転を行っているかどうかが含まれる。

幾つかの実施例において、図１２に示すように、上記装置は、
上記運転者が注意力散漫運転を行っている場合、早期警告リマインド情報を出力するように構成される出力ユニット１１０７を更に備える。

幾つかの実施例において、上記出力ユニット１１０７は具体的には、運転者の注意力散漫運転の回数が基準回数に達した場合、上記早期警告リマインド情報を出力するように構成され、
又は、上記出力ユニット１１０７は具体的には、上記運転者の注意力散漫運転時間が基準時間に間に達した場合、上記早期警告リマインド情報を出力するように構成され、
又は、上記出力ユニット１１０７は具体的には、上記運転者の注意力散漫運転時間が上記基準時間に達して且つ回数が上記基準回数に達した場合、上記早期警告リマインド情報を出力するように構成され、
又は、上記出力ユニット１１０７は具体的には、上記運転者が注意力散漫運転を行っている場合、上記車両に接続される端末にリマインド情報を送信するように構成される。

図１２に示すように、上記装置は、
上記運転者が注意力散漫運転を行っている場合、上記眼部領域画像及び上記眼部領域画像の前後の所定数のフレームの画像のうちの１つ又は複数を記憶するように構成される記憶ユニット１１０８、
又は、上記運転者が注意力散漫運転を行っている場合、上記眼部領域画像及び上記眼部領域画像の前後の所定数のフレームの画像のうちの１つ又は複数を上記車両に接続される端末に送信するように構成される送信ユニット１１０９を更に備える。

幾つかの実施例において、図１２に示すように、上記装置は、
第１カメラ及び第１画像における瞳孔に基づいて第１視線方向を決定するように構成される第４決定ユニット１１１０であって、上記第１カメラが上記第１画像を撮るカメラであり、上記第１画像には少なくとも眼部画像が含まれる、第４決定ユニット１１１０と、
ニューラルネットワークにより、上記第１画像の視線方向を検出し、第１検出視線方向を得るように構成される検出ユニット１１１１と、
上記第１視線方向及び上記第１検出視線方向に基づいて、上記ニューラルネットワークを訓練するように構成される訓練ユニット１１１２と、を更に備える。

幾つかの実施例において、各ユニットの実現及び装置実施例の技術的効果は、上述又は図１から図７に示す方法実施例の説明を参照することもできることに留意されたい。

第４決定ユニット、検出ユニット及び訓練ユニットの具体的な実現形態について、図８ａ及び図８ｂに示す実現形態を参照することもできる。ここで、詳細な説明を省略する。

本願の実施例による電子機器の構造を示す概略図である図１３を参照されたい。図１３に示すように、該電子機器は、該電子機器は、プロセッサ１３０１、メモリ１３０２及び入力出力インタフェース１３０３を備え、前記プロセッサ１３０１、メモリ１３０２及び入力出力インタフェース１３０３は、バスを介して相互接続される。

入力出力インタフェース１３０３は、データ及び／又は信号を入力し、データ及び／又は信号を出力するように構成される。

メモリ１３０２は、ランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ：ＲＡＭ）、読み出し専用メモリ（ｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ：ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄｏｎｌｙｍｅｍｏｒｙ：ＥＰＲＯＭ）、又はポータブル読み出し専用メモリ（ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ：ＣＤ−ＲＯＭ）を含むが、これらに限定されない。該メモリ１３０２は、関連データ及びデータの記憶に用いられる。

プロセッサ１３０１は、１つ又は複数の中央演算処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ：ＣＰＵ）であってもよい。プロセッサ１３０１が１つのＣＰＵである場合、該ＣＰＵはシングルコアＣＰＵであってもよく、マルチコアＣＰＵであってもよい。

幾つかの実施例において、各操作の実現について、図１から図７に示した方法実施例における説明を参照することもできる。又は、各操作の実現について、図１１及び図１２に示した実施例における説明を参照することもできる。

例えば、一実施例において、プロセッサ１３０１は、ステップ１０１からステップ１０４に示す方法を実行するように構成される。また例えば、プロセッサ１３０１は更に顔検出ユニット１１０１、第１決定ユニット１１０２、切取ユニット１１０３及び入力出力ユニット１１０４により実行される方法を実行するように構成される。各操作の実現は、他の実施例を参照することもできる。ここで、詳細な説明を省略する。

本発明で提供する幾つかの実施例で開示したシステム、装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよく、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよく、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。

分離部材として説明した該ユニットは、物理的に別個のものであってもよく、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよく、そうでなくてもよい。即ち、同一の位置に位置してもよく、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。

上記実施例方法における全て又は一部のプロセスを実現させる時、コンピュータプログラム命令に基づいて関連ハードウェアを利用することで実行することができ、該プログラムはコンピュータ可読記憶媒体に記憶され、該プログラムが実行される時、上記各方法実施例のようなプロセスを含んでもよいことは、当業者であれば理解されるべきである。前記記憶媒体は、ＲＯＭ、ランダムアクセスメモリＲＡＭ、磁気ディスク又は光ディスクなどのような様々な、プログラムコードを記憶できる媒体を含む。

第９態様によれば、本願の実施例は、命令を含むコンピュータプログラム製品を提供する。該製品がコンピュータで実行される場合、コンピュータに上記各態様に記載の方法を実行させる。
例えば、本願は以下の項目を提供する。
（項目１）
ニューラルネットワーク訓練方法であって、
第１カメラ座標系での、第１画像における瞳孔基準点の第１座標を決定し、前記第１カメラ座標系での、前記第１画像における角膜基準点の第２座標を決定することであって、前記第１画像は少なくとも眼部画像を含む、ことと、
前記第１座標及び前記第２座標に基づいて、前記第１画像の第１視線方向を決定することと、
ニューラルネットワークにより、前記第１画像に対して視線方向検出を行い、第１検出視線方向を得ることと、
前記第１視線方向及び前記第１検出視線方向に基づいて前記ニューラルネットワークを訓練することと、を含む、前記方法。
（項目２）
前記第１視線方向及び前記第１検出視線方向に基づいて前記ニューラルネットワークを訓練することは、
前記第１視線方向及び前記第１検出視線方向の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整することを含むことを特徴とする
項目１に記載の方法。
（項目３）
前記第１視線方向及び前記第１検出視線方向に基づいて前記ニューラルネットワークを訓練する前に、前記方法は、
前記第１視線方向及び前記第１検出視線方向をそれぞれ正規化処理することと、
正規化処理された前記第１視線方向及び正規化処理された前記第１検出視線方向に基づいて、前記ニューラルネットワークを訓練することを更に含むことを特徴とする
項目１又は２に記載の方法。
（項目４）
ニューラルネットワークにより、前記第１画像に対して視線方向検出を行い、第１検出視線方向を得ることは、
前記第１画像がビデオ画像に属する場合、前記ニューラルネットワークにより、隣接するＮ個フレームの画像の視線方向をそれぞれ検出することであって、Ｎが１より大きい整数であることと、
前記隣接するＮ個フレームの画像の視線方向に基づいて、Ｎフレーム目の画像の視線方向が前記第１検出視線方向であると判定することと、を含むことを特徴とする
項目１から３のうちいずれか一項に記載の方法。
（項目５）
前記隣接するＮ個フレームの画像の視線方向に基づいて、Ｎフレーム目の画像の視線方向が前記第１検出視線方向であると判定することは、
前記隣接するＮ個フレームの画像の視線方向の平均和に基づいて、前記Ｎフレーム目の画像の視線方向が前記第１検出視線方向であると判定することを含むことを特徴とする
項目４に記載の方法。
（項目６）
第１カメラ座標系での、第１画像における瞳孔基準点の第１座標を決定することは、
第２カメラ座標系での前記瞳孔基準点の座標を決定することと、
前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第１カメラ座標系での前記瞳孔基準点の座標に基づいて、前記第１カメラ座標系での前記瞳孔基準点の第１座標を決定することと、を含むことを特徴とする
項目１から５のうちいずれか一項に記載の方法。
（項目７）
第２カメラ座標系での前記瞳孔基準点の座標を決定することは、
前記瞳孔基準点の前記第１画像における座標を決定することと、
前記瞳孔基準点の前記第１画像における座標、及び前記第２カメラの焦点距離及び主点位置に基づいて、前記第２カメラ座標系での前記瞳孔基準点の座標を決定することと、を含むことを特徴とする
項目６に記載の方法。
（項目８）
前記第１カメラ座標系での、前記第１画像における角膜基準点の第２座標を決定することは、
前記第２カメラ座標系での、前記第１画像における角膜上の反射点の座標を決定することであって、前記反射点は、光源が前記角膜上に結像される位置である、ことと、
前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第２カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第１カメラ座標系での前記角膜基準点の第２座標を決定することと、を含むことを特徴とする
項目１から７のうちいずれか一項に記載の方法。
（項目９）
前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第２カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第１カメラ座標系での前記角膜基準点の第２座標を決定することは、
前記第２カメラ座標系での前記光源の座標を決定することと、
前記第２カメラ座標系での前記光源の座標、前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第２カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第１カメラ座標系での前記角膜基準点の第２座標を決定することと、を含むことを特徴とする
項目８に記載の方法。
（項目１０）
前記第２カメラ座標系での前記光源の座標、前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第２カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第１カメラ座標系での前記角膜基準点の第２座標を決定することは、
前記第２カメラ座標系での、前記光源に対応するプルキンエスポットの座標を決定することと、
前記第２カメラ座標系での前記プルキンエスポットの座標、前記第２カメラ座標系での前記光源の座標、前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第２カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第１カメラ座標系での前記角膜基準点の第２座標を決定することと、を含むことを特徴とする
項目９に記載の方法。
（項目１１）
前記第２カメラ座標系での、前記第１画像における角膜上の反射点の座標を決定することは、
前記第１画像における前記反射点の座標を決定することと、
前記第１画像における前記反射点の座標、前記第２カメラの焦点距離及び主点位置に基づいて、前記第二カメラ座標系での前記反射点の座標を決定することと、を含むことを特徴とする
項目８から１０のうちいずれか一項に記載の方法。
（項目１２）
前記第２カメラ座標系での前記光源の座標を決定することは、
ワールド座標系での前記光源の座標を決定することと、
前記ワールド座標系と前記第２カメラ座標系との関係に基づいて、前記第２カメラ座標系での前記光源の座標を決定することと、を含むことを特徴とする
項目９から１１のうちいずれか一項に記載の方法。
（項目１３）
前記光源は赤外光源又は近赤外光源を含み、前記光源の数は少なくとも２つであり、前記反射点の数は、前記光源の数に対応することを特徴とする
項目８から１２のうちいずれか一項に記載の方法。
（項目１４）
視線検出方法であって、
ビデオストリームデータに含まれる第２画像に対して顔検出を行うことと、
検出された前記第２画像における顔領域に対してキーポイント位置決めを行い、前記顔領域における眼部領域を決定することと、
前記第２画像における前記眼部領域画像を切り取ることと、
前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力することと、を含む、前記方法。
（項目１５）
前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力した後、前記方法は、
前記眼部領域画像の視線方向及び前記第２画像の少なくとも１つの隣接するフレームの画像の視線方向に基づいて、前記第２画像の視線方向を決定することを更に含むことを特徴とする
項目１４に記載の方法。
（項目１６）
ビデオストリームデータに含まれる第２画像に対して顔検出を行うことは、
トリガ命令を受信した場合、前記ビデオストリームデータに含まれる第２画像に対して顔検出を行うこと、
又は、車両運転中に、前記ビデオストリームデータに含まれる第２画像に対して顔検出を行うこと、
又は、車両の運転速度が基準速度に達した場合、前記ビデオストリームデータに含まれる第２画像に対して顔検出を行うことを含むことを特徴とする
項目１４又は１５に記載の方法。
（項目１７）
前記ビデオストリームデータは、車載カメラによる車両の運転領域のビデオストリームであり、
前記眼部領域画像の視線方向は、前記車両の運転領域における運転者の視線方向であることを特徴とする
項目１６に記載の方法。
（項目１８）
前記眼部領域画像の視線方向を出力した後、前記方法は、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定することと、
前記運転者の関心領域に基づいて前記運転者の運転行為を決定することであって、前記運転行為には前記運転者が注意力散漫運転を行っているかどうかが含まれる、ことと、を更に含むことを特徴とする
項目１７に記載の方法。
（項目１９）
前記方法は、
前記運転者が注意力散漫運転を行っている場合、早期警告リマインド情報を出力することを更に含むことを特徴とする
項目１８に記載の方法。
（項目２０）
前記早期警告リマインド情報を出力することは、
前記運転者の注意力散漫運転の回数が基準回数に達した場合、前記早期警告リマインド情報を出力すること、
又は、前記運転者の注意力散漫運転時間が前記基準時間に達した場合、前記早期警告リマインド情報を出力すること、
又は、前記運転者の注意力散漫運転時間が前記基準時間に達して且つ回数が前記基準回数に達した場合、前記早期警告リマインド情報を出力すること、
又は、前記運転者が注意力散漫運転を行っている場合、前記車両に接続される端末にリマインド情報を送信することを含むことを特徴とする
項目１９に記載の方法。
（項目２１）
前記方法は、
前記運転者が注意力散漫運転を行っている場合、前記眼部領域画像及び前記眼部領域画像の前後の所定数のフレームの画像のうちの１つ又は複数を記憶すること、
又は、前記運転者が注意力散漫運転を行っている場合、前記眼部領域画像及び前記眼部領域画像の前後の所定数のフレームの画像のうちの１つ又は複数を前記車両に接続される端末に送信することを更に含むことを特徴とする
項目１９又は２０に記載の方法。
（項目２２）
前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力する前に、前記方法は、項目１から１３のうちいずれか一項に記載の方法で前記ニューラルネットワークを訓練することを更に含むことを特徴とする
項目１４から２１のうちいずれか一項に記載の方法。
（項目２３）
ニューラルネットワーク訓練装置であって、
第１カメラ座標系での、第１画像における瞳孔基準点の第１座標を決定し、前記第１カメラ座標系での、前記第１画像における角膜基準点の第２座標を決定するように構成される第１決定ユニットであって、前記第１画像は少なくとも眼部画像を含む、第１決定ユニットと、
前記第１座標及び前記第２座標に基づいて、前記第１画像の第１視線方向を決定するように構成される第２決定ユニットと、
ニューラルネットワークにより、前記第１画像に対して視線方向検出を行い、第１検出視線方向を得るように構成される検出ユニットと、
前記第１視線方向及び前記第１検出視線方向に基づいて前記ニューラルネットワークを訓練するように構成される訓練ユニットと、を備える、前記装置。
（項目２４）
前記訓練ユニットは具体的には、前記第１視線方向及び前記第１検出視線方向の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するように構成されることを特徴とする
項目２３に記載の装置。
（項目２５）
前記装置は、
前記第１視線方向及び前記第１検出視線方向をそれぞれ正規化処理するように正規化処理ユニットを更に備え、
前記訓練ユニットは具体的には、正規化処理された前記第１視線方向及び正規化処理された前記第１検出視線方向に基づいて、前記ニューラルネットワークを訓練するように構成されることを特徴とする
項目２３又は２４に記載の装置。
（項目２６）
前記検出ユニットは具体的には、前記第１画像がビデオ画像に属する場合、前記ニューラルネットワークにより、隣接するＮ個フレームの画像の視線方向をそれぞれ検出し、Ｎが１より大きい整数であり、
前記隣接するＮ個フレームの画像の視線方向に基づいて、Ｎフレーム目の画像の視線方向が前記第１検出視線方向であると判定するように構成されることを特徴とする
項目２３から２５のうちいずれか一項に記載の装置。
（項目２７）
前記検出ユニットは具体的には、前記隣接するＮ個フレームの画像の視線方向の平均和に基づいて、前記Ｎフレーム目の画像の視線方向が前記第１検出視線方向であると判定するように構成されることを特徴とする
項目２６に記載の装置。
（項目２８）
前記第１決定ユニットは、
第２カメラ座標系での前記瞳孔基準点の座標を決定するように構成される第１決定サブユニットと、
前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第１カメラ座標系での前記瞳孔基準点の座標に基づいて、前記第１カメラ座標系での前記瞳孔基準点の第１座標を決定するように構成される第２決定サブユニットと、を備えることを特徴とする
項目２５から２７のうちいずれか一項に記載の装置。
（項目２９）
前記第１決定サブユニットは具体的には、前記瞳孔基準点の前記第１画像における座標を決定し、前記瞳孔基準点の前記第１画像における座標、及び前記第２カメラの焦点距離及び主点位置に基づいて、前記第２カメラ座標系での前記瞳孔基準点の座標を決定するように構成されることを特徴とする
項目２８に記載の装置。
（項目３０）
前記第１決定ユニットは、
前記第２カメラ座標系での、前記第１画像における角膜上の反射点の座標を決定するように構成される第３決定サブユニットであって、前記反射点は、光源が前記角膜上に結像される位置である、第３決定サブユニットと、
前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第２カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第１カメラ座標系での前記角膜基準点の第２座標を決定するように構成される第４決定サブユニットと、を備えることを特徴とする
項目２５から２９のうちいずれか一項に記載の装置。
（項目３１）
前記第４決定サブユニットは具体的には、前記第２カメラ座標系での前記光源の座標を決定し、前記第２カメラ座標系での前記光源の座標、前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第２カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第１カメラ座標系での前記角膜基準点の第２座標を決定するように構成されることを特徴とする
項目３０に記載の装置。
（項目３２）
前記第４決定サブユニットは具体的には、前記第２カメラ座標系での、前記光源に対応するプルキンエスポットの座標を決定し、前記第２カメラ座標系での前記プルキンエスポットの座標、前記第２カメラ座標系での前記光源の座標、前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第２カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第１カメラ座標系での前記角膜基準点の第２座標を決定するように構成されることを特徴とする
項目３１に記載の装置。
（項目３３）
前記第３決定サブユニットは具体的には、前記第１画像における前記反射点の座標を決定し、
前記第１画像における前記反射点の座標、前記第２カメラの焦点距離及び主点位置に基づいて、反射点の前記第二カメラ座標系での座標を決定するように構成されることを特徴とする
項目３０から３２のうちいずれか一項に記載の装置。
（項目３４）
前記第４決定サブユニットは具体的には、ワールド座標系での前記光源の座標を決定し、前記ワールド座標系と前記第２カメラ座標系との関係に基づいて、前記第２カメラ座標系での前記光源の座標を決定するように構成されることを特徴とする
項目３１から３３のうちいずれか一項に記載の装置。
（項目３５）
前記光源は赤外光源又は近赤外光源を含み、前記光源の数は少なくとも２つであり、前記反射点の数は、前記光源の数に対応することを特徴とする
項目３０から３４のうちいずれか一項に記載の装置。
（項目３６）
視線検出装置であって、
ビデオストリームデータに含まれる第２画像に対して顔検出を行うように構成される顔検出ユニットと
検出された前記第２画像における顔領域に対してキーポイント位置決めを行い、前記顔領域における眼部領域を決定するように構成される第１決定ユニットと、
前記第２画像における前記眼部領域画像を切り取るように構成される切取ユニットと、
前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するように構成される入力出力ユニットと、を備える、前記装置。
（項目３７）
前記装置は、
前記眼部領域画像の視線方向及び前記第２画像の少なくとも１つの隣接するフレームの画像の視線方向に基づいて、前記第２画像の視線方向を決定するように構成される第２決定ユニットを更に備えることを特徴とする
項目３６に記載の装置。
（項目３８）
前記顔検出ユニットは具体的には、トリガ命令を受信した場合、前記ビデオストリームデータに含まれる第２画像に対して顔検出を行うように構成され、
又は、前記顔検出ユニットは具体的には、車両運転中に、前記ビデオストリームデータに含まれる第２画像に対して顔検出を行うように構成され、
又は、前記顔検出ユニットは具体的には、車両の運転速度が基準速度に達した場合、前記ビデオストリームデータに含まれる第２画像に対して顔検出を行うように構成されることを特徴とする
項目３６又は３７に記載の装置。
（項目３９）
前記ビデオストリームデータは、車載カメラによる車両の運転領域のビデオストリームであり、
前記眼部領域画像の視線方向は、前記車両の運転領域における運転者の視線方向であることを特徴とする
項目３８に記載の装置。
（項目４０）
前記装置は、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定し、前記運転者の関心領域に基づいて前記運転者の運転行為を決定するように構成される第３決定ユニットを更に備え、前記運転行為には前記運転者が注意力散漫運転を行っているかどうかが含まれることを特徴とする
項目３９に記載の装置。
（項目４１）
前記装置は、
前記運転者が注意力散漫運転を行っている場合、早期警告リマインド情報を出力するように構成される出力ユニットを更に備えることを特徴とする
項目４０に記載の装置。
（項目４２）
前記出力ユニットは具体的には、運転者の注意力散漫運転の回数が基準回数に達した場合、前記早期警告リマインド情報を出力するように構成され、
又は、前記出力ユニットは具体的には、前記運転者の注意力散漫運転時間が基準時間に達した場合、前記早期警告リマインド情報を出力するように構成され、
又は、前記出力ユニットは具体的には、前記運転者の注意力散漫運転時間が前記基準時間に達して且つ回数が前記基準回数に達した場合、前記早期警告リマインド情報を出力するように構成され、
又は、前記出力ユニットは具体的には、前記運転者が注意力散漫運転を行っている場合、前記車両に接続される端末にリマインド情報を送信するように構成されることを特徴とする
項目４１に記載の装置。
（項目４３）
前記装置は、
前記運転者が注意力散漫運転を行っている場合、前記眼部領域画像及び前記眼部領域画像の前後の所定数のフレームの画像のうちの１つ又は複数を記憶するように構成される記憶ユニット、
又は、前記運転者が注意力散漫運転を行っている場合、前記眼部領域画像及び前記眼部領域画像の前後の所定数のフレームの画像のうちの１つ又は複数を前記車両に接続される端末に送信するように構成される送信ユニットを更に備えることを特徴とする
項目４１又は４２に記載の装置。
（項目４４）
前記装置は、
少なくとも眼部画像を含んでいる第１カメラ座標系での、第１画像における瞳孔基準点の第１座標を決定し、前記第１カメラ座標系での、前記第１画像における角膜基準点の第２座標を決定するように構成され、また、前記第１座標及び前記第２座標に基づいて前記第１画像の第１視線方向を決定するように構成される第４決定ユニットと、
ニューラルネットワークにより前記第１画像に対して視線方向を検出し、第１検出視線方向を得るように構成される検出ユニットと、
前記第１視線方向及び前記第１検出視線方向に基づいて、前記ニューラルネットワークを訓練するように構成される訓練ユニットと、を更に備えることを特徴とする
項目３６から４３のうちいずれか一項に記載の装置。
（項目４５）
電子機器であって、プロセッサとメモリとを備え、前記プロセッサと前記メモリは、回路により相互接続され、前記メモリは、プログラム命令を記憶するように構成され、前記プログラム命令が前記プロセッサにより実行される時、前記プロセッサに項目１から１３のうちいずれか一項に記載の方法を実行させる、前記電子機器。
（項目４６）
電子機器であって、プロセッサとメモリとを備え、前記プロセッサと前記メモリは、回路により相互接続され、前記メモリは、プログラム命令を記憶するように構成され、前記プログラム命令が前記プロセッサにより実行される時、前記プロセッサに項目１４から２２のうちいずれか一項に記載の方法を実行させる、前記電子機器。
（項目４７）
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にはコンピュータプログラムが記憶されており、前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令がプロセッサにより実行される時、前記プロセッサに項目１から１３のうちいずれか一項に記載の方法を実行させ、及び／又は、前記プロセッサに項目１４から２２のうちいずれか一項に記載の方法を実行させる、前記コンピュータ可読記憶媒体。

Claims

ニューラルネットワーク訓練方法であって、
第１カメラ座標系での、第１画像における瞳孔基準点の第１座標を決定し、前記第１カメラ座標系での、前記第１画像における角膜基準点の第２座標を決定することであって、前記第１画像は少なくとも眼部画像を含む、ことと、
前記第１座標及び前記第２座標に基づいて、前記第１画像の第１視線方向を決定することと、
ニューラルネットワークにより、前記第１画像に対して視線方向検出を行い、第１検出視線方向を得ることと、
前記第１視線方向及び前記第１検出視線方向に基づいて前記ニューラルネットワークを訓練することと、を含む、前記方法。
前記第１視線方向及び前記第１検出視線方向に基づいて前記ニューラルネットワークを訓練することは、
前記第１視線方向及び前記第１検出視線方向の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整することを含むことを特徴とする
請求項１に記載の方法。
前記第１視線方向及び前記第１検出視線方向に基づいて前記ニューラルネットワークを訓練する前に、前記方法は、
前記第１視線方向及び前記第１検出視線方向をそれぞれ正規化処理することと、
正規化処理された前記第１視線方向及び正規化処理された前記第１検出視線方向に基づいて、前記ニューラルネットワークを訓練することを更に含むことを特徴とする
請求項１又は２に記載の方法。
ニューラルネットワークにより、前記第１画像に対して視線方向検出を行い、第１検出視線方向を得ることは、
前記第１画像がビデオ画像に属する場合、前記ニューラルネットワークにより、隣接するＮ個フレームの画像の視線方向をそれぞれ検出することであって、Ｎが１より大きい整数であることと、
前記隣接するＮ個フレームの画像の視線方向に基づいて、Ｎフレーム目の画像の視線方向が前記第１検出視線方向であると判定することと、を含むことを特徴とする
請求項１から３のうちいずれか一項に記載の方法。
前記隣接するＮ個フレームの画像の視線方向に基づいて、Ｎフレーム目の画像の視線方向が前記第１検出視線方向であると判定することは、
前記隣接するＮ個フレームの画像の視線方向の平均和に基づいて、前記Ｎフレーム目の画像の視線方向が前記第１検出視線方向であると判定することを含むことを特徴とする
請求項４に記載の方法。
第１カメラ座標系での、第１画像における瞳孔基準点の第１座標を決定することは、
第２カメラ座標系での前記瞳孔基準点の座標を決定することと、
前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第１カメラ座標系での前記瞳孔基準点の座標に基づいて、前記第１カメラ座標系での前記瞳孔基準点の第１座標を決定することと、を含むことを特徴とする
請求項１から５のうちいずれか一項に記載の方法。
第２カメラ座標系での前記瞳孔基準点の座標を決定することは、
前記瞳孔基準点の前記第１画像における座標を決定することと、
前記瞳孔基準点の前記第１画像における座標、及び前記第２カメラの焦点距離及び主点位置に基づいて、前記第２カメラ座標系での前記瞳孔基準点の座標を決定することと、を含むことを特徴とする
請求項６に記載の方法。
前記第１カメラ座標系での、前記第１画像における角膜基準点の第２座標を決定することは、
前記第２カメラ座標系での、前記第１画像における角膜上の反射点の座標を決定することであって、前記反射点は、光源が前記角膜上に結像される位置である、ことと、
前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第２カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第１カメラ座標系での前記角膜基準点の第２座標を決定することと、を含むことを特徴とする
請求項１から７のうちいずれか一項に記載の方法。
前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第２カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第１カメラ座標系での前記角膜基準点の第２座標を決定することは、
前記第２カメラ座標系での前記光源の座標を決定することと、
前記第２カメラ座標系での前記光源の座標、前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第２カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第１カメラ座標系での前記角膜基準点の第２座標を決定することと、を含むことを特徴とする
請求項８に記載の方法。
前記第２カメラ座標系での前記光源の座標、前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第２カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第１カメラ座標系での前記角膜基準点の第２座標を決定することは、
前記第２カメラ座標系での、前記光源に対応するプルキンエスポットの座標を決定することと、
前記第２カメラ座標系での前記プルキンエスポットの座標、前記第２カメラ座標系での前記光源の座標、前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第２カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第１カメラ座標系での前記角膜基準点の第２座標を決定することと、を含むことを特徴とする
請求項９に記載の方法。
前記第２カメラ座標系での、前記第１画像における角膜上の反射点の座標を決定することは、
前記第１画像における前記反射点の座標を決定することと、
前記第１画像における前記反射点の座標、前記第２カメラの焦点距離及び主点位置に基づいて、前記第二カメラ座標系での前記反射点の座標を決定することと、を含むことを特徴とする
請求項８から１０のうちいずれか一項に記載の方法。
前記第２カメラ座標系での前記光源の座標を決定することは、
ワールド座標系での前記光源の座標を決定することと、
前記ワールド座標系と前記第２カメラ座標系との関係に基づいて、前記第２カメラ座標系での前記光源の座標を決定することと、を含むことを特徴とする
請求項９から１１のうちいずれか一項に記載の方法。
前記光源は赤外光源又は近赤外光源を含み、前記光源の数は少なくとも２つであり、前記反射点の数は、前記光源の数に対応することを特徴とする
請求項８から１２のうちいずれか一項に記載の方法。
視線検出方法であって、
ビデオストリームデータに含まれる第２画像に対して顔検出を行うことと、
検出された前記第２画像における顔領域に対してキーポイント位置決めを行い、前記顔領域における眼部領域を決定することと、
前記第２画像における前記眼部領域画像を切り取ることと、
前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力することと、を含む、前記方法。
前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力した後、前記方法は、
前記眼部領域画像の視線方向及び前記第２画像の少なくとも１つの隣接するフレームの画像の視線方向に基づいて、前記第２画像の視線方向を決定することを更に含むことを特徴とする
請求項１４に記載の方法。
ビデオストリームデータに含まれる第２画像に対して顔検出を行うことは、
トリガ命令を受信した場合、前記ビデオストリームデータに含まれる第２画像に対して顔検出を行うこと、
又は、車両運転中に、前記ビデオストリームデータに含まれる第２画像に対して顔検出を行うこと、
又は、車両の運転速度が基準速度に達した場合、前記ビデオストリームデータに含まれる第２画像に対して顔検出を行うことを含むことを特徴とする
請求項１４又は１５に記載の方法。
前記ビデオストリームデータは、車載カメラによる車両の運転領域のビデオストリームであり、
前記眼部領域画像の視線方向は、前記車両の運転領域における運転者の視線方向であることを特徴とする
請求項１６に記載の方法。
前記眼部領域画像の視線方向を出力した後、前記方法は、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定することと、
前記運転者の関心領域に基づいて前記運転者の運転行為を決定することであって、前記運転行為には前記運転者が注意力散漫運転を行っているかどうかが含まれる、ことと、を更に含むことを特徴とする
請求項１７に記載の方法。
前記方法は、
前記運転者が注意力散漫運転を行っている場合、早期警告リマインド情報を出力することを更に含むことを特徴とする
請求項１８に記載の方法。
前記早期警告リマインド情報を出力することは、
前記運転者の注意力散漫運転の回数が基準回数に達した場合、前記早期警告リマインド情報を出力すること、
又は、前記運転者の注意力散漫運転時間が前記基準時間に達した場合、前記早期警告リマインド情報を出力すること、
又は、前記運転者の注意力散漫運転時間が前記基準時間に達して且つ回数が前記基準回数に達した場合、前記早期警告リマインド情報を出力すること、
又は、前記運転者が注意力散漫運転を行っている場合、前記車両に接続される端末にリマインド情報を送信することを含むことを特徴とする
請求項１９に記載の方法。
前記方法は、
前記運転者が注意力散漫運転を行っている場合、前記眼部領域画像及び前記眼部領域画像の前後の所定数のフレームの画像のうちの１つ又は複数を記憶すること、
又は、前記運転者が注意力散漫運転を行っている場合、前記眼部領域画像及び前記眼部領域画像の前後の所定数のフレームの画像のうちの１つ又は複数を前記車両に接続される端末に送信することを更に含むことを特徴とする
請求項１９又は２０に記載の方法。
前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力する前に、前記方法は、請求項１から１３のうちいずれか一項に記載の方法で前記ニューラルネットワークを訓練することを更に含むことを特徴とする
請求項１４から２１のうちいずれか一項に記載の方法。
ニューラルネットワーク訓練装置であって、
第１カメラ座標系での、第１画像における瞳孔基準点の第１座標を決定し、前記第１カメラ座標系での、前記第１画像における角膜基準点の第２座標を決定するように構成される第１決定ユニットであって、前記第１画像は少なくとも眼部画像を含む、第１決定ユニットと、
前記第１座標及び前記第２座標に基づいて、前記第１画像の第１視線方向を決定するように構成される第２決定ユニットと、
ニューラルネットワークにより、前記第１画像に対して視線方向検出を行い、第１検出視線方向を得るように構成される検出ユニットと、
前記第１視線方向及び前記第１検出視線方向に基づいて前記ニューラルネットワークを訓練するように構成される訓練ユニットと、を備える、前記装置。
前記訓練ユニットは具体的には、前記第１視線方向及び前記第１検出視線方向の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するように構成されることを特徴とする
請求項２３に記載の装置。
前記装置は、
前記第１視線方向及び前記第１検出視線方向をそれぞれ正規化処理するように正規化処理ユニットを更に備え、
前記訓練ユニットは具体的には、正規化処理された前記第１視線方向及び正規化処理された前記第１検出視線方向に基づいて、前記ニューラルネットワークを訓練するように構成されることを特徴とする
請求項２３又は２４に記載の装置。
前記検出ユニットは具体的には、前記第１画像がビデオ画像に属する場合、前記ニューラルネットワークにより、隣接するＮ個フレームの画像の視線方向をそれぞれ検出し、Ｎが１より大きい整数であり、
前記隣接するＮ個フレームの画像の視線方向に基づいて、Ｎフレーム目の画像の視線方向が前記第１検出視線方向であると判定するように構成されることを特徴とする
請求項２３から２５のうちいずれか一項に記載の装置。
前記検出ユニットは具体的には、前記隣接するＮ個フレームの画像の視線方向の平均和に基づいて、前記Ｎフレーム目の画像の視線方向が前記第１検出視線方向であると判定するように構成されることを特徴とする
請求項２６に記載の装置。
前記第１決定ユニットは、
第２カメラ座標系での前記瞳孔基準点の座標を決定するように構成される第１決定サブユニットと、
前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第１カメラ座標系での前記瞳孔基準点の座標に基づいて、前記第１カメラ座標系での前記瞳孔基準点の第１座標を決定するように構成される第２決定サブユニットと、を備えることを特徴とする
請求項２５から２７のうちいずれか一項に記載の装置。
前記第１決定サブユニットは具体的には、前記瞳孔基準点の前記第１画像における座標を決定し、前記瞳孔基準点の前記第１画像における座標、及び前記第２カメラの焦点距離及び主点位置に基づいて、前記第２カメラ座標系での前記瞳孔基準点の座標を決定するように構成されることを特徴とする
請求項２８に記載の装置。
前記第１決定ユニットは、
前記第２カメラ座標系での、前記第１画像における角膜上の反射点の座標を決定するように構成される第３決定サブユニットであって、前記反射点は、光源が前記角膜上に結像される位置である、第３決定サブユニットと、
前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第２カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第１カメラ座標系での前記角膜基準点の第２座標を決定するように構成される第４決定サブユニットと、を備えることを特徴とする
請求項２５から２９のうちいずれか一項に記載の装置。
前記第４決定サブユニットは具体的には、前記第２カメラ座標系での前記光源の座標を決定し、前記第２カメラ座標系での前記光源の座標、前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第２カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第１カメラ座標系での前記角膜基準点の第２座標を決定するように構成されることを特徴とする
請求項３０に記載の装置。
前記第４決定サブユニットは具体的には、前記第２カメラ座標系での、前記光源に対応するプルキンエスポットの座標を決定し、前記第２カメラ座標系での前記プルキンエスポットの座標、前記第２カメラ座標系での前記光源の座標、前記第１カメラ座標系と前記第２カメラ座標系との関係、及び前記第２カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第１カメラ座標系での前記角膜基準点の第２座標を決定するように構成されることを特徴とする
請求項３１に記載の装置。
前記第３決定サブユニットは具体的には、前記第１画像における前記反射点の座標を決定し、
前記第１画像における前記反射点の座標、前記第２カメラの焦点距離及び主点位置に基づいて、反射点の前記第二カメラ座標系での座標を決定するように構成されることを特徴とする
請求項３０から３２のうちいずれか一項に記載の装置。
前記第４決定サブユニットは具体的には、ワールド座標系での前記光源の座標を決定し、前記ワールド座標系と前記第２カメラ座標系との関係に基づいて、前記第２カメラ座標系での前記光源の座標を決定するように構成されることを特徴とする
請求項３１から３３のうちいずれか一項に記載の装置。
前記光源は赤外光源又は近赤外光源を含み、前記光源の数は少なくとも２つであり、前記反射点の数は、前記光源の数に対応することを特徴とする
請求項３０から３４のうちいずれか一項に記載の装置。
視線検出装置であって、
ビデオストリームデータに含まれる第２画像に対して顔検出を行うように構成される顔検出ユニットと
検出された前記第２画像における顔領域に対してキーポイント位置決めを行い、前記顔領域における眼部領域を決定するように構成される第１決定ユニットと、
前記第２画像における前記眼部領域画像を切り取るように構成される切取ユニットと、
前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するように構成される入力出力ユニットと、を備える、前記装置。
前記装置は、
前記眼部領域画像の視線方向及び前記第２画像の少なくとも１つの隣接するフレームの画像の視線方向に基づいて、前記第２画像の視線方向を決定するように構成される第２決定ユニットを更に備えることを特徴とする
請求項３６に記載の装置。
前記顔検出ユニットは具体的には、トリガ命令を受信した場合、前記ビデオストリームデータに含まれる第２画像に対して顔検出を行うように構成され、
又は、前記顔検出ユニットは具体的には、車両運転中に、前記ビデオストリームデータに含まれる第２画像に対して顔検出を行うように構成され、
又は、前記顔検出ユニットは具体的には、車両の運転速度が基準速度に達した場合、前記ビデオストリームデータに含まれる第２画像に対して顔検出を行うように構成されることを特徴とする
請求項３６又は３７に記載の装置。
前記ビデオストリームデータは、車載カメラによる車両の運転領域のビデオストリームであり、
前記眼部領域画像の視線方向は、前記車両の運転領域における運転者の視線方向であることを特徴とする
請求項３８に記載の装置。
前記装置は、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定し、前記運転者の関心領域に基づいて前記運転者の運転行為を決定するように構成される第３決定ユニットを更に備え、前記運転行為には前記運転者が注意力散漫運転を行っているかどうかが含まれることを特徴とする
請求項３９に記載の装置。
前記装置は、
前記運転者が注意力散漫運転を行っている場合、早期警告リマインド情報を出力するように構成される出力ユニットを更に備えることを特徴とする
請求項４０に記載の装置。
前記出力ユニットは具体的には、運転者の注意力散漫運転の回数が基準回数に達した場合、前記早期警告リマインド情報を出力するように構成され、
又は、前記出力ユニットは具体的には、前記運転者の注意力散漫運転時間が基準時間に達した場合、前記早期警告リマインド情報を出力するように構成され、
又は、前記出力ユニットは具体的には、前記運転者の注意力散漫運転時間が前記基準時間に達して且つ回数が前記基準回数に達した場合、前記早期警告リマインド情報を出力するように構成され、
又は、前記出力ユニットは具体的には、前記運転者が注意力散漫運転を行っている場合、前記車両に接続される端末にリマインド情報を送信するように構成されることを特徴とする
請求項４１に記載の装置。
前記装置は、
前記運転者が注意力散漫運転を行っている場合、前記眼部領域画像及び前記眼部領域画像の前後の所定数のフレームの画像のうちの１つ又は複数を記憶するように構成される記憶ユニット、
又は、前記運転者が注意力散漫運転を行っている場合、前記眼部領域画像及び前記眼部領域画像の前後の所定数のフレームの画像のうちの１つ又は複数を前記車両に接続される端末に送信するように構成される送信ユニットを更に備えることを特徴とする
請求項４１又は４２に記載の装置。
前記装置は、
少なくとも眼部画像を含んでいる第１カメラ座標系での、第１画像における瞳孔基準点の第１座標を決定し、前記第１カメラ座標系での、前記第１画像における角膜基準点の第２座標を決定するように構成され、また、前記第１座標及び前記第２座標に基づいて前記第１画像の第１視線方向を決定するように構成される第４決定ユニットと、
ニューラルネットワークにより前記第１画像に対して視線方向を検出し、第１検出視線方向を得るように構成される検出ユニットと、
前記第１視線方向及び前記第１検出視線方向に基づいて、前記ニューラルネットワークを訓練するように構成される訓練ユニットと、を更に備えることを特徴とする
請求項３６から４３のうちいずれか一項に記載の装置。
電子機器であって、プロセッサとメモリとを備え、前記プロセッサと前記メモリは、回路により相互接続され、前記メモリは、プログラム命令を記憶するように構成され、前記プログラム命令が前記プロセッサにより実行される時、前記プロセッサに請求項１から１３のうちいずれか一項に記載の方法を実行させる、前記電子機器。
電子機器であって、プロセッサとメモリとを備え、前記プロセッサと前記メモリは、回路により相互接続され、前記メモリは、プログラム命令を記憶するように構成され、前記プログラム命令が前記プロセッサにより実行される時、前記プロセッサに請求項１４から２２のうちいずれか一項に記載の方法を実行させる、前記電子機器。
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にはコンピュータプログラムが記憶されており、前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令がプロセッサにより実行される時、前記プロセッサに請求項１から１３のうちいずれか一項に記載の方法を実行させ、及び／又は、前記プロセッサに請求項１４から２２のうちいずれか一項に記載の方法を実行させる、前記コンピュータ可読記憶媒体。