JP2021530823A - ニューラルネットワークのトレーニング方法、視線追跡方法及び装置並びに電子機器 - Google Patents

ニューラルネットワークのトレーニング方法、視線追跡方法及び装置並びに電子機器 Download PDF

Info

Publication number
JP2021530823A
JP2021530823A JP2021524086A JP2021524086A JP2021530823A JP 2021530823 A JP2021530823 A JP 2021530823A JP 2021524086 A JP2021524086 A JP 2021524086A JP 2021524086 A JP2021524086 A JP 2021524086A JP 2021530823 A JP2021530823 A JP 2021530823A
Authority
JP
Japan
Prior art keywords
line
sight direction
image
detection
sight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021524086A
Other languages
English (en)
Other versions
JP7146087B2 (ja
Inventor
王▲飛▼
黄▲詩▼▲堯▼
▲錢▼晨
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2021530823A publication Critical patent/JP2021530823A/ja
Application granted granted Critical
Publication of JP7146087B2 publication Critical patent/JP7146087B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • G08B21/06Alarms for ensuring the safety of persons indicating a condition of sleep, e.g. anti-dozing alarms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/197Matching; Classification
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/18Status alarms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Ophthalmology & Optometry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Traffic Control Systems (AREA)

Abstract

本願はニューラルネットワークのトレーニング方法、視線追跡方法及び装置並びに電子機器を開示する。このニューラルネットワークのトレーニング方法は、第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定するステップであって、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含むステップと、ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得するステップと、前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップと、を含む。それに対して、対応する装置及び電子機器を更に提供する。本願を用いて、視線追跡の正確性を高めることができる。

Description

(関連出願の相互参照)
本願は、出願番号が201811155578.9であり、出願日が2018年9月29日である中国特許出願に基づいて提出され、この中国特許出願の優先権を主張し、この中国特許出願の全ての内容が参照によって本願に組み込まれる。
本願は、コンピューター技術に関し、特に、ニューラルネットワークのトレーニング方法及び装置、視線追跡方法及び装置、電子機器並びにコンピューター読取可能記憶媒体に関する。
視線追跡は、運転者監視、マンマシン対話及びセキュリティ監視等の用途において重要な作用を発揮している。視線追跡は、3次元空間で人の目の注視方向を検出する技術である。マンマシン対話において、人の目の空間における3次元位置を測定し、3次元の視線方向を参照して、人の注視点の3次元空間の位置を取得してデバイスに出力し、更なる対話処理を行う。注意力検出において、人の目の視線方向を推定し、人の注視方向を判断することにより、人の関心領域を取得し、更に人の注意力が集中されているか否かを判断する。
本願は、ニューラルネットワークのトレーニングの技術的手段及び視線追跡の技術的手段を提供する。
第1の態様によれば、本願の実施例は、
第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定するステップであって、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含むステップと、
ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得するステップと、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップと、を含むニューラルネットワークのトレーニング方法を提供する。
第2の態様によれば、本願の実施例は、
ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップと、
検出された前記第3の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するステップと、
前記第3の画像における前記眼部領域画像を切り取るステップと、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するステップと、を含む視線追跡方法を提供する。
第3の態様によれば、本願の実施例は、
第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定するための第1の決定ユニットであって、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含む第1の決定ユニットと、
ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得するための検出ユニットと、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニットと、を含むニューラルネットワークのトレーニング装置を提供する。
第4の態様によれば、本願の実施例は、
ビデオストリームデータに含まれる第3の画像に対して顔検出を行うための顔検出ユニットと、
検出された前記第3の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するための第1の決定ユニットと、
前記第3の画像における前記眼部領域画像を切り取るための切り取りユニットと、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するための入力出力ユニットと、を含む視線追跡装置を提供する。
第5の態様によれば、本願の実施例は、プロセッサーと、前記プロセッサーに接続され、プログラムコマンドを記憶するためのメモリとを含む電子機器であって、前記プロセッサーが前記電子機器に前記第1の態様の方法における対応の機能を実行させるように構成される電子機器を更に提供する。
選択可能に、前記電子機器は、前記電子機器と他の電子機器との通信に用いられる入力出力インタフェースを更に含む。
第6の態様によれば、本願の実施例は、プロセッサーと、前記プロセッサーに接続され、プログラムコマンドを記憶するためのメモリとを含む電子機器であって、前記プロセッサーが前記電子機器に前記第2の態様の方法における対応の機能を実行させるように構成される電子機器を更に提供する。
選択可能に、前記電子機器は、前記電子機器と他の電子機器との通信に用いられる入力出力インタフェースを更に含む。
第7の態様によれば、本願の実施例は、
ニューラルネットワークをトレーニングするためのニューラルネットワークのトレーニング装置と、
前記ニューラルネットワークのトレーニング装置によりトレーニングされたニューラルネットワークを使用するための視線追跡装置と、を含み、
前記ニューラルネットワークのトレーニング装置と前記視線追跡装置が通信可能に接続される視線追跡システムを更に提供する。
選択可能に、前記ニューラルネットワークのトレーニング装置は、前記第1の態様に記載の方法を実行するために用いられ、
前記視線追跡装置は、前記第2の態様に記載の対応の方法を実行するために用いられる。
第8の態様によれば、本願の実施例は、コマンドが記憶されているコンピューター読取可能記憶媒体であって、コンピューター上で作動すると、コンピューターに本願の実施例で提供されたいずれか1つの方法を実行させるコンピューター読取可能記憶媒体を提供する。
第9の態様によれば、本願の実施例は、コマンドを含むコンピュータープログラム製品であって、コンピューター上で作動すると、コンピューターに本願の実施例で提供されたいずれか1つの方法を実行させるコンピュータープログラム製品を提供する。
本願の実施例又は背景技術における技術的手段をより明瞭に説明するために、以下、本願の実施例又は背景技術に用いられる図面について説明する。
本願の実施例で提供された視線追跡方法を模式的に示すフローチャートである。 本願の実施例で提供された顔キーポイントのシーン模式図である。 本願の実施例で提供された眼部領域画像のシーン模式図である。 本願の実施例で提供されたニューラルネットワークのトレーニング方法を模式的に示すフローチャートである。 本願の実施例で提供された第1の視線方向を決定する方法を模式的に示すフローチャートである。 本願の実施例で提供された3種の人の目に関連する模式図である。 本願の実施例で提供された瞳孔を決定する模式図である。 本願の実施例で提供された別の視線追跡方法を模式的に示すフローチャートである。 本願の実施例で提供されたニューラルネットワークのトレーニング装置の構造模式図である。 本願の実施例で提供されたトレーニングユニットの構造模式図である。 本願の実施例で提供された別のニューラルネットワークのトレーニング装置の構造模式図である。 本願の実施例で提供された検出ユニットの構造模式図である。 本願の実施例で提供された電子機器の構造模式図である。 本願の実施例で提供された視線追跡装置の構造模式図である。 本願の実施例で提供された別の視線追跡装置の構造模式図である。 本願の実施例で提供された電子機器の構造模式図である。
本願の目的、技術的手段及び長所をより明瞭にするために、以下、図面を参照しながら本願を更に詳細に説明する。
本願の明細書、特許請求の範囲及び前記図面における「第1」、「第2」等の用語は、特定の順序を記述するものではなく、異なる対象を区別するためのものである。また、「含む」、「備える」という用語及びそれらのいかなる変形も、非排他的に含むことを意図する。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、挙げられたステップ又はユニットに限定されるものではなく、更に挙げられないステップ又はユニットを選択可能に含み、又は、更に、これらのプロセス、方法又は機器に固有の他のステップ又はユニットを選択可能に含む。
図1を参照し、図1は本願の実施例で提供された視線追跡方法を模式的に示すフローチャートであり、この視線追跡方法は、サーバと、携帯電話、タブレットコンピュータ、デスクトップパソコン、携帯情報端末、車載機器、運転者状態監視システム、テレビ、ゲーム機、レクリエーション施設、広告プッシュ装置等を含んでよい端末装置とを含んでよい視線追跡装置に利用可能であり、本願の実施例はこの視線追跡装置の具体的な形態を一意的に限定するものではない。
図1に示すように、この視線追跡方法は、以下のステップを含む。
101において、ビデオストリームデータに含まれる第3の画像に対して顔検出を行う。
本願の実施例では、第3の画像は、ビデオストリームデータ内の任意フレームの画像であっても、顔検出により第3の画像における顔の所在位置を検出することができる。選択可能に、この視線追跡装置は顔検出を行う時に、正方形の顔画像を検出してもよく、矩形の顔画像を検出してもよく、本願の実施例は限定するものではない。
選択可能に、このビデオストリームデータは視線追跡装置により撮影されるデータであってもよく、他の装置により撮影されてからこの視線追跡装置に送信されるデータ等であってもよく、本願の実施例は、このビデオストリームデータをどのように取得するかについて制限を加えない。
選択可能に、前記ビデオストリームデータは、車載カメラによる車両運転領域のビデオストリームであってもよい。つまり、ステップ104で出力される視線方向としては、前記眼部領域画像の視線方向は前記車両運転領域内の運転者の視線方向であり、又は、前記ビデオストリームデータは車載カメラによる車両の非運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両の非運転領域内の車内人員の視線方向である。このビデオストリームデータが車載カメラにより撮影されるデータであり、この車載カメラが直接視線追跡装置に接続されてもよく、間接的にこの視線追跡装置に接続される等のようになってもよいことが理解可能であり、本願の実施例はこの車載カメラがどのような形態で存在するかについて制限を加えない。
車両の運転領域のビデオストリームデータに含まれる第3の画像に対して顔検出を行う時に、視線追跡装置はリアルタイムで顔検出を行うことができ、更に特定の頻度又は特定の周期で顔検出を行う等のことができるのが理解可能であり、本願の実施例は限定するものではない。
しかしながら、視線追跡装置の電力損失を更に回避し、顔検出の効率を高めるために、ビデオストリームデータに含まれる第3の画像に対して顔検出を行う前記ステップは、
トリガコマンドを受信した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップ、
又は、車両作動中において、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップ、
又は、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップを含む。
本願の実施例に記載の車両は、例えば、自動車、トラック、定期運行車両、タクシー、貨車、汽車、作業車両等のような各種の用途を有する様々な車両を含む。
本願の実施例では、このトリガコマンドは、視線追跡装置により受信された、ユーザから入力されたトリガコマンドであってもよく、視線追跡装置に接続される端末から送信されるトリガコマンド等であってもよく、本願の実施例はこのトリガコマンドがどこからのものであるかについて制限を加えない。
本願の実施例では、車両が作動する時というのは車両が点火する時と理解でき、つまり、視線追跡装置により車両が作動し始めたことが検出されると、この視線追跡装置は取得されたビデオストリームデータ内の任意フレームの画像(第3の画像を含む)に対して顔検出を行うことができる。
本願の実施例では、基準速度は、車両がどのような作動速度に達した時に、視線追跡装置がビデオストリームデータに含まれる第3の画像に対して顔検出を行えるかを判断するために用いられるので、この基準速度の詳細は限定されない。この基準速度はユーザにより設置されてもよいし、視線追跡装置に接続される、車両作動速度を測定するデバイスにより設置されてもよく、更に視線追跡装置により設置されてもよい等のことになっており、本願の実施例は限定するものではない。
102において、検出された前記第3の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定する。
本願の実施例では、キーポイント位置決定プロセスでキーポイント位置決定を行うために、エッジ検出(robert)アルゴリズム、ソーベル(sobel)アルゴリズム等のようなアルゴリズムを利用してもよいし、動的輪郭snakeモデル等のような関連モデルを利用してもよく、また、顔キーポイント検出を行うためのニューラルネットワークを利用してキーポイントの検出や出力を行なってもよい。更に、サードパーティアプリケーションを利用して顔キーポイントの位置測定を行ってもよく、例えば、サードパーティツールキット(例えば、dlib等)を利用して顔キーポイントの位置測定を行う。
例を挙げると、dlibは、顔キーポイントの位置測定効果に優れたオープンソースツールキットであり且つ機械学習アルゴリズムを含むC++オープンソースツールキットである。dlibは、ロボット、組込み機器、携帯電話及び大型高性能計算環境を含む分野に広く利用されている。従って、このツールキットを効率的に利用して顔キーポイントの位置測定を行って、顔キーポイントを取得することができる。選択可能に、この顔キーポイントは68個の顔キーポイント等であってもよい。顔キーポイントの位置測定により位置を決定する時に、各キーポイントはそれぞれ座標、即ち画素点座標を有するので、キーポイントの座標により眼部領域を決定できることが理解可能である。又は、ニューラルネットワークにより顔キーポイントを検出し、21、106又は240個のキーポイントを検出することができる。
例を挙げると、図2aを参照し、図2aは本願の実施例で提供された顔キーポイントの模式図である。この図から分かるように、顔キーポイントはキーポイント0、キーポイント1……キーポイント67、即ち68個のキーポイントを含んでもよい。この68個のキーポイントからキーポイント36〜47が眼部領域であることを決定できる。従って、図2bに示すように、キーポイント36とキーポイント39、及びキーポイント37(又は38)とキーポイント40(又は41)に基づいて、左眼領域を決定できる。また、キーポイント42と45、及びキーポイント43(又は44)とキーポイント46(又は47)に基づいて右眼領域を決定できる。選択可能に、更に直接キーポイント36と45、及びキーポイント37(又は38/43/44)と41(又は40/46/47)により眼部領域を決定できる。
以上は本願の実施例で提供された眼部領域を決定する例であり、具体的な実現では、更に他のキーポイントにより眼部領域等を決定できることが理解可能であり、本願の実施例は限定するものではない。
103において、前記第3の画像における前記眼部領域画像を切り取る。
本願の実施例では、顔領域の眼部領域を決定した後、眼部領域画像を切り取ることができる。図2bを例として、図に示す2つの矩形枠で眼部領域画像を切り取ることができる。
本願の実施例は、視線追跡装置により眼部領域画像を切り取る方法について制限を加えなく、例えば、画面取り込みソフトウェアにより切り取ってもよく、グラフィックスソフトウェア等により切り取ってもよいことが理解可能である。
104において、前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力する。
本願の実施例では、この予めトレーニングされたニューラルネットワークは、視線追跡装置によりトレーニングされたニューラルネットワークであってもよく、ニューラルネットワークのトレーニング装置のような他の装置によりトレーニングされたニューラルネットワークであってもよく、視線追跡装置がこのニューラルネットワークのトレーニング装置から視線追跡装置からニューラルネットワークを取得する。ニューラルネットワークのトレーニング方法については図3に示す方法を参照してもよいことが理解可能であり、ここで一つずつ詳細に説明することを省略する。
本願の実施例を実施する時に、予めトレーニングされたニューラルネットワークによりビデオストリームデータ内の任意フレームの画像に対して視線追跡を行って、視線追跡の正確度を効果的に高めることができ、また、更にビデオストリームデータ内の任意フレームの画像に対して視線追跡を行うことで、視線追跡装置はこの視線を利用して他の操作を実行できるようになる。
選択可能に、この視線追跡装置は、ゲーム機を含む場合に、この視線追跡に基づいてゲーム対話を行って、ユーザの満足度を高める。また、この視線追跡装置は、テレビ等の他の家庭用の電器を含む場合に、視線追跡によりウェイクアップ又は休止又は他の制御等を行うことができ、例えば、視線方向に基づいてユーザがテレビ等の家庭用の電器をオン又はオフしようとするか否か等を決定することができ、本願の実施例は限定するものではない。また、この視線追跡装置は、広告プッシュ装置を含む場合に、視線追跡により広告をプッシュすることができ、例えば、出力される視線方向に基づいて、ユーザの関心を持つ広告内容を決定し、更にユーザの関心を持つ広告をプッシュすることができる。
以上は本願の実施例で提供された視線追跡装置により出力される視線方向を用いて他の操作を実行するいくつかの例であり、具体的な実施形態で更に他の例が存在してもよいことが理解可能であり、従って、以上の例は本願の実施例を限定するものであると理解すべきではない。
ビデオストリームデータに含まれる第3の画像に対して視線追跡を行う時に、ニューラルネットワークの出力した視線方向に一定の振れが存在する可能性があることが理解可能であるので、前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力する前記ステップの後に、前記方法は、
前記眼部領域画像の視線方向及び前記第3の画像の少なくとも1フレームの隣接する画像の視線方向に基づいて、前記第3の画像の視線方向を決定するステップを更に含む。
本願の実施例では、少なくとも1フレームの隣接する画像は、第3の画像に隣接する少なくとも1フレームの画像と理解してもよい。例えば、第3の画像の前のMフレームの画像であってもよく、第3の画像の後のNフレームの画像であってもよく、このM及びNはそれぞれ1以上の整数である。例を挙げると、第3の画像がビデオストリームデータ内の5番目のフレーム画像であり、そのようにこの視線追跡装置は4番目のフレーム画像の視線方向と5番目のフレーム画像の視線方向に基づいて、5番目のフレーム画像の視線方向を決定することができる。
選択可能に、眼部領域画像の視線方向及び第3の画像の少なくとも1フレームの隣接する画像の視線方向の算術平均を第3の画像の視線方向、即ち眼部領域画像の視線方向としてもよい。このような方式により、得られる視線方向はニューラルネットワークが振れた後予測する視線方向になることを効果的に回避することができ、視線方向予測の正確度が効果的に高められる。
例を挙げると、第3の画像の視線方向が(gx、gy、gz)であり、且つこの第3の画像がビデオストリームデータ内のN番目のフレーム画像であり、前のN−1フレームの画像に対応する視線方向がそれぞれ(gx、gy、gz)n−1、(gx、gy、gz)n−2、…(gx、gy、gz)であり、そのようにN番目のフレーム画像、即ち第3の画像の視線方向の計算方式は式(1)に示すようになってもよい。
Figure 2021530823
ただし、gazeは第3の画像の視線方向となる。
選択可能に、更に、前記N番目のフレーム画像に対応する視線方向と前記N−1番目のフレーム画像に対応する視線方向の加重和により、前記N番目のフレーム画像に対応する視線方向を計算することができる。
更に例を挙げると、前記パラメータを例とすれば、N番目のフレーム画像に対応する視線方向の計算方式は式(2)に示すようになってもよい。
Figure 2021530823
以上の2つの式は、例に過ぎず、本願の実施例を限定するものと理解すべきではないことが理解可能である。
本願の実施例を実施することで、ニューラルネットワークの出力した視線方向に振れが存在することを効果的に防止でき、それにより視線方向予測の正確度を効果的に高めることができる。
本願の実施例は、ニューラルネットワークの出力した視線方向の利用方法を更に提供し、
前記眼部領域画像の視線方向を出力する前記ステップの後に、前記方法は、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップ、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行動を決定するステップ、又は、
前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するステップを更に含む。ここで、車両の制御に関しては、例えば、視線をエアコン制御領域に落として所定時間経った時に、エアコン等の車両に設置された機器をオンまたはオフし、例えば、視線を車両における車載ロボットに落とした時に、車載ロボットが笑顔等の対応の表情で応える。
本願の実施例では、視線追跡装置は視線方向を出力することにより、運転者の注視方向を解析することができ、即ちこの運転者の関心を持つ大まかな範囲を取得することができる。それによって、この関心領域に基づいて運転者か真面目に運転している否かを決定できる。例えば、一般的には、運転者か真面目に運転している時に、前方を注視しており、たまに左を見たり右を見たりすることがあるが、運転者の関心を持つ領域が前方ではないことが多くなっていることが発見されると、この運転者が脇見運転をしていると決定できる。
選択可能に、視線追跡装置は、この運転者が脇見運転をしていると決定した場合に、警報通知情報を出力することができる。警報通知情報を出力する正確度を高め、運転者に不必要なトラブルをもたらすことを回避するために、警報通知情報を出力する前記ステップは、
前記運転者脇見運転の回数が基準回数に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者の脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するステップを含んでもよい。
前記基準回数、基準時間は視線追跡装置がどのような警報通知情報を出力するかを判断するためのものであることが理解可能であるので、本願の実施例は前記基準回数と基準時間に具体的な制限を加えない。
この視線追跡装置は、無線又は有線の方式で端末に接続されてよく、それにより端末へ通知情報を送信して運転者又は車両内の他の人員にタイムリーで注意を与えることができるのが理解可能である。ここで、この端末は具体的には運転者の端末を指し、更に車両内の他の人員の端末であってもよく、本願の実施例は一意的に限定するものではない。
本願の実施例を実施することで、視線追跡装置はビデオストリームデータ内の任意フレームの画像の視線方向を数回解析したり、長時間解析したりすることができるようになって、更に運転者が脇見運転をしているか否かについての判断正確度が高められる。
更に、前記運転者が脇見運転をしている場合に、視線追跡装置は、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を記憶してもよく、
又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信してもよい。
本願の実施例では、この視線追跡装置は、眼部領域画像を記憶してもよく、眼部領域画像の前後の特定フレーム数の画像を記憶してもよく、更に眼部領域画像とこの眼部領域画像の前後の特定フレーム数の画像を同時に記憶してもよく、そのように後でユーザが視線方向を調べることを容易にする。また、前記画像を端末に送信することによって、ユーザは時々視線方向を調べることができ、眼部領域画像と眼部領域画像の前後の特定フレーム数の画像の少なくとも一項をタイムリーで取得できる。
本願の実施例では、視線追跡は、運転者又は車内の他の人員の疲労、注意散漫又は他の状態の検出に利用可能であることに加えて、更に対話制御に利用可能であり、例えば、視線追跡の結果により、視線が投げられた領域のスクリーンをオンにし、視線が投げられた領域のマルチメディアを起動する等のような制御コマンドを出力する。車両に応用されることに加えて、視線追跡は、更にゲーム内のマンマシン対話制御、スマートホームのマンマシン対話制御、広告掲載効果評価等のシーンに利用可能である。
本願の実施例のニューラルネットワークは畳み込み層、非線形層、プーリング層等の1種又は多種のネットワーク層を所定の方式で積み重ね、設計してなるものであってよく、本願の実施例は、具体的なネットワーク構造に制限を加えない。ニューラルネットワーク構造を設計した後、ラベル付け情報を有する正、負サンプル画像に基づいて、教師有り方式を駆使して設計済みニューラルネットワークに対して逆勾配伝搬等の方法により何千何万回の反復トレーニングを行うようにしてもよく、具体的なトレーニング方式は本願の実施例により限定されることがない。以下、本願の実施例の選択可能なニューラルネットワークのトレーニング方法を説明する。
まず、本願の実施例で言及された技術用語を説明する。
カメラ座標系に関しては、カメラ座標系の原点はカメラの光心であり、z軸はカメラの光軸である。このカメラはビデオカメラと呼んでもよく、又はこのカメラは具体的には赤緑青(Red Green Blue、RGB)カメラ、赤外線カメラ又は近赤外線カメラ等であってもよいことが理解可能であり、本願の実施例は限定するものではない。本願の実施例では、このカメラ座標系はビデオカメラ座標系等と呼んでもよく、本願の実施例はその名称を限定するものではない。本願の実施例では、このカメラ座標系はそれぞれ第1の座標系と第2の座標系を含む。以下、第1の座標系と第2の座標系との関係を具体的に説明する。
第1の座標系は、本願の実施例では、カメラアレイから決定される任意カメラの座標系である。このカメラアレイはビデオカメラアレイ等と呼んでもよいことが理解可能であり、本願の実施例はこのカメラアレイの名称を限定するものではない。具体的には、この第1の座標系は第1のカメラに対応する座標系であってもよく、又は第1のビデオカメラに対応する座標系等と呼んでもよい。
第2の座標系は、本願の実施例では、第2のカメラに対応する座標系、即ち第2のカメラの座標系である。
例を挙げると、例えば、カメラアレイのカメラは順にc1、c2、c3、c4、c5、c6、c7、c8、c9、c10、c11、c12、c13……c20であり、ここで、第1のカメラはc11であり、そのため、第1の座標系はc11の座標系であってよい。第2のカメラはc20であり、そのため第2の座標系はc20の座標系である。
第1の座標系と第2の座標系との関係の決定方法は、
カメラアレイから第1のカメラを決定し、第1の座標系を決定し、
カメラアレイの各々のカメラの焦点距離と主点位置を取得し、
前記第1の座標系、前記カメラアレイの各々のカメラの焦点距離及び主点位置に基づいて、前記第2の座標系と前記第1の座標系との関係を決定するようになってもよい。
選択可能に、第1の座標系を決定した後、伝統的な碁盤目較正方法を利用して、カメラアレイの各々のカメラの焦点距離と主点位置を取得して、他の座標系のこの第1の座標系に対する回転と平行移動を決定することができる。
例を挙げると、カメラアレイがc1、c2、c3、c4、c5、c6、c7、c8、c9、c10、c11、c12、c13……c20であることを例とし、c11(中心に配置されたカメラ)を第1のカメラとし、第1の座標系を確立し、伝統的な碁盤目較正方法を用いて、全てのカメラの焦点距離f、主点位置(u,v)及び第1のカメラに対する回転と平行移動を取得する。各々のカメラの所在する座標系を1つのカメラ座標系として定義し、双眼カメラ較正により、この第1の座標系における他のカメラのこの第1のカメラに対する位置と向きを計算する。それにより第1の座標系と第2の座標系との関係を決定できる。
本願の実施例では、このカメラアレイに少なくとも第1のカメラと第2のカメラが含まれ、また、本願の実施例は各カメラの間の位置や向きについて制限を加えなく、例えば、このカメラアレイのカメラが人の目の視線範囲をカバーできるように各カメラの間の関係を設置すればよい。
以上は例に過ぎず、具体的な実施形態では、更に、例えば、張正友較正法等の他の方法により第1の座標系と第2の座標系の関係を決定できることが理解可能であり、本願の実施例は限定するものではない。
図3を参照し、図3は本願の実施例で提供されたニューラルネットワークのトレーニング方法を模式的に示すフローチャートであり、このニューラルネットワークのトレーニング方法は、サーバと、携帯電話、タブレットコンピュータ、デスクトップコンピュータ、携帯情報端末等を含でよい端末装置とを含んでよい視線追跡装置に利用可能であり、本願の実施例はこの視線追跡装置の具体的な形態を一意的に限定するものではない。このニューラルネットワークのトレーニング方法は、更に、サーバと端末装置を含んでよいニューラルネットワークのトレーニング装置に利用可能であることが理解可能である。ここで、このニューラルネットワークのトレーニング装置は、視線追跡装置と同一の種類の装置であってもよく、又は、視線追跡装置と異なる種類の装置等であってもよく、本願の実施例は限定するものではない。
図3に示すように、このニューラルネットワークのトレーニング方法は、以下のステップを含む。
301において、第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定し、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含む。
本願の実施例では、第1の画像はカメラにより撮影された2D写真であり、この第1の画像はニューラルネットワークに入力されてこのニューラルネットワークをトレーニングする画像である。選択可能に、この第1の画像の数量は少なくとも2つであり、また、この第1の画像の具体的な数量は、トレーニング具合に応じて決定されるので、本願の実施例はこの第1の画像の数量について制限を加えない。
選択可能に、図4aを参照し、図4aは本願の実施例で提供された第1の視線方向を決定する方法を模式的に示すフローチャートである。
302において、ニューラルネットワークにより前記第1の画像の視線方向を検出して、第1の検出視線方向を取得し、前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングする。
選択可能に、第1の画像は瞳孔に対応する画像であってよく、即ちこの第1の画像は人の目の画像、例えば図4bに示す右の画像であってよい。しかしながら、実際の生活において、得られる画像が人の体全体の画像であり、又は図4bの左に示すような人の上半身の画像であり、又は図4bの中央に示すような人の頭部画像であり得る。これらの画像を直接ニューラルネットワークに入力すれば、ニューラルネットワークの処理負荷を増加することがあり、ニューラルネットワークに対して干渉を引き起こすこともある。
本願の実施例では、第1の視線方向と第1の検出視線方向を取得することにより、ニューラルネットワークのトレーニング正確性を効果的に高めることができる。
従って、本願の実施例は、第1の画像の取得方法を更に提供する。ここで、この第1の画像を取得する方法は、
顔検出方法により顔の画像における位置を取得し、この画像において眼の占める割合が所定割合以上であり、
顔キーポイントの位置測定により、この画像における眼の位置を決定し、
この画像を切り取り、この画像における眼の画像を取得するようになってもよい。
ここで、この画像における眼の画像は第1の画像である。
選択可能に、顔が一定の回転角度である可能性があるため、顔キーポイントの位置測定により、この画像における眼の位置を決定した後、更に両方の目の目頭の水平軸座標を同様になるように回転してもよい。そのようにして両方の目の目頭の水平軸座標を同様になるように回転した後、回転後の画像における眼を切り取って、第1の画像を取得する。
所定割合は、画像における眼の占める大きさを判断するために設定され、この所定割合の設定目的は、取得された画像を切り取る必要があるか否かを決定するためであり、そのため、所定割合の詳細はユーザに設定されてもよく、ニューラルネットワークのトレーニング装置により自動的に設定される等のようになってもよいことが理解可能であり、本願の実施例は限定するものではない。例を挙げると、前記画像がちょうど眼の画像であれば、この画像を直接ニューラルネットワークに入力してよい。更に例を挙げると、前記画像における眼の占める割合が1/10であれば、第1の画像を取得するために画像に対して切り取る等の操作を行う必要があることを示す。
トレーニングの効果を高め、ニューラルネットワークの出力する視線方向の正確度を高めるために、本願の実施例では、更に第1の視線方向、第1の検出視線方向、第2の検出視線方向及び第2の視線方向に基づいて、このニューラルネットワークをトレーニングすることができる。従って、ニューラルネットワークにより前記第1の画像の視線方向を検出して、第1の検出視線方向を取得し、前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記ニューラルネットワークにより、前記第1の画像と第2の画像の視線方向をそれぞれ検出し、前記第1の検出視線方向と第2の検出視線方向をそれぞれ取得するステップであって、前記第2の画像が前記第1の画像にノイズを付加して得られたものであるステップと、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップであって、前記第2の視線方向が前記第1の視線方向にノイズを付加して得られたものであるステップと、を含む。
本願の実施例では、第1の検出視線方向と第2の検出視線方向を取得し、第1の視線方向、この第1の検出視線方向、この第2の検出視線方向及び第2の視線方向に基づいて、ニューラルネットワークをトレーニングすることで、トレーニングの正確性を高めることができる。
前記ニューラルネットワークは深層ニューラルネットワーク(deep neural network、DNN)又は畳み込みニューラルネットワーク(convolutional neural network、CNN)等を含んでよいことが理解可能であり、本願の実施例はこのニューラルネットワークの具体的な形態について制限を加えない。
本願の実施例では、第1の画像がビデオストリームデータ内の画像である場合に、第1の画像を取得する時に、振れが発生することがあり、即ち視線方向に一定の振れが発生することがあり、従って、視線方向の振れの発生を防止し、ニューラルネットワークの出力安定性を高めるために、第1の画像にノイズを付加することができる。ここで、第1の画像にノイズを付加する方法は、例えば、回転、平行移動、寸法拡大及び寸法縮小のいずれか一項又は複数項を含んでもよい。即ち、第1の画像に対して回転、平行移動、寸法拡大及び寸法縮小等を行うことで第2の画像を取得することができる。
ここで、第1の視線方向は、瞳孔が第1のカメラに注視する方向であり、即ちこの第1の視線方向は瞳孔とカメラの位置により決定される視線方向であり、第1の検出視線方向は第1の画像をニューラルネットワークにより出力した後の視線方向であり、即ち、この第1の検出視線方向はニューラルネットワークにより予測された視線方向であり、具体的にはニューラルネットワークにより予測された、第1の画像に対応する視線方向であり、第2の検出視線方向は、ノイズを付加した後の第1の画像、即ち第2の画像をニューラルネットワークにより出力した視線方向であり、即ちこの第2の検出視線方向はニューラルネットワークにより予測される視線方向であり、具体的にはニューラルネットワークにより予測される、第2の画像に対応する視線方向であり、第2の視線方向は第2の画像に対応する視線方向であり、即ちこの第2の視線方向は第1の視線方向に同様なノイズ付加処理(即ち、第2の画像を取得するノイズ付加方法と一致する)を行った後変換された視線方向である。
つまり、視線の取得方式に関しては、第2の視線方向は第1の視線方向に対応し、第1の検出視線方向は第2の検出視線方向に対応し、視線に対応する画像に関しては、第1の視線方向は第1の検出視線方向に対応し、第2の検出視線方向は第2の視線方向に対応する。以上の説明は第1の視線方向、第1の検出視線方向、第2の検出視線方向及び第2の視線方向をより容易に理解させるためのものであることが理解可能である。
本願の実施例を実施することで、ニューラルネットワークのトレーニング効果を効果的に高め、ニューラルネットワークの出力する視線方向の正確度を高めることができる。
更に、本願の実施例は、ニューラルネットワークをトレーニングする方法を2種提供し、具体的には以下のようになる。
(実施形態1)
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第1の視線方向と前記第1の検出視線方向との第3の損失及び前記第2の視線方向と前記第2の検出視線方向との第4の損失により、前記ニューラルネットワークのネットワークパラメータを調整するステップを含む。
ここで、ニューラルネットワークのネットワークパラメータは畳み込みカーネルの大きさ又は重みパラメータ等を含んでよく、本願の実施例はこのニューラルネットワークに具体的に含まれるネットワークパラメータについて制限を加えない。
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップの前に、前記方法は、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行うステップを更に含み、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップは、
正規化処理後の前記第1の視線方向、正規化処理後の前記第2の視線方向、正規化処理後の前記第1の検出視線方向及び正規化処理後の前記第2の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップを含むことが理解可能である。
本願の実施例では、ベクトルの第1の視線方向、第1の検出視線方向、第2の視線方向及び第2の検出視線方向に対して正規化処理を行うことにより、損失関数を簡単化し、損失関数の計算の正確性を高め、損失関数の計算の複雑性を回避することができる。ここで、この損失関数は第1の視線方向と第1の検出視線方向の損失であってもよく、第1のオフセットベクトルと第2のオフセットベクトルの損失であってよく、更に第2の視線方向と第2の検出視線方向の損失であってもよい。
つまり、正規化処理後の前記第1の視線方向と正規化処理後の前記第1の検出視線方向との第3の損失、及び正規化処理後の前記第2の視線方向と正規化処理後の前記第2の検出視線方向との第4の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整することができる。
ここで、第1の視線方向を(x3、y3、z3)とし、第1の検出視線方向を(x4、y4、z4)とすれば、正規化処理の方式は式(3)及び式(4)に示すようになってもよい。
Figure 2021530823
ただし、
Figure 2021530823
は正規化処理後の第1の視線方向である。
Figure 2021530823
ただし、
Figure 2021530823
は正規化処理後の第1の検出視線方向である。
第3の損失の計算方式は式(5)に示すようになってもよい
Figure 2021530823
ただし、lossは第3の損失である。
以上の各英字又はパラメータの表現形態は例に過ぎず、本願の実施例を限定するものであると理解すべきではないことが理解可能である。
第1の視線方向、第1の検出視線方向、第2の視線方向及び第2の検出視線方向の正規化処理により、各視線方向でのノルムの影響を解消することができ、そのように視線方向のみが注目され、更にニューラルネットワークのトレーニング正確度を更に高めることができる。
(実施形態2)
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第1の視線方向と前記第1の検出視線方向との第1の損失を決定するステップと、
第1のオフセットベクトルと第2のオフセットベクトルとの第2の損失を決定するステップであって、前記第1のオフセットベクトルが、前記第1の視線方向と前記第2の視線方向の間のオフセットベクトルであり、前記第2のオフセットベクトルが、前記第1の検出視線方向と前記第2の検出視線方向の間のオフセットベクトルであるステップと、
前記第1の損失と前記第2の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含む。
本願の実施例では、第1の視線方向と第1の検出視線方向の損失によりニューラルネットワークをトレーニングするだけではなく、更に第1のオフセットベクトルと第2のオフセットベクトルの損失によりこのニューラルネットワークをトレーニングし、入力画像データの強調により、視線追跡プロセスでの視線の振れの問題を効果的に防止すると共に、ニューラルネットワークのトレーニングの安定性や正確性を高めることができる。
ここで、第1の視線方向を(x3、y3、z3)とし、第1の検出視線方向を(x4、y4、z4)とし、第2の検出視線方向を(x5、y5、z5)とし、第2の視線方向を(x6、y6、z6)とすれば、第1のオフセットベクトルは(x3−x6、y3−y6、z3−z6)になり、第2のオフセットベクトルは(x4−x5、y4−y5、z4−z5)になる。
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップの前に、前記方法は、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行うステップを更に含み、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
正規化処理後の前記第1の視線方向、正規化処理後の前記第2の視線方向、正規化処理後の前記第1の検出視線方向及び正規化処理後の前記第2の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップを含むことが理解可能である。
本願の実施例では、ベクトルの第1の視線方向、第1の検出視線方向、第2の視線方向及び第2の検出視線方向に対して正規化処理を行うことにより、損失関数を簡単化し、損失関数の計算の正確性を高め、損失関数の計算の複雑性を回避することができる。ここで、この損失関数は第1の視線方向と第1の検出視線方向の損失であってもよく、第1のオフセットベクトルと第2のオフセットベクトルの損失であってよく、更に第2の視線方向と第2の検出視線方向の損失であってもよい。
即ち、正規化処理後の前記第1の視線方向と前記第1の検出視線方向との第1の損失、及び正規化処理後の第1のオフセットベクトルと正規化処理後の第2のオフセットベクトルの第2の損失に基づいて、ニューラルネットワークのネットワークパラメータを調整することができる。ここで、正規化処理後の第1のオフセットベクトルは正規化処理後の前記第1の視線方向と正規化処理後の前記第2の視線方向の間のオフセットベクトルであり、正規化処理後の第2のオフセットベクトルは正規化処理後の前記第1の検出視線方向と正規化処理後の前記第2の検出視線方向の間のオフセットベクトルである。
ここで、正規化処理の具体的な実施形態については、実施形態1に示す実施形態を参照してもよく、ここで詳細な説明は割愛する。
第1の視線方向、第1の検出視線方向、第2の視線方向及び第2の検出視線方向の正規化処理により、各視線方向でのノルムの影響を解消することができ、そのように視線方向のみが注目され、更にニューラルネットワークのトレーニング正確度を更に高めることができる。
可能な実施形態では、前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行う前記ステップの前に、前記方法は、
前記第1の画像における眼部位置を決定するステップと、
前記眼部位置に基づいて、前記第1の画像に対して回転処理を行って、前記第1の画像における双眼位置を水平軸上で同様にするステップと、を更に含む。
本願の実施例では、第1の画像における眼部位置の決定は、具体的にこの第1の画像における左眼位置と右眼位置をそれぞれ決定し、この左眼位置に対応する画像及び右眼位置に対応する画像を切り取り、次に前記右眼位置に対応する画像と左眼位置に対応する画像に対してそれぞれ回転処理を行って、双眼位置を水平軸上で同様にするようになってもよいことが理解可能である。
視線方向の平滑性を更に高めるために、前記ニューラルネットワークにより前記第1の画像の視線方向を検出して、第1の検出視線方向を取得するステップは、
前記第1の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するNフレームの画像の視線方向をそれぞれ検出し、Nが1以上の整数であるステップと、
前記隣接するNフレームの画像の視線方向に基づいて、N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するステップと、を含むことが理解可能である。
ここで、本願の実施例はNの具体的な値について制限を加えなく、この隣接するNフレームの画像はN番目のフレーム画像の前のNフレームの画像(N番目のフレーム画像を含み)であってもよく、後のNフレームの画像であってもよく、更に前後のNフレームの画像等であってもよく、本願の実施例は限定するものではない。
本願の実施例では、ビデオ視線追跡において、ニューラルネットワークの出力した視線方向に依然として振れが存在することがあるので、Nフレームの画像の視線方向に基づいて、N番目のフレーム画像の視線方向を決定して、ニューラルネットワークに検出された視線方向に基づいて更に平滑処理を行うことで、ニューラルネットワークにより検出された視線方向の安定性を高めることができる。
選択可能に、隣接するNフレームの画像の視線方向の算術平均によりN番目のフレーム画像の視線方向を決定して、この視線方向を平滑に処理することで、得られる第1の検出視線方向をより安定的にすることができる。
第2の検出視線方向の決定方法は前記方法により取得できることが理解可能であり、ここで一つずつ詳細に説明することを省略する。
本願の実施例では、第1の検出視線方向と第2の検出視線方向を取得し、第1の視線方向、この第1の検出視線方向及びこの第2の検出視線方向に基づいて、ニューラルネットワーク(Neural Network)をトレーニングすることにより、ニューラルネットワークのトレーニング正確性を高めると共に、ニューラルネットワークを効率的にトレーニングすることができる。
以上の方法によりニューラルネットワークをトレーニングしてニューラルネットワークを取得した後、このニューラルネットワークのトレーニング装置は直接このニューラルネットワークを用いて線方向を予測することができるようになり、又は、このニューラルネットワークのトレーニング装置はこのトレーニングされたニューラルネットワークを他の装置に送信し、この他の装置はこのトレーニングされたニューラルネットワークを用いて視線方向を予測することも可能になることが理解可能である。このニューラルネットワークのトレーニング装置は具体的にどの装置に送信するかについては、本願の実施例は限定するものではない。
図4aを参照し、図4aは本願の実施例で提供された第1の視線方向を決定する方法を模式的に示すフローチャートであり、図4aに示すように、この第1の視線方向を決定する方法は、以下のステップを含む。
401において、カメラアレイから第1のカメラを決定し、瞳孔の前記第1のカメラに対応する第1の座標系における座標を決定する。
本願の実施例では、この第1のカメラの焦点距離及び主点位置に基づいて瞳孔の第1の座標系における座標を決定することができる。
選択可能に、前記瞳孔の前記第1の座標系における座標を決定する前記ステップは、
前記瞳孔の前記第1の画像における座標を決定するステップと、
前記瞳孔の前記第1の画像における座標、前記第1のカメラの焦点距離及び主点位置に基づいて、前記瞳孔の前記第1の座標系における座標を決定するステップと、を含む。
本願の実施例では、撮影された1枚の眼の2D写真、即ち第1の画像については、直接人の目の瞳孔縁点を検出するネットワークモデルにより瞳孔縁の周囲の一回りの点を抽出し、次にこの瞳孔縁の周囲の一回りの点により瞳孔位置の座標、例えば(m、n)を算出するようにしてもよい。ここで、算出される瞳孔位置の座標(m、n)は瞳孔の第1の画像における座標と理解してよい。また、この瞳孔の画素座標系における座標と理解してもよい。
この第1の画像を撮影するカメラ、即ち第1のカメラの焦点距離をfとし、主点位置を(u、v)とすれば、瞳孔をこの第1のカメラの結像平面に投影した点のこの第1の座標系における座標が(m−u、n−v、f)となる。
402において、前記カメラアレイの第2のカメラにより、前記瞳孔の第2の座標系における座標を決定するステップであって、前記第2の座標系が前記第2のカメラに対応する。
前記カメラアレイの第2のカメラにより前記瞳孔の第2の座標系における座標を決定する前記ステップは、
前記第1の座標系、前記カメラアレイの各々のカメラの焦点距離及び主点位置に基づいて、前記第1の座標系と前記第2の座標系との関係を決定するステップと、
前記第2の座標系と前記第1の座標系との関係に基づいて、前記瞳孔の前記第2の座標系における座標を決定するステップと、を含む。
本願の実施例では、第1の座標系と第2の座標系との関係の決定方法は、前述した実施例についての説明を参照してもよく、ここで一つずつ詳細に説明することを省略する。瞳孔の第1の座標系における座標を取得した後、この第1の座標系と第2の座標系との関係に基づいて、瞳孔の第2の座標系における座標を取得することができる。
403において、前記瞳孔の前記第1の座標系における座標及び前記瞳孔の前記第2の座標系における座標に基づいて、前記第1の視線方向を決定する。
本願の実施例では、第1のカメラはカメラアレイ内の任意カメラであってもよいことが理解可能であり、選択可能に、この第1のカメラは少なくとも2つのカメラである。つまり、少なくとも2つの第1のカメラで撮影して2つの第1の画像を取得して、瞳孔の少なくとも2つの第1のカメラの一方での座標をそれぞれ取得することができ(詳細については前記説明を参照してもよい)、更にそれぞれの座標系における座標を第2の座標系に統一することができる。そのようにして、瞳孔の第1の座標系における座標及び第2の座標系における座標を順に決定した後、カメラ、瞳孔の投影点及び瞳孔の三点が1本の線になる性質により同一の座標系における座標を取得することができ、図4cに示すように、瞳孔(即ち、図4cにおける瞳孔中心)のこの第2の座標系における座標はこれらの直線の共同の交点となる。
選択可能に、視線方向はカメラ位置と人の目の位置との接続線の方向と定義してもよい。選択可能に、前記第1の視線方向の計算式は式(6)に示すようになってもよい。
Figure 2021530823
ただし、
Figure 2021530823
は前記第1の視線方向であり、(x1、y1、z1)は前記第1のカメラの座標系cでの座標であり、(x2、y2、z2)は前記瞳孔の前記座標系cでの座標である。
本願の実施例は、この座標系cについて制限を加えなく、例えば、座標系cは第2の座標系であってよもよく、又は、この座標系は更に第1の座標系の任意の座標系等であってもよい。
以上は本願の実施例で提供された1種の第1の視線方向の決定方法に過ぎず、具体的な実施形態では更に他の形態を含んでもよいことが理解可能であり、ここで一つずつ詳細に説明することを省略する。
図5を参照し、図5は本願の実施例で提供された別の視線追跡方法を模式的に示すフローチャートであり、図5に示すように、この視線追跡方法は以下のステップを含む。
501において、第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定し、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含む。
502において、前記ニューラルネットワークにより、前記第1の画像と第2の画像の視線方向をそれぞれ検出し、前記第1の検出視線方向と第2の検出視線方向をそれぞれ取得し、前記第2の画像が、前記第1の画像にノイズを付加して得られたものである。
503において、前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングし、前記第2の視線方向が前記第1の視線方向にノイズを付加して得られたものである。
ステップ501〜ステップ503の具体的な実施形態については、図3に示すニューラルネットワークのトレーニング方法の具体的な実施形態を参照してもよく、ここで一つずつ詳細に説明することを省略することが理解可能である。
504において、ビデオストリームデータに含まれる第3の画像に対して顔検出を行う。
本願の実施例では、ビデオにより人の目の視線を追跡する時に、トレーニングされたニューラルネットワークにより各フレーム画像に対応する視線方向を取得することができる。
505において、検出された前記第3の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定する。
506において、前記第3の画像における前記眼部領域画像を切り取る。
507において、前記眼部領域画像を前記ニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力する。
本願の実施例でトレーニングされたニューラルネットワークは、写真データによる視線追跡にも利用できることが理解可能であり、ここで一つずつ詳細に説明することを省略する。
ステップ504〜ステップ507の具体的な実施形態については、図1に示す視線追跡方法の具体的な実施形態を参照してもよいことが理解可能であり、ここで一つずつ詳細に説明することを省略する。
図5に示す具体的な実施形態については、図1、図3及び図4aに示す方法を対応して参照してもよいことが理解可能であり、ここで一つずつ詳細に説明することを省略する。
本願の実施例の実施で、第1の視線方向、第1の検出視線方向、第2の視線方向及び第2の検出視線方向を用いてニューラルネットワークをトレーニングして、ニューラルネットワークのトレーニング正確度を効果的に高めることができ、更に、第3の画像の視線方向予測の正確度を効果的に高めることができる。
以上の各実施例で説明された重点はそれぞれ異なっており、1つの実施例で詳細に説明されなかった実施形態については更に他の実施例を参照してもよく、ここで一つずつ詳細に説明することを省略する。
以上、本願の実施例の方法を詳細に説明したが、以下、本願の実施例の装置を提供する。
図6を参照し、図6は本願の実施例で提供されたニューラルネットワークのトレーニング装置の構造模式図であり、図6に示すように、このニューラルネットワークのトレーニング装置は、
第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定し、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含むための第1の決定ユニット601と、
ニューラルネットワークにより前記第1の画像の視線方向を検出して、第1の検出視線方向を取得するための検出ユニット602と、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニット603と、を含んでもよい。
本願の実施例を実施する場合に、第1の検出視線方向を取得し、第1の視線方向とこの第1の検出視線方向に基づいて、ニューラルネットワークをトレーニングすることで、トレーニングの正確性を高めることができる。
選択可能に、前記検出ユニット602は、具体的に、前記ニューラルネットワークにより、前記第1の画像と第2の画像の視線方向をそれぞれ検出し、前記第1の検出視線方向と第2の検出視線方向をそれぞれ取得するために用いられ、前記第2の画像が、前記第1の画像にノイズを付加して得られたものである。
前記トレーニングユニット603は、具体的に、前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングするために用いられ、前記第2の視線方向が前記第1の視線方向にノイズを付加して得られたものである。
選択可能に、前記トレーニングユニット603は、具体的に、前記第1の視線方向と前記第1の検出視線方向との第3の損失及び前記第2の視線方向と前記第2の検出視線方向との第4の損失により、前記ニューラルネットワークのネットワークパラメータを調整するために用いられる。
選択可能に、図7に示すように、前記トレーニングユニット603は、
前記第1の視線方向と前記第1の検出視線方向との第1の損失を決定するための第1の決定サブユニット6031と、
第1のオフセットベクトルと第2のオフセットベクトルとの第2の損失を決定するために用いられる第2の決定サブユニット6032であって、前記第1のオフセットベクトルが、前記第1の視線方向と前記第2の視線方向の間のオフセットベクトルであり、前記第2のオフセットベクトルが、前記第1の検出視線方向と前記第2の検出視線方向の間のオフセットベクトルである第2の決定サブユニット6032と、
前記第1の損失と前記第2の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整サブユニット6033と、を含む。
選択可能に、図8に示すように、前記装置は、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行うための正規化処理ユニット604と、
具体的に、正規化処理後の前記第1の視線方向、正規化処理後の前記第2の視線方向、正規化処理後の前記第1の検出視線方向及び正規化処理後の前記第2の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするための前記トレーニングユニット603と、を更に含む。
選択可能に、図8に示すように、前記装置は、
前記第1の画像内の眼部位置を決定するための第2の決定ユニット605と、
前記眼部位置に基づいて、前記第1の画像に対して回転処理を行って、前記第1の画像における双眼位置を水平軸上で同様にするための回転処理ユニット606と、を更に含む。
選択可能に、図9に示すように、前記検出ユニット602は、
前記第1の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するNフレームの画像の視線方向をそれぞれ検出し、Nが1以上の整数であるための検出サブユニット6021と、
前記隣接するNフレームの画像の視線方向に基づいて、N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するための第3の決定サブユニット6022と、を含む。
選択可能に、前記第3の決定サブユニット6022は、具体的に、前記隣接するNフレームの画像の視線方向の算術平均に基づいて、前記N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するために用いられる。
選択可能に、前記第1の決定ユニット601は、具体的に、カメラアレイから前記第1のカメラを決定し、前記瞳孔の第1の座標系における座標を決定するステップであって、前記第1の座標系が、前記第1のカメラに対応するステップと、前記カメラアレイの第2のカメラにより、前記瞳孔の第2の座標系における座標を決定するステップであって、前記第2の座標系が前記第2のカメラに対応するステップと、前記瞳孔の前記第1の座標系における座標及び前記瞳孔の前記第2の座標系における座標に基づいて、前記第1の視線方向を決定するステップと、を実行するために用いられる。
選択可能に、前記第1の決定ユニット601は、具体的に、前記瞳孔の前記第1の画像における座標を決定するステップと、前記瞳孔の前記第1の画像における座標、前記第1のカメラの焦点距離及び主点位置に基づいて、前記瞳孔の前記第1の座標系における座標を決定するステップと、を実行するために用いられる。
選択可能に、前記第1の決定ユニット601は、具体的に、前記第1の座標系、前記カメラアレイの各々のカメラの焦点距離及び主点位置に基づいて、前記第1の座標系と前記第2の座標系との関係を決定するステップと、前記第2の座標系と前記第1の座標系との関係に基づいて、前記瞳孔の前記第2の座標系における座標を決定するステップと、を実行するために用いられる。
各ユニットの実現及びその装置類実施例の技術的効果については、以上の説明又は図3〜図5に示す方法の実施例の対応記述を対応して参照してもよいことを説明する必要がある。
図10を参照し、図10は本願の実施例で提供された電子機器の構造模式図である。図10に示すように、この電子機器は、プロセッサー1001、メモリ1002及び入力出力インタフェース1003を含み、前記プロセッサー1001、メモリ1002及び入力出力インタフェース1003はバスを介して相互に接続される。
入力出力インタフェース1003は、データ及び/又は信号の入力、データ及び/又は信号の出力に用いられる。
メモリ1002は、ランダムアクセスメモリ(Random Access Memory、RAM)、読み出し専用メモリ(Read−Only Memory、ROM)、消去可能プログラマブル読み出し専用メモリ(Erasable Programmable Read Only Memory、EPROM)又はコンパクトディスク読み出し専用メモリ(Compact Disc Read−Only Memory、CD−ROM)を含むが、それらに限定されなく、このメモリ1002は、関連コマンド及びデータを記憶するために用いられる。
プロセッサー1001は、1つ又は複数の中央処理装置(Central Processing Unit、CPU)であってもよく、プロセッサー1001が1つのCPUである場合に、このCPUはシングルコアCPUであってもよく、マルチコアCPUであってもよい。
選択可能に、各操作の実現については、図3〜図5に示す方法の実施例の対応記述を対応して参照してもよい。又は、各操作の実現については、図6〜図9に示す実施例の対応記述を対応して参照してもよい。
例えば、一実施例では、プロセッサー1001は、ステップ301とステップ302に示す方法を実行するために用いられ、又は、プロセッサー1001は、更に第1の決定ユニット601、検出ユニット602及びトレーニングユニット603に実行される方法を実行するために用いられる。
図11を参照し、図11は本願の実施例で提供された視線追跡装置の構造模式図であり、この視線追跡装置は図1〜図5に示す対応の方法を実行するために用いられ、図11に示すように、この視線追跡装置は、
ビデオストリームデータに含まれる第3の画像に対して顔検出を行うための顔検出ユニット1101と、
検出された前記第3の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するための第1の決定ユニット1102と、
前記第3の画像における前記眼部領域画像を切り取るための切り取りユニット1103と、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するための入力出力ユニット1104と、を含む。
選択可能に、図12に示すように、この視線追跡装置は、
前記眼部領域画像の視線方向及び前記第3の画像の少なくとも1フレームの隣接する画像の視線方向に基づいて、前記第3の画像の視線方向を決定するための第2の決定ユニット1105を更に含む。
選択可能に、前記顔検出ユニット1101は、具体的に、トリガコマンドを受信した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うために用いられ、
又は、前記顔検出ユニット1101は、具体的に、車両作動中において、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うために用いられ、
又は、前記顔検出ユニット1101は、具体的に、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うために用いられる。
選択可能に、前記ビデオストリームデータは、車載カメラによる車両運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両運転領域内の運転者の視線方向であり、又は、前記ビデオストリームデータは車載カメラによる車両の非運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両の非運転領域内の車内人員の視線方向である。
選択可能に、図12に示すように、前記装置は、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップと、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行を決定するステップと、を実行するために用いられる第3の決定ユニット1106、又は、
前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するための出力ユニット1107を更に含む。
選択可能に、図12に示すように、前記出力ユニット1107は、前記運転者が脇見運転をしている場合に、警報通知情報を出力するために用いられる。
選択可能に、前記出力ユニット1107は、具体的に、前記運転者脇見運転の回数が基準回数に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニット1107は、具体的に、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニット1107は、具体的に、前記運転者の脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニット1107は、具体的に、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するために用いられる。
図12に示すように、前記装置は、
前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を記憶するための記憶ユニット1108、
又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信するための送信ユニット1109を更に含む。
選択可能に、図12に示すように、前記装置は、
第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定し、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含むための第4の決定ユニット1110と、
ニューラルネットワークにより前記第1の画像の視線方向を検出して、第1の検出視線方向を取得するための検出ユニット1111と、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニット1112と、を更に含む。
選択可能に、各ユニットの実現及びその装置類実施例の技術的効果については、以上の説明又は図1〜図5に示す方法の実施例の対応記述を対応して参照してもよいことを説明する必要がある。
第4の決定ユニット、検出ユニット及びトレーニングユニットの具体的な実施形態については、図6と図8に示す方法を参照してもよいことが理解可能であり、ここで一つずつ詳細に説明することを省略する。
図13を参照し、図13は本願の実施例で提供された電子機器の構造模式図である。図13に示すように、この電子機器はプロセッサー1301、メモリ1302及び入力出力インタフェース1303を含み、前記プロセッサー1301、メモリ1302及び入力出力インタフェース1303はバスを介して相互に接続される。
入力出力インタフェース1303は、データ及び/又は信号の入力、データ及び/又は信号の出力に用いられる。
メモリ1302は、RAM、ROM、EPROM又はCD−ROMを含むが、それらに限定されなく、このメモリ1302は、関連コマンド及びデータを記憶するために用いられる。
プロセッサー1301は1つ又は複数のCPUであってもよく、プロセッサー1301が1つのCPUである場合に、このCPUはシングルコアCPUであってもよく、マルチコアCPUであってもよい。
選択可能に、各操作の実現については、図1〜図5に示す方法の実施例の対応記述を対応して参照してもよい。又は、各操作の実現については、図11及び図12に示す実施例の対応記述を対応して参照してもよい。
例えば、一実施例では、プロセッサー1301は、ステップ101〜ステップ104に示す方法を実行するために用いられ、又は、プロセッサー1301は、更に顔検出ユニット1101、第1の決定ユニット1102、切り取りユニット1103及び入力出力ユニット1104に実行される方法を実行するために用いられる。
各操作の実現については他の実施例を参照してもよいことが理解可能であり、ここで一つずつ詳細に説明することを省略する。
本願が提供するいくつかの実施例では、開示したシステム、装置及び方法は、他の形態で実現することができることを理解すべきである。例えば、このユニットの分割は、論理機能の分割に過ぎず、実際に実現する場合に別の形態で分割してもよく、例えば、複数のユニットまたはコンポーネントは組み合わせてもよいし、または別のシステムに統合してもよいし、または一部の特徴を省略もしくは実行しなくてもよい。図示または説明した相互の結合、または直接結合、または通信接続は、いくつかのインタフェース、装置またはユニットを介した間接結合または通信接続であり得、電気的、機械的または他の形態であり得る。
別々の部材としてユニットは物理的に分離されてもされなくてもよく、ユニットとして表示された部材は物理的ユニットであってもなくてもよい、即ち一箇所にあっても複数のネットワークユニットに分散してもよいし、本実施例の解決手段の目的を達成するには、実際の必要に応じて一部または全てのユニットを選択することができる。
前記実施例では、ソフトウェア、ハードウエア、ファームウエア又はそれらの任意の組合により全体的又は部分的に実現することができる。ソフトウェアにより実現する時に、コンピュータープログラム製品として全体的又は部分的に実現することができる。このコンピュータープログラム製品は1つ又は複数のコンピューターコマンドを含む。コンピューターにこのコンピュータープログラムコマンドをロードし、実行する時に、本願の実施例によるフロー又は機能が全体的又は部分的に発生する。このコンピューターは汎用コンピューター、専用コンピューター、コンピューターネットワーク又は他のプログラマブルデバイスであってよい。このコンピューターコマンドはコンピューター読取可能記憶媒体に記憶されてもよいし、このコンピューター読取可能記憶媒体により伝送されてもよい。このコンピューターコマンドは1つのウエブサイト、コンピューター、サーバ又はデータセンタから有線(例えば、同軸ケーブル、光ファイバ、デジタル加入者回線(Digital Subscriber Line、DSL))又は無線(例えば、赤外線、無線、マイクロ波等)で別のウエブサイト、コンピューター、サーバ又はデータセンタに伝送可能である。このコンピューター読取可能記憶媒体は、コンピューターがアクセス可能ないかなる利用可能な媒体或いは1つ又は複数の利用可能な媒体を含んで統合されたサーバ、データセンタ等のデータ記憶装置であってよい。この利用可能な媒体はROM、RAM、又は磁気媒体であってよく、例えば、フロッピー(登録商標)ディスク、ハードディスク、磁気テープ、磁気ディスク又は光媒体、例えば、デジタル多用途ディスク(Digital Versatile Disc、DVD)又は半導体媒体、例えば、半導体ディスク(Solid State Disk、SSD)等が挙げられる。
第9の態様によれば、本願の実施例は、コマンドを含むコンピュータープログラム製品であって、コンピューター上で作動すると、コンピューターに本願の実施例で提供されたいずれか1つの方法を実行させるコンピュータープログラム製品を提供する。
例えば、本願は以下の項目を提供する。
(項目1)
第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定するステップであって、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含むステップと、
ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得するステップと、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップと、を含むニューラルネットワークのトレーニング方法。
(項目2)
ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得する前記ステップは、
前記ニューラルネットワークにより、前記第1の画像と第2の画像の視線方向をそれぞれ検出し、前記第1の検出視線方向と第2の検出視線方向をそれぞれ取得するステップであって、前記第2の画像が、前記第1の画像にノイズを付加して得られたものであるステップを含み、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップであって、前記第2の視線方向が前記第1の視線方向にノイズを付加して得られたものであるステップを含む項目1に記載の方法。
(項目3)
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第1の視線方向と前記第1の検出視線方向との第1の損失を決定するステップと、
第1のオフセットベクトルと第2のオフセットベクトルとの第2の損失を決定するステップであって、前記第1のオフセットベクトルが、前記第1の視線方向と前記第2の視線方向の間のオフセットベクトルであり、前記第2のオフセットベクトルが、前記第1の検出視線方向と前記第2の検出視線方向の間のオフセットベクトルであるステップと、
前記第1の損失と前記第2の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含む項目2に記載の方法。
(項目4)
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第1の視線方向と前記第1の検出視線方向との第3の損失、及び前記第2の視線方向と前記第2の検出視線方向との第4の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップを含む項目2に記載の方法。
(項目5)
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップの前に、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行うステップを含み、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
正規化処理後の前記第1の視線方向、正規化処理後の前記第2の視線方向、正規化処理後の前記第1の検出視線方向及び正規化処理後の前記第2の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップを更に含む項目3又は4に記載の方法。
(項目6)
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行う前記ステップの前に、
前記第1の画像における眼部位置を決定するステップと、
前記眼部位置に基づいて、前記第1の画像に対して回転処理を行って、前記第1の画像における双眼位置を水平軸上で同様にするステップと、を更に含む項目5に記載の方法。
(項目7)
ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得する前記ステップは、
前記第1の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するNフレームの画像の視線方向をそれぞれ検出し、Nが1以上の整数であるステップと、
前記隣接するNフレームの画像の視線方向に基づいて、N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するステップと、を含む項目1〜6のいずれか一項に記載の方法。
(項目8)
前記隣接するNフレームの画像の視線方向に基づいて、N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定する前記ステップは、
前記隣接するNフレームの画像の視線方向の算術平均に基づいて、前記N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するステップを含む項目7に記載の方法。
(項目9)
第1のカメラ及び第1の画像における瞳孔に基づいて第1の視線方向を決定する前記ステップは、
カメラアレイから前記第1のカメラを決定し、前記瞳孔の第1の座標系における座標を決定するステップであって、前記第1の座標系が、前記第1のカメラに対応するステップと、
前記カメラアレイの第2のカメラにより、前記瞳孔の第2の座標系における座標を決定するステップであって、前記第2の座標系が前記第2のカメラに対応するステップと、
前記瞳孔の前記第1の座標系における座標及び前記瞳孔の前記第2の座標系における座標に基づいて、前記第1の視線方向を決定するステップと、を含む項目1〜8のいずれか一項に記載の方法。
(項目10)
前記瞳孔の第1の座標系における座標を決定する前記ステップは、
前記瞳孔の前記第1の画像における座標を決定するステップと、
前記瞳孔の前記第1の画像における座標、前記第1のカメラの焦点距離及び主点位置に基づいて、前記瞳孔の前記第1の座標系における座標を決定するステップと、を含む項目9に記載の方法。
(項目11)
前記カメラアレイの第2のカメラにより前記瞳孔の第2の座標系における座標を決定する前記ステップは、
前記第1の座標系、前記カメラアレイの各カメラの焦点距離及び主点位置に基づいて、前記第1の座標系と前記第2の座標系との関係を決定するステップと、
前記第2の座標系と前記第1の座標系との関係に基づいて、前記瞳孔の前記第2の座標系における座標を決定するステップと、を含む項目9又は10に記載の方法。
(項目12)
ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップと、
検出された前記第3の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するステップと、
前記第3の画像における前記眼部領域画像を切り取るステップと、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するステップと、を含む視線追跡方法。
(項目13)
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力する前記ステップの後に、
前記眼部領域画像の視線方向及び前記第3の画像の少なくとも1フレームの隣接する画像の視線方向に基づいて、前記第3の画像の視線方向を決定するステップを更に含む項目12に記載の方法。
(項目14)
ビデオストリームデータに含まれる第3の画像に対して顔検出を行う前記ステップは、
トリガコマンドを受信した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップ、
又は、車両作動中において、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップ、
又は、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップを含む項目12又は13に記載の方法。
(項目15)
前記ビデオストリームデータは、車載カメラによる車両運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両運転領域内の運転者の視線方向であり、又は、前記ビデオストリームデータは、車載カメラによる車両の非運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両の非運転領域内の車内人員の視線方向である項目14に記載の方法。
(項目16)
前記眼部領域画像の視線方向を出力する前記ステップの後に、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップ、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行動を決定するステップ、又は前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するステップを更に含む項目15に記載の方法。
(項目17)
前記運転者が脇見運転をしている場合に、警報通知情報を出力するステップを更に含む項目16に記載の方法。
(項目18)
警報通知情報を出力する前記ステップは、
前記運転者脇見運転の回数が基準回数に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するステップを含む項目17に記載の方法。
(項目19)
前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を記憶するステップ、
又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信するステップを更に含む項目17又は18に記載の方法。
(項目20)
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力する前記ステップの前に、項目1〜11のいずれか一項に記載の方法を用いて前記ニューラルネットワークをトレーニングするステップを更に含む項目12〜19のいずれか一項に記載の方法。
(項目21)
第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定するための第1の決定ユニットであって、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含む第1の決定ユニットと、
ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得するための検出ユニットと、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニットと、を含むニューラルネットワークのトレーニング装置。
(項目22)
前記検出ユニットは、具体的に、前記ニューラルネットワークにより、前記第1の画像と第2の画像の視線方向をそれぞれ検出し、前記第1の検出視線方向と第2の検出視線方向をそれぞれ取得するステップであって、前記第2の画像が、前記第1の画像にノイズを付加して得られたものであるために用いられ、
前記トレーニングユニットは、具体的に、前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングするために用いられ、前記第2の視線方向が前記第1の視線方向にノイズを付加して得られたものである項目21に記載の装置。
(項目23)
前記トレーニングユニットは、
前記第1の視線方向と前記第1の検出視線方向との第1の損失を決定するための第1の決定サブユニットと、
第1のオフセットベクトルと第2のオフセットベクトルとの第2の損失を決定するための第2の決定サブユニットであって、前記第1のオフセットベクトルが、前記第1の視線方向と前記第2の視線方向の間のオフセットベクトルであり、前記第2のオフセットベクトルが、前記第1の検出視線方向と前記第2の検出視線方向の間のオフセットベクトルである第2の決定サブユニットと、
前記第1の損失と前記第2の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整サブユニットと、を含む項目22に記載の装置。
(項目24)
前記トレーニングユニットは、具体的に、前記第1の視線方向と前記第1の検出視線方向との第3の損失、及び前記第2の視線方向と前記第2の検出視線方向との第4の損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整するために用いられる項目22に記載の装置。
(項目25)
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行うための正規化処理ユニットと、
具体的に、正規化処理後の前記第1の視線方向、正規化処理後の前記第2の視線方向、正規化処理後の前記第1の検出視線方向及び正規化処理後の前記第2の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするための前記トレーニングユニットと、を更に含む項目23又は24に記載の装置。
(項目26)
前記第1の画像における眼部位置を決定するための第2の決定ユニットと、
前記眼部位置に基づいて、前記第1の画像に対して回転処理を行って、前記第1の画像における双眼位置を水平軸上で同様にするための回転処理ユニットと、を更に含む項目25に記載の装置。
(項目27)
前記検出ユニットは、
前記第1の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するNフレームの画像の視線方向をそれぞれ検出し、Nが1以上の整数であるための検出サブユニットと、
前記隣接するNフレームの画像の視線方向に基づいて、N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するための第3の決定サブユニットと、を含む項目21〜26のいずれか一項に記載の装置。
(項目28)
前記第3の決定サブユニットは、具体的に、前記隣接するNフレームの画像の視線方向の算術平均に基づいて、前記N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するために用いられる項目27に記載の装置。
(項目29)
前記第1の決定ユニットは、具体的に、カメラアレイから前記第1のカメラを決定し、前記瞳孔の第1の座標系における座標を決定するステップであって、前記第1の座標系が、前記第1のカメラに対応するステップと、前記カメラアレイの第2のカメラにより、前記瞳孔の第2の座標系における座標を決定するステップであって、前記第2の座標系が前記第2のカメラに対応するステップと、前記瞳孔の前記第1の座標系における座標及び前記瞳孔の前記第2の座標系における座標に基づいて、前記第1の視線方向を決定するステップと、を実行するために用いられる項目21〜28に記載の装置。
(項目30)
前記第1の決定ユニットは、具体的に、前記瞳孔の前記第1の画像における座標を決定するステップと、前記瞳孔の前記第1の画像における座標、前記第1のカメラの焦点距離及び主点位置に基づいて、前記瞳孔の前記第1の座標系における座標を決定するステップと、を実行するために用いられる項目29に記載の装置。
(項目31)
前記第1の決定ユニットは、具体的に、前記第1の座標系、前記カメラアレイの各カメラの焦点距離及び主点位置に基づいて、前記第1の座標系と前記第2の座標系との関係を決定するステップと、前記第2の座標系と前記第1の座標系との関係に基づいて、前記瞳孔の前記第2の座標系における座標を決定するステップと、を実行するために用いられる項目29又は30に記載の装置。
(項目32)
ビデオストリームデータに含まれる第3の画像に対して顔検出を行うための顔検出ユニットと、
検出された前記第3の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するための第1の決定ユニットと、
前記第3の画像における前記眼部領域画像を切り取るための切り取りユニットと、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するための入力出力ユニットと、を含む視線追跡装置。
(項目33)
前記眼部領域画像の視線方向及び前記第3の画像の少なくとも1フレームの隣接する画像の視線方向に基づいて、前記第3の画像の視線方向を決定するための第2の決定ユニットを更に含む項目32に記載の装置。
(項目34)
前記顔検出ユニットは、具体的に、トリガコマンドを受信した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うために用いられ、
又は、前記顔検出ユニットは、具体的に、車両作動中において、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うために用いられ、
又は、前記顔検出ユニットは、具体的に、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うために用いられる項目32又は33に記載の装置。
(項目35)
前記ビデオストリームデータは、車載カメラによる車両運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両運転領域内の運転者の視線方向であり、又は、前記ビデオストリームデータは車載カメラによる車両の非運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両の非運転領域内の車内人員の視線方向である項目34に記載の装置。
(項目36)
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップと、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行動を決定するステップと、を実行するために用いられる第3の決定ユニット、又は、
前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するための出力ユニットを更に含む項目35に記載の装置。
(項目37)
前記出力ユニットは、前記運転者が脇見運転をしている場合に、警報通知情報を出力するために用いられる項目36に記載の装置。
(項目38)
前記出力ユニットは、具体的に、前記運転者脇見運転の回数が基準回数に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニットは、具体的に、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニットは、具体的に、前記運転者脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニットは、具体的に、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するために用いられる項目37に記載の装置。
(項目39)
前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を記憶するための記憶ユニット、
又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信するための送信ユニットを更に含む項目37又は38に記載の装置。
(項目40)
第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定するための第4の決定ユニットであって、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含む第4の決定ユニットと、
ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得するための検出ユニットと、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニットと、を更に含む項目32〜39のいずれか一項に記載の装置。
(項目41)
プロセッサーと、プログラムコマンドを記憶するためのメモリとを含み、前記プロセッサーと前記メモリが回路を介して接続され、前記プログラムコマンドが前記プロセッサーにより実行されると、前記プロセッサーに項目1〜11のいずれか一項に記載の方法を実行させる電子機器。
(項目42)
プロセッサーと、プログラムコマンドを記憶するためのメモリとを含み、前記プロセッサーと前記メモリが回路を介して接続され、前記プログラムコマンドが前記プロセッサーにより実行されると、前記プロセッサーに項目12〜20のいずれか一項に記載の方法を実行させる電子機器。
(項目43)
プログラムコマンドを含むコンピュータープログラムが記憶されているコンピューター読取可能記憶媒体であって、前記プログラムコマンドがプロセッサーにより実行されると、前記プロセッサーに項目1〜11のいずれか一項に記載の方法を実行させ、及び/又は前記プロセッサーに項目12〜20のいずれか一項に記載の方法を実行させるコンピューター読取可能記憶媒体。

Claims (43)

  1. 第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定するステップであって、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含むステップと、
    ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得するステップと、
    前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップと、を含むニューラルネットワークのトレーニング方法。
  2. ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得する前記ステップは、
    前記ニューラルネットワークにより、前記第1の画像と第2の画像の視線方向をそれぞれ検出し、前記第1の検出視線方向と第2の検出視線方向をそれぞれ取得するステップであって、前記第2の画像が、前記第1の画像にノイズを付加して得られたものであるステップを含み、
    前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
    前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップであって、前記第2の視線方向が前記第1の視線方向にノイズを付加して得られたものであるステップを含む請求項1に記載の方法。
  3. 前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
    前記第1の視線方向と前記第1の検出視線方向との第1の損失を決定するステップと、
    第1のオフセットベクトルと第2のオフセットベクトルとの第2の損失を決定するステップであって、前記第1のオフセットベクトルが、前記第1の視線方向と前記第2の視線方向の間のオフセットベクトルであり、前記第2のオフセットベクトルが、前記第1の検出視線方向と前記第2の検出視線方向の間のオフセットベクトルであるステップと、
    前記第1の損失と前記第2の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含む請求項2に記載の方法。
  4. 前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
    前記第1の視線方向と前記第1の検出視線方向との第3の損失、及び前記第2の視線方向と前記第2の検出視線方向との第4の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップを含む請求項2に記載の方法。
  5. 前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップの前に、
    前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行うステップを含み、
    前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
    正規化処理後の前記第1の視線方向、正規化処理後の前記第2の視線方向、正規化処理後の前記第1の検出視線方向及び正規化処理後の前記第2の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップを更に含む請求項3又は4に記載の方法。
  6. 前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行う前記ステップの前に、
    前記第1の画像における眼部位置を決定するステップと、
    前記眼部位置に基づいて、前記第1の画像に対して回転処理を行って、前記第1の画像における双眼位置を水平軸上で同様にするステップと、を更に含む請求項5に記載の方法。
  7. ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得する前記ステップは、
    前記第1の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するNフレームの画像の視線方向をそれぞれ検出し、Nが1以上の整数であるステップと、
    前記隣接するNフレームの画像の視線方向に基づいて、N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するステップと、を含む請求項1〜6のいずれか一項に記載の方法。
  8. 前記隣接するNフレームの画像の視線方向に基づいて、N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定する前記ステップは、
    前記隣接するNフレームの画像の視線方向の算術平均に基づいて、前記N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するステップを含む請求項7に記載の方法。
  9. 第1のカメラ及び第1の画像における瞳孔に基づいて第1の視線方向を決定する前記ステップは、
    カメラアレイから前記第1のカメラを決定し、前記瞳孔の第1の座標系における座標を決定するステップであって、前記第1の座標系が、前記第1のカメラに対応するステップと、
    前記カメラアレイの第2のカメラにより、前記瞳孔の第2の座標系における座標を決定するステップであって、前記第2の座標系が前記第2のカメラに対応するステップと、
    前記瞳孔の前記第1の座標系における座標及び前記瞳孔の前記第2の座標系における座標に基づいて、前記第1の視線方向を決定するステップと、を含む請求項1〜8のいずれか一項に記載の方法。
  10. 前記瞳孔の第1の座標系における座標を決定する前記ステップは、
    前記瞳孔の前記第1の画像における座標を決定するステップと、
    前記瞳孔の前記第1の画像における座標、前記第1のカメラの焦点距離及び主点位置に基づいて、前記瞳孔の前記第1の座標系における座標を決定するステップと、を含む請求項9に記載の方法。
  11. 前記カメラアレイの第2のカメラにより前記瞳孔の第2の座標系における座標を決定する前記ステップは、
    前記第1の座標系、前記カメラアレイの各カメラの焦点距離及び主点位置に基づいて、前記第1の座標系と前記第2の座標系との関係を決定するステップと、
    前記第2の座標系と前記第1の座標系との関係に基づいて、前記瞳孔の前記第2の座標系における座標を決定するステップと、を含む請求項9又は10に記載の方法。
  12. ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップと、
    検出された前記第3の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するステップと、
    前記第3の画像における前記眼部領域画像を切り取るステップと、
    前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するステップと、を含む視線追跡方法。
  13. 前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力する前記ステップの後に、
    前記眼部領域画像の視線方向及び前記第3の画像の少なくとも1フレームの隣接する画像の視線方向に基づいて、前記第3の画像の視線方向を決定するステップを更に含む請求項12に記載の方法。
  14. ビデオストリームデータに含まれる第3の画像に対して顔検出を行う前記ステップは、
    トリガコマンドを受信した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップ、
    又は、車両作動中において、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップ、
    又は、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップを含む請求項12又は13に記載の方法。
  15. 前記ビデオストリームデータは、車載カメラによる車両運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両運転領域内の運転者の視線方向であり、又は、前記ビデオストリームデータは、車載カメラによる車両の非運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両の非運転領域内の車内人員の視線方向である請求項14に記載の方法。
  16. 前記眼部領域画像の視線方向を出力する前記ステップの後に、
    前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップ、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行動を決定するステップ、又は前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するステップを更に含む請求項15に記載の方法。
  17. 前記運転者が脇見運転をしている場合に、警報通知情報を出力するステップを更に含む請求項16に記載の方法。
  18. 警報通知情報を出力する前記ステップは、
    前記運転者脇見運転の回数が基準回数に達した場合に、前記警報通知情報を出力するステップ、
    又は、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するステップ、
    又は、前記運転者脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するステップ、
    又は、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するステップを含む請求項17に記載の方法。
  19. 前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を記憶するステップ、
    又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信するステップを更に含む請求項17又は18に記載の方法。
  20. 前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力する前記ステップの前に、請求項1〜11のいずれか一項に記載の方法を用いて前記ニューラルネットワークをトレーニングするステップを更に含む請求項12〜19のいずれか一項に記載の方法。
  21. 第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定するための第1の決定ユニットであって、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含む第1の決定ユニットと、
    ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得するための検出ユニットと、
    前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニットと、を含むニューラルネットワークのトレーニング装置。
  22. 前記検出ユニットは、具体的に、前記ニューラルネットワークにより、前記第1の画像と第2の画像の視線方向をそれぞれ検出し、前記第1の検出視線方向と第2の検出視線方向をそれぞれ取得するステップであって、前記第2の画像が、前記第1の画像にノイズを付加して得られたものであるために用いられ、
    前記トレーニングユニットは、具体的に、前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングするために用いられ、前記第2の視線方向が前記第1の視線方向にノイズを付加して得られたものである請求項21に記載の装置。
  23. 前記トレーニングユニットは、
    前記第1の視線方向と前記第1の検出視線方向との第1の損失を決定するための第1の決定サブユニットと、
    第1のオフセットベクトルと第2のオフセットベクトルとの第2の損失を決定するための第2の決定サブユニットであって、前記第1のオフセットベクトルが、前記第1の視線方向と前記第2の視線方向の間のオフセットベクトルであり、前記第2のオフセットベクトルが、前記第1の検出視線方向と前記第2の検出視線方向の間のオフセットベクトルである第2の決定サブユニットと、
    前記第1の損失と前記第2の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整サブユニットと、を含む請求項22に記載の装置。
  24. 前記トレーニングユニットは、具体的に、前記第1の視線方向と前記第1の検出視線方向との第3の損失、及び前記第2の視線方向と前記第2の検出視線方向との第4の損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整するために用いられる請求項22に記載の装置。
  25. 前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行うための正規化処理ユニットと、
    具体的に、正規化処理後の前記第1の視線方向、正規化処理後の前記第2の視線方向、正規化処理後の前記第1の検出視線方向及び正規化処理後の前記第2の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするための前記トレーニングユニットと、を更に含む請求項23又は24に記載の装置。
  26. 前記第1の画像における眼部位置を決定するための第2の決定ユニットと、
    前記眼部位置に基づいて、前記第1の画像に対して回転処理を行って、前記第1の画像における双眼位置を水平軸上で同様にするための回転処理ユニットと、を更に含む請求項25に記載の装置。
  27. 前記検出ユニットは、
    前記第1の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するNフレームの画像の視線方向をそれぞれ検出し、Nが1以上の整数であるための検出サブユニットと、
    前記隣接するNフレームの画像の視線方向に基づいて、N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するための第3の決定サブユニットと、を含む請求項21〜26のいずれか一項に記載の装置。
  28. 前記第3の決定サブユニットは、具体的に、前記隣接するNフレームの画像の視線方向の算術平均に基づいて、前記N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するために用いられる請求項27に記載の装置。
  29. 前記第1の決定ユニットは、具体的に、カメラアレイから前記第1のカメラを決定し、前記瞳孔の第1の座標系における座標を決定するステップであって、前記第1の座標系が、前記第1のカメラに対応するステップと、前記カメラアレイの第2のカメラにより、前記瞳孔の第2の座標系における座標を決定するステップであって、前記第2の座標系が前記第2のカメラに対応するステップと、前記瞳孔の前記第1の座標系における座標及び前記瞳孔の前記第2の座標系における座標に基づいて、前記第1の視線方向を決定するステップと、を実行するために用いられる請求項21〜28に記載の装置。
  30. 前記第1の決定ユニットは、具体的に、前記瞳孔の前記第1の画像における座標を決定するステップと、前記瞳孔の前記第1の画像における座標、前記第1のカメラの焦点距離及び主点位置に基づいて、前記瞳孔の前記第1の座標系における座標を決定するステップと、を実行するために用いられる請求項29に記載の装置。
  31. 前記第1の決定ユニットは、具体的に、前記第1の座標系、前記カメラアレイの各カメラの焦点距離及び主点位置に基づいて、前記第1の座標系と前記第2の座標系との関係を決定するステップと、前記第2の座標系と前記第1の座標系との関係に基づいて、前記瞳孔の前記第2の座標系における座標を決定するステップと、を実行するために用いられる請求項29又は30に記載の装置。
  32. ビデオストリームデータに含まれる第3の画像に対して顔検出を行うための顔検出ユニットと、
    検出された前記第3の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するための第1の決定ユニットと、
    前記第3の画像における前記眼部領域画像を切り取るための切り取りユニットと、
    前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するための入力出力ユニットと、を含む視線追跡装置。
  33. 前記眼部領域画像の視線方向及び前記第3の画像の少なくとも1フレームの隣接する画像の視線方向に基づいて、前記第3の画像の視線方向を決定するための第2の決定ユニットを更に含む請求項32に記載の装置。
  34. 前記顔検出ユニットは、具体的に、トリガコマンドを受信した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うために用いられ、
    又は、前記顔検出ユニットは、具体的に、車両作動中において、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うために用いられ、
    又は、前記顔検出ユニットは、具体的に、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うために用いられる請求項32又は33に記載の装置。
  35. 前記ビデオストリームデータは、車載カメラによる車両運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両運転領域内の運転者の視線方向であり、又は、前記ビデオストリームデータは車載カメラによる車両の非運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両の非運転領域内の車内人員の視線方向である請求項34に記載の装置。
  36. 前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップと、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行動を決定するステップと、を実行するために用いられる第3の決定ユニット、又は、
    前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するための出力ユニットを更に含む請求項35に記載の装置。
  37. 前記出力ユニットは、前記運転者が脇見運転をしている場合に、警報通知情報を出力するために用いられる請求項36に記載の装置。
  38. 前記出力ユニットは、具体的に、前記運転者脇見運転の回数が基準回数に達した場合に、前記警報通知情報を出力するために用いられ、
    又は、前記出力ユニットは、具体的に、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するために用いられ、
    又は、前記出力ユニットは、具体的に、前記運転者脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するために用いられ、
    又は、前記出力ユニットは、具体的に、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するために用いられる請求項37に記載の装置。
  39. 前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を記憶するための記憶ユニット、
    又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信するための送信ユニットを更に含む請求項37又は38に記載の装置。
  40. 第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定するための第4の決定ユニットであって、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含む第4の決定ユニットと、
    ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得するための検出ユニットと、
    前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニットと、を更に含む請求項32〜39のいずれか一項に記載の装置。
  41. プロセッサーと、プログラムコマンドを記憶するためのメモリとを含み、前記プロセッサーと前記メモリが回路を介して接続され、前記プログラムコマンドが前記プロセッサーにより実行されると、前記プロセッサーに請求項1〜11のいずれか一項に記載の方法を実行させる電子機器。
  42. プロセッサーと、プログラムコマンドを記憶するためのメモリとを含み、前記プロセッサーと前記メモリが回路を介して接続され、前記プログラムコマンドが前記プロセッサーにより実行されると、前記プロセッサーに請求項12〜20のいずれか一項に記載の方法を実行させる電子機器。
  43. プログラムコマンドを含むコンピュータープログラムが記憶されているコンピューター読取可能記憶媒体であって、前記プログラムコマンドがプロセッサーにより実行されると、前記プロセッサーに請求項1〜11のいずれか一項に記載の方法を実行させ、及び/又は前記プロセッサーに請求項12〜20のいずれか一項に記載の方法を実行させるコンピューター読取可能記憶媒体。
JP2021524086A 2018-09-29 2019-06-20 ニューラルネットワークのトレーニング方法、視線追跡方法及び装置並びに電子機器 Active JP7146087B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811155578.9A CN110969060A (zh) 2018-09-29 2018-09-29 神经网络训练、视线追踪方法和装置及电子设备
CN201811155578.9 2018-09-29
PCT/CN2019/092131 WO2020062960A1 (zh) 2018-09-29 2019-06-20 神经网络训练、视线追踪方法和装置及电子设备

Publications (2)

Publication Number Publication Date
JP2021530823A true JP2021530823A (ja) 2021-11-11
JP7146087B2 JP7146087B2 (ja) 2022-10-03

Family

ID=69950236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021524086A Active JP7146087B2 (ja) 2018-09-29 2019-06-20 ニューラルネットワークのトレーニング方法、視線追跡方法及び装置並びに電子機器

Country Status (5)

Country Link
US (1) US20210133469A1 (ja)
JP (1) JP7146087B2 (ja)
CN (1) CN110969060A (ja)
SG (1) SG11202100364SA (ja)
WO (1) WO2020062960A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807119B (zh) * 2020-05-29 2024-04-02 魔门塔(苏州)科技有限公司 一种人员注视位置检测方法及装置
CN111860292A (zh) * 2020-07-16 2020-10-30 科大讯飞股份有限公司 基于单目相机的人眼定位方法、装置以及设备
CN112380935B (zh) * 2020-11-03 2023-05-26 深圳技术大学 面向自动驾驶的人机协同感知方法及系统
CN112749655A (zh) * 2021-01-05 2021-05-04 风变科技(深圳)有限公司 视线追踪方法、装置、计算机设备和存储介质
US11574484B1 (en) * 2021-01-13 2023-02-07 Ambarella International Lp High resolution infrared image generation using image data from an RGB-IR sensor and visible light interpolation
CN113052064B (zh) * 2021-03-23 2024-04-02 北京思图场景数据科技服务有限公司 基于面部朝向、面部表情及瞳孔追踪的注意力检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951084A (zh) * 2015-07-30 2015-09-30 京东方科技集团股份有限公司 视线追踪方法及装置
CN104978548A (zh) * 2014-04-02 2015-10-14 汉王科技股份有限公司 一种基于三维主动形状模型的视线估计方法与装置
CN108171152A (zh) * 2017-12-26 2018-06-15 深圳大学 深度学习人眼视线估计方法、设备、系统及可读存储介质
CN108171218A (zh) * 2018-01-29 2018-06-15 深圳市唯特视科技有限公司 一种基于深度外观注视网络的视线估计方法
CN108229284A (zh) * 2017-05-26 2018-06-29 北京市商汤科技开发有限公司 视线追踪及训练方法和装置、系统、电子设备和存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2685976C (en) * 2007-05-23 2013-02-19 The University Of British Columbia Methods and apparatus for estimating point-of-gaze in three dimensions
JP5719223B2 (ja) * 2011-04-25 2015-05-13 オリンパスイメージング株式会社 画像記録装置、記録方法およびプログラム
CN104951808B (zh) * 2015-07-10 2018-04-27 电子科技大学 一种用于机器人交互对象检测的3d视线方向估计方法
JP2019519859A (ja) * 2016-06-29 2019-07-11 シーイング マシーンズ リミテッド 視線追跡を実行するシステム及び方法
US10467488B2 (en) * 2016-11-21 2019-11-05 TeleLingo Method to analyze attention margin and to prevent inattentive and unsafe driving
US11132543B2 (en) * 2016-12-28 2021-09-28 Nvidia Corporation Unconstrained appearance-based gaze estimation
CN108229276B (zh) * 2017-03-31 2020-08-11 北京市商汤科技开发有限公司 神经网络训练及图像处理方法、装置和电子设备
CN107832699A (zh) * 2017-11-02 2018-03-23 北方工业大学 基于阵列镜头的兴趣点关注度测试方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978548A (zh) * 2014-04-02 2015-10-14 汉王科技股份有限公司 一种基于三维主动形状模型的视线估计方法与装置
CN104951084A (zh) * 2015-07-30 2015-09-30 京东方科技集团股份有限公司 视线追踪方法及装置
CN108229284A (zh) * 2017-05-26 2018-06-29 北京市商汤科技开发有限公司 视线追踪及训练方法和装置、系统、电子设备和存储介质
CN108171152A (zh) * 2017-12-26 2018-06-15 深圳大学 深度学习人眼视线估计方法、设备、系统及可读存储介质
CN108171218A (zh) * 2018-01-29 2018-06-15 深圳市唯特视科技有限公司 一种基于深度外观注视网络的视线估计方法

Also Published As

Publication number Publication date
US20210133469A1 (en) 2021-05-06
SG11202100364SA (en) 2021-02-25
JP7146087B2 (ja) 2022-10-03
WO2020062960A1 (zh) 2020-04-02
CN110969060A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
JP2021530823A (ja) ニューラルネットワークのトレーニング方法、視線追跡方法及び装置並びに電子機器
JP7154678B2 (ja) 目標の位置取得方法、装置、コンピュータ機器及びコンピュータプログラム
KR102459221B1 (ko) 전자 장치, 이의 영상 처리 방법 및 컴퓨터 판독가능 기록 매체
KR20190062171A (ko) 자율 머신에서의 오작동 센서의 딥 러닝 기반의 실시간 검출 및 수정
US20220254063A1 (en) Gaze point estimation processing apparatus, gaze point estimation model generation apparatus, gaze point estimation processing system, and gaze point estimation processing method
WO2020063000A1 (zh) 神经网络训练、视线检测方法和装置及电子设备
WO2020029874A1 (zh) 对象跟踪方法及装置、电子设备及存储介质
US20220198836A1 (en) Gesture recognition method, electronic device, computer-readable storage medium, and chip
EP3757878A1 (en) Head pose estimation
CN111670004A (zh) 用于测量心率的电子装置和方法
CN116917949A (zh) 根据单目相机输出来对对象进行建模
WO2022245648A1 (en) Dynamic adjustment of exposure and iso related application
US20240046583A1 (en) Real-time photorealistic view rendering on augmented reality (ar) device
CN112818733B (zh) 信息处理方法、装置、存储介质及终端
JP2019212148A (ja) 情報処理装置及び情報処理プログラム
CN115871679A (zh) 驾驶员疲劳检测方法、装置、电子设备及介质
US11765457B2 (en) Dynamic adjustment of exposure and iso to limit motion blur
WO2020207294A1 (zh) 服务处理方法、装置、存储介质及电子设备
JP2020071717A (ja) 情報処理装置、情報処理方法及びプログラム
CN115729347A (zh) 用于人机接口应用中内容识别的多模态传感器融合
WO2020200082A1 (zh) 直播互动方法、装置、直播系统及电子设备
CN113506328A (zh) 视线估计模型的生成方法和装置、视线估计方法和装置
WO2023223704A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2022009652A1 (ja) データ収集システム、センサ装置、データ収集装置、及びデータ収集方法
CN112711324B (zh) 基于tof相机的手势交互方法及其系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220916

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220920

R150 Certificate of patent or registration of utility model

Ref document number: 7146087

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150