JP2021530823A - ニューラルネットワークのトレーニング方法、視線追跡方法及び装置並びに電子機器 - Google Patents
ニューラルネットワークのトレーニング方法、視線追跡方法及び装置並びに電子機器 Download PDFInfo
- Publication number
- JP2021530823A JP2021530823A JP2021524086A JP2021524086A JP2021530823A JP 2021530823 A JP2021530823 A JP 2021530823A JP 2021524086 A JP2021524086 A JP 2021524086A JP 2021524086 A JP2021524086 A JP 2021524086A JP 2021530823 A JP2021530823 A JP 2021530823A
- Authority
- JP
- Japan
- Prior art keywords
- line
- sight direction
- image
- detection
- sight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/02—Alarms for ensuring the safety of persons
- G08B21/06—Alarms for ensuring the safety of persons indicating a condition of sleep, e.g. anti-dozing alarms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/197—Matching; Classification
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/18—Status alarms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Ophthalmology & Optometry (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Traffic Control Systems (AREA)
Abstract
Description
本願は、出願番号が201811155578.9であり、出願日が2018年9月29日である中国特許出願に基づいて提出され、この中国特許出願の優先権を主張し、この中国特許出願の全ての内容が参照によって本願に組み込まれる。
第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定するステップであって、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含むステップと、
ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得するステップと、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップと、を含むニューラルネットワークのトレーニング方法を提供する。
ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップと、
検出された前記第3の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するステップと、
前記第3の画像における前記眼部領域画像を切り取るステップと、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するステップと、を含む視線追跡方法を提供する。
第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定するための第1の決定ユニットであって、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含む第1の決定ユニットと、
ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得するための検出ユニットと、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニットと、を含むニューラルネットワークのトレーニング装置を提供する。
ビデオストリームデータに含まれる第3の画像に対して顔検出を行うための顔検出ユニットと、
検出された前記第3の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するための第1の決定ユニットと、
前記第3の画像における前記眼部領域画像を切り取るための切り取りユニットと、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するための入力出力ユニットと、を含む視線追跡装置を提供する。
ニューラルネットワークをトレーニングするためのニューラルネットワークのトレーニング装置と、
前記ニューラルネットワークのトレーニング装置によりトレーニングされたニューラルネットワークを使用するための視線追跡装置と、を含み、
前記ニューラルネットワークのトレーニング装置と前記視線追跡装置が通信可能に接続される視線追跡システムを更に提供する。
前記視線追跡装置は、前記第2の態様に記載の対応の方法を実行するために用いられる。
トリガコマンドを受信した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップ、
又は、車両作動中において、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップ、
又は、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップを含む。
前記眼部領域画像の視線方向及び前記第3の画像の少なくとも1フレームの隣接する画像の視線方向に基づいて、前記第3の画像の視線方向を決定するステップを更に含む。
前記眼部領域画像の視線方向を出力する前記ステップの後に、前記方法は、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップ、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行動を決定するステップ、又は、
前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するステップを更に含む。ここで、車両の制御に関しては、例えば、視線をエアコン制御領域に落として所定時間経った時に、エアコン等の車両に設置された機器をオンまたはオフし、例えば、視線を車両における車載ロボットに落とした時に、車載ロボットが笑顔等の対応の表情で応える。
前記運転者脇見運転の回数が基準回数に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者の脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するステップを含んでもよい。
又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信してもよい。
カメラアレイから第1のカメラを決定し、第1の座標系を決定し、
カメラアレイの各々のカメラの焦点距離と主点位置を取得し、
前記第1の座標系、前記カメラアレイの各々のカメラの焦点距離及び主点位置に基づいて、前記第2の座標系と前記第1の座標系との関係を決定するようになってもよい。
顔検出方法により顔の画像における位置を取得し、この画像において眼の占める割合が所定割合以上であり、
顔キーポイントの位置測定により、この画像における眼の位置を決定し、
この画像を切り取り、この画像における眼の画像を取得するようになってもよい。
前記ニューラルネットワークにより、前記第1の画像と第2の画像の視線方向をそれぞれ検出し、前記第1の検出視線方向と第2の検出視線方向をそれぞれ取得するステップであって、前記第2の画像が前記第1の画像にノイズを付加して得られたものであるステップと、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップであって、前記第2の視線方向が前記第1の視線方向にノイズを付加して得られたものであるステップと、を含む。
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第1の視線方向と前記第1の検出視線方向との第3の損失及び前記第2の視線方向と前記第2の検出視線方向との第4の損失により、前記ニューラルネットワークのネットワークパラメータを調整するステップを含む。
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行うステップを更に含み、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップは、
正規化処理後の前記第1の視線方向、正規化処理後の前記第2の視線方向、正規化処理後の前記第1の検出視線方向及び正規化処理後の前記第2の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップを含むことが理解可能である。
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第1の視線方向と前記第1の検出視線方向との第1の損失を決定するステップと、
第1のオフセットベクトルと第2のオフセットベクトルとの第2の損失を決定するステップであって、前記第1のオフセットベクトルが、前記第1の視線方向と前記第2の視線方向の間のオフセットベクトルであり、前記第2のオフセットベクトルが、前記第1の検出視線方向と前記第2の検出視線方向の間のオフセットベクトルであるステップと、
前記第1の損失と前記第2の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含む。
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行うステップを更に含み、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
正規化処理後の前記第1の視線方向、正規化処理後の前記第2の視線方向、正規化処理後の前記第1の検出視線方向及び正規化処理後の前記第2の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップを含むことが理解可能である。
前記第1の画像における眼部位置を決定するステップと、
前記眼部位置に基づいて、前記第1の画像に対して回転処理を行って、前記第1の画像における双眼位置を水平軸上で同様にするステップと、を更に含む。
前記第1の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するNフレームの画像の視線方向をそれぞれ検出し、Nが1以上の整数であるステップと、
前記隣接するNフレームの画像の視線方向に基づいて、N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するステップと、を含むことが理解可能である。
前記瞳孔の前記第1の画像における座標を決定するステップと、
前記瞳孔の前記第1の画像における座標、前記第1のカメラの焦点距離及び主点位置に基づいて、前記瞳孔の前記第1の座標系における座標を決定するステップと、を含む。
前記第1の座標系、前記カメラアレイの各々のカメラの焦点距離及び主点位置に基づいて、前記第1の座標系と前記第2の座標系との関係を決定するステップと、
前記第2の座標系と前記第1の座標系との関係に基づいて、前記瞳孔の前記第2の座標系における座標を決定するステップと、を含む。
第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定し、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含むための第1の決定ユニット601と、
ニューラルネットワークにより前記第1の画像の視線方向を検出して、第1の検出視線方向を取得するための検出ユニット602と、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニット603と、を含んでもよい。
前記第1の視線方向と前記第1の検出視線方向との第1の損失を決定するための第1の決定サブユニット6031と、
第1のオフセットベクトルと第2のオフセットベクトルとの第2の損失を決定するために用いられる第2の決定サブユニット6032であって、前記第1のオフセットベクトルが、前記第1の視線方向と前記第2の視線方向の間のオフセットベクトルであり、前記第2のオフセットベクトルが、前記第1の検出視線方向と前記第2の検出視線方向の間のオフセットベクトルである第2の決定サブユニット6032と、
前記第1の損失と前記第2の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整サブユニット6033と、を含む。
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行うための正規化処理ユニット604と、
具体的に、正規化処理後の前記第1の視線方向、正規化処理後の前記第2の視線方向、正規化処理後の前記第1の検出視線方向及び正規化処理後の前記第2の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするための前記トレーニングユニット603と、を更に含む。
前記第1の画像内の眼部位置を決定するための第2の決定ユニット605と、
前記眼部位置に基づいて、前記第1の画像に対して回転処理を行って、前記第1の画像における双眼位置を水平軸上で同様にするための回転処理ユニット606と、を更に含む。
前記第1の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するNフレームの画像の視線方向をそれぞれ検出し、Nが1以上の整数であるための検出サブユニット6021と、
前記隣接するNフレームの画像の視線方向に基づいて、N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するための第3の決定サブユニット6022と、を含む。
ビデオストリームデータに含まれる第3の画像に対して顔検出を行うための顔検出ユニット1101と、
検出された前記第3の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するための第1の決定ユニット1102と、
前記第3の画像における前記眼部領域画像を切り取るための切り取りユニット1103と、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するための入力出力ユニット1104と、を含む。
前記眼部領域画像の視線方向及び前記第3の画像の少なくとも1フレームの隣接する画像の視線方向に基づいて、前記第3の画像の視線方向を決定するための第2の決定ユニット1105を更に含む。
又は、前記顔検出ユニット1101は、具体的に、車両作動中において、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うために用いられ、
又は、前記顔検出ユニット1101は、具体的に、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うために用いられる。
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップと、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行を決定するステップと、を実行するために用いられる第3の決定ユニット1106、又は、
前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するための出力ユニット1107を更に含む。
又は、前記出力ユニット1107は、具体的に、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニット1107は、具体的に、前記運転者の脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニット1107は、具体的に、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するために用いられる。
前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を記憶するための記憶ユニット1108、
又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信するための送信ユニット1109を更に含む。
第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定し、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含むための第4の決定ユニット1110と、
ニューラルネットワークにより前記第1の画像の視線方向を検出して、第1の検出視線方向を取得するための検出ユニット1111と、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニット1112と、を更に含む。
例えば、本願は以下の項目を提供する。
(項目1)
第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定するステップであって、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含むステップと、
ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得するステップと、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップと、を含むニューラルネットワークのトレーニング方法。
(項目2)
ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得する前記ステップは、
前記ニューラルネットワークにより、前記第1の画像と第2の画像の視線方向をそれぞれ検出し、前記第1の検出視線方向と第2の検出視線方向をそれぞれ取得するステップであって、前記第2の画像が、前記第1の画像にノイズを付加して得られたものであるステップを含み、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップであって、前記第2の視線方向が前記第1の視線方向にノイズを付加して得られたものであるステップを含む項目1に記載の方法。
(項目3)
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第1の視線方向と前記第1の検出視線方向との第1の損失を決定するステップと、
第1のオフセットベクトルと第2のオフセットベクトルとの第2の損失を決定するステップであって、前記第1のオフセットベクトルが、前記第1の視線方向と前記第2の視線方向の間のオフセットベクトルであり、前記第2のオフセットベクトルが、前記第1の検出視線方向と前記第2の検出視線方向の間のオフセットベクトルであるステップと、
前記第1の損失と前記第2の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含む項目2に記載の方法。
(項目4)
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第1の視線方向と前記第1の検出視線方向との第3の損失、及び前記第2の視線方向と前記第2の検出視線方向との第4の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップを含む項目2に記載の方法。
(項目5)
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップの前に、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行うステップを含み、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
正規化処理後の前記第1の視線方向、正規化処理後の前記第2の視線方向、正規化処理後の前記第1の検出視線方向及び正規化処理後の前記第2の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップを更に含む項目3又は4に記載の方法。
(項目6)
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行う前記ステップの前に、
前記第1の画像における眼部位置を決定するステップと、
前記眼部位置に基づいて、前記第1の画像に対して回転処理を行って、前記第1の画像における双眼位置を水平軸上で同様にするステップと、を更に含む項目5に記載の方法。
(項目7)
ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得する前記ステップは、
前記第1の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するNフレームの画像の視線方向をそれぞれ検出し、Nが1以上の整数であるステップと、
前記隣接するNフレームの画像の視線方向に基づいて、N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するステップと、を含む項目1〜6のいずれか一項に記載の方法。
(項目8)
前記隣接するNフレームの画像の視線方向に基づいて、N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定する前記ステップは、
前記隣接するNフレームの画像の視線方向の算術平均に基づいて、前記N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するステップを含む項目7に記載の方法。
(項目9)
第1のカメラ及び第1の画像における瞳孔に基づいて第1の視線方向を決定する前記ステップは、
カメラアレイから前記第1のカメラを決定し、前記瞳孔の第1の座標系における座標を決定するステップであって、前記第1の座標系が、前記第1のカメラに対応するステップと、
前記カメラアレイの第2のカメラにより、前記瞳孔の第2の座標系における座標を決定するステップであって、前記第2の座標系が前記第2のカメラに対応するステップと、
前記瞳孔の前記第1の座標系における座標及び前記瞳孔の前記第2の座標系における座標に基づいて、前記第1の視線方向を決定するステップと、を含む項目1〜8のいずれか一項に記載の方法。
(項目10)
前記瞳孔の第1の座標系における座標を決定する前記ステップは、
前記瞳孔の前記第1の画像における座標を決定するステップと、
前記瞳孔の前記第1の画像における座標、前記第1のカメラの焦点距離及び主点位置に基づいて、前記瞳孔の前記第1の座標系における座標を決定するステップと、を含む項目9に記載の方法。
(項目11)
前記カメラアレイの第2のカメラにより前記瞳孔の第2の座標系における座標を決定する前記ステップは、
前記第1の座標系、前記カメラアレイの各カメラの焦点距離及び主点位置に基づいて、前記第1の座標系と前記第2の座標系との関係を決定するステップと、
前記第2の座標系と前記第1の座標系との関係に基づいて、前記瞳孔の前記第2の座標系における座標を決定するステップと、を含む項目9又は10に記載の方法。
(項目12)
ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップと、
検出された前記第3の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するステップと、
前記第3の画像における前記眼部領域画像を切り取るステップと、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するステップと、を含む視線追跡方法。
(項目13)
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力する前記ステップの後に、
前記眼部領域画像の視線方向及び前記第3の画像の少なくとも1フレームの隣接する画像の視線方向に基づいて、前記第3の画像の視線方向を決定するステップを更に含む項目12に記載の方法。
(項目14)
ビデオストリームデータに含まれる第3の画像に対して顔検出を行う前記ステップは、
トリガコマンドを受信した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップ、
又は、車両作動中において、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップ、
又は、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップを含む項目12又は13に記載の方法。
(項目15)
前記ビデオストリームデータは、車載カメラによる車両運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両運転領域内の運転者の視線方向であり、又は、前記ビデオストリームデータは、車載カメラによる車両の非運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両の非運転領域内の車内人員の視線方向である項目14に記載の方法。
(項目16)
前記眼部領域画像の視線方向を出力する前記ステップの後に、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップ、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行動を決定するステップ、又は前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するステップを更に含む項目15に記載の方法。
(項目17)
前記運転者が脇見運転をしている場合に、警報通知情報を出力するステップを更に含む項目16に記載の方法。
(項目18)
警報通知情報を出力する前記ステップは、
前記運転者脇見運転の回数が基準回数に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するステップを含む項目17に記載の方法。
(項目19)
前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を記憶するステップ、
又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信するステップを更に含む項目17又は18に記載の方法。
(項目20)
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力する前記ステップの前に、項目1〜11のいずれか一項に記載の方法を用いて前記ニューラルネットワークをトレーニングするステップを更に含む項目12〜19のいずれか一項に記載の方法。
(項目21)
第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定するための第1の決定ユニットであって、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含む第1の決定ユニットと、
ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得するための検出ユニットと、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニットと、を含むニューラルネットワークのトレーニング装置。
(項目22)
前記検出ユニットは、具体的に、前記ニューラルネットワークにより、前記第1の画像と第2の画像の視線方向をそれぞれ検出し、前記第1の検出視線方向と第2の検出視線方向をそれぞれ取得するステップであって、前記第2の画像が、前記第1の画像にノイズを付加して得られたものであるために用いられ、
前記トレーニングユニットは、具体的に、前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングするために用いられ、前記第2の視線方向が前記第1の視線方向にノイズを付加して得られたものである項目21に記載の装置。
(項目23)
前記トレーニングユニットは、
前記第1の視線方向と前記第1の検出視線方向との第1の損失を決定するための第1の決定サブユニットと、
第1のオフセットベクトルと第2のオフセットベクトルとの第2の損失を決定するための第2の決定サブユニットであって、前記第1のオフセットベクトルが、前記第1の視線方向と前記第2の視線方向の間のオフセットベクトルであり、前記第2のオフセットベクトルが、前記第1の検出視線方向と前記第2の検出視線方向の間のオフセットベクトルである第2の決定サブユニットと、
前記第1の損失と前記第2の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整サブユニットと、を含む項目22に記載の装置。
(項目24)
前記トレーニングユニットは、具体的に、前記第1の視線方向と前記第1の検出視線方向との第3の損失、及び前記第2の視線方向と前記第2の検出視線方向との第4の損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整するために用いられる項目22に記載の装置。
(項目25)
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行うための正規化処理ユニットと、
具体的に、正規化処理後の前記第1の視線方向、正規化処理後の前記第2の視線方向、正規化処理後の前記第1の検出視線方向及び正規化処理後の前記第2の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするための前記トレーニングユニットと、を更に含む項目23又は24に記載の装置。
(項目26)
前記第1の画像における眼部位置を決定するための第2の決定ユニットと、
前記眼部位置に基づいて、前記第1の画像に対して回転処理を行って、前記第1の画像における双眼位置を水平軸上で同様にするための回転処理ユニットと、を更に含む項目25に記載の装置。
(項目27)
前記検出ユニットは、
前記第1の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するNフレームの画像の視線方向をそれぞれ検出し、Nが1以上の整数であるための検出サブユニットと、
前記隣接するNフレームの画像の視線方向に基づいて、N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するための第3の決定サブユニットと、を含む項目21〜26のいずれか一項に記載の装置。
(項目28)
前記第3の決定サブユニットは、具体的に、前記隣接するNフレームの画像の視線方向の算術平均に基づいて、前記N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するために用いられる項目27に記載の装置。
(項目29)
前記第1の決定ユニットは、具体的に、カメラアレイから前記第1のカメラを決定し、前記瞳孔の第1の座標系における座標を決定するステップであって、前記第1の座標系が、前記第1のカメラに対応するステップと、前記カメラアレイの第2のカメラにより、前記瞳孔の第2の座標系における座標を決定するステップであって、前記第2の座標系が前記第2のカメラに対応するステップと、前記瞳孔の前記第1の座標系における座標及び前記瞳孔の前記第2の座標系における座標に基づいて、前記第1の視線方向を決定するステップと、を実行するために用いられる項目21〜28に記載の装置。
(項目30)
前記第1の決定ユニットは、具体的に、前記瞳孔の前記第1の画像における座標を決定するステップと、前記瞳孔の前記第1の画像における座標、前記第1のカメラの焦点距離及び主点位置に基づいて、前記瞳孔の前記第1の座標系における座標を決定するステップと、を実行するために用いられる項目29に記載の装置。
(項目31)
前記第1の決定ユニットは、具体的に、前記第1の座標系、前記カメラアレイの各カメラの焦点距離及び主点位置に基づいて、前記第1の座標系と前記第2の座標系との関係を決定するステップと、前記第2の座標系と前記第1の座標系との関係に基づいて、前記瞳孔の前記第2の座標系における座標を決定するステップと、を実行するために用いられる項目29又は30に記載の装置。
(項目32)
ビデオストリームデータに含まれる第3の画像に対して顔検出を行うための顔検出ユニットと、
検出された前記第3の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するための第1の決定ユニットと、
前記第3の画像における前記眼部領域画像を切り取るための切り取りユニットと、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するための入力出力ユニットと、を含む視線追跡装置。
(項目33)
前記眼部領域画像の視線方向及び前記第3の画像の少なくとも1フレームの隣接する画像の視線方向に基づいて、前記第3の画像の視線方向を決定するための第2の決定ユニットを更に含む項目32に記載の装置。
(項目34)
前記顔検出ユニットは、具体的に、トリガコマンドを受信した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うために用いられ、
又は、前記顔検出ユニットは、具体的に、車両作動中において、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うために用いられ、
又は、前記顔検出ユニットは、具体的に、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うために用いられる項目32又は33に記載の装置。
(項目35)
前記ビデオストリームデータは、車載カメラによる車両運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両運転領域内の運転者の視線方向であり、又は、前記ビデオストリームデータは車載カメラによる車両の非運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両の非運転領域内の車内人員の視線方向である項目34に記載の装置。
(項目36)
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップと、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行動を決定するステップと、を実行するために用いられる第3の決定ユニット、又は、
前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するための出力ユニットを更に含む項目35に記載の装置。
(項目37)
前記出力ユニットは、前記運転者が脇見運転をしている場合に、警報通知情報を出力するために用いられる項目36に記載の装置。
(項目38)
前記出力ユニットは、具体的に、前記運転者脇見運転の回数が基準回数に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニットは、具体的に、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニットは、具体的に、前記運転者脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニットは、具体的に、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するために用いられる項目37に記載の装置。
(項目39)
前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を記憶するための記憶ユニット、
又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信するための送信ユニットを更に含む項目37又は38に記載の装置。
(項目40)
第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定するための第4の決定ユニットであって、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含む第4の決定ユニットと、
ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得するための検出ユニットと、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニットと、を更に含む項目32〜39のいずれか一項に記載の装置。
(項目41)
プロセッサーと、プログラムコマンドを記憶するためのメモリとを含み、前記プロセッサーと前記メモリが回路を介して接続され、前記プログラムコマンドが前記プロセッサーにより実行されると、前記プロセッサーに項目1〜11のいずれか一項に記載の方法を実行させる電子機器。
(項目42)
プロセッサーと、プログラムコマンドを記憶するためのメモリとを含み、前記プロセッサーと前記メモリが回路を介して接続され、前記プログラムコマンドが前記プロセッサーにより実行されると、前記プロセッサーに項目12〜20のいずれか一項に記載の方法を実行させる電子機器。
(項目43)
プログラムコマンドを含むコンピュータープログラムが記憶されているコンピューター読取可能記憶媒体であって、前記プログラムコマンドがプロセッサーにより実行されると、前記プロセッサーに項目1〜11のいずれか一項に記載の方法を実行させ、及び/又は前記プロセッサーに項目12〜20のいずれか一項に記載の方法を実行させるコンピューター読取可能記憶媒体。
Claims (43)
- 第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定するステップであって、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含むステップと、
ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得するステップと、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップと、を含むニューラルネットワークのトレーニング方法。 - ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得する前記ステップは、
前記ニューラルネットワークにより、前記第1の画像と第2の画像の視線方向をそれぞれ検出し、前記第1の検出視線方向と第2の検出視線方向をそれぞれ取得するステップであって、前記第2の画像が、前記第1の画像にノイズを付加して得られたものであるステップを含み、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップであって、前記第2の視線方向が前記第1の視線方向にノイズを付加して得られたものであるステップを含む請求項1に記載の方法。 - 前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第1の視線方向と前記第1の検出視線方向との第1の損失を決定するステップと、
第1のオフセットベクトルと第2のオフセットベクトルとの第2の損失を決定するステップであって、前記第1のオフセットベクトルが、前記第1の視線方向と前記第2の視線方向の間のオフセットベクトルであり、前記第2のオフセットベクトルが、前記第1の検出視線方向と前記第2の検出視線方向の間のオフセットベクトルであるステップと、
前記第1の損失と前記第2の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含む請求項2に記載の方法。 - 前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
前記第1の視線方向と前記第1の検出視線方向との第3の損失、及び前記第2の視線方向と前記第2の検出視線方向との第4の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップを含む請求項2に記載の方法。 - 前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップの前に、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行うステップを含み、
前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングする前記ステップは、
正規化処理後の前記第1の視線方向、正規化処理後の前記第2の視線方向、正規化処理後の前記第1の検出視線方向及び正規化処理後の前記第2の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするステップを更に含む請求項3又は4に記載の方法。 - 前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行う前記ステップの前に、
前記第1の画像における眼部位置を決定するステップと、
前記眼部位置に基づいて、前記第1の画像に対して回転処理を行って、前記第1の画像における双眼位置を水平軸上で同様にするステップと、を更に含む請求項5に記載の方法。 - ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得する前記ステップは、
前記第1の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するNフレームの画像の視線方向をそれぞれ検出し、Nが1以上の整数であるステップと、
前記隣接するNフレームの画像の視線方向に基づいて、N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するステップと、を含む請求項1〜6のいずれか一項に記載の方法。 - 前記隣接するNフレームの画像の視線方向に基づいて、N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定する前記ステップは、
前記隣接するNフレームの画像の視線方向の算術平均に基づいて、前記N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するステップを含む請求項7に記載の方法。 - 第1のカメラ及び第1の画像における瞳孔に基づいて第1の視線方向を決定する前記ステップは、
カメラアレイから前記第1のカメラを決定し、前記瞳孔の第1の座標系における座標を決定するステップであって、前記第1の座標系が、前記第1のカメラに対応するステップと、
前記カメラアレイの第2のカメラにより、前記瞳孔の第2の座標系における座標を決定するステップであって、前記第2の座標系が前記第2のカメラに対応するステップと、
前記瞳孔の前記第1の座標系における座標及び前記瞳孔の前記第2の座標系における座標に基づいて、前記第1の視線方向を決定するステップと、を含む請求項1〜8のいずれか一項に記載の方法。 - 前記瞳孔の第1の座標系における座標を決定する前記ステップは、
前記瞳孔の前記第1の画像における座標を決定するステップと、
前記瞳孔の前記第1の画像における座標、前記第1のカメラの焦点距離及び主点位置に基づいて、前記瞳孔の前記第1の座標系における座標を決定するステップと、を含む請求項9に記載の方法。 - 前記カメラアレイの第2のカメラにより前記瞳孔の第2の座標系における座標を決定する前記ステップは、
前記第1の座標系、前記カメラアレイの各カメラの焦点距離及び主点位置に基づいて、前記第1の座標系と前記第2の座標系との関係を決定するステップと、
前記第2の座標系と前記第1の座標系との関係に基づいて、前記瞳孔の前記第2の座標系における座標を決定するステップと、を含む請求項9又は10に記載の方法。 - ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップと、
検出された前記第3の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するステップと、
前記第3の画像における前記眼部領域画像を切り取るステップと、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するステップと、を含む視線追跡方法。 - 前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力する前記ステップの後に、
前記眼部領域画像の視線方向及び前記第3の画像の少なくとも1フレームの隣接する画像の視線方向に基づいて、前記第3の画像の視線方向を決定するステップを更に含む請求項12に記載の方法。 - ビデオストリームデータに含まれる第3の画像に対して顔検出を行う前記ステップは、
トリガコマンドを受信した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップ、
又は、車両作動中において、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップ、
又は、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うステップを含む請求項12又は13に記載の方法。 - 前記ビデオストリームデータは、車載カメラによる車両運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両運転領域内の運転者の視線方向であり、又は、前記ビデオストリームデータは、車載カメラによる車両の非運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両の非運転領域内の車内人員の視線方向である請求項14に記載の方法。
- 前記眼部領域画像の視線方向を出力する前記ステップの後に、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップ、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行動を決定するステップ、又は前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するステップを更に含む請求項15に記載の方法。 - 前記運転者が脇見運転をしている場合に、警報通知情報を出力するステップを更に含む請求項16に記載の方法。
- 警報通知情報を出力する前記ステップは、
前記運転者脇見運転の回数が基準回数に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するステップ、
又は、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するステップを含む請求項17に記載の方法。 - 前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を記憶するステップ、
又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信するステップを更に含む請求項17又は18に記載の方法。 - 前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力する前記ステップの前に、請求項1〜11のいずれか一項に記載の方法を用いて前記ニューラルネットワークをトレーニングするステップを更に含む請求項12〜19のいずれか一項に記載の方法。
- 第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定するための第1の決定ユニットであって、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含む第1の決定ユニットと、
ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得するための検出ユニットと、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニットと、を含むニューラルネットワークのトレーニング装置。 - 前記検出ユニットは、具体的に、前記ニューラルネットワークにより、前記第1の画像と第2の画像の視線方向をそれぞれ検出し、前記第1の検出視線方向と第2の検出視線方向をそれぞれ取得するステップであって、前記第2の画像が、前記第1の画像にノイズを付加して得られたものであるために用いられ、
前記トレーニングユニットは、具体的に、前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び第2の視線方向に基づいて、前記ニューラルネットワークをトレーニングするために用いられ、前記第2の視線方向が前記第1の視線方向にノイズを付加して得られたものである請求項21に記載の装置。 - 前記トレーニングユニットは、
前記第1の視線方向と前記第1の検出視線方向との第1の損失を決定するための第1の決定サブユニットと、
第1のオフセットベクトルと第2のオフセットベクトルとの第2の損失を決定するための第2の決定サブユニットであって、前記第1のオフセットベクトルが、前記第1の視線方向と前記第2の視線方向の間のオフセットベクトルであり、前記第2のオフセットベクトルが、前記第1の検出視線方向と前記第2の検出視線方向の間のオフセットベクトルである第2の決定サブユニットと、
前記第1の損失と前記第2の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整サブユニットと、を含む請求項22に記載の装置。 - 前記トレーニングユニットは、具体的に、前記第1の視線方向と前記第1の検出視線方向との第3の損失、及び前記第2の視線方向と前記第2の検出視線方向との第4の損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整するために用いられる請求項22に記載の装置。
- 前記第1の視線方向、前記第1の検出視線方向、前記第2の検出視線方向及び前記第2の視線方向に対してそれぞれ正規化処理を行うための正規化処理ユニットと、
具体的に、正規化処理後の前記第1の視線方向、正規化処理後の前記第2の視線方向、正規化処理後の前記第1の検出視線方向及び正規化処理後の前記第2の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするための前記トレーニングユニットと、を更に含む請求項23又は24に記載の装置。 - 前記第1の画像における眼部位置を決定するための第2の決定ユニットと、
前記眼部位置に基づいて、前記第1の画像に対して回転処理を行って、前記第1の画像における双眼位置を水平軸上で同様にするための回転処理ユニットと、を更に含む請求項25に記載の装置。 - 前記検出ユニットは、
前記第1の画像がビデオ画像である場合に、前記ニューラルネットワークにより隣接するNフレームの画像の視線方向をそれぞれ検出し、Nが1以上の整数であるための検出サブユニットと、
前記隣接するNフレームの画像の視線方向に基づいて、N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するための第3の決定サブユニットと、を含む請求項21〜26のいずれか一項に記載の装置。 - 前記第3の決定サブユニットは、具体的に、前記隣接するNフレームの画像の視線方向の算術平均に基づいて、前記N番目のフレーム画像の視線方向を前記第1の検出視線方向として決定するために用いられる請求項27に記載の装置。
- 前記第1の決定ユニットは、具体的に、カメラアレイから前記第1のカメラを決定し、前記瞳孔の第1の座標系における座標を決定するステップであって、前記第1の座標系が、前記第1のカメラに対応するステップと、前記カメラアレイの第2のカメラにより、前記瞳孔の第2の座標系における座標を決定するステップであって、前記第2の座標系が前記第2のカメラに対応するステップと、前記瞳孔の前記第1の座標系における座標及び前記瞳孔の前記第2の座標系における座標に基づいて、前記第1の視線方向を決定するステップと、を実行するために用いられる請求項21〜28に記載の装置。
- 前記第1の決定ユニットは、具体的に、前記瞳孔の前記第1の画像における座標を決定するステップと、前記瞳孔の前記第1の画像における座標、前記第1のカメラの焦点距離及び主点位置に基づいて、前記瞳孔の前記第1の座標系における座標を決定するステップと、を実行するために用いられる請求項29に記載の装置。
- 前記第1の決定ユニットは、具体的に、前記第1の座標系、前記カメラアレイの各カメラの焦点距離及び主点位置に基づいて、前記第1の座標系と前記第2の座標系との関係を決定するステップと、前記第2の座標系と前記第1の座標系との関係に基づいて、前記瞳孔の前記第2の座標系における座標を決定するステップと、を実行するために用いられる請求項29又は30に記載の装置。
- ビデオストリームデータに含まれる第3の画像に対して顔検出を行うための顔検出ユニットと、
検出された前記第3の画像における顔領域に対してキーポイント位置決定を行って、前記顔領域における眼部領域を決定するための第1の決定ユニットと、
前記第3の画像における前記眼部領域画像を切り取るための切り取りユニットと、
前記眼部領域画像を予めトレーニングされたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するための入力出力ユニットと、を含む視線追跡装置。 - 前記眼部領域画像の視線方向及び前記第3の画像の少なくとも1フレームの隣接する画像の視線方向に基づいて、前記第3の画像の視線方向を決定するための第2の決定ユニットを更に含む請求項32に記載の装置。
- 前記顔検出ユニットは、具体的に、トリガコマンドを受信した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うために用いられ、
又は、前記顔検出ユニットは、具体的に、車両作動中において、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うために用いられ、
又は、前記顔検出ユニットは、具体的に、車両の作動速度が基準速度に達した場合に、前記ビデオストリームデータに含まれる第3の画像に対して顔検出を行うために用いられる請求項32又は33に記載の装置。 - 前記ビデオストリームデータは、車載カメラによる車両運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両運転領域内の運転者の視線方向であり、又は、前記ビデオストリームデータは車載カメラによる車両の非運転領域のビデオストリームであり、前記眼部領域画像の視線方向は前記車両の非運転領域内の車内人員の視線方向である請求項34に記載の装置。
- 前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定するステップと、前記運転者の関心領域に基づいて、前記運転者が脇見運転をしているか否かを含む前記運転者の運転行動を決定するステップと、を実行するために用いられる第3の決定ユニット、又は、
前記視線方向に基づいて前記車両又は前記車両に設置された車載機器に対する制御情報を出力するための出力ユニットを更に含む請求項35に記載の装置。 - 前記出力ユニットは、前記運転者が脇見運転をしている場合に、警報通知情報を出力するために用いられる請求項36に記載の装置。
- 前記出力ユニットは、具体的に、前記運転者脇見運転の回数が基準回数に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニットは、具体的に、前記運転者脇見運転の時間が基準時間に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニットは、具体的に、前記運転者脇見運転の時間が前記基準時間に達し且つ回数が前記基準回数に達した場合に、前記警報通知情報を出力するために用いられ、
又は、前記出力ユニットは、具体的に、前記運転者が脇見運転をしている場合に、前記車両に接続される端末に通知情報を送信するために用いられる請求項37に記載の装置。 - 前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を記憶するための記憶ユニット、
又は、前記運転者が脇見運転をしている場合に、前記眼部領域画像と前記眼部領域画像の前後の一つ以上の特定フレーム数の画像を前記車両に接続される端末に送信するための送信ユニットを更に含む請求項37又は38に記載の装置。 - 第1のカメラ及び第1の画像における瞳孔に基づいて、第1の視線方向を決定するための第4の決定ユニットであって、前記第1のカメラが前記第1の画像を撮影するカメラであり、前記第1の画像が少なくとも眼部画像を含む第4の決定ユニットと、
ニューラルネットワークにより前記第1の画像の視線方向を検出し、第1の検出視線方向を取得するための検出ユニットと、
前記第1の視線方向と前記第1の検出視線方向に基づいて、前記ニューラルネットワークをトレーニングするためのトレーニングユニットと、を更に含む請求項32〜39のいずれか一項に記載の装置。 - プロセッサーと、プログラムコマンドを記憶するためのメモリとを含み、前記プロセッサーと前記メモリが回路を介して接続され、前記プログラムコマンドが前記プロセッサーにより実行されると、前記プロセッサーに請求項1〜11のいずれか一項に記載の方法を実行させる電子機器。
- プロセッサーと、プログラムコマンドを記憶するためのメモリとを含み、前記プロセッサーと前記メモリが回路を介して接続され、前記プログラムコマンドが前記プロセッサーにより実行されると、前記プロセッサーに請求項12〜20のいずれか一項に記載の方法を実行させる電子機器。
- プログラムコマンドを含むコンピュータープログラムが記憶されているコンピューター読取可能記憶媒体であって、前記プログラムコマンドがプロセッサーにより実行されると、前記プロセッサーに請求項1〜11のいずれか一項に記載の方法を実行させ、及び/又は前記プロセッサーに請求項12〜20のいずれか一項に記載の方法を実行させるコンピューター読取可能記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811155578.9A CN110969060A (zh) | 2018-09-29 | 2018-09-29 | 神经网络训练、视线追踪方法和装置及电子设备 |
CN201811155578.9 | 2018-09-29 | ||
PCT/CN2019/092131 WO2020062960A1 (zh) | 2018-09-29 | 2019-06-20 | 神经网络训练、视线追踪方法和装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021530823A true JP2021530823A (ja) | 2021-11-11 |
JP7146087B2 JP7146087B2 (ja) | 2022-10-03 |
Family
ID=69950236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021524086A Active JP7146087B2 (ja) | 2018-09-29 | 2019-06-20 | ニューラルネットワークのトレーニング方法、視線追跡方法及び装置並びに電子機器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210133469A1 (ja) |
JP (1) | JP7146087B2 (ja) |
CN (1) | CN110969060A (ja) |
SG (1) | SG11202100364SA (ja) |
WO (1) | WO2020062960A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807119B (zh) * | 2020-05-29 | 2024-04-02 | 魔门塔(苏州)科技有限公司 | 一种人员注视位置检测方法及装置 |
CN111860292A (zh) * | 2020-07-16 | 2020-10-30 | 科大讯飞股份有限公司 | 基于单目相机的人眼定位方法、装置以及设备 |
CN112380935B (zh) * | 2020-11-03 | 2023-05-26 | 深圳技术大学 | 面向自动驾驶的人机协同感知方法及系统 |
CN112749655A (zh) * | 2021-01-05 | 2021-05-04 | 风变科技(深圳)有限公司 | 视线追踪方法、装置、计算机设备和存储介质 |
US11574484B1 (en) * | 2021-01-13 | 2023-02-07 | Ambarella International Lp | High resolution infrared image generation using image data from an RGB-IR sensor and visible light interpolation |
CN113052064B (zh) * | 2021-03-23 | 2024-04-02 | 北京思图场景数据科技服务有限公司 | 基于面部朝向、面部表情及瞳孔追踪的注意力检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951084A (zh) * | 2015-07-30 | 2015-09-30 | 京东方科技集团股份有限公司 | 视线追踪方法及装置 |
CN104978548A (zh) * | 2014-04-02 | 2015-10-14 | 汉王科技股份有限公司 | 一种基于三维主动形状模型的视线估计方法与装置 |
CN108171152A (zh) * | 2017-12-26 | 2018-06-15 | 深圳大学 | 深度学习人眼视线估计方法、设备、系统及可读存储介质 |
CN108171218A (zh) * | 2018-01-29 | 2018-06-15 | 深圳市唯特视科技有限公司 | 一种基于深度外观注视网络的视线估计方法 |
CN108229284A (zh) * | 2017-05-26 | 2018-06-29 | 北京市商汤科技开发有限公司 | 视线追踪及训练方法和装置、系统、电子设备和存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2685976C (en) * | 2007-05-23 | 2013-02-19 | The University Of British Columbia | Methods and apparatus for estimating point-of-gaze in three dimensions |
JP5719223B2 (ja) * | 2011-04-25 | 2015-05-13 | オリンパスイメージング株式会社 | 画像記録装置、記録方法およびプログラム |
CN104951808B (zh) * | 2015-07-10 | 2018-04-27 | 电子科技大学 | 一种用于机器人交互对象检测的3d视线方向估计方法 |
JP2019519859A (ja) * | 2016-06-29 | 2019-07-11 | シーイング マシーンズ リミテッド | 視線追跡を実行するシステム及び方法 |
US10467488B2 (en) * | 2016-11-21 | 2019-11-05 | TeleLingo | Method to analyze attention margin and to prevent inattentive and unsafe driving |
US11132543B2 (en) * | 2016-12-28 | 2021-09-28 | Nvidia Corporation | Unconstrained appearance-based gaze estimation |
CN108229276B (zh) * | 2017-03-31 | 2020-08-11 | 北京市商汤科技开发有限公司 | 神经网络训练及图像处理方法、装置和电子设备 |
CN107832699A (zh) * | 2017-11-02 | 2018-03-23 | 北方工业大学 | 基于阵列镜头的兴趣点关注度测试方法及装置 |
-
2018
- 2018-09-29 CN CN201811155578.9A patent/CN110969060A/zh active Pending
-
2019
- 2019-06-20 JP JP2021524086A patent/JP7146087B2/ja active Active
- 2019-06-20 WO PCT/CN2019/092131 patent/WO2020062960A1/zh active Application Filing
- 2019-06-20 SG SG11202100364SA patent/SG11202100364SA/en unknown
-
2021
- 2021-01-11 US US17/145,795 patent/US20210133469A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978548A (zh) * | 2014-04-02 | 2015-10-14 | 汉王科技股份有限公司 | 一种基于三维主动形状模型的视线估计方法与装置 |
CN104951084A (zh) * | 2015-07-30 | 2015-09-30 | 京东方科技集团股份有限公司 | 视线追踪方法及装置 |
CN108229284A (zh) * | 2017-05-26 | 2018-06-29 | 北京市商汤科技开发有限公司 | 视线追踪及训练方法和装置、系统、电子设备和存储介质 |
CN108171152A (zh) * | 2017-12-26 | 2018-06-15 | 深圳大学 | 深度学习人眼视线估计方法、设备、系统及可读存储介质 |
CN108171218A (zh) * | 2018-01-29 | 2018-06-15 | 深圳市唯特视科技有限公司 | 一种基于深度外观注视网络的视线估计方法 |
Also Published As
Publication number | Publication date |
---|---|
US20210133469A1 (en) | 2021-05-06 |
SG11202100364SA (en) | 2021-02-25 |
JP7146087B2 (ja) | 2022-10-03 |
WO2020062960A1 (zh) | 2020-04-02 |
CN110969060A (zh) | 2020-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021530823A (ja) | ニューラルネットワークのトレーニング方法、視線追跡方法及び装置並びに電子機器 | |
JP7154678B2 (ja) | 目標の位置取得方法、装置、コンピュータ機器及びコンピュータプログラム | |
KR102459221B1 (ko) | 전자 장치, 이의 영상 처리 방법 및 컴퓨터 판독가능 기록 매체 | |
KR20190062171A (ko) | 자율 머신에서의 오작동 센서의 딥 러닝 기반의 실시간 검출 및 수정 | |
US20220254063A1 (en) | Gaze point estimation processing apparatus, gaze point estimation model generation apparatus, gaze point estimation processing system, and gaze point estimation processing method | |
WO2020063000A1 (zh) | 神经网络训练、视线检测方法和装置及电子设备 | |
WO2020029874A1 (zh) | 对象跟踪方法及装置、电子设备及存储介质 | |
US20220198836A1 (en) | Gesture recognition method, electronic device, computer-readable storage medium, and chip | |
EP3757878A1 (en) | Head pose estimation | |
CN111670004A (zh) | 用于测量心率的电子装置和方法 | |
CN116917949A (zh) | 根据单目相机输出来对对象进行建模 | |
WO2022245648A1 (en) | Dynamic adjustment of exposure and iso related application | |
US20240046583A1 (en) | Real-time photorealistic view rendering on augmented reality (ar) device | |
CN112818733B (zh) | 信息处理方法、装置、存储介质及终端 | |
JP2019212148A (ja) | 情報処理装置及び情報処理プログラム | |
CN115871679A (zh) | 驾驶员疲劳检测方法、装置、电子设备及介质 | |
US11765457B2 (en) | Dynamic adjustment of exposure and iso to limit motion blur | |
WO2020207294A1 (zh) | 服务处理方法、装置、存储介质及电子设备 | |
JP2020071717A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN115729347A (zh) | 用于人机接口应用中内容识别的多模态传感器融合 | |
WO2020200082A1 (zh) | 直播互动方法、装置、直播系统及电子设备 | |
CN113506328A (zh) | 视线估计模型的生成方法和装置、视线估计方法和装置 | |
WO2023223704A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
WO2022009652A1 (ja) | データ収集システム、センサ装置、データ収集装置、及びデータ収集方法 | |
CN112711324B (zh) | 基于tof相机的手势交互方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220609 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220916 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220920 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7146087 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |