JP2021531601A - ニューラルネットワーク訓練、視線検出方法及び装置並びに電子機器 - Google Patents
ニューラルネットワーク訓練、視線検出方法及び装置並びに電子機器 Download PDFInfo
- Publication number
- JP2021531601A JP2021531601A JP2021524087A JP2021524087A JP2021531601A JP 2021531601 A JP2021531601 A JP 2021531601A JP 2021524087 A JP2021524087 A JP 2021524087A JP 2021524087 A JP2021524087 A JP 2021524087A JP 2021531601 A JP2021531601 A JP 2021531601A
- Authority
- JP
- Japan
- Prior art keywords
- image
- coordinate system
- line
- camera coordinate
- sight direction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 202
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 144
- 238000012549 training Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 claims abstract description 148
- 210000001747 pupil Anatomy 0.000 claims abstract description 84
- 210000004087 cornea Anatomy 0.000 claims description 30
- 230000006399 behavior Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 9
- 238000003384 imaging method Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 241000270295 Serpentes Species 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000010030 laminating Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 102200067253 rs762798018 Human genes 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/145—Illumination specially adapted for pattern recognition, e.g. using gratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/197—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Ophthalmology & Optometry (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
- Eye Examination Apparatus (AREA)
Abstract
Description
本願は、2018年09月29日に提出された出願番号201811155648.0の中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
上記眼部領域画像の視線方向及び上記第2画像の少なくとも1つの隣接フレーム画像の視線方向に基づいて、上記第2画像の視線方向を決定することを更に含む。
上記眼部領域画像の視線方向に基づいて上記運転者の関心領域を決定することと、
上記運転者の関心領域に基づいて、上記運転者の運転行為を決定し、 上記運転行為には上記運転者が注意力散漫運転を行っているかどうかが含まれることと、を更に含む。
運転者の注意力散漫運転の回数が基準回数に達した場合、上記早期警告リマインド情報を出力すること、
又は、上記運転者の注意力散漫運転時間が基準時間に達した場合、上記早期警告リマインド情報を出力すること、
又は、上記運転者の注意力散漫運転時間が上記基準時間に達して且つ回数が上記基準回数に達した場合、上記早期警告リマインド情報を出力すること、
又は、上記運転者が注意力散漫運転を行っている場合、上記車両に接続される端末にリマインド情報を送信することを含んでもよい。
上記第1視線方向及び上記第1検出視線方向の損失に基づいて、上記ニューラルネットワークのネットワークパラメータを調整することを含む。
上記第1視線方向及び上記第1検出視線方向をそれぞれ正規化処理することを更に含み、
上記第1視線方向及び上記第1検出視線方向に基づいて上記ニューラルネットワークを訓練することは、
正規化処理された上記第1視線方向及び正規化処理された上記第1検出視線方向に基づいて上記ニューラルネットワークを訓練することを含む。
上記第1画像における上記瞳孔基準点の座標を決定することと、
上記第1画像における上記瞳孔基準点の座標、及び上記第2カメラの焦点距離及び主点位置に基づいて、上記第2カメラ座標系での上記瞳孔基準点の座標を決定することと、を含む。
ワールド座標系における上記光源の座標を決定することと、
上記ワールド座標系と上記第2カメラ座標系との関係に基づいて、上記第2カメラ座標系での上記光源の座標を決定することと、を含む。
ただし、R及びTの取得方法は、前記実施例を参照されたい。
上記第1画像における上記反射点の座標を決定することと、
上記第1画像における上記反射点の座標、及び第2カメラの焦点距離及び主点位置に基づいて、第2カメラ座標系での上記反射点の座標を決定することと、を含む。
上記第2カメラ座標系での上記赤外光源の座標、及び上記第2カメラ座標系での上記角膜上の反射点の座標に基づいて、上記第2カメラ座標系での、上記光源に対応するプルキンエスポットの座標を決定することと、
上記第2カメラ座標系での上記光源の座標、上記第2カメラ座標系での上記角膜上の反射点の座標、上記第2カメラ座標系での上記プルキンエスポットの座標、及び上記第2カメラ座標系と上記第1カメラ座標系との関係に基づいて、上記第2座標を決定することと、を含む。
π12*(A − C2) = 0 (8)
π21*(A − C1) = 0 (9)
π22*(A − C2) = 0 (10)
上記から分かるように、原理の観点から言えば、上記4つの式のうちの3つを利用すると、角膜基準点Aの基準カメラ座標系での座標を解くことができるが、実際のデータ収集において、2つの光源のみを利用すると、確実な結果を得ることができない。1つの原因は、方程式の数が少なすぎて騒音による干渉を除去することができないことである。もう1つの原因は、光源の角膜における反射が撮られないことである。該課題を解決するために、収集システムにおいて、計8個の光源が入れられる。大部分の頭部姿勢及び視角において、各膜基準点の座標を演算するための十分な反射輝点が角膜にあることを確保する。
少なくとも眼部画像を含んでいる第1カメラ座標系での、第1画像における瞳孔基準点の第1座標を決定し、前記第1カメラ座標系での、前記第1画像における角膜基準点の第2座標を決定するように構成される第1決定ユニット801と、
前記第1座標及び前記第2座標に基づいて、前記第1画像の第1視線方向を決定するように構成される第2決定ユニット802と、
ニューラルネットワークにより、前記第1画像に対して視線方向検出を行い、第1検出視線方向を得るように構成される検出ユニット803と、
前記第1視線方向及び前記第1検出視線方向に基づいて前記ニューラルネットワークを訓練するように構成される訓練ユニット804と、を備えてもよい。
上記第1視線方向及び上記第1検出視線方向をそれぞれ正規化処理するように正規化処理ユニットを更に備え、
上記訓練ユニットは具体的には、正規化処理された上記第1視線方向及び正規化処理された上記第1検出視線方向に基づいて、上記ニューラルネットワークを訓練するように構成される。
上記第2カメラ座標系での瞳孔基準点の座標を決定するように構成される第1決定サブユニット8011と、
上記第1カメラ座標系と上記第2カメラ座標系との関係、及び上記第1カメラ座標系での上記瞳孔基準点の座標に基づいて、上記第1カメラ座標系での上記瞳孔基準点の第1座標を決定するように構成される第2決定サブユニット8012と、を備える。
上記第1画像における角膜における上記第2カメラ座標系での反射点の座標を決定し、上記反射点が、光源の上記角膜基準点における結像位置であるように構成される第3決定サブユニット8013と、
上記第1カメラ座標系と上記第2カメラ座標系との関係、及び上記第2カメラ座標系での上記角膜上の反射点の座標に基づいて、上記第1カメラ座標系での上記角膜基準点の第2座標を決定するように構成される第4決定サブユニット8014とを更に備える。
ビデオストリームデータに含まれる第2画像に対して顔検出を行うように構成される顔検出ユニット1101と
検出された上記第2画像における顔領域に対してキーポイント位置決めを行い、上記顔領域における眼部領域を決定するように構成される第1決定ユニット1102と、
上記第2画像における上記眼部領域画像を切り取るように構成される切取ユニット1103と、
上記眼部領域画像を予め訓練されたニューラルネットワークに入力し、上記眼部領域画像の視線方向を出力するように構成される入力出力ユニット1104と、を備える。
上記眼部領域画像の視線方向及び上記第2画像の少なくとも1つの隣接するフレームの画像の視線方向に基づいて、上記第2画像の視線方向を決定するように構成される第2決定ユニット1105を更に備える。
又は、上記顔検出ユニット1101は具体的には、車両運転中に、上記ビデオストリームデータに含まれる第2画像に対して顔検出を行うように構成され、
又は、上記顔検出ユニット1101は具体的には、車両の運転速度が基準速度に達した場合、上記ビデオストリームデータに含まれる第2画像に対して顔検出を行うように構成される。
上記眼部領域画像の視線方向は、上記車両の運転領域における運転者の視線方向である。
上記眼部領域画像の視線方向に基づいて、上記運転者の関心領域を決定し、上記運転者の関心領域に基づいて上記運転者の運転行為を決定するように構成される第3決定ユニット1106を更に備え、上記運転行為には上記運転者が注意力散漫運転を行っているかどうかが含まれる。
上記運転者が注意力散漫運転を行っている場合、早期警告リマインド情報を出力するように構成される出力ユニット1107を更に備える。
又は、上記出力ユニット1107は具体的には、上記運転者の注意力散漫運転時間が基準時間に間に達した場合、上記早期警告リマインド情報を出力するように構成され、
又は、上記出力ユニット1107は具体的には、上記運転者の注意力散漫運転時間が上記基準時間に達して且つ回数が上記基準回数に達した場合、上記早期警告リマインド情報を出力するように構成され、
又は、上記出力ユニット1107は具体的には、上記運転者が注意力散漫運転を行っている場合、上記車両に接続される端末にリマインド情報を送信するように構成される。
上記運転者が注意力散漫運転を行っている場合、上記眼部領域画像及び上記眼部領域画像の前後の所定数のフレームの画像のうちの1つ又は複数を記憶するように構成される記憶ユニット1108、
又は、上記運転者が注意力散漫運転を行っている場合、上記眼部領域画像及び上記眼部領域画像の前後の所定数のフレームの画像のうちの1つ又は複数を上記車両に接続される端末に送信するように構成される送信ユニット1109を更に備える。
第1カメラ及び第1画像における瞳孔に基づいて第1視線方向を決定するように構成される第4決定ユニット1110であって、上記第1カメラが上記第1画像を撮るカメラであり、上記第1画像には少なくとも眼部画像が含まれる、第4決定ユニット1110と、
ニューラルネットワークにより、上記第1画像の視線方向を検出し、第1検出視線方向を得るように構成される検出ユニット1111と、
上記第1視線方向及び上記第1検出視線方向に基づいて、上記ニューラルネットワークを訓練するように構成される訓練ユニット1112と、を更に備える。
例えば、本願は以下の項目を提供する。
(項目1)
ニューラルネットワーク訓練方法であって、
第1カメラ座標系での、第1画像における瞳孔基準点の第1座標を決定し、前記第1カメラ座標系での、前記第1画像における角膜基準点の第2座標を決定することであって、前記第1画像は少なくとも眼部画像を含む、ことと、
前記第1座標及び前記第2座標に基づいて、前記第1画像の第1視線方向を決定することと、
ニューラルネットワークにより、前記第1画像に対して視線方向検出を行い、第1検出視線方向を得ることと、
前記第1視線方向及び前記第1検出視線方向に基づいて前記ニューラルネットワークを訓練することと、を含む、前記方法。
(項目2)
前記第1視線方向及び前記第1検出視線方向に基づいて前記ニューラルネットワークを訓練することは、
前記第1視線方向及び前記第1検出視線方向の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整することを含むことを特徴とする
項目1に記載の方法。
(項目3)
前記第1視線方向及び前記第1検出視線方向に基づいて前記ニューラルネットワークを訓練する前に、前記方法は、
前記第1視線方向及び前記第1検出視線方向をそれぞれ正規化処理することと、
正規化処理された前記第1視線方向及び正規化処理された前記第1検出視線方向に基づいて、前記ニューラルネットワークを訓練することを更に含むことを特徴とする
項目1又は2に記載の方法。
(項目4)
ニューラルネットワークにより、前記第1画像に対して視線方向検出を行い、第1検出視線方向を得ることは、
前記第1画像がビデオ画像に属する場合、前記ニューラルネットワークにより、隣接するN個フレームの画像の視線方向をそれぞれ検出することであって、Nが1より大きい整数であることと、
前記隣接するN個フレームの画像の視線方向に基づいて、Nフレーム目の画像の視線方向が前記第1検出視線方向であると判定することと、を含むことを特徴とする
項目1から3のうちいずれか一項に記載の方法。
(項目5)
前記隣接するN個フレームの画像の視線方向に基づいて、Nフレーム目の画像の視線方向が前記第1検出視線方向であると判定することは、
前記隣接するN個フレームの画像の視線方向の平均和に基づいて、前記Nフレーム目の画像の視線方向が前記第1検出視線方向であると判定することを含むことを特徴とする
項目4に記載の方法。
(項目6)
第1カメラ座標系での、第1画像における瞳孔基準点の第1座標を決定することは、
第2カメラ座標系での前記瞳孔基準点の座標を決定することと、
前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第1カメラ座標系での前記瞳孔基準点の座標に基づいて、前記第1カメラ座標系での前記瞳孔基準点の第1座標を決定することと、を含むことを特徴とする
項目1から5のうちいずれか一項に記載の方法。
(項目7)
第2カメラ座標系での前記瞳孔基準点の座標を決定することは、
前記瞳孔基準点の前記第1画像における座標を決定することと、
前記瞳孔基準点の前記第1画像における座標、及び前記第2カメラの焦点距離及び主点位置に基づいて、前記第2カメラ座標系での前記瞳孔基準点の座標を決定することと、を含むことを特徴とする
項目6に記載の方法。
(項目8)
前記第1カメラ座標系での、前記第1画像における角膜基準点の第2座標を決定することは、
前記第2カメラ座標系での、前記第1画像における角膜上の反射点の座標を決定することであって、前記反射点は、光源が前記角膜上に結像される位置である、ことと、
前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第2カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第1カメラ座標系での前記角膜基準点の第2座標を決定することと、を含むことを特徴とする
項目1から7のうちいずれか一項に記載の方法。
(項目9)
前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第2カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第1カメラ座標系での前記角膜基準点の第2座標を決定することは、
前記第2カメラ座標系での前記光源の座標を決定することと、
前記第2カメラ座標系での前記光源の座標、前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第2カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第1カメラ座標系での前記角膜基準点の第2座標を決定することと、を含むことを特徴とする
項目8に記載の方法。
(項目10)
前記第2カメラ座標系での前記光源の座標、前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第2カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第1カメラ座標系での前記角膜基準点の第2座標を決定することは、
前記第2カメラ座標系での、前記光源に対応するプルキンエスポットの座標を決定することと、
前記第2カメラ座標系での前記プルキンエスポットの座標、前記第2カメラ座標系での前記光源の座標、前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第2カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第1カメラ座標系での前記角膜基準点の第2座標を決定することと、を含むことを特徴とする
項目9に記載の方法。
(項目11)
前記第2カメラ座標系での、前記第1画像における角膜上の反射点の座標を決定することは、
前記第1画像における前記反射点の座標を決定することと、
前記第1画像における前記反射点の座標、前記第2カメラの焦点距離及び主点位置に基づいて、前記第二カメラ座標系での前記反射点の座標を決定することと、を含むことを特徴とする
項目8から10のうちいずれか一項に記載の方法。
(項目12)
前記第2カメラ座標系での前記光源の座標を決定することは、
ワールド座標系での前記光源の座標を決定することと、
前記ワールド座標系と前記第2カメラ座標系との関係に基づいて、前記第2カメラ座標系での前記光源の座標を決定することと、を含むことを特徴とする
項目9から11のうちいずれか一項に記載の方法。
(項目13)
前記光源は赤外光源又は近赤外光源を含み、前記光源の数は少なくとも2つであり、前記反射点の数は、前記光源の数に対応することを特徴とする
項目8から12のうちいずれか一項に記載の方法。
(項目14)
視線検出方法であって、
ビデオストリームデータに含まれる第2画像に対して顔検出を行うことと、
検出された前記第2画像における顔領域に対してキーポイント位置決めを行い、前記顔領域における眼部領域を決定することと、
前記第2画像における前記眼部領域画像を切り取ることと、
前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力することと、を含む、前記方法。
(項目15)
前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力した後、前記方法は、
前記眼部領域画像の視線方向及び前記第2画像の少なくとも1つの隣接するフレームの画像の視線方向に基づいて、前記第2画像の視線方向を決定することを更に含むことを特徴とする
項目14に記載の方法。
(項目16)
ビデオストリームデータに含まれる第2画像に対して顔検出を行うことは、
トリガ命令を受信した場合、前記ビデオストリームデータに含まれる第2画像に対して顔検出を行うこと、
又は、車両運転中に、前記ビデオストリームデータに含まれる第2画像に対して顔検出を行うこと、
又は、車両の運転速度が基準速度に達した場合、前記ビデオストリームデータに含まれる第2画像に対して顔検出を行うことを含むことを特徴とする
項目14又は15に記載の方法。
(項目17)
前記ビデオストリームデータは、車載カメラによる車両の運転領域のビデオストリームであり、
前記眼部領域画像の視線方向は、前記車両の運転領域における運転者の視線方向であることを特徴とする
項目16に記載の方法。
(項目18)
前記眼部領域画像の視線方向を出力した後、前記方法は、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定することと、
前記運転者の関心領域に基づいて前記運転者の運転行為を決定することであって、前記運転行為には前記運転者が注意力散漫運転を行っているかどうかが含まれる、ことと、を更に含むことを特徴とする
項目17に記載の方法。
(項目19)
前記方法は、
前記運転者が注意力散漫運転を行っている場合、早期警告リマインド情報を出力することを更に含むことを特徴とする
項目18に記載の方法。
(項目20)
前記早期警告リマインド情報を出力することは、
前記運転者の注意力散漫運転の回数が基準回数に達した場合、前記早期警告リマインド情報を出力すること、
又は、前記運転者の注意力散漫運転時間が前記基準時間に達した場合、前記早期警告リマインド情報を出力すること、
又は、前記運転者の注意力散漫運転時間が前記基準時間に達して且つ回数が前記基準回数に達した場合、前記早期警告リマインド情報を出力すること、
又は、前記運転者が注意力散漫運転を行っている場合、前記車両に接続される端末にリマインド情報を送信することを含むことを特徴とする
項目19に記載の方法。
(項目21)
前記方法は、
前記運転者が注意力散漫運転を行っている場合、前記眼部領域画像及び前記眼部領域画像の前後の所定数のフレームの画像のうちの1つ又は複数を記憶すること、
又は、前記運転者が注意力散漫運転を行っている場合、前記眼部領域画像及び前記眼部領域画像の前後の所定数のフレームの画像のうちの1つ又は複数を前記車両に接続される端末に送信することを更に含むことを特徴とする
項目19又は20に記載の方法。
(項目22)
前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力する前に、前記方法は、項目1から13のうちいずれか一項に記載の方法で前記ニューラルネットワークを訓練することを更に含むことを特徴とする
項目14から21のうちいずれか一項に記載の方法。
(項目23)
ニューラルネットワーク訓練装置であって、
第1カメラ座標系での、第1画像における瞳孔基準点の第1座標を決定し、前記第1カメラ座標系での、前記第1画像における角膜基準点の第2座標を決定するように構成される第1決定ユニットであって、前記第1画像は少なくとも眼部画像を含む、第1決定ユニットと、
前記第1座標及び前記第2座標に基づいて、前記第1画像の第1視線方向を決定するように構成される第2決定ユニットと、
ニューラルネットワークにより、前記第1画像に対して視線方向検出を行い、第1検出視線方向を得るように構成される検出ユニットと、
前記第1視線方向及び前記第1検出視線方向に基づいて前記ニューラルネットワークを訓練するように構成される訓練ユニットと、を備える、前記装置。
(項目24)
前記訓練ユニットは具体的には、前記第1視線方向及び前記第1検出視線方向の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するように構成されることを特徴とする
項目23に記載の装置。
(項目25)
前記装置は、
前記第1視線方向及び前記第1検出視線方向をそれぞれ正規化処理するように正規化処理ユニットを更に備え、
前記訓練ユニットは具体的には、正規化処理された前記第1視線方向及び正規化処理された前記第1検出視線方向に基づいて、前記ニューラルネットワークを訓練するように構成されることを特徴とする
項目23又は24に記載の装置。
(項目26)
前記検出ユニットは具体的には、前記第1画像がビデオ画像に属する場合、前記ニューラルネットワークにより、隣接するN個フレームの画像の視線方向をそれぞれ検出し、Nが1より大きい整数であり、
前記隣接するN個フレームの画像の視線方向に基づいて、Nフレーム目の画像の視線方向が前記第1検出視線方向であると判定するように構成されることを特徴とする
項目23から25のうちいずれか一項に記載の装置。
(項目27)
前記検出ユニットは具体的には、前記隣接するN個フレームの画像の視線方向の平均和に基づいて、前記Nフレーム目の画像の視線方向が前記第1検出視線方向であると判定するように構成されることを特徴とする
項目26に記載の装置。
(項目28)
前記第1決定ユニットは、
第2カメラ座標系での前記瞳孔基準点の座標を決定するように構成される第1決定サブユニットと、
前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第1カメラ座標系での前記瞳孔基準点の座標に基づいて、前記第1カメラ座標系での前記瞳孔基準点の第1座標を決定するように構成される第2決定サブユニットと、を備えることを特徴とする
項目25から27のうちいずれか一項に記載の装置。
(項目29)
前記第1決定サブユニットは具体的には、前記瞳孔基準点の前記第1画像における座標を決定し、前記瞳孔基準点の前記第1画像における座標、及び前記第2カメラの焦点距離及び主点位置に基づいて、前記第2カメラ座標系での前記瞳孔基準点の座標を決定するように構成されることを特徴とする
項目28に記載の装置。
(項目30)
前記第1決定ユニットは、
前記第2カメラ座標系での、前記第1画像における角膜上の反射点の座標を決定するように構成される第3決定サブユニットであって、前記反射点は、光源が前記角膜上に結像される位置である、第3決定サブユニットと、
前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第2カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第1カメラ座標系での前記角膜基準点の第2座標を決定するように構成される第4決定サブユニットと、を備えることを特徴とする
項目25から29のうちいずれか一項に記載の装置。
(項目31)
前記第4決定サブユニットは具体的には、前記第2カメラ座標系での前記光源の座標を決定し、前記第2カメラ座標系での前記光源の座標、前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第2カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第1カメラ座標系での前記角膜基準点の第2座標を決定するように構成されることを特徴とする
項目30に記載の装置。
(項目32)
前記第4決定サブユニットは具体的には、前記第2カメラ座標系での、前記光源に対応するプルキンエスポットの座標を決定し、前記第2カメラ座標系での前記プルキンエスポットの座標、前記第2カメラ座標系での前記光源の座標、前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第2カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第1カメラ座標系での前記角膜基準点の第2座標を決定するように構成されることを特徴とする
項目31に記載の装置。
(項目33)
前記第3決定サブユニットは具体的には、前記第1画像における前記反射点の座標を決定し、
前記第1画像における前記反射点の座標、前記第2カメラの焦点距離及び主点位置に基づいて、反射点の前記第二カメラ座標系での座標を決定するように構成されることを特徴とする
項目30から32のうちいずれか一項に記載の装置。
(項目34)
前記第4決定サブユニットは具体的には、ワールド座標系での前記光源の座標を決定し、前記ワールド座標系と前記第2カメラ座標系との関係に基づいて、前記第2カメラ座標系での前記光源の座標を決定するように構成されることを特徴とする
項目31から33のうちいずれか一項に記載の装置。
(項目35)
前記光源は赤外光源又は近赤外光源を含み、前記光源の数は少なくとも2つであり、前記反射点の数は、前記光源の数に対応することを特徴とする
項目30から34のうちいずれか一項に記載の装置。
(項目36)
視線検出装置であって、
ビデオストリームデータに含まれる第2画像に対して顔検出を行うように構成される顔検出ユニットと
検出された前記第2画像における顔領域に対してキーポイント位置決めを行い、前記顔領域における眼部領域を決定するように構成される第1決定ユニットと、
前記第2画像における前記眼部領域画像を切り取るように構成される切取ユニットと、
前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するように構成される入力出力ユニットと、を備える、前記装置。
(項目37)
前記装置は、
前記眼部領域画像の視線方向及び前記第2画像の少なくとも1つの隣接するフレームの画像の視線方向に基づいて、前記第2画像の視線方向を決定するように構成される第2決定ユニットを更に備えることを特徴とする
項目36に記載の装置。
(項目38)
前記顔検出ユニットは具体的には、トリガ命令を受信した場合、前記ビデオストリームデータに含まれる第2画像に対して顔検出を行うように構成され、
又は、前記顔検出ユニットは具体的には、車両運転中に、前記ビデオストリームデータに含まれる第2画像に対して顔検出を行うように構成され、
又は、前記顔検出ユニットは具体的には、車両の運転速度が基準速度に達した場合、前記ビデオストリームデータに含まれる第2画像に対して顔検出を行うように構成されることを特徴とする
項目36又は37に記載の装置。
(項目39)
前記ビデオストリームデータは、車載カメラによる車両の運転領域のビデオストリームであり、
前記眼部領域画像の視線方向は、前記車両の運転領域における運転者の視線方向であることを特徴とする
項目38に記載の装置。
(項目40)
前記装置は、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定し、前記運転者の関心領域に基づいて前記運転者の運転行為を決定するように構成される第3決定ユニットを更に備え、前記運転行為には前記運転者が注意力散漫運転を行っているかどうかが含まれることを特徴とする
項目39に記載の装置。
(項目41)
前記装置は、
前記運転者が注意力散漫運転を行っている場合、早期警告リマインド情報を出力するように構成される出力ユニットを更に備えることを特徴とする
項目40に記載の装置。
(項目42)
前記出力ユニットは具体的には、運転者の注意力散漫運転の回数が基準回数に達した場合、前記早期警告リマインド情報を出力するように構成され、
又は、前記出力ユニットは具体的には、前記運転者の注意力散漫運転時間が基準時間に達した場合、前記早期警告リマインド情報を出力するように構成され、
又は、前記出力ユニットは具体的には、前記運転者の注意力散漫運転時間が前記基準時間に達して且つ回数が前記基準回数に達した場合、前記早期警告リマインド情報を出力するように構成され、
又は、前記出力ユニットは具体的には、前記運転者が注意力散漫運転を行っている場合、前記車両に接続される端末にリマインド情報を送信するように構成されることを特徴とする
項目41に記載の装置。
(項目43)
前記装置は、
前記運転者が注意力散漫運転を行っている場合、前記眼部領域画像及び前記眼部領域画像の前後の所定数のフレームの画像のうちの1つ又は複数を記憶するように構成される記憶ユニット、
又は、前記運転者が注意力散漫運転を行っている場合、前記眼部領域画像及び前記眼部領域画像の前後の所定数のフレームの画像のうちの1つ又は複数を前記車両に接続される端末に送信するように構成される送信ユニットを更に備えることを特徴とする
項目41又は42に記載の装置。
(項目44)
前記装置は、
少なくとも眼部画像を含んでいる第1カメラ座標系での、第1画像における瞳孔基準点の第1座標を決定し、前記第1カメラ座標系での、前記第1画像における角膜基準点の第2座標を決定するように構成され、また、前記第1座標及び前記第2座標に基づいて前記第1画像の第1視線方向を決定するように構成される第4決定ユニットと、
ニューラルネットワークにより前記第1画像に対して視線方向を検出し、第1検出視線方向を得るように構成される検出ユニットと、
前記第1視線方向及び前記第1検出視線方向に基づいて、前記ニューラルネットワークを訓練するように構成される訓練ユニットと、を更に備えることを特徴とする
項目36から43のうちいずれか一項に記載の装置。
(項目45)
電子機器であって、プロセッサとメモリとを備え、前記プロセッサと前記メモリは、回路により相互接続され、前記メモリは、プログラム命令を記憶するように構成され、前記プログラム命令が前記プロセッサにより実行される時、前記プロセッサに項目1から13のうちいずれか一項に記載の方法を実行させる、前記電子機器。
(項目46)
電子機器であって、プロセッサとメモリとを備え、前記プロセッサと前記メモリは、回路により相互接続され、前記メモリは、プログラム命令を記憶するように構成され、前記プログラム命令が前記プロセッサにより実行される時、前記プロセッサに項目14から22のうちいずれか一項に記載の方法を実行させる、前記電子機器。
(項目47)
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にはコンピュータプログラムが記憶されており、前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令がプロセッサにより実行される時、前記プロセッサに項目1から13のうちいずれか一項に記載の方法を実行させ、及び/又は、前記プロセッサに項目14から22のうちいずれか一項に記載の方法を実行させる、前記コンピュータ可読記憶媒体。
Claims (47)
- ニューラルネットワーク訓練方法であって、
第1カメラ座標系での、第1画像における瞳孔基準点の第1座標を決定し、前記第1カメラ座標系での、前記第1画像における角膜基準点の第2座標を決定することであって、前記第1画像は少なくとも眼部画像を含む、ことと、
前記第1座標及び前記第2座標に基づいて、前記第1画像の第1視線方向を決定することと、
ニューラルネットワークにより、前記第1画像に対して視線方向検出を行い、第1検出視線方向を得ることと、
前記第1視線方向及び前記第1検出視線方向に基づいて前記ニューラルネットワークを訓練することと、を含む、前記方法。 - 前記第1視線方向及び前記第1検出視線方向に基づいて前記ニューラルネットワークを訓練することは、
前記第1視線方向及び前記第1検出視線方向の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整することを含むことを特徴とする
請求項1に記載の方法。 - 前記第1視線方向及び前記第1検出視線方向に基づいて前記ニューラルネットワークを訓練する前に、前記方法は、
前記第1視線方向及び前記第1検出視線方向をそれぞれ正規化処理することと、
正規化処理された前記第1視線方向及び正規化処理された前記第1検出視線方向に基づいて、前記ニューラルネットワークを訓練することを更に含むことを特徴とする
請求項1又は2に記載の方法。 - ニューラルネットワークにより、前記第1画像に対して視線方向検出を行い、第1検出視線方向を得ることは、
前記第1画像がビデオ画像に属する場合、前記ニューラルネットワークにより、隣接するN個フレームの画像の視線方向をそれぞれ検出することであって、Nが1より大きい整数であることと、
前記隣接するN個フレームの画像の視線方向に基づいて、Nフレーム目の画像の視線方向が前記第1検出視線方向であると判定することと、を含むことを特徴とする
請求項1から3のうちいずれか一項に記載の方法。 - 前記隣接するN個フレームの画像の視線方向に基づいて、Nフレーム目の画像の視線方向が前記第1検出視線方向であると判定することは、
前記隣接するN個フレームの画像の視線方向の平均和に基づいて、前記Nフレーム目の画像の視線方向が前記第1検出視線方向であると判定することを含むことを特徴とする
請求項4に記載の方法。 - 第1カメラ座標系での、第1画像における瞳孔基準点の第1座標を決定することは、
第2カメラ座標系での前記瞳孔基準点の座標を決定することと、
前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第1カメラ座標系での前記瞳孔基準点の座標に基づいて、前記第1カメラ座標系での前記瞳孔基準点の第1座標を決定することと、を含むことを特徴とする
請求項1から5のうちいずれか一項に記載の方法。 - 第2カメラ座標系での前記瞳孔基準点の座標を決定することは、
前記瞳孔基準点の前記第1画像における座標を決定することと、
前記瞳孔基準点の前記第1画像における座標、及び前記第2カメラの焦点距離及び主点位置に基づいて、前記第2カメラ座標系での前記瞳孔基準点の座標を決定することと、を含むことを特徴とする
請求項6に記載の方法。 - 前記第1カメラ座標系での、前記第1画像における角膜基準点の第2座標を決定することは、
前記第2カメラ座標系での、前記第1画像における角膜上の反射点の座標を決定することであって、前記反射点は、光源が前記角膜上に結像される位置である、ことと、
前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第2カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第1カメラ座標系での前記角膜基準点の第2座標を決定することと、を含むことを特徴とする
請求項1から7のうちいずれか一項に記載の方法。 - 前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第2カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第1カメラ座標系での前記角膜基準点の第2座標を決定することは、
前記第2カメラ座標系での前記光源の座標を決定することと、
前記第2カメラ座標系での前記光源の座標、前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第2カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第1カメラ座標系での前記角膜基準点の第2座標を決定することと、を含むことを特徴とする
請求項8に記載の方法。 - 前記第2カメラ座標系での前記光源の座標、前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第2カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第1カメラ座標系での前記角膜基準点の第2座標を決定することは、
前記第2カメラ座標系での、前記光源に対応するプルキンエスポットの座標を決定することと、
前記第2カメラ座標系での前記プルキンエスポットの座標、前記第2カメラ座標系での前記光源の座標、前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第2カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第1カメラ座標系での前記角膜基準点の第2座標を決定することと、を含むことを特徴とする
請求項9に記載の方法。 - 前記第2カメラ座標系での、前記第1画像における角膜上の反射点の座標を決定することは、
前記第1画像における前記反射点の座標を決定することと、
前記第1画像における前記反射点の座標、前記第2カメラの焦点距離及び主点位置に基づいて、前記第二カメラ座標系での前記反射点の座標を決定することと、を含むことを特徴とする
請求項8から10のうちいずれか一項に記載の方法。 - 前記第2カメラ座標系での前記光源の座標を決定することは、
ワールド座標系での前記光源の座標を決定することと、
前記ワールド座標系と前記第2カメラ座標系との関係に基づいて、前記第2カメラ座標系での前記光源の座標を決定することと、を含むことを特徴とする
請求項9から11のうちいずれか一項に記載の方法。 - 前記光源は赤外光源又は近赤外光源を含み、前記光源の数は少なくとも2つであり、前記反射点の数は、前記光源の数に対応することを特徴とする
請求項8から12のうちいずれか一項に記載の方法。 - 視線検出方法であって、
ビデオストリームデータに含まれる第2画像に対して顔検出を行うことと、
検出された前記第2画像における顔領域に対してキーポイント位置決めを行い、前記顔領域における眼部領域を決定することと、
前記第2画像における前記眼部領域画像を切り取ることと、
前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力することと、を含む、前記方法。 - 前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力した後、前記方法は、
前記眼部領域画像の視線方向及び前記第2画像の少なくとも1つの隣接するフレームの画像の視線方向に基づいて、前記第2画像の視線方向を決定することを更に含むことを特徴とする
請求項14に記載の方法。 - ビデオストリームデータに含まれる第2画像に対して顔検出を行うことは、
トリガ命令を受信した場合、前記ビデオストリームデータに含まれる第2画像に対して顔検出を行うこと、
又は、車両運転中に、前記ビデオストリームデータに含まれる第2画像に対して顔検出を行うこと、
又は、車両の運転速度が基準速度に達した場合、前記ビデオストリームデータに含まれる第2画像に対して顔検出を行うことを含むことを特徴とする
請求項14又は15に記載の方法。 - 前記ビデオストリームデータは、車載カメラによる車両の運転領域のビデオストリームであり、
前記眼部領域画像の視線方向は、前記車両の運転領域における運転者の視線方向であることを特徴とする
請求項16に記載の方法。 - 前記眼部領域画像の視線方向を出力した後、前記方法は、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定することと、
前記運転者の関心領域に基づいて前記運転者の運転行為を決定することであって、前記運転行為には前記運転者が注意力散漫運転を行っているかどうかが含まれる、ことと、を更に含むことを特徴とする
請求項17に記載の方法。 - 前記方法は、
前記運転者が注意力散漫運転を行っている場合、早期警告リマインド情報を出力することを更に含むことを特徴とする
請求項18に記載の方法。 - 前記早期警告リマインド情報を出力することは、
前記運転者の注意力散漫運転の回数が基準回数に達した場合、前記早期警告リマインド情報を出力すること、
又は、前記運転者の注意力散漫運転時間が前記基準時間に達した場合、前記早期警告リマインド情報を出力すること、
又は、前記運転者の注意力散漫運転時間が前記基準時間に達して且つ回数が前記基準回数に達した場合、前記早期警告リマインド情報を出力すること、
又は、前記運転者が注意力散漫運転を行っている場合、前記車両に接続される端末にリマインド情報を送信することを含むことを特徴とする
請求項19に記載の方法。 - 前記方法は、
前記運転者が注意力散漫運転を行っている場合、前記眼部領域画像及び前記眼部領域画像の前後の所定数のフレームの画像のうちの1つ又は複数を記憶すること、
又は、前記運転者が注意力散漫運転を行っている場合、前記眼部領域画像及び前記眼部領域画像の前後の所定数のフレームの画像のうちの1つ又は複数を前記車両に接続される端末に送信することを更に含むことを特徴とする
請求項19又は20に記載の方法。 - 前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力する前に、前記方法は、請求項1から13のうちいずれか一項に記載の方法で前記ニューラルネットワークを訓練することを更に含むことを特徴とする
請求項14から21のうちいずれか一項に記載の方法。 - ニューラルネットワーク訓練装置であって、
第1カメラ座標系での、第1画像における瞳孔基準点の第1座標を決定し、前記第1カメラ座標系での、前記第1画像における角膜基準点の第2座標を決定するように構成される第1決定ユニットであって、前記第1画像は少なくとも眼部画像を含む、第1決定ユニットと、
前記第1座標及び前記第2座標に基づいて、前記第1画像の第1視線方向を決定するように構成される第2決定ユニットと、
ニューラルネットワークにより、前記第1画像に対して視線方向検出を行い、第1検出視線方向を得るように構成される検出ユニットと、
前記第1視線方向及び前記第1検出視線方向に基づいて前記ニューラルネットワークを訓練するように構成される訓練ユニットと、を備える、前記装置。 - 前記訓練ユニットは具体的には、前記第1視線方向及び前記第1検出視線方向の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するように構成されることを特徴とする
請求項23に記載の装置。 - 前記装置は、
前記第1視線方向及び前記第1検出視線方向をそれぞれ正規化処理するように正規化処理ユニットを更に備え、
前記訓練ユニットは具体的には、正規化処理された前記第1視線方向及び正規化処理された前記第1検出視線方向に基づいて、前記ニューラルネットワークを訓練するように構成されることを特徴とする
請求項23又は24に記載の装置。 - 前記検出ユニットは具体的には、前記第1画像がビデオ画像に属する場合、前記ニューラルネットワークにより、隣接するN個フレームの画像の視線方向をそれぞれ検出し、Nが1より大きい整数であり、
前記隣接するN個フレームの画像の視線方向に基づいて、Nフレーム目の画像の視線方向が前記第1検出視線方向であると判定するように構成されることを特徴とする
請求項23から25のうちいずれか一項に記載の装置。 - 前記検出ユニットは具体的には、前記隣接するN個フレームの画像の視線方向の平均和に基づいて、前記Nフレーム目の画像の視線方向が前記第1検出視線方向であると判定するように構成されることを特徴とする
請求項26に記載の装置。 - 前記第1決定ユニットは、
第2カメラ座標系での前記瞳孔基準点の座標を決定するように構成される第1決定サブユニットと、
前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第1カメラ座標系での前記瞳孔基準点の座標に基づいて、前記第1カメラ座標系での前記瞳孔基準点の第1座標を決定するように構成される第2決定サブユニットと、を備えることを特徴とする
請求項25から27のうちいずれか一項に記載の装置。 - 前記第1決定サブユニットは具体的には、前記瞳孔基準点の前記第1画像における座標を決定し、前記瞳孔基準点の前記第1画像における座標、及び前記第2カメラの焦点距離及び主点位置に基づいて、前記第2カメラ座標系での前記瞳孔基準点の座標を決定するように構成されることを特徴とする
請求項28に記載の装置。 - 前記第1決定ユニットは、
前記第2カメラ座標系での、前記第1画像における角膜上の反射点の座標を決定するように構成される第3決定サブユニットであって、前記反射点は、光源が前記角膜上に結像される位置である、第3決定サブユニットと、
前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第2カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第1カメラ座標系での前記角膜基準点の第2座標を決定するように構成される第4決定サブユニットと、を備えることを特徴とする
請求項25から29のうちいずれか一項に記載の装置。 - 前記第4決定サブユニットは具体的には、前記第2カメラ座標系での前記光源の座標を決定し、前記第2カメラ座標系での前記光源の座標、前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第2カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第1カメラ座標系での前記角膜基準点の第2座標を決定するように構成されることを特徴とする
請求項30に記載の装置。 - 前記第4決定サブユニットは具体的には、前記第2カメラ座標系での、前記光源に対応するプルキンエスポットの座標を決定し、前記第2カメラ座標系での前記プルキンエスポットの座標、前記第2カメラ座標系での前記光源の座標、前記第1カメラ座標系と前記第2カメラ座標系との関係、及び前記第2カメラ座標系での前記角膜上の反射点の座標に基づいて、前記第1カメラ座標系での前記角膜基準点の第2座標を決定するように構成されることを特徴とする
請求項31に記載の装置。 - 前記第3決定サブユニットは具体的には、前記第1画像における前記反射点の座標を決定し、
前記第1画像における前記反射点の座標、前記第2カメラの焦点距離及び主点位置に基づいて、反射点の前記第二カメラ座標系での座標を決定するように構成されることを特徴とする
請求項30から32のうちいずれか一項に記載の装置。 - 前記第4決定サブユニットは具体的には、ワールド座標系での前記光源の座標を決定し、前記ワールド座標系と前記第2カメラ座標系との関係に基づいて、前記第2カメラ座標系での前記光源の座標を決定するように構成されることを特徴とする
請求項31から33のうちいずれか一項に記載の装置。 - 前記光源は赤外光源又は近赤外光源を含み、前記光源の数は少なくとも2つであり、前記反射点の数は、前記光源の数に対応することを特徴とする
請求項30から34のうちいずれか一項に記載の装置。 - 視線検出装置であって、
ビデオストリームデータに含まれる第2画像に対して顔検出を行うように構成される顔検出ユニットと
検出された前記第2画像における顔領域に対してキーポイント位置決めを行い、前記顔領域における眼部領域を決定するように構成される第1決定ユニットと、
前記第2画像における前記眼部領域画像を切り取るように構成される切取ユニットと、
前記眼部領域画像を予め訓練されたニューラルネットワークに入力し、前記眼部領域画像の視線方向を出力するように構成される入力出力ユニットと、を備える、前記装置。 - 前記装置は、
前記眼部領域画像の視線方向及び前記第2画像の少なくとも1つの隣接するフレームの画像の視線方向に基づいて、前記第2画像の視線方向を決定するように構成される第2決定ユニットを更に備えることを特徴とする
請求項36に記載の装置。 - 前記顔検出ユニットは具体的には、トリガ命令を受信した場合、前記ビデオストリームデータに含まれる第2画像に対して顔検出を行うように構成され、
又は、前記顔検出ユニットは具体的には、車両運転中に、前記ビデオストリームデータに含まれる第2画像に対して顔検出を行うように構成され、
又は、前記顔検出ユニットは具体的には、車両の運転速度が基準速度に達した場合、前記ビデオストリームデータに含まれる第2画像に対して顔検出を行うように構成されることを特徴とする
請求項36又は37に記載の装置。 - 前記ビデオストリームデータは、車載カメラによる車両の運転領域のビデオストリームであり、
前記眼部領域画像の視線方向は、前記車両の運転領域における運転者の視線方向であることを特徴とする
請求項38に記載の装置。 - 前記装置は、
前記眼部領域画像の視線方向に基づいて、前記運転者の関心領域を決定し、前記運転者の関心領域に基づいて前記運転者の運転行為を決定するように構成される第3決定ユニットを更に備え、前記運転行為には前記運転者が注意力散漫運転を行っているかどうかが含まれることを特徴とする
請求項39に記載の装置。 - 前記装置は、
前記運転者が注意力散漫運転を行っている場合、早期警告リマインド情報を出力するように構成される出力ユニットを更に備えることを特徴とする
請求項40に記載の装置。 - 前記出力ユニットは具体的には、運転者の注意力散漫運転の回数が基準回数に達した場合、前記早期警告リマインド情報を出力するように構成され、
又は、前記出力ユニットは具体的には、前記運転者の注意力散漫運転時間が基準時間に達した場合、前記早期警告リマインド情報を出力するように構成され、
又は、前記出力ユニットは具体的には、前記運転者の注意力散漫運転時間が前記基準時間に達して且つ回数が前記基準回数に達した場合、前記早期警告リマインド情報を出力するように構成され、
又は、前記出力ユニットは具体的には、前記運転者が注意力散漫運転を行っている場合、前記車両に接続される端末にリマインド情報を送信するように構成されることを特徴とする
請求項41に記載の装置。 - 前記装置は、
前記運転者が注意力散漫運転を行っている場合、前記眼部領域画像及び前記眼部領域画像の前後の所定数のフレームの画像のうちの1つ又は複数を記憶するように構成される記憶ユニット、
又は、前記運転者が注意力散漫運転を行っている場合、前記眼部領域画像及び前記眼部領域画像の前後の所定数のフレームの画像のうちの1つ又は複数を前記車両に接続される端末に送信するように構成される送信ユニットを更に備えることを特徴とする
請求項41又は42に記載の装置。 - 前記装置は、
少なくとも眼部画像を含んでいる第1カメラ座標系での、第1画像における瞳孔基準点の第1座標を決定し、前記第1カメラ座標系での、前記第1画像における角膜基準点の第2座標を決定するように構成され、また、前記第1座標及び前記第2座標に基づいて前記第1画像の第1視線方向を決定するように構成される第4決定ユニットと、
ニューラルネットワークにより前記第1画像に対して視線方向を検出し、第1検出視線方向を得るように構成される検出ユニットと、
前記第1視線方向及び前記第1検出視線方向に基づいて、前記ニューラルネットワークを訓練するように構成される訓練ユニットと、を更に備えることを特徴とする
請求項36から43のうちいずれか一項に記載の装置。 - 電子機器であって、プロセッサとメモリとを備え、前記プロセッサと前記メモリは、回路により相互接続され、前記メモリは、プログラム命令を記憶するように構成され、前記プログラム命令が前記プロセッサにより実行される時、前記プロセッサに請求項1から13のうちいずれか一項に記載の方法を実行させる、前記電子機器。
- 電子機器であって、プロセッサとメモリとを備え、前記プロセッサと前記メモリは、回路により相互接続され、前記メモリは、プログラム命令を記憶するように構成され、前記プログラム命令が前記プロセッサにより実行される時、前記プロセッサに請求項14から22のうちいずれか一項に記載の方法を実行させる、前記電子機器。
- コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にはコンピュータプログラムが記憶されており、前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令がプロセッサにより実行される時、前記プロセッサに請求項1から13のうちいずれか一項に記載の方法を実行させ、及び/又は、前記プロセッサに請求項14から22のうちいずれか一項に記載の方法を実行させる、前記コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811155648.0 | 2018-09-29 | ||
CN201811155648.0A CN110969061A (zh) | 2018-09-29 | 2018-09-29 | 神经网络训练、视线检测方法和装置及电子设备 |
PCT/CN2019/093907 WO2020063000A1 (zh) | 2018-09-29 | 2019-06-28 | 神经网络训练、视线检测方法和装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021531601A true JP2021531601A (ja) | 2021-11-18 |
Family
ID=69950206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021524087A Pending JP2021531601A (ja) | 2018-09-29 | 2019-06-28 | ニューラルネットワーク訓練、視線検出方法及び装置並びに電子機器 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210165993A1 (ja) |
JP (1) | JP2021531601A (ja) |
CN (1) | CN110969061A (ja) |
WO (1) | WO2020063000A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7164047B2 (ja) * | 2019-07-10 | 2022-11-01 | 日本電気株式会社 | 注視点検出装置及び注視点検出方法 |
CN111723716B (zh) * | 2020-06-11 | 2024-03-08 | 深圳地平线机器人科技有限公司 | 确定目标对象朝向的方法、装置、系统、介质及电子设备 |
CN112308932B (zh) * | 2020-11-04 | 2023-12-08 | 中国科学院上海微系统与信息技术研究所 | 一种注视检测方法、装置、设备及存储介质 |
CN112401887B (zh) * | 2020-11-10 | 2023-12-12 | 恒大新能源汽车投资控股集团有限公司 | 一种驾驶员注意力监测方法、装置及电子设备 |
CN112766097B (zh) * | 2021-01-06 | 2024-02-13 | 中国科学院上海微系统与信息技术研究所 | 视线识别模型的训练方法、视线识别方法、装置及设备 |
CN113011286B (zh) * | 2021-03-02 | 2022-09-09 | 重庆邮电大学 | 基于视频的深度神经网络回归模型的斜视判别方法及系统 |
CN113052064B (zh) * | 2021-03-23 | 2024-04-02 | 北京思图场景数据科技服务有限公司 | 基于面部朝向、面部表情及瞳孔追踪的注意力检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008102902A (ja) * | 2006-07-18 | 2008-05-01 | Advanced Telecommunication Research Institute International | 視線方向の推定装置、視線方向の推定方法およびコンピュータに当該視線方向の推定方法を実行させるためのプログラム |
JP2017076180A (ja) * | 2015-10-13 | 2017-04-20 | いすゞ自動車株式会社 | 状態判定装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007265367A (ja) * | 2006-03-30 | 2007-10-11 | Fujifilm Corp | 視線検出方法および装置ならびにプログラム |
JP4893507B2 (ja) * | 2007-07-04 | 2012-03-07 | オムロン株式会社 | 脇見検出装置および方法、並びに、プログラム |
CN102520796B (zh) * | 2011-12-08 | 2014-10-08 | 华南理工大学 | 一种基于逐步回归分析映射模型的视线跟踪方法 |
JP6304999B2 (ja) * | 2013-10-09 | 2018-04-04 | アイシン精機株式会社 | 顔検出装置、方法およびプログラム |
CN103839055B (zh) * | 2014-03-19 | 2017-08-29 | 中国科学技术大学 | 一种驾驶员视线方向的检测方法 |
CN104978548B (zh) * | 2014-04-02 | 2018-09-25 | 汉王科技股份有限公司 | 一种基于三维主动形状模型的视线估计方法与装置 |
US9704038B2 (en) * | 2015-01-07 | 2017-07-11 | Microsoft Technology Licensing, Llc | Eye tracking |
KR101745140B1 (ko) * | 2015-09-21 | 2017-06-08 | 현대자동차주식회사 | 시선 추적 장치 및 방법 |
CN105426827B (zh) * | 2015-11-09 | 2019-03-08 | 北京市商汤科技开发有限公司 | 活体验证方法、装置和系统 |
CN108229284B (zh) * | 2017-05-26 | 2021-04-09 | 北京市商汤科技开发有限公司 | 视线追踪及训练方法和装置、系统、电子设备和存储介质 |
CN108171152A (zh) * | 2017-12-26 | 2018-06-15 | 深圳大学 | 深度学习人眼视线估计方法、设备、系统及可读存储介质 |
-
2018
- 2018-09-29 CN CN201811155648.0A patent/CN110969061A/zh active Pending
-
2019
- 2019-06-28 WO PCT/CN2019/093907 patent/WO2020063000A1/zh active Application Filing
- 2019-06-28 JP JP2021524087A patent/JP2021531601A/ja active Pending
-
2021
- 2021-02-08 US US17/170,163 patent/US20210165993A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008102902A (ja) * | 2006-07-18 | 2008-05-01 | Advanced Telecommunication Research Institute International | 視線方向の推定装置、視線方向の推定方法およびコンピュータに当該視線方向の推定方法を実行させるためのプログラム |
JP2017076180A (ja) * | 2015-10-13 | 2017-04-20 | いすゞ自動車株式会社 | 状態判定装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110969061A (zh) | 2020-04-07 |
WO2020063000A1 (zh) | 2020-04-02 |
US20210165993A1 (en) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021531601A (ja) | ニューラルネットワーク訓練、視線検出方法及び装置並びに電子機器 | |
US20210133469A1 (en) | Neural network training method and apparatus, gaze tracking method and apparatus, and electronic device | |
CN109690553A (zh) | 执行眼睛注视跟踪的系统和方法 | |
CN107004275B (zh) | 确定实物至少一部分的3d重构件空间坐标的方法和系统 | |
US10564716B2 (en) | 3D gazing point detection by binocular homography mapping | |
CN113808160B (zh) | 视线方向追踪方法和装置 | |
TW202121251A (zh) | 活體檢測方法及裝置、儲存介質 | |
EP3644826A1 (en) | A wearable eye tracking system with slippage detection and correction | |
US11181978B2 (en) | System and method for gaze estimation | |
García et al. | Driver monitoring based on low-cost 3-D sensors | |
CN113366491B (zh) | 眼球追踪方法、装置及存储介质 | |
US10254831B2 (en) | System and method for detecting a gaze of a viewer | |
JPWO2008007781A1 (ja) | 視線方向検出装置および視線方向検出方法 | |
WO2022032911A1 (zh) | 一种视线追踪方法及装置 | |
CN111854620A (zh) | 基于单目相机的实际瞳距测定方法、装置以及设备 | |
WO2020228224A1 (zh) | 一种人脸部位测距方法、装置及车载终端 | |
CN113642425A (zh) | 基于多模态的图像检测方法、装置、电子设备及存储介质 | |
TWI499999B (zh) | The 3D ring car image system based on probability calculation and its obtaining method | |
CN117372657A (zh) | 关键点旋转模型的训练方法及装置、电子设备和存储介质 | |
JP4011426B2 (ja) | 顔検出装置、顔検出方法および顔検出プログラム | |
EP3278271A1 (en) | Method and apparatus for identifying a person by measuring body part distances of the person | |
CN112330726B (zh) | 一种图像处理方法及装置 | |
JP2012227830A (ja) | 情報処理装置、その処理方法、プログラム及び撮像装置 | |
Zhao et al. | Estimating a driver's gaze point by a remote spherical camera | |
CN110530336B (zh) | 对称高度差测量方法、装置、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220509 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220704 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230213 |