JP2021518010A - 運転者注意力の監視方法および装置、ならびに電子機器 - Google Patents

運転者注意力の監視方法および装置、ならびに電子機器 Download PDF

Info

Publication number
JP2021518010A
JP2021518010A JP2020550127A JP2020550127A JP2021518010A JP 2021518010 A JP2021518010 A JP 2021518010A JP 2020550127 A JP2020550127 A JP 2020550127A JP 2020550127 A JP2020550127 A JP 2020550127A JP 2021518010 A JP2021518010 A JP 2021518010A
Authority
JP
Japan
Prior art keywords
driver
gaze
area
face image
driving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020550127A
Other languages
English (en)
Other versions
JP7105316B2 (ja
Inventor
王▲飛▼
黄▲詩▼▲堯▼
▲錢▼晨
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド, ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2021518010A publication Critical patent/JP2021518010A/ja
Application granted granted Critical
Publication of JP7105316B2 publication Critical patent/JP7105316B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R11/00Arrangements for holding or mounting articles, not otherwise provided for
    • B60R11/04Mounting of cameras operative during drive; Arrangement of controls thereof relative to the vehicle
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • B60W40/09Driving style or behaviour
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/14Means for informing the driver, warning the driver or prompting a driver intervention
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • B60W2040/0818Inactivity or incapacity of driver
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/14Means for informing the driver, warning the driver or prompting a driver intervention
    • B60W2050/143Alarm means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/403Image sensing, e.g. optical camera
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/225Direction of gaze
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/229Attention level, e.g. attentive to driving, reading or sleeping
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • B60W2554/4048Field of view, e.g. obstructed view or direction of gaze
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2556/00Input parameters relating to data
    • B60W2556/45External transmission of data to or from the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Ophthalmology & Optometry (AREA)
  • Business, Economics & Management (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Geometry (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)

Abstract

本願は運転者注意力の監視方法および装置、ならびに電子機器を開示する。前記方法は、車両に設けられるカメラによって前記車両の運転領域のビデオを収集するステップと、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するステップであって、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の1つに属する、ステップと、前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定するステップと、を含む。

Description

(関連出願の相互参照)
本願は2019年3月18日に中国特許局に提出された、出願番号201910205328.X、発明名称「運転者注意力の監視方法および装置、ならびに電子機器」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本願は画像処理の技術分野に関し、特に運転者注意力の監視方法および装置、ならびに電子機器に関する。
道路上を走行する車両の増加に伴い、どのように道路交通事故を未然に防ぐかはますます注目されており、中でも、運転者の不注意、注意力低下などに起因する脇見運転のような人的要因は、道路交通事故の原因のうち大きな割合を占めている。
本願は運転者の注意力を監視する技術的解決手段を提供する。
第1の態様では、車両に設けられるカメラによって前記車両の運転領域のビデオを収集するステップと、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するステップであって、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の1つに属する、ステップと、前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定するステップと、を含む運転者注意力の監視方法を提供する。
本願のいずれか1つの実施形態によれば、事前に前記車両の空間領域の分割を行って得られた前記複数種別の定義注視領域は、左フロントウインドウシールド領域、右フロントウインドウシールド領域、インストルメントパネル領域、車両インナーミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、助手席領域、および助手席前方のグローブボックス領域の2種以上を含む。
本願のいずれか1つの実施形態によれば、前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定する前記ステップは、前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間を決定するステップと、前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、脇見運転であるか否かおよび/または脇見運転のレベルを含む前記運転者注意力の監視結果を決定するステップと、を含む。
本願のいずれか1つの実施形態によれば、前記時間閾値は、各種の前記定義注視領域にそれぞれ対応する複数の時間閾値を含み、ここで、前記複数種別の定義注視領域における少なくとも2つの異なる種類の定義注視領域に対応する時間閾値は異なり、前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定する前記ステップは、前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と該当する種別の定義注視領域の時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定するステップを含む。
本願のいずれか1つの実施形態によれば、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して視線および/または頭部姿勢の検出を行うステップと、各フレームの顔画像の視線および/または頭部姿勢の検出結果に基づいて、各フレームの顔画像における前記運転者の注視領域の種別を決定するステップと、を含む。
本願のいずれか1つの実施形態によれば、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、複数フレームの前記顔画像をニューラルネットワークにそれぞれ入力し、前記ニューラルネットワークを介して、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ出力するステップを含み、ここで、前記ニューラルネットワークは予め注視領域種別のラベリング情報が含まれる顔画像集合を用いて事前にトレーニングして得られるか、または、予め注視領域種別のラベリング情報が含まれる顔画像集合、および前記顔画像集合における各顔画像に基づいて切り出した眼部画像を用いて事前にトレーニングして得られ、前記注視領域種別のラベリング情報は前記複数種別の定義注視領域の1つを含む。
本願のいずれか1つの実施形態によれば、前記ニューラルネットワークのトレーニングは、前記顔画像集合における、注視領域種別のラベリング情報が含まれる顔画像を取得するステップと、前記顔画像における、左眼および/または右眼を含む少なくとも片眼の眼部画像を切り出すステップと、前記顔画像の第1の特徴および少なくとも片眼の眼部画像の第2の特徴をそれぞれ抽出するステップと、前記第1の特徴と前記第2の特徴を融合し、第3の特徴を得るステップと、前記第3の特徴に基づいて前記顔画像の注視領域種別の検出結果を決定するステップと、前記注視領域種別の検出結果と前記注視領域種別のラベリング情報との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含む。
本願のいずれか1つの実施形態によれば、前記方法は、前記運転者注意力の監視結果が脇見運転である場合、前記運転者に対して、文字による注意喚起、音声による注意喚起、香りによる注意喚起、低電流刺激による注意喚起のうちの少なくとも1つを含む脇見運転の注意喚起を促すステップ、または、前記運転者注意力の監視結果が脇見運転である場合、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係、および前記運転者注意力の監視結果に基づいて、前記運転者の脇見運転のレベルを決定し、予め設定された脇見運転のレベルと脇見運転の注意喚起とのマッピング関係、および前記運転者の脇見運転のレベルに基づいて、前記脇見運転の注意喚起から1つ決定して前記運転者に対して脇見運転の注意喚起を促すステップ、をさらに含む。
本願のいずれか1つの実施形態によれば、前記予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係は、複数の連続したスライディング時間窓の監視結果がいずれも脇見運転であった場合、前記脇見運転のレベルがスライディング時間窓の数と正に相関しているという関係を含む。
本願のいずれか1つの実施形態によれば、車両に設けられるカメラによって前記車両の運転領域のビデオを収集する前記ステップは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するステップを含み、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定することは、画質評価指標に基づいて、収集された複数のビデオの各々に含まれる、前記運転領域に位置する運転者の複数フレームの顔画像における各フレームの顔画像の画質スコアをそれぞれ決定するステップと、前記複数のビデオにおける時刻が揃っている前記各フレームの顔画像のうち、画質スコアが最も高い顔画像をそれぞれ決定するステップと、画質スコアが最も高い各顔画像における前記運転者の注視領域の種別をそれぞれ決定することとを含む。
本願のいずれか1つの実施形態によれば、前記画質評価指標は、画像に眼部画像が含まれるか否か、画像における眼部領域の精細度、画像における眼部領域の遮蔽状況、画像における眼部領域の眼開閉状態のうちの少なくとも1つを含む。
本願のいずれか1つの実施形態によれば、車両に設けられるカメラによって前記車両の運転領域のビデオを収集する前記ステップは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するステップを含み、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、収集された複数のビデオの各々に含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して、時刻が揃っている各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ検出するステップと、得られた各注視領域種別に多数を占める結果を当該時刻の顔画像の注視領域種別として決定することとを含む。
本願のいずれか1つの実施形態によれば、前記方法は、前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信するステップ、および/または、前記運転者注意力の監視結果について統計分析を行うステップ、をさらに含む。
本願のいずれか1つの実施形態によれば、前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信した後、さらに、前記サーバまたは前記端末から送信される制御コマンドを受信した場合、前記制御コマンドに従って前記車両を制御するステップを含む。
第2の態様では、車両に設けられるカメラによって前記車両の運転領域のビデオを収集するための第1の制御ユニットと、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するための第1の決定ユニットであって、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の1つに属する、第1の決定ユニットと、前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定するための第2の決定ユニットと、を含む運転者注意力の監視装置を提供する。
本願のいずれか1つの実施形態によれば、事前に前記車両の空間領域の分割を行って得られた前記複数種別の定義注視領域は、左フロントウインドウシールド領域、右フロントウインドウシールド領域、インストルメントパネル領域、車両インナーミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、助手席領域、および助手席前方のグローブボックス領域の2種以上を含む。
本願のいずれか1つの実施形態によれば、前記第2の決定ユニットは、前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間を決定するための第1の決定サブユニットと、前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、脇見運転であるか否かおよび/または脇見運転のレベルを含む前記運転者注意力の監視結果を決定するための第2の決定サブユニットと、を含む。
本願のいずれか1つの実施形態によれば、前記時間閾値は、各種の前記定義注視領域にそれぞれ対応する複数の時間閾値を含み、ここで、前記複数種別の定義注視領域における少なくとも2つの異なる種類の定義注視領域に対応する時間閾値は異なり、前記第2の決定サブユニットは、さらに前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と該当する種別の定義注視領域の時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定するために用いられる。
本願のいずれか1つの実施形態によれば、前記第1の決定ユニットは、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して視線および/または頭部姿勢の検出を行うための第1の検出サブユニットと、各フレームの顔画像の視線および/または頭部姿勢の検出結果に基づいて、各フレームの顔画像における前記運転者の注視領域の種別を決定するための第3の決定サブユニットと、を含む。
本願のいずれか1つの実施形態によれば、前記第1の決定ユニットは、複数フレームの前記顔画像をニューラルネットワークにそれぞれ入力し、前記ニューラルネットワークを介して、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ出力するための処理サブユニットをさらに含み、ここで、前記ニューラルネットワークは予め注視領域種別のラベリング情報が含まれる顔画像集合を用いて事前にトレーニングして得られるか、または、予め注視領域種別のラベリング情報が含まれる顔画像集合、および前記顔画像集合における各顔画像に基づいて切り出した眼部画像を用いて事前にトレーニングして得られ、前記注視領域種別のラベリング情報は前記複数種別の定義注視領域の1つを含む。
本願のいずれか1つの実施形態によれば、前記装置は前記ニューラルネットワークのトレーニングユニットをさらに含み、前記トレーニングユニットは、前記顔画像集合における、注視領域種別のラベリング情報が含まれる顔画像を取得するための取得サブユニットと、前記顔画像における、左眼および/または右眼を含む少なくとも片眼の眼部画像を切り出すための画像切り出しサブユニットと、前記顔画像の第1の特徴および少なくとも片眼の眼部画像の第2の特徴をそれぞれ抽出するための特徴抽出サブユニットと、前記第1の特徴と前記第2の特徴を融合し、第3の特徴を得るための特徴融合サブユニットと、前記第3の特徴に基づいて前記顔画像の注視領域種別の検出結果を決定するための第4の決定サブユニットと、前記注視領域種別の検出結果と前記注視領域種別のラベリング情報との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整サブユニットと、を含む。
本願のいずれか1つの実施形態によれば、前記装置は、前記運転者注意力の監視結果が脇見運転である場合、前記運転者に対して、文字による注意喚起、音声による注意喚起、香りによる注意喚起、低電流刺激による注意喚起のうちの少なくとも1つを含む脇見運転の注意喚起を促すための注意喚起ユニットと、前記運転者注意力の監視結果が脇見運転である場合、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係、および前記運転者注意力の監視結果に基づいて、前記運転者の脇見運転のレベルを決定するための第3の決定ユニットと、予め設定された脇見運転のレベルと脇見運転の注意喚起とのマッピング関係、および前記運転者の脇見運転のレベルに基づいて、前記脇見運転の注意喚起から1つ決定して前記運転者に対して脇見運転の注意喚起を促す第4の決定ユニットと、をさらに含む。
本願のいずれか1つの実施形態によれば、前記予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係は、複数の連続したスライディング時間窓の監視結果がいずれも脇見運転であった場合、前記脇見運転のレベルがスライディング時間窓の数と正に相関しているという関係を含む。
本願のいずれか1つの実施形態によれば、前記装置において、前記第1の制御ユニットは車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するためにも用いられ、前記第1の決定ユニットは、画質評価指標に基づいて、収集された複数のビデオの各々に含まれる、前記運転領域に位置する運転者の複数フレームの顔画像における各フレームの顔画像の画質スコアをそれぞれ決定するための第5の決定ユニットと、前記複数のビデオにおける時刻が揃っている前記各フレームの顔画像のうち、画質スコアが最も高い顔画像をそれぞれ決定するための第6の決定ユニットと、画質スコアが最も高い各顔画像における前記運転者の注視領域の種別をそれぞれ決定するための第7の決定サブユニットと、をさらに含む。
本願のいずれか1つの実施形態によれば、前記画質評価指標は、画像に眼部画像が含まれるか否か、画像における眼部領域の精細度、画像における眼部領域の遮蔽状況、画像における眼部領域の眼開閉状態のうちの少なくとも1つを含む。
本願のいずれか1つの実施形態によれば、前記第1の制御ユニットは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するためにも用いられ、前記第1の決定ユニットは、収集された複数のビデオの各々に含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して、時刻が揃っている各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ検出するための第2の検出サブユニットと、得られた各注視領域種別に多数を占める結果を当該時刻の顔画像の注視領域種別として決定するための第8の決定サブユニットと、をさらに含む。
本願のいずれか1つの実施形態によれば、前記装置は、前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信するための送信ユニット、および/または、前記運転者注意力の監視結果について統計分析を行うための分析ユニット、をさらに含む。
本願のいずれか1つの実施形態によれば、前記装置は、前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信した後、且つ前記サーバまたは前記端末から送信される制御コマンドを受信した場合、前記制御コマンドに従って前記車両を制御するための第2の制御ユニットをさらに含む。
第3の態様では、前記装置が上記第1の態様およびそのいずれか1つの可能な実施形態の方法における対応する機能を実行できるように構成されているプロセッサと、プロセッサと結合し、前記装置にて必要とされるプログラム(コマンド)およびデータを記憶するためのメモリと、を含む電子機器を提供する。任意選択的に、前記装置は、さらに前記装置と他の装置との間の通信をサポートするための入力/出力インタフェースを含んでもよい。
第4の態様では、コンピュータ上で実行される時にコンピュータが上記第1の態様、およびそのいずれか1つの可能な実施形態の方法を実行するコマンドが記憶されているコンピュータ可読記憶媒体を提供する。
第5の態様では、コンピュータ上で実行される時にコンピュータが上記第1の態様、およびそのいずれか1つの可能な実施形態の方法を実行するコンピュータプログラムまたはコマンドを含むコンピュータプログラム製品を提供する。
ここの図面は明細書に組み込まれて明細書の一部を構成し、これらの図面は本開示に適合する実施例を示し、明細書と共に本開示の技術的解決手段を説明するために用いられる。
本願の実施例が提供する運転者注意力の監視方法のフローチャートである。 本願の実施例が提供する注視領域の分割の概略図である。 本願の実施例が提供する別の運転者注意力の監視方法のフローチャートである。 本願の実施例が提供するニューラルネットワークのトレーニング方法のフローチャートである。 本願の実施例が提供する別のニューラルネットワークのトレーニング方法のフローチャートである。 本願の実施例が提供する別の運転者注意力の監視方法のフローチャートである。 本願の実施例が提供する運転者注意力の監視装置の概略構造図である。 本願の実施例が提供するトレーニングユニットの概略構造図である。 本願の実施例が提供する運転者注意力の監視装置のハードウェア構成図である。
当業者が本願の解決手段をより良く理解できるように、以下に本願の実施例における図面と関連付けて、本願の実施例における技術的解決手段を明確に、完全に説明し、当然ながら、説明される実施例は本願の実施例の一部に過ぎず、全ての実施例ではない。本願における実施例に基づき、当業者が創造的な労力を要することなく、得られた他の全ての実施例は、いずれも本願の保護範囲に属する。
本願の明細書、特許請求の範囲および上記図面における「第1」、「第2」等の用語は、特定の順序を記述するものではなく、異なる対象を区別するためのものである。また、「含む」、「備える」という用語およびそれらのいかなる変形も、非排他的に含むことを意図する。例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品または機器は、挙げられたステップまたはユニットに限定されるものではなく、さらに挙げられないステップまたはユニットを選択可能に含み、または、さらに、これらのプロセス、方法または機器に固有の他のステップまたはユニットを選択可能に含む。
本明細書において、「実施例」に関する言及は、実施例に関連して記述される特定の特徴、構造または特性が、本願の少なくとも1つの実施例に含まれ得ることを意味する。本明細書の全体にわたって各所に現れる「実施例」という語句は、必ずしも全て同じ実施例を指すものではなく、また、他の実施例と相互排他的な独立または代替の実施例でもない。当業者であれば、本明細書に記載の実施例は他の実施例と組み合わせることができることを明示的および暗黙的に理解できる。
本願の実施例または背景技術における技術的解決手段をより明瞭に説明するために、以下、本願の実施例または背景技術に用いられる図面について説明する。
以下に本願の実施例における図面と関連付けて、本願の実施例を説明する。
図1は、本願の実施例が提供する運転者注意力の監視方法のフローチャートである。
101では、車両に設けられるカメラによって前記車両の運転領域のビデオを収集する。
本願の実施例において、運転領域は車内の運転室領域を含む。カメラは、運転領域を撮影できる車内の任意の領域に装着可能であり、例えば、カメラは車内のセンターコンソールまたはフロントウインドウシールドに装着してもよく、車両のバックミラーに装着してもよく、さらに車両のAピラーなどに装着してもよく、また、カメラの数は一個であっても、複数であってもよく、本願の実施例はカメラの装着位置およびカメラの具体的な数を限定しない。
いくつかの実施可能な形態では、車両のバックミラーに装着されるカメラによって車内の運転室領域のビデオ撮影を行い、運転領域のビデオを得る。任意選択的に、カメラは特定のコマンドを受信した場合に、車両の運転領域のビデオを収集することが可能であり、例えば、カメラのエネルギー消費を削減するよう、車両の起動(例えば点火始動、ボタン式始動など)をカメラによるビデオ収集のコマンドとする。さらなる例として、カメラに接続される端末によって、運転領域のビデオを収集するようにカメラを制御し、カメラに対する遠隔制御を実現する。なお、カメラと端末は無線または有線の方式により接続され得、本願の実施例では、カメラと端末の具体的な接続方式について限定されないことを理解されたい。
102では、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定し、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の1つに属する。
本願の実施例では、運転者の顔画像は運転者の頭全体を含むものでも、運転者の顔輪郭および五官を含むものでもあり得る。ビデオにおける任意のフレーム画像を運転者の顔画像としてもよく、ビデオにおける任意のフレーム画像から運転者の顔領域の画像を検出し、この顔領域画像を運転者の顔画像としてもよく、上記運転者の顔領域画像を検出する方式は任意の顔検出アルゴリズムであってよく、本願はこれに関して具体的に限定しない。
本願の実施例では、車両の室内空間を分割して得られた複数の異なる領域を上記複数の異なる種別の領域としてもよく、または車両の室外空間を分割して得られた複数の異なる領域を上記複数の異なる種別の領域としてもよく、または車両の室内空間および車両の室外空間を分割して得られた複数の異なる領域を上記複数の異なる種別の注視領域としてもよい。例えば、図2は本願が提供する注視領域の種別の区分方式であり、図2に示すように、事前に車両に対して空間領域の分割を行って得られた複数種別の注視領域は、左フロントウインドウシールド領域(1番の注視領域)、右フロントウインドウシールド領域(2番の注視領域)、インストルメントパネル領域(3番の注視領域)、車両インナーミラー領域(4番の注視領域)、センターコンソール領域(5番の注視領域)、左バックミラー領域(6番の注視領域)、右バックミラー領域(7番の注視領域)、サンバイザ領域(8番の注視領域)、シフトロッド領域(9番の注視領域)、ハンドル下方領域(10番の注視領域)、助手席領域(11番の注視領域)、および助手席前方的グローブボックス領域(12番の注視領域)の2種以上を含む。このように車両の空間領域を分割することは、運転者注意力への選択的な監視に寄与する。上記方式では、運転状態にある運転者が注意し得る様々な領域を十分に考慮し、運転者の注意力に関する車両前方への選択的な監視、または車両前方の全空間にわたる監視を図るうえで有利であり、これにより運転者注意力の監視の正確度および精度が高まる。
なお、車種によって車両の空間分布が異なるため、車種に応じて注視領域の種別を区分し得ることが理解されるべきであり、例えば、図2において、運転室は車両の左側に位置し、通常の運転中に、運転者の視線はたいていの場合、左フロントウインドウシールド領域に滞留し、一方、運転室が車両の右側にある車種について、通常の運転中に、運転者の視線はたいていの場合、右フロントウインドウシールド領域に滞留し、明らかに、注視領域種別の区分は図2における注視領域種別の区分とは異なるものとすべきである。また、使用者の個人的好みによって注視領域の種別を区分することもでき、例えば、使用者はセンターコンソールのスクリーン面積が小さすぎると思い、スクリーン面積がより大きな端末によって空調、オーディオなどの快適装置を制御することを好む場合、端末の配置位置に合わせて注視領域におけるセンターコンソール領域を調整することができる。また、具体的な状況に応じて他の方式で注視領域の種別を区分することもでき、本願は注視領域種別の区分方式について限定しない。
眼は、運転者が道路状況情報を取得するための主な感覚器官であり、運転者の視線が滞留している領域は、運転者の注意力状況を大きく反映しており、ビデオに含まれる運転領域に位置する運転者の複数フレームの顔画像を処理することで、各フレームの顔画像における運転者の注視領域の種別を決定することができ、さらに運転者注意力の監視が実現される。いくつかの実施可能な形態では、運転者の顔画像を処理し、顔画像における運転者の視線方向を取得し、さらに予め設定された視線方向と注視領域の種別とのマッピング関係に基づいて、顔画像における運転者の注視領域の種別を決定する。他の実施可能な形態では、運転者の顔画像に対して特徴抽出の処理を行い、抽出された特徴に基づいて顔画像における運転者の注視領域の種別を決定し、代替的な一例では、得られた注視領域の種別は各注視領域に対応する所定の番号である。
103では、前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定する。
本願の実施例では、スライディング時間窓のサイズおよびスライドステップ長さは、予め設定された時間長であっても、顔画像の数であってもよく、いくつかの実施可能な形態では、スライディング時間窓のサイズを5秒、スライドステップ長さを0.1秒とし、現時点でのスライディング時間窓の開始時刻を10時40分10秒とし、終了時刻を10時40分15秒とすると、0.1秒後、スライディング時間窓の開始時刻は10時40分15.1秒、終了時刻は10時40分15.1秒となり、なお、上記時間は、いずれもカメラによるビデオ収集の時間であることを理解されたい。他の実施可能な形態では、ビデオにおける各フレームの顔画像に対して、カメラによるビデオ収集の時間の時系列で小さい順に番号を付け、例えば、10時40分15秒に収集された顔画像の番号を1とし、10時40分15.1秒に収集された顔画像の番号を2とし、以降同様に…、スライディング時間窓の大きさを10フレームの顔画像とし、スライドステップ長さを1フレームの顔画像とし、現時点でのスライディング時間窓内の最初のフレームの顔画像の番号を5、スライディング時間窓内の最後のフレームの顔画像の番号を14とすると、スライディング時間窓が1スライドステップ長さ進んだ後、スライディング時間窓内の最初のフレームの顔画像の番号は6、スライディング時間窓内の最後のフレームの顔画像の番号は15となる。
本願のいくつかの代替実施例では、注意力の監視結果は脇見運転を含んでもよく、または注意力の監視結果は疲労運転を含んでもよく、または注意力の監視結果は脇見運転および疲労運転を含んでもよい。任意選択的に、注意力の監視結果は脇見運転のレベルを含んでもよく、または疲労運転のレベルを含んでもよく、または脇見運転のレベルおよび疲労運転のレベルを含んでもよい。車両の運転中に、運転者の視線は異なる注視領域間で切り替わることがあるため、異なる時点で収集された顔画像における運転者の注視領域の種別も対応して変化することとなる。図2を例とすると、通常の運転中に、運転者の視線が1番の注視領域内に滞留する確率は大きく、道路状況および車両状況観察の必要性により運転者の視線が2、3、4、6、7番の注視領域内に滞留する確率は、1番の注視領域内に滞留する確率より小さく、また、運転者の視線が5、8、9、10、11、12番の注視領域内に滞留する確率は、前記どちらの場合よりも小さい。そこで、スライディング時間窓内の各フレームの顔画像の注視領域の種別に基づいて、このスライディング時間窓内の運転者の注視領域の種別分布を決定し、その後運転者の注視領域の種別に基づいて注意力の監視結果を決定する。
いくつかの実施可能な形態では、図2の注視領域種別の区分を例にして、1番の注視領域の第1の割合閾値を60%とし、2、3、4、6、7番の注視領域の第2の割合閾値を40%とし、5、8、9、10、11、12番の注視領域の第2の割合閾値を15%とする。ここで、いずれか1つのスライディング時間窓内で、運転者の視線が1番の注視領域内に滞留する割合が60%以下である場合、注意力の監視結果は脇見運転に決定される。いずれか1つのスライディング時間窓内で、運転者の視線が2、3、4、6、7番の注視領域内に滞留する割合が40%以上である場合、注意力の監視結果は脇見運転に決定される。いずれか1つのスライディング時間窓内で、運転者の視線が5、8、9、10、11、12番の注視領域内に滞留する割合が15%以上である場合、注意力の監視結果は脇見運転に決定される。運転者の脇見運転が監視されていない場合、注意力の監視結果は脇見運転でないことに決定される。例えば、1つのスライディング時間窓内の10フレームの顔画像のうち、4フレームの顔画像の注視領域の種別は1、3フレームの顔画像の注視領域の種別は2、2フレームの顔画像の注視領域の種別は5、1フレームの顔画像の注視領域の種別は12であり、そのうち、運転者の視線が1番の注視領域内に滞留する割合は40%、運転者の視線が2、3、4、6、7番の注視領域内に滞留する割合は30%、運転者の視線が5、8、9、10、11、12番の注視領域内に滞留する割合は30%である場合、運転者注意力の監視結果は脇見運転に決定される。他の実施可能な形態では、1つのスライディング時間窓で、注視領域の種別分布が同時に上記2つまたは3つの脇見運転状況に該当する場合、注意力の監視結果はさらに、それぞれの脇見運転のレベルを含むことができ、任意選択的に、脇見運転のレベルは、注視領域の種別分布が該当する脇見運転状況の数と正に相関している。
また、連続した複数のスライディング時間窓内に含まれる各フレームの顔画像の各注視領域の種別分布に基づいて、運転者注意力の監視結果を決定してもよく、いくつかの実施可能な形態では、図2に示すように、通常運転時、ほとんどの時間、運転者の視線は2番の注視領域内に滞留し、また、道路状況および車両状況観察の必要性により、運転者の視線は2、3、4、6、7番の注視領域内にも滞留するはずであり、仮に、運転者の視線が長期間1番の注視領域内に滞留している場合、異常運転状態であることは明らかである。そこで、第1の閾値を設定し、運転者の視線が1番の注視領域内に滞留する継続時間が第1の閾値に達した場合、運転者注意力の監視結果は脇見運転に決定される。スライディング時間窓のサイズが第1の閾値より小さいため、このとき、連続した複数のスライディング時間窓内の注視領域の種別分布に基づいて、運転者の視線が1番の注視領域内に滞留する継続時間が第1の閾値に達したか否かを判断することができる。
本願の実施例は実際の要求(例えば車種、例えば使用者の好み、例えば車種および使用者の好みなど)に応じて、車内/車外の空間領域を異なる領域に分割し、異なる種別の注視領域を取得する。カメラにより収集される運転者の顔画像に基づいて、顔画像における運転者の注視領域の種別を決定することができる。スライディング時間窓内の注視領域の種別分布によって運転者の注意力に対する継続監視は実現される。この解決手段は運転者の注視領域の種別によって運転者の注意力を監視し、運転者の注意力に関する車両前方への選択的な監視、または車両前方の全空間にわたる監視を図るうえで有利であり、これにより運転者注意力の監視精度が高まり、さらにスライディング時間窓内の注視領域の種別分布との関連付けによって、監視結果の正確度が一層高まる。
図3は、本願の実施例が提供する運転者注意力の監視方法におけるステップ102の一可能な実施形態のフローチャートである。
301では、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して視線および/または頭部姿勢の検出を行う。
本願の実施例では、視線および/または頭部姿勢の検出は、視線検出、頭部姿勢の検出、視線検出および頭部姿勢の検出を含む。
事前にトレーニングされたニューラルネットワークによって、運転者の顔画像に対して視線検出および頭部姿勢の検出を行うと、視線情報および/または頭部姿勢情報が得られ、そのうち、視線情報は視線および視線の始点位置を含み、実施可能な一形態では、運転者の顔画像に対して順に畳み込み処理、正規化処理、線形変換を行うことで、視線情報および/または頭部姿勢情報を得る。
例えば、運転者の顔画像に対して運転者の顔の確認を順に行い、眼部領域を決定し、虹彩の中心を決定し、視線検出を行って視線情報を決定することが可能である。いくつかの実施可能な形態では、人が水平視または仰視時に、眼の輪郭は下視時より大きいため、まず、予め測定された眼窩の大きさによって、下視を水平視および仰視と区別させる。次に、見上げ時と水平視時は、上眼窩から眼中心までの距離の比率が異なることにより、見上げと水平視を区別する。その後、左視、中央視、右視に関する問題を処理する。全ての瞳孔点から眼窩左縁までの距離の二乗和と、右縁までの距離の二乗和との比率を算出し、この比率に基づいて左視、中央視、右視時の各々の視線情報を決定する。
例えば、運転者の顔画像を処理することで、運転者の頭部姿勢を決定することができる。いくつかの実施可能な形態では、運転者の顔画像に対して顔特徴点(例えば、口、鼻、眼)の抽出を行い、抽出された顔特徴点に基づいて顔画像における顔特徴点の位置を決定し、さらに、顔特徴点と頭部との間の相対位置に基づいて、顔画像における運転者の頭部姿勢を決定する。
例えば、視線および頭部姿勢を同時に検出し、検出精度を高めることが可能である。いくつかの実施可能な形態では、車両に配置されるカメラによって眼の動きの系列画像を収集し、該系列画像を正視時の眼部画像と比較し、相違点によって眼球の回転角を取得し、眼球の回転角に基づいて視線ベクトルを決定する。ここでは頭部が動いていない場合を想定して得られた検出結果である。頭部の微小回動が発生した場合、最初に座標補償メカニズムを確立し、正視時の眼部画像を調整する。ただし、頭部が大きく回動した場合、最初に空間の特定の固定座標系に対する頭部の変化位置、変化方向を観察し、その後視線ベクトルを決定する。
以上は本願の実施例が提供する視線および/または頭部姿勢検出の例であり、具体的な実現において、当業者は他の方法で視線および/または頭部姿勢の検出を行うことができ、本願では限定されないことを理解されたい。
302では、各フレームの顔画像の視線および/または頭部姿勢の検出結果に基づいて、各フレームの顔画像における前記運転者の注視領域の種別を決定する。
本願の実施例では、視線の検出結果は、各フレームの顔画像における運転者の視線ベクトル、および視線ベクトルの開始位置を含み、頭部姿勢の検出結果は、各フレームの顔画像における運転者の頭部姿勢を含み、ここで、視線ベクトルは視線の方向と解釈することができ、視線ベクトルによって、運転者正視時の視線に対する顔画像における運転者の視線のずれ角度を決定することができる。頭部姿勢は、座標系における運転者の頭部のオイラー角であり得、ここで、上記座標系は、世界座標系、カメラ座標系、画像座標系などであり得る。
注視領域種別のラベリング情報が含まれる視線および/または頭部姿勢の検出結果をトレーニング集合として、注視領域の分類モデルをトレーニングすることにより、トレーニング後の分類モデルは、視線および/または頭部姿勢の検出結果に基づいて、運転者の注視領域の種別を決定することができ、ここで、上記注視領域の分類モデルは、決定木分類モデル、選択木分類モデル、softmax分類モデルなどであり得る。いくつかの実施可能な形態では、視線の検出結果および頭部姿勢の検出結果はいずれも特徴ベクトルであり、視線の検出結果と頭部姿勢の検出結果の融合処理を行い、その後、注視領域の分類モデルは、融合後の特徴に基づいて運転者の注視領域の種別を決定し、任意選択的に、上記融合処理は特徴のスティッチングであり得る。他の実施可能な形態では、注視領域の分類モデルは、視線の検出結果または頭部姿勢の検出結果に基づいて運転者の注視領域の種別を決定することができる。
車種によって、車内環境および注視領域の種別の区分方式が異なる可能性もあり、本実施例では、車種に対応するトレーニング集合によって、注視領域を分類するための分類器をトレーニングすることで、トレーニング後の分類器は異なる車種に対応できる。ここで、車種に対応するトレーニング集合とは、当該車種の注視領域種別のラベリング情報が含まれる視線および/または頭部姿勢の検出結果、および対応する新車種の注視領域種別のラベリング情報を意味し、トレーニング集合に基づいて、新車種において使用されるべき分類器の教師ありトレーニングを行う。分類器はニューラルネットワーク、サポートベクターマシン等の方式により予め構築されてよく、本願は分類器の具体的な構造を限定しない。
例えば、いくつかの実施可能な形態では、A車種は、運転者に対する前方空間が12個の注視領域に分割され、B車種は、車自体の空間特徴に応じて、運転者に対する前方空間がA車種と比して異なる注視領域の分割が必要となり、例えば10個の注視領域に分割される。この場合、本実施例により構築された運転者注意力監視の技術的解決手段をA車種に適用し、また、この注意力監視の技術的解決手段をB車種に適用する前に、A車種における視線および/または頭部姿勢の検出技術を重複使用することができ、そのためにはB車種の空間特徴に応じて注視領域を改めて分割し、視線および/または頭部姿勢の検出技術、およびB車種に対応する注視領域の分割に基づいて、トレーニング集合を構築するだけでよく、該トレーニング集合に含まれる顔画像は、視線および/または頭部姿勢の検出結果、およびその対応するB車種に対応する注視領域の種別ラベリング情報を含み、このように、視線および/または頭部姿勢の検出のためのモデルを繰り返しトレーニングする必要なく、構築されたトレーニング集合に基づいてB車種の注視領域を分類するための分類器の教師ありトレーニングを行う。トレーニング完了後の分類器、および重複使用される視線および/または頭部姿勢の検出技術は、本願の実施例が提供する運転者注意力監視の解決手段を構成している。
本実施例では、注視領域の分類に必要な特徴情報の検出(例えば、視線および/または頭部姿勢の検出)と上記特徴情報に基づく注視領域の分類は、相対的に独立している2つの段階に分けて行われ、視線および/または頭部姿勢などのような特徴情報の検出技術の異なる車種における重複使用性が高まり、注視領域の分割が変わった新しい応用シーン(例えば、新車種など)について、新しい注視領域の分割に適応する分類器または分類方法を適宜調整するだけでよく、注視領域の分割が変わった新しい応用シーンでの運転者注意力検出の技術的解決手段の調整の複雑度と演算量が低減され、技術的解決手段の普遍性と汎化性が高まり、これにより多様化する実際の応用ニーズをより良好に満たしている。
注視領域の分類に必要な特徴情報の検出と上記特徴情報に基づく注視領域の分類を、相対的に独立している2つの段階に分けるほか、本願の実施例では、さらにニューラルネットワークに基づいて、注視領域種別のエンドツーエンドの検出を実現することもでき、すなわち、ニューラルネットワークに顔画像を入力し、ニューラルネットワークによって顔画像を処理した後、注視領域種別の検出結果を出力する。ここで、ニューラルネットワークは、畳み込み層、非線形層、全結合層などのネットワークユニットをベースにして所定の方式で積層または構成されてよく、従来のニューラルネットワーク構造を採用してもよく、本願はこれについて限定しない。トレーニングされるべきニューラルネットワーク構造を決定した後、前記ニューラルネットワークに対して、注視領域種別のラベリング情報が含まれる顔画像集合を用いて教師ありトレーニングを行ってもよく、または、前記ニューラルネットワークに対して、注視領域種別のラベリング情報が含まれる顔画像集合、および前記顔画像集合における各顔画像に基づいて切り出した眼部画像を用いて教師ありトレーニングを行ってもよく、前記注視領域種別のラベリング情報には、前記複数種別の定義注視領域の1つが含まれる。上記ラベリング情報付きの顔画像集合に基づいてニューラルネットワークの教師ありトレーニングを行うことにより、該ニューラルネットワークは、注視領域種別の区分に必要な特徴抽出能力、および注視領域の分類能力を同時に習得でき、これにより画像の入力から注視領域種別の検出結果の出力へのエンドツーエンド検出を実現する。
図4は、本願の実施例が提供する注視領域種別を検出するためのニューラルネットワークの一実現可能なトレーニング方法のフローチャートである。
401では、前記注視領域種別のラベリング情報が含まれる顔画像集合を取得する。
本実施例では、顔画像集合における各フレーム画像にはいずれも注視領域の種別が含まれ、図2の注視領域種別の区分を例にして、各フレーム画像に含まれるラベリング情報は、1から12のいずれか1つの数字である。
402では、前記顔画像集合における画像に対して特徴抽出処理を行い、第4の特徴を取得する。
ニューラルネットワークによって顔画像に対して特徴抽出処理を行い、第4の特徴を取得する。いくつかの実施可能な形態では、顔画像に対して順に畳み込み処理、正規化処理、第1の線形変換、第2の線形変換を行って特徴抽出処理をし、第4の特徴を取得する。
まず、ニューラルネットワークにおける複層の畳み込み層によって、顔画像の畳み込み処理を行い、第5の特徴を取得し、ここで、畳み込み層毎に抽出された特徴内容および語義情報はいずれも異なり、具体的には、複層の畳み込み層の畳み込み処理によって画像特徴を段階的に抽象化しつつ、比較的重要でない特徴は徐々に除去され、そのため、後になるほど抽出された特徴のサイズが小さくなり、内容および語義情報が凝縮となる。複層の畳み込み層によって顔画像の畳み込み操作を段階的に行い、対応する中間特徴を抽出し、最終的には固定サイズの特徴データを得る。このように、顔画像の主要な内容情報(すなわち顔画像の特徴データ)を取得したと同時に、画像サイズが縮小され、システムの演算量が軽減され、演算速度が高まる。上記畳み込み処理の実現プロセスは以下のようになる。畳み込み層は顔画像の畳み込み処理を行い、すなわち、畳み込みカーネルを用いて顔画像上でスライドさせ、顔画像点における画素値に、対応する畳み込みカーネルにおける数値を乗算し、その後、乗算された全ての値を加算して、畳み込みカーネルの中間像素に対応する画像における画素値とし、最終的には顔画像における全ての画素値のスライド処理を完了し、第5の特徴を抽出する。なお、本願は上記畳み込み層の数を具体的に限定しないことを理解されたい。
顔画像の畳み込み処理を行う時、データは各層のネットワークに処理された度に、そのデータ分布は変化し、結果として、次の層のネットワークの抽出は困難となる。そこで、畳み込み処理により得られた第5の特徴に対して後続の処理を行う前に、第5の特徴に対する正規化処理が必要となり、すなわち、第5の特徴を平均値が0且つ分散が1の正規分布に正規化する。いくつかの実施可能な形態では、畳み込み層の後に正規化処理(batch norm、BN)層を結合し、BN層では、トレーニング可能なパラメータを加えることで特徴の正規化処理を行い、トレーニング速度が高まり、データの相関性が除去され、特徴間の分布差が強調される。一例では、BN層による第5の特徴の処理プロセスは以下のようになる。
第5の特徴は
Figure 2021518010
で、合計で
Figure 2021518010
個のデータがあり、出力は
Figure 2021518010
であると仮定すると、BN層は第5の特徴に対して次のような動作を実行する。
まず、上記第5の特徴
Figure 2021518010
の平均値、すなわち、
Figure 2021518010
を求める。
上記平均値
Figure 2021518010
から、上記第5の特徴の分散、すなわち、
Figure 2021518010
を決定する。
上記平均値
Figure 2021518010
と分散
Figure 2021518010
に基づいて、上記第5の特徴の正規化処理を行い、
Figure 2021518010
を得る。
最後に、スケーリング変数
Figure 2021518010
と平行移動変数
Figure 2021518010
から、正規化の結果、すなわち、
Figure 2021518010
を得て、ここで、
Figure 2021518010
はいずれも既知である。
畳み込み処理および正規化処理は、データから複雑なマッピングを学習する能力が弱く、複雑型のデータ、例えば画像、ビデオ、オーディオ、音声などを学習および処理できない。よって、正規化処理されたデータに対して線形変換を行うことで、画像処理、ビデオ処理などのような複雑な問題を解決しなければならない。BN層の後に線形活性化関数を結合して、活性化関数によって正規化処理されたデータに対して線形変換を行い、それにより複雑なマッピングが処理可能になる。いくつかの実施可能な形態では、正規化処理済みのデータを正規化線形関数(rectified linear unit:ReLU)に代入し、正規化処理済みのデータに対する第1の線形変換を実現し、第6の特徴を得る。
活性化関数層の後に全結合(fully connected layers:FC)層が結合され、全結合層によって第6の特徴を処理し、第6の特徴をサンプル(すなわち注視領域)ラベリング空間にマッピングすることができる。いくつかの実施可能な形態では、全結合層によって第6の特徴に対して第2の線形変換を行う。全結合層は、入力層(すなわち活性化関数層)および出力層を含み、出力層におけるいずれのニューロンも、入力層における全てのニューロンに接続され、ここで、出力層における各ニューロンは、いずれもそれぞれの重みおよびオフセットを持ち、よって、全結合層の全てのパラメータは、各ニューロンの重みおよびオフセットであり、該重みおよびオフセットの具体的なサイズは、全結合層に対するトレーニングにより得られる。
第6の特徴を全結合層に入力するとき、全結合層の重みおよびオフセット(すなわち第2の特徴データの重み)を取得し、その後、重みおよびオフセットに基づいて、上記第6の特徴を重み付け加算し、上記第4の特徴を取得する。いくつかの実施可能な形態では、全結合層の重みおよびオフセットをそれぞれ
Figure 2021518010
とし、ここで、
Figure 2021518010
はニューロンの数、第6の特徴は
Figure 2021518010
であり、この場合、全結合層が第3の特徴データに対して第2の線形変換を行って得られた第1の特徴データは
Figure 2021518010
である。
403では、第1の特徴データに対して第1の非線形変換を行い、注視領域種別の検出結果を得る。
全結合層の後にsoftmax層を結合させ、softmax層に内蔵されているsoftmax関数によって、入力された異なる特徴データを0から1の間の値にマッピングし、且つマッピング後の全ての値の和を1とし、マッピング後の値と入力した特徴は一対一に対応し、こうして、各特徴データについての予測を完了したことに相当し、且つ対応する確率が数値の形式で示される。1つの実施可能な形態では、第4の特徴をsoftmax層に入力し、第4の特徴をsoftmax関数に代入して第1の非線形変換を行い、運転者の視線が異なる注視領域に滞留する確率を得る。
404では、前記注視領域種別の検出結果と前記注視領域種別のラベリング情報の差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整する。
本実施例では、ニューラルネットワークはクロスエントロピー損失関数、平均分散損失関数、二乗損失関数などであり得る損失関数を含み、本願は損失関数の具体的な形態を限定しない。
顔画像集合における各画像は、いずれもそれぞれのラベリング情報を有し、すなわち各顔画像は、いずれも1つの注視領域種別に対応しており、402で得られた異なる注視領域の確率およびラベリング情報を損失関数に代入し、損失関数値を得る。ニューラルネットワークのネットワークパラメータを調整することで、損失関数値は第2の閾値以下となったら、ニューラルネットワークのトレーニングが完了し、ここで、上記ネットワークパラメータは、401および402における各ネットワーク層の重みおよびオフセットを含む。
本実施例は前記注視領域種別のラベリング情報が含まれる顔画像集合に基づいて、ニューラルネットワークをトレーニングし、トレーニング後のニューラルネットワークは抽出された顔画像の特徴に基づいて、注視領域の種別を決定することができ、本実施例により提供されるトレーニング方法によれば、顔画像集合を入力するだけでトレーニング後のニューラルネットワークが得られ、トレーニング方式が簡単で、トレーニング時間が短い。
図5は、本願の実施例が提供する上記ニューラルネットワークの別の実現可能なトレーニング方法のフローチャートである。
501では、前記顔画像集合における、注視領域種別のラベリング情報が含まれる顔画像を取得する。
本実施例では、顔画像集合における各画像は、いずれも注視領域の種別が含まれ、図2の注視領域種別の区分を例にして、各フレーム画像に含まれるラベリング情報は1から12のいずれか1つの数字である。
寸法が異なる特徴を融合し、特徴情報を充実にすることで、注視領域種別の検出精度が高まり、特徴情報を充実にする上記ステップの実現プロセスを502〜505に示す。
502では、前記顔画像における、左眼および/または右眼を含む少なくとも片眼の眼部画像を切り出す。
上記左眼および/または右眼は、左眼、または右眼、または左眼および右眼を含む。
本実施例では、顔画像における眼部領域画像を認識し、ショットソフトウェアによって顔画像から眼部領域画像を切り出し、またはペイントソフトウェアによって顔画像から眼部領域画像を切り出すことなども可能であり、本願では、顔画像における眼部領域画像の認識、および顔画像から眼部領域画像を切り出すことの具体的な実施形態について限定しない。
503では、前記顔画像の第1の特徴および少なくとも片眼の眼部画像の第2の特徴をそれぞれ抽出する。
本実施例では、トレーニングされたニューラルネットワークは、複数の特徴抽出分岐を含み、異なる特徴抽出分岐によって、顔画像および眼部画像に対して第2の特徴抽出処理を行い、顔画像の第1の特徴および眼部画像の第2の特徴を取得し、抽出された画像の特徴寸法を豊富にし、いくつかの実施可能な形態では、異なる特徴抽出分岐によって、顔画像に対して、それぞれ順に畳み込み処理、正規化処理、第3の線形変換、第4の線形変換を行い、顔画像特徴および眼部画像特徴を取得し、そのうち、視線ベクトル情報は視線ベクトル、および視線ベクトルの始点位置を含む。なお、上記眼部画像には片眼(左眼または右眼)のみが含まれてもよく、両眼が含まれてもよく、本願では限定されないことを理解されたい。
上記畳み込み処理、正規化処理、第3の線形変換、第4の線形変換の具体的な実現プロセスは、ステップ402における畳み込み処理、正規化処理、第1の線形変換、第2の線形変換に示すとおりであり、ここで詳しい説明を省略する。
504では、前記第1の特徴と前記第2の特徴を融合し、第3の特徴を得る。
同一物体(本実施例では運転者を指す)の寸法が異なる特徴に含まれるシーン情報は全て異なるため、寸法が異なる特徴を融合することで、情報がより充実した特徴は得られる。
いくつかの実施可能な形態では、第1の特徴と第2の特徴の融合処理を行うことで、複数の特徴における特徴情報が1つの特徴に融合され、運転者注視領域の種別の検出精度の向上に寄与する。
505では、前記第3の特徴に基づいて前記顔画像の注視領域種別の検出結果を決定する。
本実施例では、注視領域種別の検出結果は運転者の視線が異なる注視領域に滞留する確率であり、値の範囲は0から1とする。いくつかの実施可能な形態では、第3の特徴をsoftmax層に入力し、第3の特徴をsoftmax関数に代入して第2の非線形変換を行い、運転者の視線が異なる注視領域に滞留する確率を得る。
506では、前記注視領域種別の検出結果と前記注視領域種別のラベリング情報との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整する。
本実施例では、ニューラルネットワークはクロスエントロピー損失関数、平均分散損失関数、二乗損失関数などであり得る損失関数を含み、本願は損失関数の具体的な形態を限定しない。
505で得られた異なる注視領域の確率、およびラベリング情報を損失関数に代入し、損失関数値を得る。ニューラルネットワークのネットワークパラメータを調整することで、損失関数値は第3の閾値以下となったら、ニューラルネットワークのトレーニングが完了し、ここで、上記ネットワークパラメータは503から505における各ネットワーク層の重みおよびオフセットを含む。
本実施例で提供されるトレーニング方法によってトレーニングして得られたニューラルネットワークは、同一フレームの画像から抽出された寸法が異なる特徴を融合し、特徴情報を充実にし、さらに融合後の特徴に基づいて運転者の注視領域の種別を識別して識別精度を向上させることができる。
本願に提供される2つのニューラルネットワークトレーニング方法(401〜404および501〜506)は、ローカル端末(例えば、コンピュータ、携帯電話、車両端末)で実現してもよく、クラウドを介して実現してもよく、本願ではこれについて限定しないことが、当業者には理解されるであろう。
図6は本願の実施例が提供する運転者注意力の監視方法におけるステップ103の一可能な実施形態のフローチャートである。
601では、前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間を決定する。
運転時、運転者の視線が左フロントウインドウシールド領域(運転室が車両の左側にあり、図2を参照)以外の注視領域内に滞留する時間が長いほど、運転者が脇見運転している可能性が高く、脇見運転のレベルも高い。よって、運転者の視線が注視領域に滞留する時間長に基づいて、運転者注意力の監視結果を決定することができる。車両の運転中に、運転者の視線は異なる注視領域で切り替わることがあるため、注視領域の種別も対応して変化することとなる。明らかに、運転者の視線が注視領域に滞留する累計時間に基づいて注意力の監視結果を決定すること、および運転者の視線が注視領域に滞留する継続時間に基づいて注意力の監視結果を決定することは、いずれも合理的でなく、そこで、スライディング時間窓によって運転者の注意力を監視し、運転者の注意力に対する継続監視を実現する。まず、スライディング時間窓における各フレームの顔画像の注視領域の種別、および各フレームの顔画像の時間長を決定し、該スライディング時間窓内の各注視領域の累計時間を決定する。いくつかの実施可能な形態では、図2の注視領域種別の区分を例にして、1つのスライディング時間窓内の10フレームの顔画像のうち、4フレームの顔画像の注視領域の種別は1、3フレームの顔画像の注視領域の種別は2、2フレームの顔画像の注視領域の種別は5、1フレームの顔画像の注視領域の種別は12であり、且つ各フレームの顔画像の時間長は0.4秒である場合、該スライディング時間窓内で、1番の注視領域の累計時間は1.6秒、2番の注視領域の累計時間は1.2秒、5番の注視領域の累計時間は0.8秒、12番の注視領域の累計時間は0.4秒となる。
602では、前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、脇見運転であるか否かおよび/または脇見運転のレベルを含む前記運転者注意力の監視結果を決定する。
本願の実施に際して、脇見運転および/または脇見運転のレベルは、脇見運転、または脇見運転のレベル、または脇見運転および脇見運転のレベルを含む。
上記のとおり、運転上の要求から、一定時間内で運転者の注視領域の種別は複数あり得る。明らかに、異なる注視領域に対応する脇見運転の確率は全て異なり、図2を例にして、運転者の注視領域が1である場合、運転者が脇見運転している確率は小さく、運転者の注視領域が10である場合、運転者が脇見運転している確率は大きい。よって、異なる種別の注視領域に異なる時間閾値を設定し、運転者の視線が異なる種別の注視領域に滞留するとき、運転者の脇見運転の確率が異なることを反映する。さらに、少なくとも1つのスライディング時間窓内の各種の注視領域の注視累計時間と、該当する種別の定義注視領域の時間閾値との比較結果に基づいて、運転者注意力の監視結果を決定し、このように、各スライディング時間窓はそれぞれ1つの注意力監視結果に対応するようになる。
任意選択的に、1つのスライディング時間窓内で、運転者の視線がいずれか1つの注視領域内に滞留する累計時間が該注視領域の時間閾値に達した場合、運転者の注意力検出結果は脇見運転に決定される。いくつかの実施可能な形態では、図2を例にして、スライディング時間窓の時間長を5秒とし、運転者が右前方の道路状況を観察するとき、視線は注視領域2に滞留し、運転中に、運転者がインストルメントパネルに表示されるデータを観察して、車両のリアルタイムの状況をチェックするとき、視線は注視領域3に滞留し、また、通常の運転中に、運転者の視線は注視領域10に滞留するはずがないから、注視領域2、3、10の時間閾値をそれぞれ2.5秒、1.5秒、0.7秒とすることができる。1つのスライディング時間窓内で、運転者の注視領域の種別が2、3、10である累計時間がそれぞれ1.8秒、1秒、1秒であると検出された場合、運転者の注意力検出結果は脇見運転である。なお、スライディング時間窓のサイズ、および注視領域の時間閾値の大きさは実際の使用状況に応じて調整でき、本願はこれに関して具体的に限定しないことを理解されたい。
任意選択的に、注意力の監視結果はさらに脇見運転のレベルを含み、すなわち、連続した複数のスライディング時間窓の注意力の監視結果がいずれも脇見運転である場合、対応する脇見運転のレベルも相応に高まることとなり、例えば、いずれか1つのスライディング時間窓の注意力の監視結果が脇見運転である場合、対応する脇見運転のレベルはレベル1であり、連続した2つのスライディング時間窓の注意力の監視結果が脇見運転である場合、対応する脇見運転のレベルはレベル2である。
任意選択的に、車両室内のいろいろな箇所で複数のカメラを配置してもよく、車両室外のいろいろな箇所で複数のカメラを配置してもよく、車両室内および車両室外のいろいろな箇所で複数のカメラを配置してもよい。上記複数のカメラによって、同一時刻での複数枚の顔画像を得ることができ、処理された各フレームの顔画像は、いずれも1つの注視領域種別を持つこととなり、このとき、各フレーム画像の注視領域の種別を総合して運転者の注視領域の種別を決定し、そこで、本願の実施例は「多数決」の投票方法を提供し、注視領域の種別を決定し、これにより注視領域種別の検出の信頼性が高まり、さらに運転者注意力の検出の正確度が高まる。この方法は以下ステップを含む。
車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集する。
収集された複数のビデオの各々に含まれる運転領域に位置する運転者の複数フレームの顔画像に対して、時刻が揃っている各フレームの顔画像における運転者の注視領域の種別をそれぞれ検出する。
得られた各注視領域種別に多数を占める結果を当該時刻の顔画像の注視領域種別として決定する。
本実施例では、複数のビデオ時刻が揃っている各フレームの顔画像とは、複数のカメラにより収集されたビデオにおける、同一時刻での各フレームの顔画像を意味する。いくつかの実施可能な形態では、車両に3つのカメラが配置され、それぞれ1番のカメラ、2番のカメラ、3番のカメラであり、また、この3つのカメラによって、それぞれ異なる角度から運転領域のビデオを収集することができ、この3つのカメラをそれぞれ車両の異なる位置に配置し、異なる角度から運転領域のビデオを収集することなどが可能である。例えば、同一時刻で、1番のカメラにより収集された顔画像に対応する注視領域の種別は右フロントウインドウシールド領域、2番のカメラにより収集された顔画像に対応する注視領域の種別は車両インナーミラー領域、3番のカメラにより収集された顔画像に対応する注視領域の種別は右フロントウインドウシールド領域であり、3つの結果のうち、2つの結果が右フロントウインドウシールド領域であり、車両インナーミラー領域という結果が1つしかなく、よって最終的に出力される運転者の注視領域は右フロントウインドウシールド領域であり、注視領域の種別は2である。
任意選択的に、現実環境内における光線が複雑で、車内光線はなおさらで、一層複雑になり、一方、光強度はカメラの撮像品質に直接影響を及ぼし、品質の低い画像またはビデオである場合、一部の有用な情報が失われる。また、撮像角度によって、撮像された画像の品質に影響が及ぼされることもあり、結果として、ビデオまたは画像における特徴物が顕著でなく、または遮蔽される等の問題となる。例えば、運転者の眼鏡レンズの光反射により、カメラは運転者の眼を明瞭に撮像できず、または、運転者の頭部姿勢により眼部分の画像を撮れず、それにより、後続の画像による検出処理に影響を及ぼす。そのため、本実施例は、多角度撮像された画像から品質の高い画像を選択して、運転者の注視領域種別の検出のための画像とする解決手段をさらに提供し、検出の基礎となる画像の品質が保証されたため、注視領域種別の検出の正確度が高まり、異なる光線環境、顔の広角撮像または遮蔽などのシーンに解決手段を提供し、運転者注意力の監視の正確度は高まる。該方法は以下のステップを含む。
車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集する。
画質評価指標に基づいて、収集された複数のビデオの各々に含まれる、運転領域に位置する運転者の複数フレームの顔画像における各フレームの顔画像の画質スコアを決定する。
複数のビデオ時刻が揃っている各フレームの顔画像のうち、画質スコアが最も高い顔画像をそれぞれ決定する。
画質スコアが最も高い各顔画像における運転者の注視領域の種別をそれぞれ決定する。
本実施例では、前記画質評価指標は、画像に眼部画像が含まれるか否か、画像における眼部領域の精細度、画像における眼部領域の遮蔽状況、画像における眼部領域の眼開閉状態のうちの少なくとも1つを含む。複数のビデオ時刻が揃っている各フレームの顔画像とは、複数のカメラにより収集されたビデオにおける、同一時刻での各フレームの顔画像を意味する。上記画質評価指標に基づいて決定された画像により、画像における運転者注視領域の検出をより正確に行うことができる。
いくつかの実施可能な形態では、同一時刻で、車両のいろいろな箇所で配置されるカメラは、それぞれ異なる角度から運転者の顔が含まれる画像を取得し、上記画質評価指標に基づいて、全ての画像の品質に対して採点し、例えば、画像に眼部画像が含まれる場合5点を付け、さらに画像における眼部領域の精細度に応じて1〜5点から対応する点数を付け、最後に2つの点数を加算し、画質スコアを得て、同一時刻で角度が異なるカメラから収集された複数フレームの画像のうち、画質スコアが最も高い画像を、注視領域種別を決定するための当該時刻の処理対象画像とし、処理対象画像における運転者の注視領域の種別を決定する。なお、画像における眼部領域の精細度の判断は任意の画像精細度アルゴリズム、例えば、グレースケール分散関数、グレースケール分散積関数、エネルギー勾配関数により実現でき、これに関して本願は具体的に限定したいことを理解されたい。
本実施例では、スライディング時間窓内の各種の注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、前記運転者が脇見運転しているか否かを決定し、スライディング時間窓の数に基づいて脇見運転のレベルを決定し、車両の異なる領域に配置されるカメラによって、複数の角度から運転領域のビデオを収集し、収集された顔画像の画質を向上させ、また、画質評価指標に基づいて画質が最も高い顔画像を決定し、画質が最も高い顔画像に基づいて注意力の監視結果を決定し、これらにより、監視精度は高まる。車両に複数のカメラが配置される場合、さらに「多数決」の原則に従って、同一時刻での複数のカメラに対応する複数の注意力の監視結果から注意力の監視結果を決定し、これも検出精度の向上につながる。
運転者が脇見運転していると決定された場合、適時に運転者の注意を喚起し、運転に集中するように運転者に促すことができ、以下の実施例は本願が提供する脇見運転の注意喚起の一実施可能な形態である。
運転者注意力の監視結果が脇見運転である場合、運転者に対して、対応する脇見運転の注意喚起を促し、運転に集中させることができる。脇見運転の注意喚起は、文字による注意喚起、音声による注意喚起、香りによる注意喚起、低電流刺激による注意喚起のうちの少なくとも1つを含む。
いくつかの実施可能な形態では、運転者注意力の監視結果が脇見運転であると検出されると、ヘッドアップディスプレイ(head up display、HUD)によってダイアログボックスをポップアップさせ、運転者に対して注意喚起および警告を行ってもよく、車載端末に内蔵されている音声データ、例えば「運転に集中してください」などによって注意喚起および警告を行ってもよい。または、意識をはっきりさせる効果がある気体を放出、例えば、車載噴霧ノズルによってオーデコロンを噴霧させてもよく、オーデコロンはすがすがしい香りをして心地良く、運転者に対して注意喚起および警告を行うと共に、意識をはっきりさせる効果も生じる。さらに、注意喚起および警告の目的を達成するために、座席から低電流を放出して運転者に刺激を与えてもよい。
本実施例はいくつかの脇見運転の注意喚起方式を提供しており、運転者が脇見運転している場合、運転者に対して効果的に注意喚起および警告を行うことが実現される。
以下の実施例は本願が提供する脇見運転の注意喚起の別の実現可能な形態である。
上記のとおり、連続した複数のスライディング時間窓の注意力の監視結果がいずれも脇見運転である場合、対応する脇見運転のレベルも相応に高まることとなり、前記運転者注意力の監視結果が脇見運転である場合、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係、および前記運転者注意力の監視結果に基づいて、前記運転者の脇見運転のレベルを決定し、予め設定された脇見運転のレベルと脇見運転の注意喚起とのマッピング関係、および前記運転者の脇見運転のレベルに基づいて、前記脇見運転の注意喚起から1つ決定して前記運転者に対して脇見運転の注意喚起を促す。ここで、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係は、複数の連続したスライディング時間窓の監視結果が全て脇見運転である場合、脇見運転のレベルがスライディング時間窓の数と正に相関しているという関係を含む。
いくつかの実施可能な形態では、スライディング時間窓の数、脇見運転のレベルおよび注意喚起方式のマッピング関係を表1に示す。
Figure 2021518010
いずれか1つのスライディング時間窓の注意力の監視結果が脇見運転である場合、運転者の脇見運転のレベルを1と決定し、このとき、香りによる注意喚起の方式によって運転者に対して注意喚起および警告を行い、例えば、意識をはっきりさせる効果がある気体を放出させ、例えば、車載噴霧ノズルによってオーデコロンを噴霧させる。連続した2つまたは3つのスライディング時間窓の注意力の監視結果が脇見運転である場合、運転者の脇見運転のレベルを2と決定し、このとき、文字による注意喚起の方式によって運転者に対して注意喚起および警告を行い、例えば、HUDディスプレイによってダイアログボックスをポップアップさせ、運転者に対して注意喚起および警告を行う。連続した4つまたは5つのスライディング時間窓の注意力の監視結果が脇見運転である場合、運転者の脇見運転のレベルを3と決定し、このとき、音声による注意喚起の方式によって運転者に対して注意喚起および警告を行い、例えば、車載端末から「運転に集中してください」などの注意喚起音声を放送する。連続した6つから8つのスライディング時間窓の注意力の監視結果が脇見運転である場合、運転者の脇見運転のレベルを4と決定し、このとき、低電流刺激の注意喚起方式によって運転者に対して注意喚起および警告を行い、例えば、運転者の座席から低電流を放出して運転者に刺激を与える。連続した9つまたはそれ以上のスライディング時間窓の注意力の監視結果が脇見運転である場合、運転者の脇見運転のレベルを5と決定し、このとき、運転者に対して、同時に音声による注意喚起および低電流刺激による注意喚起を行い、運転に集中させる。
本実施例では、スライディング時間窓の数、脇見運転のレベルおよび注意喚起方式のマッピング関係に基づいて運転者脇見運転のレベルを決定し、程度の異なる注意喚起を行い、それによって合理的な方式で適時に運転者の注意を喚起し、運転に集中させ、運転者の脇見運転による交通事故を予防することを実現する。
運転者注意力の監視結果が決定された後、運転者注意力の監視結果を分析することができ、例えば、運転者注意力の監視結果に基づいて、運転者の運転習慣を特定し、脇見運転の原因を与える。注意力の監視結果をサーバまたは端末に送信することもでき、関係者はサーバまたは端末によって車両に対する遠隔制御を実現し、または注意力の監視結果から運転者の運転状態を把握し、運転者の運転状態に応じて適宜処理することができる。以下の実施例は、本願で提供される注意力の監視結果に基づいて実現可能ないくつかの形態である。
車両は、サーバまたは端末との通信接続を確立することができ、ここで、上記通信接続は、セルラーネットワーク接続、近距離無線通信(near field communication:NFC)接続、ブルートゥース(登録商標)接続などであり得、本願は通信接続の方式について限定しない。運転者注意力の監視結果が決定されると、車両に通信接続されるサーバまたは端末へ運転者注意力の監視結果を送信し、これにより、サーバ側の関係者および端末側の使用者は運転者の注意力の監視結果をリアルタイムに把握できるようになる。
いくつかの実施可能な形態では、物流会社の関係スタッフはサーバによって各運転者の注意力の監視結果をリアルタイムに知ることができ、サーバに記憶されている運転者注意力の監視結果を統計し、統計結果に基づいて運転者を管理することもできる。いくつかの実施可能な形態では、物流会社Cでは、物流輸送中の運転者の注意力の監視結果を運転者の評価基準の1つとすることが規定されており、例えば、いずれか1回の物流輸送の過程で、物流輸送の合計時間に脇見運転の累計時間の占める割合が5%以上である場合、評点から1点を減算する。物流輸送の合計時間に脇見運転の累計時間の占める割合が7%以上である場合、評点から2点を減算する。物流輸送の合計時間に脇見運転の累計時間の占める割合が10%以上である場合、評点から3点を減算する。物流輸送の合計時間に脇見運転の累計時間の占める割合が3%以下である場合、評点に1点を加算する。物流輸送の合計時間に脇見運転の累計時間の占める割合が2%以下である場合、評点に2点を加算する。物流輸送の合計時間に脇見運転の累計時間の占める割合が1%以下である場合、評点に3点を加算する。別の例として、レベル1の脇見運転が発生する度に、評点から0.1点を減算する。レベル2の脇見運転が発生する度に、評点から0.2点を減算する。レベル3の脇見運転が発生する度に、評点から0.3点を減算する。レベル4の脇見運転が発生する度に、評点から0.4点を減算する。レベル5の脇見運転が発生する度に、評点から0.5点を減算する。
さらに、運転者に対する管理のもとに、車両隊の管理も可能であり、他の実施可能な形態では、物流会社Cは運転者の評点に基づいて運転者の等級付けを行うことができ、評点が高いほど、その分、グレードも高い。当然、運転者のグレードが高いほど、運転者の運転習慣は比較的良好であり、ここで、運転習慣として、脇見運転しないこと、疲労運転しないことなどが挙げられ、優先度の高い輸送作業について、物流会社Cはグレードの高い運転者を優先して指定して輸送を行うことが可能であり、このように、輸送作業が正常に完了することを保証できると共に、会社の手配を運転者に納得させることもできる。
車両は、NFCまたはブルートゥース(登録商標)を介して車内の他の人(運転者以外のいずれか1人)のモバイル端末(例えば、携帯電話、タブレット、ノートパソコン、ウェアラブルデバイなど)に接続され、運転者注意力の監視結果を該モバイル端末にリアルタイムに送信し、このように、車内の他の人は、運転者が脇見運転している時に運転者に注意喚起を行うことができる。いくつかの実施可能な形態では、夫が運転者で、妻が助手席に座ってタブレットで映画を見ており、妻は、タブレットにポップアップしたメッセージから、夫が脇見運転しており、且つ脇見運転のレベルがレベル3に達したと知った場合、妻は、手元にあるタブレットを手放し、夫に対して口頭注意、例えば「どこ見てるの、運転に集中しなさい!」のように注意することができ、このように夫に対する注意喚起および警告の役割を果たし、運転に集中させるように夫に促す。端末による運転者注意力の監視結果の表示方式は上記「ポップアップ」に限定されず、音声による注意喚起、動的効果表示などであってもよく、本願はこれについて限定しない。なお、このような実施形態では、車内の他の人は、注意力の監視結果、道路状況、車両状況などの要因に応じて、運転者に対する注意喚起の要否、または運転者に対するどの程度の注意喚起が必要であるかを人為的に判断することができ、ほとんどの場合、人の判断能力は機器の判断能力より優れていることが明白であり、よって、車内の他の人が運転者の注意を喚起する効果は、表1における注意喚起方式より高いということを理解されたい。
セルラーネットワークを介して運転者注意力の監視結果を車両に通信接続される端末に送信し、ここで、端末は移動可能な端末でも、移動不能な端末でもよく、端末の使用者は運転者の家族でも、運転者が信頼している人でもよく、本願はこれについて限定しない。端末使用者は運転者注意力の監視結果に応じて、適切な措置をとり、交通事故の発生を予防することができる。いくつかの実施可能な形態では、在宅中の父が携帯電話によって、運転者である息子が脇見運転しており、脇見運転のレベルがレベル5に達し、且つ注意力の監視結果として、脇見運転のスライディング時間窓の数が増加し続けており、明らかに、運転者の運転状態がかなり異常であり、交通事故が極めて発生しやすいと知った場合、父は、助手席に座って映画を見ている嫁に電話をかけ、嫁に、息子に対して注意喚起を行い、または他の措置をとり、安全性上のリスクを低減するよう連絡を取る。
任意選択的に、端末によって車両に制御コマンド、例えば、運転モードの切り替え、または警告モードの調整、または運転モード切り替えおよび警告モード調整の両方を行うなどを送信し、サーバまたは端末から送信される制御コマンドを受信した場合、制御コマンドに従って車両を制御することもでき、いくつかの実施可能な形態では、車両の遠隔制御端末によって車両に制御コマンドを送信し、車両の運転モードを非自動運転モードから自動運転モードに切り替えることで、車両は、自動運転モードで自動運転することとなり、運転者の危険運転による安全上のリスクを低減する。他の実施可能な形態では、車両の遠隔制御端末によって車両に制御コマンドを送信し、車両の警告モードを調整し(例えば、車上警報器の音量を上げるなど)、警告効果を高め、安全上のリスクを低減する。さらに別の実施可能な形態では、車両の遠隔制御端末によって車両に制御コマンドを送信し、車両の運転モードを非自動運転モードから自動運転モードに切り替えると共に、車両の警告モードを調整する。
車載端末は運転者の注意力検出結果について統計分析を行い、分析結果、例えば、脇見運転が発生する時間、脇見運転の回数、脇見運転の累計時間、脇見運転毎回のレベル、および脇見運転時の注視領域の種別分布や、脇見運転の原因を含めた運転者の運転習慣情報を得ることもできる。いくつかの実施可能な形態では、車載端末は、運転者注意力の監視結果について統計を行い、脇見運転時の注視領域の種別分布を取得し、例えば、図2を例にして、過去直近1週間内で、脇見運転しているとき、50%の注視領域の種別は12番の領域、30%の注視領域の種別は7番の領域、10%の注視領域の種別は2番の領域、10%の注視領域の種別はその他の領域である。さらに、注視領域の種別分布に基づいて、運転者が脇見運転している原因、例えば、運転時に助手席に座っている乗客と会話しているなどを与えることができる。注視領域の種別分布、および脇見運転の原因を統計レポートの形で運転者に提示し、運転者は自分の運転習慣を直ちに知って、それに応じて適宜調整することができる。任意選択的に、脇見運転が発生する時間、脇見運転の回数、脇見運転の累計時間、脇見運転毎回のレベルの統計結果をレポートの形で運転者に提示することもできる。本実施例の適用により、運転者注意力の監視結果をサーバに送信して記憶することができ、関係者はサーバに記憶されている注意力の監視結果に応じて運転者を管理することが可能である。運転者注意力の監視結果を車内の他の端末に送信することで、車内の他の人は、運転者の運転状態を直ぐに把握することができ、それに応じて運転者に対して注意喚起を適宜行い、交通事故の発生を未然に防止する。運転者注意力の監視結果を遠隔端末に送信することで、他の人は、注意力の監視結果に応じて車両を適宜制御し、安全上のリスクを低減することができる。運転者注意力の監視結果を分析することで、運転者は分析結果に基づき、自分の運転状態をより明白に把握することができ、自身の不良の運転習慣を適時に矯正し、交通事故の発生を未然に防止する。
具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序であるというわけではなく、実施プロセスの何の制限にもならず、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。
図7は、本願の実施例が提供する脇見運転認識装置の概略構造図であり、該装置1は、第1の制御ユニット11、第1の決定ユニット12、第2の決定ユニット13、注意喚起ユニット14、第3の決定ユニット15、第4の決定ユニット16、トレーニングユニット17、送信ユニット18、分析ユニット19および第2の制御ユニット20を含む。
そのうち、第1の制御ユニット11は、車両に設けられるカメラによって前記車両の運転領域のビデオを収集するために、そして、車上の複数領域で異なる角度のカメラをそれぞれ配置し、複数のカメラによって運転領域のビデオストリームをそれぞれ収集するために、そして、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するために用いられる。
第1の決定ユニット12は、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定し、そして、車上の複数領域で異なる角度のカメラをそれぞれ配置し、複数のカメラによって運転領域のビデオストリームをそれぞれ収集し、収集された複数のビデオストリームについて同一時刻での顔画像における注視領域の種別をそれぞれ検出するために用いられる。ここで、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の1つに属する。
第2の決定ユニット13は、前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定するために用いられる。
注意喚起ユニット14は、前記運転者注意力の監視結果が脇見運転である場合、前記運転者に対して、文字による注意喚起、音声による注意喚起、香りによる注意喚起、低電流刺激による注意喚起のうちの少なくとも1つを含む脇見運転の注意喚起を行うために用いられる。
第3の決定ユニット15は、前記運転者注意力の監視結果が脇見運転である場合、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係、および前記運転者注意力の監視結果に基づいて、前記運転者の脇見運転のレベルを決定するために用いられる。
第4の決定ユニット16は、予め設定された脇見運転のレベルと脇見運転の注意喚起とのマッピング関係、および前記運転者の脇見運転のレベルに基づいて、前記脇見運転の注意喚起から1つ決定して前記運転者に対して脇見運転の注意喚起を行うために用いられる。
トレーニングユニット17は、前記ニューラルネットワークをトレーニングするために用いられる。
送信ユニット18は、前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信するために用いられる。
分析ユニット19は、前記運転者注意力の監視結果について統計分析を行うために用いられる。
第2の制御ユニット20は、前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信した後、且つ前記サーバまたは前記端末から送信される制御コマンドを受信した場合、前記制御コマンドに従って前記車両を制御するために用いられる。
実施可能な一形態では、事前に前記車両の空間領域の分割を行って得られた前記複数種別の定義注視領域は、左フロントウインドウシールド領域、右フロントウインドウシールド領域、インストルメントパネル領域、車両インナーミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、助手席領域、および助手席前方のグローブボックス領域の2種以上を含む。
さらに、前記第2の決定ユニット13は、前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間を決定するための第1の決定サブユニット131と、前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、脇見運転であるか否かおよび/または脇見運転のレベルを含む前記運転者注意力の監視結果を決定するための第2の決定サブユニット132と、を含む。
さらに、前記時間閾値は、各種の前記定義注視領域にそれぞれ対応する複数の時間閾値を含み、ここで、前記複数種別の定義注視領域における少なくとも2つの異なる種類の定義注視領域に対応する時間閾値は異なり、前記第2の決定サブユニット132は、さらに前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と該当する種別の定義注視領域の時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定するために用いられる。
さらに、前記第1の決定ユニット12は、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して視線および/または頭部姿勢の検出を行うための第1の検出サブユニット121と、各フレームの顔画像の視線および/または頭部姿勢の検出結果に基づいて、各フレームの顔画像における前記運転者の注視領域の種別を決定するための第3の決定サブユニット122と、を含む。
さらに、前記第1の決定ユニット12は、複数フレームの前記顔画像をニューラルネットワークにそれぞれ入力し、前記ニューラルネットワークを介して、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ出力するための処理サブユニット123をさらに含み、ここで、前記ニューラルネットワークは予め注視領域種別のラベリング情報が含まれる顔画像集合を用いて事前にトレーニングして得られるか、または、予め注視領域種別のラベリング情報が含まれる顔画像集合、および前記顔画像集合における各顔画像に基づいて切り出した眼部画像を用いて事前にトレーニングして得られ、前記注視領域種別のラベリング情報は前記複数種別の定義注視領域の1つを含む。
さらに、前記予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係は、複数の連続したスライディング時間窓の監視結果がいずれも脇見運転であった場合、前記脇見運転のレベルがスライディング時間窓の数と正に相関しているという関係を含む。
さらに、前記第1の決定ユニット12は、画質評価指標に基づいて、収集された複数のビデオの各々に含まれる、前記運転領域に位置する運転者の複数フレームの顔画像における各フレームの顔画像の画質スコアをそれぞれ決定するための第5の決定ユニット124と、複数のビデオ時刻が揃っている前記各フレームの顔画像のうち、画質スコアが最も高い顔画像をそれぞれ決定するための第6の決定ユニット125と、画質スコアが最も高い各顔画像における前記運転者の注視領域の種別をそれぞれ決定する第7の決定サブユニット126と、をさらに含む。
さらに、前記画質評価指標は、画像に眼部画像が含まれるか否か、画像における眼部領域の精細度、画像における眼部領域の遮蔽状況、画像における眼部領域の眼開閉状態のうちの少なくとも1つを含む。
さらに、前記第1の決定ユニット12は、収集された複数のビデオの各々に含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して、時刻が揃っている各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ検出するための第2の検出サブユニット127と、得られた各注視領域種別に多数を占める結果を当該時刻の顔画像の注視領域種別として決定するための第8の決定サブユニット128と、をさらに含む。
図8は本願の実施例が提供するトレーニングユニット17の概略構造図であり、該ユニット17は、前記顔画像集合における、注視領域種別のラベリング情報が含まれる顔画像を取得するための取得サブユニット171と、前記顔画像における、左眼および/または右眼を含む少なくとも片眼の眼部画像を切り出すための画像切り出しサブユニット172と、前記顔画像の第1の特徴および少なくとも片眼の眼部画像の第2の特徴をそれぞれ抽出するための特徴抽出サブユニット173と、前記第1の特徴と前記第2の特徴を融合し、第3の特徴を得るための特徴融合サブユニット174と、前記第3の特徴に基づいて前記顔画像の注視領域種別の検出結果を決定するための第4の決定サブユニット175と、前記注視領域種別の検出結果と前記注視領域種別のラベリング情報との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整サブユニット176と、を含む。
いくつかの実施例では、本開示の実施例で提供された装置に備えた機能またはモジュールは、上記方法実施例に記載の方法を実行するために利用可能であり、その具体的な実施形態については上記方法実施例の説明を参照してよく、簡単化するために、ここで重複説明は割愛する。
図9は本願の実施例が提供する運転者注意力の監視装置のハードウェア構成図である。この監視装置3は、プロセッサ31を含み、入力装置32、出力装置33およびメモリ34をさらに含んでもよい。この入力装置32、出力装置33、メモリ34およびプロセッサ31の間はバスを介して互いに接続される。
メモリは、ランダムアクセスメモリ(random access memory:RAM)、リードオンリーメモリ(read−only memory:ROM)、消去可能なプログラマブル読出し専用メモリ(erasable programmable read only memory:EPROM)、または携帯型リードオンリーメモリ(compact disc read−only memory:CD−ROM)を含むが、それらに限定されず、該メモリは、関連するコマンドおよびデータを記憶するために用いられる。
入力装置はデータおよび/または信号を入力するために用いられ、出力装置はデータおよび/または信号を出力するために用いられる。入力装置および出力装置は、独立したデバイスであっても、統合されたデバイスであってもよい。
プロセッサは1つでも、複数でもよく、例えば、1つまたは複数の中央処理装置(central processing unit:CPU)を含み、プロセッサが1つのCPUである場合、該CPUはシングルコアCPUであっても、マルチコアCPUであってもよい。
メモリは、ネットワーク装置のプログラムコードおよびデータを記憶するために用いられる。
プロセッサは、該メモリ内のプログラムコードおよびデータを呼び出し、上記方法の実施例におけるステップを実行するために用いられる。具体的には、方法の実施例での記述を参照してよく、ここでは説明を省略する。
図9は、運転者注意力の監視装置の一簡略化した設計を示したに過ぎないことが理解される。実際の応用時に、運転者注意力の監視装置は、必要な他の素子をそれぞれ含み得、任意の数の入力/出力装置、プロセッサ、コントローラ、メモリなどを含むが、これらに限定されず、本願の実施例を実現可能な全ての運転者注意力の監視装置は、本願の保護範囲内に含まれる。
なお、本明細書に開示する実施例と関連付けて記述した各例のユニットおよびアルゴリズムのステップは、電子ハードウェア、またはコンピュータソフトウェアと電子ハードウェアの組み合わせで実現可能であることは、当業者であれば認識できる。これらの機能をハードウェアの形態で実行するか、またはソフトウェアの形態で実行するかは、技術的解決手段の特定の応用および設計制約条件によって決定される。専門技術者は各特定の応用について、記述した機能を異なる方法を用いて実現できるが、このような実現は本願の範囲を超えたものと理解すべきではない。
説明を簡便にするために、上述したシステム、装置およびユニットの具体的な動作プロセスは、前記方法の実施例での対応するプロセスを参照すればよく、ここで説明を省略することは、当業者であれば明確に理解できる。なお、本願の各実施例に対する記述が着目している点が異なり、説明を簡便にするために、様々な実施例では、同一または類似の部分を繰り返し記述しないことがあり、よって、1つの実施例において記述または詳細に記述されていない部分は、他の実施例の記載を参照すればよいことも、当業者であれば明確に理解できる。
本願で提供されるいくつかの実施例では、開示するシステム、装置および方法は、他の形態で実現できることを理解すべきである。例えば、上述した装置の実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際に実現時に別の分割形態にしてもよく、例えば複数のユニットまたはコンポーネントは組み合わせてもよく、または別のシステムに統合してもよく、またはいくつかの特徴を省略してもよく、もしくは実行しなくてもよい。一方、示したまたは論じた結合、直接結合、または通信接続は、いくつかのインタフェース、装置またはユニットを介した間接結合または通信接続であり得、電気的、機械的または他の形態であり得る。
前記分離部材として説明したユニットは物理的に分離されたものであってもなくてもよく、ユニットとして示された部材は物理ユニットであってもなくてもよく、即ち一箇所に位置してもよく、または複数のネットワークユニットに分布してもよい。実際の必要に応じてその一部または全てのユニットを選択して本実施例の解決手段の目的を実現できる。
また、本願の各実施例における各機能ユニットは1つの処理ユニットに統合されてもよく、それぞれ独立して物理的に存在してもよく、2つ以上で1つのユニットに統合されてもよい。
上記実施例では、ソフトウェア、ハードウェア、ファームウエアまたはそれらの任意の組み合わせにより全体的または部分的に実現することができる。ソフトウェアにより実現する時に、コンピュータプログラム製品として全体的または部分的に実現することができる。前記コンピュータプログラム製品は1つまたは複数のコンピュータコマンドを含む。コンピュータに前記コンピュータプログラムコマンドをロードし、実行する時に、本願の実施例によるフローまたは機能が全体的または部分的に発生する。前記コンピュータは汎用コンピュータ、専用コンピュータ、コンピュータネットワークまたは他のプログラマブルデバイスであってよい。前記コンピュータコマンドはコンピュータ読取可能記憶媒体に記憶されてもよいし、前記コンピュータ読取可能記憶媒体により伝送されてもよい。前記コンピュータコマンドは1つのウエブサイト、コンピュータ、サーバまたはデータセンタから有線(例えば、同軸ケーブル、光ファイバ、デジタル加入者回線(Digital Subscriber Line、DSL))または無線(例えば、赤外線、無線、マイクロ波等)で別のウエブサイト、コンピュータ、サーバまたはデータセンタに伝送可能である。前記コンピュータ読取可能記憶媒体は、コンピュータがアクセス可能なあらゆる利用可能な媒体であってもよいし、または1つ以上の利用可能な媒体を含んで統合されたサーバ、データセンタ等のデータ記憶装置であってもよい。前記利用可能な媒体は、磁気媒体(例えば、フロッピー(登録商標)ディスク、ハードディスク、磁気テープ)、光媒体(例えば、デジタル多用途ディスク(Digital Versatile Disc:DVD))、または半導体媒体(例えば、ソリッドステートディスク(Solid State Disk:SSD))等であってよい。
上記実施例の方法を実現する全てまたは一部のフローは、コンピュータプログラムによって関連するハードウェアに指示を出すことにより完了でき、このプログラムは、リードオンリーメモリ(read−only memory:ROM)またはランダムアクセスメモ(random access memory:RAM)、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ可読記憶媒体に記憶可能であり、該プログラムは実行される時に、上記各方法の実施例のフローを含んでよいことは、当業者であれば理解できる。
第5の態様では、コンピュータ上で実行される時にコンピュータが上記第1の態様、およびそのいずれか1つの可能な実施形態の方法を実行するコンピュータプログラムまたはコマンドを含むコンピュータプログラム製品を提供する。
例えば、本願は以下の項目を提供する。
(項目1)
車両に設けられるカメラによって前記車両の運転領域のビデオを収集するステップと、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するステップであって、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の1つに属する、ステップと、
前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定するステップと、を含むことを特徴とする運転者注意力の監視方法。
(項目2)
前記事前に前記車両の空間領域の分割を行って得られた前記複数種別の定義注視領域は、左フロントウインドウシールド領域、右フロントウインドウシールド領域、インストルメントパネル領域、車両インナーミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、助手席領域、および助手席前方のグローブボックス領域の2種以上を含むことを特徴とする項目1に記載の方法。
(項目3)
前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定する前記ステップは、
前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間を決定するステップと、
前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、脇見運転であるか否かおよび/または脇見運転のレベルを含む前記運転者注意力の監視結果を決定するステップと、を含むことを特徴とする項目1または2に記載の方法。
(項目4)
前記時間閾値は、各種の前記定義注視領域にそれぞれ対応する複数の時間閾値を含み、ここで、前記複数種別の定義注視領域における少なくとも2つの異なる種別の定義注視領域に対応する時間閾値は異なり、
前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定する前記ステップは、前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と該当する種別の定義注視領域の時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定するステップを含むことを特徴とする項目3に記載の方法。
(項目5)
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して視線および/または頭部姿勢の検出を行うステップと、
各フレームの顔画像の視線および/または頭部姿勢の検出結果に基づいて、各フレームの顔画像における前記運転者の注視領域の種別を決定するステップと、を含むことを特徴とする項目1から4のいずれか一項に記載の方法。
(項目6)
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、
複数フレームの前記顔画像をニューラルネットワークにそれぞれ入力し、前記ニューラルネットワークを介して、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ出力するステップを含み、ここで、前記ニューラルネットワークは予め注視領域種別のラベリング情報が含まれる顔画像集合を用いて事前にトレーニングして得られるか、または、予め注視領域種別のラベリング情報が含まれる顔画像集合、および前記顔画像集合における各顔画像に基づいて切り出した眼部画像を用いて事前にトレーニングして得られ、前記注視領域種別のラベリング情報は前記複数種別の定義注視領域の1つを含むことを特徴とする項目1から4のいずれか一項に記載の方法。
(項目7)
前記ニューラルネットワークのトレーニングは、
前記顔画像集合における、注視領域種別のラベリング情報が含まれる顔画像を取得するステップと、
前記顔画像における、左眼および/または右眼を含む少なくとも片眼の眼部画像を切り出すステップと、
前記顔画像の第1の特徴および少なくとも片眼の眼部画像の第2の特徴をそれぞれ抽出するステップと、
前記第1の特徴と前記第2の特徴を融合し、第3の特徴を得るステップと、
前記第3の特徴に基づいて前記顔画像の注視領域種別の検出結果を決定するステップと、
前記注視領域種別の検出結果と前記注視領域種別のラベリング情報との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含むことを特徴とする項目6に記載の方法。
(項目8)
前記方法は、
前記運転者注意力の監視結果が脇見運転である場合、前記運転者に対して、文字による注意喚起、音声による注意喚起、香りによる注意喚起、低電流刺激による注意喚起のうちの少なくとも1つを含む脇見運転の注意喚起を促すステップ、または
前記運転者注意力の監視結果が脇見運転である場合、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係、および前記運転者注意力の監視結果に基づいて、前記運転者の脇見運転のレベルを決定し、予め設定された脇見運転のレベルと脇見運転の注意喚起とのマッピング関係、および前記運転者の脇見運転のレベルに基づいて、前記脇見運転の注意喚起から1つ決定して前記運転者に対して脇見運転の注意喚起を促すステップ、をさらに含むことを特徴とする項目1から7のいずれか一項に記載の方法。
(項目9)
前記予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係は、複数の連続したスライディング時間窓の監視結果がいずれも脇見運転であった場合、前記脇見運転のレベルがスライディング時間窓の数と正に相関しているという関係を含むことを特徴とする項目1から8のいずれか一項に記載の方法。
(項目10)
前記車両に設けられるカメラによって前記車両の運転領域のビデオを収集する前記ステップは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するステップを含み、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するステップは、画質評価指標に基づいて、収集された複数のビデオの各々に含まれる、前記運転領域に位置する運転者の複数フレームの顔画像における各フレームの顔画像の画質スコアをそれぞれ決定するステップと、前記複数のビデオにおける時刻が揃っている各フレームの顔画像のうち、画質スコアが最も高い顔画像をそれぞれ決定するステップと、画質スコアが最も高い各顔画像における前記運転者の注視領域の種別をそれぞれ決定するステップと、を含む、ことを特徴とする項目1から9のいずれか一項に記載の方法。
(項目11)
前記画質評価指標は、画像に眼部画像が含まれるか否か、画像における眼部領域の精細度、画像における眼部領域の遮蔽状況、画像における眼部領域の眼開閉状態のうちの少なくとも1つを含むことを特徴とする項目10に記載の方法。
(項目12)
前記車両に設けられるカメラによって前記車両の運転領域のビデオを収集する前記ステップは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するステップを含み、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、収集された複数のビデオの各々に含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して、時刻が揃っている各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ検出するステップと、得られた各注視領域種別に多数を占める結果を当該時刻の顔画像の注視領域種別として決定することとを含む、ことを特徴とする項目1から9のいずれか一項に記載の方法。
(項目13)
前記方法は、
前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信するステップ、および/または
前記運転者注意力の監視結果について統計分析を行うステップ、をさらに含むことを特徴とする項目1から12のいずれか一項に記載の方法。
(項目14)
前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信した後、さらに
前記サーバまたは前記端末から送信される制御コマンドを受信した場合、前記制御コマンドに従って前記車両を制御するステップを含むことを特徴とする項目13に記載の方法。
(項目15)
車両に設けられるカメラによって前記車両の運転領域のビデオを収集するための第1の制御ユニットと、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するための第1の決定ユニットであって、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の1つに属する、第1の決定ユニットと、
前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定するための第2の決定ユニットと、を含むことを特徴とする運転者注意力の監視装置。
(項目16)
前記事前に前記車両の空間領域の分割を行って得られた前記複数種別の定義注視領域は、左フロントウインドウシールド領域、右フロントウインドウシールド領域、インストルメントパネル領域、車両インナーミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、助手席領域、および助手席前方のグローブボックス領域の2種以上を含むことを特徴とする項目15に記載の装置。
(項目17)
前記第2の決定ユニットは、
前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間を決定するための第1の決定サブユニットと、
前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、脇見運転であるか否かおよび/または脇見運転のレベルを含む前記運転者注意力の監視結果を決定するための第2の決定サブユニットと、を含むことを特徴とする項目15または16に記載の装置。
(項目18)
前記時間閾値は、各種の前記定義注視領域にそれぞれ対応する複数の時間閾値を含み、ここで、前記複数種別の定義注視領域における少なくとも2つの異なる種類の定義注視領域に対応する時間閾値は異なり、
前記第2の決定サブユニットは、さらに前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と該当する種別の定義注視領域の時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定するために用いられることを特徴とする項目17に記載の装置。
(項目19)
前記第1の決定ユニットは、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して視線および/または頭部姿勢の検出を行うための第1の検出サブユニットと、
各フレームの顔画像の視線および/または頭部姿勢の検出結果に基づいて、各フレームの顔画像における前記運転者の注視領域の種別を決定するための第3の決定サブユニットと、を含むことを特徴とする項目15から18のいずれか一項に記載の装置。
(項目20)
前記第1の決定ユニットは、
複数フレームの前記顔画像をニューラルネットワークにそれぞれ入力し、前記ニューラルネットワークを介して、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ出力するための処理サブユニットをさらに含み、ここで、前記ニューラルネットワークは予め注視領域種別のラベリング情報が含まれる顔画像集合を用いて事前にトレーニングして得られるか、または、予め注視領域種別のラベリング情報が含まれる顔画像集合、および前記顔画像集合における各顔画像に基づいて切り出した眼部画像を用いて事前にトレーニングして得られ、前記注視領域種別のラベリング情報は前記複数種別の定義注視領域の1つを含むことを特徴とする項目15から18のいずれか一項に記載の装置。
(項目21)
前記装置は前記ニューラルネットワークのトレーニングユニットをさらに含み、前記トレーニングユニットは、
前記顔画像集合における、注視領域種別のラベリング情報が含まれる顔画像を取得するための取得サブユニットと、
前記顔画像における、左眼および/または右眼を含む少なくとも片眼の眼部画像を切り出すための画像切り出しサブユニットと、
前記顔画像の第1の特徴および少なくとも片眼の眼部画像の第2の特徴をそれぞれ抽出するための特徴抽出サブユニットと、
前記第1の特徴と前記第2の特徴を融合し、第3の特徴を得るための特徴融合サブユニットと、
前記第3の特徴に基づいて前記顔画像の注視領域種別の検出結果を決定するための第4の決定サブユニットと、
前記注視領域種別の検出結果と前記注視領域種別のラベリング情報との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整サブユニットと、を含むことを特徴とする項目20に記載の装置。
(項目22)
前記装置は、
前記運転者注意力の監視結果が脇見運転である場合、前記運転者に対して、文字による注意喚起、音声による注意喚起、香りによる注意喚起、低電流刺激による注意喚起のうちの少なくとも1つを含む脇見運転の注意喚起を促すための注意喚起ユニットと、
前記運転者注意力の監視結果が脇見運転である場合、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係、および前記運転者注意力の監視結果に基づいて、前記運転者の脇見運転のレベルを決定するための第3の決定ユニットと、
予め設定された脇見運転のレベルと脇見運転の注意喚起とのマッピング関係、および前記運転者の脇見運転のレベルに基づいて、前記脇見運転の注意喚起から1つ決定して前記運転者に対して脇見運転の注意喚起を促す第4の決定ユニットと、をさらに含むことを特徴とする項目15から21のいずれか一項に記載の装置。
(項目23)
前記予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係は、複数の連続したスライディング時間窓の監視結果がいずれも脇見運転であった場合、前記脇見運転のレベルがスライディング時間窓の数と正に相関しているという関係を含むことを特徴とする項目15から22のいずれか一項に記載の装置。
(項目24)
前記第1の制御ユニットは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するためにも用いられ、
前記第1の決定ユニットは、
画質評価指標に基づいて、収集された複数のビデオの各々に含まれる、前記運転領域に位置する運転者の複数フレームの顔画像における各フレームの顔画像の画質スコアをそれぞれ決定するための第5の決定ユニットと、
前記複数のビデオにおける時刻が揃っている各フレームの顔画像のうち、画質スコアが最も高い顔画像をそれぞれ決定するための第6の決定ユニットと、
画質スコアが最も高い各顔画像における前記運転者の注視領域の種別をそれぞれ決定するための第7の決定サブユニットと、をさらに含むことを特徴とする項目15から23のいずれか一項に記載の装置。
(項目25)
前記画質評価指標は、画像に眼部画像が含まれるか否か、画像における眼部領域の精細度、画像における眼部領域の遮蔽状況、画像における眼部領域の眼開閉状態のうちの少なくとも1つを含むことを特徴とする項目24に記載の装置。
(項目26)
前記第1の制御ユニットは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するためにも用いられ、
前記第1の決定ユニットは、
収集された複数のビデオの各々に含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して、時刻が揃っている各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ検出するための第2の検出サブユニットと、
得られた各注視領域種別に多数を占める結果を当該時刻の顔画像の注視領域種別として決定するための第8の決定サブユニットと、をさらに含むことを特徴とする項目15から23のいずれか一項に記載の装置。
(項目27)
前記装置は、
前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信するための送信ユニット、および/または
前記運転者注意力の監視結果について統計分析を行うための分析ユニット、をさらに含むことを特徴とする項目15から26のいずれか一項に記載の装置。
(項目28)
前記装置は、
前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信した後、且つ前記サーバまたは前記端末から送信される制御コマンドを受信した場合、前記制御コマンドに従って前記車両を制御するための第2の制御ユニットをさらに含むことを特徴とする項目27に記載の装置。
(項目29)
コンピュータ実行可能コマンドが記憶されているメモリと、前記メモリ上のコンピュータ実行可能コマンドを実行する時に項目1から14のいずれか一項に記載の方法を実現するプロセッサと、を含むことを特徴とする電子機器。
(項目30)
プロセッサによって実行される時に項目1から14のいずれか一項に記載の方法を実現するコンピュータプログラムが記憶されていることを特徴とするコンピュータ可読記憶媒体。
(項目31)
コンピュータ上で実行される時に項目1から14のいずれか一項に記載の方法を実現するコンピュータプログラムまたはコマンドを含むことを特徴とするコンピュータプログラム製品。

Claims (31)

  1. 車両に設けられるカメラによって前記車両の運転領域のビデオを収集するステップと、
    前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するステップであって、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の1つに属する、ステップと、
    前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定するステップと、を含むことを特徴とする運転者注意力の監視方法。
  2. 前記事前に前記車両の空間領域の分割を行って得られた前記複数種別の定義注視領域は、左フロントウインドウシールド領域、右フロントウインドウシールド領域、インストルメントパネル領域、車両インナーミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、助手席領域、および助手席前方のグローブボックス領域の2種以上を含むことを特徴とする請求項1に記載の方法。
  3. 前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定する前記ステップは、
    前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間を決定するステップと、
    前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、脇見運転であるか否かおよび/または脇見運転のレベルを含む前記運転者注意力の監視結果を決定するステップと、を含むことを特徴とする請求項1または2に記載の方法。
  4. 前記時間閾値は、各種の前記定義注視領域にそれぞれ対応する複数の時間閾値を含み、ここで、前記複数種別の定義注視領域における少なくとも2つの異なる種別の定義注視領域に対応する時間閾値は異なり、
    前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定する前記ステップは、前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と該当する種別の定義注視領域の時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定するステップを含むことを特徴とする請求項3に記載の方法。
  5. 前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、
    前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して視線および/または頭部姿勢の検出を行うステップと、
    各フレームの顔画像の視線および/または頭部姿勢の検出結果に基づいて、各フレームの顔画像における前記運転者の注視領域の種別を決定するステップと、を含むことを特徴とする請求項1から4のいずれか一項に記載の方法。
  6. 前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、
    複数フレームの前記顔画像をニューラルネットワークにそれぞれ入力し、前記ニューラルネットワークを介して、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ出力するステップを含み、ここで、前記ニューラルネットワークは予め注視領域種別のラベリング情報が含まれる顔画像集合を用いて事前にトレーニングして得られるか、または、予め注視領域種別のラベリング情報が含まれる顔画像集合、および前記顔画像集合における各顔画像に基づいて切り出した眼部画像を用いて事前にトレーニングして得られ、前記注視領域種別のラベリング情報は前記複数種別の定義注視領域の1つを含むことを特徴とする請求項1から4のいずれか一項に記載の方法。
  7. 前記ニューラルネットワークのトレーニングは、
    前記顔画像集合における、注視領域種別のラベリング情報が含まれる顔画像を取得するステップと、
    前記顔画像における、左眼および/または右眼を含む少なくとも片眼の眼部画像を切り出すステップと、
    前記顔画像の第1の特徴および少なくとも片眼の眼部画像の第2の特徴をそれぞれ抽出するステップと、
    前記第1の特徴と前記第2の特徴を融合し、第3の特徴を得るステップと、
    前記第3の特徴に基づいて前記顔画像の注視領域種別の検出結果を決定するステップと、
    前記注視領域種別の検出結果と前記注視領域種別のラベリング情報との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含むことを特徴とする請求項6に記載の方法。
  8. 前記方法は、
    前記運転者注意力の監視結果が脇見運転である場合、前記運転者に対して、文字による注意喚起、音声による注意喚起、香りによる注意喚起、低電流刺激による注意喚起のうちの少なくとも1つを含む脇見運転の注意喚起を促すステップ、または
    前記運転者注意力の監視結果が脇見運転である場合、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係、および前記運転者注意力の監視結果に基づいて、前記運転者の脇見運転のレベルを決定し、予め設定された脇見運転のレベルと脇見運転の注意喚起とのマッピング関係、および前記運転者の脇見運転のレベルに基づいて、前記脇見運転の注意喚起から1つ決定して前記運転者に対して脇見運転の注意喚起を促すステップ、をさらに含むことを特徴とする請求項1から7のいずれか一項に記載の方法。
  9. 前記予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係は、複数の連続したスライディング時間窓の監視結果がいずれも脇見運転であった場合、前記脇見運転のレベルがスライディング時間窓の数と正に相関しているという関係を含むことを特徴とする請求項1から8のいずれか一項に記載の方法。
  10. 前記車両に設けられるカメラによって前記車両の運転領域のビデオを収集する前記ステップは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するステップを含み、
    前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するステップは、画質評価指標に基づいて、収集された複数のビデオの各々に含まれる、前記運転領域に位置する運転者の複数フレームの顔画像における各フレームの顔画像の画質スコアをそれぞれ決定するステップと、前記複数のビデオにおける時刻が揃っている各フレームの顔画像のうち、画質スコアが最も高い顔画像をそれぞれ決定するステップと、画質スコアが最も高い各顔画像における前記運転者の注視領域の種別をそれぞれ決定するステップと、を含む、ことを特徴とする請求項1から9のいずれか一項に記載の方法。
  11. 前記画質評価指標は、画像に眼部画像が含まれるか否か、画像における眼部領域の精細度、画像における眼部領域の遮蔽状況、画像における眼部領域の眼開閉状態のうちの少なくとも1つを含むことを特徴とする請求項10に記載の方法。
  12. 前記車両に設けられるカメラによって前記車両の運転領域のビデオを収集する前記ステップは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するステップを含み、
    前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、収集された複数のビデオの各々に含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して、時刻が揃っている各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ検出するステップと、得られた各注視領域種別に多数を占める結果を当該時刻の顔画像の注視領域種別として決定することとを含む、ことを特徴とする請求項1から9のいずれか一項に記載の方法。
  13. 前記方法は、
    前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信するステップ、および/または
    前記運転者注意力の監視結果について統計分析を行うステップ、をさらに含むことを特徴とする請求項1から12のいずれか一項に記載の方法。
  14. 前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信した後、さらに
    前記サーバまたは前記端末から送信される制御コマンドを受信した場合、前記制御コマンドに従って前記車両を制御するステップを含むことを特徴とする請求項13に記載の方法。
  15. 車両に設けられるカメラによって前記車両の運転領域のビデオを収集するための第1の制御ユニットと、
    前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するための第1の決定ユニットであって、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の1つに属する、第1の決定ユニットと、
    前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定するための第2の決定ユニットと、を含むことを特徴とする運転者注意力の監視装置。
  16. 前記事前に前記車両の空間領域の分割を行って得られた前記複数種別の定義注視領域は、左フロントウインドウシールド領域、右フロントウインドウシールド領域、インストルメントパネル領域、車両インナーミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、助手席領域、および助手席前方のグローブボックス領域の2種以上を含むことを特徴とする請求項15に記載の装置。
  17. 前記第2の決定ユニットは、
    前記ビデオ内の少なくとも1つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間を決定するための第1の決定サブユニットと、
    前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、脇見運転であるか否かおよび/または脇見運転のレベルを含む前記運転者注意力の監視結果を決定するための第2の決定サブユニットと、を含むことを特徴とする請求項15または16に記載の装置。
  18. 前記時間閾値は、各種の前記定義注視領域にそれぞれ対応する複数の時間閾値を含み、ここで、前記複数種別の定義注視領域における少なくとも2つの異なる種類の定義注視領域に対応する時間閾値は異なり、
    前記第2の決定サブユニットは、さらに前記少なくとも1つのスライディング時間窓内の各種の前記注視領域の注視累計時間と該当する種別の定義注視領域の時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定するために用いられることを特徴とする請求項17に記載の装置。
  19. 前記第1の決定ユニットは、
    前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して視線および/または頭部姿勢の検出を行うための第1の検出サブユニットと、
    各フレームの顔画像の視線および/または頭部姿勢の検出結果に基づいて、各フレームの顔画像における前記運転者の注視領域の種別を決定するための第3の決定サブユニットと、を含むことを特徴とする請求項15から18のいずれか一項に記載の装置。
  20. 前記第1の決定ユニットは、
    複数フレームの前記顔画像をニューラルネットワークにそれぞれ入力し、前記ニューラルネットワークを介して、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ出力するための処理サブユニットをさらに含み、ここで、前記ニューラルネットワークは予め注視領域種別のラベリング情報が含まれる顔画像集合を用いて事前にトレーニングして得られるか、または、予め注視領域種別のラベリング情報が含まれる顔画像集合、および前記顔画像集合における各顔画像に基づいて切り出した眼部画像を用いて事前にトレーニングして得られ、前記注視領域種別のラベリング情報は前記複数種別の定義注視領域の1つを含むことを特徴とする請求項15から18のいずれか一項に記載の装置。
  21. 前記装置は前記ニューラルネットワークのトレーニングユニットをさらに含み、前記トレーニングユニットは、
    前記顔画像集合における、注視領域種別のラベリング情報が含まれる顔画像を取得するための取得サブユニットと、
    前記顔画像における、左眼および/または右眼を含む少なくとも片眼の眼部画像を切り出すための画像切り出しサブユニットと、
    前記顔画像の第1の特徴および少なくとも片眼の眼部画像の第2の特徴をそれぞれ抽出するための特徴抽出サブユニットと、
    前記第1の特徴と前記第2の特徴を融合し、第3の特徴を得るための特徴融合サブユニットと、
    前記第3の特徴に基づいて前記顔画像の注視領域種別の検出結果を決定するための第4の決定サブユニットと、
    前記注視領域種別の検出結果と前記注視領域種別のラベリング情報との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整サブユニットと、を含むことを特徴とする請求項20に記載の装置。
  22. 前記装置は、
    前記運転者注意力の監視結果が脇見運転である場合、前記運転者に対して、文字による注意喚起、音声による注意喚起、香りによる注意喚起、低電流刺激による注意喚起のうちの少なくとも1つを含む脇見運転の注意喚起を促すための注意喚起ユニットと、
    前記運転者注意力の監視結果が脇見運転である場合、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係、および前記運転者注意力の監視結果に基づいて、前記運転者の脇見運転のレベルを決定するための第3の決定ユニットと、
    予め設定された脇見運転のレベルと脇見運転の注意喚起とのマッピング関係、および前記運転者の脇見運転のレベルに基づいて、前記脇見運転の注意喚起から1つ決定して前記運転者に対して脇見運転の注意喚起を促す第4の決定ユニットと、をさらに含むことを特徴とする請求項15から21のいずれか一項に記載の装置。
  23. 前記予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係は、複数の連続したスライディング時間窓の監視結果がいずれも脇見運転であった場合、前記脇見運転のレベルがスライディング時間窓の数と正に相関しているという関係を含むことを特徴とする請求項15から22のいずれか一項に記載の装置。
  24. 前記第1の制御ユニットは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するためにも用いられ、
    前記第1の決定ユニットは、
    画質評価指標に基づいて、収集された複数のビデオの各々に含まれる、前記運転領域に位置する運転者の複数フレームの顔画像における各フレームの顔画像の画質スコアをそれぞれ決定するための第5の決定ユニットと、
    前記複数のビデオにおける時刻が揃っている各フレームの顔画像のうち、画質スコアが最も高い顔画像をそれぞれ決定するための第6の決定ユニットと、
    画質スコアが最も高い各顔画像における前記運転者の注視領域の種別をそれぞれ決定するための第7の決定サブユニットと、をさらに含むことを特徴とする請求項15から23のいずれか一項に記載の装置。
  25. 前記画質評価指標は、画像に眼部画像が含まれるか否か、画像における眼部領域の精細度、画像における眼部領域の遮蔽状況、画像における眼部領域の眼開閉状態のうちの少なくとも1つを含むことを特徴とする請求項24に記載の装置。
  26. 前記第1の制御ユニットは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するためにも用いられ、
    前記第1の決定ユニットは、
    収集された複数のビデオの各々に含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して、時刻が揃っている各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ検出するための第2の検出サブユニットと、
    得られた各注視領域種別に多数を占める結果を当該時刻の顔画像の注視領域種別として決定するための第8の決定サブユニットと、をさらに含むことを特徴とする請求項15から23のいずれか一項に記載の装置。
  27. 前記装置は、
    前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信するための送信ユニット、および/または
    前記運転者注意力の監視結果について統計分析を行うための分析ユニット、をさらに含むことを特徴とする請求項15から26のいずれか一項に記載の装置。
  28. 前記装置は、
    前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信した後、且つ前記サーバまたは前記端末から送信される制御コマンドを受信した場合、前記制御コマンドに従って前記車両を制御するための第2の制御ユニットをさらに含むことを特徴とする請求項27に記載の装置。
  29. コンピュータ実行可能コマンドが記憶されているメモリと、前記メモリ上のコンピュータ実行可能コマンドを実行する時に請求項1から14のいずれか一項に記載の方法を実現するプロセッサと、を含むことを特徴とする電子機器。
  30. プロセッサによって実行される時に請求項1から14のいずれか一項に記載の方法を実現するコンピュータプログラムが記憶されていることを特徴とするコンピュータ可読記憶媒体。
  31. コンピュータ上で実行される時に請求項1から14のいずれか一項に記載の方法を実現するコンピュータプログラムまたはコマンドを含むことを特徴とするコンピュータプログラム製品。
JP2020550127A 2019-03-18 2019-11-21 運転者注意力の監視方法および装置、ならびに電子機器 Active JP7105316B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910205328.XA CN111709264A (zh) 2019-03-18 2019-03-18 驾驶员注意力监测方法和装置及电子设备
CN201910205328.X 2019-03-18
PCT/CN2019/119936 WO2020186801A1 (zh) 2019-03-18 2019-11-21 驾驶员注意力监测方法和装置及电子设备

Publications (2)

Publication Number Publication Date
JP2021518010A true JP2021518010A (ja) 2021-07-29
JP7105316B2 JP7105316B2 (ja) 2022-07-22

Family

ID=72519412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020550127A Active JP7105316B2 (ja) 2019-03-18 2019-11-21 運転者注意力の監視方法および装置、ならびに電子機器

Country Status (7)

Country Link
US (1) US20210012128A1 (ja)
JP (1) JP7105316B2 (ja)
KR (1) KR20200123183A (ja)
CN (1) CN111709264A (ja)
SG (1) SG11202009677WA (ja)
TW (1) TWI741512B (ja)
WO (1) WO2020186801A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102023106367A1 (de) 2022-03-22 2023-09-28 Subaru Corporation Insassenzustands-überwachungsvorrichtung

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7057879B2 (en) * 2002-11-29 2006-06-06 Honda Motor Co., Ltd. Polarizable electrode for electric double-layer capacitor, process for producing the polarizable electrode and process for producing the electric double-layer capacitor
JP7297705B2 (ja) * 2020-03-18 2023-06-26 株式会社東芝 処理装置、処理方法、学習装置およびプログラム
CN112183386B (zh) * 2020-09-30 2024-03-01 中国汽车工程研究院股份有限公司 一种关于注视时间的智能座舱测试评价方法
CN112258026B (zh) * 2020-10-21 2023-12-15 国网江苏省电力有限公司信息通信分公司 基于视频身份识别的动态定位调度方法及系统
CN112289003B (zh) * 2020-10-23 2022-06-17 江铃汽车股份有限公司 疲劳驾驶不端驾驶行为监测方法及主动安全驾驶监控系统
CN112381025A (zh) * 2020-11-23 2021-02-19 恒大新能源汽车投资控股集团有限公司 一种驾驶员注意力检测方法、装置、电子设备及存储介质
TWI741892B (zh) * 2020-12-01 2021-10-01 咸瑞科技股份有限公司 車內駕駛監測系統
WO2022126419A1 (zh) * 2020-12-16 2022-06-23 华为技术有限公司 一种后视镜控制的方法以及相关设备
CN115179957A (zh) * 2021-04-01 2022-10-14 华为技术有限公司 一种驾驶提醒方法及装置
CN113129170A (zh) * 2021-04-15 2021-07-16 浙江绿农生态环境有限公司 一种工程渣土分类方法、系统、智能终端及存储介质
CN113111789B (zh) * 2021-04-15 2022-12-20 山东大学 一种基于视频流的面部表情识别方法及系统
CN113378771B (zh) * 2021-06-28 2022-07-26 济南大学 驾驶员状态确定方法、装置、驾驶员监控系统、车辆
CN113525402B (zh) * 2021-07-20 2023-06-02 张鹏 高级辅助驾驶及无人驾驶视场智能响应方法及系统
CN113386786B (zh) * 2021-07-29 2023-05-02 阿波罗智联(北京)科技有限公司 信息提示方法、装置、设备、介质、云控平台和车辆
CN113591812A (zh) * 2021-09-29 2021-11-02 武汉未来幻影科技有限公司 一种驾驶员查看动作的识别方法、装置以及处理设备
CN114332451A (zh) * 2021-12-07 2022-04-12 虹软科技股份有限公司 分心区域的自动标定方法及装置、道路车辆、电子设备
EP4239598A1 (en) * 2022-03-02 2023-09-06 Bayerische Motoren Werke Aktiengesellschaft Method for determining an attentiveness of a driver of an automated vehicle
CN114598797A (zh) * 2022-03-07 2022-06-07 合众新能源汽车有限公司 驾驶员监控系统与舱内监控系统共用补光灯的系统和方法
CN114677665A (zh) * 2022-03-08 2022-06-28 燕山大学 驾驶场景注意力量化方法、装置、电子设备及存储介质
DE102022106797B3 (de) 2022-03-23 2023-04-27 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Verfahren zur automatischen Einstellung zumindest eines Rückspiegels eines Kraftfahrzeugs
CN114399753A (zh) * 2022-03-25 2022-04-26 北京魔门塔科技有限公司 分心判断方法、装置、存储介质、电子设备及车辆
TWI801255B (zh) * 2022-06-01 2023-05-01 和碩聯合科技股份有限公司 車用隱私保護的方法及系統
CN115097933A (zh) * 2022-06-13 2022-09-23 华能核能技术研究院有限公司 专注度的确定方法、装置、计算机设备和存储介质
CN115100725B (zh) * 2022-08-23 2022-11-22 浙江大华技术股份有限公司 目标识别方法、目标识别装置以及计算机存储介质
TWI828457B (zh) * 2022-12-01 2024-01-01 鼎天國際股份有限公司 駕駛人行為偵測輔助系統
CN115909254B (zh) * 2022-12-27 2024-05-10 钧捷智能(深圳)有限公司 一种基于摄像头原始图像的dms系统及其图像处理方法
CN115984787A (zh) * 2023-03-20 2023-04-18 齐鲁云商数字科技股份有限公司 一种产业大脑公交智能车载实时告警方法
CN116052136B (zh) * 2023-03-27 2023-09-05 中国科学技术大学 分心检测方法、车载控制器和计算机存储介质
CN116112645B (zh) * 2023-04-11 2023-11-21 重庆华悦生态环境工程研究院有限公司深圳分公司 水库环境的多影像传输方法及装置
CN117197786B (zh) * 2023-11-02 2024-02-02 安徽蔚来智驾科技有限公司 驾驶行为检测方法、控制装置及存储介质
CN117382644B (zh) * 2023-12-11 2024-02-27 安徽蔚来智驾科技有限公司 分心驾驶检测方法、计算机设备、存储介质及智能设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001307298A (ja) * 2000-04-24 2001-11-02 Kenwood Corp 車載用ナビゲーション装置及び表示装置
JP2005199814A (ja) * 2004-01-14 2005-07-28 Omron Corp 車載アプリケーション選択システム及び車載アプリケーション選択装置
JP2006231962A (ja) * 2005-02-22 2006-09-07 Toyota Motor Corp 車両用運転支援装置
CN102510480A (zh) * 2011-11-04 2012-06-20 大连海事大学 驾驶员视线自动校准和跟踪系统
JP2014213636A (ja) * 2013-04-23 2014-11-17 アルパイン株式会社 車両用表示装置
CN106355838A (zh) * 2016-10-28 2017-01-25 深圳市美通视讯科技有限公司 一种疲劳驾驶检测方法和系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080074618A1 (en) * 2006-05-15 2008-03-27 Baohua Qi Fatigue detection device using encoded light signals
US8344894B2 (en) * 2009-04-02 2013-01-01 GM Global Technology Operations LLC Driver drowsy alert on full-windshield head-up display
US8660735B2 (en) * 2011-12-14 2014-02-25 General Motors Llc Method of providing information to a vehicle
TWI582707B (zh) * 2012-01-19 2017-05-11 Utechzone Co Ltd 車內眼控的方法
TW201330827A (zh) * 2012-01-19 2013-08-01 Utechzone Co Ltd 依據駕駛反射動作之注意力偵測裝置及其方法
US9881221B2 (en) * 2013-10-24 2018-01-30 Conduent Business Services, Llc Method and system for estimating gaze direction of vehicle drivers
CN106709420B (zh) * 2016-11-21 2020-07-10 厦门瑞为信息技术有限公司 一种监测营运车辆驾驶人员驾驶行为的方法
CN106585629B (zh) * 2016-12-06 2019-07-12 广东泓睿科技有限公司 一种车辆控制方法和装置
CN107832721B (zh) * 2017-11-16 2021-12-07 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001307298A (ja) * 2000-04-24 2001-11-02 Kenwood Corp 車載用ナビゲーション装置及び表示装置
JP2005199814A (ja) * 2004-01-14 2005-07-28 Omron Corp 車載アプリケーション選択システム及び車載アプリケーション選択装置
JP2006231962A (ja) * 2005-02-22 2006-09-07 Toyota Motor Corp 車両用運転支援装置
CN102510480A (zh) * 2011-11-04 2012-06-20 大连海事大学 驾驶员视线自动校准和跟踪系统
JP2014213636A (ja) * 2013-04-23 2014-11-17 アルパイン株式会社 車両用表示装置
CN106355838A (zh) * 2016-10-28 2017-01-25 深圳市美通视讯科技有限公司 一种疲劳驾驶检测方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102023106367A1 (de) 2022-03-22 2023-09-28 Subaru Corporation Insassenzustands-überwachungsvorrichtung

Also Published As

Publication number Publication date
CN111709264A (zh) 2020-09-25
KR20200123183A (ko) 2020-10-28
WO2020186801A1 (zh) 2020-09-24
US20210012128A1 (en) 2021-01-14
TW202036465A (zh) 2020-10-01
JP7105316B2 (ja) 2022-07-22
TWI741512B (zh) 2021-10-01
SG11202009677WA (en) 2020-10-29

Similar Documents

Publication Publication Date Title
JP7105316B2 (ja) 運転者注意力の監視方法および装置、ならびに電子機器
JP7146959B2 (ja) 運転状態検出方法及び装置、運転者監視システム並びに車両
CN111079476B (zh) 驾驶状态分析方法和装置、驾驶员监控系统、车辆
KR102391279B1 (ko) 운전 상태 모니터링 방법 및 장치, 운전자 모니터링 시스템 및 차량
US11726577B2 (en) Systems and methods for triggering actions based on touch-free gesture detection
WO2019232972A1 (zh) 驾驶管理方法和系统、车载智能系统、电子设备、介质
CN113056390A (zh) 情境驾驶员监控系统
US11783600B2 (en) Adaptive monitoring of a vehicle using a camera
JP2022547479A (ja) 車載デジタル人に基づくインタラクション
US20220203996A1 (en) Systems and methods to limit operating a mobile phone while driving
JP2020525884A (ja) 車両制御方法及びシステム、車載インテリジェントシステム、電子機器並びに媒体
JP2019528217A (ja) 資源配分管理を改善するために注意力バッファを使用するシステムおよび方法
KR20210102413A (ko) 주시 영역 검출 방법과 신경망 트레이닝 방법, 장치 및 디바이스
JP2017007652A (ja) 言語制御のための文脈を認識する方法、言語制御のための言語制御信号を決定する方法、および方法を実施するための装置
US20230347903A1 (en) Sensor-based in-vehicle dynamic driver gaze tracking
US20190149777A1 (en) System for recording a scene based on scene content
US20240051465A1 (en) Adaptive monitoring of a vehicle using a camera
WO2022224173A1 (en) Systems and methods for determining driver control over a vehicle
CN115891830A (zh) 一种内后视镜自适应调节方法及系统
CN116985819A (zh) 驾驶状态监测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200917

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220628

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220711

R150 Certificate of patent or registration of utility model

Ref document number: 7105316

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150