JP7295936B2 - 動作認識方法、電子機器及び記憶媒体 - Google Patents

動作認識方法、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP7295936B2
JP7295936B2 JP2021500697A JP2021500697A JP7295936B2 JP 7295936 B2 JP7295936 B2 JP 7295936B2 JP 2021500697 A JP2021500697 A JP 2021500697A JP 2021500697 A JP2021500697 A JP 2021500697A JP 7295936 B2 JP7295936 B2 JP 7295936B2
Authority
JP
Japan
Prior art keywords
image
face
target
driver
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021500697A
Other languages
English (en)
Other versions
JP2021530789A (ja
Inventor
彦傑 陳
飛 王
晨 銭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2021530789A publication Critical patent/JP2021530789A/ja
Application granted granted Critical
Publication of JP7295936B2 publication Critical patent/JP7295936B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/10Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to vehicle motion
    • B60W40/105Speed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Geometry (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Emergency Alarm Devices (AREA)
  • Traffic Control Systems (AREA)

Description

本開示は、画像処理技術に関し、特に、動作認識方法及び装置、運転者状態解析方法及び装置に関する。
動作認識は、セキュリティの分野で広く応用されている。動作認識の正確率と効率等の性能は、その応用分野において注目されているものである。
本開示は、動作認識の技術的手段を提供する。
本開示の一方面によれば、検出画像から顔の目標部位を検出することと、前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出すことと、前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識することと、を含む動作認識方法を提供する。
本開示の一方面によれば、運転者に対する検出画像を取得することと、上記動作認識方法を用いて、運転者が所定動作を実行しているか否かを認識することと、認識された動作に基づいて運転者の状態を決定することと、を含む運転者状態解析方法を提供する。
本開示の一方面によれば、検出画像から顔の目標部位を検出するための目標部位検出モジュールと、前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出すための目標画像切り出しモジュールと、前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識するための動作認識モジュールと、を含む動作認識装置を提供する。
本開示の一方面によれば、運転者に対する検出画像を取得するための運転者画像取得モジュールと、上記動作認識装置を用いて、運転者が所定動作を実行しているか否かを認識するための動作認識モジュールと、認識された動作に基づいて運転者の状態を決定するための状態認識モジュールと、を含む運転者状態解析装置を提供する。
本開示の一方面によれば、プロセッサと、プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含み、前記プロセッサは、上記動作認識方法及び/又は運転者状態解析方法を実行するように構成される電子機器を提供する。
本開示の一方面によれば、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能な記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行されると、上記動作認識方法及び/又は運転者状態解析方法を実現させるコンピュータ読取可能な記憶媒体を提供する。
本開示の一方面によれば、コンピュータ読取可能なコードを含むコンピュータプログラムであって、前記コンピュータ読取可能なコードは、電子機器で実行されると、前記電子機器のプロセッサに上記動作認識方法及び/又は運転者状態解析方法を実現するためのコマンドを実行させるコンピュータプログラムを提供する。
本開示の実施例では、検出画像から顔の目標部位を認識し、前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出し、前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識する。目標部位の検出結果に基づいて目標画像を切り出すことは、異なる検出画像における面積が異なる顔に適用可能であり、異なる顔型の顔にも適用可能である。本開示の実施例は適用範囲が広い。目標画像は、解析するための十分な情報を含み、また、切り出された目標画像の面積が大き過ぎ、無用情報が多過ぎることによるシステム処理効率の低下という問題を減少させることができる。
以下の図面を参照しながら例示的な実施例について詳細に説明することにより、本開示の他の特徴および方面は明確になる。
明細書に含まれ且つ明細書の一部を構成する図面は明細書と共に本開示の例示的な実施例、特徴及び方面を示し、更に本開示の原理を解釈するために用いられる。
本開示の実施例に係る動作認識方法のフローチャートである。 本開示の実施例に係る動作認識方法のフローチャートである。 本開示の実施例に係る動作認識方法のフローチャートである。 本開示の実施例に係る動作認識方法のフローチャートである。 本開示の実施例に係る動作認識方法のフローチャートである。 本開示の実施例に係る運転者状態解析方法のフローチャートである。 本開示の実施例に係る動作認識方法における検出画像である。 本開示の実施例に係る動作認識方法における顔検出結果の模式図である。 本開示の実施例に係る動作認識方法において目標画像を決定する模式図である。 本開示の実施例に係る動作認識方法において目標画像に基づいて動作認識を行う模式図である。 本開示の実施例に係る動作認識方法においてノイズ画像でニューラルネットワークをトレーニングする模式図である。 本開示の実施例に係る動作認識装置のブロック図である。 本開示の実施例に係る運転者状態解析装置のブロック図である。 例示的実施例に係る動作認識装置のブロック図である。 例示的実施例に係る動作認識装置のブロック図である。
以下に図面を参照しながら本開示の様々な例示的実施例、特徴および方面を詳細に説明する。図面において、同じ符号が同じまたは類似する機能の要素を表す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を作る必要がない。
ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例も他の実施例より好ましい又は優れるものであると理解すべきではない。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくても、本開示が実施できるということを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するように、当業者に既知の方法、手段、要素および回路について詳細な説明を行わない。
図1は本開示の実施例に係る動作認識方法のフローチャートである。前記動作認識方法は、ユーザ側装置(User Equipment、UE)、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、手持ちの機器、計算装置、車載装置、ウエアラブル装置等の端末装置又はサーバ等の電子機器により実行されてもよい。いくつかの可能な実施形態では、前記動作認識方法はプロセッサによりメモリに記憶されているコンピュータ読取可能なコマンドを呼び出すことで実現されてもよい。
図1に示すように、前記動作認識方法は、以下のステップを含む。
ステップS10、検出画像から顔の目標部位を検出する。
可能な実施形態では、前記検出画像は、単枚の画像を含んでもよいし、ビデオストリーム中のフレーム画像を含んでもよい。前記検出画像は、撮影装置により直接撮影した画像を含んでもよいし、撮影装置により撮影した画像に対してノイズ除去等の前処理を行った後の画像を含んでもよい。検出画像は、可視光画像、赤外線画像、近赤外線画像等の様々な画像を含んでもよく、本開示はこれを限定しない。
可能な実施形態では、可視光カメラ、赤外線カメラ、近赤外線カメラの少なくとも1つを含むカメラにより前記検出画像を取得することができる。ここで、可視光カメラは、可視光画像を取得するために用いられ、赤外線カメラは、赤外線画像を取得するために用いられ、近赤外線カメラは、近赤外線画像を取得するために用いられる。
可能な実施形態では、通常に、顔部に基づく動作が顔の五官に関する。例えば、喫煙又は飲食の動作は口部に関し、電話通話の動作は耳部に関する。顔の目標部位は、口部、耳部、鼻部、眼部、眉部のいずれか1つまたはそれらの組合を含んでもよい。必要に応じて顔の目標部位を決定することができる。目標部位は1つの部位を含んでもよいし、複数の部位を含んでも良い。顔検出技術を用いて顔の目標部位を検出することができる。
ステップS20、前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出す。
可能な実施形態では、顔部に基づく動作は、目標部位を中心としてもよい。検出画像において顔以外の領域に動作に関する物体を含んでもよい。例えば、喫煙の動作は口部を中心とし、タバコが検出画像において顔以外の領域に出現可能である。
可能な実施形態では、検出画像に占める顔の面積が異なり、顔の位置が異なり、また、顔の長さと太さも異なっている。所定サイズの切り出し枠により切り出される目標画像の面積が小さすぎると、目標画像に十分な解析情報が含まれないため動作検出結果が不正確となる恐れがある。切り出される目標画像の面積が大きすぎると、目標画像に多過ぎる無用情報が含まれるため解析効率が低下する恐れがある。
例えば、検出画像において、人物Aの顔の占める面積が小さく、人物Bの顔の占める面積が大きい。所定面積の枠を用いて検出画像から目標画像を切り出す場合、面積が十分な人物Aの口部の目標画像を切り出すことが可能であるが、面積が十分な人物Bの口部の目標画像を切り出すことができなく、人物Bの口部の目標画像に基づいて精確な動作検出結果を取得することができない。又は、面積が十分なBの口部の目標画像を切り出すことが可能であるが、切り出されるAの口部の目標画像の面積が大きいため、Aの口部の目標画像に多過ぎる無用情報が含まれて、システムの処理効率を低減してしまう。
可能な実施形態では、目標部位の検出結果に基づいて目標部位の顔における位置を決定することができ、目標部位の顔における位置に基づいて目標画像の切り出しサイズ及び/又は切り出し位置を決定することができる。本開示の実施例は、切り出された目標画像が前記対象顔の自身特徴に更に合致するように設定された条件により検出画像から目標部位に対応する目標画像を切り出すことができる。例えば、目標部位と顔における所定位置との距離に基づいて、切り出される目標画像の大きさを決定することができる。例えば、人物Aの口部とAの顔中心点との距離に基づいて人物Aの口部の目標画像の大きさを決定する。同様に、人物Bの口部とBの顔中心点との距離に基づいて人物Bの口部の目標画像の大きさを決定する。口部と顔中心との距離は顔の自身特徴に関するので、切り出された目標画像が顔の自身特徴に更に合致させる。顔における目標部位の位置に基づいて切り出された目標画像は、顔の自身特徴に更に合致すると共に、動作にかかる物体がより完全な画像領域も含む。
ステップS30、前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識する。
可能な実施形態では、目標画像の特徴を抽出し、抽出された特徴に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを決定することができる。
可能な実施形態では、前記所定動作は、喫煙、飲食、マスク着用、水/飲料飲み、電話通話、化粧のいずれか1つ又はそれらの組合せを含んでもよい。顔の所属する対象者が所定動作を実行している時に、運転、歩行、オートバイや自転車などに乗る等の動作を同時に実行することがある。この場合、上記所定動作により、顔の所属する対象者の気が散って、安全上の懸念が生じてしまう。所定動作の認識結果に基づいて顔の所属する対象者に対して安全解析等の応用を行うことができる。例えば、検出画像が路面における監視カメラにより撮影した画像である場合に、検出画像における顔が車両を運転している運転者の顔である。検出画像における顔の所属する対象者が喫煙動作をしている場合、口部の目標画像の特徴を抽出し、その特徴に基づいて目標画像にタバコの特徴があるか否かを判断することにより、顔の所属する対象者が喫煙しているか否かを決定することができる。運転者が喫煙動作をしていれば、安全上の懸念が存在すると考えられる。
本実施例では、検出画像から顔の目標部位を認識し、前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出し、前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識する。目標部位の検出結果に基づいて目標画像を切り出すことは、異なる検出画像における面積が異なる顔に適用可能であり、異なる顔型の顔にも適用可能である。本開示の実施例は適用範囲が広い。目標画像は、解析するための十分な情報を含み、また、切り出された目標画像の面積が大き過ぎ、無用情報が多過ぎることによるシステム処理効率の低下という問題を減少させることができる。
図2は本開示の実施例に係る動作認識方法のフローチャートを示し、図2に示すように、前記動作認識方法におけるステップS10には、以下のステップを含む。
ステップS11、前記検出画像から顔を検出する。
可能な実施形態では、顔検出アルゴリズムを用いて検出画像から顔を検出することができる。顔検出アルゴリズムは、1、検出画像の特徴を抽出することと、2、抽出された特徴に基づいて検出画像から候補枠を決定することと、3、各候補枠の分類結果により、候補枠から顔枠を決定することと、4、座標フィッティングにより顔枠の検出画像における座標を取得して、顔検出結果を取得することと、を含んでもよい。顔検出結果は顔枠の4つの頂点の座標、顔枠の長さ及び幅を含んでもよい。
ステップS12、顔の検出結果に基づいて顔キーポイントの検出を行う。
可能な実施形態では、顔キーポイントは顔における所定位置の点を含んでもよい。顔における各部位の異なる位置の点を顔キーポイントとして決定することができる。例えば顔キーポイントは、眼部輪廓線における点(目尻、目頭等)、眉部輪廓線における点、鼻部輪廓線における点等を含んでもよい。必要に応じて顔キーポイントの位置と数量を決定することができる。検出画像における顔枠が位置する領域の特徴を抽出し、所定のマップ関数と抽出された特徴に基づいて、検出画像における顔の各キーポイントの2次元座標を取得することができる。
ステップS13、顔キーポイントの検出結果に基づいて前記検出画像における顔の目標部位を決定する。
可能な実施形態では、顔キーポイントにより顔の目標部位を精度よく決定することができる。例えば、眼部に関する顔キーポイントにより眼部を決定することができる。口部に関する顔キーポイントにより口部を決定することができる。
可能な実施形態では、前記目標部位は口部を含み、前記顔キーポイントは口部キーポイントを含む。前記ステップS13には、口部キーポイントの検出結果に基づいて前記検出画像における顔の口部を決定することを含む。
可能な実施形態では、顔キーポイントは、口部キーポイント、耳部キーポイント、鼻部キーポイント、眼部キーポイント、眉部キーポイント、顔部外輪廓キーポイント等を含んでもよい。口部キーポイントは、上唇輪廓線と下唇輪廓線における1つ又は複数のキーポイントを含んでもよい。口部キーポイントにより検出画像における顔の口部を決定することができる。
本実施例では、検出画像から顔を検出し、顔キーポイントを検出し、顔キーポイントにより目標部位を決定することができる。顔キーポイントにより決定された目標部位はより精確である。
図3は本開示の実施例に係る動作認識方法のフローチャートを示し、前記目標部位は口部を含み、前記顔キーポイントは口部キーポイントと眉部キーポイントを含む。図3に示すように、前記動作認識方法におけるステップS20には、以下のステップを含む。
ステップS21、前記口部キーポイントと前記眉部キーポイントの検出結果に基づいて前記検出画像における顔の口部から眉間までの距離を決定する。
ステップS22、前記口部キーポイントと前記距離に基づいて、前記検出画像から口部に対応する目標画像を切り出す。
可能な実施形態では、眉部キーポイントは左右眉の輪廓線における1つ又は複数のキーポイントを含んでもよい。眉部キーポイントにより顔の眉を決定し、且つ顔の眉間の位置を決定することができる。
可能な実施形態では、異なる検出画像における顔が占める面積が異なってもよく、異なる顔の顔型が異なってもよい。口部から眉間までの距離は、検出画像に占める顔の面積を直感的且つ全面的に体現することができ、異なる顔型を直感的且つ全面的に体現することもできる。口部から顔における眉間までの距離に基づいて、口部に対応する目標画像を切り出すことにより、目標画像に含まれる画像内容が顔の個別的特徴によって異なるようになる。口部動作に関する物体が目標画像に含まれるように口部下方の顔以外の領域をより多く含ませてもよい。目標画像の特徴に基づいて、例えば、喫煙、電話通話等の口部又は口部近傍で発生する微細動作を容易に認識することができる。
例えば、顔が長い場合に、口部から眉間までの距離が大きく、口部キーポイント及び口部と眉間との距離に基づいて決定される目標画像の面積が大きくなり、顔の自身特徴に更に合致することができる。顔以外の領域において喫煙動作に関するタバコが目標画像に含まれるようにしてもよい。このように喫煙の動作認識結果がより精確になる。
可能な実施形態では、目標画像は任意の形状であってもよい。例えば、口部から前記顔における眉間までの距離をdとし、口部の中心点を中心とし、dより大きい所定長さを辺の長さとして、矩形の目標画像を切り出すようにしてもよい。切り出された目標画像には口部下方の顔以外の領域が含まれる。口部を目標部位とする動作を検出する場合に、口部下方の顔以外の領域でタバコ、食物等の物体が検出されることが可能であって、より精確な動作検出結果が取得される。
本実施例では、口部から前記顔における眉間までの距離に基づいて切り出された口部の目標画像は、顔の自身特徴に更に合致し、口部下方の顔以外の領域が含まれ、口部を目標部位とする動作検出の結果をより精確にすることができる。
図4は本開示の実施例に係る動作認識方法のフローチャートを示し、図4に示すように、前記動作認識方法におけるステップS30には、以下のステップを含む。
ステップS31、前記目標画像に対して畳み込み処理を行って、前記目標画像の畳み込み特徴を抽出する。
可能な実施形態では、画像を2次元の離散的な信号と見なしてもよく、画像に対して畳み込み処理を行うことは、畳み込みカーネルを画像上でスライディングさせ、画像点上の画素階調値と対応する畳み込みカーネル上の数値を乗算し、乗算した値を全て加算して畳み込みカーネル中間画素に対応する画像上の画素の階調値とすることを、画像の全ての画素に対する処理が完成するまでに繰り返すプロセスを含む。畳み込み演算は画像処理中に画像のフィルタリングに用いられることができる。所定の畳み込みカーネルにより目標画像に対して畳み込み演算処理を行い、目標画像の畳み込み特徴を抽出することができる。
ステップS32、前記畳み込み特徴に対して分類処理を行って、前記顔の所属する対象者が所定動作を実行しているか否かを決定する。
可能な実施形態では、分類処理は2クラス分類処理等の分類処理を含んでもよい。ここで、2クラス分類処理は、入力されるデータを処理して、予め設定された2つのクラスのどちらに属するかについての結果を出力することを含んでもよい。2つのクラスとして喫煙動作と非喫煙動作を予め設定してもよい。目標画像の畳み込み特徴に対して2クラス分類処理を行った後、目標画像における顔の所属する対象者が喫煙動作をしている確率と喫煙動作をしていない確率を取得することができる。
可能な実施形態では、分類処理は多クラス分類処理を更に含んでもよい。目標画像の畳み込み特徴に対してマルチタスクの分類処理を行った後、目標画像における顔の所属する対象者の各タスクに属する確率を取得することができる。本開示はこれを限定しない。
本実施例では、畳み込み処理と分類処理により目標画像における顔の所属する対象者が所定動作を実行しているか否かを決定することができる。畳み込み処理と分類処理により、動作検出の検出結果をより精確にし、検出プロセスの効率を高くすることができる。
可能な実施形態では、ステップS31には、ニューラルネットワークの畳み込み層により前記目標画像に対して畳み込み処理を行って、前記目標画像の畳み込み特徴を抽出することを含んでもよく、ステップS32には、前記ニューラルネットワークの分類層により前記畳み込み特徴に対して分類処理を行って、前記顔の所属する対象者が所定動作を実行しているか否かを決定することを含んでもよい。
可能な実施形態では、ニューラルネットワークは入力から出力へのマッピングを含んでもよい。入力と出力との間の精確な数学表現式が必要ではなく、大量の入力と出力とのマッピング関係を学習し、既知のモードを用いてトレーニングすることにより、入力から出力への出力マッピングを完成させることができる。検出動作を含むサンプル画像を用いてニューラルネットワークをトレーニングすることができる。
可能な実施形態では、ニューラルネットワークは畳み込み層と分類層を含んでもよい。ここで、畳み込み層は、入力された目標画像又は特徴に対して畳み込み処理を行うために用いられる。分類層は、特徴を分類処理するために用いられる。本開示は、畳み込み層と分類層の具体的な実施形態を限定するものではない。
本実施例では、目標画像をトレーニングされたニューラルネットワークに入力して、ニューラルネットワークの強い処理能力により精確な動作検出結果を取得する。
可能な実施形態では、前記ニューラルネットワークは、予めラベル付きサンプル画像セットにより教師ありトレーニングを行われたものであり、ここで、前記サンプル画像セットは、サンプル画像と、サンプル画像にノイズを加えたノイズ画像と、を含む。
可能な実施形態では、撮影装置による検出画像撮影中に様々な原因によって異なる検出画像の間に微小の差異が存在することがある。例えば、撮影装置によりビデオストリームを撮影する時に、撮影装置の微小な位置変化により、ビデオストリームにおいて異なるフレームの検出画像に差異が存在することがある。ニューラルネットワークは高次元空間での関数マップであると考えられ、高次元関数の場合、ある位置での導関数が大きい値となり得る。ある位置での導関数が大きい値となる場合、ニューラルネットワークに入力される画像中の画素レベルの微小差異であっても出力特徴の大きく変動してしまう。ニューラルネットワークの演算正確率を高めるために、トレーニング中にサンプル画像の変動(画素レベルの変動であっても)によるニューラルネットワークの出力の大きい誤差を解消することができる。
可能な実施形態では、前記動作認識方法は、前記サンプル画像に対して回転、平行移動、スケール変更、ノイズ付加のうちの少なくとも1つの処理を行って、ノイズ画像を取得することを更に含む。
可能な実施形態では、サンプル画像に対して極めて小さい角度の回転、極めて小さい距離の平行移動、スケール拡大、スケール縮小等の操作を行った後、サンプル画像にノイズを加えてノイズ画像を取得することができる。
可能な実施形態では、サンプル画像とノイズ画像を全てニューラルネットワークに入力し、サンプル画像により得られた出力結果、ノイズ画像により得られた出力結果及びサンプル画像のラベルを用いてニューラルネットワーク逆伝搬のための損失を取得し、更に、得られた損失を用いてニューラルネットワークをトレーニングすることができる。
本実施例では、サンプル画像によりノイズ画像を取得し、更にサンプル画像とノイズ画像によりニューラルネットワークをトレーニングすることにより、トレーニングされたニューラルネットワークにより抽出された特徴の安定性が強く、変動防止性能が高く、得られた動作認識結果もより精確になる。
可能な実施形態では、前記ニューラルネットワークのトレーニングプロセスには、ニューラルネットワークにより前記サンプル画像及び前記ノイズ画像のそれぞれの所定動作検出結果をそれぞれ取得することと、前記サンプル画像の所定動作検出結果とそのラベルの第1の損失、及び前記ノイズ画像の所定動作検出結果とそのラベルの第2の損失をそれぞれ決定することと、前記第1の損失と前記第2の損失に基づいてニューラルネットワークのネットワークパラメータを調整することと、を含む。
可能な実施形態では、第1の損失はsoftmax(ソフトマックス)損失を含んでもよい。softmax損失は多クラス分類プロセスに用いられて、複数の出力を(0、1)区間内にマッピングして分類結果を取得することができる。以下の式(1)により第1の損失Lsoftmaxを取得することができる。
Figure 0007295936000001
ただし、piはニューラルネットワークが出力するサンプル画像の実際正確類別の確率であり、Nはサンプル画像の合計サンプル数であり(ただし、Nが正整数)、iはサンプル番号である(ただし、iが正整数であり、且つi≦Nである)。
可能な実施形態では、前記サンプル画像をニューラルネットワークに入力し、前記サンプル画像の第1の特徴を抽出する。前記ノイズ画像をニューラルネットワークに入力し、前記ノイズ画像の第2の特徴を抽出する。前記第1の特徴と前記第2の特徴に基づいて、前記ニューラルネットワークの第2の損失を決定するようにしてもよい。第2の損失はユークリッド損失を含んでもよい。
例えば、サンプル画像はサイズがW×Hの画像Ioriであってもよく、それに対応するニューラルネットワークによる特徴ベクトルはForiである。Ioriに一定のノイズを加えてノイズ画像Inoiseを取得することができる。Inoiseも同時にニューラルネットワークに入力してフィードフォワードを行うことができる。ニューラルネットワークによる対応の特徴ベクトルはFnoiseである。ベクトルForiとベクトルFnoiseとの差をドリフト特徴△Fと表記し、以下の式(2)により第2の損失LEuclideanを取得することができる。
Figure 0007295936000002
可能な実施形態では、第1の損失と第2の損失に基づいてニューラルネットワーク逆伝搬の損失Lossを取得することができる。
以下の式(3)を用いてニューラルネットワーク逆伝搬の損失Lossを取得することができる。
Figure 0007295936000003
損失Lossに基づいて勾配逆伝搬アルゴリズムを用いてニューラルネットワークをトレーニングすることができる。
本実施例では、サンプル画像により第1の損失を取得し、サンプル画像とノイズ画像により第2の損失を取得し、更に第1の損失と第2の損失に基づいてニューラルネットワーク逆伝搬の損失を取得した後、ニューラルネットワークをトレーニングすることができる。トレーニングされたニューラルネットワークは変動防止性能に優れ、抽出する特徴の安定性が強く、動作検出結果が精確である。
図5は本開示の実施例に係る動作認識方法のフローチャートを示し、図5に示すように、前記動作認識方法は、以下のステップを更に含む。
ステップS40、前記顔の所属する対象者が所定動作を実行していると認識した場合に、警報情報を送信する。
可能な実施形態では、顔の所属する対象者が所定動作を実行していると検出した場合に、例えば、路面監視カメラにより撮影した車両運転者の画像から、運転者が喫煙、飲食、マスク着用、電話通話、化粧等の動作をしていると検出した場合に、運転者が注意力を集中していなく、安全上の懸念が生じることを示し、警報情報を送信して関係者に介入させるように通知することができる。
可能な実施形態では、警報情報は音声、文字、画像等の様々の表現形式の情報を含んでもよい。警報情報は検出された動作によって異なる警報レベルに分けてもよい。異なる警報レベルによって異なる警報情報を送信する。本開示はこれを限定しない。
本実施例では、顔の所属する対象者が所定動作を実行している場合に、警報情報を送信する。必要に応じて、本開示の実施例は異なる使用要求及び異なる使用環境に適用可能になるように動作検出の結果によって警報情報を送信することができる。
可能な実施形態では、ステップS40には、前記顔の所属する対象者が所定動作を実行していると認識され、且つ認識された動作が警報条件を満たす場合に、警報情報を送信することを含む。
可能な実施形態では、警報条件を予め設定して、動作が警報条件を満たしていないと認識した場合に、警報情報を送信する必要がなくてもよい。動作が所定動作であると認識した場合に、警報情報を送信する。認識された動作が所定動作ではない場合に、警報情報を送信しない。異なる警報条件は異なる警報情報類型又は内容に対応するように複数の警報条件を設定してもよい。必要に応じて警報条件を調整して、送信する警報情報の類型又は内容等を調整することができる。
本実施例では、前記顔の所属する対象者が所定動作を実行していると認識され、且つ認識された動作が警報条件を満たす場合に、警報情報を送信する。警報条件によって異なる警報情報を送信して、異なる使用要求に更に合致するようにしてもよい。
可能な実施形態では、前記動作は動作持続時間を含み、前記警報条件は認識された動作持続時間が時間閾値を超えることを含む。
可能な実施形態では、動作は動作持続時間を含んでもよい。動作持続時間が時間閾値を超えると、動作の実行により動作実行対象者の気が多く散ることになり、危険動作であると考えられ、警報情報を送信する必要がある。例えば、運転者の喫煙動作の時間が3秒を超えると、喫煙動作が危険動作であり、運転者の運転動作に影響を与えると考えられ、運転者に警報情報を送信する必要がある。
本実施例では、動作持続時間と時間閾値により警報情報の送信条件を調整することができ、そのように警報情報の送信の適合性がより高く、異なる使用要求に更に適応するようになる。
可能な実施形態では、前記動作は動作回数を含み、前記警報条件は認識された動作回数が回数閾値を超えることを含む。
可能な実施形態では、動作は動作回数を含んでもよい。動作回数が回数閾値を超えると、動作実行対象者の動作が頻繁で、気が多く散ることになり、危険動作であると考えられ、警報情報を送信する必要がある。例えば、運転者の喫煙動作の回数が5回を超えると、喫煙動作が危険動作であって、運転者の運転動作に影響を与えると考えられ、運転者に警報情報を送信する必要がある。
本実施例では、動作回数と回数閾値により警報情報の送信条件を調整することができ、そのように警報情報の送信の適合性がより高く、異なる使用要求に更に適応するようになる。
可能な実施形態では、前記動作は動作持続時間と動作回数を含み、前記警報条件は認識された動作持続時間が時間閾値を超え、且つ認識された動作回数が回数閾値を超えることを含む。
可能な実施形態では、動作の持続時間が時間閾値を超え且つ動作回数が回数閾値を超えると、動作実行対象者の動作が頻繁で且つ動作持続時間が長く、気が多く散ることになり、危険動作であると考えられ、警報情報を送信する必要がある。
本実施例では、動作回数と回数閾値、動作持続時間と時間閾値により警報情報の送信条件を調整することができ、そのように警報情報の送信の適合性がより高く、異なる使用要求に更に適応するようになる。
可能な実施形態では、前記顔の所属する対象者が所定動作を実行していると認識した場合に、警報情報を送信することは、動作の認識結果に基づいて動作レベルを決定することと、前記動作レベルに対応するレベル対応警報情報を送信することと、を含む。
可能な実施形態では、例えば、化粧動作の危険レベルが高く、喫煙、飲食、水/飲料飲み動作の危険レベルが一般であり、マスク着用動作と電話通話動作の危険レベルが低いように、異なる動作に対して動作レベルを設定してもよい。危険レベルが高い動作を高級警報情報に対応付け、危険レベルが一般である動作を中級警報情報に対応付け、危険レベルが低い動作を低級警報情報に対応付けるようにしてもよい。高級警報情報の危険レベルが中級警報レベルより高く、中級警報情報の危険レベルが低級警報レベルより高い。異なる警報目的が達成されるために、異なる動作に応じて異なるレベルの警報情報を送信することができる。
本実施例では、異なる動作レベルに応じて異なる警報情報を送信することで、警報情報の送信の適合性がより高く、異なる使用要求に更に適応することができる。
図6は本開示の実施例に係る運転者状態解析方法のフローチャートを示す。前記運転者状態解析方法は、ユーザ側装置(User Equipment、UE)、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、手持ちの機器、計算装置、車載装置、ウエアラブル装置等の端末装置又はサーバ等の電子機器により実行されてもよい。いくつかの可能な実施形態では、前記運転者状態解析方法はプロセッサによりメモリに記憶されているコンピュータ読取可能なコマンドを呼び出すことで実現されてもよい。
図6に示すように、前記運転者状態解析方法は、運転者に対する検出画像を取得するステップS100と、上記のいずれか一項に記載の動作認識方法を用いて、運転者が所定動作を実行しているか否かを認識するステップS200と、認識された動作に基づいて運転者の状態を決定するステップS300と、を含む。
可能な実施形態では、車両内に監視カメラを設置して、運転者に対する検出画像を撮影することができる。その監視カメラは可視光カメラ、赤外線カメラ又は近赤外線カメラ等の様々のカメラを含んでもよい。
可能な実施形態では、上記のいずれか1つの実施例に記載の動作認識方法を用いて、運転者が所定動作を実行しているか否かを認識するようにしてもよい。例えば、運転者が喫煙、飲食、マスク着用、水/飲料飲み、電話通話、化粧等の所定動作を実行しているか否かを認識することができる。
可能な実施形態では、運転者の状態は、安全状態と危険状態、又は正常状態と危険状態等を含んでもよい。運転者の動作認識結果に基づいて運転者の状態を決定することができる。例えば、喫煙、飲食、マスク着用、水/飲料飲み、電話通話、化粧等の所定動作であると認識した場合に、運転者の状態は危険状態又は異常状態となる。
可能な実施形態では、運転者の状態に応じて運転者又は車両管理センタに警報情報を送信して、車両が危険運転中である可能性があることを運転者又は管理者に通知することができる。
本実施例では、運転者に対する検出画像を取得し、本開示の実施例における動作認識方法を用いて運転者が所定動作を実行しているか否かを認識し、認識された動作に基づいて運転者の状態を決定するようにしてもよい。運転者の状態に応じて車両の運転安全性を高めることができる。
可能な実施形態では、前記運転者状態解析方法は、車両状態情報を取得することを更に含み、ステップS200には、車両状態情報が設定トリガ条件を満たすことに応じて、上記のいずれか一項に記載の動作認識方法を用いて、運転者が所定動作を実行しているか否かを認識することを含む。
可能な実施形態では、車両の状態情報を取得し、取得された車両の状態情報に基づいて設定トリガ条件を満たすか否かを判断することができる。車両の状態情報が設定トリガ条件を満たす場合に、本開示の実施例における動作認識方法を用いて、運転者が所定動作を実行しているか否かを認識することができる。設定トリガ条件を調整することにより、ユーザの要求に応じて運転の動作を認識することが可能になる。
本実施例では、車両状態情報を取得し、車両状態情報が設定トリガ条件を満たす場合に、運転者が所定動作を実行しているか否かを認識することができる。設定トリガ条件により、運転者の動作認識はユーザの異なる使用要求を満たし、本開示の実施例の適合性と適用範囲を高めることが可能になる。
可能な実施形態では、車両状態情報は車両点火状態を含み、所定トリガ条件は車両が点火されたことが検出されたことを含む。
可能な実施形態では、車両が点火して走行し始めた後、運転者が喫煙、飲食、マスク着用、水/飲料飲み、電話通話、化粧等の所定動作を実行すれば、車両運転の安全性が影響される。所定トリガ条件は車両が点火されたと検出されたことを含んでもよい。車両内の監視カメラにより撮影した監視画像から、車両点火後に運転者の動作を認識して、車両の走行安全性を高めることができる。
本実施例では、車両が点火された後に運転者の動作を認識することで、車両走行中の安全性を高めることができる。
可能な実施形態では、車両状態情報は車両の車速を含み、所定トリガ条件は車両の車速が車速閾値を超えることが検出されたことを含む。
可能な実施形態では、車両の車速が車速閾値を超えると、運転者は注意力を高度に集中しなければならない。所定トリガ条件は車両車速が車速閾値を超えると検出したことを含んでもよい。車両内の監視カメラにより撮影した監視画像から、車両の車速が車速閾値を超える場合に運転者の動作を認識して、車両の走行安全性を高めることができる。
本実施例では、車両の車速が車速閾値を超える場合に運転者の動作を認識することで、車両高速走行中の安全性を高めることができる。
可能な実施形態では、前記運転者状態解析方法は、運転者の状態を設定された連絡先又は指定されたサーバプラットフォームに伝送することを更に含む。
可能な実施形態では、運転者の状態を例えば運転者の家族、管理者等の設定された連絡先に伝送してもよい。そのようにして、運転者の設定された連絡先が運転者の状態を取得して車両の運転状態を監視することが可能になる。また、運転者の状態を例えば車両の管理サーバプラットフォームのような指定サーバプラットフォームに伝送してもよい、そのようにして、車両の管理者が運転者の状態を取得して車両の運転状態を監視することが可能になる。
本実施例では、運転者の状態を設定された連絡先又は指定されたサーバプラットフォームに伝送することで、設定された連絡先又は指定されたサーバプラットフォームの管理者が車両の運転状態を監視することが可能になる。
可能な実施形態では、前記運転者状態解析方法は、前記運転者の動作認識結果を含む検出画像を記憶又は送信すること、又は前記運転者の動作認識結果を含む検出画像及びこの画像前後の所定数のフレームから構成されるビデオセグメントを記憶又は送信することを更に含む。
可能な実施形態では、運転者の動作認識結果を含む検出画像、又は運転者の動作認識結果を含む検出画像及びこの画像前後の所定数のフレームから構成されるビデオセグメントを記憶又は送信するようにしてもよい。記憶装置に記憶し、または設定されたメモリに送信して記憶することにより、検出画像又はビデオセグメントを長時間保存することができる。
本実施例では、運転者の動作認識結果を含む検出画像又はビデオセグメントを記憶又は送信することで、検出画像又はビデオセグメントを長時間保存することができる。
(応用例)
図7は本開示の実施例に係る動作認識方法における検出画像を示す。図7に示す検出画像は、路面監視カメラにより撮影した車両運転者の画像である。検出画像における運転者が喫煙している。
図8は本開示の実施例に係る動作認識方法における顔検出結果の模式図を示す。本開示の実施例における動作認識方法を用いて検出画像に対して顔検出を行って、検出画像から顔の位置を取得することができる。図8に示すように、図8における顔検出枠は、運転者の顔の位置する領域を決定している。
図9は本開示の実施例に係る動作認識方法において目標画像を決定する模式図を示す。顔キーポイントに対して更なる検出を行い、顔キーポイントにより顔における口部を決定することができる。口部を中心とし、口部から眉間までの距離の2倍とされる切り出し長さで、口部の目標画像を切り出すようにしてもよい。図9に示すように、切り出された口部の目標画像は口部下方の顔以外の部分領域を含む。また、口部下方の顔以外の部分領域には喫煙している手部とタバコが含まれる。
図10は本開示の実施例に係る動作認識方法において目標画像に基づいて動作認識を行う模式図を示す。図10に示すように、図9で切り出された目標画像をニューラルネットワークに入力して、運転者が喫煙しているか否かについての動作認識結果を取得することができる。
図11は本開示の実施例に係る動作認識方法においてノイズ画像でニューラルネットワークをトレーニングする模式図を示す。図7に示すように、上方左側の目標画像にノイズを加えて、上方右側のノイズ画像が取得される。目標画像とノイズ画像を全てニューラルネットワークに入力して特徴抽出を行って、目標画像特徴とノイズ画像特徴をそれぞれ取得するようにしてもよい。目標画像特徴とノイズ画像特徴により、損失を取得し、且つ損失に基づいてニューラルネットワークのパラメータを調整することができる。
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。
なお、本開示は、更に、動作認識装置、運転者状態解析装置、電子機器、コンピュータ読取可能な記憶媒体、プログラムを提供する。それらは全て本開示により提供された動作認識方法、運転者状態解析方法のいずれか1つを実現するために用いることができ、対応する技術的手段及び説明は方法について、対応的な記載を参照すればよく、重複説明は割愛する。
図12は本開示の実施例に係る動作認識装置のブロック図を示し、図12に示すように、前記動作認識装置は、検出画像から顔の目標部位を検出するための目標部位検出モジュール10と、前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出すための目標画像切り出しモジュール20と、前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識するための動作認識モジュール30と、を含む。
本実施例では、検出画像から顔の目標部位を認識し、前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出し、前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識する。目標部位の検出結果に基づいて目標画像を切り出すことは、異なる検出画像における面積が異なる顔に適用可能であり、異なる顔型の顔にも適用可能である。本開示の実施例は適用範囲が広い。目標画像は、解析するための十分な情報を含み、また切り出された目標画像の面積が大き過ぎ、無用情報が多過ぎることによるシステム処理効率の低下という問題を減少させることができる。
可能な実施形態では、前記目標部位検出モジュール10は、前記検出画像から顔を検出するための顔検出サブモジュールと、顔の検出結果に基づいて顔キーポイントの検出を行うためのキーポイント検出サブモジュールと、顔キーポイントの検出結果に基づいて前記検出画像における顔の目標部位を決定するための目標部位検出サブモジュールと、を含む。
本実施例では、検出画像から顔を検出し、顔キーポイントを検出し、顔キーポイントにより目標部位を決定することができる。顔キーポイントにより決定された目標部位はより精確である。
可能な実施形態では、前記目標部位は、口部、耳部、鼻部、眼部、眉部のいずれか1つ又はそれらの任意の組合を含む。必要に応じて顔の目標部位を決定することができる。目標部位は1つまたは複数の部位を含んでもよい。顔検出技術を用いて顔の目標部位を検出することができる。
可能な実施形態では、前記所定動作は、喫煙、飲食、マスク着用、水/飲料飲み、電話通話、化粧のいずれか1つ又はそれらの組合せを含んでもよい。顔の所属する対象者が所定動作を実行している時に、運転、歩行、オートバイや自転車などに乗る等の動作を同時に実行することがある。この場合、上記所定動作により、顔の所属する対象者の気が散って、安全上の懸念が生じてしまう。所定動作の認識結果に基づいて顔の所属する対象者に対して安全解析等の応用を行うことができる。
可能な実施形態では、前記装置は、可視光カメラ、赤外線カメラ、近赤外線カメラの少なくとも1つを含むカメラにより前記検出画像を取得するための検出画像取得モジュールを更に含む。ここで、可視光カメラは、可視光画像を取得するために用いられ、赤外線カメラは、赤外線画像を取得するために用いられ、近赤外線カメラは、近赤外線画像を取得するために用いられる。
可能な実施形態では、前記目標部位は口部を含み、前記顔キーポイントは口部キーポイントを含む。前記目標部位検出サブモジュールは、口部キーポイントの検出結果に基づいて前記検出画像における顔の口部を決定するために用いられる。
可能な実施形態では、顔キーポイントは、口部キーポイント、耳部キーポイント、鼻部キーポイント、眼部キーポイント、眉部キーポイント、顔部外輪廓キーポイント等を含んでもよい。口部キーポイントは、上唇輪廓線と下唇輪廓線における1つ又は複数のキーポイントを含んでもよい。口部キーポイントにより検出画像における顔の口部を決定することができる。
可能な実施形態では、前記目標部位は口部を含み、前記顔キーポイントは口部キーポイントと眉部キーポイントを含む。前記目標画像切り出しモジュール20は、前記口部キーポイントと前記眉部キーポイントの検出結果に基づいて前記検出画像における顔の口部から眉間までの距離を決定するための距離決定サブモジュールと、前記口部キーポイントと前記距離に基づいて、前記検出画像から口部に対応する目標画像を切り出すための口部画像切り出しサブモジュールと、を含む。
本実施例では、口部から前記顔における眉間までの距離に基づいて切り出された口部の目標画像は、顔の自身特徴に更に合致し、口部下方の顔以外の領域が含まれ、口部を目標部位とする動作検出の結果をより精確にすることができる。
可能な実施形態では、前記動作認識モジュール30は、前記目標画像に対して畳み込み処理を行って、前記目標画像の畳み込み特徴を抽出するための特徴抽出サブモジュールと、前記畳み込み特徴に対して分類処理を行って、前記顔の所属する対象者が所定動作を実行しているか否かを決定するための分類処理サブモジュールと、を含む。
本実施例では、畳み込み処理と分類処理により目標画像における顔の所属する対象者が所定動作を実行しているか否かを決定することができる。畳み込み処理と分類処理により、動作検出の検出結果をより精確にし、検出プロセスの効率を高くすることができる。
可能な実施形態では、前記特徴抽出サブモジュールは、ニューラルネットワークの畳み込み層により前記目標画像に対して畳み込み処理を行って、前記目標画像の畳み込み特徴を抽出するために用いられる。前記分類処理サブモジュールは、前記ニューラルネットワークの分類層により前記畳み込み特徴に対して分類処理を行って、前記顔の所属する対象者が所定動作を実行しているか否かを決定するために用いられる。
本実施例では、目標画像をトレーニングされたニューラルネットワークに入力して、ニューラルネットワークの強い処理能力により精確な動作検出結果を取得する。
可能な実施形態では、前記ニューラルネットワークは、予めラベル付きサンプル画像セットにより教師ありトレーニングを行われたものであり、ここで、前記サンプル画像セットは、サンプル画像と、サンプル画像にノイズを加えたノイズ画像と、を含む。
本実施例では、サンプル画像によりノイズ画像を取得し、更にサンプル画像とノイズ画像によりニューラルネットワークをトレーニングすることにより、トレーニングされたニューラルネットワークにより抽出された特徴の安定性が強く、変動防止性能が高く、得られた動作認識結果もより精確になることが可能である。
可能な実施形態では、前記ニューラルネットワークは、トレーニングモジュールを含み、前記トレーニングモジュールは、ニューラルネットワークにより前記サンプル画像及び前記ノイズ画像のそれぞれの所定動作検出結果をそれぞれ取得するための検出結果取得サブモジュールと、前記サンプル画像の所定動作検出結果とそのラベルの第1の損失、及び前記ノイズ画像の所定動作検出結果とそのラベルの第2の損失をそれぞれ決定するための損失決定サブモジュールと、前記第1の損失と前記第2の損失に基づいてニューラルネットワークのネットワークパラメータを調整するためのパラメータ調整サブモジュールとを備える。
本実施例では、サンプル画像により第1の損失を取得し、サンプル画像とノイズ画像により第2の損失を取得し、更に第1の損失と第2の損失に基づいてニューラルネットワーク逆伝搬の損失を取得した後、ニューラルネットワークをトレーニングすることができる。トレーニングされたニューラルネットワークは変動防止性能に優れ、抽出する特徴の安定性が強く、動作検出結果が精確である。
可能な実施形態では、前記装置は、前記サンプル画像に対して回転、平行移動、スケール変更、ノイズ付加のうちの少なくとも1つの処理を行って、ノイズ画像を取得するためのノイズ画像取得モジュールを更に含む。
可能な実施形態では、サンプル画像に対して極めて小さい角度の回転、極めて小さい距離の平行移動、スケール拡大、スケール縮小等の操作を行った後、サンプル画像にノイズを加えてノイズ画像を取得することができる。
可能な実施形態では、前記装置は、前記顔の所属する対象者が所定動作を実行していると認識した場合に、警報情報を送信するための警報情報送信モジュールを更に含む。
本実施例では、顔の所属する対象者が所定動作を実行している場合に、警報情報を送信する。必要に応じて、本開示の実施例は異なる使用要求及び異なる使用環境に適用可能になるように動作検出の結果によって警報情報を送信することができる。
可能な実施形態では、前記警報情報送信モジュールは、前記顔の所属する対象者が所定動作を実行していると認識され、且つ認識された動作が警報条件を満たす場合に、警報情報を送信するための第1の警報情報送信サブモジュールを含む。
本実施例では、前記顔の所属する対象者が所定動作を実行していると認識され、且つ認識された動作が警報条件を満たす場合に、警報情報を送信する。警報条件によって異なる警報情報を送信して、異なる使用要求に更に合致するようにしてもよい。
可能な実施形態では、前記動作は動作持続時間を含み、前記警報条件は認識された動作持続時間が時間閾値を超えることを含む。
本実施例では、動作持続時間と時間閾値により警報情報の送信条件を調整することができ、そのように警報情報の送信の適合性がより高く、異なる使用要求に更に適応するようになる。
可能な実施形態では、前記動作は動作回数を含み、前記警報条件は認識された動作回数が回数閾値を超えることを含む。
本実施例では、動作回数と回数閾値により警報情報の送信条件を調整することができ、そのように警報情報の送信の適合性がより高く、異なる使用要求に更に適応するようになる。
可能な実施形態では、前記動作は動作持続時間と動作回数を含み、前記警報条件は認識された動作持続時間が時間閾値を超え、且つ認識された動作回数が回数閾値を超えることを含む。
本実施例では、動作回数と回数閾値、動作持続時間と時間閾値により警報情報の送信条件を調整することができ、そのように警報情報の送信の適合性がより高く、異なる使用要求に更に適応するようになる。
可能な実施形態では、前記警報情報送信モジュールは、動作の認識結果に基づいて動作レベルを決定するための動作レベル決定サブモジュールと、前記動作レベルに対応するレベル対応警報情報を送信するためのレベル対応警報情報送信サブモジュールと、を含む。
本実施例では、異なる動作レベルに応じて異なる警報情報を送信することで、警報情報の送信の適合性がより高く、異なる使用要求に更に適応することができる。
図13は本開示の実施例に係る運転者状態解析装置のブロック図を示し、図13に示すように、前記装置は、運転者に対する検出画像を取得するための運転者画像取得モジュール100と、上記のいずれか一項に記載の動作認識装置を用いて、運転者が所定動作を実行しているか否かを認識するための動作認識モジュール200と、認識された動作に基づいて運転者の状態を決定するための状態認識モジュール300と、を含む。
本実施例では、運転者に対する検出画像を取得し、本開示の実施例における動作認識装置を用いて運転者が所定動作を実行しているか否かを認識し、認識された動作に基づいて運転者の状態を決定するようにしてもよい。運転者の状態に応じて車両の運転安全性を高めることができる。
可能な実施形態では、前記装置は、車両状態情報を取得するための車両状態取得モジュールを更に含み、前記動作認識モジュールは、車両状態情報が設定トリガ条件を満たすことに応じて、請求項25~42のいずれか一項に記載の動作認識装置を用いて、運転者が所定動作を実行しているか否かを認識するための条件応答サブモジュールを含む。
本実施例では、車両状態情報を取得し、車両状態情報が設定トリガ条件を満たす場合に、運転者が所定動作を実行しているか否かを認識することができる。設定トリガ条件により、運転者の動作認識はユーザの異なる使用要求を満たし、本開示の実施例の適合性と適用範囲を高めることが可能になる。
可能な実施形態では、車両状態情報は車両点火状態を含み、所定トリガ条件は車両が点火されたことが検出されたことを含む。
本実施例では、車両が点火された後に運転者の動作を認識することで、車両走行中の安全性を高めることができる。
可能な実施形態では、車両状態情報は車両の車速を含み、所定トリガ条件は車両の車速が車速閾値を超えることが検出されたことを含む。
本実施例では、車両の車速が車速閾値を超える場合に運転者の動作を認識することで、車両高速走行中の安全性を高めることができる。
可能な実施形態では、前記装置は、運転者の状態を設定された連絡先又は指定されたサーバプラットフォームに伝送するための状態伝送モジュールを更に含む。
本実施例では、運転者の状態を設定された連絡先又は指定されたサーバプラットフォームに伝送することで、設定された連絡先又は指定されたサーバプラットフォームの管理者が車両の運転状態を監視することが可能になる。
可能な実施形態では、前記装置は、前記運転者の動作認識結果を含む検出画像を記憶又は送信すること、又は前記運転者の動作認識結果を含む検出画像及びこの画像前後の所定数のフレームから構成されるビデオセグメントを記憶又は送信することに用いられる記憶送信モジュールを更に含む。
本実施例では、運転者の動作認識結果を含む検出画像又はビデオセグメントを記憶又は送信することで、検出画像又はビデオセグメントを長時間保存することができる。
いくつかの実施例では、本開示の実施例で提供された装置が備えた機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられることができる。具体的な実施形態については上記方法実施例の説明を参照すればよく、簡潔化するために、ここで重複説明は割愛する。
本開示の実施例は、プロセッサと、プロセッサにより実行可能なコマンドを記憶するためのメモリとを含む電子機器を更に提供し、ここで、前記プロセッサは前記実行可能なコマンドを直接的または間接的に呼び出すことにより上記動作認識方法及び/又は運転者状態解析方法を実行する。
本開示の実施例は、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能な記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行されると、上記動作認識方法及び/又は運転者状態解析方法を実現させるコンピュータ読取可能な記憶媒体を更に提供する。コンピュータ読取可能な記憶媒体は非揮発性コンピュータ読取可能な記憶媒体であってもよいし、揮発性コンピュータ読取可能な記憶媒体であってもよい。
本開示の実施例は、コンピュータ読取可能なコードを含むコンピュータプログラムであって、前記コンピュータ読取可能なコードが電子機器で実行されると、前記電子機器のプロセッサに上記動作認識方法及び/又は運転者状態解析方法を実行させるコンピュータプログラムを更に提供する。
図14は例示的実施例に係る動作認識装置800のブロック図である。例えば、装置800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末であってもよい。
図14を参照すると、装置800は処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)のインタフェース812、センサコンポーネント814、および通信コンポーネント816の一つ以上を含むことができる。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または背面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
センサコンポーネント814は電子機器800の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
通信コンポーネント816は電子機器800と他の機器との有線または無線通信を実現するように構成される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標/BT)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタルシグナルプロセッサ(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されと、上記方法を実行させることができる。
図15は一例示的実施例により示された動作認識装置1900のブロック図である。例えば、装置1900はサーバとして提供できる。図15を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されているオペレーティングシステム、例えばWindows(登録商標) ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、不揮発性コンピュータ読取可能な記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されと、上記方法を実行させることができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ読取可能なプログラム命令が有しているコンピュータ読取可能な記憶媒体を含んでもよい。
コンピュータ読取可能な記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ読取可能な記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読取可能な記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読取可能な記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ読取可能なプログラム命令は、コンピュータ読取可能な記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ読取可能なプログラム命令を受信し、該コンピュータ読取可能なプログラム命令を転送し、各計算/処理機器内のコンピュータ読取可能な記憶媒体に記憶させる。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読取可能なプログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読取可能なプログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ読取可能なプログラム命令を実行することより、本開示の各方面を実現するようにしてもよい。
これらのコンピュータ読取可能なプログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現ように、装置を製造してもよい。これらのコンピュータ読取可能なプログラム命令は、コンピュータ読取可能な記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ読取可能な記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現する命令を有する製品を含む。
コンピュータ読取可能なプログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
論理に違反しない限り、本願のそれぞれの実施例は相互に組み合わせることができ、異なる実施例において重点として説明されるものが異なって、重点として説明されていない部分については他の実施例の記載を参照すればよい。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
本願は、2018年9月27日に中国特許局に提出された、出願番号201811132681.1、発明の名称「動作認識方法及び装置、運転者状態解析方法及び装置」の中国特許出願の優先権を主張し、その開示の全てが援用によって本願に組み込まれる。

Claims (14)

  1. 検出画像から顔の目標部位と顔キーポイントを検出することと、
    前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する、目標部位と顔以外の部分領域とを含む目標画像を切り出すことと、
    全体の検出画像に基づくことなく、前記検出画像から切り出された前記目標画像に基づいて前記顔の所属する対象者が前記目標部位以外の部位に関連する所定動作を実行しているか否かを認識することと、を含み、
    前記目標部位は口部を含み、前記顔キーポイントは口部キーポイントと眉部キーポイントを含み、
    前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出すことは、
    前記口部キーポイントと前記眉部キーポイントの検出結果に基づいて前記検出画像における顔の口部から眉間までの距離を決定することと、
    前記口部キーポイントと前記距離に基づいて、前記検出画像から口部に対応する目標画像を切り出すことと、を含む
    ことを特徴とする動作認識方法。
  2. 検出画像から顔の目標部位を検出することは、
    前記検出画像から顔を検出することと、
    顔の検出結果に基づいて顔キーポイントの検出を行うことと、
    顔キーポイントの検出結果に基づいて前記検出画像における顔の目標部位を決定することと、を含むことを特徴とする請求項1に記載の方法。
  3. 前記目標部位は、口部、耳部、鼻部、眼部、眉部のいずれか1つ又はそれらの任意の組合を含み、
    前記所定動作は、喫煙、飲食、マスク着用、水/飲料飲み、電話通話、化粧のいずれか1つ又はそれらの任意の組合を含み、
    前記方法は、検出画像から顔の目標部位を検出する前に、可視光カメラ、赤外線カメラ、近赤外線カメラの少なくとも1つを含むカメラにより前記検出画像を取得することを更に含むことを特徴とする請求項1又は2に記載の方法。
  4. 全体の検出画像に基づくことなく、前記検出画像から切り出された前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識することは、
    ニューラルネットワークの畳み込み層により前記目標画像に対して畳み込み処理を行って、前記目標画像の畳み込み特徴を抽出することと、
    前記ニューラルネットワークの分類層により前記畳み込み特徴に対して分類処理を行って、前記顔の所属する対象者が所定動作を実行しているか否かを決定することとを含むことを特徴とする請求項1~のいずれか一項に記載の方法。
  5. 前記ニューラルネットワークは、予めラベル付きサンプル画像セットにより教師ありトレーニングを行われたものであり、前記サンプル画像セットは、サンプル画像と、サンプル画像にノイズを加えたノイズ画像と、を含み、
    前記ニューラルネットワークのトレーニングプロセスには、
    ニューラルネットワークにより前記サンプル画像及び前記ノイズ画像のそれぞれの所定動作検出結果をそれぞれ取得することと、
    前記サンプル画像の所定動作検出結果とそのラベルの第1の損失、及び前記ノイズ画像の所定動作検出結果とそのラベルの第2の損失をそれぞれ決定することと、
    前記第1の損失と前記第2の損失に基づいてニューラルネットワークのネットワークパラメータを調整することと、を含むことを特徴とする請求項に記載の方法。
  6. 前記サンプル画像に対して回転、平行移動、スケール変更、ノイズ付加のうちの少なくとも1つの処理を行って、ノイズ画像を取得することを更に含むことを特徴とする請求項に記載の方法。
  7. 前記顔の所属する対象者が所定動作を実行していると認識され、且つ認識された動作が警報条件を満たす場合に、警報情報を送信し、
    前記動作は、動作持続時間または動作回数の少なくとも1つを含み、
    前記警報条件は、認識された動作持続時間が時間閾値を超えることと、認識された動作回数が回数閾値を超えることと、認識された動作持続時間が時間閾値を超え、且つ認識された動作回数が回数閾値を超えることとの少なくとも1つを含むことを特徴とする請求項1~のいずれか一項に記載の方法。
  8. 前記顔の所属する対象者が所定動作を実行していると認識した場合に、警報情報を送信することは、
    動作の認識結果に基づいて動作レベルを決定することと、
    前記動作レベルに対応するレベル対応警報情報を送信することと、を含むことを特徴とする請求項に記載の方法。
  9. 前記検出画像は、取得された運転者に対する検出画像であり、
    前記方法は、認識された動作に基づいて運転者の状態を決定することをさらに含むことを特徴とする請求項1~のいずれか一項に記載の方法。
  10. 車両状態情報を取得することと、
    車両状態情報が所定トリガ条件を満たすことに応じて、運転者が所定動作を実行しているか否かを認識することとをさらに含むことを特徴とする請求項に記載の方法。
  11. 車両状態情報は、車両点火状態又は車両の車速の少なくとも1つを含み、
    所定トリガ条件は、車両が点火されたことが検出されたことと、車両の車速が車速閾値を超えることが検出されたこととの少なくとも1つを含むことを特徴とする請求項1に記載の方法。
  12. 運転者の状態を設定された連絡先又は指定されたサーバプラットフォームに伝送することと、
    前記運転者の動作認識結果を含む検出画像を記憶又は送信することと、
    前記運転者の動作認識結果を含む検出画像及びこの画像前後の所定数のフレームから構成されるビデオセグメントを記憶又は送信することとの少なくとも1つを更に含むことを特徴とする請求項11のいずれか一項に記載の方法。
  13. プロセッサと、
    プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含み、
    前記プロセッサは、請求項1~1のいずれか一項に記載の方法を実行するように構成されることを特徴とする電子機器。
  14. コンピュータプログラムコマンドが記憶されているコンピュータ読取可能な記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行されると、請求項1~1のいずれか一項に記載の方法を実現させることを特徴とするコンピュータ読取可能な記憶媒体。
JP2021500697A 2018-09-27 2019-06-25 動作認識方法、電子機器及び記憶媒体 Active JP7295936B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811132681.1A CN110956061B (zh) 2018-09-27 2018-09-27 动作识别方法及装置、驾驶员状态分析方法及装置
CN201811132681.1 2018-09-27
PCT/CN2019/092715 WO2020062969A1 (zh) 2018-09-27 2019-06-25 动作识别方法及装置、驾驶员状态分析方法及装置

Publications (2)

Publication Number Publication Date
JP2021530789A JP2021530789A (ja) 2021-11-11
JP7295936B2 true JP7295936B2 (ja) 2023-06-21

Family

ID=69950204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021500697A Active JP7295936B2 (ja) 2018-09-27 2019-06-25 動作認識方法、電子機器及び記憶媒体

Country Status (6)

Country Link
US (1) US20210133468A1 (ja)
JP (1) JP7295936B2 (ja)
KR (1) KR20210036955A (ja)
CN (1) CN110956061B (ja)
SG (1) SG11202100356TA (ja)
WO (1) WO2020062969A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113039555B (zh) * 2018-11-20 2024-04-19 渊慧科技有限公司 在视频剪辑中进行动作分类的方法、系统及存储介质
CN111753602A (zh) * 2019-03-29 2020-10-09 北京市商汤科技开发有限公司 动作识别方法和装置、电子设备、存储介质
JP2022544635A (ja) * 2020-06-29 2022-10-20 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 危険運転行動認識方法、装置、電子機器および記憶媒体
CN111985307A (zh) * 2020-07-07 2020-11-24 深圳市自行科技有限公司 驾驶员特定动作检测方法、系统和装置
US12057989B1 (en) * 2020-07-14 2024-08-06 Hrl Laboratories, Llc Ultra-wide instantaneous bandwidth complex neuromorphic adaptive core processor
CN112990069B (zh) * 2021-03-31 2024-10-15 芯算一体(深圳)科技有限公司 异常驾驶行为检测方法、装置、终端及介质
CN113033529A (zh) * 2021-05-27 2021-06-25 北京德风新征程科技有限公司 基于图像识别的预警方法、装置、电子设备和介质
CN113673351A (zh) * 2021-07-21 2021-11-19 浙江大华技术股份有限公司 一种行为检测方法、设备以及存储介质
KR102634012B1 (ko) * 2021-10-12 2024-02-07 경북대학교 산학협력단 딥러닝 기반 객체 분류를 이용한 운전자 행동 검출 장치
CN114005178B (zh) * 2021-10-29 2023-09-01 北京百度网讯科技有限公司 人物交互检测方法、神经网络及其训练方法、设备和介质
CN114529989A (zh) * 2022-02-24 2022-05-24 盛景智能科技(嘉兴)有限公司 抽烟行为识别方法、装置、电子设备和存储介质
CN114255517B (zh) * 2022-03-02 2022-05-20 中运科技股份有限公司 一种基于人工智能分析的景区游客行为监测系统及方法
CN115188148A (zh) * 2022-07-11 2022-10-14 卡奥斯工业智能研究院(青岛)有限公司 基于5g的安防监控系统、方法、电子设备及存储介质
GB2625780A (en) 2022-12-23 2024-07-03 Mercedes Benz Group Ag In-vehicle beverage maker as well as a vehicle with the in-vehicle beverage maker and method for operating the in-vehicle beverage maker
CN116884034B (zh) * 2023-07-10 2024-07-26 中电金信软件有限公司 对象识别方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000198370A (ja) 1999-01-08 2000-07-18 Yazaki Corp 事故防止システム
JP2009116693A (ja) 2007-11-07 2009-05-28 Toyota Motor Corp 車線逸脱防止制御装置
JP2010271922A (ja) 2009-05-21 2010-12-02 Fujifilm Corp 話中人物検出方法、話中人物検出装置、および話中人物検出プログラム
JP2015133050A (ja) 2014-01-15 2015-07-23 みこらった株式会社 自動運転車
JP2016031747A (ja) 2014-07-30 2016-03-07 キヤノン株式会社 情報処理装置、情報処理方法
JP2017034567A (ja) 2015-08-05 2017-02-09 キヤノン株式会社 撮像装置
JP2017175220A (ja) 2016-03-18 2017-09-28 パナソニックIpマネジメント株式会社 記録装置および記録方法
JP2017217472A (ja) 2016-06-02 2017-12-14 オムロン株式会社 状態推定装置、状態推定方法、及び状態推定プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4898475B2 (ja) * 2007-02-05 2012-03-14 富士フイルム株式会社 撮影制御装置、撮影装置、及び撮影制御方法
CN102436715B (zh) * 2011-11-25 2013-12-11 大连海创高科信息技术有限公司 疲劳驾驶检测方法
CN102799868B (zh) * 2012-07-10 2014-09-10 吉林禹硕动漫游戏科技股份有限公司 人脸面部关键表情识别方法
CN104616437A (zh) * 2015-02-27 2015-05-13 浪潮集团有限公司 一种车载的疲劳识别系统和方法
CN105117681B (zh) * 2015-06-29 2018-06-08 电子科技大学 基于安卓的多特征疲劳实时检测方法
CN105769120B (zh) * 2016-01-27 2019-01-22 深圳地平线机器人科技有限公司 疲劳驾驶检测方法和装置
CN105975935B (zh) * 2016-05-04 2019-06-25 腾讯科技(深圳)有限公司 一种人脸图像处理方法和装置
CN106203293A (zh) * 2016-06-29 2016-12-07 广州鹰瞰信息科技有限公司 一种检测疲劳驾驶的方法和装置
CN107590482A (zh) * 2017-09-29 2018-01-16 百度在线网络技术(北京)有限公司 信息生成方法和装置
CN108446600A (zh) * 2018-02-27 2018-08-24 上海汽车集团股份有限公司 一种车辆驾驶员疲劳监测预警系统及方法
CN108549838B (zh) * 2018-03-13 2022-01-14 心科(上海)网络科技有限公司 一种基于视觉系统的辅助监督方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000198370A (ja) 1999-01-08 2000-07-18 Yazaki Corp 事故防止システム
JP2009116693A (ja) 2007-11-07 2009-05-28 Toyota Motor Corp 車線逸脱防止制御装置
JP2010271922A (ja) 2009-05-21 2010-12-02 Fujifilm Corp 話中人物検出方法、話中人物検出装置、および話中人物検出プログラム
JP2015133050A (ja) 2014-01-15 2015-07-23 みこらった株式会社 自動運転車
JP2016031747A (ja) 2014-07-30 2016-03-07 キヤノン株式会社 情報処理装置、情報処理方法
JP2017034567A (ja) 2015-08-05 2017-02-09 キヤノン株式会社 撮像装置
JP2017175220A (ja) 2016-03-18 2017-09-28 パナソニックIpマネジメント株式会社 記録装置および記録方法
JP2017217472A (ja) 2016-06-02 2017-12-14 オムロン株式会社 状態推定装置、状態推定方法、及び状態推定プログラム

Also Published As

Publication number Publication date
KR20210036955A (ko) 2021-04-05
US20210133468A1 (en) 2021-05-06
SG11202100356TA (en) 2021-02-25
JP2021530789A (ja) 2021-11-11
CN110956061B (zh) 2024-04-16
WO2020062969A1 (zh) 2020-04-02
CN110956061A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
JP7295936B2 (ja) 動作認識方法、電子機器及び記憶媒体
US10469830B2 (en) Unauthorized viewer detection system and method
US10956714B2 (en) Method and apparatus for detecting living body, electronic device, and storage medium
JP6852150B2 (ja) 生体検知方法および装置、システム、電子機器、記憶媒体
JP7262659B2 (ja) 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体
EP3163498B1 (en) Alarming method and device
CN108197586B (zh) 脸部识别方法和装置
US11321575B2 (en) Method, apparatus and system for liveness detection, electronic device, and storage medium
CN109784255B (zh) 神经网络训练方法及装置以及识别方法及装置
US10007841B2 (en) Human face recognition method, apparatus and terminal
US11288531B2 (en) Image processing method and apparatus, electronic device, and storage medium
US8600110B1 (en) Unauthorized viewer detection system and method
CN107692997B (zh) 心率检测方法及装置
KR20210047336A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
CN111553864B (zh) 图像修复方法及装置、电子设备和存储介质
KR20210065178A (ko) 생체 검출 방법 및 장치, 전자 기기 및 저장 매체
CN110287671B (zh) 验证方法及装置、电子设备和存储介质
TWI766458B (zh) 資訊識別方法及裝置、電子設備、儲存媒體
CN109344703B (zh) 对象检测方法及装置、电子设备和存储介质
CN110781975B (zh) 图像处理方法及装置、电子设备和存储介质
CN111507131A (zh) 活体检测方法及装置、电子设备和存储介质
CN114565962A (zh) 人脸图像处理方法及装置、电子设备和存储介质
CN112949568A (zh) 人脸和人体匹配的方法及装置、电子设备和存储介质
CN114079728A (zh) 拍摄防抖方法、装置、电子设备及存储介质
CN111382612A (zh) 动物面部检测方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220906

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230609

R150 Certificate of patent or registration of utility model

Ref document number: 7295936

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150