JP6970305B2 - 顔姿勢解析方法、装置、デバイス、記憶媒体及びプログラム - Google Patents

顔姿勢解析方法、装置、デバイス、記憶媒体及びプログラム Download PDF

Info

Publication number
JP6970305B2
JP6970305B2 JP2020537835A JP2020537835A JP6970305B2 JP 6970305 B2 JP6970305 B2 JP 6970305B2 JP 2020537835 A JP2020537835 A JP 2020537835A JP 2020537835 A JP2020537835 A JP 2020537835A JP 6970305 B2 JP6970305 B2 JP 6970305B2
Authority
JP
Japan
Prior art keywords
face
information
driver
posture
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020537835A
Other languages
English (en)
Other versions
JP2020535568A (ja
Inventor
チュアン ワン
フェイ ワン
チェン チエン
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2020535568A publication Critical patent/JP2020535568A/ja
Application granted granted Critical
Publication of JP6970305B2 publication Critical patent/JP6970305B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/11Hand-related biometrics; Hand pose recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/117Biometrics derived from hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

(関連出願の相互参照)
本願は、2017年12月25日に中国特許局に提出された、出願番号が201711424986.5であり、出願名称が「顔姿勢解析方法、装置、デバイス、記憶媒体及びプログラム」である中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本願は、コンピュータビジョン技術に関し、特に、顔姿勢解析方法、顔姿勢解析装置、ニューラルネットワークのトレーニング方法、ニューラルネットワークのトレーニング装置、運転状態監視方法、運転状態監視装置、電子デバイス、コンピュータ読み取り可能記憶媒体及びコンピュータプログラムに関する。
顔画像は顔が含まれる画像である。顔画像からより多い情報を如何に取得するかについては、関心する値打ちがある技術的課題である。
本願の実施形態は、顔姿勢解析、ニューラルネットワークトレーニング及び運転状態監視の技術的手段を提供する。
本願の実施形態の一態様によれば、被処理顔画像の顔キーポイントを取得することと、前記被処理顔画像の顔キーポイントをニューラルネットワークに入力して、前記ニューラルネットワークから出力される前記被処理顔画像の顔姿勢情報を取得することと、を含む顔姿勢解析方法を提供する。
本願の実施形態の別の態様によれば、トレーニングデータセットから、顔キーポイントと顔姿勢アノテーション情報を含むトレーニングデータを取得することと、前記トレーニングデータにおける顔キーポイントを、トレーニング対象であるニューラルネットワークに入力して、前記トレーニング対象であるニューラルネットワークから出力される顔姿勢情報を取得することと、前記トレーニング対象であるニューラルネットワークから出力される顔姿勢情報と前記トレーニングデータ中の顔姿勢アノテーション情報との差をガイダンス情報として、前記トレーニング対象であるニューラルネットワークに対して教師あり学習を行うことと、を含むニューラルネットワークのトレーニング方法を提供する。
本願の実施形態のまた1つの態様によれば、上記顔姿勢解析方法を用いて、車載カメラにより収集された運転者画像の顔姿勢情報を得ることと、所定時間内の運転者画像の顔姿勢情報により注意散漫運転状態及び疲労運転状態のうちの少なくとも1つを含む運転者の運転状態を決定することと、を含む運転状態監視方法を提供する。
本願の実施形態のまた1つの態様によれば、被処理顔画像の顔キーポイントを取得するためのキーポイント取得モジュールと、前記被処理顔画像の顔キーポイントをニューラルネットワークに入力して、前記ニューラルネットワークから出力される前記被処理顔画像の顔姿勢情報を取得するための姿勢取得モジュールと、を含む顔姿勢解析装置を提供する。
本願の実施形態のまた1つの態様によれば、トレーニングデータセットからトレーニングデータを取得するための第1の取得モジュールと、前記トレーニングデータにおける顔キーポイントを、トレーニング対象であるニューラルネットワークに入力して、前記トレーニング対象であるニューラルネットワークから出力される顔姿勢情報を取得するための第2の取得モジュールと、前記トレーニング対象であるニューラルネットワークから出力される顔姿勢情報と前記トレーニングデータ中の顔姿勢アノテーション情報との差をガイダンス情報として、前記トレーニング対象であるニューラルネットワークに対して教師あり学習を行うための教師あり学習モジュールと、を含むニューラルネットワークのトレーニング装置を提供する。
本願の実施形態のまた1つの態様によれば、上記顔姿勢解析装置を用いて、車載カメラにより収集された運転者画像の顔姿勢情報を得るものと、所定時間内の運転者画像の顔姿勢情報により注意散漫運転状態及び疲労運転状態のうちの少なくとも1つを含む運転者の運転状態を決定するための運転状態決定モジュールと、を含む運転状態監視装置を提供する。
本願の実施形態のまた1つの態様によれば、コンピュータプログラムを記憶するためのメモリと、前記メモリに記憶されたコンピュータプログラムを実行し、前記コンピュータプログラムが実行される時に、本願のいずれか1つの方法の実施形態を実現するためのプロセッサと、を含む電子デバイスを提供する。
本願の実施形態のまた1つの態様によれば、コンピュータプログラムが記憶されたコンピュータ読み取り可能記憶媒体であって、当該コンピュータプログラムがプロセッサにより実行される時に、本願のいずれか1つの方法の実施形態を実現するコンピュータ読み取り可能記憶媒体を提供する。
本願の実施形態のまた1つの態様によれば、コンピュータコマンドを含むコンピュータプログラムであって、前記コンピュータコマンドがデバイスのプロセッサで作動する時に、本願のいずれか1つの方法の実施形態を実現するコンピュータプログラムを提供する。
本願により提供される顔姿勢解析方法、顔姿勢解析装置、ニューラルネットワークのトレーニング方法、ニューラルネットワークのトレーニング装置、電子デバイス、コンピュータ読み取り可能記憶媒体及びコンピュータプログラムによれば、本願はニューラルネットワークを用いて被処理顔画像の顔姿勢情報を抽出することで、被処理顔画像の顔姿勢情報を速やか且つ精確に取得することができる。本願の顔姿勢解析の技術的手段は被処理顔画像の顔姿勢情報をリアルタイムで抽出する要求を満たすことに寄与し、それにより本願の顔姿勢情報を抽出する技術的手段のリアルタイム環境への応用に寄与する。
以上の一般的な説明と以下の詳細な説明は解釈するための例示的なものであり、本願を限定することができないことを理解すべきである。以下、図面と実施例によって本願の技術的手段を更に詳細に説明する。
本願の顔姿勢解析方法の一実施形態のフローチャートである。 本願のニューラルネットワークのトレーニング方法のフローチャートである。 本願のトレーニングデータを形成する一実施形態のフローチャートである。 本願のトレーニングデータを形成する別の実施形態のフローチャートである。 本願のトレーニングデータを形成するまた1つの実施形態のフローチャートである。 本願の顔姿勢解析装置の一実施形態の構造模式図である。 本願のニューラルネットワークのトレーニング装置の一実施形態の構造模式図である。 本願の実施形態を実現する例示的なデバイスのブロック図である。
明細書の一部を構成する図面は、本願の実施形態を説明し、その説明と共に本願の原理を解釈することに用いられる。図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。
ここで、図面を参照しながら本願の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本願の範囲を限定するものではないことに注意すべきである。同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本願及びその適用または使用へのなんらの制限にもならない。関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。
なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本願の実施例は端末装置、コンピュータシステム及びサーバ等の電子機器に適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。端末装置、コンピュータシステム及びサーバ等の電子機器との併用に適する公知の端末装置、計算システム、環境及び/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記の任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
端末装置、コンピュータシステム及びサーバ等の電子機器はコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド(例えば、プログラムモジュール)の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム/サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。
(例示的実施例)
本願により提供される顔姿勢解析方法、ニューラルネットワークのトレーニング方法及び運転状態監視方法は、ワンチップコンピュータ、FPGA(Field Programmable Gate Array、フィールド・プログラマブル・ゲート・アレイ)、CPU(Central Processing Unit、中央処理ユニット)、マイクロプロセッサ等のデータ処理デバイスによりメモリに記憶された対応のコマンドを呼び出すことによって実行されてもよい。
図1は本願の顔姿勢解析方法の一実施例のフローチャートである。図1に示すように、この実施例の方法は、ステップS100及びステップS110を含む。以下、図1中の各ステップを詳細に説明する。
S100において、被処理顔画像の顔キーポイントを取得する。
選択可能な一例では、本願における被処理顔画像は、静的なピクチャ又は写真等の画像であってもよく、動的なビデオ中のビデオフレーム等であってもよく、被処理顔画像は、カメラ等の収集デバイスによって予め収集されてもよく、収集されながら本願の技術的手段によってリアルタイムで処理されてもよい。この被処理顔画像における顔は、正面顔であってもよく、所定の角度で偏向した非正面顔であってもよい。本願における非正面顔の偏向角度は、Pitch(即ち、x軸を中心に回転して発生する偏向角)、Yaw(即ち、y軸を中心に回転して発生する偏向角)及びRoll(即ち、z軸を中心に回転して発生する偏向角)のうちの少なくとも1つによって示してもよい。本願では被処理顔画像における顔の具体的な表現形態が限定されない。
選択可能な一例では、本願の顔キーポイントとは一般的に顔又は顔局所領域あるいは1つ又は複数の顔器官の位置を決定するための複数の点を指し、顔キーポイントは一般的に顔輪郭キーポイント、眼キーポイント、眉キーポイント、口キーポイント、鼻キーポイント、眼瞼線キーポイント、口唇線キーポイント等を含むが、それらに限定されない。本願は、例えば、被処理顔画像を畳み込みニューラルネットワークに入力してこの畳み込みニューラルネットワークの出力により被処理顔画像の顔キーポイントを取得するように、既存の畳み込みニューラルネットワークを用いて被処理顔画像の顔キーポイントを取得してもよい。この畳み込みニューラルネットワークのネットワーク構造は顔キーポイントの抽出の実際の要求に応じて柔軟的に設計することができ、本願の実施例ではこの畳み込みニューラルネットワークの具体的なネットワーク構造が限定されなく、例えば、本願のこの畳み込みニューラルネットワークは、畳み込み層、非線形Relu層、プーリング層及び全結合層等を含んでもよいが、それらに限定されなく、この畳み込みニューラルネットワークに含まれる層数が多いほど、ネットワークが深くなり、更に例えば、本願のこの畳み込みニューラルネットワークのネットワーク構造はALexNet、深層残差ネットワーク(Deep Residual Network、ResNet)又はVGGnet(Visual Geometry Group Network、視覚幾何学グループネットワーク)等のニューラルネットワークに用いられるネットワーク構造を用いても良いが、それらに限定されない。
選択可能な一例では、本願で取得する被処理顔画像の顔キーポイントの数量は通常21より小さくない。取得した顔キーポイントの数量が21より高い場合に、本願により最終的に決定された被処理顔画像の顔姿勢情報がより精確になることが多く、例えば、106個の顔キーポイントを用いて得られた被処理顔画像の顔姿勢情報の精確性は、一般的には21個の顔キーポイントを用いて得られた被処理顔画像の顔姿勢情報の精確性より高い。本願では取得する顔キーポイントの数量が限定されない。本願で取得する被処理顔画像の顔キーポイントは一般的には、顔キーポイントの番号及び顔キーポイントの被処理顔画像全体又は被処理顔画像の顔領域での2次元座標、つまりx軸座標とy軸座標を含む。
S110において、被処理顔画像の顔キーポイントをニューラルネットワークに入力して、ニューラルネットワークから出力される被処理顔画像の顔姿勢情報を取得する。
選択可能な一例では、本願におけるニューラルネットワークは複数のトレーニングデータを含むトレーニングデータセットを用いて成功的にトレーニングされたニューラルネットワークである。トレーニングデータセットにおける1つのトレーニングデータは一般的には顔キーポイント及び顔姿勢アノテーション情報を含む。トレーニングデータセットを用いてニューラルネットワークをトレーニングするプロセスについては以下の図2に対する説明を参照することができる。ここで詳細な説明を省略する。
選択可能な一例では、本願におけるニューラルネットワークは、Relu(Rectified linear unit、正規化線形ユニット)を備えた少なくとも2つの全結合層及び出力層とされる1つの全結合層を含んでもよく、例えば、このニューラルネットワークは、Reluを備えた全結合層である第1層、Reluを備えた全結合層である第2層、出力層とされる全結合層である第3層という3層を含み、更に例えば、このニューラルネットワークは、Reluを備えた全結合層である第1層、Reluを備えた全結合層である第2層、Reluを備えた全結合層である第3層、出力層とされる全結合層である第4層という4層を含む。本願ではこのニューラルネットワークに含まれる全結合層の数量が限定されない。
選択可能な一例では、本願における顔姿勢情報は顔偏向方向を記述するための情報であり、顔偏向方向が頭部姿勢を表すことができるため、顔姿勢情報は頭部姿勢情報と呼んでもよい。選択可能に、顔姿勢情報は、X軸を中心に回転する情報、Y軸を中心に回転する情報及びZ軸を中心に回転する情報のうちの1つ又は複数を含んでもよい。一般的には、上記X軸を中心に回転する情報はX軸を中心に回転する角度(Pitch又は頭部ピッチ角と呼んでも良く、頭を上げる/頭を下げる角度を表す)であってもよく、上記Y軸を中心に回転する情報はY軸を中心に回転する角度(Yaw又は横顔角度と呼んでも良く、顔部が左/右側へ偏向する角度を表す)であってもよく、上記Z軸を中心に回転する情報はZ軸を中心に回転する角度(Roll又は頭部左右反転角度と呼んでも良く、頭の頂部が左肩/右肩に近づける角度を表す)であってもよい。本願の下記実施例では、顔姿勢情報にPitch、Yaw及びRollを含むことを例として説明するが、本願における顔姿勢情報にPitch、Yaw及びRollを含まなければならないというわけではない。また、本願における符号の「/」は「又は」と定義される。
本願におけるX軸を中心に回転する情報、Y軸を中心に回転する情報及びZ軸を中心に回転する情報を、回転量を表す他の形式の情報によって表してもよいことを特に説明する必要があり、例えば、X軸を中心に回転する情報が具体的にX軸を中心に回転する弧度で、Y軸を中心に回転する情報が具体的にY軸を中心に回転する弧度で、Z軸を中心に回転する情報が具体的にZ軸を中心に回転する弧度であるなどのことが可能であり、本願ではX軸を中心に回転する情報、Y軸を中心に回転する情報及びZ軸を中心に回転する情報の具体的な表現形式が限定されない。
選択可能な一例では、本願は、ニューラルネットワークによる顔姿勢情報抽出操作を容易にするように、被処理顔画像の顔キーポイントを取得した後、先に被処理顔画像の顔キーポイントに対して座標正規化処理を行って顔キーポイントのx軸座標とy軸座標の値範囲を[1、−1]にし、次に、座標正規化処理後の顔キーポイントをニューラルネットワークに入力して、ニューラルネットワークに正規化処理後の顔キーポイントに基づいて被処理顔画像のPitch、Yaw及びRollを出力させるようにしてもよい。
本願はニューラルネットワークを用いて被処理顔画像の顔姿勢情報を抽出することによって、被処理顔画像の顔姿勢情報を速やか且つ精確に取得でき、そのように、3次元顔モデル及び勾配降下法に基づいて距離を最適化する方式で被処理顔画像の顔姿勢情報を取得する場合に計算量が大きく、計算複雑度が高く、消費される時間が長い等の問題が回避されるため、本願の顔姿勢解析の技術的手段は被処理顔画像の顔姿勢情報をリアルタイムで抽出する要求を満たすことに寄与し、それによりリアルタイム環境への応用に寄与する。
本願により抽出された顔姿勢情報は顔の形の精確な描画に寄与し、例えば、本願により抽出された顔姿勢情報は、顔3Dモデルの確立を支援するために利用してもよく、視線解析に利用してもよく、更に可視/不可視の顔キーポイントの選別等に利用してもよく、これにより、本願の顔姿勢解析技術は顔の画像レンダリング処理(例えば、眉に対する特殊効果処理等)、顔変形処理(例えば、顔部対応器官の変形処理)、美顔処理(例えば、皺やソバカスの除去処理等)、メイクアップ処理(例えば、まゆずみをひく処理等)、顔識別、顔状態検出処理(例えば、眼/口の開閉程度の判断等)、器官微細位置決定処理(例えば、眼瞼線、上/下口唇内/外口唇線の位置決定等)及び表情検出処理(例えば、眼/口の開閉程度の判断等)等の用途に利用可能であることを分かった。また、本願の顔姿勢解析技術は更に運転状態決定処理(例えば、注意散漫運転状態、疲労運転状態の決定等)という用途にも利用可能である。
選択可能な一例では、本願で上記顔姿勢解析方法を用いて運転状態監視を実現するプロセスは以下のようになる。
まず、車載カメラにより収集された運転者画像(例えば、運転者顔部を含む運転者画像)を取得し、且つ運転者画像の顔キーポイントを取得し、例えば、運転者画像を畳み込みニューラルネットワークに入力して畳み込みニューラルネットワークから出力される運転者画像の顔キーポイントを取得する。
次に、運転者画像の顔キーポイントを本願のニューラルネットワークに入力して、ニューラルネットワークから出力される運転者画像の顔姿勢情報を取得する。例えば、ニューラルネットワークから出力される運転者画像のPitch、Yaw及びRollを取得する。
最後に、所定時間内の運転者画像の顔姿勢情報に基づいて、運転者の運転状態を決定する。例えば、所定時間内の運転者画像のPitch、Yaw及びRollにより、運転者の頭部の少なくとも1つの方向での偏向角度と持続偏向時間が所定の条件に合致したと判断した場合に、運転者が注意散漫運転状態又は疲労運転状態になったと決定できる。
選択可能な一例では、本願は運転状態を決定するプロセスにおいて、運転状態をより精確且つ詳細に決定するように、更に運転者の手、眼及び口のうちの少なくとも1つを組み合わせて判断するようにしてもよい。
選択可能な一例では、本願は、所定時間内の運転者画像の顔キーポイントにより運転者の開眼閉眼動作を決定し、次に、所定時間内の運転者画像の顔姿勢情報及び開眼閉眼動作に基づいて、運転者の運転状態を決定するようにしてもよい。例えば、所定時間内の運転者画像により、運転者の頭部垂下角度(Pitch)及び垂下持続時間が所定の条件に合致し、且つ閉眼又は半閉眼状態の持続時間が閾値に達したと判断した場合に、運転者が疲労運転状態になったと決定する。
別の選択可能な例では、本願は、所定時間内の運転者画像の顔キーポイントに基づいて、運転者の開口閉口動作を決定し、次に、所定時間内の運転者画像の顔姿勢情報及び開口閉口動作に基づいて、運転者の運転状態を決定するようにしてもよい。例えば、所定時間内の運転者画像により、運転者の頭部左/右偏向角度(Yaw)及び左/右偏向持続時間が所定の条件に合致し、且つ開口閉口の回数が閾値に達したと判断した場合に、運転者が注意散漫運転状態になったと決定する。
また1つの選択可能な例では、本願は、所定時間内の運転者画像の手部キーポイントに基づいて、運転者の手の顔部領域での滞留状態を決定し、次に、所定時間内の運転者画像の顔姿勢情報及びこの滞留状態に基づいて、運転者の運転状態を決定するようにしてもよい。例えば、所定時間内の運転者画像により、運転者の頭部が一側の肩に近づいた側方偏位角度(Roll)又は頭部垂下角度(Pitch)が所定の条件に合致し、且つ手の耳又は口領域の近傍での滞留持続時間が閾値に達したと判断した場合に、運転者が注意散漫運転状態になったと決定する。
また1つの選択可能な例では、本願は、所定時間内の運転者画像の顔キーポイントに基づいて、運転者の顔向き方向を決定してもよい。例えば、可視の顔キーポイントと不可視の顔キーポイントにより顔向き方向を決定してもよい。次に、本願は所定時間内の運転者画像の顔姿勢情報及び顔向き方向に基づいて、運転者の運転状態を決定する。例えば、所定時間内の運転者画像により、運転者の頭部左/右偏向角度(Yaw)及び左/右偏向持続時間が所定の条件に合致し、且つ持続した顔向き方向も持続的に左/右に向いていると判断した場合に、運転者が注意散漫運転状態になったと決定する。
また、本願では上記のいくつかの選択可能な例は判断する時に使用される判断条件を組み合わせてもよく、例えば、所定時間内の運転者画像により、運転者の頭部が一側の肩に近づいた側方偏位角度(Roll)又は頭部垂下角度(Pitch)が所定の条件に合致し、手の耳又は口領域の近傍での滞留持続時間が閾値に達し、且つ開口閉口の回数が閾値に達したと判断した場合に、運転者が電話利用中の注意散漫運転状態になったと決定する。
選択可能な一例では、本願は、安全運転を促進するように、運転者の運転状態が所定の警告条件を満たした(例えば、運転者が重度注意散漫運転状態又は重度疲労運転状態になった)ことに応答して、対応する操作を実行してもよい。例えば、警告通知情報を出力する操作を実行する。更に例えば、クラウドサーバ又は所定の関連付け通信端末(例えば、運転者の携帯電話又は運転者管理者の携帯電話等)に情報を送信する操作を実行する。本願で送信される情報は、運転者の運転状態、運転者の運転状態に対応する少なくとも1フレームの運転者画像等を含む。
図2は本願のニューラルネットワークのトレーニングの実施例のフローチャートである。図2に示すように、この実施例の方法は、ステップS200、ステップS210及びステップS220を含む。以下、図2における各ステップを詳細に説明する。
S200において、トレーニングデータセットからトレーニングデータを取得する。
選択可能な一例では、本願におけるトレーニングデータセットには、それぞれに顔キーポイント(例えば、21、36、106又は160等の顔キーポイント)及び顔姿勢情報(例えば、Pitch、Yaw及びRoll)を含んでよい、ニューラルネットワークのトレーニングのための複数のトレーニングデータを含む。本願はランダム読取方式又はトレーニングデータ配列順序による読取方式により、トレーニングデータセットから一回で1つ又は複数のトレーニングデータを読み取ることができる。トレーニングデータセットにおけるトレーニングデータの生成方式は下記の図3に対する説明を参照してもよく、ここで詳細な説明を省略する。
S210において、トレーニングデータにおける顔キーポイントを、トレーニング対象であるニューラルネットワークに入力して、トレーニング対象であるニューラルネットワークから出力される顔姿勢情報を取得する。
選択可能な一例では、トレーニングデータにおける顔キーポイントが座標正規化処理後の顔キーポイントである場合に、本願は顔キーポイントをトレーニング対象であるニューラルネットワークに直接入力して、このニューラルネットワークによりX軸を中心に回転する情報、Y軸を中心に回転する情報及びZ軸を中心に回転する情報のうちの1つ又は複数を出力するようにしてもよい。トレーニングデータにおける顔キーポイントが座標正規化処理後の顔キーポイントではない場合に、本願は、先に顔キーポイントに対して座標正規化処理を行い、次に、座標正規化処理後の顔キーポイントをニューラルネットワークに入力して、このニューラルネットワークによりX軸を中心に回転する情報、Y軸を中心に回転する情報及びZ軸を中心に回転する情報のうちの1つ又は複数を出力するようにしてもよい。一般的には、このニューラルネットワークは入力される顔キーポイントに対してPitch、Yaw及びRollを出力する。
S220において、ニューラルネットワークから出力される顔姿勢情報とトレーニングデータ中の顔姿勢アノテーション情報との差をガイダンス情報として、トレーニング対象であるニューラルネットワークに対して教師あり学習を行う。
選択可能な一例では、本願はトレーニング対象であるニューラルネットワークから出力されるPitch、Yaw及びRollとトレーニングデータ中のPitch、Yaw及びRollとの差を小さくすることを目的として、トレーニング対象であるニューラルネットワーク中のネットワークパラメータ(例えば、畳み込みカーネルパラメータ及び重み等)を調整してもよい。反複条件に達すると、今回のトレーニングプロセスが終了する。本願の反複条件は、トレーニング対象であるニューラルネットワークから出力されるPitch、Yaw及びRollとトレーニングデータ中のPitch、Yaw及びRollとの差が所定の差要求を満たすことを含んでもよく、また、差がこの所定の差要求を満たした場合に、今回のトレーニング対象であるニューラルネットワークに対するトレーニングが成功的に完了される。本願中の反複条件は、このニューラルネットワークのトレーニングに使用されるトレーニングデータの数量が所定の数量要求に達する等を含んでも良い。使用されるトレーニングデータの数量が所定の数量要求に達したが、差がこの所定の差要求を満たさない場合に、今回のトレーニング対象であるニューラルネットワークに対するトレーニングが成功的に完了されない。トレーニングを成功的に完了したニューラルネットワークは被処理顔画像から顔姿勢情報を抽出することに利用可能である。
図3は本願のトレーニングデータセットにおけるトレーニングデータを形成する実施例のフローチャートである。図3に示すように、この実施例の方法は、ステップS300、ステップS310及びステップS320を含む。以下、図3中の各ステップを詳細に説明する。
S300において、顔画像サンプルの顔キーポイントを取得する。
選択可能な一例では、本願は、例えば、顔画像サンプルを畳み込みニューラルネットワークに入力して、この畳み込みニューラルネットワークの出力により顔画像サンプルの顔キーポイントを取得するように、既存の畳み込みニューラルネットワークを用いて顔画像サンプルの顔キーポイントを取得してもよい。また、本願により取得された顔画像サンプルの顔キーポイントは顔画像サンプルについて手動によりアノテーションした顔キーポイントであってもよい。
S310において、顔画像サンプルの顔キーポイントに基づいて、3次元顔モデルを用いて顔画像サンプルの顔姿勢情報を決定する。
選択可能な一例では、本願は、予め確立された3次元顔モデルに基づいて顔画像サンプルの顔キーポイントに対応する顔姿勢情報を決定する。この3次元顔モデルは、例えば、21個又は106個又は240個又は他の数量の顔キーポイントを有する。本願は3次元顔モデルのパラメータを調整することでこの3次元顔モデルにおける顔キーポイントの2次元投影と上記の取得された顔画像サンプルの顔キーポイントとの合致程度を高めることができ、例えば、本願は、勾配降下法等の方法により顔画像サンプルの顔キーポイントとパラメータ調整後の3次元顔モデルの顔キーポイントとを投影して得られた2次元顔キーポイントの間の距離の和を最適化するように3次元顔モデルのパラメータを調整することで、この距離の和をできる限り小さくすることができる。上記合致程度又は上記距離の和が所定の要求を満たした場合に、現在3次元顔モデルの顔姿勢情報は顔画像サンプルの顔姿勢情報となる。
選択可能な一例では、本願の3次元顔モデルのパラメータの調整は一般的に3次元顔モデルの位置の調整及び3次元顔モデルの姿勢の調整(例えば、3次元顔モデルのPitch、Yaw及びRollの調整)を含んでもよい。更に、本願の3次元顔モデルのパラメータの調整は、3次元顔モデルの表情と顔画像サンプルの顔キーポイントの反映する表情の類似度を高めるように、3次元顔モデルの表情の調整、即ち3次元顔モデルにおける表情との関連度が高い顔キーポイントの調整、例えば、口位置にある顔キーポイントの調整、更に例えば眼位置にある顔キーポイント等の調整を含んでもよい。本願は3次元顔モデルの表情を調整することで、顔画像サンプルの顔キーポイントとパラメータ調整後の3次元顔モデルの顔キーポイントとを投影して得られた2次元顔キーポイントの間の距離の和を最適化することに寄与し、それにより顔姿勢アノテーション情報の精確性を高めることに寄与する。
本願の3次元顔モデルのパラメータの調整に3次元顔モデルの位置の調整、3次元顔モデルの姿勢の調整及び3次元顔モデルの表情の調整を含む場合に、本願の3次元顔モデルは精細3次元顔モデルと呼んでも良い。
S320において、上記顔画像サンプルの顔姿勢情報を当該顔画像サンプルの顔姿勢アノテーション情報として、当該顔画像サンプルの顔キーポイントと共に1つのトレーニングデータとしてトレーニングデータセットに加える。
本実施例はトレーニングデータを形成するプロセスで顔姿勢アノテーション情報を取得するには精細3次元顔モデルを利用できるため、顔姿勢アノテーション情報の精確性と信頼性を保障することに寄与する。また、本実施例はニューラルネットワークのトレーニングプロセスのみで3次元顔モデルを用いてトレーニングデータを生成し、ニューラルネットワークのトレーニングが完了した後、トレーニングされたニューラルネットワークは自分がトレーニングプロセスで学習したニューロンパラメータに基づいて顔姿勢情報を抽出することが可能になり、ある程度で精細3次元顔モデルをニューラルネットワークに「移転」したことに相当し、また処理速度が3次元顔モデルより速く、リアルタイムで顔姿勢情報を解析する応用要求をより好ましく満たすことができる。
図4は本願のトレーニングデータセットにおけるトレーニングデータを形成する別の実施例のフローチャートである。図4に示すように、この実施例の方法は、ステップS400、ステップS410及びステップS420を含む。以下、図4中の各ステップを詳細に説明する。
S400において、トレーニングデータセットにおける1つのトレーニングデータを取得する。取得されるこのトレーニングデータは一般的には顔キーポイントと顔姿勢アノテーション情報を含む。
S410において、当該一つのトレーニングデータにおける顔キーポイントに対して座標変換を行い、且つ顔キーポイントの座標変換により当該一つのトレーニングデータ中の顔姿勢アノテーション情報に対して、対応する変換を行う。
選択可能な一例では、当該一つのトレーニングデータにおける顔キーポイントに対する座標変換は、顔が正面顔(即ち顔の正面がカメラに向いている)であり、顔キーポイントのY軸を中心に回転する情報とZ軸を中心に回転する角情報がいずれも回転していない(例えば、回転角度が0)とする場合に、当該一つのトレーニングデータにおける顔キーポイントのX軸座標に対してミラーリング処理を行うようになってもよく、また、ミラーリング処理が実行された場合に、本願の顔キーポイントの座標変換による当該一つのトレーニングデータ中の顔姿勢アノテーション情報に対する対応変換は、当該一つのトレーニングデータ中の顔姿勢アノテーション情報におけるY軸を中心に回転する情報とZ軸を中心に回転する情報に対してそれぞれ負の値をとり、例えば、YawとRollに対してそれぞれ負の値をとるようになってもよい。
選択可能な一例では、当該一つのトレーニングデータにおける顔キーポイントに対する座標変換は、当該一つのトレーニングデータにおける顔キーポイントの座標を所定の角度で2次元回転させるようになってもよく、また、座標を所定の角度で2次元回転させた場合に、本願の顔キーポイントの座標変換による当該一つのトレーニングデータ中の顔姿勢アノテーション情報に対する対応変換は、この所定の角度により当該一つのトレーニングデータ中の顔姿勢アノテーション情報におけるZ軸を中心に回転する情報を調整し、例えばRollを所定の角度増加又は減少させるようになってもよい。
S420において、変換処理後の顔キーポイントと顔姿勢アノテーション情報を1つの新しいトレーニングデータとしてトレーニングデータセットに加える。
本願は、トレーニングデータにおける顔キーポイントに対して座標変換を行い、且つ顔キーポイントの座標変換によりこのトレーニングデータ中の顔姿勢アノテーション情報に対して、対応する変換を行うことで、トレーニングデータセットを拡大するための新しいトレーニングデータを容易に形成することができ、豊富なトレーニングデータを用いてトレーニング対象であるニューラルネットワークをトレーニングして、ニューラルネットワークの過剰適合現象の回避に寄与する。
図5は本願のトレーニングデータセットにおけるトレーニングデータを形成する別の実施例のフローチャートである。図5に示すように、この実施例の方法は、ステップS500、ステップS510、ステップS520及びステップS530を含む。以下、図5中の各ステップを詳細に説明する。
S500において、顔画像サンプルを畳み込みニューラルネットワークに入力して、畳み込みニューラルネットワークの出力により当該顔画像サンプルの顔キーポイントを取得する。
S510において、顔画像サンプルの顔キーポイントに基づいて、3次元顔モデルを用いて顔画像サンプルのPitch、Yaw及びRollを決定する。このステップで具体的に実行される操作については上記ステップS310の説明を参照してもよい。
S520において、当該顔画像サンプルの顔キーポイントに対して座標変換を行い、且つ顔キーポイントの座標変換により当該顔画像サンプルのPitch、Yaw及びRollに対して対応する変換を行い、Pitch’、Yaw’とRoll’を得る。このステップで具体的に実行される操作については上記ステップS410の説明を参照してもよい。
S530において、顔画像サンプルの顔キーポイントと顔画像サンプルのPitch、Yaw及びRollを1つのトレーニングデータとし、変換処理後の顔キーポインとPitch’、Yaw’及びRoll’を別のトレーニングデータとし、それぞれトレーニングデータセットに加える。本願は3次元顔モデルを用いてPitch、Yaw及びRollを形成することによって、トレーニングデータの精確性を保証することに寄与し、このようなトレーニングデータに対して変換処理を行い、且つ変換前後のトレーニングデータを全てトレーニングデータセットに加えることによって、変換処理後のトレーニングデータの精確性を保証するとともに、トレーニングデータセットにおけるトレーニングデータを豊富にし、トレーニングデータセットの形成効率を高めることに寄与する。
図6は本願の顔姿勢解析装置の一実施例の構造模式図である。図6に示すように、この実施例の装置は、主にキーポイント取得モジュール600及び姿勢取得モジュール610を含む。選択可能に、この実施例の装置は、更に処理モジュール620及びニューラルネットワークのトレーニング装置630を含んでもよい。
キーポイント取得モジュール600は、主に被処理顔画像の顔キーポイントを取得するために用いられる。キーポイント取得モジュール600に具体的に実行される操作については、上記の方法の実施形態での図1のS100に対する説明を参照してもよい。ここで、重複する説明を省略する。
姿勢取得モジュール610は、主に被処理顔画像の顔キーポイントをニューラルネットワークに入力して、ニューラルネットワークから出力される被処理顔画像の顔姿勢情報を取得するために用いられる。姿勢取得モジュール610に具体的に実行される操作については、上記の方法の実施形態での図1のS110に対する説明を参照してもよい。ここで、重複する説明を省略する。
処理モジュール620は、主に被処理顔画像の顔姿勢情報により被処理顔画像を処理するために用いられる。この処理は、顔識別、顔変形処理(例えば、顔部の一部の領域又は全領域の変形処理)、美顔処理(例えば、皺やソバカスの除去処理等)、メイクアップ処理(例えば、まゆずみをひく処理等)、顔の画像レンダリング処理(例えば、眉に対する特殊効果処理等)、顔状態検出処理(例えば、眼/口の開閉程度の判断等)、表情検出処理(例えば、眼/口の開閉程度の判断等)、器官微細位置決定処理(例えば、眼瞼線、上/下口唇内/外口唇線の位置決定等)及び運転状態決定処理(例えば、注意散漫運転状態、疲労運転状態の決定等)のうちの少なくとも1つを含んでもよい。
ニューラルネットワークのトレーニング装置630は、主に顔キーポイントと顔姿勢アノテーション情報を含むトレーニングデータセットにおけるトレーニングデータを用いてトレーニング対象であるニューラルネットワークをトレーニングするために用いられる。ニューラルネットワークのトレーニング装置630に具体的に実行される操作については、上記の方法の実施形態での図2に対する説明を参照してもよい。ニューラルネットワークのトレーニング装置630の具体的な構造については、下記実施形態での図7に対する説明を参照してもよい。ここで、重複する説明を省略する。
選択可能な一例では、本願は上記顔姿勢解析装置を用いて運転状態監視装置を実現することができる。即ち、運転状態監視装置は、顔姿勢解析装置と運転状態決定モジュールを含む。選択可能に、運転状態監視装置は、更に第1の決定モジュール、第2の決定モジュール、第3の決定モジュール、第4の決定モジュール及び応答モジュールのうちの少なくとも1つを含んでもよい。
顔姿勢解析装置は、車載カメラにより収集された運転者画像の顔姿勢情報を取得するために用いられる。選択可能に、顔姿勢解析装置は、車載カメラにより収集された運転者画像(例えば、運転者顔部を含む運転者画像)を取得し、且つ運転者画像の顔キーポイント取得し、例えば、顔姿勢解析装置は、運転者画像を畳み込みニューラルネットワークに入力して畳み込みニューラルネットワークから出力される運転者画像の顔キーポイントを取得する。次に、顔姿勢解析装置は取得した運転者画像の顔キーポイントをニューラルネットワークに入力して、ニューラルネットワークから出力される運転者画像の顔姿勢情報を取得する。例えば、顔姿勢解析装置は、ニューラルネットワークから出力される運転者画像のPitch、Yaw及びRollを取得する。
運転状態決定モジュールは、所定時間内の運転者画像の顔姿勢情報に基づいて、運転者の運転状態を決定するために用いられる。例えば、運転状態決定モジュールは、所定時間内の運転者画像のPitch、Yaw及びRollにより、運転者の頭部の少なくとも1つの方向での偏向角度と偏向持続時間が所定の条件に合致したと判断した場合に、運転者が注意散漫運転状態又は疲労運転状態になったと決定する。
選択可能な一例では、第1の決定モジュールは、所定時間内の運転者画像の顔キーポイントにより出運転者の開眼閉眼動作を決定することができ、次に、運転状態決定モジュールは所定時間内の運転者画像の顔姿勢情報及び開眼閉眼動作に基づいて、運転者の運転状態を決定する。例えば、運転状態決定モジュールは、所定時間内の運転者画像により、運転者の頭部垂下角度(Pitch)及び垂下持続時間が所定の条件に合致し、且つ閉眼又は半閉眼状態の持続時間が閾値に達したと判断した場合に、運転者が疲労運転状態になったと決定する。
別の選択可能な例では、第2の決定モジュールは、所定時間内の運転者画像の顔キーポイントに基づいて、運転者の開口閉口動作を決定することができ、次に、運転状態決定モジュールは、所定時間内の運転者画像の顔姿勢情報及び開口閉口動作に基づいて、運転者の運転状態を決定する。例えば、運転状態決定モジュールは、所定時間内の運転者画像により、運転者の頭部左/右偏向角度(Yaw)及び左/右偏向持続時間が所定の条件に合致し、且つ開口閉口の回数が閾値に達したと判断した場合に、運転者が注意散漫運転状態になったと決定する。
また1つの選択可能な例では、第3の決定モジュールは、所定時間内の運転者画像の手部キーポイントに基づいて、運転者の手の顔部領域での滞留状態を決定することができ、次に、運転状態決定モジュールは、所定時間内の運転者画像の顔姿勢情報とこの滞留状態に基づいて、運転者の運転状態を決定する。例えば、運転状態決定モジュールは、所定時間内の運転者画像により、運転者の頭部が一側の肩に近づいた側方偏位角度(Roll)又は頭部垂下角度(Pitch)が所定の条件に合致し、且つ手の耳又は口領域の近傍での滞留持続時間が閾値に達したと判断した場合に、運転者が注意散漫運転状態になったと決定する。
また1つの選択可能な例では、第4の決定モジュールは、所定時間内の運転者画像の顔キーポイントに基づいて、運転者の顔向き方向を決定することができる。例えば、第4の決定モジュールは、可視の顔キーポイントと不可視の顔キーポイントにより顔向き方向を決定する。次に、運転状態決定モジュールは、所定時間内の運転者画像の顔姿勢情報及び顔向き方向に基づいて、運転者の運転状態を決定する。例えば、運転状態決定モジュールは、所定時間内の運転者画像により、運転者の頭部左/右偏向角度(Yaw)と左/右偏向持続時間が所定の条件に合致し、且つ持続した顔向き方向も持続的に左/右に向いていると判断した場合に、運転者が注意散漫運転状態になったと決定する。
また、運転状態決定モジュールは上記の様々な例において判断する時に使用される判断条件を組み合わせてもよく、例えば、運転状態決定モジュールは、所定時間内の運転者画像により、運転者の頭部が一側の肩に近づいた側方偏位角度(Roll)又は頭部垂下角度(Pitch)が所定の条件に合致し、手の耳又は口領域の近傍での滞留持続時間が閾値に達し、且つ開口閉口の回数が閾値に達したと判断した場合に、運転者が電話利用中の注意散漫運転状態になったと決定する。
応答モジュールは、安全運転を促進するように、運転者の運転状態が所定の警告条件を満たした(例えば、運転者が重度注意散漫運転状態又は重度疲労運転状態になった)ことに応答して、対応する操作を実行するために用いられる。例えば、応答モジュールは警告通知情報を出力する操作を実行する。更に例えば、応答モジュールはクラウドサーバ又は所定の関連付け通信端末(例えば、運転者の携帯電話又は運転者管理者の携帯電話等)に情報を送信する操作を実行する。応答モジュールにより送信される情報は、運転者の運転状態、運転者の運転状態に対応する少なくとも1フレームの運転者画像等を含んでもよい。
図7は本願のニューラルネットワークのトレーニング装置の一実施例の構造模式図である。図7に示すように、この実施例の装置は、主に第1の取得モジュール700、第2の取得モジュール710及び教師あり学習モジュール720を含む。選択可能に、この実施例の装置は、更に第1のアノテーションモジュール730及び第2のアノテーションモジュール740を含んでもよい。
第1の取得モジュール700は、主にトレーニングデータセットからトレーニングデータを取得するために用いられる。第1の取得モジュール700に具体的に実行される操作については、上記の方法の実施形態での図2のS200に対する説明を参照してもよい。ここで、重複する説明を省略する。
第2の取得モジュール710は、主にトレーニングデータにおける顔キーポイントを、トレーニング対象であるニューラルネットワークに入力して、トレーニング対象であるニューラルネットワークから出力される顔姿勢情報を取得するために用いられる。第2の取得モジュール710に具体的に実行される操作については、上記の方法の実施形態での図2のS210に対する説明を参照してもよい。ここで、重複する説明を省略する。
教師あり学習モジュール720は、主にトレーニング対象であるニューラルネットワークから出力される顔姿勢情報とトレーニングデータ中の顔姿勢アノテーション情報との差をガイダンス情報として、トレーニング対象であるニューラルネットワークに対して教師あり学習を行うために用いられる。教師あり学習モジュール720に具体的に実行される操作については、上記の方法の実施形態での図2のS220に対する説明を参照してもよい。ここで、重複する説明を省略する。
第1のアノテーションモジュール730は、主に顔画像サンプルの顔キーポイントを取得し、顔画像サンプルの顔キーポイントに基づいて、3次元顔モデルを用いて顔画像サンプルの顔姿勢アノテーション情報を決定するために用いられ、ここで、顔画像サンプルの顔キーポイントと顔画像サンプルの顔姿勢アノテーション情報が、トレーニングデータセットにおける1つのトレーニングデータとされる。第1のアノテーションモジュール730に具体的に実行される操作については、上記の方法の実施形態での図3中のS300〜310と図5中のS500〜510に対する説明を参照してもよい。ここで、重複する説明を省略する。
第2のアノテーションモジュール740は、主にトレーニングデータセットにおける1つのトレーニングデータを取得し、当該一つのトレーニングデータにおける顔キーポイントに対して座標変換を行い、且つ顔キーポイントの座標変換により当該一つのトレーニングデータ中の顔姿勢アノテーション情報に対して、対応する変換を行うことと、変換処理後の顔キーポイントと顔姿勢アノテーション情報を1つの新しいトレーニングデータとしてトレーニングデータセットに加えることとに用いられる。第2のアノテーションモジュール740に具体的に実行される操作については、上記の方法の実施形態での図4中のS410と図5中のS520に対する説明を参照してもよい。ここで、重複する説明を省略する。
(例示的デバイス)
図8は本願を実現するのに適する例示的装置800を示し、装置800は自動車に配置されるコントロールシステム/電子システム、携帯端末(例えば、スマートフォン等)、パーソナルコンピュータ(PC;例えば、デスクトップコンピュータ又はノートパソコン等)、タブレット型コンピュータ及びサーバ等であってよい。図8において装置800は1つ又は複数のプロセッサ、通信部などを含み、前記1つ又は複数のプロセッサは、例えば、1つ又は複数の中央処理ユニット(CPU)801、及び/又は1つ又は複数の画像プロセッサ(GPU)813などであり、プロセッサは、読み取り専用メモリ(ROM)802に記憶された実行可能コマンド又は記憶部808からランダムアクセスメモリ(RAM)803にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部812はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはIB(Infiniband)ネットワークカードを含んでよいが、それに限定されない。プロセッサは読み取り専用メモリ802及び/又はランダムアクセスメモリ803と通信して実行可能コマンドを実行し、通信バス804を介して通信部812に接続され、通信部812を介して他のターゲットデバイスと通信してよく、それにより本願における対応のステップを完成する。
上記各コマンドに実行される操作については上記の方法の実施例での関連説明を参照してもよく、ここで詳細な説明を省略する。また、RAM803には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。CPU801、ROM802及びRAM803は、通信バス804を介して相互に接続される。RAM803を有する場合に、ROM802は選択可能なモジュールである。RAM803は実行可能コマンドを格納するか、または動作時に実行可能コマンドをROM802に書き込み、実行可能コマンドによって中央処理ユニット801に上記方法に含まれるステップを実行させる。
入力/出力(I/O)インタフェース805も通信バス804に接続される。通信部812は、統合的に設置されてもよく、複数のサブモジュール(例えば複数のIBネットワークカード)を有し、それぞれバスに接続されるように設置されてもよい。キーボード、マウスなどを含む入力部806と、陰極線管(CRT)、液晶ディスプレイー(LCD)など及びスピーカなどを含む出力部807と、ハードディスクなどを含む記憶部808と、LANカード、モデムなどのネットワークインタフェースカードを含む通信部809とがI/Oインタフェース805に接続されている。通信部809は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ810も必要に応じてI/Oインタフェース805に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体811は、必要に応じてドライブ810上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部808にインストールする。
なお、図8に示す構造は選択可能な一実施形態に過ぎず、具体的な実践過程では、実際の必要に応じて上記図8の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばGPUとCPUは分離設置するかまたはGPUをCPUに統合するようにしてよく、通信部は分離設置するか、またはCPUやGPUに統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。特に、本願の実施形態によれば、以下フローチャートを参照しながら記載するプロセスはコンピュータソフトウェアプログラムとして実現でき、例えば、本願の実施形態はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示すステップを実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願により提供される方法中のステップを対応して実行する対応のコマンドを含んでよい。このような実施形態では、該コンピュータプログラムは通信部809によってネットワークからダウンロード及びインストールされ、及び/又はリムーバブル媒体811からインストールされ得る。中央処理ユニット(CPU)801によって該コンピュータプログラムを実行する時に、本願に記載された上記の対応のステップを実現するコマンドを実行する。
1つ又は複数の選択可能な実施形態では、本開示の実施例は、コンピュータ読取可能コマンドを記憶するためのコンピュータプログラム製品であって、前記コマンドが実行される時にコンピュータに上記のいずれか1つの実施例に記載の顔姿勢解析方法又はニューラルネットワークのトレーニング方法又は運転状態監視方法を実行させるコンピュータプログラム製品を更に提供する。該コンピュータプログラム製品は具体的にはハードウェア、ソフトウェア又はそれらの組合せにより実現可能である。選択可能な一例において、前記コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として実現され、別の選択可能な一例において、前記コンピュータプログラム製品は具体的には、例えばソフトウェア開発キット(Software Development Kit、SDK)などのソフトウェア製品として実現される。
1つ又は複数の選択可能な実施形態では、本開示の実施例は、別の顔姿勢解析方法、ニューラルネットワークのトレーニング方法、運転状態監視方法及びそれに対応する装置と電子デバイス、コンピュータ記憶媒体、コンピュータプログラム並びにコンピュータプログラム製品を更に提供し、この方法は、第2の装置に上記のいずれか1つの可能な実施例における顔姿勢解析方法又はニューラルネットワークトレーニング方法又は運転状態監視方法を実行させるための顔姿勢解析指示又はニューラルネットワークトレーニング指示又は運転状態監視指示を第1の装置により第2の装置に送信することと、第1の装置により第2の装置から送信される顔姿勢解析結果又はニューラルネットワークトレーニング結果又は運転状態監視結果を受信することと、を含む。
いくつかの実施例では、この顔姿勢解析指示又はニューラルネットワークトレーニング指示又は運転状態監視指示は具体的に呼び出しコマンドであってもよく、第1の装置は、呼び出すことで顔姿勢解析操作又はニューラルネットワークトレーニング操作又は運転状態監視操作を実行させるように第2の装置に指示することができ、それに対して、第2の装置は、呼び出しコマンドを受信したことに応答して、上記顔姿勢解析方法又はニューラルネットワークのトレーニング方法又は運転状態監視方法のいずれか1つの実施例中のステップ及び/又は流れを実行することができる。
本開示の実施例における「第1の」、「第2の」などの用語は区別するためのものに過ぎず、本開示の実施例に対する限定と理解してはならないことを理解すべきである。更に、本開示では、「複数の」は2つ又は2つ以上を指してよく、「少なくとも1つの」は1つ、2つ又は2つ以上を指してよいことを理解すべきである。
更に、本開示で言及された任意の部材、データ又は構造は、明確に限定され又は明細書の前後で反対的に示唆された場合でなければ、一般的には1つ又は複数と理解してよいことを理解すべきである。
更に、本開示ではそれぞれの実施例についての説明はそれぞれの実施例の相違点を重点として強調し、その同一又は類似的な点について相互に参照してよく、簡単化するために、ここで一つずつに繰り返して説明しないことを理解すべきである。
本願の方法、装置、電子デバイス及びコンピュータ読み取り可能記憶媒体は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本願の方法、装置、電子デバイス及びコンピュータ読み取り可能記憶媒体を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読コマンドを含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。
本願の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本願の原理及び実際応用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。

Claims (19)

  1. 顔画像の顔キーポイントを取得することと、
    前記顔画像の顔キーポイントをニューラルネットワークに入力して、前記ニューラルネットワークから出力される前記顔画像の顔姿勢情報を取得することと、を含み、
    前記ニューラルネットワークのトレーニング方法は、
    トレーニングデータセットから、顔キーポイントと顔姿勢アノテーション情報を含むトレーニングデータを取得することと、
    前記トレーニングデータにおける顔キーポイントを、トレーニング対象であるニューラルネットワークに入力して、前記トレーニング対象であるニューラルネットワークから出力される顔姿勢情報を取得することと、
    前記トレーニング対象であるニューラルネットワークから出力される顔姿勢情報と前記トレーニングデータ中の顔姿勢アノテーション情報との差をガイダンス情報として、前記トレーニング対象であるニューラルネットワークに対して教師あり学習を行うこととを、含むことを特徴とする顔姿勢解析方法。
  2. 前記顔姿勢情報は、
    X軸を中心に回転する情報、Y軸を中心に回転する情報及びZ軸を中心に回転する情報のうちの少なくとも1つを含むことを特徴とする請求項1に記載の方法。
  3. 前記顔画像の顔キーポイントを取得することは、
    畳み込みニューラルネットワークを用いて被処理顔画像の顔キーポイントを取得することを含み、
    前記顔画像の顔キーポイントをニューラルネットワークに入力することは、
    前記被処理顔画像の顔キーポイントに対して座標正規化処理を行い、座標正規化処理後の顔キーポイントをニューラルネットワークに入力することを含むことを特徴とする請求項1又は2に記載の方法。
  4. 前記ニューラルネットワークは、顔キーポイントと顔姿勢アノテーション情報を含むトレーニングデータに基づいて予めトレーニングして得られるものであり、
    前記ニューラルネットワークは、正規化線形ユニットを備えた少なくとも2つの全結合層と出力層とされる1つの全結合層とを含むことを特徴とする請求項1〜3のいずれか一項に記載の方法。
  5. 前記X軸を中心に回転する情報は、X軸を中心に回転する角度を含み、及び/又は、
    前記Y軸を中心に回転する情報は、Y軸を中心に回転する角度を含み、及び/又は
    前記Z軸を中心に回転する情報は、Z軸を中心に回転する角度を含むことを特徴とする請求項2又は4に記載の方法。
  6. 前記顔画像の顔姿勢情報に基づいて、前記顔画像に対して、顔識別、顔変形処理、美顔処理、メイクアップ処理、顔の画像レンダリング処理、顔状態検出処理、表情検出処理、器官微細位置決定処理及び運転状態決定処理のうちの少なくとも1つを含む処理を行うことを更に含むことを特徴とする請求項1〜5のいずれか一項に記載の方法。
  7. 前記トレーニングデータセットにおけるトレーニングデータの生成方法は、
    顔画像サンプルの顔キーポイントを取得することと、
    前記顔画像サンプルの顔キーポイントに基づいて、3次元顔モデルを用いて前記顔画像サンプルの顔姿勢アノテーション情報を決定することと、を含み、
    前記顔画像サンプルの顔キーポイントと顔画像サンプルの顔姿勢アノテーション情報が、トレーニングデータセットにおける1つのトレーニングデータとされることを特徴とする請求項に記載の方法。
  8. 前記顔画像サンプルの顔キーポイントに基づいて、3次元顔モデルを用いて前記顔画像サンプルの顔姿勢アノテーション情報を決定することは、
    勾配降下法により3次元顔モデルのパラメータを調整して、前記顔画像サンプルの顔キーポイントとパラメータ調整後の3次元顔モデルの顔キーポイントとを投影して得られた2次元顔キーポイントの間の距離の和を最適化して、前記顔画像サンプルの顔姿勢アノテーション情報を決定することを含み、
    前記の3次元顔モデルのパラメータを調整することは、
    3次元顔モデルの位置、3次元顔モデルの姿勢及び3次元顔モデルの表情のうちの少なくとも1つを調整することを含むことを特徴とする請求項に記載の方法。
  9. 前記トレーニングデータセットにおけるトレーニングデータの生成方法は、
    トレーニングデータセットにおける1つのトレーニングデータを取得し、当該一つのトレーニングデータにおける顔キーポイントに対して座標変換を行い、且つ顔キーポイントの座標変換により当該一つのトレーニングデータ中の顔姿勢アノテーション情報に対して、対応する変換を行うことと、
    変換処理後の顔キーポイントと顔姿勢アノテーション情報とを1つの新しいトレーニングデータとして前記トレーニングデータセットに加えることと、を含むことを特徴とする請求項1〜8のいずれか一項に記載の方法。
  10. 顔が正面顔である時に、顔キーポイントの、Y軸を中心に回転する情報とZ軸を中心に回転する角情報がいずれも回転していないことを示すとした場合に、前記の当該一つのトレーニングデータにおける顔キーポイントに対して座標変換を行い、且つ顔キーポイントの座標変換により当該一つのトレーニングデータ中の顔姿勢アノテーション情報に対して、対応する変換を行うことは、当該一つのトレーニングデータにおける顔キーポイントのX軸座標に対してミラーリング処理を行い、且つ当該一つのトレーニングデータ中の顔姿勢アノテーション情報中のY軸を中心に回転する情報とZ軸を中心に回転する情報とに対してそれぞれ負の値をとることを含み、
    又は、
    前記の当該一つのトレーニングデータにおける顔キーポイントに対して座標変換を行い、且つ顔キーポイントの座標変換により当該一つのトレーニングデータ中の顔姿勢アノテーション情報に対して、対応する変換を行うことは、当該一つのトレーニングデータにおける顔キーポイントの座標を所定の角度で2次元回転させ、且つこの所定の角度に基づいて、当該一つのトレーニングデータ中の顔姿勢アノテーション情報中のZ軸を中心に回転する情報を調整することを含むことを特徴とする請求項に記載の方法。
  11. 請求項1〜10のいずれか一項に記載の顔姿勢解析方法を用いて、車載カメラにより収集された運転者画像の顔姿勢情報を得ることと、
    所定時間内の運転者画像の顔姿勢情報に基づいて、注意散漫運転状態及び疲労運転状態のうちの少なくとも1つを含む運転者の運転状態を決定することと、を含むことを特徴とする運転状態監視方法。
  12. 所定時間内の運転者画像の顔キーポイントにより運転者の開眼閉眼動作を決定することを更に含み、前記の所定時間内の運転者画像の顔姿勢情報に基づいて、運転者の運転状態を決定することは、所定時間内の運転者画像の顔姿勢情報及び前記開眼閉眼動作に基づいて、運転者の運転状態を決定することを含み、
    又は、
    所定時間内の運転者画像の顔キーポイントに基づいて、運転者の開口閉口動作を決定することを更に含み、前記の所定時間内の運転者画像の顔姿勢情報に基づいて、運転者の運転状態を決定することは、所定時間内の運転者画像の顔姿勢情報及び前記開口閉口動作に基づいて、運転者の運転状態を決定することを含むことを特徴とする請求項11に記載の方法。
  13. 運転者画像の手部キーポイントを取得することと、
    所定時間内の運転者画像の顔キーポイントと手部キーポイントに基づいて、運転者の手の顔部領域での滞留状態を決定することと、を更に含み、
    前記の所定時間内の運転者画像の顔姿勢情報に基づいて、運転者の運転状態を決定することは、
    所定時間内の運転者画像の顔姿勢情報及び前記滞留状態に基づいて、運転者の運転状態を決定することを含むことを特徴とする請求項11に記載の方法。
  14. 所定時間内の運転者画像の顔キーポイントに基づいて、運転者の顔向き方向を決定することを更に含み、
    前記の所定時間内の運転者画像の顔姿勢情報に基づいて、運転者の運転状態を決定することは、
    所定時間内の運転者画像の顔姿勢情報及び前記顔向き方向に基づいて、運転者の運転状態を決定することを含むことを特徴とする請求項11に記載の方法。
  15. 前記の運転者の運転状態を決定したに、
    前記運転者の運転状態が所定の警告条件を満たしたことに応答して、
    警告通知情報を出力する操作、
    クラウドサーバ又は所定の関連付け通信端末に情報を送信する操作であって、前記情報が、前記運転者の運転状態、前記運転者の運転状態に対応する少なくとも1フレームの運転者画像のうちの少なくとも1つを含む操作、
    の少なくとも一項を実行することを更に含み、ことを特徴とする請求項11〜14のいずれか一項に記載の方法。
  16. 顔画像の顔キーポイントを取得するためのキーポイント取得モジュールと、
    前記顔画像の顔キーポイントをニューラルネットワークに入力して、前記ニューラルネットワークから出力される前記顔画像の顔姿勢情報を取得するための姿勢取得モジュールと、を含み、
    前記ニューラルネットワークは、
    トレーニングデータセットから、顔キーポイントと顔姿勢アノテーション情報を含むトレーニングデータを取得することと、
    前記トレーニングデータにおける顔キーポイントを、トレーニング対象であるニューラルネットワークに入力して、前記トレーニング対象であるニューラルネットワークから出力される顔姿勢情報を取得することと、
    前記トレーニング対象であるニューラルネットワークから出力される顔姿勢情報と前記トレーニングデータ中の顔姿勢アノテーション情報との差をガイダンス情報として、前記トレーニング対象であるニューラルネットワークに対して教師あり学習を行うこととを実施することによって、トレーニングされることを特徴とする顔姿勢解析装置。
  17. 請求項16に記載の顔姿勢解析装置を用いて、車載カメラにより収集された運転者画像の顔姿勢情報を得るものと、
    所定時間内の運転者画像の顔姿勢情報に基づいて、注意散漫運転状態及び疲労運転状態のうちの少なくとも1つを含む運転者の運転状態を決定するための運転状態決定モジュールと、を含むことを特徴とする運転状態監視装置。
  18. コンピュータプログラムを記憶するためのメモリと、
    前記メモリに記憶されたコンピュータプログラムを実行し、前記コンピュータプログラムが実行される時に、上記請求項1〜15のいずれか一項に記載の方法を実現するためのプロセッサと、を含む電子デバイス。
  19. コンピュータプログラムが記憶されたコンピュータ読み取り可能記憶媒体であって、当該コンピュータプログラムがプロセッサにより実行される時に、上記請求項1〜15のいずれか一項に記載の方法を実現するコンピュータ読み取り可能記憶媒体。
JP2020537835A 2017-12-25 2018-12-24 顔姿勢解析方法、装置、デバイス、記憶媒体及びプログラム Active JP6970305B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711424986.5 2017-12-25
CN201711424986.5A CN109960986A (zh) 2017-12-25 2017-12-25 人脸姿态分析方法、装置、设备、存储介质以及程序
PCT/CN2018/123156 WO2019128932A1 (zh) 2017-12-25 2018-12-24 人脸姿态分析方法、装置、设备、存储介质以及程序

Publications (2)

Publication Number Publication Date
JP2020535568A JP2020535568A (ja) 2020-12-03
JP6970305B2 true JP6970305B2 (ja) 2021-11-24

Family

ID=67021409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020537835A Active JP6970305B2 (ja) 2017-12-25 2018-12-24 顔姿勢解析方法、装置、デバイス、記憶媒体及びプログラム

Country Status (5)

Country Link
US (1) US11341769B2 (ja)
JP (1) JP6970305B2 (ja)
CN (1) CN109960986A (ja)
SG (1) SG11202002740SA (ja)
WO (1) WO2019128932A1 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
CN110059522B (zh) * 2018-01-19 2021-06-25 北京市商汤科技开发有限公司 人体轮廓关键点检测方法、图像处理方法、装置及设备
US10970571B2 (en) * 2018-06-04 2021-04-06 Shanghai Sensetime Intelligent Technology Co., Ltd. Vehicle control method and system, vehicle-mounted intelligent system, electronic device, and medium
US10915769B2 (en) 2018-06-04 2021-02-09 Shanghai Sensetime Intelligent Technology Co., Ltd Driving management methods and systems, vehicle-mounted intelligent systems, electronic devices, and medium
CN110490067A (zh) * 2019-07-11 2019-11-22 平安科技(深圳)有限公司 一种基于人脸姿态的人脸识别方法及装置
CN110555404A (zh) * 2019-08-29 2019-12-10 西北工业大学 基于人体姿态识别的飞翼无人机地面站交互装置及方法
CN110781728B (zh) * 2019-09-16 2020-11-10 北京嘀嘀无限科技发展有限公司 一种人脸朝向估计方法、装置、电子设备及存储介质
CN110956691B (zh) * 2019-11-21 2023-06-06 Oppo广东移动通信有限公司 一种三维人脸重建方法、装置、设备及存储介质
CN111297367A (zh) * 2019-11-26 2020-06-19 北京海益同展信息科技有限公司 一种动物状态监测方法、装置、电子设备及存储介质
CN111368751A (zh) * 2020-03-06 2020-07-03 Oppo广东移动通信有限公司 图像处理方法、装置、存储介质及电子设备
CN111476709B (zh) * 2020-04-09 2023-04-07 广州方硅信息技术有限公司 人脸图像处理方法、装置及电子设备
CN111814573A (zh) * 2020-06-12 2020-10-23 深圳禾思众成科技有限公司 一种人脸信息的检测方法、装置、终端设备及存储介质
CN111768485B (zh) * 2020-06-28 2024-01-12 北京百度网讯科技有限公司 三维图像的关键点标注方法、装置、电子设备及存储介质
CN112200765B (zh) * 2020-09-04 2024-05-14 浙江大华技术股份有限公司 车辆中被误检的关键点的确定方法及装置
CN112165573B (zh) * 2020-09-14 2023-04-18 上海商汤智能科技有限公司 拍摄处理方法和装置、设备、存储介质
CN112183657B (zh) * 2020-10-14 2022-03-01 北京字跳网络技术有限公司 获取标注信息的方法、装置、电子设备和计算机可读介质
CN112287820A (zh) * 2020-10-28 2021-01-29 广州虎牙科技有限公司 人脸检测神经网络及训练方法、人脸检测方法、存储介质
CN112287855B (zh) * 2020-11-02 2024-05-10 东软睿驰汽车技术(沈阳)有限公司 基于多任务神经网络的驾驶行为检测方法和装置
CN112489036A (zh) * 2020-12-14 2021-03-12 Oppo(重庆)智能科技有限公司 图像评价方法、图像评价装置、存储介质与电子设备
CN112622892B (zh) * 2020-12-14 2023-03-24 深圳技术大学 基于人脸和肢体姿态识别的紧急制动方法及系统
CN112699784A (zh) * 2020-12-29 2021-04-23 深圳市普渡科技有限公司 一种人脸朝向估计方法、装置、电子设备及存储介质
CN112734632B (zh) * 2021-01-05 2024-02-27 百果园技术(新加坡)有限公司 图像处理方法、装置、电子设备和可读存储介质
CN112861776A (zh) * 2021-03-05 2021-05-28 罗普特科技集团股份有限公司 一种基于密集关键点的人体姿态分析方法和系统
CN115082978A (zh) * 2021-03-10 2022-09-20 佳能株式会社 面部姿态的检测装置、方法、图像处理系统及存储介质
WO2022234741A1 (en) * 2021-05-05 2022-11-10 Nec Corporation Methods and apparatuses for processing an image
CN113239861B (zh) * 2021-05-28 2024-05-28 多伦科技股份有限公司 驾驶员头部动作的确定方法、存储介质、电子装置
CN113379832B (zh) * 2021-06-23 2022-06-07 南京领行科技股份有限公司 一种摄像头的位姿调整方法、装置、电子设备及存储介质
CN113453034B (zh) * 2021-06-29 2023-07-25 上海商汤智能科技有限公司 数据展示方法、装置、电子设备以及计算机可读存储介质
CN113850198B (zh) * 2021-09-27 2024-06-07 平安科技(深圳)有限公司 基于边缘计算的行为检测方法、装置、介质及计算机设备
CN113947799B (zh) * 2021-11-11 2023-03-14 石家庄学院 三维人脸数据预处理方法及设备
CN114220149A (zh) * 2021-12-09 2022-03-22 东软睿驰汽车技术(沈阳)有限公司 一种头部姿势真值的获取方法、装置、设备及存储介质
CN114496263B (zh) * 2022-04-13 2022-07-12 杭州研极微电子有限公司 用于体重指数估计的神经网络模型建立方法及存储介质
CN114549711B (zh) * 2022-04-27 2022-07-12 广州公评科技有限公司 一种基于表情肌定位的视频智能渲染方法和系统
GB2621863A (en) * 2022-08-25 2024-02-28 Continental Automotive Tech Gmbh Pose classification and in-cabin monitoring methods and associated systems
CN116597427B (zh) * 2023-07-18 2023-10-20 山东科技大学 一种基于深度学习的舰船驾驶台身份识别方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060011399A1 (en) 2004-07-15 2006-01-19 International Business Machines Corporation System and method for controlling vehicle operation based on a user's facial expressions and physical state
JP4501937B2 (ja) 2004-11-12 2010-07-14 オムロン株式会社 顔特徴点検出装置、特徴点検出装置
JP4795281B2 (ja) * 2007-03-15 2011-10-19 本田技研工業株式会社 車両の安全装置
JP5451302B2 (ja) * 2009-10-19 2014-03-26 キヤノン株式会社 画像処理装置及び方法、プログラム及び記憶媒体
US9405982B2 (en) * 2013-01-18 2016-08-02 GM Global Technology Operations LLC Driver gaze detection system
CN103605965A (zh) * 2013-11-25 2014-02-26 苏州大学 一种多姿态人脸识别方法和装置
CN105096528B (zh) 2015-08-05 2017-07-11 广州云从信息科技有限公司 一种疲劳驾驶检测方法及系统
EP3345127A4 (en) 2015-08-31 2019-08-21 SRI International METHOD AND SYSTEM FOR MONITORING DRIVING BEHAVIORS
CN105389570A (zh) * 2015-11-19 2016-03-09 吴建忠 一种人脸角度判定方法及其系统
CN106897658B (zh) * 2015-12-18 2021-12-14 腾讯科技(深圳)有限公司 人脸活体的鉴别方法和装置
CN105354565A (zh) 2015-12-23 2016-02-24 北京市商汤科技开发有限公司 基于全卷积网络人脸五官定位与判别的方法及系统
CN105719248B (zh) * 2016-01-14 2019-06-21 深圳市商汤科技有限公司 一种实时的人脸变形方法及其系统
CN105760836A (zh) * 2016-02-17 2016-07-13 厦门美图之家科技有限公司 基于深度学习的多角度人脸对齐方法、系统及拍摄终端
CN106257489A (zh) * 2016-07-12 2016-12-28 乐视控股(北京)有限公司 表情识别方法及系统
CN106203376B (zh) 2016-07-19 2020-04-10 北京旷视科技有限公司 人脸关键点定位方法及装置
CN106339680B (zh) 2016-08-25 2019-07-23 北京小米移动软件有限公司 人脸关键点定位方法及装置
CN106384098B (zh) * 2016-09-23 2019-11-26 北京小米移动软件有限公司 基于图像的头部姿态检测方法、装置以及终端
CN106651910A (zh) * 2016-11-17 2017-05-10 北京蓝天多维科技有限公司 驾驶员异常行为状态的智能图像分析方法和告警系统
CN106909879A (zh) 2017-01-11 2017-06-30 开易(北京)科技有限公司 一种疲劳驾驶检测方法及系统
CN107038429A (zh) * 2017-05-03 2017-08-11 四川云图睿视科技有限公司 一种基于深度学习的多任务级联人脸对齐方法
CN107194381A (zh) * 2017-07-06 2017-09-22 重庆邮电大学 基于Kinect的驾驶员状态监测系统
CN107609519B (zh) * 2017-09-15 2019-01-22 维沃移动通信有限公司 一种人脸特征点的定位方法及装置

Also Published As

Publication number Publication date
CN109960986A (zh) 2019-07-02
WO2019128932A1 (zh) 2019-07-04
SG11202002740SA (en) 2020-04-29
US11341769B2 (en) 2022-05-24
JP2020535568A (ja) 2020-12-03
US20200218883A1 (en) 2020-07-09

Similar Documents

Publication Publication Date Title
JP6970305B2 (ja) 顔姿勢解析方法、装置、デバイス、記憶媒体及びプログラム
US11227147B2 (en) Face image processing methods and apparatuses, and electronic devices
US11747898B2 (en) Method and apparatus with gaze estimation
US10915167B2 (en) Rendering rich media content based on head position information
Hasan et al. RETRACTED ARTICLE: Static hand gesture recognition using neural networks
CN109196526B (zh) 用于生成多模态数字图像的方法和系统
US11481869B2 (en) Cross-domain image translation
US20210174519A1 (en) Scalable Real-Time Hand Tracking
WO2018219198A1 (zh) 一种人机交互方法、装置及人机交互终端
WO2020103700A1 (zh) 一种基于微表情的图像识别方法、装置以及相关设备
US9747695B2 (en) System and method of tracking an object
CN115039166A (zh) 增强现实地图管理
Shukran et al. Kinect-based gesture password recognition
Koutras et al. Estimation of eye gaze direction angles based on active appearance models
US20230040793A1 (en) Performance of Complex Optimization Tasks with Improved Efficiency Via Neural Meta-Optimization of Experts
Jha et al. Estimation of gaze region using two dimensional probabilistic maps constructed using convolutional neural networks
EP4315171A1 (en) Unsupervised learning of object representations from video sequences using attention over space and time
Kacete et al. Unconstrained gaze estimation using random forest regression voting
EP3872768A1 (en) Method for processing two-dimensional image and device for executing method
Mahbub et al. Contactless human monitoring: Challenges and future direction
Moreira et al. Fast and accurate gesture recognition based on motion shapes
Salam Khan Mask segmentation and classification with enhanced grasshopper optimization of 3D hand gestures
Harish et al. Vision‐Based Gesture Recognition: A Critical Review
Uke et al. Optimal video processing and soft computing algorithms for human hand gesture recognition from real-time video
Jhon et al. Simulation of a Wheelchair Control System Based on Computer Vision Through Head Movements for Quadriplegic People

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200325

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211028

R150 Certificate of patent or registration of utility model

Ref document number: 6970305

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250