JP7252348B2 - 注視エリア検出方法とニューラルネットワークトレーニング方法、装置、及びデバイス - Google Patents

注視エリア検出方法とニューラルネットワークトレーニング方法、装置、及びデバイス Download PDF

Info

Publication number
JP7252348B2
JP7252348B2 JP2021540840A JP2021540840A JP7252348B2 JP 7252348 B2 JP7252348 B2 JP 7252348B2 JP 2021540840 A JP2021540840 A JP 2021540840A JP 2021540840 A JP2021540840 A JP 2021540840A JP 7252348 B2 JP7252348 B2 JP 7252348B2
Authority
JP
Japan
Prior art keywords
area
image
neural network
face image
gaze
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021540840A
Other languages
English (en)
Other versions
JP2022517121A (ja
Inventor
▲詩▼▲堯▼ 黄
▲飛▼ 王
晨 ▲錢▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2022517121A publication Critical patent/JP2022517121A/ja
Application granted granted Critical
Publication of JP7252348B2 publication Critical patent/JP7252348B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/197Matching; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Ophthalmology & Optometry (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

<関連出願の互いに引用>
本発明は、出願日が2019年3月18日であり、出願番号が201910204566.9であり、発明名称が「注視エリア検出およびニューラルネットワークのトレーニング方法、装置、及びデバイス」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照として本願に組み入れられる。
本発明は、コンピュータビジョン技術に関し、特に注視エリア検出方法とニューラルネットワークトレーニング方法、装置、及びデバイスに関する。
人工知能と自動車産業の急速な発展に伴い、いくつかの人工知能技術が大量生産された車両に適用されている。注目を集めているある人工知能製品は、ドライバの運転状態をモニタリングするために使用され、たとえば、ドライバが運転中に注意散漫になったか否かをモニタリングすることによって、ドライバの注意散漫がモニタリングされると、ドライバに対して迅速に注意を喚起し、事故のリスクを低減する。
本発明の第1態様は、注視エリア検出用ニューラルネットワークトレーニング方法を提供し、前記方法は、少なくともトレーニングサンプルとする顔画像および当該顔画像に対応する注視エリア種類ラベリング情報を前記ニューラルネットワークに入力することと、前記ニューラルネットワークを利用して入力された前記顔画像に対して特徴抽出を実行し、抽出された特徴に基づいて前記顔画像の注視エリア種類予測情報を確定することと、前記注視エリア種類予測情報と前記注視エリア種類ラベリング情報との間の差異を確定することと、前記差異に基づいて前記ニューラルネットワークのパラメータを調整することと、を含み、ラベリングした注視エリア種類は、指定された空間エリアを事前に分割して得られた複数種類の定義された注視エリアのうちの1つに属する。
本発明の第2態様は、注視エリア検出方法を提供し、前記方法は、指定された空間エリア内で収集された画像内の顔領域をカッティングして顔画像を得ることと、前記顔画像をニューラルネットワークに入力することと、前記ニューラルネットワークを利用して入力された前記顔画像に対して特徴抽出を実行し、抽出された特徴に基づいて前記顔画像に対応する注視エリア検出種類を確定することと、を含み、前記ニューラルネットワークは、事前に、複数の顔画像サンプルおよび当該複数の顔画像サンプルにそれぞれ対応する注視エリア種類ラベリング情報を含むトレーニングサンプルセットを採用してトレーニングされたものであり、ラベリングした注視エリア種類は、事前に前記指定された空間エリアを分割して得られた複数種類の定義された注視エリアのうちの1つに属する。
本発明の第3態様は、注視エリア検出用ニューラルネットワークトレーニング装置を提供し、前記装置は、少なくともトレーニングサンプルとする顔画像および当該顔画像に対応する注視エリア種類ラベリング情報を前記ニューラルネットワークに入力するためのサンプル入力モジュールと、前記ニューラルネットワークを利用して入力された前記顔画像に対して特徴抽出を実行し、抽出された特徴に基づいて前記顔画像の注視エリア種類予測情報を確定するための種類予測モジュールと、前記注視エリア種類予測情報と前記注視エリア種類ラベリング情報との間の差異を確定するための差異確定モジュールと、前記差異に基づいて前記ニューラルネットワークのパラメータを調整するためのパラメータ調整モジュールと、を備え、ラベリングした注視エリア種類は、指定された空間エリアを事前に分割して得られた複数種類の定義された注視エリアのうちの1つに属する。
本発明の第4態様は、注視エリア検出装置を提供し、前記装置は、指定された空間エリア内で収集された画像内の顔領域をカッティングして顔画像を得るための画像取得モジュールと、前記顔画像をニューラルネットワークに入力するための画像入力モジュールと、前記ニューラルネットワークを利用して入力された前記顔画像に対して特徴抽出を実行し、抽出された特徴に基づいて前記顔画像に対応する注視エリア検出種類を確定するための種類検出モジュールと、を備え、前記ニューラルネットワークは、事前に、複数の顔画像サンプルおよび当該複数の顔画像サンプルにそれぞれ対応する注視エリア種類ラベリング情報を含むトレーニングサンプルセットを採用してトレーニングされたものであり、ラベリングした注視エリア種類は、事前に前記指定された空間エリアを分割して得られた複数種類の定義された注視エリアのうちの1つに属する。
本発明の第5態様は、注視エリア検出用ニューラルネットワークのトレーニングデバイスを提供し、前記デバイスは、メモリとプロセッサとを備え、ここで、前記メモリには、当該プロセッサによって実行可能なコンピュータ命令が記憶されており、前記プロセッサが前記コンピュータ命令を実行するときに、本発明の第1態様の注視エリア検出用ニューラルネットワークトレーニング方法が実現される。
本発明の第6態様は、注視エリア検出デバイスを提供し、前記デバイスは、メモリとプロセッサとを備え、ここで、前記メモリには、当該プロセッサによって実行可能なコンピュータ命令が記憶されており、前記プロセッサが前記コンピュータ命令を実行するときに、本発明の第2態様の注視エリア検出方法が実現される。
本発明の第7態様は、コンピュータプログラムが記憶されているコンピュータ可読記録媒体を提供し、前記コンピュータプログラムがプロセッサによって実行されると、当該プロセッサが、本発明の第1態様の注視エリア検出用ニューラルネットワークトレーニング方法、および/または、本発明の第2態様の注視エリア検出方法を、実現するようにする。
本発明の実施例によると、トレーニングサンプルとする顔画像および当該顔画像に対応する注視エリア種類ラベリング情報を利用してニューラルネットワークをトレーニングすることによって、当該ニューラルネットワークを利用して顔画像に対応する注視エリアを直接予測することができるようにする。
本発明の実施例に係る注視エリア検出用ニューラルネットワークトレーニング方法のフローチャートである。 本発明の実施例に係る車両ドライバ注意力モニタリングシナリオにおいて事前に定義された複数の注視エリアの模式図である。 本発明の実施例を適用することができるニューラルネットワークの構成の例を示す。 本発明の実施例に係るニューラルネットワークをトレーニングするための構成を例示する。 本発明のもう1実施例に係るニューラルネットワークをトレーニングするための構成を例示する。 図5中の構成に対応するニューラルネットワークトレーニング方法のフローチャートである。 本発明の実施例に係る目画像を得る模式図である。 本発明のもう1実施例に係るニューラルネットワークトレーニング方法のフローチャートである。 図8に示したニューラルネットワークトレーニング方法に対応する構成を例示する。 本発明の実施例に係る注視エリア検出方法のフローチャートである。 本発明の実施例に係るニューラルネットワークアプリケーションシナリオの模式図である。 図11に示したアプリケーションシナリオにおいてニューラルネットワークが出力する注視エリア検出種類の例を示す。 本発明の実施例に係る注視エリア検出用ニューラルネットワークトレーニング装置のブロック図である。 本発明の実施例に係る注視エリア検出装置のブロック図である。 本発明のもう1実施例に係る注視エリア検出装置のブロック図である。 本発明の実施例に係る注視エリア検出用ニューラルネットワークのトレーニングデバイスのブロック図である。 本発明の実施例に係る注視エリア検出デバイスのブロック図である。
以下、当業者が本発明をより良く理解するようにするために、図面を参照して本発明の実施例を詳細に記述する。当然ながら、記述する実施例は、本発明の一部の実施例に過ぎず、すべての実施例ではない。当業者は、本発明に基づいて、創造的な作業なしに得たすべての他の実施例は、いずれも本発明の保護範囲に含まれるべきである。
本発明で使用される用語は、特定の実施例を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明で使用される「一種」、「前記」、「当該」などの単数形は、文脈が他の意味を明確に示さない限り、複数形を含むことを意図している。本明細書で使用される「および/または」という用語は、1つまたは複数の関連するリストされたアイテムの任意の1つまたはすべての可能な組み合わせを含むことを指すことを理解すべきである。
本発明では、第1、第2、第3などの用語を使用して様々な情報を記述することがあるが、これら情報はこれら用語によって限定されるべきではないことを理解すべきである。これら用語は、同じ種類の情報を互いに区別するためにのみ使用される。たとえば、本開示の範囲から逸脱することなく、第1の情報は、第2の情報とも呼ばれ得、同様に、第2の情報は、第1の情報とも呼ばれ得る。文脈に応じて、本明細書で使用される「もし」という単語は、「…場合」、「…すると」、または、「…ことに応答して」と解釈することができる。
本発明の実施例は、注視エリア検出用ニューラルネットワークトレーニング方法を提供する。図1に示したように、当該トレーニング方法は、ステップ100~106を含み得る。
ステップ100において、少なくともトレーニングサンプルとする顔画像および当該顔画像に対応する注視エリア種類ラベリング情報をニューラルネットワークに入力する。前記のニューラルネットワークは、たとえば畳み込みニューラルネットワーク、ディープニューラルネットワークなどを含み得る。
前記の顔画像は、具体的な注視エリア検出シナリオで収集した画像であり得る。注視エリア検出シナリオは、多くあり、たとえば、人の注視エリアを検出することによって人のスマートデバイスに対する制御意図を自動的に把握するシナリオ、人の注視エリアを検出することによって人の好みまたは希望を得るシナリオ、および、ドライバの注視エリアを検出することによってドライバの運転注意力集中度を判断するシナリオなどがある。異なるシナリオにおいて、当該シナリオでの目標人の顔画像を収集することができる。
ラベリングした注視エリア種類は、指定された空間エリアを事前に分割して得られた複数種類の定義された注視エリアのうちの1つに属する。たとえば、上記の注視エリア検出シナリオのいずれにおいても、1つの空間エリアを事前に指定することができる。顔画像に対応する注視エリア検出は、当該顔画像内の人が注視しているエリアが、前記指定された空間エリア内のどの位置かを検出することである。異なる注視位置は、異なる意味に対応される。たとえば、異なる注視位置は、ドライバの異なる運転注意力集中度を表すことができる。また、たとえば、異なる注視位置は、目標人の異なる意図を表すことができる。異なる意味を区分するために、前記の指定された空間エリアを複数の異なるサブエリアに分割することができ、各々のサブエリアをいずれも1つの注視エリアとして呼ばれることができる。また、これら注視エリアを、それぞれ、注視エリアA、注視エリアBなど、または、注視エリア5、注視エリア6などの異なる識別子を利用して区分することができる。上記のA、B、5、6などは、いずれも注視エリア種類として呼ばれることができる。当該注視エリア種類の定義は、ニューラルネットワークのトレーニングを容易にすることができ、事前にラベリングした種類をトレーニングおよびテストのためのラベルとして使用することができる。
ステップ102において、前記ニューラルネットワークを利用して入力された前記顔画像に対して特徴抽出を実行し、抽出された特徴に基づいて前記顔画像の注視エリア種類予測情報を確定する。
ニューラルネットワークが入力された顔画像から抽出した特徴は、当該顔画像の複数種類の画像特徴を含む。これら抽出された特徴に基づいて、当該顔画像の注視エリア種類予測情報を出力することができ、当該注視エリア種類予測情報は、事前に定義された某個の注視エリアの種類であり得る。たとえば、当該種類は、文字または数字で表すことができる。例示的に、1つの顔画像は、ニューラルネットワークによって特徴が抽出された後に出力される注視エリア種類予測情報が、「5」であり、すなわち注視エリア5である。
ステップ104において、当該注視エリア種類予測情報と当該顔画像に対応する注視エリア種類ラベリング情報との間の差異を確定する。たとえば、損失関数を利用して注視エリア種類予測情報と注視エリア種類ラベリング情報との間の差異を確定することができる。
ステップ106において、前記差異に基づいて前記ニューラルネットワークのパラメータを調整する。たとえば、勾配バックプロパゲーション法によってニューラルネットワークのパラメータを調整することができる。
本実施例によると、トレーニングサンプルとする顔画像および当該顔画像に対応する注視エリア種類ラベリング情報を利用してニューラルネットワークをトレーニングすることによって、当該ニューラルネットワークを利用して顔画像に対応する注視エリアを直接予測することができるようにする。すなわち、ドライバの視線が少しずらされたり変更されたりしても、検出結果に影響を与えないため、検出のフォールトトレランスを向上させることができる。
以下のような記述において、当該注視エリア検出用ニューラルネットワークトレーニング方法に対してより詳細に記述する。以下では、車両ドライバ注意力モニタリングシナリオを例として、当該トレーニング方法を記述し、ここで、ニューラルネットワークに入力する顔画像は、車の空間エリア内の運転エリアに対して収集した画像に基づいて確定される。たとえば、運転エリアに対して1つの画像を収集し、当該画像内の顔領域をカッティングして車両ドライバの顔画像を得ることができる。また、当該車両ドライバ注意力モニタリングシナリオにおいて、事前に定義された注視エリアは、ドライバが運転中に注視する可能性がある複数のエリアであり得る。
ただし、その他のシナリオに対しても、同様に当該同じトレーニング方法を適用され得、違いは、ニューラルネットワークに入力する顔画像がアプリケーションシナリオによって異なる可能性があり、また異なるシナリオにおいて注視エリアが位置する指定された空間エリアも異なる可能性があることを、理解すべきである。例示的に、指定された空間エリアは、車両の空間エリアであってもよいし、その他の空間エリアであってもよく、たとえば、特定のスマートデバイスが位置されている空間であってもよい。車両の空間エリアであっても、ドライバ注意力モニタリングではないシナリオにおいて図2に例示されたエリア以外の他の車両空間エリアであり得る。
車両ドライバ注意力モニタリングの適用において、交通事故を減らし、運伝の安全性を改善するための1つの可能な措置は、ドライバの注視エリアをモニタリングドすることによって、ドライバが注意散漫になっているか否かを判断することである。ドライバの注視エリアとは、指定された空間エリアを事前に分割して得られた複数種類の定義された注視エリアの中の、ドライバが現在注視しているエリアを指す。当該指定された空間エリアは、車両の構成によって決定され得、また複数の注視エリアに分割され得る。前記の複数の注視エリアを異なる注視エリア種類としてそれぞれ定義することができ、各種類の種類を該当する識別子で示すことができる。たとえば、ある注視エリアの種類を、Bとして定義する。
図2は、本発明の実施例に係る車両ドライバ注意力モニタリングシナリオにおいて事前に定義された複数の注視エリアを示す。たとえば、前記の複数の注視エリアは、左フロントガラス21、右フロントガラス22、インストルメントパネル23、左バックミラー24、右バックミラー25、インテリアミラー26、センターコンソール27、遮陽板28、シフトレバー29、ステアリングホイールの下方30と副操縦士エリア、および、副操縦士の前方のグローブボックスエリアなどを含み得る。以上は例示的な幾つかに過ぎず、実際に要求に従って、注視エリアの数を増加または減少したりすることができ、また注視エリアの範囲を拡大縮小することができることに注意する必要がある。
ドライバ注視エリアの検出を通じてドライバが注意散漫になっているか否かを判断するときに、以下のような方式によって実行することができ、たとえば、正常に運転しているときに、ドライバの注視エリアは通常に主にフロントガラス21にあり、もし一定の時間内でドライバの注視エリアがずっとインストルメントパネル23に集中されていることがモニタリングされると、ドライバが注意散漫になっていると確定することができる。
上記のように、エンドツーエンドの注視エリアを検出するためのニューラルネットワークを提供することができ、当該ニューラルネットワークは、車両内ドライバの注視エリアの検出に用いられることができる。当該ニューラルネットワークの入力は、カメラによって収集されたドライバ顔画像であり得、ニューラルネットワークは、当該ドライバの注視エリアの識別子を直接出力することができる。たとえば、ニューラルネットワークによってドライバの注視エリアが右フロントガラス22であるとして検出されると、ニューラルネットワークは右フロントガラス22の識別子である「B」を直接出力することができる。このようなエンドツーエンドのニューラルネットワークは、ドライバの注視エリアをより速く検出することができる。
以下、ドライバ注視エリアを検出するためのニューラルネットワークのトレーニングおよび当該ニューラルネットワークの実際の適用を詳細に記述する。
<ドライバ注視エリアを検出するためのニューラルネットワークのトレーニング>
「サンプルの用意」
ニューラルネットワークをトレーニングする前に、まず、サンプルセットを用意し、当該サンプルセットは、ニューラルネットワークをトレーニングするためのトレーニングサンプル、および、ニューラルネットワークをテストするためのテストサンプルを含み得る。
サンプルを収集するために、検出待ちの各注視エリアを事前に確定することができる。たとえば、例示的に、図2中に示した10個の注視エリア事前に確定する。当該ニューラルネットワークをトレーニングする目的は、ニューラルネットワークが、入力されたドライバ顔画像がこれら10個の注視エリアの中のどの注視エリアに対応されているかを自動的に検出することである。また、上記の10個の注視エリアに対してそれぞれ該当する識別子を指定することができ、たとえば、シフトレバー識別子を「A」に指定し、右フロントガラス識別子を「B」に指定することができ、当該識別子は、後続のニューラルネットワークのトレーニングとテストを容易にする。上記の識別子は、後続の記述で注視エリアの「種類」と呼ばれ得る。
各注視エリアおよび対応する種類を確定した後に、被収集者が車両内のドライバ位置に座って上記の10個の注視エリアを順に注視するように指示することができる。被収集者がその中の1つの注視エリアを注視するたびに、車両内に装着されたカメラを利用して当該注視エリアに対応するドライバ顔画像を収集することができる。各々の注視エリアに対して、当該被収集者の複数の顔画像を収集することができる。
各注視エリアの種類と当該注視エリアに対して収集した顔画像との間の対応関係を構築し、ここで、前記「種類」は、該当する顔画像の注視エリア種類ラベリング情報として使用することができ、すなわち各顔画像は、ドライバが前記種類ラベリング情報に対応する注視エリアを注視するときに収集した画像である。最後に、収集した大量のサンプルをトレーニングセットとテストセットとに分割することができ、トレーニングセット中のトレーニングサンプルは、ニューラルネットワークをトレーニングするために用いられ、テストセット中のテストサンプルは、ニューラルネットワークをテストするために用いられる。各々のトレーニングサンプルは、ドライバの1つの顔画像と当該顔画像に対応する注視エリア種類ラベリング情報とを含み得る。
「ニューラルネットワーク構成の確定」
本発明の実施例において、ドライバ注視エリアを検出するためのニューラルネットワークをトレーニングすることができる。たとえば、当該ニューラルネットワークは、畳み込みニューラルネットワーク(Convolutional Neural Networks: CNN)、または、ディープニューラルネットワークなどであり得る。選択的に、当該ニューラルネットワークは、畳み込み層(Convolutional Layer)、プーリング層(Pooling Layer)、修正線性ユニット(Rectified Linear Unit、ReLU)層、完全接続層(Fully Connected Layer)などのネットワークユニットを含み得、ここで上記のネットワークユニットは、一定の方式に従って積み上げられる。
図3は、本発明の実施例を適用することができるCNN300のネットワーク構成の例を示す。
図3に示したように、CNN300は、特徴抽出層301を利用して入力画像302から特徴を抽出することができる。当該特徴抽出層301は、たとえば交互に互いに接続された複数の畳み込み層とプーリング層とを含み得る。各畳み込み層は、複数の畳み込みカーネルを介して画像内の異なる特徴をそれぞれ抽出して、特徴マップ(Feature Map)303を得ることができる。各プーリング層は、該当する畳み込み層の後に位置し、当該特徴マップに対して局所的な平均化およびダウンサンプリングの操作を実行することによって、特徴マップの解像度を下げることができる。畳み込み層とプーリング層の数が増えると、特徴マップの数が徐々に増加し、特徴マップの解像度が徐々に低下する。
特徴抽出層301によって最終に抽出された特徴マップ中の各特徴をタイリングすることによって、1つの特徴ベクトル304を完全接続層305の入力ベクトルとして得ることができる。当該完全接続層305は、複数の隠れ層を利用して特徴ベクトル304を分類器の入力ベクトル306に変換することができる。当該CNNをトレーニングする目的が、入力画像302がどの注視エリアに対応されるかを検出することであるため、完全接続層305は最後に分類器を介して1つの分類ベクトル307を出力する必要があり、ここで、当該分類ベクトル307は、入力画像がそれぞれ各注視エリアに対応される確率を含む。当該入力ベクトル306に含まれた要素の数は、分類ベクトル307の要素の数と同じであり、いずれも検出待ちの注視エリアの数である。
当該CNNをトレーニングする前に、一部のパラメータを設定することができる。たとえば、特徴抽出層301に含まれた畳み込み層およびプーリング層の数を設定し、各々の畳み込み層に使用される畳み込みカーネルの数を設定することができ、さらに、畳み込みカーネルのサイズの大きさなどを設定することができる。畳み込みカーネルの値、完全接続層の重みなどのパラメータについては、CNNネットワークの反復トレーニングを通じて自己学習することができる。具体的なCNNネットワークトレーニング方法は、従来のトレーニング方式を採用することができ、これ以上詳しく説明しない。
トレーニングサンプルおよび初期化CNNネットワーク構成を用意した上で、ニューラルネットワークのトレーニングを実行し始めることができる。以下、ドライバ注視エリアを検出するためのニューラルネットワークをトレーニングするための幾つかの例を記述する。
「ニューラルネットワークをトレーニングするための方式1」
図4は、本発明の実施例に係るニューラルネットワークをトレーニングするための構成をしめし、ここで、CNNネットワークの構成は、図3に示したように、トレーニングサンプル中の顔画像をCNNネットワークに入力することができる。
例示的に、前記の顔画像は、車両内に装着されたカメラによって収集されたドライバの上半身の画像に基づいて、得られたものである。上半身の画像は、撮影範囲がより大きい画像であり得、たとえば、顔、肩、首などの部位を含み得る。顔検出を通じて上半身の画像を主にドライバ顔を含む顔画像にカッティングすることができる。
ニューラルネットワークは、入力された顔画像から画像特徴を抽出し、当該画像特徴に基づいて当該顔画像に対応する注視エリアの種類予測情報を出力することができ、すなわち予測当該顔画像は、ドライバがある種類の注視エリアを注視しているときに収集されたものである。当該顔画像に対応する注視エリアは、ドライバが乗っている車両の構成によって事前に分割した複数の注視エリアの中の1つであり、前記種類は、前記注視エリアの識別子として使用される。
たとえば、CNNネットワークは、畳み込み層、プーリング層、完全接続層を利用して入力された顔画像に対して処理を実行して後に、分類ベクトルを出力することができ、当該分類ベクトルは、入力画像がそれぞれ各注視エリアに対応される確率を含み得る。図4に示したように、 「A」、「B」、「C」、…、「J」は、それぞれ10個の注視エリアの種類を表し、「0.2」は、「入力画像が注視エリアAに対応される確率が20%であること」を表し、「0.4」は、「入力画像が注視エリアJに対応される確率が40%であること」を表す。Jに対応する確率がいちばん高いと仮定すると、「J」は今回入力された顔画像に対してCNNネットワークによって得られた注視エリアの種類予測情報である。事前にラベリングした当該顔画像に対応する注視エリア種類ラベリング情報がCであると、種類予測情報(J)と種類ラベリング情報(C)との間に明らかに差異が存在する。種類予測情報と種類ラベリング情報との間の差異に基づいて損失関数の損失(loss)値を得ることができる。
トレーニングサンプルを複数の画像サブグループ(batch)に分割することによって、ニューラルネットワークに対して反復トレーニングを実行することができる。反復トレーニングを実行するたびに、ニューラルネットワークに1つの画像サブグループを入力することができる。入力された画像サブグループ中の各トレーニングサンプルに対して、ニューラルネットワークは種類予測結果を出力し、損失値をニューラルネットワークにフィードバックしてニューラルネットワークのパラメータを調整するようにすることができ、たとえば完全接続層の重み、畳み込みカーネルの値などのパラメータを調整することができる。今回の反復トレーニングが完了された後に、ニューラルネットワークに次の1つの画像サブグループを入力することによって、次の1回の反復トレーニングを実行することができる。異なる画像サブグループに含まれたトレーニングサンプルの少なくとも一部が異なっている。予定のトレーニング終了条件に達すると、トレーニングが完了されたCNNネットワークを、ドライバ注視エリアを検出するためのニューラルネットワークとして得ることができる。前記の予定トレーニング終了条件は、たとえば、損失値が一定の閾値よりも小さいこと、または、予定の反復トレーニング回数に達したことであり得る。
本実施例のトレーニングによって得られたニューラルネットワークは、ドライバの顔画像を入力として、当該顔画像に対応する注視エリア検出種類を出力することによって、ドライバの注視エリアを速く検出することができ、後続の注視エリアに基づいてドライバが注意散漫になっているか否かを判断することが容易になる。
「ニューラルネットワークをトレーニングするための方式2」
注視エリアの検出の正確率を向上させるために、本実施例では、ニューラルネットワークの入力構成を調整した。
図5中の構成を参照すると、ニューラルネットワークの入力は、顔画像および目画像を含み得る。目画像は、顔画像からカッティングして得られたものであり得る。たとえば、顔画像から、目キーポイント、鼻キーポイント、眉毛キーポイントなどの、顔のキーポイントを検出することができる。続いて、検出されたキーポイントに基づいて顔画像に対してカッティングを実行して、目画像を得ることができ、当該目画像は、主にドライバの目を含む。
前記の目画像は、左眼画像および右眼画像の中の少なくとも1つを含み得ることを説明する必要がある。たとえば、ニューラルネットワークの入力は、顔画像および左眼画像を含むか、顔画像および右眼画像を含むか、または、顔画像、左眼画像、および、右眼画像を含み得る。図5は、顔画像および左眼と右眼画像を同時に入力する例を示した。
顔画像および目画像を同時にニューラルネットワークに入力してトレーニングを実行することによって、ニューラルネットワークが顔部と目の特徴を同時に学習することができるようにして、特徴の多様性および表現能力を増加して、トレーニングされた後のニューラルネットワークが注視エリア種類をより正確に検出するようにする。
図6は、図5中の構成に対応するニューラルネットワークトレーニング方法のフローチャートである。図6に示したように、当該トレーニング方法は、ステップ600~612を含み得る。
ステップ600において、目キーポイントなどの、前記顔画像内の顔キーポイントを、検出する。
ステップ602において、前記顔キーポイントに基づいて前記顔画像をカッティングして、顔画像内の目を含む目画像を得る。
たとえば、当該目画像内には、ドライバの目が含まれている。当該目画像は、ドライバの左眼画像および右眼画像を含み得る。図7は、顔画像71からカッティングして得られた左眼画像72と右眼画像73を示す。
ステップ604において、前記顔画像と目画像を同じ所定のサイズに調整する。
ステップ606において、サイズを調整した後の顔画像および目画像を同時に同じニューラルネットワークの同じ特徴抽出層に入力する。
ステップ608において、ニューラルネットワークの特徴抽出層によって、前記顔画像内の特徴および目画像内の特徴を同時に抽出して、前記顔画像内の特徴および目画像内の特徴を含む特徴ベクトルを得る。
たとえば、CNNの特徴抽出層は、顔の特徴および左眼と右眼の特徴を同時に学習することができ、顔画像特徴および目画像特徴を含む特徴ベクトルを抽出することができる。例示的に、CNNは、複数の畳み込み層、プーリング層などを利用して、顔画像特徴および目画像特徴を含む複数の特徴マップを抽出し、当該複数の特徴マップに基づいて前記特徴ベクトルを得ることができる。
ステップ610において、特徴ベクトルに基づいてドライバの注視エリア種類予測情報を確定する。
たとえば、CNN中の完全接続層を利用して、前記特徴ベクトルを中間ベクトルに変換し、ここで、当該中間ベクトルの次元の数と注視エリアの種類の数とが同一である。また、当該中間ベクトルに基づいて、分類アルゴリズムによって前記ドライバの顔画像がそれぞれ注視エリアの各種類に対応される確率を計算し、最大の確率に対応する種類を前記種類予測情報として使用する。前記の中間ベクトルは、たとえば分類器の入力ベクトル306であり得る。
ステップ612において、当該種類予測情報と当該顔画像に対応する種類ラベリング情報との間の差異に基づいて、前記ニューラルネットワークのパラメータを調整する。
たとえば、種類予測情報と種類ラベリング情報との間の差異に基づいて、当該トレーニングサンプルの損失関数の損失値を計算し、1組のトレーニングサンプルの各損失関数の損失値に基づいて、CNNのパラメータを調整することができる。
本実施例によると、顔画像および目画像を同時にニューラルネットワークの入力とすることによって、ニューラルネットワークが顔部と目の特徴を同時に学習することができるようにする。目の特徴が注意力検出にとって非常に重要な部分であるため、顔画像と目画像とを組み合わせると、抽出された特徴の注意力の表現能力が強化され、ニューラルネットワークの注視エリア種類の検出正確率を向上させることができる。
「ニューラルネットワークをトレーニングするための方式3」
図8は、本発明のもう1実施例に係るニューラルネットワークトレーニング方法のフローチャートであり、図9は、当該ニューラルネットワークトレーニング方法に対応する構成を示す。図8に示したように、当該トレーニング方法は、ステップ800~812を含み得る。
ステップ800において、目キーポイントなどの、顔画像内の顔キーポイントを、検出する。
ステップ802において、前記顔キーポイント(たとえば目キーポイント)に基づいて前記顔画像をカッティングして、顔画像内の目を含む目画像を得る。たとえば、得られた目画像は、左眼画像および/または右眼画像を含み得る。
ステップ804において、前記顔画像の左眼画像および/または右眼画像を同時にニューラルネットワークの該当する特徴抽出ブランチに入力する。
本実施例において、図6に示したように顔画像および目画像のサイズを調整する必要なしに、サイズを調整したことがない顔画像および目画像をそれぞれニューラルネットワークの該当する特徴抽出ブランチに入力することができ、すなわち、ニューラルネットワークに入力する顔画像および目画像のサイズは、異なる可能性がある。たとえば、図9に示した構成によって、顔画像、左眼画像、および、右眼画像を、それぞれ第1特徴抽出ブランチ、第2特徴抽出ブランチ、および、第3特徴抽出ブランチに入力することができ、ここで、左眼画像および右眼画像のサイズが同一であり、顔画像のサイズが左眼画像および右眼画像のサイズよりも大きい可能性がある。たとえば、これら3つの特徴抽出ブランチのそれぞれは、画像特徴を抽出するための、複数の畳み込み層、プーリング層などを含み得、当該3つの特徴抽出ブランチの構成は、同じであってもよいし、異なっていてもよく、たとえば、異なる畳み込み層の数を含むか、または、異なる畳み込みカーネルの数を有することができる。
ステップ806において、ニューラルネットワークの1つの特徴抽出ブランチによって、前記顔画像内の特徴を抽出して、抽出した顔特徴ベクトルを得、ニューラルネットワークの他の特徴抽出ブランチによって、目画像内の特徴を抽出して、抽出した目特徴ベクトルを得る。
たとえば、図9を参照すると、上記の3つの特徴抽出ブランチは、それぞれ各画像内の特徴を学習することができ、ここで、第1特徴抽出ブランチは、顔画像から顔特徴ベクトル91を抽出し、第2特徴抽出ブランチは、左眼画像から左眼特徴ベクトル92を抽出し、第3特徴抽出ブランチは、右眼画像から右眼特徴ベクトル93を抽出し、ここで、左眼特徴ベクトル92および右眼特徴ベクトル93は、いずれも目特徴ベクトルと呼ばれ得る。
ステップ808において、前記顔特徴ベクトルと目特徴ベクトルとを融合して、融合特徴ベクトルである融合特徴を得る。たとえば、図9を参照すると、顔特徴ベクトル91、左眼特徴ベクトル92、および、右眼特徴ベクトル93を融合して、融合特徴ベクトル94を得る。前記の特徴ベクトルの融合は、複数のベクトルを任意の順序で接合して組み合わせることであり得る。
ステップ810において、融合特徴ベクトルに基づいて、ドライバの注視エリア種類予測情報を得る。
たとえば、CNN中の完全接続層を利用して、融合特徴ベクトルを1つの中間ベクトルに変換し、ここで、当該中間ベクトルの次元の数は、注視エリアの種類数量と同一である。また、当該中間ベクトルに基づいて、分類アルゴリズムに従って前記ドライバの顔画像がそれぞれ注視エリアの各種類に対応される確率を計算し、最大の確率に対応する種類を前記種類予測情報として使用する。
ステップ812において、当該種類予測情報と当該顔画像に対応する種類ラベリング情報との間の差異に基づいて、前記ニューラルネットワークのパラメータを調整する。
たとえば、種類予測情報と種類ラベリング情報との間の差異に基づいて、当該トレーニングサンプルの損失関数の損失値を計算し、1組のトレーニングサンプルの各損失関数の損失値に基づいて、ニューラルネットワークのパラメータを調整することができる。
本実施例によると、サイズを調整したことがない顔画像および目画像ニューラルネットワークに入力し、ニューラルネットワーク中の異なる特徴抽出ブランチによって顔画像内の特徴および目画像内の特徴をそれぞれ抽出することによって、画像サイズの調整による画像品質損失を減らすか回避することができ、顔部および目の特徴をより正確に抽出することができる。なお、顔部特徴および目特徴を融合して特徴の注意力の表現能力を強化して、特徴融合に基づく注視エリアの種類検出をより正確になるようにする。
本発明の任意の実施例の注視エリア検出用ニューラルネットワークトレーニング方法において、ニューラルネットワークは、分類アルゴリズムに従って、異なる種類に対応する注視エリアの特徴ベクトルを特徴空間内で分割することができる。しかしながら、異なる注視エリアに対応するトレーニングデータに基づいて抽出された特徴ベクトルが特徴空間における距離がより近い可能性がある。実際に使用では、トレーニングデータに基づいて抽出された特徴ベクトルは、特徴空間で、実際の注視エリア中心からの距離が、隣接する注視エリア中心からの距離よりも大きい可能性があり、判断エラーをもたらす可能性がある。
これに鑑みて、ニューラルネットワークによって抽出される特徴ベクトルの品質を向上させるために、ニューラルネットワークによって抽出される画像特徴(たとえば、顔画像特徴および目画像特徴の特徴ベクトルを含む)と複数の種類重みとに対してそれぞれ内積演算を実行して、中間ベクトルを得ることができる。前記複数の種類重みは、それぞれ前記注視エリアの複数の種類と対応する。前記中間ベクトルの次元の数は、前記注視エリアの種類数量と同一である。前記画像特徴と前記顔画像の注視エリア種類ラベリング情報に対応する種類重みとに対して内積演算を実行するときに、当該画像特徴と当該種類重みとの間のベクトルのなす角のコサイン値を調整することによって、種類間の距離を増やし、種類内の距離を減らす。
たとえば、大マージンソフトマックス(softmax)アルゴリズムを採用してニューラルネットワークによって抽出された特徴ベクトルの品質を改善し、ニューラルネットワークによって抽出された特徴のコンパクトを強化して、最終の注視エリア分類の正確性を向上させることができる。当該アルゴリズムは、以下のような式(1)によって表現され得、ここで、Liは、サンプルiの損失関数の損失値を表し、θyiは、Wyiとxとの間の夾角であり得、Wyiは、各注視エリア種類にそれぞれ対応する種類重みであり得、xは、CNNによって抽出された、特徴マップに基づいて得られた画像特徴であり得、yは、各注視エリアの種類であり得、iは、i番目のトレーニングサンプルであり得、
||Wyi||x||φ(θyi)
は、前記の中間ベクトルと呼ばれ得、j=yであると、画像特徴と顔画像の注視エリア種類ラベリング情報に対応する種類の重みとに対して内積を実行することを表す。
Figure 0007252348000001
上記のように、ドライバ注意力モニタリングシナリオの例を挙げて、2種の可能なニューラルネットワーク構成の3つのトレーニング方法を詳細に説明して。ドライバ注意力モニタリングシナリオ以外の他のシナリオにおいて、同様の方式を採用して前記他のシナリオで使用するニューラルネットワークをトレーニングすることができ、該当するシナリオで収集した顔画像および該当するシナリオで予め定義した注視エリアを採用すればよい。
以下、トレーニングが完了された注視エリア検出用ニューラルネットワークをどのように適用するかを説明する。当然ながら、注視エリア検出に使用されるニューラルネットワークは、本発明に記述されたトレーニング方法以外の他の方式を採用してトレーニングして得られたものであってもよい。図10は、本発明の実施例に係る注視エリア検出方法のフローチャートを示した。図10に示したように、当該方法は、ステップ1000~1004を含み得る。
ステップ1000において、指定された空間エリア内で収集された画像内の顔領域をカッティングして顔画像を得る。たとえば、指定された空間エリアで収集した画像は、顔を含むより大きい範囲の画像であり得、当該画像から顔領域をカッティングして、顔画像を得ることができる。
ステップ1002において、前記顔画像をニューラルネットワークに入力し、ここで、前記ニューラルネットワークは、複数の顔画像サンプルおよび当該複数の顔画像サンプルにそれぞれ対応する注視エリア種類ラベリング情報を含むトレーニングサンプルセットを採用して事前にトレーニングされたものであり、ラベリングした注視エリア種類は、事前に前記指定された空間エリアを分割して得られた複数種類の定義された注視エリアのうちの1つに属する。
たとえば、本実施例によるニューラルネットワークは、図1に示したトレーニング方法を採用して得られたニューラルネットワークであり得、ステップ1000で取得した顔画像は当該ニューラルネットワークに入力され得る。
ステップ1004において、前記ニューラルネットワークを利用して、入力された前記顔画像に対して特徴抽出を実行し、抽出された特徴に基づいて前記顔画像に対応する注視エリア検出種類を確定する。
本ステップにおいて、前記ニューラルネットワークによって顔画像に対応する注視エリアを予測し、ここで、当該予測された注視エリアは、注視エリア検出種類と呼ばれ得る。当該注視エリア検出種類は、たとえば文字、数字、名称などの異なる方式で表すことができる。
本実施例のエンドツーエンドの注視エリア検出方法によると、事前にトレーニングされたニューラルネットワークを利用して、顔画像に対応する注視エリア検出種類を直接予測することができる。すなわち、ドライバの視線が少しずらされたり変更されたりしても、検出結果に影響を与えないため、検出のフォールトトレランスを向上させることができる。
以下、依然として、ドライバ注意力モニタリングシナリオの例を挙げると、当該シナリオでトレーニングしたニューラルネットワークがどのように適用されるかを説明する。その他のシナリオでトレーニングしたニューラルネットワークも同様に適用され得ることを理解すべきである。
図11を参照すると、上記のトレーニングされた任意のニューラルネットワークをドライバの注視エリアの検出に適用することができる。具体的に、ドライバが乗っている車両1101内には、カメラ1102が装着されており、当該カメラ1102は、ドライバの顔部を含む画像1103を収集することができる。画像1103は、車両内の画像処理デバイス1104に伝送され、事前にトレーニングが完了されたニューラルネットワーク1108は、当該画像処理デバイス1104に記憶されていてもよい。
画像処理デバイス1104は、画像1103に対して前処理を実行し、続いて、得られた画像をニューラルネットワーク1108に入力することができる。たとえば顔検出を通じて画像1103から顔領域をカッティングして、顔画像1105を得ることができる。さらに、顔画像1105から左眼画像1106および右眼画像1107をカッティングして得ることができる。顔画像1105、左眼画像1106、および、右眼画像1107を事前にトレーニングされたニューラルネットワーク1108に同時に入力することによって、ニューラルネットワーク1108が車両内ドライバの注視エリア検出種類を出力することができるようにする。上記のように、顔画像1105、左眼画像1106、および、右眼画像1107を同一の所定のサイズに調整した後にニューラルネットワーク1108に入力するか、または、サイズ調整を実行せずにそれぞれニューラルネットワーク1108の該当する特徴抽出ブランチに入力することができる。
図12は、図11に示したアプリケーションシナリオでニューラルネットワーク1108によって出力された注視エリア検出種類の例を示す。図12に示したドライバ画像は、ドライバが乗っている車両内に配置されたカメラ1102によって収集されたものであり得る。当該車両内の画像処理デバイス1104は、当該ドライバ画像からドライバの顔画像1201をカッティングすることができる。当該顔画像1201は、画像処理デバイス1104中のニューラルネットワーク1108に入力されることができる。ニューラルネットワーク1108は、顔画像1201に対応する車両内ドライバの注視エリア検出種類「[5]:センターコンソール」を出力することができ、図12中に示したようである。
これから分かるように、本実施例のドライバ注視エリア検出方法は、リアルタイム性がより良く、ドライバの注視エリアを迅速で正確に検出することができる。
なお、異なる注視エリアで、同じドライバが異なる頭部姿態を持っている可能性がある。単一のカメラを使用してドライバの画像を収集すると、カメラが車内のどの位置に装着されていても、ドライバが頭部を回転して片目または両目が見えない可能性があり、最終の注視エリアの判断に影響を与える可能性がある。また、眼鏡をかけているドライバの場合、カメラが特定の角度でレンズの反射をキャプチャするだけで、目領域の一部またはすべてが隠されることがよくある。上記の問題を解決するために、車内の異なる位置にそれぞれ複数のカメラを設置してドライバの画像を収集することができる。
たとえば、ドライバが乗っている車両1101内に複数のカメラ1102が装着されており、当該複数のカメラ1102はそれぞれ異なる角度から車内の運転エリアの同じドライバの画像を収集することができる。複数のカメラの収集時間を同期化するか、または、各フレームの画像の収集時間を記録することによって、後続の処理で同じ時点で異なるカメラによってそれぞれ収集された同じドライバの複数の画像を取得することができる。
ドライバ注意力モニタリングシナリオ以外の任意の他のシナリオにおいて、当該シナリオの指定された空間エリア内に複数のカメラを配置することによって、前記指定された空間エリアの1つの特定のサブエリアに対してそれぞれ画像を収集することができることを理解すべきである。たとえば、スマートデバイス制御シナリオにおいて、前記の特定サブエリアは、スマートデバイスを制御する目標人が位置するエリアであり得る。前記特定サブエリアに対して画像を収集することによって、人の顔部を含む画像を得、当該画像に基づいて人の注視エリアを検出することができる。
依然として、ドライバ注意力モニタリングシナリオの例を挙げると、複数のカメラを利用して同じ時点Tでそれぞれ収集された同じドライバの複数の画像を取得した後に、当該複数の画像に基づいて、たとえば以下の方式の中の任意の1つに従って当該ドライバの当該時点Tでの注視エリアを確定することができる。
方式1において、画像品質に基づいて指標を評価して、当該複数の画像の中の画像品質スコアがいちばん高い画像を確定し、画像品質スコアがいちばん高い画像内の顔領域をカッティングしてドライバの顔画像を得ることができる。前記画像品質評価指標は、画像内に目画像が含まれているか否か、画像内の目領域の解像度、画像内の目領域の遮蔽状況、画像内の目の開/閉状況の中の少なくとも1つを含み得る。たとえば、収集した1つの画像内に鮮明な目画像が含まれ、目領域が遮られておらず、目が完全に開いていると、当該画像を画像品質スコアがいちばん高い画像として確定し、当該画像からドライバの顔画像をカッティングし、当該顔画像を事前にトレーニングされたニューラルネットワークに入力することによって、当該ドライバの当該時点Tでの注視エリア検出種類を確定することができる。
方式2において、方式1を参照して、画像品質に基づいて指標を評価して当該複数の画像の中の画像品質スコアがいちばん高い画像を確定する。当該複数の画像からそれぞれドライバの顔画像をカッティングし、カッティングした複数の顔画像をそれぞれ事前にトレーニングされたニューラルネットワークを入力することによって、当該複数の顔画像にそれぞれ対応する複数の注視エリア検出種類を得ることができる。前記複数の注視エリア検出種類から、上記の画像品質スコアがいちばん高い画像に関連される顔画像に対応する注視エリア検出種類を、当該ドライバの当該時点Tでの注視エリア検出種類として選択することができる。
方式3において、当該複数の画像からそれぞれドライバの顔画像をカッティングし、カッティングした複数の顔画像をそれぞれ事前にトレーニングされたニューラルネットワークに入力して、当該複数の顔画像にそれぞれ対応する複数の注視エリア検出種類を得ることができる。前記複数の注視エリア検出種類の中の過半数の結果を当該ドライバの当該時点Tでの注視エリア検出種類として選択することができる。たとえば、6つの顔画像に基づいてそれぞれ得られた6つの注視エリア検出種類の中で、5つが「C」であると、「C」を当該ドライバの当該時点Tでの注視エリア検出種類として選択することができる。
1例として、ドライバの注視エリアを検出した後に、当該注視エリアに基づいてさらなる操作を実行することができる。たとえば、注視エリア種類検出結果に基づいて、顔画像に対応する人物の注意力モニタリング結果を確定することができる。たとえば、前記の注視エリア種類検出結果は、所定の時間帯内の注視エリア検出種類であり得る。例示的に、当該注視エリア種類検出結果は、「所定の時間帯内で、当該ドライバの注視エリアがずっとエリアBであること」であり得る。当該エリアBがフロントガラスであると、当該ドライバの運転がより専念であることを意味する。当該エリアBが副操縦士の前方のグローブボックスエリアであると、当該ドライバが注意散漫になった可能性が大きく、注意力が集中されていないことを意味する。
注意力モニタリング結果を検出した後に、前記注意力モニタリング結果を出力することができ、たとえば、車両内の特定の表示エリアに「運転がよく専念している」というテキストを表示することができる。または、前記注意力モニタリング結果に基づいて注意散漫プロンプト情報を出力することができ、たとえば表示スクリーンに「リスクに注意し、注意力を集中してください」というテキストを出力することによって、ドライバをプロンプトすることができる。当然ながら、具体的に表示するときに、注意力モニタリング結果と注意散漫プロンプト情報との中の少なくとも1つを表示することができる。
注視エリア種類検出結果に基づいて人の注意力モニタリング結果を確定し、または注意散漫プロンプト情報を出力することによって、ドライバの注意力モニタリングにとって重要な助けになり、ドライバの注意力が集中されていない状況を効果的な検出し、および、タイムリーで注意を促し、事故の発生を減らすことができる。
上記の記述は、いずれもドライバ注意力モニタリングシナリオの例である。これ以外に、注視エリアの検出は、さらに他の様々な用途がある。
たとえば、注視エリアの検出に基づく車両と機械の対話型制御を実行することができる。車両内には、マルチメディアプレーヤーなどの一部の電子デバイスが設けられており、車両内の人物の注視エリアを検出することによって、注視エリアの検出結果に基づいて当該マルチメディアプレーヤーの起動再生機能を自動制御することができる。
例示的に、車両内に配置されたカメラを利用して車両内の人(たとえばドライバまたは乗客)の顔画像を撮影し、事前にトレーニングされたニューラルネットワークを通じて注視エリア種類検出結果を検出することができる。たとえば、当該検出結果は、期間T内で、当該車両内の人の注視エリアがずっと車両内の特定のマルチメディアプレーヤー上の「注視して起動させる」というオプションが位置しているエリアであると。上記の検出結果に従って当該車両内の人が当該マルチメディアプレーヤーを起動しようとしていると確定することができ、該当する制御命令を出力して、当該マルチメディアプレーヤーが再生し始めるように制御することができる。
車両関連の適用に加えて、ゲーム制御、スマートホームデバイス制御、広告プッシュなどの複数種類のアプリケーションシナリオをさらに含み得る。スマートホーム制御の例を挙げると、制御者の顔画像を収集し、事前にトレーニングされたニューラルネットワークを通じて注視エリア種類検出結果を検出することができる。たとえば、当該検出結果が、期間T内で、当該制御者の注視エリアがずっとスマートエアコン上の「注視して起動させる」というオプションが位置しているエリアであり得る。上記の検出結果に従って当該制御者がスマートエアコンを起動しようとすると確定し、該当する制御命令を出力して、当該エアコンの起動を制御することができる。
本発明は、前述した方法の実施例に対応する装置およびデバイスの実施例をさらに提供することができる。
図13は、本発明の実施例に係る注視エリア検出用ニューラルネットワークトレーニング装置1300のブロック図である。図13に示したように、当該装置1300は、サンプル入力モジュール1301と、種類予測モジュール1302と、差異確定モジュール1303と、パラメータ調整モジュール1304と、を備え得る。
サンプル入力モジュール1301は、少なくともトレーニングサンプルとする顔画像および当該顔画像に対応する注視エリア種類ラベリング情報をニューラルネットワークに入力し、ここで、ラベリングした注視エリア種類は、指定された空間エリアを事前に分割して得られた複数種類の定義された注視エリアのうちの1つに属する。種類予測モジュール1302は、前記ニューラルネットワークを利用して入力された前記顔画像に対して特徴抽出を実行し、抽出された特徴に基づいて前記顔画像の注視エリア種類予測情報を確定する。差異確定モジュール1303は、当該注視エリア種類予測情報と当該顔画像に対応する注視エリア種類ラベリング情報との間の差異を確定する。パラメータ調整モジュール1304は、前記差異に基づいて前記ニューラルネットワークのパラメータを調整する。
本発明の実施例によると、前記サンプル入力モジュール1301は、少なくともトレーニングサンプルとする顔画像および当該顔画像に対応する注視エリア種類ラベリング情報をニューラルネットワークに入力する前に、前記顔画像内の少なくとも1つの目領域をカッティングして少なくとも1つの目画像を得ることができる。
本発明の実施例によると、前記サンプル入力モジュール1301は、前記顔画像および前記少なくとも1つの目画像を同一の所定のサイズに調整した後に同時に前記ニューラルネットワークに入力することができる。前記種類予測モジュール1302は、前記ニューラルネットワークを利用して前記顔画像内の特徴および前記少なくとも1つの目画像内の特徴を同時に抽出し、抽出された特徴に基づいて前記顔画像の注視エリア種類予測情報を確定することができる。
本発明の実施例によると、前記サンプル入力モジュール1301は、前記顔画像および前記少なくとも1つの目画像(サイズ調整を実行せず)をそれぞれ前記ニューラルネットワークの異なる特徴抽出ブランチに入力することができ、ここで、前記ニューラルネットワークに入力する顔画像および目画像のサイズは、異なる可能性がある。前記種類予測モジュール1302は、前記ニューラルネットワークの該当する特徴抽出ブランチを利用して顔画像内の特徴および目画像内の特徴をそれぞれ抽出し、各特徴抽出ブランチによって抽出された特徴を融合して融合特徴を得、前記融合特徴に基づいて前記顔画像の注視エリア種類予測情報を確定することができる。
本発明の実施例によると、抽出された特徴に基づいて注視エリア種類予測情報をより正確に確定するために、前記種類予測モジュール1302は、抽出された特徴および複数の種類重みに対してそれぞれ内積演算を実行して、中間ベクトルを得、当該中間ベクトルに基づいて当該顔画像の注視エリア種類予測情報を確定することができる。前記複数の種類重みは、それぞれ前記複数種類の定義された注視エリアに対応され、前記中間ベクトルの次元の数は、前記複数種類の定義された注視エリアの数と等しい。抽出した特徴および前記顔画像の注視エリア種類ラベリング情報に対応する種類重みに対して内積演算を実行するときに、当該特徴と当該種類重みとの間のベクトルのなす角のコサイン値を調整することによって、種類間の距離を増やし、種類内の距離を減らすことができる。
本発明の実施例によると、前記指定された空間エリアは、車の空間エリアを含む。
本発明の実施例によると、前記顔画像は、前記車の空間エリア内の運転エリアに対して収集した画像に基づいて確定される。前記指定された空間エリアを分割して得られた複数種類の定義された注視エリアは、左フロントガラスエリア、右フロントガラスエリア、インストルメントパネルエリア、インテリアミラーエリア、センターコンソールエリア、左バックミラーエリア、右バックミラーエリア、遮陽板エリア、シフトレバーエリア、ステアリングホイールの下方エリア、副操縦士エリア、副操縦士の前方のグローブボックスエリアの中の少なくとも2種類を含む。
図14は、本発明の実施例に係る注視エリア検出装置1400のブロック図である。図14に示したように、当該装置1400は、画像取得モジュール1401と、画像入力モジュール1402と、種類検出モジュール1403と、を備える。
画像取得モジュール1401は、指定された空間エリア内で収集された画像内の顔領域をカッティングして顔画像を得る。画像入力モジュール1402は、前記顔画像をニューラルネットワークに入力し、前記ニューラルネットワークは、事前に、複数の顔画像サンプルおよび当該複数の顔画像サンプルにそれぞれ対応する注視エリア種類ラベリング情報を含むトレーニングサンプルセットを採用してトレーニングされたものであり、ラベリングした注視エリア種類は、事前に前記指定された空間エリアを分割して得られた複数種類の定義された注視エリアのうちの1つに属する。種類検出モジュール1403は、前記ニューラルネットワークを利用して入力された前記顔画像に対して特徴抽出を実行し、抽出された特徴に基づいて前記顔画像に対応する注視エリア検出種類を確定する。
本発明の実施例によると、事前に前記ニューラルネットワークをトレーニングするためのトレーニングサンプルセットは、複数の顔画像サンプルからそれぞれカッティングした複数の目画像サンプルをさらに含む。これに応じて、画像取得モジュール1401は、顔画像を得た後に、前記顔画像内の少なくとも1つの目領域をカッティングして少なくとも1つの目画像を得ることができる。
本発明の実施例によると、前記画像入力モジュール1402は、前記顔画像および前記少なくとも1つの目画像を同一の所定のサイズに調整した後に同時に前記ニューラルネットワークに入力することができる。前記種類検出モジュール1403は、前記ニューラルネットワークを利用して前記顔画像内の特徴および前記少なくとも1つの目画像内の特徴を同時に抽出し、抽出された特徴に基づいて前記顔画像に対応する注視エリア検出種類を確定することができる。
本発明の実施例によると、前記画像入力モジュール1402は、前記顔画像および前記少なくとも1つの目画像(サイズ調整を実行せず)をそれぞれ前記ニューラルネットワークの異なる特徴抽出ブランチに入力することができ、ここで、前記ニューラルネットワークに入力する顔画像および目画像のサイズは、異なる可能性がある。前記種類検出モジュール1403は、前記ニューラルネットワークの該当する特徴抽出ブランチを利用して顔画像内の特徴および目画像内の特徴をそれぞれ抽出し、各特徴抽出ブランチによってそれぞれ抽出された各特徴を融合して融合特徴を得、前記融合特徴に基づいて前記顔画像に対応する注視エリア検出種類を確定することができる。
選択的に、画像取得モジュール1401は、指定された空間エリア内で収集された画像内の顔領域をカッティングする前に、指定された空間エリアに配置された複数のカメラを利用して、同じ時点Tで当該指定された空間エリアの1つの特定のサブエリアに対して異なる角度からそれぞれ収集された複数の画像を取得することができる。
選択的に、画像取得モジュール1401は、画像品質に基づいて指標を評価して、当該複数の画像の中の画像品質スコアがいちばん高い画像を確定することができる。前記画像品質評価指標は、画像内に目画像が含まれているか否か、画像内の目領域の解像度、画像内の目領域の遮蔽状況、画像内の目の開/閉状況の中の少なくとも1つを含み得る。
本発明の実施例によると、画像取得モジュール1401は、上記の画像品質スコアがいちばん高い画像内の顔領域をカッティングして当該顔画像を得ることができる。画像入力モジュール1402は、当該顔画像を前記ニューラルネットワークに入力することができる。種類検出モジュール1403は、前記ニューラルネットワークを利用して当該顔画像に対して特徴抽出を実行し、抽出された特徴に基づいて当該特徴に対応する注視エリア検出種類を、当該時点Tでの注視エリア検出種類として確定することができる。
本発明の実施例によると、画像取得モジュール1401は、上記の複数の画像内の顔領域をそれぞれカッティングして、該当する複数の顔画像を得ることができる。画像入力モジュール1402は、当該複数の顔画像をそれぞれ前記ニューラルネットワークに入力することができる。当該複数の顔画像ごとに、種類検出モジュール1403は、上記のように対応する注視エリア検出種類をとして確定することができる。種類検出モジュール1403は、確定された、当該複数の顔画像にそれぞれ対応する複数の注視エリア検出種類から、上記の画像品質スコアがいちばん高い画像に関連される顔画像に対応する注視エリア検出種類を当該時点Tでの注視エリア検出種類として選択することができる。
本発明の実施例によると、画像取得モジュール1401は、上記の複数の画像内の顔領域をそれぞれカッティングして、該当する複数の顔画像を得ることができる。画像入力モジュール1402は、当該複数の顔画像をそれぞれ前記ニューラルネットワークに入力することができる。当該複数の顔画像ごとに、種類検出モジュール1403は、上記のように対応する注視エリア検出種類をとして確定することができる。種類検出モジュール1403は、確定された当該複数の顔画像にそれぞれ対応する複数の注視エリア検出種類の中の過半数の結果を当該時点Tでの注視エリア検出種類として選択することができる。
本発明の実施例によると、前記指定された空間エリアは、車の空間エリアを含む。
本発明の実施例によると、上記の指定された空間エリア内で収集された画像は、前記車の空間エリア内の運転エリアに対して収集された画像を含む。前記指定された空間エリアを分割して得られた複数種類の定義された注視エリアは、左フロントガラスエリア、右フロントガラスエリア、インストルメントパネルエリア、インテリアミラーエリア、センターコンソールエリア、左バックミラーエリア、右バックミラーエリア、遮陽板エリア、シフトレバーエリア、ステアリングホイールの下方エリア、副操縦士エリア、副操縦士の前方のグローブボックスエリアの中の少なくとも2種類を含む。
図15は、本発明のもう1実施例に係る注視エリア検出装置1400’のブロック図である。当該装置1400’と図14中に示した注視エリア検出装置1400との区別は、ただ、当該装置1400’が第1種類適用モジュール1404および第2種類適用モジュール1405の中の少なくとも1つをさらに含み得ることである。
第1種類適用モジュール1404は、種類検出モジュール1403によって得られた注視エリア検出種類に基づいて注視エリア種類検出結果を得、当該注視エリア種類検出結果に基づいて当該顔画像に対応する人物の注意力モニタリング結果を確定することができる。第1種類適用モジュール1404は、前記注意力モニタリング結果を出力し、および/または、前記注意力モニタリング結果に基づいて注意散漫プロンプト情報を出力することができる。
第2種類適用モジュール1405は、種類検出モジュール1403によって得られた注視エリア検出種類に基づいて注視エリア種類検出結果を得、前記注視エリア種類検出結果に対応する制御命令を確定し、電子デバイスが前記制御命令に該当する操作を実行するように制御することができる。
図16は、本発明の実施例に係る注視エリア検出用ニューラルネットワークのトレーニングデバイスのブロック図である。図16に示したように、当該デバイスは、メモリ1601とプロセッサ1602とを備え得る。前記メモリ1601には、プロセッサ1602によって実行可能なコンピュータ命令が記憶されている。前記プロセッサ1602が前記コンピュータ命令を実行するときに、上記の任意の注視エリア検出用ニューラルネットワークトレーニング方法を実現することができる。
図17は、本発明の実施例に係る注視エリア検出デバイスのブロック図である。図17に示したように、当該デバイスは、メモリ1701とプロセッサ1702とを備え得る。前記メモリ1701には、プロセッサ1702によって実行可能なコンピュータ命令が記憶されている。前記プロセッサ1702が前記コンピュータ命令を実行するときに、上記の任意の注視エリア検出方法を実現することができる。
本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記録媒体をさらに提供する。当該コンピュータプログラムがプロセッサによって実行されると、当該プロセッサが、上記の任意の注視エリア検出用ニューラルネットワークトレーニング方法を実現するようにすることができる。
本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記録媒体をさらに提供する。当該コンピュータプログラムがプロセッサによって実行されると、当該プロセッサが、上記の任意の注視エリア検出方法を実現するようにすることができる。
当業者は、本発明の1つまたは複数の実施例は、方法、システム、または、コンピュータプログラム製品として提供することができることを了解すべきである。したがって、本発明の1つまたは複数の実施例は、完全なハードウェアの実施例、完全なソフトウェアの実施例、または、ソフトウェアとハードウェアを組み合わせる実施例の形式を使用することができる。
本発明における主題および機能操作の実施例は、デジタル電子回路、有形コンピュータソフトウェアまたはファームウェア、本発明に開示される構成およびその構造的同等物を含むコンピュータハードウェア、または、それらの1つまたは複数の組み合わせで、実現されることができる。本発明における主題の実施例は、1つまたは複数のコンピュータプログラムとして実現されることができ、すなわち、有形の非一時的プログラムキャリア上に符号化されて、データ処理装置によって実行されるか、または、データ処理装置の操作を制御するための、コンピュータプログラム命令中の1つまたは複数のモジュールとして実現されることができる。代替的または追加的に、プログラム命令は、手動で生成する伝播信号上に符号化されることができ、例えば、機械が生成する電気信号、光信号、または、電磁信号に符号化されることができる。当該信号は、情報を符号化して適切な受信機装置に伝送して、データ処理装置によって実行されるようにするために、生成される。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムにまたはシリアルアクセスメモリデバイス、または、それらの1つまたは複数の組み合わせであり得る。
本発明における処理と論理フローは、1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラム可能なコンピュータによって実行されることができ、入力データに基づいて操作を実行して出力を生成することによって該当する機能を実行する。前記処理と論理フローは、さらに、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(専用集積回路)などの専用論理回路によって実行されることができ、また、装置も専用論理回路として実現されることができる。
コンピュータプログラムの実行に適したコンピュータは、例えば、汎用、および/または、専用マイクロプロセッサ、または、いかなる他の種類の中央処理ユニットを含む。一般的に、中央処理ユニットは、読み取り専用メモリ、および/または、ランダムアクセスメモリから、命令とデータを受信することになる。コンピュータの基本コンポーネントは、命令を実施または実行するための中央処理ユニット、および、命令とデータを記憶するための1つまたは複数のメモリデバイスを含む。一般的に、コンピュータは、磁気ディスク、磁気光学ディスク、または、光学ディスクなどの、データを記憶するための1つまたは複数の大容量記憶デバイスをさらに含むか、または、操作可能に当該大容量記憶デバイスと結合されてデータを受信するかまたはデータを伝送するか、または、その両方を兼有する。しかしながら、コンピュータは、必ずとして、このようなデバイスを有するわけではない。なお、コンピュータは、もう1デバイスに埋め込まれることができ、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、モバイルオーディオまたはビデオおプレーヤー、ゲームコンソール、グローバルポジショニングシステム(GPS)レジーバー、または、汎用シリアルバス(USB)フラッシュドライブなどのポータブル記憶デバイスに埋め込まれることができ、これらデバイスはいくつかの例に過ぎない。
コンピュータプログラム命令とデータの記憶に適したコンピュータ可読媒体は、様々な形式の不揮発性メモリ、媒介、および、メモリデバイスを含み、例えば、半導体メモリデバイス(たとえば、消去可能プログラム可能読み取り専用メモリ(Erasable Programmable Read Only Memory、EPROM)、電気的消去可能プログラム可能読み取り専用メモリ(Electrically Erasable Programmable Read Only Memory、EEPROM)およびフラッシュメモリ)、磁気ディスク(たとえば、内部ハードディスクまたは移動可能ディスク)、磁気光学ディスク、光学ディスク読み取り専用メモリ(Compact Disc Read Only Memory、CD-ROM)、デジタル多用途光ディスク(Digital Versatile Disc、DVD)などを含む。プロセッサとメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込まれることができる。
本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの1つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせるまたはサブ組み合わせる変形に向けることができる。
類似的に、図面で特定の順序に従って操作を描いたが、これはこれら操作を示した特定の順序にしたがって実行するかまたは順次に実行するように要求するか、または、例示したすべての操作が実行されることによって期待する結果が実現されると要求することであると理解すべきではない。なお、上記の実施例中の各種のシステムモジュールとコンポーネントの分離は、すべての実施例でいずれもこのように分離されなければならないと理解すべきではないし、また、叙述したプログラムコンポーネントとシステムは、一般的に、一緒に単一のソフトウェア製品に統合されるか、または、複数のソフトウェア製品にパッケージされることができることを理解すべきである。
上記は、本発明のいくつかの実施例に過ぎず、本発明を限定するために使用されるものではない。本発明の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも本発明の範囲に含まれるべきである。

Claims (16)

  1. 注視エリア検出用ニューラルネットワークトレーニング方法であって、
    少なくともトレーニングサンプルとする顔画像および当該顔画像に対応する注視エリア種類ラベリング情報を前記ニューラルネットワークに入力することと、
    前記ニューラルネットワークを利用して入力された前記顔画像に対して特徴抽出を実行し、抽出された特徴に基づいて前記顔画像の注視エリア種類予測情報を確定することと、
    前記注視エリア種類予測情報と前記注視エリア種類ラベリング情報との間の差異を確定することと、
    前記差異に基づいて前記ニューラルネットワークのパラメータを調整することと、を含み、
    ラベリングした注視エリア種類は、指定された空間エリアを事前に分割して得られた複数種類の定義された注視エリアのうちの1つに属し、
    抽出された特徴に基づいて前記注視エリア種類予測情報を確定することは、
    抽出された特徴および複数の種類重みに対してそれぞれ内積演算を実行して、中間ベクトルを得ることと、
    前記中間ベクトルに基づいて、前記顔画像の注視エリア種類予測情報を確定することと、を含み、
    前記複数の種類重みは、それぞれ前記複数種類の定義された注視エリアに対応され、前記中間ベクトルの次元の数は、前記複数種類の定義された注視エリアの数と等しいし、抽出された特徴および前記注視エリア種類ラベリング情報に対応する種類重みに対して内積演算を実行するときに、当該特徴と当該種類重みとの間のベクトルのなす角のコサイン値を調整することによって、種類間の距離を増やし、種類内の距離を減らす
    ことを特徴とする注視エリア検出用ニューラルネットワークトレーニング方法。
  2. 少なくとも前記顔画像および当該顔画像に対応する注視エリア種類ラベリング情報を前記ニューラルネットワークに入力する前に、前記顔画像内の少なくとも1つの目領域をカッティングして少なくとも1つの目画像を得ることをさらに含み、
    少なくとも前記顔画像および当該顔画像に対応する注視エリア種類ラベリング情報を前記ニューラルネットワークに入力することは、
    前記顔画像および前記少なくとも1つの目画像を同時に前記ニューラルネットワークに入力することを含む
    ことを特徴とする請求項1に記載の注視エリア検出用ニューラルネットワークトレーニング方法。
  3. 前記顔画像および前記少なくとも1つの目画像を同時に前記ニューラルネットワークに入力することは、
    前記顔画像および前記少なくとも1つの目画像を同一の所定のサイズに調整した後に同時に前記ニューラルネットワークに入力することを含み、
    入力された前記顔画像に対して特徴抽出を実行することは、
    前記ニューラルネットワークを利用して前記顔画像内の特徴および前記少なくとも1つの目画像内の特徴を同時に抽出することを含み、または、
    前記顔画像および前記少なくとも1つの目画像を同時に前記ニューラルネットワークに入力することは、
    サイズが互いに異なる前記顔画像および前記少なくとも1つの目画像を、それぞれ前記ニューラルネットワークの異なる特徴抽出ブランチに入力することを含み、
    入力された前記顔画像に対して特徴抽出を実行し、前記注視エリア種類予測情報を確定することは、
    前記ニューラルネットワークの該当する特徴抽出ブランチを利用して前記顔画像内の特徴および前記少なくとも1つの目画像内の特徴をそれぞれ抽出することと、
    前記ニューラルネットワークの該当する特徴抽出ブランチによってそれぞれ抽出された各特徴を融合して融合特徴を得ることと、
    前記融合特徴に基づいて前記顔画像の注視エリア種類予測情報を確定することと、を含む
    ことを特徴とする請求項2に記載の注視エリア検出用ニューラルネットワークトレーニング方法。
  4. 前記指定された空間エリアは、車の空間エリアを含み、
    前記顔画像は、前記車の空間エリア内の運転エリアに対して収集した画像に基づいて確定され、
    前記複数種類の定義された注視エリアは、左フロントガラスエリア、右フロントガラスエリア、インストルメントパネルエリア、インテリアミラーエリア、センターコンソールエリア、左バックミラーエリア、右バックミラーエリア、遮陽板エリア、シフトレバーエリア、ステアリングホイールの下方エリア、副操縦士エリア、副操縦士の前方のグローブボックスエリアの中の少なくとも2種類を含む
    ことを特徴とする請求項1~の中のいずれか1項に記載の注視エリア検出用ニューラルネットワークトレーニング方法。
  5. 注視エリア検出方法であって、
    指定された空間エリア内で収集された画像内の顔領域をカッティングして顔画像を得ることと、
    前記顔画像を請求項1~4の中のいずれか1項に記載の注視エリア検出用ニューラルネットワークトレーニング方法により得られたニューラルネットワークに入力することと、
    前記ニューラルネットワークを利用して入力された前記顔画像に対して特徴抽出を実行し、抽出された特徴に基づいて前記顔画像に対応する注視エリア検出種類を確定することと、を含み、
    前記ニューラルネットワークは、事前に、複数の顔画像サンプルおよび当該複数の顔画像サンプルにそれぞれ対応する注視エリア種類ラベリング情報を含むトレーニングサンプルセットを採用してトレーニングされたものであり、ラベリングした注視エリア種類は、事前に前記指定された空間エリアを分割して得られた複数種類の定義された注視エリアのうちの1つに属する
    ことを特徴とする注視エリア検出方法。
  6. 前記ニューラルネットワークを事前にトレーニングするための前記トレーニングサンプルセットは、それぞれ前記複数の顔画像サンプルからカッティングした複数の目画像サンプルをさらに含み、
    前記注視エリア検出方法は、
    前記顔画像を得た後に、前記顔画像内の少なくとも1つの目領域をカッティングして少なくとも1つの目画像を得ることをさらに含み、
    前記顔画像を前記ニューラルネットワークに入力することは、
    前記顔画像および前記少なくとも1つの目画像を同時に前記ニューラルネットワークに入力することを含む
    ことを特徴とする請求項に記載の注視エリア検出方法。
  7. 前記顔画像および前記少なくとも1つの目画像を同時に前記ニューラルネットワークに入力することは、
    前記顔画像および前記少なくとも1つの目画像を同一の所定のサイズに調整した後に同時に前記ニューラルネットワークに入力することを含み、
    入力された前記顔画像に対して特徴抽出を実行することは、
    前記ニューラルネットワークを利用して前記顔画像内の特徴および前記少なくとも1つの目画像内の特徴を同時に抽出することを含み、または、
    前記顔画像および前記少なくとも1つの目画像を同時に前記ニューラルネットワークに入力することは、
    サイズが互いに異なる前記顔画像および前記少なくとも1つの目画像を、それぞれ前記ニューラルネットワークの異なる特徴抽出ブランチに入力することを含み、
    入力された前記顔画像に対して特徴抽出を実行し、前記注視エリア検出種類を確定することは、
    前記ニューラルネットワークの該当する特徴抽出ブランチを利用して前記顔画像内の特徴および前記少なくとも1つの目画像内の特徴をそれぞれ抽出することと、
    前記ニューラルネットワークの該当する特徴抽出ブランチによってそれぞれ抽出された各特徴を融合して融合特徴を得ることと、
    前記融合特徴に基づいて前記顔画像に対応する注視エリア検出種類を確定することと、を含む
    ことを特徴とする請求項に記載の注視エリア検出方法。
  8. 前記注視エリア検出方法は、前記指定された空間エリア内で収集された画像内の顔領域をカッティングする前に、
    当該指定された空間エリアに配置された複数のカメラを利用して、同じ時点で当該指定された空間エリアの1つの特定のサブエリアに対して異なる角度からそれぞれ収集された複数の画像を取得することと、
    画像品質に基づいて指標を評価して、前記複数の画像の中の画像品質スコアがいちばん高い画像を確定することと、をさらに含み、
    前記指定された空間エリア内で収集された画像内の顔領域をカッティングすることは、前記画像品質スコアがいちばん高い画像内の顔領域をカッティングすることを含む
    ことを特徴とする請求項乃至の中のいずれか1項に記載の注視エリア検出方法。
  9. 前記注視エリア検出方法は、前記指定された空間エリア内で収集された画像内の顔領域をカッティングする前に、
    当該指定された空間エリアに配置された複数のカメラを利用して、同じ時点で当該指定された空間エリアの1つの特定のサブエリアに対して異なる角度からそれぞれ収集された複数の画像を取得することと、
    画像品質に基づいて指標を評価して、前記複数の画像の中の画像品質スコアがいちばん高い画像を確定することと、をさらに含み、
    前記指定された空間エリア内で収集された画像内の顔領域をカッティングして顔画像を得ることは、
    前記複数の画像内の顔領域をそれぞれカッティングして該当する複数の顔画像を得ることを含み、
    前記顔画像を前記ニューラルネットワークに入力することは、
    当該複数の顔画像をそれぞれ前記ニューラルネットワークに入力することを含み、
    入力された前記顔画像に対して特徴抽出を実行し、前記顔画像に対応する注視エリア検出種類を確定することは、
    当該複数の顔画像内の各々の顔画像に対して、前記ニューラルネットワークを利用して当該顔画像に対して特徴抽出を実行し、抽出された特徴に基づいて当該顔画像に対応する注視エリア検出種類を確定することを含み、
    前記注視エリア検出方法は、
    確定された、当該複数の顔画像にそれぞれ対応する複数の注視エリア検出種類から、前記画像品質スコアがいちばん高い画像に関連される顔画像に対応する注視エリア検出種類を前記時点での注視エリア検出種類として選択することをさらに含む
    ことを特徴とする請求項乃至の中のいずれか1項に記載の注視エリア検出方法。
  10. 前記画像品質評価指標は、画像内に目画像が含まれているか否か、画像内の目領域の解像度、画像内の目領域の遮蔽状況、画像内の目の開/閉状況の中の少なくとも1つを含む
    ことを特徴とする請求項またはに記載の注視エリア検出方法。
  11. 前記注視エリア検出方法は、
    前記指定された空間エリア内で収集された画像内の顔領域をカッティングする前に、当該指定された空間エリアに配置された複数のカメラを利用して、同じ時点で当該指定された空間エリアの1つの特定のサブエリアに対して異なる角度からそれぞれ収集された複数の画像を取得することをさらに含み、
    前記指定された空間エリア内で収集された画像内の顔領域をカッティングして顔画像を得ることは、
    前記複数の画像内の顔領域をそれぞれカッティングして該当する複数の顔画像を得ることを含み、
    前記顔画像を前記ニューラルネットワークに入力することは、
    当該複数の顔画像をそれぞれ前記ニューラルネットワークに入力することを含み、
    入力された前記顔画像に対して特徴抽出を実行し、前記顔画像に対応する注視エリア検出種類を確定することは、
    当該複数の顔画像内の各々の顔画像に対して、前記ニューラルネットワークを利用して当該顔画像に対して特徴抽出を実行し、抽出された特徴に基づいて当該顔画像に対応する注視エリア検出種類を確定することを含み、
    前記注視エリア検出方法は、
    確定された当該複数の顔画像にそれぞれ対応する複数の注視エリア検出種類の中の過半数の結果を前記時点での注視エリア検出種類として選択することをさらに含む
    ことを特徴とする請求項乃至の中のいずれか1項に記載の注視エリア検出方法。
  12. 前記指定された空間エリアは、車の空間エリアを含み、
    前記指定された空間エリア内で収集された画像は、前記車の空間エリア内の運転エリアに対して収集された画像を含み、
    前記複数種類の定義された注視エリアは、左フロントガラスエリア、右フロントガラスエリア、インストルメントパネルエリア、インテリアミラーエリア、センターコンソールエリア、左バックミラーエリア、右バックミラーエリア、遮陽板エリア、シフトレバーエリア、ステアリングホイールの下方エリア、副操縦士エリア、副操縦士の前方のグローブボックスエリアの中の少なくとも2種類を含む
    ことを特徴とする請求項乃至11の中のいずれか1項に記載の注視エリア検出方法。
  13. 前記注視エリア検出種類に基づいて注視エリア種類検出結果を得、当該注視エリア種類検出結果に基づいて、前記顔画像に対応する人物の注意力モニタリング結果を確定することと、
    前記注意力モニタリング結果を出力し、および/または、前記注意力モニタリング結果に基づいて注意散漫プロンプト情報を出力することと、をさらに含み、または、
    前記注視エリア検出種類に基づいて注視エリア種類検出結果を得、前記注視エリア種類検出結果に対応する制御命令を確定することと、
    電子デバイスが前記制御命令に該当する操作を実行するように制御することと、をさらに含む
    ことを特徴とする請求項乃至12の中のいずれか1項に記載の注視エリア検出方法。
  14. 注視エリア検出用ニューラルネットワークのトレーニングデバイスであって、
    メモリとプロセッサとを備え、
    前記メモリには、前記プロセッサによって実行されるコンピュータ命令が記憶されており、
    前記プロセッサが前記コンピュータ命令を実行するときに、請求項1乃至の中のいずれか1項に記載の方法が実現される
    ことを特徴とする注視エリア検出用ニューラルネットワークのトレーニングデバイス。
  15. 注視エリア検出デバイスであって、
    メモリとプロセッサとを備え、
    前記メモリには、前記プロセッサによって実行されるコンピュータ命令が記憶されており、
    前記プロセッサが前記コンピュータ命令を実行するときに、請求項乃至13の中のいずれか1項に記載の方法が実現される
    ことを特徴とする注視エリア検出デバイス。
  16. コンピュータプログラムが記憶されているコンピュータ可読記録媒体であって、
    前記コンピュータプログラムがプロセッサによって実行されると、当該プロセッサが、請求項1乃至の中のいずれか1項に記載の方法を実現するようにし、または、
    前記コンピュータプログラムがプロセッサによって実行されると、当該プロセッサが、請求項13の中のいずれか1項に記載の方法を実現するようにする
    ことを特徴とするコンピュータ可読記録媒体。
JP2021540840A 2019-03-18 2019-12-30 注視エリア検出方法とニューラルネットワークトレーニング方法、装置、及びデバイス Active JP7252348B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910204566.9A CN111723596B (zh) 2019-03-18 2019-03-18 注视区域检测及神经网络的训练方法、装置和设备
CN201910204566.9 2019-03-18
PCT/CN2019/129893 WO2020186883A1 (zh) 2019-03-18 2019-12-30 注视区域检测及神经网络训练的方法、装置和设备

Publications (2)

Publication Number Publication Date
JP2022517121A JP2022517121A (ja) 2022-03-04
JP7252348B2 true JP7252348B2 (ja) 2023-04-04

Family

ID=72518968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021540840A Active JP7252348B2 (ja) 2019-03-18 2019-12-30 注視エリア検出方法とニューラルネットワークトレーニング方法、装置、及びデバイス

Country Status (4)

Country Link
JP (1) JP7252348B2 (ja)
KR (1) KR20210102413A (ja)
CN (1) CN111723596B (ja)
WO (1) WO2020186883A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11113842B2 (en) * 2018-12-24 2021-09-07 Samsung Electronics Co., Ltd. Method and apparatus with gaze estimation
CN112541436B (zh) * 2020-12-15 2024-05-07 平安科技(深圳)有限公司 专注度分析方法、装置、电子设备及计算机存储介质
CN112656431A (zh) * 2020-12-15 2021-04-16 中国科学院深圳先进技术研究院 基于脑电的注意力识别方法、装置、终端设备和存储介质
CN112560783A (zh) * 2020-12-25 2021-03-26 京东数字科技控股股份有限公司 用于评估关注状态的方法、装置、系统、介质及产品
CN113065997B (zh) * 2021-02-27 2023-11-17 华为技术有限公司 一种图像处理方法、神经网络的训练方法以及相关设备
CN113052064B (zh) * 2021-03-23 2024-04-02 北京思图场景数据科技服务有限公司 基于面部朝向、面部表情及瞳孔追踪的注意力检测方法
CN113283340B (zh) * 2021-05-25 2022-06-14 复旦大学 一种基于眼表特征的疫苗接种情况检测方法、装置及系统
CN113391699B (zh) * 2021-06-10 2022-06-21 昆明理工大学 一种基于动态眼动指标的眼势交互模型方法
CN113900519A (zh) * 2021-09-30 2022-01-07 Oppo广东移动通信有限公司 注视点获取方法、装置以及电子设备
KR20230054982A (ko) * 2021-10-18 2023-04-25 삼성전자주식회사 전자 장치 및 그 제어 방법
CN114863093B (zh) * 2022-05-30 2024-05-31 厦门大学 基于眼动技术的神经网络训练方法及建筑设计方法和系统
CN116048244B (zh) * 2022-07-29 2023-10-20 荣耀终端有限公司 一种注视点估计方法及相关设备
CN116030512B (zh) * 2022-08-04 2023-10-31 荣耀终端有限公司 注视点检测方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407935A (zh) * 2016-09-21 2017-02-15 俞大海 基于人脸图像和眼动注视信息的心理测试方法
DE112017007252T5 (de) * 2017-03-14 2019-12-19 Omron Corporation Fahrerüberwachungsvorrichtung, fahrerüberwachungsverfahren, lernvorrichtung und lernverfahren
CN108229284B (zh) * 2017-05-26 2021-04-09 北京市商汤科技开发有限公司 视线追踪及训练方法和装置、系统、电子设备和存储介质
CN107590482A (zh) * 2017-09-29 2018-01-16 百度在线网络技术(北京)有限公司 信息生成方法和装置
CN107697069B (zh) * 2017-10-31 2020-07-28 上海汽车集团股份有限公司 汽车驾驶员疲劳驾驶智能控制方法
CN109002753B (zh) * 2018-06-01 2022-07-08 上海大学 一种基于卷积神经网络级联的大场景监控图像人脸检测方法
CN108985181B (zh) * 2018-06-22 2020-07-24 华中科技大学 一种基于检测分割的端对端人脸标注方法
CN109446892B (zh) * 2018-09-14 2023-03-24 杭州宇泛智能科技有限公司 基于深度神经网络的人眼注意力定位方法及系统
CN109460780A (zh) * 2018-10-17 2019-03-12 深兰科技(上海)有限公司 人工神经网络的车辆安全驾驶检测方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Iman Rahmansyah Tayibnapis et al.,Driver's gaze zone estimation by transfer learning,2018 IEEE International Conference on Consumer Electronics(ICCE),IEEE,2018年,https://ieeexplore.ieee.org/document/8326308
In-Ho Choi et al.,Real-time categorization of driver's gaze zone using the deep learning techniques,2016 International Conference on Big Data and Smart Computing (BigComp),IEEE,2016年,pp.143-148,https://ieeexplore.ieee.org/document/7425813

Also Published As

Publication number Publication date
JP2022517121A (ja) 2022-03-04
CN111723596A (zh) 2020-09-29
CN111723596B (zh) 2024-03-22
WO2020186883A1 (zh) 2020-09-24
KR20210102413A (ko) 2021-08-19

Similar Documents

Publication Publication Date Title
JP7252348B2 (ja) 注視エリア検出方法とニューラルネットワークトレーニング方法、装置、及びデバイス
JP7244655B2 (ja) 注視エリア検出方法、装置、及び電子デバイス
US10867195B2 (en) Systems and methods for monitoring driver state
CN110167823B (zh) 用于驾驶员监测的系统和方法
US10748446B1 (en) Real-time driver observation and progress monitoring
TWI741512B (zh) 駕駛員注意力監測方法和裝置及電子設備
US20210357670A1 (en) Driver Attention Detection Method
US9881221B2 (en) Method and system for estimating gaze direction of vehicle drivers
US20200357124A1 (en) Method and apparatus for tracking object
US11112791B2 (en) Selective compression of image data during teleoperation of a vehicle
US9613459B2 (en) System and method for in-vehicle interaction
JP2020509466A (ja) 完全な畳み込みアーキテクチャを使用する運転者の視覚的注意のための計算フレームワークのシステム及び方法
CN110678873A (zh) 基于级联神经网络的注意力检测方法、计算机装置及计算机可读存储介质
García et al. Driver monitoring based on low-cost 3-D sensors
CN105829938A (zh) 用于制作场景图像的设备
WO2020231401A1 (en) A neural network for head pose and gaze estimation using photorealistic synthetic data
CN106092123B (zh) 一种视频导航方法及装置
JP2020126625A (ja) ディープニューラルネットワークを基盤としたイメージ分析を通じて人の状態及び走行環境を識別して自律走行を補助する自律走行補助眼鏡
KR101986734B1 (ko) 차량 운전 보조 장치 및 이의 안전 운전 유도 방법
US20200209850A1 (en) Methods and systems to facilitate monitoring center for ride share and safe testing method based for selfdriving cars to reduce the false call by deuddaction systems based on deep learning machine
US20210380143A1 (en) Handover assistant for machine to driver transitions
Ma et al. Cemformer: Learning to predict driver intentions from in-cabin and external cameras via spatial-temporal transformers
JP7474160B2 (ja) 情報処理装置
Palazzi et al. Where should you attend while driving?
WO2021112048A1 (ja) 運転分析装置、及び運転分析方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210714

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220802

A603 Late request for extension of time limit during examination

Free format text: JAPANESE INTERMEDIATE CODE: A603

Effective date: 20221124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230323

R150 Certificate of patent or registration of utility model

Ref document number: 7252348

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150