JP7244655B2 - 注視エリア検出方法、装置、及び電子デバイス - Google Patents

注視エリア検出方法、装置、及び電子デバイス Download PDF

Info

Publication number
JP7244655B2
JP7244655B2 JP2021540793A JP2021540793A JP7244655B2 JP 7244655 B2 JP7244655 B2 JP 7244655B2 JP 2021540793 A JP2021540793 A JP 2021540793A JP 2021540793 A JP2021540793 A JP 2021540793A JP 7244655 B2 JP7244655 B2 JP 7244655B2
Authority
JP
Japan
Prior art keywords
gaze
area
face image
information
sight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021540793A
Other languages
English (en)
Other versions
JP2022517254A (ja
Inventor
▲詩▼▲堯▼ 黄
▲飛▼ 王
晨 ▲錢▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2022517254A publication Critical patent/JP2022517254A/ja
Application granted granted Critical
Publication of JP7244655B2 publication Critical patent/JP7244655B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/225Direction of gaze

Description

<関連出願の互いに引用>
本発明は、出願日が2019年3月18日であり、出願番号が201910204793.1であり、発明名称が「注視エリア検出方法、装置、及び電子デバイス」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照として本願に組み入れられる。
本発明は、コンピュータビジョン技術の分野に関し、特に、注視エリア検出方法、装置、及び電子デバイスに関する。
注視エリアの検出は、インテリジェントな運転、ヒューマンコンピュータインタラクション、セキュリティ監視などのアプリケーションで重要な役割を果たすことができる。ヒューマンコンピュータインタラクションに関しては、目の空間における3次元位置を確定し、また3次元視線方向を組み合わせて、人の注視点の3次元空間おける位置を得て、機械に出力してさらなるインタラクティブ処理を行うようにする。注意力検出に関しては、目の視線方向を推定することによって、人の注視方向を判断し、人の関心エリアを得て、人の注意力が集中しているか否かを判断することができる。
本発明の第1態様によると、注視エリア検出方法を提供し、当該方法は、所定の3次元空間で収集された顔画像を取得することと、前記顔画像に基づいて視線検出を実行して視線検出結果を得ることと、前記所定の3次元空間に対して事前にトレーニングされた注視エリア分類器を利用して、前記視線検出結果に基づいて前記顔画像に対応する目標注視エリアの種類を検出することと、を含み、ここで、前記目標注視エリアは、前記所定の3次元空間を事前に分割することにより得られた複数種類の定義された注視エリアのうちの1つに属する。
本発明の第2態様によると、注視エリア検出装置を提供し、前記装置は、所定の3次元空間で収集された顔画像を取得するための画像取得モジュールと、前記顔画像に基づいて視線検出を実行して視線検出結果を得るための視線検出モジュールと、前記所定の3次元空間に対して事前にトレーニングされた注視エリア分類器を利用して、前記視線検出結果に基づいて前記顔画像に対応する目標注視エリアの種類を検出するための注視エリア検出モジュールと、を備え、ここで、前記目標注視エリアは、前記所定の3次元空間を事前に分割することにより得られた複数種類の定義された注視エリアのうちの1つに属する。
本発明の第3態様によると、コンピュータプログラムが記憶されているコンピュータ可読記録媒体を提供し、前記コンピュータプログラムがプロセッサによって実行されると、当該プロセッサが上記の第1態様の方法を実現するようにする。
本発明の第4態様によると、電子デバイスを提供し、当該電子デバイスは、メモリとプロセッサとを備え、前記メモリには、コンピュータプログラムが記憶されており、前記プロセッサが前記コンピュータプログラムを実行するときに、上記の第1態様の方法を実現する。
本発明の実施例によると、所定の3次元空間の変化に対して、各3次元空間に対応する注視エリア分類器のみをトレーニングする必要がある。分類器のトレーニングは大量のデータを必要とせず、またトレーニング速度がより速いため、異なる3次元空間(たとえば異なる車両モデルの空間)間で注視エリア検出方法を移転するときの時間コストおよび技術的な困難を大幅に削減することができる。
本発明の例示的な実施例に係る注視エリア検出方法のフローチャートである。 本発明の例示的な実施例に係る所定の3次元空間に対する注視エリア分類器をリアルタイムでトレーニングする方法のフローチャートである。 本発明の例示的な実施例に係る複数種類の定義された注視エリアの模式図である。 本発明の例示的な実施例に係る顔画像内の人物の視線開始点情報を確定する方法のフローチャートである。 本発明の例示的な実施例に係る顔画像内の人物の視線方向情報を検出する方法のフローチャートである。 本発明の例示的な実施例に係る顔画像内の人物の頭部姿態情報を検出する方法のフローチャートである。 本発明の例示的な実施例に係る頭部姿態情報に基づいて顔画像内の人物の視線方向情報を検出する方法のフローチャートである。 本発明の例示的な実施例に係る顔画像に対して正規化処理を行って正規化された顔画像を得る方法のフローチャートである。 本発明の例示的な実施例に係る取得た顔画像に対して正規化処理を行う模式図である。 本発明の例示的な実施例に係る分類器が目標注視エリアの種類を出力する模式図である。 本発明の例示的な実施例に係る分類器が目標注視エリアの名称を出力する模式図である。 本発明の例示的な実施例に係る3次元視線方向を検出するためのニューラルネットワークをトレーニングする方法のフローチャートである。 本発明の例示的な実施例に係る注視エリア検出装置のブロック図である。 本発明の例示的な実施例に係る注視エリア検出装置の視線検出モジュールのブロック図である。 本発明の例示的な実施例に係る注視エリア検出装置のもう1つの視線検出モジュールのブロック図である。 本発明の例示的な実施例に係る図12および図13中の目位置検出サブモジュールのブロック図である。 本発明の例示的な実施例に係る注視エリア検出装置のもう1つの視線検出モジュールのブロック図である。 本発明の例示的な実施例に係る図15中の視線検出モジュールの姿態検出サブモジュールのブロック図である。 本発明の例示的な実施例に係る図15中の視線検出モジュールの方向検出サブモジュールのブロック図である。 本発明の例示的な実施例に係る図17中の方向検出サブモジュールの画像処理ユニットのブロック図である。 本発明の例示的な実施例に係るもう1つの注視エリア検出装置のブロック図である。 本発明の例示的な実施例に係るもう1つの注視エリア検出装置のブロック図である。 本発明の例示的な実施例に係るもう1つの注視エリア検出装置のブロック図である。 本発明の例示的な実施例に係るもう1つの注視エリア検出装置のブロック図である。 本発明の例示的な実施例に係る電子デバイスのブロック図である。
ここで例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明が図面を言及している場合、特に明記しない限り、異なる図面における同一の数字は、同一または類似な要素を示す。以下の例示的な実施例で叙述される実施形態は、本発明と一致するすべての実施形態を代表しない。逆に、それらは、添付された特許請求の範囲に記載された、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。
本発明で使用される用語は、特定の実施例を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明で使用される「一種」、「前記」、「当該」などの単数形は、文脈が他の意味を明確に示さない限り、複数形を含むことを意図している。本明細書で使用される「および/または」という用語は、1つまたは複数の関連するリストされたアイテムの任意の1つまたはすべての可能な組み合わせを含むことを指すことを理解すべきである。
本発明では、第1、第2、第3などの用語を使用して様々な情報を記述することがあるが、これら情報はこれら用語によって限制されるべきではないことを理解すべきである。これら用語は、同じ種類の情報を互いに区別するためにのみ使用される。たとえば、本開示の範囲から逸脱することなく、第1の情報は、第2の情報とも呼ばれ得、同様に、第2の情報は、第1の情報とも呼ばれ得る。文脈に応じて、本明細書で使用される「もし」という単語は、「…場合」、「…すると」、または、「…ことに応答して」と解釈することができる。
本発明は、注視エリア検出方法を提供し、インテリジェントな運転、ヒューマンコンピュータインタラクション、セキュリティ監視などのシーンに適用されることができる。本発明は、当該注視エリア検出方法をインテリジェントな運転シーンに適用する例を挙げて詳細に説明する。
本発明の実施例において、関与する実行主体は、コンピュータシステムおよび所定の3次元空間に設けられたカメラを含み得る。所定の3次元空間に設けられたカメラは、収集したユーザの顔画像データを上記のコンピュータシステムに送信することができる。当該コンピュータシステムは、人工ニューラルネットワークを利用して上記の顔画像データに対して処理を実行して、当該ユーザの注意力が所定の3次元空間内のどの部分のエリアに集中されているかを検出することができ、すなわち、当該ユーザの目標注視エリアを検出することができて、コンピュータシステムが、上記のユーザの目標注視エリアに基づいて、スマート走行車両を運転するための命令などの、対応する操作制御情報を出力するようにすることができる。
上記のコンピュータシステムは、サーバ、サーバクラスタ、または、クラウドプラットフォームに設けられ得、さらに、パーソナルコンピュータ、車載デバイス、移動端末などの電子デバイス中のコンピュータシステムであり得る。上記のカメラは、ドライビングレコーダ内のカメラ、スマート端末のカメラなどの、車載デバイスであり得る。上記のスマート端末は、たとえば、スマートフォン、PDA(Personal Digital Assistant、パーソナルデジタルアシスタント)、タブレットコンピュータ、車載デバイスなどの、電子デバイスを含み得る。具体的に実現する過程において、カメラとコンピュータシステムとは、互いに独立していてもよく、同時に互いに接続されて、本発明の実施例によって提供される注視エリア検出方法を共同で実現することができる。以下、コンピュータシステムの例を挙げて、本発明によって提供される注視エリア検出方法を詳細に説明する。
図1は、本発明の例示的な実施例に係る注視エリア検出方法のフローチャートである。前記方法は、コンピュータシステムによって実行され得、様々なスマートデバイス(たとえば、スマート交通手段、スマートロボット、スマートホームデバイスなど)に適用され得る。図1に示したように、当該方法は、ステップ11~13を含み得る。
ステップ11において、所定の3次元空間内で収集された顔画像を取得する。
Mモデルの車両の例を挙げると、所定の3次元空間は、当該車両の空間であり、当該車両のセンターコンソールの位置などの内部空間に1つのカメラが固定設置されることができる。当該カメラは、リアルタイムまたは所定の時間周期などで、ドライバなどの目標対象の顔画像を収集してコンピュータシステムに提供することによって、当該コンピュータシステムが収集された顔画像を取得するようにすることができる。
ステップ12において、前記顔画像に基づいて視線検出を実行して視線検出結果を得る。
本発明の実施例において、コンピュータシステムは、上記の顔画像に基づいて視線検出を実行して、視線検出結果を得ることができる。視線検出は、顔画像内の目の位置および/または視線方向を分析することによって、視線検出結果を得ることである。本発明は、視線検出を実行する方法に対して限定しなく、すなわち、本発明の実施例に言及された方法を採用して視線検出を実行してもよいし、従来の他の方法を採用して視線検出を実行してもよい。上記の視線検出結果は、顔画像内の人物の視線開始点情報および視線方向情報を含み得、顔画像内の人物の頭部姿態などの情報をさらに含み得る。
ステップ13において、前記所定の3次元空間に対して事前にトレーニングされた注視エリア分類器を利用して、前記視線検出結果に基づいて前記顔画像に対応する目標注視エリアの種類を検出する。
前記目標注視エリアは、前記所定の3次元空間を事前に分割することにより得られた複数種類の定義された注視エリアのうちの1つに属する。たとえば、フロントガラス、バックミラー、または、車内の他の空間などの、車両走行過程でドライバが注視できる各空間を所定の3次元空間に設定することができる。
上記の例のように、コンピュータシステムは、上記の顔画像内の人物の視線検出結果を得た後に、上記の視線検出結果を、事前にトレーニングされた、上記のMモデルのインテリジェント運転車両の注視エリア分類器に、入力することによって、上記の顔画像に対応する目標注視エリアの種類を検出することができ、すなわち、画像を収集するときのドライバなどの顔画像内の人が車両のどのエリアを注視しているかを検出することができる。
本発明において、上記の所定の3次元空間に対する注視エリア分類器は、コンピュータシステムによって上記の所定の3次元空間に対するトレーニングサンプルセットに基づいて事前にトレーニングされたものであり、ここで、前記トレーニングサンプルセットは、複数の視線特徴サンプルを含み、各前記視線特徴サンプルは、視線開始点情報、視線方向情報、および、当該視線特徴サンプルに対応する注視エリア種類のラベリング情報を含み、ラベリングした注視エリアの種類は、前記所定の3次元空間を分割して得られた複数種類の定義された注視エリアのうちの1つに属する。
本発明の実施例によると、所定の3次元空間に対して注視エリア分類器をトレーニングする前に、所定の3次元空間内の、目の視線が注目する可能性がある3次元空間エリアに対して、細かく分類して、複数種類の定義された注視エリアを得、また複数種類の定義された注視エリアに対応するトレーニングサンプルセットに基づいて分類器トレーニングを実行して、所定の3次元空間に対する注視エリア分類器を得る。後続で、当該注視エリア分類器を利用して視線検出結果に基づいて目標注視エリア情報を正確に検出することができ、計算が簡単で、目標注視エリアの誤判断率を効果的に低減し、後続の操作に対してより正確な情報を提供することができる。
上記のステップ12に対応する視線検出段階は、所定の3次元空間における複数種類の定義された注視エリアの分布とは関係がなく、上記のステップ13に対応する注視エリア検出段階は、上記の複数種類の定義された注視エリアの所定の3次元空間における分布と関係がある。たとえば、異なるモデルの車両の空間の全体の大きさは、異なる可能性があり、またグローブボックスなどの同一の種類のエリアの異なる車両空間における位置が異なる可能性があるため、異なる3次元空間における複数種類の定義された注視エリアの分割も異なる可能性があり、たとえば、定義された注視エリアの数および種類が異なる可能性がある。したがって、異なる3次元空間に対して異なる注視エリア分類器をトレーニングする必要があり、たとえば、空間分布が異なるMモデル車両およびNモデル車両に対して、異なる注視エリア分類器をそれぞれトレーニングする必要がある。
したがって、異なるモデルの車両に対して同じ方法を採用して視線検出を実行することができ、車両モデルを変更するときに注視エリア分類器を再トレーニングするだけで済む。エンドツーエンドの方式で畳み込みニューラルネットワークの全体を再トレーニングする場合と比較して、注視エリア分類器のトレーニングは比較的に簡単で、それほど多いデータを必要とせず、トレーニング速度が速いため、異なる車両モデル間で上記の注視エリア検出方法を移転するときの時間コストおよび技術的な困難を大幅に削減することができる。
本発明のもう1実施例において、上記の注視エリア検出方法は、上記のステップ11の前に、前記所定の3次元空間に対するトレーニングが完了された注視エリア分類器を取得することをさらに含み得る。本発明において、以下の方式1または方式2を採用して、前記所定の3次元空間に対するトレーニングが完了された注視エリア分類器を取得することができる。
方式1において、注視エリア検出を実行する必要があるときに、所定の3次元空間に対する注視エリア分類器をリアルタイムでトレーニングする。
図2に示したように、所定の3次元空間に対する注視エリア分類器をリアルタイムでトレーニングすることは、少なくとも1つの視線特徴サンプルの視線開始点情報および視線方向情報をトレーニング待ちの注視エリア分類器に入力して、当該視線特徴サンプルに対応する注視エリア種類予測情報を得るステップ101と、前記注視エリア種類予測情報と当該視線特徴サンプルに対応する注視エリア種類のラベリング情報との間の偏差に基づいて、前記注視エリア分類器に対してパラメータ調整を実行して、前記注視エリア分類器をトレーニングするステップ102と、をさらに含み得る。
たとえば、上記の所定の3次元空間は、あるモデルの車両の空間であり得る。まず、顔画像を収集するためのカメラの固定位置を確定する。たとえば、カメラをセンターコンソールの位置に固定して、運転エリア内のドライバの顔画像を収集する。後続で、分類器トレーニング段階および検出段階で必要な顔画像は、すべて当該固定位置の上記のカメラを利用して収集する。
同時に、上記の車両の異なる部位に対して注視エリア分割を実行し、主には、車両運転過程でドライバの目が注目する必要があるエリアに基づいて、上記の車両空間で複数種類の定義された注視エリアを分割し、複数種類の定義された注視エリアに対してそれぞれ対応する種類情報を設定する。
本発明の1実施例において、車両空間を分割して得られた複数種類の定義された注視エリアは、左フロントガラスエリア、右フロントガラスエリア、インストルメントパネルエリア、インテリアミラーエリア、センターコンソールエリア、左バックミラーエリア、右バックミラーエリア、シェーディングプレートエリア、シフトレバーエリア、ステアリングホイールの下方エリア、副操縦士エリア、副操縦士の前方のグローブボックスエリアの中の少なくとも2種類を含み得る。
図3は、本発明の例示的な実施例に係る複数種類の定義された注視エリアの模式図である。所定の1つのモデルの車両に対して、左フロントガラス、右フロントガラス、インストルメントパネル、インテリアミラー、センターコンソール、左バックミラー、右バックミラー、遮陽板、シフトレバー、携帯電話のような複数種類の定義された注視エリアを確定することができる。複数種類の定義された注視エリアに対してそれぞれ対応する種類情報を事前に設定することができ、たとえば、数字を利用して種類値をしめすことができる。上記の複数種類の定義された注視エリアと所定の種類値との間の対応関係は、表1に示したようであり得る。
Figure 0007244655000001
上記の種類情報は、A、B、C…Jなどの所定の英語文字で示すこともできることを説明する必要がある。
その後、顔画像サンプルを収集し、トレーニングサンプルセットを得る。当該トレーニングサンプルセットは、複数の視線特徴サンプルを含み得、ここで、各前記視線特徴サンプルは、視線開始点情報、視線方向情報、および、当該視線特徴サンプルに対応する注視エリア種類のラベリング情報を含み、ラベリングした注視エリアの種類は、前記所定の3次元空間を分割して得られた複数種類の定義された注視エリアのうちの1つに属する。ここで、どのように顔画像に基づいて人の視線開始点情報および視線方向情報を確定するかに関しては、後面で詳細に記述する。
続いて、上記のトレーニングサンプルセットを利用して、以下のステップを反復して実行することによって上記の所定の3次元空間に対する分類器をトレーニングし、ここで、当該ステップは、上記のトレーニングサンプルセットの中の1つの視線特徴サンプルの視線開始点情報および視線方向情報をトレーニング待ちの注視エリア分類器に入力して、当該視線特徴サンプルに対応する注視エリア種類の予測情報を得ることと、当該視線特徴サンプルの前記注視エリア種類に対する予測情報および注視エリア種類のラベリング情報との間の偏差に基づいて、前記注視エリア分類器に対してパラメータ調整を実行して、前記注視エリア分類器をトレーニングすることと、をさらに含む。
例示的な1実施例において、上記のステップ102は、1つの視線特徴サンプルの注視エリア種類の予測値と注視エリア種類のラベリング値との間の差値に基づいて、損失関数値を得ることと、前記損失関数値が所定のトレーニング終了条件を満たすと、トレーニングを終了し、現在トレーニング段階の分類器をトレーニングが完了された分類器として確定することと、前記損失関数値が上記の所定のトレーニング終了条件を満たさないと、前記損失関数値に基づいて前記注視エリア分類器に対してパラメータ調整を実行することと、を含み得る。
本発明の実施例において、損失関数は、トレーニング過程で分類器モデルのトレーニングサンプルに対する誤分類程度を測定するための数学的表現である。損失関数値は、トレーニングサンプルセットの全体に基づいて得ることができ、上記の損失関数値が大きいほど、現在トレーニング段階の分類器の誤分類率が高いことを示し、逆に、上記の損失関数値が小さいほど、現在トレーニング段階の分類器の誤分類率が小さいことを示す。
上記の所定のトレーニング終了条件は、注視エリア分類器のトレーニングを終了する条件である。1実施例において、上記の所定のトレーニング終了条件は、所定の損失関数の損失関数値が所定の閾値よりも小さいことであり得る。理想的な場合、上記の所定のトレーニング終了条件は、損失関数値が0に等しいことである。これは、現在分類器によって予測された注視エリア種類がすべて正確であることを示す。実際の操作において、注視エリア分類器のトレーニング効率およびトレーニングコストの問題を考慮して、上記の所定の閾値は所定の1つの経験値であり得る。
上記の例のように、現在損失関数値が上記の所定の閾値以上であると、現在トレーニング段階の分類器の予測結果の正確率が期待どおりではないことを意味するため、所定のトレーニング終了条件が満たされるまでに、上記の損失関数値を利用して注視エリア分類器の関連パラメータを調整した後に、パラメータ更新後の注視エリア分類器を利用してステップ101とステップ102とを反復して実行して、上記の所定の3次元空間に対するトレーニングが完了された注視エリア分類器を得ることができる。
本発明の実施例において、コンピュータシステムは、サポートベクターマシン、単純ベイズ、決定木、ランダムフォレスト、K平均法(K-means)などのアルゴリズムを採用して、上記の注視エリア分類器をトレーニングすることができる。
本発明の実施例において、所定の3次元空間の変化に応じて、トレーニングサンプルセットを再確定して、対応する注視エリア分類器をトレーニングする必要がある。分類器のトレーニングが大量のデータを必要とせず、またトレーニング速度がより速いため、異なる3次元空間(たとえば異なる車両モデルの空間)間で上記の注視エリア検出方法を移転するときの時間コストおよび技術的な困難を大幅に削減することができる。
方式2において、注視エリア検出を実行する必要があるときに、所定のストレージリソースから上記の所定の3次元空間に対する注視エリア分類器を直接取得する。
本発明の1実施例において、コンピュータシステムは、各種類の所定の3次元空間に対するトレーニングが完了された注視エリア分類器を、当該所定の3次元空間の空間識別子と関連付けて、クラウドサーバなどの、指定されたストレージリソースに記憶して、所定の注視エリア分類器セットを形成する。上記のインテリジェントな運転アプリケーションシナリオにおいて、上記の所定の注視エリア分類器セットは、複数の車両モデルと注視エリア分類器との間の対応関係を含み得、表2に示したようである。
Figure 0007244655000002
1つの既知のモデル(たとえばモデルがM01である)の新車のコンピュータシステムに注視エリア分類器プログラムが装備されていない場合、当該車両は、注視エリア検出を実行する前に、自身のモデル(たとえばM01)に従って自動的にクラウドサーバから対応する目標注視エリア分類器プログラム(たとえば上記の第1分類器に対応するコンピュータプログラム)をダウンロードすることによって、注視エリア検出を迅速に実現することができる。
本発明の実施例において、上記のステップ12によって得られた視線検出結果は、少なくとも上記の顔画像内の人物の視線開始点情報および視線方向情報を含み、顔画像内の人物の頭部姿態情報をさらに含み得る。
本発明の実施例によると、図4に示したように、ステップ1211~1212を実行することによって、顔画像内の人物の視線開始点情報を確定することができる。
ステップ1211において、前記顔画像内の目の位置を検出する。
本発明の実施例において、上記の目の位置は、顔画像内の目の実際のカメラ座標系における位置である。上記の実際のカメラ座標系は、コンピュータシステムにより上記のカメラに基づいて確定した空間直交座標系である。上記のカメラは、上記の所定の3次元空間で上記の顔画像を撮影するカメラであり、カメラC0としてマークすることができる。
当該実際のカメラ座標系のZ軸は、上記のカメラの光軸であり、カメラレンズの光中心は、当該所定の実際のカメラ座標系の原点である。実際のカメラ座標系の横軸であるX軸、および、垂直軸であるY軸は、上記のカメラのレンズ面に平行である。
本発明の実施例において、コンピュータシステムは、以下の任意の方式を採用して顔画像内の目の位置を検出することができる。すなわち、第1の方式において、少なくとも2つのカメラを利用して上記のドライバなどの1つの目標対象に対して少なくとも2つのフレームの顔画像を同時に収集し、カメラ校正法を利用して上記の顔画像内の目の位置を取得し、ここで、上記の少なくとも2つのカメラは、検出待ち顔画像を収集するカメラを含む。第2の方式において、前記顔画像内の人物の頭部姿態情報を検出し、前記頭部姿態情報に基づいて前記顔画像内の目の位置を検出する。
本発明の1実施例において、コンピュータシステムは、1つのカメラによって撮影された顔画像に基づいて、フレキシブルモデル法、幾何学的方法などの関連技術での頭部姿態推定方法を利用して、上記のドライバの頭部姿態情報を確定し、頭部姿態情報に基づいて目標対象の目の所定の実際のカメラ座標系における3D位置を取得することができ、ここで、上記の所定の実際のカメラ座標系は、上記のカメラC0に基づいて確定されたカメラ座標系である。
上記の目の位置を確定する第2の方式を採用して、単一のカメラすなわち単眼カメラによって収集された顔画像を利用して、目の3D位置を確定することができ、注視エリア検出のためのハードウェア構成コストを節約することができる。
ステップ1212において、前記目の位置に基づいて前記顔画像内の人物の視線開始点情報を確定する。
本発明において、上記のステップ1211において顔画像から検出された目の位置は、顔画像内のドライバなどの目標対象の片目の位置を含む可能性もあり、両目の位置(すなわちドライバの左目と右目の位置)を含む可能性もある。
これに応じて、本発明の実施例は、以下の方式1または方式2を採用して上記の顔画像内の人物の視線開始点情報を確定することができる。
方式1において、片目の位置に基づいて上記の顔画像内の人物の視線開始点情報を確定する。1実施例において、ステップ1211において確定された前記目の位置が両目の位置を含むと、その中の任意の1つの目の位置に基づいて上記の顔画像内の人物の視線開始点情報を確定することができる。もう1実施例において、ステップ1211において確定された目の位置が片目の位置を含むと、当該片目の位置に基づいて上記の顔画像内の人物の視線開始点情報を確定することができる。
方式2において、ステップ1211において確定された前記目の位置が両目の位置を含むと、前記両目の中間位置を前記視線開始点情報として確定し、ここで、上記の両目の中間位置は、両目の3D座標の繋がり線の中点位置、または、両目の3D座標の繋がり線上の他の位置であり得る。
本発明の実施例において、上記の方式2を採用して顔画像内の人物の視線開始点情報を確定することは、上記の方式1と比較すると、片目検出誤差による視線開始点情報の不正確さを排除し、視線検出結果の精度を向上させることに有益である。
本発明の実施例によると、図5に示したように、ステップ1221~1222を実行することによって顔画像内の人物の視線方向情報を検出することができる。
ステップ1221において、顔画像内の人物の頭部姿態情報を検出する。
上記のように、コンピュータシステムは、1つのカメラによって撮影された顔画像に基づいて、フレキシブルモデル法、幾何学的方法などの関連技術での頭部姿態推定方法を利用して、上記のドライバの頭部姿態情報を確定することができる。
上記のフレキシブルモデル法とは、画像平面内の頭部画像の顔部構成に、アクティブシェイプモデル(Active Shape Model、ASM)、アクティブアピアランスモデル(Active Appearance Model、AAM)、弾性マップマッチングモデル(Elastic Graph Matching、EGM)などのフレキシブルのモデルをマッチングして、特徴比較またはモデルのパラメータによって頭部姿態推定の最終結果を得ることを指す。
幾何学的方法とは、頭部の形状、および、目、鼻、口の関連位置などの顔部局所特徴点の正確な形態学的情報を利用して、頭部姿態を推定することを指す。
本発明の実施例によると、単眼カメラによって収集された単一フレーム画像に基づいて、画像内の人物の頭部姿態を推定することができる。
本発明の実施例によると、図6に示したように、ステップ1201~1202を実行することによって、顔画像内の人物の頭部姿態情報を検出することができる(ステップ1221)。
ステップ1201において、前記顔画像内の複数の顔キーポイントを検出する。
本発明の1実施例において、Robertアルゴリズム、Sobelアルゴリズムなどのエッジ検出アルゴリズムを利用して顔キーポイント検出を実行してもよいし、アクティブ輪郭モデル(たとえばSnakeモデル)などの関連モデルを利用して顔キーポイント検出を実行してもよい。
本発明のもう1実施例において、顔キーポイント検出を実行するためのニューラルネットワークを利用して顔キーポイント検出を実行することができる。なお、サードパーティのアプリケーション(たとえばDlibツールキットなど)を利用して顔キーポイント検出を実行することができる。
上記の方法を採用して、所定の数量(たとえば160個)の、左目コーナー、右目コーナー、鼻先、左口コーナー、右口コーナー、下顎などの顔キーポイントの位置座標を含み、顔部キーポイント位置を検出することができる。顔キーポイント検出方法によって、得られる顔キーポイント位置座標の数も異なる可能性があることを理解することができる。たとえば、Dlibツールキットを採用して68個の顔部キーポイント位置を検出することができる。
ステップ1202において、検出された顔キーポイントおよび所定の平均顔モデルを利用して、前記顔画像内の人物の頭部姿態情報を確定する。
図5に戻ると、ステップ1222において、前記頭部姿態情報に基づいて前記顔画像内の人物の視線方向情報を検出する。
本発明の実施例において、頭部姿態情報に基づいて、既にトレーニングされたニューラルネットワークを利用して上記の顔画像内の人物の視線方向情報を検出することができる。
図7を参照すると、前記ステップ1222は、ステップ12221~12223を含み得る。
ステップ12221において、前記頭部姿態情報に基づいて前記顔画像に対して正規化処理を行って、正規化された顔画像を得る。
実際に操作において、カメラC0によって異なる時点で収集された顔画像の場合、顔領域画像の全体における位置がランダムに変化され、画像内の人物の頭部姿態もランダムに変化される。上記のニューラルネットワークをトレーニングするときに、カメラが直接収集した顔画像をサンプル画像として使用すると、頭部姿態および顔領域画像位置のランダム性により、ニューラルネットワークのトレーニング困難さおよびトレーニング時間が増加されることは間違いない。
本発明の実施例によると、上記の視線方向を検出するためのニューラルネットワークをトレーニングするときに、トレーニング困難さを低減するために、まず、トレーニングサンプルセットの中の各サンプル画像データに対して正規化処理を実行することによって、正規化処理後のサンプル画像データが、仮想カメラが頭部に面して撮影した画像データに同等になるようにした後に、正規化処理後のサンプル画像データを利用して当該ニューラルネットワークをトレーニングする。
これに応じて、当該ニューラルネットワークの適用段階では、視線方向情報の検出の正確性を確保するために、まず、顔画像に対して正規化処理を行ってから、対応する仮想カメラ座標系における正規化された顔画像を得て、上記のニューラルネットワークに入力して視線方向情報を検出する必要がある。
図8Aを参照すると、上記のステップ12221は、ステップ12-1~12-3を含み得る。
ステップ12-1において、前記頭部姿態情報に基づいて前記顔画像内の人物の頭部座標系を確定する。たとえば、前記頭部座標系のX軸は、左目と右目の座標の繋がり線に平行であり、前記頭部座標系のY軸は、顔の平面で前記X軸に垂直であり、前記頭部座標系のZ軸は、前記顔の平面に垂直であり、視線の開始点は、前記頭部座標系の原点である。
本発明の実施例において、コンピュータシステムが上記の顔画像に基づいて目標対象の頭部姿態情報を検出することは、コンピュータシステムが目標対象の3次元頭部モデルを予測することと同等である。当該3次元頭部モデルは、カメラC0が上記の顔画像を収集するときの、目標対象の頭部のカメラC0に対する姿態情報を示すことができる。これに基づいて、コンピュータシステムは、頭部姿態情報に基づいて目標対象の頭部座標系を確定することができる。
当該頭部座標系は、空間直交座標系を示すことができる。上記の頭部座標系のX軸は、上記の3次元頭部モデル中の両目の3D位置座標の繋がり線に平行である。両目の3D位置座標の繋がり線の中点すなわち上記の視線の開始点を、上記の頭部座標系の原点として確定することができる。前記頭部座標系のY軸は、顔の面で前記X軸に垂直である。前記頭部座標系のZ軸は、顔の面に垂直である。
ステップ12-2において、前記頭部座標系に基づいて前記顔画像に対応する実際のカメラ座標系に対して回転および平行移動を行って、仮想カメラ座標系を得る。たとえば、前記仮想カメラ座標系のZ軸は、前記頭部座標系の原点を指し、前記仮想カメラ座標系のX軸と前記頭部座標系のX軸とは、同じ平面にあり、前記仮想カメラ座標系の原点と前記頭部座標系の原点との間は、前記仮想カメラ座標系のZ軸方向に所定の距離だけ離れている。
本発明の実施例において、コンピュータシステムは、目標対象の頭部座標系を確定した後に、上記の頭部座標系を参照して、上記のカメラに対して回転または平行移動の操作を実行して1つの仮想カメラを確定し、上記の仮想カメラの頭部座標系における位置に基づいて、上記の仮想カメラに対応する仮想カメラ座標系を構築することができる。当該仮想カメラ座標系の構築方法は、上記の所定の実際のカメラ座標系の構築方法と同様であり、すなわち仮想カメラ座標系のZ軸は、上記の仮想カメラの光軸であり、上記の仮想カメラ座標系のX軸およびY軸は、当該仮想カメラのレンズ面に平行であり、仮想カメラレンズの光中心は、当該仮想カメラ座標系の原点である。
上記の仮想カメラ座標系と頭部座標系との間の位置関係は、以下の3つの条件を満たす。
条件1は、前記仮想カメラ座標系のZ軸が前記頭部座標系の原点を指すことである。
条件2は、前記仮想カメラ座標系のX軸が前記頭部座標系のX軸と同じ平面に位置することであり、ここで、仮想カメラ座標系のX軸と前記頭部座標系のX軸との相対的な位置関係は、平行関係を含むが、これらに限定されない。
条件3は、前記仮想カメラ座標系の原点が前記頭部座標系の原点と前記仮想カメラ座標系のZ軸方向で所定の距離だけ離れていることである。
上記の過程は、上記のカメラC0に対して以下の操作を実行して1つの仮想カメラを確定することと同等であり、すなわち、前記カメラC0を回転して、そのZ軸が目画像内の人物の3次元視線の開始点を指すようにする同時に、カメラC0のX軸が上記の頭部座標系のX軸と同じ平面にあるようにし、回転後のカメラC0をZ軸に沿って平行移動して、そのレンズの光中心と上記の頭部座標系の原点との間の距離が所定の長さになるようにする。
これまでのところ、コンピュータシステムは、実際のカメラ座標系と頭部座標系との間の位置関係、および、仮想カメラ座標系と上記の頭部座標系との間の位置関係に基づいて、実際のカメラ座標系と上記の仮想カメラ座標系との間の位置変換関係を確定することができる。
本発明において、仮想カメラ座標系が顔画像内の人物の頭部姿態に関連しているため、異なる顔画像は、異なる仮想カメラ座標系に対応し得ることを理解すべきである。
ステップ12-3において、前記実際のカメラ座標系と前記仮想カメラ座標系との間の位置変換関係に基づいて、前記顔画像に対して正規化処理を行って、前記正規化された顔画像を得る。
本発明の実施例において、コンピュータシステムは、上記の実際のカメラ座標系と仮想カメラ座標系との間の位置変換関係に利用して、上記の顔画像に対して回転、アフィン、ズーム変換などの処理を実行して、上記の仮想カメラ座標系における正規化された顔画像を得ることができる。
図8Bは、例示的な1実施例に係る取得た顔画像に対して正規化処理を行うことを示す模式図であり、ここで、画像P0は、実際の車載カメラC0がドライバに対して収集した顔画像であり、画像P1は、上記の正規化処理を通じた後に得た仮想カメラ座標系における正規化された顔画像を示し、すなわちドライバ頭部に面している1つの仮想カメラC1によって収集されたドライバ顔画像に相当する。
図7に戻ると、ステップ12222において、前記正規化された顔画像に基づいて視線方向検出を実行して、第1検出視線方向を得る。たとえば、上記の第1検出視線方向は、前記仮想カメラ座標系における3次元視線方向情報であり、3次元方向ベクトルであり得る。
本発明の実施例において、上記の正規化処理を通じた正規化された顔画像を既にトレーニングされた視線方向を検出するためのニューラルネットワークに入力して、上記の正規化された顔画像内の人物の3次元視線方向情報を検出することができる。上記の視線方向を検出するためのニューラルネットワークは、畳み込みニューラルネットワーク(convolutional neural network、CNN)などのディープニューラルネットワーク(deep neural network、DNN)を含み得る。
ステップ12223において、前記第1検出視線方向に対して座標逆変換処理を行って、前記顔画像内の人物の視線方向情報を得る。
後続の注視エリア検出段階において、注視エリア分類器に実際のカメラ座標系における視線特徴ベクトルを入力する必要がある。したがって、本発明において、コンピュータシステムが仮想カメラ座標系における視線方向情報である上記の第1検出視線方向を検出した後、上第1検出視線方向に対して、仮想カメラ座標系から上記の実際のカメラ座標系までの座標逆変換処理を実行して、上記の実際のカメラ座標系における視線方向情報を得る必要がある。
図1に戻ると、上記のステップ12は、顔画像内の人物の視線特徴ベクトルを確定する過程に相当し、当該視線特徴ベクトルは、顔画像内の人物の視線開始点情報および視線方向情報を含む。
たとえば、インテリジェントな運転の実際に適用において、上記の顔画像に対して視線特徴ベクトルを抽出する過程は、車両モデルの変更によって変更されない。当該段階で使用する人工ニューラルネットワーク(顔キーポイントを検出するためのニューラルネットワーク、視線方向を検出するためのニューラルネットワークなど)は、異なる車両モデルに適用でき、良好な機動性を有する。
上記のように、本発明の1実施例によると、ステップ13において、ステップ12で確定された顔画像内の人物の視線開始点情報および視線方向情報を既に所定の3次元空間に対するトレーニングが完了された注視エリア分類器に入力して、前記顔画像に対応する目標注視エリアの種類を検出することができる。
本発明の実施例において、上記のステップ13は、前記目標注視エリアの種類に基づいて目標注視エリア情報を確定し、前記目標注視エリア情報を出力することを含み得る。
たとえば、分類器は、図9Aに示すように、目標注視エリアの種類を出力することができ、または、図9Bに示すように、目標注視エリアの名称を直接出力することができる。
本発明のもう1実施例において、上記の注視エリア検出方法は、上記のステップ11の前に、視線方向を検出するためのニューラルネットワークをトレーニングすることをさらに含み得る。当該ステップは、3次元視線方向推定モデルのトレーニング過程に対応される。当該ステップは、図2に示したリアルタイムで注視エリア分類器をトレーニングする過程と、互いに異なるコンピュータシステムで実行されることができることを説明する必要がある。
図10は、本発明の例示的な実施例に係る3次元視線方向を検出するためのニューラルネットワークをトレーニングする方法のフローチャートである。当該方法は、ステップ1001~1005を含み得る。
ステップ1001において、少なくとも1つの顔サンプルを含む元のサンプルセットを確定し、ここで、各前記顔サンプルは、顔画像サンプルおよび視線方向ラベリング情報を含む。
本発明の実施例において、教師あり学習方法を採用して上記のニューラルネットワークをトレーニングすることができる。これに応じて、上記のニューラルネットワークをトレーニングするためのサンプルセットの中の各々のサンプルは、予測するための入力情報すなわち顔画像サンプル、および、当該入力情報に該当する真の値すなわち実際のカメラ座標系における実際に検出された視線方向情報を含み得る。本発明の実施例において、上記の実際に検出された視線方向情報を、視線方向ラベリング情報とも呼ぶ。
ステップ1002において、顔キーポイントおよび平均顔モデルに基づいて、各々の前記顔画像サンプルに対応する頭部姿態情報を確定する。
ステップ1003において、前記頭部姿態情報および前記実際のカメラ座標系に基づいて、各々の前記顔画像サンプルに対応する正規化された顔画像サンプルおよび前記視線方向ラベリング情報の前記仮想座標系における仮想視線方向ラベリング情報を確定する。
上記のステップ1002およびステップ1003の実施過程は、それぞれ、上記のステップ1202およびステップ12-1~12-3と同様であり、ここでは繰り返して説明しない。同時に、コンピュータシステムは、実際のカメラ座標系から仮想カメラ座標系までの位置変換関係に基づいて、上記の視線方向ラベリング情報を仮想視線ラベリング情報に変換する。
これまでのところ、仮想カメラ座標系におけるサンプルセットを得た。続いて、当該サンプルセットを利用して、前記3次元視線方向を検出するためのニューラルネットワークのトレーニング要件を満たすまで、以下のステップを反復してトレーニングし、これらステップは、各前記正規化された顔画像サンプルをトレーニング待ちの3次元視線方向検出ニューラルネットワークに入力して、3次元視線方向予測情報を得るステップ1004と、前記3次元視線方向予測情報と前記仮想視線方向ラベリング情報との間の偏差に基づいて、前記ニューラルネットワークに対してパラメータ調整を実行して、視線方向情報を検出するためのニューラルネットワークを得るステップ1005と、を含む。
本発明の実施例において、仮想カメラ座標系において正規化処理後の正規化された顔画像をトレーニングサンプルデータとして採用することによって、頭部姿態変化によるニューラルネットワークのトレーニング困難さを低減し、視線方向を検出するためのニューラルネットワークのトレーニング効率を向上させることができる。
1例として、ドライバの注視エリアを認識した後に、当該注視エリアに基づいてさらなる操作を実行することができる。たとえば、注視エリア種類検出結果に基づいて、顔画像に対応する人物の注意力モニタリング結果を確定することができる。たとえば、前記の注視エリア種類検出結果は、所定の時間帯内の注視エリアの種類であり得る。例示的に、当該注視エリア種類検出結果は、「所定の時間帯で、当該ドライバの注視エリアは、常にエリア2である」であり得る。当該エリア2が右フロントガラスであると、当該ドライバが運転により専念していることを意味する。当該エリア2が副操縦士の前方のグローブボックスエリアであると、当該ドライバが気を散らされて集中できない可能性が高いことを意味する。
注意力モニタリング結果を検出した後に、前記注意力モニタリング結果を出力することができ、たとえば、車両内のある表示エリアに「運転がよく専念している」を表示することができる。または、前記注意力モニタリング結果に基づいて注意散漫プロンプト情報を出力することができ、表示スクリーンにすみやかに表示する方式、または、音声プロンプトなどの方式によって、「運転の安全を確保するため、運転に注意力を集中してください」とドライバにプロンプトする。当然ながら、具体的に情報を出力ときに、注意力モニタリング結果および注意散漫プロンプト情報の中の少なくとも1つの情報を出力することができる。
注視エリア種類の検出に基づいて人間の注意力モニタリング結果を確定したり、注意散漫プロンプト情報を出力したりすることによって、ドライバの注意力モニタリングに重要の助けとなり、ドライバが注意力を集中していない状況を効果的な検出し、迅速に思い出させることができ、事故のリスクを減らし、運転の安全を確保することができる。
上記の例の記述において、インテリジェントな運転アプリケーションシナリオにおいてドライバの注意力をモニタリングする例を説明しる。これ以外に、注視エリアの検出は、他の多くの用途もある。
たとえば、注視エリア検出に基づく車両と機械の対話型制御を実行することができる。車両内にマルチメディアプレーヤーなどの一部の電子デバイスが搭載されていることができる。車両内の人の注視エリアを検出することによって、注視エリアの検出結果に基づいて、当該マルチメディアプレーヤーが再生機能を起動するように自動的に制御することができる。
例示的に、車両内に配置したカメラを利用して車両内の人(運転手または乗客など)の顔画像を撮影して得、事前にトレーニングされたニューラルネットワークを利用して注視エリア種類検出結果を検出する。たとえば、当該検出結果は、時間帯Tで、当該車両内の人の注視エリア1が常に車両内のあるマルチメディアプレーヤー上の「注視起動」のオプションが位置しているエリアであることであり得る。上記の検出結果に基づいて当該車両内の人が当該マルチメディアプレーヤーを起動しようとしているとして確定することができるため、該当する制御命令を出力して、当該マルチメディアプレーヤーが再生を実行しはじめるように制御することができる。
車両に関連するアプリケーションに加えて、ゲーム制御、スマートホームデバイス制御、広告プッシュなどの複数の種類のアプリケーションのシナリオをさらに含み得る。スマートホーム制御の例を挙げると、制御者の顔画像を収集し、事前にトレーニングされたニューラルネットワークを介して注視エリア種類検出結果を検出することができる。たとえば、当該検出結果は、時間帯Tで、当該制御者の注視エリア1が常にスマートエアコン上の「注視起動」のオプションが位置しているエリアであることであり得る。上記の検出結果に基づいて、当該制御者がスマートエアコンを起動しようとしているとして確定することができるため、該当する制御命令を出力して、当該エアコンを起動するように制御することができる。
説明の便宜上、前述した各方法の実施例をいずれも一連の動作の組み合わせに記述された。当業者は、本発明は記述された動作の順序に限定されないことを了解すべきである。本発明によると、いくつかのステップは、その他の順序を採用するか、または、同時に実行されることができる。
本発明は、前述した方法の実施例に対応する装置および電子デバイスの実施例をさらに提供することができる。
図11は、本発明の例示的な実施例に係る注視エリア検出装置1100のブロック図である。注視エリア検出装置1100は、画像取得モジュール21と、視線検出モジュール22と、注視エリア検出モジュール23と、備え得る。
画像取得モジュール21は、所定の3次元空間で収集された顔画像を取得する。視線検出モジュール22は、前記顔画像に基づいて視線検出を実行して視線検出結果を得る。本発明の1実施例において、前記視線検出結果は、前記顔画像内の人物の視線開始点情報および視線方向情報を含み得る。注視エリア検出モジュール23は、前記所定の3次元空間に対して事前にトレーニングされた注視エリア分類器を利用して、前記視線検出結果に基づいて前記顔画像に対応する目標注視エリアの種類を検出する。前記目標注視エリアは、前記所定の3次元空間を事前に分割することにより得られた複数種類の定義された注視エリアのうちの1つに属する。
図12を参照すると、本発明の例示的な実施例に係る注視エリア検出装置の視線検出モジュール22は、前記顔画像内の目の位置を検出するための目位置検出サブモジュール221と、前記目の位置が両目の位置を含む場合、前記両目の中間位置を前記視線開始点情報として確定するための第1開始点情報確定サブモジュール222と、を備え得る。
図13を参照すると、本発明の例示的な実施例に係る注視エリア検出装置のもう1つの視線検出モジュール22は、前記顔画像内の目の位置を検出するための目位置検出サブモジュール221と、前記目の位置が両目の位置を含む場合、前記両目中の任意の1つの目の位置を前記視線開始点情報として確定し、または、前記目の位置が片目の位置を含む場合、前記片目の位置を前記視線開始点情報として確定するための第2開始点情報確定サブモジュール223と、を備え得る。
図14を参照すると、本発明の例示的な実施例に係る図12および図13中の目位置検出サブモジュール221は、前記顔画像内の人物の頭部姿態情報を検出するための姿態検出ユニット2211と、前記頭部姿態情報に基づいて前記顔画像内の目の位置を確定するための位置確定ユニット2212と、を備え得る。
図15を参照すると、本発明の例示的な実施例に係る注視エリア検出装置のもう1つの視線検出モジュール22は、前記顔画像内の人物の頭部姿態情報を検出するための姿態検出サブモジュール22-1と、前記頭部姿態情報に基づいて前記顔画像内の人物の視線方向情報を検出するための方向検出サブモジュール22-2と、を備え得る。
図16を参照すると、本発明の例示的な実施例に係る図15中の姿態検出サブモジュール22-1は、前記顔画像内の複数の顔キーポイントを検出するためのキーポイント検出ユニット22-11と、前記顔キーポイントおよび所定の平均顔モデルに基づいて、前記顔画像内の人物の頭部姿態情報を確定するための姿態確定ユニット22-12と、を備え得る。
図17を参照すると、本発明の例示的な実施例に係る図15中の方向検出サブモジュール22-2は、前記頭部姿態情報に基づいて前記顔画像に対して正規化処理を行って、正規化された顔画像を得るための画像処理ユニット22-21と、前記正規化された顔画像に基づいて視線方向検出を実行して、第1検出視線方向を得るための第1方向検出ユニット22-22と、前記第1検出視線方向に対して座標逆変換処理を行って、前記顔画像内の人物の視線方向情報を得るための方向確定ユニット22-23と、を備え得る。
図18を参照すると、本発明の例示的な実施例に係る図17中の画像処理ユニット22-21は、前記頭部姿態情報に基づいて前記顔画像内の人物の頭部座標系を確定するための頭部座標確定サブユニット22-211と、前記頭部座標系に基づいて前記顔画像に対応する実際のカメラ座標系に対して回転および平行移動を行って、仮想カメラ座標系を得るための座標変換サブユニット22-212と、前記実際のカメラ座標系と前記仮想カメラ座標系との間の位置変換関係に基づいて、前記顔画像に対して正規化処理を行って、前記正規化された顔画像を得るための画像処理サブユニット22-213と、を備え得る。
本発明の上記の任意の装置の実施例において、前記注視エリア分類器は、前記所定の3次元空間に対するトレーニングサンプルセットに基づいて事前にトレーニングされることができる。前記トレーニングサンプルセットは、複数の視線特徴サンプルを含み得、各前記視線特徴サンプルは、視線開始点情報、視線方向情報、および、当該視線特徴サンプルに対応する注視エリア種類のラベリング情報を含み、ラベリングした注視エリアの種類は、前記所定の3次元空間を分割して得られた複数種類の定義された注視エリアのうちの1つに属する。
図19は、本発明の例示的な実施例に係るもう1つの注視エリア検出装置1900のブロック図である。図11に示した注視エリア検出装置1100と比較すると、注視エリア検出装置1900は、分類器トレーニングモジュール20をさらに含み得る。
分類器トレーニングモジュール20は、少なくとも1つの前記視線特徴サンプルの前記視線開始点情報および前記視線方向情報をトレーニング待ちの注視エリア分類器に入力して、当該視線特徴サンプルに対応する注視エリア種類予測情報を得るための種類予測サブモジュール201と、前記注視エリア種類予測情報と当該視線特徴サンプルに対応する注視エリア種類のラベリング情報との間の偏差に基づいて、前記注視エリア分類器に対してパラメータ調整を実行して、前記注視エリア分類器をトレーニングするためのパラメータ調整サブモジュール202と、をさらに備え得る。
図20は、本発明の例示的な実施例に係るもう1つの注視エリア検出装置2000のブロック図である。図11に示した注視エリア検出装置1100と比較すると、注視エリア検出装置2000は、分類器取得モジュール203をさらに備え得る。
分類器取得モジュール203は、前記所定の3次元空間の空間識別子に基づいて所定の注視エリア分類器セットから前記空間識別子に対応する注視エリア分類器を取得することができる。前記所定の注視エリア分類器セットは、異なる3次元空間の空間識別子にそれぞれ対応する注視エリア分類器を含み得る。
本発明の上記の任意の装置の実施例において、前記所定の3次元空間は、車両空間を含み得る。これに応じて、前記顔画像は、前記車両空間内の運転エリアに対して収集された画像に基づいて確定されることができる。前記所定の3次元空間を分割して得られた複数種類の定義された注視エリアは、左フロントガラスエリア、右フロントガラスエリア、インストルメントパネルエリア、インテリアミラーエリア、センターコンソールエリア、左バックミラーエリア、右バックミラーエリア、シェーディングプレートエリア、シフトレバーエリア、ステアリングホイールの下方エリア、副操縦士エリア、副操縦士の前方のグローブボックスエリアの中の少なくとも2種類を含み得る。
図21は、本発明の例示的な実施例に係るもう1つの注視エリア検出装置2100のブロック図である。図11に示した注視エリア検出装置1100と比較すると、注視エリア検出装置2100は、注視エリア検出モジュール23が得た注視エリア種類検出結果に基づいて、前記顔画像に対応する人物の注意力モニタリング結果を確定するための注意力モニタリングモジュール24と、前記注意力モニタリング結果を出力しおよび/または前記注意力モニタリング結果に基づいて注意散漫プロンプト情報を出力するためのモニタリング結果出力モジュール25と、をさらに備え得る。
図22は、本発明の例示的な実施例に係るもう1つの注視エリア検出装置2200のブロック図である。図11に示した注視エリア検出装置1100と比較すると、注視エリア検出装置2200は、注視エリア検出モジュール23が得た注視エリア種類検出結果に対応する制御命令を確定するための制御命令確定モジュール26と、電子デバイスが前記制御命令に該当する操作を実行するように制御するための操作制御モジュール27と、をさらに備え得る。
装置の実施例の場合、基本的に方法の実施例に対応されるため、関連される部分は方法の実施例の部分の説明を参照すればよい。上記の装置の実施例は、単に模式的なものである。ここで、分離部件として説明されたユニットは、物理的に分離されている場合と物理的に分離されていない場合があり、ユニットとして表示される部品は、物理ユニットである場合とそうでない場合がある。1つの場所に配置されることも、複数のネットワークユニットに分散させることもできる。当業者は、創造的な作業なしに、実際の必要によってその中の一部またはすべてのモジュールを選択して本発明の実施例を実現することができる。
本発明は、上記の注視エリア検出方法に対応する電子デバイスをさらに提供することができる。図23は、本発明の例示的な1実施例に係る電子デバイス2300のブロック図である。たとえば、電子デバイス2300は、プロセッサと、内部バスと、ネットワークインターフェースと、内部メモリと、不揮発性メモリと、を備え得る。プロセッサは、不揮発性メモリから対応するコンピュータプログラムを内部メモリに読み込んで運行させることによって、上記の注視エリア検出方法を実現するための注視エリア検出装置を論理的に形成することができる。
当業者は、本発明は、方法、装置、システム、または、コンピュータプログラム製品として提供することができることを理解すべきである。したがって、本発明は、完全なハードウェアの実施例、完全なソフトウェアの実施例、または、ソフトウェアとハードウェアとを組み合わせた実施例の形態を採用することができる。
本発明は、コンピュータ可読記録媒体をさらに提供することができ、当該記録媒体には、コンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサによって実行されると、当該プロセッサが、上記の任意の方法実施例の注視エリア検出方法を実現するようにする。
本発明における主題および機能操作の実施例は、デジタル電子回路、有形コンピュータソフトウェアまたはファームウェア、本発明に開示される構成およびその構造的同等物を含むコンピュータハードウェア、または、それらの1つまたは複数の組み合わせで、実現されることができる。本発明における主題の実施例は、1つまたは複数のコンピュータプログラムとして実現されることができ、すなわち、有形の非一時的プログラムキャリア上に符号化されて、データ処理装置によって実行されるか、または、データ処理装置の操作を制御するための、コンピュータプログラム命令中の1つまたは複数のモジュールとして実現されることができる。代替的または追加的に、プログラム命令は、手動で生成する伝播信号上に符号化されることができ、例えば、機械が生成する電気信号、光信号、または、電磁信号に符号化されることができる。当該信号は、情報を符号化して適切な受信機装置に伝送して、データ処理装置によって実行されるようにするために、生成される。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムにまたはシリアルアクセスメモリデバイス、または、それらの1つまたは複数の組み合わせであり得る。
本発明における処理と論理フローは、1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラム可能なコンピュータによって実行されることができ、入力データに基づいて操作を実行して出力を生成することによって該当する機能を実行する。前記処理と論理フローは、さらに、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(専用集積回路)などの専用論理回路によって実行されることができ、また、装置も専用論理回路として実現されることができる。
コンピュータプログラムの実行に適したコンピュータは、例えば、汎用、および/または、専用マイクロプロセッサ、または、いかなる他の種類の中央処理ユニットを含む。一般的に、中央処理ユニットは、読み取り専用メモリ、および/または、ランダムアクセスメモリから、命令とデータを受信することになる。コンピュータの基本コンポーネントは、命令を実施または実行するための中央処理ユニット、および、命令とデータを記憶するための1つまたは複数のメモリデバイスを含む。一般的に、コンピュータは、磁気ディスク、磁気光学ディスク、または、光ディスクなどの、データを記憶するための1つまたは複数の大容量記憶デバイスをさらに含むか、または、操作可能に当該大容量記憶デバイスと結合されてデータを受信するかまたはデータを伝送するか、または、その両方を兼有する。しかしながら、コンピュータは、必ずとして、このようなデバイスを有するわけではない。なお、コンピュータは、もう1デバイスに埋め込まれることができ、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、モバイルオーディオまたはビデオおプレーヤー、ゲームコンソール、グローバルポジショニングシステム(GPS)レジーバー、または、汎用シリアルバス(USB)フラッシュドライブなどのポータブル記憶デバイスに埋め込まれることができ、これらデバイスはいくつかの例に過ぎない。
コンピュータプログラム命令とデータの記憶に適したコンピュータ可読媒体は、様々な形式の不揮発性メモリ、媒介、および、メモリデバイスを含み、例えば、半導体メモリデバイス(たとえば、消去可能プログラム可能読み取り専用メモリ(Erasable Programmable Read Only Memory、EPROM)、電気的消去可能プログラム可能読み取り専用メモリ(Electrically Erasable Programmable Read Only Memory、EEPROM)およびフラッシュメモリ)、磁気ディスク(たとえば、内部ハードディスクまたは移動可能ディスク)、磁気光学ディスク、光学ディスク読み取り専用メモリ(Compact Disc Read Only Memory、CD-ROM)、デジタル多用途光ディスク(Digital Versatile Disc、DVD)などを含む。プロセッサとメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込まれることができる。
本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの1つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせるまたはサブ組み合わせの変形に向けることができる。
類似的に、図面で特定の順序に従って操作を描いたが、これはこれら操作を示した特定の順序にしたがって実行するかまたは順次に実行するように要求するか、または、例示したすべての操作が実行されることによって期待する結果が実現されると要求することであると理解すべきではない。なお、上記の実施例中の各種のシステムモジュールとコンポーネントの分離は、すべての実施例でいずれもこのように分離されなければならないと理解すべきではないし、また、叙述したプログラムコンポーネントとシステムは、一般的に、一緒に単一のソフトウェア製品に統合されるか、または、複数のソフトウェア製品にパッケージされることができることを理解すべきである。
上記は、本発明のいくつかの実施例に過ぎず、本発明を限定するために使用されるものではない。本発明の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも本発明の範囲に含まれるべきである。

Claims (17)

  1. 注視エリア検出方法であって、
    所定の3次元空間で収集された顔画像を取得することと、
    前記顔画像に基づいて視線検出を実行して視線検出結果を得ることであって、前記視線検出結果は、前記顔画像内の人物の視線開始点情報および視線方向情報を含むことと、
    前記視線検出結果を前記所定の3次元空間に対して事前にトレーニングされた注視エリア分類器に入力して、前記顔画像に対応する目標注視エリアの種類を検出することと、を含み、
    ここで、前記目標注視エリアは、前記所定の3次元空間を事前に分割することにより得られた複数種類の定義された注視エリアのうちの1つに属する
    ことを特徴とする注視エリア検出方法。
  2. 前記顔画像に基づいて視線検出を実行して視線検出結果を得ることは、
    前記顔画像内の目の位置を検出することと、
    前記目の位置が両目の位置を含む場合、前記両目の中間位置を前記視線開始点情報として確定することと、を含むか、または、
    前記顔画像内の目の位置を検出することと、
    前記目の位置が両目の位置を含む場合、前記両目中の任意の1つの目の位置を前記視線開始点情報として確定し、または、前記目の位置が片目の位置を含む場合、前記片目の位置を前記視線開始点情報として確定することと、を含む
    ことを特徴とする請求項に記載の注視エリア検出方法。
  3. 前記顔画像内の目の位置を検出することは、
    前記顔画像内の人物の頭部姿態情報を検出することと、
    前記頭部姿態情報に基づいて前記顔画像内の目の位置を確定することと、を含む
    ことを特徴とする請求項に記載の注視エリア検出方法。
  4. 前記顔画像に基づいて視線検出を実行して視線検出結果を得ることは、
    前記顔画像内の人物の頭部姿態情報を検出することと、
    前記頭部姿態情報に基づいて前記顔画像内の人物の視線方向情報を検出することと、を含む
    ことを特徴とする請求項に記載の注視エリア検出方法。
  5. 前記顔画像内の人物の頭部姿態情報を検出することは、
    前記顔画像内の複数の顔キーポイントを検出することと、
    前記顔キーポイントおよび所定の平均顔モデルに基づいて、前記顔画像内の人物の頭部姿態情報を確定することと、を含む
    ことを特徴とする請求項またはに記載の注視エリア検出方法。
  6. 前記頭部姿態情報に基づいて前記顔画像内の人物の視線方向情報を検出することは、
    前記頭部姿態情報に基づいて前記顔画像に対して正規化処理を行って、正規化された顔画像を得ることと、
    前記正規化された顔画像に基づいて視線方向検出を実行して、第1検出視線方向を得ることと、
    前記第1検出視線方向に対して座標逆変換処理を行って、前記顔画像内の人物の視線方向情報を得ることと、を含む
    ことを特徴とする請求項またはに記載の注視エリア検出方法。
  7. 前記頭部姿態情報に基づいて前記顔画像に対して正規化処理を行って正規化された顔画像を得ることは、
    前記頭部姿態情報に基づいて前記顔画像内の人物の頭部座標系を確定することと、
    前記頭部座標系に基づいて前記顔画像に対応する実際のカメラ座標系に対して回転および平行移動を行って、仮想カメラ座標系を得ることと、
    前記実際のカメラ座標系と前記仮想カメラ座標系との間の位置変換関係に基づいて、前記顔画像に対して正規化処理を行って、前記正規化された顔画像を得ることと、を含む
    ことを特徴とする請求項に記載の注視エリア検出方法。
  8. 前記注視エリア分類器は、前記所定の3次元空間に対するトレーニングサンプルセットに基づいて事前にトレーニングされ、ここで、前記トレーニングサンプルセットは、複数の視線特徴サンプルを含み、各前記視線特徴サンプルは、視線開始点情報、視線方向情報、および、当該視線特徴サンプルに対応する注視エリア種類のラベリング情報を含み、ラベリングした注視エリアの種類は、前記所定の3次元空間を分割して得られた前記複数種類の定義された注視エリアのうちの1つに属する
    ことを特徴とする請求項1乃至の中のいずれか1項に記載の注視エリア検出方法。
  9. 複数の空間分布が異なる3次元空間のそれぞれに対して事前にトレーニングされた複数の注視エリア分類器から、前記所定の3次元空間に対して事前にトレーニングされた注視エリア分類器を決定することをさらに含む
    ことを特徴とする請求項1乃至8の中のいずれか1項に記載の注視エリア検出方法。
  10. 前記所定の3次元空間で収集された顔画像を取得する前に、
    少なくとも1つの前記視線特徴サンプルの前記視線開始点情報および前記視線方向情報をトレーニング待ちの注視エリア分類器に入力して、当該視線特徴サンプルに対応する注視エリア種類予測情報を得ることと、
    前記注視エリア種類予測情報と当該視線特徴サンプルに対応する注視エリア種類のラベリング情報との間の偏差に基づいて、前記注視エリア分類器に対してパラメータ調整を実行して、前記注視エリア分類器をトレーニングすることと、をさらに含むか、または、
    前記所定の3次元空間の空間識別子に基づいて所定の注視エリア分類器セットから前記空間識別子に対応する注視エリア分類器を取得することをさらに含み、
    ここで、前記所定の注視エリア分類器セットは、異なる3次元空間の空間識別子にそれぞれ対応する注視エリア分類器を含む
    ことを特徴とする請求項に記載の注視エリア検出方法。
  11. 前記所定の3次元空間は、車両空間を含む
    ことを特徴とする請求項1乃至10の中のいずれか1項に記載の注視エリア検出方法。
  12. 前記顔画像は、前記車両空間内の運転エリアに対して収集された画像に基づいて確定され、
    前記複数種類の定義された注視エリアは、左フロントガラスエリア、右フロントガラスエリア、インストルメントパネルエリア、インテリアミラーエリア、センターコンソールエリア、左バックミラーエリア、右バックミラーエリア、シェーディングプレートエリア、シフトレバーエリア、ステアリングホイールの下方エリア、副操縦士エリア、副操縦士の前方のグローブボックスエリアの中の少なくとも2種類を含む
    ことを特徴とする請求項11に記載の注視エリア検出方法。
  13. 注視エリア種類検出結果に基づいて、前記顔画像に対応する人物の注意力モニタリング結果を確定することと、
    前記注意力モニタリング結果を出力し、および/または、前記注意力モニタリング結果に基づいて注意散漫プロンプト情報を出力することと、をさらに含む
    ことを特徴とする請求項1乃至12の中のいずれか1項に記載の注視エリア検出方法。
  14. 注視エリア種類検出結果に対応する制御命令を確定することと、
    電子デバイスが前記制御命令に該当する操作を実行するように制御することと、をさらに含む
    ことを特徴とする請求項1乃至13の中のいずれか1項に記載の注視エリア検出方法。
  15. 注視エリア検出装置であって、
    所定の3次元空間で収集された顔画像を取得するための画像取得モジュールと、
    前記顔画像に基づいて視線検出を実行して視線検出結果を得るための視線検出モジュールであって、前記視線検出結果は、前記顔画像内の人物の視線開始点情報および視線方向情報を含む視線検出モジュールと、
    前記視線検出結果を前記所定の3次元空間に対して事前にトレーニングされた注視エリア分類器に入力して、前記顔画像に対応する目標注視エリアの種類を検出するための注視エリア検出モジュールと、を備え、
    ここで、前記目標注視エリアは、前記所定の3次元空間を事前に分割することにより得られた複数種類の定義された注視エリアのうちの1つに属する
    ことを特徴とする注視エリア検出装置。
  16. コンピュータプログラムが記憶されているコンピュータ可読記録媒体であって、
    前記コンピュータプログラムがプロセッサによって実行されると、当該プロセッサが、請求項1乃至14の中のいずれか1項に記載の方法を実現するようにする
    ことを特徴とするコンピュータ可読記録媒体。
  17. 電子デバイスであって、
    メモリとプロセッサとを備え、
    ここで、前記メモリには、コンピュータプログラムが記憶されており、
    前記プロセッサが前記コンピュータプログラムを実行するときに、請求項1乃至14の中のいずれか1項に記載の方法が実現される
    ことを特徴とする電子デバイス。
JP2021540793A 2019-03-18 2019-12-24 注視エリア検出方法、装置、及び電子デバイス Active JP7244655B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910204793.1A CN111723828A (zh) 2019-03-18 2019-03-18 注视区域检测方法、装置及电子设备
CN201910204793.1 2019-03-18
PCT/CN2019/127833 WO2020186867A1 (zh) 2019-03-18 2019-12-24 注视区域检测方法、装置及电子设备

Publications (2)

Publication Number Publication Date
JP2022517254A JP2022517254A (ja) 2022-03-07
JP7244655B2 true JP7244655B2 (ja) 2023-03-22

Family

ID=72519550

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021540793A Active JP7244655B2 (ja) 2019-03-18 2019-12-24 注視エリア検出方法、装置、及び電子デバイス

Country Status (4)

Country Link
JP (1) JP7244655B2 (ja)
KR (1) KR20210104107A (ja)
CN (1) CN111723828A (ja)
WO (1) WO2020186867A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434741A (zh) * 2020-11-25 2021-03-02 杭州盛世传奇标识系统有限公司 一种互动介绍标识的使用方法、系统、装置和存储介质
CN112580522A (zh) * 2020-12-22 2021-03-30 北京每日优鲜电子商务有限公司 睡眠人员检测方法、装置、设备及存储介质
WO2022141114A1 (zh) * 2020-12-29 2022-07-07 深圳市大疆创新科技有限公司 视线估计方法、装置、车辆及计算机可读存储介质
CN112766097B (zh) * 2021-01-06 2024-02-13 中国科学院上海微系统与信息技术研究所 视线识别模型的训练方法、视线识别方法、装置及设备
CN112733740A (zh) * 2021-01-14 2021-04-30 深圳数联天下智能科技有限公司 一种注意力信息的生成方法、装置、终端设备及存储介质
CN113115086B (zh) * 2021-04-16 2023-09-19 浙江闪链科技有限公司 基于视频视线识别对电梯媒体收视信息进行采集的方法
CN113692371A (zh) * 2021-06-30 2021-11-23 华为技术有限公司 一种目标位置的确定方法、确定装置及确定系统
CN113627267A (zh) * 2021-07-15 2021-11-09 中汽创智科技有限公司 一种视线检测方法、装置、设备及介质
CN113569785A (zh) * 2021-08-04 2021-10-29 上海汽车集团股份有限公司 驾驶状态感知方法及装置
CN113807330B (zh) * 2021-11-19 2022-03-08 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 面向资源受限场景的三维视线估计方法及装置
KR20230101580A (ko) * 2021-12-29 2023-07-06 삼성전자주식회사 안구 모델에 기초하여 센싱 범위를 결정하는 시선 추적 방법, 장치 및 시선 추적 센서
CN114967935B (zh) * 2022-06-29 2023-04-07 深圳职业技术学院 基于视线估计的交互方法、装置、终端设备及存储介质
CN116030512B (zh) * 2022-08-04 2023-10-31 荣耀终端有限公司 注视点检测方法及装置
CN115761871B (zh) * 2022-12-01 2023-08-11 北京中科睿医信息科技有限公司 基于眼动检测的检测图像生成方法、装置、设备及介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106293031B (zh) * 2015-06-04 2019-05-21 北京智谷睿拓技术服务有限公司 信息处理方法、信息处理装置及用户设备
CN107878326A (zh) * 2016-09-30 2018-04-06 法乐第(北京)网络科技有限公司 车辆驾驶辅助装置及车辆驾驶辅助控制方法
CN106891811A (zh) * 2017-03-15 2017-06-27 黄建平 一种汽车显示系统
US10843686B2 (en) * 2017-06-08 2020-11-24 Envisics Ltd Augmented reality (AR) visualization of advanced driver-assistance system
JP6638701B2 (ja) * 2017-06-08 2020-01-29 トヨタ自動車株式会社 運転意識推定装置
CN107590482A (zh) * 2017-09-29 2018-01-16 百度在线网络技术(北京)有限公司 信息生成方法和装置
CN107679490B (zh) * 2017-09-29 2019-06-28 百度在线网络技术(北京)有限公司 用于检测图像质量的方法和装置
CN108875524B (zh) * 2018-01-02 2021-03-02 北京旷视科技有限公司 视线估计方法、装置、系统和存储介质
CN108171218A (zh) * 2018-01-29 2018-06-15 深圳市唯特视科技有限公司 一种基于深度外观注视网络的视线估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Borhan Vasli et al.,On Driver Gaze Estimation: Explorations and Fusion of Geometric and Data Driven Approaches,2016 IEEE 19th International Conference on Intelligent Transportation Systems (ITSC),IEEE,2016年,pp.655-660,https://ieeexplore.ieee.org/document/7795623

Also Published As

Publication number Publication date
CN111723828A (zh) 2020-09-29
KR20210104107A (ko) 2021-08-24
WO2020186867A1 (zh) 2020-09-24
JP2022517254A (ja) 2022-03-07

Similar Documents

Publication Publication Date Title
JP7244655B2 (ja) 注視エリア検出方法、装置、及び電子デバイス
EP3491493B1 (en) Gesture based control of autonomous vehicles
CN111566612A (zh) 基于姿势和视线的视觉数据采集系统
Yang et al. Fast depth prediction and obstacle avoidance on a monocular drone using probabilistic convolutional neural network
WO2019214313A1 (zh) 一种车辆定损的交互处理方法、装置、处理设备及客户端
JP7252348B2 (ja) 注視エリア検出方法とニューラルネットワークトレーニング方法、装置、及びデバイス
CN105916730B (zh) 车辆视镜调节
García et al. Driver monitoring based on low-cost 3-D sensors
WO2019184573A1 (en) Passenger-related item loss mitigation
US9383826B2 (en) System and method for recognizing user's gesture for carrying out operation of vehicle
CN112590794A (zh) 确定车辆驾驶员接管车辆控制的能力估计值的方法和装置
US20150116493A1 (en) Method and system for estimating gaze direction of vehicle drivers
US20140168061A1 (en) System and method for manipulating user interface in vehicle using finger valleys
CN110853073A (zh) 确定关注点的方法、装置、设备、系统及信息处理方法
US20220058407A1 (en) Neural Network For Head Pose And Gaze Estimation Using Photorealistic Synthetic Data
US20140152549A1 (en) System and method for providing user interface using hand shape trace recognition in vehicle
US20140168068A1 (en) System and method for manipulating user interface using wrist angle in vehicle
CN110910628B (zh) 车损图像拍摄的交互处理方法、装置、电子设备
CN113785263A (zh) 用于在自动驾驶车辆与外部观察者之间的通信的虚拟模型
CN111127837A (zh) 一种报警方法、摄像机及报警系统
JP7230345B2 (ja) 情報処理装置及び情報処理プログラム
CN113228103A (zh) 目标跟踪方法、装置、无人机、系统及可读存储介质
Dong et al. Simultaneous pose and correspondence determination combining softassign and orthogonal iteration
CN112655021A (zh) 图像处理方法、装置、电子设备和存储介质
US20220114748A1 (en) System and Method for Capturing a Spatial Orientation of a Wearable Device

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210714

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220721

A603 Late request for extension of time limit during examination

Free format text: JAPANESE INTERMEDIATE CODE: A603

Effective date: 20221124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230309

R150 Certificate of patent or registration of utility model

Ref document number: 7244655

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150