JP7244655B2

JP7244655B2 - 注視エリア検出方法、装置、及び電子デバイス

Info

Publication number: JP7244655B2
Application number: JP2021540793A
Authority: JP
Inventors: ▲詩▼▲堯▼ 黄; ▲飛▼ 王; 晨 ▲錢▼
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-03-18
Filing date: 2019-12-24
Publication date: 2023-03-22
Anticipated expiration: 2039-12-24
Also published as: CN111723828A; KR20210104107A; WO2020186867A1; JP2022517254A

Description

＜関連出願の互いに引用＞
本発明は、出願日が２０１９年３月１８日であり、出願番号が２０１９１０２０４７９３.１であり、発明名称が「注視エリア検出方法、装置、及び電子デバイス」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照として本願に組み入れられる。
本発明は、コンピュータビジョン技術の分野に関し、特に、注視エリア検出方法、装置、及び電子デバイスに関する。

注視エリアの検出は、インテリジェントな運転、ヒューマンコンピュータインタラクション、セキュリティ監視などのアプリケーションで重要な役割を果たすことができる。ヒューマンコンピュータインタラクションに関しては、目の空間における３次元位置を確定し、また３次元視線方向を組み合わせて、人の注視点の３次元空間おける位置を得て、機械に出力してさらなるインタラクティブ処理を行うようにする。注意力検出に関しては、目の視線方向を推定することによって、人の注視方向を判断し、人の関心エリアを得て、人の注意力が集中しているか否かを判断することができる。

本発明の第１態様によると、注視エリア検出方法を提供し、当該方法は、所定の３次元空間で収集された顔画像を取得することと、前記顔画像に基づいて視線検出を実行して視線検出結果を得ることと、前記所定の３次元空間に対して事前にトレーニングされた注視エリア分類器を利用して、前記視線検出結果に基づいて前記顔画像に対応する目標注視エリアの種類を検出することと、を含み、ここで、前記目標注視エリアは、前記所定の３次元空間を事前に分割することにより得られた複数種類の定義された注視エリアのうちの１つに属する。

本発明の第２態様によると、注視エリア検出装置を提供し、前記装置は、所定の３次元空間で収集された顔画像を取得するための画像取得モジュールと、前記顔画像に基づいて視線検出を実行して視線検出結果を得るための視線検出モジュールと、前記所定の３次元空間に対して事前にトレーニングされた注視エリア分類器を利用して、前記視線検出結果に基づいて前記顔画像に対応する目標注視エリアの種類を検出するための注視エリア検出モジュールと、を備え、ここで、前記目標注視エリアは、前記所定の３次元空間を事前に分割することにより得られた複数種類の定義された注視エリアのうちの１つに属する。

本発明の第３態様によると、コンピュータプログラムが記憶されているコンピュータ可読記録媒体を提供し、前記コンピュータプログラムがプロセッサによって実行されると、当該プロセッサが上記の第１態様の方法を実現するようにする。

本発明の第４態様によると、電子デバイスを提供し、当該電子デバイスは、メモリとプロセッサとを備え、前記メモリには、コンピュータプログラムが記憶されており、前記プロセッサが前記コンピュータプログラムを実行するときに、上記の第１態様の方法を実現する。

本発明の実施例によると、所定の３次元空間の変化に対して、各３次元空間に対応する注視エリア分類器のみをトレーニングする必要がある。分類器のトレーニングは大量のデータを必要とせず、またトレーニング速度がより速いため、異なる３次元空間（たとえば異なる車両モデルの空間）間で注視エリア検出方法を移転するときの時間コストおよび技術的な困難を大幅に削減することができる。

本発明の例示的な実施例に係る注視エリア検出方法のフローチャートである。本発明の例示的な実施例に係る所定の３次元空間に対する注視エリア分類器をリアルタイムでトレーニングする方法のフローチャートである。本発明の例示的な実施例に係る複数種類の定義された注視エリアの模式図である。本発明の例示的な実施例に係る顔画像内の人物の視線開始点情報を確定する方法のフローチャートである。本発明の例示的な実施例に係る顔画像内の人物の視線方向情報を検出する方法のフローチャートである。本発明の例示的な実施例に係る顔画像内の人物の頭部姿態情報を検出する方法のフローチャートである。本発明の例示的な実施例に係る頭部姿態情報に基づいて顔画像内の人物の視線方向情報を検出する方法のフローチャートである。本発明の例示的な実施例に係る顔画像に対して正規化処理を行って正規化された顔画像を得る方法のフローチャートである。本発明の例示的な実施例に係る取得た顔画像に対して正規化処理を行う模式図である。本発明の例示的な実施例に係る分類器が目標注視エリアの種類を出力する模式図である。本発明の例示的な実施例に係る分類器が目標注視エリアの名称を出力する模式図である。本発明の例示的な実施例に係る３次元視線方向を検出するためのニューラルネットワークをトレーニングする方法のフローチャートである。本発明の例示的な実施例に係る注視エリア検出装置のブロック図である。本発明の例示的な実施例に係る注視エリア検出装置の視線検出モジュールのブロック図である。本発明の例示的な実施例に係る注視エリア検出装置のもう１つの視線検出モジュールのブロック図である。本発明の例示的な実施例に係る図１２および図１３中の目位置検出サブモジュールのブロック図である。本発明の例示的な実施例に係る注視エリア検出装置のもう１つの視線検出モジュールのブロック図である。本発明の例示的な実施例に係る図１５中の視線検出モジュールの姿態検出サブモジュールのブロック図である。本発明の例示的な実施例に係る図１５中の視線検出モジュールの方向検出サブモジュールのブロック図である。本発明の例示的な実施例に係る図１７中の方向検出サブモジュールの画像処理ユニットのブロック図である。本発明の例示的な実施例に係るもう１つの注視エリア検出装置のブロック図である。本発明の例示的な実施例に係るもう１つの注視エリア検出装置のブロック図である。本発明の例示的な実施例に係るもう１つの注視エリア検出装置のブロック図である。本発明の例示的な実施例に係るもう１つの注視エリア検出装置のブロック図である。本発明の例示的な実施例に係る電子デバイスのブロック図である。

ここで例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明が図面を言及している場合、特に明記しない限り、異なる図面における同一の数字は、同一または類似な要素を示す。以下の例示的な実施例で叙述される実施形態は、本発明と一致するすべての実施形態を代表しない。逆に、それらは、添付された特許請求の範囲に記載された、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。

本発明で使用される用語は、特定の実施例を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明で使用される「一種」、「前記」、「当該」などの単数形は、文脈が他の意味を明確に示さない限り、複数形を含むことを意図している。本明細書で使用される「および／または」という用語は、１つまたは複数の関連するリストされたアイテムの任意の１つまたはすべての可能な組み合わせを含むことを指すことを理解すべきである。

本発明では、第１、第２、第３などの用語を使用して様々な情報を記述することがあるが、これら情報はこれら用語によって限制されるべきではないことを理解すべきである。これら用語は、同じ種類の情報を互いに区別するためにのみ使用される。たとえば、本開示の範囲から逸脱することなく、第１の情報は、第２の情報とも呼ばれ得、同様に、第２の情報は、第１の情報とも呼ばれ得る。文脈に応じて、本明細書で使用される「もし」という単語は、「…場合」、「…すると」、または、「…ことに応答して」と解釈することができる。

本発明は、注視エリア検出方法を提供し、インテリジェントな運転、ヒューマンコンピュータインタラクション、セキュリティ監視などのシーンに適用されることができる。本発明は、当該注視エリア検出方法をインテリジェントな運転シーンに適用する例を挙げて詳細に説明する。

本発明の実施例において、関与する実行主体は、コンピュータシステムおよび所定の３次元空間に設けられたカメラを含み得る。所定の３次元空間に設けられたカメラは、収集したユーザの顔画像データを上記のコンピュータシステムに送信することができる。当該コンピュータシステムは、人工ニューラルネットワークを利用して上記の顔画像データに対して処理を実行して、当該ユーザの注意力が所定の３次元空間内のどの部分のエリアに集中されているかを検出することができ、すなわち、当該ユーザの目標注視エリアを検出することができて、コンピュータシステムが、上記のユーザの目標注視エリアに基づいて、スマート走行車両を運転するための命令などの、対応する操作制御情報を出力するようにすることができる。

上記のコンピュータシステムは、サーバ、サーバクラスタ、または、クラウドプラットフォームに設けられ得、さらに、パーソナルコンピュータ、車載デバイス、移動端末などの電子デバイス中のコンピュータシステムであり得る。上記のカメラは、ドライビングレコーダ内のカメラ、スマート端末のカメラなどの、車載デバイスであり得る。上記のスマート端末は、たとえば、スマートフォン、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、パーソナルデジタルアシスタント）、タブレットコンピュータ、車載デバイスなどの、電子デバイスを含み得る。具体的に実現する過程において、カメラとコンピュータシステムとは、互いに独立していてもよく、同時に互いに接続されて、本発明の実施例によって提供される注視エリア検出方法を共同で実現することができる。以下、コンピュータシステムの例を挙げて、本発明によって提供される注視エリア検出方法を詳細に説明する。

図１は、本発明の例示的な実施例に係る注視エリア検出方法のフローチャートである。前記方法は、コンピュータシステムによって実行され得、様々なスマートデバイス（たとえば、スマート交通手段、スマートロボット、スマートホームデバイスなど）に適用され得る。図１に示したように、当該方法は、ステップ１１～１３を含み得る。

ステップ１１において、所定の３次元空間内で収集された顔画像を取得する。

Ｍモデルの車両の例を挙げると、所定の３次元空間は、当該車両の空間であり、当該車両のセンターコンソールの位置などの内部空間に１つのカメラが固定設置されることができる。当該カメラは、リアルタイムまたは所定の時間周期などで、ドライバなどの目標対象の顔画像を収集してコンピュータシステムに提供することによって、当該コンピュータシステムが収集された顔画像を取得するようにすることができる。

ステップ１２において、前記顔画像に基づいて視線検出を実行して視線検出結果を得る。

本発明の実施例において、コンピュータシステムは、上記の顔画像に基づいて視線検出を実行して、視線検出結果を得ることができる。視線検出は、顔画像内の目の位置および／または視線方向を分析することによって、視線検出結果を得ることである。本発明は、視線検出を実行する方法に対して限定しなく、すなわち、本発明の実施例に言及された方法を採用して視線検出を実行してもよいし、従来の他の方法を採用して視線検出を実行してもよい。上記の視線検出結果は、顔画像内の人物の視線開始点情報および視線方向情報を含み得、顔画像内の人物の頭部姿態などの情報をさらに含み得る。

ステップ１３において、前記所定の３次元空間に対して事前にトレーニングされた注視エリア分類器を利用して、前記視線検出結果に基づいて前記顔画像に対応する目標注視エリアの種類を検出する。

前記目標注視エリアは、前記所定の３次元空間を事前に分割することにより得られた複数種類の定義された注視エリアのうちの１つに属する。たとえば、フロントガラス、バックミラー、または、車内の他の空間などの、車両走行過程でドライバが注視できる各空間を所定の３次元空間に設定することができる。

上記の例のように、コンピュータシステムは、上記の顔画像内の人物の視線検出結果を得た後に、上記の視線検出結果を、事前にトレーニングされた、上記のＭモデルのインテリジェント運転車両の注視エリア分類器に、入力することによって、上記の顔画像に対応する目標注視エリアの種類を検出することができ、すなわち、画像を収集するときのドライバなどの顔画像内の人が車両のどのエリアを注視しているかを検出することができる。

本発明において、上記の所定の３次元空間に対する注視エリア分類器は、コンピュータシステムによって上記の所定の３次元空間に対するトレーニングサンプルセットに基づいて事前にトレーニングされたものであり、ここで、前記トレーニングサンプルセットは、複数の視線特徴サンプルを含み、各前記視線特徴サンプルは、視線開始点情報、視線方向情報、および、当該視線特徴サンプルに対応する注視エリア種類のラベリング情報を含み、ラベリングした注視エリアの種類は、前記所定の３次元空間を分割して得られた複数種類の定義された注視エリアのうちの１つに属する。

本発明の実施例によると、所定の３次元空間に対して注視エリア分類器をトレーニングする前に、所定の３次元空間内の、目の視線が注目する可能性がある３次元空間エリアに対して、細かく分類して、複数種類の定義された注視エリアを得、また複数種類の定義された注視エリアに対応するトレーニングサンプルセットに基づいて分類器トレーニングを実行して、所定の３次元空間に対する注視エリア分類器を得る。後続で、当該注視エリア分類器を利用して視線検出結果に基づいて目標注視エリア情報を正確に検出することができ、計算が簡単で、目標注視エリアの誤判断率を効果的に低減し、後続の操作に対してより正確な情報を提供することができる。

上記のステップ１２に対応する視線検出段階は、所定の３次元空間における複数種類の定義された注視エリアの分布とは関係がなく、上記のステップ１３に対応する注視エリア検出段階は、上記の複数種類の定義された注視エリアの所定の３次元空間における分布と関係がある。たとえば、異なるモデルの車両の空間の全体の大きさは、異なる可能性があり、またグローブボックスなどの同一の種類のエリアの異なる車両空間における位置が異なる可能性があるため、異なる３次元空間における複数種類の定義された注視エリアの分割も異なる可能性があり、たとえば、定義された注視エリアの数および種類が異なる可能性がある。したがって、異なる３次元空間に対して異なる注視エリア分類器をトレーニングする必要があり、たとえば、空間分布が異なるＭモデル車両およびＮモデル車両に対して、異なる注視エリア分類器をそれぞれトレーニングする必要がある。

したがって、異なるモデルの車両に対して同じ方法を採用して視線検出を実行することができ、車両モデルを変更するときに注視エリア分類器を再トレーニングするだけで済む。エンドツーエンドの方式で畳み込みニューラルネットワークの全体を再トレーニングする場合と比較して、注視エリア分類器のトレーニングは比較的に簡単で、それほど多いデータを必要とせず、トレーニング速度が速いため、異なる車両モデル間で上記の注視エリア検出方法を移転するときの時間コストおよび技術的な困難を大幅に削減することができる。

本発明のもう１実施例において、上記の注視エリア検出方法は、上記のステップ１１の前に、前記所定の３次元空間に対するトレーニングが完了された注視エリア分類器を取得することをさらに含み得る。本発明において、以下の方式１または方式２を採用して、前記所定の３次元空間に対するトレーニングが完了された注視エリア分類器を取得することができる。

方式１において、注視エリア検出を実行する必要があるときに、所定の３次元空間に対する注視エリア分類器をリアルタイムでトレーニングする。

図２に示したように、所定の３次元空間に対する注視エリア分類器をリアルタイムでトレーニングすることは、少なくとも１つの視線特徴サンプルの視線開始点情報および視線方向情報をトレーニング待ちの注視エリア分類器に入力して、当該視線特徴サンプルに対応する注視エリア種類予測情報を得るステップ１０１と、前記注視エリア種類予測情報と当該視線特徴サンプルに対応する注視エリア種類のラベリング情報との間の偏差に基づいて、前記注視エリア分類器に対してパラメータ調整を実行して、前記注視エリア分類器をトレーニングするステップ１０２と、をさらに含み得る。

たとえば、上記の所定の３次元空間は、あるモデルの車両の空間であり得る。まず、顔画像を収集するためのカメラの固定位置を確定する。たとえば、カメラをセンターコンソールの位置に固定して、運転エリア内のドライバの顔画像を収集する。後続で、分類器トレーニング段階および検出段階で必要な顔画像は、すべて当該固定位置の上記のカメラを利用して収集する。

同時に、上記の車両の異なる部位に対して注視エリア分割を実行し、主には、車両運転過程でドライバの目が注目する必要があるエリアに基づいて、上記の車両空間で複数種類の定義された注視エリアを分割し、複数種類の定義された注視エリアに対してそれぞれ対応する種類情報を設定する。

本発明の１実施例において、車両空間を分割して得られた複数種類の定義された注視エリアは、左フロントガラスエリア、右フロントガラスエリア、インストルメントパネルエリア、インテリアミラーエリア、センターコンソールエリア、左バックミラーエリア、右バックミラーエリア、シェーディングプレートエリア、シフトレバーエリア、ステアリングホイールの下方エリア、副操縦士エリア、副操縦士の前方のグローブボックスエリアの中の少なくとも２種類を含み得る。

図３は、本発明の例示的な実施例に係る複数種類の定義された注視エリアの模式図である。所定の１つのモデルの車両に対して、左フロントガラス、右フロントガラス、インストルメントパネル、インテリアミラー、センターコンソール、左バックミラー、右バックミラー、遮陽板、シフトレバー、携帯電話のような複数種類の定義された注視エリアを確定することができる。複数種類の定義された注視エリアに対してそれぞれ対応する種類情報を事前に設定することができ、たとえば、数字を利用して種類値をしめすことができる。上記の複数種類の定義された注視エリアと所定の種類値との間の対応関係は、表１に示したようであり得る。

上記の種類情報は、Ａ、Ｂ、Ｃ…Ｊなどの所定の英語文字で示すこともできることを説明する必要がある。

その後、顔画像サンプルを収集し、トレーニングサンプルセットを得る。当該トレーニングサンプルセットは、複数の視線特徴サンプルを含み得、ここで、各前記視線特徴サンプルは、視線開始点情報、視線方向情報、および、当該視線特徴サンプルに対応する注視エリア種類のラベリング情報を含み、ラベリングした注視エリアの種類は、前記所定の３次元空間を分割して得られた複数種類の定義された注視エリアのうちの１つに属する。ここで、どのように顔画像に基づいて人の視線開始点情報および視線方向情報を確定するかに関しては、後面で詳細に記述する。

続いて、上記のトレーニングサンプルセットを利用して、以下のステップを反復して実行することによって上記の所定の３次元空間に対する分類器をトレーニングし、ここで、当該ステップは、上記のトレーニングサンプルセットの中の１つの視線特徴サンプルの視線開始点情報および視線方向情報をトレーニング待ちの注視エリア分類器に入力して、当該視線特徴サンプルに対応する注視エリア種類の予測情報を得ることと、当該視線特徴サンプルの前記注視エリア種類に対する予測情報および注視エリア種類のラベリング情報との間の偏差に基づいて、前記注視エリア分類器に対してパラメータ調整を実行して、前記注視エリア分類器をトレーニングすることと、をさらに含む。

例示的な１実施例において、上記のステップ１０２は、１つの視線特徴サンプルの注視エリア種類の予測値と注視エリア種類のラベリング値との間の差値に基づいて、損失関数値を得ることと、前記損失関数値が所定のトレーニング終了条件を満たすと、トレーニングを終了し、現在トレーニング段階の分類器をトレーニングが完了された分類器として確定することと、前記損失関数値が上記の所定のトレーニング終了条件を満たさないと、前記損失関数値に基づいて前記注視エリア分類器に対してパラメータ調整を実行することと、を含み得る。

本発明の実施例において、損失関数は、トレーニング過程で分類器モデルのトレーニングサンプルに対する誤分類程度を測定するための数学的表現である。損失関数値は、トレーニングサンプルセットの全体に基づいて得ることができ、上記の損失関数値が大きいほど、現在トレーニング段階の分類器の誤分類率が高いことを示し、逆に、上記の損失関数値が小さいほど、現在トレーニング段階の分類器の誤分類率が小さいことを示す。

上記の所定のトレーニング終了条件は、注視エリア分類器のトレーニングを終了する条件である。１実施例において、上記の所定のトレーニング終了条件は、所定の損失関数の損失関数値が所定の閾値よりも小さいことであり得る。理想的な場合、上記の所定のトレーニング終了条件は、損失関数値が０に等しいことである。これは、現在分類器によって予測された注視エリア種類がすべて正確であることを示す。実際の操作において、注視エリア分類器のトレーニング効率およびトレーニングコストの問題を考慮して、上記の所定の閾値は所定の１つの経験値であり得る。

上記の例のように、現在損失関数値が上記の所定の閾値以上であると、現在トレーニング段階の分類器の予測結果の正確率が期待どおりではないことを意味するため、所定のトレーニング終了条件が満たされるまでに、上記の損失関数値を利用して注視エリア分類器の関連パラメータを調整した後に、パラメータ更新後の注視エリア分類器を利用してステップ１０１とステップ１０２とを反復して実行して、上記の所定の３次元空間に対するトレーニングが完了された注視エリア分類器を得ることができる。

本発明の実施例において、コンピュータシステムは、サポートベクターマシン、単純ベイズ、決定木、ランダムフォレスト、Ｋ平均法（Ｋ-ｍｅａｎｓ）などのアルゴリズムを採用して、上記の注視エリア分類器をトレーニングすることができる。

本発明の実施例において、所定の３次元空間の変化に応じて、トレーニングサンプルセットを再確定して、対応する注視エリア分類器をトレーニングする必要がある。分類器のトレーニングが大量のデータを必要とせず、またトレーニング速度がより速いため、異なる３次元空間（たとえば異なる車両モデルの空間）間で上記の注視エリア検出方法を移転するときの時間コストおよび技術的な困難を大幅に削減することができる。

方式２において、注視エリア検出を実行する必要があるときに、所定のストレージリソースから上記の所定の３次元空間に対する注視エリア分類器を直接取得する。

本発明の１実施例において、コンピュータシステムは、各種類の所定の３次元空間に対するトレーニングが完了された注視エリア分類器を、当該所定の３次元空間の空間識別子と関連付けて、クラウドサーバなどの、指定されたストレージリソースに記憶して、所定の注視エリア分類器セットを形成する。上記のインテリジェントな運転アプリケーションシナリオにおいて、上記の所定の注視エリア分類器セットは、複数の車両モデルと注視エリア分類器との間の対応関係を含み得、表２に示したようである。

１つの既知のモデル（たとえばモデルがＭ０１である）の新車のコンピュータシステムに注視エリア分類器プログラムが装備されていない場合、当該車両は、注視エリア検出を実行する前に、自身のモデル（たとえばＭ０１）に従って自動的にクラウドサーバから対応する目標注視エリア分類器プログラム（たとえば上記の第１分類器に対応するコンピュータプログラム）をダウンロードすることによって、注視エリア検出を迅速に実現することができる。

本発明の実施例において、上記のステップ１２によって得られた視線検出結果は、少なくとも上記の顔画像内の人物の視線開始点情報および視線方向情報を含み、顔画像内の人物の頭部姿態情報をさらに含み得る。

本発明の実施例によると、図４に示したように、ステップ１２１１～１２１２を実行することによって、顔画像内の人物の視線開始点情報を確定することができる。

ステップ１２１１において、前記顔画像内の目の位置を検出する。

本発明の実施例において、上記の目の位置は、顔画像内の目の実際のカメラ座標系における位置である。上記の実際のカメラ座標系は、コンピュータシステムにより上記のカメラに基づいて確定した空間直交座標系である。上記のカメラは、上記の所定の３次元空間で上記の顔画像を撮影するカメラであり、カメラＣ０としてマークすることができる。

当該実際のカメラ座標系のＺ軸は、上記のカメラの光軸であり、カメラレンズの光中心は、当該所定の実際のカメラ座標系の原点である。実際のカメラ座標系の横軸であるＸ軸、および、垂直軸であるＹ軸は、上記のカメラのレンズ面に平行である。

本発明の実施例において、コンピュータシステムは、以下の任意の方式を採用して顔画像内の目の位置を検出することができる。すなわち、第１の方式において、少なくとも２つのカメラを利用して上記のドライバなどの１つの目標対象に対して少なくとも２つのフレームの顔画像を同時に収集し、カメラ校正法を利用して上記の顔画像内の目の位置を取得し、ここで、上記の少なくとも２つのカメラは、検出待ち顔画像を収集するカメラを含む。第２の方式において、前記顔画像内の人物の頭部姿態情報を検出し、前記頭部姿態情報に基づいて前記顔画像内の目の位置を検出する。

本発明の１実施例において、コンピュータシステムは、１つのカメラによって撮影された顔画像に基づいて、フレキシブルモデル法、幾何学的方法などの関連技術での頭部姿態推定方法を利用して、上記のドライバの頭部姿態情報を確定し、頭部姿態情報に基づいて目標対象の目の所定の実際のカメラ座標系における３Ｄ位置を取得することができ、ここで、上記の所定の実際のカメラ座標系は、上記のカメラＣ０に基づいて確定されたカメラ座標系である。

上記の目の位置を確定する第２の方式を採用して、単一のカメラすなわち単眼カメラによって収集された顔画像を利用して、目の３Ｄ位置を確定することができ、注視エリア検出のためのハードウェア構成コストを節約することができる。

ステップ１２１２において、前記目の位置に基づいて前記顔画像内の人物の視線開始点情報を確定する。

本発明において、上記のステップ１２１１において顔画像から検出された目の位置は、顔画像内のドライバなどの目標対象の片目の位置を含む可能性もあり、両目の位置（すなわちドライバの左目と右目の位置）を含む可能性もある。

これに応じて、本発明の実施例は、以下の方式１または方式２を採用して上記の顔画像内の人物の視線開始点情報を確定することができる。

方式１において、片目の位置に基づいて上記の顔画像内の人物の視線開始点情報を確定する。１実施例において、ステップ１２１１において確定された前記目の位置が両目の位置を含むと、その中の任意の１つの目の位置に基づいて上記の顔画像内の人物の視線開始点情報を確定することができる。もう１実施例において、ステップ１２１１において確定された目の位置が片目の位置を含むと、当該片目の位置に基づいて上記の顔画像内の人物の視線開始点情報を確定することができる。

方式２において、ステップ１２１１において確定された前記目の位置が両目の位置を含むと、前記両目の中間位置を前記視線開始点情報として確定し、ここで、上記の両目の中間位置は、両目の３Ｄ座標の繋がり線の中点位置、または、両目の３Ｄ座標の繋がり線上の他の位置であり得る。

本発明の実施例において、上記の方式２を採用して顔画像内の人物の視線開始点情報を確定することは、上記の方式１と比較すると、片目検出誤差による視線開始点情報の不正確さを排除し、視線検出結果の精度を向上させることに有益である。

本発明の実施例によると、図５に示したように、ステップ１２２１～１２２２を実行することによって顔画像内の人物の視線方向情報を検出することができる。

ステップ１２２１において、顔画像内の人物の頭部姿態情報を検出する。

上記のように、コンピュータシステムは、１つのカメラによって撮影された顔画像に基づいて、フレキシブルモデル法、幾何学的方法などの関連技術での頭部姿態推定方法を利用して、上記のドライバの頭部姿態情報を確定することができる。

上記のフレキシブルモデル法とは、画像平面内の頭部画像の顔部構成に、アクティブシェイプモデル（ＡｃｔｉvｅＳｈａｐｅＭｏｄｅｌ、ＡＳＭ）、アクティブアピアランスモデル（ＡｃｔｉvｅＡｐｐｅａｒａｎｃｅＭｏｄｅｌ、ＡＡＭ）、弾性マップマッチングモデル（ＥｌａｓｔｉｃＧｒａｐｈＭａｔｃｈｉｎｇ、ＥＧＭ）などのフレキシブルのモデルをマッチングして、特徴比較またはモデルのパラメータによって頭部姿態推定の最終結果を得ることを指す。

幾何学的方法とは、頭部の形状、および、目、鼻、口の関連位置などの顔部局所特徴点の正確な形態学的情報を利用して、頭部姿態を推定することを指す。

本発明の実施例によると、単眼カメラによって収集された単一フレーム画像に基づいて、画像内の人物の頭部姿態を推定することができる。

本発明の実施例によると、図６に示したように、ステップ１２０１～１２０２を実行することによって、顔画像内の人物の頭部姿態情報を検出することができる（ステップ１２２１）。

ステップ１２０１において、前記顔画像内の複数の顔キーポイントを検出する。

本発明の１実施例において、Ｒｏｂｅｒｔアルゴリズム、Ｓｏｂｅｌアルゴリズムなどのエッジ検出アルゴリズムを利用して顔キーポイント検出を実行してもよいし、アクティブ輪郭モデル（たとえばＳｎａｋｅモデル）などの関連モデルを利用して顔キーポイント検出を実行してもよい。

本発明のもう１実施例において、顔キーポイント検出を実行するためのニューラルネットワークを利用して顔キーポイント検出を実行することができる。なお、サードパーティのアプリケーション（たとえばＤｌｉｂツールキットなど）を利用して顔キーポイント検出を実行することができる。

上記の方法を採用して、所定の数量（たとえば１６０個）の、左目コーナー、右目コーナー、鼻先、左口コーナー、右口コーナー、下顎などの顔キーポイントの位置座標を含み、顔部キーポイント位置を検出することができる。顔キーポイント検出方法によって、得られる顔キーポイント位置座標の数も異なる可能性があることを理解することができる。たとえば、Ｄｌｉｂツールキットを採用して６８個の顔部キーポイント位置を検出することができる。

ステップ１２０２において、検出された顔キーポイントおよび所定の平均顔モデルを利用して、前記顔画像内の人物の頭部姿態情報を確定する。

図５に戻ると、ステップ１２２２において、前記頭部姿態情報に基づいて前記顔画像内の人物の視線方向情報を検出する。

本発明の実施例において、頭部姿態情報に基づいて、既にトレーニングされたニューラルネットワークを利用して上記の顔画像内の人物の視線方向情報を検出することができる。

図７を参照すると、前記ステップ１２２２は、ステップ１２２２１～１２２２３を含み得る。

ステップ１２２２１において、前記頭部姿態情報に基づいて前記顔画像に対して正規化処理を行って、正規化された顔画像を得る。

実際に操作において、カメラＣ０によって異なる時点で収集された顔画像の場合、顔領域画像の全体における位置がランダムに変化され、画像内の人物の頭部姿態もランダムに変化される。上記のニューラルネットワークをトレーニングするときに、カメラが直接収集した顔画像をサンプル画像として使用すると、頭部姿態および顔領域画像位置のランダム性により、ニューラルネットワークのトレーニング困難さおよびトレーニング時間が増加されることは間違いない。

本発明の実施例によると、上記の視線方向を検出するためのニューラルネットワークをトレーニングするときに、トレーニング困難さを低減するために、まず、トレーニングサンプルセットの中の各サンプル画像データに対して正規化処理を実行することによって、正規化処理後のサンプル画像データが、仮想カメラが頭部に面して撮影した画像データに同等になるようにした後に、正規化処理後のサンプル画像データを利用して当該ニューラルネットワークをトレーニングする。

これに応じて、当該ニューラルネットワークの適用段階では、視線方向情報の検出の正確性を確保するために、まず、顔画像に対して正規化処理を行ってから、対応する仮想カメラ座標系における正規化された顔画像を得て、上記のニューラルネットワークに入力して視線方向情報を検出する必要がある。

図８Ａを参照すると、上記のステップ１２２２１は、ステップ１２-１～１２-３を含み得る。

ステップ１２-１において、前記頭部姿態情報に基づいて前記顔画像内の人物の頭部座標系を確定する。たとえば、前記頭部座標系のＸ軸は、左目と右目の座標の繋がり線に平行であり、前記頭部座標系のＹ軸は、顔の平面で前記Ｘ軸に垂直であり、前記頭部座標系のＺ軸は、前記顔の平面に垂直であり、視線の開始点は、前記頭部座標系の原点である。

本発明の実施例において、コンピュータシステムが上記の顔画像に基づいて目標対象の頭部姿態情報を検出することは、コンピュータシステムが目標対象の３次元頭部モデルを予測することと同等である。当該３次元頭部モデルは、カメラＣ０が上記の顔画像を収集するときの、目標対象の頭部のカメラＣ０に対する姿態情報を示すことができる。これに基づいて、コンピュータシステムは、頭部姿態情報に基づいて目標対象の頭部座標系を確定することができる。

当該頭部座標系は、空間直交座標系を示すことができる。上記の頭部座標系のＸ軸は、上記の３次元頭部モデル中の両目の３Ｄ位置座標の繋がり線に平行である。両目の３Ｄ位置座標の繋がり線の中点すなわち上記の視線の開始点を、上記の頭部座標系の原点として確定することができる。前記頭部座標系のＹ軸は、顔の面で前記Ｘ軸に垂直である。前記頭部座標系のＺ軸は、顔の面に垂直である。

ステップ１２-２において、前記頭部座標系に基づいて前記顔画像に対応する実際のカメラ座標系に対して回転および平行移動を行って、仮想カメラ座標系を得る。たとえば、前記仮想カメラ座標系のＺ軸は、前記頭部座標系の原点を指し、前記仮想カメラ座標系のＸ軸と前記頭部座標系のＸ軸とは、同じ平面にあり、前記仮想カメラ座標系の原点と前記頭部座標系の原点との間は、前記仮想カメラ座標系のＺ軸方向に所定の距離だけ離れている。

本発明の実施例において、コンピュータシステムは、目標対象の頭部座標系を確定した後に、上記の頭部座標系を参照して、上記のカメラに対して回転または平行移動の操作を実行して１つの仮想カメラを確定し、上記の仮想カメラの頭部座標系における位置に基づいて、上記の仮想カメラに対応する仮想カメラ座標系を構築することができる。当該仮想カメラ座標系の構築方法は、上記の所定の実際のカメラ座標系の構築方法と同様であり、すなわち仮想カメラ座標系のＺ軸は、上記の仮想カメラの光軸であり、上記の仮想カメラ座標系のＸ軸およびＹ軸は、当該仮想カメラのレンズ面に平行であり、仮想カメラレンズの光中心は、当該仮想カメラ座標系の原点である。

上記の仮想カメラ座標系と頭部座標系との間の位置関係は、以下の３つの条件を満たす。

条件１は、前記仮想カメラ座標系のＺ軸が前記頭部座標系の原点を指すことである。

条件２は、前記仮想カメラ座標系のＸ軸が前記頭部座標系のＸ軸と同じ平面に位置することであり、ここで、仮想カメラ座標系のＸ軸と前記頭部座標系のＸ軸との相対的な位置関係は、平行関係を含むが、これらに限定されない。

条件３は、前記仮想カメラ座標系の原点が前記頭部座標系の原点と前記仮想カメラ座標系のＺ軸方向で所定の距離だけ離れていることである。

上記の過程は、上記のカメラＣ０に対して以下の操作を実行して１つの仮想カメラを確定することと同等であり、すなわち、前記カメラＣ０を回転して、そのＺ軸が目画像内の人物の３次元視線の開始点を指すようにする同時に、カメラＣ０のＸ軸が上記の頭部座標系のＸ軸と同じ平面にあるようにし、回転後のカメラＣ０をＺ軸に沿って平行移動して、そのレンズの光中心と上記の頭部座標系の原点との間の距離が所定の長さになるようにする。

これまでのところ、コンピュータシステムは、実際のカメラ座標系と頭部座標系との間の位置関係、および、仮想カメラ座標系と上記の頭部座標系との間の位置関係に基づいて、実際のカメラ座標系と上記の仮想カメラ座標系との間の位置変換関係を確定することができる。

本発明において、仮想カメラ座標系が顔画像内の人物の頭部姿態に関連しているため、異なる顔画像は、異なる仮想カメラ座標系に対応し得ることを理解すべきである。

ステップ１２-３において、前記実際のカメラ座標系と前記仮想カメラ座標系との間の位置変換関係に基づいて、前記顔画像に対して正規化処理を行って、前記正規化された顔画像を得る。

本発明の実施例において、コンピュータシステムは、上記の実際のカメラ座標系と仮想カメラ座標系との間の位置変換関係に利用して、上記の顔画像に対して回転、アフィン、ズーム変換などの処理を実行して、上記の仮想カメラ座標系における正規化された顔画像を得ることができる。

図８Ｂは、例示的な１実施例に係る取得た顔画像に対して正規化処理を行うことを示す模式図であり、ここで、画像Ｐ０は、実際の車載カメラＣ０がドライバに対して収集した顔画像であり、画像Ｐ１は、上記の正規化処理を通じた後に得た仮想カメラ座標系における正規化された顔画像を示し、すなわちドライバ頭部に面している１つの仮想カメラＣ１によって収集されたドライバ顔画像に相当する。

図７に戻ると、ステップ１２２２２において、前記正規化された顔画像に基づいて視線方向検出を実行して、第１検出視線方向を得る。たとえば、上記の第１検出視線方向は、前記仮想カメラ座標系における３次元視線方向情報であり、３次元方向ベクトルであり得る。

本発明の実施例において、上記の正規化処理を通じた正規化された顔画像を既にトレーニングされた視線方向を検出するためのニューラルネットワークに入力して、上記の正規化された顔画像内の人物の３次元視線方向情報を検出することができる。上記の視線方向を検出するためのニューラルネットワークは、畳み込みニューラルネットワーク（ｃｏｎvｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔwｏｒｋ、ＣＮＮ）などのディープニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔwｏｒｋ、ＤＮＮ）を含み得る。

ステップ１２２２３において、前記第１検出視線方向に対して座標逆変換処理を行って、前記顔画像内の人物の視線方向情報を得る。

後続の注視エリア検出段階において、注視エリア分類器に実際のカメラ座標系における視線特徴ベクトルを入力する必要がある。したがって、本発明において、コンピュータシステムが仮想カメラ座標系における視線方向情報である上記の第１検出視線方向を検出した後、上第１検出視線方向に対して、仮想カメラ座標系から上記の実際のカメラ座標系までの座標逆変換処理を実行して、上記の実際のカメラ座標系における視線方向情報を得る必要がある。

図１に戻ると、上記のステップ１２は、顔画像内の人物の視線特徴ベクトルを確定する過程に相当し、当該視線特徴ベクトルは、顔画像内の人物の視線開始点情報および視線方向情報を含む。

たとえば、インテリジェントな運転の実際に適用において、上記の顔画像に対して視線特徴ベクトルを抽出する過程は、車両モデルの変更によって変更されない。当該段階で使用する人工ニューラルネットワーク（顔キーポイントを検出するためのニューラルネットワーク、視線方向を検出するためのニューラルネットワークなど）は、異なる車両モデルに適用でき、良好な機動性を有する。

上記のように、本発明の１実施例によると、ステップ１３において、ステップ１２で確定された顔画像内の人物の視線開始点情報および視線方向情報を既に所定の３次元空間に対するトレーニングが完了された注視エリア分類器に入力して、前記顔画像に対応する目標注視エリアの種類を検出することができる。

本発明の実施例において、上記のステップ１３は、前記目標注視エリアの種類に基づいて目標注視エリア情報を確定し、前記目標注視エリア情報を出力することを含み得る。

たとえば、分類器は、図９Ａに示すように、目標注視エリアの種類を出力することができ、または、図９Ｂに示すように、目標注視エリアの名称を直接出力することができる。

本発明のもう１実施例において、上記の注視エリア検出方法は、上記のステップ１１の前に、視線方向を検出するためのニューラルネットワークをトレーニングすることをさらに含み得る。当該ステップは、３次元視線方向推定モデルのトレーニング過程に対応される。当該ステップは、図２に示したリアルタイムで注視エリア分類器をトレーニングする過程と、互いに異なるコンピュータシステムで実行されることができることを説明する必要がある。

図１０は、本発明の例示的な実施例に係る３次元視線方向を検出するためのニューラルネットワークをトレーニングする方法のフローチャートである。当該方法は、ステップ１００１～１００５を含み得る。

ステップ１００１において、少なくとも１つの顔サンプルを含む元のサンプルセットを確定し、ここで、各前記顔サンプルは、顔画像サンプルおよび視線方向ラベリング情報を含む。

本発明の実施例において、教師あり学習方法を採用して上記のニューラルネットワークをトレーニングすることができる。これに応じて、上記のニューラルネットワークをトレーニングするためのサンプルセットの中の各々のサンプルは、予測するための入力情報すなわち顔画像サンプル、および、当該入力情報に該当する真の値すなわち実際のカメラ座標系における実際に検出された視線方向情報を含み得る。本発明の実施例において、上記の実際に検出された視線方向情報を、視線方向ラベリング情報とも呼ぶ。

ステップ１００２において、顔キーポイントおよび平均顔モデルに基づいて、各々の前記顔画像サンプルに対応する頭部姿態情報を確定する。

ステップ１００３において、前記頭部姿態情報および前記実際のカメラ座標系に基づいて、各々の前記顔画像サンプルに対応する正規化された顔画像サンプルおよび前記視線方向ラベリング情報の前記仮想座標系における仮想視線方向ラベリング情報を確定する。

上記のステップ１００２およびステップ１００３の実施過程は、それぞれ、上記のステップ１２０２およびステップ１２-１～１２-３と同様であり、ここでは繰り返して説明しない。同時に、コンピュータシステムは、実際のカメラ座標系から仮想カメラ座標系までの位置変換関係に基づいて、上記の視線方向ラベリング情報を仮想視線ラベリング情報に変換する。

これまでのところ、仮想カメラ座標系におけるサンプルセットを得た。続いて、当該サンプルセットを利用して、前記３次元視線方向を検出するためのニューラルネットワークのトレーニング要件を満たすまで、以下のステップを反復してトレーニングし、これらステップは、各前記正規化された顔画像サンプルをトレーニング待ちの３次元視線方向検出ニューラルネットワークに入力して、３次元視線方向予測情報を得るステップ１００４と、前記３次元視線方向予測情報と前記仮想視線方向ラベリング情報との間の偏差に基づいて、前記ニューラルネットワークに対してパラメータ調整を実行して、視線方向情報を検出するためのニューラルネットワークを得るステップ１００５と、を含む。

本発明の実施例において、仮想カメラ座標系において正規化処理後の正規化された顔画像をトレーニングサンプルデータとして採用することによって、頭部姿態変化によるニューラルネットワークのトレーニング困難さを低減し、視線方向を検出するためのニューラルネットワークのトレーニング効率を向上させることができる。

１例として、ドライバの注視エリアを認識した後に、当該注視エリアに基づいてさらなる操作を実行することができる。たとえば、注視エリア種類検出結果に基づいて、顔画像に対応する人物の注意力モニタリング結果を確定することができる。たとえば、前記の注視エリア種類検出結果は、所定の時間帯内の注視エリアの種類であり得る。例示的に、当該注視エリア種類検出結果は、「所定の時間帯で、当該ドライバの注視エリアは、常にエリア２である」であり得る。当該エリア２が右フロントガラスであると、当該ドライバが運転により専念していることを意味する。当該エリア２が副操縦士の前方のグローブボックスエリアであると、当該ドライバが気を散らされて集中できない可能性が高いことを意味する。

注意力モニタリング結果を検出した後に、前記注意力モニタリング結果を出力することができ、たとえば、車両内のある表示エリアに「運転がよく専念している」を表示することができる。または、前記注意力モニタリング結果に基づいて注意散漫プロンプト情報を出力することができ、表示スクリーンにすみやかに表示する方式、または、音声プロンプトなどの方式によって、「運転の安全を確保するため、運転に注意力を集中してください」とドライバにプロンプトする。当然ながら、具体的に情報を出力ときに、注意力モニタリング結果および注意散漫プロンプト情報の中の少なくとも１つの情報を出力することができる。

注視エリア種類の検出に基づいて人間の注意力モニタリング結果を確定したり、注意散漫プロンプト情報を出力したりすることによって、ドライバの注意力モニタリングに重要の助けとなり、ドライバが注意力を集中していない状況を効果的な検出し、迅速に思い出させることができ、事故のリスクを減らし、運転の安全を確保することができる。

上記の例の記述において、インテリジェントな運転アプリケーションシナリオにおいてドライバの注意力をモニタリングする例を説明しる。これ以外に、注視エリアの検出は、他の多くの用途もある。

たとえば、注視エリア検出に基づく車両と機械の対話型制御を実行することができる。車両内にマルチメディアプレーヤーなどの一部の電子デバイスが搭載されていることができる。車両内の人の注視エリアを検出することによって、注視エリアの検出結果に基づいて、当該マルチメディアプレーヤーが再生機能を起動するように自動的に制御することができる。

例示的に、車両内に配置したカメラを利用して車両内の人（運転手または乗客など）の顔画像を撮影して得、事前にトレーニングされたニューラルネットワークを利用して注視エリア種類検出結果を検出する。たとえば、当該検出結果は、時間帯Ｔで、当該車両内の人の注視エリア１が常に車両内のあるマルチメディアプレーヤー上の「注視起動」のオプションが位置しているエリアであることであり得る。上記の検出結果に基づいて当該車両内の人が当該マルチメディアプレーヤーを起動しようとしているとして確定することができるため、該当する制御命令を出力して、当該マルチメディアプレーヤーが再生を実行しはじめるように制御することができる。

車両に関連するアプリケーションに加えて、ゲーム制御、スマートホームデバイス制御、広告プッシュなどの複数の種類のアプリケーションのシナリオをさらに含み得る。スマートホーム制御の例を挙げると、制御者の顔画像を収集し、事前にトレーニングされたニューラルネットワークを介して注視エリア種類検出結果を検出することができる。たとえば、当該検出結果は、時間帯Ｔで、当該制御者の注視エリア１が常にスマートエアコン上の「注視起動」のオプションが位置しているエリアであることであり得る。上記の検出結果に基づいて、当該制御者がスマートエアコンを起動しようとしているとして確定することができるため、該当する制御命令を出力して、当該エアコンを起動するように制御することができる。

説明の便宜上、前述した各方法の実施例をいずれも一連の動作の組み合わせに記述された。当業者は、本発明は記述された動作の順序に限定されないことを了解すべきである。本発明によると、いくつかのステップは、その他の順序を採用するか、または、同時に実行されることができる。

本発明は、前述した方法の実施例に対応する装置および電子デバイスの実施例をさらに提供することができる。

図１１は、本発明の例示的な実施例に係る注視エリア検出装置１１００のブロック図である。注視エリア検出装置１１００は、画像取得モジュール２１と、視線検出モジュール２２と、注視エリア検出モジュール２３と、備え得る。

画像取得モジュール２１は、所定の３次元空間で収集された顔画像を取得する。視線検出モジュール２２は、前記顔画像に基づいて視線検出を実行して視線検出結果を得る。本発明の１実施例において、前記視線検出結果は、前記顔画像内の人物の視線開始点情報および視線方向情報を含み得る。注視エリア検出モジュール２３は、前記所定の３次元空間に対して事前にトレーニングされた注視エリア分類器を利用して、前記視線検出結果に基づいて前記顔画像に対応する目標注視エリアの種類を検出する。前記目標注視エリアは、前記所定の３次元空間を事前に分割することにより得られた複数種類の定義された注視エリアのうちの１つに属する。

図１２を参照すると、本発明の例示的な実施例に係る注視エリア検出装置の視線検出モジュール２２は、前記顔画像内の目の位置を検出するための目位置検出サブモジュール２２１と、前記目の位置が両目の位置を含む場合、前記両目の中間位置を前記視線開始点情報として確定するための第１開始点情報確定サブモジュール２２２と、を備え得る。

図１３を参照すると、本発明の例示的な実施例に係る注視エリア検出装置のもう１つの視線検出モジュール２２は、前記顔画像内の目の位置を検出するための目位置検出サブモジュール２２１と、前記目の位置が両目の位置を含む場合、前記両目中の任意の１つの目の位置を前記視線開始点情報として確定し、または、前記目の位置が片目の位置を含む場合、前記片目の位置を前記視線開始点情報として確定するための第２開始点情報確定サブモジュール２２３と、を備え得る。

図１４を参照すると、本発明の例示的な実施例に係る図１２および図１３中の目位置検出サブモジュール２２１は、前記顔画像内の人物の頭部姿態情報を検出するための姿態検出ユニット２２１１と、前記頭部姿態情報に基づいて前記顔画像内の目の位置を確定するための位置確定ユニット２２１２と、を備え得る。

図１５を参照すると、本発明の例示的な実施例に係る注視エリア検出装置のもう１つの視線検出モジュール２２は、前記顔画像内の人物の頭部姿態情報を検出するための姿態検出サブモジュール２２-１と、前記頭部姿態情報に基づいて前記顔画像内の人物の視線方向情報を検出するための方向検出サブモジュール２２-２と、を備え得る。

図１６を参照すると、本発明の例示的な実施例に係る図１５中の姿態検出サブモジュール２２-１は、前記顔画像内の複数の顔キーポイントを検出するためのキーポイント検出ユニット２２-１１と、前記顔キーポイントおよび所定の平均顔モデルに基づいて、前記顔画像内の人物の頭部姿態情報を確定するための姿態確定ユニット２２-１２と、を備え得る。

図１７を参照すると、本発明の例示的な実施例に係る図１５中の方向検出サブモジュール２２-２は、前記頭部姿態情報に基づいて前記顔画像に対して正規化処理を行って、正規化された顔画像を得るための画像処理ユニット２２-２１と、前記正規化された顔画像に基づいて視線方向検出を実行して、第１検出視線方向を得るための第１方向検出ユニット２２-２２と、前記第１検出視線方向に対して座標逆変換処理を行って、前記顔画像内の人物の視線方向情報を得るための方向確定ユニット２２-２３と、を備え得る。

図１８を参照すると、本発明の例示的な実施例に係る図１７中の画像処理ユニット２２-２１は、前記頭部姿態情報に基づいて前記顔画像内の人物の頭部座標系を確定するための頭部座標確定サブユニット２２-２１１と、前記頭部座標系に基づいて前記顔画像に対応する実際のカメラ座標系に対して回転および平行移動を行って、仮想カメラ座標系を得るための座標変換サブユニット２２-２１２と、前記実際のカメラ座標系と前記仮想カメラ座標系との間の位置変換関係に基づいて、前記顔画像に対して正規化処理を行って、前記正規化された顔画像を得るための画像処理サブユニット２２-２１３と、を備え得る。

本発明の上記の任意の装置の実施例において、前記注視エリア分類器は、前記所定の３次元空間に対するトレーニングサンプルセットに基づいて事前にトレーニングされることができる。前記トレーニングサンプルセットは、複数の視線特徴サンプルを含み得、各前記視線特徴サンプルは、視線開始点情報、視線方向情報、および、当該視線特徴サンプルに対応する注視エリア種類のラベリング情報を含み、ラベリングした注視エリアの種類は、前記所定の３次元空間を分割して得られた複数種類の定義された注視エリアのうちの１つに属する。

図１９は、本発明の例示的な実施例に係るもう１つの注視エリア検出装置１９００のブロック図である。図１１に示した注視エリア検出装置１１００と比較すると、注視エリア検出装置１９００は、分類器トレーニングモジュール２０をさらに含み得る。

分類器トレーニングモジュール２０は、少なくとも１つの前記視線特徴サンプルの前記視線開始点情報および前記視線方向情報をトレーニング待ちの注視エリア分類器に入力して、当該視線特徴サンプルに対応する注視エリア種類予測情報を得るための種類予測サブモジュール２０１と、前記注視エリア種類予測情報と当該視線特徴サンプルに対応する注視エリア種類のラベリング情報との間の偏差に基づいて、前記注視エリア分類器に対してパラメータ調整を実行して、前記注視エリア分類器をトレーニングするためのパラメータ調整サブモジュール２０２と、をさらに備え得る。

図２０は、本発明の例示的な実施例に係るもう１つの注視エリア検出装置２０００のブロック図である。図１１に示した注視エリア検出装置１１００と比較すると、注視エリア検出装置２０００は、分類器取得モジュール２０３をさらに備え得る。

分類器取得モジュール２０３は、前記所定の３次元空間の空間識別子に基づいて所定の注視エリア分類器セットから前記空間識別子に対応する注視エリア分類器を取得することができる。前記所定の注視エリア分類器セットは、異なる３次元空間の空間識別子にそれぞれ対応する注視エリア分類器を含み得る。

本発明の上記の任意の装置の実施例において、前記所定の３次元空間は、車両空間を含み得る。これに応じて、前記顔画像は、前記車両空間内の運転エリアに対して収集された画像に基づいて確定されることができる。前記所定の３次元空間を分割して得られた複数種類の定義された注視エリアは、左フロントガラスエリア、右フロントガラスエリア、インストルメントパネルエリア、インテリアミラーエリア、センターコンソールエリア、左バックミラーエリア、右バックミラーエリア、シェーディングプレートエリア、シフトレバーエリア、ステアリングホイールの下方エリア、副操縦士エリア、副操縦士の前方のグローブボックスエリアの中の少なくとも２種類を含み得る。

図２１は、本発明の例示的な実施例に係るもう１つの注視エリア検出装置２１００のブロック図である。図１１に示した注視エリア検出装置１１００と比較すると、注視エリア検出装置２１００は、注視エリア検出モジュール２３が得た注視エリア種類検出結果に基づいて、前記顔画像に対応する人物の注意力モニタリング結果を確定するための注意力モニタリングモジュール２４と、前記注意力モニタリング結果を出力しおよび／または前記注意力モニタリング結果に基づいて注意散漫プロンプト情報を出力するためのモニタリング結果出力モジュール２５と、をさらに備え得る。

図２２は、本発明の例示的な実施例に係るもう１つの注視エリア検出装置２２００のブロック図である。図１１に示した注視エリア検出装置１１００と比較すると、注視エリア検出装置２２００は、注視エリア検出モジュール２３が得た注視エリア種類検出結果に対応する制御命令を確定するための制御命令確定モジュール２６と、電子デバイスが前記制御命令に該当する操作を実行するように制御するための操作制御モジュール２７と、をさらに備え得る。

装置の実施例の場合、基本的に方法の実施例に対応されるため、関連される部分は方法の実施例の部分の説明を参照すればよい。上記の装置の実施例は、単に模式的なものである。ここで、分離部件として説明されたユニットは、物理的に分離されている場合と物理的に分離されていない場合があり、ユニットとして表示される部品は、物理ユニットである場合とそうでない場合がある。1つの場所に配置されることも、複数のネットワークユニットに分散させることもできる。当業者は、創造的な作業なしに、実際の必要によってその中の一部またはすべてのモジュールを選択して本発明の実施例を実現することができる。

本発明は、上記の注視エリア検出方法に対応する電子デバイスをさらに提供することができる。図２３は、本発明の例示的な１実施例に係る電子デバイス２３００のブロック図である。たとえば、電子デバイス２３００は、プロセッサと、内部バスと、ネットワークインターフェースと、内部メモリと、不揮発性メモリと、を備え得る。プロセッサは、不揮発性メモリから対応するコンピュータプログラムを内部メモリに読み込んで運行させることによって、上記の注視エリア検出方法を実現するための注視エリア検出装置を論理的に形成することができる。

当業者は、本発明は、方法、装置、システム、または、コンピュータプログラム製品として提供することができることを理解すべきである。したがって、本発明は、完全なハードウェアの実施例、完全なソフトウェアの実施例、または、ソフトウェアとハードウェアとを組み合わせた実施例の形態を採用することができる。

本発明は、コンピュータ可読記録媒体をさらに提供することができ、当該記録媒体には、コンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサによって実行されると、当該プロセッサが、上記の任意の方法実施例の注視エリア検出方法を実現するようにする。

本発明における主題および機能操作の実施例は、デジタル電子回路、有形コンピュータソフトウェアまたはファームウェア、本発明に開示される構成およびその構造的同等物を含むコンピュータハードウェア、または、それらの１つまたは複数の組み合わせで、実現されることができる。本発明における主題の実施例は、１つまたは複数のコンピュータプログラムとして実現されることができ、すなわち、有形の非一時的プログラムキャリア上に符号化されて、データ処理装置によって実行されるか、または、データ処理装置の操作を制御するための、コンピュータプログラム命令中の１つまたは複数のモジュールとして実現されることができる。代替的または追加的に、プログラム命令は、手動で生成する伝播信号上に符号化されることができ、例えば、機械が生成する電気信号、光信号、または、電磁信号に符号化されることができる。当該信号は、情報を符号化して適切な受信機装置に伝送して、データ処理装置によって実行されるようにするために、生成される。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムにまたはシリアルアクセスメモリデバイス、または、それらの１つまたは複数の組み合わせであり得る。

本発明における処理と論理フローは、１つまたは複数のコンピュータプログラムを実行する１つまたは複数のプログラム可能なコンピュータによって実行されることができ、入力データに基づいて操作を実行して出力を生成することによって該当する機能を実行する。前記処理と論理フローは、さらに、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（専用集積回路）などの専用論理回路によって実行されることができ、また、装置も専用論理回路として実現されることができる。

コンピュータプログラムの実行に適したコンピュータは、例えば、汎用、および／または、専用マイクロプロセッサ、または、いかなる他の種類の中央処理ユニットを含む。一般的に、中央処理ユニットは、読み取り専用メモリ、および／または、ランダムアクセスメモリから、命令とデータを受信することになる。コンピュータの基本コンポーネントは、命令を実施または実行するための中央処理ユニット、および、命令とデータを記憶するための１つまたは複数のメモリデバイスを含む。一般的に、コンピュータは、磁気ディスク、磁気光学ディスク、または、光ディスクなどの、データを記憶するための１つまたは複数の大容量記憶デバイスをさらに含むか、または、操作可能に当該大容量記憶デバイスと結合されてデータを受信するかまたはデータを伝送するか、または、その両方を兼有する。しかしながら、コンピュータは、必ずとして、このようなデバイスを有するわけではない。なお、コンピュータは、もう１デバイスに埋め込まれることができ、例えば、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオまたはビデオおプレーヤー、ゲームコンソール、グローバルポジショニングシステム（ＧＰＳ）レジーバー、または、汎用シリアルバス（ＵＳＢ）フラッシュドライブなどのポータブル記憶デバイスに埋め込まれることができ、これらデバイスはいくつかの例に過ぎない。

コンピュータプログラム命令とデータの記憶に適したコンピュータ可読媒体は、様々な形式の不揮発性メモリ、媒介、および、メモリデバイスを含み、例えば、半導体メモリデバイス（たとえば、消去可能プログラム可能読み取り専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＥＰＲＯＭ）、電気的消去可能プログラム可能読み取り専用メモリ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＥＥＰＲＯＭ）およびフラッシュメモリ）、磁気ディスク（たとえば、内部ハードディスクまたは移動可能ディスク）、磁気光学ディスク、光学ディスク読み取り専用メモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＣＤ-ＲＯＭ）、デジタル多用途光ディスク（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ、ＤＶＤ）などを含む。プロセッサとメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込まれることができる。

本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの１つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせるまたはサブ組み合わせの変形に向けることができる。

類似的に、図面で特定の順序に従って操作を描いたが、これはこれら操作を示した特定の順序にしたがって実行するかまたは順次に実行するように要求するか、または、例示したすべての操作が実行されることによって期待する結果が実現されると要求することであると理解すべきではない。なお、上記の実施例中の各種のシステムモジュールとコンポーネントの分離は、すべての実施例でいずれもこのように分離されなければならないと理解すべきではないし、また、叙述したプログラムコンポーネントとシステムは、一般的に、一緒に単一のソフトウェア製品に統合されるか、または、複数のソフトウェア製品にパッケージされることができることを理解すべきである。

上記は、本発明のいくつかの実施例に過ぎず、本発明を限定するために使用されるものではない。本発明の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも本発明の範囲に含まれるべきである。

Claims

注視エリア検出方法であって、
所定の３次元空間で収集された顔画像を取得することと、
前記顔画像に基づいて視線検出を実行して視線検出結果を得ることであって、前記視線検出結果は、前記顔画像内の人物の視線開始点情報および視線方向情報を含むことと、
前記視線検出結果を前記所定の３次元空間に対して事前にトレーニングされた注視エリア分類器に入力して、前記顔画像に対応する目標注視エリアの種類を検出することと、を含み、
ここで、前記目標注視エリアは、前記所定の３次元空間を事前に分割することにより得られた複数種類の定義された注視エリアのうちの１つに属する
ことを特徴とする注視エリア検出方法。
前記顔画像に基づいて視線検出を実行して視線検出結果を得ることは、
前記顔画像内の目の位置を検出することと、
前記目の位置が両目の位置を含む場合、前記両目の中間位置を前記視線開始点情報として確定することと、を含むか、または、
前記顔画像内の目の位置を検出することと、
前記目の位置が両目の位置を含む場合、前記両目中の任意の１つの目の位置を前記視線開始点情報として確定し、または、前記目の位置が片目の位置を含む場合、前記片目の位置を前記視線開始点情報として確定することと、を含む
ことを特徴とする請求項１に記載の注視エリア検出方法。
前記顔画像内の目の位置を検出することは、
前記顔画像内の人物の頭部姿態情報を検出することと、
前記頭部姿態情報に基づいて前記顔画像内の目の位置を確定することと、を含む
ことを特徴とする請求項２に記載の注視エリア検出方法。
前記顔画像に基づいて視線検出を実行して視線検出結果を得ることは、
前記顔画像内の人物の頭部姿態情報を検出することと、
前記頭部姿態情報に基づいて前記顔画像内の人物の視線方向情報を検出することと、を含む
ことを特徴とする請求項１に記載の注視エリア検出方法。
前記顔画像内の人物の頭部姿態情報を検出することは、
前記顔画像内の複数の顔キーポイントを検出することと、
前記顔キーポイントおよび所定の平均顔モデルに基づいて、前記顔画像内の人物の頭部姿態情報を確定することと、を含む
ことを特徴とする請求項３または４に記載の注視エリア検出方法。
前記頭部姿態情報に基づいて前記顔画像内の人物の視線方向情報を検出することは、
前記頭部姿態情報に基づいて前記顔画像に対して正規化処理を行って、正規化された顔画像を得ることと、
前記正規化された顔画像に基づいて視線方向検出を実行して、第１検出視線方向を得ることと、
前記第１検出視線方向に対して座標逆変換処理を行って、前記顔画像内の人物の視線方向情報を得ることと、を含む
ことを特徴とする請求項４または５に記載の注視エリア検出方法。
前記頭部姿態情報に基づいて前記顔画像に対して正規化処理を行って正規化された顔画像を得ることは、
前記頭部姿態情報に基づいて前記顔画像内の人物の頭部座標系を確定することと、
前記頭部座標系に基づいて前記顔画像に対応する実際のカメラ座標系に対して回転および平行移動を行って、仮想カメラ座標系を得ることと、
前記実際のカメラ座標系と前記仮想カメラ座標系との間の位置変換関係に基づいて、前記顔画像に対して正規化処理を行って、前記正規化された顔画像を得ることと、を含む
ことを特徴とする請求項６に記載の注視エリア検出方法。
前記注視エリア分類器は、前記所定の３次元空間に対するトレーニングサンプルセットに基づいて事前にトレーニングされ、ここで、前記トレーニングサンプルセットは、複数の視線特徴サンプルを含み、各前記視線特徴サンプルは、視線開始点情報、視線方向情報、および、当該視線特徴サンプルに対応する注視エリア種類のラベリング情報を含み、ラベリングした注視エリアの種類は、前記所定の３次元空間を分割して得られた前記複数種類の定義された注視エリアのうちの１つに属する
ことを特徴とする請求項１乃至７の中のいずれか１項に記載の注視エリア検出方法。
複数の空間分布が異なる３次元空間のそれぞれに対して事前にトレーニングされた複数の注視エリア分類器から、前記所定の３次元空間に対して事前にトレーニングされた注視エリア分類器を決定することをさらに含む
ことを特徴とする請求項１乃至８の中のいずれか１項に記載の注視エリア検出方法。
前記所定の３次元空間で収集された顔画像を取得する前に、
少なくとも１つの前記視線特徴サンプルの前記視線開始点情報および前記視線方向情報をトレーニング待ちの注視エリア分類器に入力して、当該視線特徴サンプルに対応する注視エリア種類予測情報を得ることと、
前記注視エリア種類予測情報と当該視線特徴サンプルに対応する注視エリア種類のラベリング情報との間の偏差に基づいて、前記注視エリア分類器に対してパラメータ調整を実行して、前記注視エリア分類器をトレーニングすることと、をさらに含むか、または、
前記所定の３次元空間の空間識別子に基づいて所定の注視エリア分類器セットから前記空間識別子に対応する注視エリア分類器を取得することをさらに含み、
ここで、前記所定の注視エリア分類器セットは、異なる３次元空間の空間識別子にそれぞれ対応する注視エリア分類器を含む
ことを特徴とする請求項８に記載の注視エリア検出方法。
前記所定の３次元空間は、車両空間を含む
ことを特徴とする請求項１乃至１０の中のいずれか１項に記載の注視エリア検出方法。
前記顔画像は、前記車両空間内の運転エリアに対して収集された画像に基づいて確定され、
前記複数種類の定義された注視エリアは、左フロントガラスエリア、右フロントガラスエリア、インストルメントパネルエリア、インテリアミラーエリア、センターコンソールエリア、左バックミラーエリア、右バックミラーエリア、シェーディングプレートエリア、シフトレバーエリア、ステアリングホイールの下方エリア、副操縦士エリア、副操縦士の前方のグローブボックスエリアの中の少なくとも２種類を含む
ことを特徴とする請求項１１に記載の注視エリア検出方法。
注視エリア種類検出結果に基づいて、前記顔画像に対応する人物の注意力モニタリング結果を確定することと、
前記注意力モニタリング結果を出力し、および／または、前記注意力モニタリング結果に基づいて注意散漫プロンプト情報を出力することと、をさらに含む
ことを特徴とする請求項１乃至１２の中のいずれか１項に記載の注視エリア検出方法。
注視エリア種類検出結果に対応する制御命令を確定することと、
電子デバイスが前記制御命令に該当する操作を実行するように制御することと、をさらに含む
ことを特徴とする請求項１乃至１３の中のいずれか１項に記載の注視エリア検出方法。
注視エリア検出装置であって、
所定の３次元空間で収集された顔画像を取得するための画像取得モジュールと、
前記顔画像に基づいて視線検出を実行して視線検出結果を得るための視線検出モジュールであって、前記視線検出結果は、前記顔画像内の人物の視線開始点情報および視線方向情報を含む視線検出モジュールと、
前記視線検出結果を前記所定の３次元空間に対して事前にトレーニングされた注視エリア分類器に入力して、前記顔画像に対応する目標注視エリアの種類を検出するための注視エリア検出モジュールと、を備え、
ここで、前記目標注視エリアは、前記所定の３次元空間を事前に分割することにより得られた複数種類の定義された注視エリアのうちの１つに属する
ことを特徴とする注視エリア検出装置。
コンピュータプログラムが記憶されているコンピュータ可読記録媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、当該プロセッサが、請求項１乃至１４の中のいずれか１項に記載の方法を実現するようにする
ことを特徴とするコンピュータ可読記録媒体。
電子デバイスであって、
メモリとプロセッサとを備え、
ここで、前記メモリには、コンピュータプログラムが記憶されており、
前記プロセッサが前記コンピュータプログラムを実行するときに、請求項１乃至１４の中のいずれか１項に記載の方法が実現される
ことを特徴とする電子デバイス。