JP2021502618A

JP2021502618A - 注視点判定方法および装置、電子機器ならびにコンピュータ記憶媒体

Info

Publication number: JP2021502618A
Application number: JP2019570498A
Authority: JP
Inventors: ティンハオリウ; チュアンワン; チェンチエン
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2018-09-28
Filing date: 2018-11-23
Publication date: 2021-01-28
Anticipated expiration: 2038-11-23
Also published as: US20200134868A1; US11295474B2; MY201730A; CN109389069B; WO2020062523A1; JP6900516B2; KR102347336B1; TWI714225B; KR20200037147A; SG11202000065TA; CN109389069A; TW202013244A

Abstract

本開示の実施例は注視点判定方法および装置、電子機器ならびにコンピュータ記憶媒体を開示し、前記方法は、画像における顔の少なくとも片方の目の、眼球中心領域特徴点を含む眼部特徴点の二次元座標を取得することと、前記眼球中心領域特徴点の二次元座標に基づき、前記画像内の前記顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得することと、前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、前記画像における前記顔の目の注視点位置に対する判定結果を得ることと、を含む。

Description

（関連出願の相互参照）
本願は２０１８年０９月２８日に出願された、出願番号２０１８１１１４１３５２．３の中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。

本開示はコンピュータ技術分野に関するがこれに限定されず、特に注視点判定方法および装置、電子機器ならびにコンピュータ記憶媒体に関する。

顔認識は近年コンピュータビジョン、パターン認識、ニューラルネットワークおよび人工知能などの技術の急速な発展に伴い開発された新しい生体認証技術である。顔認識は主に顔の特徴点が提供する顔の各器官の位置、形状および顔の外輪郭などの幾何学情報に基づいて身元を認証するため、顔認識のプロセスで、顔の特徴点の位置特定は非常に重要である。現在、顔の特徴点の位置特定では深層学習によって高い精度を得ることができる。

本開示の実施例は注視点判定の技術的解決手段を提供する。

本開示の実施例の一態様によれば、
画像における顔の少なくとも片方の目の、眼球中心領域特徴点を含む眼部特徴点の二次元座標を取得することと、
前記眼球中心領域特徴点の二次元座標に基づき、前記画像内の前記顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得することと、
前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、前記画像における前記顔の目の注視点位置に対する判定結果を得ることと、を含む注視点判定方法が提供される。

本開示の実施例の他の一態様によれば、
画像における顔の少なくとも片方の目の、眼球中心領域特徴点を含む眼部特徴点の二次元座標を取得し、および前記眼球中心領域特徴点の二次元座標に基づき、前記画像内の前記顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得するように構成された取得ユニットと、
前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、前記画像における前記顔の目の注視点位置に対する判定結果を得るように構成された判定ユニットと、を含む注視点判定装置が提供される。

本開示の実施例のさらに他の一態様によれば、上記いずれか一つの実施例に記載の装置を含む電子機器が提供される。

本開示の実施例のさらに他の一態様によれば、
実行可能命令を記憶するように構成されたメモリ、および
前記メモリと通信して前記実行可能命令を実行することで上記いずれか一つの実施例に記載の方法を完了するように構成されたプロセッサを含む電子機器が提供される。

本開示の実施例のさらに他の一態様によれば、コンピュータ読み取り可能コードを含むコンピュータプログラムであって、前記コンピュータ読み取り可能コードが機器において運用される時、前記機器内のプロセッサは上記いずれか一つの実施例に記載の方法を実現するための命令を実行するコンピュータプログラムが提供される。

本開示の実施例のさらに他の一態様によれば、コンピュータ読み取り可能命令を記憶するためのコンピュータプログラム製品であって、前記命令は実行される時にコンピュータに上記いずれか一つの実施例に記載の方法の動作を実行させるコンピュータプログラム製品が提供される。

本開示の上記実施例が提供する注視点判定方法および装置、電子機器ならびにコンピュータ記憶媒体に基づき、画像における顔の少なくとも片方の目の、眼球中心領域特徴点を含む眼部特徴点の二次元座標を取得し、眼球中心領域特徴点の二次元座標に基づき、画像内の顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得し、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、画像における顔の目の注視点位置に対する判定結果を得て、画像における顔の目の周囲のより細かな情報を学習することで、目の状態をより正確に判定して、より正確な目の状態情報を得ることができる。

以下に図面および実施例により、本開示の技術的解決手段をより詳細に説明する。

明細書の一部となる図面は本開示の実施例を説明するものであり、かつその説明と共に本開示の原理を解釈するために用いられる。

図面と関連付けて、以下の詳細な説明によれば、本開示をより明確に理解できる。そのうち、
本開示のいくつかの実施例に係る注視点判定方法のフローチャートである。本開示の注視点判定方法の一適用例の模式図である。本開示の注視点判定方法の一適用例の模式図である。本開示の実施例の予め設定されたデータセットに基づいて予め設定されたデータセット内の各画像における顔の眼部特徴点の座標を取得するフローチャートである。本開示の実施例の予め設定されたデータセット内の各画像における顔の眼部特徴点の座標に基づいてニューラルネットワークを訓練するフローチャートである。本開示のいくつかの実施例に係る注視点判定装置の構成模式図である。本開示のいくつかの実施例に係る注視点判定装置における取得ユニットの構成模式図である。本開示のいくつかの実施例に係る電子機器の構成模式図である。

ここで、図面を参照しながら本開示の様々な例示的実施例を詳細に説明する。なお、特に断らない限り、これらの実施例において記述した部材およびステップの相対的配置、数式および数値は本開示の範囲を限定するものではないことに注意すべきである。

同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。

以下の少なくとも一つの例示的実施例に対する説明は実際に説明的なものに過ぎず、本開示およびその適用または使用へのなんらの制限にもならない。

関連分野の当業者に既知の技術、方法および機器については、詳細に説明しないが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。

なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。

本開示の実施例はコンピュータシステム／サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム／サーバとの併用に適する公知の計算システム、環境および／または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステムおよび上記あらゆるシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。

コンピュータシステム／サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能命令（例えばプログラムモジュール）の一般的なコンテキストにおいて説明できる。通常、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実現するルーチン、プログラム、目標プログラム、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータシステム／サーバは、タスクが通信ネットワークにわたって接続された遠隔処理機器により実行される分散型クラウドコンピューティング環境において実施できる。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してもよい。

図１は本開示のいくつかの実施例に係る注視点判定方法のフローチャートであり、該方法はサーバ、または、例えば携帯電話、コンピュータ、車載機器などを含む端末機器によって実行され、図１に示すように、該方法は以下のステップを含む。

１０２において、画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得する。

本開示の実施例では、注視点判定用の画像は、例えば、カメラ、写真機、スキャナーなどを含み得る画像収集機器から取得されてもよいし、ハードディスク、光ディスク、フロッピーディスクなどを含み得る記憶機器から取得されてもよく、本開示の実施例は注視点判定対象の画像の取得方式を限定しない。そのうち、眼部特徴は眼球中心領域特徴点を含み、いくつかの実施例では、眼部特徴点はさらに、眼瞼輪郭特徴点および眼球輪郭特徴点を含み、本開示の実施例はこれに限定されない。

一例では、通常ヒトの両目は同一方向に同時に注視するため、画像における顔の片方の目の眼部特徴点の二次元座標を取得することで、画像における顔の両目の注視点を判定することができる。他の一例では、画像における顔の両目の眼部特徴点の二次元座標を取得することで、画像における顔の両目の注視点を判定することができる。

いくつかの実施例では、画像の特徴を抽出することで、画像における顔の特徴点の二次元座標を取得し、続いて画像における顔の特徴点の二次元座標に基づき、画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することができる。例えば、画像の特徴を抽出し、画像における顔の１０６個の特徴点の二次元座標を取得し、続いてこの１０６個の特徴点の二次元座標に基づき、画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することができる。

いくつかの実施例では、画像における顔の目領域の特徴点の二次元座標に基づき、画像から対応する目領域の矩形画像を切り出し、続いて矩形画像の特徴を抽出し、画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することができる。

一例では、画像における顔の片方の目領域の特徴点の二次元座標に基づき、画像から対応する目領域を含む矩形画像を切り出し、続いて矩形画像の特徴を抽出し、画像における顔の片方の目の眼部特徴点の二次元座標を取得することができる。

他の一例では、画像における顔の片方の目領域の特徴点の二次元座標に基づき、画像から対応する目領域を含む矩形画像を切り出し、続いて矩形画像のミラーリング処理を行い、矩形画像およびミラーリング処理後の矩形画像の特徴を抽出し、画像における顔の両目の眼部特徴点の二次元座標を取得することができる。

いくつかの実施例では、ニューラルネットワークまたは他の機械学習の方法によって画像の特徴を抽出することができる。一例では、ニューラルネットワークは畳み込みニューラルネットワークを採用してもよい。本開示の実施例は画像の特徴抽出方法を限定しない。

１０４において、眼球中心領域特徴点の二次元座標に基づき、画像内の顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得する。

いくつかの実施例では、画像内の顔に基づいて対応する三次元顔モデルを生成し、続いて眼球中心領域特徴点の二次元座標に基づき、三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得することができる。いくつかの実施例では、画像内の顔のキーポイントを予め設定し、画像における顔のキーポイントと三次元顔事前モデルのキーポイントとの対応関係に基づき、顔に対応する三次元顔モデルを生成することができ、例えば、複数のキーポイントは顔の外輪郭キーポイント、眼部キーポイント、眉毛キーポイント、唇キーポイント、鼻キーポイントなどを含んでもよく、本開示の実施例はキーポイントのタイプおよび数を限定しない。

いくつかの実施例では、予め設定された三次元座標系は予め設定された原則、例えば、三次元座標系の座標原点は携帯電話の前面カメラの中心点とし、三次元座標系のＸ軸正方向は座標原点から携帯電話の前面カメラに沿って水平に左に向かっている方向とし、三次元座標系のＹ軸正方向は座標原点から携帯電話の前面カメラに沿って垂直に上に向かっている方向とし、三次元座標系のＺ軸正方向は携帯電話の前面カメラと垂直であるように座標原点から携帯電話の前面カメラ外側に向かっている方向とするような原則に従って決定してもよい。

１０６において、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、画像における顔の目の注視点位置に対する判定結果を得る。

いくつかの実施例では、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、画像における顔の目の注視スコアを得て、続いて注視スコアを予め設定された閾値と比較し、画像における顔の目の注視点位置に対する判定結果を得ることができる。いくつかの実施例では、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークまたは他の機械学習の方法によって、画像における顔の目の注視スコアを得ることができる。一例では、ニューラルネットワークは完全接続層およびＲｅＬＵ層からなる簡単なネットワーク構造であってもよい。本開示の実施例は画像における顔の目の注視スコアを得る方法を限定しない。

いくつかの実施例では、眼球中心領域特徴点の二次元座標に基づき、画像内の顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得するステップの後に、さらに、予め設定されたフォーマットに従い、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標のフォーマットを調整し、それによりフォーマット調整後の眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって画像における顔の目の注視スコアを得ることができる。一例では、フォーマット調整はデータ順序の調整であり、即ち眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標の順序を、ニューラルネットワーク訓練時のデータ順序に一致させるように調整することである。

いくつかの実施例では、判定結果は、画像における顔の目の注視点が予め設定された領域内にあること、および画像における顔の目の注視点が予め設定された領域外にあることを含むことができる。注視スコアを予め設定された閾値と比較することで、注視スコアが予め設定された閾値よりも大きいことから、画像における顔の目の注視点が予め設定された領域内にあるという判定結果を得ることができ、そして注視スコアが予め設定された閾値以下であることから、画像における顔の目の注視点が予め設定された領域外にあるという判定結果を得ることができる。一例では、予め設定された領域は、画面領域の一部または全てを含むことができ、即ち本開示の実施例は画像における顔の目の注視点が画面領域内にあるかどうか、または画像における顔の目の注視点が画面の特定領域内にあるかどうかを判定するために用いることができる。

いくつかの実施例では、予め設定された閾値は、画像における顔の目の注視点が予め設定された領域内にある場合の正確判定の割合を含み得る真陽性率と、画像における顔の目の注視点が予め設定された領域外にある場合の判定誤りの割合を含み得る偽陽性率との差を含むことができる。

いくつかの実施例では、注視スコアを予め設定された閾値と比較し、画像における顔の目の注視点位置に対する判定結果を得るステップの後に、さらに、判定結果に対応して、画像を処理することができる。一例では、画像における顔の目の注視点が予め設定された領域内にあることに応答して、第一の予め設定された提示方式で画像を提示することができ、画像における顔の目の注視点が予め設定された領域外にあることに応答して、第二の予め設定された提示方式で画像を提示することができる。一例では、第一の予め設定された提示方式および第二の予め設定された提示方式は提示画像に異なる色のフレームをそれぞれ配置するようにし、例えば、図２Ａおよび２Ｂに示すように、画像における顔の目の注視点が予め設定された領域内にあることに応答して、提示画像に赤色のフレームを配置し、そして画像における顔の目の注視点が予め設定された領域外にあることに応答して、提示画像に青色のフレームを配置する。

いくつかの実施例では、本開示の実施例の方法は画像における顔の表情を認識するために用いることができ、また画像における顔の目の注視点位置に対する判定によって、画像における対象者が現在の状況を把握しているかどうかを判定し、それによって端末決済、端末ロック、端末ロック解除において、決済、ロック、ロック解除の安全性を保証することもできる。

本開示の上記実施例が提供する注視点判定方法に基づき、画像における顔の少なくとも片方の目の、眼球中心領域特徴点を含む眼部特徴点の二次元座標を取得し、眼球中心領域特徴点の二次元座標に基づき、画像内の顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得し、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、画像における顔の目の注視点位置に対する判定結果を得て、画像における顔の目の周囲のより細かな情報を学習することで、目の状態をより正確に判定し、より正確な目の状態情報を得ることができる。

上記各実施例では、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって画像における顔の目の注視点位置に対する判定結果を得る場合、採用されるニューラルネットワークは従来のニューラルネットワークではないため、先に該ニューラルネットワークを訓練する必要があり、また該ニューラルネットワークの入力は従来の画像ではなく、画像における顔の眼部特徴点の座標であるため、予め設定されたデータセット内の画像に基づいて該ニューラルネットワークを訓練する前、予め設定されたデータセット内の画像における顔の眼部特徴点の座標を取得する必要がある。

以下に図３および図４の実施例と関連付けて、予め設定されたデータセットに基づいて予め設定されたデータセット内の各画像における顔の眼部特徴点の座標を取得する流れ、および予め設定されたデータセット内の各画像における顔の眼部特徴点の座標に基づいてニューラルネットワークを訓練する流れを詳細に説明する。

なお、図３および図４に示す例は本開示の技術的解決手段に対する当業者の理解を助けるためのものに過ぎず、本開示を限定するものではないことを理解すべきである。当業者であれば、図３および図４に基づいて様々な変更を行うことができ、このような変更も本開示の技術的解決手段の一部と見なすべきである。

図３に示すように、該方法は以下のステップを含む。

３０２において、画像における顔の両目の眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の二次元座標を取得する。

本開示の実施例では、画像は予め設定されたデータセットから取得されるものであり、予め設定されたデータセット内の各画像にはいずれも画像における顔の目の注視点位置がラベル付けされ、ここで、予め設定されたデータセットは従来の顔認識データセットを採用してもよく、本開示の実施例はこれを限定しない。

いくつかの実施例では、画像の特徴を抽出し、画像における顔の特徴点の二次元座標を取得し、続いて画像における顔の片方の目領域の特徴点の二次元座標に基づき、画像から対応する目領域を含む矩形画像を切り出し、矩形画像のミラーリング処理を行い、矩形画像およびミラーリング処理後の矩形画像の特徴を抽出し、画像における顔の両目の眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の二次元座標を取得することができる。

いくつかの実施例では、ニューラルネットワークまたは他の機械学習の方法によって画像の特徴を抽出することができる。一例では、ニューラルネットワークは畳み込みニューラルネットワークを採用してもよい。本開示の実施例は画像の特徴抽出方法を限定しない。例えば、ニューラルネットワークによって画像の特徴を抽出し、画像における顔の１０６個の特徴点の二次元座標を取得してもよい。

３０４において、眼球中心領域特徴点の二次元座標に基づき、画像内の顔に対応する三次元顔モデルでの両目の眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得する。

いくつかの実施例では、画像内の顔に基づいて対応する三次元顔モデルを生成し、続いて眼球中心領域特徴点の二次元座標に基づき、三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得することができる。いくつかの実施例では、画像内の顔のキーポイントを予め設定し、画像内の顔のキーポイントと三次元顔事前モデルのキーポイントとの対応関係に応じて、顔に対応する三次元顔モデルを生成することができ、例えば、複数のキーポイントは顔の外輪郭キーポイント、眼部キーポイント、眉毛キーポイント、唇キーポイント、鼻キーポイントなどを含んでもよく、本開示の実施例はキーポイントのタイプおよび数を限定しない。

いくつかの実施例では、眼球中心領域特徴点の二次元座標に基づき、画像内の顔に対応する三次元顔モデルでの両目の眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得するステップの後に、さらに、予め設定されたフォーマットに従い、眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標をファイルに記憶することができる。一例では、予め設定されたフォーマットは眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標の順序であってもよい。

いくつかの実施例では、眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標をファイルに記憶する場合、予め設定されたデータセット内の各画像における顔の眼部特徴点の座標をテストセットおよび訓練セットに分けて、それぞれニューラルネットワークの訓練およびテストに用いることができる。

図４に示すように、該方法は以下のステップを含む。

４０２において、訓練セット内の訓練サンプルの眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって画像における顔の目の注視点位置に対する判定結果と訓練サンプルに対応する画像においてラベル付けされた顔の目の注視点位置との間の損失を得て、該損失に基づいてバックプロパゲーションによってニューラルネットワークのパラメータを更新する。

本開示の実施例では、予め設定されたデータセット内の画像に基づいて訓練セット内の訓練サンプルを得ることができ、ここで、訓練セット内の各訓練サンプルは眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標からなり、予め設定されたデータセット内の各画像にはいずれも画像における顔の目の注視点位置がラベル付けされ、予め設定されたデータセットは従来の顔認識データセットを採用してもよく、本開示の実施例はこれを限定しない。

一例では、ニューラルネットワークは完全接続層およびＲｅＬＵ層からなる簡単なネットワーク構造であってもよい。いくつかの実施例では、勾配降下法などのニューラルネットワーク訓練方法を用いてニューラルネットワークを訓練してもよく、本開示の実施例はこれを限定しない。

４０４において、ニューラルネットワークの予め設定された回数の訓練を行ってから、テストセット内のテストサンプルの眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって画像における顔の目の注視点位置に対する判定結果の正解率を得て、該正解率に応じてニューラルネットワークの訓練を停止する。

本開示の実施例では、予め設定されたデータセット内の画像に基づいてテストセット内のテストサンプルを得ることができ、ここで、テストセット内の各テストサンプルは眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標からなり、予め設定されたデータセット内の各画像にはいずれも画像における顔の目の注視点位置がラベル付けされ、テストセットおよび訓練セットは同一予め設定されたデータセットから得られてもよいし、また異なる予め設定されたデータセットから得られてもよく、本開示の実施例はこれを限定せず、予め設定されたデータセットは従来の顔認識データセットを採用してもよく、本開示の実施例はこれを限定しない。

いくつかの実施例では、ニューラルネットワークはタスクが比較的簡単で、過剰適合という現象が発生しやすいため、訓練セットによって得られた損失が不変で、かつテストセットによって得られた正解率が上昇し始める場合、ネットワークの訓練を早期に停止してもよい。

上記各実施例では、ニューラルネットワークの訓練を完了してから、テストセットに基づいて画像における顔の目の注視点位置に対する判定の予め設定された閾値を決定することができる。

テストサンプルをニューラルネットワークに入力し、各テストサンプルに対応する画像のニューラルネットワークによる注視スコアを得て、続いて各注視スコアを対応する画像のラベルと比較し、注視スコアが現在の閾値よりも大きいものを予め設定された注視領域とし、注視スコアが現在の閾値以下であるものを予め設定された非注視領域とし、Ｔｒｕｅ＿ｐｏｓｉｔｉｖｅでスコアが現在の閾値よりも大きくかつラベルが陽性（注視）であるものを表し、Ｆａｌｓｅ＿ｎｅｇａｔｉｖｅでスコアが現在の閾値以下かつラベルが陽性（注視）であるものを表し、Ｆａｌｓｅ＿ｐｏｓｉｔｉｖｅでスコアが現在の閾値よりも大きくかつラベルが陰性（非注視）であるものを表し、Ｔｒｕｅ＿ｎｅｇａｔｉｖｅでスコアが現在の閾値以下かつラベルが陰性（非注視）であるものを表すように、各テストサンプルによって得られた結果を記録し、記録した結果に基づいて真陽性率（Ｔｒｕｅｐｏｓｉｔｉｖｅｒａｔｅ：Ｔｐｒ）および偽陽性率（Ｆａｌｓｅｐｏｓｉｔｉｖｅｒａｔｅ：Ｆｐｒ）を得ることができ、ここで、Ｔｐｒ＝Ｔｒｕｅ＿ｐｏｓｉｔｉｖｅ／（Ｔｒｕｅ＿ｐｏｓｉｔｉｖｅ＋Ｆａｌｓｅ＿ｎｅｇａｔｉｖｅ）、画像における顔の目の予め設定された注視領域である場合の正確判定の割合を表し、Ｆｐｒ＝Ｆａｌｓｅ＿ｐｏｓｉｔｉｖｅ／（Ｔｒｕｅ＿ｎｅｇａｔｉｖｅ＋Ｆａｌｓｅ＿ｐｏｓｉｔｉｖｅ）、画像における顔の目の予め設定された非注視領域である場合の判定誤りの割合を表し、最大のＭｘ＝Ｔｐｒ−Ｆｐｒの場合の閾値を予め設定された閾値とし、総正解率を保存する。

いくつかの実施例では、前記真陽性率は第一割合と呼ばれてもよく、前記偽陽性率は第二割合と呼ばれてもよい。前記「真陽性」および「偽陽性」は二つの割合を区別する名称である。

図５は本開示のいくつかの実施例に係る注視点判定装置の構成模式図であり、該装置はサーバ、または、例えば携帯電話、コンピュータ、車載機器などを含む端末機器に設置されて運用され、図５に示すように、該装置は、取得ユニット５１０および判定ユニット５２０を含む。

そのうち、取得ユニット５１０は、画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得するように構成される。

一例では、通常ヒトの両目は同一方向に同時に注視するため、取得ユニット５１０は画像における顔の片方の目の眼部特徴点の二次元座標を取得することで、画像における顔の両目の注視点を判定することができる。他の一例では、取得ユニット５１０は画像における顔の両目の眼部特徴点の二次元座標を取得することで、画像における顔の両目の注視点を判定することができる。

いくつかの実施例では、取得ユニット５１０は画像の特徴を抽出することで、画像における顔の特徴点の二次元座標を取得し、続いて画像における顔の特徴点の二次元座標に基づき、画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することができる。例えば、取得ユニット５１０は画像の特徴を抽出し、画像における顔の１０６個の特徴点の二次元座標を取得し、続いてこの１０６個の特徴点の二次元座標に基づき、画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することができる。

いくつかの実施例では、図６に示すように、取得ユニット５１０は、画像における顔の目領域の特徴点の二次元座標に基づき、画像から対応する目領域の矩形画像を切り出すことができる切り出しサブユニット５１１、および、矩形画像の特徴を抽出し、画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することができる抽出サブユニット５１２を含んでもよい。

一例では、切り出しサブユニット５１１は画像における顔の片方の目領域の特徴点の二次元座標に基づき、画像から対応する目領域を含む矩形画像を切り出すことができ、抽出サブユニット５１２は矩形画像の特徴を抽出し、画像における顔の片方の目の眼部特徴点の二次元座標を取得することができる。

他の一例では、取得ユニット５１０はさらに、ミラーリングサブユニット５１３を含み、切り出しサブユニット５１１は画像における顔の片方の目領域の特徴点の二次元座標に基づき、画像から対応する目領域を含む矩形画像を切り出すことができるが、ミラーリングサブユニット５１３は矩形画像のミラーリング処理を行うことができ、抽出サブユニット５１２は矩形画像およびミラーリング処理後の矩形画像の特徴を抽出し、画像における顔の両目の眼部特徴点の二次元座標を取得することができる。

取得ユニット５１０はさらに、眼球中心領域特徴点の二次元座標に基づき、画像内の顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得するために用いられる。

いくつかの実施例では、取得ユニット５１０は画像内の顔に基づいて対応する三次元顔モデルを生成し、続いて眼球中心領域特徴点の二次元座標に基づき、三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得することができる。いくつかの実施例では、画像内の顔のキーポイントを予め設定し、取得ユニット５１０によって画像における顔のキーポイントと三次元顔事前モデルのキーポイントとの対応関係に基づき、顔に対応する三次元顔モデルを生成することができ、例えば、複数のキーポイントは顔の外輪郭キーポイント、眼部キーポイント、眉毛キーポイント、唇キーポイント、鼻キーポイントなどを含んでもよく、本開示の実施例はキーポイントのタイプおよび数を限定しない。

判定ユニット５２０は、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、画像における顔の目の注視点位置に対する判定結果を得るように構成される。

いくつかの実施例では、判定ユニット５２０は眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、画像における顔の目の注視スコアを得て、続いて注視スコアを予め設定された閾値と比較し、画像における顔の目の注視点位置に対する判定結果を得ることができる。いくつかの実施例では、判定ユニット５２０は眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークまたは他の機械学習の方法によって、画像における顔の目の注視スコアを得ることができる。一例では、ニューラルネットワークは完全接続層およびＲｅＬＵ層からなる簡単なネットワーク構造であってもよい。本開示の実施例は画像における顔の目の注視スコアを得る方法を限定しない。

いくつかの実施例では、該装置はさらに調整ユニットを含み、取得ユニット５１０が眼球中心領域特徴点の二次元座標に基づき、画像内の顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得してから、調整ユニットは予め設定されたフォーマットに従い、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標のフォーマットを調整することができ、それにより判定ユニット５２０はフォーマット調整後の眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって画像における顔の目の注視スコアを得ることができる。一例では、フォーマット調整はデータ順序の調整であり、即ち眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標の順序を、ニューラルネットワーク訓練時のデータ順序に一致させるように調整することである。

いくつかの実施例では、判定結果は、画像における顔の目の注視点が予め設定された領域内にあること、および画像における顔の目の注視点が予め設定された領域外にあることを含むことができる。判定ユニット５２０は注視スコアを予め設定された閾値と比較することで、注視スコアが予め設定された閾値よりも大きいことから、画像における顔の目の注視点が予め設定された領域内にあるという判定結果を得ることができ、そして注視スコアが予め設定された閾値以下であることから、画像における顔の目の注視点が予め設定された領域外にあるという判定結果を得ることができる。一例では、予め設定された領域は、画面領域の一部または全てを含むことができ、即ち本開示の実施例は画像における顔の目の注視点が画面領域内にあるかどうか、または画像における顔の目の注視点が画面の特定領域内にあるかどうかを判定するために用いることができる。

いくつかの実施例では、該装置はさらに、注視スコアを予め設定された閾値と比較し、画像における顔の目の注視点位置に対する判定結果を得てから、さらに判定結果に対応して、画像を処理することができる処理ユニットを含む。一例では、処理ユニットは画像における顔の目の注視点が予め設定された領域内にあることに応答して第一の予め設定された提示方式で画像を提示することができ、そして画像における顔の目の注視点が予め設定された領域外にあることに応答して、第二の予め設定された提示方式で画像を提示することができる。一例では、第一の予め設定された提示方式および第二の予め設定された提示方式は提示画像に異なる色のフレームをそれぞれ配置するようにし、例えば、図２Ａおよび２Ｂに示すように、処理ユニットは画像における顔の目の注視点が予め設定された領域内にあることに応答して、提示画像に赤色のフレームを配置し、そして画像における顔の目の注視点が予め設定された領域外にあることに応答して、提示画像に青色のフレームを配置する。

いくつかの実施例では、本開示の実施例の装置は画像における顔の表情を認識するために用いることができ、また画像における顔の目の注視点位置に対する判定によって、画像における対象者が現在の状況を把握しているかどうかを判定し、それによって端末決済、端末ロック、端末ロック解除において、決済、ロック、ロック解除の安全性を保証することもできる。

本開示の上記実施例が提供する注視点判定装置に基づき、画像における顔の少なくとも片方の目の、眼球中心領域特徴点を含む眼部特徴点の二次元座標を取得し、眼球中心領域特徴点の二次元座標に基づき、画像内の顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得し、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、画像における顔の目の注視点位置に対する判定結果を得て、画像における顔の目の周囲のより細かな情報を学習することで、目の状態をより正確に判定し、より正確な目の状態情報を得ることができる。

本開示の実施例はさらに電子機器を提供し、例えば移動端末、パーソナルコンピュータ（ＰＣ）、タブレット、サーバなどであってもよい。以下に図７を参照すると、本願の実施例の端末機器またはサーバの実現に適する電子機器７００の構成模式図が示される。図７に示すように、電子機器７００は一つ以上のプロセッサ、通信部などを含み、前記一つ以上のプロセッサは例えば、一つ以上の中央処理装置（ＣＰＵ）７０１、および／または一つ以上の加速ユニット７１３などであり、加速ユニット７１３はＧＰＵ、ＦＰＧＡ、他のタイプの専用プロセッサなどを含むことができるが、これらに限定されず、プロセッサは読み取り専用メモリ（ＲＯＭ）７０２に記憶されている実行可能命令または記憶部分７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされた実行可能命令に従って様々な適当の動作および処理を実行できる。通信部７１２はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含むことができるが、これに限定されず、プロセッサは読み取り専用メモリ７０２および／またはランダムアクセスメモリ７０３と通信して実行可能命令を実行し、バス７０４を介して通信部７１２と接続し、通信部７１２によって他の目標機器と通信し、それにより本願の実施例が提供するいずれか一項の方法に対応する動作、例えば、画像における顔の少なくとも片方の目の、眼球中心領域特徴点を含む眼部特徴点の二次元座標を取得することと、前記眼球中心領域特徴点の二次元座標に基づき、前記画像内の前記顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得することと、前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、前記画像における前記顔の目の注視点位置に対する判定結果を得ることと、を完了することができる。

また、ＲＡＭ７０３には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。ＣＰＵ７０１、ＲＯＭ７０２およびＲＡＭ７０３はバス７０４を介して互いに接続される。ＲＡＭ７０３が存在する場合、ＲＯＭ７０２は任意選択的なモジュールとなる。ＲＡＭ７０３は実行可能命令を記憶するか、または動作時にＲＯＭ７０２へ実行可能命令を書き込み、実行可能命令によって中央処理装置７０１は上記通信方法に対応する動作を実行する。入力／出力（Ｉ／Ｏ）インタフェース７０５もバス７０４に接続される。通信部７１２は統合設置してもよいし、また複数のサブモジュール（例えば複数のＩＢネットワークカード）を有するように設置してもよく、かつバスリンクに存在する。

キーボード、マウスなどを含む入力部分７０６、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）などおよびスピーカーなどを含む出力部分７０７、ハードディスクなどを含む記憶部分７０８、およびＬＡＮカード、モデムのネットワークインタフェースカードなどを含む通信部分７０９といった部品は、Ｉ／Ｏインタフェース７０５に接続される。通信部分７０９はインターネットのようなネットワークによって通信処理を実行する。ドライバ７１０も必要に応じてＩ／Ｏインタフェース７０５に接続される。取り外し可能な媒体７１１、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバ７１０に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部分７０８にインストールされる。

説明すべきは、図７に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図７の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えば加速ユニット７１３とＣＰＵ７０１は分離設置するかまたは加速ユニット７１３をＣＰＵ７０１に統合するようにしてもよく、通信部７１２通信部は分離設置してもよいし、またＣＰＵ７０１または加速ユニット７１３に統合してもよいなどである。これらの置換可能な実施形態はいずれも本開示の保護範囲に属する。

いくつかの実施例では、本開示の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法を実行するステップに対応する命令、例えば、画像における顔の少なくとも片方の目の、眼球中心領域特徴点を含む眼部特徴点の二次元座標を取得することと、前記眼球中心領域特徴点の二次元座標に基づき、前記画像内の前記顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得することと、前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、前記画像における前記顔の目の注視点位置に対する判定結果を得ることと、を含むことができる。このような実施例では、該コンピュータプログラムは通信部分７０９によってネットワークからダウンロードおよびインストールでき、および／または取り外し可能な媒体７１１からインストールできる。該コンピュータプログラムは中央処理装置（ＣＰＵ）７０１に実行される時、本願の方法に特定された上記機能を実行する。

一つ以上の任意選択的な実施形態では、本開示の実施例はさらに、コンピュータ読み取り可能命令を記憶するためのコンピュータプログラム製品であって、該命令は実行される時にコンピュータに上記いずれか一つの可能な実施形態における注視点判定方法を実行させるコンピュータプログラム製品を提供する。

該コンピュータプログラム製品は具体的にハードウェア、ソフトウェアまたはそれらの組み合わせの形態で実現できる。任意選択的な一例では、該コンピュータプログラム製品は具体的にコンピュータ記憶媒体として実現され、他の任意選択的な一例では、該コンピュータプログラム製品は具体的にソフトウェア製品、例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ：ＳＤＫ）などとして実現される。

一つ以上の任意選択的な実施形態では、本開示の実施例はさらに、注視点判定方法およびその対応する装置、電子機器、コンピュータ記憶媒体、コンピュータプログラムならびにコンピュータプログラム製品を提供し、ここで、該方法は、第一装置が第二装置へ、第二装置に上記いずれか一つの可能な実施例における注視点判定方法を実行させる注視点判定指示を送信することと、第一装置が第二装置により送信される注視点判定結果を受信することと、を含む。

いくつかの実施例では、該注視点判定指示は具体的に呼び出し命令であってもよく、第一装置は呼び出しの方式で第二装置に指示を出して注視点判定を実行させることができ、それに対して、呼び出し命令を受信したことに応答して、第二装置は上記注視点判定方法における任意の実施例に記載のステップおよび／またはプロセスを実行することができる。

なお、本開示の実施例における「第一」、「第二」などの用語は区別するためのものに過ぎず、本開示の実施例を限定するものではないことを理解すべきである。

また、本開示では、「複数」は二つ以上を指すことができ、「少なくとも一つ」は一つ、二つまたは二つ以上を指すことができることを理解すべきである。

また、本開示に言及された任意の部品、データまたは構造は、特に断らない限り、または相反する示唆が示されない限り、通常、一つ以上と見なしてもよいことを理解すべきである。

また、本開示は各実施例間の相違点を重点に説明し、その同じまたは類似部分は互いに参照すればよいことを理解すべきであり、その説明を簡潔にするために、ここでは説明を省略する。

本開示の方法および装置は様々な方式で実現し得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせで本開示の方法および装置を実現できる。前記方法のステップに付けられる上記順序は説明するためのものに過ぎず、本開示の方法のステップは、特に断らない限り、以上に具体的に記述した順序に限定されない。また、いくつかの実施例では、本開示を記録媒体に記録されたプログラムとして実施してもよく、これらのプログラムは本開示に係る方法を実現するための機械可読命令を含む。従って、本開示は本開示に係る方法を実行するためのプログラムを記憶する記録媒体をも包含する。

本開示の記述は例示および説明のためのもので、漏れがないものまたは開示した形式に本開示を限定するものではない。様々な修正および変形は、当業者にとって自明である。選択および記述した実施例は、本開示の原理および実際の適用をより効果的に説明し、かつ当業者に本願を理解させて特定の用途に適する様々な修正付きの様々な実施例を設計するためのものである。

Claims

画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することであって、前記眼部特徴点は眼球中心領域特徴点を含むことと、
前記眼球中心領域特徴点の二次元座標に基づき、前記画像内の前記顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得することと、
前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、前記画像における前記顔の目の注視点位置に対する判定結果を得ることと、を含む、注視点判定方法。
前記眼部特徴点はさらに、眼瞼輪郭特徴点および眼球輪郭特徴点を含む、請求項１に記載の方法。
前記画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することは、
前記画像の特徴を抽出し、前記画像における前記顔特徴点の二次元座標を取得することと、
前記画像における前記顔特徴点の二次元座標に基づき、前記画像における前記顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することと、を含む、請求項１または２に記載の方法。
前記画像における前記顔特徴点の二次元座標に基づき、前記画像における前記顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することは、
前記画像における前記顔の目領域の特徴点の二次元座標に基づき、前記画像から対応する目領域を含む矩形画像を切り出すことと、
前記矩形画像の特徴を抽出し、前記画像における前記顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することと、を含む、請求項３に記載の方法。
前記画像における前記顔の目領域の特徴点の二次元座標に基づき、前記画像から対応する目領域を含む矩形画像を切り出すことは、
前記画像における前記顔の片目領域の特徴点の二次元座標に基づき、前記画像から対応する目領域を含む矩形画像を切り出すことを含み、
前記矩形画像の特徴を抽出し、前記画像における前記顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することは、
前記矩形画像の特徴を抽出し、前記画像における前記顔の片目の眼部特徴点の二次元座標を取得するか、または、
前記矩形画像のミラーリング処理を行うことと、
前記矩形画像および前記ミラーリング処理後の矩形画像の特徴を抽出し、前記画像における前記顔の両目の眼部特徴点の二次元座標を取得することと、を含む、請求項４に記載の方法。
前記眼球中心領域特徴点の二次元座標に基づき、前記画像内の前記顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得することは、
前記画像内の前記顔に基づいて対応する三次元顔モデルを生成することと、
前記眼球中心領域特徴点の二次元座標に基づき、前記三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得することと、を含む、請求項１から５のいずれか一項に記載の方法。
前記画像内の前記顔に基づいて対応する三次元顔モデルを生成することは、
前記画像内の前記顔のキーポイントと三次元顔事前モデルのキーポイントとの対応関係に基づき、前記顔に対応する三次元顔モデルを生成することを含む、請求項６に記載の方法。
前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、前記画像における前記顔の目の注視点位置に対する判定結果を得ることは、
前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、前記画像における前記顔の目の注視スコアを得ることと、
前記注視スコアを予め設定された閾値と比較し、前記画像における前記顔の目の注視点位置に対する判定結果を得ることと、を含む、請求項１から７のいずれか一項に記載の方法。
前記注視スコアを予め設定された閾値と比較し、前記画像における前記顔の目の注視点位置に対する判定結果を得ることは、
前記注視スコアが前記予め設定された閾値よりも大きいことから、前記画像における前記顔の目の注視点が予め設定された領域内にあると判定するか、または、
前記注視スコアが前記予め設定された閾値以下であることから、前記画像における前記顔の目の注視点が予め設定された領域外にあると判定することを含む、請求項８に記載の方法。
前記予め設定された閾値は、画像における顔の目の注視点が予め設定された領域内にある場合の正確判定の割合を含む真陽性率と、画像における顔の目の注視点が予め設定された領域外にある場合の判定誤りの割合を含む偽陽性率との差、を含む、請求項９に記載の方法。
前記予め設定された領域は、画面領域の一部または全てを含む、請求項９または１０に記載の方法。
前記注視スコアを予め設定された閾値と比較し、前記画像における前記顔の目の注視点位置に対する判定結果を得た後に、さらに、
前記判定結果に対応して、前記画像を処理することを含む、請求項９から１１のいずれか一項に記載の方法。
前記判定結果に対応して、前記画像を処理することは、
前記画像における前記顔の目の注視点が予め設定された領域内にあることに応答して、第一の予め設定された提示方式で前記画像を提示することと、
前記画像における前記顔の目の注視点が予め設定された領域外にあることに応答して、第二の予め設定された提示方式で前記画像を提示することと、を含む、請求項１２に記載の方法。
前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、前記画像における前記顔の目の注視スコアを得ることは、
前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって前記画像における前記顔の目の注視スコアを得ることを含む、請求項８から１３のいずれか一項に記載の方法。
前記眼球中心領域特徴点の二次元座標に基づき、前記画像内の前記顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得した後に、さらに、
予め設定されたフォーマットに従い、前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標のフォーマットを調整することを含み、
前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって前記画像における前記顔の目の注視スコアを得る前記ステップは、
前記フォーマット調整後の前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって前記画像における前記顔の目の注視スコアを得ることを含む、請求項１４に記載の方法。
表情認識、端末決済、端末ロック、端末ロック解除のいずれか一つまたは任意の組み合わせに用いられる、請求項１から１５のいずれか一項に記載の方法。
画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得し、および前記眼球中心領域特徴点の二次元座標に基づき、前記画像内の前記顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得するように構成された取得ユニットであって、前記眼部特徴点は眼球中心領域特徴点を含む取得ユニットと、
前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、前記画像における前記顔の目の注視点位置に対する判定結果を得るように構成された判定ユニットと、を含む、注視点判定装置。
前記眼部特徴点はさらに、眼瞼輪郭特徴点および眼球輪郭特徴点を含む、請求項１７に記載の装置。
前記取得ユニットは、前記画像の特徴を抽出し、前記画像における前記顔特徴点の二次元座標を取得し、そして前記画像における前記顔特徴点の二次元座標に基づき、前記画像における前記顔の少なくとも片方の目の眼部特徴点の二次元座標を取得するように構成される、請求項１８に記載の装置。
前記取得ユニットは、
前記画像における前記顔の目領域の特徴点の二次元座標に基づき、前記画像から対応する目領域を含む矩形画像を切り出すように構成された切り出しサブユニットと、
前記矩形画像の特徴を抽出し、前記画像における前記顔の少なくとも片方の目の眼部特徴点の二次元座標を取得するように構成された抽出サブユニットと、を含む、請求項１９に記載の装置。
前記切り出しサブユニットは、前記画像における前記顔の片目領域の特徴点の二次元座標に基づき、前記画像から対応する目領域を含む矩形画像を切り出すように構成され、
前記取得ユニットはさらに、前記矩形画像のミラーリング処理を行うように構成されたミラーリングサブユニットを含み、
前記抽出サブユニットは、前記矩形画像の特徴を抽出し、前記画像における前記顔の片目の眼部特徴点の二次元座標を取得するか、または、前記矩形画像および前記ミラーリング処理後の矩形画像の特徴を抽出し、前記画像における前記顔の両目の眼部特徴点の二次元座標を取得するように構成される、請求項２０に記載の装置。
前記取得ユニットは、前記画像内の前記顔に基づいて対応する三次元顔モデルを生成し、そして前記眼球中心領域特徴点の二次元座標に基づき、前記三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得するように構成される、請求項１７から２１のいずれか一項に記載の装置。
前記取得ユニットは、前記画像内の前記顔のキーポイントと三次元顔事前モデルのキーポイントとの対応関係に基づき、前記顔に対応する三次元顔モデルを生成するように構成される、請求項２２に記載の装置。
前記判定ユニットは、前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、前記画像における前記顔の目の注視スコアを得て、そして前記注視スコアを予め設定された閾値と比較し、前記画像における前記顔の目の注視点位置に対する判定結果を得るように構成される、請求項１７から２３のいずれか一項に記載の装置。
前記判定ユニットは、前記注視スコアが前記予め設定された閾値よりも大きいことから、前記画像における前記顔の目の注視点が予め設定された領域内にあると判定するか、または、前記注視スコアが前記予め設定された閾値以下であることから、前記画像における前記顔の目の注視点が予め設定された領域外にあると判定するように構成される、請求項２４に記載の装置。
前記予め設定された閾値は、画像における顔の目の注視点が予め設定された領域内にある場合の正確判定の割合を含む真陽性率と、画像における顔の目の注視点が予め設定された領域外にある場合の判定誤りの割合を含む偽陽性率との差、を含む、請求項２５に記載の装置。
前記予め設定された領域は、画面領域の一部または全てを含む、請求項２５または２６に記載の装置。
さらに、
前記判定結果に対応して、前記画像を処理するように構成された処理ユニットを含む、請求項２５から２７のいずれか一項に記載の装置。
前記処理ユニットは、前記画像における前記顔の目の注視点が予め設定された領域内にあることに応答して、第一の予め設定された提示方式で前記画像を提示し、そして前記画像における前記顔の目の注視点が予め設定された領域外にあることに応答して、第二の予め設定された提示方式で前記画像を提示するように構成される、請求項２８に記載の装置。
前記判定ユニットは、前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって前記画像における前記顔の目の注視スコアを得るように構成される、請求項２４から２９のいずれか一項に記載の装置。
さらに、
予め設定されたフォーマットに従い、前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標のフォーマットを調整するように構成された調整ユニットを含み、
前記判定ユニットは、前記フォーマット調整後の前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって前記画像における前記顔の目の注視スコアを得るように構成される、請求項３０に記載の装置。
表情認識、端末決済、端末ロック、端末ロック解除のいずれか一つまたは任意の組み合わせに用いられる、請求項１７から３１のいずれか一項に記載の装置。
請求項１７から３２のいずれか一項に記載の装置を含む電子機器。
実行可能命令を記憶するように構成されたメモリ、および
前記メモリと通信して前記実行可能命令を実行することで請求項１から１６のいずれか一項に記載の方法を完了するように構成されたプロセッサを含む、電子機器。
コンピュータ読み取り可能命令を記憶するためのコンピュータ記憶媒体であって、前記命令は実行される時に請求項１から１６のいずれか一項に記載の方法を実現する、コンピュータ記憶媒体。