JP2021511606A - 顔の特徴点に基づく瞬き動作認識のためのシステムおよび方法 - Google Patents

顔の特徴点に基づく瞬き動作認識のためのシステムおよび方法 Download PDF

Info

Publication number
JP2021511606A
JP2021511606A JP2020558665A JP2020558665A JP2021511606A JP 2021511606 A JP2021511606 A JP 2021511606A JP 2020558665 A JP2020558665 A JP 2020558665A JP 2020558665 A JP2020558665 A JP 2020558665A JP 2021511606 A JP2021511606 A JP 2021511606A
Authority
JP
Japan
Prior art keywords
image frame
image frames
parameter
candidate image
feature point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020558665A
Other languages
English (en)
Inventor
シュウバオ・ジャン
Original Assignee
ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド
ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド, ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド filed Critical ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド
Publication of JP2021511606A publication Critical patent/JP2021511606A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • G06V40/45Detection of the body part being alive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • Geometry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

本開示は、連続する画像からの顔の動作の存在を自動識別するためのシステムおよび方法に関する。システムおよび方法は、顔オブジェクトを含む複数の連続する候補画像フレームを取得することができる。複数の候補画像フレームのそれぞれは、顔オブジェクトの眼に関連する複数の特徴点を含むことができる。複数の連続する候補画像フレームのそれぞれについて、システムおよび方法は、複数の特徴点に基づいて多角形の面積を決定することができる。システムおよび方法は、顔オブジェクトの眼に関連する距離を決定することができる。システムおよび方法は、面積および距離に基づいて動作パラメータを決定することができる。システムおよび方法は、動作パラメータが1つまたは複数の事前設定された条件を満たすことに応答して、瞬き動作の存在を識別することができる。

Description

本開示は、一般に、動作認識のためのシステムおよび方法に関し、特に、連続する画像フレームからの瞬き動作の存在を自動識別するためのシステムおよび方法に関する。
人間の動作認識(瞬き動作認識など)に基づく生体検出は、多くのシナリオ(システムログイン、身元認証、ヒューマンコンピュータインタラクションなど)でますます重要になっている。「システムログイン」を例に取ると、ユーザが顔認識を介してシステムにサインインしようとする場合、「ユーザ」が虚偽のオブジェクト(写真など)ではなく、生体を持つ人物であることを確認するために、システムは、そのような検証の目的で、ユーザの動作(例えば、瞬き動作)を識別する必要がある場合がある。既存の技術は、過度のコンピューティング能力を必要とする複雑なアルゴリズムを使用してこの目標を達成し、コンピューティングシステムに大きな負担をかけている。したがって、ユーザの動作の存在を迅速かつ効率的に自動識別し、好ましくはコンピューティング能力への要求を少なくするためのシステムおよび方法を提供することが望ましい。
本開示の一態様は、連続する画像からの顔の動作の存在を自動識別するためのシステムに関する。システムは、命令のセットを含む少なくとも1つの記憶媒体と、少なくとも1つの記憶媒体と通信する少なくとも1つのプロセッサとを含み得る。命令のセットを実行すると、少なくとも1つのプロセッサは、システムに以下のオペレーションのうちの1つまたは複数を実行させるように指示され得る。少なくとも1つのプロセッサは、顔オブジェクトを含む複数の連続する候補画像フレームを取得することができる。複数の候補画像フレームのそれぞれは、眼の上瞼に関連付けられた1つまたは複数の第1の特徴点、眼の下瞼に関連付けられた1つまたは複数の第2の特徴点、眼の左端に関連付けられた第3の特徴点、および眼の右端に関連付けられた第4の特徴点を含むことができる。複数の連続する候補画像フレームのそれぞれについて、少なくとも1つのプロセッサは、1つまたは複数の第1の特徴点、1つまたは複数の第2の特徴点、第3の特徴点、および第4の特徴点に基づいて多角形の面積を決定することができる。少なくとも1つのプロセッサは、複数の連続する候補画像フレームのそれぞれにおける第3の特徴点と第4の特徴点との間の距離を決定することができる。少なくとも1つのプロセッサは、複数の連続する候補画像フレームのそれぞれにおける面積および距離に基づいて動作パラメータを決定することができる。少なくとも1つのプロセッサは、動作パラメータが1つまたは複数の事前設定された条件を満たすことに応答して、瞬き動作の存在を識別することができる。
本開示の別の態様は、少なくとも1つのプロセッサ、少なくとも1つの記憶媒体、およびネットワークに接続された通信プラットフォームを有するコンピューティングデバイス上で実施される方法に関する。方法は、以下のオペレーションの1つまたは複数を含み得る。少なくとも1つのプロセッサは、顔オブジェクトを含む複数の連続する候補画像フレームを取得することができる。複数の候補画像フレームのそれぞれは、眼の上瞼に関連付けられた1つまたは複数の第1の特徴点、眼の下瞼に関連付けられた1つまたは複数の第2の特徴点、眼の左端に関連付けられた第3の特徴点、および眼の右端に関連付けられた第4の特徴点を含むことができる。複数の連続する候補画像フレームのそれぞれについて、少なくとも1つのプロセッサは、1つまたは複数の第1の特徴点、1つまたは複数の第2の特徴点、第3の特徴点、および第4の特徴点に基づいて多角形の面積を決定することができる。少なくとも1つのプロセッサは、複数の連続する候補画像フレームのそれぞれにおける第3の特徴点と第4の特徴点との間の距離を決定することができる。少なくとも1つのプロセッサは、複数の連続する候補画像フレームのそれぞれにおける面積および距離に基づいて動作パラメータを決定することができる。少なくとも1つのプロセッサは、動作パラメータが1つまたは複数の事前設定された条件を満たすことに応答して、瞬き動作の存在を識別することができる。
本開示のさらなる態様は、非一時的なコンピュータ可読媒体に関する。非一時的なコンピュータ可読媒体は、実行可能な命令を含み得る。少なくとも1つのプロセッサによって実行されるとき、実行可能な命令は、方法を実行するように少なくとも1つのプロセッサに指示することができる。方法は、以下のオペレーションの1つまたは複数を含み得る。少なくとも1つのプロセッサは、顔オブジェクトを含む複数の連続する候補画像フレームを取得することができる。複数の候補画像フレームのそれぞれは、眼の上瞼に関連付けられた1つまたは複数の第1の特徴点、眼の下瞼に関連付けられた1つまたは複数の第2の特徴点、眼の左端に関連付けられた第3の特徴点、および眼の右端に関連付けられた第4の特徴点を含むことができる。複数の連続する候補画像フレームのそれぞれについて、少なくとも1つのプロセッサは、1つまたは複数の第1の特徴点、1つまたは複数の第2の特徴点、第3の特徴点、および第4の特徴点に基づいて多角形の面積を決定することができる。少なくとも1つのプロセッサは、複数の連続する候補画像フレームのそれぞれにおける第3の特徴点と第4の特徴点との間の距離を決定することができる。少なくとも1つのプロセッサは、複数の連続する候補画像フレームのそれぞれにおける面積および距離に基づいて動作パラメータを決定することができる。少なくとも1つのプロセッサは、動作パラメータが1つまたは複数の事前設定された条件を満たすことに応答して、瞬き動作の存在を識別することができる。
いくつかの実施形態では、少なくとも1つのプロセッサは、1つまたは複数の第1の特徴点、1つまたは複数の第2の特徴点、第3の特徴点、または第4の特徴点に少なくとも部分的に基づいて基準点を決定することができる。少なくとも1つのプロセッサは、1つまたは複数の第1の特徴点、1つまたは複数の第2の特徴点、第3の特徴点、第4の特徴点、および基準点に基づいて複数の三角形面積を決定することができる。複数の三角形面積のそれぞれは、基準点と、1つまたは複数の第1の特徴点、1つまたは複数の第2の特徴点、第3の特徴点、および第4の特徴点の中の2つの隣接点に基づいて決定され得る。少なくとも1つのプロセッサは、複数の三角形面積に基づいて多角形の面積を決定することができる。
いくつかの実施形態では、基準点は、1つまたは複数の第1の特徴点、1つまたは複数の第2の特徴点、第3の特徴点、および第4の特徴点のうちの1つ、または多角形の垂心もしくは多角形の中心点を含み得る。
いくつかの実施形態では、動作パラメータは、多角形の面積と、第3の特徴点と第4の特徴点との間の距離との間の比率であり得る。
いくつかの実施形態では、少なくとも1つのプロセッサは、複数の連続する候補画像フレームから複数の連続するターゲット画像フレームを識別することができる。複数の連続するターゲット画像フレームは、開始画像フレームおよび終了画像フレームを含み得る。少なくとも1つのプロセッサは、複数の連続するターゲット画像フレームに対応する複数の動作パラメータに関連する最大動作パラメータを識別することができる。少なくとも1つのプロセッサは、複数の連続するターゲット画像フレームに対応する複数の動作パラメータから最小動作パラメータを識別することができる。少なくとも1つのプロセッサは、最大動作パラメータおよび最小動作パラメータに基づいて非対称パラメータを決定することができる。少なくとも1つのプロセッサは、開始画像フレームから最小動作パラメータに対応するターゲット画像フレームまでのターゲット画像フレームの第1の計数を決定することができる。少なくとも1つのプロセッサは、最小動作パラメータに対応するターゲット画像フレームから終了画像フレームまでの画像フレームの第2の計数を決定することができる。少なくとも1つのプロセッサは、非対称パラメータが非対称閾値よりも大きく、第1の計数が第1の計数閾値よりも大きく、第2の計数が第2の計数閾値よりも大きいことに応答して、瞬き動作を識別し得る。
いくつかの実施形態では、候補画像フレームについて、少なくとも1つのプロセッサは、複数の連続する候補画像フレームのシーケンスに沿って、候補画像フレームの前の複数の事前画像フレームと候補画像フレームの後の複数の後続画像フレームを選択することができる。少なくとも1つのプロセッサは、複数の事前画像フレームに対応する複数の第1の動作パラメータに基づいて第1の平均動作パラメータを決定することができる。少なくとも1つのプロセッサは、複数の後続画像フレームに対応する複数の第2の動作パラメータに基づいて第2の平均動作パラメータを決定することができる。少なくとも1つのプロセッサは、第2の平均動作パラメータが第1の平均動作パラメータよりも小さく、複数の第2の動作パラメータのそれぞれが、候補画像フレームに対応する動作パラメータよりも小さいことに応答して、候補画像フレームを開始画像フレームとして識別することができる。
いくつかの実施形態では、開始画像フレームの後の候補画像フレームについて、少なくとも1つのプロセッサは、複数の連続する候補画像フレームのシーケンスに沿って、候補画像フレームの前の複数の事前画像フレームと候補画像フレームの後の複数の後続画像フレームを選択することができる。少なくとも1つのプロセッサは、複数の事前画像フレームに対応する複数の第3の動作パラメータに基づいて第3の平均動作パラメータを決定することができる。少なくとも1つのプロセッサは、複数の後続画像フレームに対応する複数の第4の動作パラメータに基づいて第4の平均動作パラメータを決定することができる。少なくとも1つのプロセッサは、第4の平均動作パラメータが第3の平均動作パラメータよりも大きく、複数の第3の動作パラメータのそれぞれが候補画像フレームに対応する動作パラメータ以下であり、候補画像フレームに隣接する後続画像フレームに対応する動作パラメータが、候補画像フレームに対応する動作パラメータ以上であり、第1の平均動作パラメータと第4の平均動作パラメータに関連付けられた比率が比率閾値未満であることに応答して、候補画像フレームを終了画像フレームとして識別することができる。
いくつかの実施形態では、非対称閾値は1.6〜2であってもよい。
いくつかの実施形態では、第1の計数閾値は4〜6であってもよく、または第2の計数閾値は4〜6であってもよい。
いくつかの実施形態では、少なくとも1つのプロセッサは、眼の瞬き動作の存在の識別に応答して、顔オブジェクトに対応するユーザに関連付けられた端末デバイスに認証を提供することができる。
いくつかの実施形態では、システムは、カメラをさらに含んでもよく、カメラは、複数の連続する候補画像フレームが取得され得るビデオデータを提供するように構成され得る。
いくつかの実施形態では、少なくとも1つのプロセッサは、カメラによって提供されたビデオデータから複数の連続する候補画像フレームを取得することができる。
追加の特徴は、一部は以下の説明に記載され、一部は以下の説明および添付の図面を検討すると当業者には明らかになり、または例の作成もしくはオペレーションによって知ることができる。本開示の特徴は、以下で論じられる詳細な例に示される方法論、手段、および組み合わせの様々な態様の実施または使用によって実現および達成され得る。
本開示は、例示的な実施形態に関してさらに説明される。これらの例示的な実施形態は、図面を参照して詳細に説明される。これらの実施形態は、非限定的な例示的な実施形態であり、図面のいくつかの図全体を通して、同様の参照符号は同様の構造を表す。
本開示のいくつかの実施形態による例示的な動作認識システムを示す概略図である。 本開示のいくつかの実施形態による、コンピューティングデバイスの例示的なハードウェアおよび/またはソフトウェアコンポーネントを示す概略図である。 本開示のいくつかの実施形態によるモバイルデバイスの例示的なハードウェアおよび/またはソフトウェアコンポーネントを示す概略図である。 本開示のいくつかの実施形態による例示的な処理エンジンを示すブロック図である。 本開示のいくつかの実施形態による、瞬き動作の存在を識別するための例示的なプロセスを示すフローチャートである。 本開示のいくつかの実施形態による例示的な特徴点を示す概略図である。 本開示のいくつかの実施形態による、複数の三角形面積に基づいて多角形の面積を決定するための例示的なプロセスを示すフローチャートである。 本開示のいくつかの実施形態による、特徴点に基づいて決定された例示的な三角形面積を示す概略図である。 本開示のいくつかの実施形態による、瞬き動作の存在を識別するための例示的なプロセスを示すフローチャートである。 本開示のいくつかの実施形態による、開始画像フレームを決定するための例示的なプロセスを示すフローチャートである。 本開示のいくつかの実施形態による、終了画像フレームを決定するための例示的なプロセスを示すフローチャートである。 本開示のいくつかの実施形態による、瞬き動作中の動作パラメータの変動プロセスを示す例示的な曲線を示す概略図である。
以下の説明は、当業者が本開示を作成および使用することを可能にするために提示され、特定の用途およびその要件の文脈で提供される。開示された実施形態に対する様々な修正は、当業者には容易に明らかであり、本明細書で定義された一般原理は、本開示の趣旨および範囲から逸脱することなく、他の実施形態および用途に適用され得る。したがって、本開示は、示される実施形態に限定されず、特許請求の範囲と一致する最も広い範囲が与えられるべきである。
本明細書で使用される用語は、特定の例示的な実施形態を説明することのみを目的としており、限定することを意図していない。本明細書で使用される場合、単数形「a」、「an」、および「the」は、文脈がそうでないことを明確に示さない限り、複数形も含むことが意図され得る。本明細書で使用される場合、「備える(comprise,comprises,comprising)」、「含む(include,includes,including)」という用語は、述べられた特徴、整数、ステップ、オペレーション、要素、および/またはコンポーネントの存在を指定するが、1つまたは複数の他の特徴、整数、ステップ、オペレーション、要素、コンポーネント、および/またはそれらのグループの存在または追加を排除するものではないことがさらに理解されよう。
本開示のこれらのおよび他の特徴や特性、ならびにオペレーションの方法および構造の関連要素の機能および部品の組み合わせおよび製造の経済性は、添付の図面を参照して以下の説明を検討すると、より明らかになる場合があり、これらの図面はすべて、本開示の一部を形成する。ただし、図面は例示および説明のみを目的としており、本開示の範囲を限定することを意図していないことを明確に理解されたい。図面は縮尺通りではないことが理解される。
本開示で使用されるフローチャートは、本開示のいくつかの実施形態に従ってシステムが実施するオペレーションを示す。フローチャートのオペレーションは順不同で実装されてもよいことは明確に理解されるべきである。逆に、オペレーションは逆の順序で、または同時に実装されてもよい。さらに、フローチャートに1つまたは複数の他のオペレーションが追加されてもよい。フローチャートから1つまたは複数のオペレーションが削除されてもよい。
さらに、本開示のシステムおよび方法は、主に瞬き動作識別に関して説明されているが、これは単なる1つの例示的な実施形態であることも理解されたい。本開示のシステムおよび方法は、任意の他の種類の動作認識に適用され得る。例えば、本開示のシステムおよび方法は、眼の動き、振る動作、うなずく動作、頭を上げる動作、口を開く動作など、またはそれらの任意の組み合わせを含む他の動作認識に適用され得る。動作認識システムは、システムログイン、身元認証、ヒューマンコンピュータインタラクション(HCI)など、多くのアプリケーションシナリオに適用され得る。本開示のシステムおよび方法の適用は、限定されないが、ウェブページ、ブラウザのプラグイン、クライアント端末、カスタムシステム、内部分析システム、人工知能ロボットなど、またはそれらの任意の組み合わせを含み得る。
本開示における「対象」、「人間」、または「ユーザ」という用語は、同じ意味で使用され、その動作が識別されるべき生体を指す。また、本開示における「画像フレーム」、「画像」、「候補画像フレーム」、および「ターゲット画像フレーム」という用語は、カメラデバイスによってキャプチャされたビデオデータまたは画像内のフレームを指すために使用される。本開示における「カメラ」、「カメラデバイス」、および「キャプチャデバイス」という用語は、ビデオデータまたは画像データをキャプチャすることができるデバイスを指すために互換的に使用され得る。
本開示の一態様は、瞬き動作の存在を識別するためのシステムおよび方法に関する。瞬き動作中、顔オブジェクトの眼の内部領域に関連付けられた面積は動的に変化し、それに応じて、瞬き動作中に動作パラメータ(例えば、眼の2つの端点間の距離に対する面積の比率)が変化する。システムおよび方法は、動作パラメータの変化に基づいて瞬き動作の存在を識別することができる。
例えば、システムおよび方法は、顔オブジェクトに関連付けられた複数の連続する候補画像フレームを取得することができる。複数の連続する候補画像フレームのそれぞれは、眼の上瞼に関連付けられた1つまたは複数の第1の特徴点、眼の下瞼に関連付けられた1つまたは複数の第2の特徴点、眼の左端に関連付けられた第3の特徴点、および眼の右端に関連付けられた第4の特徴点を含むことができる。複数の連続する候補画像フレームのそれぞれについて、システムおよび方法は、1つまたは複数の第1の特徴点、1つまたは複数の第2の特徴点、第3の特徴点、および第4の特徴点に基づいて多角形の面積を決定し、第3の特徴点と第4の特徴点との間の距離を決定することができる。さらに、システムおよび方法は、多角形の面積および距離に基づいて、動作パラメータ(例えば、距離に対する多角形の面積の比)を決定することができる。したがって、システムおよび方法は、複数の連続する候補画像フレームに対応する動作パラメータに基づいて、瞬き動作の存在を識別することができる。
図1は、本開示のいくつかの実施形態による例示的な動作認識システムを示す概略図である。例えば、動作認識システム100は、顔オブジェクト(例えば、人間の顔160)の情報に基づく生体認識のためのオンライン動作認識プラットフォームであってもよい。
いくつかの実施形態では、動作認識システム100は、ヒューマンコンピュータインタラクション(HCI)、システムログイン、身元認証など、またはそれらの任意の組み合わせの様々なアプリケーションシナリオで使用され得る。HCIのアプリケーションシナリオでは、動作認識システム100は、動作の識別に応答して、ユーザによって定義されたオペレーションを実行するための命令を実行することができる。例えば、ユーザの顔情報を抽出し、ユーザの動作(例えば、瞬き動作)を識別した後、動作認識システム100は、電子書籍のページをめくる、ビデオチャット中のアニメーション効果を追加する、オペレーション(床のモップがけなど)を実行するためにロボットを制御する、サービス(タクシーを呼ぶサービスなど)を要求するなどの定義されたオペレーションを実行するための命令を実行することができる。システムログインのアプリケーションシナリオ(銀行システム、支払いシステム、オンライン検査システム、セキュリティおよび保護システムなど)で、ユーザの顔の情報を抽出し、ユーザの動作(瞬き動作など)を識別した後、動作認識システム100は、ログイン許可を決定し、ユーザに関連するユーザアカウントがシステムにログインすることを可能にすることができる。身元認証のアプリケーションシナリオでは、ユーザの顔情報を抽出し、ユーザの動作(瞬き動作など)を識別した後、動作認識システム100はユーザの身元を決定し、アカウント(端末デバイス、支払いアカウント、または会員アカウントなど)にアクセスするための許可、または制限された場所(会社、図書館、病院、またはアパートなど)に入るための許可を与えることができる。
いくつかの実施形態では、動作認識システム100は、サーバ110、ネットワーク120、カメラデバイス130、ユーザ端末140、およびストレージ150を含むオンラインプラットフォームであり得る。
サーバ110は、単一のサーバまたはサーバグループであってもよい。サーバグループは、集中型または分散型であってもよい(例えば、サーバ110は分散型システムであってもよい)。いくつかの実施形態では、サーバ110はローカルまたはリモートであってもよい。例えば、サーバ110は、ネットワーク120を介して、カメラデバイス130、ユーザ端末140、および/またはストレージ150に格納された情報および/またはデータにアクセスすることができる。別の例として、サーバ110は、カメラデバイス130、ユーザ端末140、および/またはストレージ150に直接接続されて、格納された情報および/またはデータにアクセスすることができる。いくつかの実施形態では、サーバ110は、クラウドプラットフォーム上に実装され得る。単なる例として、クラウドプラットフォームは、プライベートクラウド、パブリッククラウド、ハイブリッドクラウド、コミュニティクラウド、分散クラウド、インタークラウド、マルチクラウドなど、またはそれらの任意の組み合わせを含み得る。いくつかの実施形態では、サーバ110は、本開示の図2に示される1つまたは複数のコンポーネントを有するコンピューティングデバイス200上に実装され得る。
いくつかの実施形態では、サーバ110は、処理エンジン112を含み得る。処理エンジン112は、本開示で説明される1つまたは複数の機能を実行するために動作認識に関する情報および/またはデータを処理することができる。例えば、処理エンジン112は、顔オブジェクトを含む複数の連続する候補画像フレームに基づいて瞬き動作の存在を識別してもよい。いくつかの実施形態では、処理エンジン112は、1つまたは複数の処理エンジン(例えば、シングルコア処理エンジンまたはマルチコアプロセッサ)を含み得る。単なる例として、処理エンジン112は、中央処理ユニット(CPU)、特定用途向け集積回路(ASIC)、特定用途向け命令セットプロセッサ(ASIP)、グラフィックス処理ユニット(GPU)、物理処理ユニット(PPU)、デジタルシグナルプロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、プログラマブルロジックデバイス(PLD)、コントローラ、マイクロコントローラユニット、縮小命令セットコンピュータ(RISC)、マイクロプロセッサなど、またはそれらの任意の組み合わせの1つまたは複数のハードウェアプロセッサを含み得る。
いくつかの実施形態では、サーバ110は不必要であってもよく、サーバ110の機能のすべてまたは一部は、動作認識システム100の他のコンポーネント(例えば、カメラデバイス130、ユーザ端末140)によって実装されてもよい。例えば、処理エンジン112は、カメラデバイス130またはユーザ端末140に統合されてもよく、処理エンジン112の機能(例えば、顔オブジェクトに関連付けられた画像フレームに基づいて顔オブジェクトの動作の存在を識別する)は、カメラデバイス130またはユーザ端末140によって実装されてもよい。
ネットワーク120は、情報および/またはデータの交換を容易にすることができる。いくつかの実施形態では、動作認識システム100の1つまたは複数のコンポーネント(例えば、サーバ110、カメラデバイス130、ユーザ端末140、ストレージ150)は、ネットワーク120を介して、情報および/またはデータを動作認識システム100の他のコンポーネントと交換することができる。例えば、サーバ110は、ネットワーク120を介してカメラデバイス130から情報および/またはデータ(例えば、画像フレーム)を取得することができる。いくつかの実施形態では、ネットワーク120は、任意のタイプの有線または無線ネットワーク、あるいはそれらの組み合わせであってもよい。単なる例として、ネットワーク130は、ケーブルネットワーク、有線ネットワーク、光ファイバネットワーク、電気通信ネットワーク、イントラネット、インターネット、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ワイヤレスローカルエリアネットワーク(WLAN)、メトロポリタンエリアネットワーク(MAN)、公衆電話交換網(PSTN)、Bluetoothネットワーク、ZigBeeネットワーク、近距離無線通信(NFC)ネットワークなど、またはそれらの任意の組み合わせを含み得る。いくつかの実施形態では、ネットワーク120は、1つまたは複数のネットワークアクセスポイントを含み得る。例えば、ネットワーク120は、基地局および/またはインターネット交換ポイント120−1、120−2、…などの有線または無線ネットワークアクセスポイントを含んでもよく、それを介して動作認識システム100の1つまたは複数のコンポーネントが、データおよび/または情報を交換するためにネットワーク120に接続されてもよい。
カメラデバイス130は、顔オブジェクトを含む画像データまたはビデオデータをキャプチャすることができる。例えば、カメラデバイス130は、顔オブジェクトを含む複数の画像フレームを含むビデオをキャプチャすることができる。いくつかの実施形態では、カメラデバイス130は、白黒カメラ、カラーカメラ、赤外線カメラ、3Dカメラ、X線カメラなどを含み得る。いくつかの実施形態では、カメラデバイス130は、単眼カメラ、双眼カメラ、マルチカメラなどを含み得る。いくつかの実施形態では、カメラデバイス130は、カメラを含むか、またはカメラに接続されたスマートデバイスであってもよい。スマートデバイスは、スマートホームデバイス(例えば、スマート照明デバイス、スマートテレビ)、インテリジェントロボット(例えば、掃除ロボット、モップロボット、チャットロボット、産業ロボット)などを含み得る。いくつかの実施形態では、カメラデバイス130は監視カメラであってもよい。監視カメラは、ワイヤレスカラーカメラ、低照度対応カメラ、耐衝撃性防犯カメラ、ビュレットカメラ、ピンホールカメラ、隠しスパイカメラ、固定ボックスカメラなど、またはそれらの任意の組み合わせを含み得る。いくつかの実施形態では、カメラデバイス130は、ネットワーク120を介して、キャプチャされた画像データまたはビデオデータを動作認識システム100の任意のコンポーネント(例えば、サーバ110、ユーザ端末140、ストレージ150)に送信することができるIPカメラであってもよい。
いくつかの実施形態では、カメラデバイス130は、キャプチャされた画像フレームに基づいて、顔オブジェクトの動作の存在を独立して識別することができる。いくつかの実施形態では、カメラデバイス130は、キャプチャされた画像フレームをサーバ110またはユーザ端末140に送信して、さらに処理することができる。いくつかの実施形態では、カメラデバイス130は、キャプチャされた画像フレームをストレージ150に送信して格納することができる。いくつかの実施形態では、カメラデバイス130は、ユーザ端末140に統合され得る。カメラデバイス130は、ユーザ端末140の一部、例えば、携帯電話のカメラ、コンピュータのカメラなどであってもよい。
いくつかの実施形態では、ユーザ端末140は、モバイルデバイス、タブレットコンピュータ、ラップトップコンピュータなど、またはそれらの任意の組み合わせを含み得る。いくつかの実施形態では、モバイルデバイスは、ウェアラブルデバイス、スマートモバイルデバイス、仮想現実デバイス、拡張現実デバイスなど、またはそれらの任意の組み合わせを含み得る。いくつかの実施形態では、ウェアラブルデバイスは、スマートブレスレット、スマートフットギア、スマートメガネ、スマートヘルメット、スマートウォッチ、スマート衣類、スマートバックパック、スマートアクセサリなど、またはそれらの任意の組み合わせを含み得る。いくつかの実施形態では、スマートモバイルデバイスは、携帯電話、携帯情報端末(PDA)、ゲームデバイス、ナビゲーションデバイス、販売時点情報管理(POS)デバイスなど、またはそれらの任意の組み合わせを含み得る。いくつかの実施形態では、仮想現実デバイスおよび/または拡張現実デバイスは、仮想現実ヘルメット、仮想現実メガネ、仮想現実パッチ、拡張現実ヘルメット、拡張現実メガネ、拡張現実パッチなど、またはそれらの任意の組み合わせを含み得る。例えば、仮想現実デバイスおよび/または拡張現実デバイスは、Google Glass(商標)、RiftCon(商標)、Fragments(商標)、Gear VR(商標)などを含み得る。
いくつかの実施形態では、ユーザ端末140は、動作認識システム100の他のコンポーネント(例えば、サーバ110、カメラデバイス130、ユーザ端末140、ストレージ150)と直接またはネットワーク120を介して情報および/またはデータを交換することができる。例えば、ユーザ端末140は、カメラデバイス130またはストレージ150から画像フレームを取得して、画像フレームに基づいて顔オブジェクトの動作の存在を識別することができる。別の例として、ユーザ端末140は、サーバ110からメッセージ(例えば、認証)を受信することができる。
ストレージ150は、データおよび/または命令を格納することができる。いくつかの実施形態では、ストレージ150は、カメラデバイス130および/またはユーザ端末140から取得されたデータを格納することができる。いくつかの実施形態では、ストレージ150は、本開示で説明される例示的な方法を実行するためにサーバ110が実行または使用することができるデータおよび/または命令を格納することができる。いくつかの実施形態では、ストレージ150は、大容量ストレージ、取り外し可能ストレージ、揮発性読み書きメモリ、読み取り専用メモリ(ROM)など、またはそれらの任意の組み合わせを含み得る。例示的な大容量ストレージは、磁気ディスク、光ディスク、ソリッドステートドライブなどを含み得る。例示的なリムーバブルストレージは、フラッシュドライブ、フロッピーディスク、光ディスク、メモリカード、zipディスク、磁気テープなどを含み得る。例示的な揮発性読み書きメモリは、ランダムアクセスメモリ(RAM)を含み得る。例示的なRAMは、ダイナミックRAM(DRAM)、ダブルデータレート同期ダイナミックRAM(DDR SDRAM)、スタティックRAM(SRAM)、サイリスタRAM(T−RAM)、およびゼロキャパシタRAM(Z−RAM)などを含み得る。例示的なROMは、マスクROM(MROM)、プログラム可能ROM(PROM)、消去可能プログラム可能ROM(EPROM)、電気的消去可能プログラム可能ROM(EEPROM)、コンパクトディスクROM(CD−ROM)、およびデジタル多用途ディスクROMなどを含み得る。いくつかの実施形態では、ストレージ150は、クラウドプラットフォーム上で実施され得る。単なる例として、クラウドプラットフォームは、プライベートクラウド、パブリッククラウド、ハイブリッドクラウド、コミュニティクラウド、分散クラウド、インタークラウド、マルチクラウドなど、またはそれらの任意の組み合わせを含み得る。
いくつかの実施形態では、ストレージ150は、動作認識システム100の1つまたは複数のコンポーネント(例えば、サーバ110、カメラデバイス130、ユーザ端末140など)と通信するためにネットワーク120に接続され得る。動作認識システム100の1つまたは複数のコンポーネントは、ネットワーク120を介してストレージ150に格納されたデータまたは命令にアクセスすることができる。いくつかの実施形態では、ストレージ150は、動作認識システム100の1つまたは複数のコンポーネント(例えば、サーバ110、カメラデバイス130、ユーザ端末140など)に直接接続されるまたは通信することができる。いくつかの実施形態では、ストレージ150は、サーバ110の一部であってもよい。
いくつかの実施形態では、動作認識システム100の1つまたは複数のコンポーネント(例えば、サーバ110、カメラデバイス130、ユーザ端末140)は、ストレージ150にアクセスする許可を有することができる。例えば、ユーザ端末140は、ストレージ150からの情報/データ(例えば、顔オブジェクトを含む画像フレーム)にアクセスすることができる。
この説明は、例示を意図したものであり、本開示の範囲を限定することを意図したものではない。多くの代替案、修正、および変形が当業者には明らかであろう。本明細書で説明される例示的な実施形態の特徴、構造、方法、および他の特性は、追加のおよび/または代替の例示的な実施形態を取得するために様々な方法で組み合わせることができる。例えば、ストレージ150は、パブリッククラウド、プライベートクラウド、コミュニティ、およびハイブリッドクラウドなどのクラウドコンピューティングプラットフォームを含むデータストレージであってもよい。しかしながら、それらの変形および修正は、本開示の範囲から逸脱するものではない。
図2は、本開示のいくつかの実施形態による、コンピューティングデバイス200の例示的なハードウェアおよび/またはソフトウェアコンポーネントを示す概略図である。いくつかの実施形態では、サーバ110、カメラデバイス130、および/またはユーザ端末140は、コンピューティングデバイス200上で実装され得る。例えば、処理エンジン112は、コンピューティングデバイス200上に実装され、本開示で開示される処理エンジン112の機能を実行するように構成され得る。
コンピューティングデバイス200は、本明細書で説明されるような動作認識システム100の任意のコンポーネントを実装するために使用され得る。例えば、処理エンジン112は、そのハードウェア、ソフトウェアプログラム、ファームウェア、またはそれらの組み合わせを介して、コンピューティングデバイス200上に実装され得る。そのようなコンピュータは1つしか示されていないが、便宜上、本明細書で説明する動作認識に関連するコンピュータ機能は、処理負荷を分散するためにいくつかの類似のプラットフォーム上に分散して実装され得る。
コンピューティングデバイス200は、例えば、データ通信を容易にするために、それに接続されたネットワークにおよびネットワークから接続されたCOMポート250を含み得る。コンピューティングデバイス200はまた、プログラム命令を実行するための1つまたは複数のプロセッサ(例えば、論理回路)の形態のプロセッサ220を含み得る。例えば、プロセッサ220は、その中にインタフェース回路および処理回路を含み得る。インタフェース回路は、バス210から電子信号を受信するように構成され得、電子信号は、処理回路が処理するための構造化データおよび/または命令をエンコードする。処理回路は、論理計算を行い、その後、結論、結果、および/または電子信号としてエンコードされた命令を決定することができる。次に、インタフェース回路は、バス210を介して処理回路から電子信号を送出することができる。
コンピューティングデバイス200は、コンピューティングデバイスによって処理および/または送信される様々なデータファイルのための異なる形態のプログラムストレージおよびデータストレージ、例えば、ディスク270、および読み取り専用メモリ(ROM)230、またはランダムアクセスメモリ(RAM)240をさらに含み得る。例示的なコンピュータプラットフォームは、ROM230、RAM240、および/またはプロセッサ220によって実行される他のタイプの非一時的記憶媒体に格納されたプログラム命令を含むこともできる。本開示の方法および/またはプロセスは、プログラム命令として実装され得る。コンピューティングデバイス200はまた、コンピュータと他のコンポーネントとの間の入出力をサポートするI/Oコンポーネント260を含む。コンピューティングデバイス200はまた、ネットワーク通信を介してプログラミングおよびデータを受信し得る。
単に説明のために、図2には1つのプロセッサのみが記載されている。複数のプロセッサも企図され、したがって、本開示で説明するように1つのプロセッサによって実行されるオペレーションおよび/または方法ステップは、複数のプロセッサによって共同してまたは別々に実行されることもできる。例えば、本開示において、コンピューティングデバイス200のプロセッサがステップAおよびステップBの両方を実行する場合、ステップAおよびステップBはまた、コンピューティングデバイス200の2つの異なるCPUおよび/またはプロセッサによって共同してまたは別々に実行されてもよいことを理解されたい(例えば、第1のプロセッサがステップAを実行し、第2のプロセッサがステップBを実行するか、または第1および第2のプロセッサがステップAおよびBを共同して実行する)。
図3は、本開示のいくつかの実施形態による、カメラデバイス130、ユーザ端末140、またはカメラデバイス130もしくはユーザ端末140の一部が実装され得るモバイルデバイス300の例示的なハードウェアおよび/またはソフトウェアコンポーネントを示す概略図である。図3に示すように、モバイルデバイス300は、通信プラットフォーム310、ディスプレイ320、グラフィック処理ユニット(GPU)330、中央処理ユニット(CPU)340、I/O350、メモリ360、モバイルオペレーティングシステム(OS)370、およびストレージ390を含み得る。いくつかの実施形態では、システムバスまたはコントローラ(図示せず)を含むがこれらに限定されない他の任意の適切なコンポーネントも、モバイルデバイス300に含まれ得る。
いくつかの実施形態では、モバイルオペレーティングシステム370(例えば、iOS(商標)、Android(商標)、Windows Phone(商標)など)および1つまたは複数のアプリケーション380は、CPU340によって実行されるために、ストレージ390からメモリ360にロードされ得る。アプリケーション380は、動作認識システム100からの動作認識または他の情報に関する情報を受信およびレンダリングするためのブラウザまたは他の任意の適切なモバイルアプリを含み得る。情報ストリームとのユーザ対話は、I/O350を介して達成され、ネットワーク120を介して、動作認識システム100の処理エンジン112および/または他のコンポーネントに提供され得る。
本開示で説明する様々なモジュール、ユニット、およびそれらの機能を実装するために、コンピュータハードウェアプラットフォームを、本明細書で説明する要素の1つまたは複数のためのハードウェアプラットフォームとして使用することができる。ユーザインタフェース要素を備えたコンピュータは、パーソナルコンピュータ(PC)または他の任意のタイプのワークステーションまたは端末デバイスを実装するために使用され得る。コンピュータは、適切にプログラムされている場合、システムとしても機能し得る。
図4は、本開示のいくつかの実施形態による例示的な処理エンジンを示すブロック図である。処理エンジン112は、取得モジュール410、面積決定モジュール420、距離決定モジュール430、動作パラメータ決定モジュール440、および識別モジュール450を含み得る。
取得モジュール410は、顔オブジェクトを含む複数の連続する候補画像フレームを取得するように構成され得る。顔オブジェクトは、対象(例えば、人間、動物)の顔を指す場合がある。取得モジュール410は、カメラデバイス130、ユーザ端末140、または本開示の他の場所に開示されているストレージデバイス(例えば、ストレージ150)から複数の連続する候補画像フレームを取得することができる。
本明細書で使用される場合、「画像フレーム」は、ビデオのフレームを指す場合があり、「連続する」は、画像フレームがビデオのシーケンス(例えば、時間的シーケンス)に従って整列されることを指す場合がある。例えば、カメラデバイス130は、時系列でビデオをキャプチャし得る。ビデオは、複数のキャプチャ時点にそれぞれ対応する複数の画像フレームを含む。したがって、画像フレームは、キャプチャ時点に基づいて時系列に整列される。
いくつかの実施形態では、複数の候補画像フレームのそれぞれは、顔オブジェクトに関連付けられた複数の特徴点を含み得る。いくつかの実施形態では、図6−Aに示されるように、複数の特徴点は、眼の上瞼に関連付けられた1つまたは複数の第1の特徴点(例えば、点a1、…、点ai、…、および点an1)、眼の下瞼に関連付けられた1つまたは複数の第2の特徴点(例えば、点b1、…、点bi、…、および点bn2)、眼の左端に関連付けられた第3の特徴点(例えば、点c)、および眼の右端に関連付けられた第4の特徴点(例えば、点d)を含み得る。
面積決定モジュール420は、複数の連続する候補画像フレームの各々の1つまたは複数の第1の特徴点、1つまたは複数の第2の特徴点、第3の特徴点、および第4の特徴点に基づいて、多角形の面積を決定するように構成され得る。多角形の面積は、顔オブジェクトの眼の内部領域の面積を示す。
距離決定モジュール430は、複数の連続する候補画像フレームのそれぞれにおける第3の特徴点と第4の特徴点との間の距離を決定するように構成され得る。ここでの距離は眼の長さを示す。
動作パラメータ決定モジュール440は、複数の連続する候補画像フレームのそれぞれにおける多角形の面積および距離に基づいて動作パラメータを決定するように構成され得る。いくつかの実施形態では、動作パラメータは、多角形の面積と距離の比であってもよい。
識別モジュール450は、動作パラメータが1つまたは複数の事前設定された条件を満たすことに応答して、瞬き動作の存在を識別するように構成され得る。瞬き動作中、顔オブジェクトの眼の上瞼は、開始位置から中間位置まで下方向に移動し、その後、中間位置から終了位置まで上方向に移動し得ることが知られている。したがって、瞬き動作中に、眼の内部領域の面積(多角形の面積で表すことができる)は動的に変化する。したがって、動作パラメータは、瞬き動作中に動的に変化する。
処理エンジン112内のモジュールは、有線接続または無線接続を介して相互に接続されるまたは通信することができる。有線接続は、金属ケーブル、光ケーブル、ハイブリッドケーブルなど、またはそれらの任意の組み合わせを含み得る。無線接続は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ブルートゥース(登録商標)、ジグビー、近距離無線通信(NFC)など、またはそれらの任意の組み合わせを含み得る。2つ以上のモジュールを組み合わせて単一のモジュールにすることができ、モジュールのいずれか1つを2つ以上のユニットに分割することができる。例えば、面積決定モジュール420および距離決定モジュール430は、多角形の面積および眼の2つの端点間の距離の両方を決定することができる単一のモジュールとして組み合わせることができる。別の例として、処理エンジン112は、上述のモジュールによって生成されたデータを格納するために使用され得る記憶モジュール(図示せず)を含み得る。
図5は、本開示のいくつかの実施形態による、瞬き動作の存在を識別するための例示的なプロセスを示すフローチャートである。いくつかの実施形態では、プロセス500は、ストレージROM230またはRAM240に格納された命令のセット(例えば、アプリケーション)として実装され得る。図4のプロセッサ220および/またはモジュールは、命令のセットを実行し得、命令を実行すると、プロセッサ220および/またはモジュールは、プロセス500を実行するように構成され得る。以下に示す例示のプロセスのオペレーションは、例示を意図したものである。いくつかの実施形態では、プロセス500は、説明されていない1つまたは複数の追加のオペレーションを用いて、および/または本明細書で論じられる1つまたは複数のオペレーションなしで達成され得る。さらに、図5に示され、以下で説明されるプロセスのオペレーションの順序は、限定することを意図するものではない。
510において、処理エンジン112(例えば、取得モジュール410)(例えば、プロセッサ220のインタフェース回路)は、顔オブジェクトを含む複数の連続する候補画像フレームを取得することができる。顔オブジェクトは、対象(例えば、人間、動物)の顔を指す場合がある。処理エンジン112は、カメラデバイス130、ユーザ端末140、または本開示の他の場所に開示されているストレージデバイス(例えば、ストレージ150)から複数の連続する候補画像フレームを取得することができる。
本明細書で使用される場合、「画像フレーム」は、ビデオのフレームを指す場合があり、「連続する」は、画像フレームがビデオのシーケンス(例えば、時間的シーケンス)に従って整列されることを指す場合がある。例えば、カメラデバイス130は、時系列でビデオをキャプチャし得る。ビデオは、複数のキャプチャ時点にそれぞれ対応する複数の画像フレームを含む。したがって、画像フレームは、キャプチャ時点に基づいて時系列に整列される。
いくつかの実施形態では、複数の連続する候補画像フレームは、以下に示す順序付けられたセットとして表すことができる:
F=[F1,F2,Fi,...,Fm](1)
ここで、Fは順序付けられたセットを示し、Fiはi番目の候補画像フレームを示し、mは複数の候補画像フレームの計数を示す。順序付けられたセットでは、複数の連続する候補画像フレームは、複数の候補画像フレームのキャプチャ時点に基づいて時系列で順序付けられる。例えば、候補画像フレームF1は第1のキャプチャ時点に対応し、候補画像フレームF2は第2のキャプチャ時点に対応し、第2のキャプチャ時点は第1のキャプチャ時点よりも遅く、第1のキャプチャ時点と第2のキャプチャ時点との間の時間間隔は、カメラデバイス130のデフォルトパラメータであり得るか、または動作認識システム100によって設定され得る。例えば、カメラデバイス130は、毎秒24個の画像フレームをキャプチャすることができ、特定の実施形態では、隣接する候補画像フレーム間の間隔は、1/24秒であってもよく、これは、キャプチャされたすべての画像フレームが候補画像フレームとして使用されることを意味し、特定の他の実施形態では、隣接する候補画像フレーム間の間隔は、1/12秒であってもよく、これは、特定の(半分の)キャプチャされた画像フレームが候補画像フレームとして使用されるが、他はスキップされることを意味する。
いくつかの実施形態では、複数の候補画像フレームのそれぞれは、顔オブジェクトに関連付けられた複数の特徴点を含み得る。本明細書で使用される場合、「特徴点」は、顔に位置する点を指す場合があり、特定の実施形態では、特徴点は、顔上の点であり、測定可能かつ認識可能であり、例えば、眼の端の点、眉の点、鼻の点などである。いくつかの実施形態では、処理エンジン112は、顔認識プロセスに基づいて複数の特徴点を決定することができる。顔認識プロセスは、幾何学的特徴に基づくプロセス、局所顔分析プロセス、主コンポーネント分析プロセス、ディープラーニングベースのプロセスなど、またはそれらの任意の組み合わせを含み得る。
いくつかの実施形態では、図6−Aに示されるように、複数の特徴点は、眼の上瞼に関連付けられた1つまたは複数の第1の特徴点(例えば、点a1、…、点ai、…、および点an1)、眼の下瞼に関連付けられた1つまたは複数の第2の特徴点(例えば、点b1、…、点bi、…、および点bn2)、眼の左端に関連付けられた第3の特徴点(例えば、点c)、および眼の右端に関連付けられた第4の特徴点(例えば、点d)を含み得る。
520において、複数の連続する候補画像フレームのそれぞれについて、処理エンジン112(例えば、面積決定モジュール420)(例えば、プロセッサ220の処理回路)は、1つまたは複数の第1の特徴点、1つまたは複数の第2の特徴点、第3の特徴点、および第4の特徴点基づいて、多角形の面積を決定することができる。多角形の面積は、顔オブジェクトの眼の内部領域の面積を示す。いくつかの実施形態では、処理エンジン112は、複数の三角形面積(例えば、図7−Bに示される三角形面積T1、T2、…、Tq)に基づいて多角形の面積を決定することができる。多角形の面積の決定のさらなる説明は、本開示の他の場所(例えば、図7−Aおよびその説明)で見られ得る。
530において、処理エンジン112(例えば、距離決定モジュール430)(例えば、プロセッサ220の処理回路)は、複数の連続する候補画像フレームのそれぞれにおける第3の特徴点と第4の特徴点との間の距離を決定することができる。ここでの距離は眼の長さを示す。特定の顔オブジェクトの場合、距離は画像フレーム内で一定の値になり得る。
いくつかの実施形態では、処理エンジン112は、以下の式(2)に従って距離を決定することができる:
Figure 2021511606
ここで、Dは第3の特徴点と第4の特徴点との間の距離を示し、(x3,y3)は第3の特徴点の座標を示し、(x4,y4)は第4の特徴点の座標を示す。例示の目的で、本開示は、例として直交座標系をとるが、特徴点の座標は、任意の座標系(例えば、極座標系)で表すことができ、座標系の原点は、画像フレーム内の任意の点であり得る。
540において、処理エンジン112(例えば、動作パラメータ決定モジュール440)(例えば、プロセッサ220の処理回路)は、多角形の面積および複数の連続する候補画像フレームのそれぞれの距離に基づいて動作パラメータを決定することができる。いくつかの実施形態では、動作パラメータは、以下の式(3)に示されるように、距離に対する多角形の面積の比であってもよい:
Figure 2021511606
ここで、Aは動作パラメータを示し、Sは多角形の面積を示し、Dは第3の特徴点と第4の特徴点との間の距離を示す。
550において、処理エンジン112(例えば、識別モジュール450)(例えば、プロセッサ220の処理回路)は、動作パラメータが1つまたは複数の事前設定された条件を満たすことに応答して、瞬き動作の存在を識別することができる。瞬き動作中、顔オブジェクトの眼の上瞼は、開始位置から中間位置まで下方向に移動し、その後、中間位置から終了位置まで上方向に移動し得ることが知られている。したがって、瞬き動作中に、眼の内部領域の面積(多角形の面積で表すことができる)は動的に変化する。したがって、動作パラメータは、瞬き動作中に動的に変化する。
開始位置と終了位置の両方が、眼が完全に開いた状態で顔オブジェクトがカメラデバイス130の正面または実質的に正面を向いている時点に対応すると仮定すると、理想的な条件では、開始位置に対応する動作パラメータと終了位置に対応する動作パラメータは固定値であり、互いにほぼ等しい。瞬き動作中の中間位置は、眼の上瞼が下に移動するのを停止する(または上に戻り始める)停止位置であり得、これは、眼が完全に閉じた時点に対応し、動作パラメータがその時点で最小になる(理想的な条件では、中間位置に対応する動作パラメータは0である)。したがって、処理エンジン112は、開始位置に対応するかまたは実質的に対応する開始画像フレーム、終了位置に対応するかまたは実質的に対応する終了画像フレーム、および中間位置に対応するかまたは実質的に対応する中間画像フレームを含む複数の連続するターゲット画像フレームを識別することができ、開始画像フレーム、終了画像フレーム、および中間画像フレームの動作パラメータに基づいて、瞬き動作の存在を識別する。瞬き動作の識別のさらなる説明は、本開示の他の場所(例えば、図8〜図10およびその説明)で見られ得る。
なお、本明細書で使用される「実質的に対応する」とは、画像フレームがキャプチャされたキャプチャ時点と、その位置に対応する時点との時間間隔が、当業者が認識できる時間閾値未満であることを示す。カメラデバイス130は、フレームレート(デフォルトパラメータであり得る)に従って画像フレームをキャプチャする、すなわち、2つの隣接する画像フレームのキャプチャ時点は連続的ではない(すなわち、2つのキャプチャ時点の間に時間間隔がある)ことが知られている。したがって、「開始位置」を例にとると、開始画像フレームが厳密に開始位置の時点に対応しない場合があるが、開始画像フレームのキャプチャ時点は開始位置の時点に非常に近い時点であり得る。理想的な条件では、候補画像フレーム間の間隔は通常短いため、2つの時点は同じであると考えることができる。さらに、当業者にとって、瞬き動作は非常に速い動作であるため、中間位置に厳密に対応する画像フレームをキャプチャすることは困難である。本開示において、当業者は、「中間画像フレーム」とは、中間位置の時点に最も近いキャプチャ時点を有する画像フレームを示すことを理解するべきである。
いくつかの実施形態では、処理エンジン112は、瞬き動作の存在の識別に応答して、顔オブジェクトに対応するユーザに関連付けられた端末デバイス(例えば、ユーザ端末140)に認証をさらに提供することができる。認証を受けた後、ユーザは、端末デバイスへのアクセス許可を得ることができる。
上記の説明は単に例示の目的で提供されており、本開示の範囲を限定することを意図していないことに留意されたい。当業者であれば、本開示の教示の下で複数の変更または修正を行うことができる。しかしながら、それらの変形および修正は、本開示の範囲から逸脱するものではない。例えば、オペレーション530はオプションであってもよい。処理エンジン112は、本開示の他の場所で開示されるストレージデバイス(例えば、ストレージ150)または外部データソースから、基準距離(例えば、眼の2つの端点間の距離に関連する統計値)を取得し得る。別の例として、1つまたは複数の他のオプションのオペレーション(例えば、保存オペレーション)がプロセス500の他の場所に追加され得る。保存オペレーションにおいて、処理エンジン112は、本開示の他の場所で開示されているストレージデバイス(例えば、ストレージ150)において動作識別に関連する情報(例えば、複数の連続する候補画像フレーム、多角形の面積、距離、動作パラメータ)を保存し得る。
図6は、本開示のいくつかの実施形態による例示的な特徴点を示す概略図である。510に関連して説明したように、複数の候補画像フレームのそれぞれは、眼の上瞼に関連付けられた1つまたは複数の第1の特徴点、眼の下瞼に関連付けられた1つまたは複数の第2の特徴点、眼の左端に関連付けられた第3の特徴点、および眼の右端に関連付けられた第4の特徴点を含むことができる。
図示のように、1つまたは複数の第1の特徴点は上瞼の点a1、…、点ai、…、およびan1を含むことができ、1つまたは複数の第2の特徴点は下瞼の点b1、…、点bi、…、および点bn2を含むことができ、第3の特徴点は眼の左端の点cとすることができ、第4の特徴点は眼の右端の点dとすることができる。n1の値とn2の値は同じであっても互いに異なっていてもよい。
図7−Aは、本開示のいくつかの実施形態による、複数の三角形面積に基づいて多角形の面積を決定するための例示的なプロセスを示すフローチャートである。いくつかの実施形態では、プロセス700は、ストレージROM230またはRAM240に格納された命令のセット(例えば、アプリケーション)として実装され得る。図4のプロセッサ220および/またはモジュールは、命令のセットを実行し得、命令を実行すると、プロセッサ220および/またはモジュールは、プロセス700を実行するように構成され得る。以下に示す例示のプロセスのオペレーションは、例示を意図したものである。いくつかの実施形態では、プロセス700は、説明されていない1つまたは複数の追加のオペレーションを用いて、および/または本明細書で論じられる1つまたは複数のオペレーションなしで達成され得る。さらに、図7に示され、以下で説明されるプロセスのオペレーションの順序は、限定することを意図するものではない。いくつかの実施形態では、オペレーション520は、プロセス700に基づいて実行され得る。
710において、処理エンジン112(例えば、面積決定モジュール420)(例えば、プロセッサ220の処理回路)は、1つまたは複数の第1の特徴点、1つまたは複数の第2の特徴点、第3の特徴点、または第4の特徴点に少なくとも部分的に基づいて基準点を決定することができる。いくつかの実施形態では、基準点は、多角形の任意のエッジ上の任意の点であってもよい。例えば、基準点は、1つまたは複数の第1の特徴点、1つまたは複数の第2の特徴点、第3の特徴点、または第4の特徴点のうちの1つであってもよい。いくつかの実施形態では、基準点は、多角形内の任意の点であってもよい。例えば、基準点は、多角形の垂心、多角形の中心点などであってもよい。
多角形の垂心を例に取ると、処理エンジン112は、以下の式(4)に従って基準点を決定することができる:
Figure 2021511606
ここで、(xg,yg)は基準点の座標を示し、(xai,yai)はi番目の第1の特徴点の座標を示し、(xbi,ybi)はi番目の第2の特徴点の座標を示す。
720において、処理エンジン112(例えば、面積決定モジュール420)(例えば、プロセッサ220の処理回路)は、1つまたは複数の第1の特徴点、1つまたは複数の第2の特徴点、第3の特徴点、第4の特徴点、および基準点に基づいて複数の三角形面積を決定することができ、複数の三角形面積のそれぞれは、基準点と、1つまたは複数の第1の特徴点、1つまたは複数の第2の特徴点、第3の特徴点、および第4の特徴点の中の2つの隣接点に基づいて決定される。
図7−Bに示されるように、第1の三角形面積を例に取ると、以下の式(5)に従って、処理エンジン112は、点o(すなわち、基準点)、点a1(すなわち、最初の「第1の特徴点」)、および点d(すなわち、第4の特徴点)に基づいて第1の三角形面積を決定することができる:
T1=(xa1*y4+x4*yg+xg*ya1−xai*yg−x4*ya1−xg*y4)/2(5)
ここで、T1は第1の三角形面積を示し、(xa1,ya1)は最初の「第1の特徴点」の座標を示し、(x4,y4)は第4の特徴点の座標を示し、(xg,yg)は基準点の座標を示す。
730において、処理エンジン112(例えば、面積決定モジュール420)(例えば、プロセッサ220の処理回路)は、複数の三角形面積に基づいて多角形の面積を決定することができる。例えば、処理エンジン112は、以下の式(6)に従って多角形の面積を決定することができる:
S=T1+T2+・・・Ti+・・・+Tq(6)
ここで、Sは多角形の面積を示し、Tiはi番目の三角形面積を示し、qは複数の三角形面積の計数を示す。
多角形の面積を決定するための上記の例示的な実施形態は、例示の目的で提供されており、本開示の範囲を限定することを意図していないことに留意されたい。当業者は、多角形の面積を決定するための任意の方法が、本開示において適用され得ることを理解するべきである。例えば、処理エンジン112は、1つまたは複数の第1の特徴点、1つまたは複数の第2の特徴点、第3の特徴点、および第4の特徴点をフィッティングすることによって円または楕円を推定し、円または楕円の面積を多角形の面積として決定することができる。別の例として、処理エンジン112は、多角形を複数の四角形に分割し、複数の四角形の面積の合計を多角形の面積として決定することができる。
図7−Bは、本開示のいくつかの実施形態による、特徴点に基づいて決定された例示的な三角形面積を示す概略図である。図示のように、点oは基準点を示し、処理エンジン112は、点oおよび任意の2つの隣接する特徴点(例えば、点a1および点d、点dおよび点b1、点an1および点cなど)に基づいて複数の三角形面積(例えば、T1、T2、…、およびTq)を決定することができる。
上記の説明は、例示の目的で提供されており、本開示の範囲を限定することを意図していないことに留意されたい。当業者であれば、本開示の教示の下で複数の変更および修正を行うことができる。しかしながら、それらの変形および修正は、本開示の範囲から逸脱するものではない。
図8は、本開示のいくつかの実施形態による、瞬き動作の存在を識別するための例示的なプロセスを示すフローチャートである。いくつかの実施形態では、プロセス800は、ストレージROM230またはRAM240に格納された命令のセット(例えば、アプリケーション)として実装され得る。図4のプロセッサ220および/またはモジュールは、命令のセットを実行し得、命令を実行すると、プロセッサ220および/またはモジュールは、プロセス800を実行するように構成され得る。以下に示す例示のプロセスのオペレーションは、例示を意図したものである。いくつかの実施形態では、プロセス800は、説明されていない1つまたは複数の追加のオペレーションを用いて、および/または本明細書で論じられる1つまたは複数のオペレーションなしで達成され得る。さらに、図8に示され、以下で説明されるプロセスのオペレーションの順序は、限定することを意図するものではない。いくつかの実施形態では、オペレーション550は、プロセス800に基づいて実行され得る。
810において、処理エンジン112(例えば、識別モジュール450)(例えば、プロセッサ220の処理回路)は、複数の連続する候補画像フレームから複数の連続するターゲット画像フレームを識別することができる。550に関連して説明したように、複数の連続するターゲット画像フレームは、開始位置(すなわち、顔オブジェクトの眼の上瞼が下方向に移動し始める位置)に対応するかまたは実質的に対応する開始画像フレームと、終了位置(すなわち、顔オブジェクトの眼の上瞼が上方向に移動するのを停止する位置)に対応するかまたは実質的に対応する終了画像フレームと、中間位置(すなわち、顔オブジェクトの眼の上瞼が下に移動するのを停止する(または上に戻り始める)位置)に対応するかまたは実質的に対応する中間画像フレームと、を含む。
820において、処理エンジン112(例えば、識別モジュール450)(例えば、プロセッサ220の処理回路)は、複数の連続するターゲット画像フレームに対応する複数の動作パラメータに関連する最大動作パラメータを識別することができる。上述したように、最大動作パラメータは、開始画像フレームまたは終了画像フレームに対応する。
いくつかの実施形態では、処理エンジン112は、開始画像フレームに対応する動作パラメータ(「開始動作パラメータ」とも呼ばれる)および終了画像フレームに対応する動作パラメータ(「終了動作パラメータ」とも呼ばれる)に基づいて最大動作パラメータを決定することができる。例えば、処理エンジン112は、開始動作パラメータおよび終了動作パラメータの平均動作パラメータを最大動作パラメータとして決定することができる。
いくつかの実施形態では、図11に示されるように、開始画像フレームに対応するキャプチャ時点の前の期間内に、顔オブジェクトは、眼が完全に開いた状態でカメラデバイス130の正面または実質的に正面を向き続けてもよく、その間、動作パラメータはほとんど変化しないままであり(例えば、点1101から点1102まで)、終了画像フレームに対応するキャプチャ時点の後の期間内に、顔オブジェクトは、眼が完全に開いた状態でカメラデバイス130の正面または実質的に正面を向き続けてもよく、その間、動作パラメータもほとんど変化しないままであり(例えば、点1108から点1112まで)、したがって、処理エンジン112は、2つの期間にそれぞれ対応する2つの平均動作パラメータ(すなわち、図9と図10にそれぞれ記述されている第1の平均動作パラメータと第4の平均動作パラメータ)を決定し、2つの平均動作パラメータの平均値を最大動作パラメータとしてさらに決定することができる。
830において、処理エンジン112(例えば、識別モジュール450)(例えば、プロセッサ220の処理回路)は、複数の連続するターゲット画像フレームに対応する複数の動作パラメータから最小動作パラメータを識別することができる。上述したように、最小動作パラメータは中間画像フレームに対応する。
840において、処理エンジン112(例えば、識別モジュール450)(例えば、プロセッサ220の処理回路)は、最大動作パラメータおよび最小動作パラメータに基づいて非対称パラメータを決定することができる。非対称パラメータは、複数の連続するターゲット画像フレームに対応する動作パラメータの振幅を示すことができる。いくつかの実施形態では、処理エンジン112は、以下の式(7)に従って非対称パラメータを決定することができる:
Figure 2021511606
ここで、Asyは非対称パラメータを示し、Amaxは最大動作パラメータを示し、Aminは最小動作パラメータを示す。
850において、処理エンジン112(例えば、識別モジュール450)(例えば、プロセッサ220の処理回路)は、開始画像フレームから最小動作パラメータに対応するターゲット画像フレーム(すなわち、中間画像フレーム)までのターゲット画像フレームの第1の計数を決定することができる。
860において、処理エンジン112(例えば、識別モジュール450)(例えば、プロセッサ220の処理回路)は、最小動作パラメータに対応するターゲット画像フレーム(すなわち、中間画像フレーム)から終了画像フレームまでのターゲット画像フレームの第2の計数を決定することができる。
870において、処理エンジン112(例えば、識別モジュール450)(例えば、プロセッサ220の処理回路)は、非対称パラメータ、第1の計数、および第2の計数に基づいて、瞬き動作の存在を識別することができる。処理エンジン112は、非対称パラメータが非対称閾値よりも大きく、第1の計数が第1の計数閾値よりも大きく、第2の計数が第2の計数閾値よりも大きいことに応答して、瞬き動作の存在を識別することができる。
いくつかの実施形態では、非対称閾値は、動作認識システム100のデフォルト設定であってもよく、または異なる状況下で調整可能であってもよい。例えば、非対称閾値は、1.2〜3の範囲内の任意の値であり得る。
いくつかの実施形態では、第1の計数閾値および第2の計数閾値は、動作認識システム100のデフォルト設定であってもよい。例えば、第1の計数閾値または第2の計数閾値は、2〜10の範囲内の任意の値(例えば、4)であり得る。いくつかの実施形態では、第1の計数閾値および第2の計数閾値は、カメラデバイス130のフレームレートまたは隣接する画像フレーム間の間隔に従って調整可能であり得る。フレームレートは、単位時間あたり(例えば、秒毎)にカメラデバイス130によってキャプチャされたいくつかの画像フレームを示してもよい。いくつかの実施形態では、カメラデバイス130のより大きなフレームレートは、より大きな第1の計数閾値またはより大きな第2の計数閾値に対応し得る。いくつかの実施形態では、第1の計数閾値および第2の計数閾値は、同じであっても異なっていてもよい。
上記の説明は、例示の目的で提供されており、本開示の範囲を限定することを意図していないことに留意されたい。当業者であれば、本開示の教示の下で複数の変更および修正を行うことができる。しかしながら、それらの変形および修正は、本開示の範囲から逸脱するものではない。
図9は、本開示のいくつかの実施形態による、開始画像フレームを決定するための例示的なプロセスを示すフローチャートである。いくつかの実施形態では、プロセス900は、ストレージROM230またはRAM240に格納された命令のセット(例えば、アプリケーション)として実装され得る。図4のプロセッサ220および/またはモジュールは、命令のセットを実行し得、命令を実行すると、プロセッサ220および/またはモジュールは、プロセス900を実行するように構成され得る。以下に示す例示のプロセスのオペレーションは、例示を意図したものである。いくつかの実施形態では、プロセス900は、説明されていない1つまたは複数の追加のオペレーションを用いて、および/または本明細書で論じられる1つまたは複数のオペレーションなしで達成され得る。さらに、図9に示され、以下で説明されるプロセスのオペレーションの順序は、限定することを意図するものではない。いくつかの実施形態では、オペレーション810は、プロセス900に基づいて実行され得る。
910において、候補画像フレームについて、処理エンジン112(例えば、識別モジュール450)(例えば、プロセッサ220の処理回路)は、複数の連続する候補画像フレームのシーケンスに沿って、候補画像フレームの前の複数の事前画像フレームと候補画像フレームの後の複数の後続画像フレームを選択することができる。510に関連して説明したように、複数の連続する候補画像フレームは、キャプチャ時点に基づいて時系列で順序付けられる。したがって、ここでいう「シーケンス」とは時系列のことである。また、ここでいう「事前画像フレーム」とは、シーケンスに沿った候補画像フレームの直前の連続画像フレームを指し、「後続画像フレーム」とは、候補画像フレームの直後の連続画像フレームを指す。
i番目の候補画像フレームFiを例に取ると、i番目の候補画像フレームの前の複数の事前画像フレームは、以下の順序付けられたセットとして表すことができる:
P1=[Fi−x,...,Fi−2,Fi−1](i>1,x<i)(8)
ここで、P1は、複数の事前画像フレームを含む順序付けられたセットを示し、xは、複数の事前画像フレームの計数を示す。
また、i番目の候補画像フレームFiを例に取ると、i番目の候補画像フレームの後の複数の後続画像フレームは、以下の順序付けられたセットとして表すことができる:
N1=[Fi+1,Fi+2,...,Fi+y](i>1,y<m−1)(9)
ここで、N1は、複数の後続画像フレームを含む順序付けられたセットを示し、yは、複数の後続画像フレームの計数を示し、mは、複数の候補画像フレームの計数を示す。
920において、処理エンジン112(例えば、識別モジュール450)(例えば、プロセッサ220の処理回路)は、複数の事前画像フレームに対応する複数の第1の動作パラメータに基づいて第1の平均動作パラメータを決定することができる。例えば、処理エンジン112は、以下の式(10)に従って第1の平均動作パラメータを決定することができる:
Figure 2021511606
ここで、
Figure 2021511606
は第1の平均動作パラメータを示し、Ai−xは(i−x)番目の候補画像フレームに対応する第1の動作パラメータを示す。
930において、処理エンジン112(例えば、識別モジュール450)(例えば、プロセッサ220の処理回路)は、複数の後続画像フレームに対応する複数の第2の動作パラメータに基づいて第2の平均動作パラメータを決定することができる。例えば、処理エンジン112は、以下の式(11)に従って第2の平均動作を決定することができる:
Figure 2021511606
ここで、
Figure 2021511606
は第2の平均動作パラメータを示し、Ai+yは(i+y)番目の候補画像フレームに対応する第2の動作パラメータを示す。
940において、処理エンジン112(例えば、識別モジュール450)(例えば、プロセッサ220の処理回路)は、第2の平均動作パラメータが第1の平均動作パラメータよりも小さく、複数の第2の動作パラメータのそれぞれが候補画像フレームに対応する動作パラメータよりも小さいことに応答して、候補画像フレームを開始画像フレームとして識別することができる。
550に関連して説明したように、開始画像フレーム(例えば、図11に示す点1102)は、完全に眼が完全に開いた状態で顔オブジェクトがカメラデバイス130の正面または実質的に正面を向いている開始位置に対応するかまたは実質的に対応する。開始画像フレームに対応するキャプチャ時点の前の期間内に、顔オブジェクトは、眼が完全に開いた状態でカメラデバイス130の正面または実質的に正面を向き続けることができ、その間、動作パラメータはほとんど変化しない(例えば、図11に示す点1101から点1102まで)。続いて、顔オブジェクトの眼の上瞼は、開始位置から下方向に移動し、その間、動作パラメータは徐々に減少する(例えば、図11に示す点1102から点1104まで)。したがって、開始画像フレームについて、複数の後続画像フレームの第2の平均動作パラメータは、複数の事前画像フレームの第1の平均動作パラメータより小さく、後続画像フレームに対応する複数の第2の動作パラメータのそれぞれは、開始画像フレームの動作パラメータより小さい。
上記の説明は、例示の目的で提供されており、本開示の範囲を限定することを意図していないことに留意されたい。当業者であれば、本開示の教示の下で複数の変更および修正を行うことができる。しかしながら、それらの変形および修正は、本開示の範囲から逸脱するものではない。
図10は、本開示のいくつかの実施形態による、終了画像フレームを決定するための例示的なプロセスを示すフローチャートである。いくつかの実施形態では、プロセス1000は、ストレージROM230またはRAM240に格納された命令のセット(例えば、アプリケーション)として実装され得る。図4のプロセッサ220および/またはモジュールは、命令のセットを実行し得、命令を実行すると、プロセッサ220および/またはモジュールは、プロセス1000を実行するように構成され得る。以下に示す例示のプロセスのオペレーションは、例示を意図したものである。いくつかの実施形態では、プロセス1000は、説明されていない1つまたは複数の追加のオペレーションを用いて、および/または本明細書で論じられる1つまたは複数のオペレーションなしで達成され得る。さらに、図10に示され、以下で説明されるプロセスのオペレーションの順序は、限定することを意図するものではない。いくつかの実施形態では、オペレーション810は、プロセス1000に基づいて実行され得る。
1010において、開始画像フレームの後の候補画像フレームについて、処理エンジン112(例えば、識別モジュール450)(例えば、プロセッサ220の処理回路)は、複数の連続する候補画像フレームのシーケンスに沿って、候補画像フレームの前の複数の事前画像フレームと候補画像フレームの後の複数の後続画像フレームを選択することができる。910に関連して説明したように、「事前画像フレーム」とは、シーケンスに沿った候補画像フレームの直前の連続画像フレームを指し、「後続画像フレーム」とは、候補画像フレームの直後の連続画像フレームを指す。
(開始画像フレームがFiであると仮定して)開始画像フレームの後のj番目の候補画像フレームFjを例に取ると、j番目の候補画像フレームの前の複数の事前画像フレームは、以下の順序付けられたセットとして表すことができる:
P2=[Fj−e,...,Fj−2,Fj−1]((j−e)>i)(12)
ここで、P2は、複数の事前画像フレームを含む順序付けられたセットを示し、eは、複数の事前画像フレームの計数を示す。
また、j番目の候補画像フレームFjを例に取ると、j番目の候補画像フレームの後の複数の後続画像フレームは、以下の順序付けられたセットとして表すことができる:
N2=[Fj+1,Fj+2,...,Fj+f]((j+f)≦m)(13)
ここで、N2は、複数の後続画像フレームを含む順序付けられたセットを示し、fは、複数の後続画像フレームの計数を示す。
1020において、処理エンジン112(例えば、識別モジュール450)(例えば、プロセッサ220の処理回路)は、複数の事前画像フレームに対応する複数の第3の動作パラメータに基づいて第3の平均動作パラメータを決定することができる。例えば、処理エンジン112は、以下の式(14)に従って第3の平均動作パラメータを決定することができる:
Figure 2021511606
ここで、
Figure 2021511606
は第3の平均動作パラメータを示し、Aj−eは(j−e)番目の候補画像フレームに対応する第3の動作パラメータを示す。
1030において、処理エンジン112(例えば、識別モジュール450)(例えば、プロセッサ220の処理回路)は、複数の後続画像フレームに対応する複数の第4の動作パラメータに基づいて第4の平均動作パラメータを決定することができる。例えば、処理エンジン112は、以下の式(15)に従って第4の平均動作パラメータを決定することができる:
Figure 2021511606
ここで、
Figure 2021511606
は第4の平均動作パラメータを示し、Aj+fは(j+f)番目の候補画像フレームに対応する第4の動作パラメータを示す。
1040において、処理エンジン112(例えば、識別モジュール450)(例えば、プロセッサ220の処理回路)は、第4の平均動作パラメータが第3の平均動作パラメータよりも大きく、複数の第3の動作パラメータのそれぞれが候補画像フレームに対応する動作パラメータ以下であり、候補画像フレームに隣接する後続画像フレームに対応する動作パラメータが、候補画像フレームに対応する動作パラメータ以上であり、第1の平均動作パラメータと第4の平均動作パラメータに関連付けられた比率が比率閾値未満であることに応答して、候補画像フレームを終了画像フレームとして識別することができる。
本明細書で使用される場合、第1の平均動作パラメータと第4の平均動作パラメータに関連付けられた比率は、以下の式(16)として表すことができる:
Figure 2021511606
ここで、Rは第1の平均動作パラメータと第4の平均動作パラメータに関連する比率を示し、
Figure 2021511606
は第1の平均動作パラメータを示し、
Figure 2021511606
は第4の平均動作パラメータを示す。
いくつかの実施形態では、比率閾値は、動作認識システム100のデフォルト設定であってもよく、または異なる状況下で調整可能であってもよい。例えば、比率閾値は、1.05〜1.2の範囲内の任意の値にすることができる。
550に関連して説明したように、終了画像フレーム(例えば、図11に示す点1108)は、顔オブジェクトの眼の上瞼が戻り、完全に眼が完全に開いた状態で顔オブジェクトがカメラデバイス130の正面または実質的に正面を向いている開始位置に対応するかまたは実質的に対応する。終了画像フレームに対応するキャプチャ時点の前の期間内に、眼の上瞼は上方向に移動し、その間、動作パラメータは徐々に増加し(例えば、図11に示す点1106から点1108まで)、終了画像フレームに対応するキャプチャ時点の後の期間内に、顔オブジェクトは、眼が完全に開いた状態でカメラデバイス130の正面または実質的に正面を向き続けることができ、その間、動作パラメータはほとんど変化しないままである(例えば、図11に示す点1108から点1112まで)。したがって、終了画像フレームの場合、複数の後続画像フレームの第4の平均動作パラメータは、複数の事前画像フレームの第3の平均動作パラメータよりも大きく、複数の第3の動作パラメータのそれぞれは、終了画像フレームに対応する動作パラメータ以下であり、終了画像フレームに隣接する後続画像フレーム(例えば、図11に示す点1109)に対応する動作パラメータは、終了画像フレームに対応する動作パラメータ以上である。
図11は、本開示のいくつかの実施形態による、動作パラメータの変動プロセスを示す例示的な曲線を示す概略図である。図11に示すように、横軸は「画像フレーム」を示し、縦軸は「動作パラメータ」を示す。
本開示の他の箇所で説明するように、処理エンジン112は、顔オブジェクトに関連付けられた複数の連続するターゲット画像フレームを識別し、複数の連続するターゲット画像フレームに基づいて瞬き動作の存在を識別することができる。いくつかの実施形態では、複数の連続するターゲット画像フレームは、開始画像フレームFi、終了画像フレームFj、および最小動作パラメータを有する中間画像フレームFmidを含む。図11に示すように、点1102は開始画像フレームに対応し、点1108は終了画像フレームに対応し、点1105は中間画像フレームに対応する。
瞬き動作中、本開示の他の箇所で説明するように、顔オブジェクトの眼の上瞼は、下方向に開始位置から中間位置に移動し、中間位置から終了位置に上方向に移動する。開始画像フレームは、眼が完全に開いた状態で顔オブジェクトがカメラデバイス130の正面または実質的に正面を向いている時点に対応する開始位置に対応または実質的に対応し得る。本明細書で使用される場合、「実質的に正面」とは、顔オブジェクトが向いている方向とカメラデバイス130を垂直に示す方向との間の角度が、当業者が認識できる閾値未満であることを示す。いくつかの実施形態では、開始画像フレームの動作パラメータは、動作認識システム100のデフォルト設定であり得るか、または異なる状況下で調整可能であり得る固定値である。
眼の上瞼が開始位置から下方向に移動すると、画像フレームでは、眼の内部領域に関連付けられた多角形の面積が徐々に減少し、それに応じて、例えば、点1102から点1105までの曲線のセクションに示されるように、眼の2つの端点間の距離に対する多角形の面積の比に関連する動作パラメータは徐々に減少する。
さらに、眼の上瞼は、眼が完全に閉じた時点に対応する、眼の上瞼が下に移動するのを停止する(または上に戻り始める)中間位置(例えば、点1105)に移動し、動作パラメータはその時点で最小である。
眼の上瞼が中間位置から上方向に移動すると、画像フレーム内で眼の内部領域に関連付けられた多角形の面積が徐々に増加する。したがって、例えば、点1105から点1108までの曲線のセクションに示すように、眼の2つの端点間の距離に対する多角形の面積の比に関連する動作パラメータは、徐々に増加する。
最後に、眼の上瞼は、開始位置と同じまたは実質的に同じ終了位置に移動する。本明細書で使用される場合、「実質的に同じ」とは、終了位置で顔オブジェクトが向いている方向と開始位置で顔オブジェクトが向いている方向との間の角度が、当業者が認識できる角度閾値未満であることを示す。
基本的な概念をこのように説明してきたが、この詳細な開示を読んだ後、前述の詳細な開示は例としてのみ提示されることを意図しており、限定的ではないことが当業者には明らかであろう。本明細書では明示的に述べられていないが、様々な変更、改良、および修正が行われる可能性があり、当業者を対象とする。これらの変更、改良、および修正は、本開示によって示唆されることが意図されており、本開示の例示的な実施形態の趣旨および範囲内にある。
さらに、本開示の実施形態を説明するために特定の用語が使用されている。例えば、「一実施形態」、「実施形態」、および/または「いくつかの実施形態」という用語は、実施形態に関連して説明される特定の特徴、構造または特性が本開示の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書の様々な部分における「実施形態」または「一実施形態」または「代替実施形態」への2つ以上の言及は、必ずしもすべてが同じ実施形態を指すとは限らないことを強調し、理解されたい。さらに、特定の特徴、構造、または特性は、本開示の1つまたは複数の実施形態において適切であるように組み合わせることができる。
さらに、当業者には理解されるように、本開示の態様は、新規かつ有用なプロセス、機械、製造、または物質の組成、またはそれらの新規かつ有用な改良を含む、いくつかの特許可能なクラスまたはコンテキストのいずれかで、本明細書において例示および説明され得る。したがって、本開示の態様は、完全にハードウェア、完全にソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、または本明細書で「ユニット」、「モジュール」、または「システム」と総称され得るソフトウェアおよびハードウェア実装の組み合わせで実装され得る。さらに、本開示の態様は、コンピュータ可読プログラムコードがその上に実現される1つまたは複数のコンピュータ可読媒体で実現されるコンピュータプログラム製品の形態をとることができる。
コンピュータ可読信号媒体は、例えば、ベースバンド内または搬送波の一部として、コンピュータ可読プログラムコードがその中に実現された伝搬データ信号を含み得る。そのような伝搬信号は、電磁、光学など、またはそれらの任意の適切な組み合わせを含む、様々な形態のいずれかをとることができる。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではなく、命令実行システム、装置、もしくはデバイスによって、またはそれらに関連して使用するためのプログラムを通信、伝播、または移送することができる任意のコンピュータ可読媒体とすることができる。コンピュータ可読信号媒体上で実現されたプログラムコードは、無線、有線、光ファイバケーブル、RFなど、またはそれらの任意の適切な組み合わせを含む、任意の適切な媒体を使用して送信され得る。
本開示の態様のオペレーションを実行するためのコンピュータプログラムコードは、Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Pythonなどのオブジェクト指向プログラミング言語、「C」プログラミング言語、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAPなどの従来の手続き型プログラミング言語、Python、Ruby、Groovyなどの動的プログラミング言語、またはその他のプログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組み合わせで書かれてもよい。プログラムコードは、完全にユーザのコンピュータで、一部はユーザのコンピュータで、スタンドアロンソフトウェアパッケージとして、一部はユーザのコンピュータおよび一部はリモートコンピュータで、または完全にリモートコンピュータまたはサーバで実行されてもよい。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、接続は、外部コンピュータに(例えば、インターネット経由でインターネットサービスプロバイダを使用して)、もしくはクラウドコンピューティング環境で作られてもよく、またはサービスとしてのソフトウェア(SaaS)などのサービスとして提供されてもよい。
さらに、処理要素もしくはシーケンスの列挙された順序、または数字、文字、もしくは他の指定の使用は、したがって、特許請求されたプロセスおよび方法を、請求項で指定され得る場合を除いて任意の順序に限定することを意図しない。上記の開示は、開示の様々な有用な実施形態であると現在考えられるものを様々な例を通して説明しているが、そのような詳細は単にその目的のためであり、添付の特許請求の範囲は開示された実施形態に限定されないが、反対に、開示された実施形態の趣旨および範囲内にある修正および同等の配置をカバーすることを意図していることを理解されたい。例えば、上記の様々なコンポーネントの実装はハードウェアデバイスで実現されてもよいが、ソフトウェアのみのソリューション、例えば既存のサーバもしくはモバイルデバイスへのインストールとして実装されてもよい。
同様に、本開示の実施形態の前述の説明では、様々な実施形態の1つまたは複数の理解を助ける開示を簡素化する目的で、様々な特徴が、単一の実施形態、図、またはその説明にまとめられている。しかしながら、この開示の方法は、特許請求される主題が各請求項で明示的に列挙されるよりも多くの特徴を必要とするという意図を反映するものとして解釈されるべきではない。むしろ、特許請求される主題は、前述の単一の開示された実施形態のすべての特徴より少ない場合がある。
100 動作認識システム
110 サーバ
112 処理エンジン
120 ネットワーク
130 カメラデバイス
140 ユーザ端末
150 ストレージ
160 人間の顔
200 コンピューティングデバイス
210 バス
220 プロセッサ
230 ROM
240 RAM
250 COMポート
260 I/Oコンポーネント
270 ディスク
300 モバイルデバイス
310 通信プラットフォーム
320 ディスプレイ
330 グラフィック処理ユニット(GPU)
340 中央処理ユニット(CPU)
350 I/O
360 メモリ
370 モバイルオペレーティングシステム(OS)
380 アプリケーション
390 ストレージ
410 取得モジュール
420 面積決定モジュール
430 距離決定モジュール
440 動作パラメータ決定モジュール
450 識別モジュール
500 プロセス
700 プロセス
800 プロセス
900 プロセス
1000 プロセス

Claims (33)

  1. 連続する画像から顔の動作の存在を自動識別するためのシステムであって、
    命令のセットを含む少なくとも1つの記憶媒体と、
    前記少なくとも1つの記憶媒体と通信する少なくとも1つのプロセッサであって、前記命令のセットを実行すると、前記少なくとも1つのプロセッサは、前記システムに、
    顔オブジェクトを含む複数の連続する候補画像フレームを取得させ、前記複数の候補画像フレームのそれぞれは、眼の上瞼に関連付けられた1つまたは複数の第1の特徴点、前記眼の下瞼に関連付けられた1つまたは複数の第2の特徴点、前記眼の左端に関連付けられた第3の特徴点、および前記眼の右端に関連付けられた第4の特徴点を含み、
    前記複数の連続する候補画像フレームのそれぞれについて、前記1つまたは複数の第1の特徴点、前記1つまたは複数の第2の特徴点、前記第3の特徴点、および前記第4の特徴点に基づいて、多角形の面積を決定させ、
    前記複数の連続する候補画像フレームのそれぞれにおいて前記第3の特徴点と前記第4の特徴点との間の距離を決定させ、
    前記複数の連続する候補画像フレームのそれぞれにおける前記面積および前記距離に基づいて動作パラメータを決定させ、
    前記動作パラメータが1つまたは複数の事前設定された条件を満たすことに応答して、瞬き動作の前記存在を識別させる、
    ように指示される、少なくとも1つのプロセッサとを備える、システム。
  2. 前記多角形の前記面積を決定するために、前記少なくとも1つのプロセッサが、前記システムにさらに、
    前記1つまたは複数の第1の特徴点、前記1つまたは複数の第2の特徴点、前記第3の特徴点、または前記第4の特徴点に少なくとも部分的に基づいて基準点を決定させ、
    前記1つまたは複数の第1の特徴点、前記1つまたは複数の第2の特徴点、前記第3の特徴点、前記第4の特徴点、および前記基準点に基づいて複数の三角形面積を決定させ、前記複数の三角形面積のそれぞれは、前記基準点と、前記1つまたは複数の第1の特徴点、前記1つまたは複数の第2の特徴点、前記第3の特徴点、および前記第4の特徴点の中の2つの隣接点に基づいて決定され、
    前記複数の三角形面積に基づいて前記多角形の前記面積を決定させる、ように指示される、請求項1に記載のシステム。
  3. 前記基準点が、
    (a)前記1つまたは複数の第1の特徴点、前記1つまたは複数の第2の特徴点、前記第3の特徴点、および前記第4の特徴点のうちの1つ、または
    (b)前記多角形の垂心または前記多角形の中心点、
    である、請求項2に記載のシステム。
  4. 前記動作パラメータが、前記多角形の前記面積と、前記第3の特徴点と前記第4の特徴点との間の前記距離との間の比率である、請求項1から3のいずれか一項に記載のシステム。
  5. 前記動作パラメータが前記1つまたは複数の事前設定された条件を満たすことに応答して前記瞬き動作の前記存在を識別するために、前記少なくとも1つのプロセッサが、前記システムにさらに、
    前記複数の連続する候補画像フレームから複数の連続するターゲット画像フレームを識別させ、前記複数の連続するターゲット画像フレームは開始画像フレームおよび終了画像フレームを含み、
    前記複数の連続するターゲット画像フレームに対応する複数の動作パラメータに関連付けられた最大動作パラメータを識別させ、
    前記複数の連続するターゲット画像フレームに対応する前記複数の動作パラメータから最小動作パラメータを識別させ、
    前記最大動作パラメータと前記最小動作パラメータに基づいて非対称パラメータを決定させ、
    前記開始画像フレームから前記最小動作パラメータに対応するターゲット画像フレームまでのターゲット画像フレームの第1の計数を決定させ、
    前記最小動作パラメータに対応する前記ターゲット画像フレームから前記終了画像フレームまでの画像フレームの第2の計数を決定させ、
    前記非対称パラメータが非対称閾値よりも大きく、前記第1の計数が第1の計数閾値よりも大きく、前記第2の計数が第2の計数閾値よりも大きいことに応答して、前記瞬き動作を識別させる、ように指示される、請求項1から4のいずれか一項に記載のシステム。
  6. 前記複数の連続するターゲット画像フレームの前記開始画像フレームを識別するために、前記少なくとも1つのプロセッサが、前記システムに、
    候補画像フレームについて、前記候補画像フレームの前の複数の事前画像フレームと、前記候補画像フレームの後の複数の後続画像フレームを、前記複数の連続する候補画像フレームのシーケンスに沿って選択させ、
    前記複数の事前画像フレームに対応する複数の第1の動作パラメータに基づいて第1の平均動作パラメータを決定させ、
    前記複数の後続画像フレームに対応する複数の第2の動作パラメータに基づいて第2の平均動作パラメータを決定させ、
    前記第2の平均動作パラメータが前記第1の平均動作パラメータよりも小さく、前記複数の第2の動作パラメータのそれぞれが前記候補画像フレームに対応する動作パラメータよりも小さいことに応答して、前記候補画像フレームを前記開始画像フレームとして識別させる、ように指示される、請求項5に記載のシステム。
  7. 前記複数の連続するターゲット画像フレームの前記終了画像フレームを識別するために、前記少なくとも1つのプロセッサが、前記システムにさらに、
    前記開始画像フレームの後の候補画像フレームについて、前記候補画像フレームの前の複数の事前画像フレームと、前記候補画像フレームの後の複数の後続画像フレームを、前記複数の連続する候補画像フレームの前記シーケンスに沿って選択させ、
    前記複数の事前画像フレームに対応する複数の第3の動作パラメータに基づいて第3の平均動作パラメータを決定させ、
    前記複数の後続画像フレームに対応する複数の第4の動作パラメータに基づいて第4の平均動作パラメータを決定させ、
    前記第4の平均動作パラメータが前記第3の平均動作パラメータよりも大きいことに応答して、前記候補画像フレームを前記終了画像フレームとして識別させ、前記複数の第3の動作パラメータのそれぞれは、前記候補画像フレームに対応する動作パラメータ以下であり、前記候補画像フレームに隣接する後続画像フレームに対応する動作パラメータは、前記候補画像フレームに対応する前記動作パラメータ以上であり、前記第1の平均動作パラメータと前記第4の平均動作パラメータに関連付けられた比率は、比率閾値未満である、ように指示される、請求項5に記載のシステム。
  8. 前記非対称閾値が1.6〜2である、請求項5に記載のシステム。
  9. 前記第1の計数閾値が4〜6である、または前記第2の計数閾値が4〜6である、請求項5に記載のシステム。
  10. 前記少なくとも1つのプロセッサが、前記システムにさらに、
    前記眼の瞬き動作の前記存在の前記識別に応答して、前記顔オブジェクトに対応するユーザに関連付けられた端末デバイスに認証を提供させるように指示される、請求項1から9のいずれか一項に記載のシステム。
  11. 前記複数の連続する候補画像フレームがそこから取得されるビデオデータを提供するように構成されたカメラをさらに備える、請求項1から10のいずれか一項に記載のシステム。
  12. 少なくとも1つのプロセッサ、少なくとも1つの記憶媒体、およびネットワークに接続された通信プラットフォームを有するコンピューティングデバイス上で実施される方法であって、前記方法は、
    顔オブジェクトを含む複数の連続する候補画像フレームを取得するステップであって、前記複数の候補画像フレームのそれぞれは、眼の上瞼に関連付けられた1つまたは複数の第1の特徴点、前記眼の下瞼に関連付けられた1つまたは複数の第2の特徴点、前記眼の左端に関連付けられた第3の特徴点、および前記眼の右端に関連付けられた第4の特徴点を含む、ステップと、
    前記複数の連続する候補画像フレームのそれぞれについて、前記1つまたは複数の第1の特徴点、前記1つまたは複数の第2の特徴点、前記第3の特徴点、および前記第4の特徴点に基づいて、多角形の面積を決定するステップと、
    前記複数の連続する候補画像フレームのそれぞれにおいて前記第3の特徴点と前記第4の特徴点との間の距離を決定するステップと、
    前記複数の連続する候補画像フレームのそれぞれにおける前記面積および前記距離に基づいて動作パラメータを決定するステップと、
    前記動作パラメータが1つまたは複数の事前設定された条件を満たすことに応答して、瞬き動作の前記存在を識別するステップとを含む、方法。
  13. 前記多角形の前記面積を決定する前記ステップが、
    前記1つまたは複数の第1の特徴点、前記1つまたは複数の第2の特徴点、前記第3の特徴点、または前記第4の特徴点に少なくとも部分的に基づいて基準点を決定するステップと、
    前記1つまたは複数の第1の特徴点、前記1つまたは複数の第2の特徴点、前記第3の特徴点、前記第4の特徴点、および前記基準点に基づいて複数の三角形面積を決定するステップであって、前記複数の三角形面積のそれぞれは、前記基準点と、前記1つまたは複数の第1の特徴点、前記1つまたは複数の第2の特徴点、前記第3の特徴点、および前記第4の特徴点の中の2つの隣接点に基づいて決定される、ステップと、
    前記複数の三角形面積に基づいて前記多角形の前記面積を決定するステップとを含む、請求項12に記載の方法。
  14. 前記基準点が、
    (a)前記1つまたは複数の第1の特徴点、前記1つまたは複数の第2の特徴点、前記第3の特徴点、および前記第4の特徴点のうちの1つ、または
    (b)前記多角形の垂心または前記多角形の中心点、である、請求項13に記載の方法。
  15. 前記動作パラメータが、前記多角形の前記面積と、前記第3の特徴点と前記第4の特徴点との間の前記距離との間の比率である、請求項12から14のいずれか一項に記載の方法。
  16. 前記動作パラメータが前記1つまたは複数の事前設定された条件を満たすことに応答して前記瞬き動作の前記存在を識別する前記ステップが、
    前記複数の連続する候補画像フレームから複数の連続するターゲット画像フレームを識別するステップであって、前記複数の連続するターゲット画像フレームは開始画像フレームおよび終了画像フレームを含む、ステップと、
    前記複数の連続するターゲット画像フレームに対応する複数の動作パラメータに関連付けられた最大動作パラメータを識別するステップと、
    前記複数の連続するターゲット画像フレームに対応する前記複数の動作パラメータから最小動作パラメータを識別するステップと、
    前記最大動作パラメータと前記最小動作パラメータに基づいて非対称パラメータを決定するステップと、
    前記開始画像フレームから前記最小動作パラメータに対応するターゲット画像フレームまでのターゲット画像フレームの第1の計数を決定するステップと、
    前記最小動作パラメータに対応する前記ターゲット画像フレームから前記終了画像フレームまでの画像フレームの第2の計数を決定するステップと、
    前記非対称パラメータが非対称閾値よりも大きく、前記第1の計数が第1の計数閾値よりも大きく、前記第2の計数が第2の計数閾値よりも大きいことに応答して、前記瞬き動作を識別するステップとを含む、請求項12から15のいずれか一項に記載の方法。
  17. 前記複数の連続するターゲット画像フレームの前記開始画像フレームを識別する前記ステップが、
    候補画像フレームについて、前記候補画像フレームの前の複数の事前画像フレームと、前記候補画像フレームの後の複数の後続画像フレームを、前記複数の連続する候補画像フレームのシーケンスに沿って選択するステップと、
    前記複数の事前画像フレームに対応する複数の第1の動作パラメータに基づいて第1の平均動作パラメータを決定するステップと、
    前記複数の後続画像フレームに対応する複数の第2の動作パラメータに基づいて第2の平均動作パラメータを決定するステップと、
    前記第2の平均動作パラメータが前記第1の平均動作パラメータよりも小さく、前記複数の第2の動作パラメータのそれぞれが前記候補画像フレームに対応する動作パラメータよりも小さいことに応答して、前記候補画像フレームを前記開始画像フレームとして識別するステップとを含む、請求項16に記載の方法。
  18. 前記複数の連続するターゲット画像フレームの前記終了画像フレームを識別する前記ステップが、
    前記開始画像フレームの後の候補画像フレームについて、前記候補画像フレームの前の複数の事前画像フレームと、前記候補画像フレームの後の複数の後続画像フレームを、前記複数の連続する候補画像フレームの前記シーケンスに沿って選択するステップと、
    前記複数の事前画像フレームに対応する複数の第3の動作パラメータに基づいて第3の平均動作パラメータを決定するステップと、
    前記複数の後続画像フレームに対応する複数の第4の動作パラメータに基づいて第4の平均動作パラメータを決定するステップと、
    前記第4の平均動作パラメータが前記第3の平均動作パラメータよりも大きいことに応答して、前記候補画像フレームを前記終了画像フレームとして識別するステップであって、前記複数の第3の動作パラメータのそれぞれは、前記候補画像フレームに対応する動作パラメータ以下であり、前記候補画像フレームに隣接する後続画像フレームに対応する動作パラメータは、前記候補画像フレームに対応する前記動作パラメータ以上であり、前記第1の平均動作パラメータと前記第4の平均動作パラメータに関連付けられた比率は、比率閾値未満である、ステップとを含む、請求項16に記載の方法。
  19. 前記非対称閾値が1.6〜2である、請求項16に記載の方法。
  20. 前記第1の計数閾値が4〜6である、または前記第2の計数閾値が4〜6である、請求項16に記載の方法。
  21. 前記方法が、
    前記瞬き動作の前記存在の前記識別に応答して、前記顔オブジェクトに対応するユーザに関連付けられた端末デバイスに認証を提供するステップをさらに含む、請求項12から20のいずれか一項に記載の方法。
  22. 前記方法が、
    カメラによって提供されたビデオデータから前記複数の連続する候補画像フレームを取得するステップをさらに含む、請求項12から21のいずれか一項に記載の方法。
  23. 少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに方法を実行するように指示する実行可能な命令を含む、非一時的なコンピュータ可読媒体であって、前記方法は、
    顔オブジェクトを含む複数の連続する候補画像フレームを取得するステップであって、前記複数の候補画像フレームのそれぞれは、眼の上瞼に関連付けられた1つまたは複数の第1の特徴点、前記眼の下瞼に関連付けられた1つまたは複数の第2の特徴点、前記眼の左端に関連付けられた第3の特徴点、および前記眼の右端に関連付けられた第4の特徴点を含む、ステップと、
    前記複数の連続する候補画像フレームのそれぞれについて、前記1つまたは複数の第1の特徴点、前記1つまたは複数の第2の特徴点、前記第3の特徴点、および前記第4の特徴点に基づいて、多角形の面積を決定するステップと、
    前記複数の連続する候補画像フレームのそれぞれにおいて前記第3の特徴点と前記第4の特徴点との間の距離を決定するステップと、
    前記複数の連続する候補画像フレームのそれぞれにおける前記面積および前記距離に基づいて動作パラメータを決定するステップと、
    前記動作パラメータが1つまたは複数の事前設定された条件を満たすことに応答して、瞬き動作の前記存在を識別するステップとを含む、非一時的なコンピュータ可読媒体。
  24. 前記多角形の前記面積を決定する前記ステップが、
    前記1つまたは複数の第1の特徴点、前記1つまたは複数の第2の特徴点、前記第3の特徴点、または前記第4の特徴点に少なくとも部分的に基づいて基準点を決定するステップと、
    前記1つまたは複数の第1の特徴点、前記1つまたは複数の第2の特徴点、前記第3の特徴点、前記第4の特徴点、および前記基準点に基づいて複数の三角形面積を決定するステップであって、前記複数の三角形面積のそれぞれは、前記基準点と、前記1つまたは複数の第1の特徴点、前記1つまたは複数の第2の特徴点、前記第3の特徴点、および前記第4の特徴点の中の2つの隣接点に基づいて決定される、ステップと、
    前記複数の三角形面積に基づいて前記多角形の前記面積を決定するステップとを含む、請求項23に記載の非一時的なコンピュータ可読媒体。
  25. 前記基準点が、
    (a)前記1つまたは複数の第1の特徴点、前記1つまたは複数の第2の特徴点、前記第3の特徴点、および前記第4の特徴点のうちの1つ、または
    (b)前記多角形の垂心または前記多角形の中心点、である、請求項24に記載の非一時的なコンピュータ可読媒体。
  26. 前記動作パラメータが、前記多角形の前記面積と、前記第3の特徴点と前記第4の特徴点との間の前記距離との間の比率である、請求項23から25のいずれか一項に記載の非一時的なコンピュータ可読媒体。
  27. 前記動作パラメータが前記1つまたは複数の事前設定された条件を満たすことに応答して前記瞬き動作の存在を識別する前記ステップが、
    前記複数の連続する候補画像フレームから複数の連続するターゲット画像フレームを識別するステップであって、前記複数の連続するターゲット画像フレームは開始画像フレームおよび終了画像フレームを含む、ステップと、
    前記複数の連続するターゲット画像フレームに対応する複数の動作パラメータに関連付けられた最大動作パラメータを識別するステップと、
    前記複数の連続するターゲット画像フレームに対応する前記複数の動作パラメータから最小動作パラメータを識別するステップと、
    前記最大動作パラメータと前記最小動作パラメータに基づいて非対称パラメータを決定するステップと、
    前記開始画像フレームから前記最小動作パラメータに対応するターゲット画像フレームまでのターゲット画像フレームの第1の計数を決定するステップと、
    前記最小動作パラメータに対応する前記ターゲット画像フレームから前記終了画像フレームまでの画像フレームの第2の計数を決定するステップと、
    前記非対称パラメータが非対称閾値よりも大きく、前記第1の計数が第1の計数閾値よりも大きく、前記第2の計数が第2の計数閾値よりも大きいことに応答して、前記瞬き動作を識別するステップとを含む、請求項23から26のいずれか一項に記載の非一時的なコンピュータ可読媒体。
  28. 前記複数の連続するターゲット画像フレームの前記開始画像フレームを識別する前記ステップが、
    候補画像フレームについて、前記候補画像フレームの前の複数の事前画像フレームと、前記候補画像フレームの後の複数の後続画像フレームを、前記複数の連続する候補画像フレームのシーケンスに沿って選択するステップと、
    前記複数の事前画像フレームに対応する複数の第1の動作パラメータに基づいて第1の平均動作パラメータを決定するステップと、
    前記複数の後続画像フレームに対応する複数の第2の動作パラメータに基づいて第2の平均動作パラメータを決定するステップと、
    前記第2の平均動作パラメータが前記第1の平均動作パラメータよりも小さく、前記複数の第2の動作パラメータのそれぞれが前記候補画像フレームに対応する動作パラメータよりも小さいことに応答して、前記候補画像フレームを前記開始画像フレームとして識別するステップとを含む、請求項27に記載の非一時的なコンピュータ可読媒体。
  29. 前記複数の連続するターゲット画像フレームの前記終了画像フレームを識別する前記ステップが、
    前記開始画像フレームの後の候補画像フレームについて、前記候補画像フレームの前の複数の事前画像フレームと、前記候補画像フレームの後の複数の後続画像フレームを、前記複数の連続する候補画像フレームの前記シーケンスに沿って選択するステップと、
    前記複数の事前画像フレームに対応する複数の第3の動作パラメータに基づいて第3の平均動作パラメータを決定するステップと、
    前記複数の後続画像フレームに対応する複数の第4の動作パラメータに基づいて第4の平均動作パラメータを決定するステップと、
    前記第4の平均動作パラメータが前記第3の平均動作パラメータよりも大きいことに応答して、前記候補画像フレームを前記終了画像フレームとして識別するステップであって、前記複数の第3の動作パラメータのそれぞれは、前記候補画像フレームに対応する動作パラメータ以下であり、前記候補画像フレームに隣接する後続画像フレームに対応する動作パラメータは、前記候補画像フレームに対応する前記動作パラメータ以上であり、前記第1の平均動作パラメータと前記第4の平均動作パラメータに関連付けられた比率は、比率閾値未満である、ステップとを含む、請求項27に記載の非一時的なコンピュータ可読媒体。
  30. 前記非対称閾値が1.6〜2である、請求項27に記載の非一時的なコンピュータ可読媒体。
  31. 前記第1の計数閾値が4〜6である、または前記第2の計数閾値が4〜6である、請求項27に記載の非一時的なコンピュータ可読媒体。
  32. 前記方法が、
    前記瞬き動作の前記存在の前記識別に応答して、前記顔オブジェクトに対応するユーザに関連付けられた端末デバイスに認証を提供するステップをさらに含む、請求項33から31のいずれか一項に記載の非一時的なコンピュータ可読媒体。
  33. 前記方法が、
    カメラによって提供されたビデオデータから前記複数の連続する候補画像フレームを取得するステップをさらに含む、請求項23から32のいずれか一項に記載の非一時的なコンピュータ可読媒体。
JP2020558665A 2018-04-25 2018-04-25 顔の特徴点に基づく瞬き動作認識のためのシステムおよび方法 Pending JP2021511606A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/084414 WO2019205007A1 (en) 2018-04-25 2018-04-25 Systems and methods for blink action recognition based on facial feature points

Publications (1)

Publication Number Publication Date
JP2021511606A true JP2021511606A (ja) 2021-05-06

Family

ID=68293687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020558665A Pending JP2021511606A (ja) 2018-04-25 2018-04-25 顔の特徴点に基づく瞬き動作認識のためのシステムおよび方法

Country Status (6)

Country Link
US (1) US10936867B2 (ja)
EP (1) EP3707643A4 (ja)
JP (1) JP2021511606A (ja)
CN (1) CN110799986B (ja)
AU (1) AU2018421183A1 (ja)
WO (1) WO2019205007A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883782B (zh) * 2021-01-12 2023-03-24 上海肯汀通讯科技有限公司 投放行为识别方法、装置、设备及存储介质
CN117687313A (zh) * 2023-12-29 2024-03-12 广东福临门世家智能家居有限公司 基于智能门锁的智能家居设备控制方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010179034A (ja) * 2009-02-09 2010-08-19 Denso Corp 眠気検出装置,プログラムおよび眠気検出方法
JP2012037934A (ja) * 2010-08-03 2012-02-23 Canon Inc 視線検出装置、視線検出方法及びプログラム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3695990B2 (ja) 1999-05-25 2005-09-14 三菱電機株式会社 顔画像処理装置
DE60330980D1 (de) 2002-10-15 2010-03-04 Volvo Technology Corp Verfahren für die auswertung der kopf- und augenaktivität einer person
JP4162503B2 (ja) 2003-01-31 2008-10-08 富士通株式会社 眼の状態判定装置、眼の状態判定方法及びコンピュータプログラム
US7331671B2 (en) * 2004-03-29 2008-02-19 Delphi Technologies, Inc. Eye tracking method based on correlation and detected eye movement
US20060174094A1 (en) 2005-02-02 2006-08-03 Bryan Lloyd Systems and methods for providing complementary operands to an ALU
US7676063B2 (en) 2005-03-22 2010-03-09 Microsoft Corp. System and method for eye-tracking and blink detection
JP4127296B2 (ja) 2006-06-09 2008-07-30 ソニー株式会社 撮像装置、および撮像装置制御方法、並びにコンピュータ・プログラム
JP4309928B2 (ja) 2007-03-15 2009-08-05 アイシン精機株式会社 瞼検出装置、瞼検出方法、及び、プログラム
CN100462047C (zh) * 2007-03-21 2009-02-18 汤一平 基于全方位计算机视觉的安全驾驶辅助装置
JP4898532B2 (ja) * 2007-04-13 2012-03-14 富士フイルム株式会社 画像処理装置および撮影システム並びに瞬き状態検出方法、瞬き状態検出プログラムおよびそのプログラムが記録された記録媒体
CN101030316B (zh) * 2007-04-17 2010-04-21 北京中星微电子有限公司 一种汽车安全驾驶监控系统和方法
JP2009003730A (ja) * 2007-06-22 2009-01-08 Nintendo Co Ltd 情報処理プログラムおよび情報処理装置
JP5055166B2 (ja) * 2008-02-29 2012-10-24 キヤノン株式会社 眼の開閉度判定装置、方法及びプログラム、撮像装置
JP5208711B2 (ja) 2008-12-17 2013-06-12 アイシン精機株式会社 眼開閉判別装置及びプログラム
CN102667861A (zh) * 2010-02-22 2012-09-12 丰田自动车株式会社 图像处理装置以及睡意判断装置
WO2013008303A1 (ja) * 2011-07-11 2013-01-17 トヨタ自動車株式会社 赤目検出装置
JP6007682B2 (ja) * 2012-08-31 2016-10-12 富士通株式会社 画像処理装置、画像処理方法及びプログラム
EP3074924A4 (en) * 2013-10-08 2017-11-22 Princeton Identity, Inc. Iris biometric recognition module and access control assembly
CN104751114B (zh) * 2013-12-27 2018-09-18 由田新技股份有限公司 通过眼部开闭状态控制的验证系统及其手持式控制装置
JP6387892B2 (ja) * 2015-04-18 2018-09-12 トヨタ自動車株式会社 眠気検知装置
WO2017034861A1 (en) * 2015-08-21 2017-03-02 Magic Leap, Inc. Eyelid shape estimation
KR102463169B1 (ko) * 2015-09-07 2022-11-04 삼성전자주식회사 시점 추적 방법 및 장치
US10176377B2 (en) * 2015-11-02 2019-01-08 Fotonation Limited Iris liveness detection for mobile devices
CN105286802B (zh) 2015-11-30 2019-05-14 华南理工大学 基于视频信息的驾驶员疲劳检测方法
CN106897659B (zh) 2015-12-18 2019-05-24 腾讯科技(深圳)有限公司 眨眼运动的识别方法和装置
CN107465885A (zh) * 2016-06-06 2017-12-12 中兴通讯股份有限公司 一种实现视频通讯的方法和装置
CN106446831B (zh) 2016-09-24 2021-06-25 江西欧迈斯微电子有限公司 一种人脸识别方法及装置
CN107092873A (zh) 2017-04-08 2017-08-25 闲客智能(深圳)科技有限公司 一种眼动方向识别方法及装置
CN107346422B (zh) * 2017-06-30 2020-09-08 成都大学 一种基于眨眼检测的活体人脸识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010179034A (ja) * 2009-02-09 2010-08-19 Denso Corp 眠気検出装置,プログラムおよび眠気検出方法
JP2012037934A (ja) * 2010-08-03 2012-02-23 Canon Inc 視線検出装置、視線検出方法及びプログラム

Also Published As

Publication number Publication date
CN110799986A (zh) 2020-02-14
CN110799986B (zh) 2020-09-18
US20200302150A1 (en) 2020-09-24
EP3707643A1 (en) 2020-09-16
US10936867B2 (en) 2021-03-02
EP3707643A4 (en) 2020-11-18
AU2018421183A1 (en) 2020-07-02
WO2019205007A1 (en) 2019-10-31

Similar Documents

Publication Publication Date Title
US11551482B2 (en) Facial recognition-based authentication
JP7151814B2 (ja) 情報処理装置、情報処理方法及びプログラム
US20210042548A1 (en) Living body detection method and apparatus, electronic device, storage medium, and related system to which living body detection method is applied
CN108447159B (zh) 人脸图像采集方法、装置和出入口管理系统
US10936867B2 (en) Systems and methods for blink action recognition based on facial feature points
US20160217565A1 (en) Health and Fitness Monitoring via Long-Term Temporal Analysis of Biometric Data
US10929984B2 (en) Systems and methods for shaking action recognition based on facial feature points
KR101820503B1 (ko) 얼굴 인식 추론 기반 서비스 시스템, 그의 얼굴 인식 추론 방법 및 기록 매체
CN110753931A (zh) 基于面部特征点的点头动作识别的系统和方法
CN115311723A (zh) 活体检测方法、装置及计算机可读存储介质
KR20160128275A (ko) 얼굴 인식 추론 기반 서비스 시스템, 그의 얼굴 인식 추론 방법 및 기록 매체
CN111033508B (zh) 一种识别身体运动的系统和方法
CN112330528A (zh) 虚拟试妆方法、装置、电子设备和可读存储介质
US11538283B1 (en) Detecting people wearing masks to prevent impersonation attacks
JP2012227830A (ja) 情報処理装置、その処理方法、プログラム及び撮像装置
US20230140578A1 (en) Systems and methods for managing access points authentication requirements
WO2022172430A1 (ja) 判定方法、判定プログラム、及び情報処理装置
CN116451195A (zh) 一种活体识别方法和系统
CN117392739A (zh) 多人同时虹膜识别的点名方法、系统、介质及设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200715

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210823

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220418