JP2021043960A - 顔解析のための画像正規化 - Google Patents

顔解析のための画像正規化 Download PDF

Info

Publication number
JP2021043960A
JP2021043960A JP2020133206A JP2020133206A JP2021043960A JP 2021043960 A JP2021043960 A JP 2021043960A JP 2020133206 A JP2020133206 A JP 2020133206A JP 2020133206 A JP2020133206 A JP 2020133206A JP 2021043960 A JP2021043960 A JP 2021043960A
Authority
JP
Japan
Prior art keywords
face
image
base
facial
feature set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020133206A
Other languages
English (en)
Other versions
JP7479031B2 (ja
Inventor
厚一郎 新沼
Atsuichiro Niinuma
厚一郎 新沼
エイ ジェニ・ラズロ
A Jeni Laszlo
エイ ジェニ・ラズロ
オナル エルトゥールル・イティル
Ertugrul Itir Onal
オナル エルトゥールル・イティル
エフ コーン・ジェフリー
F Cohn Jeffrey
エフ コーン・ジェフリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Carnegie Mellon University
Original Assignee
Fujitsu Ltd
Carnegie Mellon University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, Carnegie Mellon University filed Critical Fujitsu Ltd
Publication of JP2021043960A publication Critical patent/JP2021043960A/ja
Application granted granted Critical
Publication of JP7479031B2 publication Critical patent/JP7479031B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/72Data preparation, e.g. statistical preprocessing of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 顔解析のための画像正規化を提供する。【解決手段】 方法が、ベース顔画像を取得するステップと、ベース顔画像内の第1のベース顔特徴セットを取得するステップであり、第1のベース顔特徴セットは、解析顔画像において検出されるべき第1の顔AUに関連づけられる、ステップと、を含み得る。該方法は、ベース顔画像内の第2のベース顔特徴セットを取得するステップであり、第2の顔特徴セットは、検出されるべき第2の顔AUに関連づけられる、ステップをさらに含んでもよい。該方法は、解析顔画像を取得するステップと、第1のベース顔特徴セットを使用して解析顔画像に第1の画像正規化を適用して、第1の顔AUの確率の予測を容易にするステップと、を含んでもよい。該方法は、第2のベース顔特徴セットを使用して解析顔画像に第2の画像正規化を適用して、第2の顔AUの確率の予測を容易にするステップを含んでもよい。【選択図】 図1

Description

本開示の実施形態は、顔解析のための画像正規化に関する。
顔の解析は、個人を識別するため、あるいは顔の表情を識別するために用いられている。しかしながら、異なる顔の画像は異なる向き又は姿勢を有し、そのような画像の一貫した解析の提供を困難にしている。
本開示の1つ以上の実施形態が、ベース顔画像を取得するステップと、ベース顔画像内の第1のベース顔特徴セットを取得するステップと、を含む方法を含み得、第1のベース顔特徴セットは、解析顔画像において検出されるべき第1の顔動作単位(AU)に関連づけられるものとして選択され得る。当該方法は、ベース顔画像内の第2のベース顔特徴セットを取得するステップをさらに含んでもよく、第2のベース顔特徴セット内の少なくとも1つの顔特徴が、第1のベース顔特徴セット内のものと異なる。第2の顔特徴セットは、解析顔画像において検出されるべき第2の顔AUに関連づけられるものとして選択され得る。当該方法は、解析顔画像を取得するステップと、第1のベース顔特徴セットを使用して解析顔画像に第1の画像正規化を適用して、解析顔画像における第1の顔AUの確率の予測を容易にするステップと、をさらに含んでもよい。当該方法は、第2のベース顔特徴セットを使用して解析顔画像に第2の画像正規化を適用して、解析顔画像における第2の顔AUの確率の予測を容易にするステップをさらに含んでもよい。
実施形態の目的及び利点は、少なくとも特許請求の範囲において特に指し示された要素、特徴、及び組み合わせにより実現され、達成される。
前述の一般的な説明及び以下の詳細な説明の双方が単に例示であり、説明的であり、限定ではないことが理解されるべきである。
例示的な実施形態が、添付図面の使用を通してさらなる特定性及び詳細と共に記載され、説明される。
画像正規化及び顔解析の一例示的なフローを示す図である。 画像正規化及び顔解析の別の例示的なフローを示す別の図である。 顔画像の画像正規化の例示的な方法の一例示的なフローチャートを示す。 顔画像における顔動作単位(AU)の画像正規化及び予測の例示的な方法の一例示的なフローチャートを示す図である。 顔画像における顔動作単位(AU)の画像正規化及び予測の例示的な方法の一例示的なフローチャートを示す図である。 画像正規化の1つの手法の例示的な方法の一例示的なフローチャートを示す。 一例示的なコンピューティングシステムを示す。
本開示は、顔画像を解析し、解析される解析画像内にAUがあるか否かを予測することに関し、AUが存在する場合にはその強度(intensity)を予測することができる。解析画像間の一貫した解析を提供するために、解析画像は正規化され(normalized)得る。例えば、ベース画像内のベースの特徴セットが選択されてもよく、対応する特徴が、解析されるべき解析画像内で識別されてもよい。識別された特徴の位置を使用し、解析画像はスケーリング、転置、回転等されてもよく、それにより、解析画像はベース画像と整合する。いくつかの実施形態において、画像正規化は、解析画像においてどのAUが検出されているかに基づいて異なり得る。例えば、AU又はAUのセットに特有の異なる特徴がベース画像内で選択されてもよい。次いで、解析画像は、予測モデル、エンジン、又は他のツールを使用して解析され、解析画像内のAUの存在及び/又は強度の確率を検出又は予測することができる。
いくつかの状況において、本開示の実施形態は、本開示の教示を適用することにより、コンピュータの性能の改善を容易にし得る。例えば、専用の画像正規化を提供することにより、コンピュータにおけるコンピュータベースのAU識別が改善され得、それにより、より正確で一貫した解析が実行され得る。システムがより正確であるため、実行される必要がある検出の反復はより少なくなる可能性があり、結果として、コンピューティング処理のリソース及び時間が節約される。さらに、正確さの増大が改善そのものである。
1つ以上の例示的な実施形態が、添付の図面を参照して説明される。
図1は、本開示の1つ以上の実施形態による、画像正規化及び顔解析の一例示的なフロー100を示す図である。フロー100は、ベース画像110が、解析画像120(例えば、解析画像120a及び120b)における1つ以上のAUの予測を容易にするために使用される処理を示す。図6を参照して説明されるコンピューティングシステムなどのコンピューティングシステムが、フロー100を実施するタスクを実行してもよい。
図1に示すように、ベース画像110が取得され得る。ベース画像は、他の画像において再現可能に(reproducibly)識別され得る特徴を導出し、そのような他の画像の正規化を容易にするために使用され得る。例えば、ベース画像110を使用して、特徴115のベースセットを導出してもよい。特徴115は、目の中心、鼻の先端、口の角及び中心、並びに顔の輪郭など、顔の任意の位置118を含んでもよい。特徴115が複数画像にわたり使用されて、画像の一貫した正規化を容易にすることができる。ベース画像110は、中立表情で前向きの顔の画像を含んでもよい。本明細書で用いられるとき、中立表情は、顔画像のAUのうち過半数がA以下の強度を有するものとして特徴づけられ得る。いくつかの実施形態において、中立表情は、顔画像のAUのうち全て又はほぼ全て(例えば、1つを除く全て、2つを除く全て、3つを除く全て等)がA以下の強度を有するものとして具体的に識別されてもよい。いくつかの実施形態において、ベース画像110は、画像解析150を実行するエンティティ、エンジン、モデル等により予期されるサイズに再スケーリングされてもよい。
いくつかの実施形態において、特徴115のベースセットは、特徴115のベースセットとして使用されるべき種々の顔の目印の位置の検出及び/又は識別を容易にし得るサードパーティツール又はアプリケーションプログラミングインターフェース(API)を使用して取得されてもよい。
特徴115のベースセットを取得した後、1つ以上の解析画像120が取得され得、特徴115のベースセットに対応する特徴125が、解析画像120内のそれらの位置128で識別され得る。図1に示すように、特徴125は、解析画像120aの位置128a及び解析画像120bの位置128bにある。図から分かるように、画像は異なる視点からのものであるため、特徴125a及び125bは、それぞれ、異なる対応する位置128a及び128bを有する。
位置128a及び/又は128bに基づき、解析画像120に対して画像正規化が実行される。例えば、解析画像120は、正規化された位置にあるように回転、サイズ変更、移動等されて、様々な解析画像120にわたり一貫した解析を可能にすることができる。いくつかの実施形態において、そのような画像正規化は、ベース画像110及び/又は対応する特徴115のベースセットに対するプロクラステス解析変換(Procrustes analysis transformation)を含んでもよい。画像回転、サイズ変更等の一例を図5に示す。画像正規化130は、正規化された画像140(正規化画像140a及び140bなど)を生じ得る。プロクラステス解析変換が一例示的な正規化手法として使用されるが、種々の正規化手法のうち任意のものが使用されてよい。
解析画像120が正規化画像140に正規化された後、正規化画像140に対して画像解析150が実行され得る。例えば、1つ以上のAUの存在の可能性の予測が、画像解析150において正規化画像140に対して行われてもよい。これら及び他の実施形態において、AU4の確率の推定が、正規化画像140aに対して152aで、及び正規化画像152bに対して152bで実行されてもよい。これら及び他の実施形態において、予測は、AUの二元的な非存在又は存在を含んでもよい。さらに又は代わりに、AUの強度が予測の一部でもよく、例えば、A〜Eの間のランクなどであり、A‐微量(trace)、B‐軽度(slight)、C‐顕著(marked)/明白(pronounced)、D‐厳密(severe)又は極度(extreme)、及びE‐個人の最大値である(例えば、AU1を予測/検出するとき、その結果はAU1Bである可能性があり、AU1のわずかな存在を意味する)。AUの予測/検出に追加で、画像解析150は、顔検出、顔識別/認識など、任意の他の解析を含んでもよい。画像解析150は、解析画像120内のAUの確率を予測する任意のタイプの画像解析を含んでもよい。例えば、画像解析150は、種々のAUを識別するためにデータセットを使用して訓練される機械学習モデル、エンジン、コンポーネント、システム等を含んでもよい。別の例として、画像解析150は、サードパーティ解析ツールのAPIを含んでもよい。
画像解析150の結果は、ディスプレイに出力されてもよく、あるいはその他の方法でコンピューティングデバイスにおいて使用されてもよい。いくつかの実施形態において、出力は、本明細書の表1において識別されるAU0〜28を含む複数のAUの解析を含んでもよい。
解析画像120に対して顔解析を行うとき、解析画像120は、常にベース画像110と同じ向きではない。例えば、解析画像120は、上方かつ遠方を見ているか、又は解析画像120を捕捉するカメラからわずかに外れた向きである等の顔を含むことがある。さらに又は代わりに、解析画像120を捕捉するときに使用される撮像装置又は設定により、特定の歪みが引き起こされる可能性がある。特徴115を使用することにより、解析画像120は、ベース画像110と同様のサイズ及び/又は向きに正規化され、画像解析150における一貫した顔解析を容易にすることができる。
いくつかの実施形態において、特徴115のベースセットは、ベース画像110において手動で識別されてもよい。例えば、人間のオペレータが、特徴115のベースセットのための特徴として、ベース画像110内の特定の位置を物理的に選択してもよい。
いくつかの実施形態において、ベース画像110及び/又は特徴115のベースセットは、画像の訓練データセットから自動的に取得されてもよい。例えば、顔の特徴の位置は、訓練データセット内の画像にわたり平均化され(averaged)てもよい。平均位置に基づき、ベース画像110は、平均位置と最も近く整合した顔の特徴を有する画像、及び/又は平均位置の閾値(例えば、距離、パーセンテージ等)内の画像として選択されてもよい。目下識別されたベース画像110を使用し、ベース画像110内で特徴110のベースセットが識別されてもよい。例えば、特徴110のベースセットが、目の各々の中心に、鼻の先端に、口の角及び口の中心に、並びに顔の外周の周りに目印を含む場合、これらの特徴が、ベース画像110に基づいて取得されてもよい。
いくつかの実施形態において、特徴115のベースセットを自動的に識別するとき、訓練データセットが使用されてもよい。特徴として使用される顔の特徴は、訓練データセットにわたり平均化されてもよく、特徴の位置は、いずれかの特定の顔画像に基づくのでなく、平均化された位置に基づいてもよい。例えば、特徴の1つが目の中心にある場合、訓練データセットにわたる目の中心の平均位置が、訓練データセット内のいずれかの特定の画像に対応しないとしても、目印の位置として使用されてもよい。
いくつかの実施形態において、どの特徴を使用するかの選択は、顔画像においてどの動作単位(action unit、AU)が解析されているかに基づいてもよい。例えば、解析画像120内で検出される異なるAUに対して、異なる特徴セットが使用されてもよい。例えば、AU1の確率が解析画像120において予測されている場合、特徴は、額の近くの目及び前頭筋の周りで、より大量に配置されてもよい(例えば、特徴は、AU1の実行において動くことが予期される顔の領域の周りで、より高密度でもよい)。そうすることで、顔の動作が生じることが予期される場所の近くの変化を見分けるためのさらなる強調及び能力を提供することができる。さらに、動くことが予期される顔の部分又はその近くにより多くの特徴を配置することにより、これらの特徴の近くの歪みが、顔の他の領域と比較して低減され得る。いくつかの実施形態において、特徴は、複数AUにわたり維持されてもよく、解析されるAUに基づき、異なる特徴に対して異なる重みが適用されてもよい。例えば、解析画像120においてAU1の確率が予測されている場合、額の近くの目及び前頭筋の周りの特徴は、顎先の近くの特徴などの他の特徴より重く重み付けされてもよい。いくつかの実施形態において、特定の特徴に与えられるべき重みの識別は、AUが実行されるときの顔の特徴における変化のヒストグラム値をマッピングすることができる遮蔽感度マップ(occlusion sensitivity map)に基づいてもよく、重みは、より高いヒストグラム値に対してより高くてもよい。表1(下記)はいくつかのAUの例を提供し、対応する顔面動作符号化システム(Facial Action Coding System、FACS)名と、顔の動作を引き起こす筋肉群を有する。
Figure 2021043960

Figure 2021043960
本開示の範囲から逸脱することなく、フロー100に対して修正、追加、又は省略がなされてもよい。例えば、記載された方法における異なる要素の指定は、本明細書に記載される概念の説明を助けることを意図し、限定するものではない。さらに、フロー100は、任意数の他の要素を含んでもよく、あるいは記載されたもの以外のシステム又は文脈において実現されてもよい。例えば、任意数の解析画像120が解析されてもよい。別の例として、ベース画像110は、いずれの画像にも基づかない特徴115のベースセットを生じる画像のテストデータセットで置換されてもよい。
図2は、本開示の1つ以上の実施形態による、画像正規化及び顔解析の別の例示的なフロー200を示す別の図である。図1は、複数の画像にわたる画像解析を実行するためにベース特徴の単一のセットが使用され得るフローを示す。図2は、画像解析250を実行するために特徴215の複数のベースセットが使用され得るフロー200を示し、特徴215のベースセットは、予測されるAU(又はAUのセット)に特有であり得る。
フロー200が示すように、ベース画像210が取得され得る。ベース画像210は、図1のベース画像110と同様又は同等でもよい。例えば、ベース画像210は、ベース画像210の顔に中立表情を有して前向きでもよい。ベース画像210内で、ベース特徴215の少なくとも2つの区別可能なセットが識別され得る。例えば、位置218aにおける特徴215aのベースセットが、AU1に関連づけられてもよく、それ自体、顔の目の近くにさらなる特徴215aを有して、眉の上がりをより良好に測定してもよい。ベース特徴215のセットは、図1を参照して上述した方法と同様の方法で取得されてもよい。例えば、位置218aが、画像の訓練データセットにわたり平均化されてもよく、位置218bが、訓練データセットにわたり平均化されてもよく、ベース画像210は、位置218a及び218bの双方にわたり平均位置と最も近く整合した顔の特徴を有する画像として選択されてもよい。いくつかの実施形態において、位置218a及び/又は218bのサブセット(及び/又は、特徴215の他のセット)が、ベース画像210を自動的に識別することに使用されてもよい。特徴215aの位置218aを自動的に識別する別の例として、特徴218aの平均位置は、特定の画像をベース画像210として識別することなく、訓練データセットの画像全体にわたり平均化されてもよい。そのような識別は、特徴215のセットの各々について繰り返されてもよく、各々が個々に平均化され、独立して選択されてもよい。
フロー200に示されるように、特徴215a及び215bのベースセット(及び/又はベース特徴215の他のセット)を取得した後、解析画像220が取得され得る。特徴225aのセットが、解析画像220内で位置228aにおいて識別され得る。同様に、特徴225bのセットが、解析画像220内で位置228bにおいて識別され得る。
特徴225aに基づき、解析画像220は、画像正規化230aにおいて検出されるAU(例えば、AU1)に特有の方法で正規化され得、正規化された画像240aを生じる。例えば、解析画像は、位置228aにおける特徴225aと特徴215aを使用してプロクラステス解析変換を受けてもよい。同様に、解析画像220は、画像正規化230bにおいて検出されるAU(例えば、AU4)に特有の方法で正規化され得、正規化された画像240bを生じる。
正規化された後、正規化画像240aに対して画像解析250が実行され得る。例えば、画像解析250は、AU1が解析画像220内に存在する確率のAU1推定252aを実行してもよい。さらに又は代わりに、画像解析250は、AU1の強度‐0(254aとラベル付けされている)などの、AUの強度254を生じてもよい。同様に、画像解析250は、AU4が解析画像220内に存在する確率のAU4推定252bを実行してもよく、かつ/あるいはAU4の強度‐B(254bとラベル付けされている)を提供してもよい。
フロー200は2つの区別可能なAUについて例示されたが、解析される各AUについてベース特徴215の任意数の個別のセットが存在し得ることが理解される。さらに又は代わりに、AUのグループ化が、同じベース特徴215のセットを使用してもよい(例えば、口の動きに関連するAUが1つのベース特徴セットを使用してもよく、目と眉の動きが別個かつ区別可能なベース特徴セットを使用してもよい)。
本開示の範囲から逸脱することなく、フロー200に対して修正、追加、又は省略がなされてもよい。例えば、記載された方法における異なる要素の指定は、本明細書に記載される概念の説明を助けることを意図し、限定するものではない。さらに、フロー200は、任意数の他の要素を含んでもよく、あるいは記載されたもの以外のシステム又は文脈において実現されてもよい。例えば、任意数の解析画像220が解析されてもよい。別の例として、任意数のAUの存在が予測されてもよい。
図3は、本開示の1つ以上の実施形態による、顔画像の画像正規化の例示的な方法の一例示的なフローチャートを示す。方法300の1つ以上のオペレーションが、図6のコンピューティングデバイス600などのシステム若しくはデバイス又はこれらの組み合わせにより実行されてもよい。方法300は、フロー100及び/又は200などの本開示のフローのうち1つ以上の一例示的な実装であり得る。個別のブロックとして示されているが、方法300の種々のブロックが所望の実装に依存してさらなるブロックに分割されてもよく、より少ないブロックに組み合わせられてもよく、あるいは消去されてもよい。
ブロック305において、ベース顔画像が取得され得る。例えば、ベース顔画像は、ユーザ又は管理者により提供又は選択されてもよい。別の例として、顔の特徴の位置が訓練データセットの画像にわたり平均化されてもよく、平均位置に最も近い顔の特徴を有する画像がベース顔画像として使用されてもよい。ベース顔画像は、本開示に矛盾しない任意の方法で識別及び/又は取得されてもよい。
ブロック310において、ブロック305で取得されたベース顔画像から、ベース顔特徴のセットが取得され得る。例えば、目、眉、鼻、顎ライン、口唇、舌等のような重要な顔の特徴が、ベース顔特徴のセットにおける特徴の役割を果たしてもよい。いくつかの実施形態において、ベース顔特徴のセットは、(例えば、ブロック305に関して説明されたように)自動的に識別されてもよい。さらに又は代わりに、ユーザが、特徴のセット及び/又はベース画像を選択してもよい。いくつかの実施形態において、ベース顔特徴のセットは、顔画像において検出される種々のAUを実行することに使用される筋群に基づいて選択されてもよい。例えば、AU1が解析において検出されている場合、眉に関連づけられた特徴が含まれてもよい。顔の特徴のベースセットは、本開示に矛盾しない任意の方法で識別及び/又は取得されてもよい。
ブロック315において、解析画像nが取得され得る。例えば、画像が取得され、ブロック305からのベース顔画像及び/又はブロック310からの顔特徴のベースセットを使用して解析されてもよい。画像nは、顔を有する任意の画像を含んでもよく、これは、ベース画像の姿勢とは異なる姿勢などの、任意の方向に向けられた又は向いている顔を含み得る。いくつかの実施形態において、画像nは、画像解析を実行するために使用される機械学習システム又は他のシステムを訓練するための訓練データセットの一部として使用されてもよい。
ブロック320において、ベース顔特徴に基づいて解析画像nに画像正規化が適用され得る。例えば、画像nは、プロクラステス解析変換又は何らかの他の画像修正手法を使用して正規化されてもよく、その一例が図5を参照して説明される。これら及び他の実施形態において、画像正規化は、画像の回転、サイズ変更、転置、伸長、スキュー等をもたらしてもよい。ブロック320から進み、方法300は、顔の動作の検出を容易にするようモデルを訓練する場合にはブロック325に進み得、方法300は、画像に対して画像解析を行う場合にはブロック330に進み得る。
ブロック325において、正規化された解析画像nを使用してモデルが訓練され得る。例えば、機械学習システム又は他の訓練可能な解析システムが使用され、画像n(及び/又は他の画像)を解析して、種々のAUの存在及び/又は非存在を識別してもよい。いくつかの実施形態において、モデルを訓練するとき、画像nは、画像nにおいてどのAUが存在し又は非存在であるかの指標を含むことがあり、それにより、モデルは、特徴のどの向き及び/又は位置がAUの存在及び/又はAUの強度を示すかを習得し得る。さらに又は代わりに、画像nは、訓練データセット内の画像にどのAUが存在するかのいかなる指標も含まなくてもよい。訓練データセットにわたる特徴の位置の変動に基づき、相対的な差が、AUが存在するか否かの予測として投影されてもよい。例えば、訓練データセット内の画像の80%が、あるAUに関連づけられた特徴を互いの閾値距離内に含み、残りの20%が、互いから離れて広がっている場合、80%は、該AUの欠如に対応し、残りの20%は、該所与のAUに関して異なる強度値に対応するものとして分離されてもよい。さらに又は代わりに、データセットにわたりモデルを訓練することにより、AUの存在又は非存在は、異なる向きに基づいて決定されてもよく、これは、訓練データセットが、異なる顔の姿勢での(例えば、カメラを直接前方に見ているのでなく、横を見ている、下方かつ遠方を見ている)AUの存在/非存在を観測した可能性があるためである。画像nに基づいてモデルを訓練するブロック325の後、方法300はブロック335に進み得、それにより、訓練データセット内のさらなる画像が解析され、モデルに寄与し得る。
ブロック330において、正規化された画像n及びその中の特徴の位置に基づいて、解析画像n内の1つ以上のAUについて予測が行われ得る。例えば、正規化解析画像n内の特徴はブロック325で訓練されたモデルと比較され、モデルを使用して所与のAUの存在又は非存在を予測してもよい。さらに又は代わりに、正規化解析画像nは、特徴の位置に関わらず画像解析を実行されてもよい。AUの存在、非存在、及び/又は強度を予測する画像解析は、任意の予測/検出アプローチでもよい。解析画像nについてのAUの存在/非存在/強度を予測するブロック330の後、方法300はブロック335に進み得る。
ブロック335において、全ての解析画像が解析されているかどうかについて判定が行われ得る。例えば、モデルを訓練することに使用された訓練データセットの全ての画像が考慮されたかどうかについて判定が行われてもよい。別の例として、AUの存在/非存在/強度について解析されるべき全ての画像が考慮されたかどうかについて判定が行われてもよい。画像の全てが解析されたわけではない場合、方法300はブロック340に進み得、ブロック340ではnが1だけ増やされ、その後、方法300はブロック315に戻り、訓練及び/又は解析のための次の解析画像を取得する。画像の全てが解析された場合、方法300はブロック345に進み得、ブロック345で方法300は終了し得る。
本開示の範囲から逸脱することなく、方法300に対して修正、追加、又は省略がなされてもよい。例えば、方法300のオペレーションは異なる順序で実現されてもよい。さらに又は代わりに、2つ以上のオペレーションが同時に実行されてもよい。さらに、概説されるオペレーション及び動作は例として提供されており、オペレーション及び動作のいくつかが、開示される実施形態の本質を損なうことなく任意でもよく、より少ないオペレーション及び動作に組み合わせられてもよく、あるいはさらなるオペレーション及び動作に拡張されてもよい。
図4A及び図4Bは、本開示の1つ以上の実施形態による、顔画像における動作単位(AU)の画像正規化及びの予測の例示的な方法400の一例示的なフローチャートを示す。方法400の1つ以上のオペレーションが、図6のコンピューティングデバイス600などのシステム若しくはデバイス又はこれらの組み合わせにより実行されてもよい。方法400は、フロー100及び/又は200などの本開示のフローのうち1つ以上の一例示的な実装であり得る。個別のブロックとして示されているが、方法400の種々のブロックが所望の実装に依存してさらなるブロックに分割されてもよく、より少ないブロックに組み合わせられてもよく、あるいは消去されてもよい。
ブロック405において、ベース顔画像が取得され得る。ブロック405は、図3のブロック305と同様又は同等でもよい。
ブロック410において、第1のAUに関連づけられた第1のベース顔特徴セットが取得され得る。ブロック410は、図3のブロック310と同様又は同等でもよいが、ブロック410において、第1のベース顔特徴セットはAUに特有でもよい。例えば、第1のベース顔特徴セットは、AU内で動く顔の部分に近接してより多くの特徴を含んでもよい。
ブロック415において、第2のAUに関連づけられた第2のベース顔特徴セットが取得され得る。ブロック415は、ブロック410と同様又は同等でもよいが、第2のベース顔特徴セットは、第1のベース顔特徴セットと異なるAUと関連づけられ得る。したがって、第2のベース顔特徴セットは、第1のベース顔特徴セットと異なり得る。
ブロック420において、解析画像nが取得され得る。解析画像nは、画像解析に使用され得る。
ブロック425において、解析画像nが解析されて第1のAUの存在/非存在/強度を検出したかどうかの判定が行われ得る。そのような解析が実行されなかった場合、方法400はブロック435に進み得る。そのような解析が実行された場合、方法400はブロック430に進み得る。
ブロック430において、解析画像nが解析されて第2のAUの存在/非存在/強度を検出したかどうかの判定が行われ得る。そのような解析が実行されなかった場合、方法400はブロック445に進み得る。そのような解析が実行された場合、方法400はブロック455に進み得る。
ブロック435において、第1のベース顔特徴セットを使用して解析画像nに画像正規化が適用され得る。例えば、解析画像nは、変換で使用される点が第1のベース顔特徴セットであるプロクラステス解析変換を受けてもよい。これら及び他の実施形態において、ブロック435は、図3のブロック320と同様又は同等でもよいが、第1のベース顔特徴セットに基づき得る。
ブロック440において、第1のAUの確率が、ブロック435からの正規化された画像を使用して予測され得る。これら及び他の実施形態において、第1のAUの強度が予測に含まれてもよい。ブロック440は、図3のブロック330と同様又は同等でもよいが、第1のAUに特有であり得る。ブロック440の後、方法400はブロック425に戻り得る。
ブロック445において、第2のベース顔特徴セットを使用して解析画像nに画像正規化が適用され得る。ブロック445は、ブロック435と同様又は同等でもよいが、第2のベース顔特徴セットに基づき得る。ブロック445が異なるベース顔特徴セットに基づくため、ブロック445で生成される正規化画像は、ブロック435で生成される正規化画像と比較して向き、回転、スケーリング等が異なり得る。そのような差は、第1及び/又は第2のAUで使用される筋群の領域で、及び/又は該筋群に近接して強調され得る。
ブロック450において、第2のAUの確率が、ブロック445からの正規化された画像を使用して予測され得る。ブロック450は、ブロック440と同様又は同等でもよいが、第1のAUではなく第2のAUに特有であり得る。ブロック450の後、方法400はブロック425に戻り得る。
ブロック455において、全ての解析画像が解析されたかどうかの判定が行われ得る。例えば、解析されるべき全ての画像がブロック425〜450を通して解析され、第1のAU及び/又は第2のAUが画像内に存在する確率を予測したかどうかの判定が行われてもよい。解析画像の全てが解析されたわけではない場合、方法400は、nが1だけ増やされるブロック460に進み得、解析のための次の画像を取得するブロック420に戻り得る。解析画像の全てが解析された場合、方法400は、ブロック465に進んで終了し得る。
本開示の範囲から逸脱することなく、方法400に対して修正、追加、又は省略がなされてもよい。例えば、方法400のオペレーションは異なる順序で実現されてもよい。さらに又は代わりに、2つ以上のオペレーションが同時に実行されてもよい。さらに、概説されるオペレーション及び動作は例として提供されており、オペレーション及び動作のいくつかが、開示される実施形態の本質を損なうことなく任意でもよく、より少ないオペレーション及び動作に組み合わせられてもよく、あるいはさらなるオペレーション及び動作に拡張されてもよい。例えば、ブロック425〜450は、単に第1及び第2のAUではなく、AU0〜28などの任意数のAUに対して繰り返され/反復されてもよい。
図5は、本開示の1つ以上の実施形態による、画像正規化の1つの手法の例示的な方法500の一例示的なフローチャートを示す。方法500の1つ以上のオペレーションが、図6のコンピューティングデバイス600などのシステム若しくはデバイス又はこれらの組み合わせにより実行されてもよい。方法500は、図3のブロック320、図4Aの435、及び/又は図4Bの445などの画像正規化の一例示的な実装であり得る。個別のブロックとして示されているが、方法500の種々のブロックが所望の実装に依存してさらなるブロックに分割されてもよく、より少ないブロックに組み合わせられてもよく、あるいは消去されてもよい。
ブロック510において、解析画像が、ベース画像と同じサイズであるようにスケーリングされ得る。例えば、解析画像は、アスペクト比を維持してもよく、水平方向及び/又は垂直方向にベース画像と同じ画素数にスケーリングされてもよい。別の例として、解析画像は、解析画像内の顔の最大高さ及び/又は幅がベース画像内のものと同じであるようにスケーリングされてもよい。いくつかの実施形態において、ベース画像の特徴のベースセットと解析画像内の対応する特徴のセットが使用されてもよい。例えば、一般的な形状が形成されてもよく(例えば、楕円形又は円形)、あるいは、特徴の最大高さ又は幅がベース画像内で識別されてもよく、解析画像は、解析画像の顔における特徴が同じサイズの一般的な形状を形成し、又は同じ最大高さ/最大幅である等するように、スケーリングされてもよい。いくつかの実施形態において、ベース画像は、解析エンジン、モデル等により予期又は使用されるサイズに対応するようにサイズ設定されてもよい。
ブロック520において、解析画像は、ベース画像の重心及び解析画像の重心に基づいてベース画像と同じ位置であるように転置され(transposed)得る。例えば、数学的に説明すると、解析画像とベース画像がデカルト座標にある場合、特徴は、(x,y)点(例えば、(x,y)、(x,y)、...(x,y))にあり得、ベース画像の(x,y)点の平均(例えば、
Figure 2021043960
)が、原点(例えば、重心)として扱われてもよく、解析画像の(x,y)点の平均もまた、2つの原点が重なるように最初の画像を転置することにより原点(例えば、重心)として扱われてもよい。
ブロック530において、解析画像は、ベース画像と整合する(aligned)ように回転され得る。例えば、解析画像は、ベース画像内の特徴のベースセットと解析画像内の対応する特徴との間の二乗距離の合計を最小にするように原点(例えば、重心)に関して回転されてもよい。別の例として、解析画像は、最大数の対応する特徴の重なりを最大化するように回転されてもよい。さらなる例として、画像は、特定のAUについて選択された重要な特徴又は特徴のサブセットが双方の画像において重なるよう、又は特徴のサブセット間の二乗距離の合計を最小化するように回転されてもよい。そのような特徴の一例として、AU1が予測されている場合、回転は、額の眉近くの重要な特徴点、又は眉に沿いかつ額の上方の特徴点のセット等を整合させてもよい。
本開示の範囲から逸脱することなく、方法500に対して修正、追加、又は省略がなされてもよい。例えば、方法500のオペレーションは異なる順序で実現されてもよい(例えば、解析画像は、任意の順序でスケーリング、転置、又は回転されてもよい)。さらに又は代わりに、2つ以上のオペレーションが同時に実行されてもよい。さらに、概説されるオペレーション及び動作は例として提供されており、オペレーション及び動作のいくつかが、開示される実施形態の本質を損なうことなく任意でもよく、より少ないオペレーション及び動作に組み合わせられてもよく、あるいはさらなるオペレーション及び動作に拡張されてもよい。
図6は、本開示に記載される少なくとも1つの実施形態による、データセット内のバイアスの判定及び/又は視覚化を容易にする一例示的なコンピューティングシステム600を示す。コンピューティングシステム600は、プロセッサ610、メモリ620、データ記憶装置630、及び/又は通信ユニット640を含んでもよく、これらはすべて通信上結合されてもよい。図1及び図2のフロー100及び/又は200のいずれか又は全てが、コンピューティングシステム600と矛盾しないコンピューティングシステムにより実現されてもよい。さらに又は代わりに、図3〜図5の方法300、400、及び/又は500のオペレーションのうち任意のものが、コンピューティングシステム600と矛盾しないコンピューティングシステムにより実行されてもよい。例えば、コンピューティングシステム600は、顔画像を取得し、顔画像に対して画像正規化を実行し、顔画像におけるAUの確率を予測してもよい。
一般に、プロセッサ610は、種々のコンピュータハードウェア又はソフトウェアモジュールを含む、任意の適切な専用若しくは汎用コンピュータ、コンピューティングエンティティ、又は処理デバイスを含んでもよく、任意の適用可能なコンピュータ読取可能記憶媒体に記憶された命令を実行するように構成されてもよい。例えば、プロセッサ610は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラム命令を解釈及び/又は実行するよう及び/又はデータを処理するように構成された任意の他のデジタル若しくはアナログ回路を含んでもよい。
図6において単一のプロセッサとして示されているが、プロセッサ610は、本開示に記載の任意数のオペレーションを個々又は集合的に実行するように構成された、任意数のネットワーク又は物理位置にわたり分散された任意数のプロセッサを含んでもよい。いくつかの実施形態において、プロセッサ610は、メモリ620、データ記憶装置630、又はメモリ620及びデータ記憶装置630に記憶されたプログラム命令を解釈及び/又は実行し、かつ/あるいはデータを処理してもよい。いくつかの実施形態において、プロセッサ610は、データ記憶装置630からプログラム命令を取り出し、プログラム命令をメモリ620にロードしてもよい。
プログラム命令がメモリ620にロードされた後、プロセッサ610は、プログラム命令、例えば、図3〜図5の処理300、400、及び/又は500それぞれのうち任意のものを実行する命令などを実行することができる。例えば、プロセッサ610は、顔解析のために画像を正規化することに関する命令を取得してもよい。
メモリ620及びデータ記憶装置630は、記憶されたコンピュータ実行可能命令又はデータ構造を搬送し又は有するコンピュータ読取可能記憶媒体又は1つ以上のコンピュータ読取可能記憶媒体を含むことができる。そのようなコンピュータ読取可能記憶媒体は、プロセッサ610などの汎用又は専用コンピュータによりアクセスされ得る任意の利用可能な媒体でもよい。いくつかの実施形態において、コンピューティングシステム600は、メモリ620及びデータ記憶装置630のいずれかを含んでもよく、あるいは含まなくてもよい。
限定でなく例として、そのようなコンピュータ読取可能記憶媒体は、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、電気的消去可能プログラマブル読取専用メモリ(EEPROM)、コンパクトディスク読取専用メモリ(CD‐ROM)若しくは他の光ディスク記憶装置、磁気ディスク記憶装置若しくは他の磁気記憶デバイス、フラッシュメモリデバイス(例えば、ソリッドステートメモリデバイス)、又はコンピュータ実行可能命令又はデータ構造の形式で所望のプログラムコードを搬送又は記憶するために使用でき、かつ汎用又は専用コンピュータによりアクセスできる任意の他の記憶媒体を含む、非一時的なコンピュータ読取可能記憶媒体を含んでもよい。上記の組み合わせもまた、コンピュータ読取可能記憶媒体の範囲内に含まれてもよい。コンピュータ実行可能命令は、例えば、プロセッサ610に特定のオペレーション又はオペレーションのグループを実行させるように構成された命令及びデータを含んでもよい。
通信ユニット640は、ネットワークを介して情報を送信又は受信するように構成された任意のコンポーネント、デバイス、システム、又はこれらの組み合わせを含んでもよい。いくつかの実施形態において、通信ユニット640は、他の場所、同じ場所における他のデバイス、又はさらには同じシステム内の他のコンポーネントと通信してもよい。例えば、通信ユニット640は、モデム、ネットワークカード(無線又は有線)、光通信装置、赤外線通信装置、無線通信装置(アンテナなど)、及び/又はチップセット(Bluetooth(登録商標)装置、802.6装置(メトロポリタンエリアネットワーク(MAN)など)、WiFi装置、WiMax(登録商標)装置、セルラー通信設備等)などを含んでもよい。通信ユニット640は、ネットワーク及び/又は本開示に記載される任意の他のデバイス又はシステムとの間でデータが交換されることを可能にし得る。例えば、通信ユニット640は、システム600が、コンピューティングデバイス及び/又は他のネットワークなどの他のシステムと通信することを可能にし得る。
当業者は本開示を検討した後、本開示の範囲から逸脱することなくシステム600に対して修正、追加、又は省略がなされ得ることを認識し得る。例えば、システム600は、明示的に例示及び記載されたものより多くの又は少ないコンポーネントを含んでもよい。
前述の開示は、開示された正確な形式又は特定の分野の使用に本開示を限定することは意図されない。したがって、本明細書に明示的に記載されているか又は暗に示されているかにかかわらず、本開示に対する種々の代替実施形態及び/又は修正が本開示に照らして可能なことが企図される。このように本開示の実施形態を説明したが、本開示の範囲から逸脱することなく形式及び詳細において変更がなされ得ることが認識され得る。したがって、本開示は、特許請求の範囲によってのみ限定される。
いくつかの実施形態において、本明細書に記載される異なるコンポーネント、モジュール、エンジン、及びサービスが、コンピューティングシステム上で実行するオブジェクト又はプロセスとして(例えば、別個のスレッドとして)実現されてもよい。本明細書に記載されるシステム及びプロセスのいくつかは、一般に、(汎用ハードウェアに記憶され、及び/又は汎用ハードウェアにより実行される)ソフトウェアで実現されるものとして記載されるが、特定のハードウェア実装、又はソフトウェアと特定のハードウェア実装との組み合わせもまた可能であり、企図される。
本明細書において、特に別記の特許請求の範囲(例えば、別記の特許請求の範囲の本文)において用いられる用語は、一般に「開放的」な用語として意図されている(例えば、用語「含んでいる」は、「含んでいるがこれに限定されない」と解釈されるべきであり、用語「有する」は、「少なくとも有する」と解釈されるべきであり、用語「含む」は、「含むがこれに限定されない」と解釈されるべきである、等)。
さらに、特定数の導入された請求項記載が意図されている場合、そのような意図は請求項に明示的に記載され、そのような記載がない場合、そのような意図は存在しない。例えば、理解の助けとして、以下の別記の特許請求の範囲は、請求項記載を導入するために、導入フレーズ「少なくとも1つの」及び「1つ以上の」の使用を含むことがある。しかしながら、そのようなフレーズの使用は、不定冠詞「一の」(“a”又は“an”)による請求項記載の導入が、同じ請求項が導入フレーズ「1つ以上の」又は「少なくとも1つの」と「一の」などの不定冠詞とを含むときでも、そのような導入された請求項記載を含む任意の特定の請求項を1つのそのような記載のみ含む実施形態に限定することを暗に示すように見なされるべきではない(例えば、「一の」(“a”及び/又は“an”)は「少なくとも1つの」又は「1つ以上の」を意味するよう解釈されるべきである)。請求項記載を導入するために用いられる定冠詞の使用についても同様である。
さらに、特定数の導入された請求項記載が明示的に記載されている場合であっても、当業者は、そのような記載は少なくとも記載された数を意味するよう解釈されるべきであることを認識するであろう(例えば、他の修飾語を伴わない「2つの記載」というただそれだけの記載は、少なくとも2つの記載、又は2つ以上の記載を意味する)。さらに、「A、B、及びC等のうち少なくとも1つ」又は「A、B、及びC等のうち1つ以上」と類似の規定が用いられている例において、一般に、そのような構造は、A単独、B単独、C単独、A及びB共に、A及びC共に、B及びC共に、又はA、B、及びC共に等を含むことが意図される。例えば、用語「及び/又は」の使用は、このようにみなされることが意図される。
さらに、明細書においてか、特許請求の範囲においてか、又は図面においてかにかかわらず、2つ以上の代替的な用語を提示するいかなる分離的なワード又はフレーズも、用語のうち1つ、用語のうちいずれか、又は双方の用語を含む可能性を考慮するよう理解されるべきである。例えば、フレーズ「A又はB」は、「A」又は「B」又は「A及びB」の可能性を含むよう理解されるべきである。
しかしながら、そのようなフレーズの使用は、不定冠詞「一の」(“a”又は“an”)による請求項記載の導入が、同じ請求項が導入フレーズ「1つ以上の」又は「少なくとも1つの」と「一の」などの不定冠詞とを含むときでも、そのような導入された請求項記載を含む任意の特定の請求項を1つのそのような記載のみ含む実施形態に限定することを暗に示すように見なされるべきではない(例えば、「一の」(“a”及び/又は“an”)は「少なくとも1つの」又は「1つ以上の」を意味するよう解釈されるべきである)。請求項記載を導入するために用いられる定冠詞の使用についても同様である。
さらに、用語「第1」、「第2」、「第3」等の使用は、本明細書において必ずしも特定の順序を含意するために使用されるものではない。一般に、用語「第1」、「第2」、「第3」等は、異なる要素間で区別するために使用される。用語「第1」、「第2」、「第3」等が特定の順序を含意することの具体的な提示なしでは、これらの用語は特定の順序を含意するよう理解されるべきではない。
本明細書に記載される全ての例及び条件付き言語は、本発明及び発明者が当該技術分野を促進するために寄与した概念を理解する際に読者を助けるための教育的目的が意図され、このように具体的に記載された例及び条件に限定されないものとみなされるべきである。本開示の実施形態が詳細に説明されたが、本開示の主旨及び範囲から逸脱することなく種々の変更、置換、及び改変をこれに行えることを理解されたい。
開示された実施形態の前の説明は、当業者が本開示を製造又は使用することができるように提供される。これらの実施形態に対する種々の修正は、当業者には容易に明らかであり、本明細書で定義される一般的原理は、本開示の主旨又は範囲から逸脱することなく他の実施形態に適用され得る。したがって、本開示は、本明細書に示される実施形態に限定されることは意図されず、本明細書に開示された原理及び新規の特徴と矛盾しない最も広い範囲を与えられるべきである。
上記の実施形態につき以下の付記を残しておく。
(付記1)
ベース顔画像を取得するステップと、
前記ベース顔画像内の第1のベース顔特徴セットを取得するステップであり、前記第1のベース顔特徴セットは、解析顔画像において検出されるべき第1の顔動作単位(AU)に関連づけられるものとして選択される、ステップと、
前記ベース顔画像内の第2のベース顔特徴セットを取得するステップであり、前記第2のベース顔特徴セット内の少なくとも1つの顔特徴が前記第1のベース顔特徴セット内のものと異なり、前記第2のベース顔特徴セットは、前記解析顔画像において検出されるべき第2の顔AUに関連づけられるものとして選択される、ステップと、
前記解析顔画像を取得するステップと、
前記第1のベース顔特徴セットを使用して前記解析顔画像に第1の画像正規化を適用して、前記解析顔画像における前記第1の顔AUの確率の予測を容易にするステップと、
前記第2のベース顔特徴セットを使用して前記解析顔画像に第2の画像正規化を適用して、前記解析顔画像における前記第2の顔AUの確率の予測を容易にするステップと、
を含む方法。
(付記2)
前記第1の画像正規化を適用するステップは、前記第1のベース顔特徴セットを使用してプロクラステス解析変換を適用するステップを含む、付記1に記載の方法。
(付記3)
前記第1のベース顔特徴セットは、前記第1の顔AUの間に動く顔の領域に位置づけられるように選択される、付記1に記載の方法。
(付記4)
前記第1のベース顔特徴セットの密度が、前記第1の顔AUの間に動かない前記顔の領域より前記第1の顔AUの間に動く前記顔の領域においてより高密度であるように選択される、付記3に記載の方法。
(付記5)
前記第1のベース顔特徴セットは、前記第1の顔AUの間に動く顔特徴が前記第1の顔AUの間に動かない顔特徴より重く重み付けされるように、重み付けされる、付記1に記載の方法。
(付記6)
前記第1のベース顔特徴セットの重みは、遮蔽感度マップ、又は前記第1の顔AUに関連づけられた動きで使用される筋群のセット、のうち少なくとも1つに基づいて決定される、付記4に記載の方法。
(付記7)
複数の訓練顔画像に対してオペレーションを実行することにより顔解析エンジンを訓練するステップ、をさらに含み、前記オペレーションは、
前記第1のベース顔特徴セットを使用して前記第1の画像正規化を第1の訓練顔画像に適用して、前記第1の訓練顔画像における前記第1の顔AUを識別するように前記顔解析エンジンを訓練することと、
前記第2のベース顔特徴セットを使用して前記第2の画像正規化を第2の訓練顔画像に適用して、前記第2の訓練顔画像における前記第2の顔AUを識別するように前記顔解析エンジンを訓練することと、
を含む、付記1に記載の方法。
(付記8)
前記第1の画像正規化及び前記第2の画像正規化は、前記第1の画像正規化及び前記第2の画像正規化において前記第1のベース顔特徴セット及び前記第2のベース顔特徴セットをそれぞれ使用することを除き、同じである、付記1に記載の方法。
(付記9)
前記解析顔画像における前記第1の顔AU及び前記第2の顔AUのうち少なくとも1つの強度を推定するステップ、をさらに含む付記1に記載の方法。
(付記10)
前記ベース顔画像は、前向きの中立表情の顔画像を含む、付記1に記載の方法。
(付記11)
1つ以上のプロセッサにより実行されたときにオペレーションを実行するように構成された命令を含む非一時的コンピュータ読取可能媒体であって、前記オペレーションは、
正面顔を有するベース顔画像を取得することと、
前記ベース顔画像内の第1のベース顔特徴セットを取得することであり、前記第1のベース顔特徴セットは、解析顔画像において検出されるべき第1の顔動作単位(AU)に関連づけられるものとして選択される、ことと、
前記ベース顔画像内の第2のベース顔特徴セットを取得することであり、前記第2のベース顔特徴セット内の少なくとも1つの顔特徴が前記第1のベース顔特徴セット内のものと異なり、前記第2のベース顔特徴セットは、前記解析顔画像において検出されるべき第2の顔AUに関連づけられるものとして選択される、ことと
前記解析顔画像を取得することと、
前記第1のベース顔特徴セットを使用して前記解析顔画像に第1の画像正規化を適用して、前記解析顔画像における前記第1の顔AUの確率の予測を容易にすることと、
前記第2のベース顔特徴セットを使用して前記解析顔画像に第2の画像正規化を適用して、前記解析顔画像における前記第2の顔AUの確率の予測を容易にすることと、
を含む、コンピュータ読取可能媒体。
(付記12)
前記第1の画像正規化を適用することは、前記第1のベース顔特徴セットを使用してプロクラステス解析変換を適用することを含む、付記11に記載のコンピュータ読取可能媒体。
(付記13)
前記第1のベース顔特徴セットは、前記第1の顔AUの間に動く顔の領域に位置づけられるように選択される、付記11に記載のコンピュータ読取可能媒体。
(付記14)
前記第1のベース顔特徴セットの密度が、前記第1の顔AUの間に動かない前記顔の領域より前記第1の顔AUの間に動く前記顔の領域においてより高密度であるように選択される、付記13に記載のコンピュータ読取可能媒体。
(付記15)
前記第1のベース顔特徴セットは、前記第1の顔AUの間に動く顔特徴が前記第1の顔AUの間に動かない顔特徴より重く重み付けされるように、重み付けされる、付記11に記載のコンピュータ読取可能媒体。
(付記16)
前記第1のベース顔特徴セットの重みは、遮蔽感度マップ、又は前記第1の顔AUに関連づけられた動きで使用される筋群のセット、のうち少なくとも1つに基づいて決定される、付記15に記載のコンピュータ読取可能媒体。
(付記17)
前記オペレーションは、複数の訓練顔画像に対してオペレーションを実行することにより顔解析エンジンを訓練することをさらに含み、該オペレーションは、
前記第1のベース顔特徴セットを使用して前記第1の画像正規化を第1の訓練顔画像に適用して、前記第1の訓練顔画像における前記第1の顔AUを識別するように前記顔解析エンジンを訓練することと、
前記第2のベース顔特徴セットを使用して前記第2の画像正規化を第2の訓練顔画像に適用して、前記第2の訓練顔画像における前記第2の顔AUを識別するように前記顔解析エンジンを訓練することと、
を含む、付記11に記載のコンピュータ読取可能媒体。
(付記18)
前記第1の画像正規化及び前記第2の画像正規化は、前記第1の画像正規化及び前記第2の画像正規化において前記第1のベース顔特徴セット及び前記第2のベース顔特徴セットをそれぞれ使用することを除き、同じである、付記11に記載のコンピュータ読取可能媒体。
(付記19)
前記オペレーションは、前記解析顔画像における前記第1の顔AU及び前記第2の顔AUのうち少なくとも1つの強度を推定することをさらに含む、付記11に記載のコンピュータ読取可能媒体。
(付記20)
システムであって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサにより実行されたときに当該システムにオペレーションを実行させる命令を含む1つ以上の非一時的コンピュータ読取可能媒体と、を備え、
前記オペレーションは、
正面顔を有するベース顔画像を取得することと、
前記ベース顔画像内の第1のベース顔特徴セットを取得することであり、前記第1のベース顔特徴セットは、解析顔画像において検出されるべき第1の顔動作単位(AU)に関連づけられるものとして選択される、ことと、
前記ベース顔画像内の第2のベース顔特徴セットを取得することであり、前記第2のベース顔特徴セット内の少なくとも1つの顔特徴が前記第1のベース顔特徴セット内のものと異なり、前記第2のベース顔特徴セットは、前記解析顔画像において検出されるべき第2の顔AUに関連づけられるものとして選択される、ことと
前記解析顔画像を取得することと、
前記第1のベース顔特徴セットを使用して前記解析顔画像に第1の画像正規化を適用して、前記解析顔画像における前記第1の顔AUの確率の予測を容易にすることと、
前記第2のベース顔特徴セットを使用して前記解析顔画像に第2の画像正規化を適用して、前記解析顔画像における前記第2の顔AUの確率の予測を容易にすることと、
を含む、システム。

Claims (10)

  1. ベース顔画像を取得するステップと、
    前記ベース顔画像内の第1のベース顔特徴セットを取得するステップであり、前記第1のベース顔特徴セットは、解析顔画像において検出されるべき第1の顔動作単位(AU)に関連づけられるものとして選択される、ステップと、
    前記ベース顔画像内の第2のベース顔特徴セットを取得するステップであり、前記第2のベース顔特徴セット内の少なくとも1つの顔特徴が前記第1のベース顔特徴セット内のものと異なり、前記第2のベース顔特徴セットは、前記解析顔画像において検出されるべき第2の顔AUに関連づけられるものとして選択される、ステップと、
    前記解析顔画像を取得するステップと、
    前記第1のベース顔特徴セットを使用して前記解析顔画像に第1の画像正規化を適用して、前記解析顔画像における前記第1の顔AUの確率の予測を容易にするステップと、
    前記第2のベース顔特徴セットを使用して前記解析顔画像に第2の画像正規化を適用して、前記解析顔画像における前記第2の顔AUの確率の予測を容易にするステップと、
    を含む方法。
  2. 前記第1の画像正規化を適用するステップは、前記第1のベース顔特徴セットを使用してプロクラステス解析変換を適用するステップを含む、請求項1に記載の方法。
  3. 前記第1のベース顔特徴セットは、前記第1の顔AUの間に動く顔の領域に位置づけられるように選択される、請求項1に記載の方法。
  4. 前記第1のベース顔特徴セットの密度が、前記第1の顔AUの間に動かない前記顔の領域より前記第1の顔AUの間に動く前記顔の領域においてより高密度であるように選択される、請求項3に記載の方法。
  5. 前記第1のベース顔特徴セットは、前記第1の顔AUの間に動く顔特徴が前記第1の顔AUの間に動かない顔特徴より重く重み付けされるように、重み付けされる、請求項1に記載の方法。
  6. 前記第1のベース顔特徴セットの重みは、遮蔽感度マップ、又は前記第1の顔AUに関連づけられた動きで使用される筋群のセット、のうち少なくとも1つに基づいて決定される、請求項4に記載の方法。
  7. 複数の訓練顔画像に対してオペレーションを実行することにより顔解析エンジンを訓練するステップ、をさらに含み、前記オペレーションは、
    前記第1のベース顔特徴セットを使用して前記第1の画像正規化を第1の訓練顔画像に適用して、前記第1の訓練顔画像における前記第1の顔AUを識別するように前記顔解析エンジンを訓練することと、
    前記第2のベース顔特徴セットを使用して前記第2の画像正規化を第2の訓練顔画像に適用して、前記第2の訓練顔画像における前記第2の顔AUを識別するように前記顔解析エンジンを訓練することと、
    を含む、請求項1に記載の方法。
  8. 前記解析顔画像における前記第1の顔AU及び前記第2の顔AUのうち少なくとも1つの強度を推定するステップ、をさらに含む請求項1に記載の方法。
  9. 1つ以上のプロセッサにオペレーションを実行させるコンピュータプログラムであって、前記オペレーションは、
    正面顔を有するベース顔画像を取得することと、
    前記ベース顔画像内の第1のベース顔特徴セットを取得することであり、前記第1のベース顔特徴セットは、解析顔画像において検出されるべき第1の顔動作単位(AU)に関連づけられるものとして選択される、ことと、
    前記ベース顔画像内の第2のベース顔特徴セットを取得することであり、前記第2のベース顔特徴セット内の少なくとも1つの顔特徴が前記第1のベース顔特徴セット内のものと異なり、前記第2のベース顔特徴セットは、前記解析顔画像において検出されるべき第2の顔AUに関連づけられるものとして選択される、ことと
    前記解析顔画像を取得することと、
    前記第1のベース顔特徴セットを使用して前記解析顔画像に第1の画像正規化を適用して、前記解析顔画像における前記第1の顔AUの確率の予測を容易にすることと、
    前記第2のベース顔特徴セットを使用して前記解析顔画像に第2の画像正規化を適用して、前記解析顔画像における前記第2の顔AUの確率の予測を容易にすることと、
    を含む、コンピュータプログラム。
  10. システムであって、
    1つ以上のプロセッサと、
    前記1つ以上のプロセッサにより実行されたときに当該システムにオペレーションを実行させる命令を含む1つ以上の非一時的コンピュータ読取可能媒体と、を備え、
    前記オペレーションは、
    正面顔を有するベース顔画像を取得することと、
    前記ベース顔画像内の第1のベース顔特徴セットを取得することであり、前記第1のベース顔特徴セットは、解析顔画像において検出されるべき第1の顔動作単位(AU)に関連づけられるものとして選択される、ことと、
    前記ベース顔画像内の第2のベース顔特徴セットを取得することであり、前記第2のベース顔特徴セット内の少なくとも1つの顔特徴が前記第1のベース顔特徴セット内のものと異なり、前記第2のベース顔特徴セットは、前記解析顔画像において検出されるべき第2の顔AUに関連づけられるものとして選択される、ことと
    前記解析顔画像を取得することと、
    前記第1のベース顔特徴セットを使用して前記解析顔画像に第1の画像正規化を適用して、前記解析顔画像における前記第1の顔AUの確率の予測を容易にすることと、
    前記第2のベース顔特徴セットを使用して前記解析顔画像に第2の画像正規化を適用して、前記解析顔画像における前記第2の顔AUの確率の予測を容易にすることと、
    を含む、システム。
JP2020133206A 2019-09-06 2020-08-05 顔解析のための画像正規化 Active JP7479031B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/563,559 US11244206B2 (en) 2019-09-06 2019-09-06 Image normalization for facial analysis
US16/563559 2019-09-06

Publications (2)

Publication Number Publication Date
JP2021043960A true JP2021043960A (ja) 2021-03-18
JP7479031B2 JP7479031B2 (ja) 2024-05-08

Family

ID=74833642

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020133206A Active JP7479031B2 (ja) 2019-09-06 2020-08-05 顔解析のための画像正規化

Country Status (3)

Country Link
US (1) US11244206B2 (ja)
JP (1) JP7479031B2 (ja)
CN (1) CN112464699A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392822B (zh) * 2021-08-18 2021-10-29 华中科技大学 基于特征分离表征学习的面部运动单元检测方法及系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8798374B2 (en) 2008-08-26 2014-08-05 The Regents Of The University Of California Automated facial action coding system
CN101593365A (zh) * 2009-06-19 2009-12-02 电子科技大学 一种通用三维人脸模型的调整方法
JP5913940B2 (ja) 2011-12-01 2016-05-11 キヤノン株式会社 画像認識装置、画像認識装置の制御方法、およびプログラム
CN102663361B (zh) * 2012-04-01 2014-01-01 北京工业大学 一种面向整体特征分析的人脸图像可逆几何归一化方法
KR102094723B1 (ko) 2012-07-17 2020-04-14 삼성전자주식회사 견고한 얼굴 표정 인식을 위한 특징 기술자
US9547808B2 (en) * 2013-07-17 2017-01-17 Emotient, Inc. Head-pose invariant recognition of facial attributes
WO2016061780A1 (en) 2014-10-23 2016-04-28 Intel Corporation Method and system of facial expression recognition using linear relationships within landmark subsets
US10255487B2 (en) * 2015-12-24 2019-04-09 Casio Computer Co., Ltd. Emotion estimation apparatus using facial images of target individual, emotion estimation method, and non-transitory computer readable medium
JP2017120609A (ja) 2015-12-24 2017-07-06 カシオ計算機株式会社 感情推定装置、感情推定方法及びプログラム
CN106919884A (zh) * 2015-12-24 2017-07-04 北京汉王智远科技有限公司 面部表情识别方法及装置
CN107169413B (zh) * 2017-04-12 2021-01-12 上海大学 一种基于特征块权重化的面部表情识别方法
CN107633207B (zh) * 2017-08-17 2018-10-12 平安科技(深圳)有限公司 Au特征识别方法、装置及存储介质
CN107886558A (zh) * 2017-11-13 2018-04-06 电子科技大学 一种基于RealSense的人脸表情动画驱动方法
CA3044281C (en) * 2018-05-28 2021-09-21 Adrian Razvan Nestor System and method for generating visual identity and category reconstruction from electroencephalography (eeg) signals
CN109190490B (zh) * 2018-08-08 2021-11-23 陕西科技大学 基于小数据集下的面部表情bn识别方法
US20200074240A1 (en) * 2018-09-04 2020-03-05 Aic Innovations Group, Inc. Method and Apparatus for Improving Limited Sensor Estimates Using Rich Sensors
CN109766840B (zh) * 2019-01-10 2024-02-20 腾讯科技(深圳)有限公司 人脸表情识别方法、装置、终端及存储介质

Also Published As

Publication number Publication date
JP7479031B2 (ja) 2024-05-08
US11244206B2 (en) 2022-02-08
CN112464699A (zh) 2021-03-09
US20210073600A1 (en) 2021-03-11

Similar Documents

Publication Publication Date Title
WO2021047232A1 (zh) 交互行为识别方法、装置、计算机设备和存储介质
US10445562B2 (en) AU feature recognition method and device, and storage medium
US9349076B1 (en) Template-based target object detection in an image
US9460360B2 (en) Method and apparatus for learning-enhanced atlas-based auto-segmentation
US10062172B2 (en) Automated tattoo recognition techniques
Le Ngo et al. Spontaneous subtle expression recognition: Imbalanced databases and solutions
KR101725651B1 (ko) 식별 장치 및 식별 장치의 제어 방법
Billah et al. Real-time goat face recognition using convolutional neural network
CN109472213B (zh) 掌纹识别方法、装置、计算机设备和存储介质
CN111448581A (zh) 使用深层神经网络进行图像处理的系统和方法
US11244157B2 (en) Image detection method, apparatus, device and storage medium
US20130251246A1 (en) Method and a device for training a pose classifier and an object classifier, a method and a device for object detection
WO2019223147A1 (zh) 肝脏癌变定位方法、装置及存储介质
US20190228209A1 (en) Lip movement capturing method and device, and storage medium
US8948517B2 (en) Landmark localization via visual search
JP6387831B2 (ja) 特徴点位置検出装置、特徴点位置検出方法および特徴点位置検出プログラム
CN109345460B (zh) 用于矫正图像的方法和装置
WO2022170896A1 (zh) 关键点检测方法、系统、智能终端和存储介质
Shih An unsupervised hair segmentation and counting system in microscopy images
JP2021043960A (ja) 顔解析のための画像正規化
JP2010220908A (ja) 画像処理装置、画像処理方法、およびプログラム
CN108288023B (zh) 人脸识别的方法和装置
CN113705511A (zh) 手势识别方法及装置
Schulz et al. Deriving image features for autonomous classification from time-series recurrence plots
CN112330652A (zh) 基于深度学习的染色体识别方法、装置和计算机设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230508

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240415

R150 Certificate of patent or registration of utility model

Ref document number: 7479031

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150