JP2023509750A - 表情識別方法及び装置、機器、コンピュータ可読記憶媒体並びにコンピュータプログラム - Google Patents

表情識別方法及び装置、機器、コンピュータ可読記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP2023509750A
JP2023509750A JP2022541909A JP2022541909A JP2023509750A JP 2023509750 A JP2023509750 A JP 2023509750A JP 2022541909 A JP2022541909 A JP 2022541909A JP 2022541909 A JP2022541909 A JP 2022541909A JP 2023509750 A JP2023509750 A JP 2023509750A
Authority
JP
Japan
Prior art keywords
image
facial
motion
facial image
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022541909A
Other languages
English (en)
Other versions
JP7317241B2 (ja
Inventor
イエンジエ チェン
フェイ ワン
チェン チエン
Original Assignee
シャンハイ センスタイム リンガン インテリジェント テクノロジー カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャンハイ センスタイム リンガン インテリジェント テクノロジー カンパニー リミテッド filed Critical シャンハイ センスタイム リンガン インテリジェント テクノロジー カンパニー リミテッド
Publication of JP2023509750A publication Critical patent/JP2023509750A/ja
Application granted granted Critical
Publication of JP7317241B2 publication Critical patent/JP7317241B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/164Detection; Localisation; Normalisation using holistic features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

Figure 2023509750000001
本開示の実施例は、表情識別方法、装置、コンピュータ可読記憶媒体並びにコンピュータプログラム製品を提供し、前記方法は、顔画像を取得することと、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つ器官のうち各器官の動作を識別することと、識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定することと、を含む。このような方法により、ユーザの表情状態の識別精度を向上させることができる。

Description

(関連出願への相互参照)
本出願は、出願番号が202010018179.9であり、出願日が2020年01月08日である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照により本出願に組み込まれる。
本開示は、コンピュータ技術分野に関するが、これに限定されなく、具体的に、表情識別方法及び装置、機器、コンピュータ可読記憶媒体並びにコンピュータプログラム製品に関する。
顔表情識別とは、与えられた静的画像または動的ビデオシーケンスから特定の表情状態を分離し、それによって識別された対象の心理的情緒を決定し、コンピュータによる顔表情の理解と識別を実現することである。
関連技術では、顔表情識別を行うときに、識別されるべき画像を予め訓練された表情識別モデルに入力し、予測して得られた顔表情を出力するのが一般的である。しかし、このような表情識別モデルを訓練する過程で、訓練するために表情ラベル付けのサンプル画像が大量に必要があり、このようなサンプル画像によって訓練された表情識別モデルにより表情識別を行うとき、通常、精度が比較的低い。
本開示の実施例は、表情識別の精度を向上させることができる表情識別方法及び装置、機器、コンピュータ可読記憶媒体並びにコンピュータプログラム製品を提供する。
本開示の実施例は表情識別方法を提供する。当該表情識別方法は、
顔画像を取得することと、
前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を識別することと、
識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定することと、を含む。
本開示のいくつかの実施例では、顔画像を取得した後、前記方法は、
前記顔画像に対して画像の前処理を行い、処理後の顔画像を得ることであって、前記画像の前処理は、前記顔画像に対してキー情報増強処理を行うために用いられる、ことをさらに含み、
前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を識別することは、
前記処理後の顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を決定することを含む。
本開示のいくつかの実施例では、前記顔画像に対して画像の前処理を行うことは、
前記顔画像におけるキーポイントの位置情報を決定することと、
前記キーポイントの位置情報に基づいて、前記顔画像をアフィン変換して、前記顔画像に対応する正面化された画像を得ることと、
正面化された画像を正規化処理し、処理後の顔画像を得ることと、を含む。
本開示のいくつかの実施例では、前記正面化された画像を正規化処理することは、
前記キーポイントの位置情報に基づいて、前記正面化された画像に対して画像の切り取りを行い、切り取られた画像を得ることと、
前記切り取られた画像に含まれる各画素点の画素値の平均値、および前記切り取られた画像に含まれる各画素点の画素値の標準偏差を計算することと、
前記画素値の平均値、および前記画素値の標準偏差に基づいて、前記切り取られた画像における各画素点の画素値を正規化処理することと、を含む。
本開示のいくつかの実施例では、顔の器官の動作は、
眉をひそめる動作、目に角を立てる動作、口角を上に向ける動作、上唇を上に向ける動作、口角を下に向ける動作、口を開く動作、を含む。
本開示のいくつかの実施例では、識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定することは、
識別された前記各器官の動作、および予め設定された動作と表情状態との対応関係に基づいて、前記顔画像が表す顔の表情状態を決定すること、を含む。
本開示のいくつかの実施例では、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を識別することは、動作識別のためのニューラルネットワークによって実行され、前記動作識別のためのニューラルネットワークは、バックボーンネットワーク及び少なくとも2つの分類ブランチネットワークを含み、各分類ブランチネットワークは、顔の1つの器官の1つの動作を識別するために用いられ、
前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を識別することは、
バックボーンネットワークを利用して前記顔画像に対して特徴抽出を行い、前記顔画像の特徴マップを得ることと、
各分類ブランチネットワークをそれぞれ利用して前記顔画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得ることと、
発生確率が予め設定された確率より大きい動作を、前記顔画像が表す顔の器官の動作として決定することと、を含む。
本開示のいくつかの実施例では、前記動作識別のためのニューラルネットワークは、サンプル画像と前記サンプル画像に対応するラベルベクトルとを用いて訓練して得られたものであり、前記サンプル画像に対応するラベルベクトルは、該サンプル画像が表す顔の器官の動作を示すために用いられ、ラベルベクトルにおける各要素位置の値は、該サンプル画像に該要素位置に対応する動作が生成されるか否かを示すために用いられる。
本開示のいくつかの実施例では、サンプル画像と前記サンプル画像に対応するラベルベクトルとを用いて前記動作識別のためのニューラルネットワークを訓練することは、
ニューラルネットワークのバックボーンネットワークを利用してサンプル画像に対して特徴抽出を行い、サンプル画像の特徴マップを得ることと、
各分類ブランチネットワークをそれぞれ利用して、前記サンプル画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得ることと、
各分類ブランチネットワークによって識別され得る動作の発生確率、及びサンプル画像のラベルベクトルに基づいて、各分類ブランチネットワークに対応する損失値を決定することと、
前記ニューラルネットワークの各分類ブランチネットワークに対応する損失値に基づいて、前記ニューラルネットワークのパラメータ値を調整することと、を含む。
本開示の実施例は表情識別装置をさらに提供する。該表情識別装置は、
顔画像を取得するように構成される取得モジュールと、
前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つ器官のうち各器官の動作を識別するように構成される識別モジュールと、
識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定するように構成される決定モジュールと、を備える。
本開示の実施例はコンピュータ機器をさらに提供する。該コンピュータ機器は、プロセッサと、メモリと、バスとを備え、前記メモリは、前記プロセッサが実行可能な機械可読命令を記憶し、コンピュータ機器が動作する場合、前記プロセッサと前記メモリとの間がバスを介して通信され、前記プロセッサは前記機械可読命令を実行して、上記の本開示の実施例で説明された方法の一部又は全てのステップを実施する。
本開示の実施例はコンピュータ可読記憶媒体をさらに提供する。該コンピュータ可読記憶媒体は、コンピュータプログラムが記憶され、該コンピュータプログラムがプロセッサに実行される時、プロセッサに上記の本開示の実施例で説明された方法の一部又は全てのステップを実行させる。
本開示の実施例はコンピュータプログラム製品を提供する。上記コンピュータプログラム製品は、コンピュータプログラムを記憶した非一時的なコンピュータ可読記憶媒体を含み、コンピュータは、上記コンピュータプログラムを読み取って実行する場合、本開示の実施例で説明された方法の一部又は全てのステップを実現する。該コンピュータプログラム製品は、ソフトウェアインストールパッケージであってもよい。
上記表情識別装置、コンピュータ機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品の効果の説明については、上記表情識別方法の説明を参照し、ここで説明を省略する。
本開示の実施例の上記目的、特徴及び利点をより分かりやすくするために、以下において、例示的な実施例を特に挙げ、図面を参照しながら詳しく説明する。
本開示の実施例による表情識別方法の模式的フローチャートである。 本開示の実施例による画像の前処理方法の模式的フローチャートである。 本開示の実施例による画像の切り取り方法の模式的フローチャートである。 本開示の実施例による動作識別のためのニューラルネットワークのネットワーク構造である。 本開示の実施例による動作識別のためのニューラルネットワークの訓練方法の模式的フローチャートである。 本開示の実施例によるキーポイント検出モデルの訓練方法の模式的フローチャートである。 本開示の実施例による表情識別装置のアーキテクチャの模式図である。 本開示の実施例による電子機器の構造的模式図である。
本開示の実施例の技術的解決手段をより明瞭に説明するために、以下において、実施例に必要とされる図面について簡単に紹介し、ここでの図面は明細書に組み込まれて本明細書の一部を構成し、これらの図面は本開示に合致する実施例を示し、明細書と共に本開示の技術的解決手段を説明するために用いられる。以下の図面は本開示のいくつかの実施例のみを示すため、範囲を限定するものと見なすべきではなく、当業者にとっては、創造的な労力を要することなく、これらの図面に基づいて他の関連する図面を取得することもできることを理解すべきである。
本開示の実施例の目的、技術的解決手段及び利点をより明確にするために、以下に本開示の実施例における図面を参照しながら本開示の実施例における技術的解決手段を明確且つ完全に説明し、当然ながら、説明される実施例は本開示の実施例の一部に過ぎず、全ての実施例ではない。通常、ここでの図面において記述及び示される本開示の実施例のコンポーネントは様々な異なる構成で配置及び設計されることができる。従って、図面において提供される本開示の実施例についての以下の詳細な説明は、保護が要求される本開示の範囲を限定することを意図するものではなく、単に本開示の選定された実施例を示すものに過ぎない。本開示の実施例に基づき、当業者が創造的な労力を要することなく得られた他の全ての実施例は、いずれも本開示の保護範囲に属する。
関連技術では、顔識別を行うときに、画像におけるユーザの表情をニューラルネットワークに基づいて直接識別するのが一般的である。しかし、このようなニューラルネットワークを訓練する過程で、一般に、サンプル画像におけるユーザの表情を表すための表情ラベルをサンプル画像に追加する必要がある。サンプル画像に表情ラベルを手動で追加する必要があり、追加された表情ラベルにはユーザの主観的な考えがあるため、異なるユーザが同じサンプル画像に異なる表情ラベルを追加する状況(例えば、同じ画像に対して、ユーザAが追加する可能性のある表情ラベルはゆううつであり、ユーザBが追加する表情ラベルは思考である)が発生する可能性があり、さらにニューラルネットワークが表情予測を行う時の精度に影響を及ぼす。
これを考慮して、本開示の実施例は、表情識別方法を提供し、それは、顔画像における器官の動作をニューラルネットワークにより識別し、次に、識別された器官の動作に基づいて、顔に対応する表情状態を決定することができる。顔の器官の動作と顔の表情状態との関係は客観的に存在するため、このような方式に基づいて、ユーザが顔画像に対して表情状態の主観的な定義を行う必要はなく、また、顔の器官の動作はある特定の顔特徴に集中されることができるため、顔画像に対して器官の動作の識別を行うことは、表情姿勢の識別を直接行うよりも、正確性を大幅に向上させることができる。したがって、本開示の実施例の上記方法は、顔表情識別の精度を向上させる。
説明すべきものとして、上述技術問題の提出及び分析過程は、いずれも発明者が実践して細心の研究を経てから得られた結果である。従って、上記技術問題の発見過程及び本開示の実施例が上記問題に対して提案する解決手段は、いずれも発明者が本開示において本開示に寄与したものとする。
以下に本開示の実施例における図面を参照しながら本開示の技術的解決手段を明確且つ完全に説明し、当然ながら、説明される実施例は本開示の実施例の一部に過ぎず、全ての実施例ではない。通常、ここでの図面において記述及び示される本開示の実施例のコンポーネントは様々な異なる構成で配置及び設計されることができる。従って、図面において提供される本開示の実施例についての以下の詳細な説明は、保護が要求される本開示の範囲を限定することを意図するものではなく、単に本開示の選定された実施例を示すものに過ぎない。本開示の実施例に基づき、当業者が創造的な労力を要することなく得た他の全ての実施例は、いずれも本開示の保護範囲に属する。
なお、類似する符号及びアルファベットは以下の図面において類似項を表し、従って、ある1項が1つの図面において定義されれば、以降の図面においてそれをさらに定義して解釈する必要がないことに注意されたい。
本開示の実施例を容易に理解するために、まず本開示の実施例により開示される表情識別方法を詳しく説明する。本開示の実施例により提供される表情識別方法の実行本体は一般的に一定の計算能力を有するコンピュータ機器であり、当該コンピュータ機器は、例えば、端末装置又はサーバまたは他の処理装置を含み、端末装置は、ユーザ装置(UE:User Equipment)、移動デバイス、ユーザ端末、端末、セルラー電話、コードレス電話、パーソナルデジタルアシスタント(PDA:Personal Digital Assistant)、ハンドヘルドデバイス、コンピューティング装置、車載装置、ウェアラブル装置などであってもよい。一部の可能な実施形態では、該表情識別方法はプロセッサによりメモリに記憶されたコンピュータ可読命令を呼び出すことで実現されてもよい。
図1は、本発明の実施例により提供される表情識別方法のフローチャートであり、前記方法は以下のステップS101~S103を含む。
S101において、顔画像を取得する。
S102において、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つ器官のうち各器官の動作を識別する。
S103において、識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定する。
上記方法において、まず顔の器官の動作を識別し、次に、識別された動作に基づいて、顔に対応する表情状態を決定することができる。顔の器官の動作と顔の表情状態との関係は客観的に存在するため、このような方式に基づいて、モデルを訓練する際に、ユーザが顔画像に対して表情状態の主観的な定義を行う必要はなく、また、顔の器官の動作はある特定の顔特徴に集中されることができるため、顔画像に対して器官の動作の識別を行うことは、表情姿勢の識別を直接行うよりも、正確性を大幅に向上させることができる。したがって、本開示の実施例の上記方法は、顔表情識別の精度を向上させる。
以下は、上記のステップ101~103についての詳細な説明である。
S101について
S101で取得された顔画像は、識別開始の命令を受けた後、該表情識別方法を実行する電子機器に接続された画像収集装置が、撮像した画像であってもよく、データベースに予め記憶された顔画像の集合から取得された顔画像であってもよい。ここで。該表情識別方法を実行する電子機器は、自身で画像収集装置が搭載されてもよく、外部の画像収集装置に接続されてもよく、その接続方式は、有線接続と無線接続とを含み、無線接続は、例えば、ブルートゥース接続、無線ローカルエリアネットワーク接続などであってもよい。
S102について
顔画像を訓練されたニューラルネットワークに入力して顔の器官の動作識別を行う前に、ニューラルネットワークによる動作識別の効率と精度を向上させるために、本開示のいくつかの実施例では、まず顔画像に対して画像の前処理を行い、処理後の顔画像を得、前記画像の前処理は、顔画像に対してキー情報増強処理を行うために用いられる。次に、処理後の顔画像を訓練されたニューラルネットワークに入力して動作識別を行うことができる。ここで、顔画像に対して画像の前処理を行うことにより、顔画像に対してキー情報増強処理を行い、動作識別の精度を向上させることができる。
本開示のいくつかの実施例では、顔画像に対して画像の前処理を行う場合、図2に示す画像の前処理方法を参照し、以下のいくつかのステップを含むことができる。
S201において、顔画像におけるキーポイントの位置情報を決定する。
顔画像におけるキーポイントは、例えば、目角、口角、眉頭、眉の尾、鼻等を含むことができ、実施する時には、顔画像におけるキーポイントが必要に応じて設定されてもよい。キーポイントの位置情報は、顔画像におけるキーポイントの位置座標であってもよく、例示的に、顔画像におけるキーポイントを決定した後、顔画像の左上隅を座標原点とし、左上隅から右上隅の水平方向をX軸とし、左上隅から左下隅の垂直方向をY軸として直角座標系を確立し、次に顔画像におけるキーポイントの直角座標系における座標を決定し、決定された座標をキーポイントの位置情報とすることができる。
顔画像におけるキーポイントの位置情報を決定する際に、顔画像を訓練されたキーポイント検出モデルに入力し、キーポイントの位置情報を得ることができる。別の実施形態では、キーポイント識別の効率を向上させるために、まず顔画像における顔領域を識別し、顔領域内の画像を切り取り、次に切り取られた顔領域内の画像を訓練されたキーポイント検出モデルに入力し、キーポイントの位置情報を得ることもできる。キーポイント検出モデルの訓練方法については、以下で詳しく説明し、ここでは説明を省略する。
顔画像における顔領域を識別する場合、例えば顔識別アルゴリズムにより識別することができ、識別プロセスについては、説明を省略する。
S202において、キーポイントの位置情報に基づいて、顔画像をアフィン変換して、顔画像に対応する正面化された画像を得る。
キーポイントの位置情報に基づいて、顔画像をアフィン変換する場合、まずキーポイントの位置情報及び予め記憶された目標キーポイントの予め設定された位置情報に基づいて、変換マトリクスを決定し、変換マトリクスは、顔画像における各キーポイントの位置情報と、該キーポイントにマッチングする目標キーポイントの予め設定された位置情報との間の変換関係を表すために用いられ、次に変換マトリクスに基づいて、顔画像をアフィン変換することができる。
キーポイントが目(左目及び右目を含む)及び口であることを例として、予め記憶された目標キーポイントの予め設定された位置情報は、予め記憶された目及び口の位置座標であってもよく、実施する時、予め設定された位置情報は、複数のサンプル画像における目標キーポイントの座標に基づいて平均値を計算して得られたものであってもよい。例示的に、標準的なサンプル画像100枚を取得すると、サンプル画像における左目を座標原点として、右目と口の位置座標をそれぞれ決定し、次に、口と右目の位置座標の平均値を計算し、算出された平均値と、左目の座標(即ち座標原点)とを目標キーポイントの予め設定された位置情報として決定することができる。
実際の応用では、左目を座標原点としなくてもよい。この場合、目標キーポイントの予め設定された位置情報は、左目と右目の間の距離、口と左目の間の距離、口と右目の間の距離など、目標キーポイント間の位置関係であってもよい。
本開示のいくつかの実施例では、予め記憶された目標キーポイントの予め設定された位置情報は、手動で設定されてもよい。
キーポイントの位置情報及び予め記憶された目標キーポイントの予め設定された位置情報に基づいて、変換マトリクスを決定する場合、以下の式(1-1)に従って計算することができる。
Figure 2023509750000002
式(1-1)
ここで、x、yは、予め記憶された目標キーポイントの横座標、縦座標を表し、x、yは、キーポイントの横座標、縦座標を表し、
Figure 2023509750000003
は、変換マトリクスを表す。
変換マトリクスに基づいて、顔画像をアフィン変換する場合、まず顔画像における各画素点の座標を決定し、次に、顔画像における各画素点の座標を上記式に代入し、各画素点に対応する変換後の座標を決定し、各画素点に対応する変換後の座標に基づいて、顔画像に対応する正面化された画像を決定することができる。
顔画像をアフィン変換することにより、顔画像における異なる向きの顔画像を正面向きの顔画像に変換し、顔画像に対応する正面化された画像に基づいて動作識別を行うことができ、それによって動作識別の精度を向上させることができる。
S203において、正面化された画像を正規化処理し、処理後の顔画像を得る。
本開示のいくつかの実施例では、キーポイントの位置情報に基づいて、顔画像をアフィン変換して、顔画像に対応する正面化された画像を得た後、キーポイントの位置情報に基づいて、正面化された画像に対して画像の切り取りを行い、切り取られた画像を得、次に、切り取られた画像を正規化処理することもできる。ここで、正面化された画像に対して画像の切り取り処理を行うことにより、顔部分以外の背景領域が動作識別速度に及ぼす影響を低減することができる。
キーポイントの位置情報に基づいて、正面化された画像に対して画像の切り取りを行う場合、まず、正面化された画像における全てのキーポイントの位置情報のうち、横座標及び縦座標の最大値と最小値を決定し、次に、横座標及び縦座標の最大値と最小値に基づいて、正面化された画像に対して画像の切り取りを行うことができる。
例示的に、図3に示すように、識別されたキーポイント31のうち、横座標の最大値がx、最小値がx、縦座標の最大値がy、最小値がyであると、まず横座標及び縦座標の最大値と最小値に基づいて最小カット領域を決定し、次に、最小カット領域から予め設定された距離の領域をカットライン32として、正面化された画像33に対して画像の切り取りを行うことができる。
切り取られた画像を正規化処理する場合、まず、切り取られた画像に含まれる各画素点の画素値の平均値、および切り取られた画像に含まれる各画素点の画素値の標準偏差を計算し、次に、画素値の平均値、および画素値の標準偏差に基づいて、切り取られた画像における各画素点の画素値を正規化処理することができる。
本開示のいくつかの実施例では、画素値の平均値、及び画素値の標準偏差に基づいて、切り取られた画像における各画素点の画素値を正規化処理する場合、以下の式(1-2)を参照することができる。
Figure 2023509750000004
式(1-2)
ここで、Zは、画素点の正規化処理後の画素値を表し、Xは、画素点の正規化処理前の画素値を表し、μは、画素値の平均値を表し、σは、画素値の標準偏差を表す。
ここで、キーポイントの位置情報により、顔画像をアフィン変換した後、顔画像に対する正面化を実現し、顔画像におけるユーザの顔面の向きが器官の動作識別に及ぼす影響を回避することができる。さらに、正面化された画像を正規化処理することにより、アフィン変換後に現れる本来存在しない顔特徴が器官の動作識別に及ぼす影響を弱めることができる。
本開示のいくつかの実施例では、顔画像に対して画像の前処理を行う前に、まず、顔画像の画像タイプを検出してもよく、顔画像がRGBカラー画像であることが検出されると、まず顔画像をグレースケール画像に変換し、次に、変換後の画像に対して画像の前処理プロセスを実行し、顔画像がグレースケール画像であることが検出されると、顔画像に対して画像の前処理プロセスを実行することができる。
顔画像に基づいて、顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を識別するステップは、動作識別のためのニューラルネットワークによって実行され得る。動作識別のためのニューラルネットワークは、バックボーンネットワーク及び少なくとも2つの分類ブランチネットワークを含み、各分類ブランチネットワークは、1つの器官の動作を識別するために用いられる。
本開示のいくつかの実施例では、顔画像を動作識別のためのニューラルネットワークに入力、バックボーンネットワークを利用して顔画像に対して特徴抽出を行い、顔画像の特徴マップを得、次に、各ブランチネットワークをそれぞれ利用して顔画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得、発生確率が予め設定された確率より大きい動作を、顔画像が表す顔の器官の動作として決定することができる。
ここで、顔の器官の動作は、
眉をひそめる動作、目に角を立てる動作、口角を上に向ける動作、上唇を上に向ける動作、口角を下に向ける動作、口を開く動作を含む。
例示的に、動作識別のためのニューラルネットワークのネットワーク構造は、図4に示すようにすることができる。ニューラルネットワークは、分類ブランチネットワーク421~426を含み、分類ブランチネットワーク421は、動作1を識別するために用いられ、分類ブランチネットワーク422は、動作2を識別するために用いられ、このようにして、顔画像がニューラルネットワークの各分類ブランチネットワークに入力された後、まずバックボーンネットワーク410に基づいて顔画像に対して特徴抽出を行い、顔画像に対応する特徴マップを得、次に、顔画像に対応する特徴マップを各分類ブランチネットワークにそれぞれ入力し、各分類ブランチネットワークにより該ネットワークに対応する器官の動作の発生確率を出力し、各分類ブランチネットワークの出力をさらに分類ネットワーク430に入力し、分類ネットワーク430は、対応する発生確率が予め設定された確率よりも大きい器官の動作を出力することができる。分類ネットワーク430の出力はニューラルネットワークの出力である。
なお、動作識別のためのニューラルネットワークにおける各分類ブランチネットワークは、同時に訓練されるものであり、その訓練方法については、以下に説明するが、ここでは紹介しない。
顔画像に複数の器官の動作が含まれる場合、このような方法により、顔画像に対応する複数の器官の動作を同時に識別することができ、また、ここでは、各分類ブランチネットワークを用いてそれぞれ対応する器官の動作を識別し、各分類ブランチネットワークを訓練する際に、特定の動作に対応する画像特徴に集中することができるため、このような方式によれば、訓練された分類ブランチネットワークの識別精度がより高くなり、それによって、画像識別時の正確度をより高くすることができる。
S103について
実際の応用では,ユーザの表情状態とユーザの顔動作との間に一定の対応関係があり、例示的に、ユーザの顔面動作が口角を上に向ける動作である場合、対応する表情状態が楽しみであり、ユーザの顔面動作が目に角を立て且つ口を開く動作である場合,対応する表情状態が驚きである。
本開示のいくつかの実施例では、識別された器官の動作に基づいて、顔画像に対応するユーザの表情状態を決定する場合、識別された顔の各器官の動作、および予め設定された動作と表情状態との対応関係に基づいて、顔画像に対応するユーザの表情状態を決定してもよい。
ここで、予め設定された動作と表情状態との対応関係は、例示的に、表1に示すようにすることができる。
Figure 2023509750000005
この方法により、まず顔画像における器官の動作を識別し、次に、識別された器官の動作に基づいて、顔画像に対応するユーザの表情状態を決定することができ、ユーザの表情状態を直接識別することに比べて、このような方式により、ユーザの主観的な意識が識別結果に及ぼす影響を低減し、ユーザの表情状態識別の精度を向上させることができる。
図5は、本開示の実施例による動作識別のためのニューラルネットワークの訓練方法の模式的フローチャートであり、以下のいくつかのステップを含む。
S501において、サンプル画像と前記サンプル画像に対応するラベルベクトルを取得する。
前記サンプル画像に対応するラベルベクトルは、該サンプル画像が表す顔の器官の動作を示すために用いられる。ラベルベクトルにおける各要素位置の値は、該サンプル画像に該要素位置に対応する動作が生成されるか否かを示すために用いられる。
動作識別のための同じニューラルネットワークを訓練する過程で、異なるサンプル画像に対応するラベルベクトルの要素値の個数は同じであり、ラベルベクトルの要素値の個数はニューラルネットワークに含まれる分類ブランチネットワークの個数と同じである。
例示的に、ラベルベクトルの要素の個数が6個を含む場合、1番目の要素は眉をひそめるかどうかを示し、2番目の要素は目に角を立てるかどうかを示し、3番目の要素は口角を上に向けるかどうかを示し、4番目の要素は上唇を上に向けるかどうかを示し、5番目の要素は口角を下に向けるかどうかを示し、6番目の要素は口を開くかどうかを示し、ユーザの動作が目に角を立て、口を開く動作であると、対応するラベルベクトルは、[0,1,0,0,0,1](ラベルベクトルにおける「0」は、該要素位置に対応する顔位置で対応する動作が発生しないことを示し、「1」は、該要素位置に対応する顔位置で対応する動作が発生したことを示す)である。
S502において、ニューラルネットワークのバックボーンネットワークを利用してサンプル画像に対して特徴抽出を行い、サンプル画像の特徴マップを得る。
S503において、各分類ブランチネットワークをそれぞれ利用して、前記サンプル画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得る。
S504において、各分類ブランチネットワークによって識別され得る動作の発生確率、及びサンプル画像のラベルベクトルに基づいて、各分類ブランチネットワークに対応する損失値を決定する。
本開示のいくつかの実施例では、分類ブランチネットワークのいずれかについては、該分類ブランチネットワークに対応する損失値を決定する場合、以下の式を参照することができる。
Figure 2023509750000006
ここで、nの値は、ラベルベクトルにおける要素個数であり、yは、ラベルベクトルにおけるk番目の要素を表し、pは、該分類ブランチネットワークにより出力された発生確率を表す。
S505において、前記ニューラルネットワークの各分類ブランチネットワークに対応する損失値に基づいて、前記ニューラルネットワークのパラメータ値を調整する。
本開示のいくつかの実施例では、ニューラルネットワークの各分類ブランチネットワークに対応する損失値に基づいて、ニューラルネットワークのパラメータ値を調整する場合、まず、ニューラルネットワークの各分類ブランチネットワークに対応する損失値に基づいて、今回の訓練中の総損失を決定し、例えば、各分類ブランチネットワークに対応する損失値の和を、今回の訓練中の総損失とし、次に、勾配バックプロパゲーションの方法によりニューラルネットワークのパラメータ値を調整することができる。
このような方式により、各分類ブランチネットワークに対応する損失値に基づいて、ニューラルネットワークのパラメータを調整することができ、これにより複数の分類ブランチネットワークの同時訓練を実現し、複数の器官の動作を識別する過程で応用されるニューラルネットワークの訓練効率を向上させることができる。
図6に示すように、図6は、本開示の実施例によるキーポイント検出モデルの訓練方法の模式的フローチャートであり、以下のいくつかのステップを含む。
S601において、ラベル付きのサンプル画像を取得し、前記ラベルは、前記サンプル画像におけるキーポイントの位置を示すために用いられる。
ここで、サンプル画像におけるラベルは、手動で付けられ得る。
S602において、前記ラベル付きのサンプル画像を訓練されるべきキーポイント検出モデルに入力し、前記キーポイント検出モデルに対応する予測キーポイント位置を得る。
S603において、前記サンプル画像のラベル、及び前記サンプル画像に対応する予測キーポイント位置に基づいて、今回の訓練プロセスでの損失値を決定し、前記損失値に基づいて、前記キーポイント検出モデルのパラメータ値を調整する。
当業者は、具体的な実施形態の上記方法において、各ステップの書き込み順序が厳密な実行順序を意味して実施プロセスに対するいかなる制限を構成せず、各ステップの具体的な実行順序がその機能及び可能な内部論理で決定されるべきであることを理解することができる。
同じ概念に基づいて、本開示の実施例は、表情識別方法に対応する表情識別装置をさらに提供する。本開示の実施例における装置が問題を解決する原理は、本開示の実施例の上記の表情識別方法と類似し、したがって、装置の実施は、方法の実施を参照することができ、繰り返し点については説明を省略する。
図7は、本開示の実施例による表情識別装置のアーキテクチャの模式図であり、前記装置は、取得モジュール701と、識別モジュール702と、決定モジュール703と、訓練モジュール704とを備える。
取得モジュール701は、顔画像を取得するように構成される。
識別モジュール702は、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つ器官のうち各器官の動作を識別するように構成される。
決定モジュール703は、識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定するように構成される。
本開示のいくつかの実施例では、前記識別モジュール702は、さらに、
顔画像を取得した後、前記顔画像に対して画像の前処理を行い、処理後の顔画像を得るように構成され、前記画像の前処理は、前記顔画像に対してキー情報増強処理を行うために用いられ、
前記識別モジュール702は、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を識別する場合、
前記処理後の顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を決定するように構成される。
本開示のいくつかの実施例では、前記識別モジュール702は、前記顔画像に対して画像の前処理を行う場合、
前記顔画像におけるキーポイントの位置情報を決定し、
前記キーポイントの位置情報に基づいて、前記顔画像をアフィン変換して、前記顔画像に対応する正面化された画像を得、
正面化された画像を正規化処理し、処理後の顔画像を得るように構成される。
本開示のいくつかの実施例では、前記識別モジュール702は、正面化された画像を正規化処理する場合、
前記キーポイントの位置情報に基づいて、前記正面化された画像に対して画像の切り取りを行い、切り取られた画像を得、
前記切り取られた画像に含まれる各画素点の画素値の平均値、および前記切り取られた画像に含まれる各画素点の画素値の標準偏差を計算し、
前記画素値の平均値、および前記画素値の標準偏差に基づいて、前記切り取られた画像における各画素点の画素値を正規化処理するように構成される。
本開示のいくつかの実施例では、顔の器官の動作は、
眉をひそめる動作、目に角を立てる動作、口角を上に向ける動作、上唇を上に向ける動作、口角を下に向ける動作、口を開く動作、を含む。
本開示のいくつかの実施例では、前記決定モジュール703は、識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定する場合、
識別された前記各器官の動作、および予め設定された動作と表情状態との対応関係に基づいて、前記顔画像が表す顔の表情状態を決定するように構成される。
本開示のいくつかの実施例では、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を識別するステップは、動作識別のためのニューラルネットワークによって実行され、前記動作識別のためのニューラルネットワークは、バックボーンネットワーク及び少なくとも2つの分類ブランチネットワークを含み、各分類ブランチネットワークは、顔の1つの器官の1つの動作を識別するために用いられ、
前記識別モジュール702は、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を識別する場合、
バックボーンネットワークを利用して前記顔画像に対して特徴抽出を行い、前記顔画像の特徴マップを得、
各分類ブランチネットワークをそれぞれ利用して前記顔画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得、
発生確率が予め設定された確率より大きい動作を、前記顔画像が表す顔の器官の動作として決定するように構成される。
本開示のいくつかの実施例では、前記装置は、訓練モジュール704をさらに備え、前記訓練モジュール704は、
サンプル画像と前記サンプル画像に対応するラベルベクトルとを用いて前記動作識別のためのニューラルネットワークを訓練するように構成され、前記サンプル画像に対応するラベルベクトルは、該サンプル画像が表す顔の器官の動作を示すために用いられ、ラベルベクトルにおける各要素位置の値は、該サンプル画像に前記要素位置に対応する動作が生成されるか否かを示すために用いられる。
本開示のいくつかの実施例では、前記訓練モジュール704は、サンプル画像と前記サンプル画像に対応するラベルベクトルとを用いて前記動作識別のためのニューラルネットワークを訓練する場合、
ニューラルネットワークのバックボーンネットワークを用いてサンプル画像に対して特徴抽出を行い、サンプル画像の特徴マップを得、
各分類ブランチネットワークをそれぞれ用いて、前記サンプル画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得、
各分類ブランチネットワークによって識別され得る動作の発生確率、及びサンプル画像のラベルベクトルに基づいて、各分類ブランチネットワークに対応する損失値を決定し、
前記ニューラルネットワークの各分類ブランチネットワークに対応する損失値に基づいて、前記ニューラルネットワークのパラメータ値を調整するように構成される。
装置における各モジュールの処理プロセス、および各モジュール間のインタラクションプロセスについては、上述した方法の実施例における関連する説明を参照することができ、ここで説明を省略する。
同じ概念に基づいて、本開示の実施例は、コンピュータ機器をさらに提供する。図8は、本開示の実施例によるコンピュータ機器の構造的模式図である。前記コンピュータ機器は、プロセッサ801と、メモリ802と、バス803とを備える。ここで、メモリ802は、実行命令を記憶し、内部メモリ8021と外部メモリ8022とを備え、ここでの内部メモリ8021は、内部記憶装置とも呼ばれ、プロセッサ801内の演算データ、及びハードディスクなどの外部メモリ8022と交換するデータを一時的に記憶する。プロセッサ801は、内部メモリ8021を介して外部メモリ8022とデータ交換を行い、電子機器800が動作する場合、プロセッサ801とメモリ802の間は、バス803を介して通信され、これにより、プロセッサ801は、
顔画像を取得することと、
前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つ器官のうち各器官の動作を識別することと、
識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定することと、を実行する。
本開示の実施例は、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体をさらに提供し、当該コンピュータプログラムがプロセッサに実行される時にプロセッサに上記方法の実施例で説明される表情識別方法のステップを実行させる。ここで、該記憶媒体は、揮発性又は不揮発性のコンピュータ可読記憶媒体であってもよい。
本開示の実施例によって提供される表情識別方法のコンピュータプログラム製品は、プログラムコードが記憶されたコンピュータ可読記憶媒体を含み、前記プログラムコードに含まれる命令がコンピュータに上記方法の実施例で説明される表情識別方法のステップを実行させてもよい。実施する際には、上記方法の実施例を参照することができ、ここで説明を省略する。
本開示の実施例は、コンピュータプログラムをさらに提供し、該コンピュータプログラムがプロセッサに実行される時に、コンピュータに前述の実施例の任意の一つの方法を実現させる。上記コンピュータプログラム製品は、ハードウェア、ソフトウェア又はそれらの組み合わせで実現されてもよい。本開示のいくつかの実施例では、前記コンピュータプログラム製品は、コンピュータ記憶媒体として具体化され、本開示の他の実施例では、コンピュータプログラム製品は、ソフトウェア開発キット(SDK:Software Development Kit)などのソフトウェア製品として具体化される。
当業者は、便利及び簡潔に説明するために、上記説明されたシステムと装置の動作プロセスについては、前記方法の実施例における対応するプロセスを参照でき、ここで説明を省略することを明確に理解することができる。本開示で提供される幾つかの実施例では、開示されるシステム、装置及び方法は、他の方式により実現されてもよいことが理解すべきである。上記説明された装置の実施例は例示的なものだけであり、例えば、前記ユニットの区分は、論理機能的区分だけであり、実際に実現する時に他の区分方式もあり得、また、例えば、複数のユニット又はコンポーネントは組み合わせられてもよく又は別のシステムに統合されてもよく、又は一部の特徴は無視されてもよく、又は実行されなくてもよい。また、示され、又は議論される相互結合又は直接結合又は通信接続は、一部の通信インタフェース、装置又はユニットを介す間接的結合又は通信接続であってもよく、電気的、機械的又は他の形態であってもよい。
分離部材として説明されたユニットは物理的に分離するものであってもよく又は物理的に分離するものでなくてもよく、ユニットとして表示される部材は物理ユニットであってもよく又は物理ユニットでなくてもよく、即ち1つの箇所に位置してもよく、又は複数のネットワークユニットに分布してもよい。実際のニーズに応じてそのうちの一部又は全てのユニットを選択して本実施例の策の目的を達成することができる。
また、本開示の各実施例における各機能ユニットは1つの処理ユニットに統合されてもよく、個々のユニットは単独で物理に存在してもよく、2つ又は2つ以上のユニットは1つのユニットに統合されてもよい。
前記機能は、ソフトウェア機能ユニットの形態で実現され且つ独立した製品として販売又は用いられる場合、プロセッサによって実行可能な不揮発性コンピュータ可読記憶媒体に記憶されてもよい。このような理解に基づき、本開示の技術案は、本質的に又は従来技術に寄与する部分又は当該技術案の部分がソフトウェア製品の形で具体化されてもよく、当該コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク機器等であってもよい)に本開示の各実施例に記載される方法の全て又は一部のステップを実行させるための幾つかの命令を含む。前記の記憶媒体は、USBフラッシュディスク、モバイルハードディスク、読み出し専用メモリ(ROM:Read-Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク又は光ディスク等のプログラムコードを記憶できる各種の媒体を含む。
最後、上記実施例が本開示の具体的な実施形態だけであり、本開示の技術案を説明するためのものであり、それを限定しないことを説明すべきであり、本開示の保護範囲は、これに限定されなく、上記実施例を参照して本開示を詳細に説明するが、当業者は、いかなる当業者が本開示で開示される技術範囲内で、依然として上記実施例に記載される技術案を変更し、又は変化を容易に想到し、又は技術的特徴の一部に対して同等の入れ替えを行うことができ、これらの変更、変化又は入れ替えが対応する技術案の本質を本開示の実施例における技術案の精神及び範囲から逸脱させなく、全て本開示の保護範囲に含まれるべきであることを理解すべきである。したがって、本開示の保護範囲は、特許請求の範囲に準拠するべきである。
本開示の実施例は、表情識別方法、装置、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供し、ここで、該方法は、顔画像を取得することと、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つ器官のうち各器官の動作を識別することと、識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定することと、を含む。本開示の実施例による表情識別方法により顔に対して表情識別を行うことにより、表情識別の精度を向上させ、表情識別の正確度を向上させることができる。

Claims (21)

  1. 表情識別方法であって、
    顔画像を取得することと、
    前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を識別することと、
    識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定することと、を含む、方法。
  2. 前記顔画像を取得した後、前記方法は、
    前記顔画像に対して画像の前処理を行い、処理後の顔画像を得ることであって、前記画像の前処理は、前記顔画像に対してキー情報増強処理を行うために用いられる、ことをさらに含み、
    前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を識別することは、
    前記処理後の顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を決定することを含む、ことを特徴とする
    請求項1に記載の方法。
  3. 前記顔画像に対して画像の前処理を行うことは、
    前記顔画像におけるキーポイントの位置情報を決定することと、
    前記キーポイントの位置情報に基づいて、前記顔画像をアフィン変換して、前記顔画像に対応する正面化された画像を得ることと、
    前記正面化された画像を正規化処理し、処理後の顔画像を得ることと、を含むことを特徴とする
    請求項2に記載の方法。
  4. 前記正面化された画像を正規化処理することは、
    前記キーポイントの位置情報に基づいて、前記正面化された画像に対して画像の切り取りを行い、切り取られた画像を得ることと、
    前記切り取られた画像に含まれる各画素点の画素値の平均値、および前記切り取られた画像に含まれる各画素点の画素値の標準偏差を計算することと、
    前記画素値の平均値、および前記画素値の標準偏差に基づいて、前記切り取られた画像における各画素点の画素値を正規化処理することと、を含むことを特徴とする
    請求項3に記載の方法。
  5. 前記顔の器官の動作は、
    眉をひそめる動作、目に角を立てる動作、口角を上に向ける動作、上唇を上に向ける動作、口角を下に向ける動作、口を開く動作、を含むことを特徴とする
    請求項1に記載の方法。
  6. 識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定することは、
    識別された前記各器官の動作、および予め設定された動作と表情状態との対応関係に基づいて、前記顔画像が表す顔の表情状態を決定すること、を含むことを特徴とする
    請求項1に記載の方法。
  7. 前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を識別することは、動作識別のためのニューラルネットワークによって実行され、前記動作識別のためのニューラルネットワークは、バックボーンネットワーク及び少なくとも2つの分類ブランチネットワークを含み、各分類ブランチネットワークは、顔の1つの器官の1つの動作を識別するために用いられ、
    前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を識別することは、
    バックボーンネットワークを利用して前記顔画像に対して特徴抽出を行い、前記顔画像の特徴マップを得ることと、
    各分類ブランチネットワークをそれぞれ利用して前記顔画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得ることと、
    発生確率が予め設定された確率より大きい動作を、前記顔画像が表す顔の器官の動作として決定することと、を含むことを特徴とする
    請求項1~6のいずれか1項に記載の方法。
  8. 前記動作識別のためのニューラルネットワークは、サンプル画像と前記サンプル画像に対応するラベルベクトルとを用いて訓練して得られたものであり、前記サンプル画像に対応するラベルベクトルは、前記サンプル画像が表す顔の器官の動作を示すために用いられ、ラベルベクトルにおける各要素位置の値は、前記サンプル画像に前記要素位置に対応する動作が生成されるか否かを示すために用いられる、ことを特徴とする
    請求項7に記載の方法。
  9. 前記サンプル画像と前記サンプル画像に対応するラベルベクトルとを用いて前記動作識別のためのニューラルネットワークを訓練することは、
    ニューラルネットワークのバックボーンネットワークを利用してサンプル画像に対して特徴抽出を行い、サンプル画像の特徴マップを得ることと、
    各分類ブランチネットワークをそれぞれ利用して、前記サンプル画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得ることと、
    各分類ブランチネットワークによって識別され得る動作の発生確率、及びサンプル画像のラベルベクトルに基づいて、各分類ブランチネットワークに対応する損失値を決定することと、
    前記ニューラルネットワークの各分類ブランチネットワークに対応する損失値に基づいて、前記ニューラルネットワークのパラメータ値を調整することと、を含むことを特徴とする
    請求項8に記載の方法。
  10. 表情識別装置であって、
    顔画像を取得するように構成される取得モジュールと、
    前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つ器官のうち各器官の動作を識別するように構成される識別モジュールと、
    識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定するように構成される決定モジュールと、を備える、装置。
  11. 前記識別モジュールは、さらに、
    顔画像を取得した後、前記顔画像に対して画像の前処理を行い、処理後の顔画像を得るように構成され、前記画像の前処理は、前記顔画像に対してキー情報増強処理を行うために用いられ、
    前記識別モジュールは、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を識別する場合、
    前記処理後の顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を決定するように構成されることを特徴とする
    請求項10に記載の装置。
  12. 前記識別モジュールは、前記顔画像に対して画像の前処理を行う場合、
    前記顔画像におけるキーポイントの位置情報を決定し、
    前記キーポイントの位置情報に基づいて、前記顔画像をアフィン変換して、前記顔画像に対応する正面化された画像を得、
    正面化された画像を正規化処理し、処理後の顔画像を得るように構成されることを特徴とする
    請求項11に記載の装置。
  13. 前記識別モジュールは、正面化された画像を正規化処理する場合、
    前記キーポイントの位置情報に基づいて、前記正面化された画像に対して画像の切り取りを行い、切り取られた画像を得、
    前記切り取られた画像に含まれる各画素点の画素値の平均値、および前記切り取られた画像に含まれる各画素点の画素値の標準偏差を計算し、
    前記画素値の平均値、および前記画素値の標準偏差に基づいて、前記切り取られた画像における各画素点の画素値を正規化処理するように構成されることを特徴とする
    請求項12に記載の装置。
  14. 前記顔の器官の動作は、
    眉をひそめる動作、目に角を立てる動作、口角を上に向ける動作、上唇を上に向ける動作、口角を下に向ける動作、口を開く動作、を含むことを特徴とする
    請求項10項に記載の装置。
  15. 前記決定モジュールは、識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定する場合、
    識別された前記各器官の動作、および予め設定された動作と表情状態との対応関係に基づいて、前記顔画像が表す顔の表情状態を決定するように構成されることを特徴とする
    請求項10に記載の装置。
  16. 前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を識別するステップは、動作識別のためのニューラルネットワークによって実行され、前記動作識別のためのニューラルネットワークは、バックボーンネットワーク及び少なくとも2つの分類ブランチネットワークを含み、各分類ブランチネットワークは、顔の1つの器官の1つの動作を識別するために用いられ、
    前記識別モジュールは、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも2つの器官のうち各器官の動作を識別する場合、
    バックボーンネットワークを利用して前記顔画像に対して特徴抽出を行い、前記顔画像の特徴マップを得、
    各分類ブランチネットワークをそれぞれ利用して前記顔画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得、
    発生確率が予め設定された確率より大きい動作を、前記顔画像が表す顔の器官の動作として決定するように構成されることを特徴とする
    請求項10~15いずれか1項に記載の装置。
  17. 前記装置は、訓練モジュールをさらに備え、前記訓練モジュールは、
    サンプル画像と前記サンプル画像に対応するラベルベクトルとを用いて前記動作識別のためのニューラルネットワークを訓練するように構成され、前記サンプル画像に対応するラベルベクトルは、前記サンプル画像が表す顔の器官の動作を示すために用いられ、ラベルベクトルにおける各要素位置の値は、前記サンプル画像に前記要素位置に対応する動作が生成されるか否かを示すために用いられる、ことを特徴とする
    請求項16に記載の装置。
  18. 前記訓練モジュールは、サンプル画像と前記サンプル画像に対応するラベルベクトルとを用いて前記動作識別のためのニューラルネットワークを訓練する場合、
    ニューラルネットワークのバックボーンネットワークを利用してサンプル画像に対して特徴抽出を行い、サンプル画像の特徴マップを得、
    各分類ブランチネットワークをそれぞれ利用して、前記サンプル画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得、
    各分類ブランチネットワークによって識別され得る動作の発生確率、及びサンプル画像のラベルベクトルに基づいて、各分類ブランチネットワークに対応する損失値を決定し、
    前記ニューラルネットワークの各分類ブランチネットワークに対応する損失値に基づいて、前記ニューラルネットワークのパラメータ値を調整するように構成されることを特徴とする
    請求項17に記載の装置。
  19. プロセッサ、メモリ及びバスを備えるコンピュータ機器であって、前記メモリは、前記プロセッサが実行可能な機械可読命令を記憶し、コンピュータ機器が動作する場合、前記プロセッサと前記メモリとの間がバスを介して通信され、前記プロセッサは、前記機械可読命令を実行して、請求項1~9のいずれか1項に記載の表情識別方法のステップを実施する、コンピュータ機器。
  20. プロセッサに請求項1~9のいずれか1項に記載の表情識別方法のステップを実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
  21. コンピュータプログラムを記憶した非一時的なコンピュータ可読記憶媒体を含むコンピュータプログラム製品であって、コンピュータは、前記コンピュータプログラムを読み取って実行して、請求項1~9のいずれか1項に記載の方法を実現する、コンピュータプログラム製品。
JP2022541909A 2020-01-08 2020-12-10 表情識別方法及び装置、機器、コンピュータ可読記憶媒体並びにコンピュータプログラム Active JP7317241B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010018179.9A CN111209867A (zh) 2020-01-08 2020-01-08 一种表情识别方法及装置
CN202010018179.9 2020-01-08
PCT/CN2020/135263 WO2021139475A1 (zh) 2020-01-08 2020-12-10 一种表情识别方法及装置、设备、计算机可读存储介质、计算机程序产品

Publications (2)

Publication Number Publication Date
JP2023509750A true JP2023509750A (ja) 2023-03-09
JP7317241B2 JP7317241B2 (ja) 2023-07-28

Family

ID=70784167

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022541909A Active JP7317241B2 (ja) 2020-01-08 2020-12-10 表情識別方法及び装置、機器、コンピュータ可読記憶媒体並びにコンピュータプログラム

Country Status (4)

Country Link
JP (1) JP7317241B2 (ja)
KR (1) KR20220106842A (ja)
CN (1) CN111209867A (ja)
WO (1) WO2021139475A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209867A (zh) * 2020-01-08 2020-05-29 上海商汤临港智能科技有限公司 一种表情识别方法及装置
CN111976559A (zh) * 2020-07-08 2020-11-24 好孩子儿童用品有限公司 一种基于机器感知的儿童安全乘坐系统
CN113762107B (zh) * 2021-08-23 2024-05-07 海宁奕斯伟集成电路设计有限公司 对象状态评估方法、装置、电子设备及可读存储介质
CN113855019B (zh) * 2021-08-25 2023-12-29 杭州回车电子科技有限公司 基于eog、emg以及压电信号的表情识别方法和装置
CN113723359A (zh) * 2021-09-16 2021-11-30 未鲲(上海)科技服务有限公司 用户情绪识别方法、装置、计算机设备及可读存储介质
CN115439920B (zh) * 2022-11-03 2023-03-24 之江实验室 基于情绪视听刺激和面部表情的意识状态检测系统、设备
CN116434313B (zh) * 2023-04-28 2023-11-14 北京声迅电子股份有限公司 基于多人脸识别模块的人脸识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222576A (ja) * 1999-01-29 2000-08-11 Nec Corp 人物識別方法及び装置と人物識別プログラムを記録した記録媒体ならびにロボット装置
CN106127139A (zh) * 2016-06-21 2016-11-16 东北大学 一种mooc课程中学生面部表情的动态识别方法
JP2017084302A (ja) * 2015-10-30 2017-05-18 広島県 黒目位置検出装置、電子機器、プログラムおよび黒目位置検出方法
WO2017203769A1 (ja) * 2016-05-23 2017-11-30 アルプス電気株式会社 視線検出方法
JP2018032164A (ja) * 2016-08-23 2018-03-01 株式会社ユニバーサルエンターテインメント 面接システム
JP2018136770A (ja) * 2017-02-22 2018-08-30 沖電気工業株式会社 情報処理装置、方法および情報処理システム
CN109344744A (zh) * 2018-09-14 2019-02-15 北京师范大学 基于深度卷积神经网络的人脸微表情动作单元检测方法
CN109961054A (zh) * 2019-03-29 2019-07-02 山东大学 一种基于感兴趣区域特征点运动的焦虑、抑郁、愤怒表情识别方法
CN110427800A (zh) * 2019-06-17 2019-11-08 平安科技(深圳)有限公司 视频物体加速检测方法、装置、服务器及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011155902A1 (en) * 2010-06-11 2011-12-15 National University Of Singapore General motion-based face recognition
CN103824054B (zh) * 2014-02-17 2018-08-07 北京旷视科技有限公司 一种基于级联深度神经网络的人脸属性识别方法
CN105117703B (zh) * 2015-08-24 2018-10-16 复旦大学 基于矩阵乘法的快速动作单元识别方法
CN108664989B (zh) * 2018-03-27 2019-11-01 北京达佳互联信息技术有限公司 图像标签确定方法、装置及终端
CN109558851A (zh) * 2018-12-04 2019-04-02 广东智媒云图科技股份有限公司 一种基于面部表情的联合作画方法及系统
CN109635727A (zh) * 2018-12-11 2019-04-16 昆山优尼电能运动科技有限公司 一种人脸表情识别方法及装置
CN109683709A (zh) * 2018-12-17 2019-04-26 苏州思必驰信息科技有限公司 基于情绪识别的人机交互方法及系统
CN109766840B (zh) * 2019-01-10 2024-02-20 腾讯科技(深圳)有限公司 人脸表情识别方法、装置、终端及存储介质
CN109961062A (zh) * 2019-04-16 2019-07-02 北京迈格威科技有限公司 图像识别方法、装置、终端和可读存储介质
CN110097021B (zh) * 2019-05-10 2022-09-06 电子科技大学 基于mtcnn的人脸姿态估计方法
CN110188673B (zh) * 2019-05-29 2021-07-30 京东方科技集团股份有限公司 表情识别方法和装置
CN110533120B (zh) * 2019-09-05 2023-12-12 腾讯科技(深圳)有限公司 器官结节的图像分类方法、装置、终端及存储介质
CN111209867A (zh) * 2020-01-08 2020-05-29 上海商汤临港智能科技有限公司 一种表情识别方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222576A (ja) * 1999-01-29 2000-08-11 Nec Corp 人物識別方法及び装置と人物識別プログラムを記録した記録媒体ならびにロボット装置
JP2017084302A (ja) * 2015-10-30 2017-05-18 広島県 黒目位置検出装置、電子機器、プログラムおよび黒目位置検出方法
WO2017203769A1 (ja) * 2016-05-23 2017-11-30 アルプス電気株式会社 視線検出方法
CN106127139A (zh) * 2016-06-21 2016-11-16 东北大学 一种mooc课程中学生面部表情的动态识别方法
JP2018032164A (ja) * 2016-08-23 2018-03-01 株式会社ユニバーサルエンターテインメント 面接システム
JP2018136770A (ja) * 2017-02-22 2018-08-30 沖電気工業株式会社 情報処理装置、方法および情報処理システム
CN109344744A (zh) * 2018-09-14 2019-02-15 北京师范大学 基于深度卷积神经网络的人脸微表情动作单元检测方法
CN109961054A (zh) * 2019-03-29 2019-07-02 山东大学 一种基于感兴趣区域特征点运动的焦虑、抑郁、愤怒表情识别方法
CN110427800A (zh) * 2019-06-17 2019-11-08 平安科技(深圳)有限公司 视频物体加速检测方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN111209867A (zh) 2020-05-29
KR20220106842A (ko) 2022-07-29
WO2021139475A1 (zh) 2021-07-15
JP7317241B2 (ja) 2023-07-28

Similar Documents

Publication Publication Date Title
JP7317241B2 (ja) 表情識別方法及び装置、機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
CN109389069B (zh) 注视点判断方法和装置、电子设备和计算机存储介质
CN107330904B (zh) 图像处理方法、装置、电子设备及存储介质
CN111758116B (zh) 脸部图像识别系统、识别器生成装置、识别装置与系统
KR101525133B1 (ko) 화상처리장치, 정보생성장치, 화상처리방법, 정보생성방법, 제어 프로그램 및 기록매체
JP5361524B2 (ja) パターン認識システム及びパターン認識方法
JP2010271872A (ja) 画像認識装置、撮像装置及び画像認識方法
WO2019033569A1 (zh) 眼球动作分析方法、装置及存储介质
EP3210160A1 (en) Method and system of facial expression recognition using linear relationships within landmark subsets
Vazquez-Fernandez et al. Built-in face recognition for smart photo sharing in mobile devices
US10255487B2 (en) Emotion estimation apparatus using facial images of target individual, emotion estimation method, and non-transitory computer readable medium
WO2019011073A1 (zh) 人脸活体检测方法及相关产品
JP2015529354A (ja) 顔認識のための方法および装置
EP3355220A1 (en) Facial authentication method and electronic device
KR102386444B1 (ko) 이미지 심도 결정 방법 및 생체 식별 방법, 회로, 디바이스, 및 매체
CN111108508B (zh) 脸部情感识别方法、智能装置和计算机可读存储介质
JPWO2019003973A1 (ja) 顔認証装置、顔認証方法およびプログラム
WO2016165614A1 (zh) 一种即时视频中的表情识别方法和电子设备
JP6225460B2 (ja) 画像処理装置、画像処理方法、制御プログラムおよび記録媒体
CN111553838A (zh) 模型参数的更新方法、装置、设备及存储介质
Tepelea et al. A vision module for visually impaired people by using Raspberry PI platform
CN111242273A (zh) 一种神经网络模型训练方法及电子设备
EP3200092A1 (en) Method and terminal for implementing image sequencing
US20220207917A1 (en) Facial expression image processing method and apparatus, and electronic device
EP2998928B1 (en) Apparatus and method for extracting high watermark image from continuously photographed images

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220706

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230718

R150 Certificate of patent or registration of utility model

Ref document number: 7317241

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150