JP2023509750A

JP2023509750A - 表情識別方法及び装置、機器、コンピュータ可読記憶媒体並びにコンピュータプログラム

Info

Publication number: JP2023509750A
Application number: JP2022541909A
Authority: JP
Inventors: イエンジエチェン; フェイワン; チェンチエン
Original assignee: シャンハイセンスタイムリンガンインテリジェントテクノロジーカンパニーリミテッド
Priority date: 2020-01-08
Filing date: 2020-12-10
Publication date: 2023-03-09
Anticipated expiration: 2040-12-10
Also published as: CN111209867A; KR20220106842A; WO2021139475A1; JP7317241B2

Abstract

本開示の実施例は、表情識別方法、装置、コンピュータ可読記憶媒体並びにコンピュータプログラム製品を提供し、前記方法は、顔画像を取得することと、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つ器官のうち各器官の動作を識別することと、識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定することと、を含む。このような方法により、ユーザの表情状態の識別精度を向上させることができる。

Description

（関連出願への相互参照）
本出願は、出願番号が２０２０１００１８１７９．９であり、出願日が２０２０年０１月０８日である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照により本出願に組み込まれる。

本開示は、コンピュータ技術分野に関するが、これに限定されなく、具体的に、表情識別方法及び装置、機器、コンピュータ可読記憶媒体並びにコンピュータプログラム製品に関する。

顔表情識別とは、与えられた静的画像または動的ビデオシーケンスから特定の表情状態を分離し、それによって識別された対象の心理的情緒を決定し、コンピュータによる顔表情の理解と識別を実現することである。

関連技術では、顔表情識別を行うときに、識別されるべき画像を予め訓練された表情識別モデルに入力し、予測して得られた顔表情を出力するのが一般的である。しかし、このような表情識別モデルを訓練する過程で、訓練するために表情ラベル付けのサンプル画像が大量に必要があり、このようなサンプル画像によって訓練された表情識別モデルにより表情識別を行うとき、通常、精度が比較的低い。

本開示の実施例は、表情識別の精度を向上させることができる表情識別方法及び装置、機器、コンピュータ可読記憶媒体並びにコンピュータプログラム製品を提供する。

本開示の実施例は表情識別方法を提供する。当該表情識別方法は、
顔画像を取得することと、
前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を識別することと、
識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定することと、を含む。

本開示のいくつかの実施例では、顔画像を取得した後、前記方法は、
前記顔画像に対して画像の前処理を行い、処理後の顔画像を得ることであって、前記画像の前処理は、前記顔画像に対してキー情報増強処理を行うために用いられる、ことをさらに含み、
前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を識別することは、
前記処理後の顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を決定することを含む。

本開示のいくつかの実施例では、前記顔画像に対して画像の前処理を行うことは、
前記顔画像におけるキーポイントの位置情報を決定することと、
前記キーポイントの位置情報に基づいて、前記顔画像をアフィン変換して、前記顔画像に対応する正面化された画像を得ることと、
正面化された画像を正規化処理し、処理後の顔画像を得ることと、を含む。

本開示のいくつかの実施例では、前記正面化された画像を正規化処理することは、
前記キーポイントの位置情報に基づいて、前記正面化された画像に対して画像の切り取りを行い、切り取られた画像を得ることと、
前記切り取られた画像に含まれる各画素点の画素値の平均値、および前記切り取られた画像に含まれる各画素点の画素値の標準偏差を計算することと、
前記画素値の平均値、および前記画素値の標準偏差に基づいて、前記切り取られた画像における各画素点の画素値を正規化処理することと、を含む。

本開示のいくつかの実施例では、顔の器官の動作は、
眉をひそめる動作、目に角を立てる動作、口角を上に向ける動作、上唇を上に向ける動作、口角を下に向ける動作、口を開く動作、を含む。

本開示のいくつかの実施例では、識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定することは、
識別された前記各器官の動作、および予め設定された動作と表情状態との対応関係に基づいて、前記顔画像が表す顔の表情状態を決定すること、を含む。

本開示のいくつかの実施例では、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を識別することは、動作識別のためのニューラルネットワークによって実行され、前記動作識別のためのニューラルネットワークは、バックボーンネットワーク及び少なくとも２つの分類ブランチネットワークを含み、各分類ブランチネットワークは、顔の１つの器官の１つの動作を識別するために用いられ、
前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を識別することは、
バックボーンネットワークを利用して前記顔画像に対して特徴抽出を行い、前記顔画像の特徴マップを得ることと、
各分類ブランチネットワークをそれぞれ利用して前記顔画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得ることと、
発生確率が予め設定された確率より大きい動作を、前記顔画像が表す顔の器官の動作として決定することと、を含む。

本開示のいくつかの実施例では、前記動作識別のためのニューラルネットワークは、サンプル画像と前記サンプル画像に対応するラベルベクトルとを用いて訓練して得られたものであり、前記サンプル画像に対応するラベルベクトルは、該サンプル画像が表す顔の器官の動作を示すために用いられ、ラベルベクトルにおける各要素位置の値は、該サンプル画像に該要素位置に対応する動作が生成されるか否かを示すために用いられる。

本開示のいくつかの実施例では、サンプル画像と前記サンプル画像に対応するラベルベクトルとを用いて前記動作識別のためのニューラルネットワークを訓練することは、
ニューラルネットワークのバックボーンネットワークを利用してサンプル画像に対して特徴抽出を行い、サンプル画像の特徴マップを得ることと、
各分類ブランチネットワークをそれぞれ利用して、前記サンプル画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得ることと、
各分類ブランチネットワークによって識別され得る動作の発生確率、及びサンプル画像のラベルベクトルに基づいて、各分類ブランチネットワークに対応する損失値を決定することと、
前記ニューラルネットワークの各分類ブランチネットワークに対応する損失値に基づいて、前記ニューラルネットワークのパラメータ値を調整することと、を含む。

本開示の実施例は表情識別装置をさらに提供する。該表情識別装置は、
顔画像を取得するように構成される取得モジュールと、
前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つ器官のうち各器官の動作を識別するように構成される識別モジュールと、
識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定するように構成される決定モジュールと、を備える。

本開示の実施例はコンピュータ機器をさらに提供する。該コンピュータ機器は、プロセッサと、メモリと、バスとを備え、前記メモリは、前記プロセッサが実行可能な機械可読命令を記憶し、コンピュータ機器が動作する場合、前記プロセッサと前記メモリとの間がバスを介して通信され、前記プロセッサは前記機械可読命令を実行して、上記の本開示の実施例で説明された方法の一部又は全てのステップを実施する。

本開示の実施例はコンピュータ可読記憶媒体をさらに提供する。該コンピュータ可読記憶媒体は、コンピュータプログラムが記憶され、該コンピュータプログラムがプロセッサに実行される時、プロセッサに上記の本開示の実施例で説明された方法の一部又は全てのステップを実行させる。

本開示の実施例はコンピュータプログラム製品を提供する。上記コンピュータプログラム製品は、コンピュータプログラムを記憶した非一時的なコンピュータ可読記憶媒体を含み、コンピュータは、上記コンピュータプログラムを読み取って実行する場合、本開示の実施例で説明された方法の一部又は全てのステップを実現する。該コンピュータプログラム製品は、ソフトウェアインストールパッケージであってもよい。

上記表情識別装置、コンピュータ機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品の効果の説明については、上記表情識別方法の説明を参照し、ここで説明を省略する。

本開示の実施例の上記目的、特徴及び利点をより分かりやすくするために、以下において、例示的な実施例を特に挙げ、図面を参照しながら詳しく説明する。

本開示の実施例による表情識別方法の模式的フローチャートである。本開示の実施例による画像の前処理方法の模式的フローチャートである。本開示の実施例による画像の切り取り方法の模式的フローチャートである。本開示の実施例による動作識別のためのニューラルネットワークのネットワーク構造である。本開示の実施例による動作識別のためのニューラルネットワークの訓練方法の模式的フローチャートである。本開示の実施例によるキーポイント検出モデルの訓練方法の模式的フローチャートである。本開示の実施例による表情識別装置のアーキテクチャの模式図である。本開示の実施例による電子機器の構造的模式図である。

本開示の実施例の技術的解決手段をより明瞭に説明するために、以下において、実施例に必要とされる図面について簡単に紹介し、ここでの図面は明細書に組み込まれて本明細書の一部を構成し、これらの図面は本開示に合致する実施例を示し、明細書と共に本開示の技術的解決手段を説明するために用いられる。以下の図面は本開示のいくつかの実施例のみを示すため、範囲を限定するものと見なすべきではなく、当業者にとっては、創造的な労力を要することなく、これらの図面に基づいて他の関連する図面を取得することもできることを理解すべきである。

本開示の実施例の目的、技術的解決手段及び利点をより明確にするために、以下に本開示の実施例における図面を参照しながら本開示の実施例における技術的解決手段を明確且つ完全に説明し、当然ながら、説明される実施例は本開示の実施例の一部に過ぎず、全ての実施例ではない。通常、ここでの図面において記述及び示される本開示の実施例のコンポーネントは様々な異なる構成で配置及び設計されることができる。従って、図面において提供される本開示の実施例についての以下の詳細な説明は、保護が要求される本開示の範囲を限定することを意図するものではなく、単に本開示の選定された実施例を示すものに過ぎない。本開示の実施例に基づき、当業者が創造的な労力を要することなく得られた他の全ての実施例は、いずれも本開示の保護範囲に属する。

関連技術では、顔識別を行うときに、画像におけるユーザの表情をニューラルネットワークに基づいて直接識別するのが一般的である。しかし、このようなニューラルネットワークを訓練する過程で、一般に、サンプル画像におけるユーザの表情を表すための表情ラベルをサンプル画像に追加する必要がある。サンプル画像に表情ラベルを手動で追加する必要があり、追加された表情ラベルにはユーザの主観的な考えがあるため、異なるユーザが同じサンプル画像に異なる表情ラベルを追加する状況（例えば、同じ画像に対して、ユーザＡが追加する可能性のある表情ラベルはゆううつであり、ユーザＢが追加する表情ラベルは思考である）が発生する可能性があり、さらにニューラルネットワークが表情予測を行う時の精度に影響を及ぼす。

これを考慮して、本開示の実施例は、表情識別方法を提供し、それは、顔画像における器官の動作をニューラルネットワークにより識別し、次に、識別された器官の動作に基づいて、顔に対応する表情状態を決定することができる。顔の器官の動作と顔の表情状態との関係は客観的に存在するため、このような方式に基づいて、ユーザが顔画像に対して表情状態の主観的な定義を行う必要はなく、また、顔の器官の動作はある特定の顔特徴に集中されることができるため、顔画像に対して器官の動作の識別を行うことは、表情姿勢の識別を直接行うよりも、正確性を大幅に向上させることができる。したがって、本開示の実施例の上記方法は、顔表情識別の精度を向上させる。

説明すべきものとして、上述技術問題の提出及び分析過程は、いずれも発明者が実践して細心の研究を経てから得られた結果である。従って、上記技術問題の発見過程及び本開示の実施例が上記問題に対して提案する解決手段は、いずれも発明者が本開示において本開示に寄与したものとする。

以下に本開示の実施例における図面を参照しながら本開示の技術的解決手段を明確且つ完全に説明し、当然ながら、説明される実施例は本開示の実施例の一部に過ぎず、全ての実施例ではない。通常、ここでの図面において記述及び示される本開示の実施例のコンポーネントは様々な異なる構成で配置及び設計されることができる。従って、図面において提供される本開示の実施例についての以下の詳細な説明は、保護が要求される本開示の範囲を限定することを意図するものではなく、単に本開示の選定された実施例を示すものに過ぎない。本開示の実施例に基づき、当業者が創造的な労力を要することなく得た他の全ての実施例は、いずれも本開示の保護範囲に属する。

なお、類似する符号及びアルファベットは以下の図面において類似項を表し、従って、ある１項が１つの図面において定義されれば、以降の図面においてそれをさらに定義して解釈する必要がないことに注意されたい。

本開示の実施例を容易に理解するために、まず本開示の実施例により開示される表情識別方法を詳しく説明する。本開示の実施例により提供される表情識別方法の実行本体は一般的に一定の計算能力を有するコンピュータ機器であり、当該コンピュータ機器は、例えば、端末装置又はサーバまたは他の処理装置を含み、端末装置は、ユーザ装置（ＵＥ：ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、移動デバイス、ユーザ端末、端末、セルラー電話、コードレス電話、パーソナルデジタルアシスタント（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ハンドヘルドデバイス、コンピューティング装置、車載装置、ウェアラブル装置などであってもよい。一部の可能な実施形態では、該表情識別方法はプロセッサによりメモリに記憶されたコンピュータ可読命令を呼び出すことで実現されてもよい。

図１は、本発明の実施例により提供される表情識別方法のフローチャートであり、前記方法は以下のステップＳ１０１～Ｓ１０３を含む。

Ｓ１０１において、顔画像を取得する。

Ｓ１０２において、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つ器官のうち各器官の動作を識別する。

Ｓ１０３において、識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定する。

上記方法において、まず顔の器官の動作を識別し、次に、識別された動作に基づいて、顔に対応する表情状態を決定することができる。顔の器官の動作と顔の表情状態との関係は客観的に存在するため、このような方式に基づいて、モデルを訓練する際に、ユーザが顔画像に対して表情状態の主観的な定義を行う必要はなく、また、顔の器官の動作はある特定の顔特徴に集中されることができるため、顔画像に対して器官の動作の識別を行うことは、表情姿勢の識別を直接行うよりも、正確性を大幅に向上させることができる。したがって、本開示の実施例の上記方法は、顔表情識別の精度を向上させる。

以下は、上記のステップ１０１～１０３についての詳細な説明である。

Ｓ１０１について
Ｓ１０１で取得された顔画像は、識別開始の命令を受けた後、該表情識別方法を実行する電子機器に接続された画像収集装置が、撮像した画像であってもよく、データベースに予め記憶された顔画像の集合から取得された顔画像であってもよい。ここで。該表情識別方法を実行する電子機器は、自身で画像収集装置が搭載されてもよく、外部の画像収集装置に接続されてもよく、その接続方式は、有線接続と無線接続とを含み、無線接続は、例えば、ブルートゥース接続、無線ローカルエリアネットワーク接続などであってもよい。

Ｓ１０２について
顔画像を訓練されたニューラルネットワークに入力して顔の器官の動作識別を行う前に、ニューラルネットワークによる動作識別の効率と精度を向上させるために、本開示のいくつかの実施例では、まず顔画像に対して画像の前処理を行い、処理後の顔画像を得、前記画像の前処理は、顔画像に対してキー情報増強処理を行うために用いられる。次に、処理後の顔画像を訓練されたニューラルネットワークに入力して動作識別を行うことができる。ここで、顔画像に対して画像の前処理を行うことにより、顔画像に対してキー情報増強処理を行い、動作識別の精度を向上させることができる。

本開示のいくつかの実施例では、顔画像に対して画像の前処理を行う場合、図２に示す画像の前処理方法を参照し、以下のいくつかのステップを含むことができる。

Ｓ２０１において、顔画像におけるキーポイントの位置情報を決定する。

顔画像におけるキーポイントは、例えば、目角、口角、眉頭、眉の尾、鼻等を含むことができ、実施する時には、顔画像におけるキーポイントが必要に応じて設定されてもよい。キーポイントの位置情報は、顔画像におけるキーポイントの位置座標であってもよく、例示的に、顔画像におけるキーポイントを決定した後、顔画像の左上隅を座標原点とし、左上隅から右上隅の水平方向をＸ軸とし、左上隅から左下隅の垂直方向をＹ軸として直角座標系を確立し、次に顔画像におけるキーポイントの直角座標系における座標を決定し、決定された座標をキーポイントの位置情報とすることができる。

顔画像におけるキーポイントの位置情報を決定する際に、顔画像を訓練されたキーポイント検出モデルに入力し、キーポイントの位置情報を得ることができる。別の実施形態では、キーポイント識別の効率を向上させるために、まず顔画像における顔領域を識別し、顔領域内の画像を切り取り、次に切り取られた顔領域内の画像を訓練されたキーポイント検出モデルに入力し、キーポイントの位置情報を得ることもできる。キーポイント検出モデルの訓練方法については、以下で詳しく説明し、ここでは説明を省略する。

顔画像における顔領域を識別する場合、例えば顔識別アルゴリズムにより識別することができ、識別プロセスについては、説明を省略する。

Ｓ２０２において、キーポイントの位置情報に基づいて、顔画像をアフィン変換して、顔画像に対応する正面化された画像を得る。

キーポイントの位置情報に基づいて、顔画像をアフィン変換する場合、まずキーポイントの位置情報及び予め記憶された目標キーポイントの予め設定された位置情報に基づいて、変換マトリクスを決定し、変換マトリクスは、顔画像における各キーポイントの位置情報と、該キーポイントにマッチングする目標キーポイントの予め設定された位置情報との間の変換関係を表すために用いられ、次に変換マトリクスに基づいて、顔画像をアフィン変換することができる。

キーポイントが目（左目及び右目を含む）及び口であることを例として、予め記憶された目標キーポイントの予め設定された位置情報は、予め記憶された目及び口の位置座標であってもよく、実施する時、予め設定された位置情報は、複数のサンプル画像における目標キーポイントの座標に基づいて平均値を計算して得られたものであってもよい。例示的に、標準的なサンプル画像１００枚を取得すると、サンプル画像における左目を座標原点として、右目と口の位置座標をそれぞれ決定し、次に、口と右目の位置座標の平均値を計算し、算出された平均値と、左目の座標(即ち座標原点)とを目標キーポイントの予め設定された位置情報として決定することができる。

実際の応用では、左目を座標原点としなくてもよい。この場合、目標キーポイントの予め設定された位置情報は、左目と右目の間の距離、口と左目の間の距離、口と右目の間の距離など、目標キーポイント間の位置関係であってもよい。

本開示のいくつかの実施例では、予め記憶された目標キーポイントの予め設定された位置情報は、手動で設定されてもよい。

キーポイントの位置情報及び予め記憶された目標キーポイントの予め設定された位置情報に基づいて、変換マトリクスを決定する場合、以下の式（１－１）に従って計算することができる。

式（１－１）

ここで、ｘ^’、ｙ^’は、予め記憶された目標キーポイントの横座標、縦座標を表し、ｘ、ｙは、キーポイントの横座標、縦座標を表し、

は、変換マトリクスを表す。

変換マトリクスに基づいて、顔画像をアフィン変換する場合、まず顔画像における各画素点の座標を決定し、次に、顔画像における各画素点の座標を上記式に代入し、各画素点に対応する変換後の座標を決定し、各画素点に対応する変換後の座標に基づいて、顔画像に対応する正面化された画像を決定することができる。

顔画像をアフィン変換することにより、顔画像における異なる向きの顔画像を正面向きの顔画像に変換し、顔画像に対応する正面化された画像に基づいて動作識別を行うことができ、それによって動作識別の精度を向上させることができる。

Ｓ２０３において、正面化された画像を正規化処理し、処理後の顔画像を得る。

本開示のいくつかの実施例では、キーポイントの位置情報に基づいて、顔画像をアフィン変換して、顔画像に対応する正面化された画像を得た後、キーポイントの位置情報に基づいて、正面化された画像に対して画像の切り取りを行い、切り取られた画像を得、次に、切り取られた画像を正規化処理することもできる。ここで、正面化された画像に対して画像の切り取り処理を行うことにより、顔部分以外の背景領域が動作識別速度に及ぼす影響を低減することができる。

キーポイントの位置情報に基づいて、正面化された画像に対して画像の切り取りを行う場合、まず、正面化された画像における全てのキーポイントの位置情報のうち、横座標及び縦座標の最大値と最小値を決定し、次に、横座標及び縦座標の最大値と最小値に基づいて、正面化された画像に対して画像の切り取りを行うことができる。

例示的に、図３に示すように、識別されたキーポイント３１のうち、横座標の最大値がｘ_１、最小値がｘ_２、縦座標の最大値がｙ_１、最小値がｙ_２であると、まず横座標及び縦座標の最大値と最小値に基づいて最小カット領域を決定し、次に、最小カット領域から予め設定された距離の領域をカットライン３２として、正面化された画像３３に対して画像の切り取りを行うことができる。

切り取られた画像を正規化処理する場合、まず、切り取られた画像に含まれる各画素点の画素値の平均値、および切り取られた画像に含まれる各画素点の画素値の標準偏差を計算し、次に、画素値の平均値、および画素値の標準偏差に基づいて、切り取られた画像における各画素点の画素値を正規化処理することができる。

本開示のいくつかの実施例では、画素値の平均値、及び画素値の標準偏差に基づいて、切り取られた画像における各画素点の画素値を正規化処理する場合、以下の式（１－２）を参照することができる。

式（１－２）

ここで、Ｚは、画素点の正規化処理後の画素値を表し、Ｘは、画素点の正規化処理前の画素値を表し、μは、画素値の平均値を表し、σは、画素値の標準偏差を表す。

ここで、キーポイントの位置情報により、顔画像をアフィン変換した後、顔画像に対する正面化を実現し、顔画像におけるユーザの顔面の向きが器官の動作識別に及ぼす影響を回避することができる。さらに、正面化された画像を正規化処理することにより、アフィン変換後に現れる本来存在しない顔特徴が器官の動作識別に及ぼす影響を弱めることができる。

本開示のいくつかの実施例では、顔画像に対して画像の前処理を行う前に、まず、顔画像の画像タイプを検出してもよく、顔画像がＲＧＢカラー画像であることが検出されると、まず顔画像をグレースケール画像に変換し、次に、変換後の画像に対して画像の前処理プロセスを実行し、顔画像がグレースケール画像であることが検出されると、顔画像に対して画像の前処理プロセスを実行することができる。

顔画像に基づいて、顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を識別するステップは、動作識別のためのニューラルネットワークによって実行され得る。動作識別のためのニューラルネットワークは、バックボーンネットワーク及び少なくとも２つの分類ブランチネットワークを含み、各分類ブランチネットワークは、１つの器官の動作を識別するために用いられる。

本開示のいくつかの実施例では、顔画像を動作識別のためのニューラルネットワークに入力、バックボーンネットワークを利用して顔画像に対して特徴抽出を行い、顔画像の特徴マップを得、次に、各ブランチネットワークをそれぞれ利用して顔画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得、発生確率が予め設定された確率より大きい動作を、顔画像が表す顔の器官の動作として決定することができる。

ここで、顔の器官の動作は、
眉をひそめる動作、目に角を立てる動作、口角を上に向ける動作、上唇を上に向ける動作、口角を下に向ける動作、口を開く動作を含む。

例示的に、動作識別のためのニューラルネットワークのネットワーク構造は、図４に示すようにすることができる。ニューラルネットワークは、分類ブランチネットワーク４２１～４２６を含み、分類ブランチネットワーク４２１は、動作１を識別するために用いられ、分類ブランチネットワーク４２２は、動作２を識別するために用いられ、このようにして、顔画像がニューラルネットワークの各分類ブランチネットワークに入力された後、まずバックボーンネットワーク４１０に基づいて顔画像に対して特徴抽出を行い、顔画像に対応する特徴マップを得、次に、顔画像に対応する特徴マップを各分類ブランチネットワークにそれぞれ入力し、各分類ブランチネットワークにより該ネットワークに対応する器官の動作の発生確率を出力し、各分類ブランチネットワークの出力をさらに分類ネットワーク４３０に入力し、分類ネットワーク４３０は、対応する発生確率が予め設定された確率よりも大きい器官の動作を出力することができる。分類ネットワーク４３０の出力はニューラルネットワークの出力である。

なお、動作識別のためのニューラルネットワークにおける各分類ブランチネットワークは、同時に訓練されるものであり、その訓練方法については、以下に説明するが、ここでは紹介しない。

顔画像に複数の器官の動作が含まれる場合、このような方法により、顔画像に対応する複数の器官の動作を同時に識別することができ、また、ここでは、各分類ブランチネットワークを用いてそれぞれ対応する器官の動作を識別し、各分類ブランチネットワークを訓練する際に、特定の動作に対応する画像特徴に集中することができるため、このような方式によれば、訓練された分類ブランチネットワークの識別精度がより高くなり、それによって、画像識別時の正確度をより高くすることができる。

Ｓ１０３について
実際の応用では,ユーザの表情状態とユーザの顔動作との間に一定の対応関係があり、例示的に、ユーザの顔面動作が口角を上に向ける動作である場合、対応する表情状態が楽しみであり、ユーザの顔面動作が目に角を立て且つ口を開く動作である場合,対応する表情状態が驚きである。

本開示のいくつかの実施例では、識別された器官の動作に基づいて、顔画像に対応するユーザの表情状態を決定する場合、識別された顔の各器官の動作、および予め設定された動作と表情状態との対応関係に基づいて、顔画像に対応するユーザの表情状態を決定してもよい。

ここで、予め設定された動作と表情状態との対応関係は、例示的に、表１に示すようにすることができる。

この方法により、まず顔画像における器官の動作を識別し、次に、識別された器官の動作に基づいて、顔画像に対応するユーザの表情状態を決定することができ、ユーザの表情状態を直接識別することに比べて、このような方式により、ユーザの主観的な意識が識別結果に及ぼす影響を低減し、ユーザの表情状態識別の精度を向上させることができる。

図５は、本開示の実施例による動作識別のためのニューラルネットワークの訓練方法の模式的フローチャートであり、以下のいくつかのステップを含む。

Ｓ５０１において、サンプル画像と前記サンプル画像に対応するラベルベクトルを取得する。

前記サンプル画像に対応するラベルベクトルは、該サンプル画像が表す顔の器官の動作を示すために用いられる。ラベルベクトルにおける各要素位置の値は、該サンプル画像に該要素位置に対応する動作が生成されるか否かを示すために用いられる。

動作識別のための同じニューラルネットワークを訓練する過程で、異なるサンプル画像に対応するラベルベクトルの要素値の個数は同じであり、ラベルベクトルの要素値の個数はニューラルネットワークに含まれる分類ブランチネットワークの個数と同じである。

例示的に、ラベルベクトルの要素の個数が６個を含む場合、１番目の要素は眉をひそめるかどうかを示し、２番目の要素は目に角を立てるかどうかを示し、３番目の要素は口角を上に向けるかどうかを示し、４番目の要素は上唇を上に向けるかどうかを示し、５番目の要素は口角を下に向けるかどうかを示し、６番目の要素は口を開くかどうかを示し、ユーザの動作が目に角を立て、口を開く動作であると、対応するラベルベクトルは、［０，１，０，０，０，１］(ラベルベクトルにおける「０」は、該要素位置に対応する顔位置で対応する動作が発生しないことを示し、「１」は、該要素位置に対応する顔位置で対応する動作が発生したことを示す)である。

Ｓ５０２において、ニューラルネットワークのバックボーンネットワークを利用してサンプル画像に対して特徴抽出を行い、サンプル画像の特徴マップを得る。

Ｓ５０３において、各分類ブランチネットワークをそれぞれ利用して、前記サンプル画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得る。

Ｓ５０４において、各分類ブランチネットワークによって識別され得る動作の発生確率、及びサンプル画像のラベルベクトルに基づいて、各分類ブランチネットワークに対応する損失値を決定する。

本開示のいくつかの実施例では、分類ブランチネットワークのいずれかについては、該分類ブランチネットワークに対応する損失値を決定する場合、以下の式を参照することができる。

ここで、ｎの値は、ラベルベクトルにおける要素個数であり、ｙ_ｋは、ラベルベクトルにおけるｋ番目の要素を表し、ｐは、該分類ブランチネットワークにより出力された発生確率を表す。

Ｓ５０５において、前記ニューラルネットワークの各分類ブランチネットワークに対応する損失値に基づいて、前記ニューラルネットワークのパラメータ値を調整する。

本開示のいくつかの実施例では、ニューラルネットワークの各分類ブランチネットワークに対応する損失値に基づいて、ニューラルネットワークのパラメータ値を調整する場合、まず、ニューラルネットワークの各分類ブランチネットワークに対応する損失値に基づいて、今回の訓練中の総損失を決定し、例えば、各分類ブランチネットワークに対応する損失値の和を、今回の訓練中の総損失とし、次に、勾配バックプロパゲーションの方法によりニューラルネットワークのパラメータ値を調整することができる。

このような方式により、各分類ブランチネットワークに対応する損失値に基づいて、ニューラルネットワークのパラメータを調整することができ、これにより複数の分類ブランチネットワークの同時訓練を実現し、複数の器官の動作を識別する過程で応用されるニューラルネットワークの訓練効率を向上させることができる。

図６に示すように、図６は、本開示の実施例によるキーポイント検出モデルの訓練方法の模式的フローチャートであり、以下のいくつかのステップを含む。

Ｓ６０１において、ラベル付きのサンプル画像を取得し、前記ラベルは、前記サンプル画像におけるキーポイントの位置を示すために用いられる。

ここで、サンプル画像におけるラベルは、手動で付けられ得る。

Ｓ６０２において、前記ラベル付きのサンプル画像を訓練されるべきキーポイント検出モデルに入力し、前記キーポイント検出モデルに対応する予測キーポイント位置を得る。

Ｓ６０３において、前記サンプル画像のラベル、及び前記サンプル画像に対応する予測キーポイント位置に基づいて、今回の訓練プロセスでの損失値を決定し、前記損失値に基づいて、前記キーポイント検出モデルのパラメータ値を調整する。

当業者は、具体的な実施形態の上記方法において、各ステップの書き込み順序が厳密な実行順序を意味して実施プロセスに対するいかなる制限を構成せず、各ステップの具体的な実行順序がその機能及び可能な内部論理で決定されるべきであることを理解することができる。

同じ概念に基づいて、本開示の実施例は、表情識別方法に対応する表情識別装置をさらに提供する。本開示の実施例における装置が問題を解決する原理は、本開示の実施例の上記の表情識別方法と類似し、したがって、装置の実施は、方法の実施を参照することができ、繰り返し点については説明を省略する。

図７は、本開示の実施例による表情識別装置のアーキテクチャの模式図であり、前記装置は、取得モジュール７０１と、識別モジュール７０２と、決定モジュール７０３と、訓練モジュール７０４とを備える。

取得モジュール７０１は、顔画像を取得するように構成される。

識別モジュール７０２は、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つ器官のうち各器官の動作を識別するように構成される。

決定モジュール７０３は、識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定するように構成される。

本開示のいくつかの実施例では、前記識別モジュール７０２は、さらに、
顔画像を取得した後、前記顔画像に対して画像の前処理を行い、処理後の顔画像を得るように構成され、前記画像の前処理は、前記顔画像に対してキー情報増強処理を行うために用いられ、
前記識別モジュール７０２は、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を識別する場合、
前記処理後の顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を決定するように構成される。

本開示のいくつかの実施例では、前記識別モジュール７０２は、前記顔画像に対して画像の前処理を行う場合、
前記顔画像におけるキーポイントの位置情報を決定し、
前記キーポイントの位置情報に基づいて、前記顔画像をアフィン変換して、前記顔画像に対応する正面化された画像を得、
正面化された画像を正規化処理し、処理後の顔画像を得るように構成される。

本開示のいくつかの実施例では、前記識別モジュール７０２は、正面化された画像を正規化処理する場合、
前記キーポイントの位置情報に基づいて、前記正面化された画像に対して画像の切り取りを行い、切り取られた画像を得、
前記切り取られた画像に含まれる各画素点の画素値の平均値、および前記切り取られた画像に含まれる各画素点の画素値の標準偏差を計算し、
前記画素値の平均値、および前記画素値の標準偏差に基づいて、前記切り取られた画像における各画素点の画素値を正規化処理するように構成される。

本開示のいくつかの実施例では、前記決定モジュール７０３は、識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定する場合、
識別された前記各器官の動作、および予め設定された動作と表情状態との対応関係に基づいて、前記顔画像が表す顔の表情状態を決定するように構成される。

本開示のいくつかの実施例では、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を識別するステップは、動作識別のためのニューラルネットワークによって実行され、前記動作識別のためのニューラルネットワークは、バックボーンネットワーク及び少なくとも２つの分類ブランチネットワークを含み、各分類ブランチネットワークは、顔の１つの器官の１つの動作を識別するために用いられ、
前記識別モジュール７０２は、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を識別する場合、
バックボーンネットワークを利用して前記顔画像に対して特徴抽出を行い、前記顔画像の特徴マップを得、
各分類ブランチネットワークをそれぞれ利用して前記顔画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得、
発生確率が予め設定された確率より大きい動作を、前記顔画像が表す顔の器官の動作として決定するように構成される。

本開示のいくつかの実施例では、前記装置は、訓練モジュール７０４をさらに備え、前記訓練モジュール７０４は、
サンプル画像と前記サンプル画像に対応するラベルベクトルとを用いて前記動作識別のためのニューラルネットワークを訓練するように構成され、前記サンプル画像に対応するラベルベクトルは、該サンプル画像が表す顔の器官の動作を示すために用いられ、ラベルベクトルにおける各要素位置の値は、該サンプル画像に前記要素位置に対応する動作が生成されるか否かを示すために用いられる。

本開示のいくつかの実施例では、前記訓練モジュール７０４は、サンプル画像と前記サンプル画像に対応するラベルベクトルとを用いて前記動作識別のためのニューラルネットワークを訓練する場合、
ニューラルネットワークのバックボーンネットワークを用いてサンプル画像に対して特徴抽出を行い、サンプル画像の特徴マップを得、
各分類ブランチネットワークをそれぞれ用いて、前記サンプル画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得、
各分類ブランチネットワークによって識別され得る動作の発生確率、及びサンプル画像のラベルベクトルに基づいて、各分類ブランチネットワークに対応する損失値を決定し、
前記ニューラルネットワークの各分類ブランチネットワークに対応する損失値に基づいて、前記ニューラルネットワークのパラメータ値を調整するように構成される。

装置における各モジュールの処理プロセス、および各モジュール間のインタラクションプロセスについては、上述した方法の実施例における関連する説明を参照することができ、ここで説明を省略する。

同じ概念に基づいて、本開示の実施例は、コンピュータ機器をさらに提供する。図８は、本開示の実施例によるコンピュータ機器の構造的模式図である。前記コンピュータ機器は、プロセッサ８０１と、メモリ８０２と、バス８０３とを備える。ここで、メモリ８０２は、実行命令を記憶し、内部メモリ８０２１と外部メモリ８０２２とを備え、ここでの内部メモリ８０２１は、内部記憶装置とも呼ばれ、プロセッサ８０１内の演算データ、及びハードディスクなどの外部メモリ８０２２と交換するデータを一時的に記憶する。プロセッサ８０１は、内部メモリ８０２１を介して外部メモリ８０２２とデータ交換を行い、電子機器８００が動作する場合、プロセッサ８０１とメモリ８０２の間は、バス８０３を介して通信され、これにより、プロセッサ８０１は、
顔画像を取得することと、
前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つ器官のうち各器官の動作を識別することと、
識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定することと、を実行する。

本開示の実施例は、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体をさらに提供し、当該コンピュータプログラムがプロセッサに実行される時にプロセッサに上記方法の実施例で説明される表情識別方法のステップを実行させる。ここで、該記憶媒体は、揮発性又は不揮発性のコンピュータ可読記憶媒体であってもよい。

本開示の実施例によって提供される表情識別方法のコンピュータプログラム製品は、プログラムコードが記憶されたコンピュータ可読記憶媒体を含み、前記プログラムコードに含まれる命令がコンピュータに上記方法の実施例で説明される表情識別方法のステップを実行させてもよい。実施する際には、上記方法の実施例を参照することができ、ここで説明を省略する。

本開示の実施例は、コンピュータプログラムをさらに提供し、該コンピュータプログラムがプロセッサに実行される時に、コンピュータに前述の実施例の任意の一つの方法を実現させる。上記コンピュータプログラム製品は、ハードウェア、ソフトウェア又はそれらの組み合わせで実現されてもよい。本開示のいくつかの実施例では、前記コンピュータプログラム製品は、コンピュータ記憶媒体として具体化され、本開示の他の実施例では、コンピュータプログラム製品は、ソフトウェア開発キット（ＳＤＫ：ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ）などのソフトウェア製品として具体化される。

当業者は、便利及び簡潔に説明するために、上記説明されたシステムと装置の動作プロセスについては、前記方法の実施例における対応するプロセスを参照でき、ここで説明を省略することを明確に理解することができる。本開示で提供される幾つかの実施例では、開示されるシステム、装置及び方法は、他の方式により実現されてもよいことが理解すべきである。上記説明された装置の実施例は例示的なものだけであり、例えば、前記ユニットの区分は、論理機能的区分だけであり、実際に実現する時に他の区分方式もあり得、また、例えば、複数のユニット又はコンポーネントは組み合わせられてもよく又は別のシステムに統合されてもよく、又は一部の特徴は無視されてもよく、又は実行されなくてもよい。また、示され、又は議論される相互結合又は直接結合又は通信接続は、一部の通信インタフェース、装置又はユニットを介す間接的結合又は通信接続であってもよく、電気的、機械的又は他の形態であってもよい。

分離部材として説明されたユニットは物理的に分離するものであってもよく又は物理的に分離するものでなくてもよく、ユニットとして表示される部材は物理ユニットであってもよく又は物理ユニットでなくてもよく、即ち１つの箇所に位置してもよく、又は複数のネットワークユニットに分布してもよい。実際のニーズに応じてそのうちの一部又は全てのユニットを選択して本実施例の策の目的を達成することができる。

また、本開示の各実施例における各機能ユニットは１つの処理ユニットに統合されてもよく、個々のユニットは単独で物理に存在してもよく、２つ又は２つ以上のユニットは１つのユニットに統合されてもよい。

前記機能は、ソフトウェア機能ユニットの形態で実現され且つ独立した製品として販売又は用いられる場合、プロセッサによって実行可能な不揮発性コンピュータ可読記憶媒体に記憶されてもよい。このような理解に基づき、本開示の技術案は、本質的に又は従来技術に寄与する部分又は当該技術案の部分がソフトウェア製品の形で具体化されてもよく、当該コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータ機器（パーソナルコンピュータ、サーバ、又はネットワーク機器等であってもよい）に本開示の各実施例に記載される方法の全て又は一部のステップを実行させるための幾つかの命令を含む。前記の記憶媒体は、ＵＳＢフラッシュディスク、モバイルハードディスク、読み出し専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスク等のプログラムコードを記憶できる各種の媒体を含む。

最後、上記実施例が本開示の具体的な実施形態だけであり、本開示の技術案を説明するためのものであり、それを限定しないことを説明すべきであり、本開示の保護範囲は、これに限定されなく、上記実施例を参照して本開示を詳細に説明するが、当業者は、いかなる当業者が本開示で開示される技術範囲内で、依然として上記実施例に記載される技術案を変更し、又は変化を容易に想到し、又は技術的特徴の一部に対して同等の入れ替えを行うことができ、これらの変更、変化又は入れ替えが対応する技術案の本質を本開示の実施例における技術案の精神及び範囲から逸脱させなく、全て本開示の保護範囲に含まれるべきであることを理解すべきである。したがって、本開示の保護範囲は、特許請求の範囲に準拠するべきである。

本開示の実施例は、表情識別方法、装置、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供し、ここで、該方法は、顔画像を取得することと、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つ器官のうち各器官の動作を識別することと、識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定することと、を含む。本開示の実施例による表情識別方法により顔に対して表情識別を行うことにより、表情識別の精度を向上させ、表情識別の正確度を向上させることができる。

Claims

表情識別方法であって、
顔画像を取得することと、
前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を識別することと、
識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定することと、を含む、方法。
前記顔画像を取得した後、前記方法は、
前記顔画像に対して画像の前処理を行い、処理後の顔画像を得ることであって、前記画像の前処理は、前記顔画像に対してキー情報増強処理を行うために用いられる、ことをさらに含み、
前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を識別することは、
前記処理後の顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を決定することを含む、ことを特徴とする
請求項１に記載の方法。
前記顔画像に対して画像の前処理を行うことは、
前記顔画像におけるキーポイントの位置情報を決定することと、
前記キーポイントの位置情報に基づいて、前記顔画像をアフィン変換して、前記顔画像に対応する正面化された画像を得ることと、
前記正面化された画像を正規化処理し、処理後の顔画像を得ることと、を含むことを特徴とする
請求項２に記載の方法。
前記正面化された画像を正規化処理することは、
前記キーポイントの位置情報に基づいて、前記正面化された画像に対して画像の切り取りを行い、切り取られた画像を得ることと、
前記切り取られた画像に含まれる各画素点の画素値の平均値、および前記切り取られた画像に含まれる各画素点の画素値の標準偏差を計算することと、
前記画素値の平均値、および前記画素値の標準偏差に基づいて、前記切り取られた画像における各画素点の画素値を正規化処理することと、を含むことを特徴とする
請求項３に記載の方法。
前記顔の器官の動作は、
眉をひそめる動作、目に角を立てる動作、口角を上に向ける動作、上唇を上に向ける動作、口角を下に向ける動作、口を開く動作、を含むことを特徴とする
請求項１に記載の方法。
識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定することは、
識別された前記各器官の動作、および予め設定された動作と表情状態との対応関係に基づいて、前記顔画像が表す顔の表情状態を決定すること、を含むことを特徴とする
請求項１に記載の方法。
前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を識別することは、動作識別のためのニューラルネットワークによって実行され、前記動作識別のためのニューラルネットワークは、バックボーンネットワーク及び少なくとも２つの分類ブランチネットワークを含み、各分類ブランチネットワークは、顔の１つの器官の１つの動作を識別するために用いられ、
前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を識別することは、
バックボーンネットワークを利用して前記顔画像に対して特徴抽出を行い、前記顔画像の特徴マップを得ることと、
各分類ブランチネットワークをそれぞれ利用して前記顔画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得ることと、
発生確率が予め設定された確率より大きい動作を、前記顔画像が表す顔の器官の動作として決定することと、を含むことを特徴とする
請求項１～６のいずれか１項に記載の方法。
前記動作識別のためのニューラルネットワークは、サンプル画像と前記サンプル画像に対応するラベルベクトルとを用いて訓練して得られたものであり、前記サンプル画像に対応するラベルベクトルは、前記サンプル画像が表す顔の器官の動作を示すために用いられ、ラベルベクトルにおける各要素位置の値は、前記サンプル画像に前記要素位置に対応する動作が生成されるか否かを示すために用いられる、ことを特徴とする
請求項７に記載の方法。
前記サンプル画像と前記サンプル画像に対応するラベルベクトルとを用いて前記動作識別のためのニューラルネットワークを訓練することは、
ニューラルネットワークのバックボーンネットワークを利用してサンプル画像に対して特徴抽出を行い、サンプル画像の特徴マップを得ることと、
各分類ブランチネットワークをそれぞれ利用して、前記サンプル画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得ることと、
各分類ブランチネットワークによって識別され得る動作の発生確率、及びサンプル画像のラベルベクトルに基づいて、各分類ブランチネットワークに対応する損失値を決定することと、
前記ニューラルネットワークの各分類ブランチネットワークに対応する損失値に基づいて、前記ニューラルネットワークのパラメータ値を調整することと、を含むことを特徴とする
請求項８に記載の方法。
表情識別装置であって、
顔画像を取得するように構成される取得モジュールと、
前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つ器官のうち各器官の動作を識別するように構成される識別モジュールと、
識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定するように構成される決定モジュールと、を備える、装置。
前記識別モジュールは、さらに、
顔画像を取得した後、前記顔画像に対して画像の前処理を行い、処理後の顔画像を得るように構成され、前記画像の前処理は、前記顔画像に対してキー情報増強処理を行うために用いられ、
前記識別モジュールは、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を識別する場合、
前記処理後の顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を決定するように構成されることを特徴とする
請求項１０に記載の装置。
前記識別モジュールは、前記顔画像に対して画像の前処理を行う場合、
前記顔画像におけるキーポイントの位置情報を決定し、
前記キーポイントの位置情報に基づいて、前記顔画像をアフィン変換して、前記顔画像に対応する正面化された画像を得、
正面化された画像を正規化処理し、処理後の顔画像を得るように構成されることを特徴とする
請求項１１に記載の装置。
前記識別モジュールは、正面化された画像を正規化処理する場合、
前記キーポイントの位置情報に基づいて、前記正面化された画像に対して画像の切り取りを行い、切り取られた画像を得、
前記切り取られた画像に含まれる各画素点の画素値の平均値、および前記切り取られた画像に含まれる各画素点の画素値の標準偏差を計算し、
前記画素値の平均値、および前記画素値の標準偏差に基づいて、前記切り取られた画像における各画素点の画素値を正規化処理するように構成されることを特徴とする
請求項１２に記載の装置。
前記顔の器官の動作は、
眉をひそめる動作、目に角を立てる動作、口角を上に向ける動作、上唇を上に向ける動作、口角を下に向ける動作、口を開く動作、を含むことを特徴とする
請求項１０項に記載の装置。
前記決定モジュールは、識別された前記各器官の動作に基づいて、前記顔画像が表す顔の表情状態を決定する場合、
識別された前記各器官の動作、および予め設定された動作と表情状態との対応関係に基づいて、前記顔画像が表す顔の表情状態を決定するように構成されることを特徴とする
請求項１０に記載の装置。
前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を識別するステップは、動作識別のためのニューラルネットワークによって実行され、前記動作識別のためのニューラルネットワークは、バックボーンネットワーク及び少なくとも２つの分類ブランチネットワークを含み、各分類ブランチネットワークは、顔の１つの器官の１つの動作を識別するために用いられ、
前記識別モジュールは、前記顔画像に基づいて、前記顔画像が表す顔の少なくとも２つの器官のうち各器官の動作を識別する場合、
バックボーンネットワークを利用して前記顔画像に対して特徴抽出を行い、前記顔画像の特徴マップを得、
各分類ブランチネットワークをそれぞれ利用して前記顔画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得、
発生確率が予め設定された確率より大きい動作を、前記顔画像が表す顔の器官の動作として決定するように構成されることを特徴とする
請求項１０～１５いずれか１項に記載の装置。
前記装置は、訓練モジュールをさらに備え、前記訓練モジュールは、
サンプル画像と前記サンプル画像に対応するラベルベクトルとを用いて前記動作識別のためのニューラルネットワークを訓練するように構成され、前記サンプル画像に対応するラベルベクトルは、前記サンプル画像が表す顔の器官の動作を示すために用いられ、ラベルベクトルにおける各要素位置の値は、前記サンプル画像に前記要素位置に対応する動作が生成されるか否かを示すために用いられる、ことを特徴とする
請求項１６に記載の装置。
前記訓練モジュールは、サンプル画像と前記サンプル画像に対応するラベルベクトルとを用いて前記動作識別のためのニューラルネットワークを訓練する場合、
ニューラルネットワークのバックボーンネットワークを利用してサンプル画像に対して特徴抽出を行い、サンプル画像の特徴マップを得、
各分類ブランチネットワークをそれぞれ利用して、前記サンプル画像の特徴マップに基づいて動作識別を行い、各分類ブランチネットワークによって識別され得る動作の発生確率を得、
各分類ブランチネットワークによって識別され得る動作の発生確率、及びサンプル画像のラベルベクトルに基づいて、各分類ブランチネットワークに対応する損失値を決定し、
前記ニューラルネットワークの各分類ブランチネットワークに対応する損失値に基づいて、前記ニューラルネットワークのパラメータ値を調整するように構成されることを特徴とする
請求項１７に記載の装置。
プロセッサ、メモリ及びバスを備えるコンピュータ機器であって、前記メモリは、前記プロセッサが実行可能な機械可読命令を記憶し、コンピュータ機器が動作する場合、前記プロセッサと前記メモリとの間がバスを介して通信され、前記プロセッサは、前記機械可読命令を実行して、請求項１～９のいずれか１項に記載の表情識別方法のステップを実施する、コンピュータ機器。
プロセッサに請求項１～９のいずれか１項に記載の表情識別方法のステップを実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
コンピュータプログラムを記憶した非一時的なコンピュータ可読記憶媒体を含むコンピュータプログラム製品であって、コンピュータは、前記コンピュータプログラムを読み取って実行して、請求項１～９のいずれか１項に記載の方法を実現する、コンピュータプログラム製品。