JP2024013280A - 感情判定装置およびモデル学習装置、ならびに、それらのプログラム - Google Patents

感情判定装置およびモデル学習装置、ならびに、それらのプログラム Download PDF

Info

Publication number
JP2024013280A
JP2024013280A JP2022115233A JP2022115233A JP2024013280A JP 2024013280 A JP2024013280 A JP 2024013280A JP 2022115233 A JP2022115233 A JP 2022115233A JP 2022115233 A JP2022115233 A JP 2022115233A JP 2024013280 A JP2024013280 A JP 2024013280A
Authority
JP
Japan
Prior art keywords
facial
feature
emotion
model
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022115233A
Other languages
English (en)
Inventor
裕也 ▲桑▼野
正樹 高橋
貴裕 望月
雅規 佐野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2022115233A priority Critical patent/JP2024013280A/ja
Publication of JP2024013280A publication Critical patent/JP2024013280A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像に映った人物の感情を精度よく判定することが可能な感情判定装置を提供する。【解決手段】感情判定装置1は、予め学習された3次元顔特徴点抽出モデルを用いて、入力された顔画像から顔の3次元の特徴点の位置を抽出する3次元顔特徴点抽出手段21と、予め学習された顔画像特徴抽出モデルを用いて、入力された顔画像から顔の特徴量である顔画像特徴ベクトルを抽出する顔画像特徴抽出手段22と、顔の3次元の特徴点の位置と顔画像特徴ベクトルとを連結した特徴ベクトルを生成する特徴量結合手段23と、予め学習された感情判定モデルを用いて、特徴ベクトルから予め定めた感情のラベルを判定する判定手段24と、を備える。【選択図】図1

Description

本発明は、顔画像から人物の感情を判定する感情判定装置およびモデル学習装置、ならびに、それらのプログラムに関する。
近年、ユニバーサルサービスの拡充を行うことは社会として重要な取り組みの一つとなっている。放送コンテンツにおいても同様の取り組みが多数行われており、字幕放送や手話実況などもその一つである。
また、近年では視覚障害者を含めたすべての人がより高い臨場感で視聴可能な映像メディアの実現を目指す技術の研究開発が進められている。例えば、競技映像から「得点」などの試合イベントをリアルタイムに取得し、その試合イベントに応じた触覚振動を触覚提示デバイスに提示することで、視聴者により高い臨場感を提供することができる。
また、放送コンテンツにおけるコンテンツ内の登場人物の感情を提示することも視聴者に高い臨場感を提供することに繋がる。
このようなコンテンツ内における人物の画像から感情を判定する手法は、機械学習を用いた手法として数多く研究されている。例えば、畳み込みニューラルネットワークを用いて、顔画像の特徴を捉えて感情を判定する手法が開示されている(特許文献1,非特許文献1参照)。
また、放送映像では人物が正面を向いているとは限らない。そこで、顔の傾き、障害物(例えば、手で顔を覆っている、眼鏡をかけている)などの難条件を含んだ顔画像から、アテンションネットワークを用いて顔の表情を判定する手法が開示されている(非特許文献2参照)。
特開2018-62313号公報
「畳み込みニューラルネットワークを用いた表情表現の獲得」,西銘大喜 他4名,2016年度 人工知能学会全国大会 4L1-5in1,2016年6月9日一般発表 Wang, K.; Peng, X.; Yang, J. "Region attention networks for pose and occlusion robust facial expression recognition." IEEE Trans. Image Process. 2020, 29, 4057-4069.
しかし、特許文献1,非特許文献1に記載の手法では、顔画像の特徴から感情を判定するため、人物が正面を向いていない場合や、顔の傾き、障害物などの難条件を含んだ場合などでは、判定精度が低くなってしまうという問題がある。
また、非特許文献2に記載の手法では、画像に映っている顔の領域のみを考慮し、画像には映っていない顔の情報を考慮せずに感情の判定を行うため、さらなる推定精度の向上が望まれていた。
本発明は、このような問題に鑑みてなされたもので、画像には映っていない顔の情報を補助情報として利用することで、画像に映った人物の感情を精度よく判定することが可能な感情判定装置およびモデル学習装置、ならびに、それらのプログラムを提供することを課題とする。
前記課題を解決するため、本発明に係る感情判定装置は、顔画像に映った人物の感情を判定する感情判定装置であって、3次元顔特徴点抽出手段と、顔画像特徴抽出手段と、特徴量結合手段と、判定手段と、を備える構成とした。
かかる構成において、感情判定装置は、3次元顔特徴点抽出手段によって、予め学習された3次元顔特徴点抽出モデルを用いて、入力された顔画像から顔の3次元の特徴点の位置を抽出する。これによって、感情判定装置は、2次元の画像には映っていない顔の情報である顔の3次元の特徴点の位置を抽出することができる。
そして、感情判定装置は、顔画像特徴抽出手段によって、予め学習された顔画像特徴抽出モデルを用いて、入力された顔画像から顔の特徴量である顔画像特徴ベクトルを抽出する。
そして、感情判定装置は、特徴量結合手段によって、顔の3次元の特徴点の位置と顔画像特徴ベクトルとを連結した特徴ベクトルを生成する。この特徴ベクトルは、顔画像の特徴以外に、顔の形状、顔の部位(目、鼻、口等)の形状を特定する顔の3次元の特徴点の位置が補助情報として付加された情報となる。
そして、感情判定装置は、判定手段によって、予め学習された感情判定モデルを用いて、特徴ベクトルから予め定めた感情のラベルを判定する。
なお、感情判定装置は、コンピュータを、前記した各手段として機能させるためのプログラムで動作させることができる。
また、前記課題を解決するため、本発明に係るモデル学習装置は、顔画像を入力して顔画像から顔の特徴量である顔画像特徴ベクトルを出力する顔画像特徴抽出モデルと、顔画像特徴ベクトルに顔の3次元の特徴点の位置を連結した特徴ベクトルを入力して予め定めた感情のラベルを判定結果として出力する感情判定モデルと、を学習するモデル学習装置であって、顔画像特徴抽出モデル学習手段と、3次元顔特徴点抽出手段と、顔画像特徴抽出手段と、特徴量結合手段と、感情判定モデル学習手段と、を備える構成とした。
かかる構成において、モデル学習装置は、顔画像特徴抽出モデル学習手段によって、学習用の顔画像を顔画像特徴抽出モデルに入力して出力される顔画像特徴ベクトルを所定長のベクトルとして感情判定モデルに入力し、学習用の顔画像に対応する正解の感情ラベルを出力するように、顔画像特徴抽出モデルを学習する。
そして、モデル学習装置は、3次元顔特徴点抽出手段によって、予め学習された3次元顔特徴点抽出モデルを用いて、学習用の顔画像から顔の3次元の特徴点の位置を抽出する。
そして、モデル学習装置は、顔画像特徴抽出手段によって、顔画像特徴抽出モデルを用いて、学習用の顔画像から顔の特徴量である顔画像特徴ベクトルを抽出する。
さらに、モデル学習装置は、特徴量結合手段によって、顔の3次元の特徴点の位置と顔画像特徴ベクトルとを連結した特徴ベクトルを生成する。
そして、モデル学習装置は、感情判定モデル学習手段によって、特徴ベクトルを入力し、学習用の顔画像に対応する正解の感情ラベルを出力するように、感情判定モデルを学習する。これによって、感情判定モデル学習手段は、顔画像の特徴以外に、顔の3次元の特徴点の位置を補助情報として感情判定モデルを学習することになる。
なお、モデル学習装置は、コンピュータを、前記した各手段として機能させるためのプログラムで動作させることができる。
本発明によれば、2次元の画像には映っていない3次元の顔特徴点を補助情報として利用することで、画像に映った人物の感情を精度よく判定するこことができる。
また、本発明によれば、2次元の画像には映っていない3次元の顔特徴点を補助情報として利用することで、画像に映った人物の感情を精度よく判定するモデルを学習することができる。
本発明の第1実施形態に係る感情判定装置の構成を示すブロック構成図である。 本発明の第1実施形態に係る感情判定装置で用いる機械学習のモデルを連結した全体像を説明するための説明図である。 3次元顔特徴点抽出モデルの入出力データを説明するための説明図である。 顔画像特徴抽出モデルの入出力データを説明するための説明図である。 感情判定モデルの入出力データを説明するための説明図である。 特徴量結合手段における結合処理の内容を説明するための説明図である。 本発明の第1実施形態に係る感情判定装置で用いる機械学習のモデルの入出力データの流れを示す図である。 本発明の第1実施形態に係る感情判定装置の動作を示すフローチャートある。 本発明の第2実施形態に係るモデル学習装置の構成を示すブロック構成図である。 本発明の第2実施形態に係るモデル学習装置の動作を示すフローチャートある。 本発明の第3実施形態に係る感情判定装置の構成を示すブロック構成図である。
以下、本発明の実施形態について図面を参照して説明する。
≪感情判定装置の構成≫
まず、図1を参照して、本発明の第1実施形態に係る感情判定装置1の構成について説明する。
感情判定装置1は、顔画像から、顔画像に映った人物の感情を判定するものである。
図1に示すように、感情判定装置1は、記憶部10と、制御部20と、を備える。
記憶部10は、ハードディスク、半導体メモリ等の一般的な記憶媒体である。
記憶部10は、3次元顔特徴点抽出モデル記憶手段11と、顔画像特徴抽出モデル記憶手段12と、感情判定モデル記憶手段13と、を備える。なお、各記憶手段は、同じ記憶媒体内に領域を区分して記憶される構成であってもよいし、異なる記憶媒体に記憶される構成であってもよい。
この記憶部10に記憶される各モデルは、図2に示すような機械学習のモデルとして連結することで、顔画像Fから、予め定めた感情のラベル(感情ラベルL)を判定するモデルとなる。
すなわち、感情判定装置1は、3次元顔特徴点抽出モデルMを用いて、顔画像Fから3次元顔特徴点を抽出する。また、感情判定装置1は、顔画像特徴抽出モデルMを用いて、顔画像Fから顔画像特徴を抽出する。そして、感情判定装置1は、感情判定モデルMを用いて、3次元顔特徴点と顔画像特徴とから、感情ラベルLを判定する。
感情ラベルLは、感情判定モデルMの出力層から出力されるベクトルの各成分に対応し、予め「楽しい」、「怒り」、「悲しい」、「驚き」等の感情が対応付けられている。
図1に戻って、記憶部10に記憶されている各モデルについて具体的に説明する。
3次元顔特徴点抽出モデル記憶手段11は、顔画像から、顔の3次元の特徴点の位置を抽出する予め学習されたニューラルネットワークで構成された3次元顔特徴点抽出モデルM(具体的には、ニューラルネットワークの構造、重み係数等)を記憶するものである。
例えば、3次元顔特徴点抽出モデルMは、顔画像から68個の3次元のキーポイントを推定する「FaceAlignment(以下、参考文献1)」や、顔画像から468個の3次元の顔のランドマークを推定する「Face Mesh(以下、参考文献2)」等の既存の学習済のモデルを用いることができる。
(参考文献1)「Adrian 他:“How far are we from solving the 2D & 3D Face Alignment problem? (and a dataset of 230,000 3D facial landmarks)“International Conference on Computer Vision,2017」、「URL:https://github.com/1adrianb/face-alignment」
(参考文献2)「MediaPipe Face Mesh」、「URL:https://google.github.io/mediapipe/solutions/face_mesh」
顔の3次元の特徴点の位置は、顔の形状、顔の部位(目、鼻、口等)の形状等を特定する3次元空間の座標位置である。
ここでは、3次元顔特徴点抽出モデルMは、図3に示すように、顔画像Fを入力し、(X,Y,Z)の3次元座標で表される3次元顔特徴点C3Dを出力するモデルである。なお、(X,Y,Z)の1つの座標が、顔の特徴点の1つ分に相当する。
この3次元顔特徴点抽出モデルMによって、顔が横を向いている場合、障害物で顔の一部が隠されている場合等、2次元の画像では顔の一部が見えていない場合でも、予め3次元空間の位置として顔の3次元の特徴点の位置が学習されているため、顔画像から、顔の3次元の特徴点の位置を推定することができる。
顔画像特徴抽出モデル記憶手段12は、顔画像から、顔の特徴(特徴量)を抽出する予め教師あり学習で学習されたニューラルネットワークで構成された顔画像特徴抽出モデルM(具体的には、ニューラルネットワークの構造、重み係数等)を記憶するものである。
例えば、顔画像特徴抽出モデルMは、畳み込みニューラルネットワーク(CNN:Convolution Neural Network)、Vision Transformer等、一般的な画像認識用のモデルを使用することができる。なお、顔画像特徴抽出モデルMは、ニューラルネットワークに限定されず、一般的な教師あり機械学習のモデルであってもよい。
ここでは、顔画像特徴抽出モデルMは、図4に示すように、顔画像Fを入力し、1次元の顔画像特徴ベクトルV2Dを出力するモデルである。
なお、顔画像特徴抽出モデルMの学習は、後記するモデル学習装置2(図9参照)で行うことができる。この学習手法については、モデル学習装置2の説明において行うこととする。
感情判定モデル記憶手段13は、顔画像特徴(顔画像特徴ベクトル)と3次元顔特徴点(3次元顔特徴点ベクトル)とから、感情ラベルを判定する予め教師あり学習で学習されたニューラルネットワークで構成された感情判定モデルM(具体的には、ニューラルネットワークの構造、重み係数等)を記憶するものである。
例えば、感情判定モデルMは、順伝播ニューラルネットワーク(FFNN:Feed Forward Neural Network)を用いることができる。なお、感情判定モデルMは、ニューラルネットワークに限定されず、一般的な教師あり機械学習のモデルであってもよい。例えば、サポートベクタマシン(SVM:Support Vector Machine)、条件付き確率場(CRF:Conditional Random Fields)等であってもよい。
ここで、感情判定モデルMは、図5に示すように、顔画像特徴ベクトルV2Dと3次元顔特徴点ベクトルV3Dとを連結した1次元のベクトル(特徴ベクトル)を入力し、判定結果となる感情ラベルLを出力するモデルである。
感情判定モデルMは、判定結果として、予め定めた感情ラベルごとに、0から1の範囲の確率値を出力する。すなわち、確率値が最大の感情ラベルが、判定結果の感情を示すラベルとなる。
なお、顔画像特徴ベクトルV2Dは、図4で説明した顔画像特徴抽出モデルMが出力するベクトルである。
3次元顔特徴点ベクトルV3Dは、図3で説明した3次元顔特徴点抽出モデルMが出力する3次元顔特徴点C3Dを正規化し、1次元化したベクトルである。例えば、3次元顔特徴点ベクトルV3Dは、3次元顔特徴点C3Dの各座標値を、最大値が“1”、最小値が“0”となるように、すべての座標値を0~1の範囲の値に正規化(Min-Max法)した1次元のベクトルである。
すなわち、図6に示すように、感情判定モデルMに入力する特徴ベクトルVは、3次元顔特徴点C3Dを正規化し、1次元化した3次元顔特徴点ベクトルV3Dと、顔画像特徴ベクトルV2Dとを連結したベクトルである。
なお、感情判定モデルMの学習は、後記するモデル学習装置2(図9参照)で行うことができる。この学習手法については、モデル学習装置2の説明において行うこととする。
図2で示した顔画像Fから感情ラベルLを判定するモデル間の入出力をより具体化した図を、図7に示す。
図7に示すように、感情判定モデルMに入力される特徴ベクトルVには、2次元の顔画像から抽出される顔画像特徴ベクトルV2Dに、3次元顔特徴点ベクトルV3Dとして、顔の3次元の特徴点の位置が補助情報として付加されることになる。
これによって、判定結果となる感情ラベルLは、2次元の画像上の顔の特徴とともに、3次元の顔の特徴点の位置が加味された判定結果となる。
図1に戻って、感情判定装置1の構成について説明を続ける。
制御部20は、感情判定装置1全体の制御を行うものである。制御部20は、ハードディスク、ROM等に記憶されたプログラム(感情判定プログラム)をメモリに展開し、コンピュータ(CPU)がプログラムを読み込んで、以下に説明する各手段として機能させる。
制御部20は、3次元顔特徴点抽出手段21と、顔画像特徴抽出手段22と、特徴量結合手段23と、判定手段24と、を備える。
3次元顔特徴点抽出手段21は、3次元顔特徴点抽出モデル記憶手段11に記憶されている予め学習された3次元顔特徴点抽出モデルを用いて、入力された顔画像から顔の3次元の特徴点の位置を抽出する。
3次元顔特徴点抽出手段21は、図3に示すように、顔画像Fを入力し、3次元顔特徴点抽出モデルMのニューラルネットワークの演算を行うことで、顔の予め定めた複数の位置(ランドマーク、キーポイント)の3次元座標位置を3次元顔特徴点C3Dとして抽出する。
3次元顔特徴点抽出手段21は、抽出した3次元顔特徴点C3Dを特徴量結合手段23に出力する。
顔画像特徴抽出手段22は、顔画像特徴抽出モデル記憶手段12に記憶されている予め学習された顔画像特徴抽出モデルを用いて、入力された顔画像から顔の特徴(特徴量)である顔画像特徴ベクトルを抽出するものである。
顔画像特徴抽出手段22は、図4に示すように、顔画像Fを入力し、顔画像特徴抽出モデルMのニューラルネットワークの演算を行うことで、顔の特徴量を顔画像特徴ベクトルV2Dとして抽出する。
顔画像特徴抽出手段22は、抽出した顔画像特徴ベクトルV2Dを特徴量結合手段23に出力する。
特徴量結合手段23は、3次元顔特徴点抽出手段21で抽出された顔の3次元の特徴点の位置と、顔画像特徴抽出手段22で抽出された顔画像特徴ベクトルとを連結した特徴ベクトルを生成するものである。なお、特徴量結合手段23は、顔の3次元の特徴点の位置を、正規化および1次元化して、顔画像特徴ベクトルと結合する。
特徴量結合手段23は、例えば、図6に示すように、3次元顔特徴点C3Dの各座標値を、最大値が“1”、最小値が“0”となるように、すべての座標値を0~1の範囲の値に正規化する。そして、特徴量結合手段23は、正規化したX座標の値の数値列、正規化したY座標の数値列、正規化したZ座標の数値列を並べて1次元の数値列である3次元顔特徴点ベクトルV3Dを生成する。そして、特徴量結合手段23は、正規化および1次元化した3次元顔特徴点ベクトルV3Dを顔画像特徴ベクトルV2Dに連結して、特徴ベクトルVを生成する。
特徴量結合手段23は、結合後の特徴ベクトルVを判定手段24に出力する。
判定手段24は、感情判定モデル記憶手段13に記憶されている予め学習された感情判定モデルを用いて、特徴量結合手段23で生成された特徴ベクトル(顔画像特徴ベクトル+3次元顔特徴点ベクトル)から、感情ラベルを判定するものである。
判定手段24は、図5に示すように、顔画像特徴ベクトルV2Dと3次元顔特徴点ベクトルV3Dとを連結した特徴ベクトルVを入力し、感情判定モデルMのニューラルネットワークの演算を行うことで、感情ラベルLごとの確率値を算出する。
そして、判定手段24は、確率値が最大となった感情ラベルLを判定結果として出力する。
以上説明した構成によって、感情判定装置1は、顔画像に映った顔の特徴量だけではなく、顔の3次元の特徴点の位置を補助情報として利用するため、従来に比べて精度よく、人物の感情を判定することができる。
≪感情判定装置の動作≫
次に、図8を参照(構成については適宜図1参照)して、本発明の第1実施形態に係る感情判定装置1の動作について説明する。
ステップS1において、感情判定装置1は、図示を省略した入力手段によって、外部から顔画像を入力する。
ステップS2において、感情判定装置1は、3次元顔特徴点抽出手段21によって、3次元顔特徴点抽出モデル記憶手段11に記憶されている3次元顔特徴点抽出モデルを用いて、ステップS1で入力された顔画像から顔の3次元の特徴点(3次元顔特徴点)の位置を抽出する。
ステップS3において、感情判定装置1は、顔画像特徴抽出手段22によって、顔画像特徴抽出モデル記憶手段12に記憶されている顔画像特徴抽出モデルを用いて、ステップS1で入力された顔画像から顔の特徴を顔画像特徴ベクトルとして抽出する。
なお、ステップS2とステップS3は、図8のように、並列で動作させてもよいし、ステップS2,S3の順、あるいは、ステップS3,S2の順に動作させてもよい。
ステップS4において、感情判定装置1は、特徴量結合手段23によって、ステップS2で抽出された3次元顔特徴点の各座標値を、正規化し、1次元化することで、3次元顔特徴点ベクトルを生成する。
ステップS5において、感情判定装置1は、特徴量結合手段23によって、ステップ3で抽出された顔画像特徴ベクトルと、ステップS4で生成された3次元顔特徴点ベクトルとを連結し、特徴ベクトルを生成する。
ステップS6において、感情判定装置1は、判定手段24によって、感情判定モデル記憶手段13に記憶されている感情判定モデルを用いて、ステップS5で生成された特徴ベクトルから、感情ラベルを判定する。
ステップS7において、感情判定装置1は、判定手段24によって、ステップS6で判定された感情ラベルを判定結果として外部に出力する。
ステップS8において、感情判定装置1は、図示を省略した入力手段によって、判定対象となる顔画像が入力されるか否かにより判定処理の終了判定を行う。
ここで、まだ、顔画像が入力される場合(ステップS8でNo)、感情判定装置1は、ステップS1に戻って動作を継続する。
一方、顔画像が入力されない場合(ステップS8でYes)、感情判定装置1は、動作を終了する。
以上の動作によって、感情判定装置1は、顔画像から、顔画像に映った人物の感情を判定することができる。
≪モデル学習装置の構成≫
次に、図9を参照して、本発明の第2実施形態に係るモデル学習装置2の構成について説明する。
モデル学習装置2は、顔画像を入力して顔画像から顔の特徴量である顔画像特徴ベクトルを出力する顔画像特徴抽出モデルと、顔画像特徴ベクトルに顔の3次元の特徴点の位置を連結した特徴ベクトルを入力して予め定めた感情のラベルを判定結果として出力する感情判定モデルと、を学習するものである。
すなわち、モデル学習装置2は、感情判定装置1で用いる顔画像特徴抽出モデルおよび感情判定モデルを学習する。
モデル学習装置2は、感情ラベルが既知の顔画像(学習用顔画像)と、対応する感情ラベル(正解感情ラベル)とを、学習データとして入力し、顔画像特徴抽出モデルおよび感情判定モデルを学習する
図9に示すように、モデル学習装置2は、記憶部10と、制御部20Bと、を備える。
記憶部10は、図1で説明した感情判定装置1の構成と同じ、3次元顔特徴点抽出モデル記憶手段11と、顔画像特徴抽出モデル記憶手段12と、感情判定モデル記憶手段13と、を備える。
すなわち、3次元顔特徴点抽出モデル記憶手段11には、顔画像から、顔の3次元の特徴点の位置を抽出する予め学習されたニューラルネットワークで構成された3次元顔特徴点抽出モデルが記憶されている。
また、顔画像特徴抽出モデル記憶手段12には、一般的な画像認識用として事前学習されたモデル(畳み込みニューラルネットワーク〔CNN〕、Vision Transformer等)が顔画像特徴抽出モデルとして記憶されている。
また、感情判定モデル記憶手段13には、1次元のベクトルから、予め定めたラベルを推定するモデル、例えば、順伝播ニューラルネットワーク(FFNN)のモデルが感情判定モデルとして記憶されている。
なお、顔画像特徴抽出モデル記憶手段12に記憶されている顔画像特徴抽出モデル、および、感情判定モデル記憶手段13に記憶されている感情判定モデルが、モデルの学習対象である。
制御部20Bは、モデル学習装置2全体の制御を行うものである。制御部20Bは、ハードディスク、ROM等に記憶されたプログラム(感情判定プログラム)をメモリに展開し、コンピュータ(CPU)がプログラムを読み込んで、以下に説明する各手段として機能させる。
制御部20Bは、3次元顔特徴点抽出手段21と、顔画像特徴抽出手段22と、特徴量結合手段23と、顔画像特徴抽出モデル学習手段25と、感情判定モデル学習手段26と、を備える。
3次元顔特徴点抽出手段21、顔画像特徴抽出手段22および特徴量結合手段23は、図1で説明した感情判定装置1の構成と同じである。ただし、3次元顔特徴点抽出手段21および顔画像特徴抽出手段22が入力する顔画像は、学習用顔画像である。
顔画像特徴抽出モデル学習手段25は、学習用顔画像を顔画像特徴抽出モデルに入力して出力される顔画像特徴ベクトルを所定長のベクトルとして感情判定モデルに入力し、学習用の顔画像に対応する正解感情ラベルを出力するように、顔画像特徴抽出モデルを学習するものである。
すなわち、顔画像特徴抽出モデル学習手段25は、図7に示すように、顔画像特徴抽出モデルMに学習用顔画像(顔画像F)を入力して出力される顔画像特徴ベクトルV2Dを感情判定モデルMに入力し、正解感情ラベル(感情ラベルL)を出力するように、顔画像特徴抽出モデルMのパラメータを学習する。この顔画像特徴ベクトルV2Dを感情判定モデルMに入力する場合、顔画像特徴抽出モデル学習手段25は、顔画像特徴ベクトルV2Dに、3次元顔特徴点ベクトルV3Dを入れるための空データを付加して、感情判定モデルMの入力データ長に合わせた所定長のベクトルとする。
この学習には、例えば、誤差逆伝播法(back propagation)を用いることができる。
なお、顔画像特徴抽出モデル学習手段25の学習には、顔画像特徴抽出モデルM以外に、感情判定モデルMが用いられるが、ここでは、顔画像特徴抽出モデルMのみを学習対象とすればよい。
これによって、顔画像特徴抽出モデルMは、感情ラベルLの分類数に応じた特徴(顔画像特徴ベクトルV2D)を出力するように学習されることになる。
顔画像特徴抽出モデル学習手段25は、学習後のパラメータを顔画像特徴抽出モデル記憶手段12に記憶する。
顔画像特徴抽出モデル学習手段25は、予め定めた回数、または、パラメータ誤差が予め定めた範囲に収束するまで、順次、学習用顔画像と正解感情ラベルとを入力し、学習を行う。顔画像特徴抽出モデル学習手段25が新しい学習用顔画像を入力する場合、3次元顔特徴点抽出手段21は、それに同期して同じ学習用顔画像を入力する。
顔画像特徴抽出モデル学習手段25は、一対の学習用顔画像と正解感情ラベルとを用いた学習が完了した段階で、学習用顔画像を顔画像特徴抽出手段22に出力する。
感情判定モデル学習手段26は、特徴量結合手段23で結合された特徴ベクトルを入力して、感情ラベルを出力する感情判定モデルを学習するものである。
ここでは、感情判定モデル学習手段26は、特徴量結合手段23で結合された特徴ベクトルを感情判定モデルに入力して、正解となる感情ラベル(正解感情ラベル)を出力するように、感情判定モデルを学習する。
すなわち、感情判定モデル学習手段26は、図7に示すように、顔画像特徴抽出モデルMの出力である顔画像特徴ベクトルV2Dと、3次元顔特徴点抽出モデルMで抽出された3次元顔特徴点C3Dを正規化および1次元化した3次元顔特徴点ベクトルV3Dとを連結した特徴ベクトルVを入力し、正解感情ラベル(感情ラベルL)を出力するように、感情判定モデルMのパラメータを学習する。学習には、例えば、誤差逆伝播法(back propagation)を用いることができる。
以上説明した構成によって、モデル学習装置2は、特徴量結合手段23で結合された特徴ベクトルを用いることで、顔画像に映った顔の特徴量だけではなく、顔の3次元の特徴点の位置を補助情報として、感情を判定するニューラルネットワークのモデル(顔画像特徴抽出モデルおよび感情判定モデル)を学習することができる。
≪モデル学習装置の動作≫
次に、図10を参照(構成については適宜図9参照)して、本発明の第2実施形態に係るモデル学習装置2の動作について説明する。
ステップS10において、モデル学習装置2は、図示を省略した入力手段によって、外部から学習用顔画像および正解感情ラベルを入力する。
ステップS11において、モデル学習装置2は、3次元顔特徴点抽出手段21によって、3次元顔特徴点抽出モデル記憶手段11に記憶されている3次元顔特徴点抽出モデルを用いて、ステップS10で入力された学習用顔画像から顔の3次元の特徴点(3次元顔特徴点)の位置を抽出する。
ステップS12において、モデル学習装置2は、顔画像特徴抽出モデル学習手段25によって、顔画像特徴抽出モデル記憶手段12に記憶されている顔画像特徴抽出モデルを学習する。ここでは、顔画像特徴抽出モデル学習手段25は、顔画像特徴抽出モデルにステップS1で入力された学習用顔画像を入力して出力される顔画像特徴ベクトルを感情判定モデルに入力し、正解感情ラベル(感情ラベルL)を出力するように、顔画像特徴抽出モデルのパラメータを学習する。
そして、顔画像特徴抽出モデル学習手段25は、学習後のパラメータを顔画像特徴抽出モデル記憶手段12に記憶する(ステップとして不図示)。
ステップS13において、モデル学習装置2は、顔画像特徴抽出手段22によって、ステップS12で学習された顔画像特徴抽出モデルを用いて、ステップS1で入力された学習用顔画像から顔の特徴を顔画像特徴ベクトルとして抽出する。
なお、ステップS11とステップS12、13とは、図10のように、並列で動作させてもよいし、ステップS11,S12,S13の順、あるいは、ステップS12,S13,S11の順に動作させてもよい。
ステップS14において、モデル学習装置2は、特徴量結合手段23によって、ステップS11で抽出された3次元顔特徴点の各座標値を、正規化し、1次元化することで、3次元顔特徴点ベクトルを生成する。
ステップS15において、モデル学習装置2は、特徴量結合手段23によって、ステップ13で抽出された顔画像特徴ベクトルと、ステップS14で生成された3次元顔特徴点ベクトルとを連結し、特徴ベクトルを生成する。
ステップS16において、モデル学習装置2は、感情判定モデル学習手段26によって、感情判定モデル記憶手段13に記憶されている感情判定モデルを学習する。ここでは、感情判定モデル学習手段26は、ステップS15で結合された特徴ベクトルを感情判定モデルに入力して、ステップS1で入力された正解となる感情ラベル(正解感情ラベル)を出力するように、感情判定モデルを学習する。そして、顔画像特徴抽出モデル学習手段25は、学習後のパラメータを顔画像特徴抽出モデル記憶手段12に記憶する。
そして、感情判定モデル学習手段26は、学習後のパラメータを感情判定モデル記憶手段13に記憶する(ステップとして不図示)。
ステップS17において、モデル学習装置2は、顔画像特徴抽出モデル学習手段25によって、予め定めた回数、または、パラメータ誤差が予め定めた範囲に収束することを終了条件として学習が終了したか否かを判定する。
ここで、まだ、学習が終了していない場合(ステップS17でNo)、モデル学習装置2は、ステップS10に戻って動作を継続する。
一方、学習が終了した場合(ステップS17でYes)、モデル学習装置2は、動作を終了する。
以上の動作によって、モデル学習装置2は、顔画像から、顔画像に映った人物の感情を判定することができるニューラルネットワークのモデル(顔画像特徴抽出モデルおよび感情判定モデル)を学習することができる。
以上、本発明の実施形態に係る感情判定装置1の構成および動作、モデル学習装置2の構成および動作について説明したが、本発明は、これらの実施形態に限定されるものではない。
ここでは、顔画像から感情を判定する感情判定装置1と、顔画像から感情を判定するためのモデルを学習するモデル学習装置2とを、個別の装置として構成した。
しかし、本発明は、感情判定装置1とモデル学習装置2とを動作モードの変更によって1つの装置で動作する構成(第3実施形態)としても構わない。
具体的な構成を図11に示す。
図11に示す感情判定装置1Bは、学習モードと判定モードとの2つの動作モードで動作する。なお、これらのモードは、外部のスイッチ、操作画面による操作等によって切り替えられる。
感情判定装置1Bは、学習モードで動作する場合、学習用の顔画像(学習用顔画像)と対応する正解の感情ラベル(正解感情ラベル)とを学習データとして、感情を判定するためのモデル(顔画像特徴抽出モデルおよび感情判定モデル)を学習する。
また、感情判定装置1Bは、判定モードで動作する場合、判定用の顔画像(判定用顔画像)から感情ラベル(判定感情ラベル)を判定する。
図11に示すように、感情判定装置1Bは、記憶部10と、制御部20Cと、を備える。
記憶部10は、図1で説明した感情判定装置1、図9で説明したモデル学習装置2の構成と同じ、3次元顔特徴点抽出モデル記憶手段11と、顔画像特徴抽出モデル記憶手段12と、感情判定モデル記憶手段13と、を備える。なお、3次元顔特徴点抽出モデル記憶手段11、顔画像特徴抽出モデル記憶手段12および感情判定モデル記憶手段13に記憶する内容は、感情判定装置1やモデル学習装置2と同じであるため、説明を省略する。
制御部20Cは、感情判定装置1B全体の制御を行うものである。制御部20Cは、ハードディスク、ROM等に記憶されたプログラム(感情判定プログラム)をメモリに展開し、コンピュータ(CPU)がプログラムを読み込んで、以下に説明する各部として機能させる。
制御部20Cは、3次元顔特徴点抽出手段21と、顔画像特徴抽出手段22と、特徴量結合手段23と、判定手段24と、顔画像特徴抽出モデル学習手段25と、感情判定モデル学習手段26と、を備える。
これらの各手段は、感情判定装置1やモデル学習装置2の構成と同じ機能を有するため、同一の符号を付して説明を省略する。
これらの各手段は、動作モードによって動作する手段や、入出力が異なる。
具体的には、学習モードでは、3次元顔特徴点抽出手段21と、顔画像特徴抽出手段22と、特徴量結合手段23と、顔画像特徴抽出モデル学習手段25と、感情判定モデル学習手段26と、が動作する。
また、判定モードでは、3次元顔特徴点抽出手段21と、顔画像特徴抽出手段22と、特徴量結合手段23と、判定手段24と、が動作する。なお、判定モードでは、顔画像特徴抽出モデル学習手段25は、入力した判定用顔画像をそのまま顔画像特徴抽出手段22に出力する。
特徴量結合手段23は、結合した特徴ベクトルを、学習モードにおいては感情判定モデル学習手段26に出力し、判定モードにおいては判定手段24に出力する。
以上説明した構成によって、感情判定装置1Bは、顔画像に映った顔の特徴量だけではなく、顔の3次元の特徴点の位置を補助情報として利用するためのニューラルネットワークのモデルを学習することができるとともに、そのモデルを用いて、従来に比べて精度よく、人物の感情を判定することができる。
また、感情判定装置1Bは、任意のタイミングで学習モードに切り替えてモデルの追加学習が行えるため、モデルの精度を高め、感情の判定の精度を高めることができる。
なお、感情判定装置1Bの動作は、学習モードでは、図10で説明したモデル学習装置2の動作と同じであり、判定モードでは、図8で説明した感情判定装置1の動作と同じであるため、説明を省略する。
以上説明したように、感情判定装置1,1Bは、顔の一部が隠れた状態であっても精度よく感情を判定することができる。例えば、感情判定装置1,1Bは、放送コンテンツ内の登場人物の顔画像からでも、登場人物の感情を判定することができる。
これによって、放送コンテンツの登場人物の感情を、解説音声、触覚刺激等によって、提示することができ、視覚障害者を含めたすべての人に、より高い臨場感を提供することが可能になる。
1,1B 感情判定装置
2 モデル学習装置
10 記憶部
11 3次元顔特徴点抽出モデル記憶手段
12 顔画像特徴抽出モデル記憶手段
13 感情判定モデル記憶手段
20,20B,20C 制御部
21 3次元顔特徴点抽出手段
22 顔画像特徴抽出手段
23 特徴量結合手段
24 判定手段
25 顔画像特徴抽出モデル学習手段
26 感情判定モデル学習手段

Claims (5)

  1. 顔画像に映った人物の感情を判定する感情判定装置であって、
    予め学習された3次元顔特徴点抽出モデルを用いて、入力された顔画像から顔の3次元の特徴点の位置を抽出する3次元顔特徴点抽出手段と、
    予め学習された顔画像特徴抽出モデルを用いて、前記入力された顔画像から顔の特徴量である顔画像特徴ベクトルを抽出する顔画像特徴抽出手段と、
    前記顔の3次元の特徴点の位置と前記顔画像特徴ベクトルとを連結した特徴ベクトルを生成する特徴量結合手段と、
    予め学習された感情判定モデルを用いて、前記特徴ベクトルから予め定めた感情のラベルを判定する判定手段と、
    を備えることを特徴とする感情判定装置。
  2. 学習用の顔画像を前記顔画像特徴抽出モデルに入力し出力される顔画像特徴ベクトルを所定長のベクトルとして前記感情判定モデルに入力し、前記学習用の顔画像に対応する正解の感情ラベルを出力するように、前記顔画像特徴抽出モデルを学習する顔画像特徴抽出モデル学習手段と、
    前記特徴ベクトルを入力し、前記学習用の顔画像に対応する正解の感情ラベルを出力するように、前記感情判定モデルを学習する感情判定モデル学習手段と、
    をさらに備えることを特徴とする請求項1に記載の感情判定装置。
  3. コンピュータを、請求項1または請求項2に記載の感情判定装置として機能させるためのプログラム。
  4. 顔画像を入力して前記顔画像から顔の特徴量である顔画像特徴ベクトルを出力する顔画像特徴抽出モデルと、前記顔画像特徴ベクトルに顔の3次元の特徴点の位置を連結した特徴ベクトルを入力して予め定めた感情のラベルを判定結果として出力する感情判定モデルと、を学習するモデル学習装置であって、
    学習用の顔画像を前記顔画像特徴抽出モデルに入力して出力される顔画像特徴ベクトルを所定長のベクトルとして前記感情判定モデルに入力し、前記学習用の顔画像に対応する正解の感情ラベルを出力するように、前記顔画像特徴抽出モデルを学習する顔画像特徴抽出モデル学習手段と、
    予め学習された3次元顔特徴点抽出モデルを用いて、前記学習用の顔画像から顔の3次元の特徴点の位置を抽出する3次元顔特徴点抽出手段と、
    前記顔画像特徴抽出モデルを用いて、前記学習用の顔画像から顔の特徴量である顔画像特徴ベクトルを抽出する顔画像特徴抽出手段と、
    前記顔の3次元の特徴点の位置と前記顔画像特徴ベクトルとを連結した特徴ベクトルを生成する特徴量結合手段と、
    前記特徴ベクトルを入力し、前記学習用の顔画像に対応する正解の感情ラベルを出力するように、前記感情判定モデルを学習する感情判定モデル学習手段と、
    を備えることを特徴とするモデル学習装置。
  5. コンピュータを、請求項4に記載のモデル学習装置として機能させるためのプログラム。
JP2022115233A 2022-07-20 2022-07-20 感情判定装置およびモデル学習装置、ならびに、それらのプログラム Pending JP2024013280A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022115233A JP2024013280A (ja) 2022-07-20 2022-07-20 感情判定装置およびモデル学習装置、ならびに、それらのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022115233A JP2024013280A (ja) 2022-07-20 2022-07-20 感情判定装置およびモデル学習装置、ならびに、それらのプログラム

Publications (1)

Publication Number Publication Date
JP2024013280A true JP2024013280A (ja) 2024-02-01

Family

ID=89718460

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022115233A Pending JP2024013280A (ja) 2022-07-20 2022-07-20 感情判定装置およびモデル学習装置、ならびに、それらのプログラム

Country Status (1)

Country Link
JP (1) JP2024013280A (ja)

Similar Documents

Publication Publication Date Title
US20210174072A1 (en) Microexpression-based image recognition method and apparatus, and related device
TWI766499B (zh) 互動物件的驅動方法、裝置、設備以及儲存媒體
CN111383307A (zh) 基于人像的视频生成方法及设备、存储介质
JP2023548921A (ja) 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
Yu et al. A video, text, and speech-driven realistic 3-D virtual head for human–machine interface
CN115588224B (zh) 一种基于人脸关键点预测的虚拟数字人生成方法及装置
US11282257B2 (en) Pose selection and animation of characters using video data and training techniques
WO2021196644A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
CN111401101A (zh) 基于人像的视频生成系统
JP2019197311A (ja) 学習方法、学習プログラム、および学習装置
CN114529984A (zh) 一种基于可学习pl-gcn和eclstm的骨骼动作识别方法
CN114863533A (zh) 数字人生成方法和装置及存储介质
CN115049016A (zh) 基于情绪识别的模型驱动方法及设备
CN115797851A (zh) 一种动漫视频处理方法及系统
CN114494543A (zh) 动作生成方法及相关装置、电子设备和存储介质
KR20160049191A (ko) 헤드 마운티드 디스플레이 디바이스의 제공방법
CN112562045B (zh) 生成模型和生成3d动画的方法、装置、设备和存储介质
CN111738092B (zh) 一种基于深度学习的恢复被遮挡人体姿态序列方法
CN113283372A (zh) 用于处理人物图像的方法和设备
CN111739134A (zh) 虚拟角色的模型处理方法、装置及可读存储介质
JP2024013280A (ja) 感情判定装置およびモデル学習装置、ならびに、それらのプログラム
CN113822790B (zh) 一种图像处理方法、装置、设备及计算机可读存储介质
Han et al. Two-stream LSTM for action recognition with RGB-D-based hand-crafted features and feature combination
WO2021155666A1 (zh) 用于生成图像的方法和装置
CN115035219A (zh) 表情生成方法、装置和表情生成模型的训练方法、装置