JP2024013280A

JP2024013280A - 感情判定装置およびモデル学習装置、ならびに、それらのプログラム

Info

Publication number: JP2024013280A
Application number: JP2022115233A
Authority: JP
Inventors: 裕也 ▲桑▼野; 正樹高橋; 貴裕望月; 雅規佐野
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2024-02-01

Abstract

【課題】画像に映った人物の感情を精度よく判定することが可能な感情判定装置を提供する。【解決手段】感情判定装置１は、予め学習された３次元顔特徴点抽出モデルを用いて、入力された顔画像から顔の３次元の特徴点の位置を抽出する３次元顔特徴点抽出手段２１と、予め学習された顔画像特徴抽出モデルを用いて、入力された顔画像から顔の特徴量である顔画像特徴ベクトルを抽出する顔画像特徴抽出手段２２と、顔の３次元の特徴点の位置と顔画像特徴ベクトルとを連結した特徴ベクトルを生成する特徴量結合手段２３と、予め学習された感情判定モデルを用いて、特徴ベクトルから予め定めた感情のラベルを判定する判定手段２４と、を備える。【選択図】図１

Description

本発明は、顔画像から人物の感情を判定する感情判定装置およびモデル学習装置、ならびに、それらのプログラムに関する。

近年、ユニバーサルサービスの拡充を行うことは社会として重要な取り組みの一つとなっている。放送コンテンツにおいても同様の取り組みが多数行われており、字幕放送や手話実況などもその一つである。
また、近年では視覚障害者を含めたすべての人がより高い臨場感で視聴可能な映像メディアの実現を目指す技術の研究開発が進められている。例えば、競技映像から「得点」などの試合イベントをリアルタイムに取得し、その試合イベントに応じた触覚振動を触覚提示デバイスに提示することで、視聴者により高い臨場感を提供することができる。
また、放送コンテンツにおけるコンテンツ内の登場人物の感情を提示することも視聴者に高い臨場感を提供することに繋がる。

このようなコンテンツ内における人物の画像から感情を判定する手法は、機械学習を用いた手法として数多く研究されている。例えば、畳み込みニューラルネットワークを用いて、顔画像の特徴を捉えて感情を判定する手法が開示されている（特許文献１，非特許文献１参照）。
また、放送映像では人物が正面を向いているとは限らない。そこで、顔の傾き、障害物（例えば、手で顔を覆っている、眼鏡をかけている）などの難条件を含んだ顔画像から、アテンションネットワークを用いて顔の表情を判定する手法が開示されている（非特許文献２参照）。

特開２０１８－６２３１３号公報

「畳み込みニューラルネットワークを用いた表情表現の獲得」，西銘大喜他４名，2016年度人工知能学会全国大会 4L1-5in1，2016年6月9日一般発表 Wang, K.; Peng, X.; Yang, J. "Region attention networks for pose and occlusion robust facial expression recognition." IEEE Trans. Image Process. 2020, 29, 4057-4069.

しかし、特許文献１，非特許文献１に記載の手法では、顔画像の特徴から感情を判定するため、人物が正面を向いていない場合や、顔の傾き、障害物などの難条件を含んだ場合などでは、判定精度が低くなってしまうという問題がある。
また、非特許文献２に記載の手法では、画像に映っている顔の領域のみを考慮し、画像には映っていない顔の情報を考慮せずに感情の判定を行うため、さらなる推定精度の向上が望まれていた。

本発明は、このような問題に鑑みてなされたもので、画像には映っていない顔の情報を補助情報として利用することで、画像に映った人物の感情を精度よく判定することが可能な感情判定装置およびモデル学習装置、ならびに、それらのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係る感情判定装置は、顔画像に映った人物の感情を判定する感情判定装置であって、３次元顔特徴点抽出手段と、顔画像特徴抽出手段と、特徴量結合手段と、判定手段と、を備える構成とした。

かかる構成において、感情判定装置は、３次元顔特徴点抽出手段によって、予め学習された３次元顔特徴点抽出モデルを用いて、入力された顔画像から顔の３次元の特徴点の位置を抽出する。これによって、感情判定装置は、２次元の画像には映っていない顔の情報である顔の３次元の特徴点の位置を抽出することができる。
そして、感情判定装置は、顔画像特徴抽出手段によって、予め学習された顔画像特徴抽出モデルを用いて、入力された顔画像から顔の特徴量である顔画像特徴ベクトルを抽出する。

そして、感情判定装置は、特徴量結合手段によって、顔の３次元の特徴点の位置と顔画像特徴ベクトルとを連結した特徴ベクトルを生成する。この特徴ベクトルは、顔画像の特徴以外に、顔の形状、顔の部位（目、鼻、口等）の形状を特定する顔の３次元の特徴点の位置が補助情報として付加された情報となる。
そして、感情判定装置は、判定手段によって、予め学習された感情判定モデルを用いて、特徴ベクトルから予め定めた感情のラベルを判定する。
なお、感情判定装置は、コンピュータを、前記した各手段として機能させるためのプログラムで動作させることができる。

また、前記課題を解決するため、本発明に係るモデル学習装置は、顔画像を入力して顔画像から顔の特徴量である顔画像特徴ベクトルを出力する顔画像特徴抽出モデルと、顔画像特徴ベクトルに顔の３次元の特徴点の位置を連結した特徴ベクトルを入力して予め定めた感情のラベルを判定結果として出力する感情判定モデルと、を学習するモデル学習装置であって、顔画像特徴抽出モデル学習手段と、３次元顔特徴点抽出手段と、顔画像特徴抽出手段と、特徴量結合手段と、感情判定モデル学習手段と、を備える構成とした。

かかる構成において、モデル学習装置は、顔画像特徴抽出モデル学習手段によって、学習用の顔画像を顔画像特徴抽出モデルに入力して出力される顔画像特徴ベクトルを所定長のベクトルとして感情判定モデルに入力し、学習用の顔画像に対応する正解の感情ラベルを出力するように、顔画像特徴抽出モデルを学習する。
そして、モデル学習装置は、３次元顔特徴点抽出手段によって、予め学習された３次元顔特徴点抽出モデルを用いて、学習用の顔画像から顔の３次元の特徴点の位置を抽出する。
そして、モデル学習装置は、顔画像特徴抽出手段によって、顔画像特徴抽出モデルを用いて、学習用の顔画像から顔の特徴量である顔画像特徴ベクトルを抽出する。

さらに、モデル学習装置は、特徴量結合手段によって、顔の３次元の特徴点の位置と顔画像特徴ベクトルとを連結した特徴ベクトルを生成する。
そして、モデル学習装置は、感情判定モデル学習手段によって、特徴ベクトルを入力し、学習用の顔画像に対応する正解の感情ラベルを出力するように、感情判定モデルを学習する。これによって、感情判定モデル学習手段は、顔画像の特徴以外に、顔の３次元の特徴点の位置を補助情報として感情判定モデルを学習することになる。
なお、モデル学習装置は、コンピュータを、前記した各手段として機能させるためのプログラムで動作させることができる。

本発明によれば、２次元の画像には映っていない３次元の顔特徴点を補助情報として利用することで、画像に映った人物の感情を精度よく判定するこことができる。
また、本発明によれば、２次元の画像には映っていない３次元の顔特徴点を補助情報として利用することで、画像に映った人物の感情を精度よく判定するモデルを学習することができる。

本発明の第１実施形態に係る感情判定装置の構成を示すブロック構成図である。本発明の第１実施形態に係る感情判定装置で用いる機械学習のモデルを連結した全体像を説明するための説明図である。３次元顔特徴点抽出モデルの入出力データを説明するための説明図である。顔画像特徴抽出モデルの入出力データを説明するための説明図である。感情判定モデルの入出力データを説明するための説明図である。特徴量結合手段における結合処理の内容を説明するための説明図である。本発明の第１実施形態に係る感情判定装置で用いる機械学習のモデルの入出力データの流れを示す図である。本発明の第１実施形態に係る感情判定装置の動作を示すフローチャートある。本発明の第２実施形態に係るモデル学習装置の構成を示すブロック構成図である。本発明の第２実施形態に係るモデル学習装置の動作を示すフローチャートある。本発明の第３実施形態に係る感情判定装置の構成を示すブロック構成図である。

以下、本発明の実施形態について図面を参照して説明する。
≪感情判定装置の構成≫
まず、図１を参照して、本発明の第１実施形態に係る感情判定装置１の構成について説明する。
感情判定装置１は、顔画像から、顔画像に映った人物の感情を判定するものである。
図１に示すように、感情判定装置１は、記憶部１０と、制御部２０と、を備える。

記憶部１０は、ハードディスク、半導体メモリ等の一般的な記憶媒体である。
記憶部１０は、３次元顔特徴点抽出モデル記憶手段１１と、顔画像特徴抽出モデル記憶手段１２と、感情判定モデル記憶手段１３と、を備える。なお、各記憶手段は、同じ記憶媒体内に領域を区分して記憶される構成であってもよいし、異なる記憶媒体に記憶される構成であってもよい。

この記憶部１０に記憶される各モデルは、図２に示すような機械学習のモデルとして連結することで、顔画像Ｆから、予め定めた感情のラベル（感情ラベルＬ）を判定するモデルとなる。
すなわち、感情判定装置１は、３次元顔特徴点抽出モデルＭ_１を用いて、顔画像Ｆから３次元顔特徴点を抽出する。また、感情判定装置１は、顔画像特徴抽出モデルＭ_２を用いて、顔画像Ｆから顔画像特徴を抽出する。そして、感情判定装置１は、感情判定モデルＭ_３を用いて、３次元顔特徴点と顔画像特徴とから、感情ラベルＬを判定する。
感情ラベルＬは、感情判定モデルＭ_３の出力層から出力されるベクトルの各成分に対応し、予め「楽しい」、「怒り」、「悲しい」、「驚き」等の感情が対応付けられている。
図１に戻って、記憶部１０に記憶されている各モデルについて具体的に説明する。

３次元顔特徴点抽出モデル記憶手段１１は、顔画像から、顔の３次元の特徴点の位置を抽出する予め学習されたニューラルネットワークで構成された３次元顔特徴点抽出モデルＭ_１（具体的には、ニューラルネットワークの構造、重み係数等）を記憶するものである。
例えば、３次元顔特徴点抽出モデルＭ_１は、顔画像から６８個の３次元のキーポイントを推定する「FaceAlignment（以下、参考文献１）」や、顔画像から４６８個の３次元の顔のランドマークを推定する「Face Mesh（以下、参考文献２）」等の既存の学習済のモデルを用いることができる。

（参考文献１）「Adrian 他：“How far are we from solving the 2D & 3D Face Alignment problem? (and a dataset of 230,000 3D facial landmarks)“International Conference on Computer Vision，2017」、「URL：https://github.com/1adrianb/face-alignment」
（参考文献２）「MediaPipe Face Mesh」、「URL：https://google.github.io/mediapipe/solutions/face_mesh」

顔の３次元の特徴点の位置は、顔の形状、顔の部位（目、鼻、口等）の形状等を特定する３次元空間の座標位置である。
ここでは、３次元顔特徴点抽出モデルＭ_１は、図３に示すように、顔画像Ｆを入力し、（Ｘ，Ｙ，Ｚ）の３次元座標で表される３次元顔特徴点Ｃ_３Ｄを出力するモデルである。なお、（Ｘ，Ｙ，Ｚ）の１つの座標が、顔の特徴点の１つ分に相当する。
この３次元顔特徴点抽出モデルＭ_１によって、顔が横を向いている場合、障害物で顔の一部が隠されている場合等、２次元の画像では顔の一部が見えていない場合でも、予め３次元空間の位置として顔の３次元の特徴点の位置が学習されているため、顔画像から、顔の３次元の特徴点の位置を推定することができる。

顔画像特徴抽出モデル記憶手段１２は、顔画像から、顔の特徴（特徴量）を抽出する予め教師あり学習で学習されたニューラルネットワークで構成された顔画像特徴抽出モデルＭ_２（具体的には、ニューラルネットワークの構造、重み係数等）を記憶するものである。
例えば、顔画像特徴抽出モデルＭ_２は、畳み込みニューラルネットワーク（ＣＮＮ：Convolution Neural Network）、Vision Transformer等、一般的な画像認識用のモデルを使用することができる。なお、顔画像特徴抽出モデルＭ_２は、ニューラルネットワークに限定されず、一般的な教師あり機械学習のモデルであってもよい。

ここでは、顔画像特徴抽出モデルＭ_２は、図４に示すように、顔画像Ｆを入力し、１次元の顔画像特徴ベクトルＶ_２Ｄを出力するモデルである。
なお、顔画像特徴抽出モデルＭ_２の学習は、後記するモデル学習装置２（図９参照）で行うことができる。この学習手法については、モデル学習装置２の説明において行うこととする。

感情判定モデル記憶手段１３は、顔画像特徴（顔画像特徴ベクトル）と３次元顔特徴点（３次元顔特徴点ベクトル）とから、感情ラベルを判定する予め教師あり学習で学習されたニューラルネットワークで構成された感情判定モデルＭ_３（具体的には、ニューラルネットワークの構造、重み係数等）を記憶するものである。
例えば、感情判定モデルＭ_３は、順伝播ニューラルネットワーク（ＦＦＮＮ：Feed Forward Neural Network）を用いることができる。なお、感情判定モデルＭ_３は、ニューラルネットワークに限定されず、一般的な教師あり機械学習のモデルであってもよい。例えば、サポートベクタマシン（ＳＶＭ：Support Vector Machine）、条件付き確率場（ＣＲＦ：Conditional Random Fields）等であってもよい。

ここで、感情判定モデルＭ_３は、図５に示すように、顔画像特徴ベクトルＶ_２Ｄと３次元顔特徴点ベクトルＶ_３Ｄとを連結した１次元のベクトル（特徴ベクトル）を入力し、判定結果となる感情ラベルＬを出力するモデルである。
感情判定モデルＭ_３は、判定結果として、予め定めた感情ラベルごとに、０から１の範囲の確率値を出力する。すなわち、確率値が最大の感情ラベルが、判定結果の感情を示すラベルとなる。

なお、顔画像特徴ベクトルＶ_２Ｄは、図４で説明した顔画像特徴抽出モデルＭ_２が出力するベクトルである。
３次元顔特徴点ベクトルＶ_３Ｄは、図３で説明した３次元顔特徴点抽出モデルＭ_１が出力する３次元顔特徴点Ｃ_３Ｄを正規化し、１次元化したベクトルである。例えば、３次元顔特徴点ベクトルＶ_３Ｄは、３次元顔特徴点Ｃ_３Ｄの各座標値を、最大値が“１”、最小値が“０”となるように、すべての座標値を０～１の範囲の値に正規化（Ｍｉｎ－Ｍａｘ法）した１次元のベクトルである。

すなわち、図６に示すように、感情判定モデルＭ_３に入力する特徴ベクトルＶ_Ｆは、３次元顔特徴点Ｃ_３Ｄを正規化し、１次元化した３次元顔特徴点ベクトルＶ_３Ｄと、顔画像特徴ベクトルＶ_２Ｄとを連結したベクトルである。
なお、感情判定モデルＭ_３の学習は、後記するモデル学習装置２（図９参照）で行うことができる。この学習手法については、モデル学習装置２の説明において行うこととする。

図２で示した顔画像Ｆから感情ラベルＬを判定するモデル間の入出力をより具体化した図を、図７に示す。
図７に示すように、感情判定モデルＭ_３に入力される特徴ベクトルＶ_Ｆには、２次元の顔画像から抽出される顔画像特徴ベクトルＶ_２Ｄに、３次元顔特徴点ベクトルＶ_３Ｄとして、顔の３次元の特徴点の位置が補助情報として付加されることになる。
これによって、判定結果となる感情ラベルＬは、２次元の画像上の顔の特徴とともに、３次元の顔の特徴点の位置が加味された判定結果となる。
図１に戻って、感情判定装置１の構成について説明を続ける。

制御部２０は、感情判定装置１全体の制御を行うものである。制御部２０は、ハードディスク、ＲＯＭ等に記憶されたプログラム（感情判定プログラム）をメモリに展開し、コンピュータ（ＣＰＵ）がプログラムを読み込んで、以下に説明する各手段として機能させる。
制御部２０は、３次元顔特徴点抽出手段２１と、顔画像特徴抽出手段２２と、特徴量結合手段２３と、判定手段２４と、を備える。

３次元顔特徴点抽出手段２１は、３次元顔特徴点抽出モデル記憶手段１１に記憶されている予め学習された３次元顔特徴点抽出モデルを用いて、入力された顔画像から顔の３次元の特徴点の位置を抽出する。
３次元顔特徴点抽出手段２１は、図３に示すように、顔画像Ｆを入力し、３次元顔特徴点抽出モデルＭ_１のニューラルネットワークの演算を行うことで、顔の予め定めた複数の位置（ランドマーク、キーポイント）の３次元座標位置を３次元顔特徴点Ｃ_３Ｄとして抽出する。
３次元顔特徴点抽出手段２１は、抽出した３次元顔特徴点Ｃ_３Ｄを特徴量結合手段２３に出力する。

顔画像特徴抽出手段２２は、顔画像特徴抽出モデル記憶手段１２に記憶されている予め学習された顔画像特徴抽出モデルを用いて、入力された顔画像から顔の特徴（特徴量）である顔画像特徴ベクトルを抽出するものである。
顔画像特徴抽出手段２２は、図４に示すように、顔画像Ｆを入力し、顔画像特徴抽出モデルＭ_２のニューラルネットワークの演算を行うことで、顔の特徴量を顔画像特徴ベクトルＶ_２Ｄとして抽出する。
顔画像特徴抽出手段２２は、抽出した顔画像特徴ベクトルＶ_２Ｄを特徴量結合手段２３に出力する。

特徴量結合手段２３は、３次元顔特徴点抽出手段２１で抽出された顔の３次元の特徴点の位置と、顔画像特徴抽出手段２２で抽出された顔画像特徴ベクトルとを連結した特徴ベクトルを生成するものである。なお、特徴量結合手段２３は、顔の３次元の特徴点の位置を、正規化および１次元化して、顔画像特徴ベクトルと結合する。
特徴量結合手段２３は、例えば、図６に示すように、３次元顔特徴点Ｃ_３Ｄの各座標値を、最大値が“１”、最小値が“０”となるように、すべての座標値を０～１の範囲の値に正規化する。そして、特徴量結合手段２３は、正規化したＸ座標の値の数値列、正規化したＹ座標の数値列、正規化したＺ座標の数値列を並べて１次元の数値列である３次元顔特徴点ベクトルＶ_３Ｄを生成する。そして、特徴量結合手段２３は、正規化および１次元化した３次元顔特徴点ベクトルＶ_３Ｄを顔画像特徴ベクトルＶ_２Ｄに連結して、特徴ベクトルＶ_Ｆを生成する。
特徴量結合手段２３は、結合後の特徴ベクトルＶ_Ｆを判定手段２４に出力する。

判定手段２４は、感情判定モデル記憶手段１３に記憶されている予め学習された感情判定モデルを用いて、特徴量結合手段２３で生成された特徴ベクトル（顔画像特徴ベクトル＋３次元顔特徴点ベクトル）から、感情ラベルを判定するものである。
判定手段２４は、図５に示すように、顔画像特徴ベクトルＶ_２Ｄと３次元顔特徴点ベクトルＶ_３Ｄとを連結した特徴ベクトルＶ_Ｆを入力し、感情判定モデルＭ_３のニューラルネットワークの演算を行うことで、感情ラベルＬごとの確率値を算出する。
そして、判定手段２４は、確率値が最大となった感情ラベルＬを判定結果として出力する。

以上説明した構成によって、感情判定装置１は、顔画像に映った顔の特徴量だけではなく、顔の３次元の特徴点の位置を補助情報として利用するため、従来に比べて精度よく、人物の感情を判定することができる。

≪感情判定装置の動作≫
次に、図８を参照（構成については適宜図１参照）して、本発明の第１実施形態に係る感情判定装置１の動作について説明する。
ステップＳ１において、感情判定装置１は、図示を省略した入力手段によって、外部から顔画像を入力する。
ステップＳ２において、感情判定装置１は、３次元顔特徴点抽出手段２１によって、３次元顔特徴点抽出モデル記憶手段１１に記憶されている３次元顔特徴点抽出モデルを用いて、ステップＳ１で入力された顔画像から顔の３次元の特徴点（３次元顔特徴点）の位置を抽出する。
ステップＳ３において、感情判定装置１は、顔画像特徴抽出手段２２によって、顔画像特徴抽出モデル記憶手段１２に記憶されている顔画像特徴抽出モデルを用いて、ステップＳ１で入力された顔画像から顔の特徴を顔画像特徴ベクトルとして抽出する。
なお、ステップＳ２とステップＳ３は、図８のように、並列で動作させてもよいし、ステップＳ２，Ｓ３の順、あるいは、ステップＳ３，Ｓ２の順に動作させてもよい。

ステップＳ４において、感情判定装置１は、特徴量結合手段２３によって、ステップＳ２で抽出された３次元顔特徴点の各座標値を、正規化し、１次元化することで、３次元顔特徴点ベクトルを生成する。
ステップＳ５において、感情判定装置１は、特徴量結合手段２３によって、ステップ３で抽出された顔画像特徴ベクトルと、ステップＳ４で生成された３次元顔特徴点ベクトルとを連結し、特徴ベクトルを生成する。

ステップＳ６において、感情判定装置１は、判定手段２４によって、感情判定モデル記憶手段１３に記憶されている感情判定モデルを用いて、ステップＳ５で生成された特徴ベクトルから、感情ラベルを判定する。
ステップＳ７において、感情判定装置１は、判定手段２４によって、ステップＳ６で判定された感情ラベルを判定結果として外部に出力する。

ステップＳ８において、感情判定装置１は、図示を省略した入力手段によって、判定対象となる顔画像が入力されるか否かにより判定処理の終了判定を行う。
ここで、まだ、顔画像が入力される場合（ステップＳ８でＮｏ）、感情判定装置１は、ステップＳ１に戻って動作を継続する。
一方、顔画像が入力されない場合（ステップＳ８でＹｅｓ）、感情判定装置１は、動作を終了する。
以上の動作によって、感情判定装置１は、顔画像から、顔画像に映った人物の感情を判定することができる。

≪モデル学習装置の構成≫
次に、図９を参照して、本発明の第２実施形態に係るモデル学習装置２の構成について説明する。

モデル学習装置２は、顔画像を入力して顔画像から顔の特徴量である顔画像特徴ベクトルを出力する顔画像特徴抽出モデルと、顔画像特徴ベクトルに顔の３次元の特徴点の位置を連結した特徴ベクトルを入力して予め定めた感情のラベルを判定結果として出力する感情判定モデルと、を学習するものである。
すなわち、モデル学習装置２は、感情判定装置１で用いる顔画像特徴抽出モデルおよび感情判定モデルを学習する。
モデル学習装置２は、感情ラベルが既知の顔画像（学習用顔画像）と、対応する感情ラベル（正解感情ラベル）とを、学習データとして入力し、顔画像特徴抽出モデルおよび感情判定モデルを学習する
図９に示すように、モデル学習装置２は、記憶部１０と、制御部２０Ｂと、を備える。

記憶部１０は、図１で説明した感情判定装置１の構成と同じ、３次元顔特徴点抽出モデル記憶手段１１と、顔画像特徴抽出モデル記憶手段１２と、感情判定モデル記憶手段１３と、を備える。

すなわち、３次元顔特徴点抽出モデル記憶手段１１には、顔画像から、顔の３次元の特徴点の位置を抽出する予め学習されたニューラルネットワークで構成された３次元顔特徴点抽出モデルが記憶されている。
また、顔画像特徴抽出モデル記憶手段１２には、一般的な画像認識用として事前学習されたモデル（畳み込みニューラルネットワーク〔ＣＮＮ〕、Vision Transformer等）が顔画像特徴抽出モデルとして記憶されている。
また、感情判定モデル記憶手段１３には、１次元のベクトルから、予め定めたラベルを推定するモデル、例えば、順伝播ニューラルネットワーク（ＦＦＮＮ）のモデルが感情判定モデルとして記憶されている。

なお、顔画像特徴抽出モデル記憶手段１２に記憶されている顔画像特徴抽出モデル、および、感情判定モデル記憶手段１３に記憶されている感情判定モデルが、モデルの学習対象である。

制御部２０Ｂは、モデル学習装置２全体の制御を行うものである。制御部２０Ｂは、ハードディスク、ＲＯＭ等に記憶されたプログラム（感情判定プログラム）をメモリに展開し、コンピュータ（ＣＰＵ）がプログラムを読み込んで、以下に説明する各手段として機能させる。

制御部２０Ｂは、３次元顔特徴点抽出手段２１と、顔画像特徴抽出手段２２と、特徴量結合手段２３と、顔画像特徴抽出モデル学習手段２５と、感情判定モデル学習手段２６と、を備える。
３次元顔特徴点抽出手段２１、顔画像特徴抽出手段２２および特徴量結合手段２３は、図１で説明した感情判定装置１の構成と同じである。ただし、３次元顔特徴点抽出手段２１および顔画像特徴抽出手段２２が入力する顔画像は、学習用顔画像である。

顔画像特徴抽出モデル学習手段２５は、学習用顔画像を顔画像特徴抽出モデルに入力して出力される顔画像特徴ベクトルを所定長のベクトルとして感情判定モデルに入力し、学習用の顔画像に対応する正解感情ラベルを出力するように、顔画像特徴抽出モデルを学習するものである。

すなわち、顔画像特徴抽出モデル学習手段２５は、図７に示すように、顔画像特徴抽出モデルＭ_２に学習用顔画像（顔画像Ｆ）を入力して出力される顔画像特徴ベクトルＶ_２Ｄを感情判定モデルＭ_３に入力し、正解感情ラベル（感情ラベルＬ）を出力するように、顔画像特徴抽出モデルＭ_２のパラメータを学習する。この顔画像特徴ベクトルＶ_２Ｄを感情判定モデルＭ_３に入力する場合、顔画像特徴抽出モデル学習手段２５は、顔画像特徴ベクトルＶ_２Ｄに、３次元顔特徴点ベクトルＶ_３Ｄを入れるための空データを付加して、感情判定モデルＭ_３の入力データ長に合わせた所定長のベクトルとする。

この学習には、例えば、誤差逆伝播法（back propagation）を用いることができる。
なお、顔画像特徴抽出モデル学習手段２５の学習には、顔画像特徴抽出モデルＭ_２以外に、感情判定モデルＭ_３が用いられるが、ここでは、顔画像特徴抽出モデルＭ_２のみを学習対象とすればよい。
これによって、顔画像特徴抽出モデルＭ_２は、感情ラベルＬの分類数に応じた特徴（顔画像特徴ベクトルＶ_２Ｄ）を出力するように学習されることになる。
顔画像特徴抽出モデル学習手段２５は、学習後のパラメータを顔画像特徴抽出モデル記憶手段１２に記憶する。

顔画像特徴抽出モデル学習手段２５は、予め定めた回数、または、パラメータ誤差が予め定めた範囲に収束するまで、順次、学習用顔画像と正解感情ラベルとを入力し、学習を行う。顔画像特徴抽出モデル学習手段２５が新しい学習用顔画像を入力する場合、３次元顔特徴点抽出手段２１は、それに同期して同じ学習用顔画像を入力する。
顔画像特徴抽出モデル学習手段２５は、一対の学習用顔画像と正解感情ラベルとを用いた学習が完了した段階で、学習用顔画像を顔画像特徴抽出手段２２に出力する。

感情判定モデル学習手段２６は、特徴量結合手段２３で結合された特徴ベクトルを入力して、感情ラベルを出力する感情判定モデルを学習するものである。
ここでは、感情判定モデル学習手段２６は、特徴量結合手段２３で結合された特徴ベクトルを感情判定モデルに入力して、正解となる感情ラベル（正解感情ラベル）を出力するように、感情判定モデルを学習する。

すなわち、感情判定モデル学習手段２６は、図７に示すように、顔画像特徴抽出モデルＭ_２の出力である顔画像特徴ベクトルＶ_２Ｄと、３次元顔特徴点抽出モデルＭ_１で抽出された３次元顔特徴点Ｃ_３Ｄを正規化および１次元化した３次元顔特徴点ベクトルＶ_３Ｄとを連結した特徴ベクトルＶ_Ｆを入力し、正解感情ラベル（感情ラベルＬ）を出力するように、感情判定モデルＭ_３のパラメータを学習する。学習には、例えば、誤差逆伝播法（back propagation）を用いることができる。

以上説明した構成によって、モデル学習装置２は、特徴量結合手段２３で結合された特徴ベクトルを用いることで、顔画像に映った顔の特徴量だけではなく、顔の３次元の特徴点の位置を補助情報として、感情を判定するニューラルネットワークのモデル（顔画像特徴抽出モデルおよび感情判定モデル）を学習することができる。

≪モデル学習装置の動作≫
次に、図１０を参照（構成については適宜図９参照）して、本発明の第２実施形態に係るモデル学習装置２の動作について説明する。
ステップＳ１０において、モデル学習装置２は、図示を省略した入力手段によって、外部から学習用顔画像および正解感情ラベルを入力する。
ステップＳ１１において、モデル学習装置２は、３次元顔特徴点抽出手段２１によって、３次元顔特徴点抽出モデル記憶手段１１に記憶されている３次元顔特徴点抽出モデルを用いて、ステップＳ１０で入力された学習用顔画像から顔の３次元の特徴点（３次元顔特徴点）の位置を抽出する。

ステップＳ１２において、モデル学習装置２は、顔画像特徴抽出モデル学習手段２５によって、顔画像特徴抽出モデル記憶手段１２に記憶されている顔画像特徴抽出モデルを学習する。ここでは、顔画像特徴抽出モデル学習手段２５は、顔画像特徴抽出モデルにステップＳ１で入力された学習用顔画像を入力して出力される顔画像特徴ベクトルを感情判定モデルに入力し、正解感情ラベル（感情ラベルＬ）を出力するように、顔画像特徴抽出モデルのパラメータを学習する。
そして、顔画像特徴抽出モデル学習手段２５は、学習後のパラメータを顔画像特徴抽出モデル記憶手段１２に記憶する（ステップとして不図示）。

ステップＳ１３において、モデル学習装置２は、顔画像特徴抽出手段２２によって、ステップＳ１２で学習された顔画像特徴抽出モデルを用いて、ステップＳ１で入力された学習用顔画像から顔の特徴を顔画像特徴ベクトルとして抽出する。
なお、ステップＳ１１とステップＳ１２、１３とは、図１０のように、並列で動作させてもよいし、ステップＳ１１，Ｓ１２，Ｓ１３の順、あるいは、ステップＳ１２，Ｓ１３，Ｓ１１の順に動作させてもよい。

ステップＳ１４において、モデル学習装置２は、特徴量結合手段２３によって、ステップＳ１１で抽出された３次元顔特徴点の各座標値を、正規化し、１次元化することで、３次元顔特徴点ベクトルを生成する。
ステップＳ１５において、モデル学習装置２は、特徴量結合手段２３によって、ステップ１３で抽出された顔画像特徴ベクトルと、ステップＳ１４で生成された３次元顔特徴点ベクトルとを連結し、特徴ベクトルを生成する。

ステップＳ１６において、モデル学習装置２は、感情判定モデル学習手段２６によって、感情判定モデル記憶手段１３に記憶されている感情判定モデルを学習する。ここでは、感情判定モデル学習手段２６は、ステップＳ１５で結合された特徴ベクトルを感情判定モデルに入力して、ステップＳ１で入力された正解となる感情ラベル（正解感情ラベル）を出力するように、感情判定モデルを学習する。そして、顔画像特徴抽出モデル学習手段２５は、学習後のパラメータを顔画像特徴抽出モデル記憶手段１２に記憶する。
そして、感情判定モデル学習手段２６は、学習後のパラメータを感情判定モデル記憶手段１３に記憶する（ステップとして不図示）。

ステップＳ１７において、モデル学習装置２は、顔画像特徴抽出モデル学習手段２５によって、予め定めた回数、または、パラメータ誤差が予め定めた範囲に収束することを終了条件として学習が終了したか否かを判定する。
ここで、まだ、学習が終了していない場合（ステップＳ１７でＮｏ）、モデル学習装置２は、ステップＳ１０に戻って動作を継続する。
一方、学習が終了した場合（ステップＳ１７でＹｅｓ）、モデル学習装置２は、動作を終了する。

以上の動作によって、モデル学習装置２は、顔画像から、顔画像に映った人物の感情を判定することができるニューラルネットワークのモデル（顔画像特徴抽出モデルおよび感情判定モデル）を学習することができる。

以上、本発明の実施形態に係る感情判定装置１の構成および動作、モデル学習装置２の構成および動作について説明したが、本発明は、これらの実施形態に限定されるものではない。

ここでは、顔画像から感情を判定する感情判定装置１と、顔画像から感情を判定するためのモデルを学習するモデル学習装置２とを、個別の装置として構成した。
しかし、本発明は、感情判定装置１とモデル学習装置２とを動作モードの変更によって１つの装置で動作する構成（第３実施形態）としても構わない。
具体的な構成を図１１に示す。

図１１に示す感情判定装置１Ｂは、学習モードと判定モードとの２つの動作モードで動作する。なお、これらのモードは、外部のスイッチ、操作画面による操作等によって切り替えられる。
感情判定装置１Ｂは、学習モードで動作する場合、学習用の顔画像（学習用顔画像）と対応する正解の感情ラベル（正解感情ラベル）とを学習データとして、感情を判定するためのモデル（顔画像特徴抽出モデルおよび感情判定モデル）を学習する。
また、感情判定装置１Ｂは、判定モードで動作する場合、判定用の顔画像（判定用顔画像）から感情ラベル（判定感情ラベル）を判定する。
図１１に示すように、感情判定装置１Ｂは、記憶部１０と、制御部２０Ｃと、を備える。

記憶部１０は、図１で説明した感情判定装置１、図９で説明したモデル学習装置２の構成と同じ、３次元顔特徴点抽出モデル記憶手段１１と、顔画像特徴抽出モデル記憶手段１２と、感情判定モデル記憶手段１３と、を備える。なお、３次元顔特徴点抽出モデル記憶手段１１、顔画像特徴抽出モデル記憶手段１２および感情判定モデル記憶手段１３に記憶する内容は、感情判定装置１やモデル学習装置２と同じであるため、説明を省略する。

制御部２０Ｃは、感情判定装置１Ｂ全体の制御を行うものである。制御部２０Ｃは、ハードディスク、ＲＯＭ等に記憶されたプログラム（感情判定プログラム）をメモリに展開し、コンピュータ（ＣＰＵ）がプログラムを読み込んで、以下に説明する各部として機能させる。
制御部２０Ｃは、３次元顔特徴点抽出手段２１と、顔画像特徴抽出手段２２と、特徴量結合手段２３と、判定手段２４と、顔画像特徴抽出モデル学習手段２５と、感情判定モデル学習手段２６と、を備える。
これらの各手段は、感情判定装置１やモデル学習装置２の構成と同じ機能を有するため、同一の符号を付して説明を省略する。

これらの各手段は、動作モードによって動作する手段や、入出力が異なる。
具体的には、学習モードでは、３次元顔特徴点抽出手段２１と、顔画像特徴抽出手段２２と、特徴量結合手段２３と、顔画像特徴抽出モデル学習手段２５と、感情判定モデル学習手段２６と、が動作する。

また、判定モードでは、３次元顔特徴点抽出手段２１と、顔画像特徴抽出手段２２と、特徴量結合手段２３と、判定手段２４と、が動作する。なお、判定モードでは、顔画像特徴抽出モデル学習手段２５は、入力した判定用顔画像をそのまま顔画像特徴抽出手段２２に出力する。
特徴量結合手段２３は、結合した特徴ベクトルを、学習モードにおいては感情判定モデル学習手段２６に出力し、判定モードにおいては判定手段２４に出力する。

以上説明した構成によって、感情判定装置１Ｂは、顔画像に映った顔の特徴量だけではなく、顔の３次元の特徴点の位置を補助情報として利用するためのニューラルネットワークのモデルを学習することができるとともに、そのモデルを用いて、従来に比べて精度よく、人物の感情を判定することができる。

また、感情判定装置１Ｂは、任意のタイミングで学習モードに切り替えてモデルの追加学習が行えるため、モデルの精度を高め、感情の判定の精度を高めることができる。
なお、感情判定装置１Ｂの動作は、学習モードでは、図１０で説明したモデル学習装置２の動作と同じであり、判定モードでは、図８で説明した感情判定装置１の動作と同じであるため、説明を省略する。

以上説明したように、感情判定装置１，１Ｂは、顔の一部が隠れた状態であっても精度よく感情を判定することができる。例えば、感情判定装置１，１Ｂは、放送コンテンツ内の登場人物の顔画像からでも、登場人物の感情を判定することができる。
これによって、放送コンテンツの登場人物の感情を、解説音声、触覚刺激等によって、提示することができ、視覚障害者を含めたすべての人に、より高い臨場感を提供することが可能になる。

１，１Ｂ感情判定装置
２モデル学習装置
１０記憶部
１１３次元顔特徴点抽出モデル記憶手段
１２顔画像特徴抽出モデル記憶手段
１３感情判定モデル記憶手段
２０，２０Ｂ，２０Ｃ制御部
２１３次元顔特徴点抽出手段
２２顔画像特徴抽出手段
２３特徴量結合手段
２４判定手段
２５顔画像特徴抽出モデル学習手段
２６感情判定モデル学習手段

Claims

顔画像に映った人物の感情を判定する感情判定装置であって、
予め学習された３次元顔特徴点抽出モデルを用いて、入力された顔画像から顔の３次元の特徴点の位置を抽出する３次元顔特徴点抽出手段と、
予め学習された顔画像特徴抽出モデルを用いて、前記入力された顔画像から顔の特徴量である顔画像特徴ベクトルを抽出する顔画像特徴抽出手段と、
前記顔の３次元の特徴点の位置と前記顔画像特徴ベクトルとを連結した特徴ベクトルを生成する特徴量結合手段と、
予め学習された感情判定モデルを用いて、前記特徴ベクトルから予め定めた感情のラベルを判定する判定手段と、
を備えることを特徴とする感情判定装置。
学習用の顔画像を前記顔画像特徴抽出モデルに入力し出力される顔画像特徴ベクトルを所定長のベクトルとして前記感情判定モデルに入力し、前記学習用の顔画像に対応する正解の感情ラベルを出力するように、前記顔画像特徴抽出モデルを学習する顔画像特徴抽出モデル学習手段と、
前記特徴ベクトルを入力し、前記学習用の顔画像に対応する正解の感情ラベルを出力するように、前記感情判定モデルを学習する感情判定モデル学習手段と、
をさらに備えることを特徴とする請求項１に記載の感情判定装置。
コンピュータを、請求項１または請求項２に記載の感情判定装置として機能させるためのプログラム。
顔画像を入力して前記顔画像から顔の特徴量である顔画像特徴ベクトルを出力する顔画像特徴抽出モデルと、前記顔画像特徴ベクトルに顔の３次元の特徴点の位置を連結した特徴ベクトルを入力して予め定めた感情のラベルを判定結果として出力する感情判定モデルと、を学習するモデル学習装置であって、
学習用の顔画像を前記顔画像特徴抽出モデルに入力して出力される顔画像特徴ベクトルを所定長のベクトルとして前記感情判定モデルに入力し、前記学習用の顔画像に対応する正解の感情ラベルを出力するように、前記顔画像特徴抽出モデルを学習する顔画像特徴抽出モデル学習手段と、
予め学習された３次元顔特徴点抽出モデルを用いて、前記学習用の顔画像から顔の３次元の特徴点の位置を抽出する３次元顔特徴点抽出手段と、
前記顔画像特徴抽出モデルを用いて、前記学習用の顔画像から顔の特徴量である顔画像特徴ベクトルを抽出する顔画像特徴抽出手段と、
前記顔の３次元の特徴点の位置と前記顔画像特徴ベクトルとを連結した特徴ベクトルを生成する特徴量結合手段と、
前記特徴ベクトルを入力し、前記学習用の顔画像に対応する正解の感情ラベルを出力するように、前記感情判定モデルを学習する感情判定モデル学習手段と、
を備えることを特徴とするモデル学習装置。
コンピュータを、請求項４に記載のモデル学習装置として機能させるためのプログラム。