JP6166981B2 - 表情解析装置及び表情解析プログラム - Google Patents

表情解析装置及び表情解析プログラム Download PDF

Info

Publication number
JP6166981B2
JP6166981B2 JP2013166710A JP2013166710A JP6166981B2 JP 6166981 B2 JP6166981 B2 JP 6166981B2 JP 2013166710 A JP2013166710 A JP 2013166710A JP 2013166710 A JP2013166710 A JP 2013166710A JP 6166981 B2 JP6166981 B2 JP 6166981B2
Authority
JP
Japan
Prior art keywords
facial expression
image feature
feature amount
index
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013166710A
Other languages
English (en)
Other versions
JP2015035172A (ja
Inventor
誠 奥田
誠 奥田
佐藤 洋一
洋一 佐藤
藤井 真人
真人 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2013166710A priority Critical patent/JP6166981B2/ja
Publication of JP2015035172A publication Critical patent/JP2015035172A/ja
Application granted granted Critical
Publication of JP6166981B2 publication Critical patent/JP6166981B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、表情解析装置及び表情解析プログラムに関する。
人とコンピュータとの間の円滑なコミュニケーションを実現する手段の1つとして、
画像処理により人物の顔を表す顔画像に基づいて顔の表情を認識する表情認識技術が提案されている。認識される表情は、例えば、怒り、嫌悪、恐れ、幸福、悲しみ、驚き、といった基本6感情である。
例えば、非特許文献1には、顔画像の表情毎の強度を取得する方法が記載されている。この方法は、画像中の顔領域を検出し、顔領域を切り出して画像サイズを正規化し、正規化された顔画像を等分割し、各分割ブロックについての出力パターン毎の頻度を連結した顔画像特徴ベクトルを算出する過程を含む。この方法は、さらに、顔画像特徴ベクトルを独立変数とし、表情毎に学習処理により得られた回帰係数を用いて、表情毎の強度を計算する過程を含む。算出した強度の最大値に対応する表情が、認識された表情と定められる。
奥田誠、他2名、「主観的尺度に合致した顔表情の強度推定と認識」、映像情報メディア学会年次大会講演予稿集、映像情報メディア学会、2012年8月29日、8−5
しかしながら、非特許文献1では、表情毎に独立に強度が算出されるため、認識された表情と異なる表情の強度が認識された表情の強度に近似する場合には、実際の表情はその異なる表情である可能性が高い。例えば、ある画像について、怒り、嫌悪、幸福のそれぞれの強度が68、72、3である場合、嫌悪と認識されるが、実際の表情は怒りである可能性がある。他方、算出される強度は撮像条件、例えば、顔の向きや顔に照射される光線の方向、強度によって影響を受けることがあるため、認識される表情について信頼性が失われるおそれがあった。
本発明は上記の点に鑑みてなされたものであり、信頼性が高い表情解析装置及び表情解析プログラムを提供する。
[1]上記の課題を解決するため、本発明の一態様は、取得した画像から顔が表された顔領域を抽出する顔領域抽出部と、前記顔領域の画像特徴量として画素毎に局所画像特徴量を計算する画像特徴量計算部と、前記局所画像特徴量の、前記画像に含まれる分割ブロック内における出現頻度に基づいて第1の演算を行って表情毎の強度を計算する第1指標計算部と、前記局所画像特徴量に基づいて第2の演算を行って表情毎の確率を計算する第2指標計算部と、前記強度と前記確率を所定の重み付けにより加算した表情毎の統合指標に基づいて表情を定める表情決定部と、を備える表情解析装置である。
[1]の構成によれば、局所画像特徴量について第1の演算を行って計算した強度と第2の演算を行って計算した確率の両者を考慮して、所定の表情である度合いを示す統合指標が算出される。そのため、第1の演算を行って計算した強度のみを用いる場合よりも高い信頼性をもって表情を定めることができる。
[2]本発明のその他の態様は、[1]の表情解析装置であって、前記表情決定部は、前記強度と前記確率を表情毎に異なる係数で重み付けして前記統合指標を算出し、前記統合指標が最大となる表情を定めることを特徴とする。
[2]の構成によれば、統合指標に対する強度と確率の寄与の表情による相違が考慮されるので、判定された表情の信頼性が向上する。
[3]本発明のその他の態様は、[1]又は[2]の表情解析装置であって、前記局所画像特徴量は、ローカルバイナリパターンであって、前記第2指標計算部は、前記第2の演算として単純ベイズ推定法を用いて前記表情毎の確率を計算することを特徴とする。
[3]の構成によれば、単純ベイズ推定法を用いることによって、簡素な処理によって第2の指標を計算することができる。また、ローカルバイナリパターンを用いることで、画像特徴量やその画像特徴量に応じた頻度の計算に係る処理量を低減することができる。また、ローカルバイナリパターンは、画素間の信号値の大小関係を示すものであるため、画像データの取得状況によって、例えば、照明状態に揺らぎが生じても頑健に表情を判定することができる。
[4]本発明のその他の態様は、[1]から[3]のいずれかの表情解析装置であって、
前記第2指標計算部は、前記局所画像特徴量の出現頻度に基づく出力値を出力する弱識別器を前記分割ブロック毎に備え、前記弱識別器からの出力値を前記分割ブロック毎に重み付け加算して前記確率を計算する強識別器を表情毎に備えることを特徴とする。
[4]の構成によれば、分割ブロック毎に、局所画像特徴量の第2の指標への寄与が考慮されるので、判定された表情の信頼性が向上する。
[5]本発明のその他の態様は、[1]から[4]のいずれかの表情解析装置であって、
前記表情決定部は、予め定めた区間における表情毎の統合指標の平均値又は総和値が最大となる表情を定めることを特徴とする。
[5]の構成によれば、被写体となる人物の表情が一時的に変化しても、統合指標の平均値又は総和値をとることで変化による統合指標の変化が緩和されるため安定した表情の認識を行うことができる。
[6]本発明のその他の態様は、[1]から[4]のいずれかの表情解析装置であって、
前記表情決定部は、予め定めた区間に含まれるフレーム毎の統合指標の最大値について当該区間内の総和値が最大となる表情を定めることを特徴とする。
[6]の構成によれば、被写体となる人物の表情が一時的に変化しても、統合指標の最大値について予め定めた区間内の総和値をとるため、表情の変化による統合指標の変化が緩和されるため安定した表情の認識を行うことができる。
[7]本発明のその他の態様は、表情解析装置が備えるコンピュータに、取得した画像から顔が表された顔領域を抽出する顔領域抽出手順、前記顔領域の画像特徴量として画素毎に局所画像特徴量を計算する画像特徴量計算手順、前記局所画像特徴量の、前記画像に含まれる分割ブロック内における出現頻度に基づいて第1の演算を行って表情毎の強度を計算する第1指標計算手順、前記局所画像特徴量に基づいて第2の演算を行って表情毎の確率を計算する第2指標計算手順、前記強度と前記確率を所定の重み付けにより加算した表情毎の統合指標に基づいて表情を定める表情決定手順、を実行させるための表情解析プログラムである。
[7]の構成によれば、局所画像特徴量について第1の演算を行って計算した強度と第2の演算を行って計算した確率の両者を考慮して、所定の表情である度合いを示す統合指標が算出される。そのため、第1の演算を行って計算した強度のみを用いる場合よりも高い信頼性をもって表情を定めることができる。
本発明によれば、表情解析の信頼性を向上することができる。
本実施形態に係る表情解析装置の構成を示すブロック図である。 本実施形態に係る表情強度推定部の構成を示すブロック図である。 学習用データのセットの例を示す図である。 顔領域データの一例を示す図である。 解析領域データの一例を示す図である。 LBPの例を説明する図である。 算出されたヒストグラムの例を示す図である。 本実施形態に係る表情認識処理の例を示すフローチャートである。 事前学習に係る処理の例を示すフローチャートである。 表情強度推定部の他の構成例を示すブロック図である。 表情毎の強度推定部に含まれるニューラルネットワークの構成例を示す図である。 表情強度推定部のさらに他の構成例を示す図である。 第2指標計算部の他の構成例を示すブロック図である。
以下、図面を参照しながら本発明の実施形態について説明する。
本実施形態に係る表情解析装置1の構成について説明する。
図1は、本実施形態に係る表情解析装置1の構成を示すブロック図である。
表情解析装置1は、画像データ取得部101、顔領域抽出部102、画像特徴量計算部105、第1指標計算部106、第2指標計算部108、及び表情決定部109を含んで構成される。
画像データ取得部101は、表情解析装置1に接続されている外部機器(図示せず)から画像データを取り込む。外部機器は、例えば、撮影装置、記録装置等である。画像データは、静止画を示す静止画像データ又は動画像を示す動画像データである。画像データが、静止画像データである場合には、画像データ取得部101は、その画像データを顔領域抽出部102に出力する。画像データが、動画像データである場合には、画像データ取得部101は、動画を構成するフレーム毎もしくは予め定めたフレーム数毎の静止画像データを顔領域抽出部102に抽出する。
顔領域抽出部102は、画像データ取得部101から入力された画像データから被写体である人物の顔を表す顔領域を抽出し、抽出した顔領域から解析対象とする解析領域を定める。顔領域抽出部102は、定めた解析領域を示す解析領域データを画像特徴量計算部105に出力する。
顔領域抽出部102は、その機能構成として、顔領域検出部103と解析領域決定部104とを含んで構成される。
顔領域検出部103は、入力された画像データについて顔検出処理を行って顔領域を検出し、検出した顔領域を示す顔領域データを解析領域決定部104に出力する。検出した顔領域は、例えば、顔を表す領域を含んだ長方形の領域である。顔を表す領域には、表情に依存する部分(例えば、両眉毛、両目、鼻、口)が含まれる。
顔領域検出部103は、顔検出処理において、公知の顔検出処理(例えば、AdaBoost)を用いる。AdaBoostを用いた顔検出処理は、例えば、PAUL VIOLA,MICHEAL J.JONES,“Robust Real−Time Face Detection”,International Journal of Computer Vision, 2004,Vol.57,No.2,137−154に開示されている。その他、顔領域検出部103は、特開2005−49854号公報に記載の顔検出処理を用いてもよい。
解析領域決定部104は、顔領域検出部103から入力された顔領域データが示す顔領域のサイズを所定のサイズ(例えば、水平方向128画素×垂直方向128画素)に正規化する。解析領域決定部104は、正規化した顔領域(正規化顔領域)を後述する画像特徴量を計算する対象とする解析領域と定め、その解析領域に含まれる画像を示す解析領域データを画像特徴量計算部105に出力する。
ここで、解析領域決定部104は、入力された顔領域データが示す顔領域を所定のサイズの長方形の画像に拡大または縮小する画像処理を実行して、解析領域データを生成する。つまり、画像データに含まれる顔の大きさは画像データによって様々であるため、解析領域決定部104は、顔領域を拡大または縮小させて、全ての画像データにおける顔領域の解像度を同程度にする。これにより、解像度が異なる顔領域データの情報量をほぼ均等(均等を含む)にすることができる。
解析領域決定部104は、正規化顔領域をさらに細分化した解析領域を決定し、決定した解析領域に含まれる画像を示す解析領域データを抽出してもよい。その場合、解析領域決定部104は、抽出した解析領域データを画像特徴量計算部105に出力する。解析領域は、例えば、正規化顔領域が予め定めた大きさに分割された分割ブロックである。解析領域は、これには限られず、表情の手がかりとなる顔の部位(例えば、目、口、等)が大部分を占める分割ブロックであってもよい。解析領域の例については、後述する。
画像特徴量計算部105は、顔領域抽出部102から入力された解析領域データの画像特徴量を計算し、計算した画像特徴量を第1指標計算部106に出力する。
また、画像特徴量計算部105は、解析領域データが示す解析領域における画素毎の信号値に基づいて局所画像特徴量を計算する。計算した局所画像特徴量を第2指標計算部108に出力する。
局所画像特徴量は、画像の局所的な特徴を示す画像特徴量である。以下の説明では、局所画像特徴量を、単に局所特徴量と呼ぶことがある。画像特徴量計算部105は、例えば、LBP(Local Binary Patterns;ローカルバイナリパターン)を用いてもよい。LBPは、解析領域に含まれる注目画素の信号値と、注目画素の周辺の画素(周辺画素)の信号値との大小関係を二値化したパターン(バイナリパターン)を示す特徴量である。
LBPについては、Timo Ojala, Matti Pietikainen and Topi Maenpaa,”Multiresolution Gray−Scale and Rotation invariant Texture Classification with Local Binary Patterns”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.24, no.7, July 2002に詳細に開示されている。
画像特徴量計算部105は、解析領域に含まれる各画素(但し、解析領域の外縁の画素を除く)についてLBPを算出してもよいし、水平方向又は垂直方向に予め定めた間隔(例えば、2画素)でLBPを算出してもよい。LBPの算出例については、後述する。
そして、画像特徴量計算部105は、解析領域を格子状に分割した予め定めた大きさ(例えば、水平方向16画素及び垂直方向16画素)を有する分割ブロックのそれぞれについて、それぞれのLBPをビン(bin)としてLBP毎の度数(出現頻度の頻度分布)を示すヒストグラムを生成する。つまり、分割ブロックは、入力された画像データ、顔領域データに含まれる領域である。画像特徴量計算部105は、正規化顔領域に含まれる分割ブロック間でヒストグラムを連結して連結ヒストグラムを画像特徴量として算出する。
なお、画像データ取得部101で取り込まれる画像データが動画像データである場合には、画像特徴量計算部105は、LBPに代えて拡張LBPを用いて連結ヒストグラムを画像特徴量として算出してもよい。拡張LBPは、上記のLBPを時系列方向に拡張したバイナリパターンを示す特徴量である。つまり、拡張LBPは、現在解析対象となっている注目フレームでの注目画素の信号値と、注目フレームよりも過去や未来のフレームでの周辺画素の信号値との大小関係も含むバイナリパターンである。
拡張LBPについては、例えば、Guoying Zhao, Matti Pietikainen,“Dynamic Texture Recognition Using Local Binary Patterns with an Application to Facial Expressions”,IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.29,no.6,June 2007に開示されている。
第1指標計算部106は、画像特徴量計算部105から入力された画像特徴量に基づいて第1の演算を行って表情毎の強度を示す表情強度値を計算する。表情強度推定部107及び正規化部107’を含んで構成される。
表情強度推定部107は、画像特徴量計算部105から入力された画像特徴量に基づいて表情毎の強度を示す表情強度値を推定し、推定した表情強度値を正規化部107’に出力する。表情強度推定部107は、表情毎に予め定めたパラメータを用いて回帰分析処理を行って、それぞれの表情の表情強度値を計算する。これにより、表情毎の主観的な強度を示す表情強度値が得られる。回帰分析処理に用いるパラメータは、予め事前学習を行って定めておく。回帰分析処理の例については、後述する。
正規化部107’は、表情強度推定部107から入力された表情毎の表情強度値を正規化して、それぞれの表情の強度を示す第1指標を計算し、計算した表情毎の第1指標を表情決定部109に出力する。
正規化部107’は、例えば式(1)に示すように表情毎の表情強度値Ieを、表情強度の表情間の総和で除算(正規化)して、画像特徴量[X]が与えられているときに、それぞれの表情eの正規化した強度p(e|[X])を第1指標として計算する。[…]は、ベクトル又は行列を示す。
Figure 0006166981
式(1)において、Ian、Idi、Ife、Iha、Isa、Isuは、それぞれ「怒り」(anger)、「嫌悪」(disgust)、「恐れ」(fear)、「幸福」(happiness)、「悲しみ」(sadness)、「驚き」(surprise)の表情強度値である。表情eは、6種類の表情、つまり「怒り」、「嫌悪」、「恐れ」、「幸福」、「悲しみ」、「驚き」のいずれである。即ち、第1指標p(e|[X])は、画像特徴量[X]に基づく表情eの主観的な強度の、全ての取りうる表情eの間での強度の合計値に対する割合を示す。
第2指標計算部108は、画像特徴量計算部105から入力された局所画像特徴量について、第1の演算とは異なる演算(第2の演算)で、それぞれの表情eをとる確率p(e|l,l,…,l)(nは、局所画像特徴量のパターン数)を第2指標として計算する。確率p(e|l,l,…,l)は、取得した顔画像が示す表情eであることの信頼性を示す指標である。ここで、l,l,…,lは、それぞれ局所画像特徴量の1、2、…n番目のパターンである。以下の説明では、それぞれの局所画像特徴量をlと記載することがある。kは、それぞれの局所画像特徴量を区別するインデックスである。第2の演算は、例えば、局所画像特徴量l,l,…,lのそれぞれ応じた頻度(例えば、確率)に基づいて第2指標を計算する方法である。その方法は、例えば、単純ベイズ推定法(Naive Bayesian inference、単純ベイズ分類法とも呼ばれる)である。第2指標計算部108は、計算した表情毎の第2指標を表情決定部109に出力する。単純ベイズ推定法を用いて、第2指標を計算する処理の例については後述する。
表情決定部109は、正規化部107’から入力された第1指標と第2指標計算部108から入力された第2指標を重み付け加算して、表情毎の統合指標を計算する。表情決定部109は、計算した統合指標が最も高い表情を定める。表情決定部109は、定めた表情を示す表情種別情報を表情解析装置1の外部に出力する。
表情決定部109は、表情を定める際、例えば、式(2)に示すように第1指標と第2指標を対数領域で所定の重み付けにより加算する。
Figure 0006166981
式(2)において、e’は、定めた表情を示す。arg[…]は、…を与えるeを示す。max{…}は、…の最大値を示す。wは、重み係数を示す。
式(2)は、第1指標の対数値log(p(e|[X]))に重み係数を乗ずる例を示しているが、これには限られず、第2指標の対数値log(p(e|l,l,…,l))に重み係数を乗じてもよい。
以下の説明では、表情決定部109での重み付け加算とは、特に断らない限り対数領域での重み付け加算を意味し、線形領域での重み係数によるべき乗値の乗算も含む。線形領域での重み係数によるべき乗値の乗算は、対数領域での重み付け加算に相当するためである。
即ち、表情決定部109は、式(2)を用いる代わりに式(3)を用いて表情e’を定めてもよい。
Figure 0006166981
重み係数wは、予め事前学習を行って定めておく。また、重み付け加算で用いられる重み係数wは、表情e毎に異なっていてもよい。その場合には、事前学習では表情e毎に独立に重み係数wを定めておく。
これにより、統合指標に対する第1指標と第2指標の寄与における表情による相違が考慮されるので、判定された表情の信頼性が向上する。
(第2指標を計算する処理の例)
次に、第2指標、即ち確率p(e|l,l,…,l)を計算する処理の例として単純ベイズ推定法を用いる例について説明する。
第2指標計算部108は、例えば、式(4)を用いて、確率p(e|l,l,…,l)と比例関係にあるq(e|l,l,…,l)を計算する。
Figure 0006166981
式(4)において、t(e,l)は、事前学習で用いた学習用画像データのうち表情eを示す画像データについて計算されたk番目の局所画像特徴量lの度数である。Lは、画像データから観測されうる局所画像特徴量のパターンの全種類を示す。従って、分母のΣl∈Lt(e,l)は、表情eを示す学習用画像データで観測されうる局所画像特徴量の全パターンの合計個数を示す。p(e)は、表情eをとる確率(事前確率)を示す。とりうる表情の数が6種類である場合、例えば、p(e)を、各表情ともに予め1/6と定めておく。その場合、第2指標計算部108は、p(e)の乗算を省略してもよい。従って、q(e|l,l,…,l)は、l,l,…,lが観測されたときの表情eが示される尤度を示す。
確率q(e|l,l,…,l)と比例関係にある確率p(e|l,l,…,l)は、式(5)に示すベイズの定理から導出される。
Figure 0006166981
式(5)において、p(l,l,…,l|e)は、表情eが観測されたときに局所画像特徴量l,l,…,lが観測される条件付確率(尤度)を示す。p(l,l,…,l)は、局所画像特徴量l,l,…,lがともに観測される確率(証拠)を示す。単純ベイズ推定法では、局所画像特徴量l,l,…,lが生じる確率は互いに独立(条件付独立性)と仮定されている。その仮定のもとで、式(5)は、式(6)のように置き換えることができる。
Figure 0006166981
式(6)において、p(lk|e)は、表情eが観測されたときに局所画像特徴量lkが観測される条件付確率を示す。条件付確率p(l,l,…,l|e)は、条件付確率p(l|e)の全ての積であると仮定される。
局所画像特徴量lkの頻度が多項分布に従うと仮定すると,p(lk|e)は、式(7)に示すように、上述した度数t(e,l)を用いて定めることができる。
Figure 0006166981
そして、式(7)を式(6)に代入することによって、式(4)が得られる。ここで、式(6)の分母の確率p(l,l,…,l)が省略されているのは、確率p(l,l,…,l)は表情eに依存しないためである。
(表情強度推定部の構成)
次に、本実施形態に係る表情強度推定部107の構成について説明する。
図2は、本実施形態に係る表情強度推定部107の構成を示すブロック図である。
表情強度推定部107は、入力された画像特徴量[X]に対して独立に回帰分析処理を行って表情強度値を計算する構成部を表情毎に有する。例えば、表情強度推定部107は、怒り回帰部1071、嫌悪回帰部1072、恐れ回帰部1073、幸福回帰部1074、悲しみ回帰部1075、及び驚き回帰部1076を含んで構成される。これらの構成部は、それぞれの感情e、つまり、「怒り」、「嫌悪」、「恐れ」、「幸福」、「悲しみ」、「驚き」のそれぞれに係る表情強度値Iを正規化部107’に出力する。
各構成部は、回帰分析処理として、例えば、線形回帰分析処理、ロジスティック回帰分析処理、サポートベクトル回帰分析処理、等のいずれを行ってもよい。
線形回帰分析処理は、式(8)に示すように入力である画像特徴量[X]に対して線形となる出力として対応する表情eの表情強度値Iを計算する処理である。
Figure 0006166981
式(8)において、βは、表情強度値Iの画像特徴量のi番目の要素Xへの寄与の度合いを示す重み係数である。αは、全ての画像特徴量の要素Xが0である場合の表情強度値Iを示すバイアス値である。Iは、画像特徴量の要素数を示す。
ロジスティック回帰分析処理は、式(9)に示すように入力である画像特徴量[X]に対して最大値が100、最小値が0となる出力として対応する表情eの表情強度値Iを計算する処理である。
Figure 0006166981
式(9)に示すように、表情強度値Iは、α+Σi=1 ・β・Xに対して単調に増加する関数である。なお、表情強度値Iの最大値は100には限られず、0よりも大きい実数、例えば1に規格化されてもよい。
サポートベクトル回帰分析処理は、式(10)に示すように入力である画像特徴量[X]をJ(Jは、1よりも大きい整数であって、Iとは異なる)次元のベクトルに写像し、そのJ次元のベクトルに対して線形となる出力として対応する表情eの表情強度値Iを計算する処理である。
Figure 0006166981
式(10)において、Tは、ベクトル又は行列の転置を示す。φ(…)は、I次元の特徴量ベクトルをJ次元のベクトルに写像する写像関数を示す。従って、パラメータβ,β,…,βは、それぞれ写像された第1、第2、…、第J番目の要素に対応する重み係数である。上述したパラメータα、β等は、例えば、事前学習によって表情e毎に予め定めておく。
(事前学習)
次に、パラメータの事前学習について説明する。
事前学習を行う際、画像データ、その画像データが示す顔についての表情毎の表情強度値及び表情を対応付けた学習用データのセットを、多数(例えば、1,000個又はそれよりも多い)含む画像データベースが記憶された記憶媒体を準備しておく。事前学習では、学習用データのセットに含まれる表情毎の表情強度値と表情が、それぞれの教師値(supervised value)として用いられる。
表情強度値の教師値(表情強度教師値)は、対応する画像データが示す顔について、表情毎にその度合いを評価者の主観評価に従って表した値である。表情強度教師値は、予め定めた下限値(例えば、0)から上限値(例えば、100)までの整数である。このとき、表情強度教師値が大きいほど、その表情の度合いが高く、表情強度教師値が小さいほど、その表情の度合いが低い。
表情の教師値(表情教師値)は、候補となる表情(例えば、上述の6種類の表情)のいずれかを示す分類語、又はその分類語を示す数値である。例えば、表情教師値は、「怒り」、「嫌悪」、「恐れ」、「幸福」、「悲しみ」、「驚き」といった分類語であってもよいし、それぞれの分類語に対応する1、2、3、4、5、6といった数値でもよい。一般に、1つの顔画像には複数の表情が与えられる可能性があるが、1つの顔画像に対して1つの表情を示す表情教師値が与えられるようにしてもよい。ここで、被写体となる人物が予め定めた表情を意識して表しているとき、顔を構成する各部位の動きが予め定めた規則を満たしているときに、その表情が表情教師値として与えられてもよい。顔を構成する各部位は、AU(Action Unit)と呼ばれ、その予め定めた規則は、FACS(Facial Action Coding System)と呼ばれる。AU、FACSについては、次の文献に詳しく述べられている。P.Ekman,W.Friesen and J.Hager:“Facial Action Coding System:Research Nexus,”Network Research Information,Salt Lake City,UT,USA,2002.
なお、表情教師値は、これには限られず、予め評価者が1つの顔画像に対し、複数の表情について表情強度教師値を与え、そのうち表情強度教師値が最も大きい表情が表情教師値として与えられてもよいし、そのすべての表情が表情教師値として与えられてもよい。
なお、評価者は一人でもよいし、複数でもよい。評価者が複数である場合、各評価者によって付された表情強度教師値の平均値を、事前学習に用いてもよい。
図3は、学習用データのセットの例を示す図である。
図3に示すように、画像データベースは、表情毎に、各人物のニュートラル顔表情からピーク顔表情までの度合いがそれぞれ異なる画像データと、その表情強度教師値がそれぞれ対応付けられたデータのセットで形成されている。図3に示す例では、表情教師値は、上から順に、それぞれ「幸福」、「幸福」、「驚き」、を示す4、4、6である。
ニュートラル顔表情とは、いずれの判定対象の表情も表れていない中立的な状態である。ニュートラル顔表情には、例えば、無表情、その他、判別困難な表情が該当する。ピーク顔表情とは、その表情が最も極端に表れた表情である。
図3に示す例では、表情が「幸福」について、ニュートラル顔表情、ピーク顔表情に対して表情強度教師値は、それぞれ最低値0、最高値100である。表情強度教師値は、例えば、第1行目の左端から右端に順に、0、8、46、83、100である。
また、表情が「驚き」について表情強度教師値は、それぞれ最低値0、最高値100である。ニュートラル顔表情、ピーク顔表情に対して表情強度教師値は、それぞれ最低値0、最高値100である。表情強度教師値は、例えば、第3行目の左端から右端に順に、0、7、43、88、100となる。
画像データベースとして、例えば、次の文献に記載のCohn−Kanade Facial Expression Databaseを用いることができる。
Patrick Lucey,Jeffrey F. Cohn,Takeo Kanade,Jason Saragih and Zara Ambadar,“The Extended Cohn−Kanade Dataset (CK+): A Complete dataset for action unit and emotion−specified expression”, the Third IEEE Workshop on CVPR for Human Communicative Behavior Analysis,pp.94−101, 2010.
事前学習において、画像特徴量計算部105は、各セットの画像データに基づく解析領域データについて画像特徴量[X]を計算する。表情強度推定部107は、全ての画像データについて、各画像データに対応する表情強度教師値と、各セットの画像データについての画像特徴量[X]から算出した表情強度値との差の二乗値の総計が最小となるように表情強度値を算出する際に用いるパラメータを定める。そのパラメータとして、例えば、上述した回帰分析処理に係るパラメータα、β、等が該当する。この過程は、表情毎に行う。表情毎に行うとは、ある表情について強度を算出するためのパラメータを定めるとき、表情教師値がその表情と同じ画像データについては、表情強度値として表情強度教師値を用いるが、同じでないときには、その画像データの表情強度値を0として計算を行う。即ち、例えば、「怒り」の表情強度を算出するためのパラメータを決定する際には、表情教師値が「怒り」の画像データの表情強度値は、表情強度教師値を用いるが、それ以外の表情教師値が与えられている画像データの表情強度値は、すべて0とする。
重み係数wを事前学習する際には、予めさまざまな重み係数の候補値を設定しておき、設定した候補値のそれぞれについて学習用の画像データベース内で交差検定を行う。そして、表情の認識率が最も高くなる候補値を重み係数wと定める。
(顔領域データ)
次に、顔領域データの例について説明する。
図4は、顔領域データの一例を示す図である。
図4には、上段から順に画像データ2、顔領域データ2aが示されている。
画像データ2は、ある人物の頸部よりも上部の画像を示すデータである。画像データ2の下部に示されている下向きの矢印は、画像データ2から顔領域データ2aが生成されることを示す。顔領域データ2aは、画像データ2から、例えば、Violaらが提案した顔検出方法を用いて抽出された顔を含む領域を示すデータである。この顔検出方法は、例えば、次の論文に記載されている。
P.Viola et al.”Robust Real−Time Face Detection”,International Journal of Computer Vision,vol.57, no.2,pp.137−154,2004.
顔を含む領域とは、例えば、人物の表情を決定付ける部分(両眉毛、両目、鼻、口)を含む領域である。顔を含む領域には、表情を決定付ける部分が含まれていれば、顔のその他の部分が欠落していてもよいし、顔以外の部分が含まれていてもよい。
抽出された顔領域データ2aは、その後、所定のサイズ(例えば、水平画素数L×垂直画素数L)に正規化した画像を示す解析領域データ2b(図5)を生成するために用いられる。
図5は、解析領域データの一例を示す図である。
図5の上段の解析領域データ2bに表されている格子は、解析領域が予め定めた大きさの分割ブロックに細分化されていることを示す。上述した実施形態では、この分割ブロック内のそれぞれについて、局所画像特徴量としてLBPが算出され、LBP毎の度数を示すヒストグラムが画像特徴量[X]として算出される。
本実施形態では、図5の下段に示されているように、解析領域データ2bは、表情を表す際に重要な手掛かりとなる部位が大部分を占める分割ブロックに細分化してもよい。例えば、分割ブロック3aには、両目と両眉が含まれる。分割ブロック3bには、鼻が含まれる。分割ブロック3cには、口が含まれる。そして、分割ブロック毎に、局所画像特徴量(例えば、LBP)、画像特徴量(例えば、前述のヒストグラム)が算出されてもよい。
このように、主に表情を形成する部位や、互いに形状や位置の相関性が高い部位のグループ毎に、区分された分割ブロックの画像特徴量を得ることで、表情との相関性を的確に解析される、全領域について解析する場合よりも処理量を低減することができる。
なお、細分化された分割ブロックの形状は、上述したように四角形に限られず、任意の形状(例えば、円形、三角形、等)でよい。
(局所画像特徴量の例)
局所画像特徴量として、LBPの例について説明する。
図6は、LBPの例を説明する図である。
LBPは、上述したように注目画素p0の信号値と、各周辺画素p1−p8の信号値との大小関係で二値化したバイナリパターンを示す特徴量である。図6の上部は、各画素が四角形で示され、それぞれの四角形では、p1等の符号が周辺画素p1等を示し、48等の数値が信号値を示す。周辺画素p1−p8は、いずれも注目画素p0に隣接する画素である。周辺画素p1−p8の順序は、注目画素の左上の周辺画素p1を起点として右回りである。
画像特徴量計算部105は、周辺画素p1−p8の信号値のそれぞれと注目画素p0の信号値との大小関係を判定する。画像特徴量計算部105は、周辺画素の信号値が注目画素p0の信号値と等しいか、注目画素p0の信号値よりも大きい場合、その周辺画素についての数値を1と定める。画像特徴量計算部105は、周辺画素の信号値が注目画素p0の信号値よりも小さい場合、その周辺画素についての数値を0と定める。図6の上部では、数値が1と定められた周辺画素が塗りつぶされており、数値が0と定められた周辺画素は塗りつぶされていない。図6に示す例では、周辺画素p1−p8のそれぞれについて、0、1、0、1、1、0、0、0と定められている。
画像特徴量計算部105は、図6の下部に示すように、周辺画素p1−p8のそれぞれについて定められた数値(1又は0)を、上位の桁からより下位の桁に順次配列して8桁の二進数をLBPとして形成する。図6に示す例では、形成されたLBPは、01011000である。このLBPは、十進数で88に相当する。
このようにLBPは、注目画素の周辺における信号値の空間的な変化を示す局所画像特徴量として、簡便な演算処理によって計算される。そのため、LBPを用いることで、画像特徴量やその画像特徴量に応じた頻度の計算に係る処理量を低減することができる。特に、上述した単純ベイズ推定法を用いる例では、事前学習により予め計算した度数t(e,l)を用いて第2指標を簡便に計算することができる。また、LBPは、画素間の信号値の大小関係を示すものであるため、画像データの取得状況によって顔領域の照明状態に揺らぎが生じても頑健に表情を判定することができ、また計算に要する時間が短い。
(ヒストグラムの例)
図7は、算出されたヒストグラムの例を示す図である。
図7の左上部、右上部、下部は、ヒストグラム1、ヒストグラム2、連結ヒストグラムをそれぞれ示す。いずれのヒストグラムも、横軸は特徴量を示し、縦軸は特徴量毎の頻度を示す。
ヒストグラム1は、ある分割ブロック(分割ブロック1)について算出されたヒストグラムである。ヒストグラム2は、分割ブロック1とは異なる分割ブロック(分割ブロック2)について算出されたヒストグラムである。連結ヒストグラムは、分割ブロック1と分割ブロック2からなる解析領域全体について取得したヒストグラムである。連結ヒストグラムの上部に示された下向きの矢印は、連結ヒストグラムがヒストグラム1とヒストグラム2を横軸方向に連結して形成されたことを示す。この場合には、解析領域全体の画像特徴量の次元数は、分割ブロック1に係る次元数と分割ブロック2に係る次元数の和となる。
(表情認識処理)
次に、本実施形態に係る表情認識処理について説明する。
図8は、本実施形態に係る表情認識処理の例を示すフローチャートである。
(ステップS101)画像データ取得部101には、フレーム毎に画像データが入力され、入力された画像データを顔領域抽出部102に出力する。その後、ステップS102に進む。
(ステップS102)顔領域抽出部102は、画像データ取得部101から入力された画像データが示す顔領域データを抽出し、抽出した顔領域データから解析領域データを定める。顔領域抽出部102は、定めた解析領域データを画像特徴量計算部105に出力する。
その後、ステップS103に進む。
(ステップS103)画像特徴量計算部105は、顔領域抽出部102から入力された解析領域データに基づいて局所画像特徴量を計算し、局所画像特徴量に基づいて分割ブロック毎の画像特徴量(例えば、上述のヒストグラム)を計算する。画像特徴量計算部105は、計算した画像特徴量を表情強度推定部107に出力する。また、画像特徴量計算部105は、計算した局所画像特徴量を第2指標計算部108に出力する。その後、ステップS104に進む。
(ステップS104)表情強度推定部107は、画像特徴量計算部105から入力された画像特徴量に基づいて第1の演算を行って表情毎の強度を示す表情強度値を推定し、推定した表情強度値を正規化部107’に出力する。その後、ステップS105に進む。
(ステップS105)正規化部107’は、表情強度推定部107から入力された表情毎の表情強度値を正規化して、表情毎の強度を示す第1指標を計算し、計算した表情毎の第1指標を表情決定部109に出力する。その後、ステップS106に進む。
(ステップS106)第2指標計算部108は、画像特徴量計算部105から入力された局所画像特徴量に基づいて第2の演算を行って、それぞれの表情をとる第2指標を計算する。その後、ステップS107に進む。
(ステップS107)表情決定部109は、正規化部107’から入力された第1指標と第2指標を所定の重み係数を用いて重み付け加算して、表情毎の統合指標を計算する。その後、ステップS108に進む。
(ステップS108)表情決定部109は、計算した統合指標が最も高い表情を定める。表情決定部109は、定めた表情を示す表情種別情報を表情解析装置1の外部に出力する。その後、図8に示す処理を終了する。
次に、上述の表情認識処理に用いるパラメータを取得するための事前学習について述べる。
図9は、事前学習に係る処理の例を示すフローチャートである。
(ステップS201)画像データ取得部101には、学習用データのセット毎に、その一部である画像データが入力され、入力された画像データを顔領域抽出部102に出力する。その後、ステップS202に進む。
(ステップS202)表情強度推定部107には、入力された画像データに対応する表情強度教師値が入力される。また、表情決定部109には、入力された画像データに対応する表示教師値が入力される。その後、ステップS203に進む。
(ステップS203)顔領域抽出部102は、画像データ取得部101から入力された画像データが示す顔領域データを抽出し、抽出した顔領域データから解析領域データを定める。顔領域抽出部102は、定めた解析領域データを画像特徴量計算部105に出力する。
その後、ステップS204に進む。
(ステップS204)画像特徴量計算部105は、顔領域抽出部102から入力された解析領域データの画像特徴量を計算し、計算した画像特徴量を表情強度推定部107に出力する。また、画像特徴量計算部105は、その解析領域データの画像データについて局所画像特徴量を計算し、計算した局所画像特徴量を第2指標計算部108に出力する。その後、ステップS205に進む。
(ステップS205)表情解析装置1の制御部(図示せず)は、学習用データのセットの取得(サンプリング)が終了したか否かを判定する。終了したと判定された場合には(ステップS205 YES)、ステップS206に進む。終了していないと判定された場合には(ステップS205 NO)、ステップS201に進む。
(ステップS206)表情強度推定部107は、全ての画像データについて、各画像データに対応する表情強度教師値と、各セットの画像データについての画像特徴量[X]から算出した表情強度値との差の二乗値の総計が最小となるように表情強度値ひいては第1指標を計算する際に用いるパラメータを定める。表情強度推定部107は、定めたパラメータを記憶する。表情強度推定部107は、計算した表情強度値を正規化部107’に出力する。正規化部107’は、表情強度推定部107から入力された表情強度値に基づいて第1指標を各セットについて算出し、算出した第1指標を表情決定部109に出力する。その後、ステップS207に進む。
(ステップS207)第2指標計算部108は、各セットについて計算した局所画像特徴量l,l,…,lを用いて第2指標を算出する際に用いるパラメータとして、表情eを示す画像データについて計算されたi番目の局所画像特徴量lについて度数t(e,l)を算出し、さらに、例えば式(7)を用いて確率p(l|e)を計算する。第2指標計算部108は、定めたパラメータを記憶する。第2指標計算部108は、計算したパラメータを用いて第2指標を各セットについて計算し、計算した第2指標を表情決定部109に出力する。その後、ステップS208に進む。
(ステップS208)表情決定部109は、予め設定した複数の重み係数のそれぞれについて上述した交差検定を行い、その複数の重み係数のうち表情の認識率が最も高い重み係数をステップS107(図8)で用いられる重み係数として選択する。
その後、図9に示す処理を終了する。
(表情強度推定部107の他の構成例)
第1指標計算部106は、表情強度推定部107に代えて、表情強度推定部107aを備えてもよい。
図10は、表情強度推定部107aの構成例を示す図である。
表情強度推定部107aは、表情e毎にニューラルネットワークを用いて第2の演算を行い、表情毎の表情強度値を計算する強度推定部1071a〜1076aを備える。つまり、表情強度推定部107は、怒り強度推定部1071a、嫌悪強度推定部1072a、恐れ強度推定部1073a、幸福強度推定部1074a、悲しみ強度推定部1075a、及び驚き強度推定部1076aを含んで構成される。強度推定部1071a〜1076aのそれぞれは、入力された画像特徴量[X]を用いて、それぞれの感情e毎の表情強度値Iを算出し、算出した表情強度値Iをそれぞれ正規化部107’に出力する。
次に、表情e毎の強度推定部1071a〜1076aに含まれるニューラルネットワークの構成について説明する。
図11は、表情毎の強度推定部1071a〜1076aに含まれるニューラルネットワークの構成例を示す図である。
図11に示すニューラルネットワークは、神経回路網における入出力特性を模した処理部の階層を3層備える階層型ニューラルネットワークである。これらの階層は、左から順に入力層、中間層及び出力層である。
入力層、中間層、出力層には、それぞれI個、I(Iは、1よりも大きい予め定めた整数、例えば、I)個、1個の節点(ニューロン)In−1〜In−I、Md−1〜Md−I、Otを備える。
節点In−1〜In−Iには、それぞれ画像特徴量[X]の要素X〜X、が入力される。節点In-1〜In-Iは、入力された信号を中間層の節点Md−1〜Md−Iにそれぞれ出力する。
節点Md−1〜Md−Iは、それぞれの入力信号として要素X〜Xをそれぞれの重み係数で重み付け加算して荷重和にバイアス値を加算して値uを算出する。節点Md−1〜Md−Iは、値uについての出力関数f(u)を用いて出力信号yを算出する。節点Md−1〜Md−Iは、生成した出力信号yを出力層の節点Otに出力する。
節点Otには、節点Md−1〜Md−Iから出力された出力信号yが、入力信号X’〜X’としてそれぞれ入力される。節点Otは、入力信号X’〜X’をそれぞれの重み係数で重み付け加算した荷重和にバイアス値を加算して得られた値u’についての出力関数f(u’)を用いて出力値y’を算出する。節点Otは、算出した出力値y’を表情強度値Iとして正規化部107’に出力する。
出力関数f(u)、f(u’)は、例えば、シグモイド関数である。この関数は、式(9)の右辺に示す関数(但し、最大値が1に規格化されている)に相当する。但し、節点毎にパラメータ(バイアス値α、重み係数β)を事前学習により予め取得しておく。
事前学習では、表情決定部109において学習用データを用いて算出した認識率が最大となるように、重み係数wと連立して節点毎のパラメータを定める。
なお、第1指標計算部106は、表情強度推定部107もしくは107aに代えて、表情強度推定部107bを備えてもよい。
図12は、表情強度推定部107bの構成例を示す図である。
表情強度推定部107bは、1個のニューラルネットワークを含んで構成され、全ての表情eのそれぞれに係る表情強度値Iを出力する。表情強度推定部107bに含まれるニューラルネットワークは、出力層において表情e毎に節点Ot−e(eは、例えば、1から6までの整数)を備える点が、図11に示すニューラルネットワークと異なる。表情強度推定部107bに含まれるニューラルネットワークは、その他の点において図11に示すニューラルネットワークと同様である。
節点Ot−eには、節点Md−1〜Md−Iから出力された出力信号yが、入力信号X’〜X’としてそれぞれ入力される。各節点Ot−eは、入力信号X’〜X’に、それぞれ独立な重み係数で重み付け加算して荷重和を算出し、さらにバイアス値を加算して表情e毎の値u’を得る。各節点Ot−eは、得られた値u’についての出力関数f(u’)を用いて表情eの表情強度値Iを算出する。各節点Ot−eは、それぞれ算出した表情eの表情強度値Iを正規化部107’に出力する。
なお、上述した例において、ニューラルネットワークにおける階層の数は、3階層に限らず、1階層よりも多い任意の数、例えば4階層(中間層が2階層)であってもよい。
(第2指標計算部108の他の構成例)
表情解析装置1は、第2指標計算部108に代えて、第2指標計算部108cを備えてもよい。
第2指標計算部108cは、画像特徴量計算部105から入力された画像特徴量[X]に基づいて、AdaBoost識別器を用いて、それぞれの表情eをとる確率p(e|[X])を第2指標として計算する。画像特徴量[X]は、上述したように局所画像特徴量(例えば、LBP)毎の出現頻度を示すデータである。
AdaBoost識別器は、識別対象物を識別する複数の弱識別器(weak classifier)と、これらの弱識別器に対応付けられた強識別器(strong classifier)から形成される識別器である。以下の説明では、AdaBoost識別器を単にAdaBoostと呼ぶことがある。
AdaBoost識別器を用いて表情を認識する方法として、例えば、次の文献に記載されている方法を用いることができる。Caifeng Shan, Shaogang Gong, Peter W. McOwan,“Facial expression recognition based on Local Binary Patterns: A comprehensive study”, Image and Vision Computing,27,pp.803−816,2009。
図13は、第2指標計算部108cの構成例を示すブロック図である。
第2指標計算部108cは、表情e(例えば、上述した「怒り」、「嫌悪」、「恐れ」、「幸福」、「悲しみ」、「驚き」)毎のAdaBoost1081b−1〜1081b−6と、AdaBoost1081b−1〜1081b−6からの出力値に基づいて表情e毎の第2指標を計算する正規化部1082bを含んで構成される。各々のAdaBoost1081b−eは、複数の弱識別器w−e−1、w−e−2、…と、1つの強識別器s−eとで構成される。
ここで、表情e毎のAdaBoost1081b−eの処理について述べる。あるAdaBoost1081b−eが含む複数の弱識別器w−e−1、w−e−2、…のそれぞれは、対応する分割ブロック毎の画像特徴量[X’]に係るデータを入力とし、入力データに応じて、+1または−1を出力する。そのAdaBoost1081b−eが含む強識別器s−eは、弱識別器w−e−1、w−e−2、…からの出力のそれぞれに予め定められた所定の重みパラメータを乗じ、それらの総和を算出する。AdaBoost1081b−eからの出力値Oは、強識別器s−eによって算出される総和である。
正規化部1082bは、各AdaBoost1081b−eの出力値Oを、全AdaBoost1081b−1〜1081b−eの出力値の総和で除した値を、その表情の第2指標p(e|[X])として算出する。
なお、上述した強識別器及び弱識別器は、専用のハードウェアには限られず、これらと等価な機能をコンピュータもしくはその他のハードウェアで実現されてもよい。
以上に説明したように、本実施形態に係る表情解析装置(例えば、表情解析装置1)は、取得した画像から顔が表された顔領域を抽出する顔領域抽出部(例えば、顔領域抽出部102)と、前記顔領域の画像特徴量として画素毎に局所画像特徴量(例えば、ローカルバイナリパターン)を計算する画像特徴量計算部(例えば、画像特徴量計算部105)を有する。また、本実施形態に係る表情解析装置は、前記局所画像特徴量の、前記画像に含まれる分割ブロック内における出現頻度(例えば、画像特徴量[X])に基づいて第1の演算を行って表情毎の強度を計算する第1指標計算部(例えば、第1指標計算部106)を有する。また、本実施形態に係る表情解析装置は、前記局所画像特徴量に基づいて第2の演算を行って表情毎の確率を計算する第2指標計算部(例えば、第2指標計算部108、108c)を有する。また、本実施形態に係る表情解析装置は、前記強度と前記確率を所定の重み付けにより加算した統合指標に基づいて表情を定める表情決定部(例えば、表情決定部109)と、を備える。
これにより、局所画像特徴量について第1の演算を行って計算した強度と第2の演算を行って計算した確率の両者を考慮して、所定の表情である度合いを示す統合指標が算出される。そのため、第1の演算を行って計算した強度のみを用いる場合よりも高い信頼性をもって表情を定めることができる。
なお、上述では、局所画像特徴量l,l,…,lについて、第1指標計算部106とは異なる1つの演算方法で、表情e毎に1つの第2指標を計算する場合を例にとって説明したが、これには限られない。第2指標は、それぞれ異なる複数の演算方法で、表情e毎に第2指標をそれぞれ計算してもよい。例えば、第2指標計算部108は、単純ベイズ推定法を用いて第2指標を算出し、並行してAdaBoost識別器を用いて第2指標をさらに算出してもよい。その場合、表情決定部109は、第1指標と計算された複数の第2指標とをそれぞれ独立な重み係数を用いて重み付けして統合指標を算出する。表情毎に統合指標に対する複数の方法間で寄与度の差異が考慮されるため、判定される表情の信頼性を向上することができる。
なお、上述では、事前学習が表情解析装置1の一部である第1指標計算部106、第2指標計算部108、108c、及び表情決定部109で行われる場合を例にとって説明したが、これには限られない。事前学習は、表情解析装置1の外部に設置された外部機器で行われてもよい。その場合、表情解析装置1は、外部機器から事前学習で取得されたパラメータを取得し、それぞれ該当する構成部に設定しておく。
上述では、局所画像特徴量毎の頻度を示すヒストグラムを画像特徴量として取得する場合を例にとって説明したが、これには限られない。ヒストグラムを取得する際、画像特徴量計算部105は、算出した複数の局所画像特徴量を公知のクラスタリング方法(例えば、K平均法)でクラスタリングし、クラスタリングによって得られたクラスタ毎の頻度からなるヒストグラム(Bag−of−Keypoints)を取得してもよい。Bag−of−Keypointsについては、例えば、Gabriella Csurka,Christopher R. Dance, Lixin Fan, Jutta Willamowski, Gedric Bray,“Visual Categorization with Bag of Keypoints”, Proc. of ECCV Workshop on Statistical Learning in Computer Vision,pp.59−74,2004、に開示されている。
上述では、表情決定部109が、入力された各フレームの画像データについて計算した表情毎の統合指標に基づいて表情を定める場合を例にとって説明したが、これには限られない。画像データが動画像データである場合には、表情決定部109は、複数フレームからなる区間毎の統合指標の平均値を各表情について計算し、計算した平均値が最大となる表情をその区間における表情と定めてもよい。顔の表情は、ごく短時間、突発的に変化することがあり、変化した時点で撮像された画像からその表情が判定されることがある。他方、突発的に変化した表情は意思疎通において無視されるか、軽視されるため、そのような表情が判定されると利用者は誤判定と捉えることがある。また、感情以外の要因(例えば、発話、咀嚼、咳、くしゃみ、等)によっても表情が変化することがある。そこで、上述のように平均値を用いることで判定される表情の揺らぎが緩和されるので、表情の判定における信頼度が向上する。
また、表情決定部109は、その区間毎に、各表情について統合指標の総和値を計算し、計算した総和値が最大となる表情をその区間における表情と定めてもよい。この場合も、判定される表情の揺らぎが緩和され、信頼度が向上する。
また、表情決定部109は、その区間に含まれる、フレーム毎の統合指標の最大値のみを、各表情について加算して、各表情についての統合指標の総和値を計算してもよい。そして、表情決定部109は、計算した統合指標の総和値が最大となる表情(代表表情)をその区間における表情と定めてもよい。この場合も、判定される表情の揺らぎが緩和され、信頼度が向上する。
上述では、第1指標計算部106が、局所画像特徴量としてLBP毎の出現頻度を示す画像特徴量[X]に基づいて表情毎の第1指標を計算する場合を例にとって説明したが、これには限られない。第1指標計算部106は、その他の種類の局所画像特徴量を用いてもよい。第2指標計算部108が、局所画像特徴量としてLBP列に基づいて表情毎の第2指標を計算する場合を例にとって説明したが、これには限られない。
第2指標計算部108は、その他の種類の局所画像特徴量を用いてもよい。その他の種類の画像特徴量として、例えば、SIFT(Scale Invariant Feature Transformation)特徴量、SURF(Speeded Up Robust Features)特徴量、または、これらの特徴量に基づき分類されたクラスタ等、を用いることができる。前記クラスタは,学習用の顔画像から計算される複数のSIFTやSURFを公知のクラスタリング方法(例えば、K平均法)でクラスタリングすることにより得られる。
また、第1指標計算部106は、第1の演算として、画像特徴量[X]に基づいてAdaBoost識別器を用いて出力値を第1指標として計算してもよい。
また、上述した表情解析装置1の一部の機能、例えば、顔領域抽出部102、画像特徴量計算部105、第1指標計算部106、第2指標計算部108、108c、及び表情決定部109の一部又は全部をコンピュータで実現するようにしてもよい。この場合、その機能を実現するための顔表情解析プログラムをコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録された顔表情解析プログラムをコンピュータシステムに読み込ませて、このコンピュータシステムが実行することによって実現してもよい。なお、このコンピュータシステムとは、オペレーティング・システム(Operating System;OS)や周辺装置のハードウェアを含むものである。また、コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに備えられる磁気ハードディスクやソリッドステートドライブ等の記憶装置のことをいう。さらに、コンピュータ読み取り可能な記録媒体とは、インターネット等のコンピュータネットワーク、および電話回線や携帯電話網を介してプログラムを送信する場合の通信回線のように、短時間の間、動的にプログラムを保持するもの、さらには、その場合のサーバ装置やクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記の顔表情解析プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。
以上、本発明の実施の形態について図面を参照して詳述したが、具体的な構成はその実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。
1…表情解析装置、101…画像データ取得部、102…顔領域抽出部、
103…顔領域検出部、104…解析領域決定部、105…画像特徴量計算部、
106…第1指標計算部、107、107a、107b…表情強度推定部、
107’…正規化部、108、108c…第2指標計算部、109…表情決定部

Claims (7)

  1. 取得した画像から顔が表された顔領域を抽出する顔領域抽出部と、
    前記顔領域の画像特徴量として画素毎に局所画像特徴量を計算する画像特徴量計算部と、
    前記局所画像特徴量の、前記画像に含まれる分割ブロック内における出現頻度に基づいて第1の演算を行って表情毎の強度を計算する第1指標計算部と、
    前記局所画像特徴量に基づいて第2の演算を行って表情毎の確率を計算する第2指標計算部と、
    前記強度と前記確率を所定の重み付けにより加算した表情毎の統合指標に基づいて表情を定める表情決定部と、
    を備える表情解析装置。
  2. 前記表情決定部は、前記強度と前記確率を表情毎に異なる係数で重み付けして前記統合指標を算出し、前記統合指標が最大となる表情を定めることを特徴とする請求項1に記載の表情解析装置。
  3. 前記局所画像特徴量は、ローカルバイナリパターンであって、
    前記第2指標計算部は、前記第2の演算として単純ベイズ推定法を用いて前記表情毎の確率を計算することを特徴とする請求項1又は2に記載の表情解析装置。
  4. 前記第2指標計算部は、
    前記局所画像特徴量の出現頻度に基づく出力値を出力する弱識別器を前記分割ブロック毎に備え、
    前記弱識別器からの出力値を前記分割ブロック毎に重み付け加算して前記確率を計算する強識別器を表情毎に備えることを特徴とする請求項1から3のいずれかに記載の表情解析装置。
  5. 前記表情決定部は、予め定めた区間における表情毎の統合指標の平均値又は総和値が最大となる表情を定めることを特徴とする請求項1から4のいずれかに記載の表情解析装置。
  6. 前記表情決定部は、予め定めた区間に含まれるフレーム毎の統合指標の最大値について当該区間内の総和値が最大となる表情を定めることを特徴とする請求項1から4のいずれかに記載の表情解析装置。
  7. 表情解析装置が備えるコンピュータに、
    取得した画像から顔が表された顔領域を抽出する顔領域抽出手順、
    前記顔領域の画像特徴量として画素毎に局所画像特徴量を計算する画像特徴量計算手順、
    前記局所画像特徴量の、前記画像に含まれる分割ブロック内における出現頻度に基づいて第1の演算を行って表情毎の強度を計算する第1指標計算手順、
    前記局所画像特徴量に基づいて第2の演算を行って表情毎の確率を計算する第2指標計算手順、
    前記強度と前記確率を所定の重み付けにより加算した表情毎の統合指標に基づいて表情を定める表情決定手順、
    を実行させるための表情解析プログラム。
JP2013166710A 2013-08-09 2013-08-09 表情解析装置及び表情解析プログラム Active JP6166981B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013166710A JP6166981B2 (ja) 2013-08-09 2013-08-09 表情解析装置及び表情解析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013166710A JP6166981B2 (ja) 2013-08-09 2013-08-09 表情解析装置及び表情解析プログラム

Publications (2)

Publication Number Publication Date
JP2015035172A JP2015035172A (ja) 2015-02-19
JP6166981B2 true JP6166981B2 (ja) 2017-07-19

Family

ID=52543629

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013166710A Active JP6166981B2 (ja) 2013-08-09 2013-08-09 表情解析装置及び表情解析プログラム

Country Status (1)

Country Link
JP (1) JP6166981B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6815486B2 (ja) * 2016-05-06 2021-01-20 ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー 精神障害の療法のためのモバイルおよびウェアラブルビデオ捕捉およびフィードバックプラットフォーム
JP2018148528A (ja) 2017-03-09 2018-09-20 ソニーセミコンダクタソリューションズ株式会社 固体撮像装置および電子機器
JP6962123B2 (ja) * 2017-10-04 2021-11-05 株式会社豊田中央研究所 ラベル推定装置及びラベル推定プログラム
JP2020188386A (ja) * 2019-05-15 2020-11-19 ソニーセミコンダクタソリューションズ株式会社 固体撮像装置及び電子機器
JP7474553B2 (ja) 2021-01-15 2024-04-25 Kddi株式会社 対象物の領域画像毎に異なる入力中間層を用いてラベルを推定するプログラム、装置及び方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4871552B2 (ja) * 2004-09-10 2012-02-08 パナソニック株式会社 情報処理端末
JP4240108B2 (ja) * 2006-10-31 2009-03-18 ソニー株式会社 画像記憶装置、撮像装置、画像記憶方法およびプログラム
JP5913940B2 (ja) * 2011-12-01 2016-05-11 キヤノン株式会社 画像認識装置、画像認識装置の制御方法、およびプログラム

Also Published As

Publication number Publication date
JP2015035172A (ja) 2015-02-19

Similar Documents

Publication Publication Date Title
Afifi 11K Hands: Gender recognition and biometric identification using a large dataset of hand images
Zafar et al. Face recognition with Bayesian convolutional networks for robust surveillance systems
Zerrouki et al. Combined curvelets and hidden Markov models for human fall detection
Jeni et al. Facing imbalanced data--recommendations for the use of performance metrics
JP5424819B2 (ja) 画像処理装置、画像処理方法
JP6166981B2 (ja) 表情解析装置及び表情解析プログラム
Kobayashi et al. Three-way auto-correlation approach to motion recognition
Vishwakarma et al. Integrated approach for human action recognition using edge spatial distribution, direction pixel and-transform
Elguebaly et al. Simultaneous bayesian clustering and feature selection using rjmcmc-based learning of finite generalized dirichlet mixture models
Ouyang et al. Robust automatic facial expression detection method based on sparse representation plus LBP map
Jia et al. Saliency detection via a unified generative and discriminative model
Szankin et al. Influence of thermal imagery resolution on accuracy of deep learning based face recognition
Uddin et al. An indoor human activity recognition system for smart home using local binary pattern features with hidden markov models
Venkat et al. Recognizing occluded faces by exploiting psychophysically inspired similarity maps
Verma et al. Estimation of sex through morphometric landmark indices in facial images with strength of evidence in logistic regression analysis
Kartheek et al. Local optimal oriented pattern for person independent facial expression recognition
JP6101470B2 (ja) 顔表情解析装置および顔表情解析プログラム
US11138417B2 (en) Automatic gender recognition utilizing gait energy image (GEI) images
JP2014119879A (ja) 顔表情評価結果平滑化装置および顔表情評価結果平滑化プログラム
Dixit et al. Multi-feature based automatic facial expression recognition using deep convolutional neural network
Sharma et al. Solving image processing critical problems using machine learning
Tommandru et al. An Automated Framework for Patient Identification and Verification Using Deep Learning.
Jamshed et al. Grey wolf optimization (GWO) with the convolution neural network (CNN)-based pattern recognition system
Hsu et al. Facial expression recognition using Hough forest
Gu et al. Lite general network and MagFace CNN for micro-expression spotting in long videos

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170626

R150 Certificate of patent or registration of utility model

Ref document number: 6166981

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250