JP6244643B2

JP6244643B2 - 表情推定装置、制御方法、制御プログラム、および記録媒体

Info

Publication number: JP6244643B2
Application number: JP2013084868A
Authority: JP
Inventors: 達哉村上; 昂志太田
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2013-04-15
Filing date: 2013-04-15
Publication date: 2017-12-13
Anticipated expiration: 2033-04-15
Also published as: EP2793167A3; KR101574884B1; US9256953B2; JP2014206903A; CN104095641A; KR20140123899A; CN104095641B; US20140307926A1; EP2793167B1; EP2793167A2

Description

本発明は、画像中の人物の表情を推定する技術に関する。

近年、画像解析の技術の進歩により、画像から人物の顔部分を特定したり、その顔の表情を推定したりすることが可能になっている。例えば、下記の特許文献１には、動画コンテンツから顔を検出し、検出された顔の表情を認識すると共に、顔が検出された人物の動きの有無・大小、および人物が発した声の有無・大小から、上記人物の感情を判定することが記載されている。また、下記の特許文献２には、画像情報に含まれる人物像の表情および身体動作を検出し、この表情および身体動作と、センサで取得した音声情報および生体情報に基づいてユーザの心身状況を検出することが記載されている。

特開２０１０−０６６８４４号公報（２０１０年３月２５日公開）特開２００５−２３７５６１号公報（２００５年９月８日公開）

画像に基づく表情推定では、画像中の人物の感情とは異なる表情を推定してしまう誤推定が生じることがある。例えば、嫌悪の表情と怒りの表情とは類似しているので、画像中の人物が嫌悪を感じている場合に怒りの表情であると推定したり、怒りを感じている場合に嫌悪の表情であると推定したりすることがある。このため、表情推定の精度を向上させ、上記のような誤推定ができるだけ生じないようにすることが望まれる。

しかしながら、上述のような従来技術では、画像中の人物の表情推定の精度を向上させることができないという問題がある。これは、特許文献１の技術では、人物の感情を判定するための要素の一つとして顔の表情を用いており、表情を推定すること自体を目的としていないためである。同様に、特許文献２の技術においても、ユーザの心身状況を検出するための要素の一つとして表情を用いており、表情を推定すること自体を目的としていないため、表情推定の精度を向上させることはできない。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、画像中の人物の表情推定の精度を向上させた表情推定装置等を実現することにある。

上記の課題を解決するために、本発明の表情推定装置は、画像から人物の表情を推定する表情推定装置であって、上記人物の画像を解析して該人物の表情を示す第１表情情報を生成する表情判定手段と、上記人物の画像を解析して上記人物の動作の種類を判定する動作判定手段と、上記表情判定手段が生成した上記第１表情情報と、動作判定手段が判定した動作の種類とに応じた、上記人物の表情を示す第２表情情報を生成する表情推定手段とを備えていることを特徴としている。

また、本発明の表情推定装置の制御方法は、上記の課題を解決するために、人物の画像から該人物の表情を推定する表情推定装置の制御方法であって、上記画像を解析して上記人物の表情を示す第１表情情報を生成する表情判定ステップと、上記画像を解析して上記人物の動作の種類を判定する動作判定ステップと、上記表情判定ステップにて生成した上記第１表情情報と、上記動作判定ステップにて判定した動作の種類とに応じた、上記人物の表情を示す第２表情情報を生成する表情推定ステップと、を含むことを特徴としている。

上記の構成によれば、人物の画像を解析して、その人物の表情を示す第１表情情報を生成すると共に、その人物の動作の種類を判定する。そして、生成した第１表情情報と判定した動作とに応じた第２表情情報を生成する。人物の動作にはその人物の感情が現れるため、上記の構成によれば、動作を考慮せずに表情を特定した場合と比べて、人物の感情に適合した表情を推定することができる。つまり、表情推定の精度を向上させることができる。

また、上記第１表情情報は、複数の異なる表情のそれぞれについての適合度を数値によって示す情報であり、上記表情推定手段は、動作の種類ごとに予め定められた補正情報を用いて上記第１表情情報の数値を補正することによって、上記第２表情情報を生成することが好ましい。

上記の構成によれば、第１表情情報が動作の種類に応じて補正されるため、人物の感情に適合した表情を推定することができる。表情を複数の異なる表情のそれぞれについての適合度を数値によって示した場合には、複数の表情の数値が近接して表情の判別が困難になることがあるが、上記の構成によれば、このような困難性を解決することが可能である。

また、上記表情推定装置は、上記画像中において指定された動作について、該動作の種類と該動作の補正情報とを対応付けて記憶する動作登録手段を備えていることが好ましい。

上記の構成によれば、画像中において指定された動作の種類と補正情報とを対応付けて記憶するので、動作の種類の判定において検出することができなかった動作を検出することができ、その動作の種類に応じた補正を行うことができるようになる。

また、上記表情推定装置は、上記画像を解析して、上記人物が予め定められた属性の何れに該当するか判定する属性判定手段を備え、上記表情推定手段は、上記属性判定手段が判定した属性に対応し、かつ動作の種類ごとに予め定められた補正情報を用いて上記第１表情情報の数値を補正することによって、上記第２表情情報を生成することが好ましい。

上記の構成によれば、人物の属性を判定し、その属性に対応し、かつ動作の種類ごとに予め定められた補正情報を用いて第１表情情報の数値を補正することによって第２表情情報を生成するので、表情推定の精度をさらに向上させることができる。同じ動作であっても、それがどのような感情に基づくものであるかは、属性によって異なる場合があるからである。なお、上記属性は、人物の特徴または性質を示すものであればよく、例えば年齢や性別等を示すものであってもよい。また、上記属性は、個人を特定するものであってもよい。

また、上記表情推定装置は、上記第１表情情報における適合度の数値の最大値と、次に大きい適合度の数値との差が、予め定めた上限値以上であるか判定する適合度近接判定手段を備え、上記表情推定手段は、上記適合度近接判定手段が上限値以上であると判定した場合、上記補正情報を用いず、上記第１表情情報を上記第２表情情報として生成し、上記適合度近接判定手段が上限値未満であると判定した場合、上記補正情報を用いて第２表情情報を生成することが好ましい。

ここで、第１表情情報における適合度の数値の最大値と、次に大きい適合度の数値との差が大きい場合には、第１表情情報をそのまま第２表情情報としても、最も適合度の高い表情を容易に特定することができるので、表情推定の精度を低下させることがない。一方、第１表情情報における適合度の数値の最大値と、次に大きい適合度の数値との差が小さい場合には、最も適合度の高い表情を１つに絞り込むことが難しく、このような場合には動作を考慮することが望ましい。

そこで、上記の構成によれば、第１表情情報における適合度の数値の最大値と、次に大きい適合度の数値との差が、予め定めた上限値以上である場合には補正情報を用いず、上限値未満である場合には補正情報を用いる。これにより、必要性の高い場合にのみ動作の種類の判定を行って推定精度を維持しつつ、必要性の低い場合には動作の種類の判定に関する処理を省略して処理ステップ数を減らすことができる。

また、上記表情推定装置は、上記第１表情情報において適合度の数値が最大の表情が、予め定められた表情と一致するか否かを判定し、該判定の結果に応じて、上記動作判定手段に動作の種類を判定させるか否かを決定する適合表情判定手段を備え、上記表情推定手段は、上記動作判定手段が動作の種類を判定した場合には、上記補正情報を用いて第２表情情報を生成し、上記動作判定手段が動作の種類を判定しなかった場合には、上記補正情報を用いず、上記第１表情情報を上記第２表情情報として生成する構成であってもよい。

ここで、本願の発明者による検討の結果、第１表情情報において最も適合度の高い表情の種類によって、誤推定の生じ易さに違いがあることが分かっている。このことから、誤推定が生じにくい表情の場合には、第１表情情報をそのまま第２表情情報としても、表情推定の精度は低下し難いと言える。一方、誤推定が生じやすい表情の場合には、動作を考慮することが望ましいと言える。

そこで、上記の構成によれば、適合度の数値が最大の表情が予め定められた表情と一致するか否かを判定し、該判定の結果に応じて、動作の種類を判定させるか否かを決定する。そして、動作の種類が判定された場合には、該動作の種類に対応する補正情報を用いて第２表情情報を生成し、動作の種類が判定されなかった場合には、第１表情情報を第２表情情報として生成する。これにより、必要性の高い場合にのみ動作の種類の判定を行って推定精度を維持しつつ、必要性の低い場合には動作の種類の判定に関する処理を省略して処理ステップ数を減らすことができる。

なお、本発明の各態様に係る表情推定装置は、コンピュータによって実現してもよく、この場合には、コンピュータに上記制御方法の各ステップを実行させることにより上記表情推定装置をコンピュータにて実現させる制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も本発明の範疇に入る。

以上のように、本発明の表情推定装置は、人物の画像を解析して該人物の表情を示す第１表情情報を生成する表情判定手段と、人物の画像を解析して上記人物の動作の種類を判定する動作判定手段と、上記表情判定手段が生成した上記第１表情情報と、動作判定手段が判定した動作の種類とに応じた、上記人物の表情を示す第２表情情報を生成する表情推定手段とを備えている構成である。

また、本発明の表情推定装置の制御方法は、以上のように、画像を解析して人物の表情を示す第１表情情報を生成する表情判定ステップと、画像を解析して上記人物の動作の種類を判定する動作判定ステップと、上記表情判定ステップにて生成した上記第１表情情報と、上記動作判定ステップにて判定した動作の種類とに応じた、上記人物の表情を示す第２表情情報を生成する表情推定ステップと、を含む構成である。

したがって、人物の感情に適合した表情を推定することができ、これにより表情推定の精度を向上させることができるという効果を奏する。

本発明の実施形態１に係る表情推定装置の要部構成を示すブロック図である。上記表情推定装置による表情推定方法の概略を説明する図である。上記表情推定方法の具体例を示す図である。上記表情推定装置が検出する動作の種類の一例を示す図である。上記表情推定装置が実行する処理の一例を示すフローチャートである。本発明の実施形態２に係る表情推定装置の要部構成の一例を示すブロック図である。「握りこぶし」の動作を登録する例を示す図である。上記表情推定装置が実行する処理の一例を示すフローチャートである。本発明の実施形態３に係る表情推定装置の要部構成の一例を示すブロック図である。上記表情推定装置が使用する、個人別に設定された動作スコアの一例を示す図である。上記表情推定装置が実行する処理の一例を示すフローチャートである。表情推定の結果を人物の画像上に重畳して表示した例を示す図である。本発明の実施形態４に係る表情推定装置が使用する、人物の属性に応じた動作スコアの一例を示す図である。上記表情推定装置が実行する処理の一例を示すフローチャートである。本発明の実施形態５に係る表情推定装置の要部構成の一例を示すブロック図である。上記表情推定装置が、顔スコアに基づいて、動作を考慮する必要があると判断した場合の例を示す図である。上記表情推定装置が、顔スコアに基づいて、動作を考慮する必要がないと判断した場合の例を示す図である。上記表情推定装置が実行する処理の一例を示すフローチャートである。本発明の実施形態６に係る表情推定装置が、スコアが最大の表情カテゴリに基づいて、動作を考慮する必要があると判断した場合の例と、考慮する必要がないと判断した場合の例とを示している。上記表情推定装置が実行する処理の一例を示すフローチャートである。

〔実施形態１〕
本発明の実施形態１について、図１から図５に基づいて説明する。ここでは、まず図２に基づいて本発明の表情推定方法の概略を説明する。図２は、本実施形態に係る表情推定装置による表情推定方法の概略を説明する図である。

顔つき、顔色、面持ち、あるいは面相という表現があるように、人は自身の内的な精神状態（感情）を顔に反映させて表現する。従って、顔の画像に基づいて、当該顔が表現している感情、すなわち表情を推定することが可能である。しかし、顔の画像から表情を推定した場合に、例えば、「嫌悪」、「怒り」といった、似ている表情で異なる感情を精度よく区別して推定することができず、誤った表情推定結果を出力してしまうことがある。

例えば、図２の（ａ）に示す人物の画像を例に挙げて説明すれば、この人物の顔が表現している表情のみでは、「嫌悪」、「怒り」のいずれにも解釈され得る。しかしながら、その表情をしている人物が、同時に腕組みをしていることを加味すれば、当該人物の表情は「嫌悪」ではなく「怒り」であることが、より明確となる。

そこで、本発明に係る表情推定装置は、図２の（ｂ）に示すように、人物の顔画像Ｆ１と動作Ａ１とに基づいて当該人物の表情を推定する。人は意識的に、あるいは無意識に動作（しぐさ）によって感情を表現していることが多いため、その人がどのような種類の動作を行っているかを考慮することによって、表情の推定精度を向上させることができる。

例えば、図２の顔画像Ｆ１には、眉間に皺がより、眉尻が上がった顔つきの人物が含まれている。本発明に係る表情推定装置は、この画像の人物の表情を、「喜び」・「怒り」・「悲しみ」・「嫌悪」・「恐怖」・「驚き」などの所定の表情カテゴリのそれぞれについて評価した顔スコアを生成することにより、当該人物の表情を数値として表す。

また、本発明に係る表情推定装置は、上記人物の画像から、該人物の腕組みの動作Ａ１を検出し、この動作Ａ１を上記各表情カテゴリのそれぞれについて評価した動作スコアを取得する。そして、上記の顔スコアと動作スコアとを表情カテゴリ毎に加算することにより、各表情カテゴリに対応する表情スコアを算出し、最終的な表情推定の結果として出力する。

これにより、図２の例のように、顔画像Ｆ１のみからは「怒り」の表情であるか「嫌悪」の表情であるかを判別することが困難な場合であっても、「腕組み」の動作Ａ１から、この人物の表情は、「嫌悪」ではなく、「怒り」の表情であると判断することができる。

なお、表情の推定に使用される画像は静止画像であってもよいし、動画像であってもよい。動画像を用いる場合には、その動画像を構成する複数の静止画から１または複数の静止画像を抽出し、その静止画像から顔スコアの生成および動作の検出を行う。また、複数の静止画像から顔スコアを生成する場合には、各静止画像から生成した顔スコアの平均値を算出してもよい。そして、顔スコアの生成の対象とする静止画像は、同一の人物が含まれていればよく、動作検出の対象とする静止画像と同一の画像であってもよいし、異なる画像であってもよい。

次に、上記表情推定方法の具体例を示す図３を用いて、図２の顔画像Ｆ１に基づく顔スコア（第１表情情報）に、動作Ａ１に対応する動作スコア（補正情報）を加算して、最終的な表情推定の結果である結果スコア（第２表情情報）を得る処理を説明する。

図３に示す顔スコアＴ１では、「喜び」・「怒り」・「悲しみ」・「嫌悪」・「恐怖」・「驚き」の６つの表情カテゴリが設定されており、顔画像Ｆ１に基づいて決定したスコアが各表情カテゴリに対応付けられている。なお、この顔スコアＴ１では、各表情カテゴリに適合する程度（適合度）を０から１００までの数値で示している。つまり、スコアが１００に近い程その表情カテゴリの表情である可能性が高く、０に近い程その表情カテゴリの表情である可能性が低いことを示す。

この顔スコアＴ１において、スコアが最大の表情カテゴリは「嫌悪」であり、その値は５５である。しかし、「怒り」および「恐怖」のスコアはそれぞれ５３と４９であり、何れも「嫌悪」のスコアと近接している。このような場合に、単にスコアが最大であるという理由で顔画像Ｆ１の表情を「嫌悪」と推定してしまうと、誤推定となる可能性が高い。顔画像の解析によって求めた上記のスコアには、微細な表情の違いを厳密に区別し得る程度の精度が期待できないためである。

また、図３に示すように、「腕組み」の動作に対応する動作スコアＴ２では、顔スコアＴ１と同じ６つの表情カテゴリが設定されており、「腕組み」の動作に対応するスコアが各表情カテゴリに対応付けられている。なお、本実施形態では、動作スコアＴ２は、顔スコアＴ１に加算して各表情カテゴリのスコアを補正するために用いることを想定しているため、動作スコアＴ２では負のスコアと正のスコアとを設定している。つまり、その動作を行っているときに、その表情である可能性が高いものについては正のスコアが設定され、その動作を行っているときに、その表情である可能性が低いものについては負のスコアが設定されている。無論、動作スコアＴ２についても、顔スコアＴ１と同様に、各表情カテゴリに適合する程度を正のスコアのみで示すものとしてもよい。

そして、図３に示すように、顔スコアＴ１に動作スコアＴ２を加算することにより、最終的な表情推定の結果スコアＴ３を得る。顔スコアＴ１では互いに近いスコアを示していた「怒り」・「嫌悪」・「恐怖」の３つの表情カテゴリにおけるスコアは、結果スコアＴ３において、その差異が大きくなっている。すなわち、「怒り」、「恐怖」、「嫌悪」のスコアは、それぞれ８０、５１、４２となり、「怒り」が最大スコアであることが明確になっている。

したがって、スコアが最大の表情カテゴリの表情を、画像の人物の表情であると推定する場合、図３の例では、顔スコアＴ１のみからは「嫌悪」と推定されるところを、動作スコアＴ２を考慮することによって、「怒り」と推定される。「腕組み」の動作は、「嫌悪」の感情を抱いている場合と比べて、「怒り」の感情を抱いている場合に行われやすいと考えられるため、顔スコアのみによる表情推定の結果よりも確からしい（精度の高い）結果を出力していると言える。

なお、ここでは、顔スコアおよび動作スコアとして６つの表情カテゴリを用いた例を示したが、表情カテゴリの数は２以上であればよく、その種類は如何なるものであってもよい。例えば、「真顔」や「無表情」、「困惑」、「感動」、「興奮」などの表情カテゴリを追加してもよい。また、表情カテゴリは、予め登録されたものを用いてもよいし、ユーザが任意の表情カテゴリを登録できるようにして、ユーザが登録したものを用いてもよい。

また、結果スコアＴ３の「喜び」のように、動作スコアＴ２の加算により、マイナスのスコアが生じることがある。さらに、動作スコアＴ２の加算により、スコアが１００を超えるものが生じることも想定される。このような場合には、１００を超えた場合は１００とし、マイナスの場合は０とするようにしてもよい。

表情推定に利用される動作は、感情の現れと理解できる動作であればよく、特に限定されない。図４は、表情推定装置が検出する動作の種類の一例を示す図である。図示のように、表情推定には、前出の腕組みしている動作Ａ１の他に、歌を歌っている動作Ａ２、細かく揺れる（貧乏ゆすり）動作Ａ３、腕時計を見る動作Ａ４、顔に両手を添える動作Ａ５などを利用することができる。その他にも、両腕をたかく上方へ伸ばす動作（万歳）、両肩をすくめ両掌を上に向ける動作など、典型的なジェスチャ動作等には人物の感情が現れていると考えられるため、このような動作も表情推定に好適に利用することができる。

なお、細かく揺れる動作Ａ３のように動きのある動作を検出する場合には、動画像を解析する必要があるが、他の例は動画像の解析によっても、静止画像の解析によっても検出することができる。また、登録されている複数の動作が検出された場合には、検出された全ての動作の種類に対応する動作スコアを利用してもよいし、動作の種類毎に予め優先度を設定する等して１つの動作に対応する動作スコアのみを利用してもよい。また、複数の動作スコアを利用する場合には、スコアの算術平均値等を求めて利用してもよい。

（表情特定装置の構成）
続いて、本実施形態に係る表情推定装置の構成を図１に基づいて説明する。図１は、本実施形態に係る表情推定装置１の要部構成を示すブロック図である。図示のように、表情推定装置１は、画像取得部２、制御部３、記憶部４、および出力部５を備えている。なお、本発明の特徴点と直接に関係しない構成については図示を省略している。

画像取得部２は、感情推定の対象となる人物の画像を取得する。画像の取得先は特に限定されず、例えば画像を撮影する機能を有するデジタルカメラやデジタルビデオカメラ等の撮影装置から画像を取得してもよい。また、例えばスキャナが読み取った画像を取得してもよいし、インターネット回線等の通信ネットワークを介して画像を取得してもよい。

記憶部４は、表情推定装置１が使用する各種データを格納する記憶装置であり、図示の例では顔スコアデータベース４１と動作スコアデータベース４２とが格納されている。なお、これらのデータベースは、制御部３が参照可能となっていればよく、表情推定装置１の外部の記憶装置に格納されていてもよい。

顔スコアデータベース４１は、顔の画像からその顔の人物の表情を示す顔スコア（図３のＴ１参照）を生成するためのデータベースである。顔スコアデータベース４１は、例えば各表情カテゴリの表情のモデルとなる画像を登録したものであってもよい。この場合、モデルの画像との一致の程度を数値化して、各表情カテゴリのスコアを得ることができる。

動作スコアデータベース４２は、動作の種類毎に動作スコア（図３のＴ２参照）が登録されたデータベースである。動作スコアデータベース４２を参照することにより、検出した動作の種類に応じた動作スコアを取得することができる。

出力部５は、制御部３が生成した情報を出力する。具体的には、出力部５は、制御部３が生成した表情の推定結果である結果スコアを出力する。ここでは、出力部５は、推定結果を画像として表示出力する表示装置である例を説明するが、この推定結果の出力の態様および出力先は特に限定されない。例えば、出力部５は、表情の推定結果を他の装置に送信する通信装置であってもよい。

制御部３は、表情推定装置１の機能を統括して制御するものであり、顔検出部３１、顔スコア取得部（表情判定手段）３２、動作検出部（動作判定手段）３３、動作スコア取得部３４、および表情決定部（表情推定手段）３５を備えている。

顔検出部３１は、画像取得部２が取得した画像を受け取り、当該画像に含まれる人物の顔を検出する。画像中からの顔の検出は、公知の技術を適用して実現することができる。例えば、人の顔の典型的なパターンが画像内に含まれているか否かを解析することによって顔を検出する。なお、顔を検出する方法は、これに限定されず、如何なるアプローチによる顔検出方法であっても、本発明に適用することができる。

顔スコア取得部３２は、画像取得部２が取得した画像の顔検出部３１が検出した顔部分（顔画像）を解析して、その顔の人物の表情を示す情報を生成する。顔画像を解析して表情を示す情報を生成することは、公知の技術を適用して実現することができる。顔スコア取得部３２が生成する情報は、人物の表情を示すものであれば特に限定されないが、ここでは、上述の顔スコア（図３のＴ１参照）を生成する例を説明する。具体的には、顔スコア取得部３２は、当該顔の画像と、顔スコアデータベース４１に登録されている各表情カテゴリの表情のモデルとなる画像とを比較し、その適合度合に応じたスコアを算出することによって顔スコアを生成する。

動作検出部３３は、画像取得部２が取得した画像を解析して、画像中の人物の動作を検出し、その種類を判定する。なお、動作検出部３３が検出の対象とする動作は、動作スコアデータベース４２に動作スコアが登録されている動作である。画像中の人物が予め定められた動作を行っていることの検出は、公知の技術を適用して実現することができる。例えば、動作スコアデータベース４２に動作のモデル画像が登録されている場合、そのモデル画像と、画像取得部２が取得した画像とを比較することにより、動作スコアデータベース４２に登録されている動作を検出してもよい。

動作スコア取得部３４は、動作検出部３３が検出した動作の種類に応じた動作スコアを動作スコアデータベース４２から取得する。上述のように、動作スコアは、顔スコアを補正するための補正情報であり、動作の種類ごとに予め設定された値を有している（図３のＴ２参照）。

表情決定部３５は、顔スコア取得部３２が生成した顔スコアと、動作検出部３３が判定した動作の種類とに応じた、画像中の人物の表情を示す情報を生成する。具体的には、表情決定部３５は、顔スコア取得部３２が生成した顔スコアと、動作検出部３３が判定した動作の種類に応じた動作スコア（動作スコア取得部３４が取得）とを表情カテゴリ毎に加算して、画像中の人物の表情を示す結果スコアを生成する。また、表情決定部３５は、生成した結果スコアを出力部５に出力させる。

次に、表情推定装置１が実行する処理の流れを図５に基づいて説明する。図５は、表情推定装置１が実行する処理（表情推定装置１の制御方法）の一例を示すフローチャートである。

まず、画像取得部２は、人物の画像を取得して（Ｓ１）、顔検出部３１に出力する。次に、顔検出部３１は、画像取得部２から出力された画像に含まれる顔を検出する（Ｓ２）。例えば、図２の例であれば、同図（ａ）に示すような画像の入力を受け付け、該画像から同図（ｂ）に示すような顔画像Ｆ１を検出する。

そして、顔スコア取得部３２は、顔検出部３１が検出した顔部分の画像を解析して顔スコアを生成する（Ｓ３、表情判定ステップ）。また、顔スコア取得部３２は、生成した顔スコアを表情決定部３５に通知すると共に、顔スコアを生成した人物を示す情報（例えば、画像中における当該人物の位置を示す座標）を動作検出部３３に通知する。

次に、動作検出部３３は、顔スコア取得部３２から通知された人物、すなわち表情推定の対象となった顔の人物の動作を検出し（Ｓ４、動作判定ステップ）、検出した動作の種類を動作スコア取得部３４に通知する。そして、動作スコア取得部３４は、通知された動作の種類に対応する動作スコアを動作スコアデータベース４２から取得して（Ｓ５）、表情決定部３５に通知する。例えば、図２の例であれば、同図（ｂ）に示すような腕組みの動作Ａ１を検出し、図３に示すような、腕組みの動作に対応する動作スコアＴ２を取得して表情決定部３５に通知する。

最後に、表情決定部３５は、顔スコア取得部３２から通知された顔スコアに、動作スコア取得部３４から通知された動作スコアを加算して、結果スコアを生成し（Ｓ６、表情推定ステップ）、これを出力部５に送信して出力させ（Ｓ７）、処理を終了する。

〔実施の形態２〕
本実施形態では、任意の動作に対応する動作スコアを用いて表情の推定を行うことを可能にするために、ユーザによる動作スコアの登録を受け付ける例を図６から図８に基づいて説明する。なお、上記実施形態と同様の構成には同一の参照番号を付し、その説明を省略する。

まず、図６に基づいて本実施形態の表情推定装置の構成を説明する。図６は、表情推定装置５０の要部構成の一例を示すブロック図である。表情推定装置５０は、操作入力部６および動作スコア登録部（動作登録手段）３６を備えている点で上述の表情推定装置１と相違している。

操作入力部６は、ユーザの入力操作を受け付けて制御部３に通知するユーザインターフェースである。ここでは、出力部５が画像を表示する表示装置であり、操作入力部６が画像の表示面に対する接触を入力操作として検出するタッチセンサである例を説明する。つまり、表情推定装置５０は、タッチパネルを備え、このタッチパネルに表情の推定結果を表示し、このタッチパネルにてユーザのタッチ操作を受け付ける。なお、操作入力部６はユーザの入力操作を受け付けることができるものであればよく、この例に限定されない。

動作スコア登録部３６は、画像中において指定された動作について、該動作の種類と該動作の補正情報とを対応付けて記憶する。具体的には、動作スコア登録部３６は、操作入力部６を用いてユーザが指定した動作について、当該動作を画像中から検出するための情報（例えばその動作の画像）と、当該動作に対応する動作スコアとを対応付けて動作スコアデータベース４２に登録する。

次に、動作スコアの登録例を図７に基づいて説明する。図７は、「握りこぶし」の動作を登録する例を示す図である。動作スコアを登録する場合、まず登録対象となる動作の指定を受け付ける。例えば、タッチパネルに人物の画像を表示して、登録対象となる動作が現れている部分に対するタッチ操作、または該部分を囲む軌跡を描くタッチ操作を受け付けることにより、登録対象となる動作の指定を受け付けてもよい。

図７の例では、表示した画像から、「握りこぶし」の部分Ａ７が選択されたことを想定している。このように、画像から動作に対応する部分が選択されると、動作スコア登録部３６は、その部分を動作スコアデータベース４２に登録することを決定する。

次に、動作スコア登録部３６は、当該動作の動作スコアの登録を受け付ける。動作スコアの登録の際には、登録するスコアを数値で受け付けるようにしてもよいが、図７のＴ４の例のように３段階で受け付けるようにしてもよい。Ｔ４の例では、各表情カテゴリについて、丸、三角、バツの何れかを選択させるようにしている。これにより、ユーザは、細かい数字を入力する必要がなく、動作に対応すると考える表情カテゴリには丸、やや対応すると考える表情カテゴリには三角、全く関係がないと考える感情カテゴリにはバツを直感的に設定することができる。なお、このような選択を受け付けた場合、顔スコアに加算することができるように、例えば丸＝＋２０、三角＝＋１０、バツ＝−１０といったように、段階ごとに予め定められた数値に置換して、当該動作の画像と共に動作スコアデータベース４２に登録する。

続いて、表情推定装置５０が実行する処理の流れを図８に基づいて説明する。図８は、表情推定装置５０が実行する処理（表情推定装置５０の制御方法）の一例を示すフローチャートである。なお、同図のＳ１１〜Ｓ１３、Ｓ１５〜Ｓ１７の処理は、それぞれ図５のＳ１〜Ｓ３、Ｓ５〜Ｓ７の処理と同様であるから、ここでは詳細な説明を省略する。

Ｓ１４では、Ｓ１１で画像取得部２が取得した画像における、Ｓ１２で顔検出部３１が顔と認識した部分に対応する人物の動作を検出したか否かを、動作検出部３３が判断する。ここで、当該人物の動作を検出した場合には（Ｓ１４でＹＥＳ）、動作検出部３３は、検出した動作の種別を動作スコア取得部３４に通知し、この後Ｓ１５からＳ１７の処理によって結果スコアが出力される。

一方、当該人物の動作が検出されなかった場合には（Ｓ１４でＮＯ）、動作検出部３３は、その旨を動作スコア登録部３６に通知する。この通知を受信した動作スコア登録部３６は、動作の指定を受け付ける画面を表示する。例えば、顔を検出した画像を表示すると共に、動作の指定を促すメッセージを表示させてもよい。そして、操作入力部６を介して、登録の対象とする動作の指定を受け付ける（Ｓ１８）。

続いて、動作スコア登録部３６は、スコアの指定を受け付ける画面を表示する。例えば、各表情カテゴリを表示すると共に、各表情カテゴリに対するスコアの指定を促すメッセージを表示させてもよい。そして、操作入力部６を介して指定されたスコアを、Ｓ１８で指定された動作の画像と対応付けた動作スコアを生成し、動作スコアデータベース４２に登録する（Ｓ１９）。

また、動作スコア登録部３６は、生成した動作スコアを動作スコア取得部３４に通知する。これにより、動作スコア取得部３４は、この動作スコアを表情決定部３５に通知し、表情決定部３５は、通知された動作スコアと、顔スコア取得部が生成した顔スコアとに基づいて表情を特定し（Ｓ１６、表情推定ステップ）、特定した結果を出力して（Ｓ１７）、処理を終了する。

このように、図８の処理によれば、画像中の人物の動作が検出できなかった場合であっても、これを登録させることによって、動作を考慮した表情推定を行うことを可能にしている。また、このようにして登録された動作スコアは、次回以降の表情推定に利用することもできるので、表情推定装置５０の推定精度を向上させてゆくことができる。

〔実施の形態３〕
本実施形態では、画像中の人物を識別し、識別した人物に応じた動作スコアを用いて表情の推定を行う例を図９から図１２に基づいて説明する。なお、上記実施形態と同様の構成には同一の参照番号を付し、その説明を省略する。

まず、図９に基づいて本実施形態の表情推定装置の構成を説明する。図９は、表情推定装置１００の要部構成の一例を示すブロック図である。表情推定装置１００は、個人認識部（属性判定手段）３７を備えている点、および個人認識用データベース４３と個人別動作スコアデータベース４４とを格納している点で上述の表情推定装置１と相違している。

個人認識部３７は、画像中の人物を識別する。より詳細には、個人認識部３７は、画像を解析して、その画像中の人物が個人認識用データベース４３に登録されている何れの人物に該当するか判定することによって、画像中の人物を識別する。

個人認識用データベース４３は、上記のとおり、個人認識部３７が画像中の人物を識別するためのものであり、人の識別情報（名前等）とその個人の画像とを対応付けたデータベースである。

個人別動作スコアデータベース４４は、個人別の動作スコアが登録されたデータベースである。このデータベースを用いることにより、個人認識部３７の個人認識の結果に応じた動作スコアを特定することができる。このように、個人別の動作スコアを用いることにより、個人の特性に応じた表情の補正が可能になるので、表情推定の精度をさらに高めることができる。同じ動作であっても、それがどのような感情に基づくものであるかは、人によって異なる場合があるからである。

個人別動作スコアデータベース４４には、例えば図１０のような動作スコアが登録される。図１０は、個人別に設定された動作スコアの一例を示す図である。同図では、Ａさんの「腕組み」の動作に対応する動作スコアＴ５と、Ｂさんの「腕組み」の動作に対応する動作スコアＴ６を示している。この例では、Ａさんの「腕組み」は「怒り」のプラス補正が大きく設定され、Ｂさんの「腕組み」は「恐怖」のプラス補正が大きく設定されている。これにより、同じ「腕組み」が検出された場合であっても、その人物がＡさんであるか、Ｂさんであるかに応じた補正がなされるため、表情推定の精度を高めることができる。

なお、動作がどのような感情を示すものであるかは、その動作を行った者や、その近親者等でなければ判断が難しい。このため、個人別動作スコアデータベース４４に登録する動作スコアは、表情推定装置１００のユーザによる追加および更新が可能となっていることが好ましい。動作スコアの追加や更新の際には、図１０に示すような数値の入力を受け付けて登録してもよい。また、ユーザの入力の負担を軽減するために、図７の例のように段階的な入力を受け付けてもよい。

続いて、表情推定装置１００が実行する処理の流れを図１１に基づいて説明する。図１１は、表情推定装置１００が実行する処理（表情推定装置１００の制御方法）の一例を示すフローチャートである。なお、同図のＳ２１〜Ｓ２４、Ｓ２６、Ｓ２７の処理は、それぞれ図５のＳ１、〜Ｓ４、Ｓ６、Ｓ７の処理と同様であるから、ここでは詳細な説明を省略する。

Ｓ２２ａでは、個人認識部３７が、個人認識用データベース４３を参照して、Ｓ２１で画像取得部２が取得した画像における、Ｓ２２で顔検出部３１が顔と認識した部分（顔画像）に対応する人物（個人）を認識する。また、個人認識部３７は、認識した人物を動作スコア取得部３４に通知する。この後、顔スコア取得部３２が上記顔画像から顔スコアを生成し（Ｓ２３、表情判定ステップ）、動作検出部３３が動作を検出する（Ｓ２４、動作判定ステップ）。

次に、Ｓ２５では、動作スコア取得部３４が、Ｓ２４で動作検出部３３が検出した動作に対応する動作スコアのうち、個人認識部３７から通知された人物の動作スコアを個人別動作スコアデータベース４４から取得する。そして、動作スコア取得部３４は、取得した動作スコアを表情決定部３５に通知し、表情決定部３５は、通知された動作スコアと、顔スコア取得部が生成した顔スコアとに基づいて結果スコアを生成し（Ｓ２６、表情推定ステップ）、生成した結果スコアを出力して（Ｓ２７）、処理を終了する。

ここで結果出力の例を図１２に基づいて説明する。図１２は、表情推定の結果を人物の画像上に重畳して表示した例を示す図である。同図に示す画像Ｐ１には、人物Ｈ１およびＨ２の二人の人物が含まれている。そして、人物Ｈ１と対応付けて表情Ｒ１が表示されており、人物Ｈ２と対応付けて表情Ｒ２が表示されている。

このように、結果スコアをそのまま表示するのではなく、結果スコアから特定した一の表情を、推定の対象となった人物と対応付けて出力してもよい。これにより、表情推定の結果をユーザに極めて容易に認識させることができる。

〔実施の形態４〕
本実施形態では、画像中の人物の属性を判別し、判別した属性に応じた動作スコアを用いて表情の推定を行う例を図１３および図１４に基づいて説明する。なお、上記実施形態と同様の構成には同一の参照番号を付し、その説明を省略する。

本実施形態の表情推定装置は、上記実施形態の表情推定装置１００と概ね同様の構成であるから図９のブロック図に基づいて説明を行う。本実施形態の表情推定装置と表情推定装置１００との相違点は、個人認識部３７が属性の判別を行い、動作スコア取得部３４が判別された属性に応じた動作スコアを取得する点にある。このため、個人認識用データベース４３には、画像中の人物が予め定められた属性の何れに該当するかを判定するための情報が格納されており、個人別動作スコアデータベース４４には、属性別の動作スコアが格納されている。

なお、上記の属性は、人物の特徴または性質を示すものであればよく、例えば年齢、年齢層（子供と大人のような大まかな括りであってもよい）、および性別等が挙げられる。また、例えば「大人の男性」等のように、これらの組み合わせを１つの属性として扱ってもよい。なお、上記実施形態における個人の識別は、特定の個人という属性を識別しているとも言える。画像解析によってこのような属性を判定することは、公知の技術を適用して実現することが可能である。

年齢、性別等の属性に応じて、感情がどのような行動として現れるかは変化するので、属性に応じた動作スコアを用いることによって表情推定の精度をさらに高めることができる。例えば、大人の「腕組み」は、怒りの現れであることが多く、子供の「腕組み」は、恐れの現れであることが多いことが分かっている場合には、属性が「大人」である人物については、「怒り」のプラス補正が大きい動作スコアを用いればよい。そして、属性が「子供」である人物については、「恐れ」のプラス補正が大きい動作スコアを用いればよい。これにより、表情推定の精度を高めることができる。

本実施形態の個人別動作スコアデータベース４４には、例えば図１３のような動作スコアが登録される。図１３は、人物の属性に応じた動作スコアの一例を示す図である。同図では、３０代女性の「腕組み」の動作に対応する動作スコアＴ７と、３〜１０歳女性の「腕組み」の動作に対応する動作スコアＴ８を示している。この例では、３０代女性の「腕組み」は「怒り」のプラス補正が大きく設定され、３〜１０歳女性の「腕組み」は「恐怖」のプラス補正が大きく設定されている。これにより、同じ「腕組み」が検出された場合であっても、その人物が３０代女性であるか、３〜１０歳女性であるかに応じた補正がなされるため、表情推定の精度を高めることができる。

続いて、本実施形態の表情推定装置が実行する処理の流れを図１４に基づいて説明する。図１４は、属性に応じた動作スコアを用いる表情推定装置が実行する処理（表情推定装置１００の制御方法）の一例を示すフローチャートである。なお、同図のＳ３１、Ｓ３２、Ｓ３３、Ｓ３４、Ｓ３６、Ｓ３７の処理は、それぞれ図１１のＳ２１、Ｓ２２、Ｓ２３、Ｓ２４、Ｓ２６、Ｓ２７の処理と同様であるから、ここでは詳細な説明を省略する。

Ｓ３２ａでは、個人認識部３７が、個人認識用データベース４３を参照して、Ｓ３１で画像取得部２が取得した画像における、Ｓ３２で顔検出部３１が顔を検出した人物の属性を判定する。また、個人認識部３７は、判定した属性を動作スコア取得部３４に通知する。この後、顔スコア取得部３２が顔スコアを生成し（Ｓ３３、表情判定ステップ）、動作検出部３３が動作を検出する（Ｓ３４、動作判定ステップ）。

次に、Ｓ３５では、動作スコア取得部３４が、Ｓ３４で動作検出部３３が検出した動作に対応する動作スコアのうち、個人認識部３７から通知された属性に対応する動作スコアを個人別動作スコアデータベース４４から取得する。そして、動作スコア取得部３４は、取得した動作スコアを表情決定部３５に通知し、表情決定部３５は、通知された動作スコアと、顔スコア取得部が生成した顔スコアとに基づいて結果スコアを生成し（Ｓ３６、表情推定ステップ）、特定した結果を出力して（Ｓ３７）、処理を終了する。なお、上記の例では、識別した属性に応じた動作スコアを用いる例を示したが、識別した属性に応じた顔スコアを用いてもよい。

〔実施の形態５〕
本実施形態では、表情の推定に動作を考慮する必要があるか否かを判定し、考慮する必要があると判定した場合にのみ動作を検出する例を図１５から図１８に基づいて説明する。なお、上記実施形態と同様の構成には同一の参照番号を付し、その説明を省略する。

まず、図１５に基づいて本実施形態の表情推定装置の構成を説明する。図１５は、表情推定装置１５０の要部構成の一例を示すブロック図である。表情推定装置１５０は、顔スコア取得部３２が生成した顔スコアに基づいて、表情の推定に動作を考慮する必要があるか否かを判定する動作考慮要否判定部（適合度近接判定手段、適合表情判定手段）３８を備えている点で上述の表情推定装置１と相違している。

次に、動作を考慮する必要があるか否かの判定の詳細を図１６および図１７に基づいて説明する。図１６は、顔スコアに基づいて、動作を考慮する必要があると判断した場合の例を示し、図１７は、顔スコアに基づいて、動作を考慮する必要がないと判断した場合の例を示している。

図１６の例では、取得した画像から検出した顔画像Ｆ２から、顔スコアＴ９が生成されている。そして、この顔スコアＴ９では、上位３つのスコアが近い値となっている。このような場合、顔スコアＴ９のみから、これら３つのスコアの何れに対応する表情が、その人物の感情に最も適合しているかを特定することは難しい。

そこで、動作考慮要否判定部３８は、このような場合には、動作を考慮する必要があると判断する。具体的には、動作考慮要否判定部３８（適合度近接判定手段）は、スコアの最大値と次に大きい値との差が、予め定めた上限値未満である場合に、動作を考慮する必要があると判断する。これにより、動作スコアＴ９ａを考慮して表情が決定されるので、同図のＴ１０に示すように、近接していたスコアの差異を明確にし、人物の感情に適合する表情を特定することが可能になる。

一方、図１７の例の顔スコアＴ１１では、スコアの最大値が８０（怒り）であり、次に大きい値が５５（嫌悪）であって、両スコアの差異が大きく、この表情は、動作を考慮するまでもなく、「怒り」と推定することが妥当と考えられる。

そこで、このような場合（スコアの最大値と次に大きい値との差が予め定めた上限値以上である場合）には、動作考慮要否判定部３８は、動作を考慮する必要がないと判断する。そして、動作の検出、動作スコアの取得、および顔スコアと動作スコアとを用いた演算の処理を行うことなく、顔スコア取得部３２が生成した顔スコアを最終結果Ｔ１２として出力する。

続いて、表情推定装置１５０が実行する処理の流れを図１８に基づいて説明する。図１８は、表情の推定に動作を考慮する必要があるか否かを判定する表情推定装置１５０が実行する処理（表情推定装置１５０の制御方法）の一例を示すフローチャートである。なお、同図のＳ４１、Ｓ４２、Ｓ４４〜Ｓ４７の処理は、それぞれ図５のＳ１、Ｓ２、Ｓ４〜Ｓ７の処理と同様であるから、ここでは詳細な説明を省略する。

Ｓ４３では、顔スコア取得部３２が、顔スコアを生成し、生成した顔スコアを動作考慮要否判定部３８と表情決定部３５とに通知する。そして、Ｓ４４ａでは、動作考慮要否判定部３８（適合度近接判定手段）が、通知された顔スコアにおいて、最高スコアの表情カテゴリと近いスコアの表情カテゴリが含まれるか判断する。より具体的には、スコアの最大値と次に大きい値との差が予め定めた上限値未満であるか判断する。

ここで、上限値未満であると判断した場合（Ｓ４４ａでＹＥＳ）、動作考慮要否判定部３８は、動作検出部３３に動作検出を行うように指示する。これにより、Ｓ４４〜Ｓ４６の処理が行われ、Ｓ４７では、顔スコアと動作スコアとを用いて算出された表情推定結果が出力される（図１６参照）。なお、動作スコアは、値が近接するスコアに差異を生じさせるために考慮しているので、Ｓ４６では、最も値の大きい顔スコアの表情カテゴリと、このスコアに近接する顔スコアの表情カテゴリ（図１６の例では、最上位のスコアを有する「嫌悪」と、これに近接するスコアを有する「怒り」と「恐怖」）についてのみ、顔スコアに動作スコアを加算する演算を行ってもよい。これにより、全てのスコアについて演算を行う場合と比べて演算量を削減することができる。

一方、上限値以上であると判断した場合（Ｓ４４ａでＮＯ）、動作考慮要否判定部３８は、表情決定部３５に動作の考慮が不要である旨を通知する。これにより、表情決定部３５は、Ｓ４３で生成された顔スコアを表情推定結果として決定し（Ｓ４８）、これを出力する（Ｓ４７）（図１７参照）。なお、Ｓ４４ａでＮＯの場合、動作考慮要否判定部３８は、動作検出部３３に動作の検出が不要である旨を通知してもよい。

〔実施の形態６〕
本実施形態では、表情の推定に動作を考慮する必要があるか否かの判定を上記とは異なる方法で行う例を図１９および図２０に基づいて説明する。なお、本実施形態の表情推定装置の構成は、図１５の例と同様であるから、図１９および図２０に加えて、図１５を参照して説明する。また、上記実施形態と同様の構成には同一の参照番号を付し、その説明を省略する。

次に、本実施形態における、動作を考慮する必要があるか否かの判定の詳細を図１９に基づいて説明する。図１９は、スコアが最大の表情カテゴリに基づいて、動作を考慮する必要があると判断した場合の例と、考慮する必要がないと判断した場合の例とを示している。

図１９には、顔画像Ｆ３から顔スコアＴ１３が生成された例を示している。この顔スコアＴ１３において、最もスコアの値が大きい表情カテゴリは、「嫌悪」である。また、同図には、顔画像Ｆ４から顔スコアＴ１４が生成された例も示している。この顔スコアＴ１４において、最もスコアの値が大きい表情カテゴリは、「喜び」である。

これらの顔スコアを比較すると、顔スコアＴ１３では、「嫌悪」とスコアの値が近い表情カテゴリ（怒りと恐怖）が存在するのに対し、顔スコアＴ１４では、スコアの値が近い表情カテゴリが存在しないことがわかる。つまり、表情カテゴリの中には、顔スコアにおいて近接したスコアが出にくく、顔スコアのみから容易に一の表情を特定できるもの、つまり誤推定が生じ難いものがある。一方、顔スコアＴ１３のように、顔スコアにおいて近接したスコアが出やすく、顔スコアのみから一の表情を特定することが難しいもの、つまり誤推定が生じ易いものも存在する。

そこで、本実施形態の表情推定装置の動作考慮要否判定部３８（適合表情判定手段）は、顔スコアから特定した一の表情が所定の表情であるか否かを判定する。そして、この判定結果に応じて、動作の種類を判定させるか否か、つまり動作を考慮して表情の推定を行うか否かを決定する。具体的には、上記所定の表情として誤推定が生じにくい表情（例えば「喜び」）を予め設定しておく。この場合、顔スコアから特定した一の表情が上記予め設定した表情と一致する場合には動作の種類を判定させないと決定し、一致しない場合には動作の種類を判定させると決定する。また、上記所定の表情として誤推定が生じやすい表情を予め設定しておいてもよい。この場合、顔スコアから特定した一の表情が上記予め設定した表情と一致する場合には動作の種類を判定させると決定し、一致しない場合には判定させないと決定する。例えば、怒りと嫌悪、恐怖と驚き、および悲しみと困惑（困惑については図示の例に示していない）は、それぞれ類似したスコアが出やすい紛らわしい表情であるため、誤推定が生じやすい表情として、このような表情を予め設定しておいてもよい。

続いて、本実施形態の表情推定装置が実行する処理の流れを図２０に基づいて説明する。図２０は、顔スコアのみから特定された表情に基づいて、表情の推定に動作を考慮する必要があるか否かを判定する表情推定装置が実行する処理（表情推定装置１５０の制御方法）の一例を示すフローチャートである。なお、同図の処理は、Ｓ４４ｂおよびＳ４４ｃを除いて図１８の処理と同様であるから、Ｓ４４ｂおよびＳ４４ｃ以外の処理については詳細な説明を省略する。

Ｓ４４ｂでは、動作考慮要否判定部３８（適合表情判定手段）は、顔スコア取得部３２が生成した顔スコアの中で、スコアの数値が最大の表情を特定し、この表情が予め定められた表情（近接スコアが出やすい（出にくい）表情）の何れかに該当するか判断する。そして、動作の種類を判定させるか否かを決定する（Ｓ４４ｃ）。ここでは、上述のように、予め設定した表情が誤推定の生じやすい（近接スコアが出やすい）表情である場合、この表情と一致したときには動作の種類を判定させると決定する。一方、予め設定した表情が誤推定の生じにくい（近接スコアが出にくい）表情である場合、この表情と一致したときには動作の種類を判定させないと決定する。

ここで、動作の種類を判定させると決定した場合（Ｓ４４ｃでＹＥＳ）、動作考慮要否判定部３８は、動作検出部３３に動作検出を行うように指示する。これにより、Ｓ４４〜Ｓ４６の処理が行われ、Ｓ４７では、顔スコアと動作スコアとを用いて算出された表情推定結果が出力される。

一方、動作の種類を判定させないと決定した場合（Ｓ４４ｃでＮＯ）、動作考慮要否判定部３８は、表情決定部３５に動作の考慮が不要である旨を通知する。これにより、表情決定部３５は、Ｓ４３で生成された顔スコアを表情推定結果として決定し（Ｓ４８）、これを出力する（Ｓ４７）。

〔変形例〕
上記各実施形態では、まず顔スコアを生成し、その後動作スコアを取得して、これらのスコアに基づいて表情推定結果を算出する例を示したが、顔スコアの生成と、動作スコアの取得とを行う順序は上記の例に限られない。すなわち、動作スコアを先に取得して、その後顔スコアを生成してもよいし、動作スコアの取得と顔スコアの生成とを同時に並行して行うようにしてもよい。

また、上記各実施形態では、顔スコアと動作スコアとを用いて表情の推定を行う例を示したが、本発明の本質は、顔の表情と動作の種別とを考慮して表情の推定を行うことにあり、上記の例に限られない。例えば、顔の表情と動作の種別との組み合わせから、各組み合わせに対応する表情が特定されるテーブルを用いて表情を推定してもよい。このようなテーブルを用いる場合、人物の画像から顔の表情と動作の種別とを特定し、その顔の表情と動作の種別との組み合わせに対応する表情を上記のテーブルから特定して、最終的な表情の推定結果として決定する。

〔ソフトウェアによる実現例〕
表情推定装置１、５０、１００、１５０の制御ブロック（特に制御部３）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、表情推定装置１、５０、１００、１５０は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

本発明は、画像中の人物の表情の特定に利用することができる。

１、５０、１００、１５０表情推定装置
３２顔スコア取得部（表情判定手段）
３３動作検出部（動作判定手段）
３５表情決定部（表情推定手段）
３６動作スコア登録部（動作登録手段）
３７個人認識部（属性判定手段）
３８動作考慮要否判定部（適合度近接判定手段、適合表情判定手段）

Claims

画像から人物の表情を推定する表情推定装置であって、
上記人物の画像を解析して該人物の表情を示す第１表情情報を生成する表情判定手段と、
上記人物の画像を解析して上記人物の動作の種類を判定する動作判定手段と、
上記表情判定手段が生成した上記第１表情情報と、上記動作判定手段が判定した動作の種類とに応じた、上記人物の表情を示す第２表情情報を生成する表情推定手段と
を備え、
上記第１表情情報は、複数の異なる表情のそれぞれについての適合度を数値によって示す情報であり、
上記第１表情情報における適合度の数値の最大値と、次に大きい適合度の数値との差が、予め定めた上限値以上であるか判定する適合度近接判定手段を備え、
上記表情推定手段は、上記適合度近接判定手段の判定結果に応じて、第２表情情報を生成する
ことを特徴とする表情推定装置。
上記表情推定手段は、動作の種類ごとに予め定められた補正情報を用いて上記第１表情情報の数値を補正することによって、上記第２表情情報を生成することを特徴とする請求項１に記載の表情推定装置。
画像から人物の表情を推定する表情推定装置であって、
上記人物の画像を解析して該人物の表情を示す第１表情情報を生成する表情判定手段と、
上記人物の画像を解析して上記人物の動作の種類を判定する動作判定手段と、
上記表情判定手段が生成した上記第１表情情報と、上記動作判定手段が判定した動作の種類とに応じた、上記人物の表情を示す第２表情情報を生成する表情推定手段と
を備え
上記第１表情情報は、複数の異なる表情のそれぞれについての適合度を数値によって示す情報であり、
上記第１表情情報における適合度の数値の最大値と、次に大きい適合度の数値との差が、予め定めた上限値以上であるか判定する適合度近接判定手段を備え、
上記表情推定手段は、上記適合度近接判定手段が上限値以上であると判定した場合、動作の種類ごとに予め定められた補正情報を用いず、上記第１表情情報を上記第２表情情報として生成し、上記適合度近接判定手段が上限値未満であると判定した場合、上記補正情報を用いて上記第１表情情報の数値を補正することによって、第２表情情報を生成することを特徴とする表情推定装置。
画像から人物の表情を推定する表情推定装置であって、
上記人物の画像を解析して該人物の表情を示す第１表情情報を生成する表情判定手段と、
上記人物の画像を解析して上記人物の動作の種類を判定する動作判定手段と、
上記表情判定手段が生成した上記第１表情情報と、上記動作判定手段が判定した動作の種類とに応じた、上記人物の表情を示す第２表情情報を生成する表情推定手段と
を備え
上記第１表情情報は、複数の異なる表情のそれぞれについての適合度を数値によって示す情報であり、
上記第１表情情報において適合度の数値が最大の表情が、予め定められた表情と一致するか否かを判定し、該判定の結果に応じて、上記動作判定手段に動作の種類を判定させるか否かを決定する適合表情判定手段を備え、
上記表情推定手段は、上記動作判定手段が動作の種類を判定した場合には、動作の種類ごとに予め定められた補正情報を用いて上記第１表情情報の数値を補正することによって、第２表情情報を生成し、上記動作判定手段が動作の種類を判定しなかった場合には、上記補正情報を用いず、上記第１表情情報を上記第２表情情報として生成することを特徴とする表情推定装置。
上記画像中において指定された動作について、該動作の種類と該動作の補正情報とを対応付けて記憶する動作登録手段を備えていることを特徴とする請求項２〜４の何れか１項に記載の表情推定装置。
上記画像を解析して、上記人物が予め定められた属性の何れに該当するか判定する属性判定手段を備え、
上記表情推定手段は、上記属性判定手段が判定した属性に対応し、かつ動作の種類ごとに予め定められた補正情報を用いて上記第１表情情報の数値を補正することによって、上記第２表情情報を生成することを特徴とする請求項２〜５の何れか１項に記載の表情推定装置。
人物の画像から該人物の表情を推定する表情推定装置の制御方法であって、
上記画像を解析して、上記人物の表情を示す、複数の異なる表情のそれぞれについての適合度を数値によって示す第１表情情報を生成する表情判定ステップと、
上記第１表情情報における適合度の数値の最大値と、次に大きい適合度の数値との差が、予め定めた上限値以上であるか判定する適合度近接判定ステップと
上記画像を解析して上記人物の動作の種類を判定する動作判定ステップと、
上記適合度近接判定ステップにおける判定結果に応じて、上記表情判定ステップにて生成した上記第１表情情報と、上記動作判定ステップにて判定した動作の種類とに応じた、上記人物の表情を示す第２表情情報を生成する表情推定ステップと、を含むことを特徴とする制御方法。
人物の画像から該人物の表情を推定するための制御プログラムであって、
上記画像を解析して、上記人物の表情を示す、複数の異なる表情のそれぞれについての適合度を数値によって示す第１表情情報を生成する表情判定ステップと、
上記画像を解析して上記人物の動作の種類を判定する動作判定ステップと、
上記第１表情情報における適合度の数値の最大値と、次に大きい適合度の数値との差が、予め定めた上限値以上であるか判定する適合度近接判定ステップと
上記適合度近接判定ステップにおける判定結果に応じて、上記表情判定ステップにて生成した上記第１表情情報と、上記動作判定ステップにて判定した動作の種類とに応じた、上記人物の表情を示す第２表情情報を生成する表情推定ステップと、をコンピュータに実行させるための制御プログラム。
請求項８に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。