JP5879188B2

JP5879188B2 - 顔表情解析装置および顔表情解析プログラム

Info

Publication number: JP5879188B2
Application number: JP2012099904A
Authority: JP
Inventors: 誠奥田
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2012-04-25
Filing date: 2012-04-25
Publication date: 2016-03-08
Anticipated expiration: 2032-04-25
Also published as: JP2013228847A

Description

本発明は、顔表情解析装置および顔表情解析プログラムに関する。

人物の顔画像が含まれる画像データを解析し、顔表情を６種類（Ａｎｇｅｒ；怒り、Ｄｉｓｇｕｓｔ；嫌悪、Ｆｅａｒ；恐れ、Ｈａｐｐｉｎｅｓｓ；喜び、Ｓａｄｎｅｓｓ；悲しみ、Ｓｕｒｐｒｉｓｅ；驚き）に分類する技術が知られている（例えば、非特許文献１参照）。

Zisheng Li, Jun-ichi Imai, Masahide Kaneko, "Facial Expression Recognition Using Facial-component-based Bag of Words and PHOG Descriptors", 映像情報メディア学会誌, Vol.64, No.2, pp. 230-236, 2010

しかしながら、従来技術では、無表情な顔つきから表情の種類を判別困難な程度の顔つきまでを示す中立的な顔表情（ニュートラル顔表情）を分類することが困難であった。
そこで、本発明は、上記の問題を解決するためになされたものであり、中立的な顔表情の分類を容易にするとともに、顔表情分類の精度を高めることができる、顔表情解析装置および顔表情解析プログラムを提供することを目的とする。

［１］上記の課題を解決するため、本発明の一態様である顔表情解析装置は、画像データを取り込む画像データ取得部と、前記画像データ取得部が取り込んだ前記画像データから顔の解析領域を抽出する顔領域抽出部と、前記顔領域抽出部が抽出した前記解析領域の画像特徴量を計算する画像特徴量計算部と、前記画像特徴量計算部が計算した前記画像特徴量に対し第１のクラスタ分類処理を実行して第１の顔画像特徴ベクトルを生成し、顔画像特徴ベクトル空間においてあらかじめ決定された第１の境界面から前記第１の顔画像特徴ベクトルまでの距離である顔表情強度値を計算する顔表情強度評価部と、前記画像特徴量に対し第２のクラスタ分類処理を実行して第２の顔画像特徴ベクトルを生成し、顔画像特徴ベクトル空間においてあらかじめ決定された第２の境界面に対する前記第２の顔画像特徴ベクトルの位置関係と前記顔表情強度評価部が計算した前記顔表情強度値とに基づき、前記解析領域に対応する顔表情種別を示す顔表情種別情報を生成する顔表情評価部と、を備えることを特徴とする。

［２］上記［１］記載の顔表情解析装置において、前記顔表情評価部は、前記顔表情強度値に基づいて、前記解析領域に対応する顔表情種別がニュートラル顔表情であるか否かを判定し、前記顔表情種別が前記ニュートラル顔表情でないと判定した場合、前記第２の境界面に対する前記第２の顔画像特徴ベクトルの位置関係に基づいて前記顔表情種別情報を生成することを特徴とする。
［３］上記［１］または［２］記載の顔表情解析装置において、前記顔表情強度評価部は、前記顔表情評価部が生成した前記顔表情種別情報に対応する境界面から前記第１の顔画像特徴ベクトルまでの距離である前記顔表情強度値を計算することを特徴とする。
［４］上記［１］から［３］いずれか一項記載の顔表情解析装置において、前記第１の境界面は、顔表情の種類別に、顔表情の度合がそれぞれ異なる顔表情教師データの集合に前記顔表情の種類を示すラベルを対応付けて構成した顔表情教師データ群から取得した複数の顔表情教師データそれぞれの解析領域について画像特徴量を計算し、前記複数の顔表情教師データ分の画像特徴量をクラスタ分析し、前記顔表情の種類ごとの集合における前記顔表情の度合が最小および最大である顔表情教師データそれぞれに対応する画像特徴量を、前記クラスタ分析の結果であるクラスタに分類することによって得られる顔画像特徴ベクトルを適用したサポートベクトルマシンにより計算されることを特徴とする。
［５］上記［４］記載の顔表情解析装置において、前記第２の境界面は、前記複数の顔表情教師データの全てまたは一部の顔表情教師データそれぞれに対応する画像特徴量を、前記クラスタに分類することによって得られる顔画像特徴ベクトルを適用したサポートベクトルマシンにより計算されることを特徴とする。
［６］上記［１］から［５］いずれか一項記載の顔表情解析装置において、前記顔領域抽出部は、前記解析領域を複数の解析部分領域に分割し、前記画像特徴量計算部は、前記複数の解析部分領域それぞれの画像特徴量を計算し、前記顔表情強度評価部は、前記複数の解析部分領域それぞれの画像特徴量に対して前記第１のクラスタ分類処理を実行し、各分類結果を連結することによって前記第１の顔画像特徴ベクトルを生成し、前記顔表情評価部は、前記複数の解析部分領域それぞれの画像特徴量に対して前記第２のクラスタ分類処理を実行し、各分類結果を連結することによって前記第２の顔画像特徴ベクトルを生成することを特徴とする。
［７］上記［１］から［６］いずれか一項記載の顔表情解析装置において、前記顔表情評価部は、複数フレーム分の画像データを含む所定区間ごとに、顔表情種別ごとの顔表情強度値の総和を計算し、総和値が最大となる顔表情種別を示す顔表情種別情報を生成することを特徴とする。
［８］上記［７］記載の顔表情解析装置において、前記顔表情評価部は、前記複数フレームよりも少ないフレーム数おきに、前記所定区間を前記フレーム数分ずらすことを特徴とする。

［９］上記の課題を解決するため、本発明の一態様である顔表情解析プログラムは、コンピュータを、画像データを取り込む画像データ取得部と、前記画像データ取得部が取り込んだ前記画像データから解析領域を抽出する顔領域抽出部と、前記顔領域抽出部が抽出した前記解析領域の画像特徴量を計算する画像特徴量計算部と、前記画像特徴量計算部が計算した前記画像特徴量に対し第１のクラスタ分類処理を実行して第１の顔画像特徴ベクトルを生成し、顔画像特徴ベクトル空間においてあらかじめ決定された第１の境界面から前記第１の顔画像特徴ベクトルまでの距離である顔表情強度値を計算する顔表情強度評価部と、前記画像特徴量に対し第２のクラスタ分類処理を実行して第２の顔画像特徴ベクトルを生成し、顔画像特徴ベクトル空間においてあらかじめ決定された第２の境界面に対する前記第２の顔画像特徴ベクトルの位置関係と前記顔表情強度評価部が計算した前記顔表情強度値とに基づき、前記解析領域に対応する顔表情種別を示す顔表情種別情報を生成する顔表情評価部と、として機能させる。

本発明によれば、中立的な顔表情の分類を容易にするとともに、顔表情分類の精度を高めることができる。

本発明の第１実施形態である顔表情解析装置の機能構成を示すブロック図である。顔表情解析装置が機械学習モードに設定されて機械学習処理を実行する際に用いる、顔表情教師データベースのデータ構造の一部分を概念的に示す図である。画像データと、この画像データから抽出された顔領域データと、この顔領域データを正規化して得られた正規化顔領域データとを模式的に示す図である。解析領域決定部が正規化顔領域データから決定した解析領域を、視覚的に分かり易く線描画した図である。、機械学習部が画像特徴量をクラスタに分類して生成するヒストグラムを模式的に示した図である。顔表情教師データの顔画像特徴ベクトルが２クラスに分類された様子を示すサポートベクトルマシンの概念図である。同実施形態である顔表情解析装置が実行する機械学習処理の手順を示すフローチャートである。同実施形態である顔表情解析装置が実行する顔表情解析処理の手順を示すフローチャートである。本発明の第２実施形態である顔表情解析装置の機能構成を示すブロック図である。本発明の第３実施形態である顔表情解析装置の出力結果を模式的に示した図である。同実施形態の変形例である顔表情解析装置の出力結果を模式的に示した図である。

以下、本発明を実施するための形態について、図面を参照して詳細に説明する。
［第１の実施の形態］
図１は、本発明の第１実施形態である顔表情解析装置の機能構成を示すブロック図である。同図に示すように、顔表情解析装置１は、画像データ取得部１０と、顔領域抽出部２０と、画像特徴量分析部（画像特徴量計算部）３０と、顔表情強度評価部４０と、顔表情評価部５０と、モード切替部６０とを備える。

顔表情解析装置１は、顔表情解析処理を実行することにより、取り込んだ画像データに含まれる人物顔の顔表情強度値を計算してこの顔表情強度値を出力するとともに、その人物顔の顔表情を分類して顔表情種別情報を生成し、この顔表情種別情報を出力する。顔表情強度値は、ニュートラル顔表情からピーク顔表情までの顔表情の度合を強度として示す数値である。ニュートラル顔表情は、人物の中立的な顔表情であり、例えば、人物の無表情な顔つきから表情の種類を判別困難な程度の顔つきまでを示す表情である。つまり、ニュートラル顔表情には、顔表情の幅がある。ピーク顔表情は、人物の感情を豊かに表現した顔表情であり、例えば、怒り、嫌悪、恐れ、喜び、悲しみ、驚き等の感情を強く表現した顔つきを示す。

顔表情解析装置１は、顔表情解析処理の前処理として機械学習処理を実行する。顔表情解析装置１は、機械学習処理を実行することにより、外部の顔表情教師データベースから複数の顔表情教師データを取り込み、これら複数の顔表情教師データを用いて、顔表情強度値を計算するための分類器、および顔表情を分類するための分類器それぞれの機械学習を行う。顔表情教師データベースは、顔表情の種類別に、顔表情の度合がそれぞれ異なる顔表情教師データの集合に、当該顔表情の種類を示すラベルを対応付けて構成した顔表情教師データ群を格納したデータベースである。分類器は、例えば、サポートベクトルマシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ；ＳＶＭ）により実現される。このサポートベクトルマシンについては、例えば、C. Cortes, and V. Vapnik: "Support-Vector Networks", Machine Learning, Vol. 20, No. 3, pp. 273-297, 1995に開示されている。

図１において、モード切替部６０は、例えば、顔表情解析装置１がプログラムを実行することにより実現される切替制御により、顔表情解析装置１を機械学習モードから顔表情解析モード、または顔表情解析モードから機械学習モードに切り替える。または、モード切替部６０は、いずれのモードにも設定されていない状態（初期状態）から、機械学習モードまたは顔表情解析モードに設定する。機械学習モードは、顔表情解析装置１が機械学習処理を実行する動作モードである。また、顔表情解析モードは、顔表情解析装置１が顔解析処理を実行する動作モードである。
なお、モード切替部６０は、例えば、操作者による顔表情解析装置１の切替操作にしたがって、機械学習モードと顔表情解析モードとを切り替えてもよい。

画像データ取得部１０は、図示しない外部装置が供給する画像データを取り込む。具体的に、顔表情解析装置１が機械学習モードに設定されているとき、画像データ取得部１０は、顔表情教師データベースから複数の顔表情教師データを取り込む。また、顔表情解析装置１が顔表情解析モードに設定されているとき、画像データ取得部１０は、例えば、撮影装置または記録装置が供給する評価画像データを取り込む。

画像データ（顔表情教師データ、評価画像データ）は、静止画像データまたは動画像データである。画像データが静止画像データである場合、画像データ取得部１０は、取り込んだ静止画像データを顔領域抽出部２０に供給する。また、画像データが動画像データである場合、画像データ取得部１０は、取り込んだ動画像データからキーフレームを検出し、このキーフレームを画像データとして、順次またはあらかじめ決定された所定フレーム数おきに顔領域抽出部２０に供給する。

顔領域抽出部２０は、画像データ取得部１０が供給する画像データを取り込み、この画像データから人物顔の解析領域を抽出する。
顔領域抽出部２０は、その機能構成として、顔領域検出部２１と、解析領域決定部２２とを備える。

顔領域検出部２１は、取り込んだ画像データに対して顔検出処理を実行し、その画像データから人物の顔領域を検出する。この顔領域のデータ（顔領域データ）は、人物顔を含む、例えば矩形の画像データである。顔領域検出部２１が実行する顔検出処理のアルゴリズムとして、公知の顔検出アルゴリズム、例えばＡｄａＢｏｏｓｔが適用できる。
なお、公知の顔検出アルゴリズムについては、例えば、PAUL VIOLA, MICHAEL J. JONES, "Robust Real-Time Face Detection", International Journal of Computer Vision, 2004, Vol. 57, No. 2, pp. 137-154に、詳細が開示されている。

解析領域決定部２２は、顔領域検出部２１が検出した顔領域データを所定画素サイズに正規化する。そして、解析領域決定部２２は、正規化した顔領域データ（正規化顔領域データ）から解析領域を抽出する。具体的に、解析領域決定部２２は、顔領域データを所定画素サイズ（例えば、水平方向１２８画素×垂直方向１２８画素）の正規化顔領域データに正規化する。すなわち、解析領域決定部２２は、顔領域データを上記所定画素サイズの矩形画像に拡大させたり、縮小させたりする画像処理を実行して正規化顔領域データを生成する。つまり、画像データに含まれる人物顔の大きさは画像データによって様々であるため、解析領域決定部２２は、顔領域を拡大または縮小させて、全ての画像データにおける顔領域の解像度を同程度にする。これにより、解像度が異なる顔領域データの情報量を略均等（均等を含む）にすることができる。

解析領域決定部２２は、正規化顔領域データから、画像特徴量を計算するための解析領域を決定し、この解析領域のデータ（解析領域データ）を抽出する。解析領域は、例えば、正規化顔領域の中心位置を中心に設けられる、この正規化顔領域に含まれる円（楕円または真円）領域である。解析領域決定部２２は、例えば、正規化顔領域の水平方向であって且つその中心を通る直線で解析領域を二分し、その上部の領域を上部解析領域（第１の解析部分領域）、下部の領域を下部解析領域（第２の解析部分領域）として決定する。言い換えると、解析領域決定部２２は、正規化顔領域に内接する円形または楕円形よりも小さな円形または楕円形の解析領域を上下（縦）方向に二分して上部解析領域および下部解析領域を決定する。つまり、解析領域決定部２２は、解析領域を二つの解析部分領域に分割する。

画像特徴量分析部３０は、顔領域抽出部２０が抽出した解析領域データの局所特徴量である画像特徴量を計算する。例えば、画像特徴量分析部３０は、解析領域決定部２２が決定した解析領域における上部解析領域および下部解析領域それぞれのデータについて、ＳＵＲＦ（ＳｐｅｅｄｅｄＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ）特徴量を計算する。または、例えば、画像特徴量分析部３０は、上部解析領域および下部解析領域それぞれのデータについて、ＳＩＦＴ（ＳｃａｌｅＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍａｔｉｏｎ）特徴量を計算する。そして、画像特徴量分析部３０は、計算した二つの解析部分領域それぞれの画像特徴量を、顔表情強度評価部４０および顔表情評価部５０に供給する。

顔表情解析装置１が機械学習モードに設定されているとき、顔表情強度評価部４０は、複数の顔表情教師データから得られた各解析領域の画像特徴量を用いて、顔表情強度値を計算するための分類器の機械学習を行う。また、顔表情解析装置１が顔表情解析モードに設定されているとき、顔表情強度評価部４０は、評価画像データから得られた解析領域の画像特徴量を用いて、機械学習された分類器により顔表情強度値を計算する。
顔表情強度評価部４０は、その機能構成として、機械学習部４１と、顔表情強度値計算部４２とを備える。

顔表情解析装置１が機械学習モードに設定されているとき、機械学習部４１は、画像特徴量分析部３０が供給する、複数の顔表情教師データから得られた各解析領域の画像特徴量を取り込む。そして、機械学習部４１は、複数の顔表情教師データ分の画像特徴量についてクラスタ分析（クラスタリング）を実行する。クラスタ分析として、例えば、Ｋ平均法が適用できる。具体的に、機械学習部４１は、上部解析領域について画像特徴量のクラスタ分析を実行し、例えば３５０個のクラスタを生成する。また、機械学習部４１は、下部解析領域について画像特徴量のクラスタ分析を実行し、例えば２５０個のクラスタを生成する。

そして、機械学習部４１は、顔表情の種類ごとの顔表情教師データの集合における顔表情の度合が最小および最大である顔表情教師データそれぞれに対応する画像特徴量を、クラスタ分析の結果であるクラスタに分類してヒストグラムを生成（クラスタ分類）することにより、顔画像特徴ベクトルを生成する。度合が最小である顔表情はニュートラル顔表情であり、度合が最大である顔表情はピーク顔表情である。

具体的に、機械学習部４１は、顔表情の種類ごとの顔表情教師データの集合における顔表情の度合が最小および最大である顔表情教師データの上部解析領域に対応する画像特徴量をクラスタに分類する。そして、機械学習部４１は、クラスタを階級とし、各クラスタの要素数を頻度とするヒストグラム（第１のヒストグラム）を生成する。また、機械学習部４１は、顔表情の種類ごとの顔表情教師データの集合における顔表情の度合が最小および最大である顔表情教師データの下部解析領域に対応する画像特徴量をクラスタに分類する。そして、機械学習部４１は、クラスタを階級とし、各クラスタの要素数を頻度とするヒストグラム（第２のヒストグラム）を生成する。そして、機械学習部４１は、分類結果である第１のヒストグラムと第２のヒストグラムとを連結して解析領域全体に対するヒストグラム（全体ヒストグラム）を生成する。例えば、機械学習部４１は、第１のヒストグラムに第２のヒストグラムを連結して全体ヒストグラムを生成する。または、機械学習部４１は、第２のヒストグラムに第１のヒストグラムを連結して全体ヒストグラムを生成する。そして、機械学習部４１は、全体ヒストグラムを正規化することにより顔画像特徴ベクトルを生成する。例えば、機械学習部４１は、全体ヒストグラムにおける各階級の頻度を、全階級の頻度の合計値で除算して顔画像特徴ベクトルを生成する。

機械学習部４１は、例えば、サポートベクトルマシンによる機械学習を実行し、顔表情の度合が最小である顔画像と、顔表情の度合が最大である顔画像とを分類する境界面（第１の境界面）を計算し、この境界面のデータを顔表情強度値計算部４２に供給する。境界面は、超平面、分離超平面、分離平面等ともいう。顔表情強度値計算部４２は、機械学習部４１が供給する境界面のデータを取り込み、この境界面のデータを記憶する。

機械学習部４１が様々な顔表情の顔表情教師データから得られた画像特徴量を用いてクラスタ分析を実行することにより、顔表情の強度の変化に応じた顔画像特徴ベクトルを得ることができ、顔表情強度値の精度を高めることができる。

顔表情解析装置１が顔表情解析モードに設定されているとき、顔表情強度値計算部４２は、画像特徴量分析部３０が供給する、評価画像データから得られた解析領域の画像特徴量を取り込む。そして、顔表情強度値計算部４２は、取り込んだ画像特徴量を機械学習部４１が実行したクラスタ分析の結果であるクラスタに分類（第１のクラスタ分類処理）して、顔画像特徴ベクトル（第１の顔画像特徴ベクトル）を生成する。そして、顔表情強度値計算部４２は、記憶した境界面から顔画像特徴ベクトルまでの距離を計算し、この距離の値を顔表情強度値として出力する。この距離とは、特徴ベクトル空間における、顔画像特徴ベクトルから境界面までのユークリッド距離である。顔表情強度値は、例えば、０（ゼロ）を中心として、負方向に大きくなるほどニュートラル顔表情に近づく一方、正方向に大きくなるほどピーク顔表情に近づく数値である。また、顔表情強度値計算部４２は、顔表情強度値を顔表情評価部５０に供給する。

顔表情解析装置１が機械学習モードに設定されているとき、顔表情評価部５０は、複数の顔表情教師データから得られた各解析領域の画像特徴量を用いて、顔表情を分類するための分類器の機械学習を行う。また、顔表情解析装置１が顔表情解析モードに設定されているとき、顔表情評価部５０は、評価画像データから得られた解析領域の画像特徴量と顔表情強度評価部４０が供給した顔表情強度値とに基づいて、機械学習された分類器により顔表情を分類して顔表情種別情報を生成する。
顔表情評価部５０は、その機能構成として、機械学習部５１と、顔表情分類部５２とを備える。

顔表情解析装置１が機械学習モードに設定されているとき、機械学習部５１は、画像特徴量分析部３０が供給する、複数の顔表情教師データの全てまたは一部の顔表情教師データから得られた各解析領域の画像特徴量を取り込む。一部の顔表情教師データは、例えば、顔表情の種類ごとの顔表情教師データの集合のうち、顔表情の度合が大きい方の所定割合分の顔表情教師データである。そして、機械学習部５１は、これらの画像特徴量を、機械学習部４１が実行したクラスタ分析の結果であるクラスタに分類してヒストグラムを生成することにより、顔画像特徴ベクトルを生成する。

具体的に、機械学習部５１は、複数の顔表情教師データの全てまたは一部の顔表情教師データの上部解析領域に対応する画像特徴量をクラスタに分類する。そして、機械学習部５１は、クラスタを階級とし、各クラスタの要素数を頻度とするヒストグラム（第３のヒストグラム）を生成する。また、機械学習部５１は、複数の顔表情教師データの全てまたは一部の顔表情教師データの下部解析領域に対応する画像特徴量をクラスタに分類する。そして、機械学習部５１は、クラスタを階級とし、各クラスタの要素数を頻度とするヒストグラム（第４のヒストグラム）を生成する。そして、機械学習部５１は、分類結果である第３のヒストグラムと第４のヒストグラムとを連結して解析領域全体に対するヒストグラム（全体ヒストグラム）を生成する。例えば、機械学習部５１は、第３のヒストグラムに第４のヒストグラムを連結して全体ヒストグラムを生成する。または、機械学習部５１は、第４のヒストグラムに第３のヒストグラムを連結して全体ヒストグラムを生成する。そして、機械学習部５１は、全体ヒストグラムを正規化することにより顔画像特徴ベクトルを生成する。例えば、機械学習部５１は、全体ヒストグラムにおける各階級の頻度を、全階級の頻度の合計値で除算して顔画像特徴ベクトルを生成する。

機械学習部５１は、例えば、サポートベクトルマシンによる機械学習を実行し、顔表情の種類別に顔画像を分類する境界面（第２の境界面）を計算し、この境界面のデータを顔表情分類部５２に供給する。サポートベクトルマシンは２クラス分類器であるため、機械学習部５１は、顔表情の種類数に応じて２クラス分類を繰り返す。顔表情分類部５２は、機械学習部５１が供給する境界面のデータを取り込み、この境界面のデータを記憶する。

顔表情解析装置１が顔表情解析モードに設定されているとき、顔表情分類部５２は、画像特徴量分析部３０が供給する、評価画像データから得られた解析領域の画像特徴量を取り込む。また、顔表情分類部５２は、顔表情強度値計算部４２が供給する顔表情強度値を取り込む。そして、顔表情分類部５２は、取り込んだ画像特徴量を機械学習部４１が実行したクラスタ分析の結果であるクラスタに分類（第２のクラスタ分類処理）して、顔画像特徴ベクトル（第２の顔画像特徴ベクトル）を生成する。

そして、顔表情分類部５２は、記憶した境界面に対する顔画像特徴ベクトルの位置関係と、顔表情強度値計算部４２から取り込んだ顔表情強度値とに基づいて、解析領域に対応する顔表情種別を示す顔表情種別情報を生成し、この顔表情種別情報を出力する。
具体的に、顔表情分類部５２は、顔表情強度値とあらかじめ保有する閾値とを比較する。そして、顔表情分類部５２は、顔表情強度値が閾値以下である場合、解析領域における顔表情がニュートラル顔表情であると判定し、顔表情強度値が閾値を超える場合、解析領域における顔表情が非ニュートラル顔表情であると判定する。そして、顔表情分類部５２は、顔表情種別がニュートラル顔表情であると判定した場合、ニュートラル顔表情を示す情報を含めた顔表情種別情報を生成する。一方、顔表情分類部５２は、顔表情種別がニュートラル顔表情でないと判定した場合、各境界面に対する顔画像特徴ベクトルの位置を判定して分類を絞り込むことによって顔表情種別情報を生成する。

なお、顔表情分類部５２は、顔表情の種類別に閾値を保有してもよい。顔表情の種類は、例えば、怒り、嫌悪、恐れ、喜び、悲しみ、驚きである。

図２は、顔表情解析装置１が機械学習モードに設定されて機械学習処理を実行する際に用いる、顔表情教師データベースのデータ構造の一部分を概念的に示す図である。同図に示すように、顔表情教師データベースは、顔表情の種類別に、ニュートラル顔表情からピーク顔表情まで顔表情の度合がそれぞれ異なる顔表情教師データの集合に、当該顔表情の種類を示すラベルを対応付けて構成した顔表情教師データ群を格納している。顔表情の種類は、例えば、「怒り」、「嫌悪」、「恐れ」、「喜び」、「悲しみ」、および「驚き」の６種類である。

顔表情教師データベースとして、例えば、Patrick Lucey, Jeffrey F. Cohn, Takeo Kanade, Jason Saragih, Zara Ambadar, "The Extended Cohn-Kanade Dataset (CK+): A complete dataset for action unit and emotion-specified expression", the Third IEEE Workshop on CVPR for Human Communicative Behavior Analysis, pp. 94-101, 2010に記載された、Cohn-Kanade Facial Expression Databaseを適用できる。

図３は、画像データと、この画像データから抽出された顔領域データと、この顔領域データを正規化して得られた正規化顔領域データとを模式的に示す図である。つまり、同図は、画像データ取得部１０が取得する画像データ２と、顔領域検出部２１が検出する顔領域データ２ａと、解析領域決定部２２が正規化（ここでは、縮小）する正規化顔領域データ２ｂとを時系列に示している。同図に示すように、画像データ２は、人物の首より上側を含む画像である。顔領域データ２ａは、画像データ２から抽出された人物顔を含む画像である。正規化顔領域データ２ｂは、例えば、人物の顔表情を決定付ける顔の主要なパーツ（両眉毛、両目、鼻、口）を含むように、水平画素数Ｌ_Ｘ×垂直画素数Ｌ_Ｙサイズに正規化された画像である。水平画素数Ｌ_Ｘと垂直画素数Ｌ_Ｙとの長さの関係は、例えば、水平画素数Ｌ_Ｘ＝垂直画素数Ｌ_Ｙである。

図４は、解析領域決定部２２が正規化顔領域データ２ｂから決定した解析領域を、視覚的に分かり易く線描画した図である。同図に示すように、解析領域決定部２２は、水平画素数Ｌ_Ｘ×垂直画素数Ｌ_Ｙの正規化顔領域データ２ｂの中心位置を中心として、正規化顔領域データ２ｂに含まれる円形の解析領域３を決定する。解析領域３の水平方向の径は、例えば水平画素数Ｌ_Ｘの０．８倍の長さであり、垂直方向の径は、例えば垂直画素数Ｌ_Ｙの０．８倍の長さである。このように、解析領域３の径を正規化顔領域データ２ｂの内接円の径よりも小さくすることにより、人物顔の認識や顔表情認識にとって重要度が低い髪の毛、耳、イヤリング等の情報を除外することができる。解析領域決定部２２は、解析領域３の水平方向であって且つその中心を通る直線で、解析領域３を上部解析領域３Ｕと下部解析領域３Ｄとに区分する。このように区分することにより、上部解析領域３Ｕは両眉毛および両目を含み、下部解析領域３Ｄは鼻頭および口を含むこととなる。

図５は、機械学習部４１が画像特徴量をクラスタに分類して生成するヒストグラムを模式的に示した図である。同図は、機械学習部４１が上部解析領域における画像特徴量のヒストグラムの後に、下部解析領域における画像特徴量のヒストグラムを連結して解析領域全体のヒストグラムを得る例である。このヒストグラムは顔画像の特徴ベクトルを表す。このように、機械学習部４１が解析部分領域ごとにクラスタ分類することにより、画像特徴量に、位置情報（上部解析領域または下部解析領域）が対応付けられる。
なお、機械学習部４１は、下部解析領域における画像特徴量のヒストグラムの後に、上部解析領域における画像特徴量のヒストグラムを連結して解析領域全体のヒストグラムを得てもよい。

次に、顔表情解析装置１に適用されるサポートベクトルマシンについて説明する。
図６は、顔表情教師データの顔画像特徴ベクトルが２クラスに分類された様子を示すサポートベクトルマシンの概念図である。便宜上、同図は、顔画像特徴ベクトルの次元数を“２”とした場合を示している。２クラスとは、「ニュートラル顔表情」のクラスおよび「ピーク顔表情」のクラスである。また、同図に示した８個の顔画像（顔表情教師データの顔画像）および１個の顔画像（顔画像特徴ベクトルＸに対応する評価画像データの顔画像）のそれぞれは、顔画像特徴ベクトルに対応する顔の表情を視覚化したものであり、各顔画像が配置された位置は、特徴ベクトル空間（ここでは、特徴ベクトル平面）における顔画像特徴ベクトルの位置を示すものである。

本実施形態では、顔表情解析装置１は、機械学習モードに設定された場合、外部の顔表情教師データベースから複数の顔表情教師データを取り込み、これら複数の顔表情教師データを用いて、サポートベクトルマシンにより境界面Ｈを計算する。図６では、顔画像特徴ベクトルを２次元としているため、境界面Ｈは線で表されるが、実際は、顔画像特徴ベクトルの“次元数−１”の次元数による超平面となる。例えば、顔画像特徴ベクトルが６００次元のクラスタである場合、境界面Ｈは、５９９次元の超平面となる。
同図において、８個の顔表情教師データの顔画像それぞれの顔画像特徴ベクトルは、境界面Ｈによってニュートラル顔表情のクラスＡと、ピーク顔表情のクラスＢとに分類される。

顔表情解析装置１が顔表情解析モードに設定された場合、機械学習後のサポートベクトルマシンは、境界面Ｈから評価画像データの顔画像特徴ベクトルＸまでの距離（ユークリッド距離）Ｄを計算する。本実施形態では、距離Ｄを、例えば、境界面Ｈ上の値が０（ゼロ）、ピーク顔表情のクラスＡ側が正値、ニュートラル顔表情のクラスＢ側が負値となる。この距離Ｄが顔表情強度値である。

次に、顔表情解析装置１の動作について、機械学習処理と顔表情解析処理とに分けて説明する。

図７は、顔表情解析装置１が実行する機械学習処理の手順を示すフローチャートである。
ステップＳ１において、モード切替部６０は、機械学習モードに設定する。
次に、ステップＳ２において、画像データ取得部１０は、外部の顔表情教師データベースに格納された複数の顔表情教師データから一つの顔表情教師データを取り込み、この顔表情教師データを顔領域抽出部２０に供給する。

次に、ステップＳ３において、顔領域抽出部２０は、画像データ取得部１０が供給する画像データを取り込み、この画像データから人物顔の解析領域を抽出する。
具体的に、顔領域検出部２１は、取り込んだ画像データに対して顔検出処理を実行し、その画像データから人物の顔領域を検出する。
次に、解析領域決定部２２は、顔領域検出部２１が検出した顔領域データを所定画素サイズ（例えば、水平方向１２８画素×垂直方向１２８画素）に正規化する。
次に、解析領域決定部２２は、正規化顔領域データから解析領域を抽出し、この解析領域から二つの解析部分領域（上部解析領域および下部解析領域）を決定する。

次に、ステップＳ４において、画像特徴量分析部３０は、顔領域抽出部２０が抽出した解析領域データの画像特徴量を計算する。例えば、画像特徴量分析部３０は、解析領域決定部２２が決定した解析領域における上部解析領域および下部解析領域それぞれのデータについて、画像特徴量（例えば、ＳＵＲＦ特徴量またはＳＩＦＴ特徴量）を計算する。そして、画像特徴量分析部３０は、計算した上部解析領域および下部解析領域それぞれの画像特徴量を、顔表情強度評価部４０および顔表情評価部５０に供給する。

次に、ステップＳ５において、顔表情教師データベースから取り込むべき全ての顔表情教師データの取り込みが完了した場合（Ｓ５：ＹＥＳ）、ステップＳ６の処理に移し、顔表情教師データベースから取り込むべき全ての顔表情教師データの取り込みが完了していない場合（Ｓ５：ＮＯ）、ステップＳ２の処理に戻す。

ステップＳ６において、顔表情強度評価部４０は、複数の顔表情教師データから得られた各解析領域の画像特徴量を用いて、顔表情強度値を計算するための分類器の機械学習を行う。
具体的に、機械学習部４１は、複数の顔表情教師データ分の画像特徴量についてクラスタ分析（例えば、Ｋ平均法のクラスタリング）を実行する。次に、機械学習部４１は、顔表情の種類ごとの顔表情教師データの集合における顔表情の度合が最小および最大である顔表情教師データそれぞれに対応する画像特徴量を、クラスタに分類してヒストグラムを生成（クラスタ分類）することにより、顔画像特徴ベクトルを生成する。

次に、ステップＳ７において、機械学習部４１は、例えば、サポートベクトルマシンによる機械学習を実行し、顔表情の度合が最小である顔画像と、顔表情の度合が最大である顔画像とを分類する第１の境界面を計算し、この第１の境界面のデータを顔表情強度値計算部４２に供給する。そして、顔表情強度値計算部４２は、機械学習部４１が供給する第１の境界面のデータを取り込み、この第１の境界面のデータを記憶する。

次に、ステップＳ８において、顔表情評価部５０は、複数の顔表情教師データから得られた各解析領域の画像特徴量を用いて、顔表情を分類するための分類器の機械学習を行う。
具体的に、機械学習部５１は、複数の顔表情教師データの全てまたは一部の顔表情教師データから得られた各解析領域の画像特徴量を、機械学習部４１が実行したクラスタ分析の結果であるクラスタに分類してヒストグラムを生成（クラスタ分類）することにより、顔画像特徴ベクトルを生成する。

次に、ステップＳ９において、機械学習部５１は、例えば、サポートベクトルマシンによる機械学習を実行し、顔表情の種類別に顔画像を分類する第２の境界面を計算し、この第２の境界面のデータを顔表情分類部５２に供給する。顔表情分類部５２は、機械学習部５１が供給する第２の境界面のデータを取り込み、この第２の境界面のデータを記憶する。

図８は、顔表情解析装置１が実行する顔表情解析処理の手順を示すフローチャートである。
ステップＳ２１において、モード切替部６０は、顔表情解析モードに設定する。
次に、ステップＳ２２において、画像データ取得部１０は、例えば、撮影装置または記録装置が供給する評価画像データを取り込み、この評価画像データを顔領域抽出部２０に供給する。

次に、ステップＳ２３において、顔領域抽出部２０は、画像データ取得部１０が供給する評価画像データを取り込み、この評価画像データから人物顔の解析領域を抽出する。
具体的に、顔領域検出部２１は、取り込んだ評価画像データに対して顔検出処理を実行し、その評価画像データから人物の顔領域を検出する。
次に、解析領域決定部２２は、顔領域検出部２１が検出した顔領域データを所定画素サイズ（例えば、水平方向１２８画素×垂直方向１２８画素）に正規化する。
次に、解析領域決定部２２は、正規化顔領域データから解析領域を抽出し、この解析領域から二つの解析部分領域（上部解析領域および下部解析領域）を決定する。

次に、ステップＳ２４において、画像特徴量分析部３０は、前述したステップＳ４の処理と同様に、顔領域抽出部２０が抽出した解析領域データの画像特徴量を計算する。つまり、例えば、画像特徴量分析部３０は、解析領域決定部２２が決定した解析領域における上部解析領域および下部解析領域それぞれのデータについて、画像特徴量（例えば、ＳＵＲＦ特徴量またはＳＩＦＴ特徴量）を計算する。そして、画像特徴量分析部３０は、計算した上部解析領域および下部解析領域それぞれの画像特徴量を、顔表情強度評価部４０および顔表情評価部５０に供給する。

次に、ステップＳ２５において、顔表情強度評価部４０は、評価画像データから得られた解析領域の画像特徴量を用いて、機械学習された分類器により顔表情強度値を計算する。
具体的に、顔表情強度値計算部４２は、機械学習部４１が実行したクラスタ分析の結果であるクラスタに画像特徴量を分類（第１のクラスタ分類処理）して、顔画像特徴ベクトル（第１の顔画像特徴ベクトル）を生成する。

次に、ステップＳ２６において、顔表情強度値計算部４２は、記憶した境界面から顔画像特徴ベクトルまでの距離を計算し、この距離の値を顔表情強度値として出力するとともに、顔表情評価部５０に供給する。

次に、ステップＳ２７において、顔表情評価部５０は、評価画像データから得られた解析領域の画像特徴量と顔表情強度評価部４０が供給した顔表情強度値とに基づいて、機械学習された分類器により顔表情を分類して顔表情種別情報を生成する。
具体的に、顔表情分類部５２は、機械学習部４１が実行したクラスタ分析の結果であるクラスタに画像特徴量を分類（第２のクラスタ分類処理）して、顔画像特徴ベクトル（第２の顔画像特徴ベクトル）を生成する。

次に、顔表情分類部５２は、記憶した境界面に対する顔画像特徴ベクトルの位置関係と顔表情強度値計算部４２から取り込んだ顔表情強度値とに基づいて、解析領域に対応する顔表情種別を示す顔表情種別情報を生成し、この顔表情種別情報を出力する。
具体的に、顔表情分類部５２は、顔表情強度値とあらかじめ決定された閾値とを比較する。そして、顔表情分類部５２は、顔表情強度値が閾値以下である場合、解析領域における顔表情がニュートラル顔表情であると判定し、顔表情強度値が閾値を超える場合、解析領域における顔表情が非ニュートラル顔表情であると判定する。次に、顔表情分類部５２は、顔表情種別がニュートラル顔表情であると判定した場合、ニュートラル顔表情を示す情報を含めた顔表情種別情報を生成する。一方、顔表情分類部５２は、顔表情種別がニュートラル顔表情でないと判定した場合、各境界面に対する顔画像特徴ベクトルの位置を判定して分類を絞り込むことによって顔表情種別情報を生成する。

［第２の実施の形態］
図９は、本発明の第２実施形態である顔表情解析装置の機能構成を示すブロック図である。上述した第１実施形態における顔表情解析装置１と同一の構成については、同一の符号を付してその説明を省略する。同図に示すように、顔表情解析装置１ａは、顔表情解析装置１から、顔表情強度評価部４０および顔表情評価部５０を、顔表情強度評価部４０ａおよび顔表情評価部５０ａに変更した構成を有する。

顔表情解析装置１ａが機械学習モードに設定されているとき、顔表情強度評価部４０ａは、複数の顔表情教師データから得られた各解析領域の画像特徴量を用いて、顔表情ごとに、顔表情強度値を計算するための分類器の機械学習を行う。また、顔表情解析装置１ａが顔表情解析モードに設定されているとき、顔表情強度評価部４０ａは、評価画像データから得られた解析領域の画像特徴量を用い、顔表情評価部５０ａが供給する顔表情種別情報に応じた分類器により顔表情強度値を計算する。
顔表情強度評価部４０ａは、その機能構成として、機械学習部４１ａと、顔表情強度値計算部４２ａとを備える。

顔表情解析装置１ａが機械学習モードに設定されているとき、機械学習部４１ａは、画像特徴量分析部３０が供給する、複数の顔表情教師データから得られた各解析領域の画像特徴量を取り込む。そして、機械学習部４１ａは、第１実施形態と同様に、複数の顔表情教師データ分の画像特徴量についてクラスタ分析（クラスタリング）を実行する。

そして、機械学習部４１ａは、顔表情の種類別に、顔表情教師データの集合における顔表情の度合が最小および最大である顔表情教師データそれぞれに対応する画像特徴量を、クラスタ分析の結果であるクラスタに分類してヒストグラムを生成（クラスタ分類）することにより、顔画像特徴ベクトルを生成する。顔表情の種類が、例えば、怒り、嫌悪、恐れ、喜び、悲しみ、驚きである場合、機械学習部４１ａは、それら６種類の顔表情別に顔画像特徴ベクトルを生成する。

具体的に、機械学習部４１ａは、顔表情の種類別に、顔表情教師データの集合における顔表情の度合が最小および最大である顔表情教師データの上部解析領域に対応する画像特徴量をクラスタに分類する。そして、機械学習部４１ａは、クラスタを階級とし、各クラスタの要素数を頻度とするヒストグラム（第５のヒストグラム）を生成する。また、機械学習部４１ａは、顔表情の種類別に、顔表情教師データの集合における顔表情の度合が最小および最大である顔表情教師データの下部解析領域に対応する画像特徴量をクラスタに分類する。そして、機械学習部４１ａは、クラスタを階級とし、各クラスタの要素数を頻度とするヒストグラム（第６のヒストグラム）を生成する。そして、機械学習部４１ａは、顔表情ごとに、分類結果である第５のヒストグラムと第６のヒストグラムとを連結して解析領域全体に対するヒストグラム（全体ヒストグラム）を生成する。例えば、機械学習部４１ａは、顔表情ごとに、第５のヒストグラムに第６のヒストグラムを連結して全体ヒストグラムを生成する。または、機械学習部４１ａは、顔表情ごとに、第６のヒストグラムに第５のヒストグラムを連結して全体ヒストグラムを生成する。そして、機械学習部４１ａは、各全体ヒストグラムを正規化することにより、顔表情ごとの顔画像特徴ベクトルを生成する。例えば、機械学習部４１ａは、各全体ヒストグラムにおける各階級の頻度を、全階級の頻度の合計値で除算して、顔表情ごとの顔画像特徴ベクトルを生成する。

機械学習部４１ａは、例えば、サポートベクトルマシンによる機械学習を実行し、顔表情の度合が最小である顔画像と、顔表情の度合が最大である顔画像とを分類する境界面（第１の境界面）を顔表情ごとに計算し、これら境界面のデータを顔表情強度値計算部４２ａに供給する。顔表情強度値計算部４２ａは、機械学習部４１ａが供給する顔表情ごとの境界面のデータを取り込み、これら境界面のデータを記憶する。

機械学習部４１ａが顔表情ごとに機械学習を行うことにより、顔表情強度値の精度をより高めることができる。

顔表情解析装置１ａが顔表情解析モードに設定されているとき、顔表情強度値計算部４２ａは、画像特徴量分析部３０が供給する、評価画像データから得られた解析領域の画像特徴量を取り込む。また、顔表情強度値計算部４２ａは、顔表情評価部５０ａが供給する顔表情種別情報を取り込む。そして、顔表情強度値計算部４２ａは、取り込んだ画像特徴量を機械学習部４１ａが実行したクラスタ分析の結果であるクラスタに分類（第１のクラスタ分類処理）して、顔画像特徴ベクトル（第１の顔画像特徴ベクトル）を生成する。そして、顔表情強度値計算部４２ａは、顔表情種別情報に対応する境界面から顔画像特徴ベクトルまでの距離を計算し、この距離の値を顔表情強度値として出力する。また、顔表情強度値計算部４２ａは、顔表情強度値を顔表情評価部５０ａに供給する。

顔表情解析装置１ａが機械学習モードに設定されているとき、顔表情評価部５０ａは、第１実施形態における顔表情評価部５０と同様に、顔表情を分類するための分類器の機械学習を行う。また、顔表情解析装置１ａが顔表情解析モードに設定されているとき、顔表情評価部５０ａは、第１実施形態における顔表情評価部５０と同様に、機械学習された分類器により顔表情を分類して顔表情種別情報を生成する。ただし、顔表情評価部５０ａは、生成した顔表情種別情報を顔表情強度評価部４０ａに供給する。

顔表情評価部５０ａは、その機能構成として、機械学習部５１と、顔表情分類部５２ａとを備える。機械学習部５１は、第１実施形態における機械学習部５１と同等であるため、ここではその説明を省略する。
顔表情解析装置１ａが顔表情解析モードに設定されているとき、顔表情分類部５２ａは、第１実施形態における顔表情分類部５２と同様に顔表情種別情報を生成する。そして、顔表情分類部５２ａは、生成した顔表情種別情報を出力するとともに顔表情強度評価部４０ａに供給する。

［第３の実施の形態］
前述した第１実施形態である顔表情解析装置１を顔表情解析モードに設定し、動画像データを供給して顔表情解析処理を実行させた場合、顔表情解析装置１が生成する、一連のキーフレームそれぞれの顔表情種別情報に、周囲と異なる種類の顔表情種別情報が突発的に現出する場合がある。周囲と異なる種類の顔表情種別情報が突発的に現出する原因は、例えば、人物顔を撮影する際の照明による影やカメラに対する顔の向き等が顔表情に影響したり、顔表情強度値のばらつきが影響したりすることである。
本発明の第３実施形態である顔表情解析装置は、この突発的に現出する顔表情種別情報をノイズとみなして除去する。

本実施形態である顔表情解析装置の構成は第１実施形態と同様であるため、図１のブロック図を参照して以下説明する。
顔表情解析装置１の顔表情強度評価部４０における顔表情強度値計算部４２は、複数フレーム分の画像データを含む区間（時間、フレーム数）ごとに、顔表情強度値の平均を計算し、平均値を当該区間における代表顔表情強度値とする。

また、顔表情解析装置１の顔表情評価部５０における顔表情分類部５２は、上記の区間ごとに、顔表情の種類別に顔表情強度値の総和を計算し、総和値（重要度）が最大となる顔表情の種類（代表顔種別）を示す顔表情種別情報を生成する。

図１０は、顔表情解析装置１の出力結果を模式的に示した図である。同図における上段のグラフは、第１実施形態である顔表情解析装置１に動画像データを供給した場合に、顔表情解析装置１が出力する顔表情強度値を時系列に示したグラフである。このグラフは、横軸を時間軸とし、縦軸を顔表情強度値としている。このグラフが示すように、第１実施形態である顔表情解析装置１が出力する顔表情強度値は、時間経過に対してばらつきがある。

また、このグラフの直下にある△、▲、および□記号（便宜上、顔表情記号と呼ぶ）は、顔表情解析装置１が出力する顔表情種別情報を示す記号であり、グラフの時間軸に対応付けて図示されている。ここでは、△は幸せ、▲は驚き、□は怒りを示す記号である。このグラフ直下の顔表情記号によれば、一連の時間において、幸せを示す顔表情の中に、突発的に驚きや怒りの顔表情が現出している。

また、図１０における下段のグラフは、本実施形態である顔表情解析装置１に動画像データを供給した場合に、顔表情解析装置１が出力する顔表情強度値を時系列に示したグラフである。このグラフも、横軸を時間軸とし、縦軸を顔表情強度値としている。このグラフが示すように、本実施形態である顔表情解析装置１は、複数フレーム（例えば１０フレーム）ごと（Ｔ_１，Ｔ_２，Ｔ_３，・・・）ではあるが、ばらつきを抑えた顔表情強度値を出力することができ、複数の区間を含む時間における顔表情強度値の信頼度を向上させることができる。

また、このグラフの直下の顔表情記号によれば、一連の時間において、突発的な顔表情が現出することなく、安定した顔表情分類の結果が示されている。つまり、本実施形態である顔表情解析装置１は、顔表情強度値の重要度が最大となるように顔表情の分類を行うことによって顔表情のノイズを除去し、顔表情分類の精度を高めることができる。

［第３の実施の形態の変形例］
上述した第３実施形態では、顔表情上解析装置１は、区間ごと（例えば、１０フレームごと）に顔表情強度値および顔表情種別情報を得るものであった。
本発明の第３実施形態の変形例である顔表情解析装置は、上記の区間を時間方向にずらしながら顔表情強度値および顔表情種別情報を得る。
つまり、顔表情強度値計算部４２は、一区間に含まれる複数フレームよりも少ないフレーム数おきに、当該区間をそのフレーム数分ずらし、顔表情強度値の平均を計算し、平均値を当該区間における代表顔表情強度値とする。

また、顔表情分類部５２は、上記の区間ごとに、顔表情の種類別に顔表情強度値の総和を計算し、総和値が最大となる顔表情の種類（代表顔種別）を示す顔表情種別情報を生成する。

図１１は、顔表情解析装置１の出力結果を模式的に示した図である。同図における各グラフは、第３実施形態の変形例である顔表情解析装置１に動画像データを供給した場合に、顔表情解析装置１が出力する顔表情強度値を時系列に示したグラフである。各グラフは、横軸を時間軸とし、縦軸を顔表情強度値としている。時刻ｔ_１、時刻ｔ_２、および時刻ｔ_３は、連続するフレームに対する時刻である。また、時間（ｔ_ｐ＋ｔ_ｆ）は、一区間である。

また、各グラフの直下にある△記号（顔表情記号）は、顔表情解析装置１が出力する顔表情種別情報を示す記号（例えば、幸せを示す）であり、グラフの時間軸に対応付けて図示されている。これらグラフ直下の顔表情記号によれば、連続する時刻ｔ_１、時刻ｔ_２、および時刻ｔ_３それぞれにおいて、安定した顔表情分類の結果が示されている。

図１１における上段のグラフおよび顔表情記号は、時刻（ｔ_１−ｔ_ｐ）から時刻（ｔ_１＋ｔ_ｆ）までの区間を対象として、顔表情強度値計算部４２が代表顔表情強度値を計算し、顔表情分類部５２が代表顔種別を示す顔表情種別情報を生成することを示している。
また、同図における中段のグラフおよび顔表情記号は、時刻（ｔ_２−ｔ_ｐ）から時刻（ｔ_２＋ｔ_ｆ）までの区間を対象として、顔表情強度値計算部４２が代表顔表情強度値を計算し、顔表情分類部５２が代表顔種別を示す顔表情種別情報を生成することを示している。
また、同図における下段のグラフおよび顔表情記号は、時刻（ｔ_３−ｔ_ｐ）から時刻（ｔ_３＋ｔ_ｆ）までの区間を対象として、顔表情強度値計算部４２が代表顔表情強度値を計算し、顔表情分類部５２が代表顔種別を示す顔表情種別情報を生成することを示している。

つまり、図１１によれば、顔表情解析装置１は、ばらつきを抑えて信頼度を向上させた顔表情強度値および安定した顔表情種別情報を、フレームごとに出力することができる。

以上説明したとおり、第１実施形態〜第３実施形態および変形によれば、顔表情解析装置１，１ａは、画像特徴量に対し第１のクラスタ分類処理を実行して第１の顔画像特徴ベクトルを生成し、顔画像特徴ベクトル空間においてあらかじめ決定された第１の境界面から第１の顔画像特徴ベクトルまでの距離である顔表情強度値を計算する顔表情強度評価部４０を備えた。
また、顔表情解析装置１，１ａは、画像特徴量に対し第２のクラスタ分類処理を実行して第２の顔画像特徴ベクトルを生成し、顔画像特徴ベクトル空間においてあらかじめ決定された第２の境界面に対する第２の顔画像特徴ベクトルの位置関係と顔表情強度評価部４０が計算した顔表情強度値とに基づき、解析領域に対応する顔表情種別を示す顔表情種別情報を生成する顔表情評価部５０を備えた。

このように構成したことにより、無表情な顔つきから表情の種類を判別困難な程度の顔つきまでを示す中立的な顔表情（ニュートラル顔表情）を分類することが容易となった。したがって、第１実施形態〜第３実施形態および変形によれば、中立的な顔表情の分類を容易にするとともに、顔表情分類の精度を高めることができる。

なお、第１実施形態〜第３実施形態および変形例では、解析領域決定部２２は、解析領域を二つの解析部分領域に分割する例であった。解析領域の分割数は二つに限られない。すなわち、解析領域決定部２２は、解析領域を分割しなくてもよいし、三つ以上の解析部分領域に分割してもよい。

また、上述した実施形態および変形例における各顔表情解析装置の一部の機能をコンピュータで実現するようにしてもよい。この場合、その機能を実現するための顔表情解析プログラムをコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録された顔表情解析プログラムをコンピュータシステムに読み込ませて、このコンピュータシステムが実行することによって実現してもよい。なお、このコンピュータシステムとは、オペレーティング・システム（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ；ＯＳ）や周辺装置のハードウェアを含むものである。また、コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに備えられる磁気ハードディスクやソリッドステートドライブ等の記憶装置のことをいう。さらに、コンピュータ読み取り可能な記録媒体とは、インターネット等のコンピュータネットワーク、および電話回線や携帯電話網を介してプログラムを送信する場合の通信回線のように、短時間の間、動的にプログラムを保持するもの、さらには、その場合のサーバ装置やクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記の顔表情解析プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。

以上、本発明の実施の形態について図面を参照して詳述したが、具体的な構成はその実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。

１，１ａ顔表情解析装置
１０画像データ取得部
２０顔領域抽出部
２１顔領域検出部
２２解析領域決定部
３０画像特徴量分析部（画像特徴量計算部）
４０，４０ａ顔表情強度評価部
４１，４１ａ機械学習部
４２，４２ａ顔表情強度値計算部
５０，５０ａ顔表情評価部
５１機械学習部
５２，５２ａ顔表情分類部
６０モード切替部

Claims

画像データを取り込む画像データ取得部と、
前記画像データ取得部が取り込んだ前記画像データから顔の解析領域を抽出する顔領域抽出部と、
前記顔領域抽出部が抽出した前記解析領域の画像特徴量を計算する画像特徴量計算部と、
前記画像特徴量計算部が計算した前記画像特徴量に対し第１のクラスタ分類処理を実行して第１の顔画像特徴ベクトルを生成し、顔画像特徴ベクトル空間においてあらかじめ決定された第１の境界面から前記第１の顔画像特徴ベクトルまでの距離である顔表情強度値を計算する顔表情強度評価部と、
前記画像特徴量に対し第２のクラスタ分類処理を実行して第２の顔画像特徴ベクトルを生成し、顔画像特徴ベクトル空間においてあらかじめ決定された第２の境界面に対する前記第２の顔画像特徴ベクトルの位置関係と前記顔表情強度評価部が計算した前記顔表情強度値とに基づき、前記解析領域に対応する顔表情種別を示す顔表情種別情報を生成する顔表情評価部と、
を備えることを特徴とする顔表情解析装置。
前記顔表情評価部は、前記顔表情強度値に基づいて、前記解析領域に対応する顔表情種別がニュートラル顔表情であるか否かを判定し、前記顔表情種別が前記ニュートラル顔表情でないと判定した場合、前記第２の境界面に対する前記第２の顔画像特徴ベクトルの位置関係に基づいて前記顔表情種別情報を生成する
ことを特徴とする請求項１記載の顔表情解析装置。
前記顔表情強度評価部は、前記顔表情評価部が生成した前記顔表情種別情報に対応する境界面から前記第１の顔画像特徴ベクトルまでの距離である前記顔表情強度値を計算する
ことを特徴とする請求項１または２記載の顔表情解析装置。
前記第１の境界面は、顔表情の種類別に、顔表情の度合がそれぞれ異なる顔表情教師データの集合に前記顔表情の種類を示すラベルを対応付けて構成した顔表情教師データ群から取得した複数の顔表情教師データそれぞれの解析領域について画像特徴量を計算し、前記複数の顔表情教師データ分の画像特徴量をクラスタ分析し、前記顔表情の種類ごとの集合における前記顔表情の度合が最小および最大である顔表情教師データそれぞれに対応する画像特徴量を、前記クラスタ分析の結果であるクラスタに分類することによって得られる顔画像特徴ベクトルを適用したサポートベクトルマシンにより計算される
ことを特徴とする請求項１から３いずれか一項記載の顔表情解析装置。
前記第２の境界面は、前記複数の顔表情教師データの全てまたは一部の顔表情教師データそれぞれに対応する画像特徴量を、前記クラスタに分類することによって得られる顔画像特徴ベクトルを適用したサポートベクトルマシンにより計算される
ことを特徴とする請求項４記載の顔表情解析装置。
前記顔領域抽出部は、前記解析領域を複数の解析部分領域に分割し、
前記画像特徴量計算部は、前記複数の解析部分領域それぞれの画像特徴量を計算し、
前記顔表情強度評価部は、前記複数の解析部分領域それぞれの画像特徴量に対して前記第１のクラスタ分類処理を実行し、各分類結果を連結することによって前記第１の顔画像特徴ベクトルを生成し、
前記顔表情評価部は、前記複数の解析部分領域それぞれの画像特徴量に対して前記第２のクラスタ分類処理を実行し、各分類結果を連結することによって前記第２の顔画像特徴ベクトルを生成する
ことを特徴とする請求項１から５いずれか一項記載の顔表情解析装置。
前記顔表情評価部は、複数フレーム分の画像データを含む所定区間ごとに、顔表情種別ごとの顔表情強度値の総和を計算し、総和値が最大となる顔表情種別を示す顔表情種別情報を生成する
ことを特徴とする請求項１から６いずれか一項記載の顔表情解析装置。
前記顔表情評価部は、前記複数フレームよりも少ないフレーム数おきに、前記所定区間を前記フレーム数分ずらす
ことを特徴とする請求項７記載の顔表情解析装置。
コンピュータを、
画像データを取り込む画像データ取得部と、
前記画像データ取得部が取り込んだ前記画像データから解析領域を抽出する顔領域抽出部と、
前記顔領域抽出部が抽出した前記解析領域の画像特徴量を計算する画像特徴量計算部と、
前記画像特徴量計算部が計算した前記画像特徴量に対し第１のクラスタ分類処理を実行して第１の顔画像特徴ベクトルを生成し、顔画像特徴ベクトル空間においてあらかじめ決定された第１の境界面から前記第１の顔画像特徴ベクトルまでの距離である顔表情強度値を計算する顔表情強度評価部と、
前記画像特徴量に対し第２のクラスタ分類処理を実行して第２の顔画像特徴ベクトルを生成し、顔画像特徴ベクトル空間においてあらかじめ決定された第２の境界面に対する前記第２の顔画像特徴ベクトルの位置関係と前記顔表情強度評価部が計算した前記顔表情強度値とに基づき、前記解析領域に対応する顔表情種別を示す顔表情種別情報を生成する顔表情評価部と、
として機能させるための顔表情解析プログラム。