JP2011150381A

JP2011150381A - 表情識別器作成装置，表情識別器作成方法，表情認識装置，表情認識方法およびそれらのプログラム

Info

Publication number: JP2011150381A
Application number: JP2010008650A
Authority: JP
Inventors: Yasuhiko Miyazaki; 泰彦宮崎; Takeshi Irie; 豪入江; Akira Kojima; 明小島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-01-19
Filing date: 2010-01-19
Publication date: 2011-08-04
Anticipated expiration: 2030-01-19
Also published as: JP5234833B2

Abstract

【課題】意図的に作った顔ではなく，自然な顔表情の学習データを効率よく収集し，認識精度のよい識別器を作成する。
【解決手段】サンプル画像データ検索部１１により，インターネット等に公開されている画像データのうち，特定の表情との関連性が非常に高いキーワードをタグ情報として持つ画像データを検索し，そのデータの中から実際に人物の顔を一定の条件で含む画像データを収集し，そのデータの顔領域から，特徴量算出部１３により画像特徴量を算出し，識別器作成部１４によって画像特徴量を機械学習することによって，表情識別器２４を作成する。
【選択図】図１

Description

本発明は，画像データ内に存在する人物の顔の表情を認識するための識別器を自動的に効率よく作成することを可能にする技術，および，その技術を利用して与えられた画像内から人物の顔の表情を自動的に認識することを可能にする技術に関するものである。

画像解析技術の分野において，表情に限らず，画像データを解析することによって自動的にそこに写っている何らかの情報を自動的に取得する方法としては，予め正解ラベルを付与されたサンプルデータを用意しておき，それを学習用のデータとして使用する方法が多く知られている。例えば，特許文献１の技術により，画像データ内から特定のパターンを認識することが可能であるが，この技術においても，学習画像データが必要となる。実際，特許文献１のような従来技術によって，非特許文献３にあるように，画像データ内に存在する人物の顔を認識することが，「各方向におけるさまざまな人物の画像を収集し，それらを学習することにより」可能になる（非特許文献３の第１８頁）。

パターン認識ではなく，画像データを解析することによって自動的に分類を行い，その分類結果を「ラベル」として出力する方法も知られている。これらの方法の多くに共通するアプローチは，次のようになる。

まず，画像データを解析することによって得られる何らかの多次元の数値的な情報（これを一般に特徴量という）を取得する。また，予め人手等により正解ラベルを付与されたサンプルデータを用意しておき，これらのサンプルデータに適用して統計的な処理（機械学習とも呼ばれる）を行っておくことで，特徴量からラベルに変換するための処理モジュール（識別器や検出器とも呼ばれる）を構築する。このことにより，正解ラベルが未知の対象画像データに対しても，同じ特徴量を取得してその特徴量を識別器にかけることで，情報を表すラベルが出力される。

表情の認識（分類）に関しても同様の技術が適用可能である。例えば，非特許文献２では，特徴量として，目じり，鼻の頭，唇の端などの顔の決められた３４箇所の位置において，Gabor Waveletsを適用することによって得られる数値を利用することで，（happiness, sadness, surprise, anger, disgust, fear）という表情に分類できることが記載されている。

また，非特許文献１では，さらに簡易化し，６４箇所の画像上の格子点において，同じく Gaborフィルター（Gabor Waveletsと同義）を適用して得られる特徴量を，ニューラルネットワークによって構築できる分類器にかけることで，笑顔（smile/laughter）か否かを出力する技術が記載されている。

なお，非特許文献４には，顔面表情に焦点をあて，意図的表出条件および自発的表出条件下における表情の動的変化に関して分析した結果が記載されている。

特開２００８−２８７６５２号公報

Uwe Kowalik 他，「Creating joyful digests by exploiting smile/laughter facial expressions present in video」，International Workshop on Advanced Image Technology(2009)． Michael Lyons 他，「Coding Facial Expressions with Gabor Wavelets 」，Proceedings, Third IEEE International Conference on Automatic Face and Gesture Recognition(1998)．杵渕他，「画像処理による広告効果測定技術」，ＮＴＴ技術ジャーナル，2009.7，P.16-19 ．内田英子他，「高速度カメラを用いた顔面表情の動的変化に関する分析」，電子情報通信学会技術研究報告. ＨＩＰ，ヒューマン情報処理 99(722), pp.1-6(2000)．

上述したような方法により，何らかの情報を認識する場合，学習のためのサンプルとなる正解データの収集が重要となる。

例えば，非特許文献３にあるような「顔領域」の認識において，必要なデータを収集するためには，複数人の被験者に依頼し，各方向からの顔写真を撮影するといったことが必要になる。この場合には，撮影手順などをきちんと整備しておくといった工夫により，１件あたりの正解サンプルデータの作成は，短時間で行うことができる。

しかしながら，上記のような方法により表情認識をする場合，サンプルとなる正解データを集めることが困難である。非特許文献４などによると，「意図的な表情」と「自発的な表情」は異なると言われているのに対し，例えば，非特許文献２の例では，被験者がカメラの前でそれぞれ指示された表情を作って（しかも，ややオーバーに作って）撮影したデータが使われている。このように，「表情認識用の学習サンプルデータ」を効率よく集めようとすると，被験者にその目的を伝え短時間になるべく多くの表情を作ってもらうといった方法をとる必要があり，必然的に「意図的な表情」となってしまう。

一方で，「自発的な表情」を含む学習用のサンプルデータを集めることは容易ではない。実際，非特許文献４でも，一人当たりの被験者に対して，長時間をかけてデータを収集しており，このような方法では多人数の被験者のデータを集めることは非常に難しい。

本発明は，以上の課題を解決し，顔表情を認識するための学習データの収集を効率よく行い，特に意図的に作った顔ではなく，自然な顔表情の画像を短時間で多数収集し，認識精度のよい識別器の作成と表情認識を実現できるようにすることを目的とする。

上記課題を解決するために，本発明は，インターネット等に公開されている画像データのうち，特定の表情との関連性が非常に高いキーワードを，タグ情報として持つ画像データを検索し，そのデータの中から実際に人物の顔を一定の条件で含んでいる画像データを収集し，そのデータの顔領域から画像特徴量を算出し，算出された画像特徴量を機械学習することによって，表情認識用の識別器を生成する。

さらに，生成された識別器を用い，与えられた画像データから，顔領域を抽出し，抽出された顔領域の画像特徴量を算出し，算出された画像特徴量を，この識別器にかけることで，表情分類結果のラベルを出力する。

詳しくは，本発明は，画像データ内に存在する人物の顔の表情を認識するための識別器を作成する表情識別器作成装置であって，与えられたキーワードに対し，ネットワーク上で公開された画像データから，その画像データに関連付けられたキーワードが前記与えられたキーワードと一致する画像データを検索する機能を持つサンプル画像データ検索部と，検索された画像データから，人物の顔と推定される画像内の領域を抽出し，その領域が予め決められた条件に合致するものを出力する機能を持つ顔検出部と，出力された顔領域の画像データから多次元の数値データからなる特徴量を計算により求める特徴量算出部と，求められた特徴量を教師データとして機械学習によって識別器を作成する識別器作成部とを備えることを特徴とする。

例えば，特徴量算出部における特徴量の算出では，ガボールフィルタ等を利用することができる。

さらに，本発明は，上記の表情識別器作成装置において，前記サンプル画像データ検索部は，笑顔に関連するキーワードを与えることによって，笑顔を多く含む画像データを検索する機能を持ち，前記識別器作成部は，笑顔を識別するための表情識別器を作成するように構成することができる。

また，本発明は，上記の表情識別器作成装置において，前記サンプル画像データ検索部は，さらに，笑顔以外の表情に関連するキーワードを与えることによって，笑顔が多く含まれない画像データを検索する機能を持ち，前記識別器作成部は，笑顔を多く含む画像データから得られた特徴量と，笑顔が多く含まれない画像データから得られた特徴量との統計的な分布の差を探索する機械学習によって，笑顔であるか否かを判定する表情識別器を作成するように構成することができる。

また，本発明は，上記の表情識別器作成装置において，前記サンプル画像データ検索部は，笑顔，怒り顔，驚き顔または泣き顔に関連する特定の表情に関するキーワードを与えることによって，前記特定の表情を多く含む画像データを検索する機能を持つとともに，顔や人物に関連するキーワードを条件とし，かつ前記特定の表情に関するキーワードに関連付けられていないという条件を付加することによって，前記特定の表情が多く含まれない画像データを検索する機能を持ち，前記識別器作成部は，前記特定の表情を多く含む画像データから得られた特徴量と，前記特定の表情が多く含まれない画像データから得られた特徴量との統計的な分布の差を探索する機械学習によって，前記特定の表情であるか否かを判定する表情識別器を作成するように構成することができる。

また，第２の本発明は，与えられた画像内から人物の顔の表情を自動的に認識する表情認識装置であって，表情の認識対象となる画像データを取得する画像データ取得部と，取得された画像データから，人物の顔と推定される画像内の領域を抽出する顔検出部と，抽出された顔領域の画像データから多次元の数値データからなる特徴量を計算により求める特徴量算出部と，上記の表情識別器作成装置によって作成された表情識別器とを備え，前記特徴量算出部は，前記表情識別器作成装置における表情識別器の作成に用いた特徴量の算出方法と同じ算出方法を用いて顔領域の画像データから特徴量を算出し，算出した特徴量を前記表情識別器の入力として前記表情識別器に表情の識別結果を出力させることを特徴とする。

本発明により，多くの自発的表情を含むサンプル画像データを使用した識別器を効率的に作成することが可能となる。さらに，そのようにして生成された識別器を利用して，自発的表情についても，より精度よく認識することが可能となる。

本発明の実施例に係る装置の全体構成図である。サンプル画像データ検索部の処理フローチャートである。顔検出部の処理フローチャートである。

以下，図面を用いて，本発明の実施の形態を詳細に説明する。

図１は，本発明の実施例に係る装置の全体構成図である。図中，１０はＣＰＵやメモリ等によって構成される表情識別器作成装置であり，サンプル画像データ検索部１１，サンプル画像の顔検出部１２，特徴量算出部１３，識別器作成部１４を備える。また，２０は表情認識装置であり，画像データ取得部２１，入力画像の顔検出部２２，特徴量算出部１３，表情識別器２４を備える。サンプル画像データ３０は，表情識別器２４の作成に用いる学習用のデータであり，入力画像３１は，表情識別対象となる画像である。表情ラベル３２は，入力画像３１中の表情の認識結果を示す情報である。

〔第１の実施例〕
まず，表情識別器作成装置１０の実施例について述べる。初めに，サンプル画像データ検索部１１の実施例について述べる。

現在では，画像共有サイトとして知られているインターネット上のサーバが多く存在している。これらのサーバでは，インターネット上のユーザが，ブラウザ端末より画像データをアップロードすることによって，自由に画像データを登録できる。さらに，その際にその画像データを表すキーワード情報（タグと呼ばれる）をアップロードするユーザにより，複数登録することが一般的である。これらのサイトでは，登録されたタグと画像データとの関連をサイト内のデータベースに格納する。これらのサイトに対し，キーワードを指定することにより，そのキーワードと一致するタグを持つ画像データを検索することができ，実際にそのようなことがインターネットを通じてブラウザから操作可能となっている。

ブラウザから操作可能であるということは，特定のＵＲＬ（Uniform Resource Locator）に対して，特定のパラメータ指定をして標準化されたＨＴＴＰプロトコルを使用してアクセスすることで，結果を表すためのレスポンスが，標準化されたＨＴＭＬ等の形式で返却され，その中の特定のＨＴＭＬタグに，実際の画像データ（あるいはそのＵＲＬ）が埋め込まれているということである。このため，ブラウザを使って人手で操作することなく，同様の動作を行うソフトウェアモジュールを構築することは可能である。本実施例におけるサンプル画像データ検索部１１は，インターネットに接続された計算機上に実装された，このようなモジュールにより実施できる。

なお，検索のためのＵＲＬのパラメータ指定方法や，検索結果のＨＴＭＬの解析方法は，それぞれの画像共有サイトで異なる。そのため，図２に示すようにすることで，複数の画像共有サイトから検索することができる。

図２は，サンプル画像データ検索部１１の処理フローチャートである。まず，ステップＳ１０では，検索の条件として表情などを表すキーワードを指定する。このキーワードは，予めテーブル化して記憶しておいてもよいし，識別器の作成者に入力させるようにしてもよい。ここで，検索の条件としては，指定したキーワードと，画像に付与されたタグの１つが「一致する」という条件だけでなく，「キーワードＫ１を含み，キーワードＫ２を含まない」といった条件での検索も通常可能である。実際，画像共有サイトがそのようなデータベース検索機能を公開していることもあるし，あるいは画像に付与されたタグ情報一覧を取得できるのであれば，検索した結果の画像データからキーワードＫ２を含むデータを除外すればよい。また，辞書データベースを利用することによって，「他言語での表現（例：「スマイル」と「smile 」）」などでの検索も可能である。

ステップＳ１１では，例えば複数の動画共有サイトＡ，Ｂの画像データを収集するとすると，各動画共有サイトＡ，Ｂごとに用意した検索モジュールを呼び出す。動画像共有サイトＡの検索モジュールでは，まず，ステップＳ１２ａによって，動画共有サイトＡの検索要求ＵＲＬを組み立てる。次に，ステップＳ１３ａでは，組み立てたＵＲＬを用いて，その動画共有サイトＡへＨＴＴＰリクエストを送る。ステップＳ１４ａでは，動画共有サイトＡからのＨＴＴＰレスポンスを受信し，ステップＳ１５ａでは，動画共有サイトＡからのＨＴＴＰレスポンスに含まれるＨＴＭＬを解析して画像データを取得する。

動画共有サイトＢに対しても同様に，動画共有サイトＢの検索モジュールによるステップＳ１２ｂ〜Ｓ１５ｂを実行して，動画共有サイトＢが保持する画像データのうち，キーワードで指定した検索条件に合致する画像データを取得する。

ステップＳ１６では，動画共有サイトＡ，Ｂから取得した全画像データをまとめて，サンプル画像の顔検出部１２へ出力する。

以上のような構成により，具体例としては，次のようなサンプル画像データを検索することが可能となる。

（１）［例１］：「笑顔」または「スマイル」または「smile 」または「laugh 」というタグを持つ笑顔サンプル画像データの取得。

（２）［例２］：「顔」または「表情」というタグを持ち，「笑顔」「スマイル」「smile 」「laugh 」のいずれのタグも持たない，非笑顔サンプル画像データの取得。

（３）［例３］：［例１］の笑顔サンプル画像データに加え，その他のサンプル画像データの取得。怒り顔，驚き顔，泣き顔の表情などのサンプル画像データを取得。例えば，怒り顔サンプル画像データは，「怒り」または「anger 」というタグを持つものとし，驚き顔サンプル画像データは，「驚き」または「びっくり」または「surprise」とうタグを持つものとし，泣き顔サンプル画像データは，「悲しい」または「涙」または「泣き顔」または「sadness 」または「sad 」または「tear」というタグを持つものとする。

なお，上記の例において特定の表情を持たないサンプル画像データを取得するにあたっては，一般的な顔や人物に関連するタグを含み，特定の表情に関連するタグを含まないというような条件を，複数のキーワードのＡＮＤ結合およびＯＲ結合によって指定すればよい。

サンプル画像の顔検出部１２の処理フローを，図３に示す。まず，ステップＳ２０では，サンプル画像データ検索部１１で検索した画像データの一つを取得する。次に，ステップＳ２１では，取得した画像データを解析し，顔と推定される画像領域を求める。ここで顔と推定される画像領域を求めるにあたっては，例えば非特許文献３にあるような顔の学習データを用意して，特許文献１の方法を用いればよい。他にも，ＯｐｅｎＣＶなどとして知られているプログラムを利用してもよい（http://opencv.jp/sample/object＿detection.html）。

ステップＳ２２では，顔と推定される画像領域が求まったかどうかを判定し，求まらなかった場合には，その画像データを棄却して処理を終了し，次の画像データについて，同様な顔の画像領域の検出処理に移る。

顔と推定される画像領域が求まった場合，ステップＳ２３に進み，その画像領域が所定の条件を満たすかどうかを判定する。条件を満たさない場合には，その画像データを棄却して処理を終了する。このステップＳ２３で判定する条件は，例えば「抽出された領域数が１であり，かつ，抽出された領域の面積が，元画像データの面積の１０％以上」といった条件にすることが好適である。その効果については後述する。なお，「元画像データの面積の１０％以上」といった条件については，ステップＳ２１において検査することも可能である。すなわち，特許文献１などの技術によって画像内のパターンを認識する場合，さまざまな大きさに関するパターン適合検査を繰り返すといった処理が行われることが多いのであるが，決められた大きさ以外の結果を利用しないのであれば，そのような大きさでのパターン適合検査を略すことによって，ステップＳ２１の処理を，より高速にすることができる。

条件を満たす場合，ステップＳ２４では，元画像データから顔と推定される画像領域の画像を切り出して，予め定められた標準形式に変換し出力する。ここでは，例えば抽出領域を「１２８×１２８ピクセルの８ｂｉｔグレースケール画像」にするというような処理を行う。このような変換を可能とする画像処理ライブラリは，近年数多く用いられている。

特徴量算出部１３としては，非特許文献２や非特許文献３に記載されているような，Gabor Wavelet （ガボールフィルタ）などを利用した特徴量を算出する処理モジュールを使用すればよい。

識別器作成部１４は，サンプル画像データ検索部１１の実施方法に応じて，次のように実施することができる。

表情識別器２４は，画像の特徴量に基づいて，タグを識別するためのモデルであり，前述した［例１］〜［例３］にあるような，タグ付きの画像データから統計的に得るものである。以下，各例に対する表情識別器２４の生成例を説明する。以降，ある画像ｉの特徴量をｘ_i，それに付随するタグが表す表情をｙ_iと表す。

まず，サンプル画像データ検索部１１として，［例１］のようなデータのみを取得するような実施方法の場合について説明する。この例の場合，得られているのは，笑顔を表すタグを持つ画像データだけであるため，識別器作成部１４としては，生成モデルと呼ばれる，同時確率分布ｐ（ｘ_i，ｙ_i）によってモデルを生成し，これを表情識別器として用いる。タグは笑顔を表す「笑顔」や「smile 」などであるので，これらのタグを全て“笑顔”という表情であるとみなせば，生成される生成モデルはｐ（ｘ_i；ｙ_i＝ "笑顔" ）となる。

生成モデルｐ（ｘ_i；ｙ_i＝ "笑顔" ）は，通常同時確率分布であるが，どのような同時確率分布を用いても構わない。例えば，正規分布，混合正規分布，probabilistic latent semantic analysis（ｐＬＳＡ）やlatent Dirichlet allocation （ＬＤＡ）などの確率分布が代表的である。

通常，確率分布はパラメータを持つため，これらのパラメータを画像データ群から推定する必要がある。仮に，ｎ枚のタグ付き画像データ｛ｘ_i，ｙ_i＝ "笑顔" ｜ｉ＝１，２，…，ｎ｝があるとしよう。例えば，（多変量）正規分布の場合を考えよう。

ここで，下添字ｙ_i＝ "笑顔" 付きのφは，タグｙ_iが笑顔である画像の特徴量ｘ_iが従う多変量正規分布を表し，μは平均値ベクトルを表し，Σは分散共分散行列を表す。パラメータは，μとΣの二つである。この場合には，以下の尤度を最大化する最尤推定法によってパラメータである平均と分散共分散行列を推定できる。

また，混合正規分布やｐＬＳＡの場合には，期待値最大化（Expectation-Maximization：ＥＭ）法，ＬＤＡの場合には，変分ベイズ法やマルコフ連鎖モンテカルロ法（ＭＣＭＣ法）によって，パラメータを推定することができる。例えば，ＥＭ法は下記の参考文献１に，変分ベイズ法は参考文献２に，ＭＣＭＣ法は参考文献３に記載されている。

［参考文献１］：A.P. Dempster; N. M. Laird; D. B. Rubin,“Maximum Likelihood from Incomplete Data via the EM Algorithm, ” Journal of the Royal Statistical Society. Series B, Vol. 39, No. 1., pp.1-38, 1977.
［参考文献２］：H. Attias,“Inferring parameters and structure of latent variable models by variational bayes,” Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence, pp. 21-30, 1999.
［参考文献３］：S. Geman, and D. Geman“Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Issue 6, pp.721-741, 1984.
結果として，［例１］で取得した画像データを用いた場合には，「笑顔らしさ」を識別する表情識別器が生成される。

実際に新たな画像データｊが得られたとして，これを識別する際には，まず，画像データｊの特徴量ｘ_jを抽出したのち，この同時確率ｐ（ｘ_j；ｙ_j＝ "笑顔" ）を求める。この確率値が，ある閾値以上であった場合に笑顔であると識別することになる。

次に，［例１］に加えて，［例２］のようなサンプル画像データを取得するような実装方法の場合，笑顔と非笑顔を識別するような識別モデルを生成するものとすればよい。［例１］の場合のように，笑顔のみの画像データから生成モデルを得るよりも，［例１］および［例２］の両方を使い，笑顔と非笑顔を積極的に識別する（分ける）ような識別モデルを得るほうが，より高い精度を得ることができる。

識別モデルは，ｐ（ｙ_i｜ｘ_i）として表現できる。すなわち，ある画像データｉの特徴量ｘ_iが与えられたもとでの，タグｙ_iが出現する確率である。具体例としては，例えば，線形判別関数，ロジスティック回帰関数，ニューラルネットワーク，サポートベクトルマシン（support vector machine：ＳＶＭ），カーネル回帰関数など，様々なものが利用できる。いずれの識別モデルにおいても，パラメータを持つ。

例えば，線形判別関数，ロジスティック回帰関数，ニューラルネットワークなどについては，最小二乗誤差規範やエントロピー最大化規範などの目的関数を，データに基づいて最小化するようにパラメータを最適化する。最適化では，線形最適化，あるいは勾配法などの非線形最適化法などの公知の方法を用いればよい。また，ＳＶＭやカーネル回帰関数などについては，カーネルトリックを介したマージン最大化規範を，主双対内点法などの公知の方法で最適化すればよい。さらに，これらの識別モデルを，ブースティングと呼ばれる手法によって統合して用いてもよい。

結果として，［例１］および［例２］のサンプル画像データを用いた場合には，「笑顔であるか否か」を分類するための表情識別器が作成される。

次に，［例１］と［例３］のような，複数の表情のサンプル画像データを取得するような実装方法の場合，識別器作成部１４としては，［例２］のときに挙げた識別モデルを，複数生成する。

例えば，笑顔，怒り顔，驚き顔の３種の場合を考える。このときは，表情識別器を３つ用意し，それぞれ，笑顔であるか否か，怒り顔であるか否か，驚き顔であるか否かを独立に識別するものとする。各表情識別器は，［例２］で説明した生成法をそのまま適用して生成することができる。表情の種類が増減した場合でも，同様に表情識別器を生成すればよい。

結果として，この場合には，予め決めたいくつかの表情分類の１つとして分類するための表情識別器が作成される。

識別を行う際には，最も識別モデルの確率値ｐ（ｙ_i｜ｘ_i）が高かった表情に分類するものとすればよい。また，ニューラルネットワークなど，出力を複数取ることのできる関数の場合には，対象とする全ての表情の確率値を一括で出力するように表情識別器生成を行うものとしてもよい。

ここで，本実施例における効果について述べる。画像共有サイトとして知られているインターネット上のサーバには，現在，非常に大量の画像データがタグデータと共に蓄えられている。例えば，１つの大手画像共有サイト（http://www.flickr.com ）で「smile 」というタグを持ったデータを検索すると，一般に公開されている画像データだけでも，２百万を超えるデータが検索される。それらのデータのほとんどは，通常の状況で撮影された画像であり，すなわち，被写体となっている人物の表情には，自発的な表情であるものが大量に存在する。

一方で，このような画像データには，当然ながら，人物の特定の表情のみに着目してアップロードおよびタグ付けをしたデータではないものも数多く含まれる。例えば，ペット（動物）の「smile 」であったり，smile マークと呼ばれるロゴマークであったり，たまたま撮影した風景がまるで笑った顔のようにも見えるという趣旨の画像であったり，といった画像も「smile 」というタグを持つ画像データには含まれる。

あるいは，人物の笑顔であっても，顔のごく一部（目や口など）のみを極端にクローズアップしたものや，集合写真のように個々の顔が小さく不鮮明なものも含まれる。特に，複数の被写体が写っている場合には，１人のみが「smile 」で他は別の表情をしている可能性もある。以上のようなデータは，表情認識用のサンプル正解データとしては不適切となってしまう。

そこで，本実施例では，これらタグ情報によって検索された画像データに対して，顔検出処理を行う。予め「人物の顔」を学習データとした特許文献１のパターン認識技術などを適用することにより，「人物の顔」のパターンに適合しない動物やロゴマークや一部分のみの顔のデータは排除することができる。さらに，「抽出された領域数が１であり，かつ，抽出された領域の面積が，元画像データの面積の１０％以上」といった条件を付加することにより，「ある特定の１人の人物のみで，それなりに顔が大きく写った画像」に絞り込むことができる。このように絞り込んでも，依然として，非特許文献４にあるような方法より簡易にかつ大規模に「自発的な表情をした顔画像サンプルデータ」を取り出すことができる。

特に，このような条件を満たす構図の画像は，その特定の１人の人物を主な被写体として撮影されたものと考えることができ，そのような画像データに対して付与されるタグには，当然その特定の人物の表情を示唆するキーワードが含まれることが多い。もちろん，このことは絶対的に成立する条件ではなく，例えば，泣き顔の画像に対して，もっと笑ってほしいという願いをこめてわざと「smile 」というタグをつける可能性はゼロではない。しかしながら，そのようなデータの比率は小さく，また本実施例では，得られたサンプルデータを主に統計的な理論に基づいた機械学習の方法で処理を行うため，そのようなデータが一部に混入していたとしても，結果として有意な「表情識別器」が生成される。

〔第２の実施例〕
次に，表情認識装置２０の実施例について述べる。表情認識装置２０は，与えられた入力画像３１に写っている人物の表情を認識し，その認識結果を表情ラベル３２として出力する装置であり，図１に示すような構成で実現できる。

画像データ取得部２１は，表情を判定したい画像データを取得する機能を持つ。具体的には，例えば，本装置の操作者がパラメータとして与えた画像データファイル名をとり，そのファイルをオープンして画像データを取り出すといった機能を持つソフトウェアモジュールによって実現できる。あるいは，ＵＲＬ形式で指定することによって，標準化されたＨＴＴＰプロトコルにより画像データを取り出すようなモジュールでもよい。あるいは，カメラ等のデバイスを取り付け，本装置の操作者の何らかの操作をトリガーとして，カメラからの画像情報を取り込むようなモジュールであってもよい。

入力画像の顔検出部２２は，第１の実施例と同様の方法（図３）により実施できる。ただし，この場合には，図３のステップＳ２３の条件をより緩和したほうが好適となる。例えば，認識された領域数には制限を設けず，大きさに関しても，３２×３２ピクセル以上といった条件としたほうがよい。そのほうが，複数人数が写っている画像データや顔がやや小さめに写っている画像データに対しても，各人の表情認識を行うことができる。

特徴量算出部１３は，第１の実施例と同じ処理機能を使用する。算出される特徴量に差異があると表情識別器が適切な結果ラベルを出力することができない。同一であることを示すために，図１では一つのコンポーネントとして記載してある。もちろん，同一の処理機能を持つモジュールをそれぞれに用意してもよい。

表情識別器２４としては，第１の実施例で述べた表情識別器作成装置１０によって，実際に作成された表情識別器を使用する。すなわち，表情識別器２４は，適切な「学習」過程を経た機械学習の処理モジュールとなり，このモジュールは入力値となる特徴量を，推定された結果値である表情ラベル３２に変換し，出力する。第１の実施例で述べたように，学習されたモデルに従って，
・「笑顔らしさ」，
・「笑顔であるか否か」，
・「笑顔，怒り顔，驚き顔のいずれか」，
というような情報が出力される。

以上の表情識別器作成および表情認識の処理は，コンピュータとソフトウェアプログラムとによって実現することができ，そのプログラムをコンピュータ読み取り可能な記録媒体に記録することも，ネットワークを通して提供することも可能である。

図１では，表情認識装置２０の中に表情識別器作成装置１０が組み込まれている状態の装置構成例を示しているが，これらを同一のコンピュータで実現することもでき，また，異なるコンピュータで別々に実現することもできる。

１０表情識別器作成装置
１１サンプル画像データ検索部
１２サンプル画像の顔検出部
１３特徴量算出部
１４識別器作成部
２０表情認識装置
２１画像データ取得部
２２入力画像の顔検出部
２４表情識別器
３０サンプル画像データ
３１入力画像
３２表情ラベル

Claims

画像データ内に存在する人物の顔の表情を認識するための識別器を作成する表情識別器作成装置であって，
与えられたキーワードに対し，ネットワーク上で公開された画像データから，その画像データに関連付けられたキーワードが前記与えられたキーワードと一致する画像データを検索する機能を持つサンプル画像データ検索部と，
検索された画像データから，人物の顔と推定される画像内の領域を抽出し，その領域が予め決められた条件に合致するものを出力する機能を持つ顔検出部と，
出力された顔領域の画像データから多次元の数値データからなる特徴量を計算により求める特徴量算出部と，
求められた特徴量を教師データとして機械学習によって識別器を作成する識別器作成部とを備える
ことを特徴とする表情識別器作成装置。
請求項１記載の表情識別器作成装置において，
前記サンプル画像データ検索部は，笑顔に関連するキーワードを与えることによって，笑顔を多く含む画像データを検索する機能を持ち，
前記識別器作成部は，笑顔を識別するための表情識別器を作成する
ことを特徴とする表情識別器作成装置。
請求項２記載の表情識別器作成装置において，
前記サンプル画像データ検索部は，さらに，笑顔以外の表情に関連するキーワードを与えることによって，笑顔が多く含まれない画像データを検索する機能を持ち，
前記識別器作成部は，笑顔を多く含む画像データから得られた特徴量と，笑顔が多く含まれない画像データから得られた特徴量との統計的な分布の差を探索する機械学習によって，笑顔であるか否かを判定する表情識別器を作成する
ことを特徴とする表情識別器作成装置。
請求項１記載の表情識別器作成装置において，
前記サンプル画像データ検索部は，笑顔，怒り顔，驚き顔または泣き顔に関連する特定の表情に関するキーワードを与えることによって，前記特定の表情を多く含む画像データを検索する機能を持つとともに，顔や人物に関連するキーワードを条件とし，かつ前記特定の表情に関するキーワードに関連付けられていないという条件を付加することによって，前記特定の表情が多く含まれない画像データを検索する機能を持ち，
前記識別器作成部は，前記特定の表情を多く含む画像データから得られた特徴量と，前記特定の表情が多く含まれない画像データから得られた特徴量との統計的な分布の差を探索する機械学習によって，前記特定の表情であるか否かを判定する表情識別器を作成する
ことを特徴とする表情識別器作成装置。
コンピュータが，画像データ内に存在する人物の顔の表情を認識するための識別器を作成する表情識別器作成方法であって，
与えられたキーワードに対し，ネットワーク上で公開された画像データから，その画像データに関連付けられたキーワードが前記与えられたキーワードと一致する画像データを検索するサンプル画像データ検索過程と，
検索された画像データから，人物の顔と推定される画像内の領域を抽出し，その領域が予め決められた条件に合致するものを出力する顔検出過程と，
出力された顔領域の画像データから多次元の数値データからなる特徴量を計算により求める特徴量算出過程と，
求められた特徴量を教師データとして機械学習によって識別器を作成する識別器作成過程とを有する
ことを特徴とする表情識別器作成方法。
与えられた画像内から人物の顔の表情を自動的に認識する表情認識装置であって，
表情の認識対象となる画像データを取得する画像データ取得部と，
取得された画像データから，人物の顔と推定される画像内の領域を抽出する顔検出部と，
抽出された顔領域の画像データから多次元の数値データからなる特徴量を計算により求める特徴量算出部と，
請求項１から請求項４までのいずれか１項に記載された表情識別器作成装置によって作成された表情識別器とを備え，
前記特徴量算出部は，前記表情識別器作成装置における表情識別器の作成に用いた特徴量の算出方法と同じ算出方法を用いて顔領域の画像データから特徴量を算出し，算出した特徴量を前記表情識別器の入力として前記表情識別器に表情の識別結果を出力させる
ことを特徴とする表情認識装置。
コンピュータが，与えられた画像内から人物の顔の表情を自動的に認識する表情認識方法であって，
表情の認識対象となる画像データを取得する画像データ取得過程と，
取得された画像データから，人物の顔と推定される画像内の領域を抽出する顔検出過程と，
抽出された顔領域の画像データから多次元の数値データからなる特徴量を計算により求める特徴量算出過程と，
請求項１から請求項４までのいずれか１項に記載された表情識別器作成装置によって作成された表情識別器に前記特徴量を入力して表情を識別する表情識別過程とを有し，
前記特徴量算出過程では，前記表情識別器作成装置における表情識別器の作成に用いた特徴量の算出方法と同じ算出方法を用いて顔領域の画像データから特徴量を算出し，算出した特徴量を前記表情識別器の入力として，前記表情識別器に表情の識別結果を出力させる
ことを特徴とする表情認識方法。
請求項５に記載された表情識別器作成方法を，コンピュータに実行させるための表情識別器作成プログラム。
請求項７に記載された表情認識方法を，コンピュータに実行させるための表情認識プログラム。