JP2011150381A - 表情識別器作成装置,表情識別器作成方法,表情認識装置,表情認識方法およびそれらのプログラム - Google Patents

表情識別器作成装置,表情識別器作成方法,表情認識装置,表情認識方法およびそれらのプログラム Download PDF

Info

Publication number
JP2011150381A
JP2011150381A JP2010008650A JP2010008650A JP2011150381A JP 2011150381 A JP2011150381 A JP 2011150381A JP 2010008650 A JP2010008650 A JP 2010008650A JP 2010008650 A JP2010008650 A JP 2010008650A JP 2011150381 A JP2011150381 A JP 2011150381A
Authority
JP
Japan
Prior art keywords
image data
facial expression
classifier
feature amount
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010008650A
Other languages
English (en)
Other versions
JP5234833B2 (ja
Inventor
Yasuhiko Miyazaki
泰彦 宮崎
Takeshi Irie
豪 入江
Akira Kojima
明 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010008650A priority Critical patent/JP5234833B2/ja
Publication of JP2011150381A publication Critical patent/JP2011150381A/ja
Application granted granted Critical
Publication of JP5234833B2 publication Critical patent/JP5234833B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】意図的に作った顔ではなく,自然な顔表情の学習データを効率よく収集し,認識精度のよい識別器を作成する。
【解決手段】サンプル画像データ検索部11により,インターネット等に公開されている画像データのうち,特定の表情との関連性が非常に高いキーワードをタグ情報として持つ画像データを検索し,そのデータの中から実際に人物の顔を一定の条件で含む画像データを収集し,そのデータの顔領域から,特徴量算出部13により画像特徴量を算出し,識別器作成部14によって画像特徴量を機械学習することによって,表情識別器24を作成する。
【選択図】図1

Description

本発明は,画像データ内に存在する人物の顔の表情を認識するための識別器を自動的に効率よく作成することを可能にする技術,および,その技術を利用して与えられた画像内から人物の顔の表情を自動的に認識することを可能にする技術に関するものである。
画像解析技術の分野において,表情に限らず,画像データを解析することによって自動的にそこに写っている何らかの情報を自動的に取得する方法としては,予め正解ラベルを付与されたサンプルデータを用意しておき,それを学習用のデータとして使用する方法が多く知られている。例えば,特許文献1の技術により,画像データ内から特定のパターンを認識することが可能であるが,この技術においても,学習画像データが必要となる。実際,特許文献1のような従来技術によって,非特許文献3にあるように,画像データ内に存在する人物の顔を認識することが,「各方向におけるさまざまな人物の画像を収集し,それらを学習することにより」可能になる(非特許文献3の第18頁)。
パターン認識ではなく,画像データを解析することによって自動的に分類を行い,その分類結果を「ラベル」として出力する方法も知られている。これらの方法の多くに共通するアプローチは,次のようになる。
まず,画像データを解析することによって得られる何らかの多次元の数値的な情報(これを一般に特徴量という)を取得する。また,予め人手等により正解ラベルを付与されたサンプルデータを用意しておき,これらのサンプルデータに適用して統計的な処理(機械学習とも呼ばれる)を行っておくことで,特徴量からラベルに変換するための処理モジュール(識別器や検出器とも呼ばれる)を構築する。このことにより,正解ラベルが未知の対象画像データに対しても,同じ特徴量を取得してその特徴量を識別器にかけることで,情報を表すラベルが出力される。
表情の認識(分類)に関しても同様の技術が適用可能である。例えば,非特許文献2では,特徴量として,目じり,鼻の頭,唇の端などの顔の決められた34箇所の位置において,Gabor Waveletsを適用することによって得られる数値を利用することで,(happiness, sadness, surprise, anger, disgust, fear)という表情に分類できることが記載されている。
また,非特許文献1では,さらに簡易化し,64箇所の画像上の格子点において,同じく Gaborフィルター(Gabor Waveletsと同義)を適用して得られる特徴量を,ニューラルネットワークによって構築できる分類器にかけることで,笑顔(smile/laughter)か否かを出力する技術が記載されている。
なお,非特許文献4には,顔面表情に焦点をあて,意図的表出条件および自発的表出条件下における表情の動的変化に関して分析した結果が記載されている。
特開2008−287652号公報
Uwe Kowalik 他,「Creating joyful digests by exploiting smile/laughter facial expressions present in video」,International Workshop on Advanced Image Technology(2009). Michael Lyons 他,「Coding Facial Expressions with Gabor Wavelets 」,Proceedings, Third IEEE International Conference on Automatic Face and Gesture Recognition(1998). 杵渕他,「画像処理による広告効果測定技術」,NTT技術ジャーナル,2009.7,P.16-19 . 内田英子他,「高速度カメラを用いた顔面表情の動的変化に関する分析」,電子情報通信学会技術研究報告. HIP,ヒューマン情報処理 99(722), pp.1-6(2000).
上述したような方法により,何らかの情報を認識する場合,学習のためのサンプルとなる正解データの収集が重要となる。
例えば,非特許文献3にあるような「顔領域」の認識において,必要なデータを収集するためには,複数人の被験者に依頼し,各方向からの顔写真を撮影するといったことが必要になる。この場合には,撮影手順などをきちんと整備しておくといった工夫により,1件あたりの正解サンプルデータの作成は,短時間で行うことができる。
しかしながら,上記のような方法により表情認識をする場合,サンプルとなる正解データを集めることが困難である。非特許文献4などによると,「意図的な表情」と「自発的な表情」は異なると言われているのに対し,例えば,非特許文献2の例では,被験者がカメラの前でそれぞれ指示された表情を作って(しかも,ややオーバーに作って)撮影したデータが使われている。このように,「表情認識用の学習サンプルデータ」を効率よく集めようとすると,被験者にその目的を伝え短時間になるべく多くの表情を作ってもらうといった方法をとる必要があり,必然的に「意図的な表情」となってしまう。
一方で,「自発的な表情」を含む学習用のサンプルデータを集めることは容易ではない。実際,非特許文献4でも,一人当たりの被験者に対して,長時間をかけてデータを収集しており,このような方法では多人数の被験者のデータを集めることは非常に難しい。
本発明は,以上の課題を解決し,顔表情を認識するための学習データの収集を効率よく行い,特に意図的に作った顔ではなく,自然な顔表情の画像を短時間で多数収集し,認識精度のよい識別器の作成と表情認識を実現できるようにすることを目的とする。
上記課題を解決するために,本発明は,インターネット等に公開されている画像データのうち,特定の表情との関連性が非常に高いキーワードを,タグ情報として持つ画像データを検索し,そのデータの中から実際に人物の顔を一定の条件で含んでいる画像データを収集し,そのデータの顔領域から画像特徴量を算出し,算出された画像特徴量を機械学習することによって,表情認識用の識別器を生成する。
さらに,生成された識別器を用い,与えられた画像データから,顔領域を抽出し,抽出された顔領域の画像特徴量を算出し,算出された画像特徴量を,この識別器にかけることで,表情分類結果のラベルを出力する。
詳しくは,本発明は,画像データ内に存在する人物の顔の表情を認識するための識別器を作成する表情識別器作成装置であって,与えられたキーワードに対し,ネットワーク上で公開された画像データから,その画像データに関連付けられたキーワードが前記与えられたキーワードと一致する画像データを検索する機能を持つサンプル画像データ検索部と,検索された画像データから,人物の顔と推定される画像内の領域を抽出し,その領域が予め決められた条件に合致するものを出力する機能を持つ顔検出部と,出力された顔領域の画像データから多次元の数値データからなる特徴量を計算により求める特徴量算出部と,求められた特徴量を教師データとして機械学習によって識別器を作成する識別器作成部とを備えることを特徴とする。
例えば,特徴量算出部における特徴量の算出では,ガボールフィルタ等を利用することができる。
さらに,本発明は,上記の表情識別器作成装置において,前記サンプル画像データ検索部は,笑顔に関連するキーワードを与えることによって,笑顔を多く含む画像データを検索する機能を持ち,前記識別器作成部は,笑顔を識別するための表情識別器を作成するように構成することができる。
また,本発明は,上記の表情識別器作成装置において,前記サンプル画像データ検索部は,さらに,笑顔以外の表情に関連するキーワードを与えることによって,笑顔が多く含まれない画像データを検索する機能を持ち,前記識別器作成部は,笑顔を多く含む画像データから得られた特徴量と,笑顔が多く含まれない画像データから得られた特徴量との統計的な分布の差を探索する機械学習によって,笑顔であるか否かを判定する表情識別器を作成するように構成することができる。
また,本発明は,上記の表情識別器作成装置において,前記サンプル画像データ検索部は,笑顔,怒り顔,驚き顔または泣き顔に関連する特定の表情に関するキーワードを与えることによって,前記特定の表情を多く含む画像データを検索する機能を持つとともに,顔や人物に関連するキーワードを条件とし,かつ前記特定の表情に関するキーワードに関連付けられていないという条件を付加することによって,前記特定の表情が多く含まれない画像データを検索する機能を持ち,前記識別器作成部は,前記特定の表情を多く含む画像データから得られた特徴量と,前記特定の表情が多く含まれない画像データから得られた特徴量との統計的な分布の差を探索する機械学習によって,前記特定の表情であるか否かを判定する表情識別器を作成するように構成することができる。
また,第2の本発明は,与えられた画像内から人物の顔の表情を自動的に認識する表情認識装置であって,表情の認識対象となる画像データを取得する画像データ取得部と,取得された画像データから,人物の顔と推定される画像内の領域を抽出する顔検出部と,抽出された顔領域の画像データから多次元の数値データからなる特徴量を計算により求める特徴量算出部と,上記の表情識別器作成装置によって作成された表情識別器とを備え,前記特徴量算出部は,前記表情識別器作成装置における表情識別器の作成に用いた特徴量の算出方法と同じ算出方法を用いて顔領域の画像データから特徴量を算出し,算出した特徴量を前記表情識別器の入力として前記表情識別器に表情の識別結果を出力させることを特徴とする。
本発明により,多くの自発的表情を含むサンプル画像データを使用した識別器を効率的に作成することが可能となる。さらに,そのようにして生成された識別器を利用して,自発的表情についても,より精度よく認識することが可能となる。
本発明の実施例に係る装置の全体構成図である。 サンプル画像データ検索部の処理フローチャートである。 顔検出部の処理フローチャートである。
以下,図面を用いて,本発明の実施の形態を詳細に説明する。
図1は,本発明の実施例に係る装置の全体構成図である。図中,10はCPUやメモリ等によって構成される表情識別器作成装置であり,サンプル画像データ検索部11,サンプル画像の顔検出部12,特徴量算出部13,識別器作成部14を備える。また,20は表情認識装置であり,画像データ取得部21,入力画像の顔検出部22,特徴量算出部13,表情識別器24を備える。サンプル画像データ30は,表情識別器24の作成に用いる学習用のデータであり,入力画像31は,表情識別対象となる画像である。表情ラベル32は,入力画像31中の表情の認識結果を示す情報である。
〔第1の実施例〕
まず,表情識別器作成装置10の実施例について述べる。初めに,サンプル画像データ検索部11の実施例について述べる。
現在では,画像共有サイトとして知られているインターネット上のサーバが多く存在している。これらのサーバでは,インターネット上のユーザが,ブラウザ端末より画像データをアップロードすることによって,自由に画像データを登録できる。さらに,その際にその画像データを表すキーワード情報(タグと呼ばれる)をアップロードするユーザにより,複数登録することが一般的である。これらのサイトでは,登録されたタグと画像データとの関連をサイト内のデータベースに格納する。これらのサイトに対し,キーワードを指定することにより,そのキーワードと一致するタグを持つ画像データを検索することができ,実際にそのようなことがインターネットを通じてブラウザから操作可能となっている。
ブラウザから操作可能であるということは,特定のURL(Uniform Resource Locator)に対して,特定のパラメータ指定をして標準化されたHTTPプロトコルを使用してアクセスすることで,結果を表すためのレスポンスが,標準化されたHTML等の形式で返却され,その中の特定のHTMLタグに,実際の画像データ(あるいはそのURL)が埋め込まれているということである。このため,ブラウザを使って人手で操作することなく,同様の動作を行うソフトウェアモジュールを構築することは可能である。本実施例におけるサンプル画像データ検索部11は,インターネットに接続された計算機上に実装された,このようなモジュールにより実施できる。
なお,検索のためのURLのパラメータ指定方法や,検索結果のHTMLの解析方法は,それぞれの画像共有サイトで異なる。そのため,図2に示すようにすることで,複数の画像共有サイトから検索することができる。
図2は,サンプル画像データ検索部11の処理フローチャートである。まず,ステップS10では,検索の条件として表情などを表すキーワードを指定する。このキーワードは,予めテーブル化して記憶しておいてもよいし,識別器の作成者に入力させるようにしてもよい。ここで,検索の条件としては,指定したキーワードと,画像に付与されたタグの1つが「一致する」という条件だけでなく,「キーワードK1を含み,キーワードK2を含まない」といった条件での検索も通常可能である。実際,画像共有サイトがそのようなデータベース検索機能を公開していることもあるし,あるいは画像に付与されたタグ情報一覧を取得できるのであれば,検索した結果の画像データからキーワードK2を含むデータを除外すればよい。また,辞書データベースを利用することによって,「他言語での表現(例:「スマイル」と「smile 」)」などでの検索も可能である。
ステップS11では,例えば複数の動画共有サイトA,Bの画像データを収集するとすると,各動画共有サイトA,Bごとに用意した検索モジュールを呼び出す。動画像共有サイトAの検索モジュールでは,まず,ステップS12aによって,動画共有サイトAの検索要求URLを組み立てる。次に,ステップS13aでは,組み立てたURLを用いて,その動画共有サイトAへHTTPリクエストを送る。ステップS14aでは,動画共有サイトAからのHTTPレスポンスを受信し,ステップS15aでは,動画共有サイトAからのHTTPレスポンスに含まれるHTMLを解析して画像データを取得する。
動画共有サイトBに対しても同様に,動画共有サイトBの検索モジュールによるステップS12b〜S15bを実行して,動画共有サイトBが保持する画像データのうち,キーワードで指定した検索条件に合致する画像データを取得する。
ステップS16では,動画共有サイトA,Bから取得した全画像データをまとめて,サンプル画像の顔検出部12へ出力する。
以上のような構成により,具体例としては,次のようなサンプル画像データを検索することが可能となる。
(1)[例1]:「笑顔」または「スマイル」または「smile 」または「laugh 」というタグを持つ笑顔サンプル画像データの取得。
(2)[例2]:「顔」または「表情」というタグを持ち,「笑顔」「スマイル」「smile 」「laugh 」のいずれのタグも持たない,非笑顔サンプル画像データの取得。
(3)[例3]:[例1]の笑顔サンプル画像データに加え,その他のサンプル画像データの取得。怒り顔,驚き顔,泣き顔の表情などのサンプル画像データを取得。例えば,怒り顔サンプル画像データは,「怒り」または「anger 」というタグを持つものとし,驚き顔サンプル画像データは,「驚き」または「びっくり」または「surprise」とうタグを持つものとし,泣き顔サンプル画像データは,「悲しい」または「涙」または「泣き顔」または「sadness 」または「sad 」または「tear」というタグを持つものとする。
なお,上記の例において特定の表情を持たないサンプル画像データを取得するにあたっては,一般的な顔や人物に関連するタグを含み,特定の表情に関連するタグを含まないというような条件を,複数のキーワードのAND結合およびOR結合によって指定すればよい。
サンプル画像の顔検出部12の処理フローを,図3に示す。まず,ステップS20では,サンプル画像データ検索部11で検索した画像データの一つを取得する。次に,ステップS21では,取得した画像データを解析し,顔と推定される画像領域を求める。ここで顔と推定される画像領域を求めるにあたっては,例えば非特許文献3にあるような顔の学習データを用意して,特許文献1の方法を用いればよい。他にも,OpenCVなどとして知られているプログラムを利用してもよい(http://opencv.jp/sample/object_detection.html)。
ステップS22では,顔と推定される画像領域が求まったかどうかを判定し,求まらなかった場合には,その画像データを棄却して処理を終了し,次の画像データについて,同様な顔の画像領域の検出処理に移る。
顔と推定される画像領域が求まった場合,ステップS23に進み,その画像領域が所定の条件を満たすかどうかを判定する。条件を満たさない場合には,その画像データを棄却して処理を終了する。このステップS23で判定する条件は,例えば「抽出された領域数が1であり,かつ,抽出された領域の面積が,元画像データの面積の10%以上」といった条件にすることが好適である。その効果については後述する。なお,「元画像データの面積の10%以上」といった条件については,ステップS21において検査することも可能である。すなわち,特許文献1などの技術によって画像内のパターンを認識する場合,さまざまな大きさに関するパターン適合検査を繰り返すといった処理が行われることが多いのであるが,決められた大きさ以外の結果を利用しないのであれば,そのような大きさでのパターン適合検査を略すことによって,ステップS21の処理を,より高速にすることができる。
条件を満たす場合,ステップS24では,元画像データから顔と推定される画像領域の画像を切り出して,予め定められた標準形式に変換し出力する。ここでは,例えば抽出領域を「128×128ピクセルの8bitグレースケール画像」にするというような処理を行う。このような変換を可能とする画像処理ライブラリは,近年数多く用いられている。
特徴量算出部13としては,非特許文献2や非特許文献3に記載されているような,Gabor Wavelet (ガボールフィルタ)などを利用した特徴量を算出する処理モジュールを使用すればよい。
識別器作成部14は,サンプル画像データ検索部11の実施方法に応じて,次のように実施することができる。
表情識別器24は,画像の特徴量に基づいて,タグを識別するためのモデルであり,前述した[例1]〜[例3]にあるような,タグ付きの画像データから統計的に得るものである。以下,各例に対する表情識別器24の生成例を説明する。以降,ある画像iの特徴量をxi ,それに付随するタグが表す表情をyi と表す。
まず,サンプル画像データ検索部11として,[例1]のようなデータのみを取得するような実施方法の場合について説明する。この例の場合,得られているのは,笑顔を表すタグを持つ画像データだけであるため,識別器作成部14としては,生成モデルと呼ばれる,同時確率分布p(xi ,yi )によってモデルを生成し,これを表情識別器として用いる。タグは笑顔を表す「笑顔」や「smile 」などであるので,これらのタグを全て“笑顔”という表情であるとみなせば,生成される生成モデルはp(xi ;yi = "笑顔" )となる。
生成モデルp(xi ;yi = "笑顔" )は,通常同時確率分布であるが,どのような同時確率分布を用いても構わない。例えば,正規分布,混合正規分布,probabilistic latent semantic analysis(pLSA)やlatent Dirichlet allocation (LDA)などの確率分布が代表的である。
通常,確率分布はパラメータを持つため,これらのパラメータを画像データ群から推定する必要がある。仮に,n枚のタグ付き画像データ{xi ,yi = "笑顔" |i=1,2,…,n}があるとしよう。例えば,(多変量)正規分布の場合を考えよう。
Figure 2011150381
ここで,下添字yi = "笑顔" 付きのφは,タグyi が笑顔である画像の特徴量xi が従う多変量正規分布を表し,μは平均値ベクトルを表し,Σは分散共分散行列を表す。パラメータは,μとΣの二つである。この場合には,以下の尤度を最大化する最尤推定法によってパラメータである平均と分散共分散行列を推定できる。
Figure 2011150381
また,混合正規分布やpLSAの場合には,期待値最大化(Expectation-Maximization:EM)法,LDAの場合には,変分ベイズ法やマルコフ連鎖モンテカルロ法(MCMC法)によって,パラメータを推定することができる。例えば,EM法は下記の参考文献1に,変分ベイズ法は参考文献2に,MCMC法は参考文献3に記載されている。
[参考文献1]:A.P. Dempster; N. M. Laird; D. B. Rubin,“Maximum Likelihood from Incomplete Data via the EM Algorithm, ” Journal of the Royal Statistical Society. Series B, Vol. 39, No. 1., pp.1-38, 1977.
[参考文献2]:H. Attias,“Inferring parameters and structure of latent variable models by variational bayes,” Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence, pp. 21-30, 1999.
[参考文献3]:S. Geman, and D. Geman“Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Issue 6, pp.721-741, 1984.
結果として,[例1]で取得した画像データを用いた場合には,「笑顔らしさ」を識別する表情識別器が生成される。
実際に新たな画像データjが得られたとして,これを識別する際には,まず,画像データjの特徴量xj を抽出したのち,この同時確率p(xj ;yj = "笑顔" )を求める。この確率値が,ある閾値以上であった場合に笑顔であると識別することになる。
次に,[例1]に加えて,[例2]のようなサンプル画像データを取得するような実装方法の場合,笑顔と非笑顔を識別するような識別モデルを生成するものとすればよい。[例1]の場合のように,笑顔のみの画像データから生成モデルを得るよりも,[例1]および[例2]の両方を使い,笑顔と非笑顔を積極的に識別する(分ける)ような識別モデルを得るほうが,より高い精度を得ることができる。
識別モデルは,p(yi |xi )として表現できる。すなわち,ある画像データiの特徴量xi が与えられたもとでの,タグyi が出現する確率である。具体例としては,例えば,線形判別関数,ロジスティック回帰関数,ニューラルネットワーク,サポートベクトルマシン(support vector machine:SVM),カーネル回帰関数など,様々なものが利用できる。いずれの識別モデルにおいても,パラメータを持つ。
例えば,線形判別関数,ロジスティック回帰関数,ニューラルネットワークなどについては,最小二乗誤差規範やエントロピー最大化規範などの目的関数を,データに基づいて最小化するようにパラメータを最適化する。最適化では,線形最適化,あるいは勾配法などの非線形最適化法などの公知の方法を用いればよい。また,SVMやカーネル回帰関数などについては,カーネルトリックを介したマージン最大化規範を,主双対内点法などの公知の方法で最適化すればよい。さらに,これらの識別モデルを,ブースティングと呼ばれる手法によって統合して用いてもよい。
結果として,[例1]および[例2]のサンプル画像データを用いた場合には,「笑顔であるか否か」を分類するための表情識別器が作成される。
次に,[例1]と[例3]のような,複数の表情のサンプル画像データを取得するような実装方法の場合,識別器作成部14としては,[例2]のときに挙げた識別モデルを,複数生成する。
例えば,笑顔,怒り顔,驚き顔の3種の場合を考える。このときは,表情識別器を3つ用意し,それぞれ,笑顔であるか否か,怒り顔であるか否か,驚き顔であるか否かを独立に識別するものとする。各表情識別器は,[例2]で説明した生成法をそのまま適用して生成することができる。表情の種類が増減した場合でも,同様に表情識別器を生成すればよい。
結果として,この場合には,予め決めたいくつかの表情分類の1つとして分類するための表情識別器が作成される。
識別を行う際には,最も識別モデルの確率値p(yi |xi )が高かった表情に分類するものとすればよい。また,ニューラルネットワークなど,出力を複数取ることのできる関数の場合には,対象とする全ての表情の確率値を一括で出力するように表情識別器生成を行うものとしてもよい。
ここで,本実施例における効果について述べる。画像共有サイトとして知られているインターネット上のサーバには,現在,非常に大量の画像データがタグデータと共に蓄えられている。例えば,1つの大手画像共有サイト(http://www.flickr.com )で「smile 」というタグを持ったデータを検索すると,一般に公開されている画像データだけでも,2百万を超えるデータが検索される。それらのデータのほとんどは,通常の状況で撮影された画像であり,すなわち,被写体となっている人物の表情には,自発的な表情であるものが大量に存在する。
一方で,このような画像データには,当然ながら,人物の特定の表情のみに着目してアップロードおよびタグ付けをしたデータではないものも数多く含まれる。例えば,ペット(動物)の「smile 」であったり,smile マークと呼ばれるロゴマークであったり,たまたま撮影した風景がまるで笑った顔のようにも見えるという趣旨の画像であったり,といった画像も「smile 」というタグを持つ画像データには含まれる。
あるいは,人物の笑顔であっても,顔のごく一部(目や口など)のみを極端にクローズアップしたものや,集合写真のように個々の顔が小さく不鮮明なものも含まれる。特に,複数の被写体が写っている場合には,1人のみが「smile 」で他は別の表情をしている可能性もある。以上のようなデータは,表情認識用のサンプル正解データとしては不適切となってしまう。
そこで,本実施例では,これらタグ情報によって検索された画像データに対して,顔検出処理を行う。予め「人物の顔」を学習データとした特許文献1のパターン認識技術などを適用することにより,「人物の顔」のパターンに適合しない動物やロゴマークや一部分のみの顔のデータは排除することができる。さらに,「抽出された領域数が1であり,かつ,抽出された領域の面積が,元画像データの面積の10%以上」といった条件を付加することにより,「ある特定の1人の人物のみで,それなりに顔が大きく写った画像」に絞り込むことができる。このように絞り込んでも,依然として,非特許文献4にあるような方法より簡易にかつ大規模に「自発的な表情をした顔画像サンプルデータ」を取り出すことができる。
特に,このような条件を満たす構図の画像は,その特定の1人の人物を主な被写体として撮影されたものと考えることができ,そのような画像データに対して付与されるタグには,当然その特定の人物の表情を示唆するキーワードが含まれることが多い。もちろん,このことは絶対的に成立する条件ではなく,例えば,泣き顔の画像に対して,もっと笑ってほしいという願いをこめてわざと「smile 」というタグをつける可能性はゼロではない。しかしながら,そのようなデータの比率は小さく,また本実施例では,得られたサンプルデータを主に統計的な理論に基づいた機械学習の方法で処理を行うため,そのようなデータが一部に混入していたとしても,結果として有意な「表情識別器」が生成される。
〔第2の実施例〕
次に,表情認識装置20の実施例について述べる。表情認識装置20は,与えられた入力画像31に写っている人物の表情を認識し,その認識結果を表情ラベル32として出力する装置であり,図1に示すような構成で実現できる。
画像データ取得部21は,表情を判定したい画像データを取得する機能を持つ。具体的には,例えば,本装置の操作者がパラメータとして与えた画像データファイル名をとり,そのファイルをオープンして画像データを取り出すといった機能を持つソフトウェアモジュールによって実現できる。あるいは,URL形式で指定することによって,標準化されたHTTPプロトコルにより画像データを取り出すようなモジュールでもよい。あるいは,カメラ等のデバイスを取り付け,本装置の操作者の何らかの操作をトリガーとして,カメラからの画像情報を取り込むようなモジュールであってもよい。
入力画像の顔検出部22は,第1の実施例と同様の方法(図3)により実施できる。ただし,この場合には,図3のステップS23の条件をより緩和したほうが好適となる。例えば,認識された領域数には制限を設けず,大きさに関しても,32×32ピクセル以上といった条件としたほうがよい。そのほうが,複数人数が写っている画像データや顔がやや小さめに写っている画像データに対しても,各人の表情認識を行うことができる。
特徴量算出部13は,第1の実施例と同じ処理機能を使用する。算出される特徴量に差異があると表情識別器が適切な結果ラベルを出力することができない。同一であることを示すために,図1では一つのコンポーネントとして記載してある。もちろん,同一の処理機能を持つモジュールをそれぞれに用意してもよい。
表情識別器24としては,第1の実施例で述べた表情識別器作成装置10によって,実際に作成された表情識別器を使用する。すなわち,表情識別器24は,適切な「学習」過程を経た機械学習の処理モジュールとなり,このモジュールは入力値となる特徴量を,推定された結果値である表情ラベル32に変換し,出力する。第1の実施例で述べたように,学習されたモデルに従って,
・「笑顔らしさ」,
・「笑顔であるか否か」,
・「笑顔,怒り顔,驚き顔のいずれか」,
というような情報が出力される。
以上の表情識別器作成および表情認識の処理は,コンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムをコンピュータ読み取り可能な記録媒体に記録することも,ネットワークを通して提供することも可能である。
図1では,表情認識装置20の中に表情識別器作成装置10が組み込まれている状態の装置構成例を示しているが,これらを同一のコンピュータで実現することもでき,また,異なるコンピュータで別々に実現することもできる。
10 表情識別器作成装置
11 サンプル画像データ検索部
12 サンプル画像の顔検出部
13 特徴量算出部
14 識別器作成部
20 表情認識装置
21 画像データ取得部
22 入力画像の顔検出部
24 表情識別器
30 サンプル画像データ
31 入力画像
32 表情ラベル

Claims (9)

  1. 画像データ内に存在する人物の顔の表情を認識するための識別器を作成する表情識別器作成装置であって,
    与えられたキーワードに対し,ネットワーク上で公開された画像データから,その画像データに関連付けられたキーワードが前記与えられたキーワードと一致する画像データを検索する機能を持つサンプル画像データ検索部と,
    検索された画像データから,人物の顔と推定される画像内の領域を抽出し,その領域が予め決められた条件に合致するものを出力する機能を持つ顔検出部と,
    出力された顔領域の画像データから多次元の数値データからなる特徴量を計算により求める特徴量算出部と,
    求められた特徴量を教師データとして機械学習によって識別器を作成する識別器作成部とを備える
    ことを特徴とする表情識別器作成装置。
  2. 請求項1記載の表情識別器作成装置において,
    前記サンプル画像データ検索部は,笑顔に関連するキーワードを与えることによって,笑顔を多く含む画像データを検索する機能を持ち,
    前記識別器作成部は,笑顔を識別するための表情識別器を作成する
    ことを特徴とする表情識別器作成装置。
  3. 請求項2記載の表情識別器作成装置において,
    前記サンプル画像データ検索部は,さらに,笑顔以外の表情に関連するキーワードを与えることによって,笑顔が多く含まれない画像データを検索する機能を持ち,
    前記識別器作成部は,笑顔を多く含む画像データから得られた特徴量と,笑顔が多く含まれない画像データから得られた特徴量との統計的な分布の差を探索する機械学習によって,笑顔であるか否かを判定する表情識別器を作成する
    ことを特徴とする表情識別器作成装置。
  4. 請求項1記載の表情識別器作成装置において,
    前記サンプル画像データ検索部は,笑顔,怒り顔,驚き顔または泣き顔に関連する特定の表情に関するキーワードを与えることによって,前記特定の表情を多く含む画像データを検索する機能を持つとともに,顔や人物に関連するキーワードを条件とし,かつ前記特定の表情に関するキーワードに関連付けられていないという条件を付加することによって,前記特定の表情が多く含まれない画像データを検索する機能を持ち,
    前記識別器作成部は,前記特定の表情を多く含む画像データから得られた特徴量と,前記特定の表情が多く含まれない画像データから得られた特徴量との統計的な分布の差を探索する機械学習によって,前記特定の表情であるか否かを判定する表情識別器を作成する
    ことを特徴とする表情識別器作成装置。
  5. コンピュータが,画像データ内に存在する人物の顔の表情を認識するための識別器を作成する表情識別器作成方法であって,
    与えられたキーワードに対し,ネットワーク上で公開された画像データから,その画像データに関連付けられたキーワードが前記与えられたキーワードと一致する画像データを検索するサンプル画像データ検索過程と,
    検索された画像データから,人物の顔と推定される画像内の領域を抽出し,その領域が予め決められた条件に合致するものを出力する顔検出過程と,
    出力された顔領域の画像データから多次元の数値データからなる特徴量を計算により求める特徴量算出過程と,
    求められた特徴量を教師データとして機械学習によって識別器を作成する識別器作成過程とを有する
    ことを特徴とする表情識別器作成方法。
  6. 与えられた画像内から人物の顔の表情を自動的に認識する表情認識装置であって,
    表情の認識対象となる画像データを取得する画像データ取得部と,
    取得された画像データから,人物の顔と推定される画像内の領域を抽出する顔検出部と,
    抽出された顔領域の画像データから多次元の数値データからなる特徴量を計算により求める特徴量算出部と,
    請求項1から請求項4までのいずれか1項に記載された表情識別器作成装置によって作成された表情識別器とを備え,
    前記特徴量算出部は,前記表情識別器作成装置における表情識別器の作成に用いた特徴量の算出方法と同じ算出方法を用いて顔領域の画像データから特徴量を算出し,算出した特徴量を前記表情識別器の入力として前記表情識別器に表情の識別結果を出力させる
    ことを特徴とする表情認識装置。
  7. コンピュータが,与えられた画像内から人物の顔の表情を自動的に認識する表情認識方法であって,
    表情の認識対象となる画像データを取得する画像データ取得過程と,
    取得された画像データから,人物の顔と推定される画像内の領域を抽出する顔検出過程と,
    抽出された顔領域の画像データから多次元の数値データからなる特徴量を計算により求める特徴量算出過程と,
    請求項1から請求項4までのいずれか1項に記載された表情識別器作成装置によって作成された表情識別器に前記特徴量を入力して表情を識別する表情識別過程とを有し,
    前記特徴量算出過程では,前記表情識別器作成装置における表情識別器の作成に用いた特徴量の算出方法と同じ算出方法を用いて顔領域の画像データから特徴量を算出し,算出した特徴量を前記表情識別器の入力として,前記表情識別器に表情の識別結果を出力させる
    ことを特徴とする表情認識方法。
  8. 請求項5に記載された表情識別器作成方法を,コンピュータに実行させるための表情識別器作成プログラム。
  9. 請求項7に記載された表情認識方法を,コンピュータに実行させるための表情認識プログラム。
JP2010008650A 2010-01-19 2010-01-19 表情識別器作成装置,表情識別器作成方法,表情認識装置,表情認識方法およびそれらのプログラム Active JP5234833B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010008650A JP5234833B2 (ja) 2010-01-19 2010-01-19 表情識別器作成装置,表情識別器作成方法,表情認識装置,表情認識方法およびそれらのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010008650A JP5234833B2 (ja) 2010-01-19 2010-01-19 表情識別器作成装置,表情識別器作成方法,表情認識装置,表情認識方法およびそれらのプログラム

Publications (2)

Publication Number Publication Date
JP2011150381A true JP2011150381A (ja) 2011-08-04
JP5234833B2 JP5234833B2 (ja) 2013-07-10

Family

ID=44537327

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010008650A Active JP5234833B2 (ja) 2010-01-19 2010-01-19 表情識別器作成装置,表情識別器作成方法,表情認識装置,表情認識方法およびそれらのプログラム

Country Status (1)

Country Link
JP (1) JP5234833B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013061732A (ja) * 2011-09-12 2013-04-04 Fuji Xerox Co Ltd 画像識別情報付与プログラム及び画像識別情報付与装置
JP2013232185A (ja) * 2012-04-06 2013-11-14 Toshiba Corp 医療情報検索装置
JP2014022837A (ja) * 2012-07-13 2014-02-03 Nippon Hoso Kyokai <Nhk> 学習装置、及びプログラム
JP2014067269A (ja) * 2012-09-26 2014-04-17 Denso Corp 検出装置
JP2014120137A (ja) * 2012-12-19 2014-06-30 Samsung R&D Institute Japan Co Ltd 情報処理装置、情報処理方法及びコンピュータプログラム
JP2020107254A (ja) * 2018-12-28 2020-07-09 株式会社AI−feed 画像検査装置、学習済みモデル生成装置、画像検査システム、画像検査用プログラム、学習済みモデル生成用プログラム、および学習済みモデル
JP2022037891A (ja) * 2020-08-25 2022-03-09 株式会社セルシス 3次元ポーズデータ生成システム、方法、プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102252298B1 (ko) 2016-10-21 2021-05-14 삼성전자주식회사 표정 인식 방법 및 장치
JP6542824B2 (ja) 2017-03-13 2019-07-10 ファナック株式会社 入力画像から検出した対象物の像の尤度を計算する画像処理装置および画像処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008042319A (ja) * 2006-08-02 2008-02-21 Sony Corp 撮像装置および方法、表情評価装置およびプログラム
JP2008276668A (ja) * 2007-05-07 2008-11-13 Sony Corp 画像管理装置、画像表示装置、撮像装置、および、これらにおける処理方法ならびに当該方法をコンピュータに実行させるプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008042319A (ja) * 2006-08-02 2008-02-21 Sony Corp 撮像装置および方法、表情評価装置およびプログラム
JP2008276668A (ja) * 2007-05-07 2008-11-13 Sony Corp 画像管理装置、画像表示装置、撮像装置、および、これらにおける処理方法ならびに当該方法をコンピュータに実行させるプログラム

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
CSND200601215015; 小澤 典生: '見つからないイライラを解消する グーグル一本で万能ネット検索 PART1 キーワード検索の勘所をマス' 日経PC21 第11巻 第11号, 20060601, p.94-97, 日経BP社 Nikkei Business Publications,Inc. *
CSNG200500017004; 大曲 勇気: 'パターン認識技術を用いた顔画像の表情認識' 映像情報メディア学会技術報告 第27巻 第60号, 20031023, p.13-16, (社)映像情報メディア学会 *
CSNG200701232001; 柳井 啓司: '一般物体認識の現状と今後' 情報処理学会論文誌 第48巻 第SIG16CVIM1号, 20071115, p.1-24, 社団法人情報処理学会 *
CSNG201000126002; 馬場口 登: '第1回 マルチメディア検索の最先端 マルチメディア検索の技術動向' 映像情報メディア学会誌 第64巻 第1号, 20100101, p.58-63, (社)映像情報メディア学会 *
JPN6012051961; 大曲 勇気: 'パターン認識技術を用いた顔画像の表情認識' 映像情報メディア学会技術報告 第27巻 第60号, 20031023, p.13-16, (社)映像情報メディア学会 *
JPN6012051962; 馬場口 登: '第1回 マルチメディア検索の最先端 マルチメディア検索の技術動向' 映像情報メディア学会誌 第64巻 第1号, 20100101, p.58-63, (社)映像情報メディア学会 *
JPN6012051964; 小澤 典生: '見つからないイライラを解消する グーグル一本で万能ネット検索 PART1 キーワード検索の勘所をマス' 日経PC21 第11巻 第11号, 20060601, p.94-97, 日経BP社 Nikkei Business Publications,Inc. *
JPN6013012087; 柳井 啓司: '一般物体認識の現状と今後' 情報処理学会論文誌 第48巻 第SIG16CVIM1号, 20071115, p.1-24, 社団法人情報処理学会 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013061732A (ja) * 2011-09-12 2013-04-04 Fuji Xerox Co Ltd 画像識別情報付与プログラム及び画像識別情報付与装置
JP2013232185A (ja) * 2012-04-06 2013-11-14 Toshiba Corp 医療情報検索装置
JP2014022837A (ja) * 2012-07-13 2014-02-03 Nippon Hoso Kyokai <Nhk> 学習装置、及びプログラム
JP2014067269A (ja) * 2012-09-26 2014-04-17 Denso Corp 検出装置
JP2014120137A (ja) * 2012-12-19 2014-06-30 Samsung R&D Institute Japan Co Ltd 情報処理装置、情報処理方法及びコンピュータプログラム
JP2020107254A (ja) * 2018-12-28 2020-07-09 株式会社AI−feed 画像検査装置、学習済みモデル生成装置、画像検査システム、画像検査用プログラム、学習済みモデル生成用プログラム、および学習済みモデル
JP7340806B2 (ja) 2018-12-28 2023-09-08 株式会社Ridge-i 画像検査装置、画像検査システム、および画像検査用プログラム
JP2022037891A (ja) * 2020-08-25 2022-03-09 株式会社セルシス 3次元ポーズデータ生成システム、方法、プログラム
JP7212908B2 (ja) 2020-08-25 2023-01-26 株式会社セルシス 3次元ポーズデータ生成システム、方法、プログラム

Also Published As

Publication number Publication date
JP5234833B2 (ja) 2013-07-10

Similar Documents

Publication Publication Date Title
JP5234833B2 (ja) 表情識別器作成装置,表情識別器作成方法,表情認識装置,表情認識方法およびそれらのプログラム
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN104063683A (zh) 一种基于人脸识别的表情输入方法和装置
Yu et al. Learning realistic facial expressions from web images
KR101996371B1 (ko) 영상 캡션 생성 시스템과 방법 및 이를 위한 컴퓨터 프로그램
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
Belissen et al. Dicta-Sign-LSF-v2: remake of a continuous French sign language dialogue corpus and a first baseline for automatic sign language processing
CN112733764A (zh) 一种基于多模态识别视频情感信息的方法
Wang et al. Capturing feature and label relations simultaneously for multiple facial action unit recognition
Krishnani et al. A new context-based feature for classification of emotions in photographs
George et al. Development of Android Application for Facial Age Group Classification Using TensorFlow Lite
Vijayaraju Image retrieval using image captioning
Jalal et al. Suspect face retrieval system using multicriteria decision process and deep learning
Kan et al. Topic-guided local-global graph neural network for image captioning
Granda et al. Face recognition systems in math classroom through computer vision traditional techniques
CN112241470A (zh) 一种视频分类方法及系统
Bennur et al. Face Mask Detection and Face Recognition of Unmasked People in Organizations
Hammad et al. Characterizing the impact of using features extracted from pre-trained models on the quality of video captioning sequence-to-sequence models
Abed et al. Face retrieval in videos using face quality assessment and convolution neural networks
Fatima et al. Machine Learning for Masked Face Recognition in COVID-19 Pandemic Situation.
Zhou et al. The State of the Art for Cross-Modal Retrieval: A Survey
Berg et al. Do you see what I see? Measuring the semantic differences in image‐recognition services' outputs
Shalabi et al. Image-Text Out-Of-Context Detection Using Synthetic Multimodal Misinformation
Khansama et al. A hybrid face recognition scheme in a heterogenous and cluttered environment
Liu et al. Implicit video multi-emotion tagging by exploiting multi-expression relations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121009

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130321

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5234833

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350