JP2007087345A - 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体 - Google Patents

情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体 Download PDF

Info

Publication number
JP2007087345A
JP2007087345A JP2005278782A JP2005278782A JP2007087345A JP 2007087345 A JP2007087345 A JP 2007087345A JP 2005278782 A JP2005278782 A JP 2005278782A JP 2005278782 A JP2005278782 A JP 2005278782A JP 2007087345 A JP2007087345 A JP 2007087345A
Authority
JP
Japan
Prior art keywords
feature
face
information processing
image data
feature point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005278782A
Other languages
English (en)
Other versions
JP2007087345A5 (ja
JP4799104B2 (ja
Inventor
Yuji Kaneda
雄司 金田
Masakazu Matsugi
優和 真継
Katsuhiko Mori
克彦 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005278782A priority Critical patent/JP4799104B2/ja
Priority to US11/532,979 priority patent/US8542928B2/en
Priority to EP06019860.3A priority patent/EP1768058B1/en
Priority to KR1020060093302A priority patent/KR100886407B1/ko
Priority to CN 200610152329 priority patent/CN1940965A/zh
Publication of JP2007087345A publication Critical patent/JP2007087345A/ja
Publication of JP2007087345A5 publication Critical patent/JP2007087345A5/ja
Application granted granted Critical
Publication of JP4799104B2 publication Critical patent/JP4799104B2/ja
Priority to US13/960,951 priority patent/US20130322770A1/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】 撮像条件が動的に変化する環境においても高い精度で物体認識を行う技術を提供する。
【解決手段】 情報処理装置に、顔を含む画像データを入力する画像入力部100と、前記画像データより前記顔の特定箇所の位置を検出する顔位置検出部101と、検出された前記特定箇所の位置に基づいて、前記画像データより前記顔の特徴点を検出し、検出された前記特徴点に基づいて前記顔の表情を判定する表情認識部102とを備え、前記特徴点の検出は前記特定箇所の位置検出よりも検出精度が高く、前記特定箇所の位置検出は前記特徴点の検出よりも変動に頑健である。
【選択図】 図1

Description

本発明は画像認識技術に関する。
従来より、撮像装置により物体を撮像して画像データを取得し、当該画像データを解析して物体の位置姿勢を計算する物体認識(画像認識)技術が知られている。
例えば、特許文献1には、次のような物体認識技術が開示されている。即ち、まず、認識対象の物体(対象物体)の全体について、低解像度での物体認識処理により対象物体の大体の位置姿勢を求める(第1段階の認識処理)。次に、その認識結果に基づいて、物体上の特徴的な箇所の周囲に局所認識範囲を設定し、該局所認識範囲についてのみ部分的に更に高解像度の物体認識処理を行う(第2段階の認識処理)。ここで、物体上の特徴的な箇所には、例えば、ネジやロッド用の穴、組み付けのための突起、物体表面上のマーク等が含まれる。そして、局所認識範囲における物体認識の結果に基づいて対象物体全体の位置姿勢を計算する。
特開平09-282454号公報
しかしながら、特許文献1に開示された構成においては、第1段階の認識処理と第2段階の認識処理との間に一定の時間を要する。このため、例えば、照明条件が変動する場合や、認識対象の物体のサイズや形状が変動したり、認識対象の物体が回転する場合のように、撮像条件が動的に変化する環境においては、高い精度の認識が困難であった。
従って、認識対象の物体が人の顔であり、ある時点におけるその顔の表情を認識する目的で従来技術を使用することができなかった。
本発明は上記問題に鑑みなされたものであり、撮像条件が動的に変化する環境においても高い精度で物体認識を行う技術を提供することを目的とする。
上記目的を達成するため、本発明による情報処理装置は以下の構成を備える。即ち、
顔を含む画像データを入力する入力手段と、
前記画像データより前記顔の特定箇所の位置を検出する第1の検出手段と、
検出された前記特定箇所の位置に基づいて、前記画像データより前記顔の特徴点を検出する第2の検出手段と、
検出された前記特徴点に基づいて前記顔の表情を判定する判定手段とを備え、
前記第2の検出手段は前記第1の検出手段よりも検出精度が高く、前記第1の検出手段は前記第2の検出手段よりも変動に頑健であることを特徴とする。
本発明によれば、多様な撮像条件においても高い精度で顔の認識を行う技術を提供することができる。
以下、添付図面を参照して本発明に係る実施の形態を詳細に説明する。ただし、この実施の形態に記載されている構成要素はあくまでも例示であり、本発明の範囲をそれらのみに限定する趣旨のものではない。
<<第1実施形態>>
〔情報処理装置のハードウェア構成〕
まず、本実施形態に係る情報処理装置のハードウェア構成について、図39を参照して説明する。図39は、本実施形態に係る情報処理装置のハードウェア構成を模式的に示したブロック図である。尚、本実施形態に係る情報処理装置は、例えば、パーソナルコンピュータ(PC)やワークステーション(WS)、携帯情報端末(PDA)等で実現される。
図39において、390はCPUであり、後述するハードディスク装置(以下、HDと呼ぶ)395に格納されているアプリケーションプログラム、オペレーティングシステム(OS)や制御プログラム等を実行しする。更に、RAM392にプログラムの実行に必要な情報、ファイル等を一時的に格納する制御を行う。
391はROMであり、内部には基本I/Oプログラム等のプログラム、文書処理の際に使用するフォントデータ、テンプレート用データ等の各種データを記憶する。392は各種データを一時記憶するためのRAMであり、CPU390の主メモリ、ワークエリア等として機能する。
393は記録媒体へのアクセスを実現するための外部記憶ドライブであり、メディア(記録媒体)394に記憶されたプログラム等を本コンピュータシステムにロードすることができる。尚、メディア394は、例えば、フレキシブルディスク(FD)、CD−ROM、CD−R、CD−RW、PCカード、DVD、ICメモリカード、MO、メモリスティック等、任意である。
395は外部記憶装置であり、本実施形態では大容量メモリとして機能するHDを用いている。HD395には、アプリケーションプログラム、OS、制御プログラム、関連プログラム等が格納される。
396は指示入力装置であり、キーボードやポインティングデバイス(マウス等)、タッチパネル等がこれに相当する。指示入力装置396を用いて、ユーザは、本実施形態に係る情報処理装置に対して、装置を制御するコマンド等を入力指示する。
397はディスプレイであり、指示入力装置396から入力されたコマンドや、それに対する情報処理装置の応答出力等を表示したりするものである。
399はシステムバスであり、情報処理装置内のデータの流れを司るものである。
398は撮像装置であり、物体を撮像して画像データを取得する。撮像装置398は、結像光学系、固体撮像素子、AD変換等を行う映像信号処理回路を含む部品から構成されている。撮像装置398は、固体撮像素子であるCCD、CMOSセンサ等から得られた電気信号をAD変換し、デジタル形式の画像データとして取得する。撮像装置398が取得した画像データは、CPU390の制御に基づいて、バッファリング処理が行われ、DMAを用いてRAM392等のメモリに転送される。
尚、以上の各装置と同等の機能を実現するソフトウェアにより、ハードウェア装置の代替として構成することもできる。
本実施形態では、メディア394から本実施形態に係るプログラム及び関連データを直接RAM392にロードして実行させる例を示す。ただしこれ以外にも、本実施形態に係るプログラムを動作させる度に、既にプログラムがインストールされているHD395からRAM392にロードするようにしてもよい。また、本実施形態に係るプログラムをROM391に記録しておき、これをメモリマップの一部をなすように構成し、直接CPU390で実行することも可能である。
また、本実施形態では、説明の便宜のため、本実施形態に係る情報処理装置を1つの装置で実現した構成について述べるが、複数の装置にリソースを分散した構成によって実現してもよい。例えば、記憶や演算のリソースを複数の装置に分散した形に構成してもよい。或いは、情報処理装置上で仮想的に実現される構成要素毎にリソースを分散し、並列処理を行うようにしてもよい。
〔情報処理装置の機能構成〕
次に、上記の情報処理装置による物体認識のための機能構成について、図1を参照して説明する。図1は、本実施形態に係る情報処理装置の機能構成を示したブロック図である。
図1に示される各機能ブロックは、図39を参照して上述した情報処理装置のCPU390がRAM392にロードされたプログラムを実行し、図1に示される各ハードウェアと協働することによって実現される。もちろん機能ブロックの一部或いは全てが専用のハードウェアで実現されてもよい。
図1において、100は、画像入力部であり、物体を撮像して画像データを取得する。画像入力部100は、図39における撮像装置398に対応する。画像入力部100は、画像データを取得するとRAM392等のメモリにバッファリングする。
本実施形態においては、画像入力部100が入力する画像データは顔の撮像画像に係るものである。また、本実施形態では、画像データは複数のフレームから構成された動画像に係るものとする。
101は、顔位置検出部であり、位置姿勢を求める物体としての、顔の位置を特定する。顔位置検出部101は、顔の位置を特定するために図2で模式的に示すように多層の神経回路網(第一のCNN)を用いる。図2は、神経回路網を示した模式図である。
本実施形態では、神経回路網として、特にConvolutional Neural Networks(以下、CNNと称する)を用いることにより、デジタル画像中の顔の位置を特定する。CNNは公知技術である。例えば、M.Matsugu, K.Mori, M.Ishii and Y.Mitarai “Convolutional Spiking Neural Network Model for Robust Face Detection”, 9th International Conference on Neural Information Processing,pp.660-664, Nov 2002に開示されている。CNNは、本実施形態に係る情報処理装置において、ハードウェア及びプログラムの協働により実現される。顔位置検出部101の動作の詳細は後述する。
102は表情認識部であり、図6のような構成をしている。図6は、表情認識部102の詳細な機能構成を示した図である。図6のように、表情認識部102は所定特徴量抽出部110、特徴量変化量算出部111、表情判定部112から構成される。表情判定部112は、特徴量と表情との対応が示されたテーブル113を参照してニューロンに表情判定の学習を行わせる。
本実施形態の構成では、顔位置検出部101において画像に基づき顔の位置を検出するCNN(第一のCNN)と、表情認識部102において表情を認識するために必要な特徴点を得るためのCNN(第二のCNN)の2つのネットワークを使用する。
所定特徴量抽出部110は顔位置検出部101において検出された、撮像対象の顔位置に基づいて表情の認識に必要な所定の特徴量を抽出する。特徴量変化量算出部111は、所定特徴量抽出部110において抽出された特徴量の変動に応じて所定特徴量変化量を正規化する。この正規化は画像データにおける特徴点の配置に基づいて、この特徴点の位置を補正する処理である。表情判定部112は、特徴量変化量算出部111において正規化された各特徴量変化量に基づいて表情の判定を行う。表情認識部102を構成する所定特徴量抽出部110、特徴量変化量算出部111、表情判定部112の詳細は後述する。
〔全体処理〕
次に、本実施形態に係る構成において実行する全体処理について図29を参照して説明する。図29は、本実施形態に係る全体処理の流れを示したフローチャートである。
まず、ステップS270では、顔位置検出部101において、画像入力部100で取得した画像データの間引き処理及びヒストグラム補正処理を行う。ここで、間引き処理を行った後の画像解像度は、例えば360×240[pixels]である。
次に、ステップS271では、顔位置検出部101において、CNNを用いて画像中の顔位置判定処理を行う。この顔の位置を判定するCNNの入力画像の画像解像度は更なる間引き処理を行うことにより、例えば、180×120[pixels]とする。
次に、ステップS272では、顔が検出されたか否かを、表情認識部102において判定する。検出された場合(ステップS272でYES)はステップS273へ進む。検出されなかった場合(ステップS272でNO)はステップS270へ戻り、次のフレームの画像データについて同様の処理を行う。
ステップS273では、所定特徴量抽出部110において、顔位置検出のための第一のCNNを利用して抽出された顔・目位置を用いて鼻孔特徴点抽出範囲の設定を行う。
次に、ステップS274では、所定特徴量抽出部110において、ステップS273で設定された抽出範囲に基づいて鼻孔特徴点を抽出する。
次に、ステップS275では、所定特徴量抽出部110において、顔の位置を判定するCNNを利用して取得された目・口位置と、ステップS274で抽出された鼻孔特徴点位置を用いて、鼻孔特徴点以外の特徴点抽出範囲の設定を行う。
次に、ステップS276では、所定特徴量抽出部110において、ステップS275で設定された各抽出範囲に基づいて第二のCNNを用いて特徴点抽出を行う。特徴点を抽出するための第二のCNNの入力画像の解像度は、例えば、360×240[pixels]とする。
次に、ステップS277では、所定特徴量抽出部110において、ステップS273乃至S276の処理により全ての特徴点が抽出されたか否かを判定する。全ての特徴点が抽出されている場合(ステップS277でYES)はステップS278へ進む。抽出されていない場合(ステップS277でNO)はステップS270へ戻り、次のフレームについて同様の処理を行う。
ステップS278では、特徴量変化量算出部111において、あらかじめ用意された無表情の参照顔との比較により各特徴量変化量を算出し、変動に応じて正規化する。即ち、画像データにおける特徴点の配置に基づいて、この特徴点の位置を補正する。この無表情の参照顔のデータは、HD395等の記憶装置に予め記憶されている。
次に、ステップS279では、表情判定部112において、表情を判定するためのNNを利用して表情判定が行う。そして処理を終了する。ただし、NNはニューラルネットワーク(Neural Network)である。
以下、各機能構成における処理を説明することにより上記の各ステップにおける処理について詳述する。
〔顔位置検出部101〕
次に、顔位置検出部101の機能について詳細に説明する。顔位置検出部101は、顔の特定箇所の画像データにおける位置(顔位置)を顔の輪郭に基づいて検出する。
顔位置検出部101は画像入力部100によりバッファに記憶された画像データを取得し、前処理として間引き処理による解像度変更と、照明条件の影響を軽減させるためのヒストグラム補正を行う。そして、CNNに補正された画像データを入力する。
上述のように、画像入力部100が取得した画像データはバッファに一時的に記憶される。顔位置検出部101は、バッファから画像データを読み出す際には、間引き処理として1画素おきに画像データを読み込む。例えば、バッファされた画像データの解像度が720×480[pixels]の場合、間引き処理により画像入力部100が取得する画像データは360×240[pixels]の解像度を持つことになる。
次に、以下に述べるヒストグラム補正を行う。即ち、まず、図3のように入力画像に対して輝度値ヒストグラム130を作成する。図3は、ヒストグラム補正の処理を模式的に示した図である。輝度値ヒストグラム130は入力画像(画像データ)の各画素について輝度値の分布を示しており、横軸が輝度値、縦軸が画素数(度数)を示している。
次に、輝度値ヒストグラムから山の端(輝度値の最大値及び最小値)の輝度値X131、Y132を抽出する。そして、抽出した山の端の輝度値131及び輝度値132が夫々、例えば、輝度値0及び輝度値255になるように非線形関数133を用いて輝度値変換を行う。この非線形関数は、予め、照明条件による陰影などの影響を低減する、即ち、低輝度領域の階調を強調するような関数が選択され、情報処理装置に設定されるものとする。
以上のように、低輝度領域の階調を強調するように輝度補正を行うことで、撮影条件に関わらず精確に画像認識を行うことができる。
なお、ヒストグラム補正は上記の手法に限られない。例えば、予め輝度値の上限値及び下限値を設定しておく。そして、輝度値が下限値以下の画素を輝度値0に変換し、輝度値が上限値以上の画素を輝度値255に変換する。更に、輝度値が下限値と上限値の間の画素を、輝度値が下限値以下の画素、或いは、輝度値が上限値以上の画素等に基づいて適宜変換する。例えば、このように変換してもよい。
CNNは、各階層毎の各特徴が多数のニューロンで構成されており、本実施形態の場合、1つのニューロン出力が画像データのある画素での特徴検出結果を表している。例えば、ある階層特徴に前階層特徴が1つだけ結合している場合(CNNのサブサンプリング層若しくは特徴プーリング層)を考える。この場合、図4のように前階層特徴の複数ニューロン120とそれぞれに対応する荷重係数データとの積和演算によって、その階層での1つのニューロン121の内部状態値を得ることができる。図4は、ある階層特徴の1つのニューロンと前階層特徴の複数ニューロンとの結合関係を示した図である。
1つのニューロンが結合する前階層でのニューロン数は、特定の特徴を抽出するために決定された特徴毎の受容野サイズと呼ばれるものによって異なる。例えば、ある特徴を得るための受容野サイズを3×5とした場合、図5のように、前階層における3×5個の複数ニューロン値122と3×5個の荷重係数との積和演算から1個のニューロンの内部状態値124が算出される。図5は、ある階層特徴の隣接する夫々のニューロンを算出するために必要な前階層ニューロンとの結合関係を示した図である。
ニューロン内部状態値124の1画素隣のニューロン値125を算出する際には、前階層の複数ニューロン122から領域を1画素シフトさせた複数ニューロン群123と荷重係数との積和演算によって得ることができる。つまり、前の階層において受容野と呼ばれる領域を上下左右にシフトさせながら、その時々の受容野内に位置する複数ニューロン値と荷重係数データセットとの積和演算を繰り返し行う畳み込み演算を実行する。このようにすることで、現階層における全てのニューロンの内部状態値を得ることができる。図2のようにある階層特徴に複数の前階層特徴が結合している場合(CNNの特徴検出層)には、結合している前階層特徴毎に得られる内部状態値の総和が1個のニューロンの内部状態値となる。
なお、荷重係数データは、あらかじめ与えられる教師データを使用し学習することによって得られるが、使用する教師データによって様々な特長を持つCNN(階層特徴)を作成することができる。例えば、顔の位置を検出するCNNの教師データ群に照明変動、サイズ変動、回転変動などの様々な変動を与え学習した場合、照明変動のみなど特定の変動だけに特化して学習した場合と比較して位置検出精度が低くなる。その代わり、これらの変動に頑健な顔検出CNN(階層特徴)を作成することができる。また、例えば、目の端V字のみを学習の教師データ群として与えることによって、目の端V字しか検出できないけれども、目の端V字位置検出が高精度な階層特徴を作成することができる。
本実施形態におけるCNNの各階層の説明を行う。図2の入力層の入力画像は、処理負担を軽減するために、更に間引き処理を行うことによって180x120[pixels]の解像度とした画像データを顔の位置を特定するためのCNNの入力画像とする。
本実施形態に係るCNNは、図2のように3つの階層から構成される。第1層レベル(第1階層201)においては斜め(右上がり、右下がり)エッジ、水平方向エッジ、垂直方向エッジの計4特徴を抽出し、顔の輪郭を認識する。第2層レベル(第2階層202)においては、目・口位置特徴を抽出する。
第3階層レベル(第3階層203)において顔位置を抽出する。ただし、顔位置とは、図9のように、目領域の重心位置160と161、口領域の重心位置163、顔領域の重心位置162、後述の鼻孔位置等の、顔画像における予め定義された特定箇所である。尚、図9は、顔の位置を検出するCNNから得られる顔、左右目、口重心位置を示した模式図である。
このように、本実施形態に係るCNNは、複数の低次特徴(エッジレベル)検出結果を組み合わせることによって中次特徴(目・口)位置を抽出し、中次特徴(目・口)検出結果から高次特徴(顔位置)位置を順次検出するようなネットワーク構成としている。
上述のように、これらの特徴が検出されるのは、あらかじめ教師データを用いて学習した荷重係数を用いているためである。顔を検出するCNNにおいて学習に用いる教師データは、サイズ変動、回転変動、照明変動、形状変動など様々な変動の画像データに基づいて生成されている。このため、これら複数の変動が生じた場合でもロバストな顔・目・口の位置検出が可能なネットワークが構築されている。
画像データの学習は、例えば、同一の物体(顔)について、以下のような条件の、変動する環境において得られた撮像画像に基づいて行うことができる。
(1)サイズが約3倍以内で変動する。
(2)上下左右奥行き方向に45°以内で回転変動する。
(3)面内において左右方向に45°以内で回転変動する。
(4)屋内及び屋外照明環境下で撮影することによって照明条件が変動する。
(5)目及び口等において縦及び横方向に形状変動する。
更に、目・口・顔に対しては、それらの領域の重心周辺領域を正解位置とするようにして学習を行うように構成することができる。即ち、目・口・鼻の正解位置は、目・口・顔の検出位置の積和演算結果について閾値処理を行い、閾値以上の局所領域の重心位置を算出することにより求めることができる。なお、目・口位置は、顔の位置が決定されることで初めて決定される。つまり、目と口の位置を検出する積和演算と閾値処理においては目と口の位置の候補を検出し、その後の顔の位置を決定する積和演算と閾値処理において顔位置が決定されることにより、初めて目と口の位置が決定される。
CNNのネットワークを構成する階層数、特徴数及び各特徴間の結合関係は別の構成としても良い。目・口・顔特徴などのニューロン値から得られる位置情報算出は、閾値処理や重心算出する方法以外にニューロン値の最大値を用いるなど別の方法を用いても良い。更に、画像入力部から得られる画像データの解像度は720x480[pixels]に限られない。同様に、顔の位置を検出するCNNの入力画像の画像解像度も180x120[pixels]に限られない。
〔所定特徴量抽出部110〕
次に、表情認識部102を構成する所定特徴量抽出部110について説明する。後に詳述するように、所定特徴量抽出部110は、まず、顔位置検出部101において検出された顔位置に基づいて画像データに領域を設定する。次に、設定された領域内において顔の特徴点を探索する。次に、探索された特徴点に基づいて表情を判定する判定する。
前述のように本実施形態の構成では、顔位置検出部101において画像に基づき顔位置を検出するCNN(第一のCNN)と、表情認識部102において表情認識に必要な特徴点を得るためのCNN(第二のCNN)の2つのネットワークを使用する。所定特徴量抽出部110は、まず顔位置検出部101で得られた目・口・顔検出位置と入力画像に基づいて、第二のCNNで表情認識に必要な特徴点の抽出を行う。なお、表情を認識するために必要な特徴点を抽出する第二のCNNは図7のような構成となる。図7は、特徴点を抽出するためのCNNの構成を示した図である。
特徴点を抽出するための第二のCNNにおいて、入力画像は顔の位置を特定する第一のCNNの前処理で行われたヒストグラム補正画像とし、画像解像度は360x240[pixels]とした。特徴点を抽出するための第二のCNNにおいては、顔の位置を検出する第一のCNNでの入力画像のように更なる間引きは行わないで360x240[pixels]の高解像度のままで処理を行う。これは、画像領域中の微小領域に存在する特徴点を正確に抽出する必要があるためである。なお、特徴点を抽出する第二のCNNの入力画像解像度は360x240[pixels]に限られない。
特徴点を抽出するための第二のCNNは図7のように2階層レベル(701,702)からなる。第1階層レベル701は斜めエッジ(右上がり、右下がり)、水平方向エッジ、垂直方向エッジの計4特徴を抽出する。第2階層レベル702は、図8のように表情認識に必要な各特徴点(左右眉毛の特徴点140〜145、左右目の特徴点146〜153、鼻孔特徴点154、口特徴点155〜158)を抽出するために、1つの特徴点に対してCNNの1つの特徴を用意している。図8は、抽出する各特徴点を示した模式図である。
特徴点を抽出する第二のCNNについても、顔を検出するための第一のCNN同様にあらかじめ夫々教師データを用いて学習し、学習で得られた荷重係数を用いることによって各特徴点を正確に得ることができる。また、特徴点を抽出するための第二のCNNの学習データは、顔の位置を検出する第一のCNNとは異なり、特定の変動のみの学習データを用いている。よって、顔を検出する第一のCNNのように検出ロバスト性を大きく有してはいないが、その代わりに特徴点抽出をする第二のCNNの各特徴の位置検出精度が非常に高くなる。
尚、本実施形態においては、目と口の形状変動と照明変動の特定変動のみの画像を用いて学習を行うものとするがこれに限られない。例えば、照明変動のみの画像で学習をする際には、特徴点抽出精度が低下しない程度で、照明変動幅を変化させた画像、つまり様々な照明環境での画像を用いて学習を行っても良い。また、照明変動とサイズ変動画像など、他の特定変動のみの画像を用いて学習を行うようにしてもよい。更に、サイズ変動、回転変動、照明変動毎の同一の特徴点をする特徴を用意しても良い。また、特徴点を抽出する第二のCNNも顔を検出する第一のCNN同様に、階層数、特徴数及び各特徴間の結合関係は別の構成としても良い。また、特徴点を抽出するCNNにおいて、1つの特徴から1つの特徴点を抽出することに限定しているわけではなく、右目目尻(くの字)と左目目頭(くの字)のように類似しているような特徴の特徴点をCNNの同一の特徴から抽出するように構成してもよい。
所定特徴量抽出部110は、特徴点を抽出する第二のCNNを利用して、各階層の各特徴について処理領域を限定し、演算を行う。具体的には、顔の位置を検出する第一のCNN(顔位置検出部101)においてそれぞれ算出される顔位置に基づいて各特徴点を抽出するための処理領域限定範囲を決定する。このような顔位置には、例えば、図9のような目領域の重心位置160と161、口領域の重心位置163、顔領域の重心位置162と、後述の鼻孔位置が含まれる。
(領域限定処理)
次に、所定特徴量抽出部110が鼻孔重心位置を抽出するために実行する領域限定処理について、図10を参照して詳しく説明する。図10は、鼻孔位置を得るための鼻孔重心位置算出範囲(重心算出範囲)、重心算出範囲を得るために必要な積和演算範囲、重心算出範囲を得るために必要な入力画像範囲を示した模式図である。
図10において、173は重心算出範囲である。図10のように、重心算出範囲173は矩形の領域であり、その横方向の範囲は右目検出位置170及び左目検出位置171に基づいて決定される。また、重心算出範囲173の縦方向の範囲は、右目検出位置170又は左目検出位置171と、口検出位置172とに基づいて決定される。
なお、重心算出範囲173は得られたニューロン値から重心位置を算出する際の範囲として利用される。重心算出範囲173において重心を算出するためには、重心算出範囲173内にニューロン値が存在しなければならない。重心算出範囲173内にニューロン値が存在するために必要な入力画像データの必要最低限の領域は、鼻孔を検出するための受容野サイズと第1階層の各特徴の受容野サイズを用いて計算することができる。
つまり、鼻孔位置重心算出範囲173でニューロン値を得るためには、鼻孔を検出するための受容野サイズの半分だけ更に増加した領域174の第1階層の各特徴ニューロン値が必要となる。よって、第1階層レベルの各特徴においては領域174のニューロン値が必要となる。更に、第1階層において領域174のニューロン値を得るためには、第1階層の各特徴を抽出するための受容野サイズの半分だけ更に増加した領域175の入力画像データが必要となる。このようにして、鼻孔位置重心算出範囲のための必要最低限な入力画像データ領域を算出することができる。鼻孔位置は、これらの限定された範囲内において、上述のように、前階層のニューロン値と荷重係数の積和演算を行い、閾値処理と重心位置検出などをすることによって算出できる。
また、鼻孔重心位置は、例えば、図11の右鼻孔重心位置176、左鼻孔重心位置177、右左鼻孔の重心位置、鼻下エッジ178等のうち、どれを鼻孔重心位置とするようにしても良い。図11は、左右夫々の鼻孔位置、鼻下エッジを示した模式図である。
これらの設定は、学習する際に、鼻孔位置として設定する箇所を含む領域を受容野として設定し、学習正解点を鼻孔位置として設定する箇所を含む領域の重心位置として学習を行えばよい。図12は、左右鼻孔位置の重心、右鼻孔位置の重心、鼻下エッジの重心を算出するために必要な受容野を示した模式図である。
例えば、鼻孔位置を右左鼻孔の重心位置とする場合は、図12(a)のように左右鼻孔を含む領域を受容野として設定し、学習正解点を左右鼻孔の重心位置として学習を行えばよい。鼻孔位置を右鼻孔の重心位置176とする場合は、図12(b)のように右鼻孔を含む領域を受容野として設定し、学習正解点を右鼻孔の重心位置として学習を行えばよい。鼻孔位置を鼻下エッジ178とする場合は、図12(c)のように鼻下エッジを含む領域を受容野として設定し、学習正解点を鼻下エッジの重心位置として学習を行えば良い。以下、本実施形態では、左右鼻孔の重心位置を鼻孔位置とする。なお、以下で説明する他の特徴点に関しては、鼻孔位置を基準とした相対位置で表すものとする。
(特徴点重心算出範囲設定処理)
次に、鼻孔特徴点以外の特徴点を抽出するための特徴点重心算出範囲を設定する処理について図13乃至18、図20を参照して説明する。図13乃至18は重心算出範囲を示した図であり、それぞれ、左右眉毛中点特徴点、左右目端点特徴点、左右目上下特徴点、口端点特徴点、口上下特徴点を得るための重心算出範囲を示している。図20はすべての特徴点を得るために必要な必要最低限の入力画像領域を示した図である。以下、右目検出位置181と左目検出位置182間距離をLとして説明を行う。また、横方向幅はx軸方向、縦方向幅はy軸方向の位置として定義する。
まず、左右眉毛の各特徴点を抽出するための重心算出範囲について説明する。図13において、図8の特徴点140を抽出するための領域183は、横領域幅を「右目検出位置181のx座標−L/2」から「右目検出位置181のx座標」までのx軸方向領域とする。そして、縦領域幅を「右目検出位置181のy座標−L/2」から「右目検出位置181のy座標」までのy軸方向領域としたものである。図8の特徴点142を抽出するための領域184は、横領域幅を「右目検出位置181のx座標」から「鼻孔位置180の位置のx座標」までのx軸方向領域とする。そして、縦領域幅を「右目検出位置181のy座標−L/2」から「右目検出位置181のy座標」までのy軸方向領域としたものである。
図14において、図8の特徴点141を抽出するための領域187は、横領域を「右目検出位置181のx座標−L/4」から「右目検出位置181のx座標+L/4」の位置までのx軸方向領域とする。そして、縦領域幅を「右目検出位置181のy座標−L/2」から「右目検出位置181のy座標」までのy軸方向領域としたものである。同様に、左眉毛特徴点抽出領域185、186、188も右眉毛特徴点抽出領域183、184、187と同様に領域設定を行う。
次に、左右目の各特徴点を抽出するための重心算出範囲について説明する。図15において、図8の特徴点146を抽出するための領域189は、横領域幅を「右目検出位置181のx座標−L/2」から「右目検出位置181のx座標」までのx軸方向領域とする。そして、縦領域幅を「右目検出位置181のy座標−L/2」から「右目検出位置181のy座標+L/2」までのy軸方向領域としたものである。図8の特徴点149を抽出するための領域190は、横領域幅を「右目検出位置181のx座標」から「鼻孔位置180のx座標」までのx軸方向領域とする。そして、縦領域幅を「右目検出位置181のy座標−L/2」から「右目検出位置181のy座標+L/2」までのy軸方向領域としたものである。
図16において、特徴点147を抽出するための領域193は、横領域幅を「右目検出位置181のx座標−L/8」から「右目検出位置181のx座標+L/8」までのx軸方向領域とする。そして、縦領域幅を「右目検出位置181のy座標−L/4」から「右目検出位置181のy座標」までのy軸方向領域としたものである。図8の特徴点148を抽出するための領域194は、横領域幅を「右目検出位置181のx座標−L/8」から「右目検出位置181のx座標+L/8」までのx軸方向領域とする。そして、縦領域幅を「右目検出位置181のy座標」から「右目検出位置181のy座標+L/4」までのy軸方向領域としたものである。同様に、左目特徴点抽出領域191、192、195、196も右目特徴点抽出領域189、190、193、194同様に領域設定を行う。
次に、口の各特徴点を抽出するための重心算出範囲について説明する。以下、図17の鼻孔位置180と口検出位置197の距離をL1とする。また、上記と同様に、横方向幅はx軸方向、縦方向幅はy軸方向の位置として定義する。
図17において、図8の特徴点155を抽出するための領域198は、横領域幅を「口検出位置197のx座標−2L/3」から「口検出位置197のx座標」とする。そして、縦領域幅を「口検出位置197のy座標−L1」から「口検出位置197のy座標+L1」までとしたものである。図8の特徴点158を抽出するための領域199は、横領域幅を「口検出位置197のx座標」から「口検出位置197のx座標+2L/3」までとする。そして、縦領域幅を「口検出位置197のy座標−L1」から「口検出位置197のy座標+L1」までとしたものである。
図18において、図8の特徴点156を抽出するための領域200は、横領域幅を「口検出位置197のx座標−L/4」から「口検出位置197のx座標+L/4」までとする。そして、縦領域幅を「鼻孔位置180のy座標」から「口検出位置197のy座標」までとしたものである。図8の157を抽出するための領域201は、横領域幅を「口検出位置197のx座標−L/4」から「口検出位置197のx座標+L/4」までとする。そして、縦領域幅を「口検出位置197のy座標」から「口検出位置197のy座標+L1」までとしたものである。
以上のように、所定特徴量抽出部110は、顔位置検出部101において検出された撮像対象の顔位置に基づいて、特徴点を抽出するための各重心算出範囲を決定する。そして、上述のように、各特徴点を得るための受容野サイズと第1階層の各特徴の受容野サイズを用いて、図20の斜線を付した領域210のように入力画像での必要最低限の入力画像データ領域を算出する。これらの領域を限定した処理により、特徴点を抽出する際のCNNの処理負担を軽減することができる。
なお、上記の構成においては、各特徴点を抽出するための領域設定を、現フレームの顔検出用の第一のCNNで得られる顔検出位置、左右目検出位置、口検出位置と鼻孔位置に基づいて行ったがこれに限られない。例えば、前フレームにおいて抽出された各特徴点(例えば、前フレームで抽出された鼻孔位置や特徴点)を基準として各特徴点を抽出したり、複数の特徴点間位置を基準として領域を設定するようにしてもよい。同様に、領域設定範囲に関しても上記に例示したものに限られない。
また、上記では、特徴点座標を鼻孔検出位置(図8の特徴点154)を基準とした相対位置として表す場合を述べたがこれに限られない。例えば、顔検出位置や目頭特徴点(図8の特徴点149、特徴点150)など特徴点を基準とした相対位置で示しても良い。
(特徴量)
次に、これら得られた各特徴点から表情を認識するために必要な各特徴量について図8,19を参照して説明する。図19は額、眉間及び頬領域を示した図である。
本実施形態では表情を認識するために利用する特徴量として以下を抽出する。ただし、以下に列挙したものは特徴量の例示であり、用途や目的に応じてどのような値を特徴量としてもよい。
・眉毛の形状(例えば、図8の特徴点140と特徴点141を結ぶ線分と、特徴点141と特徴点142を結ぶ線分とが形成する角度(傾き)。及び/又は、特徴点143と特徴点144を結ぶ線分と、特徴点144と特徴点145を結ぶ線分とが形成する角度(傾き))。
・左右眉毛間の距離(図8の特徴点142と特徴点143の間の距離)。
・眉毛と眼の間の距離(図8の特徴点140と特徴点146、特徴点141と特徴点147、特徴点142と特徴点149、特徴点143と特徴点150、特徴点144と特徴点151、特徴点145と特徴点153のそれぞれの距離)。
・眼の端点と口端点の距離(図8の特徴点146と特徴点155、特徴点153と特徴点158のそれぞれの距離)。
・眼端点間距離(図8の特徴点146と特徴点149、特徴点150と特徴点153のそれぞれの距離)。
・眼領域の上下間距離(図8の特徴点147と特徴点148間距離、特徴点151と特徴点152のそれぞれの距離)。
・口端点間距離(図8の特徴点155と特徴点158の間の距離)。
・口領域の上下間距離(図8の特徴点156と特徴点157の間の距離)。
・額及び眉間領域のシワ(図19の領域220と領域221のエッジ密度)。
・左右頬領域のシワ(図19の領域222、領域223の夫々のエッジ密度)。
なお、図19の額及び眉間領域220は、例えば、横領域幅が「右目検出位置181のx座標」から「鼻孔位置180のx座標」までのx軸方向領域とする。そして、縦領域が「右目検出位置181のy座標−2L/3」から「右目検出位置181のy座標」までのy軸方向領域である矩形領域とする。ただし、右目検出位置181と左目検出位置182間距離をLとする。また、頬領域222は、例えば、横領域幅が「鼻孔位置180のx座標−L」から「鼻孔位置180のx座標」までのx軸方向領域とする。そして、縦領域が「鼻孔位置180のy座標−L/4」から「口検出位置197のy座標」までのy軸方向領域である矩形領域とする。
エッジ密度の算出は、例えば、CNNの第1階層において行われるエッジ特徴抽出の結果に基づいて、上記領域内でエッジを構成する画素数をカウントし、上記領域の面積で除算することにより行うことができる。
〔特徴量変化量算出部111〕
次に、特徴量変化量算出部111について説明する。特徴量変化量算出部111は、予め用意された無表情顔画像と現フレームにおける顔画像との上記の各特徴量の比を算出することによって各特徴量の変化量を算出する。更に、画像中の顔のサイズ・回転変動に対して、各特徴量変化量の正規化を行う。上述のように、正規化は画像データにおける特徴点の配置に基づいて、この特徴点の位置を補正する処理である。
各変動は、図21のように、右目頭特徴点230の検出位置と目頭中点位置233との距離a1、左目頭特徴点231の検出位置と目頭中点位置233との距離b1、鼻孔位置232の検出位置と目頭間中点位置233との距離c1等に基づいて検出する。なお、予め設定(用意)された無表情顔画像おける、右目頭特徴点と目頭間中点位置233との距離、左目頭特徴点と目頭間中点位置233との距離、鼻孔位置と目頭間中点位置233との距離をそれぞれa,b,cと表記する。
顔のサイズ変動は、図22の現フレームで得られた各検出位置間距離a1(図21の240)、b1(図21の241)、c1(図21の242)と、予め設定された無表情顔画像から得られた同様の各検出位置間距離a、b、cとの比を算出して判定を行う。図22はサイズ変動時の左右目領域と顔領域の重心位置を示した図である。例えば、a:b:c=a1:b1:c1,a:a1=1:2の場合は顔のサイズ変動は2倍である。このような場合、上記算出された各特徴量変化量を夫々1/2倍することによって正規化が行う。
顔の左右回転変動は、例えば、図23の現フレーム画像でのa2:b2(図23の250と251)と予め用意された正面向きの無表情画像でのa:bを比較することによって算出することができる。図23は左右回転変動時の左右目領域と顔領域の重心位置を示した図である。
例えば、図23のように奥行き左方向に回転された顔について認識を行う場合を考える。ただし、予め用意された正面向きの無表情画像においてはa:b=5:5、現フレーム画像においてはa2:b2=5:3(図23の250と251)であるとする。この場合、左眉毛端点間距離、左目端点間距離、口端点間距離の左方向回転に影響がある水平方向特徴量を(a2/b2)/(a/b)倍することによって正規化を行うことができる。ただし、左眉毛端点間距離は、例えば、図8の特徴点143と特徴点145との間の距離である。左目端点間距離は、例えば、図8の特徴点150と特徴点153との間の距離である。口端点間距離は、例えば、図8の特徴点155と特徴点158と間の距離である。
なお、眉毛形状に関しては、特徴点143と特徴点144から算出される水平方向領域、及び特徴点144と特徴点145から算出される水平方向領域を(a2/b2)/(a/b)倍することで正規化を行うことができる。
顔の上下回転変動は、現フレームの顔画像での距離c3(図24の262)と、予め用意された正面向きの無表情顔画像での距離cの比に基づいて判定することができる。図24は、上下回転変動時の左右目領域と顔領域の重心位置を示した模式図である。例えば、a/a3=b/b3=1、c:c3=2:1の場合は顔を上下方向のみに変動させたことになる。正規化は、この場合、眼の端点と口端点の距離、眉毛と眼の間の距離、眼領域の上下間距離、口領域の上下間距離等の垂直方向特徴量に関して、c3/c倍とした値を変化量とすることにより実行することができる。
ただし、眼の端点と口端点の距離は、例えば、図8の特徴点146と特徴点155、特徴点153と特徴点158の、それぞれの間の距離とする。眉毛と眼の間の距離は、例えば、図8の特徴点140と特徴点146、特徴点141と特徴点147、特徴点142と特徴点149、特徴点143と特徴点150、特徴点144と特徴点151、特徴点145と特徴点153の、それぞれの間の距離とする。眼領域の上下間距離は、例えば、図8の特徴点147と特徴点148の間の距離、及び、特徴点151と特徴点152の間の距離とする。口領域の上下間距離は、例えば、図8の特徴点156と特徴点157間距離とする。
以上のように構成することで、右目頭特徴点と左目頭特徴点と鼻孔位置を用いて各変動を検出することができる。なお、回転とサイズ変動の両方が生じた場合でも、上記と同様の処理(右目頭特徴点と左目頭特徴点と鼻孔位置を使用)を用いて特徴量を正規化することができる。また、上述した正規化処理は一例でありこれに限られない。例えば、右目検出位置と左目検出位置と顔検出位置など顔の各パーツや、他の特徴点を用いて各変動検出し、各特徴量変化量に対して正規化を行うように構成してもよい。
〔表情判定部112〕
次に、表情判定部112について図25を参照して説明をする。図25は表情を判定するCNNの構成を示した模式図である。
表情判定部112は、図25のように、特徴量変化量算出部111において正規化された各特徴量変化量を入力とする入力層2501と、中間層2502と、表情判定結果を示す出力層2503の、3層のニューラルネットワークを用いて判定を行う。本実施形態では、入力層の各特徴量変化量、及び、出力層の表情判定結果には、夫々1つのニューロンで割り当てられている構成としている。
入力層2501は正規化された特徴量変化量を受け取る。本実施形態において、入力層2501が受け取る特徴量変化量は、例えば、次の22特徴である。
・「眉毛の形状」特徴量変化量(4つ)。
・「左右眉毛間の距離」特徴量変化量(1つ)。
・「眉毛と眼の間の距離」特徴量変化量(6つ)。
・「眼の端点と口端点の距離」特徴量変化量(2つ)。
・「眼端点間距離」特徴量変化量(2つ)。
・「眼領域の上下間距離」特徴量変化量(2つ)。
・「口端点間距離」特徴量変化量(1つ)。
・「口領域の上下間距離」特徴量変化量(1つ)。
・「額及び眉間領域のシワ(エッジ密度)」特徴量変化量(1つ)。
・「左右頬領域のシワ(エッジ密度)」特徴量変化量(2つ)。
中間層(隠れ層)2502は表情判定を行うために必要な、中間的な処理を行う層である。本実施形態では、10のニューロン(特徴)から構成される
出力層2503は中間層2502からの入力に基づいて表情の判定を行う。本実施形態において出力層2503には、それぞれ「喜び」、「怒り」、「悲しみ」、「哀れみ」、「無表情」、「悩み」、「哀れみ」、「驚き」等の表情を出力とする8特徴(ニューロン)が存在する。
認識対象の顔がある表情を形成すると、特定の特徴量変化量が増減する。例えば、「喜び」の表情においては、無表情状態と比較すると次のように増減する。即ち、目の端点と口の端点距離(図8の146と155、153と158)変化量が減少する。そして、口端点間距離(図8の155と158)変化量、頬領域のエッジ密度(図19の領域222、223のエッジ密度)変化量、目尻と目頭間距離(図8の146と149、150と153)変化量が増加する。
このため、増減する特徴量変化量の種類と特徴量変化量の増減の大きさから認識対象の顔の表情を判定することができる。そこで、本実施形態では、表情毎に予め各特徴量変化量の閾値を設定しておき、この閾値と検出された各特徴量変化量との大小比較に基づいてNNに表情を学習させる。学習は、各特徴量変化量の閾値との大小関係に基づいて判定される、表情に対応したニューロンの出力が1となるように行う。ただし、出力層2503が出力する値の範囲は0〜1とする。
例えば、「喜び」の表情に対応して、各特徴量変化量の閾値を以下のように設定する。ただし、無表情状態の特徴量変化量を1とする。
・目の端点と口の端点距離(図8の146と155、153と158)変化量:0.7。
・口端点間距離(図8の155と158)変化量(特徴量変化量2):1.2。
・頬領域のエッジ密度(図19の領域222、223のエッジ密度)変化量(特徴量変化量4):1.2。
・目尻と目頭の間の距離(図8の146と149、150と153)変化量(特徴量変化量5):1.1。
・他の特徴量変化量:1.0。
そして、目の端点と口の端点距離変化量の値が閾値(0.7)以下であり、口端点間距離変化量、頬領域のエッジ密度変化量、目尻と目頭の間の距離変化量が、それぞれの閾値(1.2、1.2、1.1)以上の場合に「喜び」を学習させる。即ち、「喜び」に対応するニューロンの出力が1又は1に近い値となるようにNNに学習させる。上記の閾値の値は各表情毎にテーブル113に格納されている。図40はテーブル113の内容を例示した図である。表情判定部112は、テーブル113を参照してニューロンの学習を制御する。テーブル113はHD395等の記憶装置に予め定義しておく。
尚、学習は、入力層での入力に対応して、NNの出力層2503に教師データを与えることにより行う。このように、表情判定部112は、特徴量変化量を入力として出力層での表情を判定するニューロンを参照することで表情を判定することができる。
尚、入力層2501、中間層2502、出力層2503に関しても上記の構成に限定されるわけではない。例えば、入力層2501への入力、及び、出力層2503の出力について、予め閾値を設定しておき、その閾値以上の値を1、その閾値以下の値を0とすることによって、0、1を入出力とするような構成にしてもよい。また、判定する表情は例示した「喜び」に限られず、例えば、「怒り」、「悲しみ」、「哀れみ」、「無表情」、「悩み」、「哀れみ」、「驚き」等について判定してもよいことは明らかである。
また、表情判定のためのNNの出力層において、強い(上限値に近い値の)出力を行う特徴が複数存在する場合もある。この場合は、強い出力を行っているニューロンのグループに基づいて表情を決定する。例えば、「喜び」と「悲しみ」の表情が得られた場合、即ち、「喜び」に対応するニューロンと「悲しみ」に対応するニューロンがともに強い出力を行った場合は「嬉し泣き」のような表情に該当すると判定する。出力層2503を構成する複数のニューロンが強い出力を行った場合における表情の判定は、例えば、次のように行うことができる。即ち、事前に、強い出力を行っているニューロンのグループと表情との対応関係を示したテーブルをHD395等の記憶装置に更に用意しておき、判定の際にこのテーブルを参照して行うことができる。
上記の構成においては、例えば、特徴量に予め設定された重み付け値を乗じた上で前記判定を行うようにしてもよい。また、表情の判定は上記のような手法に基づく構成に限られない。或いは、ここで上記とは異なった手法に基づく表情の判定処理について、図26乃至28を参照して説明する。図26は、表情「喜び」を判定するために各特徴量変化量から得点を算出する際の各特徴量変化量の重み(重み付け値)を示す図である。図27は、各特徴量変化量から算出された得点分布を示す図である。図28はあらかじめ用意された表情「喜び」に対応する得点分布テンプレートを示す図である。
まず、図26のように各表情に応じて特徴量変化量に重み付けを行い、これら重みと各特徴量変化量の積から特徴量毎に得点を算出する。そして、算出された得点に基づいて表情得点分布を作成する。次に、作成した表情得点分布と、予め設定しておいた表情毎の、得点分布テンプレートとを比較し、得点分布の傾向が類似するテンプレートに対応する表情を、認識対象物体としての顔が示す表情と判定する。
例えば、算出された喜び表情を判定するための得点分布を図27とする。そして、この得点分布と類似する、予め設定された得点分布のテンプレートが、図28の「喜び」の表情に対応するテンプレートであるとする。この場合は表情を「喜び」と判定する。
上記のように本実施形態に係る撮像装置においては、顔の特定箇所の画像データにおける位置(顔位置)を顔の輪郭に基づいて検出し、検出された顔位置に基づいて特徴点を探索する領域を設定する。そして、画像データの全ての領域ではなく、設定された領域内のみにおいて特徴点の探索を行う。これにより、効率的に探索作業を行うことができる。
また、本実施形態に係る撮像装置においては、低解像度の画像データを用いて顔位置の検出を行う。また、特徴点の探索は高解像度の画像データを用いて行う。これにより、特徴点の探索作業を効率的に進めることができ、かつ、精確に特徴点を抽出でき、従って、精確な表情判定を行うことができる。
本実施形態に係る撮像装置においては、2つのネットワーク(ニューラルネットワーク)を用いることによって、様々な変動が生じた場合でも高精度に特徴点を抽出することができる。更に、これら高精度な特徴点抽出により微小な顔面特徴変化に伴う表情変化をも認識することができる。
<<第2実施形態>>
第1実施形態では、あらかじめ登録された無表情の参照顔の特徴量と、認識対象の顔の特徴量とを比較し、算出された各特徴量の変化量に基づいて表情を判定していたが、表情の判定手法はこれに限られない。本実施形態では測定画像の各フレームを解析して取得される動きベクトルに基づいて表情の変化を判定する構成について説明する。尚、本実施形態に係る情報処理装置のハードウェア構成は第1実施形態の構成と同様である。
〔情報処理装置の機能構成〕
まず、本実施形態に係る物体認識のための機能構成について、図30を参照して説明する。図30は、本実施形態に係る情報処理装置の機能構成を示したブロック図である。
図30のように、本実施形態に係る情報処理装置の機能構成は、画像入力部300、顔位置検出部301、表情認識部302からなる。画像入力部300と顔位置検出部301での処理は第1実施形態と同様であるため、説明を省略する。
図31は、表情認識部302の機能構成を示したブロック図である。図31のように、本実施形態において、表情認識部302は、所定特徴点抽出部310と動きベクトル算出部311と表情判定部312から構成される。表情判定部312は、動きベクトルと表情の変化との対応が示されたテーブル313を参照してニューロンに表情変化判定の学習を行わせる。所定特徴点抽出部310での処理は第1実施形態と同様であるため、説明を省略する。本実施形態では、特徴点座標を顔の検出位置を基準とした座標で表した場合について説明するが、これに限られない。
動きベクトル算出部311は、顔位置検出部301で検出された顔位置を基準として顔の位置を始点、各特徴点を終点とした動きベクトルを算出する。表情判定部112は、第1実施形態同様にNNを用いて表情判定を行う。
〔全体処理〕
次に、本実施形態に係る構成において実行する全体処理について図36を参照して説明する。図36は、本実施形態に係る全体処理の流れを示したフローチャートである。
まず、ステップS320では、顔位置検出部301において、画像入力部300で得られた画像データの間引き処理及びヒストグラム補正処理を行う。ここで、間引き処理を行った後の画像解像度は、例えば、360×240[pixels]である。
次に、ステップS321では、顔位置検出部301において、CNNを用いて画像中の顔位置判定処理を行う。この顔の位置を判定するCNNの入力画像の画像解像度は更なる間引き処理を行うことにより、例えば、180×120[pixels]としている。
次に、ステップS322では、顔が検出されたか否かを、表情認識部302において判定する。検出された場合(ステップS322でYES)はステップS323へ進む。検出されなかった場合(ステップS322でNO)はステップS370へ戻り、次のフレームの画像データについて同様の処理を行う。
ステップS323では、所定特徴量抽出部310において、顔位置検出のための第一のCNNを利用して抽出された顔・目位置を用いて鼻孔特徴点抽出範囲の設定を行う。
次に、ステップS324では、所定特徴量抽出部310において、ステップS323で設定された各抽出範囲に基づいて第二のCNNを用いて特徴点抽出を行う。特徴点を抽出するための第二のCNNの入力画像の解像度は、例えば、360×240[pixels]とする。
次に、ステップS325では、所定特徴量抽出部310において、ステップS323乃至S324の処理により全ての特徴点が抽出されたか否かを判定する。全ての特徴点が抽出されている場合(ステップS325でYES)はステップS326へ進む。抽出されていない場合(ステップS325でNO)はステップS320へ戻り、次のフレームについて同様の処理を行う。
ステップS326では、動きベクトル算出部311において、前フレームで算出されたベクトルと現フレームで算出されたベクトルを比較することによって各特徴点について動きベクトルを算出する。
次に、ステップS327では、ステップS326で算出された動きベクトルに基づき、表情を判定するためのNNを利用して表情判定を行う。そして処理を終了する。
以下、各機能構成における処理を説明することにより上記の各ステップにおける処理について詳述する。
〔動きベクトル算出部311〕
次に、動きベクトル算出部311の機能について詳細に説明する。動きベクトル算出部311は、顔位置検出部301で検出された顔位置を基準として顔の位置を始点、各特徴点を終点とした動きベクトルを、図8で示した鼻孔特徴点以外の特徴点数と同じ数だけ算出する。
動きベクトルの算出について図32を参照して説明する。図32は、顔検出位置を始点、右目尻特徴点を終点としたベクトルを、t,t+1[frame]の画像について示した模式図である。
図32において、3201は基準点としての顔検出位置、3202はt[frame]における目尻特徴点、3203はt+1[frame]における目尻特徴点である。図32のように、t[frame]とt+1[frame]において、顔検出位置3201を始点、目尻特徴点3202、3203を終点としたベクトルを夫々c、bとすると、動きベクトルaをa=b−cと定義する。
図33は、動きベクトルの算出を示した模式図である。他の特徴点についても同様にして動きベクトルを算出し、鼻孔特徴点(図8の154)を除いた計18個の動きベクトルを算出する。なお、動きベクトルを算出する際には、t[frame]とt+1[frame]を使用するのではなく、フレームレートに応じてt[frame]とt+2[frame]もしくはt+3[frame]を用いて動きベクトルを算出するようにしてもよい。
また、算出した動きベクトルは、変動によって向きやサイズが変化する。よって、これらのうち、サイズの変化に対応するための正規化処理を行う。例えば、目頭間距離|f|を基準としてベクトルの大きさを表すようにする。
例えば、図34において、正規化の基準となるベクトルをfとすると、ベクトルdは正規化後にd/|f|で表すことができる。同様に、サイズ変動が生じ、目頭間距離が図35に示すように|g|となった場合、図35のベクトルeは正規化後にe/|g|で表すことができる。このような正規化を行うことで、目・口などの顔面特徴に変化がなく、サイズ変動だけが生じた場合には、ベクトルdはベクトルeと等しくなる。このため、撮影の角度等による認識誤差を抑えることができる。
回転変動に対して、横方向回転変動が生じた場合には、図34のベクトルの水平方向成分だけが変化するため、図34のベクトルdの水平方向成分d2の大きさを回転変動に応じて正規化する。正規化は、第1実施形態で示したように顔検出位置と左右両目検出位置を用いることによって回転を検出し、検出された回転に基づいて特徴点の配置を修正する。
例えば、図23を用いて説明すると、回転方向領域の特徴点から得られるベクトルの水平成分をa2/b2倍する。そして、図33のように、b−c=aから動きベクトルaを算出する。ただし、回転方向領域の特徴点は、例えば、図8の特徴点143, 特徴点144, 特徴点145, 特徴点150, 特徴点151, 特徴点152, 特徴点153, 特徴点158である。
縦方向回転変動に対しても、鼻孔特徴点以外のすべての特徴点から得られるベクトルの垂直方向成分d1の大きさをc/c3倍した後に、図33のように、b−c=aから動きベクトルaを算出する。
なお、各特徴点からベクトルを算出する際のベクトルの始点位置は上記に限られない。例えば、顔検出位置以外にも鼻孔特徴点位置(図8の特徴点154)や目頭特徴点(図8の特徴点149、特徴点150)、顔検出CNNで得られる両目検出位置(図9の右目検出位置160、左目検出位置161)、口検出位置(図9の163)等としても良い。
〔表情判定部312〕
次に、表情判定部312について説明する。表情判定部312は、第1実施形態同様にNNを用いて表情判定を行う。第1実施形態の場合は入力を、HD395等の記憶装置にあらかじめ用意しておいた無表情顔との比較によって得られた、正規化された22個の特徴量変化量を入力とした。本実施形態においては、例えば、18個の動きベクトルそれぞれの水平成分及び垂直成分、即ち、計36個のベクトルの大きさと向きをNNの入力とする。例えば、ベクトル(4、−3)は水平成分+4と垂直成分−3のように夫々の動きベクトルを成分毎に分割できるため、夫々のベクトルの成分毎の大きさと向きを入力とする。
一方、出力は0から1の値を出力する8個の表情判定ニューロンから構成される。出力系のニューロンは第1実施形態のニューロンと同様である。表情の学習について説明する。第1実施形態で説明したように、認識対象物体としての顔がある表情をとると、特定の特徴量変化量が増減する。認識対象物体としての顔がある表情をとった場合、動きベクトルも同様に特定の方向と大きさを持つようになる。このため、ある表情を示す特定の動きベクトルの方向と大きさが入力層の特徴に入力された時に、出力層でこの表情を示すニューロンが1に近い出力が得られるようにすることで学習を行うことができる。
テーブル313は、動きベクトルの各パラメータ(例えば、方向、大きさを示す値等)と表情との対応関係を格納している。図41はテーブル313の内容を例示した図である。表情判定部312はテーブル313を参照してニューロンの学習を制御する。例えば、予め定義された動きベクトル1のパラメータ1が増加傾向にあり、パラメータ2が減少傾向にある場合は喜びの出力が高まるように学習を制御する。テーブル113はHD395等の記憶装置に予め定義しておく。
上記のように、本実施形態に係る構成においては、互いに隣接するフレームにおける特徴点に基づいて算出される移動ベクトルに基づいて表情の判定を行うことにより、表情の変化を効率的に検知することができる。
<<第3実施形態>>
第1、第2実施形態においては、情報処理装置としてPC、WS、PDA等を想定したがこれに限られない。例えば、デジタルカメラ等の撮像装置に上記のような構成を実現してもよい。
本実施形態に示す構成は、デジタルカメラ(カメラ)等の撮像装置に顔検出および表情認識機能を組み込むことで、被写体が予め設定された所望の表情(例えば「喜び」)をとったことを自動的に検出し、自動的に記録することを可能にしたものである。さらに、記録した画像の表示等を行う。
図37は、本実施形態に係る情報処理装置の機能構成を示したブロック図である。図37のように、本実施形態に係る情報処理装置は、画像入力部400、顔位置検出部401、表情認識部402、画像表示部403、画像記憶部404から構成される。
画像入力部400と顔位置検出部401と表情認識部402は、第1、第2実施形態で説明した構成と同等の処理を行う。
403は画像表示部であり、表情認識部402において予め設定された表情をとっていると判定された画像をディスプレイ397に表示する。即ち、RAM392等のバッファメモリに一時的に記憶された画像データをディスプレイ397に表示する。表示の際に、画像データを数画素ずつ飛ばして読み出し、表示してもよい。この場合、高速な表示が可能となる。
404は画像記憶部であり、ディスプレイ397に表示した画像データをRAM7、メモリ(例えば、フラッシュメモリ)394等の記憶装置に記憶する。
〔全体処理〕
次に、本実施形態に係る構成において実行する全体処理について図38を参照して説明する。図38は、本実施形態に係る全体処理の流れを示したフローチャートである。
まず、ステップS410では、顔位置検出部401において、画像入力部400で得られた画像データの間引き処理及びヒストグラム補正処理を行う。ここで、間引き処理を行った後の画像解像度は、例えば、360×240[pixels]である。
次に、ステップS411では、顔位置検出部401において、CNNを用いて画像中の顔位置判定処理を行う。この顔の位置を判定するCNNの入力画像の画像解像度は更なる間引き処理を行うことにより、例えば、180×120[pixels]としている。
次に、ステップS412では、顔が検出されたか否かを、表情認識部402において判定する。検出された場合(ステップS412でYES)はステップS413へ進む。検出されなかった場合(ステップS412でNO)はステップS370へ戻り、次のフレームの画像データについて同様の処理を行う。
ステップS413では、表情認識部402において、顔位置検出のための第一のCNNを利用して抽出された顔・目位置を用いて鼻孔特徴点抽出範囲の設定を行う。
次に、ステップS414では、表情認識部402において、ステップS413で設定された各抽出範囲に基づいて第二のCNNを用いて特徴点抽出を行う。特徴点を抽出するための第二のCNNの入力画像の解像度は、例えば、360×240[pixels]とする。
次に、ステップS415では、表情認識部402において、ステップS413乃至S414の処理により全ての特徴点が抽出されたか否かを判定する。全ての特徴点が抽出されている場合(ステップS415でYES)はステップS416へ進む。抽出されていない場合(ステップS415でNO)はステップS410へ戻り、次のフレームについて同様の処理を行う。
ステップS416では、表情認識部402において、前フレームで算出されたベクトルと現フレームで算出されたベクトルを比較することによって各特徴点について動きベクトルを算出する。
次に、ステップS417では、ステップS416で算出された動きベクトルに基づき、表情を判定するためのNNを利用して表情判定を行う。
次に、ステップS418では、ステップS417において表情が認識されたか否かを判定する。認識された場合(ステップS418でYES)はステップS419へ進む。認識されなかった場合(ステップS418でNO)はステップS410へ戻り、処理を継続する。
ステップS419では、表情が認識された画像データをディスプレイ397に表示する。この時、必要に応じて解像度を下げて表示する。また、画像データと共に、表示した画像データをメディア394等の記憶装置に記憶するか否かをユーザが選択可能なユーザインタフェースをディスプレイ397に表示する。
次に、ステップS420では、ユーザにより、画像データを記憶する旨が選択された場合(ステップS420でYES)はステップS421へ進む。選択されなかった場合(ステップS420でNO)はステップS410へ戻り、処理を継続する。
ステップS421では、画像データを高解像度でメディア394(例えば、フラッシュメモリ)等の記憶装置に記憶する。そして処理を終了する。
尚、ステップS418乃至S421における処理は、例えば、以下のようにしてもよい。即ち、ディスプレイ397に表示、及び/又は、メディア394等の記憶装置に記憶、を行う表情を予め設定しておく。そして、ステップS418において、認識対象の画像が予め設定された表情と認識されたか否かを判定する。認識された場合(ステップS418でYES)はステップS419へ進み、認識されなかった場合(ステップS418でNO)はステップS410へ戻る。
ステップS419では、画像データをディスプレイ397に表示する。そして、ステップS420の処理はスキップしてステップS421へ進む。
ステップS421では、画像データをメディア394等の記憶装置に記憶する。
このように本実施形態に係る撮像装置は画像データの表情を自動的に認識し、予め設定された表情に対応する画像データのみを表示、記憶する。これにより、ユーザはシャッターのタイミングを逃すことなく所望とする画像を撮像することができる。
<<その他の実施形態>>
以上、本発明の実施形態例について詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様を取ることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
尚、本発明は、前述した実施形態の機能を実現するプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明の技術的範囲に含まれる。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含む。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
プログラムを供給するための記録媒体としては、例えば、次のものが含まれる。即ち、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)等が含まれる。
その他、プログラムの供給形態としては、次のようなものも考えられる。即ち、クライアント装置のブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明に係るコンピュータプログラム、或いは、圧縮され自動インストール機能を含むファイルをHD等の記録媒体にダウンロードする形態も考えられる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
また、次のような供給形態も考えられる。即ち、まず、本発明に係るプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布する。そして、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報の使用により暗号化されたプログラムを実行してコンピュータにインストールさせて本発明に係る構成を実現する。このような供給形態も可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他次のような実現形態も想定される。即ち、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づいも前述した実施形態の機能が実現される。即ち、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
第1実施形態に係る情報処理装置の機能構成を示したブロック図である。 神経回路網を示した模式図である。 ヒストグラム補正の処理を模式的に示した図である。 ある階層特徴の1つのニューロンと前階層特徴の複数ニューロンとの結合関係を示した図である。 ある階層特徴の隣接する夫々のニューロンを算出するために必要な前階層ニューロンとの結合関係を示した図である。 表情認識部の詳細な機能構成を示した図である。 特徴点を抽出するためのCNNの構成を示した図である。 抽出する各特徴点を示した模式図である。 顔の位置を検出するCNNから得られる顔、左右目、口重心位置を示した模式図である。 鼻孔位置を得るための鼻孔重心位置算出範囲、重心算出範囲を得るために必要な積和演算範囲、重心算出範囲を得るために必要な入力画像範囲を示した模式図である。 左右夫々の鼻孔位置、鼻下エッジを示した模式図である。 左右鼻孔位置の重心、右鼻孔位置の重心、鼻下エッジの重心を算出するために必要な受容野を示した模式図である。 左右眉毛端点特徴点を得るための重心算出範囲を示した図である。 左右眉毛中点特徴点を得るための重心算出範囲を示した図である。 左右目端点特徴点を得るための重心算出範囲を示した図である。 左右目上下特徴点を得るための重心算出範囲を示した図である。 口端点特徴点を得るための重心算出範囲を示した図である。 口上下特徴点を得るための重心算出範囲を示した図である。 額、眉間及び頬領域を示した図である。 すべての特徴点を得るために必要な必要最低限の入力画像領域を示した図である。 サイズ変動及び回転変動を検出するために用いる左右目領域と顔領域の重心位置を示した図である。 サイズ変動時の左右目領域と顔領域の重心位置を示した図である。 左右回転変動時の左右目領域と顔領域の重心位置を示した図である。 上下回転変動時の左右目領域と顔領域の重心位置を示した模式図である。 表情を判定するCNNの構成を示した模式図である。 表情「喜び」を判定するために各特徴量変化量から得点を算出する際の各特徴量変化量の重みを示す図である。 各特徴量変化量から算出された得点分布を示す図である。 あらかじめ用意された表情「喜び」に対応する得点分布テンプレートを示す図である。 第1実施形態に係る全体処理の流れを示したフローチャートである。 第2実施形態に係る情報処理装置の機能構成を示したブロック図である。 表情認識部の機能構成を示したブロック図である。 顔検出位置を始点、右目尻特徴点を終点としたベクトルを、t,t+1[frame]の画像について示した模式図である。 動きベクトルの算出を示した模式図である。 顔検出位置を始点、右目尻特徴点を終点としたベクトルの水平、垂直成分と目頭間距離を示した図である。 サイズ変動が生じた場合の顔検出位置を始点、右目尻特徴点を終点としたベクトルの水平、垂直成分と目頭間距離を示した図である。 第2実施形態に係る全体処理の流れを示したフローチャートである。 第3実施形態に係る情報処理装置の機能構成を示したブロック図である。 第3実施形態に係る全体処理の流れを示したフローチャートである。 第1乃至第3実施形態に係る情報処理装置のハードウェア構成を模式的に示したブロック図である。 テーブル113の内容を例示した図である。 テーブル313の内容を例示した図である。

Claims (16)

  1. 顔を含む画像データを入力する入力手段と、
    前記画像データより前記顔の特定箇所の位置を検出する第1の検出手段と、
    検出された前記特定箇所の位置に基づいて、前記画像データより前記顔の特徴点を検出する第2の検出手段と、
    検出された前記特徴点に基づいて前記顔の表情を判定する判定手段とを備え、
    前記第2の検出手段は前記第1の検出手段よりも検出精度が高く、前記第1の検出手段は前記第2の検出手段よりも変動に頑健であることを特徴とする情報処理装置。
  2. 前記第1の検出手段は、前記第2の検出手段が処理する画像データよりも低解像度の画像データに基づいて前記顔の特定箇所の位置を検出することを特徴とする請求項1に記載の情報処理装置。
  3. 所定の表情における顔の画像データを記憶する記憶手段を更に備え、
    前記判定手段は、
    入力された前記画像データにおける前記特徴点を用いて算出される第1の特徴量と、前記記憶手段に記憶された画像データにおける前記特徴点を用いて算出される第2の特徴量と、の差分もしくは比に基づいて前記第1の表情を判定することを特徴とする請求項1に記載の情報処理装置。
  4. 前記判定手段は前記特徴量に予め設定された重み付け値を乗じた上で前記判定を行うことを特徴とする請求項2に記載の情報処理装置。
  5. 入力された前記画像データは複数のフレームから構成された動画像に係るものであり、
    前記第1の検出手段は、前記フレームのそれぞれについて前記顔の特定箇所の位置を検出し、
    前記第2の検出手段は前記フレームのそれぞれにおいて前記顔の特徴点を探索し、
    前記判定手段は、互いに隣接する前記フレームにおける前記特徴点の変動に基づいて前記顔の表情の変化を判定する請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 入力された前記画像データに対して、低輝度領域の階調を強調するように輝度補正を行う補正手段を更に備えることを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
  7. 前記特定箇所は、顔領域の重心、目領域の重心、口領域の重心、鼻孔重心位置、鼻エッジ、肌色領域の重心の少なくともいずれかであることを特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。
  8. 前記特徴点は、鼻孔重心、鼻エッジの重心、眉毛の端点、眉毛の上下特徴点、眉毛の中点、目の端点、目の上下特徴点、口の端点、口の上下特徴点、の少なくともいずれかであることを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。
  9. 前記特徴量は、眉毛の形状、左右眉毛間の距離、眉毛と眼の間の距離、眼の端点と口端点の距離、鼻孔重心と口端点の距離、鼻エッジと口端点の距離、顔領域重心と口端点の距離、眼端点間距離、眼領域の上下間距離、口端点間距離、口領域の上下間距離、額及び眉間領域のシワ、左右頬領域のシワ、の少なくともいずれかを含むことを特徴とする請求項1乃至8のいずれか1項に記載の情報処理装置。
  10. 前記特徴点は、前記特定箇所を基準とする相対座標として表現されることを特徴とする請求項1乃至9のいずれか1項に記載の情報処理装置。
  11. 前記判定手段は、入力された前記画像データにおける前記特徴点もしくは前記特定箇所の配置に基づいて、該特徴点の位置を補正し、当該位置が補正された前記特徴点に基づいて前記判定を行うことを特徴とする請求項1乃至10のいずれか1項に記載の情報処理装置。
  12. 前記判定手段において所定の表情に判定された場合、入力された前記画像データを保持する保持手段を更に備えることを特徴とする請求項1乃至11のいずれか1項に記載の情報処理装置。
  13. 前記判定手段において所定の表情に判定された場合、入力された前記画像データを表示する表示手段を更に備えることを特徴とする請求項1乃至12のいずれか1項に記載の情報処理装置。
  14. 顔を含む画像データを処理する情報処理装置の制御方法であって、
    顔を含む画像データを入力する入力工程と、
    前記画像データより前記顔の特定箇所の位置を検出する第1の検出工程と、
    検出された前記特定箇所の位置に基づいて、前記画像データより前記顔の特徴点を検出する第2の検出工程と、
    検出された前記特徴点に基づいて前記顔の表情を判定する判定工程とを備え、
    前記第2の検出工程は前記第1の検出工程よりも検出精度が高く、前記第1の検出工程は前記第2の検出工程よりも変動に頑健であることを特徴とする情報処理装置の制御方法。
  15. コンピュータを、請求項1乃至13のいずれかに記載の情報処理装置として機能させるためのコンピュータプログラム。
  16. 請求項15に記載のコンピュータプログラムを格納したコンピュータで読み取り可能な記憶媒体。
JP2005278782A 2005-09-26 2005-09-26 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体 Expired - Fee Related JP4799104B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2005278782A JP4799104B2 (ja) 2005-09-26 2005-09-26 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体
US11/532,979 US8542928B2 (en) 2005-09-26 2006-09-19 Information processing apparatus and control method therefor
EP06019860.3A EP1768058B1 (en) 2005-09-26 2006-09-22 Information processing apparatus and control method therefor
CN 200610152329 CN1940965A (zh) 2005-09-26 2006-09-26 信息处理设备及其控制方法
KR1020060093302A KR100886407B1 (ko) 2005-09-26 2006-09-26 정보 처리 장치 및 그 제어방법
US13/960,951 US20130322770A1 (en) 2005-09-26 2013-08-07 Information processing apparatus and control method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005278782A JP4799104B2 (ja) 2005-09-26 2005-09-26 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体

Publications (3)

Publication Number Publication Date
JP2007087345A true JP2007087345A (ja) 2007-04-05
JP2007087345A5 JP2007087345A5 (ja) 2008-11-13
JP4799104B2 JP4799104B2 (ja) 2011-10-26

Family

ID=37959129

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005278782A Expired - Fee Related JP4799104B2 (ja) 2005-09-26 2005-09-26 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体

Country Status (2)

Country Link
JP (1) JP4799104B2 (ja)
CN (1) CN1940965A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009110426A (ja) * 2007-10-31 2009-05-21 Nippon Telegr & Teleph Corp <Ntt> テンプレート作成装置及び表情認識装置並びにその方法、プログラム及び記録媒体
WO2011037579A1 (en) * 2009-09-25 2011-03-31 Hewlett-Packard Development Company, L.P. Face recognition apparatus and methods
JP2011221840A (ja) * 2010-04-12 2011-11-04 Mega Chips Corp 画像処理装置
KR20150136723A (ko) * 2014-05-27 2015-12-08 서강대학교산학협력단 영상 특징 추출 방법 및 장치 및 이를 구현한 프로그램을 기록한 기록 매체
WO2017175282A1 (ja) * 2016-04-04 2017-10-12 オリンパス株式会社 学習方法、画像認識装置およびプログラム
KR20180043937A (ko) * 2016-10-21 2018-05-02 삼성전자주식회사 표정 인식 방법 및 장치
JP2018147286A (ja) * 2017-03-07 2018-09-20 オムロン株式会社 対象物解析装置、対象物解析方法、学習装置及び学習方法
CN112560730A (zh) * 2020-12-22 2021-03-26 电子科技大学中山学院 一种基于Dlib与人工神经网络的人脸表情识别方法
JPWO2020095400A1 (ja) * 2018-11-08 2021-09-09 日本電気株式会社 特徴点抽出装置、特徴点抽出方法およびコンピュータプログラム
US11210503B2 (en) 2013-11-04 2021-12-28 Facebook, Inc. Systems and methods for facial representation

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4974788B2 (ja) * 2007-06-29 2012-07-11 キヤノン株式会社 画像処理装置、画像処理方法、プログラム、及び記憶媒体
CN101887513B (zh) * 2009-05-12 2012-11-07 联咏科技股份有限公司 表情检测装置及其表情检测方法
JP5669549B2 (ja) * 2010-12-10 2015-02-12 オリンパスイメージング株式会社 撮像装置
CN102750532B (zh) * 2012-06-06 2014-12-17 西安电子科技大学 基于部件的目标检测方法
JP6251489B2 (ja) * 2013-03-28 2017-12-20 株式会社 資生堂 画像解析装置、画像解析方法、及び画像解析プログラム
JP6428066B2 (ja) * 2014-09-05 2018-11-28 オムロン株式会社 採点装置及び採点方法
CN106371551A (zh) * 2015-07-20 2017-02-01 深圳富泰宏精密工业有限公司 人脸表情操作系统、方法及电子装置
JP2017202038A (ja) * 2016-05-10 2017-11-16 富士通株式会社 判別装置、判別方法、および判別プログラム
US11580407B2 (en) 2016-09-06 2023-02-14 Mitsubishi Electric Corporation Learning device, signal processing device, and learning method

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250267A (ja) * 1998-03-05 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 目の位置検出方法、目の位置検出装置および目の位置検出プログラムを記録した記録媒体
JP2000105829A (ja) * 1998-09-29 2000-04-11 Matsushita Electric Ind Co Ltd 顔パーツ検出方法及びその装置
JP2000207565A (ja) * 1999-01-11 2000-07-28 Hewlett Packard Co <Hp> 入力画像を予備選択する方法
JP2000310510A (ja) * 1999-04-28 2000-11-07 Niles Parts Co Ltd 眼位置検出装置
JP2001216515A (ja) * 2000-02-01 2001-08-10 Matsushita Electric Ind Co Ltd 人物の顔の検出方法およびその装置
JP2003069825A (ja) * 2001-06-14 2003-03-07 Matsushita Electric Ind Co Ltd 自動階調補正装置,自動階調補正方法および自動階調補正プログラム記録媒体
JP2004062651A (ja) * 2002-07-30 2004-02-26 Canon Inc 画像処理装置、画像処理方法、その記録媒体およびそのプログラム
JP2005056387A (ja) * 2003-07-18 2005-03-03 Canon Inc 画像処理装置、撮像装置、画像処理方法
JP2005056388A (ja) * 2003-07-18 2005-03-03 Canon Inc 画像処理装置、画像処理方法、撮像装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250267A (ja) * 1998-03-05 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 目の位置検出方法、目の位置検出装置および目の位置検出プログラムを記録した記録媒体
JP2000105829A (ja) * 1998-09-29 2000-04-11 Matsushita Electric Ind Co Ltd 顔パーツ検出方法及びその装置
JP2000207565A (ja) * 1999-01-11 2000-07-28 Hewlett Packard Co <Hp> 入力画像を予備選択する方法
JP2000310510A (ja) * 1999-04-28 2000-11-07 Niles Parts Co Ltd 眼位置検出装置
JP2001216515A (ja) * 2000-02-01 2001-08-10 Matsushita Electric Ind Co Ltd 人物の顔の検出方法およびその装置
JP2003069825A (ja) * 2001-06-14 2003-03-07 Matsushita Electric Ind Co Ltd 自動階調補正装置,自動階調補正方法および自動階調補正プログラム記録媒体
JP2004062651A (ja) * 2002-07-30 2004-02-26 Canon Inc 画像処理装置、画像処理方法、その記録媒体およびそのプログラム
JP2005056387A (ja) * 2003-07-18 2005-03-03 Canon Inc 画像処理装置、撮像装置、画像処理方法
JP2005056388A (ja) * 2003-07-18 2005-03-03 Canon Inc 画像処理装置、画像処理方法、撮像装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009110426A (ja) * 2007-10-31 2009-05-21 Nippon Telegr & Teleph Corp <Ntt> テンプレート作成装置及び表情認識装置並びにその方法、プログラム及び記録媒体
WO2011037579A1 (en) * 2009-09-25 2011-03-31 Hewlett-Packard Development Company, L.P. Face recognition apparatus and methods
JP2011221840A (ja) * 2010-04-12 2011-11-04 Mega Chips Corp 画像処理装置
US11210503B2 (en) 2013-11-04 2021-12-28 Facebook, Inc. Systems and methods for facial representation
KR20150136723A (ko) * 2014-05-27 2015-12-08 서강대학교산학협력단 영상 특징 추출 방법 및 장치 및 이를 구현한 프로그램을 기록한 기록 매체
KR101601755B1 (ko) * 2014-05-27 2016-03-10 서강대학교산학협력단 영상 특징 추출 방법 및 장치 및 이를 구현한 프로그램을 기록한 기록 매체
US10860930B2 (en) 2016-04-04 2020-12-08 Olympus Corporation Learning method, image recognition device, and computer-readable storage medium
JPWO2017175282A1 (ja) * 2016-04-04 2019-02-28 オリンパス株式会社 学習方法、画像認識装置およびプログラム
WO2017175282A1 (ja) * 2016-04-04 2017-10-12 オリンパス株式会社 学習方法、画像認識装置およびプログラム
KR20180043937A (ko) * 2016-10-21 2018-05-02 삼성전자주식회사 표정 인식 방법 및 장치
KR102252298B1 (ko) * 2016-10-21 2021-05-14 삼성전자주식회사 표정 인식 방법 및 장치
JP2018147286A (ja) * 2017-03-07 2018-09-20 オムロン株式会社 対象物解析装置、対象物解析方法、学習装置及び学習方法
JPWO2020095400A1 (ja) * 2018-11-08 2021-09-09 日本電気株式会社 特徴点抽出装置、特徴点抽出方法およびコンピュータプログラム
CN112560730A (zh) * 2020-12-22 2021-03-26 电子科技大学中山学院 一种基于Dlib与人工神经网络的人脸表情识别方法

Also Published As

Publication number Publication date
CN1940965A (zh) 2007-04-04
JP4799104B2 (ja) 2011-10-26

Similar Documents

Publication Publication Date Title
JP4799105B2 (ja) 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体
JP4799104B2 (ja) 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体
KR100886407B1 (ko) 정보 처리 장치 및 그 제어방법
US11595737B2 (en) Method for embedding advertisement in video and computer device
CN110532984B (zh) 关键点检测方法、手势识别方法、装置及系统
WO2019128508A1 (zh) 图像处理方法、装置、存储介质及电子设备
JP5553141B2 (ja) 画像処理システム、画像処理装置、画像処理方法、およびプログラム
CN101393599B (zh) 一种基于人脸表情的游戏角色控制方法
US9355486B2 (en) Image compositing device and image compositing method
EP3992919B1 (en) Three-dimensional facial model generation method and apparatus, device, and medium
US20050201594A1 (en) Movement evaluation apparatus and method
JP4998637B1 (ja) 画像処理装置、情報生成装置、画像処理方法、情報生成方法、制御プログラムおよび記録媒体
KR101661211B1 (ko) 얼굴 인식률 개선 장치 및 방법
CN114445853A (zh) 一种视觉手势识别系统识别方法
JP5503510B2 (ja) 姿勢推定装置および姿勢推定プログラム
WO2021164653A1 (zh) 动画形象的生成方法、设备及存储介质
JP7385416B2 (ja) 画像処理装置、画像処理システム、画像処理方法及び画像処理プログラム
US9323981B2 (en) Face component extraction apparatus, face component extraction method and recording medium in which program for face component extraction method is stored
JP2010244251A (ja) 顔の特徴部位の座標位置を検出する画像処理装置
JP2010271955A (ja) 画像処理装置、画像処理方法、画像処理プログラム、および、印刷装置
CN118015711B (zh) 基于多角度下的表演动作识别方法、系统、设备及介质
JP7521704B2 (ja) 姿勢推定装置、学習モデル生成装置、姿勢推定方法、学習モデル生成方法及び、プログラム
WO2023162131A1 (ja) 画像変換装置、画像変換方法及び画像変換プログラム
JP7134260B2 (ja) 情報処理装置
JP2011086245A (ja) テンプレート作成装置、表情認識装置、テンプレート作成方法、表情認識方法、及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080926

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110801

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110802

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4799104

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees