JP2012008779A - Expression learning device, expression recognition device, expression leaning method, expression recognition method, expression learning program and expression recognition program - Google Patents
Expression learning device, expression recognition device, expression leaning method, expression recognition method, expression learning program and expression recognition program Download PDFInfo
- Publication number
- JP2012008779A JP2012008779A JP2010143751A JP2010143751A JP2012008779A JP 2012008779 A JP2012008779 A JP 2012008779A JP 2010143751 A JP2010143751 A JP 2010143751A JP 2010143751 A JP2010143751 A JP 2010143751A JP 2012008779 A JP2012008779 A JP 2012008779A
- Authority
- JP
- Japan
- Prior art keywords
- category
- dynamic property
- facial expression
- manifold
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、人物の顔の表情を認識するための表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラムに関する。 The present invention relates to a facial expression learning apparatus, facial expression recognition apparatus, facial expression learning method, facial expression recognition method, facial expression learning program, and facial expression recognition program for recognizing facial expressions of a person.
顔の表情は他者と感情を伝達しあう手段として最も基本的な非言語行動であると言われている。そのため、画像に基づく表情認識に関する研究がこれまでコンピュータビジョン分野を中心として盛んに行われてきた。しかし、これまでの表情認識手法は、表情カテゴリは認識できるものの、その表情の動的性質、すなわち、表出の速度や強度といった表情の時間変化に関する性質については、複雑な性質を認識できるレベルに至っているとは言い難い。 Facial expressions are said to be the most basic nonverbal behavior as a means of communicating emotions with others. For this reason, research on facial expression recognition based on images has been actively conducted mainly in the field of computer vision. However, the conventional facial expression recognition methods can recognize facial expression categories, but the dynamic properties of facial expressions, that is, the properties related to temporal changes in facial expressions, such as the speed and intensity of expression, are at a level where complex properties can be recognized. It is hard to say that it has reached.
例えば、非特許文献1では、Supervised Locality Preserving Projectionsを用いて学習した多様体中で、表情がどのように時間的に遷移するのかを確率的にモデル化し、入力動画像からベイズ推定の枠組みにて表情カテゴリを推定する手法が提案されている。また、非特許文献2では、顔の3次元形状が表情変化に伴いどのように変形するのかをモデル化しておき、入力の顔の3次元形状から2次元HMMを用いて表情カテゴリを推定する手法が提案されている。
For example, in Non-Patent
しかしながら、非特許文献1、2の2つの手法をはじめとしてこれまでの表情認識手法は、表情カテゴリは認識できるものの、その表情の動的性質については複雑な性質を認識できるレベルに至っていないという問題がある。
However, the conventional facial expression recognition methods, including the two methods of Non-Patent
本発明は、このような事情に鑑みてなされたもので、顔面上の目や口といった特徴点の移動の情報に基づき、表情のカテゴリの認識のみならず、表情の表出の速度や強度に関する複雑な動的性質についても認識可能とする表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラムを提供することを目的とする。 The present invention has been made in view of such circumstances, and relates to the expression speed and strength of facial expression as well as facial expression category recognition based on information on movement of feature points such as eyes and mouth on the face. It is an object of the present invention to provide an expression learning device, an expression recognition device, an expression learning method, an expression recognition method, an expression learning program, and an expression recognition program that can recognize complex dynamic properties.
本発明は、時系列の画像データから顔面上の複数の特徴点の位置情報からなる学習データを出力する入力手段と、前記入力手段から出力される前記学習データを、表情のカテゴリ空間に射影することにより表情のカテゴリのみに依存して分離されたカテゴリ多様体情報を生成するカテゴリ埋め込み手段と、前記カテゴリ多様体情報を記憶するカテゴリ多様体情報記憶手段と、前記入力手段から出力される前記学習データを、表情の動的性質空間に射影することにより表情の動的性質のみに依存して分離された動的性質多様体情報を生成する動的性質埋め込み手段と、前記動的性質多様体情報を記憶する動的性質多様体情報記憶手段とを備えたことを特徴とする。 The present invention projects input learning data composed of positional information of a plurality of feature points on a face from time-series image data, and the learning data output from the input means onto a facial expression category space. A category embedding means for generating category manifold information separated depending only on a facial expression category, a category manifold information storage means for storing the category manifold information, and the learning output from the input means. Dynamic property embedding means for generating dynamic property manifold information separated depending only on the dynamic property of the expression by projecting data onto the dynamic property space of the expression, and the dynamic property manifold information And dynamic property manifold information storage means for storing.
本発明は、表情認識を行うための学習データを表情のカテゴリ空間に射影したカテゴリ多様体情報を記憶するカテゴリ多様体情報記憶手段と、前記学習データを表情の動的性質空間に射影した動的性質多様体情報を記憶する動的性質多様体情報記憶手段と、時系列の画像データから表情認識対象人物の顔面上の複数の特徴点の位置情報を出力する入力手段と、前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情のカテゴリ空間に射影することにより、カテゴリ空間座標を求めるカテゴリ埋め込み手段と、前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情の動的性質空間に射影することにより、動的性質空間座標を求める動的性質埋め込み手段と、前記カテゴリ多様体情報記憶手段に記憶されている前記カテゴリ多様体情報を参照して、前記カテゴリ空間座標が属する前記カテゴリ多様体情報を特定することにより前記表情認識対象人物の表情のカテゴリを推定するとともに、前記動的性質多様体情報記憶手段に記憶されている前記動的性質多様体情報を参照して、前記動的性質空間座標が属する前記動的性質多様体情報を特定することにより前記表情認識対象人物の表情の動的性質を推定する表情認識手段とを備えたことを特徴とする。 The present invention provides a category manifold information storage means for storing category manifold information obtained by projecting learning data for facial expression recognition onto a category space of an expression, and a dynamic that projects the learning data onto a dynamic property space of an expression. Dynamic property manifold information storage means for storing property manifold information, input means for outputting position information of a plurality of feature points on the face of the facial expression recognition target person from time-series image data, and output from the input means By projecting the positional information of the plurality of feature points to the category space of the facial expression, category embedding means for obtaining category space coordinates, and positional information of the plurality of feature points output from the input means, The dynamic property embedding means for obtaining the dynamic property space coordinates by projecting onto the dynamic property space of the facial expression and the previous stored in the category manifold information storage means By referring to category manifold information and specifying the category manifold information to which the category space coordinates belong, the facial expression category of the facial expression recognition target person is estimated and stored in the dynamic property manifold information storage means A facial expression that estimates the dynamic nature of the facial expression of the facial expression recognition target person by identifying the dynamic property manifold information to which the dynamic property space coordinates belong by referring to the dynamic property manifold information And a recognition means.
本発明は、時系列の画像データから顔面上の複数の特徴点の位置情報からなる学習データを出力する入力手段と、カテゴリ多様体情報を記憶するカテゴリ多様体情報記憶手段と、動的性質多様体情報を記憶する動的性質多様体情報記憶手段と、カテゴリ埋め込み手段と、動的性質埋め込み手段とを備える表情学習装置における表情学習方法であって、前記カテゴリ埋め込み手段が、前記入力手段から出力される前記学習データを、表情のカテゴリ空間に射影することにより表情のカテゴリのみに依存して分離されたカテゴリ多様体情報を生成して、前記カテゴリ多様体記憶手段に記憶するカテゴリ埋め込みステップと、前記動的性質埋め込み手段が、前記入力手段から出力される前記学習データを、表情の動的性質空間に射影することにより表情の動的性質のみに依存して分離された動的性質多様体情報を生成して、前記動的性質多様体情報記憶手段に記憶する動的性質埋め込みステップと、を有することを特徴とする。 The present invention provides an input means for outputting learning data composed of position information of a plurality of feature points on a face from time-series image data, a category manifold information storage means for storing category manifold information, and a variety of dynamic properties. An expression learning method in an expression learning device comprising dynamic property manifold information storage means for storing body information, category embedding means, and dynamic property embedding means, wherein the category embedding means outputs from the input means A category embedding step of generating category manifold information separated depending only on a facial expression category by projecting the learning data into a facial expression category space, and storing it in the category manifold storage means; The dynamic property embedding unit projects the learning data output from the input unit onto a dynamic property space of an expression. A dynamic property embedding step of generating dynamic property manifold information separated depending only on the dynamic property of information and storing the information in the dynamic property manifold information storage means. .
本発明は、表情認識を行うための学習データを表情のカテゴリ空間に射影したカテゴリ多様体情報を記憶するカテゴリ多様体情報記憶手段と、前記学習データを表情の動的性質空間に射影した動的性質多様体情報を記憶する動的性質多様体情報記憶手段と、時系列の画像データから表情認識対象人物の顔面上の複数の特徴点の位置情報を出力する入力手段と、カテゴリ埋め込み手段と、動的性質埋め込み手段と、表情認識手段とを備える表情認識装置における表情認識方法であって、前記カテゴリ埋め込み手段が、前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情のカテゴリ空間に射影することにより、カテゴリ空間座標を求めるカテゴリ埋め込みステップと、前記動的性質埋め込み手段が、前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情の動的性質空間に射影することにより、動的性質空間座標を求める動的性質埋め込みステップと、前記表情認識手段が、前記カテゴリ多様体情報記憶手段に記憶されている前記カテゴリ多様体情報を参照して、前記カテゴリ空間座標が属する前記カテゴリ多様体情報を特定することにより前記表情認識対象人物の表情のカテゴリを推定するとともに、前記動的性質多様体情報記憶手段に記憶されている前記動的性質多様体情報を参照して、前記動的性質空間座標が属する前記動的性質多様体情報を特定することにより前記表情認識対象人物の表情の動的性質を推定する表情認識ステップとを有することを特徴とする。 The present invention provides a category manifold information storage means for storing category manifold information obtained by projecting learning data for facial expression recognition onto a category space of an expression, and a dynamic that projects the learning data onto a dynamic property space of an expression. Dynamic property manifold information storage means for storing property manifold information; input means for outputting position information of a plurality of feature points on the face of the facial expression recognition target person from time-series image data; category embedding means; A facial expression recognition method in a facial expression recognition device comprising dynamic property embedding means and facial expression recognition means, wherein the category embedding means uses the positional information of the plurality of feature points output from the input means as The category embedding step for obtaining the category space coordinates by projecting onto the category space and the dynamic property embedding means are output from the input means. A dynamic property embedding step for obtaining dynamic property space coordinates by projecting the position information of the plurality of feature points onto the dynamic property space of the facial expression; and the facial expression recognition unit includes the category manifold information storage unit. A category of the facial expression of the person to be recognized by the facial expression by specifying the category manifold information to which the category space coordinates belong and referring to the category manifold information stored in By referring to the dynamic property manifold information stored in the body information storage means and specifying the dynamic property manifold information to which the dynamic property space coordinates belong, the facial motion of the facial expression recognition target person is identified. And a facial expression recognition step for estimating a physical property.
本発明は、時系列の画像データから顔面上の複数の特徴点の位置情報からなる学習データを出力する入力手段と、カテゴリ多様体情報を記憶するカテゴリ多様体情報記憶手段と、動的性質多様体情報を記憶する動的性質多様体情報記憶手段とを備える表情学習装置上のコンピュータに表情学習を行わせる表情学習プログラムであって、前記入力手段から出力される前記学習データを、表情のカテゴリ空間に射影することにより表情のカテゴリのみに依存して分離されたカテゴリ多様体情報を生成して、前記カテゴリ多様体記憶手段に記憶するカテゴリ埋め込みステップと、前記入力手段から出力される前記学習データを、表情の動的性質空間に射影することにより表情の動的性質のみに依存して分離された動的性質多様体情報を生成して、前記動的性質多様体情報記憶手段に記憶する動的性質埋め込みステップとを前記コンピュータに行わせることを特徴とする。 The present invention provides an input means for outputting learning data composed of position information of a plurality of feature points on a face from time-series image data, a category manifold information storage means for storing category manifold information, and a variety of dynamic properties. A facial expression learning program for causing a computer on a facial expression learning apparatus comprising dynamic property manifold information storage means for storing body information to perform facial expression learning, wherein the learning data output from the input means is a facial expression category A category embedding step of generating category manifold information separated depending on only the expression category by projecting into space and storing it in the category manifold storage means; and the learning data output from the input means By projecting onto the dynamic property space of the facial expression, the dynamic property manifold information separated depending only on the dynamic property of the facial expression is generated, and the previous The dynamic nature embedding step of storing the dynamic nature manifold information storage means, characterized in that causing the computer.
本発明は、表情認識を行うための学習データを表情のカテゴリ空間に射影したカテゴリ多様体情報を記憶するカテゴリ多様体情報記憶手段と、前記学習データを表情の動的性質空間に射影した動的性質多様体情報を記憶する動的性質多様体情報記憶手段と、時系列の画像データから表情認識対象人物の顔面上の複数の特徴点の位置情報を出力する入力手段とを備える表情認識装置上のコンピュータに表情認識を行わせる表情認識プログラムであって、前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情のカテゴリ空間に射影することにより、カテゴリ空間座標を求めるカテゴリ埋め込みステップと、前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情の動的性質空間に射影することにより、動的性質空間座標を求める動的性質埋め込みステップと、前記カテゴリ多様体情報記憶手段に記憶されている前記カテゴリ多様体情報を参照して、前記カテゴリ空間座標が属する前記カテゴリ多様体情報を特定することにより前記表情認識対象人物の表情のカテゴリを推定するとともに、前記動的性質多様体情報記憶手段に記憶されている前記動的性質多様体情報を参照して、前記動的性質空間座標が属する前記動的性質多様体情報を特定することにより前記表情認識対象人物の表情の動的性質を推定する表情認識ステップとを前記コンピュータに行わせることを特徴とする。 The present invention provides a category manifold information storage means for storing category manifold information obtained by projecting learning data for facial expression recognition onto a category space of an expression, and a dynamic that projects the learning data onto a dynamic property space of an expression. On a facial expression recognition device comprising: dynamic property manifold information storage means for storing property manifold information; and input means for outputting position information of a plurality of feature points on the face of the facial expression recognition target person from time-series image data A facial expression recognition program for causing a computer to perform facial expression recognition, wherein position information of the plurality of feature points output from the input means is projected onto a category space of the facial expression to obtain category space coordinates. Projecting the position information of the plurality of feature points output from the input means onto the dynamic property space of the facial expression, A dynamic property embedding step for obtaining coordinates, and the facial expression by specifying the category manifold information to which the category space coordinates belong by referring to the category manifold information stored in the category manifold information storage means The dynamic property to which the dynamic property space coordinates belong is estimated by estimating the facial expression category of the person to be recognized and referring to the dynamic property manifold information stored in the dynamic property manifold information storage means. A facial expression recognition step for estimating dynamic characteristics of the facial expression of the facial expression recognition target person by specifying manifold information is performed by the computer.
本発明によれば、顔面上の目や口といった特徴点の移動の情報に基づき、表情のカテゴリの認識のみならず、表情の表出の速度や強度に関する複雑な動的性質についても認識可能になるという効果が得られる。また、表情が表出され始めた直後の表出強度が小さい、すなわち、無表情からそれほど大きく変化していない表情についても正しく認識できるようになる。例えば、一瞬表出された後、直ちに別の表情によって隠蔽された表情を認識することも可能となる。この表情の隠蔽が生じるのは、怒りや嫌悪といった感情を起因として不随意的、瞬間的かつ微細に表出される、社会的な場面においてはあまり望ましくない否定的な表情が、直ちに笑顔など他の肯定的あるいは中立的な表情によって隠されるといった場合である。このような隠蔽された表情を認識することは、対象人物の感情を正確に推定する上で重要である。 According to the present invention, based on information on movement of feature points such as eyes and mouth on the face, it is possible to recognize not only facial expression categories but also complex dynamic properties relating to facial expression speed and intensity. The effect of becoming is obtained. In addition, it is possible to correctly recognize a facial expression whose expression intensity is small immediately after the facial expression starts to be expressed, that is, a facial expression that does not change so much from no expression. For example, it is also possible to recognize a facial expression concealed by another facial expression immediately after appearing for a moment. This concealment of facial expression is caused by emotions such as anger and disgust, which are expressed involuntarily, momentarily and finely, and negative facial expressions that are less desirable in social situations, such as immediate smiles. This is the case when hidden by a positive or neutral expression. Recognizing such a hidden facial expression is important for accurately estimating the emotion of the target person.
以下、図面を参照して、本発明の一実施形態による表情学習装置及び表情認識装置を説明する。図1は同実施形態の構成を示すブロック図である。この図において、符号1は、時系列の画像データ(以下、時系列画像データと呼ぶ)から、図2に示すような対象人物の顔面上に配置された複数の特徴点の座標値(位置情報)を学習データあるいは入力データ(テストデータ)として出力する入力部である。符号2は、入力部1から出力され、学習データ(X)セット記憶部4に記憶された学習データのセットを入力し、表情のカテゴリ及び動的性質についての多様体を生成して、カテゴリ多様体(Y)記憶部5、動的性質多様体(Z)記憶部6に記憶する表情学習部である。表情学習部2は、カテゴリ埋め込み部21と動的性質埋め込み部22とからなるコンピュータ装置で構成する。
Hereinafter, an expression learning device and an expression recognition device according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing the configuration of the embodiment. In this figure,
符号3は、入力部1から出力される入力データ(テストデータ)xt7を入力し、カテゴリ空間座標yt8,動的性質空間座標zt9を求め、これらから入力データxt7が表情学習部2より生成された表情のカテゴリ及び動的性質についての多様体のどれに類似しているかに基づき、入力データについて表情のカテゴリcと動的性質mの推定値
ここでは、基本表情のカテゴリとして、幸福、怒り、驚き、恐れ、嫌悪、及び、悲しみの6つの表情を対象とする。すなわち、c∈{1,…,6}であり、対象カテゴリ数はNc=6である。動的性質については、図3に示すような、通常、微細、大げさ、高速及び低速の5つを対象とする。すなわち、m∈{1,…,5}であり、対象動的性質の数はNm=5である。表情のカテゴリ及び動的性質のいずれについても、どのような状態を認識の対象としても構わない。例えば、動的性質については、微細かつ高速といった組み合わせの状態を認識対象の1つとしてもよい。 Here, six facial expressions of happiness, anger, surprise, fear, disgust, and sadness are targeted as categories of basic facial expressions. That is, cε {1,..., 6}, and the number of target categories is N c = 6. As for the dynamic properties, as shown in FIG. 3, usually, five of fine, exaggerated, high speed and low speed are targeted. That is, mε {1,..., 5}, and the number of target dynamic properties is N m = 5. Regardless of the facial expression category or dynamic property, any state may be used as a recognition target. For example, with regard to dynamic properties, a combination of fine and high speed may be set as one of recognition targets.
次に、学習データについて説明する。1人あるいは複数人の人物についての様々なカテゴリc及び動的性質mに対する表情の表出を複数回分予め用意しておく。1回の表出は、無表情から開始して対象の表情を表出してから無表情に戻るまでとする。そのような時系列のデータ中の個々のフレームを独立したデータとみなして、1つの学習データとする。この学習データのセットをX={xi,ci,mi}i=1,…,Nと表す。ここで、iはデータの番号(ID)を、Nは学習データの総フレーム数をそれぞれ表す。なお、学習データの数とその中でのデータのばらつきは認識精度に影響を及ぼすが、学習データ中には、認識対象のカテゴリc及び動的性質mについての表情が、それぞれ少なくとも1回分含まれているように用意しておく必要がある。 Next, learning data will be described. Expressions of facial expressions for various categories c and dynamic properties m for one or a plurality of persons are prepared in advance for a plurality of times. One expression starts from an expressionless expression until the expression of the subject is expressed and then returns to the expressionless expression. Each frame in such time-series data is regarded as independent data and is regarded as one learning data. This set of learning data is represented as X = {x i , c i , m i } i = 1 ,. Here, i represents a data number (ID), and N represents the total number of frames of learning data. Note that the number of learning data and variations in the data affect the recognition accuracy, but the learning data includes at least one facial expression for the category c and the dynamic property m to be recognized. It is necessary to have prepared.
次に、表情認識を行うべき対象の入力データについて説明する。入力データは、1人の人物がある動的性質のあるカテゴリの表情を表出している間の特徴点座標の時系列データである。時刻tにおいて計測された特徴ベクトルをxtと表す。 Next, input data on which facial expression recognition is to be performed will be described. The input data is time-series data of feature point coordinates while expressing a facial expression of a certain category having a certain dynamic character. The feature vector measured at time t is expressed as x t.
次に、図1に示す入力部について説明する。入力部1は、目や口といった顔部品周辺に配置されたL個の特徴点のD次元の座標値を並べたベクトルx=[x1,1,…,x1,D,x2,1,…,x2,D,…,xL,1,…,xL,D]T∈RDLを高い時間分解能で時系列に出力する。このベクトルxを特徴ベクトルと呼ぶ。ここで、xi,dはi番目の特徴点のd番目の次元の成分を表す。高い時間分解であることは表情の複雑な動的性質を識別するために必要である。ここでは、特徴点の3次元(D=3)の座標値を高速に計測する手段として、例えば100frame/secで動作するモーションキャプチャシステムを用いる。すなわち、対象物表面に小さなマーカーを貼り付けた状態で、その人物を複数台のカメラにて撮影し、これを入力部に入力される時系列画像データとし、各画像中でのマーカーの位置からそれらマーカーの3次元座標を算出する。
Next, the input unit shown in FIG. 1 will be described. The
このマーカーの位置の検出方法としては、緑色の塗料を顔面上に小さく塗ったものをマーカーとして、カラー映像から検出する方法を用いることができる。あるいは、赤外光をよく反射する素材をマーカーとして、赤外光を照射しながら赤外以外の波長の光をフィルタでカットしながら撮影した画像から検出する方法も用いることができる。または、そのようなマーカーを使用せずとも顔のテクスチャ情報のみから特徴点を検出できるのであればそうして構わない。あるいは、特徴点の位置情報として単に単眼カメラ画像中の特徴点の画像座標(D=2)を用いても構わない。なお、各人物に対する顔面上での特徴点の数及び配置は同一であるものとする。これらの座標値を高速に計測する手段は、公知の方法を用いるため、ここでは詳細な説明を省略する。 As a method for detecting the position of the marker, a method of detecting from a color image using a marker obtained by applying a small amount of green paint on the face can be used. Alternatively, it is also possible to use a method of detecting from a photographed image while irradiating infrared light and cutting light of wavelengths other than infrared with a filter using a material that reflects infrared light well as a marker. Alternatively, as long as the feature point can be detected only from the texture information of the face without using such a marker, it is possible. Alternatively, the image coordinates (D = 2) of the feature point in the monocular camera image may be simply used as the position information of the feature point. It is assumed that the number and arrangement of feature points on the face for each person are the same. Since the means for measuring these coordinate values at high speed uses a known method, detailed description thereof is omitted here.
この特徴ベクトルxは、入力部1において、人物毎に無表情時を基準として正規化される。すなわち、任意の人物の無表情時の特徴ベクトルxが等しくなるよう変換される。そのような正規化は次のようにして行われる。まず、前述した学習データセット中からある一人の人物の無表情時の特徴ベクトルxBASEを選択する。その人物の任意の表情の特徴ベクトルについてはそのまま出力する。一方、他の人物については、全ての特徴ベクトルxに対して射影gを施したベクトルg(x)を出力する。この射影gについては、その人物の無表情時の特徴ベクトルがなるべくxBASEに近くなるようなパラメータを求める。この射影gとしては、例えば、最も簡単なものの1つとして、特徴点座標空間の各座標軸に対してスケーリングを施す方法を用いる。
This feature vector x is normalized in the
例えば、D=3であれば、パラメータは3つであり、対角行列を用いて、
次に、図1に示すカテゴリ埋め込み部21、31について説明する。カテゴリ埋め込み部は、入力されるデータxtを、各軸が認識対象のカテゴリのうちの1つに対応したNc次元の空間(カテゴリ空間と呼ぶ)へと埋め込み、そのカテゴリ空間上での座標yt∈RNcを出力する。学習データをこの低次元のカテゴリ空間に埋め込んだ際に形成される多様体(カテゴリ多様対Yとよぶ)の一例を図4に示す。図4において、各点は1つのフレームを表している。このカテゴリ空間では、表情カテゴリ毎に分離された多様体が形成されるため、表情カテゴリを認識することがもともとの入力データの空間上よりも認識が容易となる。ここでは、表情変化、すなわち、特徴ベクトルxtの状態が、動的性質に関わらずそのときの表出強度のみに依存することを仮定する。このとき、このカテゴリ空間は表情の動的性質とは独立となる。すなわち、カテゴリ空間上に形成される図4のような多様体は、表情のカテゴリのみに依存して分離されており、同じカテゴリで動的性質の違う表情はそのカテゴリの多様体上での移動の仕方の違いとして現れる。
Next, the
次に、表情学習部2のカテゴリ埋め込み部21の処理動作を説明する。まず、距離行列M∈RN×Nを作成する。この距離行列Mは、成分(i,j)がi番目の学習データとj番目の学習データとの間の距離となっている。このときの距離尺度としては測地線距離を用いる。測地線距離については次のように計算する。まず、各学習データを1つのノードとするグラフを構築する。このとき、あるi番目の学習データからみて他のj番目の学習データがそれに隣接していると判断される場合に、i番目の学習データからj番目の学習データに対してリンクを設ける。そのリンクには、両ノード間のユークリッド距離を値として持たせる。
Next, the processing operation of the
隣接しているか否かの判断基準としては、k−最近傍、すなわち、それぞれのデータに対して、そこからユークリッド距離の小さい他のデータを順にk個選択することとする。最後に、距離行列Mの(i,j)成分Mi,jを、i番目の学習データからj番目の学習データまでの間の単一あるいは複数のリンクで繋がれたパスのうち、通過するリンクの持つ値の和の最小値とする。なお、隣接の判断基準には、k−最近傍以外にも、例えば、2つのデータの間のユークリッド距離が閾値以下であるようなデータ同士を全てリンクさせる方法を用いても構わない。 As a criterion for determining whether or not they are adjacent to each other, k-nearest neighbors, that is, k pieces of other data having a small Euclidean distance are sequentially selected from the respective data. Finally, the (i, j) component M i, j of the distance matrix M passes through a path connected by a single or a plurality of links between the i-th learning data and the j-th learning data. The minimum value of the sum of the values of the link. In addition to the k-nearest neighbor, for example, a method of linking all data whose Euclidean distance between two pieces of data is equal to or less than a threshold may be used as an adjacent determination criterion.
次いで、その距離行列Mに基づき、リップシッツ埋め込み(Lipschitz embedding)を用いてNc次元空間へと埋め込む。i番目の学習データxtをカテゴリ空間へと埋め込んだときの座標軸cについての成分をyi,cとすると、
続いて、表情認識部3のカテゴリ埋め込み部31の処理動作を説明する。まず、入力データxtから全ての学習データまでの測地線距離を計算する。ここでは、入力データxtからj番目の学習データまでの距離をMt,jと表す。入力データに対してk−最近傍となる学習データについては、入力データとそれらの学習データとの間のユークリッド距離をMt,jとする。それ以外の学習データについては、入力データxtに対するk−最近傍のそれぞれの点に対し、入力データxtとその最近傍点との間のユークリッド距離に、その最近傍点kから対象としているj番目の学習データまでの距離Mk,jを加えたもののうち、最小の値をMt,jとする。
Next, the processing operation of the
次いで、入力データxtをその距離行列Mに基づきリップシッツ埋め込みを用いてNc次元空間へと埋め込む。入力データxtをカテゴリ空間へと埋め込んだときの座標軸cについての成分をyt,cとして、式(1)において、yi,c及びMi,jの代わりにyt,c及びMt,jを用いてyt,cを計算する。 Then, it embeds into N c-dimensional space using the embedded Rippushittsu based input data x t to the distance matrix M. Let y t, c be the component about the coordinate axis c when the input data x t is embedded in the category space, and in equation (1), instead of y i, c and M i, j , y t, c and M t , J is used to calculate yt, c .
次に、図1に示す動的性質埋め込み部22、32について説明する。動的性質埋め込み部22、32は、対象とする表情データがカテゴリ空間上でどのように移動するのかの情報を、それぞれの軸が認識対象の動的性質の1つに対応したNm次元の空間(これを動的性質空間と呼ぶ)へと埋め込み、その動的性質空間上での座標zt∈RNmを出力する。学習データセットXをこのような低次元の動的性質空間に埋め込んだ際に形成される多様体(以下、動的性質多様体Zと呼び、Z={zi}i=1,…,Nとする)の一例を図5に示す。図5において、各点は1つのフレームを表している。
Next, the dynamic
この動的性質空間は表情のカテゴリに依存しない、すなわち、図3に示すような動的性質は、カテゴリに関わらず共通であるとする。このように、カテゴリとは独立した動的性質空間を作成することで、全ての表情のカテゴリ及び動的性質の組み合わせに対して学習データを準備しなくとも、認識対象のそれぞれの動的性質についてカテゴリに関わらず少なくとも1回の表出分ずつの学習データを準備すれば、同じ動的性質を持つ全てのカテゴリの表情を認識できるようになる。ただし、認識の精度は学習データの数、及び、その中でのデータのばらつきに依存する。また、カテゴリと動的性質が混合したNc×Nm次元の空間へ入力データを直接1回で埋め込むよりも、形成される多様体のばらつきを小さくすることができ、より少ないデータから学習した場合でも正しくそれらを認識できることが期待できる。 This dynamic property space does not depend on the category of facial expressions, that is, the dynamic property as shown in FIG. 3 is common regardless of the category. In this way, by creating a dynamic property space independent of categories, it is possible to identify each dynamic property of the recognition target without preparing learning data for all combinations of facial expression categories and dynamic properties. Regardless of the category, if at least one learning data for each expression is prepared, facial expressions of all categories having the same dynamic properties can be recognized. However, the accuracy of recognition depends on the number of learning data and the variation of data therein. In addition, it is possible to reduce the variation of the formed manifold and to learn from less data than to embed the input data directly into the N c × N m- dimensional space where the category and dynamic properties are mixed. You can expect them to be recognized correctly.
このような動的性質空間を作成するために、ここでは、カテゴリ空間へと埋め込まれた入力データytから特定の表情カテゴリに関する表出の強度に相当する成分を抽出し、それをさらに対象とする動的性質の数と同じ次元数の空間へと埋め込む。このときの動的性質空間上での座標を
動的性質埋め込み部22、32は、まず、入力データxtのカテゴリ空間上での座標yt∈RNcを入力として、そのytからそれぞれの表情カテゴリcの表出の強度に相当する成分y'c,tを抽出し、それを一定時間長(時間窓サイズ)h分まとめたベクトル
成分y'c,tについては式(2)により算出する。
このように、埋め込みを行う際の入力となるベクトル
次に、図1に示すカテゴリ及び動的性質認識部33について説明する。カテゴリ及び動的性質認識部33は、入力データxtに対して表情のカテゴリ及び動的性質の認識を行い、それらの認識結果情報
なお、ここでは、表情のカテゴリ及び動的性質の時間遷移については考慮していないが、マルコフ過程などを仮定して時系列フィルタリングを適用することも可能である。 Here, the time series of facial expressions and dynamic properties are not considered, but time series filtering can be applied assuming a Markov process or the like.
次に、カテゴリについての事後確率を計算する処理動作について説明する。本実施形態では、入力データの対象の表情カテゴリ毎の事後確率p(c|xt)を、入力データxtをカテゴリ空間へと埋め込んだ際のカテゴリに関する多様体までの距離に基づき計算する。ベイズ則を用いるとp(c|xt)は次のように展開される。
本実施形態では、尤度p(yt|c)を、学習データ中での対象データのカテゴリ空間での座標ytのk−最近傍に占めるデータのうちカテゴリのデータの占める割合に基づき次のように定義する。
Qc(y)については、カテゴリ空間上での座標に対するk−最近傍
次に、動的性質についての事後確率を計算する処理動作について説明する。
なお、この動的性質の尤度については、この
以上説明したように、2段階での埋め込み、すなわち、カテゴリ埋め込み処理と動的性質埋め込み処理を続けて行い、入力データは2段階の埋め込みのそれぞれの段階において、カテゴリに関する空間と動的性質に関する空間という2つの別の性質を持つ空間へと射影するようにした。これにより、1段階目の空間的な埋め込みでは、表情のカテゴリのみに依存して分離された多様体が形成され、2段階目の時間的な埋め込みでは、表情の動的性質のみに依存して分離された多様体が形成されることになる。結果的に、1段階目で埋め込まれるカテゴリに関する空間上ではカテゴリの種類を、2段階目で埋め込まれる動的性質に関する空間上では動的性質の種類をそれぞれ認識しやすくなる。 As described above, the embedding in two stages, that is, the category embedding process and the dynamic property embedding process are continuously performed, and the input data is the space related to the category and the space related to the dynamic property in each of the two stages of embedding Projected into a space with two different properties. As a result, in the first stage spatial embedding, a separated manifold is formed depending only on the facial expression category, and in the second stage temporal embedding, it depends only on the dynamic nature of the facial expression. A separate manifold will be formed. As a result, it is easy to recognize the type of category on the space related to the category embedded in the first stage and the type of dynamic property on the space related to the dynamic property embedded in the second stage.
例えば、表情が表出され始めた直後でまだ表出強度が小さい段階では、表情のカテゴリのみを考えたのではその識別が困難である。本発明によれば、動的性質を同時に扱い、尤もらしいカテゴリと動的性質の組み合わせを探索することで、結果としてその表情のカテゴリを正しく認識することが可能となる。すなわち、ここでのカテゴリ空間への埋め込みとは空間方向の埋め込みであり、動的性質空間への埋め込みとは時間方向の埋め込みである。ここで、空間的とは、対象としている瞬間の表情が無表情時からどれだけ変化しているのか、すなわち、表情のカテゴリに関する情報を意味する。一方、時間的とは、表情変化の度合いが対象としている瞬間までどのように時間的に変化したのかを意味する。 For example, at the stage where the expression intensity is still small immediately after the expression starts to be expressed, it is difficult to identify the expression by considering only the expression category. According to the present invention, it is possible to handle dynamic properties at the same time and search for a combination of plausible categories and dynamic properties, thereby correctly recognizing the facial expression category. That is, embedding in the category space here is embedding in the spatial direction, and embedding in the dynamic property space is embedding in the time direction. Here, spatial means how much the facial expression at the moment of interest has changed since no facial expression, that is, information on the facial expression category. On the other hand, the term “temporal” means how the degree of expression change has changed temporally until the target moment.
入力データとしては、高い時間分解能で得た、目や口といった顔部品の周辺に配置された特徴点の座標値の時系列データとした。このとき、表情が変化した際に、顔部品が移動や変形することで特徴点の座標値が変化する。時間分解能の高いデータを扱うことで表情の動的性質に関する詳細を表現し、さらにそれを認識することができる。処理の第一段階では、入力データを、リップシッツ埋め込み法を用いて表情カテゴリの空間へと埋め込む。次いで、それらのデータがカテゴリの空間上を時間的にどのように移動するかの情報を、さらにリップシッツ埋め込み法を用いて動的性質の空間へと埋め込む。最後に、入力データ中の表情が、学習データから事前に形成されたそれぞれの空間中のカテゴリと動的性質に関するどの多様体に近いのかに基づき、カテゴリと動的性質を認識して出力する。 As input data, time-series data of coordinate values of feature points arranged around the face parts such as eyes and mouth obtained with high time resolution was used. At this time, when the facial expression changes, the coordinate value of the feature point changes due to the movement or deformation of the facial part. By handling data with high temporal resolution, it is possible to express details about the dynamic nature of facial expressions and to recognize them. In the first stage of processing, the input data is embedded in the expression category space using the Lipsitz embedding method. Then, information on how the data moves in time on the category space is further embedded into the dynamic property space using the Lipsitz embedding method. Finally, the category and the dynamic property are recognized and output based on which manifold related to the category and the dynamic property in each space formed in advance from the learning data is close to the expression in the input data.
これにより、顔面上の目や口といった特徴点の移動の情報に基づき、表情のカテゴリの認識のみならず、表情の表出の速度や強度に関する複雑な動的性質についても認識可能となる。また、表情が表出され始めた直後の表出強度が小さい、すなわち、無表情からそれほど大きく変化していない表情についても正しく認識できるようになる。例えば、一瞬表出された後、直ちに別の表情によって隠蔽された表情を認識することも可能となる。 This makes it possible not only to recognize facial expression categories but also to recognize complex dynamic properties related to the speed and intensity of facial expression based on information on the movement of feature points such as eyes and mouths on the face. In addition, it is possible to correctly recognize a facial expression whose expression intensity is small immediately after the facial expression starts to be expressed, that is, a facial expression that does not change so much from no expression. For example, it is also possible to recognize a facial expression concealed by another facial expression immediately after appearing for a moment.
なお、図1における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより表情学習処理及び表情認識処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。 1 is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into a computer system and executed to execute facial expression learning processing and Expression recognition processing may be performed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer system” includes a WWW system having a homepage providing environment (or display environment). The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system that becomes a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding programs for a certain period of time are also included.
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, what is called a difference file (difference program) may be sufficient.
顔面上の目や口といった特徴点の移動の情報に基づき、表情のカテゴリの認識のみならず、表情の表出の速度や強度に関する複雑な動的性質についても認識することが不可欠な用途に適用できる。 Applicable to applications where it is indispensable not only to recognize facial expression categories, but also to recognize complex dynamic properties related to the speed and intensity of facial expression based on information on the movement of feature points such as eyes and mouth on the face it can.
1・・・入力部、2・・・表情学習部、3・・・表情認識部、4・・・学習データセット記憶部、5・・・カテゴリ多様体記憶部、6・・・動的性質多様体記憶部
DESCRIPTION OF
Claims (6)
前記入力手段から出力される前記学習データを、表情のカテゴリ空間に射影することにより表情のカテゴリのみに依存して分離されたカテゴリ多様体情報を生成するカテゴリ埋め込み手段と、
前記カテゴリ多様体情報を記憶するカテゴリ多様体情報記憶手段と、
前記入力手段から出力される前記学習データを、表情の動的性質空間に射影することにより表情の動的性質のみに依存して分離された動的性質多様体情報を生成する動的性質埋め込み手段と、
前記動的性質多様体情報を記憶する動的性質多様体情報記憶手段と
を備えたことを特徴とする表情学習装置。 Input means for outputting learning data composed of positional information of a plurality of feature points on the face from time-series image data;
Category embedding means for generating category manifold information separated depending only on a facial expression category by projecting the learning data output from the input means onto a facial expression category space;
Category manifold information storage means for storing the category manifold information;
Dynamic property embedding means for generating dynamic property manifold information separated depending only on the dynamic property of the expression by projecting the learning data output from the input unit onto the dynamic property space of the expression When,
An expression learning device comprising: dynamic property manifold information storage means for storing the dynamic property manifold information.
前記学習データを表情の動的性質空間に射影した動的性質多様体情報を記憶する動的性質多様体情報記憶手段と、
時系列の画像データから表情認識対象人物の顔面上の複数の特徴点の位置情報を出力する入力手段と、
前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情のカテゴリ空間に射影することにより、カテゴリ空間座標を求めるカテゴリ埋め込み手段と、
前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情の動的性質空間に射影することにより、動的性質空間座標を求める動的性質埋め込み手段と、
前記カテゴリ多様体情報記憶手段に記憶されている前記カテゴリ多様体情報を参照して、前記カテゴリ空間座標が属する前記カテゴリ多様体情報を特定することにより前記表情認識対象人物の表情のカテゴリを推定するとともに、前記動的性質多様体情報記憶手段に記憶されている前記動的性質多様体情報を参照して、前記動的性質空間座標が属する前記動的性質多様体情報を特定することにより前記表情認識対象人物の表情の動的性質を推定する表情認識手段と
を備えたことを特徴とする表情認識装置。 Category manifold information storage means for storing category manifold information obtained by projecting learning data for facial expression recognition onto a category space of facial expressions;
Dynamic property manifold information storage means for storing dynamic property manifold information obtained by projecting the learning data onto the dynamic property space of an expression;
Input means for outputting position information of a plurality of feature points on the face of the facial expression recognition target person from time-series image data;
Category embedding means for obtaining category space coordinates by projecting the position information of the plurality of feature points output from the input means onto the category space of the facial expression;
Dynamic property embedding means for obtaining dynamic property space coordinates by projecting the positional information of the plurality of feature points output from the input unit onto the dynamic property space of the facial expression;
By referring to the category manifold information stored in the category manifold information storage means, the category manifold information to which the category space coordinates belong is specified to estimate the facial expression category of the facial expression recognition target person. And the facial expression by identifying the dynamic property manifold information to which the dynamic property space coordinates belong by referring to the dynamic property manifold information stored in the dynamic property manifold information storage means. An expression recognizing apparatus comprising: an expression recognizing means for estimating a dynamic property of an expression of a person to be recognized.
前記カテゴリ埋め込み手段が、前記入力手段から出力される前記学習データを、表情のカテゴリ空間に射影することにより表情のカテゴリのみに依存して分離されたカテゴリ多様体情報を生成して、前記カテゴリ多様体記憶手段に記憶するカテゴリ埋め込みステップと、
前記動的性質埋め込み手段が、前記入力手段から出力される前記学習データを、表情の動的性質空間に射影することにより表情の動的性質のみに依存して分離された動的性質多様体情報を生成して、前記動的性質多様体情報記憶手段に記憶する動的性質埋め込みステップと、
を有することを特徴とする表情学習方法。 Input means for outputting learning data consisting of position information of a plurality of feature points on the face included in each image from time-series image data, category manifold information storage means for storing category manifold information, and dynamic properties A facial expression learning method in a facial expression learning device comprising dynamic property manifold information storage means for storing manifold information, category embedding means, and dynamic property embedding means,
The category embedding unit generates category manifold information separated depending only on a facial expression category by projecting the learning data output from the input unit onto a facial expression category space, and A category embedding step for storing in the body storage means;
The dynamic property manifold information separated by the dynamic property embedding means depending only on the dynamic property of the expression by projecting the learning data output from the input unit onto the dynamic property space of the expression Generating a dynamic property and storing it in the dynamic property manifold information storage means;
A facial expression learning method characterized by comprising:
前記カテゴリ埋め込み手段が、前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情のカテゴリ空間に射影することにより、カテゴリ空間座標を求めるカテゴリ埋め込みステップと、
前記動的性質埋め込み手段が、前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情の動的性質空間に射影することにより、動的性質空間座標を求める動的性質埋め込みステップと、
前記表情認識手段が、前記カテゴリ多様体情報記憶手段に記憶されている前記カテゴリ多様体情報を参照して、前記カテゴリ空間座標が属する前記カテゴリ多様体情報を特定することにより前記表情認識対象人物の表情のカテゴリを推定するとともに、前記動的性質多様体情報記憶手段に記憶されている前記動的性質多様体情報を参照して、前記動的性質空間座標が属する前記動的性質多様体情報を特定することにより前記表情認識対象人物の表情の動的性質を推定する表情認識ステップと
を有することを特徴とする表情認識方法。 Category manifold information storage means for storing category manifold information obtained by projecting learning data for facial expression recognition onto a category space for facial expressions, and dynamic property manifold information obtained by projecting the learning data onto a dynamic property space for facial expressions Dynamic property manifold information storage means for storing information, input means for outputting position information of a plurality of feature points on the face of a facial expression recognition target person from time-series image data, category embedding means, and dynamic property embedding And a facial expression recognition method in a facial expression recognition device comprising facial expression recognition means,
A category embedding step in which the category embedding unit obtains category space coordinates by projecting the positional information of the plurality of feature points output from the input unit onto the category space of the facial expression;
A dynamic property embedding step in which the dynamic property embedding unit obtains dynamic property space coordinates by projecting the position information of the plurality of feature points output from the input unit onto the dynamic property space of the facial expression; When,
The facial expression recognition means refers to the category manifold information stored in the category manifold information storage means and identifies the category manifold information to which the category space coordinates belong, thereby identifying the facial expression recognition person. The dynamic property manifold information to which the dynamic property space coordinates belong is obtained by estimating the expression category and referring to the dynamic property manifold information stored in the dynamic property manifold information storage means. A facial expression recognition method comprising: a facial expression recognition step for estimating a dynamic characteristic of the facial expression of the facial expression recognition target person by specifying.
前記入力手段から出力される前記学習データを、表情のカテゴリ空間に射影することにより表情のカテゴリのみに依存して分離されたカテゴリ多様体情報を生成して、前記カテゴリ多様体記憶手段に記憶するカテゴリ埋め込みステップと、
前記入力手段から出力される前記学習データを、表情の動的性質空間に射影することにより表情の動的性質のみに依存して分離された動的性質多様体情報を生成して、前記動的性質多様体情報記憶手段に記憶する動的性質埋め込みステップと
を前記コンピュータに行わせることを特徴とする表情学習プログラム。 Input means for outputting learning data consisting of position information of a plurality of feature points on the face from time-series image data, category manifold information storage means for storing category manifold information, and dynamic property manifold information are stored A facial expression learning program for causing a computer on a facial expression learning device comprising dynamic property manifold information storage means to perform facial expression learning,
By projecting the learning data output from the input unit onto a facial expression category space, category manifold information separated depending only on the facial expression category is generated and stored in the category manifold storage unit. A category embedding step;
The learning data output from the input means is projected onto the dynamic property space of the facial expression to generate dynamic property manifold information separated depending only on the dynamic property of the facial expression, A facial expression learning program characterized by causing a computer to perform a dynamic property embedding step stored in a property manifold information storage means.
前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情のカテゴリ空間に射影することにより、カテゴリ空間座標を求めるカテゴリ埋め込みステップと、
前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情の動的性質空間に射影することにより、動的性質空間座標を求める動的性質埋め込みステップと、
前記カテゴリ多様体情報記憶手段に記憶されている前記カテゴリ多様体情報を参照して、前記カテゴリ空間座標が属する前記カテゴリ多様体情報を特定することにより前記表情認識対象人物の表情のカテゴリを推定するとともに、前記動的性質多様体情報記憶手段に記憶されている前記動的性質多様体情報を参照して、前記動的性質空間座標が属する前記動的性質多様体情報を特定することにより前記表情認識対象人物の表情の動的性質を推定する表情認識ステップと
を前記コンピュータに行わせることを特徴とする表情認識プログラム。 Category manifold information storage means for storing category manifold information obtained by projecting learning data for facial expression recognition onto a category space for facial expressions, and dynamic property manifold information obtained by projecting the learning data onto a dynamic property space for facial expressions A facial expression on a computer on the facial expression recognition device, comprising: a dynamic property manifold information storage means for storing the information; and an input means for outputting position information of a plurality of feature points on the face of the facial expression recognition target person from time-series image data. A facial expression recognition program for recognition,
A category embedding step for obtaining category space coordinates by projecting the position information of the plurality of feature points output from the input means onto the category space of the facial expression;
A dynamic property embedding step of obtaining dynamic property space coordinates by projecting the positional information of the plurality of feature points output from the input means onto the dynamic property space of the facial expression;
By referring to the category manifold information stored in the category manifold information storage means, the category manifold information to which the category space coordinates belong is specified to estimate the facial expression category of the facial expression recognition target person. And the facial expression by identifying the dynamic property manifold information to which the dynamic property space coordinates belong by referring to the dynamic property manifold information stored in the dynamic property manifold information storage means. A facial expression recognition program which causes the computer to perform a facial expression recognition step for estimating a dynamic property of a facial expression of a person to be recognized.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010143751A JP5485044B2 (en) | 2010-06-24 | 2010-06-24 | Facial expression learning device, facial expression recognition device, facial expression learning method, facial expression recognition method, facial expression learning program, and facial expression recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010143751A JP5485044B2 (en) | 2010-06-24 | 2010-06-24 | Facial expression learning device, facial expression recognition device, facial expression learning method, facial expression recognition method, facial expression learning program, and facial expression recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012008779A true JP2012008779A (en) | 2012-01-12 |
JP5485044B2 JP5485044B2 (en) | 2014-05-07 |
Family
ID=45539248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010143751A Active JP5485044B2 (en) | 2010-06-24 | 2010-06-24 | Facial expression learning device, facial expression recognition device, facial expression learning method, facial expression recognition method, facial expression learning program, and facial expression recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5485044B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017164478A1 (en) * | 2016-03-25 | 2017-09-28 | 한국과학기술원 | Method and apparatus for recognizing micro-expressions through deep learning analysis of micro-facial dynamics |
JP2017176762A (en) * | 2016-03-31 | 2017-10-05 | 有限会社Triart | Stress evaluation method and stress evaluation system |
KR20200063292A (en) * | 2018-11-16 | 2020-06-05 | 광운대학교 산학협력단 | Emotional recognition system and method based on face images |
-
2010
- 2010-06-24 JP JP2010143751A patent/JP5485044B2/en active Active
Non-Patent Citations (2)
Title |
---|
CSNG199801325004; 別所弘章 外3名: 'マンマシンインタフェースのための表情認識とその程度推定' 映像情報メディア学会技術報告 第22巻 第39号, 19980728, 第19〜24頁, 社団法人映像情報メディア学会 * |
JPN6013027795; 別所弘章 外3名: 'マンマシンインタフェースのための表情認識とその程度推定' 映像情報メディア学会技術報告 第22巻 第39号, 19980728, 第19〜24頁, 社団法人映像情報メディア学会 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017164478A1 (en) * | 2016-03-25 | 2017-09-28 | 한국과학기술원 | Method and apparatus for recognizing micro-expressions through deep learning analysis of micro-facial dynamics |
JP2017176762A (en) * | 2016-03-31 | 2017-10-05 | 有限会社Triart | Stress evaluation method and stress evaluation system |
KR20200063292A (en) * | 2018-11-16 | 2020-06-05 | 광운대학교 산학협력단 | Emotional recognition system and method based on face images |
KR102147052B1 (en) * | 2018-11-16 | 2020-08-21 | 광운대학교 산학협력단 | Emotional recognition system and method based on face images |
Also Published As
Publication number | Publication date |
---|---|
JP5485044B2 (en) | 2014-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Joo et al. | Towards social artificial intelligence: Nonverbal social signal prediction in a triadic interaction | |
US20180144185A1 (en) | Method and apparatus to perform facial expression recognition and training | |
Murtaza et al. | Analysis of face recognition under varying facial expression: a survey. | |
JP4950787B2 (en) | Image processing apparatus and method | |
JP6517681B2 (en) | Image pattern learning apparatus, method and program | |
JP2019121374A (en) | Facial expression recognition method, object recognition method, facial expression recognition apparatus, facial expression training method | |
Li et al. | A data-driven approach for facial expression retargeting in video | |
JP2014211719A (en) | Apparatus and method for information processing | |
US11645798B1 (en) | Facial animation transfer | |
CN111028319A (en) | Three-dimensional non-photorealistic expression generation method based on facial motion unit | |
US20160071287A1 (en) | System and method of tracking an object | |
JP2016032261A (en) | Concentration degree estimation device, method and program | |
Weber et al. | High-level geometry-based features of video modality for emotion prediction | |
CN108174141B (en) | Video communication method and mobile device | |
Neverova | Deep learning for human motion analysis | |
Zerrouki et al. | Automatic classification of human body postures based on the truncated SVD | |
JP2007213528A (en) | Action recognition system | |
JP5485044B2 (en) | Facial expression learning device, facial expression recognition device, facial expression learning method, facial expression recognition method, facial expression learning program, and facial expression recognition program | |
Song et al. | A design for integrated face and facial expression recognition | |
JP2013003706A (en) | Facial-expression recognition device, method, and program | |
Zeng et al. | Video‐driven state‐aware facial animation | |
Malekmohamadi et al. | Low-cost automatic ambient assisted living system | |
JP5300795B2 (en) | Facial expression amplification device, facial expression recognition device, facial expression amplification method, facial expression recognition method, and program | |
Lee et al. | Robust emotion recognition algorithm for ambiguous facial expression using optimized AAM and k-NN | |
JP5061808B2 (en) | Emotion judgment method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121004 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130530 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20130605 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130611 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130725 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130801 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131001 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131025 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5485044 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |