JP2019517693A - System and method for facial expression recognition and annotation - Google Patents

System and method for facial expression recognition and annotation Download PDF

Info

Publication number
JP2019517693A
JP2019517693A JP2018562947A JP2018562947A JP2019517693A JP 2019517693 A JP2019517693 A JP 2019517693A JP 2018562947 A JP2018562947 A JP 2018562947A JP 2018562947 A JP2018562947 A JP 2018562947A JP 2019517693 A JP2019517693 A JP 2019517693A
Authority
JP
Japan
Prior art keywords
image
face
color
images
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018562947A
Other languages
Japanese (ja)
Other versions
JP7063823B2 (en
Inventor
マルティネス,アレイクス
Original Assignee
オハイオ・ステイト・イノベーション・ファウンデーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オハイオ・ステイト・イノベーション・ファウンデーション filed Critical オハイオ・ステイト・イノベーション・ファウンデーション
Publication of JP2019517693A publication Critical patent/JP2019517693A/en
Application granted granted Critical
Publication of JP7063823B2 publication Critical patent/JP7063823B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本明細書に開示され特許請求された本発明は、その態様において、画像内のAUおよび感情カテゴリを識別するシステムおよび方法を含む。システムおよび方法は、人々の顔の画像を含む一組の画像を利用した。本システムおよび方法は、顔画像を分析して、感情カテゴリを表す顔血流変動によるAUおよび顔色を決定する。諸態様では、分析は、AU、AU強度および感情カテゴリを決定するためのガボール変換を含むことができる。他の態様では、システムおよび方法は、AU、AU強度および感情カテゴリを決定するための色分散分析を含むことができる。さらなる態様では、分析は、AU、感情カテゴリ、およびそれらの強度を決定するように訓練されたディープニューラルネットワークを含むことができる。The invention disclosed and claimed herein includes, in its aspects, systems and methods for identifying AU and emotional categories in an image. The system and method utilized a set of images including images of people's faces. The system and method analyzes the face image to determine AU and complexion due to facial blood flow fluctuations representing emotional categories. In aspects, the analysis may include AU, AU intensity, and Gabor transforms to determine emotional categories. In other aspects, the systems and methods can include AU, AU intensity, and chromatic variance analysis to determine emotional categories. In a further aspect, the analysis can include AUs, emotional categories, and deep neural networks trained to determine their strength.

Description

国家ライセンシング権
本発明は、国立眼科研究所、および国立聴覚・伝達障害研究所によって授与された助成金番号R01−EY−020834およびRO1−DC−014498の下で政府の支援を受けてなされた。どちらの機関も国立衛生研究所の一部である。 政府は本発明において一定の権利を有する。
This invention was made with government support under Grant Nos. R01-EY-020834 and RO1-DC-014498 awarded by the National Institute of Ophthalmology and the National Institute of Hearing and Communication Disorders. Both institutions are part of the National Institutes of Health. The government has certain rights in the invention.

本出願は、2016年6月1日に出願された「表情の認識および注釈付けのためのシステムおよび方法」と題する米国仮特許出願番号62 / 343,994の利益を主張する。上記出願の全体は参照により本明細書に組み込まれる。   This application claims the benefit of US Provisional Patent Application No. 62 / 343,994, entitled "System and Method for Facial Expression Recognition and Annotation," filed June 1, 2016. The entire application is incorporated herein by reference.

顔の知覚と感情の理論の基礎研究は、感情表情の画像およびビデオシーケンスの大きな注釈付きデータベースに影響を与えることができる。最も有用で一般的に必要とされる注釈のいくつかは、アクションユニット(AU)、AU強度、および感情カテゴリである。中小規模のデータベースには、数ヶ月かけてエキスパートのコーダーが手動で注釈を付けることができるが、大規模なデータベースにはできない。たとえば、エキスパートコーダによって各顔の画像に非常に高速に注釈を付けることができたとしても(たとえば20秒/画像)、100万枚の画像をコーディングするのに5.556時間かかることになり、それは、694日(8時間)に換算でき、または休まずに行う仕事2.66年に換算される。   Basic research on the theory of facial perception and emotion can affect large annotated databases of images of emotional expressions and video sequences. Some of the most useful and commonly needed annotations are action units (AU), AU intensity, and emotion categories. Small and medium-sized databases can be manually annotated by expert coders over several months, but not for large databases. For example, even if the expert coder could annotate each face image very quickly (for example 20 seconds per image), it would take 5.556 hours to code a million images, It can be converted to 694 days (8 hours) or converted to work 2.66 years without work.

既存のアルゴリズムでは、すべてのアプリケーションのすべてのAUを認識せず、AU強度を指定せず、大規模なデータベースを扱うには空間的および/または時間的に過度に計算が必要であるか、または特定のデータベース内でのみテストされる(たとえば、複数のデータベースが使用される場合でも、トレーニングとテストは、通常各データベース内で個別に行われる)。   Existing algorithms do not recognize all AUs of all applications, do not specify AU strengths, or require excessive computations in space and / or time to handle large databases, or Tested only in a particular database (eg, even if multiple databases are used, training and testing is usually done separately in each database).

本開示は、アクションユニット(AU)、それらの強度、ならびにデータベースにわたる多数(23)の基本および複合感情カテゴリを認識するためのコンピュータビジョンおよび機械学習プロセスを提供する。重要なことに、例示されたプロセスは、データベースにわたるAUおよびそれらの強度の信頼できる認識を提供する最初のものであり、リアルタイムで実行される(30画像/秒)。これらの機能は、「自然のままの(in the wild)」感情画像の百万の表情の大規模データベースへの自動注釈付けを容易にする。これは他のシステムでは達成できない功績である。   The present disclosure provides computer vision and machine learning processes for recognizing action units (AUs), their strengths, and a large number (23) of basic and complex emotion categories across databases. Importantly, the illustrated process is the first to provide reliable recognition of AUs and their strengths across databases, and is performed in real time (30 images / sec). These features facilitate the automatic annotation of large-scale databases of one million expressions of "in the wild" emotional images. This is an achievement that can not be achieved with other systems.

さらに、画像には421の感情キーワードで意味的に注釈が付けられる。   In addition, the image is semantically annotated with 421 emotional keywords.

顔の画像におけるAUとAU強度の認識のためのコンピュータビジョンプロセスが提示される。とりわけ、本プロセスは、データベースにわたるAUおよびAU強度を確実に認識できる。本発明の分類器をトレーニングするために使用されていない独立した画像データベース上のAUおよびAU強度を良好に認識するために、いくつかのデータベースを使用して本プロセスをトレーニングできることも本明細書で実証される。さらに、本プロセスは、感情の表情の画像の大きなデータベースを自動的に構築して注釈を付けるために使用される。画像は、AU、AU強度および感情カテゴリで注釈が付けられる。結果は、AU、AU強度、感情カテゴリおよび/または感情的キーワードによって容易に照会されることができる100万枚の画像のデータベースである。   A computer vision process is presented for the recognition of AU and AU intensity in facial images. Among other things, the process can reliably recognize AU and AU strength across databases. Also described herein, several databases can be used to train the process to better recognize AU and AU intensities on independent image databases that are not used to train the classifier of the present invention. Demonstrated. Furthermore, the process is used to automatically build and annotate a large database of emotional expression images. Images are annotated with AU, AU intensity and emotion categories. The result is a database of 1 million images that can be easily queried by AU, AU intensity, emotional category and / or emotional keywords.

さらに、本プロセスは、色特徴からAUを識別するための包括的なコンピュータビジョンプロセスを容易にする。この目的のために、色特徴をAUの認識にうまく利用することができ、前述のシステムで得られたものより優れた結果をもたらす。つまり、AUが非アクティブからアクティブ、またはその逆に変わるときの色の変化を定義する関数は、AU内では一貫しており、それらの間の差異は異なる。さらに、本プロセスは、顔の色の変化をどのように利用して多種多様な画像条件下で撮影されたビデオ中のAUの存在を識別することができるかを明らかにする。   In addition, the process facilitates a comprehensive computer vision process for identifying AUs from color features. To this end, color features can be successfully exploited for AU recognition, leading to better results than those obtained with the aforementioned system. That is, the functions that define the change in color as the AU changes from inactive to active or vice versa are consistent within the AU and the differences between them are different. In addition, the process reveals how facial color variations can be used to identify the presence of AUs in videos taken under a wide variety of imaging conditions.

さらに、顔の色は顔の表情の感情を決定するために使用される。上述したように、人間の感情の表情は、一般的にアクションユニット(AU)と呼ばれる、自分の顔の筋肉を収縮させることによって作り出される。さらに、顔の表面も血管の大きなネットワークで神経支配される。例えば、怒りは顔への血流を増加させ、その結果赤い顔になるが、恐怖は顔からの血液の排出に関連し、青白い顔をもたらす。これらの目に見える顔の色は、顔の筋肉の活性化がない場合でも、顔の表情の画像における感情の解釈を可能にする。この色信号はAUが提供するものとは独立しているため、アルゴリズムはAUからの感情と色を独立して検出できる。   In addition, the color of the face is used to determine the emotion of the facial expression. As mentioned above, human emotional expressions are created by contracting one's face muscles, commonly called action units (AU). Furthermore, the surface of the face is also innervated by a large network of blood vessels. For example, anger increases blood flow to the face, resulting in a red face, but fear is associated with blood drain from the face, resulting in a pale face. These visible face colors allow interpretation of emotions in facial expression images, even in the absence of facial muscle activation. Since this color signal is independent of what the AU provides, the algorithm can detect emotion and color from the AU independently.

さらに、ディープニューラルネットワーク(DNN)のためのグローバルローカル損失関数が提示され、それは類似の対象ランドマークの関心点ならびにAUおよび感情カテゴリのきめ細かい検出に効率的に使用することができる。導出された局所的および全体的な損失により、パッチベースのアプローチを使用する必要なしに正確な局所的結果が得られ、迅速で望ましい収束が得られる。本グローバルローカル損失関数は、AUおよび感情カテゴリの認識に使用されてもよい。   Furthermore, a global local loss function for deep neural networks (DNN) is presented, which can be efficiently used for fine point detection of similar subject landmark interest points and AU and emotional categories. The derived local and global losses provide accurate local results without the need to use a patch based approach, and provide rapid and desirable convergence. The present global local loss function may be used for AU and emotion category recognition.

いくつかの実施形態では、顔認識および注釈プロセスは臨床用途で使用される。   In some embodiments, face recognition and annotation processes are used in clinical applications.

いくつかの実施形態では、顔認識および注釈プロセスは精神病理学的評価の検出に使用される。   In some embodiments, face recognition and annotation processes are used to detect psychopathological assessments.

いくつかの実施形態では、顔認識および注釈付けプロセスは、外傷後ストレス障害のスクリーニング、たとえば軍事施設または緊急治療室でのスクリーニングに使用される。   In some embodiments, the face recognition and annotation process is used to screen for post-traumatic stress disorders, such as in military installations or emergency rooms.

いくつかの実施形態では、顔認識および注釈プロセスは、顔の表情を認識するために学習障害(例えば、自閉症スペクトラム障害)を持つ子供を教えるために使用される。   In some embodiments, face recognition and annotation processes are used to teach children with learning disabilities (eg, autism spectrum disorders) to recognize facial expressions.

いくつかの実施形態では、顔認識および注釈プロセスは、広告のために、たとえば広告を見ている人々の分析のために、映画を見る人々の分析のために、スポーツアリーナでの人々の反応の分析のために使用される。   In some embodiments, the face recognition and annotating process may be performed on people's responses at the sports arena for advertising, for example, for analyzing people who are watching advertising, for analyzing people who are watching movies, etc. Used for analysis.

いくつかの実施形態では、顔認識および注釈プロセスは監視のために使用される。   In some embodiments, face recognition and annotation processes are used for monitoring.

いくつかの実施形態では、感情、AUおよび他の注釈の認識は、ウェブ検索を改善または識別するために使用され、例えば、システムは、驚きを表現する顔の画像または眉毛を有する特定の人物の画像を識別するために使用される。   In some embodiments, recognition of emotions, AUs and other annotations is used to improve or identify web searches, for example, the system can be used to image surprises or to show specific people with eyebrows Used to identify an image.

いくつかの実施形態では、顔認識および注釈付けプロセスは、小売店で顧客の行動を監視、評価または決定するために使用される。   In some embodiments, the face recognition and annotation process is used to monitor, evaluate or determine customer behavior at a retail store.

いくつかの実施形態では、顔認識および注釈プロセスは、施設または個人の電子写真を整理するために、例えば感情またはAUによって人の個人的写真を整理するために使用される。   In some embodiments, face recognition and annotation processes are used to organize personal photos of a person, for example by emotion or AU, to organize electronic photographs of facilities or individuals.

いくつかの実施形態では、顔認識および注釈プロセスは、病院または臨床現場における患者の感情、痛みおよび精神状態を監視するために、例えば患者の不快感のレベルを決定するために使用される。   In some embodiments, face recognition and annotation processes are used to monitor the patient's emotions, pain and mental status in a hospital or clinical setting, for example to determine the level of patient discomfort.

いくつかの実施形態では、顔認識および注釈プロセスは、運転者の行動ならびに道路および他の車両に対する注意を監視するために使用される。   In some embodiments, face recognition and annotation processes are used to monitor driver behavior and attention to roads and other vehicles.

いくつかの実施形態では、顔認識および注釈プロセスは、絵文字、ステッカーまたは他のテキストメッセージ感情的構成要素を自動的に選択するために使用される。   In some embodiments, face recognition and annotation processes are used to automatically select pictograms, stickers or other text message emotional components.

いくつかの実施形態では、顔認識および注釈プロセスは、オンライン調査を改善するために、例えば、オンライン調査参加者の感情的反応を監視するために使用される。   In some embodiments, face recognition and annotation processes are used to improve the on-line survey, for example, to monitor the emotional response of the on-line survey participant.

いくつかの実施形態では、顔認識および注釈プロセスは、オンライン教育および個別指導において使用される。   In some embodiments, face recognition and annotation processes are used in online education and tutoring.

いくつかの実施形態では、顔認識および注釈プロセスは、求職者の適合が特定の会社であると判断するために使用され、例えば、会社は注意深い参加者を探しているが、別の会社は楽しい人格に興味がある。別の例では、顔認識および注釈プロセスを使用して、面接中またはオンラインビデオ履歴書中の個人の能力を判断する。   In some embodiments, the face recognition and annotation process is used to determine that the job seeker's fit is a particular company, eg, a company is looking for alert participants but another company is entertaining I am interested in personality. In another example, face recognition and annotation processes are used to determine an individual's ability during an interview or online video resume.

いくつかの実施形態では、顔認識および注釈プロセスはゲームで使用される。   In some embodiments, face recognition and annotation processes are used in games.

いくつかの実施形態では、顔認識および注釈プロセスは、精神科医院、診療所または病院で患者の反応を評価するために使用される。   In some embodiments, the face recognition and annotation process is used to evaluate a patient's response at a psychiatric office, clinic or hospital.

いくつかの実施形態では、顔認識および注釈プロセスは、乳児および子供を監視するために使用される。   In some embodiments, face recognition and annotation processes are used to monitor infants and children.

一態様では、コンピュータ実施方法が開示される(例えばAUおよびAU強度を決定するために画像を分析するために、例えばリアルタイムで)。この方法は、構成または他の形状特徴およびシェーディング特徴の1つまたは複数のカーネルベクトル空間(たとえばカーネルベクトル空間)をメモリ(たとえば永続メモリ)内に維持することを含む。各カーネル空間は、1つまたはいくつかのアクションユニット(AUs)および/またはAU強度値および/または感情カテゴリに関連付けられる。分析されるべき画像(例えば、外部から、または1つもしくは複数のデータベースからの表情の画像)を受け取る。受信する画像ごとに、i)画像内の顔の形態特徴、形状特徴、およびシェーディング特徴(たとえば、顔空間は、形態特徴の形状特徴ベクトルと、顔のシェーディング変化に関連するシェーディング特徴ベクトルを含む)の顔空間データ(たとえば、顔ベクトル空間)を決定し、ii)AU、AU強度および感情カテゴリの存在を判定するために、形態特徴の決定された顔空間データを複数のカーネル空間と比較することによって画像に対する1つまたは複数のAU値を決定する。   In one aspect, computer-implemented methods are disclosed (eg, in real time, eg, to analyze images to determine AU and AU intensities). The method includes maintaining one or more kernel vector spaces (eg, kernel vector space) of the configuration or other shape features and shading features in memory (eg, persistent memory). Each kernel space is associated with one or several action units (AUs) and / or AU intensity values and / or emotion categories. Receive an image to be analyzed (e.g., an image of an expression from outside or from one or more databases). For each image to be received: i) morphological features of the face in the image, shape features, and shading features (e.g., the face space includes shape feature vectors of the feature features and shading feature vectors associated with face shading changes) Determining the face space data (e.g. face vector space) of ii and comparing the determined face space data of morphological features with a plurality of kernel spaces to determine the presence of AU, AU intensity and emotion categories To determine one or more AU values for the image.

いくつかの実施形態では、方法は、複数の画像のそれぞれについてのAU値およびAU強度値を決定するために、複数の画像を含むビデオストリームをリアルタイムで処理することを含む。   In some embodiments, the method includes processing a video stream comprising the plurality of images in real time to determine an AU value and an AU intensity value for each of the plurality of images.

いくつかの実施形態では、顔空間データは、形態特徴の形状特徴ベクトルと、顔のシェーディング変化に関連するシェーディング特徴ベクトルとを含む。   In some embodiments, face space data includes shape feature vectors of morphological features and shading feature vectors associated with shading changes of the face.

いくつかの実施形態では、形態、形状およびシェーディング特徴の決定された顔空間は、i)画像から形成されたドロネー三角形の正規化されたランドマーク間の距離値(例えば、ユークリッド距離)およびii)正規化された顔のランドマークに対応するドロネー三角形それぞれによって定義される距離、面積および角度を含む。   In some embodiments, the determined face space of shape, shape and shading features is: i) a distance value between normalized landmarks of the Delaunay triangle formed from the image (eg Euclidean distance) and ii) It includes the distances, areas and angles defined by each Delaunay triangle corresponding to the normalized facial landmarks.

いくつかの実施形態では、顔のシェーディング変化に関連するシェーディング特徴ベクトルは、顔から決定された正規化ランドマーク点にガボールフィルタを適用することによって(例えば、皮膚の局所的変形によるシェーディング変化をモデル化するために)決定される。   In some embodiments, shading feature vectors associated with face shading changes are modeled by applying a Gabor filter to normalized landmark points determined from the face (eg, modeling shading changes due to local deformation of the skin Be determined).

いくつかの実施形態では、形態特徴の形状特徴ベクトルは、画像上に投影されたランドマーク点、および/またはAU、および/または感情のカテゴリの局所的および全体的適合の両方を逆伝播するように構成されたグローバルローカル(GL)損失関数を含むディープニューラルネットワーク(例えば畳み込みニューラルネットワーク、DNN)を用いて導出されるランドマーク点を含む。   In some embodiments, shape feature vectors of morphological features are backpropagated to both local and global matches of landmark points and / or AUs and / or emotion categories projected onto the image. And includes landmark points derived using a deep neural network (eg, convolutional neural network, DNN) including global local (GL) loss functions configured in.

いくつかの実施形態では、方法は、各受信画像について、i)顔の色特徴に関連する顔空間を決定すること、およびii)この決定された色顔空間を複数の色またはカーネルベクトル空間顔と比較することによって画像の1つまたは複数のAU値を決定すること、iii)顔が、特定の感情を表現しているように見えるか、または1つまたは複数のAUをアクティブで有するかまたは特定の強度で有するように画像の色を修正すること、を含む。   In some embodiments, the method comprises, for each received image: i) determining a face space associated with color features of the face; and ii) a plurality of colors or kernel vector space faces for the determined color face space Determining one or more AU values of the image by comparison with iii) the face appears to be expressing a particular emotion, or has one or more AU active or Modifying the color of the image to have a specific intensity.

いくつかの実施形態では、AU値およびAU強度値は、まとめて、感情および感情強度を定義する。   In some embodiments, the AU value and the AU intensity value together define emotion and emotion intensity.

いくつかの実施形態では、画像は写真を含む。   In some embodiments, the image comprises a picture.

いくつかの実施形態では、画像はビデオシーケンスのフレームを含む。   In some embodiments, the image comprises a frame of a video sequence.

いくつかの実施形態では、画像はビデオシーケンス全体を含む。   In some embodiments, the image comprises the entire video sequence.

いくつかの実施形態では、この方法は、自然のまま(in the wild)(例えばインターネット)の表情の画像を受信することを含む。受信画像を処理して、受信画像内の顔のAU値およびAU強度値ならびに感情カテゴリを決定する。   In some embodiments, the method includes receiving an image of the expression in the wild (eg, the Internet). The received image is processed to determine the AU and AU intensity values of the face and the emotion category in the received image.

いくつかの実施形態では、方法は、第1のデータベースから第1の複数の画像を受け取り、第2のデータベースから第2の複数の画像を受け取り、受信された第1の複数の画像および第2の複数の画像を処理して、それらの各画像について、それぞれの各画像における顔のAU値およびAU強度値を決定することを含む。第1の複数の画像は第1の取得形態(captured configuration)を有し、第2の複数の画像は第2の取得形態(captured configuration)を有する。第1の取得形態は、第2の取得形態とは異なる(例えば、取得形態は、照明方式および大きさ、画像の背景、焦点面、キャプチャ解像度、記憶圧縮レベル、顔に対するキャプチャのパン、チルト、およびヨー(yaw)等を含む。)   In some embodiments, a method receives a first plurality of images from a first database, receives a second plurality of images from a second database, and receives a first plurality of images and a second received. Processing the plurality of images to determine, for each of the images, an AU value and an AU intensity value of the face in each respective image. The first plurality of images have a first captured configuration and the second plurality of images have a second captured configuration. The first acquisition form is different from the second acquisition form (for example, the acquisition form is the illumination method and size, image background, focal plane, capture resolution, storage compression level, capture pan for face, tilt, And yaw etc.)

別の態様では、コンピュータ実施方法が開示される(例えば、画像内の色変化を使用してAU、AU強度および感情カテゴリを決定するために画像を分析するための)。この方法は、AUの非アクティブからアクティブへの遷移を定義する変化、この変化は色度、色相および彩度、ならびに輝度からなる群から選択され、を識別することと、識別された色度変化へのガボール変換の適用(例えば、顔の表情の間のこの変化の最小値に対する不変性を得るため)と、を含む。   In another aspect, a computer-implemented method is disclosed (eg, for analyzing images to determine AU, AU intensity and emotional category using color changes in the image). The method identifies a change that defines a transition from inactive to active of the AU, the change being selected from the group consisting of chromaticity, hue and saturation, and luminance, and the identified chromaticity change Applying the Gabor transform to (eg, to obtain invariance to the minimum value of this change between facial expressions).

別の態様では、AUおよびAU強度を決定するために画像を分析するためのコンピュータ実施方法が開示されている。この方法は、AUおよび/またはAU強度に関連する複数の色特徴データをメモリ(例えば、永続的メモリ)内に維持し、分析する画像を受け取り、受信する画像ごとに、i)画像中の顔の形態色特徴を決定し、ii)決定された形態色特徴を複数のトレーニングされた色特徴データと比較して、決定された形態色特徴のうちの1つまたは複数のトレーニングされた色特徴データにおける存在を判定することによって、画像に対する1つまたは複数のAU値を決定することを含む。   In another aspect, a computer-implemented method for analyzing images to determine AU and AU intensity is disclosed. The method maintains in memory (eg, persistent memory) a plurality of color feature data associated with AU and / or AU intensities, receives an image to be analyzed, and for each image received, i) a face in the image Determining the morphological color feature of the image, and ii) comparing the determined morphological color feature with the plurality of trained color feature data, and determining one or more of the trained color feature data of the determined morphological color features Determining one or more AU values for the image by determining the presence at.

別の態様では、コンピュータ実施方法が開示される(例えば、それぞれAU値およびAU強度値に関連付けられた複数の顔空間データのリポジトリを生成するため。リポジトリは、AUおよびAU強度についての画像またはビデオフレームの顔データの分類に使用される。)。方法は、複数のAU値およびAU強度値についてのカーネル空間データを決定するために画像またはビデオフレーム内の複数の顔を分析することを含む。各カーネル空間データは、単一のAU値および単一のAU強度値に関連付けられ、各カーネル空間は他のカーネル面空間と線形的または非線形的に分離可能である。   In another aspect, a computer-implemented method is disclosed (e.g., to generate a repository of a plurality of face space data associated with an AU value and an AU intensity value, respectively), the repository comprises an image or video for AU and AU intensity. Used for classification of frame face data). The method includes analyzing multiple faces in an image or video frame to determine kernel spatial data for multiple AU values and AU intensity values. Each kernel space data is associated with a single AU value and a single AU intensity value, and each kernel space can be separated linearly or non-linearly from other kernel plane spaces.

いくつかの実施形態では、複数の顔を分析してカーネーションを決定するステップ、所定数のAU強度値に対して複数のAUトレーニングセットを生成し、複数のカーネル空間を決定するためのカーネルサブクラス判別分析を実行することを含み、複数のカーネル空間のそれぞれは、所与のAU値、AU強度値、感情カテゴリ、およびその感情の強度に対応する。   In some embodiments, analyzing multiple faces to determine carnations, kernel subclassing to generate multiple AU training sets for a predetermined number of AU intensity values, and determine multiple kernel spaces Performing an analysis, each of the plurality of kernel spaces correspond to a given AU value, an AU intensity value, an emotion category, and the intensity of the emotion.

いくつかの実施形態では、カーネル空間は、画像またはビデオシーケンスの機能的色空間特徴データを含む。   In some embodiments, the kernel space includes functional color space feature data of an image or video sequence.

いくつかの実施形態では、機能的色空間は、複数の画像のうちの所与の画像からそれぞれ導出されたカラー画像に対して判別機能学習分析を実行することによって(例えば、最大マージン機能分類器を使用して)決定される。   In some embodiments, the functional color space is generated by performing a discriminant function learning analysis on color images respectively derived from a given one of the plurality of images (eg, maximum margin functional classifier Determined).

他の態様では、非一時的コンピュータ可読媒体が開示される。コンピュータ可読媒体には命令が格納されており、命令は、プロセッサによって実行されると、プロセッサに上述の方法のうちのいずれかを実行させる。   In another aspect, a non-transitory computer readable medium is disclosed. The computer readable medium stores instructions, which, when executed by the processor, cause the processor to perform any of the methods described above.

他の態様では、システムが開示される。このシステムは、プロセッサと、その上に格納された命令を有するコンピュータ可読媒体とを備え、命令は、プロセッサによって実行されると、プロセッサに上述の方法のうちのいずれかを実行させる。   In another aspect, a system is disclosed. The system comprises a processor and a computer readable medium having instructions stored thereon, the instructions, when executed by the processor, causing the processor to perform any of the methods described above.

図1は、自然のままの顔画像中の感情カテゴリおよびすべてを自動的に注釈付けするためのコンピュータビジョンプロセスの出力を示す図である。FIG. 1 is a diagram illustrating the output of a computer vision process for automatically annotating emotional categories and all in a natural face image.

図2Aおよび図2Bを含む図2は、検出された顔のランドマークおよび画像のドロネー三角測量の図である。FIG. 2, including FIGS. 2A and 2B, is a diagram of Delaunay triangulation of detected facial landmarks and images.

図3は、アクティブAUを有するサンプル画像がサブクラスに分割される仮定モデルを示す図である。FIG. 3 shows a hypothetical model in which a sample image with active AUs is divided into subclasses.

図4は、AUおよび感情カテゴリを決定するためにガボール変換を使用するシステムの例示的な構成要素図を示す。FIG. 4 shows an exemplary component diagram of a system that uses Gabor transforms to determine AUs and emotion categories.

図5は、ビデオおよび/または静止画像中の色特徴を用いてAUを検出するための色分散システムを示す。FIG. 5 shows a color distribution system for detecting AUs using color features in video and / or still images.

図6は、ビデオおよび/または静止画像中の色特徴を用いてAUを検出するための色分散システムを示す。FIG. 6 shows a color distribution system for detecting AUs using color features in video and / or still images.

図7は、ビデオおよび/または静止画像においてディープニューラルネットワークを使用してAUを検出するためのネットワークシステムを示す。FIG. 7 shows a network system for detecting AUs using deep neural networks in video and / or still images.

図8は、例示的なコンピュータシステムを示す。FIG. 8 shows an exemplary computer system.

自然のままの百万の表情の自動注釈付けのためのリアルタイムアルゴリズム   Real-time algorithm for automatic annotation of one million untouched facial expressions

図1は、AU、AU強度、感情カテゴリ、または感情/影響キーワードによって容易に問い合わせ(例えばソート、整理など)することができる表情の結果データベースを示す。このデータベースは、新しいコンピュータビジョンアルゴリズムの設計、ならびに社会的および認知的心理学、社会的および認知的神経科学、神経マーケティング、精神医学などにおける基礎的、変遷的および臨床的研究を容易にする。   FIG. 1 shows a result database of facial expressions that can be easily queried (eg, sorted, organized, etc.) by AU, AU intensity, emotion category, or emotion / impact keywords. This database facilitates the design of new computer vision algorithms and basic, transitional and clinical research in social and cognitive psychology, social and cognitive neuroscience, neuromarketing, psychiatry, etc.

データベースは、自然のままの顔画像(すなわち、既存のデータベースではまだキュレーションされていない画像)内のカテゴリおよびAUについての感情に自動的に注釈を付けるコンピュータビジョンシステムの出力から編集される。画像の自動車は、WordNetまたは他の辞書の中の顔と関連する感情キーワードを持つ画像だけを選択することによって、さまざまなWeb検索エンジンを使用してダウンロードされる。図1は、データベースに対する3つのクエリ例を示す。一番上の例は、幸せおよび恐怖と識別されたすべての画像を取得するときに取得された2つのクエリの結果である。また、幸せまたは恐怖のいずれかであると注釈された自然のままの画像のデータベース内の画像の数も示される。3番目のクエリは、AU4または6が存在するすべての画像と、感情的なキーワードが「不安」および「不承認」の画像をすべて検索した結果を示す。   The database is compiled from the output of a computer vision system that automatically annotates emotions about categories and AUs in pristine face images (ie, images that have not yet been curated in existing databases). Images cars are downloaded using various web search engines by selecting only images with emotional keywords associated with faces in WordNet or other dictionaries. FIG. 1 shows three example queries against a database. The top example is the result of two queries acquired when acquiring all images identified as happiness and fear. Also shown is the number of images in the database of pristine images annotated as either happy or fear. The third query shows all images in which AU 4 or 6 exist, and the results of searching for all the images with emotional keywords “anxiety” and “disapproval”.

AUと強度の認識   AU and strength recognition

いくつかの実施形態では、AUを認識するためのシステムは、毎秒30画像を超えて処理することができ、データベースにわたって非常に正確であると判定される。このシステムはデータベース間で高い認識精度を達成し、リアルタイムで実行できる。システムは、23の基本的および/または複合的な感情カテゴリのうちの1つの中に表情を分類することを容易にすることができる。感情の分類は、検出されたAU活性化パターンによって与えられる。いくつかの実施形態では、画像は23のカテゴリのうちの1つに属していなくてもよい。この場合、画像には感情カテゴリなしでAUの注釈が付けられる。画像にアクティブなAUがない場合、その画像は中立的な表現(neutral expression)として分類される。顔における感情および感情強度を決定することに加えて、例示されたプロセスは、画像中の「顔ではない」を識別するために使用され得る。   In some embodiments, a system for recognizing AUs can process over 30 images per second and is determined to be very accurate across a database. This system achieves high recognition accuracy between databases and can be implemented in real time. The system can facilitate classifying expressions into one of 23 basic and / or complex emotion categories. Emotional classification is given by the detected AU activation pattern. In some embodiments, the image may not belong to one of 23 categories. In this case, the image is annotated with AU without the emotion category. If there is no active AU in the image, the image is classified as a neutral expression. In addition to determining emotion and emotional intensity in the face, the illustrated process can be used to identify "not face" in the image.

AUと強度認識のための顔空間   Face space for AU and strength recognition

システムは、顔画像内のAUを表すために使用される特徴空間を定義することによって開始する。人間による顔の知覚、特に顔の表情は、形状分析と陰影分析との組み合わせを含むことが知られている。システムは、感情の表情の認識を容易にする形状特徴を定義することができる。形状特徴は、顔のランドマーク(すなわち、顔画像中のランドマーク点間の距離および角度)の二次統計量であり得る。特徴は顔の形態を定義するので、特徴は代替的に形態特徴と呼ぶことができる。本出願ではこれらの用語は互換的に使用され得ることが理解される。   The system starts by defining a feature space that is used to represent AUs in the face image. Human perception of faces, particularly facial expressions, is known to include a combination of shape analysis and shading analysis. The system can define shape features that facilitate the recognition of emotional expressions. Shape features may be quadratic statistics of facial landmarks (i.e., the distance and angle between landmark points in the face image). Features can alternatively be referred to as morphological features, as they define facial features. It is understood that in the present application these terms may be used interchangeably.

図2(a)は、提案されたアルゴリズムによって使用される正規化された顔のランドマーク
の例を示す。いくつか(例えば、15個)のランドマークが解剖学的ランドマーク(例えば、目の角、口、眉毛、鼻の先端、およびあご)に対応することができる。他のランドマークは、まぶた、口、眉、唇、および顎の線の端、ならびに鼻の先端から2つの目の中心によって与えられる水平線までの鼻の正中線を定義する疑似ランドマークであり得る。各顔の構成要素(例えば、眉毛)の輪郭を画定する擬似ランドマークの数は一定であり、これは、異なる顔または人に対してランドマーク位置の同等性を提供する。
Figure 2 (a) shows the normalized facial landmarks used by the proposed algorithm
An example of Several (eg, fifteen) landmarks can correspond to anatomical landmarks (eg, eye corners, mouth, eyebrows, nose tips, and jaws). Other landmarks may be pseudo landmarks that define the edge of the eyelid, mouth, eyebrow, lip, and chin lines, and the midline of the nose from the tip of the nose to the horizon provided by the center of the two eyes . The number of pseudo-landmarks that delineate each facial component (e.g., eyebrows) is constant, which provides landmark position equality to different faces or people.

図2(b)は、システムによって実行されたドロネー三角形分割を示す。この例では、この構成の三角形の数は107である。画像にはベクトルの角度θa=(θa1,…,θaqa)T (qa=3)も示され、角度θaは、正規化されたランドマークから出る三角形の角度
を定義する。
FIG. 2 (b) shows the Delaunay triangulation performed by the system. In this example, the number of triangles in this configuration is 107. The image also shows the vector angles θ a = (θ a1 ,..., Θ aqa ) T (q a = 3), where the angle θ a is the angle of the triangle coming out of the normalized landmark
Define

は、AUiのjth のサンプル画像(j = 1, …, ni )内のランドマーク点のベクトルにすることができる。ここで、

はkthのランドマークの2D画像座標である。ni はAUiが存在するサンプル画像の数である。いくつかの実施形態において、顔のランドマークは、コンピュータビジョンアルゴリズムを用いて取得され得る。例えば、コンピュータビジョンアルゴリズムは、ランドマークの数が66個の場合
において、図2aに示すように、任意の数のランドマーク(例えば、テスト画像中の66個の検出されたランドマーク)を自動的に検出するために使用することができる)。
Can be a vector of landmark points in the j th sample image of AUi (j = 1,..., N i ). here,

Is the 2D image coordinates of the k th landmark. n i is the number of sample images in which AU i exists. In some embodiments, facial landmarks may be obtained using computer vision algorithms. For example, if the computer vision algorithm has 66 landmarks
In, as shown in FIG. 2a, any number of landmarks (eg, 66 detected landmarks in a test image) can be used to automatically detect.

トレーニング画像は、τピクセルの同じ眼間距離を有するように正規化することができる。具体的には、

とし、

とし、l、rは、左右の目の中心の画像座標であり、
は、ベクトル

およびτ= 300の2ノルムを定義する。各目の中心の位置は、目の2つの角を画定するランドマーク間の幾何学的中間点として容易に計算することができる。
The training image can be normalized to have the same interocular distance of τ pixels. In particular,

age,

And l and r are the image coordinates of the center of the left and right eyes,
Is the vector

And define a 2 norm of τ = 300. The position of the center of each eye can be easily calculated as the geometric midpoint between landmarks that define the two corners of the eye.

構成特徴の形状特徴ベクトルは、次のように定義することができる。

を正規化されたランドマークa=1,…,p-1,b=a+1,p間のユークリッド距離とし、θa = (θa1, … , θaqa)Tは、
および
を起点とする数qaを伴う正規化されたランドマーク
から出る各ドロネー三角形によって定義される角度である(境界がない境界点についても同等性が成り立つ)。この図の各三角形は3つの角度で定義できるため、この例では107個の三角形があるので、形状特徴ベクトル内の角度の総数は321である。形状特徴ベクトルは
であり、ドロネー三角形分割のpはランドマークの数、tは三角形の数である。この例では、p =66、t =107で、ベクトル

である。
The shape feature vectors of the constituent features can be defined as follows.

Let E be the Euclidean distance between normalized landmarks a = 1,..., P−1, b = a + 1, p, and θ a = (θ a1 ,..., Θ aqa ) T be
and
Normalized landmarks with numbers q a starting at
The angle defined by each Delaunay triangle coming out of (the equivalence holds for boundary points without boundaries). Since each triangle in this figure can be defined by three angles, there are 107 triangles in this example, so the total number of angles in the shape feature vector is 321. Shape feature vector is
Delaunay triangulation p is the number of landmarks and t is the number of triangles. In this example, p = 66, t = 107 and the vector

It is.

システムは、正規化されたランドマーク点

のそれぞれを中心とするガボールフィルタを使用して、皮膚の局所的変形によるシェーディング変化をモデル化することができる。顔筋群が顔の皮膚を局所的に変形させると(例えば皮膚の双方向反射率分布関数は、皮膚のしわの関数として定義される。これは、光が表皮と真皮の間を透過して移動する方法を変更し、ヘモグロビンレベルも変化させる可能性があるためである。)、皮膚の表面上の点から見て、皮膚の反射率特性が変化し、光源が短くなる。
The system has normalized landmark points

A Gabor filter centered on each of the can be used to model shading changes due to local deformation of the skin. When the facial muscles deform the skin of the face locally (for example, the bidirectional reflectance distribution function of the skin is defined as a function of the wrinkles of the skin, which means that light is transmitted between the epidermis and the dermis) This may change the way it moves, which may also change the level of hemoglobin.) From the point on the surface of the skin, the reflectance characteristics of the skin change and the light source becomes shorter.

ヒトの初期視覚皮質の細胞は、ガボールフィルタを使用してシステムによってモデル化することができる。顔の知覚は、ガボール風のモデリングを使用して、感情を表現するときに見られるような濃淡の変化に対する不変性を得ることができる。次のように定義できる。

Human early visual cortex cells can be modeled by the system using Gabor filters. Facial perception can use Gabor-like modeling to obtain invariance to the change in intensity as seen when expressing emotions. It can be defined as follows.


は波長(すなわち、サイクル数/ピクセル)、αは方向(すなわち、正弦関数の法線ベクトルの角度)、φは位相(すなわち、正弦関数のオフセット)、γは(空間的)アスペクト比、σはフィルタのスケール(ガウス窓の標準偏差)である。

Is the wavelength (ie, cycles / pixel), α is the direction (ie, the angle of the normal vector of the sine function), φ is the phase (ie, the offset of the sine function), γ is the (spatial) aspect ratio, σ is Filter scale (standard deviation of Gaussian window).

いくつかの実施形態では、ガボールフィルタバンクは、o方位、s空間スケール、およびr位相と共に使用することができる。ガボールフィルタの例では、次のように設定されている。
γ=1。値は感情の表情を表すのに適している。o、s、およびrの値は、トレーニングセットの交差検定を使用して学習される。
In some embodiments, Gabor filter banks can be used with o orientation, s space scale, and r phase. In the Gabor filter example, it is set as follows.
γ = 1. Values are suitable for expressing emotional expressions. The values of o, s and r are learned using cross-validation of the training set.

Iijは、AUiが存在し、jth番目のサンプル画像でありkth番目のランドマーク点でのガボール応答の特徴ベクトルとして

と定義され、*は、フィルタg(.)と画像Iijとの畳み込みを定義し、λは、上で定義された集合λのkth番目の要素である。同じことがαkとφkにも当てはまるが、これは一般に1なのでγには当てはまらない。
I ij is the j th sample image with AU i present, and as the feature vector of Gabor response at the k th landmark point

, * Defines the convolution of the filter g (.) With the image I ij , λ k is the k th element of the set λ defined above. The same applies to α k and φ k , but this is generally 1 and not to γ.

AUiがアクティブであるjth番目のサンプル画像に対するすべてのランドマーク点上のガボール応答の特徴ベクトルは、次のように定義される。

Feature vector of Gabor response on all landmark points AUi is for j th th sample image is active, is defined as follows.

特徴ベクトルは、顔のランドマークの周りの局所パッチのシェーディング情報を定義し、それらの次元数はgij ∈R5×p×o×s×rである。 The feature vectors define the shading information of local patches around landmarks of the face, and their dimensionality is g ij ∈R 5 × p × o × s × r .

顔空間におけるAUiの形状およびシェーディング変化を定義する最終特徴ベクトルは、次のように定義される。

The final feature vector defining the shape and shading change of AUi in the face space is defined as follows.

AUと強度認識のための顔空間の分類   Classification of face space for AU and strength recognition

システムは、AUiのトレーニングセットを以下のように定義することができ、
j = 1, ... , niに対してyij = 1であり、AUiが画像に存在することを示し、j = ni + 1, ..., ni + miに対してyij = 0であり、AUiが画像に存在しないことを示し、miはAUiがアクティブでないサンプル画像の数である。
The system can define the training set of AUi as
For j = 1, ..., n i y ij = 1, indicating that AU i is present in the image, j = n i + 1, ..., n i + m i for y ij = 0, indicates that AUi is not present in the image, m i is the number of sample images AUi is not active.

上記のトレーニングセットは以下のように順序付けられる。セット
は、強度a(すなわち、AUの活性化の最低強度)で活性なAUiを有するniaサンプルを含むみ、セット


は、強度b(2番目に小さい強度)でアクティブなAUiを持つnibサンプルである。
The above training set is ordered as follows. set
The strength a (i.e., a minimum intensity of the activation of the AU) Fukumumi the n ia sample with active AUi in the set


Are n ib samples with active AU i at intensity b (the second lowest intensity).

セット


は、強度c(次の強度)でアクティブなAUiを持つnicサンプルである。
set


Is a n ics samples with active AUi intensity c (next intensity).

セット

set

は、強度d(これが最高強度である)でアクティブなAUiを持つnidサンプルであり、nia+nib+nic+nid=niである。 Is an n id sample with an active AUi at intensity d (which is the highest intensity) and n ia + n ib + n ic + n id = n i .

AUは5つの強度で活性化することができ、それはa、b、c、d、またはeと標識することができる。いくつかの実施形態では、強度eを伴う稀な例があり、したがって、いくつかの実施形態では、他の4つの強度で十分である。そうでなければ、Di(e)は5番目の強度を定義する。 AU can be activated at 5 intensities, which can be labeled a, b, c, d or e. In some embodiments, there are rare cases with intensity e, so in some embodiments, the other four intensities are sufficient. Otherwise, D i (e) defines the fifth intensity.

上記で定義された4つのトレーニングセットはDiのサブセットであり、AUiがアクティブである画像のセットの異なるサブクラスとして表すことができ、サブクラスベースの分類子を使用でき、システムは本プロセスを導出するためにカーネルサブクラス判別分析(KSDA)を利用する。KSDAは、カーネル行列とサブクラスの数を最適化することによって複雑な非線形分類境界を明らかにできるため使用できる。KSDAはクラス判別基準を最適化してクラスを最適に分離することができる。この基準は形式的にはQi(φi、hi1、hi2)= Qi1(φi、hi1、hi2)Qi2(φi、hi1、hi2)で与えられ、Qi1(φi、hi1、hi2)は等分散性の最大化を担う。カーネルマップの目的は、データが線形に分離可能であるカーネル空間Fを見つけることであり、いくつかの実施形態では、サブクラスは、クラス分布が同じ分散を共有する場合であるFにおいて線形に分離可能であり得る。Qi2i,hi1,hi2)は、すべてのサブクラス平均間の距離を最大化する(すなわち、これは最小ベイズ誤差を有するベイズ分類器を見つけるために使用される)。 The four training sets defined above are subsets of Di and can be represented as different subclasses of the set of images on which AUi is active, can use subclass based classifiers, and the system derives this process Use kernel subclass discriminant analysis (KSDA). KSDA can be used because it can reveal complex non-linear classification boundaries by optimizing the number of kernel matrices and subclasses. KSDA can optimize the classification criteria to optimally separate the classes. This criterion is formally given by Q ii , h i1 , h i2 ) = Q i1i , h i1 , h i2 ) Q i2i , h i1 , h i2 ), Q i1i , h i1 , h i2 ) is responsible for the maximization of isodispersity. The purpose of the kernel map is to find a kernel space F in which the data is linearly separable, and in some embodiments, the subclasses can be linearly separable in F, where the class distributions share the same variance It can be. Q i2i , h i1 , h i2 ) maximizes the distance between all subclass averages (ie, it is used to find a Bayesian classifier with minimal Bayesian error).

この想起を見るために、ベイズ分類境界は、2つの正規分布の確率が同一である特徴空間の位置において与えられることを思い出されたい(例えばp(z|N(μ11))= p(z|N(μ22))、N(μii)は、平均μiと共分散行列Σiをもつ正規分布である。2つの正規分布の平均を分離すると、この等式が成り立つ値が減少する、例えば、等式p(x|N(μ11))=p(x|N(μ22))は以前よりも低い確率値で与えられるので、ベイズ誤差は減少する。 To see this recollection, recall that Bayesian classification boundaries are given at locations in the feature space where the probabilities of the two normal distributions are identical (eg p (z | N (μ 1 , 1 1 )) = p (z | N (μ 2 , 2 2 )) and N (μ i , i i ) are normal distributions with an average μ i and a covariance matrix Σ i . For example, the equation p (x | N (μ 1 , 1 1 )) = p (x | N (μ 2 , 2 2 )) is given a lower probability value than before. Bayesian error is reduced.

したがって、上記のKSDA基準の最初の要素は、


で与えられ、
Thus, the first element of the above KSDA criteria is


Given by

は、マッピング関数によって定義されるカーネル空間内のサブクラス共分散行列(すなわち、サブクラスl内のサンプルの共分散行列)であり、ji(.):Re →F,hi1は、画像中に存在するAUiを表すサブクラスの数であり、hi2はAUiを表すサブクラスの数で、画像には含まれておらず、e=3t+p(p-1)/2+5×p×o×s×rは、フェイススペースに関するセクションで定義されている顔スペース内の特徴ベクトルの次元数である。 Is the subclass covariance matrix in kernel space defined by the mapping function (ie, the covariance matrix of the samples in subclass l), j i (.): R e → F, h i 1 is in the image H i2 is the number of subclasses representing AUi, hi2 is the number of subclasses representing AUi and is not included in the image, e = 3t + p (p-1) / 2 + 5 × p × o × s × r is the number of dimensions of the feature vector in the face space defined in the section on face space.

KSDA基準の2番目の要素は、



であり、pil= nl/niは、クラスiのサブクラスlの前のものであり(すなわちAUiを定義するクラス)、nlは、サブクラスlのサンプル数であり、
は、マッピング関数ji(.)で定義されるカーネル空間のクラスiのサブクラスlのサンプル平均である。
The second element of the KSDA standard is



Where p il = n l / n i is the previous to subclass l of class i (ie the class defining AUi) and n l is the number of samples of subclass l,
Is the sample mean of subclass l of class i in kernel space defined by the mapping function j i (.).

例えば、システムは、放射基底関数(RBF)カーネルを使用してマッピング関数φi(.)を定義でき、

νiはRBFの分散であり、j1,j2=1,...,ni+miである。それ故、本発明のKSDAに基づく分類器は、以下の解によって与えられる。
For example, the system can define the mapping function φi (.) Using a radial basis function (RBF) kernel,

ν i is the variance of the RBF, j 1 , j 2 = 1, ..., n i + m i . Therefore, the KSDA based classifier of the present invention is given by the following solution.

図3は、AUiのモデルをもたらすための上記方程式の解を示す。上記の仮説モデルでは、AU4がアクティブなサンプル画像は最初に4つのサブクラスに分割され、各サブクラスは同じ強度のAU4のサンプルを含む(a-e)。次に、導き出されたKSDAベースのアプローチは、各サブクラスを追加のサブクラスにさらに細分するプロセスを使用して、上記の正規分布が線形に分離されできるだけ互いに離れているカーネル空間にデータを本質的にマッピングするカーネルマッピングを見つける。   FIG. 3 shows the solution of the above equation to yield a model of AUi. In the above hypothetical model, the sample image with AU4 active is first divided into four subclasses, each subclass containing a sample of AU4 of the same intensity (a-e). Next, the derived KSDA based approach essentially uses the process of further subdividing each subclass into additional subclasses, such that the above normal distributions are linearly separated and the data in kernel space as far apart as possible. Find the kernel mapping to map.

これを行うために、システムはトレーニングセットDを5つのサブクラスに分割する。第1のサブクラス(すなわち、l=1)は、強度aでアクティブなAUiを有する画像に対応するサンプル特徴ベクトルを含み、つまり、Di(a) は、その全体が参照により本明細書に組み込まれているS. Du, Y. TaoおよびA. M. Martinezの「複合的な表情の感情表現」国立科学アカデミー論文集111(15):E1454-E1462, 2014で定義されている。2番目のサブクラス(l=2)はサンプルサブセットを含む。同様に、3番目と4番目のサブクラス(l=2、3)は、それぞれサンプルサブセットを含む。最後に、5つのサブクラス(l=5)は、AUiがアクティブではない画像、例えば


に対応するサンプル特徴ベクトルを含む。
To do this, the system divides the training set D i into five subclasses. The first subclass (i.e., l = 1) comprises sample feature vectors corresponding to the image with active AUi at intensity a, ie, D i (a) is incorporated herein by reference in its entirety S. Du, Y. Tao and AM Martinez, "Emotional Expressions in Complex Expressions," National Academy of Sciences Proceedings 111 (15): E1454-E1462, 2014. The second subclass (l = 2) contains sample subsets. Similarly, the third and fourth subclasses (l = 2, 3) each contain a sample subset. Finally, five subclasses (l = 5) are images for which AUi is not active, eg


Contains sample feature vectors corresponding to.

したがって、最初は、アクティブ/非アクティブのAUiを定義するためのサブクラスの数は5である(すなわち、hi1=4およびhi2=1)。いくつかの実施形態では、この数はもっと大きくてもよい。たとえば、強度eの画像が考慮されるとする。 Thus, initially, the number of subclasses to define AUi active / inactive is 5 (i.e., h i1 = 4 and h i2 = 1). In some embodiments, this number may be larger. For example, suppose that an image of intensity e is considered.

式14を最適化すると、追加のサブクラスが得られる。導出された手法は、サブクラスhi1およびhi2の数と同様にカーネルマップuのパラメータを最適化する。この実施形態では、最初の(5つの)サブクラスをさらにサブクラスに細分することができる。例えば、カーネルパラメータνiが、D(a)内の非線形に分離可能なサンプルを他のサブセットから線形に分離可能な空間にマッピングできない場合、Di(a)はさらに2つのサブセットDi(a)={Di(a1),Di(a2)}に分割される。この分割は単に最近隣クラスタリングによって与えられる。形式的には、サンプルzi j+1をzijの最近傍とすると、Di(a)の除算は


によって容易に与えられる。
Optimization of Equation 14 provides additional subclasses. The derived approach optimizes the parameters of kernel map u i as well as the number of subclasses h i1 and h i2 . In this embodiment, the first (five) subclasses can be further subdivided into subclasses. For example, if the kernel parameter i i can not map non-linearly separable samples in D i (a) into a space that can be linearly separated from other subsets, then Di (a) further comprises two subsets D i (a) ) = {D i (a 1 ), D i (a 2)} is split into. This division is simply given by nearest neighbor clustering. Formally, if the sample z i j + 1 is the closest to z ij , then the division of Di (a) is


It is easily given by

同じことが、Di(b)、Di(c)、Di(d)、Di(e)、Di(非アクティブ)にも当てはまる。したがって、式14を最適化することは、AUiの活性化または非活性化の各強度のサンプルをモデル化するための複数のサブクラスをもたらし得、例えば、サブクラス1(l=1)がDi(a)のサンプルを定義し、システムがこれを2つのサブクラス(および現在hi1=4)に分割すると、新しい2つの第1のサブクラス(the first new two subclasses)は、Di(a1)のサンプルとDi(a2)内の第2のサブクラス(l=2)含む第1のサブクラスを使用して、Di(a)のサンプルを定義するために使用される(そしてhi1は5になる)。後続のサブクラスは、上で定義されたように、サンプルをDi(b), Di(c), Di(d), Di(e) ,Di(非アクティブ)に定義する。したがって、Dで与えられるサンプルの順序は、サブクラス1からAUiがアクティブである画像に関連するサンプル特徴ベクトルを定義するhi1、およびサブクラスhi1+1からAUiがアクティブでない画像を表すhi1+hi2で変わることはない。この最終結果は、図3の仮説の例を使用して説明されている。 The same applies to D i (b), D i (c), D i (d), D i (e), D i (inactive). Thus, optimizing Equation 14 may result in multiple subclasses for modeling samples of each strength of activation or deactivation of AUi, eg, subclass 1 (l = 1) is Di (a Define the sample of) and divide it into two subclasses (and now h i1 = 4), the two new first subclasses (the first new two subclasses) with the sample of Di (a 1 ) It is used to define the sample of Di (a) (and h i1 becomes 5), using the first subclass including the second subclass (l = 2 ) in Di (a 2 ). Subsequent subclasses define the samples to D i (b), D i (c), D i (d), D i (e), D i (inactive), as defined above. Thus, the order of the samples given by D i defines the sample feature vector associated with the image from which subclass 1 to AUi is active , and h i1 + h i2 from subclass h i1 +1 to which AUi represents an inactive image There is no change in This final result is illustrated using the hypothetical example of FIG.

一例では、一組の画像Itest内のすべての試験画像を分類することができる。第1に、Itestは、上述のようにフェイススペースに関して計算されるフェイススペースベクトルztest内の特徴表現を含む。次に、ベクトルはカーネル空間に投影され、zj test.と呼ばれる。この画像がアクティブなAUiを有するかどうかを判断するために、システムは最も近い平均を計算し、

In one example, all test images in the set of images I test can be classified. First, I test includes feature representations within the face space vector z test that are calculated with respect to the face space as described above. Next, the vector is projected into kernel space and called z j test . In order to determine if this image has an active AUi, the system calculates the closest average,

もし j hi1であれば、ItestはAUiがアクティブであるとラベル付けされ、そうでなければされない。 If j * h i1 , I test is labeled AUi active, otherwise it is not.

分類結果は強度認識を提供する。サブクラスlで表されるサンプルがDi(a)のサンプルのサブセットである場合、識別された強度はaである。同様に、サブクラスlのサンプルがDi(b), Di(c), Di(d) またはDi(e)のサンプルのサブセットである場合、テスト画像ItestのAUiの強度は、それぞれb、c、d、eである。もちろん、j *> hi1の場合、画像にはAUiが存在せず、強度もない(または、強度がゼロであると言える)。 The classification results provide strength recognition. If the sample represented by subclass l is a subset of the samples of Di (a), then the identified intensity is a. Similarly, if the samples of subclass l are a subset of the samples of D i (b), D i (c), D i (d) or D i (e), then the intensity of the AUi of the test image I test is b, c, d, e. Of course, j *> For h i1, there is no AUi the image intensity no (or, it can be said that the strength is zero).

図4は、図1〜図3に関して上述した機能を実行するためのシステム400の例示的な構成図を示す。システム400は、一組の画像を有する画像データベース構成要素410を含む。システム400は、画像データベース内の顔以外の画像を除去するための検出器420を含む。顔のみを含む画像の画像セットのサブセットを作成する。システム400は、トレーニングデータベース430を含む。トレーニングデータベース430は、画像を感情カテゴリに分類するために分類器コンポーネント440によって利用される。システム400は、少なくとも1つのAUおよび感情カテゴリで画像をタグ付けするタグ付けコンポーネント450を含む。システム400はタグ付き画像を処理済み画像データベース460に格納することができる。   FIG. 4 shows an exemplary block diagram of a system 400 for performing the functions described above with respect to FIGS. System 400 includes an image database component 410 having a set of images. System 400 includes a detector 420 for removing non-face images in the image database. Create a subset of the image set of the image that includes only the face. System 400 includes training database 430. Training database 430 is utilized by classifier component 440 to classify images into emotion categories. System 400 includes a tagging component 450 that tags an image with at least one AU and emotion category. System 400 can store tagged images in processed image database 460.

顔アクションユニット認識のための色特徴の判別関数学習   Discriminant Function Learning of Color Features for Facial Action Unit Recognition

別の態様では、システムは、顔の色特徴を使用してAUを識別するための包括的なコンピュータビジョンプロセスを容易にする。色特徴は、AUおよびAu強度を認識するために使用され得る。AUが非アクティブからアクティブ、またはその逆に変わるときの色の変化を定義する関数は、AU内およびそれらの違いの間で一貫している。さらに、システムは、顔の色の変化をどのように利用して、多種多様な画像条件の下で、および画像データベースの外部で撮影されたビデオ中のAUの存在を識別することができるかを明らかにする。   In another aspect, the system facilitates a comprehensive computer vision process for identifying AUs using facial color features. Color features can be used to recognize AU and Au intensities. The functions that define the change in color as the AU changes from inactive to active or vice versa are consistent within the AU and among those differences. In addition, how the system can exploit facial color variations to identify the presence of AUs in videos taken under a wide variety of image conditions and outside of the image database. Reveal.

システムは、ith番目のサンプルビデオシーケンスVi= {Ii1, ... , Iiri}を受信する。riはフレーム数、Iik∈R3qwはq×w RGBピクセルのベクトル化されたkth番目のカラー画像である。 Viはサンプル関数fi(t)として記述である。 System, i th th sample video sequence V i = {I i1, ... , I iri} to receive. r i is the number of frames, I ik ∈R 3 qw is the vectorized k th color image of q × w RGB pixels. V i is described as a sample function f i (t).

本システムは、本明細書に記載のアルゴリズムを使用して、顔上の一組の物理的顔ランドマークを識別し、局所的顔領域を取得する。システムはランドマーク点をベクトル形式でsik=(sik1,…,sik66)として定義し、iはサンプルビデオインデックス、kはフレーム番号、sikl∈R2はlth番目、l=1,..., 66、のランドマークの2D画像座標である。説明の目的で、特定の例示的な値(例えば、66個のランドマーク、107個の画像パッチ)を使用することができる。 The system uses the algorithm described herein to identify a set of physical facial landmarks on the face and obtain local facial regions. The system defines landmark points in vector format as s ik = (s ik 1 , ..., s ik 66 ), i is a sample video index, k is a frame number, s i k r 2 R 2 is l th , l = 1, l, ..., 66, 2D image coordinates of the landmark. For illustrative purposes, certain exemplary values (eg, 66 landmarks, 107 image patches) can be used.

システムは、上述のようにドロネー三角形分割で得られた107個の画像パッチdijkの集合として集合Dij= {di1k,...,di107k}を定義し、dijk ∈ R3q ijはqij個のRGBピクセルのjth番目の三角局所領域を表すベクトルで、上記のように、iはサンプルビデオ番号(i=1,...,n)を指定し、kはフレーム(k=1,...,ri)を指定する。 The system 107 or a set as a set of image patches d ijk D ij = obtained in Delaunay triangulation as described above {d i1k, ..., d i107k } defines a, d ijk ∈ R 3q ij is A vector representing the j th triangular local region of q ij RGB pixels, where i specifies sample video numbers (i = 1,..., n) and k is a frame (k =), as described above Specify 1, ..., r i ).

いくつかの実施形態では、これらの局所(三角形)領域のサイズ(すなわち、ピクセル数、qij)は、個人間で異なるだけでなく、同一人物のビデオシーケンス内でも変動する。これは、顔のランドマーク点の移動、顔の表情を生み出すために必要なプロセスの結果である。システムは、これらの各局所領域内のピクセル数に対して不変の特徴空間を定義する。システムは、以下のように各局所領域内のピクセルの色に関する統計を計算する。 In some embodiments, the size (ie, the number of pixels, q ij ) of these local (triangular) regions not only differs between individuals, but also varies within the same person's video sequence. This is the result of the movement of landmark points on the face, the process necessary to produce facial expressions. The system defines a feature space that is invariant to the number of pixels in each of these local regions. The system calculates statistics on the color of the pixels in each local area as follows.

システムは、各局所領域の色の一次および二次(中心)モーメントを計算し、
The system calculates the first and second (center) moments of the color of each local region,

dijk=(dijk1,…,dijkP)Tおよびμijkijk∈R3とする。いくつかの実施形態では、追加のモーメントが計算される。 Let d ijk = (d ijk1 ,..., d ijkP ) T and μ ijk , σ ijk ∈R 3 . In some embodiments, additional moments are calculated.

各局所パッチの色特徴ベクトルは、次のように定義することができ、

iはサンプルビデオインデックス(Vi)、jはローカルパッチ番号、riはこのビデオシーケンスのフレーム数である。この特徴表現は、パッチjにおける色の寄与を定義する。いくつかの実施形態では、特徴表現の豊かさを増すために他の証明済みの特徴を含めることができる。たとえば、フィルタへの応答や形状特徴である。
The color feature vector of each local patch can be defined as

i is a sample video index (V i ), j is a local patch number, and r i is the number of frames of this video sequence. This feature representation defines the color contribution in patch j. In some embodiments, other proven features can be included to increase feature richness. For example, the response to the filter or the shape feature.

色の不変関数表現   Color invariant function representation

システムは、時間に対して不変の関数として上記の計算された色情報を定義することができる。すなわち、機能的表現は、ビデオシーケンス内のどこでAUがアクティブになるかにかかわらず一貫している。   The system can define the above calculated color information as a function which is invariant to time. That is, the functional representation is consistent regardless of where in the video sequence the AU is active.

色関数f(.)はビデオシーケンスVの色変化を定義し、テンプレート関数fT(.)は、AUの起動(つまり、AUが非アクティブからアクティブに)に関連する色変化をモデル化する。システムは、fT(.)がf(.)にあるかを判断する。 The color function f (.) Defines the color change of the video sequence V, and the template function f T (.) Models the color change associated with the activation of an AU (ie, from AU inactive to active). The system determines if f T (.) Is at f (.).

いくつかの実施形態では、システムは、テンプレート関数fT(.)をfT(.)の時間領域内の各可能な位置に配置することによってこれを決定する。fT(.)のすべての可能な位置が確認されるまでウィンドウを左右にスライドさせることを含むため、これは通常スライディングウィンドウアプローチと呼ばれる。 In some embodiments, the system determines this by placing the template function f T (.) At each possible position in the time domain of f T (.). This is usually referred to as a sliding window approach, as it involves sliding the window left and right until all possible positions of f T (.) are identified.

他の実施形態では、システムはガボール変換を用いた方法を導出する。ガボール変換は、スライディングウィンドウ検索を使用せずにf(.)内のfT(.)の一致を見つけるためのアルゴリズムを導出するために、関数の局所セクションの周波数と位相の内容を決定するように設計されている。 In another embodiment, the system derives a method using Gabor transform. The Gabor transform determines the content of the frequency and phase of the local section of the function to derive an algorithm for finding a match of f T (.) In f (.) Without using sliding window search It is designed.

この実施形態では、一般性を失うことなく、f(t)は、色記述子のうちの1つ、例えば、ビデオiのjth番目の三角形の中の赤色チャネルの平均、または反対色表現(opponent color representation)の第1のチャンネルになることができる。そして、この関数のガボール変換は、
であり、
In this embodiment, without loss of generality, f (t) is one of the color descriptors, eg, the average of the red channel in the j th triangle of video i, or the opposite color representation ( It can be the first channel of the opponent color representation). And the Gabor transform of this function is
And

g(t)は凹関数であり、
である。1つの可能なパルス関数は以下のように定義され得、
g (t) is a concave function,
It is. One possible pulse function may be defined as

Lは固定時間長である。他の実施形態では他のパルス関数を使用することができる。 2つの方程式を使うと
となり、
L is a fixed time length. Other pulse functions can be used in other embodiments. With two equations
And

期間[0、L]、したがってG(., .)の内積の定義として、次のように書くことができ、
As a definition of the inner product of the period [0, L], and hence G (.,.), We can write

<., .>は機能的内積である。上記のガボール変換は、ノイズがない場合、時間と周波数が連続的である。   <.,.> Are functional inner products. The Gabor transform described above is continuous in time and frequency in the absence of noise.

th番目のビデオの色記述子fi1(t)を計算するために、すべての関数は、係数のベクトルが
である一組のb個の基底関数
によって張られた色空間において定義される。2つの色記述子の機能的内積は、
で定義されることができ、
In order to calculate the color descriptor f i1 (t) of the i th video, all functions have a vector of coefficients
A set of b basis functions that are
Defined in the color space spanned by The functional inner product of two color descriptors is
Can be defined by

Φは要素Φij=(fi(t),fj(t))をもつb×b行列である。 Φ is a b × b matrix with elements ij = (f i (t), f j (t)).

いくつかの実施形態では、モデルは、統計的色特性が経時的に滑らかに変化し、筋肉活性化におけるそれらの効果がL秒の最大期間を有すると仮定する。この説明に適合する基底関数は、フーリエ級数の実部の最初のいくつかの成分、すなわち正規化余弦基底である。他の実施形態では他の基底関数を使用することができる。   In some embodiments, the models assume that the statistical color properties change smoothly over time, and that their effect on muscle activation has a maximum duration of L seconds. The basis functions that fit this description are the first few components of the real part of the Fourier series, ie the normalized cosine basis. Other basis functions can be used in other embodiments.

余弦基底は、ψz(t)=cos(2πzt)、z=0,...,b - 1として定義することができる。対応する正規化基底は、次のように定義される。
The cosine basis can be defined as ψ z (t) = cos (2πzt), z = 0,. The corresponding normalized basis is defined as follows:

規化基底関数(normalized basis set)は、Φ=Idbを許容する。ここで、Idbは、任意の正定値行列ではなく、b×b単位行列を表す。 The normalized basis set allows Φ = Id b . Here, Id b represents a b × b unit matrix, not an arbitrary positive definite matrix.

余弦基底を用いた上記の導出は、周波数空間を暗黙的に離散的にする。色関数のガボール変換
は次のようになり、
The above derivation with cosine basis makes frequency space implicitly discrete. Gabor transform of color function
Becomes as follows,

は、区間[t-L,t]で計算された関数
で、ci1zはzth番目の係数である。
Is the function computed on the interval [tL, t]
And c i1z is the z th -th coefficient.

上記で導出したシステムは時間領域を含まないが、必要に応じて時間領域係数を見つけて利用することができることを理解されたい。   It should be understood that although the system derived above does not include the time domain, it is possible to find and use time domain coefficients as needed.

アクションユニットの機能分類   Function classification of action unit

システムは、上記で導出されたガボール変換を使用して、AUのタイミングおよび期間に対して不変の特徴空間を定義する。結果として生じる空間において、システムは線形または非線形分類器を使用する。いくつかの実施形態では、KSDA、サポートベクターマシン(SVM)またはディープマルチレイヤニューラルネットワーク(DN)を分類器として使用することができる。   The system uses the Gabor transform derived above to define a feature space that is invariant to AU timing and duration. In the resulting space, the system uses linear or non-linear classifiers. In some embodiments, KSDA, Support Vector Machine (SVM) or Deep Multilayer Neural Network (DN) can be used as a classifier.

機能色空間   Function color space

システムは、異なる局所パッチからの色情報の平均および標準偏差を記述する関数を含み、それは以下に記述される複数の関数の同時モデリングを使用する。   The system includes functions that describe the mean and standard deviation of color information from different local patches, which use simultaneous modeling of multiple functions described below.

システムは多次元関数
を定義し、各関数γz(t)は所与のパッチにおけるカラーチャネルの平均または標準偏差である。基底展開アプローチを使用すると、それぞれ
は、係数cieのセットによって定義され、したがって、Γi(t)は次式で与えられる。
System is multidimensional function
And each function γ z (t) is the mean or standard deviation of the color channel in a given patch. Each using the basis expansion approach
Is defined by the set of coefficients c ie , so Γ i (t) is given by

多次元関数の内積は、正規化されたフーリエ余弦基底を使用して再定義され、
となる。
The inner product of multidimensional functions is redefined using a normalized Fourier cosine basis,
It becomes.

他の基底は、他の実施形態で使用することができる。   Other bases can be used in other embodiments.

システムは、各分類器を最適化するためにビデオシーケンスのトレーニングセットを使用する。システムはビデオの長さ(すなわちフレーム数)に対して不変であることに留意することが重要である。したがって、システムは、認識のためにビデオの整列または切り取りを使用しない。   The system uses a training set of video sequences to optimize each classifier. It is important to note that the system is invariant to the length of the video (ie the number of frames). Thus, the system does not use video alignment or clipping for recognition.

いくつかの実施形態では、上記の手法およびマルチクラス分類器を使用してAU強度を識別するようにシステムを拡張することができる。システムは、AUと、5つの強度a、b、c、d、eのそれぞれを検出するようにトレーニングされ得、AUは非アクティブである(存在しない)。システムはまた、上記と同じアプローチを使用して、表情の画像中の感情カテゴリを識別するようにトレーニングされ得る。   In some embodiments, the system can be extended to identify AU strengths using the techniques described above and a multi-class classifier. The system can be trained to detect the AU and each of the 5 intensities a, b, c, d, e, and the AU is inactive (not present). The system may also be trained to identify emotional categories in the image of the expression using the same approach as described above.

いくつかの実施形態では、システムはビデオ内のAUおよび感情カテゴリを検出することができる。他の実施形態では、システムは静止画像内のAUを識別することができる。静止画像内のAUを識別するために、システムは最初に回帰を用いて単一画像から上記で定義された機能的色特徴を計算することを学習する。この実施形態では、システムは関数h(x)=yを回帰して入力画像xを色yの必要な関数表現にマッピングする。   In some embodiments, the system can detect AUs and emotion categories in the video. In another embodiment, the system can identify AUs in still images. In order to identify AUs in still images, the system first learns to calculate the above defined functional color features from a single image using regression. In this embodiment, the system regresses the function h (x) = y to map the input image x to the required functional representation of the color y.

サポートベクターマシン   Support vector machine

トレーニングセットは、{(γ1(t),y1),...,(γn(t),yn)}で定義され、γi (t) ∈ Hv, Hvは、次数vまでの有界導関数をもつ連続関数のヒルベルト空間であり、yi ∈ {-1, 1}はクラスラベルで、+1はAUがアクティブで−1は非アクティブであることを示す。 The training set is defined by {(γ 1 (t), y 1 ), ..., (γ n (t), y n )}, and γ i (t) ∈ H v , H v is the order v Hilbert space of continuous function with bounded derivatives up to y i ∈ {−1, 1} is a class label, +1 indicates that AU is active and −1 is inactive.

別個のクラスのサンプルが線形に分離可能であるとき、クラスの分離可能性を最大にする関数w(t)は、以下で与えられ、
When the separate classes of samples are linearly separable, the function w (t) that maximizes the separability of the classes is given by

vはバイアスであり、上記のように、
は機能的内積を表し、ξ=(ξ1,...,ξn)Tはスラック変数で、c>0は交差検定を使用して検出されたペナルティ値である。
v is a bias, as above
Represents a functional inner product, ξ = (ξ 1 ,..., Ξ n ) T is a slack variable and c> 0 is a penalty value detected using cross validation.

正規化余弦係数を(28)と使用してΓiをモデル化するために我々によって導出された手法を適用することは、(29)を以下の基準に変換し、
Applying our derived approach to model Γ i using normalized cosine coefficients with (28) converts (29) to

c>0は交差検定を使用して見つかったペナルティ値である。   c> 0 is the penalty value found using cross validation.

システムは、元の色空間をデータの最初のいくつか(例えば2つ)の主成分に投影する。主成分は主成分分析(PCA)によって得られる。結果のp次元は、φPCAk,k =1,2,…,pとラベル付けされる The system projects the original color space onto the first few (eg two) principal components of the data. Principal components are obtained by principal component analysis (PCA). The resulting p-dimensions are labeled φ PCA k, k = 1,2, ..., p

一旦トレーニングされると、システムはリアルタイムで又はリアルタイムよりも速くビデオ内のAU、AU強度及び感情カテゴリを検出することができる。いくつかの実施形態では、システムは、30フレーム/秒/CPUスレッドを超えるAUを検出することができる。   Once trained, the system can detect AU, AU intensity and emotion categories in the video in real time or faster than real time. In some embodiments, the system can detect AUs exceeding 30 frames / sec / CPU thread.

多層パーセプトロンを用いたディープネットワークアプローチ   Deep Network Approach Using Multilayer Perceptron

いくつかの実施形態では、システムは、色特徴空間内の非線形分類器を識別するためのディープネットワークを含むことができる。   In some embodiments, the system can include a deep network to identify non-linear classifiers in the color feature space.

システムは、係数ciを使用して多層パーセプトロンネットワーク(MPN)をトレーニングすることができる。このディープニューラルネットワークは、バッチ正規化およびいくつかの線形または非線形の機能的整流、例えば整流線形ユニット(ReLu)を有する接続された層のいくつか(たとえば5つ)のブロックから構成される。ネットワークを効果的にトレーニングするために、システムは、少数派クラスをスーパーサンプリングする(AUアクティブ/AU強度)か、多数派クラスをダウンサンプリングする(AU非アクティブ)ことによってデータ拡張(data augmentation)を使用する。システムはクラスの重みと重みの減衰も使用できる。 The system can train a multilayer perceptron network (MPN) using the coefficients c i . This deep neural network is composed of several (for example 5) blocks of connected layers with batch normalization and some linear or non-linear functional rectification, for example a rectification linear unit (ReLu). To effectively train the network, the system supersamples minority classes (AU active / AU strength) or downsamples majority classes (AU inactive) to perform data augmentation use. The system can also use class weights and weight attenuation.

このニューラルネットワークを勾配降下法を用いてトレーニングする。結果として生じるアルゴリズムは、リアルタイムで、またはリアルタイムよりも速く、>30フレーム/秒/CPUスレッドで動作する。   The neural network is trained using a gradient descent method. The resulting algorithm runs in> 30 frames / sec / CPU thread in real time or faster than real time.

静止画像中のAU検出   AU detection in still image

システムを静止画像に適用するために、システムは画像Iiの色関数fiを特定する。つまり、システムはマッピングh(Ii)=fiを定義する。ここでfiはその係数
で定義される。いくつかの実施形態では、係数は、非線形回帰を使用してトレーニングデータから学習することができる。
In order to apply the system to a still image, the system identifies the color function f i of the image I i . That is, the system defines the mapping h (I i ) = f i . Where f i is its coefficient
Defined by In some embodiments, the coefficients can be learned from training data using non-linear regression.

システムは、m個のビデオ{V1,...,Vm}のトレーニングセットを利用する。上記のように、Vi={Ii1,...,Iiri}である。システムは、長さL(with Li)、例えばWi1={Ii1,...,IiL}, Wi2={Ii2,...,Ii(L+1) },...,Wi(ri-L)={Ii(ri-L),...,Iiri}の連続フレームのすべてのサブセットを考慮する。システムは、上記のようにすべてのWikの色表現を計算する。これにより、各Wik, k=1,..., ri-Lについてxik=(xi1k,...,xi107k)Tが得られる。次の(19)では、
The system utilizes a training set of m videos {V 1 ,..., V m }. As mentioned above, V i = {I i1 ,..., I iri }. The system has a length L (with L i ), for example W i1 = {I i1 ,..., I iL }, W i2 = {I i2 ,..., I i (L + 1) },. ., W i (ri-L) = {I i (ri-L), ..., I iri } consider all subsets of consecutive frames. The system calculates the color representation of all W ik as described above. Thus, each W ik, k = 1, ... , x ik = about r i -L (x i1k, ... , x i107k) T is obtained. In the next (19),

iとkはビデオWikを指定し、j、j =1,...,107はパッチを指定する。 i and k designate video W ik and j, j = 1,..., 107 designate patches.

システムは、各パッチについて各Wikの機能色表現fijk、j=1,...,107を計算する。これは、fijk=(cijk1,...,cijkQ)Tをもたらすために上で詳述されたアプローチを使用して行われ、cijkqは、ビデオWijのjパッチのqth番目の係数である。トレーニングセットは、ペア{xijk, fijk}によって与えられる。トレーニングセットは、関数fijk=h(xijk)を回帰するために使用される。例えば、パッチjにおけるテスト画像をI、色表現を
とする。回帰は、上で定義されたように、画像から機能的色表現へのマッピングを推定するために使用される。たとえば、カーネルリッジ回帰を使用して、テスト画像のqth番目の係数をNと推定する。
The system calculates the functional color representation f ijk, j = 1,..., 107 of each W ik for each patch. This, f ijk = (c ijk1, ..., c ijkQ) is done using the approach detailed above to bring the T, c ijkq is, q th th j patch video W ij Is the coefficient of The training set is given by the pair {x ijk , f ijk }. The training set is used to regress the function f ijk = h (x ijk ). For example, I is a test image in patch j, color representation
I assume. Regression is used to estimate the mapping from image to functional color representation, as defined above. For example, kernel ridge regression is used to estimate the q th coefficient of the test image as N.

は、jth番目のパッチ
の色特徴ベクトルであり、すべてのトレーニング画像のjth番目のパッチの係数のベクトルであり、Kはカーネル行列
である。システムはラジアル基底関数カーネル
を使用できる。いくつかの実施形態では、パラメータηおよびλは、精度を最大にし、モデルの複雑さを最小にするように選択される。これはバイアスと分散のトレードオフを最適化することと同じである。このシステムは、当技術分野で知られているようにバイアス分散問題に対する解決策を使用する。
Is the j th patch
Color feature vectors of the j th th patch of all training images, K the kernel matrix
It is. System is a radial basis function kernel
Can be used. In some embodiments, the parameters η and λ are selected to maximize accuracy and minimize model complexity. This is equivalent to optimizing the bias and variance trade-off. This system uses a solution to the bias distribution problem as known in the art.

上記に示したように、システムは、以前には見られなかったテスト画像に対してリグレッサ(regressor:独立変数)を使用することができる。もし
が以前には見られなかったテスト画像であるならば、その機能的表現は

として容易に得られる。この機能的色表現は、上記で導出された機能的分類子において直接使用され得る。
As indicated above, the system can use regressors for test images not previously seen. if
If is a test image not seen before, its functional representation is
When
Easily obtained. This functional color representation can be used directly in the functional classifier derived above.

図5は、ビデオおよび/または静止画像における色分散を用いてAUまたは感情を検出するための色分散システム500を示す。システム500は、一組のビデオおよび/または画像を有する画像データベースコンポーネント510を含む。システム500は、画像データベース510内のランドマークを検出するランドマークコンポーネント520を含む。ランドマークコンポーネント520は、定義されたランドマークを有する画像の画像のセットのサブセットを作成する。システム500は、ビデオシーケンス内の色の変化または顔の静止画像内の統計を計算する統計コンポーネント530を含む。統計コンポーネント530から、上述のようにデータベースコンポーネント510内の各ビデオまたは画像に対してAUまたは感情が決定される。システム500は、画像を少なくとも1つのAUでタグ付けするか、またはAUなしでタグ付けするタグ付けコンポーネント540を含む。システム500はタグ付き画像を処理済み画像データベース550に格納することができる。   FIG. 5 shows a color distribution system 500 for detecting AU or emotion using color distribution in video and / or still images. System 500 includes an image database component 510 having a set of video and / or images. System 500 includes a landmark component 520 that detects landmarks in image database 510. The landmark component 520 creates a subset of the set of images of the image having the defined landmarks. System 500 includes a statistics component 530 that calculates statistics in color changes in the video sequence or still images of the face. From the statistics component 530, an AU or emotion is determined for each video or image in the database component 510 as described above. The system 500 includes a tagging component 540 that tags the image with at least one AU or tags without an AU. System 500 may store tagged images in processed image database 550.

顔の表情の画像から感情を認識し、顔の画像を編集して別の感情を表現するように見せるための顔の色   Face color for recognizing emotions from images of facial expressions and editing face images to make them express different emotions

上記の方法において、システムは、構成、形状、シェーディングおよび色の特徴を使用してAUを識別する。これは、AUが感情のカテゴリを定義し、すなわち、AUの固有の組み合わせが固有の感情のカテゴリを指定するからである。それにもかかわらず、顔の色も感情を伝える。顔は、皮膚の表面に最も近い血管網上の血流を変えることによって、観察者に感情情報を表現することができる。例えば、怒りに関連した発赤や恐怖の中の青白さを考える。これらのカラーパターンは血流の変動によって引き起こされ、筋肉の活性化がない場合でも発生する可能性がある。我々のシステムはこれらの色の変化を検出するため、筋肉の動きがなくても(すなわち、AUが画像内に存在するか否かにかかわらず)、感情を識別することが可能になる。   In the above method, the system identifies AUs using configuration, shape, shading and color features. This is because AU defines a category of emotions, ie, a unique combination of AUs specifies a category of unique emotions. Nevertheless, the color of the face also conveys emotions. The face can express emotional information to the observer by altering the blood flow on the vascular network closest to the surface of the skin. For example, consider the redness associated with anger and the paleness in fear. These color patterns are caused by blood flow fluctuations and can occur even without muscle activation. Our system detects these color changes, which allows us to identify emotions without muscle movement (ie, whether or not AU is present in the image).

顔の領域   Face area

システムは、p×qの画素の各顔カラー画像を、
として表し、顔の各顔面成分のr個のランドマーク点を
画像上のランドマーク点の2次元座標、として表す。ここで、iは主題を指定し、jは感情カテゴリを指定する。いくつかの実施形態において、システムはrを66として使用する。これらの基準点は、内部の輪郭と、顔の外部要素、例えば、口、鼻、目、眉、あごの稜と紋を定義する。ドロネー三角形分割は、これらの顔のランドマーク点によって定義される三角形の局所領域を生成するために使用することができる。この三角形分割は、いくつかの局所領域(例えば、66個のランドマーク点を使用するときには142個の領域)をもたらす。この数をaとする。
The system calculates each face color image of p × q pixels,
Expressed as r landmark points of each facial component of the face
Expressed as two-dimensional coordinates of landmark points on the image. Here, i specifies a subject and j specifies an emotion category. In some embodiments, the system uses r as 66. These reference points define the inner contour and the outer elements of the face, such as the mouth, nose, eyes, eyebrows, eyebrows and marks of the chin. Delaunay triangulation can be used to generate local regions of triangles defined by landmark points on these faces. This triangulation results in several local regions (eg, 142 regions when using 66 landmark points). Let this number be a.

システムは、aの局所領域のそれぞれの画素を返す一連の関数として、関数D={d,...,d}を定義することができる。例えば、dk(Iij)は、画像Iijにおけるkth番目のドロネー三角形、例えば、
の内部におけるl個の画素を含むベクトルであり、ここで、
は、各画素の3つのカラーチャネルの値を定義する。
The system can define the function D = {d 1 ,..., D a } as a series of functions that return each pixel of the local region of a . For example, d k (I ij ) is the k th th Delaunay triangle in the image I ij , for example
A vector containing l pixels inside of, where
Defines the values of the three color channels of each pixel.

色空間   Color space

上記の導出は、各顔画像を一連の局所領域に分割する。システムは、各画像内のこれらの局所領域のそれぞれの色統計量を計算することができる。具体的には、システムは、以下のように定義される、データの一次モーメントおよび二次モーメント(すなわち、平均および分散)を計算する。
The above derivation divides each face image into a series of local regions. The system can calculate the color statistics of each of these local regions in each image. Specifically, the system calculates the first moment and the second moment (i.e., the mean and the variance) of the data, defined as follows.

他の実施形態では、画像の色の追加のモーメントが利用される。すべての画像Iijは、色統計量の以下の特徴ベクトルを用いて表す。
In other embodiments, additional moments of image color are utilized. All images I ij are represented using the following feature vectors of color statistics:

同じモデルを使用して、システムは各中立面の色特徴ベクトルを以下のように定義する。
ここで、nは、この特徴ベクトルが感情カテゴリではなく中立的な表現に対応することを示す。平均的な中立面は以下である。
mは、トレーニングセット内の識別子の数である。感情の顔表情の色表現は、この中立の顔からの偏差によって与えられる。
Using the same model, the system defines the color feature vectors for each neutral plane as follows:
Here, n indicates that this feature vector corresponds to a neutral expression rather than an emotion category. The average neutral plane is
m is the number of identifiers in the training set. The color representation of emotional facial expressions is given by the deviation from this neutral face.

分類   Classification

システムは、線形または非線形の分類器を使用して、上記で定義された色空間内の感情カテゴリを分類する。いくつかの実施形態では、線形判別分析(LDA)が上記で定義された色空間で計算される。いくつかの実施形態において、色空間は、以下のマトリックスのゼロではない固有値に対応する固有ベクトルによって定義することができる。
ここで、以下は、(正規化された)共分散行列である。
以下は、クラス平均である。
以下は、識別マトリクスである。
δ=.01が正規化パラメータであり、Cはクラスの数である。
The system uses linear or non-linear classifiers to classify emotion categories in the color space defined above. In some embodiments, linear discriminant analysis (LDA) is calculated in the color space defined above. In some embodiments, the color space can be defined by eigenvectors corresponding to non-zero eigenvalues of the following matrix:
Here, the following is the (normalized) covariance matrix.
The following is the class average.
The following is the identification matrix.
δ = .01 is the normalization parameter, and C is the number of classes.

他の実施形態において、システムは、サブクラス判別分析(SDA)、KSDA、またはディープニューラルネットワークを採用することができる。   In other embodiments, the system can employ subclass discriminant analysis (SDA), KSDA, or deep neural networks.

多方向分類   Multi-directional classification

選択された分類器(例えば、LDA)は、Cの感情カテゴリおよび中立の色空間(または複数の空間)を計算するために使用される。いくつかの実施形態において、システムは、基本感情および複合感情を含む23の感情カテゴリを認識するように訓練されている。   The selected classifier (e.g., LDA) is used to calculate the emotional category of C and the neutral color space (or spaces). In some embodiments, the system is trained to recognize 23 emotion categories, including basic emotions and complex emotions.

システムは、利用可能なサンプルを10個の異なるセットS={S, ... ,S10}に分割する。ここで、各サブセットSは、同じ数のサンプルを有する。この分割は、各感情カテゴリ(中立を含む)内のサンプル数がすべてのサブセットで等しくなるように行われる。システムは、1、・・・、10のtを用いて以下の手順を繰り返す。Sを除くすべてのサブセットがΣxおよびSを計算するために使用される。LDAのサブスペース
の計算に使用されなかったサブセットSのサンプルは、
に投射される。各テストサンプルの特徴ベクトル
は、以下のユークリッド距離によって与えられる最も近いカテゴリ平均の感情カテゴリに割り当てられる。
すべてのテストサンプル
における分類精度は、以下によって与えられる。
ここで、nはSにおけるサンプル数であり、y(t)は、サンプルtの真の感情カテゴリを返すオラクル関数であり、
は0-1損失であり、
であるときには1であり、それ以外では0である。したがって、Sは、カラーモデルの一般化を判断するためのテスト用サブセットとして機能する。tは1、…、10であるため、システムは、この手続きを10回繰り返すことができる。各回では、サブセットSのうちの1つをテストのために残す。そして、以下のように平均分類精度を計算する。
交差検証された分類精度の標準偏差は、以下である。
このプロセスにより、システムは、最も一般化された識別色特徴、すなわち、トレーニングセットに含まれない画像に適用されるものを識別できる。
The system divides the available samples into 10 different sets S = {S 1 ,..., S 10 }. Here, each subset St has the same number of samples. This division is performed such that the number of samples in each emotion category (including neutral) is equal in all subsets. The system repeats the following procedure using 1, ..., 10 t. All subsets except S t is used to calculate the Σx and S B. LDA subspace
The samples of subset S t not used for the calculation of
Projected Feature vector of each test sample
Are assigned to the emotion category of the nearest category average given by Euclidean distance
All test samples
The classification accuracy in is given by:
Where n t is the number of samples in S t and y (t j ) is an oracle function that returns the true emotion category of sample t j ,
Is 0-1 loss,
It is 1 when it is and 0 otherwise. Thus, S t serves as a test subset to determine a generalized color model. Since t is 1, ..., 10, the system can repeat this procedure 10 times. In each time, leaving one of the subset S t for testing. Then, the average classification accuracy is calculated as follows.
The standard deviation of the cross-validated classification accuracy is
This process allows the system to identify the most generalized identification color features, ie, those that apply to images not included in the training set.

他の実施形態において、システムは、2方向(一対全部)分類器を使用する。   In another embodiment, the system uses a two-way (one-to-all) classifier.

一対全部の分類   Class of all pairs

システムは、1つの感情カテゴリ(例えば、感情カテゴリc)のサンプルをクラス1(例えば、研究中の感情)に割り当てるとともに、他のすべての感情カテゴリのサンプルをクラス2に割り当てるたびに、上記の手法をC回繰り返すことにより、各感情カテゴリの最も識別可能な色特徴を識別する。形式的には、以下である。
The system assigns the sample of one emotion category (eg, emotion category c) to class 1 (eg, emotions under study), and every time that all other emotion category samples are assigned to class 2, the above method Repeat C times to identify the most distinguishable color feature of each emotion category. Formally, it is the following.

のサンプルを区別するために、線形または非線形の分類器(例えば、KSDA)が使用される。 A linear or non-linear classifier (eg, KSDA) is used to distinguish the samples of.

10分割交差検証:システムは、上記と同じ10分割交差検証処理および最近傍平均の分類器を使用する。   10-fold cross validation: The system uses the same 10-fold cross validation process and nearest-average classifier as above.

いくつかの実施形態において、この2つのクラスの問題におけるサンプルの不均衡によるバイアスを回避するために、システムは、
にダウンサンプリングを適用することができる。いくつかの場合において、システムは、
からランダムサンプルを引き出すたびに、
におけるサンプル数に一致するように、この手順を複数回繰り返す。
In some embodiments, to avoid bias due to sample imbalance in this two class problem, the system
Can be applied to downsampling. In some cases, the system
Every time I pull a random sample from
Repeat this procedure multiple times to match the number of samples at.

判別カラーモデル   Discrimination color model

2方向分類器としてLDAを使用する場合、
は、最大から最小の判別の順に序で並べた一連の判別可能なベクトル
を与える。
以下の判別ベクトルは、感情カテゴリを識別するときの各色特徴の寄与を定義する。
これは、非ゼロ固有値λ>0に関連する唯一の基底ベクトルであるため、システムはvを保持するだけである。したがって、感情jのカラーモデルは、以下によって与えられる。
When using LDA as a two-way classifier,
Is a series of discriminable vectors ordered from highest to lowest discriminant
give.
The following discriminant vectors define the contribution of each color feature when identifying emotion categories.
The system only holds v 1 since this is the only basis vector associated with the non-zero eigenvalue λ 1 > 0. Thus, the color model of emotion j is given by:

SDA、KSDA、ディープネットワーク、その他の分類器を使用しても同様の結果が得られる。   Similar results can be obtained using SDA, KSDA, deep networks, and other classifiers.

顔によって表される表情を変えるための画像色の修正   Image color correction to change the facial expression represented by the face

中立的な表現Iinは、感情を表現するように見えるようにシステムによって修正することができる。これらは修正画像
と呼ぶことができる。ここで、iは画像または画像内の個人を特定し、jは感情カテゴリを特定する。
は、以下の修正された色特徴ベクトルに対応する。
いくつかの実施形態において、これらの画像を生成するために、システムは、以下のように感情jのカラーモデルを用いて、中立画像のkth番目の画素を修正する。
ここで、Iinkは、中立画像Iinにおけるkth番目の画素である。
は、gth番目のドロネー三角形内における画素の色の平均および標準偏差である。
は、ニューモデルyijによって与えられるdにおける画素の色の平均および標準偏差である。
The neutral expression I in can be modified by the system to appear to express emotions. These are corrected images
It can be called. Here, i identifies an image or an individual within an image, and j identifies an emotional category.
Corresponds to the following modified color feature vector:
In some embodiments, to generate these images, the system modifies the k th th pixel of the neutral image using the color model of emotion j as follows.
Here, I ink is the k th th pixel in the neutral image I in .
Is the mean and standard deviation of the color of the pixel within the g th th Delaunay triangle.
Is the mean and standard deviation of the color of the pixel at d g given by the new model y ij .

いくつかの実施形態において、システムは、分散σを用いたγガウスフィルタによって、γを有する修正画像を平滑化する。平滑化は、局所的なシェーディングと形状の特徴を排除し、人々に顔の色に集中させ、感情のカテゴリをより明確にする。   In some embodiments, the system smoothes the modified image with γ by a γ Gaussian filter with variance σ. Smoothing eliminates local shading and shape features, allows people to focus on face color, and makes emotion categories more explicit.

いくつかの実施形態において、システムは、感情の顔表情の画像を修正して、表現された感情の外観を増減させる。感情jの外観を減少させるために、システムは、感情jに関連するカラーパターンを除去して、結果として生じる画像
を得ることができる。画像は、以下の関連する特徴ベクトルを用いて、上述したように計算される。
In some embodiments, the system modifies the image of the facial expression of the emotion to increase or decrease the appearance of the expressed emotion. In order to reduce the appearance of emotion j, the system removes the color pattern associated with emotion j and the resulting image
You can get The image is calculated as described above using the following associated feature vectors:

感情の知覚を増大させるために、システムは、新しい色特徴ベクトルを以下のように定義し、
結果画像
を取得する。
In order to increase the perception of emotion, the system defines a new color feature vector as
Result image
To get

図6は、ビデオおよび/または静止画像内の色分散を用いて、AUまたは感情を検出するための色分散システム500を示す。システム600は、一組のビデオおよび/または画像を有する画像データベースコンポーネント610を含む。システム600は、画像データベース610内のランドマークを検出するランドマークコンポーネント620を含む。ランドマークコンポーネント620は、画定されたランドマークを有する一連の画像のサブセットを生成する。システム600は、ビデオシーケンスにおける色の変化または顔の静止画像における統計を計算する統計コンポーネント630を含む。統計コンポーネント630から、上述のようにデータベースコンポーネント610内の各ビデオまたは画像についてAUまたは感情が決定される。システム600は、画像を少なくとも1つのAUでタグ付けするか、AU無しでタグ付けするタグ付けコンポーネント640を含む。システム600は、タグ付き画像を処理済み画像データベース650に格納することができる。   FIG. 6 shows a chromatic dispersion system 500 for detecting AU or emotion using chromatic dispersion in video and / or still images. System 600 includes an image database component 610 having a set of video and / or images. System 600 includes a landmark component 620 that detects landmarks in image database 610. The landmark component 620 generates a subset of the series of images having the defined landmarks. System 600 includes a statistics component 630 that calculates statistics on color changes in the video sequence or still images of the face. From the statistics component 630, an AU or emotion is determined for each video or image in the database component 610 as described above. System 600 includes a tagging component 640 that tags the image with at least one AU or without AU. System 600 may store tagged images in processed image database 650.

システム600は、画像内の知覚感情を変化させることができる修正コンポーネント660を含む。いくつかの実施形態において、システム600が画像内の中立顔を決定した後、修正コンポーネント660が中立顔の画像の色調を修正して、感情またはAUの決定された表現の外観を生み出すかまたは修正する。例えば、画像は中立表現を含むと判定される。修正コンポーネント660は、幸せまたは悲しみなどの所定の表情を知覚するように表情を変えるために画像内の色を変えることができる。   System 600 includes a correction component 660 that can change the perceived emotion in the image. In some embodiments, after the system 600 determines the neutral face in the image, the correction component 660 corrects the tonality of the neutral face image to produce or correct the appearance of the determined representation of emotion or AU. Do. For example, the image is determined to include a neutral representation. The correction component 660 can change the color in the image to change the expression so as to perceive a predetermined expression such as happiness or sadness.

他の実施形態において、システム600が画像内の顔の感情またはAUを決定した後、修正コンポーネント660は、感情またはAUの知覚を変更するために、感情またはAUの強度を増減するために画像の色を修正する。例えば、悲しい表情を含むと画像が判定される。修正コンポーネント660は、表情がより少なくまたはより悲しいと知覚されるように画像内の色を変更することができる。   In other embodiments, after the system 600 determines the facial emotion or AU in the image, the correction component 660 may adjust the intensity of the emotion or AU to increase or decrease the intensity of the emotion or AU to change the perception of the emotion or AU. Correct the color. For example, an image is determined to include a sad expression. The correction component 660 can change the color in the image such that the expression is perceived as less or more sad.

顔ランドマーク点及びアクションユニットの早くて正確な検出及び認識のために、DNNで適合されるグローバルローカル   Global local matched by DNN for fast and accurate detection and recognition of facial landmark points and action units

他の観点において、ディープニューラルネットワークのためのグローバル−ローカル損失関数(DNN)は、関心のある類似の対象ランドマーク点(例えば、顔面ランドマーク点)のきめ細かい検出だけでなく、AU等の対象特性のきめ細かい認識において、効率的に使用することができる。導出された局所的+全体的な損失は、パッチベースのアプローチを使用する必要なしに正確な局所的結果をもたらし、そして迅速で望ましい収束をもたらす。本グローバル−ローカル損失関数は、AUの認識のために用いたり、AUおよび顔の表情の認識に必要な顔および顔のランドマーク点を検出するために用いたりすることができる。   In another aspect, the global-local loss function (DNN) for deep neural networks is not only fine-grained detection of similar target landmark points of interest (eg, facial landmark points), but also target characteristics such as AU. In the fine-grained recognition of, it can be used efficiently. The derived local + overall losses provide accurate local results without the need to use a patch based approach, and provide rapid and desirable convergence. This global-local loss function can be used for AU recognition or to detect faces and facial landmark points needed for AU and facial expression recognition.

グローバル−ローカル損失   Global-local loss

グローバル−ローカル(GL)損失の導出は、画像内の検出および認識のためにディープネットワークで効率的に使用できる。システムは、この損失を使用してAUを認識するように深いDNNをトレーニングする。システムは、DNNの一部を使用して顔のランドマーク点を検出する。これらの検出は、AUを検出するためにネットワークの他のコンポーネントの完全に接続されたレイヤの出力と連結される。   Derivation of global-local (GL) loss can be efficiently used in deep networks for detection and recognition in images. The system uses this loss to train the deep DNN to recognize the AU. The system detects facial landmark points using a portion of DNN. These detections are concatenated with the output of fully connected layers of other components of the network to detect AUs.

ローカルフィット   Local fit

システムは、画像サンプルと対応する出力変数を、{(I,y),…,(I,y)}のセットとして定義する。ここで、Ii∈Rl ×mは、顔におけるa l × mの画素の画像であり、yiは真の(望ましい)出力であり、nはサンプル数である。 The system defines the image samples and corresponding output variables as a set of {(I 1 , y 1 ),..., (I n , y n )}. Here, I i ∈ R l × m is an image of al × m pixels in the face, yi is a true (desired) output, and n is the number of samples.

いくつかの実施形態において、出力変数yは様々な形態であり得る。例えば、画像内の2Dの対象のランドマーク点の検出において、yは、2D画像の座標yi = (ui1,vi1, ... , uip, vip)Tのpのベクトルである。(uij, vij)Tはjth番目のランドマーク点である。AUの認識では、出力変数は指標ベクトルyi=(yi1, . . . , yiq)Tに対応する。AUjが画像I内に存在する場合、yijは1であり、AUjがその画像内に存在しなければ、yijは−1である。 In some embodiments, output variable y i can be in various forms. For example, in the detection of a landmark point of a 2D object in an image, y i is a vector of p of coordinates y i = (u i1 , v i1 , ..., u ip , v ip ) T of the 2D image is there. (u ij , v ij ) T is the j th landmark point. For AU recognition, the output variable corresponds to the index vector y i = (y i1 ,..., Y iq ) T. If AUj is present in image I i then y ij is 1, and if AU j is not present in the image, y ij is -1.

システムは、マッピング関数f (Ii,w) = (f1(Ii,w1),...,fr(Ii,wr))Tのベクトルを識別する。マッピング関数は、入力画像Iiを検出または属性の出力ベクトルyiに変換し、w = (w1, ... , wr)Tは、これらのマッピング関数のパラメータのベクトルである。検出においては、r=p及び
である。ここで、2D画像座標uij及びvijの推定値として、
である。同様に、AUの認識では、r = q及び
である。ここで、
は、AUjが、画像I内に存在(1)するか存在しない(−1)の推定値であり、qはAUの数である。
The system identifies a vector of mapping functions f (I i , w) = (f 1 (I i , w 1 ),..., F r (I i , w r )) T. The mapping function detects the input image Ii or converts it into an output vector yi of attributes, and w = (w 1 ,..., W r ) T is a vector of parameters of these mapping functions. In detection, r = p and
It is. Here, as estimated values of 2D image coordinates u ij and v ij
It is. Similarly, in AU recognition, r = q and
It is. here,
Is an estimate of (-1) with or without (1) AUj in image I i and q is the number of AUs.

固定マッピング関数f (Ii, w) (e.g., a DNN)に対して、システムは、以下のようにwを最適化する。
For a fixed mapping function f (I i , w) (eg, a DNN), the system optimizes w as follows.

ここで、
は、損失関数を表す。この損失関数に対する古典的な解は、以下のように定義されるL-損失である。
here,
Represents a loss function. The classical solution to this loss function is L 2 -loss which is defined as:

ここで、yijはyのjth番目の要素である。これは、顔のランドマーク点の検出ではyij ∈ R2であり、AUの認識では、yij ∈ {-1, +1}である。 Here, y ij is the j th th element of y i . This is y ij ∈ R 2 for face landmark point detection and y ij ∈ {−1, +1} for AU recognition.

一般性を失うことなく、システムは、f (Ii,w)の代わりにfiを用い、fj (Ii,wj)の代わりにfijを用いる。関数fijはすべて同じであるが、jの規定値が異なる場合がある。 Without loss of generality, the system uses the f i instead of f (I i, w), f j (I i, w j) using the f ij instead of. The functions fij are all the same, but the specified value of j may be different.

上記の導出はローカルフィットに対応する。つまり、(33)と(34)は、各出力の適合を独立して最適化してから、すべての出力における平均適合を採用することを試みる。   The above derivation corresponds to a local fit. That is, (33) and (34) try to optimize the fit of each output independently and then adopt the average fit at all outputs.

上述した導出アプローチは、固定された適合誤差
に対しても、いくつかの解決策を有している。例えば、誤差は、すべての出力に均等に分散させることができる。
ここで、
は、ベクトルの2ノルムである。または、誤差の大部分は、次のように定義される推定値の1つ(または少数)にある。
The derivation approach described above has a fixed fit error
Also have some solutions. For example, the error can be evenly distributed to all outputs.
here,
Is the 2 norm of the vector. Or, most of the error is in one (or a few) of the estimates defined as:

いくつかの実施形態において、関数を最小化するために追加の制約が追加される。
In some embodiments, additional constraints are added to minimize the function.

a≧1。システムは、収束を容易にするグローバル基準を追加する。   a ≧ 1. The system adds global criteria to facilitate convergence.

グローバル構成の追加   Add global configuration

システムは、グローバル記述子を拡張するグローバル構成を追加するための一連の制約を定義する。(34)の制約条件は、yi (例えば、yij)の各要素の適合を独立して測定するため、局所的である。それにもかかわらず、同じ基準を使用して点のペアの適合度を測定することができる。正式には、以下のように定義される。
The system defines a set of constraints for adding global configurations that extend global descriptors. The constraint of (34) is local because it independently measures the fit of each element of y i (eg, y ij ). Nevertheless, the same criteria can be used to measure the fitness of a pair of points. Formally, it is defined as follows.

ここで、g(x,z)は、2つのエントリの類似度を計算する関数である。h(.)は、ネットワークの(制約のない)出力を適切な数値範囲にスケーリングする。ランドマーク検出では、h(fij) = fij ∈ R2
Here, g (x, z) is a function that calculates the similarity of two entries. h (.) scales the (unconstrained) output of the network to the appropriate numerical range. In landmark detection, h (f ij ) = f ij ∈ R 2

x−zのbノルムである(例えば、2ノルム、
ここで、xとzは、2つのランドマークの画像座標を定義する2Dベクトルである。
b is the norm of xz (e.g., 2 norm,
Here, x and z are 2D vectors that define the image coordinates of two landmarks.

AU認識では、h(fij) = sign(fij)∈{-1, +1} In AU recognition, h (f ij ) = sign (f ij ) ∈ {-1, +1}

ここで、sign(.)は、入力数値が負の場合には−1を返し、この数値が正またはゼロの場合には+1を返す。AUjが画像I内に存在する場合にはxijが1であり、それがその画像内に存在しない場合には−1である。したがって、関数h(.) : R → {-1, +1} Here, sign (.) Returns -1 if the input number is negative, and +1 if this number is positive or zero. If AUj is present in the image I i then x ij is 1 and -1 if it is not present in the image. Therefore, the function h (.): R → {-1, +1}

いくつかの実施形態において、システムは、各対の要素、すなわち、検出時の各対のランドマーク点および認識時の各対のAUのグローバル構成を考慮に入れる。すなわち、検出においては、システムは、すべてのランドマーク点間の距離の情報を使用し、認識においては、AUの対が共存する場所を決定する(例えば、2つがサンプル画像中に同時に存在するか存在しないことを意味する)。   In some embodiments, the system takes into account the elements of each pair, namely the landmark points of each pair at detection and the global configuration of each pair of AU at recognition. That is, in detection, the system uses information on the distance between all landmark points, and in recognition it determines where the AU pairs co-exist (for example, if two are simultaneously present in the sample image Means not exist).

いくつかの実施形態において、グローバル基準はトリプレットに拡張することができる。正式には、以下である。
In some embodiments, global criteria can be extended to triplets. Formally, it is the following.

ここで、g(x、z、u)は、3つのエントリ間の類似度を計算する関数である。   Here, g (x, z, u) is a function that calculates the similarity between three entries.

検出において、これは、システムがbノルム、例えば、
を計算することができること、
以下のように、各トリプレットによって定義される三角形の面積を計算すること、を意味する。
In detection, this means that the system is b norm, eg
That can be calculated,
It means to calculate the area of the triangle defined by each triplet as follows.

3つのランドマークポイントは、共線ではない。   The three landmark points are not collinear.

いくつかの実施形態において、方程式は4つ以上の点に拡張することができる。例えば、この方程式は、次のように凸四辺形に拡張することができる。
In some embodiments, the equation can be extended to four or more points. For example, this equation can be extended to a convex quadrilateral as follows:

最も一般的な場合では、システムは、t個のランドマーク点について、多角形エンベロープ、すなわち、t個のランドマーク点{xi1,…,xit}によって含まれる非自己交差多角形の面積を計算する。多角形は、以下のように与えられる。 In the most general case, the system determines, for t landmark points, the area of the polygon envelope, ie the non-self-intersecting polygon contained by t landmark points {x i1, ..., x it } calculate. The polygon is given as follows.

システムは、顔のランドマーク点のドロネー三角形分割を計算する。多角形包絡線は、1組のt個のランドマーク点の線を反時計回りに接続することによって得られる。ランドマーク点の順序付き集合は、以下のように定義される。
の領域は、以下によって与えられる。
The system calculates Delaunay triangulation of landmark points on the face. The polygon envelope is obtained by connecting a set of t landmark point lines counterclockwise. An ordered set of landmark points is defined as follows.
The domain of is given by:

ここで、ga(.)の添え字aは領域を表す。
Here, the suffix a of ga (.) Represents an area.

いくつかの実施形態において、上記式の結果は、当技術分野で知られているようにグリーンの定理を用いて得られる。
は、DNN
のt個の出力、または
真値
とすることができる。
In some embodiments, the results of the above equation are obtained using Green's Theorem as known in the art.
Is the DNN
T outputs of, or true values
It can be done.

システムは、次のように、t個のランドマーク点の一般的な場合について、グローバルbノルムgn(.)を計算することができる。
The system can calculate the global b norm g n (.) For the general case of t landmark points as follows:

上記導出は、検出課題において、g(.)を3つ以上の点に拡張することを定義する。これから、上記は画像中のAUを認識するために使用することができる。   The above derivation defines the extension of g (.) To more than two points in the detection task. From this, the above can be used to recognize AUs in the image.

システムは、画像I内の3つ以上のAUの共起を計算する。正式には、
は、t個のAUのセットであり、
である。
The system calculates co-occurrence of three or more AUs in the image I i . Formally,
Is a set of t AUs,
It is.

GL−損失Ioss   GL-loss Ioss

最終的なローカルグローバル(GL)損失関数は、以下によって与えられる。
The final local global (GL) loss function is given by:

ここで、グローバル損失、
は、以下のように定義される。
Where global loss,
Is defined as follows.

g(.)は、検出においては、g(.)若しくはg(.)又はこの両方であり、認識においては、gAU(.)であり、αは、トレーニングセットの交差検証を利用して学習した正規化定数である。 g (.) is g a (.) or g n (.) or both in detection, g AU (.) in recognition, and α t uses cross validation of training set It is a normalization constant learned by

バックプロパゲーション   Back propagation

DNNのパラメータであるwを最適化するために、システムは以下を計算する。
To optimize w, which is a parameter of DNN, the system calculates

局所損失の偏導関数は、もちろん次のように与えられる。
The partial derivative of the local loss is, of course, given by

グローバル損失の定義では、マッピング関数h(.)を使用する。いくつかの実施形態において、ランドマーク検出を実行するとき、h(fij)=fijであり、グローバル損失の偏導関数は、上式に示される局所損失のものと同じ形式を有する。他の実施形態において、AU認識を実行するとき、システムは、以下を利用する。
この関数は微分ではないが、システムは、それを、小さい部分
に対して、以下のように再定義する。
偏導関数は、以下になる。
The global loss definition uses the mapping function h (.). In some embodiments, when performing landmark detection, h (f ij ) = f ij and the partial derivative of the global loss has the same form as that of the local loss shown above. In another embodiment, when performing AU recognition, the system utilizes:
This function is not a derivative, but the system does
Redefine it as follows.
The partial derivative is

ディープDNN   Deep DNN

システムは、AUを認識するためのディープニューラルネットワークを含む。DNNは2つの部分を含む。DNNの第1の部分は、多数の顔面ランドマーク点を検出するために用いられる。ランドマーク点により、システムは上述したようにGL損失を計算することができる。   The system includes a deep neural network to recognize AUs. DNN contains two parts. The first part of the DNN is used to detect multiple facial landmark points. The landmark points allow the system to calculate the GL loss as described above.

システムは、正規化されたランドマーク点を計算することができる。システムは、DNNの第2の部分の第1の完全に接続されたレイヤの出力と連結して、ランドマークの位置情報を、AUを認識するために使用されるDNNに埋め込むことができる。これは、感情の表現において典型的に観察される局所的な形状変化の検出を容易にする。これは上記のGL損失の定義で行われる。   The system can calculate normalized landmark points. The system can be coupled with the output of the first fully connected layer of the second part of the DNN to embed landmark position information into the DNN used to recognize the AU. This facilitates the detection of local shape changes that are typically observed in emotional expression. This is done with the definition of GL loss above.

いくつかの実施形態において、DNNは複数のレイヤを含む。例示的な実施形態において、9つのレイヤが顔のランドマーク点の検出専用であり、他の層は一連の画像内のAUを認識するために用いられる。   In some embodiments, the DNN comprises multiple layers. In the exemplary embodiment, nine layers are dedicated to detection of facial landmark points, and the other layers are used to recognize AUs in a series of images.

顔のランドマーク点の検出に向けられたレイヤは、以下のように詳述される。   The layers directed to the detection of facial landmark points are detailed as follows.

顔のランドマーク点の検出   Facial landmark point detection

例示的な実施形態において、DNNは、3つの畳み込みレイヤと、2つの最大プールレイヤと、2つの完全な接続レイヤを含む。システムは、各畳み込みレイヤの終わりにおいて、正規化、ドロップアウト、および整流線形単位(ReLU)を適用する。   In the exemplary embodiment, the DNN includes three convolutional layers, two largest pool layers, and two complete connection layers. The system applies normalization, dropout, and rectified linear units (ReLU) at the end of each convolutional layer.

これらのレイヤのウェイトは、バックプロパゲーション、導出されたGL損失を使用して最適化される。グローバル損失およびバックプロパゲーションの式は上記に提供されている。   The weights of these layers are optimized using back propagation, the derived GL loss. The equations for global loss and backpropagation are provided above.

一例において、システムは、DNNのこの部分を使用して、合計66個の顔ランドマーク点を検出する。提案されたGL損失の1つの利点は、それが非常に大きいデータセットで効率的に訓練されることができるということである。いくつかの実施形態において、システムは、データ変換を採用して、変形変換および部分的オクルージョンに対して不変であるようにする顔ランドマーク検出器を含む。   In one example, the system uses this portion of DNN to detect a total of 66 facial landmark points. One advantage of the proposed GL loss is that it can be trained efficiently with very large data sets. In some embodiments, the system includes a face landmark detector that employs data transformation to be invariant to transformation and partial occlusion.

顔ランドマーク検出器は、既存のトレーニングセットに2次元アフィン変換、すなわちスケール、反射、並進および回転を適用することによって、追加の画像を生成する。例示的な実施形態において、スケールは2及び0.5の間にあり、回転は−10°から10°であり、並進および反射はランダムに生成され得る。DNNを部分的オクルージョンに対してよりロバストにするために、システムは、d×dの画素のオクルージョンボックスをランダム化し、dは、内側の目の間隔の0.2から0.4倍である。   The facial landmark detector generates additional images by applying a two-dimensional affine transformation, ie, scale, reflection, translation and rotation, to the existing training set. In an exemplary embodiment, the scale is between 2 and 0.5, the rotation is -10 ° to 10 °, and translation and reflection may be generated randomly. In order to make the DNN more robust to partial occlusion, the system randomizes the occlusion box of d × d pixels, where d is 0.2 to 0.4 times the inner eye separation.

AU認識   AU recognition

DNNの第2の部分は、顔の外観特徴と、DNNの第1の部分によって与えられるランドマーク位置とを組み合わせる。具体的には、DNNの第2の部分の第1の完全な接続レイヤの出力において、外観画像特徴は、正規化され自動的に検出されたランドマーク点と連結される。   The second part of the DNN combines the facial appearance features with the landmark locations provided by the first part of the DNN. Specifically, at the output of the first complete connection layer of the second part of the DNN, the appearance image features are concatenated with normalized and automatically detected landmark points.

正式には、ithのサンプル画像(i=1,...,n)のランドマーク点のベクトルを以下とする。
ここで、sik ∈ R2は、kthのランドマークの2D画像座標であり、nは、サンプル画像の数である。故に、si ∈ R132となる。次に、すべての画像をτピクセルの同じ眼間距離を持つように正規化する。すなわち、以下となる。
ここで、l及びrは左右の目の中心の画像座標であり、|| ・ ||2はベクトルの2ノルムを定義する。
τ=200を用いることができる。
Formally, the vector of landmark points of the sample image (i = 1,..., N) of i th is set as follows.
Here, s ik ∈ R 2 is the 2D image coordinates of the k th landmark, and n is the number of sample images. Therefore, s i ∈ R 132 . Next, all images are normalized to have the same interocular distance of τ pixels. That is, it becomes the following.
Here, l and r are the image coordinates of the center of the left and right eyes, and || · ||
It is possible to use τ = 200.

システムは、ランドマーク点を以下のように正規化する。
また、システムは、ランドマーク点に回転行列Rを乗算して、左右の目の外側の角が水平線と一致するようにする。システムは、
の値を再調整してシフトし、画像内の左目と右目の外側のコーナーをそれぞれ(.5,0)と(−.5,0)の所定の位置に移動させる。
The system normalizes landmark points as follows.
The system also multiplies the landmark points by the rotation matrix R so that the outer corners of the left and right eyes coincide with the horizon. the system,
And shift the outer corners of the left and right eyes in the image to predetermined positions (.5, 0) and (-. 5, 0), respectively.

一実施形態において、DNNは、GoogleNetのものと同様であるが、本明細書で定義されたGL損失が使用されることにおいて、大きな違いがある。DNNの入力は、顔画像とすることができる。システムは、入力に適合するように第1レイヤのフィルタのサイズを変更し、これらのフィルタの重みをランダムに初期化する。DNNにランドマークを埋め込むために、第1の完全な接続レイヤ内のフィルタの数、ならびにAUの数としての出力のためのフィルタの数を変更することができる。システムは、顔の表情の画像中のすべてのAUを検出するために単一のDNNを使用することができる。   In one embodiment, the DNN is similar to that of GoogleNet, but there is a significant difference in that the GL loss as defined herein is used. The input of DNN can be a face image. The system resizes the filters of the first layer to fit the input and randomly initializes the weights of these filters. In order to embed the landmarks in the DNN, the number of filters in the first complete connection layer as well as the number of filters for output as the number of AUs can be changed. The system can use a single DNN to detect all AUs in the facial expression image.

DNNの第2の部分の重みは、バックプロパゲーション方法および上記で定義されたグローバル損失を用いて、最適化することができる。   The weights of the second part of the DNN can be optimized using the back propagation method and the global loss defined above.

いくつかの実施形態において、データ増強は、ランダムなノイズを2Dランドマーク点に追加し、上記のアフィン変換を適用することによって実行することができる。   In some embodiments, data enhancement can be performed by adding random noise to 2D landmark points and applying the above affine transformation.

いくつかの実施形態において、システムは、上記のようなトレーニングデータベースを使用して、野生のAUの認識を初期化するように訓練することができる。   In some embodiments, the system can be trained to initialize wild AU recognition using a training database as described above.

図7は、ビデオおよび/または静止画像内のディープニューラルネットワーク(DNN)を使用してAUおよび感情カテゴリを検出するためのネットワークシステム700を示す。システム700は、一連のビデオおよび/または画像を有する画像データベースコンポーネント710を含む。システム700は、画像データベース710の画像セット内のAUを決定するDNN720を含む。DNN720は、上述のように一連の画像内のランドマークを定義する第1の部分730を含む。DNN720は、上述のようにデータベースコンポーネント710内の画像セットのランドマーク内のAUを決定する第2の部分740を含む。システム700は、画像を少なくとも1つのAUでタグ付けする、またはAU無しでタグ付けするタグ付けコンポーネント750を含む。システム700は、タグ付けされた画像を処理済み画像データベース760に格納することができる。   FIG. 7 shows a network system 700 for detecting AU and emotion categories using deep neural networks (DNNs) in video and / or still images. System 700 includes an image database component 710 having a series of videos and / or images. System 700 includes DNN 720 that determines AUs in the image set of image database 710. The DNN 720 includes a first portion 730 that defines landmarks in the series of images as described above. The DNN 720 includes a second portion 740 that determines AUs in the landmarks of the image set in the database component 710 as described above. System 700 includes a tagging component 750 that tags an image with at least one AU, or tags without an AU. System 700 can store the tagged images in processed image database 760.

例示的なコンピュータデバイス   Exemplary computer device

図8は、産業用自動化システムにおいて、ハードウェア装置を構成するために使用することができる例示的なコンピュータを示す。様々な態様では、図8のコンピュータは、本明細書で説明されているように、開発ワークスペース100の全部または一部を含むことができる。本明細書で使用されるとき、「コンピュータ」は、複数のコンピュータを含み得る。コンピュータは、例えば、プロセッサ821、ランダムアクセスメモリ(RAM)モジュール822、読み出し専用メモリ(ROM)モジュール823、ストレージ824、データベース825、1つまたは複数の入出力(I/O)デバイス826、インターフェース827のように、1つまたは複数のハードウェアコンポーネントを含むことができる。代替的および/または追加的に、コントローラ820は、例えば、例示的実施形態に関連する方法を実行するためのコンピュータ実行可能命令を含むコンピュータ可読媒体などの1つまたは複数のソフトウェアコンポーネントを含み得る。上に挙げたハードウェアコンポーネントのうちの1つまたは複数を、ソフトウェアを使用して実装することができると考えられる。例えば、ストレージ824は、1つまたは複数の他のハードウェアコンポーネントに関連するソフトウェア区画を含み得る。上記に列挙されたコンポーネントは例示的なものにすぎず、これに限定されることを意図しないと理解される。   FIG. 8 illustrates an exemplary computer that can be used to configure hardware devices in an industrial automation system. In various aspects, the computer of FIG. 8 may include all or part of development workspace 100, as described herein. As used herein, a "computer" may include multiple computers. The computer may include, for example, a processor 821, a random access memory (RAM) module 822, a read only memory (ROM) module 823, storage 824, a database 825, one or more input / output (I / O) devices 826, an interface 827. As such, one or more hardware components can be included. Alternatively and / or additionally, controller 820 may include one or more software components, such as, for example, computer readable media including computer executable instructions for performing the methods associated with the illustrative embodiments. It is contemplated that one or more of the hardware components listed above can be implemented using software. For example, storage 824 may include software partitions associated with one or more other hardware components. It is understood that the components listed above are merely exemplary and are not intended to be limiting.

プロセッサ821は、画像を索引付けするためのコンピュータに関連する1つまたは複数の機能を実行するために、命令を実行しデータを処理するようにそれぞれ構成された1つまたは複数のプロセッサを含むことができる。プロセッサ821は、RAM822、ROM823、ストレージ824、データベース825、I/Oデバイス826、およびインターフェース827に通信可能に結合することができる。プロセッサ821は、様々なプロセスを実行するために、一連のコンピュータプログラム命令を実行するように構成され得る。コンピュータプログラム命令は、プロセッサ821による実行のためにRAM822にロードされてもよい。本明細書では、プロセッサとは、入力に対して機能を実行して出力を生成するための符号化された命令を実行する物理的ハードウェアデバイスを指す。   The processor 821 includes one or more processors each configured to execute instructions and process data to perform one or more functions associated with the computer for indexing the image. Can. Processor 821 can be communicatively coupled to RAM 822, ROM 823, storage 824, database 825, I / O device 826, and interface 827. Processor 821 may be configured to execute a series of computer program instructions to perform various processes. Computer program instructions may be loaded into RAM 822 for execution by processor 821. As used herein, a processor refers to a physical hardware device that performs encoded functions to perform functions on inputs and generate outputs.

RAM822およびROM823はそれぞれ、プロセッサ821の動作に関連する情報を記憶するための1つまたは複数のデバイスを含み得る。例えば、ROM823は、1つまたは複数のコンポーネントおよびサブシステムの動作を識別、初期化および監視するための情報を含む、コントローラ820に関連する情報にアクセスして記憶するように構成されたメモリデバイスを含み得る。RAM822は、プロセッサ821の1つまたは複数の動作に関連するデータを記憶するためのメモリデバイスを含み得る。例えば、ROM823は、プロセッサ821による実行のためにRAM822に命令をロードすることができる。   RAM 822 and ROM 823 may each include one or more devices for storing information related to the operation of processor 821. For example, ROM 823 is configured to access and store information associated with controller 820, including information for identifying, initializing and monitoring the operation of one or more components and subsystems. May be included. RAM 822 may include a memory device for storing data associated with one or more operations of processor 821. For example, ROM 823 can load instructions into RAM 822 for execution by processor 821.

ストレージ824は、プロセッサ821が開示された実施形態と一致するプロセスを実行するために必要とする可能性がある情報を格納するように構成された任意のタイプの大容量記憶装置を含むことができる。例えば、ストレージ824は、ハードドライブ、CD - ROM、DVD - ROM、または他の任意の種類のマスメディアデバイスなどの1つまたは複数の磁気および/または光ディスクデバイスを含み得る。   Storage 824 may include any type of mass storage device configured to store information that processor 821 may need to perform processes consistent with the disclosed embodiments. . For example, storage 824 may include one or more magnetic and / or optical disk devices such as a hard drive, CD-ROM, DVD-ROM, or any other type of mass media device.

データベース825は、コントローラ820および/またはプロセッサ821によって使用されるデータを格納、整理、分類、フィルタリング、および/または配置するために協働する1つまたは複数のソフトウェアおよび/またはハードウェア構成要素を含み得る。例えば、データベース825は、本明細書に記載されるように、入出力ハードウェアデバイスおよびコントローラに関連するハードウェアおよび/またはソフトウェア構成データを格納し得る。データベース825は、上に列挙したものとは別のおよび/または異なる情報を格納することができると考えられる。   Database 825 includes one or more software and / or hardware components that cooperate to store, organize, classify, filter, and / or arrange data used by controller 820 and / or processor 821. obtain. For example, database 825 may store hardware and / or software configuration data associated with input / output hardware devices and controllers as described herein. It is contemplated that database 825 may store other and / or different information from those listed above.

I / O装置826は、コントローラ820に関連付けられたユーザと情報を通信するように構成された1つまたは複数の構成要素を含み得る。例えば、I / O装置は、ユーザが画像のデータベース、関連するものの更新、デジタルコンテンツへのアクセスを維持できるように、統合キーボードおよびマウスを備えるコンソールを含み得る。I / O装置826はまた、モニタ上に情報を出力するためのグラフィカルユーザインターフェース(GUI)を含むディスプレイを含み得る。I / O装置826はまた、例えば、コントローラ820に関連する情報を印刷するためのプリンタ、ユーザがアクセス可能なディスクドライブ(例えば、USBポート、フロッピー、CD - ROM、またはDVD - ROM)のような周辺装置を含み得る。ユーザが携帯型メディア装置、マイクロフォン、スピーカシステム、または任意の他の適切な種類のインターフェース装置に格納されたデータを入力することを可能にするために、ドライブなど)を使用することができる。   I / O device 826 may include one or more components configured to communicate information with a user associated with controller 820. For example, the I / O device may include a console with an integrated keyboard and mouse so that the user can maintain a database of images, updates of related things, access to digital content. The I / O device 826 may also include a display that includes a graphical user interface (GUI) for outputting information on a monitor. The I / O unit 826 may also be, for example, a printer for printing information related to the controller 820, a user accessible disk drive (eg, USB port, floppy, CD-ROM, or DVD-ROM) Peripheral devices may be included. A drive or the like may be used to allow the user to input data stored on a portable media device, microphone, speaker system, or any other suitable type of interface device.

インターフェース827は、インターネット、ローカルエリアネットワーク、ワークステーションピアツーピアネットワーク、ダイレクトリンクネットワーク、無線ネットワークなどの通信ネットワークを介してデータを送受信するように構成された1つまたは複数の構成要素を含むことができる。または他の適切な通信プラットフォーム。例えば、インターフェース727は、1つまたは複数の変調器、復調器、マルチプレクサ、デマルチプレクサ、ネットワーク通信デバイス、無線デバイス、アンテナ、モデム、および通信ネットワークを介したデータ通信を可能にするように構成された他の任意のタイプのデバイスを含み得る。   The interface 827 may include one or more components configured to send and receive data via a communication network, such as the Internet, a local area network, a workstation peer-to-peer network, a direct link network, a wireless network, and the like. Or any other suitable communication platform. For example, interface 727 is configured to enable data communication via one or more modulators, demodulators, multiplexers, demultiplexers, network communication devices, wireless devices, antennas, modems, and communication networks. It may include any other type of device.

方法およびシステムは好ましい実施形態および特定の実施例に関連して記載されているが、本明細書の実施形態はあらゆる点で制限的であることよりもむしろ例示的であることが意図されるので、その範囲は特定の実施形態に限定されることを意図しない。   Although the methods and systems are described in connection with the preferred embodiments and the specific examples, the embodiments herein are intended to be illustrative rather than restrictive in every respect. The scope is not intended to be limited to the particular embodiments.

特に明記しない限り、本明細書に記載の任意の方法が、その工程が特定の順序で行われることを必要とすると解釈されることは決して意図されていない。
したがって、方法クレームがそのステップが従うべき順序を実際には記載していないか、またはステップが特定の順序に限定されるべきであることがクレームまたは説明において別段に具体的に述べられていない場合、いかなる意味においても、順序が推測されることを意図するものでは決してない。これには、解釈のためのあらゆる非明示的な根拠が含まれ、根拠は、ステップの配置や操作の流れに関する論理的事項、文法上の編成または句読点から派生した単純な意味、明細書に記載されている実施形態の数または種類を含む。本出願を通して、様々な刊行物を参照することができる。これらの刊行物の全体の開示は、方法およびシステムが属する技術水準をより完全に説明するために、参照により本明細書に組み込まれる。範囲または精神から逸脱することなく様々な修正および変形をなし得ることが当業者には明らかであろう。他の実施形態は、本明細書の考察および本明細書に開示された実施から当業者には明らかであろう。明細書および実施例は例示としてのみ考慮されることを意図しており、真の範囲および精神は特許請求の範囲によって示される。
Unless otherwise stated, it is by no means intended that any method described herein be construed as requiring that its steps be performed in a particular order.
Thus, if a method claim does not actually state the order in which the steps should be followed, or if it is not specifically stated in the claim or description that the steps should be limited to a particular order In no way is it intended that the order be inferred. This includes any implicit grounds for interpretation, which are stated in the specification, logical matters relating to the arrangement of steps and the flow of operations, grammatical organization or simple meanings derived from punctuation marks. Including the number or type of embodiment being implemented. Various publications can be referenced throughout this application. The entire disclosure of these publications is incorporated herein by reference to more fully describe the state of the art to which the methods and systems belong. It will be apparent to those skilled in the art that various modifications and variations can be made without departing from the scope or spirit. Other embodiments will be apparent to those skilled in the art from consideration of the specification and practice disclosed herein. It is intended that the specification and examples be considered as exemplary only, with the true scope and spirit being indicated by the following claims.

Claims (24)

AUおよびAU強度を決定するために画像を分析するためのコンピュータ実施方法は、
形態、形状およびシェーディング特徴の複数のカーネル空間を維持し、各カーネル空間は他のカーネル空間と非線形に分離可能であり、各カーネル空間は1つまたは複数のアクションユニット(AU)、および1つまたは複数のAU強度値に関連付けられ、
分析対象の複数の画像を受信することを含み、
受信する画像ごとに、
画像中の顔の形態、形状およびシェーディング特徴の顔空間データを決定し、前記顔空間は、形状特徴ベクトル、形態特徴ベクトル、および前記顔のシェーディング変化に関連するシェーディング特徴ベクトルを含み、
形態、形状およびシェーディング特徴の決定された前記顔空間データの存在を判定するために、形態特徴の決定された前記顔空間データを前記複数のカーネル空間と比較して前記画像に対する0、1つまたは複数のAU値を決定する。
A computer-implemented method for analyzing images to determine AU and AU intensity is
Maintain multiple kernel spaces of shape, shape and shading features, each kernel space can be separated non-linearly from other kernel spaces, each kernel space is one or more action units (AU), and one or more Associated with multiple AU intensity values,
Including receiving multiple images to be analyzed,
For each image to be received,
Determining face space data of face morphology, shape and shading features in the image, the face space including shape feature vectors, morphological feature vectors, and shading feature vectors associated with shading changes of the face;
In order to determine the presence of the determined face space data of form, shape and shading features, the face space data of the determined form features are compared with the plurality of kernel spaces to zero, one or more for the image Determine multiple AU values.
請求項1に記載の方法は、
前記複数の画像のそれぞれについてのAU値およびAU強度値を決定するために、複数の画像を含むビデオストリームをリアルタイムで処理することを含む。
The method according to claim 1 is
Processing a video stream comprising the plurality of images in real time to determine an AU value and an AU intensity value for each of the plurality of images.
請求項1に記載の方法では、
前記顔空間データは、前記形状の特徴ベクトル、形態特徴、および前記顔に関連するシェーディング特徴ベクトルを含む。
In the method according to claim 1,
The face space data includes feature vectors of the shape, morphological features, and shading feature vectors associated with the face.
請求項3に記載の方法では、
前記決定された前記形態特徴の前記顔空間データは、前記画像から形成されたドロネー三角形内の正規化されたランドマーク間の距離および角度値、ならびに前記正規化されたランドマークに対応する前記各ドロネー三角形によって定義される角度を含む。
In the method according to claim 3,
The face space data of the morphological features determined are the distances and angle values between normalized landmarks in the Delaunay triangle formed from the image, and the respective ones corresponding to the normalized landmarks. Includes the angle defined by the Delaunay triangle.
請求項3に記載の方法では、
前記顔のシェーディング変化に関連する前記シェーディング特徴ベクトルは、
前記顔から決定された正規化されたランドマーク点にガボールフィルタを適用することによって決定される。
In the method according to claim 3,
The shading feature vector associated with the face shading change is:
It is determined by applying a Gabor filter to the normalized landmark points determined from the face.
請求項3に記載の方法では、画像特徴は、グローバルローカル(GL)損失関数を含むディープニューラルネットワークを使用して導出されたランドマーク点と、AUs、AU強度、感情カテゴリ、および、前記画像上に投影されたランドマーク点の局所的および全体的適合の両方を逆伝播するように構成されたグローバルローカル(GL)損失関数を含むディープニューラルネットワークを使用して導出されたそれらの強度を識別するための画像特徴と、を含む。   The method according to claim 3, wherein the image features are landmark points derived using a deep neural network including global local (GL) loss function, AUs, AU intensities, emotion categories, and on the image. Identify those intensities derived using a deep neural network including a global local (GL) loss function configured to back propagate both the local and global fit of the projected landmark points to And image features. 請求項1に記載の方法では、前記AU値および前記AU強度値は、まとめて、感情および感情強度を定義する。   The method of claim 1, wherein the AU value and the AU intensity value together define emotion and emotion intensity. 請求項1に記載の方法では、前記画像は写真を含む。   The method according to claim 1, wherein the image comprises a picture. 請求項1に記載の方法では、前記画像はビデオシーケンスのフレームを含む。   The method according to claim 1, wherein the image comprises a frame of a video sequence. 請求項1に記載の方法では、前記システムは、制御環境または非制御環境からのビデオシーケンスを使用する。   The method of claim 1 wherein the system uses video sequences from a controlled or non-controlled environment. 請求項1に記載の方法では、前記システムは、白黒画像またはカラー画像を使用する。   In the method according to claim 1, the system uses a black and white image or a color image. 請求項1に記載の方法は、
画像を受信し、
受信画像を処理して、前記受信画像内の顔のAU値およびAU強度値を決定することを含む。
The method according to claim 1 is
Receive the image,
Processing the received image to determine AU values and AU intensity values of faces in the received image.
請求項1に記載の方法は、
第1のデータベースから第1の複数の画像を受信し、
第2のデータベースから第2の複数の画像を受信し、
前記受信した第1の複数の画像および前記第2の複数の画像を処理して、画像ごとに、各画像内の顔のAU値およびAU強度値を決定することを含み、
前記第1の複数の画像は、第1の取得形態を有し、前記第2の複数の画像は、第2の取得形態を有し、前記第1の取得形態は、前記第2の取得形態と異なる。
The method according to claim 1 is
Receive a first plurality of images from a first database;
Receive a second plurality of images from a second database;
Processing the first plurality of received images and the second plurality of images to determine, for each image, an AU value and an AU intensity value of a face in each image;
The first plurality of images have a first acquisition form, the second plurality of images have a second acquisition form, and the first acquisition form is the second acquisition form. It is different from
請求項1に記載の方法は、
前記顔空間上でカーネルサブクラス判別分析(KSDA)を実行し、
前記KSDAに基づいて、AUとAU強度、感情カテゴリ、および感情強度を認識することを含む。
The method according to claim 1 is
Perform kernel subclass discriminant analysis (KSDA) on the face space;
Recognize AU and AU strength, emotion category, and emotion strength based on the KSDA.
画像内の色特徴を用いてAUおよびAU強度を決定するために画像を分析するためのコンピュータ実施方法は、
AUの非アクティブからアクティブへの移行を定義する変化を識別し、前記変化は、色度、色相および彩度、ならびに輝度からなるグループから選択され、
表情中のこの変化のタイミングに対する不変性を得るために、前記識別された色の変化にガボール変換を適用することを含む。
A computer-implemented method for analyzing an image to determine AU and AU intensities using color features in the image comprises
Identifying a change defining a transition from inactive to active of the AU, said change being selected from the group consisting of chromaticity, hue and saturation, and luminance,
Applying a Gabor transform to the identified color change to obtain invariance to the timing of this change in the expression.
請求項15に記載の方法は、
AUおよび/またはAU強度に関連する複数の色特徴データをメモリ内に維持し、
分析対象の画像を受信し、
受信する画像ごとに、
顔筋の作用による前記画像内の顔の色特徴を決定し、
複数のトレーニングされた色特徴データのうちの1つまたは複数における前記決定された形態色特徴の存在を判定するために、前記決定された形態色特徴を複数のトレーニングされた色特徴データと比較して前記画像に対する0、1つまたは複数のAU値を決定することを含む。
The method according to claim 15 is
Maintain in memory a plurality of color feature data associated with AU and / or AU intensity;
Receive the image to be analyzed,
For each image to be received,
Determine the color features of the face in the image by the action of the face muscle;
The determined morphological color feature is compared to the plurality of trained color feature data to determine the presence of the determined morphological color feature in one or more of the plurality of trained color feature data. Determining the zero, one or more AU values for the image.
請求項15に記載の方法は、
複数のAU値およびAU強度値についてカーネルまたは顔空間を決定するために画像またはビデオフレーム内の複数の顔を分析することを含み、各カーネルまたは顔空間は、少なくとも1つのAU値および少なくとも1つのAU強度値に関連付けられ、各カーネルまたは顔空間は、他のカーネルおよび顔空間データと線形または非線形に分離可能であり、前記カーネルまたは顔空間は、機能色空間特徴データを含む。
The method according to claim 15 is
Analyzing the plurality of faces in the image or video frame to determine kernel or face space for a plurality of AU values and AU intensity values, each kernel or face space comprising at least one AU value and at least one AU value Associated with the AU intensity values, each kernel or face space can be linearly or non-linearly separated from other kernels and face space data, said kernel or face space comprising functional color space feature data.
請求項17に記載の方法では、
前記機能色空間は、複数の画像のうちの所与の画像からそれぞれ導出されたカラー画像に対して判別関数学習分析を実行することによって決定される。
In the method according to claim 17,
The functional color space is determined by performing a discriminant function learning analysis on color images respectively derived from a given one of the plurality of images.
非存在から存在への感情の遷移は、前記顔における血流から生じるビデオシーケンスにおける顔の色遷移であることを示す変化を識別することを含む方法。   3. A method, comprising: identifying a change indicative of a face color transition in a video sequence resulting from blood flow in the face from non-existence to presence. 顔画像中のAUおよびAU強度を決定するために画像を分析するためのコンピュータ実施方法は、
顔を有するトレーニング画像のセットを用いてディープニューラルネットワークをトレーニングし、前記ディープニューラルネットワークは、前記顔画像中のAUを識別するためにトレーニングされ、
前記画像中のAUを決定するために前記顔画像中の前記ディープニューラルネットワークを用いて局所的損失および全体的損失を識別することを含む。
A computer-implemented method for analyzing an image to determine AU and AU intensity in a face image is:
Training a deep neural network using a set of training images having a face, said deep neural network being trained to identify AUs in said face image,
Identifying local and global losses using the deep neural network in the face image to determine AUs in the image.
請求項20に記載の方法では、前記ディープニューラルネットワークは、
前記ディープニューラルネットワークの第1の部分を用いて複数のランドマーク点を検出し、前記ランドマーク点は、前記全体的損失の算出を容易にし、
前記ディープニューラルネットワークの第2の部分による局所的な画像の変化を検出することを含み、前記ランドマーク点は、正規化されて連結され、前記ランドマーク点の位置情報を前記ディープニューラルネットワークに埋め込む。
The method according to claim 20, wherein said deep neural network is
Detecting a plurality of landmark points using the first portion of the deep neural network, the landmark points facilitating calculation of the overall loss;
Detecting the local image change due to the second part of the deep neural network, wherein the landmark points are normalized and connected to embed positional information of the landmark points into the deep neural network .
請求項21に記載の方法では、前記ディープニューラルネットワークは、前記画像内のランドマークを識別するための複数の層と、前記顔画像内のAUを認識するための第2の複数の層とを含む。   22. The method of claim 21, wherein the deep neural network comprises a plurality of layers for identifying landmarks in the image and a second plurality of layers for recognizing AUs in the face image. Including. 色を有する画像中の中立面を決定し、
感情またはAUの決定された表現の外観を生み出すために前記中立面の画像の前記色を修正することを含む方法。
Determine the neutral plane in the image with color,
Modifying the color of the image of the neutral plane to produce an appearance of a determined expression of emotion or AU.
色を有する画像内の顔の感情またはAUを判定し、
感情またはAUの強度を増減させて感情またはAUの知覚を変えるために前記画像の色を修正することを含む方法。
Determine the facial emotion or AU in the image with color,
Modifying the color of the image to increase or decrease the intensity of the emotion or AU to change the perception of the emotion or AU.
JP2018562947A 2016-06-01 2017-06-01 Systems and methods for facial expression recognition and annotation Active JP7063823B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662343994P 2016-06-01 2016-06-01
US62/343,994 2016-06-01
PCT/US2017/035502 WO2017210462A1 (en) 2016-06-01 2017-06-01 System and method for recognition and annotation of facial expressions

Publications (2)

Publication Number Publication Date
JP2019517693A true JP2019517693A (en) 2019-06-24
JP7063823B2 JP7063823B2 (en) 2022-05-09

Family

ID=60477856

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018562947A Active JP7063823B2 (en) 2016-06-01 2017-06-01 Systems and methods for facial expression recognition and annotation

Country Status (5)

Country Link
US (2) US11314967B2 (en)
EP (1) EP3465615A4 (en)
JP (1) JP7063823B2 (en)
KR (1) KR102433971B1 (en)
WO (1) WO2017210462A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532880A (en) * 2019-07-29 2019-12-03 深圳大学 Screening sample and expression recognition method, neural network, equipment and storage medium
JP2021111114A (en) * 2020-01-09 2021-08-02 富士通株式会社 Learning data generating program and learning data generation method and estimation device
JPWO2022003843A1 (en) * 2020-06-30 2022-01-06

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (en) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 Method, apparatus, and electronic device for displaying service object in video image
CN106780662B (en) * 2016-11-16 2020-09-18 北京旷视科技有限公司 Face image generation method, device and equipment
CN106780658B (en) 2016-11-16 2021-03-09 北京旷视科技有限公司 Face feature adding method, device and equipment
CN108229269A (en) * 2016-12-31 2018-06-29 深圳市商汤科技有限公司 Method for detecting human face, device and electronic equipment
CA3089025A1 (en) * 2018-01-19 2019-07-25 Board Of Regents, The University Of Texas System Systems and methods for evaluating individual, group, and crowd emotion engagement and attention
CN110211016B (en) * 2018-02-28 2022-11-01 佛山科学技术学院 Watermark embedding method based on convolution characteristic
CN110321427A (en) * 2018-03-28 2019-10-11 广东亿迅科技有限公司 The file classification method and device based on bagging algorithm towards unbalanced dataset
WO2019209431A1 (en) 2018-04-23 2019-10-31 Magic Leap, Inc. Avatar facial expression representation in multidimensional space
CN108764048B (en) * 2018-04-28 2021-03-16 中国科学院自动化研究所 Face key point detection method and device
CN108763216A (en) * 2018-06-01 2018-11-06 河南理工大学 A kind of text emotion analysis method based on Chinese data collection
USD896254S1 (en) * 2018-10-30 2020-09-15 Perfect Mobile Corp. Display screen with graphical user interface
WO2020222785A1 (en) * 2019-04-30 2020-11-05 Hewlett-Packard Development Company, L.P. Facial action unit detection
CN110287792B (en) * 2019-05-23 2021-05-04 华中师范大学 Real-time analysis method for learning state of students in classroom in natural teaching environment
CN111178263B (en) * 2019-12-30 2023-09-05 武汉美和易思数字科技有限公司 Real-time expression analysis method and device
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
KR102324231B1 (en) * 2020-01-28 2021-11-08 연세대학교 산학협력단 Apparatus for Detecting Emergency Situation while Driving through Facial Expression Classification
CN111601181B (en) * 2020-04-27 2022-04-29 北京首版科技有限公司 Method and device for generating video fingerprint data
US11568680B2 (en) 2020-04-27 2023-01-31 David K. Pederson Therapeutic smile detection systems
KR102200816B1 (en) * 2020-06-29 2021-01-12 주식회사 퓨처플랫폼 Method and system for provding mental health self-management using face image
KR102548970B1 (en) * 2020-07-07 2023-06-28 주식회사 유엑스팩토리 Method, system and non-transitory computer-readable recording medium for generating a data set on facial expressions
JP7396509B2 (en) 2020-09-25 2023-12-12 富士通株式会社 Machine learning program, machine learning method and estimation device
CN112668551B (en) * 2021-01-18 2023-09-22 上海对外经贸大学 Expression classification method based on genetic algorithm
CN112766172B (en) * 2021-01-21 2024-02-02 北京师范大学 Facial continuous expression recognition method based on time sequence attention mechanism
US11776210B2 (en) * 2021-01-22 2023-10-03 Sony Group Corporation 3D face modeling based on neural networks
CN112784800B (en) * 2021-02-02 2022-05-10 浙江大学 Face key point detection method based on neural network and shape constraint
CN113076813B (en) * 2021-03-12 2024-04-12 首都医科大学宣武医院 Training method and device for mask face feature recognition model
US20220300993A1 (en) * 2021-03-18 2022-09-22 Jio Platforms Limited System and method for conducting a survey by a survey bot
CN113076905B (en) * 2021-04-16 2022-12-16 华南理工大学 Emotion recognition method based on context interaction relation
CN113239219B (en) * 2021-05-12 2022-05-20 山东大学 Image retrieval method, system, medium and equipment based on multi-modal query
CN113298007B (en) * 2021-06-04 2024-05-03 西北工业大学 Small sample SAR image target recognition method
CN113255617B (en) * 2021-07-07 2021-09-21 腾讯科技(深圳)有限公司 Image recognition method and device, electronic equipment and computer-readable storage medium
CN114582004A (en) * 2022-04-28 2022-06-03 中国科学技术大学 Facial expression recognition method, system, equipment and storage medium
CN115546878B (en) * 2022-11-23 2023-02-03 华中科技大学 Face AU detection model establishing method based on attention mechanism and application thereof
CN116884067B (en) * 2023-07-12 2024-06-14 成都信息工程大学 Micro-expression recognition method based on improved implicit semantic data enhancement
CN117653042B (en) * 2024-01-31 2024-04-26 中船凌久高科(武汉)有限公司 Multi-mode-based cared person pain level judging method and testing device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100086215A1 (en) * 2008-08-26 2010-04-08 Marian Steward Bartlett Automated Facial Action Coding System
JP2010534376A (en) * 2007-07-23 2010-11-04 ザ プロクター アンド ギャンブル カンパニー Method and apparatus for realistic simulation of wrinkle aging and deaging
US20110263946A1 (en) * 2010-04-22 2011-10-27 Mit Media Lab Method and system for real-time and offline analysis, inference, tagging of and responding to person(s) experiences

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2522859B2 (en) * 1990-12-14 1996-08-07 日産自動車株式会社 Eye position detection device
US7054468B2 (en) * 2001-12-03 2006-05-30 Honda Motor Co., Ltd. Face recognition using kernel fisherfaces
US6879709B2 (en) * 2002-01-17 2005-04-12 International Business Machines Corporation System and method for automatically detecting neutral expressionless faces in digital images
US8488023B2 (en) 2009-05-20 2013-07-16 DigitalOptics Corporation Europe Limited Identifying facial expressions in acquired digital images
JP4240108B2 (en) * 2006-10-31 2009-03-18 ソニー株式会社 Image storage device, imaging device, image storage method, and program
US8005270B2 (en) * 2008-04-11 2011-08-23 Youdocs Llc System and method for determining an objective measure of human beauty
RU2431190C2 (en) * 2009-06-22 2011-10-10 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Facial prominence recognition method and device
US9760799B2 (en) * 2010-03-10 2017-09-12 Tandent Vision Science, Inc. Pipeline for generating an intrinsic image
KR101939772B1 (en) * 2012-08-14 2019-01-17 삼성전자주식회사 Method and apparatus for inferring facial emotion recognition, system for inferring facial emotion, and media for recording computer program
CN106778453B (en) * 2015-11-25 2020-05-12 腾讯科技(深圳)有限公司 Method and device for detecting glasses wearing in face image

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010534376A (en) * 2007-07-23 2010-11-04 ザ プロクター アンド ギャンブル カンパニー Method and apparatus for realistic simulation of wrinkle aging and deaging
US20100086215A1 (en) * 2008-08-26 2010-04-08 Marian Steward Bartlett Automated Facial Action Coding System
US20110263946A1 (en) * 2010-04-22 2011-10-27 Mit Media Lab Method and system for real-time and offline analysis, inference, tagging of and responding to person(s) experiences

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"ライブメッセージ伝達のための複合現実感を用いる3次元顔表情生成", 電子情報通信学会論文誌 (J81-D-2), JPN6021025901, 25 May 1998 (1998-05-25), ISSN: 0004545884 *
"顔画像の特徴点移動量を用いたニューラルネットによる顔表情強度・種類抽出の一手法", 電子情報通信学会技術研究報告 VOL.104 NO.447, JPN6021025898, 11 November 2004 (2004-11-11), ISSN: 0004545881 *
SHASHANK JAISWAL AND MICHEL VALSTAR: "Deep learning the dynamic appearance and shape of facial action units", 2016 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV), JPN6021025896, 7 March 2016 (2016-03-07), US, ISSN: 0004545882 *
SHICHUAN DU, YONG TAO, AND ALEIX M. MARTINEZ: "Compound facial expressions of emotion", PROC NATL ACAD SCI U S A., JPN7021002473, 31 March 2014 (2014-03-31), US, pages 1454 - 1462, ISSN: 0004545883 *
YING-LI TIAN, TAKEO KANADE AND JEFFREY F. COHN: "Evaluation of Gabor-wavelet-based facial action unit recognition in image sequences of increasing co", PROCEEDINGS OF THE FIFTH IEEE INTERNATIONAL CONFERENCE ON AUTOMATIC FACE AND GESTURE RECOGNITION (FG, JPN6021025900, 21 May 2002 (2002-05-21), US, ISSN: 0004545880 *
ZUHENG MING, AURELIE BUGEAU, JEAN-LUC ROUAS, TAKAAKI SHOCHI: "Facial Action Units Intensity Estimation by the Fusion of Features with Multi-kernel Support Vector", 2015 11TH IEEE INTERNATIONAL CONFERENCE AND WORKSHOPS ON AUTOMATIC FACE AND GESTURE RECOGNITION (FG), JPN6021025894, 4 May 2015 (2015-05-04), US, pages 1 - 6, XP033221579, ISSN: 0004545879, DOI: 10.1109/FG.2015.7284870 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532880A (en) * 2019-07-29 2019-12-03 深圳大学 Screening sample and expression recognition method, neural network, equipment and storage medium
CN110532880B (en) * 2019-07-29 2022-11-22 深圳大学 Sample screening and expression recognition method, neural network, device and storage medium
JP2021111114A (en) * 2020-01-09 2021-08-02 富士通株式会社 Learning data generating program and learning data generation method and estimation device
JP7452016B2 (en) 2020-01-09 2024-03-19 富士通株式会社 Learning data generation program and learning data generation method
JPWO2022003843A1 (en) * 2020-06-30 2022-01-06
WO2022003843A1 (en) * 2020-06-30 2022-01-06 富士通株式会社 Determination program, determination device, and determination method
JP7311046B2 (en) 2020-06-30 2023-07-19 富士通株式会社 Judgment program, judgment device, and judgment method

Also Published As

Publication number Publication date
JP7063823B2 (en) 2022-05-09
EP3465615A1 (en) 2019-04-10
EP3465615A4 (en) 2020-05-06
US20190294868A1 (en) 2019-09-26
WO2017210462A1 (en) 2017-12-07
US20220254191A1 (en) 2022-08-11
KR102433971B1 (en) 2022-08-19
US11314967B2 (en) 2022-04-26
KR20190025564A (en) 2019-03-11

Similar Documents

Publication Publication Date Title
JP7063823B2 (en) Systems and methods for facial expression recognition and annotation
Chellappa et al. Face recognition by computers and humans
Sirohey et al. Eye detection in a face image using linear and nonlinear filters
Yadav Emotion recognition model based on facial expressions
CN109389045B (en) Micro-expression identification method and device based on mixed space-time convolution model
US20140099029A1 (en) Face Age-Estimation and Methods, Systems, and Software Therefor
Agarwal et al. Facial expression recognition through adaptive learning of local motion descriptor
Hassaballah et al. Facial features detection and localization
Liu et al. LEICA: Laplacian eigenmaps for group ICA decomposition of fMRI data
Tong et al. Putative ratios of facial attractiveness in a deep neural network
Ma et al. Landmark‐Based Facial Feature Construction and Action Unit Intensity Prediction
Chalup et al. Simulating pareidolia of faces for architectural image analysis
Dutta et al. Human emotion recognition from face images
De Carolis et al. Soft biometrics for social adaptive robots
Poria et al. Evaluation of the intricacies of emotional facial expression of psychiatric patients using computational models
Khan Detection of emotions from video in non-controlled environment
Sarma et al. Facial expression based emotion detection-a review
Upadhyay et al. Face Recognition Using EfficientNet
Gaur et al. Comparative studies for the human facial expressions recognition techniques
Borza et al. Towards automatic skin tone classification in facial images
Monwar et al. Appearance-based pain recognition from video sequences
Chow et al. Efficient color face detection algorithm under different lighting conditions
Shah Automatic Analysis and Recognition of Facial Expressions Invariant to Illumination
Ozyer et al. Creating a Learning Profile by Using Face and Emotion Recognition
Yurtdaş et al. Creating a learning profile by using face and emotion recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220421

R150 Certificate of patent or registration of utility model

Ref document number: 7063823

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150