JP7063823B2 - 表情の認識および注釈付けのためのシステムおよび方法 - Google Patents

表情の認識および注釈付けのためのシステムおよび方法 Download PDF

Info

Publication number
JP7063823B2
JP7063823B2 JP2018562947A JP2018562947A JP7063823B2 JP 7063823 B2 JP7063823 B2 JP 7063823B2 JP 2018562947 A JP2018562947 A JP 2018562947A JP 2018562947 A JP2018562947 A JP 2018562947A JP 7063823 B2 JP7063823 B2 JP 7063823B2
Authority
JP
Japan
Prior art keywords
image
images
face
facial
color
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018562947A
Other languages
English (en)
Other versions
JP2019517693A (ja
Inventor
マルティネス,アレイクス
Original Assignee
オハイオ・ステイト・イノベーション・ファウンデーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オハイオ・ステイト・イノベーション・ファウンデーション filed Critical オハイオ・ステイト・イノベーション・ファウンデーション
Publication of JP2019517693A publication Critical patent/JP2019517693A/ja
Application granted granted Critical
Publication of JP7063823B2 publication Critical patent/JP7063823B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Description

国家ライセンシング権
本発明は、国立眼科研究所、および国立聴覚・伝達障害研究所によって授与された助成金番号R01-EY-020834およびRO1-DC-014498の下で政府の支援を受けてなされた。どちらの機関も国立衛生研究所の一部である。 政府は本発明において一定の権利を有する。
本出願は、2016年6月1日に出願された「表情の認識および注釈付けのためのシステムおよび方法」と題する米国仮特許出願番号62 / 343,994の利益を主張する。上記出願の全体は参照により本明細書に組み込まれる。
顔の知覚と感情の理論の基礎研究は、感情表情の画像およびビデオシーケンスの大きな注釈付きデータベースに影響を与えることができる。最も有用で一般的に必要とされる注釈のいくつかは、アクションユニット(AU)、AU強度、および感情カテゴリである。中小規模のデータベースには、数ヶ月かけてエキスパートのコーダーが手動で注釈を付けることができるが、大規模なデータベースにはできない。たとえば、エキスパートコーダによって各顔の画像に非常に高速に注釈を付けることができたとしても(たとえば20秒/画像)、100万枚の画像をコーディングするのに5.556時間かかることになり、それは、694日(8時間)に換算でき、または休まずに行う仕事2.66年に換算される。
既存のアルゴリズムでは、すべてのアプリケーションのすべてのAUを認識せず、AU強度を指定せず、大規模なデータベースを扱うには空間的および/または時間的に過度に計算が必要であるか、または特定のデータベース内でのみテストされる(たとえば、複数のデータベースが使用される場合でも、トレーニングとテストは、通常各データベース内で個別に行われる)。
本開示は、アクションユニット(AU)、それらの強度、ならびにデータベースにわたる多数(23)の基本および複合感情カテゴリを認識するためのコンピュータビジョンおよび機械学習プロセスを提供する。重要なことに、例示されたプロセスは、データベースにわたるAUおよびそれらの強度の信頼できる認識を提供する最初のものであり、リアルタイムで実行される(30画像/秒)。これらの機能は、「自然のままの(in the wild)」感情画像の百万の表情の大規模データベースへの自動注釈付けを容易にする。これは他のシステムでは達成できない功績である。
さらに、画像には421の感情キーワードで意味的に注釈が付けられる。
顔の画像におけるAUとAU強度の認識のためのコンピュータビジョンプロセスが提示される。とりわけ、本プロセスは、データベースにわたるAUおよびAU強度を確実に認識できる。本発明の分類器をトレーニングするために使用されていない独立した画像データベース上のAUおよびAU強度を良好に認識するために、いくつかのデータベースを使用して本プロセスをトレーニングできることも本明細書で実証される。さらに、本プロセスは、感情の表情の画像の大きなデータベースを自動的に構築して注釈を付けるために使用される。画像は、AU、AU強度および感情カテゴリで注釈が付けられる。結果は、AU、AU強度、感情カテゴリおよび/または感情的キーワードによって容易に照会されることができる100万枚の画像のデータベースである。
さらに、本プロセスは、色特徴からAUを識別するための包括的なコンピュータビジョンプロセスを容易にする。この目的のために、色特徴をAUの認識にうまく利用することができ、前述のシステムで得られたものより優れた結果をもたらす。つまり、AUが非アクティブからアクティブ、またはその逆に変わるときの色の変化を定義する関数は、AU内では一貫しており、それらの間の差異は異なる。さらに、本プロセスは、顔の色の変化をどのように利用して多種多様な画像条件下で撮影されたビデオ中のAUの存在を識別することができるかを明らかにする。
さらに、顔の色は顔の表情の感情を決定するために使用される。上述したように、人間の感情の表情は、一般的にアクションユニット(AU)と呼ばれる、自分の顔の筋肉を収縮させることによって作り出される。さらに、顔の表面も血管の大きなネットワークで神経支配される。例えば、怒りは顔への血流を増加させ、その結果赤い顔になるが、恐怖は顔からの血液の排出に関連し、青白い顔をもたらす。これらの目に見える顔の色は、顔の筋肉の活性化がない場合でも、顔の表情の画像における感情の解釈を可能にする。この色信号はAUが提供するものとは独立しているため、アルゴリズムはAUからの感情と色を独立して検出できる。
さらに、ディープニューラルネットワーク(DNN)のためのグローバルローカル損失関数が提示され、それは類似の対象ランドマークの関心点ならびにAUおよび感情カテゴリのきめ細かい検出に効率的に使用することができる。導出された局所的および全体的な損失により、パッチベースのアプローチを使用する必要なしに正確な局所的結果が得られ、迅速で望ましい収束が得られる。本グローバルローカル損失関数は、AUおよび感情カテゴリの認識に使用されてもよい。
いくつかの実施形態では、顔認識および注釈プロセスは臨床用途で使用される。
いくつかの実施形態では、顔認識および注釈プロセスは精神病理学的評価の検出に使用される。
いくつかの実施形態では、顔認識および注釈付けプロセスは、外傷後ストレス障害のスクリーニング、たとえば軍事施設または緊急治療室でのスクリーニングに使用される。
いくつかの実施形態では、顔認識および注釈プロセスは、顔の表情を認識するために学習障害(例えば、自閉症スペクトラム障害)を持つ子供を教えるために使用される。
いくつかの実施形態では、顔認識および注釈プロセスは、広告のために、たとえば広告を見ている人々の分析のために、映画を見る人々の分析のために、スポーツアリーナでの人々の反応の分析のために使用される。
いくつかの実施形態では、顔認識および注釈プロセスは監視のために使用される。
いくつかの実施形態では、感情、AUおよび他の注釈の認識は、ウェブ検索を改善または識別するために使用され、例えば、システムは、驚きを表現する顔の画像または眉毛を有する特定の人物の画像を識別するために使用される。
いくつかの実施形態では、顔認識および注釈付けプロセスは、小売店で顧客の行動を監視、評価または決定するために使用される。
いくつかの実施形態では、顔認識および注釈プロセスは、施設または個人の電子写真を整理するために、例えば感情またはAUによって人の個人的写真を整理するために使用される。
いくつかの実施形態では、顔認識および注釈プロセスは、病院または臨床現場における患者の感情、痛みおよび精神状態を監視するために、例えば患者の不快感のレベルを決定するために使用される。
いくつかの実施形態では、顔認識および注釈プロセスは、運転者の行動ならびに道路および他の車両に対する注意を監視するために使用される。
いくつかの実施形態では、顔認識および注釈プロセスは、絵文字、ステッカーまたは他のテキストメッセージ感情的構成要素を自動的に選択するために使用される。
いくつかの実施形態では、顔認識および注釈プロセスは、オンライン調査を改善するために、例えば、オンライン調査参加者の感情的反応を監視するために使用される。
いくつかの実施形態では、顔認識および注釈プロセスは、オンライン教育および個別指導において使用される。
いくつかの実施形態では、顔認識および注釈プロセスは、求職者の適合が特定の会社であると判断するために使用され、例えば、会社は注意深い参加者を探しているが、別の会社は楽しい人格に興味がある。別の例では、顔認識および注釈プロセスを使用して、面接中またはオンラインビデオ履歴書中の個人の能力を判断する。
いくつかの実施形態では、顔認識および注釈プロセスはゲームで使用される。
いくつかの実施形態では、顔認識および注釈プロセスは、精神科医院、診療所または病院で患者の反応を評価するために使用される。
いくつかの実施形態では、顔認識および注釈プロセスは、乳児および子供を監視するために使用される。
一態様では、コンピュータ実施方法が開示される(例えばAUおよびAU強度を決定するために画像を分析するために、例えばリアルタイムで)。この方法は、構成または他の形状特徴およびシェーディング特徴の1つまたは複数のカーネルベクトル空間(たとえばカーネルベクトル空間)をメモリ(たとえば永続メモリ)内に維持することを含む。各カーネル空間は、1つまたはいくつかのアクションユニット(AUs)および/またはAU強度値および/または感情カテゴリに関連付けられる。分析されるべき画像(例えば、外部から、または1つもしくは複数のデータベースからの表情の画像)を受け取る。受信する画像ごとに、i)画像内の顔の形態特徴、形状特徴、およびシェーディング特徴(たとえば、顔空間は、形態特徴の形状特徴ベクトルと、顔のシェーディング変化に関連するシェーディング特徴ベクトルを含む)の顔空間データ(たとえば、顔ベクトル空間)を決定し、ii)AU、AU強度および感情カテゴリの存在を判定するために、形態特徴の決定された顔空間データを複数のカーネル空間と比較することによって画像に対する1つまたは複数のAU値を決定する。
いくつかの実施形態では、方法は、複数の画像のそれぞれについてのAU値およびAU強度値を決定するために、複数の画像を含むビデオストリームをリアルタイムで処理することを含む。
いくつかの実施形態では、顔空間データは、形態特徴の形状特徴ベクトルと、顔のシェーディング変化に関連するシェーディング特徴ベクトルとを含む。
いくつかの実施形態では、形態、形状およびシェーディング特徴の決定された顔空間は、i)画像から形成されたドロネー三角形の正規化されたランドマーク間の距離値(例えば、ユークリッド距離)およびii)正規化された顔のランドマークに対応するドロネー三角形それぞれによって定義される距離、面積および角度を含む。
いくつかの実施形態では、顔のシェーディング変化に関連するシェーディング特徴ベクトルは、顔から決定された正規化ランドマーク点にガボールフィルタを適用することによって(例えば、皮膚の局所的変形によるシェーディング変化をモデル化するために)決定される。
いくつかの実施形態では、形態特徴の形状特徴ベクトルは、画像上に投影されたランドマーク点、および/またはAU、および/または感情のカテゴリの局所的および全体的適合の両方を逆伝播するように構成されたグローバルローカル(GL)損失関数を含むディープニューラルネットワーク(例えば畳み込みニューラルネットワーク、DNN)を用いて導出されるランドマーク点を含む。
いくつかの実施形態では、方法は、各受信画像について、i)顔の色特徴に関連する顔空間を決定すること、およびii)この決定された色顔空間を複数の色またはカーネルベクトル空間顔と比較することによって画像の1つまたは複数のAU値を決定すること、iii)顔が、特定の感情を表現しているように見えるか、または1つまたは複数のAUをアクティブで有するかまたは特定の強度で有するように画像の色を修正すること、を含む。
いくつかの実施形態では、AU値およびAU強度値は、まとめて、感情および感情強度を定義する。
いくつかの実施形態では、画像は写真を含む。
いくつかの実施形態では、画像はビデオシーケンスのフレームを含む。
いくつかの実施形態では、画像はビデオシーケンス全体を含む。
いくつかの実施形態では、この方法は、自然のまま(in the wild)(例えばインターネット)の表情の画像を受信することを含む。受信画像を処理して、受信画像内の顔のAU値およびAU強度値ならびに感情カテゴリを決定する。
いくつかの実施形態では、方法は、第1のデータベースから第1の複数の画像を受け取り、第2のデータベースから第2の複数の画像を受け取り、受信された第1の複数の画像および第2の複数の画像を処理して、それらの各画像について、それぞれの各画像における顔のAU値およびAU強度値を決定することを含む。第1の複数の画像は第1の取得形態(captured configuration)を有し、第2の複数の画像は第2の取得形態(captured configuration)を有する。第1の取得形態は、第2の取得形態とは異なる(例えば、取得形態は、照明方式および大きさ、画像の背景、焦点面、キャプチャ解像度、記憶圧縮レベル、顔に対するキャプチャのパン、チルト、およびヨー(yaw)等を含む。)
別の態様では、コンピュータ実施方法が開示される(例えば、画像内の色変化を使用してAU、AU強度および感情カテゴリを決定するために画像を分析するための)。この方法は、AUの非アクティブからアクティブへの遷移を定義する変化、この変化は色度、色相および彩度、ならびに輝度からなる群から選択され、を識別することと、識別された色度変化へのガボール変換の適用(例えば、顔の表情の間のこの変化の最小値に対する不変性を得るため)と、を含む。
別の態様では、AUおよびAU強度を決定するために画像を分析するためのコンピュータ実施方法が開示されている。この方法は、AUおよび/またはAU強度に関連する複数の色特徴データをメモリ(例えば、永続的メモリ)内に維持し、分析する画像を受け取り、受信する画像ごとに、i)画像中の顔の形態色特徴を決定し、ii)決定された形態色特徴を複数のトレーニングされた色特徴データと比較して、決定された形態色特徴のうちの1つまたは複数のトレーニングされた色特徴データにおける存在を判定することによって、画像に対する1つまたは複数のAU値を決定することを含む。
別の態様では、コンピュータ実施方法が開示される(例えば、それぞれAU値およびAU強度値に関連付けられた複数の顔空間データのリポジトリを生成するため。リポジトリは、AUおよびAU強度についての画像またはビデオフレームの顔データの分類に使用される。)。方法は、複数のAU値およびAU強度値についてのカーネル空間データを決定するために画像またはビデオフレーム内の複数の顔を分析することを含む。各カーネル空間データは、単一のAU値および単一のAU強度値に関連付けられ、各カーネル空間は他のカーネル面空間と線形的または非線形的に分離可能である。
いくつかの実施形態では、複数の顔を分析してカーネーションを決定するステップ、所定数のAU強度値に対して複数のAUトレーニングセットを生成し、複数のカーネル空間を決定するためのカーネルサブクラス判別分析を実行することを含み、複数のカーネル空間のそれぞれは、所与のAU値、AU強度値、感情カテゴリ、およびその感情の強度に対応する。
いくつかの実施形態では、カーネル空間は、画像またはビデオシーケンスの機能的色空間特徴データを含む。
いくつかの実施形態では、機能的色空間は、複数の画像のうちの所与の画像からそれぞれ導出されたカラー画像に対して判別機能学習分析を実行することによって(例えば、最大マージン機能分類器を使用して)決定される。
他の態様では、非一時的コンピュータ可読媒体が開示される。コンピュータ可読媒体には命令が格納されており、命令は、プロセッサによって実行されると、プロセッサに上述の方法のうちのいずれかを実行させる。
他の態様では、システムが開示される。このシステムは、プロセッサと、その上に格納された命令を有するコンピュータ可読媒体とを備え、命令は、プロセッサによって実行されると、プロセッサに上述の方法のうちのいずれかを実行させる。
図1は、自然のままの顔画像中の感情カテゴリおよびすべてを自動的に注釈付けするためのコンピュータビジョンプロセスの出力を示す図である。
図2Aおよび図2Bを含む図2は、検出された顔のランドマークおよび画像のドロネー三角測量の図である。
図3は、アクティブAUを有するサンプル画像がサブクラスに分割される仮定モデルを示す図である。
図4は、AUおよび感情カテゴリを決定するためにガボール変換を使用するシステムの例示的な構成要素図を示す。
図5は、ビデオおよび/または静止画像中の色特徴を用いてAUを検出するための色分散システムを示す。
図6は、ビデオおよび/または静止画像中の色特徴を用いてAUを検出するための色分散システムを示す。
図7は、ビデオおよび/または静止画像においてディープニューラルネットワークを使用してAUを検出するためのネットワークシステムを示す。
図8は、例示的なコンピュータシステムを示す。
自然のままの百万の表情の自動注釈付けのためのリアルタイムアルゴリズム
図1は、AU、AU強度、感情カテゴリ、または感情/影響キーワードによって容易に問い合わせ(例えばソート、整理など)することができる表情の結果データベースを示す。このデータベースは、新しいコンピュータビジョンアルゴリズムの設計、ならびに社会的および認知的心理学、社会的および認知的神経科学、神経マーケティング、精神医学などにおける基礎的、変遷的および臨床的研究を容易にする。
データベースは、自然のままの顔画像(すなわち、既存のデータベースではまだキュレーションされていない画像)内のカテゴリおよびAUについての感情に自動的に注釈を付けるコンピュータビジョンシステムの出力から編集される。画像の自動車は、WordNetまたは他の辞書の中の顔と関連する感情キーワードを持つ画像だけを選択することによって、さまざまなWeb検索エンジンを使用してダウンロードされる。図1は、データベースに対する3つのクエリ例を示す。一番上の例は、幸せおよび恐怖と識別されたすべての画像を取得するときに取得された2つのクエリの結果である。また、幸せまたは恐怖のいずれかであると注釈された自然のままの画像のデータベース内の画像の数も示される。3番目のクエリは、AU4または6が存在するすべての画像と、感情的なキーワードが「不安」および「不承認」の画像をすべて検索した結果を示す。
AUと強度の認識
いくつかの実施形態では、AUを認識するためのシステムは、毎秒30画像を超えて処理することができ、データベースにわたって非常に正確であると判定される。このシステムはデータベース間で高い認識精度を達成し、リアルタイムで実行できる。システムは、23の基本的および/または複合的な感情カテゴリのうちの1つの中に表情を分類することを容易にすることができる。感情の分類は、検出されたAU活性化パターンによって与えられる。いくつかの実施形態では、画像は23のカテゴリのうちの1つに属していなくてもよい。この場合、画像には感情カテゴリなしでAUの注釈が付けられる。画像にアクティブなAUがない場合、その画像は中立的な表現(neutral expression)として分類される。顔における感情および感情強度を決定することに加えて、例示されたプロセスは、画像中の「顔ではない」を識別するために使用され得る。
AUと強度認識のための顔空間
システムは、顔画像内のAUを表すために使用される特徴空間を定義することによって開始する。人間による顔の知覚、特に顔の表情は、形状分析と陰影分析との組み合わせを含むことが知られている。システムは、感情の表情の認識を容易にする形状特徴を定義することができる。形状特徴は、顔のランドマーク(すなわち、顔画像中のランドマーク点間の距離および角度)の二次統計量であり得る。特徴は顔の形態を定義するので、特徴は代替的に形態特徴と呼ぶことができる。本出願ではこれらの用語は互換的に使用され得ることが理解される。
図2(a)は、提案されたアルゴリズムによって使用される正規化された顔のランドマーク
Figure 0007063823000001
の例を示す。いくつか(例えば、15個)のランドマークが解剖学的ランドマーク(例えば、目の角、口、眉毛、鼻の先端、およびあご)に対応することができる。他のランドマークは、まぶた、口、眉、唇、および顎の線の端、ならびに鼻の先端から2つの目の中心によって与えられる水平線までの鼻の正中線を定義する疑似ランドマークであり得る。各顔の構成要素(例えば、眉毛)の輪郭を画定する擬似ランドマークの数は一定であり、これは、異なる顔または人に対してランドマーク位置の同等性を提供する。
図2(b)は、システムによって実行されたドロネー三角形分割を示す。この例では、この構成の三角形の数は107である。画像にはベクトルの角度θa=(θa1,…,θaqa)T (qa=3)も示され、角度θaは、正規化されたランドマークから出る三角形の角度
Figure 0007063823000002
を定義する。
Figure 0007063823000003
は、AUiのjth のサンプル画像(j = 1, …, ni )内のランドマーク点のベクトルにすることができる。ここで、

Figure 0007063823000004
はkthのランドマークの2D画像座標である。ni はAUiが存在するサンプル画像の数である。いくつかの実施形態において、顔のランドマークは、コンピュータビジョンアルゴリズムを用いて取得され得る。例えば、コンピュータビジョンアルゴリズムは、ランドマークの数が66個の場合
Figure 0007063823000005
において、図2aに示すように、任意の数のランドマーク(例えば、テスト画像中の66個の検出されたランドマーク)を自動的に検出するために使用することができる)。
トレーニング画像は、τピクセルの同じ眼間距離を有するように正規化することができる。具体的には、

Figure 0007063823000006
とし、

Figure 0007063823000007
とし、l、rは、左右の目の中心の画像座標であり、
Figure 0007063823000008
は、ベクトル

Figure 0007063823000009
およびτ= 300の2ノルムを定義する。各目の中心の位置は、目の2つの角を画定するランドマーク間の幾何学的中間点として容易に計算することができる。
構成特徴の形状特徴ベクトルは、次のように定義することができる。

Figure 0007063823000010
を正規化されたランドマークa=1,…,p-1,b=a+1,p間のユークリッド距離とし、θa = (θa1, … , θaqa)Tは、
Figure 0007063823000011
および
Figure 0007063823000012
を起点とする数qaを伴う正規化されたランドマーク
Figure 0007063823000013
から出る各ドロネー三角形によって定義される角度である(境界がない境界点についても同等性が成り立つ)。この図の各三角形は3つの角度で定義できるため、この例では107個の三角形があるので、形状特徴ベクトル内の角度の総数は321である。形状特徴ベクトルは
Figure 0007063823000014
であり、ドロネー三角形分割のpはランドマークの数、tは三角形の数である。この例では、p =66、t =107で、ベクトル

Figure 0007063823000015
である。
システムは、正規化されたランドマーク点

Figure 0007063823000016
のそれぞれを中心とするガボールフィルタを使用して、皮膚の局所的変形によるシェーディング変化をモデル化することができる。顔筋群が顔の皮膚を局所的に変形させると(例えば皮膚の双方向反射率分布関数は、皮膚のしわの関数として定義される。これは、光が表皮と真皮の間を透過して移動する方法を変更し、ヘモグロビンレベルも変化させる可能性があるためである。)、皮膚の表面上の点から見て、皮膚の反射率特性が変化し、光源が短くなる。
ヒトの初期視覚皮質の細胞は、ガボールフィルタを使用してシステムによってモデル化することができる。顔の知覚は、ガボール風のモデリングを使用して、感情を表現するときに見られるような濃淡の変化に対する不変性を得ることができる。次のように定義できる。

Figure 0007063823000017

Figure 0007063823000018
は波長(すなわち、サイクル数/ピクセル)、αは方向(すなわち、正弦関数の法線ベクトルの角度)、φは位相(すなわち、正弦関数のオフセット)、γは(空間的)アスペクト比、σはフィルタのスケール(ガウス窓の標準偏差)である。
いくつかの実施形態では、ガボールフィルタバンクは、o方位、s空間スケール、およびr位相と共に使用することができる。ガボールフィルタの例では、次のように設定されている。
Figure 0007063823000019
γ=1。値は感情の表情を表すのに適している。o、s、およびrの値は、トレーニングセットの交差検定を使用して学習される。
Iijは、AUiが存在し、jth番目のサンプル画像でありkth番目のランドマーク点でのガボール応答の特徴ベクトルとして

Figure 0007063823000020
と定義され、*は、フィルタg(.)と画像Iijとの畳み込みを定義し、λは、上で定義された集合λのkth番目の要素である。同じことがαkとφkにも当てはまるが、これは一般に1なのでγには当てはまらない。
AUiがアクティブであるjth番目のサンプル画像に対するすべてのランドマーク点上のガボール応答の特徴ベクトルは、次のように定義される。

Figure 0007063823000021
特徴ベクトルは、顔のランドマークの周りの局所パッチのシェーディング情報を定義し、それらの次元数はgij ∈R5×p×o×s×rである。
顔空間におけるAUiの形状およびシェーディング変化を定義する最終特徴ベクトルは、次のように定義される。

Figure 0007063823000022
AUと強度認識のための顔空間の分類
システムは、AUiのトレーニングセットを以下のように定義することができ、
Figure 0007063823000023
j = 1, ... , niに対してyij = 1であり、AUiが画像に存在することを示し、j = ni + 1, ..., ni + miに対してyij = 0であり、AUiが画像に存在しないことを示し、miはAUiがアクティブでないサンプル画像の数である。
上記のトレーニングセットは以下のように順序付けられる。セット
Figure 0007063823000024
は、強度a(すなわち、AUの活性化の最低強度)で活性なAUiを有するniaサンプルを含むみ、セット

Figure 0007063823000025

は、強度b(2番目に小さい強度)でアクティブなAUiを持つnibサンプルである。
セット

Figure 0007063823000026

は、強度c(次の強度)でアクティブなAUiを持つnicサンプルである。
セット

Figure 0007063823000027
は、強度d(これが最高強度である)でアクティブなAUiを持つnidサンプルであり、nia+nib+nic+nid=niである。
AUは5つの強度で活性化することができ、それはa、b、c、d、またはeと標識することができる。いくつかの実施形態では、強度eを伴う稀な例があり、したがって、いくつかの実施形態では、他の4つの強度で十分である。そうでなければ、Di(e)は5番目の強度を定義する。
上記で定義された4つのトレーニングセットはDiのサブセットであり、AUiがアクティブである画像のセットの異なるサブクラスとして表すことができ、サブクラスベースの分類子を使用でき、システムは本プロセスを導出するためにカーネルサブクラス判別分析(KSDA)を利用する。KSDAは、カーネル行列とサブクラスの数を最適化することによって複雑な非線形分類境界を明らかにできるため使用できる。KSDAはクラス判別基準を最適化してクラスを最適に分離することができる。この基準は形式的にはQi(φi、hi1、hi2)= Qi1(φi、hi1、hi2)Qi2(φi、hi1、hi2)で与えられ、Qi1(φi、hi1、hi2)は等分散性の最大化を担う。カーネルマップの目的は、データが線形に分離可能であるカーネル空間Fを見つけることであり、いくつかの実施形態では、サブクラスは、クラス分布が同じ分散を共有する場合であるFにおいて線形に分離可能であり得る。Qi2i,hi1,hi2)は、すべてのサブクラス平均間の距離を最大化する(すなわち、これは最小ベイズ誤差を有するベイズ分類器を見つけるために使用される)。
この想起を見るために、ベイズ分類境界は、2つの正規分布の確率が同一である特徴空間の位置において与えられることを思い出されたい(例えばp(z|N(μ11))= p(z|N(μ22))、N(μii)は、平均μiと共分散行列Σiをもつ正規分布である。2つの正規分布の平均を分離すると、この等式が成り立つ値が減少する、例えば、等式p(x|N(μ11))=p(x|N(μ22))は以前よりも低い確率値で与えられるので、ベイズ誤差は減少する。
したがって、上記のKSDA基準の最初の要素は、

Figure 0007063823000028

で与えられ、
Figure 0007063823000029
は、マッピング関数によって定義されるカーネル空間内のサブクラス共分散行列(すなわち、サブクラスl内のサンプルの共分散行列)であり、ji(.):Re →F,hi1は、画像中に存在するAUiを表すサブクラスの数であり、hi2はAUiを表すサブクラスの数で、画像には含まれておらず、e=3t+p(p-1)/2+5×p×o×s×rは、フェイススペースに関するセクションで定義されている顔スペース内の特徴ベクトルの次元数である。
KSDA基準の2番目の要素は、

Figure 0007063823000030


であり、pil= nl/niは、クラスiのサブクラスlの前のものであり(すなわちAUiを定義するクラス)、nlは、サブクラスlのサンプル数であり、
Figure 0007063823000031
は、マッピング関数ji(.)で定義されるカーネル空間のクラスiのサブクラスlのサンプル平均である。
例えば、システムは、放射基底関数(RBF)カーネルを使用してマッピング関数φi(.)を定義でき、
Figure 0007063823000032

νiはRBFの分散であり、j1,j2=1,...,ni+miである。それ故、本発明のKSDAに基づく分類器は、以下の解によって与えられる。
Figure 0007063823000033
図3は、AUiのモデルをもたらすための上記方程式の解を示す。上記の仮説モデルでは、AU4がアクティブなサンプル画像は最初に4つのサブクラスに分割され、各サブクラスは同じ強度のAU4のサンプルを含む(a-e)。次に、導き出されたKSDAベースのアプローチは、各サブクラスを追加のサブクラスにさらに細分するプロセスを使用して、上記の正規分布が線形に分離されできるだけ互いに離れているカーネル空間にデータを本質的にマッピングするカーネルマッピングを見つける。
これを行うために、システムはトレーニングセットDを5つのサブクラスに分割する。第1のサブクラス(すなわち、l=1)は、強度aでアクティブなAUiを有する画像に対応するサンプル特徴ベクトルを含み、つまり、Di(a) は、その全体が参照により本明細書に組み込まれているS. Du, Y. TaoおよびA. M. Martinezの「複合的な表情の感情表現」国立科学アカデミー論文集111(15):E1454-E1462, 2014で定義されている。2番目のサブクラス(l=2)はサンプルサブセットを含む。同様に、3番目と4番目のサブクラス(l=2、3)は、それぞれサンプルサブセットを含む。最後に、5つのサブクラス(l=5)は、AUiがアクティブではない画像、例えば

Figure 0007063823000034

に対応するサンプル特徴ベクトルを含む。
したがって、最初は、アクティブ/非アクティブのAUiを定義するためのサブクラスの数は5である(すなわち、hi1=4およびhi2=1)。いくつかの実施形態では、この数はもっと大きくてもよい。たとえば、強度eの画像が考慮されるとする。
式14を最適化すると、追加のサブクラスが得られる。導出された手法は、サブクラスhi1およびhi2の数と同様にカーネルマップuのパラメータを最適化する。この実施形態では、最初の(5つの)サブクラスをさらにサブクラスに細分することができる。例えば、カーネルパラメータνiが、D(a)内の非線形に分離可能なサンプルを他のサブセットから線形に分離可能な空間にマッピングできない場合、Di(a)はさらに2つのサブセットDi(a)={Di(a1),Di(a2)}に分割される。この分割は単に最近隣クラスタリングによって与えられる。形式的には、サンプルzi j+1をzijの最近傍とすると、Di(a)の除算は

Figure 0007063823000035

によって容易に与えられる。
同じことが、Di(b)、Di(c)、Di(d)、Di(e)、Di(非アクティブ)にも当てはまる。したがって、式14を最適化することは、AUiの活性化または非活性化の各強度のサンプルをモデル化するための複数のサブクラスをもたらし得、例えば、サブクラス1(l=1)がDi(a)のサンプルを定義し、システムがこれを2つのサブクラス(および現在hi1=4)に分割すると、新しい2つの第1のサブクラス(the first new two subclasses)は、Di(a1)のサンプルとDi(a2)内の第2のサブクラス(l=2)含む第1のサブクラスを使用して、Di(a)のサンプルを定義するために使用される(そしてhi1は5になる)。後続のサブクラスは、上で定義されたように、サンプルをDi(b), Di(c), Di(d), Di(e) ,Di(非アクティブ)に定義する。したがって、Dで与えられるサンプルの順序は、サブクラス1からAUiがアクティブである画像に関連するサンプル特徴ベクトルを定義するhi1、およびサブクラスhi1+1からAUiがアクティブでない画像を表すhi1+hi2で変わることはない。この最終結果は、図3の仮説の例を使用して説明されている。
一例では、一組の画像Itest内のすべての試験画像を分類することができる。第1に、Itestは、上述のようにフェイススペースに関して計算されるフェイススペースベクトルztest内の特徴表現を含む。次に、ベクトルはカーネル空間に投影され、zj test.と呼ばれる。この画像がアクティブなAUiを有するかどうかを判断するために、システムは最も近い平均を計算し、

Figure 0007063823000036
もし j hi1であれば、ItestはAUiがアクティブであるとラベル付けされ、そうでなければされない。
分類結果は強度認識を提供する。サブクラスlで表されるサンプルがDi(a)のサンプルのサブセットである場合、識別された強度はaである。同様に、サブクラスlのサンプルがDi(b), Di(c), Di(d) またはDi(e)のサンプルのサブセットである場合、テスト画像ItestのAUiの強度は、それぞれb、c、d、eである。もちろん、j *> hi1の場合、画像にはAUiが存在せず、強度もない(または、強度がゼロであると言える)。
図4は、図1~図3に関して上述した機能を実行するためのシステム400の例示的な構成図を示す。システム400は、一組の画像を有する画像データベース構成要素410を含む。システム400は、画像データベース内の顔以外の画像を除去するための検出器420を含む。顔のみを含む画像の画像セットのサブセットを作成する。システム400は、トレーニングデータベース430を含む。トレーニングデータベース430は、画像を感情カテゴリに分類するために分類器コンポーネント440によって利用される。システム400は、少なくとも1つのAUおよび感情カテゴリで画像をタグ付けするタグ付けコンポーネント450を含む。システム400はタグ付き画像を処理済み画像データベース460に格納することができる。
顔アクションユニット認識のための色特徴の判別関数学習
別の態様では、システムは、顔の色特徴を使用してAUを識別するための包括的なコンピュータビジョンプロセスを容易にする。色特徴は、AUおよびAu強度を認識するために使用され得る。AUが非アクティブからアクティブ、またはその逆に変わるときの色の変化を定義する関数は、AU内およびそれらの違いの間で一貫している。さらに、システムは、顔の色の変化をどのように利用して、多種多様な画像条件の下で、および画像データベースの外部で撮影されたビデオ中のAUの存在を識別することができるかを明らかにする。
システムは、ith番目のサンプルビデオシーケンスVi= {Ii1, ... , Iiri}を受信する。riはフレーム数、Iik∈R3qwはq×w RGBピクセルのベクトル化されたkth番目のカラー画像である。 Viはサンプル関数fi(t)として記述である。
本システムは、本明細書に記載のアルゴリズムを使用して、顔上の一組の物理的顔ランドマークを識別し、局所的顔領域を取得する。システムはランドマーク点をベクトル形式でsik=(sik1,…,sik66)として定義し、iはサンプルビデオインデックス、kはフレーム番号、sikl∈R2はlth番目、l=1,..., 66、のランドマークの2D画像座標である。説明の目的で、特定の例示的な値(例えば、66個のランドマーク、107個の画像パッチ)を使用することができる。
システムは、上述のようにドロネー三角形分割で得られた107個の画像パッチdijkの集合として集合Dij= {di1k,...,di107k}を定義し、dijk ∈ R3q ijはqij個のRGBピクセルのjth番目の三角局所領域を表すベクトルで、上記のように、iはサンプルビデオ番号(i=1,...,n)を指定し、kはフレーム(k=1,...,ri)を指定する。
いくつかの実施形態では、これらの局所(三角形)領域のサイズ(すなわち、ピクセル数、qij)は、個人間で異なるだけでなく、同一人物のビデオシーケンス内でも変動する。これは、顔のランドマーク点の移動、顔の表情を生み出すために必要なプロセスの結果である。システムは、これらの各局所領域内のピクセル数に対して不変の特徴空間を定義する。システムは、以下のように各局所領域内のピクセルの色に関する統計を計算する。
システムは、各局所領域の色の一次および二次(中心)モーメントを計算し、
Figure 0007063823000037
dijk=(dijk1,…,dijkP)Tおよびμijkijk∈R3とする。いくつかの実施形態では、追加のモーメントが計算される。
各局所パッチの色特徴ベクトルは、次のように定義することができ、

Figure 0007063823000038
iはサンプルビデオインデックス(Vi)、jはローカルパッチ番号、riはこのビデオシーケンスのフレーム数である。この特徴表現は、パッチjにおける色の寄与を定義する。いくつかの実施形態では、特徴表現の豊かさを増すために他の証明済みの特徴を含めることができる。たとえば、フィルタへの応答や形状特徴である。
色の不変関数表現
システムは、時間に対して不変の関数として上記の計算された色情報を定義することができる。すなわち、機能的表現は、ビデオシーケンス内のどこでAUがアクティブになるかにかかわらず一貫している。
色関数f(.)はビデオシーケンスVの色変化を定義し、テンプレート関数fT(.)は、AUの起動(つまり、AUが非アクティブからアクティブに)に関連する色変化をモデル化する。システムは、fT(.)がf(.)にあるかを判断する。
いくつかの実施形態では、システムは、テンプレート関数fT(.)をfT(.)の時間領域内の各可能な位置に配置することによってこれを決定する。fT(.)のすべての可能な位置が確認されるまでウィンドウを左右にスライドさせることを含むため、これは通常スライディングウィンドウアプローチと呼ばれる。
他の実施形態では、システムはガボール変換を用いた方法を導出する。ガボール変換は、スライディングウィンドウ検索を使用せずにf(.)内のfT(.)の一致を見つけるためのアルゴリズムを導出するために、関数の局所セクションの周波数と位相の内容を決定するように設計されている。
この実施形態では、一般性を失うことなく、f(t)は、色記述子のうちの1つ、例えば、ビデオiのjth番目の三角形の中の赤色チャネルの平均、または反対色表現(opponent color representation)の第1のチャンネルになることができる。そして、この関数のガボール変換は、
Figure 0007063823000039
であり、
g(t)は凹関数であり、
Figure 0007063823000040
である。1つの可能なパルス関数は以下のように定義され得、
Figure 0007063823000041
Lは固定時間長である。他の実施形態では他のパルス関数を使用することができる。 2つの方程式を使うと
Figure 0007063823000042
となり、
期間[0、L]、したがってG(., .)の内積の定義として、次のように書くことができ、
Figure 0007063823000043
<., .>は機能的内積である。上記のガボール変換は、ノイズがない場合、時間と周波数が連続的である。
th番目のビデオの色記述子fi1(t)を計算するために、すべての関数は、係数のベクトルが
Figure 0007063823000044
である一組のb個の基底関数
Figure 0007063823000045
によって張られた色空間において定義される。2つの色記述子の機能的内積は、
Figure 0007063823000046
で定義されることができ、
Φは要素Φij=(fi(t),fj(t))をもつb×b行列である。
いくつかの実施形態では、モデルは、統計的色特性が経時的に滑らかに変化し、筋肉活性化におけるそれらの効果がL秒の最大期間を有すると仮定する。この説明に適合する基底関数は、フーリエ級数の実部の最初のいくつかの成分、すなわち正規化余弦基底である。他の実施形態では他の基底関数を使用することができる。
余弦基底は、ψz(t)=cos(2πzt)、z=0,...,b - 1として定義することができる。対応する正規化基底は、次のように定義される。
Figure 0007063823000047
規化基底関数(normalized basis set)は、Φ=Idbを許容する。ここで、Idbは、任意の正定値行列ではなく、b×b単位行列を表す。
余弦基底を用いた上記の導出は、周波数空間を暗黙的に離散的にする。色関数のガボール変換
Figure 0007063823000048
は次のようになり、
Figure 0007063823000049
Figure 0007063823000050
は、区間[t-L,t]で計算された関数
Figure 0007063823000051
で、ci1zはzth番目の係数である。
上記で導出したシステムは時間領域を含まないが、必要に応じて時間領域係数を見つけて利用することができることを理解されたい。
アクションユニットの機能分類
システムは、上記で導出されたガボール変換を使用して、AUのタイミングおよび期間に対して不変の特徴空間を定義する。結果として生じる空間において、システムは線形または非線形分類器を使用する。いくつかの実施形態では、KSDA、サポートベクターマシン(SVM)またはディープマルチレイヤニューラルネットワーク(DN)を分類器として使用することができる。
機能色空間
システムは、異なる局所パッチからの色情報の平均および標準偏差を記述する関数を含み、それは以下に記述される複数の関数の同時モデリングを使用する。
システムは多次元関数
Figure 0007063823000052
を定義し、各関数γz(t)は所与のパッチにおけるカラーチャネルの平均または標準偏差である。基底展開アプローチを使用すると、それぞれ
Figure 0007063823000053
は、係数cieのセットによって定義され、したがって、Γi(t)は次式で与えられる。
Figure 0007063823000054
多次元関数の内積は、正規化されたフーリエ余弦基底を使用して再定義され、
Figure 0007063823000055
となる。
他の基底は、他の実施形態で使用することができる。
システムは、各分類器を最適化するためにビデオシーケンスのトレーニングセットを使用する。システムはビデオの長さ(すなわちフレーム数)に対して不変であることに留意することが重要である。したがって、システムは、認識のためにビデオの整列または切り取りを使用しない。
いくつかの実施形態では、上記の手法およびマルチクラス分類器を使用してAU強度を識別するようにシステムを拡張することができる。システムは、AUと、5つの強度a、b、c、d、eのそれぞれを検出するようにトレーニングされ得、AUは非アクティブである(存在しない)。システムはまた、上記と同じアプローチを使用して、表情の画像中の感情カテゴリを識別するようにトレーニングされ得る。
いくつかの実施形態では、システムはビデオ内のAUおよび感情カテゴリを検出することができる。他の実施形態では、システムは静止画像内のAUを識別することができる。静止画像内のAUを識別するために、システムは最初に回帰を用いて単一画像から上記で定義された機能的色特徴を計算することを学習する。この実施形態では、システムは関数h(x)=yを回帰して入力画像xを色yの必要な関数表現にマッピングする。
サポートベクターマシン
トレーニングセットは、{(γ1(t),y1),...,(γn(t),yn)}で定義され、γi (t) ∈ Hv, Hvは、次数vまでの有界導関数をもつ連続関数のヒルベルト空間であり、yi ∈ {-1, 1}はクラスラベルで、+1はAUがアクティブで-1は非アクティブであることを示す。
別個のクラスのサンプルが線形に分離可能であるとき、クラスの分離可能性を最大にする関数w(t)は、以下で与えられ、
Figure 0007063823000056
vはバイアスであり、上記のように、
Figure 0007063823000057
は機能的内積を表し、ξ=(ξ1,...,ξn)Tはスラック変数で、c>0は交差検定を使用して検出されたペナルティ値である。
正規化余弦係数を(28)と使用してΓiをモデル化するために我々によって導出された手法を適用することは、(29)を以下の基準に変換し、
Figure 0007063823000058
c>0は交差検定を使用して見つかったペナルティ値である。
システムは、元の色空間をデータの最初のいくつか(例えば2つ)の主成分に投影する。主成分は主成分分析(PCA)によって得られる。結果のp次元は、φPCAk,k =1,2,…,pとラベル付けされる
一旦トレーニングされると、システムはリアルタイムで又はリアルタイムよりも速くビデオ内のAU、AU強度及び感情カテゴリを検出することができる。いくつかの実施形態では、システムは、30フレーム/秒/CPUスレッドを超えるAUを検出することができる。
多層パーセプトロンを用いたディープネットワークアプローチ
いくつかの実施形態では、システムは、色特徴空間内の非線形分類器を識別するためのディープネットワークを含むことができる。
システムは、係数ciを使用して多層パーセプトロンネットワーク(MPN)をトレーニングすることができる。このディープニューラルネットワークは、バッチ正規化およびいくつかの線形または非線形の機能的整流、例えば整流線形ユニット(ReLu)を有する接続された層のいくつか(たとえば5つ)のブロックから構成される。ネットワークを効果的にトレーニングするために、システムは、少数派クラスをスーパーサンプリングする(AUアクティブ/AU強度)か、多数派クラスをダウンサンプリングする(AU非アクティブ)ことによってデータ拡張(data augmentation)を使用する。システムはクラスの重みと重みの減衰も使用できる。
このニューラルネットワークを勾配降下法を用いてトレーニングする。結果として生じるアルゴリズムは、リアルタイムで、またはリアルタイムよりも速く、>30フレーム/秒/CPUスレッドで動作する。
静止画像中のAU検出
システムを静止画像に適用するために、システムは画像Iiの色関数fiを特定する。つまり、システムはマッピングh(Ii)=fiを定義する。ここでfiはその係数
Figure 0007063823000059
で定義される。いくつかの実施形態では、係数は、非線形回帰を使用してトレーニングデータから学習することができる。
システムは、m個のビデオ{V1,...,Vm}のトレーニングセットを利用する。上記のように、Vi={Ii1,...,Iiri}である。システムは、長さL(with Li)、例えばWi1={Ii1,...,IiL}, Wi2={Ii2,...,Ii(L+1) },...,Wi(ri-L)={Ii(ri-L),...,Iiri}の連続フレームのすべてのサブセットを考慮する。システムは、上記のようにすべてのWikの色表現を計算する。これにより、各Wik, k=1,..., ri-Lについてxik=(xi1k,...,xi107k)Tが得られる。次の(19)では、
Figure 0007063823000060
iとkはビデオWikを指定し、j、j =1,...,107はパッチを指定する。
システムは、各パッチについて各Wikの機能色表現fijk、j=1,...,107を計算する。これは、fijk=(cijk1,...,cijkQ)Tをもたらすために上で詳述されたアプローチを使用して行われ、cijkqは、ビデオWijのjパッチのqth番目の係数である。トレーニングセットは、ペア{xijk, fijk}によって与えられる。トレーニングセットは、関数fijk=h(xijk)を回帰するために使用される。例えば、パッチjにおけるテスト画像をI、色表現を
Figure 0007063823000061
とする。回帰は、上で定義されたように、画像から機能的色表現へのマッピングを推定するために使用される。たとえば、カーネルリッジ回帰を使用して、テスト画像のqth番目の係数をNと推定する。
Figure 0007063823000062
Figure 0007063823000063
は、jth番目のパッチ
Figure 0007063823000064
の色特徴ベクトルであり、すべてのトレーニング画像のjth番目のパッチの係数のベクトルであり、Kはカーネル行列
Figure 0007063823000065
である。システムはラジアル基底関数カーネル
Figure 0007063823000066
を使用できる。いくつかの実施形態では、パラメータηおよびλは、精度を最大にし、モデルの複雑さを最小にするように選択される。これはバイアスと分散のトレードオフを最適化することと同じである。このシステムは、当技術分野で知られているようにバイアス分散問題に対する解決策を使用する。
上記に示したように、システムは、以前には見られなかったテスト画像に対してリグレッサ(regressor:独立変数)を使用することができる。もし
Figure 0007063823000067
が以前には見られなかったテスト画像であるならば、その機能的表現は
Figure 0007063823000068

Figure 0007063823000069
として容易に得られる。この機能的色表現は、上記で導出された機能的分類子において直接使用され得る。
図5は、ビデオおよび/または静止画像における色分散を用いてAUまたは感情を検出するための色分散システム500を示す。システム500は、一組のビデオおよび/または画像を有する画像データベースコンポーネント510を含む。システム500は、画像データベース510内のランドマークを検出するランドマークコンポーネント520を含む。ランドマークコンポーネント520は、定義されたランドマークを有する画像の画像のセットのサブセットを作成する。システム500は、ビデオシーケンス内の色の変化または顔の静止画像内の統計を計算する統計コンポーネント530を含む。統計コンポーネント530から、上述のようにデータベースコンポーネント510内の各ビデオまたは画像に対してAUまたは感情が決定される。システム500は、画像を少なくとも1つのAUでタグ付けするか、またはAUなしでタグ付けするタグ付けコンポーネント540を含む。システム500はタグ付き画像を処理済み画像データベース550に格納することができる。
顔の表情の画像から感情を認識し、顔の画像を編集して別の感情を表現するように見せるための顔の色
上記の方法において、システムは、構成、形状、シェーディングおよび色の特徴を使用してAUを識別する。これは、AUが感情のカテゴリを定義し、すなわち、AUの固有の組み合わせが固有の感情のカテゴリを指定するからである。それにもかかわらず、顔の色も感情を伝える。顔は、皮膚の表面に最も近い血管網上の血流を変えることによって、観察者に感情情報を表現することができる。例えば、怒りに関連した発赤や恐怖の中の青白さを考える。これらのカラーパターンは血流の変動によって引き起こされ、筋肉の活性化がない場合でも発生する可能性がある。我々のシステムはこれらの色の変化を検出するため、筋肉の動きがなくても(すなわち、AUが画像内に存在するか否かにかかわらず)、感情を識別することが可能になる。
顔の領域
システムは、p×qの画素の各顔カラー画像を、
Figure 0007063823000070
として表し、顔の各顔面成分のr個のランドマーク点を
Figure 0007063823000071
画像上のランドマーク点の2次元座標、として表す。ここで、iは主題を指定し、jは感情カテゴリを指定する。いくつかの実施形態において、システムはrを66として使用する。これらの基準点は、内部の輪郭と、顔の外部要素、例えば、口、鼻、目、眉、あごの稜と紋を定義する。ドロネー三角形分割は、これらの顔のランドマーク点によって定義される三角形の局所領域を生成するために使用することができる。この三角形分割は、いくつかの局所領域(例えば、66個のランドマーク点を使用するときには142個の領域)をもたらす。この数をaとする。
システムは、aの局所領域のそれぞれの画素を返す一連の関数として、関数D={d,...,d}を定義することができる。例えば、dk(Iij)は、画像Iijにおけるkth番目のドロネー三角形、例えば、
Figure 0007063823000072
の内部におけるl個の画素を含むベクトルであり、ここで、
Figure 0007063823000073
は、各画素の3つのカラーチャネルの値を定義する。
色空間
上記の導出は、各顔画像を一連の局所領域に分割する。システムは、各画像内のこれらの局所領域のそれぞれの色統計量を計算することができる。具体的には、システムは、以下のように定義される、データの一次モーメントおよび二次モーメント(すなわち、平均および分散)を計算する。
Figure 0007063823000074
他の実施形態では、画像の色の追加のモーメントが利用される。すべての画像Iijは、色統計量の以下の特徴ベクトルを用いて表す。
Figure 0007063823000075
同じモデルを使用して、システムは各中立面の色特徴ベクトルを以下のように定義する。
Figure 0007063823000076
ここで、nは、この特徴ベクトルが感情カテゴリではなく中立的な表現に対応することを示す。平均的な中立面は以下である。
Figure 0007063823000077
mは、トレーニングセット内の識別子の数である。感情の顔表情の色表現は、この中立の顔からの偏差によって与えられる。
Figure 0007063823000078
分類
システムは、線形または非線形の分類器を使用して、上記で定義された色空間内の感情カテゴリを分類する。いくつかの実施形態では、線形判別分析(LDA)が上記で定義された色空間で計算される。いくつかの実施形態において、色空間は、以下のマトリックスのゼロではない固有値に対応する固有ベクトルによって定義することができる。
Figure 0007063823000079
ここで、以下は、(正規化された)共分散行列である。
Figure 0007063823000080
以下は、クラス平均である。
Figure 0007063823000081
以下は、識別マトリクスである。
Figure 0007063823000082
δ=.01が正規化パラメータであり、Cはクラスの数である。
他の実施形態において、システムは、サブクラス判別分析(SDA)、KSDA、またはディープニューラルネットワークを採用することができる。
多方向分類
選択された分類器(例えば、LDA)は、Cの感情カテゴリおよび中立の色空間(または複数の空間)を計算するために使用される。いくつかの実施形態において、システムは、基本感情および複合感情を含む23の感情カテゴリを認識するように訓練されている。
システムは、利用可能なサンプルを10個の異なるセットS={S, ... ,S10}に分割する。ここで、各サブセットSは、同じ数のサンプルを有する。この分割は、各感情カテゴリ(中立を含む)内のサンプル数がすべてのサブセットで等しくなるように行われる。システムは、1、・・・、10のtを用いて以下の手順を繰り返す。Sを除くすべてのサブセットがΣxおよびSを計算するために使用される。LDAのサブスペース
Figure 0007063823000083
の計算に使用されなかったサブセットSのサンプルは、
Figure 0007063823000084
に投射される。各テストサンプルの特徴ベクトル
Figure 0007063823000085
は、以下のユークリッド距離によって与えられる最も近いカテゴリ平均の感情カテゴリに割り当てられる。
Figure 0007063823000086
すべてのテストサンプル
Figure 0007063823000087
における分類精度は、以下によって与えられる。
Figure 0007063823000088
ここで、nはSにおけるサンプル数であり、y(t)は、サンプルtの真の感情カテゴリを返すオラクル関数であり、
Figure 0007063823000089
は0-1損失であり、
Figure 0007063823000090
であるときには1であり、それ以外では0である。したがって、Sは、カラーモデルの一般化を判断するためのテスト用サブセットとして機能する。tは1、…、10であるため、システムは、この手続きを10回繰り返すことができる。各回では、サブセットSのうちの1つをテストのために残す。そして、以下のように平均分類精度を計算する。
Figure 0007063823000091
交差検証された分類精度の標準偏差は、以下である。
Figure 0007063823000092
このプロセスにより、システムは、最も一般化された識別色特徴、すなわち、トレーニングセットに含まれない画像に適用されるものを識別できる。
他の実施形態において、システムは、2方向(一対全部)分類器を使用する。
一対全部の分類
システムは、1つの感情カテゴリ(例えば、感情カテゴリc)のサンプルをクラス1(例えば、研究中の感情)に割り当てるとともに、他のすべての感情カテゴリのサンプルをクラス2に割り当てるたびに、上記の手法をC回繰り返すことにより、各感情カテゴリの最も識別可能な色特徴を識別する。形式的には、以下である。
Figure 0007063823000093
Figure 0007063823000094
のサンプルを区別するために、線形または非線形の分類器(例えば、KSDA)が使用される。
10分割交差検証:システムは、上記と同じ10分割交差検証処理および最近傍平均の分類器を使用する。
いくつかの実施形態において、この2つのクラスの問題におけるサンプルの不均衡によるバイアスを回避するために、システムは、
Figure 0007063823000095
にダウンサンプリングを適用することができる。いくつかの場合において、システムは、
Figure 0007063823000096
からランダムサンプルを引き出すたびに、
Figure 0007063823000097
におけるサンプル数に一致するように、この手順を複数回繰り返す。
判別カラーモデル
2方向分類器としてLDAを使用する場合、
Figure 0007063823000098
は、最大から最小の判別の順に序で並べた一連の判別可能なベクトル
Figure 0007063823000099
を与える。
Figure 0007063823000100
以下の判別ベクトルは、感情カテゴリを識別するときの各色特徴の寄与を定義する。
Figure 0007063823000101
これは、非ゼロ固有値λ>0に関連する唯一の基底ベクトルであるため、システムはvを保持するだけである。したがって、感情jのカラーモデルは、以下によって与えられる。
Figure 0007063823000102
SDA、KSDA、ディープネットワーク、その他の分類器を使用しても同様の結果が得られる。
顔によって表される表情を変えるための画像色の修正
中立的な表現Iinは、感情を表現するように見えるようにシステムによって修正することができる。これらは修正画像
Figure 0007063823000103
と呼ぶことができる。ここで、iは画像または画像内の個人を特定し、jは感情カテゴリを特定する。
Figure 0007063823000104
は、以下の修正された色特徴ベクトルに対応する。
Figure 0007063823000105
いくつかの実施形態において、これらの画像を生成するために、システムは、以下のように感情jのカラーモデルを用いて、中立画像のkth番目の画素を修正する。
Figure 0007063823000106
ここで、Iinkは、中立画像Iinにおけるkth番目の画素である。
Figure 0007063823000107
は、gth番目のドロネー三角形内における画素の色の平均および標準偏差である。
Figure 0007063823000108
は、ニューモデルyijによって与えられるdにおける画素の色の平均および標準偏差である。
いくつかの実施形態において、システムは、分散σを用いたγガウスフィルタによって、γを有する修正画像を平滑化する。平滑化は、局所的なシェーディングと形状の特徴を排除し、人々に顔の色に集中させ、感情のカテゴリをより明確にする。
いくつかの実施形態において、システムは、感情の顔表情の画像を修正して、表現された感情の外観を増減させる。感情jの外観を減少させるために、システムは、感情jに関連するカラーパターンを除去して、結果として生じる画像
Figure 0007063823000109
を得ることができる。画像は、以下の関連する特徴ベクトルを用いて、上述したように計算される。
Figure 0007063823000110
感情の知覚を増大させるために、システムは、新しい色特徴ベクトルを以下のように定義し、
Figure 0007063823000111
結果画像
Figure 0007063823000112
を取得する。
図6は、ビデオおよび/または静止画像内の色分散を用いて、AUまたは感情を検出するための色分散システム500を示す。システム600は、一組のビデオおよび/または画像を有する画像データベースコンポーネント610を含む。システム600は、画像データベース610内のランドマークを検出するランドマークコンポーネント620を含む。ランドマークコンポーネント620は、画定されたランドマークを有する一連の画像のサブセットを生成する。システム600は、ビデオシーケンスにおける色の変化または顔の静止画像における統計を計算する統計コンポーネント630を含む。統計コンポーネント630から、上述のようにデータベースコンポーネント610内の各ビデオまたは画像についてAUまたは感情が決定される。システム600は、画像を少なくとも1つのAUでタグ付けするか、AU無しでタグ付けするタグ付けコンポーネント640を含む。システム600は、タグ付き画像を処理済み画像データベース650に格納することができる。
システム600は、画像内の知覚感情を変化させることができる修正コンポーネント660を含む。いくつかの実施形態において、システム600が画像内の中立顔を決定した後、修正コンポーネント660が中立顔の画像の色調を修正して、感情またはAUの決定された表現の外観を生み出すかまたは修正する。例えば、画像は中立表現を含むと判定される。修正コンポーネント660は、幸せまたは悲しみなどの所定の表情を知覚するように表情を変えるために画像内の色を変えることができる。
他の実施形態において、システム600が画像内の顔の感情またはAUを決定した後、修正コンポーネント660は、感情またはAUの知覚を変更するために、感情またはAUの強度を増減するために画像の色を修正する。例えば、悲しい表情を含むと画像が判定される。修正コンポーネント660は、表情がより少なくまたはより悲しいと知覚されるように画像内の色を変更することができる。
顔ランドマーク点及びアクションユニットの早くて正確な検出及び認識のために、DNNで適合されるグローバルローカル
他の観点において、ディープニューラルネットワークのためのグローバル-ローカル損失関数(DNN)は、関心のある類似の対象ランドマーク点(例えば、顔面ランドマーク点)のきめ細かい検出だけでなく、AU等の対象特性のきめ細かい認識において、効率的に使用することができる。導出された局所的+全体的な損失は、パッチベースのアプローチを使用する必要なしに正確な局所的結果をもたらし、そして迅速で望ましい収束をもたらす。本グローバル-ローカル損失関数は、AUの認識のために用いたり、AUおよび顔の表情の認識に必要な顔および顔のランドマーク点を検出するために用いたりすることができる。
グローバル-ローカル損失
グローバル-ローカル(GL)損失の導出は、画像内の検出および認識のためにディープネットワークで効率的に使用できる。システムは、この損失を使用してAUを認識するように深いDNNをトレーニングする。システムは、DNNの一部を使用して顔のランドマーク点を検出する。これらの検出は、AUを検出するためにネットワークの他のコンポーネントの完全に接続されたレイヤの出力と連結される。
ローカルフィット
システムは、画像サンプルと対応する出力変数を、{(I,y),…,(I,y)}のセットとして定義する。ここで、Ii∈Rl ×mは、顔におけるa l × mの画素の画像であり、yiは真の(望ましい)出力であり、nはサンプル数である。
いくつかの実施形態において、出力変数yは様々な形態であり得る。例えば、画像内の2Dの対象のランドマーク点の検出において、yは、2D画像の座標yi = (ui1,vi1, ... , uip, vip)Tのpのベクトルである。(uij, vij)Tはjth番目のランドマーク点である。AUの認識では、出力変数は指標ベクトルyi=(yi1, . . . , yiq)Tに対応する。AUjが画像I内に存在する場合、yijは1であり、AUjがその画像内に存在しなければ、yijは-1である。
システムは、マッピング関数f (Ii,w) = (f1(Ii,w1),...,fr(Ii,wr))Tのベクトルを識別する。マッピング関数は、入力画像Iiを検出または属性の出力ベクトルyiに変換し、w = (w1, ... , wr)Tは、これらのマッピング関数のパラメータのベクトルである。検出においては、r=p及び
Figure 0007063823000113
である。ここで、2D画像座標uij及びvijの推定値として、
Figure 0007063823000114
である。同様に、AUの認識では、r = q及び
Figure 0007063823000115
である。ここで、
Figure 0007063823000116
は、AUjが、画像I内に存在(1)するか存在しない(-1)の推定値であり、qはAUの数である。
固定マッピング関数f (Ii, w) (e.g., a DNN)に対して、システムは、以下のようにwを最適化する。
Figure 0007063823000117
ここで、
Figure 0007063823000118
は、損失関数を表す。この損失関数に対する古典的な解は、以下のように定義されるL-損失である。
Figure 0007063823000119
ここで、yijはyのjth番目の要素である。これは、顔のランドマーク点の検出ではyij ∈ R2であり、AUの認識では、yij ∈ {-1, +1}である。
一般性を失うことなく、システムは、f (Ii,w)の代わりにfiを用い、fj (Ii,wj)の代わりにfijを用いる。関数fijはすべて同じであるが、jの規定値が異なる場合がある。
上記の導出はローカルフィットに対応する。つまり、(33)と(34)は、各出力の適合を独立して最適化してから、すべての出力における平均適合を採用することを試みる。
上述した導出アプローチは、固定された適合誤差
Figure 0007063823000120
に対しても、いくつかの解決策を有している。例えば、誤差は、すべての出力に均等に分散させることができる。
Figure 0007063823000121
ここで、
Figure 0007063823000122
は、ベクトルの2ノルムである。または、誤差の大部分は、次のように定義される推定値の1つ(または少数)にある。
Figure 0007063823000123
いくつかの実施形態において、関数を最小化するために追加の制約が追加される。
Figure 0007063823000124
a≧1。システムは、収束を容易にするグローバル基準を追加する。
グローバル構成の追加
システムは、グローバル記述子を拡張するグローバル構成を追加するための一連の制約を定義する。(34)の制約条件は、yi (例えば、yij)の各要素の適合を独立して測定するため、局所的である。それにもかかわらず、同じ基準を使用して点のペアの適合度を測定することができる。正式には、以下のように定義される。
Figure 0007063823000125
ここで、g(x,z)は、2つのエントリの類似度を計算する関数である。h(.)は、ネットワークの(制約のない)出力を適切な数値範囲にスケーリングする。ランドマーク検出では、h(fij) = fij ∈ R2
Figure 0007063823000126
x-zのbノルムである(例えば、2ノルム、
Figure 0007063823000127
ここで、xとzは、2つのランドマークの画像座標を定義する2Dベクトルである。
Figure 0007063823000128
AU認識では、h(fij) = sign(fij)∈{-1, +1}
ここで、sign(.)は、入力数値が負の場合には-1を返し、この数値が正またはゼロの場合には+1を返す。AUjが画像I内に存在する場合にはxijが1であり、それがその画像内に存在しない場合には-1である。したがって、関数h(.) : R → {-1, +1}
いくつかの実施形態において、システムは、各対の要素、すなわち、検出時の各対のランドマーク点および認識時の各対のAUのグローバル構成を考慮に入れる。すなわち、検出においては、システムは、すべてのランドマーク点間の距離の情報を使用し、認識においては、AUの対が共存する場所を決定する(例えば、2つがサンプル画像中に同時に存在するか存在しないことを意味する)。
いくつかの実施形態において、グローバル基準はトリプレットに拡張することができる。正式には、以下である。
Figure 0007063823000129
ここで、g(x、z、u)は、3つのエントリ間の類似度を計算する関数である。
検出において、これは、システムがbノルム、例えば、
Figure 0007063823000130
を計算することができること、
以下のように、各トリプレットによって定義される三角形の面積を計算すること、を意味する。
Figure 0007063823000131
3つのランドマークポイントは、共線ではない。
いくつかの実施形態において、方程式は4つ以上の点に拡張することができる。例えば、この方程式は、次のように凸四辺形に拡張することができる。
Figure 0007063823000132
最も一般的な場合では、システムは、t個のランドマーク点について、多角形エンベロープ、すなわち、t個のランドマーク点{xi1,…,xit}によって含まれる非自己交差多角形の面積を計算する。多角形は、以下のように与えられる。
システムは、顔のランドマーク点のドロネー三角形分割を計算する。多角形包絡線は、1組のt個のランドマーク点の線を反時計回りに接続することによって得られる。ランドマーク点の順序付き集合は、以下のように定義される。
Figure 0007063823000133
の領域は、以下によって与えられる。
Figure 0007063823000134
ここで、ga(.)の添え字aは領域を表す。
Figure 0007063823000135
いくつかの実施形態において、上記式の結果は、当技術分野で知られているようにグリーンの定理を用いて得られる。
Figure 0007063823000136
は、DNN
Figure 0007063823000137
のt個の出力、または
真値
Figure 0007063823000138
とすることができる。
システムは、次のように、t個のランドマーク点の一般的な場合について、グローバルbノルムgn(.)を計算することができる。
Figure 0007063823000139
上記導出は、検出課題において、g(.)を3つ以上の点に拡張することを定義する。これから、上記は画像中のAUを認識するために使用することができる。
システムは、画像I内の3つ以上のAUの共起を計算する。正式には、
Figure 0007063823000140
は、t個のAUのセットであり、
Figure 0007063823000141
である。
GL-損失Ioss
最終的なローカルグローバル(GL)損失関数は、以下によって与えられる。
Figure 0007063823000142
ここで、グローバル損失、
Figure 0007063823000143
は、以下のように定義される。
Figure 0007063823000144
g(.)は、検出においては、g(.)若しくはg(.)又はこの両方であり、認識においては、gAU(.)であり、αは、トレーニングセットの交差検証を利用して学習した正規化定数である。
バックプロパゲーション
DNNのパラメータであるwを最適化するために、システムは以下を計算する。
Figure 0007063823000145
局所損失の偏導関数は、もちろん次のように与えられる。
Figure 0007063823000146
グローバル損失の定義では、マッピング関数h(.)を使用する。いくつかの実施形態において、ランドマーク検出を実行するとき、h(fij)=fijであり、グローバル損失の偏導関数は、上式に示される局所損失のものと同じ形式を有する。他の実施形態において、AU認識を実行するとき、システムは、以下を利用する。
Figure 0007063823000147
この関数は微分ではないが、システムは、それを、小さい部分
Figure 0007063823000148
に対して、以下のように再定義する。
Figure 0007063823000149
偏導関数は、以下になる。
Figure 0007063823000150
ディープDNN
システムは、AUを認識するためのディープニューラルネットワークを含む。DNNは2つの部分を含む。DNNの第1の部分は、多数の顔面ランドマーク点を検出するために用いられる。ランドマーク点により、システムは上述したようにGL損失を計算することができる。
システムは、正規化されたランドマーク点を計算することができる。システムは、DNNの第2の部分の第1の完全に接続されたレイヤの出力と連結して、ランドマークの位置情報を、AUを認識するために使用されるDNNに埋め込むことができる。これは、感情の表現において典型的に観察される局所的な形状変化の検出を容易にする。これは上記のGL損失の定義で行われる。
いくつかの実施形態において、DNNは複数のレイヤを含む。例示的な実施形態において、9つのレイヤが顔のランドマーク点の検出専用であり、他の層は一連の画像内のAUを認識するために用いられる。
顔のランドマーク点の検出に向けられたレイヤは、以下のように詳述される。
顔のランドマーク点の検出
例示的な実施形態において、DNNは、3つの畳み込みレイヤと、2つの最大プールレイヤと、2つの完全な接続レイヤを含む。システムは、各畳み込みレイヤの終わりにおいて、正規化、ドロップアウト、および整流線形単位(ReLU)を適用する。
これらのレイヤのウェイトは、バックプロパゲーション、導出されたGL損失を使用して最適化される。グローバル損失およびバックプロパゲーションの式は上記に提供されている。
一例において、システムは、DNNのこの部分を使用して、合計66個の顔ランドマーク点を検出する。提案されたGL損失の1つの利点は、それが非常に大きいデータセットで効率的に訓練されることができるということである。いくつかの実施形態において、システムは、データ変換を採用して、変形変換および部分的オクルージョンに対して不変であるようにする顔ランドマーク検出器を含む。
顔ランドマーク検出器は、既存のトレーニングセットに2次元アフィン変換、すなわちスケール、反射、並進および回転を適用することによって、追加の画像を生成する。例示的な実施形態において、スケールは2及び0.5の間にあり、回転は-10°から10°であり、並進および反射はランダムに生成され得る。DNNを部分的オクルージョンに対してよりロバストにするために、システムは、d×dの画素のオクルージョンボックスをランダム化し、dは、内側の目の間隔の0.2から0.4倍である。
AU認識
DNNの第2の部分は、顔の外観特徴と、DNNの第1の部分によって与えられるランドマーク位置とを組み合わせる。具体的には、DNNの第2の部分の第1の完全な接続レイヤの出力において、外観画像特徴は、正規化され自動的に検出されたランドマーク点と連結される。
正式には、ithのサンプル画像(i=1,...,n)のランドマーク点のベクトルを以下とする。
Figure 0007063823000151
ここで、sik ∈ R2は、kthのランドマークの2D画像座標であり、nは、サンプル画像の数である。故に、si ∈ R132となる。次に、すべての画像をτピクセルの同じ眼間距離を持つように正規化する。すなわち、以下となる。
Figure 0007063823000152
ここで、l及びrは左右の目の中心の画像座標であり、|| ・ ||2はベクトルの2ノルムを定義する。
Figure 0007063823000153
τ=200を用いることができる。
システムは、ランドマーク点を以下のように正規化する。
Figure 0007063823000154
また、システムは、ランドマーク点に回転行列Rを乗算して、左右の目の外側の角が水平線と一致するようにする。システムは、
Figure 0007063823000155
の値を再調整してシフトし、画像内の左目と右目の外側のコーナーをそれぞれ(.5,0)と(-.5,0)の所定の位置に移動させる。
一実施形態において、DNNは、GoogleNetのものと同様であるが、本明細書で定義されたGL損失が使用されることにおいて、大きな違いがある。DNNの入力は、顔画像とすることができる。システムは、入力に適合するように第1レイヤのフィルタのサイズを変更し、これらのフィルタの重みをランダムに初期化する。DNNにランドマークを埋め込むために、第1の完全な接続レイヤ内のフィルタの数、ならびにAUの数としての出力のためのフィルタの数を変更することができる。システムは、顔の表情の画像中のすべてのAUを検出するために単一のDNNを使用することができる。
DNNの第2の部分の重みは、バックプロパゲーション方法および上記で定義されたグローバル損失を用いて、最適化することができる。
いくつかの実施形態において、データ増強は、ランダムなノイズを2Dランドマーク点に追加し、上記のアフィン変換を適用することによって実行することができる。
いくつかの実施形態において、システムは、上記のようなトレーニングデータベースを使用して、野生のAUの認識を初期化するように訓練することができる。
図7は、ビデオおよび/または静止画像内のディープニューラルネットワーク(DNN)を使用してAUおよび感情カテゴリを検出するためのネットワークシステム700を示す。システム700は、一連のビデオおよび/または画像を有する画像データベースコンポーネント710を含む。システム700は、画像データベース710の画像セット内のAUを決定するDNN720を含む。DNN720は、上述のように一連の画像内のランドマークを定義する第1の部分730を含む。DNN720は、上述のようにデータベースコンポーネント710内の画像セットのランドマーク内のAUを決定する第2の部分740を含む。システム700は、画像を少なくとも1つのAUでタグ付けする、またはAU無しでタグ付けするタグ付けコンポーネント750を含む。システム700は、タグ付けされた画像を処理済み画像データベース760に格納することができる。
例示的なコンピュータデバイス
図8は、産業用自動化システムにおいて、ハードウェア装置を構成するために使用することができる例示的なコンピュータを示す。様々な態様では、図8のコンピュータは、本明細書で説明されているように、開発ワークスペース100の全部または一部を含むことができる。本明細書で使用されるとき、「コンピュータ」は、複数のコンピュータを含み得る。コンピュータは、例えば、プロセッサ821、ランダムアクセスメモリ(RAM)モジュール822、読み出し専用メモリ(ROM)モジュール823、ストレージ824、データベース825、1つまたは複数の入出力(I/O)デバイス826、インターフェース827のように、1つまたは複数のハードウェアコンポーネントを含むことができる。代替的および/または追加的に、コントローラ820は、例えば、例示的実施形態に関連する方法を実行するためのコンピュータ実行可能命令を含むコンピュータ可読媒体などの1つまたは複数のソフトウェアコンポーネントを含み得る。上に挙げたハードウェアコンポーネントのうちの1つまたは複数を、ソフトウェアを使用して実装することができると考えられる。例えば、ストレージ824は、1つまたは複数の他のハードウェアコンポーネントに関連するソフトウェア区画を含み得る。上記に列挙されたコンポーネントは例示的なものにすぎず、これに限定されることを意図しないと理解される。
プロセッサ821は、画像を索引付けするためのコンピュータに関連する1つまたは複数の機能を実行するために、命令を実行しデータを処理するようにそれぞれ構成された1つまたは複数のプロセッサを含むことができる。プロセッサ821は、RAM822、ROM823、ストレージ824、データベース825、I/Oデバイス826、およびインターフェース827に通信可能に結合することができる。プロセッサ821は、様々なプロセスを実行するために、一連のコンピュータプログラム命令を実行するように構成され得る。コンピュータプログラム命令は、プロセッサ821による実行のためにRAM822にロードされてもよい。本明細書では、プロセッサとは、入力に対して機能を実行して出力を生成するための符号化された命令を実行する物理的ハードウェアデバイスを指す。
RAM822およびROM823はそれぞれ、プロセッサ821の動作に関連する情報を記憶するための1つまたは複数のデバイスを含み得る。例えば、ROM823は、1つまたは複数のコンポーネントおよびサブシステムの動作を識別、初期化および監視するための情報を含む、コントローラ820に関連する情報にアクセスして記憶するように構成されたメモリデバイスを含み得る。RAM822は、プロセッサ821の1つまたは複数の動作に関連するデータを記憶するためのメモリデバイスを含み得る。例えば、ROM823は、プロセッサ821による実行のためにRAM822に命令をロードすることができる。
ストレージ824は、プロセッサ821が開示された実施形態と一致するプロセスを実行するために必要とする可能性がある情報を格納するように構成された任意のタイプの大容量記憶装置を含むことができる。例えば、ストレージ824は、ハードドライブ、CD - ROM、DVD - ROM、または他の任意の種類のマスメディアデバイスなどの1つまたは複数の磁気および/または光ディスクデバイスを含み得る。
データベース825は、コントローラ820および/またはプロセッサ821によって使用されるデータを格納、整理、分類、フィルタリング、および/または配置するために協働する1つまたは複数のソフトウェアおよび/またはハードウェア構成要素を含み得る。例えば、データベース825は、本明細書に記載されるように、入出力ハードウェアデバイスおよびコントローラに関連するハードウェアおよび/またはソフトウェア構成データを格納し得る。データベース825は、上に列挙したものとは別のおよび/または異なる情報を格納することができると考えられる。
I / O装置826は、コントローラ820に関連付けられたユーザと情報を通信するように構成された1つまたは複数の構成要素を含み得る。例えば、I / O装置は、ユーザが画像のデータベース、関連するものの更新、デジタルコンテンツへのアクセスを維持できるように、統合キーボードおよびマウスを備えるコンソールを含み得る。I / O装置826はまた、モニタ上に情報を出力するためのグラフィカルユーザインターフェース(GUI)を含むディスプレイを含み得る。I / O装置826はまた、例えば、コントローラ820に関連する情報を印刷するためのプリンタ、ユーザがアクセス可能なディスクドライブ(例えば、USBポート、フロッピー、CD - ROM、またはDVD - ROM)のような周辺装置を含み得る。ユーザが携帯型メディア装置、マイクロフォン、スピーカシステム、または任意の他の適切な種類のインターフェース装置に格納されたデータを入力することを可能にするために、ドライブなど)を使用することができる。
インターフェース827は、インターネット、ローカルエリアネットワーク、ワークステーションピアツーピアネットワーク、ダイレクトリンクネットワーク、無線ネットワークなどの通信ネットワークを介してデータを送受信するように構成された1つまたは複数の構成要素を含むことができる。または他の適切な通信プラットフォーム。例えば、インターフェース727は、1つまたは複数の変調器、復調器、マルチプレクサ、デマルチプレクサ、ネットワーク通信デバイス、無線デバイス、アンテナ、モデム、および通信ネットワークを介したデータ通信を可能にするように構成された他の任意のタイプのデバイスを含み得る。
方法およびシステムは好ましい実施形態および特定の実施例に関連して記載されているが、本明細書の実施形態はあらゆる点で制限的であることよりもむしろ例示的であることが意図されるので、その範囲は特定の実施形態に限定されることを意図しない。
特に明記しない限り、本明細書に記載の任意の方法が、その工程が特定の順序で行われることを必要とすると解釈されることは決して意図されていない。
したがって、方法クレームがそのステップが従うべき順序を実際には記載していないか、またはステップが特定の順序に限定されるべきであることがクレームまたは説明において別段に具体的に述べられていない場合、いかなる意味においても、順序が推測されることを意図するものでは決してない。これには、解釈のためのあらゆる非明示的な根拠が含まれ、根拠は、ステップの配置や操作の流れに関する論理的事項、文法上の編成または句読点から派生した単純な意味、明細書に記載されている実施形態の数または種類を含む。本出願を通して、様々な刊行物を参照することができる。これらの刊行物の全体の開示は、方法およびシステムが属する技術水準をより完全に説明するために、参照により本明細書に組み込まれる。範囲または精神から逸脱することなく様々な修正および変形をなし得ることが当業者には明らかであろう。他の実施形態は、本明細書の考察および本明細書に開示された実施から当業者には明らかであろう。明細書および実施例は例示としてのみ考慮されることを意図しており、真の範囲および精神は特許請求の範囲によって示される。

Claims (11)

  1. アクションユニット値(AU値)およびAU強度を決定するために画像を分析するためのコンピュータ実施方法は、
    特徴およびシェーディング特徴の複数のカーネル空間を維持し、各カーネル空間は他のカーネル空間と非線形に分離可能であり、各カーネル空間は1つまたは複数のAU値、および1つまたは複数のAU強度値に関連付けられ、
    分析対象の複数の画像をコンピュータシステムによって受信することを含み、
    受信する画像ごとに、
    画像中の顔の形特徴およびシェーディング特徴の顔空間データを決定し、前記顔空間データは、形状特徴ベクトル、および前記顔のシェーディング変化に関連するシェーディング特徴ベクトルを含み、画像の特徴は、グローバルローカル(GL)損失関数を含むディープニューラルネットワークを使用して導出されたランドマーク点と、AU、AU強度値、感情カテゴリ、および、前記画像上に投影されたランドマーク点の局所的および全体的適合の両方を逆伝播するように構成されたグローバルローカル(GL)損失関数を含むディープニューラルネットワークを使用して導出されたそれらの強度を識別するための画像の特徴と、を含み、
    特徴およびシェーディング特徴の決定された前記顔空間データの存在を判定するために、形状特徴の決定された前記顔空間データを前記複数のカーネル空間と比較して前記画像に対する0、1つまたは複数のAU値を決定する。
  2. 請求項1に記載の方法は、
    前記複数の画像のそれぞれについてのAU値およびAU強度値を決定するために、前記複数の画像を含むビデオストリームをリアルタイムで処理することを含む。
  3. 請求項に記載の方法では、
    前記決定された前記形状特徴の前記顔空間データは、前記画像から形成されたドロネー三角形内の正規化されたランドマーク間の距離および角度値、ならびに前記正規化されたランドマークに対応する前記各ドロネー三角形によって定義される角度を含む。
  4. 請求項に記載の方法では、
    前記顔のシェーディング変化に関連する前記シェーディング特徴ベクトルは、
    前記顔から決定された正規化されたランドマーク点にガボールフィルタを適用することによって決定される。
  5. 請求項1に記載の方法では、前記AU値および前記AU強度値は、まとめて、感情および感情強度を定義する。
  6. 請求項1に記載の方法では、前記画像は写真を含む。
  7. 請求項1に記載の方法では、前記画像はビデオシーケンスのフレームを含む。
  8. 請求項1に記載の方法では、前記コンピュータシステムは、白黒画像またはカラー画像を使用する。
  9. 請求項1に記載の方法は、
    画像を受信し、
    受信画像を処理して、前記受信画像内の顔のAU値およびAU強度値を決定することを含む。
  10. 請求項1に記載の方法は、
    第1のデータベースから第1の複数の画像を受信し、
    第2のデータベースから第2の複数の画像を受信し、
    信した前記第1の複数の画像および前記第2の複数の画像を処理して、画像ごとに、各画像内の顔のAU値およびAU強度値を決定することを含み、
    前記第1の複数の画像は、第1の取得形態を有し、前記第2の複数の画像は、第2の取得形態を有し、前記第1の取得形態は、前記第2の取得形態と異なる。
  11. 請求項1に記載の方法は、
    前記顔空間上でカーネルサブクラス判別分析(KSDA)を実行し、
    前記KSDAに基づいて、AUとAU強度、感情カテゴリ、および感情強度を認識することを含む。
JP2018562947A 2016-06-01 2017-06-01 表情の認識および注釈付けのためのシステムおよび方法 Active JP7063823B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662343994P 2016-06-01 2016-06-01
US62/343,994 2016-06-01
PCT/US2017/035502 WO2017210462A1 (en) 2016-06-01 2017-06-01 System and method for recognition and annotation of facial expressions

Publications (2)

Publication Number Publication Date
JP2019517693A JP2019517693A (ja) 2019-06-24
JP7063823B2 true JP7063823B2 (ja) 2022-05-09

Family

ID=60477856

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018562947A Active JP7063823B2 (ja) 2016-06-01 2017-06-01 表情の認識および注釈付けのためのシステムおよび方法

Country Status (5)

Country Link
US (2) US11314967B2 (ja)
EP (1) EP3465615A4 (ja)
JP (1) JP7063823B2 (ja)
KR (1) KR102433971B1 (ja)
WO (1) WO2017210462A1 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
CN106780658B (zh) 2016-11-16 2021-03-09 北京旷视科技有限公司 人脸特征添加方法、装置及设备
CN106780662B (zh) * 2016-11-16 2020-09-18 北京旷视科技有限公司 人脸图像生成方法、装置及设备
CN108229269A (zh) * 2016-12-31 2018-06-29 深圳市商汤科技有限公司 人脸检测方法、装置和电子设备
EP3740898A4 (en) * 2018-01-19 2021-10-13 Board of Regents, The University of Texas System SYSTEMS AND PROCEDURES FOR EVALUATING THE ATTENTION AND EMOTIONAL ENGAGEMENT OF AN INDIVIDUAL, GROUP AND CROWD
CN110211016B (zh) * 2018-02-28 2022-11-01 佛山科学技术学院 一种基于卷积特征的水印嵌入方法
CN110321427A (zh) * 2018-03-28 2019-10-11 广东亿迅科技有限公司 面向不平衡数据集的基于bagging算法的文本分类方法及装置
US10789753B2 (en) 2018-04-23 2020-09-29 Magic Leap, Inc. Avatar facial expression representation in multidimensional space
CN108764048B (zh) * 2018-04-28 2021-03-16 中国科学院自动化研究所 人脸关键点检测方法及装置
CN108763216A (zh) * 2018-06-01 2018-11-06 河南理工大学 一种基于中文数据集的文本情感分析方法
USD896254S1 (en) * 2018-10-30 2020-09-15 Perfect Mobile Corp. Display screen with graphical user interface
WO2020222785A1 (en) * 2019-04-30 2020-11-05 Hewlett-Packard Development Company, L.P. Facial action unit detection
CN110287792B (zh) * 2019-05-23 2021-05-04 华中师范大学 一种处于自然教学环境的课堂中学生学习状态实时分析方法
CN110532880B (zh) * 2019-07-29 2022-11-22 深圳大学 样本筛选及表情识别方法、神经网络、设备及存储介质
CN111178263B (zh) * 2019-12-30 2023-09-05 武汉美和易思数字科技有限公司 一种实时表情分析方法及其装置
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
JP7452016B2 (ja) 2020-01-09 2024-03-19 富士通株式会社 学習データ生成プログラム、及び学習データ生成方法
KR102324231B1 (ko) * 2020-01-28 2021-11-08 연세대학교 산학협력단 표정 분류를 통한 차량 위급 상황 검출 장치
CN111601181B (zh) * 2020-04-27 2022-04-29 北京首版科技有限公司 生成视频指纹数据的方法及装置
US11568680B2 (en) 2020-04-27 2023-01-31 David K. Pederson Therapeutic smile detection systems
KR102200816B1 (ko) * 2020-06-29 2021-01-12 주식회사 퓨처플랫폼 얼굴 이미지를 이용한 정신건강 자가관리 제공 방법 및 정신건강 자가관리 제공 시스템
WO2022003843A1 (ja) * 2020-06-30 2022-01-06 富士通株式会社 判定プログラム、判定装置、および判定方法
KR102548970B1 (ko) * 2020-07-07 2023-06-28 주식회사 유엑스팩토리 얼굴 표정에 관한 데이터 세트를 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
CN116018613A (zh) 2020-09-25 2023-04-25 富士通株式会社 机器学习程序、机器学习方法以及推定装置
CN112668551B (zh) * 2021-01-18 2023-09-22 上海对外经贸大学 基于遗传算法的表情分类方法
CN112766172B (zh) * 2021-01-21 2024-02-02 北京师范大学 一种基于时序注意力机制的人脸连续表情识别方法
US11776210B2 (en) * 2021-01-22 2023-10-03 Sony Group Corporation 3D face modeling based on neural networks
CN112784800B (zh) * 2021-02-02 2022-05-10 浙江大学 一种基于神经网络和形状约束的人脸关键点检测方法
CN113076813B (zh) * 2021-03-12 2024-04-12 首都医科大学宣武医院 面具脸特征识别模型训练方法和装置
US20220300993A1 (en) * 2021-03-18 2022-09-22 Jio Platforms Limited System and method for conducting a survey by a survey bot
CN113076905B (zh) * 2021-04-16 2022-12-16 华南理工大学 一种基于上下文交互关系的情绪识别方法
CN113239219B (zh) * 2021-05-12 2022-05-20 山东大学 一种基于多模态查询的图像检索方法、系统、介质及设备
CN113298007B (zh) * 2021-06-04 2024-05-03 西北工业大学 一种小样本sar图像目标识别方法
CN113255617B (zh) * 2021-07-07 2021-09-21 腾讯科技(深圳)有限公司 图像识别方法、装置、电子设备和计算机可读存储介质
CN114582004A (zh) * 2022-04-28 2022-06-03 中国科学技术大学 人脸表情识别方法、系统、设备及存储介质
CN115546878B (zh) * 2022-11-23 2023-02-03 华中科技大学 基于注意力机制的面部au检测模型建立方法及其应用
CN116884067A (zh) * 2023-07-12 2023-10-13 成都信息工程大学 一种基于改进的隐式语义数据增强的微表情识别方法
CN117653042B (zh) * 2024-01-31 2024-04-26 中船凌久高科(武汉)有限公司 基于多模态的被看护人员疼痛级别判定方法及测试装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100086215A1 (en) 2008-08-26 2010-04-08 Marian Steward Bartlett Automated Facial Action Coding System
JP2010534376A (ja) 2007-07-23 2010-11-04 ザ プロクター アンド ギャンブル カンパニー しわのエイジング及びディエイジングの現実的シミュレーションの方法及び装置
US20110263946A1 (en) 2010-04-22 2011-10-27 Mit Media Lab Method and system for real-time and offline analysis, inference, tagging of and responding to person(s) experiences

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2522859B2 (ja) * 1990-12-14 1996-08-07 日産自動車株式会社 眼位置検出装置
US7054468B2 (en) 2001-12-03 2006-05-30 Honda Motor Co., Ltd. Face recognition using kernel fisherfaces
US6879709B2 (en) * 2002-01-17 2005-04-12 International Business Machines Corporation System and method for automatically detecting neutral expressionless faces in digital images
US8488023B2 (en) * 2009-05-20 2013-07-16 DigitalOptics Corporation Europe Limited Identifying facial expressions in acquired digital images
JP4240108B2 (ja) * 2006-10-31 2009-03-18 ソニー株式会社 画像記憶装置、撮像装置、画像記憶方法およびプログラム
US8005270B2 (en) * 2008-04-11 2011-08-23 Youdocs Llc System and method for determining an objective measure of human beauty
RU2431190C2 (ru) * 2009-06-22 2011-10-10 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ и устройство распознавания рельефности лица
US9760799B2 (en) * 2010-03-10 2017-09-12 Tandent Vision Science, Inc. Pipeline for generating an intrinsic image
KR101939772B1 (ko) * 2012-08-14 2019-01-17 삼성전자주식회사 얼굴 감정 추론 방법 및 장치, 얼굴 감정 추론 시스템 및 컴퓨터 프로그램 기록 매체
CN106778453B (zh) * 2015-11-25 2020-05-12 腾讯科技(深圳)有限公司 人脸图像中检测眼镜佩戴的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010534376A (ja) 2007-07-23 2010-11-04 ザ プロクター アンド ギャンブル カンパニー しわのエイジング及びディエイジングの現実的シミュレーションの方法及び装置
US20100086215A1 (en) 2008-08-26 2010-04-08 Marian Steward Bartlett Automated Facial Action Coding System
US20110263946A1 (en) 2010-04-22 2011-10-27 Mit Media Lab Method and system for real-time and offline analysis, inference, tagging of and responding to person(s) experiences

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Shashank Jaiswal and Michel Valstar,Deep learning the dynamic appearance and shape of facial action units,2016 IEEE Winter Conference on Applications of Computer Vision (WACV),米国,IEEE,2016年03月07日,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7477625
Shichuan Du, Yong Tao, and Aleix M. Martinez,Compound facial expressions of emotion,Proc Natl Acad Sci U S A.,米国,Natl Acad Sci U S A,2014年03月31日,pp.E1454-E1462,https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3992629/pdf/pnas.201322355.pdf
Ying-li Tian, Takeo Kanade and Jeffrey F. Cohn,Evaluation of Gabor-wavelet-based facial action unit recognition in image sequences of increasing complexity,Proceedings of the Fifth IEEE International Conference on Automatic Face and Gesture Recognition (FGR'02),米国,IEEE,2002年05月21日,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1004159
Zuheng Ming, Aurelie Bugeau, Jean-Luc Rouas, Takaaki Shochi,Facial Action Units Intensity Estimation by the Fusion of Features with Multi-kernel Support Vector Machine,2015 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG),米国,IEEE,2015年05月04日,pp.1-6,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7284870
ライブメッセージ伝達のための複合現実感を用いる3次元顔表情生成,電子情報通信学会論文誌 (J81-D-2),1998年05月25日
顔画像の特徴点移動量を用いたニューラルネットによる顔表情強度・種類抽出の一手法,電子情報通信学会技術研究報告 Vol.104 No.447,2004年11月11日

Also Published As

Publication number Publication date
KR20190025564A (ko) 2019-03-11
JP2019517693A (ja) 2019-06-24
WO2017210462A1 (en) 2017-12-07
KR102433971B1 (ko) 2022-08-19
EP3465615A1 (en) 2019-04-10
US11314967B2 (en) 2022-04-26
US20190294868A1 (en) 2019-09-26
US20220254191A1 (en) 2022-08-11
EP3465615A4 (en) 2020-05-06

Similar Documents

Publication Publication Date Title
JP7063823B2 (ja) 表情の認識および注釈付けのためのシステムおよび方法
Liu et al. Transferring deep representation for NIR-VIS heterogeneous face recognition
Fabian Benitez-Quiroz et al. Emotionet: An accurate, real-time algorithm for the automatic annotation of a million facial expressions in the wild
Dantcheva et al. What else does your biometric data reveal? A survey on soft biometrics
Masood et al. Prediction of human ethnicity from facial images using neural networks
Sirohey et al. Eye detection in a face image using linear and nonlinear filters
Yadav Emotion recognition model based on facial expressions
Agarwal et al. Facial expression recognition through adaptive learning of local motion descriptor
Arigbabu et al. Recent advances in facial soft biometrics
Liu et al. LEICA: Laplacian eigenmaps for group ICA decomposition of fMRI data
Hassaballah et al. Facial features detection and localization
Tong et al. Putative ratios of facial attractiveness in a deep neural network
Gowda Fiducial points detection of a face using RBF-SVM and adaboost classification
Al-Ani et al. Multi-view face detection based on kernel principal component analysis and kernel support vector techniques
Almutiry Efficient iris segmentation algorithm using deep learning techniques
Said et al. Face Recognition System
Upadhyay et al. Face Recognition Using EfficientNet
Gaur et al. Comparative studies for the human facial expressions recognition techniques
Borza et al. Towards automatic skin tone classification in facial images
Chalicham et al. Streamlit Web Application for Finding Similar Face Using Deep Learning
Nigam et al. Review of Facial Recognition Techniques
Chow et al. Efficient color face detection algorithm under different lighting conditions
Singh Recognizing altered facial appearances due to aging and disguise
Maftuna et al. IMAGE RECOGNITION METHODS
Patil et al. A Robust Algorithm for Face Detection on Unconstrained Background Images using Neural Network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220421

R150 Certificate of patent or registration of utility model

Ref document number: 7063823

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150