JP7063823B2

JP7063823B2 - 表情の認識および注釈付けのためのシステムおよび方法

Info

Publication number: JP7063823B2
Application number: JP2018562947A
Authority: JP
Inventors: マルティネス，アレイクス
Original assignee: オハイオ・ステイト・イノベーション・ファウンデーション
Priority date: 2016-06-01
Filing date: 2017-06-01
Publication date: 2022-05-09
Anticipated expiration: 2037-06-01
Also published as: EP3465615A4; US11314967B2; JP2019517693A; US20190294868A1; WO2017210462A1; EP3465615A1; KR102433971B1; KR20190025564A; US20220254191A1

Description

国家ライセンシング権
本発明は、国立眼科研究所、および国立聴覚・伝達障害研究所によって授与された助成金番号Ｒ０１－ＥＹ－０２０８３４およびＲＯ１－ＤＣ－０１４４９８の下で政府の支援を受けてなされた。どちらの機関も国立衛生研究所の一部である。政府は本発明において一定の権利を有する。

本出願は、２０１６年６月１日に出願された「表情の認識および注釈付けのためのシステムおよび方法」と題する米国仮特許出願番号６２／３４３，９９４の利益を主張する。上記出願の全体は参照により本明細書に組み込まれる。

顔の知覚と感情の理論の基礎研究は、感情表情の画像およびビデオシーケンスの大きな注釈付きデータベースに影響を与えることができる。最も有用で一般的に必要とされる注釈のいくつかは、アクションユニット（ＡＵ）、ＡＵ強度、および感情カテゴリである。中小規模のデータベースには、数ヶ月かけてエキスパートのコーダーが手動で注釈を付けることができるが、大規模なデータベースにはできない。たとえば、エキスパートコーダによって各顔の画像に非常に高速に注釈を付けることができたとしても（たとえば２０秒/画像）、１００万枚の画像をコーディングするのに５．５５６時間かかることになり、それは、６９４日（８時間）に換算でき、または休まずに行う仕事２．６６年に換算される。

既存のアルゴリズムでは、すべてのアプリケーションのすべてのＡＵを認識せず、ＡＵ強度を指定せず、大規模なデータベースを扱うには空間的および／または時間的に過度に計算が必要であるか、または特定のデータベース内でのみテストされる（たとえば、複数のデータベースが使用される場合でも、トレーニングとテストは、通常各データベース内で個別に行われる）。

本開示は、アクションユニット（ＡＵ）、それらの強度、ならびにデータベースにわたる多数（２３）の基本および複合感情カテゴリを認識するためのコンピュータビジョンおよび機械学習プロセスを提供する。重要なことに、例示されたプロセスは、データベースにわたるＡＵおよびそれらの強度の信頼できる認識を提供する最初のものであり、リアルタイムで実行される（３０画像／秒）。これらの機能は、「自然のままの（in the wild）」感情画像の百万の表情の大規模データベースへの自動注釈付けを容易にする。これは他のシステムでは達成できない功績である。

さらに、画像には４２１の感情キーワードで意味的に注釈が付けられる。

顔の画像におけるＡＵとＡＵ強度の認識のためのコンピュータビジョンプロセスが提示される。とりわけ、本プロセスは、データベースにわたるＡＵおよびＡＵ強度を確実に認識できる。本発明の分類器をトレーニングするために使用されていない独立した画像データベース上のＡＵおよびＡＵ強度を良好に認識するために、いくつかのデータベースを使用して本プロセスをトレーニングできることも本明細書で実証される。さらに、本プロセスは、感情の表情の画像の大きなデータベースを自動的に構築して注釈を付けるために使用される。画像は、ＡＵ、ＡＵ強度および感情カテゴリで注釈が付けられる。結果は、ＡＵ、ＡＵ強度、感情カテゴリおよび/または感情的キーワードによって容易に照会されることができる100万枚の画像のデータベースである。

さらに、本プロセスは、色特徴からＡＵを識別するための包括的なコンピュータビジョンプロセスを容易にする。この目的のために、色特徴をＡＵの認識にうまく利用することができ、前述のシステムで得られたものより優れた結果をもたらす。つまり、ＡＵが非アクティブからアクティブ、またはその逆に変わるときの色の変化を定義する関数は、ＡＵ内では一貫しており、それらの間の差異は異なる。さらに、本プロセスは、顔の色の変化をどのように利用して多種多様な画像条件下で撮影されたビデオ中のＡＵの存在を識別することができるかを明らかにする。

さらに、顔の色は顔の表情の感情を決定するために使用される。上述したように、人間の感情の表情は、一般的にアクションユニット（ＡＵ）と呼ばれる、自分の顔の筋肉を収縮させることによって作り出される。さらに、顔の表面も血管の大きなネットワークで神経支配される。例えば、怒りは顔への血流を増加させ、その結果赤い顔になるが、恐怖は顔からの血液の排出に関連し、青白い顔をもたらす。これらの目に見える顔の色は、顔の筋肉の活性化がない場合でも、顔の表情の画像における感情の解釈を可能にする。この色信号はＡＵが提供するものとは独立しているため、アルゴリズムはＡＵからの感情と色を独立して検出できる。

さらに、ディープニューラルネットワーク（ＤＮＮ）のためのグローバルローカル損失関数が提示され、それは類似の対象ランドマークの関心点ならびにＡＵおよび感情カテゴリのきめ細かい検出に効率的に使用することができる。導出された局所的および全体的な損失により、パッチベースのアプローチを使用する必要なしに正確な局所的結果が得られ、迅速で望ましい収束が得られる。本グローバルローカル損失関数は、ＡＵおよび感情カテゴリの認識に使用されてもよい。

いくつかの実施形態では、顔認識および注釈プロセスは臨床用途で使用される。

いくつかの実施形態では、顔認識および注釈プロセスは精神病理学的評価の検出に使用される。

いくつかの実施形態では、顔認識および注釈付けプロセスは、外傷後ストレス障害のスクリーニング、たとえば軍事施設または緊急治療室でのスクリーニングに使用される。

いくつかの実施形態では、顔認識および注釈プロセスは、顔の表情を認識するために学習障害（例えば、自閉症スペクトラム障害）を持つ子供を教えるために使用される。

いくつかの実施形態では、顔認識および注釈プロセスは、広告のために、たとえば広告を見ている人々の分析のために、映画を見る人々の分析のために、スポーツアリーナでの人々の反応の分析のために使用される。

いくつかの実施形態では、顔認識および注釈プロセスは監視のために使用される。

いくつかの実施形態では、感情、ＡＵおよび他の注釈の認識は、ウェブ検索を改善または識別するために使用され、例えば、システムは、驚きを表現する顔の画像または眉毛を有する特定の人物の画像を識別するために使用される。

いくつかの実施形態では、顔認識および注釈付けプロセスは、小売店で顧客の行動を監視、評価または決定するために使用される。

いくつかの実施形態では、顔認識および注釈プロセスは、施設または個人の電子写真を整理するために、例えば感情またはＡＵによって人の個人的写真を整理するために使用される。

いくつかの実施形態では、顔認識および注釈プロセスは、病院または臨床現場における患者の感情、痛みおよび精神状態を監視するために、例えば患者の不快感のレベルを決定するために使用される。

いくつかの実施形態では、顔認識および注釈プロセスは、運転者の行動ならびに道路および他の車両に対する注意を監視するために使用される。

いくつかの実施形態では、顔認識および注釈プロセスは、絵文字、ステッカーまたは他のテキストメッセージ感情的構成要素を自動的に選択するために使用される。

いくつかの実施形態では、顔認識および注釈プロセスは、オンライン調査を改善するために、例えば、オンライン調査参加者の感情的反応を監視するために使用される。

いくつかの実施形態では、顔認識および注釈プロセスは、オンライン教育および個別指導において使用される。

いくつかの実施形態では、顔認識および注釈プロセスは、求職者の適合が特定の会社であると判断するために使用され、例えば、会社は注意深い参加者を探しているが、別の会社は楽しい人格に興味がある。別の例では、顔認識および注釈プロセスを使用して、面接中またはオンラインビデオ履歴書中の個人の能力を判断する。

いくつかの実施形態では、顔認識および注釈プロセスはゲームで使用される。

いくつかの実施形態では、顔認識および注釈プロセスは、精神科医院、診療所または病院で患者の反応を評価するために使用される。

いくつかの実施形態では、顔認識および注釈プロセスは、乳児および子供を監視するために使用される。

一態様では、コンピュータ実施方法が開示される（例えばＡＵおよびＡＵ強度を決定するために画像を分析するために、例えばリアルタイムで）。この方法は、構成または他の形状特徴およびシェーディング特徴の１つまたは複数のカーネルベクトル空間（たとえばカーネルベクトル空間）をメモリ（たとえば永続メモリ）内に維持することを含む。各カーネル空間は、１つまたはいくつかのアクションユニット（ＡＵｓ）および／またはＡＵ強度値および／または感情カテゴリに関連付けられる。分析されるべき画像（例えば、外部から、または１つもしくは複数のデータベースからの表情の画像）を受け取る。受信する画像ごとに、ｉ）画像内の顔の形態特徴、形状特徴、およびシェーディング特徴（たとえば、顔空間は、形態特徴の形状特徴ベクトルと、顔のシェーディング変化に関連するシェーディング特徴ベクトルを含む）の顔空間データ（たとえば、顔ベクトル空間）を決定し、ｉｉ）ＡＵ、ＡＵ強度および感情カテゴリの存在を判定するために、形態特徴の決定された顔空間データを複数のカーネル空間と比較することによって画像に対する１つまたは複数のＡＵ値を決定する。

いくつかの実施形態では、方法は、複数の画像のそれぞれについてのＡＵ値およびＡＵ強度値を決定するために、複数の画像を含むビデオストリームをリアルタイムで処理することを含む。

いくつかの実施形態では、顔空間データは、形態特徴の形状特徴ベクトルと、顔のシェーディング変化に関連するシェーディング特徴ベクトルとを含む。

いくつかの実施形態では、形態、形状およびシェーディング特徴の決定された顔空間は、ｉ）画像から形成されたドロネー三角形の正規化されたランドマーク間の距離値（例えば、ユークリッド距離）およびｉｉ）正規化された顔のランドマークに対応するドロネー三角形それぞれによって定義される距離、面積および角度を含む。

いくつかの実施形態では、顔のシェーディング変化に関連するシェーディング特徴ベクトルは、顔から決定された正規化ランドマーク点にガボールフィルタを適用することによって（例えば、皮膚の局所的変形によるシェーディング変化をモデル化するために）決定される。

いくつかの実施形態では、形態特徴の形状特徴ベクトルは、画像上に投影されたランドマーク点、および/またはＡＵ、および/または感情のカテゴリの局所的および全体的適合の両方を逆伝播するように構成されたグローバルローカル（ＧＬ）損失関数を含むディープニューラルネットワーク（例えば畳み込みニューラルネットワーク、ＤＮＮ）を用いて導出されるランドマーク点を含む。

いくつかの実施形態では、方法は、各受信画像について、ｉ）顔の色特徴に関連する顔空間を決定すること、およびｉｉ）この決定された色顔空間を複数の色またはカーネルベクトル空間顔と比較することによって画像の１つまたは複数のＡＵ値を決定すること、ｉｉｉ）顔が、特定の感情を表現しているように見えるか、または１つまたは複数のＡＵをアクティブで有するかまたは特定の強度で有するように画像の色を修正すること、を含む。

いくつかの実施形態では、ＡＵ値およびＡＵ強度値は、まとめて、感情および感情強度を定義する。

いくつかの実施形態では、画像は写真を含む。

いくつかの実施形態では、画像はビデオシーケンスのフレームを含む。

いくつかの実施形態では、画像はビデオシーケンス全体を含む。

いくつかの実施形態では、この方法は、自然のまま（in the wild）（例えばインターネット）の表情の画像を受信することを含む。受信画像を処理して、受信画像内の顔のＡＵ値およびＡＵ強度値ならびに感情カテゴリを決定する。

いくつかの実施形態では、方法は、第１のデータベースから第１の複数の画像を受け取り、第２のデータベースから第２の複数の画像を受け取り、受信された第１の複数の画像および第２の複数の画像を処理して、それらの各画像について、それぞれの各画像における顔のＡＵ値およびＡＵ強度値を決定することを含む。第１の複数の画像は第１の取得形態（captured configuration）を有し、第２の複数の画像は第２の取得形態（captured configuration）を有する。第１の取得形態は、第２の取得形態とは異なる（例えば、取得形態は、照明方式および大きさ、画像の背景、焦点面、キャプチャ解像度、記憶圧縮レベル、顔に対するキャプチャのパン、チルト、およびヨー(yaw)等を含む。）

別の態様では、コンピュータ実施方法が開示される（例えば、画像内の色変化を使用してＡＵ、ＡＵ強度および感情カテゴリを決定するために画像を分析するための）。この方法は、ＡＵの非アクティブからアクティブへの遷移を定義する変化、この変化は色度、色相および彩度、ならびに輝度からなる群から選択され、を識別することと、識別された色度変化へのガボール変換の適用（例えば、顔の表情の間のこの変化の最小値に対する不変性を得るため）と、を含む。

別の態様では、ＡＵおよびＡＵ強度を決定するために画像を分析するためのコンピュータ実施方法が開示されている。この方法は、ＡＵおよび／またはＡＵ強度に関連する複数の色特徴データをメモリ（例えば、永続的メモリ）内に維持し、分析する画像を受け取り、受信する画像ごとに、ｉ）画像中の顔の形態色特徴を決定し、ｉｉ）決定された形態色特徴を複数のトレーニングされた色特徴データと比較して、決定された形態色特徴のうちの１つまたは複数のトレーニングされた色特徴データにおける存在を判定することによって、画像に対する１つまたは複数のＡＵ値を決定することを含む。

別の態様では、コンピュータ実施方法が開示される（例えば、それぞれＡＵ値およびＡＵ強度値に関連付けられた複数の顔空間データのリポジトリを生成するため。リポジトリは、ＡＵおよびＡＵ強度についての画像またはビデオフレームの顔データの分類に使用される。）。方法は、複数のＡＵ値およびＡＵ強度値についてのカーネル空間データを決定するために画像またはビデオフレーム内の複数の顔を分析することを含む。各カーネル空間データは、単一のＡＵ値および単一のＡＵ強度値に関連付けられ、各カーネル空間は他のカーネル面空間と線形的または非線形的に分離可能である。

いくつかの実施形態では、複数の顔を分析してカーネーションを決定するステップ、所定数のＡＵ強度値に対して複数のＡＵトレーニングセットを生成し、複数のカーネル空間を決定するためのカーネルサブクラス判別分析を実行することを含み、複数のカーネル空間のそれぞれは、所与のＡＵ値、ＡＵ強度値、感情カテゴリ、およびその感情の強度に対応する。

いくつかの実施形態では、カーネル空間は、画像またはビデオシーケンスの機能的色空間特徴データを含む。

いくつかの実施形態では、機能的色空間は、複数の画像のうちの所与の画像からそれぞれ導出されたカラー画像に対して判別機能学習分析を実行することによって（例えば、最大マージン機能分類器を使用して）決定される。

他の態様では、非一時的コンピュータ可読媒体が開示される。コンピュータ可読媒体には命令が格納されており、命令は、プロセッサによって実行されると、プロセッサに上述の方法のうちのいずれかを実行させる。

他の態様では、システムが開示される。このシステムは、プロセッサと、その上に格納された命令を有するコンピュータ可読媒体とを備え、命令は、プロセッサによって実行されると、プロセッサに上述の方法のうちのいずれかを実行させる。

図１は、自然のままの顔画像中の感情カテゴリおよびすべてを自動的に注釈付けするためのコンピュータビジョンプロセスの出力を示す図である。

図２Ａおよび図２Ｂを含む図２は、検出された顔のランドマークおよび画像のドロネー三角測量の図である。

図３は、アクティブＡＵを有するサンプル画像がサブクラスに分割される仮定モデルを示す図である。

図４は、ＡＵおよび感情カテゴリを決定するためにガボール変換を使用するシステムの例示的な構成要素図を示す。

図５は、ビデオおよび／または静止画像中の色特徴を用いてＡＵを検出するための色分散システムを示す。

図６は、ビデオおよび／または静止画像中の色特徴を用いてＡＵを検出するための色分散システムを示す。

図７は、ビデオおよび／または静止画像においてディープニューラルネットワークを使用してＡＵを検出するためのネットワークシステムを示す。

図８は、例示的なコンピュータシステムを示す。

自然のままの百万の表情の自動注釈付けのためのリアルタイムアルゴリズム

図１は、ＡＵ、ＡＵ強度、感情カテゴリ、または感情／影響キーワードによって容易に問い合わせ（例えばソート、整理など）することができる表情の結果データベースを示す。このデータベースは、新しいコンピュータビジョンアルゴリズムの設計、ならびに社会的および認知的心理学、社会的および認知的神経科学、神経マーケティング、精神医学などにおける基礎的、変遷的および臨床的研究を容易にする。

データベースは、自然のままの顔画像（すなわち、既存のデータベースではまだキュレーションされていない画像）内のカテゴリおよびＡＵについての感情に自動的に注釈を付けるコンピュータビジョンシステムの出力から編集される。画像の自動車は、ＷｏｒｄＮｅｔまたは他の辞書の中の顔と関連する感情キーワードを持つ画像だけを選択することによって、さまざまなＷｅｂ検索エンジンを使用してダウンロードされる。図１は、データベースに対する３つのクエリ例を示す。一番上の例は、幸せおよび恐怖と識別されたすべての画像を取得するときに取得された２つのクエリの結果である。また、幸せまたは恐怖のいずれかであると注釈された自然のままの画像のデータベース内の画像の数も示される。３番目のクエリは、ＡＵ４または６が存在するすべての画像と、感情的なキーワードが「不安」および「不承認」の画像をすべて検索した結果を示す。

ＡＵと強度の認識

いくつかの実施形態では、ＡＵを認識するためのシステムは、毎秒３０画像を超えて処理することができ、データベースにわたって非常に正確であると判定される。このシステムはデータベース間で高い認識精度を達成し、リアルタイムで実行できる。システムは、２３の基本的および／または複合的な感情カテゴリのうちの１つの中に表情を分類することを容易にすることができる。感情の分類は、検出されたＡＵ活性化パターンによって与えられる。いくつかの実施形態では、画像は２３のカテゴリのうちの１つに属していなくてもよい。この場合、画像には感情カテゴリなしでＡＵの注釈が付けられる。画像にアクティブなＡＵがない場合、その画像は中立的な表現（neutral expression）として分類される。顔における感情および感情強度を決定することに加えて、例示されたプロセスは、画像中の「顔ではない」を識別するために使用され得る。

ＡＵと強度認識のための顔空間

システムは、顔画像内のＡＵを表すために使用される特徴空間を定義することによって開始する。人間による顔の知覚、特に顔の表情は、形状分析と陰影分析との組み合わせを含むことが知られている。システムは、感情の表情の認識を容易にする形状特徴を定義することができる。形状特徴は、顔のランドマーク（すなわち、顔画像中のランドマーク点間の距離および角度）の二次統計量であり得る。特徴は顔の形態を定義するので、特徴は代替的に形態特徴と呼ぶことができる。本出願ではこれらの用語は互換的に使用され得ることが理解される。

図２（ａ）は、提案されたアルゴリズムによって使用される正規化された顔のランドマーク

の例を示す。いくつか（例えば、１５個）のランドマークが解剖学的ランドマーク（例えば、目の角、口、眉毛、鼻の先端、およびあご）に対応することができる。他のランドマークは、まぶた、口、眉、唇、および顎の線の端、ならびに鼻の先端から２つの目の中心によって与えられる水平線までの鼻の正中線を定義する疑似ランドマークであり得る。各顔の構成要素（例えば、眉毛）の輪郭を画定する擬似ランドマークの数は一定であり、これは、異なる顔または人に対してランドマーク位置の同等性を提供する。

図２（ｂ）は、システムによって実行されたドロネー三角形分割を示す。この例では、この構成の三角形の数は１０７である。画像にはベクトルの角度θ_a=(θ_a1,…,θ_aqa)^T (q_a=３)も示され、角度θaは、正規化されたランドマークから出る三角形の角度

を定義する。

は、ＡＵｉのj^th のサンプル画像(j = 1, …, n_i )内のランドマーク点のベクトルにすることができる。ここで、

はk^thのランドマークの2D画像座標である。n_i はＡＵｉが存在するサンプル画像の数である。いくつかの実施形態において、顔のランドマークは、コンピュータビジョンアルゴリズムを用いて取得され得る。例えば、コンピュータビジョンアルゴリズムは、ランドマークの数が６６個の場合

において、図２ａに示すように、任意の数のランドマーク（例えば、テスト画像中の６６個の検出されたランドマーク）を自動的に検出するために使用することができる）。

トレーニング画像は、τピクセルの同じ眼間距離を有するように正規化することができる。具体的には、

とし、

とし、l、rは、左右の目の中心の画像座標であり、

は、ベクトル

およびτ＝３００の２ノルムを定義する。各目の中心の位置は、目の２つの角を画定するランドマーク間の幾何学的中間点として容易に計算することができる。

構成特徴の形状特徴ベクトルは、次のように定義することができる。

を正規化されたランドマークa=1,…,p-1,b=a+1,p間のユークリッド距離とし、θ_a = (θ_a1, … , θ_aqa)^Tは、

および

を起点とする数q_aを伴う正規化されたランドマーク

から出る各ドロネー三角形によって定義される角度である（境界がない境界点についても同等性が成り立つ）。この図の各三角形は３つの角度で定義できるため、この例では１０７個の三角形があるので、形状特徴ベクトル内の角度の総数は３２１である。形状特徴ベクトルは

であり、ドロネー三角形分割のpはランドマークの数、tは三角形の数である。この例では、p =６６、t =１０７で、ベクトル

である。

システムは、正規化されたランドマーク点

のそれぞれを中心とするガボールフィルタを使用して、皮膚の局所的変形によるシェーディング変化をモデル化することができる。顔筋群が顔の皮膚を局所的に変形させると（例えば皮膚の双方向反射率分布関数は、皮膚のしわの関数として定義される。これは、光が表皮と真皮の間を透過して移動する方法を変更し、ヘモグロビンレベルも変化させる可能性があるためである。）、皮膚の表面上の点から見て、皮膚の反射率特性が変化し、光源が短くなる。

ヒトの初期視覚皮質の細胞は、ガボールフィルタを使用してシステムによってモデル化することができる。顔の知覚は、ガボール風のモデリングを使用して、感情を表現するときに見られるような濃淡の変化に対する不変性を得ることができる。次のように定義できる。

は波長（すなわち、サイクル数/ピクセル）、αは方向（すなわち、正弦関数の法線ベクトルの角度）、φは位相（すなわち、正弦関数のオフセット）、γは（空間的）アスペクト比、σはフィルタのスケール（ガウス窓の標準偏差）である。

いくつかの実施形態では、ガボールフィルタバンクは、o方位、s空間スケール、およびr位相と共に使用することができる。ガボールフィルタの例では、次のように設定されている。

γ=１。値は感情の表情を表すのに適している。o、s、およびrの値は、トレーニングセットの交差検定を使用して学習される。

I_ijは、ＡＵｉが存在し、j^th番目のサンプル画像でありk^th番目のランドマーク点でのガボール応答の特徴ベクトルとして

と定義され、＊は、フィルタg(.)と画像Ｉ_ｉｊとの畳み込みを定義し、λ_ｋは、上で定義された集合λのｋ^th番目の要素である。同じことがα_kとφkにも当てはまるが、これは一般に1なのでγには当てはまらない。

ＡＵｉがアクティブであるj^th番目のサンプル画像に対するすべてのランドマーク点上のガボール応答の特徴ベクトルは、次のように定義される。

特徴ベクトルは、顔のランドマークの周りの局所パッチのシェーディング情報を定義し、それらの次元数はg_ij∈R^{5×p×o×s×r}である。

顔空間におけるＡＵｉの形状およびシェーディング変化を定義する最終特徴ベクトルは、次のように定義される。

ＡＵと強度認識のための顔空間の分類

システムは、ＡＵｉのトレーニングセットを以下のように定義することができ、

j = 1, ... , n_iに対してy_ij= 1であり、ＡＵiが画像に存在することを示し、j = n_i+ 1, ..., n_i+ m_iに対してy_ij= 0であり、ＡＵiが画像に存在しないことを示し、m_iはＡＵiがアクティブでないサンプル画像の数である。

上記のトレーニングセットは以下のように順序付けられる。セット

は、強度ａ（すなわち、ＡＵの活性化の最低強度）で活性なＡＵｉを有するｎ_ｉａサンプルを含むみ、セット

は、強度ｂ（２番目に小さい強度）でアクティブなＡＵiを持つn_ibサンプルである。

セット

は、強度c（次の強度）でアクティブなＡＵｉを持つn_icサンプルである。

セット

は、強度ｄ（これが最高強度である）でアクティブなＡＵｉを持つn_idサンプルであり、n_ia+n_ib+n_ic+n_id=n_iである。

ＡＵは５つの強度で活性化することができ、それはａ、ｂ、ｃ、ｄ、またはｅと標識することができる。いくつかの実施形態では、強度ｅを伴う稀な例があり、したがって、いくつかの実施形態では、他の４つの強度で十分である。そうでなければ、D_i（e）は５番目の強度を定義する。

上記で定義された４つのトレーニングセットはＤｉのサブセットであり、ＡＵｉがアクティブである画像のセットの異なるサブクラスとして表すことができ、サブクラスベースの分類子を使用でき、システムは本プロセスを導出するためにカーネルサブクラス判別分析（ＫＳＤＡ）を利用する。ＫＳＤＡは、カーネル行列とサブクラスの数を最適化することによって複雑な非線形分類境界を明らかにできるため使用できる。ＫＳＤＡはクラス判別基準を最適化してクラスを最適に分離することができる。この基準は形式的にはQ_i（φ_i、h_i1、h_i2）= Q_i1（φ_i、h_i1、h_i2）Q_i2（φ_i、h_i1、h_i2）で与えられ、Q_i1（φ_i、h_i1、h_i2）は等分散性の最大化を担う。カーネルマップの目的は、データが線形に分離可能であるカーネル空間Ｆを見つけることであり、いくつかの実施形態では、サブクラスは、クラス分布が同じ分散を共有する場合であるＦにおいて線形に分離可能であり得る。Q_i2(φ_i,h_i1,h_i2)は、すべてのサブクラス平均間の距離を最大化する（すなわち、これは最小ベイズ誤差を有するベイズ分類器を見つけるために使用される）。

この想起を見るために、ベイズ分類境界は、２つの正規分布の確率が同一である特徴空間の位置において与えられることを思い出されたい(例えばp(z|N(μ₁,Σ₁))= p(z|N(μ₂,Σ₂))、N(μ_i,Σ_i)は、平均μ_iと共分散行列Σ_iをもつ正規分布である。２つの正規分布の平均を分離すると、この等式が成り立つ値が減少する、例えば、等式p(x|N(μ₁,Σ₁))=p(x|N(μ₂,Σ₂))は以前よりも低い確率値で与えられるので、ベイズ誤差は減少する。

したがって、上記のＫＳＤＡ基準の最初の要素は、

で与えられ、

は、マッピング関数によって定義されるカーネル空間内のサブクラス共分散行列（すなわち、サブクラスl内のサンプルの共分散行列）であり、j_i(.):R^e→F,h_i1は、画像中に存在するＡＵｉを表すサブクラスの数であり、h_i2はＡＵｉを表すサブクラスの数で、画像には含まれておらず、e=3t+p(p-1)/2+5×p×o×s×rは、フェイススペースに関するセクションで定義されている顔スペース内の特徴ベクトルの次元数である。

ＫＳＤＡ基準の２番目の要素は、

であり、p_il= n_l/n_iは、クラスiのサブクラスlの前のものであり（すなわちＡＵｉを定義するクラス）、n_lは、サブクラスlのサンプル数であり、

は、マッピング関数j_i(.)で定義されるカーネル空間のクラスiのサブクラスlのサンプル平均である。

例えば、システムは、放射基底関数（ＲＢＦ）カーネルを使用してマッピング関数φi（．）を定義でき、

ν_iはＲＢＦの分散であり、j₁,j₂=1,...,n_i+m_iである。それ故、本発明のＫＳＤＡに基づく分類器は、以下の解によって与えられる。

図３は、ＡＵｉのモデルをもたらすための上記方程式の解を示す。上記の仮説モデルでは、ＡＵ４がアクティブなサンプル画像は最初に４つのサブクラスに分割され、各サブクラスは同じ強度のＡＵ４のサンプルを含む(a-e)。次に、導き出されたＫＳＤＡベースのアプローチは、各サブクラスを追加のサブクラスにさらに細分するプロセスを使用して、上記の正規分布が線形に分離されできるだけ互いに離れているカーネル空間にデータを本質的にマッピングするカーネルマッピングを見つける。

これを行うために、システムはトレーニングセットＤ_ｉを５つのサブクラスに分割する。第１のサブクラス（すなわち、ｌ＝１）は、強度ａでアクティブなＡＵｉを有する画像に対応するサンプル特徴ベクトルを含み、つまり、D_i(a) は、その全体が参照により本明細書に組み込まれているS. Du, Y. TaoおよびA. M. Martinezの「複合的な表情の感情表現」国立科学アカデミー論文集111(15):E1454-E1462, 2014で定義されている。２番目のサブクラス（ｌ＝２）はサンプルサブセットを含む。同様に、３番目と４番目のサブクラス（ｌ＝２、３）は、それぞれサンプルサブセットを含む。最後に、５つのサブクラス（ｌ＝５）は、ＡＵｉがアクティブではない画像、例えば

に対応するサンプル特徴ベクトルを含む。

したがって、最初は、アクティブ／非アクティブのＡＵｉを定義するためのサブクラスの数は５である（すなわち、ｈ_ｉ１＝４およびｈ_ｉ２＝１）。いくつかの実施形態では、この数はもっと大きくてもよい。たとえば、強度eの画像が考慮されるとする。

式１４を最適化すると、追加のサブクラスが得られる。導出された手法は、サブクラスｈ_ｉ１およびｈ_ｉ２の数と同様にカーネルマップｕ_ｉのパラメータを最適化する。この実施形態では、最初の（５つの）サブクラスをさらにサブクラスに細分することができる。例えば、カーネルパラメータν_iが、Ｄ_ｉ(a)内の非線形に分離可能なサンプルを他のサブセットから線形に分離可能な空間にマッピングできない場合、Ｄｉ(a)はさらに２つのサブセットD_i(a)={D_i(a₁),D_i(a₂)}に分割される。この分割は単に最近隣クラスタリングによって与えられる。形式的には、サンプルz_{i j+1}をz_ijの最近傍とすると、Ｄｉ(a)の除算は

によって容易に与えられる。

同じことが、D_i(b)、D_i(c)、D_i(d)、D_i(e)、D_i（非アクティブ）にも当てはまる。したがって、式１４を最適化することは、ＡＵｉの活性化または非活性化の各強度のサンプルをモデル化するための複数のサブクラスをもたらし得、例えば、サブクラス1（ｌ＝１）がＤｉ(a)のサンプルを定義し、システムがこれを２つのサブクラス（および現在ｈ_ｉ１＝４）に分割すると、新しい２つの第１のサブクラス(the first new two subclasses)は、Ｄｉ(a₁)のサンプルとＤｉ(a₂)内の第２のサブクラス（ｌ＝２）含む第１のサブクラスを使用して、Ｄｉ(a)のサンプルを定義するために使用される（そしてｈ_ｉ１は５になる）。後続のサブクラスは、上で定義されたように、サンプルをD_i(b), D_i(c), D_i(d), D_i(e) ,D_i（非アクティブ）に定義する。したがって、Ｄ_ｉで与えられるサンプルの順序は、サブクラス１からＡＵｉがアクティブである画像に関連するサンプル特徴ベクトルを定義するｈ_ｉ１、およびサブクラスｈ_ｉ１＋１からＡＵｉがアクティブでない画像を表すｈ_ｉ１＋ｈ_ｉ２で変わることはない。この最終結果は、図３の仮説の例を使用して説明されている。

一例では、一組の画像I_test内のすべての試験画像を分類することができる。第１に、I_testは、上述のようにフェイススペースに関して計算されるフェイススペースベクトルz_test内の特徴表現を含む。次に、ベクトルはカーネル空間に投影され、z^j _test.と呼ばれる。この画像がアクティブなＡＵｉを有するかどうかを判断するために、システムは最も近い平均を計算し、

もし j^＊ h_i1であれば、I_testはＡＵｉがアクティブであるとラベル付けされ、そうでなければされない。

分類結果は強度認識を提供する。サブクラスlで表されるサンプルがＤｉ(a)のサンプルのサブセットである場合、識別された強度はaである。同様に、サブクラスlのサンプルがD_i(b), D_i(c), D_i(d) またはD_i(e)のサンプルのサブセットである場合、テスト画像I_testのＡＵiの強度は、それぞれb、c、d、eである。もちろん、j *> h_i1の場合、画像にはＡＵｉが存在せず、強度もない（または、強度がゼロであると言える）。

図４は、図１～図３に関して上述した機能を実行するためのシステム４００の例示的な構成図を示す。システム４００は、一組の画像を有する画像データベース構成要素４１０を含む。システム４００は、画像データベース内の顔以外の画像を除去するための検出器４２０を含む。顔のみを含む画像の画像セットのサブセットを作成する。システム４００は、トレーニングデータベース４３０を含む。トレーニングデータベース４３０は、画像を感情カテゴリに分類するために分類器コンポーネント４４０によって利用される。システム４００は、少なくとも１つのＡＵおよび感情カテゴリで画像をタグ付けするタグ付けコンポーネント４５０を含む。システム４００はタグ付き画像を処理済み画像データベース４６０に格納することができる。

顔アクションユニット認識のための色特徴の判別関数学習

別の態様では、システムは、顔の色特徴を使用してＡＵを識別するための包括的なコンピュータビジョンプロセスを容易にする。色特徴は、ＡＵおよびＡｕ強度を認識するために使用され得る。ＡＵが非アクティブからアクティブ、またはその逆に変わるときの色の変化を定義する関数は、ＡＵ内およびそれらの違いの間で一貫している。さらに、システムは、顔の色の変化をどのように利用して、多種多様な画像条件の下で、および画像データベースの外部で撮影されたビデオ中のＡＵの存在を識別することができるかを明らかにする。

システムは、i^th番目のサンプルビデオシーケンスV_i= {I_i1, ... , I_iri}を受信する。r_iはフレーム数、I_ik∈R^3qwはq×w RGBピクセルのベクトル化されたk^th番目のカラー画像である。 V_iはサンプル関数f_i(t)として記述である。

本システムは、本明細書に記載のアルゴリズムを使用して、顔上の一組の物理的顔ランドマークを識別し、局所的顔領域を取得する。システムはランドマーク点をベクトル形式でs_ik=(s_ik1,…,s_ik66)として定義し、iはサンプルビデオインデックス、kはフレーム番号、s_ikl∈R²はl^th番目、l=1,..., 66、のランドマークの２Ｄ画像座標である。説明の目的で、特定の例示的な値（例えば、６６個のランドマーク、１０７個の画像パッチ）を使用することができる。

システムは、上述のようにドロネー三角形分割で得られた１０７個の画像パッチｄ_ｉｊｋの集合として集合D_ij= {d_i1k,...,d_i107k}を定義し、d_ijk ∈ R^3q _ijはq_ij個のＲＧＢピクセルのj^th番目の三角局所領域を表すベクトルで、上記のように、ｉはサンプルビデオ番号(i=1,...,n)を指定し、kはフレーム(k=1,...,r_i)を指定する。

いくつかの実施形態では、これらの局所（三角形）領域のサイズ（すなわち、ピクセル数、ｑ_ｉｊ）は、個人間で異なるだけでなく、同一人物のビデオシーケンス内でも変動する。これは、顔のランドマーク点の移動、顔の表情を生み出すために必要なプロセスの結果である。システムは、これらの各局所領域内のピクセル数に対して不変の特徴空間を定義する。システムは、以下のように各局所領域内のピクセルの色に関する統計を計算する。

システムは、各局所領域の色の一次および二次（中心）モーメントを計算し、

d_ijk=(d_ijk1,…,d_ijkP)^Tおよびμ_ijk,σ_ijk∈R³とする。いくつかの実施形態では、追加のモーメントが計算される。

各局所パッチの色特徴ベクトルは、次のように定義することができ、

iはサンプルビデオインデックス(V_i)、jはローカルパッチ番号、r_iはこのビデオシーケンスのフレーム数である。この特徴表現は、パッチｊにおける色の寄与を定義する。いくつかの実施形態では、特徴表現の豊かさを増すために他の証明済みの特徴を含めることができる。たとえば、フィルタへの応答や形状特徴である。

色の不変関数表現

システムは、時間に対して不変の関数として上記の計算された色情報を定義することができる。すなわち、機能的表現は、ビデオシーケンス内のどこでＡＵがアクティブになるかにかかわらず一貫している。

色関数f(.)はビデオシーケンスＶの色変化を定義し、テンプレート関数f_T(.)は、ＡＵの起動（つまり、ＡＵが非アクティブからアクティブに）に関連する色変化をモデル化する。システムは、f_T(.)がf(.)にあるかを判断する。

いくつかの実施形態では、システムは、テンプレート関数f_T(.)をf_T(.)の時間領域内の各可能な位置に配置することによってこれを決定する。f_T(.)のすべての可能な位置が確認されるまでウィンドウを左右にスライドさせることを含むため、これは通常スライディングウィンドウアプローチと呼ばれる。

他の実施形態では、システムはガボール変換を用いた方法を導出する。ガボール変換は、スライディングウィンドウ検索を使用せずにf(.)内のf_T(.)の一致を見つけるためのアルゴリズムを導出するために、関数の局所セクションの周波数と位相の内容を決定するように設計されている。

この実施形態では、一般性を失うことなく、f(t)は、色記述子のうちの１つ、例えば、ビデオｉのｊ^th番目の三角形の中の赤色チャネルの平均、または反対色表現（opponent color representation）の第１のチャンネルになることができる。そして、この関数のガボール変換は、

であり、

g(t)は凹関数であり、

である。１つの可能なパルス関数は以下のように定義され得、

Ｌは固定時間長である。他の実施形態では他のパルス関数を使用することができる。 2つの方程式を使うと

となり、

期間[0、L]、したがってＧ(., .)の内積の定義として、次のように書くことができ、

<., .>は機能的内積である。上記のガボール変換は、ノイズがない場合、時間と周波数が連続的である。

ｉ^th番目のビデオの色記述子f_i1(t)を計算するために、すべての関数は、係数のベクトルが

である一組のｂ個の基底関数

によって張られた色空間において定義される。２つの色記述子の機能的内積は、

で定義されることができ、

Φは要素Φ_ij=(f_i(t),f_j(t))をもつb×b行列である。

いくつかの実施形態では、モデルは、統計的色特性が経時的に滑らかに変化し、筋肉活性化におけるそれらの効果がＬ秒の最大期間を有すると仮定する。この説明に適合する基底関数は、フーリエ級数の実部の最初のいくつかの成分、すなわち正規化余弦基底である。他の実施形態では他の基底関数を使用することができる。

余弦基底は、ψ_z(t)=cos(2πzt)、z=0,...,b - 1として定義することができる。対応する正規化基底は、次のように定義される。

規化基底関数（normalized basis set）は、Φ=Id_bを許容する。ここで、Id_bは、任意の正定値行列ではなく、ｂ×ｂ単位行列を表す。

余弦基底を用いた上記の導出は、周波数空間を暗黙的に離散的にする。色関数のガボール変換

は次のようになり、

は、区間[t-L,t]で計算された関数

で、c_i1zはz^th番目の係数である。

上記で導出したシステムは時間領域を含まないが、必要に応じて時間領域係数を見つけて利用することができることを理解されたい。

アクションユニットの機能分類

システムは、上記で導出されたガボール変換を使用して、ＡＵのタイミングおよび期間に対して不変の特徴空間を定義する。結果として生じる空間において、システムは線形または非線形分類器を使用する。いくつかの実施形態では、ＫＳＤＡ、サポートベクターマシン（ＳＶＭ）またはディープマルチレイヤニューラルネットワーク（ＤＮ）を分類器として使用することができる。

機能色空間

システムは、異なる局所パッチからの色情報の平均および標準偏差を記述する関数を含み、それは以下に記述される複数の関数の同時モデリングを使用する。

システムは多次元関数

を定義し、各関数γ_z(t)は所与のパッチにおけるカラーチャネルの平均または標準偏差である。基底展開アプローチを使用すると、それぞれ

は、係数c_ieのセットによって定義され、したがって、Γ_i(t)は次式で与えられる。

多次元関数の内積は、正規化されたフーリエ余弦基底を使用して再定義され、

となる。

他の基底は、他の実施形態で使用することができる。

システムは、各分類器を最適化するためにビデオシーケンスのトレーニングセットを使用する。システムはビデオの長さ（すなわちフレーム数）に対して不変であることに留意することが重要である。したがって、システムは、認識のためにビデオの整列または切り取りを使用しない。

いくつかの実施形態では、上記の手法およびマルチクラス分類器を使用してＡＵ強度を識別するようにシステムを拡張することができる。システムは、ＡＵと、５つの強度ａ、ｂ、ｃ、ｄ、ｅのそれぞれを検出するようにトレーニングされ得、ＡＵは非アクティブである（存在しない）。システムはまた、上記と同じアプローチを使用して、表情の画像中の感情カテゴリを識別するようにトレーニングされ得る。

いくつかの実施形態では、システムはビデオ内のＡＵおよび感情カテゴリを検出することができる。他の実施形態では、システムは静止画像内のＡＵを識別することができる。静止画像内のＡＵを識別するために、システムは最初に回帰を用いて単一画像から上記で定義された機能的色特徴を計算することを学習する。この実施形態では、システムは関数h(x)=yを回帰して入力画像ｘを色ｙの必要な関数表現にマッピングする。

サポートベクターマシン

トレーニングセットは、{(γ₁(t),y₁),...,(γ_n(t),y_n)}で定義され、γ_i (t) ∈ H^v, H^vは、次数vまでの有界導関数をもつ連続関数のヒルベルト空間であり、y_i ∈ {-1, 1}はクラスラベルで、＋１はＡＵがアクティブで－１は非アクティブであることを示す。

別個のクラスのサンプルが線形に分離可能であるとき、クラスの分離可能性を最大にする関数w(t)は、以下で与えられ、

vはバイアスであり、上記のように、

は機能的内積を表し、ξ=(ξ₁,...,ξ_n)^Tはスラック変数で、ｃ＞０は交差検定を使用して検出されたペナルティ値である。

正規化余弦係数を（２８）と使用してΓ_iをモデル化するために我々によって導出された手法を適用することは、（２９）を以下の基準に変換し、

ｃ＞０は交差検定を使用して見つかったペナルティ値である。

システムは、元の色空間をデータの最初のいくつか（例えば２つ）の主成分に投影する。主成分は主成分分析（ＰＣＡ）によって得られる。結果のp次元は、φ_PCAk,k =1,2,…,pとラベル付けされる

一旦トレーニングされると、システムはリアルタイムで又はリアルタイムよりも速くビデオ内のＡＵ、ＡＵ強度及び感情カテゴリを検出することができる。いくつかの実施形態では、システムは、３０フレーム／秒／ＣＰＵスレッドを超えるＡＵを検出することができる。

多層パーセプトロンを用いたディープネットワークアプローチ

いくつかの実施形態では、システムは、色特徴空間内の非線形分類器を識別するためのディープネットワークを含むことができる。

システムは、係数c_iを使用して多層パーセプトロンネットワーク（ＭＰＮ）をトレーニングすることができる。このディープニューラルネットワークは、バッチ正規化およびいくつかの線形または非線形の機能的整流、例えば整流線形ユニット（ＲｅＬｕ）を有する接続された層のいくつか（たとえば５つ）のブロックから構成される。ネットワークを効果的にトレーニングするために、システムは、少数派クラスをスーパーサンプリングする（ＡＵアクティブ/ＡＵ強度）か、多数派クラスをダウンサンプリングする（ＡＵ非アクティブ）ことによってデータ拡張（data augmentation）を使用する。システムはクラスの重みと重みの減衰も使用できる。

このニューラルネットワークを勾配降下法を用いてトレーニングする。結果として生じるアルゴリズムは、リアルタイムで、またはリアルタイムよりも速く、＞３０フレーム／秒／ＣＰＵスレッドで動作する。

静止画像中のＡＵ検出

システムを静止画像に適用するために、システムは画像I_iの色関数f_iを特定する。つまり、システムはマッピングh(I_i)=f_iを定義する。ここでf_iはその係数

で定義される。いくつかの実施形態では、係数は、非線形回帰を使用してトレーニングデータから学習することができる。

システムは、ｍ個のビデオ{V₁,...,V_m}のトレーニングセットを利用する。上記のように、V_i={I_i1,...,I_iri}である。システムは、長さL(with L_i)、例えばW_i1={I_i1,...,I_iL}, W_i2={I_i2,...,I_i(L+1)},...,W_i(ri-L)={I_i(ri-L),...,I_iri}の連続フレームのすべてのサブセットを考慮する。システムは、上記のようにすべてのW_ikの色表現を計算する。これにより、各W_ik, k=1,..., r_i-Lについてx_ik=(x_i1k,...,x_i107k)^Tが得られる。次の（１９）では、

iとkはビデオW_ikを指定し、j、j =1,...,107はパッチを指定する。

システムは、各パッチについて各W_ikの機能色表現f_ijk、j=1,...,107を計算する。これは、f_ijk=(c_ijk1,...,c_ijkQ)^Tをもたらすために上で詳述されたアプローチを使用して行われ、c_ijkqは、ビデオW_ijのjパッチのq^th番目の係数である。トレーニングセットは、ペア{x_ijk, f_ijk}によって与えられる。トレーニングセットは、関数f_ijk=h(x_ijk)を回帰するために使用される。例えば、パッチｊにおけるテスト画像をI、色表現を

とする。回帰は、上で定義されたように、画像から機能的色表現へのマッピングを推定するために使用される。たとえば、カーネルリッジ回帰を使用して、テスト画像のq^th番目の係数をNと推定する。

は、j^th番目のパッチ

の色特徴ベクトルであり、すべてのトレーニング画像のj^th番目のパッチの係数のベクトルであり、Kはカーネル行列

である。システムはラジアル基底関数カーネル

を使用できる。いくつかの実施形態では、パラメータηおよびλは、精度を最大にし、モデルの複雑さを最小にするように選択される。これはバイアスと分散のトレードオフを最適化することと同じである。このシステムは、当技術分野で知られているようにバイアス分散問題に対する解決策を使用する。

上記に示したように、システムは、以前には見られなかったテスト画像に対してリグレッサ（regressor：独立変数）を使用することができる。もし

が以前には見られなかったテスト画像であるならば、その機能的表現は

と

として容易に得られる。この機能的色表現は、上記で導出された機能的分類子において直接使用され得る。

図５は、ビデオおよび／または静止画像における色分散を用いてＡＵまたは感情を検出するための色分散システム５００を示す。システム５００は、一組のビデオおよび／または画像を有する画像データベースコンポーネント５１０を含む。システム５００は、画像データベース５１０内のランドマークを検出するランドマークコンポーネント５２０を含む。ランドマークコンポーネント５２０は、定義されたランドマークを有する画像の画像のセットのサブセットを作成する。システム５００は、ビデオシーケンス内の色の変化または顔の静止画像内の統計を計算する統計コンポーネント５３０を含む。統計コンポーネント５３０から、上述のようにデータベースコンポーネント５１０内の各ビデオまたは画像に対してＡＵまたは感情が決定される。システム５００は、画像を少なくとも１つのＡＵでタグ付けするか、またはＡＵなしでタグ付けするタグ付けコンポーネント５４０を含む。システム５００はタグ付き画像を処理済み画像データベース５５０に格納することができる。

顔の表情の画像から感情を認識し、顔の画像を編集して別の感情を表現するように見せるための顔の色

上記の方法において、システムは、構成、形状、シェーディングおよび色の特徴を使用してＡＵを識別する。これは、ＡＵが感情のカテゴリを定義し、すなわち、ＡＵの固有の組み合わせが固有の感情のカテゴリを指定するからである。それにもかかわらず、顔の色も感情を伝える。顔は、皮膚の表面に最も近い血管網上の血流を変えることによって、観察者に感情情報を表現することができる。例えば、怒りに関連した発赤や恐怖の中の青白さを考える。これらのカラーパターンは血流の変動によって引き起こされ、筋肉の活性化がない場合でも発生する可能性がある。我々のシステムはこれらの色の変化を検出するため、筋肉の動きがなくても（すなわち、ＡＵが画像内に存在するか否かにかかわらず）、感情を識別することが可能になる。

顔の領域

システムは、ｐ×ｑの画素の各顔カラー画像を、

として表し、顔の各顔面成分のｒ個のランドマーク点を

画像上のランドマーク点の２次元座標、として表す。ここで、iは主題を指定し、ｊは感情カテゴリを指定する。いくつかの実施形態において、システムはｒを６６として使用する。これらの基準点は、内部の輪郭と、顔の外部要素、例えば、口、鼻、目、眉、あごの稜と紋を定義する。ドロネー三角形分割は、これらの顔のランドマーク点によって定義される三角形の局所領域を生成するために使用することができる。この三角形分割は、いくつかの局所領域（例えば、６６個のランドマーク点を使用するときには１４２個の領域）をもたらす。この数をaとする。

システムは、ａの局所領域のそれぞれの画素を返す一連の関数として、関数D＝{d_１,...,d_ａ}を定義することができる。例えば、d_k（I_ij）は、画像I_ijにおけるk^th番目のドロネー三角形、例えば、

の内部におけるl個の画素を含むベクトルであり、ここで、

は、各画素の３つのカラーチャネルの値を定義する。

色空間

上記の導出は、各顔画像を一連の局所領域に分割する。システムは、各画像内のこれらの局所領域のそれぞれの色統計量を計算することができる。具体的には、システムは、以下のように定義される、データの一次モーメントおよび二次モーメント（すなわち、平均および分散）を計算する。

他の実施形態では、画像の色の追加のモーメントが利用される。すべての画像I_ijは、色統計量の以下の特徴ベクトルを用いて表す。

同じモデルを使用して、システムは各中立面の色特徴ベクトルを以下のように定義する。

ここで、nは、この特徴ベクトルが感情カテゴリではなく中立的な表現に対応することを示す。平均的な中立面は以下である。

ｍは、トレーニングセット内の識別子の数である。感情の顔表情の色表現は、この中立の顔からの偏差によって与えられる。

分類

システムは、線形または非線形の分類器を使用して、上記で定義された色空間内の感情カテゴリを分類する。いくつかの実施形態では、線形判別分析（ＬＤＡ）が上記で定義された色空間で計算される。いくつかの実施形態において、色空間は、以下のマトリックスのゼロではない固有値に対応する固有ベクトルによって定義することができる。

ここで、以下は、（正規化された）共分散行列である。

以下は、クラス平均である。

以下は、識別マトリクスである。

δ＝.01が正規化パラメータであり、Ｃはクラスの数である。

他の実施形態において、システムは、サブクラス判別分析（ＳＤＡ）、ＫＳＤＡ、またはディープニューラルネットワークを採用することができる。

多方向分類

選択された分類器（例えば、ＬＤＡ）は、Ｃの感情カテゴリおよび中立の色空間（または複数の空間）を計算するために使用される。いくつかの実施形態において、システムは、基本感情および複合感情を含む２３の感情カテゴリを認識するように訓練されている。

システムは、利用可能なサンプルを１０個の異なるセットＳ＝{Ｓ_１, ... ,Ｓ_１０}に分割する。ここで、各サブセットＳ_ｔは、同じ数のサンプルを有する。この分割は、各感情カテゴリ（中立を含む）内のサンプル数がすべてのサブセットで等しくなるように行われる。システムは、１、・・・、１０のｔを用いて以下の手順を繰り返す。Ｓ_ｔを除くすべてのサブセットがΣｘおよびＳ_Ｂを計算するために使用される。ＬＤＡのサブスペース

の計算に使用されなかったサブセットＳ_ｔのサンプルは、

に投射される。各テストサンプルの特徴ベクトル

は、以下のユークリッド距離によって与えられる最も近いカテゴリ平均の感情カテゴリに割り当てられる。

すべてのテストサンプル

における分類精度は、以下によって与えられる。

ここで、ｎ_ｔはＳ_ｔにおけるサンプル数であり、ｙ（ｔ_ｊ）は、サンプルｔ_ｊの真の感情カテゴリを返すオラクル関数であり、

は０-１損失であり、

であるときには１であり、それ以外では０である。したがって、Ｓ_ｔは、カラーモデルの一般化を判断するためのテスト用サブセットとして機能する。ｔは１、…、１０であるため、システムは、この手続きを１０回繰り返すことができる。各回では、サブセットＳ_ｔのうちの１つをテストのために残す。そして、以下のように平均分類精度を計算する。

交差検証された分類精度の標準偏差は、以下である。

このプロセスにより、システムは、最も一般化された識別色特徴、すなわち、トレーニングセットに含まれない画像に適用されるものを識別できる。

他の実施形態において、システムは、２方向（一対全部）分類器を使用する。

一対全部の分類

システムは、１つの感情カテゴリ（例えば、感情カテゴリｃ）のサンプルをクラス１（例えば、研究中の感情）に割り当てるとともに、他のすべての感情カテゴリのサンプルをクラス２に割り当てるたびに、上記の手法をＣ回繰り返すことにより、各感情カテゴリの最も識別可能な色特徴を識別する。形式的には、以下である。

のサンプルを区別するために、線形または非線形の分類器（例えば、ＫＳＤＡ）が使用される。

１０分割交差検証：システムは、上記と同じ１０分割交差検証処理および最近傍平均の分類器を使用する。

いくつかの実施形態において、この２つのクラスの問題におけるサンプルの不均衡によるバイアスを回避するために、システムは、

にダウンサンプリングを適用することができる。いくつかの場合において、システムは、

からランダムサンプルを引き出すたびに、

におけるサンプル数に一致するように、この手順を複数回繰り返す。

判別カラーモデル

２方向分類器としてＬＤＡを使用する場合、

は、最大から最小の判別の順に序で並べた一連の判別可能なベクトル

を与える。

以下の判別ベクトルは、感情カテゴリを識別するときの各色特徴の寄与を定義する。

これは、非ゼロ固有値λ_１＞０に関連する唯一の基底ベクトルであるため、システムはｖ_１を保持するだけである。したがって、感情ｊのカラーモデルは、以下によって与えられる。

ＳＤＡ、ＫＳＤＡ、ディープネットワーク、その他の分類器を使用しても同様の結果が得られる。

顔によって表される表情を変えるための画像色の修正

中立的な表現Ｉ_ｉｎは、感情を表現するように見えるようにシステムによって修正することができる。これらは修正画像

と呼ぶことができる。ここで、ｉは画像または画像内の個人を特定し、ｊは感情カテゴリを特定する。

は、以下の修正された色特徴ベクトルに対応する。

いくつかの実施形態において、これらの画像を生成するために、システムは、以下のように感情jのカラーモデルを用いて、中立画像のｋ^ｔｈ番目の画素を修正する。

ここで、Ｉ_ｉｎｋは、中立画像Ｉ_ｉｎにおけるｋ^ｔｈ番目の画素である。

は、ｇ^ｔｈ番目のドロネー三角形内における画素の色の平均および標準偏差である。

は、ニューモデルｙ_ｉｊによって与えられるｄ_ｇにおける画素の色の平均および標準偏差である。

いくつかの実施形態において、システムは、分散σを用いたγガウスフィルタによって、γを有する修正画像を平滑化する。平滑化は、局所的なシェーディングと形状の特徴を排除し、人々に顔の色に集中させ、感情のカテゴリをより明確にする。

いくつかの実施形態において、システムは、感情の顔表情の画像を修正して、表現された感情の外観を増減させる。感情ｊの外観を減少させるために、システムは、感情ｊに関連するカラーパターンを除去して、結果として生じる画像

を得ることができる。画像は、以下の関連する特徴ベクトルを用いて、上述したように計算される。

感情の知覚を増大させるために、システムは、新しい色特徴ベクトルを以下のように定義し、

結果画像

を取得する。

図６は、ビデオおよび／または静止画像内の色分散を用いて、ＡＵまたは感情を検出するための色分散システム５００を示す。システム６００は、一組のビデオおよび／または画像を有する画像データベースコンポーネント６１０を含む。システム６００は、画像データベース６１０内のランドマークを検出するランドマークコンポーネント６２０を含む。ランドマークコンポーネント６２０は、画定されたランドマークを有する一連の画像のサブセットを生成する。システム６００は、ビデオシーケンスにおける色の変化または顔の静止画像における統計を計算する統計コンポーネント６３０を含む。統計コンポーネント６３０から、上述のようにデータベースコンポーネント６１０内の各ビデオまたは画像についてＡＵまたは感情が決定される。システム６００は、画像を少なくとも１つのＡＵでタグ付けするか、ＡＵ無しでタグ付けするタグ付けコンポーネント６４０を含む。システム６００は、タグ付き画像を処理済み画像データベース６５０に格納することができる。

システム６００は、画像内の知覚感情を変化させることができる修正コンポーネント６６０を含む。いくつかの実施形態において、システム６００が画像内の中立顔を決定した後、修正コンポーネント６６０が中立顔の画像の色調を修正して、感情またはＡＵの決定された表現の外観を生み出すかまたは修正する。例えば、画像は中立表現を含むと判定される。修正コンポーネント６６０は、幸せまたは悲しみなどの所定の表情を知覚するように表情を変えるために画像内の色を変えることができる。

他の実施形態において、システム６００が画像内の顔の感情またはＡＵを決定した後、修正コンポーネント６６０は、感情またはＡＵの知覚を変更するために、感情またはＡＵの強度を増減するために画像の色を修正する。例えば、悲しい表情を含むと画像が判定される。修正コンポーネント６６０は、表情がより少なくまたはより悲しいと知覚されるように画像内の色を変更することができる。

顔ランドマーク点及びアクションユニットの早くて正確な検出及び認識のために、ＤＮＮで適合されるグローバルローカル

他の観点において、ディープニューラルネットワークのためのグローバル－ローカル損失関数（ＤＮＮ）は、関心のある類似の対象ランドマーク点（例えば、顔面ランドマーク点）のきめ細かい検出だけでなく、ＡＵ等の対象特性のきめ細かい認識において、効率的に使用することができる。導出された局所的＋全体的な損失は、パッチベースのアプローチを使用する必要なしに正確な局所的結果をもたらし、そして迅速で望ましい収束をもたらす。本グローバル－ローカル損失関数は、ＡＵの認識のために用いたり、ＡＵおよび顔の表情の認識に必要な顔および顔のランドマーク点を検出するために用いたりすることができる。

グローバル－ローカル損失

グローバル－ローカル（ＧＬ）損失の導出は、画像内の検出および認識のためにディープネットワークで効率的に使用できる。システムは、この損失を使用してＡＵを認識するように深いＤＮＮをトレーニングする。システムは、ＤＮＮの一部を使用して顔のランドマーク点を検出する。これらの検出は、ＡＵを検出するためにネットワークの他のコンポーネントの完全に接続されたレイヤの出力と連結される。

ローカルフィット

システムは、画像サンプルと対応する出力変数を、{（Ｉ_１，ｙ_１），…，（Ｉ_ｎ，ｙ_ｎ）}のセットとして定義する。ここで、I_i∈R^{l ×m}は、顔におけるa l × mの画素の画像であり、ｙｉは真の（望ましい）出力であり、ｎはサンプル数である。

いくつかの実施形態において、出力変数ｙ_ｉは様々な形態であり得る。例えば、画像内の２Ｄの対象のランドマーク点の検出において、ｙ_ｉは、２Ｄ画像の座標y_i = (u_i1,v_i1, ... , u_ip, v_ip)^Tのｐのベクトルである。(u_ij,v_ij)^Tはj^th番目のランドマーク点である。ＡＵの認識では、出力変数は指標ベクトルy_i=(y_i1, . . . , y_iq)Tに対応する。ＡＵｊが画像Ｉ_ｉ内に存在する場合、ｙ_ｉｊは１であり、ＡＵｊがその画像内に存在しなければ、ｙ_ｉｊは－１である。

システムは、マッピング関数f (I_i,w) = (f₁(I_i,w₁),...,f_r(I_i,w_r))^Tのベクトルを識別する。マッピング関数は、入力画像Ｉｉを検出または属性の出力ベクトルｙｉに変換し、w = (w₁, ... , w_r)^Tは、これらのマッピング関数のパラメータのベクトルである。検出においては、r=p及び

である。ここで、２Ｄ画像座標u_ij及びv_ijの推定値として、

である。同様に、ＡＵの認識では、r = q及び

である。ここで、

は、ＡＵｊが、画像Ｉ_ｉ内に存在（１）するか存在しない（－１）の推定値であり、ｑはＡＵの数である。

固定マッピング関数f (I_i, w) (e.g., a DNN)に対して、システムは、以下のようにｗを最適化する。

ここで、

は、損失関数を表す。この損失関数に対する古典的な解は、以下のように定義されるＬ^２-損失である。

ここで、ｙ_ｉｊはｙ_ｉのｊ^ｔｈ番目の要素である。これは、顔のランドマーク点の検出ではy_ij ∈ R²であり、ＡＵの認識では、y_ij ∈ {-1, +1}である。

一般性を失うことなく、システムは、f (I_i,w)の代わりにf_iを用い、f_j(I_i,w_j)の代わりにf_ijを用いる。関数ｆｉｊはすべて同じであるが、jの規定値が異なる場合がある。

上記の導出はローカルフィットに対応する。つまり、（33）と（34）は、各出力の適合を独立して最適化してから、すべての出力における平均適合を採用することを試みる。

上述した導出アプローチは、固定された適合誤差

に対しても、いくつかの解決策を有している。例えば、誤差は、すべての出力に均等に分散させることができる。

ここで、

は、ベクトルの２ノルムである。または、誤差の大部分は、次のように定義される推定値の１つ（または少数）にある。

いくつかの実施形態において、関数を最小化するために追加の制約が追加される。

ａ≧１。システムは、収束を容易にするグローバル基準を追加する。

グローバル構成の追加

システムは、グローバル記述子を拡張するグローバル構成を追加するための一連の制約を定義する。（３４）の制約条件は、y_i （例えば、y_ij）の各要素の適合を独立して測定するため、局所的である。それにもかかわらず、同じ基準を使用して点のペアの適合度を測定することができる。正式には、以下のように定義される。

ここで、g(x,z)は、２つのエントリの類似度を計算する関数である。h(.)は、ネットワークの（制約のない）出力を適切な数値範囲にスケーリングする。ランドマーク検出では、h(f_ij) = f_ij∈ R²

ｘ－ｚのｂノルムである（例えば、２ノルム、

ここで、ｘとｚは、２つのランドマークの画像座標を定義する２Ｄベクトルである。

ＡＵ認識では、h(f_ij) = sign(f_ij)∈{-1, +1}

ここで、sign（．）は、入力数値が負の場合には－１を返し、この数値が正またはゼロの場合には＋１を返す。ＡＵｊが画像Ｉ_ｉ内に存在する場合にはｘ_ｉｊが１であり、それがその画像内に存在しない場合には－１である。したがって、関数h(.) : R → {-1, +1}

いくつかの実施形態において、システムは、各対の要素、すなわち、検出時の各対のランドマーク点および認識時の各対のＡＵのグローバル構成を考慮に入れる。すなわち、検出においては、システムは、すべてのランドマーク点間の距離の情報を使用し、認識においては、ＡＵの対が共存する場所を決定する（例えば、２つがサンプル画像中に同時に存在するか存在しないことを意味する）。

いくつかの実施形態において、グローバル基準はトリプレットに拡張することができる。正式には、以下である。

ここで、g（x、z、u）は、３つのエントリ間の類似度を計算する関数である。

検出において、これは、システムがｂノルム、例えば、

を計算することができること、
以下のように、各トリプレットによって定義される三角形の面積を計算すること、を意味する。

３つのランドマークポイントは、共線ではない。

いくつかの実施形態において、方程式は４つ以上の点に拡張することができる。例えば、この方程式は、次のように凸四辺形に拡張することができる。

最も一般的な場合では、システムは、ｔ個のランドマーク点について、多角形エンベロープ、すなわち、ｔ個のランドマーク点{x_i1,…,x_it}によって含まれる非自己交差多角形の面積を計算する。多角形は、以下のように与えられる。

システムは、顔のランドマーク点のドロネー三角形分割を計算する。多角形包絡線は、１組のｔ個のランドマーク点の線を反時計回りに接続することによって得られる。ランドマーク点の順序付き集合は、以下のように定義される。

の領域は、以下によって与えられる。

ここで、ga(.)の添え字ａは領域を表す。

いくつかの実施形態において、上記式の結果は、当技術分野で知られているようにグリーンの定理を用いて得られる。

は、ＤＮＮ

のｔ個の出力、または
真値

とすることができる。

システムは、次のように、t個のランドマーク点の一般的な場合について、グローバルｂノルムg_n(.)を計算することができる。

上記導出は、検出課題において、g(.)を３つ以上の点に拡張することを定義する。これから、上記は画像中のＡＵを認識するために使用することができる。

システムは、画像Ｉ_ｉ内の３つ以上のＡＵの共起を計算する。正式には、

は、ｔ個のＡＵのセットであり、

である。

ＧＬ－損失Ioss

最終的なローカルグローバル（ＧＬ）損失関数は、以下によって与えられる。

ここで、グローバル損失、

は、以下のように定義される。

ｇ（．）は、検出においては、ｇ_ａ（．）若しくはｇ_ｎ（．）又はこの両方であり、認識においては、ｇ_ＡＵ（．）であり、α_ｔは、トレーニングセットの交差検証を利用して学習した正規化定数である。

バックプロパゲーション

ＤＮＮのパラメータであるｗを最適化するために、システムは以下を計算する。

局所損失の偏導関数は、もちろん次のように与えられる。

グローバル損失の定義では、マッピング関数h（．）を使用する。いくつかの実施形態において、ランドマーク検出を実行するとき、ｈ（ｆ_ｉｊ）＝ｆ_ｉｊであり、グローバル損失の偏導関数は、上式に示される局所損失のものと同じ形式を有する。他の実施形態において、ＡＵ認識を実行するとき、システムは、以下を利用する。

この関数は微分ではないが、システムは、それを、小さい部分

に対して、以下のように再定義する。

偏導関数は、以下になる。

ディープＤＮＮ

システムは、ＡＵを認識するためのディープニューラルネットワークを含む。ＤＮＮは２つの部分を含む。ＤＮＮの第１の部分は、多数の顔面ランドマーク点を検出するために用いられる。ランドマーク点により、システムは上述したようにＧＬ損失を計算することができる。

システムは、正規化されたランドマーク点を計算することができる。システムは、ＤＮＮの第２の部分の第１の完全に接続されたレイヤの出力と連結して、ランドマークの位置情報を、ＡＵを認識するために使用されるＤＮＮに埋め込むことができる。これは、感情の表現において典型的に観察される局所的な形状変化の検出を容易にする。これは上記のＧＬ損失の定義で行われる。

いくつかの実施形態において、ＤＮＮは複数のレイヤを含む。例示的な実施形態において、９つのレイヤが顔のランドマーク点の検出専用であり、他の層は一連の画像内のＡＵを認識するために用いられる。

顔のランドマーク点の検出に向けられたレイヤは、以下のように詳述される。

顔のランドマーク点の検出

例示的な実施形態において、ＤＮＮは、３つの畳み込みレイヤと、２つの最大プールレイヤと、２つの完全な接続レイヤを含む。システムは、各畳み込みレイヤの終わりにおいて、正規化、ドロップアウト、および整流線形単位（ＲｅＬＵ）を適用する。

これらのレイヤのウェイトは、バックプロパゲーション、導出されたＧＬ損失を使用して最適化される。グローバル損失およびバックプロパゲーションの式は上記に提供されている。

一例において、システムは、ＤＮＮのこの部分を使用して、合計６６個の顔ランドマーク点を検出する。提案されたＧＬ損失の１つの利点は、それが非常に大きいデータセットで効率的に訓練されることができるということである。いくつかの実施形態において、システムは、データ変換を採用して、変形変換および部分的オクルージョンに対して不変であるようにする顔ランドマーク検出器を含む。

顔ランドマーク検出器は、既存のトレーニングセットに２次元アフィン変換、すなわちスケール、反射、並進および回転を適用することによって、追加の画像を生成する。例示的な実施形態において、スケールは２及び０．５の間にあり、回転は－１０°から１０°であり、並進および反射はランダムに生成され得る。ＤＮＮを部分的オクルージョンに対してよりロバストにするために、システムは、ｄ×ｄの画素のオクルージョンボックスをランダム化し、ｄは、内側の目の間隔の０．２から０．４倍である。

ＡＵ認識

ＤＮＮの第２の部分は、顔の外観特徴と、ＤＮＮの第１の部分によって与えられるランドマーク位置とを組み合わせる。具体的には、ＤＮＮの第２の部分の第１の完全な接続レイヤの出力において、外観画像特徴は、正規化され自動的に検出されたランドマーク点と連結される。

正式には、ｉ_ｔｈのサンプル画像（ｉ＝１，．．．，ｎ）のランドマーク点のベクトルを以下とする。

ここで、s_ik ∈ R²は、ｋ^ｔｈのランドマークの２Ｄ画像座標であり、ｎは、サンプル画像の数である。故に、s_i ∈ R¹³²となる。次に、すべての画像をτピクセルの同じ眼間距離を持つように正規化する。すなわち、以下となる。

ここで、ｌ及びｒは左右の目の中心の画像座標であり、|| ・ ||2はベクトルの２ノルムを定義する。

τ＝２００を用いることができる。

システムは、ランドマーク点を以下のように正規化する。

また、システムは、ランドマーク点に回転行列Ｒを乗算して、左右の目の外側の角が水平線と一致するようにする。システムは、

の値を再調整してシフトし、画像内の左目と右目の外側のコーナーをそれぞれ（.５，０）と（－．５，０）の所定の位置に移動させる。

一実施形態において、ＤＮＮは、ＧｏｏｇｌｅＮｅｔのものと同様であるが、本明細書で定義されたＧＬ損失が使用されることにおいて、大きな違いがある。ＤＮＮの入力は、顔画像とすることができる。システムは、入力に適合するように第１レイヤのフィルタのサイズを変更し、これらのフィルタの重みをランダムに初期化する。ＤＮＮにランドマークを埋め込むために、第１の完全な接続レイヤ内のフィルタの数、ならびにＡＵの数としての出力のためのフィルタの数を変更することができる。システムは、顔の表情の画像中のすべてのＡＵを検出するために単一のＤＮＮを使用することができる。

ＤＮＮの第２の部分の重みは、バックプロパゲーション方法および上記で定義されたグローバル損失を用いて、最適化することができる。

いくつかの実施形態において、データ増強は、ランダムなノイズを２Ｄランドマーク点に追加し、上記のアフィン変換を適用することによって実行することができる。

いくつかの実施形態において、システムは、上記のようなトレーニングデータベースを使用して、野生のＡＵの認識を初期化するように訓練することができる。

図７は、ビデオおよび／または静止画像内のディープニューラルネットワーク（ＤＮＮ）を使用してＡＵおよび感情カテゴリを検出するためのネットワークシステム７００を示す。システム７００は、一連のビデオおよび／または画像を有する画像データベースコンポーネント７１０を含む。システム７００は、画像データベース７１０の画像セット内のＡＵを決定するＤＮＮ７２０を含む。ＤＮＮ７２０は、上述のように一連の画像内のランドマークを定義する第１の部分７３０を含む。ＤＮＮ７２０は、上述のようにデータベースコンポーネント７１０内の画像セットのランドマーク内のＡＵを決定する第２の部分７４０を含む。システム７００は、画像を少なくとも１つのＡＵでタグ付けする、またはＡＵ無しでタグ付けするタグ付けコンポーネント７５０を含む。システム７００は、タグ付けされた画像を処理済み画像データベース７６０に格納することができる。

例示的なコンピュータデバイス

図８は、産業用自動化システムにおいて、ハードウェア装置を構成するために使用することができる例示的なコンピュータを示す。様々な態様では、図８のコンピュータは、本明細書で説明されているように、開発ワークスペース１００の全部または一部を含むことができる。本明細書で使用されるとき、「コンピュータ」は、複数のコンピュータを含み得る。コンピュータは、例えば、プロセッサ８２１、ランダムアクセスメモリ（ＲＡＭ）モジュール８２２、読み出し専用メモリ（ＲＯＭ）モジュール８２３、ストレージ８２４、データベース８２５、１つまたは複数の入出力（Ｉ／Ｏ）デバイス８２６、インターフェース８２７のように、１つまたは複数のハードウェアコンポーネントを含むことができる。代替的および／または追加的に、コントローラ８２０は、例えば、例示的実施形態に関連する方法を実行するためのコンピュータ実行可能命令を含むコンピュータ可読媒体などの１つまたは複数のソフトウェアコンポーネントを含み得る。上に挙げたハードウェアコンポーネントのうちの１つまたは複数を、ソフトウェアを使用して実装することができると考えられる。例えば、ストレージ８２４は、１つまたは複数の他のハードウェアコンポーネントに関連するソフトウェア区画を含み得る。上記に列挙されたコンポーネントは例示的なものにすぎず、これに限定されることを意図しないと理解される。

プロセッサ８２１は、画像を索引付けするためのコンピュータに関連する１つまたは複数の機能を実行するために、命令を実行しデータを処理するようにそれぞれ構成された１つまたは複数のプロセッサを含むことができる。プロセッサ８２１は、ＲＡＭ８２２、ＲＯＭ８２３、ストレージ８２４、データベース８２５、Ｉ／Ｏデバイス８２６、およびインターフェース８２７に通信可能に結合することができる。プロセッサ８２１は、様々なプロセスを実行するために、一連のコンピュータプログラム命令を実行するように構成され得る。コンピュータプログラム命令は、プロセッサ８２１による実行のためにＲＡＭ８２２にロードされてもよい。本明細書では、プロセッサとは、入力に対して機能を実行して出力を生成するための符号化された命令を実行する物理的ハードウェアデバイスを指す。

ＲＡＭ８２２およびＲＯＭ８２３はそれぞれ、プロセッサ８２１の動作に関連する情報を記憶するための１つまたは複数のデバイスを含み得る。例えば、ＲＯＭ８２３は、１つまたは複数のコンポーネントおよびサブシステムの動作を識別、初期化および監視するための情報を含む、コントローラ８２０に関連する情報にアクセスして記憶するように構成されたメモリデバイスを含み得る。ＲＡＭ８２２は、プロセッサ８２１の１つまたは複数の動作に関連するデータを記憶するためのメモリデバイスを含み得る。例えば、ＲＯＭ８２３は、プロセッサ８２１による実行のためにＲＡＭ８２２に命令をロードすることができる。

ストレージ８２４は、プロセッサ８２１が開示された実施形態と一致するプロセスを実行するために必要とする可能性がある情報を格納するように構成された任意のタイプの大容量記憶装置を含むことができる。例えば、ストレージ８２４は、ハードドライブ、ＣＤ - ＲＯＭ、ＤＶＤ - ＲＯＭ、または他の任意の種類のマスメディアデバイスなどの１つまたは複数の磁気および／または光ディスクデバイスを含み得る。

データベース８２５は、コントローラ８２０および／またはプロセッサ８２１によって使用されるデータを格納、整理、分類、フィルタリング、および／または配置するために協働する１つまたは複数のソフトウェアおよび／またはハードウェア構成要素を含み得る。例えば、データベース８２５は、本明細書に記載されるように、入出力ハードウェアデバイスおよびコントローラに関連するハードウェアおよび／またはソフトウェア構成データを格納し得る。データベース８２５は、上に列挙したものとは別のおよび／または異なる情報を格納することができると考えられる。

Ｉ／Ｏ装置８２６は、コントローラ８２０に関連付けられたユーザと情報を通信するように構成された１つまたは複数の構成要素を含み得る。例えば、Ｉ／Ｏ装置は、ユーザが画像のデータベース、関連するものの更新、デジタルコンテンツへのアクセスを維持できるように、統合キーボードおよびマウスを備えるコンソールを含み得る。Ｉ／Ｏ装置８２６はまた、モニタ上に情報を出力するためのグラフィカルユーザインターフェース（ＧＵＩ）を含むディスプレイを含み得る。Ｉ／Ｏ装置８２６はまた、例えば、コントローラ８２０に関連する情報を印刷するためのプリンタ、ユーザがアクセス可能なディスクドライブ（例えば、ＵＳＢポート、フロッピー、ＣＤ - ＲＯＭ、またはＤＶＤ - ＲＯＭ）のような周辺装置を含み得る。ユーザが携帯型メディア装置、マイクロフォン、スピーカシステム、または任意の他の適切な種類のインターフェース装置に格納されたデータを入力することを可能にするために、ドライブなど）を使用することができる。

インターフェース８２７は、インターネット、ローカルエリアネットワーク、ワークステーションピアツーピアネットワーク、ダイレクトリンクネットワーク、無線ネットワークなどの通信ネットワークを介してデータを送受信するように構成された１つまたは複数の構成要素を含むことができる。または他の適切な通信プラットフォーム。例えば、インターフェース７２７は、１つまたは複数の変調器、復調器、マルチプレクサ、デマルチプレクサ、ネットワーク通信デバイス、無線デバイス、アンテナ、モデム、および通信ネットワークを介したデータ通信を可能にするように構成された他の任意のタイプのデバイスを含み得る。

方法およびシステムは好ましい実施形態および特定の実施例に関連して記載されているが、本明細書の実施形態はあらゆる点で制限的であることよりもむしろ例示的であることが意図されるので、その範囲は特定の実施形態に限定されることを意図しない。

特に明記しない限り、本明細書に記載の任意の方法が、その工程が特定の順序で行われることを必要とすると解釈されることは決して意図されていない。
したがって、方法クレームがそのステップが従うべき順序を実際には記載していないか、またはステップが特定の順序に限定されるべきであることがクレームまたは説明において別段に具体的に述べられていない場合、いかなる意味においても、順序が推測されることを意図するものでは決してない。これには、解釈のためのあらゆる非明示的な根拠が含まれ、根拠は、ステップの配置や操作の流れに関する論理的事項、文法上の編成または句読点から派生した単純な意味、明細書に記載されている実施形態の数または種類を含む。本出願を通して、様々な刊行物を参照することができる。これらの刊行物の全体の開示は、方法およびシステムが属する技術水準をより完全に説明するために、参照により本明細書に組み込まれる。範囲または精神から逸脱することなく様々な修正および変形をなし得ることが当業者には明らかであろう。他の実施形態は、本明細書の考察および本明細書に開示された実施から当業者には明らかであろう。明細書および実施例は例示としてのみ考慮されることを意図しており、真の範囲および精神は特許請求の範囲によって示される。

Claims

アクションユニット値（ＡＵ値）およびＡＵ強度値を決定するために画像を分析するためのコンピュータ実施方法は、
形状特徴およびシェーディング特徴の複数のカーネル空間を維持し、各カーネル空間は他のカーネル空間と非線形に分離可能であり、各カーネル空間は１つまたは複数のＡＵ値、および１つまたは複数のＡＵ強度値に関連付けられ、
分析対象の複数の画像をコンピュータシステムによって受信することを含み、
受信する画像ごとに、
画像中の顔の形状特徴およびシェーディング特徴の顔空間データを決定し、前記顔空間データは、形状特徴ベクトル、および前記顔のシェーディング変化に関連するシェーディング特徴ベクトルを含み、画像の特徴は、グローバルローカル（ＧＬ）損失関数を含むディープニューラルネットワークを使用して導出されたランドマーク点と、ＡＵ、ＡＵ強度値、感情カテゴリ、および、前記画像上に投影されたランドマーク点の局所的および全体的適合の両方を逆伝播するように構成されたグローバルローカル（ＧＬ）損失関数を含むディープニューラルネットワークを使用して導出されたそれらの強度を識別するための画像の特徴と、を含み、
形状特徴およびシェーディング特徴の決定された前記顔空間データの存在を判定するために、形状特徴の決定された前記顔空間データを前記複数のカーネル空間と比較して前記画像に対する０、１つまたは複数のＡＵ値を決定する。
請求項１に記載の方法は、
前記複数の画像のそれぞれについてのＡＵ値およびＡＵ強度値を決定するために、前記複数の画像を含むビデオストリームをリアルタイムで処理することを含む。
請求項１に記載の方法では、
前記決定された前記形状特徴の前記顔空間データは、前記画像から形成されたドロネー三角形内の正規化されたランドマーク間の距離および角度値、ならびに前記正規化されたランドマークに対応する前記各ドロネー三角形によって定義される角度を含む。
請求項１に記載の方法では、
前記顔のシェーディング変化に関連する前記シェーディング特徴ベクトルは、
前記顔から決定された正規化されたランドマーク点にガボールフィルタを適用することによって決定される。
請求項１に記載の方法では、前記ＡＵ値および前記ＡＵ強度値は、まとめて、感情および感情強度を定義する。
請求項１に記載の方法では、前記画像は写真を含む。
請求項１に記載の方法では、前記画像はビデオシーケンスのフレームを含む。
請求項１に記載の方法では、前記コンピュータシステムは、白黒画像またはカラー画像を使用する。
請求項１に記載の方法は、
画像を受信し、
受信画像を処理して、前記受信画像内の顔のＡＵ値およびＡＵ強度値を決定することを含む。
請求項１に記載の方法は、
第１のデータベースから第１の複数の画像を受信し、
第２のデータベースから第２の複数の画像を受信し、
受信した前記第１の複数の画像および前記第２の複数の画像を処理して、画像ごとに、各画像内の顔のＡＵ値およびＡＵ強度値を決定することを含み、
前記第１の複数の画像は、第１の取得形態を有し、前記第２の複数の画像は、第２の取得形態を有し、前記第１の取得形態は、前記第２の取得形態と異なる。
請求項１に記載の方法は、
前記顔空間上でカーネルサブクラス判別分析（ＫＳＤＡ）を実行し、
前記ＫＳＤＡに基づいて、ＡＵとＡＵ強度、感情カテゴリ、および感情強度を認識することを含む。