JP2022032973A - バランスのとれたデータセットのための画像合成 - Google Patents
バランスのとれたデータセットのための画像合成 Download PDFInfo
- Publication number
- JP2022032973A JP2022032973A JP2021113778A JP2021113778A JP2022032973A JP 2022032973 A JP2022032973 A JP 2022032973A JP 2021113778 A JP2021113778 A JP 2021113778A JP 2021113778 A JP2021113778 A JP 2021113778A JP 2022032973 A JP2022032973 A JP 2022032973A
- Authority
- JP
- Japan
- Prior art keywords
- images
- image
- dataset
- intensity
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
- G06T15/205—Image-based rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
- G06V10/507—Summing image-intensity values; Histogram projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
【課題】 バランスのとれたデータセットのための画像合成を提供する【解決手段】 一方法が、ターゲット動作単位(AU)組み合わせと、ターゲットAU組み合わせのうち各AUの第1の強度カテゴリ及びターゲットAU組み合わせのうち各AUの第2の強度カテゴリを少なくとも有するターゲットAU組み合わせのラベル付き画像とを含む、データセットを取得するステップを含み得る。該方法は、第1のAUの第1の強度カテゴリが第1のAUの第2の強度カテゴリより多数のラベル付き画像を有すると決定するステップと、この決定に基づいて、第1のAUの第2の強度カテゴリにおいて合成されるべき新しい画像の数を識別するステップをさらに含んでもよい。該方法は、第1のAUの第2の強度カテゴリを有する上記数の新しい画像を合成するステップと、その新しい画像をデータセットに追加するステップをさらに含んでもよい。【選択図】 図2
Description
本開示の実施形態は、バランスのとれたデータセットのための画像合成に関する。
顔の画像に対して画像解析を実行し、どの顔の表情が作られているのかを識別することができる。しばしば、これらの顔の表情は、動作単位(Action Units、AU)を使用する顔面動作符号化システム(Facial Action Coding System、FACS)に基づいて特徴づけられ、各AUは、特定の筋肉又は筋群の弛緩又は収縮に対応し得る。各AUは、強度(intensity)によってさらに特徴づけられてもよく、強度は、0及びA~Eとしばしばラベル付けされ、それぞれ、0はAUの強度がないこと又は非存在を表し、A~Eは最小から最大に及ぶ。所与の感情は、例えば、幸福を表す6+12(頬を上げている(cheek raiser)及び口端を引いている(lip corner puller))などの、AUの組み合わせとして特徴づけることができる。
本開示の1つ以上の実施形態が、ターゲット動作単位(Action Unit、AU)組み合わせ(combination)と、ターゲットAU組み合わせのうち各AUの第1の強度カテゴリ(category of intensity)及びターゲットAU組み合わせのうち各AUの第2の強度カテゴリを少なくとも有するターゲットAU組み合わせのラベル付き画像とを含む、データセットを取得するステップを含む方法を含み得る。該方法は、第1のAUの第1の強度カテゴリが第1のAUの第2の強度カテゴリより多数のラベル付き画像を有すると決定するステップと、この決定に基づいて、第1のAUの第2の強度カテゴリにおいて合成されるべき新しい画像の数を識別するステップをさらに含んでもよい。該方法は、第1のAUの第2の強度カテゴリを有する上記数の新しい画像を合成する(synthesizing)ステップと、その新しい画像をデータセットに追加するステップをさらに含んでもよい。
実施形態の目的及び利点は、少なくとも特許請求の範囲において特に指し示された要素、特徴、及び組み合わせにより実現され、達成される。
前述の一般的な説明及び以下の詳細な説明の双方が単に例であり、説明的であり、限定ではないことが理解されるべきである。
例示的な実施形態が、添付図面の使用を通してさらなる特定性及び詳細と共に記載され、説明される。
顔画像に対する画像解析に使用され得る一例示的な環境を示す図である。
バランスのとれたデータセットのための画像合成の一例示的な環境を示す。
異なる合成手法を使用した合成顔画像を含む、顔画像の例を示す。
異なる合成手法を使用した合成顔画像を含む、顔画像の例を示す。
データセット内のAU組み合わせの強度分布の例示的なプロットを示す。
データセット内のAU組み合わせの強度分布の例示的なプロットを示す。
バランスのとれたデータセットのための画像合成の一例示的な方法の例示的なフローチャートを示す。
バランスのとれたデータセットのための画像合成の別の例示的な方法の別の例示的なフローチャートを示す。
バランスのとれたデータセットのための画像合成の別の例示的な方法の別の例示的なフローチャートを示す。
一例示的なコンピューティングシステムを示す。
本開示は、入力画像内のAU及び/又はそれらの強度を識別するように機械学習システムを訓練するために使用され得るロバストなデータセットの生成に関する。多くの潜在的な訓練データセットでは、引き出すべき潜在的画像はAUの強度にわたり均等に分布しておらず、機械学習システムの訓練におけるアンバランスを引き起こしている。この欠点を克服するために、本開示は、よりロバストでバランスのとれたデータセットが開発される改良を提供する。画像という用語が用いられるが、それは顔の任意の他の表現に等しく適用可能であることが理解されるであろう。
いくつかの実施形態において、訓練データセットを解析して、AU組み合わせにわたり強度のバランスを決定することができ、アンバランスに基づいて、画像を合成してさらなるバランスを訓練データセットに提供する。よりバランスのとれたデータセットを使用して、画像分類のための機械学習システムを訓練することができ、訓練した後、機械学習システムを使用して、入力画像内のAU組み合わせ及び/又は強度を用いて入力画像にラベル付けすることができる。例えば、機械学習システムは、どのAUが存在するか(例えば、二値決定(binary decision))及び/又は存在するAUの強度(例えば、複数の潜在的強度レベル)を識別することができる。
本開示の特定の実施形態は、顔画像解析のための機械学習システムの従前の反復を越える改良を提供し得る。例えば、本開示の実施形態は、機械学習システムが機械学習システムへの入力画像をより良く識別し、特徴づけることができるように、訓練のためのよりバランスのとれたデータセットを提供し得る。さらに、本開示は特定の画像を合成するため、特定の実施形態は、機械学習システムがより少ない初期入力画像を有する訓練セットで動作することを可能にし得、より大きい訓練データセットを準備するコストを(計算的及び経済的の双方で)低減する。さらに、本開示は優れた訓練セットを機械学習システムに提供し得るため、機械学習システム自体はより効率的に動作し、より迅速に決定に到達し得、したがって、本開示と比較してより長い解析に費やされる計算リソースを節約する。
1つ以上の例示的な実施形態が、添付の図面を参照して説明される。
図1は、本開示の1つ以上の実施形態による、顔画像に対する画像解析に使用され得る一例示的な環境100を示す図である。図1に示すように、環境100は、機械学習システム130を訓練するために使用され得る画像のデータセット110を含み得る。訓練された後、機械学習システム130は、画像120を解析し、ラベル145を有するラベル付き画像140を生成することができる。例えば、ラベル145を画像120に適用して、ラベル付き画像140を生成してもよい。
データセット110は、1つ以上のラベル付き画像を含み得る。例えば、データセット110は、画像内にどのAUが表されているか及び/又は画像内のAUの強度を識別するためにラベル付けされ得る顔の画像を含んでもよい。いくつかの実施形態において、データセット110内の画像のうち1つ以上が、カメラ又は他の画像センサにより捕捉された画像などのネイティブ画像でなく、人工的に合成されてもよい。いくつかの実施形態において、データセット110の画像は、手動でラベル付けされてもよく、あるいは自動的にラベル付けされてもよい。
画像120は、顔を含む任意の画像でよい。画像120は、機械学習システム130に入力として提供され得る。
機械学習システム130は、機械学習システム130が画像120内のAU及び/又はそれらのそれぞれの強度を識別することができるようにデータセット110に基づいて訓練されるように構成された任意のシステム、デバイス、ネットワークなどを含んでよい。いくつかの実施形態において、機械学習システム130は、ディープニューラルネットワーク、人工ニューラルネットワーク、畳み込みニューラルネットワーク(CNN)などのディープラーニングアーキテクチャを含んでもよい。機械学習システム130は、画像120内のAU及び/又はそれらのそれぞれの強度のうち1つ以上を識別する、ラベル145を出力することができる。例えば、機械学習システム130は、どのAUが存在するか(例えば、二値決定)及び/又は存在するAUの強度(例えば、複数の潜在的強度レベル)を識別することができる。
ラベル付き画像140は、機械学習システム130により決定されたAU及び/又はそれらのそれぞれの強度を示すラベル145でラベル付けされたときの画像120を表すことができる。
本開示の範囲から逸脱することなく、環境100に対して修正、追加、又は省略がなされてもよい。例えば、記載された方法における異なる要素の指定は、本明細書に記載される概念の説明を助けることを意図し、限定するものではない。さらに、環境100は、任意数の他の要素を含んでもよく、あるいは記載されたもの以外のシステム又は環境で実現されてもよい。
図2は、本開示の1つ以上の実施形態による、バランスのとれたデータセットのための画像合成の一例示的な環境200を示す。環境200は、取得され得る初期データセット210を含み得る。初期データセット210は、ターゲットAU240及び/又はそれらの関連強度(associated intensities)のセットを導出するために、いくつかの前処理220及び/又は他の解析を受けることができる。ターゲットAU240及び/又はそれらの強度を使用し、データセット210のバランスをより良くとるために合成されるべき新しい画像のセットが決定され得る。画像合成250を行って、合成された画像255を生成することができ、これらを初期データセット210と組み合わせて、最終データセット270を導出することができる。
初期データセット210は、データセット110に類似又は相当してもよい。例えば、初期データセット210は、様々なAU組み合わせ及びそれらの関連強度を有する顔を含む画像を含んでもよい。初期データセット210は、初期データセット210内の画像の各々について、AU組み合わせ及び関連強度でラベル付けされ得る。いくつかの実施形態において、このようなラベルは、前処理220の一部として取り付けられてもよい。初期データセット210の画像は、デジタル写真、スキャンされた写真、特定の感情を有するフォトリアリスティックな顔(photo-realistic face)を示すユーザ生成画像などの任意の形式又はフォーマットをとってよい。
前処理220は、データセット210に対する1つ以上の解析又はタスクを実行して、ターゲットAU240の導出及び/又は画像合成250を容易にすることができる。いくつかの実施形態において、前処理220は、どのAU組み合わせ及び/又は強度が画像の各々に示されているかを識別するために、初期データセット210の画像にラベル付けすることを含んでもよい。例えば、管理者、エンジニア、又は他のユーザが初期データセット210内の画像を調べ、手動でラベル付けしてもよい。別の例として、画像のラベル付けはクラウドソーシングされてもよい。
いくつかの実施形態において、前処理220は、データセット210内の画像のうち1つ以上を、画像合成250のための潜在的な入力画像の候補として識別することを含んでもよい。例えば、中立表情を含む画像が識別されてもよい。別の例として、ほとんどしわのない及び/又は開いた口のない画像が潜在的な入力画像の候補として識別されてもよい。いくつかの実施形態において、入力画像の識別は、ターゲットAU又はAU組み合わせ内のAUを示していない画像をランダムに選択することを含んでもよい。さらに又は代わりに、入力画像の識別は、ターゲットAU以外のしわのない画像をランダムに選択することを含んでもよい。例えば、特定のAUのうち既知のAU及び/又は強度のセットが、しわを生じそうにない場合があり、入力画像は、しわを生じそうにない既知のAU/強度のセットのみ示す画像からランダムに選択されてもよい。
いくつかの実施形態において、前処理220は、初期データセット210内の画像の3次元(3D)レンダリングを生成することを含んでもよい。例えば、画像合成250を容易にするために、2次元の画像を投影し、3Dでレンダリングしてもよい。いくつかの実施形態において、このような3Dレンダリングはビデオフレームの使用を含んでもよく、それにより、ビデオの各フレームは、より正確な3Dレンダリングを生成するためにビデオフレームにわたってより良く相関するように解析され得る。いくつかの実施形態において、畳み込み層及び残差ブロックを使用するエンコーダ-デコーダアーキテクチャが、顔ランドマークアラインメント(facial landmark alignment)及び3D顔構造再構成に使用される。これら及び他の実施形態において、ビデオフレームから所与のUV位置へ(例えば、各点の情報を保持しながらの、UV空間における3D座標の2次元(2D)表現)、マッピングが学習されてもよい。3Dマッピングを使用し、正面像における顔の3Dメッシュが取得されてもよく、これは、初期データセット210に対して一般的なサイズの顔の2D画像にラスタライズされてもよい。
いくつかの実施形態において、前処理220は、1つ以上のターゲットAU組み合わせについて初期データセット210内に含まれる強度の数を決定するための、初期データセット210の解析を含んでもよい。例えば、より高い強度などの特定の強度は、いくつかのAU組み合わせについて、より低い強度に比べて十分表現されていない(under-represented)ことがある。強度のアンバランスは、画像識別を実行する機械学習システムに対してアンバランスな訓練セットをもたらす可能性がある。図4Aに、アンバランスなデータセットの一例示的な表現を示す。
いくつかの実施形態において、前処理220は、どのAU組み合わせ及び/又は対応する強度がバランスを失っているかを識別することができる。そのような識別は、どのAU組み合わせ及び/又は強度が対応する画像を合成させるべきかの識別を容易にし得る。
初期データセット210に対して実行され得る様々な前処理について例が提供されているが、画像合成250の前に及び/又は一部として、任意の他のタスク又は処理が初期データセット210に対して実行されてよいことが理解されるであろう。
ターゲットAU240及び/又は関連強度のセットは、解析下のAU組み合わせのセットを含み得る。例えば、機械学習システムが、顔の表情のサブセットをターゲットにすることを意図する場合、対応するAU組み合わせがターゲットAU240に含められてもよい。別の例として、前処理220が、AU組み合わせ及びそれらの関連強度のサブセットがバランスを失っていることを示す場合、そのAU組み合わせのサブセットがターゲットAU240のセットでもよい。いくつかの実施形態において、ターゲットAU240のセットは、管理者又は他のユーザにより手動で選択されてもよい。
画像合成250は、任意の自動化された画像生成手法を含んでよい。例えば、敵対的生成ネットワーク(Generative Adversarial Network、GAN)アーキテクチャ又は変分オートエンコーダ(Variational autoencoder、VAE)を使用して、画像を生成してもよい。いくつかの実施形態において、任意の画像生成手法が使用されてよいが、StarGAN又はGANimationなどの画像生成パッケージが使用されてもよい。このようなパッケージでは、入力画像とターゲットAU組み合わせをパッケージに提供することができ、該パッケージは、ターゲットAU組み合わせの画像を合成及び出力することができる。いくつかの実施形態において、パッケージに提供されるターゲットAUの組み合わせは、AU組み合わせの強度を含んでもよい。
いくつかの実施形態において、画像合成250は、合成された画像の品質を改善するための1つ以上の手法を含み得る。例えば、画像合成250は、画像合成250の正確さ(accuracy)を改善するために、中立表情を有する及び/又はしわのない入力画像を受け取ってもよい。別の例として、入力画像の3Dレンダリングを生成して、より高品質の画像合成250を容易してもよい。
いくつかの実施形態において、画像合成250は、画像合成250の手法の訓練の間、高品質の画像を作成するために最小化されるべき1つ以上の損失解析を利用してもよい。例えば、画像合成250は、1つ以上のデータセット(データセット210又は何らかの他のデータセットなど)上で訓練されてもよく、訓練された後、画像を合成するために使用されてもよい。そのような訓練は、訓練データセット内の既知及び/又は実際の画像に対応する訓練画像を合成することを含んでもよい。損失を最小化することは、訓練しているとき元画像のアイデンティティ(identity)を同じに保つのに役立つ可能性があり、それにより、画像の合成において同じ一貫性が生じ得る。さらに、損失を最小化することは、合成された画像の表情をターゲットの表情と同じに保つのに役立つ可能性がある。例えば、入力された訓練画像のアイデンティティを決定することができ、かつ訓練する間に合成された画像のアイデンティティを決定することができるアイデンティティ損失メトリックが利用されてもよく、アイデンティティ決定においてミスマッチがある(例えば、画像識別システムが、入力された訓練画像及び合成された訓練画像を2人の異なる人々のものであると予期する)場合、特定の損失係数が適用されてもよい。これら及び他の実施形態において、アイデンティティ損失についての損失係数は、合成された訓練画像が異なる人物である可能性に比例してもよい。
画像合成250の訓練の損失解析の別の例は、特有損失メトリック(idiosyncratic loss metric)を含んでもよい。特有損失メトリックは、合成訓練画像とターゲットAUの様々な強度を有するソース画像における同じ人物についてのデータセット内の他の画像との比較に基づいて課される損失に関連し得る。例えば、同じ人物が訓練データセット内に2つの画像(例えば、中立表情を有する第1の画像と、ターゲットAUのうち少なくとも1つを有する顔の表情を有する第2の画像)を有していた場合、訓練データセット内の画像のAUと合成された訓練画像内のAUとの間のミスマッチに対して、損失が課されてもよい。このような差には、アイデンティティの変化、意図されていない強度の変化、知覚されたAUの変化などを含んでもよい。
訓練した後、画像合成250は、合成された画像255のセットを出力することができる。例えば、合成画像255のセットは、ターゲットAU240及び関連強度を有する画像を含んでもよく、それにより、最終データセット270として初期データセット210と組み合わせられたとき、最終データセットは、AU組み合わせ及び/又は強度にわたりバランスのとれた訓練データセットを含み得る。例えば、図4A及び図4Bは、それぞれ、初期データセット210及び最終データセット270の強度分布の一例を示す。いくつかの実施形態において、合成された画像255は、初期データセット210からの画像のいくつかを含むのでなく最終データセット270全体を構成してもよい。あるいは、結果として生じるデータセット250は、データセット210からの表現と合成された表現245との任意の組み合わせを含んでもよい。例えば、初期データセット210からの1つ以上の画像が除去されてもよい。
最終データセット270は、画像分類及び/又はラベル付けを容易にするように機械学習システムに提供することができ、それにより、入力画像に対してAU及び/又はそれらのそれぞれの強度が識別及び/又はラベル付けされ得る。これら及び他の実施形態において、データセット内に少数のエントリのみ有するAU組み合わせ及び/又は強度をオーバーサンプリングする(例えば、同じ画像のさらなるコピーを繰り返し導入する)のでなく、本開示は、自然なバリエーションを有する合成された画像に提供して、よりロバストでより良く機能する機械学習システムを提供することができる。
本開示の範囲から逸脱することなく、環境200に対して修正、追加、又は省略がなされてもよい。例えば、記載された方法における異なる要素の指定は、本明細書に記載される概念の説明を助けることを意図し、限定するものではない。さらに、環境200は、任意数の他の要素を含んでもよく、あるいは記載されたもの以外のシステム又は環境で実現されてもよい。
図3A及び図3Bは、本開示の1つ以上の実施形態による、異なる合成手法を使用した合成顔画像330a及び330bを含む、顔画像300a及び300bの例を示す。図3Aの合成画像330aは、入力画像310aの2D位置合わせ(registration)に基づいて合成され、図3Bの合成画像330bは、入力画像310bの3D位置合わせに基づいて合成される。
図3Aの顔画像300aは、入力画像310a、ターゲット画像320a、及び合成画像330aを含む。入力画像310aは、合成画像がベースにする画像として選択され得る。いくつかの実施形態において、入力画像310aは、しわがほとんど又は全くない及び/又は中立表情を有する顔画像を含んでもよい。入力画像310aは、一般にまっすぐに向いている顔を含んでもよい。
いくつかの実施形態において、入力画像310aは、入力画像310aの2D位置合わせを実行され得る。例えば、2D位置合わせは、2D画像の点を様々な顔の特徴、ランドマーク、筋肉群などにマッピングしてもよい。いくつかの実施形態において、2D位置合わせは、入力画像310aの様々な顔の特徴、ランドマーク、筋肉群などをターゲット画像320aにマッピングすることができる。合成画像330aは、入力画像310aの2D位置合わせに基づき得る。
ターゲット画像320aは、所望の顔の表情(例えば、データセットのバランスをとるために合成されるべき所望のAU組み合わせ及び強度を示す顔画像)を表すことができる。入力画像310aは、ターゲット画像320aと同じアイデンティティでも(例えば、同じ人物を示しても)よく、あるいはそうでなくてもよい。
図3Aを参照し、合成画像330aは、2D位置合わせに基づいて様々なアーチファクトを有し得る。例えば、顔における穴又はギャップが生じる可能性があり、特定の顔の特徴がゆがめられ、あるいはその他の方法で非人間的な外観を有する可能性がある。
図3Bにおいて、入力画像310b及びターゲット画像320bは、図3Aの入力画像310a及びターゲット画像320aに類似又は相当してもよい。入力画像310b及び/又はターゲット画像320bの3D位置合わせが実行され得る。例えば、2D画像でなく、入力画像310b及びターゲット画像320bに示される顔の3D投影が生成されてもよい。そうすることにより、入力画像310bとターゲット画像320bとの間に、より完全な、ロバストな、及び/又は正確なマッピングが存在し得る。
3D位置合わせに基づき、ベースとして入力画像310bを使用して合成画像330bが実行され得る。観察され得るように、図3Bの合成画像330bは、図3Aの合成画像330aより高品質である。例えば、アーチファクトがより少なく、顔の特徴はターゲット画像320bにより厳密に似ている。
本開示の範囲から逸脱することなく、顔画像300a/300bに対して修正、追加、又は省略がなされてもよい。例えば、記載された方法における異なる要素の指定は、本明細書に記載される概念の説明を助けることを意図し、限定するものではない。さらに、顔画像300a/300bは、任意数の他の要素を含んでもよく、あるいは記載されたもの以外のシステム又は環境で実現されてもよい。例えば、任意の数の入力画像、ターゲット画像、及び/又は合成画像が使用されてよい。
図4A及び図4Bは、本開示の1つ以上の実施形態による、データセット内のAU組み合わせの強度分布の例示的なプロット400a及び400bを示す。図4Aのプロット400aは、アンバランスなデータセットを示し、図4Bのプロット400bは、データセットのバランスをとるために幾つかの(a number of)画像を合成することにより、バランスのとれたデータセットを示す。プロット400a及び400bは、AU組み合わせ410a及び410bと、対応する強度420a及び420bを含み得る。
図4Aのプロット400aが示すように、AU組み合わせのセット410aは、個々のAU組み合わせ411a、412a、413a、414a、415a、416a、及び417aを含み得、これらの各々が、強度421a、422a、423a、424a、425a、及び426aを含む対応する強度420aを有する。
一例としてAU組み合わせ415aを用いると、第1の強度421aは、その強度を示す比較的少数の画像を有し、一方、第2、第3、及び第4の強度422a、423a、及び424aは、それぞれの強度を示すより多数の画像を有する。第5の強度425aは、第1の強度421aより多い画像を有するが、第2、第3、及び第4の強度422a、423a、及び424aより少ない。第6の強度426aは、組み合わせられた残りの強度とほぼ同数の画像を有する。
いくつかの実施形態において、プロット400aに示されるデータセットはアンバランスであり得、データセットのバランスをとることが望ましい可能性があると決定され得る。例えば、機械学習システムをホストするコンピューティングデバイス(又は、任意の他のコンピューティングシステム)が、データセットがアンバランスであり、よりバランスのとれたデータセットは機械学習システムの訓練においてより良く機能し得ると決定してもよい。いくつかの実施形態において、バランスをとるとき、合成されるべき画像の数は、強度の各々にほぼ同数の単位(units)を提供することを容易にするために、任意のアプローチを使用して決定されてよい。例えば、バランスをとることは、最大数の画像を有する強度にマッチするように他の強度の画像を合成することを含んでもよく、それにより、強度の全てが同数の画像を有する。別の例として、バランスをとることは、画像のターゲット数と、画像のターゲット数に到達するために強度のうち1つ以上において画像を合成することを含んでもよい。さらに又は代わりに、データセットのバランスをより良くとるために、オーバーサンプリングされた強度からの特定の画像がデータセットから除去されてもよい。さらなる一例として、画像の総数が決定され、それが上記数の強度間で分割されて、強度の各々についての画像の設定数を導出してもよい。いくつかの実施形態において、データセットのバランスをとるための決定は、合成されるべき所与のAU組み合わせ及び強度のための画像の数を識別することを含んでもよい。
図4Bに示すように、データセットのバランスをとった後、強度421b~426bの各々は、所与のAU組み合わせについてそれぞれの強度を示す同じ又はほぼ同じ数(例えば、互いの閾値数、パーセンテージ等の範囲内)の画像を各々有し得る。
表形式において観察され得るように、特定の強度(Aなど)では、アンバランスな強度が単にオーバーサンプリングされた場合、強度Aの各画像は約10回再使用されることになる。しかしながら、強度Eが検討されるとき、各画像は約700回使用されることになる。本開示によれば、再サンプリングでなく、さらなる画像が合成されて、よりロバストで正確な訓練データセットを提供する。
本開示の範囲から逸脱することなく、プロット400a/400bに対して修正、追加、又は省略がなされてもよい。例えば、記載された方法における異なる要素の指定は、本明細書に記載される概念の説明を助けることを意図し、限定するものではない。
図5は、本開示の1つ以上の実施形態による、バランスのとれたデータセットのための画像合成の一例示的な方法500の例示的なフローチャートを示す。例えば、方法500は、入力画像についての顔の表情を(例えば、AU組み合わせ及び対応する強度を識別することにより)識別するために機械学習システムを訓練するための、よりバランスのとれたデータセットを生成するために実行されてもよい。方法500の1つ以上のオペレーションが、図1及び/又は図200の環境100及び/又は200の任意のコンポーネントをホストする任意のコンピューティングデバイス、例えば、訓練データセット110、機械学習システム130等をホストするコンピューティングデバイスなどの、システム若しくはデバイス又はこれらの組み合わせにより実行されてもよい。個別のブロックとして示されているが、方法500の様々なブロックが所望の実装に依存してさらなるブロックに分割されてもよく、より少ないブロックに組み合わせられてもよく、あるいは消去されてもよい。
ブロック510において、少なくとも1つのターゲットAU組み合わせと、ターゲットAU組み合わせのうち各AUの強度とを含む、ラベル付きデータセットが取得され得る。例えば、画像内に示されるAU組み合わせと、AU組み合わせのうちのAUの対応する強度とに関してラベル付けされた画像を含む、データセット(図1のデータセット110及び/又は図2のデータセット210)が取得されてもよい。
ブロック520において、データセットのバランスをより良くとるために、ターゲットAU組み合わせのうち各AUの各強度の画像の数に関して決定が行われ得る。例えば、ターゲットAU組み合わせのうち各AUの強度の各々を示す画像の数が決定されてもよい。いくつかの実施形態において、ラベル付きデータセットは、ターゲットAU組み合わせのうちのAUに対応しても又はそうでなくてもよい、他のAU組み合わせ及び/又は強度を含み得る。例えば、合成されるべき画像は、ラベル付きデータセット510に含まれても又はそうでなくてもよい、関連強度を有するAU及び/又はAU組み合わせに対応してもよい。例えば、図4Aに示すように、AU組み合わせ411aは5つの異なる強度を含み、一方、他のもの(AU組み合わせ414aなど)は6つの異なる強度を含む。図4Bに示すように、AU組み合わせ411bは、たとえ元のデータセットが第6の強度421bを有する画像を含まなかったとしても、全6強度を含む。強度の例が与えられているが、画像の合成のために、AU組み合わせがさらに識別されてもよく、AU組み合わせは、ブロック510のラベル付きデータセットに含まれても又はそうでなくてもよい。
ブロック530において、各強度について合成されるべき新しい画像の数が識別され得る。例えば、AU組み合わせのうち様々なAUの様々な強度を比較して、どの強度及び/又はAUが合成されるさらなる画像から恩恵を受け得るかを決定してもよい。いくつかの実施形態において、このような識別は、画像のターゲット数を選択することと、合成されるべき不足分を決定することを含んでもよい。さらに又は代わりに、そのような識別は、所与の強度についていくつの画像が強度のうち1つの最高の、2番目に高い、又は平均/中央の画像数にマッチすることを容易にするかを決定することを含んでもよい。
ブロック540において、上記数の新しい画像が合成され得る。いくつかの実施形態において、新しい画像を合成するとき中立表情の入力画像が使用されてもよい。さらに又は代わりに、入力画像及び/又はターゲット画像(例えば、さらなる画像が合成されているターゲットAU組み合わせ及び強度を示す画像)の3D位置合わせが行われて、高品質画像の合成を容易にしてもよい。いくつかの実施形態において、画像を合成するとき1つ以上の損失パラメータが利用されて、高品質画像の生成を容易にしてもよい。
ブロック550において、新しい画像がブロック510のラベル付きデータセットに追加され得る。これら及び他の実施形態において、ブロック510のデータセットの1つ以上の画像が除去されてもよい。ブロック550が完了すると、ターゲットAU組み合わせのAUにわたりバランスのとれた強度を有する完全なデータセットが達成され得る。
ブロック560において、ブロック540で生成された新しい画像を有するブロック550のデータセットが、顔の表情を識別するように機械学習システムを訓練するために使用され得る。例えば、このデータセットを使用してCNNを訓練して、CNNを使用した画像のラベル付けを容易にしてもよい。訓練された後、CNNは、示された顔の表情(例えば、AU組み合わせ及び/又は関連強度)に関してラベル付けされていない顔の入力画像を提供されてもよい。訓練されたCNNを使用し、入力画像は、識別された顔の表情で(例えば、示されたAU組み合わせ及び/又は関連強度を識別することにより)ラベル付けされ得る。
本開示の範囲から逸脱することなく、方法500に対して修正、追加、又は省略がなされてもよい。例えば、方法500のオペレーションは異なる順序で実現されてもよい。さらに又は代わりに、2つ以上のオペレーションが同時に実行されてもよい。さらに、概説されるオペレーション及び動作は例として提供されており、オペレーション及び動作のいくつかが、開示される実施形態の本質を損なうことなく任意でもよく、より少ないオペレーション及び動作に組み合わせられてもよく、あるいはさらなるオペレーション及び動作に拡張されてもよい。
図6A及び図6Bは、本開示の1つ以上の実施形態による、バランスのとれたデータセットのための画像合成の別の例示的な方法600の別の例示的なフローチャートを示す。方法600の1つ以上のオペレーションが、図1及び/又は図200の環境100及び/又は200の任意のコンポーネントをホストする任意のコンピューティングデバイス、例えば、訓練データセット110、機械学習システム130等をホストするコンピューティングデバイスなどの、システム若しくはデバイス又はこれらの組み合わせにより実行されてもよい。個別のブロックとして示されているが、方法600の様々なブロックが所望の実装に依存してさらなるブロックに分割されてもよく、より少ないブロックに組み合わせられてもよく、あるいは消去されてもよい。
ブロック605において、ラベル付き画像のデータセットが取得され得る。ブロック605は、図5のブロック510に類似又は相当し得る。いくつかの実施形態において、ラベル付きデータセットを取得することは、管理者又は他のユーザがデータセット内の画像のうち1つ以上について1つ以上のAU組み合わせ及び/又は強度を手動で識別することを含んでもよい。
ブロック610において、ターゲットAU組み合わせの第iのAUが識別され得る。例えば、ブロック610を通る最初の通過はiを1として初期化してもよく、ターゲットAU組み合わせのセットのうちのAU組み合わせにおける第1のAUが識別されてもよい。
ブロック615において、第jの強度が識別され得る。例えば、ブロック615を通る最初の通過はjを1として初期化してもよく、AU組み合わせのうち第iのAUの第1の強度が識別されてもよい。
ブロック620において、第jの強度が他の強度と比較してバランスを失っているかどうか決定が行われ得る。例えば、第jの強度を示す画像の数が、AU組み合わせの第iのAU及び/又は他のAU及び/又はAU組み合わせの他の強度を示す画像の数と比較されてもよい。別の例として、第jの強度を示す画像の数は、画像のターゲット数と比較されてもよい。第jの強度がバランスを失っている場合、方法600はブロック625に進み得る。第jの強度がバランスを失っていない場合、方法600は、「B」を介してブロック640に進み得る。
ブロック625において、合成されるべき新しい画像の数が決定され得る。例えば、第jの強度がバランスを失っていることに基づいて、新しい画像の数は、いくつの画像が第jの強度をバランスのとれたものにするかを表し得る。いくつかの実施形態において、新しい画像の数は、いくつの追加画像が第jの強度を画像のターゲット数に至らせるか、又は最高数の強度と同じ画像の数に至らせるかなどを表してもよい。
ブロック630において、ブロック625で決定された数の新しい画像が合成され得る。ブロック630は、ブロック540に類似又は相当し得る。ブロック635の後、方法600は、図6Bに示す「A」を介してブロック635に進み得る。
ブロック635において、新しい画像がラベル付きデータセットに追加され得る。ブロック635は、ブロック550に類似又は相当し得る。
ブロック640において、第iのAUがまだ解析されていないさらなる強度を有するかどうか決定が行われ得る。さらなる強度がある場合、方法600はブロック645に進み得る。さらなる強度がない場合(例えば、全ての強度がバランスについて解析されている場合)、方法600はブロック650に進み得、jの値は1にリセットされ得る。
ブロック645において、jの値は1だけインクリメントされ得、方法600は、「C」を介してブロック615に戻り得、ここで、次の強度が解析され、次の強度のために任意の追加画像を合成することにより再度バランスをとられ(re-balanced)得る。
ブロック650において、データセットがまだ解析されていないさらなるAU及び/又はAU組み合わせを有するかどうか決定が行われ得る。解析のためのさらなるAU及び/又はAU組み合わせがある場合、方法600はブロック645に進み得る。さらなるAU及び/又はAU組み合わせがある(例えば、全てのAU及び/又はAU組み合わせが解析されているわけではない)場合、方法600はブロック655に進み得る。さらなるAU及び/又はAU組み合わせがない場合(例えば、全てのAU及び/又はAU組み合わせがバランスについて解析されている場合)、方法600はブロック660に進み得る。例えば、ブロック660に進む前、方法600は、データセットの強度及び/又はAU組み合わせにわたりバランスのとれたデータセットを生成していてもよい。
ブロック655において、iの値は1だけインクリメントされ得、方法600は「D」を介してブロック610に戻り得、ここで、次のAU及び/又はAU組み合わせが解析され、再度バランスをとられ得る。
ブロック660において、更新されたデータセットが出力され得る。例えば、新しい合成画像を含むデータセットが出力されてもよく、それにより、更新されたデータセットを使用して機械学習システムを訓練して、どのAU及び/又は強度が顔画像に示されているかを識別することができる。
本開示の範囲から逸脱することなく、方法600に対して修正、追加、又は省略がなされてもよい。例えば、方法600のオペレーションは異なる順序で実現されてもよい。さらに又は代わりに、2つ以上のオペレーションが同時に実行されてもよい。さらに、概説されるオペレーション及び動作は例として提供されており、オペレーション及び動作のいくつかが、開示される実施形態の本質を損なうことなく任意でもよく、より少ないオペレーション及び動作に組み合わせられてもよく、あるいはさらなるオペレーション及び動作に拡張されてもよい。
図7は、本開示に記載される少なくとも1つの実施形態による、一例示的なコンピューティングシステム700を示す。コンピューティングシステム700は、プロセッサ710、メモリ720、データ記憶装置730、及び/又は通信ユニット740を含んでもよく、これらは全て通信上結合されてもよい。図1及び図2の環境100及び200、それらのコンポーネント、又はそれらのコンポーネントをホストするコンピューティングシステムのいずれか又は全てが、コンピューティングシステム700と矛盾しないコンピューティングシステムとして実施され得る。
一般に、プロセッサ710は、様々なコンピュータハードウェア又はソフトウェアモジュールを含む、任意の適切な専用若しくは汎用コンピュータ、コンピューティングエンティティ、又は処理デバイスを含んでもよく、任意の適用可能なコンピュータ読取可能記憶媒体に記憶された命令を実行するように構成されてもよい。例えば、プロセッサ710は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラム命令を解釈及び/又は実行するよう及び/又はデータを処理するように構成された任意の他のデジタル若しくはアナログ回路を含んでもよい。
図7において単一のプロセッサとして示されているが、プロセッサ710は、本開示に記載の任意数のオペレーションを個々又は集合的に実行するように構成された、任意数のネットワーク又は物理位置にわたり分散された任意数のプロセッサを含んでもよいことが理解される。いくつかの実施形態において、プロセッサ710は、メモリ720、データ記憶装置730、又はメモリ720及びデータ記憶装置730に記憶されたプログラム命令を解釈及び/又は実行し、かつ/あるいはデータを処理してもよい。いくつかの実施形態において、プロセッサ710は、データ記憶装置730からプログラム命令を取り出し、プログラム命令をメモリ720にロードしてもよい。
プログラム命令がメモリ720にロードされた後、プロセッサ710は、プログラム命令、例えば、図5~図6の方法500及び/又は600それぞれのうち任意のものを実行する命令などを実行することができる。例えば、プロセッサ710は、データセットのバランスをとるために合成されるべき画像の数を決定し、画像を合成することに関する命令を取得してもよい。
メモリ720及びデータ記憶装置730は、記憶されたコンピュータ実行可能命令又はデータ構造を搬送し又は有するコンピュータ読取可能記憶媒体又は1つ以上のコンピュータ読取可能記憶媒体を含むことができる。そのようなコンピュータ読取可能記憶媒体は、プロセッサ710などの汎用又は専用コンピュータによりアクセスされ得る任意の利用可能な媒体でもよい。いくつかの実施形態において、コンピューティングシステム700は、メモリ720及びデータ記憶装置730のいずれかを含んでもよく、あるいは含まなくてもよい。
限定でなく例として、そのようなコンピュータ読取可能記憶媒体は、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、電気的消去可能プログラマブル読取専用メモリ(EEPROM)、コンパクトディスク読取専用メモリ(CD‐ROM)若しくは他の光ディスク記憶装置、磁気ディスク記憶装置若しくは他の磁気記憶デバイス、フラッシュメモリデバイス(例えば、ソリッドステートメモリデバイス)、又はコンピュータ実行可能命令又はデータ構造の形式で所望のプログラムコードを搬送又は記憶するために使用でき、かつ汎用又は専用コンピュータによりアクセスできる任意の他の記憶媒体を含む、非一時的なコンピュータ読取可能記憶媒体を含んでもよい。上記の組み合わせもまた、コンピュータ読取可能記憶媒体の範囲内に含まれてもよい。コンピュータ実行可能命令は、例えば、プロセッサ710に特定のオペレーション又はオペレーションのグループを実行させるように構成された命令及びデータを含んでもよい。
通信ユニット740は、ネットワークを介して情報を送信又は受信するように構成された任意のコンポーネント、デバイス、システム、又はこれらの組み合わせを含んでもよい。いくつかの実施形態において、通信ユニット740は、他の場所、同じ場所における他のデバイス、又はさらには同じシステム内の他のコンポーネントと通信してもよい。例えば、通信ユニット740は、モデム、ネットワークカード(無線又は有線)、光通信装置、赤外線通信装置、無線通信装置(アンテナなど)、及び/又はチップセット(Bluetooth(登録商標)装置、802.6装置(メトロポリタンエリアネットワーク(MAN)など)、WiFi装置、WiMax(登録商標)装置、セルラー通信設備等)などを含んでもよい。通信ユニット740は、ネットワーク及び/又は本開示に記載される任意の他のデバイス又はシステムとの間でデータが交換されることを可能にし得る。例えば、通信ユニット740は、システム700が、コンピューティングデバイス及び/又は他のネットワークなどの他のシステムと通信することを可能にし得る。
当業者は本開示を検討した後、本開示の範囲から逸脱することなくシステム700に対して修正、追加、又は省略がなされ得ることを認識し得る。例えば、システム700は、明示的に例示及び記載されたものより多くの又は少ないコンポーネントを含んでもよい。
前述の開示は、開示された正確な形式又は特定の分野の使用に本開示を限定することは意図されない。したがって、本明細書に明示的に記載されているか又は暗に示されているかにかかわらず、本開示に対する様々な代替実施形態及び/又は修正が本開示に照らして可能なことが企図される。このように本開示の実施形態を説明したが、本開示の範囲から逸脱することなく形式及び詳細において変更がなされ得ることが認識され得る。したがって、本開示は、特許請求の範囲によってのみ限定される。
いくつかの実施形態において、本明細書に記載される異なるコンポーネント、モジュール、エンジン、及びサービスが、コンピューティングシステム上で実行するオブジェクト又はプロセスとして(例えば、別個のスレッドとして)実現されてもよい。本明細書に記載されるシステム及びプロセスのいくつかは、一般に、(汎用ハードウェアに記憶され、及び/又は汎用ハードウェアにより実行される)ソフトウェアで実現されるものとして記載されるが、特定のハードウェア実装、又はソフトウェアと特定のハードウェア実装との組み合わせもまた可能であり、企図される。
本明細書において、特に別記の特許請求の範囲(例えば、別記の特許請求の範囲の本文)において用いられる用語は、一般に「開放的」な用語として意図されている(例えば、用語「含んでいる」は、「含んでいるがこれに限定されない」と解釈されるべきであり、用語「有する」は、「少なくとも有する」と解釈されるべきであり、用語「含む」は、「含むがこれに限定されない」と解釈されるべきである、等)。
さらに、特定数の導入された請求項記載が意図されている場合、そのような意図は請求項に明示的に記載され、そのような記載がない場合、そのような意図は存在しない。例えば、理解の助けとして、以下の別記の特許請求の範囲は、請求項記載を導入するために、導入フレーズ「少なくとも1つの」及び「1つ以上の」の使用を含むことがある。しかしながら、そのようなフレーズの使用は、不定冠詞「一の」(“a”又は“an”)による請求項記載の導入が、同じ請求項が導入フレーズ「1つ以上の」又は「少なくとも1つの」と「一の」などの不定冠詞とを含むときでも、そのような導入された請求項記載を含む任意の特定の請求項を1つのそのような記載のみ含む実施形態に限定することを暗に示すように見なされるべきではない(例えば、「一の」(“a”及び/又は“an”)は「少なくとも1つの」又は「1つ以上の」を意味するよう解釈されるべきである)。請求項記載を導入するために用いられる定冠詞の使用についても同様である。
さらに、特定数の導入された請求項記載が明示的に記載されている場合であっても、当業者は、そのような記載は少なくとも記載された数を意味するよう解釈されるべきであることを認識するであろう(例えば、他の修飾語を伴わない「2つの記載」というただそれだけの記載は、少なくとも2つの記載、又は2つ以上の記載を意味する)。さらに、「A、B、及びC等のうち少なくとも1つ」又は「A、B、及びC等のうち1つ以上」と類似の規定が用いられている例において、一般に、そのような構造は、A単独、B単独、C単独、A及びB共に、A及びC共に、B及びC共に、又はA、B、及びC共に等を含むことが意図される。例えば、用語「及び/又は」の使用は、このようにみなされることが意図される。
さらに、明細書においてか、特許請求の範囲においてか、又は図面においてかにかかわらず、2つ以上の代替的な用語を提示するいかなる分離的なワード又はフレーズも、用語のうち1つ、用語のうちいずれか、又は双方の用語を含む可能性を考慮するよう理解されるべきである。例えば、フレーズ「A又はB」は、「A」又は「B」又は「A及びB」の可能性を含むよう理解されるべきである。
しかしながら、そのようなフレーズの使用は、不定冠詞「一の」(“a”又は“an”)による請求項記載の導入が、同じ請求項が導入フレーズ「1つ以上の」又は「少なくとも1つの」と「一の」などの不定冠詞とを含むときでも、そのような導入された請求項記載を含む任意の特定の請求項を1つのそのような記載のみ含む実施形態に限定することを暗に示すように見なされるべきではない(例えば、「一の」(“a”及び/又は“an”)は「少なくとも1つの」又は「1つ以上の」を意味するよう解釈されるべきである)。請求項記載を導入するために用いられる定冠詞の使用についても同様である。
さらに、用語「第1」、「第2」、「第3」等の使用は、本明細書において必ずしも特定の順序を含意するために使用されるものではない。一般に、用語「第1」、「第2」、「第3」等は、異なる要素間で区別するために使用される。用語「第1」、「第2」、「第3」等が特定の順序を含意することの具体的な提示なしでは、これらの用語は特定の順序を含意するよう理解されるべきではない。
本明細書に記載される全ての例及び条件付き言語は、本発明及び発明者が当該技術分野を促進するために寄与した概念を理解する際に読者を助けるための教育的目的が意図され、このように具体的に記載された例及び条件に限定されないものとみなされるべきである。本開示の実施形態が詳細に説明されたが、本開示の主旨及び範囲から逸脱することなく様々な変更、置換、及び改変をこれに行えることを理解されたい。
開示された実施形態の前の説明は、当業者が本開示を製造又は使用することができるように提供される。これらの実施形態に対する様々な修正は、当業者には容易に明らかであり、本明細書で定義される一般的原理は、本開示の主旨又は範囲から逸脱することなく他の実施形態に適用され得る。したがって、本開示は、本明細書に示される実施形態に限定されることは意図されず、本明細書に開示された原理及び新規の特徴と矛盾しない最も広い範囲を与えられるべきである。
上記の実施形態につき以下の付記を残しておく。
(付記1)
ターゲット動作単位(AU)組み合わせと、前記ターゲットAU組み合わせのうち各AUの第1の強度カテゴリ及び前記ターゲットAU組み合わせのうち各AUの第2の強度カテゴリを少なくとも有する前記ターゲットAU組み合わせの複数のラベル付き画像とを含む、データセットを取得するステップと、
第1のAUの前記第1の強度カテゴリが前記第1のAUの前記第2の強度カテゴリより多数のラベル付き画像を有すると決定するステップと、
前記決定に基づいて、前記第1のAUの前記第2の強度カテゴリにおいて合成されるべき新しい画像の数を識別するステップと、
前記第1のAUの前記第2の強度カテゴリを有する前記数の新しい画像を合成するステップと、
前記新しい画像を前記データセットに追加するステップと、
を含む方法。
(付記2)
前記新しい画像が前記データセットに追加された後、前記データセットを使用して顔の表情を識別するように機械学習システムを訓練するステップ、をさらに含む付記1に記載の方法。
(付記3)
前記複数の画像のうち少なくとも1つの画像にラベル付けして、前記少なくとも1つの画像内に表された所与のAUの所与の強度を識別するステップ、をさらに含む付記1に記載の方法。
(付記4)
前記数の新しい画像を合成するステップは、前記ターゲットAU組み合わせ以外のAUのみ含む入力画像をランダムに選択するステップを含み、前記新しい画像のうち少なくとも1つは、前記ランダムに選択された入力画像に基づく、付記1に記載の方法。
(付記5)
前記数の新しい画像を合成するステップは、2次元の画像から3次元の顔形状を生成するステップを含み、前記新しい画像のうち少なくとも1つは、前記3次元の顔形状に基づく、付記1に記載の方法。
(付記6)
前記データセットの画像は、2次元の画像、3次元の顔形状、又はこれらの組み合わせを含む、付記1に記載の方法。
(付記7)
前記新しい画像が前記データセットに追加された後、前記第1の強度カテゴリ及び前記第2の強度カテゴリは同数の画像を有する、付記1に記載の方法。
(付記8)
前記第1のAUの第3の強度カテゴリが前記第1のAUの前記第1の強度カテゴリより少ない画像を有することに基づいて、前記第1のAUの前記第3の強度カテゴリにおける第2の新しい画像のセットを合成するステップ、をさらに含む付記1に記載の方法。
(付記9)
第2のAUの前記第2の強度カテゴリが前記第2のAUの第1の強度カテゴリより少ない画像を有することに基づいて、前記第2のAUの前記第2の強度カテゴリにおける第2の新しい画像のセットを合成するステップ、をさらに含む付記1に記載の方法。
(付記10)
前記新しい画像を第2のデータセットに追加するステップであり、前記第2のデータセットは合成された画像のみ含む、ステップと、
前記第2のデータセットを使用して顔の表情を識別するように機械学習システムを訓練するステップと、
をさらに含む付記1に記載の方法。
(付記11)
少なくとも1つのコンピューティングシステムにより実行されることに応答して付記1に記載の方法の実行をさせる1つ以上の命令を記憶するように構成された少なくとも1つの非一時的コンピュータ読取可能媒体。
(付記12)
システムであって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサにより実行されることに応答して当該システムにオペレーションを実行させる命令を記憶するように構成された1つ以上のコンピュータ読取可能媒体と、を備え、前記オペレーションは、
ターゲット動作単位(AU)組み合わせと、前記ターゲットAU組み合わせのうち各AUの第1の強度カテゴリ及び前記ターゲットAU組み合わせのうち各AUの第2の強度カテゴリを少なくとも有する前記ターゲットAU組み合わせの複数のラベル付き画像とを含む、データセットを取得することと、
第1のAUの前記第1の強度カテゴリが前記第1のAUの前記第2の強度カテゴリより多数のラベル付き画像を有すると決定することと、
前記決定に基づいて、前記第1のAUの前記第2の強度カテゴリにおいて合成されるべき新しい画像の数を識別することと、
前記第1のAUの前記第2の強度カテゴリを有する前記数の新しい画像を合成することと、
前記新しい画像を前記データセットに追加することと、
を含む、システム。
(付記13)
前記オペレーションは、前記新しい画像が前記データセットに追加された後、前記データセットを使用して顔の表情を識別するように機械学習システムを訓練することをさらに含む、付記12に記載のシステム。
(付記14)
前記オペレーションは、前記複数の画像のうち少なくとも1つの画像にラベル付けして、前記少なくとも1つの画像内に表された所与のAUの所与の強度を識別することをさらに含む、付記12に記載のシステム。
(付記15)
前記数の新しい画像を合成することは、前記ターゲットAU組み合わせ以外のAUのみ含む入力画像をランダムに選択することを含み、前記新しい画像のうち少なくとも1つは、前記ランダムに選択された入力画像に基づく、付記12に記載のシステム。
(付記16)
前記数の新しい画像を合成することは、2次元の画像から3次元の顔形状を生成することを含み、前記新しい画像のうち少なくとも1つは、前記3次元の顔形状に基づく、付記12に記載のシステム。
(付記17)
前記データセットの画像は、2次元の画像、3次元の顔形状、又はこれらの組み合わせを含む、付記12に記載のシステム。
(付記18)
前記新しい画像が前記データセットに追加された後、前記第1の強度カテゴリ及び前記第2の強度カテゴリは同数の画像を有する、付記12に記載のシステム。
(付記19)
前記オペレーションは、第2のAUの前記第2の強度カテゴリが前記第2のAUの第1の強度カテゴリより少ない画像を有することに基づいて、前記第2のAUの前記第2の強度カテゴリにおける第2の新しい画像のセットを合成することをさらに含む、付記12に記載のシステム。
(付記20)
前記オペレーションは、
前記新しい画像を第2のデータセットに追加することであり、前記第2のデータセットは合成された画像のみ含む、ことと、
前記第2のデータセットを使用して顔の表情を識別するように機械学習システムを訓練することと、
をさらに含む、付記12に記載のシステム。
(付記1)
ターゲット動作単位(AU)組み合わせと、前記ターゲットAU組み合わせのうち各AUの第1の強度カテゴリ及び前記ターゲットAU組み合わせのうち各AUの第2の強度カテゴリを少なくとも有する前記ターゲットAU組み合わせの複数のラベル付き画像とを含む、データセットを取得するステップと、
第1のAUの前記第1の強度カテゴリが前記第1のAUの前記第2の強度カテゴリより多数のラベル付き画像を有すると決定するステップと、
前記決定に基づいて、前記第1のAUの前記第2の強度カテゴリにおいて合成されるべき新しい画像の数を識別するステップと、
前記第1のAUの前記第2の強度カテゴリを有する前記数の新しい画像を合成するステップと、
前記新しい画像を前記データセットに追加するステップと、
を含む方法。
(付記2)
前記新しい画像が前記データセットに追加された後、前記データセットを使用して顔の表情を識別するように機械学習システムを訓練するステップ、をさらに含む付記1に記載の方法。
(付記3)
前記複数の画像のうち少なくとも1つの画像にラベル付けして、前記少なくとも1つの画像内に表された所与のAUの所与の強度を識別するステップ、をさらに含む付記1に記載の方法。
(付記4)
前記数の新しい画像を合成するステップは、前記ターゲットAU組み合わせ以外のAUのみ含む入力画像をランダムに選択するステップを含み、前記新しい画像のうち少なくとも1つは、前記ランダムに選択された入力画像に基づく、付記1に記載の方法。
(付記5)
前記数の新しい画像を合成するステップは、2次元の画像から3次元の顔形状を生成するステップを含み、前記新しい画像のうち少なくとも1つは、前記3次元の顔形状に基づく、付記1に記載の方法。
(付記6)
前記データセットの画像は、2次元の画像、3次元の顔形状、又はこれらの組み合わせを含む、付記1に記載の方法。
(付記7)
前記新しい画像が前記データセットに追加された後、前記第1の強度カテゴリ及び前記第2の強度カテゴリは同数の画像を有する、付記1に記載の方法。
(付記8)
前記第1のAUの第3の強度カテゴリが前記第1のAUの前記第1の強度カテゴリより少ない画像を有することに基づいて、前記第1のAUの前記第3の強度カテゴリにおける第2の新しい画像のセットを合成するステップ、をさらに含む付記1に記載の方法。
(付記9)
第2のAUの前記第2の強度カテゴリが前記第2のAUの第1の強度カテゴリより少ない画像を有することに基づいて、前記第2のAUの前記第2の強度カテゴリにおける第2の新しい画像のセットを合成するステップ、をさらに含む付記1に記載の方法。
(付記10)
前記新しい画像を第2のデータセットに追加するステップであり、前記第2のデータセットは合成された画像のみ含む、ステップと、
前記第2のデータセットを使用して顔の表情を識別するように機械学習システムを訓練するステップと、
をさらに含む付記1に記載の方法。
(付記11)
少なくとも1つのコンピューティングシステムにより実行されることに応答して付記1に記載の方法の実行をさせる1つ以上の命令を記憶するように構成された少なくとも1つの非一時的コンピュータ読取可能媒体。
(付記12)
システムであって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサにより実行されることに応答して当該システムにオペレーションを実行させる命令を記憶するように構成された1つ以上のコンピュータ読取可能媒体と、を備え、前記オペレーションは、
ターゲット動作単位(AU)組み合わせと、前記ターゲットAU組み合わせのうち各AUの第1の強度カテゴリ及び前記ターゲットAU組み合わせのうち各AUの第2の強度カテゴリを少なくとも有する前記ターゲットAU組み合わせの複数のラベル付き画像とを含む、データセットを取得することと、
第1のAUの前記第1の強度カテゴリが前記第1のAUの前記第2の強度カテゴリより多数のラベル付き画像を有すると決定することと、
前記決定に基づいて、前記第1のAUの前記第2の強度カテゴリにおいて合成されるべき新しい画像の数を識別することと、
前記第1のAUの前記第2の強度カテゴリを有する前記数の新しい画像を合成することと、
前記新しい画像を前記データセットに追加することと、
を含む、システム。
(付記13)
前記オペレーションは、前記新しい画像が前記データセットに追加された後、前記データセットを使用して顔の表情を識別するように機械学習システムを訓練することをさらに含む、付記12に記載のシステム。
(付記14)
前記オペレーションは、前記複数の画像のうち少なくとも1つの画像にラベル付けして、前記少なくとも1つの画像内に表された所与のAUの所与の強度を識別することをさらに含む、付記12に記載のシステム。
(付記15)
前記数の新しい画像を合成することは、前記ターゲットAU組み合わせ以外のAUのみ含む入力画像をランダムに選択することを含み、前記新しい画像のうち少なくとも1つは、前記ランダムに選択された入力画像に基づく、付記12に記載のシステム。
(付記16)
前記数の新しい画像を合成することは、2次元の画像から3次元の顔形状を生成することを含み、前記新しい画像のうち少なくとも1つは、前記3次元の顔形状に基づく、付記12に記載のシステム。
(付記17)
前記データセットの画像は、2次元の画像、3次元の顔形状、又はこれらの組み合わせを含む、付記12に記載のシステム。
(付記18)
前記新しい画像が前記データセットに追加された後、前記第1の強度カテゴリ及び前記第2の強度カテゴリは同数の画像を有する、付記12に記載のシステム。
(付記19)
前記オペレーションは、第2のAUの前記第2の強度カテゴリが前記第2のAUの第1の強度カテゴリより少ない画像を有することに基づいて、前記第2のAUの前記第2の強度カテゴリにおける第2の新しい画像のセットを合成することをさらに含む、付記12に記載のシステム。
(付記20)
前記オペレーションは、
前記新しい画像を第2のデータセットに追加することであり、前記第2のデータセットは合成された画像のみ含む、ことと、
前記第2のデータセットを使用して顔の表情を識別するように機械学習システムを訓練することと、
をさらに含む、付記12に記載のシステム。
Claims (20)
- ターゲット動作単位(AU)組み合わせと、前記ターゲットAU組み合わせのうち各AUの第1の強度カテゴリ及び前記ターゲットAU組み合わせのうち各AUの第2の強度カテゴリを少なくとも有する前記ターゲットAU組み合わせの複数のラベル付き画像とを含む、データセットを取得するステップと、
第1のAUの前記第1の強度カテゴリが前記第1のAUの前記第2の強度カテゴリより多数のラベル付き画像を有すると決定するステップと、
前記決定に基づいて、前記第1のAUの前記第2の強度カテゴリにおいて合成されるべき新しい画像の数を識別するステップと、
前記第1のAUの前記第2の強度カテゴリを有する前記数の新しい画像を合成するステップと、
前記新しい画像を前記データセットに追加するステップと、
を含む方法。 - 前記新しい画像が前記データセットに追加された後、前記データセットを使用して顔の表情を識別するように機械学習システムを訓練するステップ、をさらに含む請求項1に記載の方法。
- 前記複数の画像のうち少なくとも1つの画像にラベル付けして、前記少なくとも1つの画像内に表された所与のAUの所与の強度を識別するステップ、をさらに含む請求項1に記載の方法。
- 前記数の新しい画像を合成するステップは、前記ターゲットAU組み合わせ以外のAUのみ含む入力画像をランダムに選択するステップを含み、前記新しい画像のうち少なくとも1つは、前記ランダムに選択された入力画像に基づく、請求項1に記載の方法。
- 前記数の新しい画像を合成するステップは、2次元の画像から3次元の顔形状を生成するステップを含み、前記新しい画像のうち少なくとも1つは、前記3次元の顔形状に基づく、請求項1に記載の方法。
- 前記データセットの画像は、2次元の画像、3次元の顔形状、又はこれらの組み合わせを含む、請求項1に記載の方法。
- 前記新しい画像が前記データセットに追加された後、前記第1の強度カテゴリ及び前記第2の強度カテゴリは同数の画像を有する、請求項1に記載の方法。
- 前記第1のAUの第3の強度カテゴリが前記第1のAUの前記第1の強度カテゴリより少ない画像を有することに基づいて、前記第1のAUの前記第3の強度カテゴリにおける第2の新しい画像のセットを合成するステップ、をさらに含む請求項1に記載の方法。
- 第2のAUの前記第2の強度カテゴリが前記第2のAUの第1の強度カテゴリより少ない画像を有することに基づいて、前記第2のAUの前記第2の強度カテゴリにおける第2の新しい画像のセットを合成するステップ、をさらに含む請求項1に記載の方法。
- 前記新しい画像を第2のデータセットに追加するステップであり、前記第2のデータセットは合成された画像のみ含む、ステップと、
前記第2のデータセットを使用して顔の表情を識別するように機械学習システムを訓練するステップと、
をさらに含む請求項1に記載の方法。 - 少なくとも1つのコンピューティングシステムに請求項1乃至10のうちいずれか1項に記載の方法を実行させるコンピュータプログラム。
- システムであって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサにより実行されることに応答して当該システムにオペレーションを実行させる命令を記憶するように構成された1つ以上のコンピュータ読取可能媒体と、を備え、前記オペレーションは、
ターゲット動作単位(AU)組み合わせと、前記ターゲットAU組み合わせのうち各AUの第1の強度カテゴリ及び前記ターゲットAU組み合わせのうち各AUの第2の強度カテゴリを少なくとも有する前記ターゲットAU組み合わせの複数のラベル付き画像とを含む、データセットを取得することと、
第1のAUの前記第1の強度カテゴリが前記第1のAUの前記第2の強度カテゴリより多数のラベル付き画像を有すると決定することと、
前記決定に基づいて、前記第1のAUの前記第2の強度カテゴリにおいて合成されるべき新しい画像の数を識別することと、
前記第1のAUの前記第2の強度カテゴリを有する前記数の新しい画像を合成することと、
前記新しい画像を前記データセットに追加することと、
を含む、システム。 - 前記オペレーションは、前記新しい画像が前記データセットに追加された後、前記データセットを使用して顔の表情を識別するように機械学習システムを訓練することをさらに含む、請求項12に記載のシステム。
- 前記オペレーションは、前記複数の画像のうち少なくとも1つの画像にラベル付けして、前記少なくとも1つの画像内に表された所与のAUの所与の強度を識別することをさらに含む、請求項12に記載のシステム。
- 前記数の新しい画像を合成することは、前記ターゲットAU組み合わせ以外のAUのみ含む入力画像をランダムに選択することを含み、前記新しい画像のうち少なくとも1つは、前記ランダムに選択された入力画像に基づく、請求項12に記載のシステム。
- 前記数の新しい画像を合成することは、2次元の画像から3次元の顔形状を生成することを含み、前記新しい画像のうち少なくとも1つは、前記3次元の顔形状に基づく、請求項12に記載のシステム。
- 前記データセットの画像は、2次元の画像、3次元の顔形状、又はこれらの組み合わせを含む、請求項12に記載のシステム。
- 前記新しい画像が前記データセットに追加された後、前記第1の強度カテゴリ及び前記第2の強度カテゴリは同数の画像を有する、請求項12に記載のシステム。
- 前記オペレーションは、第2のAUの前記第2の強度カテゴリが前記第2のAUの第1の強度カテゴリより少ない画像を有することに基づいて、前記第2のAUの前記第2の強度カテゴリにおける第2の新しい画像のセットを合成することをさらに含む、請求項12に記載のシステム。
- 前記オペレーションは、
前記新しい画像を第2のデータセットに追加することであり、前記第2のデータセットは合成された画像のみ含む、ことと、
前記第2のデータセットを使用して顔の表情を識別するように機械学習システムを訓練することと、
をさらに含む、請求項12に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/994,530 US11557149B2 (en) | 2020-08-14 | 2020-08-14 | Image synthesis for balanced datasets |
US16/994530 | 2020-08-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022032973A true JP2022032973A (ja) | 2022-02-25 |
Family
ID=80224315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021113778A Pending JP2022032973A (ja) | 2020-08-14 | 2021-07-08 | バランスのとれたデータセットのための画像合成 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11557149B2 (ja) |
JP (1) | JP2022032973A (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10902618B2 (en) | 2019-06-14 | 2021-01-26 | Electronic Arts Inc. | Universal body movement translation and character rendering system |
US11504625B2 (en) | 2020-02-14 | 2022-11-22 | Electronic Arts Inc. | Color blindness diagnostic system |
US11232621B2 (en) | 2020-04-06 | 2022-01-25 | Electronic Arts Inc. | Enhanced animation generation based on conditional modeling |
US11648480B2 (en) | 2020-04-06 | 2023-05-16 | Electronic Arts Inc. | Enhanced pose generation based on generative modeling |
TW202219895A (zh) * | 2020-11-09 | 2022-05-16 | 財團法人工業技術研究院 | 辨識系統及其圖資擴增與訓練方法 |
US11887232B2 (en) * | 2021-06-10 | 2024-01-30 | Electronic Arts Inc. | Enhanced system for generation of facial models and animation |
-
2020
- 2020-08-14 US US16/994,530 patent/US11557149B2/en active Active
-
2021
- 2021-07-08 JP JP2021113778A patent/JP2022032973A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US11557149B2 (en) | 2023-01-17 |
US20220051003A1 (en) | 2022-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022032973A (ja) | バランスのとれたデータセットのための画像合成 | |
US11676247B2 (en) | Method, device, and computer program for improving the reconstruction of dense super-resolution images from diffraction-limited images acquired by single molecule localization microscopy | |
US11893828B2 (en) | System and method for image de-identification | |
US11010896B2 (en) | Methods and systems for generating 3D datasets to train deep learning networks for measurements estimation | |
CN108475438B (zh) | 基于学习的嵌入的面部重建 | |
US11403874B2 (en) | Virtual avatar generation method and apparatus for generating virtual avatar including user selected face property, and storage medium | |
CN109492643A (zh) | 基于ocr的证件识别方法、装置、计算机设备及存储介质 | |
CN109583325A (zh) | 人脸样本图片标注方法、装置、计算机设备及存储介质 | |
Sun et al. | Facial age synthesis with label distribution-guided generative adversarial network | |
WO2020108336A1 (zh) | 图像处理方法、装置、设备及存储介质 | |
CN103971112B (zh) | 图像特征提取方法及装置 | |
US20180137343A1 (en) | Facial image generating method, facial image generating apparatus, and facial image generating device | |
Chavan et al. | Real time emotion recognition through facial expressions for desktop devices | |
JP2023021937A (ja) | パーソナライズされた表情分類のための画像合成 | |
CN116189265A (zh) | 基于轻量化语义Transformer模型的素描人脸识别方法、装置及设备 | |
Abraham et al. | Slide-free MUSE microscopy to H&E histology modality conversion via unpaired image-to-image translation GAN Models | |
US11861762B2 (en) | Generating synthesized digital images utilizing class-specific machine-learning models | |
Vonikakis et al. | Morphset: Augmenting categorical emotion datasets with dimensional affect labels using face morphing | |
CN116310008B (zh) | 一种基于少样本学习的图像处理方法及相关设备 | |
JPWO2015068417A1 (ja) | 画像照合システム、画像照合方法およびプログラム | |
CN112464924A (zh) | 一种构建训练集的方法及装置 | |
US20240013357A1 (en) | Recognition system, recognition method, program, learning method, trained model, distillation model and training data set generation method | |
CN115690276A (zh) | 虚拟形象的视频生成方法、装置、计算机设备和存储介质 | |
CN111275778B (zh) | 人脸简笔画生成方法及装置 | |
KR102593000B1 (ko) | 복수의 인물 이미지로부터 추출된 특성을 반영한 가상인물 생성 딥러닝 모델의 학습방법 |