JP7482242B2 - 表情トランスファーモデルの訓練方法、表情トランスファー方法及び装置並びにコンピュータ装置及びプログラム - Google Patents
表情トランスファーモデルの訓練方法、表情トランスファー方法及び装置並びにコンピュータ装置及びプログラム Download PDFInfo
- Publication number
- JP7482242B2 JP7482242B2 JP2022554194A JP2022554194A JP7482242B2 JP 7482242 B2 JP7482242 B2 JP 7482242B2 JP 2022554194 A JP2022554194 A JP 2022554194A JP 2022554194 A JP2022554194 A JP 2022554194A JP 7482242 B2 JP7482242 B2 JP 7482242B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- facial
- loss value
- model
- face image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012546 transfer Methods 0.000 title claims description 291
- 230000008921 facial expression Effects 0.000 title claims description 251
- 238000000034 method Methods 0.000 title claims description 160
- 238000012549 training Methods 0.000 title claims description 144
- 230000001815 facial effect Effects 0.000 claims description 284
- 230000014509 gene expression Effects 0.000 claims description 49
- 230000011218 segmentation Effects 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 20
- 238000013145 classification model Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 99
- 230000008569 process Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 25
- 239000002131 composite material Substances 0.000 description 22
- 238000012545 processing Methods 0.000 description 22
- 238000005516 engineering process Methods 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 210000003128 head Anatomy 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 210000001508 eye Anatomy 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 210000000214 mouth Anatomy 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000001976 improved effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000556720 Manga Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 210000003467 cheek Anatomy 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/162—Detection; Localisation; Normalisation using pixel segmentation or colour matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Description
ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得し、そのうち、ソース域顔画像及びターゲット域顔画像は同じ対象(オブジェクト)に対応する2つの画像に属し(2つの画像であり)、顔特徴画像とターゲット域顔画像との間には対応関係があり;
顔特徴画像及びソース域顔画像に基づいて、訓練(トレーニング)待ち表情トランスファーモデルにより合成顔画像を取得し;
合成顔画像及びターゲット域顔画像に基づいて、判別ネットワークモデルにより合成顔画像に対応する第一判別結果及びターゲット域顔画像に対応する第二判別結果を取得し;
合成顔画像及びターゲット域顔画像に基づいて、画像分類モデルによりカテゴリ特徴ベクトルを取得し、前記カテゴリ特徴ベクトルは前記合成顔画像と前記ターゲット域顔画像との間の差を標識するために用いられ;及び
カテゴリ特徴ベクトル、第一判別結果及び第二判別結果に基づいて、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するステップを含む。
仮想対象に対応する第一画像及びリアルな人物に対応するビデオ素材を取得し、そのうち、ビデオ素材はPフレームの第二画像を含み、Pは1以上の整数であり;
ビデオ素材に基づいて顔特徴画像集合を取得し、そのうち、顔特徴画像集合はP個の顔特徴画像を含み、かつ顔特徴画像と第二画像とは1対1に対応する関係を有し;
顔特徴画像集合及び第一画像に基づいて、表情トランスファーモデルにより合成顔ビデオを取得し、そのうち、合成顔ビデオはPフレームの合成顔画像を含み、表情トランスファーモデルは上記の側面で提供された訓練方法を採用して訓練することで得られたものであり;及び
合成顔ビデオを表示するステップを含む。
リアルな人物に対応する第一画像及び仮想対象に対応するビデオ素材を取得し、そのうち、ビデオ素材はPフレームの第二画像を含み、Pは1以上の整数であり;
第一画像に基づいて顔特徴画像を取得し;
顔特徴画像及びビデオ素材に基づいて、表情トランスファーモデルにより合成顔ビデオを取得し、そのうち、合成顔ビデオはPフレームの合成顔画像を含み、表情トランスファーモデルは上記の側面で提供された訓練方法を採用して訓練することで得られたものであり;及び
合成顔ビデオを表示するステップを含む。
取得モジュールは、ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得するために用いられ、そのうち、ソース域顔画像及びターゲット域顔画像は同じ対象に対応する2つの画像であり、顔特徴画像とターゲット域顔画像との間には対応関係があり、
取得モジュールはさらに、顔特徴画像及びソース域顔画像に基づいて、訓練待ち表情トランスファーモデルにより合成顔画像を取得するために用いられ、
取得モジュールはさらに、合成顔画像及びターゲット域顔画像に基づいて、判別ネットワークモデルにより合成顔画像に対応する第一判別結果及びターゲット域顔画像に対応する第二判別結果を取得するために用いられ、
取得モジュールはさらに、合成顔画像及びターゲット域顔画像に基づいて、画像分類モデルによりカテゴリ特徴ベクトルを取得するために用いられ、前記カテゴリ特徴ベクトルは前記合成顔画像と前記ターゲット域顔画像との間の差を標識するために用いられ、
訓練モジュールは、カテゴリ特徴ベクトル、第一判別結果及び第二判別結果に基づいて、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するために用いられる。
取得モジュールは、仮想対象に対応する第一画像及びリアルな人物に対応するビデオ素材を取得するために用いられ、そのうち、ビデオ素材はPフレームの第二画像を含み、Pは1以上の整数であり、
取得モジュールはさらに、ビデオ素材に基づいて顔特徴画像集合を取得するために用いられ、そのうち、顔特徴画像集合はP個の顔特徴画像を含み、顔特徴画像と第二画像とは1対1に対応する関係を有し、
取得モジュールはさらに、顔特徴画像集合及び第一画像に基づいて、表情トランスファーモデルにより合成顔ビデオを取得するために用いられ、そのうち、合成顔ビデオはPフレームの合成顔画像を含み、表情トランスファーモデルは上記の側面で提供された訓練方法を採用して訓練することで得られたものであり、
表示モジュールは、合成顔ビデオを表示するために用いられる。
取得モジュールは、リアルな人物に対応する第一画像及び仮想対象に対応するビデオ素材を取得するために用いられ、そのうち、ビデオ素材はPフレームの第二画像を含み、Pは1以上の整数であり、
取得モジュールはさらに、第一画像に基づいて顔特徴画像を取得するために用いられ、
取得モジュールはさらに、顔特徴画像及びビデオ素材に基づいて、表情トランスファーモデルにより合成顔ビデオを取得するために用いられ、そのうち、合成顔ビデオはPフレームの合成顔画像を含み、表情トランスファーモデルは上記の側面で提供された訓練方法を採用して訓練することで得られたものであり、
表示モジュールは、合成顔ビデオを表示するために用いられる。
記憶器はプログラムを記憶するために用いられ、
処理器は記憶器に記憶されているプログラムを実行するために用いられ、処理器はプログラムコードにおける命令に基づいて上記の各側面に記載の方法を実行するために用いられ、
バスシステムは記憶器と処理器を接続することで、記憶器と処理器が通信を行うようにさせるために用いられる。
Character Recognition、OCR)、ビデオ処理、ビデオセマンティック理解、ビデオ内容/行動認識、3次元オブジェクト再構成、3D技術、仮想現実、拡張現実、同時測位、地図構築などの技術を含み、さらに顔認識、指紋認識などの一般的な生体特徴認識技術をも含む。MLは多分野の学際的研究であり、確率論、統計学、近似理論、凸解析、アルゴリズム複雑性理論などの複数の分野に関する。それは、コンピュータがどのように人間の学習行動をシミュレーション又は実現することで、新しい知識やスキルを取得し、また、既存の知識構造を再組織してそのパフォーマンスを継続的に向上させるかを専門としている。MLは人工知能の中核であり、コンピュータが知能を有するようにさせる基本的な手段であり、既に人工知能の様々分野に適用されている。ML及び深層学習は通常、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納的学習、教師あり学習などの技術を含む。
カテゴリ特徴ベクトルに基づいて、目標損失関数に含まれる第二損失関数を採用して分類損失値を決定し;
判別損失値、生成損失値及び分類損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを取得する。
M個の判別サブ損失値を得たときに、M個の判別サブ損失値に基づいて判別損失値を決定し、そのうち、M個の判別サブ損失値は目標判別サブ損失値を含み、Mは1以上の整数であり;
第一判別結果に基づいて、第一損失関数に含まれる生成損失関数を採用して目標生成サブ損失値を取得し;及び
M個の生成サブ損失値を得たときに、M個の生成サブ損失値に基づいて生成損失値を決定し、そのうち、M個の生成サブ損失値は目標生成サブ損失値を含む。
ターゲット域顔画像に基づいて、顔認識モデルにより第二アイデンティティ特徴を取得する。
M個のアイデンティティサブ損失値を得たときに、M個のアイデンティティサブ損失値に基づいてアイデンティティ損失値を決定し、そのうち、M個のアイデンティティサブ損失値は目標アイデンティティサブ損失値を含み;
判別損失値、生成損失値、分類損失値及びアイデンティティ損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、そのうち、判別損失値及び生成損失値は第一判別結果及び第二判別結果に基づいて決定され、分類損失値はカテゴリ特徴ベクトルに基づいて決定され;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを取得する。
ターゲット域顔画像に基づいて、境界抽出モデルにより第二境界特徴を取得し、そのうち、第二境界特徴はターゲット域顔画像における顔境界点に対応する特徴を含む。
M個の境界サブ損失値を得たときに、M個の境界サブ損失値に基づいて境界損失値を決定し、そのうち、M個の境界サブ損失値は目標境界サブ損失値を含み;
判別損失値、生成損失値、分類損失値及び境界損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、そのうち、判別損失値及び生成損失値は第一判別結果及び第二判別結果に基づいて決定され、分類損失値はカテゴリ特徴ベクトルに基づいて決定され;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを取得する。
M個の分割サブ損失値を得たときに、M個の分割サブ損失値に基づいて分割損失値を決定し、そのうち、M個の分割サブ損失値は目標分割サブ損失値を含み;
判別損失値、生成損失値、分類損失値及び分割損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、そのうち、判別損失値及び生成損失値は第一判別結果及び第二判別結果に基づいて決定され、分類損失値はカテゴリ特徴ベクトルに基づいて決定され;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを取得する。
カテゴリ特徴ベクトルに基づいて、目標損失関数に含まれる第二損失関数を採用して分類損失値を決定し;
合成顔画像に対応する第一アイデンティティ特徴及びターゲット域顔画像に対応する第二アイデンティティ特徴に基づいて、目標損失関数に含まれる第三損失関数を採用してアイデンティティ損失値を取得し;
合成顔画像に対応する第一境界特徴及びターゲット域顔画像に対応する第二境界特徴に基づいて、目標損失関数に含まれる第四損失関数を採用して境界損失値を取得し;
合成顔画像、ターゲット域顔画像、及びターゲット域顔画像に対応する顔分割領域に基づいて、目標損失関数に含まれる第五損失関数を用いて分割損失値を取得し;
判別損失値、生成損失値、分類損失値、アイデンティティ損失値、境界損失値及び分割損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを取得する。
画像収集装置によりリアルな人物に対応するビデオ素材を取得し、又は、ローカルで記憶されているビデオ集合のうちからリアルな人物に対応するビデオ素材を取得し、そのうち、ビデオ集合には少なくとも1つのリアルな人物に対応するビデオが含まれる。
P個の合成顔画像を得たときに、合成顔ビデオを生成する。
P個の合成顔画像を得たときに、合成顔ビデオを生成する。
第一判別結果及び第二判別結果に基づいて、目標損失関数に含まれる第一損失関数を採用して、判別損失値及び生成損失値を決定し;
カテゴリ特徴ベクトルに基づいて、目標損失関数に含まれる第二損失関数を採用して、分類損失値を決定し;
判別損失値、生成損失値及び分類損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを取得するように構成される。
第一判別結果及び第二判別結果に基づいて、第一損失関数に含まれる判別損失関数を採用して、目標判別サブ損失値を取得し;
M個の判別サブ損失値を得たときに、M個の判別サブ損失値に基づいて判別損失値を決定し、そのうち、M個の判別サブ損失値は目標判別サブ損失値を含み、Mは1以上の整数であり;
第一判別結果に基づいて、第一損失関数に含まれる生成損失関数を採用して、目標生成サブ損失値を取得し;及び
M個の生成サブ損失値を得たときに、M個の生成サブ損失値に基づいて生成損失値を決定し、そのうち、M個の生成サブ損失値は目標生成サブ損失値を含む。
第一アイデンティティ特徴及び第二アイデンティティ特徴に基づいて、目標損失関数に含まれる第三損失関数を採用して、目標アイデンティティサブ損失値を取得し;
M個のアイデンティティサブ損失値を得たときに、M個のアイデンティティサブ損失値に基づいてアイデンティティ損失値を決定し、そのうち、M個のアイデンティティサブ損失値は目標アイデンティティサブ損失値を含み;
判別損失値、生成損失値、分類損失値及びアイデンティティ損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、そのうち、判別損失値及び生成損失値は第一判別結果及び第二判別結果に基づいて決定され、分類損失値はカテゴリ特徴ベクトルに基づいて決定され;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを取得することを含む。
第一境界特徴及び第二境界特徴に基づいて、目標損失関数に含まれる第四損失関数を採用して、目標境界サブ損失値を取得し;
M個の境界サブ損失値を得たときに、M個の境界サブ損失値に基づいて境界損失値を決定し、そのうち、M個の境界サブ損失値は目標境界サブ損失値を含み;
判別損失値、生成損失値、分類損失値及び境界損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、そのうち、判別損失値及び生成損失値は第一判別結果及び第二判別結果に基づいて決定され、分類損失値はカテゴリ特徴ベクトルに基づいて決定され;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを得るように構成される。
顔分割領域に基づいて、目標損失関数に含まれる第五損失関数を採用して、目標分割サブ損失値を取得し;
M個の分割サブ損失値を得たときに、M個の分割サブ損失値に基づいて分割損失値を決定し、そのうち、M個の分割サブ損失値は目標分割サブ損失値を含み;
判別損失値、生成損失値、分類損失値及び分割損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、そのうち、判別損失値及び生成損失値は第一判別結果及び第二判別結果に基づいて決定され、分類損失値はカテゴリ特徴ベクトルに基づいて決定され;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを得るように構成される。
第一判別結果及び第二判別結果に基づいて、目標損失関数に含まれる第一損失関数を採用して、判別損失値及び生成損失値を決定し;
カテゴリ特徴ベクトルに基づいて、目標損失関数に含まれる第二損失関数を採用して、分類損失値を決定し;
合成顔画像に対応する第一アイデンティティ特徴及びターゲット域顔画像に対応する第二アイデンティティ特徴に基づいて、目標損失関数に含まれる第三損失関数を採用して、アイデンティティ損失値を取得し;
合成顔画像に対応する第一境界特徴及びターゲット域顔画像に対応する第二境界特徴に基づいて、目標損失関数に含まれる第四損失関数を採用して、境界損失値を取得し;
合成顔画像、ターゲット域顔画像、及びターゲット域顔画像に対応する顔分割領域に基づいて、目標損失関数に含まれる第五損失関数を採用して、分割損失値を取得し;
判別損失値、生成損失値、分類損失値、アイデンティティ損失値、境界損失値及び分割損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを取得するように構成される。
画像収集装置により仮想対象に対応する第一画像を取得し、又は、端末装置にローカルで記憶されている画像集合のうちから仮想対象に対応する第一画像を取得し、そのうち、画像集合は少なくとも1つの仮想対象に対応する画像を含み;及び
画像収集装置によりリアルな人物に対応するビデオ素材を取得し、又は、端末装置にローカルで記憶されているビデオ集合のうちからリアルな人物に対応するビデオ素材を取得し、そのうち、ビデオ集合は少なくとも1つリアルな人物に対応するビデオを含む。
顔特徴画像集合における各顔特徴画像について、表情トランスファーモデルにより各顔特徴画像及び第一画像に対応する合成顔画像を取得し;及び
P個の合成顔画像を得たときに、合成顔ビデオを生成するように構成される。
ビデオ素材における各フレームの第二画像について、表情トランスファーモデルにより各フレームの第二画像及び顔特徴画像に対応する合成顔画像を取得し;及び
P個の合成顔画像を得たときに、合成顔ビデオを生成するように構成される。
processing units、CPU)722(例えば、1つ又は1つ以上の処理器)、記憶器732、及び、アプリケーションプログラム742又はデータ744を記憶するための1つ又は1つ以上の記憶媒体730(例えば、1つ又は1つ以上の大容量記憶装置)を含んでも良い。そのうち、記憶器732及び記憶媒体730は一時的ストレージ又は永続的ストレージであっても良い。記憶媒体730に記憶されるプログラムは1つ又は1つ以上のモジュール(図示せず)を含んでも良く、各モジュールには一連の命令操作が含まれても良い。さらに、中央処理器722は、記憶媒体730と通信を行い、サーバー700で記憶媒体730における一連の命令操作を実行するように構成されても良い。
Claims (16)
- モデル訓練装置が実行する、表情トランスファーモデルを訓練する方法であって、
ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得するステップであって、前記ソース域顔画像及び前記ターゲット域顔画像は同じ対象に対応する2つの画像であり、前記顔特徴画像と前記ターゲット域顔画像との間には対応関係がある、ステップ;
前記顔特徴画像と前記ソース域顔画像とをつなぎ合わせて訓練待ち表情トランスファーモデルに入力し、前記訓練待ち表情トランスファーモデルにより、合成顔画像を取得するステップ;
前記合成顔画像及び前記ターゲット域顔画像に基づいて、判別ネットワークモデルにより、前記合成顔画像に対応する第一判別結果及び前記ターゲット域顔画像に対応する第二判別結果を取得するステップ;
前記合成顔画像及び前記ターゲット域顔画像に基づいて、画像分類モデルにより、カテゴリ特徴ベクトルを取得するステップであって、前記カテゴリ特徴ベクトルは前記合成顔画像と前記ターゲット域顔画像との間の差を標識するために用いられる、ステップ;
前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するステップを含み、
前記方法は、
前記合成顔画像に基づいて、境界抽出モデルにより第一境界特徴を取得するステップであって、前記第一境界特徴は前記合成顔画像における顔境界点に対応する特徴を含む、ステップ;及び
前記ターゲット域顔画像に基づいて、前記境界抽出モデルにより第二境界特徴を取得するステップであって、前記第二境界特徴は前記ターゲット域顔画像における顔境界点に対応する特徴を含む、ステップをさらに含み、
前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行うことは、
前記第一境界特徴及び前記第二境界特徴に基づいて、目標損失関数に含まれる第四損失関数を採用して目標境界サブ損失値を取得するステップ;
M個の境界サブ損失値を取得するときに、前記M個の境界サブ損失値に基づいて境界損失値を決定するステップであって、前記M個の境界サブ損失値は前記目標境界サブ損失値を含む、ステップ;
判別損失値、生成損失値、分類損失値及び境界損失値を最小化することで、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行うステップであって、前記判別損失値及び前記生成損失値は前記第一判別結果及び前記第二判別結果に基づいて決定され、前記分類損失値は前記カテゴリ特徴ベクトルに基づいて決定される、ステップ;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて前記表情トランスファーモデルを取得するステップを含む、方法。 - 請求項1に記載の方法であって、
前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するステップは、
前記第一判別結果及び前記第二判別結果に基づいて、目標損失関数に含まれる第一損失関数を採用して判別損失値及び生成損失値を決定するステップ;
前記カテゴリ特徴ベクトルに基づいて、前記目標損失関数に含まれる第二損失関数を採用して分類損失値を決定するステップ;
前記判別損失値、前記生成損失値及び前記分類損失値を最小化することで、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行うステップ;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて前記表情トランスファーモデルを取得するステップを含む、方法。 - 請求項2に記載の方法であって、
前記第一判別結果及び前記第二判別結果に基づいて、目標損失関数に含まれる第一損失関数を採用して判別損失値及び生成損失値を決定するステップは、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一損失関数に含まれる判別損失関数を採用して目標判別サブ損失値を取得するステップ;
M個の判別サブ損失値を取得するときに、前記M個の判別サブ損失値に基づいて前記判別損失値を決定するステップであって、前記M個の判別サブ損失値は前記目標判別サブ損失値を含み、Mは1以上の整数である、ステップ;
前記第一判別結果に基づいて、前記第一損失関数に含まれる生成損失関数を採用して目標生成サブ損失値を取得するステップ;及び
M個の生成サブ損失値を取得するときに、前記M個の生成サブ損失値に基づいて前記生成損失値を決定するステップであって、前記M個の生成サブ損失値は前記目標生成サブ損失値を含む、ステップを含む、方法。 - 請求項1乃至3のうちの何れか1項に記載の方法であって、
前記合成顔画像に基づいて、顔認識モデルにより、第一アイデンティティ特徴を取得するステップ;及び
前記ターゲット域顔画像に基づいて、前記顔認識モデルにより、第二アイデンティティ特徴を取得するステップをさらに含み、
前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行うことは、
前記第一アイデンティティ特徴及び前記第二アイデンティティ特徴に基づいて、目標損失関数に含まれる第三損失関数を採用して目標アイデンティティサブ損失値を取得するステップ;
M個のアイデンティティサブ損失値を取得するときに、前記M個のアイデンティティサブ損失値に基づいてアイデンティティ損失値を決定するステップであって、前記M個のアイデンティティサブ損失値は前記目標アイデンティティサブ損失値を含む、ステップ;
判別損失値、生成損失値、分類損失値及びアイデンティティ損失値を最小化することで、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行うステップであって、前記判別損失値及び前記生成損失値は前記第一判別結果及び前記第二判別結果に基づいて決定され、前記分類損失値は前記カテゴリ特徴ベクトルに基づいて決定される、ステップ;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて前記表情トランスファーモデルを取得するステップを含む、方法。 - モデル訓練装置が実行する、表情トランスファーモデルを訓練する方法であって、
ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得するステップであって、前記ソース域顔画像及び前記ターゲット域顔画像は同じ対象に対応する2つの画像であり、前記顔特徴画像と前記ターゲット域顔画像との間には対応関係がある、ステップ;
前記顔特徴画像と前記ソース域顔画像とをつなぎ合わせて訓練待ち表情トランスファーモデルに入力し、前記訓練待ち表情トランスファーモデルにより、合成顔画像を取得するステップ;
前記合成顔画像及び前記ターゲット域顔画像に基づいて、判別ネットワークモデルにより、前記合成顔画像に対応する第一判別結果及び前記ターゲット域顔画像に対応する第二判別結果を取得するステップ;
前記合成顔画像及び前記ターゲット域顔画像に基づいて、画像分類モデルにより、カテゴリ特徴ベクトルを取得するステップであって、前記カテゴリ特徴ベクトルは前記合成顔画像と前記ターゲット域顔画像との間の差を標識するために用いられる、ステップ;
前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するステップを含み、
前記方法は、
前記ターゲット域顔画像に基づいて、画素分割モデルにより顔分割領域を取得するステップをさらに含み、
前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行うことは、
前記顔分割領域に基づいて、目標損失関数に含まれる第五損失関数を採用して目標分割サブ損失値を取得するステップ;
M個の分割サブ損失値を取得するときに、前記M個の分割サブ損失値に基づいて分割損失値を決定するステップであって、前記M個の分割サブ損失値は前記目標分割サブ損失値を含む、ステップ;
判別損失値、生成損失値、分類損失値及び分割損失値を最小化することで、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行うステップであって、前記判別損失値及び前記生成損失値は前記第一判別結果及び前記第二判別結果に基づいて決定され、前記分類損失値は前記カテゴリ特徴ベクトルに基づいて決定される、ステップ;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて前記表情トランスファーモデルを取得するステップを含む、方法。 - モデル訓練装置が実行する、表情トランスファーモデルを訓練する方法であって、
ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得するステップであって、前記ソース域顔画像及び前記ターゲット域顔画像は同じ対象に対応する2つの画像であり、前記顔特徴画像と前記ターゲット域顔画像との間には対応関係がある、ステップ;
前記顔特徴画像と前記ソース域顔画像とをつなぎ合わせて訓練待ち表情トランスファーモデルに入力し、前記訓練待ち表情トランスファーモデルにより、合成顔画像を取得するステップ;
前記合成顔画像及び前記ターゲット域顔画像に基づいて、判別ネットワークモデルにより、前記合成顔画像に対応する第一判別結果及び前記ターゲット域顔画像に対応する第二判別結果を取得するステップ;
前記合成顔画像及び前記ターゲット域顔画像に基づいて、画像分類モデルにより、カテゴリ特徴ベクトルを取得するステップであって、前記カテゴリ特徴ベクトルは前記合成顔画像と前記ターゲット域顔画像との間の差を標識するために用いられる、ステップ;
前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するステップを含み、
前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するステップは、
前記第一判別結果及び前記第二判別結果に基づいて、目標損失関数に含まれる第一損失関数を採用して判別損失値及び生成損失値を決定するステップ;
前記カテゴリ特徴ベクトルに基づいて、前記目標損失関数に含まれる第二損失関数を採用して分類損失値を決定するステップ;
前記合成顔画像に対応する第一アイデンティティ特徴及び前記ターゲット域顔画像に対応する第二アイデンティティ特徴に基づいて、前記目標損失関数に含まれる第三損失関数を採用してアイデンティティ損失値を取得するステップ;
前記合成顔画像に対応する第一境界特徴及び前記ターゲット域顔画像に対応する第二境界特徴に基づいて、前記目標損失関数に含まれる第四損失関数を採用して境界損失値を取得するステップ;
前記合成顔画像、前記ターゲット域顔画像、及び前記ターゲット域顔画像に対応する顔分割領域に基づいて、前記目標損失関数に含まれる第五損失関数を採用して分割損失値を取得するステップ;
前記判別損失値、前記生成損失値、前記分類損失値、前記アイデンティティ損失値、前記境界損失値及び前記分割損失値を最小化することで、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行うステップ;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて前記表情トランスファーモデルを取得するステップを含む、方法。 - 端末装置が実行する、表情トランスファーを行う方法であって、
仮想対象に対応する第一画像及びリアルな人物に対応するビデオ素材を取得するステップであって、前記ビデオ素材はPフレームの第二画像を含み、Pは1以上の整数である、ステップ;
前記ビデオ素材に基づいて顔特徴画像集合を取得するステップであって、前記顔特徴画像集合はP個の顔特徴画像を含み、前記顔特徴画像と前記第二画像とは1対1に対応する関係を有する、ステップ;
前記顔特徴画像集合及び前記第一画像に基づいて、表情トランスファーモデルにより、合成顔ビデオを取得するステップであって、前記合成顔ビデオはPフレームの合成顔画像を含み、前記表情トランスファーモデルは請求項1乃至6のうちの何れか1項に記載の方法により訓練されたものである、ステップ;及び
前記合成顔ビデオを表示するステップを含む、方法。 - 請求項7に記載の方法であって、
前記仮想対象に対応する第一画像及びリアルな人物に対応するビデオ素材を取得するステップは、
画像収集装置により、前記仮想対象に対応する前記第一画像を取得し、又は、端末装置にローカルで記憶される画像集合のうちから前記仮想対象に対応する前記第一画像を取得するステップであって、前記画像集合は少なくとも1つの前記仮想対象に対応する画像を含む、ステップ;及び
前記画像収集装置により、前記リアルな人物に対応する前記ビデオ素材を取得し、又は、端末装置にローカルで記憶されるビデオ集合のうちから、前記リアルな人物に対応する前記ビデオ素材を取得するステップであって、前記ビデオ集合は少なくとも1つ前記リアルな人物に対応するビデオを含む、ステップを含む、方法。 - 請求項7に記載の方法であって、
前記顔特徴画像集合及び前記第一画像に基づいて、表情トランスファーモデルにより、合成顔ビデオを取得するステップは、
前記顔特徴画像集合における各顔特徴画像について、前記表情トランスファーモデルにより、前記各顔特徴画像及び前記第一画像に対応する合成顔画像を取得するステップ;及び
P個の合成顔画像を取得したときに、前記合成顔ビデオを生成するステップを含む、方法。 - 端末装置が実行する、表情トランスファーを行う方法であって、
リアルな人物に対応する第一画像及び仮想対象に対応するビデオ素材を取得するステップであって、前記ビデオ素材はPフレームの第二画像を含み、Pは1以上の整数である、ステップ;
前記第一画像に基づいて顔特徴画像を取得するステップ;
前記顔特徴画像及び前記ビデオ素材に基づいて、表情トランスファーモデルにより、合成顔ビデオを取得するステップであって、前記合成顔ビデオはPフレームの合成顔画像を含み、前記表情トランスファーモデルは請求項1乃至6のうちの何れか1項に記載の方法により訓練されたものである、ステップ;及び
前記合成顔ビデオを表示するステップを含む、方法。 - 請求項10に記載の方法であって、
顔特徴画像集合及び前記第一画像に基づいて、表情トランスファーモデルにより合成顔ビデオを取得するステップは、
前記ビデオ素材における各フレームの第二画像について、前記表情トランスファーモデルにより前記各フレームの第二画像及び前記顔特徴画像に対応する合成顔画像を取得するステップ;及び
P個の合成顔画像を取得したときに、前記合成顔ビデオを生成するステップを含む、方法。 - モデルを訓練する装置であって、
取得モジュール及び訓練モジュールを含み
前記取得モジュールは、ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得するために用いられ、前記ソース域顔画像及び前記ターゲット域顔画像は同じ対象に対応する2つの画像であり、前記顔特徴画像と前記ターゲット域顔画像との間には対応関係があり、
前記取得モジュールはさらに、前記顔特徴画像と前記ソース域顔画像とをつなぎ合わせて訓練待ち表情トランスファーモデルに入力し、前記訓練待ち表情トランスファーモデルにより、合成顔画像を取得するために用いられ、
前記取得モジュールはさらに、前記合成顔画像及び前記ターゲット域顔画像に基づいて、判別ネットワークモデルにより、前記合成顔画像に対応する第一判別結果及び前記ターゲット域顔画像に対応する第二判別結果を取得するために用いられ、
前記取得モジュールはさらに、前記合成顔画像及び前記ターゲット域顔画像に基づいて、画像分類モデルにより、カテゴリ特徴ベクトルを取得するために用いられ、前記カテゴリ特徴ベクトルは前記合成顔画像と前記ターゲット域顔画像との間の差を標識するために用いられ、
前記訓練モジュールは、前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するために用いられ、
前記取得モジュールはさらに、
前記合成顔画像に基づいて、境界抽出モデルにより第一境界特徴を取得し、前記第一境界特徴は前記合成顔画像における顔境界点に対応する特徴を含み;及び
前記ターゲット域顔画像に基づいて、前記境界抽出モデルにより第二境界特徴を取得し、前記第二境界特徴は前記ターゲット域顔画像における顔境界点に対応する特徴を含み、
前記訓練モジュールはさらに、
前記第一境界特徴及び前記第二境界特徴に基づいて、目標損失関数に含まれる第四損失関数を採用して目標境界サブ損失値を取得し;
M個の境界サブ損失値を取得するときに、前記M個の境界サブ損失値に基づいて境界損失値を決定し、前記M個の境界サブ損失値は前記目標境界サブ損失値を含み;
判別損失値、生成損失値、分類損失値及び境界損失値を最小化することで、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、前記判別損失値及び前記生成損失値は前記第一判別結果及び前記第二判別結果に基づいて決定され、前記分類損失値は前記カテゴリ特徴ベクトルに基づいて決定され;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて前記表情トランスファーモデルを取得する、装置。 - モデルを訓練する装置であって、
取得モジュール及び訓練モジュールを含み
前記取得モジュールは、ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得するために用いられ、前記ソース域顔画像及び前記ターゲット域顔画像は同じ対象に対応する2つの画像であり、前記顔特徴画像と前記ターゲット域顔画像との間には対応関係があり、
前記取得モジュールはさらに、前記顔特徴画像と前記ソース域顔画像とをつなぎ合わせて訓練待ち表情トランスファーモデルに入力し、前記訓練待ち表情トランスファーモデルにより、合成顔画像を取得するために用いられ、
前記取得モジュールはさらに、前記合成顔画像及び前記ターゲット域顔画像に基づいて、判別ネットワークモデルにより、前記合成顔画像に対応する第一判別結果及び前記ターゲット域顔画像に対応する第二判別結果を取得するために用いられ、
前記取得モジュールはさらに、前記合成顔画像及び前記ターゲット域顔画像に基づいて、画像分類モデルにより、カテゴリ特徴ベクトルを取得するために用いられ、前記カテゴリ特徴ベクトルは前記合成顔画像と前記ターゲット域顔画像との間の差を標識するために用いられ、
前記訓練モジュールは、前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するために用いられ、
前記取得モジュールはさらに、
前記ターゲット域顔画像に基づいて、画素分割モデルにより顔分割領域を取得し、
前記訓練モジュールはさらに、
前記顔分割領域に基づいて、目標損失関数に含まれる第五損失関数を採用して目標分割サブ損失値を取得し;
M個の分割サブ損失値を取得するときに、前記M個の分割サブ損失値に基づいて分割損失値を決定し、前記M個の分割サブ損失値は前記目標分割サブ損失値を含み;
判別損失値、生成損失値、分類損失値及び分割損失値を最小化することで、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、前記判別損失値及び前記生成損失値は前記第一判別結果及び前記第二判別結果に基づいて決定され、前記分類損失値は前記カテゴリ特徴ベクトルに基づいて決定され;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて前記表情トランスファーモデルを取得する、装置。 - モデルを訓練する装置であって、
取得モジュール及び訓練モジュールを含み
前記取得モジュールは、ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得するために用いられ、前記ソース域顔画像及び前記ターゲット域顔画像は同じ対象に対応する2つの画像であり、前記顔特徴画像と前記ターゲット域顔画像との間には対応関係があり、
前記取得モジュールはさらに、前記顔特徴画像と前記ソース域顔画像とをつなぎ合わせて訓練待ち表情トランスファーモデルに入力し、前記訓練待ち表情トランスファーモデルにより、合成顔画像を取得するために用いられ、
前記取得モジュールはさらに、前記合成顔画像及び前記ターゲット域顔画像に基づいて、判別ネットワークモデルにより、前記合成顔画像に対応する第一判別結果及び前記ターゲット域顔画像に対応する第二判別結果を取得するために用いられ、
前記取得モジュールはさらに、前記合成顔画像及び前記ターゲット域顔画像に基づいて、画像分類モデルにより、カテゴリ特徴ベクトルを取得するために用いられ、前記カテゴリ特徴ベクトルは前記合成顔画像と前記ターゲット域顔画像との間の差を標識するために用いられ、
前記訓練モジュールは、前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するために用いられ、
前記訓練モジュールはさらに、
前記第一判別結果及び前記第二判別結果に基づいて、目標損失関数に含まれる第一損失関数を採用して判別損失値及び生成損失値を決定し;
前記カテゴリ特徴ベクトルに基づいて、前記目標損失関数に含まれる第二損失関数を採用して分類損失値を決定し;
前記合成顔画像に対応する第一アイデンティティ特徴及び前記ターゲット域顔画像に対応する第二アイデンティティ特徴に基づいて、前記目標損失関数に含まれる第三損失関数を採用してアイデンティティ損失値を取得し;
前記合成顔画像に対応する第一境界特徴及び前記ターゲット域顔画像に対応する第二境界特徴に基づいて、前記目標損失関数に含まれる第四損失関数を採用して境界損失値を取得し;
前記合成顔画像、前記ターゲット域顔画像、及び前記ターゲット域顔画像に対応する顔分割領域に基づいて、前記目標損失関数に含まれる第五損失関数を採用して分割損失値を取得し;
前記判別損失値、前記生成損失値、前記分類損失値、前記アイデンティティ損失値、前記境界損失値及び前記分割損失値を最小化することで、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い;及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて前記表情トランスファーモデルを取得する、装置。 - 記憶器と、
前記記憶器に接続される処理器と、を含むコンピュータ装置であって、
前記記憶器にはコンピュータプログラムが記憶されており、
前記処理器は、前記コンピュータプログラムを実行することにより、請求項1乃至6のうちの何れか1項に記載の方法、あるいは、請求項7乃至9のうちの何れか1項に記載の方法、あるいは、請求項10又は11に記載の方法を実現するように構成される、コンピュータ装置。 - コンピュータに、請求項1乃至6のうちの何れか1項に記載の方法、あるいは、請求項7乃至9のうちの何れか1項に記載の方法、あるいは、請求項10又は11に記載の方法を実行させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010484985.5A CN111652121B (zh) | 2020-06-01 | 2020-06-01 | 一种表情迁移模型的训练方法、表情迁移的方法及装置 |
CN202010484985.5 | 2020-06-01 | ||
PCT/CN2021/092344 WO2021244217A1 (zh) | 2020-06-01 | 2021-05-08 | 一种表情迁移模型的训练方法、表情迁移的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023517211A JP2023517211A (ja) | 2023-04-24 |
JP7482242B2 true JP7482242B2 (ja) | 2024-05-13 |
Family
ID=72344931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022554194A Active JP7482242B2 (ja) | 2020-06-01 | 2021-05-08 | 表情トランスファーモデルの訓練方法、表情トランスファー方法及び装置並びにコンピュータ装置及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220245961A1 (ja) |
JP (1) | JP7482242B2 (ja) |
CN (1) | CN111652121B (ja) |
WO (1) | WO2021244217A1 (ja) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652121B (zh) * | 2020-06-01 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 一种表情迁移模型的训练方法、表情迁移的方法及装置 |
CN112085701B (zh) * | 2020-08-05 | 2024-06-11 | 深圳市优必选科技股份有限公司 | 一种人脸模糊度检测方法、装置、终端设备及存储介质 |
CN112053315A (zh) * | 2020-09-14 | 2020-12-08 | 北京百度网讯科技有限公司 | 用于处理人物形象数据的方法和装置 |
CN112215113A (zh) * | 2020-09-30 | 2021-01-12 | 张成林 | 人脸识别方法及装置 |
CN112395986B (zh) * | 2020-11-17 | 2024-04-26 | 广州像素数据技术股份有限公司 | 一种新场景快速迁移且防遗忘的人脸识别方法 |
CN112200894B (zh) * | 2020-12-07 | 2021-03-09 | 江苏原力数字科技股份有限公司 | 基于深度学习框架的数字人面部表情动画自动迁移方法 |
CN112257689A (zh) * | 2020-12-18 | 2021-01-22 | 北京京东尚科信息技术有限公司 | 人脸识别模型的训练和识别方法、存储介质及相关设备 |
CN112330685B (zh) * | 2020-12-28 | 2021-04-06 | 北京达佳互联信息技术有限公司 | 图像分割模型训练、图像分割方法、装置及电子设备 |
CN112767519B (zh) * | 2020-12-30 | 2022-04-19 | 电子科技大学 | 结合风格迁移的可控表情生成方法 |
CN112749758B (zh) * | 2021-01-21 | 2023-08-11 | 北京百度网讯科技有限公司 | 图像处理方法、神经网络的训练方法、装置、设备和介质 |
CN112785493B (zh) * | 2021-01-22 | 2024-02-09 | 北京百度网讯科技有限公司 | 模型的训练方法、风格迁移方法、装置、设备及存储介质 |
CN113096206B (zh) * | 2021-03-15 | 2022-09-23 | 中山大学 | 基于注意力机制网络的人脸生成方法、装置、设备及介质 |
CN113205449A (zh) * | 2021-05-21 | 2021-08-03 | 珠海金山网络游戏科技有限公司 | 表情迁移模型的训练方法及装置、表情迁移方法及装置 |
CN113705368A (zh) * | 2021-08-09 | 2021-11-26 | 上海幻电信息科技有限公司 | 人脸表情迁移方法、装置以及计算机设备 |
CN113420737B (zh) * | 2021-08-23 | 2022-01-25 | 成都飞机工业(集团)有限责任公司 | 一种基于卷积神经网络的3d打印图形识别方法 |
US11989916B2 (en) * | 2021-10-11 | 2024-05-21 | Kyocera Document Solutions Inc. | Retro-to-modern grayscale image translation for preprocessing and data preparation of colorization |
CN113870314B (zh) * | 2021-10-18 | 2023-09-19 | 南京硅基智能科技有限公司 | 一种动作迁移模型的训练方法及动作迁移方法 |
CN113989103B (zh) * | 2021-10-25 | 2024-04-26 | 北京字节跳动网络技术有限公司 | 模型训练方法、图像处理方法、装置、电子设备及介质 |
CN114140319A (zh) * | 2021-12-09 | 2022-03-04 | 北京百度网讯科技有限公司 | 图像迁移方法和图像迁移模型的训练方法、装置 |
CN114511082A (zh) * | 2022-02-16 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 特征提取模型的训练方法、图像处理方法、装置及设备 |
CN115148187B (zh) * | 2022-07-01 | 2023-08-22 | 南京硅基智能科技有限公司 | 一种智能人物复刻终端的系统实现方法 |
CN114882578B (zh) * | 2022-07-12 | 2022-09-06 | 华中科技大学 | 一种多域对抗学习的小样本条件下复合表情识别方法 |
CN115393486B (zh) * | 2022-10-27 | 2023-03-24 | 科大讯飞股份有限公司 | 虚拟形象的生成方法、装置、设备及存储介质 |
CN115795313A (zh) * | 2023-01-16 | 2023-03-14 | 中国科学院合肥物质科学研究院 | 核主泵故障诊断模型的训练方法、故障诊断方法和系统 |
CN117036157B (zh) * | 2023-10-09 | 2024-02-20 | 易方信息科技股份有限公司 | 可编辑的仿真数字人形象设计方法、系统、设备及介质 |
CN117237744B (zh) * | 2023-11-10 | 2024-01-30 | 之江实验室 | 一种图像分类模型的训练方法、装置、介质及电子设备 |
CN117540789B (zh) * | 2024-01-09 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 模型训练方法、面部表情迁移方法、装置、设备及介质 |
CN117998166A (zh) * | 2024-04-02 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 视频生成模型的训练方法、装置、设备、存储介质和产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002298155A (ja) | 2001-03-29 | 2002-10-11 | Hic:Kk | 感情による3dコンピュータグラフィックス表情モデル形成システム |
JP2009075880A (ja) | 2007-09-20 | 2009-04-09 | Nippon Hoso Kyokai <Nhk> | 仮想顔モデル変形装置及び仮想顔モデル変形プログラム |
CN102254336A (zh) | 2011-07-14 | 2011-11-23 | 清华大学 | 人脸视频合成方法及装置 |
CN107610209A (zh) | 2017-08-17 | 2018-01-19 | 上海交通大学 | 人脸表情合成方法、装置、存储介质和计算机设备 |
CN108230239A (zh) | 2017-12-25 | 2018-06-29 | 中国科学院自动化研究所 | 人脸表情图像合成装置 |
JP2018170005A (ja) | 2017-03-01 | 2018-11-01 | ソニー株式会社 | 画像及び深度データを用いて3次元(3d)人物顔面モデルを発生させるための仮想現実ベースの装置及び方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9996940B1 (en) * | 2017-10-25 | 2018-06-12 | Connectivity Labs Inc. | Expression transfer across telecommunications networks |
CN110084121A (zh) * | 2019-03-27 | 2019-08-02 | 南京邮电大学 | 基于谱归一化的循环生成式对抗网络的人脸表情迁移的实现方法 |
CN111652121B (zh) * | 2020-06-01 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 一种表情迁移模型的训练方法、表情迁移的方法及装置 |
-
2020
- 2020-06-01 CN CN202010484985.5A patent/CN111652121B/zh active Active
-
2021
- 2021-05-08 JP JP2022554194A patent/JP7482242B2/ja active Active
- 2021-05-08 WO PCT/CN2021/092344 patent/WO2021244217A1/zh active Application Filing
-
2022
- 2022-04-11 US US17/718,158 patent/US20220245961A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002298155A (ja) | 2001-03-29 | 2002-10-11 | Hic:Kk | 感情による3dコンピュータグラフィックス表情モデル形成システム |
JP2009075880A (ja) | 2007-09-20 | 2009-04-09 | Nippon Hoso Kyokai <Nhk> | 仮想顔モデル変形装置及び仮想顔モデル変形プログラム |
CN102254336A (zh) | 2011-07-14 | 2011-11-23 | 清华大学 | 人脸视频合成方法及装置 |
JP2018170005A (ja) | 2017-03-01 | 2018-11-01 | ソニー株式会社 | 画像及び深度データを用いて3次元(3d)人物顔面モデルを発生させるための仮想現実ベースの装置及び方法 |
CN107610209A (zh) | 2017-08-17 | 2018-01-19 | 上海交通大学 | 人脸表情合成方法、装置、存储介质和计算机设备 |
CN108230239A (zh) | 2017-12-25 | 2018-06-29 | 中国科学院自动化研究所 | 人脸表情图像合成装置 |
Non-Patent Citations (3)
Title |
---|
Jia Deng et al.,"cGAN Based Facial Expression Recognition for Human-Robot Interaction",IEEE Access,米国,IEEE,2019年01月10日,Vol.7,pp.9848-9859 |
山本 拓人、外3名,"少数の制御点により直観的操作が可能な3次元顔形状変化モデルの構築",情報処理学会研究報告,日本,情報処理学会,2014年02月13日,Vol.2014-CG-154, No.16,pp.1-8 |
角所 考、外3名,"IDEA:適応のためのインタラクション設計",知能と情報,日本,日本知能情報ファジィ学会,2005年06月15日,Vol.17, No.3,pp.325-339 |
Also Published As
Publication number | Publication date |
---|---|
WO2021244217A1 (zh) | 2021-12-09 |
JP2023517211A (ja) | 2023-04-24 |
CN111652121A (zh) | 2020-09-11 |
CN111652121B (zh) | 2023-11-03 |
US20220245961A1 (en) | 2022-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7482242B2 (ja) | 表情トランスファーモデルの訓練方法、表情トランスファー方法及び装置並びにコンピュータ装置及びプログラム | |
US20210295483A1 (en) | Image fusion method, model training method, and related apparatuses | |
WO2020177582A1 (zh) | 视频合成的方法、模型训练的方法、设备及存储介质 | |
WO2020192465A1 (zh) | 一种三维对象重建方法和装置 | |
WO2020063009A1 (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN112232425B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
US20220383577A1 (en) | Personalized avatar real-time motion capture | |
US11615592B2 (en) | Side-by-side character animation from realtime 3D body motion capture | |
CN103631768B (zh) | 协作数据编辑和处理系统 | |
US11734894B2 (en) | Real-time motion transfer for prosthetic limbs | |
CN111726536A (zh) | 视频生成方法、装置、存储介质及计算机设备 | |
CN111541907B (zh) | 物品显示方法、装置、设备及存储介质 | |
WO2021098338A1 (zh) | 一种模型训练的方法、媒体信息合成的方法及相关装置 | |
US20210152751A1 (en) | Model training method, media information synthesis method, and related apparatuses | |
WO2022108806A1 (en) | Body animation sharing and remixing | |
WO2022252866A1 (zh) | 一种互动处理方法、装置、终端及介质 | |
CN113426117B (zh) | 虚拟相机拍摄参数获取方法、装置、电子设备和存储介质 | |
CN109272473B (zh) | 一种图像处理方法及移动终端 | |
CN112148404A (zh) | 头像生成方法、装置、设备以及存储介质 | |
JP2023098937A (ja) | 多次元反応型映像を再生する方法及び装置 | |
WO2022083118A1 (zh) | 一种数据处理方法及相关设备 | |
CN109739414A (zh) | 一种图片处理方法、移动终端、计算机可读存储介质 | |
CN112149599B (zh) | 表情追踪方法、装置、存储介质和电子设备 | |
WO2024055748A1 (zh) | 一种头部姿态估计方法、装置、设备以及存储介质 | |
CN112449098B (zh) | 一种拍摄方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231107 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240319 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20240328 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240426 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7482242 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |