JP7482242B2

JP7482242B2 - 表情トランスファーモデルの訓練方法、表情トランスファー方法及び装置並びにコンピュータ装置及びプログラム

Info

Publication number: JP7482242B2
Application number: JP2022554194A
Authority: JP
Inventors: ヤン，ユクサン; ベン，ユーチェン; リー，チャン; ディン，ヤン; シェン，ルイシュエ; ワン，チャオ; チェン，ペイ; ユー，ガン; フー，ビン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2020-06-01
Filing date: 2021-05-08
Publication date: 2024-05-13
Anticipated expiration: 2041-05-08
Also published as: WO2021244217A1; JP2023517211A; CN111652121A; CN111652121B; US20220245961A1

Description

本出願は、2020年06月01日に中国専利局に出願した、出願番号が202010484985.5、発明の名称は「表情トランスファーモデルの訓練方法、表情トランスファーの方法及び装置」である中国特許出願に基づく優先権を主張するものであり、その全内容を参照によりここに援用する。

本出願は、人工知能の分野に関し、特に、表情トランスファー(facial expression transfer)に関する。

近年、人間の顔（顔と略称する）の表情に対する処理及び分析がコンピュータビジョン及びグラフィックスの分野で研究のホットスポットになっており、顔の表情トランスファーも広く応用されている。ここで、顔の表情トランスファーとは、キャプチャされた実際のユーザーの表情をもう１つの目標（ターゲット）画像にマッピングすることで、顔の表情を目標画像にトランスファーする目的を達成することを指す。

従来の技術案では、3次元（3-dimension、3D）の方法を採用して表情トランスファーを行うことができる。まず、顔画像に基づいて顔を含む頭部の3Dモデルを構築する必要があり、次に、対応する3D顔モデルに基づいて画像の歪みや融合などの処理を行い、最終的に、顔の表情トランスファーの目的を実現する。

本出願の実施例は、少なくとも、顔画像に対して複雑な画像処理を行う必要がなく、訓練の難しさ及びコストを低減し、かつ表情トランスファーモデルがよりリアルな顔画像を出力することに有利であり、また表情トランスファーモデルのモデル性能を向上させることができる表情トランスファーモデルの訓練方法、表情トランスファー方法及び装置を提供することを課題とする。

一側面によれば、本出願の実施例では表情トランスファーモデルの訓練方法（表情トランスファーモデルを訓練する方法）が提供され、それは、
ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得し、そのうち、ソース域顔画像及びターゲット域顔画像は同じ対象（オブジェクト）に対応する2つの画像に属し（2つの画像であり）、顔特徴画像とターゲット域顔画像との間には対応関係があり；
顔特徴画像及びソース域顔画像に基づいて、訓練（トレーニング）待ち表情トランスファーモデルにより合成顔画像を取得し；
合成顔画像及びターゲット域顔画像に基づいて、判別ネットワークモデルにより合成顔画像に対応する第一判別結果及びターゲット域顔画像に対応する第二判別結果を取得し；
合成顔画像及びターゲット域顔画像に基づいて、画像分類モデルによりカテゴリ特徴ベクトルを取得し、前記カテゴリ特徴ベクトルは前記合成顔画像と前記ターゲット域顔画像との間の差を標識するために用いられ；及び
カテゴリ特徴ベクトル、第一判別結果及び第二判別結果に基づいて、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するステップを含む。

もう1つの側面によれば、本出願の実施例では表情トランスファー方法（表情トランスファーを行う方法）が提供され、それは、
仮想対象に対応する第一画像及びリアルな人物に対応するビデオ素材を取得し、そのうち、ビデオ素材はPフレームの第二画像を含み、Pは1以上の整数であり；
ビデオ素材に基づいて顔特徴画像集合を取得し、そのうち、顔特徴画像集合はP個の顔特徴画像を含み、かつ顔特徴画像と第二画像とは1対1に対応する関係を有し；
顔特徴画像集合及び第一画像に基づいて、表情トランスファーモデルにより合成顔ビデオを取得し、そのうち、合成顔ビデオはPフレームの合成顔画像を含み、表情トランスファーモデルは上記の側面で提供された訓練方法を採用して訓練することで得られたものであり；及び
合成顔ビデオを表示するステップを含む。

もう1つの側面によれば、本出願の実施例では表情トランスファー方法（表情トランスファーを行う方法）が提供され、それは、
リアルな人物に対応する第一画像及び仮想対象に対応するビデオ素材を取得し、そのうち、ビデオ素材はPフレームの第二画像を含み、Pは1以上の整数であり；
第一画像に基づいて顔特徴画像を取得し；
顔特徴画像及びビデオ素材に基づいて、表情トランスファーモデルにより合成顔ビデオを取得し、そのうち、合成顔ビデオはPフレームの合成顔画像を含み、表情トランスファーモデルは上記の側面で提供された訓練方法を採用して訓練することで得られたものであり；及び
合成顔ビデオを表示するステップを含む。

もう1つの側面によれば、本出願の実施例ではモデル訓練装置（モデルを訓練する装置）が提供され、それは、取得モジュール及び訓練モジュールを含み、
取得モジュールは、ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得するために用いられ、そのうち、ソース域顔画像及びターゲット域顔画像は同じ対象に対応する2つの画像であり、顔特徴画像とターゲット域顔画像との間には対応関係があり、
取得モジュールはさらに、顔特徴画像及びソース域顔画像に基づいて、訓練待ち表情トランスファーモデルにより合成顔画像を取得するために用いられ、
取得モジュールはさらに、合成顔画像及びターゲット域顔画像に基づいて、判別ネットワークモデルにより合成顔画像に対応する第一判別結果及びターゲット域顔画像に対応する第二判別結果を取得するために用いられ、
取得モジュールはさらに、合成顔画像及びターゲット域顔画像に基づいて、画像分類モデルによりカテゴリ特徴ベクトルを取得するために用いられ、前記カテゴリ特徴ベクトルは前記合成顔画像と前記ターゲット域顔画像との間の差を標識するために用いられ、
訓練モジュールは、カテゴリ特徴ベクトル、第一判別結果及び第二判別結果に基づいて、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するために用いられる。

もう1つの側面によれば、本出願の実施例では表情トランスファー装置（表情トランスファーを行う装置）が提供され、それは、取得モジュール及び表示モジュールを含み、
取得モジュールは、仮想対象に対応する第一画像及びリアルな人物に対応するビデオ素材を取得するために用いられ、そのうち、ビデオ素材はPフレームの第二画像を含み、Pは1以上の整数であり、
取得モジュールはさらに、ビデオ素材に基づいて顔特徴画像集合を取得するために用いられ、そのうち、顔特徴画像集合はP個の顔特徴画像を含み、顔特徴画像と第二画像とは1対1に対応する関係を有し、
取得モジュールはさらに、顔特徴画像集合及び第一画像に基づいて、表情トランスファーモデルにより合成顔ビデオを取得するために用いられ、そのうち、合成顔ビデオはPフレームの合成顔画像を含み、表情トランスファーモデルは上記の側面で提供された訓練方法を採用して訓練することで得られたものであり、
表示モジュールは、合成顔ビデオを表示するために用いられる。

もう1つの側面によれば、本出願の実施例では表情トランスファー装置（表情トランスファーを行う装置）が提供され、それは、取得モジュール及び表示モジュールを含み、
取得モジュールは、リアルな人物に対応する第一画像及び仮想対象に対応するビデオ素材を取得するために用いられ、そのうち、ビデオ素材はPフレームの第二画像を含み、Pは1以上の整数であり、
取得モジュールはさらに、第一画像に基づいて顔特徴画像を取得するために用いられ、
取得モジュールはさらに、顔特徴画像及びビデオ素材に基づいて、表情トランスファーモデルにより合成顔ビデオを取得するために用いられ、そのうち、合成顔ビデオはPフレームの合成顔画像を含み、表情トランスファーモデルは上記の側面で提供された訓練方法を採用して訓練することで得られたものであり、
表示モジュールは、合成顔ビデオを表示するために用いられる。

もう1つの側面によれば、本出願の実施例では、記憶器、送受信器、処理器及びバスシステムを含むコンピュータ装置が提供され、
記憶器はプログラムを記憶するために用いられ、
処理器は記憶器に記憶されているプログラムを実行するために用いられ、処理器はプログラムコードにおける命令に基づいて上記の各側面に記載の方法を実行するために用いられ、
バスシステムは記憶器と処理器を接続することで、記憶器と処理器が通信を行うようにさせるために用いられる。

またもう1つの側面によれば、本出願の実施例では記憶媒体が提供され、前記記憶媒体はコンピュータプログラムを記憶するために用いられ、前記コンピュータプログラムは上記の側面に記載の方法を実行するために用いられる。

他の側面によれば、本出願の実施例では命令を含むコンピュータプログラムプロダクトが提供され、それはコンピュータで実行されるときに、前記コンピュータに、上記の側面に記載の方法を実行させる。

本出願の実施例により提供される技術案は、少なくとも、以下のような有利な効果を有する。

本出願の実施例では、表情トランスファーモデルの訓練方法が提供され、まず、ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得し、次に、顔特徴画像及びソース域顔画像に基づいて、訓練待ち表情トランスファーモデルにより合成顔画像を取得し、そして、合成顔画像及びターゲット域顔画像に基づいて、判別ネットワークモデルにより合成顔画像に対応する第一判別結果及びターゲット域顔画像に対応する第二判別結果を取得し、その後、合成顔画像及びターゲット域顔画像に基づいて、画像分類モデルによりカテゴリ特徴ベクトルを取得し、最後に、カテゴリ特徴ベクトル、第一判別結果及び第二判別結果に基づいて、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得する。このような方法により、表情トランスファーモデルに対して訓練を行うプロセスにおいて、一方では、顔画像に対して複雑な画像処理を行う必要がなく、抽出された顔画像を直接使用することで訓練を完了することができるため、訓練の難しさ及びコストを低減することができ、他方では、判別ネットワークモデルに基づく判別能力及び画像分類モデルに基づく分類能力は、表情トランスファーモデルがよりリアルな顔画像を出力することに有利であるため、表情トランスファーモデルのモデル性能を向上させることができる。

本出願の実施例における表情トランスファーシステムを示す図である。本出願の実施例におけるもう１つの表情トランスファーシステムを示す図である。本出願の実施例における表情トランスファーモデル訓練方法の一実施例を示す図である。本出願の実施例における顔特徴画像を示す図である。本出願の実施例における表情トランスファーモデルを訓練する一実施例を示す図である。本出願の実施例における表情トランスファー方法の一実施例を示す図である。本出願の実施例におけるマルチフレームビデオ素材に基づいて合成顔ビデオを生成することを示す図である。本出願の実施例におけるシングルフレームビデオ素材に基づいて合成顔ビデオを生成することを示す図である。本出願の実施例における第一画像及びビデオ素材を取得するインターフェースを示す図である。本出願の実施例における表情トランスファーモデルを応用する一実施例を示す図である。本出願の実施例における合成顔画像を生成する効果を示す図である。本出願の実施例における表情トランスファー方法のもう１つの実施例を示す図である。本出願の実施例におけるマルチフレームビデオ素材に基づいて合成顔ビデオを生成することを示す図である。本出願の実施例におけるシングルフレームビデオ素材に基づいて合成顔ビデオを生成することを示す図である。本出願の実施例における表情トランスファーモデルを応用するもう１つの実施例を示す図である。本出願の実施例におけるモデル訓練装置の一実施例を示す図である。本出願の実施例における表情トランスファー装置の一実施例を示す図である。本出願の実施例における表情トランスファー装置のもう１つの実施例を示す図である。本出願の実施例におけるサーバーの構成を示す図である。本出願の実施例における端末装置の構成を示す図である。

本出願の実施例では表情トランスファーモデルの訓練方法、表情トランスファー方法及び装置が提供され、一方では、顔画像に対して複雑な画像処理を行う必要がなく、訓練の難しさ及びコストを低減することができ、他方では、表情トランスファーモデルがよりリアルな顔画像を出力することに有利であり、表情トランスファーモデルのモデル性能を向上させることができる。

本出願の明細書、特許請求の範囲及び上述の図面における用語“第一”、“第二”、“第三”、“第四”など（存在する場合）は類似した対象を区別するために用いられ、特定の順序や前後の順序を限定するものではない。理解すべきは、このように使用されるデータを適切な場合に交換することで、ここで説明される本出願の実施例が例えばここで図示又は記述される順序以外の順序に従って実施されるようにさせることができるということである。また、用語“含む（有する”及び“に対応する”及びそれらの任意の変形は、非排他的な包含をカバーすることを意図し、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、プロダクト又は装置は必ずしも明確にリストされているこれらのステップ又はユニットに限られず、明確にリストされない又はこれらのプロセス、方法、プロダクト又は装置に固有の他のステップ又はユニットをも含み得る。

理解すべきは、本出願により提供される表情トランスファー方法は様々な適用シナリオ、例えば、仮想現実シナリオ、デジタルエンターテインメントシナリオ及びヒューマンマシンインタラクションシナリオに適用することができるが、これらに限定されないということである。以下、これらのシナリオと併せて、本出願により提供される表情トランスファー方法について紹介する。

仮想現実シナリオでは、ビデオ又は画像におけるキャラクターをよりビビッドにするために、リアルな顔の表情を仮想対象（例えば、カートゥーン人物、アニメキャラクター、漫画人物など）の顔にトランスファーすることで、リアルな人間の表情を有する仮想人物を合成することができ、このような仮想人物はライブビデオ、仮想放送ビデオ、仮想ショッピングガイドビデオなどに出現することができる。医療分野では、リアルな顔の表情を3D顔モデルにトランスファーすることでリアルな頭部モデルを合成することにより、医師は頭部モデルを用いて仮想手術を行うことができる。

ゲームエンターテインメントシナリオでは、ゲームにおけるキャラクターをよりビビッドにするために、リアルな顔の表情を仮想対象（例えば、ゲームキャラクター、ゲームプレイ動画など）の顔にトランスファーすることにより、リアルな人間の表情を有する仮想人物を合成することができる。手動（人工）で仮想対象の表情を設計することに比べて、設計の効率を大幅に向上させ、設計の難しさを低減することができる。

ヒューマンマシンインタラクションシナリオでは、インテリジェントなカスタマーサービスをよりビビッドにするため、リアルな顔の表情を仮想対象（例えば、仮想カスタマーサービス、仮想ロボットなどの）の顔にトランスファーすることで、リアルな人間の表情を有する仮想人物を合成することができ、このような仮想人物はヒューマンマシンインタラクションインターフェースにおいて現れ、ユーザーが関連操作を行うようにガイドするために用いられる。

なお、本出願により提供される表情トランスファーモデル訓練方法及び表情トランスファー方法は複数の分野、例えば、コンピュータビジョン（Computer Vision、CV）、画像処理、コンピュータグラフィックス、機械学習（Machine Learning、ML）、ヒューマンマシンインタラクションなどの分野に関し、そのうち、CVは、如何にマシンが“見る”ようにさせるかを研究する科学であり、さらに言えば、人間の目の代わりにカメラやコンピュータを用いて目標（ターゲット）に対して認識、追跡、測定などを行うマシンビジョンを指し、また、グラフィックス処理をさらに行うことで、コンピュータ処理が人間の目の観察又は検出のために機器に伝送する画像により適するようにさせるものでもある。科学分野の1つとして、CVは関連する理論や技術を研究し、画像や多次元データから情報を取得できる人工知能システムの構築を試みている。CV技術は通常、画像処理、画像認識、画像セマンティック理解、画像検索、光学文字認識（Optical
Character Recognition、OCR）、ビデオ処理、ビデオセマンティック理解、ビデオ内容/行動認識、3次元オブジェクト再構成、3D技術、仮想現実、拡張現実、同時測位、地図構築などの技術を含み、さらに顔認識、指紋認識などの一般的な生体特徴認識技術をも含む。MLは多分野の学際的研究であり、確率論、統計学、近似理論、凸解析、アルゴリズム複雑性理論などの複数の分野に関する。それは、コンピュータがどのように人間の学習行動をシミュレーション又は実現することで、新しい知識やスキルを取得し、また、既存の知識構造を再組織してそのパフォーマンスを継続的に向上させるかを専門としている。MLは人工知能の中核であり、コンピュータが知能を有するようにさせる基本的な手段であり、既に人工知能の様々分野に適用されている。ML及び深層学習は通常、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納的学習、教師あり学習などの技術を含む。

これに基づいて、AIはデジタルコンピュータ又はデジタルコンピュータにより制御される、人間の知能をマシンシミュレーション、延展及び拡張し、環境を感知し、知識を取得し、そして、知識を使用して最適な結果を得る理論、方法、技術及び応用システムである。言い換えれば、AIはコンピュータサイエンスの総合的な技術であり、それは知能の本質を理解し、人間の知能と類似した方式で応答可能な新しいインテリジェントマシンを作成しようとする。つまり、AIは様々なインテリジェントマシンの設計原理及び実現方法を研究することで、マシンが知覚、推論及び意思決定の機能を有するようにするものである。

AI技術は幅広い分野に関わる包括的なテクノロジーであり、ハードウェアレベルの技術とソフトウェアレベルの技術の両方を含む。AIの基本技術には、一般に、例えば、センサー、専用AIチップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理技術、操作/インタラクションシステム、メカトロニクスなどの技術が含まれる。AIソフトウェア技術は主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術、機械学習/深層学習などを含む。

本出願の実施例では、コンピュータビジョンなどの画像処理に関する技術により、本出願に必要な各種の顔画像及び顔画像特徴の取得を実現することができ、また、人工知能技術及び機械学習技術により、本出願の実施例に係る各種のモデルを訓練して使用することができる。

上述のシナリオに基づいて、本出願では表情トランスファーを行う方法が提供され、該方法は図1又は図2に示す表情トランスファーシステムに応用され、そのうち、図1は本出願の実施例における１つの表情トランスファーシステムを示す図であり、図2は本出願の実施例におけるもう１つの表情トランスファーシステムを示す図である。まず、図1を参照する。図1に示すように、オンラインの環境では、表情トランスファーシステムは端末装置及びサーバーを含み、かつ表情トランスファーモデルはサーバー側に配置され、サーバー及び端末装置は通信を実現することができる。該表情トランスファーシステムに基づいて表情トランスファーを実現する１つのフローは以下のとおりであっても良い。

ステップA1では、端末装置を使用して仮想対象の顔画像を収集し、実際の応用では、仮想対象に関する１つのビデオであっても良い。

ステップA2では、端末装置を用いてリアルな人物を含む写真又はビデオを収集する。なお、本出願ではステップA2とステップA1との間の実行順序について限定しない。

ステップA3では、端末装置は収集した仮想対象の顔画像又はビデオをサーバーにアップロードする。

ステップA4では、端末装置は収集したリアルな人物の写真又はビデオをサーバーにアップロードする。なお、本出願ではステップA3とステップA4との間の実行順序について限定しない。

ステップA5では、サーバー側で仮想対象の顔画像及びリアルな人物の写真を表情トランスファーモデルに入力し、又は、仮想対象の顔画像及びリアルな人物のビデオを表情トランスファーモデルに入力し、又は、仮想対象のビデオ及びリアルな人物の写真を表情トランスファーモデルに入力し、又は、仮想対象のビデオ及びリアルな人物のビデオを表情トランスファーモデルに入力する。

ステップA6では、表情トランスファーモデルにより合成顔画像又は合成顔ビデオを出力する。

ステップA7では、サーバーは合成顔画像又は合成顔ビデオを端末装置に送信する。

ステップA8では、端末装置は合成顔画像又は合成顔ビデオを表示する。

次に、図2を参照する。図2に示すように、オフラインの環境では、表情トランスファーモデルは端末装置側に配置される。該表情トランスファーシステムに基づいて表情トランスファーを実現する1つのフローは次のとおりであっても良い。

ステップB1では、端末装置を用いて仮想対象の顔画像を収集し、実際の応用では、仮想対象に関する1つのビデオであっても良い。

ステップB2では、端末装置を使用してリアルな人物を含む写真又はビデオを収集する。なお、本出願ではステップB2とステップB1との間の実行順序について限定しない。

ステップB3では、端末装置は収集した仮想対象の顔画像又はビデオをローカルな表情トランスファーモデルに入力する。

ステップB4では、端末装置は収集したリアルな人物の写真又はビデオをローカルな表情トランスファーモデルに入力する。なお、本出願ではステップB3とステップB4との間の実行順序について限定しない。

ステップB5では、端末装置は表情トランスファーモデルにより合成顔画像又は合成顔ビデオを出力する。

ステップB6では、端末装置は合成顔画像又は合成顔ビデオを表示する。

なお、サーバーは独立した物理サーバーであっても良く、複数の物理サーバーからなるサーバー群又は分散システムであっても良く、さらにクラウドコンピューティングサービスを提供するクラウドサーバーであっても良い。端末装置はスマートフォン、タブレットコンピュータ、ノートパソコン、デスクトップコンピュータ、スマートスピーカー、スマートウォッチなどであっても良いが、これらに限定されない。端末装置とサーバーは有線又は無線通信の方式で直接又は間接的に接続することができるが、本出願はこれについて限定しない。

上述の紹介と併せて、以下、本出願における表情トランスファーモデルの訓練方法について説明する。本実施例に係るモデル訓練装置は前述の図1や図2に示す端末装置又はサーバーであっても良く、モデル訓練のための他の端末装置又はサーバーであっても良い。図3を参照する。本出願の実施例における表情トランスファーモデルの訓練方法の1つの実施例は以下のステップを含む。

101：ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得し、そのうち、ソース域顔画像及びターゲット域顔画像は同じ対象に対応する2つの画像に属し、顔特徴画像とターゲット域顔画像との間には対応関係がある。

本実施例では、表情トランスファーモデルを訓練する前に訓練集合を準備する必要があり、例えば、人物を含む40000個のビデオデータ集合（又は画像データ集合）を採用しても良い。理解すべきは、本出願に使用される訓練集合はリアルな人物又は仮想対象に由来し、仮想対象はアニメ人物、ゲームキャラクター、動画キャラクターなどを含み得るが、これらに限られないということである。

例示として、仮に、訓練集合が仮想対象に対応するビデオデータ集合（又は画像データ集合）に由来するとする場合、同一の仮想人物のビデオ（又は画像集合）についてソース域顔画像及びターゲット域顔画像を抽出し、また、ターゲット域顔画像に対応する顔特徴画像を取得する。つまり、訓練のプロセスでは、1組のサンプルセットが同一の仮想対象に属するソース域顔画像、ターゲット域顔画像及び顔特徴画像を含む。本出願では仮想対象のビデオデータ集合（又は画像データ集合）を採用することを例にしてモデル訓練を行うが、このような例は本出願を限定するものではない。

例示として、仮に、訓練集合が仮想対象に対応するビデオデータ集合（又は画像データ集合）に由来するとする場合、同一のリアルな人物のビデオ（又は画像集合）についてソース域顔画像及びターゲット域顔画像を抽出し、また、ターゲット域顔画像のうちからキーポイントを抽出することで、対応する顔特徴画像を取得する。つまり、訓練のプロセスでは、1組のサンプルセットは同一のリアルな人物に属するソース域顔画像、ターゲット域顔画像及び顔特徴画像を含む。

以下、図面を参照しながら如何に顔特徴画像を取得するかを説明する。理解しやすくするために、図4を参照する。図4は本出願の実施例における顔特徴画像を示す図である。図4における（a）に示すように、顔画像を得た後にキーポイント（特徴点とも言う）の抽出を行うことができ、例えば、カスケード深層ニューラルネットワーク（Deep Alignment Network、DAN）を採用して顔キーポイントを抽出し、又は、マルチタスクカスケード畳み込みニューラルネットワーク（Multi-task Cascaded Convolutional Network、MTCNN）を採用して顔キーポイントを抽出し、又は、アクティブ形状モデル（Active Shape Model、ASM）を採用して顔キーポイントを抽出し、さらに他の方法を採用しても良いが、ここではこれについて限定しない。そのうち、顔特徴画像はキーポイントを抽出した後の顔画像を含み、キーポイントの位置は眉毛、目、眼球、鼻、頬及び口を含み得るが、これらに限定されない。顔特徴画像はさらに線分により構成されても良く、例えば、図4における（b）に示すように、抽出されたキーポイントに基づいて接続を行うことで線分を形成することができ、顔特徴画像は線分が生成された後の顔画像を含む。

なお、顔特徴画像は例えば、点状形式の顔画像と具現化されても良く、線分形式の顔画像と具現化されも良く、さらに曲線形式の顔画像と具現化されても良い。本出願では線分形式の顔特徴画像を例にして紹介するが、このような例は本出願を限定するものではない。

102：顔特徴画像及びソース域顔画像に基づいて、訓練待ち表情トランスファーモデルにより合成顔画像を取得する。

本実施例では、モデル訓練装置は顔特徴画像とソース域顔画像をつなぎ合わせ、その後、訓練待ち表情トランスファーモデルに共同で入力し、該訓練待ち表情トランスファーモデルにより合成顔画像を出力する。そのうち、ソース域顔画像は3チャンネルの画像であり、顔特徴画像は1チャンネルの画像であり、つなぎ合わせ後、1つの4チャンネルの特徴マップを生成することができる。

なお、モデル訓練装置はコンピュータ装置に配置されても良く、該コンピュータ装置はサーバーであっても良く、端末装置であっても良いが、本出願ではこれについて限定しない。

103：合成顔画像及びターゲット域顔画像に基づいて、判別ネットワークモデルにより、合成顔画像に対応する第一判別結果、及びターゲット域顔画像に対応する第二判別結果を取得する。

本実施例では、モデル訓練装置は訓練待ち表情トランスファーモデルにより出力される合成顔画像を判別ネットワークモデルに入力し、該判別ネットワークモデルにより第一判別結果を出力し、第一判別結果は判別ネットワークモデルの合成顔画像に対する認識状況を表す。同様に、モデル訓練装置はターゲット域顔画像を判別ネットワークモデルに入力し、該判別ネットワークモデルにより第二判別結果を出力し、第二判別結果は判別ネットワークモデルのターゲット域顔画像に対する認識状況を表す。

なお、本出願における判別ネットワークモデルは訓練済みのネットワークモデルであっても良く、訓練中のネットワークモデルであっても良が、ここではこれについて限定しない。

104：合成顔画像及びターゲット域顔画像に基づいて、画像分類モデルによりカテゴリ（クラスとも言う）特徴ベクトルを取得する。

本実施例では、モデル訓練装置は合成顔画像を画像分類モデルに入力し、該画像分類モデルによりカテゴリ特徴ベクトルを出力し、カテゴリ特徴ベクトルは画像分類モデルの合成顔画像及びターゲット域顔画像に対する特徴分類状況を表す。

なお、本出願における画像分類モデルは訓練済みのネットワークモデルであっても良く、訓練中のネットワークモデルであっても良いが、ここではこれについて限定しない。

105：カテゴリ特徴ベクトル、第一判別結果及び第二判別結果に基づいて、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得する。

本実施例では、モデル訓練装置はカテゴリ特徴ベクトル、第一判別結果及び第二判別結果と併せて、目標損失関数を使用して対応する損失値を計算し、そして、バックプロパゲーション方法に基づいて訓練待ち表情トランスファーモデルのモデルパラメータを最適化する。モデル収束条件に達したときに、表情トランスファーモデルを取得することができる。そのうち、モデル収束条件に達することは複数の場合があり、例えば、損失値が事前設定の値よりも小さい場合、モデル収束条件に達したと見なしても良い。また、例えば、2回の反復の間のモデルパラメータの変化が変化閾値以下である場合、モデル収束条件に達したと見なしても良い。また、例えば、反復訓練（iterative training）の回数が最大反復次数を超えたときに、モデル収束条件に達したと見なしても良い。

本出願の実施例では表情トランスファーモデルの訓練方法が提供され、まず、ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得し、次に、顔特徴画像及びソース域顔画像に基づいて、訓練待ち表情トランスファーモデルにより合成顔画像を取得し、そして、合成顔画像及びターゲット域顔画像に基づいて、判別ネットワークモデルにより合成顔画像に対応する第一判別結果及びターゲット域顔画像に対応する第二判別結果を取得し、かつ合成顔画像及びターゲット域顔画像に基づいて、画像分類モデルによりカテゴリ特徴ベクトルを取得し、最後に、カテゴリ特徴ベクトル、第一判別結果及び第二判別結果に基づいて、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、モデル収束条件に達したときに、表情トランスファーモデルを取得する。このような方法により、表情トランスファーモデルを訓練するプロセスにおいて、一方では、顔画像に対して複雑な画像処理を行う必要がなく、抽出された顔画像を直接使用することで訓練を完了することができるため、訓練の難しさ及びコストを低減することができ、他方では、判別ネットワークモデルに基づく判別能力及び画像分類モデルに基づく分類能力は、表情トランスファーモデルがよりリアルな顔画像を出力することに有利であるため、表情トランスファーモデルのモデル性能を向上させることができる。

オプションとして、上述の図3に対応する各実施例をもとに、本出願の実施例により提供される表情トランスファーモデル訓練方法の1つの選択可能な実施例において、前述のステップ105について、以下のようなステップが含まれても良い。

第一判別結果及び第二判別結果に基づいて、目標損失関数に含まれる第一損失関数を採用して判別損失値及び生成損失値を決定し；
カテゴリ特徴ベクトルに基づいて、目標損失関数に含まれる第二損失関数を採用して分類損失値を決定し；
判別損失値、生成損失値及び分類損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを取得する。

本実施例では表情トランスファーモデルの訓練方法を説明している。なお、本出願では1フレームの顔画像を合成することを例にして紹介を行っているが、実際の応用では、1回の反復訓練に係る画像の数が1枚に限られないので、以下、1回の反復訓練がM枚の画像を採用することを例にして説明する。

例示として、本出願では敵対的生成深層ニューラルネットワークを用いて表情トランスファーモデルを訓練し、そのうち、敵対的生成深層ニューラルネットワークはニューラルネットワークの1種であり、それは従来のニューラルネットワークに比べて、主に、生成器ネットワーク構成以外に判別器ネットワーク構成をも有することを特徴とし、そのうち、生成器（即ち、表情トランスファーモデル又は訓練待ち表情トランスファーモデル）は画像を生成するために用いられ、判別器（即ち、判別ネットワークモデル）は1つの画像（合成顔画像及びターゲット域顔画像を含む）の真偽を判別するために用いられ、訓練のプロセスでは、合成顔画像とターゲット域顔画像との差を計算し、判別器により判断されたた画像の誤差などに基づいて反復訓練を行い、また、生成器と判別器ネットワークの敵対的訓練プロセスによって最適化することで生成器のモデルパラメータを取得し、これにより、合成顔画像がターゲット域顔画像に接近するようにさせる。

例示として、本出願ではさらにビジュアルジオメトリグループ（Visual Geometry Group、VGG）ネットワークを採用して表情トランスファーモデルを訓練し、そのうち、VGGネットワーク構成は畳み込み層、全結合層及びsoftmax出力層を含んでも良く、層と層の間は最大プーリング（max-pooling）により分離され、すべての隠れ層の活性化ユニットは正規化線形ユニット（Rectified Linear Unit、ReLU）関数を採用する。VGGネットワークの中間層が画像特徴を効果的に抽出することができるので、訓練済みのVGGネットワークは損失関数の中に適用することができる。

具体的には、仮に判別器ネットワークがD(・)と表され、訓練待ち表情トランスファーモデル（又は表情トランスファーモデル）がG(・)と表され、i番目のソース域顔画像がzⁱと表され、i番目のターゲット域顔画像がxⁱと表され、i番目の顔特徴画像がlⁱと表され、i番目の合成顔画像がG(zⁱ,lⁱ)と表されるとする。これに基づいて、次のように、第二損失関数を採用して分類損失値を計算することができる。

そのうち、LossPerceptualは分類損失値を示し、Mは1回の反復訓練に採用される画像の総数を示し、VGG(・)はVGGネットワークを示し、VGG(G(zⁱ,lⁱ),xⁱ)はVGGネットワークにより出力されるカテゴリ特徴ベクトルを示す。

モデル訓練装置は1回の反復訓練で得られる判別損失値、生成損失値及び分類損失値に基づいて、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、モデル収束条件に達したときに、対応する表情トランスファーモデルを取得することができる。

次に、本出願の実施例では表情トランスファーモデルを訓練する方法が提供されている。このような方法により、第一損失関数を使用して合成顔画像とターゲット域顔画像との間の真偽に対して判断を行うことで、表情トランスファーモデルがターゲット域のスタイルにより近い画像を出力するようにさせることができ、また、第二損失関数を使用して合成顔画像とターゲット域顔画像との間の画像特徴をより良く比較するようにさせることができ、これにより、表情トランスファーモデルがターゲット域画像特徴により近い画像を出力するようにさせることができるため、合成顔画像の真実性を向上させることができる。

オプションとして、上述の図3に対応する各実施例をもとに、本出願の実施例により提供される表情トランスファーモデル訓練方法のもう１つの選択可能な実施例において、第一判別結果及び第二判別結果に基づいて、目標損失関数に含まれる第一損失関数を採用して判別損失値及び生成損失値を決定することは、以下のようなステップを含んでも良い。

第一判別結果及び第二判別結果に基づいて、第一損失関数に含まれる判別損失関数を採用して目標判別サブ損失値を取得し；
M個の判別サブ損失値を得たときに、M個の判別サブ損失値に基づいて判別損失値を決定し、そのうち、M個の判別サブ損失値は目標判別サブ損失値を含み、Mは1以上の整数であり；
第一判別結果に基づいて、第一損失関数に含まれる生成損失関数を採用して目標生成サブ損失値を取得し；及び
M個の生成サブ損失値を得たときに、M個の生成サブ損失値に基づいて生成損失値を決定し、そのうち、M個の生成サブ損失値は目標生成サブ損失値を含む。

本実施例では、判別損失値及び生成損失値を決定する方法が紹介されている。なお、本出願では1フレームの顔画像を合成することを例にとって説明を行っているが、実際の応用では、1回の反復訓練に使用される画像数が1枚に限られないので、以下、1回の反復訓練にM枚の画像が採用されることを例にして説明を行う。

具体的には、仮に、判別器ネットワークがD(・)と表され、訓練待ち表情トランスファーモデル（又は表情トランスファーモデル）がG(・)と表され、i番目のソース域顔画像がzⁱと表され、i番目のターゲット域顔画像がxⁱと表され、i番目の顔特徴画像がlⁱと表され、i番目の合成顔画像がG(zⁱ,lⁱ)と表されるとする。これに基づいて、第一判別結果がD(G((zⁱ,lⁱ))として得られ、第二判別結果がD(xⁱ)として得られる。第一損失関数は判別損失関数及び生成損失関数を含み、そのうち、次のような方式で目標判別サブ損失値を計算することができる。

ここで、LossDⁱは目標判別サブ損失値を示す。

M個の判別サブ損失値を得たときに、以下のような判別損失関数を採用して判別損失値を計算することができる。

ここで、LossDは判別損失値を示し、Mは1回の反復訓練に採用される画像の総数を示す。

また、次のような方式により目標判別サブ損失値を計算することができる。

ここで、LossGⁱは目標生成サブ損失値を示す。

M個の生成サブ損失値を取得したときに、以下のような生成損失関数を採用して生成損失値を計算することができる。

ここで、LossGは生成損失値を示し、Mは1回の反復訓練に採用される画像の総数を示す。

訓練のプロセスでは、判別損失値及び生成損失値の最小化を目標として、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行う。

続いて、本出願の実施例では、判別損失値及び生成損失値の決定方法が提供されている。このような方法により、判別損失関数及び生成損失関数を第一損失関数として利用することで、合成顔画像の真偽に対して判別を行い、合成顔画像の真実性の向上に有利であるため、合成された顔画像がターゲット域画像のスタイルにより接近するようにさせることができる。

オプションとして、上述の図3に対応する各実施例をもとに、本出願の実施例により提供される表情トランスファーモデル訓練方法のもう１つの選択可能な実施例において、さらに以下のようなステップが含まれても良い。

合成顔画像に基づいて、顔認識モデルにより第一アイデンティティ特徴を取得し；及び
ターゲット域顔画像に基づいて、顔認識モデルにより第二アイデンティティ特徴を取得する。

また、前述のステップ105は以下のようなステップを含んでも良い。

第一アイデンティティ特徴及び第二アイデンティティ特徴に基づいて、目標損失関数に含まれる第三損失関数を採用して目標アイデンティティサブ損失値を取得し；
M個のアイデンティティサブ損失値を得たときに、M個のアイデンティティサブ損失値に基づいてアイデンティティ損失値を決定し、そのうち、M個のアイデンティティサブ損失値は目標アイデンティティサブ損失値を含み；
判別損失値、生成損失値、分類損失値及びアイデンティティ損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、そのうち、判別損失値及び生成損失値は第一判別結果及び第二判別結果に基づいて決定され、分類損失値はカテゴリ特徴ベクトルに基づいて決定され；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを取得する。

本実施例ではアイデンティティ損失値を決定する方法を紹介している。なお、本出願では1フレームの顔画像を合成することを例にして説明を行っているが、実際の応用では、1回の反復訓練の画像数が1枚に限られないので、以下、1回の反復訓練にM枚の画像が採用されることを例として紹介する。

例示として、本出願では顔認識モデルを用いて表情トランスファーモデルを訓練し、そのうち、顔認識モデルはVGGネットワーク、軽量型畳み込みニューラルネットワーク（light Convolutional Neural Networks、light CNN）又は他の深層ニューラルネットワークを採用しても良いが、ここではこれについて限定しない。合成顔画像における顔がターゲット域顔画像と同じアイデンティティ(identity)を有するように維持するために、顔認識モデルを使用して顔アイデンティティの偏移(オフセット)にペナルティを課すことができる。即ち、顔認識モデルを用いて合成顔画像のアイデンティティ特徴及びターゲット域顔画像のアイデンティティ特徴をそれぞれ抽出し、両者がより接近するようにさせる。

具体的には、仮に、訓練待ち表情トランスファーモデル（又は表情トランスファーモデル）がG(・)と表され、i番目のソース域顔画像がzⁱと表され、i番目のターゲット域顔画像がxⁱと表され、i番目の顔特徴画像がlⁱと表され、i番目の合成顔画像がG(zⁱ,lⁱ)と表れる。これに基づいて、以下のような方法を採用して目標アイデンティティサブ損失値を計算することができる。

ここで、LossIdentityⁱは目標アイデンティティサブ損失値を示し、θ(・)は顔認識モデルを示し、cos(・)は2つの特徴の間の余弦(コサイン)の値を計算することを示す。

M個のアイデンティティサブ損失値を得たときに、次のような第三損失関数を用いてアイデンティティ損失値を計算することができる。

ここで、LossIdentityはアイデンティティ損失値を示し、Mは1回の反復訓練に採用される画像の総数を示す。訓練のプロセスでは、判別損失値、生成損失値、分類損失値及びアイデンティティ損失値の最小化を目標として、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行う。

さらに、本出願の実施例では、アイデンティティ損失値の決定方法が提供されており、このような方法により、第三損失関数を利用して合成顔画像とターゲット域顔画像との間のアイデンティティ特徴をフィッチングすることで、合成顔画像がターゲット域顔画像と一致したアイデンティティを有する目的を達成し、顔アイデンティティが不一致である状況が生じることを防止できる。

オプションとして、上述の図3に対応する各実施例をもとに、本出願の実施例により提供される表情トランスファーモデル訓練方法のもう１つの選択可能な実施例において、以下のようなステップがさらに含まれても良い。

合成顔画像に基づいて、境界抽出モデルにより第一境界特徴を取得し、そのうち、第一境界特徴は合成顔画像における顔境界点に対応する特徴を含み；及び
ターゲット域顔画像に基づいて、境界抽出モデルにより第二境界特徴を取得し、そのうち、第二境界特徴はターゲット域顔画像における顔境界点に対応する特徴を含む。

また、前述のステップ105は次のようなステップを含んでも良い。

第一境界特徴及び第二境界特徴に基づいて、目標損失関数に含まれる第四損失関数を採用して目標境界サブ損失値を取得し；
M個の境界サブ損失値を得たときに、M個の境界サブ損失値に基づいて境界損失値を決定し、そのうち、M個の境界サブ損失値は目標境界サブ損失値を含み；
判別損失値、生成損失値、分類損失値及び境界損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、そのうち、判別損失値及び生成損失値は第一判別結果及び第二判別結果に基づいて決定され、分類損失値はカテゴリ特徴ベクトルに基づいて決定され；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを取得する。

本実施例では、境界損失値を決定する方法が紹介されている。なお、本出願では1フレームの顔画像を合成することを例にして紹介を行っているが、実際の応用では、1回の反復訓練に使用される画像数が1枚に限られないので、以下、1回の反復訓練にM枚の画像が採用されることを例にとって説明を行う。

例示として、本出願では境界抽出モデルを採用して表情トランスファーモデルを訓練し、そのうち、境界抽出モデルはマルチタスクカスケード畳み込みネットワーク（Multi-task Cascaded Convolutional Networks、MTCNN）、深層アライメントネットワーク（Deep Alignment Network、DAN）、顔特徴点・位置検出ネットワーク（dlib）又は他の深層ニューラルネットワークを採用しても良いが、ここではこれについて限定しない。合成顔画像における顔がターゲット域顔画像における顔と同じサイズ及び位置を有するように維持するために、境界抽出モデルにより顔位置の偏移にペナルティを課すことができる。即ち、境界抽出モデルを使用して合成顔画像の境界特徴及びターゲット域顔画像の境界特徴をそれぞれ抽出し、両者がより接近するようにさせる。

具体的には、仮に、訓練待ち表情トランスファーモデル（又は表情トランスファーモデル）がG(・)と表され、i番目のソース域顔画像がzⁱと表され、i番目のターゲット域顔画像がxⁱと表され、i番目の顔特徴画像がlⁱと表され、i番目の合成顔画像がG(zⁱ,lⁱ)と表れるとする。これに基づいて、次のような方式で目標境界サブ損失値を計算することができる。

ここで、LossBoundaryⁱは目標境界サブ損失値を示し、η(・)は境界抽出モデルを表し、smmothL1は2つの特徴の間のスムージングL1損失を計算することを示す。smmothL1関数は区分関数であり、[-1,1]区間内ではL2損失であり、このようにしてL1の非平滑化の問題を解決することができ、[-1,1]区間外ではL1損失であり、このようにして外れ値勾配爆発の問題を解決することができる。

M個の境界サブ損失値を取得したときに、次のような第四損失関数を採用して境界損失値を計算することができる。

ここで、LossBoundaryは境界損失値を示し、Mは1回の反復訓練に採用される画像の総数を示す。訓練のプロセスでは、判別損失値、生成損失値、分類損失値及び境界損失値の最小化を目標として、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行う。

さらに、本出願の実施例では境界損失値を決定する方法が提供されている。このような方法により、第四損失関数を利用して合成顔画像とターゲット域顔画像との間の境界特徴をフィッチングすることで、合成顔画像における顔の位置がターゲット域顔画像における顔の位置により接近するようにさせ、顔位置の偏移が比較的大きく又はサイズの変化が比較的大きい状況が生じることを回避できるため、顔合成の安定性を向上させることができる。

オプションとして、上述の図3に対応する各実施例をもとに、本出願の実施例により提供される表情トランスファーモデル訓練方法のもう１つの選択可能な実施例に、以下のようなステップがさらに含まれても良い。

ターゲット域顔画像に基づいて、画素分割モデルにより顔分割領域を取得する。

顔分割領域に基づいて、目標損失関数に含まれる第五損失関数を採用して目標分割サブ損失値を取得し；
M個の分割サブ損失値を得たときに、M個の分割サブ損失値に基づいて分割損失値を決定し、そのうち、M個の分割サブ損失値は目標分割サブ損失値を含み；
判別損失値、生成損失値、分類損失値及び分割損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、そのうち、判別損失値及び生成損失値は第一判別結果及び第二判別結果に基づいて決定され、分類損失値はカテゴリ特徴ベクトルに基づいて決定され；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを取得する。

本実施例では、分割損失値の決定方法が紹介されている。なお、本出願では1フレームの顔画像を合成することを例にとって説明を行っているが、実際の応用では、1回の反復訓練に使用される画像数が1枚に限られないので、以下、1回の反復訓練にM枚の画像が採用されることを例にして説明を行う。

例示として、本出願では画素分割モデルにより表情トランスファーモデルを訓練し、そのうち、画素分割モデルはU型ネットワーク（Unet）、フル畳み込みネットワーク（Fully Convolutional Networks、FCN）又は他の深層ニューラルネットワークを採用しても良いが、ここではこれについて限定しない。合成顔画像における顔の五官及び顔の皮膚の明晰さを維持するために、まず、画素分割モデルを使用してターゲット域顔画像を顔の五官及び顔の皮膚の分割領域に分割し、その後、合成顔画像に含まれる画素と、分割領域に含まれる画素との比較を行ってオーバーラップした第一画素領域を取得し、また、ターゲット域顔画像に含まれる画素と、分割領域に含まれる画素との対比を行ってオーバーラップした第二画素領域を取得する。第五損失関数により第一画素領域及び第二画素領域をフィッチングし、両者がより接近するようにさせる。

具体的には、仮に、訓練待ち表情トランスファーモデル（又は表情トランスファーモデル）がG(・)と表され、i番目のソース域顔画像がzⁱと表され、i番目のターゲット域顔画像がxⁱと表され、i番目の顔特徴画像がlⁱと表され、i番目の合成顔画像がG(zⁱ,lⁱ)と表されるとする。これに基づいて、次のような方式で目標分割サブ損失値を計算することができる。

ここで、LossMaskⁱは目標分割サブ損失値を示し、Uは顔分割領域を示し、L1は2つの特徴の間のL1損失を計算することを示し、

は分割（オーバーラップ領域）をとることを示し、

は第一画素領域を示し、

は第二画素領域を示す。

M個の分割サブ損失値を得たときに、以下のような第五損失関数を採用して分割損失値を計算することができる。

ここで、LossMaskは境界損失値を示し、Mは1回の反復訓練に採用される画像の総数を示す。訓練のプロセスでは、判別損失値、生成損失値、分類損失値及び分割損失値の最小化を目標として、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行う。

さらに、本出願の実施例では分割損失値の決定方法が提供されている。このような方法により、画素分割モデルを用いて合成顔画像の五官及び顔の皮膚を分割することで取得し、また、ターゲット域顔画像の五官及び顔の皮膚も分割することで取得し、そして、第五損失関数を使用して両者の分割後の画像間の差を計算し、これにより、照明条件や顔の遮蔽などによる画像合成への影響を低減し、より鮮明でより現実的な合成顔画像を生成することに有利であり、避免産生色ブロックや色斑（ムラ）などの不自然なテクスチャが生じることを回避できる。

オプションとして、上述の図3に対応する各実施例をもとに、本出願の実施例により提供される表情トランスファーモデル訓練方法のもう１つの選択可能な実施例において、前述のステップ105は次のようなステップを含んでも良い。

第一判別結果及び第二判別結果に基づいて、目標損失関数に含まれる第一損失関数を採用して判別損失値及び生成損失値を決定し；
カテゴリ特徴ベクトルに基づいて、目標損失関数に含まれる第二損失関数を採用して分類損失値を決定し；
合成顔画像に対応する第一アイデンティティ特徴及びターゲット域顔画像に対応する第二アイデンティティ特徴に基づいて、目標損失関数に含まれる第三損失関数を採用してアイデンティティ損失値を取得し；
合成顔画像に対応する第一境界特徴及びターゲット域顔画像に対応する第二境界特徴に基づいて、目標損失関数に含まれる第四損失関数を採用して境界損失値を取得し；
合成顔画像、ターゲット域顔画像、及びターゲット域顔画像に対応する顔分割領域に基づいて、目標損失関数に含まれる第五損失関数を用いて分割損失値を取得し；
判別損失値、生成損失値、分類損失値、アイデンティティ損失値、境界損失値及び分割損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを取得する。

本実施例では、複数の側面の損失関数に基づいて表情トランスファーモデルを訓練する方法を紹介している。上述の実施例では、複数の種類の損失関数を採用して表情トランスファーモデルに対して訓練を行う方法が説明されている。以下、本出願に係る訓練方法を示す。表1を参照する。表1は複数の種類の損失関数に基づいて訓練を行うことを示す図である。

表1から分かるように、第一損失関数、第二損失関数、第三損失関数、第四損失関数及び第五損失関数を使用して表情トランスファーモデルを訓練するときに、より全面的なモデルを訓練することができる。理解しやすくするために、図5を参照する。図5は本出願の実施例における表情トランスファーモデルを訓練する1つの実施例を示す図である。図5に示すように、ソース域顔画像及び顔特徴画像を訓練待ちの表情トランスファーモデルに共同で入力し、該表情トランスファーモデルにより合成顔画像を出力し、そして、合成顔画像及びターゲット域顔画像に基づいて、判別損失値、生成損失値、分類損失値、アイデンティティ損失値、境界損失値及び分割損失値をそれぞれ算出することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを取得する。

次に、本出願の実施例では、複数の側面の損失関数に基づいて表情トランスファーモデルを訓練する方法が提供されている。このような方法により、訓練のプロセスでは、第一損失関数及び第二損失関数を使用することで合成顔画像の真実性を向上させることができ、第三損失関数を使用することで顔の類似性及びアイデンティティの一致性を維持することができ、第四損失関数を使用することで顔の形状特徴を維持し、顔合成の安定性を向上させることができ、第五損失関数を使用することで顔生成の真実性を最適化することができ、より鮮明でより現実的な合成顔画像を生成することに有利であり、色ブロックや色斑などの不自然なテクスチャの生成を避けることができる。これに基づいて、訓練により得られた表情トランスファーモデルは、品質が比較的高い合成顔画像を出力することができるだけでなく、顔特徴画像におけるキーポイントについて訓練を行うこと、表情のきめ細かい制御を実現することもできる。

上述の紹介と併せて、以下、本出願における表情トランスファー方法について紹介する。本実施例では、仮想対象の画像とリアルな人物のビデオ素材の合成処理を行うことができる。図6を参照し、本出願の実施例における表情トランスファー方法の1つの実施例は以下のようなステップを含む。

201：仮想対象に対応する第一画像及びリアルな人物に対応するビデオ素材を取得し、そのうち、ビデオ素材はPフレームの第二画像を含み、Pは1以上の整数である。

本実施例では、端末装置は仮想対象に対応する第一画像を取得し、そのうち、仮想対象はアニメ人物、ゲームキャラクター、動画キャラクターなどを含み得るが、これらに限定されない。また、端末装置はさらにリアルな人物に対応するビデオ素材を得る必要があり、そのうち、ビデオ素材は少なくとも1フレームの第二画像を含み、1フレームのみの第二画像がある場合、該ビデオ素材は画像素材である。

202：ビデオ素材に基づいて顔特徴画像集合を取得し、そのうち、顔特徴画像集合はP個の顔特徴画像を含み、かつ顔特徴画像と第二画像とは1対1に対応する関係を有する。

本実施例では、端末装置はビデオ素材における各フレームの第二画像に対応する顔特徴画像を取得し、各フレームの顔特徴画像は抽出されたキーポイントを有する。

具体的には、1つの実現方式は、端末装置がローカルでビデオ素材における各フレームの第二画像に対してキーポイント抽出を行い、そして、抽出したキーポイントに基づいて対応する顔特徴画像を生成することである。もう1つの実現方式は次のとおりであり、即ち、端末装置がビデオ素材をサーバーに送信し、サーバー側でビデオ素材に対してフレーム毎の処理を行い、各フレームの第二画像に対してキーポイント抽出を行い、そして、抽出したキーポイントに基づいて対応する顔特徴画像を生成し、最後に、サーバーは端末装置に顔特徴画像集合をフィードバックする。

203：顔特徴画像集合及び第一画像に基づいて、表情トランスファーモデルにより合成顔ビデオを取得し、そのうち、合成顔ビデオはPフレームの合成顔画像を含み、表情トランスファーモデルは上述の図3に対応する実施例により提供される訓練方法で訓練することで得たものである。

本実施例では、端末装置は表情トランスファーモデルにより合成顔画像を取得し、合成顔ビデオを得ることができる。

具体的には、1つの実現方式は、訓練済みの表情トランスファーモデルが端末装置側に記憶されており、このときに、端末装置がローカルで合成顔ビデオを直接生成することである。もう1つの実現方式は次のとおりであり、即ち、訓練済みの表情トランスファーモデルがサーバー側に記憶されており、このときに、端末装置が顔特徴画像集合及び第一画像をサーバーに送信し、サーバーは合成顔ビデオを生成し、そして、合成顔ビデオを端末装置にフィードバックする。

204：合成顔ビデオを表示する。

本実施例では、端末装置は合成顔ビデオを表示することで、該合成顔ビデオを再生することができる。以下、ビデオ素材が少なくとも2フレームの第二画像を含む場合及びビデオ素材が1フレームの第二画像を含む場合についてそれぞれ説明を行う。

第一の場合はPが1よりも大きいことである。説明の便宜のため、図7を参照し、図7は本出願の実施例におけるマルチフレームビデオ素材に基づいて合成顔ビデオを生成することを示す図である。図7に示すように、仮に、Pが3であるとし、即ち、ビデオ素材に3フレームの第二画像が含まれ、それぞれ、第二画像A、第二画像B及び第二画像Cである。第二画像Aについてキーポイントを抽出して顔特徴画像Aを取得し、第二画像Bについてキーポイントを抽出して顔特徴画像Bを取得し、第二画像Cについてキーポイントを抽出して顔特徴画像Cを取得する。このときに、それぞれ、各顔特徴画像と仮想対象に対応する第一画像とのつなぎ合わせを行って1つの4チャンネルの画像を取得する。即ち、顔特徴画像Aと第一画像をつなぎ合わせた後に訓練済みの表情トランスファーモデルに入力し、表情トランスファーモデルにより合成顔画像Aを出力する。顔特徴画像Bと第一画像をつなぎ合わせた後に訓練済みの表情トランスファーモデルに入力し、表情トランスファーモデルにより合成顔画像Bを出力する。顔特徴画像Cと第一画像をつなぎ合わせた後に訓練済みの表情トランスファーモデルに入力し、表情トランスファーモデルにより合成顔画像Cを出力する。最後に、合成顔画像A、合成顔画像B及び合成顔画像Cに基づいて合成顔ビデオを生成することができる。

第二の場合はPが1に等しいことである。説明の便宜のため、図8を参照し、図8は本出願の実施例におけるシングルフレームビデオ素材に基づいて合成顔ビデオを生成することを示す図である。仮に、Pが1であるとし、即ち、ビデオ素材が1フレームの第二画像を含み、第二画像についてキーポイントを抽出して顔特徴画像を取得する。このときに、顔特徴画像と仮想対象に対応する第一画像とのつなぎ合わせを行うことで、1つの4チャンネルの画像を取得する。即ち、顔特徴画像と第一画像をつなぎ合わせた後に訓練済みの表情トランスファーモデルに入力し、表情トランスファーモデルにより合成顔画像を出力する。最後に、合成顔画像に基づいて、1フレームのみの画像を有する合成顔ビデオを取得することができる。

本出願の実施例では表情トランスファーを行う方法が提供されている。まず、仮想対象に対応する第一画像及びリアルな人物に対応するビデオ素材を取得し、次に、ビデオ素材に基づいて顔特徴画像集合を取得し、そして、顔特徴画像集合及び第一画像に基づいて表情トランスファーモデルにより合成顔ビデオを取得し、最後に、端末装置のインターフェースにより合成顔ビデオを表示する。このような方法により、表情トランスファーのプロセスではビデオ素材における表情特徴（眼球の位置、口元の変化などを含む）をできるだけ維持することができる。また、顔の形の面においてリアルな顔の特徴を残すことで、生成された合成顔ビデオ又は顔合成画像がリアルな顔と比較的高い一致性を有するようにさせることもできる。

オプションとして、上述の図6に対応する各実施例をもとに、本出願の実施例により提供される表情トランスファー方法の1つの選択可能な実施例において、仮想対象に対応する第一画像及びリアルな人物に対応するビデオ素材を取得することは、以下のようなステップを含んでも良い。

画像収集装置により仮想対象に対応する第一画像を取得し、又は、ローカルで記憶されている画像集合のうちから仮想対象に対応する第一画像を取得し、そのうち、画像集合には少なくとも1つの仮想対象に対応する画像が含まれ；及び
画像収集装置によりリアルな人物に対応するビデオ素材を取得し、又は、ローカルで記憶されているビデオ集合のうちからリアルな人物に対応するビデオ素材を取得し、そのうち、ビデオ集合には少なくとも1つのリアルな人物に対応するビデオが含まれる。

本実施例では、第一画像及びビデオ素材の取得方法が紹介されている。端末装置側では、画像又はビデオを直接撮影しても良く、又は、画像又はビデオをアップロードしても良い。

具体的には、図9を参照し、図9は本出願の実施例における第一画像及びビデオ素材を取得するインターフェースを示す図である。図9における（a）に示すように、端末装置のインターフェースには“撮影”アイコンK1及び“アップロード”アイコンK2が表示されており、ユーザーが“撮影”アイコンK1をトリガーしたときに、図9における（b）に示すインターフェースに進み、このときに、端末装置の画像収集装置（例えば、外部カメラヘッド又は内蔵カメラヘッド）をオンにし、画像収集装置により仮想対象に対応する第一画像を撮影し、又は、リアルな人物に対応するビデオ素材を録画し、また、仮想対象のビデオ素材を録画し、又は、リアルな人物に対応する画像を撮影することもできる。ユーザーが“アップロード”アイコンK2をトリガーしたときに、図9における（C）に示すインターフェースに進み、このときに、アルバム又はギャラリーに進み、アルバム又はギャラリーにはローカルで記憶されている画像集合（又はビデオ集合）が表示されている。ローカルで記憶されている画像集合のうちから仮想対象に対応する第一画像又はリアルな人物の画像を選択し、選択完成後に“アップロード”ボタン（keyともいう）K3をクリック（Tapとういう）し、ローカルで記憶されているビデオ集合のうちからリアルな人物に対応するビデオ素材又は仮想対象に対応するビデオ素材を選択し、選択完成後に“アップロード”ボタンK3をクリックする。

続いて、本出願の実施例では、第一画像及びビデオ素材の取得方法が提供されている。このような方法により、ユーザーは第一画像のアップロードを選択することができるだけでなく、第一画像の撮影を選択することもでき、また、ユーザーはビデオ素材のアップロードを選択しても良く、又は、ビデオ素材の撮影を選択しても良い。これにより、ユーザーはニーズに応じて対応する合成対象を選択することで、技術案の柔軟性及び操作可能性を向上させることができる。

オプションとして、上述の図6に対応する各実施例をもとに、本出願の実施例により提供される表情トランスファー方法のもう１つの選択可能な実施例において、顔特徴画像集合及び第一画像に基づいて、表情トランスファーモデルにより合成顔ビデオを取得することは、次のようなステップを含んでも良い。

顔特徴画像集合における各顔特徴画像について、表情トランスファーモデルにより各顔特徴画像及び第一画像に対応する合成顔画像を取得し；及び
P個の合成顔画像を得たときに、合成顔ビデオを生成する。

本実施例では、合成顔ビデオの生成方法がさらに提供される。以下、図10を参照しながら説明を行う。図10を参照し、図10は本出願の実施例における表情トランスファーモデルを適用する一実施例を示す図である。図10に示すように、リアルな人物のビデオ素材における任意の1フレームの第二画像を例にとり、まず、第二画像をキーポイント抽出器に入力し、これによって顔キーポイントを取得し、そして、これらの顔キーポイントに対して接続処理を行って顔特徴画像を取得する。また、仮想対象の第一画像を取得し、そして、第一画像及び顔特徴画像を表情トランスファーモデルに入力し、該表情トランスファーモデルにより合成顔画像を出力する。Pフレームの第二画像がある場合、Pフレームの顔特徴画像を取得し、最後に、Pフレームの合成顔画像を得ることで合成顔ビデオを生成する。

以下、本出願により提供される表情トランスファー方法に基づいて一連のテストを行う。図11を参照し、図11は本出願の実施例における合成顔画像を生成する効果を示す図である。図11に示すように、そのうち、第一行の画像がリアルな顔についてキーポイント抽出を行った後に得られた顔特徴画像であり、第一列の画像が仮想対象の画像であり、表情トランスファーモデルによって、対応する合成顔画像を出力する。これで分かるように、本出願により提供される表情トランスファーモデルを採用することで、リアルな顔の表情と類似している画像を出力することができ、リアルな顔の特徴を残すことができるだけでなく、仮想対象のスタイルを十分に融合することもできるため、よりVividな合成画像を得ることができる。

次に、本出願の実施例では合成顔ビデオの生成方法が提供されている。このような方法により、表情トランスファーモデルに基づいて合成顔画像を出力することで、技術案の実行可能性及び操作可能性を向上させることができる。

上述の紹介と併せて、以下、本出願における表情トランスファー方法について紹介を行う。本実施例では、リアルな人物の画像と仮想対象のビデオ素材の合成処理を行うことができる。図12を参照するに、本出願の実施例における表情トランスファー方法のもう１つの実施例は以下のようなステップを含む。

301：リアルな人物に対応する第一画像及び仮想対象に対応するビデオ素材を取得し、そのうち、ビデオ素材はPフレームの第二画像を含み、Pは1以上の整数である。

本実施例では、端末装置はリアルな人物に対応する第一画像を取得する。また、端末装置はさらに仮想対象に対応するビデオ素材を得る必要があり、そのうち、仮想対象はアニメ人物、ゲームキャラクター、動画キャラクターなどを含み得るが、これらに限定されず、また、ビデオ素材は少なくとも1フレームの第二画像を含み、1フレームのみの第二画像がある場合、該ビデオ素材は画像素材である。

302：第一画像に基づいて顔特徴画像を取得する。

本実施例では、端末装置は第一画像に対応する顔特徴画像を得ることができる。

具体的には、1つの実現方式は、端末装置がローカルで第一画像に対してキーポイント抽出を行い、そして、抽出したキーポイントに基づいて対応する顔特徴画像を生成することである。もう1つの実現方式は次のとおりであり、即ち、端末装置が第一画像をサーバーに送信し、サーバー側で第一画像に対してキーポイント抽出を行い、そして、抽出したキーポイントに基づいて対応する顔特徴画像を生成し、最後に、サーバーは端末装置に顔特徴画像をフィードバックする。

303：顔特徴画像及びビデオ素材に基づいて、表情トランスファーモデルにより合成顔ビデオを取得し、そのうち、合成顔ビデオはPフレームの合成顔画像を含み、表情トランスファーモデルは上述の訓練方法により訓練することで得られたものである。

具体的には、1つの実現方式は、訓練済みの表情トランスファーモデルが端末装置側に記憶されており、このときに、端末装置はローカルで合成顔ビデオを直接生成することである。もう1つの実現方式は次のとおりであり、訓練済みの表情トランスファーモデルがサーバー側に記憶されており、このときに、端末装置が顔特徴画像及びビデオ素材をサーバーに送信し、サーバーは合成顔ビデオを生成し、そして、合成顔ビデオを端末装置にフィードバックする。

304：合成顔ビデオを表示する。

本実施例では、端末装置は合成顔ビデオを表示することで、該合成顔ビデオを再生することができる。

以下、ビデオ素材が少なくとも2フレームの第二画像を含む場合及びビデオ素材が1フレームの第二画像を含む場合についてそれぞれ説明を行う。具体的には以下のとおりである。

第一の場合はPが1よりも大きいことである。説明の便宜のため、図13を参照し、図13は本出願の実施例におけるマルチフレームビデオ素材に基づいて合成顔ビデオを生成することを示す図である。図13に示すように、仮にPが3であるとし、即ち、ビデオ素材に3フレームの第二画像が含まれ、それぞれ、第二画像A、第二画像B及び第二画像Cである。また、リアルな顔の画像、即ち、第一画像に対してキーポイント抽出を行うことで、顔特徴画像を得る必要もある。それぞれ、各第二画像とリアルな人物に対応する顔特徴画像をつなぎ合わせて1つの4チャンネルの画像を取得する。即ち、第二画像Aと顔特徴画像をつなぎ合わせた後に訓練済みの表情トランスファーモデルに入力し、表情トランスファーモデルにより合成顔画像Aを出力する。第二画像Bと顔特徴画像をつなぎ合わせた後に訓練済みの表情トランスファーモデルに入力し、表情トランスファーモデルにより合成顔画像Bを出力する。第二画像Cと顔特徴画像をつなぎ合わせた後に訓練済みの表情トランスファーモデルに入力し、表情トランスファーモデルにより合成顔画像Cを出力する。最後に、合成顔画像A、合成顔画像B及び合成顔画像Cに基づいて合成顔ビデオを生成することができる。

第二の場合はPが1に等しいことである。説明の便宜のため、図14を参照する。図14は本出願の実施例におけるシングルフレームビデオ素材に基づいて合成顔ビデオを生成することを示す図である。仮にPが1であるとし、即ち、ビデオ素材に1フレームの第二画像が含まれ、また、リアルな顔の画像、即ち、第一画像に対してキーポイント抽出を行うことで、顔特徴画像を得る必要がある。そして、顔特徴画像と仮想対象に対応する第二画像をつなぎ合わせて1つの4チャンネルの画像を取得する。即ち、顔特徴画像と第二画像をつなぎ合わせた後に訓練済みの表情トランスファーモデルに入力し、表情トランスファーモデルにより合成顔画像を出力する。最後に、合成顔画像に基づいて1フレームのみの画像を有する合成顔ビデオを得ることができる。

本出願の実施例では表情トランスファーを行う方法が提供されている。まず、リアルな人物に対応する第一画像及び仮想対象に対応するビデオ素材を取得し、次に、第一画像に基づいて顔特徴画像を取得し、そして、顔特徴画像及びビデオ素材に基づいて表情トランスファーモデルにより合成顔ビデオを取得し、最後に、合成顔ビデオを表示する。このような方法により、表情トランスファーのプロセスではビデオ素材における表情特徴（眼球の位置、口元の変化などを含む）をできるだけ残すことができる。また、顔の形の面においてリアルな顔の特徴を残すことで、生成された合成顔ビデオ又は顔合成画像がリアルな顔と比較的高い一致性を有するようにさせることができる。

オプションとして、上述の図12に対応する各実施例をもとに、本出願の実施例により提供される表情トランスファー方法の1つの選択可能な実施例において、顔特徴画像集合及び第一画像に基づいて表情トランスファーモデルにより合成顔ビデオを取得することは、次のようなステップを含んでも良い。

ビデオ素材における各フレームの第二画像について、表情トランスファーモデルにより各フレームの第二画像及び顔特徴画像に対応する合成顔画像を取得し；及び
P個の合成顔画像を得たときに、合成顔ビデオを生成する。

本実施例では合成顔ビデオを生成する方法が提供される。以下、図15と併せて紹介を行う。図15を参照し、図15は本出願の実施例における表情トランスファーモデルを適用するもう1つの実施例を示す図である。図15に示すように、仮想対象に対応するビデオ素材の中の任意の1フレームの第二画像を例にとり、まず、リアルな人物の第一画像を取得し、第一画像をキーポイント抽出器に入力することで、顔キーポイントを取得し、これらの顔キーポイントに対して接続処理を行うことで、顔特徴画像を取得する。そして、第二画像及び顔特徴画像を表情トランスファーモデルに入力し、該表情トランスファーモデルにより合成顔画像を出力する。Pフレームの第二画像がある場合、Pフレームの顔特徴画像を取得し、最後に、Pフレームの合成顔画像を取得することで、合成顔ビデオを生成することができる。

次に、本出願の実施例では合成顔ビデオを生成する方法が紹介されている。このような方法により、表情トランスファーモデルに基づいて合成顔画像を出力することで、技術案の実行可能性及び操作可能性を向上させることができる。

以下、本出願におけるモデル訓練装置について詳細に説明する。図16を参照し、図16は本出願の実施例におけるモデル訓練装置の1つの実施例を示す図である。モデル訓練装置40は取得モジュール401及び訓練モジュール402を含む。

取得モジュール401は、ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得するために用いられ、そのうち、ソース域顔画像及びターゲット域顔画像は同じ対象に対応する2つの画像に属し、顔特徴画像とターゲット域顔画像との間には対応関係がある。

取得モジュール401はさらに、顔特徴画像及びソース域顔画像に基づいて、訓練待ち表情トランスファーモデルにより合成顔画像を取得するために用いられる。

取得モジュール401はさらに、合成顔画像及びターゲット域顔画像に基づいて、判別ネットワークモデルにより合成顔画像に対応する第一判別結果及びターゲット域顔画像に対応する第二判別結果を取得するために用いられる。

取得モジュール401はさらに、合成顔画像及びターゲット域顔画像に基づいて、画像分類モデルによりカテゴリ特徴ベクトルを取得するために用いられる。

訓練モジュール402は、カテゴリ特徴ベクトル、第一判別結果及び第二判別結果に基づいて、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するために用いられる。

オプションとして、上述の図16に対応する実施例をもとに、本出願の実施例により提供されるモデル訓練装置40のもう1つの実施例において、訓練モジュール402は具体的に、
第一判別結果及び第二判別結果に基づいて、目標損失関数に含まれる第一損失関数を採用して、判別損失値及び生成損失値を決定し；
カテゴリ特徴ベクトルに基づいて、目標損失関数に含まれる第二損失関数を採用して、分類損失値を決定し；
判別損失値、生成損失値及び分類損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを取得するように構成される。

オプションとして、上述の図16に対応する実施例をもとに、本出願の実施例により提供されるモデル訓練装置40のもう1つの実施例において、訓練モジュール402は具体的に以下のように構成されても良く、即ち、
第一判別結果及び第二判別結果に基づいて、第一損失関数に含まれる判別損失関数を採用して、目標判別サブ損失値を取得し；
M個の判別サブ損失値を得たときに、M個の判別サブ損失値に基づいて判別損失値を決定し、そのうち、M個の判別サブ損失値は目標判別サブ損失値を含み、Mは1以上の整数であり；
第一判別結果に基づいて、第一損失関数に含まれる生成損失関数を採用して、目標生成サブ損失値を取得し；及び
M個の生成サブ損失値を得たときに、M個の生成サブ損失値に基づいて生成損失値を決定し、そのうち、M個の生成サブ損失値は目標生成サブ損失値を含む。

オプションとして、上述の図16に対応する実施例をもとに、本出願の実施例により提供されるモデル訓練装置40のもう1つの実施例において、取得モジュール401はさらに、合成顔画像に基づいて、顔認識モデルにより第一アイデンティティ特徴を得るために用いられ；取得モジュール401はさらに、ターゲット域顔画像に基づいて、顔認識モデルにより第二アイデンティティ特徴を得るために用いられ；訓練モジュール402が具体的に、カテゴリ特徴ベクトル、第一判別結果及び第二判別結果に基づいて、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行ことは、
第一アイデンティティ特徴及び第二アイデンティティ特徴に基づいて、目標損失関数に含まれる第三損失関数を採用して、目標アイデンティティサブ損失値を取得し；
M個のアイデンティティサブ損失値を得たときに、M個のアイデンティティサブ損失値に基づいてアイデンティティ損失値を決定し、そのうち、M個のアイデンティティサブ損失値は目標アイデンティティサブ損失値を含み；
判別損失値、生成損失値、分類損失値及びアイデンティティ損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、そのうち、判別損失値及び生成損失値は第一判別結果及び第二判別結果に基づいて決定され、分類損失値はカテゴリ特徴ベクトルに基づいて決定され；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを取得することを含む。

オプションとして、上述の図16に対応する実施例をもとに、本出願の実施例により提供されるモデル訓練装置40のもう1つの実施例において、取得モジュール401はさらに、合成顔画像に基づいて、境界抽出モデルにより第一境界特徴を取得するために用いられ、そのうち、第一境界特徴は成顔画像における顔境界点に対応する特徴を含み；取得モジュール401はさらに、ターゲット域顔画像に基づいて、境界抽出モデルにより第二境界特徴を得るために用いられ、そのうち、第二境界特徴はターゲット域顔画像における顔境界点に対応する特徴を含み；訓練モジュール402は具体的に、
第一境界特徴及び第二境界特徴に基づいて、目標損失関数に含まれる第四損失関数を採用して、目標境界サブ損失値を取得し；
M個の境界サブ損失値を得たときに、M個の境界サブ損失値に基づいて境界損失値を決定し、そのうち、M個の境界サブ損失値は目標境界サブ損失値を含み；
判別損失値、生成損失値、分類損失値及び境界損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、そのうち、判別損失値及び生成損失値は第一判別結果及び第二判別結果に基づいて決定され、分類損失値はカテゴリ特徴ベクトルに基づいて決定され；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを得るように構成される。

オプションとして、上述の図16に対応する実施例をもとに、本出願の実施例により提供されるモデル訓練装置40のもう1つの実施例において、取得モジュール401はさらに、ターゲット域顔画像に基づいて、画素分割モデルにより顔分割領域を取得し；訓練モジュール402は具体的に、
顔分割領域に基づいて、目標損失関数に含まれる第五損失関数を採用して、目標分割サブ損失値を取得し；
M個の分割サブ損失値を得たときに、M個の分割サブ損失値に基づいて分割損失値を決定し、そのうち、M個の分割サブ損失値は目標分割サブ損失値を含み；
判別損失値、生成損失値、分類損失値及び分割損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、そのうち、判別損失値及び生成損失値は第一判別結果及び第二判別結果に基づいて決定され、分類損失値はカテゴリ特徴ベクトルに基づいて決定され；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを得るように構成される。

オプションとして、上述の図16に対応する実施例をもとに、本出願の実施例により提供されるモデル訓練装置40のもう1つの実施例において、訓練モジュール402は具体的に、
第一判別結果及び第二判別結果に基づいて、目標損失関数に含まれる第一損失関数を採用して、判別損失値及び生成損失値を決定し；
カテゴリ特徴ベクトルに基づいて、目標損失関数に含まれる第二損失関数を採用して、分類損失値を決定し；
合成顔画像に対応する第一アイデンティティ特徴及びターゲット域顔画像に対応する第二アイデンティティ特徴に基づいて、目標損失関数に含まれる第三損失関数を採用して、アイデンティティ損失値を取得し；
合成顔画像に対応する第一境界特徴及びターゲット域顔画像に対応する第二境界特徴に基づいて、目標損失関数に含まれる第四損失関数を採用して、境界損失値を取得し；
合成顔画像、ターゲット域顔画像、及びターゲット域顔画像に対応する顔分割領域に基づいて、目標損失関数に含まれる第五損失関数を採用して、分割損失値を取得し；
判別損失値、生成損失値、分類損失値、アイデンティティ損失値、境界損失値及び分割損失値を最小化することで、訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて表情トランスファーモデルを取得するように構成される。

以下、本出願における表情トランスファー装置について詳細に説明する。図17を参照し、図17は本出願の実施例における表情トランスファー装置の1つの実施例を示す図である。表情トランスファー装置50は取得モジュール501及び表示モジュール502を含む。

取得モジュール501は、仮想対象に対応する第一画像及びリアルな人物に対応するビデオ素材を取得するために用いられ、そのうち、ビデオ素材はPフレームの第二画像を含み、Pは1以上の整数である。

取得モジュール501はさらに、ビデオ素材に基づいて顔特徴画像集合を取得するために用いられ、そのうち、顔特徴画像集合はP個の顔特徴画像を含み、かつ顔特徴画像と第二画像とは1対1に対応する関係を有する。

取得モジュール501はさらに、顔特徴画像集合及び第一画像に基づいて、表情トランスファーモデルにより合成顔ビデオを取得するために用いられ、そのうち、合成顔ビデオはPフレームの合成顔画像を含み、表情トランスファーモデルは上記のように提供された訓練方法を採用して訓練することで得られたものである。

表示モジュール502は合成顔ビデオを表示するために用いられる。

オプションとして、上述の図17に対応する実施例をもとに、本出願の実施例により提供される表情トランスファー装置50のもう1つの実施例において、取得モジュール501は具体的に次のように構成され、即ち、
画像収集装置により仮想対象に対応する第一画像を取得し、又は、端末装置にローカルで記憶されている画像集合のうちから仮想対象に対応する第一画像を取得し、そのうち、画像集合は少なくとも1つの仮想対象に対応する画像を含み；及び
画像収集装置によりリアルな人物に対応するビデオ素材を取得し、又は、端末装置にローカルで記憶されているビデオ集合のうちからリアルな人物に対応するビデオ素材を取得し、そのうち、ビデオ集合は少なくとも1つリアルな人物に対応するビデオを含む。

オプションとして、上述の図17に対応する実施例をもとに、本出願の実施例により提供される表情トランスファー装置50のもう1つの実施例において、取得モジュール501は具体的に、
顔特徴画像集合における各顔特徴画像について、表情トランスファーモデルにより各顔特徴画像及び第一画像に対応する合成顔画像を取得し；及び
P個の合成顔画像を得たときに、合成顔ビデオを生成するように構成される。

以下、本出願における表情トランスファー装置について詳細に説明する。図18を参照し、図18は本出願の実施例における表情トランスファー装置の1つの実施例を示す図である。表情トランスファー装置60は取得モジュール601及び表示モジュール602を含む。

取得モジュール601は、リアルな人物に対応する第一画像及び仮想対象に対応するビデオ素材を取得するために用いられ、そのうち、ビデオ素材はPフレームの第二画像を含み、Pは1以上の整数である。

取得モジュール601はさらに、第一画像に基づいて顔特徴画像を取得するために用いられる。

取得モジュール601はさらに、顔特徴画像及びビデオ素材に基づいて、表情トランスファーモデルにより合成顔ビデオを取得するために用いられ、そのうち、合成顔ビデオはPフレームの合成顔画像を含み、表情トランスファーモデルは上記の側面で提供された訓練方法を採用して訓練することで得られたものである。

表示モジュール602は、合成顔ビデオを表示するために用いられる。

オプションとして、上述の図18に対応する実施例をもとに、本出願の実施例により提供される表情トランスファー装置60のもう1つの実施例において、取得モジュール601は具体的に、
ビデオ素材における各フレームの第二画像について、表情トランスファーモデルにより各フレームの第二画像及び顔特徴画像に対応する合成顔画像を取得し；及び
P個の合成顔画像を得たときに、合成顔ビデオを生成するように構成される。

本出願により提供されるモデル訓練装置はサーバーに配置されても良く、また、本出願により提供される表情トランスファー装置もサーバーに配置されても良く、即ち、本出願におけるコンピュータ装置はサーバーであっても良い。図19は本出願の実施例により提供されるサーバーの構成を示す図である。該サーバー700は設定や性能の違いにより大きく異なっても良く、また、1つ又は1つ以上の中央処理器（central
processing units、CPU）722（例えば、1つ又は1つ以上の処理器）、記憶器732、及び、アプリケーションプログラム742又はデータ744を記憶するための1つ又は1つ以上の記憶媒体730（例えば、1つ又は1つ以上の大容量記憶装置）を含んでも良い。そのうち、記憶器732及び記憶媒体730は一時的ストレージ又は永続的ストレージであっても良い。記憶媒体730に記憶されるプログラムは1つ又は1つ以上のモジュール（図示せず）を含んでも良く、各モジュールには一連の命令操作が含まれても良い。さらに、中央処理器722は、記憶媒体730と通信を行い、サーバー700で記憶媒体730における一連の命令操作を実行するように構成されても良い。

サーバー700はさらに1つ又は1つ以上の電源726、1つ又は1つ以上の有線又は無線ネットワークインターフェース750、1つ又は1つ以上の入出力インターフェース758、及び/又は、1つ又は1つ以上のオペレーティングシステム741、例えば、Windows Server^TM、Mac OS X^TM、Unix^TM, Linux^TM、FreeBSD^TMなどを含んでも良い。

上述の実施例ではサーバーにより実行されるステップは図19に示すサーバーの構成に基づくことができる。

本出願により提供されるモデル訓練装置は端末装置に配置されても良く、また、本出願により提供される表情トランスファー装置も端末装置に配意されても良く、即ち、本出願におけるコンピュータ装置は端末装置であり得る。図20に示すように、説明の便宜のため、本出願の実施例に関する部分のみが示されているが、具体的な細部は記載されず、これについては本出願の実施例の方法の部分を参照することができる。該端末装置は携帯電話、タブレットコンピュータ、PDA（personal digital assistant）、POS（point of salesS）、車載コンピュータなどの任意の端末装置であっても良いが、以下、端末装置が携帯電話であることを例にして説明を行う。

図20に示すのは、本出願の実施例により提供される端末装置に係る携帯電話の部分の構成である。図20に示すように、携帯電話はRF（radio frequencyF）回路810、記憶器820、入力ユニット830、表示ユニット840、センサー850、音声回路860、WiFi（wireless fidelity）モジュール870、処理器880、電源890などの部品を含み得る。当業者が理解すべきは、図20に示す携帯電話の構成は携帯電話についての限定を構成せず、図示よりも多く又は少ない部品を含んでも良く、又はこれらの部品を組み合わせても良く、又は異なる部品Layoutを有しても良いということである。

以下、図20を参照しながら携帯電話の各構成部品について具体的に紹介する。

RF回路810は情報の送受信又は通話プロセスにおける信号の受信及び送信に用いることができ、特に、基地局の下りリンク情報を受信した後に処理器880に処理してもらい、又は、上りリンクに関するデータを基地局に送信するために用いられ得る。通常、RF回路810はアンテナ、少なくとも1つ増幅器、送受信機、結合器、低ノイズ増幅器（low noise amplifier、LNA）、デュプレクサなどを含んでも良いが、これらに限定されない。また、RF回路810はさらに、無線通信によりネットワーク及び他の装置と通信を行っても良い。このような無線通信は任意の通信規格又はプロトコル、例えば、GSM（global system of mobile communication）、GPRS（general packet radio service）、CDMA（code division multiple access）、WCDMA（wideband code division multiple access）、LTE（long term evolution、）、電子メール、SMS（short messaging service）などを使用しても良い、これらに限定されない。

記憶器820はソフトウェアプログラム及びモジュールを記憶するために用いられ、処理器880は記憶器820に記憶されたソフトウェアプログラム及びモジュールを実行することで、携帯電話の各種の機能アプリケーション及びデータ処理を実現し得る。記憶器820は主に、プログラム格納ゾーン及びデータ格納ゾーンを含み、そのうち、プログラム格納ゾーンはOperationg System、少なくとも1つの機能に必要なアプリケーションプログラム（例えば、音声再生機能、ビデオ再生機能など）などを格納することができ；データ格納ゾーンには携帯電話の使用に基づいて生成されたデータ（例えば、音声データ、電話帳など）などが格納されても良い。また、記憶器820は高速ランダムアクセスメモリを含んでも良く、さらに不揮発性メモリ、例えば、少なくとも1つの磁気ディスク、フレッシュメモリ、又は他の不揮発性固体メモリを含んでも良い。

入力ユニット830は、入力されたデジタル情報又は文字情報を受信し、かつ携帯電話のユーザー設定や機能制御に関するキー信号の入力を生成するために用いられる。具体的には、入力ユニット830はタッチパネル831及び他の入力装置832を含み得る。タッチパネル831は、タッチスクリーンとも称され、ユーザーのその上又は付近でのタッチ操作（例えば、ユーザーが指、スタイラスなどの任意の適切なオブジェクト又はアクセサリを使用してタッチパネル831上又はタッチパネル831の付近で行った操作）を収集し、また、事前設定のプログラムにより対応する接続装置を駆動することができる。オプションとして、タッチパネル831はタッチ検出装置及びタッチ制御器の2つの部分を含み得る。そのうち、タッチ検出装置はユーザーのタッチ方位を検出し、タッチ操作による信号を検出し、そして、信号をタッチ制御器に伝送することができ；タッチ制御器はタッチ検出装置からタッチ情報を受信し、それをタッチポイント座標に変換し、そして処理器880に送信することができ、また、処理器880からの命令を受信して実行することもできる。さらに、抵抗式、容量式、赤外線、表面音波などの様々なタイプでタッチパネル831を実現することができる。タッチパネル831に加えて、入力ユニット830はさらに他の入力装置832を含んでも良い。具体的には、他の入力装置832は物理キーボード、機能キー（例えば、音量制御キー、切り替えキーなどの）、トラックボール、マウス、ジョイスティックなどのうちの1つ又は複数を含み得るが、これらに限られない。

表示ユニット840はユーザーにより入力される情報又はユーザーに提供される情報及び携帯電話の各種のメニューを表示するために用いられる。表示ユニット840は表示パネル841を含んでも良く、オプションとして、液晶表示器（liquid crystal display、LCD）、有機発光ダイオード（organic light-emitting diode、OLED）などの形式で表示パネル841を構成しても良い。さらに、タッチパネル831は表示パネル841を覆うことができ、タッチパネル831がその上又は付近でのタッチ操作を検出した後に、処理器880に伝送してタッチ事件の類型を決定してもらい、その後、処理器880はタッチ事件の類型に基づいて表示パネル841において対応する視覚出力を提供することができる。なお、図20では、タッチパネル831及び表示パネル841は2つの独立した部品として携帯電話の入力及び入力機能を実現するが、幾つかの実施例において、タッチパネル831及び表示パネル841を統合することで携帯電話の入力及び出力機能を実現することもできる。

携帯電話はさらに、少なくとも1種のセンサー850、例えば、光センサー、モーションセンサー及び他のセンサーを含んでも良い。具体的には、光センサーは周囲光センサー及び近接センサーを含んでも良く、そのうち、周囲光センサーは周囲光の明るさに基づいて表示パネル841の輝度を調節することができ、接近センサーは携帯電話が耳の近傍に移動したときに、表示パネル841及び/又はバックライトをオフにすることができる。モーションセンサーの1種として、加速度センサーは各方向（一般的に3軸）の加速度の大きさを検出することができ、静止時に重力の大きさ及び方向を検出することができ、また、携帯電話の姿態を認識するアプリケーション（例えば、水平垂直画面切り替え、関連ゲーム、磁力計姿態校正）、振動認識関連機能（例えば、歩数器、タッピング）などに用いることもできる。なお、携帯電話にさらに配置され得るジャイロスコープ、気圧計、湿度計、温度計、赤外線センサーなどの他のセンサーについては、ここではその詳しい説明を省略する。

音声回路860、スピーカー861及びマイクロフォン862はユーザーと携帯電話との間の音声インターフェースを提供することができる。音声回路860は受信した音声データを変換した後の電気信号をスピーカー861に伝送し、スピーカー861に声音信号に変換して出力してもらうことができる。マイクロフォン862は収集した声音信号を電気信号に変換し、音声回路860によって電気信号を受信した後に音声データに変換し、そして、音声データを処理器880に出力して処理してもらった後に、RF回路810によって例えばもう1つの携帯電話に送信し、又は、音声データを記憶器820に出力してさらに処理してもらうことができる。

WiFiは近距離無線伝送技術に属し、携帯電話はWiFiモジュール870により、ユーザーが電子メールを送受信したり、Webページを閲覧したり、ストリーミングメディアにアクセスしたりするのを助けることができ、それはユーザーに無線ブロードバンドインターネットアクセスを提供することができる。なお、図20ではWiFiモジュール870が示されているが、理解すべきは、それは携帯電話の必須構成ではなく、本発明の本質を変えない範囲内で必要に応じで完全に省略することもできるということであ。

処理器880は携帯電話の制御センターであり、各種のインターフェース及び回路を用いて携帯電話全体の各部分を接続し、記憶器820に格納されたソフトウェアプログラム及び/又はモジュールを実行し、また、記憶器820に保存されたデータを呼び出することで、携帯電話の各種の機能を実行し、データを処理することにより、携帯電話全体をモニタリングすることができる。オプションとして、処理器880は1つ又は複数の処理ユニットを含んでも良く、オプションとして、処理器880はアプリケーションプロセッサ及びモデムプロセッサを統合することができ、そのうち、アプリケーションプロセッサは主にオペレーティングシステム、ユーザーインターフェース、アプリケーションプログラムなどを処理し、モデムプロセッサは主に無線通信を処理する。なお、理解すべきは、このようなモデムプロセッサは処理器880に集積されても良いということである。

携帯電話はさらに各部品に給電する電源890（例えば、電池）を含んでも良く、オプションとして、電源は電源管理システムにより処理器880と接続されることで、電源管理システムによって充電、放電、及び電力消費の管理などの機能を実現することができる。なお、図示されていないが、携帯電話はさらに、カメラヘッド、ブルートゥースモジュールなどを含んでも良いが、ここではその詳しい説明を省略する。

上述の実施例では端末装置により実行されるステップは図20に示す端末装置の構成に基づくことができる。

本出願の実施例ではコンピュータ可読記憶媒体がさらに提供され、該コンピュータ可読記憶媒体にはコンピュータプログラムが記憶されており、それはコンピュータ上で実行されるときに、コンピュータに前述の各実施例に記載された方法におけるステップを実現させることができる。

なお、説明の便宜のため、上述のシステム、装置及びユニットの具体的なワーキングプロセスについては、前述の方法の実施例における対応プロセスを参照することができるため、ここではその詳しい説明を省略する。

本出願により提供される幾つかの実施例において、理解すべきは、開示されたシステム、装置及び方法は他の方式で実現されても良いということである。例えば、上述の装置の実施例は例示に過ぎず、例えば、前記ユニットの分割は1種の論理機能の分割のみであり、実際に実現するときに他の分割方式があっても良く、例えば、複数のユニット又はコンポーネントは組み合わせしたり、もう１つのシステムに統合したり、幾つかの特徴を無視したり、実行しなかったりすることもできる。また、示されている又は説明されている互いの間の結合又は直接結合又は通信接続は幾つかのインターフェース、装置又はユニットの間接結合又は通信接続であっても良く、電気的、機械的又は他の形式であっても良い。

個別の部品として説明されているユニットは物理的に分離されている場合とされていない場合があり、また、ユニットとして表示されているコンポーネントは、物理ユニットである場合とそうでない場合がある。実際のニーズに応じてそのうちの一部又は全部のユニットを選んで本実施例の技術案の目的を達成することができる。

また、本出願の各実施例における各機能ユニットは1つの処理ユニットに統合されても良く、各ユニットは物理的に単独で存在しても良く、あるいは、2つ又は2つ以上のユニットは1つのユニットに集積されても良い。このように集積されたユニットはハードウェアの形で実現されても良く、ソフトウェア機能ユニットの形で実現されても良い。

上記のように集積されたユニットは、ソフトウェア機能ユニットの形で実現され、かつ独立したプロダクトとして販売又は使用されるときに、1つのコンピュータ可読取記憶媒体に記憶することができる。このような理解に基づいて、本出願の技術案は本質的に、あるいは、従来技術に対して貢献をもたらす部分又は該技術案の全部又は一部はソフトウェアプロダクトの形で具現化されても良く、該コンピュータソフトウェアプロダクトは1つの記憶媒体に記憶され、複数の命令を含み、これにより、1台のコンピュータ装置（パソコン、サーバー、ネットワーク装置など）は本出願の各実施例に記載された方法の全部又は一部のステップを実行することができる。また、このような記憶媒体は、Uディスク、リムーバブルハードディスク、読み取り専用メモリ（read-only memory、ROM）、ランダムアクセスメモリ（random access memory、RAM）、磁気ディスク、光ディスクなどの様々なプログラムコード記憶可能な媒体を含み得る。

以上、本出願の好ましい実施例を説明したが、本出願はこの実施例に限定されず、本出願の趣旨を離脱しない限り、本出願に対するあらゆる変更は本出願の技術的範囲に属する。

Claims

モデル訓練装置が実行する、表情トランスファーモデルを訓練する方法であって、
ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得するステップであって、前記ソース域顔画像及び前記ターゲット域顔画像は同じ対象に対応する２つの画像であり、前記顔特徴画像と前記ターゲット域顔画像との間には対応関係がある、ステップ；
前記顔特徴画像と前記ソース域顔画像とをつなぎ合わせて訓練待ち表情トランスファーモデルに入力し、前記訓練待ち表情トランスファーモデルにより、合成顔画像を取得するステップ；
前記合成顔画像及び前記ターゲット域顔画像に基づいて、判別ネットワークモデルにより、前記合成顔画像に対応する第一判別結果及び前記ターゲット域顔画像に対応する第二判別結果を取得するステップ；
前記合成顔画像及び前記ターゲット域顔画像に基づいて、画像分類モデルにより、カテゴリ特徴ベクトルを取得するステップであって、前記カテゴリ特徴ベクトルは前記合成顔画像と前記ターゲット域顔画像との間の差を標識するために用いられる、ステップ；
前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するステップを含み、
前記方法は、
前記合成顔画像に基づいて、境界抽出モデルにより第一境界特徴を取得するステップであって、前記第一境界特徴は前記合成顔画像における顔境界点に対応する特徴を含む、ステップ；及び
前記ターゲット域顔画像に基づいて、前記境界抽出モデルにより第二境界特徴を取得するステップであって、前記第二境界特徴は前記ターゲット域顔画像における顔境界点に対応する特徴を含む、ステップをさらに含み、
前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行うことは、
前記第一境界特徴及び前記第二境界特徴に基づいて、目標損失関数に含まれる第四損失関数を採用して目標境界サブ損失値を取得するステップ；
Ｍ個の境界サブ損失値を取得するときに、前記Ｍ個の境界サブ損失値に基づいて境界損失値を決定するステップであって、前記Ｍ個の境界サブ損失値は前記目標境界サブ損失値を含む、ステップ；
判別損失値、生成損失値、分類損失値及び境界損失値を最小化することで、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行うステップであって、前記判別損失値及び前記生成損失値は前記第一判別結果及び前記第二判別結果に基づいて決定され、前記分類損失値は前記カテゴリ特徴ベクトルに基づいて決定される、ステップ；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて前記表情トランスファーモデルを取得するステップを含む、方法。
請求項１に記載の方法であって、
前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するステップは、
前記第一判別結果及び前記第二判別結果に基づいて、目標損失関数に含まれる第一損失関数を採用して判別損失値及び生成損失値を決定するステップ；
前記カテゴリ特徴ベクトルに基づいて、前記目標損失関数に含まれる第二損失関数を採用して分類損失値を決定するステップ；
前記判別損失値、前記生成損失値及び前記分類損失値を最小化することで、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行うステップ；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて前記表情トランスファーモデルを取得するステップを含む、方法。
請求項２に記載の方法であって、
前記第一判別結果及び前記第二判別結果に基づいて、目標損失関数に含まれる第一損失関数を採用して判別損失値及び生成損失値を決定するステップは、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一損失関数に含まれる判別損失関数を採用して目標判別サブ損失値を取得するステップ；
Ｍ個の判別サブ損失値を取得するときに、前記Ｍ個の判別サブ損失値に基づいて前記判別損失値を決定するステップであって、前記Ｍ個の判別サブ損失値は前記目標判別サブ損失値を含み、Ｍは１以上の整数である、ステップ；
前記第一判別結果に基づいて、前記第一損失関数に含まれる生成損失関数を採用して目標生成サブ損失値を取得するステップ；及び
Ｍ個の生成サブ損失値を取得するときに、前記Ｍ個の生成サブ損失値に基づいて前記生成損失値を決定するステップであって、前記Ｍ個の生成サブ損失値は前記目標生成サブ損失値を含む、ステップを含む、方法。
請求項１乃至３のうちの何れか１項に記載の方法であって、
前記合成顔画像に基づいて、顔認識モデルにより、第一アイデンティティ特徴を取得するステップ；及び
前記ターゲット域顔画像に基づいて、前記顔認識モデルにより、第二アイデンティティ特徴を取得するステップをさらに含み、
前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行うことは、
前記第一アイデンティティ特徴及び前記第二アイデンティティ特徴に基づいて、目標損失関数に含まれる第三損失関数を採用して目標アイデンティティサブ損失値を取得するステップ；
Ｍ個のアイデンティティサブ損失値を取得するときに、前記Ｍ個のアイデンティティサブ損失値に基づいてアイデンティティ損失値を決定するステップであって、前記Ｍ個のアイデンティティサブ損失値は前記目標アイデンティティサブ損失値を含む、ステップ；
判別損失値、生成損失値、分類損失値及びアイデンティティ損失値を最小化することで、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行うステップであって、前記判別損失値及び前記生成損失値は前記第一判別結果及び前記第二判別結果に基づいて決定され、前記分類損失値は前記カテゴリ特徴ベクトルに基づいて決定される、ステップ；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて前記表情トランスファーモデルを取得するステップを含む、方法。
モデル訓練装置が実行する、表情トランスファーモデルを訓練する方法であって、
ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得するステップであって、前記ソース域顔画像及び前記ターゲット域顔画像は同じ対象に対応する２つの画像であり、前記顔特徴画像と前記ターゲット域顔画像との間には対応関係がある、ステップ；
前記顔特徴画像と前記ソース域顔画像とをつなぎ合わせて訓練待ち表情トランスファーモデルに入力し、前記訓練待ち表情トランスファーモデルにより、合成顔画像を取得するステップ；
前記合成顔画像及び前記ターゲット域顔画像に基づいて、判別ネットワークモデルにより、前記合成顔画像に対応する第一判別結果及び前記ターゲット域顔画像に対応する第二判別結果を取得するステップ；
前記合成顔画像及び前記ターゲット域顔画像に基づいて、画像分類モデルにより、カテゴリ特徴ベクトルを取得するステップであって、前記カテゴリ特徴ベクトルは前記合成顔画像と前記ターゲット域顔画像との間の差を標識するために用いられる、ステップ；
前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するステップを含み、
前記方法は、
前記ターゲット域顔画像に基づいて、画素分割モデルにより顔分割領域を取得するステップをさらに含み、
前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行うことは、
前記顔分割領域に基づいて、目標損失関数に含まれる第五損失関数を採用して目標分割サブ損失値を取得するステップ；
Ｍ個の分割サブ損失値を取得するときに、前記Ｍ個の分割サブ損失値に基づいて分割損失値を決定するステップであって、前記Ｍ個の分割サブ損失値は前記目標分割サブ損失値を含む、ステップ；
判別損失値、生成損失値、分類損失値及び分割損失値を最小化することで、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行うステップであって、前記判別損失値及び前記生成損失値は前記第一判別結果及び前記第二判別結果に基づいて決定され、前記分類損失値は前記カテゴリ特徴ベクトルに基づいて決定される、ステップ；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて前記表情トランスファーモデルを取得するステップを含む、方法。
モデル訓練装置が実行する、表情トランスファーモデルを訓練する方法であって、
ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得するステップであって、前記ソース域顔画像及び前記ターゲット域顔画像は同じ対象に対応する２つの画像であり、前記顔特徴画像と前記ターゲット域顔画像との間には対応関係がある、ステップ；
前記顔特徴画像と前記ソース域顔画像とをつなぎ合わせて訓練待ち表情トランスファーモデルに入力し、前記訓練待ち表情トランスファーモデルにより、合成顔画像を取得するステップ；
前記合成顔画像及び前記ターゲット域顔画像に基づいて、判別ネットワークモデルにより、前記合成顔画像に対応する第一判別結果及び前記ターゲット域顔画像に対応する第二判別結果を取得するステップ；
前記合成顔画像及び前記ターゲット域顔画像に基づいて、画像分類モデルにより、カテゴリ特徴ベクトルを取得するステップであって、前記カテゴリ特徴ベクトルは前記合成顔画像と前記ターゲット域顔画像との間の差を標識するために用いられる、ステップ；
前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するステップを含み、
前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するステップは、
前記第一判別結果及び前記第二判別結果に基づいて、目標損失関数に含まれる第一損失関数を採用して判別損失値及び生成損失値を決定するステップ；
前記カテゴリ特徴ベクトルに基づいて、前記目標損失関数に含まれる第二損失関数を採用して分類損失値を決定するステップ；
前記合成顔画像に対応する第一アイデンティティ特徴及び前記ターゲット域顔画像に対応する第二アイデンティティ特徴に基づいて、前記目標損失関数に含まれる第三損失関数を採用してアイデンティティ損失値を取得するステップ；
前記合成顔画像に対応する第一境界特徴及び前記ターゲット域顔画像に対応する第二境界特徴に基づいて、前記目標損失関数に含まれる第四損失関数を採用して境界損失値を取得するステップ；
前記合成顔画像、前記ターゲット域顔画像、及び前記ターゲット域顔画像に対応する顔分割領域に基づいて、前記目標損失関数に含まれる第五損失関数を採用して分割損失値を取得するステップ；
前記判別損失値、前記生成損失値、前記分類損失値、前記アイデンティティ損失値、前記境界損失値及び前記分割損失値を最小化することで、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行うステップ；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて前記表情トランスファーモデルを取得するステップを含む、方法。
端末装置が実行する、表情トランスファーを行う方法であって、
仮想対象に対応する第一画像及びリアルな人物に対応するビデオ素材を取得するステップであって、前記ビデオ素材はＰフレームの第二画像を含み、Ｐは１以上の整数である、ステップ；
前記ビデオ素材に基づいて顔特徴画像集合を取得するステップであって、前記顔特徴画像集合はＰ個の顔特徴画像を含み、前記顔特徴画像と前記第二画像とは１対１に対応する関係を有する、ステップ；
前記顔特徴画像集合及び前記第一画像に基づいて、表情トランスファーモデルにより、合成顔ビデオを取得するステップであって、前記合成顔ビデオはＰフレームの合成顔画像を含み、前記表情トランスファーモデルは請求項１乃至６のうちの何れか１項に記載の方法により訓練されたものである、ステップ；及び
前記合成顔ビデオを表示するステップを含む、方法。
請求項７に記載の方法であって、
前記仮想対象に対応する第一画像及びリアルな人物に対応するビデオ素材を取得するステップは、
画像収集装置により、前記仮想対象に対応する前記第一画像を取得し、又は、端末装置にローカルで記憶される画像集合のうちから前記仮想対象に対応する前記第一画像を取得するステップであって、前記画像集合は少なくとも１つの前記仮想対象に対応する画像を含む、ステップ；及び
前記画像収集装置により、前記リアルな人物に対応する前記ビデオ素材を取得し、又は、端末装置にローカルで記憶されるビデオ集合のうちから、前記リアルな人物に対応する前記ビデオ素材を取得するステップであって、前記ビデオ集合は少なくとも１つ前記リアルな人物に対応するビデオを含む、ステップを含む、方法。
請求項７に記載の方法であって、
前記顔特徴画像集合及び前記第一画像に基づいて、表情トランスファーモデルにより、合成顔ビデオを取得するステップは、
前記顔特徴画像集合における各顔特徴画像について、前記表情トランスファーモデルにより、前記各顔特徴画像及び前記第一画像に対応する合成顔画像を取得するステップ；及び
Ｐ個の合成顔画像を取得したときに、前記合成顔ビデオを生成するステップを含む、方法。
端末装置が実行する、表情トランスファーを行う方法であって、
リアルな人物に対応する第一画像及び仮想対象に対応するビデオ素材を取得するステップであって、前記ビデオ素材はＰフレームの第二画像を含み、Ｐは１以上の整数である、ステップ；
前記第一画像に基づいて顔特徴画像を取得するステップ；
前記顔特徴画像及び前記ビデオ素材に基づいて、表情トランスファーモデルにより、合成顔ビデオを取得するステップであって、前記合成顔ビデオはＰフレームの合成顔画像を含み、前記表情トランスファーモデルは請求項１乃至６のうちの何れか１項に記載の方法により訓練されたものである、ステップ；及び
前記合成顔ビデオを表示するステップを含む、方法。
請求項１０に記載の方法であって、
顔特徴画像集合及び前記第一画像に基づいて、表情トランスファーモデルにより合成顔ビデオを取得するステップは、
前記ビデオ素材における各フレームの第二画像について、前記表情トランスファーモデルにより前記各フレームの第二画像及び前記顔特徴画像に対応する合成顔画像を取得するステップ；及び
Ｐ個の合成顔画像を取得したときに、前記合成顔ビデオを生成するステップを含む、方法。
モデルを訓練する装置であって、
取得モジュール及び訓練モジュールを含み
前記取得モジュールは、ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得するために用いられ、前記ソース域顔画像及び前記ターゲット域顔画像は同じ対象に対応する２つの画像であり、前記顔特徴画像と前記ターゲット域顔画像との間には対応関係があり、
前記取得モジュールはさらに、前記顔特徴画像と前記ソース域顔画像とをつなぎ合わせて訓練待ち表情トランスファーモデルに入力し、前記訓練待ち表情トランスファーモデルにより、合成顔画像を取得するために用いられ、
前記取得モジュールはさらに、前記合成顔画像及び前記ターゲット域顔画像に基づいて、判別ネットワークモデルにより、前記合成顔画像に対応する第一判別結果及び前記ターゲット域顔画像に対応する第二判別結果を取得するために用いられ、
前記取得モジュールはさらに、前記合成顔画像及び前記ターゲット域顔画像に基づいて、画像分類モデルにより、カテゴリ特徴ベクトルを取得するために用いられ、前記カテゴリ特徴ベクトルは前記合成顔画像と前記ターゲット域顔画像との間の差を標識するために用いられ、
前記訓練モジュールは、前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するために用いられ、
前記取得モジュールはさらに、
前記合成顔画像に基づいて、境界抽出モデルにより第一境界特徴を取得し、前記第一境界特徴は前記合成顔画像における顔境界点に対応する特徴を含み；及び
前記ターゲット域顔画像に基づいて、前記境界抽出モデルにより第二境界特徴を取得し、前記第二境界特徴は前記ターゲット域顔画像における顔境界点に対応する特徴を含み、
前記訓練モジュールはさらに、
前記第一境界特徴及び前記第二境界特徴に基づいて、目標損失関数に含まれる第四損失関数を採用して目標境界サブ損失値を取得し；
Ｍ個の境界サブ損失値を取得するときに、前記Ｍ個の境界サブ損失値に基づいて境界損失値を決定し、前記Ｍ個の境界サブ損失値は前記目標境界サブ損失値を含み；
判別損失値、生成損失値、分類損失値及び境界損失値を最小化することで、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、前記判別損失値及び前記生成損失値は前記第一判別結果及び前記第二判別結果に基づいて決定され、前記分類損失値は前記カテゴリ特徴ベクトルに基づいて決定され；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて前記表情トランスファーモデルを取得する、装置。
モデルを訓練する装置であって、
取得モジュール及び訓練モジュールを含み
前記取得モジュールは、ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得するために用いられ、前記ソース域顔画像及び前記ターゲット域顔画像は同じ対象に対応する２つの画像であり、前記顔特徴画像と前記ターゲット域顔画像との間には対応関係があり、
前記取得モジュールはさらに、前記顔特徴画像と前記ソース域顔画像とをつなぎ合わせて訓練待ち表情トランスファーモデルに入力し、前記訓練待ち表情トランスファーモデルにより、合成顔画像を取得するために用いられ、
前記取得モジュールはさらに、前記合成顔画像及び前記ターゲット域顔画像に基づいて、判別ネットワークモデルにより、前記合成顔画像に対応する第一判別結果及び前記ターゲット域顔画像に対応する第二判別結果を取得するために用いられ、
前記取得モジュールはさらに、前記合成顔画像及び前記ターゲット域顔画像に基づいて、画像分類モデルにより、カテゴリ特徴ベクトルを取得するために用いられ、前記カテゴリ特徴ベクトルは前記合成顔画像と前記ターゲット域顔画像との間の差を標識するために用いられ、
前記訓練モジュールは、前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するために用いられ、
前記取得モジュールはさらに、
前記ターゲット域顔画像に基づいて、画素分割モデルにより顔分割領域を取得し、
前記訓練モジュールはさらに、
前記顔分割領域に基づいて、目標損失関数に含まれる第五損失関数を採用して目標分割サブ損失値を取得し；
Ｍ個の分割サブ損失値を取得するときに、前記Ｍ個の分割サブ損失値に基づいて分割損失値を決定し、前記Ｍ個の分割サブ損失値は前記目標分割サブ損失値を含み；
判別損失値、生成損失値、分類損失値及び分割損失値を最小化することで、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、前記判別損失値及び前記生成損失値は前記第一判別結果及び前記第二判別結果に基づいて決定され、前記分類損失値は前記カテゴリ特徴ベクトルに基づいて決定され；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて前記表情トランスファーモデルを取得する、装置。
モデルを訓練する装置であって、
取得モジュール及び訓練モジュールを含み
前記取得モジュールは、ソース域顔画像、ターゲット域顔画像及び顔特徴画像を取得するために用いられ、前記ソース域顔画像及び前記ターゲット域顔画像は同じ対象に対応する２つの画像であり、前記顔特徴画像と前記ターゲット域顔画像との間には対応関係があり、
前記取得モジュールはさらに、前記顔特徴画像と前記ソース域顔画像とをつなぎ合わせて訓練待ち表情トランスファーモデルに入力し、前記訓練待ち表情トランスファーモデルにより、合成顔画像を取得するために用いられ、
前記取得モジュールはさらに、前記合成顔画像及び前記ターゲット域顔画像に基づいて、判別ネットワークモデルにより、前記合成顔画像に対応する第一判別結果及び前記ターゲット域顔画像に対応する第二判別結果を取得するために用いられ、
前記取得モジュールはさらに、前記合成顔画像及び前記ターゲット域顔画像に基づいて、画像分類モデルにより、カテゴリ特徴ベクトルを取得するために用いられ、前記カテゴリ特徴ベクトルは前記合成顔画像と前記ターゲット域顔画像との間の差を標識するために用いられ、
前記訓練モジュールは、前記カテゴリ特徴ベクトル、前記第一判別結果及び前記第二判別結果に基づいて、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い、表情トランスファーモデルを取得するために用いられ、
前記訓練モジュールはさらに、
前記第一判別結果及び前記第二判別結果に基づいて、目標損失関数に含まれる第一損失関数を採用して判別損失値及び生成損失値を決定し；
前記カテゴリ特徴ベクトルに基づいて、前記目標損失関数に含まれる第二損失関数を採用して分類損失値を決定し；
前記合成顔画像に対応する第一アイデンティティ特徴及び前記ターゲット域顔画像に対応する第二アイデンティティ特徴に基づいて、前記目標損失関数に含まれる第三損失関数を採用してアイデンティティ損失値を取得し；
前記合成顔画像に対応する第一境界特徴及び前記ターゲット域顔画像に対応する第二境界特徴に基づいて、前記目標損失関数に含まれる第四損失関数を採用して境界損失値を取得し；
前記合成顔画像、前記ターゲット域顔画像、及び前記ターゲット域顔画像に対応する顔分割領域に基づいて、前記目標損失関数に含まれる第五損失関数を採用して分割損失値を取得し；
前記判別損失値、前記生成損失値、前記分類損失値、前記アイデンティティ損失値、前記境界損失値及び前記分割損失値を最小化することで、前記訓練待ち表情トランスファーモデルのモデルパラメータに対して更新を行い；及び
モデル収束条件に達したときに、更新後のモデルパラメータに基づいて前記表情トランスファーモデルを取得する、装置。
記憶器と、
前記記憶器に接続される処理器と、を含むコンピュータ装置であって、
前記記憶器にはコンピュータプログラムが記憶されており、
前記処理器は、前記コンピュータプログラムを実行することにより、請求項１乃至６のうちの何れか１項に記載の方法、あるいは、請求項７乃至９のうちの何れか１項に記載の方法、あるいは、請求項１０又は１１に記載の方法を実現するように構成される、コンピュータ装置。
コンピュータに、請求項１乃至６のうちの何れか１項に記載の方法、あるいは、請求項７乃至９のうちの何れか１項に記載の方法、あるいは、請求項１０又は１１に記載の方法を実行させるためのプログラム。