JP2022513858A

JP2022513858A - 顔画像生成用のデータ処理方法、データ処理機器、コンピュータプログラム、及びコンピュータ機器

Info

Publication number: JP2022513858A
Application number: JP2021534133A
Authority: JP
Inventors: 勇 ▲張▼; ▲樂▼ 李; 志磊 ▲劉▼; 保元 ▲呉▼; ▲艷▼波樊; 志▲鋒▼ 李; 威 ▲劉▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-26
Filing date: 2020-04-02
Publication date: 2022-02-09
Anticipated expiration: 2040-04-02
Also published as: US11854247B2; EP3961486A4; CN110084193A; KR20210095696A; US20210279515A1; KR102602112B1; WO2020216033A1; EP3961486A1; CN110084193B; JP7246811B2

Abstract

顔画像生成用のデータ処理方法、機器、媒体、及びコンピュータ機器を開示している。前記データ処理方法は、第１顔画像（Ｉ_ＭＡ）及び第２顔画像（Ｉ_ＦＡ）を取得するステップと、第１顔画像（Ｉ_ＭＡ）における、顔特徴に対応するＭ個の第１画像ブロックを取得し、第２顔画像（Ｉ_ＦＡ）における、顔特徴に対応するＮ個の第２画像ブロックを取得するステップと、Ｍ個の第１画像ブロック及びＮ個の第２画像ブロックを特徴空間に変換して、Ｍ個の第１特徴ブロック及びＮ個の第２特徴ブロックを生成するステップと、特定の制御ベクトルに応じて、一部の第１特徴ブロック及び一部の第２特徴ブロックを選択するステップと、少なくとも選択した一部の第１特徴ブロック及び一部の第２特徴ブロックに基づいて、第１合成特徴マップを生成するステップと、前記第１合成特徴マップを画像空間に逆変換して、第３顔画像を生成するステップと、を含み、Ｍ及びＮは自然数である。

Description

本願は、２０１９年４月２６日に中国特許庁に提出された、出願番号が第２０１９１０３４５２７６．６号であり、発明の名称が「顔画像生成用のデータ処理方法、機器、及び媒体」である、中国特許出願に基づく優先権を主張し、その全ての内容が、参照することにより本願に組み込まれる。

本願は、画像処理の分野に関し、より具体的に、顔画像生成用のデータ処理方法、機器、媒体、及びコンピュータ機器に関する。

顔画像生成技術は、新興の研究分野であり、子供の顔予想、刑事捜査における犯罪者の画像復元、仮想キャラクターの構築などの面で広い適用の見通しがある。例えば、１枚の顔画像を入力することにより、この顔画像と似るが異なる別の真新しい顔画像を、目標画像として生成することができる。

従来の顔画像生成方式では、汎用処理ネットワークを用いて目標画像を生成する。例えば、１枚の顔画像を訓練済みの符号化ネットワーク及び復号化ネットワークに入力し、次に、目標画像を出力する。しかしながら、このような画像生成方式の問題点は、この汎用処理ネットワークから出力された合成後の顔画像の調和度及び自然さが悪く、この合成後の顔画像が実際の顔画像であるとユーザに信じさせるのが難しいことである。

上記の事情に鑑み、本願の実施例は、実際の顔画像により近い合成顔画像を生成することができる顔画像生成用のデータ処理方法、機器、媒体、及びコンピュータ機器を提供する。

本願の一態様によれば、サーバが実行する、顔画像生成用のデータ処理方法が提供されており、前記方法は、第１顔画像及び第２顔画像を取得するステップと、第１顔画像（Ｉ_ＭＡ）における、顔特徴に対応するＭ個（Ｍは自然数）の第１画像ブロックを取得し、第２顔画像（Ｉ_ＦＡ）における、顔特徴に対応するＮ個（Ｎは自然数）の第２画像ブロックを取得するステップと、Ｍ個の第１画像ブロック及びＮ個の第２画像ブロックを特徴空間に変換して、Ｍ個の第１特徴ブロック及びＮ個の第２特徴ブロックを生成するステップと、特定の制御ベクトルに応じて、一部の第１特徴ブロック及び一部の第２特徴ブロックを選択するステップと、少なくとも選択した一部の第１特徴ブロック及び一部の第２特徴ブロックに基づいて、第１合成特徴マップを生成するステップと、前記第１合成特徴マップを画像空間に逆変換して、第３顔画像を生成するステップと、を含む。

本願の他の態様によれば、顔画像生成用のデータ処理機器が提供されており、前記機器は、入力された第１顔画像における、顔特徴に対応するＭ個の第１画像ブロックを取得し、入力された第２顔画像における、顔特徴に対応するＮ個の第２画像ブロックを取得する分割装置と、Ｍ個の第１画像ブロック及びＮ個の第２画像ブロックを特徴空間に変換して、Ｍ個の第１特徴ブロック及びＮ個の第２特徴ブロックを生成する第１変換装置と、特定の制御ベクトルに応じて、一部の第１特徴ブロック及び一部の第２特徴ブロックを選択する選択装置と、少なくとも選択した一部の第１特徴ブロック及び一部の第２特徴ブロックに基づいて、第１合成特徴マップを生成する第１合成装置と、前記第１合成特徴マップを画像空間に逆変換して、第３顔画像を生成する第１逆変換装置と、を含む。

本願の別の態様によれば、コンピュータプログラムを記憶したコンピュータ読み取り可能な記録媒体が提供されており、前記コンピュータプログラムが、プロセッサにより実行されると、上記実施例における顔画像生成用のデータ処理方法を実行させる。

本願のさらに別の態様によれば、メモリとプロセッサとを備えるコンピュータ機器が提供されており、前記メモリには、コンピュータプログラムが記憶され、前記プロセッサが、前記コンピュータプログラムを実行して、上記実施例における顔画像生成用のデータ処理方法を実現する。

本願の実施例による顔画像生成用のデータ処理方法の過程を図示するフローチャートである。本願の実施例による継承ネットワークに関するデータフローの模式図を示す。本願の実施例による異なる制御ベクトルでの顔画像生成結果を示す。本願の実施例による入力された顔画像にランダム要素が追加された場合の顔画像生成結果を示す。本願の実施例による属性強化ネットワークに関するデータフローの模式図を示す。指定の制御ベクトルで生成された異なる年齢段階の顔画像を示す。指定の制御ベクトルで生成された異なる年齢及び異なる性別の顔画像を示す。本願の実施例による継承ネットワークの訓練過程を図示するフローチャートである。継承ネットワークの訓練過程における２回の顔特徴交換の過程を図示する模式図である。本願の実施例による継承ネットワークの訓練過程におけるデータフローの模式図を示す。本願の実施例による属性強化ネットワークの訓練過程を図示するフローチャートである。本願の実施例による属性強化ネットワークの訓練過程におけるデータフロー図を示す。本願の実施例の適用環境の模式図を示す。本願の実施例による顔画像生成用のデータ処理機器の構成の機能的ブロック図を示す。本願の実施例による顔画像生成用のデータ処理機器のハードウェアエンティティとしての一例を示す。本願の実施例によるコンピュータ読み取り可能な記録媒体の模式図を示す。

以下、図面を参照しながら、本願の各実施形態を説明する。特許請求の範囲及びその均等物により限定された本願の例示的な実施形態に対する理解を助けるために、図面を参照した説明を提供する。この説明には、理解を助けるための各種の具体的な詳細が含まれるが、それらが例示的なものとしか考えられない。したがって、当業者は、本願の範囲及び精神を逸脱することなく、ここで説明する実施形態に対して各種の変更や修正を行うことができると認識できる。なお、明細書をより明瞭かつ簡潔にするために、本技術分野でよく知られている機能及び構造の詳細な説明を省略する。

上記の背景技術に記載のように、従来技術による顔生成方式では、汎用処理ネットワークが使用されるので、出力された顔画像と実際の顔画像との間には大きな差がある。これに加えて、従来技術による顔生成方式では、汎用処理ネットワークにおける符号化ネットワーク及び復号化ネットワークを訓練する際に、出力される合成顔画像に監督情報を提供するために、実際の顔のデータベースを収集して構築する必要がある。例えば、子供の顔予想の適用シナリオでは、父、母、及び子の関係が存在する顔データベースを収集して構築する必要がある。処理ネットワークが父又は母の顔画像に基づいて出力する合成子顔画像の監督情報として実際の子の顔画像を用いることにより、処理ネットワークのパラメータを調整して、訓練済みの処理ネットワークが、入力された顔画像に似てかつ実際の画像に類似した合成顔画像を出力できるようにする。しかしながら、実践では、このようなデータベースを収集して構築するには、大きなコストがかかる。

したがって、本願の実施例では、汎用処理ネットワークに比べて、実際の画像により近い合成顔画像を出力でき、合成顔画像が２つの入力顔画像におけるどの顔特徴を継承するかを正確に制御できる顔画像合成専用の継承ネットワークが提案されている。また、本願の実施例では、継承ネットワークから出力された合成顔画像を基に、大きな範囲で合成顔画像の属性（例えば、年齢や性別など）を調整できる属性強化ネットワークがさらに提案されている。また、本願の実施例では、父、母、及び子の関係が存在しない顔データベースの場合での継承ネットワーク及び属性強化ネットワークの訓練方式が提案されている。本願の実施例による継承ネットワーク及び属性強化ネットワークの訓練過程では、父、母、及び子の関係が存在する顔データベースを構築する必要がなく、任意の既存の顔データベースを直接利用して、処理ネットワークの訓練を行うことができる。

本願をより良く理解するために、以下に言及する名称の具体的な意味を以下のように定義する。

第１顔画像：適用モードで、継承ネットワークに入力された１つの画像であり、Ｉ_ＭＡで表される。

第２顔画像：適用モードで、継承ネットワークに入力された他の画像であり、Ｉ_ＦＡで表される。

第３顔画像：適用モードで、継承ネットワークから出力された画像であり、Ｉ_ｏ１で表される。

第４顔画像：適用モードで、さらに継承ネットワークから出力された画像であり、Ｉ_ｏ２で表される。

第５顔画像：訓練モードで、継承ネットワークに入力された１つの画像であり、Ｉ_Ｍで表される。

第６顔画像：訓練モードで、継承ネットワークに入力された他の画像であり、Ｉ_Ｆで表される。

第７顔画像：訓練モードで、継承ネットワークから出力された１つの画像であり、Ｉ’_Ｍで表され、第５顔画像Ｉ_Ｍを監督画像とする。

第８顔画像：訓練モードで、継承ネットワークから出力された１つの画像であり、Ｉ’_Ｆで表され，第６顔画像Ｉ_Ｆを監督画像とする。

第９顔画像：訓練モードで、属性強化ネットワークから出力された１つの画像であり、

で表され、第７顔画像Ｉ’_Ｍを監督画像とする。

第１０顔画像：訓練モードで、属性強化ネットワークから出力された１つの画像であり、

で表され、第８顔画像Ｉ’_Ｆを監督画像とする。

次に、図面を参照して、本願による各実施例を詳細に説明する。まず、図１を参照して、本願の実施例による顔画像生成用のデータ処理方法を説明する。この方法は、サーバによって実行される。図１に示すように、前記データ処理方法は、以下のステップを含む。
ステップＳ１０１で、第１顔画像（Ｉ_ＭＡ）及び第２顔画像（Ｉ_ＦＡ）を取得する。

その後、ステップＳ１０２で、第１顔画像（Ｉ_ＭＡ）における、顔特徴に対応するＭ個の第１画像ブロックを取得し、第２顔画像（Ｉ_ＦＡ）における、顔特徴に対応するＮ個の第２画像ブロックを取得する。ここで、顔特徴は、器官（例えば、眉、目、鼻、口、顔の輪郭）、組織、又は局所的な特徴（例えば、額、頬、皮膚についての特徴）などであってもよい。Ｍ個の第１画像ブロックは、それぞれ、異なる顔特徴に対応し、同様に、Ｎ個の第２画像ブロックも、それぞれ、異なる顔特徴に対応する。ここで、Ｍ及びＮは自然数である。

例えば、第１顔画像と第２顔画像は、性別の異なる人の顔画像、例えば、１枚の男性顔画像と１枚の女性顔画像であってもよい。又は、第１顔画像と第２顔画像は、同じ性別の人の顔画像であってもよい。

また、例えば、第１顔画像及び第２顔画像は、カメラで撮像した実際の顔画像であってもよい。又は、第１顔画像及び第２顔画像は、既存の顔特徴ライブラリから選択された顔特徴画像に基づいて生成された合成画像であってもよい。具体的には、第１顔画像は、１人の元の顔特徴を基に、そのうちの１つの顔特徴を、顔特徴ライブラリからランダムに選択された１つの顔特徴に取り替えて生成された合成画像であってもよく、第２顔画像も、同様な方式で生成された合成画像であってもよい。又は、第１顔画像は、全部の顔特徴が顔特徴ライブラリからランダムに選択されて組み合わせられることにより生成された合成画像であってもよく、第２顔画像も、同様な方式で生成された合成画像であってもよい。

さらに、例えば、第１顔画像及び第２顔画像は、漫画の顔画像であってもよい。上記から分かるように、本願の実施例では、第１顔画像及び第２顔画像のタイプが特に限定されず、入力とすることができる任意の２枚の顔画像は、同様に本願の実施例に適用でき、かつ本願の範囲に含まれる。

入力された顔画像については、まず、顔キャリブレーションによって各顔特徴の位置を定位し、その後、顔画像を、各顔特徴に対応する画像ブロックに分解してもよい。新たな顔画像の生成に必要な異なる顔特徴の総数を予め設定し、それをＬ（Ｌは自然数）と表す。例えば、可能な一実施形態として、顔特徴を、左目及び左眉、右目及び右眉、鼻、口、並びに顔の輪郭に分けてもよい。このような場合、新たな顔画像の生成に必要な異なる顔特徴の総数は５である。入力された１つの顔画像が完全な正面画像である場合、分解して得られた画像ブロックの数は、上記異なる顔特徴の総数と一致し、言い換えれば、該顔画像から、必要な全ての異なる顔特徴を検出できる。本実施形態では、入力された顔画像を５つの画像ブロックに分解してもよい。この５つの画像ブロックは、それぞれ、左目及び左眉に対応する画像ブロック、右目及び右眉に対応する画像ブロック、鼻に対応する画像ブロック、口に対応する画像ブロック、並びに顔の輪郭に対応する画像ブロックである。もちろん、このような分解方式は例示的なものにすぎず、任意の他の分解方式も実行可能である。例えば、入力された顔画像を、目に対応する画像ブロック、眉に対応する画像ブロック、鼻に対応する画像ブロック、口に対応する画像ブロック、及び顔の輪郭に対応する画像ブロックに分解してもよい。しかしながら、入力された１つの顔画像が一定の角度からの横顔画像であるか、又は入力された１つの顔画像が不完全な正面画像である場合、この顔画像から分解された画像ブロックの数は、必要な異なる顔特徴の総数よりも小さく、言い換えれば、該顔画像から一部の顔特徴を検出できない可能性がある。後続のステップでは、第１顔画像におけるいくつかの顔特徴と、第２顔画像におけるいくつかの顔特徴とを選択することにより、新たな顔画像を合成することができるため、入力された１つの顔画像から、新たな顔画像の生成に必要な全ての顔特徴を取得する必要がなく、入力された２つの顔画像から、新たな顔画像の生成に必要な全ての顔特徴を寄せ集めることができればよい。

要するに、第１画像ブロックの数Ｍ及び第２画像ブロックの数Ｎはともに、新たな顔画像の生成に必要な異なる顔特徴の総数Ｌに等しくてもよい。又は、第１画像ブロックの数Ｍ及び第２画像ブロックの数Ｎのうち、一方は、新たな顔画像の生成に必要な異なる顔特徴の総数Ｌに等しくてもよく、他方は、Ｌ未満であってもよい。又は、第１画像ブロックの数Ｍ及び第２画像ブロックの数Ｎはともに、Ｌ未満であってもよく、さらに、ＭとＮは等しくてもよいし、等しくなくてもよい。

次に、ステップＳ１０３で、Ｍ個の第１画像ブロック及びＮ個の第２画像ブロックを特徴空間に変換して、Ｍ個の第１特徴ブロック及びＮ個の第２特徴ブロックを生成する。

変換ネットワーク、例えば符号化ネットワークによって、画像空間から特徴空間への変換を実現してもよい。異なる顔特徴の画像ブロックに対して、同一の符号化ネットワークを設定してもよい。又は、他の可能な実施形態として、各顔特徴の見掛けの差異のため、顔特徴ごとに特有の特徴を取得する。具体的には、各顔特徴それぞれに対応する画像ブロックに対して、１つの符号化ネットワークを設置してもよい。例えば、１組の符号化ネットワークを設置し、そのうち、符号化ネットワークＥ１は、左目及び左眉に対応する画像ブロックに用いられ、符号化ネットワークＥ２は、右目及び右眉に対応する画像ブロックに用いられ、符号化ネットワークＥ３は、鼻に対応する画像ブロックに用いられ、符号化ネットワークＥ４は、口に対応する画像ブロックに用いられ、符号化ネットワークＥ５は、顔の輪郭に対応する画像ブロックに用いられる。符号化ネットワークＥ１～Ｅ５のパラメータはそれぞれ異なる。Ｍ個の第１画像ブロックを、それぞれ、対応する符号化ネットワークＥ１～Ｅ５によって特徴空間に変換し、同様に、Ｎ個の第２画像ブロックを、それぞれ、対応する符号化ネットワークＥ１～Ｅ５によって特徴空間に変換する。例えば、符号化ネットワークによって、２次元の画像ブロックを、長さ、幅、及び高さを有する３次元の特徴ブロックに変換することができる。

その後、ステップＳ１０４で、特定の制御ベクトルに応じて、一部の第１特徴ブロック及び一部の第２特徴ブロックを選択する。

特定の制御ベクトルは、各顔特徴に対応するＬ個の情報ビットを含む。ここで注意すべきものとして、情報ビットの数は、上記に記載の新たな顔画像の生成に必要な異なる顔特徴の総数Ｌと同じであり、上記のように、Ｌは自然数であり、Ｍ≦ＬかつＮ≦Ｌである。例えば、上記に記載の、顔特徴が左目及び左眉、右目及び右眉、鼻、口、並びに顔の輪郭に分けられる場合、前記制御ベクトルは５つの情報ビットを含み、この５つの情報ビットは、それぞれ、左目及び左眉、右目及び右眉、鼻、口、並びに顔の輪郭に対応する。また、特定の制御ベクトルは、ユーザが手動で設定してもよく、ランダムで自動的に設定してもよい。

具体的には、特定の制御ベクトルに応じて、一部の第１特徴ブロック及び一部の第２特徴ブロックを選択するステップは、前記特定の制御ベクトルにおけるある情報ビットが第１値である場合、Ｍ個の第１特徴ブロックの中から、該情報ビットに対応する顔特徴の特徴ブロックを選択し、前記特定の制御ベクトルにおける該情報ビットが第２値である場合、Ｎ個の第２特徴ブロックの中から、該情報ビットに対応する顔特徴の特徴ブロックを選択するステップをさらに含む。制御ベクトルにおける各情報ビットに応じて順次選択することにより、Ｌ個の特徴ブロックを取得し、これらの特徴ブロックは、一部の第１特徴ブロックと一部の第２特徴ブロックとからなる混合特徴ブロックである。

例を挙げると、制御ベクトルｖが１００１０であるとすれば、第１特徴ブロックのうち、左目及び左眉に対応する特徴ブロックと、口に対応する特徴ブロックとを選択するとともに、第２特徴ブロックのうち、右目及び右眉に対応する特徴ブロックと、鼻に対応する特徴ブロックと、顔の輪郭に対応する特徴ブロックとを選択することを意味する。

次に、ステップＳ１０５で、少なくとも選択した一部の第１特徴ブロック及び一部の第２特徴ブロックに基づいて、第１合成特徴マップを生成する。

例えば、上記の例を引き続き使用すると、制御ベクトルｖが１００１０である場合、第１特徴ブロックのうち、左目及び左眉に対応する特徴ブロック、口に対応する特徴ブロック、並びに、第２特徴ブロックのうち、右目及び右眉に対応する特徴ブロック、鼻に対応する特徴ブロック、顔の輪郭に対応する特徴ブロックに基づいて、第１合成特徴マップを生成してもよい。即ち、特徴空間において、異なるソースからの顔特徴の特徴ブロックを新たに組み合わせて、各顔特徴を有する新たな合成特徴マップとする。

また、出力される第３顔画像の属性（例えば、年齢や性別）を制御することが可能である。例えば、出力したい第３顔画像の性別を指定することができる。また、入力された第１顔画像と第２顔画像の属性情報には大きな差異が存在する場合がある。具体的には、第１顔画像の年齢と第２顔画像の年齢は、大きく異なる場合がある。例えば、第１顔画像の年齢は２０歳であるのに対し、第２顔画像の年齢は６０歳である。出力される第３顔画像の属性を制御するとともに、最終的に生成する第３顔画像の不調和を防止するために、他の可能な実施形態として、選択した特徴ブロックを基に、属性特徴をさらに重ね合わせる。例えば、出力したい第３顔画像が女性の顔画像である場合、ひげのような男性特徴を除去するために、性別が女性である属性特徴をさらに重ね合わせてもよい。又は、入力顔画像の年齢差をバランスさせるために、平均年齢（上記の例では、４０歳であってもよい）の属性特徴をさらに重ね合わせてもよい。

具体的には、少なくとも選択した一部の第１特徴ブロック及び一部の第２特徴ブロックに基づいて、第１合成特徴マップを生成するステップは、以下のステップをさらに含んでもよい。まず、指定の属性情報を、前記特徴空間にある属性特徴ブロックに拡張する。上記に記載の、２次元の画像ブロックを、長さ、幅、及び高さを有する３次元の特徴ブロックに変換した場合、属性情報を、特徴ブロックとは、長さ及び幅が同じであるが、高さが異なる特徴ブロックに拡張してもよい。その後、選択した一部の第１特徴ブロック及び一部の第２特徴ブロックと、属性特徴ブロックとに基づいて、第１合成特徴マップを生成する。

最後に、ステップＳ１０６で、前記第１合成特徴マップを画像空間に逆変換して、第３顔画像（Ｉ_ｏ１）を生成する。逆変換ネットワーク、例えば、復号化ネットワークＤによって、特徴空間から画像空間への逆変換を実現してもよい。

上記に記載の、Ｍ個の第１画像ブロック及びＮ個の第２画像ブロックに基づいて第３顔画像を生成することは、継承ネットワークによって実現されると考えられる。前記継承ネットワークは、上記に記載の符号化ネットワークＥ１～Ｅ５、及び復号化ネットワークＤを含んでもよく、各種のニューラルネットワークによって実現してもよい。該継承ネットワークを関数ｆ_ｉｎｈと表すと、該関数は、入力が第１顔画像Ｉ_ＭＡ及び第２顔画像Ｉ_ＦＡ、並びに制御ベクトルｖを含み、出力が第３顔画像Ｉ_ｏ１であり、具体的な式が以下のとおりである。

又は、属性特徴を追加する場合、該関数の入力は、出力したい第３顔画像の年齢（ｙ_ａ）及び性別（ｙ_ｇ）をさらに含み、具体的な式は以下のとおりである。

図２は、本願の実施例による継承ネットワークに関するデータフロー図を示す。図２に示すように、入力ソースとしての第１顔画像Ｉ_ＭＡ及び第２顔画像Ｉ_ＦＡが、顔特徴に対応する画像ブロックに分解された後、１組の符号化ネットワークＥ１～Ｅ５によって特徴空間の特徴ブロックに変換され、特徴ブロックが、制御ベクトルｖ応じて選択されて交換され、その後、属性特徴ブロックと結合され、最後に復号化ネットワークＤによって画像空間に変換され、第３顔画像Ｉ_ｏ１が生成される。

第３顔画像は、第１顔画像における一部の顔特徴と、第２顔画像における一部の顔特徴とを継承した合成顔画像である。第１顔画像と第２顔画像が性別の異なる２人の顔画像である場合、生成された第３顔画像は、この２人が両親であると仮定する場合の子供の顔画像であってもよい。第１顔画像と第２顔画像が同じ性別の２人の顔画像である場合、生成された第３顔画像は、この２人の顔特徴の利点を組み合わせて合成された仮想顔画像であってもよい。第１顔画像と第２顔画像が、複数の人の顔特徴を寄せ集めて生成された合成画像である場合、生成された第３顔画像によって、特定の人の顔画像を推断できる。これは、刑事捜査における目撃証人による識別に特に重要である。例えば、顔特徴ライブラリから、容疑者に類似した各顔特徴が目撃証人により選択された後、各顔特徴を組み合わせて、実際の写真に似ない低品質の合成顔画像を生成する。容疑者の特定を容易にするために、この合成顔画像を第１顔画像とするとともに、第２顔画像をランダムに選択し、特定の制御ベクトルを１１１１１に設定する（即ち、第１顔画像における顔特徴画像を全て選択する）ことにより、実際の画像に非常に類似した第３顔画像を出力することができる。

本願の実施例による顔画像生成用のデータ処理方法では、図１を参照して説明した各処理ステップから分かるように、顔特徴画像の分割、及び特徴空間での再構築によって、第１顔画像における一部の顔特徴と、第２顔画像における一部の顔特徴とを継承した第３顔画像を生成することができる。従来技術における汎用処理ネットワークを使用した方式に比べて、出力された第３顔画像と、入力ソースとしての顔画像との類似性を確保しつつ、出力された第３顔画像を実際の画像に近くすることができる。言い換えれば、ユーザは、該第３顔画像を見るときに、該画像が実際の画像であるか合成画像であるかを見分けるのが難しい。

さらに、制御ベクトルを設定することにより、第３顔画像が２つの入力顔画像におけるどの顔特徴を継承するかを精確に制御することができる。図３は、異なる制御ベクトルでの顔画像の生成結果を示す。図３から分かるように、異なる制御ベクトルを設定することにより、生成された第３顔画像における五官と、入力ソースとしての２つの顔画像との継承関係を精確に制御することができる。

図４は、入力された顔画像にランダム要素を追加した顔画像の生成結果、即ち、上記に記載のように、入力された顔画像が、１人の元の顔特徴を基に、そのうちの１つの顔特徴を、顔特徴ライブラリからランダムに選択された１つの顔特徴に取り替えて生成された合成画像である場合の顔画像の生成結果を示す。図４において、上から下の各行は、目及び眉、鼻、口、並びに顔の輪郭にランダム要素を追加した生成結果をそれぞれ示す。

また、特徴空間での属性特徴ブロックの重ね合わせによって、第３顔画像の属性を指定し、さらに第３顔画像の調和度及び自然さを向上させることができる。

上記に記載の継承ネットワークは、第１顔画像及び第２顔画像とは顔特徴が類似した第３顔画像を出力することを主な目的とするため、それに含まれる属性特徴ブロックの重ね合わせが、類似度を確保する前提での微調整である。言い換えれば、継承ネットワークから出力された第３顔画像は、年齢のような属性の面で、入力ソースとしての第１顔画像及び第２顔画像に近似する。

より大きな範囲で出力顔画像の属性を調整するために、他の可能な実施形態として、図１に戻って参照すると、ステップＳ１０５の後に、以下のステップをさらに含んでもよい。

ステップＳ１０７で、前記第３顔画像を特徴空間に変換して、第３特徴マップを生成する。例えば、符号化ネットワークＥ０によって、画像空間から特徴空間への変換を実現してもよい。もちろん、ここでの符号化ネットワークＥ０のパラメータは、上記に記載の符号化ネットワークＥ１～Ｅ５のパラメータとは同じではない。

その後、ステップＳ１０８で、特定の属性情報を、前記特徴空間における属性特徴マップに拡張する。例えば、ステップＳ１０７において、２次元の画像を、長さ、幅、及び高さを有する３次元の特徴マップに変換した場合、属性情報を、３次元の特徴マップとは、長さ及び幅が同じであるが、高さが異なる特徴マップに拡張してもよい。

次に、ステップＳ１０９で、前記属性特徴マップ及び前記第３特徴マップに基づいて、第２合成特徴マップを生成する。

最後に、ステップＳ１１０で、第２合成特徴マップを画像空間に逆変換して、第４顔画像を生成する。例えば、復号化ネットワークＤ０によって、特徴空間から画像空間への逆変換を実現してもよい。ここで、復号化ネットワークＤ０のパラメータも、上記のステップＳ１０５に言及された復号化ネットワークＤのパラメータとは同じではない。

ステップＳ１０７～Ｓ１１０は、任意選択的であるため、図１において破線枠で示されている。

上記に記載の、第３顔画像に基づいて前記第４顔画像を生成することは、属性強化ネットワークによって実現されると考えられる。前記属性強化ネットワークは、上記に記載の符号化ネットワークＥ０及び復号化ネットワークＤ０を含んでもよく、各種のニューラルネットワークによって実現してもよい。該属性強化ネットワークを関数ｆ_ａｔｔと表すと、該関数は、入力が第３顔画像Ｉ_ｏ１、並びに出力したい第４顔画像の年齢（ｙ_ａ）及び性別（ｙ_ｇ）を含み、出力が第４顔画像Ｉ_ｏ２であり、具体的な式が以下のとおりである。

図５は、本願の実施例による属性強化ネットワークに関するデータフローの図を示す。図５に示すように、第３顔画像Ｉ_ｏ１が、符号化ネットワークＥ０によって、特徴空間における第３特徴マップＺ_１に変換され、その後、Ｚ_１が、特徴空間において、属性情報ｙ_ａ及びｙ_ｇと結合され、復号化ネットワークＤ０によって画像空間に逆変換され、第４顔画像Ｉ_ｏ２が得られる。

第３顔画像に比べて、第４顔画像は、属性が大きく変わることが可能である。例えば、入力された、年齢が２０歳である第３顔画像に基づいて、年齢が５歳である第４顔画像を出力することができる。

図６は、指定の制御ベクトルで生成された異なる年齢段階の顔画像を示す。図６から分かるように、継承ネットワーク及び属性強化ネットワークによって、異なる年齢段階の顔画像を生成でき、かつ各年齢段階の顔には明らかな差異がある。

図７は、指定の制御ベクトルで生成された異なる年齢及び異なる性別の顔画像を示す。図７から分かるように、継承ネットワーク及び属性強化ネットワークによって、同じ制御ベクトルでも、性別や年齢の相違による、生成された顔画像の五官の差異、例えば、豊頬、眉、ほうれい線、唇の色などを体現することができる。

上記では、図１～図７を参照して、本願の実施例による顔画像生成用のデータ処理方法の具体的な過程を詳細に説明している。前記データ処理方法は、継承ネットワーク、又は、継承ネットワーク及び属性強化ネットワークによって実現される。上記で説明したデータ処理方法は、継承ネットワーク及び属性強化ネットワークの適用過程において実行される処理である。しかしながら、上記に記載のように、継承ネットワーク及び属性強化ネットワークは、符号化ネットワークと復号化ネットワークとを含んでもよく、符号化ネットワーク及び復号化ネットワークの両方に複数の決定対象パラメータが含まれる。訓練過程によってこれらのパラメータを決定することにより、継承ネットワーク及び属性強化ネットワークの構築を完成する。このように、継承ネットワーク及び属性強化ネットワークは、顔画像生成の機能を実現することが可能になる。言い換えれば、継承ネットワーク及び属性強化ネットワークを適用する前に、まず、継承ネットワーク及び属性強化ネットワークを訓練する必要がある。次に、まず図８を参照して継承ネットワークの訓練過程を説明する。前記継承ネットワークは、図８に示す以下の訓練ステップによって得ることができる。

上記の適用過程における第１～第４顔画像と区別するために、以下では、訓練過程に係る顔画像を第５～第１０顔画像と限定する。

まず、ステップＳ８０１で、第５顔画像（Ｉ_Ｍ）における、各顔特徴に対応するＬ個の第５画像ブロックを取得し、第６顔画像（Ｉ_Ｆ）における、各顔特徴に対応するＬ個の第６画像ブロックを取得する。

ここで、特に指摘すべきものとして、上記の適用過程では、入力ソースとしての２つの顔画像に基づいて、１つの新たな顔画像を生成するだけでよいので、入力された２つの顔画像から取得された、顔特徴に対応する画像ブロックの数は、Ｌ以下であってもよい。ここで、Ｌは、新たな顔画像の生成に必要な異なる顔特徴の総数である。入力された２つの顔画像から、新たな顔画像の生成に必要な全ての顔特徴を寄せ集めることができればよい。しかしながら、上記の適用過程と異なり、訓練過程では、入力ソースとしての２つの顔画像に基づいて、２つの新たな顔画像を生成する必要があるので、入力ソースとしての第５顔画像及び第６顔画像から取得された画像ブロックの数は、ともにＬ個である。ここで、上記に記載のように、Ｌは、新たな顔画像の生成に必要な異なる顔特徴の総数である。

その後、ステップＳ８０２で、第１制御ベクトルｖ_１に応じて、一部の第５画像ブロック及び一部の第６画像ブロックを選択して、第１合成画像

を生成し、第２制御ベクトルｖ_２に応じて、他の一部の第５画像ブロック及び他の一部の第６画像ブロックを選択して、第２合成画像

を生成する。

顔特徴交換に対応する関数がｆ_ｓｙｎであると仮定すると、顔特徴を交換する合成過程は、下記の式で表すことができる。

後続の訓練效果を確保するために、色補正方法によって、顔特徴が交換された合成画像をさらに融合して、合成画像に色むらが出ないようにする。ここで、指摘すべきものとして、上記で説明した適用過程にも、第１顔画像及び第２顔画像が、既存の顔特徴ライブラリから選択された顔特徴画像に基づいて生成された合成画像であってもよいことが言及されている。しかしながら、適用過程において、継承ネットワークの訓練が終了したため、合成画像に対して色補正処理を実行しなくてもよい。

次に、ステップＳ８０３で、第１合成画像

における、各顔特徴に対応するＬ個の第７画像ブロックを取得し、第２合成画像

における、各顔特徴に対応するＬ個の第８画像ブロックを取得する。

ステップＳ８０４で、Ｌ個の第７画像ブロック及びＬ個の第８画像ブロックを継承ネットワークに入力する。

その後、ステップＳ８０５で、前記継承ネットワークによって、第１制御ベクトルに応じて選択された一部の第７画像ブロック及び一部の第８画像ブロックに基づいて生成された第７顔画像（Ｉ’_Ｍ）を出力し、第２制御ベクトルに応じて選択された他の一部の第７画像ブロック及び他の一部の第８画像ブロックに基づいて生成された第８顔画像（Ｉ’_Ｆ）を出力する。ここで、第５顔画像が、第７顔画像に監督情報を提供するための監督画像であり、第６顔画像が、第８顔画像に監督情報を提供するための監督画像である。また、第５～第８顔画像を１組の継承訓練データとする。

継承ネットワークに対応する関数がｆ_ｉｎｈであると仮定すると、継承ネットワークによる生成過程は、下記の式で表すことができる。

ここで、

は、それぞれ、第５顔画像の属性と性別を表し、

は、それぞれ、第６顔画像の属性と性別を表す。訓練過程では、後続の損失関数の計算を容易にするために、出力したい顔画像の属性を、入力ソースとしての顔画像の属性と同じに設定する。

上記のステップから分かるように、継承ネットワークの適用過程に比べて、継承ネットワークの訓練過程では、入力ソースとしての顔画像を継承ネットワークに入力する前に、予め顔特徴交換処理を１回行っておくという点が異なる。これは、継承ネットワークから出力される顔画像に監督情報を提供することを目的とする。

具体的には、入力ソースとしての第５顔画像及び第６顔画像を継承ネットワークに提供する前に、１つの制御ベクトルで顔特徴を１回交換してから、顔特徴が交換された合成画像を継承ネットワークに提供すれば、継承ネットワークのパラメータが正確に設定されている場合、同じ制御ベクトルで顔特徴をもう１回交換することにより、元の第５顔画像又は第６顔画像を得ることができるはずである。

理解しやすさから、図９は、継承ネットワークの訓練過程における２回の顔特徴交換の模式的な過程を示す。図９において、入力ソースとしての第５顔画像（Ｉ_Ｍ）における、各顔特徴の画像ブロックを文字Ａで表し、入力ソースとしての第６顔画像（Ｉ_Ｆ）における、各顔特徴の画像ブロックを文字Ｂで表す。第５顔画像（Ｉ_Ｍ）については、第１制御ベクトルｖ_１＝０１０１０で顔特徴交換を行い、その後、同一の第１制御ベクトルｖ_１＝０１０１０で顔特徴交換を再度実行すれば、元の第５顔画像（Ｉ_Ｍ）と同じ画像が得られる。同様に、第６顔画像（Ｉ_Ｆ）については、第２制御ベクトルｖ_２＝１０１０１で顔特徴交換を行い、その後、同一の第２制御ベクトルｖ_２＝１０１０１で顔特徴交換を再度実行すれば、元の第６顔画像（Ｉ_Ｆ）と同じ画像が得られる。指摘すべきものとして、第１制御ベクトルｖ_１と第２制御ベクトルｖ_２は互いに反対である必要があることに注意されたい。

したがって、第５顔画像（Ｉ_Ｍ）を、継承ネットワークから出力される第７顔画像（Ｉ’_Ｍ）の監督画像とし、第６顔画像（Ｉ_Ｆ）を、継承ネットワークから出力される第８顔画像（Ｉ’_Ｆ）の監督画像とすることにより、父、母、及び子の関係が存在する顔データベースを構築する必要がなく、任意の既存の顔データベースを直接利用して、継承ネットワークの訓練過程を完成することができる。

本願の実施例による継承ネットワークの訓練過程において、敵対的生成ネットワーク（ＧＡＮ）の方式で学習する。敵対的生成ネットワークは、生成ネットワークと識別ネットワークとを含み、生成ネットワークと識別ネットワークとの競合という新しい方式でデータ分布を学習するものである。生成ネットワークは、実際のデータ分布をできるだけ学習することを目的とするが、識別ネットワークは、入力データが、実際のデータからのものであるか、生成ネットワークからのものであるかをできるだけ正確に識別することを目的とする。訓練過程では、生成ネットワーク及び識別ネットワークを絶えずに最適化して、それぞれの生成能力及び識別能力を高める必要がある。

継承ネットワークは、ここでの生成ネットワークと見なすことができる。また、継承ネットワークから出力された画像に対して、識別ネットワーク、例えば、第１識別ネットワークを設置する必要があり、該識別ネットワークは、それに入力された画像の真偽を判断するためのものである。いわゆる真とは、出力された顔画像が実際の画像であることをいい、いわゆる偽とは、出力された顔画像が、継承ネットワークから出力された画像であることをいう。

したがって、次に、ステップＳ８０６で、少なくとも１組の継承訓練データを第１識別ネットワークに入力し、前記第１識別ネットワークは、ある画像が入力されると、該画像が実際の画像である確率値を出力するように設定される。

最後に、ステップＳ８０７で、第１損失関数に基づいて、前記第１損失関数が収束するまで、前記継承ネットワークと前記第１識別ネットワークを交互に訓練する。

図１０は、本願の実施例による継承ネットワークの訓練過程におけるデータフロー図を示す。訓練過程では、上記に記載のように、入力ソースとしての２つの顔画像をそれぞれ継承ネットワークの２つの出力顔画像の監督画像とするので、対照を容易にするために、図１０に継承ネットワークの２つの出力を同時に示している。実際には、上記で図２を参照して説明したように、２つの顔画像を入力として継承ネットワークに提供するたびに、１つだけの顔画像が出力される。

図１０に示すように、第５顔画像Ｉ_Ｍに対して同一の制御ベクトルｖ_１で交換を２回行うことにより、第７顔画像Ｉ’_Ｍを取得し、Ｉ_ＭをＩ’_Ｍの監督画像とする。同様に、第６顔画像Ｉ_Ｆに対して、同一の制御ベクトルｖ_２で交換を２回行うことにより、第８顔画像Ｉ’_Ｆを取得し、Ｉ_ＦをＩ’_Ｆの監督画像とする。

可能な一実施形態として、前記第１損失関数は、少なくとも１組の継承訓練データに対して前記第１識別ネットワークが出力した確率値と、少なくとも１組の継承訓練データにおける、顔画像と、対応する監督画像との間の画素の差異とに基づいて決定される。

具体的には、前記第１損失関数は、敵対的損失と画素損失との２つの部分の和を含む。敵対的損失

は、継承ネットワークによって生成された顔画像の分布を実際の画像により近くし、以下の式によって計算することができる。

ここで、Ｄ_Ｉは、第１識別ネットワークを表し、Ｄ_Ｉ（Ｉ’_ｓ）は、継承ネットワークから出力された画像を第１識別ネットワークに入力した場合の第１識別ネットワークの出力（確率値）であり、Ｄ_Ｉ（Ｉ_ｓ）は、実際の画像を第１識別ネットワークに入力した場合の第１識別ネットワークの出力（確率値）である。

は、顔画像Ｉ’_ｓが入力された場合の第１識別ネットワークの出力の平均値を表し、ここで、Ｉ’_ｓは、継承ネットワークから出力された顔画像である。

は、顔画像Ｉ_ｓが入力された場合の第１識別ネットワークの出力の平均値を表し、ここで、Ｉ_ｓは、実際の顔データベースからの顔画像である。

また、他の可能な実施形態として、第１損失関数をより安定させるために、ＷＧＡＮ（ＷａｓｓｅｒｓｔｅｉｎＧＡＮ）のフレームワークに基づいて、第１損失関数にノイズ成分を追加してもよく、具体的な式は以下のとおりである。

ここで、λ_ｇｐは、ＷＧＡＮのハイパーパラメータであり、

は、ノイズ

を第１識別ネットワークに入力した場合の第１識別ネットワークの出力であり、

は、

の勾配を求めた後の２ノルムである。
画素損失

は、継承ネットワークによって生成された顔画像と、入力ソースとしての顔画像との類似性を確保するためのものであり、継承ネットワークによって生成された顔画像と実際の顔画像との間の画素レベルの損失、即ち２枚の画像の画素値の差異の絶対値の和で表し、具体的な式は以下のとおりである。

したがって、第１損失関数は、以下のように表すことができる。

ここで、λ_１１とλ_１２は、重み係数である。

第１損失関数に基づいて、前記継承ネットワークと前記第１識別ネットワークを交互に訓練する。具体的には、まず、継承ネットワークを一定にして、第１識別ネットワークを訓練してもよい。このとき、第１損失関数の値はできるだけ小さいことが望ましい。その後、第１識別ネットワークを一定にして、継承ネットワークを訓練してもよい。このとき、第１損失関数の値はできるだけ大きいことが望ましい。複数ラウンドの訓練後、異なる継承訓練データに対する第１損失関数の波動が大きくなく、即ち第１損失関数が収束すると、継承ネットワークの訓練は完了する。

他の可能な実施形態として、上記に記載の敵対的損失及び画素損失に加えて、第１損失関数は、さらに、少なくとも１組の継承訓練データにおける、顔画像の属性と、対応する監督画像の属性との間の差異と、少なくとも１組の継承訓練データにおける、顔画像の特徴と、対応する監督画像の特徴との間の差異とのうちの少なくとも１つに基づいて決定されてもよい。

具体的には、第１損失関数は、属性損失をさらに含んでもよい。属性損失は、継承ネットワークから出力された顔画像の属性と、入力ソースとしての実際の顔画像の属性との間の差異によって決定される。年齢及び性別の損失関数は、それぞれ、以下の式によって計算することができる。

ここで、Ｄ_ａとＤ_ｇは、それぞれ、１つの画像の年齢と性別を識別するネットワークである。例えば、ＲｅｓＮｅｔを用いて、年齢と性別の回帰モデルを事前訓練してもよい。これにより、該モデルに画像Ｉ’_ｓを入力すると、該画像の年齢と性別の情報が出力される。Ｄ_ａ（Ｉ’_ｓ）は、Ｄ_ａによって判断された顔画像（Ｉ’_ｓ）の年齢を表し、Ｄ_ｇ（Ｉ’_ｓ）は、Ｄ_ｇによって判断された顔画像（Ｉ’_ｓ）の性別を表す。

は、入力ソースとしての実際の顔画像の年齢を表し、

は、入力ソースとしての実際の顔画像の性別を表す。

また、第１損失関数は、知覚損失をさらに含んでもよい。例えば、１９層のＶＧＧ特徴を用いて、知覚損失

、即ち、継承ネットワークから出力された顔画像のＶＧＧ特徴と、入力ソースとしての実際の顔画像のＶＧＧ特徴との距離を計算することができ、具体的な式は以下のとおりである。

ここで、

は、それぞれ、顔画像Ｉ_ｓとＩ’_ｓの、ＶＧＧ１９のｉ番目のプーリング層前のｊ番目の畳み込み層における特徴を指す。

例えば、他の可能な実施形態として、第１損失関数は、以下のように表してもよい。

ここで、λ_１１、λ_１２、λ_１３、λ_１４、及びλ_１５は、異なる重み係数であり、各損失関数の重要性に応じて割り当ててもよい。

次に、図１１を参照して、属性強化ネットワークの訓練過程を説明する。前記属性強化ネットワークは、図１１に示す以下の訓練ステップによって得られてもよい。

本願の実施例による属性強化ネットワークの訓練過程においても、敵対的生成ネットワーク（ＧＡＮ）の方式で学習する。

属性強化ネットワークは、ここでの生成ネットワークと見なすことができる。また、属性強化ネットワークから出力された画像に対して、識別ネットワーク、例えば、第１識別ネットワークを設置する必要あり、該識別ネットワークは、それに入力された画像の真偽を判断するためのものである。いわゆる真とは、出力された顔画像が実際の画像であることをいい、いわゆる偽とは、出力された顔画像が、属性強化ネットワークから出力された画像であることをいう。

上記に記載のように、第３顔画像を属性強化ネットワークに入力することにより、前記第４顔画像を生成し、前記属性強化ネットワークは、図１１に示す以下の訓練ステップによって得られる。

まず、ステップＳ１１０１で、第７顔画像（Ｉ’_Ｍ）及び第８顔画像（Ｉ’_Ｆ）を属性強化ネットワークに入力する。

その後、ステップＳ１１０２で、属性強化ネットワークによって、第７顔画像に対応する第９顔画像

と、第８顔画像に対応する第１０顔画像

とを出力し、第７～第１０顔画像を１組の属性訓練データとし、ここで、第７顔画像は、第９顔画像に監督情報を提供するための監督画像であり、第８顔画像は、第１０顔画像に監督情報を提供するための監督画像である。

属性強化ネットワークに対応する関数がｆ_ａｔｔであると仮定すると、属性強化ネットワークの生成過程は、下記の式で表すことができる。

ここで、

は、それぞれ、第５顔画像の属性と性別を表し、

次に、ステップＳ１１０３で、少なくとも１組の属性訓練データを第２識別ネットワークに入力し、前記第２識別ネットワークは、ある画像が入力されると、該画像が実際の画像である確率値を出力するように設定される。

最後に、ステップＳ１１０４で、第２損失関数に基づいて、前記第２損失関数が収束するまで、前記属性強化ネットワークと前記第２識別ネットワークを交互に訓練する。

図１２は、本願の実施例による属性強化ネットワークの訓練過程におけるデータフロー図を示す。図１０と同様に、図１２にも属性強化ネットワークの２つの出力が同時に示されている。

図１２に示すように、第７顔画像Ｉ’_Ｍ及び第８顔画像Ｉ’_Ｆを属性強化ネットワークに入力して、特徴空間に変換することにより、特徴マップＺ_Ｍ及びＺ_Ｆをそれぞれ取得し、特徴空間において特徴マップＺ_Ｍ及びＺ_Ｆを属性特徴と結合して、画像空間に逆変換することにより、第９顔画像

及び第１０顔画像

を取得し、第７顔画像Ｉ’_Ｍと第８顔画像Ｉ’_Ｆをそれぞれ第９顔画像

と第１０顔画像

の監督画像とする。

可能な一実施形態として、前記第２損失関数は、少なくとも１組の属性訓練データに対して前記第２識別ネットワークが出力した確率値と、少なくとも１組の属性訓練データにおける、顔画像と、対応する監督画像との間の画素の差異とに基づいて決定される。

具体的には、前記第２損失関数は、敵対的損失と画素損失との２つの部分の和を含む。敵対的損失

は、属性強化ネットワークによって生成される顔画像の分布を実際の画像により近くし、以下の式によって計算することができる。

ここで、

は、第２識別ネットワークを表し、

は、属性強化ネットワークから出力された画像を第２識別ネットワークに入力した場合の第２識別ネットワークの出力（確率値）であり、

は、実際の画像を第２識別ネットワークに入力した場合の第２識別ネットワークの出力（確率値）である。

は、顔画像

が入力された場合の第２識別ネットワークの出力の対数の平均値を表し、ここで、

は、属性強化ネットワークから出力された顔画像である。

は、顔画像Ｉ_ｓが入力された場合の第２識別ネットワークの出力の対数の均値を表し、ここで、Ｉ_ｓは、実際の顔データベースからの顔画像である。

また、他の可能な実施形態として、第２損失関数をより安定させるために、ＷＧＡＮ（ＷａｓｓｅｒｓｔｅｉｎＧＡＮ）のフレームワークに基づいて、第２損失関数にノイズ成分を追加してもよく、具体的な式は以下のとおりである。

は、ノイズ

を第２識別ネットワークに入力した場合の第２識別ネットワークの出力であり、

は

の勾配を求めた後の２ノルムである。

画素損失

は、属性強化ネットワークによって生成された顔画像と、継承ネットワークから出力された顔画像との類似性を確保するためのものであり、属性強化ネットワークによって生成された顔画像と、継承ネットワークから出力された画像との間の画素レベルの損失、即ち２枚の画像の画素値の差異の絶対値の和で表し、具体的な式は以下のとおりである。

したがって、第２損失関数は、以下のように表すことができる。

ここで、λ_２１とλ_２２は、重み係数である。

他の可能な実施形態として、上記に記載の敵対的損失及び画素損失に加えて、第２損失関数は、さらに、少なくとも１組の属性訓練データにおける、顔画像の属性と、対応する監督画像の属性との間の差異と、少なくとも１組の属性訓練データにおける、顔画像の特徴と、対応する監督画像の特徴との間の差異とのうちの少なくとも１つに基づいて決定されてもよい。

具体的には、第２損失関数は、属性損失をさらに含んでもよい。属性損失は、属性強化ネットワークから出力された顔画像の属性と、継承ネットワークから出力された顔画像の属性との間の差異によって決定される。年齢と性別の損失関数は、それぞれ、以下の式によって計算することができる。

ここで、Ｄ_ａとＤ_ｇは、それぞれ、１つの画像の年齢と性別を識別するネットワークである。例えば、ＲｅｓＮｅｔを用いて、年齢と性別の回帰モデルを事前訓練してもよい。これにより、該モデルに画像Ｉ’_ｓを入力すると、該画像の年齢と性別の情報が出力される。

は、Ｄ_ａによって判断された顔画像

の年齢を表し、

は、Ｄ_ｇによって判断された顔画像

の性別を表す。

は、継承ネットワークの出力としての顔画像の年齢を表し、

は、継承ネットワークの出力としての顔画像の性別を表す。継承ネットワークから出力された顔画像の年齢及び性別が、入力ソースとしての実際の顔画像の年齢及び性別と同じであるため、ここでの

として、実際の顔画像の年齢と性別をそのまま使用してもよい。

、即ち、属性強化ネットワークから出力された顔画像のＶＧＧ特徴と、継承ネットワークから出力された顔画像のＶＧＧ特徴との距離を計算することができ、具体的な式は以下のとおりである。

ここで、

は、顔画像

の、ＶＧＧ１９のｉ番目のプーリング層前のｊ番目の畳み込み層における特徴を指す。

例えば、他の可能な実施形態として、第２損失関数は、以下のように表してもよい。

ここで、λ_２１、λ_２２、λ_２３、λ_２４、及びλ_２５は、異なる重み係数であり、各損失関数の重要性に応じて割り当ててもよい。

第２損失関数に基づいて、前記属性強化ネットワークと前記第２識別ネットワークを交互に訓練する。具体的には、まず、属性強化ネットワークを一定にして、第２識別ネットワークを訓練してもよい。このとき、第２損失関数の値はできるだけ小さいことが望ましい。その後、第２識別ネットワークを一定にして、属性強化ネットワークを訓練してもよい。このとき、第２損失関数の値はできるだけ大きいことが望ましい。複数ラウンドの訓練後、異なる継承訓練データに対する第２損失関数の波動が大きくなく、即ち第２損失関数が収束すると、属性強化ネットワークの訓練は完了する。

ここで、指摘すべきものとして、属性強化ネットワークの適用過程では、元の入力顔画像の属性（例えば、年齢）を大幅に変えることができるが、属性強化ネットワークの訓練過程では、監督情報を提供できるために、最初に入力された顔画像と同じ属性を選択する。

上記では、継承ネットワーク及び属性強化ネットワークに対して個別に行われる訓練過程を説明している。他の可能な実施形態として、継承ネットワーク及び属性強化ネットワークの個別の訓練に加えて、全体最適解を得るために、この２つのネットワークを共同訓練してもよい。

具体的には、前記継承ネットワーク及び前記属性強化ネットワークは、前記第１損失関数及び前記第２損失関数に基づいて、総損失関数を決定するステップと、前記総損失関数に基づいて、前記総損失関数が収束するまで、前記継承ネットワーク及び前記属性強化ネットワークと、前記第１識別ネットワーク及び前記第２識別ネットワークとを交互に訓練するステップとの共同訓練ステップによってさらに最適化される。

具体的には、第１損失関数と第２損失関数との加重和を総損失関数Ｌとしてもよく、具体的な式は以下のとおりである。

ここで、λ_０１とλ_０２は、異なる重み係数であり、各損失関数の重要性に応じて割り当ててもよい。

共同訓練過程では、例えば、まず、継承ネットワーク及び属性強化ネットワークを一定にして、第１識別ネットワーク及び第２識別ネットワークを訓練してもよい。このとき、総損失関数の値ができるだけ小さいように、第１識別ネットワーク及び第２識別ネットワークのパラメータを統一して調整する。その後、第１識別ネットワーク及び第２識別ネットワークを一定にして、継承ネットワーク及び属性強化ネットワークを訓練してもよい。このとき、総損失関数の値ができるだけ大きいように、継承ネットワーク及び属性強化ネットワークのパラメータを統一して調整する。複数ラウンドの訓練後、総損失関数が収束すると、２つのネットワークの共同訓練は完了する。

上記では、図１～図１２を参照して、本願の実施例による顔画像生成用のデータ処理方法を詳細に説明している。次に、本願の実施例による顔画像生成用のデータ処理機器を説明する。

まず、本願の実施例の適用環境を簡単に説明する。図１３に示すように、サーバ１０は、ネットワーク３０を介して、複数の端末機器２０に接続される。前記複数の端末機器２０は、入力ソースとしての第１顔画像及び第２顔画像を提供する機器である。前記端末は、スマート端末、例えば、スマートフォン、パーソナル・デジタル・アシスタント（ＰＤＡ）、デスクトップコンピュータ、ノートコンピュータ、タブレットコンピュータなどであってもよく、他のタイプの端末であってもよい。前記サーバ１０は、既存の顔データベースに基づいて、上記に記載の継承ネットワーク及び属性強化ネットワークを訓練するための機器である。さらに、前記サーバは、訓練済みの継承ネットワーク及び属性強化ネットワークを顔画像生成に用いる機器でもある。具体的には、前記サーバ１０は、端末機器２０に接続され、端末機器２０から第１顔画像及び第２顔画像を受信し、サーバ１０での訓練済みの継承ネットワーク及び属性強化ネットワークに基づいて、第３顔画像又は第４顔画像を生成し、生成した顔画像を端末機器２０に伝送する。前記サーバ１０は、下記に記載のデータ処理機器であってもよい。前記ネットワーク３０は、任意タイプの有線又は無線のネットワーク、例えばインターネットであってもよい。認識すべきものとして、図１３に示す端末機器２０の数は、例示的なものであり、限定的なものではない。もちろん、本願の実施例による顔画像生成用のデータ処理機器は、ネットワークに接続されていないスタンドアロンデバイスであってもよい。

図１４は、本願の実施例による顔画像生成用のデータ処理機器を図示している。図１４に示すように、データ処理機器１４００は、分割装置１４０１と、第１変換装置１４０２と、選択装置１４０３と、第１合成装置１４０４と、第１逆変換装置１４０５と、を含む。

分割装置１４０１は、入力された第１顔画像における、各顔特徴に対応するＭ個の第１画像ブロックを取得し、入力された第２顔画像における、各顔特徴に対応するＮ個の第２画像ブロックを取得する。

第１変換装置１４０２は、Ｍ個の第１画像ブロック及びＮ個の第２画像ブロックを特徴空間に変換して、Ｍ個の第１特徴ブロック及びＮ個の第２特徴ブロックを生成する。第１変換装置１４０２は、第１変換ネットワーク（例えば、符号化ネットワーク）によって、該変換を実行してもよい。

選択装置１４０３は、特定の制御ベクトルに応じて、一部の第１特徴ブロック及び一部の第２特徴ブロックを選択する。

本願の実施例では、前記特定の制御ベクトルは、各顔特徴に対応するＬ個の情報ビットを含み、前記選択装置１４０３は、さらに、前記特定の制御ベクトルにおけるある情報ビットが第１値である場合、Ｍ個の第１特徴ブロックの中から、該情報ビットに対応する顔特徴の特徴ブロックを選択し、前記特定の制御ベクトルにおける該情報ビットが第２値である場合、Ｎ個の第２特徴ブロックの中から、該情報ビットに対応する顔特徴の特徴ブロックを選択するように構成される。ここで、Ｌは自然数であり、Ｍ≦ＬかつＮ≦Ｌである。

第１合成装置１４０４は、少なくとも選択した一部の第１特徴ブロック及び一部の第２特徴ブロックに基づいて、第１合成特徴マップを生成する。

また、出力される第３顔画像の属性（例えば、年齢や性別）を制御することが可能である。例えば、出力したい第３顔画像の性別を指定することができる。また、入力された第１顔画像と第２顔画像の属性情報には大きな差異が存在する場合がある。したがって、他の可能な実施形態として、前記第１合成装置１４０は、さらに、指定の属性情報を、前記特徴空間にある属性特徴ブロックに拡張し、選択された一部の第１特徴ブロック及び一部の第２特徴ブロックと、属性特徴ブロックとに基づいて、第１合成特徴マップを生成するように構成される。

第１逆変換装置１４０５は、前記第１合成特徴マップを画像空間に逆変換して、第３顔画像を生成する。第１逆変換装置１４０５は、第１逆変換ネットワーク（例えば、復号化ネットワーク）によって、該逆変換を実行してもよい。また、第１変換ネットワーク及び第１逆変換ネットワークによって、継承ネットワークが構成される。

本願の実施例による顔画像生成用のデータ処理機器では、顔特徴画像の分割、及び特徴空間での再構築によって、第１顔画像における一部の顔特徴と、第２顔画像における一部の顔特徴とを継承した第３顔画像を生成することができる。従来技術における汎用処理ネットワークを使用した方式に比べて、出力された第３顔画像と、入力ソースとしての顔画像との類似性を確保しつつ、出力された第３顔画像を実際の画像に近くすることができる。言い換えれば、ユーザは、該第３顔画像を見るときに、該画像が実際の画像であるか合成画像であるかを見分けるのが難しい。さらに、制御ベクトルを設定することにより、第３顔画像が２つの入力顔画像におけるどの顔特徴を継承するかを精確に制御することができる。また、特徴空間での属性特徴の重ね合わせによって、第３顔画像の属性を指定し、さらに第３顔画像の調和度及び自然さを向上させることができる。

より大きな範囲で出力顔画像の属性を調整するために、他の可能な実施形態として、データ処理機器１４００は、第２変換装置１４０６と、拡張装置１４０７と、第２合成モジュール１４０８と、第２逆変換装置１４０９と、をさらに含んでもよい。

第２変換装置１４０６は、前記第３顔画像を特徴空間に変換して、第３特徴マップを生成する。第２変換装置は、第２変換ネットワーク（例えば、符号化ネットワーク）によって、該変換を実行してもよい。また、ここでの第２変換ネットワークは、上記の第１変換ネットワークと異なる。

拡張装置１４０７は、特定の属性情報を、前記特徴空間における属性特徴マップに拡張する。

第２合成モジュール１４０８は、前記属性特徴マップ及び前記第３特徴マップに基づいて、第２合成特徴マップを生成する。

第２逆変換装置１４０９は、第２合成特徴マップを画像空間に逆変換して、第４顔画像を生成する。第２逆変換装置は、第２逆変換ネットワーク（例えば、復号化ネットワーク）によって、該変換を実行してもよい。また、ここでの第２逆変換ネットワークは、上記の第１逆変換ネットワークと異なる。また、第２変換ネットワーク及び第２逆変換ネットワークによって、属性強化ネットワークが構成される。

第２変換装置１４０６、拡張装置１４０７、第２合成モジュール１４０８、及び第２逆変換装置１４０９は、任意選択的であるため、図１４において破線枠で示されている。

上記に記載のように、継承ネットワーク及び属性強化ネットワークは、符号化ネットワークと復号化ネットワークとを含んでもよく、符号化ネットワーク及び復号化ネットワークの両方に複数の決定対象パラメータが含まれる。訓練過程によってこれらのパラメータを決定することにより、継承ネットワーク及び属性強化ネットワークの構築を完成する。このように、継承ネットワーク及び属性強化ネットワークは、顔画像生成の機能を実現することが可能になる。言い換えれば、継承ネットワーク及び属性強化ネットワークを適用する前に、まず、継承ネットワーク及び属性強化ネットワークを訓練する必要がある。

したがって、前記データ処理機器１４００は、訓練装置１４１０をさらに含む。

訓練装置１４１０は、訓練モードで、前記継承ネットワークを訓練する。具体的には、訓練装置１４１０は、事前交換モジュールと、第１識別モジュールと、第１訓練モジュールと、を含む。

事前交換モジュールは、第５顔画像（Ｉ_Ｍ）における、各顔特徴に対応するＬ個の第５画像ブロックを取得し、第６顔画像（Ｉ_Ｆ）における、各顔特徴に対応するＬ個の第６画像ブロックを取得し、第１制御ベクトルに応じて、一部の第５画像ブロック及び一部の第６画像ブロックを選択して、第１合成画像

を生成し、第２制御ベクトルに応じて、他の一部の第５画像ブロック及び他の一部の第６画像ブロックを選択して、第２合成画像

を生成する。ここで、訓練モードで、前記分割装置は、さらに、第１合成画像

における、各顔特徴に対応するＬ個の第８画像ブロックを取得し、Ｌ個の第７画像ブロック及びＬ個の第８画像ブロックを継承ネットワークに入力するように構成される。ここで、Ｌは自然数であり、Ｍ≦ＬかつＮ≦Ｌである。

第１識別モジュールは、少なくとも１組の継承訓練データを受信し、第１識別ネットワークによって、入力された継承訓練データが実際の画像であることを識別するための確率値を出力する。ここで、前記少なくとも１組の継承訓練データは、第５～第８顔画像を含み、前記第７顔画像（Ｉ’_Ｍ）は、前記継承ネットワークが第１制御ベクトルに応じて一部の第７画像ブロック及び一部の第８画像ブロックを選択することにより生成され、前記第８顔画像（Ｉ’_Ｆ）は、前記継承ネットワークが第２制御ベクトルに応じて他の一部の第７画像ブロック及び他の一部の第８画像ブロックを選択することにより生成され、第５顔画像は、第７顔画像に監督情報を提供するための監督画像であり、第６顔画像は、第８顔画像に監督情報を提供するための監督画像である。

第１訓練モジュールは、第１損失関数に基づいて、前記第１損失関数が収束するまで、前記継承ネットワークと前記第１識別ネットワークを交互に訓練する。

ここで、前記第１損失関数は、少なくとも１組の継承訓練データに対して前記第１識別ネットワークが出力した確率値と、少なくとも１組の継承訓練データにおける、顔画像と、対応する監督画像との間の画素の差異とに基づいて決定される。

又は、他の可能な実施形態として、前記第１損失関数は、さらに、少なくとも１組の継承訓練データにおける、顔画像の属性と、対応する監督画像の属性との間の差異と、少なくとも１組の継承訓練データにおける、顔画像の特徴と、対応する監督画像の特徴との間の差異とのうちの少なくとも１つに基づいて決定される。

また、訓練装置１４１０は、さらに、訓練モードで、前記属性強化ネットワークを訓練する。

具体的には、前記訓練装置１４１０は、第２識別モジュールと、第２訓練モジュールと、をさらに含む。

第２識別モジュールは、少なくとも１組の属性訓練データを受信し、第２識別ネットワークによって、入力された属性訓練データが実際の画像であることを識別するための確率値を出力する。ここで、前記少なくとも１組の属性訓練データは、第７～第１０顔画像を含み、前記第９顔画像

は、前記属性強化ネットワークによって、第７顔画像に基づいて出力され、前記第１０顔画像

は、前記属性強化ネットワークによって、第８顔画像に基づいて出力され、第７顔画像は、第９顔画像に監督情報を提供するための監督画像であり、第８顔画像は、第１０顔画像に監督情報を提供するための監督画像である。

第２訓練モジュールは、第２損失関数に基づいて、前記第２損失関数が収束するまで、前記属性強化ネットワークと前記第２識別ネットワークを交互に訓練する。

ここで、前記第２損失関数は、少なくとも１組の属性訓練データに対して前記第２識別ネットワークが出力した確率値と、少なくとも１組の属性訓練データにおける、顔画像と、対応する監督画像との間の画素の差異とに基づいて決定される。

又は、他の可能な実施形態として、前記第２損失関数は、さらに、少なくとも１組の属性訓練データにおける、顔画像の属性と、対応する監督画像の属性との間の差異と、少なくとも１組の属性訓練データにおける、顔画像の特徴と、対応する監督画像の特徴との間の差異とのうちの少なくとも１つに基づいて決定される。

また、前記訓練装置は、前記第１損失関数及び第２損失関数に基づいて、総損失関数を決定し、前記総損失関数に基づいて、前記総損失関数が収束するまで、前記継承ネットワーク及び前記属性強化ネットワークと、第１識別ネットワーク及び第２識別ネットワークとを交互に訓練する共同訓練モジュールをさらに含んでもよい。

本願の実施例によるデータ処理機器の各装置の具体的な操作は、本願の実施例によるデータ処理方法の各ステップに完全に対応するので、冗長性を避けるために、ここではその詳細について説明しない。当業者が理解できるように、本願の実施例によるデータ処理方法の各ステップは、同様に、本願の実施例によるデータ処理機器の各装置に適用可能である。

本願の実施例による顔画像生成用のデータ処理機器の、ハードウェアエンティティとしての一例は、図１５に示されている。前記端末機器は、プロセッサ１５０１と、メモリ１５０２と、少なくとも１つの外部通信インタフェース１５０３と、を含む。前記プロセッサ１５０１、メモリ１５０２、及び外部通信インタフェース１５０３は、全てバス１５０４を介して接続される。

データ処理用のプロセッサ１５０１は、処理を実行する際に、マイクロプロセッサ、中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｎｇｎａｌＰｒｏｃｅｓｓｏｒ）、又はプログラマブルロジックアレイ（ＦＰＧＡ：Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）を用いて実現してもよい。メモリ１５０２には、操作命令が含まれ、該操作命令は、コンピュータ実行可能なコードであってもよい。前記操作命令によって、上述した本願の実施例の顔画像生成用のデータ処理方法の各ステップを実現させる。

図１６は、本願の実施例によるコンピュータ読み取り可能な記録媒体の模式図を示す。図１６に示すように、本願の実施例によるコンピュータ読み取り可能な記録媒体１６００には、コンピュータプログラム命令１６０１が記憶されている。前記コンピュータプログラム命令１６０１は、プロセッサによって実行されると、上記の図面を参照して説明した本願の実施例による顔画像生成用のデータ処理方法を実行させる。

本願の実施例では、メモリとプロセッサとを備えるコンピュータ機器が提供されており、該メモリには、プロセッサで実行可能なコンピュータプログラムが記憶され、該プロセッサは、該コンピュータプログラムを実行すると、上記の実施例に記載の顔画像生成用のデータ処理方法を実現することができる。該コンピュータ機器は、上記に記載のサーバ、又はデータ処理を実施可能な任意の機器であってもよい。

ここまで、図１～図１６を参照して、本願の実施例による顔画像生成用のデータ処理方法、機器、及び媒体を詳細に説明している。本願の実施例による顔画像生成用のデータ処理方法、機器、及び媒体では、顔特徴画像の分割、及び特徴空間での再構築によって、第１顔画像における一部の顔特徴と、第２顔画像における一部の顔特徴とを継承した第３顔画像を生成することができる。従来技術における汎用処理ネットワークを使用した方式に比べて、出力された第３顔画像と、入力ソースとしての顔画像との類似性を確保しつつ、出力された第３顔画像を実際の画像に近くすることができる。言い換えれば、ユーザは、該第３顔画像を見るときに、該画像が実際の画像であるか合成画像であるかを見分けるのが難しい。

さらに、継承ネットワークでは、制御ベクトルを設定することにより、第３顔画像が２つの入力顔画像におけるどの顔特徴を継承するかを精確に制御することができる。特徴空間での属性特徴の重ね合わせによって、第３顔画像の属性を指定し、さらに第３顔画像の調和度及び自然さを向上させることができる。また、追加の属性強化ネットワークによって、生成された顔画像の属性をより大きな範囲で変えることができる。さらに、訓練過程における２回の顔特徴交換によって、父、母、及び子の関係が存在する顔データベースを構築する必要がなく、既存の任意の顔データベースを直接利用して、継承ネットワークの訓練過程を完成することができ、コスト及び実現の難しさを大幅に低下させる。

説明すべきものとして、本明細書では、用語「含む」、「備える」、又はそれらの他の任意の変形は、非排他的な包含をカバーすることを意図するものである。これにより、一連の要素を含む過程、方法、物品、又は機器は、それらの要素だけでなく、明示的にリストされていない他の要素も含むか、又はこのような過程、方法、物品、又は機器に固有の要素も含む。これ以上の制限がない場合、「…を含む」という語句によって限定される要素により、前記要素を含む過程、方法、物品、又は機器に他の同じ要素も存在することが除外されない。

最後に説明すべきものとして、上述した一連の処理には、ここで述べた順序で時系列的に実行される処理だけでなく、時系列的ではなく、並列的又は個別的に実行される処理も含まれる。

上記の実施形態の説明から、当業者は、本願の実施例が、ソフトウェアと必要なハードウェアプラットフォームとによって実現されてもよく、もちろん、全てソフトウェアによって実施されてもよいことを明確に理解することができる。このような理解に基づいて、背景技術に対して貢献がある本願の実施例の構成の全部又は一部は、ソフトウェア製品の形式で具現化することができ、このコンピュータソフトウェア製品は、例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、光ディスクなどの記憶媒体に記憶されてもよく、コンピュータ機器（パーソナルコンピュータ、サーバ、又はネットワーク機器などであってもよい）に、本願の各実施例又は実施例のいくつかの部分に記載の方法を実行させるためのいくつかの命令を含む。

以上は、本願の実施例について詳細に説明している。本明細書では、本願の原理及び実施形態を説明するために具体例を使用したが、以上の実施例の説明は、本願の方法及びその主旨の理解を助けるためにのみ使用される。また、当業者にとっては、本願の構想に基づき、具体的な実施形態及び適用範囲のいずれにも変更があり得る。上述のように、本明細書の内容は、本願を制限するものと理解されるべきではない。

1401 分割装置
1402 第１変換装置
1403 選択装置
1404 第１合成装置
1405 第１逆変換装置
1406 第２変換装置
1407 拡張装置
1408 第２合成装置
1409 第２逆変換装置
1410 訓練装置
1600 コンピュータ読み取り可能な記録媒体
1601 コンピュータプログラム命令

上記の背景技術に記載のように、従来技術による顔画像生成方式では、汎用処理ネットワークが使用されるので、出力された顔画像と実際の顔画像との間には大きな差がある。これに加えて、従来技術による顔画像生成方式では、汎用処理ネットワークにおける符号化ネットワーク及び復号化ネットワークを訓練する際に、出力される合成顔画像に監督情報を提供するために、実際の顔のデータベースを収集して構築する必要がある。例えば、子供の顔予想の適用シナリオでは、父、母、及び子の関係が存在する顔データベースを収集して構築する必要がある。処理ネットワークが父又は母の顔画像に基づいて出力する合成子顔画像の監督情報として実際の子の顔画像を用いることにより、処理ネットワークのパラメータを調整して、訓練済みの処理ネットワークが、入力された顔画像に似てかつ実際の画像に類似した合成顔画像を出力できるようにする。しかしながら、実践では、このようなデータベースを収集して構築するには、大きなコストがかかる。

具体的には、特定の制御ベクトルに応じて、一部の第１特徴ブロック及び一部の第２特徴ブロックを選択するステップは、前記特定の制御ベクトルにおけるある情報ビットが第１値である場合、Ｍ個の第１特徴ブロックの中から、該情報ビットに対応する顔特徴の特徴ブロックを選択し、前記特定の制御ベクトルにおける該情報ビットが第２値である場合、Ｎ個の第２特徴ブロックの中から、該情報ビットに対応する顔特徴の特徴ブロックを選択するステップを含む。制御ベクトルにおける各情報ビットに応じて順次選択することにより、Ｌ個の特徴ブロックを取得し、これらの特徴ブロックは、一部の第１特徴ブロックと一部の第２特徴ブロックとからなる混合特徴ブロックである。

より大きな範囲で出力顔画像の属性を調整するために、他の可能な実施形態として、図１に戻って参照すると、ステップＳ１０６の後に、前記データ処理方法は、以下のステップをさらに含んでもよい。

可能な一実施形態として、前記第１損失関数は、少なくとも１組の継承訓練データに対して前記第１識別ネットワークが出力した確率値と、少なくとも１組の継承訓練データにおける、顔画像と、該顔画像に対応する監督画像との間の画素の差異とに基づいて決定される。

他の可能な実施形態として、上記に記載の敵対的損失及び画素損失に加えて、第１損失関数は、さらに、少なくとも１組の継承訓練データにおける、顔画像の属性と、該顔画像に対応する監督画像の属性との間の差異と、少なくとも１組の継承訓練データにおける、顔画像の特徴と、該顔画像に対応する監督画像の特徴との間の差異とのうちの少なくとも１つに基づいて決定されてもよい。

可能な一実施形態として、前記第２損失関数は、少なくとも１組の属性訓練データに対して前記第２識別ネットワークが出力した確率値と、少なくとも１組の属性訓練データにおける、顔画像と、該顔画像に対応する監督画像との間の画素の差異とに基づいて決定される。

他の可能な実施形態として、上記に記載の敵対的損失及び画素損失に加えて、第２損失関数は、さらに、少なくとも１組の属性訓練データにおける、顔画像の属性と、該顔画像に対応する監督画像の属性との間の差異と、少なくとも１組の属性訓練データにおける、顔画像の特徴と、該顔画像に対応する監督画像の特徴との間の差異とのうちの少なくとも１つに基づいて決定されてもよい。

また、第２損失関数は、知覚損失をさらに含んでもよい。例えば、１９層のＶＧＧ特徴を用いて、知覚損失

また、出力される第３顔画像の属性（例えば、年齢や性別）を制御することが可能である。例えば、出力したい第３顔画像の性別を指定することができる。また、入力された第１顔画像と第２顔画像の属性情報には大きな差異が存在する場合がある。したがって、他の可能な実施形態として、前記第１合成装置１４０４は、さらに、指定の属性情報を、前記特徴空間にある属性特徴ブロックに拡張し、選択された一部の第１特徴ブロック及び一部の第２特徴ブロックと、属性特徴ブロックとに基づいて、第１合成特徴マップを生成するように構成される。

より大きな範囲で出力顔画像の属性を調整するために、他の可能な実施形態として、データ処理機器１４００は、第２変換装置１４０６と、拡張装置１４０７と、第２合成装置１４０８と、第２逆変換装置１４０９と、をさらに含んでもよい。

第２合成装置１４０８は、前記属性特徴マップ及び前記第３特徴マップに基づいて、第２合成特徴マップを生成する。

第２変換装置１４０６、拡張装置１４０７、第２合成装置１４０８、及び第２逆変換装置１４０９は、任意選択的であるため、図１４において破線枠で示されている。

ここで、前記第１損失関数は、少なくとも１組の継承訓練データに対して前記第１識別ネットワークが出力した確率値と、少なくとも１組の継承訓練データにおける、顔画像と、該顔画像に対応する監督画像との間の画素の差異とに基づいて決定される。

又は、他の可能な実施形態として、前記第１損失関数は、さらに、少なくとも１組の継承訓練データにおける、顔画像の属性と、該顔画像に対応する監督画像の属性との間の差異と、少なくとも１組の継承訓練データにおける、顔画像の特徴と、該顔画像に対応する監督画像の特徴との間の差異とのうちの少なくとも１つに基づいて決定される。

ここで、前記第２損失関数は、少なくとも１組の属性訓練データに対して前記第２識別ネットワークが出力した確率値と、少なくとも１組の属性訓練データにおける、顔画像と、該顔画像に対応する監督画像との間の画素の差異とに基づいて決定される。

又は、他の可能な実施形態として、前記第２損失関数は、さらに、少なくとも１組の属性訓練データにおける、顔画像の属性と、該顔画像に対応する監督画像の属性との間の差異と、少なくとも１組の属性訓練データにおける、顔画像の特徴と、該顔画像に対応する監督画像の特徴との間の差異とのうちの少なくとも１つに基づいて決定される。

本願の実施例による顔画像生成用のデータ処理機器の、ハードウェアエンティティとしての一例は、図１５に示されている。前記データ処理機器は、プロセッサ１５０１と、メモリ１５０２と、少なくとも１つの外部通信インタフェース１５０３と、を含む。前記プロセッサ１５０１、メモリ１５０２、及び外部通信インタフェース１５０３は、全てバス１５０４を介して接続される。

Claims

サーバが実行する、顔画像生成用のデータ処理方法であって、
第１顔画像（Ｉ_ＭＡ）及び第２顔画像（Ｉ_ＦＡ）を取得するステップと、
第１顔画像（Ｉ_ＭＡ）における、顔特徴に対応するＭ個（Ｍは自然数）の第１画像ブロックを取得し、第２顔画像（Ｉ_ＦＡ）における、顔特徴に対応するＮ個（Ｎは自然数）の第２画像ブロックを取得するステップと、
Ｍ個の第１画像ブロック及びＮ個の第２画像ブロックを特徴空間に変換して、Ｍ個の第１特徴ブロック及びＮ個の第２特徴ブロックを生成するステップと、
特定の制御ベクトルに応じて、一部の第１特徴ブロック及び一部の第２特徴ブロックを選択するステップと、
少なくとも選択した一部の第１特徴ブロック及び一部の第２特徴ブロックに基づいて、第１合成特徴マップを生成するステップと、
前記第１合成特徴マップを画像空間に逆変換して、第３顔画像（Ｉ_Ｏ１）を生成するステップと、
を含む方法。
前記特定の制御ベクトルは、各顔特徴に対応するＬ個（Ｌは自然数であり、Ｍ≦ＬかつＮ≦Ｌである）の情報ビットを含み、
特定の制御ベクトルに応じて、一部の第１特徴ブロック及び一部の第２特徴ブロックを選択するステップは、
前記特定の制御ベクトルにおけるある情報ビットが第１値である場合、Ｍ個の第１特徴ブロックの中から、該情報ビットに対応する顔特徴の特徴ブロックを選択し、前記特定の制御ベクトルにおける該情報ビットが第２値である場合、Ｎ個の第２特徴ブロックの中から、該情報ビットに対応する顔特徴の特徴ブロックを選択するステップを含む、
請求項１に記載の方法。
少なくとも選択した一部の第１特徴ブロック及び一部の第２特徴ブロックに基づいて、第１合成特徴マップを生成するステップは、
指定の属性情報を、前記特徴空間にある属性特徴ブロックに拡張するステップと、
選択した一部の第１特徴ブロック及び一部の第２特徴ブロックと、属性特徴ブロックとに基づいて、第１合成特徴マップを生成するステップと、
を含む請求項１に記載の方法。
Ｍ個の第１画像ブロック及びＮ個の第２画像ブロックを継承ネットワークに入力することにより、前記第３顔画像を生成し、
前記継承ネットワークは、
第５顔画像（Ｉ_Ｍ）における、各顔特徴に対応するＬ個（Ｌは自然数であり、Ｍ≦ＬかつＮ≦Ｌである）の第５画像ブロックを取得し、第６顔画像（Ｉ_Ｆ）における、各顔特徴に対応するＬ個の第６画像ブロックを取得するステップと、
第１制御ベクトルに応じて、一部の第５画像ブロック及び一部の第６画像ブロックを選択して第１合成画像

を生成し、第２制御ベクトルに応じて、他の一部の第５画像ブロック及び他の一部の第６画像ブロックを選択して第２合成画像

を生成するステップと、
第１合成画像

における、各顔特徴に対応するＬ個の第７画像ブロックを取得し、第２合成画像

における、各顔特徴に対応するＬ個の第８画像ブロックを取得するステップと、
Ｌ個の第７画像ブロック及びＬ個の第８画像ブロックを継承ネットワークに入力するステップと、
前記継承ネットワークによって、第１制御ベクトルに応じて選択された一部の第７画像ブロック及び一部の第８画像ブロックに基づいて生成された第７顔画像（Ｉ’_Ｍ）を出力し、第２制御ベクトルに応じて選択された他の一部の第７画像ブロック及び他の一部の第８画像ブロックに基づいて生成された第８顔画像（Ｉ’_Ｆ）を出力し、第５～第８顔画像を１組の継承訓練データとするステップであって、第５顔画像が、第７顔画像に監督情報を提供するための監督画像であり、第６顔画像が、第８顔画像に監督情報を提供するための監督画像である、ステップと、
少なくとも１組の継承訓練データを第１識別ネットワークに入力するステップであって、前記第１識別ネットワークは、ある画像が入力されると、該画像が実際の画像である確率値を出力するように設定される、ステップと、
第１損失関数に基づいて、前記第１損失関数が収束するまで、前記継承ネットワークと前記第１識別ネットワークを交互に訓練するステップとの訓練ステップによって得られる、
請求項１に記載の方法。
前記第１損失関数は、少なくとも１組の継承訓練データに対して前記第１識別ネットワークが出力した確率値と、少なくとも１組の継承訓練データにおける、顔画像と、対応する監督画像との間の画素の差異とに基づいて決定される、
請求項４に記載の方法。
前記第１損失関数は、さらに、
少なくとも１組の継承訓練データにおける、顔画像の属性と、対応する監督画像の属性との間の差異と、少なくとも１組の継承訓練データにおける、顔画像の特徴と、対応する監督画像の特徴との間の差異とのうちの少なくとも１つに基づいて決定される、
請求項５に記載の方法。
前記第３顔画像（Ｉ_Ｏ１）を特徴空間に変換して、第３特徴マップを生成するステップと、
特定の属性情報を、前記特徴空間における属性特徴マップに拡張するステップと、
前記属性特徴マップ及び前記第３特徴マップに基づいて、第２合成特徴マップを生成するステップと、
第２合成特徴マップを画像空間に逆変換して、第４顔画像（Ｉ_Ｏ２）を生成するステップと、
をさらに含む請求項４に記載の方法。
第３顔画像を属性強化ネットワークに入力することにより、前記第４顔画像を生成し、
前記属性強化ネットワークは、
第７顔画像（Ｉ’_Ｍ）及び第８顔画像（Ｉ’_Ｆ）を属性強化ネットワークに入力するステップと、
属性強化ネットワークによって、第７顔画像に対応する第９顔画像

と、第８顔画像に対応する第１０顔画像

とを出力し、第７～第１０顔画像を１組の属性訓練データとするステップであって、第７顔画像が、第９顔画像に監督情報を提供するための監督画像であり、第８顔画像が、第１０顔画像に監督情報を提供するための監督画像である、ステップと、
少なくとも１組の属性訓練データを第２識別ネットワークに入力するステップであって、前記第２識別ネットワークは、ある画像が入力されると、該画像が実際の画像である確率値を出力するように設定される、ステップと、
第２損失関数に基づいて、前記第２損失関数が収束するまで、前記属性強化ネットワークと前記第２識別ネットワークを交互に訓練するステップとの訓練ステップによって得られる、
請求項７に記載の方法。
前記第２損失関数は、少なくとも１組の属性訓練データに対して前記第２識別ネットワークが出力した確率値と、少なくとも１組の属性訓練データにおける、顔画像と、対応する監督画像との間の画素の差異とに基づいて決定される、
請求項８に記載の方法。
前記第２損失関数は、さらに、
少なくとも１組の属性訓練データにおける、顔画像の属性と、対応する監督画像の属性との間の差異と、少なくとも１組の属性訓練データにおける、顔画像の特徴と、対応する監督画像の特徴との間の差異とのうちの少なくとも１つに基づいて決定される、
請求項９に記載の方法。
前記継承ネットワーク及び前記属性強化ネットワークは、
前記第１損失関数及び前記第２損失関数に基づいて、総損失関数を決定するステップと、
前記総損失関数に基づいて、前記総損失関数が収束するまで、前記継承ネットワーク及び前記属性強化ネットワークと、第１識別ネットワーク及び第２識別ネットワークとを交互に訓練するステップとの共同訓練ステップによってさらに最適化される、
請求項８に記載の方法。
顔画像生成用のデータ処理機器であって、
入力された第１顔画像における、顔特徴に対応するＭ個の第１画像ブロックを取得し、入力された第２顔画像における、顔特徴に対応するＮ個の第２画像ブロックを取得する分割装置と、
Ｍ個の第１画像ブロック及びＮ個の第２画像ブロックを特徴空間に変換して、Ｍ個の第１特徴ブロック及びＮ個の第２特徴ブロックを生成する第１変換装置と、
特定の制御ベクトルに応じて、一部の第１特徴ブロック及び一部の第２特徴ブロックを選択する選択装置と、
少なくとも選択した一部の第１特徴ブロック及び一部の第２特徴ブロックに基づいて、第１合成特徴マップを生成する第１合成装置と、
前記第１合成特徴マップを画像空間に逆変換して、第３顔画像を生成する第１逆変換装置と、
を含む機器。
コンピュータプログラムを記憶したコンピュータ読み取り可能な記録媒体であって、前記コンピュータプログラムが、プロセッサにより実行されると、請求項１～１１のいずれか１項に記載の方法を実行させる記録媒体。
メモリとプロセッサとを備えるコンピュータ機器であって、前記メモリには、コンピュータプログラムが記憶され、前記プロセッサが、前記コンピュータプログラムを実行して、請求項１～１１のいずれか１項に記載の顔画像生成用のデータ処理方法を実現するコンピュータ機器。