JP2022513858A - 顔画像生成用のデータ処理方法、データ処理機器、コンピュータプログラム、及びコンピュータ機器 - Google Patents

顔画像生成用のデータ処理方法、データ処理機器、コンピュータプログラム、及びコンピュータ機器 Download PDF

Info

Publication number
JP2022513858A
JP2022513858A JP2021534133A JP2021534133A JP2022513858A JP 2022513858 A JP2022513858 A JP 2022513858A JP 2021534133 A JP2021534133 A JP 2021534133A JP 2021534133 A JP2021534133 A JP 2021534133A JP 2022513858 A JP2022513858 A JP 2022513858A
Authority
JP
Japan
Prior art keywords
image
feature
face image
face
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021534133A
Other languages
English (en)
Other versions
JP7246811B2 (ja
Inventor
勇 ▲張▼
▲樂▼ 李
志磊 ▲劉▼
保元 ▲呉▼
▲艷▼波 樊
志▲鋒▼ 李
威 ▲劉▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022513858A publication Critical patent/JP2022513858A/ja
Application granted granted Critical
Publication of JP7246811B2 publication Critical patent/JP7246811B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

Figure 2022513858000001
顔画像生成用のデータ処理方法、機器、媒体、及びコンピュータ機器を開示している。前記データ処理方法は、第1顔画像(IMA)及び第2顔画像(IFA)を取得するステップと、第1顔画像(IMA)における、顔特徴に対応するM個の第1画像ブロックを取得し、第2顔画像(IFA)における、顔特徴に対応するN個の第2画像ブロックを取得するステップと、M個の第1画像ブロック及びN個の第2画像ブロックを特徴空間に変換して、M個の第1特徴ブロック及びN個の第2特徴ブロックを生成するステップと、特定の制御ベクトルに応じて、一部の第1特徴ブロック及び一部の第2特徴ブロックを選択するステップと、少なくとも選択した一部の第1特徴ブロック及び一部の第2特徴ブロックに基づいて、第1合成特徴マップを生成するステップと、前記第1合成特徴マップを画像空間に逆変換して、第3顔画像を生成するステップと、を含み、M及びNは自然数である。

Description

本願は、2019年4月26日に中国特許庁に提出された、出願番号が第201910345276.6号であり、発明の名称が「顔画像生成用のデータ処理方法、機器、及び媒体」である、中国特許出願に基づく優先権を主張し、その全ての内容が、参照することにより本願に組み込まれる。
本願は、画像処理の分野に関し、より具体的に、顔画像生成用のデータ処理方法、機器、媒体、及びコンピュータ機器に関する。
顔画像生成技術は、新興の研究分野であり、子供の顔予想、刑事捜査における犯罪者の画像復元、仮想キャラクターの構築などの面で広い適用の見通しがある。例えば、1枚の顔画像を入力することにより、この顔画像と似るが異なる別の真新しい顔画像を、目標画像として生成することができる。
従来の顔画像生成方式では、汎用処理ネットワークを用いて目標画像を生成する。例えば、1枚の顔画像を訓練済みの符号化ネットワーク及び復号化ネットワークに入力し、次に、目標画像を出力する。しかしながら、このような画像生成方式の問題点は、この汎用処理ネットワークから出力された合成後の顔画像の調和度及び自然さが悪く、この合成後の顔画像が実際の顔画像であるとユーザに信じさせるのが難しいことである。
上記の事情に鑑み、本願の実施例は、実際の顔画像により近い合成顔画像を生成することができる顔画像生成用のデータ処理方法、機器、媒体、及びコンピュータ機器を提供する。
本願の一態様によれば、サーバが実行する、顔画像生成用のデータ処理方法が提供されており、前記方法は、第1顔画像及び第2顔画像を取得するステップと、第1顔画像(IMA)における、顔特徴に対応するM個(Mは自然数)の第1画像ブロックを取得し、第2顔画像(IFA)における、顔特徴に対応するN個(Nは自然数)の第2画像ブロックを取得するステップと、M個の第1画像ブロック及びN個の第2画像ブロックを特徴空間に変換して、M個の第1特徴ブロック及びN個の第2特徴ブロックを生成するステップと、特定の制御ベクトルに応じて、一部の第1特徴ブロック及び一部の第2特徴ブロックを選択するステップと、少なくとも選択した一部の第1特徴ブロック及び一部の第2特徴ブロックに基づいて、第1合成特徴マップを生成するステップと、前記第1合成特徴マップを画像空間に逆変換して、第3顔画像を生成するステップと、を含む。
本願の他の態様によれば、顔画像生成用のデータ処理機器が提供されており、前記機器は、入力された第1顔画像における、顔特徴に対応するM個の第1画像ブロックを取得し、入力された第2顔画像における、顔特徴に対応するN個の第2画像ブロックを取得する分割装置と、M個の第1画像ブロック及びN個の第2画像ブロックを特徴空間に変換して、M個の第1特徴ブロック及びN個の第2特徴ブロックを生成する第1変換装置と、特定の制御ベクトルに応じて、一部の第1特徴ブロック及び一部の第2特徴ブロックを選択する選択装置と、少なくとも選択した一部の第1特徴ブロック及び一部の第2特徴ブロックに基づいて、第1合成特徴マップを生成する第1合成装置と、前記第1合成特徴マップを画像空間に逆変換して、第3顔画像を生成する第1逆変換装置と、を含む。
本願の別の態様によれば、コンピュータプログラムを記憶したコンピュータ読み取り可能な記録媒体が提供されており、前記コンピュータプログラムが、プロセッサにより実行されると、上記実施例における顔画像生成用のデータ処理方法を実行させる。
本願のさらに別の態様によれば、メモリとプロセッサとを備えるコンピュータ機器が提供されており、前記メモリには、コンピュータプログラムが記憶され、前記プロセッサが、前記コンピュータプログラムを実行して、上記実施例における顔画像生成用のデータ処理方法を実現する。
本願の実施例による顔画像生成用のデータ処理方法の過程を図示するフローチャートである。 本願の実施例による継承ネットワークに関するデータフローの模式図を示す。 本願の実施例による異なる制御ベクトルでの顔画像生成結果を示す。 本願の実施例による入力された顔画像にランダム要素が追加された場合の顔画像生成結果を示す。 本願の実施例による属性強化ネットワークに関するデータフローの模式図を示す。 指定の制御ベクトルで生成された異なる年齢段階の顔画像を示す。 指定の制御ベクトルで生成された異なる年齢及び異なる性別の顔画像を示す。 本願の実施例による継承ネットワークの訓練過程を図示するフローチャートである。 継承ネットワークの訓練過程における2回の顔特徴交換の過程を図示する模式図である。 本願の実施例による継承ネットワークの訓練過程におけるデータフローの模式図を示す。 本願の実施例による属性強化ネットワークの訓練過程を図示するフローチャートである。 本願の実施例による属性強化ネットワークの訓練過程におけるデータフロー図を示す。 本願の実施例の適用環境の模式図を示す。 本願の実施例による顔画像生成用のデータ処理機器の構成の機能的ブロック図を示す。 本願の実施例による顔画像生成用のデータ処理機器のハードウェアエンティティとしての一例を示す。 本願の実施例によるコンピュータ読み取り可能な記録媒体の模式図を示す。
以下、図面を参照しながら、本願の各実施形態を説明する。特許請求の範囲及びその均等物により限定された本願の例示的な実施形態に対する理解を助けるために、図面を参照した説明を提供する。この説明には、理解を助けるための各種の具体的な詳細が含まれるが、それらが例示的なものとしか考えられない。したがって、当業者は、本願の範囲及び精神を逸脱することなく、ここで説明する実施形態に対して各種の変更や修正を行うことができると認識できる。なお、明細書をより明瞭かつ簡潔にするために、本技術分野でよく知られている機能及び構造の詳細な説明を省略する。
上記の背景技術に記載のように、従来技術による顔生成方式では、汎用処理ネットワークが使用されるので、出力された顔画像と実際の顔画像との間には大きな差がある。これに加えて、従来技術による顔生成方式では、汎用処理ネットワークにおける符号化ネットワーク及び復号化ネットワークを訓練する際に、出力される合成顔画像に監督情報を提供するために、実際の顔のデータベースを収集して構築する必要がある。例えば、子供の顔予想の適用シナリオでは、父、母、及び子の関係が存在する顔データベースを収集して構築する必要がある。処理ネットワークが父又は母の顔画像に基づいて出力する合成子顔画像の監督情報として実際の子の顔画像を用いることにより、処理ネットワークのパラメータを調整して、訓練済みの処理ネットワークが、入力された顔画像に似てかつ実際の画像に類似した合成顔画像を出力できるようにする。しかしながら、実践では、このようなデータベースを収集して構築するには、大きなコストがかかる。
したがって、本願の実施例では、汎用処理ネットワークに比べて、実際の画像により近い合成顔画像を出力でき、合成顔画像が2つの入力顔画像におけるどの顔特徴を継承するかを正確に制御できる顔画像合成専用の継承ネットワークが提案されている。また、本願の実施例では、継承ネットワークから出力された合成顔画像を基に、大きな範囲で合成顔画像の属性(例えば、年齢や性別など)を調整できる属性強化ネットワークがさらに提案されている。また、本願の実施例では、父、母、及び子の関係が存在しない顔データベースの場合での継承ネットワーク及び属性強化ネットワークの訓練方式が提案されている。本願の実施例による継承ネットワーク及び属性強化ネットワークの訓練過程では、父、母、及び子の関係が存在する顔データベースを構築する必要がなく、任意の既存の顔データベースを直接利用して、処理ネットワークの訓練を行うことができる。
本願をより良く理解するために、以下に言及する名称の具体的な意味を以下のように定義する。
第1顔画像:適用モードで、継承ネットワークに入力された1つの画像であり、IMAで表される。
第2顔画像:適用モードで、継承ネットワークに入力された他の画像であり、IFAで表される。
第3顔画像:適用モードで、継承ネットワークから出力された画像であり、Io1で表される。
第4顔画像:適用モードで、さらに継承ネットワークから出力された画像であり、Io2で表される。
第5顔画像:訓練モードで、継承ネットワークに入力された1つの画像であり、Iで表される。
第6顔画像:訓練モードで、継承ネットワークに入力された他の画像であり、Iで表される。
第7顔画像:訓練モードで、継承ネットワークから出力された1つの画像であり、I’で表され、第5顔画像Iを監督画像とする。
第8顔画像:訓練モードで、継承ネットワークから出力された1つの画像であり、I’で表され,第6顔画像Iを監督画像とする。
第9顔画像:訓練モードで、属性強化ネットワークから出力された1つの画像であり、

Figure 2022513858000002
で表され、第7顔画像I’を監督画像とする。
第10顔画像:訓練モードで、属性強化ネットワークから出力された1つの画像であり、

Figure 2022513858000003
で表され、第8顔画像I’を監督画像とする。
次に、図面を参照して、本願による各実施例を詳細に説明する。まず、図1を参照して、本願の実施例による顔画像生成用のデータ処理方法を説明する。この方法は、サーバによって実行される。図1に示すように、前記データ処理方法は、以下のステップを含む。
ステップS101で、第1顔画像(IMA)及び第2顔画像(IFA)を取得する。
その後、ステップS102で、第1顔画像(IMA)における、顔特徴に対応するM個の第1画像ブロックを取得し、第2顔画像(IFA)における、顔特徴に対応するN個の第2画像ブロックを取得する。ここで、顔特徴は、器官(例えば、眉、目、鼻、口、顔の輪郭)、組織、又は局所的な特徴(例えば、額、頬、皮膚についての特徴)などであってもよい。M個の第1画像ブロックは、それぞれ、異なる顔特徴に対応し、同様に、N個の第2画像ブロックも、それぞれ、異なる顔特徴に対応する。ここで、M及びNは自然数である。
例えば、第1顔画像と第2顔画像は、性別の異なる人の顔画像、例えば、1枚の男性顔画像と1枚の女性顔画像であってもよい。又は、第1顔画像と第2顔画像は、同じ性別の人の顔画像であってもよい。
また、例えば、第1顔画像及び第2顔画像は、カメラで撮像した実際の顔画像であってもよい。又は、第1顔画像及び第2顔画像は、既存の顔特徴ライブラリから選択された顔特徴画像に基づいて生成された合成画像であってもよい。具体的には、第1顔画像は、1人の元の顔特徴を基に、そのうちの1つの顔特徴を、顔特徴ライブラリからランダムに選択された1つの顔特徴に取り替えて生成された合成画像であってもよく、第2顔画像も、同様な方式で生成された合成画像であってもよい。又は、第1顔画像は、全部の顔特徴が顔特徴ライブラリからランダムに選択されて組み合わせられることにより生成された合成画像であってもよく、第2顔画像も、同様な方式で生成された合成画像であってもよい。
さらに、例えば、第1顔画像及び第2顔画像は、漫画の顔画像であってもよい。上記から分かるように、本願の実施例では、第1顔画像及び第2顔画像のタイプが特に限定されず、入力とすることができる任意の2枚の顔画像は、同様に本願の実施例に適用でき、かつ本願の範囲に含まれる。
入力された顔画像については、まず、顔キャリブレーションによって各顔特徴の位置を定位し、その後、顔画像を、各顔特徴に対応する画像ブロックに分解してもよい。新たな顔画像の生成に必要な異なる顔特徴の総数を予め設定し、それをL(Lは自然数)と表す。例えば、可能な一実施形態として、顔特徴を、左目及び左眉、右目及び右眉、鼻、口、並びに顔の輪郭に分けてもよい。このような場合、新たな顔画像の生成に必要な異なる顔特徴の総数は5である。入力された1つの顔画像が完全な正面画像である場合、分解して得られた画像ブロックの数は、上記異なる顔特徴の総数と一致し、言い換えれば、該顔画像から、必要な全ての異なる顔特徴を検出できる。本実施形態では、入力された顔画像を5つの画像ブロックに分解してもよい。この5つの画像ブロックは、それぞれ、左目及び左眉に対応する画像ブロック、右目及び右眉に対応する画像ブロック、鼻に対応する画像ブロック、口に対応する画像ブロック、並びに顔の輪郭に対応する画像ブロックである。もちろん、このような分解方式は例示的なものにすぎず、任意の他の分解方式も実行可能である。例えば、入力された顔画像を、目に対応する画像ブロック、眉に対応する画像ブロック、鼻に対応する画像ブロック、口に対応する画像ブロック、及び顔の輪郭に対応する画像ブロックに分解してもよい。しかしながら、入力された1つの顔画像が一定の角度からの横顔画像であるか、又は入力された1つの顔画像が不完全な正面画像である場合、この顔画像から分解された画像ブロックの数は、必要な異なる顔特徴の総数よりも小さく、言い換えれば、該顔画像から一部の顔特徴を検出できない可能性がある。後続のステップでは、第1顔画像におけるいくつかの顔特徴と、第2顔画像におけるいくつかの顔特徴とを選択することにより、新たな顔画像を合成することができるため、入力された1つの顔画像から、新たな顔画像の生成に必要な全ての顔特徴を取得する必要がなく、入力された2つの顔画像から、新たな顔画像の生成に必要な全ての顔特徴を寄せ集めることができればよい。
要するに、第1画像ブロックの数M及び第2画像ブロックの数Nはともに、新たな顔画像の生成に必要な異なる顔特徴の総数Lに等しくてもよい。又は、第1画像ブロックの数M及び第2画像ブロックの数Nのうち、一方は、新たな顔画像の生成に必要な異なる顔特徴の総数Lに等しくてもよく、他方は、L未満であってもよい。又は、第1画像ブロックの数M及び第2画像ブロックの数Nはともに、L未満であってもよく、さらに、MとNは等しくてもよいし、等しくなくてもよい。
次に、ステップS103で、M個の第1画像ブロック及びN個の第2画像ブロックを特徴空間に変換して、M個の第1特徴ブロック及びN個の第2特徴ブロックを生成する。
変換ネットワーク、例えば符号化ネットワークによって、画像空間から特徴空間への変換を実現してもよい。異なる顔特徴の画像ブロックに対して、同一の符号化ネットワークを設定してもよい。又は、他の可能な実施形態として、各顔特徴の見掛けの差異のため、顔特徴ごとに特有の特徴を取得する。具体的には、各顔特徴それぞれに対応する画像ブロックに対して、1つの符号化ネットワークを設置してもよい。例えば、1組の符号化ネットワークを設置し、そのうち、符号化ネットワークE1は、左目及び左眉に対応する画像ブロックに用いられ、符号化ネットワークE2は、右目及び右眉に対応する画像ブロックに用いられ、符号化ネットワークE3は、鼻に対応する画像ブロックに用いられ、符号化ネットワークE4は、口に対応する画像ブロックに用いられ、符号化ネットワークE5は、顔の輪郭に対応する画像ブロックに用いられる。符号化ネットワークE1~E5のパラメータはそれぞれ異なる。M個の第1画像ブロックを、それぞれ、対応する符号化ネットワークE1~E5によって特徴空間に変換し、同様に、N個の第2画像ブロックを、それぞれ、対応する符号化ネットワークE1~E5によって特徴空間に変換する。例えば、符号化ネットワークによって、2次元の画像ブロックを、長さ、幅、及び高さを有する3次元の特徴ブロックに変換することができる。
その後、ステップS104で、特定の制御ベクトルに応じて、一部の第1特徴ブロック及び一部の第2特徴ブロックを選択する。
特定の制御ベクトルは、各顔特徴に対応するL個の情報ビットを含む。ここで注意すべきものとして、情報ビットの数は、上記に記載の新たな顔画像の生成に必要な異なる顔特徴の総数Lと同じであり、上記のように、Lは自然数であり、M≦LかつN≦Lである。例えば、上記に記載の、顔特徴が左目及び左眉、右目及び右眉、鼻、口、並びに顔の輪郭に分けられる場合、前記制御ベクトルは5つの情報ビットを含み、この5つの情報ビットは、それぞれ、左目及び左眉、右目及び右眉、鼻、口、並びに顔の輪郭に対応する。また、特定の制御ベクトルは、ユーザが手動で設定してもよく、ランダムで自動的に設定してもよい。
具体的には、特定の制御ベクトルに応じて、一部の第1特徴ブロック及び一部の第2特徴ブロックを選択するステップは、前記特定の制御ベクトルにおけるある情報ビットが第1値である場合、M個の第1特徴ブロックの中から、該情報ビットに対応する顔特徴の特徴ブロックを選択し、前記特定の制御ベクトルにおける該情報ビットが第2値である場合、N個の第2特徴ブロックの中から、該情報ビットに対応する顔特徴の特徴ブロックを選択するステップをさらに含む。制御ベクトルにおける各情報ビットに応じて順次選択することにより、L個の特徴ブロックを取得し、これらの特徴ブロックは、一部の第1特徴ブロックと一部の第2特徴ブロックとからなる混合特徴ブロックである。
例を挙げると、制御ベクトルvが10010であるとすれば、第1特徴ブロックのうち、左目及び左眉に対応する特徴ブロックと、口に対応する特徴ブロックとを選択するとともに、第2特徴ブロックのうち、右目及び右眉に対応する特徴ブロックと、鼻に対応する特徴ブロックと、顔の輪郭に対応する特徴ブロックとを選択することを意味する。
次に、ステップS105で、少なくとも選択した一部の第1特徴ブロック及び一部の第2特徴ブロックに基づいて、第1合成特徴マップを生成する。
例えば、上記の例を引き続き使用すると、制御ベクトルvが10010である場合、第1特徴ブロックのうち、左目及び左眉に対応する特徴ブロック、口に対応する特徴ブロック、並びに、第2特徴ブロックのうち、右目及び右眉に対応する特徴ブロック、鼻に対応する特徴ブロック、顔の輪郭に対応する特徴ブロックに基づいて、第1合成特徴マップを生成してもよい。即ち、特徴空間において、異なるソースからの顔特徴の特徴ブロックを新たに組み合わせて、各顔特徴を有する新たな合成特徴マップとする。
また、出力される第3顔画像の属性(例えば、年齢や性別)を制御することが可能である。例えば、出力したい第3顔画像の性別を指定することができる。また、入力された第1顔画像と第2顔画像の属性情報には大きな差異が存在する場合がある。具体的には、第1顔画像の年齢と第2顔画像の年齢は、大きく異なる場合がある。例えば、第1顔画像の年齢は20歳であるのに対し、第2顔画像の年齢は60歳である。出力される第3顔画像の属性を制御するとともに、最終的に生成する第3顔画像の不調和を防止するために、他の可能な実施形態として、選択した特徴ブロックを基に、属性特徴をさらに重ね合わせる。例えば、出力したい第3顔画像が女性の顔画像である場合、ひげのような男性特徴を除去するために、性別が女性である属性特徴をさらに重ね合わせてもよい。又は、入力顔画像の年齢差をバランスさせるために、平均年齢(上記の例では、40歳であってもよい)の属性特徴をさらに重ね合わせてもよい。
具体的には、少なくとも選択した一部の第1特徴ブロック及び一部の第2特徴ブロックに基づいて、第1合成特徴マップを生成するステップは、以下のステップをさらに含んでもよい。まず、指定の属性情報を、前記特徴空間にある属性特徴ブロックに拡張する。上記に記載の、2次元の画像ブロックを、長さ、幅、及び高さを有する3次元の特徴ブロックに変換した場合、属性情報を、特徴ブロックとは、長さ及び幅が同じであるが、高さが異なる特徴ブロックに拡張してもよい。その後、選択した一部の第1特徴ブロック及び一部の第2特徴ブロックと、属性特徴ブロックとに基づいて、第1合成特徴マップを生成する。
最後に、ステップS106で、前記第1合成特徴マップを画像空間に逆変換して、第3顔画像(Io1)を生成する。逆変換ネットワーク、例えば、復号化ネットワークDによって、特徴空間から画像空間への逆変換を実現してもよい。
上記に記載の、M個の第1画像ブロック及びN個の第2画像ブロックに基づいて第3顔画像を生成することは、継承ネットワークによって実現されると考えられる。前記継承ネットワークは、上記に記載の符号化ネットワークE1~E5、及び復号化ネットワークDを含んでもよく、各種のニューラルネットワークによって実現してもよい。該継承ネットワークを関数finhと表すと、該関数は、入力が第1顔画像IMA及び第2顔画像IFA、並びに制御ベクトルvを含み、出力が第3顔画像Io1であり、具体的な式が以下のとおりである。

Figure 2022513858000004
又は、属性特徴を追加する場合、該関数の入力は、出力したい第3顔画像の年齢(y)及び性別(y)をさらに含み、具体的な式は以下のとおりである。

Figure 2022513858000005
図2は、本願の実施例による継承ネットワークに関するデータフロー図を示す。図2に示すように、入力ソースとしての第1顔画像IMA及び第2顔画像IFAが、顔特徴に対応する画像ブロックに分解された後、1組の符号化ネットワークE1~E5によって特徴空間の特徴ブロックに変換され、特徴ブロックが、制御ベクトルv応じて選択されて交換され、その後、属性特徴ブロックと結合され、最後に復号化ネットワークDによって画像空間に変換され、第3顔画像Io1が生成される。
第3顔画像は、第1顔画像における一部の顔特徴と、第2顔画像における一部の顔特徴とを継承した合成顔画像である。第1顔画像と第2顔画像が性別の異なる2人の顔画像である場合、生成された第3顔画像は、この2人が両親であると仮定する場合の子供の顔画像であってもよい。第1顔画像と第2顔画像が同じ性別の2人の顔画像である場合、生成された第3顔画像は、この2人の顔特徴の利点を組み合わせて合成された仮想顔画像であってもよい。第1顔画像と第2顔画像が、複数の人の顔特徴を寄せ集めて生成された合成画像である場合、生成された第3顔画像によって、特定の人の顔画像を推断できる。これは、刑事捜査における目撃証人による識別に特に重要である。例えば、顔特徴ライブラリから、容疑者に類似した各顔特徴が目撃証人により選択された後、各顔特徴を組み合わせて、実際の写真に似ない低品質の合成顔画像を生成する。容疑者の特定を容易にするために、この合成顔画像を第1顔画像とするとともに、第2顔画像をランダムに選択し、特定の制御ベクトルを11111に設定する(即ち、第1顔画像における顔特徴画像を全て選択する)ことにより、実際の画像に非常に類似した第3顔画像を出力することができる。
本願の実施例による顔画像生成用のデータ処理方法では、図1を参照して説明した各処理ステップから分かるように、顔特徴画像の分割、及び特徴空間での再構築によって、第1顔画像における一部の顔特徴と、第2顔画像における一部の顔特徴とを継承した第3顔画像を生成することができる。従来技術における汎用処理ネットワークを使用した方式に比べて、出力された第3顔画像と、入力ソースとしての顔画像との類似性を確保しつつ、出力された第3顔画像を実際の画像に近くすることができる。言い換えれば、ユーザは、該第3顔画像を見るときに、該画像が実際の画像であるか合成画像であるかを見分けるのが難しい。
さらに、制御ベクトルを設定することにより、第3顔画像が2つの入力顔画像におけるどの顔特徴を継承するかを精確に制御することができる。図3は、異なる制御ベクトルでの顔画像の生成結果を示す。図3から分かるように、異なる制御ベクトルを設定することにより、生成された第3顔画像における五官と、入力ソースとしての2つの顔画像との継承関係を精確に制御することができる。
図4は、入力された顔画像にランダム要素を追加した顔画像の生成結果、即ち、上記に記載のように、入力された顔画像が、1人の元の顔特徴を基に、そのうちの1つの顔特徴を、顔特徴ライブラリからランダムに選択された1つの顔特徴に取り替えて生成された合成画像である場合の顔画像の生成結果を示す。図4において、上から下の各行は、目及び眉、鼻、口、並びに顔の輪郭にランダム要素を追加した生成結果をそれぞれ示す。
また、特徴空間での属性特徴ブロックの重ね合わせによって、第3顔画像の属性を指定し、さらに第3顔画像の調和度及び自然さを向上させることができる。
上記に記載の継承ネットワークは、第1顔画像及び第2顔画像とは顔特徴が類似した第3顔画像を出力することを主な目的とするため、それに含まれる属性特徴ブロックの重ね合わせが、類似度を確保する前提での微調整である。言い換えれば、継承ネットワークから出力された第3顔画像は、年齢のような属性の面で、入力ソースとしての第1顔画像及び第2顔画像に近似する。
より大きな範囲で出力顔画像の属性を調整するために、他の可能な実施形態として、図1に戻って参照すると、ステップS105の後に、以下のステップをさらに含んでもよい。
ステップS107で、前記第3顔画像を特徴空間に変換して、第3特徴マップを生成する。例えば、符号化ネットワークE0によって、画像空間から特徴空間への変換を実現してもよい。もちろん、ここでの符号化ネットワークE0のパラメータは、上記に記載の符号化ネットワークE1~E5のパラメータとは同じではない。
その後、ステップS108で、特定の属性情報を、前記特徴空間における属性特徴マップに拡張する。例えば、ステップS107において、2次元の画像を、長さ、幅、及び高さを有する3次元の特徴マップに変換した場合、属性情報を、3次元の特徴マップとは、長さ及び幅が同じであるが、高さが異なる特徴マップに拡張してもよい。
次に、ステップS109で、前記属性特徴マップ及び前記第3特徴マップに基づいて、第2合成特徴マップを生成する。
最後に、ステップS110で、第2合成特徴マップを画像空間に逆変換して、第4顔画像を生成する。例えば、復号化ネットワークD0によって、特徴空間から画像空間への逆変換を実現してもよい。ここで、復号化ネットワークD0のパラメータも、上記のステップS105に言及された復号化ネットワークDのパラメータとは同じではない。
ステップS107~S110は、任意選択的であるため、図1において破線枠で示されている。
上記に記載の、第3顔画像に基づいて前記第4顔画像を生成することは、属性強化ネットワークによって実現されると考えられる。前記属性強化ネットワークは、上記に記載の符号化ネットワークE0及び復号化ネットワークD0を含んでもよく、各種のニューラルネットワークによって実現してもよい。該属性強化ネットワークを関数fattと表すと、該関数は、入力が第3顔画像Io1、並びに出力したい第4顔画像の年齢(y)及び性別(y)を含み、出力が第4顔画像Io2であり、具体的な式が以下のとおりである。

Figure 2022513858000006
図5は、本願の実施例による属性強化ネットワークに関するデータフローの図を示す。図5に示すように、第3顔画像Io1が、符号化ネットワークE0によって、特徴空間における第3特徴マップZに変換され、その後、Zが、特徴空間において、属性情報y及びyと結合され、復号化ネットワークD0によって画像空間に逆変換され、第4顔画像Io2が得られる。
第3顔画像に比べて、第4顔画像は、属性が大きく変わることが可能である。例えば、入力された、年齢が20歳である第3顔画像に基づいて、年齢が5歳である第4顔画像を出力することができる。
図6は、指定の制御ベクトルで生成された異なる年齢段階の顔画像を示す。図6から分かるように、継承ネットワーク及び属性強化ネットワークによって、異なる年齢段階の顔画像を生成でき、かつ各年齢段階の顔には明らかな差異がある。
図7は、指定の制御ベクトルで生成された異なる年齢及び異なる性別の顔画像を示す。図7から分かるように、継承ネットワーク及び属性強化ネットワークによって、同じ制御ベクトルでも、性別や年齢の相違による、生成された顔画像の五官の差異、例えば、豊頬、眉、ほうれい線、唇の色などを体現することができる。
上記では、図1~図7を参照して、本願の実施例による顔画像生成用のデータ処理方法の具体的な過程を詳細に説明している。前記データ処理方法は、継承ネットワーク、又は、継承ネットワーク及び属性強化ネットワークによって実現される。上記で説明したデータ処理方法は、継承ネットワーク及び属性強化ネットワークの適用過程において実行される処理である。しかしながら、上記に記載のように、継承ネットワーク及び属性強化ネットワークは、符号化ネットワークと復号化ネットワークとを含んでもよく、符号化ネットワーク及び復号化ネットワークの両方に複数の決定対象パラメータが含まれる。訓練過程によってこれらのパラメータを決定することにより、継承ネットワーク及び属性強化ネットワークの構築を完成する。このように、継承ネットワーク及び属性強化ネットワークは、顔画像生成の機能を実現することが可能になる。言い換えれば、継承ネットワーク及び属性強化ネットワークを適用する前に、まず、継承ネットワーク及び属性強化ネットワークを訓練する必要がある。次に、まず図8を参照して継承ネットワークの訓練過程を説明する。前記継承ネットワークは、図8に示す以下の訓練ステップによって得ることができる。
上記の適用過程における第1~第4顔画像と区別するために、以下では、訓練過程に係る顔画像を第5~第10顔画像と限定する。
まず、ステップS801で、第5顔画像(I)における、各顔特徴に対応するL個の第5画像ブロックを取得し、第6顔画像(I)における、各顔特徴に対応するL個の第6画像ブロックを取得する。
ここで、特に指摘すべきものとして、上記の適用過程では、入力ソースとしての2つの顔画像に基づいて、1つの新たな顔画像を生成するだけでよいので、入力された2つの顔画像から取得された、顔特徴に対応する画像ブロックの数は、L以下であってもよい。ここで、Lは、新たな顔画像の生成に必要な異なる顔特徴の総数である。入力された2つの顔画像から、新たな顔画像の生成に必要な全ての顔特徴を寄せ集めることができればよい。しかしながら、上記の適用過程と異なり、訓練過程では、入力ソースとしての2つの顔画像に基づいて、2つの新たな顔画像を生成する必要があるので、入力ソースとしての第5顔画像及び第6顔画像から取得された画像ブロックの数は、ともにL個である。ここで、上記に記載のように、Lは、新たな顔画像の生成に必要な異なる顔特徴の総数である。
その後、ステップS802で、第1制御ベクトルvに応じて、一部の第5画像ブロック及び一部の第6画像ブロックを選択して、第1合成画像

Figure 2022513858000007
を生成し、第2制御ベクトルvに応じて、他の一部の第5画像ブロック及び他の一部の第6画像ブロックを選択して、第2合成画像

Figure 2022513858000008
を生成する。
顔特徴交換に対応する関数がfsynであると仮定すると、顔特徴を交換する合成過程は、下記の式で表すことができる。

Figure 2022513858000009
後続の訓練效果を確保するために、色補正方法によって、顔特徴が交換された合成画像をさらに融合して、合成画像に色むらが出ないようにする。ここで、指摘すべきものとして、上記で説明した適用過程にも、第1顔画像及び第2顔画像が、既存の顔特徴ライブラリから選択された顔特徴画像に基づいて生成された合成画像であってもよいことが言及されている。しかしながら、適用過程において、継承ネットワークの訓練が終了したため、合成画像に対して色補正処理を実行しなくてもよい。
次に、ステップS803で、第1合成画像

Figure 2022513858000010
における、各顔特徴に対応するL個の第7画像ブロックを取得し、第2合成画像

Figure 2022513858000011
における、各顔特徴に対応するL個の第8画像ブロックを取得する。
ステップS804で、L個の第7画像ブロック及びL個の第8画像ブロックを継承ネットワークに入力する。
その後、ステップS805で、前記継承ネットワークによって、第1制御ベクトルに応じて選択された一部の第7画像ブロック及び一部の第8画像ブロックに基づいて生成された第7顔画像(I’)を出力し、第2制御ベクトルに応じて選択された他の一部の第7画像ブロック及び他の一部の第8画像ブロックに基づいて生成された第8顔画像(I’)を出力する。ここで、第5顔画像が、第7顔画像に監督情報を提供するための監督画像であり、第6顔画像が、第8顔画像に監督情報を提供するための監督画像である。また、第5~第8顔画像を1組の継承訓練データとする。
継承ネットワークに対応する関数がfinhであると仮定すると、継承ネットワークによる生成過程は、下記の式で表すことができる。

Figure 2022513858000012
ここで、

Figure 2022513858000013
は、それぞれ、第5顔画像の属性と性別を表し、

Figure 2022513858000014
は、それぞれ、第6顔画像の属性と性別を表す。訓練過程では、後続の損失関数の計算を容易にするために、出力したい顔画像の属性を、入力ソースとしての顔画像の属性と同じに設定する。
上記のステップから分かるように、継承ネットワークの適用過程に比べて、継承ネットワークの訓練過程では、入力ソースとしての顔画像を継承ネットワークに入力する前に、予め顔特徴交換処理を1回行っておくという点が異なる。これは、継承ネットワークから出力される顔画像に監督情報を提供することを目的とする。
具体的には、入力ソースとしての第5顔画像及び第6顔画像を継承ネットワークに提供する前に、1つの制御ベクトルで顔特徴を1回交換してから、顔特徴が交換された合成画像を継承ネットワークに提供すれば、継承ネットワークのパラメータが正確に設定されている場合、同じ制御ベクトルで顔特徴をもう1回交換することにより、元の第5顔画像又は第6顔画像を得ることができるはずである。
理解しやすさから、図9は、継承ネットワークの訓練過程における2回の顔特徴交換の模式的な過程を示す。図9において、入力ソースとしての第5顔画像(I)における、各顔特徴の画像ブロックを文字Aで表し、入力ソースとしての第6顔画像(I)における、各顔特徴の画像ブロックを文字Bで表す。第5顔画像(I)については、第1制御ベクトルv=01010で顔特徴交換を行い、その後、同一の第1制御ベクトルv=01010で顔特徴交換を再度実行すれば、元の第5顔画像(I)と同じ画像が得られる。同様に、第6顔画像(I)については、第2制御ベクトルv=10101で顔特徴交換を行い、その後、同一の第2制御ベクトルv=10101で顔特徴交換を再度実行すれば、元の第6顔画像(I)と同じ画像が得られる。指摘すべきものとして、第1制御ベクトルvと第2制御ベクトルvは互いに反対である必要があることに注意されたい。
したがって、第5顔画像(I)を、継承ネットワークから出力される第7顔画像(I’)の監督画像とし、第6顔画像(I)を、継承ネットワークから出力される第8顔画像(I’)の監督画像とすることにより、父、母、及び子の関係が存在する顔データベースを構築する必要がなく、任意の既存の顔データベースを直接利用して、継承ネットワークの訓練過程を完成することができる。
本願の実施例による継承ネットワークの訓練過程において、敵対的生成ネットワーク(GAN)の方式で学習する。敵対的生成ネットワークは、生成ネットワークと識別ネットワークとを含み、生成ネットワークと識別ネットワークとの競合という新しい方式でデータ分布を学習するものである。生成ネットワークは、実際のデータ分布をできるだけ学習することを目的とするが、識別ネットワークは、入力データが、実際のデータからのものであるか、生成ネットワークからのものであるかをできるだけ正確に識別することを目的とする。訓練過程では、生成ネットワーク及び識別ネットワークを絶えずに最適化して、それぞれの生成能力及び識別能力を高める必要がある。
継承ネットワークは、ここでの生成ネットワークと見なすことができる。また、継承ネットワークから出力された画像に対して、識別ネットワーク、例えば、第1識別ネットワークを設置する必要があり、該識別ネットワークは、それに入力された画像の真偽を判断するためのものである。いわゆる真とは、出力された顔画像が実際の画像であることをいい、いわゆる偽とは、出力された顔画像が、継承ネットワークから出力された画像であることをいう。
したがって、次に、ステップS806で、少なくとも1組の継承訓練データを第1識別ネットワークに入力し、前記第1識別ネットワークは、ある画像が入力されると、該画像が実際の画像である確率値を出力するように設定される。
最後に、ステップS807で、第1損失関数に基づいて、前記第1損失関数が収束するまで、前記継承ネットワークと前記第1識別ネットワークを交互に訓練する。
図10は、本願の実施例による継承ネットワークの訓練過程におけるデータフロー図を示す。訓練過程では、上記に記載のように、入力ソースとしての2つの顔画像をそれぞれ継承ネットワークの2つの出力顔画像の監督画像とするので、対照を容易にするために、図10に継承ネットワークの2つの出力を同時に示している。実際には、上記で図2を参照して説明したように、2つの顔画像を入力として継承ネットワークに提供するたびに、1つだけの顔画像が出力される。
図10に示すように、第5顔画像Iに対して同一の制御ベクトルvで交換を2回行うことにより、第7顔画像I’を取得し、IをI’の監督画像とする。同様に、第6顔画像Iに対して、同一の制御ベクトルvで交換を2回行うことにより、第8顔画像I’を取得し、IをI’の監督画像とする。
可能な一実施形態として、前記第1損失関数は、少なくとも1組の継承訓練データに対して前記第1識別ネットワークが出力した確率値と、少なくとも1組の継承訓練データにおける、顔画像と、対応する監督画像との間の画素の差異とに基づいて決定される。
具体的には、前記第1損失関数は、敵対的損失と画素損失との2つの部分の和を含む。敵対的損失

Figure 2022513858000015
は、継承ネットワークによって生成された顔画像の分布を実際の画像により近くし、以下の式によって計算することができる。

Figure 2022513858000016
ここで、Dは、第1識別ネットワークを表し、D(I’)は、継承ネットワークから出力された画像を第1識別ネットワークに入力した場合の第1識別ネットワークの出力(確率値)であり、D(I)は、実際の画像を第1識別ネットワークに入力した場合の第1識別ネットワークの出力(確率値)である。

Figure 2022513858000017
は、顔画像I’が入力された場合の第1識別ネットワークの出力の平均値を表し、ここで、I’は、継承ネットワークから出力された顔画像である。

Figure 2022513858000018
は、顔画像Iが入力された場合の第1識別ネットワークの出力の平均値を表し、ここで、Iは、実際の顔データベースからの顔画像である。
また、他の可能な実施形態として、第1損失関数をより安定させるために、WGAN(Wasserstein GAN)のフレームワークに基づいて、第1損失関数にノイズ成分を追加してもよく、具体的な式は以下のとおりである。

Figure 2022513858000019
ここで、λgpは、WGANのハイパーパラメータであり、

Figure 2022513858000020
は、ノイズ

Figure 2022513858000021
を第1識別ネットワークに入力した場合の第1識別ネットワークの出力であり、

Figure 2022513858000022
は、

Figure 2022513858000023
の勾配を求めた後の2ノルムである。
画素損失

Figure 2022513858000024
は、継承ネットワークによって生成された顔画像と、入力ソースとしての顔画像との類似性を確保するためのものであり、継承ネットワークによって生成された顔画像と実際の顔画像との間の画素レベルの損失、即ち2枚の画像の画素値の差異の絶対値の和で表し、具体的な式は以下のとおりである。

Figure 2022513858000025
したがって、第1損失関数は、以下のように表すことができる。

Figure 2022513858000026
ここで、λ11とλ12は、重み係数である。
第1損失関数に基づいて、前記継承ネットワークと前記第1識別ネットワークを交互に訓練する。具体的には、まず、継承ネットワークを一定にして、第1識別ネットワークを訓練してもよい。このとき、第1損失関数の値はできるだけ小さいことが望ましい。その後、第1識別ネットワークを一定にして、継承ネットワークを訓練してもよい。このとき、第1損失関数の値はできるだけ大きいことが望ましい。複数ラウンドの訓練後、異なる継承訓練データに対する第1損失関数の波動が大きくなく、即ち第1損失関数が収束すると、継承ネットワークの訓練は完了する。
他の可能な実施形態として、上記に記載の敵対的損失及び画素損失に加えて、第1損失関数は、さらに、少なくとも1組の継承訓練データにおける、顔画像の属性と、対応する監督画像の属性との間の差異と、少なくとも1組の継承訓練データにおける、顔画像の特徴と、対応する監督画像の特徴との間の差異とのうちの少なくとも1つに基づいて決定されてもよい。
具体的には、第1損失関数は、属性損失をさらに含んでもよい。属性損失は、継承ネットワークから出力された顔画像の属性と、入力ソースとしての実際の顔画像の属性との間の差異によって決定される。年齢及び性別の損失関数は、それぞれ、以下の式によって計算することができる。

Figure 2022513858000027
Figure 2022513858000028
ここで、DとDは、それぞれ、1つの画像の年齢と性別を識別するネットワークである。例えば、ResNetを用いて、年齢と性別の回帰モデルを事前訓練してもよい。これにより、該モデルに画像I’を入力すると、該画像の年齢と性別の情報が出力される。D(I’)は、Dによって判断された顔画像(I’)の年齢を表し、D(I’)は、Dによって判断された顔画像(I’)の性別を表す。

Figure 2022513858000029
は、入力ソースとしての実際の顔画像の年齢を表し、

Figure 2022513858000030
は、入力ソースとしての実際の顔画像の性別を表す。
また、第1損失関数は、知覚損失をさらに含んでもよい。例えば、19層のVGG特徴を用いて、知覚損失

Figure 2022513858000031
、即ち、継承ネットワークから出力された顔画像のVGG特徴と、入力ソースとしての実際の顔画像のVGG特徴との距離を計算することができ、具体的な式は以下のとおりである。

Figure 2022513858000032
ここで、

Figure 2022513858000033
は、それぞれ、顔画像IとI’の、VGG19のi番目のプーリング層前のj番目の畳み込み層における特徴を指す。
例えば、他の可能な実施形態として、第1損失関数は、以下のように表してもよい。

Figure 2022513858000034
ここで、λ11、λ12、λ13、λ14、及びλ15は、異なる重み係数であり、各損失関数の重要性に応じて割り当ててもよい。
次に、図11を参照して、属性強化ネットワークの訓練過程を説明する。前記属性強化ネットワークは、図11に示す以下の訓練ステップによって得られてもよい。
本願の実施例による属性強化ネットワークの訓練過程においても、敵対的生成ネットワーク(GAN)の方式で学習する。
属性強化ネットワークは、ここでの生成ネットワークと見なすことができる。また、属性強化ネットワークから出力された画像に対して、識別ネットワーク、例えば、第1識別ネットワークを設置する必要あり、該識別ネットワークは、それに入力された画像の真偽を判断するためのものである。いわゆる真とは、出力された顔画像が実際の画像であることをいい、いわゆる偽とは、出力された顔画像が、属性強化ネットワークから出力された画像であることをいう。
上記に記載のように、第3顔画像を属性強化ネットワークに入力することにより、前記第4顔画像を生成し、前記属性強化ネットワークは、図11に示す以下の訓練ステップによって得られる。
まず、ステップS1101で、第7顔画像(I’)及び第8顔画像(I’)を属性強化ネットワークに入力する。
その後、ステップS1102で、属性強化ネットワークによって、第7顔画像に対応する第9顔画像

Figure 2022513858000035
と、第8顔画像に対応する第10顔画像

Figure 2022513858000036
とを出力し、第7~第10顔画像を1組の属性訓練データとし、ここで、第7顔画像は、第9顔画像に監督情報を提供するための監督画像であり、第8顔画像は、第10顔画像に監督情報を提供するための監督画像である。
属性強化ネットワークに対応する関数がfattであると仮定すると、属性強化ネットワークの生成過程は、下記の式で表すことができる。

Figure 2022513858000037
ここで、

Figure 2022513858000038
は、それぞれ、第5顔画像の属性と性別を表し、

Figure 2022513858000039
は、それぞれ、第6顔画像の属性と性別を表す。訓練過程では、後続の損失関数の計算を容易にするために、出力したい顔画像の属性を、入力ソースとしての顔画像の属性と同じに設定する。
次に、ステップS1103で、少なくとも1組の属性訓練データを第2識別ネットワークに入力し、前記第2識別ネットワークは、ある画像が入力されると、該画像が実際の画像である確率値を出力するように設定される。
最後に、ステップS1104で、第2損失関数に基づいて、前記第2損失関数が収束するまで、前記属性強化ネットワークと前記第2識別ネットワークを交互に訓練する。
図12は、本願の実施例による属性強化ネットワークの訓練過程におけるデータフロー図を示す。図10と同様に、図12にも属性強化ネットワークの2つの出力が同時に示されている。
図12に示すように、第7顔画像I’及び第8顔画像I’を属性強化ネットワークに入力して、特徴空間に変換することにより、特徴マップZ及びZをそれぞれ取得し、特徴空間において特徴マップZ及びZを属性特徴と結合して、画像空間に逆変換することにより、第9顔画像

Figure 2022513858000040
及び第10顔画像

Figure 2022513858000041
を取得し、第7顔画像I’と第8顔画像I’をそれぞれ第9顔画像

Figure 2022513858000042
と第10顔画像

Figure 2022513858000043
の監督画像とする。
可能な一実施形態として、前記第2損失関数は、少なくとも1組の属性訓練データに対して前記第2識別ネットワークが出力した確率値と、少なくとも1組の属性訓練データにおける、顔画像と、対応する監督画像との間の画素の差異とに基づいて決定される。
具体的には、前記第2損失関数は、敵対的損失と画素損失との2つの部分の和を含む。敵対的損失

Figure 2022513858000044
は、属性強化ネットワークによって生成される顔画像の分布を実際の画像により近くし、以下の式によって計算することができる。

Figure 2022513858000045
ここで、

Figure 2022513858000046
は、第2識別ネットワークを表し、

Figure 2022513858000047
は、属性強化ネットワークから出力された画像を第2識別ネットワークに入力した場合の第2識別ネットワークの出力(確率値)であり、

Figure 2022513858000048
は、実際の画像を第2識別ネットワークに入力した場合の第2識別ネットワークの出力(確率値)である。

Figure 2022513858000049
は、顔画像

Figure 2022513858000050
が入力された場合の第2識別ネットワークの出力の対数の平均値を表し、ここで、

Figure 2022513858000051
は、属性強化ネットワークから出力された顔画像である。

Figure 2022513858000052
は、顔画像Iが入力された場合の第2識別ネットワークの出力の対数の均値を表し、ここで、Iは、実際の顔データベースからの顔画像である。
また、他の可能な実施形態として、第2損失関数をより安定させるために、WGAN(Wasserstein GAN)のフレームワークに基づいて、第2損失関数にノイズ成分を追加してもよく、具体的な式は以下のとおりである。

Figure 2022513858000053
ここで、λgpは、WGANのハイパーパラメータであり、

Figure 2022513858000054
は、ノイズ

Figure 2022513858000055
を第2識別ネットワークに入力した場合の第2識別ネットワークの出力であり、

Figure 2022513858000056


Figure 2022513858000057
の勾配を求めた後の2ノルムである。
画素損失

Figure 2022513858000058
は、属性強化ネットワークによって生成された顔画像と、継承ネットワークから出力された顔画像との類似性を確保するためのものであり、属性強化ネットワークによって生成された顔画像と、継承ネットワークから出力された画像との間の画素レベルの損失、即ち2枚の画像の画素値の差異の絶対値の和で表し、具体的な式は以下のとおりである。

Figure 2022513858000059
したがって、第2損失関数は、以下のように表すことができる。

Figure 2022513858000060
ここで、λ21とλ22は、重み係数である。
他の可能な実施形態として、上記に記載の敵対的損失及び画素損失に加えて、第2損失関数は、さらに、少なくとも1組の属性訓練データにおける、顔画像の属性と、対応する監督画像の属性との間の差異と、少なくとも1組の属性訓練データにおける、顔画像の特徴と、対応する監督画像の特徴との間の差異とのうちの少なくとも1つに基づいて決定されてもよい。
具体的には、第2損失関数は、属性損失をさらに含んでもよい。属性損失は、属性強化ネットワークから出力された顔画像の属性と、継承ネットワークから出力された顔画像の属性との間の差異によって決定される。年齢と性別の損失関数は、それぞれ、以下の式によって計算することができる。

Figure 2022513858000061
Figure 2022513858000062
ここで、DとDは、それぞれ、1つの画像の年齢と性別を識別するネットワークである。例えば、ResNetを用いて、年齢と性別の回帰モデルを事前訓練してもよい。これにより、該モデルに画像I’を入力すると、該画像の年齢と性別の情報が出力される。

Figure 2022513858000063
は、Dによって判断された顔画像

Figure 2022513858000064
の年齢を表し、

Figure 2022513858000065
は、Dによって判断された顔画像

Figure 2022513858000066
の性別を表す。

Figure 2022513858000067
は、継承ネットワークの出力としての顔画像の年齢を表し、

Figure 2022513858000068
は、継承ネットワークの出力としての顔画像の性別を表す。継承ネットワークから出力された顔画像の年齢及び性別が、入力ソースとしての実際の顔画像の年齢及び性別と同じであるため、ここでの

Figure 2022513858000069
として、実際の顔画像の年齢と性別をそのまま使用してもよい。
また、第1損失関数は、知覚損失をさらに含んでもよい。例えば、19層のVGG特徴を用いて、知覚損失

Figure 2022513858000070
、即ち、属性強化ネットワークから出力された顔画像のVGG特徴と、継承ネットワークから出力された顔画像のVGG特徴との距離を計算することができ、具体的な式は以下のとおりである。

Figure 2022513858000071
ここで、

Figure 2022513858000072
は、顔画像

Figure 2022513858000073
の、VGG19のi番目のプーリング層前のj番目の畳み込み層における特徴を指す。
例えば、他の可能な実施形態として、第2損失関数は、以下のように表してもよい。

Figure 2022513858000074
ここで、λ21、λ22、λ23、λ24、及びλ25は、異なる重み係数であり、各損失関数の重要性に応じて割り当ててもよい。
第2損失関数に基づいて、前記属性強化ネットワークと前記第2識別ネットワークを交互に訓練する。具体的には、まず、属性強化ネットワークを一定にして、第2識別ネットワークを訓練してもよい。このとき、第2損失関数の値はできるだけ小さいことが望ましい。その後、第2識別ネットワークを一定にして、属性強化ネットワークを訓練してもよい。このとき、第2損失関数の値はできるだけ大きいことが望ましい。複数ラウンドの訓練後、異なる継承訓練データに対する第2損失関数の波動が大きくなく、即ち第2損失関数が収束すると、属性強化ネットワークの訓練は完了する。
ここで、指摘すべきものとして、属性強化ネットワークの適用過程では、元の入力顔画像の属性(例えば、年齢)を大幅に変えることができるが、属性強化ネットワークの訓練過程では、監督情報を提供できるために、最初に入力された顔画像と同じ属性を選択する。
上記では、継承ネットワーク及び属性強化ネットワークに対して個別に行われる訓練過程を説明している。他の可能な実施形態として、継承ネットワーク及び属性強化ネットワークの個別の訓練に加えて、全体最適解を得るために、この2つのネットワークを共同訓練してもよい。
具体的には、前記継承ネットワーク及び前記属性強化ネットワークは、前記第1損失関数及び前記第2損失関数に基づいて、総損失関数を決定するステップと、前記総損失関数に基づいて、前記総損失関数が収束するまで、前記継承ネットワーク及び前記属性強化ネットワークと、前記第1識別ネットワーク及び前記第2識別ネットワークとを交互に訓練するステップとの共同訓練ステップによってさらに最適化される。
具体的には、第1損失関数と第2損失関数との加重和を総損失関数Lとしてもよく、具体的な式は以下のとおりである。

Figure 2022513858000075
ここで、λ01とλ02は、異なる重み係数であり、各損失関数の重要性に応じて割り当ててもよい。
共同訓練過程では、例えば、まず、継承ネットワーク及び属性強化ネットワークを一定にして、第1識別ネットワーク及び第2識別ネットワークを訓練してもよい。このとき、総損失関数の値ができるだけ小さいように、第1識別ネットワーク及び第2識別ネットワークのパラメータを統一して調整する。その後、第1識別ネットワーク及び第2識別ネットワークを一定にして、継承ネットワーク及び属性強化ネットワークを訓練してもよい。このとき、総損失関数の値ができるだけ大きいように、継承ネットワーク及び属性強化ネットワークのパラメータを統一して調整する。複数ラウンドの訓練後、総損失関数が収束すると、2つのネットワークの共同訓練は完了する。
上記では、図1~図12を参照して、本願の実施例による顔画像生成用のデータ処理方法を詳細に説明している。次に、本願の実施例による顔画像生成用のデータ処理機器を説明する。
まず、本願の実施例の適用環境を簡単に説明する。図13に示すように、サーバ10は、ネットワーク30を介して、複数の端末機器20に接続される。前記複数の端末機器20は、入力ソースとしての第1顔画像及び第2顔画像を提供する機器である。前記端末は、スマート端末、例えば、スマートフォン、パーソナル・デジタル・アシスタント(PDA)、デスクトップコンピュータ、ノートコンピュータ、タブレットコンピュータなどであってもよく、他のタイプの端末であってもよい。前記サーバ10は、既存の顔データベースに基づいて、上記に記載の継承ネットワーク及び属性強化ネットワークを訓練するための機器である。さらに、前記サーバは、訓練済みの継承ネットワーク及び属性強化ネットワークを顔画像生成に用いる機器でもある。具体的には、前記サーバ10は、端末機器20に接続され、端末機器20から第1顔画像及び第2顔画像を受信し、サーバ10での訓練済みの継承ネットワーク及び属性強化ネットワークに基づいて、第3顔画像又は第4顔画像を生成し、生成した顔画像を端末機器20に伝送する。前記サーバ10は、下記に記載のデータ処理機器であってもよい。前記ネットワーク30は、任意タイプの有線又は無線のネットワーク、例えばインターネットであってもよい。認識すべきものとして、図13に示す端末機器20の数は、例示的なものであり、限定的なものではない。もちろん、本願の実施例による顔画像生成用のデータ処理機器は、ネットワークに接続されていないスタンドアロンデバイスであってもよい。
図14は、本願の実施例による顔画像生成用のデータ処理機器を図示している。図14に示すように、データ処理機器1400は、分割装置1401と、第1変換装置1402と、選択装置1403と、第1合成装置1404と、第1逆変換装置1405と、を含む。
分割装置1401は、入力された第1顔画像における、各顔特徴に対応するM個の第1画像ブロックを取得し、入力された第2顔画像における、各顔特徴に対応するN個の第2画像ブロックを取得する。
第1変換装置1402は、M個の第1画像ブロック及びN個の第2画像ブロックを特徴空間に変換して、M個の第1特徴ブロック及びN個の第2特徴ブロックを生成する。第1変換装置1402は、第1変換ネットワーク(例えば、符号化ネットワーク)によって、該変換を実行してもよい。
選択装置1403は、特定の制御ベクトルに応じて、一部の第1特徴ブロック及び一部の第2特徴ブロックを選択する。
本願の実施例では、前記特定の制御ベクトルは、各顔特徴に対応するL個の情報ビットを含み、前記選択装置1403は、さらに、前記特定の制御ベクトルにおけるある情報ビットが第1値である場合、M個の第1特徴ブロックの中から、該情報ビットに対応する顔特徴の特徴ブロックを選択し、前記特定の制御ベクトルにおける該情報ビットが第2値である場合、N個の第2特徴ブロックの中から、該情報ビットに対応する顔特徴の特徴ブロックを選択するように構成される。ここで、Lは自然数であり、M≦LかつN≦Lである。
第1合成装置1404は、少なくとも選択した一部の第1特徴ブロック及び一部の第2特徴ブロックに基づいて、第1合成特徴マップを生成する。
また、出力される第3顔画像の属性(例えば、年齢や性別)を制御することが可能である。例えば、出力したい第3顔画像の性別を指定することができる。また、入力された第1顔画像と第2顔画像の属性情報には大きな差異が存在する場合がある。したがって、他の可能な実施形態として、前記第1合成装置140は、さらに、指定の属性情報を、前記特徴空間にある属性特徴ブロックに拡張し、選択された一部の第1特徴ブロック及び一部の第2特徴ブロックと、属性特徴ブロックとに基づいて、第1合成特徴マップを生成するように構成される。
第1逆変換装置1405は、前記第1合成特徴マップを画像空間に逆変換して、第3顔画像を生成する。第1逆変換装置1405は、第1逆変換ネットワーク(例えば、復号化ネットワーク)によって、該逆変換を実行してもよい。また、第1変換ネットワーク及び第1逆変換ネットワークによって、継承ネットワークが構成される。
本願の実施例による顔画像生成用のデータ処理機器では、顔特徴画像の分割、及び特徴空間での再構築によって、第1顔画像における一部の顔特徴と、第2顔画像における一部の顔特徴とを継承した第3顔画像を生成することができる。従来技術における汎用処理ネットワークを使用した方式に比べて、出力された第3顔画像と、入力ソースとしての顔画像との類似性を確保しつつ、出力された第3顔画像を実際の画像に近くすることができる。言い換えれば、ユーザは、該第3顔画像を見るときに、該画像が実際の画像であるか合成画像であるかを見分けるのが難しい。さらに、制御ベクトルを設定することにより、第3顔画像が2つの入力顔画像におけるどの顔特徴を継承するかを精確に制御することができる。また、特徴空間での属性特徴の重ね合わせによって、第3顔画像の属性を指定し、さらに第3顔画像の調和度及び自然さを向上させることができる。
上記に記載の継承ネットワークは、第1顔画像及び第2顔画像とは顔特徴が類似した第3顔画像を出力することを主な目的とするため、それに含まれる属性特徴ブロックの重ね合わせが、類似度を確保する前提での微調整である。言い換えれば、継承ネットワークから出力された第3顔画像は、年齢のような属性の面で、入力ソースとしての第1顔画像及び第2顔画像に近似する。
より大きな範囲で出力顔画像の属性を調整するために、他の可能な実施形態として、データ処理機器1400は、第2変換装置1406と、拡張装置1407と、第2合成モジュール1408と、第2逆変換装置1409と、をさらに含んでもよい。
第2変換装置1406は、前記第3顔画像を特徴空間に変換して、第3特徴マップを生成する。第2変換装置は、第2変換ネットワーク(例えば、符号化ネットワーク)によって、該変換を実行してもよい。また、ここでの第2変換ネットワークは、上記の第1変換ネットワークと異なる。
拡張装置1407は、特定の属性情報を、前記特徴空間における属性特徴マップに拡張する。
第2合成モジュール1408は、前記属性特徴マップ及び前記第3特徴マップに基づいて、第2合成特徴マップを生成する。
第2逆変換装置1409は、第2合成特徴マップを画像空間に逆変換して、第4顔画像を生成する。第2逆変換装置は、第2逆変換ネットワーク(例えば、復号化ネットワーク)によって、該変換を実行してもよい。また、ここでの第2逆変換ネットワークは、上記の第1逆変換ネットワークと異なる。また、第2変換ネットワーク及び第2逆変換ネットワークによって、属性強化ネットワークが構成される。
第2変換装置1406、拡張装置1407、第2合成モジュール1408、及び第2逆変換装置1409は、任意選択的であるため、図14において破線枠で示されている。
第3顔画像に比べて、第4顔画像は、属性が大きく変わることが可能である。例えば、入力された、年齢が20歳である第3顔画像に基づいて、年齢が5歳である第4顔画像を出力することができる。
上記に記載のように、継承ネットワーク及び属性強化ネットワークは、符号化ネットワークと復号化ネットワークとを含んでもよく、符号化ネットワーク及び復号化ネットワークの両方に複数の決定対象パラメータが含まれる。訓練過程によってこれらのパラメータを決定することにより、継承ネットワーク及び属性強化ネットワークの構築を完成する。このように、継承ネットワーク及び属性強化ネットワークは、顔画像生成の機能を実現することが可能になる。言い換えれば、継承ネットワーク及び属性強化ネットワークを適用する前に、まず、継承ネットワーク及び属性強化ネットワークを訓練する必要がある。
したがって、前記データ処理機器1400は、訓練装置1410をさらに含む。
訓練装置1410は、訓練モードで、前記継承ネットワークを訓練する。具体的には、訓練装置1410は、事前交換モジュールと、第1識別モジュールと、第1訓練モジュールと、を含む。
事前交換モジュールは、第5顔画像(I)における、各顔特徴に対応するL個の第5画像ブロックを取得し、第6顔画像(I)における、各顔特徴に対応するL個の第6画像ブロックを取得し、第1制御ベクトルに応じて、一部の第5画像ブロック及び一部の第6画像ブロックを選択して、第1合成画像

Figure 2022513858000076
を生成し、第2制御ベクトルに応じて、他の一部の第5画像ブロック及び他の一部の第6画像ブロックを選択して、第2合成画像

Figure 2022513858000077
を生成する。ここで、訓練モードで、前記分割装置は、さらに、第1合成画像

Figure 2022513858000078
における、各顔特徴に対応するL個の第7画像ブロックを取得し、第2合成画像

Figure 2022513858000079
における、各顔特徴に対応するL個の第8画像ブロックを取得し、L個の第7画像ブロック及びL個の第8画像ブロックを継承ネットワークに入力するように構成される。ここで、Lは自然数であり、M≦LかつN≦Lである。
第1識別モジュールは、少なくとも1組の継承訓練データを受信し、第1識別ネットワークによって、入力された継承訓練データが実際の画像であることを識別するための確率値を出力する。ここで、前記少なくとも1組の継承訓練データは、第5~第8顔画像を含み、前記第7顔画像(I’)は、前記継承ネットワークが第1制御ベクトルに応じて一部の第7画像ブロック及び一部の第8画像ブロックを選択することにより生成され、前記第8顔画像(I’)は、前記継承ネットワークが第2制御ベクトルに応じて他の一部の第7画像ブロック及び他の一部の第8画像ブロックを選択することにより生成され、第5顔画像は、第7顔画像に監督情報を提供するための監督画像であり、第6顔画像は、第8顔画像に監督情報を提供するための監督画像である。
第1訓練モジュールは、第1損失関数に基づいて、前記第1損失関数が収束するまで、前記継承ネットワークと前記第1識別ネットワークを交互に訓練する。
ここで、前記第1損失関数は、少なくとも1組の継承訓練データに対して前記第1識別ネットワークが出力した確率値と、少なくとも1組の継承訓練データにおける、顔画像と、対応する監督画像との間の画素の差異とに基づいて決定される。
又は、他の可能な実施形態として、前記第1損失関数は、さらに、少なくとも1組の継承訓練データにおける、顔画像の属性と、対応する監督画像の属性との間の差異と、少なくとも1組の継承訓練データにおける、顔画像の特徴と、対応する監督画像の特徴との間の差異とのうちの少なくとも1つに基づいて決定される。
また、訓練装置1410は、さらに、訓練モードで、前記属性強化ネットワークを訓練する。
具体的には、前記訓練装置1410は、第2識別モジュールと、第2訓練モジュールと、をさらに含む。
第2識別モジュールは、少なくとも1組の属性訓練データを受信し、第2識別ネットワークによって、入力された属性訓練データが実際の画像であることを識別するための確率値を出力する。ここで、前記少なくとも1組の属性訓練データは、第7~第10顔画像を含み、前記第9顔画像

Figure 2022513858000080
は、前記属性強化ネットワークによって、第7顔画像に基づいて出力され、前記第10顔画像

Figure 2022513858000081
は、前記属性強化ネットワークによって、第8顔画像に基づいて出力され、第7顔画像は、第9顔画像に監督情報を提供するための監督画像であり、第8顔画像は、第10顔画像に監督情報を提供するための監督画像である。
第2訓練モジュールは、第2損失関数に基づいて、前記第2損失関数が収束するまで、前記属性強化ネットワークと前記第2識別ネットワークを交互に訓練する。
ここで、前記第2損失関数は、少なくとも1組の属性訓練データに対して前記第2識別ネットワークが出力した確率値と、少なくとも1組の属性訓練データにおける、顔画像と、対応する監督画像との間の画素の差異とに基づいて決定される。
又は、他の可能な実施形態として、前記第2損失関数は、さらに、少なくとも1組の属性訓練データにおける、顔画像の属性と、対応する監督画像の属性との間の差異と、少なくとも1組の属性訓練データにおける、顔画像の特徴と、対応する監督画像の特徴との間の差異とのうちの少なくとも1つに基づいて決定される。
また、前記訓練装置は、前記第1損失関数及び第2損失関数に基づいて、総損失関数を決定し、前記総損失関数に基づいて、前記総損失関数が収束するまで、前記継承ネットワーク及び前記属性強化ネットワークと、第1識別ネットワーク及び第2識別ネットワークとを交互に訓練する共同訓練モジュールをさらに含んでもよい。
本願の実施例によるデータ処理機器の各装置の具体的な操作は、本願の実施例によるデータ処理方法の各ステップに完全に対応するので、冗長性を避けるために、ここではその詳細について説明しない。当業者が理解できるように、本願の実施例によるデータ処理方法の各ステップは、同様に、本願の実施例によるデータ処理機器の各装置に適用可能である。
本願の実施例による顔画像生成用のデータ処理機器の、ハードウェアエンティティとしての一例は、図15に示されている。前記端末機器は、プロセッサ1501と、メモリ1502と、少なくとも1つの外部通信インタフェース1503と、を含む。前記プロセッサ1501、メモリ1502、及び外部通信インタフェース1503は、全てバス1504を介して接続される。
データ処理用のプロセッサ1501は、処理を実行する際に、マイクロプロセッサ、中央処理装置(CPU:Central Processing Unit)、デジタル信号プロセッサ(DSP:Digital Singnal Processor)、又はプログラマブルロジックアレイ(FPGA:Field-Programmable Gate Array)を用いて実現してもよい。メモリ1502には、操作命令が含まれ、該操作命令は、コンピュータ実行可能なコードであってもよい。前記操作命令によって、上述した本願の実施例の顔画像生成用のデータ処理方法の各ステップを実現させる。
図16は、本願の実施例によるコンピュータ読み取り可能な記録媒体の模式図を示す。図16に示すように、本願の実施例によるコンピュータ読み取り可能な記録媒体1600には、コンピュータプログラム命令1601が記憶されている。前記コンピュータプログラム命令1601は、プロセッサによって実行されると、上記の図面を参照して説明した本願の実施例による顔画像生成用のデータ処理方法を実行させる。
本願の実施例では、メモリとプロセッサとを備えるコンピュータ機器が提供されており、該メモリには、プロセッサで実行可能なコンピュータプログラムが記憶され、該プロセッサは、該コンピュータプログラムを実行すると、上記の実施例に記載の顔画像生成用のデータ処理方法を実現することができる。該コンピュータ機器は、上記に記載のサーバ、又はデータ処理を実施可能な任意の機器であってもよい。
ここまで、図1~図16を参照して、本願の実施例による顔画像生成用のデータ処理方法、機器、及び媒体を詳細に説明している。本願の実施例による顔画像生成用のデータ処理方法、機器、及び媒体では、顔特徴画像の分割、及び特徴空間での再構築によって、第1顔画像における一部の顔特徴と、第2顔画像における一部の顔特徴とを継承した第3顔画像を生成することができる。従来技術における汎用処理ネットワークを使用した方式に比べて、出力された第3顔画像と、入力ソースとしての顔画像との類似性を確保しつつ、出力された第3顔画像を実際の画像に近くすることができる。言い換えれば、ユーザは、該第3顔画像を見るときに、該画像が実際の画像であるか合成画像であるかを見分けるのが難しい。
さらに、継承ネットワークでは、制御ベクトルを設定することにより、第3顔画像が2つの入力顔画像におけるどの顔特徴を継承するかを精確に制御することができる。特徴空間での属性特徴の重ね合わせによって、第3顔画像の属性を指定し、さらに第3顔画像の調和度及び自然さを向上させることができる。また、追加の属性強化ネットワークによって、生成された顔画像の属性をより大きな範囲で変えることができる。さらに、訓練過程における2回の顔特徴交換によって、父、母、及び子の関係が存在する顔データベースを構築する必要がなく、既存の任意の顔データベースを直接利用して、継承ネットワークの訓練過程を完成することができ、コスト及び実現の難しさを大幅に低下させる。
説明すべきものとして、本明細書では、用語「含む」、「備える」、又はそれらの他の任意の変形は、非排他的な包含をカバーすることを意図するものである。これにより、一連の要素を含む過程、方法、物品、又は機器は、それらの要素だけでなく、明示的にリストされていない他の要素も含むか、又はこのような過程、方法、物品、又は機器に固有の要素も含む。これ以上の制限がない場合、「…を含む」という語句によって限定される要素により、前記要素を含む過程、方法、物品、又は機器に他の同じ要素も存在することが除外されない。
最後に説明すべきものとして、上述した一連の処理には、ここで述べた順序で時系列的に実行される処理だけでなく、時系列的ではなく、並列的又は個別的に実行される処理も含まれる。
上記の実施形態の説明から、当業者は、本願の実施例が、ソフトウェアと必要なハードウェアプラットフォームとによって実現されてもよく、もちろん、全てソフトウェアによって実施されてもよいことを明確に理解することができる。このような理解に基づいて、背景技術に対して貢献がある本願の実施例の構成の全部又は一部は、ソフトウェア製品の形式で具現化することができ、このコンピュータソフトウェア製品は、例えば、ROM/RAM、磁気ディスク、光ディスクなどの記憶媒体に記憶されてもよく、コンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク機器などであってもよい)に、本願の各実施例又は実施例のいくつかの部分に記載の方法を実行させるためのいくつかの命令を含む。
以上は、本願の実施例について詳細に説明している。本明細書では、本願の原理及び実施形態を説明するために具体例を使用したが、以上の実施例の説明は、本願の方法及びその主旨の理解を助けるためにのみ使用される。また、当業者にとっては、本願の構想に基づき、具体的な実施形態及び適用範囲のいずれにも変更があり得る。上述のように、本明細書の内容は、本願を制限するものと理解されるべきではない。
1401 分割装置
1402 第1変換装置
1403 選択装置
1404 第1合成装置
1405 第1逆変換装置
1406 第2変換装置
1407 拡張装置
1408 第2合成装置
1409 第2逆変換装置
1410 訓練装置
1600 コンピュータ読み取り可能な記録媒体
1601 コンピュータプログラム命令
上記の背景技術に記載のように、従来技術による顔画像生成方式では、汎用処理ネットワークが使用されるので、出力された顔画像と実際の顔画像との間には大きな差がある。これに加えて、従来技術による顔画像生成方式では、汎用処理ネットワークにおける符号化ネットワーク及び復号化ネットワークを訓練する際に、出力される合成顔画像に監督情報を提供するために、実際の顔のデータベースを収集して構築する必要がある。例えば、子供の顔予想の適用シナリオでは、父、母、及び子の関係が存在する顔データベースを収集して構築する必要がある。処理ネットワークが父又は母の顔画像に基づいて出力する合成子顔画像の監督情報として実際の子の顔画像を用いることにより、処理ネットワークのパラメータを調整して、訓練済みの処理ネットワークが、入力された顔画像に似てかつ実際の画像に類似した合成顔画像を出力できるようにする。しかしながら、実践では、このようなデータベースを収集して構築するには、大きなコストがかかる。
具体的には、特定の制御ベクトルに応じて、一部の第1特徴ブロック及び一部の第2特徴ブロックを選択するステップは、前記特定の制御ベクトルにおけるある情報ビットが第1値である場合、M個の第1特徴ブロックの中から、該情報ビットに対応する顔特徴の特徴ブロックを選択し、前記特定の制御ベクトルにおける該情報ビットが第2値である場合、N個の第2特徴ブロックの中から、該情報ビットに対応する顔特徴の特徴ブロックを選択するステップを含む。制御ベクトルにおける各情報ビットに応じて順次選択することにより、L個の特徴ブロックを取得し、これらの特徴ブロックは、一部の第1特徴ブロックと一部の第2特徴ブロックとからなる混合特徴ブロックである。
より大きな範囲で出力顔画像の属性を調整するために、他の可能な実施形態として、図1に戻って参照すると、ステップS10の後に、前記データ処理方法は、以下のステップをさらに含んでもよい。
可能な一実施形態として、前記第1損失関数は、少なくとも1組の継承訓練データに対して前記第1識別ネットワークが出力した確率値と、少なくとも1組の継承訓練データにおける、顔画像と、該顔画像に対応する監督画像との間の画素の差異とに基づいて決定される。
他の可能な実施形態として、上記に記載の敵対的損失及び画素損失に加えて、第1損失関数は、さらに、少なくとも1組の継承訓練データにおける、顔画像の属性と、該顔画像に対応する監督画像の属性との間の差異と、少なくとも1組の継承訓練データにおける、顔画像の特徴と、該顔画像に対応する監督画像の特徴との間の差異とのうちの少なくとも1つに基づいて決定されてもよい。
可能な一実施形態として、前記第2損失関数は、少なくとも1組の属性訓練データに対して前記第2識別ネットワークが出力した確率値と、少なくとも1組の属性訓練データにおける、顔画像と、該顔画像に対応する監督画像との間の画素の差異とに基づいて決定される。
他の可能な実施形態として、上記に記載の敵対的損失及び画素損失に加えて、第2損失関数は、さらに、少なくとも1組の属性訓練データにおける、顔画像の属性と、該顔画像に対応する監督画像の属性との間の差異と、少なくとも1組の属性訓練データにおける、顔画像の特徴と、該顔画像に対応する監督画像の特徴との間の差異とのうちの少なくとも1つに基づいて決定されてもよい。
また、第損失関数は、知覚損失をさらに含んでもよい。例えば、19層のVGG特徴を用いて、知覚損失

Figure 2022513858000104
、即ち、属性強化ネットワークから出力された顔画像のVGG特徴と、継承ネットワークから出力された顔画像のVGG特徴との距離を計算することができ、具体的な式は以下のとおりである。
また、出力される第3顔画像の属性(例えば、年齢や性別)を制御することが可能である。例えば、出力したい第3顔画像の性別を指定することができる。また、入力された第1顔画像と第2顔画像の属性情報には大きな差異が存在する場合がある。したがって、他の可能な実施形態として、前記第1合成装置140は、さらに、指定の属性情報を、前記特徴空間にある属性特徴ブロックに拡張し、選択された一部の第1特徴ブロック及び一部の第2特徴ブロックと、属性特徴ブロックとに基づいて、第1合成特徴マップを生成するように構成される。
より大きな範囲で出力顔画像の属性を調整するために、他の可能な実施形態として、データ処理機器1400は、第2変換装置1406と、拡張装置1407と、第2合成装置1408と、第2逆変換装置1409と、をさらに含んでもよい。
第2合成装置1408は、前記属性特徴マップ及び前記第3特徴マップに基づいて、第2合成特徴マップを生成する。
第2変換装置1406、拡張装置1407、第2合成装置1408、及び第2逆変換装置1409は、任意選択的であるため、図14において破線枠で示されている。
ここで、前記第1損失関数は、少なくとも1組の継承訓練データに対して前記第1識別ネットワークが出力した確率値と、少なくとも1組の継承訓練データにおける、顔画像と、該顔画像に対応する監督画像との間の画素の差異とに基づいて決定される。
又は、他の可能な実施形態として、前記第1損失関数は、さらに、少なくとも1組の継承訓練データにおける、顔画像の属性と、該顔画像に対応する監督画像の属性との間の差異と、少なくとも1組の継承訓練データにおける、顔画像の特徴と、該顔画像に対応する監督画像の特徴との間の差異とのうちの少なくとも1つに基づいて決定される。
ここで、前記第2損失関数は、少なくとも1組の属性訓練データに対して前記第2識別ネットワークが出力した確率値と、少なくとも1組の属性訓練データにおける、顔画像と、該顔画像に対応する監督画像との間の画素の差異とに基づいて決定される。
又は、他の可能な実施形態として、前記第2損失関数は、さらに、少なくとも1組の属性訓練データにおける、顔画像の属性と、該顔画像に対応する監督画像の属性との間の差異と、少なくとも1組の属性訓練データにおける、顔画像の特徴と、該顔画像に対応する監督画像の特徴との間の差異とのうちの少なくとも1つに基づいて決定される。
本願の実施例による顔画像生成用のデータ処理機器の、ハードウェアエンティティとしての一例は、図15に示されている。前記データ処理機器は、プロセッサ1501と、メモリ1502と、少なくとも1つの外部通信インタフェース1503と、を含む。前記プロセッサ1501、メモリ1502、及び外部通信インタフェース1503は、全てバス1504を介して接続される。

Claims (14)

  1. サーバが実行する、顔画像生成用のデータ処理方法であって、
    第1顔画像(IMA)及び第2顔画像(IFA)を取得するステップと、
    第1顔画像(IMA)における、顔特徴に対応するM個(Mは自然数)の第1画像ブロックを取得し、第2顔画像(IFA)における、顔特徴に対応するN個(Nは自然数)の第2画像ブロックを取得するステップと、
    M個の第1画像ブロック及びN個の第2画像ブロックを特徴空間に変換して、M個の第1特徴ブロック及びN個の第2特徴ブロックを生成するステップと、
    特定の制御ベクトルに応じて、一部の第1特徴ブロック及び一部の第2特徴ブロックを選択するステップと、
    少なくとも選択した一部の第1特徴ブロック及び一部の第2特徴ブロックに基づいて、第1合成特徴マップを生成するステップと、
    前記第1合成特徴マップを画像空間に逆変換して、第3顔画像(IO1)を生成するステップと、
    を含む方法。
  2. 前記特定の制御ベクトルは、各顔特徴に対応するL個(Lは自然数であり、M≦LかつN≦Lである)の情報ビットを含み、
    特定の制御ベクトルに応じて、一部の第1特徴ブロック及び一部の第2特徴ブロックを選択するステップは、
    前記特定の制御ベクトルにおけるある情報ビットが第1値である場合、M個の第1特徴ブロックの中から、該情報ビットに対応する顔特徴の特徴ブロックを選択し、前記特定の制御ベクトルにおける該情報ビットが第2値である場合、N個の第2特徴ブロックの中から、該情報ビットに対応する顔特徴の特徴ブロックを選択するステップを含む、
    請求項1に記載の方法。
  3. 少なくとも選択した一部の第1特徴ブロック及び一部の第2特徴ブロックに基づいて、第1合成特徴マップを生成するステップは、
    指定の属性情報を、前記特徴空間にある属性特徴ブロックに拡張するステップと、
    選択した一部の第1特徴ブロック及び一部の第2特徴ブロックと、属性特徴ブロックとに基づいて、第1合成特徴マップを生成するステップと、
    を含む請求項1に記載の方法。
  4. M個の第1画像ブロック及びN個の第2画像ブロックを継承ネットワークに入力することにより、前記第3顔画像を生成し、
    前記継承ネットワークは、
    第5顔画像(I)における、各顔特徴に対応するL個(Lは自然数であり、M≦LかつN≦Lである)の第5画像ブロックを取得し、第6顔画像(I)における、各顔特徴に対応するL個の第6画像ブロックを取得するステップと、
    第1制御ベクトルに応じて、一部の第5画像ブロック及び一部の第6画像ブロックを選択して第1合成画像

    Figure 2022513858000082
    を生成し、第2制御ベクトルに応じて、他の一部の第5画像ブロック及び他の一部の第6画像ブロックを選択して第2合成画像

    Figure 2022513858000083
    を生成するステップと、
    第1合成画像

    Figure 2022513858000084
    における、各顔特徴に対応するL個の第7画像ブロックを取得し、第2合成画像

    Figure 2022513858000085
    における、各顔特徴に対応するL個の第8画像ブロックを取得するステップと、
    L個の第7画像ブロック及びL個の第8画像ブロックを継承ネットワークに入力するステップと、
    前記継承ネットワークによって、第1制御ベクトルに応じて選択された一部の第7画像ブロック及び一部の第8画像ブロックに基づいて生成された第7顔画像(I’)を出力し、第2制御ベクトルに応じて選択された他の一部の第7画像ブロック及び他の一部の第8画像ブロックに基づいて生成された第8顔画像(I’)を出力し、第5~第8顔画像を1組の継承訓練データとするステップであって、第5顔画像が、第7顔画像に監督情報を提供するための監督画像であり、第6顔画像が、第8顔画像に監督情報を提供するための監督画像である、ステップと、
    少なくとも1組の継承訓練データを第1識別ネットワークに入力するステップであって、前記第1識別ネットワークは、ある画像が入力されると、該画像が実際の画像である確率値を出力するように設定される、ステップと、
    第1損失関数に基づいて、前記第1損失関数が収束するまで、前記継承ネットワークと前記第1識別ネットワークを交互に訓練するステップとの訓練ステップによって得られる、
    請求項1に記載の方法。
  5. 前記第1損失関数は、少なくとも1組の継承訓練データに対して前記第1識別ネットワークが出力した確率値と、少なくとも1組の継承訓練データにおける、顔画像と、対応する監督画像との間の画素の差異とに基づいて決定される、
    請求項4に記載の方法。
  6. 前記第1損失関数は、さらに、
    少なくとも1組の継承訓練データにおける、顔画像の属性と、対応する監督画像の属性との間の差異と、少なくとも1組の継承訓練データにおける、顔画像の特徴と、対応する監督画像の特徴との間の差異とのうちの少なくとも1つに基づいて決定される、
    請求項5に記載の方法。
  7. 前記第3顔画像(IO1)を特徴空間に変換して、第3特徴マップを生成するステップと、
    特定の属性情報を、前記特徴空間における属性特徴マップに拡張するステップと、
    前記属性特徴マップ及び前記第3特徴マップに基づいて、第2合成特徴マップを生成するステップと、
    第2合成特徴マップを画像空間に逆変換して、第4顔画像(IO2)を生成するステップと、
    をさらに含む請求項4に記載の方法。
  8. 第3顔画像を属性強化ネットワークに入力することにより、前記第4顔画像を生成し、
    前記属性強化ネットワークは、
    第7顔画像(I’)及び第8顔画像(I’)を属性強化ネットワークに入力するステップと、
    属性強化ネットワークによって、第7顔画像に対応する第9顔画像

    Figure 2022513858000086
    と、第8顔画像に対応する第10顔画像

    Figure 2022513858000087
    とを出力し、第7~第10顔画像を1組の属性訓練データとするステップであって、第7顔画像が、第9顔画像に監督情報を提供するための監督画像であり、第8顔画像が、第10顔画像に監督情報を提供するための監督画像である、ステップと、
    少なくとも1組の属性訓練データを第2識別ネットワークに入力するステップであって、前記第2識別ネットワークは、ある画像が入力されると、該画像が実際の画像である確率値を出力するように設定される、ステップと、
    第2損失関数に基づいて、前記第2損失関数が収束するまで、前記属性強化ネットワークと前記第2識別ネットワークを交互に訓練するステップとの訓練ステップによって得られる、
    請求項7に記載の方法。
  9. 前記第2損失関数は、少なくとも1組の属性訓練データに対して前記第2識別ネットワークが出力した確率値と、少なくとも1組の属性訓練データにおける、顔画像と、対応する監督画像との間の画素の差異とに基づいて決定される、
    請求項8に記載の方法。
  10. 前記第2損失関数は、さらに、
    少なくとも1組の属性訓練データにおける、顔画像の属性と、対応する監督画像の属性との間の差異と、少なくとも1組の属性訓練データにおける、顔画像の特徴と、対応する監督画像の特徴との間の差異とのうちの少なくとも1つに基づいて決定される、
    請求項9に記載の方法。
  11. 前記継承ネットワーク及び前記属性強化ネットワークは、
    前記第1損失関数及び前記第2損失関数に基づいて、総損失関数を決定するステップと、
    前記総損失関数に基づいて、前記総損失関数が収束するまで、前記継承ネットワーク及び前記属性強化ネットワークと、第1識別ネットワーク及び第2識別ネットワークとを交互に訓練するステップとの共同訓練ステップによってさらに最適化される、
    請求項8に記載の方法。
  12. 顔画像生成用のデータ処理機器であって、
    入力された第1顔画像における、顔特徴に対応するM個の第1画像ブロックを取得し、入力された第2顔画像における、顔特徴に対応するN個の第2画像ブロックを取得する分割装置と、
    M個の第1画像ブロック及びN個の第2画像ブロックを特徴空間に変換して、M個の第1特徴ブロック及びN個の第2特徴ブロックを生成する第1変換装置と、
    特定の制御ベクトルに応じて、一部の第1特徴ブロック及び一部の第2特徴ブロックを選択する選択装置と、
    少なくとも選択した一部の第1特徴ブロック及び一部の第2特徴ブロックに基づいて、第1合成特徴マップを生成する第1合成装置と、
    前記第1合成特徴マップを画像空間に逆変換して、第3顔画像を生成する第1逆変換装置と、
    を含む機器。
  13. コンピュータプログラムを記憶したコンピュータ読み取り可能な記録媒体であって、前記コンピュータプログラムが、プロセッサにより実行されると、請求項1~11のいずれか1項に記載の方法を実行させる記録媒体。
  14. メモリとプロセッサとを備えるコンピュータ機器であって、前記メモリには、コンピュータプログラムが記憶され、前記プロセッサが、前記コンピュータプログラムを実行して、請求項1~11のいずれか1項に記載の顔画像生成用のデータ処理方法を実現するコンピュータ機器。
JP2021534133A 2019-04-26 2020-04-02 顔画像生成用のデータ処理方法、データ処理機器、コンピュータプログラム、及びコンピュータ機器 Active JP7246811B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910345276.6 2019-04-26
CN201910345276.6A CN110084193B (zh) 2019-04-26 2019-04-26 用于面部图像生成的数据处理方法、设备和介质
PCT/CN2020/082918 WO2020216033A1 (zh) 2019-04-26 2020-04-02 用于面部图像生成的数据处理方法、设备和介质

Publications (2)

Publication Number Publication Date
JP2022513858A true JP2022513858A (ja) 2022-02-09
JP7246811B2 JP7246811B2 (ja) 2023-03-28

Family

ID=67417067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021534133A Active JP7246811B2 (ja) 2019-04-26 2020-04-02 顔画像生成用のデータ処理方法、データ処理機器、コンピュータプログラム、及びコンピュータ機器

Country Status (6)

Country Link
US (1) US11854247B2 (ja)
EP (1) EP3961486A4 (ja)
JP (1) JP7246811B2 (ja)
KR (1) KR102602112B1 (ja)
CN (1) CN110084193B (ja)
WO (1) WO2020216033A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084193B (zh) * 2019-04-26 2023-04-18 深圳市腾讯计算机系统有限公司 用于面部图像生成的数据处理方法、设备和介质
CN112613460A (zh) * 2020-12-30 2021-04-06 深圳威富优房客科技有限公司 人脸生成模型的建立方法和人脸生成方法
US11373352B1 (en) * 2021-03-04 2022-06-28 Meta Platforms, Inc. Motion transfer using machine-learning models
US11341701B1 (en) * 2021-05-06 2022-05-24 Motorola Solutions, Inc Method and apparatus for producing a composite image of a suspect
CN114708644B (zh) * 2022-06-02 2022-09-13 杭州魔点科技有限公司 一种基于家庭基因模板的人脸识别方法和系统
CN116012258B (zh) * 2023-02-14 2023-10-13 山东大学 一种基于循环生成对抗网络的图像和谐化方法
CN117078974B (zh) * 2023-09-22 2024-01-05 腾讯科技(深圳)有限公司 图像处理方法及装置、电子设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005265A (ja) * 2002-05-31 2004-01-08 Omron Corp 画像合成方法、画像合成装置、画像合成システム
JP2005107848A (ja) * 2003-09-30 2005-04-21 Lic Corporation:Kk 子供画像生成装置
WO2008114937A1 (en) * 2007-03-22 2008-09-25 Industry-Academic Cooperation Foundation, Yonsei University Virtual face generating method

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100888476B1 (ko) * 2007-02-15 2009-03-12 삼성전자주식회사 얼굴이 포함된 영상에서 얼굴의 특징을 추출하는 방법 및장치.
CN103295210B (zh) * 2012-03-01 2016-08-10 汉王科技股份有限公司 婴儿图像合成方法及装置
US9639743B2 (en) * 2013-05-02 2017-05-02 Emotient, Inc. Anonymization of facial images
CN106682632B (zh) * 2016-12-30 2020-07-28 百度在线网络技术(北京)有限公司 用于处理人脸图像的方法和装置
US10430978B2 (en) * 2017-03-02 2019-10-01 Adobe Inc. Editing digital images utilizing a neural network with an in-network rendering layer
US10474881B2 (en) * 2017-03-15 2019-11-12 Nec Corporation Video retrieval system based on larger pose face frontalization
CN107273818B (zh) * 2017-05-25 2020-10-16 北京工业大学 遗传算法融合差分进化的选择性集成人脸识别方法
CN107578017B (zh) * 2017-09-08 2020-11-17 百度在线网络技术(北京)有限公司 用于生成图像的方法和装置
CN107609506B (zh) * 2017-09-08 2020-04-21 百度在线网络技术(北京)有限公司 用于生成图像的方法和装置
CN108171124B (zh) * 2017-12-12 2022-04-05 南京邮电大学 一种相似样本特征拟合的人脸图像清晰化方法
CN108288072A (zh) * 2018-01-26 2018-07-17 深圳市唯特视科技有限公司 一种基于生成对抗网络的面部表情合成方法
CN108510473A (zh) 2018-03-09 2018-09-07 天津工业大学 结合深度可分离卷积与通道加权的fcn视网膜图像血管分割
CN108510437B (zh) * 2018-04-04 2022-05-17 科大讯飞股份有限公司 一种虚拟形象生成方法、装置、设备以及可读存储介质
CN109508669B (zh) * 2018-11-09 2021-07-23 厦门大学 一种基于生成式对抗网络的人脸表情识别方法
CN109615582B (zh) * 2018-11-30 2023-09-01 北京工业大学 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法
CN110084193B (zh) * 2019-04-26 2023-04-18 深圳市腾讯计算机系统有限公司 用于面部图像生成的数据处理方法、设备和介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005265A (ja) * 2002-05-31 2004-01-08 Omron Corp 画像合成方法、画像合成装置、画像合成システム
JP2005107848A (ja) * 2003-09-30 2005-04-21 Lic Corporation:Kk 子供画像生成装置
WO2008114937A1 (en) * 2007-03-22 2008-09-25 Industry-Academic Cooperation Foundation, Yonsei University Virtual face generating method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HONG-XIA WANG: ""FACIAL IMAGE COMPOSITION BASED ON ACTIVE APPEARANCE MODEL"", 2008 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, JPN6022036597, 12 May 2008 (2008-05-12), pages 893 - 896, ISSN: 0004866017 *
JUN-YAN ZHU: ""Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks"", 2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), JPN6022036596, 2017, pages 2242 - 2251, ISSN: 0004866016 *

Also Published As

Publication number Publication date
US11854247B2 (en) 2023-12-26
EP3961486A4 (en) 2022-07-13
CN110084193A (zh) 2019-08-02
KR20210095696A (ko) 2021-08-02
US20210279515A1 (en) 2021-09-09
KR102602112B1 (ko) 2023-11-13
WO2020216033A1 (zh) 2020-10-29
EP3961486A1 (en) 2022-03-02
CN110084193B (zh) 2023-04-18
JP7246811B2 (ja) 2023-03-28

Similar Documents

Publication Publication Date Title
JP2022513858A (ja) 顔画像生成用のデータ処理方法、データ処理機器、コンピュータプログラム、及びコンピュータ機器
US10896535B2 (en) Real-time avatars using dynamic textures
Zhang et al. Stackgan++: Realistic image synthesis with stacked generative adversarial networks
Zhou et al. Photorealistic facial expression synthesis by the conditional difference adversarial autoencoder
Le et al. Live speech driven head-and-eye motion generators
JP7144699B2 (ja) 信号変更装置、方法、及びプログラム
CN111783658B (zh) 基于双生成对抗网络的两阶段表情动画生成方法
CN113807265B (zh) 一种多样化的人脸图像合成方法及系统
CN113255457A (zh) 基于人脸表情识别的动画角色面部表情生成方法及系统
CN114782596A (zh) 语音驱动的人脸动画生成方法、装置、设备及存储介质
DE102021124769A1 (de) Latente-variable generatives modell mit einem rauschkontrastgebenden prior
CN115393480A (zh) 基于动态神经纹理的说话人合成方法、装置和存储介质
CN115526223A (zh) 潜在空间中的基于得分的生成建模
CN113538254A (zh) 图像恢复方法、装置、电子设备及计算机可读存储介质
CN115914505B (zh) 基于语音驱动数字人模型的视频生成方法及系统
KR102373608B1 (ko) 디지털 휴먼 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램
CN112837318B (zh) 超声图像生成模型的生成方法、合成方法、介质及终端
RU2720361C1 (ru) Обучение по нескольким кадрам реалистичных нейронных моделей голов говорящих персон
Sun et al. PattGAN: Pluralistic Facial Attribute Editing
Nakatsuka et al. Audio-guided Video Interpolation via Human Pose Features.
CN113096206B (zh) 基于注意力机制网络的人脸生成方法、装置、设备及介质
US20240078773A1 (en) Electronic device generating 3d model of human and its operation method
Peng et al. A Cross-domain Color Mapping from Exemplar Anime Image Colorization Networks
Watanabe et al. TolerantGAN: Text-guided Image Manipulation Tolerant to Real-world Image
Agarwal et al. Deep Learning-Based Computer Aided Customization of Speech Therapy

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210614

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210614

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230309

R150 Certificate of patent or registration of utility model

Ref document number: 7246811

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150