JP7137006B2 - 画像処理方法及びその装置、プロセッサ、電子機器並びに記憶媒体 - Google Patents

画像処理方法及びその装置、プロセッサ、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP7137006B2
JP7137006B2 JP2021519659A JP2021519659A JP7137006B2 JP 7137006 B2 JP7137006 B2 JP 7137006B2 JP 2021519659 A JP2021519659 A JP 2021519659A JP 2021519659 A JP2021519659 A JP 2021519659A JP 7137006 B2 JP7137006 B2 JP 7137006B2
Authority
JP
Japan
Prior art keywords
image
face
facial
level
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021519659A
Other languages
English (en)
Other versions
JP2022504579A (ja
Inventor
何悦
▲張▼▲韻▼▲しゅあん▼
▲張▼四▲維▼
李▲誠▼
Original Assignee
ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド filed Critical ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Publication of JP2022504579A publication Critical patent/JP2022504579A/ja
Application granted granted Critical
Publication of JP7137006B2 publication Critical patent/JP7137006B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/02Affine transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Image Analysis (AREA)

Description

本願は、2019年07月30日に中国特許局に提出された、出願番号がCN201910694065.3であり、発明の名称が「画像処理方法及びその装置、プロセッサ、電子機器並びに記憶媒体」である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれている。
本発明は、画像処理の技術分野に関し、特に、画像処理方法及びその装置、プロセッサ、電子機器並びに記憶媒体に関する。
人工知能(AI:artificial intelligence)技術の発展に伴い、AI技術による、ビデオや画像内の人物の「顔交換」など、AI技術の応用もますます増えている。いわゆる「顔交換」とは、ビデオや画像内の顔の姿勢を維持することを指し、ビデオや画像内の顔テクスチャデータを対象者の顔テクスチャデータに切り替えることにより、ビデオや画像内の人物の顔を対象者の顔に置き換える。ここで、顔姿勢は、顔の輪郭の位置情報、目鼻立ちの位置情報及び顔の表情情報を含み、顔テクスチャデータは、顔の肌のつや情報、顔の肌の色情報、顔のしわ情報及び顔の肌のテクスチャ情報を含む。
従来の方法では、対象者の顔を含む複数の画像をトレーニングセットとして使用してニューラルネットワークをトレーニングし、参照顔姿勢画像(即ち、顔姿勢情報を含む画像)、及び対象者の顔を含む参照顔画像をトレーニング後のニューラルネットワークに入力することにより、一枚の目標画像を取得することができ、当該目標画像内の顔姿勢は、参照顔画像内の顔姿勢であり、当該目標画像内の顔テクスチャは、対象者の顔テクスチャである。
本発明は、画像処理方法及びその装置、プロセッサ、電子機器並びに記憶媒体を提供する。
第1態様によれば、画像処理方法を提供し、前記画像処理方法は、参照顔画像及び参照顔姿勢画像を取得することと、前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第1顔マスクを取得することと、前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得することと、を含む。当該態様において、参照顔画像を符号化処理することにより、参照顔画像内の対象者の顔テクスチャデータを取得することができ、参照顔姿勢画像に対して顔キーポイント抽出処理を実行することにより顔マスクを取得することができ、顔テクスチャデータ及び顔マスクに対して融合処理、符号化処理を実行して目標画像を取得することができ、これにより、任意の対象者の顔姿勢の変更を実現する。
一可能な実施形態において、前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得することは、前記顔テクスチャデータを復号化処理して、第1顔テクスチャデータを取得することと、前記第1顔テクスチャデータ及び前記第1顔マスクに対してnレベルの目標処理を実行して、前記目標画像を取得することであって、前記nレベルの目標処理は、第m-1(mは、2より大きいか等しく、且つ前記nより小さいか等しい正の整数である)レベルの目標処理及び第mレベルの目標処理を含み、前記nレベルの目標処理のうちの第1レベルの目標処理の入力データは前記顔テクスチャデータであり、前記第m-1レベルの目標処理の出力データは、前記第mレベルの目標処理の入力データであり、前記nレベルの目標処理のうちの第i(iは、1より大きいか等しく、且つ前記nより小さいか等しい正の整数である)レベルの目標処理は、前記第iレベルの目標処理の入力データ及び前記第1顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することを含む、ことと、を含む。当該可能な実現形態において、第1顔マスク及び第1顔テクスチャデータに対してnレベルの目標処理を実行するプロセス中、目標処理の入力データとサイズ調整後の第1顔マスクを融合することにより、第1顔マスクと第1顔テクスチャデータの融合効果を向上させることができるため、顔テクスチャデータに対して復号化処理及び目標処理を実行することにより目標画像を取得する品質を向上させる。
別の可能な実現形態において、前記第iレベルの目標処理の入力データ及び前記第1顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することは、前記第iレベルの目標処理の入力データに従って、前記第iレベルの目標処理の融合されるデータを取得することと、前記第iレベルの目標処理の融合されるデータ及び第iレベルの顔マスクに対して融合処理を実行して、第iレベルの融合後のデータを取得することであって、前記第iレベルの顔マスクは、前記第1顔マスクに対してダウンサンプリング処理を実行することにより取得されたものであり、前記第iレベルの顔マスクのサイズは、前記第iレベルの目標処理の入力データのサイズと同じである、ことと、前記第iレベルの融合後のデータを復号化処理して、前記第iレベルの目標処理の出力データを取得することと、を含む。当該可能な実現形態において、異なるサイズの顔マスクと、異なるレベルの目標処理の入力データを融合することにより、顔マスクと顔テクスチャデータ融合の融合を実現し、融合効果を向上させることができるため、目標画像の品質を向上させる。
さらに別の可能な実施形態において、前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得した後、前記画像処理方法は、前記顔テクスチャデータに対してjレベルの復号化処理を実行することをさらに含み、前記j(jは、2より大きいか等しい正の整数である)レベルの復号化処理のうちの第1レベルの復号化処理の入力データは前記顔テクスチャデータであり、前記jレベルの復号化処理は、第k-1(kは、2より大きいか等しく、且つ前記jより小さいか等しい正の整数である)レベルの復号化処理及び第kレベルの復号化処理を含み、前記第k-1レベルの復号化処理の出力データは、前記第kレベルの復号化処理の入力データである。前記第iレベルの目標処理の入力データに従って、前記第iレベルの目標処理の融合されるデータを取得することは、前記jレベルの復号化処理のうちの第r(rは、1より大きいか等しく、且つ前記jより小さいか等しい正の整数である)レベルの復号化処理の出力データを前記第iレベルの目標処理の入力データと合併して、第iレベルの合併後のデータを前記第iレベルの目標処理の融合されるデータとして取得することを含み、前記第rレベルの復号化処理の出力データのサイズは、前記第iレベルの目標処理の入力データのサイズと同じである。当該可能な実現形態において、第rレベルの復号化処理後のデータを第iレベルの目標処理の入力データと合併することにより、第iレベルの目標処理の融合されるデータを取得するため、第iレベルの目標処理の融合されるデータと第iレベルの顔マスクを融合する場合、顔テクスチャデータと第1顔マスクの融合効果を更に向上させることができる。
さらに別の可能な実施形態において、前記jレベルの復号化処理のうちの第rレベルの復号化処理の出力データを前記第iレベルの目標処理の入力データと合併して、第iレベルの合併後のデータを取得することは、前記第rレベルの復号化処理の出力データをチャネル次元で前記第iレベルの目標処理の入力データと合併して、前記第iレベルの合併後のデータを取得することを含む。当該可能な実現形態において、第rレベルの復号化処理の出力データをチャネル次元で第iレベルの目標処理の入力データと合併することにより、第rレベルの復号化処理の入力データの情報と第iレベルの目標処理の入力データの情報の合併を実現するため、第iレベルの合併後のデータに基づいて取得された目標画像の品質を向上させるのに役立つ。
さらに別の可能な実施形態において、前記第rレベルの復号化処理は、前記第rレベルの復号化処理の入力データに対して活性化処理、逆畳み込み処理、正規化処理を順次に実行して、前記第rレベルの復号化処理の出力データを取得することを含む。当該可能な実現形態において、後続処理プロセスにおける、異なるサイズの顔テクスチャデータと、異なるレベルの目標処理の入力データを融合するように、顔テクスチャデータに対して階層復号化処理を実行することにより、異なるサイズの顔テクスチャデータ(即ち、異なる復号化層の出力データ)を取得する。
さらに別の可能な実施形態において、前記第iレベルの目標処理の融合されるデータ及び前記第iレベルの顔マスクに対して融合処理を実行して、前記第iレベルの融合後のデータを取得することは、第1所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第1特徴データを取得し、第2所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第2特徴データを取得することと、前記第1特徴データ及び前記第2特徴データに従って正規化形式を決定することと、前記正規化形式に基づき、前記第iレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第iレベルの融合後のデータを取得することと、を含む。当該可能な実現形態において、第1所定のサイズの畳み込みカーネル及び第2所定のサイズの畳み込みカーネルを使用して、第iレベルの顔マスクを畳み込み処理することにより、それぞれ、第1特徴データ及び第2特徴データを取得する。顔テクスチャデータと顔マスクの融合効果を向上させるために、第1特徴データ及び第2特徴データに基づき第iレベルの目標処理の融合されるデータに対して正規化処理を実行する。
さらに別の可能な実施形態において、前記正規化形式は、目標アフィン変換を含み、前記正規化形式に基づき、前記第iレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第iレベルの融合後のデータを取得することは、前記目標アフィン変換に基づき、前記第iレベルの目標処理の融合されるデータをアフィン変換して、前記第iレベルの融合後のデータを取得することを含む。当該可能な実現形態において、上記の正規化形式はアフィン変換であり、第1特徴データ及び第2特徴データを介してアフィン変換フォームを決定し、アフィン変換フォームに従って第iレベルの目標処理の融合されるデータをアフィン変換することにより、第iレベルの目標処理の融合されるデータに対する正規化処理を実現する。
さらに別の可能な実施形態において、前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得することは、前記顔テクスチャデータと前記第1顔マスクを融合処理して、目標融合データを取得することと、前記目標融合データを復号化処理して、前記目標画像を取得することと、を含む。当該可能な実現形態において、先ず、顔テクスチャデータと顔マスクを融合処理して、目標融合データを取得し、その後、目標融合データを復号化処理して、目標画像を取得することができる。
さらに別の可能な実施形態において、前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得することは、複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得することを含み、前記複数の符号化層は、s(sは、1より大きいか等しい正の整数である)番目の符号化層及びs+1番目の符号化層を含み、前記複数の符号化層のうちの第1層符号化層の入力データは前記参照顔画像であり、前記s番目の符号化層の出力データは、前記s+1番目の符号化層の入力データである。当該可能な実現形態において、複数の符号化層を介して参照顔画像を段階的符号化処理することにより、参照顔画像から特徴情報を徐々に抽出し、最後に顔テクスチャデータを取得する。
さらに別の可能な実施形態において、前記複数の符号化層のそれぞれは、畳み込み処理層、正規化処理層及び活性化処理層を含む。当該可能な実現形態において、各符号化層の符号化処理は、畳み込み処理、正規化処理、活性化処理を含み、各符号化層の入力データに対して、畳み込み処理、正規化処理、活性化処理を順次に実行することにより、各符号化層の入力データから特徴情報を抽出することができる。
さらに別の可能な実施形態において、前記画像処理方法は、前記参照顔画像及び前記目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、前記参照顔画像の第2顔マスク及び前記目標画像の第3顔マスクを取得することと、前記第2顔マスクと前記第3顔マスクの間の画素値との間の差に従って、第4顔マスクを決定することであって、前記参照顔画像の第1画素点の画素値と前記目標画像の第2画素点の画素値の差は、前記第4顔マスクの第3画素点の値に正相関を有し、前記参照顔画像における前記第1画素点の位置、前記目標画像における前記第2画素点の位置及び前記第4顔マスクにおける前記第3画素点の位置は全て同じである、ことと、前記第4顔マスク、前記参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得することと、を含む。当該可能な実現形態において、第2顔マスク及び第3顔マスクをアフィン変換して第4顔マスクを取得し、第4顔マスクに従って参照顔画像と目標画像を融合することにより、目標画像の詳細情報を向上させる同時に、目標画像の目鼻立ち位置情報、顔の輪郭位置情報及び表情情報を保持するため、目標画像の品質を向上させる。
さらに別の可能な実施形態において、前記第2顔マスクと前記第3顔マスクの間の画素値との間の差に従って、第4顔マスクを決定することは、前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の平均値、前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の分散に従って、アフィン変換フォームを決定することと、前記アフィン変換フォームに従って、前記第2顔マスク及び前記第3顔マスクをアフィン変換して、前記第4顔マスクを取得することと、を含む。当該可能な実現形態において、第2顔マスク及び第3顔マスクに従ってアフィン変換フォームを決定した後、アフィン変換フォームに従って第2顔マスク及び第3顔マスクをアフィン変換して、第2顔マスクと第3顔マスクの同じ位置にある画素点の画素値の差を決定することができるため、画素点に対する処理を実行するのに役立つ。
さらに別の可能な実施形態において、前記画像処理方法は、顔生成ネットワークに適用され、前記顔生成ネットワークのトレーニングプロセスは、前記顔生成ネットワークにトレーニングサンプルを入力して、前記トレーニングサンプルの第1生成画像及び前記トレーニングサンプルの第1再構成画像を取得することであって、前記トレーニングサンプルは、サンプル顔画像及び第1サンプル顔姿勢画像を含み、前記第1再構成画像は、符号化後の前記サンプル顔画像を復号化処理することにより取得されたものである、ことと、前記サンプル顔画像及び前記第1生成画像の顔特徴の一致度に従って第1損失を取得し、前記第1サンプル顔画像の顔テクスチャ情報と前記第1生成画像の顔テクスチャ情報との間の差に従って第2損失を取得し、前記第1サンプル顔画像の第4画素点の画素値と前記第1生成画像の第5画素点の画素値との間の差に従って第3損失を取得し、前記第1サンプル顔画像の第6画素点の画素値と前記第1再構成画像の第7画素点の画素値との間の差に従って第4損失を取得し、前記第1生成画像の真実性に従って第5損失を取得することであって、前記第1サンプル顔画像における前記第4画素点の位置は、前記第1生成画像における前記第5画素点の位置と同じであり、前記第1サンプル顔画像における前記第6画素点の位置は、前記第1再構成画像における前記第7画素点の位置と同じであり、前記第1生成画像の真実性が高いほど、前記第1生成画像が真の画像である確率が高くなることを表す、ことと、前記第1損失、前記第2損失、前記第3損失、前記第4損失及び前記第5損失に従って、前記顔生成ネットワークの第1ネットワーク損失を取得することと、前記第1ネットワーク損失に基づいて前記顔生成ネットワークのパラメータを生成することと、を含む。当該可能な実現形態において、参照顔画像及び参照顔姿勢に基づいて画像目標画像を取得し、第1サンプル顔画像、第1再構成画像及び第1生成画像に従って、第1損失、第2損失、第3損失、第4損失及び第5損失を取得し、上記の5つの損失に従って、顔生成ネットワークの第1ネットワーク損失を取得し、第1ネットワーク損失に従って顔生成ネットワークに対するトレーニングを完了することを顔生成ネットワークを介して実現する。
さらに別の可能な実施形態において、前記トレーニングサンプルは、第2サンプル顔姿勢画像をさらに含み、前記第2サンプル顔姿勢画像は、前記第2サンプル顔画像にランダム摂動を追加して前記第2サンプル画像の目鼻立ちの位置及び/又は顔の輪郭位置を変更することによって取得されたものであり、前記顔生成ネットワークのトレーニングプロセスは、前記顔生成ネットワークに前記第2サンプル顔画像及び第2サンプル顔姿勢画像を入力して、前記トレーニングサンプルの第2生成画像及び前記トレーニングサンプルの第2再構成画像を取得することであって、前記第2再構成画像は、符号化後の前記第2サンプル顔画像を復号化処理することにより取得されたものである、ことと、前記第2サンプル顔画像及び前記第2生成画像の顔特徴の一致度に従って第6損失を取得し、前記第2サンプル顔画像の顔テクスチャ情報と前記第2生成画像の顔テクスチャ情報との間の差に従って第7損失を取得し、前記第2サンプル顔画像の第8画素点の画素値と前記第2生成画像の第9画素点の画素値との間の差に従って第8損失を取得し、前記第2サンプル顔画像の第10画素点の画素値と前記第2再構成画像の第11画素点の画素値との間の差に従って第9損失を取得し、前記第2生成画像の真実性に従って第10損失を取得することであって、前記第2サンプル顔画像における前記第8画素点の位置は、前記第2生成画像における前記第9画素点の位置と同じであり、前記第2サンプル顔画像における前記第10画素点の位置は、前記第2再構成画像における前記第11画素点の位置と同じであり、前記第2生成画像の真実性が高いほど、前記第2生成画像が真の画像である確率が高くなることを表す、ことと、前記第6損失、前記第7損失、前記第8損失、前記第9損失及び前記第10損失に従って、前記顔生成ネットワークの第2ネットワーク損失を取得することと、前記第2ネットワーク損失に基づいて、前記顔生成ネットワークのパラメータを調整することと、を含む。当該可能な実現形態において、第2サンプル顔画像及び第2サンプル顔姿勢画像をトレーニングセットとして使用することにより、顔生成ネットワークトレーニングセット内の画像の多様性を高めることができ、顔生成ネットワークのトレーニング効果を向上させるのに役立ち、トレーニングすることにより取得された顔生成ネットワークによって生成された目標画像の品質を向上させることができる。
さらに別の可能な実施形態において、前記参照顔画像及び参照姿勢画像を取得することは、ユーザによって端末に入力された処理される顔画像を受信することと、処理されるビデオを取得することであって、前記処理されるビデオは顔である、ことと、前記処理される顔画像を前記参照顔画像とし、前記処理されるビデオの画像を前記顔姿勢画像として使用して、目標ビデオを取得することと、を含む。当該可能な実現形態において、端末は、ユーザによって入力された処理される顔画像を参照顔画像として使用し、取得された処理されるビデオ内の画像を参照顔姿勢画像として使用することができ、上記に記載のいずれか1つの可能な実施形態に基づいて、目標ビデオを取得することができる。
第2態様によれば、画像処理装置を提供し、前記画像処理装置は、参照顔画像及び参照顔姿勢画像を取得するように構成される取得ユニットと、前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第1顔マスクを取得するように構成される第1処理ユニットと、前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得するように構成される第2処理ユニットと、を備える。
一可能な実施形態において、前記第2処理ユニットは、前記顔テクスチャデータを復号化処理して、第1顔テクスチャデータを取得し、前記第1顔テクスチャデータ及び前記第1顔マスクに対してnレベルの目標処理を実行して、前記目標画像を取得するように構成され、前記nレベルの目標処理は、第m-1(mは、2より大きいか等しく、且つ前記nより小さいか等しい正の整数である)レベルの目標処理及び第mレベルの目標処理を含み、前記nレベルの目標処理のうちの第1レベルの目標処理の入力データは前記顔テクスチャデータであり、前記第m-1レベルの目標処理の出力データは、前記第mレベルの目標処理の入力データであり、前記nレベルの目標処理のうちの第i(iは、1より大きいか等しく、且つ前記nより小さいか等しい正の整数である)レベルの目標処理は、前記第iレベルの目標処理の入力データ及び前記第1顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することを含む。
別の可能な実現形態において、前記第2処理ユニットは、前記第iレベルの目標処理の入力データに従って、前記第iレベルの目標処理の融合されるデータを取得し、前記第iレベルの目標処理の融合されるデータ及び第iレベルの顔マスクに対して融合処理を実行して、第iレベルの融合後のデータを取得し、ここで、前記第iレベルの顔マスクは、前記第1顔マスクに対してダウンサンプリング処理を実行することにより取得されたものであり、前記第iレベルの顔マスクのサイズは、前記第iレベルの目標処理の入力データのサイズと同じであり、前記第iレベルの融合後のデータを復号化処理して、前記第iレベルの目標処理の出力データを取得するように構成される。
さらに別の可能な実施形態において、前記画像処理装置は更に、前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得した後、前記顔テクスチャデータに対してjレベルの復号化処理を実行するように構成される復号化処理ユニットを備え、前記j(jは、2より大きいか等しい正の整数である)レベルの復号化処理のうちの第1レベルの復号化処理の入力データは前記顔テクスチャデータであり、前記jレベルの復号化処理は、第k-1(kは、2より大きいか等しく、且つ前記jより小さいか等しい正の整数である)レベルの復号化処理及び第kレベルの復号化処理を含み、前記第k-1レベルの復号化処理の出力データは、前記第kレベルの復号化処理の入力データであり、第2処理ユニットは、前記jレベルの復号化処理のうちの第r((rは、1より大きいか等しく、且つ前記jより小さいか等しい正の整数である))レベルの復号化処理の出力データを前記第iレベルの目標処理の入力データと合併して、第iレベルの合併後のデータを前記第iレベルの目標処理の融合されるデータとして取得するように構成され、前記第rレベルの復号化処理の出力データのサイズは前記第iレベルの目標処理の入力データのサイズと同じである。
さらに別の可能な実施形態において、前記第2処理ユニットは、前記第rレベルの復号化処理の出力データをチャネル次元で前記第iレベルの目標処理の入力データと合併して、前記第iレベルの合併後のデータを取得するように構成される。
さらに別の可能な実施形態において、前記第rレベルの復号化処理は、前記第rレベルの復号化処理の入力データに対して活性化処理、逆畳み込み処理、正規化処理を順次に実行して、前記第rレベルの復号化処理の出力データを取得することを含む。
さらに別の可能な実施形態において、前記第2処理ユニットは、第1所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第1特徴データを取得し、第2所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第2特徴データを取得し、前記第1特徴データ及び前記第2特徴データに従って正規化形式を決定し、前記正規化形式に基づき、前記第iレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第iレベルの融合後のデータを取得するように構成される。
さらに別の可能な実施形態において、前記正規化形式は、目標アフィン変換を含み、前記第2処理ユニットは、前記目標アフィン変換に基づき、前記第iレベルの目標処理の融合されるデータをアフィン変換して、前記第iレベルの融合後のデータを取得するように構成される。
さらに別の可能な実施形態において、前記第2処理ユニットは、前記顔テクスチャデータと前記第1顔マスクを融合処理して、目標融合データを取得し、前記目標融合データを復号化処理して、前記目標画像を取得するように構成される。
さらに別の可能な実施形態において、前記第1処理ユニットは、複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得するように構成され、前記複数の符号化層は、s(sは、1より大きいか等しい正の整数である)番目の符号化層及びs+1番目の符号化層を含み、前記複数の符号化層のうちの第1層符号化層の入力データは前記参照顔画像であり、前記s番目の符号化層の出力データは、前記s+1番目の符号化層の入力データである。
さらに別の可能な実施形態において、前記複数の符号化層のそれぞれは、畳み込み処理層、正規化処理層及び活性化処理層を含む。
さらに別の可能な実施形態において、前記画像処理装置は更に、前記参照顔画像及び前記目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、前記参照顔画像の第2顔マスク及び前記目標画像の第3顔マスクを取得するように構成される顔キーポイント抽出処理ユニットと、前記第2顔マスクと前記第3顔マスクの間の画素値との間の差に従って、第4顔マスクを決定するように構成される決定ユニットであって、前記参照顔画像の第1画素点の画素値と前記目標画像の第2画素点の画素値の差は、前記第4顔マスクの第3画素点の値に正相関を有し、前記参照顔画像における前記第1画素点の位置、前記目標画像における前記第2画素点の位置及び前記第4顔マスクにおける前記第3画素点の位置は全て同じである決定ユニットと、前記第4顔マスク、前記参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得するように構成される融合処理ユニットと、を備える。
さらに別の可能な実施形態において、前記決定ユニットは、前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の平均値に従って、前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の分散に従って、アフィン変換フォームを決定し、前記アフィン変換フォームに従って、前記第2顔マスク及び前記第3顔マスクをアフィン変換して、前記第4顔マスクを取得するように構成される。
さらに別の可能な実施形態において、前記画像処理装置によって実行される画像処理方法は、顔生成ネットワークに適用され、前記画像処理装置は、前記顔生成ネットワークトレーニングプロセスを実行するように構成され、前記顔生成ネットワークのトレーニングプロセスは、前記顔生成ネットワークにトレーニングサンプルを入力して、前記トレーニングサンプルの第1生成画像及び前記トレーニングサンプルの第1再構成画像を取得することであって、前記トレーニングサンプルは、サンプル顔画像及び第1サンプル顔姿勢画像を含み、前記第1再構成画像は、符号化後の前記サンプル顔画像を復号化処理することにより取得されたものである、ことと、前記サンプル顔画像及び前記第1生成画像の顔特徴の一致度に従って第1損失を取得し、前記第1サンプル顔画像の顔テクスチャ情報と前記第1生成画像の顔テクスチャ情報との間の差に従って第2損失を取得し、前記第1サンプル顔画像の第4画素点の画素値と前記第1生成画像の第5画素点の画素値との間の差に従って第3損失を取得し、前記第1サンプル顔画像の第6画素点の画素値と前記第1再構成画像の第7画素点の画素値との間の差に従って第4損失を取得し、前記第1生成画像の真実性に従って第5損失を取得することであって、前記第1サンプル顔画像における前記第4画素点の位置は、前記第1生成画像における前記第5画素点の位置と同じであり、前記第1サンプル顔画像における前記第6画素点の位置は、前記第1再構成画像における前記第7画素点の位置と同じであり、前記第1生成画像の真実性が高いほど、前記第1生成画像が真の画像である確率が高くなることを表す、ことと、前記第1損失、前記第2損失、前記第3損失、前記第4損失及び前記第5損失に従って、前記顔生成ネットワークの第1ネットワーク損失を取得することと、前記第1ネットワーク損失に基づいて前記顔生成ネットワークのパラメータを生成することと、を含む。
さらに別の可能な実施形態において、前記トレーニングサンプルは、第2サンプル顔姿勢画像をさらに含み、前記第2サンプル顔姿勢画像は、前記第2サンプル顔画像にランダム摂動を追加して前記第2サンプル画像の目鼻立ちの位置及び/又は顔の輪郭位置を変更することによって取得されたものであり、前記顔生成ネットワークのトレーニングプロセスは、前記顔生成ネットワークに前記第2サンプル顔画像及び第2サンプル顔姿勢画像を入力して、前記トレーニングサンプルの第2生成画像及び前記トレーニングサンプルの第2再構成画像を取得することであって、前記第2再構成画像は、符号化後の前記第2サンプル顔画像を復号化処理することにより取得されたものである、ことと、前記第2サンプル顔画像及び前記第2生成画像の顔特徴の一致度に従って第6損失を取得し、前記第2サンプル顔画像の顔テクスチャ情報と前記第2生成画像の顔テクスチャ情報との間の差に従って第7損失を取得し、前記第2サンプル顔画像の第8画素点の画素値と前記第2生成画像の第9画素点の画素値との間の差に従って第8損失を取得し、前記第2サンプル顔画像の第10画素点の画素値と前記第2再構成画像の第11画素点の画素値との間の差に従って第9損失を取得し、前記第2生成画像の真実性に従って第10損失を取得することであって、前記第2サンプル顔画像における前記第8画素点の位置は、前記第2生成画像における前記第9画素点の位置と同じであり、前記第2サンプル顔画像における前記第10画素点の位置は、前記第2再構成画像における前記第11画素点の位置と同じであり、前記第2生成画像の真実性が高いほど、前記第2生成画像が真の画像である確率が高くなることを表す、ことと、前記第6損失、前記第7損失、前記第8損失、前記第9損失及び前記第10損失に従って、前記顔生成ネットワークの第2ネットワーク損失を取得することと、前記第2ネットワーク損失に基づいて、前記顔生成ネットワークのパラメータを調整することと、を含む。
さらに別の可能な実施形態において、前記取得ユニットは、ユーザによって端末に入力された処理される顔画像を受信し、処理されるビデオを取得し、ここで、前記処理されるビデオは顔であり、前記処理される顔画像を前記参照顔画像とし、前記処理されるビデオの画像を前記顔姿勢画像として使用して、目標ビデオを取得するように構成される。
第3態様によれば、プロセッサを提供し、前記プロセッサは、上記の第1態様及びそれらの任意の可能な実施形態に係る方法を実行するように構成される。
第4態様によれば、電子機器を提供し、前記電子機器は、プロセッサ及びメモリを備え、前記メモリは、コンピュータプログラムコードを記憶するように構成され、前記コンピュータプログラムコードは、コンピュータ実行可能な命令を含み、前記プロセッサが前記コンピュータ実行可能な命令を実行する際に、前記電子機器は、上記の第1態様及びそれらの任意の可能な実施形態に係る方法を実行する。
第5態様によれば、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムはプログラム命令を含み、前記プログラム命令が電子機器のプロセッサによって実行されるときに、前記プロセッサに、上記の第1態様及びそれらの任意の可能な実施形態の方法を実行させる。
第6態様によれば、コンピュータ可読コードを含むコンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器におけるプロセッサに、上記の第1態様及びそれらの任意の可能な実施形態を実現するための方法を実行させる。
上記した一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本発明を限定するものではないことを理解されたい。
例えば、本願は以下の項目を提供する。
(項目1)
画像処理方法であって、
参照顔画像及び参照顔姿勢画像を取得することと、
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第1顔マスクを取得することと、
前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得することと、を含む、前記画像処理方法。
(項目2)
前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得することは、
前記顔テクスチャデータを復号化処理して、第1顔テクスチャデータを取得することと、
前記第1顔テクスチャデータ及び前記第1顔マスクに対してn(nは、2より大きいか等しい正の整数である)レベルの目標処理を実行して、前記目標画像を取得することであって、前記nレベルの目標処理は、第m-1(mは、2より大きいか等しく、且つ前記nより小さいか等しい正の整数である)レベルの目標処理及び第mレベルの目標処理を含み、前記nレベルの目標処理のうちの第1レベルの目標処理の入力データは前記顔テクスチャデータであり、前記第m-1レベルの目標処理の出力データは、前記第mレベルの目標処理の入力データであり、前記nレベルの目標処理のうちの第i(iは、1より大きいか等しく、且つ前記nより小さいか等しい正の整数である)レベルの目標処理は、前記第iレベルの目標処理の入力データ及び前記第1顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することを含む、ことと、を含む、
項目1に記載の画像処理方法。
(項目3)
前記第iレベルの目標処理の入力データ及び前記第1顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することは、
前記第iレベルの目標処理の入力データに従って、前記第iレベルの目標処理の融合されるデータを取得することと、
前記第iレベルの目標処理の融合されるデータ及び第iレベルの顔マスクに対して融合処理を実行して、第iレベルの融合後のデータを取得することであって、前記第iレベルの顔マスクは、前記第1顔マスクに対してダウンサンプリング処理を実行することにより取得されたものであり、前記第iレベルの顔マスクのサイズは、前記第iレベルの目標処理の入力データのサイズと同じである、ことと、
前記第iレベルの融合後のデータを復号化処理して、前記第iレベルの目標処理の出力データを取得することと、を含む、
項目2に記載の画像処理方法。
(項目4)
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得した後、前記画像処理方法は、
前記顔テクスチャデータに対してjレベルの復号化処理を実行することをさらに含み、前記j(jは、2より大きいか等しい正の整数である)レベルの復号化処理のうちの第1レベルの復号化処理の入力データは前記顔テクスチャデータであり、前記jレベルの復号化処理は、第k-1(kは、2より大きいか等しく、且つ前記jより小さいか等しい正の整数である)レベルの復号化処理及び第kレベルの復号化処理を含み、前記第k-1レベルの復号化処理の出力データは、前記第kレベルの復号化処理の入力データであり、
前記第iレベルの目標処理の入力データに従って、前記第iレベルの目標処理の融合されるデータを取得することは、
前記jレベルの復号化処理のうちの第r(rは、1より大きいか等しく、且つ前記jより小さいか等しい正の整数である)レベルの復号化処理の出力データを前記第iレベルの目標処理の入力データと合併して、第iレベルの合併後のデータを前記第iレベルの目標処理の融合されるデータとして取得することを含み、前記第rレベルの復号化処理の出力データのサイズは、前記第iレベルの目標処理の入力データのサイズと同じである、
項目3に記載の画像処理方法。
(項目5)
前記jレベルの復号化処理のうちの第rレベルの復号化処理の出力データを前記第iレベルの目標処理の入力データと合併して、第iレベルの合併後のデータを取得することは、
前記第rレベルの復号化処理の出力データをチャネル次元で前記第iレベルの目標処理の入力データと合併して、前記第iレベルの合併後のデータを取得することを含む、
項目4に記載の画像処理方法。
(項目6)
前記第rレベルの復号化処理は、
前記第rレベルの復号化処理の入力データに対して活性化処理、逆畳み込み処理、正規化処理を順次に実行して、前記第rレベルの復号化処理の出力データを取得することを含む、
項目4又は5に記載の画像処理方法。
(項目7)
前記第iレベルの目標処理の融合されるデータ及び前記第iレベルの顔マスクに対して融合処理を実行して、前記第iレベルの融合後のデータを取得することは、
第1所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第1特徴データを取得し、第2所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第2特徴データを取得することと、
前記第1特徴データ及び前記第2特徴データに従って正規化形式を決定することと、
前記正規化形式に基づき、前記第iレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第iレベルの融合後のデータを取得することと、を含む、
項目3ないし6のいずれか一項に記載の画像処理方法。
(項目8)
前記正規化形式は、目標アフィン変換を含み、
前記正規化形式に基づき、前記第iレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第iレベルの融合後のデータを取得することは、
前記目標アフィン変換に基づき、前記第iレベルの目標処理の融合されるデータをアフィン変換して、前記第iレベルの融合後のデータを取得することを含む、
項目7に記載の画像処理方法。
(項目9)
前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得することは、
前記顔テクスチャデータと前記第1顔マスクを融合処理して、目標融合データを取得することと、
前記目標融合データを復号化処理して、前記目標画像を取得することと、を含む、
項目1に記載の画像処理方法。
(項目10)
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得することは、
複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得することを含み、前記複数の符号化層は、s(sは、1より大きいか等しい正の整数である)番目の符号化層及びs+1番目の符号化層を含み、前記複数の符号化層のうちの第1層符号化層の入力データは前記参照顔画像であり、前記s番目の符号化層の出力データは、前記s+1番目の符号化層の入力データである、
項目1ないし9のいずれか一項に記載の画像処理方法。
(項目11)
前記複数の符号化層のそれぞれは、畳み込み処理層、正規化処理層及び活性化処理層を含む、
項目10に記載の画像処理方法。
(項目12)
前記画像処理方法は、
前記参照顔画像及び前記目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、前記参照顔画像の第2顔マスク及び前記目標画像の第3顔マスクを取得することと、
前記第2顔マスクと前記第3顔マスクの間の画素値との間の差に従って、第4顔マスクを決定することであって、前記参照顔画像の第1画素点の画素値と前記目標画像の第2画素点の画素値の差は、前記第4顔マスクの第3画素点の値に正相関を有し、前記参照顔画像における前記第1画素点の位置、前記目標画像における前記第2画素点の位置及び前記第4顔マスクにおける前記第3画素点の位置は全て同じである、ことと、
前記第4顔マスク、前記参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得することと、をさらに含む、
項目1ないし11のいずれか一項に記載の画像処理方法。
(項目13)
前記第2顔マスクと前記第3顔マスクの間の画素値との間の差に従って、第4顔マスクを決定することは、
前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の平均値、及び前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の分散に従って、アフィン変換フォームを決定することと、
前記アフィン変換フォームに従って、前記第2顔マスク及び前記第3顔マスクをアフィン変換して、前記第4顔マスクを取得することと、を含む、
項目12に記載の画像処理方法。
(項目14)
前記画像処理方法は、顔生成ネットワークに適用され、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークにトレーニングサンプルを入力して、前記トレーニングサンプルの第1生成画像及び前記トレーニングサンプルの第1再構成画像を取得することであって、前記トレーニングサンプルは、サンプル顔画像及び第1サンプル顔姿勢画像を含み、前記第1再構成画像は、符号化後の前記サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記サンプル顔画像及び前記第1生成画像の顔特徴の一致度に従って第1損失を取得し、前記第1サンプル顔画像の顔テクスチャ情報と前記第1生成画像の顔テクスチャ情報との間の差に従って第2損失を取得し、前記第1サンプル顔画像の第4画素点の画素値と前記第1生成画像の第5画素点の画素値との間の差に従って第3損失を取得し、前記第1サンプル顔画像の第6画素点の画素値と前記第1再構成画像の第7画素点の画素値との間の差に従って第4損失を取得し、前記第1生成画像の真実性に従って第5損失を取得することであって、前記第1サンプル顔画像における前記第4画素点の位置は、前記第1生成画像における前記第5画素点の位置と同じであり、前記第1サンプル顔画像における前記第6画素点の位置は、前記第1再構成画像における前記第7画素点の位置と同じであり、前記第1生成画像の真実性が高いほど、前記第1生成画像が真の画像である確率が高くなることを表す、ことと、
前記第1損失、前記第2損失、前記第3損失、前記第4損失及び前記第5損失に従って、前記顔生成ネットワークの第1ネットワーク損失を取得することと、
前記第1ネットワーク損失に基づいて前記顔生成ネットワークのパラメータを生成することと、を含む、
項目1ないし13のいずれか一項に記載の画像処理方法。
(項目15)
前記トレーニングサンプルは、第2サンプル顔姿勢画像をさらに含み、前記第2サンプル顔姿勢画像は、前記第2サンプル顔画像にランダム摂動を追加して前記第2サンプル画像の目鼻立ちの位置及び/又は顔の輪郭位置を変更することによって取得されたものであり、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークに前記第2サンプル顔画像及び第2サンプル顔姿勢画像を入力して、前記トレーニングサンプルの第2生成画像及び前記トレーニングサンプルの第2再構成画像を取得することであって、前記第2再構成画像は、符号化後の前記第2サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記第2サンプル顔画像及び前記第2生成画像の顔特徴の一致度に従って第6損失を取得し、前記第2サンプル顔画像の顔テクスチャ情報と前記第2生成画像の顔テクスチャ情報との間の差に従って第7損失を取得し、前記第2サンプル顔画像の第8画素点の画素値と前記第2生成画像の第9画素点の画素値との間の差に従って第8損失を取得し、前記第2サンプル顔画像の第10画素点の画素値と前記第2再構成画像の第11画素点の画素値との間の差に従って第9損失を取得し、前記第2生成画像の真実性に従って第10損失を取得することであって、前記第2サンプル顔画像における前記第8画素点の位置は、前記第2生成画像における前記第9画素点の位置と同じであり、前記第2サンプル顔画像における前記第10画素点の位置は、前記第2再構成画像における前記第11画素点の位置と同じであり、前記第2生成画像の真実性が高いほど、前記第2生成画像が真の画像である確率が高くなることを表す、ことと、
前記第6損失、前記第7損失、前記第8損失、前記第9損失及び前記第10損失に従って、前記顔生成ネットワークの第2ネットワーク損失を取得することと、
前記第2ネットワーク損失に基づいて、前記顔生成ネットワークのパラメータを調整することと、をさらに含む、
項目14に記載の画像処理方法。
(項目16)
前記参照顔画像及び参照姿勢画像を取得することは、
ユーザによって端末に入力された処理される顔画像を受信することと、
処理されるビデオを取得することであって、前記処理されるビデオは顔である、ことと、
前記処理される顔画像を前記参照顔画像とし、前記処理されるビデオの画像を前記顔姿勢画像として使用して、目標ビデオを取得することと、を含む、
項目1ないし15のいずれか一項に記載の画像処理方法。
(項目17)
画像処理装置であって、
参照顔画像及び参照顔姿勢画像を取得するように構成される取得ユニットと、
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第1顔マスクを取得するように構成される第1処理ユニットと、
前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得するように構成される第2処理ユニットと、を備える、前記画像処理装置。
(項目18)
前記第2処理ユニットは、
前記顔テクスチャデータを復号化処理して、第1顔テクスチャデータを取得し、
前記第1顔テクスチャデータ及び前記第1顔マスクに対してn(nは、2より大きいか等しい正の整数である)レベルの目標処理を実行して、前記目標画像を取得するように構成され、前記nレベルの目標処理は、第m-1(mは、2より大きいか等しく、且つ前記nより小さいか等しい正の整数である)レベルの目標処理及び第mレベルの目標処理を含み、前記nレベルの目標処理のうちの第1レベルの目標処理の入力データは前記顔テクスチャデータであり、前記第m-1レベルの目標処理の出力データは、前記第mレベルの目標処理の入力データであり、前記nレベルの目標処理のうちの第i(iは、1より大きいか等しく、且つ前記nより小さいか等しい正の整数である)レベルの目標処理は、前記第iレベルの目標処理の入力データ及び前記第1顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することを含む、
項目17に記載の画像処理装置。
(項目19)
前記第2処理ユニットは、
前記第iレベルの目標処理の入力データに従って、前記第iレベルの目標処理の融合されるデータを取得し、
前記第iレベルの目標処理の融合されるデータ及び第iレベルの顔マスクに対して融合処理を実行して、第iレベルの融合後のデータを取得し、ここで、前記第iレベルの顔マスクは、前記第1顔マスクに対してダウンサンプリング処理を実行することにより取得されたものであり、前記第iレベルの顔マスクのサイズは、前記第iレベルの目標処理の入力データのサイズと同じであり、
前記第iレベルの融合後のデータを復号化処理して、前記第iレベルの目標処理の出力データを取得するように構成される、
項目18に記載の画像処理装置。
(項目20)
前記画像処理装置は更に、
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得した後、前記顔テクスチャデータに対してjレベルの復号化処理を実行するように構成される復号化処理ユニットを備え、前記j(jは、2より大きいか等しい正の整数である)レベルの復号化処理のうちの第1レベルの復号化処理の入力データは前記顔テクスチャデータであり、前記jレベルの復号化処理は、第k-1(kは、2より大きいか等しく、且つ前記jより小さいか等しい正の整数である)レベルの復号化処理及び第kレベルの復号化処理を含み、前記第k-1レベルの復号化処理の出力データは、前記第kレベルの復号化処理の入力データであり、
前記第2処理ユニットは、前記jレベルの復号化処理のうちの第r(rは、1より大きいか等しく、且つ前記jより小さいか等しい正の整数である)レベルの復号化処理の出力データを前記第iレベルの目標処理の入力データと合併して、第iレベルの合併後のデータを前記第iレベルの目標処理の融合されるデータとして取得するように構成され、前記第rレベルの復号化処理の出力データのサイズは、前記第iレベルの目標処理の入力データのサイズと同じである、
項目19に記載の画像処理装置。
(項目21)
前記第2処理ユニットは、
前記第rレベルの復号化処理の出力データをチャネル次元で前記第iレベルの目標処理の入力データと合併して、前記第iレベルの合併後のデータを取得するように構成される、
項目20に記載の画像処理装置。
(項目22)
前記第rレベルの復号化処理は、
前記第rレベルの復号化処理の入力データに対して活性化処理、逆畳み込み処理、正規化処理を順次に実行して、前記第rレベルの復号化処理の出力データを取得することを含む、
項目20又は21に記載の画像処理装置。
(項目23)
前記第2処理ユニットは、
第1所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第1特徴データを取得し、第2所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第2特徴データを取得し、
前記第1特徴データ及び前記第2特徴データに従って正規化形式を決定し、
前記正規化形式に基づき、前記第iレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第iレベルの融合後のデータを取得するように構成される、
項目19ないし22のいずれか一項に記載の画像処理装置。
(項目24)
前記正規化形式は、目標アフィン変換を含み、
前記第2処理ユニットは、前記目標アフィン変換に基づき、前記第iレベルの目標処理の融合されるデータをアフィン変換して、前記第iレベルの融合後のデータを取得するように構成される、
項目23に記載の画像処理装置。
(項目25)
前記第2処理ユニットは、
前記顔テクスチャデータと前記第1顔マスクを融合処理して、目標融合データを取得し、
前記目標融合データを復号化処理して、前記目標画像を取得するように構成される、
項目17に記載の画像処理装置。
(項目26)
前記第1処理ユニットは、
複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得するように構成され、前記複数の符号化層は、s(sは、1より大きいか等しい正の整数である)番目の符号化層及びs+1番目の符号化層を含み、前記複数の符号化層のうちの第1層符号化層の入力データは前記参照顔画像であり、前記s番目の符号化層の出力データは、前記s+1番目の符号化層の入力データである、
項目17ないし25のいずれか一項に記載の画像処理装置。
(項目27)
前記複数の符号化層のそれぞれは、畳み込み処理層、正規化処理層及び活性化処理層を含む、
項目26に記載の画像処理装置。
(項目28)
前記画像処理装置は更に、
前記参照顔画像及び前記目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、前記参照顔画像の第2顔マスク及び前記目標画像の第3顔マスクを取得するように構成される顔キーポイント抽出処理ユニットと、
前記第2顔マスクと前記第3顔マスクの間の画素値との間の差に従って、第4顔マスクを決定するように構成される決定ユニットであって、前記参照顔画像の第1画素点の画素値と前記目標画像の第2画素点の画素値の差は、前記第4顔マスクの第3画素点の値に正相関を有し、前記参照顔画像における前記第1画素点の位置、前記目標画像における前記第2画素点の位置及び前記第4顔マスクにおける前記第3画素点の位置は全て同じである、決定ユニットと、
前記第4顔マスク、前記参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得するように構成される融合処理ユニットと、を備える、
項目17ないし27のいずれか一項に記載の画像処理装置。
(項目29)
前記決定ユニットは、
前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の平均値、前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の分散に従って、アフィン変換フォームを決定し、
前記アフィン変換フォームに従って、前記第2顔マスク及び前記第3顔マスクをアフィン変換して、前記第4顔マスクを取得するように構成される、
項目28に記載の画像処理装置。
(項目30)
前記画像処理装置が実行する画像処理方法は、顔生成ネットワークに適用され、前記画像処理装置は、前記顔生成ネットワークのトレーニングプロセスを実行するように構成され、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークにトレーニングサンプルを入力して、前記トレーニングサンプルの第1生成画像及び前記トレーニングサンプルの第1再構成画像を取得することであって、前記トレーニングサンプルは、サンプル顔画像及び第1サンプル顔姿勢画像を含み、前記第1再構成画像は、符号化後の前記サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記サンプル顔画像及び前記第1生成画像の顔特徴の一致度に従って第1損失を取得し、前記第1サンプル顔画像の顔テクスチャ情報と前記第1生成画像の顔テクスチャ情報との間の差に従って第2損失を取得し、前記第1サンプル顔画像の第4画素点の画素値と前記第1生成画像の第5画素点の画素値との間の差に従って第3損失を取得し、前記第1サンプル顔画像の第6画素点の画素値と前記第1再構成画像の第7画素点の画素値との間の差に従って第4損失を取得し、前記第1生成画像の真実性に従って第5損失を取得することであって、前記第1サンプル顔画像における前記第4画素点の位置は、前記第1生成画像における前記第5画素点の位置と同じであり、前記第1サンプル顔画像における前記第6画素点の位置は、前記第1再構成画像における前記第7画素点の位置と同じであり、前記第1生成画像の真実性が高いほど、前記第1生成画像が真の画像である確率が高くなることを表す、ことと、
前記第1損失、前記第2損失、前記第3損失、前記第4損失及び前記第5損失に従って、前記顔生成ネットワークの第1ネットワーク損失を取得することと、
前記第1ネットワーク損失に基づいて前記顔生成ネットワークのパラメータを生成することと、を含む、
項目17ないし29のいずれか一項に記載の画像処理装置。
(項目31)
前記トレーニングサンプルは、第2サンプル顔姿勢画像をさらに含み、前記第2サンプル顔姿勢画像は、前記第2サンプル顔画像にランダム摂動を追加して前記第2サンプル画像の目鼻立ちの位置及び/又は顔の輪郭位置を変更することによって取得されたものであり、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークに前記第2サンプル顔画像及び第2サンプル顔姿勢画像を入力して、前記トレーニングサンプルの第2生成画像及び前記トレーニングサンプルの第2再構成画像を取得することであって、前記第2再構成画像は、符号化後の前記第2サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記第2サンプル顔画像及び前記第2生成画像の顔特徴の一致度に従って第6損失を取得し、前記第2サンプル顔画像の顔テクスチャ情報と前記第2生成画像の顔テクスチャ情報との間の差に従って第7損失を取得し、前記第2サンプル顔画像の第8画素点の画素値と前記第2生成画像の第9画素点の画素値との間の差に従って第8損失を取得し、前記第2サンプル顔画像の第10画素点の画素値と前記第2再構成画像の第11画素点の画素値との間の差に従って第9損失を取得し、前記第2生成画像の真実性に従って第10損失を取得することであって、前記第2サンプル顔画像における前記第8画素点の位置は、前記第2生成画像における前記第9画素点の位置と同じであり、前記第2サンプル顔画像における前記第10画素点の位置は、前記第2再構成画像における前記第11画素点の位置と同じであり、前記第2生成画像の真実性が高いほど、前記第2生成画像が真の画像である確率が高くなることを表す、ことと、
前記第6損失、前記第7損失、前記第8損失、前記第9損失及び前記第10損失に従って、前記顔生成ネットワークの第2ネットワーク損失を取得することと、
前記第2ネットワーク損失に基づいて、前記顔生成ネットワークのパラメータを調整することと、をさらに含む、
項目30に記載の画像処理装置。
(項目32)
前記取得ユニットは、
ユーザによって端末に入力された処理される顔画像を受信し、
以及処理されるビデオを取得し、前記処理されるビデオは顔であり、
前記処理される顔画像を前記参照顔画像とし、前記処理されるビデオの画像を前記顔姿勢画像として使用して、目標ビデオを取得するように構成される、
項目17ないし31のいずれか一項に記載の画像処理装置。
(項目33)
プロセッサであって、
項目1ないし16のいずれか一項に記載の画像処理方法を実行するように構成される、前記プロセッサ。
(項目34)
電子機器であって、
プロセッサ及びメモリを備え、前記メモリは、コンピュータプログラムコードを記憶するように構成され、前記コンピュータプログラムコードは、コンピュータ命令を含み、前記プロセッサが前記コンピュータ命令を実行する際に、前記電子機器は、項目1ないし16のいずれか一項に記載の画像処理方法を実行する、前記電子機器。
(項目35)
コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、
前記コンピュータプログラムはプログラム命令を含み、前記プログラム命令が電子機器のプロセッサによって実行されるときに、前記プロセッサに、項目1ないし16のいずれか一項に記載の画像処理方法を実行させる、前記コンピュータ可読記憶媒体。
(項目36)
コンピュータ可読コードを含むコンピュータプログラムであって、
前記コンピュータ可読コードが電子機器によって実行されるときに、前記電子機器におけるプロセッサに、項目1ないし16のいずれか一項に記載の方法を実行させる、前記コンピュータプログラム。
本発明の実施例または背景技術の技術的解決策をより明確に説明するために、本発明の実施例または背景技術の説明で使用される図面を以下に説明する。
ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本発明と一致する実施例を示し、明細書とともに本発明の技術的解決策を説明するために使用される。
本発明の実施例で提供される画像処理方法の例示的なフローチャートである。 本発明の実施例で提供される顔キーポイントの概略図である。 本発明の実施例で提供される復号化層及び融合処理のアーキテクチャの概略図である。 本発明の実施例で提供される異なる画像の同じ位置にある要素の概略図である。 本発明の実施例で提供される別の画像処理方法の例示的なフローチャートである。 本発明の実施例で提供される別の画像処理方法の例示的なフローチャートである。 本発明の実施例で提供される復号化層及び目標処理のアーキテクチャの概略図である。 本発明の実施例で提供される別の復号化層及び目標処理のアーキテクチャの概略図である。 本発明の実施例で提供される別の画像処理方法の例示的なフローチャートである。 本発明の実施例で提供される顔生成ネットワークのアーキテクチャの概略図である。 本発明の実施例で提供される、参照顔画像及び参照顔姿勢画像に基づいて取得された目標画像の概略図である。 本発明の実施例で提供される画像処理装置の概略的な構造図である。 本発明の実施例で提供される画像処理装置のハードウェアの概略的な構造図である。
当業者が本発明の技術案を一層簡単に理解できるようにするために、以下、本発明の実施例の図面を参照して、本発明の実施例の技術案を明確且つ完全に説明し、明らかに、説明される実施例は、単に本発明の実施例の一部であり、実施例の全てではない。本発明の実施例に基づき、創造的な努力なしに当業者が取得した他のすべての実施例は、本発明の保護範囲に含まれる。本発明の明細書、特許請求の範囲および前記添付図面中の「第1」及び「第2」などの用語は、特定の順番を制限するものではなく、異なる対象を区別するものである。加えて、「含む」、「有する」という用語およびそれらの任意の変形は、非排他的な包含を網羅することを意図する。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、明確に列挙されたそれらのステップ又はユニットに限定されず、列挙されていないステップ又はユニットをオプションで更に含み得、又はこれらのプロセス、方法、製品又はデバイスに固有の他のステップ又はユニットをオプションで更に含み得る。
本明細書における「および/または」という用語は、関連付けられたオブジェクトを説明する単なる関連付けであり、3種類の関係が存在することができることを示し、例えば、Aおよび/またはBは、Aが独立で存在する場合、AとBが同時に存在する場合、Bが独立で存在する場合など3つの場合を表す。さらに、本明細書における「少なくとも1つ」という用語は、複数のうちの1つまたは複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、BおよびCで構成されたセットから選択された任意の1つまたは複数の要素を含むことを示す。本明細書で言及される「実施例」とは、実施例を参照して説明される特定の特徴、構造又は特性が、本発明の実施例のうちの少なくとも1つに含まれることができることを意味する。明細書の様々な場所での句の出現は、同じ実施例を指すわけではなく、他の実施例と互に排他的な独立したまたは代替的な実施例でもない。本明細書に記載の実施例が他の実施例と組み合わせることができることを当業者は明確かつ暗黙的に理解している。
本発明の実施例で提供される技術的解決策を適用して参照顔画像内の対象者の顔の表情、目鼻立ち及び顔の輪郭を参照顔姿勢画像の顔の表情、顔の輪郭及び目鼻立ちに置き換え、参照顔画像の顔テクスチャデータを保持して、目標画像を取得することができる。ここで、目標画像内の顔の表情、目鼻立ち及び顔の輪郭と、参照顔姿勢画像内の顔の表情、目鼻立ち及び顔の輪郭の一致度が高いということとは、目標画像の品質が高いということを表す。同時に、目標画像の顔テクスチャデータと参照顔画像の顔テクスチャデータの一致度が高いということも、目標画像の品質が高いということを表す。以下、本発明の実施例図面を組み合わせて本発明の実施例について説明する。
図1を参照すると、図1は、本発明の一実施例で提供される画像処理方法の例示的なフローチャートである。本発明の実施例で提供される画像処理方法は、端末機器又はサーバ又は他の処理機器によって実行されることができ、ここで、端末機器は、ユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末、端末、セルラー電話、コードレス電話、携帯情報端末(PDA:Personal Digital Assistant)、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。いくつかの可能な実施形態において、当該画像処理方法は、プロセッサがメモリに記憶されたコンピュータ可読命令を呼び出す方式により実現することができる。
ステップ101において、参照顔画像及び参照顔姿勢画像を取得する。
本発明の実施例では、参照顔画像は、対象者を含む顔画像を指し、ここで、対象者は、表情及び顔の輪郭が変更される人物を指す。例えば、チャンサンは、自分の1枚の自撮り写真aの表情及び顔の輪郭を画像bの表情及び顔の輪郭に置き換えたいと考える場合、自撮り写真aは参照顔画像であり、張三は対象者である。
本発明の実施例では、参照顔姿勢画像は、顔を含む任意の画像であってもよい。参照顔画像及び/又は参照顔姿勢画像を取得する方式は、ユーザが入力コンポーネントを介して入力した参照顔画像及び/又は参照顔姿勢画像を受信するであってもよく、ここで、入力コンポーネントは、キーボード、マウス、タッチスクリーン、タッチパッド及びオーディオ入力装置などを含む。参照顔画像及び/又は参照顔姿勢画像を取得する方式は、端末によって取得された参照顔画像及び/又は参照顔姿勢画像を含むことであってもよく、ここで、端末は、携帯電話、コンピュータ、タブレットコンピュータ、サーバなどを含む。本発明は、参照顔画像及び参照顔姿勢画像を取得する方式に対して限定しない。
ステップ102において、参照顔画像を符号化処理して、参照顔画像の顔テクスチャデータを取得し、参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、顔姿勢画像の第1顔マスクを取得する。
本発明の実施例では、符号化処理は、畳み込み処理であってもよく、畳み込み処理、正規化処理及び活性化処理の組み合わせであってもよい。
一可能な実施形態において、複数の符号化層を介して参照顔画像を順次に段階的符号化処理し、ここで、各符号化層はいずれも、畳み込み処理、正規化処理及び活性化処理を含み、且つ畳み込み処理、正規化処理及び活性化処理は順次に直列に接続され、即ち、畳み込み処理の出力データは、正規化処理の入力データであり、正規化処理の出力データは、活性化処理の入力データである。畳み込み処理は、畳み込みカーネルを介して、符号化層に入力したデータを畳み込みすることにより実現することができ、符号化層の入力データを畳み込み処理することにより、符号化層の入力データから特徴情報を抽出し、後続処理の計算量を低減するために、符号化層の入力データのサイズを縮小することができる。畳み込み処理後のデータに対して正規化処理を実行することにより、畳み込み処理後のデータ内の異なるデータ間の関連性を取り抜き、畳み込み処理後のデータ内の異なるデータ間の分布の違いを強調表示することができるため、後続処理を通じて、正規化処理後のデータからの特徴情報を抽出し続けるのに役立つ。活性化処理は、正規化処理後のデータを活性化関数に代入することにより実現することができ、例示的に、活性化関数は、整流された線形ユニット(ReLU:rectified linear unit)である。
本発明の実施例では、顔テクスチャデータは、少なくとも、顔の肌の色情報、顔の肌のつや情報、顔の肌のしわ情報及び顔の肌のテクスチャ情報を含む。
本発明の実施例では、顔キーポイント抽出処理とは、参照顔姿勢画像内の顔の輪郭の位置情報、目鼻立ちの位置情報及び顔の表情情報を抽出することを指し、ここで、顔の輪郭の位置情報は、参照顔姿勢画像座標系における、顔の輪郭上のキーポイントの座標を含み、目鼻立ちの位置情報は、参照顔姿勢画像座標系における、目鼻立ちキーポイントの座標を含む。
例えば、図2に示されたように、顔キーポイントは、顔の輪郭キーポイント及び目鼻立ちキーポイントを含む。目鼻立ちキーポイントは、眉毛領域のキーポイント、目領域のキーポイント、鼻領域のキーポイント、口領域のキーポイント、耳領域のキーポイントを含む。顔の輪郭キーポイントは、顔の輪郭線上のキーポイントを含む。図2に示された顔キーポイントの数及び位置は、本発明の実施例で提供される一例に過ぎず、本発明の構成を限定するものではないことに留意されたい。
上記の顔の輪郭キーポイント及び目鼻立ちキーポイントは、ユーザによって実施された本発明の実施例の実際の効果に従って調整することができる。上記の顔キーポイント抽出処理は、任意の顔キーポイント抽出アルゴリズムにより実現することができるが、本発明はこれらに対して限定しない。
本発明の実施例では、第1顔マスクは、顔の輪郭キーポイントの位置情報及び目鼻立ちキーポイントの位置情報、及び顔の表情情報を含む。説明の便宜上、以下では、顔キーポイントの位置情報及び顔の表情情報を顔姿勢と呼ぶ。
本発明の実施例では、参照顔画像の顔テクスチャデータを取得することと顔姿勢画像の第1顔マスクを取得することなどの2つの処理プロセス間に順序がないことを理解されたい。例えば、参照顔画像の顔テクスチャデータを取得してから参照顔姿勢画像の第1顔マスクを取得してもよく、参照顔姿勢画像の第1顔マスクを取得してから参照顔画像の顔テクスチャデータを取得してもよい。また、参照顔画像を符号化処理して、参照顔画像の顔テクスチャデータを取得する同時に、参照顔姿勢画像に対して顔キーポイント抽出処理を実行して顔姿勢画像の第1顔マスクを取得することもできる。
ステップ103において、顔テクスチャデータ及び第1顔マスクに従って、目標画像を取得する。
同じ人物の場合、顔テクスチャデータは固定され変化しない。即ち、異なる画像に含まれている人物は同じである場合、異なる画像を符号化処理して取得した顔テクスチャデータは同じであり、即ち、指紋情報及び虹彩情報は、個人のID情報として使用することができ、顔テクスチャデータも個人のID情報と見なすことができる。したがって、同一人物を含む多数の画像をトレーニングセットとして使用してニューラルネットワークをトレーニングする場合、当該ニューラルネットワークは、トレーニングすることにより画像内の人物の顔テクスチャデータを学習して、トレーニング後のニューラルネットワークを取得する。トレーニング後のニューラルネットワークは画像内の人物の顔テクスチャデータを含むため、トレーニング後のニューラルネットワークを使用して画像を生成する場合、当該人物の顔テクスチャデータを含む画像を取得することもできる。例えば、2000枚の李四の顔を含む画像をトレーニングセットとして使用してニューラルネットワークをトレーニングすると、ニューラルネットワークは、トレーニング中、当該2000枚の画像から李四の顔テクスチャデータを学習する。トレーニング後のニューラルネットワークを適用して画像を生成する場合、入力した参照顔画像に含まれた人物が李四であるかどうかに関係なく、最終的に取得される目標画像内の顔テクスチャデータは、全て李四の顔テクスチャデータであり、即ち、目標画像内の人物は李四である。
ステップ102において、本発明の実施例は、任意の一枚の参照顔画像から対象者の顔テクスチャデータを取得するために、参照顔画像から顔姿勢を抽出することなく、参照顔画像内の顔テクスチャデータを取得するために、参照顔画像を符号化処理し、且つ対象者の顔テクスチャデータは、対象者の顔姿勢を含まない。次に、任意の目標顔姿勢(参照顔画像内の人物を切り替えるための顔姿勢)の取得を実現するために、参照顔姿勢画像から顔テクスチャデータを抽出することなく、参照顔姿勢画像に対して顔キーポイント抽出処理を実行して参照顔姿勢画像の第1顔マスクを取得し、且つ目標顔姿勢は、参照顔姿勢画像の顔テクスチャデータを含まない。このように、顔テクスチャデータ及び第1顔マスクに対して復号化、融合などの処理を実行することにより、取得された目標画像内の人物の顔テクスチャデータと参照顔画像の顔テクスチャデータの一致度を向上させることができ、且つ目標画像の顔姿勢と参照顔姿勢画像の顔姿勢の一致度を向上させることができるため、目標画像の品質を向上させる。ここで、目標画像の顔姿勢と参照顔姿勢画像の顔姿勢の一致度が高いほど、目標画像内の人物の目鼻立ち、輪郭及び顔の表情と、参照顔姿勢画像内の人物の目鼻立ち、輪郭及び顔の表情との類似度が高いことを表す。目標画像の顔テクスチャデータと参照顔画像の顔テクスチャデータの一致度が高いほど、目標画像内の顔の肌色、顔の肌のつや情報、顔の肌のしわ情報、顔の肌のテクスチャ情報と、参照顔画像内の顔の肌色、顔の肌のつや情報、顔肌のしわ情報、顔の肌のテクスチャ情報との類似度が高いことを表す(ユーザの視角から見ると、目標画像内の人物と参照顔画像内の人物はますます同一人物に見えてくる)。
一可能な実施形態において、顔テクスチャデータ及び第1顔マスクを融合して、対象者の顔テクスチャデータを含む同時に目標顔姿勢も含む融合データを取得し、融合データを復号化処理することにより、目標画像を取得することができる。ここで、復号化処理は逆畳み込み処理であってもよい。
別の可能な実現形態において、多層復号化層を介して、顔テクスチャデータに対して階層復号化処理を実行して、異なるサイズの復号化後の顔テクスチャデータを取得することができ(即ち、異なる復号化層によって出力された復号化後の顔テクスチャデータのサイズは異なる)、各復号化層の出力データを第1顔マスクと融合することにより、異なるサイズの顔テクスチャデータと第1顔マスクの融合効果を向上させることができ、最終的に取得される目標画像の品質を向上させるのに役立つ。例えば、図3に示されたように、顔テクスチャデータは、順次に、最初の復号化層、2番目の復号化層、…、8番目の復号化層の復号化処理を通じて目標画像を取得する。ここで、最初の復号化層の出力データ及び第1レベルの顔マスク融合後のデータを2番目の復号化層の入力データとして使用し、2番目の復号化層の出力データ及び第2レベルの顔マスク融合後のデータを3番目の復号化層の入力データとして使用し、…、7番目の復号化層の出力データ及び第7レベルの顔マスク融合後のデータを8番目の復号化層の入力データとして使用し、最後に、8番目の復号化層の出力データを目標画像として使用する。上記の第7レベルの顔マスクは、参照顔姿勢画像の第1顔マスク、第1レベルの顔マスク、第2レベルの顔マスク、…、第6レベルの顔マスクのそれぞれが参照顔姿勢画像の第1顔マスクに対してダウンサンプリング処理を実行することにより取得されることが可能なものである。第1レベルの顔マスクのサイズは、最初の復号化層の出力データのサイズと同じであり、第2レベルの顔マスクのサイズは、2番目の復号化層の出力データのサイズと同じであり、…、第7レベルの顔マスクのサイズは、7番目の復号化層の出力データのサイズと同じである。上記のダウンサンプリング処理は、線形補間、最近隣補間、双一次補間であってもよい。
図3の復号化層の数は、本実施例で提供される一例に過ぎず、本発明の構成を限定するものではないことに留意されたい。
上記の融合とは、チャネル次元での融合した2つのデータの合併(concatenate)であり得る。例えば、第1レベルの顔マスクのチャネル数が3であり、最初の復号化層の出力データのチャネル数が2である場合、第1レベルの顔マスクを最初の復号化層の出力データと融合することにより取得されたデータのチャネル数は5である。
上記の融合は、融合した2つのデータ内の同じ位置にある要素をたすことであってもよい。ここで、2つのデータ内の同じ位置にある要素は、図4を参照することができ、データAにおける要素aの位置は、データBにおける要素eの位置と同じであり、データAにおける要素bの位置は、データBにおける要素fの位置と同じであり、データAにおける要素cの位置は、データBにおける要素gの位置と同じであり、データAにおける要素dの位置は、データBにおける要素hの位置と同じである。
本実施例は、参照顔画像を符号化処理することにより、参照顔画像内の対象者の顔テクスチャデータを取得することができ、参照顔姿勢画像に対して顔キーポイント抽出処理を実行することにより第1顔マスクを取得することができ、顔テクスチャデータ及び第1顔マスクに対して融合処理、復号化処理を実行して目標画像を取得することができ、これにより、任意の対象者の顔姿勢の変更を実現する。
図5を参照すると、図5は、本発明の一実施例で提供される上記のステップ102の一可能な実施形態である。
ステップ501において、複数の符号化層を介して、参照顔画像を段階的符号化処理して、参照顔画像の顔テクスチャデータを取得し、参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、顔姿勢画像の第1顔マスクを取得する。
参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、参照顔姿勢画像の第1顔マスクを取得するプロセスは、ステップ102を参照することができるため、ここでは繰り返して説明しない。
本実施例では、符号化層の数は2より大きいか等しく、複数の符号化層の各符号化層は順次に直列に接続され、即ち、前の符号化層の出力データは、その次の符号化層の入力データである。複数の符号化層がs番目の符号化層及びs+1番目の符号化層を含むと仮定すると、複数の符号化層のうちの最初の符号化層の入力データは参照顔画像であり、s番目の符号化層の出力データはs+1番目の符号化層の入力データであり、最後の符号化層の出力データは参照顔画像の顔テクスチャデータである。ここで、各符号化層はいずれも、畳み込み処理層、正規化処理層、活性化処理層を含み、sは、1より大きいか等しい正の整数である。複数の符号化層を介して参照顔画像を段階的符号化処理することにより、参照顔画像から顔テクスチャデータを抽出することができ、ここで、各符号化層から抽出された顔テクスチャデータは全て異なる。具体的には、複数の符号化層の符号化処理を介して、参照顔画像の顔テクスチャデータを徐々に抽出する同時に、比較的に二次的な情報を除外する(ここで、比較的二次的な情報とは、顔の髪の毛情報、輪郭情報を含む、非顔テクスチャデータを指す)。したがって、後で抽出される顔テクスチャデータのサイズは小さく、且つ顔テクスチャデータに含まれた顔の肌の色情報、顔の肌のつや情報、顔の肌のしわ情報及び顔の肌のテクスチャ情報はより集中する。このように、参照顔画像の顔テクスチャデータを取得する同時に、画像のサイズを縮小し、システムの計算量を減らして、演算速度を向上させる。
一可能な実施形態において、各符号化層はいずれも、畳み込み処理層、正規化処理層、活性化処理層を含み、且つ当該3つの処理層は順次に直列に接続され、即ち、畳み込み処理層の入力データは、符号化層の入力データであり、畳み込み処理層の出力データは、正規化処理層の入力データであり、正規化処理層の出力データは、活性化処理層の出力データであり、最後に、正規化処理層を介して符号化層の出力データを取得する。畳み込み処理層の機能の実現プロセスは、符号化層の入力データを畳み込み処理し、即ち、畳み込みカーネルを使用して符号化層の入力データ上でスライドし、符号化層の入力データ内の要素の値を畳み込みカーネル内の全ての要素の値と乗算した後、乗算後に取得された全ての積の和を当該要素の値として使用し、最後に、符号化層の入力データ内の全ての要素に対してスライド処理を実行して、畳み込み処理後のデータを取得する。正規化処理層は、畳み込み処理後のデータをバッチ正規化処理(BN:batch norm)層に入力することにより実現することができ、BN層を介して畳み込み処理後のデータに対してバッチ正規化処理を実行することにより、畳み込み処理後のデータを平均値が0であり、且つ分散が1である正規分布に一致させて、畳み込み処理後のデータ内のデータ間の相関を除去し、畳み込み処理後のデータ中データ間の分布の違いを強調表示する。前の畳み込み処理層及び正規化処理層はデータから複雑なマッピングを学習する能力が低いため、畳み込み処理層及び正規化処理層を介して画像などの複雑なタイプのデータを処理することができる。したがって、画像などの複雑なデータを処理するために、正規化処理後のデータを非線性変換する必要がある。BN層の後に非線性活性化関数を接続し、参照顔画像の顔テクスチャデータを抽出するために、非線性活性化関数を介して正規化処理後のデータを非線性変換して、正規化処理後のデータに対する活性化処理を実現する。例示的に、上記の非線性活性化関数はReLUである。
本実施例は、参照顔画像を段階的符号化処理することにより、参照顔画像のサイズを縮小して参照顔画像の顔テクスチャデータを取得し、顔テクスチャデータに基づいて処理する後続のデータ処理量を減らすことができ、処理速度を向上させ、且つ任意の顔姿勢での参照顔画像内の人物の画像を取得するために、後続処理は、任意の参照顔画像の顔テクスチャデータ及び任意の顔姿勢(即ち、第1顔マスク)に基づいて目標画像を取得することができる。
図6を参照すると、図6は、本発明の一実施例で提供される、上記のステップ103の一可能な実施形態の例示的なフローチャートである。
ステップ601において、顔テクスチャデータを復号化処理して、第1顔テクスチャデータを取得する。
復号化処理は、符号化処理の逆であり、顔テクスチャデータを復号化処理して参照顔画像を取得することができるが、顔マスクを顔テクスチャデータと融合して、目標画像を取得するために、本実施例は、顔テクスチャデータに対してマルチレベルの復号化処理を実行することにより、マルチレベルの復号化処理プロセス中、顔マスクを顔テクスチャデータと融合する。
一可能な実施形態において、図7に示されたように、顔テクスチャデータは、順次に、最初の生成復号化層、2番目の生成復号化層(即ち、第1レベルの目標処理中の生成復号化層)、…、7番目の生成復号化層の復号化処理(即ち、第6レベルの目標処理中の生成復号化層)を通じて、最後に、目標画像を取得する。ここで、顔テクスチャデータを最初の生成復号化層に入力して復号化処理することにより、第1顔テクスチャデータを取得する。他の実施例において、顔テクスチャデータは、最初のいくつかの(最初の2つの層)生成復号化層を介して復号化処理して、第1顔テクスチャデータを取得することもできる。
ステップ602において、第1顔テクスチャデータ及び第1顔掩模に対してnレベルの目標処理を実行して、目標画像を取得する。
本実施例では、nは、2より大きいか等しい正の整数であり、目標処理は、融合処理及び復号化処理を含み、第1顔テクスチャデータは第1レベルの目標処理の入力データであり、即ち、第1顔テクスチャデータを第1レベルの目標処理の融合されるデータとして使用し、第1レベルの目標処理の融合されるデータ及び第1レベルの顔マスクを融合処理して第1レベルの融合後のデータを取得し、第1レベルの融合後のデータを復号化処理して第1レベルの目標処理の出力データを第2レベルの目標処理の融合されるデータとして取得し、第2レベルの目標処理は、第2レベルの目標処理の入力データを第2レベルの顔マスクと融合処理して第2レベルの融合後のデータを取得し、第2レベルの融合後のデータを復号化処理して第2レベルの目標処理の出力データを第3レベルの目標処理の融合されるデータとして取得し、…、第nレベルの目標処理のデータを目標画像として取得するまで続ける。上記の第nレベルの顔マスクは、参照顔姿勢画像の第1顔マスク、第1レベルの顔マスク、第2レベルの顔マスク、…、第n-1レベルの顔マスクのそれぞれが参照顔姿勢画像の第1顔マスクに対してダウンサンプリング処理を実行することにより取得されることが可能なものである。且つ第1レベルの顔マスクのサイズは、第1レベルの目標処理の入力データのサイズと同じであり、第2レベルの顔マスクのサイズは、第2レベルの目標処理の入力データのサイズと同じであり、…、第nレベルの顔マスクのサイズは、第nレベルの目標処理の入力データのサイズと同じである。
例示的に、本実施例における復号化処理はいずれも、逆畳み込み処理及び正規化処理を含む。nレベルの目標処理のうちのいずれか1つのレベルの目標処理は、当該目標処理の入力データ及び第1顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することにより実現する。例えば、nレベルの目標処理のうちの第iレベルの目標処理は、第iレベルの目標処理の入力データ及び第1顔マスクのサイズを調整した後に取得したデータを先ず融合処理して第iレベルの目標融合データを取得し、第iレベルの目標融合データを復号化処理して、第iレベルの目標処理の出力データを取得し、即ち、第iレベルの目標処理の入力データに対する第iレベルの目標処理を完了する。
異なるサイズの顔マスク(即ち、第1顔マスクのサイズを調整した後に取得したデータ)を異なるレベルの目標処理の入力データと融合することにより、顔テクスチャデータと第1顔マスクの融合効果を向上させることができ、最終的に取得される目標画像の品質を向上させるのに役立つ。
上記の第1顔マスクのサイズを調整することとは、第1顔マスクに対してアップサンプリング処理を実行することであってもよく、第1顔マスクに対してダウンサンプリング処理を実行することであってもよいが、本発明はこれらに対して限定しない。
一可能な実施形態において、図7に示されたように、第1顔テクスチャデータは、第1レベルの目標処理、第2レベルの目標処理、…、第6レベルの目標処理を通じて目標画像を取得する。異なるサイズの顔マスクを異なるレベルの目標処理の入力データと直接に融合する場合、復号化処理の正規化処理を通じて、融合後のデータに対して正規化処理を実行する場合、異なるサイズの顔マスク内の情報は流失するため、最終的に取得された目標画像の品質が低下する。本実施例は、異なるサイズの顔マスクに従って正規化形式を決定し、正規化形式に基づき目標処理の入力データに対して正規化処理を実行して、第1顔マスクと目標処理のデータの融合を実現する。このように、第1顔マスクの各要素に含まれる情報を、目標処理の入力データの同じ位置にある要素に含まれた情報をよりよく融合させることができ、目標画像中各画素点の品質を向上させるのに役立つ。例示的に、第1所定のサイズの畳み込みカーネルを使用して第iレベルの顔マスクに対して畳み込み処理を実行して第1特徴データを取得し、第2所定のサイズの畳み込みカーネルを使用して第iレベルの顔マスクに対して畳み込み処理を実行して第2特徴データを取得する。第1特徴データ及び前記第2特徴データに従って正規化形式を決定する。ここで、第1所定のサイズ及び第2所定のサイズは異なり、iは、1より大きいか等しく、且つnより小さいか等しい正の整数である。
一可能な実施形態において、第iレベルの目標処理の入力データをアフィン変換することにより、第iレベルの目標処理に対する非線性変換を実現して、より複雑なマッピングを実現することができ、非線性正規化後のデータに基づいて画像を生成するのに役立つ。第第第iレベルの目標処理の入力データが
Figure 0007137006000001
であり、合計m個のデータを有し、出力は
Figure 0007137006000002
であり、第iレベルの目標処理の入力データをアフィン変換する。即ち、第iレベルの目標処理の入力データに対して次の操作を実行する。先ず、上記のiレベルの目標処理の入力データ
Figure 0007137006000003
の平均値、即ち
Figure 0007137006000004
を計算する。上記の平均値
Figure 0007137006000005
に従って、上記のiレベルの目標処理の入力データの分散、即ち
Figure 0007137006000006
を決定する。その後、上記の平均値
Figure 0007137006000007
に従って、上記のiレベルの目標処理の入力データをアフィン変換して、
Figure 0007137006000008
を取得する。最後に、スケーリング変数γ及び平行移動変数δに基づいて、アフィン変換の結果、即ち、
Figure 0007137006000009
を取得する。ここで、γ及びδは、第1特徴データ及び第2特徴データに従って取得することができる。例えば、第1特徴データをスケーリング変数γとして使用し、第2特徴データをδとして使用する。正規化形式を決定した後、正規化形式に従って第iレベルの目標処理の入力データに対して正規化処理を実行して、第iレベルの融合後のデータを取得することができる。第iレベルの融合後のデータを復号化処理して、第iレベルの目標処理の出力データを取得することができる。
第1顔マスク及び顔テクスチャデータをよりよく融合するために、参照顔画像の顔テクスチャデータに対して階層復号化処理を実行して、異なるサイズの顔テクスチャデータを取得し、同じサイズの顔マスクと目標処理の出力データを融合して、第1顔マスク及び顔テクスチャデータの融合効果を向上させ、目標画像の品質を向上させる。本実施例では、異なるサイズの顔テクスチャデータを取得するために、参照顔画像の顔テクスチャデータに対してjレベルの復号化処理を実行する。上述jレベルの復号化処理のうちの第1レベルの復号化処理の入力データは顔テクスチャデータであり、jレベルの復号化処理は、第k-1レベルの復号化処理及び第kレベルの復号化処理を含み、第k-1レベルの復号化処理の出力データは、前記第kレベルの復号化処理の入力データである。各レベルの復号化処理はいずれも、活性化処理、逆畳み込み処理、正規化処理を含み、即ち、復号化処理の入力データに対して活性化処理、逆畳み込み処理、正規化処理を順次に実行して、復号化処理の出力データを取得することができる。ここで、jは、2より大きいか等しい正の整数である、kは、2より大きいか等しく、jより小さいか等しい正の整数である。
一可能な実施形態において、図8に示されたように、再構成された復号化層の数は目標処理の数と同じであり、且つ、第rレベルの復号化処理の出力データ(即ち、第rレベルの再構成復号化層の出力データ)のサイズは、第iレベルの目標処理の入力データのサイズと同じである。第rレベルの復号化処理の出力データを第iレベルの目標処理の入力データと合併することにより、第iレベルの合併後のデータを取得し、この場合、第iレベルの合併後のデータを第iレベルの目標処理の融合されるデータとして使用し、第iレベルの融合されたデータに対して第iレベルの目標処理を実行して、第iレベルの目標処理の出力データを取得する。上記の方式を通じて、異なるサイズの参照顔画像の顔テクスチャデータを目標画像を取得するプロセスでより適切に使用することができ、目標画像の品質を向上させるのに役立つ。例示的に、上記の合併は、チャネル次元での合併(concatenate)を含む。ここで、第iレベルの融合されたデータに対して第iレベルの目標処理を実行するプロセスは、上記の可能な実施形態を参照することができる。
図7の目標処理中の第iレベルの融合されるデータは、第iレベルの目標処理の入力データであり、図8の第iレベルの融合されるデータは、第iレベルの目標処理の入力データと第rレベルの復号化処理の出力データを合併して取得したデータであり、第iレベルの融合されたデータ及び第iレベルの顔マスクに対して融合処理を実行する後続のプロセスは、全て同じであることに留意されたい。
図7及び図8の目標処理の数と図8の合併の回数は、本発明の実施例で提供する例に過ぎず、本発明の構成を限定するものではないことに留意されたい。例えば、図8は6買いの合併を含み、即ち、各復号化層の出力データは、同じサイズの目標処理の入力データと合併する。合併するたびに最終的に取得される目標画像の品質が向上するが(即ち、合併する回数が多いほど、目標画像の品質が向上する)、合併するたびに大量のデータ処理量が発生し、コストのかかる処理リソース(ここでは、本実施例の実行主体の計算リソースである)も増加するため、合併回数は、ユーザの実際の使用状況に従って調整することができ、例えば、部分的な(最後の層や多層など)再構成復号化層の出力データと同じサイズの目標処理の入力データを合併することができる。
本実施例は、顔テクスチャデータを階層目標処理するプロセス中、第1顔マスクのサイズを調整して取得した異なるサイズの顔マスクと目標処理の入力データを融合することにより、第1顔マスクと顔テクスチャデータの融合効果を向上させるため、目標画像の顔姿勢と参照顔姿勢画像の顔姿勢の一致度を向上させる。参照顔画像の顔テクスチャデータに対して階層復号化処理を実行することにより、異なるサイズの復号化後の顔テクスチャデータを取得し(即ち、異なる再構成復号化層の出力データのサイズは異なる)、同じサイズの復号化後の顔テクスチャデータを目標処理の入力データと融合して、第1顔マスクと顔テクスチャデータの融合効果をさらに向上させることができるため、目標画像の顔テクスチャデータと参照顔画像の顔テクスチャデータの一致度を向上させる。本実施例で提供される方法により、上記の2つの一致度を向上させる場合、目標画像の品質を向上させることができる。
本発明の実施例は、参照顔画像の顔マスク及び目標画像の顔マスクを処理する技術案を更に提供し、目標画像内の細部(ひげ情報、しわ情報及び肌のテクスチャ情報を含む)を豊かにするため、目標画像の品質を向上させる。図9を参照すると、図9是本発明一実施例で提供される別の画像処理方法の例示的なフローチャートである。
ステップ901において、参照顔画像及び目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、参照顔画像の第2顔マスク及び目標画像の第3顔マスクを取得する。
本実施例では、顔キーポイント抽出処理は、画像から顔の輪郭の位置情報、目鼻立ちの位置情報及び顔の表情情報を抽出することができる。参照顔画像及び目標画像に対してそれぞれ顔キーポイント抽出処理を実行することにより、参照顔画像の第2顔マスク及び目標画像の第3顔マスクを取得することができる。第2顔マスクのサイズ、第3顔マスクのサイズ、参照顔画像のサイズ及び参照目標画像のサイズは全て同じである。第2顔マスクは、参照顔画像の顔の輪郭キーポイントの位置情報及び目鼻立ちキーポイントの位置情報及び顔の表情を含み、第3顔マスクは、目標画像の顔の輪郭キーポイントの位置情報及び目鼻立ちキーポイントの位置情報及び顔の表情を含む。
ステップ902において、第2顔マスクと第3顔マスクとの間の画素値との間の差に従って、第4顔マスクを決定する。
第2顔マスクと第3顔マスクと間の画素値の差(平均値、分散、相関などの統計データ)を比較することにより、参照顔画像と目標画像の間の詳細な違いを取得し、当該詳細な違いに基づいて第4顔マスクを決定することができる。
一可能な実施形態において、第2顔マスクと第3顔マスクの同じ位置にある画素点の画素値の平均値(以下、画素平均値と呼ぶ)、及び第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の分散(以下、画素分散と呼ぶ)に従って、アフィン変換フォームを決定する。そして、アフィン変換フォームに従って、第2顔マスク及び第3顔マスクをアフィン変換して、第4顔マスクを取得することができる。ここで、画素平均値をアフィン変換のスケーリング変数として使用し、画素分散をアフィン変換の平行移動変数として使用する。画素平均値をアフィン変換の平行移動変数として使用し、画素分散をアフィン変換のスケーリング変数として使用する。スケーリング変数及び平行移動変数の意味は、ステップ602を参照することができる。本実施例では、第4顔マスクのサイズは、第2顔マスクのサイズ及び第3顔マスクのサイズと同じである。第4顔マスクの各画素点には値がある。例示的に、当該数値の値は0ないし1である。ここで、画素点の値が1に近いほど、当該画素点の位置での、参照顔画像の画素点の画素値と目標画像の画素点の画素値の差が大きいことを表す。例えば、参照顔画像における第1画素点の位置、目標画像における第2画素点の位置及び第4顔マスクにおける第3画素点の位置は全て同じであり、第1画素点の画素値と第2画素点の画素値の差が大きいほど、第3画素点の値は大きい。
ステップ903において、第4顔マスク、参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得する。
目標画像与参照顔画像の同じ位置にある画素点の画素値の差が小さいほど、目標画像の顔テクスチャデータと参照顔画像の顔テクスチャデータの一致度は高い。ステップ902の処理を通じて、参照顔画像と目標画像の同じ位置にある画素点の画素値の差(以下、画素値の差と呼ぶ)を決定することができる。したがって、第4顔マスクに従って目標画像及び参照顔画像を融合して、融合後の画像と参照人画像の間の同じ位置にある画素点の画素値の差を減らすことにより、融合後の画像と参照顔画像の細部の一致度が高くなる。一可能な実施形態において、次の式により、参照顔画像と目標画像を融合する。
式(1)として、
Figure 0007137006000010
である。
ここで、Ifuseは、融合後の画像であり、Igenは目標画像であり、Irefは参照顔画像であり、maskは第4顔マスクである。(1-mask)は、第4顔マスクと同じサイズの顔マスクを使用することを指し、且つ各画素点の値が1である顔マスクから第4顔マスクの同じ位置にある画素点の値を減算する。
Figure 0007137006000011
は、(1-mask)によって取得された顔マスクに参照顔画像の同じ位置にある値を掛けることを指す。
Figure 0007137006000012
は、第4顔マスクに参照顔画像の同じ位置にある画素点の値を掛けることを指す。
Figure 0007137006000013
を介して、目標画像において参照顔画像の画素値との差が小さい位置にある画素値を強化し、目標画像において参照顔画像の画素値との差が大きい位置にある画素値を弱めることができる。
Figure 0007137006000014
を介して、参照顔画像において目標画像の画素値との差が大きい位置にある画素値を強化し、参照顔画像において目標画像の画素値との差が小さい位置にある画素値を弱めることができる。
Figure 0007137006000015
によって取得された画像を、
Figure 0007137006000016
によって取得された画像の同じ位置にある画素点の画素値を追加して、目標画像の細部を強化させ、目標画像の細部と参照顔画像の細部との一致度を向上させることができる。
例えば、参照顔画像における画素点aの位置、目標画像における画素点bの位置、及び第4顔マスクにおける画素点cの位置が同じであり、且つ画素点aの画素値は255であり、画素点bの画素値は0であり、画素点cの値は1である。
Figure 0007137006000017
によって取得された画像内の画素点dの画素値は255であり
Figure 0007137006000018
によって取得された画像における画素点dの位置は、参照顔画像における画素点aの位置と同じである)、且つ
Figure 0007137006000019
によって取得された画像における画素点eの画素値は0である
Figure 0007137006000020
によって取得された画像における画素点dの位置は、参照顔画像における画素点aの位置と同じである)。画素点dの画素値と画素点eの画素値を加算を加算して、融合後の画像内の画素点fの画素値が255であると決定し、即ち、上記の融合処理により取得された画像内の画素点fの画素値は、参照顔画像内の画素点aの画素値と同じである。
本実施例では、新しい目標画像は、上記の融合後の画像である。本実施は、第2顔マスク及び第3顔マスクをアフィン変換して第4顔マスクを取得し、第4顔マスクに従って参照顔画像と目標画像を融合することにより、目標画像の詳細情報を向上させる同時に、目標画像の目鼻立ち位置情報、顔の輪郭位置情報及び表情情報を保持するため、目標画像の品質を向上させる。
本発明の実施例は、本発明で提供される上述実施例における方法を実現するための顔生成ネットワークを更に提供する。図10を参照すると、図10は、本発明の一実施例で提供される顔生成ネットワークの概略的な構造図である。図10に示されたように、顔生成ネットワークの入力は、参照顔姿勢画像及び参照顔画像である。参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、顔マスクを取得する。顔マスクに対してダウンサンプリング処理を実行して第1レベルの顔マスク、第2レベルの顔マスク、第3レベルの顔マスク、第4レベルの顔マスク、第5レベルの顔マスクを取得し、顔マスクを第6レベルの顔マスクとして使用する。ここで、第1レベルの顔マスク、第2レベルの顔マスク、第3レベルの顔マスク、第4レベルの顔マスク、第5レベルの顔マスクはそれぞれ、異なるダウンサンプリング処理により取得され、上記のダウンサンプリング処理は、双一次補間、最近隣内挿、高階補間、畳み込み処理、プーリング処理により実現することができる。
複数の符号化層を介して参照顔画像を段階的符号化処理して、顔テクスチャデータを取得する。そして、多層復号化層を介して顔テクスチャデータに対して階層復号化処理を実行して、再構成画像を取得することができる。再構成画像と参照顔画像の同じ位置の画素値の差により、参照顔画像に対して段階的符号化処理を実行してから階層復号化処理を実行することにより取得された再構成画像と生成画像の差を測定することができ、当該差が小さいほど、参照顔画像に対する符号化処理及び復号化処理により取得された異なるサイズの顔テクスチャデータ(画像の顔テクスチャデータ及び各復号化層の出力データを含む)の品質が高いことを表す(ここで、品質が高いこととは、異なるサイズの顔テクスチャデータに含まれた情報と、参照顔画像に含まれた顔テクスチャ情報の一致度が高いことを指す)。
顔テクスチャデータに対して階層復号化処理を実行するプロセスにおいて、第1レベルの顔マスク、第2レベルの顔マスク、第3レベルの顔マスク、第4レベルの顔マスク、第5レベルの顔マスク、第6レベルの顔マスクを対応するデータとそれぞれ融合して、目標画像を取得することができる。ここで、融合は、適応アフィン変換を含み、即ち、第1所定のサイズの畳み込みカーネル及び第2所定のサイズの畳み込みカーネルをそれぞれ使用して、第1レベルの顔マスク、又は第2レベルの顔マスク、又は第3レベルの顔マスク、又は第4レベルの顔マスク、又は第5レベルの顔マスク、又は第6レベルの顔マスクを畳み込み処理して、第3特徴データ及び第4特徴データを取得し、第3特徴データ及び第4特徴データに従って、アフィン変換フォームを決定し、最後に、アフィン変換フォームに従って、対応するデータをアフィン変換する。このように、顔マスクと顔テクスチャデータの融合効果を向上させることができ、生成画像(即ち、目標画像)の品質を向上させるのに役立つ。
顔テクスチャデータに対して階層復号化処理を実行して再構成画像を取得するプロセスにおける復号化層の出力データ、及び顔テクスチャデータに対して階層復号化を実行して目標画像を取得するプロセスにおける復号化層の出力データに対してconcatenate処理を実行して、顔マスクと顔テクスチャデータの融合効果を更に向上させ、目標画像の品質を更に向上させることができる。
本発明の実施例から分かるように、本発明は、参照顔姿勢画像から顔マスクを取得し、参照顔画像から顔テクスチャデータを取得してそれぞれ処理することにより、参照顔姿勢画像内の任意の人物の顔姿勢及び参照顔画像内の任意の人物の顔テクスチャデータを取得することができる。このように、顔マスク及び顔テクスチャデータに基づく後続の処理により、顔姿勢が参照顔画像の顔姿勢であり、且つ顔テクスチャデータが参照顔画像の顔テクスチャデータである目標画像を取得することができ、即ち、任意の人物に対する「顔交換」を実現する。
上記の実現の精神及び実施形態に基づいて、本発明は、トレーニング後の顔生成ネットワークが参照顔姿勢画像から品質の高い顔マスクを取得し(即ち、顔マスクに含まれた顔姿勢情報と参照顔姿勢画像に含まれた顔姿勢情報との一致度が高い)、及び参照顔画像から品質の高い顔テクスチャデータを取得することができ(即ち、顔テクスチャデータに含まれた顔テクスチャ情報と参照顔画像に含まれた顔テクスチャ情報との一致度が高い)、顔マスク及び顔テクスチャデータに基づいて品質の高い目標画像を取得することができるようにする、顔生成ネットワークのトレーニング方法を提供する。顔生成ネットワークをトレーニングするプロセスにおいて、第1サンプル顔画像及び第1サンプル顔姿勢画像を顔生成ネットワークに入力して、第1生成画像及び第1再構成画像を取得することができる。ここで、第1サンプル顔画像内の人物は、第1サンプル顔姿勢画像内の人物と異なる。
第1生成画像は、顔テクスチャデータを復号化することにより取得されたものであり、即ち、第1サンプル顔画像から抽出された顔テクスチャ特徴の効果が高いほど(即ち、抽出されたテクスチャ特徴に含まれた顔テクスチャ情報と第1サンプル顔画像に含まれた顔テクスチャ情報の一致度が高い)、後続に取得された第1生成画像の品質が高い(即ち、第1生成画像に含まれた顔テクスチャ情報と第1サンプル顔画像に含まれた顔テクスチャ情報との一致度が高い)。したがって、本実施例は、第1サンプル顔画像及び第1生成画像に対して顔特徴抽出処理をそれぞれ実行することにより、第1サンプル顔画像の特徴データ及び第1生成画像の顔特徴データを取得し、顔特徴損失関数を介して第1サンプル顔画像の特徴データと第1生成画像の顔特徴データの差を測定して、第1損失を取得する。上記の顔特徴抽出処理は、顔特徴抽出アルゴリズムにより実現することができるが、本発明はこれらに対して限定しない。
ステップ102の記載によると、顔テクスチャデータを個人のID情報と見なすことができ、即ち、第1生成画像の顔テクスチャ情報と第1サンプル顔画像の顔テクスチャ情報の一致度が高いほど、第1生成画像内の人物と第1サンプル顔画像内の人物との類似度は高い(ユーザの視覚から見ると、第1生成画像内の人物と第1サンプル顔画像内の人物はますます同一人物に見えてくる)。したがって、本実施例は、損失関数を感知することにより、第1生成画像の顔テクスチャ情報と第1サンプル顔画像の顔テクスチャ情報の差を測定して、第2損失を取得する。第1生成画像と第1サンプル顔画像の間の全体的な類似度が高いほど(ここで、全体的な類似度は、2枚の画像において同じ位置にある画素値の差、2枚の画像の全体的な色の違い、顔領域を除いた2枚の画像の背景領域の一致度を含む)、取得された第1生成画像の品質も高くなる(ユーザの視角から見ると、第1生成画像と第1サンプル顔画像は、人物の表情や輪郭が異なること以外にも、他の全ての画像の内容の類似度が高いほど、第1生成画像内の人物が第1サンプル顔画像内の人物と同一人物に見えてき、且つ第1生成画像において顔領域を除いた画像の内容と、第1サンプル顔画像において顔領域を除いた画像の内容との類似度も高くある)。したがって、本実施例は、損失関数を再構築することにより、第1サンプル顔画像と第1生成画像の全体的な類似度を測定して、第3損失を取得する。顔テクスチャデータと顔マスクの融合効果を向上させるために、顔テクスチャデータ及び顔マスクに基づいて第1生成画像を取得するプロセスにおいて、異なるサイズの復号化処理後の顔テクスチャデータ(即ち、顔テクスチャデータに基づいて第1再構成画像を取得するプロセスにおける各復号化層の出力データ)と、顔テクスチャデータに基づいて第1生成画像を生成するプロセスにおける各復号化層の出力データとに対してconcatenate処理を実行する。即ち、顔テクスチャデータに基づいて第1再構成画像を取得するプロセスにおける各復号化層の出力データの品質が高いほど(ここでは、復号化層の出力データに含まれた情報と第1サンプル顔画像に含まれた情報との一致度が高いことを指す)、取得された第1生成画像の品質が高く、且つ取得された第1再構成画像と第1サンプル顔画像との類似度も高い。したがって、本実施例は、損失関数を再構築することにより、第1再構成画像と第1サンプル顔画像の間の類似度を測定して、第4損失を取得する。上記の顔生成ネットワークのトレーニングプロセスにおいて、参照顔画像及び参照顔姿勢画像を顔生成ネットワークに入力して、第1生成画像及び第1再構成画像を取得し、上記の損失関数を介して第1生成画像の顔姿勢が第1サンプル顔画像の顔姿勢と一致するように維持し、トレーニング後の顔生成ネットワーク内の複数の符号化層参照顔画像を段階的符号化処理して顔テクスチャデータを取得するときに、参照顔画像から顔姿勢特徴を抽出して、顔姿勢情報を取得することではなく、参照顔画像から顔テクスチャ特徴を抽出することに重点を置くことができる。このように、トレーニング後の顔生成ネットワークを適用して目標画像を生成する場合、取得された顔テクスチャデータに含まれた参照顔画像の顔姿勢情報を減らすことができ、目標画像の品質を向上させるのにより役立つ。
本実施例で提供される顔生成ネットワークは、敵対的ネットワークを生成する生成ネットワークに属し、第1生成画像は、顔生成ネットワークにより生成された画像であり、即ち、第1生成画像は真の画像(即ち、カメラ機器又は写真機器によって撮影された画像である)ではない。取得された第1生成画像の真実性を向上させるために(第1生成画像の真実性が高いほど、ユーザの視角から見ると、第1生成画像がますます真の画像に見えてくる)、敵対的ネットワーク損失(GAN:generative adversarial networks)関数を生成することにより、目標画像の真実性を測定して第5損失を取得する。上記の第1損失、第2損失、第3損失、第4損失、第5損失に基づいて、顔生成ネットワークの第1ネットワーク損失を取得することができ、具体的に、次の式を参照ることができる。
式(2)として、
Figure 0007137006000021
である。
ここで、Ltotalはネットワーク損失であり、Lは第1損失であり、Lは第2損失であり、Lは第3損失であり、Lは第4損失であり、Lは第5損失である。α、α、α、α、αは全て任意の自然数である。例示的に、α=25、α=25、α=α=α=1である。式(2)によって取得された第1ネットワーク損失に基づいて、逆伝播により、収束によってトレーニングが完了するまで、顔生成ネットワークをトレーニングして、トレーニング後の顔生成ネットワークを取得する。例示的に、顔生成ネットワークをトレーニングするプロセスにおいて、トレーニングサンプルは、第2サンプル顔画像及び第2サンプル姿勢画像をさらに含み得る。ここで、第2サンプル姿勢画像は、第2サンプル顔画像にランダム摂動を追加することにより、第2サンプル顔画像の顔姿勢(例えば、第2サンプル顔画像内の目鼻立ちの位置及び/又は第2サンプル顔画像内の顔の輪郭位置をオフセットする)を変更して、第2サンプル顔姿勢画像を取得することができる。第2サンプル顔画像及び第2サンプル顔姿勢画像を顔生成ネットワークに入力してトレーニングすることにより、第2生成画像及び第2再構成画像を取得する。第2サンプル顔画像及び第2生成画像に従って第6損失を取得し(第6損失を取得するプロセスは、第1サンプル顔画像及び第1生成画像に従って第1損失を取得するプロセスを参照することができる)、第2サンプル顔画像及び第2生成画像に従って第7損失を取得し(第7損失を取得するプロセスは、第1サンプル顔画像及び第1生成画像に従って第2損失を取得するプロセスを参照することができる)、第2サンプル顔画像及び第2生成画像に従って第8損失を取得し(第8損失を取得するプロセスは、第1サンプル顔画像及び第1生成画像に従って第3損失を取得するプロセスを参照することができる)、第2サンプル顔画像及び第2再構成画像に従って第9損失を取得し(第9損失を取得するプロセスは、第1サンプル顔画像及び第1再構成画像に従って第4損失を取得するプロセスを参照することができる)、第2生成画像に従って第10損失を取得する(第10損失を取得するプロセスは、第1生成画像に従って第5損失を取得するプロセスを参照することができる)。次に、上記の第6損失、第7損失、第8損失、第9損失、第10損失及び式(3)に基づいて、顔生成ネットワークの第2ネットワーク損失を参照することができ、具体的に、次の式を参照することができる。
式(3)として、
Figure 0007137006000022
である。
ここで、Ltotal2は第2ネットワーク損失であり、Lは第6損失であり、Lは第7損失であり、Lは第8損失であり、Lは第9損失であり、L10は第10損失である。α、α、α、α、α10はいずれも、任意の自然数である。例示的に、α=25、α=25、α=α=α10=1である。
第2サンプル顔画像及び第2サンプル顔姿勢画像をトレーニングセットとして使用することにより、顔生成ネットワークトレーニングセット内の画像の多様性を高めることができ、顔生成ネットワークのトレーニング効果を向上させるのに役立ち、トレーニングすることにより取得された顔生成ネットワークによって生成された目標画像の品質を向上させることができる。
上記のトレーニングプロセスにおいて、第1生成画像の顔姿勢と第1サンプル顔姿勢画像の顔姿勢が同じになるようにし、又は第2生成画像の顔姿勢と第2サンプル顔姿勢画像の顔姿勢が同じになるようにすることにより、トレーニング後の顔生成ネットワークが参照顔画像を符号化処理して顔テクスチャデータを取得するときに、顔テクスチャデータを取得するために、参照顔画像から顔姿勢特徴を抽出して、顔姿勢情報を取得することではなく、参照顔画像から顔テクスチャ特徴を抽出することに重点を置くことができる。このように、トレーニング後の顔生成ネットワークを適用して目標画像を生成する場合、取得された顔テクスチャデータに含まれた参照顔画像の顔姿勢情報を減らすことができ、目標画像の品質を向上させるのにより役立つ。本実施例で提供される顔生成ネットワーク及び顔生成ネットワークトレーニング方法に基づき、トレーニングに使用される画像の数は1つであってもよいことを理解されたい。即ち、人物が含まれた1枚の画像をサンプル顔画像として使用し、任意の1枚のサンプル顔姿勢画像と顔生成ネットワークに入力し、上記のトレーニング方法を使用して顔生成ネットワークに対するトレーニングを完了し、トレーニング後の顔生成ネットワークを取得する。
本実施例で提供される顔生成ネットワークを適用して取得した目標画像は、参照顔画像の「欠落情報」を含み得ることに更に留意されたい。上記の「欠落情報」は、参照顔画像内の人物の顔の表情と参照顔姿勢画像内の人物の顔の表情との間の差により生成される情報を指す。例えば、参照顔画像内の人物の顔の表情は目を閉じている表情であり、参照顔姿勢画像内の人物の顔の表情は目を開いている表情である。目標画像内の顔の表情を参照顔姿勢画像内の人物の顔の表情と一致するように維持する必要があるが、参照顔画像に目がないため、参照顔画像内の目領域の情報は「欠落情報」である。
更に例えば(例1)、図11に示されたように、参照顔画像d内の人物の顔の表情は口を閉じている表情であると、画像d内の歯領域の情報は「欠落情報」である。参照顔姿勢画像c内の人物の顔の表情は口を開けている表情である。
本発明の実施例で提供される顔生成ネットワークは、トレーニングプロセスを通じて「欠落情報」と顔テクスチャデータとの間のマッピング関係を学習する。トレーニングされた顔生成ネットワークを適用して目標画像を取得する場合、参照顔画像に「欠落情報」があると、参照顔画像の顔テクスチャデータ及び上記のマッピング関係に従って、目標画像の「欠落情報」を「推定」する。
例1を続き、c及びdを顔生成ネットワークに入力し、顔生成ネットワークは、dからdの顔テクスチャデータを取得し、トレーニングプロセス中に学習した顔テクスチャデータからdの顔テクスチャデータとの一致度が最も高い顔テクスチャデータを目標顔テクスチャデータとして決定する。歯情報と顔テクスチャデータの間のマッピング関係に従って、目標顔テクスチャデータに対応する目標歯情報を決定する。目標歯情報に従って目標画像e内の歯領域の画像内容を決定する。
本実施例は、第1損失、第2損失、第3損失、第4損失及び第5損失に基づいて顔生成ネットワークをトレーニングして、トレーニング後の顔生成ネットワークが任意の参照顔姿勢画像から顔マスクを取得し、任意の参照顔画像から顔テクスチャデータを取得するようにすることができ、顔マスク及び顔テクスチャデータに基づいて目標画像を取得することができる。即ち、本実施例で提供される顔生成ネットワーク及び顔生成ネットワークのトレーニング方法により取得されたトレーニング後の顔生成ネットワークを介して、任意の人物の顔を任意の画像に置き換えることができ、即ち、本発明で提供される技術案は普遍的である(即ち、任意の人物を対象者として使用することができる)。本発明の実施例で提供される画像処理方法、及び本発明の実施例で提供される顔生成ネットワーク及び顔生成ネットワークのトレーニング方法に基づいて、本発明の実施例は、いくつかの実現可能な適用シナリオを更に提供する。人々は人を撮影しているとき、外的要因(被写体の動き、撮影機器の揺れ、撮影環境の光の照度)の影響により、撮影された人物の画像がぼやけること(本実施例では、顔領域がぼやけることを指す)、光の照度が弱いこと(本実施例では、顔領域の光の照度が弱いことを指す)などの問題がある可能性がある。端末(携帯電話、コンピュータなど)は、本発明の実施例で提供される技術案を使用して、ボケ画像又は光の照度の弱い画像(即ち、ぼやけた人物画像)に対して顔キーポイント抽出処理を実行して、顔マスクを取得し、模糊画像内の人物を含む鮮明画像を符号化処理して当該人物の顔テクスチャデータを取得することができ、最後に、顔マスク及び顔テクスチャデータに基づいて、目標画像を取得することができる。ここで、目標画像の顔姿勢は、ボケ画像又は光の照度の弱い画像の顔姿勢である。
さらに、ユーザは、本発明で提供される技術案により様々な表情を有する画像を取得することもできる。例えば、Aが画像a内の人物の表情が面白いと思い、画像と同じ表情をしている自分の画像を取得したいと考えた場合、自分の写真と画像aを端末に入力することができる。端末は、Aの写真を参照顔画像として使用し、画像aを参照姿勢画像として使用し、本発明で提供される技術案を使用して、Aの写真及び画像aを処理して、目標画像を取得する。当該目標画像では、Aの表情が画像a内の人物の表情である。
別の実現可能なシナリオにおいて、Bが映画内のビデオセグメントが面白いと思い、映画の役者さんの顔を自分の顔に置き換えた効果を見たいと考えた場合、Bは、自分自身の写真(即ち、処理される顔画像)と当該ビデオセグメント(即ち、処理されるビデオ)を端末に入力することができ、端末は、Bの写真を参照顔画像として使用し、ビデオ内の各フレームの画像を参照顔姿勢画像として使用し、本発明で提供される技術案を使用してBの写真及びビデオの各フレーム画像を処理して、目標ビデオを取得する。目標ビデオ内にある役者さんをBに「置き換える」。更に別の可能な実現可能なシナリオにおいて、Cが画像d内の顔姿勢を画像c内の顔姿勢に置き換えたいと考えると、図11に示されたように、画像cを参照顔姿勢画像として使用し、画像dを参照顔画像をとして端末に入力することができる。端末は、本発明で提供される技術案に従ってc及びdを処理して、目標画像eを取得する。
本発明の実施例で提供される方法又は顔生成ネットワークを使用して目標画像を取得する場合、1枚又は複数枚の顔画像を同時に参照顔画像として使用することができ、1枚又は複数枚の顔画像を同時に参照顔姿勢画像として使用することもできることを理解されたい。
例えば、端末に画像f、画像g及び画像hを顔姿勢画像として順次に入力し、端末に画像i、画像j、画像kを顔姿勢画像として順次に入力する場合、端末は、本発明で提供される技術案を使用して画像f及び画像iに基づき目標画像mを生成し、画像g及び画像jに基づき目標画像nを生成し、画像h及び画像kに基づき目標画像pを生成する。
更に例えば、端末に画像q、画像rを顔姿勢画像として順次に入力し、端末に画像sを顔姿勢画像として入力する場合、端末は、本発明で提供される技術案を使用して、画像q及び画像sに基づいて目標画像tを生成し、画像r及び画像sに基づいて目標画像uを生成する。
本発明の実施例で提供されるいくつかの適用シナリオから分かるように、本発明で提供される技術案を適用して、任意の人物の顔を任意の画像又はビデオに置き換えることを実現することができ、任意の顔姿勢での対象者(即ち、参照顔画像内の人物)の画像又はビデオを取得する。
当業者は、具体的な実施形態の上記の方法において、各ステップの書き込み順序は、実施プロセスを限定する厳密な実行順序を意味するのではなく、各ステップの具体的な実行順序はそれらの機能と可能な内部ロジックによって決定されることを理解することができる。
上記は、本発明の実施例の方法を詳細に説明したが、以下は、本発明の実施例の装置を提供する。
図12を参照すると、図12は、本発明の実施例で提供される画像処理装置の概略的な構造図であり、当該画像処理装置1は、取得ユニット11、第1処理ユニット12及び第2処理ユニット13を備え、例示的に、当該画像処理装置1は更に、復号化処理ユニット14、顔キーポイント抽出処理ユニット15、決定ユニット16及び融合処理ユニット17のうちの少なくとも1つのユニットを備える。ここで、
取得ユニット11は、参照顔画像及び参照顔姿勢画像を取得するように構成され、
第1処理ユニット12は、前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第1顔マスクを取得するように構成され、
第2処理ユニット13は、前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得するように構成される。
一可能な実施形態において、前記第2処理ユニット13は、前記顔テクスチャデータを復号化処理して、第1顔テクスチャデータを取得し、前記第1顔テクスチャデータ及び前記第1顔マスクに対してnレベルの目標処理を実行して、前記目標画像を取得するように構成され、前記nレベルの目標処理は、第m-1(mは、2より大きいか等しく、且つ前記nより小さいか等しい正の整数である)レベルの目標処理及び第mレベルの目標処理を含み、前記nレベルの目標処理のうちの第1レベルの目標処理の入力データは前記顔テクスチャデータであり、前記第m-1レベルの目標処理の出力データは、前記第mレベルの目標処理の入力データであり、前記nレベルの目標処理のうちの第i(iは、1より大きいか等しく、且つ前記nより小さいか等しい正の整数である)レベルの目標処理は、前記第iレベルの目標処理の入力データ及び前記第1顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することを含む。
別の可能な実現形態において、前記第2処理ユニット13は、前記第iレベルの目標処理の入力データに従って、前記第iレベルの目標処理の融合されるデータを取得し、前記第iレベルの目標処理の融合されるデータ及び第iレベルの顔マスクに対して融合処理を実行して、第iレベルの融合後のデータを取得し、ここで、前記第iレベルの顔マスクは、前記第1顔マスクに対してダウンサンプリング処理を実行することにより取得されたものであり、前記第iレベルの顔マスクのサイズは、前記第iレベルの目標処理の入力データのサイズと同じであり、前記第iレベルの融合後のデータを復号化処理して、前記第iレベルの目標処理の出力データを取得するように構成される。
さらに別の可能な実施形態において、前記画像処理装置1は更に、前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得した後、前記顔テクスチャデータに対してjレベルの復号化処理を実行するように構成される復号化処理ユニットを備え、前記j(jは、2より大きいか等しい正の整数である)レベルの復号化処理のうちの第1レベルの復号化処理の入力データは前記顔テクスチャデータであり、前記jレベルの復号化処理は、第k-1(kは、2より大きいか等しく、且つ前記jより小さいか等しい正の整数である)レベルの復号化処理及び第kレベルの復号化処理を含み、前記第k-1レベルの復号化処理の出力データは、前記第kレベルの復号化処理の入力データであり、第2処理ユニットは、前記jレベルの復号化処理のうちの第r((rは、1より大きいか等しく、且つ前記jより小さいか等しい正の整数である))レベルの復号化処理の出力データを前記第iレベルの目標処理の入力データと合併して、第iレベルの合併後のデータを前記第iレベルの目標処理の融合されるデータとして取得するように構成され、前記第rレベルの復号化処理の出力データのサイズは前記第iレベルの目標処理の入力データのサイズと同じである。
さらに別の可能な実施形態において、前記第2処理ユニット13は、前記第rレベルの復号化処理の出力データをチャネル次元で前記第iレベルの目標処理の入力データと合併して、前記第iレベルの合併後のデータを取得するように構成される。
さらに別の可能な実施形態において、前記第rレベルの復号化処理は、前記第rレベルの復号化処理の入力データに対して活性化処理、逆畳み込み処理、正規化処理を順次に実行して、前記第rレベルの復号化処理の出力データを取得することを含む。
さらに別の可能な実施形態において、前記第2処理ユニット13は、第1所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第1特徴データを取得し、第2所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第2特徴データを取得し、前記第1特徴データ及び前記第2特徴データに従って正規化形式を決定し、前記正規化形式に基づき、前記第iレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第iレベルの融合後のデータを取得するように構成される。
さらに別の可能な実施形態において、前記正規化形式は、目標アフィン変換を含み、前記第2処理ユニット13は、前記目標アフィン変換に基づき、前記第iレベルの目標処理の融合されるデータをアフィン変換して、前記第iレベルの融合後のデータを取得するように構成される。
さらに別の可能な実施形態において、前記第2処理ユニット13は、前記顔テクスチャデータと前記第1顔マスクを融合処理して、目標融合データを取得し、前記目標融合データを復号化処理して、前記目標画像を取得するように構成される。
さらに別の可能な実施形態において、前記第1処理ユニット12は、複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得するように構成され、前記複数の符号化層は、s(sは、1より大きいか等しい正の整数である)番目の符号化層及びs+1番目の符号化層を含み、前記複数の符号化層のうちの第1層符号化層の入力データは前記参照顔画像であり、前記s番目の符号化層の出力データは、前記s+1番目の符号化層の入力データである。
さらに別の可能な実施形態において、前記複数の符号化層のそれぞれは、畳み込み処理層、正規化処理層及び活性化処理層を含む。
さらに別の可能な実施形態において、前記画像処理装置1は更に、前記参照顔画像及び前記目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、前記参照顔画像の第2顔マスク及び前記目標画像の第3顔マスクを取得するように構成される顔キーポイント抽出処理ユニット15と、前記第2顔マスクと前記第3顔マスクの間の画素値との間の差に従って、第4顔マスクを決定するように構成される決定ユニット16であって、前記参照顔画像の第1画素点の画素値と前記目標画像の第2画素点の画素値の差は、前記第4顔マスクの第3画素点の値に正相関を有し、前記参照顔画像における前記第1画素点の位置、前記目標画像における前記第2画素点の位置及び前記第4顔マスクにおける前記第3画素点の位置は全て同じである決定ユニット16と、前記第4顔マスク、前記参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得するように構成される融合処理ユニット17と、を備える。
さらに別の可能な実施形態において、前記決定ユニット16は、前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の平均値に従って、前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の分散に従って、アフィン変換フォームを決定し、前記アフィン変換フォームに従って、前記第2顔マスク及び前記第3顔マスクをアフィン変換して、前記第4顔マスクを取得するように構成される。
さらに別の可能な実施形態において、前記画像処理装置1によって実行される画像処理方法は、顔生成ネットワークに適用され、前記画像処理装置1は、前記顔生成ネットワークトレーニングプロセスを実行するように構成され、前記顔生成ネットワークのトレーニングプロセスは、前記顔生成ネットワークにトレーニングサンプルを入力して、前記トレーニングサンプルの第1生成画像及び前記トレーニングサンプルの第1再構成画像を取得することであって、前記トレーニングサンプルは、サンプル顔画像及び第1サンプル顔姿勢画像を含み、前記第1再構成画像は、符号化後の前記サンプル顔画像を復号化処理することにより取得されたものである、ことと、前記サンプル顔画像及び前記第1生成画像の顔特徴の一致度に従って第1損失を取得し、前記第1サンプル顔画像の顔テクスチャ情報と前記第1生成画像の顔テクスチャ情報との間の差に従って第2損失を取得し、前記第1サンプル顔画像の第4画素点の画素値と前記第1生成画像の第5画素点の画素値との間の差に従って第3損失を取得し、前記第1サンプル顔画像の第6画素点の画素値と前記第1再構成画像の第7画素点の画素値との間の差に従って第4損失を取得し、前記第1生成画像の真実性に従って第5損失を取得することであって、前記第1サンプル顔画像における前記第4画素点の位置は、前記第1生成画像における前記第5画素点の位置と同じであり、前記第1サンプル顔画像における前記第6画素点の位置は、前記第1再構成画像における前記第7画素点の位置と同じであり、前記第1生成画像の真実性が高いほど、前記第1生成画像が真の画像である確率が高くなることを表す、ことと、前記第1損失、前記第2損失、前記第3損失、前記第4損失及び前記第5損失に従って、前記顔生成ネットワークの第1ネットワーク損失を取得することと、前記第1ネットワーク損失に基づいて前記顔生成ネットワークのパラメータを生成することと、を含む。
さらに別の可能な実施形態において、前記トレーニングサンプルは、第2サンプル顔姿勢画像をさらに含み、前記第2サンプル顔姿勢画像は、前記第2サンプル顔画像にランダム摂動を追加して前記第2サンプル画像の目鼻立ちの位置及び/又は顔の輪郭位置を変更することによって取得されたものであり、前記顔生成ネットワークのトレーニングプロセスは、前記顔生成ネットワークに前記第2サンプル顔画像及び第2サンプル顔姿勢画像を入力して、前記トレーニングサンプルの第2生成画像及び前記トレーニングサンプルの第2再構成画像を取得することであって、前記第2再構成画像は、符号化後の前記第2サンプル顔画像を復号化処理することにより取得されたものである、ことと、前記第2サンプル顔画像及び前記第2生成画像の顔特徴の一致度に従って第6損失を取得し、前記第2サンプル顔画像の顔テクスチャ情報と前記第2生成画像の顔テクスチャ情報との間の差に従って第7損失を取得し、前記第2サンプル顔画像の第8画素点の画素値と前記第2生成画像の第9画素点の画素値との間の差に従って第8損失を取得し、前記第2サンプル顔画像の第10画素点の画素値と前記第2再構成画像の第11画素点の画素値との間の差に従って第9損失を取得し、前記第2生成画像の真実性に従って第10損失を取得することであって、前記第2サンプル顔画像における前記第8画素点の位置は、前記第2生成画像における前記第9画素点の位置と同じであり、前記第2サンプル顔画像における前記第10画素点の位置は、前記第2再構成画像における前記第11画素点の位置と同じであり、前記第2生成画像の真実性が高いほど、前記第2生成画像が真の画像である確率が高くなることを表す、ことと、前記第6損失、前記第7損失、前記第8損失、前記第9損失及び前記第10損失に従って、前記顔生成ネットワークの第2ネットワーク損失を取得することと、前記第2ネットワーク損失に基づいて、前記顔生成ネットワークのパラメータを調整することと、を含む。
さらに別の可能な実施形態において、前記取得ユニット11は、ユーザによって端末に入力された処理される顔画像を受信し、処理されるビデオを取得し、ここで、前記処理されるビデオは顔であり、前記処理される顔画像を前記参照顔画像とし、前記処理されるビデオの画像を前記顔姿勢画像として使用して、目標ビデオを取得するように構成される。
本実施例は、参照顔画像を符号化処理することにより、参照顔画像内の対象者の顔テクスチャデータを取得することができ、参照顔姿勢画像に対して顔キーポイント抽出処理を実行することにより顔マスクを取得することができ、顔テクスチャデータ及び顔マスクに対して融合処理、符号化処理を実行して目標画像を取得することができ、これにより、任意の対象者の顔姿勢の変更を実現する。
いくつかの実施例において、本発明の実施例で提供される装置が有する機能または含まれたモジュールは、上文の方法の実施例で説明された方法を実行するように構成されることができ、その具体的な具現は、上文の方法の実施例の描述を参照することができ、簡潔にするために、ここでは繰り返して説明しない。
図13は、本発明の実施例で提供される画像処理装置のハードウェアの概略的な構造図である。当該画像処理装置2は、プロセッサ21及びメモリ22を備える。例示的に、当該画像処理装置2は更に、入力装置23及び出力装置24を備えることができる。当該プロセッサ21、メモリ22、入力装置23及び出力装置24は、コネクタを介して結合され、当該コネクタは、様々なインタフェース、伝送ライン又はバスなどを含むが、本発明の実施例は、これらに対して限定しない。本発明の各実施例では、結合とは、直接接続又は他の機器間の接続を含む、特定の方式を介した相互接続を指し、例えば、様々なインタフェース、伝送ライン、バスなどを介して接続することができることを理解されたい。
プロセッサ21は、1つ又は複数のグラフィックプロセッサ(GPU:graphics processing unit)であってもよく、プロセッサ21が1つのGPUである場合、当該GPUは、シングルコアGPUであってもよく、マルチコアGPUであってもよい。例示的に、プロセッサ21は、複数のGPUで構成されたプロセッサグループであり得、複数のプロセッサ間は、1つ又は複数のバスを介して互いに結合される。例示的に、当該プロセッサは、他のタイプのプロセッサなどであってもよいが、本発明の実施例はこれらに対して限定しない。メモリ22は、コンピュータプログラム命令と、本発明の技術案を実行するためのプログラムコードを含む様々なコンピュータプログラムコードとを記憶するように構成される。例示的に、メモリは、ランダムアクセスメモリ(RAM:random access memory)、読み取り専用メモリ(ROM:read-only memory)、消去可能プログラマブル読み取り専用メモリ(EPROM:erasable programmable read only memory)、又はコンパクトディスク読み取り専用メモリ(CD-ROM:compact disc read-only memory)、当該メモリは、関連する命令及びデータに使用される。入力装置23は、データ及び/又は信号を入力するように構成され、出力装置24は、データ及び/又は信号を出力するように構成される。出力装置23及び入力装置24は、独立したデバイスであってもよく、デバイス全体であってもよい。
本発明の実施例では、メモリ22は、関連する命令を記憶するだけでなく、関連する画像を記憶するためにも使用されることができることが理解できる。例えば、当該メモリ22は、入力装置23によって取得された参照顔画像及び参照顔姿勢画像を記憶するように構成されることができ、又は当該メモリ22は、プロセッサ21を介して搜索された目標画像などを記憶するように構成されることもできるが、本発明の実施例は、当該メモリに記憶される特定のデータに対して限定しない。図13は、画像処理装置の簡略化された設計のみを示していることが理解できる。実際の適用では、画像処理装置は、任意の数の入力/出力装置、プロセッサ、メモリなどを含み得るが、これらに限定されない他の必要なコンポーネントを含み得、本発明の実施例を実現することができる画像処理装置の全ては、本発明の保護範囲に含まれる。
本発明の実施例は、プロセッサを更に提案し、前記プロセッサは、上記の画像処理方法を実行するように構成される。
本発明の実施例は、電子機器をさらに提案し、前記電子機器は、プロセッサと、プロセッサ実行可能命令を記憶するように構成されるメモリとを備え、ここで、前記プロセッサは、前記メモリによって記憶された命令を呼び出して、上記の画像処理方法を実行するように構成される。
本発明の実施例は、さらに、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体を提案し、前記コンピュータプログラム命令がプロセッサによって実行されると、上記の画像処理方法を実現する。コンピュータ読み取り可能な記憶媒体は、揮発性コンピュータ読み取り可能な記憶媒体または不揮発性コンピュータ読み取り可能な記憶媒体であってもよい。
本発明の実施例は、コンピュータ読み取り可能なコードを含むコンピュータプログラムをさらに提供し、コンピュータ読み取り可能なコードが機器で実行されると、当該機器におけるプロセッサは、上記のいずれか1つの実施例によって提供された画像処理方法を実現するための命令を実行する。
本発明の実施例は、別のコンピュータプログラム製品を更に提供し、前記コンピュータプログラム製品は、コンピュータ可読命令を記憶するように構成され、命令が実行されると、コンピュータが上記のいずれか1つの実施例で提供された画像処理方法の操作を実行するようにする。
当業者は、本明細書で開示された実施例と組み合わせて説明された各例示のユニットおよびアルゴリズムステップが、電子ハードウェア、またはコンピュータソフトウェアおよび電子ハードウェアの組み合わせによって実現されることができることを理解するであろう。これらの機能がハードウェアの形で実行されるかソフトウェアの形で実行されるかは、技術的解決策の特定のアプリケーションと設計上の制約条件に依存する。専門技術者は、各特定の応用に対して異なる方法を使用して、説明された機能を実現することができるが、このような実現は本開示の範囲を超えると見なされるべきではない。
当業者は、説明の便宜上および簡潔にするために、上記に説明されたシステム、装置およびユニットの具体的な作業プロセスは、上記の方法の実施例における対応するプロセスを参照することができることを明確に理解することができ、ここでは繰り返して説明しない。当業者は、本発明の各実施例の説明がそれ自体の焦点を有することを明確に理解することができ、説明の便宜及び簡潔のために、同じ又は類似の部分を異なる実施例で繰り返して説明していない場合があるため、特定の実施例に説明または詳しく説明されていない部分については、他の実施例の記載を参照することができる。
本発明で提供された幾つかの実施例において、開示されたシステム、装置および方法は、他の方法を通じて実現され得ることを理解されたい。例えば、上記で説明された装置の実施例は例示的なものに過ぎず、例えば、当該ユニットの分離は、論理機能の分離に過ぎず、実際の実現時には別の分離方法があり、例えば、複数のユニットまたはコンポーネントを別のシステムに統合または集積したり、または一部の特徴を無視したり、または実行しないことができる。なお、表示または議論された相互結合または直接結合または通信接続は、電気的、機械的または他の形態の一部のインタフェース、装置またはユニットを介した間接的な結合または通信接続であり得る。
前記分離部材として説明されたユニットは、物理的に分離されている場合とされていない場合があり、ユニットとして表示された部材は、物理ユニットである場合もそうでない場合もあり、1箇所に配置される場合もあれば、複数のネットワークユニットに分散される場合もある。実際の必要に応じて、その中のユニットの一部または全部を選択して本実施例の技術案の目的を実現することができる。
また、本発明の各実施例における各機能ユニットを1つの処理ユニットに統合してもよく、各ユニットを別々に1つのユニットとして使用してもよいし、2つ以上のユニットを1つのユニットに統合してもよい。
上記の実施例において、ソフトウェア、ハードウェア、ファームウェアまたはそれらの任意の組み合わせによって全体的または部分的に実現することができる。ソフトウェアを使用して実現する場合、コンピュータプログラム製品の形態で全体的または部分的に実現することができる。前記コンピュータプログラム製品は、1つまたは複数のコンピュータ命令を含む。コンピュータに前記コンピュータプログラム命令をロードして実行する場合、本発明の実施例に記載のプロセスまたは機能を全体的または部分的に生成する。前記コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、または他のプログラマブル装置であり得る。前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶されるか、又は前記コンピュータ可読記憶媒体を介して伝送されることができる。前記コンピュータ命令は、有線(例えば、同軸ケーブル、光ファイバ、デジタル加入者線(DSL:Digital Subscriber Line))又は無線(例えば、赤外線、無線、マイクロ波等)を介して、1つのWebサイト、コンピュータ、サーバまたはデータセンタから別のWebサイト、コンピュータ、サーバまたはデータセンタに伝送することができる。前記コンピュータ読み取り可能な記憶媒体は、コンピュータがアクセス可能ないずれの利用可能な媒体であり、または1つ以上の利用可能な媒体によって統合されたサーバ、データセンタなどのデータ記憶装置であることができる。前記利用可能な媒体は、磁気媒体(例えば、フロッピー(登録商標)ディスク、ハードディスク、磁気テープ)、光学媒体(例えば、デジタル多用途ディスク(DVD:digital versatile disc))、または半導体媒体(例えば、ソリッドステートハードディスク(SSD:Solid State Disk))などであり得る。
当業者は、上記の実施例の方法の全てまたは一部のプロセスは、コンピュータプログラムによって、関連するハードウェアに命令することにより完了してもよいことを当業者なら自明である。当該プログラムは実行される場合、上記の各方法の実施例のプロセスを含み得る。上記の記憶媒体は、読み取り専用メモリ(ROM:read-only memory)又はランダムアクセスメモリ(RAM:random access memory)、磁気ディスク又は光ディスクなどのプログラムコードを記憶できる様々な媒体を含む、揮発性記憶媒体又は不揮発性記憶媒体であり得る。

Claims (16)

  1. 画像処理方法であって、
    参照顔画像及び参照顔姿勢画像を取得することと、
    前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第1顔マスクを取得することと、
    前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得すること
    を含み、
    前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得することは、
    複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得することを含み、前記複数の符号化層は、s(sは、1より大きいか等しい正の整数である)番目の符号化層及びs+1番目の符号化層を含み、前記複数の符号化層のうちの第1層符号化層の入力データは、前記参照顔画像であり、前記s番目の符号化層の出力データは、前記s+1番目の符号化層の入力データであり、前記複数の符号化層のそれぞれは、畳み込み処理層と正規化処理層と活性化処理層とを含む、画像処理方法。
  2. 前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得することは、
    前記顔テクスチャデータを復号化処理して、第1顔テクスチャデータを取得することと、
    前記第1顔テクスチャデータ及び前記第1顔マスクに対してn(nは、2より大きいか等しい正の整数である)レベルの目標処理を実行して、前記目標画像を取得することであって、前記nレベルの目標処理は、第m-1(mは、2より大きいか等しく、且つ前記nより小さいか等しい正の整数である)レベルの目標処理及び第mレベルの目標処理を含み、前記nレベルの目標処理のうちの第1レベルの目標処理の入力データは前記顔テクスチャデータであり、前記第m-1レベルの目標処理の出力データは、前記第mレベルの目標処理の入力データであり、前記nレベルの目標処理のうちの第i(iは、1より大きいか等しく、且つ前記nより小さいか等しい正の整数である)レベルの目標処理は、前記第iレベルの目標処理の入力データ及び前記第1顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することを含む、こと
    を含む請求項1に記載の画像処理方法。
  3. 前記第iレベルの目標処理の入力データ及び前記第1顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することは、
    前記第iレベルの目標処理の入力データに従って、前記第iレベルの目標処理の融合されるデータを取得することと、
    前記第iレベルの目標処理の融合されるデータ及び第iレベルの顔マスクに対して融合処理を実行して、第iレベルの融合後のデータを取得することであって、前記第iレベルの顔マスクは、前記第1顔マスクに対してダウンサンプリング処理を実行することにより取得されたものであり、前記第iレベルの顔マスクのサイズは、前記第iレベルの目標処理の入力データのサイズと同じである、ことと、
    前記第iレベルの融合後のデータを復号化処理して、前記第iレベルの目標処理の出力データを取得すること
    を含む請求項2に記載の画像処理方法。
  4. 前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得した後、前記画像処理方法は、
    前記顔テクスチャデータに対してjレベルの復号化処理を実行することをさらに含み
    前記j(jは、2より大きいか等しい正の整数である)レベルの復号化処理のうちの第1レベルの復号化処理の入力データは前記顔テクスチャデータであり、前記jレベルの復号化処理は、第k-1(kは、2より大きいか等しく、且つ前記jより小さいか等しい正の整数である)レベルの復号化処理及び第kレベルの復号化処理を含み、前記第k-1レベルの復号化処理の出力データは、前記第kレベルの復号化処理の入力データであり、
    前記第iレベルの目標処理の入力データに従って、前記第iレベルの目標処理の融合されるデータを取得することは、
    前記jレベルの復号化処理のうちの第r(rは、1より大きいか等しく、且つ前記jより小さいか等しい正の整数である)レベルの復号化処理の出力データを前記第iレベルの目標処理の入力データと合併して、第iレベルの合併後のデータを前記第iレベルの目標処理の融合されるデータとして取得することを含み、前記第rレベルの復号化処理の出力データのサイズは、前記第iレベルの目標処理の入力データのサイズと同じである請求項3に記載の画像処理方法。
  5. 前記jレベルの復号化処理のうちの第rレベルの復号化処理の出力データを前記第iレベルの目標処理の入力データと合併して、第iレベルの合併後のデータを取得することは、
    前記第rレベルの復号化処理の出力データをチャネル次元で前記第iレベルの目標処理の入力データと合併して、前記第iレベルの合併後のデータを取得することを含み、
    及び/又は
    前記第rレベルの復号化処理は、
    前記第rレベルの復号化処理の入力データに対して活性化処理、逆畳み込み処理、正規化処理を順次に実行して、前記第rレベルの復号化処理の出力データを取得することを含む請求項4に記載の画像処理方法。
  6. 前記第iレベルの目標処理の融合されるデータ及び前記第iレベルの顔マスクに対して融合処理を実行して、前記第iレベルの融合後のデータを取得することは、
    第1所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第1特徴データを取得し、第2所定のサイズの畳み込みカーネルを使用して前記第iレベルの顔マスクに対して畳み込み処理を実行して第2特徴データを取得することと、
    前記第1特徴データ及び前記第2特徴データに従って正規化形式を決定することと、
    前記正規化形式に基づき、前記第iレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第iレベルの融合後のデータを取得すること
    を含む請求項35のいずれか一項に記載の画像処理方法。
  7. 前記正規化形式は、目標アフィン変換を含み、
    前記正規化形式に基づき、前記第iレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第iレベルの融合後のデータを取得することは、
    前記目標アフィン変換に基づき、前記第iレベルの目標処理の融合されるデータをアフィン変換して、前記第iレベルの融合後のデータを取得することを含む請求項6に記載の画像処理方法。
  8. 前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得することは、
    前記顔テクスチャデータと前記第1顔マスクを融合処理して、目標融合データを取得することと、
    前記目標融合データを復号化処理して、前記目標画像を取得すること
    を含み、
    及び/又は
    前記参照顔画像及び参照姿勢画像を取得することは、
    ユーザによって端末に入力された処理される顔画像を受信することと、
    処理されるビデオを取得することであって、前記処理されるビデオは顔である、ことと、
    前記処理される顔画像を前記参照顔画像とし、前記処理されるビデオの画像を前記顔姿勢画像として使用して、目標ビデオを取得すること
    を含む請求項1に記載の画像処理方法。
  9. 前記画像処理方法は、
    前記参照顔画像及び前記目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、前記参照顔画像の第2顔マスク及び前記目標画像の第3顔マスクを取得することと、
    前記第2顔マスクと前記第3顔マスクの間の画素値との間の差に従って、第4顔マスクを決定することであって、前記参照顔画像の第1画素点の画素値と前記目標画像の第2画素点の画素値の差は、前記第4顔マスクの第3画素点の値に正相関を有し、前記参照顔画像における前記第1画素点の位置、前記目標画像における前記第2画素点の位置及び前記第4顔マスクにおける前記第3画素点の位置は全て同じである、ことと、
    前記第4顔マスク、前記参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得すること
    をさらに含む請求項1~8のいずれか一項に記載の画像処理方法。
  10. 前記第2顔マスクと前記第3顔マスクの間の画素値との間の差に従って、第4顔マスクを決定することは、
    前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の平均値、及び前記第2顔マスクと前記第3顔マスクの同じ位置にある画素点の画素値の分散に従って、アフィン変換フォームを決定することと、
    前記アフィン変換フォームに従って、前記第2顔マスク及び前記第3顔マスクをアフィン変換して、前記第4顔マスクを取得すること
    を含む請求項に記載の画像処理方法。
  11. 前記画像処理方法は、顔生成ネットワークに適用され、
    前記顔生成ネットワークのトレーニングプロセスは、
    前記顔生成ネットワークにトレーニングサンプルを入力して、前記トレーニングサンプルの第1生成画像及び前記トレーニングサンプルの第1再構成画像を取得することであって、前記トレーニングサンプルは、第1サンプル顔画像及び第1サンプル顔姿勢画像を含み、前記第1再構成画像は、符号化後の前記第1サンプル顔画像を復号化処理することにより取得されたものである、ことと、
    前記第1サンプル顔画像及び前記第1生成画像の顔特徴の一致度に従って第1損失を取得し、前記第1サンプル顔画像の顔テクスチャ情報と前記第1生成画像の顔テクスチャ情報との間の差に従って第2損失を取得し、前記第1サンプル顔画像の第4画素点の画素値と前記第1生成画像の第5画素点の画素値との間の差に従って第3損失を取得し、前記第1サンプル顔画像の第6画素点の画素値と前記第1再構成画像の第7画素点の画素値との間の差に従って第4損失を取得し、前記第1生成画像の真実性に従って第5損失を取得することであって、前記第1サンプル顔画像における前記第4画素点の位置は、前記第1生成画像における前記第5画素点の位置と同じであり、前記第1サンプル顔画像における前記第6画素点の位置は、前記第1再構成画像における前記第7画素点の位置と同じであり、前記第1生成画像の真実性が高いほど、前記第1生成画像が真の画像である確率が高くなることを表す、ことと、
    前記第1損失、前記第2損失、前記第3損失、前記第4損失及び前記第5損失に従って、前記顔生成ネットワークの第1ネットワーク損失を取得することと、
    前記第1ネットワーク損失に基づいて前記顔生成ネットワークのパラメータを生成すること
    を含む請求項1~9のいずれか一項に記載の画像処理方法。
  12. 前記トレーニングサンプルは、第2サンプル顔画像及び第2サンプル顔姿勢画像をさらに含み、前記第2サンプル顔姿勢画像は、前記第2サンプル顔画像にランダム摂動を追加して前記第2サンプル画像の目鼻立ちの位置及び/又は顔の輪郭位置を変更することによって取得されたものであり、
    前記顔生成ネットワークのトレーニングプロセスは、
    前記顔生成ネットワークに前記第2サンプル顔画像及び第2サンプル顔姿勢画像を入力して、前記トレーニングサンプルの第2生成画像及び前記トレーニングサンプルの第2再構成画像を取得することであって、前記第2再構成画像は、符号化後の前記第2サンプル顔画像を復号化処理することにより取得されたものである、ことと、
    前記第2サンプル顔画像及び前記第2生成画像の顔特徴の一致度に従って第6損失を取得し、前記第2サンプル顔画像の顔テクスチャ情報と前記第2生成画像の顔テクスチャ情報との間の差に従って第7損失を取得し、前記第2サンプル顔画像の第8画素点の画素値と前記第2生成画像の第9画素点の画素値との間の差に従って第8損失を取得し、前記第2サンプル顔画像の第10画素点の画素値と前記第2再構成画像の第11画素点の画素値との間の差に従って第9損失を取得し、前記第2生成画像の真実性に従って第10損失を取得することであって、前記第2サンプル顔画像における前記第8画素点の位置は、前記第2生成画像における前記第9画素点の位置と同じであり、前記第2サンプル顔画像における前記第10画素点の位置は、前記第2再構成画像における前記第11画素点の位置と同じであり、前記第2生成画像の真実性が高いほど、前記第2生成画像が真の画像である確率が高くなることを表す、ことと、
    前記第6損失、前記第7損失、前記第8損失、前記第9損失及び前記第10損失に従って、前記顔生成ネットワークの第2ネットワーク損失を取得することと、
    前記第2ネットワーク損失に基づいて、前記顔生成ネットワークのパラメータを調整すること
    をさらに含む請求項11に記載の画像処理方法。
  13. 画像処理装置であって、
    参照顔画像及び参照顔姿勢画像を取得するように構成されている取得ユニットと、
    複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第1顔マスクを取得するように構成されている第1処理ユニットであって、前記複数の符号化層は、s(sは、1より大きいか等しい正の整数である)番目の符号化層及びs+1番目の符号化層を含み、前記複数の符号化層のうちの第1層符号化層の入力データは、前記参照顔画像であり、前記s番目の符号化層の出力データは、前記s+1番目の符号化層の入力データであり、前記複数の符号化層のそれぞれは、畳み込み処理層と正規化処理層と活性化処理層とを含む、第1処理ユニットと、
    前記顔テクスチャデータ及び前記第1顔マスクに従って、目標画像を取得するように構成されている第2処理ユニット
    を備える画像処理装置。
  14. 電子機器であって、
    前記電子機器は、プロセッサ及びメモリを備え、前記メモリは、コンピュータプログラムコードを記憶するように構成されており、前記コンピュータプログラムコードは、コンピュータ命令を含み、前記プロセッサは、前記コンピュータ命令を実行することにより、請求項1~12のいずれか一項に記載の画像処理方法を実行するように構成されている、電子機器。
  15. コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータプログラムはプログラム命令を含み、前記プログラム命令は、電子機器のプロセッサによって実行されると、請求項1~12のいずれか一項に記載の画像処理方法を実行することを前記プロセッサに行わせる、コンピュータ読み取り可能な記憶媒体。
  16. コンピュータ読み取り可能なコードを含むコンピュータプログラムであって、
    前記コンピュータ読み取り可能なコードは、電子機器のプロセッサによって実行されると請求項1~12のいずれか一項に記載の方法を実行することを前記プロセッサに行わせる、コンピュータプログラム。
JP2021519659A 2019-07-30 2019-09-12 画像処理方法及びその装置、プロセッサ、電子機器並びに記憶媒体 Active JP7137006B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910694065.3A CN110399849B (zh) 2019-07-30 2019-07-30 图像处理方法及装置、处理器、电子设备及存储介质
CN201910694065.3 2019-07-30
PCT/CN2019/105767 WO2021017113A1 (zh) 2019-07-30 2019-09-12 图像处理方法及装置、处理器、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022504579A JP2022504579A (ja) 2022-01-13
JP7137006B2 true JP7137006B2 (ja) 2022-09-13

Family

ID=68326708

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021519659A Active JP7137006B2 (ja) 2019-07-30 2019-09-12 画像処理方法及びその装置、プロセッサ、電子機器並びに記憶媒体

Country Status (7)

Country Link
US (1) US20210232806A1 (ja)
JP (1) JP7137006B2 (ja)
KR (1) KR20210057133A (ja)
CN (4) CN110399849B (ja)
SG (1) SG11202103930TA (ja)
TW (3) TWI779969B (ja)
WO (1) WO2021017113A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020027233A1 (ja) 2018-07-31 2020-02-06 ソニーセミコンダクタソリューションズ株式会社 撮像装置及び車両制御システム
JP6725733B2 (ja) * 2018-07-31 2020-07-22 ソニーセミコンダクタソリューションズ株式会社 固体撮像装置および電子機器
CN110399849B (zh) * 2019-07-30 2021-07-27 北京市商汤科技开发有限公司 图像处理方法及装置、处理器、电子设备及存储介质
JP7102554B2 (ja) * 2019-09-30 2022-07-19 ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド 画像処理方法、装置及び電子機器
CN110889381B (zh) * 2019-11-29 2022-12-02 广州方硅信息技术有限公司 换脸方法、装置、电子设备及存储介质
CN111062904B (zh) * 2019-12-09 2023-08-11 Oppo广东移动通信有限公司 图像处理方法、图像处理装置、电子设备和可读存储介质
CN111275703B (zh) * 2020-02-27 2023-10-27 腾讯科技(深圳)有限公司 图像检测方法、装置、计算机设备和存储介质
CN111369427B (zh) * 2020-03-06 2023-04-18 北京字节跳动网络技术有限公司 图像处理方法、装置、可读介质和电子设备
CN111368796B (zh) * 2020-03-20 2024-03-08 北京达佳互联信息技术有限公司 人脸图像的处理方法、装置、电子设备及存储介质
CN111598818B (zh) * 2020-04-17 2023-04-28 北京百度网讯科技有限公司 人脸融合模型训练方法、装置及电子设备
CN111583399B (zh) * 2020-06-28 2023-11-07 腾讯科技(深圳)有限公司 图像处理方法、装置、设备、介质和电子设备
CN111754439B (zh) * 2020-06-28 2024-01-12 北京百度网讯科技有限公司 图像处理的方法、装置、设备以及存储介质
EP4172950A1 (en) * 2020-06-30 2023-05-03 Snap Inc. Motion representations for articulated animation
CN111754396B (zh) * 2020-07-27 2024-01-09 腾讯科技(深圳)有限公司 脸部图像处理方法、装置、计算机设备和存储介质
CN112215776B (zh) * 2020-10-20 2024-05-07 咪咕文化科技有限公司 人像磨皮方法、电子设备和计算机可读存储介质
US11335069B1 (en) * 2020-11-30 2022-05-17 Snap Inc. Face animation synthesis
US11373352B1 (en) * 2021-03-04 2022-06-28 Meta Platforms, Inc. Motion transfer using machine-learning models
US12008821B2 (en) * 2021-05-07 2024-06-11 Google Llc Machine-learned models for unsupervised image transformation and retrieval
CN114495190B (zh) * 2021-08-03 2024-07-26 马上消费金融股份有限公司 换脸网络模型的训练方法、图像换脸方法及相关设备
CN113674230B (zh) * 2021-08-10 2023-12-19 深圳市捷顺科技实业股份有限公司 一种室内逆光人脸关键点的检测方法及装置
CN113837031A (zh) * 2021-09-06 2021-12-24 桂林理工大学 一种基于优化ssd算法的口罩佩戴检测方法
CN113873175B (zh) * 2021-09-15 2024-03-15 广州繁星互娱信息科技有限公司 视频播放方法、装置和存储介质及电子设备
CN113838166B (zh) * 2021-09-22 2023-08-29 网易(杭州)网络有限公司 图像特征迁移方法、装置、存储介质及终端设备
CN114062997B (zh) * 2021-11-05 2024-03-19 中国南方电网有限责任公司超高压输电公司广州局 电能表的校验方法、系统以及装置
CN116703700A (zh) * 2022-02-24 2023-09-05 北京字跳网络技术有限公司 图像处理方法、装置、设备及存储介质
CN115393487B (zh) * 2022-10-27 2023-05-12 科大讯飞股份有限公司 一种虚拟角色模型处理方法、装置、电子设备及存储介质
CN115423832B (zh) * 2022-11-04 2023-03-03 珠海横琴圣澳云智科技有限公司 肺动脉分割模型构建方法、肺动脉分割方法和装置
CN115690130B (zh) * 2022-12-30 2023-06-27 杭州咏柳科技有限公司 一种图像处理方法和装置
CN115908119B (zh) * 2023-01-05 2023-06-06 广州佰锐网络科技有限公司 基于人工智能的人脸图像美颜处理方法及系统
CN116704221B (zh) * 2023-08-09 2023-10-24 腾讯科技(深圳)有限公司 图像处理方法、装置、设备和计算机可读存储介质
CN117349785B (zh) * 2023-08-24 2024-04-05 长江水上交通监测与应急处置中心 一种航运政务信息资源多源数据融合方法及系统
CN117218456B (zh) * 2023-11-07 2024-02-02 杭州灵西机器人智能科技有限公司 一种图像标注方法、系统、电子设备和存储介质
CN118365510B (zh) * 2024-06-19 2024-09-13 阿里巴巴达摩院(杭州)科技有限公司 图像处理方法、图像处理模型的训练方法及图像生成方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1320002B1 (it) * 2000-03-31 2003-11-12 Cselt Centro Studi Lab Telecom Procedimento per l'animazione di un modello sintetizzato di voltoumano pilotata da un segnale audio.
CN101770649B (zh) * 2008-12-30 2012-05-02 中国科学院自动化研究所 一种人脸图像自动合成方法
KR101818005B1 (ko) * 2011-09-06 2018-01-16 한국전자통신연구원 얼굴 데이터 관리 시스템 및 그 방법
CN103268623B (zh) * 2013-06-18 2016-05-18 西安电子科技大学 一种基于频域分析的静态人脸表情合成方法
CN103607554B (zh) * 2013-10-21 2017-10-20 易视腾科技股份有限公司 一种基于全自动人脸无缝合成的视频合成方法
CN104657974A (zh) * 2013-11-25 2015-05-27 腾讯科技(上海)有限公司 一种图像处理方法及装置
CN104123749A (zh) * 2014-07-23 2014-10-29 邢小月 一种图像处理方法及系统
TWI526953B (zh) * 2015-03-25 2016-03-21 美和學校財團法人美和科技大學 人臉辨識方法及系統
US10460493B2 (en) * 2015-07-21 2019-10-29 Sony Corporation Information processing apparatus, information processing method, and program
US10916044B2 (en) * 2015-07-21 2021-02-09 Sony Corporation Information processing apparatus, information processing method, and program
CN105118082B (zh) * 2015-07-30 2019-05-28 科大讯飞股份有限公司 个性化视频生成方法及系统
CN107871100B (zh) * 2016-09-23 2021-07-06 北京眼神科技有限公司 人脸模型的训练方法和装置、人脸认证方法和装置
CN107146199B (zh) * 2017-05-02 2020-01-17 厦门美图之家科技有限公司 一种人脸图像的融合方法、装置及计算设备
CN107146919B (zh) * 2017-06-13 2023-08-04 合肥国轩高科动力能源有限公司 一种圆柱动力电池拆解装置及拆解方法
CN108021908B (zh) * 2017-12-27 2020-06-16 深圳云天励飞技术有限公司 人脸年龄段识别方法及装置、计算机装置及可读存储介质
CN109978754A (zh) * 2017-12-28 2019-07-05 广东欧珀移动通信有限公司 图像处理方法、装置、存储介质及电子设备
CN109977739A (zh) * 2017-12-28 2019-07-05 广东欧珀移动通信有限公司 图像处理方法、装置、存储介质及电子设备
CN109961507B (zh) * 2019-03-22 2020-12-18 腾讯科技(深圳)有限公司 一种人脸图像生成方法、装置、设备及存储介质
CN110399849B (zh) * 2019-07-30 2021-07-27 北京市商汤科技开发有限公司 图像处理方法及装置、处理器、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Nanxue Gong et al.,Dynamic Facial Expression Synthesis Driven by Deformable Semantic Parts,2018 24th International Conference on Pattern Recognition (ICPR),米国,IEEE,2018年08月20日,p.2929-p.2934,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8545831,IEL Online IEEE Xplore

Also Published As

Publication number Publication date
TWI779969B (zh) 2022-10-01
TWI779970B (zh) 2022-10-01
WO2021017113A1 (zh) 2021-02-04
TWI753327B (zh) 2022-01-21
CN110399849B (zh) 2021-07-27
CN113569790A (zh) 2021-10-29
TW202213265A (zh) 2022-04-01
TW202105238A (zh) 2021-02-01
CN113569789A (zh) 2021-10-29
US20210232806A1 (en) 2021-07-29
SG11202103930TA (en) 2021-05-28
CN113569789B (zh) 2024-04-16
KR20210057133A (ko) 2021-05-20
JP2022504579A (ja) 2022-01-13
CN113569790B (zh) 2022-07-29
CN110399849A (zh) 2019-11-01
CN113569791B (zh) 2022-06-21
CN113569791A (zh) 2021-10-29
TW202213275A (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
JP7137006B2 (ja) 画像処理方法及びその装置、プロセッサ、電子機器並びに記憶媒体
US11481869B2 (en) Cross-domain image translation
Seow et al. A comprehensive overview of Deepfake: Generation, detection, datasets, and opportunities
Mittal et al. Sync-draw: Automatic video generation using deep recurrent attentive architectures
WO2020103700A1 (zh) 一种基于微表情的图像识别方法、装置以及相关设备
WO2023040679A1 (zh) 人脸图片的融合方法、装置、设备及存储介质
CN111108508B (zh) 脸部情感识别方法、智能装置和计算机可读存储介质
CN110414593B (zh) 图像处理方法及装置、处理器、电子设备及存储介质
WO2023179074A1 (zh) 图像融合方法及装置、电子设备、存储介质、计算机程序、计算机程序产品
CN118172134A (zh) 虚拟试衣方法、装置、电子设备及可读存储介质
CN116912924B (zh) 一种目标图像识别方法和装置
Zhang et al. Cross-domain face sketch synthesis
WO2024059374A1 (en) User authentication based on three-dimensional face modeling using partial face images
Huang et al. Deep Multimodal Fusion Autoencoder for Saliency Prediction of RGB‐D Images
CN113538214A (zh) 一种妆容迁移的控制方法、系统和存储介质
Shit et al. Real-time emotion recognition using end-to-end attention-based fusion network
Shi et al. Transformer-Based adversarial network for semi-supervised face sketch synthesis
Wu et al. EG-Net: Appearance-based eye gaze estimation using an efficient gaze network with attention mechanism
Nakashima et al. A Comparison of Cartoon Portrait Generators Based on Generative Adversarial Networks
Chaudhry et al. Swapped Face Detection Using Deep Learning and Subjective Assessment
Wang Cross Domain Face Synthesis
CN113838159A (zh) 用于生成卡通图像的方法、计算设备和存储介质
Chakraborty et al. Facial Image Manipulation Detection Using Cellular Automata and Transfer Learning
Song Cross domain Image Transformation and Generation by Deep Learning
Bhosale Hybrid approach for light improvement and image quality enhancement with GAN and CNN

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210408

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210408

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220527

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220825

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220901

R150 Certificate of patent or registration of utility model

Ref document number: 7137006

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150