JP2023549810A - 動物顔スタイル画像の生成方法、モデルのトレーニング方法、装置及び機器 - Google Patents

動物顔スタイル画像の生成方法、モデルのトレーニング方法、装置及び機器 Download PDF

Info

Publication number
JP2023549810A
JP2023549810A JP2023528414A JP2023528414A JP2023549810A JP 2023549810 A JP2023549810 A JP 2023549810A JP 2023528414 A JP2023528414 A JP 2023528414A JP 2023528414 A JP2023528414 A JP 2023528414A JP 2023549810 A JP2023549810 A JP 2023549810A
Authority
JP
Japan
Prior art keywords
image
face
animal
animal face
style
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023528414A
Other languages
English (en)
Inventor
ホー,チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zitiao Network Technology Co Ltd
Original Assignee
Beijing Zitiao Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zitiao Network Technology Co Ltd filed Critical Beijing Zitiao Network Technology Co Ltd
Publication of JP2023549810A publication Critical patent/JP2023549810A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/02Affine transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

動物顔スタイル画像の生成方法、モデルのトレーニング方法、装置及び機器であって、当該生成方法は、元の人間顔画像を取得するステップ(S101)と、事前トレーニングされた動物顔スタイル画像生成モデルを利用して、元の人間顔画像に対応する動物顔スタイル画像を得るステップ(S102)とを含み、動物顔スタイル画像とは、元の人間顔画像における人間顔を動物顔に変換した画像であり、動物顔スタイル画像生成モデルは、第1の人間顔サンプル画像と第1の動物顔スタイルサンプル画像とに基づいてトレーニングされ、第1の動物顔スタイルサンプル画像は、事前トレーニングされた動物顔生成モデルによって第1の人間顔サンプル画像に基づいて生成され、動物顔生成モデルは、第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいてトレーニングされる。上記方法によれば、端末における画像編集機能を豊富にし、ビデオインタラクティブアプリケーションの面白さを向上させ、ユーザに特殊効果プレイを提供することができる。

Description

本出願は、2020年11月13日に中国国家知識産権局に提出された、出願番号が第202011269334.0号であって、発明の名称が「動物顔スタイル画像の生成方法、モデルのトレーニング方法、装置及び機器」である中国特許出願に基づく優先権を主張し、その内容全体が援用により本明細書に組み込まれる。
本開示は、画像処理の技術分野に関し、特に動物顔スタイル画像の生成方法、モデルトレーニング方法、装置及び機器に関する。
画像処理技術の発展に伴い、ビデオインタラクティブアプリケーションの機能は徐々に豊富になり、画像の変換は新しい面白さの遊び方になってきた。画像スタイルの変換とは、1枚または複数枚の画像を1つのスタイルから別のスタイルに変換することである。しかし、現在のビデオインタラクティブアプリケーションでサポートされているスタイル変換の種類はまだ限られ、面白さに欠けているため、ユーザの使用エクスペリエンスが悪く、パーソナライズされた画像スタイルの変換に対するユーザのニーズを満たすことができない場合がある。
上記の技術的課題を解決するため、または少なくとも部分的に上記の技術的課題を解決するために、本開示の実施形態は、動物顔スタイル画像の生成方法、モデルのトレーニング方法、装置及び機器を提供する。
第1の側面において、本開示の実施形態は、
元の人間顔画像を取得するステップと、
事前トレーニングされた動物顔スタイル画像生成モデルを利用して、前記元の人間顔画像に対応する動物顔スタイル画像を得るステップと、
を含み、
前記動物顔スタイル画像とは、前記元の人間顔画像における人間顔を動物顔に変換した画像であり、前記動物顔スタイル画像生成モデルは、第1の人間顔サンプル画像と第1の動物顔スタイルサンプル画像とに基づいてトレーニングされ、前記第1の動物顔スタイルサンプル画像は、事前トレーニングされた動物顔生成モデルによって前記第1の人間顔サンプル画像に基づいて生成され、前記動物顔生成モデルは、第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいてトレーニングされる、
動物顔スタイル画像の生成方法を提供する。
第2の側面において、本開示の実施形態は、
第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいて画像生成モデルをトレーニングして、動物顔生成モデルを得るステップと、
前記動物顔生成モデルによって、第1の人間顔サンプル画像に対応する第1の動物顔スタイルサンプル画像を得るステップであって、前記第1の動物顔スタイルサンプル画像とは、前記第1の人間顔サンプル画像における人間顔を動物顔に変換した画像であるステップと、
前記第1の人間顔サンプル画像と前記第1の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るステップと、
を含み、
前記動物顔スタイル画像生成モデルは、元の人間顔画像に対応する動物顔スタイル画像を得るために使用され、前記動物顔スタイル画像とは、前記元の人間顔画像における人間顔を動物顔に変換した画像である、
動物顔スタイル画像生成モデルのトレーニング方法をさらに提供する。
第3の側面において、本開示の実施形態は、
元の人間顔画像を取得するための元人間顔画像取得モジュールと、
事前トレーニングされた動物顔スタイル画像生成モデルを利用して、前記元の人間顔画像に対応する動物顔スタイル画像を得るためのスタイル画像生成モジュールと、
を含み、
前記動物顔スタイル画像とは、前記元の人間顔画像における人間顔を動物顔に変換した画像であり、前記動物顔スタイル画像生成モデルは、第1の人間顔サンプル画像と第1の動物顔スタイルサンプル画像とに基づいてトレーニングされ、前記第1の動物顔スタイルサンプル画像は、事前トレーニングされた動物顔生成モデルによって前記第1の人間顔サンプル画像に基づいて生成され、前記動物顔生成モデルは、第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいてトレーニングされる、
動物顔スタイル画像の生成装置をさらに提供する。
第4の側面において、本開示の実施形態は、
第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいて画像生成モデルをトレーニングして、動物顔生成モデルを得るための動物顔生成モデルトレーニングモジュールと、
前記動物顔生成モデルによって、第1の人間顔サンプル画像に対応する第1の動物顔スタイルサンプル画像を得るためのモジュールであって、前記第1の動物顔スタイルサンプル画像とは、前記第1の人間顔サンプル画像における人間顔を動物顔に変換した画像であるスタイルサンプル画像生成モジュールと、
前記第1の人間顔サンプル画像と前記第1の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るためのスタイル画像生成モデルトレーニングモジュールと、
を含み、
前記動物顔スタイル画像生成モデルは、元の人間顔画像に対応する動物顔スタイル画像を得るために使用され、前記動物顔スタイル画像とは、前記元の人間顔画像における人間顔を動物顔に変換した画像である、
動物顔スタイル画像生成モデルのトレーニング装置をさらに提供する。
第5の側面において、本開示の実施形態は、メモリと、プロセッサとを含む電子機器をさらに提供し、前記メモリにはコンピュータプログラムが記憶されており、前記コンピュータプログラムが前記プロセッサによって実行されると、前記プロセッサに、本開示の実施形態による動物顔スタイル画像の生成方法または動物顔スタイル画像生成モデルのトレーニング方法のいずれかを実行させる。
第6の側面において、本開示の実施形態は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体をさらに提供し、前記コンピュータプログラムがプロセッサによって実行されると、前記プロセッサに、本開示の実施形態による動物顔スタイル画像の生成方法または動物顔スタイル画像生成モデルのトレーニング方法のいずれかを実行させる。
従来の技術と比較して、本開示の実施形態による技術案は、少なくとも以下の利点を有する。
本開示の実施形態では、サーバで事前トレーニングされた動物顔スタイル画像生成モデルを端末に配信し端末に呼び出させ、元の人間顔画像に対応する動物顔スタイル画像を生成することができるため、端末における画像編集機能を豊富にすることができる。ビデオインタラクティブアプリケーションを例にとると、この動物顔スタイル画像生成モデルを呼び出して、元の人間顔画像に対応する動物顔スタイル画像を得ることで、アプリケーションの画像編集機能を豊富にするだけでなく、このビデオインタラクティブアプリケーションの面白さを向上させ、ユーザにより新しい特殊効果プレイを提供することができ、ユーザの使用エクスペリエンスを向上させる。また、この動物顔スタイル画像生成モデルを使用することによって、異なるユーザの元の顔画像ごとに、ユーザの元の顔画像に適した動物顔スタイル画像を動的に生成することができ、動物顔スタイル画像を生成する知能化を高め、よりリアルな動物顔スタイル画像を得るなど、より良好な画像効果を表示することができる。
ここで図面は、明細書に組み込まれ、本明細書の一部を構成し、本開示に適合する実施形態を示しており、明細書とともに本開示の原理を説明するために用いられる。
本開示の実施形態または従来技術における技術案をより明確に説明するために、以下で、実施形態または従来技術を説明するために使用される必要がある図面を簡単に説明する。明らかに、当業者であれば、進歩性に値する労働を払うことなく、これらの図面に基づいて、他の図面を取得することもできる。
本開示の一実施形態による動物顔スタイル画像の生成方法のフローチャートである; 本開示の別の実施形態による動物顔スタイル画像の生成方法のフローチャートである; 本開示の一実施形態による動物顔スタイル画像生成モデルのトレーニング方法のフローチャートである; 本開示の一実施形態による動物顔スタイル画像の生成装置の構造概略図である; 本開示の一実施形態による動物顔スタイル画像生成モデルのトレーニング装置の構造概略図である; 本開示の一実施形態による電子機器の構造概略図である。
本開示の上述の目的、特徴及び利点をより明確に理解するために、以下、本開示の技術案についてさらに説明する。なお、矛盾しない限り、本開示の実施例及び実施形態における特徴は、互いに組み合わせることができる。
本開示を十分に理解しやすくするために、以下の説明において、多くの具体的な詳細が記載されているが、本開示は、本明細書に記載されているものとは異なる他の形態で実施されてもよい。明らかに、本明細書における実施形態は、本開示の一部の実施形態に過ぎず、すべての実施形態ではない。
図1は本開示の一実施形態による動物顔スタイル画像の生成方法のフローチャートである。この動物顔スタイル画像の生成方法は動物顔スタイル画像の生成装置によって実行され、この装置はソフトウェア及び/またはハードウェアによって実現され、コンピューティング能力を備えた任意の電子機器、例えばスマートフォン、タブレット、ノートパソコンなどの端末上に統合されることができる。
動物顔スタイル画像の生成装置は、独立したアプリケーションプログラムやパブリックプラットフォーム上に統合されたミニプログラムの形態で実現されてもよく、スタイル画像生成機能を備えたアプリケーションプログラムやミニプログラム上に統合された機能モジュールとしても実現されてもよい。このスタイル画像生成機能を備えたアプリケーションプログラムは、ビデオインタラクティブアプリケーションを含み得るが、これに限定されない。このミニプログラムは、ビデオインタラクティブミニプログラムを含み得るが、これに限定されない。
本開示の実施形態による動物顔スタイル画像の生成方法は、動物顔スタイル画像を得るシーンに適用されることができる。本開示の実施形態において、動物顔スタイル画像または動物顔スタイルサンプル画像はいずれも、人間顔を動物顔に変換した画像であり、例えば、人間顔を猫の顔または犬の顔などの動物顔に変換して、動物顔スタイルの画像を得る。また、人間顔を動物顔に変換した後、人間顔の表情を動物顔の表情と一致させることができ、人間顔における五官状態を動物顔における五官状態と一致させることもでき、例えば、人間顔に笑顔が現れると、対応する動物顔にも笑顔が現れ、人間顔における目が開眼状態であると、対応する動物顔における目も開眼状態であるなどが挙げられる。
図1に示すように、本開示の実施形態による動物顔スタイル画像の生成方法は、以下のステップを含むことができる。
S101:元の人間顔画像を取得する。
例示的に、ユーザは動物顔スタイル画像を生成する必要がある場合、端末に記憶された画像を取得したり、端末の画像撮影装置によって画像またはビデオをリアルタイムで撮影したりすることができる。動物顔スタイル画像生成装置は、端末におけるユーザの画像選択操作、画像撮影操作または画像アップロード操作に応じて、処理対象となる元の人間顔画像を取得する。
例えば、ユーザがビデオインタラクティブアプリケーションにおいて端末の画像撮影装置(カメラなど)を呼び出してリアルタイムで画像を撮影することを例にとると、このビデオインタラクティブアプリケーションが画像収集インターフェースにジャンプした後、画像収集インターフェースに撮影提示情報を表示することができる。この撮影提示情報は、画像収集インターフェースにおける人間顔画像の顔を端末画面の事前設定された位置(画面の中央位置など)に配置したり、顔から端末画面までの距離を調整したり(この距離を調整することにより、顔領域が大きすぎたり小さすぎたりしないように、画像収集インターフェースにおいて適切なサイズの顔領域を取得することができる)、顔の回転角度を調整したり(異なる回転角度は、正面や横顔などの異なる顔の向きに対応する)するようにユーザに提示するための情報のうちの少なくとも1つであり得る。ユーザは、撮影提示情報に従って画像を撮影することによって、ビデオインタラクティブアプリケーションは、動物顔スタイル画像生成モデルの入力要件を満たす元の人間顔画像を容易に得ることができる。なお、動物顔スタイル画像生成モデルの入力要件とは、入力画像における顔の位置、入力画像のサイズなど、入力画像への制限条件を意味するものであってもよい。
さらに、ビデオインタラクティブアプリケーションは、動物顔スタイル画像生成モデルの入力要件に従って、撮影テンプレートを事前に保存することもできる。この撮影テンプレートには、画像におけるユーザの顔の位置、顔領域のサイズ、顔の向き、画像サイズなどの情報が事前に定義されている。ビデオインタラクティブアプリケーションは、ユーザの撮影操作に従って、この撮影テンプレートを使用して必要な元の人間顔画像を得ることができる。
もちろん、ユーザが撮影した画像と、動物顔スタイル画像生成モデルの入力要件のうちの画像条件(画像における人間顔の位置、画像サイズなど)に差がある場合、ユーザが撮影した画像に対してトリミング、ズーム、回転などの操作処理を行うことによって、モデル入力に準拠した元の人間顔画像を得ることができる。
S102:事前トレーニングされた動物顔スタイル画像生成モデルを利用して、元の人間顔画像に対応する動物顔スタイル画像を得る。
動物顔スタイル画像とは、元の人間顔画像における人間顔を動物顔に変換した画像であり、動物顔スタイル画像生成モデルは、人間顔を動物顔に変換する機能を有する。動物顔スタイル画像生成モデルは、第1の人間顔サンプル画像と第1の動物顔スタイルサンプル画像とに基づいてトレーニングされ、第1の動物顔スタイルサンプル画像は、事前トレーニングされた動物顔生成モデルによって第1の人間顔サンプル画像に基づいて生成される、即ち、動物顔生成モデルは、任意の人間顔画像のために対応する動物顔スタイル画像を生成する機能を有し、第1の人間顔サンプル画像における人間顔を動物顔に変換すると、対応する第1の動物顔スタイルサンプル画像が得られる。動物顔生成モデルは、第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいてトレーニングされ、第1の動物顔サンプル画像とは、リアルな動物顔の特徴が示されている動物顔画像であり、第2の人間顔サンプル画像と第1の人間顔サンプル画像とは、同じ顔画像であっても異なる顔画像であってもよく、本開示の実施形態では特に限定されない。
また、動物顔生成モデルのトレーニングに使用される複数の第1の動物顔サンプル画像は同じ動物種類に対応し、例えば、動物顔生成モデルのトレーニングに使用される複数の第1の動物顔サンプル画像は、すべて猫または犬の動物顔画像に対応する。さらに細分化すると、動物顔生成モデルのトレーニングに使用される複数の第1の動物顔サンプル画像は、同じ動物種類のうち同じ品種に属する動物顔画像に対応するものであってもよく、例えば、動物顔生成モデルのトレーニングに使用される複数の第1の動物顔サンプル画像は、すべてドラゴンリー猫種またはペルシャ猫種に対応する動物顔画像であってもよい。つまり、本開示の実施形態では、それぞれの動物顔生成モデルが特定の種類または特定の品種の動物顔画像を生成する機能を有するように、異なる動物種類または同じ動物種類のうちの異なる動物品種ごとに、複数の動物顔生成モデルをそれぞれトレーニングすることができる。第1の動物顔サンプル画像は、インターネット上で動物を撮影した動物画像を収集することで得られたものであってもよい。
上記のモデルの具体的なトレーニング手順に関して、本開示の実施形態では具体的に限定されず、当業者は、モデルの機能に従って任意の利用可能なトレーニング方法で実施することができる。例示的に、上記のモデルトレーニング手順は、以下を含むことができる。まず、第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいて、画像生成モデルをトレーニングすることによって、動物顔生成モデルを得る。利用可能な画像生成モデルは、敵対的生成ネットワーク(GAN、Generative Adversarial Networks)モデル、スタイルベース敵対的生成ネットワーク(StyleganStyle-Based Generative Adversarial Networks for Generator Architecture)モデルなどを含み得るが、これらに限定されない。次に、動物顔生成モデルによって、第1の人間顔サンプル画像に対応する第1の動物顔スタイルサンプル画像を得る。第1の動物顔スタイルサンプル画像とは、第1の人間顔サンプル画像における人間顔を動物顔に変換した画像である。最後に、第1の人間顔サンプル画像と第1の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングすることによって、動物顔スタイル画像生成モデルを得る。その中で、利用可能なスタイル画像生成モデルは、例えば、条件付き敵対的生成ネットワーク(CGAN、Conditional Generative Adversarial Networks)モデル、循環による一貫性のある敵対的生成ネットワーク(Cycle-GAN、Cycle Consistent Adversarial Networks)モデルなどを含み得る。
動物顔生成モデルを使用して、第1の人間顔サンプル画像に対応する第1の動物顔スタイルサンプル画像を取得し、その後、第1の人間顔サンプル画像と第1の動物顔スタイルサンプル画像をペアとなるトレーニングサンプルとして、トレーニングに使用して、動物顔スタイル画像生成モデルを得ることによって、動物顔スタイル画像生成モデルのトレーニング効果を確保することができ、さらに、生成された元の人間顔画像に対応する動物顔スタイル画像が、例えばよりリアルな動物顔スタイル画像を得るなど、良好な表示効果を有することを確保することができる。
上記の技術案に加えて、オプションとして、第1の人間顔サンプル画像は、第1の元の人間顔サンプル画像における人間顔のキーポイントと、第1の元の動物顔サンプル画像における動物顔のキーポイントとの間の第1の対応関係に基づいて、第1の元の人間顔サンプル画像に対して人間顔の位置調整を行うことで得られる。
第2の人間顔サンプル画像は、第2の元の人間顔サンプル画像における人間顔のキーポイントと、第1の元の動物顔サンプル画像における動物顔のキーポイントとの間の第2の対応関係に基づいて、第2の元の人間顔サンプル画像に対して人間顔の位置調整を行うことで得られる。
第1の動物顔サンプル画像は、第1の対応関係または第2の対応関係に基づいて、第1の元の動物顔サンプル画像に対して動物顔の位置調整を行うことで得られる。
つまり、動物顔と人間顔との差を考慮すると、動物顔生成モデルによって第1の人間顔サンプル画像に対応する第1の動物顔スタイルサンプル画像を得る前に、第1の元の人間顔サンプル画像における人間顔のキーポイントと、第1の元の動物顔サンプル画像における動物顔のキーポイントとの間の第1の対応関係を決定する必要があり、この第1の対応関係に基づいて第1の元の人間顔サンプル画像に対して人間顔の位置調整を行うことで、動物顔生成モデルまたは動物顔スタイル画像生成モデルの入力要件(画像における人間顔の位置、画像サイズなど)を満たす第1の人間顔サンプル画像を得る。同様に、第1の動物顔サンプル画像も、この第1の対応関係に基づいて第1の元の動物顔サンプル画像に対して動物顔の位置調整を行うことで得られることができ、第1の動物顔サンプル画像は、同様にモデルの入力要件を満たすものである。
例示的に、前記第1の対応関係が決定された後、第1の対応関係に関与する人間顔のキーポイントに基づいて、第1の元の人間顔サンプル画像における人間顔の位置を調整するためのアフィン変換マトリックスを構築するとともに、このアフィン変換マトリックスに基づいて、第1の元の人間顔サンプル画像に対して人間顔の位置調整を行うことによって、第1の人間顔サンプル画像を得ることができ、第1の対応関係に関与する動物顔のキーポイントに基づいて、第1の元の動物顔サンプル画像における動物顔の位置を調整するためのアフィン変換マトリックスを構築するとともに、このアフィン変換マトリックスに基づいて、第1の元の動物顔サンプル画像に対して動物顔の位置調整を行うことによって、第1の動物顔サンプル画像を得ることができる。アフィン変換マトリックスの具体的な構築について、アフィン変換の原理を参照することができる。さらに、アフィン変換マトリックスは、第1の元の人間顔サンプル画像または第1の元の動物顔サンプル画像のズームパラメータ、トリミング比率などのパラメータに関連するものであってもよく、即ち、人間顔の位置調整または動物顔の位置調整を行う過程で、関連する画像処理操作には、トリミング、ズーム、回転などが含まれ得るが、具体的に画像処理のニーズに応じて決定されることができる。
同じキーポイントの対応関係に基づいて画像調整を行うことで最終的に得られた第1の人間顔サンプル画像と第1の動物顔サンプル画像は、同じ画像サイズを有し、かつ、第1の人間顔サンプル画像における人間顔領域と第1の動物顔サンプル画像における動物顔領域は、同じ画像位置に対応し、例えば、人間顔領域が第1の人間顔サンプル画像の中央領域に位置し、動物顔領域も第1の動物顔サンプル画像の中央領域に位置するなどが挙げられる。また、人間顔領域の面積と動物顔領域の面積との差が面積閾値(数値を柔軟に設定できる)より小さく、つまり、人間顔領域の面積が動物顔領域の面積と一致する。これによって、動物顔生成モデルによって、良好な表示効果を有する第1の動物顔スタイルサンプル画像を生成することを確保することができ、さらに、高品質のトレーニングサンプルに基づいてトレーニングすることで動物顔スタイル画像生成モデルを得ることができるため、良好なモデルトレーニング効果を確保することでき、動物顔スタイル画像生成モデルによって生成された動物顔スタイル画像における動物顔領域と人間顔領域が一致しないため動物顔スタイル画像の表示効果に影響を与えてしまい、例えば人間顔領域と比べて、動物顔領域が大きすぎたり小さすぎたりするのを回避することができる。
同様に、動物顔生成モデルを得るためのトレーニングに先立って、まず、第2の元の人間顔サンプル画像における人間顔のキーポイントと、第1の元の動物顔サンプル画像における動物顔のキーポイントとの間の第2の対応関係を決定し、その後、第2の対応関係に基づいて第2の元の人間顔サンプル画像に対して人間顔の位置調整を行うこともできる。画像生成モデルの入力画像条件を満たす第2の人間顔サンプル画像が得られるように、関連する画像処理操作には、トリミング、ズーム、回転などが含まれ得る。もちろん、第1の動物顔サンプル画像に対する需要の順序に従って、この第2の対応関係に基づいて、第1の元の動物顔サンプル画像に対して動物顔の位置調整を予め行うことによって、画像生成モデルの入力要件を満たす第1の動物顔サンプル画像を得ることもできる。
例示的に、上記の第2の対応関係が決定された後、第2の対応関係に関与する人間顔のキーポイントに基づいて、第2の元の人間顔サンプル画像における人間顔の位置を調整するためのアフィン変換マトリックスを構築し、第2の対応関係に関する動物顔のキーポイントに基づいて、第1の元の動物顔サンプル画像における動物顔の位置を調整するためのアフィン変換マトリックスを構築することもできる。最終的に得られた第2の人間顔サンプル画像と第1の動物顔サンプル画像は、同じ画像サイズを有し、第2の人間顔サンプル画像における人間顔領域と第1の動物顔サンプル画像における動物顔領域は、同じ画像位置に対応し、例えば、人間顔領域が第2の人間顔サンプル画像の中央領域に位置し、動物顔領域も第1の動物顔サンプル画像の中央領域に位置するなどが挙げられる。また、人間顔領域の面積と動物顔領域の面積との差が面積閾値(数値を柔軟に設定できる)より小さく、つまり、人間顔領域の面積が動物顔領域の面積と一致する。これによって、高品質のトレーニングサンプルに基づいて、良好なモデルトレーニング効果を確保することができる。
オプションとして、動物顔スタイル画像生成モデルは、第1の人間顔サンプル画像と第2の動物顔スタイルサンプル画像とに基づいてトレーニングされ、第2の動物顔スタイルサンプル画像は、第1の動物顔スタイルサンプル画像における背景領域を第1の人間顔サンプル画像における背景領域に置き換えることによって得られる。背景を置き換えることによって、トレーニングすることで動物顔スタイル画像生成モデルを得る過程において、モデルトレーニング効果に対する動物顔スタイルサンプル画像における背景領域からの影響を最小限に抑えて、良好なモデルトレーニング効果を確保することができ、さらに、生成された動物顔スタイルの画像が良好な表示効果を有することを確保する。
さらに、第2の動物顔スタイルサンプル画像は、第2の動物顔マスク画像に基づいて、第1の動物顔スタイルサンプル画像と第1の人間顔サンプル画像とを融合することで得られる。第2の動物顔マスク画像は、事前トレーニングされた動物顔分割モデルによって第1の動物顔スタイルサンプル画像に基づいて得られ、第2の動物顔マスク画像は、第1の動物顔スタイルサンプル画像における動物顔領域を、第2の動物顔スタイルサンプル画像における動物顔領域として決定するために使用される。動物顔分割モデルは、第2の動物顔サンプル画像と第2の動物顔サンプル画像における動物顔領域の位置ラベリング結果に基づいてトレーニングすることで得られる。動物顔分割モデルが画像における動物顔領域に対応するマスク画像を生成する機能を有することを確保する上で、当業者は任意の利用可能なトレーニング方法で実現することができ、本開示の実施形態では具体的に限定されない。
本開示の実施形態では、サーバで事前トレーニングされた動物顔スタイル画像生成モデルを端末に配信し端末に呼び出させて、元の人間顔画像に対応する動物顔スタイル画像を生成することができるため、端末における画像編集機能を豊富にすることができる。ビデオインタラクティブアプリケーションを例にとると、動物顔スタイル画像生成モデルを呼び出して、元の人間顔画像に対応する動物顔スタイル画像を得ることで、アプリケーションの画像編集機能を豊富にするだけでなく、アプリケーションの面白さを向上させ、より新しい特殊効果プレイをユーザに提供し、ユーザの使用エクスペリエンスを向上させる。また、動物顔スタイル画像生成モデルを使用することによって、異なるユーザの元の顔画像ごとに、ユーザの元の顔画像に適した動物顔スタイル画像を動的に生成することができ、動物顔スタイル画像を生成する知能化を高め、より良好な画像効果を表示することができる。
図2は本開示の別の実施形態による動物顔スタイル画像の生成方法のフローチャートであり、上記の技術案に基づいてさらに最適化や拡張を行い、上記の選択可能な各実施形態と組み合わせることができる。
図2に示すように、本開示の実施形態による動物顔スタイル画像の生成方法は、以下のステップを含むことができる。
S201:ユーザによって選択された動物系特殊効果の種類に従って、動物系特殊効果の種類に対応する動物顔のキーポイントと人間顔のキーポイントとの間の対応関係を決定する。
例示的に、ユーザが端末上でスタイル画像生成機能を備えたアプリケーションプログラムまたはミニプログラムを起動すると、アプリケーションプログラムまたはミニプログラムは、動物特徴の種類を選択するインターフェースをユーザに表示することができ、動物特徴の種類は、例えば猫の顔の特殊効果または犬の顔の特殊効果のように、異なる動物種類によって区別され、また、ドラゴンリー猫の顔の特殊効果またはペルシャ猫の顔の特殊効果のように、異なる動物品種によって区別されてもよい。端末は、ユーザが選択した動物の特殊効果の種類に基づいて、ユーザが現時点でどの種類の動物に対応する動物顔スタイル画像の生成を希望するかを決定し、さらに、この動物顔のキーポイントと人間顔のキーポイントとの間の対応関係を決定する。この対応関係は、端末が動物の特殊効果の種類に応じて呼び出すために端末に事前に格納されてもよい。もちろん、端末は、ユーザによって選択された動物の特殊効果の種類に対応する動物顔を決定し、ユーザ画像における人間顔のキーポイントを認識した後、動物顔のキーポイントと人間顔のキーポイントとを対応付けさせることもできる。ユーザ画像は、端末におけるユーザの画像選択操作、画像撮影操作、または画像アップロード操作に従って、端末によって取得された画像であってもよい。
S202:決定された対応関係に基づいて、ユーザ画像に対して人間顔の位置調整を行うことによって、元の人間顔画像を得る。
決定された動物顔のキーポイントと人間顔のキーポイントとの間の対応関係に基づいて、ユーザ画像に対して人間顔の位置調整を行うことによって、元の人間顔画像を得る。元の人間顔画像は、動物顔スタイル画像生成モデルの入力要件を満たす。動物顔スタイル画像生成モデルがトレーニングされた後、モデルに対応する入力要件(画像における顔の位置、画像のサイズなど)も同時に決定される。従って、端末はキーポイント認識技術を利用してユーザ画像における人間顔のキーポイントを認識した後、決定された対応関係に基づいて、ユーザ画像に対して人間顔の位置調整を行い、例えば、端末は、ユーザ画像におけるこの対応関係に属する人間顔のキーポイントを使用して、ユーザ画像における人間顔の位置を調整するためのアフィン変換マトリックスを構築し、このアフィン変換マトリックスを利用してユーザ画像における人間顔の位置を調整することができ、動物顔スタイル画像生成モデルの入力要件を満たす元の人間顔画像が得られるように、関する画像処理操作には、トリミング、ズーム、回転などが含まれる。
S203:元の人間顔画像を取得する。
S204:事前トレーニングされた動物顔スタイル画像生成モデルを利用して、元の人間顔画像に対応する動物顔スタイル画像を得る。
S205:動物顔スタイル画像における動物顔領域と、ユーザ画像における背景領域とを融合して、ユーザ画像に対応するターゲット動物顔スタイル画像を得る。
ユーザ画像における背景領域とは、ユーザ画像から顔領域を取り除いた残りの画像領域である。例示的に、画像処理技術を利用して、動物顔スタイル画像から動物顔領域を抽出し、ユーザ画像から背景領域を抽出し、その後、ユーザ画像における背景領域の位置と人間顔領域の位置に従って両者を融合(またはミキシング)することができる。つまり、最終的にユーザに表示されるターゲット動物顔スタイル画像において、ユーザの顔特徴が動物顔特徴に変わったことを除いて、画像の背景にはユーザ画像の背景領域が残されているため、動物顔スタイルの画像を生成する過程ではユーザ画像における背景領域の変化が回避される。
オプションとして、動物顔スタイル画像における動物顔領域と、ユーザ画像における背景領域とを融合して、ユーザ画像に対応するターゲット動物顔スタイル画像を得ることは、以下のことを含む。
動物顔スタイル画像に基づいて、ユーザ画像と同じ画像サイズを有する中間結果画像を得る。中間結果画像における動物顔領域の位置は、ユーザ画像における人間顔領域の位置と同じである。例えば、動物顔スタイル画像における動物顔のキーポイントと、ユーザ画像における人間顔のキーポイントとの対応関係に従って、動物顔スタイル画像をユーザ画像に対応する画像座標にマッピングして、中間結果画像を得ることができる。
動物系特殊効果の種類に対応する第1の動物顔マスク画像を決定する。
第1の動物顔マスク画像に基づいて、ユーザ画像と中間結果画像とを融合して、ユーザ画像に対応するターゲット動物顔スタイル画像を得る。第1の動物顔マスク画像は、中間結果画像における動物顔領域を、ターゲット動物顔スタイル画像における動物顔領域として決定するために使用される。
第1の動物顔マスク画像を使用してユーザ画像と中間結果画像との融合を実現することによって、ターゲット動物顔スタイル画像の入手が確保されることに加えて、画像融合処理の効率向上に寄与する。
さらに、第1の動物顔マスク画像に基づいて、ユーザ画像と中間結果画像とを融合して、ユーザ画像に対応するターゲット動物顔スタイル画像を得るステップは、
第1の動物顔マスク画像における動物顔のエッジ部に対して、ガウスぼかし処理などの平滑化処理を行うステップと、平滑化処理された動物顔マスク画像に基づいて、ユーザ画像と中間結果画像とを融合して、ユーザ画像に対応するターゲット動物顔スタイル画像を得るステップとを含み得る。
第1の動物顔マスク画像における動物顔のエッジ部に対して平滑化処理を施してから、画像の融合を行うことによって、ユーザ画像における背景領域と中間結果画像における動物顔領域との間の滑らかな遷移を実行することができ、画像融合効果が最適化され、ターゲット動物顔スタイル画像の最終的な表示効果が確保される。
また、ユーザ画像に対応するターゲット動物顔スタイル画像が得られた後、または元の人間顔画像に対応する動物顔スタイル画像が得られた後、画像編集インターフェース上でのユーザによる特殊効果の選択操作に従って、ユーザによって選択された特殊効果識別子を決定し、ユーザによって選択された特殊効果識別子に対応する特殊効果を、前記ターゲット動物顔スタイル画像または前記動物顔スタイル画像に追加して、画像編集の面白さをさらに向上させることができる。ユーザによって選択可能な特殊効果には、任意の種類の小道具やステッカーが含まれるが、本開示の実施形態では具体的に限定されない。
本開示の実施形態では、ユーザ画像が得られた後、まず、ユーザによって選択された動物顔特殊効果の種類に対応する動物顔のキーポイントと人間顔のキーポイントとの間の対応関係に従って、ユーザ画像に対して人間顔の位置調整を行うことによって、元の人間顔画像を得る。次に、動物顔スタイル画像生成モデルを利用して、元の人間顔画像に対応する動物顔スタイル画像を得る。最後に、動物顔スタイル画像における動物顔領域とユーザ画像における背景領域とを融合して、ユーザに表示されるターゲット動物顔スタイル画像を得る。ユーザの顔特徴を動物化処理すると同時に、ユーザ画像における元の背景を残すため、端末における画像編集機能を豊富にした。ビデオインタラクティブアプリケーションを例にとると、動物顔スタイル画像生成モデルを呼び出して、動物顔スタイル画像を得ることで、アプリケーションの画像編集機能を豊富にするだけでなく、アプリケーションの面白さを向上させ、新しい特殊効果プレイをユーザに提供することができ、ユーザの使用エクスペリエンスを向上させる。
図3は本開示の一実施形態による動物顔スタイル画像生成モデルのトレーニング方法のフローチャートであり、人間顔を動物顔に変換する機能を備えた動物顔スタイル画像生成モデルをトレーニングする方法に適用される。この動物顔スタイル画像生成モデルのトレーニング方法は、動物顔スタイル画像生成モデルのトレーニング装置によって実行され、この装置はソフトウェア及び/またはハードウェアによって実現され、サーバ上に統合され得る。
本開示の実施形態による動物顔スタイル画像生成モデルのトレーニング方法は、本開示の実施形態による動物顔スタイル画像の生成方法と協働して実行される。以下の実施形態において詳細に説明されていない内容について、上述した実施形態における説明を参照することができる。
図3に示すように、本開示の実施形態による動物顔スタイル画像生成モデルのトレーニング方法は、以下のステップを含むことができる。
S301:第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいて、画像生成モデルをトレーニングして、動物顔生成モデルを得る。
S302:動物顔生成モデルによって、第1の人間顔サンプル画像に対応する第1の動物顔スタイルサンプル画像を得る。
第1の動物顔スタイルサンプル画像とは、第1の人間顔サンプル画像における人間顔を動物顔に変換した画像である。
S303:第1の人間顔サンプル画像と第1の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得る。
動物顔スタイル画像生成モデルは、元の人間顔画像に対応する動物顔スタイル画像を得るために使用され、動物顔スタイル画像とは、元の人間顔画像における人間顔を動物顔に変換した画像である。
オプションとして、第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいて、画像生成モデルをトレーニングして、動物顔生成モデルを得るステップの前に、本開示の実施形態によるモデルのトレーニング方法は、
第2の元の人間顔サンプル画像における人間顔のキーポイントと第1の元の動物顔サンプル画像における動物顔のキーポイントとの間の第2の対応関係を決定するステップと、 第2の対応関係に基づいて、第2の元の人間顔サンプル画像に対して人間顔の位置調整を行うことによって、第2の人間顔サンプル画像を得るステップと、第2の対応関係に基づいて、第1の元の動物顔サンプル画像に対して動物顔の位置調整を行うことによって、 第1の動物顔サンプル画像を得るステップと、をさらに含む。
動物顔生成モデルによって、第1の人間顔サンプル画像に対応する第1の動物顔スタイルサンプル画像を得るステップの前に、本開示の実施形態によるモデルのトレーニング方法は、第1の元の人間顔サンプル画像における人間顔のキーポイントと第1の元の動物顔サンプル画像における動物顔のキーポイントとの間の第1の対応関係を決定するステップと、第1の対応関係に基づいて、第1の元の人間顔サンプル画像に対して動物顔の位置調整を行うことによって、第1の人間顔サンプル画像を得るステップと、をさらに含む。
オプションとして、動物顔生成モデルによって、第1の人間顔サンプル画像に対応する第1の動物顔スタイル画像を得るステップの後に、本開示の実施形態によるモデルのトレーニング方法は、第1の動物顔スタイルサンプル画像における背景領域を第1の人間顔サンプル画像における背景領域に置き換えることによって、第2の動物顔スタイルサンプル画像を得るステップをさらに含む。
それに対応して、第1の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るステップは、第1の人間顔サンプル画像と第2の動物顔サンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るステップを含む。
オプションとして、第1の動物顔スタイルサンプル画像における背景領域を第1の人間顔サンプル画像における背景領域に置き換えることによって、第2の動物顔スタイルサンプル画像を得るステップは、事前トレーニングされた動物顔分割モデルに基づいて、第1の動物顔スタイルサンプル画像に対応する動物顔マスク画像を得るステップと、動物顔マスク画像に基づいて、第1の動物顔スタイルサンプル画像と第1の人間顔サンプル画像とを融合して、第2の動物顔スタイルサンプル画像を得るステップとを含む。動物顔マスク画像は、第1の動物顔スタイルサンプル画像における動物顔領域を、第2の動物顔スタイルサンプル画像における動物顔領域として決定するために使用される。
オプションとして、本開示の実施形態によるモデルのトレーニング方法は、第2の動物顔サンプル画像及び第2の動物顔サンプル画像における動物顔領域の位置ラベリング結果を取得するステップと、第2の動物顔サンプル画像と動物顔領域の位置ラベリング結果とに基づいてトレーニングして動物顔分割モデルを得るステップと、をさらに含む。
本開示の実施形態では、サーバで事前トレーニングされた動物顔スタイル画像生成モデルを端末に配信し端末に呼び出させ、元の人間顔画像に対応する動物顔スタイル画像を生成することができるため、端末における画像編集機能を豊富にすることができる。ビデオインタラクティブアプリケーションを例にとると、動物顔スタイル画像生成モデルを呼び出して、動物顔スタイル画像を得ることで、アプリケーションの画像編集機能を豊富にするだけでなく、アプリケーションの面白さを向上させ、より新しい特殊効果プレイをユーザに提供することができ、ユーザの使用エクスペリエンスを向上させる。
図4は本開示の一実施形態による動物顔スタイル画像の生成装置の構造概略図であり、ユーザの顔を動物顔に変換させる場合に適用される。この動物顔スタイル画像の生成装置はソフトウェア及び/またはハードウェアによって実現され、コンピューティング能力を備えた任意の電子機器、例えばスマートフォン、タブレット、ノートパソコンなどの端末上に統合され得る。
図4に示すように、本開示の実施形態による動物顔スタイル画像の生成装置400は、
元の人間顔画像を取得するための元人間顔画像取得モジュール401と、
事前トレーニングされた動物顔スタイル画像生成モデルを利用して、前記元の人間顔画像に対応する動物顔スタイル画像を得るためのスタイル画像生成モジュール402と、
を含み、
動物顔スタイル画像とは、元の人間顔画像における人間顔を動物顔に変換した画像であり、動物顔スタイル画像生成モデルは、第1の人間顔サンプル画像と第1の動物顔スタイルサンプル画像とに基づいてトレーニングされる。
オプションとして、第1の動物顔スタイルサンプル画像は、事前トレーニングされた動物顔生成モデルによって第1の人間顔サンプル画像に基づいて生成され、動物顔生成モデルは、第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいてトレーニングされる。
オプションとして、本開示の実施形態による装置400は、さらに、
ユーザによって選択された動物系特殊効果の種類に従って、動物系特殊効果の種類に対応する動物顔のキーポイントと人間顔のキーポイントとの間の対応関係を決定するための対応関係決定モジュールと、
前記動物系特殊効果の種類に対応する動物顔のキーポイントと人間顔のキーポイントとの間の対応関係に基づいて、ユーザ画像に対して人間顔の位置調整を行うことによって、元の人間顔画像を得るためのモジュールであって、元の人間顔画像は、動物顔スタイル画像生成モデルの入力要件を満たす人間顔位置調整モジュールと、
を含む。
オプションとして、画像融合モジュールは、動物顔スタイル画像における動物顔領域と、ユーザ画像における背景領域とを融合して、ユーザ画像に対応するターゲット動物顔スタイル画像を得るものである。
オプションとして、画像融合モジュールは、
動物顔スタイル画像に基づいて、ユーザ画像と同じ画像サイズを有する中間結果画像を得るためのユニットであって、中間結果画像における動物顔領域の位置はユーザ画像における人間顔領域の位置と同じである中間結果画像特定ユニットと、
動物系特殊効果の種類に対応する第1の動物顔マスク画像を決定するための第1の動物顔マスク画像決定ユニットと、
第1の動物顔マスク画像に基づいて、ユーザ画像と中間結果画像とを融合して、ユーザ画像に対応するターゲット動物顔スタイル画像を得るためのユニットであって、第1の動物顔マスク画像は、中間結果画像における動物顔領域を、ターゲット動物顔スタイル画像における動物顔領域として決定するために使用される画像融合ユニットと、
を含む。
オプションとして、第1の人間顔サンプル画像は、第1の元の人間顔サンプル画像における人間顔のキーポイントと、第1の元の動物顔サンプル画像における動物顔のキーポイントとの間の第1の対応関係に基づいて、第1の元の人間顔サンプル画像に対して人間顔の位置調整を行うことで得られる。
第2の人間顔サンプル画像は、第2の元の人間顔サンプル画像における人間顔のキーポイントと、第1の元の動物顔サンプル画像における動物顔のキーポイントとの間の第2の対応関係に基づいて、第2の元の人間顔サンプル画像に対して人間顔の位置調整を行うことで得られる。
第1の動物顔サンプル画像は、第1の対応関係または第2の対応関係に基づいて、第1の元の動物顔サンプル画像に対して動物顔の位置調整を行うことで得られる。
オプションとして、動物顔スタイル画像生成モジュールは、第1の人間顔サンプル画像と第2の動物顔スタイルサンプル画像とに基づいてトレーニングされ、第2の動物顔スタイルサンプル画像は、第1の動物顔スタイルサンプル画像における背景領域を、第1の人間顔サンプル画像における背景領域に置き換えることで得られる。
オプションとして、第2の動物顔スタイルサンプル画像は、第2の動物顔マスク画像に基づいて、第1の動物顔スタイルサンプル画像と第1の人間顔サンプル画像とを融合することで得られる。
第2の動物顔マスク画像は、事前トレーニングされた動物顔分割モデルによって、第1の動物顔スタイルサンプル画像に基づいて得られ、第2の動物顔マスク画像は、第1の動物顔スタイルサンプル画像における動物顔領域を、第2の動物顔スタイルサンプル画像における動物顔領域として決定するために使用される。
本開示の実施例による動物顔スタイル画像の生成装置は、本開示の実施形態によるいずれかの動物顔スタイル画像の生成方法を実行することができ、方法に対応する機能モジュール及び有益な効果を備える。本開示の装置実施例において詳細に説明されていない内容について、本開示のいずれかの方法実施例における説明を参照することができる。
図5は本開示の一実施形態による動物顔スタイル画像生成モデルのトレーニング装置の構造概略図であり、人間顔を動物顔に変換する機能を備えた動物顔スタイル画像生成モデルをトレーニングする方法に適用される。この動物顔スタイル画像生成モデルのトレーニング装置はソフトウェア及び/またはハードウェアによって実現され、サーバ上に統合され得る。
図5に示すように、本開示の実施形態による動物顔スタイル画像生成モデルのトレーニング装置500は、
第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいて画像生成モデルをトレーニングして、動物顔生成モデルを得るための動物顔生成モデルトレーニングモジュール501と、
動物顔生成モデルによって、第1の人間顔サンプル画像に対応する第1の動物顔スタイルサンプル画像を得るモジュールであって、第1の動物顔スタイルサンプル画像とは、第1の人間顔サンプル画像における人間顔を動物顔に変換した画像であるスタイルサンプル画像生成モジュール502と、
第1の人間顔サンプル画像と第1の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るためのスタイル画像生成モデルトレーニングモジュール503と、
を含み、
動物顔スタイル画像生成モデルは、元の人間顔画像に対応する動物顔スタイル画像を得るために使用され、動物顔スタイル画像とは、元の人間顔画像における人間顔を動物顔に変換した画像である。
オプションとして、本開示の実施形態による装置500は、
第2の元の人間顔サンプル画像における人間顔のキーポイントと第1の元の動物顔サンプル画像における動物顔のキーポイントとの間の第2の対応関係を決定するための第2の対応関係決定モジュールと、
第2の対応関係に基づいて、第2の元の人間顔サンプル画像に対して人間顔の位置調整を行うことによって、第2の人間顔サンプル画像を得るための人間顔位置調整モジュールと、
第2の対応関係に基づいて、第1の元の動物顔サンプル画像に対して動物顔の位置調整を行うことによって、第1の動物顔サンプル画像を得るための動物顔位置調整モジュールと、
第1の元の人間顔サンプル画像における人間顔のキーポイントと第1の元の動物顔サンプル画像における動物顔のキーポイントとの間の第1の対応関係を決定するための第1の対応関係決定モジュールと、
第1の対応関係に基づいて、第1の元の人間顔サンプル画像に対して動物顔の位置調整を行うことによって、第1の人間顔サンプル画像を得るための人間顔位置調整モジュールと、
を含む。
オプションとして、本開示の実施形態による装置500は、
第1の動物顔スタイルサンプル画像における背景領域を第1の人間顔サンプル画像における背景領域に置き換えることによって、第2の動物顔スタイルサンプル画像を得るための背景領域置換モジュールをさらに含む。
オプションとして、スタイル画像生成モデルトレーニングモジュール503は、具体的に、第1の人間顔サンプル画像と第2の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るものである。
オプションとして、背景領域置換モジュールは、
事前トレーニングされた動物顔分割モデルに基づいて、第1の動物顔スタイルサンプル画像に対応する動物顔マスク画像を得るための動物顔マスク画像決定ユニットと、
動物顔マスク画像に基づいて、第1の動物顔スタイルサンプル画像と第1の人間顔サンプル画像とを融合して、第2の動物顔スタイルサンプル画像を得るユニットであって、動物顔マスク画像は、第1の動物顔スタイルサンプル画像における動物顔領域を、第2の動物顔スタイルサンプル画像における動物顔領域として決定するために使用される画像融合ユニットと、
を含む。
オプションとして、本開示の実施形態による装置500は、
第2の動物顔サンプル画像及び第2の動物顔サンプル画像における動物顔領域の位置ラベリング結果を取得するためのサンプル画像及びラベリング結果取得モジュールと、
第2の動物顔サンプル画像と動物顔領域の位置ラベリング結果に基づいて、トレーニングすることによって動物顔分割モデルを得るための動物顔分割モデルトレーニングモジュールと、
をさらに含む。
本開示の実施例による動物顔スタイル画像生成モデルのトレーニング装置は、本開示の実施形態によるいずれかの動物顔スタイル画像生成モデルのトレーニング方法を実行することができ、方法に対応する機能モジュール及び有益な効果を具備する。本開示の装置実施例において詳細に説明されていない内容について、本開示のいずれかの方法実施例における説明を参照することができる。
図6は本開示の一実施形態による電子機器の構造概略図であり、本開示の実施形態による動物顔スタイル画像生成方法または動物顔スタイル画像生成モデルのトレーニング方法を実現する電子機器について例示的に説明する。本開示の実施形態による電子機器は、例えば、携帯電話、ノート型パーソナルコンピュータ、デジタル放送受信機、PDA(パーソナルデジタルアシスタント)、PAD(タブレット型コンピュータ)、PMP(携帯型マルチメディアプレーヤ)、車載端末(カーナビゲーション端末など)などの携帯端末や、デジタルTV、デスクトップ型コンピュータ、サーバなどの固定端末を含むが、これらに限定されない。図6に示した電子機器は一例に過ぎず、本開示の実施形態の機能及び占有範囲を何ら制限するものではない。
図6に示すように、電子機器600は、1つまたは複数のプロセッサ601及びメモリ602を含む。
プロセッサ601は、中央処理ユニット(CPU)またはデータ処理能力及び/または命令実行能力を有する他の形態の処理ユニットであってもよく、電子機器600内の他の構成要素を制御して所望の機能を実行してもよい。
メモリ602は、揮発性メモリ及び/または不揮発性メモリなどの様々な形態のコンピュータ可読記憶媒体を含む1つまたは複数のコンピュータプログラム製品を含むことができる。揮発性メモリは、例えば、ランダムアクセスメモリ(RAM)及び/またはキャッシュメモリ(cache)を含み得る。不揮発性メモリは、例えば、読み取り専用メモリ(ROM)、ハードディスク、フラッシュメモリなどを含むことができる。コンピュータ可読記憶媒体には、1つまたは複数のコンピュータプログラム命令を記憶することができ、プロセッサ601はプログラム命令を実行して、本開示の実施形態による動物顔スタイル画像の生成方法または動物顔スタイル画像生成モデルのトレーニング方法を実現し、さらに他の所望の機能を実現することができる。コンピュータ可読記憶媒体には、入力信号、信号成分、ノイズ成分などの様々なコンテンツも記憶され得る。
動物顔スタイル画像の生成方法は、元の人間顔画像を取得するステップと、事前トレーニングされた動物顔スタイル画像生成モデルを利用して、元の人間顔画像に対応する動物顔スタイル画像を得るステップとを含む。動物顔スタイル画像とは、元の人間顔画像における人間顔を動物顔に変換した画像であり、動物顔スタイル画像生成モデルは、第1の人間顔サンプル画像と第1の動物顔スタイルサンプル画像とに基づいてトレーニングされ、第1の動物顔スタイルサンプル画像は、事前トレーニングされた動物顔生成モデルによって第1の人間顔サンプル画像に基づいて生成され、動物顔生成モデルは、第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいてトレーニングされる。
動物顔スタイル画像生成モデルのトレーニング方法は、第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいて画像生成モデルをトレーニングして、動物顔生成モデルを得るステップと、動物顔生成モデルによって、第1の人間顔サンプル画像に対応する第1の動物顔スタイルサンプル画像を得るステップであって、第1の動物顔スタイルサンプル画像とは、第1の人間顔サンプル画像における人間顔を動物顔に変換した画像であるステップと、第1の人間顔サンプル画像と第1の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るステップとを含む。動物顔スタイル画像生成モデルは、元の人間顔画像に対応する動物顔スタイル画像を得るために使用され、動物顔スタイル画像とは、元の人間顔画像における人間顔を動物顔に変換した画像である。
なお、電子機器600は、さらに本開示の方法実施例による他の選択可能な実施形態を実行することもできることは理解されるべきであろう。
一例では、電子機器600は入力装置603及び出力装置604をさらに含み得る。これらの構成要素は、バスシステム及び/または他の形態の接続機構(図示せず)を介して相互接続されている。
さらに、この入力装置603は、例えばキーボードやマウスなどを含んでもよい。
この出力装置604は、求めた距離情報や、方向情報などの各種情報を外部に出力することができる。この出力装置604は、ディスプレイ、スピーカー、プリンタ、及び通信ネットワーク及びそれに接続されたリモート出力装置などを含み得る。
もちろん、簡素化の便宜上、図6にはこの電子機器600内の本開示に関連する構成要素の一部のみが示されており、バスや入出力インターフェースなどの構成要素が省略されている。加えて、電子機器600は、具体的な適用条件に応じて、任意の他の適切な構成要素を含み得る。
上述の方法及び機器に加えて、本開示の実施形態は、プロセッサによって実行されると、本開示の実施形態による動物顔スタイル画像の生成方法または動物顔スタイル画像生成モデルのトレーニング方法をプロセッサに実行させるためのコンピュータプログラム命令を含むコンピュータプログラム製品であってもよい。
コンピュータプログラム製品は、本開示の実施形態の動作を実行するためのプログラムコードを、1つまたは複数のプログラミング言語の任意の組み合わせで書くことができる。プログラミング言語には、Java(登録商標)、C++などのオブジェクト指向プログラミング言語と、「C」言語または類似のプログラミング言語などの従来の手続き型プログラミング言語が含まれる。プログラムコードは、完全にユーザのコンピューティングデバイス上で実行され、部分的にユーザのデバイス上で実行され、スタンドアロンソフトウェアパッケージとして実行され、部分的にユーザのコンピューティングデバイス上で、部分的にリモートコンピューティングデバイス上で実行され、または完全にリモートコンピューティングデバイスまたはサーバ上で実行される。
なお、本開示の実施形態は、プロセッサによって実行されると、本開示の実施形態による動物顔スタイル画像の生成方法または動物顔スタイル画像生成モデルのトレーニング方法をプロセッサに実行させるためのコンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体を提供してもよい。
動物顔スタイル画像の生成方法は、元の人間顔画像を取得するステップと、事前トレーニングされた動物顔スタイル画像生成モデルを利用して、元の人間顔画像に対応する動物顔スタイル画像を得るステップとを含む。動物顔スタイル画像とは、元の人間顔画像における人間顔を動物顔に変換した画像であり、動物顔スタイル画像生成モデルは、第1の人間顔サンプル画像と第1の動物顔スタイルサンプル画像とに基づいてトレーニングされ、第1の動物顔スタイルサンプル画像は、事前トレーニングされた動物顔生成モデルによって第1の人間顔サンプル画像に基づいて生成され、動物顔生成モデルは、第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいてトレーニングされる。
動物顔スタイル画像生成モデルのトレーニング方法は、第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいて画像生成モデルをトレーニングして、動物顔生成モデルを得るステップと、動物顔生成モデルによって、第1の人間顔サンプル画像に対応する第1の動物顔スタイルサンプル画像を得るステップであって、第1の動物顔スタイルサンプル画像とは、第1の人間顔サンプル画像における人間顔を動物顔に変換した画像であるステップと、第1の人間顔サンプル画像と第1の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングすることによって、動物顔スタイル画像生成モデルを得るステップとを含む。動物顔スタイル画像生成モデルは、元の人間顔画像に対応する動物顔スタイル画像を得るために使用され、動物顔スタイル画像とは、元の人間顔画像における人間顔を動物顔に変換した画像である。
なお、コンピュータプログラム命令がプロセッサによって実行されると、本開示の方法実施例による他の選択可能な実施形態をプロセッサに実行させることもできることは理解されるべきであろう。
コンピュータ可読記憶媒体は、1つまたは複数の可読媒体の任意の組み合わせを使用することができる。可読媒体は、可読信号媒体または可読記憶媒体であり得る。可読記憶媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置やデバイス、またはそれらの任意の組み合わせを含むことができるが、これらに限定されない。可読記憶媒体のより具体的な例(非網羅的なリスト)には、1つまたは複数の導体を有する電気的接続、ポータブルディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、または前述の任意の適切な組み合わせが含まれる。
なお、本明細書では、「第1」や「第2」などの関係用語は、1つのエンティティまたは操作を別のエンティティまたは操作と区別するためにのみ使用され、必ずしもこれらのエンティティまたは操作間に如何なる実際の関係または順序が存在していることを要求または暗示するものではない。さらに、「含む」や「包含」またはその任意の他の変形は、非排他的な包含をカバーすることを意図するため、一連の要素を含むプロセスや方法、物品または装置はそれらの要素を含むだけでなく、明示されない他の要素をも含み、またはそのようなプロセス、方法、物品または装置に固有の他の要素をも含む。また、これ以上の制限がない場合に、「1つの…を含む」という文によって限定される要素は、その要素を含むプロセス、方法、物品または装置に別の同じ要素が存在することを排除するものではない。
上記は、本開示の具体的な実施形態に過ぎず、当業者が本開示を理解または実施できるようにする。これらの実施形態に対する様々な補正は、当業者にとって容易かつ明らかであろう。本明細書で定義される一般原理は、本開示の精神または範囲から逸脱することなく、他の実施形態でも実施されることができる。従って、本開示は、本明細書に示す実施形態に限定されるものではなく、本明細書で開示される原理及び新規な特徴と一致する最も広い範囲に適合するものである。

Claims (17)

  1. 電子機器が実行する動物顔スタイル画像の生成方法であって、
    元の人間顔画像を取得するステップと、
    事前トレーニングされた動物顔スタイル画像生成モデルを利用して、前記元の人間顔画像に対応する動物顔スタイル画像を得るステップと、
    を含み、
    前記動物顔スタイル画像とは、前記元の人間顔画像における人間顔を動物顔に変換した画像であり、前記動物顔スタイル画像生成モデルは、第1の人間顔サンプル画像と第1の動物顔スタイルサンプル画像とに基づいてトレーニングされ、前記第1の動物顔スタイルサンプル画像は、事前トレーニングされた動物顔生成モデルによって、前記第1の人間顔サンプル画像に基づいて生成され、前記動物顔生成モデルは、第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいてトレーニングされる、ことを特徴とする方法。
  2. ユーザによって選択された動物系特殊効果の種類に従って、前記動物系特殊効果の種類に対応する動物顔のキーポイントと人間顔のキーポイントとの間の対応関係を決定するステップと、
    前記動物系特殊効果の種類に対応する動物顔のキーポイントと人間顔のキーポイントとの間の対応関係に基づいて、ユーザ画像に対して人間顔の位置調整を行うことによって、元の人間顔画像を得るステップであって、前記元の人間顔画像は、前記動物顔スタイル画像生成モデルの入力要件を満たすステップと、
    さらに含む、ことを特徴とする、請求項1に記載の方法。
  3. 前記動物顔スタイル画像における動物顔領域と、前記ユーザ画像における背景領域とを融合して、前記ユーザ画像に対応するターゲット動物顔スタイル画像を得るステップをさらに含む、ことを特徴とする、請求項2に記載の方法。
  4. 前記動物顔スタイル画像における動物顔領域と、前記ユーザ画像における背景領域とを融合して、前記ユーザ画像に対応するターゲット動物顔スタイル画像を得るステップは、
    前記動物顔スタイル画像に基づいて、前記ユーザ画像と同じ画像サイズを有する中間結果画像を得るステップであって、前記中間結果画像における動物顔領域の位置が、前記ユーザ画像における人間顔領域の位置と同じであるステップと、
    前記動物系特殊効果の種類に対応する第1の動物顔マスク画像を決定するステップと、
    前記第1の動物顔マスク画像に基づいて、前記ユーザ画像と前記中間結果画像とを融合して、前記ユーザ画像に対応するターゲット動物顔スタイル画像を得るステップであって、前記第1の動物顔マスク画像が、前記中間結果画像における動物顔領域を、前記ターゲット動物顔スタイル画像における動物顔領域として決定するために使用されるステップと、を含む、ことを特徴とする、請求項3に記載の方法。
  5. 前記第1の人間顔サンプル画像は、第1の元の人間顔サンプル画像における人間顔のキーポイントと、第1の元の動物顔サンプル画像における動物顔のキーポイントとの間の第1の対応関係に基づいて、前記第1の元の人間顔サンプル画像に対して人間顔の位置調整を行うことで得られ、
    前記第2の人間顔サンプル画像は、第2の元の人間顔サンプル画像における人間顔のキーポイントと、前記第1の元の動物顔サンプル画像における動物顔のキーポイントとの間の第2の対応関係に基づいて、前記第2の元の人間顔サンプル画像に対して人間顔の位置調整を行うことで得られ、
    前記第1の動物顔サンプル画像は、前記第1の対応関係または前記第2の対応関係に基づいて、前記第1の元の動物顔サンプル画像に対して動物顔の位置調整を行うことで得られる、ことを特徴とする、請求項1に記載の方法。
  6. 前記動物顔スタイル画像生成モデルは、前記第1の人間顔サンプル画像と第2の動物顔スタイルサンプル画像とに基づいてトレーニングされ、
    前記第2の動物顔スタイルサンプル画像は、前記第1の動物顔スタイルサンプル画像における背景領域を、前記第1の人間顔サンプル画像における背景領域に置き換えることで得られる、ことを特徴とする、請求項1に記載の方法。
  7. 前記第2の動物顔スタイルサンプル画像は、第2の動物顔マスク画像に基づいて、前記第1の動物顔スタイルサンプル画像と前記第1の人間顔サンプル画像とを融合することで得られ、
    前記第2の動物顔マスク画像は、事前トレーニングされた動物顔分割モデルによって、前記第1の動物顔スタイルサンプル画像に基づいて得られ、
    前記第2の動物顔マスク画像は、前記第1の動物顔スタイルサンプル画像における動物顔領域を、前記第2の動物顔スタイルサンプル画像における動物顔領域として決定するために使用される、ことを特徴とする、請求項6に記載の方法。
  8. 動物顔スタイル画像生成モデルのトレーニング方法であって、
    第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいて画像生成モデルをトレーニングして、動物顔生成モデルを得るステップと、
    前記動物顔生成モデルによって、第1の人間顔サンプル画像に対応する第1の動物顔スタイルサンプル画像を得るステップであって、前記第1の動物顔スタイルサンプル画像とは、前記第1の人間顔サンプル画像における人間顔を動物顔に変換した画像であるステップと、
    前記第1の人間顔サンプル画像と前記第1の動物顔サンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るステップと、
    を含み、
    前記動物顔スタイル画像生成モデルは、元の人間顔画像に対応する動物顔スタイル画像を得るために使用され、前記動物顔スタイル画像とは、前記元の人間顔画像における人間顔を動物顔に変換した画像である、ことを特徴とする方法。
  9. 第2の元の人間顔サンプル画像における人間顔のキーポイントと第1の元の動物顔サンプル画像における動物顔のキーポイントとの間の第2の対応関係を決定するステップと、
    前記第2の対応関係に基づいて、前記第2の元の人間顔サンプル画像に対して人間顔の位置調整を行うことによって、前記第2の人間顔サンプル画像を得るとともに、前記第2の対応関係に基づいて、前記第1の元の動物顔サンプル画像に対して動物顔の位置調整を行うことによって、前記第1の動物顔サンプル画像を得るステップと、
    をさらに含む、ことを特徴とする、請求項8に記載の方法。
  10. 第1の元の人間顔サンプル画像における人間顔のキーポイントと前記第1の元の動物顔サンプル画像における動物顔のキーポイントとの間の第1の対応関係を決定するステップと、
    前記第1の対応関係に基づいて、前記第1の元の人間顔サンプル画像に対して動物顔の位置調整を行うことによって、前記第1の人間顔サンプル画像を得るステップと、
    をさらに含む、ことを特徴とする、請求項9に記載の方法。
  11. 前記第1の動物顔スタイルサンプル画像における背景領域を、前記第1の人間顔サンプル画像における背景領域に置き換えることによって、第2の動物顔スタイルサンプル画像を得るステップをさらに含み、
    前記第1の人間顔サンプル画像と前記第1の動物顔サンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得る前記ステップは、
    前記第1の人間顔サンプル画像と前記第2の動物顔スタイルサンプル画像とに基づいて、前記スタイル画像生成モデルをトレーニングして、前記動物顔スタイル画像生成モデルを得るステップを含む、ことを特徴とする、請求項8に記載の方法。
  12. 前記第1の動物顔スタイルサンプル画像における背景領域を、前記第1の人間顔サンプル画像における背景領域に置き換えることによって、第2の動物顔スタイルサンプル画像を得る前記ステップは、
    事前トレーニングされた動物顔分割モデルに基づいて、前記第1の動物顔スタイルサンプル画像に対応する動物顔マスク画像を得るステップと、
    前記動物顔マスク画像に基づいて、前記第1の動物顔スタイルサンプル画像と前記第1の人間顔サンプル画像とを融合して、前記第2の動物顔スタイルサンプル画像を得るステップであって、前記動物顔マスク画像は、前記第1の動物顔スタイルサンプル画像における動物顔領域を、前記第2の動物顔スタイルサンプル画像における動物顔領域として決定するために使用されるステップと、
    を含む、ことを特徴とする、請求項11に記載の方法。
  13. 第2の動物顔サンプル画像及び前記第2の動物顔サンプル画像における動物顔領域の位置ラベリング結果を取得するステップと、
    前記第2の動物顔サンプル画像と前記動物顔領域の位置ラベリング結果とに基づいてトレーニングして、前記動物顔分割モデルを得るステップと、
    をさらに含む、ことを特徴とする、請求項12に記載の方法。
  14. 動物顔スタイル画像の生成装置であって、
    元の人間顔画像を取得するための元人間顔画像取得モジュールと、
    事前トレーニングされた動物顔スタイル画像生成モデルを利用して、前記元の人間顔画像に対応する動物顔スタイル画像を得るためのスタイル画像生成モジュールと、
    を含み、
    前記動物顔スタイル画像とは、前記元の人間顔画像における人間顔を動物顔に変換した画像であり、前記動物顔スタイル画像生成モデルは、第1の人間顔サンプル画像と第1の動物顔スタイルサンプル画像とに基づいてトレーニングされ、前記第1の動物顔スタイルサンプル画像は、事前トレーニングされた動物顔生成モデルによって前記第1の人間顔サンプル画像に基づいて生成され、前記動物顔生成モデルは、第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいてトレーニングされる、ことを特徴とする、動物顔スタイル画像の生成装置。
  15. 動物顔スタイル画像生成モデルのトレーニング装置であって、
    第2の人間顔サンプル画像と第1の動物顔サンプル画像とに基づいて画像生成モデルをトレーニングして、動物顔生成モデルを得るための動物顔生成モデルトレーニングモジュールと、
    前記動物顔生成モデルによって、第1の人間顔サンプル画像に対応する第1の動物顔スタイルサンプル画像を得るためのスタイルサンプル画像生成モジュールであって、前記第1の動物顔スタイルサンプル画像とは、前記第1の人間顔サンプル画像における人間顔を動物顔に変換した画像であるスタイルサンプル画像生成モジュールと、
    前記第1の人間顔サンプル画像と前記第1の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るためのスタイル画像生成モデルトレーニングモジュールと、
    を含み、
    前記動物顔スタイル画像生成モデルは、元の人間顔画像に対応する動物顔スタイル画像を得るために使用され、前記動物顔スタイル画像とは、前記元の人間顔画像における人間顔を動物顔に変換した画像である、ことを特徴とする、動物顔スタイル画像生成モデルのトレーニング装置。
  16. メモリとプロセッサを含む電子機器であって、
    前記メモリには、コンピュータプログラムが記憶されており、前記コンピュータプログラムが前記プロセッサによって実行されると、前記プロセッサに、請求項1から7のいずれか1項に記載の動物顔スタイル画像の生成方法を実行させるか、または、請求項8から13のいずれか1項に記載の動物顔スタイル画像生成モデルのトレーニング方法を実行させる、ことを特徴とする、電子機器。
  17. コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
    前記コンピュータプログラムがプロセッサによって実行されると、前記プロセッサに、請求項1から7のいずれか1項に記載の動物顔スタイル画像の生成方法を実行させるか、または、請求項8から13のいずれか1項に記載の動物顔スタイル画像生成モデルのトレーニング方法を実行させる、ことを特徴とする、コンピュータ可読記憶媒体。
JP2023528414A 2020-11-13 2021-11-12 動物顔スタイル画像の生成方法、モデルのトレーニング方法、装置及び機器 Pending JP2023549810A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011269334.0 2020-11-13
CN202011269334.0A CN112330534A (zh) 2020-11-13 2020-11-13 动物脸风格图像生成方法、模型训练方法、装置和设备
PCT/CN2021/130301 WO2022100690A1 (zh) 2020-11-13 2021-11-12 动物脸风格图像生成方法、模型训练方法、装置和设备

Publications (1)

Publication Number Publication Date
JP2023549810A true JP2023549810A (ja) 2023-11-29

Family

ID=74318655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023528414A Pending JP2023549810A (ja) 2020-11-13 2021-11-12 動物顔スタイル画像の生成方法、モデルのトレーニング方法、装置及び機器

Country Status (5)

Country Link
US (1) US20240005466A1 (ja)
EP (1) EP4246425A4 (ja)
JP (1) JP2023549810A (ja)
CN (1) CN112330534A (ja)
WO (1) WO2022100690A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112330534A (zh) * 2020-11-13 2021-02-05 北京字跳网络技术有限公司 动物脸风格图像生成方法、模型训练方法、装置和设备
CN113673422A (zh) * 2021-08-19 2021-11-19 苏州中科先进技术研究院有限公司 一种宠物种类识别方法及识别系统
CN113850890A (zh) * 2021-09-29 2021-12-28 北京字跳网络技术有限公司 动物形象的生成方法、装置、设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846793B (zh) * 2018-05-25 2022-04-22 深圳市商汤科技有限公司 基于图像风格转换模型的图像处理方法和终端设备
US10489683B1 (en) * 2018-12-17 2019-11-26 Bodygram, Inc. Methods and systems for automatic generation of massive training data sets from 3D models for training deep learning networks
CN109816589B (zh) * 2019-01-30 2020-07-17 北京字节跳动网络技术有限公司 用于生成漫画风格转换模型的方法和装置
CN109800732B (zh) * 2019-01-30 2021-01-15 北京字节跳动网络技术有限公司 用于生成漫画头像生成模型的方法和装置
CN110930297B (zh) * 2019-11-20 2023-08-18 咪咕动漫有限公司 人脸图像的风格迁移方法、装置、电子设备及存储介质
CN111340865B (zh) * 2020-02-24 2023-04-07 北京百度网讯科技有限公司 用于生成图像的方法和装置
CN111783647B (zh) * 2020-06-30 2023-11-03 北京百度网讯科技有限公司 人脸融合模型的训练方法、人脸融合方法、装置及设备
CN111833242A (zh) * 2020-07-17 2020-10-27 北京字节跳动网络技术有限公司 人脸变换方法、装置、电子设备和计算机可读介质
CN111968029A (zh) * 2020-08-19 2020-11-20 北京字节跳动网络技术有限公司 表情变换方法、装置、电子设备和计算机可读介质
CN112989904B (zh) * 2020-09-30 2022-03-25 北京字节跳动网络技术有限公司 风格图像生成方法、模型训练方法、装置、设备和介质
CN112330534A (zh) * 2020-11-13 2021-02-05 北京字跳网络技术有限公司 动物脸风格图像生成方法、模型训练方法、装置和设备

Also Published As

Publication number Publication date
EP4246425A1 (en) 2023-09-20
EP4246425A4 (en) 2024-06-05
CN112330534A (zh) 2021-02-05
WO2022100690A1 (zh) 2022-05-19
US20240005466A1 (en) 2024-01-04

Similar Documents

Publication Publication Date Title
WO2021082760A1 (zh) 虚拟形象的生成方法、装置、终端及存储介质
CN109168026B (zh) 即时视频显示方法、装置、终端设备及存储介质
JP2023549810A (ja) 動物顔スタイル画像の生成方法、モデルのトレーニング方法、装置及び機器
CN105981368B (zh) 在成像装置中的照片构图和位置引导
WO2022100680A1 (zh) 混血人脸图像生成方法、模型训练方法、装置和设备
KR20210040882A (ko) 동영상을 생성하기 위한 방법 및 장치
CN110070496B (zh) 图像特效的生成方法、装置和硬件装置
WO2022166897A1 (zh) 脸型调整图像生成方法、模型训练方法、装置和设备
JP7209851B2 (ja) 画像変形の制御方法、装置およびハードウェア装置
WO2019227429A1 (zh) 多媒体内容生成方法、装置和设备/终端/服务器
CN105430269B (zh) 一种应用于移动终端的拍照方法及装置
WO2021190625A1 (zh) 拍摄方法和设备
US20240119082A1 (en) Method, apparatus, device, readable storage medium and product for media content processing
US11487955B2 (en) Method and system for providing translation for conference assistance
WO2022237633A1 (zh) 一种图像处理方法、装置、设备及介质
CN111488759A (zh) 动物脸部的图像处理方法和装置
CN112785669B (zh) 一种虚拟形象合成方法、装置、设备及存储介质
US20230215296A1 (en) Method, computing device, and non-transitory computer-readable recording medium to translate audio of video into sign language through avatar
CN112381709B (zh) 图像处理方法、模型训练方法、装置、设备和介质
CN110290517B (zh) 数字媒体无线wifi通信点读系统及方法
JP7113000B2 (ja) 映像を生成するための方法および装置
CN114125297A (zh) 视频拍摄方法、装置、电子设备及存储介质
CN113256765A (zh) Ai主播视频的生成方法、装置、电子设备及存储介质
CN116152447B (zh) 一种人脸建模方法、装置、电子设备及存储介质
US20240176566A1 (en) Processing method and apparatus thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240423