JP2023549810A

JP2023549810A - 動物顔スタイル画像の生成方法、モデルのトレーニング方法、装置及び機器

Info

Publication number: JP2023549810A
Application number: JP2023528414A
Authority: JP
Inventors: ホー，チェン
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2020-11-13
Filing date: 2021-11-12
Publication date: 2023-11-29
Also published as: EP4246425A1; EP4246425A4; CN112330534A; WO2022100690A1; US20240005466A1

Abstract

動物顔スタイル画像の生成方法、モデルのトレーニング方法、装置及び機器であって、当該生成方法は、元の人間顔画像を取得するステップ（Ｓ１０１）と、事前トレーニングされた動物顔スタイル画像生成モデルを利用して、元の人間顔画像に対応する動物顔スタイル画像を得るステップ（Ｓ１０２）とを含み、動物顔スタイル画像とは、元の人間顔画像における人間顔を動物顔に変換した画像であり、動物顔スタイル画像生成モデルは、第１の人間顔サンプル画像と第１の動物顔スタイルサンプル画像とに基づいてトレーニングされ、第１の動物顔スタイルサンプル画像は、事前トレーニングされた動物顔生成モデルによって第１の人間顔サンプル画像に基づいて生成され、動物顔生成モデルは、第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいてトレーニングされる。上記方法によれば、端末における画像編集機能を豊富にし、ビデオインタラクティブアプリケーションの面白さを向上させ、ユーザに特殊効果プレイを提供することができる。

Description

本出願は、２０２０年１１月１３日に中国国家知識産権局に提出された、出願番号が第２０２０１１２６９３３４．０号であって、発明の名称が「動物顔スタイル画像の生成方法、モデルのトレーニング方法、装置及び機器」である中国特許出願に基づく優先権を主張し、その内容全体が援用により本明細書に組み込まれる。

本開示は、画像処理の技術分野に関し、特に動物顔スタイル画像の生成方法、モデルトレーニング方法、装置及び機器に関する。

画像処理技術の発展に伴い、ビデオインタラクティブアプリケーションの機能は徐々に豊富になり、画像の変換は新しい面白さの遊び方になってきた。画像スタイルの変換とは、１枚または複数枚の画像を１つのスタイルから別のスタイルに変換することである。しかし、現在のビデオインタラクティブアプリケーションでサポートされているスタイル変換の種類はまだ限られ、面白さに欠けているため、ユーザの使用エクスペリエンスが悪く、パーソナライズされた画像スタイルの変換に対するユーザのニーズを満たすことができない場合がある。

上記の技術的課題を解決するため、または少なくとも部分的に上記の技術的課題を解決するために、本開示の実施形態は、動物顔スタイル画像の生成方法、モデルのトレーニング方法、装置及び機器を提供する。

第１の側面において、本開示の実施形態は、
元の人間顔画像を取得するステップと、
事前トレーニングされた動物顔スタイル画像生成モデルを利用して、前記元の人間顔画像に対応する動物顔スタイル画像を得るステップと、
を含み、
前記動物顔スタイル画像とは、前記元の人間顔画像における人間顔を動物顔に変換した画像であり、前記動物顔スタイル画像生成モデルは、第１の人間顔サンプル画像と第１の動物顔スタイルサンプル画像とに基づいてトレーニングされ、前記第１の動物顔スタイルサンプル画像は、事前トレーニングされた動物顔生成モデルによって前記第１の人間顔サンプル画像に基づいて生成され、前記動物顔生成モデルは、第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいてトレーニングされる、
動物顔スタイル画像の生成方法を提供する。

第２の側面において、本開示の実施形態は、
第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいて画像生成モデルをトレーニングして、動物顔生成モデルを得るステップと、
前記動物顔生成モデルによって、第１の人間顔サンプル画像に対応する第１の動物顔スタイルサンプル画像を得るステップであって、前記第１の動物顔スタイルサンプル画像とは、前記第１の人間顔サンプル画像における人間顔を動物顔に変換した画像であるステップと、
前記第１の人間顔サンプル画像と前記第１の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るステップと、
を含み、
前記動物顔スタイル画像生成モデルは、元の人間顔画像に対応する動物顔スタイル画像を得るために使用され、前記動物顔スタイル画像とは、前記元の人間顔画像における人間顔を動物顔に変換した画像である、
動物顔スタイル画像生成モデルのトレーニング方法をさらに提供する。

第３の側面において、本開示の実施形態は、
元の人間顔画像を取得するための元人間顔画像取得モジュールと、
事前トレーニングされた動物顔スタイル画像生成モデルを利用して、前記元の人間顔画像に対応する動物顔スタイル画像を得るためのスタイル画像生成モジュールと、
を含み、
前記動物顔スタイル画像とは、前記元の人間顔画像における人間顔を動物顔に変換した画像であり、前記動物顔スタイル画像生成モデルは、第１の人間顔サンプル画像と第１の動物顔スタイルサンプル画像とに基づいてトレーニングされ、前記第１の動物顔スタイルサンプル画像は、事前トレーニングされた動物顔生成モデルによって前記第１の人間顔サンプル画像に基づいて生成され、前記動物顔生成モデルは、第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいてトレーニングされる、
動物顔スタイル画像の生成装置をさらに提供する。

第４の側面において、本開示の実施形態は、
第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいて画像生成モデルをトレーニングして、動物顔生成モデルを得るための動物顔生成モデルトレーニングモジュールと、
前記動物顔生成モデルによって、第１の人間顔サンプル画像に対応する第１の動物顔スタイルサンプル画像を得るためのモジュールであって、前記第１の動物顔スタイルサンプル画像とは、前記第１の人間顔サンプル画像における人間顔を動物顔に変換した画像であるスタイルサンプル画像生成モジュールと、
前記第１の人間顔サンプル画像と前記第１の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るためのスタイル画像生成モデルトレーニングモジュールと、
を含み、
前記動物顔スタイル画像生成モデルは、元の人間顔画像に対応する動物顔スタイル画像を得るために使用され、前記動物顔スタイル画像とは、前記元の人間顔画像における人間顔を動物顔に変換した画像である、
動物顔スタイル画像生成モデルのトレーニング装置をさらに提供する。

第５の側面において、本開示の実施形態は、メモリと、プロセッサとを含む電子機器をさらに提供し、前記メモリにはコンピュータプログラムが記憶されており、前記コンピュータプログラムが前記プロセッサによって実行されると、前記プロセッサに、本開示の実施形態による動物顔スタイル画像の生成方法または動物顔スタイル画像生成モデルのトレーニング方法のいずれかを実行させる。

第６の側面において、本開示の実施形態は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体をさらに提供し、前記コンピュータプログラムがプロセッサによって実行されると、前記プロセッサに、本開示の実施形態による動物顔スタイル画像の生成方法または動物顔スタイル画像生成モデルのトレーニング方法のいずれかを実行させる。

従来の技術と比較して、本開示の実施形態による技術案は、少なくとも以下の利点を有する。

本開示の実施形態では、サーバで事前トレーニングされた動物顔スタイル画像生成モデルを端末に配信し端末に呼び出させ、元の人間顔画像に対応する動物顔スタイル画像を生成することができるため、端末における画像編集機能を豊富にすることができる。ビデオインタラクティブアプリケーションを例にとると、この動物顔スタイル画像生成モデルを呼び出して、元の人間顔画像に対応する動物顔スタイル画像を得ることで、アプリケーションの画像編集機能を豊富にするだけでなく、このビデオインタラクティブアプリケーションの面白さを向上させ、ユーザにより新しい特殊効果プレイを提供することができ、ユーザの使用エクスペリエンスを向上させる。また、この動物顔スタイル画像生成モデルを使用することによって、異なるユーザの元の顔画像ごとに、ユーザの元の顔画像に適した動物顔スタイル画像を動的に生成することができ、動物顔スタイル画像を生成する知能化を高め、よりリアルな動物顔スタイル画像を得るなど、より良好な画像効果を表示することができる。

ここで図面は、明細書に組み込まれ、本明細書の一部を構成し、本開示に適合する実施形態を示しており、明細書とともに本開示の原理を説明するために用いられる。

本開示の実施形態または従来技術における技術案をより明確に説明するために、以下で、実施形態または従来技術を説明するために使用される必要がある図面を簡単に説明する。明らかに、当業者であれば、進歩性に値する労働を払うことなく、これらの図面に基づいて、他の図面を取得することもできる。

本開示の一実施形態による動物顔スタイル画像の生成方法のフローチャートである；本開示の別の実施形態による動物顔スタイル画像の生成方法のフローチャートである；本開示の一実施形態による動物顔スタイル画像生成モデルのトレーニング方法のフローチャートである；本開示の一実施形態による動物顔スタイル画像の生成装置の構造概略図である；本開示の一実施形態による動物顔スタイル画像生成モデルのトレーニング装置の構造概略図である；本開示の一実施形態による電子機器の構造概略図である。

本開示の上述の目的、特徴及び利点をより明確に理解するために、以下、本開示の技術案についてさらに説明する。なお、矛盾しない限り、本開示の実施例及び実施形態における特徴は、互いに組み合わせることができる。

本開示を十分に理解しやすくするために、以下の説明において、多くの具体的な詳細が記載されているが、本開示は、本明細書に記載されているものとは異なる他の形態で実施されてもよい。明らかに、本明細書における実施形態は、本開示の一部の実施形態に過ぎず、すべての実施形態ではない。

図１は本開示の一実施形態による動物顔スタイル画像の生成方法のフローチャートである。この動物顔スタイル画像の生成方法は動物顔スタイル画像の生成装置によって実行され、この装置はソフトウェア及び／またはハードウェアによって実現され、コンピューティング能力を備えた任意の電子機器、例えばスマートフォン、タブレット、ノートパソコンなどの端末上に統合されることができる。

動物顔スタイル画像の生成装置は、独立したアプリケーションプログラムやパブリックプラットフォーム上に統合されたミニプログラムの形態で実現されてもよく、スタイル画像生成機能を備えたアプリケーションプログラムやミニプログラム上に統合された機能モジュールとしても実現されてもよい。このスタイル画像生成機能を備えたアプリケーションプログラムは、ビデオインタラクティブアプリケーションを含み得るが、これに限定されない。このミニプログラムは、ビデオインタラクティブミニプログラムを含み得るが、これに限定されない。

本開示の実施形態による動物顔スタイル画像の生成方法は、動物顔スタイル画像を得るシーンに適用されることができる。本開示の実施形態において、動物顔スタイル画像または動物顔スタイルサンプル画像はいずれも、人間顔を動物顔に変換した画像であり、例えば、人間顔を猫の顔または犬の顔などの動物顔に変換して、動物顔スタイルの画像を得る。また、人間顔を動物顔に変換した後、人間顔の表情を動物顔の表情と一致させることができ、人間顔における五官状態を動物顔における五官状態と一致させることもでき、例えば、人間顔に笑顔が現れると、対応する動物顔にも笑顔が現れ、人間顔における目が開眼状態であると、対応する動物顔における目も開眼状態であるなどが挙げられる。

図１に示すように、本開示の実施形態による動物顔スタイル画像の生成方法は、以下のステップを含むことができる。

Ｓ１０１：元の人間顔画像を取得する。

例示的に、ユーザは動物顔スタイル画像を生成する必要がある場合、端末に記憶された画像を取得したり、端末の画像撮影装置によって画像またはビデオをリアルタイムで撮影したりすることができる。動物顔スタイル画像生成装置は、端末におけるユーザの画像選択操作、画像撮影操作または画像アップロード操作に応じて、処理対象となる元の人間顔画像を取得する。

例えば、ユーザがビデオインタラクティブアプリケーションにおいて端末の画像撮影装置（カメラなど）を呼び出してリアルタイムで画像を撮影することを例にとると、このビデオインタラクティブアプリケーションが画像収集インターフェースにジャンプした後、画像収集インターフェースに撮影提示情報を表示することができる。この撮影提示情報は、画像収集インターフェースにおける人間顔画像の顔を端末画面の事前設定された位置（画面の中央位置など）に配置したり、顔から端末画面までの距離を調整したり（この距離を調整することにより、顔領域が大きすぎたり小さすぎたりしないように、画像収集インターフェースにおいて適切なサイズの顔領域を取得することができる）、顔の回転角度を調整したり（異なる回転角度は、正面や横顔などの異なる顔の向きに対応する）するようにユーザに提示するための情報のうちの少なくとも１つであり得る。ユーザは、撮影提示情報に従って画像を撮影することによって、ビデオインタラクティブアプリケーションは、動物顔スタイル画像生成モデルの入力要件を満たす元の人間顔画像を容易に得ることができる。なお、動物顔スタイル画像生成モデルの入力要件とは、入力画像における顔の位置、入力画像のサイズなど、入力画像への制限条件を意味するものであってもよい。

さらに、ビデオインタラクティブアプリケーションは、動物顔スタイル画像生成モデルの入力要件に従って、撮影テンプレートを事前に保存することもできる。この撮影テンプレートには、画像におけるユーザの顔の位置、顔領域のサイズ、顔の向き、画像サイズなどの情報が事前に定義されている。ビデオインタラクティブアプリケーションは、ユーザの撮影操作に従って、この撮影テンプレートを使用して必要な元の人間顔画像を得ることができる。

もちろん、ユーザが撮影した画像と、動物顔スタイル画像生成モデルの入力要件のうちの画像条件（画像における人間顔の位置、画像サイズなど）に差がある場合、ユーザが撮影した画像に対してトリミング、ズーム、回転などの操作処理を行うことによって、モデル入力に準拠した元の人間顔画像を得ることができる。

Ｓ１０２：事前トレーニングされた動物顔スタイル画像生成モデルを利用して、元の人間顔画像に対応する動物顔スタイル画像を得る。

動物顔スタイル画像とは、元の人間顔画像における人間顔を動物顔に変換した画像であり、動物顔スタイル画像生成モデルは、人間顔を動物顔に変換する機能を有する。動物顔スタイル画像生成モデルは、第１の人間顔サンプル画像と第１の動物顔スタイルサンプル画像とに基づいてトレーニングされ、第１の動物顔スタイルサンプル画像は、事前トレーニングされた動物顔生成モデルによって第１の人間顔サンプル画像に基づいて生成される、即ち、動物顔生成モデルは、任意の人間顔画像のために対応する動物顔スタイル画像を生成する機能を有し、第１の人間顔サンプル画像における人間顔を動物顔に変換すると、対応する第１の動物顔スタイルサンプル画像が得られる。動物顔生成モデルは、第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいてトレーニングされ、第１の動物顔サンプル画像とは、リアルな動物顔の特徴が示されている動物顔画像であり、第２の人間顔サンプル画像と第１の人間顔サンプル画像とは、同じ顔画像であっても異なる顔画像であってもよく、本開示の実施形態では特に限定されない。

また、動物顔生成モデルのトレーニングに使用される複数の第１の動物顔サンプル画像は同じ動物種類に対応し、例えば、動物顔生成モデルのトレーニングに使用される複数の第１の動物顔サンプル画像は、すべて猫または犬の動物顔画像に対応する。さらに細分化すると、動物顔生成モデルのトレーニングに使用される複数の第１の動物顔サンプル画像は、同じ動物種類のうち同じ品種に属する動物顔画像に対応するものであってもよく、例えば、動物顔生成モデルのトレーニングに使用される複数の第１の動物顔サンプル画像は、すべてドラゴンリー猫種またはペルシャ猫種に対応する動物顔画像であってもよい。つまり、本開示の実施形態では、それぞれの動物顔生成モデルが特定の種類または特定の品種の動物顔画像を生成する機能を有するように、異なる動物種類または同じ動物種類のうちの異なる動物品種ごとに、複数の動物顔生成モデルをそれぞれトレーニングすることができる。第１の動物顔サンプル画像は、インターネット上で動物を撮影した動物画像を収集することで得られたものであってもよい。

上記のモデルの具体的なトレーニング手順に関して、本開示の実施形態では具体的に限定されず、当業者は、モデルの機能に従って任意の利用可能なトレーニング方法で実施することができる。例示的に、上記のモデルトレーニング手順は、以下を含むことができる。まず、第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいて、画像生成モデルをトレーニングすることによって、動物顔生成モデルを得る。利用可能な画像生成モデルは、敵対的生成ネットワーク（ＧＡＮ、ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）モデル、スタイルベース敵対的生成ネットワーク（ＳｔｙｌｅｇａｎＳｔｙｌｅ－ＢａｓｅｄＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓｆｏｒＧｅｎｅｒａｔｏｒＡｒｃｈｉｔｅｃｔｕｒｅ）モデルなどを含み得るが、これらに限定されない。次に、動物顔生成モデルによって、第１の人間顔サンプル画像に対応する第１の動物顔スタイルサンプル画像を得る。第１の動物顔スタイルサンプル画像とは、第１の人間顔サンプル画像における人間顔を動物顔に変換した画像である。最後に、第１の人間顔サンプル画像と第１の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングすることによって、動物顔スタイル画像生成モデルを得る。その中で、利用可能なスタイル画像生成モデルは、例えば、条件付き敵対的生成ネットワーク（ＣＧＡＮ、ＣｏｎｄｉｔｉｏｎａｌＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）モデル、循環による一貫性のある敵対的生成ネットワーク（Ｃｙｃｌｅ－ＧＡＮ、ＣｙｃｌｅＣｏｎｓｉｓｔｅｎｔＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）モデルなどを含み得る。

動物顔生成モデルを使用して、第１の人間顔サンプル画像に対応する第１の動物顔スタイルサンプル画像を取得し、その後、第１の人間顔サンプル画像と第１の動物顔スタイルサンプル画像をペアとなるトレーニングサンプルとして、トレーニングに使用して、動物顔スタイル画像生成モデルを得ることによって、動物顔スタイル画像生成モデルのトレーニング効果を確保することができ、さらに、生成された元の人間顔画像に対応する動物顔スタイル画像が、例えばよりリアルな動物顔スタイル画像を得るなど、良好な表示効果を有することを確保することができる。

上記の技術案に加えて、オプションとして、第１の人間顔サンプル画像は、第１の元の人間顔サンプル画像における人間顔のキーポイントと、第１の元の動物顔サンプル画像における動物顔のキーポイントとの間の第１の対応関係に基づいて、第１の元の人間顔サンプル画像に対して人間顔の位置調整を行うことで得られる。
第２の人間顔サンプル画像は、第２の元の人間顔サンプル画像における人間顔のキーポイントと、第１の元の動物顔サンプル画像における動物顔のキーポイントとの間の第２の対応関係に基づいて、第２の元の人間顔サンプル画像に対して人間顔の位置調整を行うことで得られる。
第１の動物顔サンプル画像は、第１の対応関係または第２の対応関係に基づいて、第１の元の動物顔サンプル画像に対して動物顔の位置調整を行うことで得られる。

つまり、動物顔と人間顔との差を考慮すると、動物顔生成モデルによって第１の人間顔サンプル画像に対応する第１の動物顔スタイルサンプル画像を得る前に、第１の元の人間顔サンプル画像における人間顔のキーポイントと、第１の元の動物顔サンプル画像における動物顔のキーポイントとの間の第１の対応関係を決定する必要があり、この第１の対応関係に基づいて第１の元の人間顔サンプル画像に対して人間顔の位置調整を行うことで、動物顔生成モデルまたは動物顔スタイル画像生成モデルの入力要件（画像における人間顔の位置、画像サイズなど）を満たす第１の人間顔サンプル画像を得る。同様に、第１の動物顔サンプル画像も、この第１の対応関係に基づいて第１の元の動物顔サンプル画像に対して動物顔の位置調整を行うことで得られることができ、第１の動物顔サンプル画像は、同様にモデルの入力要件を満たすものである。

例示的に、前記第１の対応関係が決定された後、第１の対応関係に関与する人間顔のキーポイントに基づいて、第１の元の人間顔サンプル画像における人間顔の位置を調整するためのアフィン変換マトリックスを構築するとともに、このアフィン変換マトリックスに基づいて、第１の元の人間顔サンプル画像に対して人間顔の位置調整を行うことによって、第１の人間顔サンプル画像を得ることができ、第１の対応関係に関与する動物顔のキーポイントに基づいて、第１の元の動物顔サンプル画像における動物顔の位置を調整するためのアフィン変換マトリックスを構築するとともに、このアフィン変換マトリックスに基づいて、第１の元の動物顔サンプル画像に対して動物顔の位置調整を行うことによって、第１の動物顔サンプル画像を得ることができる。アフィン変換マトリックスの具体的な構築について、アフィン変換の原理を参照することができる。さらに、アフィン変換マトリックスは、第１の元の人間顔サンプル画像または第１の元の動物顔サンプル画像のズームパラメータ、トリミング比率などのパラメータに関連するものであってもよく、即ち、人間顔の位置調整または動物顔の位置調整を行う過程で、関連する画像処理操作には、トリミング、ズーム、回転などが含まれ得るが、具体的に画像処理のニーズに応じて決定されることができる。

同じキーポイントの対応関係に基づいて画像調整を行うことで最終的に得られた第１の人間顔サンプル画像と第１の動物顔サンプル画像は、同じ画像サイズを有し、かつ、第１の人間顔サンプル画像における人間顔領域と第１の動物顔サンプル画像における動物顔領域は、同じ画像位置に対応し、例えば、人間顔領域が第１の人間顔サンプル画像の中央領域に位置し、動物顔領域も第１の動物顔サンプル画像の中央領域に位置するなどが挙げられる。また、人間顔領域の面積と動物顔領域の面積との差が面積閾値（数値を柔軟に設定できる）より小さく、つまり、人間顔領域の面積が動物顔領域の面積と一致する。これによって、動物顔生成モデルによって、良好な表示効果を有する第１の動物顔スタイルサンプル画像を生成することを確保することができ、さらに、高品質のトレーニングサンプルに基づいてトレーニングすることで動物顔スタイル画像生成モデルを得ることができるため、良好なモデルトレーニング効果を確保することでき、動物顔スタイル画像生成モデルによって生成された動物顔スタイル画像における動物顔領域と人間顔領域が一致しないため動物顔スタイル画像の表示効果に影響を与えてしまい、例えば人間顔領域と比べて、動物顔領域が大きすぎたり小さすぎたりするのを回避することができる。

同様に、動物顔生成モデルを得るためのトレーニングに先立って、まず、第２の元の人間顔サンプル画像における人間顔のキーポイントと、第１の元の動物顔サンプル画像における動物顔のキーポイントとの間の第２の対応関係を決定し、その後、第２の対応関係に基づいて第２の元の人間顔サンプル画像に対して人間顔の位置調整を行うこともできる。画像生成モデルの入力画像条件を満たす第２の人間顔サンプル画像が得られるように、関連する画像処理操作には、トリミング、ズーム、回転などが含まれ得る。もちろん、第１の動物顔サンプル画像に対する需要の順序に従って、この第２の対応関係に基づいて、第１の元の動物顔サンプル画像に対して動物顔の位置調整を予め行うことによって、画像生成モデルの入力要件を満たす第１の動物顔サンプル画像を得ることもできる。

例示的に、上記の第２の対応関係が決定された後、第２の対応関係に関与する人間顔のキーポイントに基づいて、第２の元の人間顔サンプル画像における人間顔の位置を調整するためのアフィン変換マトリックスを構築し、第２の対応関係に関する動物顔のキーポイントに基づいて、第１の元の動物顔サンプル画像における動物顔の位置を調整するためのアフィン変換マトリックスを構築することもできる。最終的に得られた第２の人間顔サンプル画像と第１の動物顔サンプル画像は、同じ画像サイズを有し、第２の人間顔サンプル画像における人間顔領域と第１の動物顔サンプル画像における動物顔領域は、同じ画像位置に対応し、例えば、人間顔領域が第２の人間顔サンプル画像の中央領域に位置し、動物顔領域も第１の動物顔サンプル画像の中央領域に位置するなどが挙げられる。また、人間顔領域の面積と動物顔領域の面積との差が面積閾値（数値を柔軟に設定できる）より小さく、つまり、人間顔領域の面積が動物顔領域の面積と一致する。これによって、高品質のトレーニングサンプルに基づいて、良好なモデルトレーニング効果を確保することができる。

オプションとして、動物顔スタイル画像生成モデルは、第１の人間顔サンプル画像と第２の動物顔スタイルサンプル画像とに基づいてトレーニングされ、第２の動物顔スタイルサンプル画像は、第１の動物顔スタイルサンプル画像における背景領域を第１の人間顔サンプル画像における背景領域に置き換えることによって得られる。背景を置き換えることによって、トレーニングすることで動物顔スタイル画像生成モデルを得る過程において、モデルトレーニング効果に対する動物顔スタイルサンプル画像における背景領域からの影響を最小限に抑えて、良好なモデルトレーニング効果を確保することができ、さらに、生成された動物顔スタイルの画像が良好な表示効果を有することを確保する。

さらに、第２の動物顔スタイルサンプル画像は、第２の動物顔マスク画像に基づいて、第１の動物顔スタイルサンプル画像と第１の人間顔サンプル画像とを融合することで得られる。第２の動物顔マスク画像は、事前トレーニングされた動物顔分割モデルによって第１の動物顔スタイルサンプル画像に基づいて得られ、第２の動物顔マスク画像は、第１の動物顔スタイルサンプル画像における動物顔領域を、第２の動物顔スタイルサンプル画像における動物顔領域として決定するために使用される。動物顔分割モデルは、第２の動物顔サンプル画像と第２の動物顔サンプル画像における動物顔領域の位置ラベリング結果に基づいてトレーニングすることで得られる。動物顔分割モデルが画像における動物顔領域に対応するマスク画像を生成する機能を有することを確保する上で、当業者は任意の利用可能なトレーニング方法で実現することができ、本開示の実施形態では具体的に限定されない。

本開示の実施形態では、サーバで事前トレーニングされた動物顔スタイル画像生成モデルを端末に配信し端末に呼び出させて、元の人間顔画像に対応する動物顔スタイル画像を生成することができるため、端末における画像編集機能を豊富にすることができる。ビデオインタラクティブアプリケーションを例にとると、動物顔スタイル画像生成モデルを呼び出して、元の人間顔画像に対応する動物顔スタイル画像を得ることで、アプリケーションの画像編集機能を豊富にするだけでなく、アプリケーションの面白さを向上させ、より新しい特殊効果プレイをユーザに提供し、ユーザの使用エクスペリエンスを向上させる。また、動物顔スタイル画像生成モデルを使用することによって、異なるユーザの元の顔画像ごとに、ユーザの元の顔画像に適した動物顔スタイル画像を動的に生成することができ、動物顔スタイル画像を生成する知能化を高め、より良好な画像効果を表示することができる。

図２は本開示の別の実施形態による動物顔スタイル画像の生成方法のフローチャートであり、上記の技術案に基づいてさらに最適化や拡張を行い、上記の選択可能な各実施形態と組み合わせることができる。

図２に示すように、本開示の実施形態による動物顔スタイル画像の生成方法は、以下のステップを含むことができる。

Ｓ２０１：ユーザによって選択された動物系特殊効果の種類に従って、動物系特殊効果の種類に対応する動物顔のキーポイントと人間顔のキーポイントとの間の対応関係を決定する。

例示的に、ユーザが端末上でスタイル画像生成機能を備えたアプリケーションプログラムまたはミニプログラムを起動すると、アプリケーションプログラムまたはミニプログラムは、動物特徴の種類を選択するインターフェースをユーザに表示することができ、動物特徴の種類は、例えば猫の顔の特殊効果または犬の顔の特殊効果のように、異なる動物種類によって区別され、また、ドラゴンリー猫の顔の特殊効果またはペルシャ猫の顔の特殊効果のように、異なる動物品種によって区別されてもよい。端末は、ユーザが選択した動物の特殊効果の種類に基づいて、ユーザが現時点でどの種類の動物に対応する動物顔スタイル画像の生成を希望するかを決定し、さらに、この動物顔のキーポイントと人間顔のキーポイントとの間の対応関係を決定する。この対応関係は、端末が動物の特殊効果の種類に応じて呼び出すために端末に事前に格納されてもよい。もちろん、端末は、ユーザによって選択された動物の特殊効果の種類に対応する動物顔を決定し、ユーザ画像における人間顔のキーポイントを認識した後、動物顔のキーポイントと人間顔のキーポイントとを対応付けさせることもできる。ユーザ画像は、端末におけるユーザの画像選択操作、画像撮影操作、または画像アップロード操作に従って、端末によって取得された画像であってもよい。

Ｓ２０２：決定された対応関係に基づいて、ユーザ画像に対して人間顔の位置調整を行うことによって、元の人間顔画像を得る。

決定された動物顔のキーポイントと人間顔のキーポイントとの間の対応関係に基づいて、ユーザ画像に対して人間顔の位置調整を行うことによって、元の人間顔画像を得る。元の人間顔画像は、動物顔スタイル画像生成モデルの入力要件を満たす。動物顔スタイル画像生成モデルがトレーニングされた後、モデルに対応する入力要件（画像における顔の位置、画像のサイズなど）も同時に決定される。従って、端末はキーポイント認識技術を利用してユーザ画像における人間顔のキーポイントを認識した後、決定された対応関係に基づいて、ユーザ画像に対して人間顔の位置調整を行い、例えば、端末は、ユーザ画像におけるこの対応関係に属する人間顔のキーポイントを使用して、ユーザ画像における人間顔の位置を調整するためのアフィン変換マトリックスを構築し、このアフィン変換マトリックスを利用してユーザ画像における人間顔の位置を調整することができ、動物顔スタイル画像生成モデルの入力要件を満たす元の人間顔画像が得られるように、関する画像処理操作には、トリミング、ズーム、回転などが含まれる。

Ｓ２０３：元の人間顔画像を取得する。

Ｓ２０４：事前トレーニングされた動物顔スタイル画像生成モデルを利用して、元の人間顔画像に対応する動物顔スタイル画像を得る。

Ｓ２０５：動物顔スタイル画像における動物顔領域と、ユーザ画像における背景領域とを融合して、ユーザ画像に対応するターゲット動物顔スタイル画像を得る。

ユーザ画像における背景領域とは、ユーザ画像から顔領域を取り除いた残りの画像領域である。例示的に、画像処理技術を利用して、動物顔スタイル画像から動物顔領域を抽出し、ユーザ画像から背景領域を抽出し、その後、ユーザ画像における背景領域の位置と人間顔領域の位置に従って両者を融合（またはミキシング）することができる。つまり、最終的にユーザに表示されるターゲット動物顔スタイル画像において、ユーザの顔特徴が動物顔特徴に変わったことを除いて、画像の背景にはユーザ画像の背景領域が残されているため、動物顔スタイルの画像を生成する過程ではユーザ画像における背景領域の変化が回避される。

オプションとして、動物顔スタイル画像における動物顔領域と、ユーザ画像における背景領域とを融合して、ユーザ画像に対応するターゲット動物顔スタイル画像を得ることは、以下のことを含む。

動物顔スタイル画像に基づいて、ユーザ画像と同じ画像サイズを有する中間結果画像を得る。中間結果画像における動物顔領域の位置は、ユーザ画像における人間顔領域の位置と同じである。例えば、動物顔スタイル画像における動物顔のキーポイントと、ユーザ画像における人間顔のキーポイントとの対応関係に従って、動物顔スタイル画像をユーザ画像に対応する画像座標にマッピングして、中間結果画像を得ることができる。

動物系特殊効果の種類に対応する第１の動物顔マスク画像を決定する。

第１の動物顔マスク画像に基づいて、ユーザ画像と中間結果画像とを融合して、ユーザ画像に対応するターゲット動物顔スタイル画像を得る。第１の動物顔マスク画像は、中間結果画像における動物顔領域を、ターゲット動物顔スタイル画像における動物顔領域として決定するために使用される。

第１の動物顔マスク画像を使用してユーザ画像と中間結果画像との融合を実現することによって、ターゲット動物顔スタイル画像の入手が確保されることに加えて、画像融合処理の効率向上に寄与する。

さらに、第１の動物顔マスク画像に基づいて、ユーザ画像と中間結果画像とを融合して、ユーザ画像に対応するターゲット動物顔スタイル画像を得るステップは、
第１の動物顔マスク画像における動物顔のエッジ部に対して、ガウスぼかし処理などの平滑化処理を行うステップと、平滑化処理された動物顔マスク画像に基づいて、ユーザ画像と中間結果画像とを融合して、ユーザ画像に対応するターゲット動物顔スタイル画像を得るステップとを含み得る。

第１の動物顔マスク画像における動物顔のエッジ部に対して平滑化処理を施してから、画像の融合を行うことによって、ユーザ画像における背景領域と中間結果画像における動物顔領域との間の滑らかな遷移を実行することができ、画像融合効果が最適化され、ターゲット動物顔スタイル画像の最終的な表示効果が確保される。

また、ユーザ画像に対応するターゲット動物顔スタイル画像が得られた後、または元の人間顔画像に対応する動物顔スタイル画像が得られた後、画像編集インターフェース上でのユーザによる特殊効果の選択操作に従って、ユーザによって選択された特殊効果識別子を決定し、ユーザによって選択された特殊効果識別子に対応する特殊効果を、前記ターゲット動物顔スタイル画像または前記動物顔スタイル画像に追加して、画像編集の面白さをさらに向上させることができる。ユーザによって選択可能な特殊効果には、任意の種類の小道具やステッカーが含まれるが、本開示の実施形態では具体的に限定されない。

本開示の実施形態では、ユーザ画像が得られた後、まず、ユーザによって選択された動物顔特殊効果の種類に対応する動物顔のキーポイントと人間顔のキーポイントとの間の対応関係に従って、ユーザ画像に対して人間顔の位置調整を行うことによって、元の人間顔画像を得る。次に、動物顔スタイル画像生成モデルを利用して、元の人間顔画像に対応する動物顔スタイル画像を得る。最後に、動物顔スタイル画像における動物顔領域とユーザ画像における背景領域とを融合して、ユーザに表示されるターゲット動物顔スタイル画像を得る。ユーザの顔特徴を動物化処理すると同時に、ユーザ画像における元の背景を残すため、端末における画像編集機能を豊富にした。ビデオインタラクティブアプリケーションを例にとると、動物顔スタイル画像生成モデルを呼び出して、動物顔スタイル画像を得ることで、アプリケーションの画像編集機能を豊富にするだけでなく、アプリケーションの面白さを向上させ、新しい特殊効果プレイをユーザに提供することができ、ユーザの使用エクスペリエンスを向上させる。

図３は本開示の一実施形態による動物顔スタイル画像生成モデルのトレーニング方法のフローチャートであり、人間顔を動物顔に変換する機能を備えた動物顔スタイル画像生成モデルをトレーニングする方法に適用される。この動物顔スタイル画像生成モデルのトレーニング方法は、動物顔スタイル画像生成モデルのトレーニング装置によって実行され、この装置はソフトウェア及び／またはハードウェアによって実現され、サーバ上に統合され得る。

本開示の実施形態による動物顔スタイル画像生成モデルのトレーニング方法は、本開示の実施形態による動物顔スタイル画像の生成方法と協働して実行される。以下の実施形態において詳細に説明されていない内容について、上述した実施形態における説明を参照することができる。

図３に示すように、本開示の実施形態による動物顔スタイル画像生成モデルのトレーニング方法は、以下のステップを含むことができる。

Ｓ３０１：第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいて、画像生成モデルをトレーニングして、動物顔生成モデルを得る。

Ｓ３０２：動物顔生成モデルによって、第１の人間顔サンプル画像に対応する第１の動物顔スタイルサンプル画像を得る。
第１の動物顔スタイルサンプル画像とは、第１の人間顔サンプル画像における人間顔を動物顔に変換した画像である。

Ｓ３０３：第１の人間顔サンプル画像と第１の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得る。
動物顔スタイル画像生成モデルは、元の人間顔画像に対応する動物顔スタイル画像を得るために使用され、動物顔スタイル画像とは、元の人間顔画像における人間顔を動物顔に変換した画像である。

オプションとして、第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいて、画像生成モデルをトレーニングして、動物顔生成モデルを得るステップの前に、本開示の実施形態によるモデルのトレーニング方法は、
第２の元の人間顔サンプル画像における人間顔のキーポイントと第１の元の動物顔サンプル画像における動物顔のキーポイントとの間の第２の対応関係を決定するステップと、第２の対応関係に基づいて、第２の元の人間顔サンプル画像に対して人間顔の位置調整を行うことによって、第２の人間顔サンプル画像を得るステップと、第２の対応関係に基づいて、第１の元の動物顔サンプル画像に対して動物顔の位置調整を行うことによって、第１の動物顔サンプル画像を得るステップと、をさらに含む。

動物顔生成モデルによって、第１の人間顔サンプル画像に対応する第１の動物顔スタイルサンプル画像を得るステップの前に、本開示の実施形態によるモデルのトレーニング方法は、第１の元の人間顔サンプル画像における人間顔のキーポイントと第１の元の動物顔サンプル画像における動物顔のキーポイントとの間の第１の対応関係を決定するステップと、第１の対応関係に基づいて、第１の元の人間顔サンプル画像に対して動物顔の位置調整を行うことによって、第１の人間顔サンプル画像を得るステップと、をさらに含む。

オプションとして、動物顔生成モデルによって、第１の人間顔サンプル画像に対応する第１の動物顔スタイル画像を得るステップの後に、本開示の実施形態によるモデルのトレーニング方法は、第１の動物顔スタイルサンプル画像における背景領域を第１の人間顔サンプル画像における背景領域に置き換えることによって、第２の動物顔スタイルサンプル画像を得るステップをさらに含む。

それに対応して、第１の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るステップは、第１の人間顔サンプル画像と第２の動物顔サンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るステップを含む。

オプションとして、第１の動物顔スタイルサンプル画像における背景領域を第１の人間顔サンプル画像における背景領域に置き換えることによって、第２の動物顔スタイルサンプル画像を得るステップは、事前トレーニングされた動物顔分割モデルに基づいて、第１の動物顔スタイルサンプル画像に対応する動物顔マスク画像を得るステップと、動物顔マスク画像に基づいて、第１の動物顔スタイルサンプル画像と第１の人間顔サンプル画像とを融合して、第２の動物顔スタイルサンプル画像を得るステップとを含む。動物顔マスク画像は、第１の動物顔スタイルサンプル画像における動物顔領域を、第２の動物顔スタイルサンプル画像における動物顔領域として決定するために使用される。

オプションとして、本開示の実施形態によるモデルのトレーニング方法は、第２の動物顔サンプル画像及び第２の動物顔サンプル画像における動物顔領域の位置ラベリング結果を取得するステップと、第２の動物顔サンプル画像と動物顔領域の位置ラベリング結果とに基づいてトレーニングして動物顔分割モデルを得るステップと、をさらに含む。

本開示の実施形態では、サーバで事前トレーニングされた動物顔スタイル画像生成モデルを端末に配信し端末に呼び出させ、元の人間顔画像に対応する動物顔スタイル画像を生成することができるため、端末における画像編集機能を豊富にすることができる。ビデオインタラクティブアプリケーションを例にとると、動物顔スタイル画像生成モデルを呼び出して、動物顔スタイル画像を得ることで、アプリケーションの画像編集機能を豊富にするだけでなく、アプリケーションの面白さを向上させ、より新しい特殊効果プレイをユーザに提供することができ、ユーザの使用エクスペリエンスを向上させる。

図４は本開示の一実施形態による動物顔スタイル画像の生成装置の構造概略図であり、ユーザの顔を動物顔に変換させる場合に適用される。この動物顔スタイル画像の生成装置はソフトウェア及び／またはハードウェアによって実現され、コンピューティング能力を備えた任意の電子機器、例えばスマートフォン、タブレット、ノートパソコンなどの端末上に統合され得る。

図４に示すように、本開示の実施形態による動物顔スタイル画像の生成装置４００は、
元の人間顔画像を取得するための元人間顔画像取得モジュール４０１と、
事前トレーニングされた動物顔スタイル画像生成モデルを利用して、前記元の人間顔画像に対応する動物顔スタイル画像を得るためのスタイル画像生成モジュール４０２と、
を含み、
動物顔スタイル画像とは、元の人間顔画像における人間顔を動物顔に変換した画像であり、動物顔スタイル画像生成モデルは、第１の人間顔サンプル画像と第１の動物顔スタイルサンプル画像とに基づいてトレーニングされる。

オプションとして、第１の動物顔スタイルサンプル画像は、事前トレーニングされた動物顔生成モデルによって第１の人間顔サンプル画像に基づいて生成され、動物顔生成モデルは、第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいてトレーニングされる。

オプションとして、本開示の実施形態による装置４００は、さらに、
ユーザによって選択された動物系特殊効果の種類に従って、動物系特殊効果の種類に対応する動物顔のキーポイントと人間顔のキーポイントとの間の対応関係を決定するための対応関係決定モジュールと、
前記動物系特殊効果の種類に対応する動物顔のキーポイントと人間顔のキーポイントとの間の対応関係に基づいて、ユーザ画像に対して人間顔の位置調整を行うことによって、元の人間顔画像を得るためのモジュールであって、元の人間顔画像は、動物顔スタイル画像生成モデルの入力要件を満たす人間顔位置調整モジュールと、
を含む。

オプションとして、画像融合モジュールは、動物顔スタイル画像における動物顔領域と、ユーザ画像における背景領域とを融合して、ユーザ画像に対応するターゲット動物顔スタイル画像を得るものである。

オプションとして、画像融合モジュールは、
動物顔スタイル画像に基づいて、ユーザ画像と同じ画像サイズを有する中間結果画像を得るためのユニットであって、中間結果画像における動物顔領域の位置はユーザ画像における人間顔領域の位置と同じである中間結果画像特定ユニットと、
動物系特殊効果の種類に対応する第１の動物顔マスク画像を決定するための第１の動物顔マスク画像決定ユニットと、
第１の動物顔マスク画像に基づいて、ユーザ画像と中間結果画像とを融合して、ユーザ画像に対応するターゲット動物顔スタイル画像を得るためのユニットであって、第１の動物顔マスク画像は、中間結果画像における動物顔領域を、ターゲット動物顔スタイル画像における動物顔領域として決定するために使用される画像融合ユニットと、
を含む。

オプションとして、第１の人間顔サンプル画像は、第１の元の人間顔サンプル画像における人間顔のキーポイントと、第１の元の動物顔サンプル画像における動物顔のキーポイントとの間の第１の対応関係に基づいて、第１の元の人間顔サンプル画像に対して人間顔の位置調整を行うことで得られる。
第２の人間顔サンプル画像は、第２の元の人間顔サンプル画像における人間顔のキーポイントと、第１の元の動物顔サンプル画像における動物顔のキーポイントとの間の第２の対応関係に基づいて、第２の元の人間顔サンプル画像に対して人間顔の位置調整を行うことで得られる。
第１の動物顔サンプル画像は、第１の対応関係または第２の対応関係に基づいて、第１の元の動物顔サンプル画像に対して動物顔の位置調整を行うことで得られる。

オプションとして、動物顔スタイル画像生成モジュールは、第１の人間顔サンプル画像と第２の動物顔スタイルサンプル画像とに基づいてトレーニングされ、第２の動物顔スタイルサンプル画像は、第１の動物顔スタイルサンプル画像における背景領域を、第１の人間顔サンプル画像における背景領域に置き換えることで得られる。

オプションとして、第２の動物顔スタイルサンプル画像は、第２の動物顔マスク画像に基づいて、第１の動物顔スタイルサンプル画像と第１の人間顔サンプル画像とを融合することで得られる。
第２の動物顔マスク画像は、事前トレーニングされた動物顔分割モデルによって、第１の動物顔スタイルサンプル画像に基づいて得られ、第２の動物顔マスク画像は、第１の動物顔スタイルサンプル画像における動物顔領域を、第２の動物顔スタイルサンプル画像における動物顔領域として決定するために使用される。

本開示の実施例による動物顔スタイル画像の生成装置は、本開示の実施形態によるいずれかの動物顔スタイル画像の生成方法を実行することができ、方法に対応する機能モジュール及び有益な効果を備える。本開示の装置実施例において詳細に説明されていない内容について、本開示のいずれかの方法実施例における説明を参照することができる。

図５は本開示の一実施形態による動物顔スタイル画像生成モデルのトレーニング装置の構造概略図であり、人間顔を動物顔に変換する機能を備えた動物顔スタイル画像生成モデルをトレーニングする方法に適用される。この動物顔スタイル画像生成モデルのトレーニング装置はソフトウェア及び／またはハードウェアによって実現され、サーバ上に統合され得る。

図５に示すように、本開示の実施形態による動物顔スタイル画像生成モデルのトレーニング装置５００は、
第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいて画像生成モデルをトレーニングして、動物顔生成モデルを得るための動物顔生成モデルトレーニングモジュール５０１と、
動物顔生成モデルによって、第１の人間顔サンプル画像に対応する第１の動物顔スタイルサンプル画像を得るモジュールであって、第１の動物顔スタイルサンプル画像とは、第１の人間顔サンプル画像における人間顔を動物顔に変換した画像であるスタイルサンプル画像生成モジュール５０２と、
第１の人間顔サンプル画像と第１の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るためのスタイル画像生成モデルトレーニングモジュール５０３と、
を含み、
動物顔スタイル画像生成モデルは、元の人間顔画像に対応する動物顔スタイル画像を得るために使用され、動物顔スタイル画像とは、元の人間顔画像における人間顔を動物顔に変換した画像である。

オプションとして、本開示の実施形態による装置５００は、
第２の元の人間顔サンプル画像における人間顔のキーポイントと第１の元の動物顔サンプル画像における動物顔のキーポイントとの間の第２の対応関係を決定するための第２の対応関係決定モジュールと、
第２の対応関係に基づいて、第２の元の人間顔サンプル画像に対して人間顔の位置調整を行うことによって、第２の人間顔サンプル画像を得るための人間顔位置調整モジュールと、
第２の対応関係に基づいて、第１の元の動物顔サンプル画像に対して動物顔の位置調整を行うことによって、第１の動物顔サンプル画像を得るための動物顔位置調整モジュールと、
第１の元の人間顔サンプル画像における人間顔のキーポイントと第１の元の動物顔サンプル画像における動物顔のキーポイントとの間の第１の対応関係を決定するための第１の対応関係決定モジュールと、
第１の対応関係に基づいて、第１の元の人間顔サンプル画像に対して動物顔の位置調整を行うことによって、第１の人間顔サンプル画像を得るための人間顔位置調整モジュールと、
を含む。

オプションとして、本開示の実施形態による装置５００は、
第１の動物顔スタイルサンプル画像における背景領域を第１の人間顔サンプル画像における背景領域に置き換えることによって、第２の動物顔スタイルサンプル画像を得るための背景領域置換モジュールをさらに含む。

オプションとして、スタイル画像生成モデルトレーニングモジュール５０３は、具体的に、第１の人間顔サンプル画像と第２の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るものである。

オプションとして、背景領域置換モジュールは、
事前トレーニングされた動物顔分割モデルに基づいて、第１の動物顔スタイルサンプル画像に対応する動物顔マスク画像を得るための動物顔マスク画像決定ユニットと、
動物顔マスク画像に基づいて、第１の動物顔スタイルサンプル画像と第１の人間顔サンプル画像とを融合して、第２の動物顔スタイルサンプル画像を得るユニットであって、動物顔マスク画像は、第１の動物顔スタイルサンプル画像における動物顔領域を、第２の動物顔スタイルサンプル画像における動物顔領域として決定するために使用される画像融合ユニットと、
を含む。

オプションとして、本開示の実施形態による装置５００は、
第２の動物顔サンプル画像及び第２の動物顔サンプル画像における動物顔領域の位置ラベリング結果を取得するためのサンプル画像及びラベリング結果取得モジュールと、
第２の動物顔サンプル画像と動物顔領域の位置ラベリング結果に基づいて、トレーニングすることによって動物顔分割モデルを得るための動物顔分割モデルトレーニングモジュールと、
をさらに含む。

本開示の実施例による動物顔スタイル画像生成モデルのトレーニング装置は、本開示の実施形態によるいずれかの動物顔スタイル画像生成モデルのトレーニング方法を実行することができ、方法に対応する機能モジュール及び有益な効果を具備する。本開示の装置実施例において詳細に説明されていない内容について、本開示のいずれかの方法実施例における説明を参照することができる。

図６は本開示の一実施形態による電子機器の構造概略図であり、本開示の実施形態による動物顔スタイル画像生成方法または動物顔スタイル画像生成モデルのトレーニング方法を実現する電子機器について例示的に説明する。本開示の実施形態による電子機器は、例えば、携帯電話、ノート型パーソナルコンピュータ、デジタル放送受信機、ＰＤＡ（パーソナルデジタルアシスタント）、ＰＡＤ（タブレット型コンピュータ）、ＰＭＰ（携帯型マルチメディアプレーヤ）、車載端末（カーナビゲーション端末など）などの携帯端末や、デジタルＴＶ、デスクトップ型コンピュータ、サーバなどの固定端末を含むが、これらに限定されない。図６に示した電子機器は一例に過ぎず、本開示の実施形態の機能及び占有範囲を何ら制限するものではない。

図６に示すように、電子機器６００は、１つまたは複数のプロセッサ６０１及びメモリ６０２を含む。

プロセッサ６０１は、中央処理ユニット（ＣＰＵ）またはデータ処理能力及び／または命令実行能力を有する他の形態の処理ユニットであってもよく、電子機器６００内の他の構成要素を制御して所望の機能を実行してもよい。

メモリ６０２は、揮発性メモリ及び／または不揮発性メモリなどの様々な形態のコンピュータ可読記憶媒体を含む１つまたは複数のコンピュータプログラム製品を含むことができる。揮発性メモリは、例えば、ランダムアクセスメモリ（ＲＡＭ）及び／またはキャッシュメモリ（ｃａｃｈｅ）を含み得る。不揮発性メモリは、例えば、読み取り専用メモリ（ＲＯＭ）、ハードディスク、フラッシュメモリなどを含むことができる。コンピュータ可読記憶媒体には、１つまたは複数のコンピュータプログラム命令を記憶することができ、プロセッサ６０１はプログラム命令を実行して、本開示の実施形態による動物顔スタイル画像の生成方法または動物顔スタイル画像生成モデルのトレーニング方法を実現し、さらに他の所望の機能を実現することができる。コンピュータ可読記憶媒体には、入力信号、信号成分、ノイズ成分などの様々なコンテンツも記憶され得る。

動物顔スタイル画像の生成方法は、元の人間顔画像を取得するステップと、事前トレーニングされた動物顔スタイル画像生成モデルを利用して、元の人間顔画像に対応する動物顔スタイル画像を得るステップとを含む。動物顔スタイル画像とは、元の人間顔画像における人間顔を動物顔に変換した画像であり、動物顔スタイル画像生成モデルは、第１の人間顔サンプル画像と第１の動物顔スタイルサンプル画像とに基づいてトレーニングされ、第１の動物顔スタイルサンプル画像は、事前トレーニングされた動物顔生成モデルによって第１の人間顔サンプル画像に基づいて生成され、動物顔生成モデルは、第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいてトレーニングされる。

動物顔スタイル画像生成モデルのトレーニング方法は、第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいて画像生成モデルをトレーニングして、動物顔生成モデルを得るステップと、動物顔生成モデルによって、第１の人間顔サンプル画像に対応する第１の動物顔スタイルサンプル画像を得るステップであって、第１の動物顔スタイルサンプル画像とは、第１の人間顔サンプル画像における人間顔を動物顔に変換した画像であるステップと、第１の人間顔サンプル画像と第１の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るステップとを含む。動物顔スタイル画像生成モデルは、元の人間顔画像に対応する動物顔スタイル画像を得るために使用され、動物顔スタイル画像とは、元の人間顔画像における人間顔を動物顔に変換した画像である。

なお、電子機器６００は、さらに本開示の方法実施例による他の選択可能な実施形態を実行することもできることは理解されるべきであろう。

一例では、電子機器６００は入力装置６０３及び出力装置６０４をさらに含み得る。これらの構成要素は、バスシステム及び／または他の形態の接続機構（図示せず）を介して相互接続されている。

さらに、この入力装置６０３は、例えばキーボードやマウスなどを含んでもよい。

この出力装置６０４は、求めた距離情報や、方向情報などの各種情報を外部に出力することができる。この出力装置６０４は、ディスプレイ、スピーカー、プリンタ、及び通信ネットワーク及びそれに接続されたリモート出力装置などを含み得る。

もちろん、簡素化の便宜上、図６にはこの電子機器６００内の本開示に関連する構成要素の一部のみが示されており、バスや入出力インターフェースなどの構成要素が省略されている。加えて、電子機器６００は、具体的な適用条件に応じて、任意の他の適切な構成要素を含み得る。

上述の方法及び機器に加えて、本開示の実施形態は、プロセッサによって実行されると、本開示の実施形態による動物顔スタイル画像の生成方法または動物顔スタイル画像生成モデルのトレーニング方法をプロセッサに実行させるためのコンピュータプログラム命令を含むコンピュータプログラム製品であってもよい。

コンピュータプログラム製品は、本開示の実施形態の動作を実行するためのプログラムコードを、１つまたは複数のプログラミング言語の任意の組み合わせで書くことができる。プログラミング言語には、Ｊａｖａ（登録商標）、Ｃ＋＋などのオブジェクト指向プログラミング言語と、「Ｃ」言語または類似のプログラミング言語などの従来の手続き型プログラミング言語が含まれる。プログラムコードは、完全にユーザのコンピューティングデバイス上で実行され、部分的にユーザのデバイス上で実行され、スタンドアロンソフトウェアパッケージとして実行され、部分的にユーザのコンピューティングデバイス上で、部分的にリモートコンピューティングデバイス上で実行され、または完全にリモートコンピューティングデバイスまたはサーバ上で実行される。

なお、本開示の実施形態は、プロセッサによって実行されると、本開示の実施形態による動物顔スタイル画像の生成方法または動物顔スタイル画像生成モデルのトレーニング方法をプロセッサに実行させるためのコンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体を提供してもよい。

動物顔スタイル画像生成モデルのトレーニング方法は、第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいて画像生成モデルをトレーニングして、動物顔生成モデルを得るステップと、動物顔生成モデルによって、第１の人間顔サンプル画像に対応する第１の動物顔スタイルサンプル画像を得るステップであって、第１の動物顔スタイルサンプル画像とは、第１の人間顔サンプル画像における人間顔を動物顔に変換した画像であるステップと、第１の人間顔サンプル画像と第１の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングすることによって、動物顔スタイル画像生成モデルを得るステップとを含む。動物顔スタイル画像生成モデルは、元の人間顔画像に対応する動物顔スタイル画像を得るために使用され、動物顔スタイル画像とは、元の人間顔画像における人間顔を動物顔に変換した画像である。

なお、コンピュータプログラム命令がプロセッサによって実行されると、本開示の方法実施例による他の選択可能な実施形態をプロセッサに実行させることもできることは理解されるべきであろう。

コンピュータ可読記憶媒体は、１つまたは複数の可読媒体の任意の組み合わせを使用することができる。可読媒体は、可読信号媒体または可読記憶媒体であり得る。可読記憶媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置やデバイス、またはそれらの任意の組み合わせを含むことができるが、これらに限定されない。可読記憶媒体のより具体的な例（非網羅的なリスト）には、１つまたは複数の導体を有する電気的接続、ポータブルディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、または前述の任意の適切な組み合わせが含まれる。

なお、本明細書では、「第１」や「第２」などの関係用語は、１つのエンティティまたは操作を別のエンティティまたは操作と区別するためにのみ使用され、必ずしもこれらのエンティティまたは操作間に如何なる実際の関係または順序が存在していることを要求または暗示するものではない。さらに、「含む」や「包含」またはその任意の他の変形は、非排他的な包含をカバーすることを意図するため、一連の要素を含むプロセスや方法、物品または装置はそれらの要素を含むだけでなく、明示されない他の要素をも含み、またはそのようなプロセス、方法、物品または装置に固有の他の要素をも含む。また、これ以上の制限がない場合に、「１つの…を含む」という文によって限定される要素は、その要素を含むプロセス、方法、物品または装置に別の同じ要素が存在することを排除するものではない。

上記は、本開示の具体的な実施形態に過ぎず、当業者が本開示を理解または実施できるようにする。これらの実施形態に対する様々な補正は、当業者にとって容易かつ明らかであろう。本明細書で定義される一般原理は、本開示の精神または範囲から逸脱することなく、他の実施形態でも実施されることができる。従って、本開示は、本明細書に示す実施形態に限定されるものではなく、本明細書で開示される原理及び新規な特徴と一致する最も広い範囲に適合するものである。

Claims

電子機器が実行する動物顔スタイル画像の生成方法であって、
元の人間顔画像を取得するステップと、
事前トレーニングされた動物顔スタイル画像生成モデルを利用して、前記元の人間顔画像に対応する動物顔スタイル画像を得るステップと、
を含み、
前記動物顔スタイル画像とは、前記元の人間顔画像における人間顔を動物顔に変換した画像であり、前記動物顔スタイル画像生成モデルは、第１の人間顔サンプル画像と第１の動物顔スタイルサンプル画像とに基づいてトレーニングされ、前記第１の動物顔スタイルサンプル画像は、事前トレーニングされた動物顔生成モデルによって、前記第１の人間顔サンプル画像に基づいて生成され、前記動物顔生成モデルは、第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいてトレーニングされる、ことを特徴とする方法。
ユーザによって選択された動物系特殊効果の種類に従って、前記動物系特殊効果の種類に対応する動物顔のキーポイントと人間顔のキーポイントとの間の対応関係を決定するステップと、
前記動物系特殊効果の種類に対応する動物顔のキーポイントと人間顔のキーポイントとの間の対応関係に基づいて、ユーザ画像に対して人間顔の位置調整を行うことによって、元の人間顔画像を得るステップであって、前記元の人間顔画像は、前記動物顔スタイル画像生成モデルの入力要件を満たすステップと、
さらに含む、ことを特徴とする、請求項１に記載の方法。
前記動物顔スタイル画像における動物顔領域と、前記ユーザ画像における背景領域とを融合して、前記ユーザ画像に対応するターゲット動物顔スタイル画像を得るステップをさらに含む、ことを特徴とする、請求項２に記載の方法。
前記動物顔スタイル画像における動物顔領域と、前記ユーザ画像における背景領域とを融合して、前記ユーザ画像に対応するターゲット動物顔スタイル画像を得るステップは、
前記動物顔スタイル画像に基づいて、前記ユーザ画像と同じ画像サイズを有する中間結果画像を得るステップであって、前記中間結果画像における動物顔領域の位置が、前記ユーザ画像における人間顔領域の位置と同じであるステップと、
前記動物系特殊効果の種類に対応する第１の動物顔マスク画像を決定するステップと、
前記第１の動物顔マスク画像に基づいて、前記ユーザ画像と前記中間結果画像とを融合して、前記ユーザ画像に対応するターゲット動物顔スタイル画像を得るステップであって、前記第１の動物顔マスク画像が、前記中間結果画像における動物顔領域を、前記ターゲット動物顔スタイル画像における動物顔領域として決定するために使用されるステップと、を含む、ことを特徴とする、請求項３に記載の方法。
前記第１の人間顔サンプル画像は、第１の元の人間顔サンプル画像における人間顔のキーポイントと、第１の元の動物顔サンプル画像における動物顔のキーポイントとの間の第１の対応関係に基づいて、前記第１の元の人間顔サンプル画像に対して人間顔の位置調整を行うことで得られ、
前記第２の人間顔サンプル画像は、第２の元の人間顔サンプル画像における人間顔のキーポイントと、前記第１の元の動物顔サンプル画像における動物顔のキーポイントとの間の第２の対応関係に基づいて、前記第２の元の人間顔サンプル画像に対して人間顔の位置調整を行うことで得られ、
前記第１の動物顔サンプル画像は、前記第１の対応関係または前記第２の対応関係に基づいて、前記第１の元の動物顔サンプル画像に対して動物顔の位置調整を行うことで得られる、ことを特徴とする、請求項１に記載の方法。
前記動物顔スタイル画像生成モデルは、前記第１の人間顔サンプル画像と第２の動物顔スタイルサンプル画像とに基づいてトレーニングされ、
前記第２の動物顔スタイルサンプル画像は、前記第１の動物顔スタイルサンプル画像における背景領域を、前記第１の人間顔サンプル画像における背景領域に置き換えることで得られる、ことを特徴とする、請求項１に記載の方法。
前記第２の動物顔スタイルサンプル画像は、第２の動物顔マスク画像に基づいて、前記第１の動物顔スタイルサンプル画像と前記第１の人間顔サンプル画像とを融合することで得られ、
前記第２の動物顔マスク画像は、事前トレーニングされた動物顔分割モデルによって、前記第１の動物顔スタイルサンプル画像に基づいて得られ、
前記第２の動物顔マスク画像は、前記第１の動物顔スタイルサンプル画像における動物顔領域を、前記第２の動物顔スタイルサンプル画像における動物顔領域として決定するために使用される、ことを特徴とする、請求項６に記載の方法。
動物顔スタイル画像生成モデルのトレーニング方法であって、
第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいて画像生成モデルをトレーニングして、動物顔生成モデルを得るステップと、
前記動物顔生成モデルによって、第１の人間顔サンプル画像に対応する第１の動物顔スタイルサンプル画像を得るステップであって、前記第１の動物顔スタイルサンプル画像とは、前記第１の人間顔サンプル画像における人間顔を動物顔に変換した画像であるステップと、
前記第１の人間顔サンプル画像と前記第１の動物顔サンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るステップと、
を含み、
前記動物顔スタイル画像生成モデルは、元の人間顔画像に対応する動物顔スタイル画像を得るために使用され、前記動物顔スタイル画像とは、前記元の人間顔画像における人間顔を動物顔に変換した画像である、ことを特徴とする方法。
第２の元の人間顔サンプル画像における人間顔のキーポイントと第１の元の動物顔サンプル画像における動物顔のキーポイントとの間の第２の対応関係を決定するステップと、
前記第２の対応関係に基づいて、前記第２の元の人間顔サンプル画像に対して人間顔の位置調整を行うことによって、前記第２の人間顔サンプル画像を得るとともに、前記第２の対応関係に基づいて、前記第１の元の動物顔サンプル画像に対して動物顔の位置調整を行うことによって、前記第１の動物顔サンプル画像を得るステップと、
をさらに含む、ことを特徴とする、請求項８に記載の方法。
第１の元の人間顔サンプル画像における人間顔のキーポイントと前記第１の元の動物顔サンプル画像における動物顔のキーポイントとの間の第１の対応関係を決定するステップと、
前記第１の対応関係に基づいて、前記第１の元の人間顔サンプル画像に対して動物顔の位置調整を行うことによって、前記第１の人間顔サンプル画像を得るステップと、
をさらに含む、ことを特徴とする、請求項９に記載の方法。
前記第１の動物顔スタイルサンプル画像における背景領域を、前記第１の人間顔サンプル画像における背景領域に置き換えることによって、第２の動物顔スタイルサンプル画像を得るステップをさらに含み、
前記第１の人間顔サンプル画像と前記第１の動物顔サンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得る前記ステップは、
前記第１の人間顔サンプル画像と前記第２の動物顔スタイルサンプル画像とに基づいて、前記スタイル画像生成モデルをトレーニングして、前記動物顔スタイル画像生成モデルを得るステップを含む、ことを特徴とする、請求項８に記載の方法。
前記第１の動物顔スタイルサンプル画像における背景領域を、前記第１の人間顔サンプル画像における背景領域に置き換えることによって、第２の動物顔スタイルサンプル画像を得る前記ステップは、
事前トレーニングされた動物顔分割モデルに基づいて、前記第１の動物顔スタイルサンプル画像に対応する動物顔マスク画像を得るステップと、
前記動物顔マスク画像に基づいて、前記第１の動物顔スタイルサンプル画像と前記第１の人間顔サンプル画像とを融合して、前記第２の動物顔スタイルサンプル画像を得るステップであって、前記動物顔マスク画像は、前記第１の動物顔スタイルサンプル画像における動物顔領域を、前記第２の動物顔スタイルサンプル画像における動物顔領域として決定するために使用されるステップと、
を含む、ことを特徴とする、請求項１１に記載の方法。
第２の動物顔サンプル画像及び前記第２の動物顔サンプル画像における動物顔領域の位置ラベリング結果を取得するステップと、
前記第２の動物顔サンプル画像と前記動物顔領域の位置ラベリング結果とに基づいてトレーニングして、前記動物顔分割モデルを得るステップと、
をさらに含む、ことを特徴とする、請求項１２に記載の方法。
動物顔スタイル画像の生成装置であって、
元の人間顔画像を取得するための元人間顔画像取得モジュールと、
事前トレーニングされた動物顔スタイル画像生成モデルを利用して、前記元の人間顔画像に対応する動物顔スタイル画像を得るためのスタイル画像生成モジュールと、
を含み、
前記動物顔スタイル画像とは、前記元の人間顔画像における人間顔を動物顔に変換した画像であり、前記動物顔スタイル画像生成モデルは、第１の人間顔サンプル画像と第１の動物顔スタイルサンプル画像とに基づいてトレーニングされ、前記第１の動物顔スタイルサンプル画像は、事前トレーニングされた動物顔生成モデルによって前記第１の人間顔サンプル画像に基づいて生成され、前記動物顔生成モデルは、第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいてトレーニングされる、ことを特徴とする、動物顔スタイル画像の生成装置。
動物顔スタイル画像生成モデルのトレーニング装置であって、
第２の人間顔サンプル画像と第１の動物顔サンプル画像とに基づいて画像生成モデルをトレーニングして、動物顔生成モデルを得るための動物顔生成モデルトレーニングモジュールと、
前記動物顔生成モデルによって、第１の人間顔サンプル画像に対応する第１の動物顔スタイルサンプル画像を得るためのスタイルサンプル画像生成モジュールであって、前記第１の動物顔スタイルサンプル画像とは、前記第１の人間顔サンプル画像における人間顔を動物顔に変換した画像であるスタイルサンプル画像生成モジュールと、
前記第１の人間顔サンプル画像と前記第１の動物顔スタイルサンプル画像とに基づいて、スタイル画像生成モデルをトレーニングして、動物顔スタイル画像生成モデルを得るためのスタイル画像生成モデルトレーニングモジュールと、
を含み、
前記動物顔スタイル画像生成モデルは、元の人間顔画像に対応する動物顔スタイル画像を得るために使用され、前記動物顔スタイル画像とは、前記元の人間顔画像における人間顔を動物顔に変換した画像である、ことを特徴とする、動物顔スタイル画像生成モデルのトレーニング装置。
メモリとプロセッサを含む電子機器であって、
前記メモリには、コンピュータプログラムが記憶されており、前記コンピュータプログラムが前記プロセッサによって実行されると、前記プロセッサに、請求項１から７のいずれか１項に記載の動物顔スタイル画像の生成方法を実行させるか、または、請求項８から１３のいずれか１項に記載の動物顔スタイル画像生成モデルのトレーニング方法を実行させる、ことを特徴とする、電子機器。
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、前記プロセッサに、請求項１から７のいずれか１項に記載の動物顔スタイル画像の生成方法を実行させるか、または、請求項８から１３のいずれか１項に記載の動物顔スタイル画像生成モデルのトレーニング方法を実行させる、ことを特徴とする、コンピュータ可読記憶媒体。