JP2022172377A

JP2022172377A - 画像生成方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2022172377A
Application number: JP2022145137A
Authority: JP
Inventors: ツィリャンシュウ，; Zhiliang Xu; ツィビンホン，; Zhibin Hong
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-09
Filing date: 2022-09-13
Publication date: 2022-11-15
Anticipated expiration: 2042-09-13
Also published as: CN114187624A; CN114187624B; JP7390454B2; US20230143452A1

Abstract

【課題】画像生成方法、装置、電子機器及び記憶媒体を提供する。
【解決手段】方法は、参照画像および処理対象画像を取得するステップと、参照画像からターゲット融合特徴を抽出するステップと、ターゲット融合特徴に基づいて、参照画像に対応する複数の深度特徴マップを決定するステップと、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得するステップと、ターゲット特徴マップに基づいて、処理対象画像を処理して、ターゲット画像を生成するステップと、を含む。
【効果】これにより、画像融合の計算量を効果的に削減することができ、計算能力の低い電子機器に効果的に適用可能であり、計算リソースを効果的に節約するとともに、画像生成効果を効果的に向上させることができる。
【選択図】図１

Description

本開示は、人工知能技術の分野に関し、具体的には、深層学習、コンピュータビジョンなどの技術分野に関し、顔画像処理及び顔画像認識などのシナリオに適用可能であり、特に、画像生成方法、装置、電子機器及び記憶媒体に関する。

人工知能は、コンピュータに人間の特定の思考過程と知能的行動（学習、推論、思考、計画など）をシミュレートさせることを研究する科学であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能ハードウェア技術には、通常、センサー、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術が含まれる。人工知能ソフトウェア技術には、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術、機械学習／深層学習、ビッグデータ処理技術、知識グラフ技術などの方向性が含まれる。

関連技術では、画像融合（例えば、画像Ａの特徴を画像Ｂに融合させる）では、通常、大きな計算量が必要であるため、画像生成方法は、計算能力の低い電子機器には適用することができない。

本開示は、画像生成方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。

本開示の第１の態様によれば、画像生成方法を提供し、参照画像および処理対象画像を取得するステップと、前記参照画像からターゲット融合特徴を抽出するステップと、前記ターゲット融合特徴に基づいて、前記参照画像に対応する複数の深度特徴マップを決定するステップと、前記ターゲット融合特徴に基づいて、前記複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得するステップと、前記ターゲット特徴マップに基づいて、前記処理対象画像を処理して、ターゲット画像を生成するステップと、を含む。

本開示の第２の態様によれば、画像生成装置を提供し、参照画像および処理対象画像を取得するための取得モジュールと、前記参照画像からターゲット融合特徴を抽出するための抽出モジュールと、前記ターゲット融合特徴に基づいて、前記参照画像に対応する複数の深度特徴マップを決定するための決定モジュールと、前記ターゲット融合特徴に基づいて、前記複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得するための第１の処理モジュールと、前記ターゲット特徴マップに基づいて、前記処理対象画像を処理して、ターゲット画像を生成するための第２の処理モジュールと、を備える。

本開示の第３の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信可能に接続されるメモリと、を備え、メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、命令は、少なくとも１つのプロセッサが本開示の第１の態様に記載の画像生成方法を実行できるように、少なくとも１つのプロセッサによって実行される。

本開示の第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ命令は、コンピュータに本開示の第１の態様の画像生成方法を実行させる。

本開示の第５の態様によれば、コンピュータプログラムを提供し、コンピュータプログラムがプロセッサによって実行される場合、本開示の第１の態様の画像生成方法が実現される。

なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は下記の明細書の記載を通して理解しやすくなる。

図面は、本開示をより良く理解するためのものであり、本開示を限定するものではない。
本開示の第１の実施例に係る概略図である。本開示の実施例に係るＵ字型ニューラルネットワークの概略構成図である。本開示の第２の実施例に係る概略図である。本開示の第３の実施例に係る概略図である。本開示の第４の実施例に係る概略図である。本開示の実施例の画像生成方法を実施するための例示的な電子機器の概略ブロック図である。

以下、図面と組み合わせて本開示の例示的な実施例を説明する。理解を容易にするために、その中には本発明の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本発明の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができる。また、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

図１は本開示の第１の実施例に係る概略図である。

なお、ここで、本実施例の画像生成方法の実行本体は画像生成装置であり、この装置は、ソフトウェアおよび／またはハードウェアによって実施することができ、この装置は電子機器に配置することができ、電子機器は、端末、サーバーなどを備えることができるが、これらに限定されない。

本開示の実施例は、人工知能技術の分野に関し、具体的には、コンピュータビジョン及び深層学習技術の分野に関し、顔画像処理及び顔画像認識などのシナリオに適用可能である。

ここで、人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）、英語の略語はＡＩである。これは、人間の知能を模擬、延伸及び拡張するための理論、方法、技術及び応用システムを研究、開発する新しい技術科学である。

深層学習は、サンプルデータの内在的ルール及び表示レベルを学習するものであり、これらの学習過程において取得された情報は、文字、画像及び音声などのデータの解釈に大きく寄与する。深層学習の最終目標は、機械が人間のように解析と学習能力を持つことができ、文字、画像及び音声などのデータを認識できるようにすることである。

コンピュータビジョンとは、人間の目の代わりにカメラやコンピュータを使って目標を認識、追跡、計測などのマシンビジョンを行い、さらにグラフィックス処理を行って、コンピュータ処理を人間の観察または検出用の機器への送信に適した画像にすることを指す。

顔画像処理とは、コンピュータ技術を使用して、入力された顔画像またはビデオストリームを処理し、画像に含まれる顔画像情報を抽出することを指す。顔画像認識とは、顔画像の顔特徴に基づいて顔画像内の各主な顔器官の位置情報を抽出し、さらにこれらの情報に基づいて各顔に含まれる特徴を抽出することを指す。

本開示によって提供される画像生成方法を、顔画像処理および顔画像認識などのシナリオに適用する場合、顔画像融合の計算量を効果的に低減することができ、顔画像生成方法を計算能力の低い電子機器に効果的に適用することができ、計算リソースを効果的に節約するとともに、顔画像生成の効果を効果的に向上させることができる。

なお、本開示の実施例では、関連するユーザーの個人情報の収集、保管、使用、処理、送信、提供、および開示はすべて、関連する法律および規制に準拠しており、公序良俗に違反しない。

図１に示すように、この画像生成方法は、以下のステップＳ１０１～Ｓ１０５を含む。

Ｓ１０１では、参照画像および処理対象画像を取得する。

ここで、現在処理オブジェクトとなっている画像は、処理対象画像と呼ぶことができ、この処理対象画像の数は１枚または複数枚であり得、この処理対象画像は、携帯電話、カメラなどの撮影機能を備えた撮像装置によって撮影され得るか、またはビデオストリームを解析することによって取得され得、例えば、この処理対象画像は、ビデオに含まれる複数のビデオフレームから抽出されたビデオフレーム画像の一部であり得るが、これに限定されない。

ここで、画像生成方法の実行中に、処理対象画像の参照として機能する画像は、参照画像と呼ばれ得、この参照画像の数は、１枚または複数枚であり得、ここで、参照画像は、対応する身元情報を有し得、この参照画像は、例えば、処理対象画像と同じ画像であり得るか、または処理対象画像に関連する情報を有する画像であり得るが、これに限定されない。

ここで、身元情報は、例えば、参照画像内の人物の衣服情報、髪型情報、体型情報、または参照画像内の人物の身元の情報を表現できる任意の他の情報などであり得るが、これに限定されない。

すなわち、本開示の実施例の適用シナリオは、例えば、身元情報を有する参照画像を取得し、次に、参照画像から身元情報を抽出し、この身元情報を処理対象画像に融合して、参照画像内の人物の身元情報を含むターゲット画像を生成することであり得るが、これに限定されない。

なお、本開示の実施例における参照画像および処理対象画像は、特定のユーザに対して取得された画像ではなく、特定のユーザの個人情報を反映することはできず、参照画像および処理対象画像、ならびに上記の身元情報はすべて、当該利用者の許可を得て取得したものであり、取得過程は、関連する法律および規制に準拠しており、公序良俗に違反しない。

選択的に、いくつかの実施例では、参照画像および処理対象画像を取得することは、ソース画像と初期画像を取得し、第１の数のキーポイントに基づいてソース画像内のソース領域画像と標準オブジェクト画像とに対してマルチポイントアライメント処理を行って、参照画像を取得し、そして、第２の数のキーポイントに基づいて初期画像内の初期領域画像と標準オブジェクト画像とに対してアライメント処理を行って、処理対象画像を取得することであり得る。異なるアライメント方法を使用してソース画像及び初期画像に対してそれぞれアライメント処理を行うため、後続の画像生成方法の実行中に、参照画像と処理対象画像とのアライメント効果を効果的に向上させることができ、これにより、参照画像および処理対象画像から完全な領域画像を取得することができ、後続の参照画像と処理対象画像との画像融合が容易になり、参照画像および処理対象画像から画像情報を正確に読み取ることができ、画像生成効果を効果的に向上させるのに役立つ。

ここで、初期段階で得られた未処理の参照画像はソース画像と呼ぶことができ、それに対応して、画像生成方法の初期段階で得られた未処理の処理オブジェクト画像は初期画像と呼ぶことができる。即ち、本開示の実施例では、ソース画像および初期画像を取得し、次に、ソース画像および初期画像に対して、それぞれ対応するアライメント処理を行って、参照画像および処理対象画像を取得することができるが、これに限定されない。

ここで、画像は、対応するオブジェクトを撮影してキャプチャすることによって取得することができ、このオブジェクトは、例えば、人物、動物、植物、または前述のオブジェクトの一部（五官、髪、顔輪郭）などであり得、本開示の実施例では、オブジェクトが人物であることを例として、この人物の画像撮影および身元情報の抽出は、いずれも当該利用者の許可を得て取得したものであり、取得過程は、法律および規制の規定に準拠しており、公序良俗に違反しない。

本開示の実施例では、画像は複数のオブジェクトを含むことができ、複数のオブジェクトのそれぞれは、異なる領域画像（この領域画像は画像内のローカル画像領域にすることができる）に対応付けられ、本開示の実施例では、ソース画像によって記述されたオブジェクトを第１のオブジェクトとし、第１のオブジェクトに対応する画像領域をソース領域画像とすることができ、これに対応して、初期画像によって記述されたオブジェクトを第２のオブジェクトとし、第２のオブジェクトに対応する画像領域を初期領域画像とすることができるが、これに限定されない。

例えば、画像が顔画像である場合、オブジェクトは、具体的には、例えば、五官、髪、および顔輪郭であり得、オブジェクトに対応する領域は、具体的には、例えば、五官の領域、髪の領域、または顔輪郭の領域であり得るが、これに限定されない。

本開示の実施例では、ソース画像および初期画像に対して対応する処理を行って、参照画像および処理対象画像を取得することは、ソース画像内のソース領域画像から、対応する数（この数は第１の数と呼ばれる）のキーポイントを選択し、初期画像の初期領域画像から、対応する数（この数は第２の数と呼ばれる）のキーポイントを選択し、第１の数のキーポイントに基づいて、ソース画像と標準オブジェクト画像とに対してアライメント処理を行って、参照画像を取得し、第２の数のキーポイントに基づいて、初期画像の初期領域画像と標準オブジェクト画像とに対してアライメント処理を行って、処理対象画像を取得することであり得る。

ここで、画像をアライメントするための参照として使用される画像は、標準オブジェクト画像と呼ばれることができ、この標準オブジェクト画像は、事前にラベルが付けられてもよいが、これに限定されない。

例えば、この標準オブジェクト画像は、高品質の顔データセット（ＦｌｉｃｋｒＦａｃｅｓＨｉｇｈＱｕａｌｉｔｙ、ＦＦＨＱ）内の高解像度の顔画像にすることができ、高品質の顔データセットＦＦＨＱには、１０２４×１０２４の解像度のポータブルネットワークグラフィック（ＰｏｒｔａｂｌｅＮｅｔｗｏｒｋＧｒａｐｈｉｃｓ、ＰＮＧ）形式の７０,０００枚の高解像度の顔画像が含まれているが、これに限定されない。

例えば、第１の数のキーポイントに基づいてソース画像内のソース領域画と標準オブジェクト画像とに対してマルチポイントアライメント処理を行うことは、５つのキーポイントに基づいて、深い顔認識のための付加的な角度マージン損失（ＡｄｄｉｔｉｖｅＡｎｇｕｌａｒＭａｒｇｉｎＬｏｓｓｆｏｒＤｅｅｐＦａｃｅＲｅｃｏｇｎｉｔｉｏｎ、ＡｒｃＦａｃｅ）アルゴリズムを使用して、ソース領域画像と標準オブジェクト画像とに対してマルチポイントアライメント処理を行って、参照画像を取得することによって行うことができるが、これに限定されない。

例えば、第２の数のキーポイントに基づいて初期画像内の初期領域画像と標準オブジェクト画像とに対してアライメント処理を行うことは、７２個のキーポイントに基づいて、高品質の顔データセット（ＦｌｉｃｋｒＦａｃｅｓＨｉｇｈＱｕａｌｉｔｙ、ＦＦＨＱ）と同じアライメント方法を使用して、初期領域画像と標準オブジェクト画像とに対してマルチポイントアライメント処理を行って、処理対象画像を取得することによって行うことができるが、これに限定されない。

Ｓ１０２では、参照画像からターゲット融合特徴を抽出する。

ここで、参照画像の身元情報を表現するための特徴はターゲット融合特徴と呼ばれることができ、すなわち、このターゲット融合特徴は、参照画像から抽出された身元情報特徴であり得、ここで、身元情報は、具体的には、例えば、参照画像内の人物の服装情報、髪型情報、体型情報、又は参照画像内の人物の身元の情報を表現できる任意の他の情報などであり得るが、これに限定されない。

すなわち、本開示の実施例では、参照画像と処理対象画像との融合処理を実現するために、参照画像内のターゲット融合特徴を、処理対象画像に融合させることをサポートすることができる。詳細については、後続の実施例を参照することができる。

いくつかの実施例では、事前にトレーニングされたニューラルネットワークモデルを使用して、参照画像からターゲット融合特徴を抽出することができる。例えば、参照画像を事前にトレーニングされたニューラルネットワークモデルの入力パラメータとして、事前にトレーニングされたニューラルネットワークモデルから出力された身元情報特徴を取得し、この身元情報特徴をターゲット融合特徴とすることができる。

本開示の実施例では、ＡｒｃＦａｃｅアルゴリズムを使用して、処理対象画像を処理することで、処理対象画像の複数の身元情報特徴を取得し、そして、この身元情報特徴をターゲット融合特徴とすることができ、または、他の任意の可能な方法を使用して、参照画像からターゲット融合特徴を抽出することができるが、これに限定されない。

選択的に、いくつかの実施例では、参照画像からターゲット融合特徴を抽出することは、参照画像から融合対象特徴を抽出し、融合対象特徴をコーディングして、ターゲット融合特徴を取得することによって行うことができる。参照画像から融合対象特徴を抽出し、融合対象特徴をコーディングして、ターゲット融合特徴を取得するため、融合対象特徴のデータ量を効果的に削減するとともに、コーディング処理によって取得されたターゲット融合特徴が後続のモデルの入力データへのフォーマット要件を満たすようにすることができ、また、融合対象特徴をコーディングすることにより、無関係な特徴による干渉もある程度除去することができ、生成されたターゲット画像の品質を改善するのに役立つ。

ここで、参照画像において、現在符号化されるべき身元情報特徴は、融合対象特徴と呼ばれ得、すなわち、本開示の実施形態において、まず、参照画像から融合対象特徴を抽出し、次いで、融合対象特徴をコーディングして、ターゲット融合特徴を取得することができる。

ここで、コーディング処理とは、さまざまなネットワーク帯域幅、さまざまな端末処理能力、およびさまざまなユーザーニーズに適応するために、特定の圧縮技術を介して特定の形式の情報を別の形式の情報に変換する情報処理技術を指す。

いくつかの実施例では、融合対象特徴をコーディングすることは、画像生成装置において対応するエンコーダを事前に構成し、次いで、画像生成方法の実行中に、融合対象特徴を事前に構成されたエンコーダに入力し、エンコーダによって、融合対象特徴をコーディングして、対応するターゲット融合特徴を出力することによって実行することができるが、これは限定されない。

Ｓ１０３では、ターゲット融合特徴に基づいて、参照画像に対応する複数の深度特徴マップを決定する。

本開示の実施例では、本開示の実施例における画像生成方法を実現して、ターゲット画像を生成するために、Ｕ字型ニューラルネットワーク（Ｕｎｅｔ）を導入することができ、図２に示すように、図２は本開示の実施例に係るＵ字型ニューラルネットワークの概略構成図である。

なお、図２に含まれる顔画像は、特定のユーザーに対して取得された顔画像ではなく、特定のユーザの個人情報を反映することはできず、上記の顔画像はすべて、当該利用者の許可を得て取得したものであり、取得過程は、関連する法律および規制に準拠しており、公序良俗に違反しない。

本開示の実施例では、Ｕｎｅｔの通常の畳み込みを深さ方向に分離可能な畳み込み（Ｄｅｐｔｈｗｉｓｅｓｅｐｅｒａｂｌｅｃｏｎｖｏｌｕｔｉｏｎ）に置き換えることをサポートし、Ｕｎｅｔのパラメータ量を減らすことができるため、Ｕｎｅｔのパラメータ量は０.５兆になり、計算量は０.４４ギガ浮動小数点演算／秒（ＧｉｇａＦｌｏａｔｉｎｇＰｏｉｎｔＯｐｅｒａｔｉｏｎｓＰｅｒＳｅｃｏｎｄ、ＧＦＬＯＰＳ）になり、これによって、画像生成方法の実行中に、計算リソースを効果的に節約することができ、画像生成方法の実行効率を効果的に向上させるのに役立つため、本開示の実施例に係る画像生成方法は、計算能力の低いエッジデバイス（例：Ｄｉｍｅｎｓｉｔｙ１１００コンピューティングパワーの携帯電話）に適用可能である。

ここで、深さ方向に分離可能な畳み込みは、畳み込みニューラルネットワークの標準的な畳み込み計算を改善することによって得られるアルゴリズムであり、空間次元とチャネル（深度）次元の間の相関を分割することにより、畳み込み計算に必要なパラメータの数を減らすため、従来の畳み込みは、深さ方向に分離可能な畳み込みに置き換えられる場合、画像生成方法の実行効率を効果的に向上させるのに役立つ。

ここで、深さ方向に分離可能な畳み込みがチャネル（深度）を空間的に畳み込んで得られる特徴マップは深度特徴マップと呼ばれる。

いくつかの実施例では、参照画像に対応する複数の深度特徴マップを決定することは、深度畳み込みネットワークと組み合わせて、深度畳み込みネットワークの複数のチャネルで、参照画像をそれぞれ畳み込むことにより、深度畳み込みネットワークの複数のチャネルによって出力された複数の深度特徴マップを取得することができ、または、特徴解析方法、モデル解析方法など他の任意の可能な方法を使用して、参照画像に対応する複数の深度特徴マップを決定することができるが、これに限定されない。

Ｓ１０４では、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得する。

本開示の実施例は、ターゲット融合特徴に基づいて、参照画像に対応する複数の深度特徴マップを決定した後、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、融合された特徴マップを取得することができ、この融合された特徴マップはターゲット特徴マップと呼ばれる。

いくつかの実施例では、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得することは、ターゲット融合特徴を参照して、複数の深度特徴画像に対して特徴接続処理を行って、前述した処理によって取得された特徴マップをターゲット特徴マップとすることによって行うことができる。

他の実施例では、事前にトレーニングされた特徴マップ融合モデルと組み合わせて、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得することができ、または、他の任意の可能な方法を使用して、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得することもできるが、これに限定されない。

すなわち、本開示の実施例では、参照画像内のターゲット融合特徴を組み合わせて、参照画像に対応する複数の深度特徴マップを決定し、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得することで、ターゲット特徴マップは、画像深度の次元に基づいて、対応する参照画像に含まれる身元情報を表すことができ、参照画像内の身元情報の抽出及び表現はより正確となり、身元情報をターゲット特徴マップに取り込むことを実現し、このターゲット特徴マップに基づいて処理対象画像を処理して、ターゲット画像を生成する場合、画像生成効果を効果的に向上させ、深さ方向に分離可能な畳み込みに基づいて参照画像を処理して複数の深度特徴マップを取得することにより、画像融合の計算量を効果的に低減させ、計算能力の低い電子機器に効果的に適用することができる

Ｓ１０５では、ターゲット特徴マップに基づいて、処理対象画像を処理して、ターゲット画像を生成する。

本開示の実施例では、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得した後、ターゲット特徴マップに基づいて、処理対象画像を処理して、ターゲット画像を生成することができる。

いくつかの実施例では、ターゲット特徴マップに基づいて、処理対象画像を処理して、ターゲット画像を生成することは、ターゲット特徴マップ及び処理対象画像に対して融合処理を行って、前述の融合処理によって取得された画像をターゲット画像とすることによって行うことができる。

他の実施例では、ターゲット特徴マップに基づいて、処理対象画像を処理することは、事前にトレーニングされた畳み込みニューラルネットワークと組み合わせて、ターゲット特徴マップを処理対象画像に追加してターゲット画像を生成するか、または他の任意の可能な方法を使用して、ターゲット特徴マップに基づいて、処理対象画像を処理して、ターゲット画像を生成することによって行うことができるが、これに限定されない。

本実施例では、参照画像および処理対象画像を取得し、参照画像からターゲット融合特徴を抽出し、そして、ターゲット融合特徴に基づいて、参照画像に対応する複数の深度特徴マップを決定し、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得し、ターゲット特徴マップに基づいて、処理対象画像を処理して、ターゲット画像を生成することにより、画像融合の計算量を効果的に削減することができ、計算能力の低い電子機器に効果的に適用可能であり、計算リソースを効果的に節約するとともに、画像生成効果を効果的に向上させることができる。

図３は、本開示の第２の実施例に係る概略図である。

図３に示すように、この画像生成方法は、ステップＳ３０１～Ｓ３１２を含む。

Ｓ３０１では、参照画像および処理対象画像を取得する。

Ｓ３０２では、参照画像からターゲット融合特徴を抽出する。

Ｓ３０１－Ｓ３０２の説明については、具体的には、上記の実施例を参照することができるため、ここでは説明を省略する。

Ｓ３０３では、ターゲット融合特徴に基づいて、予測畳み込みパラメータを決定する。

ここで、予測された初期深度畳み込みネットワークのネットワークパラメータは、予測畳み込みパラメータと呼ばれ得る。

ここで、画像生成方法の実行中に、取得された未処理の深度畳み込みネットワークは、初期深度畳み込みネットワークと呼ばれ得、この初期深度畳み込みネットワークは、具体的には、深さ方向に分離可能な畳み込みネットワークにおける深度（Ｄｅｐｔｈｗｉｓｅ）畳み込みであり得るが、これに限定されない。

ここで、初期深度畳み込みネットワークのＤｅｐｔｈｗｉｓｅネットワーク（このネットワークの機能は、複数の特徴マップを取得するように、各深度で個別に畳み込むことである）のネットワークパラメータは、具体的には、例えば、入力パラメータの数、フィルター層の層数、畳み込みカーネルのサイズ、および出力チャネルの数などであり得るが、これに限定されない。

いくつかの実施例では、ターゲット融合特徴に基づいて、予測畳み込みパラメータを決定する場合、ターゲット融合特徴の特徴次元の数に基づいて、初期深度畳み込みネットワークのＤｅｐｔｈｗｉｓｅネットワークに入力される特徴の数を決定し、この特徴の数は、初期深度畳み込みネットワークのＤｅｐｔｈｗｉｓｅネットワークの入力パラメータの数に対応し、ターゲット融合特徴によって表現される参照画像に含まれるさまざまな深度値に基づいて、フィルター層の層数を決定することができ、または他の可能なターゲット融合特徴のいくつかの特徴形態と組み合わせて、Ｄｅｐｔｈｗｉｓｅネットワークのネットワークパラメータを調整できる他の値を決定して、予測ネットワークパラメータとすることもできる。

他の実施例では、ターゲット融合特徴をマーク特徴と比較することができ、このマーク特徴は予めマークされていてもよく、このマーク特徴に対して、適切なＤｅｐｔｈｗｉｓｅネットワークのネットワークパラメータを予め設定することができ、そして、ターゲット融合特徴にマッチングされているマーク特徴に適合したネットワークパラメータを、予測ネットワークパラメータとし、ここで、マーク特徴がＤｅｐｔｈｗｉｓｅネットワークのネットワークパラメータに適合させることは、適合したネットワークパラメータに基づいてＤｅｐｔｈｗｉｓｅネットワークを構成することで、構成されたＤｅｐｔｈｗｉｓｅネットワークがマーク特徴を効果的に学習およびモデル化できることを意味し得るが、これに限定されない。

Ｓ３０４では、初期深度畳み込みネットワークの初期畳み込みパラメータを、予測畳み込みパラメータに調整して、ターゲット深度畳み込みネットワークを取得する。

ここで、初期深度畳み込みネットワークに対応するネットワークパラメータは初期畳み込みパラメータと呼ばれる。

本開示の実施例は、ターゲット融合特徴に基づいて、予測畳み込みパラメータを決定した後、初期深度畳み込みネットワークの初期畳み込みパラメータを、予測畳み込みパラメータに調整して、調整された深度畳み込みネットワークをターゲット深度畳み込みネットワークとすることができる。

例えば、初期深度畳み込みネットワークの初期畳み込みパラメータを、予測畳み込みパラメータに調整することは、初期深度畳み込みネットワークの初期畳み込みパラメータを、予測畳み込みパラメータに置き換えるか、または他の任意の可能な方法を使用して、初期深度畳み込みネットワークの初期畳み込みパラメータを、予測畳み込みパラメータに調整して、ターゲット深度畳み込みネットワークを取得するステップであってもよいが、これに限定されない。

Ｓ３０５では、ターゲット深度畳み込みネットワークを使用して、参照画像から特徴マップを抽出して、複数の候補深度にそれぞれ対応する複数の深度特徴マップを取得し、複数の候補深度は、ターゲット融合特徴に基づいて決定される。

ここで、参照画像が有するさまざまな深度値は、候補深度と呼ばれ得、複数の候補深度は、ターゲット融合特徴に基づいて決定することができるが、これに限定されない。

なお、参照画像は通常、シナリオ内のオブジェクトを撮影することによって取得されるため、参照画像は実際にはシナリオ内の空間ステレオ情報を画像化するため、参照画像はそれに応じて複数の深度値を含み、例えば、深度分析アルゴリズムを使用して参照画像を分析し、撮像装置の内部パラメータおよび外部パラメータと組み合わせて、参照画像が有するさまざまな深度値を候補深度として決定することができ、または、飛行時間アルゴリズムを使用して、撮像装置からシナリオ内の空間ステレオ情報までの相対的距離を測定し、撮像装置のフォーカス情報と組み合わせて、参照画像が有するさまざまな深度値を決定することもできるが、これに限定されない。

本開示の実施例では、ターゲット深度畳み込みネットワークは、各深度で畳み込みを個別に実行して、複数の特徴マップのモデル演算タスクを取得することができるため、ターゲット深度畳み込みネットワークを使用して、参照画像から特徴マップを抽出して、複数の候補深度にそれぞれ対応する複数の深度特徴マップを取得することができ、ここで、複数の候補深度は、ターゲット融合特徴に基づいて決定され、ターゲット融合特徴は、参照画像から抽出された身元情報特徴であってもよく、ここで、身元情報は、例えば、参照画像内の人物の衣服情報、髪型情報、体型情報、または参照画像内の人物の身元情報を表現することができる任意の他の情報などであり得るため、ターゲット融合特徴に基づいて複数の候補深度が決定される場合、生成された複数の深度特徴マップは、より多くのターゲット融合特徴を含むことができ、ターゲット融合特徴は、深度次元に基づいて表すことができ、ターゲット融合特徴の表現効果を効果的に向上させ、後続のターゲット画像の生成品質を確保することができる。

Ｓ３０６では、ターゲット融合特徴に基づいて、予測畳み込みカーネルパラメータを決定し、予測畳み込みカーネルパラメータは、予測された初期ポイントワイズ畳み込み（Ｐｏｉｎｔｗｉｓｅ）ネットワークのネットワークパラメータである。

ここで、本開示の実施例によって提案されるＵｎｅｔにおける深さ方向に分離可能な畳み込みは、深度畳み込みネットワークおよびポイントワイズ畳み込みネットワークを含み得、このポイントワイズ畳み込みネットワークに対応するネットワークパラメータは、初期畳み込みカーネルパラメータと呼ばれ得る。

いくつかの実施例では、ターゲット融合特徴に基づいて、予測畳み込みカーネルパラメータを決定する場合、ターゲット融合特徴に基づいて、上階層のターゲット深度畳み込みネットワークの出力チャネル数を決定し、そして、この出力チャネル数を予測畳み込みカーネルパラメータ（即ち、予測された初期ポイントワイズ畳み込み（Ｐｏｉｎｔｗｉｓｅ）ネットワークのネットワークパラメータ）とすることができるが、これに限定されない。

他の実施例では、ターゲット融合特徴をマーク特徴と比較することができ、このマーク特徴は予めマークされていてもよく、このマーク特徴に対して、適切なＰｏｉｎｔｗｉｓｅネットワークのネットワークパラメータを予め構成することができ、そして、ターゲット融合特徴にマッチングされているマーク特徴に適合したＰｏｉｎｔｗｉｓｅネットワークのネットワークパラメータを、予測ネットワークパラメータとし、ここで、マーク特徴がＰｏｉｎｔｗｉｓｅネットワークのネットワークパラメータに適合することは、この適合したネットワークパラメータに基づいてＰｏｉｎｔｗｉｓｅネットワークを構成することで、構成されたＰｏｉｎｔｗｉｓｅネットワークがマーク特徴を効果的に学習およびモデル化できることを意味し得るが、これに限定されない

Ｓ３０７では、初期ポイントワイズ畳み込みネットワークの初期畳み込みカーネルパラメータを、予測畳み込みカーネルパラメータに調整して、ターゲットポイントワイズ畳み込みネットワークを取得する。

ここで、画像生成方法の実行中に、取得された未処理のポイントワイズ畳み込み（Ｐｏｉｎｔｗｉｓｅ）ネットワークは、初期ポイントワイズ畳み込みネットワークと呼ばれ得、この初期ポイントワイズ畳み込みネットワークは、対応するネットワークパラメータを有することができ、このネットワークパラメータは、初期畳み込みカーネルパラメータと呼ばれ得、この初期畳み込みカーネルパラメータは、例えば、ポイントワイズ畳み込み（Ｐｏｉｎｔｗｉｓｅ）ネットワークの畳み込みカーネルの数であり得るが、これに限定されない。

本開示の実施例は、ターゲット融合特徴に基づいて、予測畳み込みカーネルパラメータを決定した後、初期ポイントワイズ畳み込みネットワークの初期畳み込みカーネルパラメータを、予測畳み込みカーネルパラメータに調整し、調整されたポイントワイズ畳み込みネットワークをターゲットポイントワイズ畳み込みネットワークとすることができる。

例えば、パラメータ変調（ＷｅｉｇｈｔＭｏｄｕｌａｔｉｏｎ）の方法を使用して、初期ポイントワイズ畳み込みネットワークの初期畳み込みカーネルパラメータを、予測畳み込みカーネルパラメータに調整するか、または他の任意の可能な方法を使用して、初期ポイントワイズ畳み込みネットワークの初期畳み込みカーネルパラメータを、予測畳み込みカーネルパラメータに調整して、ターゲットポイントワイズ畳み込みネットワークを取得するステップを実行してもよいが、これに限定されない。

Ｓ３０８では、ターゲットポイントワイズ畳み込みネットワークを使用して、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得する。

本開示の実施例は、ターゲット深度畳み込みネットワークを使用して、参照画像から特徴マップを抽出して、複数の候補深度にそれぞれ対応する複数の深度特徴マップを取得した後、ターゲットポイントワイズ畳み込みネットワークを使用して、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得することができる。上記のターゲット深度畳み込みネットワークとターゲットポイントワイズ畳み込みネットワークの組み合わせにより、Ｕ字型ニューラルネットワーク（Ｕｎｅｔ）の学習およびモデリング機能の実現を共同で支援することができ、さらに、ターゲット深度畳み込みネットワークとターゲットポイントワイズ畳み込みネットワークの両方が、参照画像内のターゲット融合特徴を参照して調整することによって取得されるため、Ｕ字型ニューラルネットワーク（Ｕｎｅｔ）の学習およびモデリング機能を効果的に実施するとともに、Ｕ字型ニューラルネットワーク（Ｕｎｅｔ）は、参照画像内のターゲット融合特徴を効果的に学習およびモデル化して、ターゲット特徴マップをより高品質で学習およびモデル化することができるため、このターゲット特徴マップは参照画像のターゲット融合特徴をより効果的かつ正確に表現することができる。

例えば、ターゲットポイントワイズ畳み込みネットワークを使用して、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得する場合、ターゲットポイントワイズ畳み込みネットワークによって、複数のチャネル（深度）で、複数の深度特徴マップに重みを付けて組み合わせる、即ち、予測畳み込みカーネルパラメータと複数の深度特徴マップを乗算して、ターゲットポイントワイズ畳み込みネットワークから出力された、標準分布を示すターゲット特徴マップを取得するか、または、他の任意の可能な方法を使用して、ターゲットポイントワイズ畳み込みネットワークを使用して、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得するステップを実現してもよいが、これに限定されない。

Ｓ３０９では、処理対象画像から、第２の背景領域画像と第２のオブジェクトの領域画像とを決定し、第２の背景領域画像は、初期マスク特徴を有する。

ここで、参照画像は、第１の背景領域画像と第１のオブジェクトの領域画像を含み得、第１の背景領域画像は、参照画像における背景領域を表現するための画像であり得る。

ここで、第１の背景領域画像は対応するマスク特徴を有し得、このマスク特徴は参照マスク特徴と呼ばれ得る。

ここで、処理対象画像における背景領域を表現するための画像は、第２の背景領域画像と呼ばれ得、それに応じて、処理対象画像における第２のオブジェクト領域を表現するための画像は、第２のオブジェクトの領域画像と呼ばれ得る。

例えば、参照画像および処理対象画像が顔画像である場合、オブジェクトの領域画像は、例えば、顔の領域画像であり得、背景領域画像は、例えば、髪の領域画像であり得るが、これに限定されない。

ここで、第２の背景領域画像は、対応するマスク特徴を有し得、このマスク特徴は初期マスク特徴と呼ばれ得る。

本開示の実施例では、処理対象画像から、第２の背景領域画像と第２のオブジェクトの領域画像とを決定することは、画像処理装置を使用して、処理対象画像に対して分割処理を行って、第２の背景領域画像と第２のオブジェクトの領域画像とを取得するか、または、他の任意の可能な方法を使用して、処理対象画像から、第２の背景領域画像と第２のオブジェクトの領域画像とを決定することができるが、これに限定されない。

Ｓ３１０では、参照マスク特徴に基づいて、第２の背景領域画像の初期マスク特徴を調整して、ターゲット背景領域画像を取得し、ここで、ターゲット背景領域画像のマスク特徴は、調整された初期マスク特徴であり、参照マスク特徴と調整された初期マスク特徴の間で一致性条件が満たされている。

本開示の実施例では、第１の背景領域画像の参照マスク特徴に基づいて、参照マスク特徴と調整された初期マスク特徴の間で一致性条件が満たされるまで、第２の背景領域画像の初期マスク特徴を調整し、調整された初期マスク特徴に対応する画像をターゲット背景領域画像とすることができる。

ここで、一致性条件は、例えば、参照マスク特徴と調整された初期マスク特徴が一致していることを確保することであってもよく、または、この一致性条件は実際の画像生成シナリオのビジネス要件に応じて自己適応的に構成してもよいが、これに限定されない。

Ｓ３１１では、ターゲット特徴マップを第２のオブジェクトの領域画像に融合して、合成対象画像を取得する。

本開示の実施例では、ターゲット特徴マップと処理対象画像の第２のオブジェクトの領域画像に対して融合処理を行って、前述の融合処理によって得られた画像を合成対象画像とすることができる。

いくつかの実施例では、事前にトレーニングされた畳み込みニューラルネットワークと組み合わせて、ターゲット特徴マップを第２のオブジェクトの領域画像に追加して、ターゲット特徴マップと処理対象画像の第２のオブジェクトの領域画像に対して融合処理を行って、合成対象画像を取得するか、または、画像融合アルゴリズム、変調ベースの画像融合など、他の任意の可能な方法を使用して、ターゲット特徴マップを第２のオブジェクトの領域画像に融合して、合成対象画像を取得することができるが、これに限定されない

選択的に、いくつかの実施例では、ターゲット特徴マップを第２のオブジェクトの領域画像に融合して、合成対象画像を取得することは、ターゲット特徴マップを第２のオブジェクトの領域画像に融合して、融合対象画像を取得し、第１のオブジェクトの領域画像を、事前にトレーニングされたマスク予測モデルに入力して、マスク予測モデルから出力された第１のオブジェクトの予測マスク特徴を取得し、予測マスク特徴を、融合対象画像に融合して、合成対象画像を取得することによって行うことができる。事前にトレーニングされたマスク予測モデルと組み合わせて、第１のオブジェクトの領域画像の予測マスク特徴が決定されるため、予測マスク特徴抽出の柔軟性および操作可能性を効果的に向上させるとともに、予測マスク特徴の精度を効果的に向上させることができ、これによって、予測マスク特徴が第１のオブジェクトの領域画像の画像情報を正確に表現し、生成された画像が参照画像の身元情報を完全に表現し、画像生成効果を効果的に向上させることができる。

本開示の実施例は、処理対象画像の第２のオブジェクトの領域画像を決定した後、ターゲット特徴マップと第２のオブジェクトの領域画像に対して融合処理を行って、融合処理された画像を融合対象画像とすることができる。

ここで、事前にトレーニング済みのマスク予測モデルは事前にトレーニングされたマスク予測モデルと呼ばれ得、この事前にトレーニングされたマスク予測モデルは、具体的には、ニューラルネットワークモデルや機械学習モデルなどの人工知能モデルであリ得、もちろん、マスク予測を実行できる他の任意の可能な人工知能モデルを使用してもよいが、これに限定されない。

本開示の実施例では、参照画像の第１のオブジェクトの領域画像を事前にトレーニングされたマスク予測モデルの入力パラメータとして、事前にトレーニングされたマスク予測モデルから出力されたマスク特徴を取得することができ、このマスク特徴は第１のオブジェクトの予測マスク特徴と呼ばれ得る。

本開示の実施例では、事前にトレーニングされたマスク予測モデルから出力された第１のオブジェクトの予測マスク特徴を取得した後、予測マスク特徴と融合対象画像に対して融合処理を行って、融合処理された画像を取得して合成対象画像とすることができる。

Ｓ３１２：ターゲット背景領域画像と合成対象画像とに基づいて、ターゲット画像を合成する。

本開示の実施例では、ターゲット背景領域画像と合成対象画像を取得した後、ターゲット背景領域画像と合成対象画像とに対して合成処理（この合成処理方法は、例えば、画像スティッチングであるが、これに限定されない）を行って、合成処理された画像をターゲット画像とすることができる。

本実施例では、前記処理対象画像から、第２の背景領域画像と第２のオブジェクトの領域画像とを決定し、前記参照マスク特徴に基づいて前記第２の背景領域画像の初期マスク特徴を調整して、ターゲット背景領域画像を取得し、そして、前記ターゲット特徴マップを前記第２のオブジェクトの領域画像に融合して、合成対象画像を取得し、前記ターゲット背景領域画像と前記合成対象画像とに基づいて、前記ターゲット画像を合成することにより、画像の背景が複雑であるため、背景が転送されにくいという技術的問題を効果的に解決することができるとともに、画像生成方法の実行中の画像背景変異や画像オブジェクトちらつきなどの画像ジッターの問題を効果的に解決し、画像生成効果を効果的に向上させることができる。

本開示の実施例では、画像生成方法の安定性を向上させるために、蒸留に基づく画像生成のトレーニングスキームを導入することもでき、上記の図２に示すように、トレーニングされた画像生成モデルの出力結果を通して画像生成モデルを監視することにより、画像生成効果をさらに向上させることができ、この過程では、教師モデルは、参照画像と処理対象画像の身元の類似度が低い、または生成された画像の品質が低いなど、画像生成でいくつかの失敗事例も生成する。これらの失敗ケースを使用して学生モデルを蒸留する場合、学生モデルもこれらの失敗ケースを生成する。上記の問題を解決するために、本開示の実施例は、教師の出力結果の品質評価モジュールを設計することができる。教師モデルから出力された参照画像の身元の類似度と教師モデルから出力されたターゲット画質を使用して評価し、評価結果を使用して蒸留損失の重みを動的に調整することにより、学生モデルの画像生成効果を効果的に向上させることができる。

本実施例では、参照画像および処理対象画像を取得し、参照画像からターゲット融合特徴を抽出し、そして、ターゲット融合特徴に基づいて、参照画像に対応する複数の深度特徴マップを決定し、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得し、ターゲット特徴マップに基づいて、処理対象画像を処理して、ターゲット画像を生成することにより、画像融合の計算量を効果的に削減することができ、計算能力の低い電子機器に効果的に適用可能であり、計算リソースを効果的に節約するとともに、画像生成効果を効果的に向上させることができる。ターゲット深度畳み込みネットワークは、各深度で畳み込みを個別に実行して、複数の特徴マップのモデル演算タスクを取得することができるため、ターゲット深度畳み込みネットワークを使用して、参照画像から特徴マップを抽出して、複数の候補深度にそれぞれ対応する複数の深度特徴マップを取得することができ、ここで、複数の候補深度は、ターゲット融合特徴に基づいて決定され、ターゲット融合特徴は、参照画像から抽出された身元情報特徴であってもよく、ここで、身元情報は、例えば、参照画像内の人物の衣服情報、髪型情報、体型情報、または参照画像内の人物の身元情報を表現することができる任意の他の情報などであり得るため、ターゲット融合特徴に基づいて複数の候補深度が決定される場合、生成された複数の深度特徴マップは、より多くのターゲット融合特徴を含むことができ、ターゲット融合特徴は、深度次元に基づいて表すことができ、ターゲット融合特徴の表現効果を効果的に向上させ、後続のターゲット画像の生成品質を確保することができる。上記のターゲット深度畳み込みネットワークとターゲットポイントワイズ畳み込みネットワークとの組み合わせにより、Ｕ字型ニューラルネットワーク（Ｕｎｅｔ）の学習およびモデリング機能の実現を共同で支援することができ、さらに、ターゲット深度畳み込みネットワークとターゲットポイントワイズ畳み込みネットワークの両方が、参照画像内のターゲット融合特徴を参照して調整することによって取得されるため、Ｕ字型ニューラルネットワーク（Ｕｎｅｔ）の学習およびモデリング機能を効果的に実施するとともに、Ｕ字型ニューラルネットワーク（Ｕｎｅｔ）は、参照画像内のターゲット融合特徴を効果的に学習およびモデル化して、ターゲット特徴マップをより高品質で学習およびモデル化することができるため、このターゲット特徴マップは参照画像のターゲット融合特徴をより効果的かつ正確に表現することができる。前記処理対象画像から、第２の背景領域画像と第２のオブジェクトの領域画像とを決定し、前記参照マスク特徴に基づいて前記第２の背景領域画像の初期マスク特徴を調整して、ターゲット背景領域画像を取得し、そして、前記ターゲット特徴マップを前記第２のオブジェクトの領域画像に融合して、合成対象画像を取得し、前記ターゲット背景領域画像と前記合成対象画像とに基づいて、前記ターゲット画像を合成することにより、画像の背景が複雑であるため、背景が転送されにくいという技術的問題を効果的に解決することができるとともに、画像生成方法の実行中の画像背景変異や画像オブジェクトちらつきなどの画像ジッターの問題を効果的に解決し、画像生成効果を効果的に向上させることができる。

図４は、本開示の第３の実施例に係る概略図である。

図４に示すように、この画像生成装置４０は、参照画像および処理対象画像を取得するための取得モジュール４０１と、参照画像からターゲット融合特徴を抽出するための抽出モジュール４０２と、ターゲット融合特徴に基づいて、参照画像に対応する複数の深度特徴マップを決定するための決定モジュール４０３と、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得するための第１の処理モジュール４０４と、ターゲット特徴マップに基づいて、処理対象画像を処理して、ターゲット画像を生成するための第２の処理モジュール４０５と、を備える。

本開示のいくつかの実施例では、図５に示すように、図５は、本開示の第４の実施例に係る概略図であり、この画像生成装置５０は、取得モジュール５０１、抽出モジュール５０２、決定モジュール５０３、第１の処理モジュール５０４、及び第２の処理モジュール５０５を備え、ここで、抽出モジュール５０２は、具体的には、参照画像から融合対象特徴を抽出し、融合対象特徴をコーディングして、ターゲット融合特徴を取得する。

本開示のいくつかの実施例では、決定モジュール５０３は、具体的には、ターゲット融合特徴に基づいて、予測畳み込みパラメータを決定し、ここで、予測畳み込みパラメータが、予測された初期深度畳み込みネットワークのネットワークパラメータであり、初期深度畳み込みネットワークの初期畳み込みパラメータを、予測畳み込みパラメータに調整して、ターゲット深度畳み込みネットワークを取得し、ターゲット深度畳み込みネットワークを使用して、参照画像から特徴マップを抽出して、複数の候補深度にそれぞれ対応する複数の深度特徴マップを取得し、ここで、複数の候補深度が、ターゲット融合特徴に基づいて決定される。

本開示のいくつかの実施例では、第１の処理モジュール５０４は、具体的には、ターゲット融合特徴に基づいて、予測畳み込みカーネルパラメータを決定し、予測畳み込みカーネルパラメータが、予測された初期ポイントワイズ畳み込みネットワークのネットワークパラメータであり、初期ポイントワイズ畳み込みネットワークの初期畳み込みカーネルパラメータを、予測畳み込みカーネルパラメータに調整して、ターゲットポイントワイズ畳み込みネットワークを取得し、ターゲットポイントワイズ畳み込みネットワークを使用して、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得する。

本開示のいくつかの実施例では、参照画像は、第１の背景領域画像および第１のオブジェクトの領域画像を含み、ターゲット融合特徴は、第１のオブジェクトの画像特徴を表現するために使用され、第１の背景領域画像は参照マスク特徴を有し、ここで、第２の処理モジュール５０５は、処理対象画像から、第２の背景領域画像と第２のオブジェクトの領域画像とを決定するための決定サブモジュール５０５１であって、第２の背景領域画像は、初期マスク特徴を有する決定サブモジュール５０５１と、参照マスク特徴に基づいて、第２の背景領域画像の初期マスク特徴を調整して、ターゲット背景領域画像を取得するための調整サブモジュール５０５２であって、ターゲット背景領域画像のマスク特徴は、調整された初期マスク特徴であり、参照マスク特徴と調整された初期マスク特徴の間で一致性条件が満たされている調整サブモジュール５０５２と、ターゲット特徴マップを第２のオブジェクトの領域画像に融合して、合成対象画像を取得するための融合サブモジュール５０５３と、ターゲット背景領域画像と合成対象画像とに基づいて、ターゲット画像を合成するための合成サブモジュール５０５４と、を備える。

本開示のいくつかの実施例では、ここで、融合サブモジュール５０５３は、具体的には、ターゲット特徴マップを第２のオブジェクトの領域画像に融合して、融合対象画像を取得し、第１のオブジェクトの領域画像を、事前にトレーニングされたマスク予測モデルに入力して、マスク予測モデルから出力された第１のオブジェクトの予測マスク特徴を取得し、予測マスク特徴を融合対象画像に融合して、合成対象画像を取得する。

本開示のいくつかの実施例では、ここで、取得モジュール５０１は、具体的には、ソース画像及び初期画像を取得し、ソース画像が第１のオブジェクトのソース領域画像を含み、初期画像が第２のオブジェクトの初期領域画像を含み、第１の数のキーポイントに基づいて、ソース画像内のソース領域画像と標準オブジェクト画像とに対してマルチポイントアライメント処理を行って、参照画像を取得し、第２の数のキーポイントに基づいて、初期画像内の初期領域画像と標準オブジェクト画像とに対してアライメント処理を行って、処理対象画像を取得し、ここで、第１の数が第２の数よりも大きい。

なお、本実施例の図５における画像生成装置５０と上記の実施例における画像生成装置４０、取得モジュール５０１と上記の実施例における取得モジュール４０１、抽出モジュール５０２と上記の実施例における抽出モジュール４０２、決定モジュール５０３と上記の実施例における決定モジュール４０３、第１の処理モジュール５０４と上記の実施例における第１の処理モジュール４０４、ならびに第２の処理モジュール５０５と上記の実施例における第２の処理モジュール４０５は、同じの機能及び構造を有し得る。

なお、前述した画像生成方法の解釈及び説明は本実施例の画像生成装置にも適用される。

本開示の実施例によれば、本開示は、電子機器、及び読み取り可能な記憶媒体をさらに提供する。
本開示の実施例によれば、本開示は、コンピュータプログラムをさらに提供し、コンピュータプログラムはプロセッサによって実行される場合、本開示によって提供される画像生成方法が実現される。

図６は本開示の実施例の画像生成方法を実現するための例示的な電子機器の概略ブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルディジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ及び他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子機器はさらに、例えば、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス及び他の同様のコンピューティング装置など、様々な形態の移動体装置を表すことができる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び／又は請求される本開示の実施を限定することを意図しない。

図６に示すように、機器６００は、リードオンリーメモリ(ＲＯＭ)６０２に記憶されたコンピュータプログラムや、記憶ユニット６０８からランダムアクセスメモリ(ＲＡＭ)６０３にロードされたコンピュータプログラムに基づいて、各種の適切な動作及び処理を実行することができる計算ユニット６０１を備える。ＲＡＭ６０３には、さらに、機器６００の操作に必要な各種のプログラム及びデータを記憶してもよい。計算ユニット６０１、ＲＯＭ６０２及びＲＡＭ６０３は、バス６０４を介して相互に接続されている。入力／出力(Ｉ／Ｏ)インターフェース６０５もバス６０４に接続されている。

機器６００における複数のコンポーネントはＩ／Ｏインターフェース６０５に接続されており、キーボード、マウス、マイクなどのような入力ユニット６０６と、各種のディスプレイ、スピーカなどのような出力ユニット６０７と、磁気ディスク、光ディスクなどのような記憶ユニット６０８と、ネットワークカード、モデム、無線通信送受信機などのような通信ユニット６０９とを備える。通信ユニット６０９は、機器６００が、インターネットのようなコンピュータネットワーク及び／又は各種の電気通信網を介して、他の機器と情報／データを交換することを可能にする。

計算ユニット６０１は、処理及びコンピューティング能力を有する汎用及び／又は専用の処理コンポーネントであってもよい。計算ユニット６０１のいくつかの例として、中央処理装置(ＣＰＵ)、グラフィックス処理装置(ＧＰＵ)、各種の人工知能(ＡＩ)専用コンピューティングチップ、機械学習モデルアルゴリズムを実行する各種の計算ユニット、デジタル信号処理装置(ＤＳＰ)、及びあらゆる適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット６０１は、上述した各方法及び処理、例えば画像生成方法を実行する。例えば、いくつかの実施例では、画像生成方法は、記憶ユニット１３０８のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ＲＯＭ
６０２及び／又は通信ユニット６０９を介して、機器６００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ６０３にロードされ、計算ユニット６０１によって実行される場合、上述した画像生成方法の１つ又は複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット６０１は、画像生成方法を実行するように他の任意の適切な形態(例えばファームウェアの助けを借りる)で構成されてもよい。

ここで説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(ＦＰＧＡ)、特定用途向け集積回路(ＡＳＩＣ)、特定用途用標準品(ＡＳＳＰ)、システムオンチップのシステム(ＳＯＣ)、複雑なプログラマブルロジックデバイス(ＣＰＬＤ)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラム内で実施されることを含むことができ、この１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを備えるプログラマブルシステム上で実行及び／又は解釈することができ、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、この記憶システム、この少なくとも１つの入力装置、及びこの少なくとも１つの出力装置にデータ及び命令を送信することができる。

本開示の画像生成方法を実施するためのプログラムコードは１つ又は複数のプログラミング言語の任意の組み合わせを用いて作成することができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び/またはブロック図で規定された機能・動作が実施されるように、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ若しくはコントローラに提供することができる。プログラムコードは、機械上で完全に実行されるか、機械上で部分的に実行されるか、スタンドアロンソフトウェアパッケージとして機械上で部分的に実行され、且つ遠隔機械上で部分的に実行されるか、又は遠隔機械やプロセッサ上で完全に実行されてもよい。

本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置又は機器に使用され、或いは、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか、又は記憶できる有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は電子的、磁気的、光学的、電磁的、赤外線、又は半導体システム、装置又は機器、或いは上述した内容の任意の適切な組み合わせを備えることができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は１つ又は複数の電線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(ＲＡＭ)、リードオンリーメモリ(ＲＯＭ)、消去可能なプログラマブルリードオンリーメモリ(ＥＰＲＯＭ又はフラッシュメモリ)、光ファイバー、コンパクトディスクリードオンリーメモリ(ＣＤ-ＲＯＭ)、光学記憶機器、磁気記憶機器、又は上記内容の任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、ＣＲＴ(陰極線管)やＬＣＤ(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザがこのキーボード及びこのポインティングデバイスによりコンピュータに入力を提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態の感知フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、また、任意の形態(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、このグラフィカルユーザインターフェース又はこのウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントとの任意のグループの組み合わせを備えるコンピューティングシステムで実施される。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(ＬＡＮ)と、ワイドエリアネットワーク(ＷＡＮ)と、インターネットと、ブロックチェーンネットワークとを含む。

コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストとＶＰＳサービス(「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は略称「ＶＰＳ」)において存在する、管理の難易度が大きく、業務拡張性が低いという欠点を解決するためのものである。サーバは分散システムのサーバ、又はブロックチェーンと結び付けたサーバであってもよい。

なお、以上に示される様々な形態のフローを使用して、ステップを並び替え、追加、又は削除を行うことが可能であることを理解すべきである。例えば、本開示に記載されている各ステップは、並列に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよいが、本開示に開示されている技術案が所望する結果を実現することができる限り、本明細書ではこれに限定されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解すべきである。本開示の精神及び原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

参照画像および処理対象画像を取得するステップと、
前記参照画像からターゲット融合特徴を抽出するステップと、
前記ターゲット融合特徴に基づいて、前記参照画像に対応する複数の深度特徴マップを決定するステップと、
前記ターゲット融合特徴に基づいて、前記複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得するステップと、
前記ターゲット特徴マップに基づいて、前記処理対象画像を処理して、ターゲット画像を生成するステップと、
を含む画像生成方法。
前記参照画像からターゲット融合特徴を抽出するステップが、
前記参照画像から融合対象特徴を抽出するステップと、
前記融合対象特徴をコーディングして、前記ターゲット融合特徴を取得するステップと、
を含む請求項１に記載の画像生成方法。
前記ターゲット融合特徴に基づいて、前記参照画像に対応する複数の深度特徴マップを決定するステップが、
前記ターゲット融合特徴に基づいて、予測畳み込みパラメータを決定するステップであって、前記予測畳み込みパラメータは、予測された初期深度畳み込みネットワークのネットワークパラメータであるステップと、
前記初期深度畳み込みネットワークの初期畳み込みパラメータを、前記予測畳み込みパラメータに調整して、ターゲット深度畳み込みネットワークを取得するステップと、
前記ターゲット深度畳み込みネットワークを使用して、前記参照画像から特徴マップを抽出して、複数の候補深度にそれぞれ対応する複数の深度特徴マップを取得するステップであって、前記複数の候補深度は、前記ターゲット融合特徴に基づいて決定されるステップと、
を含む請求項１に記載の画像生成方法。
前記ターゲット融合特徴に基づいて、前記複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得するステップが、
前記ターゲット融合特徴に基づいて、予測畳み込みカーネルパラメータを決定するステップであって、前記予測畳み込みカーネルパラメータは、予測された初期ポイントワイズ畳み込みネットワークのネットワークパラメータであるステップと、
前記初期ポイントワイズ畳み込みネットワークの初期畳み込みカーネルパラメータを、前記予測畳み込みカーネルパラメータに調整して、ターゲットポイントワイズ畳み込みネットワークを取得するステップと、
前記ターゲットポイントワイズ畳み込みネットワークを使用して、前記複数の深度特徴マップに対して融合処理を行って、前記ターゲット特徴マップを取得するステップと、
を含む請求項３に記載の画像生成方法。
前記参照画像が、第１の背景領域画像および第１のオブジェクトの領域画像を含み、前記ターゲット融合特徴が、前記第１のオブジェクトの画像特徴を表現するために使用され、前記第１の背景領域画像が参照マスク特徴を有し、
前記ターゲット特徴マップに基づいて、前記処理対象画像を処理して、ターゲット画像を生成するステップが、
前記処理対象画像から、第２の背景領域画像と第２のオブジェクトの領域画像とを決定するステップであって、前記第２の背景領域画像は、初期マスク特徴を有するステップと、
前記参照マスク特徴に基づいて前記第２の背景領域画像の初期マスク特徴を調整して、ターゲット背景領域画像を取得するステップであって、前記ターゲット背景領域画像のマスク特徴は、調整された前記初期マスク特徴であり、前記参照マスク特徴と調整された前記初期マスク特徴の間で一致性条件が満たされているステップと、
前記ターゲット特徴マップを前記第２のオブジェクトの領域画像に融合して、合成対象画像を取得するステップと、
前記ターゲット背景領域画像と前記合成対象画像とに基づいて、前記ターゲット画像を合成するステップと、
を含む請求項１に記載の画像生成方法。
前記ターゲット特徴マップを前記第２のオブジェクトの領域画像に融合して、合成対象画像を取得するステップが、
前記ターゲット特徴マップを前記第２のオブジェクトの領域画像に融合して、融合対象画像を取得するステップと、
前記第１のオブジェクトの領域画像を、事前にトレーニングされたマスク予測モデルに入力して、前記マスク予測モデルから出力された前記第１のオブジェクトの予測マスク特徴を取得するステップと、
前記予測マスク特徴を前記融合対象画像に融合して、前記合成対象画像を取得するステップと、
を含む請求項５に記載の画像生成方法。
前記参照画像および処理対象画像を取得するステップが、
ソース画像及び初期画像を取得するステップであって、前記ソース画像が、第１のオブジェクトのソース領域画像を含み、前記初期画像が、第２のオブジェクトの初期領域画像を含むステップと、
第１の数のキーポイントに基づいて、前記ソース画像内の前記ソース領域画像と標準オブジェクト画像とに対してマルチポイントアライメント処理を行って、前記参照画像を取得するステップと、
第２の数のキーポイントに基づいて、前記初期画像内の前記初期領域画像と前記標準オブジェクト画像とに対してアライメント処理を行って、前記処理対象画像を取得するステップであって、前記第１の数が前記第２の数よりも大きいステップと、
を含む請求項１に記載の画像生成方法。
参照画像および処理対象画像を取得するための取得モジュールと、
前記参照画像からターゲット融合特徴を抽出するための抽出モジュールと、
前記ターゲット融合特徴に基づいて、前記参照画像に対応する複数の深度特徴マップを決定するための決定モジュールと、
前記ターゲット融合特徴に基づいて、前記複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得するための第１の処理モジュールと、
前記ターゲット特徴マップに基づいて、前記処理対象画像を処理して、ターゲット画像を生成するための第２の処理モジュールと、
を備える画像生成装置。
前記抽出モジュールが、
前記参照画像から融合対象特徴を抽出し、
前記融合対象特徴をコーディングして、前記ターゲット融合特徴を取得する請求項８に記載の画像生成装置。
前記決定モジュールが、
前記ターゲット融合特徴に基づいて、予測畳み込みパラメータを決定し、前記予測畳み込みパラメータが、予測された初期深度畳み込みネットワークのネットワークパラメータであり、
前記初期深度畳み込みネットワークの初期畳み込みパラメータを、前記予測畳み込みパラメータに調整して、ターゲット深度畳み込みネットワークを取得し、
前記ターゲット深度畳み込みネットワークを使用して、前記参照画像から特徴マップを抽出して、複数の候補深度にそれぞれ対応する複数の深度特徴マップを取得し、前記複数の候補深度が、前記ターゲット融合特徴に基づいて決定される請求項８に記載の画像生成装置。
前記第１の処理モジュールが、
前記ターゲット融合特徴に基づいて、予測畳み込みカーネルパラメータを決定し、前記予測畳み込みカーネルパラメータが、予測された初期ポイントワイズ畳み込みネットワークのネットワークパラメータであり、
前記初期ポイントワイズ畳み込みネットワークの初期畳み込みカーネルパラメータを、前記予測畳み込みカーネルパラメータに調整して、ターゲットポイントワイズ畳み込みネットワークを取得し、
前記ターゲットポイントワイズ畳み込みネットワークを使用して、前記複数の深度特徴マップに対して融合処理を行って、前記ターゲット特徴マップを取得する請求項１０に記載の画像生成装置。
前記参照画像は、第１の背景領域画像および第１のオブジェクトの領域画像を含み、前記ターゲット融合特徴は、前記第１のオブジェクトの画像特徴を表現するために使用され、前記第１の背景領域画像は参照マスク特徴を有し、
前記第２の処理モジュールが、
前記処理対象画像から、第２の背景領域画像と第２のオブジェクトの領域画像とを決定するための決定サブモジュールであって、前記第２の背景領域画像は、初期マスク特徴を有する決定サブモジュールと、
前記参照マスク特徴に基づいて前記第２の背景領域画像の初期マスク特徴を調整して、ターゲット背景領域画像を取得するための調整サブモジュールであって、前記ターゲット背景領域画像のマスク特徴は、調整された前記初期マスク特徴であり、前記参照マスク特徴と調整された前記初期マスク特徴の間で一致性条件が満たされている調整サブモジュールと、
前記ターゲット特徴マップを前記第２のオブジェクトの領域画像に融合して、合成対象画像を取得するための融合サブモジュールと、
前記ターゲット背景領域画像と前記合成対象画像とに基づいて、前記ターゲット画像を合成するための合成サブモジュールと、
を含む請求項８に記載の画像生成装置。
前記融合サブモジュールが、
前記ターゲット特徴マップを前記第２のオブジェクトの領域画像に融合して、融合対象画像を取得し、
前記第１のオブジェクトの領域画像を、事前にトレーニングされたマスク予測モデルに入力して、前記マスク予測モデルから出力された前記第１のオブジェクトの予測マスク特徴を取得し、
前記予測マスク特徴を前記融合対象画像に融合して、前記合成対象画像を取得する請求項１２に記載の画像生成装置。
前記取得モジュールが、
ソース画像及び初期画像を取得し、前記ソース画像が第１のオブジェクトのソース領域画像を含み、前記初期画像が第２のオブジェクトの初期領域画像を含み、
第１の数のキーポイントに基づいて、前記ソース画像内の前記ソース領域画像と標準オブジェクト画像とに対してマルチポイントアライメント処理を行って、前記参照画像を取得し、
第２の数のキーポイントに基づいて、前記初期画像内の前記初期領域画像と前記標準オブジェクト画像とに対してアライメント処理を行って、前記処理対象画像を取得し、前記第１の数が前記第２の数よりも大きい請求項８に記載の画像生成装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が、前記少なくとも１つのプロセッサが請求項１から７のいずれか一項に記載の画像生成方法を実行できるように、前記少なくとも１つのプロセッサによって実行される電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項１から７のいずれか一項に記載の画像生成方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される場合、請求項１から７のいずれか一項に記載の画像生成方法のステップが実現されるコンピュータプログラム。