JP2022172377A - 画像生成方法、装置、電子機器及び記憶媒体 - Google Patents

画像生成方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2022172377A
JP2022172377A JP2022145137A JP2022145137A JP2022172377A JP 2022172377 A JP2022172377 A JP 2022172377A JP 2022145137 A JP2022145137 A JP 2022145137A JP 2022145137 A JP2022145137 A JP 2022145137A JP 2022172377 A JP2022172377 A JP 2022172377A
Authority
JP
Japan
Prior art keywords
image
target
features
initial
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022145137A
Other languages
English (en)
Other versions
JP7390454B2 (ja
Inventor
ツィリャン シュウ,
Zhiliang Xu
ツィビン ホン,
Zhibin Hong
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022172377A publication Critical patent/JP2022172377A/ja
Application granted granted Critical
Publication of JP7390454B2 publication Critical patent/JP7390454B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

Figure 2022172377000001
【課題】画像生成方法、装置、電子機器及び記憶媒体を提供する。
【解決手段】方法は、参照画像および処理対象画像を取得するステップと、参照画像からターゲット融合特徴を抽出するステップと、ターゲット融合特徴に基づいて、参照画像に対応する複数の深度特徴マップを決定するステップと、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得するステップと、ターゲット特徴マップに基づいて、処理対象画像を処理して、ターゲット画像を生成するステップと、を含む。
【効果】これにより、画像融合の計算量を効果的に削減することができ、計算能力の低い電子機器に効果的に適用可能であり、計算リソースを効果的に節約するとともに、画像生成効果を効果的に向上させることができる。
【選択図】図1

Description

本開示は、人工知能技術の分野に関し、具体的には、深層学習、コンピュータビジョンなどの技術分野に関し、顔画像処理及び顔画像認識などのシナリオに適用可能であり、特に、画像生成方法、装置、電子機器及び記憶媒体に関する。
人工知能は、コンピュータに人間の特定の思考過程と知能的行動(学習、推論、思考、計画など)をシミュレートさせることを研究する科学であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能ハードウェア技術には、通常、センサー、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術が含まれる。人工知能ソフトウェア技術には、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術、機械学習/深層学習、ビッグデータ処理技術、知識グラフ技術などの方向性が含まれる。
関連技術では、画像融合(例えば、画像Aの特徴を画像Bに融合させる)では、通常、大きな計算量が必要であるため、画像生成方法は、計算能力の低い電子機器には適用することができない。
本開示は、画像生成方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。
本開示の第1の態様によれば、画像生成方法を提供し、参照画像および処理対象画像を取得するステップと、前記参照画像からターゲット融合特徴を抽出するステップと、前記ターゲット融合特徴に基づいて、前記参照画像に対応する複数の深度特徴マップを決定するステップと、前記ターゲット融合特徴に基づいて、前記複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得するステップと、前記ターゲット特徴マップに基づいて、前記処理対象画像を処理して、ターゲット画像を生成するステップと、を含む。
本開示の第2の態様によれば、画像生成装置を提供し、参照画像および処理対象画像を取得するための取得モジュールと、前記参照画像からターゲット融合特徴を抽出するための抽出モジュールと、前記ターゲット融合特徴に基づいて、前記参照画像に対応する複数の深度特徴マップを決定するための決定モジュールと、前記ターゲット融合特徴に基づいて、前記複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得するための第1の処理モジュールと、前記ターゲット特徴マップに基づいて、前記処理対象画像を処理して、ターゲット画像を生成するための第2の処理モジュールと、を備える。
本開示の第3の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、命令は、少なくとも1つのプロセッサが本開示の第1の態様に記載の画像生成方法を実行できるように、少なくとも1つのプロセッサによって実行される。
本開示の第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ命令は、コンピュータに本開示の第1の態様の画像生成方法を実行させる。
本開示の第5の態様によれば、コンピュータプログラムを提供し、コンピュータプログラムがプロセッサによって実行される場合、本開示の第1の態様の画像生成方法が実現される。
なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は下記の明細書の記載を通して理解しやすくなる。
図面は、本開示をより良く理解するためのものであり、本開示を限定するものではない。
本開示の第1の実施例に係る概略図である。 本開示の実施例に係るU字型ニューラルネットワークの概略構成図である。 本開示の第2の実施例に係る概略図である。 本開示の第3の実施例に係る概略図である。 本開示の第4の実施例に係る概略図である。 本開示の実施例の画像生成方法を実施するための例示的な電子機器の概略ブロック図である。
以下、図面と組み合わせて本開示の例示的な実施例を説明する。理解を容易にするために、その中には本発明の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本発明の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができる。また、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
図1は本開示の第1の実施例に係る概略図である。
なお、ここで、本実施例の画像生成方法の実行本体は画像生成装置であり、この装置は、ソフトウェアおよび/またはハードウェアによって実施することができ、この装置は電子機器に配置することができ、電子機器は、端末、サーバーなどを備えることができるが、これらに限定されない。
本開示の実施例は、人工知能技術の分野に関し、具体的には、コンピュータビジョン及び深層学習技術の分野に関し、顔画像処理及び顔画像認識などのシナリオに適用可能である。
ここで、人工知能(Artificial Intelligence)、英語の略語はAIである。これは、人間の知能を模擬、延伸及び拡張するための理論、方法、技術及び応用システムを研究、開発する新しい技術科学である。
深層学習は、サンプルデータの内在的ルール及び表示レベルを学習するものであり、これらの学習過程において取得された情報は、文字、画像及び音声などのデータの解釈に大きく寄与する。深層学習の最終目標は、機械が人間のように解析と学習能力を持つことができ、文字、画像及び音声などのデータを認識できるようにすることである。
コンピュータビジョンとは、人間の目の代わりにカメラやコンピュータを使って目標を認識、追跡、計測などのマシンビジョンを行い、さらにグラフィックス処理を行って、コンピュータ処理を人間の観察または検出用の機器への送信に適した画像にすることを指す。
顔画像処理とは、コンピュータ技術を使用して、入力された顔画像またはビデオストリームを処理し、画像に含まれる顔画像情報を抽出することを指す。顔画像認識とは、顔画像の顔特徴に基づいて顔画像内の各主な顔器官の位置情報を抽出し、さらにこれらの情報に基づいて各顔に含まれる特徴を抽出することを指す。
本開示によって提供される画像生成方法を、顔画像処理および顔画像認識などのシナリオに適用する場合、顔画像融合の計算量を効果的に低減することができ、顔画像生成方法を計算能力の低い電子機器に効果的に適用することができ、計算リソースを効果的に節約するとともに、顔画像生成の効果を効果的に向上させることができる。
なお、本開示の実施例では、関連するユーザーの個人情報の収集、保管、使用、処理、送信、提供、および開示はすべて、関連する法律および規制に準拠しており、公序良俗に違反しない。
図1に示すように、この画像生成方法は、以下のステップS101~S105を含む。
S101では、参照画像および処理対象画像を取得する。
ここで、現在処理オブジェクトとなっている画像は、処理対象画像と呼ぶことができ、この処理対象画像の数は1枚または複数枚であり得、この処理対象画像は、携帯電話、カメラなどの撮影機能を備えた撮像装置によって撮影され得るか、またはビデオストリームを解析することによって取得され得、例えば、この処理対象画像は、ビデオに含まれる複数のビデオフレームから抽出されたビデオフレーム画像の一部であり得るが、これに限定されない。
ここで、画像生成方法の実行中に、処理対象画像の参照として機能する画像は、参照画像と呼ばれ得、この参照画像の数は、1枚または複数枚であり得、ここで、参照画像は、対応する身元情報を有し得、この参照画像は、例えば、処理対象画像と同じ画像であり得るか、または処理対象画像に関連する情報を有する画像であり得るが、これに限定されない。
ここで、身元情報は、例えば、参照画像内の人物の衣服情報、髪型情報、体型情報、または参照画像内の人物の身元の情報を表現できる任意の他の情報などであり得るが、これに限定されない。
すなわち、本開示の実施例の適用シナリオは、例えば、身元情報を有する参照画像を取得し、次に、参照画像から身元情報を抽出し、この身元情報を処理対象画像に融合して、参照画像内の人物の身元情報を含むターゲット画像を生成することであり得るが、これに限定されない。
なお、本開示の実施例における参照画像および処理対象画像は、特定のユーザに対して取得された画像ではなく、特定のユーザの個人情報を反映することはできず、参照画像および処理対象画像、ならびに上記の身元情報はすべて、当該利用者の許可を得て取得したものであり、取得過程は、関連する法律および規制に準拠しており、公序良俗に違反しない。
選択的に、いくつかの実施例では、参照画像および処理対象画像を取得することは、ソース画像と初期画像を取得し、第1の数のキーポイントに基づいてソース画像内のソース領域画像と標準オブジェクト画像とに対してマルチポイントアライメント処理を行って、参照画像を取得し、そして、第2の数のキーポイントに基づいて初期画像内の初期領域画像と標準オブジェクト画像とに対してアライメント処理を行って、処理対象画像を取得することであり得る。異なるアライメント方法を使用してソース画像及び初期画像に対してそれぞれアライメント処理を行うため、後続の画像生成方法の実行中に、参照画像と処理対象画像とのアライメント効果を効果的に向上させることができ、これにより、参照画像および処理対象画像から完全な領域画像を取得することができ、後続の参照画像と処理対象画像との画像融合が容易になり、参照画像および処理対象画像から画像情報を正確に読み取ることができ、画像生成効果を効果的に向上させるのに役立つ。
ここで、初期段階で得られた未処理の参照画像はソース画像と呼ぶことができ、それに対応して、画像生成方法の初期段階で得られた未処理の処理オブジェクト画像は初期画像と呼ぶことができる。即ち、本開示の実施例では、ソース画像および初期画像を取得し、次に、ソース画像および初期画像に対して、それぞれ対応するアライメント処理を行って、参照画像および処理対象画像を取得することができるが、これに限定されない。
ここで、画像は、対応するオブジェクトを撮影してキャプチャすることによって取得することができ、このオブジェクトは、例えば、人物、動物、植物、または前述のオブジェクトの一部(五官、髪、顔輪郭)などであり得、本開示の実施例では、オブジェクトが人物であることを例として、この人物の画像撮影および身元情報の抽出は、いずれも当該利用者の許可を得て取得したものであり、取得過程は、法律および規制の規定に準拠しており、公序良俗に違反しない。
本開示の実施例では、画像は複数のオブジェクトを含むことができ、複数のオブジェクトのそれぞれは、異なる領域画像(この領域画像は画像内のローカル画像領域にすることができる)に対応付けられ、本開示の実施例では、ソース画像によって記述されたオブジェクトを第1のオブジェクトとし、第1のオブジェクトに対応する画像領域をソース領域画像とすることができ、これに対応して、初期画像によって記述されたオブジェクトを第2のオブジェクトとし、第2のオブジェクトに対応する画像領域を初期領域画像とすることができるが、これに限定されない。
例えば、画像が顔画像である場合、オブジェクトは、具体的には、例えば、五官、髪、および顔輪郭であり得、オブジェクトに対応する領域は、具体的には、例えば、五官の領域、髪の領域、または顔輪郭の領域であり得るが、これに限定されない。
本開示の実施例では、ソース画像および初期画像に対して対応する処理を行って、参照画像および処理対象画像を取得することは、ソース画像内のソース領域画像から、対応する数(この数は第1の数と呼ばれる)のキーポイントを選択し、初期画像の初期領域画像から、対応する数(この数は第2の数と呼ばれる)のキーポイントを選択し、第1の数のキーポイントに基づいて、ソース画像と標準オブジェクト画像とに対してアライメント処理を行って、参照画像を取得し、第2の数のキーポイントに基づいて、初期画像の初期領域画像と標準オブジェクト画像とに対してアライメント処理を行って、処理対象画像を取得することであり得る。
ここで、画像をアライメントするための参照として使用される画像は、標準オブジェクト画像と呼ばれることができ、この標準オブジェクト画像は、事前にラベルが付けられてもよいが、これに限定されない。
例えば、この標準オブジェクト画像は、高品質の顔データセット(Flickr Faces High Quality、FFHQ)内の高解像度の顔画像にすることができ、高品質の顔データセットFFHQには、1024×1024の解像度のポータブルネットワークグラフィック(Portable Network Graphics、PNG)形式の70,000枚の高解像度の顔画像が含まれているが、これに限定されない。
例えば、第1の数のキーポイントに基づいてソース画像内のソース領域画と標準オブジェクト画像とに対してマルチポイントアライメント処理を行うことは、5つのキーポイントに基づいて、深い顔認識のための付加的な角度マージン損失(Additive Angular Margin Loss for Deep Face Recognition、ArcFace)アルゴリズムを使用して、ソース領域画像と標準オブジェクト画像とに対してマルチポイントアライメント処理を行って、参照画像を取得することによって行うことができるが、これに限定されない。
例えば、第2の数のキーポイントに基づいて初期画像内の初期領域画像と標準オブジェクト画像とに対してアライメント処理を行うことは、72個のキーポイントに基づいて、高品質の顔データセット(Flickr Faces High Quality、FFHQ)と同じアライメント方法を使用して、初期領域画像と標準オブジェクト画像とに対してマルチポイントアライメント処理を行って、処理対象画像を取得することによって行うことができるが、これに限定されない。
なお、本開示の実施例における参照画像および処理対象画像は、特定のユーザに対して取得された画像ではなく、特定のユーザの個人情報を反映することはできず、参照画像および処理対象画像、ならびに上記の身元情報はすべて、当該利用者の許可を得て取得したものであり、取得過程は、関連する法律および規制に準拠しており、公序良俗に違反しない。
S102では、参照画像からターゲット融合特徴を抽出する。
ここで、参照画像の身元情報を表現するための特徴はターゲット融合特徴と呼ばれることができ、すなわち、このターゲット融合特徴は、参照画像から抽出された身元情報特徴であり得、ここで、身元情報は、具体的には、例えば、参照画像内の人物の服装情報、髪型情報、体型情報、又は参照画像内の人物の身元の情報を表現できる任意の他の情報などであり得るが、これに限定されない。
すなわち、本開示の実施例では、参照画像と処理対象画像との融合処理を実現するために、参照画像内のターゲット融合特徴を、処理対象画像に融合させることをサポートすることができる。詳細については、後続の実施例を参照することができる。
いくつかの実施例では、事前にトレーニングされたニューラルネットワークモデルを使用して、参照画像からターゲット融合特徴を抽出することができる。例えば、参照画像を事前にトレーニングされたニューラルネットワークモデルの入力パラメータとして、事前にトレーニングされたニューラルネットワークモデルから出力された身元情報特徴を取得し、この身元情報特徴をターゲット融合特徴とすることができる。
本開示の実施例では、ArcFaceアルゴリズムを使用して、処理対象画像を処理することで、処理対象画像の複数の身元情報特徴を取得し、そして、この身元情報特徴をターゲット融合特徴とすることができ、または、他の任意の可能な方法を使用して、参照画像からターゲット融合特徴を抽出することができるが、これに限定されない。
選択的に、いくつかの実施例では、参照画像からターゲット融合特徴を抽出することは、参照画像から融合対象特徴を抽出し、融合対象特徴をコーディングして、ターゲット融合特徴を取得することによって行うことができる。参照画像から融合対象特徴を抽出し、融合対象特徴をコーディングして、ターゲット融合特徴を取得するため、融合対象特徴のデータ量を効果的に削減するとともに、コーディング処理によって取得されたターゲット融合特徴が後続のモデルの入力データへのフォーマット要件を満たすようにすることができ、また、融合対象特徴をコーディングすることにより、無関係な特徴による干渉もある程度除去することができ、生成されたターゲット画像の品質を改善するのに役立つ。
ここで、参照画像において、現在符号化されるべき身元情報特徴は、融合対象特徴と呼ばれ得、すなわち、本開示の実施形態において、まず、参照画像から融合対象特徴を抽出し、次いで、融合対象特徴をコーディングして、ターゲット融合特徴を取得することができる。
ここで、コーディング処理とは、さまざまなネットワーク帯域幅、さまざまな端末処理能力、およびさまざまなユーザーニーズに適応するために、特定の圧縮技術を介して特定の形式の情報を別の形式の情報に変換する情報処理技術を指す。
いくつかの実施例では、融合対象特徴をコーディングすることは、画像生成装置において対応するエンコーダを事前に構成し、次いで、画像生成方法の実行中に、融合対象特徴を事前に構成されたエンコーダに入力し、エンコーダによって、融合対象特徴をコーディングして、対応するターゲット融合特徴を出力することによって実行することができるが、これは限定されない。
S103では、ターゲット融合特徴に基づいて、参照画像に対応する複数の深度特徴マップを決定する。
本開示の実施例では、本開示の実施例における画像生成方法を実現して、ターゲット画像を生成するために、U字型ニューラルネットワーク(Unet)を導入することができ、図2に示すように、図2は本開示の実施例に係るU字型ニューラルネットワークの概略構成図である。
なお、図2に含まれる顔画像は、特定のユーザーに対して取得された顔画像ではなく、特定のユーザの個人情報を反映することはできず、上記の顔画像はすべて、当該利用者の許可を得て取得したものであり、取得過程は、関連する法律および規制に準拠しており、公序良俗に違反しない。
本開示の実施例では、Unetの通常の畳み込みを深さ方向に分離可能な畳み込み(Depthwise seperable convolution)に置き換えることをサポートし、Unetのパラメータ量を減らすことができるため、Unetのパラメータ量は0.5兆になり、計算量は0.44ギガ浮動小数点演算/秒(Giga Floating Point Operations Per Second、GFLOPS)になり、これによって、画像生成方法の実行中に、計算リソースを効果的に節約することができ、画像生成方法の実行効率を効果的に向上させるのに役立つため、本開示の実施例に係る画像生成方法は、計算能力の低いエッジデバイス(例:Dimensity 1100コンピューティングパワーの携帯電話)に適用可能である。
ここで、深さ方向に分離可能な畳み込みは、畳み込みニューラルネットワークの標準的な畳み込み計算を改善することによって得られるアルゴリズムであり、空間次元とチャネル(深度)次元の間の相関を分割することにより、畳み込み計算に必要なパラメータの数を減らすため、従来の畳み込みは、深さ方向に分離可能な畳み込みに置き換えられる場合、画像生成方法の実行効率を効果的に向上させるのに役立つ。
ここで、深さ方向に分離可能な畳み込みがチャネル(深度)を空間的に畳み込んで得られる特徴マップは深度特徴マップと呼ばれる。
いくつかの実施例では、参照画像に対応する複数の深度特徴マップを決定することは、深度畳み込みネットワークと組み合わせて、深度畳み込みネットワークの複数のチャネルで、参照画像をそれぞれ畳み込むことにより、深度畳み込みネットワークの複数のチャネルによって出力された複数の深度特徴マップを取得することができ、または、特徴解析方法、モデル解析方法など他の任意の可能な方法を使用して、参照画像に対応する複数の深度特徴マップを決定することができるが、これに限定されない。
S104では、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得する。
本開示の実施例は、ターゲット融合特徴に基づいて、参照画像に対応する複数の深度特徴マップを決定した後、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、融合された特徴マップを取得することができ、この融合された特徴マップはターゲット特徴マップと呼ばれる。
いくつかの実施例では、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得することは、ターゲット融合特徴を参照して、複数の深度特徴画像に対して特徴接続処理を行って、前述した処理によって取得された特徴マップをターゲット特徴マップとすることによって行うことができる。
他の実施例では、事前にトレーニングされた特徴マップ融合モデルと組み合わせて、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得することができ、または、他の任意の可能な方法を使用して、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得することもできるが、これに限定されない。
すなわち、本開示の実施例では、参照画像内のターゲット融合特徴を組み合わせて、参照画像に対応する複数の深度特徴マップを決定し、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得することで、ターゲット特徴マップは、画像深度の次元に基づいて、対応する参照画像に含まれる身元情報を表すことができ、参照画像内の身元情報の抽出及び表現はより正確となり、身元情報をターゲット特徴マップに取り込むことを実現し、このターゲット特徴マップに基づいて処理対象画像を処理して、ターゲット画像を生成する場合、画像生成効果を効果的に向上させ、深さ方向に分離可能な畳み込みに基づいて参照画像を処理して複数の深度特徴マップを取得することにより、画像融合の計算量を効果的に低減させ、計算能力の低い電子機器に効果的に適用することができる
S105では、ターゲット特徴マップに基づいて、処理対象画像を処理して、ターゲット画像を生成する。
本開示の実施例では、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得した後、ターゲット特徴マップに基づいて、処理対象画像を処理して、ターゲット画像を生成することができる。
いくつかの実施例では、ターゲット特徴マップに基づいて、処理対象画像を処理して、ターゲット画像を生成することは、ターゲット特徴マップ及び処理対象画像に対して融合処理を行って、前述の融合処理によって取得された画像をターゲット画像とすることによって行うことができる。
他の実施例では、ターゲット特徴マップに基づいて、処理対象画像を処理することは、事前にトレーニングされた畳み込みニューラルネットワークと組み合わせて、ターゲット特徴マップを処理対象画像に追加してターゲット画像を生成するか、または他の任意の可能な方法を使用して、ターゲット特徴マップに基づいて、処理対象画像を処理して、ターゲット画像を生成することによって行うことができるが、これに限定されない。
本実施例では、参照画像および処理対象画像を取得し、参照画像からターゲット融合特徴を抽出し、そして、ターゲット融合特徴に基づいて、参照画像に対応する複数の深度特徴マップを決定し、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得し、ターゲット特徴マップに基づいて、処理対象画像を処理して、ターゲット画像を生成することにより、画像融合の計算量を効果的に削減することができ、計算能力の低い電子機器に効果的に適用可能であり、計算リソースを効果的に節約するとともに、画像生成効果を効果的に向上させることができる。
図3は、本開示の第2の実施例に係る概略図である。
図3に示すように、この画像生成方法は、ステップS301~S312を含む。
S301では、参照画像および処理対象画像を取得する。
S302では、参照画像からターゲット融合特徴を抽出する。
S301-S302の説明については、具体的には、上記の実施例を参照することができるため、ここでは説明を省略する。
S303では、ターゲット融合特徴に基づいて、予測畳み込みパラメータを決定する。
ここで、予測された初期深度畳み込みネットワークのネットワークパラメータは、予測畳み込みパラメータと呼ばれ得る。
ここで、画像生成方法の実行中に、取得された未処理の深度畳み込みネットワークは、初期深度畳み込みネットワークと呼ばれ得、この初期深度畳み込みネットワークは、具体的には、深さ方向に分離可能な畳み込みネットワークにおける深度(Depthwise)畳み込みであり得るが、これに限定されない。
ここで、初期深度畳み込みネットワークのDepthwiseネットワーク(このネットワークの機能は、複数の特徴マップを取得するように、各深度で個別に畳み込むことである)のネットワークパラメータは、具体的には、例えば、入力パラメータの数、フィルター層の層数、畳み込みカーネルのサイズ、および出力チャネルの数などであり得るが、これに限定されない。
いくつかの実施例では、ターゲット融合特徴に基づいて、予測畳み込みパラメータを決定する場合、ターゲット融合特徴の特徴次元の数に基づいて、初期深度畳み込みネットワークのDepthwiseネットワークに入力される特徴の数を決定し、この特徴の数は、初期深度畳み込みネットワークのDepthwiseネットワークの入力パラメータの数に対応し、ターゲット融合特徴によって表現される参照画像に含まれるさまざまな深度値に基づいて、フィルター層の層数を決定することができ、または他の可能なターゲット融合特徴のいくつかの特徴形態と組み合わせて、Depthwiseネットワークのネットワークパラメータを調整できる他の値を決定して、予測ネットワークパラメータとすることもできる。
他の実施例では、ターゲット融合特徴をマーク特徴と比較することができ、このマーク特徴は予めマークされていてもよく、このマーク特徴に対して、適切なDepthwiseネットワークのネットワークパラメータを予め設定することができ、そして、ターゲット融合特徴にマッチングされているマーク特徴に適合したネットワークパラメータを、予測ネットワークパラメータとし、ここで、マーク特徴がDepthwiseネットワークのネットワークパラメータに適合させることは、適合したネットワークパラメータに基づいてDepthwiseネットワークを構成することで、構成されたDepthwiseネットワークがマーク特徴を効果的に学習およびモデル化できることを意味し得るが、これに限定されない。
S304では、初期深度畳み込みネットワークの初期畳み込みパラメータを、予測畳み込みパラメータに調整して、ターゲット深度畳み込みネットワークを取得する。
ここで、初期深度畳み込みネットワークに対応するネットワークパラメータは初期畳み込みパラメータと呼ばれる。
本開示の実施例は、ターゲット融合特徴に基づいて、予測畳み込みパラメータを決定した後、初期深度畳み込みネットワークの初期畳み込みパラメータを、予測畳み込みパラメータに調整して、調整された深度畳み込みネットワークをターゲット深度畳み込みネットワークとすることができる。
例えば、初期深度畳み込みネットワークの初期畳み込みパラメータを、予測畳み込みパラメータに調整することは、初期深度畳み込みネットワークの初期畳み込みパラメータを、予測畳み込みパラメータに置き換えるか、または他の任意の可能な方法を使用して、初期深度畳み込みネットワークの初期畳み込みパラメータを、予測畳み込みパラメータに調整して、ターゲット深度畳み込みネットワークを取得するステップであってもよいが、これに限定されない。
S305では、ターゲット深度畳み込みネットワークを使用して、参照画像から特徴マップを抽出して、複数の候補深度にそれぞれ対応する複数の深度特徴マップを取得し、複数の候補深度は、ターゲット融合特徴に基づいて決定される。
ここで、参照画像が有するさまざまな深度値は、候補深度と呼ばれ得、複数の候補深度は、ターゲット融合特徴に基づいて決定することができるが、これに限定されない。
なお、参照画像は通常、シナリオ内のオブジェクトを撮影することによって取得されるため、参照画像は実際にはシナリオ内の空間ステレオ情報を画像化するため、参照画像はそれに応じて複数の深度値を含み、例えば、深度分析アルゴリズムを使用して参照画像を分析し、撮像装置の内部パラメータおよび外部パラメータと組み合わせて、参照画像が有するさまざまな深度値を候補深度として決定することができ、または、飛行時間アルゴリズムを使用して、撮像装置からシナリオ内の空間ステレオ情報までの相対的距離を測定し、撮像装置のフォーカス情報と組み合わせて、参照画像が有するさまざまな深度値を決定することもできるが、これに限定されない。
本開示の実施例では、ターゲット深度畳み込みネットワークは、各深度で畳み込みを個別に実行して、複数の特徴マップのモデル演算タスクを取得することができるため、ターゲット深度畳み込みネットワークを使用して、参照画像から特徴マップを抽出して、複数の候補深度にそれぞれ対応する複数の深度特徴マップを取得することができ、ここで、複数の候補深度は、ターゲット融合特徴に基づいて決定され、ターゲット融合特徴は、参照画像から抽出された身元情報特徴であってもよく、ここで、身元情報は、例えば、参照画像内の人物の衣服情報、髪型情報、体型情報、または参照画像内の人物の身元情報を表現することができる任意の他の情報などであり得るため、ターゲット融合特徴に基づいて複数の候補深度が決定される場合、生成された複数の深度特徴マップは、より多くのターゲット融合特徴を含むことができ、ターゲット融合特徴は、深度次元に基づいて表すことができ、ターゲット融合特徴の表現効果を効果的に向上させ、後続のターゲット画像の生成品質を確保することができる。
S306では、ターゲット融合特徴に基づいて、予測畳み込みカーネルパラメータを決定し、予測畳み込みカーネルパラメータは、予測された初期ポイントワイズ畳み込み(Pointwise)ネットワークのネットワークパラメータである。
ここで、本開示の実施例によって提案されるUnetにおける深さ方向に分離可能な畳み込みは、深度畳み込みネットワークおよびポイントワイズ畳み込みネットワークを含み得、このポイントワイズ畳み込みネットワークに対応するネットワークパラメータは、初期畳み込みカーネルパラメータと呼ばれ得る。
いくつかの実施例では、ターゲット融合特徴に基づいて、予測畳み込みカーネルパラメータを決定する場合、ターゲット融合特徴に基づいて、上階層のターゲット深度畳み込みネットワークの出力チャネル数を決定し、そして、この出力チャネル数を予測畳み込みカーネルパラメータ(即ち、予測された初期ポイントワイズ畳み込み(Pointwise)ネットワークのネットワークパラメータ)とすることができるが、これに限定されない。
他の実施例では、ターゲット融合特徴をマーク特徴と比較することができ、このマーク特徴は予めマークされていてもよく、このマーク特徴に対して、適切なPointwiseネットワークのネットワークパラメータを予め構成することができ、そして、ターゲット融合特徴にマッチングされているマーク特徴に適合したPointwiseネットワークのネットワークパラメータを、予測ネットワークパラメータとし、ここで、マーク特徴がPointwiseネットワークのネットワークパラメータに適合することは、この適合したネットワークパラメータに基づいてPointwiseネットワークを構成することで、構成されたPointwiseネットワークがマーク特徴を効果的に学習およびモデル化できることを意味し得るが、これに限定されない
S307では、初期ポイントワイズ畳み込みネットワークの初期畳み込みカーネルパラメータを、予測畳み込みカーネルパラメータに調整して、ターゲットポイントワイズ畳み込みネットワークを取得する。
ここで、画像生成方法の実行中に、取得された未処理のポイントワイズ畳み込み(Pointwise)ネットワークは、初期ポイントワイズ畳み込みネットワークと呼ばれ得、この初期ポイントワイズ畳み込みネットワークは、対応するネットワークパラメータを有することができ、このネットワークパラメータは、初期畳み込みカーネルパラメータと呼ばれ得、この初期畳み込みカーネルパラメータは、例えば、ポイントワイズ畳み込み(Pointwise)ネットワークの畳み込みカーネルの数であり得るが、これに限定されない。
本開示の実施例は、ターゲット融合特徴に基づいて、予測畳み込みカーネルパラメータを決定した後、初期ポイントワイズ畳み込みネットワークの初期畳み込みカーネルパラメータを、予測畳み込みカーネルパラメータに調整し、調整されたポイントワイズ畳み込みネットワークをターゲットポイントワイズ畳み込みネットワークとすることができる。
例えば、パラメータ変調(Weight Modulation)の方法を使用して、初期ポイントワイズ畳み込みネットワークの初期畳み込みカーネルパラメータを、予測畳み込みカーネルパラメータに調整するか、または他の任意の可能な方法を使用して、初期ポイントワイズ畳み込みネットワークの初期畳み込みカーネルパラメータを、予測畳み込みカーネルパラメータに調整して、ターゲットポイントワイズ畳み込みネットワークを取得するステップを実行してもよいが、これに限定されない。
S308では、ターゲットポイントワイズ畳み込みネットワークを使用して、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得する。
本開示の実施例は、ターゲット深度畳み込みネットワークを使用して、参照画像から特徴マップを抽出して、複数の候補深度にそれぞれ対応する複数の深度特徴マップを取得した後、ターゲットポイントワイズ畳み込みネットワークを使用して、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得することができる。上記のターゲット深度畳み込みネットワークとターゲットポイントワイズ畳み込みネットワークの組み合わせにより、U字型ニューラルネットワーク(Unet)の学習およびモデリング機能の実現を共同で支援することができ、さらに、ターゲット深度畳み込みネットワークとターゲットポイントワイズ畳み込みネットワークの両方が、参照画像内のターゲット融合特徴を参照して調整することによって取得されるため、U字型ニューラルネットワーク(Unet)の学習およびモデリング機能を効果的に実施するとともに、U字型ニューラルネットワーク(Unet)は、参照画像内のターゲット融合特徴を効果的に学習およびモデル化して、ターゲット特徴マップをより高品質で学習およびモデル化することができるため、このターゲット特徴マップは参照画像のターゲット融合特徴をより効果的かつ正確に表現することができる。
例えば、ターゲットポイントワイズ畳み込みネットワークを使用して、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得する場合、ターゲットポイントワイズ畳み込みネットワークによって、複数のチャネル(深度)で、複数の深度特徴マップに重みを付けて組み合わせる、即ち、予測畳み込みカーネルパラメータと複数の深度特徴マップを乗算して、ターゲットポイントワイズ畳み込みネットワークから出力された、標準分布を示すターゲット特徴マップを取得するか、または、他の任意の可能な方法を使用して、ターゲットポイントワイズ畳み込みネットワークを使用して、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得するステップを実現してもよいが、これに限定されない。
S309では、処理対象画像から、第2の背景領域画像と第2のオブジェクトの領域画像とを決定し、第2の背景領域画像は、初期マスク特徴を有する。
ここで、参照画像は、第1の背景領域画像と第1のオブジェクトの領域画像を含み得、第1の背景領域画像は、参照画像における背景領域を表現するための画像であり得る。
ここで、第1の背景領域画像は対応するマスク特徴を有し得、このマスク特徴は参照マスク特徴と呼ばれ得る。
ここで、処理対象画像における背景領域を表現するための画像は、第2の背景領域画像と呼ばれ得、それに応じて、処理対象画像における第2のオブジェクト領域を表現するための画像は、第2のオブジェクトの領域画像と呼ばれ得る。
例えば、参照画像および処理対象画像が顔画像である場合、オブジェクトの領域画像は、例えば、顔の領域画像であり得、背景領域画像は、例えば、髪の領域画像であり得るが、これに限定されない。
ここで、第2の背景領域画像は、対応するマスク特徴を有し得、このマスク特徴は初期マスク特徴と呼ばれ得る。
本開示の実施例では、処理対象画像から、第2の背景領域画像と第2のオブジェクトの領域画像とを決定することは、画像処理装置を使用して、処理対象画像に対して分割処理を行って、第2の背景領域画像と第2のオブジェクトの領域画像とを取得するか、または、他の任意の可能な方法を使用して、処理対象画像から、第2の背景領域画像と第2のオブジェクトの領域画像とを決定することができるが、これに限定されない。
S310では、参照マスク特徴に基づいて、第2の背景領域画像の初期マスク特徴を調整して、ターゲット背景領域画像を取得し、ここで、ターゲット背景領域画像のマスク特徴は、調整された初期マスク特徴であり、参照マスク特徴と調整された初期マスク特徴の間で一致性条件が満たされている。
本開示の実施例では、第1の背景領域画像の参照マスク特徴に基づいて、参照マスク特徴と調整された初期マスク特徴の間で一致性条件が満たされるまで、第2の背景領域画像の初期マスク特徴を調整し、調整された初期マスク特徴に対応する画像をターゲット背景領域画像とすることができる。
ここで、一致性条件は、例えば、参照マスク特徴と調整された初期マスク特徴が一致していることを確保することであってもよく、または、この一致性条件は実際の画像生成シナリオのビジネス要件に応じて自己適応的に構成してもよいが、これに限定されない。
S311では、ターゲット特徴マップを第2のオブジェクトの領域画像に融合して、合成対象画像を取得する。
本開示の実施例では、ターゲット特徴マップと処理対象画像の第2のオブジェクトの領域画像に対して融合処理を行って、前述の融合処理によって得られた画像を合成対象画像とすることができる。
いくつかの実施例では、事前にトレーニングされた畳み込みニューラルネットワークと組み合わせて、ターゲット特徴マップを第2のオブジェクトの領域画像に追加して、ターゲット特徴マップと処理対象画像の第2のオブジェクトの領域画像に対して融合処理を行って、合成対象画像を取得するか、または、画像融合アルゴリズム、変調ベースの画像融合など、他の任意の可能な方法を使用して、ターゲット特徴マップを第2のオブジェクトの領域画像に融合して、合成対象画像を取得することができるが、これに限定されない
選択的に、いくつかの実施例では、ターゲット特徴マップを第2のオブジェクトの領域画像に融合して、合成対象画像を取得することは、ターゲット特徴マップを第2のオブジェクトの領域画像に融合して、融合対象画像を取得し、第1のオブジェクトの領域画像を、事前にトレーニングされたマスク予測モデルに入力して、マスク予測モデルから出力された第1のオブジェクトの予測マスク特徴を取得し、予測マスク特徴を、融合対象画像に融合して、合成対象画像を取得することによって行うことができる。事前にトレーニングされたマスク予測モデルと組み合わせて、第1のオブジェクトの領域画像の予測マスク特徴が決定されるため、予測マスク特徴抽出の柔軟性および操作可能性を効果的に向上させるとともに、予測マスク特徴の精度を効果的に向上させることができ、これによって、予測マスク特徴が第1のオブジェクトの領域画像の画像情報を正確に表現し、生成された画像が参照画像の身元情報を完全に表現し、画像生成効果を効果的に向上させることができる。
本開示の実施例は、処理対象画像の第2のオブジェクトの領域画像を決定した後、ターゲット特徴マップと第2のオブジェクトの領域画像に対して融合処理を行って、融合処理された画像を融合対象画像とすることができる。
ここで、事前にトレーニング済みのマスク予測モデルは事前にトレーニングされたマスク予測モデルと呼ばれ得、この事前にトレーニングされたマスク予測モデルは、具体的には、ニューラルネットワークモデルや機械学習モデルなどの人工知能モデルであリ得、もちろん、マスク予測を実行できる他の任意の可能な人工知能モデルを使用してもよいが、これに限定されない。
本開示の実施例では、参照画像の第1のオブジェクトの領域画像を事前にトレーニングされたマスク予測モデルの入力パラメータとして、事前にトレーニングされたマスク予測モデルから出力されたマスク特徴を取得することができ、このマスク特徴は第1のオブジェクトの予測マスク特徴と呼ばれ得る。
本開示の実施例では、事前にトレーニングされたマスク予測モデルから出力された第1のオブジェクトの予測マスク特徴を取得した後、予測マスク特徴と融合対象画像に対して融合処理を行って、融合処理された画像を取得して合成対象画像とすることができる。
S312:ターゲット背景領域画像と合成対象画像とに基づいて、ターゲット画像を合成する。
本開示の実施例では、ターゲット背景領域画像と合成対象画像を取得した後、ターゲット背景領域画像と合成対象画像とに対して合成処理(この合成処理方法は、例えば、画像スティッチングであるが、これに限定されない)を行って、合成処理された画像をターゲット画像とすることができる。
本実施例では、前記処理対象画像から、第2の背景領域画像と第2のオブジェクトの領域画像とを決定し、前記参照マスク特徴に基づいて前記第2の背景領域画像の初期マスク特徴を調整して、ターゲット背景領域画像を取得し、そして、前記ターゲット特徴マップを前記第2のオブジェクトの領域画像に融合して、合成対象画像を取得し、前記ターゲット背景領域画像と前記合成対象画像とに基づいて、前記ターゲット画像を合成することにより、画像の背景が複雑であるため、背景が転送されにくいという技術的問題を効果的に解決することができるとともに、画像生成方法の実行中の画像背景変異や画像オブジェクトちらつきなどの画像ジッターの問題を効果的に解決し、画像生成効果を効果的に向上させることができる。
本開示の実施例では、画像生成方法の安定性を向上させるために、蒸留に基づく画像生成のトレーニングスキームを導入することもでき、上記の図2に示すように、トレーニングされた画像生成モデルの出力結果を通して画像生成モデルを監視することにより、画像生成効果をさらに向上させることができ、この過程では、教師モデルは、参照画像と処理対象画像の身元の類似度が低い、または生成された画像の品質が低いなど、画像生成でいくつかの失敗事例も生成する。これらの失敗ケースを使用して学生モデルを蒸留する場合、学生モデルもこれらの失敗ケースを生成する。上記の問題を解決するために、本開示の実施例は、教師の出力結果の品質評価モジュールを設計することができる。教師モデルから出力された参照画像の身元の類似度と教師モデルから出力されたターゲット画質を使用して評価し、評価結果を使用して蒸留損失の重みを動的に調整することにより、学生モデルの画像生成効果を効果的に向上させることができる。
本実施例では、参照画像および処理対象画像を取得し、参照画像からターゲット融合特徴を抽出し、そして、ターゲット融合特徴に基づいて、参照画像に対応する複数の深度特徴マップを決定し、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得し、ターゲット特徴マップに基づいて、処理対象画像を処理して、ターゲット画像を生成することにより、画像融合の計算量を効果的に削減することができ、計算能力の低い電子機器に効果的に適用可能であり、計算リソースを効果的に節約するとともに、画像生成効果を効果的に向上させることができる。ターゲット深度畳み込みネットワークは、各深度で畳み込みを個別に実行して、複数の特徴マップのモデル演算タスクを取得することができるため、ターゲット深度畳み込みネットワークを使用して、参照画像から特徴マップを抽出して、複数の候補深度にそれぞれ対応する複数の深度特徴マップを取得することができ、ここで、複数の候補深度は、ターゲット融合特徴に基づいて決定され、ターゲット融合特徴は、参照画像から抽出された身元情報特徴であってもよく、ここで、身元情報は、例えば、参照画像内の人物の衣服情報、髪型情報、体型情報、または参照画像内の人物の身元情報を表現することができる任意の他の情報などであり得るため、ターゲット融合特徴に基づいて複数の候補深度が決定される場合、生成された複数の深度特徴マップは、より多くのターゲット融合特徴を含むことができ、ターゲット融合特徴は、深度次元に基づいて表すことができ、ターゲット融合特徴の表現効果を効果的に向上させ、後続のターゲット画像の生成品質を確保することができる。上記のターゲット深度畳み込みネットワークとターゲットポイントワイズ畳み込みネットワークとの組み合わせにより、U字型ニューラルネットワーク(Unet)の学習およびモデリング機能の実現を共同で支援することができ、さらに、ターゲット深度畳み込みネットワークとターゲットポイントワイズ畳み込みネットワークの両方が、参照画像内のターゲット融合特徴を参照して調整することによって取得されるため、U字型ニューラルネットワーク(Unet)の学習およびモデリング機能を効果的に実施するとともに、U字型ニューラルネットワーク(Unet)は、参照画像内のターゲット融合特徴を効果的に学習およびモデル化して、ターゲット特徴マップをより高品質で学習およびモデル化することができるため、このターゲット特徴マップは参照画像のターゲット融合特徴をより効果的かつ正確に表現することができる。前記処理対象画像から、第2の背景領域画像と第2のオブジェクトの領域画像とを決定し、前記参照マスク特徴に基づいて前記第2の背景領域画像の初期マスク特徴を調整して、ターゲット背景領域画像を取得し、そして、前記ターゲット特徴マップを前記第2のオブジェクトの領域画像に融合して、合成対象画像を取得し、前記ターゲット背景領域画像と前記合成対象画像とに基づいて、前記ターゲット画像を合成することにより、画像の背景が複雑であるため、背景が転送されにくいという技術的問題を効果的に解決することができるとともに、画像生成方法の実行中の画像背景変異や画像オブジェクトちらつきなどの画像ジッターの問題を効果的に解決し、画像生成効果を効果的に向上させることができる。
図4は、本開示の第3の実施例に係る概略図である。
図4に示すように、この画像生成装置40は、参照画像および処理対象画像を取得するための取得モジュール401と、参照画像からターゲット融合特徴を抽出するための抽出モジュール402と、ターゲット融合特徴に基づいて、参照画像に対応する複数の深度特徴マップを決定するための決定モジュール403と、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得するための第1の処理モジュール404と、ターゲット特徴マップに基づいて、処理対象画像を処理して、ターゲット画像を生成するための第2の処理モジュール405と、を備える。
本開示のいくつかの実施例では、図5に示すように、図5は、本開示の第4の実施例に係る概略図であり、この画像生成装置50は、取得モジュール501、抽出モジュール502、決定モジュール503、第1の処理モジュール504、及び第2の処理モジュール505を備え、ここで、抽出モジュール502は、具体的には、参照画像から融合対象特徴を抽出し、融合対象特徴をコーディングして、ターゲット融合特徴を取得する。
本開示のいくつかの実施例では、決定モジュール503は、具体的には、ターゲット融合特徴に基づいて、予測畳み込みパラメータを決定し、ここで、予測畳み込みパラメータが、予測された初期深度畳み込みネットワークのネットワークパラメータであり、初期深度畳み込みネットワークの初期畳み込みパラメータを、予測畳み込みパラメータに調整して、ターゲット深度畳み込みネットワークを取得し、ターゲット深度畳み込みネットワークを使用して、参照画像から特徴マップを抽出して、複数の候補深度にそれぞれ対応する複数の深度特徴マップを取得し、ここで、複数の候補深度が、ターゲット融合特徴に基づいて決定される。
本開示のいくつかの実施例では、第1の処理モジュール504は、具体的には、ターゲット融合特徴に基づいて、予測畳み込みカーネルパラメータを決定し、予測畳み込みカーネルパラメータが、予測された初期ポイントワイズ畳み込みネットワークのネットワークパラメータであり、初期ポイントワイズ畳み込みネットワークの初期畳み込みカーネルパラメータを、予測畳み込みカーネルパラメータに調整して、ターゲットポイントワイズ畳み込みネットワークを取得し、ターゲットポイントワイズ畳み込みネットワークを使用して、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得する。
本開示のいくつかの実施例では、参照画像は、第1の背景領域画像および第1のオブジェクトの領域画像を含み、ターゲット融合特徴は、第1のオブジェクトの画像特徴を表現するために使用され、第1の背景領域画像は参照マスク特徴を有し、ここで、第2の処理モジュール505は、処理対象画像から、第2の背景領域画像と第2のオブジェクトの領域画像とを決定するための決定サブモジュール5051であって、第2の背景領域画像は、初期マスク特徴を有する決定サブモジュール5051と、参照マスク特徴に基づいて、第2の背景領域画像の初期マスク特徴を調整して、ターゲット背景領域画像を取得するための調整サブモジュール5052であって、ターゲット背景領域画像のマスク特徴は、調整された初期マスク特徴であり、参照マスク特徴と調整された初期マスク特徴の間で一致性条件が満たされている調整サブモジュール5052と、ターゲット特徴マップを第2のオブジェクトの領域画像に融合して、合成対象画像を取得するための融合サブモジュール5053と、ターゲット背景領域画像と合成対象画像とに基づいて、ターゲット画像を合成するための合成サブモジュール5054と、を備える。
本開示のいくつかの実施例では、ここで、融合サブモジュール5053は、具体的には、ターゲット特徴マップを第2のオブジェクトの領域画像に融合して、融合対象画像を取得し、第1のオブジェクトの領域画像を、事前にトレーニングされたマスク予測モデルに入力して、マスク予測モデルから出力された第1のオブジェクトの予測マスク特徴を取得し、予測マスク特徴を融合対象画像に融合して、合成対象画像を取得する。
本開示のいくつかの実施例では、ここで、取得モジュール501は、具体的には、ソース画像及び初期画像を取得し、ソース画像が第1のオブジェクトのソース領域画像を含み、初期画像が第2のオブジェクトの初期領域画像を含み、第1の数のキーポイントに基づいて、ソース画像内のソース領域画像と標準オブジェクト画像とに対してマルチポイントアライメント処理を行って、参照画像を取得し、第2の数のキーポイントに基づいて、初期画像内の初期領域画像と標準オブジェクト画像とに対してアライメント処理を行って、処理対象画像を取得し、ここで、第1の数が第2の数よりも大きい。
なお、本実施例の図5における画像生成装置50と上記の実施例における画像生成装置40、取得モジュール501と上記の実施例における取得モジュール401、抽出モジュール502と上記の実施例における抽出モジュール402、決定モジュール503と上記の実施例における決定モジュール403、第1の処理モジュール504と上記の実施例における第1の処理モジュール404、ならびに第2の処理モジュール505と上記の実施例における第2の処理モジュール405は、同じの機能及び構造を有し得る。
なお、前述した画像生成方法の解釈及び説明は本実施例の画像生成装置にも適用される。
本実施例では、参照画像および処理対象画像を取得し、参照画像からターゲット融合特徴を抽出し、そして、ターゲット融合特徴に基づいて、参照画像に対応する複数の深度特徴マップを決定し、ターゲット融合特徴に基づいて、複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得し、ターゲット特徴マップに基づいて、処理対象画像を処理して、ターゲット画像を生成することにより、画像融合の計算量を効果的に削減することができ、計算能力の低い電子機器に効果的に適用可能であり、計算リソースを効果的に節約するとともに、画像生成効果を効果的に向上させることができる。
本開示の実施例によれば、本開示は、電子機器、及び読み取り可能な記憶媒体をさらに提供する。
本開示の実施例によれば、本開示は、コンピュータプログラムをさらに提供し、コンピュータプログラムはプロセッサによって実行される場合、本開示によって提供される画像生成方法が実現される。
図6は本開示の実施例の画像生成方法を実現するための例示的な電子機器の概略ブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルディジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ及び他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子機器はさらに、例えば、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス及び他の同様のコンピューティング装置など、様々な形態の移動体装置を表すことができる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/又は請求される本開示の実施を限定することを意図しない。
図6に示すように、機器600は、リードオンリーメモリ(ROM)602に記憶されたコンピュータプログラムや、記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに基づいて、各種の適切な動作及び処理を実行することができる計算ユニット601を備える。RAM 603には、さらに、機器600の操作に必要な各種のプログラム及びデータを記憶してもよい。計算ユニット601、ROM 602及びRAM 603は、バス604を介して相互に接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
機器600における複数のコンポーネントはI/Oインターフェース605に接続されており、キーボード、マウス、マイクなどのような入力ユニット606と、各種のディスプレイ、スピーカなどのような出力ユニット607と、磁気ディスク、光ディスクなどのような記憶ユニット608と、ネットワークカード、モデム、無線通信送受信機などのような通信ユニット609とを備える。通信ユニット609は、機器600が、インターネットのようなコンピュータネットワーク及び/又は各種の電気通信網を介して、他の機器と情報/データを交換することを可能にする。
計算ユニット601は、処理及びコンピューティング能力を有する汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット601のいくつかの例として、中央処理装置(CPU)、グラフィックス処理装置(GPU)、各種の人工知能(AI)専用コンピューティングチップ、機械学習モデルアルゴリズムを実行する各種の計算ユニット、デジタル信号処理装置(DSP)、及びあらゆる適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット601は、上述した各方法及び処理、例えば画像生成方法を実行する。例えば、いくつかの実施例では、画像生成方法は、記憶ユニット1308のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM
602及び/又は通信ユニット609を介して、機器600にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM 603にロードされ、計算ユニット601によって実行される場合、上述した画像生成方法の1つ又は複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット601は、画像生成方法を実行するように他の任意の適切な形態(例えばファームウェアの助けを借りる)で構成されてもよい。
ここで説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途用標準品(ASSP)、システムオンチップのシステム(SOC)、複雑なプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラム内で実施されることを含むことができ、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを備えるプログラマブルシステム上で実行及び/又は解釈することができ、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、この記憶システム、この少なくとも1つの入力装置、及びこの少なくとも1つの出力装置にデータ及び命令を送信することができる。
本開示の画像生成方法を実施するためのプログラムコードは1つ又は複数のプログラミング言語の任意の組み合わせを用いて作成することができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び/またはブロック図で規定された機能・動作が実施されるように、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ若しくはコントローラに提供することができる。プログラムコードは、機械上で完全に実行されるか、機械上で部分的に実行されるか、スタンドアロンソフトウェアパッケージとして機械上で部分的に実行され、且つ遠隔機械上で部分的に実行されるか、又は遠隔機械やプロセッサ上で完全に実行されてもよい。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置又は機器に使用され、或いは、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか、又は記憶できる有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は電子的、磁気的、光学的、電磁的、赤外線、又は半導体システム、装置又は機器、或いは上述した内容の任意の適切な組み合わせを備えることができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は1つ又は複数の電線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバー、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶機器、磁気記憶機器、又は上記内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)やLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザがこのキーボード及びこのポインティングデバイスによりコンピュータに入力を提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態の感知フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、また、任意の形態(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、このグラフィカルユーザインターフェース又はこのウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントとの任意のグループの組み合わせを備えるコンピューティングシステムで実施される。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークとを含む。
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、又は略称「VPS」)において存在する、管理の難易度が大きく、業務拡張性が低いという欠点を解決するためのものである。サーバは分散システムのサーバ、又はブロックチェーンと結び付けたサーバであってもよい。
なお、以上に示される様々な形態のフローを使用して、ステップを並び替え、追加、又は削除を行うことが可能であることを理解すべきである。例えば、本開示に記載されている各ステップは、並列に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよいが、本開示に開示されている技術案が所望する結果を実現することができる限り、本明細書ではこれに限定されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解すべきである。本開示の精神及び原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (17)

  1. 参照画像および処理対象画像を取得するステップと、
    前記参照画像からターゲット融合特徴を抽出するステップと、
    前記ターゲット融合特徴に基づいて、前記参照画像に対応する複数の深度特徴マップを決定するステップと、
    前記ターゲット融合特徴に基づいて、前記複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得するステップと、
    前記ターゲット特徴マップに基づいて、前記処理対象画像を処理して、ターゲット画像を生成するステップと、
    を含む画像生成方法。
  2. 前記参照画像からターゲット融合特徴を抽出するステップが、
    前記参照画像から融合対象特徴を抽出するステップと、
    前記融合対象特徴をコーディングして、前記ターゲット融合特徴を取得するステップと、
    を含む請求項1に記載の画像生成方法。
  3. 前記ターゲット融合特徴に基づいて、前記参照画像に対応する複数の深度特徴マップを決定するステップが、
    前記ターゲット融合特徴に基づいて、予測畳み込みパラメータを決定するステップであって、前記予測畳み込みパラメータは、予測された初期深度畳み込みネットワークのネットワークパラメータであるステップと、
    前記初期深度畳み込みネットワークの初期畳み込みパラメータを、前記予測畳み込みパラメータに調整して、ターゲット深度畳み込みネットワークを取得するステップと、
    前記ターゲット深度畳み込みネットワークを使用して、前記参照画像から特徴マップを抽出して、複数の候補深度にそれぞれ対応する複数の深度特徴マップを取得するステップであって、前記複数の候補深度は、前記ターゲット融合特徴に基づいて決定されるステップと、
    を含む請求項1に記載の画像生成方法。
  4. 前記ターゲット融合特徴に基づいて、前記複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得するステップが、
    前記ターゲット融合特徴に基づいて、予測畳み込みカーネルパラメータを決定するステップであって、前記予測畳み込みカーネルパラメータは、予測された初期ポイントワイズ畳み込みネットワークのネットワークパラメータであるステップと、
    前記初期ポイントワイズ畳み込みネットワークの初期畳み込みカーネルパラメータを、前記予測畳み込みカーネルパラメータに調整して、ターゲットポイントワイズ畳み込みネットワークを取得するステップと、
    前記ターゲットポイントワイズ畳み込みネットワークを使用して、前記複数の深度特徴マップに対して融合処理を行って、前記ターゲット特徴マップを取得するステップと、
    を含む請求項3に記載の画像生成方法。
  5. 前記参照画像が、第1の背景領域画像および第1のオブジェクトの領域画像を含み、前記ターゲット融合特徴が、前記第1のオブジェクトの画像特徴を表現するために使用され、前記第1の背景領域画像が参照マスク特徴を有し、
    前記ターゲット特徴マップに基づいて、前記処理対象画像を処理して、ターゲット画像を生成するステップが、
    前記処理対象画像から、第2の背景領域画像と第2のオブジェクトの領域画像とを決定するステップであって、前記第2の背景領域画像は、初期マスク特徴を有するステップと、
    前記参照マスク特徴に基づいて前記第2の背景領域画像の初期マスク特徴を調整して、ターゲット背景領域画像を取得するステップであって、前記ターゲット背景領域画像のマスク特徴は、調整された前記初期マスク特徴であり、前記参照マスク特徴と調整された前記初期マスク特徴の間で一致性条件が満たされているステップと、
    前記ターゲット特徴マップを前記第2のオブジェクトの領域画像に融合して、合成対象画像を取得するステップと、
    前記ターゲット背景領域画像と前記合成対象画像とに基づいて、前記ターゲット画像を合成するステップと、
    を含む請求項1に記載の画像生成方法。
  6. 前記ターゲット特徴マップを前記第2のオブジェクトの領域画像に融合して、合成対象画像を取得するステップが、
    前記ターゲット特徴マップを前記第2のオブジェクトの領域画像に融合して、融合対象画像を取得するステップと、
    前記第1のオブジェクトの領域画像を、事前にトレーニングされたマスク予測モデルに入力して、前記マスク予測モデルから出力された前記第1のオブジェクトの予測マスク特徴を取得するステップと、
    前記予測マスク特徴を前記融合対象画像に融合して、前記合成対象画像を取得するステップと、
    を含む請求項5に記載の画像生成方法。
  7. 前記参照画像および処理対象画像を取得するステップが、
    ソース画像及び初期画像を取得するステップであって、前記ソース画像が、第1のオブジェクトのソース領域画像を含み、前記初期画像が、第2のオブジェクトの初期領域画像を含むステップと、
    第1の数のキーポイントに基づいて、前記ソース画像内の前記ソース領域画像と標準オブジェクト画像とに対してマルチポイントアライメント処理を行って、前記参照画像を取得するステップと、
    第2の数のキーポイントに基づいて、前記初期画像内の前記初期領域画像と前記標準オブジェクト画像とに対してアライメント処理を行って、前記処理対象画像を取得するステップであって、前記第1の数が前記第2の数よりも大きいステップと、
    を含む請求項1に記載の画像生成方法。
  8. 参照画像および処理対象画像を取得するための取得モジュールと、
    前記参照画像からターゲット融合特徴を抽出するための抽出モジュールと、
    前記ターゲット融合特徴に基づいて、前記参照画像に対応する複数の深度特徴マップを決定するための決定モジュールと、
    前記ターゲット融合特徴に基づいて、前記複数の深度特徴マップに対して融合処理を行って、ターゲット特徴マップを取得するための第1の処理モジュールと、
    前記ターゲット特徴マップに基づいて、前記処理対象画像を処理して、ターゲット画像を生成するための第2の処理モジュールと、
    を備える画像生成装置。
  9. 前記抽出モジュールが、
    前記参照画像から融合対象特徴を抽出し、
    前記融合対象特徴をコーディングして、前記ターゲット融合特徴を取得する請求項8に記載の画像生成装置。
  10. 前記決定モジュールが、
    前記ターゲット融合特徴に基づいて、予測畳み込みパラメータを決定し、前記予測畳み込みパラメータが、予測された初期深度畳み込みネットワークのネットワークパラメータであり、
    前記初期深度畳み込みネットワークの初期畳み込みパラメータを、前記予測畳み込みパラメータに調整して、ターゲット深度畳み込みネットワークを取得し、
    前記ターゲット深度畳み込みネットワークを使用して、前記参照画像から特徴マップを抽出して、複数の候補深度にそれぞれ対応する複数の深度特徴マップを取得し、前記複数の候補深度が、前記ターゲット融合特徴に基づいて決定される請求項8に記載の画像生成装置。
  11. 前記第1の処理モジュールが、
    前記ターゲット融合特徴に基づいて、予測畳み込みカーネルパラメータを決定し、前記予測畳み込みカーネルパラメータが、予測された初期ポイントワイズ畳み込みネットワークのネットワークパラメータであり、
    前記初期ポイントワイズ畳み込みネットワークの初期畳み込みカーネルパラメータを、前記予測畳み込みカーネルパラメータに調整して、ターゲットポイントワイズ畳み込みネットワークを取得し、
    前記ターゲットポイントワイズ畳み込みネットワークを使用して、前記複数の深度特徴マップに対して融合処理を行って、前記ターゲット特徴マップを取得する請求項10に記載の画像生成装置。
  12. 前記参照画像は、第1の背景領域画像および第1のオブジェクトの領域画像を含み、前記ターゲット融合特徴は、前記第1のオブジェクトの画像特徴を表現するために使用され、前記第1の背景領域画像は参照マスク特徴を有し、
    前記第2の処理モジュールが、
    前記処理対象画像から、第2の背景領域画像と第2のオブジェクトの領域画像とを決定するための決定サブモジュールであって、前記第2の背景領域画像は、初期マスク特徴を有する決定サブモジュールと、
    前記参照マスク特徴に基づいて前記第2の背景領域画像の初期マスク特徴を調整して、ターゲット背景領域画像を取得するための調整サブモジュールであって、前記ターゲット背景領域画像のマスク特徴は、調整された前記初期マスク特徴であり、前記参照マスク特徴と調整された前記初期マスク特徴の間で一致性条件が満たされている調整サブモジュールと、
    前記ターゲット特徴マップを前記第2のオブジェクトの領域画像に融合して、合成対象画像を取得するための融合サブモジュールと、
    前記ターゲット背景領域画像と前記合成対象画像とに基づいて、前記ターゲット画像を合成するための合成サブモジュールと、
    を含む請求項8に記載の画像生成装置。
  13. 前記融合サブモジュールが、
    前記ターゲット特徴マップを前記第2のオブジェクトの領域画像に融合して、融合対象画像を取得し、
    前記第1のオブジェクトの領域画像を、事前にトレーニングされたマスク予測モデルに入力して、前記マスク予測モデルから出力された前記第1のオブジェクトの予測マスク特徴を取得し、
    前記予測マスク特徴を前記融合対象画像に融合して、前記合成対象画像を取得する請求項12に記載の画像生成装置。
  14. 前記取得モジュールが、
    ソース画像及び初期画像を取得し、前記ソース画像が第1のオブジェクトのソース領域画像を含み、前記初期画像が第2のオブジェクトの初期領域画像を含み、
    第1の数のキーポイントに基づいて、前記ソース画像内の前記ソース領域画像と標準オブジェクト画像とに対してマルチポイントアライメント処理を行って、前記参照画像を取得し、
    第2の数のキーポイントに基づいて、前記初期画像内の前記初期領域画像と前記標準オブジェクト画像とに対してアライメント処理を行って、前記処理対象画像を取得し、前記第1の数が前記第2の数よりも大きい請求項8に記載の画像生成装置。
  15. 少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
    を備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が、前記少なくとも1つのプロセッサが請求項1から7のいずれか一項に記載の画像生成方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器。
  16. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令が、コンピュータに請求項1から7のいずれか一項に記載の画像生成方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
  17. プロセッサによって実行される場合、請求項1から7のいずれか一項に記載の画像生成方法のステップが実現されるコンピュータプログラム。
JP2022145137A 2021-11-09 2022-09-13 画像生成方法、装置、電子機器及び記憶媒体 Active JP7390454B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111320636.0A CN114187624B (zh) 2021-11-09 2021-11-09 图像生成方法、装置、电子设备及存储介质
CN202111320636.0 2021-11-09

Publications (2)

Publication Number Publication Date
JP2022172377A true JP2022172377A (ja) 2022-11-15
JP7390454B2 JP7390454B2 (ja) 2023-12-01

Family

ID=80540835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022145137A Active JP7390454B2 (ja) 2021-11-09 2022-09-13 画像生成方法、装置、電子機器及び記憶媒体

Country Status (3)

Country Link
US (1) US20230143452A1 (ja)
JP (1) JP7390454B2 (ja)
CN (1) CN114187624B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115640835A (zh) * 2022-12-22 2023-01-24 阿里巴巴(中国)有限公司 深度学习网络结构的生成方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115359132B (zh) * 2022-10-21 2023-03-24 小米汽车科技有限公司 用于车辆的相机标定方法、装置、电子设备及存储介质
CN115578264B (zh) * 2022-11-25 2023-03-07 武汉图科智能科技有限公司 一种快速的高质量图像拼接方法、装置和系统
CN116597039B (zh) * 2023-05-22 2023-12-26 阿里巴巴(中国)有限公司 图像生成的方法和服务器

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572720B2 (en) 2017-03-01 2020-02-25 Sony Corporation Virtual reality-based apparatus and method to generate a three dimensional (3D) human face model using image and depth data
JP7353032B2 (ja) 2018-11-15 2023-09-29 株式会社Preferred Networks データ生成装置、データ生成方法及びプログラム
CN109919888B (zh) 2019-02-26 2023-09-19 腾讯科技(深圳)有限公司 一种图像融合的方法、模型训练的方法以及相关装置
CN111666976B (zh) * 2020-05-08 2023-07-28 深圳力维智联技术有限公司 基于属性信息的特征融合方法、装置和存储介质
CN111861955A (zh) 2020-06-22 2020-10-30 北京百度网讯科技有限公司 构建图像编辑模型的方法以及装置
CN111783603A (zh) * 2020-06-24 2020-10-16 有半岛(北京)信息科技有限公司 生成对抗网络训练方法、图像换脸、视频换脸方法及装置
CN112734634B (zh) * 2021-03-30 2021-07-27 中国科学院自动化研究所 换脸方法、装置、电子设备和存储介质
CN113221847A (zh) * 2021-06-07 2021-08-06 广州虎牙科技有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN113393371B (zh) * 2021-06-28 2024-02-27 北京百度网讯科技有限公司 一种图像处理方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115640835A (zh) * 2022-12-22 2023-01-24 阿里巴巴(中国)有限公司 深度学习网络结构的生成方法及装置
CN115640835B (zh) * 2022-12-22 2023-03-31 阿里巴巴(中国)有限公司 深度学习网络结构的生成方法及装置

Also Published As

Publication number Publication date
CN114187624A (zh) 2022-03-15
CN114187624B (zh) 2023-09-22
JP7390454B2 (ja) 2023-12-01
US20230143452A1 (en) 2023-05-11

Similar Documents

Publication Publication Date Title
JP7390454B2 (ja) 画像生成方法、装置、電子機器及び記憶媒体
CN109902767B (zh) 模型训练方法、图像处理方法及装置、设备和介质
JP7374274B2 (ja) 虚像生成モデルのトレーニング方法および虚像生成方法
JP7114774B2 (ja) 顔融合モデルのトレーニング方法、装置及び電子機器
JP2022177220A (ja) テキスト認識モデルの訓練方法、テキスト認識方法及び装置
US20210241498A1 (en) Method and device for processing image, related electronic device and storage medium
CN111768425B (zh) 图像处理方法、装置及设备
US11836837B2 (en) Video generation method, device and storage medium
JP7401606B2 (ja) 仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器
JP2024004444A (ja) 3次元顔再構成モデルトレーニング、3次元顔イメージ生成方法及び装置
US20230047748A1 (en) Method of fusing image, and method of training image fusion model
JP2022172173A (ja) 画像編集モデルのトレーニング方法および装置、画像編集方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
CN116363261A (zh) 图像编辑模型的训练方法、图像编辑方法和装置
CN110619334A (zh) 基于深度学习的人像分割方法、架构及相关装置
CN113379877B (zh) 人脸视频生成方法、装置、电子设备及存储介质
CN114972010A (zh) 图像处理方法、装置、计算机设备、存储介质及程序产品
CN114049290A (zh) 图像处理方法、装置、设备及存储介质
CN114399424A (zh) 模型训练方法及相关设备
CN113658035A (zh) 脸部变换方法、装置、设备、存储介质以及产品
CN113822114A (zh) 一种图像处理方法、相关设备及计算机可读存储介质
US20230115765A1 (en) Method and apparatus of transferring image, and method and apparatus of training image transfer model
CN117011449A (zh) 三维面部模型的重构方法和装置、存储介质及电子设备
CN114187173A (zh) 模型训练方法、图像处理方法及装置、电子设备、介质
CN113781653A (zh) 对象模型生成方法、装置、电子设备及存储介质
CN111821688A (zh) 虚拟现实游戏画面处理方法及相关设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220913

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231120

R150 Certificate of patent or registration of utility model

Ref document number: 7390454

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150