JP7241813B2

JP7241813B2 - 画像編集モデルの構築方法及び装置

Info

Publication number: JP7241813B2
Application number: JP2021102209A
Authority: JP
Inventors: ヘ，ションイー; リウ，ジアミン; フー，ティアンシュ; ホン，ジビン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-22
Filing date: 2021-06-21
Publication date: 2023-03-17
Anticipated expiration: 2041-06-21
Also published as: KR102566277B1; EP3929875A1; CN111861955A; KR20210157878A; US20210398334A1; JP2022002091A

Description

本開示は、インターネットの技術分野に関し、特に画像処理、ディープラーニングの技術分野における画像編集モデルの構築方法、装置、電子デバイス及びコンピュータ可読記憶媒体に関する。

画像編集モデルを構築する既存のスキームは、一般的に2つの方法がある。1つは、画像の前景と背景を区別せずに、画像を全体的にモデリングして新たな画像を生成することである。もう1つは、異なるモデルを使用して画像の前景と背景をそれぞれモデリングし、生成された前景と背景を統合して新たな画像を生成することである。第1の態様では、画像の前景と背景とを区別しないため、構築されたモデルが入力画像の前景の減少による生成画像における欠落の背景を補填することができない。第2の態様では、複数のモデルを使用して画像の前景と背景をそれぞれモデリングする必要があるため、モデル構築の手順が煩雑になり、システムリソースの消費量が高くなる。

本開示は、技術的課題を解決するために採用される技術案は、第1画像及びそれに対応する第2画像を含む訓練サンプルを取得することと、背景画像生成ブランチ、マスク画像生成ブランチ及び前景画像生成ブランチを含む生成器と、判別器とを備える敵対的生成ネットワークを構築することと、第1画像とそれに対応する第2画像とに基づいて前記敵対的生成ネットワークを訓練し、訓練された敵対的生成ネットワークにおける生成器を画像編集モデルとすることと、を含む画像編集モデルの構築方法を提供する。

本開示は、技術的課題を解決するために採用される技術案は、第1画像及びそれに対応する第2画像を含む訓練サンプルを取得する取得ユニットと、背景画像生成ブランチ、マスク画像生成ブランチ及び前景画像生成ブランチを含む生成器と、判別器とを備える敵対的生成ネットワークを構築する構築ユニットと、第1画像とそれに対応する第2画像とに基づいて前記敵対的生成ネットワークを訓練し、訓練された前記敵対的生成ネットワークにおける生成器を画像編集モデルとする訓練ユニットとを備える、画像編集モデルの構築装置を提供する。

上述の開示の一実施形態は、以下の利点又は有益な効果を有する。即ち、本開示により構築された画像編集モデルは、生成画像に欠落された背景を補填することができ、モデルの構築ステップを簡略化し、モデル構築に必要なリソース消費を低減することができる。敵対的生成ネットワークを構築する際に前景画像、マスク画像及び背景画像を同時にモデリングする技術手段を採用したため、従来技術において画像の前景、背景を区別せずにモデリングを行うこと、及び複数のモデルを用いて前景、背景をそれぞれモデリングする必要があることによる技術的問題を克服し、画像編集モデルの編集性能の向上などの技術的効果を実現した。

上記の選択可能な方法が有する他の効果は、以下で具体的な実施形態と合わせて説明する。

図面は、本開示をより良く理解するためのものであり、本開示を限定しない。ここで、
本発明の第1実施形態に係る概略図である。本発明の第2実施形態に係る概略図である。本発明の第3実施形態に係る概略図である。本発明の実施形態に係る画像編集モデルの構築方法を実現するための電子デバイスのブロック図である。

以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

図1は本発明の第1実施形態に係る概略図である。図1に示すように、本実施形態に係る画像編集モデルの構築方法は、具体的に以下のステップを含むことができる。

S101において、第1画像及びそれに対応する第2画像を含む訓練サンプルを取得する。

S102において、背景画像生成ブランチ、マスク画像生成ブランチ、及び前景画像生成ブランチを含む生成器と、判別器とを備える敵対的生成ネットワークを構築する。

S103において、第1画像及びそれに対応する第2画像に基づいて前記敵対的生成ネットワークを訓練し、訓練された前記敵対的生成ネットワークにおける生成器を画像編集モデルとする。

本実施形態の画像編集モデルの構築方法は、敵対的生成ネットワークを構築する際に前景画像、マスク画像及び背景画像を同時にモデリングする方式を採用することにより、訓練により得られた画像編集モデルが生成画像の欠落背景を補填することができ、入力画像の前景減少による生成画像の背景の欠落という問題を回避することができる。

本実施形態で取得された訓練サンプルは、第1画像及びそれに対応する第2画像を含む。ここで、第2画像は、第1画像の編集時に得られた完全な背景を有する画像であると考えることができる。

例えば、第1画像が女性画像である場合、第2画像は男性画像であってよい。なぜならば、女性画像を男性画像に編集する場合、女性の長い髪を男性の短い髪に変換する必要があるため、女性画像に欠落した髪の前景を男性画像の背景にする必要がある。しかし、当該部分の背景は女性画像に欠落しているため、女性画像を編集して男性画像を得る際に欠落した当該背景を補填する必要がある。

第1画像が男性画像である場合、第2画像は幼児画像であってよい。なぜならば、男性画像を幼児画像に編集する際、男性の短い髪を乳児の髪なしに変換する必要があるため、男性画像に欠落した髪の前景が乳児画像の背景になる必要がある。しかし、当該部分の背景は男性画像に欠落しているため、男性画像を編集して乳児画像を得る際に欠落した当該背景を補填する必要がある。

本実施形態では、訓練サンプルを取得する際に、取得された画像に基づいて第1画像と、それに対応する第2画像とを直接設定することができる。本実施形態では、画像間の対応関係を設定する際に、ユーザが実際の必要に応じて第1画像とそれに対応する第2画像とを手動で設定しても良く、各画像について内容認識を行った後、予め設定された内容対応関係に従って第1画像とそれに対応する第2画像とを自動的に設定しても良い。

また、本実施形態では、訓練サンプルを取得する際に、人又は物体の画像である前景画像と背景画像とを取得し、対応関係を有する2つの前景画像をそれぞれ同一の背景画像に統合し、統合結果を第1画像とそれに対応する第2画像とするという方式を採用しても良い。なお、本実施形態では、ユーザが手動で対応関係を有する2つの前景画像を選択しても良く、画像に内容認識を行った後、対応関係を有する2つの前景画像を自動的に選択しても良い。

つまり、本実施形態では、2つの前景画像を同一の背景画像と統合することにより訓練サンプルを取得することにより、各第1画像及びそれに対応する第2画像が同一の背景を有することを確保することができ、これにより、画像編集モデルが入力画像において欠落した背景をより自然に補填することができ、画像編集モデルが背景を補填する正確度を向上させた。

本実施形態では、訓練サンプルを取得した後、生成器と判別器とを含む敵対的生成ネットワークを構築する動作を実行することにより、訓練により得られた敵対的生成ネットワークにおける生成器に基づいて、生成画像における欠落背景を補填可能な画像編集モデルを得る。なお、本実施形態で構築した敵対的生成ネットワークは、ディープラーニングニューラルネットワークである。

本実施形態で構築された敵対的生成ネットワークでは、生成器の役割は実サンプルとできるだけ類似した生成サンプルを生成することであり、判別器の役割は実サンプルと生成サンプルをできるだけ区別することである。生成器が出力する生成サンプルの真正性ができるだけ高くなるように生成器と判別器との間の対抗により敵対的生成ネットワークを訓練することにより、判別器が生成モデルから得られる出力が生成サンプルであるか、実サンプルであるかを判別できないようにする。

具体的には、本実施形態で構築される敵対的生成ネットワークにおける生成器は、前景画像生成ブランチ、マスク画像生成ブランチ、及び背景画像生成ブランチという3つの画像生成ブランチを含む。各ブランチは、取得された画像特徴に基づいて前景画像、マスク画像、及び背景画像をそれぞれ生成する。このうち、生成器に含まれる3つの画像生成ブランチのネットワーク構造はディープニューラルネットワークであり、畳み込みニューラルネットワーク、循環ニューラルネットワーク、再帰ニューラルネットワークなどであって良い。

すなわち、本実施形態は、敵対的生成ネットワークにおける生成器において前景画像、マスク画像、及び背景画像を同時にモデリングすることにより、複数のモデルを用いて別々にモデリングすることを回避することができ、画像編集モデルの構築ステップを簡略化し、画像編集モデルの構築に必要なリソース消費を低減した。

本実施形態は、生成器及び判別器を含む敵対的生成ネットワークを構築した後、訓練サンプルにおける第1画像とそれに対応する第2画像とに基づいて敵対的生成ネットワークを訓練し、訓練により得られた敵対的生成ネットワークにおける生成器を、生成画像における欠落背景を補填可能な画像編集モデルとして使用する。

本実施例では、交互に訓練することにより生成器と判別器とで構築された敵対的生成ネットワークを訓練し、敵対的生成ネットワーク全体が収束した時点で敵対的生成ネットワークの訓練が終了したとみなし、さらに訓練により得られた敵対的生成ネットワークにおける生成器を画像編集モデルとする。

具体的に、本実施形態では、敵対的生成ネットワークを訓練する場合に、以下の方式を採用することができる。即ち、訓練サンプルのうちの第2画像を実サンプルとし、第１画像を生成器に入力した後、最初にベクトルで表された画像のディープ語義情報である第1画像の画像特徴を取得し、次に画像特徴を前景画像生成ブランチ、マスク画像生成ブランチ及び背景画像生成ブランチにそれぞれ入力し、最後に生成された前景画像、マスク画像及び背景画像を統合して生成サンプルを得、生成サンプル及びそれに対応する実サンプルを判別器への入力として、敵対的生成ネットワークが収束するまで生成器と判別器を交互に訓練する。

本実施形態では、敵対的生成ネットワークが収束するまで生成器と判別器を交互に訓練する際に、具体的には、判別モデルの出力結果に基づいて、生成器と判別器に対応する損失関数を求めた後、生成器と判別器の損失関数に基づいて、敵対的生成ネットワークが収束するまで生成器と判別器のネットワーク構造におけるパラメータを調整する。

本実施形態では、損失関数に基づいて生成器と判別器のネットワーク構造におけるパラメータを調整する際に、生成器と判別器の訓練目標は、それぞれ損失関数を最小化することである。オプションとして、本実施形態の具体的な実施プロセスにおいて、予め設定された回数までに得られた損失関数が収束する場合に、当該損失関数が最小化されたと考えられる。また、得られた損失関数が予め設定された値まで収束した場合に、損失関数が最小化されたと考えても良い。また、訓練回数が予め設定された回数を超えた場合に損失関数が最小化されたと考えても良い。

本実施形態における生成器は、前景画像、マスク画像及び背景画像を統合する際に、具体的には、マスク画像における画素値が1である領域に前景画像の内容を用い、マスク画像における画素値が0である領域に背景画像の内容を用いて統合画像を得る。

理解すべきなのは、本実施形態における生成器に3つの画像生成ブランチが含まれ、各画像ブランチのそれぞれがニューラルネットワークであるため、本実施形態における生成器の損失関数は、3つの画像生成ブランチに対応する損失関数から構成することができる。3つの画像生成ブランチの損失関数がすべて最小化された場合に、生成器の損失関数が最小化されたと考えればよい。そこで、本実施形態では、3つの画像生成ブランチの損失関数を個別に設定することにより、各ブランチのネットワーク構造におけるパラメータの調整精度を向上させることができ、生成器が実サンプルに更に類似した生成サンプルを生成するようにすることができる。

ここで、本実施形態におけるマスク画像生成ブランチに対応する損失関数は、生成されたマスク画像が実サンプルの前背景の分割結果と一致することを制約するために使用される。前景画像生成ブランチに対応する損失関数は、生成された前景画像が実サンプルの前景画像にできるだけ近いこと、すなわち生成サンプルが実サンプルにできるだけ近いことを制約するために使用される。背景画像生成ブランチに対応する損失関数は、生成された背景が実サンプルの背景と一致することを制約するために使用される。

本実施形態の上述した方法で得られた画像編集モデルは、1つのモデルで画像の前景、背景、マスクを同時にモデル化することにより、前景の減少による入力画像の生成画像の背景欠落という問題を解決し、画像編集モデルの編集性能を向上させた一方、異なるモデルを用いて前景、背景及びマスクをそれぞれモデリングすることによるステップの煩雑さ、システムリソースの高消費という問題を回避し、画像編集モデルの構築ステップを簡略化し、低いシステムリソースだけで画像編集モデルを構築できるという目的を実現した。

図2は本発明の第2実施形態に係る概略図である。図2は、本実施形態における画像編集モデルの編集手順を示した。図2に示すように、入力画像が画像編集モデルに入力された後、まず入力画像の画像特徴を抽出し、次に画像特徴を前景画像生成ブランチ、マスク画像生成ブランチ及び背景画像生成ブランチにそれぞれ入力し、最後に生成された前景画像、マスク画像及び背景画像を統合し、統合結果を最終的な生成画像とする。

図3は、本発明の第3実施形態に係る概略図である。図3に示すように、本実施形態の画像編集モデルの構築装置は、第1画像及びそれに対応する第2画像を含む訓練サンプルを取得する取得ユニット301と、背景画像生成ブランチ、マスク画像生成ブランチ、及び前景画像生成ブランチを含む生成器と判別器とを備える敵対的生成ネットワークを構築する構築ユニット302と、第1画像及びそれに対応する第2画像に基づいて前記敵対的生成ネットワークを訓練し、訓練された前記敵対的生成ネットワークにおける生成器を画像編集モデルとする訓練ユニット303とを備える。

取得ユニット301により取得された訓練サンプルは、第1画像及びそれに対応する第2画像を含む。ここで、第2画像は、第1画像を編集したときに得られた完全な背景を有する画像であると考えて良い。

取得ユニット301は、訓練サンプルを取得する際に、取得された画像から第1画像と、それに対応する第2画像とを直接設定することができる。取得ユニット301は、画像間の対応関係を設定する際に、ユーザが実際の要求に応じて第1画像とそれに対応する第2画像とを手動で設定することができる。また、各画像について内容認識を行った後、予め設定された内容対応関係に従って第1画像とそれに対応する第2画像とを自動的に設定することも可能である。

また、取得ユニット301は、訓練サンプルを取得する際に、人物又は物体の画像である前景画像及び背景画像を取得し、対応関係にある2つの前景画像をそれぞれ同一の背景画像に統合し、統合結果を第1画像とそれに対応する第2画像とする、という方式を採用しても良い。なお、取得ユニット301は、ユーザにより対応関係にある2つの前景画像を手動で選択しても良く、画像に内容認識を行った後、対応関係にある2つの前景画像を自動的に選択しても良い。

本実施形態では、取得ユニット301が訓練サンプルを取得した後、構築ユニット302が、生成器と判別器とを含む敵対的生成ネットワークを構築する動作を行うことにより、訓練により得られた敵対的生成ネットワークにおける生成器に基づいて、生成画像における欠落背景を補填可能な画像編集モデルを得ることができる。

構築ユニット302により構築される敵対的生成ネットワークにおいて、生成器の役割は、実サンプルとできるだけ類似した生成サンプルを生成することであり、判別器の役割は、実サンプルと生成サンプルとをできるだけ区別することである。生成器が出力する生成サンプルの真正性ができるだけ高くなるように生成器と判別器との間の対抗により敵対的生成ネットワークを訓練することにより、判別器が生成モデルから得られる出力が生成サンプルであるか実サンプルであるかを判別できないようにする。

具体的には、構築ユニット302により構築される敵対的生成ネットワークにおける生成器は、前景画像生成ブランチ、マスク画像生成ブランチ、及び背景画像生成ブランチという3つの画像生成ブランチを含み、各ブランチは、取得された画像特徴に基づいて前景画像、マスク画像、及び背景画像をそれぞれ生成する。このうち、生成器に含まれる3つの画像生成ノードのネットワーク構造はディープニューラルネットワークであり、畳み込みニューラルネットワーク、循環ニューラルネットワーク、再帰ニューラルネットワークなどであって良い。

構築ユニット302が生成器及び判別器を含む敵対的生成ネットワークを構築した後、訓練ユニット303により、訓練サンプルのうちの第1画像及びそれに対応する第2画像に基づいて敵対的生成ネットワークを訓練し、訓練された敵対的生成ネットワークにおける生成器を、生成画像における欠落背景を補填可能な画像編集モデルとして使用する。

訓練ユニット303は、交互に訓練することにより生成器と判別器とで構築された敵対的生成ネットワークを訓練する。敵対的生成ネットワーク全体が収束した時点で敵対的生成ネットワークの訓練が終了したとみなし、さらに訓練により得られた敵対的生成ネットワークにおける生成器を画像編集モデルとする。

具体的には、訓練ユニット303は、敵対的生成ネットワークを訓練する際に、以下の方式を採用することができる。即ち、訓練サンプルのうちの第2画像を実サンプルとし、第1画像を生成器に入力した後、まず第1画像の画像特徴を取得し、次に画像特徴を前景画像生成ブランチ、マスク画像生成ブランチ及び背景画像生成ブランチにそれぞれ入力し、最後に生成された前景画像、マスク画像及び背景画像を統合して生成サンプルを得、生成サンプル及びそれに対応する実サンプルを判別器への入力として使用し、敵対的生成ネットワークが収束するまで生成器と判別器を交互に訓練する。

訓練ユニット303は、敵対的生成ネットワークが収束するまで生成器と判別器とを交互に訓練する際に、具体的には、判別モデルの出力結果に基づいて生成器と判別器に対応する損失関数を求めた後、生成器と判別器の損失関数に基づいて、敵対的生成ネットワークが収束するまで生成器と判別器のネットワーク構造におけるパラメータを調整する。

訓練ユニット303が損失関数に応じて生成器及び判別器のネットワーク構成におけるパラメータを調整する際に、生成器及び判別器の訓練目標は、それぞれ損失関数を最小化することである。オプションとして、訓練ユニット303の具体的な実現プロセスにおいて、予め設定された回数までに得られた損失関数が収束する場合に、当該損失関数が最小化されたと考えられる。また、得られた損失関数が予め設定された値まで収束した場合に、損失関数が最小化されたと考えても良い。また、訓練回数が予め設定された回数を超えた場合に、損失関数が最小化されたと考えても良い。

理解すべきなのは、構築ユニット302により構築された生成器に3つの画像生成ブランチが含まれ、各画像ブランチのそれぞれがニューラルネットワークであるため、訓練ユニット303における生成器の損失関数は、3つの画像生成ブランチに対応する損失関数から構成することができる。3つの画像生成ブランチの損失関数がすべて最小化された場合に、生成器の損失関数が最小化されたと考えることができる。

ここで、訓練ユニット303におけるマスク画像生成ブランチに対応する損失関数は、生成されたマスク画像が実サンプルの前背景の分割結果と一致することを制約するために使用される。前景画像生成ブランチに対応する損失関数は、生成された前景画像が実サンプルの前景画像にできるだけ近いこと、すなわち生成サンプルが実サンプルにできるだけ近いことを制約するために使用される。背景画像生成ブランチに対応する損失関数は、生成された背景が実サンプルの背景と一致することを制約するために使用される。

本発明の実施形態によれば、本発明は更に、電子デバイス及びコンピュータ可読記憶媒体を提供する。

図4は、本発明の実施形態に係る画像編集モデルの構築方法のための電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び／又は請求される本開示の実現を限定することが意図されない。

図4に示すように、この電子デバイスは、一つ又は複数のプロセッサ401、メモリ402、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置（例えば、インターフェースに結合される表示装置）にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び／又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する（例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする）。図4において、一つのプロセッサ401を例とする。

メモリ402は、本開示で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも１つのプロセッサが本願に提供された画像編集モデルの構築方法を実行するように、前記少なくとも１つのプロセッサに実行可能なコマンドが記憶されている。本開示の非一時的なコンピュータ可読記憶媒体は、本願に提供された画像編集モデルの構築方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。

メモリ402は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本開示の実施例における画像編集モデルの構築方法に対応するプログラムコマンド/モジュール（例えば、図3に示された取得ユニット301、構築ユニット302、及び訓練ユニット303）を記憶するために用いられる。プロセッサ401は、メモリ402に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における画像編集モデルの構築方法を実現する。

メモリ402は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は当該電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ402は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ402は、プロセッサ401に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して画像編集モデルの構築方法の電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

画像編集モデルの構築方法の電子デバイスは、更に、入力装置403と出力装置404とを備えても良い。プロセッサ401、メモリ402、入力装置403及び出力装置404は、バス又は他の手段により接続されても良く、図4においてバスによる接続を例とする。

入力装置403は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置404は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含むことができる。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ（ＬＥＤ）、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び／又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される）は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び／又はオブジェクト向けプログラミング言語、及び／又はアセンブリ／機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び／又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス）を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス（例えば、マウスや、トラックボール）を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック）であり得、ユーザからの入力は、任意の形態で（音響、音声又は触覚による入力を含む）受信され得る。

本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、インターネットワークを含む。

コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。

本開示の実施形態に係る技術案によれば、画像の前景、背景、マスクを1つのモデルで同時にモデル化することにより、前景の減少による入力画像の生成画像の背景欠落という問題を解決でき、画像編集モデルの編集性能を向上させた一方、異なるモデルを用いて前景、背景及びマスクをそれぞれモデリングすることによるステップの煩雑さ、システムリソースの高消費という問題を回避し、画像編集モデルの構築ステップを簡略化し、低いシステムリソースを消費するだけで画像編集モデルを構築できるという目的を実現した。

以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。

前記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。

Claims

コンピュータによって実施される、画像編集モデルの構築方法であって、
第1画像及びそれに対応する第2画像を含む訓練サンプルを取得することであって、前記第1画像及び前記第2画像は、同じ背景画像を有し、前記背景画像は、前記第1画像において前景画像に覆われた部分の一部が、前記第2画像において前記前景画像に覆われていない、ことと、
背景画像生成ブランチ、マスク画像生成ブランチ、及び前景画像生成ブランチを含む生成器と、判別器とを備える敵対的生成ネットワークを構築することと、
前記第1画像を前記生成器に入力し、前記生成器により出力されたサンプル及び前記第2画像を前記判別器に入力して、前記判別器が収束するまで前記敵対的生成ネットワークを訓練し、訓練された前記敵対的生成ネットワークにおける生成器を画像編集モデルとすることと、を含む、
方法。
前記訓練サンプルを取得することは、
前景画像及び背景画像を取得することと、
対応関係を有する2つの前景画像をそれぞれ同一の背景画像と統合し、統合結果を前記訓練サンプルのうちの第1画像とそれに対応する第2画像とすることと、を含む、
請求項1に記載の方法。
前記背景画像生成ブランチ、マスク画像生成ブランチ、及び前景画像生成ブランチのネットワーク構造は、ディープニューラルネットワークである、
請求項1に記載の方法。
前記第1画像とそれに対応する第2画像とに基づいて前記敵対的生成ネットワークを訓練することは、
前記訓練サンプルのうちの第2画像を実サンプルとして使用することと、
第1画像を生成器に入力した後、画像特徴を抽出して前記前景画像生成ブランチ、マスク画像生成ブランチ及び背景画像生成ブランチにそれぞれ入力し、各ブランチで生成された画像を統合して生成サンプルを得ることと、
生成サンプル及びそれに対応する実サンプルを判別器への入力として使用することと、
前記敵対的生成ネットワークが収束するまで生成器及び判別器を交互に訓練することと、を含む、
請求項1に記載の方法。
前記敵対的生成ネットワークが収束するまで生成器及び判別器を交互に訓練することは、
生成器に含まれる3つの画像生成ブランチに対して、各画像生成ブランチに対応する損失関数を構築することと、
各画像生成ブランチに対応する損失関数に基づいて、前記敵対的生成ネットワークが収束するまで各画像生成ブランチのネットワーク構造におけるパラメータをそれぞれ調整することと、を含む、
請求項4に記載の方法。
画像編集モデルの構築装置であって、
第1画像及びそれに対応する第2画像を含む訓練サンプルを取得する取得ユニットであって、前記第1画像及び前記第2画像は、同じ背景画像を有し、前記背景画像は、前記第1画像において前景画像に覆われた部分の一部が、前記第2画像において前景画像に覆われていない、取得ユニットと、
背景画像生成ブランチ、マスク画像生成ブランチ、及び前景画像生成ブランチを含む生成器と、判別器とを備える敵対的生成ネットワークを構築する構築ユニットと、
前記第1画像を前記生成器に入力し、前記生成器により出力されたサンプル及び前記第2画像を判別器に入力して、前記判別器が収束するまで前記敵対的生成ネットワークを訓練し、訓練された前記敵対的生成ネットワークにおける生成器を画像編集モデルとする訓練ユニットと、を備える、
装置。
前記取得ユニットは、訓練サンプルを取得する場合に、具体的に、
前景画像及び背景画像を取得し、
対応関係を有する2つの前景画像をそれぞれ同一の背景画像と統合し、統合結果を前記訓練サンプルのうちの第1画像とそれに対応する第2画像とする、
請求項6に記載の装置。
前記構築ユニットにより構築される背景画像生成ブランチ、マスク画像生成ブランチ、及び前景画像生成ブランチのネットワーク構造は、ディープニューラルネットワークである、
請求項6に記載の装置。
前記訓練ユニットは、第1画像とそれに対応する第2画像とに基づいて前記敵対的生成ネットワークを訓練する場合に、具体的に、
前記訓練サンプルのうちの第2画像を実サンプルとして使用し、
第1画像を生成器に入力した後、画像特徴を抽出して前記前景画像生成ブランチ、マスク画像生成ブランチ及び背景画像生成ブランチにそれぞれ入力し、各ブランチで生成された画像を統合して生成サンプルを得、
生成サンプル及びそれに対応する実サンプルを判別器への入力として使用し、
前記敵対的生成ネットワークが収束するまで生成器と判別器を交互に訓練する、
請求項6に記載の装置。
前記訓練ユニットは、前記敵対的生成ネットワークが収束するまで生成器と判別器とを交互に訓練する場合に、具体的に、
生成器に含まれる3つの画像生成ブランチに対して、各画像生成ブランチに対応する損失関数を構築し、
前記敵対的生成ネットワークが収束するまで、各画像生成ブランチに対応する損失関数に基づいて各画像生成ブランチのネットワーク構造におけるパラメータをそれぞれ調整する、
請求項9に記載の装置。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1～5のいずれか一項に記載の方法を実行させる電子デバイス。
コンピュータに請求項1～5のいずれか一項に記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
コンピュータに請求項1～5のいずれか一項に記載の方法を実行させるためのプログラム。