JP2022180519A - 画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体 - Google Patents
画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体 Download PDFInfo
- Publication number
- JP2022180519A JP2022180519A JP2022149886A JP2022149886A JP2022180519A JP 2022180519 A JP2022180519 A JP 2022180519A JP 2022149886 A JP2022149886 A JP 2022149886A JP 2022149886 A JP2022149886 A JP 2022149886A JP 2022180519 A JP2022180519 A JP 2022180519A
- Authority
- JP
- Japan
- Prior art keywords
- image
- code
- latent code
- latent
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012545 processing Methods 0.000 title claims abstract description 52
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 238000005457 optimization Methods 0.000 claims abstract description 29
- 238000013507 mapping Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 5
- 239000000470 constituent Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Processing Or Creating Images (AREA)
Abstract
Description
code)wを取得し、wをアフィン変換して、18個の潜在コード{s_{i}}_{i=1}^{18}を取得し、対応する18個のネットワークレイヤーを生成して、画像を生成し、実現プロセスを図1に示す。各潜在コード{s_{i}}_{i=1}^{18}はS空間のサンプルであり、すべての{s_{i}}_{i=1}^{18}が一緒になってS空間を構成する。S空間内の各潜在コードは生成された画像に対応するため、S空間における編集対象画像の対応する潜在コードを編集することにより、画像の編集を実現することができる。
Pre-training、スタイルベースの対照言語画像事前トレーニング)は、主に、CLIP(Contrastive Language-Image Pre-training、対照言語画像事前トレーニング)モデルを使用して、ユーザ入力言語の記述によって潜在コード(latent code)を編集することで、画像を編集するという目的を達成する。
L=(s-s_{image})2+\lambda(s-s_{text})2
L=|G(E(I))-I|+Loss_{id}(G(E(I)),I)
前記第4の潜在コードによって、前記潜在コードマッパーをトレーニングするステップであって、前記潜在コードマッパーの目的関数の制約条件が、前記第3の潜在コードと、入力された前記第4の潜在コードに基づいて前記潜在コードマッパーによって出力された第6の潜在コードとの間のコサイン距離を含むステップと、前記コサイン距離に基づいて、前記潜在コードマッパーのパラメーターを調整するステップと、を含む。
L=(s-s_{image})2+\lambda(s-s_{text})2
前記ターゲット潜在コードを前記敵対的生成ネットワークのジェネレータに入力して、前記ターゲット画像を生成する。
本願の実施例によれば、本願は、コンピュータプログラムをさらに提供し、コンピュータプログラムがプロセッサによって実行される場合、本願によって提供される画像処理方法または画像処理モデルのトレーニング方法が実現される。
Claims (23)
- 画像編集要求に応答して、前記画像編集要求に基づいて、編集対象画像とターゲット画像特性のテキスト記述情報とを決定するステップと、
敵対的生成ネットワークのS空間で前記編集対象画像をエンコードして、第1の潜在コードを取得するステップであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークであるステップと、
前記テキスト記述情報をエンコードして、対照言語画像事前トレーニング(CLIP)に基づくテキストコードを取得し、前記S空間で前記テキストコードをマッピングして、第2の潜在コードを取得するステップと、
前記第1の潜在コードおよび第2の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得するステップと、
前記ターゲット潜在コードに基づいてターゲット画像を生成するステップと、
を含む画像処理方法。 - 前記敵対的生成ネットワークのS空間で前記編集対象画像をエンコードして、第1の潜在コードを取得するステップが、
編集対象画像を逆変換エンコーダに入力し、前記逆変換エンコーダによって前記S空間で前記編集対象画像に対応する第1の潜在コードを生成するステップを含み、
前記逆変換エンコーダが、画像再構成誤差に基づいて監視およびトレーニングされ、前記画像再構成誤差が、元の画像と、対応する再構成画像との間の誤差であり、前記再構成画像が、前記変換エンコーダから出力された潜在コードに基づいて、前記敵対的生成ネットワークのジェネレータによって画像を再構成することによって得られる請求項1に記載の画像処理方法。 - 前記テキスト記述情報をエンコードして、対照言語画像事前トレーニング(CLIP)に基づくテキストコードを取得し、前記S空間で前記テキストコードをマッピングして、第2の潜在コードを取得するステップが、
テキスト記述情報をCLIPモデルのテキストエディタに入力し、前記テキスト記述情報をエンコードして、テキストコードを取得するステップと、
前記テキストコードを潜在コードマッパーに入力し、前記S空間で前記テキストコードをマッピングして、第2の潜在コードを取得するステップと、
を含む請求項1に記載の画像処理方法。 - 前記第1の潜在コードおよび第2の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得するステップが、
前記第1の潜在コードおよび第2の潜在コードを画像再構成エディタに入力し、前記第1の潜在コードおよび第2の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得するステップを含む請求項1に記載の画像処理方法。 - 前記画像再構成エディタは畳み込みネットワークを含み、前記画像再構成エディタの目的関数が、次のように示され、
L=(s-s_{image})2+\lambda(s-s_{text})2
sはターゲット潜在コードを示し、s_{image}は第1の潜在コードを示し、s_{text}は第2の潜在コードを示し、\lambdaは距離重みの経験値を示す請求項4に記載の画像処理方法。 - 前記ターゲット潜在コードに基づいてターゲット画像を生成するステップが、
前記ターゲット潜在コードを前記敵対的生成ネットワークのジェネレータに入力して、前記ターゲット画像を生成するステップを含む請求項1に記載の画像処理方法。 - 画像処理モデルのトレーニング方法であって、
前記画像処理モデルが、逆変換エンコーダ、対照言語画像事前トレーニング(CLIP)モデル、潜在コードマッパー、画像再構成エディタ及びスタイルベースの敵対的生成ネットワークのジェネレータを含み、
敵対的生成ネットワークのS空間で元の画像によって逆変換エンコーダをトレーニングして、トレーニングされた逆変換エンコーダを取得するステップであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークであるステップと、
前記トレーニングされた逆変換エンコーダによって、前記S空間で前記元の画像をエンコードして、第3の潜在コードを取得し、前記CLIPモデルの画像エディタを使用して、前記元の画像を第4の潜在コードに変換するステップと、
前記第3の潜在コードと前記第4の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得するステップと、
前記元の画像とターゲット画像特性のテキスト記述情報とを取得し、前記CLIPモデルのテキストエディタによって、前記テキスト記述情報をエンコードして、テキストコードを取得し、前記トレーニングされた潜在コードマッパーによって、前記S空間で前記テキストコードをマッピングして、第5の潜在コードを取得するステップと、
前記第3の潜在コードと前記第5の潜在コードとに基づいて、前記画像再構成エディタをトレーニングして、トレーニングされた画像再構成エディタを取得するステップと、
を含む、画像処理モデルのトレーニング方法。 - 前記敵対的生成ネットワークのS空間で元の画像によって逆変換エンコーダをトレーニングするステップが、
前記元の画像によって、前記逆変換エンコーダをトレーニングするステップであって、前記逆変換エンコーダの目的関数の制約条件が画像再構成誤差を含み、前記画像再構成誤差を取得する方法が、前記逆変換エンコーダによって変換された第3の潜在コードを前記スタイルベースの敵対的生成ネットワークのジェネレータに入力して、再構成画像を取得することと、前記第3の潜在コードに対応する元の画像と前記再構成画像との間の画像再構成誤差を取得することと、を含むステップと、
前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整するステップと、
を含む請求項7に記載の画像処理モデルのトレーニング方法。 - 前記敵対的生成ネットワークのS空間で元の画像によって逆変換エンコーダをトレーニングするステップが、
前記元の画像と前記再構成画像との両方をID弁別器に入力して、前記元の画像の第1のベクトルと前記再構成画像の第2のベクトルとを取得するステップと、
前記第1のベクトルと前記第2のベクトルとの間の誤差をID誤差として算出するステップと、
を含み、
前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整するステップが、
前記ID誤差と前記画像再構成誤差とに基づいて、前記逆変換エンコーダのパラメーターを調整するステップを含む請求項8に記載の画像処理モデルのトレーニング方法。 - 前記第3の潜在コードと前記第4の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得するステップが、
前記第4の潜在コードによって、前記潜在コードマッパーをトレーニングするステップであって、前記潜在コードマッパーの目的関数の制約条件が、前記第3の潜在コードと、入力された前記第4の潜在コードに基づいて前記潜在コードマッパーによって出力された第6の潜在コードとの間のコサイン距離を含むステップと、
前記コサイン距離に基づいて、前記潜在コードマッパーのパラメーターを調整するステップと、
を含む請求項7に記載の画像処理モデルのトレーニング方法。 - 画像編集要求に応答して、前記画像編集要求に基づいて、編集対象画像とターゲット画像特性のテキスト記述情報とを決定するテキスト取得モジュールと、
敵対的生成ネットワークのS空間で前記編集対象画像をエンコードして、第1の潜在コードを取得する第1のエンコードモジュールであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークである第1のエンコードモジュールと、
前記テキスト記述情報をエンコードして、対照言語画像事前トレーニング(CLIP)に基づくテキストコードを取得し、前記S空間で前記テキストコードをマッピングして、第2の潜在コードを取得する第2のエンコードモジュールと、
前記第1の潜在コードおよび第2の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得する最適化モジュールと、
前記ターゲット潜在コードに基づいてターゲット画像を生成する生成モジュールと、
を備える画像処理装置。 - 前記第1のエンコードモジュールが、
編集対象画像を逆変換エンコーダに入力し、前記逆変換エンコーダによって前記S空間で前記編集対象画像に対応する第1の潜在コードを生成し、
前記逆変換エンコーダが、画像再構成誤差に基づいて監視およびトレーニングされ、前記画像再構成誤差が、元の画像と、対応する再構成画像との間の誤差であり、前記再構成画像が、前記変換エンコーダから出力された潜在コードに基づいて、前記敵対的生成ネットワークのジェネレータによって画像を再構成することによって得られる請求項11に記載の画像処理装置。 - 前記第2のエンコードモジュールが、
テキスト記述情報を前記CLIPモデルのテキストエディタに入力し、前記テキスト記述情報をエンコードして、テキストコードを取得し、
前記テキストコードを潜在コードマッパーに入力し、前記S空間で前記テキストコードをマッピングして、第2の潜在コードを取得する請求項11に記載の画像処理装置。 - 前記最適化モジュールが、
前記第1の潜在コードおよび第2の潜在コードを画像再構成エディタに入力し、前記第1の潜在コードおよび第2の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得する請求項11に記載の画像処理装置。 - 前記画像再構成エディタが畳み込みネットワークを含み、前記画像再構成エディタの目的関数が、次のように示され、
L=(s-s_{image})2+\lambda(s-s_{text})2
sはターゲット潜在コードを示し、s_{image}は第1の潜在コードを示し、s_{text}は第2の潜在コードを示し、\lambda は距離重みの経験値を示す請求項14に記載の画像処理装置。 - 前記生成モジュールが、
前記ターゲット潜在コードを前記敵対的生成ネットワークのジェネレータに入力して、前記ターゲット画像を生成する請求項11に記載の画像処理装置。 - 画像処理モデルのトレーニング装置であって、
前記画像処理モデルが、逆変換エンコーダ、対照言語画像事前トレーニング(CLIP)モデル、潜在コードマッパー、画像再構成エディタ及びスタイルベースの敵対的生成ネットワークのジェネレータを含み、
敵対的生成ネットワークのS空間で元の画像によって逆変換エンコーダをトレーニングして、トレーニングされた逆変換エンコーダを取得する第1のトレーニングモジュールであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークである第1のトレーニングモジュールと、
前記トレーニングされた逆変換エンコーダによって、前記S空間で前記元の画像をエンコードして、第3の潜在コードを取得し、前記CLIPモデルの画像エディタを使用して、前記元の画像を第4の潜在コードに変換する第1の取得モジュールと、
前記第3の潜在コードと前記第4の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得する第2のトレーニングモジュールと、
前記元の画像とターゲット画像特性のテキスト記述情報とを取得し、前記CLIPモデルのテキストエディタによって、前記テキスト記述情報をエンコードして、テキストコードを取得し、前記トレーニングされた潜在コードマッパーによって、前記S空間で前記テキストコードをマッピングして、第5の潜在コードを取得する第2の取得モジュールと、
前記第3の潜在コードと前記第5の潜在コードとに基づいて、前記画像再構成エディタをトレーニングして、トレーニングされた画像再構成エディタを取得する第3のトレーニングモジュールと、
を備える、画像処理モデルのトレーニング装置。 - 前記第1のトレーニングモジュールが、
前記元の画像によって、前記逆変換エンコーダをトレーニングし、前記逆変換エンコーダの目的関数の制約条件が画像再構成誤差を含み、前記画像再構成誤差を取得するための方法が、前記逆変換エンコーダによって変換された第3の潜在コードを前記スタイルベースの敵対的生成ネットワークのジェネレータに入力して、再構成画像を取得することと、前記第3の潜在コードに対応する元の画像と前記再構成画像との間の画像再構成誤差を取得することと、を含み、
前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整する請求項17に記載の画像処理モデルのトレーニング装置。 - 前記第1のトレーニングモジュールが、
前記元の画像と前記再構成画像との両方をID弁別器に入力して、前記元の画像の第1のベクトルと前記再構成画像の第2のベクトルとを取得し、
前記第1のベクトルと前記第2のベクトルとの間の誤差をID誤差として算出し、
前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整することが、
前記ID誤差と前記画像再構成誤差とに基づいて、前記逆変換エンコーダのパラメーターを調整することを含む請求項18に記載の画像処理モデルのトレーニング装置。 - 前記第2のトレーニングモジュールが、
前記第5の潜在コードによって、前記潜在コードマッパーをトレーニングし、前記潜在コードマッパーの目的関数の制約条件が、前記トレーニングされた逆変換エンコーダから出力された第3の潜在コードと前記潜在コードマッパーから出力された第4の潜在コードとの間のコサイン距離を含み、
前記コサイン距離に基づいて、前記潜在コードマッパーのパラメーターを調整する請求項17に記載の画像処理モデルのトレーニング装置。 - 少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶されており、前記命令が、前記少なくとも1つのプロセッサが請求項1から6のいずれか一項に記載の画像処理方法または請求項7から10のいずれか一項に記載の画像処理モデルのトレーニング方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項1から6のいずれか一項に記載の画像処理方法または請求項7から10のいずれか一項に記載の画像処理モデルのトレーニング方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。 - プロセッサによって実行される場合、請求項1から6のいずれか一項に記載の画像処理方法または請求項7から10のいずれか一項に記載の画像処理モデルのトレーニング方法が実現されるコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111189380.4A CN113963087B (zh) | 2021-10-12 | 2021-10-12 | 图像处理方法、图像处理模型训练方法、装置及存储介质 |
CN202111189380.4 | 2021-10-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022180519A true JP2022180519A (ja) | 2022-12-06 |
JP7395686B2 JP7395686B2 (ja) | 2023-12-11 |
Family
ID=79463603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022149886A Active JP7395686B2 (ja) | 2021-10-12 | 2022-09-21 | 画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230022550A1 (ja) |
JP (1) | JP7395686B2 (ja) |
CN (1) | CN113963087B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116320459A (zh) * | 2023-01-08 | 2023-06-23 | 南阳理工学院 | 一种基于人工智能的计算机网络通信数据处理方法及系统 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943789A (zh) * | 2022-03-28 | 2022-08-26 | 华为技术有限公司 | 一种图像处理方法、模型训练方法及相关装置 |
US11762622B1 (en) * | 2022-05-16 | 2023-09-19 | Adobe Inc. | Interactive remote digital image editing utilizing a scalable containerized architecture |
CN115631251B (zh) * | 2022-09-07 | 2023-09-22 | 北京百度网讯科技有限公司 | 基于文本生成图像的方法、装置、电子设备和介质 |
CN115620303B (zh) * | 2022-10-13 | 2023-05-09 | 杭州京胜航星科技有限公司 | 人事档案智慧管理系统 |
CN116091857B (zh) * | 2022-10-17 | 2023-10-20 | 北京百度网讯科技有限公司 | 图像处理模型的训练方法、图像处理方法和装置 |
US11922550B1 (en) * | 2023-03-30 | 2024-03-05 | OpenAI Opco, LLC | Systems and methods for hierarchical text-conditional image generation |
CN116543074B (zh) * | 2023-03-31 | 2024-05-17 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN116543075B (zh) * | 2023-03-31 | 2024-02-13 | 北京百度网讯科技有限公司 | 图像生成方法、装置、电子设备及存储介质 |
CN116402067B (zh) * | 2023-04-06 | 2024-01-30 | 哈尔滨工业大学 | 面向多语种文字风格保持的跨语言自监督生成方法 |
CN116363737B (zh) * | 2023-06-01 | 2023-07-28 | 北京烽火万家科技有限公司 | 一种人脸图像属性编辑方法、系统、电子设备及存储介质 |
CN116702091B (zh) * | 2023-06-21 | 2024-03-08 | 中南大学 | 基于多视图clip的多模态讽刺意图识别方法、装置和设备 |
CN116681630B (zh) * | 2023-08-03 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN117649338B (zh) * | 2024-01-29 | 2024-05-24 | 中山大学 | 一种用于人脸图像编辑的生成对抗网络逆映射方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457994B (zh) * | 2019-06-26 | 2024-05-10 | 平安科技(深圳)有限公司 | 人脸图像生成方法及装置、存储介质、计算机设备 |
CN111861955A (zh) * | 2020-06-22 | 2020-10-30 | 北京百度网讯科技有限公司 | 构建图像编辑模型的方法以及装置 |
CN112017255A (zh) * | 2020-08-21 | 2020-12-01 | 上海志唐健康科技有限公司 | 一种根据食谱生成食物图像的方法 |
CN112184851B (zh) * | 2020-10-26 | 2023-09-26 | 北京百度网讯科技有限公司 | 图像编辑方法、网络训练方法、相关装置及电子设备 |
-
2021
- 2021-10-12 CN CN202111189380.4A patent/CN113963087B/zh active Active
-
2022
- 2022-09-21 JP JP2022149886A patent/JP7395686B2/ja active Active
- 2022-10-04 US US17/937,979 patent/US20230022550A1/en not_active Abandoned
Non-Patent Citations (1)
Title |
---|
OR PATASHNIK,外4名: "StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery", [ONLINE], JPN6023026972, 31 March 2021 (2021-03-31), ISSN: 0005100705 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116320459A (zh) * | 2023-01-08 | 2023-06-23 | 南阳理工学院 | 一种基于人工智能的计算机网络通信数据处理方法及系统 |
CN116320459B (zh) * | 2023-01-08 | 2024-01-23 | 南阳理工学院 | 一种基于人工智能的计算机网络通信数据处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP7395686B2 (ja) | 2023-12-11 |
US20230022550A1 (en) | 2023-01-26 |
CN113963087A (zh) | 2022-01-21 |
CN113963087B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7395686B2 (ja) | 画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体 | |
US11769482B2 (en) | Method and apparatus of synthesizing speech, method and apparatus of training speech synthesis model, electronic device, and storage medium | |
JP7146991B2 (ja) | 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品 | |
KR102627802B1 (ko) | 가상 형상 생성 모델의 트레이닝 방법 및 가상 형상 생성 방법 | |
KR102566277B1 (ko) | 이미지 편집 모델 구축 방법 및 장치 | |
CN111259671B (zh) | 文本实体的语义描述处理方法、装置及设备 | |
US20210319335A1 (en) | Question analysis method, device, knowledge base question answering system and electronic equipment | |
US20210232932A1 (en) | Method and apparatus for generating image, device and medium | |
CN111767359B (zh) | 兴趣点分类方法、装置、设备以及存储介质 | |
JP2022058775A (ja) | ターゲットオブジェクトの生成方法、装置、電子機器及び記憶媒体 | |
US20220148239A1 (en) | Model training method and apparatus, font library establishment method and apparatus, device and storage medium | |
CN114549935A (zh) | 信息生成方法和装置 | |
US11836837B2 (en) | Video generation method, device and storage medium | |
JP2021111334A (ja) | 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器 | |
CN114820871B (zh) | 字体生成方法、模型的训练方法、装置、设备和介质 | |
CN111241838B (zh) | 文本实体的语义关系处理方法、装置及设备 | |
WO2023065731A1 (zh) | 目标地图模型的训练方法、定位方法及相关装置 | |
US20210334659A1 (en) | Method and apparatus for adversarial training of machine learning model, and medium | |
CN111539897A (zh) | 用于生成图像转换模型的方法和装置 | |
JP2022172173A (ja) | 画像編集モデルのトレーニング方法および装置、画像編集方法および装置、電子機器、記憶媒体並びにコンピュータプログラム | |
KR20220009338A (ko) | 모델링 매개 변수의 설정 방법, 장치, 전자 기기 및 기록 매체 | |
CN116611496A (zh) | 文本到图像的生成模型优化方法、装置、设备及存储介质 | |
US11836836B2 (en) | Methods and apparatuses for generating model and generating 3D animation, devices and storage mediums | |
JP7121791B2 (ja) | 言語生成方法、装置及び電子機器 | |
JP7256857B2 (ja) | 対話処理方法、装置、電子機器及び記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230704 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7395686 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |