JP2022172173A - 画像編集モデルのトレーニング方法および装置、画像編集方法および装置、電子機器、記憶媒体並びにコンピュータプログラム - Google Patents
画像編集モデルのトレーニング方法および装置、画像編集方法および装置、電子機器、記憶媒体並びにコンピュータプログラム Download PDFInfo
- Publication number
- JP2022172173A JP2022172173A JP2022130879A JP2022130879A JP2022172173A JP 2022172173 A JP2022172173 A JP 2022172173A JP 2022130879 A JP2022130879 A JP 2022130879A JP 2022130879 A JP2022130879 A JP 2022130879A JP 2022172173 A JP2022172173 A JP 2022172173A
- Authority
- JP
- Japan
- Prior art keywords
- image
- vector
- text
- image editing
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000004590 computer program Methods 0.000 title claims description 11
- 239000013598 vector Substances 0.000 claims abstract description 396
- 238000013507 mapping Methods 0.000 claims abstract description 58
- 230000004044 response Effects 0.000 claims abstract description 11
- 230000000153 supplemental effect Effects 0.000 claims description 31
- 230000009466 transformation Effects 0.000 claims description 27
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000001815 facial effect Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 210000004209 hair Anatomy 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 206010044613 Trichomegaly Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 208000019737 familial isolated trichomegaly Diseases 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/004—Annotating, labelling
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Architecture (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
Abstract
【課題】画像編集の効率を向上させる画像編集モデルのトレーニング方法、画像編集方法及び装置、電子機器、記憶媒体並びにプログラムを提供する。【解決手段】画像編集モデルのトレーニング方法は、トレーニングサンプルセットを取得することと、トレーニングサンプルセットから1つの記述テキストサンプルと1つの画像サンプルを選択することと、選択した記述テキストサンプルと予め決定されたテキストテンプレートとに基づいて、テキスト方向ベクトルを確定することと、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力してバイアスベクトルを取得することと、選択された画像サンプルとバイアスベクトルとに基づいて、画像方向ベクトルを確定し、テキスト方向ベクトルと画像方向ベクトルとに基づいて損失値を計算することと、損失値が閾値条件を満たすことに応答して、画像編集モデルのトレーニングが完了したと判定することと、を含む。【選択図】図2
Description
本開示は、人工知能の技術分野、特に仮想/拡張現実、コンピュータビジョンおよび深層学習の技術分野に関し、画像編集などのシーンに適用可能であり、特に画像編集モデルのトレーニング方法および装置、画像編集方法および装置、電子機器、記憶媒体並びにコンピュータプログラムに関する。
画像編集モデルは、入力された記述テキストと編集すべき画像とに基づいて、編集すべき画像を編集し、記述テキストに対応する目標画像を生成することができ、記述テキストは、目標画像の特徴を記述するための文字表記であり、例えば、編集すべき画像が気分の楽しい顔画像であり、記述テキストが「気分が悲しい」であってもよく、記述テキストおよび編集すべき画像を画像編集モデルに入力し、悲しい顔画像を出力する。現在、1つの画像編集モデルは1つの固定された記述テキストしか受け入れられず、複数の記述テキストがある場合、画像編集が難しく、コストが高く、柔軟性が不十分である。
本開示は、画像編集モデルのトレーニング方法および装置、画像編集方法および装置、電子機器、記憶媒体並びにコンピュータプログラムを提供し、画像編集の効率が向上された。
本開示の第1の態様によれば、記述テキストサンプルと画像サンプルとを含むトレーニングサンプルからなるトレーニングサンプルセットを取得するステップと、トレーニングサンプルセットから1つの記述テキストサンプルと1つの画像サンプルを選択することと、選択された記述テキストサンプルと予め決定されたテキストテンプレートとに基づいて、テキスト方向ベクトルを確定することと、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを取得することと、選択された画像サンプルと前記バイアスベクトルとに基づいて、画像方向ベクトルを確定することと、テキスト方向ベクトルと画像方向ベクトルとに基づいて損失値を計算することと、損失値が閾値条件を満たすことに応答して、画像編集モデルのトレーニングが完了したと判定することとを含むトレーニングステップを実行するステップと、を含む画像編集モデルのトレーニング方法を提供する。
本開示の第2の態様によれば、編集すべき画像と記述テキストとを含む画像編集要求を受信するステップと、記述テキストと編集すべき画像とを画像編集モデルに入力して、記述テキストに対応する目標画像を生成するステップとを含み、画像編集モデルは第1の態様に記載の画像編集モデルのトレーニング方法によりトレーニングされたものである、画像編集方法を提供する。
本開示の第3の態様によれば、記述テキストサンプルと画像サンプルとを含むトレーニングサンプルからなるトレーニングサンプルセットを取得するように構成される取得モジュールと、トレーニングサンプルセットから1つの記述テキストサンプルと1つの画像サンプルを選択することと、選択された記述テキストサンプルと予め決定されたテキストテンプレートとに基づいて、テキスト方向ベクトルを確定することと、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを取得することと、選択された画像サンプルとバイアスベクトルとに基づいて、画像方向ベクトルを確定することと、テキスト方向ベクトルと画像方向ベクトルとに基づいて損失値を計算することと、損失値が閾値条件を満たすことに応答して、画像編集モデルのトレーニングが完了したと判定することとを含むトレーニングステップを実行するように構成されるトレーニングモジュールと、を備える画像編集モデルのトレーニング装置を提供する。
本開示の第4の態様によれば、画像編集装置は、編集すべき画像と記述テキストとを含む画像編集要求を受信するように構成される受信モジュールと、記述テキストと編集すべき画像とを画像編集モデルに入力して、記述テキストに対応する目標画像を生成するように構成される生成モジュールと、を備え、画像編集モデルは第3の態様に記載の画像編集モデルのトレーニング装置によりトレーニングされたものである、画像編集装置を提供する。
本開示の第5の態様によれば、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されるメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な指令が格納され、指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに第1の態様に記載の画像編集モデルのトレーニング方法または第2の態様に記載の画像編集方法を実行させる、電子機器を提供する。
本開示の第6の態様によれば、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令は第1の態様に記載の画像編集モデルのトレーニング方法または第2の態様に記載の画像編集方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。
本開示の第7の態様によれば、プロセッサによって実行されると、第1の態様に記載の画像編集モデルのトレーニング方法または第2の態様に記載の画像編集方法が実現されるコンピュータプログラムを提供する。
なお、発明の概要に記載された内容は、本開示の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって理解しやすくなる。
図面は、本開示をよりよく理解するために用いられ、本開示に対する限定ではない。
図面は、本開示をよりよく理解するために用いられ、本開示に対する限定ではない。
以下は、図面を参照して本開示の例示的な実施形態を説明し、ここで理解を助けるため、本開示の実施形態の様々な詳細を記載するが、これらは単なる例示的なものに過ぎないことを理解すべきである。従って、本開示の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることを理解すべきである。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。
図1は、本開示に係る画像編集モデルのトレーニング方法、画像編集方法、画像編集モデルのトレーニング装置または画像編集装置の実施形態が適用可能な例示的なシステムアーキテクチャ100を示している。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105との間で通信リンクを提供するための媒体として使用される。ネットワーク104は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
ユーザは、画像編集モデルまたは編集画像などを取得するために、端末装置101、102、103を使用してネットワーク104を介してサーバ105と情報のやり取りをしてもよい。端末装置101、102、103には、テキスト画像処理アプリケーションなどの様々なクライアントアプリケーションをインストールしてもよい。
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。端末装置101、102、103がソフトウェアである場合、上記の電子機器にインストールされてもよい。それは、複数のソフトウェア若しくはソフトウェアモジュールとして実現されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実現されてもよい。ここでは特に限定しない。
サーバ105は、画像編集モデルまたは編集画像の確定に基づいた様々なサービスを提供することができる。例えば、サーバ105は、端末装置101、102、103から取得されたテキストおよび画像を解析処理し、処理(例えば、テキストに対応する編集画像などを確定する)結果を生成することができる。
なお、サーバ105は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ105がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装可能である。サーバ105がソフトウェアである場合、複数のソフトウェア若しくはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。
なお、本開示の実施形態に係る画像編集モデルのトレーニング方法または画像編集方法は、通常にサーバ105により実行され、これに応じて、画像編集モデルのトレーニング装置または画像編集装置は、通常にサーバ105に設けられている。
図1における端末装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実現のニーズに応じて、端末装置、ネットワークおよびサーバの数を任意に加減してもよい。
本開示に係る画像編集モデルのトレーニング方法の一実施形態のフロー200を示す図2を参照する。当該画像編集モデルのトレーニング方法は、次のステップを含む。
ステップ201では、トレーニングサンプルセットを取得する。トレーニングサンプルは記述テキストサンプルと画像サンプルとを含む。
本実施形態において、画像編集モデルのトレーニング方法の実行主体(例えば、図1に示すサーバ105)は、トレーニングサンプルセットを取得することができる。ここで、実行主体は、開示されたデータベースから記憶されている既存のサンプルセットを取得してもよいし、端末装置(例えば、図1に示す端末装置101、102、103)によりサンプルを収集してもよい。こうすると、実行主体は、端末装置により収集されたサンプルを受信してローカルに格納し、トレーニングサンプルセットを生成することができる。
トレーニングサンプルセットは、少なくとも1つのサンプルを含んでもよい。サンプルは、記述テキストサンプルと画像サンプルとを含んでもよい。記述テキストサンプルは、編集後の画像の特徴を記述するためのテキストであり、例えば、記述テキストは、編集後の顔画像の顔器官の特徴を記述するためのテキストであってもよいし、編集後の顔画像の人物の気分を記述するためのテキストであってもよい。例えば、記述テキストの内容は、長い巻き髪、大きな目、白肌、長いまつげなどである。画像サンプルは動物画像、植物画像または人間の顔画像であってもよく、本開示はこれを限定しない。
本開示の技術方案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供および公開などの処理は、いずれも関連する法律法規の規定に準拠し、且つ公序良俗に反しない。
本実施形態のいくつかのオプション的な実施形態では、添付図面を有する複数の文章を取得し、1つの文章から1枚の添付図面を画像サンプルとして取得し、その添付図面を記述する文字を取得し、その中から複数のキーワードを抽出して、その添付図面に対応する記述テキストサンプルとすることにより、複数の画像サンプルと対応する複数の記述テキストサンプルとを得、トレーニングサンプルセットを形成してもよい。
ステップ202では、トレーニングサンプルセットから記述テキストサンプルと画像サンプルを選択する。
本実施形態では、上記実行主体は、トレーニングサンプルセットを取得した後、トレーニングサンプルセットから、記述テキストサンプルと画像サンプルとを選択することができる。具体的には、記述テキストサンプルと画像サンプルをトレーニングサンプルセットからランダムに選択してもよいし、画像サンプルをトレーニングサンプルセットからランダムに選択した後、その画像サンプルとの対応関係を有する記述テキストサンプルをトレーニングサンプルセットから見つけてもよい。本開示はこれを限定しない。
ステップ203では、選択された記述テキストサンプルと予め決定されたテキストテンプレートとに基づいてテキスト方向ベクトルを確定する。
本実施形態では、上記実行主体は、選択された記述テキストサンプルと、予め決定されたテキストテンプレートとに基づいて、テキスト方向ベクトルを確定することができる。なお、テキストテンプレートは、記述テキストサンプルが実際に表現しようとする文字の意味に関連する句であってもよいし、関連する文であってもよいし、関連する一区切りの文字であってもよいが、本開示はこれを限定しない。テキストテンプレートの数は1つであってもよいし、複数であってもよい。具体的には、記述テキストサンプルが実際に表現しようとする文字の意味を予め取得しておき、文字の意味に適するシーンを取得したり、文字の意味が表現に適用されるオブジェクト名を取得しておき、適用されるシーンまたは表現に適用されるオブジェクト名をテキストテンプレートとしてもよいし、適用されるシーンまたは表現に適用されるオブジェクト名を取得した後、適用されるシーンまたは表現に適用されるオブジェクト名を詳細に記述し、一区切りの文章に拡張してテキストテンプレートとしてもよい。例示的に、記述テキストサンプルが「美しい」である場合、記述テキストサンプルが実際に表現しようとする文字の意味は、画像が美しいであることを表現し、さらに、写真、絵、画像をテキストテンプレートとしてもよい。テキストテンプレートを用いることにより、記述テキストサンプルの特徴を抽出する際に参考に供してコンテキストを提供して、抽出された記述テキストサンプルの特徴の精度を高め、それによりテキスト方向ベクトルの精度を向上させることができ、また、使用するテキストテンプレートが多いほど、より正確なテキスト方向ベクトルを取得することができ、例えば、予め定められた30~40個のテキストテンプレートに基づいて、テキスト方向ベクトルを確定してもよい。
具体的には、選択された記述テキストサンプルと、予め決定されたテキストテンプレートとを入力データとして方向ベクトル確定モデルにそれぞれ入力し、方向ベクトル確定モデルの出力端から、記述テキストサンプルに対応するテキスト方向ベクトルを出力することができ、テキスト方向ベクトルは、記述テキストサンプルのテキスト特徴を表し、特徴空間における一方向を表す。
本実施形態のいくつかのオプション的な実施形態では、選択された記述テキストサンプルを各テキストテンプレートにそれぞれ加算して複数のスプライシングされた記述テキストサンプルを得、複数のスプライシングされた記述テキストサンプルを他の方向ベクトル確定モデルに入力し、方向ベクトル確定モデルの出力端から記述テキストサンプルに対応するテキスト方向ベクトルを出力することができる。
ステップ204では、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力してバイアスベクトルを得る。
本実施形態では、上記実行主体は、テキスト方向ベクトルを得た後、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力してバイアスベクトルを得ることができる。ここで、テキスト方向ベクトルは1*n次元のベクトルであり、バイアスベクトルは、テキスト方向ベクトルを変形して生成されたm*n次元のベクトルであり、バイアスベクトルとテキスト方向ベクトルは、いずれも、テキストサンプルを記述するテキストの特徴を表すベクトルであり、それらの形式が異なる。画像編集モデルのマッピングネットワークは、1*n次元のベクトルをm*n次元のベクトルにマッピングするためのネットワークであり、ここで、m、nはいずれも1より大きい自然数である。具体的には、テキスト方向ベクトルを入力データとして画像編集モデルのマッピングネットワークに入力し、マッピングネットワークの出力端から対応するバイアスベクトルを出力することができる。
ステップ205では、選択された画像サンプルとバイアスベクトルとに基づいて、画像方向ベクトルを確定する。
本実施形態では、上記実行主体は、バイアスベクトルを得た後、選択された画像サンプルとバイアスベクトルとに基づいて、画像方向ベクトルを確定することができる。具体的には、画像サンプルに対応する画像ベクトルを取得した後、画像ベクトルとバイアスベクトルとを加算して新たな画像ベクトルを得、新たな画像ベクトルを入力データとして画像方向ベクトル生成モデルに入力し、画像方向ベクトル生成モデルの出力端から対応する画像方向ベクトルを出力することができる。
ステップ206では、テキスト方向ベクトルと画像方向ベクトルとに基づいて損失値を計算する。
本実施形態では、上記実行主体は、テキスト方向ベクトルと画像方向ベクトルとを得た後、テキスト方向ベクトルと画像方向ベクトルとに基づいて損失値を計算することができる。具体的には、テキスト方向ベクトルと画像方向ベクトルとの類似度を、計算による損失値として算出することができる。
この損失値に基づいて、画像サンプルの変化と記述テキストサンプルとが同方向であるか否かを判断することができ、これにより、画像編集モデルのマッピングネットワークがトレーニング済みであるか否かを評価することができる。
ステップ207では、損失値が閾値条件を満たすことに応答して、画像編集モデルのトレーニングが完了したと判定する。
本実施形態では、上記実行主体は、損失値を得た後、損失値に基づいて、画像編集モデルのトレーニングが完了したか否かを判定することができる。ここで、閾値条件は、予め設定された閾値であってもよく、例示的には、閾値条件が80%であり、算出された損失値と閾値条件とを比較し、損失値が閾値条件を満たし、例示的には、損失値が80%より大きい場合に、画像編集モデルのトレーニングが完了したと判定する。
ステップ208では、損失値が閾値条件を満たしていないことに応答して、画像編集モデルのパラメータを調整し、引き続きトレーニングを行う。
本実施形態では、上記実行主体は、損失値が閾値条件を満たしていないと判断した場合、例示的に損失値が80%以下であれば、画像編集モデルがトレーニング完了していないと判断し、画像編集モデルのマッピングネットワークの各層のパラメータを調整して、トレーニングサンプルセットから1つの記述テキストサンプルと1つの画像サンプルを新たに選択して引き続きトレーニングを行う。なお、記述テキストサンプルおよび画像サンプルを選択する具体的な動作については、ステップ202で詳細に説明したので、ここでは説明を省略する。
本開示の実施形態に係る画像編集モデルのトレーニング方法は、まずトレーニングサンプルセットを取得し、次に、トレーニングステップを行い、前記トレーニングステップは、トレーニングサンプルセットから1つの記述テキストサンプルと1つの画像サンプルを選択することと、選択された記述テキストサンプルと予め決定されたテキストテンプレートとに基づいて、テキスト方向ベクトルを確定することと、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを取得することと、選択された画像サンプルとバイアスベクトルとに基づいて、画像方向ベクトルを確定することと、テキスト方向ベクトルと画像方向ベクトルとに基づいて損失値を計算することと、損失値が閾値条件を満たすことに応答して、画像編集モデルのトレーニングが完了したと判定することとを含む。以上のようなトレーニング方法により得られた画像編集モデルは、いずれの記述テキストを処理することができ、画像編集の効率を向上した。
さらに、本開示に係る画像編集モデルのトレーニング方法のもう一つの実施形態のフロー300を示す図3を参照する。当該画像編集モデルのトレーニング方法は、次のステップを含む。
ステップ301では、トレーニングサンプルセットを取得する。トレーニングサンプルは記述テキストサンプルと画像サンプルとを含む。
ステップ302では、トレーニングサンプルセットから1つの記述テキストサンプルと1つの画像サンプルを選択する。
本実施形態では、ステップ301~302の具体的な動作は、図2に示す実施形態のステップ201~202の動作に詳しく説明したので、ここではその説明を省略する。
ステップ303では、選択された記述テキストサンプルとテキストテンプレートに基づいて、補足テキストサンプルを取得する。
本実施形態では、上記実行主体は、記述テキストサンプルを取得した後、記述テキストサンプルに基づいて補足テキストサンプルを取得することができる。なお、本実施形態では、記述テキストサンプルと画像サンプルを入力データとして画像編集モデルに入力し、画像編集モデルにより各中間変数を取得し、画像編集モデルの計算結果に基づいて画像編集モデルをトレーニングすることができる。画像編集モデルは、テキスト変換ネットワークと、マッピングネットワークと、画像変換ネットワークと、ベクトル生成ネットワークと、画像生成ネットワークとを含んでもよい。テキスト変換ネットワークは、1つのテキストを入力とし、当該テキストに対応する1*512次元のベクトルを出力するものであってもよい。例えば、テキスト変換ネットワークはCLIP(Contrastive Language-Image Pre-training)テキスト符号化ネットワークであってもよい。マッピングネットワークは1*512次元のベクトルを入力とし、対応する18*512次元のベクトルを出力するものであってもよい。例えば、マッピングネットワークはMLP(Multi-layer Perceptron)ネットワークであってもよい。ベクトル生成ネットワークは1枚の画像を入力とし、当該画像に対応する18*512次元のベクトルを出力するものであってもよい。例えば、ベクトル生成ネットワークはe4e(encoder4editing)ネットワークであってもよい。画像生成ネットワークは18*512次元のベクトルを入力とするベクトル生成ネットワークと、を含むことができる。例えば、画像生成ネットワークはStyleGAN(スタイルに基づく敵対的生成ネットワーク)ネットワークであり、画像変換ネットワークは1枚の画像を入力とし、当該画像に対応する1*512次元のベクトルを出力してもよい。例えば、画像変換ネットワークはCLIP(Contrastive Language-Image Pre-training)画像符号化ネットワークであってもよい。
具体的には、記述テキストサンプルを画像編集モデルに入力した後、まず、記述テキストサンプルを前処理して、画像編集モデル内のテキストテンプレートを取得してもよく、テキストテンプレートは、画像編集モデル内に予め格納されており、テキストテンプレートは、1つであっても複数であってもよく、例えば、テキストテンプレートは、「1枚の()写真」、「1枚の()絵」、「1枚の()画像」であってもよい。そして、選択された記述テキストサンプルを各テキストテンプレートにそれぞれ埋め込み、各テキストテンプレートには、文字をその位置に挿入できることを示す挿入マークが予め設けられている。例えば、括弧を挿入マークとしてもよい。各テキストテンプレートにおける挿入マークを確定し、その後、選択された記述テキストサンプルを当該挿入マークに置き換え、補足テキストサンプルを生成し、以下同様にして、テキストテンプレートと同数の補足テキストサンプルを取得する。例えば、選択された記述テキストサンプルが「美しい」である場合、生成された補足テキストサンプルは「1枚の美しい写真」、「1枚の美しい絵」、「1枚の美しい画像」である。
ステップ304では、テキストテンプレートと補足テキストサンプルをそれぞれテキスト変換ネットワークに入力してテンプレートテキストベクトルと補足テキストベクトルを得る。
本実施形態では、上記実行主体は、補足テキストサンプルを得た後に、テキストテンプレートに対応するテンプレートテキストベクトルと、補足テキストサンプルに対応する補足テキストベクトルとを生成することができる。具体的には、テキストテンプレートを入力データとして画像編集モデルのテキスト変換ネットワークに入力し、テキストテンプレートに対応するテンプレートテキストベクトルをテキスト変換ネットワークの出力端から出力することができ、テンプレートテキストベクトルと入力されたテキストテンプレートの数が同じ、各テンプレートテキストベクトルはいずれも1*512次元のベクトルである。テンプレートテキストベクトルを得た後、さらに、補足テキストサンプルを入力データとして画像編集モデルのテキスト変換ネットワークに入力し、テキスト変換ネットワークの出力端から、補足テキストサンプルに対応する補足テキストベクトルを出力してもよい。補足テキストベクトルとテンプレートテキストベクトルとの数が同じ、各補足テキストベクトルはいずれも1*512次元のベクトルである。
ステップ305では、テンプレートテキストベクトルと補足テキストベクトルに基づいて、テキスト方向ベクトルを計算する。
本実施形態では、上記実行主体は、テンプレートテキストベクトルと補足テキストベクトルを得た後、テンプレートテキストベクトルと補足テキストベクトルに基づいて、テキスト方向ベクトルを計算することができる。具体的には、以下の式によりテキスト方向ベクトルを計算して得ることができる。
ステップ306では、テキスト方向ベクトルをマッピングネットワークの全結合層に入力して再構成方向ベクトルを得る。
本実施形態では、上記実行主体は、テキスト方向ベクトルを得た後、テキスト方向ベクトルをマッピングネットワークの全結合層に入力し、再構成方向ベクトルを得ることができる。なお、画像編集モデルのマッピングネットワークは、1*512次元のベクトルを入力とし、対応する18*512次元のベクトルを出力する全結合層と、18*512次元のベクトルを入力とし、対応するマッピングされた18*512次元のベクトルを出力するマッピング層とを含む。
具体的には、テキスト方向ベクトルは、1*512次元のベクトルであり、テキスト方向ベクトルを入力データとして画像編集モデルのマッピングネットワークの全結合層に入力し、全結合層の出力端から、テキスト方向ベクトルに対応する18*512次元のベクトルを出力してもよい。このうち、出力された18*512次元のベクトルは再構成方向ベクトルであり、再構成方向ベクトルとテキスト方向ベクトルとはベクトル次元が異なるだけで、ベクトル空間において同じベクトル方向を表す。
ステップ307では、再構成方向ベクトルをマッピングネットワークのマッピング層に入力してバイアスベクトルを得る。
本実施形態では、上記実行主体は、再構成方向ベクトルを得た後、再構成方向ベクトルをマッピングネットワークのマッピング層に入力してバイアスベクトルを得ることができる。具体的には、再構成方向ベクトルを入力データとして画像編集モデルのマッピングネットワークのマッピング層に入力し、マッピング層の出力端から、再構成方向ベクトルに対応するマッピング済みの18*512次元のベクトルを出力することができ、出力された18*512次元のベクトルはバイアスベクトルである。
再構成方向ベクトルは18層あり、マッピング層は再構成方向ベクトルの0~3層をラフ層、4~7層を中間層、8~17層をファイン層と定義して、バイアスベクトルを得ることができる。例示的に、記述テキストサンプルが顔の特徴を記述するためのテキストである場合、得られたバイアスベクトルも顔の特徴を記述するためのベクトルであり、バイアスベクトルのラフ層は主に姿勢、髪の毛、顔の形などの特徴を制御するために用いられ、中間層は主に目などの顔の特徴を制御するために用いられ、ファイン層は主にカラーを制御するために用いられる。ラフ層と中間層は顔の特徴に与える影響が大きく、ファイン層は顔の特徴に与える影響が少ないため、本実施形態ではラフ層と中間層の特徴のみに注目することができる。
本開示の技術方案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供および公開などの処理は、いずれも関連する法律法規の規定に準拠し、且つ公序良俗に反しない。
ステップ308では、選択された画像サンプルをベクトル生成ネットワークに入力して、ベース画像ベクトルを得る。
本実施形態では、上記実行主体は、選択された画像サンプルを取得した後、選択された画像サンプルをベクトル生成ネットワークに入力して、ベース画像ベクトルを得ることができる。具体的には、選択された画像サンプルを入力データとして画像編集モデルのベクトル生成ネットワークに入力し、ベクトル生成ネットワークの出力端から、選択された画像サンプルに対応するベース画像ベクトルを出力することができる。ベース画像ベクトルは画像サンプルの画像特徴を表す18*512次元のベクトルである。
ステップ309では、ベース画像ベクトルを画像生成ネットワークに入力してオリジナル画像を得る。
本実施形態では、上記実行主体は、ベース画像ベクトルを得た後、ベース画像ベクトルを画像生成ネットワークに入力してオリジナル画像を得ることができる。具体的には、ベース画像ベクトルを入力データとして画像編集モデルの画像生成ネットワークに入力し、ベース画像ベクトルに対応するオリジナル画像を画像生成ネットワークの出力端から出力することができる。ここで、画像生成ネットワークにより生成された画像が、選択された画像サンプルと完全に同一ではなく、差異があるため、画像生成ネットワークに基づいてオリジナル画像を生成することが必要なステップとなる。
ステップ310では、ベース画像ベクトルとバイアスベクトルを加算した後、画像生成ネットワークに入力して編集画像を得る。
本実施形態では、上記実行主体は、ベース画像ベクトルとバイアスベクトルを得た後、ベース画像ベクトルとバイアスベクトルを加算して画像生成ネットワークに入力して編集画像を得ることができる。このうち、ベース画像ベクトルとバイアスベクトルは、いずれも18*512次元のベクトルであり、ベース画像ベクトルは、ベクトル生成ネットワークにより生成され、ベース画像ベクトルの18層は、ラフ層、中間層、ファイン層の3つの部分から構成され、バイアスベクトルは、ステップ307で詳細に説明されており、バイアスベクトルも、ラフ層、中間層、ファイン層の3つの部分から構成され、ベース画像ベクトルとバイアスベクトルのベクトル構造が一致しているので、ベース画像ベクトルとバイアスベクトルを直接加算することができる。例えば、記述テキストサンプルが、顔の特徴を記述するためのテキストである場合、得られたバイアスベクトルも顔の特徴を記述するためのベクトルであり、画像サンプルが記述テキストサンプルの記述内容に対応する画像であるので、画像サンプルは、顔画像であってもよく、ベース画像ベクトルは、画像サンプルの顔の特徴を表し、ベース画像ベクトルとバイアスベクトルとを加算して新たなベクトルを得、当該新たなベクトルは、画像サンプルの顔の特徴に、バイアスベクトルにより記述される顔の特徴を加えて得られた新たな顔特徴ベクトルを表す。
本開示の技術方案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供および公開などの処理は、いずれも関連する法律法規の規定に準拠し、且つ公序良俗に反しない。
ベース画像ベクトルとバイアスベクトルとを加算したベクトルを得ると、加算されたベクトルを入力データとして画像編集モデルの画像生成ネットワークに入力し、加算されたベクトルに対応する編集画像を画像生成ネットワークの出力端から出力することができる。
ステップ311では、オリジナル画像と編集画像をそれぞれ画像変換ネットワークに入力し、オリジナル画像ベクトルと編集画像ベクトルを得る。
本実施形態では、上記実行主体は、オリジナル画像と編集画像とを取得した後、オリジナル画像と編集画像とをそれぞれ画像変換ネットワークに入力して、オリジナル画像ベクトルと編集画像ベクトルとを得ることができる。具体的には、オリジナル画像を入力データとして画像編集モデルの画像変換ネットワークに入力し、オリジナル画像に対応するオリジナル画像ベクトルを画像変換ネットワークの出力端から出力することができる。オリジナル画像ベクトルは、オリジナル画像の画像特徴を表す。編集画像を入力データとして画像編集モデルの画像変換ネットワークに入力し、編集画像に対応する編集画像ベクトルを画像変換ネットワークの出力端から出力することができる。編集画像ベクトルは、編集画像の画像特性を表し、オリジナル画像ベクトルと編集画像ベクトルとはいずれも1*512次元のベクトルである。
ステップ312では、オリジナル画像ベクトルと編集画像ベクトルに基づいて、画像方向ベクトルを計算する。
本実施形態では、上記実行主体は、オリジナル画像ベクトルと編集画像ベクトルを得た後、オリジナル画像ベクトルと編集画像ベクトルに基づいて画像方向ベクトルを計算することができる。具体的には、以下の式により画像方向ベクトルを計算して得ることができる。
Yi=C(A)-C(B)
ここで、Yiは画像方向ベクトル、C(A)はオリジナル画像ベクトル、C(B)は編集画像ベクトルを表す。
ステップ313では、テキスト方向ベクトルと画像方向ベクトルに基づいて損失値を計算する。
ステップ314では、損失値が閾値条件を満たすことに応答して、画像編集モデルのトレーニングが完了したと判定する。
ステップ315では、損失値が閾値条件を満たしていないことに応答して、画像編集モデルのパラメータを調整し、引き続きトレーニングを行う。
本実施形態では、ステップ313~315の具体的な動作は、図2に示す実施形態のステップ206~208の動作に詳しく説明したので、ここではその説明を省略する。
なお、損失値は、次式により算出することができる。
loss=1-cos(Yi,Yt)
ここで、lossは計算による損失値であり、Yiは画像方向ベクトル、Ytはテキスト方向ベクトルを表す。
図3から分かるように、図2に対応する実施形態と比較して、本実施形態における画像編集モデルのトレーニング方法は、テキストテンプレートに基づいてテキスト方向ベクトルを取得することで、得られたテキスト方向ベクトルがより高精度になり、画像編集モデルのマッピングネットワークに基づくことで、テキスト方向ベクトルの空間的関係の高度なデカップリングを実現し、ベクトル生成ネットワークから出力されるベクトル構造を適合させることができ、画像生成ネットワークと画像変換ネットワークに基づいて、画像方向ベクトルを生成することで、テキスト方向ベクトルと画像方向ベクトルのマッピング関係を実現し、テキスト方向と画像変化方向が同一方向であるか否かを判断することで画像編集モデルをトレーニングし、記述テキストサンプルと画像サンプルを交互に入力するトレーニング方式でトレーニングすることで、トレーニングにより得られた画像編集モデルにいずれかの記述テキストを入力して目標画像を生成することができ、画像編集の効率をさらに向上させるとともに、トレーニングにより得られた画像編集モデルが軽量化、統一化され、空間サイズが最適化され、管理の難しさが低減された。
さらに本開示の画像編集モデルのトレーニング方法の概略図400を示す図4を参照し、図4から分かるように、まず、記述テキストサンプルを画像編集モデルのテキスト変換ネットワークに入力してテンプレートテキストベクトルと補足テキストベクトルを得、次に、テンプレートテキストベクトルと補足テキストベクトルに基づいてテキスト方向ベクトルを計算し、テキスト方向ベクトルを画像編集モデルのマッピングネットワークの全結合層に入力して再構成方向ベクトルを得、再構成方向ベクトルを画像編集モデルのマッピングネットワークのマッピング層に入力してバイアスベクトルを得ることができる。そして、画像テキストを画像編集モデルのベクトル生成ネットワークに入力してベース画像ベクトルを得、ベース画像ベクトルを画像編集モデルの画像生成ネットワークに入力してオリジナル画像を得、ベース画像ベクトルとバイアスベクトルを加算して画像編集モデルの画像生成ネットワークに入力して編集画像を得、オリジナル画像と編集画像を画像編集モデルの画像変換ネットワークにそれぞれ入力してオリジナル画像ベクトルと編集画像ベクトルを得、オリジナル画像ベクトルと編集画像ベクトルに基づいて画像方向ベクトルを算出し、テキスト方向ベクトルと画像方向ベクトルに基づいて損失値を算出して画像編集モデルをトレーニングすることにより、トレーニングされた画像編集モデルの画像編集効率がある程度向上された。
さらに次に、本開示に係る画像編集方法の一実施形態のフロー500を示す図5を参照する。当該画像編集方法は、次のステップを含む。
ステップ501では、編集すべき画像と記述テキストとを含む画像編集要求を受信する。
本実施形態では、上記実行主体は、画像編集要求を受信することができる。なお、画像編集要求は、音声の形式であっても文字の形式であってもよく、本開示はこれを限定しない。画像編集要求は、編集すべき画像と記述テキストとを含み、編集すべき画像は、動物画像であってもよいし、植物画像であってもよいし、顔画像であってもよく、本開示はこれを限定しない。記述テキストは、編集後の画像の特徴を記述するためのテキストであり、例えば、記述テキストは、編集後の顔画像における顔の器官の特徴を記述するためのテキストであってもよいし、編集後の顔画像の人物の気分を記述するためのテキストであってもよい。例えば、記述テキストの内容は、長い巻き髪、大きな目、白肌、長いまつげなどである。
本開示の技術方案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供および公開などの処理は、いずれも関連する法律法規の規定に準拠し、且つ公序良俗に反しない。
ステップ502では、記述テキストと編集すべき画像を画像編集モデルに入力し、記述テキストに対応する目標画像を生成する。
本実施形態では、上記実行主体は、画像編集要求を受信すると、記述テキストおよび編集すべき画像を画像編集モデルに入力し、記述テキストに対応する目標画像を生成することができる。具体的には、記述テキストと編集すべき画像を予めトレーニングされた画像編集モデルに入力し、記述テキストに対応する目標画像を画像編集モデルの出力端から出力することができる。
本実施形態のいくつかのオプション的な実施形態では、記述テキストと予め決定されたテキストテンプレートとに基づいてテキスト方向ベクトルを確定し、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力してバイアスベクトルを得、編集すべき画像とバイアスベクトルとに基づいて目標画像を生成することができる。
本実施形態のいくつかのオプション的な実施形態では、テキスト方向ベクトルは、記述テキストとテキストテンプレートに基づいて補足テキストを得ることと、テキストテンプレートと補足テキストをそれぞれ画像編集モデルのテキスト変換ネットワークに入力してテンプレートテキストベクトルと補足テキストベクトルを得ることと、テンプレートテキストベクトルと補足テキストベクトルに基づいてテキスト方向ベクトルを計算することとによって確定されることができる。
本実施形態のいくつかのオプション的な実施形態では、編集すべき画像を画像編集モデルのベクトル生成ネットワークに入力してベース画像ベクトルを得、ベース画像ベクトルとバイアスベクトルとを加算した後、画像編集モデルの画像生成ネットワークに入力して目標画像を得ることにより、目標画像を生成することができる。
図5から明らかなように、本実施形態の画像編集方法は、任意の記述テキストから対応する目標画像を直接生成することができ、画像編集の効率化、コストの削減、ユーザ体験の向上を図ることができる。
さらに、本開示に係る画像編集方法の効果の概略図600を示す図6を参照し、図6から分かるように、記述テキストが「傲慢」、「御姫様」であり、記述テキスト「傲慢」と編集すべき画像との1組のデータを画像編集モデルに入力し、出力された目標画像の人物の顔が傲慢な表情で現れ、記述テキスト「御姫様」と編集すべき画像との他組のデータを画像編集モデルに入力し、出力された目標画像の人物の顔が御姫様の表情で現れ、このように、トレーニングされた画像編集モデルはいずれかの記述テキストを処理することができ、画像編集の効率が向上された。
さらに図7を参照すると、上記の画像編集モデルのトレーニング方法の実施態様として、本開示は画像編集モデルのトレーニング装置の一実施形態を提供し、当該装置の実施形態は、図2に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
図7に示すように、本実施形態の画像編集モデルのトレーニング装置700は、取得モジュール701と、トレーニングモジュール702とを備えてもよい。ここで、取得モジュール701は、記述テキストサンプルと画像サンプルとを含むトレーニングサンプルからなるトレーニングサンプルセットを取得するように構成される。トレーニングモジュール702は、トレーニングサンプルセットから1つの記述テキストサンプルと1つの画像サンプルを選択することと、選択された記述テキストサンプルと予め決定されたテキストテンプレートとに基づいて、テキスト方向ベクトルを確定することと、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを取得することと、選択された画像サンプルとバイアスベクトルとに基づいて、画像方向ベクトルを確定することと、テキスト方向ベクトルと画像方向ベクトルとに基づいて損失値を計算することと、損失値が閾値条件を満たすことに応答して、画像編集モデルのトレーニングが完了したと判定することとを含むトレーニングステップを実行するように構成される。
本実施形態において、画像編集モデルのトレーニング装置700における取得モジュール701、トレーニングモジュール702の具体的な処理およびそれらによって奏される技術的効果は、それぞれ図2の対応する実施形態におけるステップ201~208の関連する説明を参照することができ、ここでその説明を省略する。
本実施形態のいくつかのオプション的な実施形態では、マッピングネットワークは、全結合層とマッピング層とを含み、トレーニングモジュール702は、テキスト方向ベクトルをマッピングネットワークの全結合層に入力して再構成方向ベクトルを得るように構成される再構成サブモジュールと、再構成方向ベクトルをマッピングネットワークのマッピング層に入力してバイアスベクトルを得るように構成されるマッピングサブモジュールと、を備える。
本実施形態のいくつかのオプション的な実施形態では、画像編集モデルは、画像変換ネットワークをさらに含み、トレーニングモジュール702は、選択された画像サンプルとバイアスベクトルとに基づいて、オリジナル画像と編集画像とを生成するように構成される第1の生成サブモジュールと、オリジナル画像および編集画像をそれぞれ画像変換ネットワークに入力してオリジナル画像ベクトルおよび編集画像ベクトルを得るように構成される第2の生成サブモジュールと、オリジナル画像ベクトルと編集画像ベクトルとに基づいて画像方向ベクトルを計算するように構成される第1の計算サブモジュールと、をさらに備える。
本実施形態のいくつかのオプション的な実施形態では、画像編集モデルは、ベクトル生成ネットワークと画像生成ネットワークとをさらに含み、第1の生成サブモジュールは、選択された画像サンプルをベクトル生成ネットワークに入力して、ベース画像ベクトルを得るように構成される第1の生成ユニットと、ベース画像ベクトルを画像生成ネットワークに入力してオリジナル画像を得るように構成される第2の生成ユニットと、ベース画像ベクトルとバイアスベクトルとを加算した後、画像生成ネットワークに入力して編集画像を得るように構成される第3の生成ユニットと、を備える。
本実施形態のいくつかのオプション的な実施形態では、画像編集モデルは、テキスト変換ネットワークをさらに含み、トレーニングモジュール702は、選択された記述テキストサンプルとテキストテンプレートとに基づいて、補足テキストサンプルを得るように構成される第3の生成サブモジュールと、テキストテンプレートおよび補足テキストサンプルをそれぞれテキスト変換ネットワークに入力して、テンプレートテキストベクトルおよび補足テキストベクトルを得るように構成される第4の生成サブモジュールと、テンプレートテキストベクトルと補足テキストベクトルとに基づいて、テキスト方向ベクトルを計算するように構成される第2の計算サブモジュールと、をさらに備える。
さらに図8を参照すると、上記の画像編集方法の実施態様として、本開示は、画像編集装置の一実施形態を提供し、当該装置の実施形態は、図5に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
図8に示すように、本実施形態の画像編集装置800は、受信モジュール801と、生成モジュール802とを備えてもよい。ここで、受信モジュール801は、編集すべき画像と記述テキストとを含む画像編集要求を受信するように構成される。生成モジュール802は、記述テキストと編集すべき画像とを画像編集モデルに入力して、記述テキストに対応する目標画像を生成するように構成される。
本実施形態において、画像編集装置800における受信モジュール801および生成モジュール802の具体的な処理およびそれらによって奏される技術的効果は、それぞれ図5の対応する実施形態におけるステップ501~502の関連する説明を参照することができ、ここでその説明を省略する。
本実施形態のいくつかのオプション的な実施形態では、生成モジュール802は、記述テキストと予め決定されたテキストテンプレートとに基づいてテキスト方向ベクトルを確定するように構成される確定サブモジュールと、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを得るように構成される第5の生成サブモジュールと、編集すべき画像とバイアスベクトルとに基づいて目標画像を生成するように構成される第6の生成サブモジュールと、を備える。
本実施形態のいくつかのオプション的な実施形態では、第6の生成サブモジュールは、編集すべき画像を画像編集モデルのベクトル生成ネットワークに入力してベース画像ベクトルを得るように構成される第4の生成ユニットと、ベース画像ベクトルとバイアスベクトルとを加算した後、画像編集モデルの画像生成ネットワークに入力して目標画像を得るように構成される第5の生成ユニットと、を備える。
本実施形態のいくつかのオプション的な実施形態では、確定サブモジュールは、記述テキストとテキストテンプレートとに基づいて、補足テキストを得るように構成される第6の生成ユニットと、テキストテンプレートと補足テキストをそれぞれ画像編集モデルのテキスト変換ネットワークに入力して、テンプレートテキストベクトルと補足テキストベクトルを得るように構成される第7の生成ユニットと、テンプレートテキストベクトルと補足テキストベクトルとに基づいて、テキスト方向ベクトルを計算するように構成される計算ユニットと、を備える。
本開示の実施形態によれば、本開示はさらに電子機器、読み取り可能な記憶媒体およびコンピュータプログラムを提供する。
図9は、本開示の実施形態を実施するために使用できる例示的な電子機器900の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似する計算装置等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および/または要求した本開示の実施形態を限定することを意図するものではない。
図9に示すように、電子機器900は、読み出し専用メモリ(ROM)902に記憶されているコンピュータプログラムまたは記憶ユニット908からランダムアクセスメモリ(RAM)903にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行することができる計算ユニット901を備える。RAM703には、電子機器900の動作に必要な様々なプログラムおよびデータが更に格納されてもよい。計算ユニット901、ROM902およびRAM903は、バス904を介して互いに接続されている。入/出力(I/O)インターフェース905もバス904に接続されている。
電子機器900において、キーボード、マウスなどの入力ユニット906と、様々なタイプのディスプレイ、スピーカなどの出力ユニット907と、磁気ディスク、光ディスクなどの記憶ユニット908と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット909とを備える複数のコンポーネントは、I/Oインターフェース905に接続されている。通信ユニット909は、機器900がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。
計算ユニット901は、処理および計算機能を有する様々な汎用および/または専用処理コンポーネントであってもよい。計算ユニット901のいくつかの例示としては、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット901は、上述した画像編集モデルのトレーニング方法または画像編集方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、画像編集モデルのトレーニング方法または画像編集方法は、記憶ユニット908などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM902および/または通信ユニット909を介して電子機器900にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM903にロードされ、計算ユニット901によって実行されると、上述の画像編集モデルのトレーニング方法または画像編集方法の1つまたは複数のステップを実行可能である。あるいは、他の実施形態において、計算ユニット901は、他の任意の適切な方式によって(例えば、ファームウェアを介して)画像編集モデルのトレーニング方法または画像編集方法を実行するように構成されていてもよい。
ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現されてもよい。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、当該1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を当該記憶システム、当該少なくとも1つの入力装置および当該少なくとも1つの出力装置に伝送することを含み得る。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラミング可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、指令実行システム、装置または機器が使用するため、または指令実行システム、装置または機器と組み合わせて使用するためのプログラムを含むか、または格納してもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(CathodeRayTube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置は、さらにユーザとのインタラクションを提供することに用いることができる。例えば、ユーザに提供されるフィードバックは(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく)、且つ音入力、音声入力または、触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
ここで説明したシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインターフェースまたはウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等、任意の形態または媒体のデジタルデータ通信により接続されていてもよい。通信ネットワークの例示としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバは、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。サーバは、クラウドサーバであってもよいし、人工知能技術を有するスマートクラウドコンピューティングサーバまたはスマートクラウドホストであってもよい。サーバは、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。サーバは、クラウドサーバであってもよいし、人工知能技術を有するスマートクラウドコンピューティングサーバまたはスマートクラウドホストであってもよい。
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解すべきである。例えば、本開示に記載された各ステップは、本開示に開示された技術的解決方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応答して、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本開示の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本開示の保護範囲内に含まれるべきである。
Claims (21)
- 記述テキストサンプルと画像サンプルとを含むトレーニングサンプルからなるトレーニングサンプルセットを取得するステップと、
前記トレーニングサンプルセットから1つの記述テキストサンプルと1つの画像サンプルを選択することと、選択された記述テキストサンプルと予め決定されたテキストテンプレートに基づいて、テキスト方向ベクトルを確定することと、前記テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを取得することと、選択された画像サンプルと前記バイアスベクトルに基づいて、画像方向ベクトルを確定することと、前記テキスト方向ベクトルと前記画像方向ベクトルに基づいて損失値を計算することと、前記損失値が閾値条件を満たすことに応答して、前記画像編集モデルのトレーニングが完了したと判定することとを含むトレーニングステップを実行するステップと、
を含む画像編集モデルのトレーニング方法。 - 前記マッピングネットワークは、全結合層とマッピング層とを含み、
前記テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを取得することは、
前記テキスト方向ベクトルを前記マッピングネットワークの全結合層に入力して再構成方向ベクトルを得るステップと、
前記再構成方向ベクトルを前記マッピングネットワークのマッピング層に入力し、前記バイアスベクトルを得るステップと、
を含む請求項1に記載のトレーニング方法。 - 前記画像編集モデルは、画像変換ネットワークをさらに含み、
選択された画像サンプルと前記バイアスベクトルに基づいて、画像方向ベクトルを確定することは、
前記選択された画像サンプルと前記バイアスベクトルに基づいて、オリジナル画像および編集画像を生成するステップと、
前記オリジナル画像および前記編集画像をそれぞれ前記画像変換ネットワークに入力してオリジナル画像ベクトルおよび編集画像ベクトルを得るステップと、
前記オリジナル画像ベクトルと前記編集画像ベクトルに基づいて、前記画像方向ベクトルを計算するステップと、
含む請求項2に記載のトレーニング方法。 - 前記画像編集モデルは、ベクトル生成ネットワークと画像生成ネットワークとをさらに含み、
前記選択された画像サンプルと前記バイアスベクトルに基づいて、オリジナル画像および編集画像を生成するステップは、
前記選択された画像サンプルを前記ベクトル生成ネットワークに入力して、ベース画像ベクトルを得るステップと、
前記ベース画像ベクトルを前記画像生成ネットワークに入力して前記オリジナル画像を得るステップと、
前記ベース画像ベクトルと前記バイアスベクトルとを加算した後、前記画像生成ネットワークに入力して前記編集画像を得るステップと、
を含む請求項3に記載のトレーニング方法。 - 前記画像編集モデルは、テキスト変換ネットワークをさらに含み、
選択された記述テキストサンプルと予め決定されたテキストテンプレートに基づいて、テキスト方向ベクトルを確定することは、
前記選択された記述テキストサンプルと前記テキストテンプレートに基づいて、補足テキストサンプルを得るステップと、
前記テキストテンプレートおよび前記補足テキストサンプルをそれぞれ前記テキスト変換ネットワークに入力して、テンプレートテキストベクトルおよび補足テキストベクトルを得るステップと、
前記テンプレートテキストベクトルと補足テキストベクトルに基づいて、前記テキスト方向ベクトルを計算するステップと、
を含む請求項1~4のいずれか1項に記載のトレーニング方法。 - 編集すべき画像と記述テキストとを含む画像編集要求を受信するステップと、
前記記述テキストと前記編集すべき画像を画像編集モデルに入力して、前記記述テキストに対応する目標画像を生成するステップとを含み、
前記画像編集モデルは請求項1~5のいずれか1項に記載のトレーニング方法によりトレーニングされたものである、画像編集方法。 - 前記記述テキストと前記編集すべき画像を画像編集モデルに入力して、前記記述テキストに対応する目標画像を生成するステップは、
前記記述テキストと予め決定されたテキストテンプレートに基づいてテキスト方向ベクトルを確定するステップと、
前記テキスト方向ベクトルを前記画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを得るステップと、
前記編集すべき画像と前記バイアスベクトルに基づいて前記目標画像を生成するステップと、
を含む請求項6に記載の画像編集方法。 - 前記編集すべき画像と前記バイアスベクトルに基づいて前記目標画像を生成するステップは、
前記編集すべき画像を前記画像編集モデルのベクトル生成ネットワークに入力してベース画像ベクトルを得るステップと、
前記ベース画像ベクトルと前記バイアスベクトルとを加算した後、前記画像編集モデルの画像生成ネットワークに入力して前記目標画像を得るステップと、
を含む請求項7に記載の画像編集方法。 - 前記記述テキストと予め決定されたテキストテンプレートに基づいてテキスト方向ベクトルを確定するステップは、
前記記述テキストと前記テキストテンプレートに基づいて補足テキストを得るステップと、
前記テキストテンプレートと前記補足テキストをそれぞれ前記画像編集モデルのテキスト変換ネットワークに入力して、テンプレートテキストベクトルおよび補足テキストベクトルを得るステップと、
前記テンプレートテキストベクトルと補足テキストベクトルに基づいて、前記テキスト方向ベクトルを計算するステップと、
を含む請求項8に記載の画像編集方法。 - 記述テキストサンプルと画像サンプルとを含むトレーニングサンプルからなるトレーニングサンプルセットを取得するように構成される取得モジュールと、
前記トレーニングサンプルセットから1つの記述テキストサンプルと1つの画像サンプルを選択することと、選択された記述テキストサンプルと予め決定されたテキストテンプレートに基づいて、テキスト方向ベクトルを確定することと、前記テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを取得することと、選択された画像サンプルと前記バイアスベクトルに基づいて、画像方向ベクトルを確定することと、前記テキスト方向ベクトルと前記画像方向ベクトルに基づいて損失値を計算することと、前記損失値が閾値条件を満たすことに応答して、前記画像編集モデルのトレーニングが完了したと判定することとを含むトレーニングステップを実行するように構成されるトレーニングモジュールと、
を備える画像編集モデルのトレーニング装置。 - 前記マッピングネットワークは、全結合層とマッピング層とを含み、前記トレーニングモジュールは、
前記テキスト方向ベクトルを前記マッピングネットワークの全結合層に入力して再構成方向ベクトルを得るように構成される再構成サブモジュールと、
前記再構成方向ベクトルを前記マッピングネットワークのマッピング層に入力して前記バイアスベクトルを得るように構成されるマッピングサブモジュールと、
を備える請求項10に記載のトレーニング装置。 - 前記画像編集モデルは、画像変換ネットワークをさらに含み、
前記トレーニングモジュールは、
選択された画像サンプルと前記バイアスベクトルに基づいて、オリジナル画像および編集画像を生成するように構成される第1の生成サブモジュールと、
前記オリジナル画像および前記編集画像をそれぞれ前記画像変換ネットワークに入力してオリジナル画像ベクトルおよび編集画像ベクトルを得るように構成される第2の生成サブモジュールと、
前記オリジナル画像ベクトルと前記編集画像ベクトルに基づいて前記画像方向ベクトルを計算するように構成される第1の計算サブモジュールと、
を備える請求項11に記載のトレーニング装置。 - 前記画像編集モデルは、ベクトル生成ネットワークと画像生成ネットワークとをさらに含み、
前記第1の生成サブモジュールは、
前記選択された画像サンプルを前記ベクトル生成ネットワークに入力して、ベース画像ベクトルを得るように構成される第1の生成ユニットと、
前記ベース画像ベクトルを前記画像生成ネットワークに入力して前記オリジナル画像を得るように構成される第2の生成ユニットと、
前記ベース画像ベクトルと前記バイアスベクトルとを加算した後、前記画像生成ネットワークに入力して前記編集画像を得るように構成される第3の生成ユニットと、
を備える請求項12に記載のトレーニング装置。 - 前記画像編集モデルは、テキスト変換ネットワークをさらに含み、
前記トレーニングモジュールは、
前記選択された記述テキストサンプルと前記テキストテンプレートに基づいて、補足テキストサンプルを得るように構成される第3の生成サブモジュールと、
前記テキストテンプレートおよび前記補足テキストサンプルをそれぞれ前記テキスト変換ネットワークに入力して、テンプレートテキストベクトルおよび補足テキストベクトルを得るように構成される第4の生成サブモジュールと、
前記テンプレートテキストベクトルと補足テキストベクトルに基づいて、前記テキスト方向ベクトルを計算するように構成される第2の計算サブモジュールと、
を備える請求項10~13のいずれか1項に記載のトレーニング装置。 - 編集すべき画像と記述テキストとを含む画像編集要求を受信するように構成される受信モジュールと、
前記記述テキストと前記編集すべき画像を画像編集モデルに入力して、前記記述テキストに対応する目標画像を生成するように構成される生成モジュールと、を備え、
前記画像編集モデルは請求項10~14のいずれか1項に記載のトレーニング装置によりトレーニングされたものである、画像編集装置。 - 前記生成モジュールは、
前記記述テキストと予め決定されたテキストテンプレートに基づいてテキスト方向ベクトルを確定するように構成される確定サブモジュールと、
前記テキスト方向ベクトルを前記画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを得るように構成される第5の生成サブモジュールと、
前記編集すべき画像と前記バイアスベクトルに基づいて前記目標画像を生成するように構成される第6の生成サブモジュールと、
を備える請求項15に記載の画像編集装置。 - 前記第6の生成サブモジュールは、
前記編集すべき画像を前記画像編集モデルのベクトル生成ネットワークに入力してベース画像ベクトルを得るように構成される第4の生成ユニットと、
前記ベース画像ベクトルと前記バイアスベクトルとを加算した後、前記画像編集モデルの画像生成ネットワークに入力して前記目標画像を得るように構成される第5の生成ユニットと、を備える請求項16に記載の画像編集装置。 - 前記確定サブモジュールは、
前記記述テキストと前記テキストテンプレートに基づいて、補足テキストを得るように構成される第6の生成ユニットと、
前記テキストテンプレートと前記補足テキストをそれぞれ前記画像編集モデルのテキスト変換ネットワークに入力して、テンプレートテキストベクトルおよび補足テキストベクトルを得るように構成される第7の生成ユニットと、
前記テンプレートテキストベクトルと補足テキストベクトルに基づいて、前記テキスト方向ベクトルを計算するように構成される計算ユニットと、
を備える請求項17に記載の画像編集装置。 - 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が格納され、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~5のいずれか1項に記載のトレーニング方法または請求項6~9のいずれか1項に記載の画像編集方法を実行させる、電子機器。 - コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項1~5のいずれか1項に記載のトレーニング方法または請求項6~9のいずれか1項に記載の画像編集方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。 - プロセッサによって実行されると、請求項1~5のいずれか1項に記載のトレーニング方法または請求項6~9のいずれか1項に記載の画像編集方法が実現されるコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210237623.5A CN114612290B (zh) | 2022-03-11 | 2022-03-11 | 图像编辑模型的训练方法和图像编辑方法 |
CN202210237623.5 | 2022-03-11 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022172173A true JP2022172173A (ja) | 2022-11-15 |
Family
ID=81863132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022130879A Pending JP2022172173A (ja) | 2022-03-11 | 2022-08-19 | 画像編集モデルのトレーニング方法および装置、画像編集方法および装置、電子機器、記憶媒体並びにコンピュータプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230071661A1 (ja) |
JP (1) | JP2022172173A (ja) |
KR (1) | KR20220147545A (ja) |
CN (1) | CN114612290B (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11762622B1 (en) * | 2022-05-16 | 2023-09-19 | Adobe Inc. | Interactive remote digital image editing utilizing a scalable containerized architecture |
CN116091857B (zh) * | 2022-10-17 | 2023-10-20 | 北京百度网讯科技有限公司 | 图像处理模型的训练方法、图像处理方法和装置 |
CN116543074B (zh) * | 2023-03-31 | 2024-05-17 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN116543075B (zh) * | 2023-03-31 | 2024-02-13 | 北京百度网讯科技有限公司 | 图像生成方法、装置、电子设备及存储介质 |
CN116363261B (zh) * | 2023-03-31 | 2024-07-16 | 北京百度网讯科技有限公司 | 图像编辑模型的训练方法、图像编辑方法和装置 |
CN118470782B (zh) * | 2024-07-12 | 2024-09-17 | 微网优联科技(成都)有限公司 | 基于深度神经网络的人脸检测方法及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016156845A (ja) * | 2015-02-23 | 2016-09-01 | Kddi株式会社 | ユーザ対話システムと共にユーザ操作を支援する対話支援プログラム、サーバ及び方法 |
JP2019530041A (ja) * | 2016-07-06 | 2019-10-17 | フェイスブック,インク. | 検索クエリに基づいたソース画像の顔とターゲット画像との結合 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010226158A (ja) * | 2009-03-19 | 2010-10-07 | Seiko Epson Corp | 画像形成装置及びその制御方法 |
US11176216B2 (en) * | 2019-03-29 | 2021-11-16 | Microsoft Technology Licensing, Llc | Context aware personalized query autocompletion |
US11144784B2 (en) * | 2019-05-30 | 2021-10-12 | Adobe Inc. | Text-to-visual machine learning embedding techniques |
CN113822953A (zh) * | 2021-06-24 | 2021-12-21 | 华南理工大学 | 图像生成器的处理方法、图像生成方法及装置 |
CN113468877A (zh) * | 2021-07-09 | 2021-10-01 | 浙江大学 | 语言模型的微调方法、装置、计算设备和存储介质 |
CN113987209B (zh) * | 2021-11-04 | 2024-05-24 | 浙江大学 | 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质 |
CN114140603B (zh) * | 2021-12-08 | 2022-11-11 | 北京百度网讯科技有限公司 | 虚拟形象生成模型的训练方法和虚拟形象生成方法 |
-
2022
- 2022-03-11 CN CN202210237623.5A patent/CN114612290B/zh active Active
- 2022-08-19 JP JP2022130879A patent/JP2022172173A/ja active Pending
- 2022-10-14 KR KR1020220132035A patent/KR20220147545A/ko not_active Application Discontinuation
- 2022-11-11 US US18/054,711 patent/US20230071661A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016156845A (ja) * | 2015-02-23 | 2016-09-01 | Kddi株式会社 | ユーザ対話システムと共にユーザ操作を支援する対話支援プログラム、サーバ及び方法 |
JP2019530041A (ja) * | 2016-07-06 | 2019-10-17 | フェイスブック,インク. | 検索クエリに基づいたソース画像の顔とターゲット画像との結合 |
Also Published As
Publication number | Publication date |
---|---|
CN114612290B (zh) | 2023-07-21 |
KR20220147545A (ko) | 2022-11-03 |
CN114612290A (zh) | 2022-06-10 |
US20230071661A1 (en) | 2023-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102627802B1 (ko) | 가상 형상 생성 모델의 트레이닝 방법 및 가상 형상 생성 방법 | |
JP2022172173A (ja) | 画像編集モデルのトレーニング方法および装置、画像編集方法および装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN108961369B (zh) | 生成3d动画的方法和装置 | |
JP2022180519A (ja) | 画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体 | |
WO2021208601A1 (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
US20230419592A1 (en) | Method and apparatus for training a three-dimensional face reconstruction model and method and apparatus for generating a three-dimensional face image | |
CN110298319B (zh) | 图像合成方法和装置 | |
JP2022058775A (ja) | ターゲットオブジェクトの生成方法、装置、電子機器及び記憶媒体 | |
CN112734910B (zh) | 基于rgb单图实时人脸三维图像重建方法、装置及电子设备 | |
CN116363261B (zh) | 图像编辑模型的训练方法、图像编辑方法和装置 | |
CN110874869A (zh) | 生成虚拟动画表情的方法和装置 | |
CN111524216A (zh) | 生成三维人脸数据的方法和装置 | |
US20220292795A1 (en) | Face image processing method, electronic device, and storage medium | |
CN113850714A (zh) | 图像风格转换模型的训练、图像风格转换方法及相关装置 | |
CN113052962A (zh) | 模型训练、信息输出方法,装置,设备以及存储介质 | |
JP2022172377A (ja) | 画像生成方法、装置、電子機器及び記憶媒体 | |
CN116611496A (zh) | 文本到图像的生成模型优化方法、装置、设备及存储介质 | |
WO2024066549A1 (zh) | 一种数据处理方法及相关设备 | |
CN116402914B (zh) | 用于确定风格化图像生成模型的方法、装置及产品 | |
CN113240780B (zh) | 生成动画的方法和装置 | |
CN117689745A (zh) | 基于提示从文本生成图像 | |
CN111598904B (zh) | 图像分割方法、装置、设备及存储介质 | |
CN111582208A (zh) | 用于生成生物体姿态关键点信息的方法和装置 | |
CN113344778B (zh) | 一种成像控制方法、装置、设备及计算机可读存储介质 | |
CN115984426B (zh) | 发型演示图像的生成的方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220914 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231205 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240625 |