JP2022172173A

JP2022172173A - 画像編集モデルのトレーニング方法および装置、画像編集方法および装置、電子機器、記憶媒体並びにコンピュータプログラム

Info

Publication number: JP2022172173A
Application number: JP2022130879A
Authority: JP
Inventors: ペン、ハオティエン; Haotian Peng; チェン、ルイジ; Ruizhi Chen; ジャオ、チェン; Chen Zhao
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-11
Filing date: 2022-08-19
Publication date: 2022-11-15
Also published as: CN114612290B; KR20220147545A; CN114612290A; US20230071661A1

Abstract

【課題】画像編集の効率を向上させる画像編集モデルのトレーニング方法、画像編集方法及び装置、電子機器、記憶媒体並びにプログラムを提供する。【解決手段】画像編集モデルのトレーニング方法は、トレーニングサンプルセットを取得することと、トレーニングサンプルセットから１つの記述テキストサンプルと１つの画像サンプルを選択することと、選択した記述テキストサンプルと予め決定されたテキストテンプレートとに基づいて、テキスト方向ベクトルを確定することと、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力してバイアスベクトルを取得することと、選択された画像サンプルとバイアスベクトルとに基づいて、画像方向ベクトルを確定し、テキスト方向ベクトルと画像方向ベクトルとに基づいて損失値を計算することと、損失値が閾値条件を満たすことに応答して、画像編集モデルのトレーニングが完了したと判定することと、を含む。【選択図】図２

Description

本開示は、人工知能の技術分野、特に仮想／拡張現実、コンピュータビジョンおよび深層学習の技術分野に関し、画像編集などのシーンに適用可能であり、特に画像編集モデルのトレーニング方法および装置、画像編集方法および装置、電子機器、記憶媒体並びにコンピュータプログラムに関する。

画像編集モデルは、入力された記述テキストと編集すべき画像とに基づいて、編集すべき画像を編集し、記述テキストに対応する目標画像を生成することができ、記述テキストは、目標画像の特徴を記述するための文字表記であり、例えば、編集すべき画像が気分の楽しい顔画像であり、記述テキストが「気分が悲しい」であってもよく、記述テキストおよび編集すべき画像を画像編集モデルに入力し、悲しい顔画像を出力する。現在、１つの画像編集モデルは１つの固定された記述テキストしか受け入れられず、複数の記述テキストがある場合、画像編集が難しく、コストが高く、柔軟性が不十分である。

本開示は、画像編集モデルのトレーニング方法および装置、画像編集方法および装置、電子機器、記憶媒体並びにコンピュータプログラムを提供し、画像編集の効率が向上された。

本開示の第１の態様によれば、記述テキストサンプルと画像サンプルとを含むトレーニングサンプルからなるトレーニングサンプルセットを取得するステップと、トレーニングサンプルセットから１つの記述テキストサンプルと１つの画像サンプルを選択することと、選択された記述テキストサンプルと予め決定されたテキストテンプレートとに基づいて、テキスト方向ベクトルを確定することと、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを取得することと、選択された画像サンプルと前記バイアスベクトルとに基づいて、画像方向ベクトルを確定することと、テキスト方向ベクトルと画像方向ベクトルとに基づいて損失値を計算することと、損失値が閾値条件を満たすことに応答して、画像編集モデルのトレーニングが完了したと判定することとを含むトレーニングステップを実行するステップと、を含む画像編集モデルのトレーニング方法を提供する。

本開示の第２の態様によれば、編集すべき画像と記述テキストとを含む画像編集要求を受信するステップと、記述テキストと編集すべき画像とを画像編集モデルに入力して、記述テキストに対応する目標画像を生成するステップとを含み、画像編集モデルは第１の態様に記載の画像編集モデルのトレーニング方法によりトレーニングされたものである、画像編集方法を提供する。

本開示の第３の態様によれば、記述テキストサンプルと画像サンプルとを含むトレーニングサンプルからなるトレーニングサンプルセットを取得するように構成される取得モジュールと、トレーニングサンプルセットから１つの記述テキストサンプルと１つの画像サンプルを選択することと、選択された記述テキストサンプルと予め決定されたテキストテンプレートとに基づいて、テキスト方向ベクトルを確定することと、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを取得することと、選択された画像サンプルとバイアスベクトルとに基づいて、画像方向ベクトルを確定することと、テキスト方向ベクトルと画像方向ベクトルとに基づいて損失値を計算することと、損失値が閾値条件を満たすことに応答して、画像編集モデルのトレーニングが完了したと判定することとを含むトレーニングステップを実行するように構成されるトレーニングモジュールと、を備える画像編集モデルのトレーニング装置を提供する。

本開示の第４の態様によれば、画像編集装置は、編集すべき画像と記述テキストとを含む画像編集要求を受信するように構成される受信モジュールと、記述テキストと編集すべき画像とを画像編集モデルに入力して、記述テキストに対応する目標画像を生成するように構成される生成モジュールと、を備え、画像編集モデルは第３の態様に記載の画像編集モデルのトレーニング装置によりトレーニングされたものである、画像編集装置を提供する。

本開示の第５の態様によれば、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信可能に接続されるメモリとを備える電子機器であって、メモリには、少なくとも１つのプロセッサによって実行可能な指令が格納され、指令が少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに第１の態様に記載の画像編集モデルのトレーニング方法または第２の態様に記載の画像編集方法を実行させる、電子機器を提供する。

本開示の第６の態様によれば、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令は第１の態様に記載の画像編集モデルのトレーニング方法または第２の態様に記載の画像編集方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。

本開示の第７の態様によれば、プロセッサによって実行されると、第１の態様に記載の画像編集モデルのトレーニング方法または第２の態様に記載の画像編集方法が実現されるコンピュータプログラムを提供する。

なお、発明の概要に記載された内容は、本開示の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって理解しやすくなる。
図面は、本開示をよりよく理解するために用いられ、本開示に対する限定ではない。

本開示の適用可能な例示的なシステムアーキテクチャを示す図である。本開示に係る画像編集モデルのトレーニング方法の一実施形態を示すフローチャートである。本開示に係る画像編集モデルのトレーニング方法のもう一つの実施形態を示すフローチャートである。本開示に係る画像編集モデルのトレーニング方法の一概略図である。本開示に係る画像編集方法の一実施形態を示すフローチャートである。本開示に係る画像編集方法の効果の一概略図である。本開示に係る画像編集モデルのトレーニング装置の一実施形態を示す構造概略図である。本開示に係る画像編集装置の一実施形態を示す構造概略図である。本開示の実施形態に係る画像編集モデルのトレーニング方法または画像編集方法を実現するための電子機器のブロック図である。

以下は、図面を参照して本開示の例示的な実施形態を説明し、ここで理解を助けるため、本開示の実施形態の様々な詳細を記載するが、これらは単なる例示的なものに過ぎないことを理解すべきである。従って、本開示の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることを理解すべきである。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。

図１は、本開示に係る画像編集モデルのトレーニング方法、画像編集方法、画像編集モデルのトレーニング装置または画像編集装置の実施形態が適用可能な例示的なシステムアーキテクチャ１００を示している。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含んでもよい。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間で通信リンクを提供するための媒体として使用される。ネットワーク１０４は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。

ユーザは、画像編集モデルまたは編集画像などを取得するために、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５と情報のやり取りをしてもよい。端末装置１０１、１０２、１０３には、テキスト画像処理アプリケーションなどの様々なクライアントアプリケーションをインストールしてもよい。

端末装置１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置１０１、１０２、１０３がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。端末装置１０１、１０２、１０３がソフトウェアである場合、上記の電子機器にインストールされてもよい。それは、複数のソフトウェア若しくはソフトウェアモジュールとして実現されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実現されてもよい。ここでは特に限定しない。

サーバ１０５は、画像編集モデルまたは編集画像の確定に基づいた様々なサービスを提供することができる。例えば、サーバ１０５は、端末装置１０１、１０２、１０３から取得されたテキストおよび画像を解析処理し、処理（例えば、テキストに対応する編集画像などを確定する）結果を生成することができる。

なお、サーバ１０５は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ１０５がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装可能である。サーバ１０５がソフトウェアである場合、複数のソフトウェア若しくはソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。

なお、本開示の実施形態に係る画像編集モデルのトレーニング方法または画像編集方法は、通常にサーバ１０５により実行され、これに応じて、画像編集モデルのトレーニング装置または画像編集装置は、通常にサーバ１０５に設けられている。

図１における端末装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実現のニーズに応じて、端末装置、ネットワークおよびサーバの数を任意に加減してもよい。

本開示に係る画像編集モデルのトレーニング方法の一実施形態のフロー２００を示す図２を参照する。当該画像編集モデルのトレーニング方法は、次のステップを含む。

ステップ２０１では、トレーニングサンプルセットを取得する。トレーニングサンプルは記述テキストサンプルと画像サンプルとを含む。

本実施形態において、画像編集モデルのトレーニング方法の実行主体（例えば、図１に示すサーバ１０５）は、トレーニングサンプルセットを取得することができる。ここで、実行主体は、開示されたデータベースから記憶されている既存のサンプルセットを取得してもよいし、端末装置（例えば、図１に示す端末装置１０１、１０２、１０３）によりサンプルを収集してもよい。こうすると、実行主体は、端末装置により収集されたサンプルを受信してローカルに格納し、トレーニングサンプルセットを生成することができる。

トレーニングサンプルセットは、少なくとも１つのサンプルを含んでもよい。サンプルは、記述テキストサンプルと画像サンプルとを含んでもよい。記述テキストサンプルは、編集後の画像の特徴を記述するためのテキストであり、例えば、記述テキストは、編集後の顔画像の顔器官の特徴を記述するためのテキストであってもよいし、編集後の顔画像の人物の気分を記述するためのテキストであってもよい。例えば、記述テキストの内容は、長い巻き髪、大きな目、白肌、長いまつげなどである。画像サンプルは動物画像、植物画像または人間の顔画像であってもよく、本開示はこれを限定しない。

本開示の技術方案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供および公開などの処理は、いずれも関連する法律法規の規定に準拠し、且つ公序良俗に反しない。

本実施形態のいくつかのオプション的な実施形態では、添付図面を有する複数の文章を取得し、１つの文章から１枚の添付図面を画像サンプルとして取得し、その添付図面を記述する文字を取得し、その中から複数のキーワードを抽出して、その添付図面に対応する記述テキストサンプルとすることにより、複数の画像サンプルと対応する複数の記述テキストサンプルとを得、トレーニングサンプルセットを形成してもよい。

ステップ２０２では、トレーニングサンプルセットから記述テキストサンプルと画像サンプルを選択する。

本実施形態では、上記実行主体は、トレーニングサンプルセットを取得した後、トレーニングサンプルセットから、記述テキストサンプルと画像サンプルとを選択することができる。具体的には、記述テキストサンプルと画像サンプルをトレーニングサンプルセットからランダムに選択してもよいし、画像サンプルをトレーニングサンプルセットからランダムに選択した後、その画像サンプルとの対応関係を有する記述テキストサンプルをトレーニングサンプルセットから見つけてもよい。本開示はこれを限定しない。

ステップ２０３では、選択された記述テキストサンプルと予め決定されたテキストテンプレートとに基づいてテキスト方向ベクトルを確定する。

本実施形態では、上記実行主体は、選択された記述テキストサンプルと、予め決定されたテキストテンプレートとに基づいて、テキスト方向ベクトルを確定することができる。なお、テキストテンプレートは、記述テキストサンプルが実際に表現しようとする文字の意味に関連する句であってもよいし、関連する文であってもよいし、関連する一区切りの文字であってもよいが、本開示はこれを限定しない。テキストテンプレートの数は１つであってもよいし、複数であってもよい。具体的には、記述テキストサンプルが実際に表現しようとする文字の意味を予め取得しておき、文字の意味に適するシーンを取得したり、文字の意味が表現に適用されるオブジェクト名を取得しておき、適用されるシーンまたは表現に適用されるオブジェクト名をテキストテンプレートとしてもよいし、適用されるシーンまたは表現に適用されるオブジェクト名を取得した後、適用されるシーンまたは表現に適用されるオブジェクト名を詳細に記述し、一区切りの文章に拡張してテキストテンプレートとしてもよい。例示的に、記述テキストサンプルが「美しい」である場合、記述テキストサンプルが実際に表現しようとする文字の意味は、画像が美しいであることを表現し、さらに、写真、絵、画像をテキストテンプレートとしてもよい。テキストテンプレートを用いることにより、記述テキストサンプルの特徴を抽出する際に参考に供してコンテキストを提供して、抽出された記述テキストサンプルの特徴の精度を高め、それによりテキスト方向ベクトルの精度を向上させることができ、また、使用するテキストテンプレートが多いほど、より正確なテキスト方向ベクトルを取得することができ、例えば、予め定められた３０～４０個のテキストテンプレートに基づいて、テキスト方向ベクトルを確定してもよい。

具体的には、選択された記述テキストサンプルと、予め決定されたテキストテンプレートとを入力データとして方向ベクトル確定モデルにそれぞれ入力し、方向ベクトル確定モデルの出力端から、記述テキストサンプルに対応するテキスト方向ベクトルを出力することができ、テキスト方向ベクトルは、記述テキストサンプルのテキスト特徴を表し、特徴空間における一方向を表す。

本実施形態のいくつかのオプション的な実施形態では、選択された記述テキストサンプルを各テキストテンプレートにそれぞれ加算して複数のスプライシングされた記述テキストサンプルを得、複数のスプライシングされた記述テキストサンプルを他の方向ベクトル確定モデルに入力し、方向ベクトル確定モデルの出力端から記述テキストサンプルに対応するテキスト方向ベクトルを出力することができる。

ステップ２０４では、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力してバイアスベクトルを得る。

本実施形態では、上記実行主体は、テキスト方向ベクトルを得た後、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力してバイアスベクトルを得ることができる。ここで、テキスト方向ベクトルは１＊ｎ次元のベクトルであり、バイアスベクトルは、テキスト方向ベクトルを変形して生成されたｍ＊ｎ次元のベクトルであり、バイアスベクトルとテキスト方向ベクトルは、いずれも、テキストサンプルを記述するテキストの特徴を表すベクトルであり、それらの形式が異なる。画像編集モデルのマッピングネットワークは、１＊ｎ次元のベクトルをｍ＊ｎ次元のベクトルにマッピングするためのネットワークであり、ここで、ｍ、ｎはいずれも１より大きい自然数である。具体的には、テキスト方向ベクトルを入力データとして画像編集モデルのマッピングネットワークに入力し、マッピングネットワークの出力端から対応するバイアスベクトルを出力することができる。

ステップ２０５では、選択された画像サンプルとバイアスベクトルとに基づいて、画像方向ベクトルを確定する。

本実施形態では、上記実行主体は、バイアスベクトルを得た後、選択された画像サンプルとバイアスベクトルとに基づいて、画像方向ベクトルを確定することができる。具体的には、画像サンプルに対応する画像ベクトルを取得した後、画像ベクトルとバイアスベクトルとを加算して新たな画像ベクトルを得、新たな画像ベクトルを入力データとして画像方向ベクトル生成モデルに入力し、画像方向ベクトル生成モデルの出力端から対応する画像方向ベクトルを出力することができる。

ステップ２０６では、テキスト方向ベクトルと画像方向ベクトルとに基づいて損失値を計算する。

本実施形態では、上記実行主体は、テキスト方向ベクトルと画像方向ベクトルとを得た後、テキスト方向ベクトルと画像方向ベクトルとに基づいて損失値を計算することができる。具体的には、テキスト方向ベクトルと画像方向ベクトルとの類似度を、計算による損失値として算出することができる。

この損失値に基づいて、画像サンプルの変化と記述テキストサンプルとが同方向であるか否かを判断することができ、これにより、画像編集モデルのマッピングネットワークがトレーニング済みであるか否かを評価することができる。

ステップ２０７では、損失値が閾値条件を満たすことに応答して、画像編集モデルのトレーニングが完了したと判定する。

本実施形態では、上記実行主体は、損失値を得た後、損失値に基づいて、画像編集モデルのトレーニングが完了したか否かを判定することができる。ここで、閾値条件は、予め設定された閾値であってもよく、例示的には、閾値条件が８０％であり、算出された損失値と閾値条件とを比較し、損失値が閾値条件を満たし、例示的には、損失値が８０％より大きい場合に、画像編集モデルのトレーニングが完了したと判定する。

ステップ２０８では、損失値が閾値条件を満たしていないことに応答して、画像編集モデルのパラメータを調整し、引き続きトレーニングを行う。

本実施形態では、上記実行主体は、損失値が閾値条件を満たしていないと判断した場合、例示的に損失値が８０％以下であれば、画像編集モデルがトレーニング完了していないと判断し、画像編集モデルのマッピングネットワークの各層のパラメータを調整して、トレーニングサンプルセットから１つの記述テキストサンプルと１つの画像サンプルを新たに選択して引き続きトレーニングを行う。なお、記述テキストサンプルおよび画像サンプルを選択する具体的な動作については、ステップ２０２で詳細に説明したので、ここでは説明を省略する。

本開示の実施形態に係る画像編集モデルのトレーニング方法は、まずトレーニングサンプルセットを取得し、次に、トレーニングステップを行い、前記トレーニングステップは、トレーニングサンプルセットから１つの記述テキストサンプルと１つの画像サンプルを選択することと、選択された記述テキストサンプルと予め決定されたテキストテンプレートとに基づいて、テキスト方向ベクトルを確定することと、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを取得することと、選択された画像サンプルとバイアスベクトルとに基づいて、画像方向ベクトルを確定することと、テキスト方向ベクトルと画像方向ベクトルとに基づいて損失値を計算することと、損失値が閾値条件を満たすことに応答して、画像編集モデルのトレーニングが完了したと判定することとを含む。以上のようなトレーニング方法により得られた画像編集モデルは、いずれの記述テキストを処理することができ、画像編集の効率を向上した。

さらに、本開示に係る画像編集モデルのトレーニング方法のもう一つの実施形態のフロー３００を示す図３を参照する。当該画像編集モデルのトレーニング方法は、次のステップを含む。

ステップ３０１では、トレーニングサンプルセットを取得する。トレーニングサンプルは記述テキストサンプルと画像サンプルとを含む。

ステップ３０２では、トレーニングサンプルセットから１つの記述テキストサンプルと１つの画像サンプルを選択する。

本実施形態では、ステップ３０１～３０２の具体的な動作は、図２に示す実施形態のステップ２０１～２０２の動作に詳しく説明したので、ここではその説明を省略する。

ステップ３０３では、選択された記述テキストサンプルとテキストテンプレートに基づいて、補足テキストサンプルを取得する。

本実施形態では、上記実行主体は、記述テキストサンプルを取得した後、記述テキストサンプルに基づいて補足テキストサンプルを取得することができる。なお、本実施形態では、記述テキストサンプルと画像サンプルを入力データとして画像編集モデルに入力し、画像編集モデルにより各中間変数を取得し、画像編集モデルの計算結果に基づいて画像編集モデルをトレーニングすることができる。画像編集モデルは、テキスト変換ネットワークと、マッピングネットワークと、画像変換ネットワークと、ベクトル生成ネットワークと、画像生成ネットワークとを含んでもよい。テキスト変換ネットワークは、１つのテキストを入力とし、当該テキストに対応する１＊５１２次元のベクトルを出力するものであってもよい。例えば、テキスト変換ネットワークはＣＬＩＰ（ＣｏｎｔｒａｓｔｉｖｅＬａｎｇｕａｇｅ－ＩｍａｇｅＰｒｅ－ｔｒａｉｎｉｎｇ）テキスト符号化ネットワークであってもよい。マッピングネットワークは１＊５１２次元のベクトルを入力とし、対応する１８＊５１２次元のベクトルを出力するものであってもよい。例えば、マッピングネットワークはＭＬＰ（Ｍｕｌｔｉ－ｌａｙｅｒＰｅｒｃｅｐｔｒｏｎ）ネットワークであってもよい。ベクトル生成ネットワークは１枚の画像を入力とし、当該画像に対応する１８＊５１２次元のベクトルを出力するものであってもよい。例えば、ベクトル生成ネットワークはｅ４ｅ（ｅｎｃｏｄｅｒ４ｅｄｉｔｉｎｇ）ネットワークであってもよい。画像生成ネットワークは１８＊５１２次元のベクトルを入力とするベクトル生成ネットワークと、を含むことができる。例えば、画像生成ネットワークはＳｔｙｌｅＧＡＮ（スタイルに基づく敵対的生成ネットワーク）ネットワークであり、画像変換ネットワークは１枚の画像を入力とし、当該画像に対応する１＊５１２次元のベクトルを出力してもよい。例えば、画像変換ネットワークはＣＬＩＰ（ＣｏｎｔｒａｓｔｉｖｅＬａｎｇｕａｇｅ－ＩｍａｇｅＰｒｅ－ｔｒａｉｎｉｎｇ）画像符号化ネットワークであってもよい。

具体的には、記述テキストサンプルを画像編集モデルに入力した後、まず、記述テキストサンプルを前処理して、画像編集モデル内のテキストテンプレートを取得してもよく、テキストテンプレートは、画像編集モデル内に予め格納されており、テキストテンプレートは、１つであっても複数であってもよく、例えば、テキストテンプレートは、「１枚の（）写真」、「１枚の（）絵」、「１枚の（）画像」であってもよい。そして、選択された記述テキストサンプルを各テキストテンプレートにそれぞれ埋め込み、各テキストテンプレートには、文字をその位置に挿入できることを示す挿入マークが予め設けられている。例えば、括弧を挿入マークとしてもよい。各テキストテンプレートにおける挿入マークを確定し、その後、選択された記述テキストサンプルを当該挿入マークに置き換え、補足テキストサンプルを生成し、以下同様にして、テキストテンプレートと同数の補足テキストサンプルを取得する。例えば、選択された記述テキストサンプルが「美しい」である場合、生成された補足テキストサンプルは「１枚の美しい写真」、「１枚の美しい絵」、「１枚の美しい画像」である。

ステップ３０４では、テキストテンプレートと補足テキストサンプルをそれぞれテキスト変換ネットワークに入力してテンプレートテキストベクトルと補足テキストベクトルを得る。

本実施形態では、上記実行主体は、補足テキストサンプルを得た後に、テキストテンプレートに対応するテンプレートテキストベクトルと、補足テキストサンプルに対応する補足テキストベクトルとを生成することができる。具体的には、テキストテンプレートを入力データとして画像編集モデルのテキスト変換ネットワークに入力し、テキストテンプレートに対応するテンプレートテキストベクトルをテキスト変換ネットワークの出力端から出力することができ、テンプレートテキストベクトルと入力されたテキストテンプレートの数が同じ、各テンプレートテキストベクトルはいずれも１＊５１２次元のベクトルである。テンプレートテキストベクトルを得た後、さらに、補足テキストサンプルを入力データとして画像編集モデルのテキスト変換ネットワークに入力し、テキスト変換ネットワークの出力端から、補足テキストサンプルに対応する補足テキストベクトルを出力してもよい。補足テキストベクトルとテンプレートテキストベクトルとの数が同じ、各補足テキストベクトルはいずれも１＊５１２次元のベクトルである。

ステップ３０５では、テンプレートテキストベクトルと補足テキストベクトルに基づいて、テキスト方向ベクトルを計算する。

本実施形態では、上記実行主体は、テンプレートテキストベクトルと補足テキストベクトルを得た後、テンプレートテキストベクトルと補足テキストベクトルに基づいて、テキスト方向ベクトルを計算することができる。具体的には、以下の式によりテキスト方向ベクトルを計算して得ることができる。

ここで、Ｙ_ｔはテキスト方向ベクトルを表し、ｉはｉ番目のテキストテンプレートまたはｉ番目の補足テキストサンプルであり、Ｃ（Ｔ_ｘｉ）はｉ番目の補足テキストベクトルを表し、Ｃ（Ｔ_ｉ）はｉ番目のテンプレートテキストベクトルを表し、ｎは合計でｎ個のテキストテンプレートまたは補足テキストサンプルを有することを表す。

ステップ３０６では、テキスト方向ベクトルをマッピングネットワークの全結合層に入力して再構成方向ベクトルを得る。

本実施形態では、上記実行主体は、テキスト方向ベクトルを得た後、テキスト方向ベクトルをマッピングネットワークの全結合層に入力し、再構成方向ベクトルを得ることができる。なお、画像編集モデルのマッピングネットワークは、１＊５１２次元のベクトルを入力とし、対応する１８＊５１２次元のベクトルを出力する全結合層と、１８＊５１２次元のベクトルを入力とし、対応するマッピングされた１８＊５１２次元のベクトルを出力するマッピング層とを含む。

具体的には、テキスト方向ベクトルは、１＊５１２次元のベクトルであり、テキスト方向ベクトルを入力データとして画像編集モデルのマッピングネットワークの全結合層に入力し、全結合層の出力端から、テキスト方向ベクトルに対応する１８＊５１２次元のベクトルを出力してもよい。このうち、出力された１８＊５１２次元のベクトルは再構成方向ベクトルであり、再構成方向ベクトルとテキスト方向ベクトルとはベクトル次元が異なるだけで、ベクトル空間において同じベクトル方向を表す。

ステップ３０７では、再構成方向ベクトルをマッピングネットワークのマッピング層に入力してバイアスベクトルを得る。

本実施形態では、上記実行主体は、再構成方向ベクトルを得た後、再構成方向ベクトルをマッピングネットワークのマッピング層に入力してバイアスベクトルを得ることができる。具体的には、再構成方向ベクトルを入力データとして画像編集モデルのマッピングネットワークのマッピング層に入力し、マッピング層の出力端から、再構成方向ベクトルに対応するマッピング済みの１８＊５１２次元のベクトルを出力することができ、出力された１８＊５１２次元のベクトルはバイアスベクトルである。

再構成方向ベクトルは１８層あり、マッピング層は再構成方向ベクトルの０～３層をラフ層、４～７層を中間層、８～１７層をファイン層と定義して、バイアスベクトルを得ることができる。例示的に、記述テキストサンプルが顔の特徴を記述するためのテキストである場合、得られたバイアスベクトルも顔の特徴を記述するためのベクトルであり、バイアスベクトルのラフ層は主に姿勢、髪の毛、顔の形などの特徴を制御するために用いられ、中間層は主に目などの顔の特徴を制御するために用いられ、ファイン層は主にカラーを制御するために用いられる。ラフ層と中間層は顔の特徴に与える影響が大きく、ファイン層は顔の特徴に与える影響が少ないため、本実施形態ではラフ層と中間層の特徴のみに注目することができる。

ステップ３０８では、選択された画像サンプルをベクトル生成ネットワークに入力して、ベース画像ベクトルを得る。

本実施形態では、上記実行主体は、選択された画像サンプルを取得した後、選択された画像サンプルをベクトル生成ネットワークに入力して、ベース画像ベクトルを得ることができる。具体的には、選択された画像サンプルを入力データとして画像編集モデルのベクトル生成ネットワークに入力し、ベクトル生成ネットワークの出力端から、選択された画像サンプルに対応するベース画像ベクトルを出力することができる。ベース画像ベクトルは画像サンプルの画像特徴を表す１８＊５１２次元のベクトルである。

ステップ３０９では、ベース画像ベクトルを画像生成ネットワークに入力してオリジナル画像を得る。

本実施形態では、上記実行主体は、ベース画像ベクトルを得た後、ベース画像ベクトルを画像生成ネットワークに入力してオリジナル画像を得ることができる。具体的には、ベース画像ベクトルを入力データとして画像編集モデルの画像生成ネットワークに入力し、ベース画像ベクトルに対応するオリジナル画像を画像生成ネットワークの出力端から出力することができる。ここで、画像生成ネットワークにより生成された画像が、選択された画像サンプルと完全に同一ではなく、差異があるため、画像生成ネットワークに基づいてオリジナル画像を生成することが必要なステップとなる。

ステップ３１０では、ベース画像ベクトルとバイアスベクトルを加算した後、画像生成ネットワークに入力して編集画像を得る。

本実施形態では、上記実行主体は、ベース画像ベクトルとバイアスベクトルを得た後、ベース画像ベクトルとバイアスベクトルを加算して画像生成ネットワークに入力して編集画像を得ることができる。このうち、ベース画像ベクトルとバイアスベクトルは、いずれも１８＊５１２次元のベクトルであり、ベース画像ベクトルは、ベクトル生成ネットワークにより生成され、ベース画像ベクトルの１８層は、ラフ層、中間層、ファイン層の３つの部分から構成され、バイアスベクトルは、ステップ３０７で詳細に説明されており、バイアスベクトルも、ラフ層、中間層、ファイン層の３つの部分から構成され、ベース画像ベクトルとバイアスベクトルのベクトル構造が一致しているので、ベース画像ベクトルとバイアスベクトルを直接加算することができる。例えば、記述テキストサンプルが、顔の特徴を記述するためのテキストである場合、得られたバイアスベクトルも顔の特徴を記述するためのベクトルであり、画像サンプルが記述テキストサンプルの記述内容に対応する画像であるので、画像サンプルは、顔画像であってもよく、ベース画像ベクトルは、画像サンプルの顔の特徴を表し、ベース画像ベクトルとバイアスベクトルとを加算して新たなベクトルを得、当該新たなベクトルは、画像サンプルの顔の特徴に、バイアスベクトルにより記述される顔の特徴を加えて得られた新たな顔特徴ベクトルを表す。

ベース画像ベクトルとバイアスベクトルとを加算したベクトルを得ると、加算されたベクトルを入力データとして画像編集モデルの画像生成ネットワークに入力し、加算されたベクトルに対応する編集画像を画像生成ネットワークの出力端から出力することができる。

ステップ３１１では、オリジナル画像と編集画像をそれぞれ画像変換ネットワークに入力し、オリジナル画像ベクトルと編集画像ベクトルを得る。

本実施形態では、上記実行主体は、オリジナル画像と編集画像とを取得した後、オリジナル画像と編集画像とをそれぞれ画像変換ネットワークに入力して、オリジナル画像ベクトルと編集画像ベクトルとを得ることができる。具体的には、オリジナル画像を入力データとして画像編集モデルの画像変換ネットワークに入力し、オリジナル画像に対応するオリジナル画像ベクトルを画像変換ネットワークの出力端から出力することができる。オリジナル画像ベクトルは、オリジナル画像の画像特徴を表す。編集画像を入力データとして画像編集モデルの画像変換ネットワークに入力し、編集画像に対応する編集画像ベクトルを画像変換ネットワークの出力端から出力することができる。編集画像ベクトルは、編集画像の画像特性を表し、オリジナル画像ベクトルと編集画像ベクトルとはいずれも１＊５１２次元のベクトルである。

ステップ３１２では、オリジナル画像ベクトルと編集画像ベクトルに基づいて、画像方向ベクトルを計算する。

本実施形態では、上記実行主体は、オリジナル画像ベクトルと編集画像ベクトルを得た後、オリジナル画像ベクトルと編集画像ベクトルに基づいて画像方向ベクトルを計算することができる。具体的には、以下の式により画像方向ベクトルを計算して得ることができる。

Ｙ_ｉ＝Ｃ（Ａ）－Ｃ（Ｂ）

ここで、Ｙ_ｉは画像方向ベクトル、Ｃ（Ａ）はオリジナル画像ベクトル、Ｃ（Ｂ）は編集画像ベクトルを表す。

ステップ３１３では、テキスト方向ベクトルと画像方向ベクトルに基づいて損失値を計算する。

ステップ３１４では、損失値が閾値条件を満たすことに応答して、画像編集モデルのトレーニングが完了したと判定する。

ステップ３１５では、損失値が閾値条件を満たしていないことに応答して、画像編集モデルのパラメータを調整し、引き続きトレーニングを行う。

本実施形態では、ステップ３１３～３１５の具体的な動作は、図２に示す実施形態のステップ２０６～２０８の動作に詳しく説明したので、ここではその説明を省略する。

なお、損失値は、次式により算出することができる。

ｌｏｓｓ＝１－ｃｏｓ（Ｙ_ｉ，Ｙ_ｔ）

ここで、ｌｏｓｓは計算による損失値であり、Ｙ_ｉは画像方向ベクトル、Ｙ_ｔはテキスト方向ベクトルを表す。

図３から分かるように、図２に対応する実施形態と比較して、本実施形態における画像編集モデルのトレーニング方法は、テキストテンプレートに基づいてテキスト方向ベクトルを取得することで、得られたテキスト方向ベクトルがより高精度になり、画像編集モデルのマッピングネットワークに基づくことで、テキスト方向ベクトルの空間的関係の高度なデカップリングを実現し、ベクトル生成ネットワークから出力されるベクトル構造を適合させることができ、画像生成ネットワークと画像変換ネットワークに基づいて、画像方向ベクトルを生成することで、テキスト方向ベクトルと画像方向ベクトルのマッピング関係を実現し、テキスト方向と画像変化方向が同一方向であるか否かを判断することで画像編集モデルをトレーニングし、記述テキストサンプルと画像サンプルを交互に入力するトレーニング方式でトレーニングすることで、トレーニングにより得られた画像編集モデルにいずれかの記述テキストを入力して目標画像を生成することができ、画像編集の効率をさらに向上させるとともに、トレーニングにより得られた画像編集モデルが軽量化、統一化され、空間サイズが最適化され、管理の難しさが低減された。

さらに本開示の画像編集モデルのトレーニング方法の概略図４００を示す図４を参照し、図４から分かるように、まず、記述テキストサンプルを画像編集モデルのテキスト変換ネットワークに入力してテンプレートテキストベクトルと補足テキストベクトルを得、次に、テンプレートテキストベクトルと補足テキストベクトルに基づいてテキスト方向ベクトルを計算し、テキスト方向ベクトルを画像編集モデルのマッピングネットワークの全結合層に入力して再構成方向ベクトルを得、再構成方向ベクトルを画像編集モデルのマッピングネットワークのマッピング層に入力してバイアスベクトルを得ることができる。そして、画像テキストを画像編集モデルのベクトル生成ネットワークに入力してベース画像ベクトルを得、ベース画像ベクトルを画像編集モデルの画像生成ネットワークに入力してオリジナル画像を得、ベース画像ベクトルとバイアスベクトルを加算して画像編集モデルの画像生成ネットワークに入力して編集画像を得、オリジナル画像と編集画像を画像編集モデルの画像変換ネットワークにそれぞれ入力してオリジナル画像ベクトルと編集画像ベクトルを得、オリジナル画像ベクトルと編集画像ベクトルに基づいて画像方向ベクトルを算出し、テキスト方向ベクトルと画像方向ベクトルに基づいて損失値を算出して画像編集モデルをトレーニングすることにより、トレーニングされた画像編集モデルの画像編集効率がある程度向上された。

さらに次に、本開示に係る画像編集方法の一実施形態のフロー５００を示す図５を参照する。当該画像編集方法は、次のステップを含む。

ステップ５０１では、編集すべき画像と記述テキストとを含む画像編集要求を受信する。

本実施形態では、上記実行主体は、画像編集要求を受信することができる。なお、画像編集要求は、音声の形式であっても文字の形式であってもよく、本開示はこれを限定しない。画像編集要求は、編集すべき画像と記述テキストとを含み、編集すべき画像は、動物画像であってもよいし、植物画像であってもよいし、顔画像であってもよく、本開示はこれを限定しない。記述テキストは、編集後の画像の特徴を記述するためのテキストであり、例えば、記述テキストは、編集後の顔画像における顔の器官の特徴を記述するためのテキストであってもよいし、編集後の顔画像の人物の気分を記述するためのテキストであってもよい。例えば、記述テキストの内容は、長い巻き髪、大きな目、白肌、長いまつげなどである。

ステップ５０２では、記述テキストと編集すべき画像を画像編集モデルに入力し、記述テキストに対応する目標画像を生成する。

本実施形態では、上記実行主体は、画像編集要求を受信すると、記述テキストおよび編集すべき画像を画像編集モデルに入力し、記述テキストに対応する目標画像を生成することができる。具体的には、記述テキストと編集すべき画像を予めトレーニングされた画像編集モデルに入力し、記述テキストに対応する目標画像を画像編集モデルの出力端から出力することができる。

本実施形態のいくつかのオプション的な実施形態では、記述テキストと予め決定されたテキストテンプレートとに基づいてテキスト方向ベクトルを確定し、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力してバイアスベクトルを得、編集すべき画像とバイアスベクトルとに基づいて目標画像を生成することができる。

本実施形態のいくつかのオプション的な実施形態では、テキスト方向ベクトルは、記述テキストとテキストテンプレートに基づいて補足テキストを得ることと、テキストテンプレートと補足テキストをそれぞれ画像編集モデルのテキスト変換ネットワークに入力してテンプレートテキストベクトルと補足テキストベクトルを得ることと、テンプレートテキストベクトルと補足テキストベクトルに基づいてテキスト方向ベクトルを計算することとによって確定されることができる。

本実施形態のいくつかのオプション的な実施形態では、編集すべき画像を画像編集モデルのベクトル生成ネットワークに入力してベース画像ベクトルを得、ベース画像ベクトルとバイアスベクトルとを加算した後、画像編集モデルの画像生成ネットワークに入力して目標画像を得ることにより、目標画像を生成することができる。

図５から明らかなように、本実施形態の画像編集方法は、任意の記述テキストから対応する目標画像を直接生成することができ、画像編集の効率化、コストの削減、ユーザ体験の向上を図ることができる。

さらに、本開示に係る画像編集方法の効果の概略図６００を示す図６を参照し、図６から分かるように、記述テキストが「傲慢」、「御姫様」であり、記述テキスト「傲慢」と編集すべき画像との１組のデータを画像編集モデルに入力し、出力された目標画像の人物の顔が傲慢な表情で現れ、記述テキスト「御姫様」と編集すべき画像との他組のデータを画像編集モデルに入力し、出力された目標画像の人物の顔が御姫様の表情で現れ、このように、トレーニングされた画像編集モデルはいずれかの記述テキストを処理することができ、画像編集の効率が向上された。

さらに図７を参照すると、上記の画像編集モデルのトレーニング方法の実施態様として、本開示は画像編集モデルのトレーニング装置の一実施形態を提供し、当該装置の実施形態は、図２に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。

図７に示すように、本実施形態の画像編集モデルのトレーニング装置７００は、取得モジュール７０１と、トレーニングモジュール７０２とを備えてもよい。ここで、取得モジュール７０１は、記述テキストサンプルと画像サンプルとを含むトレーニングサンプルからなるトレーニングサンプルセットを取得するように構成される。トレーニングモジュール７０２は、トレーニングサンプルセットから１つの記述テキストサンプルと１つの画像サンプルを選択することと、選択された記述テキストサンプルと予め決定されたテキストテンプレートとに基づいて、テキスト方向ベクトルを確定することと、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを取得することと、選択された画像サンプルとバイアスベクトルとに基づいて、画像方向ベクトルを確定することと、テキスト方向ベクトルと画像方向ベクトルとに基づいて損失値を計算することと、損失値が閾値条件を満たすことに応答して、画像編集モデルのトレーニングが完了したと判定することとを含むトレーニングステップを実行するように構成される。

本実施形態において、画像編集モデルのトレーニング装置７００における取得モジュール７０１、トレーニングモジュール７０２の具体的な処理およびそれらによって奏される技術的効果は、それぞれ図２の対応する実施形態におけるステップ２０１～２０８の関連する説明を参照することができ、ここでその説明を省略する。

本実施形態のいくつかのオプション的な実施形態では、マッピングネットワークは、全結合層とマッピング層とを含み、トレーニングモジュール７０２は、テキスト方向ベクトルをマッピングネットワークの全結合層に入力して再構成方向ベクトルを得るように構成される再構成サブモジュールと、再構成方向ベクトルをマッピングネットワークのマッピング層に入力してバイアスベクトルを得るように構成されるマッピングサブモジュールと、を備える。

本実施形態のいくつかのオプション的な実施形態では、画像編集モデルは、画像変換ネットワークをさらに含み、トレーニングモジュール７０２は、選択された画像サンプルとバイアスベクトルとに基づいて、オリジナル画像と編集画像とを生成するように構成される第１の生成サブモジュールと、オリジナル画像および編集画像をそれぞれ画像変換ネットワークに入力してオリジナル画像ベクトルおよび編集画像ベクトルを得るように構成される第２の生成サブモジュールと、オリジナル画像ベクトルと編集画像ベクトルとに基づいて画像方向ベクトルを計算するように構成される第１の計算サブモジュールと、をさらに備える。

本実施形態のいくつかのオプション的な実施形態では、画像編集モデルは、ベクトル生成ネットワークと画像生成ネットワークとをさらに含み、第１の生成サブモジュールは、選択された画像サンプルをベクトル生成ネットワークに入力して、ベース画像ベクトルを得るように構成される第１の生成ユニットと、ベース画像ベクトルを画像生成ネットワークに入力してオリジナル画像を得るように構成される第２の生成ユニットと、ベース画像ベクトルとバイアスベクトルとを加算した後、画像生成ネットワークに入力して編集画像を得るように構成される第３の生成ユニットと、を備える。

本実施形態のいくつかのオプション的な実施形態では、画像編集モデルは、テキスト変換ネットワークをさらに含み、トレーニングモジュール７０２は、選択された記述テキストサンプルとテキストテンプレートとに基づいて、補足テキストサンプルを得るように構成される第３の生成サブモジュールと、テキストテンプレートおよび補足テキストサンプルをそれぞれテキスト変換ネットワークに入力して、テンプレートテキストベクトルおよび補足テキストベクトルを得るように構成される第４の生成サブモジュールと、テンプレートテキストベクトルと補足テキストベクトルとに基づいて、テキスト方向ベクトルを計算するように構成される第２の計算サブモジュールと、をさらに備える。

さらに図８を参照すると、上記の画像編集方法の実施態様として、本開示は、画像編集装置の一実施形態を提供し、当該装置の実施形態は、図５に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。

図８に示すように、本実施形態の画像編集装置８００は、受信モジュール８０１と、生成モジュール８０２とを備えてもよい。ここで、受信モジュール８０１は、編集すべき画像と記述テキストとを含む画像編集要求を受信するように構成される。生成モジュール８０２は、記述テキストと編集すべき画像とを画像編集モデルに入力して、記述テキストに対応する目標画像を生成するように構成される。

本実施形態において、画像編集装置８００における受信モジュール８０１および生成モジュール８０２の具体的な処理およびそれらによって奏される技術的効果は、それぞれ図５の対応する実施形態におけるステップ５０１～５０２の関連する説明を参照することができ、ここでその説明を省略する。

本実施形態のいくつかのオプション的な実施形態では、生成モジュール８０２は、記述テキストと予め決定されたテキストテンプレートとに基づいてテキスト方向ベクトルを確定するように構成される確定サブモジュールと、テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを得るように構成される第５の生成サブモジュールと、編集すべき画像とバイアスベクトルとに基づいて目標画像を生成するように構成される第６の生成サブモジュールと、を備える。

本実施形態のいくつかのオプション的な実施形態では、第６の生成サブモジュールは、編集すべき画像を画像編集モデルのベクトル生成ネットワークに入力してベース画像ベクトルを得るように構成される第４の生成ユニットと、ベース画像ベクトルとバイアスベクトルとを加算した後、画像編集モデルの画像生成ネットワークに入力して目標画像を得るように構成される第５の生成ユニットと、を備える。

本実施形態のいくつかのオプション的な実施形態では、確定サブモジュールは、記述テキストとテキストテンプレートとに基づいて、補足テキストを得るように構成される第６の生成ユニットと、テキストテンプレートと補足テキストをそれぞれ画像編集モデルのテキスト変換ネットワークに入力して、テンプレートテキストベクトルと補足テキストベクトルを得るように構成される第７の生成ユニットと、テンプレートテキストベクトルと補足テキストベクトルとに基づいて、テキスト方向ベクトルを計算するように構成される計算ユニットと、を備える。

本開示の実施形態によれば、本開示はさらに電子機器、読み取り可能な記憶媒体およびコンピュータプログラムを提供する。

図９は、本開示の実施形態を実施するために使用できる例示的な電子機器９００の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似する計算装置等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および／または要求した本開示の実施形態を限定することを意図するものではない。

図９に示すように、電子機器９００は、読み出し専用メモリ（ＲＯＭ）９０２に記憶されているコンピュータプログラムまたは記憶ユニット９０８からランダムアクセスメモリ（ＲＡＭ）９０３にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行することができる計算ユニット９０１を備える。ＲＡＭ７０３には、電子機器９００の動作に必要な様々なプログラムおよびデータが更に格納されてもよい。計算ユニット９０１、ＲＯＭ９０２およびＲＡＭ９０３は、バス９０４を介して互いに接続されている。入／出力（Ｉ／Ｏ）インターフェース９０５もバス９０４に接続されている。

電子機器９００において、キーボード、マウスなどの入力ユニット９０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット９０７と、磁気ディスク、光ディスクなどの記憶ユニット９０８と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット９０９とを備える複数のコンポーネントは、Ｉ／Ｏインターフェース９０５に接続されている。通信ユニット９０９は、機器９００がインターネットなどのコンピュータネットワークおよび／または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。

計算ユニット９０１は、処理および計算機能を有する様々な汎用および／または専用処理コンポーネントであってもよい。計算ユニット９０１のいくつかの例示としては、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット９０１は、上述した画像編集モデルのトレーニング方法または画像編集方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、画像編集モデルのトレーニング方法または画像編集方法は、記憶ユニット９０８などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ＲＯＭ９０２および／または通信ユニット９０９を介して電子機器９００にロードおよび／またはインストールされてもよい。コンピュータプログラムがＲＡＭ９０３にロードされ、計算ユニット９０１によって実行されると、上述の画像編集モデルのトレーニング方法または画像編集方法の１つまたは複数のステップを実行可能である。あるいは、他の実施形態において、計算ユニット９０１は、他の任意の適切な方式によって（例えば、ファームウェアを介して）画像編集モデルのトレーニング方法または画像編集方法を実行するように構成されていてもよい。

ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実現されてもよい。これらの各実施形態は、１つまたは複数のコンピュータプログラムに実装され、当該１つまたは複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および／または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置および少なくとも１つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を当該記憶システム、当該少なくとも１つの入力装置および当該少なくとも１つの出力装置に伝送することを含み得る。

本開示の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語のあらゆる組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラミング可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび／またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。

本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、指令実行システム、装置または機器が使用するため、または指令実行システム、装置または機器と組み合わせて使用するためのプログラムを含むか、または格納してもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、１本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。

ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置（例えば、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ，ＣＲＴ）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置は、さらにユーザとのインタラクションを提供することに用いることができる。例えば、ユーザに提供されるフィードバックは（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく）、且つ音入力、音声入力または、触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。

ここで説明したシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバ）に実施されてもよく、またはミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）に実施されてもよく、またはフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ）に実施されてもよく、ユーザは該グラフィカルユーザインターフェースまたはウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等、任意の形態または媒体のデジタルデータ通信により接続されていてもよい。通信ネットワークの例示としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）およびインターネットを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント－サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバは、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。サーバは、クラウドサーバであってもよいし、人工知能技術を有するスマートクラウドコンピューティングサーバまたはスマートクラウドホストであってもよい。サーバは、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。サーバは、クラウドサーバであってもよいし、人工知能技術を有するスマートクラウドコンピューティングサーバまたはスマートクラウドホストであってもよい。

なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解すべきである。例えば、本開示に記載された各ステップは、本開示に開示された技術的解決方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応答して、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本開示の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

記述テキストサンプルと画像サンプルとを含むトレーニングサンプルからなるトレーニングサンプルセットを取得するステップと、
前記トレーニングサンプルセットから１つの記述テキストサンプルと１つの画像サンプルを選択することと、選択された記述テキストサンプルと予め決定されたテキストテンプレートに基づいて、テキスト方向ベクトルを確定することと、前記テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを取得することと、選択された画像サンプルと前記バイアスベクトルに基づいて、画像方向ベクトルを確定することと、前記テキスト方向ベクトルと前記画像方向ベクトルに基づいて損失値を計算することと、前記損失値が閾値条件を満たすことに応答して、前記画像編集モデルのトレーニングが完了したと判定することとを含むトレーニングステップを実行するステップと、
を含む画像編集モデルのトレーニング方法。
前記マッピングネットワークは、全結合層とマッピング層とを含み、
前記テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを取得することは、
前記テキスト方向ベクトルを前記マッピングネットワークの全結合層に入力して再構成方向ベクトルを得るステップと、
前記再構成方向ベクトルを前記マッピングネットワークのマッピング層に入力し、前記バイアスベクトルを得るステップと、
を含む請求項１に記載のトレーニング方法。
前記画像編集モデルは、画像変換ネットワークをさらに含み、
選択された画像サンプルと前記バイアスベクトルに基づいて、画像方向ベクトルを確定することは、
前記選択された画像サンプルと前記バイアスベクトルに基づいて、オリジナル画像および編集画像を生成するステップと、
前記オリジナル画像および前記編集画像をそれぞれ前記画像変換ネットワークに入力してオリジナル画像ベクトルおよび編集画像ベクトルを得るステップと、
前記オリジナル画像ベクトルと前記編集画像ベクトルに基づいて、前記画像方向ベクトルを計算するステップと、
含む請求項２に記載のトレーニング方法。
前記画像編集モデルは、ベクトル生成ネットワークと画像生成ネットワークとをさらに含み、
前記選択された画像サンプルと前記バイアスベクトルに基づいて、オリジナル画像および編集画像を生成するステップは、
前記選択された画像サンプルを前記ベクトル生成ネットワークに入力して、ベース画像ベクトルを得るステップと、
前記ベース画像ベクトルを前記画像生成ネットワークに入力して前記オリジナル画像を得るステップと、
前記ベース画像ベクトルと前記バイアスベクトルとを加算した後、前記画像生成ネットワークに入力して前記編集画像を得るステップと、
を含む請求項３に記載のトレーニング方法。
前記画像編集モデルは、テキスト変換ネットワークをさらに含み、
選択された記述テキストサンプルと予め決定されたテキストテンプレートに基づいて、テキスト方向ベクトルを確定することは、
前記選択された記述テキストサンプルと前記テキストテンプレートに基づいて、補足テキストサンプルを得るステップと、
前記テキストテンプレートおよび前記補足テキストサンプルをそれぞれ前記テキスト変換ネットワークに入力して、テンプレートテキストベクトルおよび補足テキストベクトルを得るステップと、
前記テンプレートテキストベクトルと補足テキストベクトルに基づいて、前記テキスト方向ベクトルを計算するステップと、
を含む請求項１～４のいずれか１項に記載のトレーニング方法。
編集すべき画像と記述テキストとを含む画像編集要求を受信するステップと、
前記記述テキストと前記編集すべき画像を画像編集モデルに入力して、前記記述テキストに対応する目標画像を生成するステップとを含み、
前記画像編集モデルは請求項１～５のいずれか１項に記載のトレーニング方法によりトレーニングされたものである、画像編集方法。
前記記述テキストと前記編集すべき画像を画像編集モデルに入力して、前記記述テキストに対応する目標画像を生成するステップは、
前記記述テキストと予め決定されたテキストテンプレートに基づいてテキスト方向ベクトルを確定するステップと、
前記テキスト方向ベクトルを前記画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを得るステップと、
前記編集すべき画像と前記バイアスベクトルに基づいて前記目標画像を生成するステップと、
を含む請求項６に記載の画像編集方法。
前記編集すべき画像と前記バイアスベクトルに基づいて前記目標画像を生成するステップは、
前記編集すべき画像を前記画像編集モデルのベクトル生成ネットワークに入力してベース画像ベクトルを得るステップと、
前記ベース画像ベクトルと前記バイアスベクトルとを加算した後、前記画像編集モデルの画像生成ネットワークに入力して前記目標画像を得るステップと、
を含む請求項７に記載の画像編集方法。
前記記述テキストと予め決定されたテキストテンプレートに基づいてテキスト方向ベクトルを確定するステップは、
前記記述テキストと前記テキストテンプレートに基づいて補足テキストを得るステップと、
前記テキストテンプレートと前記補足テキストをそれぞれ前記画像編集モデルのテキスト変換ネットワークに入力して、テンプレートテキストベクトルおよび補足テキストベクトルを得るステップと、
前記テンプレートテキストベクトルと補足テキストベクトルに基づいて、前記テキスト方向ベクトルを計算するステップと、
を含む請求項８に記載の画像編集方法。
記述テキストサンプルと画像サンプルとを含むトレーニングサンプルからなるトレーニングサンプルセットを取得するように構成される取得モジュールと、
前記トレーニングサンプルセットから１つの記述テキストサンプルと１つの画像サンプルを選択することと、選択された記述テキストサンプルと予め決定されたテキストテンプレートに基づいて、テキスト方向ベクトルを確定することと、前記テキスト方向ベクトルを画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを取得することと、選択された画像サンプルと前記バイアスベクトルに基づいて、画像方向ベクトルを確定することと、前記テキスト方向ベクトルと前記画像方向ベクトルに基づいて損失値を計算することと、前記損失値が閾値条件を満たすことに応答して、前記画像編集モデルのトレーニングが完了したと判定することとを含むトレーニングステップを実行するように構成されるトレーニングモジュールと、
を備える画像編集モデルのトレーニング装置。
前記マッピングネットワークは、全結合層とマッピング層とを含み、前記トレーニングモジュールは、
前記テキスト方向ベクトルを前記マッピングネットワークの全結合層に入力して再構成方向ベクトルを得るように構成される再構成サブモジュールと、
前記再構成方向ベクトルを前記マッピングネットワークのマッピング層に入力して前記バイアスベクトルを得るように構成されるマッピングサブモジュールと、
を備える請求項１０に記載のトレーニング装置。
前記画像編集モデルは、画像変換ネットワークをさらに含み、
前記トレーニングモジュールは、
選択された画像サンプルと前記バイアスベクトルに基づいて、オリジナル画像および編集画像を生成するように構成される第１の生成サブモジュールと、
前記オリジナル画像および前記編集画像をそれぞれ前記画像変換ネットワークに入力してオリジナル画像ベクトルおよび編集画像ベクトルを得るように構成される第２の生成サブモジュールと、
前記オリジナル画像ベクトルと前記編集画像ベクトルに基づいて前記画像方向ベクトルを計算するように構成される第１の計算サブモジュールと、
を備える請求項１１に記載のトレーニング装置。
前記画像編集モデルは、ベクトル生成ネットワークと画像生成ネットワークとをさらに含み、
前記第１の生成サブモジュールは、
前記選択された画像サンプルを前記ベクトル生成ネットワークに入力して、ベース画像ベクトルを得るように構成される第１の生成ユニットと、
前記ベース画像ベクトルを前記画像生成ネットワークに入力して前記オリジナル画像を得るように構成される第２の生成ユニットと、
前記ベース画像ベクトルと前記バイアスベクトルとを加算した後、前記画像生成ネットワークに入力して前記編集画像を得るように構成される第３の生成ユニットと、
を備える請求項１２に記載のトレーニング装置。
前記画像編集モデルは、テキスト変換ネットワークをさらに含み、
前記トレーニングモジュールは、
前記選択された記述テキストサンプルと前記テキストテンプレートに基づいて、補足テキストサンプルを得るように構成される第３の生成サブモジュールと、
前記テキストテンプレートおよび前記補足テキストサンプルをそれぞれ前記テキスト変換ネットワークに入力して、テンプレートテキストベクトルおよび補足テキストベクトルを得るように構成される第４の生成サブモジュールと、
前記テンプレートテキストベクトルと補足テキストベクトルに基づいて、前記テキスト方向ベクトルを計算するように構成される第２の計算サブモジュールと、
を備える請求項１０～１３のいずれか１項に記載のトレーニング装置。
編集すべき画像と記述テキストとを含む画像編集要求を受信するように構成される受信モジュールと、
前記記述テキストと前記編集すべき画像を画像編集モデルに入力して、前記記述テキストに対応する目標画像を生成するように構成される生成モジュールと、を備え、
前記画像編集モデルは請求項１０～１４のいずれか１項に記載のトレーニング装置によりトレーニングされたものである、画像編集装置。
前記生成モジュールは、
前記記述テキストと予め決定されたテキストテンプレートに基づいてテキスト方向ベクトルを確定するように構成される確定サブモジュールと、
前記テキスト方向ベクトルを前記画像編集モデルのマッピングネットワークに入力し、バイアスベクトルを得るように構成される第５の生成サブモジュールと、
前記編集すべき画像と前記バイアスベクトルに基づいて前記目標画像を生成するように構成される第６の生成サブモジュールと、
を備える請求項１５に記載の画像編集装置。
前記第６の生成サブモジュールは、
前記編集すべき画像を前記画像編集モデルのベクトル生成ネットワークに入力してベース画像ベクトルを得るように構成される第４の生成ユニットと、
前記ベース画像ベクトルと前記バイアスベクトルとを加算した後、前記画像編集モデルの画像生成ネットワークに入力して前記目標画像を得るように構成される第５の生成ユニットと、を備える請求項１６に記載の画像編集装置。
前記確定サブモジュールは、
前記記述テキストと前記テキストテンプレートに基づいて、補足テキストを得るように構成される第６の生成ユニットと、
前記テキストテンプレートと前記補足テキストをそれぞれ前記画像編集モデルのテキスト変換ネットワークに入力して、テンプレートテキストベクトルおよび補足テキストベクトルを得るように構成される第７の生成ユニットと、
前記テンプレートテキストベクトルと補足テキストベクトルに基づいて、前記テキスト方向ベクトルを計算するように構成される計算ユニットと、
を備える請求項１７に記載の画像編集装置。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されるメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な指令が格納され、前記指令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１～５のいずれか１項に記載のトレーニング方法または請求項６～９のいずれか１項に記載の画像編集方法を実行させる、電子機器。
コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項１～５のいずれか１項に記載のトレーニング方法または請求項６～９のいずれか１項に記載の画像編集方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１～５のいずれか１項に記載のトレーニング方法または請求項６～９のいずれか１項に記載の画像編集方法が実現されるコンピュータプログラム。