JP7224323B2 - Image generation system and image generation method using the same - Google Patents

Image generation system and image generation method using the same Download PDF

Info

Publication number
JP7224323B2
JP7224323B2 JP2020169539A JP2020169539A JP7224323B2 JP 7224323 B2 JP7224323 B2 JP 7224323B2 JP 2020169539 A JP2020169539 A JP 2020169539A JP 2020169539 A JP2020169539 A JP 2020169539A JP 7224323 B2 JP7224323 B2 JP 7224323B2
Authority
JP
Japan
Prior art keywords
image
style
reference image
domain
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020169539A
Other languages
Japanese (ja)
Other versions
JP2021190062A (en
Inventor
ユンジェ チェー
ヨンジョン ウ
ジョンウ ハ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2021190062A publication Critical patent/JP2021190062A/en
Application granted granted Critical
Publication of JP7224323B2 publication Critical patent/JP7224323B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/32Image data format

Description

特許法第30条第2項適用 2019年12月4日https://arxiv.org/abs/1912.01865のウェブサイトにて「Diverse Image Synthesis for Multiple Domains」について発表Application of Article 30, Paragraph 2 of the Patent Act December 4, 2019 https://arxiv. Published "Diverse Image Synthesis for Multiple Domains" on the website of org/abs/1912.01865

本発明は、イメージを生成するシステム及びこれを利用したイメージ生成方法に関する。 The present invention relates to an image generation system and an image generation method using the same.

イメージの一部特徴を他の特徴に変換したり、複数のイメージを互いに合成することにより、新しいイメージを生成するイメージ生成技術は、産業界において様々な目的に活用されているだけでなく、最近では、一般ユーザにも娯楽の要素として広く活用されている。 Image generation technology, which generates a new image by converting some features of an image into other features or synthesizing multiple images with each other, has been utilized for various purposes in the industrial world. Therefore, it is widely used by general users as an element of entertainment.

このようなイメージ生成技術は、人工知能の発達により、その生成技術が日々発展しており、実際に、人の目では区別が難しい程度の水準まで至った。 With the development of artificial intelligence, such image generation technology is developing day by day, and has actually reached a level where it is difficult for the human eye to distinguish between images.

特に、イメージ生成技術は、2014年にヨシュア・ベンジオ(Yoshua Bengio)教授の研究チームで考案された、敵対的生成ネットワーク(Generative Adversarial Network。略字:GAN)に基づいて飛躍的に発展した。 In particular, image generation technology has made rapid progress based on the Generative Adversarial Network (abbreviated as GAN) devised in 2014 by a research team led by Professor Yoshua Bengio.

敵対的生成ネットワーク(GAN)は、確率分布を学習する生成モデルと互いに異なる集合を区分する識別モデルとで構成される。このとき、イメージ生成モデル(または、生成子)は、ターゲットドメインを有する偽物イメージを作って識別モデルを最大限詐称して訓練するようになされる。そして、識別モデル(または、識別子)は、生成モデルが提示する偽物イメージと実際イメージとをターゲットドメインを基準に最大限正確に区分するように訓練される。 A generative adversarial network (GAN) consists of a generative model that learns probability distributions and a discriminative model that partitions different sets. At this time, the image generation model (or generator) is designed to create a fake image having the target domain and to train the discriminant model with maximum deception. Then, the discriminative model (or discriminator) is trained to classify the fake image presented by the generative model and the real image as accurately as possible based on the target domain.

このように、識別モデルを詐称するように生成モデルを訓練する方式を対立的プロセスという。このような敵対的生成ネットワークは、生成モデルと識別モデルとを対立的プロセスを介して発展させる過程であって、ターゲットドメインに対して実際イメージと極めて類似した類似イメージ、すなわち、偽物イメージを生成できるようになった。 This method of training a generative model to impersonate a discriminative model is called an adversarial process. Such a generative adversarial network is a process of developing a generative model and a discriminative model through an adversarial process, and can generate a similar image, that is, a fake image, which is very similar to the actual image for the target domain. It became so.

しかしながら、このような敵対的生成ネットワークにおいてイメージ生成モデル及び識別モデルは、ターゲットドメインを基準に学習されるので、ターゲットドメインが変更される場合、新しいイメージ生成モデル及び識別モデルを訓練しなければならないという限界を有する。 However, in such a generative adversarial network, the image generation model and the discriminant model are learned based on the target domain, so if the target domain is changed, new image generation models and discriminant models must be trained. have limits.

これにより、様々なターゲットドメインに対して柔軟に対処できるイメージ生成方法に対するニーズが依然として存在する。 Thus, there is still a need for an image generation method that can flexibly address different target domains.

本発明は、互いに異なるターゲットドメインに対応する様々なイメージを生成できるイメージ生成システム及びこれを利用したイメージ生成方法を提供するものである。 SUMMARY OF THE INVENTION The present invention provides an image generation system and an image generation method using the same that can generate various images corresponding to different target domains.

前述したような課題を解決するために、本発明に係るイメージ生成システムは、変換の対象になるソースイメージを受信するイメージ入力部と、基準イメージの外貌スタイルと関連したスタイルコードを入力するスタイルコード入力部と、前記スタイルコードを用いて、前記ソースイメージに前記基準イメージの外貌スタイルが反映された合成イメージを生成するイメージ生成部とを備えることができる。 To solve the above problems, the image generation system according to the present invention includes an image input unit for receiving a source image to be transformed, and a style code for inputting a style code related to the appearance style of a reference image. An input unit and an image generation unit for generating a composite image in which the appearance style of the reference image is reflected in the source image using the style code.

本発明に係るイメージ生成システムは、ドメインの特性を含むスタイルコードを用いて、スタイルコードに含まれたドメイン特性に該当するドメインを有するイメージを生成できる。 The image generation system according to the present invention can generate an image having a domain corresponding to the domain characteristics included in the style code using the style code including the characteristics of the domain.

本発明に係るイメージ生成システム及びこれを利用したイメージ生成方法を説明するための概念図である。1 is a conceptual diagram illustrating an image generation system and an image generation method using the same according to the present invention; FIG. 本発明に係るイメージ生成システム及びこれを利用したイメージ生成方法を説明するための概念図である。1 is a conceptual diagram illustrating an image generation system and an image generation method using the same according to the present invention; FIG. 本発明に係るイメージ生成方法を説明するためのフローチャートである。4 is a flow chart for explaining an image generation method according to the present invention; 本発明に係るマッピングネットワークを利用してスタイルコードを生成する方法を説明するための概念図である。FIG. 4 is a conceptual diagram for explaining a method of generating style codes using the mapping network according to the present invention; 本発明に係るマッピングネットワークを利用してスタイルコードを生成する方法を説明するための概念図である。FIG. 4 is a conceptual diagram for explaining a method of generating style codes using the mapping network according to the present invention; 本発明に係るマッピングネットワークを利用してスタイルコードを生成する方法を説明するための概念図である。FIG. 4 is a conceptual diagram for explaining a method of generating style codes using the mapping network according to the present invention; 本発明に係るスタイルエンコーダを用いてスタイルコードを生成する方法を説明するための概念図である。FIG. 4 is a conceptual diagram for explaining a method of generating style codes using a style encoder according to the present invention; 本発明に係るスタイルエンコーダを用いてスタイルコードを生成する方法を説明するための概念図である。FIG. 4 is a conceptual diagram for explaining a method of generating style codes using a style encoder according to the present invention; 本発明に係るイメージ生成システムを学習する方法を説明するための概念図である。1 is a conceptual diagram for explaining a method of learning an image generation system according to the present invention; FIG.

以下、添付された図面を参照して本明細書に開示された実施形態を詳細に説明するものの、図面符号に関係なく、同一であるか、類似した構成要素には同じ参照符号を付し、これについての重複する説明を省略する。以下の説明において使用される構成要素に対する接尾辞の「モジュール」及び「部」は、明細書作成の容易さだけが考慮されて付与されるか、混用されるものであって、それ自体で互いに区別される意味または役割を有するものではない。また、本明細書に開示された実施形態を説明するにあたって、関連した公知技術についての具体的な説明が本明細書に開示された実施形態の要旨を不明確にする恐れがあると判断される場合、その詳細な説明を省略する。また、添付された図面は、本明細書に開示された実施形態を容易に理解できるようにするためのものであり、添付された図面によって本明細書に開示された技術的思想が限定されず、本発明の思想及び技術範囲に含まれるあらゆる変更、均等物ないし代替物を含むことと理解されるべきである。 Hereinafter, the embodiments disclosed herein will be described in detail with reference to the accompanying drawings, wherein identical or similar components are denoted by the same reference numerals regardless of the drawing number, Duplicate explanations about this will be omitted. The suffixes "module" and "part" for components used in the following description are given or mixed only for ease of drafting the specification and are It has no distinct meaning or role. In addition, in describing the embodiments disclosed in this specification, it is determined that the specific description of related known technologies may obscure the gist of the embodiments disclosed in this specification. If so, detailed description thereof will be omitted. In addition, the attached drawings are provided to facilitate understanding of the embodiments disclosed herein, and the technical ideas disclosed herein are not limited by the attached drawings. , to include any modifications, equivalents or alternatives falling within the spirit and scope of the invention.

第1、第2などのように、序数を含む用語は、様々な構成要素を説明するのに使用され得るが、上記構成要素等は、前記用語等により限定されるものではない。前記用語等は、1つの構成要素を他の構成要素から区別する目的にのみ使用される。 Terms including ordinal numbers, such as first, second, etc., may be used to describe various components, but these components are not limited by such terms. The terms are only used to distinguish one element from another.

ある構成要素が他の構成要素に「連結されて」いるまたは「接続されて」いると言及されたときには、その他の構成要素に直接的に連結されているまたは接続されていることもできるが、中間に他の構成要素が存在することもできると理解されるべきであろう。それに対し、ある構成要素が他の構成要素に「直接連結されて」いるまたは「直接接続されて」いると言及されたときには、中間に他の構成要素が存在しないことと理解されるべきであろう。 When a component is referred to as being "coupled" or "connected" to another component, it can also be directly coupled or connected to the other component; It should be understood that there may be other components in between. In contrast, when a component is referred to as being "directly coupled" or "directly connected" to another component, it should be understood that there are no other components in between. deaf.

単数の表現は、文脈上明白に異なるように意味しない限り、複数の表現を含む。 Singular expressions include plural expressions unless the context clearly dictates otherwise.

本出願において、「含む」または「有する」などの用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、部品、またはこれらを組み合わせたものが存在することを指定しようとするものであり、1つまたは複数の他の特徴や数字、ステップ、動作、構成要素、部品、またはこれらを組み合わせたものの存在または付加可能性を予め排除しないことと理解されなければならない。 In this application, terms such as "including" or "having" are intended to specify the presence of the features, numbers, steps, acts, components, parts, or combinations thereof set forth in the specification. and does not preclude the possibility of the presence or addition of one or more other features, figures, steps, acts, components, parts, or combinations thereof.

一方、本発明は、互いに異なるターゲットドメインに対応する様々なイメージを生成できるイメージ生成システム及びこれを利用したイメージ生成方法を提供するものである。 Meanwhile, the present invention provides an image generation system capable of generating various images corresponding to different target domains and an image generation method using the same.

より具体的に、本発明は、単一のイメージ生成部を利用して、互いに異なるターゲットドメインに各々対応する互いに異なるイメージを生成できるイメージ生成システム及びこれを利用したイメージ生成方法を提供するものである。 More specifically, the present invention provides an image generation system and an image generation method using the same that can generate different images corresponding to different target domains using a single image generation unit. be.

さらに、本発明は、ターゲットドメインを基準に様々な外貌スタイルを有するイメージを生成できるイメージ生成システム及びこれを利用したイメージ生成方法を提供するものである。本発明は、イメージ生成システム及びこれを利用したイメージ生成方法に関するものであって、特に、本発明に係るイメージ生成システムは、「イメージトゥイメージ(image to image)変換(translation)」に基づいてイメージを生成できる。 Further, the present invention provides an image generation system and an image generation method using the same that can generate images having various appearance styles based on a target domain. More particularly, the present invention relates to an image generation system and an image generation method using the same, and more particularly, the image generation system according to the present invention generates an image based on "image to image translation". can generate

ここで、「イメージトゥイメージ変換」とは、与えられた入力イメージを基に新しいイメージを生成することを意味する。より具体的に、イメージトゥイメージ変換では、入力イメージの少なくとも一部分を変換することで、新しいイメージを生成することを意味できる。 Here, "image-to-image conversion" means generating a new image based on a given input image. More specifically, image-to-image transformation can mean generating a new image by transforming at least a portion of an input image.

本発明は、特に、「イメージトゥイメージ変換」を行うにあたって、単一の「イメージ生成部」だけで、様々なスタイル及びドメインに該当する新しいイメージを生成できるイメージ生成システムに関するものである。 More particularly, the present invention relates to an image generation system capable of generating new images for various styles and domains with only a single "image generator" in performing "image-to-image conversion".

このとき、イメージ生成部は、同じドメインに対する様々なスタイルのイメージを生成する、または、互いに異なるドメインに対する同じスタイルのイメージを生成できる。以下では、本発明に係るイメージ生成システムについて添付された図面とともにより具体的に説明する。図1及び図2は、本発明に係るイメージ生成システム及びこれを利用したイメージ生成方法を説明するための概念図であり、図3は、本発明に係るイメージ生成方法を説明するためのフローチャートである。 At this time, the image generator may generate images of various styles for the same domain, or may generate images of the same style for different domains. Hereinafter, the image generation system according to the present invention will be described in more detail with reference to the attached drawings. 1 and 2 are conceptual diagrams for explaining an image generation system and an image generation method using the same according to the present invention, and FIG. 3 is a flowchart for explaining the image generation method according to the present invention. be.

図1に示されたように、本発明に係るイメージ生成システム100は、生成部(generator、または、イメージ生成部、110)及びスタイルコード入力部120を備えるように構成されることができる(以下、説明の都合上、「生成部110」は「イメージ生成部110」と命名する)。さらに、イメージ生成システム100は、入力部130及び出力部140のうち、少なくとも1つをさらに備えることができる。 As shown in FIG. 1, an image generation system 100 according to the present invention can be configured to include a generator (generator or image generator 110) and a style code input unit 120 (hereinafter referred to as , for convenience of explanation, the "generator 110" is named "image generator 110"). In addition, the image generation system 100 may further include at least one of the input unit 130 and the output unit 140 .

イメージ生成部110は、入力部130を介して入力されるイメージを基にイメージを生成し、生成されたイメージは、出力部140を介して出力されることができる。 The image generator 110 may generate an image based on the image input through the input unit 130 and output the generated image through the output unit 140 .

本発明では、説明の都合上、イメージ生成部110に、イメージ生成のために入力されるイメージを「ソースイメージ(source image)」と命名する。 In the present invention, for convenience of explanation, an image input to the image generator 110 for image generation is called a 'source image'.

ここで、ソースイメージは、イメージ変換(または、イメージ生成)の基になるイメージを意味できる。イメージ生成部110は、ソースイメージを基に新しいイメージを生成できる。図1に示されたように、ソースイメージ100aは、入力部130を介してイメージ生成部110に入力されることができる。 Here, a source image can mean an image that is the basis of image transformation (or image generation). The image generator 110 can generate a new image based on the source image. As shown in FIG. 1, a source image 100a may be input to the image generator 110 through the input unit 130. The input unit 130 may be a source image.

さらに、本発明では、説明の都合上、イメージ生成部110により生成されたイメージを「合成イメージ(または、出力イメージ)」と命名する。図1に示されたように、合成イメージ200は、出力部140を介して出力されることができる。 Furthermore, in the present invention, for convenience of explanation, the image generated by the image generation unit 110 is named "composite image (or output image)". As shown in FIG. 1, the composite image 200 can be output through the output unit 140. FIG.

このように、イメージ生成部110は、入力部130を介して入力されるソースイメージ100aを基に、基準イメージ100bを用いて合成イメージ200を生成できる。 As such, the image generating unit 110 can generate the synthetic image 200 based on the source image 100a input through the input unit 130 and using the reference image 100b.

このとき、イメージ生成部110は、スタイルコード入力部120を介して入力されるスタイルコードを用いて合成イメージ200を生成できる。 At this time, the image generator 110 can generate the composite image 200 using the style code input through the style code input unit 120 .

図1に示されたように、ソースイメージ100aには、少なくとも1つのグラフィックオブジェクト(例えば、人のイメージ)が含まれ得る。イメージ生成部110は、このようなグラフィックオブジェクト(または、第1のグラフィックオブジェクト)に、スタイルコードによる外貌スタイルを反映して合成イメージ200を生成できる。 As shown in FIG. 1, source image 100a may include at least one graphical object (eg, an image of a person). The image generation unit 110 can generate the composite image 200 by reflecting the appearance style according to the style code on the graphic object (or the first graphic object).

本発明において、グラフィックオブジェクトは、人、動物、自動車、花、かばん、山などのように、事物に対するイメージと理解されることができる。 In the present invention, graphic objects can be understood as images of things, such as people, animals, cars, flowers, bags, mountains, and the like.

本明細書では、説明の都合上、ソースイメージ100aに含まれたグラフィックオブジェクトを「第1のグラフィックオブジェクト」と命名する。そして、合成イメージ200に含まれたグラフィックオブジェクトを「第3のグラフィックオブジェクト」と命名する。そして、基準イメージ100bに含まれたグラフィックオブジェクトを「第2のグラフィックオブジェクト」と命名する。さらに、第2のグラフィックオブジェクトは、基準イメージ100bに含まれたものだけでなく、ガウス分布から抽出されるノイズ情報によって特定されるオブジェクトを意味できる。このような、ガウス分布から抽出されるオブジェクトは、スタイルコードの抽出対象(または、スタイルコードを抽出するために参照される対象)とも表現することができる。 In this specification, for convenience of explanation, the graphic object contained in the source image 100a is named "first graphic object". A graphic object included in the composite image 200 is named a 'third graphic object'. A graphic object included in the reference image 100b is named a 'second graphic object'. Furthermore, the second graphic object can mean not only those contained in the reference image 100b, but also objects identified by noise information extracted from a Gaussian distribution. Such an object extracted from a Gaussian distribution can also be expressed as a style code extraction target (or a target referred to for style code extraction).

すなわち、第2のグラフィックオブジェクトは、基準イメージ(reference image)100bに含まれるか、または複数の基準イメージに対するデータ分布によるガウス分布の特定ノイズに対応することができる。 That is, the second graphical object may correspond to Gaussian-distributed specific noise contained in the reference image 100b or according to the data distribution for a plurality of reference images.

以下では、説明の都合上、ガウス分布の特定ノイズに対応する第2のグラフィックオブジェクトについて別に称さずに、全て「基準イメージ」と統一して説明する。 In the following, for convenience of explanation, the second graphic object corresponding to the specific noise of Gaussian distribution will not be specifically referred to, and will be uniformly explained as a "reference image".

すなわち、以下では、説明の都合上、第2のグラフィックオブジェクトと基準イメージとを同じ意味として説明する。したがって、以下において基準イメージは、ガウス分布により特定されるオブジェクトを意味することもできる。 That is, hereinafter, for convenience of explanation, the second graphic object and the reference image have the same meaning. Therefore, reference image in the following can also mean an object specified by a Gaussian distribution.

また、本明細書では、ソースイメージと第1のグラフィックオブジェクトとを互いに同じ意味として使用することができる。すなわち、ソースイメージの外貌スタイルは、つまり、第1のグラフィックオブジェクトの外貌スタイルを意味できる。 Also, the terms source image and first graphic object may be used interchangeably herein. That is, the appearance style of the source image can mean the appearance style of the first graphic object.

ここで、スタイルコードは、基準イメージ100bの外貌スタイルと関連することができる。「外貌スタイル」は、基準イメージ100bの視覚的な外観を定義できる要素であって、ヘアスタイル(または、頭髪スタイル)、性別など、様々な要素によって決定されることができる。 Here, the style code can be associated with the appearance style of the reference image 100b. The 'appearance style' is a factor that can define the visual appearance of the reference image 100b, and can be determined by various factors such as hairstyle (or hair style) and gender.

前述したように、基準イメージ100bは、ソースイメージ100aの外貌スタイルを変更するために参照される対象を意味できる。 As described above, the reference image 100b can represent an object that is referenced to change the appearance style of the source image 100a.

このように、イメージ生成部110は、ソースイメージ100aに、基準イメージの外貌スタイルに該当するスタイルコードを反映することにより、前記基準イメージの外貌スタイルが反映された合成イメージ200を生成できる。 As such, the image generating unit 110 can generate the synthesized image 200 reflecting the appearance style of the reference image by reflecting the style code corresponding to the appearance style of the reference image in the source image 100a.

本発明において、合成イメージ200を生成するとは、ソースイメージ100a、すなわち、第1のグラフィックオブジェクトの外貌スタイルを、基準イメージ100bの外貌スタイルを参照して変換(または、変更)することを意味できる。その結果、本発明では、第1のグラフィックオブジェクトの一部分が基準イメージの外貌スタイルに変換された合成イメージが生成され得る。 In the present invention, generating the composite image 200 can mean transforming (or changing) the appearance style of the source image 100a, ie, the first graphic object, with reference to the appearance style of the reference image 100b. As a result, the present invention can generate a composite image in which a portion of the first graphic object has been transformed to the appearance style of the reference image.

一方、本発明において、スタイルコードは、スタイル情報及びドメイン特性情報を含むことができる。このとき、スタイル情報は、ドメイン特性情報によるドメインと関連したスタイルに関する情報でありうる。 Meanwhile, in the present invention, the style code can include style information and domain property information. At this time, the style information may be information related to the style associated with the domain according to the domain characteristic information.

イメージ生成部110は、スタイルコードに含まれたスタイル情報及びドメイン特性情報に基づいて、ソースイメージ100a(より具体的には、ソースイメージ100aに含まれた第1のグラフィックオブジェクト)の外貌スタイルを変換することにより合成イメージ200を生成できる。このとき、イメージ生成部110は、合成イメージ200が、スタイルコードに含まれたドメイン特性情報に対応するドメインを有するように、前記ソースイメージ100aを基に合成イメージ200を生成できる。 The image generator 110 converts the appearance style of the source image 100a (more specifically, the first graphic object included in the source image 100a) based on the style information and domain characteristic information included in the style code. By doing so, a composite image 200 can be generated. At this time, the image generator 110 can generate the composite image 200 based on the source image 100a so that the composite image 200 has a domain corresponding to the domain characteristic information included in the style code.

その結果、合成イメージ200に含まれた第3のグラフィックオブジェクトは、第1のグラフィックオブジェクトに、前記スタイルコードに含まれたスタイル情報及びドメイン特性情報が反映されたグラフィックオブジェクトでありうる。すなわち、第3のグラフィックオブジェクトは、第1のグラフィックオブジェクトに第2のグラフィックオブジェクトの外貌スタイルが合成されたイメージでありうる。 As a result, the third graphic object included in the synthesized image 200 may be a graphic object in which the style information and domain characteristic information included in the style code are reflected in the first graphic object. That is, the third graphic object may be an image in which the appearance style of the second graphic object is combined with the first graphic object.

このように、本発明では、スタイル情報及びドメイン特性情報が含まれたスタイルコードを用いて、ソースイメージ100aを基にする合成イメージ200を生成できる。 As such, the present invention can generate the synthetic image 200 based on the source image 100a using the style code including the style information and the domain characteristic information.

すなわち、本発明に係るイメージ生成システム100は、ソースイメージ100aの特定ドメインを基準イメージ100bの特定ドメインに変更することにより合成イメージ200を生成できる。 That is, the image generating system 100 according to the present invention can generate the synthesized image 200 by changing the specific domain of the source image 100a to the specific domain of the reference image 100b.

スタイルコードは、図2に示されたように、それぞれの基準イメージ101b、102b、103b、104b、105b、106bに対するスタイル及びドメインに関する情報を含むことができる。 The style code can include information about the style and domain for each reference image 101b, 102b, 103b, 104b, 105b, 106b, as shown in FIG.

このとき、スタイルコードは、図2に示されたように、ベクトル(vector)形式を有するようになされることができる。さらに、スタイルコード入力部120は、このようなベクトル形式を有するスタイルコードを、適応インスタンス正規化(adaptive instance normalization)(AdaIN)を介してイメージ生成部110に入力することができる。 At this time, the style code may have a vector format as shown in FIG. Furthermore, the style code input unit 120 can input the style code having such a vector format to the image generator 110 through adaptive instance normalization (AdaIN).

上述したように、スタイルコードは、基準イメージ100bのスタイル及びドメインを特定するための、スタイル情報及びドメイン特性情報を含むことができる。以下では、本発明に対する理解を助けるために、スタイル情報、ドメイン、及びドメイン特性情報が有する意味について説明する。 As noted above, the style code may include style information and domain property information to identify the style and domain of the reference image 100b. In order to facilitate understanding of the present invention, the meanings of style information, domains, and domain property information will be described below.

まず、「スタイル情報」は、グラフィックオブジェクトが有する外貌スタイル、すなわち、視覚的特徴(または、視覚的外観)に関する情報を意味する。 First, 'style information' means information about the appearance style of a graphic object, that is, visual characteristics (or visual appearance).

ここで、視覚的特徴は、頭髪スタイルなどのように、目に見える外貌(appearance)と関連した特徴を意味できる。 Here, visual features may refer to features related to visible appearance, such as hairstyles.

このようなスタイル情報は、複数のカテゴリー(または、スタイルカテゴリー、属性(attribute)などと命名可能である)のうち、少なくとも1つのカテゴリーに対する特徴情報を含むことができる。 Such style information may include characteristic information for at least one category of a plurality of categories (or which may be named style categories, attributes, etc.).

ここで、カテゴリーまたは属性は、グラフィックオブジェクトが有する意味のある視覚的特徴を区分するための区分基準であると理解されることができる。また、カテゴリーは、グラフィックオブジェクトの外貌スタイルを定義するための要素であると理解されることができる。 Here, categories or attributes can be understood as classification criteria for classifying meaningful visual features of graphic objects. A category can also be understood as an element for defining the appearance style of a graphic object.

一方、カテゴリーに対する特徴情報は、グラフィックオブジェクトが当該カテゴリーにおいて「どのような視覚的特徴を有するか」をデータとして表現したことを意味できる。 On the other hand, feature information for a category can mean that "what kind of visual feature the graphic object has in the category" is expressed as data.

このとき、「カテゴリーに対する特徴情報」は、「属性値(attribute value)」とも命名されることができる。 At this time, the 'feature information for the category' may also be named 'attribute value'.

「カテゴリー(または、属性)」についてより具体的に説明すれば、グラフィックオブジェクトの外貌スタイル、すなわち、視覚的特徴を表現するためのカテゴリー(または、属性)の種類は非常に様々でありうる。 To be more specific about "categories (or attributes)", the types of categories (or attributes) for representing the appearance style, ie visual characteristics, of graphic objects can vary greatly.

例えば、性別、年齢、ヘアスタイル(頭髪スタイル)、ヘア色相(頭髪色相)、皮膚色相、メーキャップ(化粧)、ひげ、顔型、表情、メガネ、アクセサリー、眉毛形状、目形状、口唇形状、鼻形状、耳形状、人中形状などが全てそれぞれの個別カテゴリー(または、属性)と理解されることができる。 For example, gender, age, hairstyle (hair style), hair color (hair color), skin color, makeup (makeup), beard, face shape, expression, glasses, accessories, eyebrow shape, eye shape, lip shape, nose shape , ear shape, philtrum shape, etc. can all be understood as respective individual categories (or attributes).

スタイル情報は、カテゴリーに対する識別情報(カテゴリー種類、カテゴリーインデックス情報等)及び当該カテゴリーに対する特徴情報を全て含むことができる。 The style information may include both identification information for the category (category type, category index information, etc.) and feature information for the category.

例えば、カテゴリーに対する識別情報は、「ヘアスタイル」であり、カテゴリーに対する特徴情報は、「金髪ウェーブ」でありうる。 For example, the identification information for the category may be "hair style" and the feature information for the category may be "blond hair wave".

このように、スタイルコードは、グラフィックオブジェクトの外貌スタイルを定義できる様々なカテゴリーのうち、少なくとも1つのカテゴリーに関する情報(カテゴリーに対する識別情報及びカテゴリーに対する特徴情報のうち、少なくとも1つを含む)を含むスタイル情報を含むことができる。 Thus, the style code includes information about at least one category (including at least one of identification information for the category and characteristic information for the category) among the various categories that can define the appearance style of the graphic object. It can contain information.

例えば、図1に示された合成イメージ200のうち、第1の合成イメージ201及び第2の合成イメージ202を「ヘアスタイル」カテゴリー観点で説明する。この場合、第1の合成イメージ201は、ヘアスタイルカテゴリーに対して、第1の基準イメージ101bによる「黒色ウェーブ髪201a」に該当するカテゴリーに対する特徴情報、すなわち、スタイル情報を有することができる。そして、第2の合成イメージ202は、ヘアスタイルカテゴリーに対して、第2の基準イメージ102bに該当する「前髪がある金髪ウェーブ髪202a」によるカテゴリーに対する特徴情報、すなわち、スタイル情報を有することができる。 For example, of the synthetic images 200 shown in FIG. 1, the first synthetic image 201 and the second synthetic image 202 will be described in terms of the "hair style" category. In this case, the first synthetic image 201 may have feature information, ie, style information, for a category corresponding to 'black wavy hair 201a' according to the first reference image 101b for the hairstyle category. The second composite image 202 can have feature information, ie, style information, for the category of “blonde wavy hair with bangs 202a” corresponding to the second reference image 102b for the hairstyle category. .

このように、第1及び第2の合成イメージ201、202は、同じカテゴリー(例えば、「ヘアスタイル」カテゴリー)に対して互いに異なるスタイル情報を有することができる。 In this way, the first and second composite images 201, 202 can have different style information for the same category (eg, the "Hairstyles" category).

したがって、スタイルコードにどのカテゴリーのどのような特徴を有するスタイル情報が含まれるかによって合成イメージの外貌スタイルが変わることができる。 Therefore, the appearance style of the synthesized image can be changed according to which category and what feature of the style information is included in the style code.

したがって、本発明に係るイメージ生成部110は、ソースイメージ100aに対して、基準イメージ100bの外貌スタイルから抽出されたスタイル情報を含むスタイルコードを反映できる。これにより、イメージ生成部110は、基準イメージ100bの外貌スタイルを有する合成イメージ200を生成できる。 Therefore, the image generator 110 according to the present invention can reflect the style code including the style information extracted from the appearance style of the reference image 100b to the source image 100a. Accordingly, the image generator 110 can generate the synthetic image 200 having the appearance style of the reference image 100b.

このように、イメージ生成部110は、スタイルコードに含まれたスタイル情報に基づいて、ソースイメージ100aの少なくとも1つのカテゴリーに対する変換を行うことができる。 As such, the image generator 110 can transform at least one category of the source image 100a based on the style information included in the style code.

イメージ生成部110は、ソースイメージ(100a、または、第1のグラフィックオブジェクト)の外貌スタイルを定義するための複数のカテゴリーのうち、スタイル情報に含まれたカテゴリーと同一または対応するカテゴリーを基準に変換を行うことができる。 The image generator 110 converts the source image (100a or the first graphic object) based on a category that is the same as or corresponds to the category included in the style information among a plurality of categories for defining the appearance style of the source image (100a or the first graphic object). It can be performed.

ここで、ソースイメージ100aの特定カテゴリーに対して変換を行うとは、ソースイメージ100aの特定カテゴリーに対する特徴情報または属性値を変換することであって、このような特徴情報が変更される場合、当該カテゴリーに対する視覚的外観が変わるようになる。 Here, converting a specific category of the source image 100a means converting feature information or attribute values for a specific category of the source image 100a. The visual appearance for categories will change.

次に、ドメイン及びドメイン特性情報について説明する。 Next, domains and domain characteristic information will be described.

ドメイン(domain)は、前述した、イメージ(または、グラフィックオブジェクト)の外貌スタイルを区分する互いに異なる複数のカテゴリーのうち、基準になる少なくとも1つのカテゴリーに対する特徴情報(または、属性値)を意味できる。 A domain may mean feature information (or attribute values) for at least one category that is a reference among a plurality of different categories that classify appearance styles of images (or graphic objects).

ここで、「基準」は、イメージ変換の基準、イメージ分類の基準、またはイメージ区分の基準のように、様々な意味と受け入れられることができる。 Here, "criterion" can be taken to mean various things, such as an image transformation criterion, an image classification criterion, or an image segmentation criterion.

ドメイン(domain)は、互いに異なる複数のイメージが、「特定カテゴリーに対して互いに同じ属性値を有する」または「特定カテゴリーに対して互いに異なる共通属性値を有する」と表現するとき、「特定カテゴリーに対する属性値」がつまり、ドメインを意味できる。 When a plurality of different images "have the same attribute value for a specific category" or "have different common attribute values for a specific category", the domain is defined as " Attribute value" can mean domain.

例えば、複数のカテゴリーのうち、「性別」カテゴリーを基準にドメインを説明するとき、図2に示されたように、第1、第2、及び第3のイメージ201、202、203は、同じドメインを有する。そして、第4、第5、及び第6イメージ204、205、206も同じドメインを有する。しかし、第1、第2、及び第3のイメージ201、202、203のドメインは、第4、第5、及び第6のイメージ204、205、206のドメインと互いに異なることができる。すなわち、第1、第2、及び第3のイメージ201、202、203は、「女性」であり、第4、第5、及び第6のイメージ204、205、206のドメインは、「男性」である。このとき、「女性」または「男性」がつまり、ドメインを意味できる。 For example, when describing a domain based on the 'gender' category among a plurality of categories, as shown in FIG. have And the fourth, fifth and sixth images 204, 205, 206 also have the same domain. However, the domains of the first, second and third images 201, 202, 203 can be different from the domains of the fourth, fifth and sixth images 204, 205, 206. FIG. That is, the first, second and third images 201, 202, 203 are "female" and the domain of the fourth, fifth and sixth images 204, 205, 206 are "male". be. At this time, 'female' or 'male' can mean a domain.

このように、ドメインは、外貌スタイルと関連した様々なカテゴリーに対する属性値のうち、少なくとも1つであって、イメージの変換、イメージの分類、またはイメージの区分基準になる指標でありうる。 As such, the domain is at least one of attribute values for various categories related to the appearance style, and may be an image transformation, an image classification, or an index serving as an image classification criterion.

一方、スタイルコードに含まれたドメイン特性情報は、特定ドメイン(または、ターゲットドメイン)を表すデータであって、外貌スタイルを区分する特定カテゴリー(または、属性)及びこれに対する特徴情報(属性値)を含むことができる。 On the other hand, the domain characteristic information included in the style code is data representing a specific domain (or target domain), and includes a specific category (or attribute) that distinguishes the appearance style and characteristic information (attribute value) therefor. can contain.

一方、イメージ生成部110は、スタイルコードに含まれたドメイン特性情報に基づいて合成イメージ200のドメインを決定できる。 Meanwhile, the image generator 110 can determine the domain of the composite image 200 based on the domain property information included in the style code.

前記イメージ生成部110は、合成イメージ200がスタイルコードに含まれたドメイン特性情報によるドメインを有するようにソースイメージ100aを変換できる。 The image generator 110 can transform the source image 100a so that the composite image 200 has a domain according to the domain characteristic information included in the style code.

ここで、スタイルコードに含まれたドメイン特性情報は、基準イメージの特定ドメインに関する情報でありうる。すなわち、イメージ生成部110は、合成イメージ200が、基準イメージの特定ドメインと同じドメインを有するようにソースイメージ100aを変換できる。 Here, the domain characteristic information included in the style code may be information about a specific domain of the reference image. That is, the image generator 110 can transform the source image 100a so that the synthetic image 200 has the same domain as the specific domain of the reference image.

例えば、スタイルコードに第4、第5、及び第6の基準イメージ104b、105b、106bによる「男性」に該当する特定ドメインに対するドメイン特性情報が含まれた場合、イメージ生成部110により生成された第4、第5、及び第6のイメージ204、205、206は、「男性」ドメインを有することができる。 For example, when the style code includes domain characteristic information for a specific domain corresponding to 'male' according to the fourth, fifth, and sixth reference images 104b, 105b, and 106b, the first Fourth, fifth, and sixth images 204, 205, 206 may have a "male" domain.

このように、イメージ生成部110は、合成イメージ204、205、206が基準イメージ(例えば、第4、第5、及び第6の基準イメージ104b、105b、106b)の特定ドメイン(例えば、男性)を有するように、ソースイメージ100aに前記ドメイン特性情報を反映できる。 In this way, the image generator 110 ensures that the composite images 204, 205, 206 are specific domains (e.g., men) of the reference images (e.g., the fourth, fifth, and sixth reference images 104b, 105b, 106b). , the domain characteristic information can be reflected in the source image 100a.

このとき、イメージ生成部110は、ソースイメージ100aのドメインとスタイルコードに含まれたドメイン特性情報による特定ドメインとが異なる場合、これを考慮せずに合成イメージ200のドメインを決定できる。 At this time, if the domain of the source image 100a is different from the specific domain according to the domain characteristic information included in the style code, the image generator 110 can determine the domain of the composite image 200 without considering the difference.

すなわち、イメージ生成部110は、ソースイメージ100aの特定ドメインと基準イメージ100bの特定ドメインとが異なる場合、ソースイメージ100aの特定ドメインより、前記基準イメージ100bの特定ドメインを優先して、合成イメージ(または、第3のグラフィックオブジェクト)のドメインを決定できる。その結果、合成イメージ200は、基準イメージ100bの特定ドメインを有する。 That is, when the specific domain of the source image 100a and the specific domain of the reference image 100b are different, the image generation unit 110 preferentially prioritizes the specific domain of the reference image 100b over the specific domain of the source image 100a to generate a synthesized image (or , third graphic object) can be determined. As a result, composite image 200 has the specific domain of reference image 100b.

一方、イメージ生成部110は、スタイルコードに基づいてソースイメージ100aを変換する場合、ソースイメージ100aの外貌的正体性を決定する少なくとも1つの外貌特徴部分を基準に、残りの部分に対する外貌スタイルを変更できる。 On the other hand, when transforming the source image 100a based on the style code, the image generation unit 110 changes the appearance style for the rest of the source image 100a based on at least one appearance characteristic portion that determines the appearance identity of the source image 100a. can.

より具体的に、ソースイメージ100aは、前記ソースイメージ100aの外貌的正体性を決定する少なくとも1つの外貌特徴部分を含むことができる。イメージ生成部100aは、ソースイメージ100aの外貌特徴部分を除いた残りの部分を中心に、前記ソースイメージ100aに対して基準イメージ100bの外貌スタイルを反映できる。このとき、基準イメージ100bの外貌スタイルは、スタイルコードに含まれたドメイン特性情報に対応する基準イメージの特定ドメインを基準に定義された外貌スタイルを意味できる。 More specifically, the source image 100a may include at least one facial feature that determines the physical identity of the source image 100a. The image generator 100a can reflect the appearance style of the reference image 100b on the source image 100a, centering on the rest of the source image 100a except for the appearance characteristic portion. At this time, the appearance style of the reference image 100b may mean an appearance style defined based on a specific domain of the reference image corresponding to the domain characteristic information included in the style code.

ソースイメージ100a及び基準イメージ100bが人に対応する場合、前記ソースイメージ100aの前記外貌特徴部分は、人の目、鼻、及び口のうち、少なくとも1つに対応する部分でありうる。このとき、前記基準イメージ100bの外貌スタイルは、人の頭髪スタイル、ひげ、年齢、皮膚色、メーキャップのうち、少なくとも1つと関連したものでありうる。 When the source image 100a and the reference image 100b correspond to a person, the feature portion of the source image 100a may be a portion corresponding to at least one of the person's eyes, nose, and mouth. At this time, the appearance style of the reference image 100b may be associated with at least one of a person's hair style, beard, age, skin color, and makeup.

一方、前記ソースイメージ100aの外貌的正体性を決定する要素は様々でありうるし、イメージ生成部110は、合成イメージ200の合成目的によって、外貌的正体性を決定する要素を異なるように決定することができる。 On the other hand, there may be various factors that determine the appearance identity of the source image 100a, and the image generator 110 may determine the factors that determine the appearance identity differently according to the purpose of synthesizing the composite image 200. can be done.

イメージ生成部110において、どの部分を外貌的正体性と決定するか否かは、予め入力された情報に基づいて決定されることも可能である。 In the image generator 110, it is also possible to determine which part is to be determined as the appearance authenticity based on pre-input information.

例えば、合成イメージ200の目的が特定人物に対する様々な頭髪スタイルの変化を表すことであるならば、このとき、外貌的正体性を表す外貌特徴部分は、特定人物の目、鼻、口、顔型などに対応する部分でありうる。 For example, if the purpose of the composite image 200 is to represent various hair style changes for a specific person, then the facial features representing the physical identity are the specific person's eyes, nose, mouth, and facial features. and so on.

その結果、図1に示されたように、イメージ生成部110は、ソースイメージ100aの外貌的正体性に該当する外貌特徴部分を除いた残りの部分を中心に、前記ソースイメージ100aに対して基準イメージ100bの外貌スタイル(例えば、ヘアスタイル)を反映できる。その結果、ソースイメージ100aの外貌的正体性を維持しながら、基準イメージ100bの外貌スタイルを有する合成イメージ200が生成され得る。 As a result, as shown in FIG. 1, the image generating unit 110 generates a reference image for the source image 100a, focusing on the rest of the source image 100a except for the appearance characteristic portion corresponding to the appearance authenticity of the source image 100a. The appearance style (eg, hairstyle) of the image 100b can be reflected. As a result, a composite image 200 can be generated that has the appearance style of the reference image 100b while maintaining the appearance identity of the source image 100a.

一方、ここで、外貌的正体性は、ソースイメージ100aに含まれたグラフィックオブジェクトのポーズ(pose)または姿勢を含むことができる。 Meanwhile, here, the physical identity may include poses or postures of graphic objects included in the source image 100a.

すなわち、イメージ生成部110は、ソースイメージ100aに含まれたグラフィックオブジェクトのポーズと同じポーズを有するグラフィックオブジェクトが含まれるように合成イメージ200を生成できる。 That is, the image generator 110 may generate the composite image 200 so as to include graphic objects having the same poses as those of the graphic objects included in the source image 100a.

このように、本発明に係るイメージ生成システム100は、入力部110を介してソースイメージを受信し(S310)、スタイルコード入力部120を介して外貌スタイルと関連したスタイルコードを受信する(S320)。そして、受信されたスタイルコードを用いて、スタイルコードに対応する外貌スタイルが反映されたイメージを生成できる(S330)。 As described above, the image generation system 100 according to the present invention receives the source image through the input unit 110 (S310), and receives the style code associated with the appearance style through the style code input unit 120 (S320). . Using the received style code, an image reflecting the appearance style corresponding to the style code can be generated (S330).

以上で説明したように、本発明に係るイメージ生成システム100は、イメージ生成部110にドメインの特性情報を含むスタイルコードに基づいて合成イメージを生成できる。 As described above, the image generation system 100 according to the present invention can generate a composite image based on the style code including the domain characteristic information in the image generation unit 110 .

以下では、スタイルコードを生成する方法について添付された図面とともにより具体的に説明する。図4、図5、及び図6は、本発明に係るマッピングネットワークを利用してスタイルコードを生成する方法を説明するための概念図である。 Hereinafter, a method for generating the style code will be described in more detail with attached drawings. 4, 5, and 6 are conceptual diagrams for explaining a method of generating style codes using a mapping network according to the present invention.

前述したように、本発明に係るイメージ生成部110は、スタイルコード入力部120を介して入力されるスタイルコードにより、ソースイメージ100aにおいてどのドメインを基準にイメージを変換するかを決定できる。 As described above, the image generation unit 110 according to the present invention can determine which domain in the source image 100a is to be transformed based on the style code input through the style code input unit 120. FIG.

すなわち、スタイルコードは、特定ドメイン(または、ターゲットドメイン)に対するドメイン特性情報及び前記特定ドメインを基準に抽出されたスタイル情報を含むことができる。一方、スタイルコードに含まれたドメイン特性情報に基づいて、ソースイメージ100aの変換対象ターゲットドメインが決定される。 That is, the style code may include domain characteristic information for a specific domain (or target domain) and style information extracted based on the specific domain. On the other hand, the target domain to be transformed of the source image 100a is determined based on the domain characteristic information included in the style code.

このようなスタイルコードは、図4に示されたマッピングネットワーク400から抽出されることができる。イメージ生成部110は、マッピングネットワーク400から抽出されたスタイルコードを用いて、ソースイメージの特定ドメインを、スタイルコードに含まれたドメイン特性情報による特定ドメイン(または、ターゲットドメイン)に変換することができる。 Such style codes can be extracted from the mapping network 400 shown in FIG. The image generator 110 can transform a specific domain of the source image into a specific domain (or target domain) according to the domain characteristic information included in the style code using the style code extracted from the mapping network 400. .

より具体的に、図4に示されたように、マッピングネットワーク400は、マッピングネットワーク部410、入力部420、及び出力部430のうち、少なくとも1つを備えることができる。 More specifically, as shown in FIG. 4, the mapping network 400 may include at least one of a mapping network unit 410, an input unit 420, and an output unit 430. FIG.

マッピングネットワーク部410は、ガウス分布400aからノイズ情報(z1ないしz7)を抽出し、抽出されたノイズ情報を利用してスタイルコードを生成できる。 The mapping network unit 410 can extract noise information (z1 to z7) from the Gaussian distribution 400a and generate a style code using the extracted noise information.

このようなノイズ情報は、潜在コード(latent code)とも命名されることができる。 Such noise information can also be named latent code.

マッピングネットワーク部410は、ガウス分布400aからランダムにサンプリングを行うことにより、様々なドメイン及び様々なスタイルを有する様々なスタイルコードを生成できる。 Mapping network unit 410 can generate different style codes with different domains and different styles by randomly sampling from Gaussian distribution 400a.

マッピングネットワーク部410は、このようなガウス分布400aからサンプリングを行ってノイズ情報(潜在コードまたはノイズ)を抽出できる。このように抽出されたノイズ情報は、特定ドメインに対するスタイル情報になることができる。 The mapping network unit 410 can extract noise information (latent code or noise) by sampling from such a Gaussian distribution 400a. The noise information extracted in this way can be style information for a specific domain.

マッピングネットワーク部410は、スタイルコードに反映しようとする特定ドメインの情報とガウス分布400aから抽出された特定ノイズ情報とを組み合わせることができる。そして、マッピングネットワーク部410は、前記組み合わせに基づいて、特定ドメインに対する特性情報及び前記抽出された特定ノイズ情報に対応するスタイル情報を含むスタイルコードを生成できる。 The mapping network unit 410 can combine specific domain information to be reflected in the style code and specific noise information extracted from the Gaussian distribution 400a. Based on the combination, the mapping network unit 410 may generate a style code including characteristic information for a specific domain and style information corresponding to the extracted specific noise information.

このとき、ガウス分布400aは、複数のイメージに対するものであって、複数のイメージに対するデータセット(data set)の確率分布でありうる。 At this time, the Gaussian distribution 400a is for a plurality of images and may be a probability distribution of a data set for the plurality of images.

前述したように、マッピングネットワーク部410は、ノイズ情報からスタイルコードを変換するとき、変換されたスタイルコードにドメインの情報が含まれるようにスタイルコードを生成できる。 As described above, when the mapping network unit 410 transforms the style code from the noise information, the style code can be generated such that the transformed style code includes the domain information.

例えば、図5に示されたように、ガウス分布400aから特定ノイズ情報z1が抽出された場合、当該ノイズ情報z1がどのドメインに対することであるかによって、互いに異なるスタイルコードが生成され得る。 For example, as shown in FIG. 5, when specific noise information z1 is extracted from the Gaussian distribution 400a, different style codes may be generated depending on which domain the noise information z1 corresponds to.

すなわち、マッピングネットワーク部400は、ガウス分布400aから同一ノイズ情報が抽出されても、基準になるドメインによって、互いに異なるスタイルコードを生成できる。 That is, the mapping network unit 400 can generate different style codes according to the reference domain even if the same noise information is extracted from the Gaussian distribution 400a.

このために、マッピングネットワーク部400は、互いに異なるドメインに対するスタイルコードを出力するための複数の出力分岐があるMLP(multilayer perceptron)(MLP with multiple output branches)で構成されることができる。このような、同じノイズ情報に対して互いに異なるスタイルコードが生成され得る。この場合、互いに異なるスタイルコードは、各々互いに異なるターゲットドメインに対応することができる。 To this end, the mapping network unit 400 may be configured with a multilayer perceptron (MLP with multiple output branches) having a plurality of output branches for outputting style codes for different domains. Different style codes can be generated for the same noise information. In this case, different style codes may correspond to different target domains.

より具体的に、図5において特定ノイズ情報z1は、図1及び図2において説明した基準イメージ101bを表すためのデータを含むことができる。 More specifically, the specific noise information z1 in FIG. 5 can include data representing the reference image 101b described in FIGS.

マッピングネットワーク部410は、基準イメージ101bに対応するノイズ情報zからスタイルコードを生成できる。この場合、マッピングネットワーク部410は、互いに異なる様々なドメインを基準にスタイルコードを生成できる。すなわち、マッピングネットワーク部400は、特定ドメインを基準に互いに異なるスタイルコードを生成できる。 The mapping network unit 410 can generate a style code from the noise information z corresponding to the reference image 101b. In this case, the mapping network unit 410 can generate style codes based on different domains. That is, the mapping network unit 400 can generate different style codes based on a specific domain.

例えば、図5に示されたように、スタイルコードに含まれる特定ドメイン(ターゲットドメイン)の基準が「性別」である場合、マッピングネットワーク部410は、基準イメージ101bの性別(例えば、「女性」)がドメイン特性情報として含まれるようにスタイルコードを生成できる。 For example, as shown in FIG. 5, when the criterion of the specific domain (target domain) included in the style code is "gender", the mapping network unit 410 maps the gender (for example, "female") of the reference image 101b. You can generate style code so that is included as domain property information.

このとき、マッピングネットワーク部410は、ノイズ情報zから前記特定ドメインが有する特徴(例えば、「女性」の特徴:長髪、化粧)を中心にスタイル情報を抽出できる。 At this time, the mapping network unit 410 can extract style information based on the features of the specific domain (for example, features of 'female': long hair, makeup) from the noise information z.

さらに他の例として、図5に示されたように、スタイルコードに含まれる特定ドメイン(ターゲットドメイン)の基準が「年齢」である場合、マッピングネットワーク部410は、基準イメージ101bの年齢(例えば、「若者」)がドメイン特性情報として含まれるようにスタイルコードを生成できる。 As yet another example, as shown in FIG. 5, when the criterion of the specific domain (target domain) included in the style code is "age", the mapping network unit 410 may map the age of the reference image 101b (e.g., "youth") can be generated to include the domain attribute information.

このとき、マッピングネットワーク部410は、ノイズ情報zから前記特定ドメインが有する特徴(例えば、「若い女性」の特徴:滑らかな皮膚、化粧)を中心にスタイル情報を抽出できる。 At this time, the mapping network unit 410 can extract style information based on features of the specific domain (for example, features of 'young woman': smooth skin and makeup) from the noise information z.

また、図示したように、マッピングネットワーク部410は、ヘアカラー、皮膚カラー、ヘアスタイル、顔型など、様々なターゲットドメインを基準に、ノイズ情報zからスタイル情報を抽出できる。 Also, as illustrated, the mapping network unit 410 can extract style information from the noise information z based on various target domains such as hair color, skin color, hairstyle, and face shape.

一方、本発明において、「ターゲットドメインを基準にスタイル情報を抽出する」とは、ノイズ情報zから、ターゲットドメインと関連した特徴(例えば、ターゲットドメインが女性である場合、長髪、化粧)と関連した外貌的な特徴を有するスタイル情報を抽出することを意味できる。 On the other hand, in the present invention, ``extracting style information based on the target domain'' means that, from the noise information z, features associated with the target domain (for example, if the target domain is female, long hair, makeup) It can mean extracting style information with appearance features.

このように、本発明に係るマッピングネットワーク部410は、複数の基準イメージに対するガウス分布から基準イメージ101bに対応するノイズ情報zを抽出し、前記抽出されたノイズ情報zを利用して、基準イメージ101bの外貌スタイルと関連したスタイルコードを生成できる。 As described above, the mapping network unit 410 according to the present invention extracts the noise information z corresponding to the reference image 101b from the Gaussian distribution for a plurality of reference images, and uses the extracted noise information z to obtain the reference image 101b. can generate the style code associated with the appearance style of

前述したように、マッピングネットワーク部410は、前記ノイズ情報に前記第2のグラフィックオブジェクトの外貌スタイルに基づいて分類可能な複数のドメインのうち、いずれか1つのドメイン(または、ターゲットドメイン、特定ドメイン)を基準にスタイルコードを生成できる。したがって、スタイルコードは、前記いずれか1つのドメイン(ターゲットドメイン)によるドメイン特性情報が反映されて存在することができる。 As described above, the mapping network unit 410 classifies the noise information into one of a plurality of domains (or a target domain or a specific domain) that can be classified based on the appearance style of the second graphic object. You can generate style code based on . Therefore, the style code can exist by reflecting the domain characteristic information according to one of the domains (target domain).

一方、図5に示されたように、スタイルコードは、ドメインを基準に互いに異なるスケール(scale)を有するベクトルで構成されることができる。 On the other hand, as shown in FIG. 5, the style code may consist of vectors having different scales based on the domain.

例え、図示されてはいないが、マッピングネットワーク400は、学習部をさらに備えることができる。マッピングネットワーク400の学習部は、抽出されたノイズ情報をスタイルコードに変換する学習を行うことができる。 For example, although not shown, mapping network 400 may further include a learning unit. The learning unit of the mapping network 400 can learn to convert the extracted noise information into style codes.

より具体的に、学習部は、抽出されたノイズ情報から、与えられた特定ドメインに対応するスタイル情報が抽出されるようにする学習を行うことができる。 More specifically, the learning unit can perform learning to extract style information corresponding to a given specific domain from the extracted noise information.

このような学習を介して、マッピングネットワーク部410は、ノイズ情報から前記特定ドメインが有する特徴(例えば、「女性」の特徴)をより正確に反映されるようにするスタイル情報を抽出できる。 Through such learning, the mapping network unit 410 can extract style information that more accurately reflects the features of the specific domain (for example, the features of 'female') from the noise information.

すなわち、学習部は、マッピングネットワーク部410が、ノイズ情報から特定ドメイン(ターゲットドメイン)に対してありそうな(確率が高い)スタイル情報を抽出させる学習を進行できる。マッピングネットワーク部410は、特定ドメインに対してありそうなスタイル情報を含むスタイルコードを生成することにより、ソースイメージをより実際に近く変換することができる。 That is, the learning unit can perform learning for the mapping network unit 410 to extract style information likely (high probability) for a specific domain (target domain) from noise information. The mapping network unit 410 can more realistically transform the source image by generating style codes that contain likely style information for a particular domain.

例えば、ターゲットドメインが女性である場合、初期にマッピングネットワーク部410から抽出されたスタイルコードに「ひげ」に対するスタイル情報が含まれた場合、学習を介して、「ひげ」に対するスタイル情報が除外され得る。 For example, when the target domain is female, if the style code initially extracted from the mapping network unit 410 includes style information for 'beard', the style information for 'beard' may be excluded through learning. .

一方、マッピングネットワーク400は、ガウス分布内に存在するノイズ情報に基づいてスタイルコードを生成するので、連続する隣接したノイズ情報は、類似したスタイル情報を含むことができる。 On the other hand, because the mapping network 400 generates style codes based on noise information present within a Gaussian distribution, consecutive adjacent noise information can contain similar style information.

したがって、図1において説明したソースイメージ100aに対し、ターゲットドメインを「女性」としてイメージ変換を行う場合、図5において説明した特定ノイズ情報z及びこれと隣接したノイズ情報に基づいて生成されたスタイルコードにより合成されたイメージ610、620、630、640、660は、図6に示されたように、隣り合った合成イメージと互いに類似した外貌スタイルを有することができる。 Therefore, when the source image 100a described in FIG. 1 is subjected to image transformation with the target domain as "female", the style code generated based on the specific noise information z described in FIG. Images 610, 620, 630, 640, and 660 synthesized by may have appearance styles similar to adjacent synthesized images, as shown in FIG.

以上で説明したように、本発明に係るマッピングネットワークシステムは、ノイズ情報から様々なドメインに対するスタイルコードを生成できる。さらに、イメージ生成部110は、このようなスタイルコードを用いて、ソースイメージに対する様々なドメインの変更を行いながら、様々なスタイルを有する合成イメージを生成できる。 As explained above, the mapping network system according to the present invention can generate style codes for various domains from noise information. In addition, the image generator 110 can use such style codes to generate composite images with different styles while making different domain changes to the source image.

一方、以上では、マッピングネットワークシステムを利用してスタイルコードを生成する方法について説明したが、本発明では、スタイルエンコーダを用いて、スタイルコードを生成することも可能である。以下では、スタイルエンコーダを活用してスタイルコードを生成する方法について添付された図面とともにより具体的に説明する。図7及び図8は、本発明に係るスタイルエンコーダを用いてスタイルコードを生成する方法を説明するための概念図である。 On the other hand, although the method of generating the style code using the mapping network system has been described above, the style encoder can also be used to generate the style code in the present invention. Hereinafter, a method of generating a style code using a style encoder will be described in more detail with attached drawings. 7 and 8 are conceptual diagrams for explaining a method of generating style codes using the style encoder according to the present invention.

前述したように、本発明に係るイメージ生成部110は、スタイルコード入力部120を介して入力されるスタイルコードを介して、ソースイメージ100aでどのドメインを基準にイメージを変換するかを決定できる。 As described above, the image generating unit 110 according to the present invention can determine which domain of the source image 100a is to be transformed based on the style code input through the style code input unit 120. FIG.

すなわち、スタイルコードは、特定ドメイン(または、ターゲットドメイン)に対するドメイン特性情報及び前記特定ドメインを基準に抽出されたスタイル情報を含むことができる。一方、スタイルコードに含まれたドメイン特性情報に基づいてソースイメージ100aの変換対象ターゲットドメインが決定される。 That is, the style code may include domain characteristic information for a specific domain (or target domain) and style information extracted based on the specific domain. Meanwhile, the target domain to be transformed of the source image 100a is determined based on the domain characteristic information included in the style code.

このようなスタイルコードは、図7に示されたスタイルエンコーダシステム700から抽出されることができる。イメージ生成部110は、スタイルエンコーダシステム700から抽出されたスタイルコードを用いて、ソースイメージの特定ドメインを、スタイルコードに含まれたドメイン特性情報による特定ドメイン(または、ターゲットドメイン)に変換することができる。 Such style code can be extracted from the style encoder system 700 shown in FIG. The image generator 110 can convert a specific domain of the source image into a specific domain (or target domain) according to the domain characteristic information included in the style code using the style code extracted from the style encoder system 700. can.

より具体的に、図7に示されたように、スタイルエンコーダシステム700は、スタイルエンコーダ710、入力部720、及び出力部730のうち、少なくとも1つを備えることができる。 More specifically, the style encoder system 700 may include at least one of a style encoder 710, an input unit 720, and an output unit 730, as shown in FIG.

スタイルエンコーダ710は、入力部720を介して入力される基準イメージ(701ないし703)から特定ドメイン(または、ターゲットドメイン)を基準にスタイル情報を抽出できる。そして、スタイルエンコーダ部710は、抽出されたスタイル情報及び特定ドメインに対するドメイン特性情報を利用してスタイルコードを生成できる。 The style encoder 710 can extract style information based on a specific domain (or target domain) from the reference images 701 to 703 input through the input unit 720 . Also, the style encoder unit 710 may generate a style code using the extracted style information and the domain characteristic information for the specific domain.

スタイルエンコーダ710は、基準イメージ101b(図7の図面符号701ないし706参照)から、基準イメージ101bの外貌スタイルと関連したスタイル情報を抽出できる。 The style encoder 710 can extract style information related to the appearance style of the reference image 101b from the reference image 101b (see reference numerals 701 to 706 in FIG. 7).

このとき、スタイルエンコーダ710は、基準イメージから、前記基準イメージ101bの外貌スタイルを基に分類可能な複数のドメインのうち、いずれか1つのドメインを基準に前記スタイル情報を抽出できる。ここで、いずれか1つのドメインは、特定ドメインまたはターゲットドメインと命名されることができる。 At this time, the style encoder 710 may extract the style information from the reference image based on one of a plurality of domains that can be classified based on the appearance style of the reference image 101b. Here, any one domain can be named a specific domain or a target domain.

図8に示された基準イメージ701を例を挙げて説明すれば、スタイルエンコーダ710は、基準イメージ701から、基準イメージ701の外貌スタイルを基に分類可能な複数のドメイン(例えば、女性、黒色の長髪、白色皮膚など)のうち、いずれか少なくとも1つのドメイン(例えば、女性)を基準にスタイル情報を抽出できる。 Using the reference image 701 shown in FIG. 8 as an example, the style encoder 710 extracts from the reference image 701 a plurality of domains (e.g., female, black, and black) that can be classified based on the appearance style of the reference image 701 . Style information can be extracted based on at least one domain (for example, female) among long hair, white skin, etc.).

ここで、基準になるドメインは、前述したように、ターゲットドメインと命名されることができる。スタイルエンコーダ710は、基準イメージ701から互いに異なるターゲットドメインに各々該当するスタイル情報を抽出し、これを利用してスタイルコードを生成できる。 Here, the reference domain can be named the target domain as described above. The style encoder 710 may extract style information corresponding to different target domains from the reference image 701 and generate style codes using the extracted style information.

例えば、図8に示されたように、スタイルコードに含まれる特定ドメイン(ターゲットドメイン)の基準が「性別」である場合、スタイルエンコーダ710は、基準イメージ701の性別(例えば、「女性」)がドメイン特性情報として含まれるようにスタイルコードを生成できる。 For example, as shown in FIG. 8, if the criteria for the specific domain (target domain) included in the style code is 'gender', the style encoder 710 determines that the gender (e.g., 'female') of the reference image 701 is Style code can be generated to be included as domain property information.

このとき、スタイルエンコーダ710は、基準イメージ701から前記特定ドメインが有する特徴(例えば、「女性」の特徴:長髪、化粧)を中心にスタイル情報を抽出できる。 At this time, the style encoder 710 can extract style information from the reference image 701 based on features of the specific domain (e.g., features of 'female': long hair, makeup).

さらに他の例として、図8に示されたように、スタイルコードに含まれる特定ドメイン(ターゲットドメイン)の基準が「年齢」である場合、スタイルエンコーダ710は、基準イメージ701の年齢(例えば、「若者」)がドメイン特性情報として含まれるようにスタイルコードを生成できる。 As yet another example, as shown in FIG. 8, if the criteria for the specific domain (target domain) included in the style code is "age", the style encoder 710 may determine the age of the reference image 701 (e.g., " Youth") can be generated to include the style code as domain property information.

このとき、スタイルエンコーダ710は、基準イメージ701から前記特定ドメインが有する特徴(例えば、「若い女性」の特徴:滑らかな皮膚、化粧)を中心にスタイル情報を抽出できる。 At this time, the style encoder 710 can extract style information from the reference image 701 based on features of the specific domain (for example, features of 'young woman': smooth skin, makeup).

また、図示したように、スタイルエンコーダ710は、ヘアカラー、皮膚カラー、ヘアスタイル、顔型など、様々なターゲットドメインを基準に、基準イメージ701からスタイル情報を抽出できる。 Also, as shown, the style encoder 710 can extract style information from the reference image 701 with reference to various target domains, such as hair color, skin color, hairstyle, face shape, and the like.

そして、このように抽出されたスタイル情報は、基準になるターゲットドメインに該当するドメイン特性情報を含んで、互いに異なるスタイルコードとして生成されることができる。 The style information thus extracted can be generated as different style codes including domain characteristic information corresponding to a target domain serving as a reference.

前述したように、スタイルエンコーダ710は、基準イメージ701の外貌スタイルを基に分類可能な複数のドメイン(例えば、性別、頭髪スタイル等)のうち、いずれか1つのドメイン(または、ターゲットドメイン、特定ドメイン)を基準にスタイルコードを生成できる。したがって、スタイルコードは、前記いずれか1つのドメイン(ターゲットドメイン)によるドメイン特性情報が反映されて存在することができる。一方、図8に示されたように、スタイルコードは、ドメインを基準に互いに異なるスケール(scale)のベクトルで構成されることができる。 As described above, the style encoder 710 selects one of a plurality of domains (e.g., gender, hair style, etc.) that can be classified based on the appearance style of the reference image 701 (or a target domain, a specific domain, etc.). ) can be used to generate style code. Therefore, the style code can exist by reflecting the domain characteristic information according to one of the domains (target domain). On the other hand, as shown in FIG. 8, the style code may consist of vectors with different scales based on the domain.

以上で説明したように、本発明に係るイメージ生成システムのイメージ生成部は、マッピングネットワークまたはスタイルエンコーダシステムを介して生成されたスタイルコードを用いて、ソースイメージの特定ドメインを基準イメージのターゲットドメインに変更することができる。 As described above, the image generation unit of the image generation system according to the present invention uses the style code generated through the mapping network or style encoder system to map the specific domain of the source image to the target domain of the reference image. can be changed.

一方、本発明に係るイメージ生成システムは、学習を介してイメージ生成の性能を高めることができ、以下では、学習過程について添付された図面とともにより具体的に説明する。図9は、本発明に係るイメージ生成システムを学習する方法を説明するための概念図である。 Meanwhile, the image generation system according to the present invention can improve the performance of image generation through learning. Hereinafter, the learning process will be described in detail with reference to the accompanying drawings. FIG. 9 is a conceptual diagram for explaining a method of learning an image generation system according to the present invention.

本発明では、様々な学習アルゴリズムを利用して、イメージ生成システムを学習させることが可能である。イメージ生成部(110、図1参照)は、スタイルコードによるターゲットドメインと区分されない合成イメージを作るようにする学習が進行される。 Various learning algorithms can be used in the present invention to train the image generation system. The image generator (110, see FIG. 1) is trained to create a synthetic image that is not classified with the target domain according to the style code.

例えば、図示されてはいないが、本発明に係るイメージ生成システム100は、学習部をおき、様々な学習アルゴリズムを利用してイメージ生成部110に対する学習を行うことができる。イメージ生成部110は、スタイルコードにより定義されるターゲットドメイン(例えば、黒髪)と、さらに類似または同一の合成イメージを生成するように学習されることができる。 For example, although not shown, the image generation system 100 according to the present invention may include a learning unit and use various learning algorithms to train the image generation unit 110 . The image generator 110 can be trained to generate synthetic images that are more similar or identical to the target domain (eg, black hair) defined by the style code.

一例として、学習部は、識別部(Discriminator、900)を利用して学習を進行できる。識別部900は、ターゲットドメイン(例えば、黒髪)を基準に、合成イメージ201と基準イメージ101bとを比較できる。そして、比較結果に基づいて、識別部900は、合成イメージ201が実際(または、本物)イメージ(real image)であるか、または、作られた偽物イメージ(fake image)であるかを判断できる。 For example, the learner may perform learning using a discriminator (900). The identification unit 900 can compare the synthetic image 201 and the reference image 101b based on the target domain (eg, black hair). Based on the comparison result, the identification unit 900 can determine whether the synthetic image 201 is a real image or a fake image.

識別部900は、合成イメージ201が実際イメージであると判断された場合、「1」の値を出力し、偽物イメージであると判断された場合、「0」の値を出力できる。 The identifying unit 900 may output a value of '1' if the synthetic image 201 is determined to be a real image, and output a value of '0' if it is determined to be a fake image.

さらに、学習部は、識別部900での比較結果に該当する、合成イメージ201と基準イメージ101との間の差値を用いてイメージ生成部110を学習できる。イメージ生成部110は、前記差値が最小になるようにするイメージを生成するように学習されることができる。 Further, the training unit can train the image generation unit 110 using the difference value between the synthetic image 201 and the reference image 101 corresponding to the comparison result of the identification unit 900 . The image generator 110 can be trained to generate an image that minimizes the difference value.

また、例え、図示されてはいないが、スタイルエンコーダシステム700は、学習部をさらに備えることができる。スタイルエンコーダシステム700の学習部は、イメージ生成部110を介して生成された合成イメージから、前記合成イメージのスタイルコードが抽出されるように前記スタイルエンコーダを制御できる。ここで、合成イメージは、スタイルエンコーダ部710により生成されたスタイルコードにより生成されたイメージでありうる。 Also, although not shown, the style encoder system 700 may further comprise a learning unit. The learning unit of the style encoder system 700 can control the style encoder to extract the style code of the synthesized image from the synthesized image generated through the image generator 110 . Here, the synthetic image may be an image generated by the style code generated by the style encoder unit 710. FIG.

学習部は、スタイルエンコーダ710により生成されたスタイルコードが反映された合成イメージを利用してスタイルエンコーダ710を学習させることができる。 The learning unit may train the style encoder 710 using the synthesized image reflecting the style code generated by the style encoder 710 .

より具体的に、学習部は、スタイルエンコーダ710に合成イメージを基準イメージとして入力し、合成イメージからスタイルコードを生成できる。このとき、ターゲットドメインは、合成イメージの生成に使用されたスタイルコードのターゲットドメインと同一に設定されることができる。 More specifically, the learning unit may input the synthesized image as a reference image to the style encoder 710 and generate the style code from the synthesized image. At this time, the target domain can be set to be the same as the target domain of the style code used to generate the synthetic image.

一方、学習部は、合成イメージを生成するために使用されたスタイルコード(または、基準イメージのスタイルコード、第1のスタイルコード)と、合成イメージから生成されたスタイルコード(または、合成イメージのスタイルコード、第2のスタイルコード)とを比較し、比較結果を利用してイメージ生成部110を学習させることができる。すなわち、イメージ生成部110を介して生成された合成イメージにターゲットドメインのスタイル情報が含まれているか判断し、判断結果に基づいてイメージ生成部110が学習される方式である。 On the other hand, the learning unit stores the style code used to generate the synthetic image (or the style code of the reference image, the first style code) and the style code generated from the synthetic image (or the style code of the synthetic image). code, second style code), and the image generator 110 can be trained using the comparison result. That is, it is determined whether style information of the target domain is included in the synthesized image generated through the image generator 110, and the image generator 110 learns based on the determination result.

前記学習部は、前記比較結果、i)合成イメージを生成するために使用されたスタイルコード(または、基準イメージのスタイルコード、第1のスタイルコード)とii)合成イメージから生成されたスタイルコード(または、合成イメージのスタイルコード、第2のスタイルコード)とが互いに相違した場合、i)合成イメージを生成するために使用されたスタイルコード(または、基準イメージのスタイルコード、第1のスタイルコード)とii)合成イメージから生成されたスタイルコード(または、合成イメージのスタイルコード、第2のスタイルコード)との差値が最小になるようにイメージ生成部110を学習させることができる。このとき、学習部は、スタイル再構成損失(style reconstruction loss)関数を利用して学習を行うことができる。 The learning unit obtains the comparison result, i) the style code used to generate the synthetic image (or the style code of the reference image, the first style code) and ii) the style code generated from the synthetic image ( or i) the style code used to generate the synthesized image (or the style code of the reference image, the first style code) when the style code of the synthetic image and the style code of the second style are different from each other; and ii) the image generator 110 can be trained to minimize the difference between the style code generated from the synthesized image (or the style code of the synthesized image, the second style code). At this time, the learning unit may perform learning using a style reconstruction loss function.

一方、以上で説明した学習の方法の他にも、学習部は、様々な損失(loss)関数(例えば、ダイバーシティセンシティブ損失(diversity sensitive loss)関数、サイクル一貫性損失(cycle consistency loss))を利用して本発明に係るイメージ生成システムを学習させることができる。 Meanwhile, in addition to the learning methods described above, the learning unit uses various loss functions (e.g., diversity sensitive loss function, cycle consistency loss). can be used to train the image generation system according to the present invention.

上述したように、本発明に係るイメージ生成システム及びこれを利用したイメージ生成方法は、ドメインの特性を含むスタイルコードを用いて、スタイルコードに含まれたドメイン特性に該当するドメインを有するイメージを生成できる。 As described above, the image generation system and the image generation method using the same according to the present invention use the style code including the characteristics of the domain to generate an image having a domain corresponding to the domain characteristics included in the style code. can.

このとき、本発明では、スタイルコードにスタイル情報を含めることにより、スタイルコードだけで生成しようとするイメージのスタイル及びドメインを特定できる。 At this time, in the present invention, by including style information in the style code, the style and domain of the image to be generated can be specified only by the style code.

したがって、本発明によれば、スタイルコードにどのドメインによるドメイン特性が反映されているかによって、生成されるイメージのドメインが様々に定義され得る。 Therefore, according to the present invention, the domain of the generated image can be defined in various ways depending on which domain characteristic is reflected in the style code.

すなわち、本発明では、イメージ生成部に入力されるスタイルコードにドメインの特性を反映することにより、単一のイメージ生成部だけでも互いに異なる様々なドメインに対応する様々なイメージを生成できる。 That is, according to the present invention, by reflecting the characteristics of the domain in the style code input to the image generator, a single image generator can generate various images corresponding to different domains.

したがって、本発明によれば、ドメイン毎に別のイメージ生成部を備えなくとも、単一のイメージ生成部だけでも、様々なドメインに対する新しいイメージを生成できるドメイン側面での拡張性を提供できる。 Therefore, according to the present invention, it is possible to provide domain-side expandability that can generate new images for various domains with a single image generation unit without providing a separate image generation unit for each domain.

また、本発明は、スタイルコードにどのスタイルによるスタイル情報を含めるかによって、同じドメインに対して互いに異なるスタイルのイメージを生成できる。したがって、本発明は、スタイルコードに含まれるスタイル情報を変更させることだけでも、同じドメインに対する様々なスタイルのイメージを生成することにより、スタイル側面での多様性を提供できる。 In addition, the present invention can generate different styles of images for the same domain, depending on which style information is included in the style code. Therefore, the present invention can provide diversity in terms of style by generating images of various styles for the same domain simply by changing the style information contained in the style code.

一方、上記で説明した本発明は、コンピュータで1つ以上のプロセスによって実行され、このようなコンピュータ読み取り可能な媒体に格納可能なプログラムとして実現されることができる。 On the other hand, the present invention described above can be implemented as a program executable by one or more processes in a computer and storable on such computer-readable media.

さらに、上記で説明した本発明は、プログラムが記録された媒体にコンピュータ読み取り可能なコードまたは命令語として実現することが可能である。すなわち、本発明は、プログラムの形態で提供されることができる。 Furthermore, the present invention described above can be implemented as computer-readable codes or instructions on a program-recorded medium. That is, the present invention can be provided in the form of a program.

一方、コンピュータ読み取り可能な媒体は、コンピュータシステムによって読み取られることができるデータが格納されるあらゆる種類の記録装置を含む。コンピュータ読み取り可能な媒体の例では、HDD(Hard Disk Drive)、SSD(Solid State Disk)、SDD(Silicon Disk Drive)、ROM、RAM、CD-ROM、磁気テープ、フロッピーディスク、光データ格納装置などがあり、また、キャリアウェーブ(例えば、インターネットを介しての送信)の形態で実現されることも含む。 A computer-readable medium, on the other hand, includes any type of recording device that stores data that can be read by a computer system. Examples of computer-readable media include HDD (Hard Disk Drive), SSD (Solid State Disk), SDD (Silicon Disk Drive), ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc. Yes, also including being embodied in the form of a carrier wave (eg, transmission over the Internet).

さらに、コンピュータ読み取り可能な媒体は、格納所を含み、電子機器が通信を介して接近できるサーバまたはクラウド格納所でありうる。 Additionally, the computer-readable medium includes storage and can be a server or cloud storage accessible via communication to the electronic device.

さらに、本発明では、上記で説明したコンピュータは、プロセッサ、すなわち、CPU(Central Processing Unit、中央処理装置)が搭載された電子機器であって、その種類に対して特別な限定をおかない。 Furthermore, in the present invention, the computer described above is an electronic device equipped with a processor, that is, a CPU (Central Processing Unit), and the type thereof is not particularly limited.

一方、上記の詳細な説明は、あらゆる面において制限的に解釈されてはならず、例示的なことと考慮されなければならない。本発明の範囲は、添付された請求項の合理的解釈により決定されなければならず、本発明の等価的範囲内での全ての変更は本発明の範囲に含まれる。 On the other hand, the above detailed description should not be construed as restrictive in all respects, but should be considered as illustrative. The scope of the invention should be determined by reasonable interpretation of the appended claims, and all changes that come within the equivalent scope of the invention are included within the scope of the invention.

Claims (6)

変換の対象になるソースイメージを受信するイメージ入力部と、
基準イメージの外貌スタイルと関連したスタイルコードを入力するスタイルコード入力部と、
前記スタイルコードを用いて、前記ソースイメージに前記基準イメージの外貌スタイルが反映された合成イメージを生成するイメージ生成部と、
前記基準イメージから、前記基準イメージの外貌スタイルと関連したスタイル情報を抽出するスタイルエンコーダであって、前記基準イメージから、前記基準イメージの特定ドメインを基準に前記スタイル情報を抽出し、前記スタイル情報及び前記基準イメージの特定ドメインによるドメイン特性情報が含まれた前記スタイルコードを生成する、スタイルエンコーダと、
を備え、
前記基準イメージの外貌スタイルは、前記基準イメージの特定ドメインと関連している、イメージ生成システム。
an image input for receiving a source image to be transformed;
a style code input unit for inputting a style code associated with the appearance style of the reference image;
an image generator for generating a composite image in which the source image reflects the appearance style of the reference image using the style code;
A style encoder for extracting style information related to an appearance style of the reference image from the reference image, extracting the style information from the reference image based on a specific domain of the reference image, and extracting the style information and a style encoder that generates the style code including domain characteristic information according to a specific domain of the reference image;
with
An image generation system, wherein the appearance style of the reference image is associated with a specific domain of the reference image.
前記ソースイメージは、
前記ソースイメージの外貌的正体性を決定する少なくとも1つの外貌特徴部分を含み、
前記イメージ生成部は、
前記ソースイメージの外貌特徴部分を除いた残りの部分を中心に、前記ソースイメージに対して前記基準イメージの外貌スタイルを反映する、請求項1に記載のイメージ生成システム。
The source image is
comprising at least one feature feature that determines the feature identity of the source image;
The image generation unit
2. The image generation system of claim 1 , wherein the source image reflects the appearance style of the reference image around the rest of the source image except for the appearance feature portion.
前記ソースイメージ及び前記基準イメージが人に対応する場合、
前記ソースイメージの前記外貌特徴部分は、
人の目、鼻、及び口のうち、少なくとも1つに対応し、
前記基準イメージの外貌スタイルは、
人の頭髪スタイル、ひげ、年齢、皮膚色、メーキャップのうち、少なくとも1つと関連している、請求項に記載のイメージ生成システム。
if the source image and the reference image correspond to a person,
The feature feature portion of the source image comprises:
corresponding to at least one of a person's eyes, nose and mouth;
The appearance style of the reference image is
3. The image generation system of claim 2 , associated with at least one of a person's hair style, beard, age, skin color, makeup.
識別部をさらに備え、
前記識別部は、
前記基準イメージを基に、前記合成イメージが、前記基準イメージの特定ドメインに対して、前記イメージ生成部により生成された偽物イメージであるか否かを識別し、
識別結果、前記合成イメージが偽物イメージと識別された場合、前記基準イメージと前記合成イメージとが偽物イメージとの差値が最小化されるように前記イメージ生成部を学習させる、請求項1~のいずれか1項に記載のイメージ生成システム。
further comprising an identification unit,
The identification unit
identifying, based on the reference image, whether the synthetic image is a fake image generated by the image generator for a specific domain of the reference image;
4. If the synthetic image is discriminated as a fake image as a result of identification, the image generating unit learns to minimize a difference value between the reference image and the synthetic image and the fake image. An image generation system according to any one of Claims 1 to 3.
学習部をさらに備え、
前記学習部は、
スタイルエンコーダを用いて、前記合成イメージから前記基準イメージの特定ドメインと関連したスタイルコードを抽出し、
前記合成イメージのスタイルコードと前記基準イメージのスタイルコードとを比較し、
比較の結果、前記合成イメージのスタイルコードと前記基準イメージのスタイルコードとが互いに相違した場合、前記合成イメージのスタイルコードと前記基準イメージのスタイルコードとの差値が最小になるように前記イメージ生成部を学習させる、請求項1~のいずれか1項に記載のイメージ生成システム。
further equipped with a learning part,
The learning unit
extracting style codes associated with a particular domain of the reference image from the synthetic image using a style encoder;
comparing the style code of the synthetic image with the style code of the reference image;
If the style code of the synthesized image and the style code of the reference image are different from each other as a result of the comparison, the image is generated so that the difference between the style code of the synthesized image and the style code of the reference image is minimized. 5. The image generation system according to any one of claims 1 to 4 , which trains a part.
変換の対象になるソースイメージを受信するステップと、
基準イメージの外貌スタイルと関連したスタイルコードを受信するステップと、
前記スタイルコードを用いて、前記ソースイメージに前記基準イメージの外貌スタイルが反映された合成イメージを生成するステップと、
前記基準イメージから、前記基準イメージの外貌スタイルと関連したスタイル情報を抽出するステップと、
前記基準イメージから、前記基準イメージの特定ドメインを基準に前記スタイル情報を抽出するステップと、
前記スタイル情報及び前記基準イメージの特定ドメインによるドメイン特性情報が含まれた前記スタイルコードを生成するステップと、
を含み、
前記基準イメージの外貌スタイルは、前記基準イメージの特定ドメインと関連している、イメージ生成方法。
receiving a source image to be transformed;
receiving a style code associated with a reference image appearance style;
generating a composite image in which the source image reflects the appearance style of the reference image using the style code;
extracting from the reference image style information associated with the appearance style of the reference image;
extracting the style information from the reference image with reference to a specific domain of the reference image;
generating the style code including the style information and domain characteristic information according to a specific domain of the reference image;
including
An image generation method, wherein the appearance style of the reference image is associated with a specific domain of the reference image.
JP2020169539A 2020-05-29 2020-10-07 Image generation system and image generation method using the same Active JP7224323B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0064860 2020-05-29
KR1020200064860A KR102427484B1 (en) 2020-05-29 2020-05-29 Image generation system and image generation method using the system

Publications (2)

Publication Number Publication Date
JP2021190062A JP2021190062A (en) 2021-12-13
JP7224323B2 true JP7224323B2 (en) 2023-02-17

Family

ID=78849731

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020169539A Active JP7224323B2 (en) 2020-05-29 2020-10-07 Image generation system and image generation method using the same

Country Status (2)

Country Link
JP (1) JP7224323B2 (en)
KR (1) KR102427484B1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102543451B1 (en) * 2022-04-29 2023-06-13 주식회사 이너버즈 Image feature extraction and synthesis system using deep learning and its learning method
KR102515436B1 (en) * 2022-08-01 2023-03-29 주식회사 어썸커머스 Method, device and system for processing face makeup based on artificial intelligence
KR102594578B1 (en) * 2022-11-15 2023-10-27 주식회사 블록버스터랩 Operating system and method for game rauncher
KR102636155B1 (en) * 2023-07-18 2024-02-13 주식회사 젠젠에이아이 Method and system for generating image using content code

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021086462A (en) 2019-11-28 2021-06-03 株式会社Preferred Networks Data generation method, data generation device, model generation method, model generation device, and program
JP2021111372A (en) 2020-01-08 2021-08-02 パロ アルト リサーチ センター インコーポレイテッド System for and method of generating composite image using local edition

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10825219B2 (en) * 2018-03-22 2020-11-03 Northeastern University Segmentation guided image generation with adversarial networks
KR20200034028A (en) * 2018-09-13 2020-03-31 정형록 System and method for virtual fitting based on artificial intelligence
KR102211400B1 (en) * 2019-11-08 2021-02-03 송우상 Apparatus and method for generating designs based on image and text

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021086462A (en) 2019-11-28 2021-06-03 株式会社Preferred Networks Data generation method, data generation device, model generation method, model generation device, and program
JP2021111372A (en) 2020-01-08 2021-08-02 パロ アルト リサーチ センター インコーポレイテッド System for and method of generating composite image using local edition

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
柳井啓司,"1章 質感の視覚工学 1-3 深層学習によるスタイル変換",映像情報メディア学会誌,一般社団法人映像情報メディア学会,2019年,第73巻, 第3号,p.413-417
金子卓弘, 外2名,"Conditional Filtered Generative Adversarial Networksを用いた生成的属性制御",情報処理学会研究報告,情報処理学会,2017年,Vol.2017-CVIM-208, No.36,p.213-220

Also Published As

Publication number Publication date
KR102427484B1 (en) 2022-08-05
KR20210147507A (en) 2021-12-07
JP2021190062A (en) 2021-12-13

Similar Documents

Publication Publication Date Title
JP7224323B2 (en) Image generation system and image generation method using the same
Zhang et al. Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks
JP7246811B2 (en) Data processing method, data processing device, computer program, and computer device for facial image generation
JPWO2018012136A1 (en) MAKE-UP SUPPORT DEVICE AND MAKE-UP SUPPORT METHOD
CN111108508B (en) Face emotion recognition method, intelligent device and computer readable storage medium
CN114463827A (en) Multi-modal real-time emotion recognition method and system based on DS evidence theory
Yi et al. Quality metric guided portrait line drawing generation from unpaired training data
Olivier et al. Facetunegan: Face autoencoder for convolutional expression transfer using neural generative adversarial networks
Liu et al. Learning shape and texture progression for young child face aging
CN117152308B (en) Virtual person action expression optimization method and system
CN116883608B (en) Multi-mode digital person social attribute control method and related device
Na et al. Miso: Mutual information loss with stochastic style representations for multimodal image-to-image translation
Thengane et al. Cycle face aging generative adversarial networks
CN116385604B (en) Video generation and model training method, device, equipment and storage medium
KR102247481B1 (en) Device and method for generating job image having face to which age transformation is applied
Li et al. A novel attribute-based generation architecture for facial image editing
Liu et al. A3GAN: An attribute-aware attentive generative adversarial network for face aging
Otberdout et al. Generating multiple 4d expression transitions by learning face landmark trajectories
Richmond et al. Ultrax: An animated midsagittal vocal tract display for speech therapy
CN109509144B (en) Face aging method based on countermeasure generation network and related to occupation
Liu et al. Smooth image-to-image translations with latent space interpolations
Cakir et al. Audio to video: Generating a talking fake agent
Chen et al. Texture deformation based generative adversarial networks for multi-domain face editing
Sun et al. AnyFace++: A Unified Framework for Free-style Text-to-Face Synthesis and Manipulation
Antal et al. Feature axes orthogonalization in semantic face editing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201007

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20201026

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210414

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20210412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220407

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221129

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20221129

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20221212

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20221213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230207

R150 Certificate of patent or registration of utility model

Ref document number: 7224323

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350