CN115812221A - 图像生成及着色方法及装置 - Google Patents

图像生成及着色方法及装置 Download PDF

Info

Publication number
CN115812221A
CN115812221A CN202180048612.6A CN202180048612A CN115812221A CN 115812221 A CN115812221 A CN 115812221A CN 202180048612 A CN202180048612 A CN 202180048612A CN 115812221 A CN115812221 A CN 115812221A
Authority
CN
China
Prior art keywords
image
semantic
color
generated
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180048612.6A
Other languages
English (en)
Inventor
苟毓川
李明昊
龚博
韩玫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of CN115812221A publication Critical patent/CN115812221A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7788Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Abstract

提供一种图像生成及着色方法及装置。所述方法包括:显示画板界面;根据在所述画板界面上的用户输入,获取待生成图像的语义标签,每个所述语义标签表示所述待生成图像中一个区域的内容;获取所述待生成图像的颜色特征;及根据所述语义标签和所述颜色特征,使用生成对抗网络(generative adversarial network,GAN)模型自动生成图像。所述颜色特征是输入到所述GAN模型的潜在向量。

Description

图像生成及着色方法及装置
本申请要求于2020年8月4日提交美国专利局、申请号为63/060,784的美国临时专利申请的优先权,及要求2020年12月15日提交美国专利局、申请号为17/122,680的美国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及图像处理领域,具体涉及一种图像生成及着色方法及装置。
背景技术
在现有技术中,图像生成模型可用于生成无监督或以用户输入(如文本和语义标签)为条件的图像。但是,在所述图像生成模型中,一旦生成最后的图像,就无法在本地编辑颜色。
除了图像生成模型,着色是近年来另一个热门的研究领域,例如将涂鸦应用于边缘输入的基于涂鸦的着色方法,以及将全局色调从参考图像转移到输入的颜色转移方法,通常是灰度的。然而,这些模型以纯着色为目标,不具备图像生成能力。然而,这些模型以纯着色为目标,不具备图像生成能力。
本申请所公开的方法和系统旨在解决上述的一个或多个问题以及其他问题。
发明内容
本申请的一个方面提供了一种用于图像生成和着色的方法。所述方法包括:显示画板界面;根据在所述画板界面上的用户输入,获取待生成图像的语义标签,每个所述语义标签表示所述待生成图像中一个区域的内容;获取所述待生成图像的颜色特征;及根据所述语义标签和所述颜色特征,使用生成对抗网络(generative adversarial network,GAN)模型自动生成图像。所述颜色特征是输入到所述GAN模型的潜在向量。
本申请的另一个方面提供了一种图像生成和着色的装置。所述装置包括:存储器;及与所述存储器耦合的处理器。所述处理器被配置为执行:显示画板界面;根据在所述画板界面上的用户输入,获取待生成图像的语义标签,每个所述语义标签表示所述待生成图像中一个区域的内容;获取所述待生成图像的颜色特征;及根据所述语义标签和所述颜色特征,使用GAN模型自动生成图像。所述颜色特征是输入到所述GAN模型的潜在向量。
本申请的另一方面提供了一种存储有计算机指令的非暂时性计算机可读存储介质。当处理器执行所述计算机指令时,会使得处理器执行:显示画板界面;根据在所述画板界面上的用户输入,获取待生成图像的语义标签,每个所述语义标签表示所述待生成图像中一个区域的内容;获取所述待生成图像的颜色特征;及根据所述语义标签和所述颜色特征,使用GAN模型自动生成图像。所述颜色特征是输入到所述GAN模型的潜在向量。
本领域的技术人员结合本申请的说明书、权利要求和附图,能够理解本申请的其他实施例。
附图说明
本申请文件包含至少一幅彩色绘图。本申请公开的副本以及彩色附图将在收到请求和支付必要费用后由专利局提供。
下列附图仅是根据各种公开的实施例说明申请目的的示例,并不旨在限制本申请公开的范围。
图1是本申请公开的实施例中示例性的计算系统的框图。
图2是本申请公开的实施例中示例性的图像生成和着色过程。
图3是本申请公开的实施例中示例性的画板界面图。
图4是本申请公开的实施例中示例性的图像生成和着色的框图。
图5是本申请公开的实施例中另一个示例性的图像生成和着色过程。
图6A是与本申请公开的实施例相一致的示例的语义图。
图6B是本申请公开的实施例中使用图6A示例的语义图作为图像生成模型的输入自动生成的图像。
图6C和图6E是与本申请公开的实施例相一致的两个示例性的笔画图像。
图6D是本申请公开的实施例中使用图6A示例的语义图和图6C示例的笔画图像作为图像生成模型的输入自动生成的图像。
图6F是本申请公开的实施例中使用图6A示例的语义图和图6E示例的笔画图像作为图像生成模型的输入自动生成的图像。
图7A是与本申请公开的实施例相一致的示例的语义图。
图7B是本申请公开的实施例中使用图7A示例的语义图作为图像生成模型的输入自动生成的图像。
图7C和图7E是与本申请公开的实施例相一致的两个示例性的笔画图像。
图7D是本申请公开的实施例中使用图7A示例的语义图和图7C示例的笔画图像作为图像生成模型的输入自动生成的图像。
图7F是本申请公开的实施例中使用图7A示例的语义图和图7E示例的笔画图像作为图像生成模型的输入自动生成的图像。
图8A是与本申请公开的实施例一致的示例的语义图。
图8B是本申请公开的实施例中使用图8A示例的语义图作为图像生成模型的输入自动生成的图像。
图8C、8E、8G、8I、8K和8M是与本申请公开的实施例相一致的示例性的笔画图像。
图8D是本申请公开的实施例中使用图8A示例的语义图和图8C示例的笔画图像作为图像生成模型的输入自动生成的图像。
图8F是本申请公开的实施例中使用图8A示例的语义图和图8E示例的笔画图像作为图像生成模型的输入自动生成的图像。
图8H是本申请公开的实施例中使用图8A示例的语义图和图8G示例的笔画图像作为图像生成模型的输入自动生成的图像。
图8J是本申请公开的实施例中使用图8A示例的语义图和图8I示例的笔画图像作为图像生成模型的输入自动生成的图像。
图8L是本申请公开的实施例中使用图8A示例的语义图和图8K示例的笔画图像作为图像生成模型的输入自动生成的图像。
图8N是本申请公开的实施例中使用图8A示例的语义图和图8M示例的笔画图像作为图像生成模型的输入自动生成的图像。
具体实施方式
现在将详细参考在附图中示出的本申请的实施例。以下将参照附图描述符合本申请公开的实施例。在可能的情况下,所有附图将使用相同的附图标记来指代相同或相似的部分。显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于所公开的实施例,本领域普通技术人员所获得的与本申请一致的其他实施例,都属于本发明保护的范围。
本申请公开了一种图像生成和着色的方法和装置。所公开的方法和/或装置可以应用于实现基于生成对抗网络(Generative Adversarial Networks,GAN)的人工智能(Artificial Intelligence,AI)画板。基于GAN的画板被配置为获取用户输入的语义提示(例如,通过分割)和色调(例如,通过笔画),并基于用户的输入自动生成图像(例如,一幅画)。所公开的方法建立在一种新颖且轻量级的颜色特征嵌入技术之上,该技术将着色效果结合到图像生成过程中。不同于现有的仅接受语义输入的基于GAN的图像生成模型,本申请所公开的画板在图像生成后,具有对图像的局部颜色进行编辑的能力。颜色信息可以作为额外输入从用户输入的笔画中采样,并反馈传输到GAN模型中用于条件生成。本申请所公开的方法和装置能够创建具有语义控制和颜色控制的图片或绘画。也即,本申请所公开的方法和装置将着色结合到图像生成过程中,从而可以同时控制对象的位置、形状和颜色。本申请可以实时执行图像创建。
图1是本申请公开的实施例中实现图像生成和着色方法的计算系统/装置的框图。如图1所示,计算系统100可以包括处理器102和存储介质104。根据一些实施例,计算系统100还可以包括显示器106、通信模块108、额外的外围设备112和一个或多个总线114。所述总线114将上述器件耦合在一起。一些设备可以被省略,而其他设备可能会被包括在计算系统100内。
处理器102包括任何合适的处理器。在一些实施例中,处理器102可以包括用于多线程或并行处理的多个内核,和/或图形处理单元(Graphics Processing Unit,GPU)。处理器102可以执行计算机程序指令序列以执行各种过程,例如图像生成和着色程序、GAN模型训练程序等。存储介质104可以是非暂时性计算机可读存储介质,并且可以包括如ROM、RAM、闪存模块、和可擦除和可重写存储器等存储模块,以及如CD-ROM、U盘、硬盘等大容量存储器。存储介质104可以存储用于实现各种过程的计算机程序,所述计算机程序由处理器102执行。存储介质104还可以包括一个或多个数据库,用于存储某些数据,例如图像数据、训练数据集、测试图像数据集、训练的GAN模型的数据,并且可以对存储的数据执行某些操作,例如数据库搜索和数据检索。
通信模块108可以包括用于通过网络建立连接的网络设备。显示器106可以包括任何适当类型的计算机显示设备或电子设备显示器(例如,基于CRT或LCD的设备、触摸屏)。外围设备112可以包括I/O设备,例如键盘、鼠标等。
在操作时,处理器102可以被配置为执行存储在存储介质104上的指令,并且执行如下描述中详细描述的与图像生成和着色方法相关的各种操作。
图2描述了本申请的实施例中示例性的图像生成和着色过程200。图4是本申请公开的实施例的图像生成和着色的示例性框架400的框图。图像生成和着色过程200可以由具有一个或多个处理器和一个或多个存储器的任何合适的计算设备/服务器执行,例如计算系统100(如处理器102)。框架400可以由具有一个或多个处理器和一个或多个存储器的任何合适的计算设备/服务器实现,例如计算系统100(如处理器102)。
如图2所示,显示画板界面(S202)。画板界面可以包括与图像生成和着色相关的多个功能。例如,可以基于画板界面上的用户输入来获得要生成的图像的语义标签(S204)。每个语义标签表示待生成图像中的一个区域的内容。语义标签也可以表示为图4所示的输入标签402。输入标签402是生成器406(例如绘画生成器4062)的输入之一。
图3是本申请公开的实施例中示例性的画板界面的示意图。如图3所示,画板界面可以包括标签输入部分(a)。标签输入可以以语义图的形式呈现。本申请中的语义图可指目标图像(例如,待生成的图像)的语义分割掩模。语义图与目标图像大小相同,并关联多个语义标签,语义图的每个像素都有对应的语义标签。具有相同语义标签的像素描述相同的主题/内容。换句话说,语义图包括多个区域,并且语义图的同一区域的像素具有指示该区域的内容的相同语义标签。例如,语义图可以包括标记为天空、山、岩石、树、草、海等的区域。这样的区域也可以称为标签图像。即一张语义图可能被处理成不同的标签图像,每个标签图像代表不同的语义标签。
在一些实施例中,可以基于用户在画板界面上的绘图操作获得语义图(例如,在图3的颜色-标签转换按钮部分(d)中选择“标签”按钮之后)。例如,画板界面可以提供绘图工具供用户绘制语义图(例如,图3的绘图工具和元素部分(c)中所示的工具)。绘图工具可以包括常见的绘画功能,例如铅笔、橡皮擦、放大/缩小、颜色填充等。用户可以使用绘图工具勾勒出描述所需图像的不同组成部分的不同区域的轮廓/边缘。语义标签文本可以由用户分配给语义图的每个区域。例如,语义标签文本可以显示在画板界面上,每个具有独特格式的语义标签文本用作相应区域的图例。画板界面中显示的语义图的每个区域都是根据相应的语义标签文本的格式进行格式化。独特的格式通常意味着具有不同语义标签的区域不会具有相同的格式。格式可以是颜色和/或图案(例如,点区域、条纹区域)。例如,当使用颜色来表示对象类型时,与语义标签“天空”关联的区域具有浅蓝色,与语义标签“海”关联的区域具有深蓝色。图6A是与本申请公开的实施例相一致的示例的语义图。类似地,图7A和图8A是另外两个示例的语义图。
在一些实施例中,可以基于语义图模板获得语义标签。在一个示例中,画板界面可以提供语义图的候选选项(例如,如图3的标签模板部分(b)所示)。用户可以在候选选项中选择想要的模板。在另一示例中,画板界面可以从本地或在线存储中读取先前创建的图像并且获得用户分配给先前创建的图像中的区域的语义标签文本。标记后的图像可以作为语义图模板。在一些实施例中,可以直接使用语义图模板来获得语义标签。在其他实施例中,用户可以修改语义图,例如修改与语义图的区域(一个或多个像素)对应的语义标签文本,或者修改与语义标签文本对应的区域的位置(通过使用画板界面提供的绘图工具进行修改)。
参考图2和图4,获取待生成图像的颜色特征(S206)。颜色特征嵌入单元404可以提取颜色特征。首先基于用户输入或默认设置获得输入颜色4042,并且获取的具有颜色值(例如,RGB值)和位置的颜色特征4044是生成器406(例如,绘画生成器4062)的输入之一。
自定义着色是基于特征嵌入实现的。由用户定制的输入颜色4042可以包括笔画图像。笔画图像与目标图像大小相同,包括用户输入的一个或多个笔画。每个笔画由连接的像素组成,并具有相应的笔画颜色。图6C、6E、7C、7E、8C、8E、8G、8I、8K和8M是与本申请的实施例一致的示例性的笔画图像。例如,图6C所示的笔画图像与目标图像具有相同的尺寸,且目标图像具有与图6A所示的语义图相同的尺寸。笔画图像的背景为黑色,四个彩色笔画(两个笔画具有相同颜色,另外两个笔画各有自己的颜色)位于笔画图像的不同区域,指示这些区域的用户所需的颜色排列。
在一些实施例中,可以基于用户在画板界面上的操作获得笔画图像。例如,可以在画板界面上显示候选颜色(例如,在图3的颜色-标签转换按钮部分(d)中选择“颜色”按钮后显示候选颜色)。可以基于用户在候选颜色中的选择来获得目标颜色。检测拖动操作(例如,在画板界面显示的笔画图像上检测拖动操作),根据目标颜色和拖动操作对应的位置,记录笔画图像的彩色笔画。在一些实施例中,当没有为笔画图像获得用户输入时,颜色特征是从具有统一颜色(例如,黑色)的默认笔画图像中提取的。
特征嵌入类似于将输入笔画转换为高强度特征的方法。例如,笔画图像是一个稀疏矩阵,只有小块区域被笔画颜色占据。如果按照传统的变分编码器实践将该稀疏矩阵作为输入,则可能难以实现颜色控制。在这种情况下,编码模块将对每个像素应用相同的函数并使非笔画区域占主导地位。作为传统变分编码器的输出结果,在编码器的输出结果中只观察到很少的差异。
在一些实施例中,表示笔画图像的稀疏矩阵被转换成强烈的特征表示,以用于对结果进行有效控制。颜色特征嵌入过程类似于基于回归问题的对象检测过程。输入图像(即,笔画图像)被分成多个网格,每个网格可以包括零笔画、一个笔画的一部分、一个完整的笔画或多个的笔画。在一个示例中,多个网格可以是S×S个网格。在另一示例中,多个网格可以是S1×S2个网格。与对象检测不同,笔划图像的颜色值(例如RGB值)可用作对象分数和类别分数。
在数学上,在一些实施例中,以笔画图像被划分为S×S个网格的场景为例,定义从笔画图像中提取的颜色特征为大小为(S,S,8)的数组,其中S×S是图像中的网格数,8是特征通道数。此外,对于每个网格/单元格,定义了一个元组(mask,x,y,w,h,R,G,B)来表示与网格相关联的特征。具体来说,一个最大的矩形区域可以覆盖对应于一个网格的一个或多个笔划(例如,矩形的左上角在网格内,矩形覆盖左上角在相应网格内的任何笔划)表示为(x,y,w,h),其中x和y在等式1中描述:
x=ximage-offsetx,y=yimage-offsety
其中offsetx,offsety为网格左上角坐标,ximage,yimage为矩形区域左上角坐标,w,h为矩形区域大小(即,宽度和高度)。(R,G,B)是网格内每种色调的平均值。进一步地,增加了一个掩码通道来表示这个网格是否有笔画,以避免黑色笔画输入的歧义。例如,当网格不包含笔画时,mask的值为0,当网格包含彩色笔画的像素(例如,颜色可以是黑色、蓝色或任何其他颜色)时,mask的值为1。
与笔画图像相关联的颜色特征被输入到图像生成模型,用于基于用户输入的笔画图像自动预测/生成期望的图像。图像生成模型的训练也涉及到这类颜色特征。具体地,在准备训练数据集时,根据原始图像生成笔画图像,每个原始图像对应一个笔画图像。训练中生成的每个笔画图像在对应的每个网格中都具有有效颜色。根据原始图像中对应网格的颜色确定笔画图像中网格的颜色。此外,对于训练中生成的每个笔划图像,为了更好地模拟输入颜色,将其总网格的预设百分比(例如75%)设置为在8个通道中全部为0,这意味着笔画图像中总网格的剩余百分比(例如25%)具有颜色。在一些实施例中,S被设置为9并且颜色特征数组被平展为图像生成器406的潜在向量输入。例如,大小为(S,S,8)的数组被转换为一维潜在向量,所述一维潜在向量具有S×S×8个元素。可以在训练阶段和测试阶段执行获得平展化潜在向量的操作(即,基于用户输入的自动图像生成)。
可以理解的是,步骤S202和S204并没有特定的执行顺序。即步骤S202可以在步骤S204之前,也可以在步骤S204之后,也可以与步骤S204同时进行,在此不做限定。只要两个输入(即,语义标签和颜色特征)准备就绪,生成器406就可以自动生成具有自定义颜色的图像。
图像生成可以基于生成对抗网络(GAN)模型的深度学习方法来实现。GAN模型的目标是找到既满足语义图指示的布局又满足笔画图像指示的局部颜色的结果进行绘画。也就是说,可以根据语义标签和颜色特征使用GAN模型自动生成图像(S208)。颜色特征可以是输入到GAN模型的潜在向量。GAN模型的输入包括表示从笔画图像中提取的颜色特征的潜在向量和语义标签(例如,语义图)。例如,将N个语义标签的语义图处理成N个通道的标签图像(每个通道/图像代表一个语义标签)。在本申请实施例中,语义标签还可以指代具有与原始图像相同大小的图像或描绘对应于单个对象/实体并用单个对象/实体标记的像素的待生成图像。
在一些实施例中,本申请的GAN模型包括生成器和多尺度鉴别器。生成器将颜色特征和语义标签作为显式输入。生成器包括多个串联排列的上采样块,每个上采样块对应不同的图像分辨率,并包括一组接受语义标签作为形状约束的卷积层和注意力层,以实现从粗到精的策略。即在运行过程中,所述过程按照从低到高的分辨率依次经过多个上采样块(即先处理粗分辨率对应的上采样块,再处理更高分辨率对应的上采样块)。
第一个上采样块的输入是颜色特征和语义标签,第一个上采样块以外的上采样块的输入是其前一个上采样块的输出结果。上采样块的输出结果也被作为下一个上采样块的隐藏特征。上采样块的输出结果可以包括分辨率与对应于上采样块的分辨率相同的绘画/图像。在一些实施例中,来自上采样块的输出结果的绘画/图像可以在被输入到具有相同配置的下一个上采样块之前进行大小调整(例如,进行双倍大小调整,如将8*8图像调整为16*16图像)。
在每个上采样块中,作为形状约束的语义标签进行大小调整以具有与隐藏特征相同的分辨率。生成器可以采用来自GauGAN模型的空间自适应方法,并使用大小调整后的语义标签作为相应上采样块的注意输入。例如,128*128分辨率对应的当前上采样块的输入可能是64*64分辨率对应的前一个上采样块的输出;并且当前上采样块中用于注意力层的语义标签的大小可以调整为128*128。在一些实施例中,对应于每个上采样块的分辨率可以是对应于前一个上采样块的分辨率的两倍。例如,分辨率可以包括4*4、8*8、16*16、……一直到1024*1024。
在训练过程中,生成器旨在学习如何输出颜色(即来自相应的笔画图像)和语义(例如,上采样块的配置)对应的原始绘画。另一方面,多尺度鉴别器将生成的绘画/图像作为输入,使得生成器生成的图像与原始图像相似。多尺度判别器仅在训练阶段使用。
相较于现有技术,例如无法控制所生成图像的局部颜色的GauGAN,本申请所公开的GAN模型可以生成兼顾语义标签和用户通过笔划图像定制的局部颜色的图像。
在训练阶段之后,只有基于训练模型的生成器和颜色特征嵌入模块(即,将用户笔画图像转换为颜色特征向量的模块)工作,用户自定义笔画和语义标签作为输入。经过训练的模型,即生成器,可以在给定颜色和形状约束(即来自笔画图像和语义图)的情况下,为输出图像中的每个像素位置输出像素值(R、G、B)。本申请中的图像生成过程可以实时实施。例如,在实验推论中(例如,当生成器406基于接收到的用户输入和训练的GAN模型生成图像时),在Tesla V100 GPU上每次生成图像需要0.077秒。
在图3所示的画板界面上,在图3的颜色-标签转换按钮的部分(d)中选择“画图(draw)”按钮后,基于在(a)部分输入的标签和与“颜色”按钮功能相对应的可选笔画图像,使用揭示的GAN模型生成结果图像。结果图像可以显示在画板界面的结果部分(e)中。
图6B是本申请实施例中使用图6A示例的语义图作为图像生成模型(即GAN模型)的输入自动生成的图像(GAN模型的另一个输入是默认的笔划图像,例如全黑图像)。图6D是使用图6A示例的语义图和图6C示例的笔画图像作为GAN模型的输入后自动生成的图像。从图6B和图6D可以看出,色调引导可以带来不同的结果图像。
图5是本申请公开的实施例中另一个示例性的图像生成和着色过程。在S502中,用户输入标签图像(即语义图形式存在的语义标签)以使用默认的全黑颜色(即全黑的笔画图像,颜色特征的mask值为0)生成图像。根据输入的语义标签,使用GAN模型自动生成绘画(S504)。生成的图像(即绘画)可以显示在画板界面上。用户可能想要修改图像中某个对象的某些局部形状或颜色。也就是说,允许部分地修改颜色和/或标签(S506)。修改形状可以通过修改语义图中的期望部分来实现,以获得当前语义标签。可以通过提供笔画图像实现颜色定制,笔画图像用于提取当前颜色特征。例如,当“绘图!”按钮被选中,根据当前语义标签和当前颜色特征,使用GAN模型返回修改后的绘画(S508)。修改后的绘画可以进行显示。步骤S506和S508可以重复执行,直到用户获得满意的图像。
在一些实施例中,画板界面可以存储使用返回绘画元素4064在每次修订(例如,每次选择“绘图!”按钮)时生成图像。生成的图像可以是Image(1)、Image(2),...,和Image(N),Image(N)是当前生成的图像。在一些场景下,用户可能更喜欢之前生成的图像,并给出返回指令,例如在图3的绘图工具和元素部分(c)中选择返回按钮。画板界面在收到返回指令后可以显示最近的一幅图像,例如Image(N-1)。如果再次收到返回指令,显示Image(N-2)。
图6A-6F、图7A-7F和图8A-8N是三组示例,显示了基于不同语义标签输入和颜色输入的不同结果。具体来说,图6A是示例的语义图。图6B是使用图6A示例的语义图作为输入自动生成的图像。图6C、图6E是与图6A一致的两个示例性的笔画图像。图6D是使用图6A示例的语义图和图6C示例的笔画图像自动生成的图像。图6F是使用图6A示例的语义图和图6E示例的笔画图像自动生成的图像。可以理解的是,当语义图相同(例如图6A所示),但是用户输入的笔画图像(例如图6C和6E所示)不同时,基于笔画图像和语义图生成的结果图像包括相似布局排列的相同内容,但这些内容可能具有不同的颜色特征。例如,由于在图6C的笔画图像的顶部绘制的青色笔画,如图6D中所示的结果图像中天空是蓝色和清晰的,但是由于在图6E笔画图像的顶部部分绘制的红色笔画,使得图6F的结果图像中显示阴暗和多云。不同的色彩特征可能对描绘同一题材的绘画产生截然不同的审美观点。
图7A是另一个示例的语义图。图7B是使用图7A示例的语义图作为图像生成模型的输入而自动生成的图像。图7C和图7E是符合本申请的实施例的两个示例性的笔画图像。图7D是使用图7A示例的语义图和图7C示例的笔画图像作为图像生成模型的输入而自动生成的图像。图7F是本申请的一些实施例中使用图7A示例的语义图和图7E示例的笔画图像作为图像生成模型的输入而自动生成的图像。图7D和图7F呈现了两幅内容和布局相似但色彩特征不同的画。
图8A是与本申请一些实施例一致的语义图。图8B是根据本申请的一些实施例使用图8A示例的语义图作为图像生成模型的输入而自动生成的图像。图8C、8E、8G、8I、8K和8M是示例性的笔画图像,对应的结果图像分别是图8D、8F、8H、8J、8L和8N所示的图像。例如,图8G和8I中所示的笔划图像包括青色点,青色点位于对应于天空的位置。然而,图8G的笔划图像中,对应于较高天空的位置和较低天空的位置均包括青色点,而图8I的笔划图像仅在较高天空位置包含青色点。因此,在较低天空区域,图8G中笔画图像对应的结果图像图8H相对于图8I中笔画图像对应的结果图像图8J包括更多的颜色变化。因此,本申请公开的装置能够依据简单的颜色笔画使得结果图像/绘画产生艺术的差异,从而为用户提供实现创意的强大工具。
绘画领域的痛点之一就是尝试创作耗费时间,而且不容易回到之前的创作版本。所公开的系统/设备很好地解决了这个痛点。通过简单的具有形状和颜色的笔画,所公开的方法帮助艺术家快速实现他们的想法。进一步的,如果艺术家对实施后的效果不满意,艺术家可以点击后退按钮快速返回上一版本。这可以在艺术领域提供一种高效的教学工具,大大提高画家的创作效率,减少不必要的劳动。
综上所述,本公开提供了一种基于GAN的画板,可以帮助用户同时生成和编辑绘画作。画家可以通过对标签和颜色的简单操作来重复生成和修改他们的绘画。使用的特征嵌入模块是轻量级的,其输出作为生成任务中GAN模型的潜在向量的输入。在一些实施例中,特征提取限制每个网格仅对应一组颜色特征。在一些实施例中,如果在一个网格中允许多种颜色,则可以改进结果图像。
本领域技术人员应当知悉,上述方法实施例的全部或部分步骤可以由相关硬件执行程序实现,该程序可以存储在一个计算机可读取存储介质中。执行该程序以执行所述方法实施例的步骤。存储介质包括移动存储设备、只读存储器(Read-Only Memory,ROM)、磁盘或光盘等能够存储程序代码的介质。
可选地,当集成单元以软件功能单元的形式实现并作为独立的产品销售或使用时,该集成单元可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案的本质,或者对现有技术做出贡献的部分,或者全部或者部分技术方案可以以软件产品的形式来实现。该软件产品存储在存储介质中,包括若干指令,用于指示计算机设备(例如可以是个人计算机、服务器或网络设备)执行本申请上述方法实施例中的全部或部分步骤。上述存储介质包括U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁盘、光盘等任何可以存储程序代码的介质。
根据本申请的说明书和实施例,本申请的其他实施例对于本领域技术人员来说将是显而易见的。说明书和实施例仅被视为示例性的,本申请的真实范围和精神由权利要求书指明。

Claims (20)

1.一种图像生成及着色方法,应用于计算设备中,其特征在于,所述方法包括:
显示画板界面;
根据在所述画板界面上的用户输入,获取待生成图像的语义标签,每个所述语义标签表示所述待生成图像中一个区域的内容;
获取所述待生成图像的颜色特征;及
根据所述语义标签和所述颜色特征,使用生成对抗网络(generative adversarialnetwork,GAN)模型自动生成图像,其中所述颜色特征是输入到所述GAN模型的潜在向量。
2.如权利要求1所述的图像生成及着色方法,其特征在于,获取所述颜色特征包括:
获取与所述待生成图像大小相同的笔画图像,所述笔画图像包括用户输入的一个或多个彩色笔画;及
基于所述笔画图像提取所述颜色特征。
3.如权利要求2所述的图像生成及着色方法,其特征在于,当所述笔画图像没有获得所述用户输入时,从默认的具有统一颜色的笔画图像中提取所述颜色特征。
4.如权利要求2所述的图像生成及着色方法,其特征在于,获取所述笔画图像包括:
在所述画板界面显示候选颜色;
基于用户选择从所述候选颜色中获得目标颜色;
检测拖动操作;及
根据所述目标颜色和所述拖动操作对应的位置记录所述笔画图像的彩色笔画。
5.如权利要求1所述的图像生成及着色方法,其特征在于,获取所述语义标签包括:
获取与所述待生成图像大小相同的语义图,所述语义图包括多个区域,同一区域的像素具有相同的语义标签,所述语义标签表示对应的区域的内容。
6.如权利要求5所述的图像生成及着色方法,其特征在于,获取所述语义标签还包括:
根据用户在所述画板界面上的绘图操作生成所述语义图;
接收用户分配给语义图的多个区域的语义标签文本;及
根据用户绘制的所述语义图和分配的所述语义标签文本获取所述语义标签。
7.如权利要求5所述的图像生成及着色方法,其特征在于,获取所述语义标签还包括:
根据在所述画板界面上的用户操作修改所述语义图,包括以下至少之一:修改与所述语义图中一个或多个像素对应的第一语义标签文本,或者修改与第二语义标签文本对应的区域的位置。
8.如权利要求5所述的图像生成及着色方法,其特征在于,获取所述语义标签还包括:
在所述画板界面显示多个语义图模板;及
根据用户对多个语义图模板中的一个语义图模板上的选择获得所述语义标签。
9.如权利要求1所述的图像生成及着色方法,其特征在于,所述方法还包括:
在所述画板界面显示自动生成的图像,所述自动生成的图像为第一图像;
获取对所述语义标签或所述颜色特征中的至少一个的修改指令;及
根据基于所述修改指令更新的所述语义标签和所述颜色特征使用所述GAN模型生成修改图像。
10.如权利要求9所述的图像生成及着色方法,其特征在于,所述方法还包括:
在所述画板界面显示所述修改图像;
接收返回指示;及
响应所述返回指令,在所述画板界面显示所述第一图像。
11.一种图像生成及着色装置,其特征在于,所述装置包括:
存储器;及
处理器,与所述存储器相耦合并被配置为执行:
显示画板界面;
根据在所述画板界面上的用户输入,获取待生成图像的语义标签,每个所述语义标签表示所述待生成图像中一个区域的内容;
获取所述待生成图像的颜色特征;及
根据所述语义标签和所述颜色特征,使用生成对抗网络(generative adversarialnetwork,GAN)模型自动生成图像,其中所述颜色特征是输入到所述GAN模型的潜在向量。
12.如权利要求11所述的图像生成及着色装置,其特征在于,获取所述颜色特征包括:
获取与所述待生成图像大小相同的笔画图像,所述笔画图像包括用户输入的一个或多个彩色笔画;及
基于所述笔画图像提取所述颜色特征。
13.如权利要求12所述的图像生成及着色装置,其特征在于,当所述笔画图像没有获得所述用户输入时,从默认的具有统一颜色的笔画图像中提取所述颜色特征。
14.如权利要求11所述的图像生成及着色装置,其特征在于,获取所述语义标签包括:
获取与所述待生成图像大小相同的语义图,所述语义图包括多个区域,同一区域的像素具有相同的语义标签,所述语义标签表示对应的区域的内容。
15.如权利要求14所述的图像生成及着色装置,其特征在于,获取所述语义标签还包括:
根据用户在所述画板界面上的绘图操作生成所述语义图;
接收用户分配给语义图的多个区域的语义标签文本;及
根据用户绘制的所述语义图和分配的所述语义标签文本获取所述语义标签。
16.如权利要求14所述的图像生成及着色装置,其特征在于,获取所述语义标签还包括:
根据在所述画板界面上的用户操作修改所述语义图,包括以下至少之一:修改与所述语义图中一个或多个像素对应的第一语义标签文本,或者修改与第二语义标签文本对应的区域的位置。
17.如权利要求14所述的图像生成及着色装置,其特征在于,获取所述语义标签还包括:
在所述画板界面显示多个语义图模板;及
根据用户对多个语义图模板中的一个语义图模板上的选择获得所述语义标签。
18.如权利要求11所述的图像生成及着色装置,其特征在于,所述处理器还被配置为执行:
在所述画板界面显示自动生成的图像,所述自动生成的图像为第一图像;
获取对所述语义标签或所述颜色特征中的至少一个的修改指令;及
根据基于所述修改指令更新的所述语义标签和所述颜色特征使用所述GAN模型生成修改图像。
19.如权利要求18所述的图像生成及着色装置,其特征在于,所述处理器还被配置为执行:
在所述画板界面显示所述修改图像;
接收返回指示;及
响应所述返回指令,在所述画板界面显示所述第一图像。
20.一种非暂时性计算机可读存储介质,存储计算机指令,当处理器执行所述计算机指令时,会使得处理器执行:
显示画板界面;
根据在所述画板界面上的用户输入,获取待生成图像的语义标签,每个所述语义标签表示所述待生成图像中一个区域的内容;
获取所述待生成图像的颜色特征;及
根据所述语义标签和所述颜色特征,使用生成对抗网络(generative adversarialnetwork,GAN)模型自动生成图像,其中所述颜色特征是输入到所述GAN模型的潜在向量。
CN202180048612.6A 2020-08-04 2021-07-29 图像生成及着色方法及装置 Pending CN115812221A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063060784P 2020-08-04 2020-08-04
US63/060784 2020-08-04
US17/122680 2020-12-15
US17/122,680 US11386589B2 (en) 2020-08-04 2020-12-15 Method and device for image generation and colorization
PCT/CN2021/109381 WO2022028313A1 (en) 2020-08-04 2021-07-29 Method and device for image generation and colorization

Publications (1)

Publication Number Publication Date
CN115812221A true CN115812221A (zh) 2023-03-17

Family

ID=80115246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180048612.6A Pending CN115812221A (zh) 2020-08-04 2021-07-29 图像生成及着色方法及装置

Country Status (3)

Country Link
US (1) US11386589B2 (zh)
CN (1) CN115812221A (zh)
WO (1) WO2022028313A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220237838A1 (en) * 2021-01-27 2022-07-28 Nvidia Corporation Image synthesis using one or more neural networks
CN115272529B (zh) * 2022-09-28 2022-12-27 中国海洋大学 布局优先的多尺度解耦海洋遥感图像上色方法及系统
CN116342739B (zh) * 2023-02-22 2023-09-26 深圳前海深蕾半导体有限公司 基于人工智能生成多幅绘画图像的方法、电子设备及介质
CN116740211B (zh) * 2023-06-15 2024-01-30 云南大学 一种面向边缘设备的近红外图像彩色化方法
CN117057325B (zh) * 2023-10-13 2024-01-05 湖北华中电力科技开发有限责任公司 一种应用于电网领域表单填写方法、系统和电子设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6579099B1 (en) * 2002-01-14 2003-06-17 Robert Lewis Pipes, Jr. Freehand drawing training and guiding device
CN101197948A (zh) * 2007-12-04 2008-06-11 北京工业大学 在视频中实现图标或字幕多种特效的方法
CN108124140A (zh) * 2017-12-05 2018-06-05 广东小天才科技有限公司 一种颜色拾取方法、装置、电子画笔及存储介质
US10984286B2 (en) * 2018-02-02 2021-04-20 Nvidia Corporation Domain stylization using a neural network model
AU2018100325A4 (en) * 2018-03-15 2018-04-26 Nian, Xilai MR A New Method For Fast Images And Videos Coloring By Using Conditional Generative Adversarial Networks
US10825219B2 (en) * 2018-03-22 2020-11-03 Northeastern University Segmentation guided image generation with adversarial networks
CN109087375B (zh) * 2018-06-22 2023-06-23 华东师范大学 基于深度学习的图像空洞填充方法
EP3611699A1 (en) * 2018-08-14 2020-02-19 Siemens Healthcare GmbH Image segmentation using deep learning techniques
US20200242771A1 (en) * 2019-01-25 2020-07-30 Nvidia Corporation Semantic image synthesis for generating substantially photorealistic images using neural networks
JP7082587B2 (ja) * 2019-03-20 2022-06-08 株式会社日立製作所 画像処理装置、画像処理方法及び画像処理システム
CN110244870A (zh) * 2019-05-08 2019-09-17 深圳市战音科技有限公司 一种电子画板临摹方法及相关设备
CN110427142A (zh) * 2019-07-29 2019-11-08 成都科鸿智信科技有限公司 一种基于Html5 canvas标签制作的特种设备监管平台用画图工具
US11373095B2 (en) * 2019-12-23 2022-06-28 Jens C. Jenkins Machine learning multiple features of depicted item

Also Published As

Publication number Publication date
WO2022028313A1 (en) 2022-02-10
US20220044451A1 (en) 2022-02-10
US11386589B2 (en) 2022-07-12

Similar Documents

Publication Publication Date Title
CN115812221A (zh) 图像生成及着色方法及装置
JP3189870B2 (ja) 画像処理装置
JP5437934B2 (ja) 画像中のピクセルの機械支援による人為的ラベル付けのシステムおよびグラウンドトゥルースラベラユーザインターフェース表示装置
CN110880000B (zh) 图片文字定位方法、装置、计算机设备和存储介质
JP2003298837A (ja) 電子画像を作成し操作するための図形入力及び表示システム、表示装置に入力されたソース電子画像を意味のある画像オブジェクトに編成するための方法、及びコンピュータ読取り可能プログラムコードが組み込まれたコンピュータ使用可能媒体を含む製品
CN105159869B (zh) 图片编辑方法及系统
CN110097616B (zh) 一种联合绘画方法、装置、终端设备及可读存储介质
JP3740351B2 (ja) 画像加工装置および方法およびこの方法の実行プログラムを記録した記録媒体
US20220405899A1 (en) Generating image masks from digital images via color density estimation and deep learning models
CN112784531A (zh) 一种基于深度学习和部件拼接的中文字形及字库生成方法
CN108230236B (zh) 数字图像自动拼版方法及数字化出版的图片拼版方法
CN110969641A (zh) 图像处理方法和装置
CN113158977B (zh) 改进FANnet生成网络的图像字符编辑方法
CN114419632A (zh) 一种ocr训练样本生成方法、装置及系统
CN108399288B (zh) 一种在平面设计中自动添加装饰元素的装置
CN114332895A (zh) 文本图像合成方法、装置、设备、存储介质和程序产品
CN112927321B (zh) 基于神经网络的图像智能设计方法、装置、设备及存储介质
US6538756B1 (en) Information processing apparatus and recording medium with pattern generation programs recorded thereon
CN114565702A (zh) 文本图像生成方法、装置及电子设备
CN114240734A (zh) 图像数据增广方法、装置、电子设备及存储介质
CN113838158A (zh) 一种图像和视频的重构方法、装置、终端设备及存储介质
CN115843375A (zh) 徽标标注方法及装置、徽标检测模型更新方法及系统、存储介质
EP2466548A1 (en) Method of processing an object-based image file with content type dependent image processing algorithms
Morita et al. Inscription Segmentation Using Synthetic Inscription Images for Text Detection at Stone Monuments
JP5824309B2 (ja) 画像処理装置、画像処理方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination