CN111967533B - 一种基于场景识别的草图图像翻译方法 - Google Patents

一种基于场景识别的草图图像翻译方法 Download PDF

Info

Publication number
CN111967533B
CN111967533B CN202010913017.1A CN202010913017A CN111967533B CN 111967533 B CN111967533 B CN 111967533B CN 202010913017 A CN202010913017 A CN 202010913017A CN 111967533 B CN111967533 B CN 111967533B
Authority
CN
China
Prior art keywords
image
scene
network
sketch
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010913017.1A
Other languages
English (en)
Other versions
CN111967533A (zh
Inventor
周凡
陈茜茜
苏卓
林淑金
王若梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202010913017.1A priority Critical patent/CN111967533B/zh
Publication of CN111967533A publication Critical patent/CN111967533A/zh
Application granted granted Critical
Publication of CN111967533B publication Critical patent/CN111967533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/80Creating or modifying a manually drawn or painted image using a manual input device, e.g. mouse, light pen, direction keys on keyboard
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于场景识别的草图图像翻译方法。用户在所选取的场景图背景上交互式的逐步绘制草图,系统根据场景识别网络识别出的场景图类别对轮廓草图进行语义匹配得到对象类别,再根据对象类别与草图,利用部分草图形状完成网络与完整图像外观生成网络进行轮廓与外观合成,经过交互式的绘制最终生成需要的前景对象图像。本发明可以允许用户不用进行整个场景级别的草图绘制,只需在现有的场景背景图上描绘前景部分的对象草图,系统会自动进行与背景场景图语义匹配的对象完成,使得最终生成的图像质量与清晰度更高。

Description

一种基于场景识别的草图图像翻译方法
技术领域
本发明涉及计算机视觉、图像处理技术领域,具体涉及一种基于场景识别的草图图像翻译方法。
背景技术
绘制草图是用于人类表达和传递信息的最自然与灵活的途径之一。近年来随着触屏设备的日益普及,在触屏上以寥寥数笔绘制草图来表达人类的视觉需求,已经成为重要的人机的交互方式。随着深度学习在图像处理领域的蓬勃发展,草图完成、草图识别、草图编辑和草图检索等一系列草图领域的技术应用得以飞速发展。
草图-图像翻译是一类图像生成任务。结合用户界面,用户可以在目标域中利用徒手绘制的抽象草图快速创建图像。由于草图具有高度抽象性,且不同人绘制的草图在完成的准确度与风格上可能有很大的不同,因此草图-图像翻译问题仍面临着巨大的挑战。
场景识别与分类问题是计算机视觉领域中的重要问题。场景由图像中的局部对象、全局布局和背景环境多级信息组成。随着深度学习技术的巨大进展,大规模的场景数据集基准(如Place2、Place365等)得以建立,基于深度学习的解决方案取代了基于原始手工提取特征的解决方案,从而更好地促进了场景识别与分类性能的提高。
目前的现有技术之一是Ghosh等的《Interactive sketch&fill:Multiclasssketch-to-image translation》所提出的SkinnyResnet网络结构,该方法根据用户输入的类条件,通过对用户逐步绘制的部分轮廓草图进行及时反馈,交互式的向用户推荐合理的草图完成轮廓并显示相应的合成图像,从而有效地帮助新手用户创建简单对象的图像。该方法将交互式图像生成的问题分为两个阶段:稀疏的用户草图对象形状的完成与完成形状草图的外观合成。但通常一幅图像中除了单个对象之外,可能还包含有其他多个对象、空间布局与背景环境信息,因此该方法的缺点是:1)生成的空白背景图片无法很好的适用于图像识别、图像检索等更进一步的图像任务;2)该方法需要用户点击类别按钮进行类条件选择,不能够根据背景图进行语义匹配自动进行选择。
目前的现有技术之二是Gao等的《Image Generation from Freehand SceneSketches》所提出的edgeGAN网络结构,该方法能够从徒手绘制的场景草图中可控的生成具有许多对象和关系的逼真图像,包括:1)通过草图分割模型首先分割识别出场景草图中所有的对象实例;2)由前景生成模型edgeGAN生成每个对象实例的图像内容,edgeGAN学习图象和图像边缘的联合嵌入,通过属性向量连接共享属性空间表示,从而将场景草图-图象生成任务转换为边缘图-图象生成任务,大大降低了收集场景草图数据的要求,并且可以应对用户具有不同绘画风格的挑战;3)将步骤2中生成的结果联合背景草图利用Pix2Pix模型生成最终的场景图象。缺点是难以如实地再现带有许多对象和关系的高质量复杂场景。由于不同的用户具有不同的草图绘画风格,现有的技术难以在完全满足用户需求的条件下生成逼真的场景图像。且由于用户主要关心的是图象中的前景部分,对于背景部分用户往往只画简单的几笔,使得场景草图-图象翻译任务仍然面临着巨大的挑战。
发明内容
本发明的目的是克服现有方法的不足,提出了一种基于场景识别的草图图像翻译方法。本发明解决的主要问题是,用户如何在需求的背景场景图上进行前景草图的绘制,使得前景草图的生成类别能够根据背景场景的内容语义自动进行匹配与控制。
为了解决上述问题,本发明提出了一种基于场景识别的草图图像翻译方法,所述方法包括:
构建对象数据集与场景数据集并进行语义匹配,对对象数据集的原始图像进行边缘检测与简化从而得到完整对象边缘图像,之后进行随机遮挡掩模处理以模拟用户的部分草图输入从而得到不完整对象边缘图像,对场景数据集进行场景识别预训练产生OPlace365-Resnet50网络;
用户从所述场景数据集中选取场景背景图,然后利用所述OPlace365-Resnet50网络对所选取的场景背景图进行分类识别,得到场景类别;
利用所述完整对象边缘图像和所述不完整对象边缘图像作为数据集训练部分草图形状完成网络,利用所述对象数据集的原始图像和所述完整对象边缘图像作为数据集训练完整图像外观生成网络;
所述场景类别通过所述语义匹配得到对应的对象类别,之后所述部分草图形状完成网络根据对象类别和用户描绘的部分草图生成完整的草图轮廓,然后所述完整图像外观生成网络再根据对象类别和所生成的完整草图轮廓生成带有颜色和纹理的前景图像;
用户根据所述带有颜色和纹理的前景图像交互式的进行下一笔草图描绘,直到生成在所述用户选取的场景背景图上满足用户需求的前景对象图像,即为最终生成图像。
优选地,所述构建对象数据集与场景数据集并进行语义匹配,具体为:
从Place365数据集中提取其中的二十个类别构建成场景数据集;
对象数据集与场景数据集各包括二十个类别的图像;
对对象数据集中二十个类别的图像与场景数据集中二十个类别的图像进行一对一的语义匹配。
优选地,所述部分草图形状完成网络,具体为:
部分草图形状完成网络采用Pix2Pix结构,包含一个生成器Gs和一个判别器Ds
生成器Gs采用加入跳跃连接skip connection的U-Net网络结构,包括:将所述对象类别连同所述用户描绘的部分草图作为网络输入,每个网络层都加入批标准化层BatchNormalization与线性整流函数ReLU,网络最后一层的输出采用双曲正切函数tanh作为激活函数;
判别器Ds由PatchGAN组成,包括:每个网络层都加入批标准化层BatchNormalization与带泄露线性整流函数Leaky ReLU,判别器将输入图片分为多块,对每一块都给出一个分数,最后对所有块的分数求平均。
优选地,所述完整图像外观生成网络,具体为:
完整图像外观生成网络包含一个生成器Gt和一个判别器Dt
生成器Gt采用改进的U-Net网络结构GU-Net,包括:GU-Net的前五个卷积层得到的特征图分别与类条件向量级联,得到级联特征图,再利用GRU循环神经网络将卷积层的第五层级联特征图和与之相应成镜像关系的反卷积层特征图进行跳跃连接,每个网络层都加入标准化层Instance Normalization与带泄露线性整流函数Leaky ReLU,上采样Upsample和下采样Downsample均采用最近邻插值采样;
判别器Dt包括:前三个卷积层得到的特征图分别与类条件向量级联,得到级联特征图,最后一个卷积层输出的特征图采用Sigmoid激活函数。
本发明提出的一种基于场景识别的草图图像翻译方法,可以允许用户不用进行整个场景级别的草图绘制,只需在现有的场景背景图上描绘前景部分的对象草图,系统会自动进行与背景场景图语义匹配的对象完成,使得最终生成的图像质量与清晰度更高。
附图说明
图1是本发明实施例的一种基于场景识别的草图图像翻译方法的总体流程图;
图2是本发明实施例的部分草图形状完成网络生成器Gs的结构图;
图3是本发明实施例的部分草图形状完成网络判别器Ds的结构图;
图4是本发明实施例的完整图像外观生成网络生成器Gt的结构图;
图5是本发明实施例的完整图像外观生成网络判别器Dt的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的一种基于场景识别的草图图像翻译方法的总体流程图,如图1所示,该方法包括:
S1,构建对象数据集与场景数据集并进行语义匹配,对对象数据集的原始图像进行边缘检测与简化从而得到完整对象边缘图像,之后进行随机遮挡掩模处理以模拟用户的部分草图输入从而得到不完整对象边缘图像,对场景数据集进行场景识别预训练产生OPlace365-Resnet50网络;
S2,用户从所述场景数据集中选取场景背景图,然后利用所述OPlace365-Resnet50网络对所选取的场景背景图进行分类识别,得到场景类别;
S3,利用所述完整对象边缘图像和所述不完整对象边缘图像作为数据集训练部分草图形状完成网络,利用所述对象数据集的原始图像和所述完整对象边缘图像作为数据集训练完整图像外观生成网络;
S4,所述场景类别通过所述语义匹配得到对应的对象类别,之后所述部分草图形状完成网络根据对象类别和用户描绘的部分草图生成完整的草图轮廓,然后所述完整图像外观生成网络再根据对象类别和所生成的完整草图轮廓生成带有颜色和纹理的前景图像;
S5,用户根据所述带有颜色和纹理的前景图像交互式的进行下一笔草图描绘,直到生成在所述用户选取的场景背景图上满足用户需求的前景对象图像,即为最终生成图像。
步骤S1,具体如下:
S1-1,对收集的二十个类别对象数据集(篮球、足球、蛋糕等)与从Place365数据集中提取的二十个类别的场景数据集图象(篮球场、草坪、厨房等)进行一对一的语义匹配,例如篮球场与篮球,草坪与足球、厨房与蛋糕等。
S1-2,利用边缘检测算法HED提取出对象数据集中图像的边缘并进行边缘简化。
S1-3,使用三种不同尺寸大小的空白矩形块(64*64,128*128,192*192)对S1-2中简化的对象边缘图像进行随机遮挡掩模处理以模拟用户的部分草图输入。
S1-4,对S1-1步骤中从Place365数据集中提取的二十个类别场景数据集的图像基于Resnet50网络模型进行场景识别预训练,产生OPlace365-Resnet50预训练网络。
步骤S2,具体如下:
用户从场景数据集中选取场景背景图,输入S1-4步骤中预训练出的OPlace365-Resnet50网络,输出背景图片的场景分类概率:
Figure BDA0002663973560000071
其中,K为场景数据集中场景类别的数量,fk为样本在第K个类别的分数,F∈RK为线性层生成的K维向量,l(F)表示对K维向量F进行softmax操作。由分类概率确定最终的场景类别M。
步骤S3,具体如下:
S3-1,部分草图形状完成网络负责将用户输入的对象部分草图(即不完整对象边缘图像)翻译成完整对象边缘图像,采用Pix2Pix结构,包含一个生成器Gs和一个判别器Ds
S3-1-1,生成器Gs采用加入跳跃连接skip connection的U-Net网络结构,如图2所示,包括:
(a)将所述对象类别连同所述用户描绘的部分草图作为网络输入;
(b)每个网络层都加入批标准化层Batch Normalization与线性整流函数ReLU;
(c)网络最后一层的输出采用双曲正切函数tanh作为激活函数。
S3-1-2,判别器Ds由PatchGAN组成,如图3所示,包括:
(a)每个网络层都加入批标准化层Batch Normalization与带泄露线性整流函数Leaky ReLU;
(b)判别器将输入图片分为多块,对每一块都给出一个分数,最后对所有块的分数求平均。
S3-2,完整图像外观生成网络负责将部分草图形状完成网络输出的完整对象边缘图像翻译为最终带有颜色和纹理的对象图像,包含一个生成器Gt和一个判别器Dt
S3-2-1,生成器Gt采用改进的U-Net网络结构GU-Net,如图4所示,包括:
(a)GU-Net的前五个卷积层得到的特征图分别与类条件向量级联,得到级联特征图;
(b)再利用GRU循环神经网络将卷积层的第五层级联特征图和与之相应成镜像关系的反卷积层特征图进行跳跃连接。设类条件向量为p,第4层编码层的特征图为fenc,第5层级联后的隐藏状态为s,根据公式(2)更新隐藏状态以匹配不同层的特征图尺寸大小:
sg=WT*[s,p] (2)
对上采样更新后的隐藏状态sg和特征图fenc利用GRU进行处理:
rl=σ(Wr*[[fenc,p],sg]) (3)
zl=σ(Wz*[[fenc,p],sg]) (4)
Figure BDA0002663973560000091
Figure BDA0002663973560000092
Figure BDA0002663973560000093
其中,[,]表示级联操作,WT*表示反卷积操作,σ表示Sigmoid函数,Wz*、Wr*、Wh*表示卷积操作,
Figure BDA0002663973560000094
表示点乘,tanh表示双曲正切函数,rl和zl分别代表第l层的重置门控和更新门控,sl为隐藏状态的输出,
Figure BDA0002663973560000095
为更新后的特征图,
Figure BDA0002663973560000096
为经过转换的编码特征的输出。
(c)每个网络层都加入标准化层Instance Normalization与带泄露线性整流函数Leaky ReLU;
(d)上采样Upsample和下采样Downsample均采用最近邻插值采样。
S3-2-2,判别器Dt如图5所示,包括:
(a)前三个卷积层得到的特征图分别与类条件向量级联,得到级联特征图;
(b)最后一个卷积层输出的特征图采用Sigmoid激活函数。
S3-3,部分草图形状完成网络与完整图像外观生成网络的损失函数Ltotal采用cGAN损失函数LcGAN与L1损失函数,λ为超参数:
L1=||x-G(x)||1 (8)
Figure BDA0002663973560000101
Ltotal=λL1+LcGAN (10)
其中,x为原始真实数据,符合Pdata分布。y为标签,z是噪声数据,噪声数据符合Pz(z)分布,例如高斯分布或者均匀分布。G和D分别代表生成器和判别器。
步骤S4,具体如下:
将S2步骤中识别出的背景图场景类别M映射到步骤S1-1中语义匹配得到对象类别O;
本实施例中,需要编码对象类别O为One-Hot Encoding形式的类条件向量C;
类条件向量C作为基于cGAN的部分草图形状完成网络与完整图像外观生成网络两个子网络的类条件向量,指导草图图像翻译过程的完成;
之后部分草图形状完成网络根据类条件向量C和用户描绘的部分草图生成完整的草图轮廓,然后完整图像外观生成网络再根据类条件向量C和所生成的完整草图轮廓生成最终带有颜色和纹理的前景图像。
本发明实施例提出的一种基于场景识别的草图图像翻译方法,可以允许用户不用进行整个场景级别的草图绘制,只需在现有的场景背景图上描绘前景部分的对象草图。系统会自动进行与背景场景图语义匹配的对象完成,使得最终生成的图像质量与清晰度更高。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的一种基于场景识别的草图图像翻译方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (2)

1.一种基于场景识别的草图图像翻译方法,其特征在于,所述方法包括:
构建对象数据集与场景数据集并进行语义匹配,对对象数据集的原始图像进行边缘检测与简化从而得到完整对象边缘图像,之后进行随机遮挡掩模处理以模拟用户的部分草图输入从而得到不完整对象边缘图像,对场景数据集进行场景识别预训练产生OPlace365-Resnet50网络;
用户从所述场景数据集中选取场景背景图,然后利用所述OPlace365-Resnet50网络对所选取的场景背景图进行分类识别,得到场景类别;
利用所述完整对象边缘图像和所述不完整对象边缘图像作为数据集训练部分草图形状完成网络,利用所述对象数据集的原始图像和所述完整对象边缘图像作为数据集训练完整图像外观生成网络;
所述场景类别通过所述语义匹配得到对应的对象类别,之后所述部分草图形状完成网络根据对象类别和用户描绘的部分草图生成完整的草图轮廓,然后所述完整图像外观生成网络再根据对象类别和所生成的完整草图轮廓生成带有颜色和纹理的前景图像;
用户根据所述带有颜色和纹理的前景图像交互式的进行下一笔草图描绘,直到生成在所述用户选取的场景背景图上满足用户需求的前景对象图像,即为最终生成图像;
其中,所述部分草图形状完成网络,具体为:
部分草图形状完成网络采用Pix2Pix结构,包含一个生成器Gs和一个判别器Ds
生成器Gs采用加入跳跃连接skip connection的U-Net网络结构,包括:将所述对象类别连同所述用户描绘的部分草图作为网络输入,每个网络层都加入批标准化层BatchNormalization与线性整流函数ReLU,网络最后一层的输出采用双曲正切函数tanh作为激活函数;
判别器Ds由PatchGAN组成,包括:每个网络层都加入批标准化层Batch Normalization与带泄露线性整流函数Leaky ReLU,判别器将输入图片分为多块,对每一块都给出一个分数,最后对所有块的分数求平均;
其中,所述完整图像外观生成网络,具体为:
完整图像外观生成网络包含一个生成器Gt和一个判别器Dt
生成器Gt采用改进的U-Net网络结构GU-Net,包括:GU-Net的前五个卷积层得到的特征图分别与类条件向量级联,得到级联特征图,再利用GRU循环神经网络将卷积层的第五层级联特征图和与之相应成镜像关系的反卷积层特征图进行跳跃连接,每个网络层都加入标准化层Instance Normalization与带泄露线性整流函数Leaky ReLU,上采样Upsample和下采样Downsample均采用最近邻插值采样;
判别器Dt包括:前三个卷积层得到的特征图分别与类条件向量级联,得到级联特征图,最后一个卷积层输出的特征图采用Sigmoid激活函数。
2.如权利要求1所述的一种基于场景识别的草图图像翻译方法,其特征在于,所述构建对象数据集与场景数据集并进行语义匹配,具体为:
从Place365数据集中提取其中的二十个类别构建成场景数据集;
对象数据集与场景数据集各包括二十个类别的图像;
对对象数据集中二十个类别的图像与场景数据集中二十个类别的图像进行一对一的语义匹配。
CN202010913017.1A 2020-09-03 2020-09-03 一种基于场景识别的草图图像翻译方法 Active CN111967533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010913017.1A CN111967533B (zh) 2020-09-03 2020-09-03 一种基于场景识别的草图图像翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010913017.1A CN111967533B (zh) 2020-09-03 2020-09-03 一种基于场景识别的草图图像翻译方法

Publications (2)

Publication Number Publication Date
CN111967533A CN111967533A (zh) 2020-11-20
CN111967533B true CN111967533B (zh) 2022-09-23

Family

ID=73393501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010913017.1A Active CN111967533B (zh) 2020-09-03 2020-09-03 一种基于场景识别的草图图像翻译方法

Country Status (1)

Country Link
CN (1) CN111967533B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668463B (zh) * 2020-12-25 2022-12-02 株洲手之声信息科技有限公司 一种基于场景识别的中文手语翻译方法及系统
CN112668464B (zh) * 2020-12-25 2022-12-02 株洲手之声信息科技有限公司 一种融合场景匹配的中文手语翻译模型构建方法及装置
CN112634302B (zh) * 2020-12-28 2023-11-28 航天科技控股集团股份有限公司 基于深度学习的移动端类矩形物体边缘检测方法
CN113487629B (zh) * 2021-07-07 2023-04-07 电子科技大学 一种基于结构化场景和文本描述的图像属性编辑方法
CN116909750B (zh) * 2023-07-26 2023-12-22 江苏中天吉奥信息技术股份有限公司 一种基于图像的场景白膜快速化生产方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111236A (zh) * 2019-04-19 2019-08-09 大连理工大学 基于渐进式对抗生成网络的多目标草图生成图像的方法
CN110634170A (zh) * 2019-08-30 2019-12-31 福建帝视信息科技有限公司 一种基于语义内容和快速图像检索的照片级图像生成方法
CN113221857A (zh) * 2021-06-16 2021-08-06 深圳大学 一种基于草图交互的模型变形方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120133664A1 (en) * 2010-11-29 2012-05-31 Lotus Hill Institute For Computer Vision And Information Science System and method for painterly rendering based on image parsing
JP2018523251A (ja) * 2015-08-03 2018-08-16 オランド エセ.ア. カタログ内の製品を検索するためのシステムおよび方法
CN111291212B (zh) * 2020-01-24 2022-10-11 复旦大学 基于图卷积神经网络的零样本草图图像检索方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111236A (zh) * 2019-04-19 2019-08-09 大连理工大学 基于渐进式对抗生成网络的多目标草图生成图像的方法
CN110634170A (zh) * 2019-08-30 2019-12-31 福建帝视信息科技有限公司 一种基于语义内容和快速图像检索的照片级图像生成方法
CN113221857A (zh) * 2021-06-16 2021-08-06 深圳大学 一种基于草图交互的模型变形方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Data-Driven Approach for Sketch-Based 3D Shape Retrieval via Similar Drawing-Style Recommendation;Fan Zhou 等;《computer graphic forum》;20170730;第157-166页 *
基于双层级联GAN的草图到真实感图像的异质转换;蔡雨婷 等;《模式识别与人工智能》;20181031;第31卷(第10期);第877-886页 *

Also Published As

Publication number Publication date
CN111967533A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN111967533B (zh) 一种基于场景识别的草图图像翻译方法
Dong et al. Semantic image synthesis via adversarial learning
CN110111236B (zh) 基于渐进式对抗生成网络的多目标草图生成图像的方法
Zhang et al. Action recognition from arbitrary views using transferable dictionary learning
CN108334830A (zh) 一种基于目标语义和深度外观特征融合的场景识别方法
Li et al. 3D model generation and reconstruction using conditional generative adversarial network
Joseph et al. C4synth: Cross-caption cycle-consistent text-to-image synthesis
Liu et al. Sketch-to-art: Synthesizing stylized art images from sketches
Zhong et al. Towards practical sketch-based 3d shape generation: The role of professional sketches
CN113255457A (zh) 基于人脸表情识别的动画角色面部表情生成方法及系统
CN111583408B (zh) 基于手绘草图的人体三维建模系统
Qi et al. Personalized sketch-based image retrieval by convolutional neural network and deep transfer learning
Kim et al. Image-based TF colorization with CNN for direct volume rendering
Yang et al. Ai-generated images as data source: The dawn of synthetic era
Wei et al. Segmentation and synthesis of embroidery art images based on deep learning convolutional neural networks
Yang et al. View suggestion for interactive segmentation of indoor scenes
CN115984400A (zh) 基于手绘草图的图像自动生成方法及系统
Wang et al. Generative model with coordinate metric learning for object recognition based on 3D models
Yang et al. Learning 3D scene semantics and structure from a single depth image
Chang et al. 3D hand reconstruction with both shape and appearance from an RGB image
Ghelfi et al. Adversarial pixel-level generation of semantic images
Jia et al. Facial expression synthesis based on motion patterns learned from face database
Fukaya et al. Intelligent generation of graphical game assets: A conceptual framework and systematic review of the state of the art
Mahoney The v-sketch system, machine assisted design exploration in virtual reality
Tata et al. 3D GANs and Latent Space: A comprehensive survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant