CN111899203A - 基于标注图在无监督训练下的真实图像生成方法及存储介质 - Google Patents

基于标注图在无监督训练下的真实图像生成方法及存储介质 Download PDF

Info

Publication number
CN111899203A
CN111899203A CN202010661461.9A CN202010661461A CN111899203A CN 111899203 A CN111899203 A CN 111899203A CN 202010661461 A CN202010661461 A CN 202010661461A CN 111899203 A CN111899203 A CN 111899203A
Authority
CN
China
Prior art keywords
graph
output
image
loss
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010661461.9A
Other languages
English (en)
Other versions
CN111899203B (zh
Inventor
高联丽
朱俊臣
宋井宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Guizhou University
Original Assignee
University of Electronic Science and Technology of China
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, Guizhou University filed Critical University of Electronic Science and Technology of China
Priority to CN202010661461.9A priority Critical patent/CN111899203B/zh
Publication of CN111899203A publication Critical patent/CN111899203A/zh
Application granted granted Critical
Publication of CN111899203B publication Critical patent/CN111899203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于标注图在无监督训练下的真实图像生成方法及存储介质,该方法包括将标注图输入生成器生成3张不同尺寸的输出图像;采用分级视觉感知判别器得到6个判别结果;将判别结果采用对抗损失函数转化为对抗损失;生成模糊图片,之后计算模糊图片输入分级视觉感知判别器得到的判别结果的对抗损失;将输出图像进行相邻两两分组后,输入VGG19网络中,之后计算图像一致损失;将输出图片输入到三个不共享参数的语义分割网络ICNet中,计算返还分割损失;采集四个损失值得到的最终损失对整个网络进行优化,并在网络未收敛时返回第一步,收敛时将优化后的生成器作为图像生成模型;采用图像生成模型将输入的标注图生成真实图像。

Description

基于标注图在无监督训练下的真实图像生成方法及存储介质
技术领域
本发明涉及图像处理方法,具体涉及一种基于标注图在无监督训练下的真实图像生成方法及存储介质。
背景技术
随着深度神经网络的发展,图像分类、图像分割和图像目标检测等技术已经相对较为成熟并得到了广泛的应用。但是,图像生成相关的技术由于其面对高质量高分辨率要求时效果较差,且模型训练和使用时不稳定,而未得到广泛的应用支持。其中基于标注图像的真实图像生成是功能性最强的方向之一,它利用用户给出的标注图,可以是语义标注图,也可以是手绘的近似轮廓图,生成对应的真实图像。由于生成的真实图像具有现实且丰富的内容,而生成源作为标注图和生成结果有语义及边界轮廓上的对应关系,因此该方向的研究有助于实现计算机视觉中的其他高级任务,如图像分割,也可以直接用于现实的应用程序。
目前来说,已有的应用于基于标注图像的真实图像生成方法主要有以下几个方面的缺陷:1)现有模型在向更高分辨率的图片生成拓展时效果会急剧下降;2)现有模型无法做到生成质量与生成效率的良好平衡;3)现有架构大多为通用性模型,针对的是广泛的图像转换生成型任务,没有充分考虑到该任务下的某些具体特性;4)现有效果相对较好的模型都需要成对的数据进行完全监督式训练,成本相对较高。
发明内容
针对现有技术中的上述不足,本发明提供的基于标注图在无监督训练下的真实图像生成方法及存储介质通过输出的多个判别结果结合多个损失函数,解决了现有算法中运行不稳定的问题。
为了达到上述发明目的,本发明采用的技术方案为:
第一方面,提供一种基于标注图在无监督训练下的真实图像生成方法,其包括:
S1、抽取数据集中一张真实图片和一张标注图,并将标注图输入生成器生成3张不同尺寸的输出图像;
S2、将真实图片缩小为三张与输出图像尺寸对应的缩放图,并将三组缩放图和对应的输出图像分别输入三个不共享参数的分级视觉感知判别器得到6个判别结果;
S3、将所有的判别结果采用对抗损失函数转化为对抗损失;
S4、采用三张缩放图缩小并放大至原始尺寸形成的模糊图片更新输出图像,之后执行步骤S2和步骤S3,之后进入步骤S5;
S5、将步骤S1的三张输出图像进行相邻两两分组,将两组中大尺寸降采样至等于小尺寸后,同时将两组输入在ImageNet数据集上预训练好的VGG19网络中,取其中五层输出进行二范数求距离并归一化得到图像一致损失;
S6、将步骤S1的三张输出图片分别输入到三个不共享参数的语义分割网络ICNet中,得到返还的语义分割结果,将语义分割结果与标注图进行比对,采用交叉熵损失计算函数计算得到返还分割损失;
S7、将两个对抗损失、图像一致损失和返还分割损失按权重加权得到整个网络需要优化的最终损失,之后按照最终损失对应参数对整个网络进行优化,并在网络未收敛时返回步骤S1,收敛时将优化后的生成器作为图像生成模型;
S8、获取待处理标注图,并对待处理标注图进行归一化处理,之后将归一化处理后的标注图输入图像生成模型,得到真实图像。
第二方面,提供一种存储介质,存储介质存储有多条指令,所述指令适于处理器进行加载,以执行基于标注图在无监督训练下的真实图像生成方法中的步骤。
本发明的有益效果为:本方案的真实图像生成方法着重处理标注到真实图像的问题,是一种以对抗性生成网络为基本架构的算法,通过对无监督训练的支持,极大地降低了模型训练时的数据要求。
图像生成时,本方案根据输入的标注图和输出的真实图像的不同的特性,通过分级式视觉感知判别器和多个损失函数的结合,来保证整个算法最终的综合性能,解决了现有算法中运行不稳定,难以扩展和资源开销大的问题。
附图说明
图1为基于标注图在无监督训练下的真实图像生成方法的流程图。
图2为基于标注图像的无监督训练下的真实图像生成算法整体框架图。
图3为双向注意力模块结构图。
图4为分级式视觉感知判别器结构图。
图5为仿真实验1输入的标准图与采用本方法生成的真实图像的对比图。
图6为仿真实验2输入的标准图与采用本方法生成的真实图像的对比图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
参考图1,图1示出了基于标注图在无监督训练下的真实图像生成方法的流程图,如图1和图2所示,该方法S包括步骤S1至步骤S8。
在步骤S1中,抽取数据集中一张真实图片和一张标注图,并将标注图输入生成器生成3张不同尺寸的输出图像;本方案的标准图的类型有两种,一种是语义标注图,另一种是手绘标注图。
在本发明的一个实施例中,在步骤S1中,将标注图输入生成器之前还包括:
B1、判断所述标注图是否为语义标注图,若是,进入步骤B3,否则进入步骤B2;
B2、将所述标注图输入编码器中进行编码,将图片中稀疏的有效信息聚合起来形成稠密的特征,作为标注图特征,之后进入步骤B2;
B3、随机产生一个正态分布的噪声向量,并通过全连接网络将噪声向量映射到特征空间,之后通过改变维数将其转化为一个具有宽和高的张量;
B4、当所述标注图为语义标注图时,将所述张量作为输入生成器的标注图;当所述标注图非语义标注图时,将所述标注图特征与所述张量进行拼接作为输入生成器的标注图。
将标注图输入生成器(参考图2)生成3张不同尺寸的输出图像进一步包括:
将标注图输入生成器包含的N个级联的残差式生成模块中,每个残差式生成模块将标注图M转化为特征张量,采用特征张量对输入其的图片特征进行重归一化,之后进入上采样层将图片的宽和高都放大两倍;
在最后三个上采样层后加入双向注意力模块,每个双向注意力模块的输入为与其连接的上采样层的输出、上一级上采样层的输出和标注图,每个双向注意力模块的输出经过卷积层后,分别得到一张生成器的输出图像。
如图3所示,双向注意力模块接收三个输入后,执行如下步骤:
将三个输入扩展到同一尺寸后,在通道维度上进行拼接并卷积激活,生成一个取值范围为(0,1)的注意力图;
将注意力图与经过处理后的上级特征相乘及将注意力图的反向图与该级特征相乘,之后将相乘后得到的两个图片特征进行相加得到最终的输出结果。
本方案双向注意力模块将多级的特征通过标志的指导进行融合,可以提升最终输出的图片质量。
在步骤S2中,将真实图片缩小为三张与输出图像尺寸对应的缩放图,并将三组缩放图和对应的输出图像分别输入三个不共享参数的分级视觉感知判别器得到6个判别结果。
在本发明的一个实施例中,所述分级视觉感知判别器均包括视觉感知分支和主分支;分级视觉感知判别器的结构参考图4。
所述视觉感知分支由在ImageNet数据集上预训练好的VGG16网络去掉全连接层构成,并在卷积层1-1至池化层3、卷积层4-1至池化层4及卷积层5-1至池化层5后进行特征输出;
所述主分支包括依次连接的卷积层、特征拼接模块、卷积层、小型多分支处理模块、特征拼接模块、卷积层、小型多分支处理模块、特征拼接模块和卷积层;每个特征拼接模块后的卷积层的输出分别经过卷积层和Sigmoid函数输出判别结果;
分级视觉感知判别器中的池化层3、池化层4和池化层5处的输出分别在主分支中的第一特征拼接模块、第二个特征拼接模块和第三个特征拼接模块内进行特征拼接;
当输入大小为
Figure BDA0002578728730000061
的图片时,保留分级视觉感知判别器的第一个判别结果;当输入大小为
Figure BDA0002578728730000062
的图片时,保留分级视觉感知判别器的第一个和第二个判别结果;当输入大小为H×W的图片时,保留分级视觉感知判别器的三个判别结果;H为图片的高,W为图片的宽。
分级视觉感知判别器的主分支采用上述结构后,使得判别器能够以较小的计算代价,获得对特征充分的提取。
上述分级式视觉感知判别器采用多分支和预训练好的视觉感知网络并继承了小型多分支处理模块,对图片进行多级的判别,以达到对图片的生成进行良好约束,以提升其最终质量的目的。
在本发明的一个实施例中,所述步骤S2和步骤S3之间还包括:
A1、判断输入的标注图是否为语义标注图,若是,执行步骤A2,否则执行步骤S3;
A2、对标注图进行前景和背景划分,得到0-1二值的前景图和背景图,并计算前景图所有前景像素点数量之和A和背景图所有背景像素点数量之和B;
A3、根据前景像素点数量之和A和背景像素点数量之和B,计算背景弱化权重P=(A+B)/(T×A+B),前景增强权重为T×P,T为增强比;
A4、将前景增强权重T×P回填至前景图值为1的位置,其余位置填为背景权重P,得到一张前景增强图,将前景增强图通过平均池化得到不同大小的前景增强图;
A5、将步骤S1的三张输出图像的判别结果与对应大小的前景增强图相乘更新判别结果,之后进入步骤S3。
依靠输入的标注图,计算得到前景增强图作用于判别器的判别结果,加强了判别器对于前景区域的判别能力,以此提升更为重要的前景区域生成质量。
在步骤S3中,将所有的判别结果采用对抗损失函数转化为对抗损失:
所述对抗损失函数为:
Figure BDA0002578728730000071
Figure BDA0002578728730000072
Figure BDA0002578728730000073
其中,
Figure BDA0002578728730000074
为对抗损失;
Figure BDA0002578728730000075
为生成器的对抗损失;
Figure BDA0002578728730000076
为判别器的对抗损失;
Figure BDA0002578728730000077
E[.]为数据的期望,
Figure BDA0002578728730000078
为经过前景增强的判别期望;
Figure BDA0002578728730000079
为对于判别器Di的第l个输出的前景增强图;λi1=1,
Figure BDA00025787287300000710
λil和λi(l+1)分别为
Figure BDA00025787287300000711
Figure BDA00025787287300000712
在损失函数中的权重;Xi为第i张输出图像,Yi为第i个缩放图,Di为第i个分级式视觉感知判别器,1≤i≤3;
Figure BDA00025787287300000713
为判别器Di的第l个输出。
本方案生成器以模块化且多级输出的形式,配合以图像一致损失函数,稳定了整个网络的训练,且易于向更高分辨率要求的扩展。
在步骤S4中,采用三张缩放图缩小并放大至原始尺寸形成的模糊图片更新输出图像,之后执行步骤S2和步骤S3,之后进入步骤S5;
采用模糊图片再执行步骤S2和S3的处理,可以得到另外的对抗损失,该部分作为判别器的假样本的额外对抗损失-图像清晰度增强损失
Figure BDA00025787287300000714
以此反过来迫使生成器生成的图片更加清晰。
在步骤S5中,将步骤S1的三张输出图像进行相邻两两分组,将两组中大尺寸降采样至等于小尺寸后,同时将两组输入在ImageNet数据集上预训练好的VGG19网络中,取其中五层输出进行二范数求距离并归一化得到图像一致损失。
其中五层输出分别指卷积1-2,卷积2-2,卷积3-2,卷积4-2和卷积5-2。
实施时,本方案优选所述图像一致损失
Figure BDA0002578728730000081
的计算公式为:
Figure BDA0002578728730000082
其中,
Figure BDA0002578728730000083
为步长为2的池化操作;Φl为卷积l_2的输出;Xi+1为第i+1张输出图像;‖.‖2为欧几里得范数。
在步骤S6中,将步骤S1的三张输出图片分别输入到三个不共享参数的语义分割网络ICNet中,得到返还的语义分割结果,将语义分割结果与标注图进行比对,采用交叉熵损失计算函数(softmax)计算得到返还分割损失;
其中,所述交叉熵损失计算函数为:
Figure BDA0002578728730000084
其中,H和W分别为图片的高和宽,N为整个数据涉及到的物体类别;
Figure BDA0002578728730000085
为语义分割网络Si在(h,w)位置上对于第n个类别的输出,
Figure BDA0002578728730000086
为图片中物体正确的类别。
在步骤S7中,将两个对抗损失、图像一致损失和返还分割损失按权重加权得到整个网络需要优化的最终损失,之后按照最终损失对应参数对整个网络进行优化,并在网络未收敛时返回步骤S1,收敛时将优化后的生成器作为图像生成模型。
最终损失
Figure BDA0002578728730000091
λ2、λ3和λ4为对应损失的权值系数。
在步骤S8中,获取待处理标注图,并对待处理标注图进行归一化处理,之后将归一化处理后的标注图输入图像生成模型,得到真实图像。
本方案还提供一种存储介质,存储介质存储有多条指令,所述指令适于处理器进行加载,以执行基于标注图在无监督训练下的真实图像生成方法中的步骤。
下面结合仿真实验,对本方案的效果进行说明:
设置试验条件为:系统:Ubuntu 18.04,软件:Python 3.6,处理器:Intel Xeon(R)CPU E5-2620 v4@2.10GHz×2,内存:256GB。
实验内容:
仿真实验一:利用本方案对语义标注图作为输入,生成对应的真实图片,结果如附图5所示;
仿真实验二:利用本方案对手绘轮廓标注图作为输入,生成对应的真实图片,结果如附图6所示。
3、实验结果分析:
从图5和图6可以看出,本方案生成的真实图像画面清晰,内容具有丰富且合理的纹理信息,与输入的标注图具有明显的对应关系,说明本发明能大规模的合成高清的真实图像,且合成的图片真实性很好。
下面结合现有技术的图像生成方法,通过仿真实验对本方案的效果进行对比说明:
实验条件:系统:Ubuntu 18.04,软件:Python 3.6,处理器:Intel Xeon(R)CPUE5-2620 v4@2.10GHz×2,内存:256GB;
测试说明:对于每个数据集,依次分别使用每种算法对数据集中的训练集进行训练。训练完毕后,分别用每种算法对该数据集测试集的每张标注图生成其对应的图片。
使用FCN网络在Cityscapes数据集上预先训练完毕。对于每种算法,将生成的图片输入到该FCN网络中,得到预测结果,将预测结果与原始输入的标注图进行比对,可以得到三个分割指标,分别是:像素准确率,类别准确率和平均类别重叠比,参考表1。
将生成图片和真实图片进行RGB像素级求差值,可得到峰值信噪比指标。将图片由RGB空间转化为亮度、对比度和结构空间并求两张图片的亮度、对比度和结构空间相关性,可得到结构相似性指标,参见表1。
使用Inception-V3在ImageNet数据集上预先训练完毕。对于每种算法,将生成的图片和真实的图片输入到该Inception-V3网络中,提取第三个池化层输出的特征,求两者特征的分布差异,得到Frechet Inception距离,参见表2。
表1
Figure BDA0002578728730000101
表2
Figure BDA0002578728730000111
通过表1和表2中的数据的分析对比,可以得知本方案具有生成图片更加符合原有标注图、生成结果与真实图片更为接近和生成图片更加真实等优点。

Claims (10)

1.基于标注图在无监督训练下的真实图像生成方法,其特征在于,包括:
S1、抽取数据集中一张真实图片和一张标注图,并将标注图输入生成器生成3张不同尺寸的输出图像;
S2、将真实图片缩小为三张与输出图像尺寸对应的缩放图,并将三组缩放图和对应的输出图像分别输入三个不共享参数的分级视觉感知判别器得到6个判别结果;
S3、将所有的判别结果采用对抗损失函数转化为对抗损失;
S4、采用三张缩放图缩小并放大至原始尺寸形成的模糊图片更新输出图像,之后执行步骤S2和步骤S3,之后进入步骤S5;
S5、将步骤S1的三张输出图像进行相邻两两分组,将两组中大尺寸降采样至等于小尺寸后,同时将两组输入在ImageNet数据集上预训练好的VGG19网络中,取其中五层输出进行二范数求距离并归一化得到图像一致损失;
S6、将步骤S1的三张输出图片分别输入到三个不共享参数的语义分割网络ICNet中,得到返还的语义分割结果,将语义分割结果与标注图进行比对,采用交叉熵损失计算函数计算得到返还分割损失;
S7、将两个对抗损失、图像一致损失和返还分割损失按权重加权得到整个网络需要优化的最终损失,之后按照最终损失对应参数对整个网络进行优化,并在网络未收敛时返回步骤S1,收敛时将优化后的生成器作为图像生成模型;
S8、获取待处理标注图,并对待处理标注图进行归一化处理,之后将归一化处理后的标注图输入图像生成模型,得到真实图像。
2.根据权利要求1所述的基于标注图在无监督训练下的真实图像生成方法,其特征在于,所述对抗损失函数为:
Figure FDA0002578728720000021
Figure FDA0002578728720000022
Figure FDA0002578728720000023
其中,
Figure FDA0002578728720000024
为对抗损失;
Figure FDA0002578728720000025
为生成器的对抗损失;
Figure FDA0002578728720000026
为判别器的对抗损失;
Figure FDA0002578728720000027
E[.]为数据的期望,
Figure FDA0002578728720000028
为经过前景增强的判别期望;
Figure FDA0002578728720000029
为对于判别器Di的第l个输出的前景增强图;λi1=1,
Figure FDA00025787287200000210
λil和λi(l+1)分别为
Figure FDA00025787287200000211
Figure FDA00025787287200000212
在损失函数中的权重;Xi为第i张输出图像,Yi为第i个缩放图,Di为第i个分级式视觉感知判别器,1≤i≤3;
Figure FDA00025787287200000213
为判别器Di的第l个输出。
3.根据权利要求1所述的基于标注图在无监督训练下的真实图像生成方法,其特征在于,所述图像一致损失
Figure FDA00025787287200000214
的计算公式为:
Figure FDA00025787287200000215
其中,
Figure FDA00025787287200000216
为步长为2的池化操作;Φl为卷积l_2的输出;Xi+1为第i+1张输出图像;‖.‖2为欧几里得范数。
4.根据权利要求1所述的基于标注图在无监督训练下的真实图像生成方法,其特征在于,所述交叉熵损失计算函数为:
Figure FDA00025787287200000217
其中,
Figure FDA0002578728720000031
为返还分割损失;H和W分别为图片的高和宽,N为整个数据涉及到的物体类别;
Figure FDA0002578728720000032
为语义分割网络Si在(h,w)位置上对于第n个类别的输出,
Figure FDA0002578728720000033
为图片中物体正确的类别。
5.根据权利要求1所述的基于标注图在无监督训练下的真实图像生成方法,其特征在于,所述步骤S2和步骤S3之间还包括:
A1、判断输入的标注图是否为语义标注图,若是,执行步骤A2,否则执行步骤S3;
A2、对标注图进行前景和背景划分,得到0-1二值的前景图和背景图,并计算前景图所有前景像素点数量之和A和背景图所有背景像素点数量之和B;
A3、根据前景像素点数量之和A和背景像素点数量之和B,计算背景弱化权重P=(A+B)/(T×A+B),前景增强权重为T×P,T为增强比;
A4、将前景增强权重T×P回填至前景图值为1的位置,其余位置填为背景权重P,得到一张前景增强图,将前景增强图通过平均池化得到不同大小的前景增强图;
A5、将步骤S1的三张输出图像的判别结果与对应大小的前景增强图相乘更新判别结果,之后进入步骤S3。
6.根据权利要求1所述的基于标注图在无监督训练下的真实图像生成方法,其特征在于,所述分级视觉感知判别器均包括视觉感知分支和主分支;
所述视觉感知分支由在ImageNet数据集上预训练好的VGG16网络去掉全连接层构成,并在卷积层1-1至池化层3、卷积层4-1至池化层4及卷积层5-1至池化层5后进行特征输出;
所述主分支包括依次连接的卷积层、特征拼接模块、卷积层、小型多分支处理模块、特征拼接模块、卷积层、小型多分支处理模块、特征拼接模块和卷积层;每个特征拼接模块后的卷积层的输出分别经过卷积层和Sigmoid函数输出判别结果;
分级视觉感知判别器中的池化层3、池化层4和池化层5处的输出分别在主分支中的第一特征拼接模块、第二个特征拼接模块和第三个特征拼接模块内进行特征拼接;
当输入大小为
Figure FDA0002578728720000041
的图片时,保留分级视觉感知判别器的第一个判别结果;当输入大小为
Figure FDA0002578728720000042
的图片时,保留分级视觉感知判别器的第一个和第二个判别结果;当输入大小为H×W的图片时,保留分级视觉感知判别器的三个判别结果;H为图片的高,W为图片的宽。
7.根据权利要求1-6任一所述的基于标注图在无监督训练下的真实图像生成方法,其特征在于,在步骤S1中,将标注图输入生成器之前还包括:
B1、判断所述标注图是否为语义标注图,若是,进入步骤B3,否则进入步骤B2;
B2、将所述标注图输入编码器中进行编码,将图片中稀疏的有效信息聚合起来形成稠密的特征,作为标注图特征,之后进入步骤B2;
B3、随机产生一个正态分布的噪声向量,并通过全连接网络将噪声向量映射到特征空间,之后通过改变维数将其转化为一个具有宽和高的张量;
B4、当所述标注图为语义标注图时,将所述张量作为输入生成器的标注图;当所述标注图非语义标注图时,将所述标注图特征与所述张量进行拼接作为输入生成器的标注图。
8.根据权利要求7所述的基于标注图在无监督训练下的真实图像生成方法,其特征在于,将标注图输入生成器生成3张不同尺寸的输出图像进一步包括:
将标注图输入生成器包含的N个级联的残差式生成模块中,每个残差式生成模块将标注图M转化为特征张量,采用特征张量对输入其的图片特征进行重归一化,之后进入上采样层将图片的宽和高都放大两倍;
在最后三个上采样层后加入双向注意力模块,每个双向注意力模块的输入为与其连接的上采样层的输出、上一级上采样层的输出和标注图,每个双向注意力模块的输出经过卷积层后,分别得到一张生成器的输出图像。
9.根据权利要求8所述的基于标注图在无监督训练下的真实图像生成方法,其特征在于,所述双向注意力模块接收三个输入后,执行如下步骤:
将三个输入扩展到同一尺寸后,在通道维度上进行拼接并卷积激活,生成一个取值范围为(0,1)的注意力图;
将注意力图与经过处理后的上级特征相乘及将注意力图的反向图与该级特征相乘,之后将相乘后得到的两个图片特征进行相加得到最终的输出结果。
10.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至9任一项所述的基于标注图在无监督训练下的真实图像生成方法中的步骤。
CN202010661461.9A 2020-07-10 2020-07-10 基于标注图在无监督训练下的真实图像生成方法及存储介质 Active CN111899203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010661461.9A CN111899203B (zh) 2020-07-10 2020-07-10 基于标注图在无监督训练下的真实图像生成方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010661461.9A CN111899203B (zh) 2020-07-10 2020-07-10 基于标注图在无监督训练下的真实图像生成方法及存储介质

Publications (2)

Publication Number Publication Date
CN111899203A true CN111899203A (zh) 2020-11-06
CN111899203B CN111899203B (zh) 2023-06-20

Family

ID=73192510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010661461.9A Active CN111899203B (zh) 2020-07-10 2020-07-10 基于标注图在无监督训练下的真实图像生成方法及存储介质

Country Status (1)

Country Link
CN (1) CN111899203B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418310A (zh) * 2020-11-20 2021-02-26 第四范式(北京)技术有限公司 文本风格迁移模型训练方法和系统及图像生成方法和系统
CN113221948A (zh) * 2021-04-13 2021-08-06 复旦大学 基于对抗生成网络和弱监督学习的数字切片图像分类方法
CN113487629A (zh) * 2021-07-07 2021-10-08 电子科技大学 一种基于结构化场景和文本描述的图像属性编辑方法
CN113837191A (zh) * 2021-08-30 2021-12-24 浙江大学 基于双向无监督域适应融合的跨星遥感图像语义分割方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945204A (zh) * 2017-10-27 2018-04-20 西安电子科技大学 一种基于生成对抗网络的像素级人像抠图方法
WO2019136946A1 (zh) * 2018-01-15 2019-07-18 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
CN110110745A (zh) * 2019-03-29 2019-08-09 上海海事大学 基于生成对抗网络的半监督x光图像自动标注

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945204A (zh) * 2017-10-27 2018-04-20 西安电子科技大学 一种基于生成对抗网络的像素级人像抠图方法
WO2019136946A1 (zh) * 2018-01-15 2019-07-18 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
CN110110745A (zh) * 2019-03-29 2019-08-09 上海海事大学 基于生成对抗网络的半监督x光图像自动标注

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘鹏飞;赵怀慈;曹飞道;: "多尺度卷积神经网络的噪声模糊图像盲复原", 红外与激光工程, no. 04 *
张宏钊;吕启深;党晓婧;李炎裕;代德宇;: "基于加权损失函数的多尺度对抗网络图像语义分割算法", 计算机应用与软件, no. 01 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418310A (zh) * 2020-11-20 2021-02-26 第四范式(北京)技术有限公司 文本风格迁移模型训练方法和系统及图像生成方法和系统
CN113221948A (zh) * 2021-04-13 2021-08-06 复旦大学 基于对抗生成网络和弱监督学习的数字切片图像分类方法
CN113487629A (zh) * 2021-07-07 2021-10-08 电子科技大学 一种基于结构化场景和文本描述的图像属性编辑方法
CN113487629B (zh) * 2021-07-07 2023-04-07 电子科技大学 一种基于结构化场景和文本描述的图像属性编辑方法
CN113837191A (zh) * 2021-08-30 2021-12-24 浙江大学 基于双向无监督域适应融合的跨星遥感图像语义分割方法
CN113837191B (zh) * 2021-08-30 2023-11-07 浙江大学 基于双向无监督域适应融合的跨星遥感图像语义分割方法

Also Published As

Publication number Publication date
CN111899203B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN110335290B (zh) 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN110930454B (zh) 一种基于边界框外关键点定位的六自由度位姿估计算法
CN108985317B (zh) 一种基于可分离卷积和注意力机制的图像分类方法
CN111899203B (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
CN111639692A (zh) 一种基于注意力机制的阴影检测方法
WO2022033095A1 (zh) 一种文本区域的定位方法及装置
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN112348036A (zh) 基于轻量化残差学习和反卷积级联的自适应目标检测方法
CN111860683B (zh) 一种基于特征融合的目标检测方法
CN113487629B (zh) 一种基于结构化场景和文本描述的图像属性编辑方法
CN111582044A (zh) 基于卷积神经网络和注意力模型的人脸识别方法
CN113222998B (zh) 基于自监督低秩网络的半监督图像语义分割方法及装置
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
CN112991350A (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
CN115565043A (zh) 结合多表征特征以及目标预测法进行目标检测的方法
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN112580480A (zh) 一种高光谱遥感影像分类方法及装置
CN115526935A (zh) 基于全局和局部信息的像素级抓取位姿检测方法及系统
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN115147601A (zh) 基于自注意力全局特征增强的城市街道点云语义分割方法
CN113902966A (zh) 一种针对电子元器件的无锚框目标检测网络及应用该网络的检测方法
CN113780305B (zh) 一种基于两种线索交互的显著性目标检测方法
CN116386042A (zh) 一种基于三维池化空间注意力机制的点云语义分割模型
CN115222998A (zh) 一种图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant