CN113837290A - 一种基于注意力生成器网络的无监督非成对图像翻译方法 - Google Patents

一种基于注意力生成器网络的无监督非成对图像翻译方法 Download PDF

Info

Publication number
CN113837290A
CN113837290A CN202111134348.6A CN202111134348A CN113837290A CN 113837290 A CN113837290 A CN 113837290A CN 202111134348 A CN202111134348 A CN 202111134348A CN 113837290 A CN113837290 A CN 113837290A
Authority
CN
China
Prior art keywords
image
source domain
feature
unsupervised
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111134348.6A
Other languages
English (en)
Inventor
钟宋义
刘云豪
张珂维
彭艳
李小毛
蒲华燕
谢少荣
罗均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202111134348.6A priority Critical patent/CN113837290A/zh
Publication of CN113837290A publication Critical patent/CN113837290A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力生成器网络的无监督非成对图像方法,步骤为:从源域图像数据集中采样一个batch的图像,并将其输入包含注意力层的生成器中得到输出的生成图像,将目标域图像和生成图像分别放入判别器中计算对比损失;将源域图像和该图像对应的生成图像分别放入包含注意力层的编码器和多层感知器中,得到特征向量;将源域图像对应生成图像相同位置的特征向量作为正样本,将源域图像不同位置的特征向量作为负样本,利用正负样本计算对比损失;最终训练出一个更好的生成器,实现源域到目标域的无监督非成对图像翻译。

Description

一种基于注意力生成器网络的无监督非成对图像翻译方法
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于注意力生成器网络的非成对无监督图像翻译技术。
背景技术
图像翻译指的是找到一种映射使得图像可以从源图像域转换到目标图像域,同时在转换的过程中保持源图像域的结构和上下文不变,并替换成目标图像域的风格和纹理。其中映射可以是一个简单的函数,也可以是一个复杂的深度神经网络。图像翻译由于其广阔的应用前景而受到越来越多人的关注,它可以用于图像压缩和超分辨率、图像风格转换、图像恢复、图像去雨和去雾、图像语义生成等。
现在有许多不同的图像翻译任务,根据数据集是否有标注信息,可以分成有监督和无监督图像翻译;根据数据集是否是成对的,可以分成成对和非成对图像翻译。在现实情况下,大多数任务中的数据集都是非成对并且有很少标注信息甚至没有标注信息的。从任务的难度来说,要在非成对且没有标注信息的跨域图像中找到域不变的特征并且替换掉域可变特征是更加困难的。因此非成对无监督的图像翻译更具有挑战性和研究价值。
生成对抗网络(GANs)因能生成拟合数据集分布的图像被用于图像翻译任务,但经典的GANs只靠一个对比损失很难保证训练过程的稳定性和图像在结构上的不变性。几乎在同一时间,基于循环一致性损失的Cyclegan、Dualgan、Discogan被提出来,循环一致假设图像从源域转换为目标域再转换为源域后,这个重构图像能够在像素级上逼近原图像,以此保证转换后的图像在结构上的稳定性。但这种两步(two-sided)的框架导致模型训练时间长,而且要求域与域之间是一种有限制的双射关系。为了摆脱这种限制,各种(一步)one-sided的框架被提了出来。其中将对比表示学习这种范式引入图像翻译的对比无监督图像翻译(CUT)取得了不错的效果,它通过提出基于图像块(patch)的多层PatchNCE损失,最大化输入和输出图像每个patch之间的互信息,训练出了一个更好的编码器(encoder)。如此一来encoder可以专注于两个域之间共性的部分如形状,而忽略两个域之间的差异性部分如纹理。
对比学习是自监督学习中的一种,它指通过学习对两个事物的相似或不相似进行编码来构建表征。通过构建正样本(positive)和负样本(negative),然后度量正负样本的距离来实现自监督学习。核心思想是样本和正样本之间的相似度远远大于样本和负样本之间的相似度。CUT首先将对比学习的思想引入到图像翻译任务中,实现了one-sided。与一般对比学习不同的是,它的正样本和负样本不是来自图像增强后的结果,也不是一整张图像,而是将生成器输入与输出图像的同一位置的patch作为正样本,将输入图像不同位置的patch作为负样本
注意力机制自提出就受到了广泛的关注,首先在自然语言处理领域被广泛使用,后来有研究者陆续将其运用在计算机视觉领域中,研究者先提出了Image transformer的模型,将自注意力引入到自回归生成模型中用于图像生成。SAGAN则首先将自注意力机制引入GANs中,使得SAGAN能够有效地从图像的内部特征中找到一个全局长跨度依赖的模型。U-GAT-IT将注意力模块添加到它的图像翻译模型中,但需要借助一个辅助的分类器。
发明内容
针对现有技术存在的问题,本发明提出了一种基于注意力生成器网络的无监督非成对图像翻译方法。
本发明可通过以下技术方案予以实现:
本发明的基于注意力生成器网络的无监督非成对图像翻译方法包含三种类型的图像,源域图像(待转换的图像)、生成图像(转换后的图像)、目标域图像(生成图像在特征层面上与之对齐的图像);该方法包括四个过程,图像生成、图像判断、特征提取、分类;
所述图像生成是将源域图像放入生成器得到假图像,即生成图像;
所述图像判断是指源域图像和生成图像放入判别器判断真伪,使生成器生成接近目标域图像的图片;
所述特征提取:通过特征提取过程提取源域图像和生成图像的特征信息,其中特征信息表现为特征向量;
所述分类:指运用对比学习框架,将源域图像某一位置的特征向量作query,该图像对应的生成图像相同位置的特征向量作为正样本,源域图像其他位置对应的N个特征向量作为负样本,得到一个(N+1)-way的分类问题;
随着分类问题求解过程的进行,特征提取效果逐渐增强,生成图像向目标域图像靠近,最终达到图像翻译效果。
采用无监督的方法,本发明定义了4种网络结构:加入注意力层的生成器被拆分成了编码器和解码器;用于判断图像真伪计算经典生成对抗网络对比损失的判别器D;输出多尺度特征的多层感知器网络H。
进一步,所述编码器包含了多个下采样层;解码器包含了多个上采样层;判别器采用的是一种分类器,用于提取图像特征并分类判断输入图像的真伪;
进一步,特征提取过程指先将图像放入编码器中,然后提取其中的特征层放入多层感知器中,最后将多层感知器的输出进行采样得到特征向量;
进一步,所述无监督非成对图像翻译方法包含一种基于注意力机制的所述生成器,该生成器使得特征提取的过程中能够赋予相关联特征更大的权重;
主要包括以下步骤:
步骤(1)、从源域图像数据集中采样一个batch大小的图像,并将其输入包含注意力层的生成器得到输出的生成图像;
步骤(2)、将目标域图像和步骤(1)中的生成图像分别放入判别器中,判别器输出的结果用于计算生成对抗网络中的经典损失函数:
Figure BDA0003281714950000031
上式中,AG指包含注意力层的生成器网络;
步骤(3)、将步骤(1)中的源域图像和该图像对应的生成图像分别放入包含注意力层的编码器中,抽取编码器中的多层特征图;
步骤(4)、将步骤(3)得到的特征图放入多层感知器中,得到特征向量;
步骤(5)、从步骤(4)中得到的特征向量中抽样得到特征;
步骤(6)、将生成图像对应的步骤(5)中的query patch与源域图像对应的步骤(5)中的相同位置的patch进行比较,设置为一个(N+1)的分类问题,其中N个负样本是从源域同一张图像的其他位置提取到的,得到PatchNCE损失函数:
Figure BDA0003281714950000032
上式中,H指多层感知器;
步骤(7)、设置总的优化目标,将步骤(2)和步骤(6)得到的损失函数加起来,并设置不同的权重;
步骤(8)、重复以上步骤直到网络更新到设置的迭代次数。
进一步,所述无监督非成对图像翻译方法包含一个输出为多维度的所述多层感知器,该多层感知器能采样到图像的更多尺度的信息;
将特征提取过程中的特征图放入输出为多尺度的多层感知器中,得到多尺度的特征向量;最后得到的PatchNCE损失函数为:
Figure BDA0003281714950000041
上式中,MH指输出为多维度的多层感知器;
进一步,所述基于注意力生成器网络的无监督非成对图像翻译方法,多层感知器的输出维度为多种,即特征图放入输出为多尺度的多层感知器中;
PatchNCE损失函数为:
Figure BDA0003281714950000042
有益效果
本发明从源域图像数据集中采样一个batch的图像,并将其输入包含注意力层的生成器中得到输出的生成图像,将目标域图像和生成图像分别放入判别器中计算对比损失;将源域图像和该图像对应的生成图像分别放入包含注意力层的编码器和多层感知器中,得到特征向量;将源域图像对应生成图像相同位置的特征向量作为正样本,将源域图像不同位置的特征向量作为负样本,利用正负样本计算对比损失;最终训练出一个更好的生成器,实现源域到目标域的无监督非成对图像翻译。
附图说明
图1是本发明的总体结构和流程示意图:首先,源域图像x经过AGenc和AGdec生成假图像
Figure BDA0003281714950000043
然后目标域图像y和假图像
Figure BDA0003281714950000044
被放入D计算LGAN。接着x和
Figure BDA0003281714950000045
被送入AGenc和H得到对应的特征向量,从
Figure BDA0003281714950000046
抽样出一个query的特征向量,然后与x相同位置的特征向量进行比较,并设置了一个(N+1)的分类问题,其中N个负样本是从x的其他位置提取的,这样就计算出LPatchNCE
图2是本发明和目前主流无监督图像翻译方法在4种不同数据集上进行图像翻译的结果示意图。4种数据集分别为Horse→Zebra、Summer→Winter、Label→Photo、Monet→Photo。
图3是本发明和目前主流无监督图像翻译方法在4种不同数据集上进行图像翻译的评价指标示意图,其中数值越小效果越好。
具体实施方式
为了使本发明的目的、技术方案及优点更加直观,下面将结合实施例对本发明有更清楚、完整的描述。应当理解,此处所描述的具体实施例仅仅以解释本发明,并不限定本发明。
实施例:
1.问题分析
本发明的目的是解决在无监督非成对图像翻译任务中的特征提取问题。
针对现有的问题,本发明提出一种基于注意力生成器网络的无监督非成对图像翻译方法,其特征在于在现有的无监督非成对图像翻译中加入一种基于注意力机制的生成器。
本发明实施例在多层感知器的输出尺度上增加了多种尺度,在计算损失函数时进行了加权平均来抵消不同尺度特征产生的差异。
2.翻译过程
如图1所示,本发明实施例包括四个过程,图像生成、图像判断、特征提取、分类;
图像生成是将源域图像放入生成器得到假图像(即生成图像);
图像判断是指源域图像和生成图像放入判别器判断真伪,使生成器生成接近目标域图像的图片;
特征提取指通过特征提取过程提取源域图像和生成图像的特征信息,其中特征信息表现为特征向量;
分类指运用对比学习框架,将源域图像某一位置的特征向量作为query,该图像对应的生成图像相同位置的特征向量作为正样本,源域图像其他位置对应的N个特征向量作为负样本,得到一个(N+1)-way的分类问题;
3.网络结构和细节
本发明实施例的生成器由两部分组成,一个编码器AGenc和一个解码器AGdec,它们分别用于提取特征和还原图像。生成的图像可以表示为
Figure BDA0003281714950000051
本发明实施例的编码器包含了多个下采样层;解码器包含了多个上采样层;判别器采用的是一种分类器,用于提取图像特征并分类判断输入图像的真伪;
本发明实施例的特征提取过程指先将图像放入编码器中,然后提取其中的特征层放入多层感知器中,最后将多层感知器的输出进行采样得到特征向量;
4.训练过程
本发明实施例提供的一种基于注意力生成器网络的无监督非成对图像翻译方法主要包括以下步骤:
步骤(1)、从源域图像数据集中采样一个batch大小的图像,并将其输入包含注意力层的生成器得到输出的目标域图像;
步骤(2)、将目标域图像和步骤(1)中的生成图像分别放入判别器中,判别器输出的结果用于计算生成对抗网络中的经典损失函数:
Figure BDA0003281714950000061
步骤(3)、将步骤(1)中的源域图像和该图像对应的生成图像分别放入包含注意力层的编码器中,抽取编码器中的多层特征图;
步骤(4)、将步骤(3)得到的特征图放入输出为多维度的多层感知器,得到特征向量;
步骤(5)、从步骤(4)中得到的特征向量中抽样得到特征;
步骤(6)、将生成图像对应步骤(5)中的某一个特征向量作为一个query,与源域图像对应的步骤(5)中的相同位置的patch进行比较,设置为一个(N+1)的分类问题,其中N个负样本是从源域同一张图像的其他位置提取到的,得到PatchNCE损失函数:
Figure BDA0003281714950000062
步骤(7)、设置总的优化目标,将步骤(2)和步骤(6)得到的损失函数加起来,并设置不同的权重;
步骤(8)、重复以上步骤直到网络更新到设置的迭代次数。
随着训练过程的进行,特征提取效果逐渐增强,生成图像向目标域图像靠近,最终达到图像翻译效果。
本发明实施例的步骤(6)中,query、正样本和N个负样本被映射到K个维度的向量,即
Figure BDA0003281714950000063
并且
Figure BDA0003281714950000064
Figure BDA0003281714950000065
则表示第n个负样本。将得到的向量使用L2正则化,由此建立了一个N+1的分类问题,并且query和其他样本的距离通过一个τ=0.07进行缩放。然后计算正样本被正确分类的概率,这是通过一个cross-entropy loss来实现的,具体如下:
Figure BDA0003281714950000066
5.评价指标与实验
本发明实施例使用被研究者广泛使用的Fréchet Inception Distance(FID)来评价图像翻译任务最终结果的好坏。FID主要是用来估计目标域图像和生成图像分布之间的距离。更具体的,将目标域图像和生成图像放入inception特征提取网络,然后计算在高维特征空间中这两个分布之间的散度。因此总的来说,FID越小代表生成图像和目标域图像分布之间的距离越小,生成的图像也就越逼真。FID在一定程度上能反应图像翻译任务最后结果的真实性,与人的感知是高度相关的。
下面将结合实验对本发明实施例作进一步描述。
5.1数据集
实验主要用到了4个数据集,其中Monet→Photo考虑到训练的开销,对其中的photographs进行了删减。但所有与本发明进行比较的方法都是在同一数据集上进行实验,保证了实验条件的一致性。
Horse→Zebra:是首先在CycleGAN中被引入进图像翻译任务的数据集,它来源于ImageNet。其中训练集有1067张马的图片和1334张斑马的图片,对应的测试集中马和斑马的图片分别为120和140张。
Summer→Winter:数据集中的图片全部拍摄于夏天和冬天的美国国家公园Yosemite,同样来自CycleGAN。其中夏天的图片有1231张用作训练集,309张用作测试集;对应的冬天的分别有962张和238张。
Label→Photo:数据集取材于德国城市的街道。其中每个域都包含有2975张训练集和500张测试集。
Monet→Photo:数据集主要包含了莫奈的画作和真实世界的风景图。其中莫奈画作中有1072张用作了训练集,121张作为测试集;我们将风景照片中的3000张作为训练集,剩余300张作为测试集。
5.2参数设置
本发明的图像在训练时都会以286×286的大小被加载,然后裁剪至256×256,并使用实例归一化。在两层的多层感知器的输出维度上选择了64,128,256和512,并在最后计算loss时分别采用了8:4:2:1的权重。使用Adam优化器并设置β1和β2分别为0.5和0.999。
本发明选择训练400个epochs,其中前200个epochs的初始learing rate为0.0002,后200个epochs采用线性递减至零的学习率,网络初始化方式采用的是xavier。
5.3实验结果
本发明的结果分为定性实验结果和定量实验结果。定性实验结果如图2所示,它展示了本发明和4种主流无监督图像翻译方法,即CUT、CycleGAN、LSeSim和GcGAN(其中CycleGAN是基于循环一致性损失的two-sided方法,其余都是打破循环的one-sided方法)在4种不同数据集上进行图像翻译的结果。定量实验结果如图3所示,它展示了本发明和目前主流无监督图像翻译方法在4种不同数据集上进行图像翻译的FID值,数值越小生成效果越好。
以上对本发明所提出的一种基于注意力生成器网络的无监督非成对图像翻译方法,进行了详细的介绍,本文中应用了具体个例对本发明的原理、实施方式和结果进行了阐述。对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种基于注意力生成器网络的无监督非成对图像翻译方法,包含三种类型的图像,源域图像、生成图像、目标域图像,其特征在于,该方法包括四个过程,图像生成,图像判断,特征提取,分类;
所述图像生成:将源域图像放入生成器得到假图像,即生成图像;
所述图像判断:将目标域图像和生成图像放入判别器判断真伪,使生成器生成接近目标域的图像;
所述特征提取:通过特征提取过程提取源域图像和生成图像的特征信息,其中特征信息表现为特征向量;
所述分类:运用对比学习框架,将源域图像某一位置的特征向量作为query,该图像对应的生成图像相同位置的特征向量作为正样本,源域图像其他位置对应的N个特征向量作为负样本,得到一个(N+1)-way的分类问题;
随着分类问题求解过程的进行,特征提取效果逐渐增强,生成图像向目标域图像靠近,最终达到图像翻译效果。
2.根据权利要求1所述的无监督非成对图像翻译方法,其特征在于,所述生成器由一个编码器和一个解码器构成,所述编码器包含了多个下采样层;所述解码器包含了多个上采样层;所述判别器采用的是一种分类器,用于提取图像特征并分类判断输入图像的真伪。
3.根据权利要求2所述的无监督非成对图像翻译方法,其特征在于,所述提取图像特征过程指先将图像放入编码器中,然后提取其中的特征层放入多层感知器中,最后将多层感知器的输出进行采样得到特征向量。
4.根据权利要求3所述的无监督非成对图像翻译方法,其特征在于,所述无监督非成对图像翻译方法包含基于注意力机制的所述生成器,该生成器使得特征提取的过程中能够赋予相关联特征更大的权重;
主要包括以下步骤:
步骤(1)、从源域图像数据集中采样一个batch大小的图像,并将其输入包含注意力层的生成器得到输出的目标域生成图像;
步骤(2)、将目标域图像和步骤(1)中的生成图像分别放入判别器中,判别器输出的结果用于计算生成对抗网络中的经典损失函数:
Figure FDA0003281714940000021
上式中,AG指包含注意力层的生成器网络;
步骤(3)、将步骤(1)中的源域图像和该图像对应的生成图像分别放入包含注意力层的编码器中,抽取编码器中的多层特征图;
步骤(4)、将步骤(3)得到的特征图放入多层感知器中,得到特征向量;
步骤(5)、从步骤(4)中得到的特征向量中抽样;
步骤(6)、将生成图像对应步骤(5)中的某一个特征向量作为一个query,与源域图像对应步骤(5)中相同位置的特征向量进行比较,设置为一个(N+1)的分类问题,其中N个负样本是源域同一张图像的其他位置所代表的特征向量,得到PatchNCE损失函数:
Figure FDA0003281714940000022
上式中,H指多层感知器;
步骤(7)、设置总的优化目标,将步骤(2)和步骤(6)得到的损失函数加起来,并设置不同的权重;
步骤(8)、重复以上步骤直到网络更新到设置的迭代次数。
5.根据权利要求3所述的无监督非成对图像翻译方法,其特征在于,所述无监督非成对图像翻译方法包含一个输出为多维度的所述多层感知器,该多层感知器能采样到图像的更多尺度的信息;
将特征提取过程中的特征图放入输出为多尺度的多层感知器中,得到多尺度的特征向量;
最后得到的PatchNCE损失函数为:
Figure FDA0003281714940000023
上式中,MH指输出为多维度的多层感知器。
6.根据权利要求5所述的无监督非成对图像翻译方法,其特征在于,所述多层感知器的输出维度为多种,即特征图放入输出为多维度的多层感知器中;
PatchNCE损失函数为:
Figure FDA0003281714940000024
CN202111134348.6A 2021-09-27 2021-09-27 一种基于注意力生成器网络的无监督非成对图像翻译方法 Withdrawn CN113837290A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111134348.6A CN113837290A (zh) 2021-09-27 2021-09-27 一种基于注意力生成器网络的无监督非成对图像翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111134348.6A CN113837290A (zh) 2021-09-27 2021-09-27 一种基于注意力生成器网络的无监督非成对图像翻译方法

Publications (1)

Publication Number Publication Date
CN113837290A true CN113837290A (zh) 2021-12-24

Family

ID=78970550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111134348.6A Withdrawn CN113837290A (zh) 2021-09-27 2021-09-27 一种基于注意力生成器网络的无监督非成对图像翻译方法

Country Status (1)

Country Link
CN (1) CN113837290A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882220A (zh) * 2022-05-20 2022-08-09 山东力聚机器人科技股份有限公司 基于域自适应先验知识引导gan的图像生成方法及系统
CN115841589A (zh) * 2022-11-08 2023-03-24 河南大学 一种基于生成式自我注意机制的无监督图像翻译方法
CN116681625A (zh) * 2023-07-04 2023-09-01 广州工程技术职业学院 基于多尺度对比学习的无监督图像去雨方法、装置及终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668594A (zh) * 2021-01-26 2021-04-16 华南理工大学 一种基于对抗性域适应的无监督图像目标检测方法
CN113160085A (zh) * 2021-04-22 2021-07-23 上海大学 一种基于生成对抗网络的水花遮挡图像数据集采集方法
CN113221641A (zh) * 2021-04-01 2021-08-06 哈尔滨工业大学(深圳) 基于生成对抗网络和注意力机制的视频行人重识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668594A (zh) * 2021-01-26 2021-04-16 华南理工大学 一种基于对抗性域适应的无监督图像目标检测方法
CN113221641A (zh) * 2021-04-01 2021-08-06 哈尔滨工业大学(深圳) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN113160085A (zh) * 2021-04-22 2021-07-23 上海大学 一种基于生成对抗网络的水花遮挡图像数据集采集方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAESUNG PARK, ALEXEI A. EFROS, RICHARD ZHANG, JUN-YAN ZHU: "Contrastive Learning for Unpaired Image-to-Image Translation", CMCC2020, pages 1 - 29 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882220A (zh) * 2022-05-20 2022-08-09 山东力聚机器人科技股份有限公司 基于域自适应先验知识引导gan的图像生成方法及系统
CN114882220B (zh) * 2022-05-20 2023-02-28 山东力聚机器人科技股份有限公司 基于域自适应先验知识引导gan的图像生成方法及系统
CN115841589A (zh) * 2022-11-08 2023-03-24 河南大学 一种基于生成式自我注意机制的无监督图像翻译方法
CN116681625A (zh) * 2023-07-04 2023-09-01 广州工程技术职业学院 基于多尺度对比学习的无监督图像去雨方法、装置及终端
CN116681625B (zh) * 2023-07-04 2024-02-02 广州工程技术职业学院 基于多尺度对比学习的无监督图像去雨方法、装置及终端

Similar Documents

Publication Publication Date Title
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
CN110020681A (zh) 基于空间注意力机制的点云特征提取方法
WO2023212997A1 (zh) 基于知识蒸馏的神经网络训练方法、设备及存储介质
WO2023236977A1 (zh) 一种数据处理方法及相关设备
WO2022253074A1 (zh) 一种数据处理方法及相关设备
CN113837290A (zh) 一种基于注意力生成器网络的无监督非成对图像翻译方法
CN113837366A (zh) 一种多风格字体生成方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
CN115222998B (zh) 一种图像分类方法
CN114283080A (zh) 一种多模态特征融合的文本指导图像压缩噪声去除方法
CN115563327A (zh) 基于Transformer网络选择性蒸馏的零样本跨模态检索方法
CN110598537A (zh) 一种基于深度卷积网络的视频显著性检测方法
CN110633706B (zh) 一种基于金字塔网络的语义分割方法
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN111126155A (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN113436198A (zh) 一种协同图像超分辨率重建的遥感图像语义分割方法
CN117150069A (zh) 基于全局与局部语义对比学习的跨模态检索方法及系统
CN114155560B (zh) 基于空间降维的高分辨率人体姿态估计模型的轻量化方法
Chowdhury et al. Advancements in synthetic generation for contactless palmprint biometrics using stylegan2-ada and stylegan3
CN113111906A (zh) 一种基于单对图像训练的条件生成对抗网络模型的方法
Sun et al. Robust Chinese license plate generation via foreground text and background separation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20211224