CN109977922A - 一种基于生成对抗网络的行人掩模生成方法 - Google Patents

一种基于生成对抗网络的行人掩模生成方法 Download PDF

Info

Publication number
CN109977922A
CN109977922A CN201910289844.5A CN201910289844A CN109977922A CN 109977922 A CN109977922 A CN 109977922A CN 201910289844 A CN201910289844 A CN 201910289844A CN 109977922 A CN109977922 A CN 109977922A
Authority
CN
China
Prior art keywords
network
pedestrian
mask
generation method
confrontation network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910289844.5A
Other languages
English (en)
Inventor
匡平
顾小丰
李小芳
王豪爽
吴宇伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910289844.5A priority Critical patent/CN109977922A/zh
Publication of CN109977922A publication Critical patent/CN109977922A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于生成对抗网络的行人掩模生成方法,方法包括:将图片和噪声向量输入到生成器中,生成器生成掩模,判别器通过对生成器生成的掩模进行判别,判别不通过则将结果反馈到生成器中,生成器继续学习生成最佳掩模。本发明证明了该模型使用较少的训练图像数据,不但极大地缩短了生成掩模的时间,而且能够生成具有更精细化的二元人体掩模。

Description

一种基于生成对抗网络的行人掩模生成方法
技术领域
本发明涉及图像生成领域,尤其涉及一种对行人图像掩模的生成方法。
背景技术
行人重识别(ReID)是计算机视觉中一项重要且具有挑战性的任务,由于受到相机视角、光线、遮挡物的影响,得到的行人图像中会出现背景杂乱、身体姿势变化的问题,如何从这些背景中提取出精细的人体区域远未得到解决。
处理背景杂乱的一种解决方案是通过分割来获得人体区域,随着基于深度学习的图像分割方法的快速发展,包括全卷积神经网络(FCN)、Mask R-CNN和大规模人体分割数据集的构建,我们现在可以获得人物二元身体掩模(Mask)。但是这些方法得到的结果还是不够精细,上采样的结果还是比较模糊和平滑,对图像中的细节不敏感。
错误分割的掩模可能包含大量背景或丢失一些重要的身体部位,也会影响图像的结构化信息和平滑度,这些都将极大地影响行人重识别的性能。生成对抗网络(GAN)在图片生成方面取得了巨大成功,特别是pix2pix网络的出现,直接能将图像翻译成图像,即能够得到一种十分精细的图像,这些都为解决如何提取出精细化的二元人体掩模提供了很好的帮助。
发明内容
为解决上述技术问题,本发明采用的一个技术方案是:
一种基于生成对抗网络的行人掩模生成方法,基于pix2pix网络,利用了U-Net的思想,构建了基于pix2pix的行人掩模生成方法,在Market-1501数据集上训练和测试,并在cuhk数据集上直接测试,并且取得了更加精细化的二元人体掩模,其特征在于:包括如下步骤:
生成对抗网络的行人掩模生成模型,主要分为生成网络和判别网络,生成网络输入原图和噪声向量,生成行人二元人体掩模Mask;
生成网络使用U-Net网络结构,加入了跳跃连接,对应的特征图和解码之后的同样大小的特征图按通道拼接在一起,用来保留不同分辨率下像素级的细节信息;
解码器的上采样层先对编码器的最后一层进行上采样,再对该层进行步长为1的卷积操作,接着对来自编码器的倒数第二层进行拼接,形成跳跃连接。解码器的后面每一层都进行这样的处理,最后一层依然使用上采样,最后输出图像时使用tanh()激活函数;
让判别器对图像的每个大小为N×N的区块做真假判别即可,最后将图片的所有patch结果取平均,来作为最终的判别器输出。
优选地,所述生成网络的U-Net网络包含编码器和解码器两个部分,编码器和解码器各自有7个模块。
优选地,输入的图片大小为256*256*3,为了减少后续的运算量,加速收敛。
优选地,所输入的图片需进行归一化预处理,保证所有的维度上数据都在一个变化幅度上。
优选地,所述编码器每个模块包含一个卷积层Conv2D和批标准化层BN,激活函数使用LeakyReLU()函数进行激活。
优选地,所述解码器每个模块自定义了一个反卷积层deconv2d,反卷积层包含一个上采样UpSampling2D层和步长为1的卷积层Conv2D,卷积层Conv2D使用ReLU()激活函数。
优选地,所述的判别网络使用PatchGan。
优选地,目标图片函数使用传统的L1损失函数和生成对抗网络的目标函数,L1损失函数能让生成的图片和训练的图片尽量相似,用生成对抗网络的目标函数可以实现图片的具体细节,L1的目标函数可以表示为:
L1=Wx,y,z[||y-G(x,z)||1]
式中,G(x,z)表示生成的图像,y表示真实的图像,L1表示真实图像和生成的图像之间的信息重建过程。
优选地,总的目标函数表示为:
L=argmin max{Ex,y[logD(x,y)]+Ex,z[log(1-D(x,G(x,z))]}+λL1
式中,前一个部分是条件生成对抗网络的目标函数,生成网络G不断尝试减小该目标函数,判别网络通过不断地迭代去最大化该目标函数;结合L1损失函数,可以重建图像的低频信息,更好地保留图像的高频信息,生成我们想要的图像。
优选地,所述生成网络中的编码器第一层卷积核数量gf和判别网络的第一层的卷积核数量df均设置为64,epoch设置为3-5。。
本发明的有益效果是:本发明分析了当前生成对抗神经网络,生成网络使用U-Net,通过设计合理的网络层与结构,提出了一种基于生成对抗网络的行人掩模生成方法,在Market-1501数据集上训练和测试,并直接在cuhk数据集上进行测试,均生成了比之前更加精细化的二元人体掩模。
附图说明
图1是行人掩模生成网络基本架构图。
图2是生成网络结构图。
图3是该网络和Mask rcnn网络的结果对比图。
具体实施方式
下面将结合本发明实施例及附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明基于pix2pix网络,生成器利用了U-Net的思想,我们构建了一种基于pix2pix的行人掩模生成方法,在Market-1501数据集上训练和测试,并在cuhk数据集上直接测试,训练的收敛速度更快、时间和参数更少,并且取得了更加精细化的二元人体掩模。
本实施例提供一种基于生成对抗网络的行人掩模生成方法,该网络包括生成器和判别器,原来的行人图片和噪声向量输入到生成器中,生成器生成粗糙的二元人体掩模Mask;原来的行人图片和二元人体掩模Mask(生成的和真实的)图像对输入到判别器中,判别器进行判别;生成器和判别器之间进行博弈,最终产生精细化的结果。
具体地,如图1所示,所述的网络包括生成网络和判别网络,生成网络负责图片的生成,鉴别网络负责图片对的鉴别。
我们选取Market-1501数据集进行训练,训练集输入12000张256*256*3的行人图片,并且输入对应的12000张256*256*1的初始Mask行人图片,该初始Mask行人图片来自当前效果最好的Mask Rcnn网络生成的二元人体掩模图片,其中,某些图片由于技术等原因,造成了初始的二元人体掩模的部分缺失。验证集输入900张256*256*3的行人图片,并且输入对应的900张256*256*1的初始Mask行人图片。训练集和验证集之间的图片没有重叠的部分。
首先对G进行预训练,再对D进行训练,最后训练G。所述的预训练G,epoch取1,预训练的目的主要是产生一系列负样本,即产生一些初始的粗糙的二元人体掩模。所述的训练D,是将预训练后产生的负样本对和正样本对输入到判别网络中,对判别器进行训练,训练的次数K取10。所述的训练G,是固定住上一步中训练后的D,训练一次G。总的epoch设置为5即可产生很好的效果。
所述的预训练G和训练G,目的都是生成一张图片,由生成网络来完成该步骤。输入一张原行人图片和一个100维的噪声向量z,得到一个初始的粗糙的Mask结果G0(x,z)。
该步骤将原图片通过编码器进行编码,编码器一共有7个模块,每个模块包含一个卷积层Conv2D和批标准化层BN,激活函数使用LeakyReLU()函数进行激活,卷积核依次设置为64*4*4、128*4*4、256*4*4、512*4*4、512*4*4、512*4*4、512*4*4,步长设置为2。
如图2所示,编码器编码完之后,每一层都得到一个特征图,每一层的特征图都会输入到解码器中的对应层,编码器的层i和解码器的层n-i之间添加跳跃连接,其中n是层的总数,这里的n设置为7,每个跳跃连接简单地将第i层的所有通道与第n-i层的通道连接起来。
解码器一共有7个模块,每个模块自定义了一个反卷积层deconv2d,该自定义反卷积层包含一个上采样UpSampling2D层和卷积层Conv2D,卷积层Conv2D使用ReLU()激活函数,卷积核依次设置为512*4*4、512*4*4、512*4*4、512*4*4、256*4*4、128*4*4、64*4*4,步长设置为1。解码器的最后一层依然使用上采样,最后输出图像时使用tanh()激活函数。
生成网络G的损失函数最常使用log(1-D(x)),但是我们发现,在D(x)取值接近0时,函数就会变得十分平滑,梯度将会非常小。这就造成了在训练初期的速度非常慢,所以我们把G的loss function修改为:
式中,m表示有m个样本,i表示从第一个样本到第m个样本。该损失函数的优势是在D(x)接近0的时候,梯度很大,有利于训练,在D(x)越来越大之后,梯度减小,符合实验中的规律,并且可以提高训练速度。
一方面,我们使用上面的生成网络的目标函数,可以实现图片的具体细节,另一方面,我们使用传统的L1损失函数,能让生成的图片和训练的图片尽量相似,实现图片的低频信息的重建工作,L1的目标函数可以表示为:
L1=Wx,y,z[||y-G(x,z)||1]
式中,G(x,z)表示生成的图像,y表示真实的图像,L1表示真实图像和生成的图像之间的信息重建过程。
经过生成网络的生成图片步骤之后,就进入到了判别网络对图片进行鉴别判断。所述的判别网络使用PatchGan,使用PatchGan的好处是不需要将整张图片输入到判别器中,这样输入的图像维度大大降低,使用的参数量更少,运算速度也会加快。具体做法是让判别器对图像的每个大小为N x N的patch做真假判别即可,最后将图片的所有patch结果取平均,来作为最终的判别器输出。
通过调整不同patch的大小,实验发现当patch设置为256/24,即为16*16能达到最佳的效果,其中256是图片的长度或者高度。判别网络的损失函数可以表示为:
进一步地,总的目标函数表示为:
L=argmin max{Ex,y[logD(x,y)]+Ex,z[log(1-D(x,G(x,z))]}+λL1
式中,λ取值为0.3。前一个部分是条件生成对抗网络的目标函数,生成网络G不断尝试减小该目标函数,判别网络通过不断地迭代去最大化该目标函数;结合L1损失函数,可以重建图像的低频信息,更好地保留图像的高频信息,生成我们想要的图像,生成的结果对比图如图3所示
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于生成对抗网络的行人掩模生成方法,基于pix2pix网络,利用了U-Net的思想,构建了基于pix2pix的行人掩模生成方法,在Market-1501数据集上训练和测试,并在cuhk数据集上直接测试,并且取得了更加精细化的二元人体掩模,其特征在于:包括如下步骤:
生成对抗网络的行人掩模生成模型,主要分为生成网络和判别网络,生成网络输入原图和噪声向量,生成行人二元人体掩模Mask;
生成网络使用U-Net网络结构,加入了跳跃连接,对应的特征图和解码之后的同样大小的特征图按通道拼接在一起,用来保留不同分辨率下像素级的细节信息;
解码器的上采样层先对编码器的最后一层进行上采样,再对该层进行步长为1的卷积操作,接着对来自编码器的倒数第二层进行拼接,形成跳跃连接。解码器的后面每一层都进行这样的处理,最后一层依然使用上采样,最后输出图像时使用tanh()激活函数;
让判别器对图像的每个大小为N×N的区块做真假判别即可,最后将图片的所有patch结果取平均,来作为最终的判别器输出。
2.根据权利要求1所述的基于生成对抗网络的行人掩模生成方法,其特征在于:所述生成网络的U-Net网络包含编码器和解码器两个部分,编码器和解码器各自有7个模块。
3.根据权利要求1所述的基于生成对抗网络的行人掩模生成方法,其特征在于:输入的图片大小为256*256*3,为了减少后续的运算量,加速收敛。
4.根据权利要求1所述的基于生成对抗网络的行人掩模生成方法,其特征在于:所输入的图片需进行归一化预处理,保证所有的维度上数据都在一个变化幅度上。
5.根据权利要求1所述的基于生成对抗网络的行人掩模生成方法,其特征在于:所述编码器每个模块包含一个卷积层Conv2D和批标准化层BN,激活函数使用LeakyReLU()函数进行激活。
6.根据权利要求1所述的基于生成对抗网络的行人掩模生成方法,其特征在于:所述解码器每个模块自定义了一个反卷积层deconv2d,反卷积层包含一个上采样UpSampling2D层和步长为1的卷积层Conv2D,卷积层Conv2D使用ReLU()激活函数。
7.根据权利要求1所述的基于生成对抗网络的行人掩模生成方法,其特征在于:所述的判别网络使用PatchGan。
8.根据权利要求1所述的基于生成对抗网络的行人掩模生成方法,其特征在于:目标图片函数使用传统的L1损失函数和生成对抗网络的目标函数,L1损失函数能让生成的图片和训练的图片尽量相似,用生成对抗网络的目标函数可以实现图片的具体细节,L1的目标函数可以表示为:
L1=Ex,y,z[||y-G(x,y)||1]
式中,G(x,z)表示生成的图像,y表示真实的图像,L1表示真实图像和生成的图像之间的信息重建过程。
9.根据权利要求8所述的基于生成对抗网络的行人掩模生成方法,其特征在于:总的目标函数表示为:
L=arg min max{Ex,y[log D(x,y)]+Ex,z[log(1-(x,G(x,z))]}+λL1
式中,前一个部分是条件生成对抗网络的目标函数,生成网络G不断尝试减小该目标函数,判别网络通过不断地迭代去最大化该目标函数;结合L1损失函数,可以重建图像的低频信息,更好地保留图像的高频信息,生成我们想要的图像。
10.根据权利要求1所述的基于生成对抗网络的行人掩模生成方法,其特征在于:所述生成网络中的编码器第一层卷积核数量gf和判别网络的第一层的卷积核数量df均设置为64,epoch设置为3-5。
CN201910289844.5A 2019-04-11 2019-04-11 一种基于生成对抗网络的行人掩模生成方法 Pending CN109977922A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910289844.5A CN109977922A (zh) 2019-04-11 2019-04-11 一种基于生成对抗网络的行人掩模生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910289844.5A CN109977922A (zh) 2019-04-11 2019-04-11 一种基于生成对抗网络的行人掩模生成方法

Publications (1)

Publication Number Publication Date
CN109977922A true CN109977922A (zh) 2019-07-05

Family

ID=67084160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910289844.5A Pending CN109977922A (zh) 2019-04-11 2019-04-11 一种基于生成对抗网络的行人掩模生成方法

Country Status (1)

Country Link
CN (1) CN109977922A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517352A (zh) * 2019-08-27 2019-11-29 电子科技大学 一种物体的三维重建方法、存储介质、终端及系统
CN110956097A (zh) * 2019-11-13 2020-04-03 北京影谱科技股份有限公司 遮挡人体提取方法及模块、场景转换方法及装置
CN111050170A (zh) * 2019-12-06 2020-04-21 山东浪潮人工智能研究院有限公司 基于gan的图片压缩系统构建方法、压缩系统及方法
CN111105336A (zh) * 2019-12-04 2020-05-05 山东浪潮人工智能研究院有限公司 一种基于对抗网络的图像去水印的方法
CN111488911A (zh) * 2020-03-15 2020-08-04 北京理工大学 基于Mask R-CNN与GAN的图像实体抽取方法
CN111626156A (zh) * 2020-05-14 2020-09-04 电子科技大学 一种基于行人掩模和多尺度判别的行人生成方法
CN111652864A (zh) * 2020-05-29 2020-09-11 沈阳铸造研究所有限公司 一种基于条件式生成对抗网络的铸件缺陷图像生成方法
CN111931707A (zh) * 2020-09-16 2020-11-13 平安国际智慧城市科技股份有限公司 基于对抗补丁的人脸图像预测方法、装置、设备和介质
CN112508273A (zh) * 2020-12-03 2021-03-16 中国石油大学(华东) 一种基于生成对抗网络的剩余油预测方法
CN112906459A (zh) * 2021-01-11 2021-06-04 甘肃省公路局 基于高分辨率遥感影像与深度学习方法的路网核查技术
CN116631043A (zh) * 2023-07-25 2023-08-22 南京信息工程大学 自然对抗补丁生成方法、目标检测模型的训练方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354548A (zh) * 2015-10-30 2016-02-24 武汉大学 一种基于ImageNet检索的监控视频行人重识别方法
CN108648197A (zh) * 2018-04-12 2018-10-12 天津大学 一种基于图像背景掩膜的目标候选区域提取方法
CN109255289A (zh) * 2018-07-27 2019-01-22 电子科技大学 一种基于统一式生成模型的跨衰老人脸识别方法
CN109325951A (zh) * 2018-08-13 2019-02-12 深圳市唯特视科技有限公司 一种基于生成对抗网络的转化和分割医学卷的方法
CN109377535A (zh) * 2018-10-24 2019-02-22 电子科技大学 面部属性自动编辑系统、方法、存储介质和终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354548A (zh) * 2015-10-30 2016-02-24 武汉大学 一种基于ImageNet检索的监控视频行人重识别方法
CN108648197A (zh) * 2018-04-12 2018-10-12 天津大学 一种基于图像背景掩膜的目标候选区域提取方法
CN109255289A (zh) * 2018-07-27 2019-01-22 电子科技大学 一种基于统一式生成模型的跨衰老人脸识别方法
CN109325951A (zh) * 2018-08-13 2019-02-12 深圳市唯特视科技有限公司 一种基于生成对抗网络的转化和分割医学卷的方法
CN109377535A (zh) * 2018-10-24 2019-02-22 电子科技大学 面部属性自动编辑系统、方法、存储介质和终端

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
尚晓航: "复杂场景中的行人检测算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张江琦: "基于深度学习的行人检测技术的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王志: "基于深度学习的复杂背景下目标检测与分割方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517352A (zh) * 2019-08-27 2019-11-29 电子科技大学 一种物体的三维重建方法、存储介质、终端及系统
CN110517352B (zh) * 2019-08-27 2022-06-03 电子科技大学 一种物体的三维重建方法、存储介质、终端及系统
CN110956097A (zh) * 2019-11-13 2020-04-03 北京影谱科技股份有限公司 遮挡人体提取方法及模块、场景转换方法及装置
CN110956097B (zh) * 2019-11-13 2023-07-21 北京影谱科技股份有限公司 遮挡人体提取方法及模块、场景转换方法及装置
CN111105336A (zh) * 2019-12-04 2020-05-05 山东浪潮人工智能研究院有限公司 一种基于对抗网络的图像去水印的方法
CN111050170A (zh) * 2019-12-06 2020-04-21 山东浪潮人工智能研究院有限公司 基于gan的图片压缩系统构建方法、压缩系统及方法
CN111488911A (zh) * 2020-03-15 2020-08-04 北京理工大学 基于Mask R-CNN与GAN的图像实体抽取方法
CN111488911B (zh) * 2020-03-15 2022-04-19 北京理工大学 基于Mask R-CNN与GAN的图像实体抽取方法
CN111626156B (zh) * 2020-05-14 2023-05-09 电子科技大学 一种基于行人掩模和多尺度判别的行人生成方法
CN111626156A (zh) * 2020-05-14 2020-09-04 电子科技大学 一种基于行人掩模和多尺度判别的行人生成方法
CN111652864A (zh) * 2020-05-29 2020-09-11 沈阳铸造研究所有限公司 一种基于条件式生成对抗网络的铸件缺陷图像生成方法
CN111931707A (zh) * 2020-09-16 2020-11-13 平安国际智慧城市科技股份有限公司 基于对抗补丁的人脸图像预测方法、装置、设备和介质
CN112508273A (zh) * 2020-12-03 2021-03-16 中国石油大学(华东) 一种基于生成对抗网络的剩余油预测方法
CN112508273B (zh) * 2020-12-03 2023-04-07 中国石油大学(华东) 一种基于生成对抗网络的剩余油预测方法
CN112906459A (zh) * 2021-01-11 2021-06-04 甘肃省公路局 基于高分辨率遥感影像与深度学习方法的路网核查技术
CN116631043A (zh) * 2023-07-25 2023-08-22 南京信息工程大学 自然对抗补丁生成方法、目标检测模型的训练方法及装置
CN116631043B (zh) * 2023-07-25 2023-09-22 南京信息工程大学 自然对抗补丁生成方法、目标检测模型的训练方法及装置

Similar Documents

Publication Publication Date Title
CN109977922A (zh) 一种基于生成对抗网络的行人掩模生成方法
Cheng et al. Facial expression recognition method based on improved VGG convolutional neural network
Wang et al. Generative adversarial networks: introduction and outlook
Cai et al. Dualattn-GAN: Text to image synthesis with dual attentional generative adversarial network
CN107330444A (zh) 一种基于生成对抗网络的图像自动文本标注方法
CN110443231A (zh) 一种基于人工智能的单手手指点读文字识别方法和系统
CN110473164A (zh) 一种基于注意力机制的图像美学质量评价方法
Basha et al. An efficient face mask detector with pytorch and deep learning
CN110309839A (zh) 一种图像描述的方法及装置
CN103035135A (zh) 基于增强现实技术的儿童认知系统及认知方法
Souza et al. Efficient neural architecture for text-to-image synthesis
CN110490239A (zh) 图像质控网络的训练方法、质量分类方法、装置及设备
CN110008961A (zh) 文字实时识别方法、装置、计算机设备及存储介质
CN109284767A (zh) 一种基于增广样本和多流层的行人检索方法
CN117521672A (zh) 一种基于扩散模型的长文本生成连续图片的方法
CN109670559A (zh) 手写汉字的识别方法、装置、设备和存储介质
CN110135446A (zh) 文本检测方法及计算机存储介质
Cho et al. Sora as an agi world model? a complete survey on text-to-video generation
Yu et al. Mask-guided GAN for robust text editing in the scene
Arora et al. A review of techniques to detect the GAN-generated fake images
CN110659702A (zh) 基于生成式对抗网络模型书法字帖评价系统及方法
CN109377498A (zh) 基于循环神经网络的交互式抠图方法
Lyu DeepFake the menace: mitigating the negative impacts of AI-generated content
Jiang et al. IRNet: an improved retinanet model for face detection
Cai et al. Performance analysis of distance teaching classroom based on machine learning and virtual reality

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190705

RJ01 Rejection of invention patent application after publication