CN111738908B - 结合实例分割和循环生成对抗网络的场景转换方法及系统 - Google Patents

结合实例分割和循环生成对抗网络的场景转换方法及系统 Download PDF

Info

Publication number
CN111738908B
CN111738908B CN202010529062.7A CN202010529062A CN111738908B CN 111738908 B CN111738908 B CN 111738908B CN 202010529062 A CN202010529062 A CN 202010529062A CN 111738908 B CN111738908 B CN 111738908B
Authority
CN
China
Prior art keywords
target
scene
mask
network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010529062.7A
Other languages
English (en)
Other versions
CN111738908A (zh
Inventor
杨阳
李宸冠
徐鹏
刘云霞
郭曼
李玉军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010529062.7A priority Critical patent/CN111738908B/zh
Publication of CN111738908A publication Critical patent/CN111738908A/zh
Priority to US17/344,629 priority patent/US11557123B2/en
Application granted granted Critical
Publication of CN111738908B publication Critical patent/CN111738908B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06T3/04
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本公开提出了结合实例分割和循环生成对抗网络的场景转换方法及系统,包括:对目标场景的视频进行处理后输入至实例分割网络中,得到分割后的各场景组成部分即得到目标场景的掩膜剪裁图;针对目标场景的掩膜剪裁图中的目标分别利用循环生成对抗网络按照时间属性要求进行处理,生成的数据为风格迁移后的状态,将风格迁移后的空间属性不固定的目标按特定的空间轨迹生成至风格迁移后的静态场景中,实现场景转换效果。

Description

结合实例分割和循环生成对抗网络的场景转换方法及系统
技术领域
本公开属于图像识别技术领域,尤其涉及结合实例分割和循环生成对抗网络的场景转换方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
深度学习是大数据时代的算法利器,也是本轮人工智能爆发的关键技术。与传统的机器学习算法相比,深度学习技术可随着数据规模的增加不断提升其性能,而传统机器学算法难以利用海量数据持续提升其性能。卷积神经网络是一种在学术界和产业界都获得广泛应用的深度神经网络模型,它广泛应用于计算机视觉领域,在图像分类、目标检测、语义分割等任务上的表现大大超越传统方法。
然而,深度学习技术仍然存在限制条件。一是深度学习的成功依赖于大量的人工标定的训练数据,如果训练数据数量不够大或者数据质量不高会影响深度学习网络的效果,这在一定程度上限制了深度学习的发展;二是深度学习的训练数据和测试数据需要存在结构和内容的相似性,训练环境和测试环境的一致性越强,那么应用时的效果越好。
因此,在深度学习的实际应用中,如视频监控、目标检测等领域中,受人力物力的限制,这些场景中获得大量的高质量数据并不容易,同时难以在训练过程中提供与测试过程一致的环境,很有可能存在场景数据缺失或者不一致的情况,如训练场景和测试场景不一致、同一场景缺少某季节的数据,或者同一场景只有昼或夜的数据。训练和测试场景的不完整性将会导致数据库中特定状态的场景数据缺失,将会影响后续的数据处理及分析工作。
发明内容
为克服上述现有技术的不足,本公开提供了结合实例分割和循环生成对抗网络的场景转换方法,在同一场景的数据缺少时,可以按照分割后的内容的时间属性与空间属性分目标完成场景的转换,进而整合为新的场景的内容,从而丰富数据集。
为实现上述目的,本公开的一个或多个实施例提供了如下技术方案:
一方面,公开了结合实例分割和循环生成对抗网络的场景转换方法,包括:
对目标场景的视频进行处理后输入至实例分割网络中,得到分割后的各场景组成部分即得到目标场景的掩膜剪裁图;
针对目标场景的掩膜剪裁图的目标分别按照起时间属性要求利用循环生成对抗网络进行处理,生成的数据为风格迁移后的状态,然后将目标按照空间属性要求进行分类,若目标空间属性为空间不固定,则将该目标按照特定的空间轨迹进行生成,实现场景转换效果;针对目标场景中的空间属性为固定的目标,分别将该目标的掩膜剪裁图和其对应的目标训练集输入到循环生成对抗网络中,将该循环生成对抗网络模型按照内容的不同分别进行训练,得到内容自适应的生成对抗网络模型;
针对目标场景中的空间属性为不固定的目标,此类目标在目标场景中出现的区域固定,将此类目标的掩膜剪裁图和获取的目标季节或时段的人物图输入到循环生成对抗网络中,将循环生成对抗网络模型进行训练,得到训练后的生成对抗网络模型;
循环生成对抗网络在训练时,利用公开数据集或自有数据集,按照掩膜坐标剪裁目标场景为各个部分,同时获取各个部分各自符合时间属性要求的图片,将其整合为目标训练集。
另一方面,公开了结合实例分割和循环生成对抗网络的场景迁移系统,包括:
实例分割模块,被配置为:对目标场景的视频进行处理后输入至实例分割网络中,得到分割后的各场景组成部分即得到目标场景的掩膜剪裁图;
场景转换模块,被配置为:针对目标场景的掩膜剪裁图中的目标分别按照其时间属性要求和空间属性要求利用循环生成对抗网络进行处理,生成的数据为风格迁移后的状态,将风格迁移后的空间不固定属性的目标按照特定的空间轨迹进行生成,实现场景转换效果;针对目标场景中的空间属性为固定的目标,分别将该目标的掩膜剪裁图和其对应的目标训练集输入到循环生成对抗网络中,将该循环生成对抗网络模型按照内容的不同分别进行训练,得到内容自适应的生成对抗网络模型;
针对目标场景中的空间属性为不固定的目标,此类目标在目标场景中出现的区域固定,将此类目标的掩膜剪裁图和获取的目标季节或时段的人物图输入到循环生成对抗网络中,将循环生成对抗网络模型进行训练,得到训练后的生成对抗网络模型;
循环生成对抗网络在训练时,利用公开数据集或自有数据集,按照掩膜坐标剪裁目标场景为各个部分,同时获取各个部分各自符合时间属性要求的图片,将其整合为目标训练集。
以上一个或多个技术方案存在以下有益效果:
本公开技术方案结合实例分割方法和生成对抗网络模型用于特定场景的季节或时段迁移的方法,使得迁移后的图像可以填补数据库中特定状态的场景数据缺失。
对于原始数据数量没有过高要求,且允许原始数据集缺少某季节或某时段的数据,通过场景转换技术填补原有场景数据集的缺失,进一步丰富数据集,可为深度学习的效果提供有力的数据支撑。
与现有的场景转换相比,通过实例分割技术对目标场景中的各个目标进行分割,单独用其数据按照时间属性要求和空间属性要求进行训练,对于空间固定属性的目标,保证了场景转换中效果不理想的空间固定目标的转换效果,可以做专门的针对处理,从而可以稳定整体效果。
与现有场景转换相比,通过实例分割技术对目标场景中的各个目标分类并分割,单独用其数据按照时间属性要求和空间属性要求进行训练,保证了场景转换中效果不理想的空间不固定属性目标的转换效果,从而可以提升整体效果。
根据实际的生产情况,提出了一种可针对场景中区域或目标进行场景转换的方法,使用多种模型合作完成,其效果优于仅用一种网络的方法。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例子的方法流程图;
图2为本公开实施例子循环生成对抗网络算法流程图;
图3为本公开实施例子ResNet101结构示意图;
图4为本公开实施例子Mask R-CNN算法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
术语解释
实例分割(Instance Segmentation):机器自动从图像中用目标检测方法框出不同实例,再用语义分割方法在不同实例区域内进行逐像素标记,最终可得到检测目标的掩膜。
循环生成对抗网络(CycleGAN):CycleGAN是在2017年发表的一篇文章《UnpairedImage-to-Image Translation using Cycle-Consistent Adversarial Networks》,同一时期还有两篇非常类似的DualGAN和DiscoGAN,简单来说,它们的功能就是:自动将某一类图片转换成另外一类图片。传统的GAN是单向生成,而CycleGAN是互相生成,网络是个环形,所以命名为Cycle,并且CycleGAN一个非常实用的地方就是输入的两张图片可以是任意的两张图片,也就是unpaired。
Mask R-CNN:Mask R-CNN是一个实例分割模型,它能确定图片中各个目标的位置和类别,给出像素级的预测。
实施例一
本实施例公开了结合实例分割和循环生成对抗网络的场景转换方法,基于MaskR-CNN的自动的图像实例分割方法,以及基于时间、空间属性要求的按区域的循环生成对抗网络的场景转换方法。
Mask R-CNN可以看作是一个通用的实例分割框架,它以Faster R-CNN为原型进行了扩展,对于Faster R-CNN的每个Proposal Box都使用全卷积网络进行语义分割;并且引入了RoI Align代替Faster RCNN中的RoI Pooling,因为RoI Pooling并不是按照像素一一对齐的,这对分割掩膜的精度有很大影响。
参见附图1所示,具体实施例子中,结合实例分割和循环生成对抗网络的场景转换方法,包括:基于可用于实例分割的Mask R-CNN模型,实现自动的图像实例分割:
首先按内容对公共数据集或自有数据集进行标注,将公共数据集输入Mask R-CNN进行训练,使得该网络具有按照内容的目标分割能力;
经过公共训练集训练后的Mask R-CNN网络具有了分割目标场景的能力,获取目标场景的视频,提取其帧图像并整合作为数据集;
将整理好的数据集输入Mask R-CNN网络中,输出后可得到经过Mask R-CNN网络分割后的各场景组成部分,具体的根据掩膜坐标信息将目标场景进行分割剪裁。
本发明同时基于普适性的生成对抗网络,该模型已经被证明在产生预期图像应用中很有效。通俗来说,GAN是将一类图片转换成另一类图片,也就是说,现在有两个样本空间,X和Y,我们希望把X样本空间中的样本转换成Y样本空间中的样本。因此,实际的目标就是学习从X到Y的映射F,映射F对应着GAN中的生成器,F可以将X样本空间中的图片x转换为Y样本空间中的图片F(x),对于生成的图片,还需要GAN中的判别器来判断它是否为真实图片,生成的图片目的是骗过判别器使其认为它是真实的图片以达到以假乱真的效果,而判别器的目的是将生成的图片识别出来,由此构成生成对抗网络。
参见附图4所示,具体实施例子中,包括:
S1:确定目标场景,获取公共数据集,本实施例选用常被用于分割任务的Cityscapes公共数据集,从Cityscapes数据集标签中选取本实施例需要的标签(在本目标场景的此步骤中,选择道路、建筑物、柱子、植被等静态目标的标签),同时获取目标场景监控视频,将视频进行分割提取为图片作为真实目标场景数据集,将其集合标记为A;
S2:构建基于Mask R-CNN的分割网络,基础骨干网络选择ResNet101残差卷积网络以及FPN网络。残差网络的结构如图3所示,残差网络加入了残差函数,如果没有残差函数,随着网络层数的增多,会出现梯度弥散过着梯度爆炸的问题,而残差函数的出现使得网络的特征提取性能不会随着层数的增加而发生明显的改变。
S2.1:将预处理后的Cityscapes数据集送入Mask R-CNN的特征提取网络部分后,得到对应的feature map;
S2.2:将S2.1中获得的feature map送入区域生成网络RPN,经过RPN输出后得到了RoI;
S2.3:将S2.2中RPN网络输出的这些RoI进行RoIAlign操作,RoIAlign操作是对RoIPooling的改进,取消了其两次取整的做法,而是通过双线性差值来得到像素值,从而使得不连续的操作变得连续,返回到图像时误差也会更小;
S2.4:最后,对这些S2.3处理的RoI输入FCN网络进行回归和分类,同时在Mask支路生成掩膜;
Mask R-CNN的损失函数为:
L=Lcls+Lbox+Lmask  (1)
在公式(1)中Lcls为分类损失,Lbox为回归损失,Lmask为mask分支中每个RoI的损失函数。分类损失Lcls与Fast R-CNN中的分类损失相同,为
Figure GDA0004020765180000071
在实施例子的本步骤中,仅有一类目标,故在公式(2)中,Ncls=1,i为锚区域的下标,pi是第i个锚区域被预测称目标的预测概率,
Figure GDA0004020765180000072
在锚区域表示的区域为正样本时值为1,为负样本时值为0。
Lbox为回归损失,与Faster R-CNN中的回归损失相同,为
Figure GDA0004020765180000073
在公式(3)中,ti表示预测的边界框坐标,
Figure GDA0004020765180000074
是边界框坐标的真实值,
Figure GDA0004020765180000075
在锚区域表示的区域为正样本时值为1,为负样本时值为0,Nbox为回归矩形框的数量,λ为权重平衡参数,本实施例中设λ=10,R为smoothL1函数,其表达式为
Figure GDA0004020765180000081
在实施例子中,设公式(4)中的σ=1,在公式(1)中,Lmask为mask分支中每个RoI的损失函数,定义为二分类均值交叉熵损失,在Mask R-CNN中,对于新增加的mask支路,其对于每个RoI的输出维度是K×m×m,其中m×m表示mask的大小,K表示类别数。在得到预测mask后,对mask的每个像素点值求sigmoid函数值,得到的结果作为Lmask的输入,需要注意的是,只有正样本RoI才会用于计算Lmask,其余的mask不会对Lmask产生影响。sigmoid函数也成为Logistic函数,由下列公式定义
Figure GDA0004020765180000082
S3:经过S2操作后可得到一个训练好的Mask R-CNN模型,将数据集A输入该模型中,可以得到目标场景静态部分的掩膜,其坐标被保存在一个csv文件中,利用opencv读取csv文件中的坐标,可以将从Mask R-CNN得到的掩膜坐标可视化,然后将其裁剪,可以得到道路、建筑物、柱子、植被的单独图片;
S4:再次预处理数据集,从Cityscapes数据集标签中只选取人物标签,再次进行S2的操作可得到一个训练好的Mask R-CNN模型,将数据集A输入该模型中,可以得到目标场景动态部分(人物)的掩膜,其坐标被保存在一个csv文件中,利用opencv读取csv文件中的坐标,可以将从Mask R-CNN得到的掩膜坐标可视化,然后将其裁剪,可以得到人物图像;
S1至S4为基于Mask R-CNN的自动的图像实例分割方法。
还包括:基于内容自适应的循环生成对抗网络的场景转换方法,利用公开数据集或自有数据集,按照掩膜坐标剪裁目标场景为各个部分并分别整理,同时获取各个部分各自对应的符合时间属性要求的图片,将其整合为目标训练集,如针对目标场景中的夏季状态的植被,获取该植被或者类似该植被在其他季节的图片整合作为目标训练集;
针对目标场景中的空间属性为固定的目标,如草地、树木、天空、道路、路灯等目标,分别将该目标的掩膜剪裁图和其对应的符合时间属性要求目标训练集输入到循环生成对抗网络中,将该循环生成对抗网络模型按照内容的不同分别进行训练,可以得到内容自适应的生成对抗网络模型;
基于训练好的循环生成对抗网络模型,将各个腌膜区域分别输入进行按照时间属性要求的转换测试,生成后的数据为风格迁移后的状态,随后将风格迁移后的各个区域根据坐标整合为整幅图片,方可组成场景转换模拟图;
针对目标场景中的空间属性不固定的目标,如人物目标,人物目标在目标场景中出现的位置不固定,但区域固定,如只出现在道路上,将人物目标的掩膜剪裁图和获取的符合时间属性要求的人物图输入到循环生成对抗网络中,将循环生成对抗网络模型进行训练,可以得到较好的生成对抗网络模型;
基于训练好的循环生成对抗网络模型,将空间属性不固定的目标的掩膜剪裁图输入到训练好的模型中进行按照时间属性要求的转换测试,生成后的数据为风格迁移后的状态,然后将风格迁移后的目标按照特定的行为轨迹至风格迁移后的场景中的目标出现区域中,行为轨迹可预先按照模仿徘徊、行走、跑动等行为进行预定,也可以从公共数据集场景中获取目标位置进行粘贴,这样可以得到高质量的场景转换效果,将这些数据整合至原有数据集中作为目标检测模型的数据集,此举可以达到丰富原有数据集、弥补确实场景数据、提高目标检测率的目的。
具体实施例子中,基于内容自适应的循环生成对抗网络的场景转换方法,具体按照以下步骤实施:
S5:以植被为例,若要求按照时间属性为“季节”进行迁移,收集冬季植被的数据集作为目标训练集,将该集合标记为Y,将S3裁剪得到的植被图片即真实的目标场景植被图片整理为集合X;
S6:设置两个对称的循环生成对抗网络,这两个循环生成对抗网络构成一个环形网络,如图2所示,这两个循环生成对抗网络共享两个生成器G和F,同时两个循环生成对抗网络各自有一个判别器,分别为DX和DY,每个循环生成对抗网络有两个损失含糊,分别为生成器的重建损失函数和判别器的判别损失函数,具体按照以下步骤实施:
S6.1:在本发明中,将X输入到生成器G中,可以训练得到植被X的模仿Y风格的数据,将其标记为X′,然后更新重建损失,得到生成数据,然后将本步骤中生成的图片X′和Y作为输入,输入到判别器DY中,更新判别损失,判断其为真实场景的数据还是生成器生成的数据;
S6.2:在本发明中,将Y输入到生成器F中,可以训练得到植被Y的模仿X风格的数据,将其标记为Y′,然后更新重建损失,得到生成数据,然后将本步骤中生成的图片Y′和X作为输入,输入到判别器DX中,更新判别损失,判断其为真实场景的数据还是生成器生成的数据;
S7:将训练样本X和Y输入生成器和判别器中进行训练更新,生成器的目的是生成的图片骗过判别器,而判别器的目的是鉴别图片真伪,生成器和判别器经过一番博弈之后,生成器器的“伪造”能力越来越强,而判别器的判别能力爷越来越强,最后,判别器分辨不出数据是真实的数据还是生成器生成的数据,即对抗的过程达到动态平衡状态。具体按照以下步骤实施:
S7.1:选取真实目标场景的植被数据集X中的一张图片x作为样本输入生成器G中,输入的x经过生成器后,输出为一张模仿冬季植被风格的图片y′,即G(x)=y′;
S7.2:选取冬季植被的数据集Y中的一张图片y作为样本输入生成器F中,输入的y经过生成器后,输出为一张模仿目标实验场景植被风格的图片x′,即F(y)=x′;
S7.3:创建判别器DY,输入S7.1生成的图片y′和数据集Y中的任意一张图片y,使判别器DY的损失函数尽可能小,其损失函数为:
Figure GDA0004020765180000111
在公式(6)中,
Figure GDA0004020765180000112
表示收集的冬季植被的数据集Y中的图片y服从真实数据概率分布的数学期望,
Figure GDA0004020765180000113
表示生成的模仿冬季植被风格的图片y′即G(x)服从生成数据概率分布的数学期望,DY(y)表示图片y输入判别器后的输出值,即该图片为真实图片的概率,DY(G(x))表示生成的图片y′即G(x)输入判别器后的输出值,即该图片为真实图片的概率;
当生成器和判别器达到动态平衡后,此时有DY(y)≈DY(G(x)),那么y≈G(x),生成器G训练完成;
S7.4:创建判别器DX,输入S7.2生成的图片x′和数据集X中的任意一张图片x,使判别器DX的损失函数尽可能小,其损失函数为:
Figure GDA0004020765180000114
在公式(7)中,
Figure GDA0004020765180000115
表示裁剪下的真实目标场景植被图片数据集X中的图片x服从真实数据概率分布的数学期望,
Figure GDA0004020765180000116
表示生成的模仿真实目标场景中植被风格的图片x′即F(y)服从生成数据概率分布的数学期望,DX(x)表示图片x输入判别器后的输出值,即该图片为真实图片的概率,DX(F(y))表示生成的图片x′即F(y)输入判别器后的输出值,即该图片为真实图片的概率;
当生成器和判别器达到动态平衡后,此时有DX(x)≈DX(F(y)),那么x≈F(y),生成器F训练完成;
S7.5:将S7.1中生成的模仿冬季植被风格的图片y′即G(x)输入到生成器F中,得到图片F(G(x));将S7.2中生成的模仿真实目标场景植被风格的图片x′即F(y)输入到生成器G中,得到图片G(F(y));
循环一致性损失定义如下所示:
Figure GDA0004020765180000121
在公式(8)中,F(G(x))是S7.1中的图片x通过生成器G生成图片G(x)后再输入到生成器F输出的图片,G(F(y))是S7.2中的图片y通过生成器F生成图片F(y)后再输入到生成器G输出的图片,||F(G(x))-x||1表示通过两次生成器训练生成的图片F(G(x))与真实目标场景中的植被图片x做均方误差,其值越小说明训练生成的图片效果越好;||G(F(y))-y||1表示通过两次生成器训练生成的图片G(F(y))与收集的冬季植被图片y做均方误差,其值越小说明训练生成的图片效果越好;
最终的损失函数如下所示:
L=LGAN(F,DY,X,Y)+LGAN(G,DX,X,Y)+λLcyc(F,G,X,F)  (9)
在公式(9)中,λ为用来调节比重的常数,L表示图片风格迁移效果的总体损失,损失值越小说明训练越成功,即风格迁移后的图片风格越接近目标图片风格;
S8:将道路、建筑物、柱子这些空间属性为空间固定的目标也分别执行S5、S6、S7的操作,将其输出按照坐标合成为一张图片,合成的图片就是风格迁移后的除空间不固定属性之外的区域图片;
S9:将空间属性不固定的人物分别执行S5、S6、S7的操作,将输出分别按照模仿徘徊、行走、跑动等行为进行轨迹预定,将其在S8生成的场景中进行生成。
本实施例通过上述步骤将夏季的目标场景进行风格迁移,模拟冬季场景,用于特定场景的按照时间属性要求和空间属性要求迁移的方法,使得迁移后的图像可以填补数据库中特定状态的场景数据缺失。
基于同样的发明构思,本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例子中结合实例分割和循环生成对抗网络的场景转换方法的步骤。
基于同样的发明构思,本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行结合实例分割和循环生成对抗网络的场景转换方法的步骤。
在另一实施例子中,公开了结合实例分割和循环生成对抗网络的场景迁移系统,包括:
实例分割模块,被配置为:对目标场景的视频进行处理后输入至实例分割网络中,得到分割后的各场景组成部分即得到目标场景的掩膜剪裁图;
场景转换模块,被配置为:针对目标场景的掩膜剪裁图中的目标分别按照其时间属性要求和空间属性要求利用循环生成对抗网络进行处理,生成的数据为风格迁移后的状态,将风格迁移后的空间不固定属性的目标按照特定的空间轨迹进行生成,实现场景转换效果。
以上实施例的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本公开中的任一方法。
本领域技术人员应该明白,上述本公开的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的硬件和软件的结合。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (7)

1.结合实例分割和循环生成对抗网络的场景转换方法,其特征是,包括:
对目标场景的视频进行处理后输入至实例分割网络中,得到分割后的各场景组成部分即得到目标场景的掩膜剪裁图;
针对目标场景的掩膜剪裁图的目标分别按照时间属性要求利用循环生成对抗网络进行处理,生成的数据为风格迁移后的状态,然后将目标按照空间属性要求进行分类,若目标空间属性为空间不固定,则将该目标按照特定的空间轨迹进行生成,实现场景转换效果;针对目标场景中的空间属性为固定的目标,分别将该目标的掩膜剪裁图和其对应的目标训练集输入到循环生成对抗网络中,将该循环生成对抗网络模型按照内容的不同分别进行训练,得到内容自适应的循环 生成对抗网络模型;
针对目标场景中的空间属性为不固定的目标,此类目标在目标场景中出现的区域固定,将此类目标的掩膜剪裁图和获取的目标季节或时段的人物图输入到循环生成对抗网络中,将循环生成对抗网络模型进行训练,得到训练后的循环 生成对抗网络模型;
循环生成对抗网络在训练时,利用公开数据集或自有数据集,按照掩膜坐标剪裁目标场景为各个部分,同时获取各个部分各自符合时间属性要求的图片,将其整合为目标训练集。
2.如权利要求1所述的结合实例分割和循环生成对抗网络的场景转换方法,其特征是,所述实例分割网络在训练时,按内容对公共数据集或自有数据集进行标注,将公共数据集输入实例分割网络进行训练,使得该网络具有按照内容的区域分割能力。
3.如权利要求1所述的结合实例分割和循环生成对抗网络的场景转换方法,其特征是,将目标场景的视频进行处理,包括提取其帧图像并整合作为数据集,将数据集输入至训练后的实例分割网络中。
4.如权利要求3所述的结合实例分割和循环生成对抗网络的场景转换方法,其特征是,实例分割网络对数据集数据进行处理,得到目标场景各目标的掩膜,保存其坐标,读取该坐标,将得到的掩膜坐标可视化,然后将其裁剪,得到目标场景动态部分图像。
5.结合实例分割和循环生成对抗网络的场景迁移系统,其特征是,包括:
实例分割模块,被配置为:对目标场景的视频进行处理后输入至实例分割网络中,得到分割后的各场景组成部分即得到目标场景的掩膜剪裁图;
场景转换模块,被配置为:针对目标场景的掩膜剪裁图中的目标分别按照其时间属性要求和空间属性要求利用循环生成对抗网络进行处理,生成的数据为风格迁移后的状态,将风格迁移后的空间不固定属性的目标按照特定的空间轨迹进行生成,实现场景转换效果;针对目标场景中的空间属性为固定的目标,分别将该目标的掩膜剪裁图和其对应的目标训练集输入到循环生成对抗网络中,将该循环生成对抗网络模型按照内容的不同分别进行训练,得到内容自适应的循环生成对抗网络模型;
针对目标场景中的空间属性为不固定的目标,此类目标在目标场景中出现的区域固定,将此类目标的掩膜剪裁图和获取的目标季节或时段的人物图输入到循环生成对抗网络中,将循环生成对抗网络模型进行训练,得到训练后的循环生成对抗网络模型;
循环生成对抗网络在训练时,利用公开数据集或自有数据集,按照掩膜坐标剪裁目标场景为各个部分,同时获取各个部分各自符合时间属性要求的图片,将其整合为目标训练集。
6.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现权利要求1-4任一所述的方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行权利要求1-4任一所述的方法的步骤。
CN202010529062.7A 2020-06-11 2020-06-11 结合实例分割和循环生成对抗网络的场景转换方法及系统 Active CN111738908B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010529062.7A CN111738908B (zh) 2020-06-11 2020-06-11 结合实例分割和循环生成对抗网络的场景转换方法及系统
US17/344,629 US11557123B2 (en) 2020-06-11 2021-06-10 Scene change method and system combining instance segmentation and cycle generative adversarial networks

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010529062.7A CN111738908B (zh) 2020-06-11 2020-06-11 结合实例分割和循环生成对抗网络的场景转换方法及系统

Publications (2)

Publication Number Publication Date
CN111738908A CN111738908A (zh) 2020-10-02
CN111738908B true CN111738908B (zh) 2023-04-07

Family

ID=72648775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010529062.7A Active CN111738908B (zh) 2020-06-11 2020-06-11 结合实例分割和循环生成对抗网络的场景转换方法及系统

Country Status (2)

Country Link
US (1) US11557123B2 (zh)
CN (1) CN111738908B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507950B (zh) * 2020-12-18 2021-09-03 中国科学院空天信息创新研究院 一种生成对抗式多任务多要素样本自动标注方法及装置
CN112802049B (zh) * 2021-03-04 2022-10-11 山东大学 一种家庭物品检测数据集构建方法及系统
CN113673369A (zh) * 2021-07-30 2021-11-19 中国科学院自动化研究所 遥感图像场景规划方法、装置、电子设备和存储介质
CN114511488B (zh) * 2022-02-19 2024-02-27 西北工业大学 一种夜间场景的日间风格可视化方法
CN115601393B (zh) * 2022-09-29 2024-05-07 清华大学 轨迹生成方法、装置、设备和存储介质
CN115620137A (zh) * 2022-10-24 2023-01-17 贝壳找房(北京)科技有限公司 绿化区域的生成方法与生成系统
CN115661535B (zh) * 2022-10-31 2023-11-03 中国矿业大学 一种目标去除背景恢复方法、装置和电子设备
CN115601375A (zh) * 2022-12-15 2023-01-13 深圳思谋信息科技有限公司(Cn) 视频帧的处理方法、装置、设备以及计算机可读介质
CN116012258B (zh) * 2023-02-14 2023-10-13 山东大学 一种基于循环生成对抗网络的图像和谐化方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074504B2 (en) * 2017-11-15 2021-07-27 Google Llc Instance segmentation
CN110148223B (zh) * 2019-06-03 2023-03-14 南京财经大学 三维地理场景模型中监控视频目标浓缩表达方法及系统
CN110706197A (zh) * 2019-08-06 2020-01-17 北方工业大学 一种基于迁移学习的特殊场景下铁路异物侵限检测方法
CA3157749A1 (en) * 2019-11-11 2021-05-20 Matthew Thomas Systems and methods for selective image compositing
US11727543B2 (en) * 2019-11-18 2023-08-15 Shinyfields Limited Systems and methods for content-aware enhancement of images
US11538170B2 (en) * 2020-04-03 2022-12-27 Adobe Inc. Integrated interactive image segmentation
US11367199B2 (en) * 2020-06-12 2022-06-21 Adobe Inc. System for automatic object mask and hotspot tracking

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于循环一致性对抗网络的室内火焰图像场景迁移;杨植凯等;《光学精密工程》;第28卷(第3期);全文 *
结合全卷积网络与CycleGAN的图像实例风格迁移;刘哲良等;《中国图象图形学报》;第24卷(第8期);全文 *

Also Published As

Publication number Publication date
CN111738908A (zh) 2020-10-02
US11557123B2 (en) 2023-01-17
US20210390319A1 (en) 2021-12-16

Similar Documents

Publication Publication Date Title
CN111738908B (zh) 结合实例分割和循环生成对抗网络的场景转换方法及系统
CN109948425B (zh) 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置
Wrenninge et al. Synscapes: A photorealistic synthetic dataset for street scene parsing
Movshovitz-Attias et al. How useful is photo-realistic rendering for visual learning?
CN110929577A (zh) 一种基于YOLOv3的轻量级框架改进的目标识别方法
CN111767927A (zh) 一种基于全卷积网络的轻量级车牌识别方法及系统
CN104572804A (zh) 一种视频物体检索的方法及其系统
CN104732208A (zh) 基于稀疏子空间聚类的视频人体行为识别方法
CN112560675B (zh) Yolo与旋转-融合策略相结合的鸟类视觉目标检测方法
CN110555420B (zh) 一种基于行人区域特征提取和重识别融合模型网络及方法
CN114998220B (zh) 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法
Lu et al. P_SegNet and NP_SegNet: New neural network architectures for cloud recognition of remote sensing images
CN114648665A (zh) 一种弱监督目标检测方法及系统
de Gélis et al. Siamese KPConv: 3D multiple change detection from raw point clouds using deep learning
CN112801236A (zh) 图像识别模型的迁移方法、装置、设备及存储介质
CN115186473A (zh) 一种基于平行智能的场景感知建模与验证方法
Yadav et al. An improved deep learning-based optimal object detection system from images
CN109657728A (zh) 样例生产方法及模型训练方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN113570615A (zh) 一种基于深度学习的图像处理方法、电子设备及存储介质
Bu et al. Carla simulated data for rare road object detection
CN115797904A (zh) 一种智能驾驶视觉感知中多场景多任务的主动学习方法
CN112101154B (zh) 视频分类方法、装置、计算机设备和存储介质
Kunfeng et al. Parallel imaging: A unified theoretical framework for image generation
Mansour et al. Hierarchical SVM for Semantic Segmentation of 3D Point Clouds for Infrastructure Scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant