CN117351520A - 基于生成网络的前背景图像混合生成方法及系统 - Google Patents

基于生成网络的前背景图像混合生成方法及系统 Download PDF

Info

Publication number
CN117351520A
CN117351520A CN202311436471.2A CN202311436471A CN117351520A CN 117351520 A CN117351520 A CN 117351520A CN 202311436471 A CN202311436471 A CN 202311436471A CN 117351520 A CN117351520 A CN 117351520A
Authority
CN
China
Prior art keywords
image
human body
network
semantic
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311436471.2A
Other languages
English (en)
Other versions
CN117351520B (zh
Inventor
黄志青
余俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Hengsha Digital Technology Co ltd
Original Assignee
Guangzhou Hengsha Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Hengsha Digital Technology Co ltd filed Critical Guangzhou Hengsha Digital Technology Co ltd
Priority to CN202311436471.2A priority Critical patent/CN117351520B/zh
Publication of CN117351520A publication Critical patent/CN117351520A/zh
Application granted granted Critical
Publication of CN117351520B publication Critical patent/CN117351520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于生成网络的前背景图像混合生成方法及系统,该方法包括:获取待识别的人体语义分割图像;引入DCT卷积网络模块单元,构建前背景混合生成网络模型;将待识别的人体语义分割图像输入至前背景混合生成网络模型进行识别,得到最终人体语义图像。该系统包括:获取模块、构建模块和识别模块。本发明通过引入DCT卷积网络模块单元,构建前背景混合生成网络模型对待识别的人体语义分割图像进行识别生成处理,能够生成更加符合实际场景需求的混合前背景图像。本发明作为基于生成网络的前背景图像混合生成方法及系统,可广泛应用于图像混合生成技术领域。

Description

基于生成网络的前背景图像混合生成方法及系统
技术领域
本发明涉及图像混合生成技术领域,尤其涉及基于生成网络的前背景图像混合生成方法及系统。
背景技术
随着人工智能、深度学习等领域的发展,基于视觉的目标检测获得了长足的发展。与传统基于特征提取的目标检测方法不同,基于深度学习的目标检测方法通过深度神经网络提取图像的深层信息,使用海量的数据进行训练,极大地提高了目标检测的准确率和速度,在目标检测领域中,行人检测是一块重要的组成部分。行人检测就是使用计算机技术在一张图片或者一段视频中判断是否存在行人并在图中框选出行人位置。行人检测在自动驾驶、无人机、监控等领域都有着重要的应用。当前主流的行人检测方法包括:整体检测、基于局部的检测、基于运动的检测、多相机立体视觉检测,现有的基于可见光图像的目标检测因为其设备成本低、适用范围广等特点而受到广泛关注和研究。然而,可见光图像非常容易受到环境的影响。外观变化、遮挡和光照条件变化等因素都会对基于可见光的目标检测产生极大的影响,且现有的检测方法大多数基于离散傅里叶变换(discrete fouriertransform,DFT)进行实现,其会引入复频域信号,影响实际图像的预测生成结果。
发明内容
为了解决上述技术问题,本发明的目的是提供基于生成网络的前背景图像混合生成方法及系统,通过引入DCT卷积网络模块单元,构建前背景混合生成网络模型对待识别的人体语义分割图像进行识别生成处理,能够生成更加符合实际场景需求的混合前背景图像。
本发明所采用的第一技术方案是:基于生成网络的前背景图像混合生成方法,包括以下步骤:
获取待识别的人体语义分割图像;
引入DCT卷积网络模块单元,构建前背景混合生成网络模型;
将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型进行识别,得到最终人体语义图像。
进一步,所述待识别的人体语义分割图像包括第一人体语义分割图像与第二人体语义分割图像,所述第一人体语义分割图像用于提取前景人物图像信息,所述第二人体语义分割图像用于提取背景环境信息。
进一步,所述前背景混合生成网络模型包括Mask前景生成器、分离背景模块、对抗生成网络和鉴别器,其中,所述对抗生成网络包括下采样模块、DCT卷积网络模块和上采样模块,所述DCT卷积网络模块包括通道切分操作层、自相关卷积运算层、DCT-2d卷积运算层和BatchNormalize激活层。
进一步,所述将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型进行识别,得到最终人体语义图像这一步骤,其具体包括:
将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型;
基于所述前背景混合生成网络模型的Mask前景生成器对所述第一人体语义分割图像进行识别处理,得到前景人物图像信息;
基于所述前背景混合生成网络模型的分离背景模块对所述第二人体语义分割图像进行识别处理,得到背景环境信息;
将所述前景人物图像信息与所述背景环境信息进行拼接处理,得到拼接后的人体语义图像;
基于所述前背景混合生成网络模型的对抗生成网络对所述拼接后的人体语义图像进行噪声生成处理,得到预测的人体语义图像;
基于所述前背景混合生成网络模型的鉴别器对所述预测的人体语义图像与真实人体语义图像进行辨别处理,得到最终人体语义图像。
进一步,所述基于所述前背景混合生成网络模型的对抗生成网络对所述拼接后的人体语义图像进行噪声生成处理,得到预测的人体语义图像这一步骤,其具体包括:
将所述拼接后的人体语义图像输入至所述对抗生成网络;
基于所述对抗生成网络的下采样模块,对所述拼接后的人体语义图像进行下采样处理,得到下采样后的人体语义图像;
基于所述对抗生成网络的DCT卷积网络模块,对所述下采样后的人体语义图像进行生成处理,得到初步的预测人体语义图像;
基于所述对抗生成网络的上采样模块,对所述初步的预测人体语义图像进行上采样处理,得到预测的人体语义图像。
进一步,所述基于所述对抗生成网络的DCT卷积网络模块,对所述下采样后的人体语义图像进行生成处理,得到初步的预测人体语义图像这一步骤,其具体包括:
将所述下采样后的人体语义图像输入至所述DCT卷积网络模块;
基于所述DCT卷积网络模块的通道切分操作层,对所述下采样后的人体语义图像进行切割处理,得到人体语义时域特征图像和人体语义频域特征图像;
基于所述DCT卷积网络模块的自相关卷积运算层,对所述人体语义时域特征图像进行自相关卷积运算,提取人体语义时域特征;
基于所述DCT卷积网络模块的DCT-2d卷积运算层,对所述人体语义频域特征图像进行DCT-2d卷积运算,提取人体语义频域特征;
基于所述DCT卷积网络模块的BatchNormalize激活层,对所述人体语义时域特征与所述人体语义频域特征进行拼接处理,得到初步的预测人体语义图像。
进一步,所述对抗生成网络的损失函数的表达式具体如下所示:
上式中,LG表示生成器损失函数,Ex(·)表示数学期望,表示鉴别器网络输出,/>表示对抗生成网络生成的混合背景前景图片输出。
进一步,所述鉴别器的损失函数的表达式具体如下所示:
上式中,LD表示鉴别器的损失函数,Ey(·)表示数学期望,Dξ(y)表示鉴别器对于真实图片的鉴别输出结果,y表示输入的真实图片。
所述前背景混合生成网络模型的对抗损失函数的表达式具体如下所示:
上式中,Ladv表示前背景混合生成网络模型的对抗损失函数,Dξ表示鉴别器,Gθ表示生成器。
本发明所采用的第二技术方案是:基于生成网络的前背景图像混合生成系统,包括:
获取模块,用于获取待识别的人体语义分割图像;
构建模块,用于引入DCT卷积网络模块单元,构建前背景混合生成网络模型;
识别模块,用于将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型进行识别,得到最终人体语义图像。
本发明方法及系统的有益效果是:本发明通过获取待识别的人体语义分割图像,进一步引入DCT卷积网络模块单元,构建前背景混合生成网络模型对待识别的人体语义分割图像进行识别生成处理,其中,DCT卷积网络模块单元可反映出图像特征的多尺度频域信息,相比于传统的离散傅里叶变换不会引入复频域信号,同时保证输入输出的维度一致,做到特征融合以充分提取时域与频域的信息,DCT卷积网络模块单元将信号从时域转换到频域,通过将信号展开成余弦函数的线性组合,能够更好地捕捉信号中的重要特征,能够生成更加符合实际场景需求的混合前背景图像。
附图说明
图1是本发明实施例基于生成网络的前背景图像混合生成方法的步骤流程图;
图2是本发明实施例基于生成网络的前背景图像混合生成系统的结构框图;
图3是静态背景视频前背景混合模块原理示意图;
图4是本发明具体实施例前背景融合网络结构流程示意图;
图5是本发明具体实施例DCT-Conv卷积模块流程示意图;
图6是本发明具体实施例DCT-Conv单元卷积计算流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1,本发明提供了基于生成网络的前背景图像混合生成方法,该方法包括以下步骤:
S1、获取待识别的人体语义分割图像;
具体地,待识别的人体语义分割图像包括第一人体语义分割图像与第二人体语义分割图像,所述第一人体语义分割图像用于提取前景人物图像信息,所述第二人体语义分割图像用于提取背景环境信息。
S2、引入DCT卷积网络模块单元,构建前背景混合生成网络模型;
具体地,前背景混合生成网络模型包括Mask前景生成器、分离背景模块、对抗生成网络和鉴别器,其中,所述对抗生成网络包括下采样模块、DCT卷积网络模块和上采样模块,所述DCT卷积网络模块包括通道切分操作层、自相关卷积运算层、DCT-2d卷积运算层和BatchNormalize激活层。
S3、将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型进行识别,得到最终人体语义图像。
具体地,如图3和图4所示,Mask前景生成器通过人体语义分割算法(semanticsegmentation)提取出人体分割部分,记作M。分离背景模块将图片区域的背景部分保留,前景人物区域去除,记作x。将此二者的图片输入做拼接处理,得到输入再将此输入通过对抗生成网络(generate adversarial network)得到前背景混合后的输出。对于生成网络的内部结构单元,我们创新性的提出了一种DCT卷积网络模块单元。DCT卷积模块单元如图6所示,它在卷积层中加入了离散余弦变换单元,记作DCT-2d变换(two-dimensional discrete cosine transform)。
S31、将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型;
S32、基于所述前背景混合生成网络模型的Mask前景生成器对所述第一人体语义分割图像进行识别处理,得到前景人物图像信息;
S33、基于所述前背景混合生成网络模型的分离背景模块对所述第二人体语义分割图像进行识别处理,得到背景环境信息;
S34、将所述前景人物图像信息与所述背景环境信息进行拼接处理,得到拼接后的人体语义图像;
S35、基于所述前背景混合生成网络模型的对抗生成网络对所述拼接后的人体语义图像进行噪声生成处理,得到预测的人体语义图像;
具体地,将所述拼接后的人体语义图像输入至所述对抗生成网络;基于所述对抗生成网络的下采样模块,对所述拼接后的人体语义图像进行下采样处理,得到下采样后的人体语义图像;基于所述对抗生成网络的DCT卷积网络模块,对所述下采样后的人体语义图像进行生成处理,得到初步的预测人体语义图像;
其中,基于所述DCT卷积网络模块的通道切分操作层,对所述下采样后的人体语义图像进行切割处理,得到人体语义时域特征图像和人体语义频域特征图像;基于所述DCT卷积网络模块的自相关卷积运算层,对所述人体语义时域特征图像进行自相关卷积运算,提取人体语义时域特征;基于所述DCT卷积网络模块的DCT-2d卷积运算层,对所述人体语义频域特征图像进行DCT-2d卷积运算,提取人体语义频域特征;基于所述DCT卷积网络模块的BatchNormalize激活层,对所述人体语义时域特征与所述人体语义频域特征进行拼接处理,得到初步的预测人体语义图像;
在本实施例中,2D离散余弦变换的基函数(base function)由以下形式给出:
上式中,ak表示变换系数。
则对于二维离散余弦变换和逆变换过程,由以下形式给出:
上式中,N表示DCT变换点数维度,C(u)C(v)为变换系数,当u=v时,其它情况C(u)=0。
DCT变换可反映出图像特征的多尺度频域信息,再结合卷积神经网络计算单元,对空间频域特征做进一步提取再经过反变换恢复成原始图像数据。它相比于离散傅里叶变换(discrete fourier transform,DFT)不会引入复频域信号,同时保证输入输出的维度一致。DCT-Conv卷积模块计算流程如图5所示。它首先将输入的特征图通过通道切分操作(channel split)切分成两部分特征图x1,x2,再对它们分别做自相关卷积运算及DCT-2d卷积运算。最后通过BatchNormalize激活层将此运算后的特征图/>合并。通道切分的优势在于,它保留了原有图像的特征同时结合DCT-2d卷积运算后的特征,做到特征融合以充分提取时域与频域的信息,将二者拼接结合最后输出到下一个DCT-Conv模块单元进行计算。
对于网络训练损失函数的设计,我们采用对抗生成网络的生成-鉴别损失函数机制。对于鉴别器Dξ(x),它区分生成的混合图像的真与假。给定真实图片为y,则鉴别器损失函数(discriminator loss)由以下形式给出:
上式中,LG表示生成器损失函数,Ex(·)表示数学期望,表示鉴别器网络输出,/>表示对抗生成网络生成的混合背景前景图片输出;
而生成器则使用以下形式作为损失函数:
上式中,LD表示鉴别器的损失函数,Ey(·)表示数学期望,Dξ(y)表示鉴别器对于真实图片的鉴别输出结果,y表示输入的真实图片;
因此,设计的对抗损失函数写成以下形式:
上式中,Ladv表示前背景混合生成网络模型的对抗损失函数,Dξ表示鉴别器,Gθ表示生成器。
基于所述对抗生成网络的上采样模块,对所述初步的预测人体语义图像进行上采样处理,得到预测的人体语义图像。
S36、基于所述前背景混合生成网络模型的鉴别器对所述预测的人体语义图像与真实人体语义图像进行辨别处理,得到最终人体语义图像。
在本实施例中,对于训练过程,本发明使用自定义生成数据集。收集了由StableDiffusion模型生成的若干人物和背景图片,并利用语义分割工具分离前景背景。训练集样本1k,测试集样本0.2k。使用3060 8G单卡即可训练,学习率设置为0.001,衰减系数为0.1/50epochs,一共训练150epochs。网络收敛后,即可得到前背景融合生成模型。
参照图2,基于生成网络的前背景图像混合生成系统,包括:
获取模块,用于获取待识别的人体语义分割图像;
构建模块,用于引入DCT卷积网络模块单元,构建前背景混合生成网络模型;
识别模块,用于将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型进行识别,得到最终人体语义图像。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.基于生成网络的前背景图像混合生成方法,其特征在于,包括以下步骤:
获取待识别的人体语义分割图像;
引入DCT卷积网络模块单元,构建前背景混合生成网络模型;
将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型进行识别,得到最终人体语义图像。
2.根据权利要求1所述基于生成网络的前背景图像混合生成方法,其特征在于,所述待识别的人体语义分割图像包括第一人体语义分割图像与第二人体语义分割图像,所述第一人体语义分割图像用于提取前景人物图像信息,所述第二人体语义分割图像用于提取背景环境信息。
3.根据权利要求1所述基于生成网络的前背景图像混合生成方法,其特征在于,所述前背景混合生成网络模型包括Mask前景生成器、分离背景模块、对抗生成网络和鉴别器,其中,所述对抗生成网络包括下采样模块、DCT卷积网络模块和上采样模块,所述DCT卷积网络模块包括通道切分操作层、自相关卷积运算层、DCT-2d卷积运算层和BatchNormalize激活层。
4.根据权利要求3所述基于生成网络的前背景图像混合生成方法,其特征在于,所述将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型进行识别,得到最终人体语义图像这一步骤,其具体包括:
将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型;
基于所述前背景混合生成网络模型的Mask前景生成器对所述第一人体语义分割图像进行识别处理,得到前景人物图像信息;
基于所述前背景混合生成网络模型的分离背景模块对所述第二人体语义分割图像进行识别处理,得到背景环境信息;
将所述前景人物图像信息与所述背景环境信息进行拼接处理,得到拼接后的人体语义图像;
基于所述前背景混合生成网络模型的对抗生成网络对所述拼接后的人体语义图像进行噪声生成处理,得到预测的人体语义图像;
基于所述前背景混合生成网络模型的鉴别器对所述预测的人体语义图像与真实人体语义图像进行辨别处理,得到最终人体语义图像。
5.根据权利要求4所述基于生成网络的前背景图像混合生成方法,其特征在于,所述基于所述前背景混合生成网络模型的对抗生成网络对所述拼接后的人体语义图像进行噪声生成处理,得到预测的人体语义图像这一步骤,其具体包括:
将所述拼接后的人体语义图像输入至所述对抗生成网络;
基于所述对抗生成网络的下采样模块,对所述拼接后的人体语义图像进行下采样处理,得到下采样后的人体语义图像;
基于所述对抗生成网络的DCT卷积网络模块,对所述下采样后的人体语义图像进行生成处理,得到初步的预测人体语义图像;
基于所述对抗生成网络的上采样模块,对所述初步的预测人体语义图像进行上采样处理,得到预测的人体语义图像。
6.根据权利要求5所述基于生成网络的前背景图像混合生成方法,其特征在于,所述基于所述对抗生成网络的DCT卷积网络模块,对所述下采样后的人体语义图像进行生成处理,得到初步的预测人体语义图像这一步骤,其具体包括:
将所述下采样后的人体语义图像输入至所述DCT卷积网络模块;
基于所述DCT卷积网络模块的通道切分操作层,对所述下采样后的人体语义图像进行切割处理,得到人体语义时域特征图像和人体语义频域特征图像;
基于所述DCT卷积网络模块的自相关卷积运算层,对所述人体语义时域特征图像进行自相关卷积运算,提取人体语义时域特征;
基于所述DCT卷积网络模块的DCT-2d卷积运算层,对所述人体语义频域特征图像进行DCT-2d卷积运算,提取人体语义频域特征;
基于所述DCT卷积网络模块的BatchNormalize激活层,对所述人体语义时域特征与所述人体语义频域特征进行拼接处理,得到初步的预测人体语义图像。
7.根据权利要求3所述基于生成网络的前背景图像混合生成方法,其特征在于,所述对抗生成网络的损失函数的表达式具体如下所示:
上式中,LG表示生成器损失函数,Ex(·)表示数学期望,表示鉴别器网络输出,/>表示对抗生成网络生成的混合背景前景图片输出。
8.根据权利要求3所述基于生成网络的前背景图像混合生成方法,其特征在于,所述鉴别器的损失函数的表达式具体如下所示:
上式中,LD表示鉴别器的损失函数,Ey(·)表示数学期望,Dξ(y)表示鉴别器对于真实图片的鉴别输出结果,y表示输入的真实图片。
9.根据权利要求8所述基于生成网络的前背景图像混合生成方法,其特征在于,所述前背景混合生成网络模型的对抗损失函数的表达式具体如下所示:
上式中,Ladv表示前背景混合生成网络模型的对抗损失函数,Dξ表示鉴别器,Gθ表示生成器。
10.基于生成网络的前背景图像混合生成系统,其特征在于,包括以下模块:
获取模块,用于获取待识别的人体语义分割图像;
构建模块,用于引入DCT卷积网络模块单元,构建前背景混合生成网络模型;
识别模块,用于将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型进行识别,得到最终人体语义图像。
CN202311436471.2A 2023-10-31 2023-10-31 基于生成网络的前背景图像混合生成方法及系统 Active CN117351520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311436471.2A CN117351520B (zh) 2023-10-31 2023-10-31 基于生成网络的前背景图像混合生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311436471.2A CN117351520B (zh) 2023-10-31 2023-10-31 基于生成网络的前背景图像混合生成方法及系统

Publications (2)

Publication Number Publication Date
CN117351520A true CN117351520A (zh) 2024-01-05
CN117351520B CN117351520B (zh) 2024-06-11

Family

ID=89357390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311436471.2A Active CN117351520B (zh) 2023-10-31 2023-10-31 基于生成网络的前背景图像混合生成方法及系统

Country Status (1)

Country Link
CN (1) CN117351520B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711413A (zh) * 2018-12-30 2019-05-03 陕西师范大学 基于深度学习的图像语义分割方法
US20190295302A1 (en) * 2018-03-22 2019-09-26 Northeastern University Segmentation Guided Image Generation With Adversarial Networks
CN110634170A (zh) * 2019-08-30 2019-12-31 福建帝视信息科技有限公司 一种基于语义内容和快速图像检索的照片级图像生成方法
CN111368687A (zh) * 2020-02-28 2020-07-03 成都市微泊科技有限公司 一种基于目标检测和语义分割的人行道车辆违停检测方法
CN111563507A (zh) * 2020-04-14 2020-08-21 浙江科技学院 一种基于卷积神经网络的室内场景语义分割方法
CN111985608A (zh) * 2019-05-23 2020-11-24 宏达国际电子股份有限公司 训练生成对抗网络的方法及生成图像的方法
CN113313180A (zh) * 2021-06-04 2021-08-27 太原理工大学 一种基于深度对抗学习的遥感图像语义分割方法
CN114494699A (zh) * 2022-01-28 2022-05-13 福州大学 基于语义传播与前背景感知的图像语义分割方法及系统
CN114529940A (zh) * 2022-01-19 2022-05-24 华南理工大学 基于姿态引导的人体图像生成方法
US20220309674A1 (en) * 2021-03-26 2022-09-29 Nanjing University Of Posts And Telecommunications Medical image segmentation method based on u-net
CN115361559A (zh) * 2022-06-30 2022-11-18 浙江大华技术股份有限公司 图像编码方法、图像解码方法、装置以及存储介质
CN116883663A (zh) * 2023-07-18 2023-10-13 电子科技大学 基于深度学习的视频流中飞行目标主要部件语义分割方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190295302A1 (en) * 2018-03-22 2019-09-26 Northeastern University Segmentation Guided Image Generation With Adversarial Networks
CN109711413A (zh) * 2018-12-30 2019-05-03 陕西师范大学 基于深度学习的图像语义分割方法
CN111985608A (zh) * 2019-05-23 2020-11-24 宏达国际电子股份有限公司 训练生成对抗网络的方法及生成图像的方法
CN110634170A (zh) * 2019-08-30 2019-12-31 福建帝视信息科技有限公司 一种基于语义内容和快速图像检索的照片级图像生成方法
CN111368687A (zh) * 2020-02-28 2020-07-03 成都市微泊科技有限公司 一种基于目标检测和语义分割的人行道车辆违停检测方法
CN111563507A (zh) * 2020-04-14 2020-08-21 浙江科技学院 一种基于卷积神经网络的室内场景语义分割方法
US20220309674A1 (en) * 2021-03-26 2022-09-29 Nanjing University Of Posts And Telecommunications Medical image segmentation method based on u-net
CN113313180A (zh) * 2021-06-04 2021-08-27 太原理工大学 一种基于深度对抗学习的遥感图像语义分割方法
CN114529940A (zh) * 2022-01-19 2022-05-24 华南理工大学 基于姿态引导的人体图像生成方法
CN114494699A (zh) * 2022-01-28 2022-05-13 福州大学 基于语义传播与前背景感知的图像语义分割方法及系统
CN115361559A (zh) * 2022-06-30 2022-11-18 浙江大华技术股份有限公司 图像编码方法、图像解码方法、装置以及存储介质
CN116883663A (zh) * 2023-07-18 2023-10-13 电子科技大学 基于深度学习的视频流中飞行目标主要部件语义分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHENG C 等: "Multi-Discriminator Generative Adversarial Network for Semi-Supervised SAR Target Recognition", 《2019 IEEE RADAR CONFERENCE (RADARCONF19)》, 16 September 2019 (2019-09-16), pages 1 - 6 *
张宏钊;吕启深;党晓婧;李炎裕;代德宇;: "基于加权损失函数的多尺度对抗网络图像语义分割算法", 计算机应用与软件, no. 01, 12 January 2020 (2020-01-12), pages 290 - 297 *

Also Published As

Publication number Publication date
CN117351520B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
CN111460968B (zh) 基于视频的无人机识别与跟踪方法及装置
CN111126379A (zh) 一种目标检测方法与装置
CN110163188B (zh) 视频处理以及在视频中嵌入目标对象的方法、装置和设备
CN112861575A (zh) 一种行人结构化方法、装置、设备和存储介质
CN109977832B (zh) 一种图像处理方法、装置及存储介质
CN110020658B (zh) 一种基于多任务深度学习的显著目标检测方法
CN111382647B (zh) 一种图片处理方法、装置、设备及存储介质
CN115375999B (zh) 应用于危化品车检测的目标检测模型、方法及装置
CN109657538B (zh) 基于上下文信息指导的场景分割方法和系统
CN117079163A (zh) 一种基于改进yolox-s的航拍图像小目标检测方法
CN113688839B (zh) 视频处理方法及装置、电子设备、计算机可读存储介质
CN115100469A (zh) 一种基于分割算法的目标属性识别方法、训练方法和装置
CN114972016A (zh) 图像处理方法、装置、计算机设备、存储介质及程序产品
CN116563553B (zh) 一种基于深度学习的无人机图像分割方法和系统
CN117351520B (zh) 基于生成网络的前背景图像混合生成方法及系统
CN114241278B (zh) 一种多分支的行人重识别方法和系统
CN114067356B (zh) 基于联合局部引导与属性聚类的行人重识别方法
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
CN114648604A (zh) 一种图像渲染方法、电子设备、存储介质及程序产品
CN114283087A (zh) 一种图像去噪方法及相关设备
Wang et al. Learning to remove reflections for text images
Kim et al. Location-based saliency maps from a fully connected layer using multi-shapes
Truong et al. A study on visual saliency detection in infrared images using Boolean map approach
Li et al. Improved YOLOv5s algorithm for small target detection in UAV aerial photography
Xing et al. A Dual-channel Augmented Attentive Dense-convolutional Network for power image splicing tamper detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant