CN117351520A

CN117351520A - 基于生成网络的前背景图像混合生成方法及系统

Info

Publication number: CN117351520A
Application number: CN202311436471.2A
Authority: CN
Inventors: 黄志青; 余俊
Original assignee: Guangzhou Hengsha Digital Technology Co ltd
Current assignee: Guangzhou Hengsha Digital Technology Co ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-01-05
Anticipated expiration: 2043-10-31
Also published as: CN117351520B

Abstract

本发明公开了基于生成网络的前背景图像混合生成方法及系统，该方法包括：获取待识别的人体语义分割图像；引入DCT卷积网络模块单元，构建前背景混合生成网络模型；将待识别的人体语义分割图像输入至前背景混合生成网络模型进行识别，得到最终人体语义图像。该系统包括：获取模块、构建模块和识别模块。本发明通过引入DCT卷积网络模块单元，构建前背景混合生成网络模型对待识别的人体语义分割图像进行识别生成处理，能够生成更加符合实际场景需求的混合前背景图像。本发明作为基于生成网络的前背景图像混合生成方法及系统，可广泛应用于图像混合生成技术领域。

Description

基于生成网络的前背景图像混合生成方法及系统

技术领域

本发明涉及图像混合生成技术领域，尤其涉及基于生成网络的前背景图像混合生成方法及系统。

背景技术

随着人工智能、深度学习等领域的发展,基于视觉的目标检测获得了长足的发展。与传统基于特征提取的目标检测方法不同，基于深度学习的目标检测方法通过深度神经网络提取图像的深层信息，使用海量的数据进行训练，极大地提高了目标检测的准确率和速度，在目标检测领域中，行人检测是一块重要的组成部分。行人检测就是使用计算机技术在一张图片或者一段视频中判断是否存在行人并在图中框选出行人位置。行人检测在自动驾驶、无人机、监控等领域都有着重要的应用。当前主流的行人检测方法包括：整体检测、基于局部的检测、基于运动的检测、多相机立体视觉检测，现有的基于可见光图像的目标检测因为其设备成本低、适用范围广等特点而受到广泛关注和研究。然而，可见光图像非常容易受到环境的影响。外观变化、遮挡和光照条件变化等因素都会对基于可见光的目标检测产生极大的影响，且现有的检测方法大多数基于离散傅里叶变换(discrete fouriertransform，DFT)进行实现，其会引入复频域信号，影响实际图像的预测生成结果。

发明内容

为了解决上述技术问题，本发明的目的是提供基于生成网络的前背景图像混合生成方法及系统，通过引入DCT卷积网络模块单元，构建前背景混合生成网络模型对待识别的人体语义分割图像进行识别生成处理，能够生成更加符合实际场景需求的混合前背景图像。

本发明所采用的第一技术方案是：基于生成网络的前背景图像混合生成方法，包括以下步骤：

获取待识别的人体语义分割图像；

引入DCT卷积网络模块单元，构建前背景混合生成网络模型；

将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型进行识别，得到最终人体语义图像。

进一步，所述待识别的人体语义分割图像包括第一人体语义分割图像与第二人体语义分割图像，所述第一人体语义分割图像用于提取前景人物图像信息，所述第二人体语义分割图像用于提取背景环境信息。

进一步，所述前背景混合生成网络模型包括Mask前景生成器、分离背景模块、对抗生成网络和鉴别器，其中，所述对抗生成网络包括下采样模块、DCT卷积网络模块和上采样模块，所述DCT卷积网络模块包括通道切分操作层、自相关卷积运算层、DCT-2d卷积运算层和BatchNormalize激活层。

进一步，所述将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型进行识别，得到最终人体语义图像这一步骤，其具体包括：

将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型；

基于所述前背景混合生成网络模型的Mask前景生成器对所述第一人体语义分割图像进行识别处理，得到前景人物图像信息；

基于所述前背景混合生成网络模型的分离背景模块对所述第二人体语义分割图像进行识别处理，得到背景环境信息；

将所述前景人物图像信息与所述背景环境信息进行拼接处理，得到拼接后的人体语义图像；

基于所述前背景混合生成网络模型的对抗生成网络对所述拼接后的人体语义图像进行噪声生成处理，得到预测的人体语义图像；

基于所述前背景混合生成网络模型的鉴别器对所述预测的人体语义图像与真实人体语义图像进行辨别处理，得到最终人体语义图像。

进一步，所述基于所述前背景混合生成网络模型的对抗生成网络对所述拼接后的人体语义图像进行噪声生成处理，得到预测的人体语义图像这一步骤，其具体包括：

将所述拼接后的人体语义图像输入至所述对抗生成网络；

基于所述对抗生成网络的下采样模块，对所述拼接后的人体语义图像进行下采样处理，得到下采样后的人体语义图像；

基于所述对抗生成网络的DCT卷积网络模块，对所述下采样后的人体语义图像进行生成处理，得到初步的预测人体语义图像；

基于所述对抗生成网络的上采样模块，对所述初步的预测人体语义图像进行上采样处理，得到预测的人体语义图像。

进一步，所述基于所述对抗生成网络的DCT卷积网络模块，对所述下采样后的人体语义图像进行生成处理，得到初步的预测人体语义图像这一步骤，其具体包括：

将所述下采样后的人体语义图像输入至所述DCT卷积网络模块；

基于所述DCT卷积网络模块的通道切分操作层，对所述下采样后的人体语义图像进行切割处理，得到人体语义时域特征图像和人体语义频域特征图像；

基于所述DCT卷积网络模块的自相关卷积运算层，对所述人体语义时域特征图像进行自相关卷积运算，提取人体语义时域特征；

基于所述DCT卷积网络模块的DCT-2d卷积运算层，对所述人体语义频域特征图像进行DCT-2d卷积运算，提取人体语义频域特征；

基于所述DCT卷积网络模块的BatchNormalize激活层，对所述人体语义时域特征与所述人体语义频域特征进行拼接处理，得到初步的预测人体语义图像。

进一步，所述对抗生成网络的损失函数的表达式具体如下所示：

上式中，L_G表示生成器损失函数，E_x(·)表示数学期望，表示鉴别器网络输出，/>表示对抗生成网络生成的混合背景前景图片输出。

进一步，所述鉴别器的损失函数的表达式具体如下所示：

上式中，L_D表示鉴别器的损失函数，E_y(·)表示数学期望，D_ξ(y)表示鉴别器对于真实图片的鉴别输出结果，y表示输入的真实图片。

所述前背景混合生成网络模型的对抗损失函数的表达式具体如下所示：

上式中，L_adv表示前背景混合生成网络模型的对抗损失函数，D_ξ表示鉴别器，G_θ表示生成器。

本发明所采用的第二技术方案是：基于生成网络的前背景图像混合生成系统，包括：

获取模块，用于获取待识别的人体语义分割图像；

构建模块，用于引入DCT卷积网络模块单元，构建前背景混合生成网络模型；

识别模块，用于将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型进行识别，得到最终人体语义图像。

本发明方法及系统的有益效果是：本发明通过获取待识别的人体语义分割图像，进一步引入DCT卷积网络模块单元，构建前背景混合生成网络模型对待识别的人体语义分割图像进行识别生成处理，其中，DCT卷积网络模块单元可反映出图像特征的多尺度频域信息，相比于传统的离散傅里叶变换不会引入复频域信号，同时保证输入输出的维度一致，做到特征融合以充分提取时域与频域的信息，DCT卷积网络模块单元将信号从时域转换到频域，通过将信号展开成余弦函数的线性组合，能够更好地捕捉信号中的重要特征，能够生成更加符合实际场景需求的混合前背景图像。

附图说明

图1是本发明实施例基于生成网络的前背景图像混合生成方法的步骤流程图；

图2是本发明实施例基于生成网络的前背景图像混合生成系统的结构框图；

图3是静态背景视频前背景混合模块原理示意图；

图4是本发明具体实施例前背景融合网络结构流程示意图；

图5是本发明具体实施例DCT-Conv卷积模块流程示意图；

图6是本发明具体实施例DCT-Conv单元卷积计算流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1，本发明提供了基于生成网络的前背景图像混合生成方法，该方法包括以下步骤：

S1、获取待识别的人体语义分割图像；

具体地，待识别的人体语义分割图像包括第一人体语义分割图像与第二人体语义分割图像，所述第一人体语义分割图像用于提取前景人物图像信息，所述第二人体语义分割图像用于提取背景环境信息。

S2、引入DCT卷积网络模块单元，构建前背景混合生成网络模型；

具体地，前背景混合生成网络模型包括Mask前景生成器、分离背景模块、对抗生成网络和鉴别器，其中，所述对抗生成网络包括下采样模块、DCT卷积网络模块和上采样模块，所述DCT卷积网络模块包括通道切分操作层、自相关卷积运算层、DCT-2d卷积运算层和BatchNormalize激活层。

S3、将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型进行识别，得到最终人体语义图像。

具体地，如图3和图4所示，Mask前景生成器通过人体语义分割算法(semanticsegmentation)提取出人体分割部分，记作M。分离背景模块将图片区域的背景部分保留，前景人物区域去除，记作x。将此二者的图片输入做拼接处理，得到输入再将此输入通过对抗生成网络(generate adversarial network)得到前背景混合后的输出。对于生成网络的内部结构单元，我们创新性的提出了一种DCT卷积网络模块单元。DCT卷积模块单元如图6所示，它在卷积层中加入了离散余弦变换单元，记作DCT-2d变换(two-dimensional discrete cosine transform)。

S31、将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型；

S32、基于所述前背景混合生成网络模型的Mask前景生成器对所述第一人体语义分割图像进行识别处理，得到前景人物图像信息；

S33、基于所述前背景混合生成网络模型的分离背景模块对所述第二人体语义分割图像进行识别处理，得到背景环境信息；

S34、将所述前景人物图像信息与所述背景环境信息进行拼接处理，得到拼接后的人体语义图像；

S35、基于所述前背景混合生成网络模型的对抗生成网络对所述拼接后的人体语义图像进行噪声生成处理，得到预测的人体语义图像；

具体地，将所述拼接后的人体语义图像输入至所述对抗生成网络；基于所述对抗生成网络的下采样模块，对所述拼接后的人体语义图像进行下采样处理，得到下采样后的人体语义图像；基于所述对抗生成网络的DCT卷积网络模块，对所述下采样后的人体语义图像进行生成处理，得到初步的预测人体语义图像；

其中，基于所述DCT卷积网络模块的通道切分操作层，对所述下采样后的人体语义图像进行切割处理，得到人体语义时域特征图像和人体语义频域特征图像；基于所述DCT卷积网络模块的自相关卷积运算层，对所述人体语义时域特征图像进行自相关卷积运算，提取人体语义时域特征；基于所述DCT卷积网络模块的DCT-2d卷积运算层，对所述人体语义频域特征图像进行DCT-2d卷积运算，提取人体语义频域特征；基于所述DCT卷积网络模块的BatchNormalize激活层，对所述人体语义时域特征与所述人体语义频域特征进行拼接处理，得到初步的预测人体语义图像；

在本实施例中，2D离散余弦变换的基函数(base function)由以下形式给出：

上式中，a_k表示变换系数。

则对于二维离散余弦变换和逆变换过程，由以下形式给出：

上式中，N表示DCT变换点数维度，C(u)C(v)为变换系数，当u＝v时，其它情况C(u)＝0。

DCT变换可反映出图像特征的多尺度频域信息，再结合卷积神经网络计算单元，对空间频域特征做进一步提取再经过反变换恢复成原始图像数据。它相比于离散傅里叶变换(discrete fourier transform，DFT)不会引入复频域信号，同时保证输入输出的维度一致。DCT-Conv卷积模块计算流程如图5所示。它首先将输入的特征图通过通道切分操作(channel split)切分成两部分特征图x₁,x₂，再对它们分别做自相关卷积运算及DCT-2d卷积运算。最后通过BatchNormalize激活层将此运算后的特征图/>合并。通道切分的优势在于，它保留了原有图像的特征同时结合DCT-2d卷积运算后的特征，做到特征融合以充分提取时域与频域的信息，将二者拼接结合最后输出到下一个DCT-Conv模块单元进行计算。

对于网络训练损失函数的设计，我们采用对抗生成网络的生成-鉴别损失函数机制。对于鉴别器D_ξ(x)，它区分生成的混合图像的真与假。给定真实图片为y，则鉴别器损失函数(discriminator loss)由以下形式给出：

上式中，L_G表示生成器损失函数，E_x(·)表示数学期望，表示鉴别器网络输出，/>表示对抗生成网络生成的混合背景前景图片输出；

而生成器则使用以下形式作为损失函数：

上式中，L_D表示鉴别器的损失函数，E_y(·)表示数学期望，D_ξ(y)表示鉴别器对于真实图片的鉴别输出结果，y表示输入的真实图片；

因此，设计的对抗损失函数写成以下形式：

S36、基于所述前背景混合生成网络模型的鉴别器对所述预测的人体语义图像与真实人体语义图像进行辨别处理，得到最终人体语义图像。

在本实施例中，对于训练过程，本发明使用自定义生成数据集。收集了由StableDiffusion模型生成的若干人物和背景图片，并利用语义分割工具分离前景背景。训练集样本1k，测试集样本0.2k。使用3060 8G单卡即可训练，学习率设置为0.001，衰减系数为0.1/50epochs，一共训练150epochs。网络收敛后，即可得到前背景融合生成模型。

参照图2，基于生成网络的前背景图像混合生成系统，包括：

获取模块，用于获取待识别的人体语义分割图像；

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于生成网络的前背景图像混合生成方法，其特征在于，包括以下步骤：

获取待识别的人体语义分割图像；

引入DCT卷积网络模块单元，构建前背景混合生成网络模型；

2.根据权利要求1所述基于生成网络的前背景图像混合生成方法，其特征在于，所述待识别的人体语义分割图像包括第一人体语义分割图像与第二人体语义分割图像，所述第一人体语义分割图像用于提取前景人物图像信息，所述第二人体语义分割图像用于提取背景环境信息。

3.根据权利要求1所述基于生成网络的前背景图像混合生成方法，其特征在于，所述前背景混合生成网络模型包括Mask前景生成器、分离背景模块、对抗生成网络和鉴别器，其中，所述对抗生成网络包括下采样模块、DCT卷积网络模块和上采样模块，所述DCT卷积网络模块包括通道切分操作层、自相关卷积运算层、DCT-2d卷积运算层和BatchNormalize激活层。

4.根据权利要求3所述基于生成网络的前背景图像混合生成方法，其特征在于，所述将所述待识别的人体语义分割图像输入至所述前背景混合生成网络模型进行识别，得到最终人体语义图像这一步骤，其具体包括：

5.根据权利要求4所述基于生成网络的前背景图像混合生成方法，其特征在于，所述基于所述前背景混合生成网络模型的对抗生成网络对所述拼接后的人体语义图像进行噪声生成处理，得到预测的人体语义图像这一步骤，其具体包括：

将所述拼接后的人体语义图像输入至所述对抗生成网络；

6.根据权利要求5所述基于生成网络的前背景图像混合生成方法，其特征在于，所述基于所述对抗生成网络的DCT卷积网络模块，对所述下采样后的人体语义图像进行生成处理，得到初步的预测人体语义图像这一步骤，其具体包括：

7.根据权利要求3所述基于生成网络的前背景图像混合生成方法，其特征在于，所述对抗生成网络的损失函数的表达式具体如下所示：

8.根据权利要求3所述基于生成网络的前背景图像混合生成方法，其特征在于，所述鉴别器的损失函数的表达式具体如下所示：

9.根据权利要求8所述基于生成网络的前背景图像混合生成方法，其特征在于，所述前背景混合生成网络模型的对抗损失函数的表达式具体如下所示：

10.基于生成网络的前背景图像混合生成系统，其特征在于，包括以下模块：

获取模块，用于获取待识别的人体语义分割图像；