CN112149802B

CN112149802B - 一种语义结构一致的图像内容转换方法

Info

Publication number: CN112149802B
Application number: CN202010979163.4A
Authority: CN
Inventors: 尹梦晓; 林振峰; 覃子轩; 杨锋
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2022-08-09
Anticipated expiration: 2040-09-17
Also published as: CN112149802A

Abstract

本发明公开了一种语义结构一致的图像内容转换方法，包括步骤：1)收集训练数据，划分源图像和目标图像；2)对训练数据进行预处理，构建转换模型，包括编码器和生成器；3)使用编码器下采样经过预处理的源图像，获取潜在编码；4)使用生成器上采样潜在编码，上采样过程中通过动态感受野自适应融合多尺度信息，生成虚假的目标图像；5)构建判别器，使用虚假的目标图像，经过预处理的源图像和经过预处理的目标图像通过判别器构建损失函数；6)通过训练使损失函数收敛获取参数最优的转换模型，使用转换模型能够转换与训练集中源图像同类的图像。本发明提高了转换模型对图像信息的获取，同时改善了生成器的上采样方式，进一步提升了生成图像的质量。

Description

一种语义结构一致的图像内容转换方法

技术领域

本发明涉及深度学习和图像转换的技术领域，尤其是指一种语义结构一致的图像内容转换方法。

背景技术

计算机视觉领域在深度学习技术的推动下获得飞速发展，图像分类、目标检测和图像生成等方面的技术逐渐成熟，许多研究开始在实际生活中得到应用。在图像生成方面，图像转换能够更准确控制目标图像的生成，对图像的编辑更具有实际意义。而对于图像转换中如何生成高质量的目标图像仍是目前需要解决的问题。

目前多任务的图像转换模型主要分为监督学习和无监督学习，监督学习的转换模型需要成对的训练数据，这些数据中源图像和目标图像要求一一对应且语义结构要求一致，因此需要人为的对这些数据进行标记。由于成对数据存在精确的对应关系，因此监督学习通常能够获得较高质量的生成图像，但仍然存在生成图像模糊和存在伪影等问题。无监督学习的转换模型使用非成对数据，减少了人工标记的成本，但由于数据之间缺乏对应关系，因此需要更复杂的转换模型建立源图像和目标图像之间的关系。通常无监督的转换模型包含多个生成器或生成过程，通过逆向生成建立图像或特征的重构关系，并通过这样的关系优化目标图像的生成。总体而言，监督学习的转换模型利用成对数据的优势能在单一生成器或生成过程中生成相对较高质量的目标图像，简化了模型的训练。无监督学习的转换模型在复杂的生成过程中产生了多样化的结构，包括基于循环一致性约束的结构、基于共享潜在空间的结构和基于特征分离的结构等，这些结构不仅有效利用了非成对数据，其中一些结构还能够根据不同的条件生成多样化的目标图像，但复杂的结构导致了模型训练的困难。无论是监督学习还是无监督学习，转换模型对图像信息的提取仍然有限，导致了生成图像的质量较差。

为了提高图像信息处理的效率，在一些任务中出现了相应的图像信息处理模块，如多尺度信息提取模块和注意力机制模块等，这些模块增强了网络模型对图像信息的获取，提升了网络模型的能力，进一步推动了计算机视觉领域的发展。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种语义结构一致的图像内容转换方法，解决了由于转换模型获取图像信息的能力不足导致的生成图像质量较低和模糊等问题。本发明通过动态感受野自适应融合特征的多尺度信息，改善了转换模型中传统生成器以固定感受野生成图像的形式，同时增强了转换模型获取图像信息的能力，进一步提高了生成图像的质量。

为实现上述目的，本发明所提供的技术方案为：一种语义结构一致的图像内容转换方法，包括以下步骤：

1)收集训练数据，所述训练数据是指成对的图像，包括源图像和目标图像，源图像和目标图像一一对应，语义结构上保持一致；

2)对训练数据进行预处理，构建转换模型，包括编码器和生成器；

3)使用编码器下采样经过预处理的源图像，获取潜在编码；

4)使用生成器上采样潜在编码，上采样过程中通过动态感受野自适应融合多尺度信息，生成虚假的目标图像；

5)构建判别器，使用虚假的目标图像，经过预处理的源图像和经过预处理的目标图像通过判别器构建损失函数；

6)通过训练使损失函数收敛获取参数最优的转换模型，使用参数最优的转换模型能够转换与训练数据中源图像同类的图像。

在步骤2)中，所述预处理是指将训练数据的像素值映射到-1和1之间，同一种训练数据使用相同大小的分辨率；所述编码器是指由输入层和多个下采样网络层构成的神经网络；所述生成器是指由多个上采样网络层、特征处理模块和输出层构成的神经网络。

在步骤3)中，所述编码器包含输入层和下采样网络层，所述编码器将经过预处理的源图像下采样，处理方式为：

式中，I_S表示经过预处理的源图像，

表示编码器中输入层使用的卷积，

表示编码器中输入层使用的激活函数，

表示编码器中输入层输出的特征，

表示编码器中第i层下采样网络层输出的特征，

表示编码器中第i-1层下采样网络层输出的特征，

表示编码器中第i层下采样网络层使用的卷积，

表示编码器中第i层下采样网络层使用的归一化方式，

表示编码器中第i层下采样网络层使用的激活函数，i∈{1,2,3,...,m}，m表示编码器中总的下采样网络层数；

所述潜在编码是指经过预处理的源图像在编码器下采样后获得的张量。

在步骤4)中，所述生成器包含上采样网络层、特征处理模块和输出层，所述生成器将编码器输出的潜在编码上采样，并在上采样过程中通过动态感受野自适应融合多尺度信息，处理方式为：

式中，

表示编码器输出的潜在编码，

表示生成器中第i层上采样网络层输出的特征，F_G ^i-1表示生成器中第i-1层上采样网络层输出的特征，

表示编码器中第(n-i+1)层上采样网络层输出的特征，⊙表示沿张量的维度进行拼接，

表示生成器中第i层上采样网络层使用的转置卷积，

表示生成器中第i层上采样网络层使用的归一化方式，

表示生成器中第i层上采样网络层使用的激活函数，i∈{1,2,3,...,n}，n表示生成器中总的上采样网络层数，m表示编码器中总的下采样网络层数，d_G表示生成器中的特征处理模块，

表示编码器中输入层输出的特征，

表示生成器中输出层使用的转置卷积，

表示生成器中输出层使用的激活函数，I_F表示虚假的目标图像；其中，d_G对特征的处理方式为：

式中，

表示生成器的上采样网络层中d_G输入的特征，s_d表示通过动态感受野自适应融合多尺度信息的模块，s_d在d_G中提取和融合多尺度信息，

表示d_G中第j次特征处理使用的归一化方式，

表示d_G中第j次特征处理使用的激活函数，

表示d_G中第j次特征处理使用的卷积，

表示d_G中第j次特征处理输出的特征，

表示d_G中第j-1次特征处理输出的特征，j∈{1,2}，

表示d_G中的残差连接使用的激活函数，

表示d_G输出的特征；其中，s_d通过动态感受野自适应融合多尺度信息的方式包含以下步骤：

4.1)使用不同感受野的卷积获取多尺度信息：

式中，

表示s_d输入的特征，

表示s_d中第k个卷积分支使用感受野大小为c的卷积，

表示s_d中第k个卷积分支使用的归一化方式，

表示s_d中第k个卷积分支使用的激活函数，

表示s_d中第k个卷积分支输出的特征，

包含

在感受野大小为c的卷积上获取的尺度信息，p表示s_d中的卷积分支的数量，k∈{1,2,3,...,p}，q表示s_d中卷积分支中感受野的大小，c∈{1,3,5,...,q}；

4.2)使用全局平均池化统计p个卷积分支输出特征的全局变化：

式中，GAP表示全局平均池化，

表示s_d中第p个卷积分支以感受野大小为q的卷积获取的特征，W_s表示

全局变化的张量；

4.3)使用W_s计算自适应选择权重：

式中，n_s表示对W_s进行降维使用的归一化方式，f_s表示对W_s进行降维使用的激活函数，

表示计算s_d中第k个卷积分支的选择权重时使用的卷积，f_w表示计算选择权重使用的激活函数，

表示s_d中第k个卷积分支的选择权重，

表示不同尺度信息融合的特征，

表示s_d中第p个卷积分支的选择权重，通过

控制

中尺度信息的转换程度，使s_d获得动态感受野。

在步骤5)中，所述判别器是由输入层、下采样网络层和输出层构成的神经网络，对输入图像的处理过程为：

式中，

和

表示判别器的两个输入图像，⊙表示沿张量的维度进行拼接，

表示判别器中输入层使用的卷积，

表示判别器中输入层使用的激活函数，

表示输入层输出的特征，

表示判别器中第i层网络层输出的特征，

表示判别器中第i-1层网络层输出的特征，

表示判别器中第i层网络层使用的归一化方式，

表示判别器中第i层网络层使用的激活函数，l表示判别器中的网络层数，

表示判别器中输出层使用的卷积，

表示判别器中输出层输出的特征；

根据经过预处理的源图像、经过预处理的真实目标图像和虚假的目标图像构建转换模型的损失函数和判别器的损失函数，分别表示为：

式中，L_T表示转换模型的损失函数，L_D表示判别器的损失函数，x表示经过预处理源图像，y表示经过预处理真实目标图像，T(x)表示虚假的目标图像，D(x,T(x))表示判别器对假样本的判断结果，D(x,y)表示判别器对真样本的判断结果，λ₁＝2，λ₂＝100，T表示转换模型，D表示判别器。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明在转换模型的生成器中实现了自适应多尺度信息融合，增强了转换模型对图像信息的获取。

2、本发明通过自适应多尺度信息融合使转换模型的生成器获得动态感受野，改善了转换模型的传统生成器以固定感受野生成图像的形式。

3、本发明对小样本数据也能生成高质量的目标图像。

4、本发明所提出的转换模型的生成器结构在图像生成领域中具有广泛的使用空间，在不同的转换模型中此生成器结构都能有效的获取更多图像信息，从而进一步提高生成图像的质量。

附图说明

图1为本发明使用的训练方式结构图。图中E表示编码器，G表示生成器，转换模型由E和G构成，D表示判别器，I_S表示经过预处理源图像，I_T表示经过预处理的真实目标图像，I_F表示虚假的目标图像，“Fake”和“True”分别表示判别器对输入的数据的判断结果，以张量的形式表示。

图2为本发明训练方式的使用流程图。

图3为本发明预测方式的使用流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

参见图1至图3所示，本实施例所提供的语义结构一致的图像内容转换方法，包括以下步骤：

1)收集训练数据，划分源图像和目标图像，所述训练数据是指成对的图像，包括源图像和目标图像，源图像和目标图像一一对应，语义结构上保持一致。

2)对训练数据进行预处理，构建转换模型，包括编码器和生成器，所述预处理是指将训练数据的像素值映射到-1和1之间，同一种训练数据使用相同大小的分辨率；所述编码器是指由输入层和多个下采样网络层构成的神经网络；所述生成器是指由多个上采样网络层、特征处理模块和输出层构成的神经网络。

3)使用编码器下采样经过预处理的源图像，获取潜在编码，编码器包含输入层和下采样网络层，编码器将经过预处理的源图像下采样，处理方式为：

式中，I_S表示经过预处理的源图像，

表示编码器中输入层使用的卷积，

表示编码器中输入层使用的激活函数，

表示编码器中输入层输出的特征，

表示编码器中第i层下采样网络层输出的特征，

表示编码器中第i-1层下采样网络层输出的特征，

表示编码器中第i层下采样网络层使用的卷积，

表示编码器中第i层下采样网络层使用的归一化方式，

表示编码器中第i层下采样网络层使用的激活函数，i∈{1,2,3,...,m}，m表示编码器中总的下采样网络层数；所述潜在编码是指经过预处理的源图像在编码器下采样后获得的张量。

4)使用生成器上采样潜在编码，上采样过程中通过动态感受野自适应融合多尺度信息，生成虚假的目标图像，生成器包含上采样网络层、特征处理模块和输出层，生成器将编码器输出的潜在编码上采样，并在上采样过程中通过动态感受野自适应融合多尺度信息，处理方式为：

式中，

表示编码器输出的潜在编码，

表示生成器中第i层上采样网络层输出的特征，

表示生成器中第i-1层上采样网络层输出的特征，

表示生成器中第i层上采样网络层使用的转置卷积，

表示生成器中第i层上采样网络层使用的归一化方式，

表示编码器中输入层输出的特征，

表示生成器中输出层使用的转置卷积，

表示生成器中输出层使用的激活函数，I_F表示虚假的目标图像，其中d_G对特征的处理方式为：

式中，

表示d_G中第j次特征处理使用的归一化方式，

表示d_G中第j次特征处理使用的激活函数，

表示d_G中第j次特征处理使用的卷积，

表示d_G中第j次特征处理输出的特征，

表示d_G中第j-1次特征处理输出的特征，j∈{1,2}，

表示d_G中的残差连接使用的激活函数，

表示d_G输出的特征，其中s_d通过动态感受野自适应融合多尺度信息的方式包含以下步骤：

4.1)使用不同感受野的卷积获取多尺度信息：

式中，

表示s_d输入的特征，

表示s_d中第k个卷积分支使用感受野大小为c的卷积，

表示s_d中第k个卷积分支使用的归一化方式，

表示s_d中第k个卷积分支使用的激活函数，

表示s_d中第k个卷积分支输出的特征，

包含

在感受野大小为c的卷积上获取的尺度信息，p表示s_d中的卷积分支的数量，k∈{1,2,3,...,p}，q表示s_d中卷积分支中感受野的大小，c∈{1,3,5,...,q}。

式中GAP表示全局平均池化，

全局变化的张量。

4.3)使用W_s计算自适应选择权重：

表示s_d中第k个卷积分支的选择权重，

表示不同尺度信息融合的特征，

表示s_d中第p个卷积分支的选择权重，通过

控制

中尺度信息的转换程度，使s_d获得动态感受野。

5)构建判别器，使用虚假的目标图像，经过预处理的源图像和经过预处理的目标图像通过判别器构建损失函数，所述判别器是由输入层、下采样网络层和输出层构成的神经网络，对输入图像的处理过程为：

式中，

和

表示判别器中输入层使用的卷积，

表示判别器中输入层使用的激活函数，

表示输入层输出的特征，

表示判别器中第i层网络层输出的特征，

表示判别器中第i-1层网络层输出的特征，

表示判别器中第i层网络层使用的归一化方式，

表示判别器中输出层使用的卷积，

表示判别器中输出层输出的特征。如图1所示，本发明的训练方式使用转换模型和判别器，其中转换模型由编码器和生成器构成，模型训练时需要根据经过预处理的源图像、根据经过预处理的真实目标图像和虚假的目标图像构建转换模型的损失函数和判别器的损失函数，分别表示为：

如图2所示，本发明的训练方式包含以下步骤：第一步对训练数据进行预处理；第二步编码器将经过预处理的源图像下采样提取潜在编码；第三步生成器将潜在编码上采样生成虚假的目标图像；第四步使用经过预处理的源图像，虚假的目标图像和经过预处理的真实目标图像计算转换模型的损失函数和判别器的损失函数，通过反向传播和梯度下降的方式优化转换模型；第五步通过损失函数的输出判断此函数是否收敛，当所有损失函数收敛时停止训练，获得转换模型的最优参数，否则继续使用成对数据训练转换模型。

实际应用中只使用训练过程中获得的最优转换模型，如图3所示，使用转换模型时仍需要对数据进行预处理，但此时只需要源图像，经过预处理的源图像依次由编码器下采样和生成器上采样后获得虚假的目标图像，最后需要对虚假的目标图像进行预处理的逆向操作，将虚假的目标图像的像素值映射至正常的视觉范围。

综上所述，在采用以上方案后，本发明将基于动态感受野的自适应多尺度信息融合的方式和生成器进行结合，有效提高了转换模型对图像信息的获取，同时改善了生成器的上采样方式，进一步提升了生成图像的质量，有效推动图像转换领域的发展，具有实际应用价值，值得推广。

以上所述实施例只为本发明之一般实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种语义结构一致的图像内容转换方法，其特征在于，包括以下步骤：

3)使用编码器下采样经过预处理的源图像，获取潜在编码；

4)使用生成器上采样潜在编码，上采样过程中通过动态感受野自适应融合多尺度信息，生成虚假的目标图像；其中，所述生成器包含上采样网络层、特征处理模块和输出层，所述生成器将编码器输出的潜在编码上采样，并在上采样过程中通过动态感受野自适应融合多尺度信息，处理方式为：

式中，

表示编码器输出的潜在编码，

表示生成器中第i层上采样网络层输出的特征，

表示生成器中第i-1层上采样网络层输出的特征，

表示生成器中第i层上采样网络层使用的转置卷积，

表示生成器中第i层上采样网络层使用的归一化方式，

表示编码器中输入层输出的特征，

表示生成器中输出层使用的转置卷积，

式中，

表示d_G中第j次特征处理使用的归一化方式，

表示d_G中第j次特征处理使用的激活函数，

表示d_G中第j次特征处理使用的卷积，

表示d_G中第j次特征处理输出的特征，

表示d_G中第j-1次特征处理输出的特征，j∈{1,2}，

表示d_G中的残差连接使用的激活函数，

4.1)使用不同感受野的卷积获取多尺度信息：

式中，

表示s_d输入的特征，

表示s_d中第k个卷积分支使用感受野大小为c的卷积，

表示s_d中第k个卷积分支使用的归一化方式，

表示s_d中第k个卷积分支使用的激活函数，

表示s_d中第k个卷积分支输出的特征，

包含

式中，GAP表示全局平均池化，

全局变化的张量；

4.3)使用W_s计算自适应选择权重：

表示s_d中第k个卷积分支的选择权重，

表示不同尺度信息融合的特征，

表示s_d中第p个卷积分支的选择权重，通过

控制

中尺度信息的转换程度，使s_d获得动态感受野；

2.根据权利要求1所述的一种语义结构一致的图像内容转换方法，其特征在于：在步骤2)中，所述预处理是指将训练数据的像素值映射到-1和1之间，同一种训练数据使用相同大小的分辨率；所述编码器是指由输入层和多个下采样网络层构成的神经网络；所述生成器是指由多个上采样网络层、特征处理模块和输出层构成的神经网络。

3.根据权利要求1所述的一种语义结构一致的图像内容转换方法，其特征在于：在步骤3)中，所述编码器包含输入层和下采样网络层，所述编码器将经过预处理的源图像下采样，处理方式为：