CN110415184A

CN110415184A - 一种基于正交元空间的多模态图像增强方法

Info

Publication number: CN110415184A
Application number: CN201910571058.4A
Authority: CN
Inventors: 杨巨峰; 梁杰; 程明明
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-11-05
Anticipated expiration: 2039-06-28
Also published as: CN110415184B

Abstract

一种基于正交元空间的多模态图像增强方法，属于计算机视觉领域。包括以下特点：1、使用编码‑解码器及互信息最优化策略提取高美学质量图像的样式和内容编码；2、将参考图像的样式编码映射到由一组正交基张成的样式元空间中；3、利用自适应的实例标准化模块以及互信息优化的特征解耦方法提高参考图像的样式和内容编码解耦，构建基于编码‑解码的生成对抗网络进行模型训练；4、在测试阶段，将任意一张普通图像输入训练好的模型，由内容编码器提取内容编码，同时在样式元空间中随机采样多个样式编码，将内容编码与样式编码融合后，送入生成器得到多模态增强图像。通过本发明可以得到在亮度、对比度、颜色等美学特性方面样式多样的增强图像。

Description

一种基于正交元空间的多模态图像增强方法

技术领域

本发明属于深度学习、计算机视觉领域，特别涉及到一种基于正交元空间的多模态图像增强方法。

背景技术

随着智能手机的普及，人们更喜欢用便携设备如手机摄像头拍摄照片。然而，由于目前的手机摄像等非专业设备需要兼顾便捷、廉价等因素，导致传感器和镜头均比较小巧，在硬件设计上具有不可避免的局限性。更重要的是，由于照明、场景等的多变性，其拍摄出的照片可能带有噪声，颜色分布不完整，分辨率和动态范围也有限。鉴于这些因素，非专业用户可能会对其不美观的照片感到失望，因为这些照片与他们期望的视觉体验不符。因此，根据拍摄的低质量图像进行重建、增强得到清晰的、多模态的高质量图片具有重要意义。

图像增强任务需要在为普通图像渲染美学样式的同时保留所有图像内容细节，在模型训练过程中，内容信息的重构对模型参数更新的影响较大。目前，很多图像增强方法忽略这种显式噪声并导致出现模式崩溃问题，并且有些多模态的风格迁移方法需要显式地指定所有的风格图像，或需要在更换风格图像后重新训练新的模型，这些均限制了模型的实用性。

为了将内容和样式信息进行解耦，目前存在层标准化、梯度反转等方法。层标准化方法使用样式编码的统计信息对内容编码进行标准化，从而使处理后的内容编码同时具有内容和风格两部分信息。但是在进行标准化之前，由于循环一致性损失等的约束，两部分信息是解耦的。另一种通过梯度反转的方法进行特征解耦的方法修改了编码-解码器的梯度，强制约束模型不能根据单一的编码重建出原图的效果，但是存在难以训练等问题。

发明内容

本发明的目的是针对现有技术的不足，根据用户视觉感知评价的多样性以及应用场景的不确定性提出一种基于正交元空间的多模态图像增强方法，即给定一张普通图像，该方法生成一组样式多样且保留内容细节的增强图像。

本发明所述的一种基于正交元空间的多模态图像增强方法，包括以下步骤：

1)构建基于正交元空间的多模态图像增强网络，其由内容编码器、样式编码器、生成器和判别器组成，其输入为普通图像和高质量美学参考图像的训练集，输出为多模态增强图像，其网络流程如下：

1-1)使用内容编码器和样式编码器提取普通图像和高质量美学参考图像的内容编码和样式编码；

1-2)基于正交元空间对参考图像的样式编码进行多模态建模；

1-3)从正交元空间中提取样式编码和内容编码一起输入到生成器中，输出多模态增强图像；

1-4)将多模态增强图像和参考图像输入判别器进行判别；

2)采用梯度下降法优化目标函数，反复训练1)所述基于正交元空间的多模态图像增强网络，从而得到基于正交元空间的多模态图像增强模型；

3)将测试集中的普通图像输入2)得到的基于正交元空间的多模态图像增强模型，输出为增强后的多模态图像。

步骤1)所述的基于正交元空间的多模态增强网络使用一种单一模型多模态图像增强方法，即基于参考图像域y显式地建立一个样式编码池P_s，并从普通图像域x到参考图像域y学习一到多的映射；

步骤1-1)所述样式编码器相对内容编码器取消了实例标准化层，卷积层的通道数为样式元空间基的维度数和元空间基的数量，输出为样式元空间的位置编码；生成器顶层接收内容编码为输入，改进的自适应实例标准化层接收样式编码为输入,输出为增强后的图像；

步骤1-2)所述的正交元空间将参考图像中多样的样式信息建模为样式元空间的正交基，在该元空间上进行随机采样得到的样式编码为普通图像渲染多个美学风格。

步骤1-2)所述的正交元空间通过优化一个正交正则项最大化正交元空间各个基的正交性。

步骤1-3)所述的正交元空间的学习方式为：首先使用样式编码器对参考图像进行低维映射，提取参考图像的高层语义特征，然后将此特征经由softmax操作转换为加权注意力编码，则该样式元空间下参考图像的样式编码表示为样式元空间各个基关于注意力编码得到的加权和。

步骤2)所述的训练过程利用自适应的实例标准化模块以及互信息优化的特征解耦方法来提高参考图像样式和内容编码解耦。

步骤2)所述的模型目标函数定义如下：

其中，分别代表图像重构损失、循环一致重构损失、像素级损失、高层内容损失、正交正则化损失、总变差损失、对抗性损失、多样性正则化损失、最大化正则化损失、互信息最大化损失，各项λ代表各项对应损失的权值大小。

本发明提出一种基于正交元空间的多模态图像增强方法，使用样式元空间建模参考图像数据集的美学样式，并针对多模态场景提出两种促进内容和样式信息解耦及匹配的策略，为每张普通图像增强得到的候选结果集合，增强后的图片集合在真实性、美观性、多样性等方面表现良好。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明的整体流程图；

图2是本发明改进的自适应实例标准化模块示意图；

图3是本发明的各项损失示意图；

图4是本发明的各部分模块网络结构示意图；

图5是本发明的效果示意图，最左侧列是普通图像，右侧列的图片是本发明生成的高质量多模态图像。

具体实施方式

为使得本发明要解决的技术问题、技术方案及有益效果更加清楚，以下结合实施例，对本发明进行进一步详细说明。此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所述的基于正交元空间的多模态图像增强方法包括以下步骤：

1)选取普通图像和专家润饰过的高质量参考图像作为数据集并划分为训练集和测试集。

本实施例中采用MIT-Adobe5K数据集，其包含5000张普通图像和对应的5位专家分别手工润湿后的图像，只选用该数据集中一位专家润饰结果，并将前4500对图像作为训练集，后500对图像作为测试集，此外收集9000张不成对的HDR图片作为参考数据集，这些图片具备一定的多样性，用于提供样式元空间所建模的多种美学样式。

2)构建基于正交元空间的多模态图像增强网络模型，其输入为普通图像和参考图像的训练集，输出为多模态增强图像。该网络基于参考图像域y显式地建立一个样式编码池P_s，并从普通图像域x到参考图像域y学习一到多的映射。

所述基于正交元空间的多模态图像增强网络模型主要由内容编码器、样式编码器、生成器和判别器组成，它们的主要结构如图4所示，其中样式编码器相对内容编码器取消了实例标准化层，卷积层的通道数为样式元空间基的维度数和元空间基的数量，输出为样式元空间的位置编码a∈R^1×n；生成器在顶部接收内容编码为输入，卷积层后接的改进的自适应实例标准化层接收样式编码为输入，对内容编码进行标准化,输出为增强后的图像；判别器接收输入图像并对其真实性进行预测，同时输出预测的元空间位置。

本发明所述的基于正交元空间的多模态图像增强网络模型流程如图1所示，具体流程如下：

2-1)使用内容编码器和样式编码器提取普通图像和高质量美学参考图像的内容编码和样式编码。

2-2)基于正交元空间对参考图像的样式编码进行多模态建模。

把参考图像中的多样的样式信息建模为样式元空间的正交基，也就是把提取到的参考图像数据集的样式编码映射到由一组有限数量的正交基张成的样式元空间B上，其中每个基可以解释为嵌入到参考图像的某个独立的美学样式，在该元空间上进行随机采样得到的样式编码可以为普通图像渲染多个美学风格。

其中，正交元空间的学习方式为：首先使用样式编码器对参考图像y∈Y进行低维映射，提取参考图像的高层语义特征f_y，然后将此特征经由softmax操作转换为加权注意力编码a_y∈R^1×n，即其中表示全连接的映射，d_f是f_y的维度；设a_y为参考图像y在样式元空间B中的位置，可以得到在该样式元空间下参考图像的样式编码表示为其中表示B的n个基基于注意力编码a_y得到的加权和。

2-3)从正交元空间中提取样式编码和内容编码一起输入到生成器中，输出多模态增强图像。

2-4)将多模态增强图像和参考图像输入判别器进行判别，判别器接收输入图像并对其真实性进行预测，同时输出预测的元空间位置。

3)采用梯度下降法优化目标函数，反复训练2)所述基于正交元空间的多模态图像增强网络，从而得到基于正交元空间的多模态图像增强模型。

本发明训练过程中利用自适应的实例标准化模块以及互信息优化的特征解耦方法来提高参考图像样式和内容编码解耦。该自适应的实例标准化模块如图2所示，如图2(上)所示，模型的生成器接收图像的内容编码(由于编码器使用带步长卷积进行下采样，故内容编码为64×64的特征图)为直接输入；样式编码和元空间坐标信息作为每一层后的实例标准化层(如图2正方形所示)的输入，对该层得到的特征图进行标准化。每一个改进的实例标准化层如图2(下)所示，对于给定的样式编码，其使用3层感知机分别得到缩放参数(另结合元空间坐标)和偏移参数，进而使用这两个参数对本层输入的特征图进行标准化，得到该层的输出。

本发明所述自适应实例标准化模块引入样式元空间信息，在进行标准化时加入元空间坐标α的的影响，实现方式为：

其中s_y是样式编码，是内容编码，是标准化后的内容编码，μ(·)和σ(·)分别是编码的均值和标准差，标准化编码度量了元空间坐标分布的离散程度。当样式编码位于元空间中心(即各分量均在0.1附近时)，较小，当样式编码在任意维度上值较大时，较大。元空间位置坐标a的加入进一步提升了样式元空间对参考图像数据集样式多样性的建模能力。

本发明所述目标函数各项损失函数组成如图3所示，目标函数定义如下：

图像重构损失确保生成图像过程中保留图片的主要特征，定义为：

其中G表示生成器，x是输入图像，y是参考图像，c_x是输入图像的样式编码，参考图像的样式编码；

循环一致重构损失用于优化原图与生成图像的相似性，定义为：

其中和表示生成图像的内容编码和样式编码；

像素级损失用于保证生成图像与参考图像低层信息上的一致性，定义为：

其中表示生成图像，y是参考图像,||·||₁表示L1范数正则化；

高层内容损失用于提高增强结果在人类审美偏好上的一致性，定义为：

其中Φ(·)表示在ImageNet上预训练的标准VGG-19网络的输出；

正交正则损失用于最大化正交元空间各个基的正交性，定义为：

其中表示样式元空间，b_j表示正交基，I表示单位矩阵，表示L2范数正则化；

总变差损失用于解决解决图像不平滑、有噪声的问题，定义为：

其中，u表示图像数据，D_u是图像的支撑域；

对抗性损失用于实现模型的对抗性训练，定义为：

其中D表示判别器；

多样性正则化损失用于异化任意两张HDR图像在样式元空间位置，定义为：

其中y_HDR表示HDR参考图像数据集，{y}表示随机选取的参考图像集合，a表示元空间坐标，y_i和y_-i表示{y}中的任意两张图片，ε为一个接近0的常数；

最大化正则化损失用于限制位置编码a_y的最大元素的大小，定义为：

互信息最大化损失用于减小条件因变量的损失，定义为:

其中I表示互信息量，c，s和a表示内容编码，样式编码和元空间坐标。

4)将测试集中的500张普通图像输入3)得到的基于正交元空间的多模态图像增强模型，输出为增强后的多模态图像；

本发明生成的部分图像效果如图5所示，其中，最左侧列是输入的未经处理过的普通图像，右侧图像是本发明的多模态增强结果，可以发现左侧未经处理的普通图像整体色泽灰暗并且很难看清每张图片的具体内容，而右侧所示本发明增强的图像整体内容清晰、色泽明亮并且样式多样(图5中所示右侧不同图像的亮度、对比度不同)，而且在提高图像美观度的同时保留了图像中的具体细节(图中的人物、物体、背景等因素都很好地保留了下来)。此外，本发明生成图像的效果不仅仅限于图5所展示的黑白图像所示，对于彩色图像更能体现出本发明的效果，本发明能够生成在色彩、色调、颜色饱和度等方面样式多样而且更具美感的图像。

本发明提出一种基于正交元空间的多模态图像增强方法，使用样式元空间建模参考图像数据集的美学样式，并针对多模态场景提出两种促进内容和样式信息解耦及匹配的策略，为每张普通图像增强得到的候选结果集合，相对于其他图像增强方法，该方法在增强图片的真实性、美观性、多样性等方面表现良好。

本领域普通技术人员可以理解上述实施例的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存取存储器、磁盘或光盘等。

另外，以上对本发明所述的一种基于正交元空间的多模态图像增强方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于正交元空间的多模态图像增强方法，其特征在于包括以下步骤：

1)构建基于正交元空间的多模态图像增强网络模型，其由内容编码器、样式编码器、生成器和判别器组成，其输入为普通图像和高质量美学参考图像的训练集，输出为多模态增强图像，其网络流程如下：

1-2)基于正交元空间对参考图像的样式编码进行多模态建模；

1-4)将多模态增强图像和参考图像输入判别器进行判别；

2.根据权利要求1所述的基于正交元空间的多模态图像增强方法，其特征在于：步骤1)所述基于正交元空间的多模态增强网络使用一种单一模型多模态图像增强方法，即基于参考图像域y显式地建立一个样式编码池P_s，并从普通图像域x到参考图像域y学习一到多的映射。

3.根据权利要求1所述的基于正交元空间的多模态图像增强方法，其特征在于：步骤1-1)所述样式编码器相对内容编码器取消了实例标准化层，卷积层的通道数为样式元空间基的维度数和元空间基的数量，输出为样式元空间的位置编码；生成器顶层接收内容编码为输入，改进的自适应实例标准化层接收样式编码为输入,输出为增强后的图像。

4.根据权利要求1所述的基于正交元空间的多模态图像增强方法，其特征在于：步骤1-2)所述的正交元空间将参考图像中多样的样式信息建模为样式元空间的正交基，在该元空间上进行随机采样得到的样式编码为普通图像渲染多个美学风格。

5.根据权利要求1或4所述的基于正交元空间的多模态图像增强方法，其特征在于：步骤1-2)所述的正交元空间通过优化一个正交正则项最大化正交元空间各个基的正交性。

6.根据权利要求1所述的基于正交元空间的多模态图像增强方法，其特征在于：步骤1-3)中正交元空间的学习方式为：首先使用样式编码器对参考图像进行低维映射，提取参考图像的高层语义特征，然后将此特征经由softmax操作转换为加权注意力编码，则该样式元空间下参考图像的样式编码表示为样式元空间各个基关于注意力编码得到的加权和。

7.根据权利要求1所述的基于正交元空间的多模态图像增强方法，其特征在于：步骤2)的训练过程利用自适应的实例标准化模块以及互信息优化的特征解耦方法来提高参考图像样式和内容编码解耦。

8.根据权利要求1所述的基于正交元空间的多模态图像增强方法，其特征在于：步骤2)所述的模型目标函数定义如下：