CN115018729B

CN115018729B - 一种面向内容的白盒图像增强方法

Info

Publication number: CN115018729B
Application number: CN202210693531.8A
Authority: CN
Inventors: 柴海洋; 杨梦宁; 何鑫
Original assignee: Chongqing Mihong Technology Co ltd
Current assignee: Chongqing Mihong Technology Co ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2024-04-02
Anticipated expiration: 2042-06-17
Also published as: CN115018729A

Abstract

本发明涉及一种面向内容的白盒图像增强方法，包括如下步骤：选用若干张人物图片分别组成原图数据集和目标图数据集；使用人像分割算法对原图中的图片进行处理，然后在进行图像数据预处理；构建白盒图像增强模型并进行初始化，白盒图像增强模型包括生成器网络、判别器网络和Critic网络；使用图像数据经过所述生成器网络、判别器网络和Critic网络的处理，得到对图像增强图片的修图结果；将图像数据作为输入对白盒图像增强模型进行训练最终得到训练好的白盒图像增强模型。使用本发明方法可以提高目前修图技术对于图像增强后图片的修图质量，而且使中间过程可视化，提高修图算法的可解释性，同时当对结果不满意时也可进行改变。

Description

一种面向内容的白盒图像增强方法

技术领域

本发明涉及图像增强领域，特别涉及一种面向内容的白盒图像增强方法。

背景技术

随着数码产品的不断普及以及社交网络的快速发展，通过不同的社交媒体分享自己的生活变得越来越受欢迎。但是由于拍摄水平、场景条件、自然环境以及工具的影响，用户拍摄出的照片往往不尽人意。通过对原始图像的修饰处理会大大提高人们的审美体验，这就需要使用各种修图软件如美图秀秀、PhotoShop进行图像增强。针对不同类型的照片人们的要求也各有不同，如风景照主要希望纠正摄影缺陷(曝光不足/过曝、饱和度过高/低、对比度差等)，而人像照片则不仅需要对人像进行精修，还需要考虑不同背景与人像主体的整体性。

这些对图片的修饰操作可以提高照片的美学质量，这就需要经验丰富的修图师对照片进行一系列的后期处理，如曝光调节、颜色调节、对比度调节等，以此来产生色彩丰富、颜色饱和、富有表现力而且极具视觉吸引力的照片。同样手工修饰也有一些缺点，修图师水平参差不齐导致修饰后的图片质量各不相同；修图过程烦琐，无法高效快速地完成修图任务；使用PhotoShop等专业的修图软件进行一系列的修饰操作对普通用户来说门槛较高。于是出现了人工智能自动修图，虽然能批量快速的完成修图操作，但是这种算法面临许多障碍：用户很难获得反映其修饰偏好且美学质量较高的配对照片；通过神经网络学习图像之间的映射关系更像是一个“黑匣子”，用户难以理解其修图过程，即可解释性低，无法对修图过程进行微调以实现定制化、个性化的修图服务；无法实现面向内容的增强效果。

由于人工智能模型在人类生活中所扮演的角色日益关键，模型的可解释性也成了用户可以信任这些模型的关键因素，而现在大多数的模型都是由数据驱动的“匣子”，模型能够提取到什么样的信息很大程度的依赖模型的结构。尽管现在深度学习模型可以取得很高的性能，但是当深度学习模型发生错误时对其进行调试是很困难的，这就需要模型的可解释性为改善模型提供支持。目前使用深度学习修饰图像是现阶段图像增强领域研究者的首选，但这些方法仍然存在以下问题：

①大多数图像增强模型只是一个“黑匣子”，模型可解释性较低，对结果不满意时无法进行定制化修改。

②许多深度学习图像增强方法只是通过简单的端到端学习原图到目标图之间的映射，没有考虑人类的视觉感知动机，增强后的图片缺乏美感。

③目前使用非配对数据集训练网络模型的方法较少，绝大部分模型都需要配对的数据集，而在图像增强领域获取美学质量较高的配对数据集是比较困难的。

④大多数方法都是简单粗暴地对图像进行全局增强，没有考虑图像的内容信息，使用这样的模型得到的结果往往是差强人意的。

发明内容

针对现有技术存在的上述问题，本发明要解决的技术问题是：目前修图技术对于图像增强后图片的修图质量较低，且无法可视化中间过程，可解释性较低。

为解决上述技术问题，本发明采用如下技术方案：

一种面向内容的白盒图像增强方法，包括如下步骤：

S100：选用N张人物图片作为原图数据集，选用M张修饰后的人物图片作为目标图数据集；

S200：使用DeeplabV3+模型对原图数据集中的所有图片进行人像分割处理，并使用Center-crop技术对人像分割处理后的图片进行数据预处理，使图片大小都统一放缩到64x64分辨率；

S300：构建白盒图像增强模型并进行初始化，白盒图像增强模型包括生成器网络、判别器网络和Critic网络；

S310：选择W种滤波器，滤波器包括在生成器网络中；

S320：令i＝1；

S330：从原图数据集中任选一张原图输入到生成器网络中，输出W种滤波器的概率策略π₁和相对应的W种滤波器参数策略π₂；其中，π₁对应的网络参数为θ₁，π₂对应的网络参数为θ₂，生成器网络对应的参数为θ，且θ＝(θ₁,θ₂)；

从原图数据集中选择第i张原图，并使用π₁和π₂同时作用在第i张原图上，得到第i张原图对应的假图；

S340：从目标图数据集中选择第j张目标图输入到判别器网络中得到输出值R_j；将原图数据集中的第i张原图输入到判别器网络中得到输出值F_i；将第i张原图对应的假图输入到判别器网络中得到输出值F_o；将第i张原图输入到评估网络中得到输出值V_o,将第i张原图对应的假图输入到Critic网络得到输出值V_n，

S350：计算生成器网络生成的动作建议分布熵G_e，计算表达式如下：

G_e＝-π₁*log(π₁)#(1)

S360：定义强化学习的目标函数J(π_θ)，表达式如下：

利用J(π_θ)、F_o、G_e、V_o和V_n计算生成器网络策略梯度使得J(π_θ)最大化，生成器网络策略梯计算公式表示如下：

其中，和/>表示网络所需学习参数的微分，/>表示状态s₀之后折扣奖励的总和，s₀为输入图片，S₀为数据集，/>表示期望值，J(π_θ)表示策略π_θ可能导致的状态动作序列的预期回报的期望，ρ^π为状态分布，/>为动作价值函数，a₁～π₁(s)表示在s状态下从策略π₁选取的a₁动作，a₂＝π₂(s,a₁)表示在s状态下选择a₁动作时策略π₂的动作；

S370：利用J(π_θ)和SSIM损失函数计算生成器网络的总损失函数G_LOSS用于更新生成器网络的参数，表达式如下：

其中，SSIM和表达式如下：

其中，x,y表示第i张图片上的像素点坐标，μ_x和μ_y代表x,y的平均值，σ_x和σ_y分别代表x,y的标准差，σ_xy代表x,y的协方差，c₁,c₂,c₃为常数，N表示图片数量，P代表图片数据集，p表示属于P中的任一张图片；

S370：通过r_j和F_i计算判别器网络梯度用来更新判别器参数，计算表达式如下:

其中，a_w表示学习率，w为需要更新的判别器参数，表示更新参数的微分，

S380：通过V_o和V_n计算时间差分误差来更新评估网络参数，计算表达式如下：

δ＝r(s,a)+γ^V(p(s,a))-V(s)#(12)

r(s,a)＝1-G_e#(13)

V(p(s,a))＝V_n#(14)

V(s)＝V_o#(15)

其中，δ为时间差分误差，L_v表示通过TD误差计算的损失，r(s,a)表示s状态下采取动作a的所有奖励，γ表示折扣因子，V(p(s,a))表示在状态s下采取动作a之后使得s状态迁移到下一个状态此时的状态价值，V(s)表示s状态下的状态价值；

S400：令i＝i+1；

S410：当总损失函数G_LOSS和时间差分误差两者都不再变化时停止训练，此时得到训练好的白盒图像增强模型，然后进行下一步，否则返回S320；

S500：将待处理的图像增强图片输入到训练好的白盒图像增强模型中，得到对图像增强图片的修图结果。

作为优选，所述S200中使用DeeplabV3+模型对N张图片进行人像分割处理提取出图像主体部分，并对所有提取图像主体部分的图片进行数据预处理后得到训练集的具体步骤如下：

S210：使用PhotoShop对N张人像照片进行标记制作，得到掩膜图，掩膜图作为对应原图的标签；

S220：将N张人像照片进行翻转、旋转和添加噪声处理，然后将处理后的图片放缩为原图的1/4大小，作为数据输入图；同时保持掩膜图与数据输入尺寸相同；

S230：使用DeeplabV3+对带有标签的N张原图进行人像分割处理提取出图像主体部分；

S240：将所有带有标签的原图和所有的图像主体图片，经过中心裁剪处理之后统一放缩到64x64分辨率，此时将所有放缩到64x64分辨率的带标签的数据输入图作为训练集。

DeeplabV3+模型在处理图片时准确率达到96％，检测结果准确且计算效率高；数据预处理操作可以极大的提高模型的训练速度，将分割模型引入网络中，使得白盒图像增强模型可以面向内容进行增强。

作为优选，所述S210中得到mask图具体为：将每张人像照片中的人物区域标记为R＝G＝B＝255，每张照片的其余区域作为背景区域并标记为R＝G＝B＝0。

作为优选，所述S300中的生成器网络使用的是GAN网络中的生成网络。

使用GAN的生成器生成滤波器以及滤波器参数直接应用到图片上不会破坏图片的结构使得图片的整体细节信息能够得到保留，并且能处理任意分辨率的图像，这对高分辨率图像增强是非常有优势的。

相对于现有技术，本发明至少具有如下优点：

1.本发明通过将对抗生产网络和强化学习相结合，提出了面向内容的白盒图像增强模型，在基线的基础上引入了分割网络，使得网络能够根据不同内容对图片进行不同的调整，能够面向内容进行增强，并将图像增强抽象成滤波器操作，把修图师的修图过程建模成强化学习过程，实现模型的白盒化，可视化了中间的处理过程，提高了模型的可解释性，同时实现了能够对图像增强后的图片进行高质量的修图处理。

2.用户不满意修图结果时，可以在图片被修饰输出的中间过程(滤波器以及滤波器参数)中，基础修改滤波器以及滤波器参数，使得修图过程可控可调，实现对不满意结果的修改。

3.在基线八种可微滤波器的基础上新设计了四种可微滤波器，使得图像增强滤波器的选择更多，增强结果更好。

4.优化了生成器网络的损失函数，当增强主体和背景的滤波器差异过大时，主体和背景边缘会产生色调不一致，严重降低图像的美学质量，基于此加入了SSIM损失函数。

5.优化了生成器和判别器的网络结构，加入了CBAM注意力机制，使得模型能够从人类感知出发，产生的修图序列更符合修图师的决策。

附图说明

图1为本发明面向内容的白盒图像增强模型流程图；

图2为本发明中DeeplabV3+网络结构；

图3为本发明面向内容的白盒图像增强模型示意图；

图4为本发明中所使用的人像分割算法与其他算法的结果对比；

图5为单个滤波器操作过程；

图6为本发明中所使用的修图序列示意图；

图7为本发明中基于注意力机制的生成器网络结构；

图8为本发明中的判别器网络结构；

图9为本发明中添加了SSIM损失函数后的结果对比；

图10为实验结果可视化对比图；

图11为本发明实验中的平均主观得分MOS分布；

图12为CycleGAN模型的网络结构。

图中英文的含义为：Image为输入图片，Encoder为下采样层，DCNN为深度卷积神经网络，AtrousConv为空洞卷积，Convrate为空洞卷积率，ImagePooling为池化，Decoder为上采样层，Low-LevelFeatures为低维度特征图，Upsampleby4为上采样扩大4倍，Concat；通道拼接，Prediction为预测。

Raw为原图，Retouched为目标图，dataset为数据集，Segmentimageandrawimage为分割的图像和原图，SSIMLOSS为结构相似性损失函数，Rawimage为原图，Fakeimage为假图，Apply为应用，Generator为生成器，Fullyconnect为全连接，CONVBLOCK为卷积模块，Attn2为注意力机制模块2，Downsampling为下采样，Attn1为注意力机制模块1，ReLU为ReLU激活函数，BatchNorm为批归一化，CAM为通道注意力机制，SAM为空间注意力机制，Lrelu为Lrelu激活函数。

Discriminator为判别器，Critic为评估网络，Output为输出，Linear为线性变换，AdaptiveAvgpool2d为全局平均池化，CONV2D为卷积LeakyReLU为LeakyReLU激活函数，Reward为反馈，Realorfake为真或者假。

GroundTruth为真实值。

segment为分割。

具体实施方式

下面对本发明作进一步详细说明。

通过构建一种面向内容的白盒图像增强模型，本模型所使用方法不需要配对的数据集便可以学习如何基于代表用户个人偏好的照片集来生成修图操作，通过强化学习指导GAN网络生成图像增强序列实现其“白盒”化，引入人像分割和注意力机制使网络能更好的模拟人体视觉系统对修饰过程的理解并让滤波器对主体和背景分开进行处理，在实现白盒增强的同时极大提高了模型的实验效果。

强化学习是人工智能的一个分支，在很多领域如自动驾驶、视频游戏、棋盘中有着极其重要的作用，强化学习包含五个要素：智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)；智能体和环境是强化学习的关键，智能体观察当前的环境状态并根据学习到的策略选择当前状态下的最优动作对环境进行改变，环境因为动作发生了改变给予智能体相应的反馈，智能体再根据得到的反馈对策略进行更新，状态-动作-奖励称为一个步骤，强化学习系统不断循环迭代这个步骤最大化其回报。

参见图1-9，一种面向内容的白盒图像增强方法，包括如下步骤：

S100：选用N张人物图片作为原图数据集，选用M张修饰后的人物图片作为目标图数据集；N张人物图片作为原图数据集是指待修饰处理的图片，目标图数据集的M张图片提供的是需要达到的图像风格目标类型，N和M并不一定是一一对应的关系。

S200：使用DeeplabV3+模型对原图数据集中的所有图片进行人像分割处理，并使用Center-crop技术对人像分割处理后的图片进行数据预处理，使图片大小都统一放缩到64x64分辨率，DeeplabV3+模型和Center-crop技术属于现有技术；

所述S200中使用DeeplabV3+模型对N张图片进行人像分割处理提取出图像主体部分，并对所有提取图像主体部分的图片进行数据预处理后得到训练集的具体步骤如下：

S210：使用PhotoShop对N张人像照片进行mask标记制作，得到mask图，mask图作为对应原图的标签，PhotoShop为现有技术；

所述S210中得到mask图具体为：将每张人像照片中的人物区域标记为R＝G＝B＝255，每张照片的其余区域作为背景区域并标记为R＝G＝B＝0。

S220：将N张人像照片进行翻转、旋转和添加噪声处理，然后将处理后的图片放缩为原图的1/4大小，作为数据输入图；同时保持mask图与数据输入尺寸相同；

S240：将所有带有标签的原图和所有的图像主体图片，经过Center-crop处理之后统一放缩到64x64分辨率，此时将所有放缩到64x64分辨率的带标签的数据输入图作为训练集。

所述S300中的生成器网络使用的是GAN网络中的生成网络，GAN网络是现有技术。

S310：选择W种滤波器，滤波器包括在生成器网络中；

S320：令i＝1；

从原图数据集中选择第i张原图，并使用π₁和π₂同时作用在第i张原图上，即表示第i张原图依次经过W种滤波器，并且W种滤波器的概率策略是π₁和参数策略是π₂，得到第i张原图对应的假图；

S340：从目标图数据集中选择第j张目标图输入到判别器网络中得到输出值R_j；将原图数据集中的第i张原图输入到判别器网络中得到输出值F_i；将第i张原图对应的假图输入到判别器网络中得到输出值F_o；将第i张原图输入到Critic网络中得到输出值V_o,将第i张原图对应的假图输入到Critic网络得到输出值V_n，

G_e＝-π₁*log(π₁)#(1)

S360：定义强化学习的目标函数J(π_θ)，奖励函数是强化学习的核心，用于评估给定当前状态的操作，本方法的目标是得到一个策略π使得决策过程中累积的奖励最大，即最大化目标函数J(π_θ)，表达式如下：

其中，和/>表示网络所需学习参数的微分，/>表示状态s₀之后折扣奖励的总和，s₀为输入图片，S₀为数据集，/>表示期望值，J(π_θ)表示策略π_θ可能导致的状态动作序列的预期回报的期望，ρ^π为状态分布，/>为动作价值函数，a₁～π₁(s)表示在s状态下从策略π₁选取的a₁动作，a₂＝π₂(s,a₁)表示在s状态下选择a₁动作时策略π₂的动作；在修图任务中则表示当前图片从滤波器合集中选取a₁这个滤波器，滤波器参数为a₂；策略π₁具有随机性，即在一个确定的状态S下会概率性地选取不同的策略，一般描述为π(α|s)，通常使用策略梯度来表示其梯度；策略π₂是确定性的，可以使用确定性策略梯度定理来表示其梯度。

其中，SSIM和表达式如下：

在生成器中引入了结构相似性(StructuralSimilarity，SSIM)损失函数对这种情况进行惩罚，SSIM是一种衡量两幅图像相似度的一种指标，不仅对两幅图的相似性进行评估，还考虑人体视觉感知需求；

S380：通过V_o和V_n计算TD误差来更新Critic网络参数，计算表达式如下：

δ＝r(s,a)+γ^V(p(s,a))-V(s)#(12)

r(s,a)＝1-G_e#(13)

V(p(s,a))＝V_n#(14)

V(s)＝V_o#(15)

其中，δ为TD误差，L_v表示通过TD误差计算的损失，r(s,a)表示s状态下采取动作a的所有奖励，γ表示折扣因子，V(p(s,a))表示在状态s下采取动作a之后使得s状态迁移到下一个状态此时的状态价值，V(s)表示s状态下的状态价值；

S400：令i＝i+1；

S410：当总损失函数G_LOSS和TD误差两者都不再变化时停止训练，此时得到训练好的白盒图像增强模型，然后进行下一步，否则返回S320；

相关技术描述

一、基于深度学习的人像分割算法

人像分割是实现模型面向内容增强的关键，人像分割的准确程度和本实验所用模型进行图像增强之后的质量呈强烈的正相关，但由于拍摄照片受环境、相机参数、拍摄水平的影响，传统的人像分割算法准确率不高，鲁棒性很低，极易受环境的影响。通过对比发现深度学习的DeeplabV3+模型在人像分割中能达到较高的准确度，且鲁棒性高，图像分割领域通常使用交并比(IntersectionoverUnion,IoU)来衡量模型的好坏，IoU公式如下所示：

①人像分割数据集(Portraitsegmentationdataset，PSD)的制作

本算法采集的人像照片均来自重庆安琪儿摄影集团。首先需要对人像照片使用PhotoShop软件进行mask制作，将人物区域标记为R＝G＝B＝255，背景标记为R＝G＝B＝0。对数据集通过翻转、旋转、添加噪声等进行数据增强，并将图片放缩为原图的1/4大小，最终得到2500个样本。训练神经网络时将原图标准化之后作为输入，对应的mask图当作标签，并将数据集按照9:1的比例进行划分，分别作为模型的训练集和验证集。

表1分割数据集描述

数据集	任务	数量	训练集	验证集
					PSD	训练分割模型	2500	2250	250

PSD数据集中人像mask图和原图尺寸相同，所有的实验均在显存为24G的NVIDIATITANRTX服务器上进行。

②实验结果对比

为了比较不同算法的计算复杂度以及准确率，将250张测试照片的平均耗时以及准确度作为评估指标，分割效果如图4所示。对比实验结果如表2所示，从表中可以看出，虽然传统的分割算法计算速度快，但是其准确率较低，无法达到本实验所需标准。DeeplabV3+准确率达到96％，但是推理耗时较高，于是本实验尝试了不同的骨架网络，希望找到一个准确度较高且计算量较低的网络。

表2算法对比结果

DeeplabV3+特征提取网络的选择有很多，本实验选择了ResNet-50、ShuffleNet、MobileNetv3当作Deeplabv3+的骨架网络进行对比实验，所有实验的批次大小均为16，学习率设置为0.001，采用余玄退火的衰减策略，网络使用Adam训练了80轮，参数设置为β₁＝0.9,β₂＝0.999。实验结果如表3所示，从表3可以看出，骨架网络为MobileNetv3时耗时最小并且其准确度和骨架网络为ResNet-50相差无几，所以本实验选择MobileNetv3当作DeeplabV3+的骨架网络。

表3骨架网络对比结果

模型	骨架网络	准确度(％)	平均时耗(s)
				DeeplabV3+	ResNet-50	0.9668	0.7897
DeeplabV3+	ShuffleNet	0.9456	0.4496
				DeeplabV3+	MobileNetv3	0.9617	0.4330

二、数据预处理

为了使模型能够面向内容增强，使用人像分割对修饰图像主体进行分割后进行针对性增强，模型得到的修图操作也更符合修图师的修图习惯，实验结果更接近修图师的修图水平。本实验使用Deeplabv3+进行人像分割，检测结果准确且计算效率高。

本实验设计是一种条件GAN，但是并不是直接生成高分辨率的图像，而是生成一系列的滤波器以及滤波器参数，再将滤波器应用到图片上，这种方式极大的保留了原始图片的空间信息和语言信息。由于滤波器和图像的分辨率大小无关，所以可以应用到任意分辨率的图像上，因此使用低分辨率的数据集进行训练仍然可以得到高分辨率的增强图片。由于计算能力的限制，本实验将数据集进行Center-crop之后统一放缩到64x64分辨率，极大的提高了模型的训练速度。由于线性RGB图像的颜色有明显的规律，其在数学处理上非常简单，于是还将图片由sRGB转为线性RGB图像。

三、实验与结果分析

1.数据集描述

本实验使用的数据集包括2000张摄影师拍摄的人像照片以及2000张由专业修图师进行修饰后的照片，由重庆安琪儿摄影集团提供。数据集主体包括各个年龄阶段的人物，背景主要是室内纯色背景以及室外复杂环境的背景。

本实验是为了拟合修图师的修图步骤，让网络能够可视化中间过程，实现修图过程的白盒化，因此邀请了重庆安琪儿摄影集团的两位修图师按照固定的修图风格对照片进行修饰，修饰操作主要有曝光调节、Gamma变换、白平衡调节、饱和度调节、色调变换、颜色曲线、对比度调节等，不对照片进行改变照片结构的操作如磨皮瘦脸等。

2.实验设置

本实验使用的人像数据集拍摄的均是重庆安琪儿摄影集团签约的人像模特，首先将数据集按照第三章数据集预处理的方式对图像进行处理，然后训练图像增强模型，让模型学习修图师的修图策略，实现白盒图像增强。

3.网络参数设置

本实验使用的是加入CBAM注意力机制的生成器与PatchGAN的判别器当作Actor与Critic的AC算法。生成器由2个CBAM注意力机制模块、2个卷积核尺寸为4x4步长为2的卷积模块、2个平均池化层、2个卷积核尺寸为3x3步长为1的卷积模块组成，进行4次下采样后输出4x4x256的特征图，网络的最后一层是一个全连接层，将输入的特征图映射成长度为128的向量，最后将其分别输入到两个全连接层，一个通过SoftMax激活函数将其映射为策略概率π₁，一个通过Tanh激活函数将其映射为滤波器参数π₂。判别器结构和生成器结构类似，也是由CBAM注意力机制模块、卷积核尺寸为3x3步长为1的卷积模块和卷积核尺寸为4x4步长为2的卷积模块组成，进行4次下采样后输出4x4x1x256的特征图即4x4的矩阵X，X_ij的值表示每个小块的得分，将X_ij求均值即为判别器的最终输出。

4.对比实验分析

本实验将从以下两个方面选择模型与本实验提出的基于人像分割的白盒图像增强模型进行对比。一是选择具有代表性的使用配对和非配对数据集的图像增强模型来证明本实验在图像增强方向的优越性，二是选择能够实现图像增强白盒化的模型来证明本实验在白盒研究上的优越性。对比模型有Pix2pix、CycleGAN、Exposure。本部分首先对这些模型进行简单介绍，然后选取测试集中具有代表性的图像进行可视化展示并进行定性和定量分析评价。由于所选用数据是非配对的，所以客观分析只能选取无参考的图像质量评估(BlindImageQualityAssessment,BIQA)，BIQA主要有如均值、标准差、平均梯度等方法，能够一定程度地反应图像中的细节和纹理以及图像清晰程度，并不能反映图像的美学质量，这在本实验的研究中是致命的。于是本实验采用的是Google提出的NeuralImageAssessment(NIMA)以及平均梯度对图像进行评价，能够从技术角度和美学角度预测人类对图像质量评估意见的分布，更加符合人类的打分习惯。主观评价则主要由观察者对图像进行感知评估，采用平均主观得分(Meanopin-ionscore,MOS)。

5.评价指标介绍

①客观评价指标

为了从图像的直接感官和吸引程度来评价修图结果的优劣，本发明选择了平均梯度和NIMA作为评价指标得到客观评价。

平均梯度(Averagegradient,AG)是无参考IQA中常用的客观评价指标之一，能够一定程度从图像的细节纹理上反映图像的质量，其计算公式如下所示：

其中H、W为图像的宽度和高度，ΔxF(i,j)、ΔyF(i,j)分别表示像素点(i,j)在x或者y方向上的一阶差分。

NIMA是一个基于图像分类网络结构的图像质量和艺术美学评估方法，使用InceptionResNet-V2作为骨架网络进行训练，在AVA数据集上进行训练。网络最后一层的10个神经元分别输出得分1～10的概率，然后计算平均值，评估结果更加具有说服力。计算平均值的公式如下所示，其中N＝10，s_i表示图片所得分数，为该分数的概率。

②主观评价指标

除了客观评价指标外，还邀请了20名观察者对本次实验结果进行感知评估。通过随机选择20幅图片，每幅图片分别使用对照模型以及本实验提出的模型进行增强，要求观察者对增强结果进行评级，所有的图片都以原始分辨率展示，观察图像时提醒观察者不光关注图像质量，还需要从美学角度评价图片的好坏，并以此提供1到5的分数，统计不同模型的每一分数的数量。

6.对比模型介绍

Pix2pix模型用于学习图像到图像之间的一种映射，其生成器采用的是U-net结构，下采样由8个卷积层组成，上采样则是7个反卷积。判别器使用的是PatchGAN的判别器结构，能够更好的对图像局部进行判断。优化目标包含两个部分，一部分是GAN的损失，作者认为可以有效的恢复高频信息，另一部分是L1损失，可以恢复图像的低频部分，约束真实图像和生成图像之间的差异。

CycleGAN是一种图像风格转换模型，这个模型不需要配对的数据集就能完成图像风格迁移，通过CycleGAN模型我们便可以在不成对的原图和目标图之间进行转换，如图12。

CycleGAN使用双判别器来实现模型能够在非配对数据集上实现原图和目标图的转换，间图12，生成器G和F分别是分布X到Y和Y到X的映射，两个判别器D_x,D_y则对转换后的图片进行判别。为了防止G和F过拟合还加入了循环一致性损失，用数据集中其它图片来检验生成器。

Exposure是一个利用强化学习模型来模拟专业修图师修图过程的框架，通过对原图到目标图映射关系的学习，可以很好的给出给定目标图所需修饰算子和对应参数，结合对抗生成网络的思想让模型能够在非配对的数据集上进行学习。

7.实验结果定性分析

拟合修图师的修图步骤，实现修图过程的白盒化是本实验的一个重要贡献，将原图经过线性变换后输入到网络中，即使我们使用的是非配对的数据集，也产生了具有美学吸引的结果，还输出了修图的操作序列，如图8所示。

本部分还将对实验结果进行对比展示，由于Pix2pix需要配对的数据集，所以我们邀请修图专家对1000张人像数据集进行修图以制作配对的数据集。CycleGAN、Exposure以及我们提出的模型均在构建的非配对数据集上进行训练，由于我们的模型是在非配对数据集上进行训练的，所以没有办法和目标图进行对比，图10展示了我们的方法和基线的对比结果，部分细节将放大展示。

如图10所示为本实验提出方法和基线对比，第一列是未经任何处理的原始图像，第二列是CycleGAN产生的增强图像，仔细观察第二列二行小女孩面部块效应明显，边缘平滑图片整体质量欠佳，从第二列四行也不难看出人物头发细节丢失严重且有大量的振铃效应。第三列是Pix2Pix产生的增强图像，图像整体感官优于CycleGAN产生的结果，但是细节丢失的问题仍然存在。第四列是Exposure网络产生的增强图像，细节保持很好，但从第四列二行可以看出其增强结果整体偏亮，导致人物脸部过曝，这是因为其网络学习到的滤波器是对整张图进行增强，没有根据图像内容进行调整，无法满足前景和背景所需要的不同修饰程度，第四列四行增强结果和原图相差无几，增强效果不明显。第五列是用本发明方法得到的增强图像，可以看出我们的实验结果相较于基线方法在图像成像效果和整体结构的保持更好，人物脸部也饱满红润，更符合人体视觉感知系统，这得益于为了更好的迎合主体和背景适应不同的修饰操作和修饰程度这一需求，本实验提出的方法在图像预处理时采用了分割，将图像中主体部分和背景部分区分开来输入网络进行学习单独增强后再融合得到增强结果，这也有机的结合了全局增强和面向内容增强操作。值得注意的是本实验提出的方法计算了输出图和原图的SSIM损失，让策略网络生成修图策略时能在最大化奖励和保持图像的协调一致之间做一个平衡，可以支持背景和前景在修饰程度不同的情况下保持图像的自然协调，没有明显瑕疵和噪点存在。并且本实验提出方法中在策略网络中加入了CBAM注意力机制模块有助于促进网络学习修图策略中的关键步骤，也有利于网络中的信息流动，提升最终的增强结果。

8.实验结果定量分析

本发明还将对实验结果从客观指标和主观指标上进行定量分析，本发明采用AG得分和NIMA得分来作为客观评价指标，如表4所示。

表4测试集图像的平均AG/NIMA指标

模型	AG	NIMA
			CycleGAN	5.394	5.217
Pix2Pix	6.283	5.821
			Exposure	8.590	5.706
Ours	8.737	6.967

表4中列出了4个模型在测试集上的平均AG、NIMA得分，AG指标表示了图像质量，NIMA指标代表图像在美学上的表现。由表中的评估指标可以看出，Exposure和我们的结果在AG上优于CycleGAN与Pix2pix，而Exposure与我们模型的AG却相差无几，这是因为Exposure以及本实验提出的模型是将滤波器直接应用到输入图像上，没有对输入图像结构进行改变。在NIMA指标上，我们的结果明显优于其它3个模型，这得益于人像分割将图像主体和背景分开，使得模型能够针对主体进行增强，达到面向内容的局部增强效果，提高图像的美学质量。

除了在客观指标上去对比本实验提出的模型和其他基线方法的实验结果外，本实验还进行了主观指标上的对比。通过邀请了20名观察者对本次实验结果进行感知评估。通过随机选择20幅图片，每幅图片分别使用对照模型以及本实验提出的模型进行增强，要求观察者对增强结果进行评级，所有的图片都以原始分辨率展示，观察图像时提醒观察者不光关注图像质量，还需要从美学角度评价图片的好坏，并以此提供1到5的分数，统计不同模型的每一分数的数量，如表5所示。

表5MOS分布

/>

为了更加直观的看出不同模型得分的分布情况，将得分情况画成柱形图，如图11所示。横坐标表示1-5的分数，纵坐标表示该分数的得分数量，从分布图可以看出，我们的方法MOS主要分布在高分区间(3-5)，这证明了我们的方法增强的图片更具有美学吸引力，Pix2Pix在高分区域的表现优于Exposuer和CycleGAN，这主要是因为我们训练Pix2Pix时使用的是专业修图师修饰的配对数据集，模型能较好的拟合原图到目标图之间的映射关系。CycleGAN、Exposuer在主观指标上的表现差强人意，可能是由于训练数据集不是成对的，并且我们用于对比测试的图像分辨率为960x1440，CycleGAN很难处理高分辨率的图片，而Exposuer虽然能输出高分辨率的图像，但是其修图操作是对图像整体进行的，没有考虑图像的内容信息，缺乏美学吸引力。

本发明引入人像分割使得模型能够区分图像的主体和背景达到面向内容的增强效果，为了处理更复杂的图像增强任务引出了对抗生成网络(GAN)，介绍了几种常用的注意力机制并引入到GAN中，让网络提取出具有代表性的特征信息的能力更强更好的驱动生成器生成合适的增强序列，接着引入强化学习来实现图像增强任务的白盒化。另外，对图像增强滤波器的设计进行了阐述，同时阐述了如何将修图过程建模为强化学习过程以及白盒图像增强模型的各个板块。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种面向内容的白盒图像增强方法，其特征在于：包括如下步骤：

S300：构建白盒图像增强模型并进行初始化，白盒图像增强模型包括生成器网络、判别器网络和评估网络；

S310：选择W种滤波器，滤波器包括在生成器网络中；

S320：令i＝1；

S330：从原图数据集中任选一张原图输入到生成器网络中，输出W种滤波器的概率策略π₁和相对应的W种滤波器参数策略π₂；其中，π₁对应的网络参数为θ₁，π₂对应的网络参数为θ₂，生成器网络对应的参数为θ，且θ＝(θ₁，θ₂)；

S340：从目标图数据集中选择第j张目标图输入到判别器网络中得到输出值R_j；将原图数据集中的第i张原图输入到判别器网络中得到输出值F_i；将第i张原图对应的假图输入到判别器网络中得到输出值F_o；将第i张原图输入到评估网络中得到输出值V_o，将第i张原图对应的假图输入到评估网络得到输出值V_n，

G_e＝-π₁*log(π₁)# (1)

S360：定义强化学习的目标函数J(π_θ)，表达式如下：

其中，和/>表示网络所需学习参数的微分，/>表示状态s₀之后折扣奖励的总和，s₀为输入图片，S₀为数据集，/>表示期望值，J(π_θ)表示策略π_θ可能导致的状态动作序列的预期回报的期望，ρ^π为状态分布，Q为动作价值函数，a₁～π₁(s)表示在s状态下从策略π₁选取的a₁动作，a₂＝π₂(s，a₁)表示在s状态下选择a₁动作时策略π₂的动作；

其中，SSIM和表达式如下：

其中，x，y表示第i张图片上的像素点坐标，μ_x和μ_y代表x，y的平均值，σ_x和σ_y分别代表x，y的标准差，σ_xy代表x，y的协方差，c₁，c₂，c₃为常数，N表示图片数量，P代表图片数据集，p表示属于P中的任一张图片；

S370：通过R_j和F_i计算判别器网络梯度用来更新判别器参数，计算表达式如下：

δ＝r(s，a)+γV(p(s，a))-V(s)# (12)

r(s，a)＝1-G_e# (13)

V(p(s，a))＝V_n# (14)

V(s)＝V_o# (15)

其中，δ为TD误差，L_v表示通过TD误差计算的损失，r(s，a)表示s状态下采取动作a的所有奖励，γ表示折扣因子，V(p(s，a))表示在状态s下采取动作a之后使得s状态迁移到下一个状态此时的状态价值，V(s)表示s状态下的状态价值；

S400：令i＝i+1；

2.如权利要求1所述的一种面向内容的白盒图像增强方法，其特征在于：所述S200中使用DeeplabV3+模型对N张图片进行人像分割处理提取出图像主体部分，并对所有提取图像主体部分的图片进行数据预处理后得到训练集的具体步骤如下：

S210：使用PhotoShop对N张人像照片进行mask标记制作，得到mask图，mask图作为对应原图的标签；

3.如权利要求2所述的一种面向内容的白盒图像增强方法，其特征在于：所述S210中得到mask图具体为：将每张人像照片中的人物区域标记为R＝G＝B＝255，每张照片的其余区域作为背景区域并标记为R＝G＝B＝0。

4.如权利要求3所述的一种面向内容的白盒图像增强方法，其特征在于：所述S300中的生成器网络使用的是对抗生成网络中的生成网络。