CN111626968B

CN111626968B - 一种基于全局信息和局部信息的像素增强设计方法

Info

Publication number: CN111626968B
Application number: CN202010356017.6A
Authority: CN
Inventors: 梁栋荣
Original assignee: Hangzhou Huoshaoyun Technology Co ltd
Current assignee: Hangzhou Huoshaoyun Technology Co ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2022-08-26
Anticipated expiration: 2040-04-29
Also published as: CN111626968A

Abstract

本发明公开了一种基于全局信息和局部信息的像素增强设计方法，包括以下步骤：A.由原尺寸图压缩和裁剪得到一张压缩图和若干裁剪图；B.将压缩图经过分类网络计算得到全局信息特征向量；将裁剪图经过特征提取网络计算得到三维特征张量；C.得到新的三维特征张量T2；D.将T2经过图像增强网络计算，得到裁剪增强图；E.重复BCD操作计算得到所有裁剪图的裁剪增强图，拼接裁剪增强图得到整张原尺寸增强图。本发明利用图像增强神经网络处理局部信息和全局信息的方式，通过全局网络处理尺寸压缩后的全图得到全图信息，通过局部网络处理原图裁剪后的裁剪图得到局部特征信息，融合全图信息和局部特征信息再经过图像增强网络计算出增强后的图像，处理效率高。

Description

一种基于全局信息和局部信息的像素增强设计方法

技术领域

本发明属于图像增强的神经网络结构技术领域，尤其是涉及一种基于全局信息和局部信息的像素增强的设计方法。

背景技术

目前图像增强相关神经网络，如风格迁移网络、超分辨率网络和低曝光图片亮度增强网络，都是针对一整张输入图片处理，因为显卡显存对模型复杂度的限制，一次输入网络中的图片的尺寸也受到了限制，我们无法无限地提升模型的感受视野(神经网络模型看到的图片范围)，而图像增强等图像增强任务在真实场景中都是处理两千万像素以上的照片，为了能处理和训练这些高像素照片，一般经过尺寸压缩或者裁剪两种方法，尺寸压缩的方法能保证经过网络的图片包含全图的信息(全图压缩)，但是经过尺寸压缩的图片丢失了原尺寸的细节纹理，这样经过压缩的图片的数据分布与原尺寸是不一样的，训练出来的网路也无法准确预测真实尺寸的图片；相反，经过裁剪的输入图片虽然保留了原来的纹理细节和原尺寸的数据分布，但在网络一次输入迭代中却无法获取全图的信息。

对于超分辨率网络而言，这个全局和局部信息的矛盾并不严重，全局信息对与图片某一块的超分辨率并不重要，像素的细节填补一般只需要临近的信息即可，换句话说大多时候局部图片的超分辨率变化并不会因为全局信息的改变而改变，它的局部超分辨率信息是客观存在的，从统计学上说超分辨率的数据分布具有一致性。但是对于类似修片的图像增强任务而言，全局信息是不可或缺的，因为人类对图片信息的处理是主观的和不一致的(谷歌HDRNET<Deep Bilateral Learning for Real-Time Image Enhancement>等引述的论文均有提及)，即使是同一种局部图片的处理(调色、调亮度等)，修片师也会根据当前图片的全局信息而有所不同，这样就造成了同一种图片在局部上的多样变化(色温、颜色、亮度、饱和度变化)甚至是相反变化，本文的目的就是通过在处理局部裁剪图片时候引入全局信息，来区分出局部不一致的变化，并通过神经网络拟合出这种不一致的变化。

谷歌HDRNET<Deep Bilateral Learning for Real-Time Image Enhancement>和CVPR2019腾讯优图论文<Underexposed Photo Enhancement using Deep Illu-minationEstimation>也采用了全局和局部信息的概念，但与本发明不一样的是，两篇论文的全局信息和局部信息的特征抽取来源仍然是一整张输入原图，即全局信息是通过对输入图下采样获取的，而局部信息则在保留原图尺寸不变下作特征转换，这样仍然依赖于输入图的尺寸大小和信息量，输入图如果受模型复杂限制而必须经过压缩或者裁剪的话，模型就无法获取真正完整的全图信息。

而ICCV 2019<SinGAN:Learning a Generative Model from a Single NaturalImage>论文中则通过每次迭代中对输入图放缩不同的尺寸，使得图像生成器能够生成不同尺寸的图片并且保留全局结构和细节纹理。但这种办法仍受原始输入图的信息限制，无法处理千万像素级别尺寸图片。

发明内容

为了克服现有技术的不足，本发明提供一种基于全局信息和局部信息的像素增强设计方法，其提供了处理图片全局信息和局部信息的神经网络结构，实现修片复杂风格的深度学习，复杂风格一般表现在局部变化的不一致，比如修片时，同一张图片里面的背景和人像在颜色、亮度上会有不同的变化,或者是不同图片的不同的亮度、颜色变化。

本发明解决其技术问题所采用的技术方案是：一种基于全局信息和局部信息的像素增强设计方法，包括以下步骤：

A.由原尺寸图进行压缩和裁剪得到一张压缩图和若干裁剪图；

B.选取压缩图和一张裁剪图，将压缩图经过分类网络计算得到全局信息特征向量V1{a1,a2,....,an},维度数为n；将裁剪图经过特征提取网络计算得到三维特征张量T1，维度为(n,h,w)；

C.将T1和V1通过融合运算得到新的三维特征张量T2，维度为(n,h,w)；

D.将T2经过图像增强网络计算，得到裁剪增强图，维度为(3,h,w)；

E.重复BCD操作计算得到所有裁剪图的裁剪增强图，拼接裁剪增强图得到整张原尺寸增强图。

本发明还公开了一种基于全局信息和局部信息的像素增强设计方法，所需要的设计模块有：

分类网络：由卷积神经网络、线性全连接层和池化单元构成，实现将输入图计算得到一个n维向量V1＝{a1,a2,....,an}的功能；

特征提取网络：由卷积神经网络构成，实现将三维的输入图片经过计算得到一个与输入图片同等宽高但不同通道数的张量的功能；

融合运算：数学计算单元，实现将n维向量V1{a1,a2,....,an}和维度为(n,h,w)的张量T1进行计算得到维度为(n,h,w)的另一个张量T2的功能；

图像增强网络:由卷积神经网络构成，实现将三维的输入张量(n,h,w)经过计算得到输出图片，图片维度为(3,h,w),第一维度是RGB三颜色通道。

进一步的，所述融合运算中V1的维度数n和T1的第一维度数n相等。

进一步的，所述n维向量的每一个值按顺序加到T1的第一维度的每一个维度上，数学公式为

本发明适用于修图风格的深度学习和图像处理，其通过分类网络处理压缩后的全图得到全图信息，根据全图信息再通过局部图像增强网络处理原尺寸裁剪后的裁剪局部图，得到增强后的图像裁剪图，裁剪图合并后即得到整张修图。使用这种神经网络结构能学习和预测修出千万级像素图像，进行图片颜色、亮度、饱和度和色温上的多种风格转换。

本发明的有益效果是，利用图像增强神经网络处理局部信息和全局信息的方式，通过全局网络处理尺寸压缩后的全图得到全图信息，通过局部网络处理原图裁剪后的裁剪图得到局部特征信息，融合全图信息和局部特征信息再经过图像增强网络计算出增强后的图像，处理效率高，处理效果佳。

附图说明

图1为本发明的共有的浅蓝色风格的原图、人工修图、PASSRnet预测图、ZNet结构预测图比较。

图2为本发明的不同场景的深蓝色颜色风格的原图、人工修图、PASSRnet预测图、ZNet结构预测图比较。

图3为本发明的设计算法流程图。

具体实施方式

为了使本技术领域的人员更好的理解本发明方案，下面将结合本发明实施例中的附图，对发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

一种基于全局信息和局部信息的像素增强设计方法，包括以下步骤：

一般的图像增强神经网络如超分辨率网络的输入和输出都各是一张图，输入和输出的尺寸相同，本发明的方法所设计的神经网络有两个，一个裁剪图，一个是原尺寸压缩图，输出则为一张裁剪图，通过这样的输入输出处理原图所有裁剪图再拼接回来，则得到整张原尺寸的预测增强图。

在阐述具体步骤之前，我们首先有以下名词定义:

原尺寸原图：指的是一张完整的未经处理的图，未经过压缩裁剪等改变尺寸的方法，维度为三维(c,h,w)，分别为c维度三个通道(RGB)、h高度和w宽度。

裁剪图：在原尺寸原图下按固定尺寸剪切得到的小图，该小图仍保留原图的像素密度，是原尺寸原图的一部分，保留了原尺寸原图所有细节纹理信息。

压缩图：通过插值的方法(如最临近插值、双线性插值、双三次插值等，非本发明重点，不展开叙述)对原尺寸原图进行压缩，将其像素大小从千万级压缩到十万级，结果上是尺寸的等比例缩小，压缩图的细节纹理信息被模糊化，但照片内容的亮度、颜色和结构信息(我们称之为全局信息)仍然保留。

分类网络：神经网路的一种类型(如vgg和GoogLeNet等)，通常输入是一张十万级到百万级的小尺寸图，输出为一个n维向量V1＝{a1,a2,....,an}，这个向量内的每个值代表着每个类别的可能性概率值，通常取概率值最大的类别为该输入图片的分类类别。本发明中分类网络的功能是将整张压缩图转换为n维向量，该向量代表的含义是全局信息在不同特征维度上的特征偏差值(统计学上叫bias)。

特征提取网络：本发明定义的神经网络的一种类型，由多个CNN卷积神经网络通过不同的组合构成，通常输入是一张三维图片(3,h,w)，输出则为三维张量(n,h,w)，n为特征维度的特征数，n的数值可自由设置，通常设为16的倍数(16、64、128、256),从结果上是对输入图片通道数的重新计算和升维，达到将颜色信息RGB通道转换为高维空间的效果，我们称之为图片的特征提取，因为每个被升维得到的特征维度代表着图片的一个特征信息。

融合运算：从功能上，本发明将其定义为对n维向量V1{a1,a2,....,an}和维度为(n,h,w)的张量T1进行计算得到维度为(n,h,w)的另一个张量T2，特别注意的是V1的维度数n和T1的第一维的维读数n是相等的。实现这种功能的数学方法有五种：

(1)对应维度相加:将n维向量V1的每一个值按顺序加到T1第一维度的每个维度上，数学公式:

(2)对应维度相乘:将n维向量V1的每一个值按顺序与T1第一维度的每个维度的值相乘，数学公式:

(3)幂指数：将n维向量V1的每一个值按顺序作为T1第一维度的每个维度的值的指数来运算，数学公式:

(4)线性变换：将V1通过线性变换得到V2和V3，V2和V3的维度与V1相同皆为n维向量,V2的每一个值作为系数与T1对应维度的值相乘，再加上V3的对应维度的值，数学公式:

其中a，b，k，s为神经网络

可学习参数，通过神经网路训练中的反向传播计算得出。

(5)非线性变换:在方法(4)的基础上结合线性整流函数(ReLu,以下简称函数f),线性整流函数能对线性输入截断为大于0的值，通过这种截断实现对线性输入的非线性变化，数学公式如下:

f(x)＝max(0，x)

图像增强网络:和特征提取网络类似，也由多个CNN卷积神经网络(如Resnet残差网络，srgan超分辨率率网络的生成器等)通过不同方式组合构成，不同的是该网络的输入是(n,h,w)三维张量，输出则为一张RGB三通道的图片,维度为(3,h,w)。从功能上，该网络实现的是将高维度特征张量通过降维计算得到RGB色彩空间的图片。

基于以上名词定义，本发明基于全局信息和局部信息的像素增强设计方法的具体步骤为:

A.以实现各网络模块的功能为设计标准，设计分类网络、特征提取网络、融合运算和图像增强网络；

B.对原尺寸原图进行压缩和裁剪得到一张压缩图和若干张裁剪图，裁剪图数量由原尺寸原图的宽高和裁剪尺寸决定，所有裁剪图包括了原尺寸原图的所有像素；

C.选取压缩图和一张裁剪图，将压缩图经过分类网络计算得到全局信息特征向量V1{a1,a2,....,an},维度数为n；将裁剪图经过特征提取网络计算得到三维特征张量T1，维度为(n,h,w)；

D.将T1和V1通过融合运算得到新的三维特征张量T2，维度为(n,h,w)；

E.将T2经过图像增强网络计算，得到裁剪增强图，维度为(3,h,w)；

F.重复CDE操作计算得到所有裁剪图的裁剪增强图，拼接裁剪增强图得到整张原尺寸增强图。

一种基于全局信息和局部信息的像素增强设计方法，所需要设计的模块有：

分类网络：由卷积神经网络、线性全连接层和池化单元构成，实现将输入图计算得到一个n维向量V1＝{a1,a2,....,an}的功能。

特征提取网络：由卷积神经网络构成，实现将三维的输入图片经过计算得到一个与输入图片同等宽高但不同通道数的张量的功能。

融合运算：数学计算单元，实现将n维向量V1{a1,a2,....,an}和维度为(n,h,w)的张量T1进行计算得到维度为(n,h,w)的另一个张量T2的功能。本发明采取的对应维度相加的方法，详细公式见名词定义。

图像增强网络：由卷积神经网络构成，实现将三维的输入张量(n,h,w)经过计算得到输出图片，图片维度为(3,h,w),第一维度是RGB三颜色通道。

在同等样本训练集(94组海边图片，原片和人类修片)下，比较CVPR2019的超分辨率网络结构PASSRnet(论文<Learning Parallax Attention for Stereo Image Super-Resolution>)和经过本发明方法改进后的全局信息PASSRnet(以下称为Znet)。训练集中里面涵盖各种海边的场景和至少三种以上的修图风格，并且有傍晚和白天的不同光线场景，以此来测试神经网络能否基于整体场景信息(整体光照、颜色、环境服务区别)预测不同的风格图片。

两个神经网络训练样本后预测原图，单纯的图像增强结构PASSRnet预测出来的图片效果和人修图不尽一致且普遍表现为统一的浅蓝色变化，而基于全局信息嵌套PASSRnet结构的ZNet则能根据场景或昼夜预测不同风格的蓝色。如下列图1、图2图示，从左到右为原图、人工修图、PASSRnet预测图、ZNet结构预测图。

假设原图维度为3*3000*5000，图片数据格式为RGB，本发明通过神经网络的输入图有两张图，一张是经过双三次插值算法压缩后的全图(称为z,z的维度假设为3*255*255)，一张是裁剪后的局部图(称为x,x的维度为100*100),z图经过神经网络的分类网络(如alexnet、shufflenet等)计算后将数据压缩降维为n维向量(称为V1，维度为n)，这个n维向量理论上是代表全图信息的n个特征值，这些特征值都是去纹理化的，和二维图片不一样的是V1没有纹理信息，每个值在分类网络角度上仅仅表示图片属于某个分布(具体表现为图片风格)的可能性数值,在图像增强网络中则表现为特征张量T1每个维度上的偏差值。获得V1后，另外处理x的局部信息神经网络则和其他超分辨率神经网络或者图像增强网络整体结构一样,不同的是在神经网络计算x成为n维张量T1(维度为n*100*100)后，我们将V1和T1融合(V1+T1)成为一个新的n维度张量T2(维度为n*100*100)，接着后续的网络结构都是处理T2这个张量，网络结构流程图见附图3。

上述具体实施方式用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于全局信息和局部信息的像素增强设计方法，其特征在于包括以下步骤：

B.选取压缩图和一张裁剪图，将压缩图经过分类网络计算得到全局信息特征向量V¹{a1,a2,....,an},维度数为n；将裁剪图经过特征提取网络计算得到三维特征张量T¹，维度为(N,H,W)；

C.将T¹和V¹通过融合运算得到新的三维特征张量T²，维度为(N,H,W)；

D.将T²经过图像增强网络计算，得到裁剪增强图，维度为(3,H,W)；

2.一种基于全局信息和局部信息的像素增强设计方法，所需要的设计模块有：

分类网络：由卷积神经网络、线性全连接层和池化单元构成，实现将输入图计算得到一个n维向量V¹＝{a1,a2,....,an}的功能；

融合运算：数学计算单元，实现将n维向量V¹{a1,a2,....,an}和维度为(N,H,W)的张量T¹进行计算得到维度为(N,H,W)的另一个张量T²的功能；

3.根据权利要求2所述的基于全局信息和局部信息的像素增强设计方法，其特征在于：所述融合运算中V¹的维度数n和T¹的第一维度数n相等。

4.根据权利要求3所述的基于全局信息和局部信息的像素增强设计方法，其特征在于：所述n维向量的每一个值按顺序加到T¹的第一维度的每一个维度上，数学公式为