CN111932458A

CN111932458A - 一种基于区域间注意力机制的图像信息提取与生成方法

Info

Publication number: CN111932458A
Application number: CN202010793931.7A
Authority: CN
Inventors: 金鑫; 李凤仪; 肖超恩; 于明学
Original assignee: Shaoding Artificial Intelligence Technology Co ltd
Current assignee: Shaoding Artificial Intelligence Technology Co ltd
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-11-13
Anticipated expiration: 2040-08-10
Also published as: CN111932458B

Abstract

本发明提出一种基于区域间注意力机制的图像信息提取与生成方法，包括如下步骤：步骤1：生成器编码阶段，将训练集中的语义标签图作为输入，划分为四个分支进行编码，得到四个分支图像；步骤2：生成器解码阶段，将编码阶段生成的四个分支图像进行拼接，生成假图像，作为辨别器训练的输入；步骤3：辨别器训练阶段，将训练集中的语义标签图分别与训练集真实图像、生成器生成的假图像在通道维度上进行拼接，作为辨别器的输入；辨别器分为两个尺度，分别为原尺度，以及降采样两倍后尺度；在每一个尺度上，输入都连续经过4层的下采样卷积层，最后经过一层卷积，在每个位置上输出0或者1，作为预测图像的真假——0代表当前位置预测为假图像，1代表当前位置预测为真图像。

Description

一种基于区域间注意力机制的图像信息提取与生成方法

技术领域

本发明是一种基于区域间注意力机制的图像信息提取与生成方法，属于计算机视觉图像信息提取与图像生成领域。

背景技术

随着大数据技术的深入应用以及CPU和GPU计算能力的不断提高，深度学习已经在计算机视觉、数据处理、自然语言应用、自动驾驶等方面受到了广泛的关注。

但从深度学习诞生至今，数据集匮乏的问题就一直阻碍着深度学习的发展。为了解决图像领域数据集匮乏的问题，图像生成开始受到业界的关注，并快速发展。不仅如此，图像生成也在其他许多重要的领域，例如在导航、图像色彩变换、图像创作等诸多领域都有十分广阔的应用场景和研究意义。

GAN(对抗式生成模型，Generative Adversarial Nets)的发展起源于2014年。GAN包括两个相互对抗的部分，一个是生成器，想要生成数据集所代表的数据分布。一个是判别器，判断生成的数据是否为真实数据。两者相互对抗，共同学习到最优状态。GAN的思想源自博弈论的二人零和博弈，通过不断地对抗学习，从而达到最优地状态。GAN网络的出现，为图像生成领域提供了一种新思路。GAN的理想状态是两方通过不断地相互博弈，使生成器逐渐地达到最优的解。

为了进一步向GAN网络中提供先验信息，便有了GAN的一种变体，即条件GAN。条件GAN通过向GAN传入标签信息，从而进一步对模型进行约束，从而提高图像的真实度。2016年，Phillip Isola等利用GAN实现了图像与图像之间的对应转化，提出了pix2pix模型。通过向网络中传入语义标签图像，实现了高清真实图像的生成。2018年，Ting-Chun Wang等在pix2pix的网络基础上，采用多个生成器以及辨别器，由语义标签图生成了更加高清的真实图像，图像像素可达2048×1024。该网络除了标签信息之外，还添加了实例图信息，进一步提升了不同物体轮廓细节生成，生成效果十分令人惊叹，目前在图像领域中拥有最佳生成效果。

除了对于GAN本身的改进，视觉注意力机制越来越多地被引用到图像生成模型中。视觉注意力机制模仿了人类视觉中，视觉信号在大脑中的处理机制，即人类视觉拥有全局视野和局部视野，对于全局图像可以快速扫描，对于局部图像，人类视觉可以将更多的注意力资源投注到其中，重点关注目标区域，获取注意力焦点，进一步获取细节信息，而抑制其他无用信息。2018年，HanZhong和Ian Goodfellow等人提出了在视觉图像领域的自注意力机制，通过添加自注意力层，能够从图像提取出相互依赖区域，从而对目标任务达到更好的效果。

然而，pix2pixHD等现有的生成器存在一些不足。首先，难以获得长距离的依赖关系。也就是说，虽然，在经过不断地下采样(一般为3层)后，卷积的感受野在不断地扩大，但高清图像精度很高，一般达到1024×512，所以难以捕捉到全局的对应依赖关系。而且，不断地下采样后，导致图像中不同地方的特征过于糅合，难以生成精细的图像。其次，对于一个1024×512的图像，不同地方具有相应的语义关系，但由于特征过于糅合，对于不同地方具有相同语义关系的生成，难以做到准确化。此外，整体生成中，某一像素的生成必然会受到其他的位置的影响，在全局范围内，必然会导致一个均一化的结果，也就是像素模糊。

发明内容

为解决上述问题，克服现有技术的不足，本发明提出一种基于区域间注意力机制的图像信息提取与生成方法，将图像分部分生成，并应用于自注意力机制，可以获取长距离依赖，又保持了区域间的独立性。随后针对这个系统的生成效果各项指标进行了实验测试。通过对实验数据和实验流程的分析，可以看出本方法对于1024×512尺度的图像的信息提取效果具有改善作用，生成的图像在视觉效果中更加清晰，并且在相关指标中也有所提升。

本发明的技术方案为：一种基于区域间注意力机制的图像信息提取与生成方法，步骤如下：

步骤1：生成器编码阶段，将训练集中的语义标签图作为输入，划分为四个分支进行编码，得到四个分支图像；

步骤2：生成器解码阶段，将编码阶段生成的四个分支图像进行拼接，生成假图像，作为辨别器训练的输入；

步骤3：辨别器训练阶段，将训练集中的语义标签图分别与训练集真实图像、生成器生成的假图像在通道维度上进行拼接，作为辨别器的输入；辨别器分为两个尺度，分别为原尺度，以及降采样两倍后尺度；在每一个尺度上，输入都连续经过4层的下采样卷积层，最后经过一层卷积，在每个位置上输出0或者1，作为预测图像的真假——0代表当前位置预测为假图像，1代表当前位置预测为真图像。

进一步的，步骤1具体包括：

生成器编码阶段：先经过一层卷积扩充维度到64维，经过3次卷积进行下采样，同时将维度扩大到512维；然后网络分为四个分支，分别用于生成左上角，右上角，左下角，右下角图像；每个分支先经过一层自注意力层，获取区域间的长距离依赖关系，再通过6个残差块结构，增加网络深度，再经过一层自注意力层，进一步提取依赖关系。

进一步的，步骤2具体包括：

生成器解码阶段：将解码阶段划分的4个分支进行拼接，连续进行三次反卷积，恢复到图像原尺寸，最后接一层卷积输出RGB图像。

进一步的，模型具体训练过程如下：

(3.1)语义分割图先与生成器生成的假图像一起送入辨别器，得到辨别器将假图像预测为假所造成的损失L_fakefake；

(3.2)语义分割图与真实图像一起送入辨别器，得到辨别器将真图像预测为真所造成的损失L_truetrue，并保存4层下采样卷积后的结果；

(3.3)语义分割图与假图像再次一起送入辨别器，得到辨别器将假图像预测为真所造成的损失L_faketrue，并保存4层下采样卷积后的结果；

(3.4)将两次保存结果进行L1损失比较，计算细节损失L_detail；

(3.5)使用VGG进行特征提取，计算不同层的感知损失L_vgg；

(3.6)分别对生成器与辨别器进行训练；其中生成器损失为：L_g＝L_faketrue+L_detail+L_vgg；辨别器损失为：L_d＝L_fakefake+L_truetrue。

进一步的，所述自注意力层采用自注意力机制将输入分别经过两个卷积后相乘，然后经过softmax层，获得其关联关系，即注意力热图，原始的输入经过一次卷积后，再和注意力热图相乘，获得了像素间的长距离、多层次的依赖关系。

本发明与现有技术相比的优点在于：

(1)克服了原有技术的难以获得长距离的依赖关系的不足，生成器应用于自注意力机制，可以获取长距离依赖；

(2)克服了原有技术的特征糅合、像素模糊的不足，将图像分部分生成，保持了区域间的独立性；

(3)通过与目前效果最好的图像生成模型pix2pixHD的生成效果的实验比较与分析，设计的模型对于1024×512尺度的图像信息提取效果具有改善作用，生成的图像在视觉效果中更加清晰，并且在相关指标中也有所提升。

附图说明

图1为本发明的模型整体设计图；

图2为本发明的基于区域间注意力机制的生成器结构图；

图3为本发明的辨别器网络结构图；

图4为本发明的自注意力机制结构图；

图5为本发明方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

深度学习：是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

图像处理：数字图像处理本来是指将一幅图像通过计算机技术变成另一幅经过变换的图像或者抽取图像中的测度的过程。现在己经发展到从数字图像编码、压缩、传输、降噪到再现的所有处理过程。计算机视觉是在图像处理的基础上发展起来的一门交叉学科，从信息处理的层次研究视觉信息的认知过程，研究视觉信息处理的计算理论、表达与计算方法，试图通过对一幅或多幅二维图像的分析，感知三维环境的几何信息。

注意力机制：视觉注意力机制借鉴了自然语言处理中的注意力模型，其模仿了人类视觉中，视觉信号在大脑中的处理机制，即人类视觉拥有全局视野和局部视野，对于全局图像可以快速扫描，对于局部图像，人类视觉可以将更多的注意力资源投注到局部图像中，重点关注目标区域，获取注意力焦点，进一步获取细节信息，而抑制其他无用信息。注意力机制的核心目标是从众多信息中选择出对当前任务目标更关键的信息。

本发明提出的一个基于区域间注意力机制的图像信息提取与生成方法，基于GAN结构模型，模型分为生成器与辨别器两部分，整体如图1所示。

1.注意力机制的设计

为获取图像间的依赖关系，本方法生成器在每一个部分开始生成时，添加了自注意力层。自注意力机制借鉴于计算机视觉经典非局部均值，其建立了图像上有一定距离的像素之间的关系。为了获取两个像素之间的关联关系，自注意力机制将输入分别经过两个卷积，对其中一个卷积后的结果进行转置后，与另一卷积后结果相乘，然后经过softmax层，获得其关联关系，即注意力热图(attention map)，原始的输入经过一次卷积后，再和注意力热图相乘，获得了像素间的长距离、多层次的依赖关系。自注意力机制模块结构图如图4所示。

2.生成器设计

为保持区间独立性，本方法生成器将网络分为四个分支，分别负责每一部分的生成。分为四个分支是基于这样的一个事实：对于一张1024×512的图像，图像中距离较远的两个部分拥有相对独立的语义，每一部分的生成不依赖于另一部分。这样本部分在生成时，只需关注自己部分的语义关系，学习到的类别特征不过于糅合，生成的准确性更强。另外，还有一个好处是，在生成时，无需考虑全局的类别信息，会减少均一化，增加清晰度。

3.辨别器设计

为了能更加准确的分辨真假图像，本方法类似于pix2pixHD，采用多尺度的辨别器以及能够提供细节信息的PatchGAN。同时，为了更好的约束GAN的训练，本方法采用了L1损失函数，用于代替原先的均方差损失函数，促进生成器细节方面的生成。

将语义标签图与真假图像拼接作为输入，是为了更好的提取语义轮廓信息。在一定意义上，可以将辨别器看作是语义分割的模型，将图像与语义标签图一块作为网络的输入，最后预测在每一个位置上的真假，就在一定意义上对图像进行语义分割。当模型将某一像素预测成某一类时，如果与输入的语义标签中当前位置像素的类别一致，则输出为1，否则，输出为0。

条件GAN用于图像生成，本质上是像素与像素之间映射的问题，但是，如果要求对每一个像素进行精准的判断，则会导致约束过强，GAN训练崩溃。所以，将输入先进行4层的下采样后，再进行预测，一方面可以去除一些冗余的信息，提取更多共性的特征。另一方面，4层的下采样后，对某一位置的预测其实是对一块位置的预测，这样可以让模型有一定的空间，减轻过强的约束。

应用了具有马尔可夫的PatchGAN，来提供细节信息，如纹理，轮廓等。辨别器每一层下采样的卷积，都相当于在提取一个卷积核感受野大小的细节特征。这些细节特征在理论上是相互独立的，符合马尔可夫性质。辨别器分别将真图像与假图像通过每一层下采样卷积后的结果保存，用L1损失函数进行比对约束，用于促进生成器细节方面的生成。

语义分割图与生成器生成的假图像一起送入辨别器，得到辨别器将假图像预测为假所造成的损失为L_fakefake，将假图像预测为真所造成的损失为L_faketrue；与真实图像一起送入辨别器，得到辨别器将真图像预测为真所造成的损失为L_truetrue。两次预测为真后均保存4层下采样卷积后的结果，将两次保存结果进行L1损失比较，计算细节损失L_detail。不同层的VGG感知损失L_vgg。生成器损失为：L_g＝L_faketrue+L_detail+L_vgg，辨别器损失为：L_d＝L_fakefake+L_truetrue。

根据本发明的一个实施例，应用本发明基于区域间注意力机制的图像信息提取与生成方法，实现如下：本方面使用LSGAN用于稳定训练，具体的实验参数为：进行200轮训练，一个训练批次为2，初始学习率为0.0002，每一轮下降0.00001，使用的优化算法为Adam优化算法，其动量参数为0.5。损失函数中，采用的10个PatchGAN损失，感知损失采用的是VGG不同层的对比L1损失。

根据本发明的一个实施例，本发明的一种基于区域间注意力机制的图像信息提取与生成方法包括如下步骤：

步骤1.生成器编码阶段

先经过一层卷积扩充维度到64维，经过3次卷积进行下采样，同时将维度扩大到512维。然后网络分为四个分支，分别用于生成左上角，右上角，左下角，右下角。每个分支先经过一层自注意力层，获取区域间的长距离依赖关系，再通过6个残差块结构，增加网络深度，再经过一层自注意力层，进一步提取依赖关系。

步骤2.生成器解码阶段

将编码阶段划分的4个分支进行拼接，连续进行三次反卷积，恢复到图像原尺寸，最后接一层卷积输出RGB图像。经过编解码，生成器将输入的语义标签图转化为一张假图像，用以作为辨别器的输入之一。

步骤3.辨别器训练过程

将语义标签图分别与训练集真实图像，生成器生成的假图像在通道维度上进行拼接，作为辨别器的输入，辨别器分为两个尺度，分别为原尺度，以及降采样两倍后尺度。在每一个尺度上，输入都连续经过4层的下采样卷积层，最后经过一层卷积，在每个位置上输出0或者1，作为预测图像的真假，0代表当前位置预测为假图像，1代表当前位置预测为真图像。

具体训练过程如下：

(1)语义分割图先与生成器生成的假图像一起送入辨别器，得到辨别器将假图像预测为假所造成的损失L_fakefake。

(2)语义分割图与真实图像一起送入辨别器，得到辨别器将真图像预测为真所造成的损失L_truetrue，并保存4层下采样卷积后的结果。

(3)语义分割图与假图像再次一起送入辨别器，得到辨别器将假图像预测为真所造成的损失L_faketrue，并保存4层下采样卷积后的结果。

(4)将两次保存结果进行L1损失比较，计算细节损失L_detail。

(5)计算不同层的VGG感知损失L_vgg。

(6)分别对生成器与辨别器进行训练。其中生成器损失为：L_g＝L_faketrue+L_detail+L_vgg。辨别器损失为：L_d＝L_fakefake+L_truetrue。

综上，本发明将图像分部分生成，并应用于自注意力机制，可以获取长距离依赖，又保持了区域间的独立性，解决了先前传统的图像生成模型的不足。该方法对于1024×512尺度的图像生成具有改善作用，生成的图像在视觉效果中更加清晰，并且在相关指标中也有所提升，可以大规模地生成满足特定任务的视觉数据集。在一定程度上缓解了深度学习遭遇瓶颈的压力。综合可知，基于区域间注意力机制的图像信息提取与生成算法具有很高的实用价值。

应用举例：

本发明的系统及方法有望应用于：

(1)深度学习领域，可以大规模地生成满足特定任务的视觉数据集，解决图像领域数据集匮乏的问题，在一定程度上缓解了深度学习遭遇瓶颈的压力。

(2)将卫星图转化为平面图，这在导航领域十分重要，当导航得到从高空拍摄的卫星图，可以利用图像生成算法，将卫星图转化为更易被人接受且直观的平面图。

(3)将灰度图转化为彩色图。图像生成算法，可以将输入的图像进行增强，或者是风格转换，这对于图像色彩变换十分有用，甚至对于考古研究具有重要的作用。

(4)将语义标签图转化为真实图，这对于图像创作有重要的意义。

上述只是这种方法实际应用的场景的简单几个案例，在实际中有更多实用场景。

本发明未详细描述的部分属于本领域公知技术。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于区域间注意力机制的图像信息提取与生成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于区域间注意力机制的图像信息提取与生成方法，其特征在于，步骤1具体包括：

3.根据权利要求1所述的一种基于区域间注意力机制的图像信息提取与生成方法，其特征在于，步骤2具体包括：

4.根据权利要求1所述的一种基于区域间注意力机制的图像信息提取与生成方法，其特征在于，步骤3模型具体训练过程如下：

(3.4)将两次保存结果进行L1损失比较，计算细节损失L_detail；

(3.5)使用VGG进行特征提取，计算不同层的感知损失L_vgg；

5.根据权利要求2所述的一种基于区域间注意力机制的图像信息提取与生成方法，其特征在于：

所述自注意力层采用自注意力机制将输入分别经过两个卷积后相乘，然后经过softmax层，获得其关联关系，即注意力热图，原始的输入经过一次卷积后，再和注意力热图相乘，获得了像素间的长距离、多层次的依赖关系。