CN111222515B

CN111222515B - 一种基于上下文感知注意力的图像翻译方法

Info

Publication number: CN111222515B
Application number: CN202010008802.2A
Authority: CN
Inventors: 白静; 陈冉; 刘敏
Original assignee: North Minzu University
Current assignee: Chongqing Boshi Intellectual Property Service Co ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2023-04-07
Anticipated expiration: 2040-01-06
Also published as: CN111222515A

Abstract

本发明公开了一种基于上下文感知注意力的图像翻译方法，包括步骤：S1、卷积神经网络从图像中提取语义特征，产生特征向量x；S2、对初始特征向量x进行三个卷积操作，构造出三个不同的嵌入特征空间ψ(x)、ξ(x)、ζ(x)；S3、对特征空间ψ(x)进行平均池化，对特征空间ξ(x)进行最大池化，得到ψ(x)、ξ(x)各自空间的显著特征；S4、将特征空间ψ(x)、ξ(x)的显著特征进行矩阵计算，求出相关特征矩阵F；S5、将F和ζ(x)相乘得到非局部特征图y；S6、将特征向量x添加到非局部特征图y上，利用残差连接输出细化特征，从而得到上下文感知注意力特征向量O(x)，捕获图像中需要关注的特定区域。本发明使得图像需要关注的相关区域进行翻译，不相关的区域维持原状，可以提高图像翻译的真实性。

Description

一种基于上下文感知注意力的图像翻译方法

技术领域

本发明涉及计算机图形学、计算机视觉与智能识别的技术领域，尤其是指一种基于上下文感知注意力的图像翻译方法。

背景技术

图像翻译是计算机视觉领域中一个长期存在且具有挑战性的问题，许多问题可以看作是图像翻译，如图像超分辨率、图像着色、图像修复和图像风格转换等各个方面。当前来看，一个理想的图像翻译网络应该具有上下文感知的能力，它不仅应该能够发现源域和目标域之间的差异，而且还能判断出在翻译过程中图像的哪些部分改变，哪些部分保持不变。现有的图像翻译工作无法满足当前这些需求。

发明内容

本发明的目的在于克服现有技术的缺点与不足，针对目前无监督的一对一图像翻译技术未能将翻译集中在图像内某个对象上的需求，提出了一种基于上下文感知注意力的图像翻译方法，通过上下文感知注意力特征向量捕获各种特征之间的相互影响，从而在无监督的图像到图像的翻译中自动关注特定场景中的某个对象，提高图像翻译性能。

为实现上述目的，本发明所提供的技术方案为：一种基于上下文感知注意力的图像翻译方法，包括以下步骤：

S1、通过卷积神经网络从图像中提取语义特征，产生特征向量x；

S2、对特征向量x同时进行三个卷积操作，从而构造出三个不同的嵌入特征空间ψ(x)、ξ(x)、ζ(x)，使用三个不同的嵌入特征空间能够使网络动态学习特征之间的相关性；

S3、得到三个特征空间后，对特征空间ψ(x)进行平均池化操作，对特征空间ξ(x)进行最大池化操作，从而得到ψ(x)、ξ(x)各自空间中最具象征意义的特征，即显著特征，而ζ(x)特征空间保持不变；

S4、将特征空间ψ(x)、ξ(x)经过池化操作后得到的显著特征进行矩阵计算，求出相关特征矩阵F，相关特征矩阵F能够反映图像翻译任务中需要关注的特定区域；

S5、相关特征矩阵F和特征空间ζ(x)相乘得到非局部特征图y，目的是捕捉图像中每个位置的相关权重系数；

S6、将特征向量x添加到非局部特征图y上，利用残差连接输出细化特征，从而得到上下文感知注意力特征向量O(x)，上下文感知注意力特征向量O(x)能够捕获图像中需要关注的特定区域，使得图像中需要关注的特定区域进行翻译，不相关的区域维持原状，从而提高图像翻译的效果和真实性。

在步骤S1中，所述语义特征是指能够识别图像中类别的显著性特征。

在步骤S1中，所述卷积神经网络将输入图像提取特征为w×h×c的特征向量x，其中，w为特征向量的宽度，h为特征向量的高度，c为特征向量的通道数。

在步骤S2中，对特征向量x进行三个卷积操作，卷积核的大小均为1×1×c，从而得到三个不同的嵌入特征空间ψ(x)、ξ(x)、ζ(x)，其中，ψ(x)∈R^n×c，ξ(x)∈R^n×c和ζ(x)∈R^n×c，n＝w×h，R为一个集合，w为特征向量的宽度，h为特征向量的高度，n为w和h的乘积，c为特征向量的通道数。

在步骤S3中，对特征空间ψ(x)进行平均池化，对特征空间ξ(x)进行最大池化，通过池化操作能够得到两个大小为1×c的全局特征矩阵，平均池化操作得到的全局特征矩阵包含c个平均特征，最大池化操作得到的全局特征矩阵包含c个显著特征，池化公式如下：

平均池化：A＝(avePooling(ψ(x)))_n,A∈R^1×c

最大池化：M＝(max Pooling(ξ(x)))_n,M∈R^1×c

其中，A和M均为矩阵，ψ(x)、ξ(x)为嵌入特征空间，avePlooling为平均池化，maxPlooling为最大池化，w为特征向量的宽度，h为特征向量的高度，n为w和h的乘积，c为特征向量的通道数。

在步骤S4中，通过对特征空间ψ(x)平均池化得到的全局特征矩阵进行转置，再与ξ(x)最大池化得到全局特征矩阵做矩阵相乘运算，最终得到一个c×c的相关特征矩阵F，相关特征矩阵F中的F_ij元素反映了第i个平均特征与第j个显著特征的相关性，相关特征矩阵F的计算公式如下：

F＝A^TM,F∈R^c×c

其中，A^T为平均池化矩阵的转置矩阵，M为最大池化得到的全局特征矩阵，R为一个集合，c为特征向量的通道数。

在步骤S5中，非局部特征图y是通过相关特征矩阵F乘以特征空间ζ(x)得到，该非局部特征图y能够捕捉图像中每个位置的相关权重系数，其计算公式如下：

y＝ζ(x)F。

在步骤S6中，细化特征是将输入的特征向量x通过残差连接添加到非局部特征图y上，从而得到输入图像的上下文感知注意力特征向量O(x)，O(x)的公式如下：

O(x)＝λ·y+x,O(x)∈R^nxc,λ∈[0,1]

其中，λ为可训练的参数，R为一个集合，n为w和h的乘积，w为特征向量的宽度，h为特征向量的高度，c为特征向量的通道数；当λ初始化为0时，能够嵌入到任何预训练好的模型中，且不破坏其最初的网络结构；通过学习能够使非局部特征图y和特征向量x的权重进行自动调整。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明提出了通用、灵活，可用于图像翻译的上下文感知注意力特征向量，可以添加到现有的图像翻译框架中，显著提高图像翻译的效果和真实性。

2、本发明可以捕捉不同特征之间的相关性，使得图像中需要关注的特定区域进行翻译，不相关的区域维持原状。

3、本发明可以根据翻译任务的上下文自动区分相关区域和背景，只关注特定场景中的某个对象。

附图说明

图1为不同的网络在不同数据集上的比较结果。

图2为基于上下文感知注意力的图像翻译过程，输入为原始图像，输出的是翻译后的图像，第三层和第四层分别是在DualGan(对偶学习的生成式对抗网络)中可视化的细化特征图。

图3为上下文感知注意力架构。

图4为在UNet和ResNet网络中加入上下文感知注意力的架构。

图5为在不同数据集不同网络翻译后的效果对比图。

图6为将橘子图像翻译成苹果图像的放大局部图像。

图7为不同的网络在冬天转夏天数据集上的比较结果。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例所提供的基于上下文感知注意力的图像翻译方法，通过上下文感知注意力特征向量捕获各种特征之间的相互影响，从而在无监督的图像到图像的翻译中自动关注特定场景中的某个对象，提高图像翻译性能，从而有效提升图像翻译结果的质量，且不会增加过多的计算代价。如图3所示的上下文感知注意力架构，卷积神经网络从图像中提取语义特征，产生特征向量x，将特征向量x送入上下文感知注意力架构，经过卷积和池化等操作后，得到细化特征图。

其包括以下步骤：

1)卷积神经网络从图像中提取语义特征，产生特征向量x。语义特征是指能够识别图像中类别的显著性特征，卷积神经网络将输入图像提取特征为w×h×c的特征向量x，其中w为特征向量的宽度，h为特征向量的高度，c为特征向量的通道数。

2)对特征向量x同时进行三个卷积操作，卷积核的大小均为1×1×c，从而得到三个不同的嵌入特征空间ψ(x)，ξ(x)，ζ(x)，使用三个不同的嵌入特征空间可以使网络动态学习特征之间的相关性。对于三个不同的嵌入特征空间ψ(x)，ξ(x)，ζ(x)其中,ψ(x)∈R^n×c，ξ(x)∈R^n×c和ζ(x)∈R^n×c(n＝w×h)，其中R为一个集合，w为特征向量的宽度，h为特征向量的高度，n为w和h的乘积，c为特征向量的通道数。

3)得到三个特征空间后，对特征空间ψ(x)进行平均池化操作，对特征空间ξ(x)进行最大池化操作，从而可以得到ψ(x)、ξ(x)各自空间中最具象征意义的特征，即显著特征，ζ(x)特征空间保持不变。

对特征空间ψ(x)进行平均池化，对特征空间ξ(x)进行最大池化，通过池化操作可以得到两个大小为1×c的全局特征矩阵，平均池化操作得到的全局特征矩阵包含c个平均特征，最大池化操作得到的全局特征矩阵包含c个显著特征。池化公式如下：

平均池化：A＝(avePooling(ψ(x)))_n,A∈R^1×c

最大池化：M＝(max Pooling(ξ(x)))_n,M∈R^1×c

其中，A和M均为矩阵，ψ(x)，ξ(x)为嵌入特征空间，avePlooling为平均池化，maxPlooling为最大池化，w为特征向量的宽度，h为特征向量的高度，n为w和h的乘积，c为特征向量的通道数。

4)将特征空间ψ(x)，ξ(x)经过池化操作后得到的显著特征进行矩阵计算，求出相关特征矩阵F，相关特征矩阵F反映了图像翻译任务中需要关注的特定区域。

通过对特征空间ψ(x)平均池化得到的全局特征矩阵进行转置，再与ξ(x)最大池化得到全局特征矩阵做矩阵相乘运算，最终得到一个c×c的特征相关矩阵F。特征相关矩阵F中的F_ij元素反映了第i个平均特征与第j个显著特征的相关性，F的计算公式如下：

F＝A^TM,F∈R^c×c

5)相关特征矩阵F和特征空间ζ(x)相乘得到一个非局部特征图y，可以捕捉图像中每个位置的相关权重系数。y的计算公式如下：

y＝ζ(x)F

6)将特征向量x添加到非局部特征图y上，利用残差连接输出细化特征，从而得到上下文感知注意力特征向量O(x)，上下文感知注意力特征向量O(x)可以捕获图像中需要关注的特定区域，使得图像中需要关注的特定区域进行翻译，不相关的区域维持原状，可以提高图像翻译的效果和真实性。图1、图5和图7表示在不同网络下图像翻译的效果对比图，其中，W→S为Winter翻译成Summer，S→W为Summer翻译成Winter；H→Z为Horse翻译Zebra，Z→H为斑马翻译成马；A→O为Apple翻译成Orange,O→A为Orange翻译成Apple；DualGAN为对偶学习的生成式对抗网络；DualGAN+SA为对偶学习的生成式对抗网络添加上自注意力；DualGAN+FA为对偶学习的生成式对抗网络添加上下文感知注意力架构；cycleGAN为循环生成式对抗网络；cycleGAN+SA为循环生成式对抗网络添加上自注意力；Attention-guided为注意力下的效果图；cycleGAN+FA为循环生成式对抗网络添加上下文感知注意力架构；UNIT为为无监督的图像到图像翻译效果图(Unsupervised Image-to-Image Translation)；UNIT+FA为在无监督的图像到图像翻译的基础上增加上下文感知注意力架构效果图。图6为将橘子图像翻译成苹果图像的放大局部图，其中，O→A为Orange翻译成Apple；Attention-guided为注意力下的效果图，cycleGAN+FA为循环生成式对抗网络添加上下文感知注意力架构，可以看到，上下文感知注意力特征向量捕获了特征之间的相互关系。

细化特征是将输入的特征向量x通过残差连接添加到非局部特征图y上，从而可以得到输入图像的上下文感知注意力特征向量O(x)，增加上下文感知注意力特征向量O(x)后的可视化结果如图2所示。其中O(x)的公式如下：

O(x)＝λ·y+x,O(x)∈R^nxc,λ∈[0,1]

其中，λ为可训练的参数，R为一个集合，w为特征向量的宽度，h为特征向量的高度，n为w和h的乘积，c为特征向量的通道数。当λ初始化为0时，可嵌入到任何预训练好的模型中，且不破坏其最初的网络结构；通过学习可以使非局部特征图y和特征向量x的权重进行自动调整。

实验配置：本文实验的硬件环境为Intel Core i7 2600k+GTX 1070 8G+8G RAM，软件环境为windows 7x64+CUDA 8.0+cuDNN 5.1+Pytorch+Python。

数据集：本文选择了冬天转夏天(winter2summer)、苹果变橘子(apple2orange)、马变斑马(horse2zebra)、白天变黑夜(day2night)数据集。数据集中的所有图像的分辨率都是256×256×3，且包含自然风景、动物和水果，并且具有复杂的背景。表1给出了本文选用数据集的基本信息。

表1数据集基本信息

在加入上下文感知注意力特征向量之前，现有的图像翻译网络无法区分翻译任务中的相关区域和无关区域，而在加入上下文感知注意力特征向量后，U-Net、ResNet网络能根据翻译的上下文只关注图像中的目标对象，从而有效提高图像翻译结果的质量，且不会增加过多的计算代价。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于上下文感知注意力的图像翻译方法，其特征在于，包括以下步骤：

S1、通过卷积神经网络从图像中提取语义特征，产生特征向量x；所述语义特征是指能够识别图像中类别的显著性特征；所述卷积神经网络将输入图像提取特征为w×h×c的特征向量x，其中，w为特征向量的宽度，h为特征向量的高度，c为特征向量的通道数；

S2、对特征向量x进行三个卷积操作，卷积核的大小均为1×1×c，从而得到三个不同的嵌入特征空间ψ(x)、ξ(x)、ζ(x)，其中，ψ(x)∈R^n×c，ξ(x)∈R^n×c和ζ(x)∈R^n×c，n＝w×h，R为一个集合，w为特征向量的宽度，h为特征向量的高度，n为w和h的乘积，c为特征向量的通道数；使用三个不同的嵌入特征空间能够使网络动态学习特征之间的相关性；

S3、得到三个特征空间后，对特征空间ψ(x)进行平均池化操作，对特征空间ξ(x)进行最大池化操作，从而得到ψ(x)、ξ(x)各自空间中最具象征意义的特征，即显著特征，而ζ(x)特征空间保持不变，具体如下：

对特征空间ψ(x)进行平均池化，对特征空间ξ(x)进行最大池化，通过池化操作能够得到两个大小为1×c的全局特征矩阵，平均池化操作得到的全局特征矩阵包含c个平均特征，最大池化操作得到的全局特征矩阵包含c个显著特征，池化公式如下：

平均池化：A＝(avePooling(ψ(x)))_n,A∈R^1×c

最大池化：M＝(maxPooling(ξ(x)))_n,M∈R^1×c

其中，A和M均为矩阵，ψ(x)、ξ(x)为嵌入特征空间，avePlooling为平均池化，maxPlooling为最大池化，w为特征向量的宽度，h为特征向量的高度，n为w和h的乘积，c为特征向量的通道数；

S4、将特征空间ψ(x)、ξ(x)经过池化操作后得到的显著特征进行矩阵计算，求出相关特征矩阵F，相关特征矩阵F能够反映图像翻译任务中需要关注的特定区域，具体如下：

通过对特征空间ψ(x)平均池化得到的全局特征矩阵进行转置，再与ξ(x)最大池化得到全局特征矩阵做矩阵相乘运算，最终得到一个c×c的相关特征矩阵F，相关特征矩阵F中的F_ij元素反映了第i个平均特征与第j个显著特征的相关性，相关特征矩阵F的计算公式如下：

F＝A^TM,F∈R^c×c

其中，A^T为平均池化矩阵的转置矩阵，M为最大池化得到的全局特征矩阵，R为一个集合，c为特征向量的通道数；

S5、相关特征矩阵F和特征空间ζ(x)相乘得到非局部特征图y，目的是捕捉图像中每个位置的相关权重系数，具体如下：

非局部特征图y是通过相关特征矩阵F乘以特征空间ζ(x)得到，该非局部特征图y能够捕捉图像中每个位置的相关权重系数，其计算公式如下：

y＝ζ(x)F；

S6、将特征向量x添加到非局部特征图y上，利用残差连接输出细化特征，从而得到上下文感知注意力特征向量O(x)，上下文感知注意力特征向量O(x)能够捕获图像中需要关注的特定区域，使得图像中需要关注的特定区域进行翻译，不相关的区域维持原状，从而提高图像翻译的效果和真实性，具体如下：

细化特征是将输入的特征向量x通过残差连接添加到非局部特征图y上，从而得到输入图像的上下文感知注意力特征向量O(x)，O(x)的公式如下：

O(x)＝λ·y+x,O(x)∈R^nxc,λ∈[0,1]