CN108509952A

CN108509952A - 一种基于深度注意生成对抗网络的实例级图像翻译技术

Info

Publication number: CN108509952A
Application number: CN201810313808.3A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2018-09-07

Abstract

本发明中提出的一种基于深度注意生成对抗网络的实例级图像翻译技术，其主要内容包括：网络模块、实例级图像翻译、集合级图像翻译、完整目标函数，其过程为，首先使用一个深度注意编码器、一个生成器以及两个鉴别器构建深度注意生成对抗网络；然后根据给定的输入图像，采用定位函数预测注意区域的位置并计算注意掩码；接着利用生成器接收来自隐空间的结构化表达式，产生翻译样本；最后使用鉴别器把翻译的样本从真实图像里面鉴别出来。本发明基于深度注意生成对抗网络，提出了一种实例级图像翻译技术，可以同时应用于实例级和集合级的约束，解决大量的实际任务，并且能够获得性能更好的效果。

Description

一种基于深度注意生成对抗网络的实例级图像翻译技术

技术领域

本发明涉及图像翻译领域，尤其是涉及了一种基于深度注意生成对抗网络的实例级图像翻译技术。

背景技术

图像翻译是机器翻译的一个应用，用户可以把一个图像中所包含的文本信息、颜色信息、图标信息等等，转换成为任意的表现形式。高速发展的移动电子设备使得图像翻译技术广泛运用于人们生活的各个方面。比如，此技术可以用于将其他国家的文字，翻译成为自己国家的文字，这样就有利于信息的传递以及文化的交流。再比如，可以利用图像翻译技术将用户在商场看到的描述商品性质的广告词等翻译成为直观的图片，也可以根据用户输入的商品图片，自动搜索到与之类似的相关商品。目前，无监督式图像翻译面临着一个巨大的挑战，即其需要在没有成对数据的情况下发掘正确的对应关系。现有的方法建立在生成对抗网络的基础上面，其属于集合级约束，缺点在于无法学习实例级的对应关系，诸如语义的理解与正确对应。

本发明提出了一种基于深度注意生成对抗网络的实例级图像翻译技术，首先使用一个深度注意编码器、一个生成器以及两个鉴别器构建深度注意生成对抗网络；然后根据给定的输入图像，采用定位函数预测注意区域的位置并计算注意掩码；接着利用生成器接收来自隐空间的结构化表达式，产生翻译样本；最后使用鉴别器把翻译的样本从真实图像里面鉴别出来。本发明基于深度注意生成对抗网络，提出了一种实例级图像翻译技术，可以同时应用于实例级和集合级的约束，解决大量的实际任务，并且能够获得性能更好的效果。

发明内容

针对现有方法存在无法学习实例级的对应关系等问题，本发明的目的在于提供一种基于深度注意生成对抗网络的实例级图像翻译技术，首先用一个深度注意编码器、一个生成器以及两个鉴别器构建深度注意生成对抗网络；然后根据给定的输入图像，采用定位函数预测注意区域的位置并计算注意掩码；接着利用生成器接收来自隐空间的结构化表达式，产生翻译样本；最后使用鉴别器把翻译的样本从真实图像里面鉴别出来。

为解决上述问题，本发明提供一种基于深度注意生成对抗网络的实例级图像翻译技术，其主要内容包括：

(一)网络模块；

(二)实例级图像翻译；

(三)集合级图像翻译；

(四)完整目标函数。

其中，所述的网络模块，深度注意生成对抗网络包括四个网络模块：深度注意编码器、生成器、鉴别器D1和鉴别器D2。

进一步地，所述的深度注意编码器，给定一个输入图像X的特征图像E(X)，首先采用定位函数预测一系列注意区域的位置；一旦得到了注意区域的位置，就可以获得注意掩码

具体来讲，用w和h分别表示图像X宽度和高度的一半，那么，可以采用下面公式对注意区域进行参数化：

然后，通过点乘运算计算接着得到注意区域

进一步地，所述的生成器，生成器接收来自隐空间的高度结构化表达式，用于产生翻译得到的样本；

生成器被迫翻译那些无法从真实图像区分出来的样本。

进一步地，所述的鉴别器D1和鉴别器D2，在目标域当中，使用鉴别器D1把翻译的样本从真实图像里面鉴别出来；鉴别器D2识别重构获得的无法分辨的样本。

其中，所述的实例级图像翻译，采用一致性损失函数：

另外，采用对称损失函数：

上式也可以当作是应用于样本的自编码损失函数；其中，d是距离，理论上有许多不同的取值。

其中，所述的集合级图像翻译，在目标域可以把当作是一个自动编码器；对于目标域里面的任意一个节点，F(t)可以产生距离很近的节点；

上式表示目标函数；这个多对抗性训练过程有利于惩罚丢失的节点，它促使F(t)往邻近的节点靠近；从而可以获得针对不同节点的公平的概率密度函数。

其中，所述的完整目标函数，完整的目标函数可以由下面式子给出，即：

其中α和β分别是一致损失函数和对称损失函数的权重；

目的在于求解下列优化问题：

其中，网络采用由残差块组成的生成器。

进一步地，所述的网络，对于生成器，实例级表达沿着信道方向串联起来，并反馈至残差块；最后，一系列上采样网络层被用于产生一张翻译图像；

对于鉴别器，生成的图像通过下采样块反馈出去；最后，一个带有单一节点的全连接网络层被用于生成一个决策分数。

进一步地，所述的上采样和残差块，上采样块包括由以3×3为距离的卷积块组成的最近邻上采样；

残差块包括以3×3为距离的卷积块和分批归一化块。

附图说明

图1是本发明一种基于深度注意生成对抗网络的实例级图像翻译技术的系统结构图。

图2是本发明一种基于深度注意生成对抗网络的实例级图像翻译技术的深度注意生成对抗网络示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于深度注意生成对抗网络的实例级图像翻译技术的系统结构图。主要包括网络模块，实例级图像翻译，集合级图像翻译和完整目标函数。

其中，所述的实例级图像翻译，采用一致性损失函数：

另外，采用对称损失函数：

其中α和β分别是一致损失函数和对称损失函数的权重；

目的在于求解下列优化问题：

其中，网络采用由残差块组成的生成器。

残差块包括以3×3为距离的卷积块和分批归一化块。

其中，所述的深度注意编码器，给定一个输入图像X的特征图像E(X)，首先采用定位函数预测一系列注意区域的位置；一旦得到了注意区域的位置，就可以获得注意掩码

然后，通过点乘运算计算接着得到注意区域

其中，所述的生成器，生成器接收来自隐空间的高度结构化表达式，用于产生翻译得到的样本；

生成器被迫翻译那些无法从真实图像区分出来的样本。

其中，所述的鉴别器D1和鉴别器D2，在目标域当中，使用鉴别器D1把翻译的样本从真实图像里面鉴别出来；鉴别器D2识别重构获得的无法分辨的样本。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于深度注意生成对抗网络的实例级图像翻译技术，其特征在于，主要包括网络模块(一)；实例级图像翻译(二)；集合级图像翻译(三)；完整目标函数(四)。

2.基于权利要求书1所述的网络模块(一)，其特征在于，深度注意生成对抗网络包括四个网络模块：深度注意编码器、生成器、鉴别器D1和鉴别器D2。

3.基于权利要求书2所述的深度注意编码器，其特征在于，给定一个输入图像X的特征图像E(X)，首先采用定位函数预测一系列注意区域的位置；一旦得到了注意区域的位置，就可以获得注意掩码

然后，通过点乘运算计算接着得到注意区域

4.基于权利要求书2所述的生成器，其特征在于，生成器接收来自隐空间的高度结构化表达式，用于产生翻译得到的样本；

生成器被迫翻译那些无法从真实图像区分出来的样本。

5.基于权利要求书2所述的鉴别器D1和鉴别器D2，其特征在于，在目标域当中，使用鉴别器D1把翻译的样本从真实图像里面鉴别出来；鉴别器D2识别重构获得的无法分辨的样本。

6.基于权利要求书1所述的实例级图像翻译(二)，其特征在于，采用一致性损失函数：

另外，采用对称损失函数：

7.基于权利要求书1所述的集合级图像翻译(三)，其特征在于，在目标域可以把当作是一个自动编码器；对于目标域里面的任意一个节点，F(t)可以产生距离很近的节点；

8.基于权利要求书1所述的完整目标函数(四)，其特征在于，完整的目标函数可以由下面式子给出，即：

其中α和β分别是一致损失函数和对称损失函数的权重；

目的在于求解下列优化问题：

其中，网络采用由残差块组成的生成器。

9.基于权利要求书8所述的网络，其特征在于，对于生成器，实例级表达沿着信道方向串联起来，并反馈至残差块；最后，一系列上采样网络层被用于产生一张翻译图像；

10.基于权利要求书9所述的上采样和残差块，其特征在于，上采样块包括由以3×3为距离的卷积块组成的最近邻上采样；

残差块包括以3×3为距离的卷积块和分批归一化块。