CN113191953B

CN113191953B - 一种基于Transformer的人脸图像超分辨的方法

Info

Publication number: CN113191953B
Application number: CN202110623438.5A
Authority: CN
Inventors: 蹇木伟; 王芮; 王星; 举雅琨; 陈吉; 陈振学; 傅德谦; 张问银; 黄振
Original assignee: Linyi University; Shandong University of Finance and Economics
Current assignee: Linyi University; Shandong University of Finance and Economics
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2022-02-18
Anticipated expiration: 2041-06-04
Also published as: CN113191953A

Abstract

本发明提供了一种基于Transformer的端到端的人脸超分辨方法,包括S1：数据预处理，获取图像块序列；S2：利用卷积神经网络作为编码器提取图像局部特征；S3:基于Transformer的encoder模块，利用自注意力机制，根据图像块序列提取全局远程特征；S4：结合全局与局部特征，实现一种端到端的人脸超分辨方法。通过本发明的技术方案，本发明内容主要包括两部分，一是对二维图像处理，利用自注意力机制提取图像序列的非局部远程依赖信息；二是同时利用卷积操作所提取的局部特征，二者结合作为超分辨解码器的输入，目的是在增强图像特征的同时，利用端到端的学习方式，实现模型训练复杂度的降低。

Description

一种基于Transformer的人脸图像超分辨的方法

技术领域

本发明涉及图像处理与人脸超分辨技术领域，具体而言，特别涉及一种基于Transformer的人脸图像超分辨的方法。

背景技术

人脸超分辨（人脸幻觉）是一种特定领域下的超分辨率问题，具体是通过超分辨技术增强输入低分辨率人脸的细节信息，进而推断或者恢复出其对应的高分辨人脸图像。众所周知，将人脸作为一种生物学特征，与其相关的应用在当下社会的应用十分广泛，如人脸识别系统、刑事侦查、娱乐等领域，但是受限于实际应用场景获取到或者是生成的人脸图像质量参差不齐，会不可避免的叠加一些图像噪声，从而使得人脸图像质量较差，于此同时人脸超分辨技术作为一种关键的数据处理、分析技术，可以极大的提高诸如人脸识别、人脸对齐等下游任务的性能，因此有必要对人脸超分辨技术展开充分的研究。

近年来，随着深度学习技术的发展，基于卷积神经网络（CNN）的超分辨技术受到广泛关注和应用。卷积神经网络中的卷积运算对视觉特征的学习和提取任务显著有效，其利用权值共享机制，使得卷积层所提取的特征具有平移不变性；但也是由于卷积算子中卷积核尺寸的限制，使得CNN缺乏对输入数据的全局信息的敏感性，因此卷积的特征图只能关注到局部信息，导致难以捕捉和存储全局数据的长距离的依赖特征。就人脸图像来说，其与自然图像相比具有高度结构化的特性，也就是说人脸面部组件之间是具备一定的相关性的。比如，CNN的卷积层可以有效地提取出皮肤颜色、眼睛大小、鼻子的形状等局部图像特征，但“鼻子在嘴巴上面”、“眉毛和眼睛之间的距离”这种远程相关特征其无法使用多个卷积核来捕捉。在自然语言处理任务中快速发展的Transformer模块中的自注意力机制可以有效克服卷积归纳偏差所带来的局限性，因此，为了利用人脸组件之间的信息，对非局部成分进行学习和推理，以获取人脸图像的远距离依赖关系，本发明提出了一种基于Transformer的端到端的人脸超分辨方法。

发明内容

为了弥补现有技术的不足，本发明提供了一种基于Transformer的人脸图像超分辨的方法。

本发明是通过如下技术方案实现的：一种基于Transformer的人脸图像超分辨的方法，其特征在于,具体包括以下步骤：

S1：数据预处理；首先将原始高分辨率RGB人脸图像通过Bicubic方法下采样得到低分辨率数据

；然后将

切割成N个固定大小的图像块

；

S2：构建CNN特征提取器，得到图像块的特征图，每一个块的输出特征是三维的张量，大小是

；为了能够被输入到transformer中，在空间维度上展开为

；

S3:根据每个图像块的位置索引，生成块级别上的可学习的位置编码c，其长度与

相同，并被对应添加到

中，记作嵌入向量

，以保留图像块的位置信息；

S4：将嵌入向量

作为输入序列馈入标准TransformerEncoder模块，编码器使用多个自注意力块来组合不同Embedding之间的特征；

S5：构造超分辨解码器，首先把transformer的encoder模块的输出和特征提取器的输出

组合起来，作为超分辨解码器的输入，然后使用残差块和卷积层对特征进行解码，得到最终的超分辨图像。

作为优选方案，步骤S1中，具体包括以下步骤：

S1-1：构造高分辨率和低分辨率的人脸图像对,建立公式（1）如下：

（1），

其中

表示高分辨率人脸图像，

表示对应的低分辨率图像，

Bicubic插值算法；

S1-2：将RGB图像

切割成N个固定大小的图像块

；其中

，

，则

；

作为优选方案，步骤S2中，具体包括以下步骤：

S2-1：构建图像特征提取器

，其第一部分由卷积层、批标准化（batchnormalization）和ReLu操作组成，第二部分包括3个ResidualBlock。

S2-2：将图像块序列同步送入特征提取器

，对应生成N个特征图

,

=1,…,N，其中

表示网络通道数,

表示输出特征图的大小,

,

=1,…,N（2）；

S2-3：为了使图像的二维表示能够被输入到transformer的encoder模块中去，对特征图进行展平操作，记作

。

作为优选方案，步骤S3中，具体包括以下步骤：

S3-1：使用原始的一维位置嵌入方法，将每个图像块的位置根据公式（3）（4）产生位置嵌入c

：

(3)

(4)

其中，

是指图像块在原始图像中的位置，取值范围是[0,N]；

表示特征图中的像素位置，即奇数位置的时候采用公式（3），反之使用公式（4）；

S3-2：将可学习的位置嵌入c与图像块的嵌入向量

结合，形成具备位置信息的嵌入向量

，即

c+

(5)。

作为优选方案，步骤S4中，具体包括以下步骤：

S4-1：使用标准的TransformerEncoder架构，由一个多头自注意力模块(Multi-head self-attention)和一个前馈网络层(MLP)组成，并且在每个块之前都应用LayerNorm操作，在每个块之后都应用残差连接，其具体过程如下：

(6)

(7)

(8)

(9)

(10)

其中，公式（6）（7）表示了自注意力操作的过程，

，表示线性映射的权重，

表示对嵌入向量

做线性映射；最后输出

。

作为优选方案，步骤S5中，具体包括以下步骤：

S5-1：将TransformerEncoder模块提取的全局信息与特征提取器所提取的局部特征组合起来，作为图像超分辨率解码器的输入，公式如下：

(11)

其中

表示级联操作；

S5-2：构造超分辨率解码器，首先通过标准的3×3的卷积-批标准化-ReLu流程来减少输入特征图的数量，接下来利用反卷积操作将特征图上采样到大小为128×128；然后设计3个与超分辨编码器相同的residualblock对特征进行解码；最后用一个卷积层来输出超分辨的结果。

本发明由于采用了以上技术方案，与现有技术相比使其具有以下有益效果：本发明内容主要包括两部分，一是提出探索人脸图像组件之间的远程依赖性，通过对人脸二维图像到图像块序列的转化，充分利用Transformerencoder模块中的自注意力机制的功能，实现对人脸图像全局信息的捕获；二是利用卷积神经网络挖掘图像局部特征的能力，实现人脸图像全局远距离特征与局部特征的结合，可大大增加模型超分辨的性能。另外，本发明整体上采用了端到端的训练方式，减少了工程学习的复杂度。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明的数据样本处理示例；

图2为基于Transformer的端到端的人脸超分辨流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

下面结合图1至图2对本发明的实施例的基于Transformer的人脸图像超分辨的方法进行具体说明。

如图1、图2所示，本发明提出了一种基于Transformer的人脸图像超分辨的方法，其特征在于,具体包括以下步骤：

；然后将

切割成N个固定大小的图像块

；具体包括以下步骤：

（1），

其中

表示高分辨率人脸图像，

表示对应的低分辨率图像，

Bicubic插值算法；本发明中使用的

的像素大小为32×32，目的是将其超分辨为128×128大小的高分辨率人脸图像，即

作为groundtruth，其大小为128×128；

S1-2：将RGB图像

切割成N个固定大小的图像块

；其中

，

，则

；若N=16，那么切割出每一个图像块

的像素大小为8×8.即

=3.

=32.

=8. 如图1所示。

；为了能够被输入到transformer中，在空间维度上展开为

；具体包括以下步骤：

S2-1：构建图像特征提取器

S2-2：将图像块序列同步送入特征提取器

，对应生成N个特征图

,

=1,…,N，其中

表示网络通道数,

表示输出特征图的大小,

,

=1,…,N（2）；

。

相同，并被对应添加到

中，记作嵌入向量

，以保留图像块的位置信息；具体包括以下步骤：

：

(3)

(4)

其中，

是指图像块在原始图像中的位置，取值范围是[0,N]；

S3-2：将可学习的位置嵌入c与图像块的嵌入向量

结合，形成具备位置信息的嵌入向量

，即

c+

(5)。

S4：将嵌入向量

作为输入序列馈入标准TransformerEncoder模块，编码器使用多个自注意力块来组合不同Embedding之间的特征；具体包括以下步骤：

(6)

(7)

(8)

(9)

(10)

其中，公式（6）（7）表示了自注意力操作的过程，

，表示线性映射的权重，

表示对嵌入向量

做线性映射；最后输出

。

组合起来，作为超分辨解码器的输入，然后使用残差块和卷积层对特征进行解码，得到最终的超分辨图像。具体包括以下步骤：

(11)

其中

表示级联操作；目的是把

按照指定维度拼接起来。

在本发明的描述中，术语“多个”则指两个或两个以上，除非另有明确的限定，术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制；术语“连接”、“安装”、“固定”等均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。