CN113191953B - 一种基于Transformer的人脸图像超分辨的方法 - Google Patents

一种基于Transformer的人脸图像超分辨的方法 Download PDF

Info

Publication number
CN113191953B
CN113191953B CN202110623438.5A CN202110623438A CN113191953B CN 113191953 B CN113191953 B CN 113191953B CN 202110623438 A CN202110623438 A CN 202110623438A CN 113191953 B CN113191953 B CN 113191953B
Authority
CN
China
Prior art keywords
image
resolution
super
block
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110623438.5A
Other languages
English (en)
Other versions
CN113191953A (zh
Inventor
蹇木伟
王芮
王星
举雅琨
陈吉
陈振学
傅德谦
张问银
黄振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Linyi University
Shandong University of Finance and Economics
Original Assignee
Linyi University
Shandong University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Linyi University, Shandong University of Finance and Economics filed Critical Linyi University
Priority to CN202110623438.5A priority Critical patent/CN113191953B/zh
Publication of CN113191953A publication Critical patent/CN113191953A/zh
Application granted granted Critical
Publication of CN113191953B publication Critical patent/CN113191953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明提供了一种基于Transformer的端到端的人脸超分辨方法,包括S1:数据预处理,获取图像块序列;S2:利用卷积神经网络作为编码器提取图像局部特征;S3:基于Transformer的encoder模块,利用自注意力机制,根据图像块序列提取全局远程特征;S4:结合全局与局部特征,实现一种端到端的人脸超分辨方法。通过本发明的技术方案,本发明内容主要包括两部分,一是对二维图像处理,利用自注意力机制提取图像序列的非局部远程依赖信息;二是同时利用卷积操作所提取的局部特征,二者结合作为超分辨解码器的输入,目的是在增强图像特征的同时,利用端到端的学习方式,实现模型训练复杂度的降低。

Description

一种基于Transformer的人脸图像超分辨的方法
技术领域
本发明涉及图像处理与人脸超分辨技术领域,具体而言,特别涉及一种基于Transformer的人脸图像超分辨的方法。
背景技术
人脸超分辨(人脸幻觉)是一种特定领域下的超分辨率问题,具体是通过超分辨技术增强输入低分辨率人脸的细节信息,进而推断或者恢复出其对应的高分辨人脸图像。众所周知,将人脸作为一种生物学特征,与其相关的应用在当下社会的应用十分广泛,如人脸识别系统、刑事侦查、娱乐等领域,但是受限于实际应用场景获取到或者是生成的人脸图像质量参差不齐,会不可避免的叠加一些图像噪声,从而使得人脸图像质量较差,于此同时人脸超分辨技术作为一种关键的数据处理、分析技术,可以极大的提高诸如人脸识别、人脸对齐等下游任务的性能,因此有必要对人脸超分辨技术展开充分的研究。
近年来,随着深度学习技术的发展,基于卷积神经网络(CNN)的超分辨技术受到广泛关注和应用。卷积神经网络中的卷积运算对视觉特征的学习和提取任务显著有效,其利用权值共享机制,使得卷积层所提取的特征具有平移不变性;但也是由于卷积算子中卷积核尺寸的限制,使得CNN缺乏对输入数据的全局信息的敏感性,因此卷积的特征图只能关注到局部信息,导致难以捕捉和存储全局数据的长距离的依赖特征。就人脸图像来说,其与自然图像相比具有高度结构化的特性,也就是说人脸面部组件之间是具备一定的相关性的。比如,CNN的卷积层可以有效地提取出皮肤颜色、眼睛大小、鼻子的形状等局部图像特征,但“鼻子在嘴巴上面”、“眉毛和眼睛之间的距离”这种远程相关特征其无法使用多个卷积核来捕捉。在自然语言处理任务中快速发展的Transformer模块中的自注意力机制可以有效克服卷积归纳偏差所带来的局限性,因此,为了利用人脸组件之间的信息,对非局部成分进行学习和推理,以获取人脸图像的远距离依赖关系,本发明提出了一种基于Transformer的端到端的人脸超分辨方法。
发明内容
为了弥补现有技术的不足,本发明提供了一种基于Transformer的人脸图像超分辨的方法。
本发明是通过如下技术方案实现的:一种基于Transformer的人脸图像超分辨的方法,其特征在于,具体包括以下步骤:
S1:数据预处理;首先将原始高分辨率RGB人脸图像通过Bicubic方法下采样得到低分辨率数据
Figure 820806DEST_PATH_IMAGE001
;然后将
Figure 804943DEST_PATH_IMAGE002
切割成N个固定大小的图像块
Figure 524637DEST_PATH_IMAGE003
S2: 构建CNN特征提取器,得到图像块的特征图,每一个块的输出特征是三维的张量,大小是
Figure 568816DEST_PATH_IMAGE004
;为了能够被输入到transformer中,在空间维度上展开为
Figure 373961DEST_PATH_IMAGE005
S3:根据每个图像块的位置索引,生成块级别上的可学习的位置编码c,其长度与
Figure 161789DEST_PATH_IMAGE006
相同,并被对应添加到
Figure 470410DEST_PATH_IMAGE006
中,记作嵌入向量
Figure 685491DEST_PATH_IMAGE007
,以保留图像块的位置信息;
S4:将嵌入向量
Figure 712353DEST_PATH_IMAGE007
作为输入序列馈入标准TransformerEncoder模块,编码器使用多个自注意力块来组合不同Embedding之间的特征;
S5:构造超分辨解码器,首先把transformer的encoder模块的输出和特征提取器的输出
Figure 303871DEST_PATH_IMAGE008
组合起来,作为超分辨解码器的输入,然后使用残差块和卷积层对特征进行解码,得到最终的超分辨图像。
作为优选方案,步骤S1中,具体包括以下步骤:
S1-1:构造高分辨率和低分辨率的人脸图像对,建立公式(1)如下:
Figure 732578DEST_PATH_IMAGE009
(1),
其中
Figure 118560DEST_PATH_IMAGE010
表示高分辨率人脸图像,
Figure 632718DEST_PATH_IMAGE001
表示对应的低分辨率图像,
Figure 762348DEST_PATH_IMAGE011
Bicubic插值算法;
S1-2:将RGB图像
Figure 45562DEST_PATH_IMAGE002
切割成N个固定大小的图像块
Figure 868025DEST_PATH_IMAGE003
;其中
Figure 603900DEST_PATH_IMAGE012
Figure 271641DEST_PATH_IMAGE013
,则
Figure 674941DEST_PATH_IMAGE014
作为优选方案,步骤S2中,具体包括以下步骤:
S2-1:构建图像特征提取器
Figure 668305DEST_PATH_IMAGE015
,其第一部分由卷积层、批标准化(batchnormalization)和ReLu操作组成,第二部分包括3个ResidualBlock。
S2-2:将图像块序列同步送入特征提取器
Figure 891475DEST_PATH_IMAGE015
,对应生成N个特征图
Figure 628487DEST_PATH_IMAGE016
,
Figure 620714DEST_PATH_IMAGE017
=1,…,N,其中
Figure 519400DEST_PATH_IMAGE018
表示网络通道数,
Figure 495446DEST_PATH_IMAGE019
表示输出特征图的大小,
Figure 770570DEST_PATH_IMAGE020
,
Figure 882882DEST_PATH_IMAGE017
=1,…,N(2);
S2-3:为了使图像的二维表示能够被输入到transformer的encoder模块中去,对特征图进行展平操作,记作
Figure 890153DEST_PATH_IMAGE021
作为优选方案,步骤S3中,具体包括以下步骤:
S3-1:使用原始的一维位置嵌入方法,将每个图像块的位置根据公式(3)(4)产生位置嵌入c
Figure 822336DEST_PATH_IMAGE022
Figure 901151DEST_PATH_IMAGE023
(3)
Figure 133549DEST_PATH_IMAGE024
(4)
其中,
Figure 374038DEST_PATH_IMAGE025
是指图像块在原始图像中的位置,取值范围是[0,N];
Figure 324676DEST_PATH_IMAGE026
表示特征图中的像素位置,即奇数位置的时候采用公式(3),反之使用公式(4);
S3-2:将可学习的位置嵌入c与图像块的嵌入向量
Figure 941602DEST_PATH_IMAGE006
结合,形成具备位置信息的嵌入向量
Figure 28507DEST_PATH_IMAGE027
,即
Figure 174317DEST_PATH_IMAGE028
c+
Figure 346673DEST_PATH_IMAGE006
(5)。
作为优选方案,步骤S4中,具体包括以下步骤:
S4-1:使用标准的TransformerEncoder架构,由一个多头自注意力模块(Multi-head self-attention)和一个前馈网络层(MLP)组成,并且在每个块之前都应用LayerNorm操作,在每个块之后都应用残差连接,其具体过程如下:
Figure 767290DEST_PATH_IMAGE029
(6)
Figure 708701DEST_PATH_IMAGE030
(7)
Figure 290992DEST_PATH_IMAGE031
(8)
Figure 950644DEST_PATH_IMAGE032
(9)
Figure 909372DEST_PATH_IMAGE033
(10)
其中,公式(6)(7)表示了自注意力操作的过程,
Figure 970869DEST_PATH_IMAGE034
,表示线性映射的权重,
Figure 989641DEST_PATH_IMAGE035
表示对嵌入向量
Figure 871009DEST_PATH_IMAGE007
做线性映射;最后输出
Figure 633429DEST_PATH_IMAGE036
作为优选方案,步骤S5中,具体包括以下步骤:
S5-1:将TransformerEncoder模块提取的全局信息与特征提取器所提取的局部特征组合起来,作为图像超分辨率解码器的输入,公式如下:
Figure 549432DEST_PATH_IMAGE037
(11)
其中
Figure 473526DEST_PATH_IMAGE038
表示级联操作;
S5-2:构造超分辨率解码器,首先通过标准的3×3的卷积-批标准化-ReLu流程来减少输入特征图的数量,接下来利用反卷积操作将特征图上采样到大小为128×128;然后设计3个与超分辨编码器相同的residualblock对特征进行解码;最后用一个卷积层来输出超分辨的结果。
本发明由于采用了以上技术方案,与现有技术相比使其具有以下有益效果:本发明内容主要包括两部分,一是提出探索人脸图像组件之间的远程依赖性,通过对人脸二维图像到图像块序列的转化,充分利用Transformerencoder模块中的自注意力机制的功能,实现对人脸图像全局信息的捕获;二是利用卷积神经网络挖掘图像局部特征的能力,实现人脸图像全局远距离特征与局部特征的结合,可大大增加模型超分辨的性能。另外,本发明整体上采用了端到端的训练方式,减少了工程学习的复杂度。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明的数据样本处理示例;
图2为基于Transformer的端到端的人脸超分辨流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面结合图1至图2对本发明的实施例的基于Transformer的人脸图像超分辨的方法进行具体说明。
如图1、图2所示,本发明提出了一种基于Transformer的人脸图像超分辨的方法,其特征在于,具体包括以下步骤:
S1:数据预处理;首先将原始高分辨率RGB人脸图像通过Bicubic方法下采样得到低分辨率数据
Figure 101910DEST_PATH_IMAGE001
;然后将
Figure 402442DEST_PATH_IMAGE002
切割成N个固定大小的图像块
Figure 172951DEST_PATH_IMAGE003
;具体包括以下步骤:
S1-1:构造高分辨率和低分辨率的人脸图像对,建立公式(1)如下:
Figure 267946DEST_PATH_IMAGE009
(1),
其中
Figure 123907DEST_PATH_IMAGE010
表示高分辨率人脸图像,
Figure 228129DEST_PATH_IMAGE001
表示对应的低分辨率图像,
Figure 118725DEST_PATH_IMAGE011
Bicubic插值算法;本发明中使用的
Figure 650200DEST_PATH_IMAGE001
的像素大小为32×32,目的是将其超分辨为128×128大小的高分辨率人脸图像,即
Figure 727878DEST_PATH_IMAGE010
作为groundtruth,其大小为128×128;
S1-2:将RGB图像
Figure 370212DEST_PATH_IMAGE002
切割成N个固定大小的图像块
Figure 115314DEST_PATH_IMAGE003
;其中
Figure 552111DEST_PATH_IMAGE012
Figure 382664DEST_PATH_IMAGE013
,则
Figure 828689DEST_PATH_IMAGE014
;若N=16,那么切割出每一个图像块
Figure 693877DEST_PATH_IMAGE003
的像素大小为8×8.即
Figure 567155DEST_PATH_IMAGE039
=3.
Figure 619424DEST_PATH_IMAGE040
=32.
Figure DEST_PATH_IMAGE041
=8. 如图1所示。
S2: 构建CNN特征提取器,得到图像块的特征图,每一个块的输出特征是三维的张量,大小是
Figure 337982DEST_PATH_IMAGE004
;为了能够被输入到transformer中,在空间维度上展开为
Figure 57676DEST_PATH_IMAGE005
;具体包括以下步骤:
S2-1:构建图像特征提取器
Figure 101855DEST_PATH_IMAGE015
,其第一部分由卷积层、批标准化(batchnormalization)和ReLu操作组成,第二部分包括3个ResidualBlock。
S2-2:将图像块序列同步送入特征提取器
Figure 641421DEST_PATH_IMAGE015
,对应生成N个特征图
Figure 429249DEST_PATH_IMAGE016
,
Figure 3449DEST_PATH_IMAGE017
=1,…,N,其中
Figure 952951DEST_PATH_IMAGE018
表示网络通道数,
Figure 245392DEST_PATH_IMAGE019
表示输出特征图的大小,
Figure 571331DEST_PATH_IMAGE020
,
Figure 265618DEST_PATH_IMAGE017
=1,…,N(2);
S2-3:为了使图像的二维表示能够被输入到transformer的encoder模块中去,对特征图进行展平操作,记作
Figure 651600DEST_PATH_IMAGE021
S3:根据每个图像块的位置索引,生成块级别上的可学习的位置编码c,其长度与
Figure 165757DEST_PATH_IMAGE006
相同,并被对应添加到
Figure 29808DEST_PATH_IMAGE006
中,记作嵌入向量
Figure 578601DEST_PATH_IMAGE007
,以保留图像块的位置信息;具体包括以下步骤:
S3-1:使用原始的一维位置嵌入方法,将每个图像块的位置根据公式(3)(4)产生位置嵌入c
Figure 135485DEST_PATH_IMAGE022
Figure 136939DEST_PATH_IMAGE023
(3)
Figure 70260DEST_PATH_IMAGE024
(4)
其中,
Figure 207980DEST_PATH_IMAGE025
是指图像块在原始图像中的位置,取值范围是[0,N];
Figure DEST_PATH_IMAGE043
表示特征图中的像素位置,即奇数位置的时候采用公式(3),反之使用公式(4);
S3-2:将可学习的位置嵌入c与图像块的嵌入向量
Figure 670185DEST_PATH_IMAGE006
结合,形成具备位置信息的嵌入向量
Figure 158935DEST_PATH_IMAGE027
,即
Figure 895947DEST_PATH_IMAGE028
c+
Figure 153753DEST_PATH_IMAGE006
(5)。
S4:将嵌入向量
Figure 52439DEST_PATH_IMAGE007
作为输入序列馈入标准TransformerEncoder模块,编码器使用多个自注意力块来组合不同Embedding之间的特征;具体包括以下步骤:
S4-1:使用标准的TransformerEncoder架构,由一个多头自注意力模块(Multi-head self-attention)和一个前馈网络层(MLP)组成,并且在每个块之前都应用LayerNorm操作,在每个块之后都应用残差连接,其具体过程如下:
Figure 28485DEST_PATH_IMAGE029
(6)
Figure 38030DEST_PATH_IMAGE030
(7)
Figure 150342DEST_PATH_IMAGE031
(8)
Figure 485509DEST_PATH_IMAGE032
(9)
Figure 683272DEST_PATH_IMAGE033
(10)
其中,公式(6)(7)表示了自注意力操作的过程,
Figure 762086DEST_PATH_IMAGE034
,表示线性映射的权重,
Figure 463326DEST_PATH_IMAGE035
表示对嵌入向量
Figure 969394DEST_PATH_IMAGE007
做线性映射;最后输出
Figure 654453DEST_PATH_IMAGE036
S5:构造超分辨解码器,首先把transformer的encoder模块的输出和特征提取器的输出
Figure 271379DEST_PATH_IMAGE008
组合起来,作为超分辨解码器的输入,然后使用残差块和卷积层对特征进行解码,得到最终的超分辨图像。具体包括以下步骤:
S5-1:将TransformerEncoder模块提取的全局信息与特征提取器所提取的局部特征组合起来,作为图像超分辨率解码器的输入,公式如下:
Figure 358284DEST_PATH_IMAGE037
(11)
其中
Figure 35253DEST_PATH_IMAGE038
表示级联操作;目的是把
Figure 207608DEST_PATH_IMAGE044
按照指定维度拼接起来。
S5-2:构造超分辨率解码器,首先通过标准的3×3的卷积-批标准化-ReLu流程来减少输入特征图的数量,接下来利用反卷积操作将特征图上采样到大小为128×128;然后设计3个与超分辨编码器相同的residualblock对特征进行解码;最后用一个卷积层来输出超分辨的结果。
在本发明的描述中,术语“多个”则指两个或两个以上,除非另有明确的限定,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于Transformer的人脸图像超分辨的方法,其特征在于,具体包括以下步骤:
S1:数据预处理;首先将原始高分辨率RGB人脸图像通过Bicubic方法下采样得到低分辨率数据
Figure 625676DEST_PATH_IMAGE001
;然后将
Figure 757580DEST_PATH_IMAGE001
均匀切割成N个固定大小的图像块
Figure 142294DEST_PATH_IMAGE002
S2: 构建CNN特征提取器,得到图像块的特征图,每一个块的输出特征是三维的张量,大小是
Figure 955529DEST_PATH_IMAGE003
;为了能够被输入到transformer中,在空间维度上展开为
Figure 250245DEST_PATH_IMAGE004
S3:根据每个图像块的位置索引,生成块级别上的可学习的位置编码c,其长度与
Figure 162837DEST_PATH_IMAGE005
相同,并被对应添加到
Figure 113475DEST_PATH_IMAGE005
中,记作嵌入向量
Figure 792718DEST_PATH_IMAGE006
,以保留图像块的位置信息;具体包括以下步骤:
S3-1:使用原始的一维位置嵌入方法,将每个图像块的位置根据公式(3)(4)产生位置嵌入c
Figure 346801DEST_PATH_IMAGE007
Figure 23770DEST_PATH_IMAGE008
(3)
Figure 868230DEST_PATH_IMAGE009
(4)
其中,
Figure 85584DEST_PATH_IMAGE010
是指图像块在原始图像中的位置,取值范围是[0,N];
Figure 292575DEST_PATH_IMAGE011
表示特征图中的像素位置,即奇数位置的时候采用公式(3),反之使用公式(4);
S3-2:将可学习的位置嵌入c与图像块的嵌入向量
Figure 61817DEST_PATH_IMAGE005
结合,形成具备位置信息的嵌入向量
Figure 518206DEST_PATH_IMAGE012
,即
Figure 476934DEST_PATH_IMAGE013
c+
Figure 476114DEST_PATH_IMAGE005
(5);
S4:将嵌入向量
Figure 291624DEST_PATH_IMAGE006
作为输入序列馈入标准TransformerEncoder模块,编码器使用多个自注意力块来组合不同Embedding之间的特征;具体包括以下步骤:
S4-1:使用标准的TransformerEncoder架构,由一个多头自注意力模块(Multi-headself-attention)和一个前馈网络层(MLP)组成,并且在每个块之前都应用LayerNorm操作,在每个块之后都应用残差连接,其具体过程如下:
Figure 438571DEST_PATH_IMAGE014
(6)
Figure 122362DEST_PATH_IMAGE015
(7)
Figure 38366DEST_PATH_IMAGE016
(8)
Figure 290356DEST_PATH_IMAGE017
(9)
Figure 596703DEST_PATH_IMAGE018
(10)
其中,公式(6)(7)表示了自注意力操作的过程,
Figure 897234DEST_PATH_IMAGE019
,表示线性映射的权重,
Figure 730061DEST_PATH_IMAGE020
表示对嵌入向量
Figure 90635DEST_PATH_IMAGE006
做线性映射;最后输出
Figure 133547DEST_PATH_IMAGE021
S5:构造超分辨解码器,首先把transformer的encoder模块的输出和特征提取器的输出
Figure 34507DEST_PATH_IMAGE022
组合起来,作为超分辨解码器的输入,然后使用残差块和卷积层对特征进行解码,得到最终的超分辨图像,具体包括以下步骤:
S5-1:将TransformerEncoder模块提取的全局信息与特征提取器所提取的局部特征组合起来,作为图像超分辨率解码器的输入,公式如下:
Figure 925102DEST_PATH_IMAGE023
(11)
其中
Figure 128682DEST_PATH_IMAGE024
表示级联操作;
S5-2:构造超分辨率解码器,首先通过标准的3×3的卷积-批标准化-ReLu流程来减少输入特征图的数量,接下来利用反卷积操作将特征图上采样到大小为128×128;然后设计3个与超分辨编码器相同的residualblock对特征进行解码;最后用一个卷积层来输出超分辨的结果。
2.根据权利要求1所述的一种基于Transformer的人脸图像超分辨的方法,其特征在于,所述步骤S1中,具体包括以下步骤:
S1-1:构造高分辨率和低分辨率的人脸图像对,建立公式(1)如下:
Figure 534255DEST_PATH_IMAGE025
(1),
其中
Figure 442168DEST_PATH_IMAGE026
表示高分辨率人脸图像,
Figure 111571DEST_PATH_IMAGE001
表示对应的低分辨率图像,
Figure 876265DEST_PATH_IMAGE027
Bicubic插值算法;
S1-2:将RGB图像
Figure 706818DEST_PATH_IMAGE028
切割成N个固定大小的图像块
Figure 824947DEST_PATH_IMAGE002
;其中
Figure 690134DEST_PATH_IMAGE029
Figure 360150DEST_PATH_IMAGE030
,则
Figure 864950DEST_PATH_IMAGE031
3.根据权利要求1所述的一种基于Transformer的人脸图像超分辨的方法,其特征在于,所述步骤S2中,具体包括以下步骤:
S2-1:构建图像特征提取器
Figure 849086DEST_PATH_IMAGE032
,其第一部分由卷积层、批标准化(batch normalization)和ReLu操作组成,第二部分包括3个ResidualBlock;
S2-2:将图像块序列同步送入特征提取器
Figure 631097DEST_PATH_IMAGE032
,对应生成N个特征图
Figure 347381DEST_PATH_IMAGE033
,
Figure 152526DEST_PATH_IMAGE034
=1,…,N,其中
Figure 2670DEST_PATH_IMAGE035
表示网络通道数,
Figure 576871DEST_PATH_IMAGE036
表示输出特征图的大小,
Figure 978902DEST_PATH_IMAGE037
,
Figure 802502DEST_PATH_IMAGE034
=1,…,N(2);
S2-3:为了使图像的二维表示能够被输入到transformer的encoder模块中去,对特征图进行展平操作,记作
Figure 394020DEST_PATH_IMAGE038
CN202110623438.5A 2021-06-04 2021-06-04 一种基于Transformer的人脸图像超分辨的方法 Active CN113191953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110623438.5A CN113191953B (zh) 2021-06-04 2021-06-04 一种基于Transformer的人脸图像超分辨的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110623438.5A CN113191953B (zh) 2021-06-04 2021-06-04 一种基于Transformer的人脸图像超分辨的方法

Publications (2)

Publication Number Publication Date
CN113191953A CN113191953A (zh) 2021-07-30
CN113191953B true CN113191953B (zh) 2022-02-18

Family

ID=76976210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110623438.5A Active CN113191953B (zh) 2021-06-04 2021-06-04 一种基于Transformer的人脸图像超分辨的方法

Country Status (1)

Country Link
CN (1) CN113191953B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705374A (zh) * 2021-08-10 2021-11-26 深圳市安软科技股份有限公司 基于深度学习的图像识别方法、装置及相关设备
CN113673420B (zh) * 2021-08-19 2022-02-15 清华大学 一种基于全局特征感知的目标检测方法及系统
TWI823143B (zh) * 2021-09-13 2023-11-21 美科實業股份有限公司 智慧頭皮屑檢測系統與方法
CN115880381A (zh) * 2021-09-28 2023-03-31 深圳市中兴微电子技术有限公司 图像处理方法、图像处理装置、模型训练方法
CN115375980B (zh) * 2022-06-30 2023-05-09 杭州电子科技大学 基于区块链的数字图像的存证系统及其存证方法
CN115205117B (zh) * 2022-07-04 2024-03-08 中国电信股份有限公司 图像重建方法及装置、计算机存储介质、电子设备
CN115311730B (zh) * 2022-09-23 2023-06-20 北京智源人工智能研究院 一种人脸关键点的检测方法、系统和电子设备
CN116664397B (zh) * 2023-04-19 2023-11-10 太原理工大学 TransSR-Net结构化图像超分辨重建方法
CN116206114B (zh) * 2023-04-28 2023-08-01 成都云栈科技有限公司 一种复杂背景下人像提取方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288626A (zh) * 2020-10-10 2021-01-29 武汉大学 一种基于双路径深度融合的人脸幻构方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276707B (zh) * 2018-03-16 2023-06-23 临沂大学 一种图像数据保护和篡改检测技术方案
CN112446826A (zh) * 2019-09-03 2021-03-05 联咏科技股份有限公司 用于图像超分辨率、图像增强及模型训练的方法及装置
CN112734642B (zh) * 2021-01-12 2023-03-10 武汉工程大学 多尺度纹理转移残差网络的遥感卫星超分辨率方法及装置
CN112862690B (zh) * 2021-03-09 2022-08-30 湖北工业大学 一种基于Transformers的低分辨率图像超分辨方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288626A (zh) * 2020-10-10 2021-01-29 武汉大学 一种基于双路径深度融合的人脸幻构方法及系统

Also Published As

Publication number Publication date
CN113191953A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN113191953B (zh) 一种基于Transformer的人脸图像超分辨的方法
Zhang et al. Color demosaicking by local directional interpolation and nonlocal adaptive thresholding
CN109741260A (zh) 一种基于深度反投影网络的高效超分辨率方法
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN109064396A (zh) 一种基于深度成分学习网络的单幅图像超分辨率重建方法
CN107067380B (zh) 基于低秩张量和层次化字典学习的高分辨率图像重构方法
CN105793891A (zh) 用于确定高分辨率输出图像的方法和设备
CN109636721B (zh) 基于对抗学习和注意力机制的视频超分辨率方法
CN111626927B (zh) 采用视差约束的双目图像超分辨率方法、系统及装置
CN111340696B (zh) 融合仿生视觉机制的卷积神经网络图像超分辨率重建方法
Guan et al. Srdgan: learning the noise prior for super resolution with dual generative adversarial networks
CN110490797A (zh) 一种基于双流深层卷积网络的深度图像超分辨率重建方法
CN113792641A (zh) 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法
CN115546505A (zh) 一种基于深度学习的无监督单目图像深度估计方法
CN113379606B (zh) 一种基于预训练生成模型的人脸超分辨方法
CN116957931A (zh) 一种基于神经辐射场的相机图像画质提升方法
Zhou et al. AIF-LFNet: All-in-focus light field super-resolution method considering the depth-varying defocus
CN114359041A (zh) 一种光场图像空间超分辨率重建方法
CN116343052B (zh) 一种基于注意力和多尺度的双时相遥感图像变化检测网络
CN117274059A (zh) 基于图像编码-解码的低分辨率图像重构方法及其系统
CN112598604A (zh) 一种盲脸复原方法及系统
CN117314808A (zh) 一种结合Transformer与CNN双编码器的红外与可见光图像融合方法
CN117315241A (zh) 一种基于transformer结构的场景图像语义分割方法
CN111080533A (zh) 一种基于自监督残差感知网络的数码变焦方法
CN116703725A (zh) 感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant