CN113191953B - 一种基于Transformer的人脸图像超分辨的方法 - Google Patents
一种基于Transformer的人脸图像超分辨的方法 Download PDFInfo
- Publication number
- CN113191953B CN113191953B CN202110623438.5A CN202110623438A CN113191953B CN 113191953 B CN113191953 B CN 113191953B CN 202110623438 A CN202110623438 A CN 202110623438A CN 113191953 B CN113191953 B CN 113191953B
- Authority
- CN
- China
- Prior art keywords
- image
- resolution
- super
- block
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 9
- 230000007246 mechanism Effects 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 3
- 238000012549 training Methods 0.000 abstract description 2
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
本发明提供了一种基于Transformer的端到端的人脸超分辨方法,包括S1:数据预处理,获取图像块序列;S2:利用卷积神经网络作为编码器提取图像局部特征;S3:基于Transformer的encoder模块,利用自注意力机制,根据图像块序列提取全局远程特征;S4:结合全局与局部特征,实现一种端到端的人脸超分辨方法。通过本发明的技术方案,本发明内容主要包括两部分,一是对二维图像处理,利用自注意力机制提取图像序列的非局部远程依赖信息;二是同时利用卷积操作所提取的局部特征,二者结合作为超分辨解码器的输入,目的是在增强图像特征的同时,利用端到端的学习方式,实现模型训练复杂度的降低。
Description
技术领域
本发明涉及图像处理与人脸超分辨技术领域,具体而言,特别涉及一种基于Transformer的人脸图像超分辨的方法。
背景技术
人脸超分辨(人脸幻觉)是一种特定领域下的超分辨率问题,具体是通过超分辨技术增强输入低分辨率人脸的细节信息,进而推断或者恢复出其对应的高分辨人脸图像。众所周知,将人脸作为一种生物学特征,与其相关的应用在当下社会的应用十分广泛,如人脸识别系统、刑事侦查、娱乐等领域,但是受限于实际应用场景获取到或者是生成的人脸图像质量参差不齐,会不可避免的叠加一些图像噪声,从而使得人脸图像质量较差,于此同时人脸超分辨技术作为一种关键的数据处理、分析技术,可以极大的提高诸如人脸识别、人脸对齐等下游任务的性能,因此有必要对人脸超分辨技术展开充分的研究。
近年来,随着深度学习技术的发展,基于卷积神经网络(CNN)的超分辨技术受到广泛关注和应用。卷积神经网络中的卷积运算对视觉特征的学习和提取任务显著有效,其利用权值共享机制,使得卷积层所提取的特征具有平移不变性;但也是由于卷积算子中卷积核尺寸的限制,使得CNN缺乏对输入数据的全局信息的敏感性,因此卷积的特征图只能关注到局部信息,导致难以捕捉和存储全局数据的长距离的依赖特征。就人脸图像来说,其与自然图像相比具有高度结构化的特性,也就是说人脸面部组件之间是具备一定的相关性的。比如,CNN的卷积层可以有效地提取出皮肤颜色、眼睛大小、鼻子的形状等局部图像特征,但“鼻子在嘴巴上面”、“眉毛和眼睛之间的距离”这种远程相关特征其无法使用多个卷积核来捕捉。在自然语言处理任务中快速发展的Transformer模块中的自注意力机制可以有效克服卷积归纳偏差所带来的局限性,因此,为了利用人脸组件之间的信息,对非局部成分进行学习和推理,以获取人脸图像的远距离依赖关系,本发明提出了一种基于Transformer的端到端的人脸超分辨方法。
发明内容
为了弥补现有技术的不足,本发明提供了一种基于Transformer的人脸图像超分辨的方法。
本发明是通过如下技术方案实现的:一种基于Transformer的人脸图像超分辨的方法,其特征在于,具体包括以下步骤:
作为优选方案,步骤S1中,具体包括以下步骤:
S1-1:构造高分辨率和低分辨率的人脸图像对,建立公式(1)如下:
作为优选方案,步骤S2中,具体包括以下步骤:
作为优选方案,步骤S3中,具体包括以下步骤:
作为优选方案,步骤S4中,具体包括以下步骤:
S4-1:使用标准的TransformerEncoder架构,由一个多头自注意力模块(Multi-head self-attention)和一个前馈网络层(MLP)组成,并且在每个块之前都应用LayerNorm操作,在每个块之后都应用残差连接,其具体过程如下:
作为优选方案,步骤S5中,具体包括以下步骤:
S5-1:将TransformerEncoder模块提取的全局信息与特征提取器所提取的局部特征组合起来,作为图像超分辨率解码器的输入,公式如下:
S5-2:构造超分辨率解码器,首先通过标准的3×3的卷积-批标准化-ReLu流程来减少输入特征图的数量,接下来利用反卷积操作将特征图上采样到大小为128×128;然后设计3个与超分辨编码器相同的residualblock对特征进行解码;最后用一个卷积层来输出超分辨的结果。
本发明由于采用了以上技术方案,与现有技术相比使其具有以下有益效果:本发明内容主要包括两部分,一是提出探索人脸图像组件之间的远程依赖性,通过对人脸二维图像到图像块序列的转化,充分利用Transformerencoder模块中的自注意力机制的功能,实现对人脸图像全局信息的捕获;二是利用卷积神经网络挖掘图像局部特征的能力,实现人脸图像全局远距离特征与局部特征的结合,可大大增加模型超分辨的性能。另外,本发明整体上采用了端到端的训练方式,减少了工程学习的复杂度。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明的数据样本处理示例;
图2为基于Transformer的端到端的人脸超分辨流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面结合图1至图2对本发明的实施例的基于Transformer的人脸图像超分辨的方法进行具体说明。
如图1、图2所示,本发明提出了一种基于Transformer的人脸图像超分辨的方法,其特征在于,具体包括以下步骤:
S1-1:构造高分辨率和低分辨率的人脸图像对,建立公式(1)如下:
其中表示高分辨率人脸图像,表示对应的低分辨率图像,Bicubic插值算法;本发明中使用的的像素大小为32×32,目的是将其超分辨为128×128大小的高分辨率人脸图像,即作为groundtruth,其大小为128×128;
S4-1:使用标准的TransformerEncoder架构,由一个多头自注意力模块(Multi-head self-attention)和一个前馈网络层(MLP)组成,并且在每个块之前都应用LayerNorm操作,在每个块之后都应用残差连接,其具体过程如下:
S5:构造超分辨解码器,首先把transformer的encoder模块的输出和特征提取器的输出组合起来,作为超分辨解码器的输入,然后使用残差块和卷积层对特征进行解码,得到最终的超分辨图像。具体包括以下步骤:
S5-1:将TransformerEncoder模块提取的全局信息与特征提取器所提取的局部特征组合起来,作为图像超分辨率解码器的输入,公式如下:
S5-2:构造超分辨率解码器,首先通过标准的3×3的卷积-批标准化-ReLu流程来减少输入特征图的数量,接下来利用反卷积操作将特征图上采样到大小为128×128;然后设计3个与超分辨编码器相同的residualblock对特征进行解码;最后用一个卷积层来输出超分辨的结果。
在本发明的描述中,术语“多个”则指两个或两个以上,除非另有明确的限定,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于Transformer的人脸图像超分辨的方法,其特征在于,具体包括以下步骤:
S4-1:使用标准的TransformerEncoder架构,由一个多头自注意力模块(Multi-headself-attention)和一个前馈网络层(MLP)组成,并且在每个块之前都应用LayerNorm操作,在每个块之后都应用残差连接,其具体过程如下:
S5:构造超分辨解码器,首先把transformer的encoder模块的输出和特征提取器的输出组合起来,作为超分辨解码器的输入,然后使用残差块和卷积层对特征进行解码,得到最终的超分辨图像,具体包括以下步骤:
S5-1:将TransformerEncoder模块提取的全局信息与特征提取器所提取的局部特征组合起来,作为图像超分辨率解码器的输入,公式如下:
S5-2:构造超分辨率解码器,首先通过标准的3×3的卷积-批标准化-ReLu流程来减少输入特征图的数量,接下来利用反卷积操作将特征图上采样到大小为128×128;然后设计3个与超分辨编码器相同的residualblock对特征进行解码;最后用一个卷积层来输出超分辨的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110623438.5A CN113191953B (zh) | 2021-06-04 | 2021-06-04 | 一种基于Transformer的人脸图像超分辨的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110623438.5A CN113191953B (zh) | 2021-06-04 | 2021-06-04 | 一种基于Transformer的人脸图像超分辨的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113191953A CN113191953A (zh) | 2021-07-30 |
CN113191953B true CN113191953B (zh) | 2022-02-18 |
Family
ID=76976210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110623438.5A Active CN113191953B (zh) | 2021-06-04 | 2021-06-04 | 一种基于Transformer的人脸图像超分辨的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113191953B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705374A (zh) * | 2021-08-10 | 2021-11-26 | 深圳市安软科技股份有限公司 | 基于深度学习的图像识别方法、装置及相关设备 |
CN113673420B (zh) * | 2021-08-19 | 2022-02-15 | 清华大学 | 一种基于全局特征感知的目标检测方法及系统 |
TWI823143B (zh) * | 2021-09-13 | 2023-11-21 | 美科實業股份有限公司 | 智慧頭皮屑檢測系統與方法 |
CN115880381A (zh) * | 2021-09-28 | 2023-03-31 | 深圳市中兴微电子技术有限公司 | 图像处理方法、图像处理装置、模型训练方法 |
CN115375980B (zh) * | 2022-06-30 | 2023-05-09 | 杭州电子科技大学 | 基于区块链的数字图像的存证系统及其存证方法 |
CN115205117B (zh) * | 2022-07-04 | 2024-03-08 | 中国电信股份有限公司 | 图像重建方法及装置、计算机存储介质、电子设备 |
CN115311730B (zh) * | 2022-09-23 | 2023-06-20 | 北京智源人工智能研究院 | 一种人脸关键点的检测方法、系统和电子设备 |
CN116664397B (zh) * | 2023-04-19 | 2023-11-10 | 太原理工大学 | TransSR-Net结构化图像超分辨重建方法 |
CN116206114B (zh) * | 2023-04-28 | 2023-08-01 | 成都云栈科技有限公司 | 一种复杂背景下人像提取方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112288626A (zh) * | 2020-10-10 | 2021-01-29 | 武汉大学 | 一种基于双路径深度融合的人脸幻构方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276707B (zh) * | 2018-03-16 | 2023-06-23 | 临沂大学 | 一种图像数据保护和篡改检测技术方案 |
CN112446826A (zh) * | 2019-09-03 | 2021-03-05 | 联咏科技股份有限公司 | 用于图像超分辨率、图像增强及模型训练的方法及装置 |
CN112734642B (zh) * | 2021-01-12 | 2023-03-10 | 武汉工程大学 | 多尺度纹理转移残差网络的遥感卫星超分辨率方法及装置 |
CN112862690B (zh) * | 2021-03-09 | 2022-08-30 | 湖北工业大学 | 一种基于Transformers的低分辨率图像超分辨方法及系统 |
-
2021
- 2021-06-04 CN CN202110623438.5A patent/CN113191953B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112288626A (zh) * | 2020-10-10 | 2021-01-29 | 武汉大学 | 一种基于双路径深度融合的人脸幻构方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113191953A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113191953B (zh) | 一种基于Transformer的人脸图像超分辨的方法 | |
Zhang et al. | Color demosaicking by local directional interpolation and nonlocal adaptive thresholding | |
CN109741260A (zh) | 一种基于深度反投影网络的高效超分辨率方法 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN109064396A (zh) | 一种基于深度成分学习网络的单幅图像超分辨率重建方法 | |
CN107067380B (zh) | 基于低秩张量和层次化字典学习的高分辨率图像重构方法 | |
CN105793891A (zh) | 用于确定高分辨率输出图像的方法和设备 | |
CN109636721B (zh) | 基于对抗学习和注意力机制的视频超分辨率方法 | |
CN111626927B (zh) | 采用视差约束的双目图像超分辨率方法、系统及装置 | |
CN111340696B (zh) | 融合仿生视觉机制的卷积神经网络图像超分辨率重建方法 | |
Guan et al. | Srdgan: learning the noise prior for super resolution with dual generative adversarial networks | |
CN110490797A (zh) | 一种基于双流深层卷积网络的深度图像超分辨率重建方法 | |
CN113792641A (zh) | 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法 | |
CN115546505A (zh) | 一种基于深度学习的无监督单目图像深度估计方法 | |
CN113379606B (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
CN116957931A (zh) | 一种基于神经辐射场的相机图像画质提升方法 | |
Zhou et al. | AIF-LFNet: All-in-focus light field super-resolution method considering the depth-varying defocus | |
CN114359041A (zh) | 一种光场图像空间超分辨率重建方法 | |
CN116343052B (zh) | 一种基于注意力和多尺度的双时相遥感图像变化检测网络 | |
CN117274059A (zh) | 基于图像编码-解码的低分辨率图像重构方法及其系统 | |
CN112598604A (zh) | 一种盲脸复原方法及系统 | |
CN117314808A (zh) | 一种结合Transformer与CNN双编码器的红外与可见光图像融合方法 | |
CN117315241A (zh) | 一种基于transformer结构的场景图像语义分割方法 | |
CN111080533A (zh) | 一种基于自监督残差感知网络的数码变焦方法 | |
CN116703725A (zh) | 感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |