CN115619685A - 一种用于图像修复的追踪结构的Transformer方法 - Google Patents
一种用于图像修复的追踪结构的Transformer方法 Download PDFInfo
- Publication number
- CN115619685A CN115619685A CN202211394375.1A CN202211394375A CN115619685A CN 115619685 A CN115619685 A CN 115619685A CN 202211394375 A CN202211394375 A CN 202211394375A CN 115619685 A CN115619685 A CN 115619685A
- Authority
- CN
- China
- Prior art keywords
- attention
- image
- channel
- texture
- structural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 230000001360 synchronised effect Effects 0.000 claims abstract description 21
- 238000013461 design Methods 0.000 claims abstract description 9
- 230000003993 interaction Effects 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 230000007246 mechanism Effects 0.000 claims description 11
- 230000000007 visual effect Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 9
- 230000000295 complement effect Effects 0.000 claims description 9
- 239000003550 marker Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000007547 defect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000011084 recovery Methods 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims 1
- 238000012549 training Methods 0.000 abstract description 3
- 230000008439 repair process Effects 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/40—Image enhancement or restoration using histogram techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种用于图像修复的追踪结构的Transformer方法,本发明设计了一个用于图像修复的端到端跟踪结构Transformer(TSFormer),其中包括结构增强模块(SEM)和同步追踪双轴Transformer(STT),在SEM中,本专利将Edge和定向梯度直方图HOG作为结构特征,用于辅助STT网络,通过利用该模块在缺失区域中生成边缘(Edge)和定向梯度(HOG)特征的直方图作为草图张量空间,在图像修复任务中利用Edge与HOG特征,为局部子区域提供梯度方向或边缘方向分布;因此,设计了一个同步追踪双轴Transformer(STT),用于统一特征提取和结构特征融合,采用增量训练策略将有效的结构信息动态传递给修复模型,设计了一个低复杂度的通道空间双轴注意力模块,用于并行捕获通道和空间交互,建立远程关系,可以应用于具有线性复杂度的整个骨干网络。
Description
技术领域
本发明涉及基于深度学习的图像修复方法技术领域,具体为一种用于图像修复的追踪结构的Transformer方法。
背景技术
图像修复是一项基本的低级视觉任务,其主要目标是填充图像的缺失区域,同时使恢复的图像在语义上合适且视觉上令人愉悦。它被广泛应用于许多实际场景中,例如物体去除、照片编辑和图像恢复。传统方法通过从已知区域搜索相似的补丁来构建图像来解决这一具有挑战性的任务,但仅仅通过这种方式,很难修复大面积缺失的图像,并且当面对的图像场景较为复杂时,它也难以生成语义合理的图像。
近年来,卷积神经网络(CNN)通过在大规模数据集上进行训练,在理解图像丰富的高级特征方面显示出其优势。然而,CNN模型的性能仍然存在瓶颈:1)卷积操作的局部归纳先验和空间不变核使得难以恢复图像的整体结构。2)先前利用结构信息的方法从孤立的角度看待结构特征与后续特征提取之间的融合,使得难以传达全局一致的互补信息以相互帮助。3)一些开创性的工作利用注意力机制来模拟长期依赖关系来解决这些问题。然而,注意力机制仅适用于相对较小的潜在特征图,其中模型的远程建模能力没有得到充分考虑。
对比注意力机制在CNN中的应用,Transformer是一种解决远程建模问题的自然架构,最近的进展利用Transformer架构进行图像修复任务。尽管如此,考虑到Transformer需要巨大的内存占用。现有的工作仍然依赖于CNN进行一般特征提取,仅使用Transformer进行高维空间表达,因此恢复的图像结构和纹理粗糙,仍未建立完整的远程交互。
基于以上问题,本发明提出了一种用于图像修复的追踪结构的Transformer方法。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种用于图像修复的追踪结构的Transformer方法,解决了上述背景技术中所述的问题。
(二)技术方案
为实现上述背景技术中所述问题的目的,本发明提供如下技术方案:一种用于图像修复的追踪结构的Transformer方法,该追踪结构的Transformer对于图像修复方法包含以下步骤:
S1:令为真实图像,M∈{0,1}H×W×1为掩码(缺失区域为0,否则为1),Iin=Igt⊙M表示损坏的图像,Ym=Ygt⊙M、Hm=Hgt⊙M和Em=Egt⊙M分别表示缺失的灰色、HOG和Canny Edge图像;
S2:将上述三幅图像拼接后输入到SEM中,得到恢复的边缘Eout和Hout特征作为草图空间向量,公式为[Eout,Hout]=SANet(Em,Hm,Ym);
S3:STT将受损图像Iin、恢复结构图像Hout和Eout连接起来,最终生成输出图像Iout,公式为Iout=STT(Iin,Hout,Eout),通道C=24。
优选的,所述S2中,结构增强模块(SEM)恢复图像边缘和HOG作为核心STT的辅助结构特征,输入的缺失的灰度图像Ym、HOG图像Hm和Canny边缘Em,应用卷积头来生成1/8大小的特征图,减少标准自注意力的计算量,基于通道的自注意力在低分辨率特征空间中捕获全局结构信息,卷积尾部采用转置卷积将这些特征上采样到输出结构Eout和Hout,来优化预测的草图结构:
其中Egt和Hgt分别是完整的边缘Edge和HOG图像,分别使用二元交叉熵(BCE)和l1损失来重建完整的边缘Edge和HOG特征,实验中取λh=0.1,
HOG在子区域内雕刻梯度方向和边缘方向的分布,通过减去相邻像素(梯度滤波)来实现,主要特性是捕捉局部形状和外观,对几何变化保持良好的鲁棒性,即使不精确了解相应的梯度和边缘位置,HOG也可以很好地表征局部对象的外观和形状。
优选的,所述S3中,提出的同步追踪双轴Transformer(STT)是一种遵循编码器解码器风格的U-Net架构,结构信息有助于图像修复早期的初步轮廓恢复,设计了具有24个基本Transformer块的编码器,每个块由一个结构-纹理跨注意模块(STCM)组成,其图像补全流包括一个通道空间双轴注意模块(CSPC),设计了具有20个基本Transformer块的解码器,每个块仅包含CSPC。
优选的,所述STCM的说明为:恢复的结构特征包含完整的梯度分布和边缘方向,设计了STCM(STT的关键组件),可以分别同步捕获对结构和纹理的远程依赖,除了self-attention,STCM引入了cross-attention方式,通过追踪结构来指导纹理提取,Iin、Eout和Hout表示STCM的输入,与原始的多头注意力模块不同,STCM在两个单独的流上执行双路径注意力操作:图像完成流和结构目标流,对于图像补全流,设计了一个通道空间双轴注意力模块来捕捉通道和空间之间的相关性,STCM可以对每个流执行自注意力以捕获纹理和特定于目标的结构,STCM对两个流执行交叉注意力以融合它们的交互信息,
将Iin编码为图像补全流的纹理标记,将Eout和Hout编码为结构目标流的结构标记,在每个特征图上执行轻量级深度卷积投影,与基于补丁的MLP嵌入方法不同,这种轻量级卷积可以为变压器提供有用的局部感知偏置,分别对查询、键和值嵌入应用3×3深度卷积,将Qt、Kt和Vt表示为待完成的纹理,Qs、Ks和Vs表示为目标结构,将结构信息从结构目标流传输到图像补全流,提出了一种残差加的方法来实现交叉注意,其定义为:
Kc=αKs+Kt (2)
Vc=βVs+Vt (3)
其中α和β是可学习的缩放参数,用于控制融合速率,
利用结构目标流来提高图像补全流的性能,交叉注意公式如下:
Attentiont(Qt,Kc,Vc)=Vc·Softmax(Kc·Qt/μt) (4)
Attentions(Qs,Ks,Vs)=Vs·Softmax(Ks·Qs/μs) (5)
其中μt和μs是可学习的缩放参数,Attentiont和Attentions分别是结构目标流和图像补全流的注意力图;
将纹理标记和结构标记连接起来并输入到前馈网络中,下一轮的输入,得到的特征根据通道分为结构特征和纹理特征两部分。
优选的,所述CSPC的说明为:通道空间两轴注意力模块(CSPC):有效地融合来自通道和空间的信息,设计了一个通道空间两轴注意力模块;将逐通道注意力和空间窗口注意力结合起来,形成双轴self-attention机制,给定一个输入特征,将其按通道分为两部分,在通道的轴上,跨通道执行自我注意,该逐通道自注意力可以定义为:
在空间轴上,使用空间窗口注意力来捕获空间依赖性,窗口是通过以非重叠方式等分图像来获得的,假设有Nw个不同的窗口,每个窗口包含Pw个补丁,得到补丁的总数:P=Pw*Nw空间窗口注意力可以定义为:
X=Concat(Xst,Xch,Xsp) (8)
其中Wp(·)表示1×1逐点卷积,Wd(·)表示3×3逐深度卷积,⊙是逐元素乘法,LN是层归一化,⊙是卷积层的两条平行路径的元素乘积,前馈网络可以混合不同的特征并控制各个层级的信息流,允许每个层级专注于补充其他层级的细节。
优选的,所述一种用于图像修复的追踪结构的Transformer方法核心目标是设计一个跟踪结构变换器(TSFormer),允许同步提取结构和纹理特征,其中纹理是通过跟踪结构来提取,修复的图像在结构和纹理上具有一致性,避免了孔边界处的非重叠伪影,提出了一种新颖的同步自注意力方法来并行提取纹理和结构,同时提出了一种交叉注意力方法来允许它们交互,所提出的TSFormer的总体框架由两个网络组成:结构增强模块(SEM)和同步跟踪双轴Transformer(STT),SEM旨在恢复图像结构,包括边缘和定向梯度(HOG)特征的直方图,提出的核心网络(STT)包括结构-纹理同步注意模块和通道空间双轴注意模块。
优选的,所述一个跟踪结构Transformer(TSFormer),它包括三个核心设计,考虑到定向梯度直方图(HOG)可以雕刻局部子区域的梯度方向分布和边缘方向,首先在图像修复中引入HOG,并构建结构增强模块(SEM)来恢复草图空间中的整体图像边缘和HOG,再次提出一个结构纹理跨注意模块(STCM)旨在跟踪图像结构并执行固有通信,允许特征提取更具体到结构目标,提出了一种门控机制来动态传输结构信息,在同步模块中,提出了一种新颖的通道空间双轴注意力模块(CSPC),以允许有效地共同学习通道和空间视觉线索。
优选的,所述一个跟踪结构Transformer(TSFormer),其中包括结构增强模块(SEM)和同步追踪双轴Transformer(STT),在SEM,将Edge和定向梯度直方图(HOG)作为结构特征,用于辅助STT网络,在STT网络中,提出一个结构纹理跨注意模块(STCM)旨在跟踪图像结构并执行固有通信,允许特征提取更具体到结构目标,并且在同步模块中,提出了一种新颖的通道空间双轴注意力模块(CSPC),以允许有效地共同学习通道和空间视觉线索。
本发明要解决的另一技术问题是提供追踪结构的Transformer对于图像修复方法,包括以下步骤:
S1:令为真实图像,M∈{0,1}H×W×1为掩码(缺失区域为0,否则为1),Iin=Igt⊙M表示损坏的图像,Ym=Ygt⊙M、Hm=Hgt⊙M和Em=Egt⊙M分别表示缺失的灰色、HOG和Canny Edge图像;
S2:将上述三幅图像拼接后输入到SEM中,得到恢复的边缘Eout和Hout特征作为草图空间向量,公式为[Eout,Hout]=SEM(Em,Hm,Ym);
结构增强模块(SEM)恢复图像边缘和HOG作为核心STT的辅助结构特征,输入的缺失的灰度图像Ym、HOG图像Hm和Canny边缘Em,应用卷积头来生成1/8大小的特征图,减少标准自注意力的计算量,基于通道的自注意力在低分辨率特征空间中捕获全局结构信息,卷积尾部采用转置卷积将这些特征上采样到输出结构Eout和Hout,来优化预测的草图结构:
其中Egt和Hgt分别是完整的边缘Edge和HOG图像,分别使用二元交叉熵(BCE)和l1损失来重建精明边缘Edge和HOG特征,实验中取λh=0.1,
HOG在子区域内雕刻梯度方向和边缘方向的分布,通过减去相邻像素(梯度滤波)来实现,主要特性是捕捉局部形状和外观,对几何变化保持良好的鲁棒性,即使不精确了解相应的梯度和边缘位置,HOG也可以很好地表征局部对象的外观和形状;
S3:STT将受损图像Iin、恢复结构图像Hout和Eout连接起来,最终生成输出图像Iout,公式为Iout=STT(Iin,Hout,Eout),通道C=24;提出的同步追踪双轴Transformer(STT)是一种遵循编码器解码器风格的U-Net架构,结构信息有助于图像修复早期的初步轮廓恢复,设计了具有24个基本Transformer块的编码器,每个块由一个结构-纹理跨注意模块(STCM)组成,其图像完成流包括一个通道空间双轴注意模块(CSPC),设计了具有20个基本Transformer块的解码器,每个块仅包含CSPC;所述STCM的说明为:恢复的结构特征包含完整的梯度分布和边缘方向,设计了STCM(STT的关键组件),可以分别同步捕获对结构和纹理的远程依赖,除了self-attention,STCM引入了cross-attention方式,通过追踪结构来指导纹理提取,Iin、Eout和Hout表示STCM的输入,与原始的多头注意力模块不同,STCM在两个单独的流上执行双路径注意力操作:图像完成流和结构目标流,对于图像补全流,设计了一个通道空间双轴注意力模块来捕捉通道和空间之间的相关性,STCM可以对每个流执行自注意力以捕获纹理和特定于目标的结构,STCM对两个流执行交叉注意力以融合它们的交互信息,
将Iin编码为图像补全流的纹理标记,将Eout和Hout编码为结构目标流的结构标记,在每个特征图上执行轻量级深度卷积投影,与基于补丁的MLP嵌入方法不同,这种轻量级卷积可以为变压器提供有用的局部感知偏置,分别对查询、键和值嵌入应用3×3深度卷积,将Qt、Kt和Vt表示为待完成的纹理,Qs、Ks和Vs表示为目标结构,将结构信息从结构目标流传输到图像补全流,提出了一种残差加的方法来实现交叉注意,其定义为:
Kc=αKs+Kt (2)
Vc=βVs+Vt (3)
其中α和β是可学习的缩放参数,用于控制融合速率,
利用结构目标流来提高图像补全流的性能,交叉注意公式如下:
Attentiont(Qt,Kc,Vc)=Vc·Softmax(Kc·Qt/μt) (4)
Attentions(Qs,Ks,Vs)=Vs·Softmax(Ks·Qs/μs) (5)
其中μt和μs是可学习的缩放参数,Attentiont和Attentions分别是结构目标流和图像补全流的注意力图;
将纹理标记和结构标记连接起来并输入到前馈网络中,下一轮的输入,得到的特征根据通道分为结构特征和纹理特征两部分;所述CSPC的说明为:通道空间两轴注意力模块(CSPC):有效地融合来自通道和空间的信息,设计了一个通道-空间两轴注意力模块;将逐通道注意力和空间窗口注意力结合起来,形成双轴self-attention机制,给定一个输入特征,将其按通道分为两部分,在通道的轴上,跨通道执行自我注意,该逐通道自注意力可以定义为:
在空间轴上,使用空间窗口注意力来捕获空间依赖性,窗口是通过以非重叠方式等分图像来获得的,假设有Nw个不同的窗口,每个窗口包含Pw个补丁,得到补丁的总数:P=Pw*Nw空间窗口注意力可以定义为:
X=Concat(Xst,Xch,Xsp) (8)
其中Wp(·)表示1×1逐点卷积,Wd(·)表示3×3逐深度卷积,⊙是逐元素乘法,LN是层归一化,⊙是卷积层的两条平行路径的元素乘积,前馈网络可以混合不同的特征并控制各个层级的信息流,允许每个层级专注于补充其他层级的细节;所述追踪结构的Transformer对于图像修复方法核心目标是设计一个跟踪结构Transformer(TSFormer),允许同步提取结构和纹理特征,其中纹理是通过跟踪结构来提取,修复的图像在结构和纹理上具有一致性,避免了孔边界处的非重叠伪影,提出了一种新颖的同步自注意力方法来并行提取纹理和结构,同时提出了一种交叉注意力方法来允许它们交互,所提出的TSFormer的总体框架由两个网络组成:结构增强模块(SEM)和同步跟踪双轴Transformer(STT),SEM旨在恢复图像结构,包括边缘和定向梯度(HOG)特征的直方图,提出的核心网络(STT)包括结构纹理同步注意模块和通道空间双轴注意模块;所述一个跟踪结构Transformer(TSFormer),它包括三个核心设计,考虑到定向梯度直方图(HOG)可以雕刻局部子区域的梯度方向分布和边缘方向,首先在图像修复中引入HOG,并构建结构增强模块(SEM)来恢复草图空间中的整体图像边缘和HOG,再次提出一个结构纹理跨注意模块(STCM)旨在跟踪图像结构并执行固有通信,允许特征提取更具体到结构目标,提出了一种门控机制来动态传输结构信息,在同步模块中,提出了一种新颖的通道空间双轴注意力模块(CSPC),以允许有效地共同学习通道和空间视觉线索;所述一个跟踪结构Transformer(TSFormer),其中包括结构增强模块(SEM)和同步追踪双轴Transformer(STT),在SEM,将Edge和定向梯度直方图(HOG)作为结构特征,用于辅助STT网络,在STT网络中,提出一个结构纹理跨注意模块(STCM)旨在跟踪图像结构并执行固有通信,允许特征提取更具体到结构目标,并且在同步模块中,提出了一种新颖的通道空间双轴注意力模块(CSPC),以允许有效地共同学习通道和空间视觉线索。
附图说明
图1:主干网络(TSFormer)概述;
图2:结构纹理跨注意(STCM)模块图;
图3:通道空间双轴注意力(CSPC)模块图;
图4:本发明在不规则的空洞上的修复效果与现有基于深度学习的图像修复技术对比;
图5:本发明与现有基于深度学习的图像修复技术在人脸修复上的对比;
图6:本发明与现有基于深度学习的图像修复技术在建筑修复上的对比。
(三)有益效果
与现有技术相比,本发明提供了追踪结构的Transformer对于图像修复方法,具备以下有益效果:
1、该追踪结构的Transformer对于图像修复方法,本发明设计了一个用于图像修复的端到端跟踪结构Transformer(TSFormer),其中包括结构增强模块(SEM)和同步追踪双轴Transformer(STT)。具体来说,在SEM,本专利将Edge和定向梯度直方图(HOG)作为结构特征,用于辅助STT网络。在STT网络中,本专利提出一个结构纹理跨注意模块(STCM)旨在跟踪图像结构并执行固有通信。这种同步允许特征提取更具体到结构目标。并且在同步模块中,本专利提出了一种新颖的通道空间双轴注意力模块(CSPC),以允许有效地共同学习通道和空间视觉线索。
2、该追踪结构的Transformer对于图像修复方法,通过利用该网络在缺失区域中生成边缘和定向梯度(HOG)特征的直方图作为草图张量空间,在图像修复任务中利用HOG特征,它可以为局部子区域提供梯度方向或边缘方向分布设计了一个同步追踪双轴Transformer(STT),用于统一特征提取和结构特征融合。
3、该追踪结构的Transformer对于图像修复方法,进行特征提取和结构特征的交互,self-attention负责提取图像纹理或图像结构区域的特征,cross-attention可以让它们相互之间传递特征信息,使特征提取针对于指定的结构目标,采用增量训练策略将有效的结构信息动态传递给修复模型,设计了一个低复杂度的通道空间双轴注意力模块,用于并行捕获通道和空间交互。我们的设计意图是建立远程关系,可以应用于具有线性复杂度的整个骨干网络。
具体实施方式
下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:S1:令为真实图像,M∈{0,1}H×W×1为掩码缺失区域为0,否则为1,Iin=Igt⊙M表示损坏的图像,Ym=Ygt⊙M、Hm=Hgt⊙M和Em=Egt⊙M分别表示缺失的灰色、HOG和Canny Edge图像;
S2:将上述三幅图像拼接后输入到SEM中,得到恢复的边缘Eout和Hout特征作为草图空间向量,公式为[Eout,Hout]=SANet(Em,Hm,Ym);
结构增强模块(SEM)恢复图像边缘和HOG作为核心STT的辅助结构特征,输入的缺失的灰度图像Ym、HOG图像Hm和Canny边缘Em,应用卷积头来生成1/8大小的特征图,减少标准自注意力的计算量,基于通道的自注意力在低分辨率特征空间中捕获全局结构信息,卷积尾部采用转置卷积将这些特征上采样到输出结构Eout和Hout,来优化预测的草图结构:
其中Egt和Hgt分别是完整的边缘Edge和HOG图像,分别使用二元交叉熵(BCE)和l1损失来重建精明边缘Edge和HOG特征,实验中取λh=0.1,
HOG在子区域内雕刻梯度方向和边缘方向的分布,通过减去相邻像素梯度滤波来实现,主要特性是捕捉局部形状和外观,对几何变化保持良好的鲁棒性,即使不精确了解相应的梯度和边缘位置,HOG也可以很好地表征局部对象的外观和形状;
S3:STT将受损图像Iin、恢复结构图像Hout和Eout连接起来,最终生成输出图像Iout,公式为Iout=STT(Iin,Hout,Eout),通道C=24;提出的同步追踪双轴Transformer(STT)是一种遵循编码器解码器架构的U-Net风格,结构信息有助于图像修复早期的初步轮廓恢复,设计了具有24个基本Transformer块的编码器,每个块由一个结构-纹理跨注意模块(STCM)组成,其图像补全序列包括一个通道空间双轴注意模块(CSPC),设计了具有20个基本Transformer块的解码器,每个块仅包含CSPC;STCM的说明为:恢复的结构特征包含完整的梯度分布和边缘方向,设计了STCM,是STT的关键组件,可以分别同步捕获对结构和纹理的远程依赖,除了self-attention,STCM引入了cross-attention方式,通过追踪结构来指导纹理提取,Iin、Eout和Hout表示STCM的输入,与原始的多头注意力模块不同,STCM在两个单独的流上执行双路径注意力操作:图像完成流和结构目标流,对于图像补全流,设计了一个通道空间双轴注意力模块来捕捉通道和空间之间的相关性,STCM可以对每个流执行自注意力以捕获纹理和特定于目标的结构,STCM对两个流执行交叉注意力以融合它们的交互信息,
将Iin编码为图像补全流的纹理标记,将Eout和Hout编码为结构目标流的结构标记,在每个特征图上执行轻量级深度卷积投影,与基于补丁的MLP嵌入方法不同,这种轻量级卷积可以为变压器提供有用的局部感知偏置,分别对查询、键和值嵌入应用3×3深度卷积,将Qt、Kt和Vt表示为待完成的纹理,Qs、Ks和Vs表示为目标结构,将结构信息从结构目标流传输到图像补全流,提出了一种残差加的方法来实现交叉注意,其定义为:
Kc=αKs+Kt (2)
Vc=βVs+Vt (3)
其中α和β是可学习的缩放参数,用于控制融合速率,
利用结构目标流来提高图像补全流的性能,交叉注意公式如下:
Attentiont(Qt,Kc,Vc)=Vc·Softmax(Kc·Qt/μt) (4)
Attentions(Qs,Ks,Vs)=Vs·Softmax(Ks·Qs/μs) (5)
其中μt和μs是可学习的缩放参数,Attentiont和Attentions分别是结构目标流和图像补全流的注意力图;
将纹理标记和结构标记连接起来并输入到前馈网络中,下一轮的输入,得到的特征根据通道分为结构特征和纹理特征两部分;CSPC的说明为:通道空间两轴注意力模块(CSPC):有效地融合来自通道和空间的信息,设计了一个通道空间两轴注意力模块;将逐通道注意力和空间窗口注意力结合起来,形成双轴self-attention机制,给定一个输入特征,将其按通道分为两部分,在通道的轴上,跨通道执行自我注意,该逐通道自注意力可以定义为:
在空间轴上,使用空间窗口注意力来捕获空间依赖性,窗口是通过以非重叠方式等分图像来获得的,假设有Nw个不同的窗口,每个窗口包含Pw个补丁,得到补丁的总数:P=Pw*Nw空间窗口注意力可以定义为:
X=Concat(Xst,Xch,Xsp) (8)
其中Wp(·)表示1×1逐点卷积,Wd(·)表示3×3逐深度卷积,⊙是逐元素乘法,LN是层归一化,⊙是卷积层的两条平行路径的元素乘积,前馈网络可以混合不同的特征并控制各个层级的信息流,允许每个层级专注于补充其他层级的细节;追踪结构的Transformer对于图像修复方法核心目标是设计一个跟踪结构变换器TSFormer,允许同步提取结构和纹理特征,其中纹理是通过跟踪结构来提取,修复的图像在结构和纹理上具有一致性,避免了孔边界处的非重叠伪影,提出了一种新颖的同步自注意力方法来并行提取纹理和结构,同时提出了一种交叉注意力方法来允许它们交互,所提出的TSFormer的总体框架由两个网络组成:结构增强模块SEM和同步跟踪双轴Transformer(STT),SEM旨在恢复图像结构,包括边缘和定向梯度(HOG)特征的直方图,提出的核心网络STT包括结构-纹理同步注意模块和通道空间双轴注意模块;一个跟踪结构Transformer(TSFormer),它包括三个核心设计,考虑到定向梯度直方图HOG可以雕刻局部子区域的梯度方向分布和边缘方向,首先在图像修复中引入HOG,并构建结构增强模块SEM来恢复草图空间中的整体图像边缘和HOG,再次提出一个结构纹理跨注意模块STCM旨在跟踪图像结构并执行固有通信,允许特征提取更具体到结构目标,提出了一种门控机制来动态传输结构信息,在同步模块中,提出了一种新颖的通道空间双轴注意力模块CSPC,以允许有效地共同学习通道和空间视觉线索;一个跟踪结构Transformer(TSFormer),其中包括结构增强模块SEM和同步追踪双轴Transformer(STT),在SEM,将Edge和定向梯度直方图HOG作为结构特征,用于辅助STT网络,在STT网络中,提出一个结构纹理跨注意模块STCM旨在跟踪图像结构并执行固有通信,允许特征提取更具体到结构目标,并且在同步模块中,提出了一种新颖的通道空间双轴注意力模块CSPC,以允许有效地共同学习通道和空间视觉线索。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种用于图像修复的追踪结构的Transformer方法,其特征在于,该一种用于图像修复的追踪结构的Transformer方法包含以下步骤:
S1:令为真实图像,M∈{0,1}H×W×1为掩码(缺失区域为0,否则为1),Iin=Igt⊙M表示损坏的图像,Ym=Ygt⊙M、Hm=Hgt⊙M和Em=Egt⊙M分别表示缺失的灰色、HOG和CannyEdge图像;
S2:将上述三幅图像拼接后输入到SEM中,得到恢复的边缘Eout和Hout特征作为草图空间向量,公式为[Eout,Hout]=SEM(Em,Hm,Ym);
S3:STT将受损图像Iin、恢复结构图像Hout和Eout连接起来,最终生成输出图像Iout,公式为Iout=STT(Iin,Hout,Eout),通道C=24。
2.根据权利要求1所述的一种用于图像修复的追踪结构的Transformer方法,其特征在于,所述S2中,结构增强网络(SEM)恢复图像边缘和HOG作为核心STT的辅助结构特征,输入的缺失的灰度图像Ym、HOG图像Hm和Canny边缘Em,应用卷积头来生成1/8大小的特征图,减少标准自注意力的计算量,基于通道的自注意力在低分辨率特征空间中捕获全局结构信息,卷积尾部采用转置卷积将这些特征上采样到输出结构Eout和Hout,来优化预测的草图结构:
其中Egt和Hgt分别是完整的边缘Edge和HOG图像,分别使用二元交叉熵(BCE)和l1损失来重建完整的边缘Edge和HOG特征,实验中取λh=0.1,
HOG在子区域内雕刻梯度方向和边缘方向的分布,通过减去相邻像素(梯度滤波)来实现,主要特性是捕捉局部形状和外观,对几何变化保持良好的鲁棒性,即使不精确了解相应的梯度和边缘位置,HOG也可以很好地表征局部对象的外观和形状。
3.根据权利要求1所述的一种用于图像修复的追踪结构的Transformer方法,其特征在于,所述S3中,提出的同步追踪双轴Transformer(STT)是一种遵循编码器解码器风格的U-Net架构,结构信息有助于图像修复早期的初步轮廓恢复,设计了具有24个基本Transformer块的编码器,每个块由一个结构纹理跨注意模块(STCM)组成,其图像完成流包括一个通道空间双轴注意模块(CSPC),设计了具有20个基本Transformer块的解码器,每个块仅包含CSPC。
4.根据权利要求3所述的一种用于图像修复的追踪结构的Transformer方法,其特征在于,所述STCM的说明为:恢复的结构特征包含完整的梯度分布和边缘方向,设计了STCM(STT的关键组件),可以分别同步捕获对结构和纹理的远程依赖,除了self-attention,STCM引入了cross-attention方式,通过追踪结构来指导纹理提取,Iin、Eout和Hout表示STCM的输入,与原始的多头注意力模块不同,STCM在两个单独的流上执行双路径注意力操作:图像完成流和结构目标流,对于图像补全流,设计了一个通道空间双轴注意力模块来捕捉通道和空间之间的相关性,STCM可以对每个流执行自注意力以捕获纹理和特定于目标的结构,STCM对两个流执行交叉注意力以融合它们的交互信息,
将Iin编码为图像补全流的纹理标记,将Eout和Hout编码为结构目标流的结构标记,在每个特征图上执行轻量级深度卷积投影,与基于补丁的MLP嵌入方法不同,这种轻量级卷积可以为Transformer提供有用的局部感知偏置,分别对查询、键和值嵌入应用3×3深度卷积,将Qt、Kt和Vt表示为待完成的纹理,Qs、Ks和Vs表示为目标结构,将结构信息从结构目标流传输到图像补全流,提出了一种残差加的方法来实现交叉注意,其定义为:
Kc=αKs+Kt (2)
Vc=βVs+Vt (3)
其中α和β是可学习的缩放参数,用于控制融合速率,
利用结构目标流来提高图像补全流的性能,交叉注意公式如下:
Attentiont(Qt,Kc,Vc)=Vc·Softmax(Kc·Qt/μt) (4)
Attentions(Qs,Ks,Vs)=Vs·Softmax(Ks·Qs/μs) (5)
其中μt和μs是可学习的缩放参数,Attentiont和Attentions分别是结构目标流和图像补全流的注意力图;
将纹理标记和结构标记连接起来并输入到前馈网络中,下一轮的输入,得到的特征根据通道分为结构特征和纹理特征两部分。
5.根据权利要求1所述的一种用于图像修复的追踪结构的Transformer方法,其特征在于,所述CSPC的说明为:通道空间两轴注意力模块(CSPC):有效地融合来自通道和空间的信息,设计了一个通道空间两轴注意力模块;将逐通道注意力和空间窗口注意力结合起来,形成双轴self-attention机制,给定一个输入特征,将其按通道分为两部分,在通道的轴上,跨通道执行自我注意,该逐通道自注意力可以定义为:
在空间轴上,使用空间窗口注意力来捕获空间依赖性,窗口是通过以非重叠方式等分图像来获得的,假设有Nw个不同的窗口,每个窗口包含Pw个补丁,得到补丁的总数:P=Pw*Nw空间窗口注意力可以定义为:
X=Concat(Xst,Xch,Xsp) (8)
其中Wp(·)表示1×1逐点卷积,Wd(·)表示3×3逐深度卷积,⊙是逐元素乘法,LN是层归一化,⊙是卷积层的两条平行路径的元素乘积,前馈网络可以混合不同的特征并控制各个层级的信息流,允许每个层级专注于补充其他层级的细节。
6.根据权利要求1所述的一种用于图像修复的追踪结构的Transformer方法,其特征在于,所述一种用于图像修复的追踪结构的Transformer方法核心目标是设计一个跟踪结构Transformer(TSFormer),允许同步提取结构和纹理特征,其中纹理是通过跟踪结构来提取,修复的图像在结构和纹理上具有一致性,避免了孔边界处的非重叠伪影,提出了一种新颖的同步自注意力方法来并行提取纹理和结构,同时提出了一种交叉注意力方法来允许它们交互,所提出的TSFormer的总体框架由两个网络组成:结构增强模块(SEM)和同步跟踪双轴Transformer(STT),SEM旨在恢复图像结构,包括边缘和定向梯度(HOG)特征的直方图,提出的核心网络(STT)包括结构纹理跨注意模块和通道空间双轴注意模块。
7.根据权利要求6所述的一种用于图像修复的追踪结构的Transformer方法,其特征在于,所述一个跟踪结构Transformer(TSFormer),它包括三个核心设计,考虑到定向梯度直方图(HOG)可以雕刻局部子区域的梯度方向分布和边缘方向,首先在图像修复中引入HOG,并构建结构增强模块(SEM)来恢复草图空间中的整体图像边缘和HOG,再次提出一个结构纹理跨注意模块(STCM)旨在跟踪图像结构并执行固有通信,允许特征提取更具体到结构目标,提出了一种门控机制来动态传输结构信息,在同步模块中,提出了一种新颖的通道空间双轴注意力模块(CSPC),以允许有效地共同学习通道和空间视觉线索。
8.根据权利要求6所述的一种用于图像修复的追踪结构的Transformer方法,其特征在于,所述一个跟踪结构Transformer(TSFormer),其中包括结构增强模块(SEM)和同步追踪双轴Transformer(STT),在SEM,将Edge和定向梯度直方图(HOG)作为结构特征,用于辅助STT网络,在STT网络中,提出一个结构纹理跨注意模块(STCM)旨在跟踪图像结构并执行固有通信,允许特征提取更具体到结构目标,并且在同步模块中,提出了一种新颖的通道空间双轴注意力模块(CSPC),以允许有效地共同学习通道和空间视觉线索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211394375.1A CN115619685A (zh) | 2022-11-08 | 2022-11-08 | 一种用于图像修复的追踪结构的Transformer方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211394375.1A CN115619685A (zh) | 2022-11-08 | 2022-11-08 | 一种用于图像修复的追踪结构的Transformer方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115619685A true CN115619685A (zh) | 2023-01-17 |
Family
ID=84877978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211394375.1A Pending CN115619685A (zh) | 2022-11-08 | 2022-11-08 | 一种用于图像修复的追踪结构的Transformer方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115619685A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115908205A (zh) * | 2023-02-21 | 2023-04-04 | 成都信息工程大学 | 图像修复方法、装置、电子设备和存储介质 |
CN116740654A (zh) * | 2023-08-14 | 2023-09-12 | 安徽博诺思信息科技有限公司 | 基于图像识别技术的变电站作业防控方法 |
CN117196981A (zh) * | 2023-09-08 | 2023-12-08 | 兰州交通大学 | 一种基于纹理和结构调和的双向信息流方法 |
CN118134983A (zh) * | 2024-05-06 | 2024-06-04 | 武汉纺织大学 | 一种基于双交叉注意力网络的透明物体深度补全方法 |
-
2022
- 2022-11-08 CN CN202211394375.1A patent/CN115619685A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115908205A (zh) * | 2023-02-21 | 2023-04-04 | 成都信息工程大学 | 图像修复方法、装置、电子设备和存储介质 |
CN115908205B (zh) * | 2023-02-21 | 2023-05-30 | 成都信息工程大学 | 图像修复方法、装置、电子设备和存储介质 |
CN116740654A (zh) * | 2023-08-14 | 2023-09-12 | 安徽博诺思信息科技有限公司 | 基于图像识别技术的变电站作业防控方法 |
CN116740654B (zh) * | 2023-08-14 | 2023-11-07 | 安徽博诺思信息科技有限公司 | 基于图像识别技术的变电站作业防控方法 |
CN117196981A (zh) * | 2023-09-08 | 2023-12-08 | 兰州交通大学 | 一种基于纹理和结构调和的双向信息流方法 |
CN117196981B (zh) * | 2023-09-08 | 2024-04-26 | 兰州交通大学 | 一种基于纹理和结构调和的双向信息流方法 |
CN118134983A (zh) * | 2024-05-06 | 2024-06-04 | 武汉纺织大学 | 一种基于双交叉注意力网络的透明物体深度补全方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115619685A (zh) | 一种用于图像修复的追踪结构的Transformer方法 | |
Guo et al. | Image inpainting via conditional texture and structure dual generation | |
CN115601549B (zh) | 基于可变形卷积和自注意力模型的河湖遥感图像分割方法 | |
WO2022166412A1 (zh) | 基于协同分割与数据增强的自监督三维重建方法及系统 | |
Meng et al. | Single-image dehazing based on two-stream convolutional neural network | |
CN109584325B (zh) | 一种基于u型周期一致对抗网络的动漫图像的双向色彩化方法 | |
Zhang et al. | Efficient inductive vision transformer for oriented object detection in remote sensing imagery | |
CN113808005A (zh) | 一种基于视频驱动的人脸姿态迁移方法及装置 | |
Hong et al. | USOD10K: a new benchmark dataset for underwater salient object detection | |
CN115731138A (zh) | 一种基于Transformer与卷积神经网络的图像修复方法 | |
CN112381722A (zh) | 一种单图像的超分与感知图像增强的联合任务学习方法 | |
Hsu et al. | High-resolution image inpainting through multiple deep networks | |
Yuan et al. | Recurrent structure attention guidance for depth super-resolution | |
Zhu et al. | ANCIENTDEPTHNET: AN UNSUPERVISED FRAMEWORK FOR DEPTH ESTIMATION OF ANCIENT ARCHITECTURE | |
CN117689592A (zh) | 一种基于级联自适应网络的水下图像增强方法 | |
Pei | MSFNet: Multi-scale features network for monocular depth estimation | |
CN117315069A (zh) | 基于图像特征对齐的人体姿态迁移方法 | |
CN113034388A (zh) | 一种古代绘画虚拟修复方法及修复模型的构建方法 | |
CN116109510A (zh) | 一种基于结构和纹理对偶生成的人脸图像修复方法 | |
CN113362240A (zh) | 一种基于轻量级特征金字塔模型的图像修复方法 | |
CN113781372A (zh) | 一种基于深度学习的戏曲脸谱生成方法及系统 | |
CN114881849A (zh) | 一种联合单目深度估计的深度图像超分辨率重建方法 | |
Bai et al. | Reference Image-assisted Auxiliary Feature Fusion in Image Inpainting | |
CN117252892B (zh) | 基于轻量化视觉自注意力网络的双分支人像自动抠图装置 | |
CN114299588B (zh) | 一种基于局部空间转换网络的实时目标编辑方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |