CN115619685A

CN115619685A - 一种用于图像修复的追踪结构的Transformer方法

Info

Publication number: CN115619685A
Application number: CN202211394375.1A
Authority: CN
Inventors: 王员根; 林嘉裕
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-01-17

Abstract

本发明公开了一种用于图像修复的追踪结构的Transformer方法，本发明设计了一个用于图像修复的端到端跟踪结构Transformer(TSFormer)，其中包括结构增强模块(SEM)和同步追踪双轴Transformer(STT)，在SEM中，本专利将Edge和定向梯度直方图HOG作为结构特征，用于辅助STT网络，通过利用该模块在缺失区域中生成边缘(Edge)和定向梯度(HOG)特征的直方图作为草图张量空间，在图像修复任务中利用Edge与HOG特征，为局部子区域提供梯度方向或边缘方向分布；因此，设计了一个同步追踪双轴Transformer(STT)，用于统一特征提取和结构特征融合，采用增量训练策略将有效的结构信息动态传递给修复模型，设计了一个低复杂度的通道空间双轴注意力模块，用于并行捕获通道和空间交互，建立远程关系，可以应用于具有线性复杂度的整个骨干网络。

Description

一种用于图像修复的追踪结构的Transformer方法

技术领域

本发明涉及基于深度学习的图像修复方法技术领域，具体为一种用于图像修复的追踪结构的Transformer方法。

背景技术

图像修复是一项基本的低级视觉任务，其主要目标是填充图像的缺失区域，同时使恢复的图像在语义上合适且视觉上令人愉悦。它被广泛应用于许多实际场景中，例如物体去除、照片编辑和图像恢复。传统方法通过从已知区域搜索相似的补丁来构建图像来解决这一具有挑战性的任务，但仅仅通过这种方式，很难修复大面积缺失的图像，并且当面对的图像场景较为复杂时，它也难以生成语义合理的图像。

近年来，卷积神经网络(CNN)通过在大规模数据集上进行训练，在理解图像丰富的高级特征方面显示出其优势。然而，CNN模型的性能仍然存在瓶颈：1)卷积操作的局部归纳先验和空间不变核使得难以恢复图像的整体结构。2)先前利用结构信息的方法从孤立的角度看待结构特征与后续特征提取之间的融合，使得难以传达全局一致的互补信息以相互帮助。3)一些开创性的工作利用注意力机制来模拟长期依赖关系来解决这些问题。然而，注意力机制仅适用于相对较小的潜在特征图，其中模型的远程建模能力没有得到充分考虑。

对比注意力机制在CNN中的应用，Transformer是一种解决远程建模问题的自然架构，最近的进展利用Transformer架构进行图像修复任务。尽管如此，考虑到Transformer需要巨大的内存占用。现有的工作仍然依赖于CNN进行一般特征提取，仅使用Transformer进行高维空间表达，因此恢复的图像结构和纹理粗糙，仍未建立完整的远程交互。

基于以上问题，本发明提出了一种用于图像修复的追踪结构的Transformer方法。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种用于图像修复的追踪结构的Transformer方法，解决了上述背景技术中所述的问题。

(二)技术方案

为实现上述背景技术中所述问题的目的，本发明提供如下技术方案：一种用于图像修复的追踪结构的Transformer方法，该追踪结构的Transformer对于图像修复方法包含以下步骤：

S1：令

为真实图像，M∈{0,1}^H×W×1为掩码(缺失区域为0，否则为1)，I_in＝I_gt⊙M表示损坏的图像，Y_m＝Y_gt⊙M、H_m＝H_gt⊙M和E_m＝E_gt⊙M分别表示缺失的灰色、HOG和Canny Edge图像；

S2：将上述三幅图像拼接后输入到SEM中，得到恢复的边缘E_out和H_out特征作为草图空间向量，公式为[E_out,H_out]＝SANet(E_m,H_m,Y_m)；

S3：STT将受损图像I_in、恢复结构图像H_out和E_out连接起来，最终生成输出图像I_out，公式为I_out＝STT(I_in,H_out,E_out)，通道C＝24。

优选的，所述S2中，结构增强模块(SEM)恢复图像边缘和HOG作为核心STT的辅助结构特征，输入的缺失的灰度图像Y_m、HOG图像H_m和Canny边缘E_m，应用卷积头来生成1/8大小的特征图，减少标准自注意力的计算量，基于通道的自注意力在低分辨率特征空间中捕获全局结构信息，卷积尾部采用转置卷积将这些特征上采样到输出结构E_out和H_out，

来优化预测的草图结构：

其中E_gt和H_gt分别是完整的边缘Edge和HOG图像，分别使用二元交叉熵(BCE)和l₁损失来重建完整的边缘Edge和HOG特征，实验中取λ_h＝0.1，

HOG在子区域内雕刻梯度方向和边缘方向的分布，通过减去相邻像素(梯度滤波)来实现，主要特性是捕捉局部形状和外观，对几何变化保持良好的鲁棒性，即使不精确了解相应的梯度和边缘位置，HOG也可以很好地表征局部对象的外观和形状。

优选的，所述S3中，提出的同步追踪双轴Transformer(STT)是一种遵循编码器解码器风格的U-Net架构，结构信息有助于图像修复早期的初步轮廓恢复，设计了具有24个基本Transformer块的编码器，每个块由一个结构-纹理跨注意模块(STCM)组成，其图像补全流包括一个通道空间双轴注意模块(CSPC)，设计了具有20个基本Transformer块的解码器，每个块仅包含CSPC。

优选的，所述STCM的说明为：恢复的结构特征包含完整的梯度分布和边缘方向，设计了STCM(STT的关键组件)，可以分别同步捕获对结构和纹理的远程依赖，除了self-attention，STCM引入了cross-attention方式，通过追踪结构来指导纹理提取，I_in、E_out和H_out表示STCM的输入，与原始的多头注意力模块不同，STCM在两个单独的流上执行双路径注意力操作：图像完成流和结构目标流，对于图像补全流，设计了一个通道空间双轴注意力模块来捕捉通道和空间之间的相关性，STCM可以对每个流执行自注意力以捕获纹理和特定于目标的结构，STCM对两个流执行交叉注意力以融合它们的交互信息，

将I_in编码为图像补全流的纹理标记，将E_out和H_out编码为结构目标流的结构标记，在每个特征图上执行轻量级深度卷积投影，与基于补丁的MLP嵌入方法不同，这种轻量级卷积可以为变压器提供有用的局部感知偏置，分别对查询、键和值嵌入应用3×3深度卷积，将Q_t、K_t和V_t表示为待完成的纹理，Q_s、K_s和V_s表示为目标结构，将结构信息从结构目标流传输到图像补全流，提出了一种残差加的方法来实现交叉注意，其定义为：

K_c＝αK_s+K_t (2)

V_c＝βV_s+V_t (3)

其中α和β是可学习的缩放参数，用于控制融合速率，

利用结构目标流来提高图像补全流的性能，交叉注意公式如下：

Attention_t(Q_t,K_c,V_c)＝V_c·Softmax(K_c·Q_t/μ_t) (4)

Attention_s(Q_s,K_s,V_s)＝V_s·Softmax(K_s·Q_s/μ_s) (5)

其中μ_t和μ_s是可学习的缩放参数，Attention_t和Attention_s分别是结构目标流和图像补全流的注意力图；

将纹理标记和结构标记连接起来并输入到前馈网络中，下一轮的输入，得到的特征根据通道分为结构特征和纹理特征两部分。

优选的，所述CSPC的说明为：通道空间两轴注意力模块(CSPC)：有效地融合来自通道和空间的信息，设计了一个通道空间两轴注意力模块；将逐通道注意力和空间窗口注意力结合起来，形成双轴self-attention机制，给定一个输入特征，将其按通道分为两部分，在通道的轴上，跨通道执行自我注意，该逐通道自注意力可以定义为：

其中

分别表示查询、键和值，μ是一个可学习的缩放参数，逐通道自注意力的计算复杂度为O(C²WH)，C²是一个常量；

在空间轴上，使用空间窗口注意力来捕获空间依赖性，窗口是通过以非重叠方式等分图像来获得的，假设有N_w个不同的窗口，每个窗口包含P_w个补丁，得到补丁的总数：P＝P_w*N_w空间窗口注意力可以定义为：

其中Q_i K_i

分别表示空间窗口注意力的查询、键和值，C_h表示每个头的通道数，空间窗口自注意力的计算复杂度为O(2CPP_w+4C²P)，为线性复杂度；

使用前馈网络融合上述特征，应用3×3深度卷积对输入特征进行编码，这有助于学习有关局部空间上下文的信息，给定结构目标流生成的结构特征

图像补全流生成的通道特征

和空间特征

该前馈网络表示为：

X＝Concat(X_st,X_ch,X_sp) (8)

其中W_p(·)表示1×1逐点卷积，W_d(·)表示3×3逐深度卷积，⊙是逐元素乘法，LN是层归一化，⊙是卷积层的两条平行路径的元素乘积，前馈网络可以混合不同的特征并控制各个层级的信息流，允许每个层级专注于补充其他层级的细节。

优选的，所述一种用于图像修复的追踪结构的Transformer方法核心目标是设计一个跟踪结构变换器(TSFormer)，允许同步提取结构和纹理特征，其中纹理是通过跟踪结构来提取，修复的图像在结构和纹理上具有一致性，避免了孔边界处的非重叠伪影，提出了一种新颖的同步自注意力方法来并行提取纹理和结构，同时提出了一种交叉注意力方法来允许它们交互，所提出的TSFormer的总体框架由两个网络组成：结构增强模块(SEM)和同步跟踪双轴Transformer(STT)，SEM旨在恢复图像结构，包括边缘和定向梯度(HOG)特征的直方图，提出的核心网络(STT)包括结构-纹理同步注意模块和通道空间双轴注意模块。

优选的，所述一个跟踪结构Transformer(TSFormer)，它包括三个核心设计，考虑到定向梯度直方图(HOG)可以雕刻局部子区域的梯度方向分布和边缘方向，首先在图像修复中引入HOG，并构建结构增强模块(SEM)来恢复草图空间中的整体图像边缘和HOG，再次提出一个结构纹理跨注意模块(STCM)旨在跟踪图像结构并执行固有通信，允许特征提取更具体到结构目标，提出了一种门控机制来动态传输结构信息，在同步模块中，提出了一种新颖的通道空间双轴注意力模块(CSPC)，以允许有效地共同学习通道和空间视觉线索。

优选的，所述一个跟踪结构Transformer(TSFormer)，其中包括结构增强模块(SEM)和同步追踪双轴Transformer(STT)，在SEM，将Edge和定向梯度直方图(HOG)作为结构特征，用于辅助STT网络，在STT网络中，提出一个结构纹理跨注意模块(STCM)旨在跟踪图像结构并执行固有通信，允许特征提取更具体到结构目标，并且在同步模块中，提出了一种新颖的通道空间双轴注意力模块(CSPC)，以允许有效地共同学习通道和空间视觉线索。

本发明要解决的另一技术问题是提供追踪结构的Transformer对于图像修复方法，包括以下步骤：

S1：令

S2：将上述三幅图像拼接后输入到SEM中，得到恢复的边缘E_out和H_out特征作为草图空间向量，公式为[E_out,H_out]＝SEM(E_m,H_m,Y_m)；

结构增强模块(SEM)恢复图像边缘和HOG作为核心STT的辅助结构特征，输入的缺失的灰度图像Y_m、HOG图像H_m和Canny边缘E_m，应用卷积头来生成1/8大小的特征图，减少标准自注意力的计算量，基于通道的自注意力在低分辨率特征空间中捕获全局结构信息，卷积尾部采用转置卷积将这些特征上采样到输出结构E_out和H_out，

来优化预测的草图结构：

其中E_gt和H_gt分别是完整的边缘Edge和HOG图像，分别使用二元交叉熵(BCE)和l₁损失来重建精明边缘Edge和HOG特征，实验中取λ_h＝0.1，

HOG在子区域内雕刻梯度方向和边缘方向的分布，通过减去相邻像素(梯度滤波)来实现，主要特性是捕捉局部形状和外观，对几何变化保持良好的鲁棒性，即使不精确了解相应的梯度和边缘位置，HOG也可以很好地表征局部对象的外观和形状；

S3：STT将受损图像I_in、恢复结构图像H_out和E_out连接起来，最终生成输出图像I_out，公式为I_out＝STT(I_in,H_out,E_out)，通道C＝24；提出的同步追踪双轴Transformer(STT)是一种遵循编码器解码器风格的U-Net架构，结构信息有助于图像修复早期的初步轮廓恢复，设计了具有24个基本Transformer块的编码器，每个块由一个结构-纹理跨注意模块(STCM)组成，其图像完成流包括一个通道空间双轴注意模块(CSPC)，设计了具有20个基本Transformer块的解码器，每个块仅包含CSPC；所述STCM的说明为：恢复的结构特征包含完整的梯度分布和边缘方向，设计了STCM(STT的关键组件)，可以分别同步捕获对结构和纹理的远程依赖，除了self-attention，STCM引入了cross-attention方式，通过追踪结构来指导纹理提取，I_in、E_out和H_out表示STCM的输入，与原始的多头注意力模块不同，STCM在两个单独的流上执行双路径注意力操作：图像完成流和结构目标流，对于图像补全流，设计了一个通道空间双轴注意力模块来捕捉通道和空间之间的相关性，STCM可以对每个流执行自注意力以捕获纹理和特定于目标的结构，STCM对两个流执行交叉注意力以融合它们的交互信息，

K_c＝αK_s+K_t (2)

V_c＝βV_s+V_t (3)

其中α和β是可学习的缩放参数，用于控制融合速率，

Attention_t(Q_t,K_c,V_c)＝V_c·Softmax(K_c·Q_t/μ_t) (4)

Attention_s(Q_s,K_s,V_s)＝V_s·Softmax(K_s·Q_s/μ_s) (5)

将纹理标记和结构标记连接起来并输入到前馈网络中，下一轮的输入，得到的特征根据通道分为结构特征和纹理特征两部分；所述CSPC的说明为：通道空间两轴注意力模块(CSPC)：有效地融合来自通道和空间的信息，设计了一个通道-空间两轴注意力模块；将逐通道注意力和空间窗口注意力结合起来，形成双轴self-attention机制，给定一个输入特征，将其按通道分为两部分，在通道的轴上，跨通道执行自我注意，该逐通道自注意力可以定义为：

其中

其中Q_i K_i

图像补全流生成的通道特征

和空间特征

该前馈网络表示为：

X＝Concat(X_st,X_ch,X_sp) (8)

其中W_p(·)表示1×1逐点卷积，W_d(·)表示3×3逐深度卷积，⊙是逐元素乘法，LN是层归一化，⊙是卷积层的两条平行路径的元素乘积，前馈网络可以混合不同的特征并控制各个层级的信息流，允许每个层级专注于补充其他层级的细节；所述追踪结构的Transformer对于图像修复方法核心目标是设计一个跟踪结构Transformer(TSFormer)，允许同步提取结构和纹理特征，其中纹理是通过跟踪结构来提取，修复的图像在结构和纹理上具有一致性，避免了孔边界处的非重叠伪影，提出了一种新颖的同步自注意力方法来并行提取纹理和结构，同时提出了一种交叉注意力方法来允许它们交互，所提出的TSFormer的总体框架由两个网络组成：结构增强模块(SEM)和同步跟踪双轴Transformer(STT)，SEM旨在恢复图像结构，包括边缘和定向梯度(HOG)特征的直方图，提出的核心网络(STT)包括结构纹理同步注意模块和通道空间双轴注意模块；所述一个跟踪结构Transformer(TSFormer)，它包括三个核心设计，考虑到定向梯度直方图(HOG)可以雕刻局部子区域的梯度方向分布和边缘方向，首先在图像修复中引入HOG，并构建结构增强模块(SEM)来恢复草图空间中的整体图像边缘和HOG，再次提出一个结构纹理跨注意模块(STCM)旨在跟踪图像结构并执行固有通信，允许特征提取更具体到结构目标，提出了一种门控机制来动态传输结构信息，在同步模块中，提出了一种新颖的通道空间双轴注意力模块(CSPC)，以允许有效地共同学习通道和空间视觉线索；所述一个跟踪结构Transformer(TSFormer)，其中包括结构增强模块(SEM)和同步追踪双轴Transformer(STT)，在SEM，将Edge和定向梯度直方图(HOG)作为结构特征，用于辅助STT网络，在STT网络中，提出一个结构纹理跨注意模块(STCM)旨在跟踪图像结构并执行固有通信，允许特征提取更具体到结构目标，并且在同步模块中，提出了一种新颖的通道空间双轴注意力模块(CSPC)，以允许有效地共同学习通道和空间视觉线索。

附图说明

图1：主干网络(TSFormer)概述；

图2：结构纹理跨注意(STCM)模块图；

图3：通道空间双轴注意力(CSPC)模块图；

图4：本发明在不规则的空洞上的修复效果与现有基于深度学习的图像修复技术对比；

图5：本发明与现有基于深度学习的图像修复技术在人脸修复上的对比；

图6：本发明与现有基于深度学习的图像修复技术在建筑修复上的对比。

(三)有益效果

与现有技术相比，本发明提供了追踪结构的Transformer对于图像修复方法，具备以下有益效果：

1、该追踪结构的Transformer对于图像修复方法，本发明设计了一个用于图像修复的端到端跟踪结构Transformer(TSFormer)，其中包括结构增强模块(SEM)和同步追踪双轴Transformer(STT)。具体来说，在SEM，本专利将Edge和定向梯度直方图(HOG)作为结构特征，用于辅助STT网络。在STT网络中，本专利提出一个结构纹理跨注意模块(STCM)旨在跟踪图像结构并执行固有通信。这种同步允许特征提取更具体到结构目标。并且在同步模块中，本专利提出了一种新颖的通道空间双轴注意力模块(CSPC)，以允许有效地共同学习通道和空间视觉线索。

2、该追踪结构的Transformer对于图像修复方法，通过利用该网络在缺失区域中生成边缘和定向梯度(HOG)特征的直方图作为草图张量空间，在图像修复任务中利用HOG特征，它可以为局部子区域提供梯度方向或边缘方向分布设计了一个同步追踪双轴Transformer(STT)，用于统一特征提取和结构特征融合。

3、该追踪结构的Transformer对于图像修复方法，进行特征提取和结构特征的交互，self-attention负责提取图像纹理或图像结构区域的特征，cross-attention可以让它们相互之间传递特征信息，使特征提取针对于指定的结构目标，采用增量训练策略将有效的结构信息动态传递给修复模型，设计了一个低复杂度的通道空间双轴注意力模块，用于并行捕获通道和空间交互。我们的设计意图是建立远程关系，可以应用于具有线性复杂度的整个骨干网络。

具体实施方式

下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：S1：令

为真实图像，M∈{0,1}^H×W×1为掩码缺失区域为0，否则为1，I_in＝I_gt⊙M表示损坏的图像，Y_m＝Y_gt⊙M、H_m＝H_gt⊙M和E_m＝E_gt⊙M分别表示缺失的灰色、HOG和Canny Edge图像；

来优化预测的草图结构：

HOG在子区域内雕刻梯度方向和边缘方向的分布，通过减去相邻像素梯度滤波来实现，主要特性是捕捉局部形状和外观，对几何变化保持良好的鲁棒性，即使不精确了解相应的梯度和边缘位置，HOG也可以很好地表征局部对象的外观和形状；

S3：STT将受损图像I_in、恢复结构图像H_out和E_out连接起来，最终生成输出图像I_out，公式为I_out＝STT(I_in,H_out,E_out)，通道C＝24；提出的同步追踪双轴Transformer(STT)是一种遵循编码器解码器架构的U-Net风格，结构信息有助于图像修复早期的初步轮廓恢复，设计了具有24个基本Transformer块的编码器，每个块由一个结构-纹理跨注意模块(STCM)组成，其图像补全序列包括一个通道空间双轴注意模块(CSPC)，设计了具有20个基本Transformer块的解码器，每个块仅包含CSPC；STCM的说明为：恢复的结构特征包含完整的梯度分布和边缘方向，设计了STCM，是STT的关键组件，可以分别同步捕获对结构和纹理的远程依赖，除了self-attention，STCM引入了cross-attention方式，通过追踪结构来指导纹理提取，I_in、E_out和H_out表示STCM的输入，与原始的多头注意力模块不同，STCM在两个单独的流上执行双路径注意力操作：图像完成流和结构目标流，对于图像补全流，设计了一个通道空间双轴注意力模块来捕捉通道和空间之间的相关性，STCM可以对每个流执行自注意力以捕获纹理和特定于目标的结构，STCM对两个流执行交叉注意力以融合它们的交互信息，

K_c＝αK_s+K_t (2)

V_c＝βV_s+V_t (3)

其中α和β是可学习的缩放参数，用于控制融合速率，

Attention_t(Q_t,K_c,V_c)＝V_c·Softmax(K_c·Q_t/μ_t) (4)

Attention_s(Q_s,K_s,V_s)＝V_s·Softmax(K_s·Q_s/μ_s) (5)

将纹理标记和结构标记连接起来并输入到前馈网络中，下一轮的输入，得到的特征根据通道分为结构特征和纹理特征两部分；CSPC的说明为：通道空间两轴注意力模块(CSPC)：有效地融合来自通道和空间的信息，设计了一个通道空间两轴注意力模块；将逐通道注意力和空间窗口注意力结合起来，形成双轴self-attention机制，给定一个输入特征，将其按通道分为两部分，在通道的轴上，跨通道执行自我注意，该逐通道自注意力可以定义为：

其中

其中Q_i K_i

图像补全生成的通道特征

和空间特征

该前馈网络表示为：

X＝Concat(X_st,X_ch,X_sp) (8)

其中W_p(·)表示1×1逐点卷积，W_d(·)表示3×3逐深度卷积，⊙是逐元素乘法，LN是层归一化，⊙是卷积层的两条平行路径的元素乘积，前馈网络可以混合不同的特征并控制各个层级的信息流，允许每个层级专注于补充其他层级的细节；追踪结构的Transformer对于图像修复方法核心目标是设计一个跟踪结构变换器TSFormer，允许同步提取结构和纹理特征，其中纹理是通过跟踪结构来提取，修复的图像在结构和纹理上具有一致性，避免了孔边界处的非重叠伪影，提出了一种新颖的同步自注意力方法来并行提取纹理和结构，同时提出了一种交叉注意力方法来允许它们交互，所提出的TSFormer的总体框架由两个网络组成：结构增强模块SEM和同步跟踪双轴Transformer(STT)，SEM旨在恢复图像结构，包括边缘和定向梯度(HOG)特征的直方图，提出的核心网络STT包括结构-纹理同步注意模块和通道空间双轴注意模块；一个跟踪结构Transformer(TSFormer)，它包括三个核心设计，考虑到定向梯度直方图HOG可以雕刻局部子区域的梯度方向分布和边缘方向，首先在图像修复中引入HOG，并构建结构增强模块SEM来恢复草图空间中的整体图像边缘和HOG，再次提出一个结构纹理跨注意模块STCM旨在跟踪图像结构并执行固有通信，允许特征提取更具体到结构目标，提出了一种门控机制来动态传输结构信息，在同步模块中，提出了一种新颖的通道空间双轴注意力模块CSPC，以允许有效地共同学习通道和空间视觉线索；一个跟踪结构Transformer(TSFormer)，其中包括结构增强模块SEM和同步追踪双轴Transformer(STT)，在SEM，将Edge和定向梯度直方图HOG作为结构特征，用于辅助STT网络，在STT网络中，提出一个结构纹理跨注意模块STCM旨在跟踪图像结构并执行固有通信，允许特征提取更具体到结构目标，并且在同步模块中，提出了一种新颖的通道空间双轴注意力模块CSPC，以允许有效地共同学习通道和空间视觉线索。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种用于图像修复的追踪结构的Transformer方法，其特征在于，该一种用于图像修复的追踪结构的Transformer方法包含以下步骤：

S1：令

为真实图像，M∈{0,1}^H×W×1为掩码(缺失区域为0，否则为1)，I_in＝I_gt⊙M表示损坏的图像，Y_m＝Y_gt⊙M、H_m＝H_gt⊙M和E_m＝E_gt⊙M分别表示缺失的灰色、HOG和CannyEdge图像；

2.根据权利要求1所述的一种用于图像修复的追踪结构的Transformer方法，其特征在于，所述S2中，结构增强网络(SEM)恢复图像边缘和HOG作为核心STT的辅助结构特征，输入的缺失的灰度图像Y_m、HOG图像H_m和Canny边缘E_m，应用卷积头来生成1/8大小的特征图，减少标准自注意力的计算量，基于通道的自注意力在低分辨率特征空间中捕获全局结构信息，卷积尾部采用转置卷积将这些特征上采样到输出结构E_out和H_out，

来优化预测的草图结构：

3.根据权利要求1所述的一种用于图像修复的追踪结构的Transformer方法，其特征在于，所述S3中，提出的同步追踪双轴Transformer(STT)是一种遵循编码器解码器风格的U-Net架构，结构信息有助于图像修复早期的初步轮廓恢复，设计了具有24个基本Transformer块的编码器，每个块由一个结构纹理跨注意模块(STCM)组成，其图像完成流包括一个通道空间双轴注意模块(CSPC)，设计了具有20个基本Transformer块的解码器，每个块仅包含CSPC。

4.根据权利要求3所述的一种用于图像修复的追踪结构的Transformer方法，其特征在于，所述STCM的说明为：恢复的结构特征包含完整的梯度分布和边缘方向，设计了STCM(STT的关键组件)，可以分别同步捕获对结构和纹理的远程依赖，除了self-attention，STCM引入了cross-attention方式，通过追踪结构来指导纹理提取，I_in、E_out和H_out表示STCM的输入，与原始的多头注意力模块不同，STCM在两个单独的流上执行双路径注意力操作：图像完成流和结构目标流，对于图像补全流，设计了一个通道空间双轴注意力模块来捕捉通道和空间之间的相关性，STCM可以对每个流执行自注意力以捕获纹理和特定于目标的结构，STCM对两个流执行交叉注意力以融合它们的交互信息，

将I_in编码为图像补全流的纹理标记，将E_out和H_out编码为结构目标流的结构标记，在每个特征图上执行轻量级深度卷积投影，与基于补丁的MLP嵌入方法不同，这种轻量级卷积可以为Transformer提供有用的局部感知偏置，分别对查询、键和值嵌入应用3×3深度卷积，将Q_t、K_t和V_t表示为待完成的纹理，Q_s、K_s和V_s表示为目标结构，将结构信息从结构目标流传输到图像补全流，提出了一种残差加的方法来实现交叉注意，其定义为：

K_c＝αK_s+K_t (2)

V_c＝βV_s+V_t (3)

其中α和β是可学习的缩放参数，用于控制融合速率，

Attention_t(Q_t,K_c,V_c)＝V_c·Softmax(K_c·Q_t/μ_t) (4)

Attention_s(Q_s,K_s,V_s)＝V_s·Softmax(K_s·Q_s/μ_s) (5)

5.根据权利要求1所述的一种用于图像修复的追踪结构的Transformer方法，其特征在于，所述CSPC的说明为：通道空间两轴注意力模块(CSPC)：有效地融合来自通道和空间的信息，设计了一个通道空间两轴注意力模块；将逐通道注意力和空间窗口注意力结合起来，形成双轴self-attention机制，给定一个输入特征，将其按通道分为两部分，在通道的轴上，跨通道执行自我注意，该逐通道自注意力可以定义为：

其中

其中

图像补全流生成的通道特征

和空间特征

该前馈网络表示为：

X＝Concat(X_st,X_ch,X_sp) (8)

6.根据权利要求1所述的一种用于图像修复的追踪结构的Transformer方法，其特征在于，所述一种用于图像修复的追踪结构的Transformer方法核心目标是设计一个跟踪结构Transformer(TSFormer)，允许同步提取结构和纹理特征，其中纹理是通过跟踪结构来提取，修复的图像在结构和纹理上具有一致性，避免了孔边界处的非重叠伪影，提出了一种新颖的同步自注意力方法来并行提取纹理和结构，同时提出了一种交叉注意力方法来允许它们交互，所提出的TSFormer的总体框架由两个网络组成：结构增强模块(SEM)和同步跟踪双轴Transformer(STT)，SEM旨在恢复图像结构，包括边缘和定向梯度(HOG)特征的直方图，提出的核心网络(STT)包括结构纹理跨注意模块和通道空间双轴注意模块。

7.根据权利要求6所述的一种用于图像修复的追踪结构的Transformer方法，其特征在于，所述一个跟踪结构Transformer(TSFormer)，它包括三个核心设计，考虑到定向梯度直方图(HOG)可以雕刻局部子区域的梯度方向分布和边缘方向，首先在图像修复中引入HOG，并构建结构增强模块(SEM)来恢复草图空间中的整体图像边缘和HOG，再次提出一个结构纹理跨注意模块(STCM)旨在跟踪图像结构并执行固有通信，允许特征提取更具体到结构目标，提出了一种门控机制来动态传输结构信息，在同步模块中，提出了一种新颖的通道空间双轴注意力模块(CSPC)，以允许有效地共同学习通道和空间视觉线索。

8.根据权利要求6所述的一种用于图像修复的追踪结构的Transformer方法，其特征在于，所述一个跟踪结构Transformer(TSFormer)，其中包括结构增强模块(SEM)和同步追踪双轴Transformer(STT)，在SEM，将Edge和定向梯度直方图(HOG)作为结构特征，用于辅助STT网络，在STT网络中，提出一个结构纹理跨注意模块(STCM)旨在跟踪图像结构并执行固有通信，允许特征提取更具体到结构目标，并且在同步模块中，提出了一种新颖的通道空间双轴注意力模块(CSPC)，以允许有效地共同学习通道和空间视觉线索。