CN116071226B

CN116071226B - 基于注意力网络的电镜图像配准系统及方法

Info

Publication number: CN116071226B
Application number: CN202310202779.4A
Authority: CN
Inventors: 张天柱; 冯富禹; 熊志伟; 吴枫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-07-18
Anticipated expiration: 2043-03-06
Also published as: CN116071226A

Abstract

本发明公开一种基于注意力网络的电镜图像配准系统及方法，属图像配准领域。系统包括，仿射变换预测模块，以当前待配准第张图像与上一张配准好的第张图像为输入经拼接、线性预测和仿射变换后得出线性变换后待配准图像；待配准图像特征预测模块，以配准好的张图像和线性变换后待配准图像为输入，分别经特征提取、展平拼接、Transformer编码、解码后得出当前待配准图像的预测特征；变换场预测模块，连接待配准图像特征预测模块和仿射变换预测模块，以预测特征与特征为输入，将预测特征与特征经拼接、变换场预测得出稠密变换场，对线性变换后待配准图像稠密变换得出最终配准图像。其配准结果准确，鲁棒性好。

Description

基于注意力网络的电镜图像配准系统及方法

技术领域

本发明涉及图像配准领域，尤其涉及一种基于注意力网络的电镜图像配准系统及方法。

背景技术

图像配准是一项匹配和对齐多张图像的技术，在医疗图像处理、卫星图像分析、光流估计等领域有着广泛的应用。

现有的电镜图像配准方法可以分为传统方法和深度学习的方法。对于传统方法，需要针对每一对电镜图像进行复杂费时的调整配准参数，并且传统配准方法需要迭代进行，速度很慢且效果较差，这限制了此类方法的拓展性和实用性。而深度学习方法可以从大量数据中学习电镜图像的模式，在实际应用中只需要训练完成之后就可以使用，不需要后续参数调整，并且可以达到很好的性能和推理速度。

在当前基于深度学习的电镜图像配准方法中，大多数都使用单张之前的电镜图像作为参考，但由于并没有很好地利用多张参考电镜图像的信息，会导致配准结果不准确。并且之前的电镜图像与当前电镜图像存在很大的细节差异，直接利用之前的电镜图像作为参考很难完全恢复当前电镜图像的细节，使得目前采用深度学习方法进行电镜图像配准的鲁棒性差。

有鉴于此，特提出本发明。

发明内容

本发明的目的是提供了一种基于注意力网络的电镜图像配准系统及方法，根据多张之前配准好的电镜图像，依次配准后续的电镜图像，并得出准确的配准结果，进而解决现有技术中存在的上述技术问题。

本发明的目的是通过以下技术方案实现的：

一种基于注意力网络的电镜图像配准系统，包括：

仿射变换预测模块、待配准图像特征预测模块和变换场预测模块；其中，

所述仿射变换预测模块，分别设有当前待配准图像输入端、配准好图像输入端和线性变换后待配准图像输出端，能以当前待配准图像输入端接收的当前待配准的第张图像/>与配准好图像输入端接收的上一张配准好的第/>张图像/>作为输入，将输入的两张图像沿通道维度拼接后通过线性预测得出一个六自由度的仿射变换矩阵/>，用所述仿射变换矩阵/>变换待配准的第/>张图像/>，得出线性变换后待配准图像/>经所述线性变换后待配准图像输出端输出；

所述待配准图像特征预测模块，分别设有第一线性变换后待配准图像输入端、多个配准好图像输入端、线性配准后图像特征输出端和预测图像特征输出端，所述第一线性变换后待配准图像输入端与所述仿射变换预测模块的线性变换后待配准图像输出端通信连接，能以多个配准好图像输入端接收的配准好的张图像/>和所述第一线性变换后待配准图像输入端接收的所述仿射变换预测模块输出的线性变换后待配准图像/>为输入，分别通过相同卷积神经网络进行特征提取得出每张配准好图像的特征和线性变换后待配准图像的特征/>经所述线性配准后图像特征输出端输出，将得出的各配准好图像的特征/>分别展平并拼接后经Transformer编码与Transformer解码处理后得出当前待配准第/>张图像/>的预测特征/>经所述预测图像特征输出端输出；

所述变换场预测模块，分别设有线性配准后图像特征输入端、预测图像特征输入端、第二线性变换后待配准图像输入端和配准结果图像输出端，所述线性配准后图像特征输入端与所述待配准图像特征预测模块的线性配准后图像特征输出端通信连接，所述预测图像特征输入端与所述待配准图像特征预测模块的预测图像特征输出端通信连接，所述第二线性变换后待配准图像输入端与所述仿射变换预测模块的线性变换后待配准图像输出端通信连接，能以所述待配准图像特征预测模块输出的当前待配准的第张图像/>的预测特征/>与线性变换后待配准图像的特征/>为输入，将当前待配准的第/>张图像/>的预测特征/>与线性变换后待配准图像的特征/>沿通道维度拼接后，通过变换场预测得出稠密变换场/>，用所述稠密变换场/>去变形经所述第二线性变换后待配准图像输入端接收的所述仿射变换预测模块输出的线性变换后待配准图像/>得出最终配准图像/>经配准结果图像输出端输出。

一种基于注意力网络的电镜图像配准方法，采用本发明所述的基于注意力网络的电镜图像配准系统来实现，包括以下步骤：

步骤S1，仿射变换预测处理：通过所述系统的仿射变换预测模块以当前待配准图像输入端接收的当前待配准的第张图像/>与配准好图像输入端接收的上一张配准好的第/>张图像/>作为输入，将输入的两张图像沿通道维度拼接后通过线性预测得出一个六自由度的仿射变换矩阵/>，用预测得出的所述仿射变换矩阵/>变换待配准的第张图像/>，得出线性变换后待配准图像/>；

步骤S2，待配准图像特征预测处理：通过所述系统的待配准图像特征预测模块以多个配准好图像输入端接收的配准好的张图像/>和所述第一线性变换后待配准图像输入端接收的所述仿射变换预测模块输出的线性变换后待配准图像/>为输入，分别通过相同卷积神经网络进行特征提取得出每张配准好图像的特征和线性变换后待配准图像的特征/>，将得出的各配准好图像的特征分别展平并拼接后经Transformer编码与Transformer解码处理后得出当前待配准第/>张图像/>的预测特征/>；

步骤S3，变换场预测处理：通过所述系统的变换场预测模块以所述待配准图像特征预测模块输出的当前待配准的第张图像/>的预测特征/>与线性变换后待配准图像的特征/>为输入，将当前待配准的第/>张图像/>的预测特征/>与线性变换后待配准图像的特征/>沿通道维度拼接后，通过变换场预测得出稠密变换场/>，用预测得出的稠密变换场/>去变形经所述第二线性变换后待配准图像输入端接收的所述仿射变换预测模块输出的线性变换后待配准图像/>得出最终配准图像/>。

与现有技术相比，本发明所提供的基于注意力网络的电镜图像配准系统及方法，其有益效果包括：

通过待配准图像特征预测模块建模多张参考的配准好图像之间的长程依赖关系，更好地利用多张参考的配准好图像的信息，提高配准精度；除此之外，该方法可以自适应地预测当前待配准图像的特征图，并以此作为进一步参考去预测出准确的变换场；对于模型部署，由于该方法基于深度学的范式，因此完成训练后不需要后续参数调整就可以根据不同的输入快速推理出预测结果。本发明的系统及方法能够同时利用多张参考图像去预测当前图像的特征图，用预测到的特征图去预测变形场，实现鲁棒的电镜图像配准。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于注意力网络的电镜图像配准系统的构成示意图。

图2为本发明实施例提供的基于注意力网络的电镜图像配准方法的流程图。

具体实施方式

下面结合本发明的具体内容，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，这并不构成对本发明的限制。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“和/或”是表示两者任一或两者同时均可实现，例如，X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。

除另有明确的规定或限定外，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如：可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本文中的具体含义。

术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述和简化描述，而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本文的限制。

下面对本发明所提供的基于注意力网络的电镜图像配准系统及方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

如图1所示，本发明实施例提供一种基于注意力网络的电镜图像配准系统，包括：

优选的，上述系统中，所述待配准图像特征预测模块包括：

多个相同的卷积神经网络、第二拼接子模块、Transformer编码器、Transformer解码器和全连接层；其中，

各卷积神经网络并列设置，其中，第一卷积神经网络的输入端与所述仿射变换预测模块的线性变换后待配准图像输出端连接，该第一卷积神经网络的输出端作为与所述变换场预测模块的线性配准后图像特征输入端连接的所述线性配准后图像特征输出端，能进行特征提取得到线性变换后待配准图像的特征；其余各卷积神经网络的输出端均与所述第二拼接子模块连接，各卷积神经网络能对输入的图像进行特征提取得到每张配准好图像的特征/>；

所述第二拼接子模块，其输出端与所述Transformer编码器连接，能将其余各卷积神经网络输出的各配准好图像的特征分别展平并拼接成一维序列后（展平并拼接之后的参考图像特征记作F）输出至所述Transformer编码器；

所述Transformer编码器，其输出端连接所述Transformer解码器，按以下公式进行编码处理，公式为：

；

上述各公式中的各参数含义分别为：，/>，/>分别代表transformer编码器与transformer解码器的query矩阵，key矩阵，value矩阵，用于Transformer编码器与Transformer解码器内部使用的注意力机制的计算；F为展平并拼接后的参考图像特征；/>,/> , />为全连接层，分别用于学习Transformer编码器与Transformer解码器内部使用的多头注意力机制中第i个头的query：/>，key：/>和value：/>；/>为第i个头输出的特征；是归一化指数函数；/>表示表示key矩阵/>的转置操作后的结果；/>表示防止发生梯度消失的缩放因子，取值为32；/>为全连接层，用于将所有头输出的特征映射为transformer编码器最终输出的特征/>，/>代表多头注意力机制中头的数量，是一个能调节的超参数，在本发明中取值为8；Concat()是用于连接两个或多个数组的函数；

所述Transformer解码器，其输出端与所述全连接层连接，能对所述Transformer编码器的输出预测当前图像的特征，并经全连接层后得出当前待配准第张图像/>的预测特征/>。

优选的，上述待配准图像特征预测模块中，所述Transformer解码器包含自注意力模块和跨注意力模块，其中，自注意力模块与所述Transformer编码器中的自注意力模块结构相同；跨注意力模块中的通过引入的预测query映射得到，而/>和/>通过Transformer编码器输出的特征映射得到。

优选的，上述系统中，所述仿射变换预测模块包括：

第一拼接子模块、线性预测网络模型和仿射变换输出子模块；其中，

所述第一拼接子模块，分别设置当前待配准图像输入端与配准好图像输入端，能通过所述当前待配准图像输入端接收当前待配准的第张图像/>，以及通过所述配准好图像输入端接收上一张配准好的第/>张图像/>，并将输入的两张图像沿通道维度拼接后得到拼接后图像输出；

所述线性预测网络模型，其输入端与所述第一拼接子模块的输出端连接，能对所述第一拼接子模块输出的拼接后图像进行线性预测得到一个六自由度的仿射变换矩阵；

所述仿射变换输出子模块，其设有输入端与线性变换后待配准图像输出端，输入端分别与所述第一拼接子模块的当前待配准图像输入端和所述线性预测网络模型的输出端连接，能以所述线性预测网络模型输出的仿射变换矩阵去变换所述第一拼接子模块的当前待配准图像输入端接收的当前待配准的第/>张图像/>，并经所述线性变换后待配准图像输出端输出。

优选的，上述仿射变换预测模块中，所述线性预测网络模型由依次连接的8层卷积层构成，其中，第一层卷积层的卷积核尺寸为7，通道数为64；第二到第五层卷积层的卷积核尺度均为3，通道数均为256；第六、七、八层卷积层的卷积核尺度均为3，通道数分别为256、64与6；另外，前五层卷积层后均设有ReLU激活层；

所述仿射变换矩阵变换当前待配准的第/>张图像/>的变换方式包括：平移、缩放、旋转和错切中的至少一种。

优选的，上述系统中，所述变换场预测模块包括：

第三拼接子模块、变换场预测网络模型和稠密变换输出子模块；其中，

所述第三拼接子模块，分别设有线性配准后图像特征输入端、预测图像特征输入端和输出端，能通过所述线性配准后图像特征输入端接收所述待配准图像特征预测模块输出的线性变换后待配准图像的特征，以及通过所述预测图像特征输入端接收所述待配准图像特征预测模块输出的当前待配准的第/>张图像/>的预测特征/>，并将输入的当前待配准的第/>张图像/>的预测特征/>与线性变换后待配准图像的特征沿通道维度拼接后得到拼接特征经输出端输出；

所述变换场预测网络模型，其输入端与所述第三拼接子模块的输出端连接，能对所述第三拼接子模块输出的拼接特征进行预测得出稠密变换场；

所述稠密变换输出子模块，其输入端分别与所述变换场预测网络模型的输出端和所述仿射变换预测模块的线性变换后待配准图像输出端连接，能以所述变换场预测网络模型输出的稠密变换场去变换所述仿射变换预测模块的线性变换后待配准图像输出端输出的线性变换后待配准图像/>得出最终配准图像/>。

优选的，上述变换场预测模块中，所述变换场预测网络模型由多个卷积层和多个上采样层按一个卷积层接一个上采样层的方式交替设置依次连接构成，其中最后一层上采样层的激活函数为函数。

优选的，上述系统的网络模型训练中，使用四个损失函数来约束网络模型的学习，包括：图像强度损失函数、特征预测损失函数/>、仿射变换约束损失函数/>和变换场梯度损失函数/>：

；

总损失函数为：；

其中，对应于所述仿射变换预测模块的第一次仿射变换配准结果和最终配准结果；/>对应于所述待配准图像特征预测模块；/>对应于所述仿射变换预测模块；/>对应于所述变换场预测模块；/>、/>、/>、/>为各个损失函数在总损失函数中占比的权重，取值分别是5，0.2，1，0.1；/>指使用卷积神经网络提取特征图，其中所用的卷积神经网络与用来提取/>和/>特征图的卷积神经网络相同；/>代表求二范数，代表求一范数；/>代表求梯度。

如图2所示，本发明实施例还提供一种基于注意力网络的电镜图像配准方法，采用上述的基于注意力网络的电镜图像配准系统来实现，包括以下步骤：

优选的，上述方法的步骤S2的待配准图像特征预测处理中，待配准图像特征预测模块模型通过Transformer编码器按以下公式进行编码处理，公式为：

；

上述各公式中的各参数含义分别为：，/>，/>分别代表transformer编码器与transformer解码器的query矩阵，key矩阵，value矩阵，用于Transformer编码器与Transformer解码器内部使用的注意力机制的计算；F为展平并拼接后的参考图像特征；/>,/> , />为全连接层，分别用于学习Transformer编码器与Transformer解码器内部使用的多头注意力机制中第i个头的query：/>，key：/>和value：/>；/>为第i个头输出的特征；是归一化指数函数；/>表示表示key矩阵/>的转置操作后的结果；/>表示防止发生梯度消失的缩放因子，缩放因子一般是一个超参数，通常会根据效果进行调整，在本发明中取值为32；/>为全连接层，用于将所有头输出的特征/>映射为transformer编码器最终输出的特征/>，/>代表多头注意力机制中头的数量，取值为 8；Concat()是用于连接两个或多个数组的函数；

所述方法的网络训练中，使用四个损失函数来约束各网络的学习，包括：图像强度损失函数、特征预测损失函数/>、仿射变换约束损失函数/>和变换场梯度损失函数/>：

；

总损失函数为：；

其中，对应于所述仿射变换预测模块的第一次仿射变换配准结果和最终配准结果；/>对应于所述待配准图像特征预测模块；/>对应于所述仿射变换预测模块；/>对应于所述变换场预测模块；/>指使用卷积神经网络提取特征图，其中所用的卷积神经网络与用来提取/>和/>特征图的卷积神经网络相同；/>代表求二范数，代表求一范数；/>代表求梯度；/>、/>、/>、/>为各个损失函数在总损失函数中占比的权重，取值分别是5，0.2，1，0.1。

综上可见，本发明实施例通过待配准图像特征预测模块建模多张参考的配准好图像之间的长程依赖关系，更好地利用多张参考的配准好图像的信息，提高配准精度；除此之外，该方法可以自适应地预测当前待配准图像的特征图，并以此作为进一步参考去预测出准确的变换场；对于模型部署，由于该方法基于深度学的范式，因此完成训练后不需要后续参数调整就可以根据不同的输入快速推理出预测结果。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的基于动态Transformer的电镜图像配准系统及方法进行详细描述。

实施例1

本发明实施例提供一种基于动态Transformer的电镜图像配准系统，该系统由三部分构成：（1）仿射变换预测模块；（2）待配准图像特征预测模块；（3）变换场预测模块。总体系统构成如图1所示，其中，

（1）仿射变换预测模块：

以当前待配准的第张图像/>和上一张配准好的第/>张图像/>作为输入，将这两张图像沿通道维度拼接后输入到线性预测网络，线性预测网络由多层卷积层构成的，输出一个六自由度的仿射变换矩阵/>，仿射变换可以实现图像的平移、缩放、旋转和错切等变换；随后使用预测到的仿射变换矩阵/>变换待配准的图像/>，线性变换后的待配准图像记作/>，这一步线性变换可以对图像进行初步配准，恢复待配准图像中可能存在的较大变形。

（2）待配准图像特征预测模块：

以之前配准好的张图像/>和仿射变换预测模块得到的线性变换后待配准图像/>为输入，分别通过相同的卷积神经网络对输入的各图像进行提取特征，得到每张配准好图像的特征/>以及线性变换后待配准图像的特征/>，由于Transformer编码器需要一维序列作为输入，将得到的特征分别展平并拼接后送入Transformer编码器中包含的自注意力模块中，按以下公式进行编码处理：

；

上述各公式中的各参数含义分别为：，/>，/>分别代表transformer编码器与transformer解码器的query矩阵，key矩阵，value矩阵，用于Transformer编码器与Transformer解码器内部使用的注意力机制的计算；F为展平并拼接后的参考图像特征；/>,/> , />为全连接层，分别用于学习Transformer编码器与Transformer解码器内部使用的多头注意力机制中第i个头的query：/>，key：/>和value：/>；/>为第i个头输出的特征；是归一化指数函数；/>表示表示key矩阵/>的转置操作后的结果；/>表示防止发生梯度消失的缩放因子，缩放因子一般是一个超参数，通常会根据效果进行调整，在本发明中取值为32；/>为全连接层，用于将所有头输出的特征/>映射为transformer编码器最终输出的特征/>；Concat()是用于连接两个或多个数组的函数；

随后将Transformer编码器的自注意力模块输出的特征输入到Transformer解码器中，去预测当前图像的特征图；Transformer解码器中包含自注意力模块和跨注意力模块，其中自注意力模块与上述Transformer编码器中的自注意力模块结构相同，跨注意力模块中的是通过引入的预测query映射到的，而/>和/>是通过Transformer编码器输出的特征映射得到的，随后将Transformer解码器输出的特征通过一层全连接层来预测当前图像的特征图/>。

（3）变换场预测模块：

将预测到的当前图像的特征图与待配准图像特征预测模块的卷积神经网络提取到的线性变换后待配准图像的特征/>沿通道维度拼接后，输入到变换场预测网络模型中去预测稠密变换场/>，变换场预测网络模型是由多层卷积层和上采样层构成的，其中最后一层的激活函数为/>函数，以确保变形向量的范围在-1到1之间；最终使用预测到的稠密变换场/>去变形线性变换后待配准图像/>，得到最终配准图像，记作。

（4）训练目标：使用四个损失函数来约束各网络模型的学习，包括：图像强度损失函数、特征预测损失函数/>、仿射变换约束损失函数/>和变换场梯度损失函数/>：

；

总损失函数为：；

实施例2

本实施例提供一种基于注意力网络的电镜图像配准方法，采用实施例1的基于注意力网络的电镜图像配准系统，参见图2，包括以下步骤：

步骤S1，通过实施例1系统的仿射变换预测模块进行仿射变换预测处理：具体是以当前待配准图像输入端接收的当前待配准的第张图像/>与配准好图像输入端接收的上一张配准好的第/>张图像/>作为输入，将输入的两张图像沿通道维度拼接后通过线性预测得出一个六自由度的仿射变换矩阵/>，用预测得出的所述仿射变换矩阵/>变换待配准的第/>张图像/>，得出线性变换后待配准图像/>；

步骤S2，通过实施例1系统的待配准图像特征预测模块进行待配准图像特征预测处理：具体是以多个配准好图像输入端接收的配准好的张图像/>和所述第一线性变换后待配准图像输入端接收的所述仿射变换预测模块输出的线性变换后待配准图像/>为输入，分别通过相同卷积神经网络进行特征提取得出每张配准好图像的特征/>和线性变换后待配准图像的特征/>，将得出的各配准好图像的特征分别展平并拼接后经Transformer编码与Transformer解码处理后得出当前待配准第/>张图像/>的预测特征/>；

步骤S3，通过实施例1系统的变换场预测模块进行变换场预测处理：具体是以所述待配准图像特征预测模块输出的当前待配准的第张图像/>的预测特征/>与线性变换后待配准图像的特征/>为输入，将当前待配准的第/>张图像/>的预测特征与线性变换后待配准图像的特征/>沿通道维度拼接后，通过变换场预测得出稠密变换场/>，用预测得出的稠密变换场/>去变形经所述第二线性变换后待配准图像输入端接收的所述仿射变换预测模块输出的线性变换后待配准图像/>得出最终配准图像。

在上述步骤S2的待配准图像特征预测处理中，待配准图像特征预测模块模型通过Transformer编码器按以下公式进行编码处理，公式为：

；

上述各公式中的各参数含义分别为：，/>，/>分别代表transformer编码器与transformer解码器的query矩阵，key矩阵，value矩阵，用于Transformer编码器与Transformer解码器内部使用的注意力机制的计算；F为展平并拼接后的参考图像特征；/>,/> , />为全连接层，分别用于学习Transformer编码器与Transformer解码器内部使用的多头注意力机制中第i个头的query：/>，key：/>和value：/>；/>为第i个头输出的特征；是归一化指数函数；/>表示表示key矩阵/>的转置操作后的结果；/>表示防止发生梯度消失的缩放因子，取值为32；/>为全连接层，用于将所有头输出的特征映射为transformer编码器最终输出的特征/>，/>代表多头注意力机制中头的数量，是一个能调节的超参数，在本发明中取值为8；Concat()是用于连接两个或多个数组的函数。

本实施例方法对系统的各网络模型训练中，使用四个损失函数来约束各网络模型的学习，包括：图像强度损失函数、特征预测损失函数/>、仿射变换约束损失函数/>和变换场梯度损失函数/>：/>

；

总损失函数为：；

其中，对应于所述仿射变换预测模块的第一次仿射变换配准结果和最终配准结果；/>对应于所述待配准图像特征预测模块；/>对应于所述仿射变换预测模块；/>对应于所述变换场预测模块；/>指使用卷积神经网络提取特征图，其中所用的卷积神经网络与用来提取/>和/>特征图的卷积神经网络相同；/>代表求二范数，代表求一范数；/>代表求梯度；/> 、/>、/>为各个损失函数在总损失函数中占比的权重，取值分别是5，0.2，1，0.1。

综上可见，本发明实施例的系统及方法与现有技术相比，可以通过待配准图像特征预测模块配合建模多张参考配准好图像之间的长程依赖关系，更好地利用多张参考配准好图像的信息，提高配准精度；除此之外，该方法可以自适应地预测当前待配准图像的特征图，并以此作为进一步参考去预测出准确的变换场；对于模型部署，由于该方法基于深度学的范式，因此完成训练后不需要后续参数调整就可以根据不同的输入快速推理出预测结果。

本发明可以应用于电镜图像配准相关的应用系统中，对输入的图像根据参考图像进行配准。在实施上，可以以软件形式嵌入到移动设备中，提供实时配准结果；也可以安装在后台服务器中，提供大批量电镜图像配准结果。

本领域普通技术人员可以理解：实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

Claims

1.一种基于注意力网络的电镜图像配准系统，其特征在于，包括：

所述待配准图像特征预测模块，分别设有第一线性变换后待配准图像输入端、多个配准好图像输入端、线性配准后图像特征输出端和预测图像特征输出端，所述第一线性变换后待配准图像输入端与所述仿射变换预测模块的线性变换后待配准图像输出端通信连接，能以多个配准好图像输入端接收的配准好的张图像/>和所述第一线性变换后待配准图像输入端接收的所述仿射变换预测模块输出的线性变换后待配准图像为输入，分别通过相同卷积神经网络进行特征提取得出每张配准好图像的特征和线性变换后待配准图像的特征/>经所述线性配准后图像特征输出端输出，将得出的各配准好图像的特征/>分别展平并拼接后经Transformer编码与Transformer解码处理后得出当前待配准第/>张图像/>的预测特征/>经所述预测图像特征输出端输出；

所述变换场预测模块，分别设有线性配准后图像特征输入端、预测图像特征输入端、第二线性变换后待配准图像输入端和配准结果图像输出端，所述线性配准后图像特征输入端与所述待配准图像特征预测模块的线性配准后图像特征输出端通信连接，所述预测图像特征输入端与所述待配准图像特征预测模块的预测图像特征输出端通信连接，所述第二线性变换后待配准图像输入端与所述仿射变换预测模块的线性变换后待配准图像输出端通信连接，能以所述待配准图像特征预测模块输出的当前待配准的第张图像/>的预测特征/>与线性变换后待配准图像的特征/>为输入，将当前待配准的第/>张图像/>的预测特征/>与线性变换后待配准图像的特征/>沿通道维度拼接后，通过变换场预测得出稠密变换场/>，用所述稠密变换场/>去变形经所述第二线性变换后待配准图像输入端接收的所述仿射变换预测模块输出的线性变换后待配准图像/>得出最终配准图像经配准结果图像输出端输出。

2.根据权利要求1所述的基于注意力网络的电镜图像配准系统，其特征在于，所述待配准图像特征预测模块包括：

所述第二拼接子模块，其输出端与所述Transformer编码器连接，能将其余各卷积神经网络输出的各配准好图像的特征分别展平并拼接成一维序列后输出至所述Transformer编码器；

;

上述各公式中的各参数含义分别为：，/>，/>分别代表transformer编码器与transformer解码器的query矩阵，key矩阵，value矩阵，用于Transformer编码器与Transformer解码器内部使用的注意力机制的计算；F为展平并拼接后的参考图像特征；/>,/>,/>为全连接层，分别用于学习Transformer编码器与Transformer解码器内部使用的多头注意力机制中第i个头的query：/>，key：/>和value：/>；/>为第i个头输出的特征；()是归一化指数函数；/>表示表示key矩阵/>的转置操作后的结果；/>表示防止发生梯度消失的缩放因子，取值为32；/>为全连接层，用于将所有头输出的特征映射为transformer编码器最终输出的特征/>，/>代表多头注意力机制中头的数量，取值为 8；Concat()是用于连接两个或多个数组的函数；

3.根据权利要求2所述的基于注意力网络的电镜图像配准系统，其特征在于，所述Transformer解码器包含自注意力模块和跨注意力模块，其中，自注意力模块与所述Transformer编码器中的自注意力模块结构相同；跨注意力模块中的通过引入的预测query映射得到，而/>和/>通过Transformer编码器输出的特征映射得到。

4.根据权利要求1-3任一项所述的基于注意力网络的电镜图像配准系统，其特征在于，所述仿射变换预测模块包括：

5.根据权利要求4所述的基于注意力网络的电镜图像配准系统，其特征在于，所述线性预测网络模型由依次连接的8层卷积层构成，其中，第一层卷积层的卷积核尺寸为7，通道数为64；第二到第五层卷积层的卷积核尺度均为3，通道数均为256；第六、七、八层卷积层的卷积核尺度均为3，通道数分别为256、64与6；另外，前五层卷积层后均设有ReLU激活层；

6.根据权利要求1-3任一项所述的基于注意力网络的电镜图像配准系统，其特征在于，所述变换场预测模块包括：

所述第三拼接子模块，分别设有线性配准后图像特征输入端、预测图像特征输入端和输出端，能通过所述线性配准后图像特征输入端接收所述待配准图像特征预测模块输出的线性变换后待配准图像的特征，以及通过所述预测图像特征输入端接收所述待配准图像特征预测模块输出的当前待配准的第/>张图像/>的预测特征/>，并将输入的当前待配准的第/>张图像/>的预测特征/>与线性变换后待配准图像的特征/>沿通道维度拼接后得到拼接特征经输出端输出；

7.根据权利要求6所述的基于注意力网络的电镜图像配准系统，其特征在于，所述变换场预测网络模型由多个卷积层和多个上采样层按一个卷积层接一个上采样层的方式交替设置依次连接构成，其中最后一层上采样层的激活函数为函数。

8.根据权利要求6所述的基于注意力网络的电镜图像配准系统，其特征在于，所述系统的网络训练中，使用四个损失函数来约束网络的学习，包括：图像强度损失、特征预测损失函数/>、仿射变换约束损失函数/>和变换场梯度损失函数/>：

；/>；/>；/>；总损失函数为：/>；

其中，对应于所述仿射变换预测模块的第一次仿射变换配准结果和最终配准结果；对应于所述待配准图像特征预测模块；/>对应于所述仿射变换预测模块；/>对应于所述变换场预测模块；/>、/>、/>、/>为各个损失函数在总损失函数中占比的权重，取值分别是5，0.2，1，0.1；CNN(/>)指使用卷积神经网络提取特征图，其中所用的卷积神经网络与用来提取/>和/>特征图的卷积神经网络相同；/>·/>代表求二范数，/>·/>代表求一范数；/>代表求梯度。

9.一种基于注意力网络的电镜图像配准方法，其特征在于，采用权利要求1-8任一项所述的基于注意力网络的电镜图像配准系统来实现，包括以下步骤：

步骤S1，仿射变换预测处理：通过所述系统的仿射变换预测模块以当前待配准图像输入端接收的当前待配准的第张图像/>与配准好图像输入端接收的上一张配准好的第/>张图像/>作为输入，将输入的两张图像沿通道维度拼接后通过线性预测得出一个六自由度的仿射变换矩阵/>，用预测得出的所述仿射变换矩阵/>变换待配准的第/>张图像/>，得出线性变换后待配准图像/>；

步骤S2，待配准图像特征预测处理：通过所述系统的待配准图像特征预测模块以多个配准好图像输入端接收的配准好的张图像/>和所述第一线性变换后待配准图像输入端接收的所述仿射变换预测模块输出的线性变换后待配准图像/>为输入，分别通过相同卷积神经网络进行特征提取得出每张配准好图像的特征/>和线性变换后待配准图像的特征/>，将得出的各配准好图像的特征/>分别展平并拼接后经Transformer编码与Transformer解码处理后得出当前待配准第/>张图像的预测特征/>；

10.根据权利要求9所述的基于注意力网络的电镜图像配准方法，其特征在于，所述步骤S2中的待配准图像特征预测处理中，待配准图像特征预测模块模型通过Transformer编码器按以下公式进行编码处理，公式为：

;

；/>；/>；/>；总损失函数为：/>；

其中，对应于所述基于注意力网络的电镜图像配准系统的仿射变换预测模块的第一次仿射变换配准结果和最终配准结果；/>对应于所述基于注意力网络的电镜图像配准系统的待配准图像特征预测模块；/>对应于所述基于注意力网络的电镜图像配准系统的仿射变换预测模块；/>对应于所述基于注意力网络的电镜图像配准系统的变换场预测模块；/>、、/>、/>为各个损失函数在总损失函数中占比的权重，取值分别是5，0.2，1，0.1；CNN()指使用卷积神经网络提取特征图，其中所用的卷积神经网络与用来提取和/>特征图的卷积神经网络相同；/>·/>代表求二范数，/>·/>代表求一范数；/>代表求梯度。