CN113689544A

CN113689544A - 一种跨视图几何约束的医学影像三维重建方法

Info

Publication number: CN113689544A
Application number: CN202110881600.3A
Authority: CN
Inventors: 全红艳; 董家顺
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-11-23
Anticipated expiration: 2041-08-02
Also published as: CN113689544B

Abstract

本发明公开了一种跨视图几何约束的医学影像三维重建方法，本发明的特点是建立跨视图Transformer网络结构，借助于自然图像的成像规律，采用无监督迁移学习，设计基于卷积神经网络结构的跨视图Transformer，在注意力矩阵计算时采用计算机视觉多视几何的约束方法，使注意力矩阵在多视图几何约束的条件下，在多视图之间对特征学习过程中能够产生准确的对应关系，有利于提高对上下文特征的理解，实现医学影像的三维几何重建，利用超声或CT不同模态的医学影像进行验证，可以得到较精准的三维结构，本发明可以为临床医学辅助诊断提供有效的可视化的策略。

Description

一种跨视图几何约束的医学影像三维重建方法

技术领域

本发明属于计算机技术领域，涉及医疗辅助诊断中医学影像三维可视化技术，发明中采用新的技术手段，建立跨视图视觉Transformer的网络结构，利用人工智能的迁移学习策略，借助于自然图像的成像规律，迁移网络学习的特征，有效地实现超声或CT影像的三维重建。

背景技术

近年来，日益发展的人工智能医疗技术已经成为辅助医学发展的重要手段，智能医学影像辅助诊断的关键技术在现代临床的诊断中起着重要的作用，其中，超声或CT影像的三维重建技术可以在辅助诊断中提高医生的诊断效率，降低误诊的概率，但是，由于医学影像存在着少纹理多噪声的客观事实，特别是对于超声或CT影像，摄像机的参数恢复存在一定的难度，导致目前超声或CT影像的三维重建技术的研究存在一定难点，因此，如何建立有效的深度学习的网络编码模型，来解决医学影像重建中几何恢复的疑难问题，亟待解决。

发明内容

本发明目的是提供一种跨视图几何约束的超声或CT影像三维重建方法，采用跨视图视觉Transformer基本网络，设计了基于几何约束的超声或CT医学影像三维重建方法，另外，利用对极几何的视觉约束，并结合跨视图之间的注意力学习机制，可以获得较为精细的医学目标的三维结构，具有较高的实用价值。

实现本发明目的的具体技术方案是：

一种跨视图几何约束的医学影像三维重建方法，该方法输入一个超声或者CT影像序列，其影像分辨率为M×N，100≤M≤2000，100≤N≤2000，三维重建的过程具体包括以下步骤：

步骤1：构建数据集

(a)构建自然图像数据集

选取一个自然图像网站，要求具有图像序列及对应的摄像机内部参数，从所述自然图像网站下载a个图像序列及序列对应的内部参数,1≤a≤20,对于每个图像序列，每相邻3帧图像记为图像b、图像c和图像d，将图像b和图像d按照颜色通道进行拼接，得到图像τ，由图像c与图像τ构成一个数据元素，图像c为自然目标图像，图像c的采样视点作为目标视点，图像b、图像c和图像d的内部参数均为v_t(t＝1，2，3，4)，其中v₁为水平焦距，v₂为垂直焦距，v₃及v₄是主点坐标的两个分量；如果同一图像序列中最后剩余图像不足3帧，则舍弃；利用所有序列构建自然图像数据集，所构建的自然图像数据集中有f个元素，而且3000≤f≤20000；

(b)构建超声影像数据集

采样g个超声影像序列，其中1≤g≤20，对于每个序列，每相邻3帧影像记为影像i、影像j和影像k，将影像i和影像k按照颜色通道进行拼接得到影像π，由影像j与影像π构成一个数据元素，影像j为超声目标影像,影像j的采样视点作为目标视点，如果同一影像序列中最后剩余影像不足3帧，则舍弃，利用所有序列构建超声影像数据集，所构建的超声影像数据集中有F个元素，而且1000≤F≤20000；

(c)构建CT影像数据集

采样h个CT影像序列，其中1≤h≤20，对于每个序列，每相邻3帧记为影像l、影像m和影像n，将影像l和影像n按照颜色通道进行拼接得到影像σ，由影像m与影像σ构成一个数据元素，影像m为CT目标影像,影像m的采样视点作为目标视点，如果同一影像序列中最后剩余影像不足3帧，则舍弃，利用所有序列构建CT影像数据集，所构建的CT影像数据集中有ξ个元素，而且1000≤ξ≤20000；

步骤2：构建神经网络

网络输入的图像或影像的分辨率均为p×o，p为宽度，o为高度，以像素为单位，100≤o≤2000，100≤p≤2000；

(1)几何约束跨视图Transformer学习网络A

网络A作为双分支孪生网络的基本结构，网络A的结构由一个主干网络和5个网络分支构成，对于主干网络，张量J、张量C和变量X作为输入，张量J、张量C的尺度分别为α×o×p×3和α×o×p×6，变量X是一个布尔类型变量，5个网络分支分别预测张量L、张量O、张量W、张量B和张量D，张量L尺度为α×2×6，张量O尺度为α×4×1，张量W尺度为α×o×p×1，张量B尺度为α×o×p×4，张量D的尺度为α×3，α为批次数量；

主干网络设计为依次进行的3个阶段跨视图编码：

1)第1个阶段的跨视图编码包括第1个阶段的嵌入编码和第1个阶段注意力编码：

第1个阶段的嵌入编码，分别将张量J、张量C的最后一个维度的前3个特征分量、张量C最后一个维度的后3个特征分量进行卷积运算，卷积核尺度为7×7，特征通道数为32，序列化处理将编码特征从图像特征空域形状变换为序列结构，层归一化处理，分别得到第1个阶段嵌入编码1、第1个阶段嵌入编码2和第1个阶段嵌入编码3；

第1个阶段注意力编码，将第1个阶段嵌入编码1与第1个阶段嵌入编码2按照最后一个维度进行串接，得到注意力编码输入特征1；将第1个阶段嵌入编码1与第1个阶段嵌入编码3按照最后一个维度进行串接，得到第1个阶段注意力编码输入特征2；将第1个阶段嵌入编码2与第1个阶段嵌入编码1按照最后一个维度进行串接，得到第1个阶段注意力编码输入特征3；将第1个阶段嵌入编码3与第1个阶段嵌入编码1按照最后一个维度进行串接，得到第1个阶段注意力编码输入特征4；将所述第1个阶段注意力编码的4个输入特征，分别进行注意力编码处理：将第1个阶段每个注意力编码输入特征按照最后一个维度将前一半通道特征作为目标编码特征，将后一半通道特征作为源编码特征，将目标编码特征和源编码特征分别进行可分离的卷积运算，其中卷积核尺度均为3×3，特征通道数为32，水平方向及垂直方向的步长均为1，将目标编码特征的处理结果从图像特征的空域形状拉伸为序列化形式，作为注意力学习的查询关键词K编码向量和数值V编码向量，将源编码特征的处理结果从图像特征的空域形状拉伸为序列化形式，作为注意力学习的查询Q编码向量；

当网络A作为两分支孪生网络的第1个分支时，输入变量X为False，执行a)；当网络A作为两分支孪生网络的第2个分支时，输入变量X为True，执行b)；执行a)或b)均获得第1个阶段每个注意力编码输入特征的跨视图编码特征；

a)利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为1，特征通道数为32，最后，将第1个阶段每个注意力编码输入特征的注意力权重矩阵与每个注意力编码输入特征的目标编码特征相加得到第1个阶段每个注意力编码输入特征的跨视图编码特征；

b)首先，计算跨视图加权矩阵R：

利用孪生网络的第1个分支输出的结果张量L和O，作为摄像机的位姿参数和内部参数，根据计算机视觉原理，计算基本矩阵U，再利用U计算跨视图误差矩阵Y：

Y＝xUq (1)

其中，x是源编码特征的空域位置矩阵，其尺度为w×3，w是源编码特征的处理结果序列化以后的编码序列的长度，x的元素为源编码特征处理结果中像素位置在设备坐标系下的归一化坐标，q是x的转置矩阵，Y的尺度是w×w；

利用Y计算跨视图加权矩阵R，R的尺度与Y相同，它的每个元素计算为e^-y,y是Y中所述元素位置的值，所述e是自然对数的底数，再对矩阵R进行归一化处理；

然后，利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为1，特征通道数为32，将所得到的注意力权重矩阵与跨视图加权矩阵R相乘，得到第1个阶段每个注意力编码输入特征的注意力权重矩阵，再将其与所述目标编码特征相加得到第1个阶段每个注意力编码输入特征的跨视图编码特征；

利用所述4个跨视图编码特征的第1个和第2个特征的平均特征作为第1个阶段跨视图跨层特征；将所述第1个阶段跨视图跨层特征、第1个阶段第3个跨视图编码特征、第1个阶段第4个跨视图编码特征作为第1个阶段跨视图编码结果；将所述第1个阶段跨视图编码结果作为第2个阶段跨视图编码输入，将所述第1个阶段跨视图编码结果按照最后一个维度进行串接得到第1个阶段串接编码结果；

2)第2个阶段的跨视图编码包括第2个阶段的嵌入编码和第2个阶段注意力编码：

第2个阶段的嵌入编码，将第1个阶段跨视图编码结果中的每个特征进行嵌入编码：卷积核尺度为3×3，特征通道数为64，水平方向及垂直方向的步长均为2，序列化处理将编码特征从图像特征空域形状变换为序列结构，特征的层归一化处理，得到第2个阶段嵌入编码1、第2个阶段嵌入编码2和第2个阶段嵌入编码3；

第2个阶段注意力编码，将第2个阶段嵌入编码1与第2个阶段嵌入编码2按照最后一个维度进行串接，得到第2阶注意力编码输入特征1；将第2个阶段嵌入编码1与第2个阶段嵌入编码3按照最后一个维度进行串接，得到第2个阶段注意力编码输入特征2；将第2个阶段嵌入编码2与第2个阶段嵌入编码1按照最后一个维度进行串接，得到第2个阶段注意力编码输入特征3；将第2个阶段嵌入编码3与第2个阶段嵌入编码1按照最后一个维度进行串接，得到第2个阶段注意力编码输入特征4；将每个注意力编码输入特征，按照最后一个维度，将前一半通道特征作为目标编码特征，将后一半通道特征作为源编码特征，将目标编码特征和源编码特征分别进行可分离的卷积运算，卷积核尺度为3×3，特征通道数为64，水平方向及垂直方向的步长均为2，将目标编码特征的处理结果从图像特征的空域形状拉伸为序列化形式，作为注意力学习的查询关键词K编码向量和数值V编码向量，将源编码特征的处理结果从图像特征的空域形状拉伸为序列化形式，作为注意力学习的查询Q编码向量；

a)利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为3，特征通道数为64，最后，将第2个阶段每个注意力编码输入特征的注意力权重矩阵与每个注意力编码输入特征的目标编码特征相加得到第2个阶段每个注意力编码输入特征的跨视图编码特征；

b)首先，计算跨视图加权矩阵R′：

利用孪生网络的第1个分支输出的结果张量L和O，作为摄像机的位姿参数和内部参数，根据计算机视觉原理，计算基本矩阵U′，再利用U′计算跨视图误差矩阵Y′：

Y′＝x′U′q′ (2)

其中，x′是源编码特征的空域位置矩阵，其尺度为w′×3,w′是源编码特征的处理结果序列化以后的编码序列的长度，x′的元素为源编码特征处理结果中像素位置在设备坐标系下的归一化坐标，q′是x′的转置矩阵，Y′的尺度是w′×w′；

利用Y′计算跨视图加权矩阵R′，R′的尺度与Y′相同，它的每个元素计算为e^-y′,y′是Y′中所述元素位置的值，所述e是自然对数的底数，再对矩阵R′进行归一化处理；

然后，利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为3，特征通道数为64，将所得到的注意力权重矩阵与跨视图加权矩阵R′相乘，得到第2个阶段每个注意力编码输入特征的注意力权重矩阵，再将其与每个注意力编码输入特征的目标编码特征相加得到第2个阶段每个注意力编码输入特征的跨视图编码特征；

利用所述4个跨视图编码特征的第1个和第2个特征的平均特征作为第2个阶段跨视图跨层特征；将所述第2个阶段跨视图跨层特征、第2个阶段第3个跨视图编码特征、第2个阶段第4个跨视图编码特征作为第2个阶段跨视图编码结果；将所述第2个阶段跨视图编码结果作为第3个阶段跨视图编码输入，将所述第2个阶段跨视图编码结果按照最后一个维度进行串接得到第2个阶段串接编码结果；

3)第3个阶段的跨视图编码包括第3个阶段的嵌入编码和第3个阶段注意力编码

第3个阶段的嵌入编码，将第2个阶段跨视图编码结果中的每个特征进行嵌入编码处理：卷积运算，卷积核尺度为3×3，特征通道数为128，水平方向及垂直方向的步长均为2，序列化处理将编码特征从图像特征空域形状变换为序列结构，特征的层归一化处理，得到第3个阶段嵌入编码1、第3个阶段嵌入编码2和第3个阶段嵌入编码3；

第3个阶段注意力编码，将第3个阶段嵌入编码1与第3个阶段嵌入编码2按照最后一个维度进行串接，得到第3阶注意力编码输入特征1；将第3个阶段嵌入编码1与第3个阶段嵌入编码3按最后一个维度进行串接，得到第3个阶段注意力编码输入特征2；将第3个阶段嵌入编码2与第3个阶段嵌入编码1按照最后一个维度进行串接，得到第3个阶段注意力编码输入特征3；将第3个阶段嵌入编码3与第3个阶段嵌入编码1按照最后一个维度进行串接，得到第3个阶段注意力编码输入特征4；将每个注意力编码输入特征，按照最后一个维度，将前一半通道特征作为目标编码特征，将后一半通道特征作为源编码特征，将目标编码特征和源编码特征分别进行可分离的卷积运算，其中卷积核尺度为3×3，特征通道数为128，水平方向及垂直方向的步长均为2，将目标编码特征的处理结果从图像特征的空域形状拉伸为序列化形式，作为注意力学习的查询关键词K编码向量和数值V编码向量，将源编码特征的处理结果从图像特征的空域形状拉伸为序列化形式，作为注意力学习的查询Q编码向量；

a)利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为6，特征通道数为128，最后，将第3个阶段每个注意力编码输入特征的注意力权重矩阵与每个注意力编码输入特征的目标编码特征相加得到第3个阶段每个注意力编码输入特征的跨视图编码特征；

b)首先，计算跨视图加权矩阵R″：

利用孪生网络的第1个分支输出的结果张量L和O，作为摄像机的位姿参数和内部参数，根据计算机视觉原理，计算基本矩阵U″，再利用U″计算跨视图误差矩阵Y″：

Y″＝x″U″q″ (3)

其中，x″是源编码特征的空域位置矩阵，其尺度为w″×3,w″是源编码特征的处理结果序列化以后的编码序列的长度，x″的元素为源编码特征处理结果中像素位置在设备坐标系下的归一化坐标，q″是x″的转置矩阵，Y″的尺度是w″×w″；

利用Y″计算跨视图加权矩阵R″，R″的尺度与Y″相同，它的每个元素计算为e^-y″,y″是Y″中所述元素位置的值，所述e是自然对数的底数，再对矩阵R″进行归一化处理；

然后，利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为6，特征通道数为128，将得到的注意力权重矩阵与跨视图加权矩阵R″相乘，得到第3个阶段每个注意力编码输入特征的的注意力权重矩阵，再将其与每个注意力编码输入特征的目标编码特征相加得到第3个阶段每个注意力编码输入特征的跨视图编码特征；

利用所述跨视图编码特征的第1个和第2个特征的平均特征作为第3个阶段跨视图跨层特征；将所述第3个阶段跨视图跨层特征、第3个阶段第3个跨视图编码特征、第3个阶段第4个跨视图编码特征作为第3个阶段跨视图编码结果；将所述第3个阶段跨视图编码结果按照最后一个维度进行串接得到第3个阶段串接编码结果；

对于第1个网络分支，将第1个阶段串接编码结果依次进行2个单元处理：在第1个单元处理中，卷积运算的特征通道数为16，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；将所得到的特征依次进行2个单元处理：在第1个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为64，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；然后，将所得到的特征与第3个阶段串接编码结果相串接，进行3个单元处理：在第1个单元处理中，卷积运算的特征通道数为64，卷积核尺度均为7×7，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第3个单元处理中，卷积运算的特征通道数为12，卷积核尺度均为1×1，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；将所得的12通道的特征结果按照2×6的形式进行预测，得到张量L的结果；

对于第2个网络分支，将第1个阶段串接编码结果依次进行2个单元的处理：在第1个单元处理中，卷积的特征通道数为16，卷积核尺度为7×7，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积的特征通道数为32，卷积核尺度为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；然后将所得到的特征与第2个阶段串接编码结果相串接，进行2个单元的处理：在第1个单元处理中，卷积的特征通道数为32，卷积核尺度为7×7，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在2个单元处理中，卷积的特征通道数为64，卷积核尺度为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理，将所得到的特征与第3个阶段串接编码结果相串接，进行3个单元的处理：在第1个单元处理中，卷积的特征通道数为64，卷积核尺度为7×7，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第2个单元处理中，卷积的特征通道数为128，卷积核尺度为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第3个单元处理中，卷积的特征通道数为4，卷积核尺度为1×1，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理，将所得的4通道特征作为张量O的结果；

对于第3个网络分支，将第1个阶段跨视图跨层特征输入，依次进行3个单元处理：在第1个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理，在第2个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理，在第3个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理，然后进行1次反卷积运算，卷积的特征通道数为16，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，得到第3个网络分支的第1跨层特征；

对第3个网络分支跨层特征初始化：将主干网络的将第1个阶段跨视图跨层特征作为第3个网络分支的第2跨层特征；将主干网络的第2个阶段跨视图跨层特征作为第3个网络分支的第3跨层特征；将主干网络的第3个阶段跨视图跨层特征作为第3个网络分支的第4跨层特征；再将主干网络的第1个阶段跨视图跨层特征经过第1次残差编码处理，包括3次卷积运算，其通道特征数分别为64、64和256个，卷积核的形状分别为1×1、3×3和1×1，然后，依次进行2个单元处理：在第1个单元处理中，卷积运算的特征通道数为192，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为192，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，作为第3个网络分支的第5跨层特征；将第5跨层特征进行1次残差编码处理，具体进行3次卷积运算，这3次卷积运算中通道特征数分别为512、512和2048个，卷积核的形状分别为1×1、3×3和1×1，然后将所得到的特征依次进行6个单元处理过程：

在第1个单元处理时，上采样卷积处理，特征通道数为512，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第3个网络分支的第5跨层特征相串接，进一步将所述串接特征进行卷积处理，卷积的特征通道数为512，卷积的核形状为3×3；

在第2个单元处理时，上采样卷积处理，特征通道数为256，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第3个网络分支的第4跨层特征相串接，将得到的特征再进行卷积处理，卷积的特征通道数为256，卷积的核形状为3×3；

在第3个单元处理时，上采样卷积处理，特征通道数为128，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第3个网络分支的第3跨层特征相串接，将所述串接特征进行卷积处理，卷积的特征通道数为128，卷积的核形状为3×3，将所得的特征输入到4个单元处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量W的第4个尺度的结果；

在第4个单元处理时，上采样卷积处理，特征通道数为64，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第3个网络分支的第2跨层特征、在第3个单元处理时的2×2上采样特征相串接，将所述串接特征进行卷积处理，卷积的特征通道数为64，卷积的核形状为3×3，将所得的特征输入到第5个单元处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量W的第3个尺度的结果；

在第5个单元处理时，上采样卷积处理，特征通道数为32，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征分别与第3个网络分支的第1跨层特征、在第4个单元时过程的2×2上采样特征相串接，再将所述串接特征输入到第6个单元进行处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量W的第2个尺度的结果；

在第6个单元处理时，上采样卷积处理，特征通道数为16，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与在第5个单元处理时的2×2上采样特征相串接，再将所述串接特征通过核为3×3的卷积运算，预测为张量W的第1个尺度的结果；

利用第1至第4个尺度的结果作为张量W的结果；

对于第4个网络分支，将第1个阶段跨视图跨层特征进行一次反卷积运算、特征激活、批归一化处理，反卷积运算中，卷积的特征通道数为16，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2；将得到的结果记为解码器跨层特征1，再将第1个阶段跨视图跨层特征进行以下2个单元的处理：第1个单元处理时，卷积运算特征通道数为32，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，并将处理特征记为解码器跨层特征2；第2个单元处理，卷积运算，特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的特征与第2个阶段跨视图跨层特征进行串接，将所述串接结果依次进行以下2个单元的处理：第1个单元处理时，卷积的特征通道数为64，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，并将处理特征记为解码器跨层特征3；第2个单元处理时，卷积的特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2,然后将所得到的特征与第3个阶段跨视图跨层特征进行串接，再依次进行以下3个单元处理，第1个单元处理时，卷积的特征通道数为128，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，并将处理特征记为解码器跨层特征4；第2个单元处理时，卷积的特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，将并将处理特征记为解码器跨层特征5；第3个单元处理时，卷积的特征通道数为512个，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，处理后得到第4个网络分支编码特征；

进行解码处理为：将所述第4个网络分支编码特征进行1次反卷积运算：卷积的特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，并将得到的结果与解码器跨层特征5相串接，进行一次卷积运算：特征通道数为512，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的结果进行反卷积运算：特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的结果与解码器跨层特征4相串接，进行一次卷积运算：特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的结果进行一次进行反卷积运算：特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的结果与解码器跨层特征3相串接，进行一次卷积运算：特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第4个尺度结果，同时，将所得到的特征进行1次反卷积运算，反卷积的特征通道数为64，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的特征与解码器跨层特征2相串接，进行一次卷积运算：特征通道数为64，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第3个尺度结果，同时，将所得到的特征进行1次反卷积运算：反卷积的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，再将所得到的特征与解码器跨层特征1相串接，然后进行一次卷积运算：特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第2个尺度结果，同时，将所得到的特征进行1次反卷积运算：特征通道数为16，卷积核尺度均为7×7，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的特征与第3个尺度特征的上采样结果进行相串接，然后进行一次卷积运算：特征通道数为16，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第1个尺度结果，利用所述张量B的4个尺度结果，得到第4个网络分支的输出；

对于第5个网络分支，将第3个阶段串接编码结果依次进行4个单元处理：在第1个单元处理中，卷积运算的特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为512，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第3个单元处理中，卷积运算的特征通道数为1024，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2；在第4个单元处理中，卷积运算的特征通道数为3，卷积核尺度均为1×1，水平方向及垂直方向的步长均为1，将所得到的特征作为张量D的结果；

(2)孪生网络S

孪生网络S的结构由孪生分支1和孪生分支2构成，孪生分支1和孪生分支2均以网络A为基本架构；

对于孪生网络S，张量J、张量C作为输入，张量J、张量C的尺度分别为α×o×p×3和α×o×p×6，将孪生网络S的输入张量依次采用孪生分支1和孪生分支2进行学习，然后得到的输出为张量L、张量O、张量W、张量B和张量D，张量L尺度为α×2×6，张量O尺度为α×4×1，张量W尺度为α×o×p×1，张量B尺度为α×o×p×4，张量D的尺度为α×3，α为批次数量；

首先，将孪生网络S的输入张量J和张量C，利用孪生分支1进行学习：

布尔类型变量X设置为False，与张量J、张量C一起输入到孪生分支1，进行学习后，得到孪生分支1的输出；

然后，将网络S的输入张量J和张量C，利用孪生分支2进行学习：

布尔类型变量X设置为True，与张量J、张量C一起输入到孪生分支2，进行学习，在孪生分支2的学习过程中，在跨视图误差矩阵以及跨视图加权矩阵的计算中，采用孪生分支1输出的张量L和张量O分别作为位姿参数和摄像机内部参数，经过孪生分支2学习后，得到孪生网络S的输出；

步骤3：神经网络的训练

分别将自然图像数据集、超声影像数据集和CT影像数据集中样本按照9:1划分为训练集和测试集，训练集中数据用于训练，测试集数据用于测试，在训练时，分别从对应的数据集中获取训练数据，统一缩放到分辨率p×o，输入到对应网络中，迭代优化，通过不断修改网络模型参数，使得每批次的损失达到最小；

在训练过程中，各损失的计算方法：

内部参数监督合成损失：在自然图像的网络模型训练中，将孪生网络S输出的张量W作为深度，将孪生网络S输出的张量L与训练数据的内部参数标签vt(t＝1，2，3，4)分别作为位姿参数和摄像机内部参数，根据计算机视觉原理算法，利用图像b和图像d分别合成图像c视点处的两个图像，利用图像c分别与所述的两个合成图像，按照逐像素、逐颜色通道强度差之和计算得到；

无监督合成损失：在超声或者CT影像的网络模型训练中，将孪生网络S输出的张量W作为深度，孪生网络S输出的张量L和张量O分别作为位姿参数和摄像机内部参数，根据计算机视觉算法，利用目标影像的两个相邻影像分别构建目标视点处的合成影像，利用目标影像分别与所述两个目标视点处的合成影像，按照逐像素、逐颜色通道强度差之和计算得到；

内部参数误差损失：孪生网络S输出的张量O与训练数据的内部参数标签vt(t＝1，2，3，4)按照各分量差的绝对值之和计算得到；

空间结构误差损失：在超声或者CT影像的网络模型训练中，将孪生网络S输出的张量W作为深度，孪生网络S输出的张量L和张量O分别作为位姿参数和摄像机内部参数，根据计算机视觉算法，分别利用目标视点处影像的两个相邻影像重建目标视点处影像的三维坐标，采用RANSAC算法对重建点进行空间结构拟合，利用拟合得到的法向量与孪生网络S输出的张量D，利用余弦距离计算得到；

变换合成损失：在超声或者CT影像的网络模型训练中，将孪生网络S输出的张量W作为深度，孪生网络S输出的张量L和张量O分别作为位姿参数和摄像机内部参数，根据计算机视觉算法，利用目标影像的两个相邻影像构建目标影像视点处的两个合成影像，对于所述合成影像中的每个影像，在合成过程得到每个像素位置后，将孪生网络S输出的张量B作为合成影像空域变形的位移量，利用所述两个目标视点处的合成影像与目标视点处影像，按照逐像素、逐颜色通道强度差之和计算得到；

具体训练步骤：

(1)自然图像数据集上，利用孪生网络S，对网络A的主干网络及第1及第3个网络分支，训练50000次

每次从自然图像数据集中取出训练数据，统一缩放到分辨率p×o，将图像c及图像τ输入孪生网络S，对网络A的主干网络及第1及第3个网络分支训练50000次，每批次的训练损失由内部参数监督合成损失计算得到；

(2)自然图像数据集上，利用孪生网络S，对网络A的第2个网络分支，训练60000次

每次从自然图像数据集中取出训练数据，统一缩放到分辨率p×o，将将图像c及图像τ输入孪生网络S，对网络A的第2个网络分支进行训练，每批次的训练损失由无监督合成损失和内部参数误差损失之和计算得到；

(3)在超声影像数据集上，利用孪生网络S，对网络A的第4及第5个网络分支训练60000次

每次从超声影像数据集上取出超声训练数据，统一缩放到分辨率p×o，将影像j及影像π输入到孪生网络S，对网络A的第4及第5个网络分支进行训练，每批次的训练损失由变换合成损失和空间结构误差损失之和计算得到；

(4)在超声影像数据集上，利用孪生网络S，对网络A的主干网络及第1至第5个网络分支训练30000次，得到网络模型参数ρ

每次从超声影像数据集上取出超声训练数据，统一缩放到分辨率p×o，将影像j及影像π输入到孪生网络S，对网络A的主干网络及第1至第5个网络分支进行训练，每批次的训练损失由变换合成损失和空间结构误差损失之和计算得到；

(5)在CT影像数据集上，利用孪生网络S，对网络A的主干网络及第1至第5个网络分支进行训练50000次，得到网络模型参数ρ′

每次从CT影像数据集中取出CT影像训练数据，统一缩放到分辨率p×o，将影像m及影像σ输入到孪生网络S，将孪生网络S输出的张量W作为深度，网络A输出的张量L和张量O分别作为位姿参数和摄像机内部参数，将孪生网络S输出的张量B作为合成影像空域变形的位移量，分别根据影像l和影像n合成影像m视点处的两张影像，通过不断修改网络的参数，对所述网络进行训练，不断修改网络参数，使得每批次的每幅影像的损失达到最小，网络优化的损失计算时，除了变换合成损失、空间结构误差损失，还要附加上摄像机平移运动的损失，训练50000次，得到网络模型参数ρ′；步骤4：对超声或者CT影像三维重建

利用自采样的一个超声或者CT序列影像，同时进行以下3个处理实现三维重建：

(1)对序列影像中任一目标影像，按照如下方法计算摄像机坐标系下的三维坐标：缩放到分辨率p×o，对于超声序列影像，将影像j及影像π输入到孪生网络S的孪生分支1，设置布尔类型变量X设置为False，对于CT序列影像，将影像m及影像σ输入到孪生网络S的孪生分支1，设置布尔类型变量X设置为False，分别利用模型参数ρ和模型参数ρ′进行预测，将孪生网络S的输出张量W作为深度，孪生网络S输出的张量L和张量O分别作为位姿参数和摄像机内部参数，根据目标影像的深度信息及摄像机内部参数，依据计算机视觉的原理，计算目标影像的摄像机坐标系下的三维坐标；

(2)序列影像三维重建过程中，建立关键帧序列：将序列影像第一帧作为关键帧序列的第一帧，并作为当前关键帧，当前关键帧之后的帧作为目标帧，按照目标帧顺序依次动态选取新的关键帧：首先，用单位矩阵初始化目标帧相对于当前关键帧的位姿参数矩阵，针对任一目标帧，将所述位姿参数矩阵累乘目标帧摄像机位姿参数，并利用累乘结果，结合所述目标帧的内部参数及深度信息，合成所述目标帧视点处的影像，利用所述合成影像与所述目标帧之间逐像素逐颜色通道强度差之和的大小计算误差λ，再根据所述目标帧的相邻帧，利用摄像机位姿参数和内部参数，合成所述目标帧视点处的影像，利用所述合成的影像与所述目标帧之间逐像素逐颜色通道强度差之和的大小计算误差γ，进一步利用公式(4)计算合成误差比Z：

满足Z大于阈值η，1<η<2，将所述目标帧作为新的关键帧，并将所述目标帧相对于当前关键帧的位姿参数矩阵作为新的关键帧的位姿参数，同时将所述目标帧更新为当前关键帧；以此迭代，完成关键帧序列建立；

(3)将序列影像第一帧的视点作为世界坐标系的原点，对任一目标影像，将其分辨率缩放到M×N，根据网络输出得到的摄像机内部参数及深度信息，计算得到摄像机坐标系下的三维坐标，根据网络输出的摄像机位姿参数，并结合关键帧序列中每一关键帧的位姿参数以及目标帧相对于当前关键帧的位姿参数矩阵，计算得到所述目标帧的每个像素的世界坐标系中的三维坐标。

本发明的有益效果：

本发明采用跨视图几何约束Transformer网络模型，利用跨视图之间的成像约束，设计了具有几何约束的跨视图注意力学习网络，学习医学影像中跨视图影像之间的上下文特征信息，在医学影像的三维重建中充分发挥深度学习的智能感知能力，利用本发明能够有效地实现从二维医学影像到三维空间信息的重建功能，从而获取目标的几何结构，可以为人工智能医疗辅助诊断提供有效的3D重建解决方案。

附图说明

图1为本发明超声影像的三维重建结果图；

图2为本发明CT影像的三维重建结果图；

具体实施方式

下面结合附图及实施例对本发明进一步说明。

实施例

本实施例在PC机上Windows10 64位操作系统下进行实施，其硬件配置是CPUi7-9700F，内存16G，GPU NVIDIA GeForce GTX 2070 8G；深度学习库采用Tensorflow1.14，采用Python语言3.7版本编程。

一种跨视图几何约束的超声或CT影像通用三维重建方法，该方法输入一个超声或者CT影像序列，分辨率为M×N，对于超声影像，M取450，N取300，对于CT影像，M和N均取512，三维重建的过程具体包括以下步骤：

步骤1：构建数据集

(a)构建自然图像数据集

选取一个自然图像网站，要求具有图像序列及对应的摄像机内部参数，从所述自然图像网站下载a个图像序列及序列对应的内部参数,1≤a≤20,对于每个图像序列，每相邻3帧图像记为图像b、图像c和图像d，将图像b和图像d按照颜色通道进行拼接，得到图像τ，由图像c与图像τ构成一个数据元素，图像c为自然目标图像，图像c的采样视点作为目标视点，图像b、图像c和图像d的内部参数均为v_t(t＝1，2，3，4)，其中v₁为水平焦距，v₂为垂直焦距，v₃及v₄是主点坐标的两个分量；如果同一图像序列中最后剩余图像不足3帧，则舍弃；利用所有序列构建自然图像数据集，所构建的自然图像数据集中有3600个元素；

(b)构建超声影像数据集

采样10个超声影像序列，对于每个序列，每相邻3帧影像记为影像i、影像j和影像k，将影像i和影像k按照颜色通道进行拼接得到影像π，由影像j与影像π构成一个数据元素，影像j为超声目标影像,影像j的采样视点作为目标视点，如果同一影像序列中最后剩余影像不足3帧，则舍弃，利用所有序列构建超声影像数据集，其数据集有1600个元素；

(c)构建CT影像数据集

采样1个CT影像序列，对于所述序列，每相邻3帧记为影像l、影像m和影像n，将影像l和影像n按照颜色通道进行拼接得到影像σ，由影像m与影像σ构成一个数据元素，影像m为CT目标影像,影像m的采样视点作为目标视点，如果同一影像序列中最后剩余影像不足3帧，则舍弃，利用所有序列构建CT影像数据集，其数据集有2000个元素；步骤2：构建神经网络

神经网络处理的图像或影像的分辨率均为416×128，416为宽度，128为高度，以像素为单位；

(1)几何约束跨视图Transformer学习网络A

网络A作为双分支孪生网络的基本结构，网络A的结构由一个主干网络和5个网络分支构成，主干网络为跨视图Transformer拓扑结构，张量J和张量C作为输入，尺度分别为4×128×416×3和4×128×416×6，5个网络分支分别预测张量L、张量O、张量W、张量B和张量D，张量L尺度为4×2×6，张量O尺度为4×4×1，张量W尺度为4×128×416×1，张量B尺度为4×128×416×4，张量D的尺度为4×3；

主干网络设计为依次进行的3个阶段跨视图编码：

b)首先，计算跨视图加权矩阵R：

Y＝xUq (1)

b)首先，计算跨视图加权矩阵R′：

Y′＝x′U′q′ (2)

b)首先，计算跨视图加权矩阵R″：

Y″＝x″U″q″ (3)

在第5个单元处理时，上采样卷积处理，特征通道数为32，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征分别与第3个网络分支的第1跨层特征、在第4个单元处理时的2×2上采样特征相串接，再将所述串接特征输入到第6个单元进行处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量W的第2个尺度的结果；

利用第1至第4个尺度的结果作为张量W的结果；

(2)孪生网络S

对于孪生网络S，张量J、张量C作为输入，张量J、张量C的尺度分别为4×128×416×3和4×128×416×6，将孪生网络S的输入张量依次采用孪生分支1和孪生分支2进行学习，然后得到的输出为张量L、张量O、张量W、张量B和张量D，张量L尺度为4×2×6，张量O尺度为4×4×1，张量W尺度为4×128×416×1，张量B尺度为4×128×416×4，张量D的尺度为4×3；

然后，将孪生网络S的输入张量J和张量C，利用孪生分支2进行学习：

步骤3：神经网络的训练

分别将自然图像数据集、超声影像数据集和CT影像数据集中样本按照9:1划分为训练集和测试集，训练集中数据用于训练，测试集数据用于测试，在训练时，分别从对应的数据集中获取训练数据，统一缩放到分辨率416×128，输入到对应网络中，迭代优化，通过不断修改网络模型参数，使得每批次的损失达到最小；

在训练过程中，各损失的计算方法：

内部参数监督合成损失：在自然图像的网络模型训练中，将孪生网络S输出的张量W作为深度，将孪生网络S输出的张量L与训练数据的内部参数标签et(t＝1，2，3，4)分别作为位姿参数和摄像机内部参数，根据计算机视觉原理算法，利用图像b和图像d分别合成图像c视点处的两个图像，利用图像c分别与所述的两个合成图像，按照逐像素、逐颜色通道强度差之和计算得到；

内部参数误差损失：孪生网络S输出的张量O与训练数据的内部参数标签et(t＝1，2，3，4)按照各分量差的绝对值之和计算得到；

具体训练步骤：

每次从自然图像数据集中取出训练数据，统一缩放到分辨率416×128，将图像c及图像τ输入孪生网络S，对网络A的主干网络及第1及第3个网络分支训练50000次，每批次的训练损失由内部参数监督合成损失计算得到；

每次从自然图像数据集中取出训练数据，统一缩放到分辨率416×128，将将图像c及图像τ输入孪生网络S，对网络A的第2个网络分支进行训练，每批次的训练损失由无监督合成损失和内部参数误差损失之和计算得到；

每次从超声影像数据集上取出超声训练数据，统一缩放到分辨率416×128，将影像j及影像π输入到孪生网络S，对网络A的第4及第5个网络分支进行训练，每批次的训练损失由变换合成损失和空间结构误差损失之和计算得到；

每次从超声影像数据集上取出超声训练数据，统一缩放到分辨率416×128，将影像j及影像π输入到孪生网络S，对网络A的主干网络及第1至第5个网络分支进行训练，每批次的训练损失由变换合成损失和空间结构误差损失之和计算得到；

每次从CT影像数据集中取出CT影像训练数据，统一缩放到分辨率416×128，将影像m及影像σ输入到孪生网络S，将孪生网络S输出的张量W作为深度，网络A输出的张量L和张量O分别作为位姿参数和摄像机内部参数，将孪生网络S输出的张量B作为合成影像空域变形的位移量，分别根据影像l和影像n合成影像m视点处的两张影像，通过不断修改网络的参数，对所述网络进行训练，不断修改网络参数，使得每批次的每幅影像的损失达到最小，网络优化的损失计算时，除了变换合成损失、空间结构误差损失，还要附加上摄像机平移运动的损失，训练50000次，得到网络模型参数ρ′；

步骤4：对超声或者CT影像三维重建

(1)对序列影像中任一目标影像，按照如下方法计算摄像机坐标系下的三维坐标：缩放到分辨率416×128，对于超声序列影像，将影像j及影像π输入到孪生网络S的孪生分支1，设置布尔类型变量X设置为False，对于CT序列影像，将影像m及影像σ输入到孪生网络S的孪生分支1，设置布尔类型变量X设置为False，分别利用模型参数ρ和模型参数ρ′进行预测，将孪生网络S的输出张量W作为深度，孪生网络S输出的张量L和张量O分别作为位姿参数和摄像机内部参数，根据目标影像的深度信息及摄像机内部参数，依据计算机视觉的原理，计算目标影像的摄像机坐标系下的三维坐标；

满足Z大于1.2时，将所述目标帧作为新的关键帧，并将所述目标帧相对于当前关键帧的位姿参数矩阵作为新的关键帧的位姿参数，同时将所述目标帧更新为当前关键帧；以此迭代，完成关键帧序列建立；

(3)将序列影像第一帧的视点作为世界坐标系的原点，对任一目标帧，将其分辨率缩放到M×N，对于超声影像，M取450，N取300，对于CT影像，M和N均取512，根据网络输出得到的摄像机内部参数及深度信息，计算得到摄像机坐标系下的三维坐标，根据网络输出的摄像机位姿参数，并结合关键帧序列中每一关键帧的位姿参数以及目标帧相对于当前关键帧的位姿参数矩阵，计算得到所述目标帧的每个像素的世界坐标系中的三维坐标。

在本实施例中，实验的超参数：优化器采用Adam优化器，网络学习率均取0.0002，动量系数为0.9。

本实施例在所构建的自然图像训练集、超声影像训练集和CT影像训练集进行网络训练，利用公共数据集中10个超声采样序列和1个CT影像序列，分别进行测试，采用变换合成损失进行误差计算，在超声或者CT影像的误差计算中，利用目标影像的两个相邻影像分别构建目标影像视点处的两个合成影像，利用所述合成影像中的每个影像与目标视点处影像，按照逐像素、逐颜色通道强度差之和计算得到。

表1为在超声影像序列重建时，计算得到的误差，表中每行的误差与超声影像公共数据集中的一个采样序列相对应，在CT影像序列重建时，将CT影像序列中的序列帧分为10组，每组的CT影像数量为40帧，表2为10组影像重建的误差，表中每行的误差与每组CT影像相对应。

本实施例，采用DenseNet对超声或者CT影像进行分割，然后进行3D重建，图1表示利用本发明得到的超声影像的三维重建结果，图2表示利用本发明得到的CT影像的三维重建结果，从中可以看出本发明能够得到较为准确的重建结果。

表1

序号	误差
		1	0.11092627127930177
2	0.026168738799883802
		3	0.054489650061387666
4	0.06865392902608555
		5	0.0585558784192371
6	0.055428794007446526
		7	0.02746311729379424
8	0.0692644934382443
		9	0.08702972196155516
10	0.03027600242531949

表2

序号	误差
		1	0.05920633930528071
2	0.06777660907272864
		3	0.06792401588794893
4	0.06704532374012427
		5	0.12108520561551693
6	0.10361139552707783
		7	0.12768021208400146
8	0.15274821608044067
		9	0.10870639733894841
10	0.11670728874615914

Claims

1.一种跨视图几何约束的医学影像三维重建方法，其特征在于，该方法输入一个超声或者CT影像序列，其影像分辨率为M×N，100≤M≤2000，100≤N≤2000，三维重建的过程具体包括以下步骤：

步骤1：构建数据集

(a)构建自然图像数据集

(b)构建超声影像数据集

(c)构建CT影像数据集

步骤2：构建神经网络

(1)几何约束跨视图Transformer学习网络A

主干网络设计为依次进行的3个阶段跨视图编码：

b)首先，计算跨视图加权矩阵R：

Y＝xUq (1)

利用Y计算跨视图加权矩阵R，R的尺度与Y相同，它的每个元素计算为e^-y，y是Y中所述元素位置的值，所述e是自然对数的底数，再对矩阵R进行归一化处理；

然后，利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为1，特征通道数为32，将所得到的注意力权重矩阵与跨视图加权矩阵R相乘，得到第1个阶段每个注意力编码输入特征的注意力权重矩阵，再将其与所述目标编码特征相加，分别得到第1个阶段4个注意力编码输入特征的跨视图编码特征；

利用所述4个注意力编码输入特征的跨视图编码特征的第1个和第2个特征的平均特征作为第1个阶段跨视图跨层特征；将所述第1个阶段跨视图跨层特征、第1个阶段第3个跨视图编码特征、第1个阶段第4个跨视图编码特征作为第1个阶段跨视图编码结果；将所述第1个阶段跨视图编码结果作为第2个阶段跨视图编码输入，将所述第1个阶段跨视图编码结果按照最后一个维度进行串接得到第1个阶段串接编码结果；

b)首先，计算跨视图加权矩阵R′：

Y′＝x′U′q′ (2)

然后，利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为3，特征通道数为64，将所得到的注意力权重矩阵与跨视图加权矩阵R′相乘，得到第2个阶段每个注意力编码输入特征的注意力权重矩阵，再将其与每个注意力编码输入特征的目标编码特征相加，分别得到第2个阶段4个注意力编码输入特征的跨视图编码特征；

利用所述4个注意力编码输入特征的跨视图编码特征的第1个和第2个特征的平均特征作为第2个阶段跨视图跨层特征；将所述第2个阶段跨视图跨层特征、第2个阶段第3个跨视图编码特征、第2个阶段第4个跨视图编码特征作为第2个阶段跨视图编码结果；将所述第2个阶段跨视图编码结果作为第3个阶段跨视图编码输入，将所述第2个阶段跨视图编码结果按照最后一个维度进行串接得到第2个阶段串接编码结果；

3)第3个阶段的跨视图编码包括第3个阶段的嵌入编码和第3个阶段注意力编码：

b)首先，计算跨视图加权矩阵R″：

Y″＝x″U″q″ (3)

利用Y″计算跨视图加权矩阵R″，R″的尺度与Y″相同，它的每个元素计算为e^-y″,y″是Y″中所述元素位置的值，所述e是自然对数的底数，再对R″矩阵进行归一化处理；

然后，利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为6，特征通道数为128，将得到的注意力权重矩阵与跨视图加权矩阵R″相乘，得到第3个阶段每个注意力编码输入特征的的注意力权重矩阵，再将其与每个注意力编码输入特征的目标编码特征相加，分别得到第3个阶段4个注意力编码输入特征的跨视图编码特征；

利用所述4个注意力编码输入特征的跨视图编码特征的第1个和第2个特征的平均特征作为第3个阶段跨视图跨层特征；将所述第3个阶段跨视图跨层特征、第3个阶段第3个跨视图编码特征、第3个阶段第4个跨视图编码特征作为第3个阶段跨视图编码结果；将所述第3个阶段跨视图编码结果按照最后一个维度进行串接得到第3个阶段串接编码结果；

对第3个网络分支跨层特征初始化：将主干网络的第1个阶段跨视图跨层特征作为第3个网络分支的第2跨层特征；将主干网络的第2个阶段跨视图跨层特征作为第3个网络分支的第3跨层特征；将主干网络的第3个阶段跨视图跨层特征作为第3个网络分支的第4跨层特征；再将主干网络的第1个阶段跨视图跨层特征经过第1次残差编码处理，包括3次卷积运算，其通道特征数分别为64、64和256个，卷积核的形状分别为1×1、3×3和1×1，然后，依次进行2个单元处理：在第1个单元处理中，卷积运算的特征通道数为192，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为192，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，作为第3个网络分支的第5跨层特征；将第5跨层特征进行1次残差编码处理，具体进行3次卷积运算，这3次卷积运算中通道特征数分别为512、512和2048个，卷积核的形状分别为1×1、3×3和1×1，然后将所得到的特征依次进行6个单元处理过程：

利用第1至第4个尺度的结果作为张量W的结果；

对于第5个网络分支，将第3个阶段串接编码结果依次进行4个单元处理：在第1个单元处理中，卷积运算的特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为512，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第3个单元处理中，卷积运算的特征通道数为1024，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2；在第4个单元处理中，卷积运算的特征通道数为3，卷积核尺度均为1×1，水平方向及垂直方向的步长均为1，将所得到的特征作为张量D的结果；(2)孪生网络S

对于孪生网络S，张量J、张量C作为输入，张量J、张量C的尺度分别为α×o×p×3和α×o×p×6，将网络S的输入张量依次采用孪生分支1和孪生分支2进行学习，然后得到的输出为张量L、张量O、张量W、张量B和张量D，张量L尺度为α×2×6，张量O尺度为α×4×1，张量W尺度为α×o×p×1，张量B尺度为α×o×p×4，张量D的尺度为α×3，α为批次数量；

步骤3：神经网络的训练

在训练过程中，各损失的计算方法：

内部参数监督合成损失：在自然图像的网络模型训练中，将孪生网络S输出的张量W作为深度，将孪生网络S输出的张量L与训练数据的内部参数标签v_t(t＝1，2，3，4)分别作为位姿参数和摄像机内部参数，根据计算机视觉原理算法，利用图像b和图像d分别合成图像c视点处的两个图像，利用图像c分别与所述的两个合成图像，按照逐像素、逐颜色通道强度差之和计算得到；

内部参数误差损失：孪生网络S输出的张量O与训练数据的内部参数标签v_t(t＝1，2，3，4)按照各分量差的绝对值之和计算得到；

具体训练步骤：

每次从CT影像数据集中取出CT影像训练数据，统一缩放到分辨率p×o，将影像m及影像σ输入到孪生网络S，将孪生网络S输出的张量W作为深度，网络A输出的张量L和张量O分别作为位姿参数和摄像机内部参数，将孪生网络S输出的张量B作为合成影像空域变形的位移量，分别根据影像l和影像n合成影像m视点处的两张影像，通过不断修改网络的参数，对所述网络进行训练，不断修改网络参数，使得每批次的每幅影像的损失达到最小，网络优化的损失计算时，除了变换合成损失、空间结构误差损失，还要附加上摄像机平移运动的损失，训练50000次，得到网络模型参数ρ′；

步骤4：对超声或者CT影像三维重建