CN113689546B

CN113689546B - 一种两视图孪生Transformer的超声或CT影像跨模态三维重建方法

Info

Publication number: CN113689546B
Application number: CN202110881619.8A
Authority: CN
Inventors: 全红艳; 董家顺
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2023-06-23
Anticipated expiration: 2041-08-02
Also published as: CN113689546A

Abstract

本发明公开了一种两视图孪生Transformer的超声或CT影像跨模态三维重建方法，本发明的特点是建立两视图孪生Transformer网络结构，采用无监督迁移学习，对采样序列中任意一帧影像的相邻两帧，通过构建的孪生网络进行特征学习，可以得到丰富的两视图影像之间的对应特征，提高两视图影像之间成像特征学习的准确性，为医学影像的三维重建提供有效的解决方案。

Description

一种两视图孪生Transformer的超声或CT影像跨模态三维重建方法

技术领域

本发明属于计算机技术领域，涉及医疗辅助诊断中医学影像三维可视化技术，发明中采用前沿技术中的孪生神经网络，建立视觉Transformer的网络结构，利用人工智能的迁移学习策略，借助于两视图之间的自然图像的成像规律，迁移网络学习的特征，结合孪生网络学习的特点，有效地实现超声或CT影像的三维重建。

背景技术

目前，人工智能在医疗领域中的应用已经非常广泛，智能医学影像辅助诊断的关键技术在现代临床的诊断中起着重要的作用，医学影像三维重建技术的应用使得现代医疗更加精准科学，可以提高医生的诊断效率以及降低误诊的概率，由于超声或CT影像医学影像纹理复杂，并且存在大量噪声，导致目前超声或CT影像的三维重建技术研究中存在一定难点，建立有效的深度学习神经网络模型，可以解决医学影像重建中几何恢复的疑难问题。

发明内容

本发明的目的是提供一种两视图孪生Transformer的超声或CT影像跨模态三维重建方法，采用跨视图视觉Transformer基本网络，设计基于孪生网络结构的重建方法，利用两视图的互注意力学习机制，可以获得直观的医学目标三维结构，具有较高的实用价值。

实现本发明的具体技术方案是：

一种两视图孪生Transformer的超声或CT影像跨模态三维重建方法，其特征在于，该方法输入一个超声或者CT影像序列，其影像分辨率为M×N，100≤M≤2000，100≤N≤2000，三维重建的过程具体包括以下步骤：

步骤1：构建数据集

(a)构建自然图像数据集

选取一个自然图像网站，要求具有图像序列及对应的摄像机内部参数，从所述自然图像网站下载a个图像序列及序列对应的内部参数，1≤a≤20,对于每个图像序列，每相邻3帧图像记为图像b、图像c和图像d，将图像b和图像d按照颜色通道进行拼接，得到图像τ，由图像c与图像τ构成一个数据元素，图像c为自然目标图像，图像c的采样视点作为目标视点，图像b、图像c和图像d的内部参数均为e_t(t＝1，2，3，4)，其中e₁为水平焦距，e₂为垂直焦距，e₃及e₄是主点坐标的两个分量；如果同一图像序列中最后剩余图像不足3帧，则舍弃；利用所有序列构建自然图像数据集，所构建的自然图像数据集中有f个元素，而且3000≤f≤20000；

(b)构建超声影像数据集

采样g个超声影像序列，其中1≤g≤20，对于每个序列，每相邻3帧影像记为影像i、影像j和影像k，将影像i和影像k按照颜色通道进行拼接得到影像π，由影像j与影像π构成一个数据元素，影像j为超声目标影像,影像j的采样视点作为目标视点，如果同一影像序列中最后剩余影像不足3帧，则舍弃，利用所有序列构建超声影像数据集，所构建的超声影像数据集中有F个元素，而且1000≤F≤20000；

(c)构建CT影像数据集

采样h个CT影像序列，其中1≤h≤20，对于每个序列，每相邻3帧记为影像l、影像m和影像n，将影像l和影像n按照颜色通道进行拼接得到影像σ，由影像m与影像σ构成一个数据元素，影像m为CT目标影像,影像m的采样视点作为目标视点，如果同一影像序列中最后剩余影像不足3帧，则舍弃，利用所有序列构建CT影像数据集，所构建的CT影像数据集中有ξ个元素，而且1000≤ξ≤20000；

步骤2：构建神经网络

网络输入的图像或影像的分辨率均为p×o，p为宽度，o为高度，以像素为单位，100≤o≤2000，100≤p≤2000；

(1)两视图的视觉Transformer网络A

网络A的结构由一个主干网络和5个网络分支构成，对于主干网络，张量J、张量C和变量X作为输入，张量J、张量C的尺度分别为α×o×p×3和α×o×p×6，变量X是一个布尔类型变量，5个网络分支分别预测张量L、张量O、张量W、张量B和张量D，张量L尺度为α×1×6，张量O尺度为α×4×1，张量W尺度为α×o×p×1，张量B尺度为α×o×p×4，张量D的尺度为α×3，α为批次数量；

主干网络设计为依次进行的3个阶段跨视图编码：

1)第1个阶段的跨视图编码包括第1个阶段的嵌入编码和第1个阶段注意力编码

在第1个阶段嵌入编码时，当变量X为True时，分别将张量J、张量C的最后一个维度的前3个特征分量分别进行编码；当变量X为False时，分别将张量J、张量C的最后一个维度的后3个特征分量分别进行编码；编码为：卷积运算，卷积核尺度为7×7，特征通道数为32，序列化处理将编码特征从图像特征空域形状变换为序列结构，层归一化处理，分别得到第1个阶段嵌入编码1、第1个阶段嵌入编码2；

第1个阶段注意力编码，将第1个阶段嵌入编码1与第1个阶段嵌入编码2按照最后一个维度进行串接，得到注意力编码输入特征1；将第1个阶段嵌入编码2与第1个阶段嵌入编码1按照最后一个维度进行串接，得到第1个阶段注意力编码输入特征2；将所述第1个阶段注意力编码的2个输入特征，进行注意力编码：将第1个阶段每个注意力编码输入特征按照最后一个维度将前一半通道特征作为目标编码特征，将后一半通道特征作为源编码特征，再将目标编码特征和源编码特征分别进行可分离的卷积运算，其中卷积核尺度均为3×3，特征通道数为32，水平方向及垂直方向的步长均为1，将目标编码特征的处理结果从图像特征的空域形状拉伸为序列形式，作为注意力学习的查询关键词K编码向量和数值V编码向量，将源编码特征的处理结果从图像特征的空域形状拉伸为序列形式，作为注意力学习的查询Q编码向量，然后，利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为2，特征通道数为32，最后，将每个注意力编码输入特征的注意力权重矩阵与每个注意力编码输入特征的目标编码特征相加得到第1个阶段2个跨视图编码特征，利用第1个跨视图编码特征作为第1个阶段跨视图跨层特征，将第1个阶段第1跨视图编码特征与第1个阶段第2跨视图编码特征作为第1个阶段跨视图编码结果，将第1个阶段跨视图编码结果作为第2个阶段跨视图编码输入，将所述第1个阶段跨视图编码结果按照最后一个维度进行串接得到第1个阶段串接编码结果；

2)第2个阶段的跨视图编码包括第2个阶段的嵌入编码和第2个阶段注意力编码

第2个阶段的嵌入编码，将第1个阶段跨视图编码结果中的每个特征进行嵌入编码处理：卷积运算，卷积核尺度为3×3，特征通道数为64，水平方向及垂直方向的步长均为2，序列化处理将编码特征从图像特征空域形状变换为序列结构，特征的层归一化处理，得到第2个阶段嵌入编码1、第2个阶段嵌入编码2；

第2个阶段注意力编码，将第2个阶段嵌入编码1与第2个阶段嵌入编码2按照最后一个维度进行串接，得到第2阶注意力编码输入特征1；将第2个阶段嵌入编码2与第2个阶段嵌入编码1按照最后一个维度进行串接，得到第2个阶段注意力编码输入特征2；将每个所述输入特征，按照最后一个维度，将前一半通道特征作为目标编码特征，将后一半通道特征作为源编码特征，将目标编码特征和源编码特征分别进行可分离的卷积运算，卷积核尺度均为3×3，特征通道数为64，水平方向及垂直方向的步长均为2，将目标编码特征的处理结果从图像特征的空域形状拉伸为序列形式，作为注意力学习的查询关键词K编码向量和数值V编码向量，将源编码特征的处理结果从图像特征的空域形状拉伸为序列形式，作为注意力学习的查询Q编码向量，然后，利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为3，特征通道数为64，最后，将第2个阶段每个注意力编码输入特征的注意力权重矩阵与每个注意力编码输入特征的目标编码特征相加得到第2个阶段2个跨视图编码特征，利用所述跨视图编码特征的第1个特征作为第2个阶段跨视图跨层特征，将所述第2个阶段跨视图跨层特征与第2个阶段跨视图编码特征作为第2个阶段跨视图编码结果，将所述第2个阶段跨视图编码结果作为第3个阶段跨视图编码输入，将所述第2个阶段跨视图编码结果按照最后一个维度进行串接得到第2个阶段串接编码结果；

3)第3个阶段的跨视图编码包括第3个阶段的嵌入编码和第3个阶段注意力编码

第3个阶段的嵌入编码，将第2个阶段跨视图编码结果中的每个特征进行嵌入编码处理：卷积运算，卷积核尺度均为3×3，特征通道数为128，水平方向及垂直方向的步长均为2，序列化处理将编码特征从图像特征空域形状变换为序列结构，特征的层归一化处理，得到第3个阶段嵌入编码1、第3个阶段嵌入编码2；

第3个阶段注意力编码，将第3个阶段嵌入编码1与第3个阶段嵌入编码2按照最后一个维度进行串接，得到第3阶注意力编码输入特征1；将第3个阶段嵌入编码2与第3个阶段嵌入编码1按照最后一个维度进行串接，得到第3个阶段注意力编码输入特征2，将每个所述输入特征，按照最后一个维度，将前一半通道特征作为目标编码特征，将后一半通道特征作为源编码特征，将目标编码特征和源编码特征分别进行可分离的卷积运算，其中卷积核尺度均为3×3，特征通道数为128，水平方向及垂直方向的步长均为2，将目标编码特征的处理结果从图像特征的空域形状拉伸为序列形式，作为注意力学习的查询关键词K编码向量和数值V编码向量，将源编码特征的处理结果从图像特征的空域形状拉伸为序列形式，作为注意力学习的查询Q编码向量，然后，利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为4，特征通道数为128，最后，将第3个阶段每个注意力编码输入特征的注意力权重矩阵与每个注意力编码输入特征的目标编码特征相加得到第3个阶段2个跨视图编码特征，利用所述跨视图编码特征的第1个特征作为第3个阶段跨视图跨层特征，将所述第3个阶段跨视图跨层特征与第3个阶段第2个跨视图编码特征作为第3个阶段跨视图编码结果，将所述第3个阶段跨视图编码结果按照最后一个维度进行串接得到第3个阶段串接编码结果；

对于第1个网络分支，将第1个阶段串接编码结果依次进行2个单元处理：在第1个单元处理中，卷积运算的特征通道数为16，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；将所得到的特征依次进行2个单元处理：在第1个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为64，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；然后，将所得到的特征与第3个阶段串接编码结果相串接，进行3个单元处理：在第1个单元处理中，卷积运算的特征通道数为64，卷积核尺度均为7×7，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第3个单元处理中，卷积运算的特征通道数为12，卷积核尺度均为1×1，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理，将所得的12通道的特征结果按照1×6的形式进行预测，得到张量L的结果；

对于第2个网络分支，将第1个阶段串接编码结果依次进行2个单元处理：在第1个单元处理中，卷积运算的特征通道数为16，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；然后将所得到的特征与第2个阶段串接编码结果相串接，进行以下2个单元处理：在第1个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；将所得到的特征与第3个阶段串接编码结果相串接，进行2个单元处理：在第1个单元处理中，卷积运算的特征通道数为64，卷积核尺度均为7×7，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第3个单元处理中，卷积运算的特征通道数为4，卷积核尺度均为1×1，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；将所得的4通道特征作为张量O的结果；

对于第3个网络分支，将第1个阶段跨视图跨层特征输入，依次进行3个单元处理：在第1个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第3个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理，然后进行1次反卷积运算，卷积的特征通道数为16，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，得到第3个网络分支的第1跨层特征；

对于第3个网络分支跨层特征初始化：将主干网络的第1个阶段跨视图跨层特征作为第3个网络分支的第2跨层特征；将主干网络的第2个阶段跨视图跨层特征作为第3个网络分支的第3跨层特征；将主干网络的第3个阶段跨视图跨层特征作为第3个网络分支的第4跨层特征；再将主干网络的第1个阶段跨视图跨层特征经过第1次残差编码处理，包括3次卷积运算，其通道特征数分别为64、64和256个，卷积核的形状分别为1×1、3×3和1×1，然后，依次进行2个单元处理：在第1个单元处理中，卷积运算的特征通道数为192，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为192，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，作为第3个网络分支的第5跨层特征；将第5跨层特征进行1次残差编码处理，具体进行3次卷积运算，这3次卷积运算中通道特征数分别为512、512和2048个，卷积核的形状分别为1×1、3×3和1×1，然后将所得到的特征依次进行6个单元处理过程：

在第1个单元处理时，上采样卷积处理，特征通道数为512，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第3个网络分支的第5跨层特征相串接，进一步将所述串接特征进行卷积处理，卷积的特征通道数为512，卷积的核形状为3×3；

在第2个单元处理时，上采样卷积处理，特征通道数为256，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第3个网络分支的第4跨层特征相串接，将得到的特征再进行卷积处理，卷积的特征通道数为256，卷积的核形状为3×3；

在第3个单元处理时，上采样卷积处理，特征通道数为128，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第3个网络分支的第3跨层特征相串接，将所述串接特征进行卷积处理，卷积的特征通道数为128，卷积的核形状为3×3，将所得的特征输入到4个单元处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量W的第4个尺度的结果；

在第4个单元处理时，上采样卷积处理，特征通道数为64，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第3个网络分支的第2跨层特征、在第3个单元处理时的2×2上采样编码特征相串接，将所述串接特征进行卷积处理，卷积的特征通道数为64，卷积的核形状为3×3，将所得的特征输入到第5个单元处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量W的第3个尺度的结果；

在第5个单元处理时，上采样卷积处理，特征通道数为32，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征分别与第3个网络分支的第1跨层特征、在第4个单元处理时的2×2上采样编码特征相串接，再将所述串接特征输入到第6个单元进行处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量W的第2个尺度的结果；

在第6个单元处理时，上采样卷积处理，特征通道数为16，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第5个单元处理时的2×2上采样编码特征相串接，再将所述串接特征通过核为3×3的卷积运算，预测为张量W的第1个尺度的结果；

利用第1至4个尺度的结果作为张量W的结果；

对于第4个网络分支，将第1个阶段跨视图跨层特征进行一次反卷积运算、特征激活、批归一化处理，反卷积运算中，卷积的特征通道数为16，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2；将得到的结果记为解码器跨层特征1，再将第1个阶段跨视图跨层特征进行以下2个单元的处理：第1个单元处理时，卷积运算特征通道数为32，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，并将处理特征记为解码器跨层特征2；第2个单元处理，卷积运算，特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的特征与第2个阶段跨视图跨层特征进行串接，将所述串接结果进行以下2个单元的处理：第1个单元处理时，卷积的特征通道数为64，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，并将处理特征记为解码器跨层特征3；第2个单元处理时，卷积的特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2,然后将所得到的特征与第3个阶段跨视图跨层特征进行串接，再进行以下3个单元处理，第1个单元处理时，卷积的特征通道数为128，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，并将处理特征记为解码器跨层特征4；第2个单元处理时，卷积的特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，将并将处理特征记为解码器跨层特征5；第3个单元处理时，卷积的特征通道数为512个，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，处理后得到第4个网络分支编码特征；

进一步进行解码，将所述第4个网络分支编码特征进行1次反卷积运算：卷积的特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，并将得到的结果与解码器跨层特征5相串接，进行一次卷积运算：特征通道数为512，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的结果进行反卷积运算：特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的结果与解码器跨层特征4相串接，进行一次卷积运算：特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的结果进行一次进行反卷积运算：特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的结果与解码器跨层特征3相串接，进行一次卷积运算：特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第4个尺度结果，同时，将所得到的特征进行1次反卷积运算，反卷积的特征通道数为64，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的特征与解码器跨层特征2相串接，进行一次卷积运算：特征通道数为64，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第3个尺度结果，同时，将所得到的特征进行1次反卷积运算：反卷积的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，再将所得到的特征与解码器跨层特征1相串接，然后进行一次卷积运算：特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第2个尺度结果，同时，将所得到的特征进行1次反卷积运算：特征通道数为16，卷积核尺度均为7×7，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的特征与第3个尺度特征经过上采样处理后得到的结果进行相串接，然后进行一次卷积运算：特征通道数为16，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第1个尺度结果，利用所述张量B的4个尺度结果，得到第4个网络分支的输出；

对于第5个网络分支，将第3个阶段串接编码结果依次进行4个单元处理：在第1个单元处理中，卷积运算的特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理，在第2个单元处理中，卷积运算的特征通道数为512，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理，在第3个单元处理中，卷积运算的特征通道数为1024，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2,在第4个单元处理中，卷积运算的特征通道数为3，卷积核尺度均为1×1，水平方向及垂直方向的步长均为1，将所得到的特征作为张量D的结果；

(2)孪生网络S

对于孪生网络S，输入为张量J和张量C，尺度分别为α×o×p×3和α×o×p×6，孪生网络S输出为张量L、张量O、张量W、张量B和张量D，张量L尺度为α×1×6，张量O尺度为α×4×1，张量W尺度为α×o×p×1，张量B尺度为α×o×p×2，张量D的尺度为α×3，α为批次数量；

孪生网络S由孪生分支1和孪生分支2构成，孪生分支1和孪生分支2均以网络A为基本架构，将孪生网络S的输入张量J和张量C，并结合一个布尔类型变量X，分别输入到孪生分支1和孪生分支2进行学习，得到孪生网络S的输出结果：

首先，孪生网络S的输入张量J和张量C利用孪生分支1进行学习：布尔类型变量X设置为True，与张量J、张量C一起输入到孪生分支1，进行学习后，得到孪生分支1的输出；

然后，孪生网络S的输入张量J和张量C利用孪生分支2进行学习：布尔类型变量X设置为False，与张量J、张量C一起输入到孪生分支2，进行学习，在孪生分支2的学习过程中，共享孪生分支1的网络参数，得到孪生分支2的结果，并作为孪生网络S的输出；

步骤3：神经网络的训练

分别将自然图像数据集、超声影像数据集和CT影像数据集中样本按照9:1划分为训练集和测试集，训练集中数据用于训练，测试集数据用于测试，在训练时，分别从对应的数据集中获取训练数据，统一缩放到分辨率p×o，输入到对应网络中，迭代优化，通过不断修改网络模型参数，使得每批次的损失达到最小；

在训练过程中，各损失的计算方法：

内部参数监督合成损失：在自然图像的网络模型训练中，内部参数监督合成损失计算为内部参数监督损失1和内部参数监督损失2之和，对于所述内部参数监督损失1计算为：利用孪生网络S的孪生分支1输出的张量W作为深度，孪生网络S的孪生分支1输出的张量L作为位姿参数，训练数据的内部参数标签e_t(t＝1，2，3，4)作为摄像机内部参数，根据计算机视觉原理算法，利用图像b合成图像c视点处的图像，利用图像c分别与所述的合成图像，按照逐像素、逐颜色通道强度差之和计算得到，对于所述内部参数监督损失2计算为：利用孪生网络S的孪生分支2输出的张量W作为深度，孪生网络S的孪生分支2输出的张量L作为位姿参数，训练数据的内部参数标签e_t(t＝1，2，3，4)作为摄像机内部参数，根据计算机视觉原理算法，利用图像d合成图像c视点处的图像，利用图像c分别与所述的合成图像，按照逐像素、逐颜色通道强度差之和计算得到；

无监督合成损失：在超声或者CT影像的网络模型训练中，无监督合成损失计算为无监督损失1和无监督损失2之和，对于无监督损失1计算为：利用孪生网络S的孪生分支1输出的张量W作为深度，孪生网络S的孪生分支1输出的张量L和张量O分别作为位姿参数和摄像机内部参数，根据计算机视觉算法，利用目标影像的相邻影像i或者l构建目标视点处的合成影像，利用目标影像分别与所述目标视点处的合成影像,按照逐像素、逐颜色通道强度差之和计算得到，对于无监督损失2计算为：利用孪生网络S的孪生分支2输出的张量W作为深度，孪生网络S的孪生分支2输出的张量L和张量O分别作为位姿参数和摄像机内部参数，根据计算机视觉算法，利用目标影像的相邻影像k或者n构建目标视点处的合成影像，利用目标影像分别与所述目标视点处的合成影像,按照逐像素、逐颜色通道强度差之和计算得到；

内部参数误差损失：在自然图像的网络模型训练中，内部参数误差损失计算为内部参数损失1和内部参数损失2，对于所述内部参数损失1计算为：孪生网络S的孪生分支1输出的张量O与训练数据的内部参数标签e_t(t＝1，2，3，4)按照各分量差的绝对值之和计算得到，对于所述内部参数损失2计算为：孪生网络S的孪生分支2输出的张量O与训练数据的内部参数标签e_t(t＝1，2，3，4)按照各分量差的绝对值之和计算得到；

空间结构误差损失：在超声或者CT影像的网络模型训练中，空间结构误差损失计算为空间结构损失1和空间结构损失2之和：

对于所述空间结构损失1计算为：孪生网络S的孪生分支1输出的张量W作为深度，孪生网络S的孪生分支1输出的张量L和张量O分别作为位姿参数和摄像机内部参数，根据计算机视觉算法，利用目标视点处影像的相邻影像i或者l构建重建目标视点处的三维坐标，采用RANSAC算法对重建点进行空间结构拟合，利用拟合得到的法向量与孪生网络S的孪生分支1输出的张量D，利用余弦距离计算得到；

对于所述空间结构损失2计算为：孪生网络S的孪生分支2输出的张量W作为深度，S的孪生分支2输出的张量L和张量O分别作为位姿参数和摄像机内部参数，根据计算机视觉算法，利用目标视点处影像的相邻影像k或者n构建重建目标视点处的三维坐标，采用RANSAC算法对重建点进行空间结构拟合，利用拟合得到的法向量与孪生网络S的孪生分支2输出的张量D，利用余弦距离计算得到；

变换合成损失：在超声或者CT影像的网络模型训练中，变换合成损失计算为合成损失1和合成损失2之和：

对于所述合成损失1计算为：将孪生网络S的孪生分支1输出的张量W作为深度，孪生网络S的孪生分支1输出的张量L和张量O分别作为位姿参数和摄像机内部参数，根据计算机视觉算法，利用目标影像的相邻影像i或者l构建目标影像视点处的合成影像，在合成过程得到每个像素位置后，将孪生网络S的孪生分支1输出的张量B作为合成影像空域变形的位移量，利用所述合成影像与目标视点处影像，按照逐像素、逐颜色通道强度差之和计算得到；

对于所述合成损失2计算为：将孪生网络S的孪生分支2输出的张量W作为深度，孪生网络S的孪生分支2输出的张量L和张量O分别作为位姿参数和摄像机内部参数，根据计算机视觉算法，利用目标影像的相邻影像k或者n构建目标影像视点处的合成影像，在合成过程得到每个像素位置后，将孪生网络S的孪生分支2输出的张量B作为合成影像空域变形的位移量，利用所述合成影像与目标视点处影像，按照逐像素、逐颜色通道强度差之和计算得到；

具体训练步骤：

(1)自然图像数据集上，利用孪生网络S，对网络A的主干网络及第1及第3个网络分支，训练50000次

每次从自然图像数据集中取出训练数据，统一缩放到分辨率p×o，将图像c及图像τ输入孪生网络S，对网络A的主干网络及第1及第3个网络分支训练50000次，每批次的训练损失由内部参数监督合成损失计算得到；

(2)自然图像数据集上，利用孪生网络S，对网络A的第2个网络分支，训练60000次

每次从自然图像数据集中取出训练数据，统一缩放到分辨率p×o，将将图像c及图像τ输入孪生网络S，对网络A的第2个网络分支进行训练，每批次的训练损失由无监督合成损失和内部参数误差损失之和计算得到；

(3)在超声影像数据集上，利用孪生网络S，对网络A的第4及第5个网络分支训练60000次

每次从超声影像数据集上取出超声训练数据，统一缩放到分辨率p×o，将影像j及影像π输入到孪生网络S，对网络A的第4及第5个网络分支进行训练，每批次的训练损失由变换合成损失和空间结构误差损失之和计算得到；

(4)在超声影像数据集上，利用孪生网络S，对网络A的主干网络及第1至第5个网络分支训练30000次，得到网络模型参数ρ

每次从超声影像数据集上取出超声训练数据，统一缩放到分辨率p×o，将影像j及影像π输入到孪生网络S，对网络A的主干网络及第1至第5个网络分支进行训练，每批次的训练损失由变换合成损失和空间结构误差损失之和计算得到；

(5)在CT影像数据集上，利用孪生网络S，对网络A的主干网络及第1至第5个网络分支进行训练50000次，得到网络模型参数ρ′

每次从CT影像数据集中取出CT影像训练数据，统一缩放到分辨率p×o，将影像m及影像σ输入到孪生网络S，对网络A的主干网络及第1至第5个网络分支进行训练，每批次的训练损失计算为以下三项之和：变换合成损失、空间结构误差损失和摄像机平移运动损失，对于所述摄像机平移运动损失，在限定摄像机平移运动情况下计算得到；

步骤4：对超声或者CT影像三维重建

利用自采样的一个超声或者CT序列影像，同时进行以下3个处理实现三维重建：

(1)对序列影像中任一目标影像，按照如下方法计算摄像机坐标系下的三维坐标：缩放到分辨率p×o，对于超声序列影像，将影像j及影像π输入到孪生网络S，对于CT序列影像，将影像m及影像σ输入到输入孪生网络S，分别利用网络模型参数ρ和网络模型参数ρ′进行预测，将孪生网络S的输出张量W作为深度，孪生网络S的输出张量L和输出张量O分别作为位姿参数和摄像机内部参数，根据目标影像的深度信息及摄像机内部参数，依据计算机视觉的原理，计算目标影像的摄像机坐标系下的三维坐标；

(2)序列影像三维重建过程中，建立关键帧序列：将序列影像第一帧作为关键帧序列的第一帧，并作为当前关键帧，当前关键帧之后的帧作为目标帧，按照目标帧顺序依次动态选取新的关键帧：首先，用单位矩阵初始化目标帧相对于当前关键帧的位姿参数矩阵，针对任一目标帧，将所述位姿参数矩阵累乘目标帧摄像机位姿参数，并利用累乘结果，结合所述目标帧的内部参数及深度信息，合成所述目标帧视点处的影像，利用所述合成影像与所述目标帧之间逐像素逐颜色通道强度差之和的大小计算误差λ，再根据所述目标帧的相邻帧，利用摄像机位姿参数和内部参数，合成所述目标帧视点处的影像，利用所述合成的影像与所述目标帧之间逐像素逐颜色通道强度差之和的大小计算误差γ，进一步利用公式(1)计算合成误差比Z：

满足Z大于阈值η，1<η<2，将所述目标帧作为新的关键帧，并将所述目标帧相对于当前关键帧的位姿参数矩阵作为新的关键帧的位姿参数，同时将所述目标帧更新为当前关键帧；以此迭代，完成关键帧序列建立；

(3)将序列影像第一帧的视点作为世界坐标系的原点，对任一目标影像，将其分辨率缩放到M×N，根据网络输出得到的摄像机内部参数及深度信息，计算得到摄像机坐标系下的三维坐标，根据网络输出的摄像机位姿参数，并结合关键帧序列中每一关键帧的位姿参数以及目标帧相对于当前关键帧的位姿参数矩阵，计算得到所述目标帧的每个像素的世界坐标系中的三维坐标。

本发明的有益效果：

本发明采用两视图孪生Transformer网络模型，设计两视图注意力学习方法，获取医学影像中跨视图采样之间的上下文特征信息，在医学影像的三维重建方法设计中，充分利用孪生网络的智能感知能力，可以有效地实现自动从二维的医学图像重建三维空间几何信息的功能，为人工智能的医疗辅助诊断提供有效的3D重建解决方案。

附图说明

图1为本发明超声影像的三维重建结果图；

图2为本发明CT影像的三维重建结果图。

具体实施方式

实施例

下面结合附图及实施例对本发明进一步说明。

本实施例在PC机上Windows10 64位操作系统下进行实施，其硬件配置是CPU i7-9700F，内存16G，GPU NVIDIA GeForce GTX 2070 8G；深度学习库采用Tensorflow1.14，采用Python3.7版本编程语言。

一种两视图孪生Transformer的超声或CT影像跨模态三维重建方法，该方法输入一个超声或者CT影像序列，分辨率为M×N，对于超声影像，M取450，N取300，对于CT影像，M和N均取512，三维重建的过程具体包括以下步骤：

步骤1：构建数据集

(a)构建自然图像数据集

选取一个自然图像网站，要求具有图像序列及对应的摄像机内部参数，从该网站下载19个图像序列及序列对应的内部参数,对于每个图像序列，每相邻3帧图像记为图像b、图像c和图像d，将图像b和图像d按照颜色通道进行拼接，得到图像τ，由图像c与图像τ构成一个数据元素，图像c为自然目标图像，图像c的采样视点作为目标视点，图像b、图像c和图像d的内部参数均为e_t(t＝1，2，3，4)，其中e₁为水平焦距，e₂为垂直焦距，e₃及e₄是主点坐标的两个分量；如果同一图像序列中最后剩余图像不足3帧，则舍弃；利用所有序列构建自然图像数据集，其数据集有3600个元素；

(b)构建超声影像数据集

采样10个超声影像序列，对于每个序列，每相邻3帧影像记为影像i、影像j和影像k，将影像i和影像k按照颜色通道进行拼接得到影像π，由影像j与影像π构成一个数据元素，影像j为超声目标影像,影像j的采样视点作为目标视点，如果同一影像序列中最后剩余影像不足3帧，则舍弃，利用所有序列构建超声影像数据集，其数据集有1600个元素；

(c)构建CT影像数据集

采样1个CT影像序列，对于所述序列，每相邻3帧记为影像l、影像m和影像n，将影像l和影像n按照颜色通道进行拼接得到影像σ，由影像m与影像σ构成一个数据元素，影像m为CT目标影像,影像m的采样视点作为目标视点，如果同一影像序列中最后剩余影像不足3帧，则舍弃，利用所有序列构建CT影像数据集，其数据集有2000个元素；步骤2：构建神经网络

神经网络处理的图像或影像的分辨率均为416×128，416为宽度，128为高度，以像素为单位；

(1)两视图的视觉Transformer网络A

网络A的结构由一个主干网络和5个网络分支构成，对于主干网络，张量J、张量C和变量X作为输入，张量J、张量C的尺度分别为4×128×416×3和4×128×416×6，变量X是一个布尔类型变量，5个网络分支分别预测张量L、张量O、张量W、张量B和张量D，张量L尺度为4×1×6，张量O尺度为4×4×1，张量W尺度为4×128×416×1，张量B尺度为4×128×416×4，张量D的尺度为4×3；

主干网络设计为依次进行的3个阶段跨视图编码：

利用第1至4个尺度的结果作为张量W的结果；

(2)孪生网络S

对于孪生网络S，输入为张量J和张量C，尺度分别为4×128×416×3和4×128×416×6，孪生网络S输出为张量L、张量O、张量W、张量B和张量D，张量L尺度为4×1×6，张量O尺度为α×4×1，张量W尺度为4×128×416×1，张量B尺度为4×128×416×2，张量D的尺度为4×3；

步骤3：神经网络的训练

分别将自然图像数据集、超声影像数据集和CT影像数据集中样本按照9:1划分为训练集和测试集，训练集中数据用于训练，测试集数据用于测试，在训练时，分别从对应的数据集中获取训练数据，统一缩放到分辨率416×128，输入到对应网络中，迭代优化，通过不断修改网络模型参数，使得每批次的损失达到最小；

在训练过程中，各损失的计算方法：

具体训练步骤：

每次从自然图像数据集中取出训练数据，统一缩放到分辨率416×128，将图像c及图像τ输入孪生网络S，对网络A的主干网络及第1及第3个网络分支训练50000次，每批次的训练损失由内部参数监督合成损失计算得到；

每次从自然图像数据集中取出训练数据，统一缩放到分辨率416×128，将将图像c及图像τ输入孪生网络S，对网络A的第2个网络分支进行训练，每批次的训练损失由无监督合成损失和内部参数误差损失之和计算得到；

每次从超声影像数据集上取出超声训练数据，统一缩放到分辨率416×128，将影像j及影像π输入到孪生网络S，对网络A的第4及第5个网络分支进行训练，每批次的训练损失由变换合成损失和空间结构误差损失之和计算得到；

每次从超声影像数据集上取出超声训练数据，统一缩放到分辨率416×128，将影像j及影像π输入到孪生网络S，对网络A的主干网络及第1至第5个网络分支进行训练，每批次的训练损失由变换合成损失和空间结构误差损失之和计算得到；

每次从CT影像数据集中取出CT影像训练数据，统一缩放到分辨率416×128，将影像m及影像σ输入到孪生网络S，对网络A的主干网络及第1至第5个网络分支进行训练，每批次的训练损失计算为以下三项之和：变换合成损失、空间结构误差损失和摄像机平移运动损失，对于所述摄像机平移运动损失，在限定摄像机平移运动时计算得到；

步骤4：对超声或者CT影像三维重建

(1)对序列影像中任一目标影像，按照如下方法计算摄像机坐标系下的三维坐标：缩放到分辨率416×128，对于超声序列影像，将影像j及影像π输入到孪生网络S，对于CT序列影像，将影像m及影像σ输入到输入孪生网络S，分别利用网络模型参数ρ和网络模型参数ρ′进行预测，将孪生网络S的输出张量W作为深度，孪生网络S的输出张量L和输出张量O分别作为位姿参数和摄像机内部参数，根据目标影像的深度信息及摄像机内部参数，依据计算机视觉的原理，计算目标影像的摄像机坐标系下的三维坐标；

满足Z大于1.2时，将所述目标帧作为新的关键帧，并将所述目标帧相对于当前关键帧的位姿参数矩阵作为新的关键帧的位姿参数，同时将所述目标帧更新为当前关键帧；以此迭代，完成关键帧序列建立；

(3)将序列影像第一帧的视点作为世界坐标系的原点，对任一目标帧，将其分辨率缩放到M×N，对于超声影像，M取450，N取300，对于CT影像，M和N均取512，根据网络输出得到的摄像机内部参数及深度信息，计算得到摄像机坐标系下的三维坐标，根据网络输出的摄像机位姿参数，并结合关键帧序列中每一关键帧的位姿参数以及目标帧相对于当前关键帧的位姿参数矩阵，计算得到所述目标帧的每个像素的世界坐标系中的三维坐标。

本实施例在所构建的自然图像训练集、超声影像训练集和CT影像训练集进行网络训练，利用公共数据集中10个超声采样序列和1个CT影像序列，分别进行测试，采用变换合成损失进行误差计算，在超声或者CT影像的误差计算中，利用目标影像的两个相邻影像分别构建目标影像视点处的两个合成影像，利用所述合成影像中的每个影像与目标视点处影像，按照逐像素、逐颜色通道强度差之和计算得到。

表1为在超声影像序列重建时，计算得到的误差，表中每行的误差与超声影像公共数据集中的一个采样序列相对应，在CT影像序列重建时，将CT影像序列中的序列帧分为10组，每组的CT影像数量为40帧，表2为10组影像重建的误差，表中每行的误差与每组CT影像相对应。

本实施例，采用DenseNet对超声或者CT影像进行分割，然后进行3D重建，图1表示利用本发明得到的超声影像的三维重建结果，图2表示利用本发明得到的CT影像的三维重建结果，从中可以看出本发明能够得到较为准确的重建结果。

表1

序号	误差
		1	0.11385711603812257
2	0.027700894425724324
		3	0.05895342314734041
4	0.06935042933044835
		5	0.06059163087505624
6	0.05851257540793549
		7	0.02867682210006114
8	0.06985992697810901
		9	0.09021811943171162
10	0.032920629578931486

表2

序号	误差
		1	0.05588938465808038
2	0.06526179545865513
		3	0.06654347915458644
4	0.06534672117312898
		5	0.121131880496545
6	0.10358821049151655
		7	0.12866749054896442
8	0.15533748766815622
		9	0.1103897698460613
10	0.11515964925526007

Claims

1.一种两视图孪生Transformer的超声或CT影像跨模态三维重建方法，其特征在于，该方法输入一个超声或者CT影像序列，其影像分辨率为M×N，100≤M≤2000，100≤N≤2000，三维重建的过程具体包括以下步骤：

步骤1：构建数据集

(a)构建自然图像数据集

选取一个自然图像网站，要求具有图像序列及对应的摄像机内部参数，从所述自然图像网站下载a个图像序列及序列对应的内部参数,1≤a≤20，对于每个图像序列，每相邻3帧图像记为图像b、图像c和图像d，将图像b和图像d按照颜色通道进行拼接，得到图像τ，由图像c与图像τ构成一个数据元素，图像c为自然目标图像，图像c的采样视点作为目标视点，图像b、图像c和图像d的内部参数均为e_t(t＝1，2，3，4)，其中e₁为水平焦距，e₂为垂直焦距，e₃及e₄是主点坐标的两个分量；如果同一图像序列中最后剩余图像不足3帧，则舍弃；利用所有序列构建自然图像数据集，所构建的自然图像数据集中有f个元素，而且3000≤f≤20000；

(b)构建超声影像数据集

(c)构建CT影像数据集

采样h个CT影像序列，其中1≤h≤20，对于每个序列，每相邻3帧记为影像l、影像m和影像n，将影像l和影像n按照颜色通道进行拼接得到影像σ，由影像m与影像σ构成一个数据元素，影像m为CT目标影像，影像m的采样视点作为目标视点，如果同一影像序列中最后剩余影像不足3帧，则舍弃，利用所有序列构建CT影像数据集，所构建的CT影像数据集中有ξ个元素，而且1000≤ξ≤20000；

步骤2：构建神经网络

(1)两视图的视觉Transformer网络A

主干网络设计为依次进行的3个阶段跨视图编码：

第1个阶段注意力编码，将第1个阶段嵌入编码1与第1个阶段嵌入编码2按照最后一个维度进行串接，得到注意力编码输入特征1；将第1个阶段嵌入编码2与第1个阶段嵌入编码1按照最后一个维度进行串接，得到第1个阶段注意力编码输入特征2；将所述第1个阶段注意力编码的2个输入特征，进行注意力编码：将第1个阶段每个注意力编码输入特征按照最后一个维度将前一半通道特征作为目标编码特征，将后一半通道特征作为源编码特征，再将目标编码特征和源编码特征分别进行可分离的卷积运算，其中卷积核尺度均为3×3，特征通道数为32，水平方向及垂直方向的步长均为1，将目标编码特征的处理结果从图像特征的空域形状拉伸为序列形式，作为注意力学习的查询关键词K编码向量和数值V编码向量，将源编码特征的处理结果从图像特征的空域形状拉伸为序列形式，作为注意力学习的查询Q编码向量，然后，利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为2，特征通道数为32，最后，将每个注意力编码输入特征的注意力权重矩阵与每个注意力编码输入特征的目标编码特征相加得到第1个阶段2个跨视图编码特征；利用第1个跨视图编码特征作为第1个阶段跨视图跨层特征，将第1个阶段第1跨视图编码特征与第1个阶段第2跨视图编码特征作为第1个阶段跨视图编码结果，将所述第1个阶段跨视图编码结果作为第2个阶段跨视图编码输入；将所述第1个阶段跨视图编码结果按照最后一个维度进行串接得到第1个阶段串接编码结果；

第2个阶段注意力编码，将第2个阶段嵌入编码1与第2个阶段嵌入编码2按照最后一个维度进行串接，得到第2阶注意力编码输入特征1；将第2个阶段嵌入编码2与第2个阶段嵌入编码1按照最后一个维度进行串接，得到第2个阶段注意力编码输入特征2；将每个所述输入特征，按照最后一个维度，将前一半通道特征作为目标编码特征，将后一半通道特征作为源编码特征，将目标编码特征和源编码特征分别进行可分离的卷积运算，卷积核尺度均为3×3，特征通道数为64，水平方向及垂直方向的步长均为2，将目标编码特征的处理结果从图像特征的空域形状拉伸为序列形式，作为注意力学习的查询关键词K编码向量和数值V编码向量，将源编码特征的处理结果从图像特征的空域形状拉伸为序列形式，作为注意力学习的查询Q编码向量，然后，利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为3，特征通道数为64，最后，将第2个阶段每个注意力编码输入特征的注意力权重矩阵与每个注意力编码输入特征的目标编码特征相加得到第2个阶段2个跨视图编码特征，利用所述跨视图编码特征的第1个特征作为第2个阶段跨视图跨层特征，将所述第2个阶段跨视图跨层特征与第2个阶段跨视图编码特征作为第2个阶段跨视图编码结果，将所述第2个阶段跨视图编码结果作为第3个阶段跨视图编码输入；将所述第2个阶段跨视图编码结果按照最后一个维度进行串接得到第2个阶段串接编码结果；

第3个阶段注意力编码，将第3个阶段嵌入编码1与第3个阶段嵌入编码2按照最后一个维度进行串接，得到第3阶注意力编码输入特征1；将第3个阶段嵌入编码2与第3个阶段嵌入编码1按照最后一个维度进行串接，得到第3个阶段注意力编码输入特征2；将每个所述输入特征，按照最后一个维度，将前一半通道特征作为目标编码特征，将后一半通道特征作为源编码特征，将目标编码特征和源编码特征分别进行可分离的卷积运算，其中卷积核尺度均为3×3，特征通道数为128，水平方向及垂直方向的步长均为2，将目标编码特征的处理结果从图像特征的空域形状拉伸为序列形式，作为注意力学习的查询关键词K编码向量和数值V编码向量，将源编码特征的处理结果从图像特征的空域形状拉伸为序列形式，作为注意力学习的查询Q编码向量，然后，利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为4，特征通道数为128，最后，将第3个阶段每个注意力编码输入特征的注意力权重矩阵与每个注意力编码输入特征的目标编码特征相加得到第3个阶段2个跨视图编码特征，利用所述跨视图编码特征的第1个特征作为第3个阶段跨视图跨层特征，将所述第3个阶段跨视图跨层特征与第3个阶段第2个跨视图编码特征作为第3个阶段跨视图编码结果；将所述第3个阶段跨视图编码结果按照最后一个维度进行串接得到第3个阶段串接编码结果；

在第6个单元处理时，上采样卷积处理，特征通道数为16，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与在第5个单元处理时的2×2上采样编码特征相串接，再将所述串接特征通过核为3×3的卷积运算，预测为张量W的第1个尺度的结果；

利用第1至4个尺度的结果作为张量W的结果；

对于第4个网络分支，将第1个阶段跨视图跨层特征进行一次反卷积运算、特征激活、批归一化处理，反卷积运算中，卷积的特征通道数为16，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2；将得到的结果记为解码器跨层特征1，再将第1个阶段跨视图跨层特征进行以下2个单元的处理：第1个单元处理时，卷积运算特征通道数为32，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，并将处理特征记为解码器跨层特征2；第2个单元处理，卷积运算，特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的特征与第2个阶段跨视图跨层特征进行串接，将所述串接结果进行以下2个单元的处理：第1个单元处理时，卷积的特征通道数为64，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，并将处理特征记为解码器跨层特征3；第2个单元处理时，卷积的特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，然后将所得到的特征与第3个阶段跨视图跨层特征进行串接，再进行以下3个单元处理，第1个单元处理时，卷积的特征通道数为128，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，并将处理特征记为解码器跨层特征4；第2个单元处理时，卷积的特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，将并将处理特征记为解码器跨层特征5；第3个单元处理时，卷积的特征通道数为512个，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，处理后得到第4个网络分支编码特征；

进一步进行解码，将所述第4个网络分支编码特征进行1次反卷积运算：卷积的特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，并将得到的结果与解码器跨层特征5相串接，进行一次卷积运算：特征通道数为512，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的结果进行反卷积运算：特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的结果与解码器跨层特征4相串接，进行一次卷积运算：特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的结果进行一次进行反卷积运算：特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的结果与解码器跨层特征3相串接，进行一次卷积运算：特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第4个尺度结果；同时，将所得到的特征进行1次反卷积运算，反卷积的特征通道数为64，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的特征与解码器跨层特征2相串接，进行一次卷积运算：特征通道数为64，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第3个尺度结果；同时，将所得到的特征进行1次反卷积运算：反卷积的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，再将所得到的特征与解码器跨层特征1相串接，然后进行一次卷积运算：特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第2个尺度结果；同时，将所得到的特征进行1次反卷积运算：特征通道数为16，卷积核尺度均为7×7，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的特征与第3个尺度特征经过上采样处理后得到的结果进行相串接，然后进行一次卷积运算：特征通道数为16，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第1个尺度结果；利用所述张量B的4个尺度结果，得到第4个网络分支的输出；

对于第5个网络分支，将第3个阶段串接编码结果依次进行4个单元处理：在第1个单元处理中，卷积运算的特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为512，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第3个单元处理中，卷积运算的特征通道数为1024，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2；在第4个单元处理中，卷积运算的特征通道数为3，卷积核尺度均为1×1，水平方向及垂直方向的步长均为1，将所得到的特征作为张量D的结果；

(2)孪生网络S

步骤3：神经网络的训练

在训练过程中，各损失的计算方法：

无监督合成损失：在超声或者CT影像的网络模型训练中，无监督合成损失计算为无监督损失1和无监督损失2之和，对于无监督损失1计算为：利用孪生网络S的孪生分支1输出的张量W作为深度，孪生网络S的孪生分支1输出的张量L和张量O分别作为位姿参数和摄像机内部参数，根据计算机视觉算法，利用目标影像的相邻影像i或者l构建目标视点处的合成影像，利用目标影像分别与所述目标视点处的合成影像，按照逐像素、逐颜色通道强度差之和计算得到，对于无监督损失2计算为：利用孪生网络S的孪生分支2输出的张量W作为深度，孪生网络S的孪生分支2输出的张量L和张量O分别作为位姿参数和摄像机内部参数，根据计算机视觉算法，利用目标影像的相邻影像k或者n构建目标视点处的合成影像，利用目标影像分别与所述目标视点处的合成影像，按照逐像素、逐颜色通道强度差之和计算得到；

对于所述空间结构损失2计算为：孪生网络S的孪生分支2输出的张量W作为深度，孪生网络S的孪生分支2输出的张量L和张量O分别作为位姿参数和摄像机内部参数，根据计算机视觉算法，利用目标视点处影像的相邻影像k或者n构建重建目标视点处的三维坐标，采用RANSAC算法对重建点进行空间结构拟合，利用拟合得到的法向量与孪生网络S的孪生分支2输出的张量D，利用余弦距离计算得到；

具体训练步骤：

步骤4：对超声或者CT影像三维重建

利用自采样的一个超声或者CT序列影像，对于每一帧目标影像，同时进行以下3个处理过程，实现三维重建：

(1)对所述目标影像，按照如下方法计算摄像机坐标系下的三维坐标：缩放到分辨率p×o，使用网络模型参数ρ或者网络模型参数ρ′进行预测，对于超声序列影像，将影像j及影像π输入到孪生网络S，对于CT序列影像，将影像m及影像σ输入到孪生网络S，将孪生网络S的输出张量W作为深度，孪生网络S的输出张量L和输出张量O分别作为位姿参数和摄像机内部参数，依据计算机视觉的原理，计算目标影像的摄像机坐标系下的三维坐标；

(2)序列影像三维重建过程中，建立关键帧序列：将序列影像第一帧作为关键帧序列的第一帧，并作为当前关键帧，从当前关键帧之后的目标帧中，动态选取新的关键帧，针对任一目标帧，计算所述目标帧相对于当前关键帧的位姿参数矩阵，首先，用单位矩阵初始化目标帧相对于当前关键帧的位姿参数矩阵，对于任一动态目标帧，将所述位姿参数矩阵累乘目标帧摄像机位姿参数，并利用所述位姿参数矩阵，结合目标帧的内部参数及深度信息，合成目标帧视点处的影像，利用所述合成影像与目标帧之间逐像素逐颜色通道强度差之和的大小计算误差λ，再根据目标帧的相邻帧，利用摄像机位姿参数和内部参数，合成目标帧视点处的影像，利用所述合成的影像与目标帧之间逐像素逐颜色通道强度差之和的大小计算误差γ，进一步利用公式(1)计算合成误差比Z：

满足Z大于阈值η，1<η<2，将所述目标帧作为新的关键帧，并将目标帧相对于当前关键帧的位姿参数矩阵作为新的关键帧的位姿参数，同时将所述目标帧更新为当前关键帧，迭代此处理过程，继续进行下一个新的关键帧的选取；

(3)将序列影像第一帧的视点作为世界坐标系的原点，对任一目标帧，将其分辨率缩放到M×N，根据网络预测得到的摄像机内部参数及深度信息，计算得到摄像机坐标系下的三维坐标，根据网络输出的摄像机位姿参数，并结合关键帧序列中每一关键帧的位姿参数以及目标帧相对于当前关键帧的位姿参数矩阵，可以计算得到所述目标帧的每个像素的世界坐标系中的三维坐标。