CN113689545A

CN113689545A - 一种2d到3d端对端的超声或ct医学影像跨模态重建方法

Info

Publication number: CN113689545A
Application number: CN202110881611.1A
Authority: CN
Inventors: 全红艳; 董家顺
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-11-23
Anticipated expiration: 2041-08-02
Also published as: CN113689545B

Abstract

本发明公开了一种2D到3D端对端的超声或CT医学影像跨模态重建方法，本发明的特点是建立2D到3D端到端的Transformer学习网络，采用无监督学习，借助于自然图像的成像规律，在医学影像少纹理多噪声的情况下，实现跨模态医学影像2D到3D端到端的快速重建，不仅如此，由于深度学习过程中得到了医学影像采样的摄像机参数，因此，该方法可以实现医学影像目标的三维度量，可以为临床医学辅助诊断提供有效的医疗辅助诊断的解决方案。

Description

一种2D到3D端对端的超声或CT医学影像跨模态重建方法

技术领域

本发明属于计算机技术领域，涉及医疗辅助诊断中超声或CT影像三维重建，发明技术中采用一种2D到3D端到端的重建方法，建立视觉Transformer的网络结构，利用人工智能的迁移学习策略，借助于自然图像的成像规律，迁移网络学习的特征，实现对超声或CT影像快速三维重建。

背景技术

近年来，人工智能技术快速发展，医学影像辅助诊断的关键技术在现代临床的诊断中起着重要的作用，超声或CT影像的三维重建技术可以在辅助诊断中提高诊断的准确率，降低人工诊断的误差，而如何建立高效的深度学习网络模型，是医学影像快速三维重建的关键问题，鉴于端对端学习网络的高效性，将其应用于2D到3D的医学影像的三维重建中，可以促进医学临床辅助诊断技术的发展。

发明内容

本发明目的是提供一种2D到3D端对端的超声或CT医学影像跨模态重建方法，结合医学影像的成像规律，设计了一种端到端的多分支的Transformer网络，另外基于视觉2D到3D的成像原理，利用医学影像序列，设计了几何信息预测分支，结合跨视图相互注意力的学习方法，可以获得较为精细的医学目标的三维结构，具有较高的实用价值。

实现本发明目的的具体技术方案是：

一种2D到3D端对端的超声或CT医学影像跨模态重建方法，其特征在于，该方法输入一个超声或者CT影像序列，其影像分辨率为M×N，100≤M≤2000，100≤N≤2000，三维重建的过程具体包括以下步骤：

步骤1：构建数据集

(a)构建自然图像数据集

选取一个自然图像网站，要求具有图像序列及对应的摄像机内部参数，从所述自然图像网站下载a个图像序列及序列对应的内部参数,1≤a≤20,对于每个图像序列，每相邻3帧图像记为图像b、图像c和图像d，将图像b和图像d按照颜色通道进行拼接，得到图像τ，由图像c与图像τ构成一个数据元素，图像c为自然目标图像，图像c的采样视点作为目标视点，图像b、图像c和图像d的内部参数均为e_t(t＝1，2，3，4)，其中e₁为水平焦距，e₂为垂直焦距，e₃及e₄是主点坐标的两个分量；如果同一图像序列中最后剩余图像不足3帧，则舍弃；利用所有序列构建自然图像数据集，所构建的自然图像数据集中有f个元素，而且3000≤f≤20000；

(b)构建超声影像数据集

采样g个超声影像序列，其中1≤g≤20，对于每个序列，每相邻3帧影像记为影像i、影像j和影像k，将影像i和影像k按照颜色通道进行拼接得到影像π，由影像j与影像π构成一个数据元素，影像j为超声目标影像,影像j的采样视点作为目标视点，如果同一影像序列中最后剩余影像不足3帧，则舍弃，利用所有序列构建超声影像数据集，所构建的超声影像数据集中有F个元素，而且1000≤F≤20000；

(c)构建CT影像数据集

采样h个CT影像序列，其中1≤h≤20，对于每个序列，每相邻3帧记为影像l、影像m和影像n，将影像l和影像n按照颜色通道进行拼接得到影像σ，由影像m与影像σ构成一个数据元素，影像m为CT目标影像,影像m的采样视点作为目标视点，如果同一影像序列中最后剩余影像不足3帧，则舍弃，利用所有序列构建CT影像数据集，所构建的CT影像数据集中有ξ个元素，而且1000≤ξ≤20000；

步骤2：构建端对端三维重建网络A

神经网络输入的图像或影像的分辨率均为p×o，p为宽度，o为高度，以像素为单位，100≤o≤2000，100≤p≤2000；

网络A的结构由一个主干网络和6个网络分支构成，主干网络为跨视图Transformer拓扑结构，张量J和张量C作为输入，尺度分别为α×o×p×3和α×o×p×6，6个网络分支分别预测张量L、张量O、张量W、张量B、张量D和张量R，张量L尺度为α×2×6，张量O尺度为α×4×1，张量W尺度为α×o×p×1，张量B尺度为α×o×p×4，张量D的尺度为α×3，张量R尺度为α×o×p×3，α为批次数量；

主干网络设计为依次进行的3个阶段跨视图编码：

(1)第1个阶段的跨视图编码包括第1个阶段的嵌入编码和第1个阶段注意力编

码

第1个阶段的嵌入编码，分别将张量J、张量C的最后一个维度的前3个特征分量、张量C最后一个维度的后3个特征分量进行卷积运算，卷积核尺度均为7×7，特征通道数为24，序列化处理将编码特征从图像特征空域形状变换为序列结构，层归一化处理，分别得到第1个阶段嵌入编码1、第1个阶段嵌入编码2和第1个阶段嵌入编码3；

第1个阶段注意力编码，将第1个阶段嵌入编码1与第1个阶段嵌入编码2按照最后一个维度进行串接，得到注意力编码输入特征1；将第1个阶段嵌入编码1与第1个阶段嵌入编码3按照最后一个维度进行串接，得到第1个阶段注意力编码输入特征2；将第1个阶段嵌入编码2与第1个阶段嵌入编码1按照最后一个维度进行串接，得到第1个阶段注意力编码输入特征3；将第1个阶段嵌入编码3与第1个阶段嵌入编码1按照最后一个维度进行串接，得到第1个阶段注意力编码输入特征4；将所述第1个阶段注意力编码的4个输入特征，进行注意力编码：将第1个阶段每个注意力编码输入特征按照最后一个维度将前一半通道特征作为目标编码特征，将后一半通道特征作为源编码特征，再将目标编码特征和源编码特征分别进行可分离的卷积运算，其中卷积核尺度均为3×3，特征通道数为24，水平方向及垂直方向的步长均为1，将目标编码特征的处理结果作为注意力学习的查询关键词K编码向量和数值V编码向量，将源编码特征的处理结果作为注意力学习的查询Q编码向量，然后，利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为1，特征通道数为24，最后，将所述每个注意力权重矩阵与每个注意力编码输入特征的目标编码特征相加，得到第1个阶段4个跨视图编码特征，利用所述4个跨视图编码特征的第1个和第2个跨视图编码特征的平均特征作为第1个阶段跨视图跨层特征；将所述第1个阶段跨视图跨层特征、第1个阶段第3个跨视图编码特征和第1个阶段第4个跨视图编码特征作为第1个阶段跨视图编码结果；将所述第1个阶段跨视图编码结果作为第2个阶段跨视图编码输入，将所述第1个阶段跨视图编码结果按照最后一个维度进行串接得到第1个阶段串接编码结果；

(2)第2个阶段的跨视图编码包括第2个阶段的嵌入编码和第2个阶段注意力编码

第2个阶段的嵌入编码，将第1个阶段跨视图编码结果中的每个特征进行嵌入编码，卷积运算的特征通道数为64，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，序列化处理将编码特征从图像特征空域形状变换为序列结构，特征的层归一化处理，得到第2个阶段嵌入编码1、第2个阶段嵌入编码2和第2个阶段嵌入编码3；

第2个阶段注意力编码，将第2个阶段嵌入编码1与第2个阶段嵌入编码2按照最后一个维度进行串接，得到第2阶注意力编码输入特征1；将第2个阶段嵌入编码1与第2个阶段嵌入编码3按照最后一个维度进行串接，得到第2个阶段注意力编码输入特征2；将第2个阶段嵌入编码2与第2个阶段嵌入编码1按照最后一个维度进行串接，得到第2个阶段注意力编码输入特征3；将第2个阶段嵌入编码3与第2个阶段嵌入编码1按照最后一个维度进行串接，得到第2个阶段注意力编码输入特征4，将每个所述输入特征，按照最后一个维度，将前一半通道特征作为目标编码特征，将后一半通道特征作为源编码特征，将目标编码特征和源编码特征分别进行可分离的卷积运算，卷积核尺度均为3×3，特征通道数为64，水平方向及垂直方向的步长均为2，将目标编码特征的处理结果作为注意力学习的查询关键词K编码向量和数值V编码向量，将源编码特征的处理结果作为注意力学习的查询Q编码向量，然后，利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为3，特征通道数为64，最后，将所述每个注意力编码输入特征的注意力权重矩阵与每个注意力编码输入特征的目标编码特征相加，得到第2个阶段的4个跨视图编码特征，利用所述跨视图编码特征的第1个和第2个特征的平均特征作为第2个阶段跨视图跨层特征；将所述第2个阶段跨视图跨层特征、第2个阶段第3个跨视图编码特征和第2个阶段第4个跨视图编码特征作为第2个阶段跨视图编码结果；将所述第2个阶段跨视图编码结果作为第3个阶段跨视图编码输入，将所述第2个阶段跨视图编码结果按照最后一个维度进行串接得到第2个阶段串接编码结果；

(3)第3个阶段的跨视图编码包括第3个阶段的嵌入编码和第3个阶段注意力编码

第3个阶段的嵌入编码，将第2个阶段跨视图编码结果中的每个特征进行嵌入编码处理，卷积运算，卷积核尺度均为3×3，特征通道数为128，水平方向及垂直方向的步长均为2，序列化处理将编码特征从图像特征空域形状变换为序列结构，特征的层归一化处理，得到第3个阶段嵌入编码1、第3个阶段嵌入编码2和第3个阶段嵌入编码3；

第3个阶段注意力编码，将第3个阶段嵌入编码1与第3个阶段嵌入编码2按照最后一个维度进行串接，得到第3阶注意力编码输入特征1；将第3个阶段嵌入编码1与第3个阶段嵌入编码3按最后一个维度进行串接，得到第3个阶段注意力编码输入特征2；将第3个阶段嵌入编码2与第3个阶段嵌入编码1按照最后一个维度进行串接，得到第3个阶段注意力编码输入特征3；将第3个阶段嵌入编码3与第3个阶段嵌入编码1按照最后一个维度进行串接，得到第3个阶段注意力编码输入特征4；将每个所述输入特征，按照最后一个维度，将前一半通道特征作为目标编码特征，将后一半通道特征作为源编码特征，将目标编码特征和源编码特征分别进行可分离的卷积运算，其中卷积核尺度均为3×3，特征通道数为128，水平方向及垂直方向的步长均为2，将目标编码特征的处理结果作为注意力学习的查询关键词K编码向量和数值V编码向量，将源编码特征的处理结果作为注意力学习的查询Q编码向量，然后，利用多头注意力方法计算每个注意力编码输入特征的注意力权重矩阵，头的个数为6，特征通道数为128，最后，将第3个阶段每个注意力编码输入特征的权重矩阵与每个注意力编码输入特征的目标编码特征相加，得到第3个阶段的4个跨视图编码特征，利用所述跨视图编码特征的第1个和第2个特征的平均特征作为第3个阶段跨视图跨层特征；将所述第3个阶段跨视图跨层特征、第3个阶段第3个跨视图编码特征和第3个阶段第4个跨视图编码特征作为第3个阶段跨视图编码结果；将所述第3个阶段跨视图编码结果按照最后一个维度进行串接得到第3个阶段串接编码结果；

对于第1个网络分支，将第1个阶段串接编码结果依次进行2个单元处理：在第1个单元处理中，卷积运算的特征通道数为16，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；将所得到的特征依次进行2个单元处理：在第1个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为64，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；然后，将所得到的特征与第3个阶段串接编码结果相串接，进行以下3个单元处理：在第1个单元处理中，卷积运算的特征通道数为64，卷积核尺度均为7×7，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第3个单元处理中，卷积运算的特征通道数为12，卷积核尺度均为1×1，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；将所得的12通道的特征结果按照2×6的形式进行预测，得到张量L的结果；

对于第2个网络分支，将第1个阶段串接编码结果依次进行2个单元处理：在第1个单元处理中，卷积运算的特征通道数为16，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；然后将所得到的特征与第2个阶段串接编码结果相串接，进行以下2个单元处理：在第1个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；将所得到的特征与第3个阶段串接编码结果相串接，进行2个单元处理：在第1个单元处理中，卷积运算的特征通道数为64，卷积核尺度均为7×7，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第3个单元处理中，卷积运算的特征通道数为4，卷积核尺度均为1×1，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；将所得的4通道特征作为张量O的结果；

对于第3个网络分支，将第1个阶段跨视图跨层特征输入，依次进行3个单元处理：在第1个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第3个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1；再进行特征激活、批归一化处理，然后进行1次反卷积运算，卷积的特征通道数为16，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，得到第3个网络分支的第1跨层特征；

对于第3个网络分支跨层特征初始化：将主干网络的第1个阶段跨视图跨层特征作为第3个网络分支的第2跨层特征，将主干网络的第2个阶段跨视图跨层特征作为第3个网络分支的第3跨层特征，将主干网络的第3个阶段跨视图跨层特征作为第3个网络分支的第4跨层特征，再将主干网络的第1个阶段跨视图跨层特征经过第1次残差编码处理，包括3次卷积运算，其通道特征数分别为64、64和256个，卷积核的形状分别为1×1、3×3和1×1，然后，依次进行2个单元处理：在第1个单元处理中，卷积运算的特征通道数为192，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理，在第2个单元处理中，卷积运算的特征通道数为192，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，作为第3个网络分支的第5跨层特征，将第5跨层特征进行1次残差编码处理，具体进行3次卷积运算，这3次卷积运算中通道特征数分别为512、512和2048个，卷积核的形状分别为1×1、3×3和1×1，然后将所得到的特征依次进行6个单元处理过程：

在第1个单元处理时，上采样卷积处理，特征通道数为512，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第3个网络分支的第5跨层特征相串接，进一步将所述串接特征进行卷积处理，卷积的特征通道数为512，卷积的核形状为3×3；

在第2个单元处理时，上采样卷积处理，特征通道数为256，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第3个网络分支的第4跨层特征相串接，将得到的特征再进行卷积处理，卷积的特征通道数为256，卷积的核形状为3×3；

在第3个单元处理时，上采样卷积处理，特征通道数为128，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第3个网络分支的第3跨层特征相串接，将所述串接特征进行卷积处理，卷积的特征通道数为128，卷积的核形状为3×3，将所得的特征输入到4个单元处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量W的第4个尺度的结果；

在第4个单元处理时，上采样卷积处理，特征通道数为64，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第3个网络分支的第2跨层特征、在第3个单元处理的2×2上采样编码特征相串接，将所述串接特征进行卷积处理，卷积的特征通道数为64，卷积的核形状为3×3，将所得的特征输入到第5个单元处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量W的第3个尺度的结果；

在第5个单元处理时，上采样卷积处理，特征通道数为32，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征分别与第3个网络分支的第1跨层特征、在第4个单元处理的2×2上采样编码特征相串接，再将所述串接特征输入到第6个单元进行处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量W的第2个尺度的结果；

在第6个单元处理时，上采样卷积处理，特征通道数为16，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第5个单元处理的2×2上采样编码特征相串接，再将所述串接特征通过核为3×3的卷积运算，预测为张量W的第1个尺度的结果；

利用第1至4个尺度的结果作为张量W的结果；

对于第4个网络分支，将第1个阶段跨视图跨层特征进行一次反卷积运算、特征激活、批归一化处理，反卷积运算中，卷积的特征通道数为16，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2；将得到的结果记为解码器跨层特征1，再将第1个阶段跨视图跨层特征进行以下2个单元的处理：第1个单元处理时，卷积运算特征通道数为32，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，并将处理特征记为解码器跨层特征2；第2个单元处理，卷积运算，特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的特征与第2个阶段跨视图跨层特征进行串接，将所述串接结果进行以下2个单元的处理：第1个单元处理时，卷积的特征通道数为64，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，并将处理特征记为解码器跨层特征3；第2个单元处理时，卷积的特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2,然后将所得到的特征与第3个阶段跨视图跨层特征进行串接，再进行以下3个单元处理，第1个单元处理时，卷积的特征通道数为128，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，并将处理特征记为解码器跨层特征4；第2个单元处理时，卷积的特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，将并将处理特征记为解码器跨层特征5；第3个单元处理时，卷积的特征通道数为512个，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，处理后得到第4个网络分支编码特征；

进一步进行解码，将所述第4个网络分支编码特征进行1次反卷积运算：卷积的特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，并将得到的结果与解码器跨层特征5相串接，进行一次卷积运算：特征通道数为512，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的结果进行反卷积运算：特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的结果与解码器跨层特征4相串接，进行一次卷积运算：特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的结果进行一次进行反卷积运算：特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的结果与解码器跨层特征3相串接，进行一次卷积运算：特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第4个尺度结果，同时，将所得到的特征进行1次反卷积运算，反卷积的特征通道数为64，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的特征与解码器跨层特征2相串接，进行一次卷积运算：特征通道数为64，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第3个尺度结果，同时，将所得到的特征进行1次反卷积运算：反卷积的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，再将所得到的特征与解码器跨层特征1相串接，然后进行一次卷积运算：特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第2个尺度结果，同时，将所得到的特征进行1次反卷积运算：特征通道数为16，卷积核尺度均为7×7，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的特征与第3个尺度特征经过上采样处理后得到的结果进行串接，然后进行一次卷积运算：特征通道数为16，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第1个尺度结果，利用所述张量B的4个尺度结果，得到第4个网络分支的输出；

对于第5个网络分支，将第3个阶段串接编码结果依次进行4个单元处理：在第1个单元处理中，卷积运算的特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理，在第2个单元处理中，卷积运算的特征通道数为512，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理，在第3个单元处理中，卷积运算的特征通道数为1024，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2,在第4个单元处理中，卷积运算的特征通道数为3，卷积核尺度均为1×1，水平方向及垂直方向的步长均为1，将所得到的特征作为张量D的结果；

对于第6个网络分支，将第1个阶段跨视图跨层特征输入，依次进行3个单元处理：在第1个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第3个单元处理中，卷积运算的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；然后进行1次反卷积运算，卷积的特征通道数为16，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，得到第6个网络分支的第1跨层特征；

对于第6个网络分支跨层特征初始化：将主干网络的第1个阶段跨视图跨层特征作为第6个网络分支的第2跨层特征，将主干网络的第2个阶段跨视图跨层特征作为第6个网络分支的第3跨层特征，将主干网络的第3个阶段跨视图跨层特征作为第6个网络分支的第4跨层特征，再将主干网络的第1个阶段跨视图跨层特征经过第1次残差编码处理，包括3次卷积运算，其通道特征数分别为64、64和256个，卷积核的形状分别为1×1、3×3和1×1，然后，依次进行2个单元处理：在第1个单元处理中，卷积运算的特征通道数为192，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理，在第2个单元处理中，卷积运算的特征通道数为192，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，作为第6个网络分支的第5跨层特征，将第5跨层特征进行1次残差编码处理，具体进行3次卷积运算，这3次卷积运算中通道特征数分别为512、512和2048个，卷积核的形状分别为1×1、3×3和1×1，然后将所得到的特征依次进行6个单元处理过程：

在第2个单元处理时，上采样卷积处理，特征通道数为256，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第6个网络分支的第4跨层特征相串接，将得到的特征再进行卷积处理，卷积的特征通道数为256，卷积的核形状为3×3；

在第3个单元处理时，上采样卷积处理，特征通道数为128，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第6个网络分支的第3跨层特征相串接，将所述串接特征进行卷积处理，卷积的特征通道数为128，卷积的核形状为3×3，将所得的特征输入到4个单元处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量R的第4个尺度的结果；

在第4个单元处理时，上采样卷积处理，特征通道数为64，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第6个网络分支的第2跨层特征、在第3个单元处理的2×2上采样编码特征相串接，将所述串接特征进行卷积处理，卷积的特征通道数为64，卷积的核形状为3×3，将所得的特征输入到第5个单元处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量R的第3个尺度的结果；

在第5个单元处理时，上采样卷积处理，特征通道数为32，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征分别与第6个网络分支的第1跨层特征、在第4个单元处理的2×2上采样编码特征相串接，再将所述串接特征输入到第6个单元进行处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量R的第2个尺度的结果；

在第6个单元处理时，上采样卷积处理，特征通道数为16，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第5个单元处理的2×2上采样编码特征相串接，再将所述串接特征通过核为3×3的卷积运算，预测为张量R的第1个尺度的结果；

利用第1至4个尺度的结果作为张量R的结果；

步骤3：神经网络的训练

分别将自然图像数据集、超声影像数据集和CT影像数据集中样本按照9:1划分为训练集和测试集，训练集中数据用于训练，测试集数据用于测试，在训练时，分别从对应的数据集中获取训练数据，统一缩放到分辨率p×o，输入到对应网络中，迭代优化，通过不断修改网络模型参数，使得每批次的损失达到最小；

在训练过程中，各损失的计算方法：

内部参数监督合成损失：在自然图像的网络模型训练中，将网络A的第3个网络分支输出的张量W作为深度，将网络A输出的张量L与训练数据的内部参数标签et(t＝1，2，3，4)分别作为位姿参数和摄像机内部参数，根据计算机视觉原理算法，利用图像b和图像d分别合成图像c视点处的两个图像，利用图像c分别与所述的两个合成图像，按照逐像素、逐颜色通道强度差之和计算得到；

无监督合成损失：在超声或者CT影像的网络模型训练中，将网络A的输出张量W作为深度，网络A输出的张量L和张量O分别作为位姿参数和摄像机内部参数，根据计算机视觉算法，利用目标影像的两个相邻影像分别构建目标视点处的合成影像，利用目标影像分别与所述两个目标视点处的合成影像，按照逐像素、逐颜色通道强度差之和计算得到；

内部参数误差损失：网络A输出的张量O与训练数据的内部参数标签et(t＝1，2，3，4)按照各分量差的绝对值之和计算得到；

空间结构误差损失：在超声或者CT影像的网络模型训练中，将网络A的输出张量W作为深度，网络A输出的张量L和张量O分别作为位姿参数和摄像机内部参数，根据计算机视觉算法，分别利用目标视点处影像的两个相邻影像重建目标视点处影像的三维坐标，采用RANSAC算法对重建点进行空间结构拟合，利用拟合得到的法向量与网络A的输出张量D，利用余弦距离计算得到；

变换合成损失：在超声或者CT影像的网络模型训练中，将网络A的输出张量W作为深度，网络A输出的张量L和张量O分别作为位姿参数和摄像机内部参数，根据计算机视觉算法，利用目标影像的两个相邻影像构建目标影像视点处的两个合成影像，对于所述合成影像中的每个影像，在合成过程得到每个像素位置后，将网络A的输出张量B作为合成影像空域变形的位移量，利用所述两个目标视点处的合成影像与目标视点处影像，按照逐像素、逐颜色通道强度差之和计算得到；

3D重投影损失：利用第6个网络分支的输出张量R作为摄像机坐标系下的3D坐标，将网络A的输出张量O作为摄像机内部参数，将网络A的第5个网络分支的输出张量B作为2D变形位移，依据摄像机的成像规律，将3D坐标投影到目标视点的2D空间中，如果对于医学影像，就再利用输出张量B作为变形位移，对于自然图像，无需进行变形处理，这样，得到合成目标视点处的结果，然后利用目标视点处的图像或者影像与所述合成目标视点处的结果，按照逐像素、逐颜色通道强度差之和计算得到；

具体训练步骤：

(1)自然图像数据集上，分别对网络A的主干网络及第1及第3个网络分支，训练50000次

每次从自然图像数据集中取出训练数据，统一缩放到分辨率p×o，将图像c及图像τ输入网络A，对网络A的主干网络及第1及第3个网络分支训练50000次，每批次的训练损失由内部参数监督合成损失计算得到；

(2)自然图像数据集上，对网络A的第2个及第6个网络分支，训练60000次

每次从自然图像数据集中取出训练数据，统一缩放到分辨率p×o，将将图像c及图像τ输入网络A，对网络A的第2个及第6个网络分支进行训练，每批次的训练损失由无监督合成损失、内部参数误差损失和3D重投影损失之和计算得到；

(3)在超声影像数据集上，对网络A的第4及第5个网络分支训练60000次

每次从超声影像数据集上取出超声训练数据，统一缩放到分辨率p×o，将影像j及影像π输入网络A，将输入到网络A，对网络A的第4及第5个网络分支进行训练，每批次的训练损失由变换合成损失、空间结构误差损失及3D重投影损失之和计算得到；

(4)在超声影像数据集上，对网络A的主干网络及第1至第6个网络分支训练50000次，得到网络模型参数ρ

每次从超声影像数据集上取出超声训练数据，统一缩放到分辨率p×o，将影像j及影像π输入网络A，将输入到网络A，对网络A的主干网络及第1至第6个网络分支进行训练，每批次的训练损失由变换合成损失、空间结构误差损失及3D重投影损失之和计算得到；

(5)在CT影像数据集上，对网络A的主干网络及第1至第6个网络分支进行训练50000次，得到网络模型参数ρ′

每次从CT影像数据集中取出CT影像训练数据，统一缩放到分辨率p×o，将影像m及影像σ输入到网络A，对网络A的主干网络及第1至第6个网络分支进行训练，每批次的训练损失由变换合成损失、空间结构误差损失、3D重投影损失和摄像机平移运动的损失之和计算得到；

步骤4：对超声或者CT影像三维重建

利用自采样的一个超声或者CT序列影像，同时进行以下3个处理实现三维重建：

(1)对序列影像中任一目标影像，缩放到分辨率p×o，对于超声序列影像，将影像j及影像π输入网络A，对于CT序列影像，将影像m及影像σ输入到网络A，将网络A的输出张量W作为深度，网络A输出的张量L和张量O分别作为位姿参数和摄像机内部参数，将网络A的输出张量R作为摄像机坐标下的3D坐标；

(2)序列影像三维重建过程中，建立关键帧序列：将序列影像第一帧作为关键帧序列的第一帧，并作为当前关键帧，当前关键帧之后的帧作为目标帧，按照目标帧顺序依次动态选取新的关键帧：首先，用单位矩阵初始化目标帧相对于当前关键帧的位姿参数矩阵，针对任一目标帧，将所述位姿参数矩阵累乘目标帧摄像机位姿参数，并利用累乘结果，结合所述目标帧的内部参数及深度信息，合成所述目标帧视点处的影像，利用所述合成影像与所述目标帧之间逐像素逐颜色通道强度差之和的大小计算误差λ，再根据所述目标帧的相邻帧，利用摄像机位姿参数和内部参数，合成所述目标帧视点处的影像，利用所述合成的影像与所述目标帧之间逐像素逐颜色通道强度差之和的大小计算误差γ，进一步利用公式(1)计算合成误差比Z：

满足Z大于阈值η，1<η<2，将所述目标帧作为新的关键帧，并将所述目标帧相对于当前关键帧的位姿参数矩阵作为新的关键帧的位姿参数，同时将所述目标帧更新为当前关键帧；以此迭代，完成关键帧序列建立；

(3)将序列影像第一帧的视点作为世界坐标系的原点，对任一目标影像，将其分辨率缩放到M×N，利用网络A输出的每帧影像摄像机坐标下的3D坐标，并结合关键帧序列中每一关键帧的位姿参数以及目标帧相对于当前关键帧的位姿参数矩阵，计算得到所述目标帧的每个像素的世界坐标系中的三维坐标。

本发明的有益效果：

本发明通过设计2D到3D端到端的Transformer网络，实现了对超声或CT医学影像的快速重建，可以自动从二维的医学图像快速重建三维空间几何信息，利用本发明能够有效地快速预测超声或CT影像的三维几何信息，极大地提高医学临床的诊断效率，为人工智能的医疗辅助诊断提供有效的3D重建解决方案。

附图说明

图1为本发明超声影像的三维重建结果图；

图2为本发明CT影像的三维重建结果图。

具体实施方式

下面结合附图及实施例对本发明进一步说明。

实施例

本实施例在PC机上Windows10 64位操作系统下进行实施，其硬件配置是CPU i7-9700F，内存16G，GPU NVIDIA GeForce GTX 2070 8G；深度学习库采用Tensorflow1.14；编程语言采用Python3.7版本。

一种基于跨视图视觉Transformer的超声或CT医学影像三维重建方法，该方法输入一个超声或者CT影像序列，分辨率为M×N，对于超声影像，M取450，N取300，对于CT影像，M和N均取512，三维重建的过程具体包括以下步骤：

步骤1：构建数据集

(a)构建自然图像数据集

选取一个自然图像网站，要求具有图像序列及对应的摄像机内部参数，从该网站下载19个图像序列及序列对应的内部参数,对于每个图像序列，每相邻3帧图像记为图像b、图像c和图像d，将图像b和图像d按照颜色通道进行拼接，得到图像τ，由图像c与图像τ构成一个数据元素，图像c为自然目标图像，图像c的采样视点作为目标视点，图像b、图像c和图像d的内部参数均为e_t(t＝1，2，3，4)，其中e₁为水平焦距，e₂为垂直焦距，e₃及e₄是主点坐标的两个分量；如果同一图像序列中最后剩余图像不足3帧，则舍弃；利用所有序列构建自然图像数据集，其数据集有3600个元素；

(b)构建超声影像数据集

采样10个超声影像序列，对于每个序列，每相邻3帧影像记为影像i、影像j和影像k，将影像i和影像k按照颜色通道进行拼接得到影像π，由影像j与影像π构成一个数据元素，影像j为超声目标影像,影像j的采样视点作为目标视点，如果同一影像序列中最后剩余影像不足3帧，则舍弃，利用所有序列构建超声影像数据集，其数据集有1600个元素；

(c)构建CT影像数据集

采样1个CT影像序列，对于所述序列，每相邻3帧记为影像l、影像m和影像n，将影像l和影像n按照颜色通道进行拼接得到影像σ，由影像m与影像σ构成一个数据元素，影像m为CT目标影像,影像m的采样视点作为目标视点，如果同一影像序列中最后剩余影像不足3帧，则舍弃，利用所有序列构建CT影像数据集，其数据集有2000个元素；步骤2：构建端对端三维重建网络A

神经网络处理的图像或影像的分辨率均为416×128，416为宽度，128为高度，以像素为单位；

网络A的结构由一个主干网络和6个网络分支构成，主干网络为跨视图Transformer拓扑结构，张量J和张量C作为输入，尺度分别为4×128×416×3和4×128×416×6，6个网络分支分别预测张量L、张量O、张量W、张量B、张量D和张量R，张量L尺度为4×2×6，张量O尺度为4×4×1，张量W尺度为4×128×416×1，张量B尺度为4×128×416×4，张量D的尺度为4×3，张量R尺度为4×128×416×3；

主干网络设计为依次进行的3个阶段跨视图编码：

码

利用第1至4个尺度的结果作为张量W的结果；

利用第1至4个尺度的结果作为张量R的结果；

步骤3：神经网络的训练

分别将自然图像数据集、超声影像数据集和CT影像数据集中样本按照9:1划分为训练集和测试集，训练集中数据用于训练，测试集数据用于测试，在训练时，分别从对应的数据集中获取训练数据，统一缩放到分辨率416×128，输入到对应网络中，迭代优化，通过不断修改网络模型参数，使得每批次的损失达到最小；

在训练过程中，各损失的计算方法：

内部参数监督合成损失：在自然图像的网络模型训练中，将网络A的第3个网络分支输出的张量W作为深度，将网络A输出的张量L与训练数据的内部参数标签e_t(t＝1，2，3，4)分别作为位姿参数和摄像机内部参数，根据计算机视觉原理算法，利用图像b和图像d分别合成图像c视点处的两个图像，利用图像c分别与所述的两个合成图像，按照逐像素、逐颜色通道强度差之和计算得到；

内部参数误差损失：网络A输出的张量O与训练数据的内部参数标签e_t(t＝1，2，3，4)按照各分量差的绝对值之和计算得到；

具体训练步骤：

每次从超声影像数据集上取出超声训练数据，统一缩放到分辨率416×128，将影像j及影像π输入网络A，将输入到网络A，对网络A的第4及第5个网络分支进行训练，每批次的训练损失由变换合成损失、空间结构误差损失及3D重投影损失之和计算得到；

每次从超声影像数据集上取出超声训练数据，统一缩放到分辨率416×128，将影像j及影像π输入网络A，将输入到网络A，对网络A的主干网络及第1至第6个网络分支进行训练，每批次的训练损失由变换合成损失、空间结构误差损失及3D重投影损失之和计算得到；

每次从CT影像数据集中取出CT影像训练数据，统一缩放到分辨率416×128，将影像m及影像σ输入到网络A，对网络A的主干网络及第1至第6个网络分支进行训练，每批次的训练损失由变换合成损失、空间结构误差损失、3D重投影损失和摄像机平移运动的损失之和计算得到；

步骤4：对超声或者CT影像三维重建

(1)对序列影像中任一目标影像，缩放到分辨率416×128，对于超声序列影像，将影像j及影像π输入网络A，对于CT序列影像，将影像m及影像σ输入到网络A，将网络A的输出张量W作为深度，网络A输出的张量L和张量O分别作为位姿参数和摄像机内部参数，将网络A的输出张量R作为摄像机坐标下的3D坐标；

满足Z大于1.2时，将所述目标帧作为新的关键帧，并将所述目标帧相对于当前关键帧的位姿参数矩阵作为新的关键帧的位姿参数，同时将所述目标帧更新为当前关键帧；以此迭代，完成关键帧序列建立；

(3)将序列影像第一帧的视点作为世界坐标系的原点，对任一目标帧，将其分辨率缩放到M×N，对于超声影像，M取450，N取300，对于CT影像，M和N均取512，利用网络A输出的每帧影像摄像机坐标下的3D坐标，并结合关键帧序列中每一关键帧的位姿参数以及目标帧相对于当前关键帧的位姿参数矩阵，计算得到所述目标帧的每个像素的世界坐标系中的三维坐标。

在本实施例中，实验的超参数：优化器采用Adam优化器，网络学习率均取0.0002，动量系数为0.9。

本实施例在所构建的自然图像训练集、超声影像训练集和CT影像训练集进行网络训练，利用公共数据集中10个超声采样序列和1个CT影像序列，分别进行测试，采用变换合成损失进行误差计算，在超声或者CT影像的误差计算中，利用目标影像的两个相邻影像分别构建目标影像视点处的两个合成影像，利用所述合成影像中的每个影像与目标视点处影像，按照逐像素、逐颜色通道强度差之和计算得到。

表1为超声影像序列重建时，计算得到的误差，表中每行的误差与超声影像公共数据集中的一个采样序列相对应，在CT影像序列重建时，将CT影像序列中的序列帧分为10组，每组的CT影像数量为40帧，表2为10组影像重建的误差，表中每行的误差与每组CT影像相对应。

本实施例，采用DenseNet对超声或者CT影像进行分割，然后进行3D重建，图1表示利用本发明得到的超声影像的三维重建结果，图2表示利用本发明得到的CT影像的三维重建结果，从中可以看出本发明能够得到较为准确的重建结果。

表1

序号	误差
		1	0.11610148312110197
2	0.02826848356626595
		3	0.06125881525299888
4	0.07554934470102945
		5	0.07948462550574205
6	0.06617134208951339
		7	0.035830799395794824
8	0.07705630977546843
		9	0.092671121180651
10	0.0445414264790305

表2

序号	误差
		1	0.06636326281077848
2	0.07478055509424937
		3	0.07598680222067215
4	0.07407711830847691
		5	0.12316882141920524
6	0.10484171659733185
		7	0.1294864709518461
8	0.15642428765151825
		9	0.11025815836670386
10	0.11994802908407565

Claims

1.一种2D到3D端对端的超声或CT医学影像跨模态重建方法，其特征在于，该方法输入一个超声或者CT影像序列，其影像分辨率为M×N，100≤M≤2000，100≤N≤2000，三维重建的过程具体包括以下步骤：

步骤1：构建数据集

(a)构建自然图像数据集

(b)构建超声影像数据集

(c)构建CT影像数据集

步骤2：构建端对端三维重建网络A

网络A的结构由一个主干网络和6个网络分支构成，主干网络为跨视图Transformer拓扑结构，张量J和张量C作为输入，尺度分别为α×o×p×3和α×o×p×6；6个网络分支分别预测张量L、张量O、张量W、张量B、张量D和张量R，张量L尺度为α×2×6，张量O尺度为α×4×1，张量W尺度为α×o×p×1，张量B尺度为α×o×p×4，张量D的尺度为α×3，张量R尺度为α×o×p×3，α为批次数量；

主干网络设计为依次进行的3个阶段跨视图编码：

(1)第1个阶段的跨视图编码包括第1个阶段的嵌入编码和第1个阶段注意力编码

在第3个单元处理时，上采样卷积处理，特征通道数为128，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第3个网络分支的第3跨层特征相串接，将所述串接特征进行卷积处理，卷积的特征通道数为128，卷积的核形状为3×3，将所得的特征输入到第4个单元处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量W的第4个尺度的结果；

在第4个单元处理时，上采样卷积处理，特征通道数为64，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第3个网络分支的第2跨层特征、在第3个单元处理时的2×2上采样编码特征相串接，将所述串接特征进行卷积处理，卷积的特征通道数为64，卷积的核形状为3×3，将所得的特征输入到第5个单元处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量W的第3个尺度的结果；

在第5个单元处理时，上采样卷积处理，特征通道数为32，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征分别与第3个网络分支的第1跨层特征、在第4个单元处理时的2×2上采样编码特征相串接，再将所述串接特征输入到第6个单元处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量W的第2个尺度的结果；

在第6个单元处理时，上采样卷积处理，特征通道数为16，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与在第5个单元处理时的2×2上采样编码特征相串接，再将所述串接特征通过核为3×3的卷积运算，预测为张量W的第1个尺度的结果；

利用第1至4个尺度的结果作为张量W的结果；

对于第4个网络分支，将第1个阶段跨视图跨层特征进行一次反卷积运算、特征激活、批归一化处理，反卷积运算中，卷积的特征通道数为16，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2；将得到的结果记为解码器跨层特征1，再将第1个阶段跨视图跨层特征进行以下2个单元的处理：第1个单元处理时，卷积运算特征通道数为32，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，并将处理特征记为解码器跨层特征2；第2个单元处理，卷积运算，特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的特征与第2个阶段跨视图跨层特征进行串接，将所述串接结果进行以下2个单元的处理：第1个单元处理时，卷积的特征通道数为64，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，并将处理特征记为解码器跨层特征3；第2个单元处理时，卷积的特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，然后将所得到的特征与第3个阶段跨视图跨层特征进行串接，再进行以下3个单元处理，第1个单元处理时，卷积的特征通道数为128，卷积核尺度均为7×7，水平方向及垂直方向的步长均为1，并将处理特征记为解码器跨层特征4；第2个单元处理时，卷积的特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，将并将处理特征记为解码器跨层特征5；第3个单元处理时，卷积的特征通道数为512个，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，处理后得到第4个网络分支编码特征；

进一步进行解码，将所述第4个网络分支编码特征进行1次反卷积运算：卷积的特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，并将得到的结果与解码器跨层特征5相串接，进行一次卷积运算：特征通道数为512，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的结果进行反卷积运算：特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的结果与解码器跨层特征4相串接，进行一次卷积运算：特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的结果进行一次进行反卷积运算：特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的结果与解码器跨层特征3相串接，进行一次卷积运算：特征通道数为128，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第4个尺度结果；同时，将所得到的特征进行1次反卷积运算，反卷积的特征通道数为64，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的特征与解码器跨层特征2相串接，进行一次卷积运算：特征通道数为64，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第3个尺度结果；同时，将所得到的特征进行1次反卷积运算：反卷积的特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，再将所得到的特征与解码器跨层特征1相串接，然后进行一次卷积运算：特征通道数为32，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第2个尺度结果；同时，将所得到的特征进行1次反卷积运算：特征通道数为16，卷积核尺度均为7×7，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，将所得到的特征与第3个尺度特征经过上采样处理后得到的结果进行串接，然后进行一次卷积运算：特征通道数为16，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，特征激活、批归一化处理，将所得到的特征作为张量B的第1个尺度结果；利用所述张量B的4个尺度结果，得到第4个网络分支的输出；

对于第5个网络分支，将第3个阶段串接编码结果依次进行4个单元处理：在第1个单元处理中，卷积运算的特征通道数为256，卷积核尺度均为3×3，水平方向及垂直方向的步长均为1，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为512，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第3个单元处理中，卷积运算的特征通道数为1024，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2；在第4个单元处理中，卷积运算的特征通道数为3，卷积核尺度均为1×1，水平方向及垂直方向的步长均为1，将所得到的特征作为张量D的结果；

对于第6个网络分支跨层特征初始化：将主干网络的第1个阶段跨视图跨层特征作为第6个网络分支的第2跨层特征，将主干网络的第2个阶段跨视图跨层特征作为第6个网络分支的第3跨层特征，将主干网络的第3个阶段跨视图跨层特征作为第6个网络分支的第4跨层特征，再将主干网络的第1个阶段跨视图跨层特征经过第1次残差编码处理，包括3次卷积运算，其通道特征数分别为64、64和256个，卷积核的形状分别为1×1、3×3和1×1，然后，依次进行2个单元处理：在第1个单元处理中，卷积运算的特征通道数为192，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，再进行特征激活、批归一化处理；在第2个单元处理中，卷积运算的特征通道数为192，卷积核尺度均为3×3，水平方向及垂直方向的步长均为2，特征激活、批归一化处理，作为第6个网络分支的第5跨层特征，将第5跨层特征进行1次残差编码处理，具体进行3次卷积运算，这3次卷积运算中通道特征数分别为512、512和2048个，卷积核的形状分别为1×1、3×3和1×1，然后将所得到的特征依次进行6个单元处理过程：

在第4个单元处理时，上采样卷积处理，特征通道数为64，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与第6个网络分支的第2跨层特征、在第3个单元处理时的2×2上采样编码特征相串接，将所述串接特征进行卷积处理，卷积的特征通道数为64，卷积的核形状为3×3，将所得的特征输入到第5个单元处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量R的第3个尺度的结果；

在第5个单元处理时，上采样卷积处理，特征通道数为32，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征分别与第6个网络分支的第1跨层特征、在第4个单元处理时的2×2上采样编码特征相串接，再将所述串接特征输入到第6个单元处理，同时，将所得到的特征通过核为3×3的卷积运算，预测为张量R的第2个尺度的结果；

在第6个单元处理时，上采样卷积处理，特征通道数为16，卷积的核形状为3×3，上采样的尺度为2×2，将所得的特征与在第5个单元处理时的2×2上采样编码特征相串接，再将所述串接特征通过核为3×3的卷积运算，预测为张量R的第1个尺度的结果；

利用第1至第4个尺度的结果作为张量R的结果；

步骤3：神经网络的训练

在训练过程中，各损失的计算方法：

3D重投影损失：利用第6个网络分支的输出张量R作为摄像机坐标系下的3D坐标，将网络A的输出张量O作为摄像机内部参数，将网络A的第5个网络分支的输出张量B作为2D变形位移，依据摄像机的成像规律，将3D坐标投影到目标视点的2D空间中，对于医学影像，就再利用输出张量B作为变形位移，对于自然图像，无需进行变形处理，这样，得到合成目标视点处的结果，然后利用目标视点处的图像或者影像与所述合成目标视点处的结果，按照逐像素、逐颜色通道强度差之和计算得到；

具体训练步骤：

(2)自然图像数据集上，对网络A的第2及第6个网络分支，训练60000次

每次从自然图像数据集中取出训练数据，统一缩放到分辨率p×o，将将图像c及图像τ输入网络A，对网络A的第2及第6个网络分支进行训练，每批次的训练损失由无监督合成损失、内部参数误差损失和3D重投影损失之和计算得到；

步骤4：对超声或者CT影像三维重建