CN113379818B

CN113379818B - 一种基于多尺度注意力机制网络的相位解析方法

Info

Publication number: CN113379818B
Application number: CN202110566297.8A
Authority: CN
Inventors: 段智涓; 朱江平; 黄怡洁; 游迪
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2022-06-07
Anticipated expiration: 2041-05-24
Also published as: CN113379818A

Abstract

本发明涉及本发明涉及光学三维测量领域，特别是涉及一种基于多尺度注意力机制网络的相位解析方法，包括以下步骤：S1向被测对象投影三频N步相移条纹图像，相机同步拍摄被待测对象面形调制的变形条纹图像；S2基于相移法，将变形条纹图像转换为不同频率的截断相位图；S3从不同频率的截断相位图中提取出最高频率的截断相位图，并将最高频率的截断相位图输入预先训练好的多尺度注意力机制网络中，输出对应的连续相位图；S4将连续相位图映射为三维面形深度，得到被测对象三维点云数据。采用本发明的方法，将截断相位图像输入预先训练好的网络模型即可快速预测出连续相位，能够抑制误差扩散与累积，不受实际相位不连续、戴眼镜等区域的影响。

Description

一种基于多尺度注意力机制网络的相位解析方法

技术领域

本发明涉及本发明涉及光学三维测量领域，特别是涉及一种基于多尺度注意力机制网络的高效相位解析方法。

背景技术

近年来，三维重建一直是计算机视觉中的一个热点课题，许多研究通过模拟人的双目视觉系统构建三维模型，利用左右视角观测同一物体产生的视差结合三角测量原理得到深度信息，广泛应用于机器智能、自动驾驶、工业检测、逆向工程、虚拟现实、三维制造与3D打印等领域中。尽管被动立体匹配取得了不错的效果，但对于包含大面积弱纹理区域的目标以及建模精度要求高的场景下，其三维重建效果就不够理想。因此，需要给待测物体增加投影“特征信息”才能实现弱纹理区域的高精度的三维建模。条纹投影三维成像技术具有非接触、高精度、全场测量、点云重建效率高等优点，通过投影条纹结构光至待测目标表面来获取三维面形数据，并采用单目或双目相机来采集受到待测曲面表面调制的变形图像，并从中分析相位信息来恢复三维信息。从变形条纹中通过反正切计算得到的相位被截断到[-π,π]的范围内，它的空间分布是截断的，存在2π的相位跳变。为了获得连续真实的空间相位分布，必须对其进行相位展开，以确定光栅条纹的正确级次，最后经相位匹配到三维坐标转换，才能获取被测目标的整场三维形貌信息。由于相位展开问题的复杂性，相位展开的精度很大程度上决定了整个测量系统的测量精度和适应性。

尽管国内外学者在相位轮廓测量领域已付出了大量努力，但仍然难以在相位展开的精度和效率之间取得平衡。传统的相位展开方法大体分为空间相位展开和时间相位展开方法。基于空间相位展开的测量系统，其需要逐点进行比较耗时较多，对于复杂的几何表面、干扰噪声、欠采样区域和剧烈变化的表面，相位展开过程通常比较困难，尤其是对于空间孤立物体，因不满足表面连续的假设前提，无法实现可靠的空间相位展开，容易在展开路径上造成“拉丝状”的错误蔓延累计；基于时间相位展开法的测量系统，一般需要投影多组不同频率的相移条纹图才能计算出连续相位，难以保证单次测量中相机视角下“运动物体准静止”的假设，因此往往只能运用于静态或低速场景。近年来，也有不少学者提出了基于深度学习的相位解析方法，然而这些方法大多等效为像素级分类任务，需要花费大量的时间来标注准确的相位级次。尤其是当条纹周期大，条纹级次众多时，网络的分类结果往往难以达到准确，通常需要使用后处理(基于聚类的平滑或领域像素的融合)来对相位级次进行校正操作。此外，这些方法多基于仿真数据或生物医学数据进行连续相位预测，对弱纹理的真实人脸的深度学习相位解析却鲜有报道。因此，针对被测目标面形较为复杂、相位信息变化剧烈，尤其是空间孤立、噪声、阴影及欠采样区域的情景，尚缺乏一种测量精度与测量效率兼得的相位展开方法。

发明内容

本发明目的在于构造一种基于多尺度注意力机制网络的相位解析方法，以改善上述问题。本发明提出的基于多尺度注意力机制网络的相位解析方法，采用线性回归的方法，避免了以往深度学习采用像素分类方法标注标签和后处理校正的繁琐过程，一旦网络模型训练完成，仅需要少量的条纹图(不超过3幅)既能实现高效相位解析。进一步，将该算法引入到基于条纹结构光的复杂曲面重建系统中，能够实现空间孤立的静态或动态目标的三维成像。

为了实现上述发明目的，本发明提供了以下技术方案：

一种基于多尺度注意力机制网络的相位解析方法，包括以下步骤：

S1，向被测对象投影三频N步相移条纹图像，相机同步拍摄被测对象的面形调制的变形条纹图像；

S2，基于相移法，将变形条纹图像转换为不同频率的截断相位图；

S3，从不同频率的截断相位图中提取出最高频率的截断相位图，并将最高频率的截断相位图输入预先训练好的多尺度注意力机制网络中，输出对应的连续相位图；

S4，将连续相位图映射为三维面形深度，得到被测对象三维点云数据。

作为优选方案，多尺度注意力机制网络包括编码网络、解码网络以及桥接网络，

编码网络与解码网络通过桥接网络连接，并且编码网络中的各下采样模块与解码网络中相应层级的上采样模块之间跳跃连接；

其中，编码网络包括5个依次连接的下采样模块，每个下采样模块将输入特征图的宽和高逐级缩小至输入特征图的1/2；

其中，解码网络包括上采样模块以及多尺度注意力机制模块，上采样模块利用反卷积层从下而上依次恢复特征图的宽和高，得到恢复特征图，恢复特征图与编码网络中相同尺寸的特征图连接，得到连接特征图，中间各层上采样模块分别将连接特征图输入多尺度注意力机制模块，通过多尺度注意力机制模块捕获全局上下文语义信息，再输出融合特征图到上一层上采样层，结合连接特征图的多尺度信息进行特征融合，输出连续相位图；

其中，桥接网络是连接编码网络和解码网络的中间模块，主要包括依次连接的1个3*3卷积，1个残差模块和1个3*3卷积。

作为优选方案，所述编码网络中5个下采样模块依次输出的特征图宽和高分别为：1/2H*1/2W，1/4H*1/4W，1/8H*1/8W，1/16H*1/16W和1/32H*1/32W，每个下采样模块由依次连接的卷积层构成，首先1个3*3的卷积层conv1用于来增加特征图的通道数；其次，改进的残差模块用于扩大感受野的同时使网络提取到的相位信息更加丰富；然后，一个3*3的卷积层conv4进一步提取可辨别的相位特征；最后，步长为2的最大池化层用于降低特征图的分辨率，将网络中的特征图抽象化；所述改进的残差模块包括3*3的卷积层conv2和孔洞卷积conv3。

作为优选方案，解码网络主干由5个上采样模块搭建而成，经每个上采样模块上采样以后，输出的特征图分辨率依次恢复为1/16H*1/16W，1/8H*1/8W，1/4H*1/4W，1/2H*1/2W，H*W；每个上采样模块中特征图首先经过一个步长为2的反卷积层恢复特征图的分辨率，接着经过一个3*3的卷积层，再经过一个残差模块，最后再经过一个3*3的卷积，进一步将抽象的特征编码为有助于被测目标连续相位分布的信息。

作为优选方案，在解码网络的第2个、第3个、第4个上采样模块之后分别接入多尺度注意力机制模块，多尺度注意力机制模块的输出连接到下一级的上采样模块的输入端。

作为优选方案，多尺度注意力机制模块结构为：首先经过一个1*1的卷积层得到特征Conv_1；再经过空间注意力模块，将Conv_1经过全局平局池化层和1*1的卷积层产生注意力映射，再将注意力映射结果与输入特征Conv_1融合得到融合特征；然后融合特征再经过2个1*1的卷积层，进一步提取语义特征信息，输出语义特征图；最后，语义特征图经过一个dropout层输出到下一级的上采样模块的输入端。

作为优选方案，多尺度注意力机制网络的训练步骤包括：

S31，向被测对象投影三频N步相移条纹图像，相机同步拍摄被待测对象面形调制的变形条纹图像；

S32，基于N步相移法，将变形条纹图像转换为不同频率的截断相位图，对不同频率的截断相位图进行相位展开，得到最高频率的连续相位图；

S33，重复执行步骤S31～S32，得到多组样本数据，样本数据是指最高频率的截断相位图及对应的最高频率的连续相位图形成的图像对；

S34，将多组最高频率的截断相位图输入多尺度注意力机制网络，输出多组连续相位图训练结果；

S35，将图像对、连续相位图训练结果输入多尺度注意力机制网络损失函数，根据损失函数的结果，对多尺度注意力机制网络进行训练，直到损失函数的结果收敛。

作为优选方案，使用SmoothL1函数作为损失函数，当损失函数的结果收敛时，训练周期为100轮。

作为优选方案，步骤S1具体步骤包括：通过投影设备，将相移条纹投影到被测目标表面，相移条纹在2π周期内均匀移动N次，N≥3，每次相移量为2π/N；任意一组N步相移条纹的图案表示为：

式中，i＝1,…,N表示第i步相移条纹的序号，I_i(x,y)表示时间轴上一个像素点的光强，a(x,y)为背景光强表示背景光强，b(x,y)为条纹的调制深度，f₀为正弦条纹的频率，

反应被测目标表面的三维面形分布。

作为优选方案，步骤S2中，基于相移法，将变形条纹图像转换为不同频率的截断相位图时，截断相位计算公式为：

其中，k＝1,…,N表示第k步相移，N≥3，I_k(x,y)表示相机记录的第k个变形条纹图的光强。

与现有技术相比，本发明的有益效果：

1、左右相机只需要投影不超过3幅条纹图像，即可实现高效相位解析。整个相位解析过程可在40ms以内完成。

2、与传统时间相位展开相比，在保持相位解算精度的前提下能够大幅度节约投影图像数目，减少运动伪影带来的相位误差；

3、与传统空间相位展开算法相比，能够抑制误差扩散和累积，不受实际相位不连续、戴眼镜等区域的影响。

4、在弱纹理、遮挡、阴影、反射表面等包含原始信息较少的区域，多尺度空间注意力机制网络更有利于捕获到焦点处的全局上下文语义信息。与传统的UNET相比，本发明提出的方法能够使边缘、欠采样、相位不连续、形状复杂等区域以及多尺度目标的相位展开更为准确。

5、具有较好的泛化性，可满足动态或静态目标的高速高精度三维成像。

附图说明：

图1为本发明实施例1中的一种基于多尺度注意力机制网络的相位解析方法的流程示意图；

图2为本发明实施例2中的一种基于双目视觉的复杂曲面重建系统实验案例的示意图；

图3为本发明实施例1中的多尺度注意力机制的卷积神经网络的整体结构图；

图4为本发明实施例1中的卷积神经网络中的编码网络结构图；

图5为本发明实施例1中的卷积神经网络中的解码网络结构图；

图6为本发明实施例2中多尺度注意力机制网络经过100轮训练和验证，SmoothL1Loss和MSE LOSS损失值下降曲线对比图；

图7为本发明实施例2中测试集中的一组数据--两个孤立面形的连续相位图，采用本发明算法与另外3种相位解析算法的相位误差对比图；

图8为本发明实施例2中测试集中的一组数据—两个孤立面形的三维点云图，采用本发明算法与另外3种相位解析算法的点云误差对比图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

实施例1

图1示出了一种基于多尺度注意力机制网络的相位解析方法的流程示意图，方法包括以下步骤：

S1，向被测对象投影三频N步相移条纹图像，相机同步拍摄被所述待测对象面形调制的变形条纹图像。

投影仪任一组N步(N≥3)相移光栅图像的光强图可以被表示为：

式(1)中，i＝1,…,N表示第i步相移(N≥3)。I_i(x,y)表示时间轴上光强函数，a(x,y)为背景光强表示背景光强，b(x,y)为条纹的调制深度。f₀为载波频率，

表示第i幅条纹图中此目标点由高度分布引起的被调制的相位。

S2，基于相移法，将所述变形条纹图像转换为不同频率的截断相位图。

利用步骤1采集的3频N步相移的变形条纹图像，基于相移法计算得到不同频率的截断相位图。

利用N步相移法求解每套条纹图截断相位的计算公式为：

式(2)中，k＝1,…,N表示第k步相移(N≥3)。I_k(x,y)表示相机记录的第k个变形条纹图的光强。

需要说明的是，在本实施例中，采用的是相移法得到所述截断相位。可选地，还可以通过其他的方法获得所述截断相位，例如：傅里叶变换、窗口傅里叶变换、小波变换等方法，只要能实现截断相位获取即可，在本实施例中不做具体限制。

S3，从不同频率的截断相位图中提取出最高频率的截断相位图，并将所述最高频率的截断相位图输入预先训练好的多尺度注意力机制网络中，输出对应的连续相位图。

其中，从不同频率的截断相位图中提取出最高频率的截断相位图具体步骤概述如下：

以载波频率为1,8,64为例，由于投影3组不同频率的4步相移光栅图像，根据步骤2可以得到频率为1,8,64的截断相位图。因为频率为1的连续相位图的范围也是[0,2π]，所以频率为1的截断相位图即是连续相位图。用频率为1的连续相位图辅助解析频率为8的截断相位图为得到频率8连续相位，用频率为8的连续相位图辅助解析频率为64的截断相位图，得到的频率为64的截断相位图即为最终连续相位。具体公式如下：

其中f_h是高频光栅图的频率，f₁是低频光栅图的频率，用频率为1的绝对相位图辅助展开频率为8的截断相位图时，高频为8，低频为1；用频率为8的绝对相位图辅助展开频率为64的截断相位图时，高频为64，低频为8；

是高频光栅图的截断相位，k_h(x,y)是高频光栅图的相位周期级次，Φ_h(x,y)和Φ_l(x,y)分别是高频和低频光栅图的连续相位。floor为向下取整函数。

本发明提出基于多尺度注意力机制网络来实现截断相位到连续相位的端到端映射，其网络总体结构如图3所示，主要包含编码网络和解码网络、桥接网络三部分。图3中左边模块是编码网络，主要包括5个下采样模块，每个下采样模块将图像宽高分别缩小至输入特征图的1/2，不仅降低了图像的分辨率进而减小网络负担，而且还使得特征图学习到像素分类信息，进一步有助于在人脸等弱纹理区域捕获丰富的空间信息。图3中右边模块是解码网络网络，主要包含上采样模块以及多尺度注意力机制模块，上采样模块与编码网络中相同尺度特征图的下采样模块之间使用了跳跃连接，将浅层网络学习到的像素分类信息和深层网络中的像素定位信息进行多尺度融合，有利于准确的像素级定位，从而预测出每个像素的连续相位值，具体的，通过桥接网络获取最底层尺度特征图后，利用反卷积层自下而上将尺度特征图进行恢复，不仅得到了各上采样模块的恢复特征图，还恢复出最终的恢复特征图。

作为本发明的特有方案，在自下而上依次恢复特征图尺寸的过程中，加入了多尺度注意力机制模块，5个上采样模块中，中间3个上采样模块输出的恢复特征图分别先输入多尺度注意力机制模块后，再将多尺度注意力机制模块输出的优化尺度特征图输入上一层上采样模块。解码端的多尺度注意力机制模块有助于更精准的将编码网络学习到的可辨别特征(较低分辨率)投影到像素空间(较高分辨率)，以获得密集分类。注意力机制模块能够模仿人类视觉的注意力机制，一方面在焦点区域分配更重的权重信息，可高效地获取对相位解析任务有帮助的特征信息；另一方面，可以减少高维度数据的计算代价，更快捷的捕获全局上下文信息，从而改善相位展开困难区域的学习精度。

另外，从图3中还可以看到，编码网络和解码网络还通过桥接网络进行连接，具体的，编码网络中最下层的下采样模块和解码网络中最下层的上采样模块之间通过桥接网络连接，桥接网络主要包括1个3*3卷积，1个残差模块和1个3*3卷积。

图3中的编码网络详细框架如图4所示。共包含5个下采样模块，经每个模块下采样后，输出的特征图大小分别为1/2H*1/2W，1/4H*1/4W，1/8H*1/8W，1/16H*1/16W，1/32H*1/32W。每个下采样模块由五个卷积层构成，首先经过1个3*3的卷积层conv1，来增加特征图的通道数；再经过改进的残差模块扩大感受野的同时使网络提取到的相位信息更加丰富，改进的残差模块由卷积层conv2和conv3依次连接构成，本发明创新点在于对每个下采样模块中的残差模块进行了改进，传统的残差模块由2个3*3的卷积层和一个跳跃连接构成，本发明将第2个3*3卷积改成了孔洞卷积，即卷积层conv2为3*3的卷积层，卷积层conv3为孔洞卷积。改进的残差模块输出的特征图再经过一个3*3的卷积层conv4进一步提取可辨别的相位特征。最后，使用步长为2的最大池化层conv5，降低特征图的分辨率，将网络中的特征图抽象化。

图3中的解码网络详细框架如图5所示。解码网络的网络主干由5个上采样模块搭建而成，经每个模块上采样以后，输出的特征图分辨率恢复为1/16H*1/16W，1/8H*1/8W，1/4H*1/4W，1/2H*1/2W，H*W。每个上采样模块中特征图首先经过一个步长为2的反卷积层恢复特征图的分辨率，接着经过一个3*3的卷积层，再经过一个残差模块，最后再经过一个3*3的卷积，进一步将抽象的特征编码为有助于被测目标连续相位分布的信息。

本发明的创新点在于在解码网络的第2个、第3个、第4个上采样模块后分别接入多尺度注意力机制模块，多尺度注意力机制模块的输出连接到下一级的上采样模块的输入端。

多尺度注意力机制模块基于模仿人类视觉的原理而设计，在焦点处分配更多地注意力，从而获取更多的有效信息。在弱纹理，遮挡区域，反射表面等包含原始信息较少的区域，采用多尺度注意力机制模块可有效捕获到更多的上下文语义信息，有效的提升阴影、戴眼镜、欠采样、相位不连续、几何形状复杂、多尺度等区域的学习精度。多尺度注意力机制模块设计如下：首先经过一个1*1的卷积层得到特征Conv_1；再经过空间注意力模块，该模块将Conv_1经过全局平局池化层和1*1的卷积层，产生注意力映射，再将其与输入特征Conv_1融合；然后再经过2个1*1的卷积层，进一步提取语义特征信息；最后，经过一个dropout层，其随机失活单元的比例设置为0.1，可提升模型的泛化性。

S4，将所述连续相位图映射为三维面形深度，得到被测对象三维点云数据。

对步骤3获得的反映被测目标面形的连续相位图进行极线校正、相位均值滤波，最后经相位匹配、视差计算并依据测量系统的标定参数完成三维坐标转换，恢复被测对象三维点云数据。

作为本发明的优选方案，所述多尺度注意力机制网络的训练步骤包括：

S31，向被测对象投影三频N步相移条纹图像，相机同步拍摄被所述待测对象面形调制的变形条纹图像；

S32，基于N步相移法，将所述变形条纹图像转换为不同频率的截断相位图，对不同频率的截断相位图进行相位展开，得到最高频率的连续相位图；

S33，重复执行步骤S31～S32，得到多组样本数据，所述样本数据是指最高频率的截断相位图及对应的最高频率的连续相位图形成的图像对；

S35，将所述图像对、所述连续相位图训练结果输入多尺度注意力机制网络损失函数，根据所述损失函数的结果，对所述多尺度注意力机制网络进行训练，直到所述损失函数的结果收敛。

实施例2

为了验证本发明本实施案例提供的相位展开方法，下面示例性地给出该方法的一个具体实验案例。

图2表示出了根据发明涉及的一种基于双目视觉的复杂曲面重建系统实验案例的示意图，实验条件设置如下：

(1)2个完全孤立的被测目标：包括1个面具和1个人脸模特。(2)投影仪：帧率为120fps，分辨率1280*1024，每12幅结构光图像为一组，连续循环投影，同步提供外触发信号给相机；(3)相机：包括左相机715和右相机716，帧率为120fps，分辨率1280*1024，接收投影机外触发信号并拍摄结构光照明的2个被测目标，投影仪与左右相机存在固定的基线距离，满足三角测量原理；(4)1台计算机：主要功能是接收双目相机的采集到的图像数据，进行图像预处理、相位解析，极线校正、视差图计算和3D建模显示。

利用步骤S1所述，投影并采集3组不同频率的4步相移光栅图像，3组光栅图案的频率分别为1，8，64。利用步骤2可以得到3组不同频率的截断相位图。利用步骤3可以得到频率为64的截断相位图和连续相位图。利用步骤4和5，准备数据集并搭建如图3所示的多尺度注意力机制网络。

利用步骤1、2、3，投影并拍摄50000组数据，涵盖了人脸数据和面具数据，其中，训练集，验证集和测试集的比例设置为96:2:2。图像的分辨率为256*256，在神经网络训练中使用频率为64的截断相位图和连续相位图，用于训练和测试。为了丰富数据的多样性、提高模型的泛化能力，将图像进行了随机裁剪、旋转、变化对比度、移动处理。

利用步骤5，设置网络的训练周期为100轮，使用SmoothL1函数作为损失函数，图6为网络经过100轮训练和验证的SmoothL1损失函数和MSE损失函数收敛效果对比。图6显示，SmoothL1损失函数比MSE损失函数更能拟合离群点，而且能够更好的避免震荡现象、收敛速度更快，仅需训练100轮，误差即可达到稳定状态。

利用步骤6在人脸和面具测试集上对训练完成的模型进行测试，针对测试集中的一组数据做了一个对比性的实验，将本发明提出的算法与传统UNET及空间相位展开算法进行了误差对比，如图7所示。其中为图7(a)为截断相位，图7(b)为时间相位展开的结果(groundtruth)，图7(c)为本发明提供的相位解析算法解算的连续相位图，图7(d)为传统的UNET(K.Wang,Y.Li,K.Qian,J.Di,and J.Zhao,“One-step robust deep learning phaseunwrapping,”)解算的相位，图7(e)为QG(质量图导向算法，Su X,Chen W.“Reliability-guided phase unwrapping algorithm”)计算的连续相位图，图7(f)为BC(“Goldstein’sbranch-cut algorithm”)计算的相位图，图7(g)为采用导数方差法计算的截断相位质量图，图7(h)-图7(k)展示了本发明算法、传统UNET、QG、BC四种算法计算的相位误差分布。可见QG、BC算法均只能展开其中一个面形，展开另外一个面形时出现严重错误。UNET在面具的边缘小块区域出现了展开误差，本发明提出的算法仅出现极少数相位误差点，相位解析更为准确。

利用步骤7，将该组数据样本进行连续相位到三维坐标的映射，将本发明提出的算法与传统UNET及空间相位展开算法进行了三维点云误差对比，如图8所示。其中为图8(a)为采用时间相位展开生成的三维点云，图8(b)为本发明提供的算法生成的三维点云，图8(c)为传统的UNET相位解析生成的三维点云，图8(d)为QG(质量图导向算法)生成的三维点云，图8(e)为BC(枝切算法)生成的三维点云，图8(f)-图8(i)展示了本发明算法、传统UNET、QG、BC四种算法计算的相位误差分布。可见QG算法生成的点云模型由于相位展开明显错误，人脸模型中出现了两组眼睛；BC算法在人脸面具的点云模型明显不完整，在双鱼座面具头饰和人脸模特的嘴巴处也出现了明显的展开错误；UNET算法在边双鱼座面具的脸部边缘有少量的缺失；而本发明提出的算法生成的点云模型只有极少量误差，更为准确接近于真值。

这个结果进一步证明本发明所述的相位解析方法能实现多个孤立面形的高效相位展开，尤其针是对人脸这类弱纹理的目标，基于多尺度注意力机制网络的方法在边缘、欠采样、相位不连续区域更具优势，相位解析精度接近于时间相位展开，仅需投影少量图案(不超过3幅)即实现三维实时成像。

Claims

1.一种基于多尺度注意力机制网络的相位解析方法，其特征在于，包括以下步骤：

S1，向被测对象投影三频N步相移条纹图像，相机同步拍摄被所述被测对象的面形调制的变形条纹图像；

S2，基于相移法，将所述变形条纹图像转换为不同频率的截断相位图；

S3，从所述不同频率的截断相位图中提取出最高频率的截断相位图，并将所述最高频率的截断相位图输入预先训练好的多尺度注意力机制网络中，输出对应的连续相位图；

S4，将所述连续相位图映射为三维面形深度，得到被测对象三维点云数据；

所述多尺度注意力机制网络包括编码网络、解码网络以及桥接网络，

所述编码网络与所述解码网络通过桥接网络连接，并且编码网络中的各下采样模块与所述解码网络中相应层级的上采样模块之间跳跃连接；

其中，解码网络包括上采样模块以及多尺度注意力机制模块，上采样模块利用反卷积层从下而上依次恢复特征图的宽和高，得到恢复特征图，所述恢复特征图与编码网络中相同尺寸的特征图连接，得到连接特征图，中间各层上采样模块分别将所述连接特征图输入所述多尺度注意力机制模块，通过所述多尺度注意力机制模块捕获全局上下文语义信息，再输出融合特征图到上一层上采样层，结合所述连接特征图的多尺度信息进行特征融合，输出连续相位图；

其中，桥接网络是连接编码网络和解码网络的中间模块，主要包括依次连接的1个3*3卷积，1个残差模块和1个3*3卷积；

所述多尺度注意力机制网络的训练步骤包括：

S31，向被测对象投影三频N步相移条纹图像，相机同步拍摄被所述被测对象面形调制的变形条纹图像；

2.如权利要求1所述的一种基于多尺度注意力机制网络的相位解析方法，其特征在于，所述编码网络中5个下采样模块依次输出的特征图宽和高分别为：1/2H*1/2W，1/4H*1/4W，1/8H*1/8W，1/16H*1/16W和1/32H*1/32W，每个下采样模块由依次连接的卷积层构成，首先1个3*3的卷积层conv1用于增加特征图的通道数；其次，改进的残差模块用于扩大感受野的同时使网络提取到的相位信息更加丰富；然后，一个3*3的卷积层conv4进一步提取可辨别的相位特征；最后，步长为2的最大池化层用于降低特征图的分辨率，将网络中的特征图抽象化；所述改进的残差模块包括3*3的卷积层conv2和孔洞卷积conv3。

3.如权利要求1所述的一种基于多尺度注意力机制网络的相位解析方法，其特征在于，所述解码网络主干由5个上采样模块搭建而成，经每个上采样模块上采样以后，输出的特征图分辨率依次恢复为1/16H*1/16W，1/8H*1/8W，1/4H*1/4W，1/2H*1/2W，H*W；每个上采样模块中特征图首先经过一个步长为2的反卷积层恢复特征图的分辨率，接着经过一个3*3的卷积层，再经过一个残差模块，最后再经过一个3*3的卷积，进一步将抽象的特征编码为有助于被测目标连续相位分布的信息。

4.如权利要求1所述的一种基于多尺度注意力机制网络的相位解析方法，其特征在于，解码网络的第2个、第3个、第4个上采样模块之后分别接入多尺度注意力机制模块，多尺度注意力机制模块的输出连接到下一级的上采样模块的输入端。

5.如权利要求1所述的一种基于多尺度注意力机制网络的相位解析方法，其特征在于，所述多尺度注意力机制模块结构为：首先经过一个1*1的卷积层得到特征Conv_1；再经过空间注意力模块，将Conv_1经过全局平局池化层和1*1的卷积层产生注意力映射，再将注意力映射结果与输入特征Conv_1融合得到融合特征；然后融合特征再经过2个1*1的卷积层，进一步提取语义特征信息，输出语义特征图；最后，语义特征图经过一个dropout层输出到下一级的上采样模块的输入端。

6.如权利要求1所述的一种基于多尺度注意力机制网络的相位解析方法，其特征在于，使用SmoothL1函数作为损失函数，当所述损失函数的结果收敛时，训练周期为100轮。

7.如权利要求1-6任一所述的一种基于多尺度注意力机制网络的相位解析方法，其特征在于，步骤S1具体步骤包括：通过投影设备，将相移条纹投影到被测对象表面，相移条纹在2π周期内均匀移动N次，N≥3，每次相移量为2π/N；任意一组N步相移条纹的图案表示为：

式中，i＝1,…,N表示第i步相移条纹的序号，I_i(x,y)表示时间轴上一个像素点的光强，a(x,y)表示背景光强，b(x,y)为条纹的调制深度，f₀为正弦条纹的频率，

反应被测目标表面的三维面形分布。

8.如权利要求7所述的一种基于多尺度注意力机制网络的相位解析方法，其特征在于，步骤S2中，基于相移法，将所述变形条纹图像转换为不同频率的截断相位图时，截断相位计算公式为：