CN114066959A

CN114066959A - 基于Transformer的单幅条纹图深度估计方法

Info

Publication number: CN114066959A
Application number: CN202111413359.8A
Authority: CN
Inventors: 朱新军; 韩志强; 张志志; 王红一; 宋丽梅; 武志超
Original assignee: Tianjin Polytechnic University
Current assignee: Tianjin Polytechnic University
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-02-18
Anticipated expiration: 2041-11-25
Also published as: CN114066959B

Abstract

本发明提供了一种基于Transformer的单幅条纹图深度估计方法，包括建立基于CNN‑Transformer的混合架构模型；建立基于双向特征融合模块的双向特征交互通道，输入图像经过下采样后的特征图同时输入到CNN和Transformer两个分支中；模型经过4个阶段的下采样后再经过4个阶段的上采样操作恢复特征图的分辨率；模型在深度估计时融合多个跨尺度的CNN特征和多个跨尺度的Transformer特征输出单幅条纹图像的深度图。本发明能够更有效的从单幅条纹图估计深度信息，提高条纹投影三维测量精度。

Description

基于Transformer的单幅条纹图深度估计方法

技术领域

本发明属于计算机三维视觉技术领域，具体为一种基于Transformer的单幅条纹图深度估计方法。

背景技术

条纹投影三维测量技术作为光学三维测量的重要方式之一，具有快速、全场、高精度等优点，在材料测试、虚拟现实与人机交互、文物保护、机器人视觉、工业检测、生物医学和流体力学等领域具有广阔的应用前景。从条纹图估计被测物体的深度信息是条纹投影研究的重要内容。

传统条纹投影三维重建方式难以估计单幅条纹图像的深度信息。近年来，深度学习技术取得了十足的发展，并已被用解决计算机视觉任务中的挑战性问题，例如图像分类、语义分割、目标检测和图像复原等。在条纹投影领域中也出现了基于深度学习技术的解决方案，例如U-Net模型、hNet模型和R2U_Net模型等。基于深度学习技术的方案与传统技术的区别在于，其可以仅通过单幅条纹图像来估计物体深度信息。而值得注意的一点是，上述方法都是基于卷积神经网络，其已经作为单幅图像深度估计的首选方案。卷积神经网络固有的“卷积”操作带来的缺点很明显，就是难以建模图像的全局依赖关系，为了补足CNN的缺陷出现了两条分支，一种是加入注意力机制的改进CNN模型，另一种是完全基于注意力机制的Transformer。据我们目前所知，基于Transformer的模型至今尚未应用于单幅条纹图深度估计，但是Transformer模型已经在NLP和CV任务上取得了领先性的成就，其设计的原理与卷积相比具有根本性的不同，注意力机制使得模型可以摆脱局部感受野的限制，而CNN通常需要其他的操作来增大感受野。

发明内容

有鉴于此，本发明旨在提出一种基于Transformer的单幅条纹图深度估计方法，用于完成单幅条纹图像的深度估计任务，并取得了高于纯卷积神经网络的结果。

为达到上述目的，本发明的提出了一种基于Transformer的单幅条纹图深度估计方法，包括以下步骤：

基于Transformer的单幅条纹图深度估计方法，包括如下步骤：

S1：建立基于CNN-Transformer的混合架构模型；

S2：建立基于双向特征融合模块的双向特征交互通道，输入图像经过下采样后的特征图同时输入到CNN和Transformer两个分支中；

S3：模型经过4个阶段的下采样后再经过4个阶段的上采样操作恢复特征图的分辨率；

S4：模型在深度估计时融合多个跨尺度的CNN特征和多个跨尺度的Transformer特征输出单幅条纹图像的深度图。

进一步的，所述CNN部分包括CNN基本块，Transformer部分包括Transformer基本块，二者提取的图像特征根据其性质分为局部特征和全局特征。

进一步的，所述模型总体遵从encoder-decoder结构，建立对称的decoder，并通过跳跃连接将encoder的同尺度特征融合到decoder中，最后在输出深度图时融合CNN部分和Transformer部分的decoder的4中跨尺度特征图。

进一步的，所述步骤S2中，所述两个分支之间存在双向信息交互，双向交互过程为特征图首先经过第一个CNN模块，然后下采样并Reshape后输入到Transformer中，经过Transformer处理的特征图经上采样并Reshape后输入到第二个CNN模块中，最终输出CNN特征图和Transformer特征图。

进一步的，在交互过程中CNN特征图始终是Transformer特征图的两倍大小。

进一步的，所述步骤S2中，CNN部分的下采样首先使用最大池化层降低特征图的分辨率，然后通过CONV-BN-LeakyReLU层改变特征图的通道数，同理CNN部分的上采样首先使用UpSample操作增大特征图的分辨率，然后通过CONV-BN-LeakyReLU层改变特征图的通道数。

进一步的，所述步骤S4中，获得decoder的4种不同尺度的特征图后，将分辨率相同的CNN特征图和Transformer特征图使用Convblock融合，然后将融合后的四种尺度的特征图经上采样恢复到原图1/2的分辨率，再次使用Conv block融合，最终输出单幅深度估计图。

本发明还提供一种基于Transformer的单幅条纹图深度估计装置，包括

模型建立模块，用于建立基于CNN-Transformer的混合架构模型；

数据输入模块，用于建立基于双向特征融合模块的双向特征交互通道，将输入图像经过下采样后的特征图同时输入到CNN和Transformer两个分支中；

数据处理模块，用于将模型经过4个阶段的下采样后再经过4个阶段的上采样操作恢复特征图的分辨率；

结果输出模块，用于将模型在深度估计时融合多个跨尺度的CNN特征和多个跨尺度的Transformer特征输出单幅条纹图像的深度图。

本发明还提供一种终端，所述终端包括一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述基于Transformer的单幅条纹图深度估计方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述基于Transformer的单幅条纹图深度估计方法。

相对于现有技术，本发明所述的一种基于Transformer的单幅条纹图深度估计方法具有以下优势：

(1)本发明克服了已有卷积神经网络在条纹深度预测过程中缺少全局特征提取功能的缺陷，提高单幅条纹图像深度估计准确性。

(2)本发明基于多头自注意力机制和卷积神经网络构建了一种并行混合模型，模型内部通过双向特征融合模块进行特征交互，并在深度估计时使用了跨尺度融合策略，将不同尺度的CNN特征与Transformer特征融合，此融合策略会增加深度估计的准确性，能够更有效的从条纹图估计深度信息，提高条纹投影三维测量精度。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为并行CNN-Transformer的总体架构示意图；

图2为Conv block和Trans block的结构图；

图3为CNN与Transformer的双向交互机制图；

图4为单幅条纹图像；

图5为单幅条纹图像的深度图；

图6为四种方法的误差图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

为更好理解上述技术方案，下面将结合说明书附图以及最佳实施方式，对上述技术方案进行详细的说明。

本发明为了解决基于纯卷积神经网络难以对单幅条纹图进行有效估计的问题，提出了一种并行混合模型对单幅条纹图像进行深度估计。该模型基于卷积神经网络和多头自注意力机制的并行混合架构来对单幅条纹图像进行深度估计，首先，输入图像经过下采样后的特征图同时输入到两个分支中，两个分支之间存在双向信息交互，双向交互过程为特征图首先经过第一个CNN模块，然后下采样并Reshape后输入到Transformer中，经过Transformer处理的特征图经上采样并Reshape后输入到第二个CNN模块中，最终输出CNN特征图和Transformer特征图；其次，模型在经过4个阶段的下采样后在经过4个阶段的上采样操作恢复特征图的分辨率，最后，模型在深度估计时融合多个跨尺度的CNN特征和多个跨尺度的Transformer特征输出单幅条纹图像的深度图。通过实验结果验证了本发明的方法切实可靠。

具体的，本发明的并行CNN-Transformer的混合架构模型分为两大部分，即CNN部分和Transformer部分，CNN部分由CNN基本块组成，Transformer部分由Transformer基本块组成，二者提取的图像特征根据其性质可以分为局部特征和全局特征。模型总体上遵从encoder-decoder结构，encoder提取高层语义特征信息，单幅条纹图像的深度估计任务属于密集预测任务，所以需要decoder恢复图像的分辨率。本发明根据encoder设计了对称的decoder，并通过跳跃连接将encoder的同尺度特征融合到decoder中，最后在输出深度图时融合CNN部分和Transformer部分的decoder的4中跨尺度特征图。总体架构图如附图1所示。

具体的，本发明中CNN块由两个更小的Conv block组成；Trans block则有多头自注意力模块(MHSA)和多层感知器(MLP)组成，并使用了LN归一化层。Conv block和Transblock的组成如图2所示。Trans block的输入为一系列的块，计算块间的相似性可以得到每个块对应的权重系数，通过softmax归一化后对权重和对应的原本的块的值进行加权求和得到的特征图称为注意力特征图，这种操作或者类似的操作称为注意力机制，公式如下所示：

其中因子

为Key向量维度的平方根，起到调节作用，使得上方内积不至于太大从而导致softmax出现非0即1的情况，而自注意力机制(Self-Attention)则指K＝V＝Q,多头自注意机制则是指K、V、Q要计算多次，然后将多次的结果进行拼接，这样做的好处是允许模型在不同的表示子空间里学习到相关的信息。计算同一个K、V、Q多次是无意义的，因此在MHSA中的Q、K、V都会有一个缩放参数Q＝QW^Q，K＝KW^K，V＝VW^V。

具体的，本发明中，CNN部分的下采样首先使用最大池化层降低特征图的分辨率，然后通过CONV-BN-LeakyReLU层改变特征图的通道数，同理CNN部分的上采样首先使用UpSample操作增大特征图的分辨率，然后通过CONV-BN-LeakyReLU层改变特征图的通道数。在Transformer部分本发明完成下采样和上采样的两种操作称为Patch Embedding和PatchExpanding，Patch Embedding和Patch Expanding的作用类似卷积神经网络的下采样和上采样，但实现原理不同。与卷积神经网络不同，对于Transformer模型来说，首先要将原始的2-D特征图转换成一系列的1-D分块特征图。输入的特征图记为x∈R^H×W×C，其中H和W分别为输入特征图的高和宽，而C则指特征图的通道数(维度)，如果要将输入特征图分成大小为P×P的块，可以通过reshape操作得到一系列的块：

即输入特征图共切分为N＝HW/P²个块，每个块展平为1-D(其特征大小为D＝P²C)，此时x'∈R^N×D作为Transformerblock的输入，在Base block内部P＝2；在encoder中P₁＝4，P_i＝2(i＝2,3,4),其中i为encoder的stage-th。Transformer模型的输出o∈R^N×D，为了与CNN特征(2-D)进行融合需要进行Patch Expanding操作，此操作首先会将Transformer特征图的通道数增大为2倍，然后通过rearrange operation扩展特征图的分辨率为原来的2倍，通道数变为原来的1/2倍，最后通过reshape操作将o∈R^N×D映射到o'∈R^H×W×C。

具体的，本发明建立了基于CNN基本块和Transformer基本块的双向交互机制，双向交互过程如图3所示，其中CNN block包含两个Conv block和一个Trans block。交互过程为CNN特征经Patch Embedding模块后输入到Trans block中，经过Trans block之后的Transformer特征经Patch Expanding输出到Conv block，值得注意是在交互过程中CNN特征图始终是Transformer特征图的两倍大小。

具体的，本发明为并行CNN-Transformer架构设计了一种融合多个跨尺度特征图的方法，在获得decoder的4种不同尺度的特征图后，本发明首先将分辨率相同的CNN特征图和Transformer特征图使用Convblock融合，然后将融合后的四种尺度的特征图经上采样恢复到原图1/2的分辨率，再次使用Conv block融合，最终输出单幅深度估计图。

下面通过一个具体的实例说明本发明的方法：

步骤1：准备数据集，数据集分为训练集、验证集和测试集，其中输入图像为如图4所示的条纹图，标签图像为图5所示的深度图。

步骤2：搭建图1所示的神经网络模型，使用训练集数据训练模型，使用验证集验证模型的学习效果。为验证本发明所述方法的有效性，使用Nvidia RTX 3090(24GB)显卡对本方法进行了实验，模型代码基于PyTorch，训练使用的批处理大小为4，初始学习率5e-3，衰减策略为余弦退火重启策略，每50个轮次重启一次，总共训练轮次为200，优化器使用AdamW，热身次数为10。训练网络使用的损失函数为均方误差(MSE)，评价指标为绝对误差(MAE)，均方误差(MSE)和峰值信噪比(PSNR)。

步骤3：选择在验证集上表现最好的模型，在测试集上测试模型的性能，输出单通道深度图。实验结果如表1和图6所示。

表1

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于Transformer的单幅条纹图深度估计方法，其特征在于：包括如下步骤：

S1：建立基于CNN-Transformer的混合架构模型；

2.根据权利要求1所述的基于Transformer的单幅条纹图深度估计方法，其特征在于：所述CNN部分包括CNN基本块，Transformer部分包括Transformer基本块，二者提取的图像特征根据其性质分为局部特征和全局特征。

3.根据权利要求1所述的基于Transformer的单幅条纹图深度估计方法，其特征在于：所述模型总体遵从encoder-decoder结构，建立对称的decoder，并通过跳跃连接将encoder的同尺度特征融合到decoder中，最后在输出深度图时融合CNN部分和Transformer部分的decoder的4中跨尺度特征图。

4.根据权利要求1所述的基于Transformer的单幅条纹图深度估计方法，其特征在于：所述步骤S2中，所述两个分支之间存在双向信息交互，双向交互过程为特征图首先经过第一个CNN模块，然后下采样并Reshape后输入到Transformer中，经过Transformer处理的特征图经上采样并Reshape后输入到第二个CNN模块中，最终输出CNN特征图和Transformer特征图。

5.根据权利要求4所述的基于Transformer的单幅条纹图深度估计方法，其特征在于：在交互过程中CNN特征图始终是Transformer特征图的两倍大小。

6.根据权利要求1所述的基于Transformer的单幅条纹图深度估计方法，其特征在于：所述步骤S2中，CNN部分的下采样首先使用最大池化层降低特征图的分辨率，然后通过CONV-BN-LeakyReLU层改变特征图的通道数，同理CNN部分的上采样首先使用UpSample操作增大特征图的分辨率，然后通过CONV-BN-LeakyReLU层改变特征图的通道数。

7.根据权利要求3所述的基于Transformer的单幅条纹图深度估计方法，其特征在于：所述步骤S4中，获得decoder的4种不同尺度的特征图后，将分辨率相同的CNN特征图和Transformer特征图使用Convblock融合，然后将融合后的四种尺度的特征图经上采样恢复到原图1/2的分辨率，再次使用Conv block融合，最终输出单幅深度估计图。

8.基于Transformer的单幅条纹图深度估计装置，其特征在于：包括

模型建立模块，用于建立基于CNN-Transformer的混合架构模型；

9.一种终端，其特征在于：所述终端包括一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的基于Transformer的单幅条纹图深度估计方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该程序被处理器执行时实现如权利要求1-7中任一所述的基于Transformer的单幅条纹图深度估计方法。