CN118096853A

CN118096853A - 一种多目标运动场景的视频深度估计方法

Info

Publication number: CN118096853A
Application number: CN202410511793.7A
Authority: CN
Inventors: 梁远; 全宇晖; 何盛烽
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2024-04-26
Filing date: 2024-04-26
Publication date: 2024-05-28

Abstract

本发明公开了一种多目标运动场景的视频深度估计方法，首先针对当前多目标订场场景深度数据集较少的问题，本发明拍摄并标注了以多人物运动为主体的动态场景视频数据集，为后续模型训练提供数据支撑；其次通过构建视频深度估计模型，通过提取移动对象在不同帧中的实例特征并构建不同帧间的实例关系来预测深度值；同时通过几何线段匹配的方法来保证不同帧间移动对象的几何尺寸一致性，使得移动对象的深度预测连续性更加稳定；此外并基于几何尺寸约束的方法对连续帧的深度估计结果进行监督，从而提高了在复杂动态场景中深度估计的精度和可靠性，不仅适用于动态场景同时还适用于静态场景。

Description

一种多目标运动场景的视频深度估计方法

技术领域

本发明属于计算机视觉及深度学习的技术领域，具体涉及一种多目标运动场景的视频深度估计方法。

背景技术

深度估计方法为图像中的每一个像素提供距离信息，是计算机视觉中的一个重要的任务。单目深度估计基于单张图像进行深度预测，分为有监督学习和无监督学习；其中，有监督深度估计方法是将深度相机拍摄的深度图作为真值来监督深度学习模型的学习过程，较早期的深度学习模型使用手动设计的特征、卷积神经网络来提取图像特征；然而这些方法能够提取到的特征更多局限在图像的局部，较难从更大的图像上下文中提取到深度值关联。近期的深度估计方法逐渐使用基于Transformer的网络结构提取图像的深度特征，如《Vision transformers for dense prediction》文献中使用Transformer结构而不是传统的卷积网络构建深度估计模型；此外，由于深度相机拍摄的深度真值较难获取，一些方法（文献《Learning the depths of moving people by watchingfrozen people》）转而使用网络上的图像，并使用structure from motion方法来生成深度值伪标签。相比之下，无监督深度估计方法不再依赖深度真值，而是通过匹配双目图像像素间的一致性来计算图像的深度值，例如：《Unsupervised monocular depth estimation with left-rightconsistency》论文和《Digging into self-supervised monocular depthestimation》论文等通过监督双目图像间的位置一致性来实现无监督的深度估计。

视频深度估计相较于单帧深度估计更具挑战性，其不仅要求在空间维度上准确，并且需要跨多帧保持时间一致性。现有方法主要采用已有单帧深度估计模型进行初始深度估计，然后在推理过程中对其进行优化，以保持时间一致性。《Consistent video depthestimation》文献中实现了基于光流的三维几何约束，而文献《Robust consistent videodepth estimation.》则专注于同步相机位姿优化，以获得稳定的预测结果；此外，文献《Consistent depth of moving objects in video》将其方法调整为适用于存在显著运动的场景。虽然这些方法取得了一定的效果，但视频深度估计仍然面临艰巨的难题，主要一方面是由于缺乏广泛和多样化的数据集，另一方面是现有相关方法严重依赖于准确性有限的光流信息。在数据集方面，KITTI数据集（文献《Vision meets robotics: The kittidataset》）以其驾驶场景为重点，并提供来自激光扫描仪的地面真实深度值，该数据集对于研究具有重要意义，然而其仅拍摄了有限范围的情景。现有数据集中，如戴等人的数据集Scannet（文献《Scannet: Richly-annotated 3dreconstructions of indoor scenes》）和NYU深度数据集（文献《Indoor segmentation and support inference from rgbdimages》），为室内场景深度估计提供了极具价值的数据；然而这类数据集主要针对静态场景，在这些数据集上的方法较难适用于带有自主移动的动态场景。此外，计算机合成的数据集，如Sintel（文献《A naturalistic open source movie for opticalflowevaluation》）和Tartanair（文献《Tartanair: A dataset to push the limits ofvisual slam》），已经被提出用来增加视频深度数据集的多样性；NVDS（文献《Neural videodepth stabilizer》）引入了一个大规模的主要适用于户外场景的视频深度数据集；这类数据集虽然扩大了深度数据集的涉及范围，然而其深度值标注依然依赖于双目视觉图像以及已有光流方法提供的光流信息，较难适用于单目场景和多目标快速移动的场景。

基于无监督的深度估计方法和基于合成图像的深度估计方法都比较依赖双目图像，而现实生活中的视频内容多数没有双目图像，进而限制了此类方法的使用范围。目前主流视频深度估计方法是借助光流信息和相机位姿信息来实现深度估计结果在时序上的一致性；具体地说，一方面，光流信息给出了相邻帧的相对位移距离，根据位移来计算逐像素的新位置的深度值，新旧位置间的深度值误差被用来监督深度预测结果，然而这种做法局限在位移变化不大的相近帧，当物体快速移动或出现遮挡情况时光流信息存在较大误差（尤其是结构比较精细的物体，比如人的手臂等），进而导致深度预测处理结果也出现较大误差；另一方面，基于相机位姿的方法需根据相机的位置变化来采样地计算出场景内物体的位置变化，这个位置变化可用来监督深度值的一致性，然而这个过程需要假设所有物体是静止的，因而该类方法难以适用于多目标移动的动态场景。此外，尽管视频深度数据集取得了前述成果，但当前的数据集仍存在多样性有限的问题，主要以静态场景为主，动态场景里的深度值主要以合成数据集为主，且移动物体较少移动速度较慢，与真实生活场景不符。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种多目标运动场景的视频深度估计方法，实现更加稳定准确的深度估计并提高在复杂动态场景中的估计精度和可靠性。

为了达到上述目的，本发明采用一种多目标运动场景的视频深度估计方法，包括下述步骤：

步骤一、创建活动场景视频数据集：

使用深度摄像机拍摄动态场景RGB图和深度图；

对RGB图和深度图标注移动对象和场景地面；

生成移动对象和场景地面的分割图；

步骤二、建立及训练视频深度估计模型：

建立视频深度估计模型，包括特征编码模块、实例关系模块、线段勾画模块、线段匹配模块及特征解码模块；

将活动场景视频数据集输入视频深度估计模型中，通过特征编码模块逐帧提取移动对象在不同帧中的实例特征；依据实例特征在基于注意力机制的实例关系模块中建立同一移动对象在不同帧间的实例关系并优化实例特征；把经实例关系优化后的实例特征输入到特征解码模块中预测得到移动对象的深度值；把经实例关系优化后的实例特征输入线段勾画模块获取同一移动对象在不同帧中的候选线段；将经实例关系优化后的实例特征和对应的候选线段一起输入到线段匹配模块预测同一移动对象在不同帧中候选线段间的匹配分数；选取匹配分数高于阈值的特定数目线段，从预测的移动对象的深度值中提取特定数目线段的端点深度值，根据端点的坐标和已知的相机内部参数，由2D到3D的投射变换计算得到线段端点对应的3D坐标进而得到特定数目线段的3D几何长度；通过监督同一移动对象不同帧中特定数目线段的长度一致性，实现同一移动对象在不同帧中的几何尺寸一致性；

构建损失函数并对视频深度估计模型进行迭代训练直至收敛，得到训练好的视频深度估计模型；

步骤三、推理阶段：

使用训练好的视频深度估计模型对待检测视频数据进行深度预测，得到深度值。

作为优选的技术方案，所述创建活动场景视频数据集，具体为：

使用深度摄像机拍摄不同活动场景、不同光照条件及不同移动对象的RGB图和深度图；所述活动场景包括篮球场、羽毛球场、舞蹈场和乒乓球场；所述不同移动对象包括人、篮球和球拍；

采用边界框对RGB图和深度图中的移动对象进行标注并使用一个点或多个点标记场景地面，得到提示词；

将提示词、RGB图和深度图一起输入SAM模型中，对移动对象和场景地面生成对应的分割图；

把移动对象分割图和RGB图一起输入DEVA模型中生成每一个移动对象在整个视频中的唯一标识；

得到包含深度图、移动对象分割图、场景地面分割图和移动对象唯一标识的活动场景视频数据集。

作为优选的技术方案，所述特征编码模块基于特征提取网络构建；所述实例关系模块由Transformer块构成；所述特征解码模块由上采样层构成。

作为优选的技术方案，所述建立同一移动对象在连续帧间的实例关系并优化实例特征，具体为：

设活动场景视频数据集中每一帧的尺寸为N×W₀×H₀，N表示帧数，H₀和W₀分别表示帧的高度和宽度；

使用特征编码模块提取每一帧的实例特征F，所述实例特征的尺寸为N×C×W_j×H_j，其中C是实例特征的通道数，W_j和H_j分别为第j帧中实例特征的高度和宽度；

利用移动对象的分割图，从每一帧中的实例特征中收集每个移动对象在不同帧中的实例特征向量F_inst∈R^C×P，P表示每个移动对象的预定义像素数；

采用随机抽样选取P个像素，对每个移动对象在不同帧中的实例特征向量进行尺寸标准化，得到每一移动对象在不同帧中的组合特征向量F_O∈R^M×C×P，M为同一移动对象出现在不同帧的次数；

同理得到场景地面在不同帧中的组合特征向量F_G∈R^N×C×P，N为场景地面出现在不同帧中的次数；

基于移动对象在不同帧中的组合特征向量和场景地面在不同帧中的组合特征向量，构建实例关系模型Rel([F_O+POS_O,F_G+POS_G])，其中POS_O为F_O的位置隐变量，POS_G为F_G的位置隐变量。

作为优选的技术方案，所述对每个移动对象在不同帧中的实例特征向量进行尺寸标准化，具体为：

对于超过预定义像素数的移动对象，采用随机抽样选取P个像素；

对于低于预定义像素数的移动对象，复制移动对象的随机像素以满足移动对象的预定义像素数；

对于不包含场景地面的视频帧，根据需要对非移动对象的像素进行随机抽样选取保证场景地面特征的存在。

作为优选的技术方案，所述预测得到移动对象的深度值，具体为：

将实例关系模型F_R=Rel([F_O+POS_O,F_G+POS_G])输入特征解码模块中分别预测移动对象的深度值和场景地面的深度值；

所述特征解码模块包括移动对象深度值解码模块和场景地面深度值解码模块；

所述移动对象深度值解码模块包括多层感知机、注意力层、上采样层及多层卷积神经网络；将每一帧的实例特征F和实例关系模型F_R一同作为移动对象深度值解码模块的输入，首先计算每一帧的实例特征F和实例关系模型F_R间的注意力值Attn：

Attn=Softmax(MLP(F_R)F)，

其中，MLP为多层感知机，为矩阵乘法操作，Softmax()为Softmax激活函数；

基于注意力值Attn对移动对象的深度值Depth_obj进行预测，表示为：

Depth_obj=Conv_obj(Upsample_obj(F_R Attn+F_R))，

其中，Upsample_obj为移动对象深度值解码模块的上采样层，Conv_obj为移动对象深度值解码模块的多层卷积神经网络；

所述场景地面深度值解码模块包括上采样层和多层卷积神经网络；将每一帧的实例特征F作为场景地面深度值解码模块的输入，对场景地面的深度值Depth_env进行预测，表示为：

Depth_env=Conv_env(Upsampl_env(F))，

其中，Upsampl_env为场景地面深度值解码模块的上采样层，Conv_env为场景地面深度值解码模块的多层卷积神经网络。

作为优选的技术方案，所述预测同一移动对象在不同帧中候选线段间的线段匹配分数，具体为：

在线段勾画模块中，使用边界跟随算法基于经实例关系优化后的实例特征识别移动对象分割图中移动对象的边界坐标；将移动对象的相邻边界坐标连接起来形成闭合多边形，使用Douglas-Peucker算法对该闭合多边形进行简化得到每一帧中移动对象的边界多边形；所述边界多边形包含L_t条线段，每条线段包括两个端点PS、PE和中心点PC；

对每一帧中的移动对象边界多边形的线段进行排列，由相邻帧的移动对象分割图计算移动对象在相邻帧的检测框，将移动对象分割图里的最小X和Y坐标作为检测框最左上坐标，最大X和Y坐标为检测框的最右下坐标，并选取检测框的左上坐标作为线段排序的参考点；把移动对象边界多边形中每条线段的中心点坐标作为线段位置，距离参考点最近的线段排名第一，其余线段按逆时针顺序依次排列；在所有排列后的线段中随机选取数量P_L个线段作为候选线段，则同一移动对象边界多边形中的每一候选线段按照排序在相邻帧间进行对应作为候选匹配线段；

采样两个相邻帧之间的线段特征和/>，其中/>为排列第t帧中移动对象所有线段特征，L_t为排列后第t帧中移动对象的边界多边形中的线段数量，C为特征通道数，/>为排列后第t+1帧中移动对象所有线段特征，L_t+1为排列后第t+1帧中移动对象的边界多边形中的线段数量；

计算尺寸与每一帧实例特征F相同的像素位置坐标矩阵M_{pixel_pos}∈R^H×W×2以及长度与每一帧实例特征F通道数相同的通道位置坐标向量V_{channel_pos}∈R^C；将像素位置坐标矩阵M_{pixel_pos}与通道位置坐标向量V_{channel_pos}相除并对相邻的像素位置分别进行正弦和余弦计算，得到像素位置和通道位置同时编码后的位置矩阵PE_pos∈R^C×H×W×2，表示为：

，

其中，H和W分别为实例特征的高度和宽度，PE_pos,2i和PE_pos,2i+1分别为相邻像素位置的正弦和余弦计算结果；

把线段特征及其对应的编码后的位置矩阵合并形成位置编码后的线段特征矩阵F_lp，并通过矩阵乘法建立相邻帧间几何关系矩阵M_GCM，公式为：

，/>，

其中，为第t帧中移动对象的位置编码后的线段特征矩阵，/>为第t+1帧中移动对象的位置编码后的线段特征矩阵，P_L为预设的线段总数，C_L为线段特征的通道数，为同一移动对象在第t帧和第t+1帧间的线段特征匹配关系矩阵，/>为矩阵乘法；

采用多个全连接层处理并得到不同帧间候选线段的匹配分数X_match，公式为：

，

其中，MLP_GCM为多个全连接层，Softmax()为Softmax激活函数。

作为优选的技术方案，在对每一帧中的移动对象边界多边形的线段进行排列后，利用三种不同的度量指标来评估同一移动对象相邻帧间移动对象边界多边形中任意两条候选线段之间的相似性；

所述三种不同的度量指标包括中心点之间的位移距离、角度差异及线段长度差异；

对同一移动对象相邻第t帧和第t+1帧间移动对象边界多边形中任意两条候选线段评估其相似性，表示为：

，

其中，为候选线段i与候选线段j的位移距离，/>为候选线段i与候选线段j的角度差异，/>为候选线段i与候选线段j的线段长度差异，L₂()为L2距离；α(A,B)计算向量A和B之间的最小角度，A、B分别为输入参数；PC_i为候选线段i的中心点坐标，PC_j为候选线段j的中心点坐标，PS_i为候选线段i的起始端点坐标，PE_i为候选线段i的结束端点坐标，PS_j为候选线段j的起始端点坐标，PE_j为候选线段j的结束端点坐标；

对于同时满足三种不同度量指标的线段作为候选匹配线段；

由每一帧的移动对象分割图获取的实例特征以及每一帧中移动对象边界多边形的候选线段特征，通过计算相似度并构建特征相似度矩阵；

对特征相似度矩阵中相关性最大的特征对进行保留作为后续帧的匹配参考。

作为优选的技术方案，所述特征相似度矩阵分别为实例特征相似度矩阵和线段特征相似度矩阵；

所述实例特征相似度矩阵计算式为：

，

所述线段特征相似度矩阵计算式为：

，

其中，S_obj(k,q)_ij为同一移动对象第i帧和第j帧间的实例特征相似度，O^k为包含同一移动对象的帧数，k_oi为同一移动对象第i帧的实例特征，q_oj为实例j的特征，S_line(k,q)_ij为实例i和j的边界线段相似度矩阵，L^k为选取的线段总数目，k_pi为实例i的线段特征，q_pj为实例j的线段特征。

作为优选的技术方案，所述损失函数包括深度损失函数、线段匹配损失函数和几何长度一致性损失函数；

所述深度损失函数L_depth基于预测的移动对象的深度值进行构建；设p_i为每一帧中第i个像素预测的深度值，为每一帧中第i个像素真实的深度值，则深度损失函数L_depth表示为：

，

其中，n为每一帧的像素总数；为每一帧中第i个像素的深度值误差；

所述几何长度一致性损失函数L_line基于候选线段间的匹配分数进行构建；设L为移动对象边界形中候选线段的数量；Y_match为相邻帧间同一移动对象的移动对象边界多边形中任意两条候选线段的线段匹配矩阵，Y_match尺寸为L×L且线段匹配矩阵中各元素值只有0和1，0标示不匹配，1标示匹配；预测候选线段间的匹配分数为X∈(0,1)，则线段匹配损失函数L_line表示为：

，y=Y_match[i][j],x=X_i,j，

其中，y为候选线段i和候选线段j在线段匹配矩阵的元素值，x为预测的候选线段i和候选线段j间的匹配分数；

所述几何长度一致性损失函数基于3D几何长度进行构建；设预测候选线段间的匹配分数X分数超过设定阈值TH_match的匹配候选线段总数为E，候选线段的3D几何长度为len，针对某一对匹配的候选线段i和j，则几何长度一致性损失函数L_{3d_len}表示为：

，

其中，len_i和len_j分别为候选线段i和候选线段j的3D几何长度；

所述3D几何长度计算过程为：

基于预测得到的移动对象的深度值Depth_obj，使用线段2D坐标(cx,cy)从Depth_obj中获取各候选线段的端点在3D空间的Z坐标：Z = Depth_obj[cx,cy]；

通过已知的相机参数，即相机的焦点坐标(u,v)和焦距(fx,fy)，计算各候选线段的端点在3D空间的X坐标和Y坐标：X = (u-cx)*Z/fx，Y = (v-cy)*Z/fy；

由此各候选线段的两个端点计算候选线段的3D几何长度len：

，

其中，(X₁,Y₁,Z₁)为候选线段的第一端点，(X₂,Y₂,Z₂)为候选线段的第二端点。

本发明与现有技术相比，具有如下优点和有益效果：

1、本申请使用基于几何尺寸约束的方法对连续帧的深度估计结果进行监督，与传统基于光流对不同帧进行采样的方法相比，深度预测效率更高，对移动对象的深度预测连续性更加稳定。此外，由于几何线段匹配可以在多帧间连续实现，这使得深度预测的一致性在更多的帧范围里实现。

2、由于采用了几何尺寸约束，而不是基于像素的位移约束，本发明提出的方法不仅适用于动态场景，同样适用于静态场景；在静态场景数据集上也取得了领先的深度估计效果。

3、针对多目标动态场景深度数据集缺失的问题，本发明首次提出了由深度相机拍摄的以多人物运动为主体的动态场景视频数据集，不仅提供了深度真值，也提供了移动对象的分割图和场景地面的分割图。

4、本发明通过使连续帧间的3D几何长度保持一致对深度预测进行辅助监督，其训练过程中与后者一起训练，在测试过程中可以去除，因而相比传统基于光流的方法，本发现提出的方法在测试阶段更加高效。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种多目标运动场景的视频深度估计方法的整体流程图。

图2为本发明实施例中一种多目标运动场景的视频深度估计方法的流程框架图。

图3为本发明实施例中活动场景视频深度数据集中包含的RGB图、移动对象分割图、场景地面分割图及深度图的示意图。

图4为本发明实施例中活动场景视频深度数据集在深度值、平均移动目标数量、帧数上的分布图。

图5为本发明实施例中线段匹配示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

如图1、图2所示，本实施例提供一种多目标运动场景的视频深度估计方法，大致包括下述三大步骤：

步骤一、创建活动场景视频数据集：

使用深度摄像机拍摄动态场景RGB图和深度图；

对RGB图和深度图标注移动对象和场景地面；

生成移动对象和场景地面的分割图；

步骤二、建立及训练视频深度估计模型：

步骤三、推理阶段：

进一步的，针对活动场景中缺乏适用的深度数据集的问题，本发明首先创建活动场景视频数据集（Video Depth of Activity Dataset,ViDA），该数据集包括来自各种体育运动（包括篮球、羽毛球和乒乓球等）以及舞蹈场景的60个带有深度标注的视频，数据集总计37556帧。与典型的体育视频不同，ViDA数据集强调人的存在，增强了其相关性和实用性；并且所有深度标注使用深度摄像机拍摄获得，使用SAM 模型(文献《Segment anything》)生成边界框和分割图来识别每个视频帧中的主要移动对象；同时还使用最先进的DEVA（文献《Tracking anything with decoupled video segmentation》）为视频中同一移动对象生成对象唯一标识，该标示将不同移动对象在整个视频中区分出来；ViDA数据集具体创建步骤为：

步骤1.1、使用深度摄像机拍摄不同活动场景、不同光照条件及不同移动物体的RGB图和包含深度真值的深度图；

如前所述，当前视频深度数据集主要使用合成深度来处理涉及多个移动对象的场景或动画场景，这样的数据集通常缺乏具有快速移动和可形变对象的场景。为了填补这一空白，本发明的ViDA数据集特意使用深度摄像机拍摄真实世界的活动场景。本实施例中采用两种商用深度摄像机：Intel RealSenseD455和Microsoft Azure Kinect DK，这些设备被用来拍摄RGB图和深度图，以确保更加准确地记录涉及人类活动的动态场景。同时为了捕捉真实世界的活动，选择了篮球场、羽毛球场、舞蹈团队和乒乓球场等活动场地，以拍摄多样化的真实世界活动场景；数据拍摄在白天和夜晚都有进行，以确保各种不同的光照条件；另外深度摄像机在录制过程中被有意地移动，以创造复杂、动态的场景，这些场景中的主要对象包括人、篮球和球拍等。

步骤1.2、为了提高分割图的准确性，采用边界框对RGB图和深度图中的移动对象进行标注，并使用一个点或多个点标记场景地面，得到提示词；这些提示词通过SAM模型处理后可以为移动对象和场景地面生成不同的分割图；

步骤1.3、将提示词、RGB图和深度图一起输入SAM模型中，对移动对象和场景地面生成对应的分割图；

步骤S1.4、得到包含深度图、移动对象分割图、场景地面分割图和移动对象唯一标识的活动场景视频数据集。

如图3所示，以羽毛球、篮球、舞蹈和乒乓球为例，分别展示了RGB图、移动对象分割图、场景地面分割图和深度图，这也展示了数据集中对复杂元素的详细捕捉，例如人体肢体，这些细节在光流衍生的数据集中经常被忽视。

此外，本实施例还对ViDA数据集进行了统计分析，其结果如图4所示，本发明主要关注点是在不同深度范围内移动对象计数的分布，如图4中左图所示，可以看到移动对象主要集中出现在4.0到8.0米的深度范围内，而在较近（<2米）或较远（>8米）的深度处出现的较少。另外，还比较了不同场景类别视频中移动对象的平均数量和总帧数，如图4中右图所示，每个数据点代表一个单独的视频；从图中可以看出，舞蹈类别视频在移动对象平均数上比较突出，其中大多数视频都包含超过10个移动对象，相比之下，其他类别的视频通常包含较少的移动对象；在视频帧数方面，大多数视频帧数在0到1000帧之间的范围，也有部分视频超出了这个范围。需要注意的是，乒乓球类别视频总样本数量有限，这主要因为使用深度摄像机拍摄完整该类场景比较困难。

进一步的，构建视频深度估计模型，如图2所示，包括特征编码模块、实例关系模块、线段勾画模块、线段匹配模块及特征解码模块。其中特征编码模块基于特征提取网络构建；需要说明的是，特征提取网络可以是传统的ResNet（如文献《Deep residual learningfor image recognition》）或基于Transformer的编码器（如文献《Swin transformer:Hierarchical vision transformer using shifted windows》）。本实施例中以ResNet-50特征提取网络构建特征编码模块。为了进行后续的实例关系建模，注意力模块采用Transformer块构成。特征解码模块由上采样层构成。

进一步的，使用本申请创建的ViDA数据集对视频深度估计模型进行训练，过程具体为：

步骤2.1、通过特征编码模块逐帧提取移动对象在不同帧中的实例特征，依据实例特征在基于注意力机制的实例关系模块中建立同一移动对象在不同帧间的实例关系并优化实例特征，具体为：

使用特征编码模块提取每一帧的实例特征F，尺寸为N×C×W_j×H_j，C是实例特征的通道数，W_j和H_j分别为第j帧中实例特征的高度和宽度（为简洁起见，此处忽略了数据批次的大小）；本实施例中，W_j和H_j二者均为输入帧尺寸（W₀和H₀）的十六分之一。

进一步的，对每个移动对象在不同帧中的实例特征向量进行尺寸标准化，对于超过预定义像素数的移动对象，采用随机抽样选取P个像素；对于低于预定义像素数的移动对象，复制移动对象的随机像素以满足移动对象的预定义像素数。对于不包含场景地面的视频帧，根据需要对非移动对象的像素进行随机抽样选取保证场景地面特征的存在。

步骤2.2、把经实例关系优化后的实例特征输入到特征解码模块中预测得到移动对象的深度值，具体为：

首先，将实例关系模型F_R=Rel([F_O+POS_O,F_G+POS_G])输入特征解码模块中分别预测移动对象的深度值和场景地面的深度值；其中，特征解码模块包括移动对象深度值解码模块和场景深度值解码模块；

对于移动对象深度值解码模块，其包括多层感知机、注意力层、上采样层及多层卷积神经网络；将每一帧的实例特征F和实例关系模型F_R一同作为移动对象深度值解码模块的输入，首先计算每一帧的实例特征F和实例关系模型F_R间的注意力值Attn：

Attn=Softmax(MLP(F_R)F)，

Depth_obj=Conv_obj(Upsample_obj(F_R Attn+F_R))，

对于场景地面深度值解码模块，其包括上采样层和多层卷积神经网络；移动对象深度值解码模块和场景深度值解码模块分别使用了不同的多层卷积神经网络；将每一帧的实例特征F作为场景地面深度值解码模块的输入，对场景地面的深度值Depth_env进行预测，表示为：

Depth_env=Conv_env(Upsampl_env(F))，

S2.3、将经实例关系优化后的实例特征和对应的候选线段一起输入到线段匹配模块预测同一移动对象在不同帧中候选线段间的匹配分数。

为了增强实例关系模型学习相邻帧关系的能力，本申请提出构建了线段勾画模块和线段匹配模块，通过连续多帧的线段匹配，预测移动对象的不同帧间线段的匹配分数，连续多帧的线段匹配是基于连续帧中移动对象的边界线段位置、长度和方向相似性进行的，连续匹配的线段可以扩展到整个视频序列，进而促进了全视频的几何一致性，具体为：

首先，在线段勾画模块中，使用边界跟随算法基于经实例关系优化后的实例特征识别移动对象分割图中移动对象的边界坐标；将移动对象的相邻边界坐标连接起来形成闭合多边形，使用Douglas-Peucker算法对该闭合多边形进行简化得到每一帧中移动对象的边界多边形；其中边界多边形包含L_t条线段，每条线段包括两个端点PS、PE和中心点PC；

候选线段的排列和相对位置对于准确匹配至关重要，前述引入了线段位置隐变量，因此对每一帧中的移动对象边界多边形的线段进行排列，由相邻帧的移动对象分割图计算移动对象在相邻帧的检测框，将移动对象分割图里的最小X和Y坐标作为检测框最左上坐标，最大X和Y坐标为检测框的最右下坐标，并选取检测框的左上坐标作为线段排序的参考点；把移动对象边界多边形中每条线段的中心点坐标作为线段位置，距离参考点最近的线段排名第一，其余线段按逆时针顺序依次排列；在所有排列后的线段中随机选取数量P_L个线段作为候选线段，则同一移动对象边界多边形中的每一候选线段按照排序在相邻帧间进行对应作为候选匹配线段；

，

，/>，

，

其中，MLP_GCM为多个全连接层，Softmax()为Softmax激活函数，将预测的结果归一化到0到1之间。

进一步的，本方法在对每一帧中的移动对象边界多边形的线段进行排列后，利用三种不同的度量指标来评估同一移动对象相邻帧间移动对象边界多边形中任意两条候选线段之间的相似性，包括中心点之间的位移距离、角度差异及线段长度差异；对同一移动对象相邻第t帧和第t+1帧间移动对象边界多边形中任意两条候选线段评估其相似性，表示为：

，

对于同时满足三种不同度量指标的线段作为候选匹配线段；线段匹配的示意图如图5所示，以连续三帧为例，每一帧中的人物周围的多边形即为其边界多边形。不同度量指标的组合以不同线段标记：短虚线线段表示中心点之间的位移距离M_shift∩角度差异M_angle，长虚线线段表示中心点之间的位移距离M_shift∩线段长度差异M_len，实线段表示三者的交集，即中心点之间的位移距离M_shift∩角度差异M_angle∩线段长度差异M_len。组合M_shift∩ M_angle和M_shift∩ M_len均显示出可靠的匹配结果，因此在训练过程中选择它们的并集，即 (M_shift∩M_angle) ∪ (M_shift∩ M_len)作为线段匹配结果以实现更全面的线段匹配。

为了利用更广泛的上下文信息，本实施例还集成了一个类似于XMem（文献《Xmem:Long-term video object segmentation with an atkinson-shiffrin memory model》）中使用的长期记忆模块的记忆库机制，用于跨较长时间帧间的特征传播，具体为：由每一帧的移动对象分割图获取的实例特征以及每一帧中移动对象边界多边形的候选线段特征，通过计算相似度并构建特征相似度矩阵；对特征相似度矩阵中相关性最大的特征进行保留作为后续帧的匹配参考。

本方法与XMem之间的关键区别在于如何计算特征相似度矩阵；鉴于本模型在实例关系内以视频帧为基础进行计算，在线段匹配模块内以线段为基础进行计算，因此建立了两个单独的记忆库：一个用于存储较长访问的移动对象视频帧，另一个用于较多匹配的线段；特征相似度矩阵分别为实例特征相似度矩阵和线段特征相似度矩阵，分别表示为S_obj和S_line，相应的相似矩阵可以表示为：

，

最后，本申请的损失函数包括深度损失函数、线段匹配损失函数和几何长度一致性损失函数；其中，深度损失函数L_depth基于预测的移动对象的深度值进行构建；设p_i为每一帧中第i个像素预测的深度值，为每一帧中第i个像素真实的深度值，则深度损失函数L_depth表示为：

，

几何长度一致性损失函数L_line基于候选线段间的匹配分数进行构建；设L为移动对象边界形中候选线段的数量；Y_match为相邻帧间同一移动对象的移动对象边界多边形中任意两条候选线段的线段匹配矩阵，Y_match尺寸为L×L且线段匹配矩阵中各元素值只有0和1，0标示不匹配，1标示匹配；预测候选线段间的匹配分数为X∈(0,1)，则线段匹配损失函数L_line表示为：

，y=Y_match[i][j],x=X_i,j，

几何长度一致性损失函数基于3D几何长度进行构建；设预测候选线段间的匹配分数X分数超过设定阈值TH_match（本实施例中TH_match=0.6）的匹配候选线段总数为E，候选线段的3D几何长度为len，针对某一对匹配的候选线段i和j，则几何长度一致性损失函数L_{3d_len}表示为：

，/>

对于候选线段的3D几何长度，其计算过程为：

由此各候选线段的两个端点计算候选线段的3D几何长度len：

，

由于本发明专注于以动态对象为中心的活动场景，并在由深度摄像机拍摄的数据集进行训练，因此，除了本申请创建的ViDA数据集外，还将提出的方法与在另外两个数据集进行了验证：一个为包含动态物体的卡通电影视频深度数据集Sintel，以及另一个深度摄像机拍摄的深度数据集NYUDV2。这两个数据集都没有提供任何图像分割标注。首先使用Detic（文献《Detecting twenty-thousand classes using image-level supervision》）来获得移动对象检测框，那些预测分数大于0.5的框被选做提示框；然后基于这些提示框，使用SAM模型对图像中的移动对象进行图像分割，并使用现成的DEVA方法作为跟踪模型来产生识别标示；在深度估计的性能评估上，采用标准的深度估计指标：均方根误差（RMS）、平均相对误差（REL）以及阈值σ_i(i=1,2,3)内的准确率。

综上所述，为了解决动态、现实场景中深度估计面临的重大挑战，本发明引入了一种新颖的视频深度估计方法，该方法预测从场景中解耦出的移动对象的深度值，并从更长的视频帧中学习移动对象的不同帧间的关系；其基本思想是实现对场景里的更精细的移动对象理解，从而能够可靠地实现长视频里的物体几何对应关系，进而提高在复杂动态场景中深度估计的精度和可靠性。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种多目标运动场景的视频深度估计方法，其特征在于，包括下述步骤：

步骤一、创建活动场景视频数据集：

使用深度摄像机拍摄动态场景RGB图和深度图；

对RGB图和深度图标注移动对象和场景地面；

生成移动对象和场景地面的分割图；

步骤二、建立及训练视频深度估计模型：

步骤三、推理阶段：

2.根据权利要求1所述的一种多目标运动场景的视频深度估计方法，其特征在于，所述创建活动场景视频数据集，具体为：

3.根据权利要求2所述的一种多目标运动场景的视频深度估计方法，其特征在于，所述特征编码模块基于特征提取网络构建；所述实例关系模块由Transformer块构成；所述特征解码模块由上采样层构成。

4.根据权利要求2所述的一种多目标运动场景的视频深度估计方法，其特征在于，所述建立同一移动对象在连续帧间的实例关系并优化实例特征，具体为：

5.根据权利要求4所述的一种多目标运动场景的视频深度估计方法，其特征在于，所述对每个移动对象在不同帧中的实例特征向量进行尺寸标准化，具体为：

6.根据权利要求4所述的一种多目标运动场景的视频深度估计方法，其特征在于，所述预测得到移动对象的深度值，具体为：

Attn=Softmax(MLP(F_R) F)，

Depth_obj=Conv_obj(Upsample_obj(F_R Attn+F_R ))，

Depth_env=Conv_env(Upsampl_env(F))，

7.根据权利要求4所述的一种多目标运动场景的视频深度估计方法，其特征在于，所述预测同一移动对象在不同帧中候选线段间的线段匹配分数，具体为：

，

，/>，

其中，为第t帧中移动对象的位置编码后的线段特征矩阵，/>为第t+1帧中移动对象的位置编码后的线段特征矩阵，P_L为预设的线段总数，C_L为线段特征的通道数，/>为同一移动对象在第t帧和第t+1帧间的线段特征匹配关系矩阵，/>为矩阵乘法；

，

其中，MLP_GCM为多个全连接层，Softmax()为Softmax激活函数。

8.根据权利要求7所述的一种多目标运动场景的视频深度估计方法，其特征在于，在对每一帧中的移动对象边界多边形的线段进行排列后，利用三种不同的度量指标来评估同一移动对象相邻帧间移动对象边界多边形中任意两条候选线段之间的相似性；

，

对于同时满足三种不同度量指标的线段作为候选匹配线段；

9.根据权利要求8所述的一种多目标运动场景的视频深度估计方法，其特征在于，所述特征相似度矩阵分别为实例特征相似度矩阵和线段特征相似度矩阵；

所述实例特征相似度矩阵计算式为：

，

所述线段特征相似度矩阵计算式为：

，

10.根据权利要求6或7所述的一种多目标运动场景的视频深度估计方法，其特征在于，所述损失函数包括深度损失函数、线段匹配损失函数和几何长度一致性损失函数；

，

，y=Y_match[i][j],x=X_i,j，

，

所述3D几何长度计算过程为：

基于预测得到的移动对象的深度值Depth_obj，使用线段2D坐标(cx,cy)从Depth_obj中获取各候选线段的端点在3D空间的Z坐标：Z = Depth_obj [cx,cy]；

由此各候选线段的两个端点计算候选线段的3D几何长度len：

，