CN108895981B

CN108895981B - 一种三维测量方法、装置、服务器和存储介质

Info

Publication number: CN108895981B
Application number: CN201810528849.4A
Authority: CN
Inventors: 刘智明; 汤元九; 刘军辉
Original assignee: Nanjing Huaicui Intelligent Technology Co ltd
Current assignee: Nanjing Huaicui Intelligent Technology Co ltd
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2020-10-09
Anticipated expiration: 2038-05-29
Also published as: CN108895981A

Abstract

本发明实施例公开了一种三维测量方法、装置、服务器和存储介质。所述方法包括：根据目标场景的视频进行深度估计，得到所述目标场景的深度图像和三维点云；将所述目标场景的深度图像和彩色图像作为语义分割模型的输入，得到所述目标场景的语义分割结果；根据所述语义分割结果在所述三维点云中提取目标物体，并对所述目标物体进行测量。本发明实施例提供的技术方案可以提高测量精度，减少计算量。

Description

一种三维测量方法、装置、服务器和存储介质

技术领域

本发明实施例涉及计算机视觉技术领域，尤其涉及一种三维测量方法、装置、服务器和存储介质。

背景技术

三维重建是近年来计算机视觉技术与计算机图形学技术相结合而产生的一门先进的光学技术，三维重建是指对三维物体建立适合计算机表示和处理的数学模型，也是在计算机中建立表达客观世界的虚拟现实的关键技术。

现有的基于三维重建的测量方法是通过全景摄像机或RGB-D摄像机获取场景的深度信息，得到场景的三维点云，并对三维点云进行分割，提取其中不同的物体，从而进行三维重建和物体尺寸的测量。但是上述方法对具有测距传感器的摄像机依赖性较强，由于缺乏场景中物体的纹理信息，直接对三维点云进行分割时不能实现精确分割，且计算量大，对三维重建和测量的精度有很大影响。

发明内容

本发明实施例提供了一种三维测量方法、装置、服务器和存储介质，可以提高测量精度，减少计算量。

第一方面，本发明实施例提供了一种三维测量方法，包括：

根据目标场景的视频进行深度估计，得到所述目标场景的深度图像和三维点云；

将所述目标场景的深度图像和彩色图像作为语义分割模型的输入，得到所述目标场景的语义分割结果；

根据所述语义分割结果在所述三维点云中提取目标物体，并对所述目标物体进行测量。

第二方面，本发明实施例还提供了一种三维测量装置，该装置包括：

估计模块，用于根据目标场景的视频进行深度估计，得到所述目标场景的深度图像和三维点云；

分割模块，用于将所述目标场景的深度图像和彩色图像作为语义分割模型的输入，得到所述目标场景的语义分割结果；

测量模块，用于根据所述语义分割结果在所述三维点云中提取目标物体，并对所述目标物体进行测量。

第三方面，本发明实施例还提供了一种服务器，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的三维测量方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的三维测量方法。

本发明实施例根据目标场景的视频进行深度估计，得到所述目标场景的深度图像和三维点云，将所述目标场景的深度图像和彩色图像作为语义分割模型的输入，得到所述目标场景的语义分割结果，并根据所述语义分割结果在所述三维点云中提取目标物体，并对所述目标物体进行测量。由于将场景的深度图像和彩色图像的特征结合进行语义分割，使得语义分割的结果更加准确，从而提高了三维测量的精度，减少计算量。

附图说明

图1为本发明实施例一中的三维测量方法的流程图。

图2为本发明实施例一中的图像块相似度计算示意图。

图3为本发明实施例一中的图像块匹配的示意图。

图4为本发明实施例二中的三维测量方法的流程图。

图5为本发明实施例二中的语义分割模型中编码模型的示意图。

图6为本发明实施例二中的语义分割模型中特征融合网络的示意图。

图7为本发明实施例二中的语义分割模型中解码模型的示意图。

图8为本发明实施例三中的三维测量装置的结构示意图。

图9为本发明实施例四中的服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一中的三维测量方法的流程图，本实施例可适用于三维测量的情况，该方法可以由三维测量装置执行，该装置可以采用软件和/或硬件的方式实现，例如，该装置可配置于服务器中。该方法具体可以包括：

步骤110、根据目标场景的视频进行深度估计，得到所述目标场景的深度图像和三维点云。

其中，所述目标场景的视频可以为用户采用具有摄像功能的移动设备(如手机和平板电脑等)对所述目标场景拍摄得到的。在本实施例中，所述目标场景可以为室内场景或室外场景，具体以室内场景为例进行说明，如教室、卧室和会议室的室内等。所述深度估计是基于单目视觉进行场景深度的估计，需要进行图像块的匹配。目前的图像块匹配方法是假设当前图和参考图之间亮度差异不大的条件下计算它们的相似度，如绝对差的和(Sumof Absolute Difference， SAD)、平方距离的和(Sum of Squared Difference，SSD)和归一化互相关 (Normalized Cross Correlation，NCC)等，并根据相似度进行匹配。但当光照条件发生较大的变化时上述方法通常会失效。

在本实施例中，根据目标场景的视频进行深度估计，可以包括：通过亮度、对比度和结构的相似性对所述视频中包含的图像进行图像块的匹配；采用三角测量法处理匹配成功的图像块得到所述目标场景的深度值。

其中，通过亮度、对比度和结构的相似性对所述视频中包含的图像进行图像块的匹配，可以包括：计算参考图像块和其他图像块的亮度相似度、对比度相似度和结构相似度；依据所述亮度相似度、对比度相似度和结构相似度，得到所述参考图像块和其他图像块的融合相似度；依据所述参考图像块和其他图像块的融合相似度确定所述参考图像块的匹配块。且依据所述参考图像块和其他图像块的融合相似度确定所述参考图像块的匹配块，可以包括：从其他图像块中取与所述参考图像块融合相似度最大的图像块作为所述参考图像块的匹配块。

所述融合相似度的计算过程如图2所示，图2为本发明实施例一中的图像块相似度计算示意图，分别计算图像块A和图像块B的亮度和对比度，并计算出图像块A和图像块B的亮度相似度、对比度相似度和结构相似度进行加权融合得到融合相似度。所述融合相似度，即为结构相似性(Structural Similarity Index， SSIM)，是一种衡量两幅图像相似度的指标，结构相似度指数从图像组成的角度将结构信息定义为独立于亮度和对比度的反映场景中物体结构的属性。

所述融合相似度的具体计算流程可以为：假设图像块A和图像块B，它们灰度值的均值和标准差分别为(μ_A,σ_A)和(μ_B,σ_B)，两个图像块的亮度相似度为

其中C₁是一个定值以避免分母接近于零；两个图像块的对比度相似度为

其中C₂是一个定值以避免分母接近于零；两个图像块的结构相似度为

其中σ_AB是两个图像块之间的协方差，σ_AB是一个定值以避免分母接近于零；依据所述亮度相似度、对比度相似度和结构相似度，可以得到融合相似度SSIM(A,B)＝[l(A,B)]^α·[c(A,B)]^β·[s(A,B)]^γ，通常令α＝β＝γ＝1及C₃＝C₂/2，则

SSIM 的值为小于等于1的实数，值越大相似性越高。

通过亮度、对比度和结构的相似性对所述视频中包含的图像进行图像块的匹配，采用三角测量法处理匹配成功的图像块得到所述目标场景的深度值，具体过程可以为：对于视频中的每帧图像，可以采用视觉里程计的方法得到每帧图像对应的拍摄设备位置后，以其中的一帧图像为参考帧，如图3所示，图3 为本发明实施例一中的图像块匹配的示意图，I_r为参考帧，I_k为相邻帧，T_r,k为参考帧I_r和相邻帧I_k之间的运动，由于参考帧I_r和相邻帧I_k对应的拍摄设备的位置已知，T_r,k是已知的。所述参考图像块可以为参考帧I_r上的任意一个图像块，图中以图像块A为例进行说明。由于参考图像块A中心点对应的空间深度的不确定性，假设它的值在

范围之间，根据T_r,k和拍摄设备的内部参数可以得到这个范围在相邻帧I_k上的投影，即极线段e_i。沿着极线段e_i滑动图像块 B_i，i的值可以为多个，因此多个图像块B_i为所述其他图像块。并分别计算图像块B_i与参考图像块A的融合相似度，取融合相似度最大的值对应的图像块作为参考图像块A在相邻帧I_k上的匹配块。再使用三角测量法可以得到参考图像块 A中心点对应的深度值。也可以采用神经网络等方法得到场景中每一点的深度值。

由于所述视频中有多帧图像，场景中某一点的深度值有多个计算得出的值，可以采用深度滤波器的方法使得所述深度值从一个不确定的值逐渐收敛到一个稳定的值。

进一步的，所述目标场景的深度图像可以为将所述目标场景中各点的深度值作为像素值的图像，所述目标场景的三维点云可以为所述深度图像经过坐标转换计算得到的。

具体的，根据目标场景的视频进行深度估计，可以得到所述目标场景中各点的深度值，从而可以得到目标场景的深度图像和三维点云。

步骤120、将所述目标场景的深度图像和彩色图像作为语义分割模型的输入，得到所述目标场景的语义分割结果。

其中，所述语义分割为图像语义分割，根据语义特征将图像中每一像素标记为相应的类别，对所述目标场景进行语义分割为把场景中的各个物体从场景中分割出来。所述深度图像和彩色图像对物体的外观属性描述是互补的，深度图像包含有物体的轮廓信息，彩色图像侧重于物体表面颜色的变化，所以把它们结合起来对场景图像中的物体进行分割比使用单一信息更有效。

所述语义分割模型为预先构建的基于卷积神经网络的分割模型，将样本场景的深度图像和彩色图像作为所述语义分割模型的输入，对样本场景的图像进行人工语义分割的结果作为输出，对所述语义分割模型进行训练，确定所述语义分割模型每一层的最优参数。

具体的，将所述目标场景的深度图像和彩色图像作为语义分割模型的输入，得到所述目标场景的语义分割结果。

步骤130、根据所述语义分割结果在所述三维点云中提取目标物体，并对所述目标物体进行测量。

其中，所述语义分割结果是基于二维图像的语义分割结果。

具体的，根据所述语义分割结果在所述三维点云中提取目标物体，并对所述目标物体进行测量。其中，对所述目标物体进行测量，可以包括对目标物体的点云数据进行滤波和平面拟合分割等操作，从而计算出目标物体的长、宽、高和面积等几何信息。

本发明实施例根据目标场景的视频进行深度估计，得到所述目标场景的深度图像和三维点云，将所述目标场景的深度图像和彩色图像作为语义分割模型的输入，得到所述目标场景的语义分割结果，并根据所述语义分割结果在所述三维点云中提取目标物体，并对所述目标物体进行测量。由于深度估计中图像块的匹配根据亮度、对比度和结构三个因素实现的，使得匹配在较大光照变化下更加精确，且将场景的深度图像和彩色图像的特征结合进行语义分割，使得语义分割的结果更加准确，从而提高了三维测量的精度，减少计算量。

在上述技术方案的基础上，可选的，将所述目标场景的深度图像和彩色图像作为语义分割模型的输入，得到所述目标场景的语义分割结果，可以包括：从所述目标场景的深度图像和彩色图像中提取深度图像特征和彩色图像特征；将提取的所述深度图像特征和彩色图像特征进行卷积操作，得到融合特征；根据所述融合特征得到所述目标场景的语义分割结果。

实施例二

图4为本发明实施例二中的三维测量方法的流程图，本实施例在上述实施例的基础上，进一步优化了上述三维测量方法。相应的，本实施例的方法具体可以包括：

步骤210、根据目标场景的视频进行深度估计，得到所述目标场景的深度图像和三维点云。

具体的，通过亮度、对比度和结构的相似性对所述视频中包含的图像进行图像块的匹配；采用三角测量法处理匹配成功的图像块得到所述目标场景的深度值；根据所述目标场景的深度值可以得到所述目标场景的深度图像和三维点云。

步骤220、将所述目标场景的深度图像和彩色图像作为语义分割模型的输入。

在本实施例中，所述语义分割模型可以为基于神经网络的可以融合深度图像和彩色(RGB)图像的特征进行所述目标场景的图像的语义分割的模型，本实施例以一种基于编码-解码器模型(Encoder-Decoder Model)的U型网络为例进行说明，所述编码-解码器模型包括编码模型和解码模型。

具体的，将所述目标场景的深度图像和彩色图像作为语义分割模型中的编码模型的输入。

步骤230、从所述目标场景的深度图像和彩色图像中提取深度图像特征和彩色图像特征。

其中，所述深度图像特征和彩色图像特征可以通过语义分割模型中的编码模型进行提取。图5为本发明实施例二中的语义分割模型中编码模型的示意图。如图5所示，所述编码模型可以包括提取图像特征的神经网络和特征融合神经网络，提取特征的神经网络包括5层，第1层和第2层从左到右依次包括两个卷积层、融合特征层(图5中虚线层)和最大池化(Max pooling)层，第3层、第4层和第5层从左到右均依次包括三个卷积层、融合特征层、最大池化层和 Dropout层。

具体的，通过编码模型中的提取特征的神经网络分别提取所述深度图像和彩色图像的特征。

步骤240、将提取的所述深度图像特征和彩色图像特征进行卷积操作，得到融合特征。

具体的，将提取的所述深度图像特征和彩色图像特征通过语义分割模型中的特征融合网络进行卷积操作，得到融合特征。图6为本发明实施例二中的语义分割模型中特征融合网络的示意图。参见图5和图6，通过图6中的一个卷积核尺寸是1×1的卷积操作将图5中提取特征的神经网络的每一层(最大池化层前)分别提取的深度特征和彩色特征进行了融合，得到一个维数降低了的特征张量，即融合特征；并将所述融合特征返回到提取彩色图像特征的神经网络的融合特征层中进行后续的计算。

其中，所述特征融合网络中的卷积核的参数可以通过训练样本进行确认，可以适应场景图像中不同物体的外观属性。所述编码模型中提取特征的神经网络的每一层产生的信息是不同的，低层网络能够提取边缘和角点等基本的图像信息，而随着网络层数的加深通过组合这些低层信息能形成更加抽象的高层表示属性类别或特征，因此对神经网络不同层级上的特征进行融合可以取得更好的结果。

步骤250、根据所述融合特征得到所述目标场景的语义分割结果。

具体的，将所述融合特征返回到编码模型中进行后续的计算，得到编码输出，将所述编码输出作为所述语义分割模型中的解码模型的输入，得到的解码输出为语义分割结果。图7为本发明实施例二中的语义分割模型中解码模型的示意图。所述解码模型可以包括5层，第1层、第2层和第3层从左到右依次均包括上池化层、三个卷积层和Dropout层，第4层从左到右依次包括上池化层和两个卷积层，第5层从左到右依次包括上池化层、卷积层和Softmax函数分类器。所述语义分割结果为基于二维图像的语义分割结果，如图7所示，将一个二维图像分割为图片、墙、床、枕头、地板和柜子。

步骤260、根据所述语义分割结果在所述三维点云中提取目标物体，并对所述目标物体进行测量。

本实施例的技术方案，根据目标场景的视频进行深度估计，得到所述目标场景的深度图像和三维点云，将所述目标场景的深度图像和彩色图像作为语义分割模型的输入，得到所述目标场景的语义分割结果，并根据所述语义分割结果在所述三维点云中提取目标物体，并对所述目标物体进行测量。由于将场景的深度图像和彩色图像的特征卷积得到融合特征，并根据融合特征进行语义分割，使得语义分割的结果更加准确，从而提高了三维测量的精度，减少计算量，节约人工测量成本。

实施例三

图8为本发明实施例三中的三维测量装置的结构示意图。所述装置可以包括：

估计模块310，用于根据目标场景的视频进行深度估计，得到所述目标场景的深度图像和三维点云；

分割模块320，用于将所述目标场景的深度图像和彩色图像作为语义分割模型的输入，得到所述目标场景的语义分割结果；

测量模块330，用于根据所述语义分割结果在所述三维点云中提取目标物体，并对所述目标物体进行测量。

进一步的，所述估计模块310可以包括：

匹配单元，用于通过亮度、对比度和结构的相似性对所述视频中包含的图像进行图像块的匹配；

深度单元，用于采用三角测量法处理匹配成功的图像块得到所述目标场景的深度值。

进一步的，所述匹配单元具体可以用于：

计算参考图像块和其他图像块的亮度相似度、对比度相似度和结构相似度；

依据所述亮度相似度、对比度相似度和结构相似度，得到所述参考图像块和其他图像块的融合相似度；

依据所述参考图像块和其他图像块的融合相似度确定所述参考图像块的匹配块。

进一步的，所述匹配单元还可以用于：

从其他图像块中取与所述参考图像块融合相似度最大的图像块作为所述参考图像块的匹配块。

进一步的，所述测量模块330具体可以用于：

从所述目标场景的深度图像和彩色图像中提取深度图像特征和彩色图像特征；

将提取的所述深度图像特征和彩色图像特征进行卷积操作，得到融合特征；

根据所述融合特征得到所述目标场景的语义分割结果。

本发明实施例所提供的三维测量装置可执行本发明任意实施例所提供的三维测量方法，具备执行方法相应的功能模块和有益效果。

实施例四

图9为本发明实施例四中的服务器的结构示意图。图9示出了适于用来实现本发明实施方式的示例性服务器412的框图。图9显示的服务器412仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，服务器412以通用计算设备的形式表现。服务器412的组件可以包括但不限于：一个或者多个处理器416，系统存储器428，连接不同系统组件(包括系统存储器428和处理器416)的总线418。

总线418表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器416或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

服务器412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器412访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器428可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)430和/或高速缓存存储器432。服务器412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统434可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如 CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储器428 可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块442的程序/实用工具440，可以存储在例如存储器428中，这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。

服务器412也可以与一个或多个外部设备414(例如键盘、指向设备、显示器424等)通信，还可与一个或者多个使得用户能与该服务器412交互的设备通信，和/或与使得该服务器412能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O) 接口422进行。并且，服务器412还可以通过网络适配器420与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器420通过总线418与服务器412的其它模块通信。应当明白，尽管图中未示出，可以结合服务器412使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID 系统、磁带驱动器以及数据备份存储系统等。

处理器416通过运行存储在系统存储器428中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的三维测量方法，该方法包括：

实施例五

本发明实施例五还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的三维测量方法，该方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、 Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN) —连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种三维测量方法，其特征在于，包括：

根据目标场景的视频进行深度估计，得到所述目标场景的深度图像和三维点云；其中，所述根据目标场景的视频进行深度估计，包括：通过亮度、对比度和结构的相似性对所述视频中包含的图像进行图像块的匹配；采用三角测量法处理匹配成功的图像块得到所述目标场景的深度值；

其中，所述通过亮度、对比度和结构的相似性对所述视频中包含的图像进行图像块的匹配，包括：通过亮度、对比度和结构的相似性对所述视频中参考帧中的图像块和所述视频中相邻帧中的图像块进行图像块的匹配；

2.根据权利要求1所述的方法，其特征在于，通过亮度、对比度和结构的相似性对所述视频中包含的图像进行图像块的匹配，包括：

3.根据权利要求2所述的方法，其特征在于，依据所述参考图像块和其他图像块的融合相似度确定所述参考图像块的匹配块，包括：

4.根据权利要求1所述的方法，其特征在于，将所述目标场景的深度图像和彩色图像作为语义分割模型的输入，得到所述目标场景的语义分割结果，包括：

根据所述融合特征得到所述目标场景的语义分割结果。

5.一种三维测量装置，其特征在于，包括：

所述估计模块包括：

深度单元，用于采用三角测量法处理匹配成功的图像块得到所述目标场景的深度值；

其中，所述匹配单元具体用于：

通过亮度、对比度和结构的相似性对所述视频中参考帧中的图像块和所述视频中相邻帧中的图像块进行图像块的匹配；

6.根据权利要求5所述的装置，其特征在于，所述匹配单元具体用于：

7.根据权利要求6所述的装置，其特征在于，所述匹配单元还用于：

8.根据权利要求5所述的装置，其特征在于，所述测量模块具体用于：

根据所述融合特征得到所述目标场景的语义分割结果。

9.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的三维测量方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的三维测量方法。