CN115546274B

CN115546274B - 一种画面深度判断模型及其构建方法、装置及应用

Info

Publication number: CN115546274B
Application number: CN202211506873.0A
Authority: CN
Inventors: 王国梁; 陈娜华; 彭大蒙; 韩致远
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-02-17
Anticipated expiration: 2042-11-29
Also published as: CN115546274A

Abstract

本申请提出了一种画面深度判断模型及其构建方法、装置及应用，包括以下步骤：获取训练样本，使用所述训练样本对所述画面深度判断模型进行训练；使用所述编码系统对所述训练样本特征提取后进行编码得到编码特征图，将所述编码特征图输入到所述融合系统中进行融合，得到解码特征图；将所述解码特征图发送到所述深度预测系统中，所述深度预测系统对每一层级的深度进行预测，得到预测结果。本方案发明一种深度预测模块，可以对解码特征图中的每一层级进行深度预测，且不会丢失局部信息。

Description

一种画面深度判断模型及其构建方法、装置及应用

技术领域

本申请涉及图像识别领域，特别是涉及一种画面深度判断模型及其构建方法、装置及应用。

背景技术

在城市中，一些商户在经营过程中将商品摆放到公共区域、道路或通道上进行售卖，超出店门外墙占用空地或台阶摆放物品在城市管理规范上称之为出店经营事件。出店经营的违规现象以往都需要使用人力方式解决，安排执法人员进行来回巡视监督管理，对违规经营人员现场取证，对其教育或者罚款等处理，但是，这种方式耗费人力且低效。

随着技术的进步，在城管事件（包括出店经营和违规停车等）领域开始采用AI图像视觉算法的手段来判断这种违规现象，通常需要结合图像学的手段，一般做法是接入固定的摄像头视频，摄像头对准商店区域，在摄像头的画面中，划定禁止摆放商品的区域后，再来从视觉算法角度判断店家是否将商品置于这个区域内（一般使用目标检测网络）从而判定是否为出店经营事件。

但是，使用目标检测网络来识别出店经营事件时还存在一定的缺陷，目前部分商店基于对外展示和美观的考虑，采用玻璃门玻璃墙来装饰店面，由于玻璃墙或玻璃门的关系，常规的目标检测网络容易把商店内部的商品误判为出店经营事件，同样，如果遇到摄像头是正对着商店门口，由于角度的关系，在画面中的区域是无法分清物品是在店内或者店外，从而造成误判。

为了减少城管事件误判的发生，一般会对图像进行深度估计，随着技术的进步，深度估计一般应用在比如自动驾驶、虚拟现实等领域中，目前几乎所有从单一图像进行深度估计的技术都是基于卷积神经网络（CNN）或者基于U-Net的编码器-解码器（Encoder-Decoder）结构，其中，编码器通常是在ImageNet数据集上训练的图像分类网络，而解码器通过聚合多尺度特征来产生最终密集的深度预测，其根本任务是预测图像中每个像素的标签，这个任务通常被称之为稠密预测。

在使用卷积神经网络进行深度预测时，因为从CNN中提取的特征是一个局部感受信息，而对于一些稠密预测任务如语义分割和深度估计，提取的特征在有局部信息之外还要上下文的全局感受信息才能用于准确判断像素对应的预测内容。

Transformer结构作为目前最成功的编码器-解码器结构，在自然语言处理（NLP）任务中应用的非常成功。主要是Transformer有能力捕捉长距离的依赖关系，因此将其引入计算机视觉任务来解决各类问题也是一个当前AI研究的热点，以前基于Transformer结构的视觉应用研究工作主要集中在图像分类和目标检测上，随着多尺度视觉变换器（Multiscale Vision Transformers ,MVTs）的出现，人们开始使用基于Transformer的架构作为稠密预测任务的编码器，如语义分割，这样做会导致大多数使用MVTs的研究成果主要是提高语义分割方面的稠密预测的性能，然而，因为深度估计任务是一个连续的预测任务，且由于判断尺度的模糊性，深度估计问题是一个不适定的问题：结果不精确，而使用基于Transformer的编码器虽然增加了算法网络的感受范围，但对于稠密预测任务，像素需要带上局部信息才能做出准确预测，比如，对于一个像素必须知道它是位于一个物体边缘，还是属于同一平面上的像素集合中，以往使用MVTs作为编码器的算法网络一般会有这样的设计：将不同分辨率的编码特征上采样到一个固定的分辨率，并使用多层感知器MLP将特征融合，这样做的缺点是：直接上采样到一个更高的分辨率会导致局部信息的损失。所以深度估计任务很难使用常规的Transformer来进行预测。

发明内容

本申请方案提供一种画面深度判断模型及其构建方法、装置及应用，能够针对单一图像进行深度估计，从而准确的判断该图像中各层级的深度。

第一方面，本申请实施例提供了一种画面深度判断模型的构建方法，包括：

获取标记有待测目标及目标深度的至少一待检测图片作为训练样本，使用所述训练样本对画面深度判断模型进行训练；

所述画面深度判断模型由编码系统、融合系统、深度预测系统串联组成，每一所述训练样本被特征提取后经历所述编码系统的多个编码器模块的编码后得到多个不同分辨率的编码特征图，编码特征图自低分辨率至高分辨率的次序在所述融合系统中迭代上采样融合后获取解码特征图；

所述深度预测系统包括并行的分层像素概率预测分支和分层宽度预测分支，所述解码特征图输入所述分层宽度预测分支中自适应的得到分层并得到每一分层的分层宽度，所述解码特征图输入所述分层像素概率预测分支中进行卷积运算和函数激活后得到分层概率分布，基于所述分层概率分布和每一分层的分层宽度得到每一层的画面深度。

第二方面，本申请实施例提供了一种画面深度判断模型，所述画面深度判断模型使用第一方面所述的方法进行构建得到。

第三方面，本申请实施例提供了一种画面深度判断方法，主要用户城管事件的判断，包括：

获取一待检测图片，将所述待检测图片输入到所述画面深度判断模型中，所述画面深度判断模型由编码系统、融合系统、深度预测系统串联组成，所述深度预测系统包括并行的分层像素概率预测分支和分层宽度预测分支，所述待检测图片进行特征提取后在所述编码系统中编码，得到多个不同分辨率的编码特征图，编码特征图自低分辨率至高分辨率的次序在融合系统中迭代上采样融合后获取解码特征图；

所述解码特征图输入所述分层宽度预测分支中自适应的得到分层并得到每一分层的分层宽度，所述解码特征图输入所述分层像素概率预测分支中进行卷积运算和函数激活后得到分层概率分布，基于的所述分层概率分布和每一分层的分层宽度得到所述待检测图片中每一层的画面深度。

第四方面，本申请实施例提供一种画面深度判断模型构建装置，包括：

获取模块：获取标记有待测目标及目标深度的至少一待检测图片作为训练样本，使用所述训练样本对画面深度判断模型进行训练；

编码-融合模块：所述画面深度判断模型由编码系统、融合系统、深度预测系统串联组成，每一所述训练样本被特征提取后经历所述编码系统的多个编码器模块的编码后得到多个不同分辨率的编码特征图，编码特征图自低分辨率至高分辨率的次序在所述融合系统中迭代上采样融合后获取解码特征图；

预测模块：所述深度预测系统包括并行的分层像素概率预测分支和分层宽度预测分支，所述解码特征图输入所述分层宽度预测分支中自适应的得到分层并得到每一分层的分层宽度，所述解码特征图输入所述分层像素概率预测分支中进行卷积运算和函数激活后得到分层概率分布，基于所述分层概率分布和每一分层的分层宽度得到每一层的画面深度。

第五方面，本申请实施例提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行一种画面深度判断模型的构建方法或一种画面深度判断方法。

第六方面，本申请实施例提供了一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括一种画面深度判断模型的构建方法或一种画面深度判断方法。

本发明的主要贡献和创新点如下：

本申请实施例在编码器模块中添加了上采样层，它可以迭代地上采样特征图，并与编码器的特征融合，且为其设置不同的步长，使得可以从最低分辨率推向高分辨率，迭代上采样和特征融合，有助于把全局信息推广到最上面的高分辨率局部信息中，避免局部信息的丢失；本申请实施例还提出了一个新的深度预测模块，该模块利用MVTs将全局信息融合到特征图中并在深度范围内产生自适应的层级，通过计算层级的中心点，并对中心店进行上采样得到中心点的深度值，在将中心点的深度值与其他像素点的分布概率进行线性组合从而获得该层级的深度。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种画面深度判断模型的构建方法的流程图；

图2是根据本申请实施例的一种画面深度判断模型中编码器模块的结构图；

图3是根据本申请实施例的一种画面深度判断模型中解码结构的结构图；

图4是根据本申请实施例的一种画面深度判断模型中编码-解码流程图；

图5是根据本申请实施例的一种画面深度判断模型中分层像素概率预测分支的流程图；

图6是根据本申请实施例的一种画面深度判断模型中分层宽度预测分支的结构图；

图7是根据本申请实施例的一种出店经营城管事件待检测图像；

图8是根据本申请实施例的一种出店经营城管事件待检测图像的深度图；

图9是根据本申请实施例的一种无违章行为的待判断区域图像；

图10是根据本申请实施例的一种无违章行为的待判断区域图像的深度图；

图11是根据本申请实施例的一种待判断图像；

图12是根据本申请实施例的一种待判断图像的深度图；

图13是根据本申请实施例的一种画面深度判断模型构建装置的结构框图；

图14是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

为了便于理解本方案，对本方案中出现的名词在此加以解释：

空间注意力减少（Spatial attention Reduction,SRA）：对常规注意力机制的优化算法，比常规注意力机制效率更高，因为K和Q的内积计算的复杂度与序列长度的平方成正比，当序列长度过长是会导致运算量过大，所以对KQV分别做一次键值对投影，并调整KV的维度，具体调整策略为对K和V的形状进行改变，变成一个二维的图像，然后对其进行切片，降低K和V的序列长度，防止运算过于复杂。

实施例一

本申请方案提供了一种画面深度判断模型的构建方法，如图1所示，包括：

在一些实施例中，本方案采用多头的自注意力来产生分层的编码特征图。且所述编码系统包括多个依次串联的编码器模块，每一编码器模块包括多层自注意力-多层感知器层组成的自注意力机制，所述自注意力机制用于生成的编码特征图。

在具体的实施例中，所述编码系统中有串联组成的第一编码器模块、第二编码器模块、第三编码器模块以及第四编码器模块，每一编码器模块的输出是下一个编码器模块的输入，最后一个编码器模块的输出是融合系统的输入。

进一步的，如图2所示，每一编码器模块中依次包含卷积层、编码层、融合层，所述卷积层对输入的训练样本进行卷积操作得到卷积特征；所述编码层包含并联的多个自注意力-多层感知器层，所述卷积特征经过所述编码层再经过所述融合层得到编码特征图。

具体的，在“所述卷积层输入所述编码器模块的特征进行卷积核卷积操作得到卷积特征”步骤中，输入所述编码器模块的特征被学习过的多核卷积核所卷积得到设定尺寸以及通道维度的卷积特征图，所述卷积特征图扁平化处理后得到对应通道维度的卷积特征。

在一些实施例中，第一编码器模块的卷积层的步长大于后续编码器模块的步长，在本方案的实施例中，第一编码器模块的步长为4，后续所有的编码器模块的步长为2。卷积层的步长每增加1，得到的卷积特征的尺寸小一倍。

在本方案的一实施例中，不同编码器模块的卷积层的卷积核的通道[C1;C2;C3;C4]={64;128;320;512}，对应的，不同编码器模块产生的编码特征图的分别是{1/4;1/8;1/16;1/32}。

示例性的，给定一个训练样本，其大小为H*W*3，第一个编码器模块中的所述卷积层包含C1个大小为K1，步长为4的卷积核，所述卷积核对所述训练样本进行卷积核卷积，得到大小为H/4*W/4*C1的卷积特征图，之后将卷积结果进行扁平化，得到长度为（H*W）/（4*4），维度为C1的特征向量，所述特征向量作为卷积特征送入所述编码层，编码层的多个自注意力-多层感知器层对卷积特征进行编码后经过融合层进行融合得到长度为H/4*W/4*C1的第一编码特征图，将剩下三个编码器模块的步长变为2，重复上述步骤得到第二编码特征图、第三编码特征图、第四编码特征图。

具体的，所述编码器层包含多个自注意力-多层感知器层，自注意力-多层感知器层中的自注意力机制通过空间注意力减少操作进行优化，减少模型的计算量。

自注意力机制的所述空间注意力减少操作通过注意力卷积层进行实现，所述注意力卷积层内的卷积核大小为R_i，步长为R_i，使用所述注意力卷积层对键值对进行投影，得到了

个压缩的键值对，从而达到减少计算量的目的，其中，n为输入特征向量的数量。

示例性的，对于所述编码器模块中的卷积层的卷积核大小为K，步长为S和填充为P的卷积操作，在第一层所述编码器模块中的卷积层中将卷积核大小K1=7，S1=4，P1=3，在剩下的编码器模块中的卷积层中将K=3，S=2,P=1，在对卷积核大小K和步长S进行设置时，将K大于S，以使得相邻的特征向量之间尽量共享信息，以生成一个更为平滑的编码特征图。

示例性的，四个编码器模块中每一所述编码层中的自注意力-多层感知器层的层数依次分别为[N1,N2.N3.N4]={3,8,27,3},对应的四个变换器的空间缩减率为：[R1,R2,R3,R4]={8,4,2,1}，所述变换器表征所述自注意力中的超参数，为人工设定，R的值越小，生成的编码特征图分辨率越小。

具体的，由于本方案中第一个编码器模块的时间步长为4，剩余三个编码器模块的时间步长为2，所以得到的四个编码特征图的分辨率依次为原图分辨率的1/4,1/8,1/16,1/32。

以往使用MVTs进行稠密预测的研究工作都是将不同分辨率的编码特征图全部上采样为1/4并使用1*1卷积,将其通道维度减少到C 。然后连接这些特征并融合,输出大小为H/4 * W/4 * ncls，其中ncls 是类别的数量, 接着用插值法对特征图进行上采样，以达到H*W*ncls 最终大小，插值有助于产生更平滑的估计, 同时也带来一个使局部信息损失受到损失的问题。

而本方案优化改进了融合系统，采用了特征金字塔网络（FPN）架构来保留局部细节，并迭代地融合最低分辨率的编码特征图。

在一些实施例中，在“编码特征图自低分辨率至高分辨率的次序在所述融合系统中迭代上采样融合后获取解码特征图”步骤中，所述融合系统包括多个串联的融合模块，输入到所述融合模块的编码特征图和上一层级分辨率的编码特征图在所述融合模块中融合后得到融合特征图，所述融合特征图输入到下一融合模块中直到遍历所有的编码特征图得到最终融合特征图，所述最终融合特征图经历上采样和卷积后得到解码特征图。

在一些实施例中，最低分辨率的编码特征图输入到排序在第一位的融合模块。

进一步的，如图3所示，每一所述融合模块中依次包括上采样层、拼接层、融合卷积层，所述上采样层对最高层级的编码特征图进行上采样操作后与下一层级分辨率的编码特征图在拼接层进行拼接，得到拼接结果，所述融合卷积层对所述拼接结果进行卷积后输出，得到该融合模块对应的融合特征图。其公式表示如下：

其中，Conv表征卷积操作，Concat表征拼接操作，UpSample表征上采样操作。

示例性的，如图4所示，对于4个依次相连的编码器模块具有4个对应的输出，分别为E1、E2、E3、E4，其分辨率分别为{1/4,1/8,1/16,1/32}，将所述编码器模块的最后一个输出E4作为第一融合模块的输入D4，所述第一融合模块的第一上采样层对D4进行上采样后与E3进行拼接，并将拼接结果在第一卷积层中进行一个1*1的卷积，得到融合特征图D3，第二融合模块的第二上采样层对D3进行上采样后与E2进行拼接，并将拼接结果在所述第二卷积层中进行1*1的卷积，得到融合特征图D2，第三融合模块的第三上采样层对D2进行上采样后与E1进行拼接，并将拼接结果在所述第三卷积层中进行1*1的卷积，得到融合特征图D1，上述操作进行迭代执行。

具体的，将所述融合特征图D1在上采样模块进行上采样后进行卷积激活后输出，得到解码特征图。

具体的，为了对所述融合特征图进行上采样操作，在进行上采样时，使用卷积核大小为2，步长为2的卷积操作。

在一些实施例中，如图5所示，所述分层像素概率预测分支由一个概率卷积网络连接一个softmax层组成，所述概率卷积网络如图6所示，对所述解码特征图进行卷积操作后送入所述softmax层进行概率预测，得到所述解码特征图中不同像素点的分层概率分布；所述分层宽度预测模块由一个宽度卷积网络和一个Transformer层组成，所述解码特征图经过宽度卷积网络对所述解码特征图进行自适应分层，再通过所述Transformer层得到每一分层的分层宽度。

具体的，所述解码特征图融合了不同分辨率的编码特征图，所以所述解码特征图包含了不同像素点在不同分辨率情况下的特征表示，根据所述不同像素点在不同分辨率情况下的特征表示生成自适应的分层。

在一个具体实施例中，所述概率卷积网络为一个1*1的卷积网络，所述宽度卷积网络为一个16*16的卷积网络。

进一步的，在“基于所述分层概率分布和每一分层的分层宽度得到每一层的画面深度”步骤中，根据所述分层宽度得出每一层级的中心点，对所述中心点进行上采样，再使用插值预测的方法对上采样结果进行深度预测，得出每一层级的中心点深度，使用每一层级的中心点深度与对应层级的像素点概率分布进行线性组合得到每一层级深度，所述每一层级深度即为所述预测结果。

具体的，所述每一层级深度由该层级对应像素点的深度共同组成。

在一些具体实施例中，本方案采用Chamfer损失和Scale- and shift-invariantlosses（SI）损失之和来对所述画面深度判断模型的损失进行预测，公式表示如下：

其中，L_SILog为减少了预测的深度图和真实的深度图之间的差异，L_Chamfer为预测层级中心点接近实际中心点的真实深度值，Y为参数值，可以设置为1。

实施例二

一种画面深度判断模型，使用实施例一所述的方法进行构建得到。

实施例三

一种画面深度判断方法包括：

实施例四

在一具体实施例中，使用实施例三的方法来对出店经营城管事件进行判断时，直接从城市摄像头获取一待检测图片如图7所示，将图7的图片送入所述画面深度预测模型中进行预测，得到如图8所示的深度图，从图8可以看出，店铺范围内的深度为正常范围，所以不存在出店经营事件。

在一具体实施例中，使用实施例三的方法来对违章停车城管事件进行判断时，先从城市摄像头获取无违章行为的待判断区域图像的，如图9，将该图像送入所述画面深度判断模型中得到该图像的深度图作为第一图像，如图10，接着从获取从同一城市摄像头处获取的同一位置的待判定图像，如（图11），将所述待判断图像送入到所述画面深度判断模型中进行判断，得到所述待判定图像的深度图（如图12）作为第二图像，将所述第一图像与所述第二图像进行对比可知，所述待判定图像中的车辆并不在违停区域内。

实施例五

本申请实施例还提供一种实体与关系并行抽取模型的构建装置，如图13所示，包括以下步骤：

实施例五

本实施例还提供了一种电子装置，参考图14，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（ApplicationSpecificIntegratedCircuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（HardDiskDrive，简称为HDD）、软盘驱动器、固态驱动器（SolidStateDrive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-OnlyMemory，简称为ROM）和随机存取存储器（RandomAccessMemory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（ProgrammableRead-OnlyMemory，简称为PROM）、可擦除PROM（ErasableProgrammableRead-OnlyMemory，简称为EPROM）、电可擦除PROM（ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM）、电可改写ROM（ElectricallyAlterableRead-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-AccessMemory，简称为SRAM）或动态随机存取存储器（DynamicRandomAccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM）、同步动态随机存取内存（SynchronousDynamicRandom-AccessMemory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种画面深度判断模型的构建方法的实施过程。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是训练样本，城市摄像头获取的图片等，输出的信息可以是解码特征图中每一层级的深度等。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

S101、获取标记有待测目标及目标深度的至少一待检测图片作为训练样本，使用所述训练样本对画面深度判断模型进行训练；

S102、所述画面深度判断模型由编码系统、融合系统、深度预测系统串联组成，每一所述训练样本被特征提取后经历所述编码系统的多个编码器模块的编码后得到多个不同分辨率的编码特征图，编码特征图自低分辨率至高分辨率的次序在所述融合系统中迭代上采样融合后获取解码特征图；

S103、所述深度预测系统包括并行的分层像素概率预测分支和分层宽度预测分支，所述解码特征图输入所述分层宽度预测分支中自适应的得到分层并得到每一分层的分层宽度，所述解码特征图输入所述分层像素概率预测分支中进行卷积运算和函数激活后得到分层概率分布，基于所述分层概率分布和每一分层的分层宽度得到每一层的画面深度。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图14中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种画面深度判断模型的构建方法，其特征在于，包括：

所述画面深度判断模型由编码系统、融合系统、深度预测系统串联组成，每一所述训练样本被特征提取后经历所述编码系统的多个编码器模块的编码后得到多个不同分辨率的编码特征图，编码特征图自低分辨率至高分辨率的次序在所述融合系统中迭代上采样融合后获取解码特征图，所述融合系统包括多个串联的融合模块，输入到所述融合模块的编码特征图和上一层级分辨率的编码特征图在所述融合模块中融合后得到融合特征图，所述融合特征图输入到下一融合模块中直到遍历所有的编码特征图得到最终融合特征图，所述最终融合特征图经历上采样和卷积后得到解码特征图；

2.根据权利要求1所述的一种画面深度判断模型的构建方法，其特征在于，所述编码系统包括多个依次串联的编码器模块，每一编码器模块包括多层自注意力-多层感知器层组成的自注意力机制，所述自注意力机制用于自适应生成分层的编码特征图。

3.根据权利要求1所述的一种画面深度判断模型的构建方法，其特征在于，每一编码器模块中依次包含卷积层、编码层、融合层，所述卷积层对输入的训练样本进行卷积操作得到卷积特征；所述编码层包含并联的多个自注意力-多层感知器层，所述卷积特征经过所述编码层再经过所述融合层得到编码特征图。

4.根据权利要求1所述的一种画面深度判断模型的构建方法，其特征在于，每一所述融合模块中依次包括上采样层、拼接层、融合卷积层，所述上采样层对上一层级分辨率的编码特征图进行上采样操作后与下一层级分辨率的编码特征图在拼接层进行拼接得到拼接结果，所述融合卷积层对所述拼接结果进行卷积后输出，得到该融合模块对应的融合特征图。

5.根据权利要求1所述的一种画面深度判断模型的构建方法，其特征在于，所述分层像素概率预测分支由一个概率卷积网络连接一个softmax层组成，所述概率卷积网络对所述解码特征图进行卷积操作后送入所述softmax层进行概率预测，得到所述解码特征图中不同像素点的分层概率分布；所述分层宽度预测模块由一个宽度卷积网络和一个Transformer层组成，所述解码特征图经过宽度卷积网络对所述解码特征图进行自适应分层，再通过所述Transformer层得到每一分层的分层宽度。

6.根据权利要求5所述的一种画面深度判断模型的构建方法，其特征在于，在“基于所述分层概率分布和每一分层的分层宽度得到每一层的画面深度”步骤中，根据所述分层宽度得出每一层级的中心点，对所述中心点进行上采样，再使用插值预测的方法对上采样结果进行深度预测，得出每一层级的中心点深度，使用每一层级的中心点深度与对应层级的像素点概率分布进行线性组合得到每一层级深度，所述每一层级深度即为所述预测结果。

7.一种画面深度判断方法，主要用于城管事件的判断，包括：

获取一待检测图片，将所述待检测图片输入到所述画面深度判断模型中，所述画面深度判断模型由编码系统、融合系统、深度预测系统串联组成，所述深度预测系统包括并行的分层像素概率预测分支和分层宽度预测分支，所述待检测图片进行特征提取后在所述编码系统中编码，得到多个不同分辨率的编码特征图，编码特征图自低分辨率至高分辨率的次序在融合系统中迭代上采样融合后获取解码特征图，所述融合系统包括多个串联的融合模块，输入到所述融合模块的编码特征图和上一层级分辨率的编码特征图在所述融合模块中融合后得到融合特征图，所述融合特征图输入到下一融合模块中直到遍历所有的编码特征图得到最终融合特征图，所述最终融合特征图经历上采样和卷积后得到解码特征图；

8.一种画面深度判断模型构建装置，其特征在于，包括：

编码-融合模块：所述画面深度判断模型由编码系统、融合系统、深度预测系统串联组成，每一所述训练样本被特征提取后经历所述编码系统的多个编码器模块的编码后得到多个不同分辨率的编码特征图，编码特征图自低分辨率至高分辨率的次序在所述融合系统中迭代上采样融合后获取解码特征图，所述融合系统包括多个串联的融合模块，输入到所述融合模块的编码特征图和上一层级分辨率的编码特征图在所述融合模块中融合后得到融合特征图，所述融合特征图输入到下一融合模块中直到遍历所有的编码特征图得到最终融合特征图，所述最终融合特征图经历上采样和卷积后得到解码特征图；

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1到6任一所述的一种画面深度判断模型的构建方法或权利要求7所述的一种画面深度判断方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1到6任一所述的一种画面深度判断模型的构建方法或权利要求7所述的一种画面深度判断方法。