CN114782705A

CN114782705A - 一种物体封闭轮廓的检测方法和装置

Info

Publication number: CN114782705A
Application number: CN202210425480.0A
Authority: CN
Inventors: 王泮渠; 陈鹏飞; 黄泽铧
Original assignee: Beijing Tusen Weilai Technology Co Ltd
Current assignee: Beijing Tusen Weilai Technology Co Ltd
Priority date: 2017-08-31
Filing date: 2018-06-29
Publication date: 2022-07-22
Also published as: CN109426825A

Abstract

本发明公开一种物体封闭轮廓的检测方法和装置。该方法包括：物体封闭轮廓检测装置在语义分割处理的解码过程中，对编码过程输出的特征图进行密集上采样卷积处理，得到尺寸与输入图像尺寸相同的输出图像，输出图像中包括物体实例的封闭轮廓线；根据像素类别，从输出图像中识别并提取出物体实例的封闭轮廓线。通过该方法能够恢复图像数据中细微部分或者小物体的信息，弥补编码过程下采样导致的小物体信息丢失、且无法得到恢复的问题。

Description

一种物体封闭轮廓的检测方法和装置

本申请是中国申请CN201810722257.6的分案申请，该申请日期为2018年6月29日，发明名称为“一种物体封闭轮廓的检测方法和装置”。

技术领域

本发明涉及计算机视觉领域，特别涉及一种物体封闭轮廓的检测方法和装置。

背景技术

图像数据的处理对于自动驾驶等领域有着重要的作用。语义分割是一种根据图像数据进行物体识别的技术。语义分割为图像数据中的每一个像素划分一个类别。

物体轮廓检测是很多视觉任务中的基础问题，包括图像分割、物体检测、实例语义分割，以及封闭轮廓推测。对于一个自动驾驶系统的正确运行来说，检测一个交通环境中所有物体是非常重要的，这些物体可以是汽车、公共汽车、行人和自行车。对于一个物体(例如一个汽车或者一个人)的检测失败可能会导致一个自动驾驶车辆的运动规划系统的失效，从而引发一系列的事故。

语义分割框架提供了像素级别的分类标注，但是无法进行单个的物体实例级别的标注。目前的物体检测框架，存在无法恢复物体的形状或者无法处理封闭物体检测的问题。这主要是因为传统框架中边界框(bounding box)融合处理带来的限制。特别是边界框附近的属于其他不同类别的物体融合到一起后以减少假阳性率的情况下，会带来无法检测被遮挡物体的问题。

也即，在现有技术中，存在无法准确有效地检测出图像数据中物体封闭轮廓的问题。

发明内容

有鉴于此，本发明实施例提供了一种物体封闭轮廓的检测方法和装置，用以解决现有技术中无法准确有效地检测出图像数据中物体轮廓的问题。

一方面，本申请实施例提供了一种物体封闭轮廓的检测方法，包括：

物体封闭轮廓检测装置在语义分割处理的解码过程中，对编码过程输出的特征图进行密集上采样卷积处理，得到尺寸与输入图像尺寸相同的输出图像，输出图像中包括物体实例的封闭轮廓线；

根据像素类别，从输出图像中识别并提取出物体实例的封闭轮廓线。

另一方面，本申请实施例提供了一种物体封闭轮廓的检测装置，包括：

密集上采样卷积模块，用于在语义分割处理的解码过程中，对编码过程输出的特征图进行密集上采样卷积处理，得到尺寸与输入图像尺寸相同的输出图像，输出图像中包括物体实例的封闭轮廓线；

轮廓提取模块，用于根据像素类别，从输出图像中识别并提取出物体实例的封闭轮廓线。

另一方面，本申请实施例提供了一种物体封闭轮廓的检测装置，包括一个处理器和至少一个存储器，至少一个存储器中存储有至少一条机器可执行指令，处理器执行至少一条机器可执行指令以执行：

在语义分割处理的解码过程中，对编码过程输出的特征图进行密集上采样卷积处理，得到尺寸与输入图像尺寸相同的输出图像，输出图像中包括物体实例的封闭轮廓线；

根据本申请实施例提供的技术方案，能够将有效地尺寸压缩了的特征图恢复到与输入图像数据尺寸相同的图像数据，并且根据下采样因子和预定的物体类别的数量，对特征图的通道数进行转换，得到数量更为密集的特征图，通过数量更密集的特征图能够对更多像素的类别进行预测，从而能够恢复图像数据中细微部分或者小物体的信息，弥补编码过程下采样导致的小物体信息丢失、且无法通过双线性插值得到恢复的问题。能够解决现有技术中无法准确有效地检测出图像数据中物体轮廓的问题。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本申请实施例提供的物体封闭轮廓的检测方法的处理流程图；

图2为图1中步骤101的处理流程图；

图3为使用图1所示方法对输入图像进行处理的图像数据示例；

图4为本申请实施例提供的物体封闭轮廓的检测方法的另一处理流程图；

图5为本申请实施例提供的物体封闭轮廓的检测方法的另一处理流程图；

图6为扩大卷积核的示意图；

图7为在具体应用中实现图5所示方法的语义分割模型的网络架构示意图；

图8为应用图1所示方法的图像数据示例；

图9为应用图5所示方法的图像数据示例；

图10为一个具体应用场景中的一个原始输入图像；

图11为对图10所示的输入图像提取特征后得到的特征图；

图12为对图10所示的输入图像使用现有技术中的物体检测技术使用边界框来标注物体的示意图；

图13a为对图10所示的输入图像应用本申请实施例提供的物体封闭轮廓检测方法后提前得到的物体实例轮廓图；

图13b为叠加图13a和图10后的可视化效果图；

图14为另一个具体应用场景中的一个原始输入图像；

图15为对图14所示的输入图像提取特征后得到的特征图示例；

图16为对图14所示的输入图像使用现有技术中的物体检测技术使用边界框来标注物体的示意图；

图17为对图14所示的输入图像应用本申请实施例提供的物体封闭轮廓检测方法后提取得到的物体实例轮廓图；

图18为叠加将图17和图14后的可视化效果图；

图19为本申请实施例提供的物体封闭轮廓的检测装置的结构框图；

图20为本申请实施例提供的物体封闭轮廓的检测装置的另一结构框图；

图21为本申请实施例提供的物体封闭轮廓的检测装置的另一结构框图；

图22为本申请实施例提供的物体封闭轮廓的检测装置的另一结构框图；

图23为本申请实施例提供的物体封闭轮廓的检测装置的另一结构框图；

图24为本申请实施例提供的物体封闭轮廓的检测装置的另一结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

目前在现有技术中，语义分割处理通常包括两个部分：特征表示解码(Decodingof Feature Representation)和扩张卷积(Dilated Convolution)。

通过特征表示解码可以获得像素级别的语义分割信息，输出的特征图具有与输入图像相同的尺寸。由于卷积神经网络中的最大化池化和跨步卷积操作，不可避免的导致最后几层网络的特征图的尺寸缩小，针对这一问题多种方案能够对低分辨率的特征图解码得到准确的信息。常见的双线性插值能够节省存储空间并且处理速度快。解卷积的方法使用池化处理中的池化位置信息，来恢复图像重建和特征视觉化所需要的必要信息。在一些例子中，在解码阶段中加入一个单独的解卷积层，使用中间层堆叠的特征图来生成预测结果。在另一些例子中，采用多个解卷积层在多个特征中生成目标物体，例如椅子、桌子或汽车。一些研究中通过在上池化(unpooling)的步骤中使用存储的池化位置，将解卷积层作为卷积层的镜像结构。其它的一些研究展示了在解卷积层的传播过程中，可以实现粗糙到细致(coarse-to-fine)的物体结构的检测，这些物体结构对于重建细微的信息是非常关键的。还有一些研究使用一个类似的镜像结构，并结合解卷积层的信息执行上采样来实现最终的预测。还有一些系统通过使用像素级别的分类器来预测标签图像，也是具有较高的统计学效率的。其中，双线性插值的应该较广。但是双线性插值上采样通过填充0来获取与输入相同分辨率的输出，容易丢失细节信息，丢失小物体信息，损失图像数据的精度，并且双线性插值不具有学习能力。

扩张卷积(或者称为空洞卷积)最早是为了小波分解而研发的。扩张卷积的主要核心在于在卷积核的像素之间填充“0”来扩大图像的感受野，从而可以实现深度神经网络中的密集特征提取。在语义分割的框架中，扩张卷积也用于扩大卷积核的尺寸。一些研究中使用具有渐增的扩大率的序列化层来实现上下文聚合(context aggregation)，并且设计一个“基于洞的空间金字塔(Atrous Spatial Pyramid Pooling，ASPP)通过设置多个并列的扩张卷积层，来捕捉多尺度的物体和上下文信息。最近，扩张卷积被用于更广的范围，例如基于光流的物体检测、视觉问题回答、以及音频生成。但是，这些卷积系统会因为标准扩张卷积而产生一个“栅格效应”的问题，导致无法识别尺寸较大的物体的形状或轮廓。

由于语义分割技术中存在的上述问题，也即小物体信息丢失、无法识别大尺寸物体的形状或轮廓，导致无法有效准确地提取得到物体的封闭轮廓。

针对现有技术中存在的上述问题，本申请实施例提供了一种物体封闭轮廓的检测方法和装置，用以解决该问题。在本申请的一些实施例提供的技术方案中，通过在解码阶段对编码阶段输出的特征图进行密集上采样卷积处理，提高预测图像的分辨率、恢复较多的细节信息，从而能够保留较多的小物体信息，并且进一步地检测得到小物体的轮廓信息。在另一些实施例提供的技术方案中，在编码阶段对提取的特征图进行多次的混合扩大卷积处理，能够保留更多的卷积的本地信息和长程信息，从而能够克服栅格效应，能够获得大物体的连续的轮廓信息，从而能够检测得到大物体的轮廓信息。从而，本申请实施例提供的技术方案能够准确有效地检测得到物体的轮廓信息，能够解决现有技术中的上述问题。

另一方面，应用本申请实施例提供的方法，无需通过边界框来标注物体，可以直接提取物体的封闭轮廓信息。在现有技术中，通过边界框来标注物体时，无法识别出物体的实际形状，无法对物体的尺寸、面积等信息进行精确的推断；而在例如自动驾驶等的技术领域中，这些信息将会是进行许多决策的关键信息。并且，有些物体会在边界框融合的处理中被忽略掉，导致物体信息丢失。应用本申请实施例提供的方法，能够直接提取物体的封闭轮廓，从而能够进一步识别出物体的实际形状、尺寸、面积等信息，为其它的推断或者决策提供准确有效的信息。

以上是本发明的核心思想，为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明实施例中技术方案作进一步详细的说明。

图1示出了本申请实施例提供的物体封闭轮廓的检测方法的处理流程图，包括：

步骤101、物体封闭轮廓检测装置在语义分割处理的解码过程中，对编码过程输出的特征图进行密集上采样卷积处理，得到尺寸与输入图像尺寸相同的输出图像，输出图像中包括物体实例的轮廓线；

步骤102、根据像素类别，从输出图像中识别并提取出物体实例的轮廓线。

其中，在步骤101中，对特征图进行密集上采样卷积处理，如图2所示，包括：

步骤1011、将特征图的通道数c转为编码过程中的下采样因子d²和预定物体类别的数量L的乘积；

例如，模型的输入图片大小为(H，W，C)，其中，H为图像数据的高度，W为图像数据的宽度，C为图像数据的通道数。通过编码过程的处理输入到解码过程的特征图大小为F_out＝(h,w,c)，其中H/d＝h，W/d＝w，d为下采样因子。在现有技术中采用双线性插值对特征图进行上采样，如果d＝16，也即输入到输出下采样了16倍，如果一个目标物的长度或宽度小于16个像素(pixels)，例如电线杆、交通信号灯、交通信号或者远处的一个人，该物体将不会被采样到，并且双线性插值上采样将无法恢复这个信息，从而在输出图像中丢失该物体。

在本申请实施例提供的步骤1011中，密集上采样卷积处理将特征图F_out的尺寸中的通道数c进行转换，得到通道数d²*L，d为下采样因子，L为预定的全部物体类别的数量，得到特征图F_out＝(h,w,d²*L)。

具体地，可以根据原特征图的通道数c和通道转换后的通道数d²*L的数值比例关系d²*L/c，对每一个通道上的特征图进行学习，得到学习后的(d²*L)个通道上尺寸为h*w的特征图，从而每个密集上采样卷积层都在学习对每个像素的预测。其中，对每一个通道上的特征图进行学习，是根据神经网络预先训练学习得到的学习功能实现的。例如，在原特征图的通道数c和预定的物体类别的数量L数值相同的情况下，可以将每一个通道上的特征图学习d²份，得到学习后的d²*L个通道上尺寸为h*w的特征图。

步骤1012、对通道数量转换后的特征图进行组合，并对组合后的特征图进行归一化处理，从而得到尺寸与输入图像尺寸相同的输出图像。

也即，对通道数量转换后的特征图F_out＝(h,w,d²*L)进行组合，得到尺寸为(h*d,w*d,L)的特征图，如上所述H/d＝h，W/d＝w，则，该组合后的特征图的尺寸为(H,W,L)，也即特征图的尺寸上采样到与输入图像相同的尺寸。

其中，对通道数量转换后的特征图组合的处理，可以是按照特征采集得到特征图的顺序和通道顺序，对特征图进行组合。例如，在d²*L个通道中，第n～m个通道上的特征图是对输入图像数据的第x行数据提取的特征，在进行组合时，将第n～m个通道上的特征图按照像素顺序，依次组合到输出数据的第x行，以此类推对后续特征图的组合。对特征图进行组合的处理，可以根据具体应用场景中实际算法的规定来进行实施，本申请这里不做具体限定。

相比于现有技术中双线性插值方法不具有可学习性，也不具有解卷积性，本申请实施例提供的密集上采样处理具有可学习性，可以在图1所示处理之前，预先根据真实数据训练神经网络得到语义分割模型，语义分割模型中包括解码阶段的密集上采样卷积层。其中，密集上采样卷积层可以包括多个卷积层。具体地，可以通过训练学习到一系列的上采样滤波器，通过这一系列的上采样滤波器对尺寸为F_out＝(h,w,c)的特征图上采样为尺寸为F_out＝(h,w,d²*L)的图像数据。

并通过一个softmax层对上采样后的输出图像数据进行归一化处理，得到最后的输出图像。

图3中示出了使用图1所示方法对输入图像进行处理的一个示例。图3左侧为输入图像，其它部分从左至右为不同的下采样因子情况下的输出图像，可以看出，输入图像中的一些小物体得到了很好的识别，例如电线杆和信号灯。

在具体实现的过程中，可以在全卷积网络中进行训练学习，得到上述的语义分割模型。

通过如上所述的密集上采样卷积处理，能够将有效地尺寸压缩了的特征图恢复到与输入图像数据尺寸相同的图像数据，并且根据下采样因子和预定的物体类别的数量，对特征图的通道数进行转换，得到数量更为密集的特征图，通过数量更密集的特征图能够对更多像素的类别进行预测，从而能够恢复图像数据中细微部分或者小物体的信息，弥补编码过程下采样导致的小物体信息丢失、且无法通过双线性插值得到恢复的问题。从而本申请实施例提供的方法能够从输出图像中提取得到小物体的实例信息，以及小物体的封闭轮廓信息。

并且，密集上采样卷积处理能够实现直接从特征图到输出标注图像的处理，而无需像现有技术中对特征图先进行双线性插值，并对插值的图像进行上采样得到输出的标注图像。另一方面，密集上采样卷积处理直接对原始分辨率的特征图进行处理，能够实现像素级别的解码。

并且，进一步地如图4所示，在图1所示处理的基础上，本申请实施例提供的方法还包括：

步骤103、根据提取的物体实例的封闭轮廓线，确定物体实例的形状、尺寸和/或面积。

应用本申请实施例提供的方法，无需通过边界框来标注物体，可以直接提取物体的封闭轮廓信息。在现有技术中，通过边界框来标注物体时，无法识别出物体的实际形状，无法对物体的尺寸、面积等信息进行精确的推断；而在例如自动驾驶等的技术领域中，这些信息将会是进行许多决策的关键信息。应用本申请实施例提供的方法，能够直接提取物体的封闭轮廓，从而能够进一步识别出物体的实际形状、尺寸、面积等信息，为其它的推断或者决策提供准确有效的信息。

基于相同的发明构思，本申请实施例在图1所示方法的基础上，还提供了一种物体封闭轮廓的检测方法。

图5示出了本申请实施例提供的物体封闭轮廓的检测方法，包括：

步骤100、物体封闭轮廓检测装置在语义分割处理的编码过程中，对提取的特征图进行多次的混合扩大卷积处理，得到扩大了感受野的特征图；

步骤101、在解码过程中，对编码过程输出的特征图进行密集上采样卷积处理，得到尺寸与输入图像尺寸相同的输出图像，输出图像中包括物体实例的封闭轮廓线；

步骤102、根据像素类别，从输出图像中识别并提取出物体实例的封闭轮廓线。

其中，上述步骤100的处理也即在多个卷积层上，使用一系列的扩大率对特征图进行卷积处理。

在现有技术中，扩大卷积处理通常使用扩大卷积核对特征图进行卷积，来扩大特征图的感受野，扩大卷积核通过在卷积核的每个像素之间插入“0”而构建得到。对于二维信号，卷积核大小为K*K，经过扩大卷积的结果为K_d*K_d，其中，K_d＝k+(k-1)(r-1)，r为扩大率。扩大卷积可扩大特征图的感受野(或称为视野)，可以替换全卷积网络架构中的池化层。例如在ResNet-101中的一个卷积层具有步长s＝2，则可以将步长重设为1以取代下采样操作，并且将对后续的网络层，将扩大率设置为2。对全部的进行下采样处理的网络层交替执行上述处理，则输出的特征图能够扩大感受野。在实际应用中，扩大卷积处理通常应用在已经下采样的特征图上，以达到合理的效率和开销。但是，通过扩大卷积处理会引起栅格效应。

在本申请实施例中，上述步骤100可实现为：在多个扩大卷积层中的每个卷积层上，使用基于K*K尺寸、且扩大率为r_i的卷积核，对特征图进行扩大卷积处理；其中，1≤i≤n，n为卷积层的层数。该处理可以通过至少如下的四种方式中的之一得到实施：

方式一、将多个扩大卷积层分成若干组，每组中各扩大卷积层的扩大率不断递增。

例如，扩大卷积层有N层时，将N层可以分为s组，其中每组包括至少两层卷积层，每组中采用的卷积核的尺寸为K*K，且采用不断递增的扩大率，也即在第s组中，r_si-2<r_si-1<r_si。这样，每组中的扩大率不断递增，在多组扩大卷积层中整体看来，扩大率成锯齿波变化，较小扩大率的卷积核能够提取本地信息，较大扩大率的卷积核能够提取长距离信息。

方式二、每个扩大卷积层具有任意扩大率的卷积核。

为卷积核设置任意扩大率，可以扩大卷积核的感受野，从而能够识别较大的物体。

方式三、在上述方式一或方式二的基础上，扩大率每次递增的变换因子是不同的。

例如，扩大率r＝(1，2，5)，扩大率每次递增的变换因子为1和3，也即每次递增的变换因子是不同的。

设置变换因子不同的多个扩大率，能够使一组扩大卷积核覆盖到更多的像素，相反如果使用变换因子相同的扩大率，例如r＝(2，4，6，8)，扩大率每次递增的变化因子均为2，这样克服栅格效应的效果较弱。

方式四、在上述三种方式中任一种方式的基础上，最后一层扩大卷积层的扩大卷积核的感受野的尺寸小于或等于特征图的尺寸。

也即，通过预先设定的扩大率，使得最后一层扩大卷积层的扩大卷积核的感受野的尺寸小于或等于特征图的尺寸，能够扩大最后一层卷积层的感受野，特别是当扩大卷积核的感受野的尺寸与特征图的尺寸相同的情况下，扩大卷积核的感受野能够覆盖到特征图的全部区域，从而不会丢失任何空洞或者边缘，能够保证长程信息的一致和完整。

下面以上述方式一为例和现有技术进行对比说明。

图6中示出了扩大卷积核的示例。图6中四周灰色的像素是对中心黑色的像素的计算起到贡献的像素。图6a为现有技术中的扩大卷积核示意图。图6b为应用本申请实施例提供的混合扩大卷积的卷积核示意图。

图6(a)中卷积核的大小为3*3，从左至右的扩大率均为r＝2。对于扩大卷积层中的一个像素点p，对其有贡献的是上一层以p为中心的K_d*K_d的临近区域，因为扩大卷积引入0值，在K_d*K_d的区域只计算K*K个像素点，非0像素点之间的间隔为r-1。例如在k＝3，r＝2的扩大卷积中，如图6a左边的图所示，25个像素中只有9个像素做出了贡献。由于所有的层都具有相同的扩大率r，对于最顶层的扩大卷积层中的点p，对p点的计算起到贡献的最大可能的像素的数量是(w′*h′)/r²，其中，w′和h′分别是底层扩大卷积层的特征图的宽度和高度。从而在顶层的特征图中p点只能以棋盘格的形式来查看它的信息，这样会导致大量信息的丢失(r＝2时，大约有75％的信息会被丢失掉)。当较高卷积层中的r变得越来越大时，会使得从输入中采样的数据越来越稀疏，不利于卷积学习，这是因为：1)局部信息的完全丢失；2)信息之间太远不相关。另一个结果是，从r*r的区域从完全不同的“网格”集合内接收信息，这将会损害本地信息的一致性。

在图6(b)所示的卷积核中，使用上述方式一，将若干个卷积层分为一组，每个组内的扩大率不断递增，例如K＝3，r＝(1，2，3)，使得扩大率的变换类似于锯齿波的形状，这样在左边的底层中可以获得本地的信息，在右边的顶层中可以获得更广阔的区域的信息。不同扩大率的组合能够兼顾小物体和大物体的分割要求，即较小的扩大率提取本地信息，较大的扩大率提取长距离信息。

通过混合扩大卷积的上述实施方式，通过设置一系列扩大率的卷积核，能够在卷积过程中使扩大卷积核尽量覆盖更多的像素，兼顾提取本地信息和长程信息。并且，随着扩大卷积核的感受野覆盖的范围越大，丢失的空洞和边缘信息就越少，能够保证长程信息的一致和完整，能够有效地克服栅格效应，从而能够获取大物体的完整的、封闭的形状和轮廓。

另一方面，由于混合扩大卷积处理具有可学习性，可以在图5所示处理之前，预先根据真实数据训练神经网络得到语义分割模型，语义分割模型中包括编码阶段的混合扩大卷积层。

图7示出了在具体应用中，在ResNet-101架构上训练得到实现图5所示方法的语义分割模型的网络架构。在图7中在编码阶段，多个混合扩大卷积层对提取到的特征图进行混合扩大卷积处理，在解码阶段，多个密集上采样卷积层对编码阶段输出的特征图进行处理，得到输出的标注图像。

图5所示方法为编码过程中的混合扩大卷积处理和解码过程中密集上采样卷积处理的结合，混合扩大卷积处理能够有效地扩大特征图的感受野、识别大物体的形状和轮廓，密集上采样卷积处理能够恢复小物体的信息，这二者的结合，有利于全面、准确、有效地识别提取图像数据中的物体实例、以及物体实例的轮廓。

进一步地，与图4相类似，图5所示的方法还可以包括步骤103，这里不再赘述。

图8和图9分别示出了分别应用图1和图5所示方法的输出图像的对比情况。在图8中，从左至右为输入图像、真实数据、应用图1所示方法的输出图像、应用图5所示方法的输出图像。可以在图8中，看出应用图5所示方法的输出图像相比于应用图1所示方法的输出图像，在小物体的识别方面更接近于真实数据。在图9中，第一行为真实数据，第二行为应用图1所示方法的输入数据，第三行为应用图5所示方法的输出图像。可以看出在图9中，应用图5所示方法的输出图像相比于应用图1所示方法的输出图像，在大物体轮廓的识别方面，能更有效地克服栅格效应，更接近于真实数据。

另一组图像数据图10～13b也示出了应用本申请实施例提供的方法的实例。图10为原始输入图像，图11为对图10所示的输入图像提取特征后得到的特征图，图12现有技术中的物体检测技术使用边界框来标注物体的示意图，图13a为应用本申请实施例提供的物体封闭轮廓检测方法后提前得到的物体实例轮廓图。

其中，图11中通过不同的颜色标注出多种类别的物体。但是在图10中，单个物体实例级别的信息已经丢失了，例如所有的汽车被标注为相同的颜色也即蓝色，并被标注为“汽车”类别。但是识别出一个交通环境中的全部物体实例，各个汽车、公交车、行人、以及自行车，对于安全和有效的自动驾驶系统来说是非常关键的。对一个物体实例的检测失败可能会导致自动驾驶汽车的运动规划模块的功能失效、或者分类错误，从而导致一系列的事故。语义分割框架提供了像素级别的物体标注，但是仅仅根据语义分割技术无法识别出单独的实例级别的物体。

图12是使用传统的物体检测框架使用边界框来标注物体的示意图。传统的物体检测框架虽然能够使用边界框来标注物体，但是无法恢复物体的形状、或者处理物体的封闭轮廓检测的问题。特别地，由于传统的物体检测框架中边界框融合处理的限制，为了降低假阳性率，相接近的、标注不同物体实例的边界框可能会融合到一起，从而导致无法检测出物体或者物体实例的封闭轮廓，尤其是当被遮挡物体很大的时候。如图12所示，传统的物体检测框架使用矩形的边界框来恢复不同物体或者不同物体实例的形状或者轮廓。从而在融合物体及其附近物体的边界框的过程中，被遮挡的物体或者被遮挡的物体实例可能在检测过程中被丢失。

图13a示出了应用本申请实施例提供的物体封闭轮廓检测方法的输出图像。本申请实施例提供的物体封闭轮廓检测方法基于一个假设，也即一个特定类别的物体具有类似的全局形状，对于相同类别的物体的轮廓和边界线的检测，具有一致的结构形状。如图13a中所示，沿着路边的停靠的车的封闭边界线具有类似的宽度和方向。如果使用一个可计算的模型学习到这一结构信息，我们就能够恢复物体轮廓和封闭边界线，并检测到被遮挡的物体。在本申请实施例中，物体轮廓检测的任务可以被当作是一个语义分割任务，其中原始输入图像和输出的标注图像均为图像数据，从而可以在像素级别的语义分割框架上实施物体轮廓检测。特别地，本申请实施例提出了如图1所示的方法。图1中所示的密集上采样卷积处理适用于物体轮廓检测，其原因在于：1)、密集上采样适合于恢复物体的形状，2)、密集上采样相比诸如双线性上采样等的解码方法，能够达到更高的准确率，其它的解码方法对于容易丢失宽度在8个像素以下的物体，3)、被恢复的物体的轮廓不能太粗，否则可能将物体变模糊。密集上采样能够解码任意宽度的轮廓，而例如双线性上采样的其它方法只能恢复至少8个像素宽的轮廓。如图13a所示，应用本申请实施例提供的方法，能够从输入图像中准确地检测并获得实例级别的物体分割。图13b示出了将提取的物体的封闭轮廓线叠加在输入图像上的可视化效果。

另一组图像数据图14～18也示出了应用本申请实施例提供的方法的实例。图14为原始输入图像，图15为对图14所示的输入图像提取特征后得到的特征图，图16现有技术中的物体检测技术使用边界框来标注物体的示意图，图17为应用本申请实施例提供的物体封闭轮廓检测方法后提取得到的物体实例轮廓图，图18为将图17中的物体轮廓信息叠加到图14所示的输入图像上的可视化效果示意图。

从图17中可以看出，应用本申请实施例提供的方法，能够准确地检测出每个单独的物体实例的形状，并且相邻的遮挡物体也没有被丢失。一旦检测得到每个单独物体的形状和轮廓，可以将物体的轮廓叠加到如图14所示的输入图像上，以形成视觉表达，并为自动驾驶的控制系统提供准确有效的物体信息。

基于相同的发明构思，本申请实施例还提供了一种物体封闭轮廓的检测装置。

图19示出了本申请实施例提供的物体封闭轮廓的检测装置的结构框图，包括：

密集上采样卷积模块91，用于在语义分割处理的解码过程中，对编码过程输出的特征图进行密集上采样卷积处理，得到尺寸与输入图像尺寸相同的输出图像，输出图像中包括物体实例的封闭轮廓线；

轮廓提取模块92，用于根据像素类别，从输出图像中识别并提取出物体实例的封闭轮廓线。

其中，密集上采样卷积模块91具体用于：将特征图的通道数(c)转为编码过程中的下采样因子(d²)和预定物体类别的数量(L)的乘积；对通道数量转换后的特征图进行组合，并对组合后的特征图进行归一化处理，得到尺寸与输入图像尺寸相同的输出图像。

密集上采样卷积模块91将特征图的通道数(c)转为编码过程中的下采样因子(d²)和预定物体类别的数量(L)的乘积，包括：根据特征图的通道数(c)和下采样因子与预定物体类别的数量的乘积(d²*L)的数值比例关系，对每一个通道上的特征图进行学习，得到转换后的特征图的通道数(d²*L)。

密集上采样卷积模块91对通道数量转换后的特征图进行组合，包括：按照特征采集得到特征图的顺序和通道顺序，对通道数量转换后的特征图进行组合。

在图19所示装置的基础上，如图20所示，本申请实施例提供的装置还可以进一步包括：

确定模块93，用于根据提取的物体实例的封闭轮廓线，确定物体实例的形状、尺寸和/或面积。

基于相同的发明构思，在图19所示装置的基础上，如图21所示，本申请实施例提供的装置还可以进一步包括：

混合扩大卷积模块90，用于在语义分割处理的编码过程中，对提取的特征图进行多次的混合扩大卷积处理，得到扩大了感受野的特征图。

其中，混合扩大卷积模块90具体用于：在多个扩大卷积层中的每个卷积层上，使用基于K*K尺寸、且扩大率为r_i的卷积核，对特征图进行扩大卷积处理；其中，1≤i≤n，n为卷积层的层数。

在一些实施例中，混合扩大卷积模块90还用于将多个扩大卷积层分成若干组，每组中各扩大卷积层的扩大率不断递增。

在一些实施例中，每个扩大卷积层具有任意扩大率的卷积核。

在一些实施例中，扩大率每次递增的变换因子是不同的。

在一些实施例中，最后一层扩大卷积层的扩大卷积核的感受野的尺寸小于或等于特征图的尺寸。

如图22所示，在图21所示装置的基础上，本申请实施例提供的装置还可以进一步包括：

第一预训练模块94，用于预先根据真实数据训练神经网络得到语义分割模型，语义分割模型中包括编码阶段的混合扩大卷积层。

在一些实施例中，第一预训练模块94预先根据真实数据端到端地训练全卷积网络得到语义分割模型

如图23所示，在图19所示装置的基础上，本申请实施例提供的装置还可以进一步包括：

第二预训练模块95，用于预先根据真实数据训练神经网络得到语义分割模型，语义分割模型中包括解码阶段的密集上采样卷积层。

在一些实施例中，第二预训练模块95预先根据真实数据端到端地训练全卷积网络得到语义分割模型。

根据本申请实施例提供的上述装置，混合扩大卷积模块能够有效地扩大特征图的感受野、识别大物体的形状和轮廓，密集上采样卷积模块能够恢复小物体的信息，通过这二者能够全面、准确、有效地识别提取图像数据中的物体实例、以及物体实例的轮廓。

图24示出了本申请实施例提供的物体封闭轮廓的检测装置，包括一个处理器2401和至少一个存储器2402，至少一个存储器2402中存储有至少一条机器可执行指令，处理器2401执行至少一条机器可执行指令以执行：

其中，处理器2401执行至少一条机器可执行指令以执行对编码过程输出的特征图进行密集上采样卷积处理，得到尺寸与输入图像尺寸相同的输出图像，包括：将特征图的通道数(c)转为编码过程中的下采样因子(d²)和预定物体类别的数量(L)的乘积；对通道数量转换后的特征图进行组合，并对组合后的特征图进行归一化处理，得到尺寸与输入图像尺寸相同的输出图像。

处理器2401执行至少一条机器可执行指令以执行将特征图的通道数(c)转为编码过程中的下采样因子(d²)和预定物体类别的数量(L)的乘积，包括：根据特征图的通道数(c)和下采样因子与预定物体类别的数量的乘积(d²*L)的数值比例关系，对每一个通道上的特征图进行学习，得到转换后的特征图的通道数(d²*L)。

处理器2401执行至少一条机器可执行指令以执行对通道数量转换后的特征图进行组合，包括：按照特征采集得到特征图的顺序和通道顺序，对通道数量转换后的特征图进行组合。

在一些实施例中，处理器2401执行至少一条机器可执行指令还执行：预先根据真实数据训练神经网络得到语义分割模型，语义分割模型中包括解码阶段的密集上采样卷积层。

处理器2401执行至少一条机器可执行指令还执行预先根据真实数据端到端地训练全卷积网络得到语义分割模型。

在另一些实施例中，处理器2401执行至少一条机器可执行指令还执行：在语义分割处理的编码过程中，对提取的特征图进行多次的混合扩大卷积处理，得到扩大了感受野的特征图。

其中，处理器2401执行至少一条机器可执行指令以执行对提取的特征图进行多次的混合扩大卷积处理，得到扩大了感受野的特征图，包括：在多个扩大卷积层中的每个卷积层上，使用基于K*K尺寸、且扩大率为r_i的卷积核，对特征图进行扩大卷积处理；其中，1≤i≤n，n为卷积层的层数。

在一些实施例中，处理器2401执行至少一条机器可执行指令还执行将多个扩大卷积层分成若干组，每组中各扩大卷积层的扩大率不断递增。

在一些实施例中，扩大率每次递增的变换因子是不同的。

在一些实施例中，处理器2401执行至少一条机器可执行指令还执行：预先根据真实数据训练神经网络得到语义分割模型，语义分割模型中包括编码阶段的混合扩大卷积层。

根据本申请实施例提供的上述装置，混合扩大卷积处理能够有效地扩大特征图的感受野、识别大物体的形状和轮廓，密集上采样卷积处理能够恢复小物体的信息，通过这二者能够全面、准确、有效地识别提取图像数据中的物体实例、以及物体实例的轮廓。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种物体封闭轮廓的检测方法，其特征在于，包括：

2.一种物体封闭轮廓的检测装置，其特征在于，包括：

3.一种物体封闭轮廓的检测装置，其特征在于，包括一个处理器和至少一个存储器，至少一个存储器中存储有至少一条机器可执行指令，处理器执行至少一条机器可执行指令以执行：