CN112163478A

CN112163478A - 一种目标检测的方法及装置

Info

Publication number: CN112163478A
Application number: CN202010972343.XA
Authority: CN
Inventors: 赵雨婷; 刘审川
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2021-01-01

Abstract

本说明书公开了一种目标检测的方法及装置，无人设备上具有图像传感器，当无人设备运动时，可获取图像传感器实时采集的待检测图像，将待检测图像输入检测模型，通过检测模型的第一子模型提取待检测图像的最终图像特征，通过检测模型的第二子模型，对最终图像特征进行处理，得到待检测图像中各像素点的语义信息，根据各像素点的语义信息，确定待检测图像的目标检测结果。由于可通过检测模型确定出待检测图像中各像素点的语义信息，从而基于各像素点的语义信息得到的待检测图像的目标检测结果，更加准确的确定出目标在待检测图像中的区域，相对于使用检测框确定出的目标检测结果，减少了其他非目标的信息，达到更加精确的效果。

Description

一种目标检测的方法及装置

技术领域

本说明书涉及目标检测技术领域，尤其涉及一种目标检测的方法及装置。

背景技术

目前，无人驾驶车辆在运行时，需要感知周围环境信息，并根据周围环境信息以及电子地图，规划自身的轨迹。

在无人驾驶车辆感知周围环境信息时或者在绘制电子地图时，均需要对物体进行目标检测，常规的目标检测的方法是通过边界框来确定物体的位置。然而，对于一些特殊形状的物体或者大型物体，例如，在道路上起隔离作用的隔离栏、隔离桩、路沿等，这类物体的特点在于，沿道路延伸的方向而延伸，在无人驾驶车辆采集的图像数据中，呈倾斜的长条状态，边界框无法较好的表示出物体的形状和位置，以隔离栏为例，图1为本说明书提供的包含隔离栏的图像的目标检测结果示意图。在图1中，由于边界框需要包含整个隔离栏，因此，边界框中包含较多的非隔离栏的信息，并且，边界框也不能较好的贴紧隔离栏的边缘，从而使得对隔离栏的检测的效果较差。

发明内容

本说明书实施例提供一种目标检测的方法及装置，以部分解决现有技术存在的上述问题。

本说明书实施例采用下述技术方案：

本说明书提供的一种目标检测的方法，无人设备上具有图像传感器，所述方法包括：

在无人设备运动的过程中，获取所述图像传感器实时采集的待检测图像；

将所述待检测图像输入预先训练的检测模型，通过所述检测模型的第一子模型，提取所述待检测图像的最终图像特征，通过所述检测模型的第二子模型，对所述最终图像特征进行处理，得到所述待检测图像中各像素点的语义信息；

根据所述待检测图像中各像素点的语义信息，确定所述待检测图像的目标检测结果。

可选地，所述第一子模型包括若干第一隐层；各第一隐层按第一指定顺序排列；每个第一隐层的输入为前一个第一隐层的输出；

通过所述检测模型的第一子模型，提取所述待检测图像的最终图像特征，具体包括：

将所述待检测图像输入所述第一子模型，并通过所述第一子模型中各第一隐层，提取所述最终图像特征；

所述第二子模型包括若干第二隐层；各第二隐层按第二指定顺序排列；每个第二隐层的输入为前一个第二隐层的输出；通过所述检测模型的第二子模型，对所述最终图像特征进行处理，得到所述待检测图像中各像素点的语义信息，具体包括：

将所述最终图像特征输入所述第二子模型，并通过所述第二子模型中的各第二隐层对所述最终图像特征进行处理，得到所述待检测图像中各像素点的语义信息；

其中，针对每个第二隐层，通过该第二隐层处理输入该第二隐层的最终图像特征，包括：在通过该第二隐层处理所述最终图像特征时，确定与该第二隐层相对应的第一隐层，根据与该第二隐层相对应的第一隐层的特征权重以及该第二隐层，对输入该第二隐层的前一个第二隐层输出的所述最终图像特征进行处理。

可选地，所述第一子模型包括卷积神经网络模型CNN；

通过所述第一子模型中各第一隐层，提取所述最终图像特征，具体包括：

针对各第一隐层，确定该第一隐层的卷积核的信息；

根据所述卷积核的信息，对前一个第一隐层的输出信息进行卷积，得到该第一隐层输出的中间图像特征；并且，根据若干个预设的卷积扩张率，对所述卷积核进行扩张，得到各空洞卷积核；

针对各空洞卷积核，根据该空洞卷积核的信息以及所述中间图像特征，得到该空洞卷积核对应的图像特征；

对各空洞卷积核对应的图像特征进行处理，得到该第一隐层输出的所述最终图像特征。

可选地，根据与该第二隐层相对应的第一隐层的特征权重以及该第二隐层，对输入该第二隐层的前一个第二隐层输出的所述最终图像特征进行处理，具体包括：

根据与该第二隐层相对应的第一隐层的特征权重以及与该第二隐层相对应的第一隐层输出的输出信息，确定与该第二隐层相对应的第一隐层的指导图像特征；

根据该第二隐层，对输入该第二隐层的前一个第二隐层输出的所述最终图像特征以及所述指导图像特征进行处理。

可选地，将所述待检测图像输入预先训练的检测模型，具体包括：

对所述待检测图像进行裁剪；

将裁剪后的所述待检测图像输入所述检测模型。

可选地，预先训练所述检测模型，具体包括：

获取包含标注信息的图像，作为训练样本，所述标注信息包括所述训练样本中组成预设目标的各像素点的信息；

将所述训练样本输入待训练的检测模型，通过所述待训练的检测模型的第一子模型中的各第一隐层，提取所述训练样本的待优化最终图像特征，通过所述待训练的检测模型的第二子模型中的各第二隐层，对所述待优化最终图像特征进行处理，得到所述训练样本的预测结果，所述预测结果包括所述训练样本中组成所述预设目标的各像素点的预测语义信息；

根据所述标注信息以及所述预测结果，对所述待训练的检测模型进行训练。

可选地，根据所述标注信息以及所述预测结果，对所述待训练的检测模型进行训练，具体包括：

针对所述训练样本中的各像素点，根据所述标注信息以及所述预测结果，确定该像素点的标注信息与预测信息之间的差异，作为该像素点对应的差异；

根据各像素点对应的差异，确定损失；

根据所述损失，对所述待训练的检测模型进行训练。

本说明书提供一种目标检测的装置，所述装置所在的无人设备上具有图像传感器，所述装置包括：

获取模块，用于在无人设备运动的过程中，获取所述图像传感器实时采集的待检测图像；

输入模块，用于将所述待检测图像输入预先训练的检测模型，通过所述检测模型的第一子模型，提取所述待检测图像的最终图像特征，通过所述检测模型的第二子模型，对所述最终图像特征进行处理，得到所述待检测图像中各像素点的语义信息；

确定模块，用于根据所述待检测图像中各像素点的语义信息，确定所述待检测图像的目标检测结果。

本说明书提供的一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述目标检测的方法。

本说明书提供的一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述目标检测的方法。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书中无人设备上具有图像传感器，当无人设备运动时，可获取图像传感器实时采集的待检测图像，将待检测图像输入检测模型，通过检测模型的第一子模型提取待检测图像的最终图像特征，通过检测模型的第二子模型，对最终图像特征进行处理，得到待检测图像中各像素点的语义信息，根据待检测图像中各像素点的语义信息，确定待检测图像的目标检测结果。由于可通过检测模型确定出待检测图像中各像素点的语义信息，从而基于各像素点的语义信息得到的待检测图像的目标检测结果，相对于现有的使用检测框确定出的目标检测结果，更加准确的确定出目标在待检测图像中的区域，减少了其他非目标的信息，达到更加精确的效果。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书提供的包含隔离栏的图像的目标检测结果示意图；

图2为本说明书实施例提供的一种检测模型的结构示意图；

图3为本说明书实施例提供的一种目标检测的方法流程图；

图4为本说明书实时例提供的一种训练检测模型的方法流程图；

图5为本说明书实施例提供的一种目标检测的装置的结构示意图；

图6为本说明书实施例提供的一种训练检测模型的装置的结构示意图；

图7为本说明书实施例提供的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

在目标检测时，尤其是无人设备在运行时需要实时目标检测时，经常可通过在图像中设置边界框来确定目标的位置以及大小。然而，由于实际环境的复杂性，图像中的目标的形态、大小呈现多样性，并非是所有的目标都适合使用边界框来确定目标的位置以及大小，对于特殊形状的物体或者大型物体，例如，在道路上起隔离作用的隔离栏，边界框不能很好的确定隔离栏在图像中的位置以及大小，图1为本说明书提供的包含隔离栏的图像的目标检测结果示意图。如图1所示，边界框中包含较多的非隔离栏的信息，并且，边界框也不能较好地贴近隔离栏的边缘。

现有的技术中，无人设备通过图像可进行目标检测之外，也可对图像进行语义分割。由于语义分割任务是通过得到图像中每个像素点的语义，以分割出具有不同语义的图像部分，因此，语义分割任务通常适用于无人设备对场景的理解。考虑到语义分割是逐像素点的确定语义信息，虽然相较于边界框来说提高了目标检测的精度，但是由于图像包含的语义信息比较丰富，导致确定像素点的语义信息比较困难，从而使得对图像的处理速度较低，无法满足无人设备运行时实时检测周围环境中的目标的需求。

因此，本说明书基于语义分割网络，提出一种新的检测模型，用于无人设备在运行时进行实时目标检测的场景中，快速准确地得到目标检测结果。在本说明书中，当无人设备运行时，可将安装在无人设备上的图像传感器实时采集的待检测图像输入检测模型，通过检测模型的第一子模型，提取待检测图像的最终图像特征，通过检测模型的第二子模型，对最终图像特征进行处理，得到待检测图像中各像素点的语义信息，根据待检测图像中各像素点的语义信息，确定待检测图像的目标检测结果。

实施例一

图2为本说明书实施例提供的一种检测模型的结构示意图。如图2所示，检测模型可包括第一子模型和第二子模型，第一子模型可包括编码部分(Encoder)，第二子模型可包括解码部分(Decoder)。其中，第一子模型的输入信息为检测模型的输入信息(也即，待检测图像)，第一子模型的输出信息为第二子模型的输入信息(也即，待检测图像的最终图像特征)，第二子模型的输出信息为检测模型的输出信息(也即，待检测图像中各像素点的语义信息)。

首先来说第一子模型。

第一子模型用于提取待检测图像的最终图像特征，可包括卷积神经网络(Convolutional Neural Networks，CNN)。第一子模型包括若干第一隐层，各第一隐层按第一指定顺序排列，每个第一隐层的输入为前一个第一隐层的输出。在本说明书中，可将待检测图像输入第一子模型，并通过第一子模型中各第一隐层，提取待检测图像的最终图像特征。

针对各第一隐层，可确定该第一隐层的卷积核的信息，根据卷积核的信息，对前一个第一隐层的输出信息进行卷积，得到该第一隐层输出的中间图像特征；并且，根据若干个预设的卷积扩张率，对卷积核进行扩张，得到各空洞卷积核；针对各空洞卷积核，根据该空洞卷积核的信息以及中间图像特征，得到该空洞卷积核对应的图像特征；对各空洞卷积核对应的图像特征进行处理，得到该第一隐层输出的最终图像特征。

具体的，针对各第一隐层，可设该第一隐层的卷积核尺寸等信息，并通过该卷积核，对前一个第一隐层的输出信息进行卷积，得到中间图像特征。在空洞空间卷积池化金字塔(Atrous Spatial Pyramid Pooling，ASPP)中，可设置若干个卷积扩张率(rate)的取值，根据rate的不同取值，对卷积核进行扩张，可得到rate的不同取值对应的空洞卷积核，针对各空洞卷积核，根据该空洞卷积核的信息，对中间图像特征进行卷积，可得到该空洞卷积核对应的图像特征。其中，采用空洞卷积的方式，可在保持中间图像特征的当前分辨率的情况下增加感受野，rate的取值不同，特征图中的像素点在待检测图像上映射的区域大小(也即，感受野)不同，具体表现为rate取值越大，感受野越大，rate取值越多，越能得到不同尺度下的图像信息。在得到不同空洞卷积核对应的图像特征后，在特征金字塔注意力机制(Feature Pyramid Attention，FPA)中可对各空洞卷积核对应的图像特征进行融合，例如，可在各空洞卷积核对应的图像特征中，选择若干个空洞卷积核对应的图像特征进行相加等操作，从而得到该第一隐层输出的最终图像特征。

需要说明的是，将待检测图像输入第一子模型后，通过在第一指定顺序中排序靠前的第一隐层，得到待检测图像的低纬度特征，通过在第一指定顺序中排序靠后的第一隐层，得到待检测图像的高纬度特征，其中，低纬度特征可表征待检测图像的细节信息，例如，线条、形状等，高纬度特征可表征待检测图像的语义信息。

另外，在通过在第一指定顺序中排序靠前的第一隐层时，通过设置该第一隐层的参数，以使该第一隐层对待检测图像进行尺寸缩小且增加维度的操作，例如，输入该第一隐层的待检测RGB图像的尺寸为512*512*3，通过该第一隐层的处理，可得到该第一隐层输出的尺寸为128*128*256的图像特征。通过对待检测图像的尺寸缩小以及增加维度操作，可使得在尽可能保留待检测图像的图像信息的基础上减少计算量。相对于现有的语义分割网络而言，本说明书实施例提供的检测模型可采用浅层设计，使得检测模型的处理速度加快。

然后再来说第二子模型。

第二子模型用于根据待检测图像的最终图像特征，确定待检测图像中各像素点的语义信息。第二子模型包括若干第二隐层，各第二隐层按第二指定顺序排列，每个第二隐层的输入为前一个第二隐层的输出，将最终图像特征输入第二子模型，并通过第二子模型中的各第二隐层对最终图像特征进行处理，得到待检测图像中各像素点的语义信息。

针对每个第二隐层，在通过该第二隐层处理输入该第二隐层的最终图像特征时，可确定与该第二隐层相对应的第一隐层，根据与该第二隐层相对应的第一隐层的特征权重以及该第二隐层，对输入该第二隐层的前一个第二隐层输出的所述最终图像特征进行处理。

具体的，在通过第二子模型得到各像素点的语义信息时，由于输入第二子模型的最终图像特征为高纬度特征，在高纬度特征中可能表现出目标的语义信息，而在低纬度特征中可能表现出目标的细节信息，因此，需要通过低纬度特征来指导高纬度特征进行学习，从而使检测模型更有重点的学习目标的特征。例如，高纬度特征中可表现出目标的种类信息，而低纬度特征中可表现出构成目标的线条等信息(或者，位置信息)。

因此，在第一子模型的各第一隐层中，可选择若干个第一隐层，按照选择的各第一隐层在第一指定顺序中的位置的相反顺序，确定第二指定顺序中每个第二隐层相对应的第一隐层。这里隐含指出，第二隐层的数量与选择的第一隐层的数量相同，例如，可在第一子模型中按照第一指定顺序选择第一个第一隐层、第三个第一隐层、第五个第一隐层，则按照第二指定顺序，第一个第二隐层相对应的第一隐层为第五个第一隐层，第二个第二隐层相对应的第一隐层为第三个第一隐层，第三个第二隐层相对应的第一隐层为第一个第一隐层。

在确定出每个第二隐层相对应的第一隐层后，针对各第二隐层，首先，根据与该第二隐层相对应的第一隐层的特征权重以及与该第二隐层相对应的第一隐层输出的输出信息，确定与该第二隐层相对应的第一隐层的指导图像特征。然后，根据该第二隐层，对输入该第二隐层的前一个第二隐层输出的最终图像特征以及指导图像特征进行处理。

在本说明书中，针对各第二隐层，在该第二隐层与该第二隐层相对应的第一隐层之间，可设置有全局注意力上采样(Global Attention Upsample，GAU)部分。通过GAU部分，可确定该第二隐层相对应的第一隐层的特征权重，将特征权重与该第二隐层相对应的第一隐层的输出信息进行加权，得到指导图像特征，指导图像特征用于帮助高纬度特征(即，输入该第二隐层的前一个第二隐层输出的最终图像特征)恢复图像细节，其中，该第二隐层相对应的第一隐层的输出信息既可以是该第一隐层确定的中间图像特征，也可以是该第一隐层确定的最终图像特征。

在确定该第二隐层相对应的第一隐层的知道图像特征后，可将输入该第二隐层的前一个第二隐层输出的最终图像特征以及指导图像特征进行融合，例如，将输入该第二隐层的前一个第二隐层输出的最终图像特征以及指导图像特征进行相加，以得到该第二隐层输出的最终图像特征。

实施例二

基于上述实施例一提供的检测模型，本说明书提供一种将检测模型应用于目标检测领域的实施例，如图3所示，图3为本说明书实施例提供的一种目标检测的方法的流程图，具体可包括以下步骤：

S100：在无人设备运动的过程中，获取所述图像传感器实时采集的待检测图像。

S102：将所述待检测图像输入预先训练的检测模型，通过所述检测模型的第一子模型，提取所述待检测图像的最终图像特征，通过所述检测模型的第二子模型，对所述最终图像特征进行处理，得到所述待检测图像中各像素点的语义信息。

S104：根据所述待检测图像中各像素点的语义信息，确定所述待检测图像的目标检测结果。

在本说明书中，无人设备主要包括无人车、无人机等智能无人驾驶设备，主要用于代替人工配送物品，例如在大型货物仓储中心运输分拣后的货物，或将货物从某一地点运输到另一地点。在无人设备上，可设置有图像传感器，用于在无人设备运行时实时采集图像。

由于无人设备在运行时需要感知环境的信息，尤其是环境中各障碍物的信息，以规划无人设备自身的轨迹，实现对无人设备的控制。而无人设备在运行时，随着无人设备的移动，周围环境发生变化，因此，无人设备需要实时检测障碍物(即，目标)的信息。在图像传感器采集的实时图像中，可能存在不适合使用矩形的边界框来准确确定的目标，例如，以道路隔离栏为代表的在图像中显示为倾斜长条状目标。

因此，无人设备可通过实施例一中的检测模型，确定图像传感器实时采集的待检测图像中各像素点的语义信息，根据各像素点的语义信息，确定待检测图像的目标检测结果。

首先，由于无人设备在运行时需要实时检测目标的信息，因此，为了加快检测模型的处理速度，可对获取的待检测图像进行预处理。

具体的，根据实际情况，图像传感器实时采集的待检测图像中，上半部分为诸如天空等信息，下半部分为诸如隔离栏等道路信息，因此，可对待检测图像进行裁剪，保留待检测图像的下半部分，并将下半部分待检测图像输入检测模型中。另外，无人设备也可以通过边界框来确定待检测图像中目标的位置，针对诸如隔离栏等无法精确地确定边缘的目标，可将通过边界框确定出的图像部分输入检测模型中。

然后，将待检测图像输入第一子模型中，针对第一子模型的各第一隐层，根据该第一隐层的卷积核信息，确定该第一隐层的中间图像特征，根据该第一隐层的各rate取值，确定每个rate取值对应的图像特征，对各rate取值对应的图像特征进行融合，得到该第一隐层输出的最终图像特征。将第一子模型输出的最终图像特征输入第二子模型中，针对第二子模型的各第二隐层，确定与该第二隐层相对应的第一隐层以及与该第二隐层相对应的第一隐层的特征权重，根据与该第二隐层相对应的第一隐层的权重，确定指导图像特征，从而将指导图像特征以及输入该第二隐层的前一个第二隐层输出的最终图像特征进行融合，得到该第二隐层输出的最终图像特征。从而根据第二子模型，得到待检测图像中各像素点的语义信息。其中，上述部分的详细描述可参考本说明书实施例一中的相关内容。

最后，根据待检测图像中各像素点的语义信息，可将表达同一语义信息的像素点进行分组/分割，得到待检测图像的目标检测结果。

这里需要说明的是，本说明书实施例中的目标，可以是诸如道路隔离栏等形状特殊不适用于边界框描述的目标，也可以是行人、车辆等适用于边界框描述的目标，还可以是诸如地面等其他目标。

在本说明书中，除了可将检测模型应用于运行中的无人设备实时检测障碍物的信息之外，还可将检测模型应用于电子地图的生成，尤其是实时生成电子地图的场景。例如，在路采车上可安装图像传感器，获取图像传感器实时采集的待检测图像，将待检测图像输入检测模型中，得到待检测图像中各像素点的语义信息，从而基于待检测图像中各像素点的语义信息，实时生成电子地图。

实施例三

基于上述实施例一提供的检测模型，本说明书提供一种检测模型的训练方法，如图4所示，图4为本说明书实时例提供的一种训练检测模型的方法流程图，具体可包括以下步骤：

图4为本说明书实施例提供的一种训练检测模型的方法流程图，具体可包括以下步骤：

S200：获取包含标注信息的图像，作为训练样本，所述标注信息包括所述训练样本中组成预设目标的各像素点的信息。

S202：将所述训练样本输入待训练的检测模型，通过所述待训练的检测模型的第一子模型中的各第一隐层，提取所述训练样本的待优化最终图像特征，通过所述待训练的检测模型的第二子模型中的各第二隐层，对所述待优化最终图像特征进行处理，得到所述训练样本的预测结果，所述预测结果包括所述训练样本中组成所述预设目标的各像素点的预测语义信息。

S204：根据所述标注信息以及所述预测结果，对所述待训练的检测模型进行训练。

在本说明书中，可获取包含标注信息的图像，作为训练样本。标注信息可以是训练样本中每个像素点的语义信息，也可以是组成预设目标的各像素点的位置等信息。其中，关于对训练样本的标注的方式，可以是通过人工进行标注，也可以通过现有的目标检测的方式进行标注，本说明书关于对训练样本的标注方式不作限制。

在获取训练样本后，可将训练样本输入待训练的检测模型中的第一子模型，针对第一子模型的各第一隐层，根据该第一隐层的卷积核信息，确定该第一隐层的待优化中间图像特征，根据该第一隐层的各rate取值，确定每个rate取值对应的图像特征，对各rate取值对应的图像特征进行融合，得到该第一隐层输出的待优化最终图像特征。将第一子模型输出的待优化最终图像特征输入待训练的检测模型中的第二子模型中，针对第二子模型的各第二隐层，确定与该第二隐层相对应的第一隐层以及与该第二隐层相对应的第一隐层的特征权重，根据与该第二隐层相对应的第一隐层的权重，确定待优化指导图像特征，从而将待优化指导图像特征以及输入该第二隐层的前一个第二隐层输出的待优化最终图像特征进行融合，得到该第二隐层输出的待优化最终图像特征。从而根据第二子模型，得到训练样本中的预测结果，预测结果可包括训练样本中各像素点的语义信息，或者组成预设目标的各像素点的信息。其中，上述部分的详细描述可参考本说明书实施例一中的相关内容。

在得到预测结果之后，可根据标注信息以及预测结果，确定待训练的检测模型的损失，根据损失，对待训练的检测模型进行训练。

在确定损失时，针对训练样本中的各像素点，根据标注信息以及预测结果，可确定该像素点的标注信息与预测信息之间的差异，作为该像素点对应的差异，根据各像素点对应的差异，确定损失，其中，损失与各像素点对应的差异正相关。例如，可确定各像素点的标注信息与预测信息的交叉熵的和值，作为损失。然后，以损失最小化为优化目标，可采用快速梯度下降等方式调节待训练的检测模型的参数，对待训练的检测模型进行训练。其中，待训练的检测模型的参数可包括各第一隐层中rate的取值、特征权重等参数。训练后的检测模型可用于实时目标检测、实时生成电子地图等场景中。

本说明书提供的上述目标检测的方法或者训练检测模型的方法，具体可应用于使用无人设备进行配送的领域，例如，使用无人设备进行快递、外卖等配送的场景。具体的，在上述的场景中，可使用多个无人设备所构成的无人驾驶车队进行配送。

基于上述内容所述的目标检测的方法，本说明书实施例还对应提供一种目标检测的装置的结构示意图，如图5所示。

图5为本说明书实施例提供的一种目标检测的装置的结构示意图，所述装置包括：

获取模块301，用于在无人设备运动的过程中，获取所述图像传感器实时采集的待检测图像；

输入模块302，用于将所述待检测图像输入预先训练的检测模型，通过所述检测模型的第一子模型，提取所述待检测图像的最终图像特征，通过所述检测模型的第二子模型，对所述最终图像特征进行处理，得到所述待检测图像中各像素点的语义信息；

确定模块303，用于根据所述待检测图像中各像素点的语义信息，确定所述待检测图像的目标检测结果。

由于可通过检测模型确定出待检测图像中各像素点的语义信息，从而基于各像素点的语义信息得到的待检测图像的目标检测结果，更加准确的确定出目标在待检测图像中的区域，相对于现有的使用检测框确定出的目标检测结果，减少了其他非目标的信息，达到更加精确的效果。

可选地，所述第一子模型包括若干第一隐层；各第一隐层按第一指定顺序排列；每个第一隐层的输入为前一个第一隐层的输出；所述第二子模型包括若干第二隐层；各第二隐层按第二指定顺序排列；每个第二隐层的输入为前一个第二隐层的输出；

所述输入模块302具体用于，将所述待检测图像输入所述第一子模型，并通过所述第一子模型中各第一隐层，提取所述最终图像特征；将所述最终图像特征输入所述第二子模型，并通过所述第二子模型中的各第二隐层对所述最终图像特征进行处理，得到所述待检测图像中各像素点的语义信息；其中，针对每个第二隐层，通过该第二隐层处理输入该第二隐层的最终图像特征，包括：在通过该第二隐层处理所述最终图像特征时，确定与该第二隐层相对应的第一隐层，根据与该第二隐层相对应的第一隐层的特征权重以及该第二隐层，对输入该第二隐层的前一个第二隐层输出的所述最终图像特征进行处理。

可选地，所述第一子模型包括卷积神经网络模型CNN；

所述输入模块302具体用于，针对各第一隐层，确定该第一隐层的卷积核的信息；根据所述卷积核的信息，对前一个第一隐层的输出信息进行卷积，得到该第一隐层输出的中间图像特征；并且，根据若干个预设的卷积扩张率，对所述卷积核进行扩张，得到各空洞卷积核；针对各空洞卷积核，根据该空洞卷积核的信息以及所述中间图像特征，得到该空洞卷积核对应的图像特征；对各空洞卷积核对应的图像特征进行处理，得到该第一隐层输出的所述最终图像特征。

可选地，所述输入模块302具体用于，根据与该第二隐层相对应的第一隐层的特征权重以及与该第二隐层相对应的第一隐层输出的输出信息，确定与该第二隐层相对应的第一隐层的指导图像特征；根据该第二隐层，对输入该第二隐层的前一个第二隐层输出的所述最终图像特征以及所述指导图像特征进行处理。

可选地，所述输入模块302具体用于，对所述待检测图像进行裁剪；将裁剪后的所述待检测图像输入所述检测模型。

可选地，所述装置还包括第一训练模块304；

所述第一训练模块304具体用于，获取包含标注信息的图像，作为训练样本，所述标注信息包括所述训练样本中组成预设目标的各像素点的信息；将所述训练样本输入待训练的检测模型，通过所述待训练的检测模型的第一子模型中的各第一隐层，提取所述训练样本的待优化最终图像特征，通过所述待训练的检测模型的第二子模型中的各第二隐层，对所述待优化最终图像特征进行处理，得到所述训练样本的预测结果，所述预测结果包括所述训练样本中组成所述预设目标的各像素点的预测语义信息；根据所述标注信息以及所述预测结果，对所述待训练的检测模型进行训练。

可选地，所述第一训练模块304具体用于，针对所述训练样本中的各像素点，根据所述标注信息以及所述预测结果，确定该像素点的标注信息与预测信息之间的差异，作为该像素点对应的差异；根据各像素点对应的差异，确定损失；根据所述损失，对所述待训练的检测模型进行训练。

基于上述内容所述的训练检测模型的方法，本说明书实施例还对应提供一种训练检测模型的装置的结构示意图，如图6所示。

图6为本说明书实施例提供的一种训练检测模型的装置的结构示意图，所述装置包括：

获取样本模块401，用于获取包含标注信息的图像，作为训练样本，所述标注信息包括所述训练样本中组成预设目标的各像素点的信息；

预测模块402，用于将所述训练样本输入待训练的检测模型，通过所述待训练的检测模型的第一子模型中的各第一隐层，提取所述训练样本的待优化最终图像特征，通过所述待训练的检测模型的第二子模型中的各第二隐层，对所述待优化最终图像特征进行处理，得到所述训练样本的预测结果，所述预测结果包括所述训练样本中组成所述预设目标的各像素点的预测语义信息；

第二训练模块403，用于根据所述标注信息以及所述预测结果，对所述待训练的检测模型进行训练。

本说明书实施例还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述内容所述的目标检测的方法或者训练检测模型的方法。

基于上述内容所述的目标检测的方法或者训练检测模型的方法，本说明书实施例还提出了图7所示的电子设备的示意结构图。如图7，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述内容所述的目标检测的方法或者训练检测模型的方法。

当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种目标检测的方法，其特征在于，无人设备上具有图像传感器，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述第一子模型包括若干第一隐层；各第一隐层按第一指定顺序排列；每个第一隐层的输入为前一个第一隐层的输出；

3.如权利要求2所述的方法，其特征在于，所述第一子模型包括卷积神经网络模型CNN；

针对各第一隐层，确定该第一隐层的卷积核的信息；

4.如权利要求2所述的方法，其特征在于，根据与该第二隐层相对应的第一隐层的特征权重以及该第二隐层，对输入该第二隐层的前一个第二隐层输出的所述最终图像特征进行处理，具体包括：

5.如权利要求1所述的方法，其特征在于，将所述待检测图像输入预先训练的检测模型，具体包括：

对所述待检测图像进行裁剪；

将裁剪后的所述待检测图像输入所述检测模型。

6.如权利要求3所述的方法，其特征在于，预先训练所述检测模型，具体包括：

7.如权利要求6所述的方法，其特征在于，根据所述标注信息以及所述预测结果，对所述待训练的检测模型进行训练，具体包括：

根据各像素点对应的差异，确定损失；

根据所述损失，对所述待训练的检测模型进行训练。

8.一种目标检测的装置，其特征在于，所述装置所在的无人设备上具有图像传感器，所述装置包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1-7任一所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法。