CN113762248B

CN113762248B - 一种目标落地检测方法、装置、电子设备和存储介质

Info

Publication number: CN113762248B
Application number: CN202110077436.0A
Authority: CN
Inventors: 谷爱国
Original assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Current assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2024-05-24
Anticipated expiration: 2041-01-20
Also published as: CN113762248A

Abstract

本发明实施例公开了一种目标落地检测方法、装置、电子设备和存储介质，所述方法包括：确定原始图像中检测目标对应的第一候选框；对第一候选框的大小进行扩展，获得第二候选框，以使第二候选框包含检测目标周围环境的环境图像；基于空间注意力机制根据第二候选框内的图像确定检测目标是否位于地面上。通过本发明实施例的技术方案，不仅实现了端到端的落地检测，还节省了人工标注工作量，降低了计算复杂度，提高了落地检测的实时性与准确性。

Description

一种目标落地检测方法、装置、电子设备和存储介质

技术领域

本发明实施例涉及目标检测与识别技术领域，尤其涉及一种目标落地检测方法、装置、电子设备和存储介质。

背景技术

随着人工智能技术的迅猛发展，人们的生活正在朝着更加智能化的方向前进。视频监控作为安全生产系统的重要组成部分，借助人工智能、深度学习等技术，能够实时监控分析一些场景下的各种事件，有效降低各类不合规事件的发生。在物流站点，每天都会有数量巨大的包裹发送，由于缺乏有效的监控手段，大量的软包裹(包括信封件)被随意散落在地面，直接和地面接触，导致大量的软包裹损坏。不仅给客户带来较差的体验，还给物流公司造成巨大的经济损失。因此需要一种可以有效检测软包裹是否落地的方法来有效监控上述事件的发生，及时采取措施将其放到规范的地方以避免在地面上被损坏。

目前常用的检测方法是：首先通过图像分割技术将软包裹和地面分割出来，然后设计额外的判定逻辑判定软包裹是否被放置在地面。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

图像分割需要大量的以像素为单位的标注样本，像素级的标注工作量庞大，人力成本高；图像分割算法中涉及到的编码网络和解码网络的复杂度较高，计算量大，无法满足实时性的要求；对于难以分辨的类别错误率较高，例如箱体上的面单和信封件非常相似，难以分辨；需要额外的判定逻辑判定软包裹是否被放置在地面，无法实现端到端的判定。

发明内容

本发明实施例提供了一种目标落地检测方法、装置、电子设备和存储介质，不仅实现了端到端的落地检测，还节省了人工标注工作量，降低了计算复杂度，提高了落地检测的实时性与准确性。

第一方面，本发明实施例提供了一种目标落地检测方法，该方法包括：

确定原始图像中检测目标对应的第一候选框；

对所述第一候选框的大小进行扩展，获得第二候选框，以使所述第二候选框包含所述检测目标周围环境的环境图像；

基于空间注意力机制根据所述第二候选框内的图像确定所述检测目标是否位于地面上。

第二方面，本发明实施例还提供了一种目标落地检测装置，该装置包括：

确定模块，用于确定原始图像中检测目标对应的第一候选框；

扩展模块，用于对所述第一候选框的大小进行扩展，获得第二候选框，以使所述第二候选框包含所述检测目标周围环境的环境图像；

检测模块，用于基于空间注意力机制根据所述第二候选框内的图像确定所述检测目标是否位于地面上。

第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所提供的目标落地检测方法步骤以及步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的目标落地检测方法步骤以及步骤。

本发明实施例的技术方案，通过确定原始图像中检测目标对应的第一候选框，并第一候选框的大小进行扩展，获得第二候选框，进而基于空间注意力机制根据第二候选框内的图像确定检测目标是否位于地面上，解决了图像分割时，人工标注的人力成本高，图像分割算法计算复杂度高且准确率低的问题，以及无法实现端到端的落地检测的问题，实现了端到端的落地检测，并且节省了人工标注工作量，降低了计算复杂度，提高了落地检测的实时性与准确性。

附图说明

图1为本发明实施例一提供的一种目标落地检测方法的流程图；

图2为本发明实施例一提供的一种SAM模型的原理示意图；

图3为本发明实施例二提供的一种目标落地检测方法的流程图；

图4为本发明实施例二提供的一种目标落地检测模型的原理架构示意图；

图5为本发明实施例二提供的一种目标落地检测模型训练流程图；

图6为本发明实施例二提供的一种目标落地检测模型预测流程图；

图7为本发明实施例三提供的一种目标落地检测装置的结构示意图；

图8为本发明实施例四提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种目标落地检测方法的流程图，本实施例可适用于对检测目标实现端到端的落地检测的情况。该方法可以由目标落地检测装置来执行，该装置可以由软件和/或硬件的方式来实现。

如图1所示，该方法具体包括以下步骤：

S110、确定原始图像中检测目标对应的第一候选框。

其中，检测目标是摄像装置拍摄范围内的目标物体，在本实施例中，检测目标可以是软包裹。原始图像是摄像装置拍摄的图像，原始图像中包括一个或多个检测目标。第一候选框是原始图像中包括检测目标的选框。需要说明的是，第一候选框的数量与检测目标的数量一致。

具体的，在摄像装置拍摄的原始图像中，通过目标检测算法可以确定原始图像中的检测目标，并为检测目标添加第一候选框，以使第一候选框中准确包括检测目标。

S120、对第一候选框的大小进行扩展，获得第二候选框，以使第二候选框包含检测目标周围环境的环境图像。

其中，第二候选框可以是在第一候选框的基础上，进行扩展得到的选框。环境图像可以是检测目标周围环境的图像，例如：地面，其他包裹等。

具体的，在确定第一候选框的基础上，对第一候选框向选框外部扩展，可以是分别向上，下，左以及右分别扩展预设距离。预设距离可以是预先设定的固定距离，也可以是根据第一候选框的大小确定的距离值。将经过扩展后的第一候选框作为第二候选框，第二候选框中除了包括第一候选框中的检测目标，还包含检测目标之外的信息，也就是包括检测目标的周围环境信息，例如：包括检测目标周围的地面，墙壁，其他包裹等信息。对第一候选框的大小进行扩展的目的是为了获取检测目标周围的环境信息，以参考检测目标周围的环境信息对检测目标的类别进行识别，提高识别精度。例如检测目标为信封件时，若摄像头离得较远，所拍摄到的原始图像中信封件与箱体包裹上的面单的外观非常相似，难以分辨，为了提高信封件的识别精度，对包括信封件的第一候选框进行扩展，以获取信封件周围的环境信息，并参考周围的环境信息对信封件进行识别，例如箱体包裹上的面单的周围环境信息一定包括箱体，而信封件周围的环境信息不一定包括箱体。

S130、基于空间注意力机制根据第二候选框内的图像确定检测目标是否位于地面上。

其中，空间注意力机制(Spatial Attention Mechanism，SAM)是用于获取特征的模型，其可以提取特征空间中重要程度大的信息，减少重要程度小的信息，使算法更加关注检测目标周围环境的特征，从而更加有效地判断检测目标是否在地面上。SAM模型的原理示意图如图2所示，将特征图输入至基于通道的全局最大池化层以及基于通道的全局平均池化层中，将上述两个池化层输出的结果进行合并操作，并将合并后的结果进行卷积处理，进一步经过S型函数(Sigmoid)以生成空间注意力特征(Spatial Attention Feature)。将空间注意力特征与特征图做乘法运算，得到最终的特征结果。

具体的，根据空间注意力机制可以提取第二候选框内的图像的特征数据，将特征数据输入用于检测目标是否位于地面上的网络中可以得到结果，可选的，网络可以是卷积神经网络等深度学习网络。

本实施例的技术方案，通过确定原始图像中检测目标对应的第一候选框，并第一候选框的大小进行扩展，获得第二候选框，进而基于空间注意力机制根据第二候选框内的图像确定检测目标是否位于地面上，解决了图像分割时，人工标注的人力成本高，图像分割算法计算复杂度高且准确率低的问题，以及无法实现端到端的落地检测的问题，实现了端到端的落地检测，并且节省了人工标注工作量，降低了计算复杂度，提高了落地检测的实时性与准确性。

实施例二

图3为本发明实施例二提供的一种目标落地检测方法的流程图，本实施例在上述实施例的基础上，本实施例对第一候选框的确定方法，第一候选框扩展为第二候选框的方法以及确定检测目标是否位于地面上的方法给出了具体实施方式。其中，与上述实施例相同或相应的术语的解释在此不再赘述。

参见图3，本实施例提供的具体包括以下步骤：

S210、将原始图像输入至预设区域生成网络RPN，获得检测目标对应的第一候选框。

其中，区域生成网络(Region Proposal Network，RPN)是用来提取候选框的网络。需要说明的是，原始图像经过预设RPN可能得到一个或多个第一候选框。

其中，预设RPN基于训练数据进行预先训练，以固定RPN的网络参数，其中，训练数据包括标记有检测目标对应的检测框以及结果信息的历史图像，结果信息包括位于地面和不位于地面。本方案中的训练数据只需要标注检测目标的位置和结果信息，不需要以像素为单位对检测目标的每个区域进行详细标注，因此可以节省大量的人工标注成本。

具体的，将原始图像T输入至预设RPN网络，经过预设RPN网络处理后可以得到检测目标对应的第一候选框，具体的实现公式如下：

B＝RPN(w，T)

其中，RPN表示预设区域生成网络，w表示预设RPN网络中的参数，T表示原始图像，B表示第一候选框，B∈R^n×4，n表示第一候选框的数量，每个第一候选框利用左上顶点和右下顶点的坐标值进行表示。

示例性的，第一候选框B包括第一候选框的左上顶点的横坐标和纵坐标以及右下顶点的横坐标和纵坐标。

S220、对第一候选框的大小进行扩展，获得第二候选框。

具体的，为了获取包括检测目标以及检测目标周围环境信息的候选框，可以对检测目标所对应的第一候选框进行扩展，扩展的大小可以是预先设定的，也可以是根据第一候选框的大小确定的。第一候选框以及第二候选框的形状为矩形。

可选的，对第一候选框进行扩展得到第二候选框的步骤如下：

步骤一、确定第一候选框的左上顶点和右下顶点的坐标值。

具体的，根据RPN输出的第一候选框，可以确定第一候选框的左上顶点的横坐标和纵坐标以及右下顶点的横坐标和纵坐标。

示例性的，第一候选框B的左上顶点的横坐标为x₀，纵坐标为y₀，第一候选框B的右下顶点的横坐标为x₁，纵坐标为y₁：

x₀＝B[:,0]

y₀＝B[:,1]

x₁＝B[:,2]

y₁＝B[:,3]

进一步的，根据上述第一候选框的左上顶点和右下顶点的坐标值，还可以确定第一候选框的宽和高：W＝x₁-x₀，H＝y₁-y₀，其中，W表示第一候选框的宽，H表示第一候选框的高。根据第一候选框的宽和高可以更清楚的确定第一候选框的大小。

步骤二、将左上顶点的坐标值向左上移动预设距离，获得移动后的左上顶点的坐标值。

具体的，将第一候选框的左上顶点的横坐标减去预设距离，以将第一候选框向左扩展，将第一候选框的左上顶点的纵坐标加上预设距离，以将第一候选框向上扩展，得到移动后的左上顶点的坐标值，即第二候选框的左上顶点的坐标值。预设距离可以是预先设置的固定值，也可以是按第一候选框大小确定的，例如：第一候选框宽度的一半或第一候选框高度的一半。

示例性的，第一候选框左上顶点的横坐标为x₀，纵坐标为y₀，第一候选框的宽度为W，高度为H，向左扩展的宽度eW为第一候选框宽度的一半，即eW＝0.5×W，向上扩展的高度eH为第一候选框高度的一半，即eH＝0.5×H。进而，可以确定第二候选框的左上顶点的坐标值。记第二候选框B’的左上顶点的横坐标为x₀′＝B′[:,0]＝x₀-eW，纵坐标为y₀′＝B′[:,1]＝y₀+eH。可以确定第二候选框的左上顶点的坐标值为(x₀-eW，y₀+eH)。

步骤三、将右下顶点的坐标值向右下移动预设距离，获得移动后的右下顶点的坐标值。

具体的，将第一候选框的右下顶点的横坐标加上预设距离，以将第一候选框向右扩展，将第一候选框的右下顶点的纵坐标减去预设距离，以将第一候选框向下扩展，得到移动后的右下顶点的坐标值，即第二候选框的右下顶点的坐标值。预设距离可以是预先设置的固定值，也可以是按第一候选框大小确定的，例如：第一候选框宽度的一半或第一候选框高度的一半。

示例性的，第一候选框右下顶点的横坐标为x₁，纵坐标为y₁，第一候选框的宽度为W，高度为H，向右扩展的宽度eW为第一候选框宽度的一半，即eW＝0.5×W，向下扩展的高度eH为第一候选框高度的一半，即eH＝0.5×H。进而，可以确定第二候选框的右下顶点的坐标值。记第二候选框B’的右下顶点的横坐标为x₁′＝B′[:,2]＝x₁+eW，纵坐标为y₁′＝B′[:,3]＝y₁-eH。可以确定第二候选框的右下顶点的坐标值为(x₁+eW，y₁-eH)。

步骤四、根据移动后的左上顶点的坐标值以及移动后的右下顶点的坐标值确定第二候选框。

具体的，由于第二候选框为矩形，因此根据移动后的左上顶点的坐标值以及移动后的右下顶点的坐标值，可以确定第二候选框的四个顶点的坐标值，以得到第二候选框。

示例性的，第二候选框的左上顶点的坐标值为(x₀′，y₀′)，右下顶点的坐标值为(x₁′，y₁′)。可以确定，第二候选框的左下顶点的坐标值为(x₀′，y₁′)，右上顶点的坐标值为(x₁′，y₀′)。根据第二候选框的四个顶点的坐标值，可以确定一个矩形框，将该矩形框作为第二候选框。

基于RPN提取第一候选框，并且对第一候选框进行扩展得到第二候选框，使得第二候选框中包含检测目标周围的环境信息。这样做的好处在于：可以实现端到端的预测检测目标所处的环境信息，并且，可以降低仅根据RPN进行检测目标识别时的误识别情况，比如，当摄像头较远时，信封件和包装箱体上的面单的外观是很难分辨的，利用扩展的区域就可以根据检测目标周围的环境进行综合判断，例如：包装箱体上面单的周围是包含箱体信息的。

S230、将第二候选框内的图像输入至第一预测分支，以通过第一预测分支确定检测目标的类别。

其中，检测目标的类别可以是软包裹和非软包裹两种。

具体的，为了确定检测目标的类别，可以将原始图像中第二候选框中的信息通过感兴趣区域池化(Region of Interest Pooling，ROI Pooling)进行提取，提取的内容可以包括检测目标以及检测目标周围环境的特征信息。进而，将提取出的包含检测目标以及检测目标周围环境的特征信息输入至第一预测分支，以确定检测目标的类别。

可选的，第一预测分支包括级联的1*1的卷积神经网络层、全局池化层和第一分类层。

具体的，将经过ROI Pooling处理的特征信息输入至1*1的卷积神经网络层得到第一分类特征，卷积神经网络层的维度为类别数，具体是“软包裹”和“非软包裹”两种类别。例如：将通过ROI Pooling处理后的特征信息记为E₁，第一分类特征记为C₁，可以得到C₁＝conv_1*1(E₁)。进而，将卷积神经网络层输出的第一分类特征输入至全局池化层和第一分类层，以得到检测目标的类别，即检测目标是否为软包裹。

S240、当检测目标的类别为预设类别时，将第一预测分支输出的类别预测结果以及第二候选框内的图像输入至基于空间注意力机制的第二预测分支，以通过第二预测分支确定检测目标是否位于地面上。

其中，预设类别可以预先设置的类别，例如：检测目标是软包裹。

具体的，为了判断检测目标是否位于地面上，可以将第一预测分支确定的检测目标的类别，以及第二候选框中的信息通过ROI Pooling进行提取后的特征信息输入至第二预测分支，以确定检测目标是否位于地面上。

可选的，第二预测分支包括级联的特征提取层、基于空间注意力机制的特征优化层、1*1的卷积神经网络层、全局池化层和第二分类层。

具体的，将经过ROI Pooling处理的特征信息以及该特征信息所对应的第一预测分支的分类结果输入值级联的特征提取层，以提取检测目标的类别为软包裹的特征信息，即包含检测目标以及检测目标周围环境的特征信息。

示例性的，将通过ROI Pooling处理后的特征信息E₁输入至特征提取(Select f(·))模块。

Select f(·)模块的作用是，当且检测目标的类别为软包裹时的特征信息E₁，提取特征信息E₁作为特征提取信息E₂，且此时E₂＝E₁，并进行后续的分类操作。

进一步的，将特征提取信息输入基于SAM的特征优化层，可以得到提高重要程度大的特征信息，并降低重要程度小的特征信息，以得到优化特征。

示例性的，根据基于空间注意力机制的特征优化层确定特征提取信息E₂的注意力权重M，将注意力权重与对应的特征提取信息进行乘法运算得到优化特征E₃，以增大注意力权重较大的特征提取信息，减小注意力权重较小的特征提取信息

M＝sigmoid(conv_3*3(concat(AvgPool(e₂),MaxPool(E₂))))

E₃(c,i,j)＝M(i,j)·E₂(c,i,j)

其中，i以及j表示图像信息的坐标，c表示第c个通道。

进而，将优化特征输入至1*1的卷积神经网络层得到第二分类特征，卷积神经网络层的维度为类别数，类别数可以是2等。例如：将优化特征记为E₃，第二分类特征记为C₂，可以得到C₂＝conv_1*1(E₃)。进而，将卷积神经网络层的输出的第二分类特征输入至全局池化层和第二分类层，以得到分类结果，即检测目标是否位于地面上。

需要说明的是，第一预测分支和第二预测分支可以组成周边检测(SurroundingDecision)模块，以实现端到端的快速预测。第一预测分支可以预测检测目标是否为软包裹，第二预测分支可以预测检测目标是否位于地面上。第二预测分支可以结合检测目标周围环境的环境图像，从而更加有效地判断检测目标是否位于地面上，并且，将第一预测分支的输出结果作为第二预测分支的输入，可以在确定检测目标为软包裹的基础上进一步判断检测目标是否位于地面上，进而提高预测的效率以及准确度。

如图4所示，本发明实施例中，先将原始图像输入至RPN中，经过神经网络模型(Backbone)，特征图金字塔网络颈部模型(FPN Neck)以及RPN头部模型(RPN Head)得到第一候选框，将第一候选框经过扩展得到第二候选框。将第二候选框中的信息通过感兴趣区域池化(ROI Pooling)进行提取，将提取出的包含检测目标的特征信息分别输入至周边检测(Surrounding Decision)的预测分支中。其中，预测分支包含两个预测分支，第一预测分支用于预测第二候选框中的检测目标是否是软包裹，第二预测分支用于根据第一预测分支的分类结果来进一步判断软包裹是否位于地面上。第一预测分支将ROI Pooling提取出的特征信息输入至卷积神经网络(Convolutional Neural Networks，CNN)中，并将网络输出结果经过全局池化层以及第一分类层的处理，以确定检测目标是否是软包裹。在第二预测分支中，利用第一预测分支的分类结果，根据ROI Pooling提取出的特征信息进行特征提取(Select)，以得到第一预测分支的分类结果为软包裹的特征提取信息。并且，应用了空间注意力机制(SAM)有效提取特征提取信息的重要信息，忽略次要信息，以提高模型的准确率。将SAM输出的优化特征输入至CNN中，并将网络输出结果经过全局池化层以及第二分类层，以确定检测目标是否位于地面上。

需要说明的是，使用第一预测分支对检测目标进一步识别，是因为RPN确定检测目标时存在误检的可能性，第一预测分支可以进一步利用目标周围区域对检测目标进行再次确认，以提高准确率，降低误检率。同时，将第一预测分支的分类结果输入至第二预测分支，可以使第二预测分支只对软包裹进行分类判断，判断软包裹是否位于地面上，能够有效提高判断效率及准确度。

为了使目标落地检测模型的检测效果准确且稳定，可以在目标落地检测模型使用前对模型进行训练，训练流程如图5所示。采集历史监控画面，选择历史监控画面中的软包裹图片，对每个软包裹区域进行标记，标记内容包括候选框和类别，其中，类别包括位于地面和不位于地面两类。利用标记数据对RPN进行训练，固定RPN参数，对周边检测模块中的第一预测分支进行训练，其中，损失函数可以采用交叉熵。进而，固定RPN参数以及周边检测模块中的第一预测分支，对周边检测模块中的第二预测分支进行训练，其中，损失函数可以采用交叉熵。通过上述方式，可以得到训练后的模型。

目标落地检测模型预测的流程如图6所示，在模型训练完成后，可以将模型部署在云端。获取各个仓库和/或站点的监控摄像头下的图片，使用模型预测，并返回预测结果。其中，预测结果包括软包裹是否位于地面上。

本实施例的技术方案，通过RPN获取检测目标对应的第一候选框，并对第一候选框进行扩展得到第二候选框，进而通过第一预测分支确定检测目标的类别，并通过第二预测分支确定检测目标是否位于地面上，解决了图像分割时，人工标注的人力成本高，图像分割算法计算复杂度高且准确率低的问题，以及无法实现端到端的落地检测的问题，实现了端到端的落地检测，并且节省了人工标注工作量，降低了计算复杂度，提高了落地检测的实时性与准确性。

以下是本发明实施例提供的目标落地检测装置的实施例，该装置与上述各实施例的目标落地检测方法属于同一个发明构思，在目标落地检测装置的实施例中未详尽描述的细节内容，可以参考上述目标落地检测方法的实施例。

实施例三

图7为本发明实施例三提供的一种目标落地检测装置的结构示意图，该装置具体包括：确定模块310，扩展模块320以及检测模块330。

其中，确定模块310，用于确定原始图像中检测目标对应的第一候选框；扩展模块320，用于对第一候选框的大小进行扩展，获得第二候选框，以使第二候选框包含检测目标周围环境的环境图像；检测模块330，用于基于空间注意力机制根据第二候选框内的图像确定检测目标是否位于地面上。

在上述各技术方案的基础上，所述确定模块310还包括：

第一候选框获得单元，用于将原始图像输入至预设区域生成网络RPN，获得检测目标对应的第一候选框。

在上述各技术方案的基础上，所述预设区域生成网络RPN基于训练数据预先训练获得，所述训练数据包括标记有检测目标对应的检测框以及结果信息的历史图像，所述结果信息包括位于地面和不位于地面。

在上述各技术方案的基础上，所述扩展模块320还包括：

确坐标值确定单元，用于确定第一候选框的左上顶点和右下顶点的坐标值；

左上顶点确定单元，用于将左上顶点的坐标值向左上移动预设距离，获得移动后的左上顶点的坐标值；

右下顶点确定单元，用于将右下顶点的坐标值向右下移动预设距离，获得移动后的右下顶点的坐标值；

第二候选框确定单元，用于根据移动后的左上顶点的坐标值以及移动后的右下顶点的坐标值确定第二候选框；

其中，第一候选框以及第二候选框的形状为矩形。

在上述各技术方案的基础上，所述检测模块330还包括：

类别确定单元，用于将所述第二候选框内的图像输入至第一预测分支，以通过第一预测分支确定检测目标的类别；

地面检测单元，用于当检测目标的类别为预设类别时，将第一预测分支输出的类别预测结果以及所述第二候选框内的图像输入至基于空间注意力机制的第二预测分支，以通过第二预测分支确定检测目标是否位于地面上。

在上述各技术方案的基础上，第一预测分支包括级联的1*1的卷积神经网络层、全局池化层和第一分类层。

在上述各技术方案的基础上，第二预测分支包括级联的特征提取层、基于空间注意力机制的特征优化层、1*1的卷积神经网络层、全局池化层和第二分类层。

本发明实施例所提供的目标落地检测装置可执行本发明任意实施例所提供的目标落地检测方法，具备执行目标落地检测方法相应的功能模块和有益效果。

实施例四

图8为本发明实施例四提供的一种电子设备的结构示意图。图8示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图8显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，电子设备12以通用计算电子设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及目标落地检测方法，例如实现本发实施例所提供的一种目标落地检测方法步骤。

所述目标落地检测方法包括：

确定原始图像中检测目标对应的第一候选框；

对第一候选框的大小进行扩展，获得第二候选框，以使第二候选框包含检测目标周围环境的环境图像；

基于空间注意力机制根据第二候选框内的图像确定检测目标是否位于地面上。

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供的目标落地检测方法的技术方案。

实施例五

本实施例五提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的目标落地检测方法步骤，所述目标落地检测方法包括：

确定原始图像中检测目标对应的第一候选框；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种目标落地检测方法，其特征在于，包括：

确定原始图像中检测目标对应的第一候选框；

将所述第二候选框内的图像输入至第一预测分支，以通过所述第一预测分支确定所述检测目标的类别；

当所述检测目标的类别为预设类别时，将所述第一预测分支输出的类别预测结果以及所述第二候选框内的图像输入至基于空间注意力机制的第二预测分支，以通过所述第二预测分支确定所述检测目标是否位于地面上，所述空间注意力机制用于关注检测目标周围环境的特征。

2.根据权利要求1所述的方法，其特征在于，所述确定原始图像中检测目标对应的第一候选框，包括：

将所述原始图像输入至预设区域生成网络RPN，获得所述检测目标对应的第一候选框。

3.根据权利要求2所述的方法，其特征在于，所述预设区域生成网络RPN基于训练数据预先训练获得，所述训练数据包括标记有检测目标对应的检测框以及结果信息的历史图像，所述结果信息包括位于地面和不位于地面。

4.根据权利要求1所述的方法，其特征在于，所述对所述第一候选框的大小进行扩展，获得第二候选框，包括：

确定所述第一候选框的左上顶点和右下顶点的坐标值；

将所述左上顶点的坐标值向左上移动预设距离，获得移动后的左上顶点的坐标值；

将所述右下顶点的坐标值向右下移动预设距离，获得移动后的右下顶点的坐标值；

根据移动后的左上顶点的坐标值以及移动后的右下顶点的坐标值确定所述第二候选框；

其中，所述第一候选框以及所述第二候选框的形状为矩形。

5.根据权利要求1所述的方法，其特征在于，所述第一预测分支包括级联的1*1的卷积神经网络层、全局池化层和第一分类层。

6.根据权利要求1所述的方法，其特征在于，所述第二预测分支包括级联的特征提取层、基于空间注意力机制的特征优化层、1*1的卷积神经网络层、全局池化层和第二分类层。

7.一种目标落地检测装置，其特征在于，包括：

检测模块，用于将所述第二候选框内的图像输入至第一预测分支，以通过所述第一预测分支确定所述检测目标的类别；当所述检测目标的类别为预设类别时，将所述第一预测分支输出的类别预测结果以及所述第二候选框内的图像输入至基于空间注意力机制的第二预测分支，以通过所述第二预测分支确定所述检测目标是否位于地面上，所述空间注意力机制用于关注检测目标周围环境的特征。

8.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6任一项所述的目标落地检测方法步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任一项所述的目标落地检测方法步骤。