CN112529943A

CN112529943A - 一种物体检测方法、物体检测装置及智能设备

Info

Publication number: CN112529943A
Application number: CN202011530109.8A
Authority: CN
Inventors: 王阳; 赵明国; 熊友军
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-03-19
Anticipated expiration: 2040-12-22
Also published as: CN112529943B

Abstract

本申请公开了一种物体检测方法、装置、智能设备及计算机可读存储介质。其中，该方法包括：在当前图像帧中确定第一区域及第二区域，其中，当前图像帧为当前时刻所获得的图像帧，目标物体在第一区域中出现的概率高于在第二区域中出现的概率；分别在第一区域内及第二区域内设置候选框，使得第一区域单位面积上的候选框数量多于第二区域单位面积上的候选框数量；基于已训练的图像识别网络及各个候选框，对当前图像帧进行识别操作，以在各个候选框中确定目标候选框，其中，目标候选框为在当前图像帧中框选有目标物体的候选框；输出目标候选框。本申请方案可提升对物体进行检测的速度及效率，保障检测的实时性。

Description

一种物体检测方法、物体检测装置及智能设备

技术领域

本申请属于视觉算法技术领域，尤其涉及一种物体检测方法、物体检测装置、智能设备及计算机可读存储介质。

背景技术

当前主流的目标检测算法，例如Yolo系列检测算法、RCNN系列检测算法及RetinaNet检测算法等，主要采用基于候选框的检测策略。这类目标检测算法的候选框通常以均匀采样的方式生成；也即，对图片中的每个候选区域设置同样数量的候选框。为了提高目标物体的检出率，需要在图片中划分大量的候选区域并对候选区域的各个候选框逐个进行过滤。然而，由于智能设备的计算资源是有限的，这种候选框的设置方式可能导致检测的实时性受到影响。

发明内容

本申请提供了一种物体检测方法、物体检测装置、智能设备及计算机可读存储介质，可提升对物体进行检测的速度及效率，保障检测的实时性。

第一方面，本申请提供了一种物体检测方法，包括：

在当前图像帧中确定第一区域及第二区域，其中，上述当前图像帧为当前时刻所获得的图像帧，目标物体在上述第一区域中出现的概率高于在上述第二区域中出现的概率；

分别在上述第一区域内及上述第二区域内设置候选框，使得上述第一区域单位面积上的候选框数量多于上述第二区域单位面积上的候选框数量；

基于已训练的图像识别网络及各个候选框，对当前图像帧进行识别操作，以在各个候选框中确定目标候选框，其中，上述目标候选框为在上述当前图像帧中框选有上述目标物体的候选框；

输出上述目标候选框。

第二方面，本申请提供了一种物体检测装置，包括：

第一确定单元，用于在当前图像帧中确定第一区域及第二区域，其中，上述当前图像帧为当前时刻所获得的图像帧，目标物体在上述第一区域中出现的概率高于在上述第二区域中出现的概率；

设置单元，用于分别在上述第一区域内及上述第二区域内设置候选框，使得上述第一区域单位面积上的候选框数量多于上述第二区域单位面积上的候选框数量；

第二确定单元，用于基于已训练的图像识别网络及各个候选框，对当前图像帧进行识别操作，以在各个候选框中确定目标候选框，其中，上述目标候选框为在上述当前图像帧中框选有上述目标物体的候选框；

输出单元，用于输出上述目标候选框。

第三方面，本申请提供了一种智能设备，上述智能设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。

第五方面，本申请提供了一种计算机程序产品，上述计算机程序产品包括计算机程序，上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。

本申请与现有技术相比存在的有益效果是：首先在当前图像帧中确定第一区域及第二区域，其中，上述当前图像帧为当前时刻所获得的图像帧，目标物体在上述第一区域中出现的概率高于在上述第二区域中出现的概率，然后分别在上述第一区域内及上述第二区域内设置候选框，使得上述第一区域单位面积上的候选框数量多于上述第二区域单位面积上的候选框数量，接着基于已训练的图像识别网络对各个候选框进行识别操作，以在各个候选框中确定目标候选框，其中，上述目标候选框为框选有上述目标物体的候选框，最后输出上述目标候选框。通过本申请方案，不再均匀的在图像帧中设置候选框，而是根据目标物体在图像中不同位置出现的概率，在目标物体出现的概率较大的区域(也即第一区域)相对密集的设置候选框，在目标物体出现的概率较小的区域(也即第二区域)相对分散的设置候选框，可减少进行物体检测时的运算量，一定程度提升对物体进行检测的速度及效率，保障检测的实时性。可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的物体检测方法的实现流程示意图；

图2是本申请实施例提供的物体检测方法步骤101的具体实现流程示意图；

图3是本申请实施例提供的一种应用场景的示意图；

图4是本申请实施例提供的第一区域及第二区域的示例图；

图5是本申请实施例提供的设置候选框的示例图；

图6是本申请实施例提供的物体检测装置的结构框图；

图7是本申请实施例提供的智能设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所提出的技术方案，下面通过具体实施例来进行说明。

下面对本申请实施例提供的一种物体检测方法进行描述。请参阅图1，该物体检测方法包括：

步骤101，在当前图像帧中确定第一区域及第二区域。

在本申请实施例中，智能设备可通过搭载于其身上的摄像头对智能设备所处的环境进行图像采集，来得到各个时刻下的图像帧。为便于说明，将当前时刻所获得的图像帧记作当前图像帧。在获得当前图像帧后，即可对该当前图像帧进行判断，从该当前图像帧中确定出第一区域及第二区域，其中，第一区域及第二区域的区别为：目标物体在第一区域中出现的概率高于在第二区域中出现的概率。

示例性地，请参阅图2，在智能设备为机器人的应用场景下，可通过如下方式对当前图像帧中的第一区域及第二区域进行判断：

步骤1011，获取上述目标物体在前一图像帧中的坐标，记作第一图像坐标。

其中，前一图像帧为当前时刻的前一时刻所获得的图像帧。由于机器人可实时对每一图像帧进行物体检测，因而，在前一图像帧中检测到了目标物体的情况下，机器人即可执行步骤1011至1013，以实现基于该前一图像帧以及机器人自身的移动情况来对目标物体可能存在的位置进行预测。需要注意的是，该第一图像坐标是基于图像坐标系所确定的，该图像坐标系又是以图像帧的左上顶点为原点，以水平向右方向为x轴正方向，以竖直向下方向为y轴正方向所构建的坐标系。为便于说明，可以将该第一图像坐标表示为(x,y)。

步骤1012，获取上述机器人的运动参数。

其中，运动参数可用于描述机器人从前一时刻到当前时刻的运动偏移量。通常情况下，由于不同类型的机器人有着不同的机械构造，因而，不同类型的机器人所对应的运动参数也可能包含不同的数据类型。举例来说，请参阅图3，当机器人是人型机器人时，考虑到人型机器人的头部、腰部及足部通常均可旋转，且足部还可平移，因而，对于人型机器人来说，其运动参数可以包括：头部电机的旋转矩阵、腰部电机的旋转矩阵、足部电机的旋转矩阵及足部电机的平移矩阵，其中，旋转矩阵用于表示对应关节从前一时刻到当前时刻的旋转角度偏移量，平移矩阵用于表示对应关节从前一时刻到当前时刻的平移偏移量。为便于说明，可以将头部电机的旋转矩阵表示为R_H(θ₁)，将腰部电机的旋转矩阵表示为R_W(θ₂)、将足部电机的旋转矩阵表示为R_F(θ₃)，将平移矩阵表示为T_F。具体地，运动参数可由机器人的各关节处的电机上报而得。

步骤1013，基于上述第一图像坐标及上述运动参数，在上述当前图像帧中确定上述第一区域及上述第二区域。

由于机器人后续实际是要在当前图像帧中对目标物体进行检测，因而，移动终端可以先基于第一图像坐标及运动参数，预测出目标物体在当前图像帧中的坐标(记作第二图像坐标)，然后再基于该第二图像坐标，在当前图像帧中确定第一区域及第二区域。又因为第二图像坐标表示了预测出的目标物体在当前图像帧中的位置，因而，可以认为第二图像坐标附近的区域为第一区域，远离第二图像坐标的区域为第二区域。

对于预测第二图像坐标来说，实际应用场景下，目标物体移动时，比较难以去预测目标物体会有怎样的移动；因而，本申请实施例实际上是假定目标物体处于静止状态下而作出的目标物体在当前图像帧中可能出现的位置的预测。又考虑到在机器人和目标物体间，若机器人也处于静止状态，那么在机器人所采集到的图像帧中，目标物体也会一直处于同一位置，这样也失去了预测的意义。因而，本申请实施例具体是假定目标物体处于静止状态下，且机器人在移动时，所作出的目标物体在当前图像帧中可能出现的位置的预测的预测。需要注意的是，对目标物体在当前图像帧中的预测的前提，是前一图像帧中已检测到了目标物体。也即，若前一图像帧中未检测出目标物体，则继续沿用传统的候选框生成策略，在当前图像帧中均匀铺设候选框。

由上可看出，在机器人静止时，以及在机器人从静止状态进入运动状态的瞬间，均无需对目标物体在当前图像帧中可能出现的位置进行预测。而当机器人发现自身进入了运动状态时(也即，机器人已处于运动过程中)，就可以基于第一图像坐标及运动参数，预测目标物体在当前图像帧中的坐标。其具体过程可以为：先将第一图像坐标从图像坐标系投影至相机坐标系下，得到前一时刻下该目标物体在相机坐标系中的三维坐标，记作第一三维坐标，表示为(X,Y,Z)；然后，基于第一三维坐标及机器人的运动参数，计算当前时刻下该目标物体在相机坐标系中的三维坐标，记作第二三维坐标，表示为(X’,Y’,Z’)；最后，再将第二三维坐标从相机坐标系重投影至图像坐标系下，即可得到第二图像坐标，表示为(x′，y′)。

示例性地，在投影获得第一三维坐标(X,Y,Z)时，所采用的公式如下：

Z＝D(x,y)

上述公式中，D表示实际距离，D(x,y)用于表示前一时刻下目标物体距离摄像头的实际距离；(c_x，c_y)为图像坐标系中摄像头的主点坐标，(f_x，f_y)为摄像头在x轴方向及y轴方向上的焦距，(c_x，c_y)及(f_x，f_y)均为摄像头的内参。其中，各个时刻下目标物体距离摄像头的实际距离可通过如下方式获得：摄像头除了获取正常的彩色图像(也即当前图像帧所示出的图像)之外，还可获取深度图像；在本申请实施例中，认为该深度图像与彩色图像有着相同的视场角及尺寸等，则同一时刻所采集到的深度图像上的每个像素点都可以唯一与彩色图像中的一个像素点对应，互为对应的两个像素点在深度图像及彩色图像上有着相同的坐标，且互为对应的像素点实际指示了现实环境中的同一处。因而，可基第一图像坐标(x,y)，在前一时刻的深度图像中获得对应的深度信息，该深度信息即表示了前一时刻下目标物体距离摄像头的实际距离。

示例性地，在计算第二三维坐标(X’,Y’,Z’)时，所采用的公式如下：

示例性地，在投影获得所预测的第二图像坐标(x′，y′)时，所采用的公式如下：

对于在当前图像帧中确定第一区域及第二区域来说，机器人可先将当前图像帧划分为预设数量个不重叠的候选区域，且这预设数量个候选区域的尺寸通常来说相同；随后，可在这预设数量个候选区域中，将目标候选区域及与目标候选区域相邻的候选区域确定为第一区域，将当前图像帧中除该第一区域之外的其它候选区域确定为第二区域，其中，目标候选区域指的是第二图像坐标所落入的候选区域。具体地，与目标候选区域存在共用边的候选区域，即为与目标候选区域相邻的候选区域。

举例来说，如图4所示，假定机器人将当前图像帧划分为了相同尺寸的16个形状为矩形的候选区域，分别为候选区域1至候选区域16；又假定图4中的点A的坐标即为通过前文所示过程所确定出的第二图像坐标；通过图4可知，该点A落入了候选区域10；则候选区域10本身可被确定为目标候选区域，且候选区域6、9、11及14与该候选区域10(也即目标候选区域)相邻；由此，可确定候选区域6、9、10、11及14为第一区域，确定候选区域1、2、3、4、5、7、8、12、13、15及16为第二区域。

步骤102，分别在上述第一区域内及上述第二区域内设置候选框，使得上述第一区域单位面积上的候选框数量多于上述第二区域单位面积上的候选框数量。

在本申请实施例中，智能设备将在目标物体的出现概率较高的区域(也即第一区域)内，更密集的设置候选框，同时在目标物体的出现概率较低的区域(也即第二区域)内，更分散的设置候选框，最终呈现的效果为第一区域单位面积上的候选框数量多于第二区域单位面积上的候选框数量。示例性地，如前文已说明的，考虑到第一区域及第二区域的确定可以是基于已划分的各个相同尺寸的候选区域而实现，因而，可认为一个候选区域的面积即为一个单位面积。示例性地，对于第一区域来说，其单个候选区域内所设置的候选框的数量可以是第二区域中的单个候选区域内所设置的候选框的数量的整数倍。

举例来说，相邻设置点之间距离是固定的，也即，设置点是均匀设置的。假定现有技术中，以均匀方式设置候选框时，单个候选区域内所设置的候选框的数量为2N个，N为正整数，也即每个设置点上可以设置2个不同尺寸的候选框。而在本申请实施例中，对于第一区域内的单个候选区域来说，所设置的候选框的数量可以是4N个，也即每个设置点上可以设置4个不同尺寸的候选框；对于第二区域内的单个候选区域来说，所设置的候选框的数量可以是N个，也即每个设置点上可以仅设置一个尺寸的候选框。

请参阅图5，图5给出了在图4所示出的第一区域及第二区域的基础上，设置候选框的示例，其中，阴影部分为第二区域，白色部分为第一区域，小圆点为设置点，矩形框为基于一设置点所设置的候选框。需要注意的是，为便于查看，图5未能示出当前图像帧中的所有设置点，且图5中仅针对第一区域的一个设置点及第二区域的一个设置点给出了所设置的候选框的示例。

步骤103，基于已训练的图像识别网络及各个候选框，对当前图像帧进行识别操作，以在各个候选框中确定目标候选框。

在本申请实施例中，已训练的图像识别网络可以是卷积神经网络等现有的识别网络，此处不作限定。智能设备可将当前图像帧及各个候选框的参数(中心坐标及尺寸等)输入至该图像识别网络中，使得该图像识别网络可在当前图像帧中，对各个候选框所框选的内容进行识别操作，以判定出每个候选框中的物体的类别以及置信度。若存在有候选框中的物体被图像识别网络判定为目标物体所属的类别，则再进一步进行确认，具体为：若仅有一个候选框中的物体被图像识别网络判定为目标物体所属的类别，则该物体即为目标物体，可将该候选框确定为目标候选框；若有至少两个候选框中的物体被图像识别网络判定为目标物体所属的类别，则置信度最高的物体即为目标物体，可将该目标物体所在的候选框确定为目标候选框。也即，目标候选框为在当前图像帧中框选有目标物体的候选框。

步骤与104，输出上述目标候选框。

在本申请实施例中，目标物体在目标候选框的框选范围内，也即，目标物体在当前图像帧中的位置即为目标候选框的位置，可认为目标物体在当前图像帧中的坐标即为目标候选框的中心坐标。又因为一个候选框可以通过该候选框的参数，也即中心坐标及尺寸来唯一的进行表示，因而可基于目标候选框的中心坐标及尺寸，输出该目标候选框；也即，以输出目标候选框的中心坐标及尺寸的形式，实现目标候选框的输出。与此同时，还可输出基于目标候选框所识别出的目标物体的置信度。

在一些实施例中，图像识别网络在其识别过程中，可对各个候选框所框选的内容(也即各个候选框内的图像区域)进行学习，并可以基于学习结果对候选框的尺寸进行进行微调。因而，在通过了图像识别网络后，各个候选框的参数可能发生变化。假定目标候选框原尺寸为(w，h)，经过图像识别网络的学习后，该图像识别网络除了输出基于该目标候选框所识别出的目标物体的置信度之外，还可输出该目标候选框的尺寸调整量(Δw，Δh)，则最终该目标候选框可被记作(m,n,w+Δw,h+Δh)，其中，m为目标候选框的中心横坐标，n为目标候选框的中心纵坐标，w+Δw为目标候选框的长，h+Δh为目标候选框的宽。

由上可见，通过本申请实施例，不再均匀的在图像帧中设置候选框，而是结合智能设备的运动参数来预测目标物体在图像中不同位置出现的概率，在目标物体出现的概率较大的区域(也即第一区域)相对密集的设置候选框，在目标物体出现的概率较小的区域(也即第二区域)相对分散的设置候选框，可减少进行物体检测时的运算量，一定程度提升对物体进行检测的速度及效率，保障检测的实时性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于前文所提出的物体检测方法，本申请实施例提供了一种物体检测装置，上述物体检测装置可集成于智能设备。请参阅图6，本申请实施例中的物体检测装置600包括：

第一确定单元601，用于在当前图像帧中确定第一区域及第二区域，其中，上述当前图像帧为当前时刻所获得的图像帧，目标物体在上述第一区域中出现的概率高于在上述第二区域中出现的概率；

设置单元602，用于分别在上述第一区域内及上述第二区域内设置候选框，使得上述第一区域单位面积上的候选框数量多于上述第二区域单位面积上的候选框数量；

第二确定单元603，用于基于已训练的图像识别网络及各个候选框，对当前图像帧进行识别操作，以在各个候选框中确定目标候选框，其中，上述目标候选框为在上述当前图像帧中框选有上述目标物体的候选框；

输出单元604，用于输出上述目标候选框。

可选地，上述智能设备可以为机器人，上述第一确定单元601，包括：

第一图像坐标获取子单元，用于获取上述目标物体在前一图像帧中的坐标，记作第一图像坐标，其中，上述前一图像帧为当前时刻的前一时刻所获得的图像帧；

运动参数获取子单元，用于获取上述机器人的运动参数，上述运动参数用于描述上述机器人从前一时刻到当前时刻的运动偏移量；

区域确定子单元，用于基于上述第一图像坐标及上述运动参数，在上述当前图像帧中确定上述第一区域及上述第二区域。

可选地，上述区域确定子单元，包括：

第二图像坐标获取子单元，用于基于上述第一图像坐标及上述运动参数，预测上述目标物体在上述当前图像帧中的坐标，记作第二图像坐标；

第一区域及第二区域确定子单元，用于基于上述第二图像坐标，在上述当前图像帧中确定上述第一区域及上述第二区域。

可选地，上述第二图像坐标获取子单元，包括：

第一投影子单元，用于将上述第一图像坐标投影至相机坐标系下，得到上述前一时刻下上述目标物体在上述相机坐标系中的三维坐标，记作第一三维坐标；

三维坐标计算子单元，用于基于上述第一三维坐标及上述运动参数，计算上述当前时刻下上述目标物体在上述相机坐标系中的三维坐标，记作第二三维坐标；

第二投影子单元，用于将上述第二三维坐标投影至图像坐标系下，得到上述第二图像坐标。

可选地，上述第一区域及第二区域确定子单元，包括：

候选区域划分子单元，用于将上述当前图像帧划分为预设数量个候选区域；

第一区域确定子单元，用于在上述预设数量个候选区域中，将目标候选区域及与上述目标候选区域相邻的候选区域确定为上述第一区域，其中，上述目标候选区域为上述第二图像坐标所落入的候选区域；

第二区域确定子单元，用于将上述当前图像帧中除上述第一区域之外的其它候选区域确定为上述第二区域域。

可选地，若上述机器人为人型机器人，则上述运动参数包括：头部电机的旋转矩阵、腰部电机的旋转矩阵、足部电机的旋转矩阵及足部电机的平移矩阵。

可选地，上述输出单元604，具体用于基于上述目标候选框的中心坐标及尺寸，输出上述目标候选框。

本申请实施例还提供了一种智能设备，请参阅图7，本申请实施例中的智能设备7包括：存储器701，一个或多个处理器702(图7中仅示出一个)及存储在存储器701上并可在处理器上运行的计算机程序。其中：存储器701用于存储软件程序以及单元，处理器702通过运行存储在存储器701的软件程序以及单元，从而执行各种功能应用以及数据处理，以获取上述预设事件对应的资源。具体地，处理器702通过运行存储在存储器701的上述计算机程序时实现以下步骤：

输出上述目标候选框。

假设上述为第一种可能的实施方式，则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中，上述智能设备具体为机器人，上述在当前图像帧中确定第一区域及第二区域，包括：

获取上述目标物体在前一图像帧中的坐标，记作第一图像坐标，其中，上述前一图像帧为当前时刻的前一时刻所获得的图像帧；

获取上述机器人的运动参数，上述运动参数用于描述上述机器人从前一时刻到当前时刻的运动偏移量；

基于上述第一图像坐标及上述运动参数，在上述当前图像帧中确定上述第一区域及上述第二区域。

在上述第二种可能的实施方式作为基础而提供的第三种可能的实施方式中，上述基于上述第一图像坐标及上述运动参数，在上述当前图像帧中确定上述第一区域及上述第二区域，包括：

基于上述第一图像坐标及上述运动参数，预测上述目标物体在上述当前图像帧中的坐标，记作第二图像坐标；

基于上述第二图像坐标，在上述当前图像帧中确定上述第一区域及上述第二区域。

在上述第三种可能的实施方式作为基础而提供的第四种可能的实施方式中，上述基于上述第一图像坐标及上述运动参数，预测上述目标物体在上述当前图像帧中的坐标，记作第二图像坐标，包括：

将上述第一图像坐标投影至相机坐标系下，得到上述前一时刻下上述目标物体在上述相机坐标系中的三维坐标，记作第一三维坐标；

基于上述第一三维坐标及上述运动参数，计算上述当前时刻下上述目标物体在上述相机坐标系中的三维坐标，记作第二三维坐标；

将上述第二三维坐标投影至图像坐标系下，得到上述第二图像坐标。

在上述第三种可能的实施方式作为基础而提供的第五种可能的实施方式中，上述基于上述第二图像坐标，在上述当前图像帧中确定上述第一区域及上述第二区域，包括：

将上述当前图像帧划分为预设数量个候选区域；

在上述预设数量个候选区域中，将目标候选区域及与上述目标候选区域相邻的候选区域确定为上述第一区域，将上述当前图像帧中除上述第一区域之外的其它候选区域确定为上述第二区域，其中，上述目标候选区域为上述第二图像坐标所落入的候选区域。

在上述第二种可能的实施方式作为基础而提供的第六种可能的实施方式中，若上述机器人为人型机器人，则上述运动参数包括：头部电机的旋转矩阵、腰部电机的旋转矩阵、足部电机的旋转矩阵及足部电机的平移矩阵。

在上述第一种可能的实施方式作为基础而提供的第七种可能的实施方式中，上述输出上述目标候选框，包括：

基于上述目标候选框的中心坐标及尺寸，输出上述目标候选框。

应当理解，在本申请实施例中，所称处理器702可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器701可以包括只读存储器和随机存取存储器，并向处理器702提供指令和数据。存储器701的一部分或全部还可以包括非易失性随机存取存储器。例如，存储器701还可以存储设备类别的信息。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者外部设备软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关联的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读存储介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机可读存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括是电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种物体检测方法，其特征在于，包括：

在当前图像帧中确定第一区域及第二区域，其中，所述当前图像帧为当前时刻所获得的图像帧，目标物体在所述第一区域中出现的概率高于在所述第二区域中出现的概率；

分别在所述第一区域内及所述第二区域内设置候选框，使得所述第一区域单位面积上的候选框数量多于所述第二区域单位面积上的候选框数量；

基于已训练的图像识别网络及各个候选框，对当前图像帧进行识别操作，以在各个候选框中确定目标候选框，其中，所述目标候选框为在所述当前图像帧中框选有所述目标物体的候选框；

输出所述目标候选框。

2.如权利要求1所述的物体检测方法，其特征在于，所述物体检测方法应用于机器人，所述在当前图像帧中确定第一区域及第二区域，包括：

获取所述目标物体在前一图像帧中的坐标，记作第一图像坐标，其中，所述前一图像帧为当前时刻的前一时刻所获得的图像帧；

获取所述机器人的运动参数，所述运动参数用于描述所述机器人从前一时刻到当前时刻的运动偏移量；

基于所述第一图像坐标及所述运动参数，在所述当前图像帧中确定所述第一区域及所述第二区域。

3.如权利要求2所述的物体检测方法，其特征在于，所述基于所述第一图像坐标及所述运动参数，在所述当前图像帧中确定所述第一区域及所述第二区域，包括：

基于所述第一图像坐标及所述运动参数，预测所述目标物体在所述当前图像帧中的坐标，记作第二图像坐标；

基于所述第二图像坐标，在所述当前图像帧中确定所述第一区域及所述第二区域。

4.如权利要求3所述的物体检测方法，其特征在于，所述基于所述第一图像坐标及所述运动参数，预测所述目标物体在所述当前图像帧中的坐标，记作第二图像坐标，包括：

将所述第一图像坐标投影至相机坐标系下，得到所述前一时刻下所述目标物体在所述相机坐标系中的三维坐标，记作第一三维坐标；

基于所述第一三维坐标及所述运动参数，计算所述当前时刻下所述目标物体在所述相机坐标系中的三维坐标，记作第二三维坐标；

将所述第二三维坐标投影至图像坐标系下，得到所述第二图像坐标。

5.如权利要求3所述的物体检测方法，其特征在于，所述基于所述第二图像坐标，在所述当前图像帧中确定所述第一区域及所述第二区域，包括：

将所述当前图像帧划分为预设数量个候选区域；

在所述预设数量个候选区域中，将目标候选区域及与所述目标候选区域相邻的候选区域确定为所述第一区域，将所述当前图像帧中除所述第一区域之外的其它候选区域确定为所述第二区域，其中，所述目标候选区域为所述第二图像坐标所落入的候选区域。

6.如权利要求2所述的物体检测方法，其特征在于，若所述机器人为人型机器人，则所述运动参数包括：头部电机的旋转矩阵、腰部电机的旋转矩阵、足部电机的旋转矩阵及足部电机的平移矩阵。

7.如权利要求1所述的物体检测方法，其特征在于，所述输出所述目标候选框，包括：

基于所述目标候选框的中心坐标及尺寸，输出所述目标候选框。

8.一种物体检测装置，其特征在于，包括：

第一确定单元，用于在当前图像帧中确定第一区域及第二区域，其中，所述当前图像帧为当前时刻所获得的图像帧，目标物体在所述第一区域中出现的概率高于在所述第二区域中出现的概率；

设置单元，用于分别在所述第一区域内及所述第二区域内设置候选框，使得所述第一区域单位面积上的候选框数量多于所述第二区域单位面积上的候选框数量；

第二确定单元，用于基于已训练的图像识别网络及各个候选框，对当前图像帧进行识别操作，以在各个候选框中确定目标候选框，其中，所述目标候选框为在所述当前图像帧中框选有所述目标物体的候选框；

输出单元，用于输出所述目标候选框。

9.一种智能设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。