CN110287907B

CN110287907B - 一种对象检测方法和装置

Info

Publication number: CN110287907B
Application number: CN201910572201.1A
Authority: CN
Inventors: 陈奕名; 苏睿; 张为明
Original assignee: Beijing Haiyi Tongzhan Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2020-11-03
Anticipated expiration: 2039-06-28
Also published as: CN110287907A; WO2020258978A1

Abstract

本发明提供了一种对象检测方法和装置，该方法包括：获取监控区域的视频图像；结合对获取的前一视频图像的识别结果，识别确定当前视频图像中的所有待检测对象；比对当前视频图像和前一视频图像中的所有待检测对象，确定当前视频图像中不属于前一视频图像的待检测对象的个数；基于当前视频图像中不属于前一视频图像的待检测对象的个数，增加当前统计的监控区域中的待检测对象的数量。本发明能够对监控区域的视频中所有视频图像进行检测，从而对监控区域中的待检测对象进行准确识别和数量统计。

Description

一种对象检测方法和装置

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种对象检测方法和装置。

背景技术

图像分类、目标检测、及图像分割是计算机视觉领域的三大任务。图像分类模型是将图像划分为单个类别，通常对应于图像中最突出的物体。但是现实世界的很多图片通常包含不只一个物体，仅使用图像分类模型为图像分配一个单一标签其实是非常粗糙的，并不准确。对于这样的情况，可以使用目标检测模型识别一张图片的多个物体，并定位出识别的不同物体。

目标检测是当前计算机视觉领域的研究热点，从过去的十多年来看，图像的目标检测算法大体上可分为基于传统手工特征的时期以及基于深度学习的目标检测时期。Girshick等人提出了区域卷积网络目标检测框架(Regionswith CNN features，R-CNN)后，目标检测领域开始以前所未有的速度发展。

目标检测应用在了很多场景，如无人驾驶和安防系统，但尚不存在智能养殖场景中利用目标检测对视频中养殖对象进行检测的技术方案。

发明内容

有鉴于此，本发明的目的在于提供一种对象检测方法和装置，能够对监控区域的视频中所有视频图像进行检测，从而对监控区域中的待检测对象进行准确识别和数量统计。

为了达到上述目的，本发明提供了如下技术方案：

一种对象检测方法，包括：

获取监控区域的视频图像；

结合对获取的前一视频图像的识别结果，识别确定当前视频图像中的所有待检测对象；

比对当前视频图像和前一视频图像中的所有待检测对象，确定当前视频图像中不属于前一视频图像的待检测对象的个数；

基于当前视频图像中不属于前一视频图像的待检测对象的个数，增加当前统计的监控区域中的待检测对象的数量。

一种对象检测装置，包括：

获取单元，用于获取监控区域的视频图像；

识别单元，用于结合对获取的前一视频图像的识别结果，识别确定当前视频图像中的所有待检测对象；

比对单元，用于比对当前视频图像和前一视频图像中的所有待检测对象，确定当前视频图像中不属于前一视频图像的待检测对象的个数；

统计单元，用于基于当前视频图像中不属于前一视频图像的待检测对象的个数，增加当前统计的监控区域中的待检测对象的数量。

一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通过总线相连的存储器；所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序；所述至少一个处理器执行所述一个或多个计算机程序时实现上述对象检测方法中的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个计算机程序，所述一个或多个计算机程序被处理器执行时实现上述对象检测方法。

由上面的技术方案可知，本发明中，结合对获取的前一视频图像的识别结果，对当前获取的视频图像中的待检测对象进行识别，将从前后两帧视频图像中识别的待检测对象进行比较，即可确定后一帧视频图像中新增的待检测对象个数，从而相应增加当前统计的监控区域中的待检测对象的数量。可以看出，本发明中，通过计算确定前后两帧视频图像中待检测对象的增量，可以准确识别和统计出整个监控区域中的待检测对象的数量。

附图说明

图1是本发明实施例对象检测方法流程图；

图2是本发明实施例一对视频图像的检测结果示意图；

图3是本发明实施例二对视频图像的检测结果示意图；

图4是本发明实施例对象检测装置的结构示意图；

图5是本发明实施例电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图并据实施例，对本发明的技术方案进行详细说明。

在智能养殖场景中，使用机器视觉统计养殖对象的数量，能够最大限度上减少人力资源的支出。本发明提供的技术方案可用于对智能养殖场景的养殖对象进行数量统计，以降低人工成本。

本发明主要通过对监控区域的监控视频进行分析，识别出监控区域中所有待检测对象并统计待检测对象的总数量。以下结合图1进行说明。

参见图1，图1是本发明实施例对象检测方法流程图，如图1所示，该方法主要包括以下步骤：

步骤101、获取监控区域的视频图像。

本发明中，使用可以移动的摄像头拍摄整个监控区域的视频，通过对视频中的视频图像逐帧进行检测和目标追踪，确定监控区域中的所有待检测对象。

本步骤中，每次获取视频中的一帧视频图像，并结合对前一帧视频图像的识别结果，对当前获取的一帧视频图像进行检测和目标追踪。

步骤102、结合对获取的前一视频图像的识别结果，检测确定当前视频图像中的所有待检测对象。

在实际应用中，前后两帧视频图像之间的拍摄时间间隔很小，因此，其中包括的同一待检测对象的位置变化也很小。为了在当前视频图像中找出新出现的待检测对象，检测确定当前视频图像中的所有待检测对象时，可以将前一帧视频图像的识别结果叠加到当前视频图像中，从而保证相邻两帧视频图像中的待检测对象有较为准确的召回率。

结合对获取的前一帧视频图像的识别结果，检测确定当前视频图像中的所有待检测对象，具体可以采用以下两个步骤实现：

S01、结合对获取的前一视频图像的识别结果，利用预先训练的R2CNN检测模型检测确定当前视频图像中包围每一待检测对象的矩形框；

S02、对当前视频图像中包围每一待检测对象的各矩形框进行非极大值抑制NMS，得到对当前视频图像的识别结果。

在实际应用中，上述步骤S01中，确定视频图像中包围每个待检测对象的矩形框，可以使用图像处理技术中的多种方法实现。

本发明实施例中，利用R2CNN技术确定视频图像中包围每个待检测对象的矩形框，具体地，可以预先使用多个待检测对象的训练样本进行训练得到R2CNN检测模型，之后就可以将该R2CNN检测模型用于本发明的对象检测过程中，具体是利用R2CNN检测模型确定视频图像中包围每个待检测对象的矩形框，即：将视频图像输入到R2CNN检测模型，R2CNN检测模型对输入的视频图像进行图像检测，即可输出视频图像中包围每个待检测对象的矩形框。

另外，为了保证相邻两帧视频图像中待检测对象的召回率，在确定视频图像中包围每个待检测对象的矩形框的过程中，还将对前一帧视频图像的识别结果叠加到当前视频图像中。

因此，上述步骤S01的一种较佳实施方法如下：

S011、利用候选区域网络RPN算法确定当前视频图像中包围每个待检测对象的水平矩形框；

S012、将从前一视频图像识别出的包围每个待检测对象的倾斜矩形框，叠加到当前视频图像中；

S013、利用感兴趣区域池化ROI Pooling算法生成当前视频图像中每个矩形框的图像特征，对该图像特征进行回归分析，根据回归分析结果将该水平矩形框调整为倾斜矩形框；所述回归分析结果包括该水平矩形框对应的平移和旋转角度信息。

图2和图3分别示出了采用上述三个步骤对一帧视频图像的检测结果。

实际应用，上述步骤S01也可以采用其它方法实现，例如，先将对前一帧视频图像的识别结果叠加到当前视频图像中，再利用预先训练的R2CNN检测模型对当前视频图像进行图像检测，即按照步骤S012、S011、S013的顺序执行。又如，先利用预先训练的R2CNN检测模型对当前视频图像进行图像检测，再将对前一帧视频图像的识别结果叠加到对当前视频图像的识别结果中，即按照步骤S011、S013、S012的顺序执行。

上述步骤S011中，利用候选区域网络(RPN)算法确定当前视频图像中包围每个待检测对象的水平矩形框，主要是通过卷积算法提取不同尺度下的图像特征，其中既包括低级的边缘纹理特征，也包括高级的语义特征，通过将这两种特征融合起来，可以生成包围每个待检测对象的完整信息以及和当前视频图像边界平行的矩形框(称为水平矩形框)。

现有大多数对活体检测的方法所检测的结果没有显示方向性，仅有水平或垂直方向的检测结果，而人工对养殖对象进行数数时，通常是俯视的视角，因此，在智能养殖这种实际生产场景中的活体检测，不同于普通目标的检测任务，除了框出养殖对象信息之外，还应添加面向任意方向场景的活体检测。

为了充分识别待检测对象信息，上述步骤S013中，针对当前视频图像中的包围每个待检测对象的矩形框，可以通过感兴趣区域池化(ROI Pooling)算法进行图片信息检测，生成该矩形框的图像特征，然后对利用ROI Pooling算法生成的图像特征进行回归分析，得到的回归分析结果包括该矩形框对应的平移和旋转角度信息，此平移和旋转角度信息表明了需要对该矩形框进行的方向调整，是将水平矩形框调整为具有方向性的倾斜矩形框的依据。

另外，在执行上述步骤S012时，还可以对当前视频图像中的各个矩形框命中该矩形框包围的待统计对象的概率进行调整和设置，具体包括：

S0121、将叠加到当前视频图像中的倾斜矩形框命中该倾斜矩形框包围的待检测对象的概率设置为1；

S0122、将当前视频图像中包围每个待检测对象的水平矩形框命中该待检测对象的概率减少预设概率阈值。

上述步骤S0121和S0122不分先后顺序，上述概率的设置可以影响上述步骤S013的执行结果，这属于R2CNN技术，不再详述。

步骤103、比对当前视频图像和前一视频图像中的所有待检测对象，确定当前视频图像中不属于前一视频图像的待检测对象的个数。

由于视频中的相邻两帧视频图像之间的拍摄时间间隔很小，其中包括的同一待检测对象的位置变化也很小。因此，可以基于分别属于前后两帧视频图像的两个待检测对象在各自所属视频图像的中心位置坐标，计算该两个待检测对象的欧式距离，如果该两个待检测对象之间的欧式距离较大，超过一定阈值，则可认为是不同的待检测对象，如果该两个待检测对象之间的欧式距离较小，则可认为该两个待检测对象是同一待检测对象。

基于上述判断分属于前后两帧视频图像的两个待检测对象是否为同一待检测对象的原理，本发明实施例中，对于当前视频图像中的每个待检测对象，可以计算该待检测对象与前一帧视频图像中的所有待检测对象的欧式距离，如果该待检测对象与前一帧视频图像中的任一待检测对象的欧式距离都大于预设距离阈值，则可以确定该待检测对象是当前视频图像中新出现的待检测对象，未在前一帧视频图像中出现，因此不属于前一帧视频图像，否则，可以确定该待检测对象在前一帧视频图像中已经出现，属于前一帧视频图像。

为此，本步骤中，比对当前视频图像和前一视频图像中的所有待检测对象，确定当前视频图像中不属于前一视频图像的待检测对象的个数，具体包括：针对当前视频图像中每个待检测对象，计算该待检测对象与前一视频图像中所有待检测对象的欧式距离，如果该待检测对象与前一视频图像中各待检测对象中的最小欧式距离大于预设距离阈值，则将当前视频图像中不属于前一视频图像的待检测对象的个数增加1。

步骤104、基于当前视频图像中不属于前一视频图像的待检测对象的个数，增加当前统计的监控区域中的待检测对象的数量。

基于当前视频图像中不属于前一视频图像的待检测对象的个数，即当前视频图像与前一帧视频图像相比，新出现的待检测对象的个数。

本发明中，对监控区域拍摄的视频中每一帧视频图像均执行以上步骤101至步骤104，以确定每一帧视频图像比前一帧视频图像新出现的待检测对象的个数，通过对此个数进行累计，从而可以得到整个监控区域中所有待检测对象的数量。例如视频中总包括10帧视频图像，假设对第1-10帧视频图像均执行上述步骤101-步骤104得到后一帧视频图像与前一帧视频图像相比，新出现的待检测对象的个数分别为：10(由于不存在第0帧视频图像，因此，第1帧视频图像中的待检测对象的个数，即为第1帧视频图像比第0帧视频图像新出现的待检测对象的个数)、1、0、2、1、3、0、1、2、1，则通过累计计算，可以最终得到监控区域中的所有待检测对象的数量为10+1+0+2+1+3+0+1+2+1＝21个。

以上对本发明实施例对象统计方法进行了详细说明，本发明还提供了一种对象统计装置，以下结合图4进行详细说明。

参见图4，图4是本发明实施例对象检测装置的结构示意图，如图4所示，该装置包括：

获取单元401，用于获取监控区域的视频图像；

识别单元402，用于结合对获取的前一视频图像的识别结果，识别确定当前视频图像中的所有待检测对象；

比对单元403，用于比对当前视频图像和前一视频图像中的所有待检测对象，确定当前视频图像中不属于前一视频图像的待检测对象的个数；

统计单元404，用于基于当前视频图像中不属于前一视频图像的待检测对象的个数，增加当前统计的监控区域中的待检测对象的数量。

图4所示装置中，

所述识别单元402，包括检测子单元4021和抑制子单元4022；

所述检测子单元4021，用于结合对获取的前一视频图像的识别结果，利用预先训练的R2CNN检测模型检测确定当前视频图像中包围每一待检测对象的矩形框；

所述抑制子单元4022，用于对当前视频图像中包围每一待检测对象的各矩形框进行非极大值抑制NMS，得到对当前视频图像的识别结果。

图4所示装置中，

所述检测子单元4021，结合对获取的前一视频图像的识别结果，利用预先训练的R2CNN检测模型检测确定当前视频图像中包围每一待检测对象的矩形框，包括：

利用候选区域网络RPN算法确定当前视频图像中包围每个待检测对象的水平矩形框；

将从前一视频图像识别出的包围每个待检测对象的倾斜矩形框，叠加到当前视频图像中；

利用感兴趣区域池化ROI Pooling算法生成当前视频图像中每个矩形框的图像特征，对该图像特征进行回归分析，根据回归分析结果将该水平矩形框调整为倾斜矩形框；所述回归分析结果包括该水平矩形框对应的平移和旋转角度信息。

图4所示装置中，

所述检测子单元4021，将从前一视频图像识别出的包围每个待检测对象的倾斜矩形框，叠加到当前视频图像中时，进一步用于：

将叠加到当前视频图像中的倾斜矩形框命中该倾斜矩形框包围的待检测对象的概率设置为1；

将当前视频图像中包围每个待检测对象的水平矩形框命中该待检测对象的概率减少预设概率阈值。

图4所示装置中，

所述比对单元403，比对当前视频图像和前一视频图像中的所有待检测对象，确定当前视频图像中不属于前一视频图像的待检测对象的个数，包括：

针对当前视频图像中每个待检测对象，计算该待检测对象与前一视频图像中所有待检测对象的欧式距离，如果该待检测对象与前一视频图像中各待检测对象中的最小欧式距离大于预设距离阈值，则将当前视频图像中不属于前一视频图像的待检测对象的个数增加1。

图4所示装置中，

所述比对单元403，基于两个待检测对象在各自所属视频图像的中心位置坐标，计算该两个待检测对象的欧式距离。

本发明实施例还提供了一种电子设备，如图5所示，该电子设备500包括：至少一个处理器501，以及与所述至少一个处理器501通过总线相连的存储器502；所述存储器502存储有可被所述至少一个处理器501执行的一个或多个计算机程序；所述至少一个处理器501执行所述一个或多个计算机程序时实现如上述图1所示对象检测方法中的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个计算机程序，所述一个或多个计算机程序被处理器执行时实现如上述图1所示对象检测方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种对象检测方法，其特征在于，该方法应用于智能养殖场景，包括：

获取可移动摄像头拍摄的监控区域的视频图像；

基于当前视频图像中不属于前一视频图像的待检测对象的个数，增加当前统计的监控区域中的待检测对象的数量；

其中，

结合对获取的前一视频图像的识别结果，识别确定当前视频图像中的所有待检测对象，包括：

结合对获取的前一视频图像的识别结果，利用预先训练的R2CNN检测模型检测确定当前视频图像中包围每一待检测对象的矩形框；

对当前视频图像中包围每一待检测对象的各矩形框进行非极大值抑制NMS，得到对当前视频图像的识别结果；

所述结合对获取的前一视频图像的识别结果，利用预先训练的R2CNN检测模型检测确定当前视频图像中包围每一待检测对象的矩形框，包括：

2.根据权利要求1所述的方法，其特征在于，

将从前一视频图像识别出的包围每个待检测对象的倾斜矩形框，叠加到当前视频图像中时，进一步包括：

3.根据权利要求1所述的方法，其特征在于，

比对当前视频图像和前一视频图像中的所有待检测对象，确定当前视频图像中不属于前一视频图像的待检测对象的个数，包括：

4.根据权利要求3所述的方法，其特征在于，

基于两个待检测对象在各自所属视频图像的中心位置坐标，计算该两个待检测对象的欧式距离。

5.一种对象检测装置，其特征在于，该装置应用于智能养殖场景，包括：

获取单元，用于获取可移动摄像头拍摄的监控区域的视频图像；

统计单元，用于基于当前视频图像中不属于前一视频图像的待检测对象的个数，增加当前统计的监控区域中的待检测对象的数量；

其中，

所述识别单元，包括检测子单元和抑制子单元；

所述检测子单元，用于结合对获取的前一视频图像的识别结果，利用预先训练的R2CNN检测模型检测确定当前视频图像中包围每一待检测对象的矩形框；

所述抑制子单元，用于对当前视频图像中包围每一待检测对象的各矩形框进行非极大值抑制NMS，得到对当前视频图像的识别结果；

所述检测子单元，结合对获取的前一视频图像的识别结果，利用预先训练的R2CNN检测模型检测确定当前视频图像中包围每一待检测对象的矩形框，包括：

6.根据权利要求5所述的装置，其特征在于，

所述检测子单元，将从前一视频图像识别出的包围每个待检测对象的倾斜矩形框，叠加到当前视频图像中时，进一步用于：

7.根据权利要求5所述的装置，其特征在于，

所述比对单元，比对当前视频图像和前一视频图像中的所有待检测对象，确定当前视频图像中不属于前一视频图像的待检测对象的个数，包括：

8.根据权利要求7所述的装置，其特征在于，

所述比对单元，基于两个待检测对象在各自所属视频图像的中心位置坐标，计算该两个待检测对象的欧式距离。

9.一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通过总线相连的存储器；所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序；其特征在于，所述至少一个处理器执行所述一个或多个计算机程序时实现权利要求1-4任一权项所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储一个或多个计算机程序，所述一个或多个计算机程序被处理器执行时实现权利要求1-4中任一项所述的方法。