CN111401215B

CN111401215B - 一种多类别目标检测的方法及系统

Info

Publication number: CN111401215B
Application number: CN202010169113.XA
Authority: CN
Inventors: 王震
Original assignee: Hangzhou Tuya Information Technology Co Ltd
Current assignee: Hangzhou Tuya Information Technology Co Ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2023-10-31
Anticipated expiration: 2040-03-12
Also published as: CN111401215A

Abstract

本申请公开了一种多类别目标检测的方法，包括：搜索待检测图像中第一类目标及第二类目标，并获得定位框；分类定位框内的图像，并获得背景概率及目标概率；过滤分类不确定的所述定位框内的图像，并获得检测结果。与现有技术相比，本申请具有如下有益效果：由于采用轻量级卷积神经网络，图像检测功能无须部署到云端，而是直接运行在摄像头内部的嵌入式硬件上，从而避免了网络传输延迟，同时降低了用户购买成本。另外，通过将人形宠物定位与分类在时序上分开处理，并且采用对比过滤机制，最终较大程度上降低了误检。

Description

一种多类别目标检测的方法及系统

技术领域

本申请涉及图像检测领域，具体而言，涉及一种多类别目标检测的方法。

背景技术

室内人形与宠物检测，是指通过摄像头采集居民室内图片，并通过图像检测技术对图片中出现的人和宠物进行定位和分类。

随着技术的进步和人们生活水平的提高，家用监护摄像头逐渐走进千家万户，通过手机app人们可以随时主动查看家内情况，对老人、婴幼儿或宠物等有着一定的看护作用。更进一步，目前已有商家提供图像检测功能，对监护摄像头采集的图像进行分析，并把检测到的人或宠物的图片通过app推送给用户，便于用户实时掌握信息。

然而，现有技术中存在如下缺点：1.这种图像检测功能一般基于卷积神经网络(CNN)实现，计算量很大，都部署在云端专用图形处理单元(GPU)上，作为一种增值服务需要用户额外付费购买。2.从摄像头采集、传输、云端检测处理，到最后app消息推送，有较大的延迟，因此严格来讲这种方式并不是实时的，用户并不能获取最大效用。3.由于室内环境复杂，光照条件差，目前的图像检测算法鲁棒性不够，会出现一定程度的误检。

发明内容

本申请的主要目的在于提供一种多类别目标检测的方法，包括：

搜索待检测图像中第一类目标及第二类目标，并获得定位框；

分类定位框内的图像，并获得背景概率及目标概率；

过滤分类不确定的所述定位框内的图像，并获得检测结果。

可选地，搜索待检测图像中第一类目标及第二类目标，并获得定位框包括：

采用轻量级卷积神经网络，从输入图像中搜寻所有第一类目标和第二类目标，输出第一类目标和第二类目标的定位框以及该定位框属于第一类目标或第二类目标的概率；所述轻量级卷积神经网络的检测框架的特征融合从步长为32的层开始逐步向步长为4的层进行；

所述轻量级卷积神经网络包括七个输出层，每个输出层由定位和分类两个分支组成，定位分支得到定位框，分类分支得到该定位框属于第一类目标第二类目标的概率。

可选地，分类定位框内的图像，并获得背景概率及目标概率包括：

基于所述轻量级卷积神经网络，将步长为8的层的特征图下采样4倍，然后与步长为32的层的特征图进行联结；网络输入为128x 128大小的三通道RGB图像，输出为该图像属于第一类目标、第二类目标和背景的概率。

可选地，过滤分类不确定的所述定位框内的图像，并获得检测结果包括：

根据第一类目标、第二类目标以及背景的概率依次为P1、P2、P3，判定为第一类目标或第二类目标的阈值为T，

若P1>T，且P1/P2>1000，则判定为第一类目标；

若P2>T，且P1/P2>1000，则判定为第二类目标；

其他情况，判定为背景。

可选地，在原图中截取所有定位框，并将图像缩放到预定尺寸。

可选地，所述预定尺寸为128x 128。

根据本申请的另一方面，还提供了一种多类别目标检测的系统，包括：定位模块、分类模块和对比过滤模块；

所述定位模块采用轻量级卷积神经网络，从输入图像中搜寻所有第一类目标和第二类目标，输出第一类目标和第二类目标的定位框以及该定位框属于第一类目标或第二类目标的概率；所述轻量级卷积神经网络的检测框架的特征融合从步长为32的层开始逐步向步长为4的层进行；所述轻量级卷积神经网络包括七个输出层，每个输出层由定位和分类两个分支组成，定位分支得到定位框，分类分支得到该定位框属于第一类目标第二类目标的概率；

所述分类模块基于所述轻量级卷积神经网络，将步长为8的层的特征图下采样4倍，然后与步长为32的层的特征图进行联结；网络输入为128x 128大小的三通道RGB图像，输出为该图像属于第一类目标、第二类目标和背景的概率；

所述过滤模块根据第一类目标、第二类目标以及背景的概率依次为P1、P2、P3，判定为第一类目标或第二类目标的阈值为T，

若P1>T，且P1/P2>1000，则判定为第一类目标；

若P2>T，且P1/P2>1000，则判定为第二类目标；

其他情况，判定为背景。

本申请还公开了一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的方法。

本申请还公开了一种计算机可读存储介质，非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现上述任一项所述的方法。

本申请还公开了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述任一项所述的方法。

与现有技术相比，本申请具有如下有益效果：

由于采用轻量级卷积神经网络，图像检测功能无须部署到云端，而是直接运行在摄像头内部的嵌入式硬件上，从而避免了网络传输延迟，同时降低了用户购买成本。另外，通过将人形宠物定位与分类在时序上分开处理，并且采用对比过滤机制，最终较大程度上降低了误检。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和有益效果变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请一个实施例的多类别目标检测的方法的流程示意图；

图2是根据本申请一个实施例的多类别目标检测的方法的流程示意图；

图3是根据本申请一个实施例的多类别目标检测系统的示意图；

图4是根据本申请一个实施例的计算机设备的示意图；以及

图5是根据本申请一个实施例的计算机可读存储介质的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参照图1-图3，本申请一实施例提供了一种多类别目标检测的方法，包括：

分类定位框内的图像，并获得背景概率及目标概率；

过滤分类不确定的所述定位框内的图像，并获得检测结果。

(1)对于摄像头采集到的图像，利用定位模块搜索图像中所有人形和宠物，得到一个或多个定位框。

(2)在原图中截取所有定位框，并将图像缩放到128x 128大小。

(3)将上一步中缩放后的图像逐一送入分类模块，得到分别属于背景、人形和宠物的概率。

(4)利用对比过滤模块，将分类不确定的定位框过滤掉，仅保留确定性高的定位框，即为最终检测结果。

可以看出，整个人形与宠物检测流程是一个由粗到精的级联的处理过程：由定位模块进行粗定位，然后利用分类模块进行精确分类，最后利用对比过滤机制进一步去除类别不确定的定位框，从而有效地降低误检。

本申请一实施例中，搜索待检测图像中第一类目标及第二类目标，并获得定位框包括：采用轻量级卷积神经网络，从输入图像中搜寻所有第一类目标和第二类目标，输出第一类目标和第二类目标的定位框以及该定位框属于第一类目标或第二类目标的概率；所述轻量级卷积神经网络的检测框架的特征融合从步长为32的层开始逐步向步长为4的层进行；

定位模块，采用轻量级卷积神经网络(CNN)实现，主要作用是从输入图像中搜寻所有人形和宠物，输出人形和宠物的定位框以及该定位框属于人形宠物的概率。该模块不对人形和宠物进行区分，因此本质上是一个二分类(背景，或人形宠物)和一个定位。主干网络采用MobileNetV2，检测框架借鉴FPN(Feature Pyramid Network)，但与FPN不同的是，特征融合并不是从最后一层开始的，而是从步长(stride)为32的层开始逐步向步长为4的层进行，如附图3所示。特征融合能够增加低层特征的语义信息，从而提升小目标的检出率，同时能够增加高层特征的位置信息，从而提升大目标的定位精度。一共七个输出层，每个输出层由定位和分类两个分支组成，定位分支得到定位框，分类分支得到该定位框属于人形宠物的概率。

卷积神经网络通常会将输入图像逐步下采样，比如输入是256x256的图像，经过几个卷积层后，图像可能下采样变成128x128，以此类推。步长是指卷积神经网络中的某层上一个像素对应于输入图像上多少像素。输出层1到输出层7的步长分别为4、8、16、32、64、128、256。

特征融合为什么不从最后一层开始：因为最后一层步长(256)与前面第一层步长(4)相隔太大，最后一层特征的语义信息过于全局化，不适合第一层局部极小目标检测，而步长为32的中间层能够为第一层提供较合适的语义信息。

输出层5是在输出层4的基础上卷积得到的，输出层6、输出层7以此类推。

输出层3是由输出层4上采样(长和宽分别扩大2倍)后与前一个卷积层相乘得到的，输出层2、输出层1以此类推。

定位模块中采用的轻量级卷积神经网络，需要在包含人形、宠物以及室内背景的图片数据集上进行训练。这个数据集是通过采集室内环境下多种拍摄角度、拍摄高度、多种光照条件以及多种室内场景下的人形和宠物的图像得到。

本申请一实施例中，分类定位框内的图像，并获得背景概率及目标概率包括：基于所述轻量级卷积神经网络，将步长为8的层的特征图下采样4倍，然后与步长为32的层的特征图进行联结；网络输入为128x 128大小的三通道RGB图像，输出为该图像属于第一类目标、第二类目标和背景的概率。

分类模块，基于轻量级卷积神经网络MobileNetV2实现，不同的是将步长(stride)为8的层的特征图下采样4倍，然后与步长为32的层的特征图进行联结。这样能够在训练时将梯度更大程度上传递给底层，避免高层过拟合，并且让底层学习到更具表达能力的特征。网络输入为128x 128大小的三通道RGB图像，输出为该图像属于人形、宠物和背景的概率，是一个三类分类。

分类模块的作用是在粗定位的基础上对定位框进行精确分类，与目前流行的目标检测框架Fast-RCNN、Faster-RCNN以及RetinaNet思想不同的是，它仅输出分类概率，不对定位框做进一步校准。这样做是因为定位框校准在训练时会占据部分梯度，从而使得网络的分类能力不能达到最优。

分类模块采用的卷积神经网络需要进行训练，训练分为两步，第一步在ImageNet数据集上进行预训练，ImageNet上百万图片以及1000类物体能够使预训练后的网络有很好的泛化能力。第二步在定位模块产生的定位框数据集上进行调优，该数据集构造方法是：首先利用定位模块对定位模块训练集中的所有图片进行处理，得到所有人形、宠物以及误检背景图片的定位框，然后从原图中截取定位框中的图像并缩放到128x 128大小，最后将所有缩放后的图片归类(分为人形、宠物、背景三类)。

本申请一实施例中，过滤分类不确定的所述定位框内的图像，并获得检测结果包括：根据第一类目标、第二类目标以及背景的概率依次为P1、P2、P3，判定为第一类目标或第二类目标的阈值为T，

若P1>T，且P1/P2>1000，则判定为第一类目标；

若P2>T，且P1/P2>1000，则判定为第二类目标；

其他情况，判定为背景。

本申请的一实施例还提供了一种多类别目标检测的系统，包括：定位模块、分类模块和对比过滤模块；

若P1>T，且P1/P2>1000，则判定为第一类目标；

若P2>T，且P1/P2>1000，则判定为第二类目标；

其他情况，判定为背景。

对比过滤模块，其作用是根据分类模块得到的类别概率及相互关系过滤掉分类不确定的定位框，仅保留确定性高的定位框。对比过滤流程详细描述如下：对于某一个定位框，由分类模块得到的人形、宠物以及背景的概率依次为Pperson、Ppet、Pbackground，判定为人形或宠物的阈值为T，

若Pperson>T，且Pperson/Ppet>1000，则判定为人形；

若Ppet>T，且Pperson/Ppet>1000，则判定为宠物；

与现有技术相比，本申请具有如下有益效果：

提出了一种可运行在嵌入式硬件上的人形宠物检测方法，使摄像头图像采集与图像检测可集成在同一个终端设备上，解决了现有方案存在的较长网络传输延迟问题。

通过将人形宠物定位与分类在时序上分开处理，并且采用对比过滤机制，最终较大程度上降低了误检。

定位模块对人形与宠物进行粗定位，分类模块对粗定位得到的定位框进行精细分类。

本申请中的定位模块，其主干网络不限于上述实现方法，也可以采用MobileNetV3、ShuffleNetV2、或Resnet-18等轻量级卷积神经网络。另外，对于人形宠物检测流程中的第二步，不限于将截取的图像缩放到128x 128大小，也可以是其他尺寸，但必须与分类模块的输入大小一致。同时，分类模块的主干网络不限于上述实现方法，也可以采用MobileNetV3、ShuffleNetV2、或Resnet-18等轻量级卷积神经网络。

本申请上述实施例中以人和动物为例进行说明，但并不以此为限。本申请所提供的技术方案可以用到任何两种不同种类的目标中，均属于本申请所要求保护的范围内。

请参照图4，本申请还提供了一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的方法。

请参照图5，一种计算机可读存储介质，非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现上述任一项所述的方法。

一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述任一项所述的方法。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种多类别目标检测的方法，其特征在于，包括：

搜索待检测图像中第一类目标及第二类目标，并获得定位框，包括：

所述轻量级卷积神经网络包括七个输出层，每个输出层由定位和分类两个分支组成，定位分支得到定位框，分类分支得到该定位框属于第一类目标第二类目标的概率；

分类定位框内的图像，并获得背景概率及目标概率；

过滤分类不确定的所述定位框内的图像，并获得检测结果。

2.根据权利要求1所述的多类别目标检测的方法，其特征在于，分类定位框内的图像，并获得背景概率及目标概率包括：

3.根据权利要求2所述的多类别目标检测的方法，其特征在于，过滤分类不确定的所述定位框内的图像，并获得检测结果包括：

若P1>T，且P1/P2>1000，则判定为第一类目标；

若P2>T，且P1/P2>1000，则判定为第二类目标；

其他情况，判定为背景。

4.根据权利要求3所述的多类别目标检测的方法，其特征在于，在原图中截取所有定位框，并将图像缩放到预定尺寸。

5.根据权利要求4所述的多类别目标检测的方法，其特征在于，所述预定尺寸为128x128。

6.一种多类别目标检测的系统，其特征在于，包括：定位模块、分类模块和对比过滤模块；

若P1>T，且P1/P2>1000，则判定为第一类目标；

若P2>T，且P1/P2>1000，则判定为第二类目标；

其他情况，判定为背景。

7.一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的方法。

8.一种计算机可读存储介质，其内存储有计算机程序，其特征在于，所述计算机程序在由处理器执行时实现如权利要求1-5中任一项所述的方法。