CN106557778A

CN106557778A - 通用物体检测方法和装置、数据处理装置和终端设备

Info

Publication number: CN106557778A
Application number: CN201610918213.1A
Authority: CN
Inventors: 李步宇; 闫俊杰
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-06-17
Filing date: 2016-10-20
Publication date: 2017-04-05
Anticipated expiration: 2036-10-20
Also published as: CN106557778B

Abstract

本发明实施例公开了一种通用物体检测方法和装置、数据处理装置和终端设备，其中，方法包括：通过第一CNN对所述图像进行物体定位，获得L个物体候选框；通过第二CNN对所述L个物体候选框进行再筛选，获得M个物体候选框；通过第三CNN，分别对所述M个物体候选框中的每个候选框进行物体分类，获得所述M个物体候选框对应的预测物体类别。本发明实施例可以提高通用物体检测结果的准确率。

Description

通用物体检测方法和装置、数据处理装置和终端设备

技术领域

本发明涉及数据处理技术，尤其是一种通用物体检测方法和装置、数据处理装置和终端设备。

背景技术

随着大数据时代的到来，产生的视频图像数据与日俱增，迫切需要计算机智能地分析和理解这些视频图像数据。在此背景下，计算机视觉技术应运而生。在众多计算机视觉技术中，物体检测属于图像分析和理解中关键任务。物体检测是指给定图片或视频，让计算机自动地从视频、图像中找出特定类别的物体并确定它们的位置。这些特定类别的物体从最基本的人脸、行人、车辆到更广泛的动物、家具等成百上千类常见物体。通用物体检测则是将物体检测的范围拓展至上百种物体类别，以便涵盖生活中常见的大多数类别的物体。

目前常用的物体检测方法，大多采用二级结构的方法，即：先找出一幅图像中所有的物体，再确定每一个物体所属的类别。这类二级结构的方法，将物体检测分解为物体定位和物体分类这两个级联的、较为简单的任务，针对性地对每个较为简单的任务地设计解决算法，以在整个困难的任务上取得卓越的性能。

其中，对于处理物体定位任务来说，目前效果较为突出的方法是候选区域网络(Region Proposal Network，RPN)方法。RPN方法属于监督分类方法，通过设计一个拥有强学习能力的卷积神经网络(Convolutional Neural Network,CNN)作为分类网络，遍历图像或视频中所有感兴趣的位置和物体尺度，获得物体候选框，并逐个判断每个候选框是否物体。

发明内容

本发明实施例提供一种通用物体检测技术方案。

根据本发明实施例的一个方面，提供一种通用物体检测方法，包括：

接收图像；

通过第一卷积神经网络CNN对所述图像进行物体定位，获得L个物体候选框；其中，L为大于0的整数；

通过第二CNN对所述L个物体候选框进行再筛选，获得M个物体候选框；其中，M为大于0的整数，且L>M；

通过第三CNN，分别对所述M个物体候选框中的每个候选框进行物体分类，获得所述M个物体候选框对应的预测物体类别。

根据本发明实施例的另一个方面，提供一种通用物体检测装置，包括：

物体初定位处理单元，用于通过第一卷积神经网络CNN对接收到的图像进行物体定位，获得L个物体候选框；其中，L为大于0的整数；

物体再筛选处理单元，用于通过第二CNN对所述L个物体候选框进行再筛选，获得M个物体候选框；其中，M为大于0的整数，且L>M；

物体多分类处理单元，用于通过第三CNN，分别对所述M个物体候选框中的每个候选框进行物体分类，获得所述M个物体候选框对应的预测物体类别。

根据本发明实施例的又一个方面，提供一种数据处理装置，其特征在于，耦合设置有上述任一实施例所述的通用物体检测装置。

根据本发明实施例的再一个方面，提供一种终端设备，设置上述任一实施例所述的数据处理装置。

根据本发明实施例的再一个方面，提供一种计算机设备，包括：

存储器，存储可执行指令；

一个或多个处理器，与存储器通信以执行可执行指令从而完成本发明上述任一实施例的通用物体检测方法对应的操作。

根据本发明实施例的再一个方面，提供一种计算机存储介质，用于存储计算机可读取的指令，所述指令包括：接收图像的指令；通过第一卷积神经网络CNN对所述图像进行物体定位，获得L个物体候选框的指令，其中，L为大于0的整数；通过第二CNN对所述L个物体候选框进行再筛选，获得M个物体候选框的指令，其中，M为大于0的整数，且L>M；通过第三CNN，分别对所述M个物体候选框中的每个候选框进行物体分类，获得所述M个物体候选框对应的预测物体类别的指令。

基于本发明上述实施例提供的通用物体检测方法和装置、数据处理装置和终端设备，在物体初定位阶段进行物体定位获得置信度最高的L个物体候选框之后，还通过第二CNN对该L个物体候选框进行再筛选，然后再进行物体分类。由于物体定位是针对图像中不同物体尺度的候选框进行处理，第一CNN需要适用于所有物体尺度，对物体的定位精度较低，本发明实施例进一步通过物体再筛选处理环节，第二CNN针对性地对物体初定位得到的L个物体候选框进行再筛选，由于第二CNN仅针对特定的物体尺度，提高了对物体候选框的识别效果和定位精度，有助于提升后续对物体候选框的分类精度，从而提高了整个通用物体检测结果的准确率。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明通用物体检测方法一个实施例的流程图。

图2为本发明通用物体检测方法另一个实施例的流程图。

图3为本发明通用物体检测方法又一个实施例的流程图。

图4为本发明通用物体检测装置一个实施例的结构示意图。

图5为本发明通用物体检测装置另一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

图1为本发明通用物体检测方法一个实施例的流程图。如图1所示，该实施例的通用物体检测方法包括：

102，接收图像。

104，通过第一CNN对图像进行物体定位，获得L个物体候选框。

其中，L为大于0的整数。

该操作104进行物体定位的过程，在本发明实施例中可以称为在物体初定位阶段。在其中一个具体示例中，该物体初定位阶段具体执行的操作可以包括：通过第一CNN遍历图像中所有感兴趣的位置和物体尺度，对搜索到的所有物体候选框进行非极大值抑制，获得置信度最高的L个物体候选框

106，通过第二CNN对上述L个物体候选框进行再筛选，获得M个物体候选框。

其中，M为大于0的整数，且L>M。

该操作106进行再筛选的过程，在本发明实施例中可以称为在物体再筛选阶段。在其中一个具体示例中，该物体再筛选阶段具体执行的操作可以包括：通过第二CNN对上述L个物体候选框进行再筛选、位置微调与非极大值抑制，获得置信度最高的M个物体候选框。

108，通过第三CNN，分别对上述M个物体候选框中的每个候选框进行物体分类，获得M个物体候选框对应的预测物体类别。

该操作108进行再筛选的过程，在本发明实施例中可以称为在物体多分类阶段。在其中一个具体示例中，该物体多分类阶段具体执行的操作可以包括：利用基于CNN的物体分类方法，分别对上述M个物体候选框中的每个候选框进行多物体类别分类和位置微调，获得M个物体候选框对应的物体检测框和预测物体类别；对M个物体候选框对应的物体检测框进行非极大值抑制，获得N个物体检测框及其对应的预测物体类别；其中，N为大于0的整数，且M>N。另外，还可以选择性地获得该N个物体检测框对应的预测置信度。

在实现本发明的过程中，发明人发现，现有技术二级结构的物体检测方法至少存在以下问题：在物体定位中，监督学习方法产生的物体候选框中，仍存在大量的非物体候选框，且定位精度一般，在需要检测的物体类别增加时，监督学习方法所使用算法性能的上升曲线随着待处理数据量的增多达到瓶颈，对于同时进行的上百种物体类别的通用物体检测，定位精度较低，这就导致最终检测结果的准确率较低。

基于本发明上述实施例提供的通用物体检测方法，在物体初定位阶段进行物体定位获得置信度最高的L个物体候选框之后，还通过第二CNN对该L个物体候选框进行再筛选，然后再进行物体分类。由于物体定位是针对图像中不同物体尺度的候选框进行处理，第一CNN需要适用于所有物体尺度，对物体的定位精度较低，本发明实施例进一步通过物体再筛选处理环节，第二CNN针对性地对物体初定位得到的L个物体候选框进行再筛选，由于第二CNN仅针对特定的物体尺度，提高了对物体候选框的识别效果和定位精度，有助于提升后续对物体候选框的分类精度，从而提高了整个通用物体检测结果的准确率。

图2为本发明通用物体检测方法另一个实施例的流程图。如图2所示，与图1所示的实施例相比，该实施例的通用物体检测方法在图1所示实施例的操作108之后，还包括：

202，通过第四CNN，对上述N个物体检测框按照物体类别进行聚类和物体细分类，获得修正后的预测物体类别。

该操作202进行再筛选的过程，在本发明实施例中可以称为在物体细分类阶段。在其中一个具体示例中，该物体细分类阶段具体执行的操作可以包括：

通过第四CNN，对上述N个物体检测框按照物体类别聚类，从该N个物体检测框中剔除非物体类别的物体检测框，获得P类物体检测框；其中，P为大于0的整数，且N>P；

利用基于CNN的物体分类方法，分别对P类物体检测框中的每一类物体检测框进行物体类别细分类，获得P类物体检测框修正后的预测物体类别和修正后的预测置信度；

输出P类物体检测框及其对应的修正后的预测物体类别和修正后的预测置信度。

图3为本发明通用物体检测方法又一个实施例的流程图。如图3所示，该实施例的通用物体检测方法包括：

302，接收图像。

304，在物体初定位阶段，通过第一CNN遍历接收到的图像中所有感兴趣的位置和物体尺度，对搜索到的所有物体候选框进行非极大值抑制，剔除其中重叠度较高的物体候选框，获得置信度最高的L个物体候选框。

其中，L为大于0的整数，具体取值可以根据检测需求确定并可以更改，例如L的取值可以为2000。

感兴趣的位置和物体尺度可以根据需求预先设定。实际应用中，感兴趣的位置具体可以是：所有位置，或者按照最小单位划分出的多个小方格中特定的小方格位置；感兴趣的物体尺度，例如可以是720X1080像素的尺度。

306，在物体再筛选阶段，通过第二CNN对上述L个物体候选框进行再筛选、位置微调与非极大值抑制，获得置信度最高的M个物体候选框。

其中，M为大于0的整数，且L>M。M的具体取值可以根据检测需求确定并可以更改，例如M的取值可以为300。

具体地，可以在CNN训练阶段，学习得到位置的微调量，基于微调量进行位置微调，使得候选框逐步偏向对应真实物体的标准框，从而使定位结果更准确。

308，在物体多分类阶段，通过第三CNN，利用基于CNN的物体分类方法，分别对上述M个物体候选框中的每个候选框进行多物体类别分类和位置微调，获得M个物体候选框对应的物体检测框和预测物体类别。

在物体多分类阶段，在对每个候选框进行多物体类别分类后，根据物体类别有针对性的进行位置微调，可以进一步提高定位结果的准确性。

310，对上述M个物体候选框对应的物体检测框进行非极大值抑制，获得N个物体检测框及其对应的预测物体类别和预测置信度。

对上述M个物体候选框中的每个候选框进行多物体类别分类后，可以获得一个物体候选框被分类为多种物体类别的置信度(即：概率)，例如被分类为汽车、火车的置信度分别为0.3、0.7，则从中选取一个最高置信度作为预测置信度，该最高置信度对应的物体类别即为预测物体类别。同一个物体候选框被分类为多种物体类别的置信度之和为1。

其中，该操作310也属于物体多分类阶段的操作。

该实施例提供的通用物体检测方法中，在物体初定位阶段进行物体定位获得置信度最高的L个物体候选框之后，增加了物体再筛选处理环节，通过第二CNN对该L个物体候选框进行再筛选、位置微调与非极大值抑制，获得置信度最高的M个物体候选框，然后再进行物体多分类，利用基于CNN的物体分类方法，分别对该M个物体候选框中的每个候选框进行多物体类别分类和位置微调、非极大值抑制，获得N个物体检测框及其对应的预测物体类别。由于物体初定位阶段，针对图像中不同物体尺度的候选框进行处理，第一CNN需要适用于所有物体尺度，对物体的定位精度较低，本发明实施例进一步通过物体再筛选处理环节，第二CNN针对性地对物体初定位得到的L个物体候选框进行再筛选、位置微调与非极大值抑制，由于第二CNN仅针对特定的物体尺度，而对物体候选框进行了位置微调，提高了对物体候选框的识别效果和定位精度，有助于提升后续对物体候选框的分类精度，从而提高了整个通用物体检测结果的准确率。

对于物体分类任务来说，目前效果最突出的方法是基于CNN的方法。本发明实施例中，可以预先从各种途径获得物体图像并对物体图像进行训练，例如，可以通过搜索引擎搜索各种物体的图片，或收取手机终端用户上传到网络的各种物体图片，对所有图片中的图像标注数据，即：标注每个图片中图像的物体类别，例如车、猫、花、树等。CNN具有出色的模型表达能力，在拥有大量标注数据的情况下，CNN能够从大量标注数据中自动学习出图像与标注数据之间的隐含关联。借助于各种物体图像与其物体类别之间的关联关系，在进行物体分类时，CNN基于这些便可以有效对图像中的物体进行分类。并在对图像中物体分类任务上取得接近人类的精度。

312，在物体细分类阶段，通过第四CNN，对上述N个物体检测框按照物体类别聚类，从N个物体检测框中剔除非物体类别的物体检测框，获得P类物体检测框。

其中，P为大于0的整数，且N>P。

314，利用基于CNN的物体分类方法，分别对上述P类物体检测框中的每一类物体检测框进行物体类别细分类，获得P类物体检测框修正后的预测物体类别和修正后的预测置信度。

示例性地，本发明实施例基于CNN的物体分类方法可以包括但不限于：区域卷积神经网络(RCNN)、快速卷积神经网络(Fast RCNN)、或加快卷积神经网络(Faster RCNN)。

另外，该操作304可以示例性地通过如下方式实现，分别对P类物体检测框中的每一类物体检测框，执行如下操作：

对每一类物体检测框进行物体类别细分类，获得该类物体检测框对应的、修正后的预测物体类别和新预测置信度；

将该类物体检测框在物体多分类阶段对应的预测置信度与新预测置信度按照预设加权方式进行计算，获得该类物体检测框对应的、修正后的预测置信度。

例如，假设在物体多分类阶段，通过第三CNN将某一个物体检测框对应的预测物体类别判定为摩托车的预测置信度x为0.7，在物体细分类阶段，通过第四CNN将对应的物体检测框判定为摩托车的预测置信度z为0.9，则可以根据y＝Ax+Bz，计算获得相应的修正后的预测置信度y。其中，A、B的取值为大于0的数，A与B的取值之和为1。

基于上述对物体多分类阶段和物体细分类阶段获得的预测置信度进行加权方式，对物体检测框的预测置信度进行修正，相对于直接采用通过物体细分类阶段获得的预测置信度作为最终预测置信度的方式来说，可以使得对物体分类结果的判断更加全面、客观，从而可以提高物体检测结果的准确率和鲁棒性。

316，输出P类物体检测框及其对应的修正后的预测物体类别和修正后的预测置信度。

其中，上述操作302～306也属于物体多分类阶段的操作。

在实现本发明的过程中，发明人通过研究发现，在现有技术二级结构的物体检测方法的物体分类中，由于物体候选框中存在大量非物体候选框，即图像中的背景，导致CNN在学习数据内在结构时过多地关注背景部分，而缺少对每类物体细微变化的关注，表现在最终的检测结果上就是存在大量因外形相似而产生的虚检，例如将大树错误分类为盆栽。

本发明实施例在进行物体多分类阶段的处理后，进一步增加了物体细分类阶段的处理，通过第四CNN对物体多分类得到的N个物体检测框按照物体类别聚类，剔除其中非物体类别(即：背景)的物体检测框，获得P类物体检测框并分别对其中的每一类物体检测框进行物体类别细分类，由于此时第四CNN只针对某一类特定的物体类别，因此可以感知每类物体的细微特征变化，例如外观形态、体型、行为上的变化，高精度地对该类物体进行判断，进而修正物体多分类阶段输出的预测置信度和预测物体类别，例如物体多分类阶段判定某一物体检测框为摩托车的预测置信度为0.7，用摩托车对应的第四CNN对该物体检测框再判断一次，判定该物体检测框为摩托车的预测置信度为0.9。从而减少因不同类别物体外形相似而产生的虚检，提高了检测结果的精确性。由此，本发明实施例将整个通用物体检测框架从传统的物体定位+物体分类的二级结构更改为了一个四级结构，即，包括：物体初定位+物体再筛选+物体多分类+物体细分类。基于该新的四级结构的通用物体检测框架，改善了现有技术物体候选框存在大量背景、缺少对每类物体细微变化的关注导致检测结果中存在大量虚检的问题，提升了通用物体检测结果的整体性能指标，且可以支持对更多类别物体的同时检测。

该模块输出的是剔除背景后的物体检测框以及相对应的预测类别和修正后的预测置信度。3+4与现有技术的物体分类的区别在哪里？采用的是R-CNN[4]或Fast R-CNN：框架用Fast R-CNN，每一类单独定义

在上述实施例的通用物体检测方法中，可以设置第二CNN中卷积层的数量大于第一CNN中卷积层的数量，即物体再筛选阶段使用的第二CNN比物体初定位阶段使用的第一CNN网络结构更深，例如，卷积层的层数更多，每个卷积层的节点数更多。从而使得第二CNN可以学习更复杂、难度更大的任务，从而使得对物体候选框的定位更精确、最终对物体的分类更准确。

在上述各通用物体检测方法实施例的一个具体示例中，物体初定位阶段具体可以包括：

通过区域候选网络(RPN)遍历图像中所有感兴趣的位置和物体尺度，分别对遍历到的所有候选框中每个位置、每个物体尺度上的候选框进行二分类，判断每个候选框属于物体候选框的概率；

对所有候选框进行非极大值抑制，获得置信度最高的L个物体候选框。

在上述各通用物体检测方法实施例的另一个具体示例中，物体再筛选阶段具体可以包括：

基于感兴趣区域池化(ROI-Pooling)网络，对L个物体候选框进行二分类，从L个物体候选框中剔除非物体候选框；

对剔除非物体候选框后的其余物体候选框进行位置微调与非极大值抑制，获得置信度最高的M个物体候选框。

进一步地，在上述各通用物体检测方法实施例中，还可以包括：在网络训练阶段，从一个以上图像中感兴趣的位置进行特征提取和反复优化，得到优化特征。

则相应地，在上述各通用物体检测方法实施例的物体初定位阶段，具体可以通过如下方式判断每个候选框属于物体候选框的概率包括：

分别针对每个候选框，利用第一CNN提取候选框中图片的特征；

基于优化特征对提取的候选框中图片的特征进行二分类，获得候选框中图片的特征是否优化特征的概率作为每个候选框是否属于物体候选框的概率。

类似地，在物体再筛选阶段，对L个物体候选框进行二分类，从L个物体候选框中剔除非物体候选框，具体可以通过如下方式实现：

分别针对L个物体候选框中的每个候选框，利用第二CNN提取候选框中图片的特征；

利用第二CNN中的ROI-Pooling网络，基于优化特征对提取的候选框中图片的特征进行二分类，获得候选框中图片的特征是否优化特征的概率作为每个候选框是否属于物体候选框的概率；

若候选框属于物体的概率小于候选框不属于物体候选框的概率，则该候选框为非物体候选框，从L个物体候选框中剔除非物体候选框，获得其余物体候选框。

在上述各通用物体检测方法实施例的又一个具体示例中，物体多分类阶段具体包括：

基于ROI-Pooling网络，分别对M个物体候选框中的每个候选框进行多物体类别分类和位置微调，选取最高置信度对应的类别作为该候选框的预测物体类别，以最高置信度作为该预测物体类别的预测置信度；

对位置微调后的M个物体候选框进行非极大值抑制，获得N个物体候选框及其对应的预测物体类别和预测置信度。

另外，在上述各通用物体检测方法实施例中，还可以包括：

在网络训练阶段，对所有物体的图像和候选框进行特征提取，形成全图特征并存储，其中的全图特征例如可以包括所有物体和候选框的特征；

对第一CNN、第二CNN、第三CNN和第四CNN进行训练，获得第一CNN、第二CNN、第三CNN和第四CNN的网络参数并存储。

其中，第一CNN和第二CNN的网络参数包括适用于所有位置、对应于不同物体尺度的网络参数；第二CNN的网络参数包括适用于所有位置的网络参数；第三CNN和第四CNN的网络参数包括适用于所有位置、对应于不同物体类别的网络参数。

进一步地，在上述各通用物体检测方法实施例的物体初定位阶段，分别对遍历到的所有候选框中每个位置、每个物体尺度上的候选框进行二分类之前，还可以包括：

基于全图特征中候选框的特征，分别识别出针对遍历到的每个位置、每个物体尺度上的候选框作为当前候选框；

获取当前候选框的物体尺度对应的第一CNN的网络参数，以便利用获取到的全连接层的网络参数对当前候选框进行物体初定位阶段的后续处理。

在上述各通用物体检测方法实施例的物体再筛选阶段，对L个物体候选框进行二分类之前，还可以包括：

基于所述全图特征中候选框的特征，分别识别出所述L个物体候选框中的每个候选框；

获取当前候选框的物体尺度对应的第二CNN中的网络参数，以便利用获取到的网络参数对所述提取的候选框进行物体再筛选阶段的后续处理。

在上述物体初定位和物体再筛选阶段，分别基于各物体尺度对应的CNN网络参数对相应候选框进行分类处理，可以提高分类结果。

在上述各通用物体检测方法实施例的物体多分类阶段，对M个物体候选框中的每个候选框进行多物体类别分类之前，还可以包括：基于全图特征中候选框的特征，分别识别出M个物体候选框中的每个候选框。相应地，对M个物体候选框中的每个候选框进行多物体类别之后，还可以包括：从第三CCN的网络参数中获取M个物体候选框中的每个候选框的预测物体类别对应的网络参数，以便基于每个候选框的预测物体类别对应的网络参数对相应候选框进行物体多分类阶段的后续处理。

在上述各通用物体检测方法实施例的物体细分类阶段，对N个物体检测框按照物体类别聚类之前，还可以包括：基于全图特征中候选框的特征，分别识别出N个物体候选框中的每个候选框。相应地，获得P类物体检测框修正后的预测物体类别之后，还可以包括：分别从第四CCN的网络参数中获取修正后的每一类预测物体类别对应的网络参数，以便基于修正后的每一类预测物体类别对应的网络参数对相应的一类物体检测框进行物体细分类阶段的后续处理。

在上述物体多分类和物体细分类阶段，分别基于各预测物体类别对应的网络参数对相应候选框进行分类处理，可以提高分类结果。

本发明实施例的通用物体检测方法实施例中，可以共享全图特征中候选框的特征，不用单独抽取每个候选框的特征，并且每个候选框的分类过程可以共享相应CNN的网络参数，由此，节约了系统存储资源，并且提高了分类过程中的处理速度和整个通用物体检测效率。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图4为本发明通用物体检测装置一个实施例的结构示意图。该实施例的通用物体检测装置可用于实现本发明上述各通用物体检测方法实施例。如图4所示，该实施例的通用物体检测装置包括：物体初定位处理单元，物体再筛选处理单元和物体多分类处理单元。其中：

物体初定位处理单元，用于通过第一卷积神经网络CNN对接收到的图像进行物体定位，获得L个物体候选框；其中，L为大于0的整数。

在其中一个具体示例中，该物体初定位处理单元具体用于接收图像；通过第一CNN遍历接收到的图像中所有感兴趣的位置和物体尺度，对搜索到的所有物体候选框进行非极大值抑制，获得置信度最高的L个物体候选框。

物体再筛选处理单元，用于通过第二CNN对所述L个物体候选框进行再筛选，获得M个物体候选框。

在其中一个具体示例中，该物体再筛选处理单元具体用于通过第二CNN对上述L个物体候选框进行再筛选、位置微调与非极大值抑制，获得置信度最高的M个物体候选框；其中，M为大于0的整数，且L>M。

在其中一个具体示例中，该物体多分类处理单元具体用于通过第三CNN，利用基于CNN的物体分类方法，例如RCNN、Fast RCNN、或Faster RCNN，分别对上述M个物体候选框中的每个候选框进行多物体类别分类和位置微调，获得M个物体候选框对应的物体检测框和预测物体类别；以及对M个物体候选框对应的物体检测框进行非极大值抑制，获得N个物体检测框及其对应的预测物体类别。另外，物体多分类处理单元还可以选择性地获得该N个物体检测框对应的预测置信度。

基于本发明上述实施例提供的通用物体检测装置，在物体初定位阶段进行物体定位获得置信度最高的L个物体候选框之后，还通过第二CNN对该L个物体候选框进行再筛选，然后再进行物体分类。由于物体定位是针对图像中不同物体尺度的候选框进行处理，第一CNN需要适用于所有物体尺度，对物体的定位精度较低，本发明实施例进一步通过物体再筛选处理环节，第二CNN针对性地对物体初定位得到的L个物体候选框进行再筛选，由于第二CNN仅针对特定的物体尺度，提高了对物体候选框的识别效果和定位精度，有助于提升后续对物体候选框的分类精度，从而提高了整个通用物体检测结果的准确率。

图5为本发明通用物体检测装置另一个实施例的结构示意图。如图5所示，与图4所示实施例的通用物体检测装置相比，该实施例的通用物体检测装置还包括物体细分类处理单元，用于通过第四CNN，对所述N个物体检测框按照物体类别进行聚类和物体细分类，获得修正后的预测物体类别。

在其中一个具体示例中，该物体细分类处理单元具体用于：

通过第四CNN，对N个物体检测框按照物体类别聚类，从N个物体检测框中剔除非物体类别的物体检测框，获得P类物体检测框；其中，P为大于0的整数，且N>P；

利用基于CNN的物体分类方法，例如RCNN、Fast RCNN、或Faster RCNN，分别对P类物体检测框中的每一类物体检测框进行物体类别细分类，获得P类物体检测框修正后的预测物体类别和修正后的预测置信度；以及

示例性地，物体细分类处理单元具体可以对P类物体检测框中的每一类物体检测框进行物体类别细分类，获得P类物体检测框对应的、修正后的预测物体类别和新预测置信度；将P类物体检测框在物体多分类阶段对应的预测置信度与新预测置信度按照预设加权方式进行计算，获得P类物体检测框对应的、修正后的预测置信度。由于对物体多分类阶段和物体细分类阶段获得的预测置信度进行加权方式，对物体检测框的预测置信度进行修正，使得对物体分类结果的判断更加全面、客观，从而可以提高物体检测结果的准确率和鲁棒性。

在本发明各通用物体检测装置实施例的一个具体示例中，第二CNN中卷积层的数量大于第一CNN中卷积层的数量。

在本发明各通用物体检测装置实施例的另一个具体示例中，物体初定位处理单元具体用于：通过区域候选网络RPN遍历图像中所有感兴趣的位置和物体尺度，分别对遍历到的所有候选框中每个位置、每个物体尺度上的候选框进行二分类，判断每个候选框属于物体候选框的概率；以及对所有候选框进行非极大值抑制，获得置信度最高的L个物体候选框。

在本发明各通用物体检测装置实施例的又一个具体示例中，物体再筛选处理单元具体用于：基于ROI-Pooling网络，对L个物体候选框进行二分类，从L个物体候选框中剔除非物体候选框；以及对剔除非物体候选框后的其余物体候选框进行位置微调与非极大值抑制，获得置信度最高的M个物体候选框。

在本发明各通用物体检测装置实施例的再一个具体示例中，物体多分类处理单元具体用于：基于ROI-Pooling网络，分别对M个物体候选框中的每个候选框进行多物体类别分类和位置微调，选取最高置信度对应的类别作为该候选框的预测物体类别，以最高置信度作为该预测物体类别的预测置信度；以及对位置微调后的M个物体候选框进行非极大值抑制，获得N个物体候选框及其对应的预测物体类别和预测置信度。

进一步地，再参见图5，在本发明通用物体检测装置的又一个实施例中，还可以包括：特征提取单元和第一存储单元。其中：

特征提取单元，用于在网络训练阶段，从一个以上图像中感兴趣的位置进行特征提取和优化，得到优化特征；

第一存储单元，用于存储优化特征。

则在本发明通用物体检测装置的进一步实施例中，物体初定位处理单元判断每个候选框属于物体候选框的概率时，具体可用于：分别针对每个候选框，利用第一CNN提取候选框中图片的特征；以及基于优化特征对提取的候选框中图片的特征进行二分类，获得候选框中图片的特征是否优化特征的概率作为每个候选框是否属于物体候选框的概率。

同样地，物体初定位处理单元对L个物体候选框进行二分类，从L个物体候选框中剔除非物体候选框时，具体可用于：分别针对L个物体候选框中的每个候选框，利用ROI-Pooling网络提取候选框中图片的特征；基于优化特征对提取的候选框中图片的特征进行二分类，获得候选框中图片的特征是否优化特征的概率作为每个候选框是否属于物体候选框的概率；若候选框属于物体的概率小于候选框不属于物体候选框的概率，则该候选框为非物体候选框，从L个物体候选框中剔除非物体候选框，获得其余物体候选框。

在图5所示通用物体检测装置的再一个实施例中，特征提取单元还可用于在网络训练阶段，对所有物体的图像和候选框进行特征提取，形成全图特征并存储在第一存储单元中，其中的全图特征包括所有物体和候选框的特征。相应地，再参见图5，该实施例的通用物体检测装置还可以包括：网络训练单元和第二存储单元。其中：

网络训练单元，用于对第一CNN、第二CNN、第三CNN和第四CNN进行训练，获得第一CNN、第二CNN、第三CNN和第四CNN的网络参数并存储在第二存储单元中。

第二存储单元，用于存储第一CNN、第二CNN、第三CNN和第四CNN的网络参数。

其中，第一CNN和第二CNN的网络参数包括适用于所有位置、对应于不同物体尺度的网络参数；所述第二CNN的网络参数包括适用于所有位置的网络参数；第三CNN和第四CNN的网络参数包括适用于所有位置、对应于不同物体类别的网络参数。

进一步地，在本发明上述各通用物体检测装置实施例中，物体初定位处理单元还可用于：在分别对遍历到的所有候选框中每个位置、每个物体尺度上的候选框进行二分类之前，基于全图特征中候选框的特征，分别识别出针对遍历到的每个位置、每个物体尺度上的候选框作为当前候选框；以及获取当前候选框的物体尺度对应的第一CNN中的网络参数，以便利用获取到的全连接层的网络参数对当前候选框进行相应处理。

另外，物体再筛选处理单元还可用于：在对L个物体候选框进行二分类之前，基于所述全图特征中候选框的特征，分别识别出所述L个物体候选框中的每个候选框；以及获取当前候选框的物体尺度对应的第二CNN的网络参数，以便利用获取到的网络参数对所述提取的候选框进行相应处理。

物体多分类处理单元单元还可用于：在对M个物体候选框中的每个候选框进行多物体类别分类之前，基于全图特征中候选框的特征，分别识别出M个物体候选框中的每个候选框；以及在对M个物体候选框中的每个候选框进行多物体类别之后，从第三CCN的网络参数中获取M个物体候选框中的每个候选框的预测物体类别对应的网络参数，以便基于每个候选框的预测物体类别对应的网络参数对相应候选框进行物体多分类阶段的后续处理。

物体细分类处理单元还可用于：对N个物体检测框按照物体类别聚类之前，基于全图特征中候选框的特征，分别识别出N个物体候选框中的每个候选框；以及在获得P类物体检测框修正后的预测物体类别之后，分别从第四CCN的网络参数中获取修正后的每一类预测物体类别对应的网络参数，以便基于修正后的每一类预测物体类别对应的网络参数对相应的一类物体检测框进行物体细分类阶段的后续处理。

另外，本发明实施例还提供了一种数据处理装置，该数据处理装置中耦合设置有上述图4～图5任一实施例的通用物体检测装置。

本发明实施例的数据处理装置具体可以是任意具有数据处理功能的装置，例如可以包括但不限于：进阶精简指令集机器(ARM)、中央处理单元(CPU)或图形处理单元(GPU)等。

基于本发明上述实施例提供的数据处理装置，设置有上述实施例的通用物体检测装置，在物体初定位阶段进行物体定位获得置信度最高的L个物体候选框之后，还通过第二CNN对该L个物体候选框进行再筛选，然后再进行物体分类。由于物体定位是针对图像中不同物体尺度的候选框进行处理，第一CNN需要适用于所有物体尺度，对物体的定位精度较低，本发明实施例进一步通过物体再筛选处理环节，第二CNN针对性地对物体初定位得到的L个物体候选框进行再筛选，由于第二CNN仅针对特定的物体尺度，提高了对物体候选框的识别效果和定位精度，有助于提升后续对物体候选框的分类精度，从而提高了整个通用物体检测结果的准确率。

进一步地，本发明实施例还提供了一种终端设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等，该终端设备设置有本发明任一实施例的数据处理装置。

基于本发明上述实施例提供的终端设备，设置有上述实施例的数据处理装置，在物体初定位阶段进行物体定位获得置信度最高的L个物体候选框之后，还通过第二CNN对该L个物体候选框进行再筛选，然后再进行物体分类。由于物体定位是针对图像中不同物体尺度的候选框进行处理，第一CNN需要适用于所有物体尺度，对物体的定位精度较低，本发明实施例进一步通过物体再筛选处理环节，第二CNN针对性地对物体初定位得到的L个物体候选框进行再筛选，由于第二CNN仅针对特定的物体尺度，提高了对物体候选框的识别效果和定位精度，有助于提升后续对物体候选框的分类精度，从而提高了整个通用物体检测结果的准确率。

在一个具体示例中，用于实现本发明实施例的终端设备或服务器的计算机系统包括中央处理单元(CPU)，其可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。中央处理单元可与只读存储器和/或随机访问存储器中通信以执行可执行指令从而完成本申请实施例提供的任一项通用物体检测方法对应的操作，例如：接收图像；通过第一卷积神经网络CNN对所述图像进行物体定位，获得L个物体候选框；其中，L为大于0的整数；通过第二CNN对所述L个物体候选框进行再筛选，获得M个物体候选框；其中，M为大于0的整数，且L>M；通过第三CNN，分别对所述M个物体候选框中的每个候选框进行物体分类，获得所述M个物体候选框对应的预测物体类别。

此外，在RAM中，还可存储有系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，所述程序代码可包括对应执行本申请实施例提供的任一项通用物体检测方法步骤对应的指令，例如，接收图像；通过第一卷积神经网络CNN对所述图像进行物体定位，获得L个物体候选框；其中，L为大于0的整数；通过第二CNN对所述L个物体候选框进行再筛选，获得M个物体候选框；其中，M为大于0的整数，且L>M；通过第三CNN，分别对所述M个物体候选框中的每个候选框进行物体分类，获得所述M个物体候选框对应的预测物体类别。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。

本发明实施例还提供了一种计算机设备，包括：

存储器，存储可执行指令；

另外，本发明实施例还提供了一种计算机存储介质，用于存储计算机可读取的指令，所述指令包括：接收图像的指令；通过第一卷积神经网络CNN对所述图像进行物体定位，获得L个物体候选框的指令，其中，L为大于0的整数；通过第二CNN对所述L个物体候选框进行再筛选，获得M个物体候选框的指令，其中，M为大于0的整数，且L>M；通过第三CNN，分别对所述M个物体候选框中的每个候选框进行物体分类，获得所述M个物体候选框对应的预测物体类别的指令。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明实施例中，终端设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。终端设备可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本发明实施例至少提供了以下技术方案：

1、一种通用物体检测方法，包括：

接收图像；

2、根据1所述的方法，所述第二CNN中卷积层的数量大于所述第一CNN中卷积层的数量。

3、根据1或2所述的方法，所述通过第一CNN对所述图像进行物体定位包括：在物体初定位阶段，通过第一CNN遍历所述图像中所有感兴趣的位置和物体尺度，对搜索到的所有物体候选框进行非极大值抑制，获得置信度最高的所述L个物体候选框；和/或

通过第二CNN对所述L个物体候选框进行再筛选包括：在物体再筛选阶段，通过第二CNN对所述L个物体候选框进行再筛选、位置微调与非极大值抑制，获得置信度最高的所述M个物体候选框；和/或

分别对所述M个物体候选框中的每个候选框进行物体分类包括：在物体多分类阶段，通过第三CNN，利用基于CNN的物体分类方法，分别对所述M个物体候选框中的每个候选框进行多物体类别分类和位置微调，获得所述M个物体候选框对应的物体检测框和预测物体类别；对所述M个物体候选框对应的物体检测框进行非极大值抑制，获得N个物体检测框及其对应的预测物体类别；其中，N为大于0的整数，且M>N。

4、根据3所述的方法，所述获得N个物体检测框及其对应的预测物体类别包括：获得N个物体检测框及其对应的预测物体类别和预测置信度；

所述获得N个物体检测框及其对应的预测物体类别之后，还包括：

通过第四CNN，对所述N个物体检测框按照物体类别进行聚类和物体细分类，获得修正后的预测物体类别。

5、根据4所述的方法，对所述N个物体检测框按照物体类别进行聚类和物体细分类包括：

在物体细分类阶段，通过第四CNN，对所述N个物体检测框按照物体类别聚类，从所述N个物体检测框中剔除非物体类别的物体检测框，获得P类物体检测框；其中，P为大于0的整数，且N>P；

利用基于CNN的物体分类方法，分别对P类物体检测框中的每一类物体检测框进行物体类别细分类，获得所述P类物体检测框修正后的预测物体类别和修正后的预测置信度；

输出所述P类物体检测框及其对应的修正后的预测物体类别和修正后的预测置信度。

6、根据3或5所述的方法，所述基于CNN的物体分类方法包括：区域卷积神经网络RCNN、快速卷积神经网络Fast RCNN、或加快卷积神经网络Faster RCNN。

7、根据3至6任意一项所述的方法，所述物体初定位阶段具体包括：

通过区域候选网络RPN遍历所述图像中所有感兴趣的位置和物体尺度，分别对遍历到的所有候选框中每个位置、每个物体尺度上的候选框进行二分类，判断每个候选框属于物体候选框的概率；

对所述所有候选框进行非极大值抑制，获得置信度最高的L个物体候选框。

8、根据3至7任意一项所述的方法，所述物体再筛选阶段具体包括：

基于感兴趣区域池化ROI-Pooling网络，对所述L个物体候选框进行二分类，从所述L个物体候选框中剔除非物体候选框；

9、根据3至8任意一项所述的方法，所述物体多分类阶段具体包括：

基于感兴趣区域池化ROI-Pooling网络，分别对所述M个物体候选框中的每个候选框进行多物体类别分类和位置微调，选取最高置信度对应的类别作为该候选框的预测物体类别，以最高置信度作为该预测物体类别的预测置信度；

对位置微调后的M个物体候选框进行非极大值抑制，获得所述N个物体候选框及其对应的预测物体类别和预测置信度。

10、根据4至9任意一项所述的方法，所述对P类物体检测框中的每一类物体检测框进行物体类别细分类，获得所述P类物体检测框修正后的预测物体类别和修正后的预测置信度包括：

对P类物体检测框中的每一类物体检测框进行物体类别细分类，获得所述P类物体检测框对应的、修正后的预测物体类别和新预测置信度；

将所述P类物体检测框在物体多分类阶段对应的预测置信度与所述新预测置信度按照预设加权方式进行计算，获得所述P类物体检测框对应的、修正后的预测置信度。

11、根据7至10任意一项所述的方法，还包括：

在网络训练阶段，从一个以上图像中感兴趣的位置进行特征提取和优化，得到优化特征；

所述判断每个候选框属于物体候选框的概率包括：

基于所述优化特征对提取的候选框中图片的特征进行二分类，获得候选框中图片的特征是否所述优化特征的概率作为每个候选框是否属于物体候选框的概率。

12、根据11所述的方法，对所述L个物体候选框进行二分类，从所述L个物体候选框中剔除非物体候选框包括：

分别针对所述L个物体候选框中的每个候选框，利用ROI-Pooling网络提取候选框中图片的特征；

基于所述优化特征对提取的候选框中图片的特征进行二分类，获得候选框中图片的特征是否所述优化特征的概率作为每个候选框是否属于物体候选框的概率；

若候选框属于物体的概率小于候选框不属于物体候选框的概率，则该候选框为非物体候选框，从所述L个物体候选框中剔除非物体候选框，获得所述其余物体候选框。

13、根据1至12任意一项所述的方法，还包括：

在网络训练阶段，对所有物体的图像和候选框进行特征提取，形成全图特征并存储，所述全图特征包括所有物体和候选框的特征；

对所述第一CNN、所述第二CNN、所述第三CNN和所述第四CNN进行训练，获得所述第一CNN、所述第二CNN、所述第三CNN和所述第四CNN的网络参数并存储；

其中，所述第一CNN和第二CNN的网络参数包括适用于所有位置、对应于不同物体尺度的网络参数；所述第三CNN和所述第四CNN的网络参数包括适用于所有位置、对应于不同物体类别的网络参数。

14、根据7至13任意一项所述的方法，所述分别对遍历到的所有候选框中每个位置、每个物体尺度上的候选框进行二分类之前，还包括：

基于所述全图特征中候选框的特征，分别识别出针对遍历到的每个位置、每个物体尺度上的候选框作为当前候选框；

获取当前候选框的物体尺度对应的第一CNN的网络参数，以便利用获取到的网络参数对当前候选框进行物体初定位阶段的后续处理。

15、根据13或14所述的方法，对所述L个物体候选框进行二分类之前，还包括：

16、根据13至15任意一项所述的方法，对所述M个物体候选框中的每个候选框进行多物体类别分类之前，还包括：基于所述全图特征中候选框的特征，分别识别出所述M个物体候选框中的每个候选框；

对所述M个物体候选框中的每个候选框进行多物体类别之后，还包括：从第三CCN的网络参数中获取所述M个物体候选框中的每个候选框的预测物体类别对应的网络参数，以便基于每个候选框的预测物体类别对应的网络参数对相应候选框进行物体多分类阶段的后续处理。

17、根据13至16任意一项所述的方法，对所述N个物体检测框按照物体类别聚类之前，还包括：基于所述全图特征中候选框的特征，分别识别出所述N个物体候选框中的每个候选框；

获得所述P类物体检测框修正后的预测物体类别之后，还包括：分别从第四CCN的网络参数中获取修正后的每一类预测物体类别对应的网络参数，以便基于修正后的每一类预测物体类别对应的网络参数对相应的一类物体检测框进行物体细分类阶段的后续处理。

18、一种通用物体检测装置，包括：

19、根据18所述的装置，所述第二CNN中卷积层的数量大于所述第一CNN中卷积层的数量。

20、根据18或19所述的装置，所述物体初定位处理单元，具体用于接收图像；通过第一卷积神经网络CNN遍历所述图像中所有感兴趣的位置和物体尺度，对搜索到的所有物体候选框进行非极大值抑制，获得置信度最高的L个物体候选框；和/或

所述物体再筛选处理单元，具体用于通过第二CNN对所述L个物体候选框进行再筛选、位置微调与非极大值抑制，获得置信度最高的M个物体候选框；和/或

所述物体多分类处理单元，具体用于通过第三CNN，利用基于CNN的物体分类方法，分别对所述M个物体候选框中的每个候选框进行多物体类别分类和位置微调，获得所述M个物体候选框对应的物体检测框和预测物体类别；以及对所述M个物体候选框对应的物体检测框进行非极大值抑制，获得N个物体检测框及其对应的预测物体类别；其中，N为大于0的整数，且M>N。

21、根据20所述的装置，所述物体多分类单元获得N个物体检测框及其对应的预测物体类别时，还获得N个物体检测框对应的预测置信度；

所述装置还包括，物体细分类处理单元，用于通过第四CNN，对所述N个物体检测框按照物体类别进行聚类和物体细分类，获得修正后的预测物体类别。

22、根据21所述的装置，所述物体细分类处理单元，具体用于：

通过第四CNN，对所述N个物体检测框按照物体类别聚类，从所述N个物体检测框中剔除非物体类别的物体检测框，获得P类物体检测框；其中，P为大于0的整数，且N>P；

利用基于CNN的物体分类方法，分别对P类物体检测框中的每一类物体检测框进行物体类别细分类，获得所述P类物体检测框修正后的预测物体类别和修正后的预测置信度；以及

23、根据20或22所述的装置，所述基于CNN的物体分类方法包括：区域卷积神经网络RCNN、快速卷积神经网络Fast RCNN、或加快卷积神经网络Faster RCNN。

24、根据20至23任意一项所述的装置，所述物体初定位处理单元，具体用于：

通过区域候选网络RPN遍历所述图像中所有感兴趣的位置和物体尺度，分别对遍历到的所有候选框中每个位置、每个物体尺度上的候选框进行二分类，判断每个候选框属于物体候选框的概率；以及

25、根据20至24任意一项所述的装置，所述物体再筛选处理单元具体用于：

26、根据20至25任意一项所述的装置，所述物体多分类处理单元具体用于：

27、根据22至26任意一项所述的装置，所述物体细分类处理单元对P类物体检测框中的每一类物体检测框进行物体类别细分类，获得所述P类物体检测框修正后的预测物体类别和修正后的预测置信度时，具体用于：

28、根据24至27任意一项所述的装置，还包括：

第一存储单元，用于存储所述优化特征；

所述物体初定位处理单元判断每个候选框属于物体候选框的概率时，具体用于：

29、根据28所述的装置，所述物体初定位处理单元对所述L个物体候选框进行二分类，从所述L个物体候选框中剔除非物体候选框时，具体用于：

30、根据18至29任意一项所述的装置，所述特征提取单元，还用于在网络训练阶段，对所有物体的图像和候选框进行特征提取，形成全图特征并存储在所述第一存储单元中，所述全图特征包括所有物体和候选框的特征；

所述装置还包括网络训练单元，用于对所述第一CNN、所述第二CNN、所述第三CNN和所述第四CNN进行训练，获得所述第一CNN、所述第二CNN、所述第三CNN和所述第四CNN的网络参数并存储在第二存储单元中；

所述第二存储单元，用于存储所述第一CNN、所述第二CNN、所述第三CNN和所述第四CNN的网络参数；

31、根据24至30任意一项所述的装置，所述物体初定位处理单元，还用于在分别对遍历到的所有候选框中每个位置、每个物体尺度上的候选框进行二分类之前：

获取当前候选框的物体尺度对应的第一CNN的网络参数，以便利用获取到的网络参数对当前候选框进行相应处理。

32、根据30或31所述的装置，所述物体再筛选处理单元，还用于在对所述L个物体候选框进行二分类之前：

获取当前候选框的物体尺度对应的第二CNN的网络参数，以便利用获取到的网络参数对所述提取的候选框进行相应处理。

33、根据30至32任意一项所述的装置，所述物体多分类处理单元单元，还用于：

在对所述M个物体候选框中的每个候选框进行多物体类别分类之前，基于所述全图特征中候选框的特征，分别识别出所述M个物体候选框中的每个候选框；以及在对所述M个物体候选框中的每个候选框进行多物体类别之后，从第三CCN的网络参数中获取所述M个物体候选框中的每个候选框的预测物体类别对应的网络参数，以便基于每个候选框的预测物体类别对应的网络参数对相应候选框进行物体多分类阶段的后续处理。

34、根据30至33任意一项所述的装置，所述物体细分类处理单元，还用于：

对所述N个物体检测框按照物体类别聚类之前，基于所述全图特征中候选框的特征，分别识别出所述N个物体候选框中的每个候选框；以及

在获得所述P类物体检测框修正后的预测物体类别之后，分别从第四CCN的网络参数中获取修正后的每一类预测物体类别对应的网络参数，以便基于修正后的每一类预测物体类别对应的网络参数对相应的一类物体检测框进行物体细分类阶段的后续处理。

35、一种数据处理装置，耦合设置有18至34任意一项所述的通用物体检测装置。

36、根据35所述的装置，所述数据处理装置包括进阶精简指令集机器ARM、中央处理单元CPU或图形处理单元GPU。

37、一种终端设备，设置有35或36所述的数据处理装置。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种通用物体检测方法，其特征在于，包括：

接收图像；

2.根据权利要求1所述的方法，其特征在于，所述第二CNN中卷积层的数量大于所述第一CNN中卷积层的数量。

3.根据权利要求1或2所述的方法，其特征在于，所述通过第一CNN对所述图像进行物体定位包括：在物体初定位阶段，通过第一CNN遍历所述图像中所有感兴趣的位置和物体尺度，对搜索到的所有物体候选框进行非极大值抑制，获得置信度最高的所述L个物体候选框；和/或

4.根据权利要求3所述的方法，其特征在于，所述获得N个物体检测框及其对应的预测物体类别包括：获得N个物体检测框及其对应的预测物体类别和预测置信度；

5.根据权利要求4所述的方法，其特征在于，对所述N个物体检测框按照物体类别进行聚类和物体细分类包括：

6.根据权利要求3或5所述的方法，其特征在于，所述基于CNN的物体分类方法包括：区域卷积神经网络RCNN、快速卷积神经网络FastRCNN、或加快卷积神经网络Faster RCNN。

7.根据权利要求3至6任意一项所述的方法，其特征在于，所述物体初定位阶段具体包括：

8.一种通用物体检测装置，其特征在于，包括：

9.一种数据处理装置，其特征在于，耦合设置有权利要求8所述的通用物体检测装置。

10.一种终端设备，其特征在于，设置有权利要求9所述的数据处理装置。