CN107492115B

CN107492115B - 目标对象的检测方法及装置

Info

Publication number: CN107492115B
Application number: CN201710765042.8A
Authority: CN
Inventors: 陈志军
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-08-30
Filing date: 2017-08-30
Publication date: 2021-01-01
Anticipated expiration: 2037-08-30
Also published as: CN107492115A

Abstract

本公开是关于一种目标对象的检测方法及装置，所述方法包括：检测目标对象在待处理视频的当前帧图像中的第一位置；在所述当前帧图像的下一帧图像中，根据所述第一位置确定扩大区域，所述扩大区域为在所述下一帧图像中的占据预设面积的区域，且所述扩大区域包括所述第一位置；将所述扩大区域输入到全卷积网络FCN模型，得到所述目标对象在所述扩大区域内的第二位置。本公开使用FCN模型进行目标检测，由于输入FCN模型的扩大区域与输入CNN模型的整个帧图像相比范围较小，且比CNN模型采用滑动窗口进行目标检测的重复区域少，因此检测速度更快，从而提高了检测目标对象的效率。

Description

目标对象的检测方法及装置

技术领域

本公开涉及目标检测领域，尤其涉及一种目标对象的检测方法及装置。

背景技术

相关技术中，随着对人工神经网络的研究越来越深入，基于人工神经网络所产生的深度学习方法在较多领域都有了成功的应用。例如：在计算机视觉领域、在语音识别领域以及在目标跟踪领域等。本公开对深度学习方法在目标检测领域的应用作进一步的研究。

在检测目标物体时，多采用在线训练的方法训练一个CNN(Convolutional NeuralNetwork，卷积神经网络)模型，并使用这个CNN模型来检测目标物体，进而跟踪目标物体。具体地，在上一帧目标物体所在位置的周围区域采用滑动窗口的方法，来查找目标物体。当滑动的次数增多或窗口变大时，跟踪过程所需的存储空间会急剧上升；且由于相邻的滑动窗口之间会产生重叠区域，因此，在跟踪过程中做了大量的无用功。

发明内容

为克服相关技术中存在的问题，本公开提供一种目标对象的检测方法及装置，可以提高检测目标对象的效率。

根据本公开实施例的第一方面，提供一种目标对象的检测方法，包括：

检测目标对象在待处理视频的当前帧图像中的第一位置；

在所述当前帧图像的下一帧图像中，根据所述第一位置确定扩大区域，所述扩大区域为在所述下一帧图像中的占据预设面积的区域，且所述扩大区域包括所述第一位置；

将所述扩大区域输入到全卷积网络FCN模型，得到所述目标对象在所述扩大区域内的第二位置。

在一种可能的实现方式中，该方法还包括：

训练得到所述目标对象的卷积神经网络CNN模型；

将所述CNN模型转化为所述FCN模型。

在一种可能的实现方式中，将所述扩大区域输入到全卷积网络FCN模型，得到所述目标对象在所述扩大区域内的第二位置包括：

将所述扩大区域按照不同比例缩放，得到多个缩放后的图像；

将所述多个缩放后的图像输入所述FCN模型，识别所述目标对象在所述多个缩放后的图像中对应的位置；

采用非极大值抑制NMS对识别出的所述多个缩放后的图像中的位置进行聚合，得到所述第二位置。

按照比例从小到大的顺序将所述缩放后的图像输入所述FCN模型，得到所述目标对象在缩放后的图像中对应的概率图和位置；并同时检测得到的所述概率图的概率值是否满足设定条件；

在所述概率图的概率值满足设定条件时，停止向所述FCN模型中输入缩放后的图像；

采用NMS对检测得到的目标对象在各缩放后的图像中的位置进行聚合，得到所述目标对象在所述扩大区域内的第二位置。

在一种可能的实现方式中，该方法还包括：间隔设定帧数，重新检测所述目标对象在所述待处理视频的当前帧图像中的第一位置。

在一种可能的实现方式中，还包括：提取所述目标对象在所述当前帧图像中的第一位置对应的第一特征；

提取所述目标对象在所述下一帧图像中的第二位置对应的第二特征；

比较所述第一特征与所述第二特征的相似度；

如果所述相似度大于设定阈值，则所述第二位置确定为所述目标对象在所述下一帧图像中的最终位置。

根据本公开实施例的第二方面，提供一种目标对象的检测装置，包括：

检测模块，用于检测目标对象在待处理视频的当前帧图像中的第一位置；

第一确定模块，用于在所述当前帧图像的下一帧图像中，根据所述第一位置确定扩大区域，所述扩大区域为在所述下一帧图像中的占据预设面积的区域，且所述扩大区域包括所述第一位置；

识别模块，用于将所述扩大区域输入到全卷积网络FCN模型，得到所述目标对象在所述扩大区域内的第二位置。

在一种可能的实现方式中，该装置还包括：

训练模块，用于训练得到所述目标对象的卷积神经网络CNN模型；

转化模块，用于将所述CNN模型转化为所述FCN模型。

在一种可能的实现方式中，所述识别模块包括：

第一缩放子模块，用于将所述扩大区域按照不同比例缩放，得到多个缩放后的图像；

第一识别子模块，用于将所述多个缩放后的图像输入所述FCN模型，识别所述目标对象在所述多个缩放后的图像中对应的位置；

第一聚合子模块，用于采用非极大值抑制NMS对识别出的所述多个缩放后的图像中的位置进行聚合，得到所述第二位置。

在一种可能的实现方式中，所述识别模块包括：

第二缩放子模块，用于将所述扩大区域按照不同比例缩放，得到多个缩放后的图像；

第二识别子模块，用于按照比例从小到大的顺序将所述缩放后的图像输入所述FCN模型，得到所述目标对象在缩放后的图像中对应的概率图和位置；并同时检测得到的所述概率图的概率值是否满足设定条件；

停止输入子模块，用于在所述概率图的概率值满足设定条件时，停止向所述FCN模型中输入缩放后的图像；

第二聚合子模块，用于采用NMS对检测得到的目标对象在各缩放后的图像中的位置进行聚合，得到所述目标对象在所述扩大区域内的第二位置。

在一种可能的实现方式中，所述检测模块，还用于间隔设定帧数，重新检测所述目标对象在所述待处理视频的当前帧图像中的第一位置。

在一种可能的实现方式中，该装置还包括：

第一提取模块，用于提取所述目标对象在所述当前帧图像中的第一位置对应的第一特征；

第二提取模块，用于提取所述目标对象在所述下一帧图像中的第二位置对应的第二特征；

比较模块，用于比较所述第一特征与所述第二特征的相似度；

第二确定模块，用于如果所述相似度大于设定阈值，则将所述第二位置确定为所述目标对象在所述下一帧图像中的最终位置。

根据本公开实施例的第三方面，提供一种目标对象的检测装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行：

检测目标对象在待处理视频的当前帧图像中的第一位置；

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器执行本公开实施例中的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：使用FCN模型进行目标检测，由于输入FCN模型的扩大区域与输入CNN模型的整个帧图像相比范围较小，且比CNN模型采用滑动窗口进行目标检测的重复区域少，因此检测速度更快，从而提高了检测目标对象的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种目标对象的检测方法的流程图。

图2是向FCN模型输入的图像及其概率图。

图3是根据一示例性实施例示出的一种目标对象的检测方法的流程图。

图4是根据一示例性实施例示出的一种目标对象的检测方法的流程图。

图5是根据一示例性实施例示出的一种目标对象的检测方法的流程图。

图6是根据一示例性实施例示出的一种目标对象的检测方法的流程图。

图7是根据一示例性实施例示出的一种目标对象的检测方法的流程图。

图8是根据一示例性实施例示出的一种目标对象的检测装置的框图。

图9是根据一示例性实施例示出的一种目标对象的检测装置的框图。

图10是根据一示例性实施例示出的一种目标对象的检测装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种目标对象的检测方法的流程图，如图1所示，该方法可以应用于例如手机、平板电脑、相机等终端中。该目标对象的检测方法包括：

步骤S101、检测目标对象在待处理视频的当前帧图像中的第一位置。

在本实施例中，所检测的目标对象可以包括但不限于人脸、风景、动植物等。当前帧图像可以为待处理视频的起始帧图像，也可以为待处理视频的任意帧图像。当用户需要检测待处理视频中正在运动的目标对象时，用户可输入检测目标对象的指令。终端接收到用户输入的检测目标对象的指令后，则执行步骤S101。可以理解的是，可在终端上设置快捷键，用户通过按压或触摸该快捷键(快捷键可在键盘上，也可设置在触摸屏上)的方式来向终端输入检测目标对象的指令。快捷键的设置可使得指令被终端迅速地接收，由此，可进一步实现对目标对象的迅速捕捉与检测。

可以理解的是，在当前帧中，目标对象可能位于第一位置，在下一帧中，目标对象可能不再处于第一位置。本公开实施例以目标对象是运动的为例，对目标对象进行检测，从而实现对目标对象的跟踪。

在另一种可能的实现方式中，可间隔设定帧数，重新检测目标对象在待处理视频的当前帧图像中的第一位置。此时，在整个帧图像范围内搜索目标对象。由于在检测目标对象的过程中，当前帧图像中可能会加入新的需要被检测的对象。采用这一方法，在目标对象发生变化时，可快速地发现并检测出新的目标对象。使检测方式更为全面，更加符合用户的实际需求。

步骤S102、在所述当前帧图像的下一帧图像中，根据所述第一位置确定扩大区域，所述扩大区域为在所述下一帧图像中的占据预设面积的区域，且所述扩大区域包括所述第一位置。

在本实施例中，目标对象的运动是连续的过程，目标对象在当前帧图像与下一帧图像中的位置不同。因此，在所述下一帧图像中的占据预设面积的区域确定为扩大区域，并且扩大区域包括第一位置，可以使得扩大区域尽量包含目标对象在下一帧图像中的位置。

例如：可以第一位置(的中心)为圆心，以特定距离为半径，确定一个圆形，该圆形的半径大于第一位置的从中心到边缘的距离。该圆形所覆盖的面积即为扩大区域。再如，从第一位置的边缘向外扩大一定距离，得到与第一位置形状相同的扩大区域。

其中，用户可以根据实际需要，来确定扩大区域的大小。例如，根据目标对象的运动速率来以及第一位置来确定在下一帧图像中占据的预设面积的区域的大小，进而确定扩大区域的范围。

步骤S103、将扩大区域输入到FCN(Fully Convolutional Networks，全卷积网络)模型，得到目标对象在扩大区域内的概率图和第二位置。

其中，概率图上的每个点与原图(输入FCN模型中的图像)上的某一区域存在对应关系，代表该区域在原图上是目标对象的概率值。当概率值大于某个阈值例如0.8或0.9等时，表明该区域可能属于目标对象。向FCN模型输入一个图像后，得到的该图像对应的概率图如图2所示。

概率图的大小与扩大区域的大小以及FCN模型的步长(stride)比值有关。假设FCN输入一个尺度为M*N的图像，输出一个对应大小为X*Y的概率图。其中，X等于M*St，Y等于N*St，St为步长(stride)。例如FCN模型的步长(stride)是1:4，则X＝M/4，Y＝N/4。可以理解的是，目标对象的第二位置即为目标对象的boundingbox(边界盒、限位框)的位置，通过boundingbox的一些参数可得到目标对象的基本信息，例如：长度、宽度。

在一种可能的实现方式中，若要进一步实现对目标对象的跟踪，则可在后续每一帧中，根据上一帧所确定的目标对象的位置确定扩大区域。并将所确定的新的扩大区域输入到FCN模型中，得到目标对象在新的扩大区域内的概率图和位置。也就是说，继续循环执行步骤S102和步骤S103，可检测到目标对象在待处理视频的每一帧中的位置，从而实现对目标对象的跟踪。

在一种可能的实现方式中，如图3所示，该方法还包括：

步骤S201、训练得到目标对象的CNN模型。

步骤S202、将CNN模型转化为FCN模型。

在本实施例中，CNN模型包括卷积层和全连接层，FCN模型全部是卷积层。将一个CNN模型中的全连接层转化为卷积层，即可将这个CNN模型转化为FCN模型。

在一种示例中，可以针对目标对象先设计几层级联的CNN，然后将级联的CNN修改为FCN。全连接层与卷积层之间的不同是：卷积层中的神经元只与输入数据中的一个局部区域连接，并且，在卷积列中的神经元共享参数。然而在这两类层(全连接层与卷积层)中，神经元都是计算点积，所以他们的函数形式是一样的。因此，将两者互相转化是可能的。

对于任一个卷积层，存在一个能实现和它一样的前向传播函数的全连接层。权重矩阵是一个巨大的矩阵，除了某些特定块，其余部分都是零。而在其中大部分块中，元素都是相等的。

相反，任何全连接层都可以被转化为卷积层。比如，一个K＝4096的全连接层，输入数据体的尺寸是7×7×512，这个全连接层可以被等效地看作一个F＝7，P＝0，S＝1，K＝4096的卷积层。换句话说，就是将滤波器的尺寸设置为和输入数据体的尺寸一致了。因为只有一个单独的深度列覆盖并滑过输入数据体，所以输出将变成1×1×4096，这个结果就和使用初始的那个全连接层一样了。

全连接层转化为卷积层：在这两种变换中，将全连接层转化为卷积层在实际运用中更加有用。假设一个卷积神经网络的输入是224×224×3的图像，一系列的卷积层和下采样层将图像数据变为尺寸为7×7×512的激活数据体。AlexNet使用了两个尺寸为4096的全连接层，最后一个有1000个神经元的全连接层用于计算分类评分。我们可以将这3个全连接层中的任意一个转化为卷积层：

针对第一个连接区域是[7×7×512]的全连接层，令其滤波器尺寸为F＝7，这样输出的数据体就为[1×1×4096]了。针对第二个全连接层，令其滤波器尺寸为F＝1，这样输出数据体为[1×1×4096]。对最后一个全连接层也做类似的处理，令其滤波器尺寸为F＝1，最终输出为[1×1×1000]。

实际操作中，每次这样的变换都需要把全连接层的权重W重塑成卷积层的滤波器。这样的转化可以让卷积网络在一张更大的输入图片上滑动，得到多个输出，这样的转化可以让我们单个向前传播的过程中完成上述的操作。

在本实施例中，使用FCN模型进行目标检测，由于输入FCN模型的扩大区域与输入CNN模型的整个帧图像相比范围较小，且比CNN模型采用滑动窗口进行目标检测的重复区域少，因此检测速度更快，从而提高了检测目标对象的效率。

图4示出根据另一示例性实施例示出的一种目标对象的检测方法的流程图。在上述实施例的基础上，如图4所示，步骤S103包括：

步骤S301、将所述扩大区域按照不同比例缩放，得到多个缩放后的图像。

例如，分别将扩大区域按照2:1、3:1、4:1、5:1等比例(扩大区域的原图与缩放后的图像的比例)进行缩放。

步骤S302、将多个缩放后的图像输入所述FCN模型，识别得到目标对象在多个缩放后的图像中对应的位置。

步骤S303、采用NMS(Non-maximum suppression，非极大值抑制)对识别出的所述多个缩放后的图像中的位置进行聚合，得到所述第二位置。

由此，采用NMS可消除多余(交叉重复)的位置，找到最能代表目标对象在扩大区域内的第二位置。

图5示出根据另一示例性实施例示出的一种目标对象的检测方法的流程图。在上述实施例的基础上，如图5所示，步骤103可以包括：

步骤S401、将所述扩大区域按照不同比例缩放，得到多个缩放后的图像。

步骤S402、按照比例从小到大的顺序将所述缩放后的图像输入所述FCN模型，得到所述目标对象在缩放后的图像中对应的概率图和位置；并同时检测得到的所述概率图的概率值是否满足设定条件。

步骤S403、在所述概率图的概率值满足设定条件时，停止向所述FCN模型中输入缩放后的图像。

步骤S404、采用NMS对检测得到的目标对象在各缩放后的图像中的位置进行聚合，得到目标对象在扩大区域内的第二位置。

其中，扩大区域与缩放后的图像的比例越小，缩放后的图像的分辨率越低，识别缩放后的图像的速度越快。按照比例从小到大的顺序输入FCN模型进行识别，识别缩放后的图像的速度从快到慢，在识别出概率值满足设定条件时停止识别，有利于提高识别效率。

例如，分别将扩大区域按照比例2:1、3:1、4:1、5:1进行缩放，得到四个缩放后的图像。其中，比例为2:1对应的缩放后的图像的分辨率最低，比例为5:1对应的缩放后的图像的分辨率最高。将这四个缩放后的图像按照比例从小达到大的顺序，即按照2:1、3:1、4:1、5:1的顺序输入FCN模型。

如果在某个比例时，得到的概率图中的概率值满足设定条件，可停止检测剩余的缩放后的图像。例如：将比例为4:1对应的缩放后的图像输入FCN模型，得到的概率图中大于某个阈值如0.8或0.9的概率值足够多，便可停止检测剩余的比例为5:1对应的缩放后的图像。因此，减少了无用功，且进一步提高了检测目标对象的效率。另外，采用NMS将目标对象在比例为2:1、3:1、4:1对应的缩放后的图像上的位置聚合，可消除多余(交叉重复)的位置，找到最能代表目标对象在扩大区域内的第二位置。

在一种可能的实现方式中，如图6所示，该方法还包括：

步骤S501、提取目标对象在当前帧图像中的第一位置对应的第一特征。

步骤S502、提取目标对象在下一帧图像中的第二位置对应的第二特征。

步骤S503、比较第一特征与第二特征的相似度。

步骤S504、如果相似度大于设定阈值，则第二位置确定为目标对象在下一帧图像中的最终位置。

由此，可增加所确定的第二位置的准确性。如若二者的相似度较低，则很可能第二位置并不能代表目标对象。

图7是根据另一示例性实施例示出的一种目标对象的检测方法的流程图。如图7所示，以目标对象为人脸为例，该目标对象的检测方法包括以下步骤。

S601、训练一个基于人脸的CNN多任务分类模型。

其中，在该CNN模型中输入一个图像，可以输出所输入的图像是不是人脸的概率，以及对应的人脸位置，即boundingbox(边界盒)的位置。

S602、将训练好的CNN模型修改为FCN模型。

其中，每一个CNN模型的输入图像大小是固定的，而FCN模型是全卷积网络，输入的图像大小是可变的。

假设向FCN模型输入一个尺度为M*N的图像，输出一个对应大小为X*Y的概率图。假设该FCN网络的步长(stride)比值是1:4，则X＝M/4，Y＝N/4。

概率图上的每个点对应原图的一个区域是不是人脸的概率。如图3所示，为向FCN输入一个图像后得到的概率图。

S603、基于FCN进行人脸检测，包括步骤S6031至步骤S6034。

S6031、采用人脸检测算法检测出第一帧视频中的人脸位置S(S为第一位置的示例)。

S6032、第二帧开始，获取上一帧图片中的人脸位置S。以S为中心，扩大一定的范围E(E为扩大区域的示例)。

因为视频中人脸是连续变化(相连)的，因此，以S为中心扩大一定范围后，下一帧视频中的人脸会在扩大的范围E中。

S6033、将范围E的图像输入到FCN模型中，得出人脸在范围E内的概率图和位置。

在一种可能的实现方式中，可按照不同比例对范围E进行缩放，得到多个缩放后的图像。将每个缩放后的图像分别输入到FCN模型中，得到每个缩放后的图像对应的概率图和位置。然后用NMS进行聚合，得出最终的人脸位置。

在另一种可能的实现方式中，按照不同比例对范围E进行缩放时，可进行加速。例如，按照范围E的原图与缩放后的图像的比例从低到高的顺序，将各缩放后的图像依次输入FCN模型中，如果检测出目标人脸在某个比例对应的缩放后的图像的概率图中的概率值非常高(例如高于0.9)，则可以终止继续对下一个比例对应的缩放后的图像的检测。

S6034、后续每一帧在上一帧的人脸位置的基础上，扩展一定的范围，按照步骤S6032和步骤S6033的方法跟踪人脸。

此外，每隔几帧，还可以重新进行人脸检测，这样当有新的人脸进来时，也可快速检测出来。

此外，可以分别提取人脸在当前帧图像(例如第一帧)中的第一位置对应的第一特征，以及在下一帧图像(例如第二帧)的第二位置对应的第二特征。比较二者的相似度。如果相似度高，表明跟踪的还是原来的那个人。如果相似度太低，表明可能跟踪的人出现了变化。或者，在某一帧识别出的多个人脸对应的第二特征，这时，可以分别与所要跟踪的人脸的第一特征进行比较。然后，再确定哪个是所要跟踪的人脸。由此，进一步满足了用户多样化的需求，提高了目标对象的检测方法的智能性。

本实施例中，使用FCN模型进行目标检测，由于输入FCN模型的扩大区域与输入CNN模型的整个帧图像相比范围较小，且比CNN模型采用滑动窗口进行目标检测的重复区域少，因此检测速度更快，从而提高了检测目标对象的效率。

图8是根据一示例性实施例示出的一种目标对象的检测装置的框图。参照图8，该装置包括：

检测模块81，用于检测目标对象在待处理视频的当前帧图像中的第一位置；

第一确定模块83，用于在所述当前帧图像的下一帧图像中，根据所述第一位置确定扩大区域，所述扩大区域为在所述下一帧图像中的占据预设面积的区域，且所述扩大区域包括所述第一位置；

识别模块85，用于将所述扩大区域输入到全卷积网络FCN模型，得到所述目标对象在所述扩大区域内的概率图和第二位置。

在一种可能的实现方式中，如图9所示，该装置还包括：

训练模块91，用于训练得到所述目标对象的卷积神经网络CNN模型；

转化模块93，用于将所述CNN模型转化为所述FCN模型。

在一种可能的实现方式中，所述识别模块85包括：

第一聚合子模块，用于采用NMS对识别出的所述多个缩放后的图像中的位置进行聚合，得到所述第二位置。

在一种可能的实现方式中，所述识别模块85包括：

在一种可能的实现方式中，所述检测模块81，还用于间隔设定帧数，重新检测所述目标对象在所述待处理视频的当前帧图像中的第一位置。

在一种可能的实现方式中，如图9所示，该装置还包括：

第一提取模块95，用于提取所述目标对象在所述当前帧图像中的第一位置对应的第一特征；

第二提取模块97，用于提取所述目标对象在所述下一帧图像中的第二位置对应的第二特征；

比较模块99，用于比较所述第一特征与所述第二特征的相似度；

第二确定模块90，用于如果所述相似度大于设定阈值，则将所述第二位置确定为所述目标对象在所述下一帧图像中的最终位置。

使用FCN模型进行目标检测，由于输入FCN模型的扩大区域与输入CNN模型的整个帧图像相比范围较小，且比CNN模型采用滑动窗口进行目标检测的重复区域少，因此检测速度更快，从而提高了检测目标对象的效率。

图10是根据一示例性实施例示出的一种用于目标对象的检测装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图10，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种目标对象的检测方法，其特征在于，包括：

检测目标对象在待处理视频的当前帧图像中的第一位置；

将所述扩大区域输入到全卷积网络FCN模型，得到所述目标对象在所述扩大区域内的第二位置；

将所述扩大区域输入到全卷积网络FCN模型，得到所述目标对象在所述扩大区域内的第二位置包括：

采用非极大值抑制NMS对识别出的所述多个缩放后的图像中的位置进行聚合，得到所述第二位置；

或者，将所述扩大区域输入到全卷积网络FCN模型，得到所述目标对象在所述扩大区域内的第二位置包括：

采用NMS对检测得到的目标对象在各缩放后的图像中的位置进行聚合，得到所述目标对象在所述扩大区域内的第二位置；

所述方法还包括：

间隔设定帧数，重新检测所述目标对象在所述待处理视频的当前帧图像中的第一位置。

2.根据权利要求1所述的方法，其特征在于，还包括：

训练得到所述目标对象的卷积神经网络CNN模型；

将所述CNN模型转化为所述FCN模型。

3.根据权利要求1或2所述的方法，其特征在于，还包括：

提取所述目标对象在所述当前帧图像中的第一位置对应的第一特征；

比较所述第一特征与所述第二特征的相似度；

4.一种目标对象的检测装置，其特征在于，包括：

识别模块，用于将所述扩大区域输入到全卷积网络FCN模型，得到所述目标对象在所述扩大区域内的第二位置；

所述识别模块包括：

第一聚合子模块，用于采用非极大值抑制NMS对识别出的所述多个缩放后的图像中的位置进行聚合，得到所述第二位置；

或者，所述识别模块包括：

第二聚合子模块，用于采用NMS对检测得到的目标对象在各缩放后的图像中的位置进行聚合，得到所述目标对象在所述扩大区域内的第二位置；

所述检测模块，还用于间隔设定帧数，重新检测所述目标对象在所述待处理视频的当前帧图像中的第一位置。

5.根据权利要求4所述装置，其特征在于，还包括：

转化模块，用于将所述CNN模型转化为所述FCN模型。

6.根据权利要求4或5所述的装置，其特征在于，还包括：

7.一种目标对象的检测装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行：

检测目标对象在待处理视频的当前帧图像中的第一位置；

以及，间隔设定帧数，重新检测所述目标对象在所述待处理视频的当前帧图像中的第一位置。

8.一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器执行时，实现权利要求1至3中任一项所述的方法。