CN110188766A

CN110188766A - 基于卷积神经网络的图像主目标检测方法及装置

Info

Publication number: CN110188766A
Application number: CN201910307147.8A
Authority: CN
Inventors: 李锴
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2019-08-30
Anticipated expiration: 2039-04-17
Also published as: CN110188766B

Abstract

本发明实施例涉及人工智能领域，提供了一种基于卷积神经网络的图像主目标检测方法及装置。其中，方法包括获取输入图像；将所述输入图像经过卷积层处理以得到多个特征图，并通过特征通道输出所述特征图；根据每个特征通道的热力图获取所述特征图上的显著性区域；对所述特征图上的显著性区域做聚类处理以形成多个特征簇；基于所有所述特征簇的位置确定所述输入图像上的主目标的位置。本技术方案现有技术中模型训练时图像的特定目标需要人工标注，且训练后的模型仅适用特定目标的问题。

Description

基于卷积神经网络的图像主目标检测方法及装置

【技术领域】

本发明涉及人工智能领域，尤其涉及一种基于卷积神经网络的图像主目标检测方法及装置。

【背景技术】

随着深度学习(Deep Learning)技术发展，其在视觉识别、图像识别等领域得到广泛应用。

现有技术中，图像的特定目标检测采用如下步骤：

步骤1、获取大量含特定目标的图像，通过人力在图像上标注特定目标的位置信息。例如，采用一个bounding box来表示，给出bounding box的四维向量P(x,y,w,h)即可表示框子的位置及大小，然后通过训练获得模型。

步骤2、利用训练得到的模型来提取新获得图像中的特定目标。

但现有技术存在以下缺点：1)模型训练需要大量训练数据，且人工标注十分耗费人力。2)训练得到的模型仅针对特定标注的目标。

【发明内容】

有鉴于此，本发明实施例提供了一种基于卷积神经网络的图像主目标检测方法及装置，用以解决现有技术中模型训练时图像的特定目标需要人工标注，且训练后的模型仅适用特定目标的问题。

一方面，本发明实施例提供了基于卷积神经网络的图像主目标检测方法，包括：获取输入图像；将所述输入图像经过卷积层处理以得到多个特征图，并通过特征通道输出所述特征图；根据每个特征通道的热力图获取所述特征图上的显著性区域；对所述特征图上的显著性区域做聚类处理以形成多个特征簇；基于所有所述特征簇的位置确定所述输入图像上的主目标的位置。

可选的，所述将所述输入图像经过卷积层处理以得到多个特征图，并通过特征通道输出所述特征图包括：利用多个卷积核分别对所述输入图像进行特征提取以得到多个特征图；将每个特征图通过对应的特征通道输出。

可选的，所述根据每个特征通道的热力图获取所述特征图上的显著性区域包括：根据每个特征通道的权重向量与预设标量的乘积计算得到每个特征通道的热力图；分析所述热力图以获取所述特征图上的显著性区域。

可选的，所述对所述特征图上的显著性区域做聚类处理以形成多个特征簇包括：设置位置距离阈值；判断任意两个特征通道输出的特征图上显著性区域的位置距离是否小于所述位置距离阈值；若判断结果为是，则将这两个特征通道输出的特征图上的显著性区域做聚合以形成特征簇。

可选的，每个特征通道输出的所述特征图上的显著性区域只属于一个特征簇。

另一方面，本发明实施例还提供了一种基于卷积神经网络的图像主目标检测装置，包括：图像获取模块，用于获取输入图像；卷积层处理模块，用于将所述输入图像经过卷积层处理以得到多个特征图，并通过特征通道输出所述特征图；特征图处理模块，用于根据每个特征通道的热力图获取所述特征图上的显著性区域；聚类处理模块，用于对所述特征图上的显著性区域做聚类处理以形成多个特征簇；主目标检测模块，用于基于所有所述特征簇的位置确定所述输入图像上的主目标的位置。

另一方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述基于卷积神经网络的图像主目标检测方法。

再一方面，本发明实施例还提供一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于卷积神经网络的图像主目标检测方法。

与现有技术相比，本技术方案中至少具有如下有益效果：

根据本发明实施例提供的基于卷积神经网络的图像主目标检测方法，将输入图像经过卷积层进行特征提取得到多个特征图，通过对应的特征通道将特征图输出。进一步，根据每个特征通道不同的热力图获取其输出的特征图上的显著性区域，根据各个显著性区域之间的相关性做聚类处理形成多个特征簇，在根据各个特征簇的位置确定输入图像上的主目标的位置。因此，本发明实施例提供的方案不需要人工标注图像上的目标位置，利用卷积神经网络对输入图像进行主目标提取。

进一步，输入图像还具有标签信息，所述标签信息用于标识所述输入图像的主目标的类别，在卷积层对输入图像进行特征提取过程中，通过结合不同特征通道的特征与标签信息进行分类来优化Channel Grouping损失函数。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请的一种基于卷积神经网络的图像主目标检测方法的一个具体实施例的流程示意图；

图2是本申请的一种基于卷积神经网络的图像主目标检测装置的一个具体实施例的流程示意图；

图3是本申请计算机设备一个实施例的结构示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

卷积神经网络(Convolutional Neural Network，简称CNN)是一类包含卷积或相关计算且具有深度结构的前馈神经网络(Feed forward Neural Networks)。

卷积神经网络是一个层次模型，主要包括输入层、卷积层、池化层、全连接层以及输出层。其中，输入层的作用是接收输入图像；卷积层用于运用卷积操作对输入图像提取特征；池化层设置在卷积层之后，通过对特征图的局部区域进行池化操作，使特征具有一定的空间不变性；全连接层位于特征提取之后，将前一层的所有神经元与当前层的每个神经元相连接，全连接层会根据输出层的具体任务，有针对性地对高层特征进行映射，高层特征再经过输出层进行特征分类，表示当前输入图像的类别。

图1是本申请的一种基于卷积神经网络的图像主目标检测方法的一个具体实施例的流程示意图。

参考图1，所述方法包括如下步骤：

步骤101、获取输入图像。

具体地，卷积神经网络通过输入层获取输入图像，输入层的大小与输入图像的大小一致。所述输入图像上具有主目标(即该输入图像上所显示的主要内容)，后续经过卷积神经网络处理后获取所述输入图像上主目标的位置。

步骤102、将所述输入图像经过卷积层处理以得到多个特征图，并通过特征通道输出所述特征图。

具体地，本步骤包括：

步骤1021、利用多个卷积核分别对所述输入图像进行特征提取以得到多个特征图。

所述卷积层内部包含多个卷积核，卷积核是一个矩阵，组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector)，类似于一个前馈神经网络的神经元(neuron)。卷积层内每个神经元都与前一层中位置接近的区域的多个神经元相连，区域的大小取决于卷积核的大小。

例如，采用VGG(Visual Geometry Group，以下简称VGG)结构。VGG是基于CNN的一个新的深度卷积神经网络，由5层卷积层，3层全连接层和输出层(利用softmax函数进行数值处理)构成，各个层次之间采用最大化池(max pooling)为间隔，采用线性整流函数(Rectified Linear Unit)作为隐层的激活单元。VGG通过使用多个较小的卷积核的卷积层来代替卷积核较大的卷积层，从而减少参数，增加非线性映射，增加网络的拟合表达能力。VGG减小了池化核，增加了特征通道的数目，在控制计算量规模的同时，使得模型的架构层数更深，特征图更宽，适应性也更强。

在本实施例中，采用VGG 19结构，输入层输入的是448×448大小的图像。卷积核为3×3采用高斯随机初始化，并设置0.001左右的高斯随机偏差量。

利用多个不同的卷积核分别在所述输入图像上进行运算，从而得到多个特征图。具体地，卷积神经网络的每个卷积层包括多个卷积核，每个卷积核与所述输入图像进行卷积运算以得到多个特征图。

步骤1022、将每个特征图通过对应的特征通道输出。

具体地，卷积层的特征通道的数目与卷积层所包含卷积核的数目相同。对于经过不同卷积核对输入图像进行特征提取后得到的每个特征图可以确定相对应的特征通道用于输出所述特征图。其中，所述特征通道可以理解为不同卷积核与输入图像进行卷积运算所生成的特征图，或者说特征图就是特征通道。

步骤103、根据每个特征通道的热力图获取所述特征图上的显著性区域。

具体地，本步骤包括：

步骤1031、根据每个特征通道的权重向量与预设标量的乘积计算得到每个特征通道的热力图。

其中，所述预设标量可以是一个常数(例如255)，每个特征通道的权重向量是根据该特征通道对于所述输入图像的主目标的不同重要程度来确定，通常每个特征通道的权重向量各不相同。本领域技术人员理解，每个特征通道(或者说每个特征图)都可对应到原始的输入图像，所述特征图上的权重向量各不相同，其中权重向量较大的区域表示其对于输入图像的主目标的重要程度越高。根据每个特征通道的权重向量与预设标量的乘积可以得到每个特征通道的热力图。

步骤1032、分析所述热力图以获取所述特征图上的显著性区域。

具体地，将所述特征图叠加到所述热力图上可以获取所述特征图上的显著性区域。其中，所述热力图相当于是对特征通道(或者说特征图)的权重设置的阈值，将所述特征图叠加到所述热力图可以理解为将所述特征图的各个权重与阈值作比较，若权重大于阈值则保留，反之若权重小于阈值则舍弃，从而权重大于阈值的部分即为显著性区域。所述显著性区域用于表示所述输入图像的主目标的不同特征区域。例如，若输入图像中的主目标为鸟，则所述显著性区域可以是鸟的头部、鸟的尾巴以及鸟的脚部等的一些特征区域。

步骤104、对所述特征图上的显著性区域做聚类处理以形成多个特征簇。

具体地，根据上述步骤103得到的特征图上的显著性区域是一些区域面积较小的显著性区域。在本步骤中，根据这些区域面积较小的显著性区域之间的相关性做聚类处理，以将关联度高的显著性区域聚合成特征簇。

例如，根据显著性区域之间的距离远近关系做聚类处理。

本步骤包括：

步骤1041、预先设置位置距离阈值。

所述位置距离阈值用于判断显著性区域之间的位置距离远近的标准。

步骤1042、判断任意两个特征通道输出的特征图上显著性区域的位置距离是否小于所述位置距离阈值。

例如，可以根据任意两个特征通道输出的特征图上的显著性区域的中心点之间的距离作为这两个显著性区域之间的位置距离，或者也可以根据任意两个特征通道输出的特征图上的显著性区域上的任意一点之间的距离作为这两个显著性区域之间的位置距离。在实际应用中，还可以根据其他方式确定两个显著性区域之间的位置距离，在此不做限定。

步骤1043、若判断结果为是，则将这两个特征通道输出的特征图上的显著性区域做聚合以形成特征簇。

根据上述步骤1042的判断结果，若两个特征通道输出的特征图上显著性区域的位置距离，则将这两个特征通道输出的特征图上的显著性区域做聚合以形成一个特征簇。进一步，若其他特征通道输出的特征图上显著性区域与这两个特征通道输出的特征图上的显著性区域之间的位置距离也小于所述位置距离阈值，则将该其他特征通道输出的特征图上显著性区域也聚合到该特征簇。

依此类推，将所有特征通道输出的特征图上的显著性区域依照上述判断方式做聚类处理，以使位置距离小于所述位置距离阈值的各个显著性区域聚合在一起形成特征簇。

需要说明的是，在本实施例中，每个特征通道输出的所述特征图上的显著性区域只属于一个特征簇。具体来说，在卷积神经网络中通过设置一个Channel Grouping损失函数，在卷积层对所述输入图像进行特征提取过程中利用Channel Grouping损失函数使得每个特征通道输出的所述特征图上的显著性区域只属于一个特征簇。

步骤105、基于所有所述特征簇的位置确定所述输入图像上的主目标的位置。

具体地，各个特征簇的位置是所述输入图像上的主目标的各个特征区域的位置，根据所有这些特征簇的位置可以大致确定所述输入图像上的主目标的位置。在实际应用中，若能获得较多的特征簇的位置，则能更准确地确定所述输入图像上的主目标的位置。

进一步，基于上述实施例，所述输入图像还具有标签信息，所述标签信息用于标识所述输入图像的主目标的类别。其中，所述输入图像的标签信息在训练模型时会用到，通过结合不同特征通道的特征与标签信息进行分类来优化Channel Grouping损失函数。而在卷积层对输入图像进行特征提取过程中，可以直接利用训练好的模型对输入图像进行特征提取后得到显著性区域而最终得到主目标的位置信息。

图2是本申请的一种基于卷积神经网络的图像主目标检测装置的一个具体实施例的流程示意图。

参考图2，所述基于卷积神经网络的图像主目标检测装置2包括：

图像获取模块21，用于获取输入图像。卷积层处理模块22，用于将所述输入图像经过卷积层处理以得到多个特征图，并通过特征通道输出所述特征图。特征图处理模块23，用于根据每个特征通道的热力图获取所述特征图上的显著性区域。聚类处理模块24，用于对所述特征图上的显著性区域做聚类处理以形成多个特征簇。主目标检测模块25，用于基于所有所述特征簇的位置确定所述输入图像上的主目标的位置。其中，所述输入图像还具有标签信息，所述标签信息用于标识所述输入图像的主目标的类别。

具体地，所述卷积层处理模块22包括：特征提取单元221，用于利用多个卷积核分别对所述输入图像进行特征提取以得到多个特征图。特征图输出处理单元222，用于将每个特征图通过对应的特征通道输出。

所述特征图处理模块23包括：热力图生成单元231，用于根据每个特征通道的权重向量与预设标量的乘积计算得到每个特征通道的热力图。热力图分析单元232，用于分析所述热力图以获取所述特征图上的显著性区域。

所述聚类处理模块24包括：阈值设置单元241，用于设置位置距离阈值。距离判断单元242，用于判断任意两个特征通道输出的特征图上显著性区域的位置距离是否小于所述位置距离阈值。特征簇形成单元243，用于若判断结果为是，则将这两个特征通道输出的特征图上的显著性区域做聚合以形成特征簇。其中每个特征通道输出的所述特征图上的显著性区域只属于一个特征簇。

本实施例所述的基于卷积神经网络的图像主目标检测装置中各个模块和单元的具体实施过程可以参考上文方法实施例，在此不再赘述。

图3是本申请计算机设备一个实施例的结构示意图。

计算机设备可以包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时，可以实现本申请实施例提供的基于卷积神经网络的图像主目标检测方法。

其中，上述计算机设备可以为服务器，例如：云服务器，也可以为电子设备，例如：智能手机、智能手表或平板电脑等智能电子设备，本实施例对上述计算机设备的具体形态不作限定。

图3示出了适于用来实现本申请实施方式的示例性计算机设备12的框图。图3显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图3所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块52的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块52包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块52通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图3所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图3中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本申请实施例提供的基于卷积神经网络的图像主目标检测方法。

本申请实施例还提供一种非临时性计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时可以实现本申请实施例提供的基于卷积神经网络的图像主目标检测方法。

上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于卷积神经网络的图像主目标检测方法，其特征在于，包括：

获取输入图像；

将所述输入图像经过卷积层处理以得到多个特征图，并通过特征通道输出所述特征图；

根据每个特征通道的热力图获取所述特征图上的显著性区域；

对所述特征图上的显著性区域做聚类处理以形成多个特征簇；

基于所有所述特征簇的位置确定所述输入图像上的主目标的位置。

2.如权利要求1所述的方法，其特征在于，所述将所述输入图像经过卷积层处理以得到多个特征图，并通过特征通道输出所述特征图包括：

利用多个卷积核分别对所述输入图像进行特征提取以得到多个特征图；

将每个特征图通过对应的特征通道输出。

3.如权利要求1所述的方法，其特征在于，所述根据每个特征通道的热力图获取所述特征图上的显著性区域包括：

根据每个特征通道的权重向量与预设标量的乘积计算得到每个特征通道的热力图；

分析所述热力图以获取所述特征图上的显著性区域。

4.如权利要求1所述的方法，其特征在于，所述对所述特征图上的显著性区域做聚类处理以形成多个特征簇包括：

设置位置距离阈值；

判断任意两个特征通道输出的特征图上显著性区域的位置距离是否小于所述位置距离阈值；

若判断结果为是，则将这两个特征通道输出的特征图上的显著性区域做聚合以形成特征簇。

5.如权利要求4所述的方法，其特征在于，每个特征通道输出的所述特征图上的显著性区域只属于一个特征簇。

6.如权利要求1所述的方法，其特征在于，所述输入图像还具有标签信息，所述标签信息用于标识所述输入图像的主目标的类别。

7.一种基于卷积神经网络的图像主目标检测装置，其特征在于，包括：

图像获取模块，用于获取输入图像；

卷积层处理模块，用于将所述输入图像经过卷积层处理以得到多个特征图，并通过特征通道输出所述特征图；

特征图处理模块，用于根据每个特征通道的热力图获取所述特征图上的显著性区域；

聚类处理模块，用于对所述特征图上的显著性区域做聚类处理以形成多个特征簇；

主目标检测模块，用于基于所有所述特征簇的位置确定所述输入图像上的主目标的位置。

8.如权利要求7所述的装置，其特征在于，所述卷积层处理模块包括：

特征提取单元，用于利用多个卷积核分别对所述输入图像进行特征提取以得到多个特征图；

特征图输出处理单元，用于将每个特征图通过对应的特征通道输出。

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-6中任一所述的方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。