CN110197202A

CN110197202A - 一种局部特征细粒度目标检测算法

Info

Publication number: CN110197202A
Application number: CN201910365479.1A
Authority: CN
Inventors: 龙飞; 胡建国; 王国良; 招继恩; 张海; 段绪海
Original assignee: Smart Polytron Technologies Inc
Current assignee: Smart Polytron Technologies Inc
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-09-03

Abstract

本发明公开了一种局部特征细粒度目标检测算法，主要由卷积网络，通道分组网络和局部分组分类网络组成；卷积网络负责特征提取，通道分组网络以卷积层的通道为输入特征，通过对空间相关的通道进行聚类，加权和池化生成多个局部；局部分组网络进一步对图像进行各个单独部件的分类。本发明的一种多局部特征的卷积神经网络细粒度目标检测算法，无需检测框和局部部件标注即可进行细粒度检测识别，且连带地学习各个局部的区域提议参数和各个局部的特征表示，本方法的局部语义信息是基于图像中具有较强识别能力的多个作用区域。

Description

一种局部特征细粒度目标检测算法

技术领域

本发明涉及目标检测算法，具体涉及一种基于深度学习的多局部特征细粒度目标检测算法。

背景技术

目前，通过计算机视觉技术的细粒度的分类识别已经引起了广泛的注意。这个任务是非常具有挑战性的，因为细粒度图像检测识别应具备区分度的局部定位以及基于局部的精细特征学习的能力。传统的方法通过构建大型的语料库，依靠人工标注边界框和注释部件来进行局部的特征表示。然而，大量的人工参与使得标注的代价十分昂贵以及部件定义带着过于强烈的主观因素，并不是所有细粒度检测识别任务的最佳选择。卷积神经网络利用类别标签来训练弱监督的局部模型，取得了显著的进展，类别标签对边框和部件标注没有依赖性，可以大大提高细粒度检测的可用性和扩展性。基于卷积神经网络的框架通常由两个独立的步骤组成，一个是通过训练带正负样本的图像块来进行局部定位或者是从预先训练好的特征通道进行定位，另一个是通过选择性地池化或者对映射特征进行密集编码来进行细粒度特征学习。虽然已经取得了一定的成果，但是由于没有明确的局部约束，导致没有很好地利用卷积神经网络局部目标定位和特征学习的能力。

在细粒度目标检测识别中，对于在技术背景中提到的需要具备区分度的局部定位以及基于局部的精细特征学习的两个能力。

首先对于基于局部细粒度特征学习的能力，学习有代表性的特征已经被广泛研究用于细粒度图像识别。由于深度学习的巨大成功，大部分的检测识别框架都依赖于强大的卷积深度特征，由深度卷积特征来对目标进行一般或者细粒度的分类，且比手工制作的特征在检测精度上有了巨大的提升。为了更好地对细粒度识别的细微视觉差异进行区分，有的方法利用一种双线性结构来计算两个独立的卷积神经网络之间的两两交互的特征，此外，一些方法提出将卷积神经网路与Fisher Vector的空间加权表示相统一，一些方法则结合了深层次的语义信息等多种方法的优势来提高分类的准确率，达到最先进的表现。

其次，对于有区分度的局部定位的能力，大量的工作提出利用边界框和局部的额外标注来定位细粒度识别中的重要区域，然而，由于人工的大量参与，这项任务对于大规模的实际问题来讲是不切实际的。最近，有许多新兴的研究致力于更泛化的场景，并建议使用无监督的方法来学习part attention的模型。一种基于视觉注意力的方法在整体目标和局部上都提出了两层网络，其中局部模板通过聚类方案从卷积神经网路的内部隐藏表示中获得。选择深度卷积核响应和多粒度描述符提出通过分析卷积神经网络的卷积核响应来训练一组局部的检测器，这些响应以一种无监督的方式一致地响应特定的模式。

细粒度目标检测识别高度依赖于有区分度的局部定位和基于局部的细粒度特征学习，现有的方法都是独立地解决这两个难题，而忽略了局部的定位和细粒度特征学习是相互关联的。在本专利中，提出了一种多局部特征细粒度目标检测算法，其中局部生成和特征学习可以相互促进。

发明内容

本发明的主要目的在于提供一种局部特征细粒度目标检测算法。

本发明采用的技术方案是：一种局部特征细粒度目标检测算法，主要由卷积网络，通道分组网络和局部分组分类网络组成；卷积网络负责特征提取，通道分组网络以卷积层的通道为输入特征，通过对空间相关的通道进行聚类，加权和池化生成多个局部；局部分组网络进一步对图像进行各个单独部件的分类；

整个检测算法是以完整的图像作为输入，生成若干个细粒度目标提议区域提供给后面的细粒度目标检测分类网络；

卷积网络用于提取特征，通道分组网络将空间相关模式的特征进行聚类，并将其加权到邻近区域中出现峰值响应的对应部位映射中；多样化的高响应位置进一步构成了多局部特征的映射，并通过固定大小地裁剪来提取若干个局部的提议；

获得了局部特征的提议后，局部分类网络就会根据基于局部的特征对图像进行进一步的分类，这些特征是从全卷积的映射特征上进行空间的池化而得到的；到该局部更好的细粒度特征。

进一步地，所述局部特征细粒度目标检测算法包括，输入一张图片给提取特征的卷积神经网路，并产生了映射特征，并将映射特征的各个通道展开，在特征通道中设1-12为不同的特征通道，并且每个通道中都有一个峰值响应区域，同时设1，6，11；2，8，12；3，5，10；4，7，9分别代表12个通道中有相近峰值响应的区域，并且通过堆叠全连接层达到聚类效果，把相近的区域归为一类得到多局部特征聚合层，设划分为4类，同类的通道相加，去sigmoid函数归一化生成概率值，等效于生成了四个空间的局部特征映射结果，再将这四个映射结果分别和映射特征进行点乘，得到局部精细化的特征，最后进行分类。

更进一步地，所述局部特征细粒度目标检测算法还包括，给定输入图像X首先将图像输入到预训练好的卷积层中，提取基于区域的深度特征；被提取的深度特征表达表示为W*X，其中*表示卷积，池化和激活的一系列操作，W表示为全体参数；这个深度特征表达式的维度为w×h×c，其中w，h，c指宽度，高度和特征通道的数量。

更进一步地，所述局部特征细粒度目标检测算法还包括，每个特征通道都能表示为一个位置向量，其元素是所有训练图像实例的峰值响应的坐标，如下：

其中是训练集中第i个图像峰值响应的坐标，Ω是训练集中图像的数量；将位置向量作为特征，将不同的通道聚类成N组作为N个局部检测器；生成的第i个组由所有特征通道上的指标函数来表示，该指标函数为：

[E{1}，…，E{j}，…，E{c}]

其中，E{·}表示每个通道是否属于该组，如果是，该通道位置为1，否则为0；为了保证训练中通道分组操作的最优化，本方法利用通道分组的方法，通过全连接层对通道的排列进行回归；为了生成N个局部，定义一组全连接层

F(·)＝[f₁(·)，…，f_N(·)]

每一个f_i(·)作为输入卷积特征，在不同的通道上产生权重向量d_i，由

d_i(X)＝f_i(W*X)

得到；其中，d_i(X)＝[d₁，…，d_c]；

通过以下两个步骤能获得准确的权重向量d_i(X)来获取更好的通道分组：将d_i(X)与E{·}进行拟合，对d_i(X)＝f_i(W*X)中的全连接层参数进行预训练；

利用端到端的学习进一步优化，E{·}也是对d_i(X)的监督，保证了全连接层模型初始化的合理性。

更进一步地，所述局部特征细粒度目标检测算法还包括，基于学习到的特征通道权重参数，进一步得到第i个局部的映射概率如下：

其中，[·]_j表示卷积特征W*X中第j个特征通道，W*X表示特征提取网络提取的权重向量d_i与对应的特征通道相乘，相加后用sigmoid函数归一化得到一个概率映射；局部细粒度特征是由映射概率M_i(X)与特征提取网络提取的映射特征进行点乘，如下所示：

其中，点积表示A和B之间的元素乘法。

更进一步地，所述局部特征细粒度目标检测算法还包括，多局部特征细粒度目标检测框架通过两种监督方式进行训练优化，即局部分类损失和通道分类损失。

更进一步地，所述局部分类损失和通道分类损失具体为：

将目标函数表示为一个多任务训练优化的问题，图像的具体损失函数如下：

其中，L_cls和L_cng分别表示N个局部的分类损失和通道分组损失；Y⁽ⁱ⁾用基于局部的特征p_i(x)表示第i个部份的预测标签向量，Y^*代表真实值的标签向量；通过softmax函数不断拟合类别标签来实现训练；其中，通道分组是以一种紧密和多样化局部学习的代价形式：

L_cng(M_i)＝Dis(M_i)+λDiv(M_i)

其中，Dis(·)和Div(·)是一种距离和带权重λ的多样性函数；Dis(·)具体设计如下：

其中，m_i(x,y)取m_i的坐标(x,y)作为输入，从而得到响应幅值；Div(·)设计用来支持来自不同局部的特征聚合的映射的不同局部特征分布，即从M₁到M_N；具体形式如下：

其中，i,k表示不同局部特征映射的索引，mrg表示余量，使得损失对噪声的敏感性降低，从而实现鲁棒性；通过这样设计损失函数，首先第一部分损失Dis(·)鼓励来自特定局部的相似的视觉模式组合在一起，从而学习到强大的局部检测器；第二部份损失Div(·)鼓励对不同局部的特征多样性，通过这样几何约束的设计可以使网络捕捉到最具区分度的局部，并且在某些局部被遮挡的情况下实现对其他局部的鲁棒识别。

本发明的优点：

本发明的一种多局部特征的卷积神经网络细粒度目标检测算法，无需检测框和局部部件标注即可进行细粒度检测识别。且连带地学习各个局部的区域提议参数和各个局部的特征表示，与人工设计特征的语义信息不同，本方法的局部语义信息是基于图像中具有较强识别能力的多个作用区域。

与目前现有的方法相比，本发明的方法有以下两个优势：首先，本方法从一组空间相关的卷积通道中学习局部特征的生成，而不是从独立的通道中学习，独立通道往往缺乏较强的区分度；其次，本方法对局部进行细粒度特征学习和局部定位是以相互增强的方式进行，保证从不断互相优化的特征图中准确推断出多个具有代表性的局部。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的一种局部特征细粒度目标检测算法框架流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一种局部特征细粒度目标检测算法，主要由三部分组成，分别是卷积网络，通道分组网络和局部分组分类网络。卷积网络负责特征提取，通道分组网络以卷积层的通道为输入特征，通过对空间相关的通道进行聚类，加权和池化生成多个局部。局部分组网络进一步对图像进行各个单独部件的分类，通过这些分类，可以学习到更具区分度的细粒度特征。与此同时，还提出了对应的两种损失函数来指导通道分组和局部分类的多任务学习，这激励多局部特征卷积神经网络从特征通道中产生更多具有区分度的局部，并通过互相增强的方式从局部中学习更好的细粒度特征。多局部特征卷积神经网络不需要生成检测框或者进行局部标注，可以进行端到端的训练，从而在提高检测精度的同时保持有检测的效率。

整个检测算法是以完整的图像作为输入，生成多个细粒度目标提议区域提供给后面的细粒度目标检测分类网络。首先，卷积网络用于提取特征，通道分组网络将空间相关模式的特征进行聚类，并将其加权到邻近区域中出现峰值响应的对应部位映射中。多样化的高响应位置进一步构成了多局部特征的映射，并通过固定大小地裁剪来提取多个局部的提议。

其次，一旦获得了局部特征的提议，局部分类网络就会根据基于局部的特征对图像进行进一步的分类，这些特征是从全卷积的映射特征上进行空间的池化而得到的。这样的结构可以通过消除对其他局部的依赖，专注于优化一组与某个局部相关的特征通道，从而学习到该局部更好的细粒度特征。

第三，通过联合执行两个任务的损失函数，指导通道分组和局部分类的多任务学习，促使多局部特征的卷积神经网络从特征通道中生成更多的具有判别性的局部特征，相互增强从局部中学习更多的细粒度特征。具体来说，本方法提出了一个通道分组损失函数来优化通道分组子网络，该网络将类内相似性和类间可分类性较高的空间区域上的通道簇作为局部重点分布，从而生成紧密多样的局部提议。局部化以后，本方法将每个参与的局部从图像中放大，并将其输入到不同的卷积神经层中，通过使用相应的局部特征作为输入，将不同的卷积神经层训练不同的局部分类。

参考图1，如图1所示，输入一张图片给提取特征的卷积神经网路，并产生了映射特征，并将映射特征的各个通道展开，在特征通道中假设1-12为不同的特征通道，并且每个通道中都有一个峰值响应区域，同时假设1，6，11；2，8，12；3，5，10；4，7，9分别代表12个通道中有相近峰值响应的区域，并且通过堆叠全连接层达到聚类效果，把相近的区域归为一类得到多局部特征聚合层，图中假设划分为4类，同类的通道相加，去sigmoid函数归一化生成概率值，等效于生成了四个空间的局部特征映射结果，再将这四个映射结果分别和映射特征进行点乘，得到局部精细化的特征，最后进行分类。

本发明的算法还包括，给定输入图像X首先将图像输入到预训练好的卷积层中，提取基于区域的深度特征。被提取的深度特征表达表示为W*X，其中*表示卷积，池化和激活等一系列操作，W表示为全体参数。这个深度特征表达式的维度为w×h×c，其中w，h，c指宽度，高度和特征通道的数量。虽然卷积特征通道能够对应某种类型的视觉模式，但是通常很难通过单一通道来表达丰富的局部信息。因此，本方法中利用信道分组以及加权操作，将空间相关的敏感模式进行聚类，而聚类是从一组峰值响应所出现在的邻近位置的特征通道为依据，以一种密集和有鉴别性的局部进行聚类。直观地说，每个特征通道都可以表示为一个位置向量，其元素是所有训练图像实例的峰值响应的坐标，如下：

其中是训练集中第i个图像峰值响应的坐标，Ω是训练集中图像的数量。将位置向量作为特征，将不同的通道聚类成N组作为N个局部检测器。生成的第i个组由所有特征通道上的指标函数来表示，该指标函数为：

[E{1}，…，E{j}，…，E{c}]

其中，E{·}表示每个通道是否属于该组，如果是，该通道位置为1，否则为0。为了保证训练中通道分组操作的最优化，本方法利用通道分组的方法，通过全连接层对通道的排列进行回归。为了生成N个局部，定义一组全连接层

F(·)＝[f₁(·)，…，f_N(·)]

d_i(X)＝f_i(W*X)

可得到。其中，d_i(X)＝[d₁，…，d_c]。

通过以下两个步骤可以获得准确的权重向量d_i(X)来获取更好的通道分组：(1)将d_i(X)与E{·}进行拟合，对d_i(X)＝f_i(W*X)中的全连接层参数进行预训练；(2)利用端到端的学习进一步优化，因此，E{·}也是对d_i(X)的监督，保证了全连接层模型初始化的合理性。

基于学习到的特征通道权重参数，进一步得到第i个局部的映射概率如下：

其中，[·]_j表示卷积特征W*X中第j个特征通道，W*X表示特征提取网络提取的权重向量d_i与对应的特征通道相乘，相加后用sigmoid函数归一化得到一个概率映射。最后，局部细粒度特征是由映射概率M_i(X)与特征提取网络提取的映射特征进行点乘，如下所示：

其中，点积表示A和B之间的元素乘法。

本专利中提出的多局部特征细粒度目标检测框架通过两种有监督方式进行训练优化，即局部分类损失和通道分类损失。具体地说，本方法将目标函数表示为一个多任务训练优化的问题，图像的具体损失函数如下：

其中，L_cls和L_cng分别表示N个局部的分类损失和通道分组损失。Y⁽ⁱ⁾用基于局部的特征p_i(x)表示第i个部份的预测标签向量，Y^*代表真实值的标签向量。通过softmax函数不断拟合类别标签来实现训练。其中，通道分组是以一种紧密和多样化局部学习的代价形式：

L_cng(M_i)＝Dis(M_i)+λDiv(M_i)

其中，Dis(·)和Div(·)是一种距离和带权重λ的多样性函数。Dis(·)具体设计如下：

其中，m_i(x,y)取m_i的坐标(x,y)作为输入，从而得到响应幅值。Div(·)设计用来支持来自不同局部的特征聚合的映射的不同局部特征分布，即从M₁到M_N。具体形式如下：

其中，i,k表示不同局部特征映射的索引，mrg表示余量，使得损失对噪声的敏感性降低，从而实现鲁棒性。通过这样设计损失函数，首先第一部分损失Dis(·)鼓励来自特定局部的相似的视觉模式组合在一起，从而学习到强大的局部检测器；第二部份损失Div(·)鼓励对不同局部的特征多样性，通过这样几何约束的设计可以使网络捕捉到最具区分度的局部，并且在某些局部被遮挡的情况下实现对其他局部的鲁棒识别。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种局部特征细粒度目标检测算法，其特征在于，主要由卷积网络，通道分组网络和局部分组分类网络组成；卷积网络负责特征提取，通道分组网络以卷积层的通道为输入特征，通过对空间相关的通道进行聚类，加权和池化生成多个局部；局部分组网络进一步对图像进行各个单独部件的分类；

2.根据权利要求1所述的局部特征细粒度目标检测算法，其特征在于，所述局部特征细粒度目标检测算法包括，输入一张图片给提取特征的卷积神经网路，并产生了映射特征，并将映射特征的各个通道展开，在特征通道中设1-12为不同的特征通道，并且每个通道中都有一个峰值响应区域，同时设1，6，11；2，8，12；3，5，10；4，7，9分别代表12个通道中有相近峰值响应的区域，并且通过堆叠全连接层达到聚类效果，把相近的区域归为一类得到多局部特征聚合层，设划分为4类，同类的通道相加，去sigmoid函数归一化生成概率值，等效于生成了四个空间的局部特征映射结果，再将这四个映射结果分别和映射特征进行点乘，得到局部精细化的特征，最后进行分类。

3.根据权利要求1所述的局部特征细粒度目标检测算法，其特征在于，所述局部特征细粒度目标检测算法还包括，给定输入图像X首先将图像输入到预训练好的卷积层中，提取基于区域的深度特征；

被提取的深度特征表达表示为W*X，其中*表示卷积，池化和激活的一系列操作，W表示为全体参数；这个深度特征表达式的维度为w×h×c，其中w，h，c指宽度，高度和特征通道的数量。

4.根据权利要求1所述的局部特征细粒度目标检测算法，其特征在于，所述局部特征细粒度目标检测算法还包括，每个特征通道都能表示为一个位置向量，其元素是所有训练图像实例的峰值响应的坐标，如下：

[E{1}，...，E{j}，...，E{c}]

F(·)＝[f₁(·)，...，f_N(·)]

d_i(X)＝f_i(W*x)

得到；其中，d_i(X)＝[d₁，...，d_c]；

通过以下两个步骤能获得准确的权重向量d_i(X)来获取更好的通道分组：

将d_i(X)与E{·}进行拟合，对d_i(X)＝f_i(W*X)中的全连接层参数进行预训练；

5.根据权利要求1所述的局部特征细粒度目标检测算法，其特征在于，所述局部特征细粒度目标检测算法还包括，基于学习到的特征通道权重参数，进一步得到第i个局部的映射概率如下：

其中，点积表示A和B之间的元素乘法。

6.根据权利要求1所述的局部特征细粒度目标检测算法，其特征在于，所述局部特征细粒度目标检测算法还包括，多局部特征细粒度目标检测框架通过两种监督方式进行训练优化，即局部分类损失和通道分类损失。

7.根据权利要求6所述的局部特征细粒度目标检测算法，其特征在于，所述局部分类损失和通道分类损失具体为：

L_cng(M_i)＝Dis(M_i)+λDiv(M_i)

其中，m_i(x，y)取m_i的坐标(x，y)作为输入，从而得到响应幅值；Div(·)设计用来支持来自不同局部的特征聚合的映射的不同局部特征分布，即从M₁到M_N；具体形式如下：

其中，i，k表示不同局部特征映射的索引，mrg表示余量，使得损失对噪声的敏感性降低，从而实现鲁棒性；通过这样设计损失函数，首先第一部分损失Dis(·)鼓励来自特定局部的相似的视觉模式组合在一起，从而学习到强大的局部检测器；第二部份损失Div(·)鼓励对不同局部的特征多样性，通过这样几何约束的设计可以使网络捕捉到最具区分度的局部，并且在某些局部被遮挡的情况下实现对其他局部的鲁棒识别。