CN108154183A

CN108154183A - 一种基于局部和深度特征集合的目标分类方法

Info

Publication number: CN108154183A
Application number: CN201711423291.5A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-06-12

Abstract

本发明中提出的一种基于局部和深度特征集合的目标分类方法，其主要内容包括：深度卷积特征提取、局部特征和编码和分类器集合，其过程为，先从深度网络的最后完全连接层中提取描述符和尺度不变特征变换(SIFT)描述符的费舍尔向量，然后利用费舍尔向量作为编码策略，对每个特征训练一个支持向量机(SVM)，接着对分类器集合进行训练和测试，对输入数据集进行优化分类，最后进行投票并得出最终决策。本发明深层网络的中间层可以增强从全连接层获得的特征的分类能力，而且为每个特征训练单独的分类器，因此具有较好的分类性能；同时计算成本低，有利于实现目标分类技术的各种应用。

Description

一种基于局部和深度特征集合的目标分类方法

技术领域

本发明涉及目标分类领域，尤其是涉及了一种基于局部和深度特征集合的目标分类方法。

背景技术

目标识别和分类是当前计算机视觉和人工智能等领域的研究热点，它是模式识别技术的一个重要分支，可以将其定义为对表征对象向量信息进行处理、分析、描述、分类和解释的过程。识别的对象包括了文字、声音、图像等。目标识别和分类可以应用在用于身份确认的指纹识别和人脸识别、在智能交通管理中的车牌识别、农业方面的种子识别、食品品质检测技术和医学方面的心电图识别技术等，还可以进一步延伸到文字和语音的识别、遥感等方面。除此之外，其在机器人导航、智能视频监控、工业检测、航空航天等诸多领域也有广泛应用。然而，传统的方法在分类时使用的是融合特征，分类效果不佳，而且计算成本较高，不利于应用。

本发明提出了一种基于局部和深度特征集合的目标分类方法，先从深度网络的最后完全连接层中提取描述符和尺度不变特征变换(SIFT)描述符的费舍尔向量，然后利用费舍尔向量作为编码策略，对每个特征训练一个支持向量机(SVM)，接着对分类器集合进行训练和测试，对输入数据集进行优化分类，最后进行投票并得出最终决策。本发明深层网络的中间层可以增强从全连接层获得的特征的分类能力，而且为每个特征训练单独的分类器，因此具有较好的分类性能；同时计算成本低，有利于实现目标分类技术的各种应用。

发明内容

针对分类效果不佳、计算成本较高等问题，本发明的目的在于提供一种基于局部和深度特征集合的目标分类方法，先从深度网络的最后完全连接层中提取描述符和尺度不变特征变换(SIFT)描述符的费舍尔向量，然后利用费舍尔向量作为编码策略，对每个特征训练一个支持向量机(SVM)，接着对分类器集合进行训练和测试，对输入数据集进行优化分类，最后进行投票并得出最终决策。

为解决上述问题，本发明提供一种基于局部和深度特征集合的目标分类方法，其主要内容包括：

(一)深度卷积特征提取；

(二)局部特征和编码；

(三)分类器集合。

其中，所述的基于局部和深度特征集合的目标分类方法，从深度网络的最后完全连接层中提取描述符和尺度不变特征变换(SIFT)描述符的费舍尔向量；对每个特征训练一个支持向量机(SVM)，对输入数据集进行优化分类，然后进行投票并得出最终决策。

其中，所述的深度卷积特征提取，深度卷积特征评估了三种流行的CNN架构：AlexNet、VGGNet和GoogleNet。

进一步地，所述的AlexNet，其架构由5个卷积层和3个全连接层组成；它引入了修正线性单元(ReLU)作为池中非线性的使用，并在训练期间忽略神经元，从而减少过度拟合；合并层放置在第一、第二和第五卷积层之后。

进一步地，所述的VGGNet，其普及主要是由于在每个卷积层中使用了多个3×3滤波器；多个小卷积滤波器可以模拟大接收场的响应，从而提供更好的泛化能力并表示对象的复杂特征；VGGNet由13个16层的卷积层和3个全连接层组成；卷积层被分成5个组，每个组后面是最大汇集层。

进一步地，所述的GoogleNet，其将卷积块与1×1卷积滤波器(称为网络中的网络)的块并行化，有效地利用了这些卷积特征的所有像素之间共享的非常少的参数。

其中，所述的局部特征和编码，基于补丁的图像描述符，如SIFT和加速稳健特征(SURF)，在图像分类系统中显示出巨大的潜力；在关键点检测阶段，选择合适的特征尺度作为尺度σ的连续函数，通过与高斯核进行卷积，形成图像的尺度空间；尺度是由拉普拉斯高斯滤波器的最大值决定的，可以用高斯差分算子来代替；关键点的极值点是使用3×3滤波器的邻域算子估计的；进一步的过滤有助于摆脱非真实极值点、低对比度点和沿边响应；为了使描述符旋转不变，计算方向直方图，并用128维特征向量描述最终关键点；图像的细粒度信息是使用图像签名(视觉词袋、局部特征聚合描述符、费舍尔向量)捕获的。

进一步地，所述的费舍尔向量，在实验中，利用费舍尔向量作为编码策略；给定一个似然函数p(X|λ)，其中，λ表示参数，X的得分函数可以表示为：

梯度矢量可以使用任何鉴别分类器进行分类；要求对这样的鉴别分类器中存在的内积项进行归一化；费舍尔信息矩阵由下式给出：

归一化的梯度向量由下式给出：

视觉词汇表上的费舍尔核用高斯混合模型(GMM)表示。

其中，所述的分类器集合(三)，其特征在于，分类器集合包括训练和测试；训练包括深度集合、中间层集合和与深层集合的SIFT；

(1)深度集合：深层网络是在最后一层使用相应的softmax分类器进行训练的；用最后一层的SVM代替softmax，并用完全连通层的输出重新训练最后一层；将各种深层特征的组合称为深度集合的独立训练SVM；这样的网络允许利用各种深层特征的互补性；

(2)中间层集合：

(a)单个中间层：为了评估中间层的表示能力，一旦网络被训练，则移除之后的层；各个中间层之后是由SVM组成的分类层；

(b)中间层融合：对每个深度网络进行各种中间层特征融合的实验；如果融合的各种中间层与深度集合相比可以形成一个更强大的特征，则可以评估这种组合；由于得到的特征向量具有非常高的维度，所以可以通过使用主成分分析(PCA)减小特征向量的大小来训练SVM；

(3)与深层集合的SIFT：将SIFT的输出与深度集合融合；使用费舍尔向量从图像中量化SIFT特征.

进一步地，所述的测试，在测试时间，各种体系结构的输出类别是基于如下执行的多数投票预测的：

其中，φ_ens(I)是输入图像I的输出决策，N_k是输出为第k个类别的SVM的数量，其由下式给出：

N_k＝#{c|φ_c(I)＝L_k} (5)

其中，φ_c是集合中第c个分类器的输出或决策函数，L_k表示第k个类别的标签。

附图说明

图1是本发明一种基于局部和深度特征集合的目标分类方法的系统流程图。

图2是本发明一种基于局部和深度特征集合的目标分类方法的流程示意图。

图3是本发明一种基于局部和深度特征集合的目标分类方法的分类器的训练。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于局部和深度特征集合的目标分类方法的系统流程图。主要包括深度卷积特征提取，局部特征和编码和分类器集合。

深度卷积特征提取，深度卷积特征评估了三种流行的CNN架构：AlexNet、VGGNet和GoogleNet。

AlexNet的架构由5个卷积层和3个全连接层组成；它引入了修正线性单元(ReLU)作为池中非线性的使用，并在训练期间忽略神经元，从而减少过度拟合；合并层放置在第一、第二和第五卷积层之后。

VGGNet的普及主要是由于在每个卷积层中使用了多个3×3滤波器；多个小卷积滤波器可以模拟大接收场的响应，从而提供更好的泛化能力并表示对象的复杂特征；VGGNet由13个16层的卷积层和3个全连接层组成；卷积层被分成5个组，每个组后面是最大汇集层。

GoogleNet将卷积块与1×1卷积滤波器(称为网络中的网络)的块并行化，有效地利用了这些卷积特征的所有像素之间共享的非常少的参数。

局部特征和编码，基于补丁的图像描述符，如SIFT和加速稳健特征(SURF)，在图像分类系统中显示出巨大的潜力；在关键点检测阶段，选择合适的特征尺度作为尺度σ的连续函数，通过与高斯核进行卷积，形成图像的尺度空间；尺度是由拉普拉斯高斯滤波器的最大值决定的，可以用高斯差分算子来代替；关键点的极值点是使用3×3滤波器的邻域算子估计的；进一步的过滤有助于摆脱非真实极值点、低对比度点和沿边响应；为了使描述符旋转不变，计算方向直方图，并用128维特征向量描述最终关键点；图像的细粒度信息是使用图像签名(视觉词袋、局部特征聚合描述符、费舍尔向量)捕获的。

在实验中，利用费舍尔向量作为编码策略；给定一个似然函数p(X|λ)，其中，λ表示参数，X的得分函数可以表示为：

归一化的梯度向量由下式给出：

视觉词汇表上的费舍尔核用高斯混合模型(GMM)表示。

分类器集合包括训练和测试；

在测试时间，各种体系结构的输出类别是基于如下执行的多数投票预测的：

N_k＝#{c|φ_c(I)＝L_k} (5)

图2是本发明一种基于局部和深度特征集合的目标分类方法的流程示意图。从深度网络的最后完全连接层中提取描述符和尺度不变特征变换(SIFT)描述符的费舍尔向量；对每个特征训练一个支持向量机(SVM)，对输入数据集进行优化分类，然后进行投票并得出最终决策。

图3是本发明一种基于局部和深度特征集合的目标分类方法的分类器的训练。训练包括深度集合、中间层集合和与深层集合的SIFT；

(2)中间层集合：

(3)与深层集合的SIFT：将SIFT的输出与深度集合融合；使用费舍尔向量从图像中量化SIFT特征。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于局部和深度特征集合的目标分类方法，其特征在于，主要包括深度卷积特征提取(一)；局部特征和编码(二)；分类器集合(三)。

2.基于权利要求书1所述的基于局部和深度特征集合的目标分类方法，其特征在于，从深度网络的最后完全连接层中提取描述符和尺度不变特征变换(SIFT)描述符的费舍尔向量；对每个特征训练一个支持向量机(SVM)，对输入数据集进行优化分类，然后进行投票并得出最终决策。

3.基于权利要求书1所述的深度卷积特征提取(一)，其特征在于，深度卷积特征评估了三种流行的CNN架构：AlexNet、VGGNet和GoogleNet。

4.基于权利要求书3所述的AlexNet，其特征在于，AlexNet的架构由5个卷积层和3个全连接层组成；它引入了修正线性单元(ReLU)作为池中非线性的使用，并在训练期间忽略神经元，从而减少过度拟合；合并层放置在第一、第二和第五卷积层之后。

5.基于权利要求书3所述的VGGNet，其特征在于，VGGNet的普及主要是由于在每个卷积层中使用了多个3×3滤波器；多个小卷积滤波器可以模拟大接收场的响应，从而提供更好的泛化能力并表示对象的复杂特征；VGGNet由13个16层的卷积层和3个全连接层组成；卷积层被分成5个组，每个组后面是最大汇集层。

6.基于权利要求书3所述的GoogleNet，其特征在于，GoogleNet将卷积块与1×1卷积滤波器(称为网络中的网络)的块并行化，有效地利用了这些卷积特征的所有像素之间共享的非常少的参数。

7.基于权利要求书1所述的局部特征和编码(二)，其特征在于，基于补丁的图像描述符，如SIFT和加速稳健特征(SURF)，在图像分类系统中显示出巨大的潜力；在关键点检测阶段，选择合适的特征尺度作为尺度σ的连续函数，通过与高斯核进行卷积，形成图像的尺度空间；尺度是由拉普拉斯高斯滤波器的最大值决定的，可以用高斯差分算子来代替；关键点的极值点是使用3×3滤波器的邻域算子估计的；进一步的过滤有助于摆脱非真实极值点、低对比度点和沿边响应；为了使描述符旋转不变，计算方向直方图，并用128维特征向量描述最终关键点；图像的细粒度信息是使用图像签名(视觉词袋、局部特征聚合描述符、费舍尔向量)捕获的。

8.基于权利要求书7所述的费舍尔向量，其特征在于，在实验中，利用费舍尔向量作为编码策略；给定一个似然函数p(X|λ)，其中，λ表示参数，X的得分函数可以表示为：

归一化的梯度向量由下式给出：

视觉词汇表上的费舍尔核用高斯混合模型(GMM)表示。

9.基于权利要求书1所述的分类器集合(三)，其特征在于，分类器集合包括训练和测试；训练包括深度集合、中间层集合和与深层集合的SIFT；

(2)中间层集合：

10.基于权利要求书9所述的测试，其特征在于，在测试时间，各种体系结构的输出类别是基于如下执行的多数投票预测的：

N_k＝#{c|φ_c(I)＝L_k} (5)