CN109657704B

CN109657704B - 一种基于稀疏融合的核化场景特征提取方法

Info

Publication number: CN109657704B
Application number: CN201811424167.5A
Authority: CN
Inventors: 庄莉; 苏江文; 吕君玉; 郑耀松; 陈锴; 林吓强; 刘缵彬; 何天尝
Original assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2022-11-29
Anticipated expiration: 2038-11-27
Also published as: CN109657704A

Abstract

本发明提供一种基于稀疏融合的核化场景特征提取方法，包括对输入的场景图像进行预处理操作，分别提取处理图像的稠密SIFT特征和LBP特征；利用离线场景图像集，逐层计算出提取层级式稀疏融合特征所需的字典矩阵，结合字典矩阵对处理图像进行层级式稀疏编码与融合，形成图像的局部稀疏融合特征表达；对图像的局部稀疏融合特征表达进行SPM池化，形成图像的全局稀疏融合特征表达；对图像的全局稀疏融合特征表达进行归一化；对归一化的全局稀疏融合特征表达进行近似核变换，形成图像的全局核化场景特征表达。本发明优点：可实现对稠密SIFT和LBP两种不同类型的特征进行有效融合，且能提高特征的的辨别能力，进而可提高后期分类任务的精度。

Description

一种基于稀疏融合的核化场景特征提取方法

技术领域

本发明涉及一种场景特征提取方法，特别涉及一种基于稀疏融合的核化场景特征提取方法。

背景技术

场景特征提取是指利用计算机视觉等相关技术从场景图像中抽取有用的信息，并利用这些信息来完成后期的场景识别等高级任务。换句话说，场景特征提取是后期场景识别等任务成功的关键。场景特征提取一直以来都是热点研究方向，近几年来，场景特征提取研究已经取得了较大的进展，也因此涌现出很多场景特征提取的方法。场景特征提取技术主要可以分为传统手工设计的场景特征提取技术和基于深度学习的场景特征提取技术；基于手工设计的场景特征提取技术又可以分为基于底层特征的场景特征提取技术和基于中层特征的场景特征提取技术。

(1)基于底层特征的场景特征提取技术

在2005年之前，基于底层特征的场景特征提取技术已有广泛的应用，基于底层特征的场景特征提取技术又可分为基于局部的场景特征提取技术和基于全局的场景特征提取技术。

基于局部的场景特征包含颜色和灰度(例如，RGB模型、HSV模型等)、边缘(例如，sobel算子、canny算子等)、关键点(例如，SIFT关键点、Harris角点等)和运动特征(例如，光流等)。由于颜色和灰度特征极易受光照的影响，为了提高针对光照变化的鲁棒性能，梯度信息(一阶或者二阶微分的组合)被近一步用于提取边缘特征。为了提高边缘特征的抗噪声能力，通过加入高斯低通滤波构成LoG和DoG算子。

基于全局的场景特征包含形状(例如，HOG和形状上下文)和纹理(例如，LBP和Haar-like)。为了能够表达场景的整体信息，直方图技术被广泛的用于基于局部特征构建目标的全局特征。

(2)基于中层特征的场景特征提取技术

基于中层特征的场景特征提取技术主要依赖的是视觉词袋技术，比如：DenseSIFT、SparseSIFT、HOG词袋、texton词袋等。视觉词袋技术将所有局部特征表达(例如关键点)进行聚类、以聚类中心为编码本对局部特征表达进行再编码。该技术的优势在于每个局部特征的词袋编码表达了它在局部特征空间中的大致分布位置。所以，词袋编码对各种观测条件的变化具有一定的鲁棒性能。但是，词袋编码技术的缺点在于丧失了空间位置信息。不过，根据每个局部特征的空间位置，利用直方图统计每一维编码在空间区域的分布情况，从而可以在词袋编码中融入空间位置信息，例如DenseSIFT和SparseSIFT。

(3)基于深度学习的场景特征提取技术

随着计算机技术的发展，深度学习技术在计算机视觉领域取得了巨大成功。因此，很多学者将深度学习用于场景特征提取，目前，基于深度学习的场景特征提取主要包括监督式和非监督式两种，监督式场景特征提取方式直接将场景特征提取与后期任务结合，整个框架可同时完成特征的提取和后期任务，该类框架首先构建多层非线性网络，然后通过最小化网络输出与真实标签损失值，反向传播调整网络参数，自动学习高级特征。其中，卷积神经网络是最成功的模型，比较典型的卷积神经网络模型有Alexnet，GoogleNet，VGGNet等，但是这类监督式方法需要大量标签数据。

非监督式场景特征学习方法可以无监督地自动提取图像的高层次语义特征，其中最典型的是深度自编码器模型，该类模型的网络输入和输出有相同维度，特征输入到网络，通过正向非线性网络到达中间层，然后由中间层反向通过重构网络，得到输出。为了学习到较鲁棒的特征，学者往往引入随机噪声，即用被破坏的输入数据重构出原始数据，从而使得训练出来的特征会更鲁棒，具有更好的泛化能力，这类非监督式场景特征提取方法虽然具有较好的重构能力，但却缺乏辨别能力。

基于以上分析，现有的特征提取技术主要存在如下缺陷：1、现有的特征融合技术大部分是直接将底层的特征进行融合，或者先经过底层融合后再进行进一步映射，而这种方法由于本身底层特征存在噪声干扰，所以融合特征很容易被噪声污染到；同时，现有的特征融合技术对不同类型的特征融合效果差，鲁棒性比较低；2、为了提高特征的辨别能力，以往都是采用高斯核等核函数进行核变换，使得特征在高维核空间线性可分，进而提高后期分类任务的精度，但是，采用高斯核等核函数进行核变换不仅复杂度极高，而且对辨别能力的提高也比较有限，这导致后期分类任务的精度仍然偏低。

发明内容

本发明要解决的技术问题，在于提供一种基于稀疏融合的核化场景特征提取方法，通过本发明方法可实现对稠密SIFT和LBP两种不同类型的特征进行有效融合，且能够提高特征的的辨别能力，进而可提高后期分类任务的精度。

本发明是这样实现的：一种基于稀疏融合的核化场景特征提取方法，所述方法包括如下步骤：

步骤S1、对输入的场景图像进行预处理操作，并分别提取预处理后的处理图像的稠密SIFT特征和LBP特征；

步骤S2、利用离线场景图像集，逐层计算出提取层级式稀疏融合特征所需的字典矩阵，并结合字典矩阵对处理图像进行层级式稀疏编码与融合，形成图像的局部稀疏融合特征表达；

步骤S3、对图像的局部稀疏融合特征表达进行SPM池化，形成图像的全局稀疏融合特征表达；

步骤S4、对图像的全局稀疏融合特征表达进行归一化处理；

步骤S5、对归一化后的全局稀疏融合特征表达进行近似核变换，形成图像的全局核化场景特征表达。

进一步地，在所述步骤S1中，所述预处理操作包括图像对比度归一化处理、Gamma校正处理以及图像均衡化处理。

进一步地，所述步骤S2具体包括：

步骤S21、利用离线场景图像集，计算出提取第一层级稀疏融合特征所需的第一层级字典矩阵，并结合第一层级字典矩阵对处理图像进行第一层级的稀疏编码与融合，形成图像的第一层级稀疏融合特征表达；

步骤S22、收集离线场景图像集的第一层级稀疏融合特征，计算出提取第二层级稀疏融合特征所需的第二层级字典矩阵，并结合第二层级字典矩阵对经过第一层级处理的图像进行第二层级的稀疏编码与融合，形成图像的第二层级稀疏融合特征表达。

进一步地，所述步骤S21具体包括：

步骤S211、分别提取并收集离线场景图像集的稠密SIFT特征和LBP特征，分别形成稠密SIFT特征集和LBP特征集；

步骤S212、分别使用K-means聚类算法对稠密SIFT特征集和LBP特征集进行聚类，其中，类的个数均设置为K1，K1为正整数；同时，将对稠密SIFT特征集的聚类结果当作基于稠密SIFT特征字典矩阵的初始值，将对LBP特征集的聚类结果当作基于LBP特征字典矩阵的初始值；

步骤S213、采用K-SVD算法，分别代入基于稠密SIFT特征字典矩阵的初始值和基于LBP特征字典矩阵的初始值，计算得到基于稠密SIFT特征字典矩阵和基于LBP特征字典矩阵；

步骤S214、将从处理图像提取的稠密SIFT特征与基于稠密SIFT特征字典矩阵结合，将从处理图像提取的LBP特征与基于LBP特征字典矩阵结合，并采用OMP稀疏编码算法，分别计算基于稠密SIFT特征的稀疏表达和基于LBP特征的稀疏表达，且基于稠密SIFT特征的稀疏表达与基于LBP特征的稀疏表达均为K1维向量；

步骤S215、将基于稠密SIFT特征的稀疏表达和基于LBP特征的稀疏表达进行最大化操作，形成图像的第一层级稀疏融合特征表达。

进一步地，所述步骤S22具体包括：

步骤S221、收集离线场景图像集的第一层级稀疏融合特征；

步骤S222、在经过第一层级处理的图像中，将每2×2区域中的4个第一层级稀疏融合特征进行串联操作，形成图像的4K1维串联特征向量；

步骤S223、使用K-means聚类算法对4K1维串联特征进行聚类，类的个数设置为K2，K2为正整数；同时，将对4K1维串联特征的聚类结果当作串联特征字典矩阵的初始值；

步骤S224、采用K-SVD算法，代入串联特征字典矩阵的初始值计算得到串联特征字典矩阵；

步骤S225、将图像的4K1维串联特征向量与串联特征字典矩阵结合，并采用OMP稀疏编码算法，计算出图像的第二层级稀疏融合特征表达，该图像的第二层级稀疏融合特征表达即为图像的局部稀疏融合特征表达。

进一步地，所述步骤S5具体包括：

步骤S51、对归一化后的全局稀疏融合特征表达设置量化级数；

步骤S52、对归一化后的全局稀疏融合特征表达进行量化操作；

步骤S53、对归一化后的全局稀疏融合特征表达进行二值化操作；

步骤S54、将二值化后所有的0-1向量组合起来形成图像的全局核化场景特征表达。

本发明具有如下优点：

1、通过采用双层级的稀疏融合策略，并在稀疏层进行融合，不仅可以更好地提取特征本质属性，并实现对稠密SIFT和LBP两种不同类型的特征进行有效融合，而且可以有效去除干扰；

2、通过组合小区域内的特征进行二次稀疏编码映射，可融合更多的上下文信息，并提高特征信息量，进而提高表征能力；

3、通过采用近似核变换操作，可以高效率地将特征进行核映射，从而提高特征的的辨别能力，进而提高后期分类任务的精度。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明一种基于稀疏融合的核化场景特征提取方法的总体流程框图。

图2为本发明中进行第一层级稀疏融合的流程示意图。

图3为本发明中进行第二层级稀疏融合的流程示意图。

图4为本发明中近似核变换的示意图。

具体实施方式

下面先对本发明具体实施方式中涉及到的一些名词作解释说明：

SIFT：即尺度不变特征变换(Scale-invariant feature transform，简称SIFT)，是用于图像处理领域的一种描述。这种描述具有尺度不变性，可在图像中检测出关键点，是一种局部特征描述子。

LBP:即线性反投影算法(Linear Back Projection，简称LBP)，又称累加法，是最早使用的一种简单(ECT图像重建)成像算法。它将通过某点的所有投影射线进行累加，再反向估算出该点的密度值。从成像观点分析，它是不完全的雷登逆变换(完整的雷登逆变换包括微分、希尔伯特变换、反投影和归一化等步骤)。

SPM：简称Spatial Pyramid Matching，它是一种利用空间金字塔进行图像匹配、识别、分类的算法。SPM是BOF(Bag Of Features)的改进，因为BOF是在整张图像中计算特征点的分布特征，进而生成全局直方图，所以会丢失图像的局部/细节信息，无法对图像进行精确地识别。为了克服BOF的固有缺点，作者提出了SPM算法，它是在不同分辨率上统计图像特征点分布，从而获取图像的局部信息。

K-SVD：K-SVD算法是2006年由以色列理工学院的Michal Aharon、Michael Elad等人提出来的，它是一种经典的字典训练算法，依据误差最小原则，对误差项进行SVD分解，选择使误差最小的分解项作为更新的字典原子和对应的原子系数，经过不断的迭代从而得到优化的解。

稀疏编码(Sparse Coding)：是一种模拟哺乳动物视觉系统主视皮层V1区简单细胞感受野人工神经网络方法。该方法具有空间的局部性、方向性和频域的带通性，是一种自适应的图像统计方法。

归一化：归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为标量。在多种计算中都经常用到这种方法。

OMP：正交匹配追踪(Orthogonal Matching Pursuit)，OMP算法的改进之处在于:在分解的每一步对所选择的全部原子进行正交化处理，这使得在精度要求相同的情况下，OMP算法的收敛速度更快。

K-means聚类算法：它属于硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means聚类算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小；算法采用误差平方和准则函数作为聚类准则函数。

请参阅图1至图4所示，本发明一种基于稀疏融合的核化场景特征提取方法的较佳实施例，所述方法包括如下步骤：

在所述步骤S1中，所述预处理操作包括图像对比度归一化处理、Gamma校正处理以及图像均衡化处理。

在深度学习中，对比度通常指的是图像或图像区域中像素的标准差，图像对比度归一化处理包括全局对比度归一化处理和局部对比度归一化处理，是深度学习中常用的一种数据预处理方法，用以减少数据中的变化量，从而减少泛化误差和拟合训练集所需模型的大小。

Gamma校正是对输入图像灰度值进行的非线性操作，使输出图像灰度值与输入图像灰度值呈指数关系，Gamma校正可以使图像的整体亮度值得到提升，同时使低灰度处的对比度得到增加，可更利于分辩低灰度值时的图像细节。

直方图均衡化处理(即图像均衡化处理)的“中心思想”是把原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围内的均匀分布；直方图均衡化就是对图像进行非线性拉伸，重新分配图像像素值，使一定灰度范围内的像素数量大致相同；直方图均衡化就是把给定图像的直方图分布改变成“均匀”分布直方图分布。

所述步骤S2具体包括：

请重点参照图2所示，所述步骤S21具体包括：

步骤S211、分别提取并收集离线场景图像集的稠密SIFT特征和LBP特征(即先提取离线场景图像集的稠密SIFT特征和LBP特征，并分别收集稠密SIFT特征和LBP特征)，分别形成稠密SIFT特征集和LBP特征集；

步骤S212、分别使用K-means聚类算法对稠密SIFT特征集和LBP特征集进行聚类，其中，类的个数(即字典个数)均设置为K1，K1为正整数；同时，将对稠密SIFT特征集的聚类结果当作基于稠密SIFT特征字典矩阵的初始值，将对LBP特征集的聚类结果当作基于LBP特征字典矩阵的初始值；

步骤S215、将基于稠密SIFT特征的稀疏表达和基于LBP特征的稀疏表达进行最大化操作，形成图像的第一层级稀疏融合特征表达，该第一层级稀疏融合特征表达也是一个K1维向量。

请重点参照图3所示，所述步骤S22具体包括：

步骤S221、收集离线场景图像集的第一层级稀疏融合特征；

步骤S222、为了融合更多上下文信息，在经过第一层级处理的图像中，将每2×2区域中的4个第一层级稀疏融合特征进行串联操作，形成图像的4K1维串联特征向量；

步骤S223、使用K-means聚类算法对4K1维串联特征进行聚类，类的个数(即字典个数)设置为K2，K2为正整数；同时，将对4K1维串联特征的聚类结果当作串联特征字典矩阵的初始值；

步骤S225、将图像的4K1维串联特征向量与串联特征字典矩阵结合，并采用OMP稀疏编码算法，计算出图像的第二层级稀疏融合特征表达(该第二层级稀疏融合特征表达是一个K2维向量)，该图像的第二层级稀疏融合特征表达即为图像的局部稀疏融合特征表达。

也就是说，在本发明中，形成图像的局部稀疏融合特征表达需要逐层完成两个层级的稀疏编码与融合，其中，第一层级的稀疏编码与融合是将稠密SIFT特征和LBP特征先分别进行稀疏编码，然后在稀疏层中进行融合形成第一层级稀疏融合特征；第二层级的稀疏编码与融合是先将2×2区域内所有形成的第一层级稀疏融合特征组合起来，然后进行稀疏编码，并在稀疏层进行融合形成第二层级稀疏融合特征，即最终的图像的局部稀疏融合特征表达。

通过采用双层级的稀疏融合策略，并在稀疏层进行融合，不仅可以更好地提取特征本质属性，并实现对稠密SIFT和LBP两种不同类型的特征进行有效融合，而且可以有效去除干扰；同时，本发明通过组合小区域内的特征进行二次稀疏编码映射，可融合更多的上下文信息，并提高特征信息量，进而提高表征能力。

步骤S3、对图像的局部稀疏融合特征表达进行SPM池化，即通过在不同分辨率上统计图像特征点分布，从而获取图像的局部信息，形成图像的全局稀疏融合特征表达；

步骤S4、对图像的全局稀疏融合特征表达进行归一化处理，即将有量纲的图像的全局稀疏融合特征表达，经过变换，化为无量纲的表达式，成为标量；

所述步骤S5具体包括：

本发明结合核映射思想，通过采用近似核变换操作，可以高效率地将特征进行核映射，从而提高特征的的辨别能力，进而提高后期分类任务的精度。

如图4所示，下面以抽取三维特征为例来用于解释说明，其具体进行近似核变换的步骤如下：

(1)设置量化级数M＝5，所以每个bin＝1/5＝0.2；

(2)进行量化操作R(·)，如3＝R(0.6)，具体步骤为3＝round(0.6/0.2)；

(3)进行二值化操作U(·)，如[1,1,1,0,0]＝U(3)，即每维特征最后形成的0-1向量，从左到右，量化后的数值是几，就有几位为1，其他全为0；

(4)将所有的0-1向量组合起来形成最后的核特征。

综上所述，本发明具有如下优点：

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于稀疏融合的核化场景特征提取方法，其特征在于：所述方法包括如下步骤：

步骤S4、对图像的全局稀疏融合特征表达进行归一化处理；

步骤S5、对归一化后的全局稀疏融合特征表达进行近似核变换，形成图像的全局核化场景特征表达；

所述步骤S2具体包括：

步骤S22、收集离线场景图像集的第一层级稀疏融合特征，计算出提取第二层级稀疏融合特征所需的第二层级字典矩阵，并结合第二层级字典矩阵对经过第一层级处理的图像进行第二层级的稀疏编码与融合，形成图像的第二层级稀疏融合特征表达；

所述步骤S21具体包括：

步骤S215、将基于稠密SIFT特征的稀疏表达和基于LBP特征的稀疏表达进行最大化操作，形成图像的第一层级稀疏融合特征表达；

所述步骤S22具体包括：

步骤S221、收集离线场景图像集的第一层级稀疏融合特征；

2.根据权利要求1所述的一种基于稀疏融合的核化场景特征提取方法，其特征在于：在所述步骤S1中，所述预处理操作包括图像对比度归一化处理、Gamma校正处理以及图像均衡化处理。

3.根据权利要求1所述的一种基于稀疏融合的核化场景特征提取方法，其特征在于：所述步骤S5具体包括：