CN112016385B

CN112016385B - 基于空间分解的近红外光谱数据单分类特征抽取方法

Info

Publication number: CN112016385B
Application number: CN202010630973.9A
Authority: CN
Inventors: 陈孝敬; 黄光造; 石文; 蒋成玺; 袁雷明; 陈熙
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2023-04-28
Anticipated expiration: 2040-07-03
Also published as: CN112016385A

Abstract

本发明公开了一种基于空间分解的近红外光谱数据单分类特征抽取方法，采用空间分解的方法将主成分特征提取方法引申到单分类的特征抽取当中，通过主成分分析方法抽取目标类在主空间的特征信息，通过一阶范数抽取异常类在补空间的特征信息，在对全局空间的特征信息进行高效压缩的同时，保留了主空间和补空间的主要信息；优点是可以有效地平衡单分类特征压缩与检测敏感性降低的问题，普适性较高。

Description

基于空间分解的近红外光谱数据单分类特征抽取方法

技术领域

本发明涉及近红外光谱数据单分类特征抽取方法，尤其是涉及基于空间分解的近红外光谱数据单分类特征抽取方法。

背景技术

近红外光谱检测技术是一种无损、快速的检测技术，已经在农业、化工、医药和食品等领域得到了广泛的应用，并逐渐得到大众的接受和官方的认可。利用近红外光谱数据建立单分类模型，可以对物质的成分进行定性分析。但是近红外光谱数据具有高维属性，严重制约所建立单分类模型的泛化效果。对近红外光谱数据进行特征抽取从而降低高维数据特性的影响，是提高单分类模型对近红外光谱数据识别效果的一种重要手段。单分类问题是一种介于有监督和无监督之间的分类问题。目前，对于近红外光谱数据的单分类特征抽取主要采取无监督的学习方法，比如主成分分析方法。但是主成分分析方法抽取的是目标类的主要特征信息，并不一定能够有效地用于区分异常类，不能很好地平衡特征压缩与异常检测敏感性降低的问题，并不能最佳地匹配近红外光谱数据的单分类特征抽取问题，导致单分类特征抽取效果的普适性不高。

发明内容

本发明所要解决的技术问题是提供一种基于空间分解的近红外光谱数据单分类特征抽取方法，该方法可以有效地平衡单分类特征压缩与检测敏感性降低的问题，普适性较高。

本发明解决上述技术问题所采用的技术方案为：一种基于空间分解的近红外光谱数据单分类特征抽取方法，包括以下步骤：

(1)根据实际的需求，收集相应的样本构建训练集和测试集，训练集包括的样本数量记为n1，n1为大于等于10的整数，将测试集包括的样本数量记为n2，n2为大于等于1的整数，利用近红外光谱仪器获取训练集和测试集中每个样本的近红外光谱数据；

对获取的每个样本的近红外光谱数据以行向量形式存储，每个样本行向量的列数均为其特征维度，将其记为p，即每个样本的近红外光谱数据均为1行p列的的行向量；

将训练集中n1个样本的近红外光谱数据按行拼接，构成n1行p列的训练集矩阵X1_n1×p，将测试集中n2个样本的近红外光谱数据按行拼接，构成n2行p列的的训练集矩阵X2_n2×p；

(2)采用现有的主成分分析方法对训练集矩阵X1_n1×p进行特征抽取，计算保留90％变异信息时的投影矩阵W_p×f，投影矩阵W_p×f为p行f列的矩阵，其中f是保留的主成分数量，设定主空间S，将该投影矩阵W_p×f作为主空间，令S＝W_p×f；

(3)设定主空间S的补空间，将其记为S^⊥，采用式(1)计算得到主空间S的补空间S^⊥：

其中，I是p行p列的单位矩阵，T表示对矩阵进行转置操作，T+表示先对矩阵进行转置操作再进行求伪逆操作；

(4)采用式(2)计算训练集矩阵X1_n1×p在主空间S的投影得分，将其记为t₁：

t₁＝X1_n1×pW_p×f (2)

(5)采用式(3)计算训练集矩阵X1_n1×p在补空间S^⊥的投影，将其记为

(6)对

中的每一行数据求一阶范数，得到n1行数据对应的n1个一阶范数，将求得的n1个一阶范数构建n1行1列的向量，将该向量记为t₂，t₂中第k行的数据为

中的第k行数据的一阶范数，k＝1,2，…，n1；

(7)将t₁和t₂进行合并，得到n1行f+1列的数据矩阵F₁，该数据矩阵F₁即为训练集的单分类抽取特征，t₁的n1行f列作为数据矩阵F₁的第1列～第f列数据，t₂的n1行1列作为数据矩阵F₁的第f+1列数据；

(8)采用式(4)计算测试集矩阵X2_n2×p在主空间S的投影得分，将其记为t₃：

t₃＝X2_n2×pW_p×f (4)

(9)采用式(5)计算测试集矩阵X2_n2×p在补空间S^⊥的投影分量，将其记为

(10)对

中的每一行数据求一阶范数，得到n2行数据对应的n2个一阶范数，采用求得的n2个一阶范数构建n2行1列的向量，将该向量记为t₄，t₄中第j行的数据为

中的第j行数据的一阶范数，j＝1,2，…，n2；

(11)将t₃和t₄进行合并，得到n2行f+1列的数据矩阵F₂，该数据矩阵F₂即为测试集的单分类抽取特征，t₃的n2行f列作为数据矩阵F₂的第1列～第f列数据，t₄的n2行1列数据作为数据矩阵F₂的第f+1列数据。

与现有技术相比，本发明的优点在于通过采用空间分解的方法将主成分特征提取方法引申到单分类的特征抽取当中，通过主成分分析方法抽取目标类在主空间的特征信息，通过一阶范数抽取异常类在补空间的特征信息，在对全局空间的特征信息进行高效压缩的同时，保留了主空间和补空间的主要信息，由此本发明可以有效地平衡单分类特征压缩与检测敏感性降低的问题，普适性较高。

具体实施方式

以下结合实施例对本发明作进一步详细描述。

实施例：一种基于空间分解的近红外光谱数据单分类特征抽取方法，包括以下步骤：

t₁＝X1_n1×pW_p×f (2)

(6)对

中的第k行数据的一阶范数，k＝1,2，…，n1；

t₃＝X2_n2×pW_p×f (4)

(10)对

中的第j行数据的一阶范数，j＝1,2，…，n2；

本实施例中，样本是汽油，采用matlab2012a自带的spectra近红外光谱数据。matlab2012a自带的spectra近红外光谱数据包含60个样本，每个样本的光谱变量长度是700，本实施例中只选择前3个变量(即特征维度，根据实际需要选取)作为样本的特征，选用60个样本中的第1-4个样本作为训练集X1_n1×p，第5-6个样本作为测试集X2_n2×p：

按照本发明的方法中采用现有的主成分分析方法对训练集矩阵X1_n1×p进行特征抽取，计算保留90％变异信息时的投影矩阵W_p×f为：

计算得到的主空间S的补空间S^⊥为：

计算得到的训练集矩阵X1_n1×p在主空间S的投影得分t₁为：

计算得到的训练集矩阵X1_n1×p在补空间S^⊥的投影

为：

对

中的每一行数据求一阶范数，得到n1行数据对应的n1个一阶范数，将求得的n1个一阶范数构建n1行1列的向量t₂为：

将t₁和t₂进行合并，得到n1行f+1列的数据矩阵F₁为：

计算得到的测试集矩阵X2_n2×p在主空间S的投影得分为t₃为：

计算得到的测试集矩阵X2_n2×p在补空间S^⊥的投影分量

为：

对

中的每一行数据求一阶范数，得到n2行数据对应的n2个一阶范数，采用求得的n2个一阶范数构建n2行1列的向量t₄为：

将t₃和t₄进行合并，得到n2行f+1列的数据矩阵F₂为：