CN112016385B - 基于空间分解的近红外光谱数据单分类特征抽取方法 - Google Patents
基于空间分解的近红外光谱数据单分类特征抽取方法 Download PDFInfo
- Publication number
- CN112016385B CN112016385B CN202010630973.9A CN202010630973A CN112016385B CN 112016385 B CN112016385 B CN 112016385B CN 202010630973 A CN202010630973 A CN 202010630973A CN 112016385 B CN112016385 B CN 112016385B
- Authority
- CN
- China
- Prior art keywords
- data
- matrix
- columns
- rows
- near infrared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/143—Sensing or illuminating at different wavelengths
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Pure & Applied Mathematics (AREA)
- Evolutionary Biology (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Bioinformatics & Computational Biology (AREA)
- Complex Calculations (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
Abstract
本发明公开了一种基于空间分解的近红外光谱数据单分类特征抽取方法,采用空间分解的方法将主成分特征提取方法引申到单分类的特征抽取当中,通过主成分分析方法抽取目标类在主空间的特征信息,通过一阶范数抽取异常类在补空间的特征信息,在对全局空间的特征信息进行高效压缩的同时,保留了主空间和补空间的主要信息;优点是可以有效地平衡单分类特征压缩与检测敏感性降低的问题,普适性较高。
Description
技术领域
本发明涉及近红外光谱数据单分类特征抽取方法,尤其是涉及基于空间分解的近红外光谱数据单分类特征抽取方法。
背景技术
近红外光谱检测技术是一种无损、快速的检测技术,已经在农业、化工、医药和食品等领域得到了广泛的应用,并逐渐得到大众的接受和官方的认可。利用近红外光谱数据建立单分类模型,可以对物质的成分进行定性分析。但是近红外光谱数据具有高维属性,严重制约所建立单分类模型的泛化效果。对近红外光谱数据进行特征抽取从而降低高维数据特性的影响,是提高单分类模型对近红外光谱数据识别效果的一种重要手段。单分类问题是一种介于有监督和无监督之间的分类问题。目前,对于近红外光谱数据的单分类特征抽取主要采取无监督的学习方法,比如主成分分析方法。但是主成分分析方法抽取的是目标类的主要特征信息,并不一定能够有效地用于区分异常类,不能很好地平衡特征压缩与异常检测敏感性降低的问题,并不能最佳地匹配近红外光谱数据的单分类特征抽取问题,导致单分类特征抽取效果的普适性不高。
发明内容
本发明所要解决的技术问题是提供一种基于空间分解的近红外光谱数据单分类特征抽取方法,该方法可以有效地平衡单分类特征压缩与检测敏感性降低的问题,普适性较高。
本发明解决上述技术问题所采用的技术方案为:一种基于空间分解的近红外光谱数据单分类特征抽取方法,包括以下步骤:
(1)根据实际的需求,收集相应的样本构建训练集和测试集,训练集包括的样本数量记为n1,n1为大于等于10的整数,将测试集包括的样本数量记为n2,n2为大于等于1的整数,利用近红外光谱仪器获取训练集和测试集中每个样本的近红外光谱数据;
对获取的每个样本的近红外光谱数据以行向量形式存储,每个样本行向量的列数均为其特征维度,将其记为p,即每个样本的近红外光谱数据均为1行p列的的行向量;
将训练集中n1个样本的近红外光谱数据按行拼接,构成n1行p列的训练集矩阵X1n1×p,将测试集中n2个样本的近红外光谱数据按行拼接,构成n2行p列的的训练集矩阵X2n2×p;
(2)采用现有的主成分分析方法对训练集矩阵X1n1×p进行特征抽取,计算保留90%变异信息时的投影矩阵Wp×f,投影矩阵Wp×f为p行f列的矩阵,其中f是保留的主成分数量,设定主空间S,将该投影矩阵Wp×f作为主空间,令S=Wp×f;
(3)设定主空间S的补空间,将其记为S⊥,采用式(1)计算得到主空间S的补空间S⊥:
其中,I是p行p列的单位矩阵,T表示对矩阵进行转置操作,T+表示先对矩阵进行转置操作再进行求伪逆操作;
(4)采用式(2)计算训练集矩阵X1n1×p在主空间S的投影得分,将其记为t1:
t1=X1n1×pWp×f (2)
(6)对中的每一行数据求一阶范数,得到n1行数据对应的n1个一阶范数,将求得的n1个一阶范数构建n1行1列的向量,将该向量记为t2,t2中第k行的数据为中的第k行数据的一阶范数,k=1,2,…,n1;
(7)将t1和t2进行合并,得到n1行f+1列的数据矩阵F1,该数据矩阵F1即为训练集的单分类抽取特征,t1的n1行f列作为数据矩阵F1的第1列~第f列数据,t2的n1行1列作为数据矩阵F1的第f+1列数据;
(8)采用式(4)计算测试集矩阵X2n2×p在主空间S的投影得分,将其记为t3:
t3=X2n2×pWp×f (4)
(10)对中的每一行数据求一阶范数,得到n2行数据对应的n2个一阶范数,采用求得的n2个一阶范数构建n2行1列的向量,将该向量记为t4,t4中第j行的数据为中的第j行数据的一阶范数,j=1,2,…,n2;
(11)将t3和t4进行合并,得到n2行f+1列的数据矩阵F2,该数据矩阵F2即为测试集的单分类抽取特征,t3的n2行f列作为数据矩阵F2的第1列~第f列数据,t4的n2行1列数据作为数据矩阵F2的第f+1列数据。
与现有技术相比,本发明的优点在于通过采用空间分解的方法将主成分特征提取方法引申到单分类的特征抽取当中,通过主成分分析方法抽取目标类在主空间的特征信息,通过一阶范数抽取异常类在补空间的特征信息,在对全局空间的特征信息进行高效压缩的同时,保留了主空间和补空间的主要信息,由此本发明可以有效地平衡单分类特征压缩与检测敏感性降低的问题,普适性较高。
具体实施方式
以下结合实施例对本发明作进一步详细描述。
实施例:一种基于空间分解的近红外光谱数据单分类特征抽取方法,包括以下步骤:
(1)根据实际的需求,收集相应的样本构建训练集和测试集,训练集包括的样本数量记为n1,n1为大于等于10的整数,将测试集包括的样本数量记为n2,n2为大于等于1的整数,利用近红外光谱仪器获取训练集和测试集中每个样本的近红外光谱数据;
对获取的每个样本的近红外光谱数据以行向量形式存储,每个样本行向量的列数均为其特征维度,将其记为p,即每个样本的近红外光谱数据均为1行p列的的行向量;
将训练集中n1个样本的近红外光谱数据按行拼接,构成n1行p列的训练集矩阵X1n1×p,将测试集中n2个样本的近红外光谱数据按行拼接,构成n2行p列的的训练集矩阵X2n2×p;
(2)采用现有的主成分分析方法对训练集矩阵X1n1×p进行特征抽取,计算保留90%变异信息时的投影矩阵Wp×f,投影矩阵Wp×f为p行f列的矩阵,其中f是保留的主成分数量,设定主空间S,将该投影矩阵Wp×f作为主空间,令S=Wp×f;
(3)设定主空间S的补空间,将其记为S⊥,采用式(1)计算得到主空间S的补空间S⊥:
其中,I是p行p列的单位矩阵,T表示对矩阵进行转置操作,T+表示先对矩阵进行转置操作再进行求伪逆操作;
(4)采用式(2)计算训练集矩阵X1n1×p在主空间S的投影得分,将其记为t1:
t1=X1n1×pWp×f (2)
(6)对中的每一行数据求一阶范数,得到n1行数据对应的n1个一阶范数,将求得的n1个一阶范数构建n1行1列的向量,将该向量记为t2,t2中第k行的数据为中的第k行数据的一阶范数,k=1,2,…,n1;
(7)将t1和t2进行合并,得到n1行f+1列的数据矩阵F1,该数据矩阵F1即为训练集的单分类抽取特征,t1的n1行f列作为数据矩阵F1的第1列~第f列数据,t2的n1行1列作为数据矩阵F1的第f+1列数据;
(8)采用式(4)计算测试集矩阵X2n2×p在主空间S的投影得分,将其记为t3:
t3=X2n2×pWp×f (4)
(10)对中的每一行数据求一阶范数,得到n2行数据对应的n2个一阶范数,采用求得的n2个一阶范数构建n2行1列的向量,将该向量记为t4,t4中第j行的数据为中的第j行数据的一阶范数,j=1,2,…,n2;
(11)将t3和t4进行合并,得到n2行f+1列的数据矩阵F2,该数据矩阵F2即为测试集的单分类抽取特征,t3的n2行f列作为数据矩阵F2的第1列~第f列数据,t4的n2行1列数据作为数据矩阵F2的第f+1列数据。
本实施例中,样本是汽油,采用matlab2012a自带的spectra近红外光谱数据。matlab2012a自带的spectra近红外光谱数据包含60个样本,每个样本的光谱变量长度是700,本实施例中只选择前3个变量(即特征维度,根据实际需要选取)作为样本的特征,选用60个样本中的第1-4个样本作为训练集X1n1×p,第5-6个样本作为测试集X2n2×p:
按照本发明的方法中采用现有的主成分分析方法对训练集矩阵X1n1×p进行特征抽取,计算保留90%变异信息时的投影矩阵Wp×f为:
计算得到的主空间S的补空间S⊥为:
计算得到的训练集矩阵X1n1×p在主空间S的投影得分t1为:
将t1和t2进行合并,得到n1行f+1列的数据矩阵F1为:
计算得到的测试集矩阵X2n2×p在主空间S的投影得分为t3为:
将t3和t4进行合并,得到n2行f+1列的数据矩阵F2为:
Claims (1)
1.一种基于空间分解的近红外光谱数据单分类特征抽取方法,其特征在于包括以下步骤:
(1)根据实际的需求,收集相应的样本构建训练集和测试集,训练集包括的样本数量记为n1,n1为大于等于10的整数,将测试集包括的样本数量记为n2,n2为大于等于1的整数,利用近红外光谱仪器获取训练集和测试集中每个样本的近红外光谱数据;
对获取的每个样本的近红外光谱数据以行向量形式存储,每个样本行向量的列数均为其特征维度,将其记为p,即每个样本的近红外光谱数据均为1行p列的的行向量;
将训练集中n1个样本的近红外光谱数据按行拼接,构成n1行p列的训练集矩阵X1n1×p,将测试集中n2个样本的近红外光谱数据按行拼接,构成n2行p列的的训练集矩阵X2n2×p;
(2)采用现有的主成分分析方法对训练集矩阵X1n1×p进行特征抽取,计算保留90%变异信息时的投影矩阵Wp×f,投影矩阵Wp×f为p行f列的矩阵,其中f是保留的主成分数量,设定主空间S,将该投影矩阵Wp×f作为主空间,令S=Wp×f;
(3)设定主空间S的补空间,将其记为S⊥,采用式(1)计算得到主空间S的补空间S⊥:
其中,I是p行p列的单位矩阵,T表示对矩阵进行转置操作,T+表示先对矩阵进行转置操作再进行求伪逆操作;
(4)采用式(2)计算训练集矩阵X1n1×p在主空间S的投影得分,将其记为t1:
t1=X1n1×pWp×f (2)
(6)对中的每一行数据求一阶范数,得到n1行数据对应的n1个一阶范数,将求得的n1个一阶范数构建n1行1列的向量,将该向量记为t2,t2中第k行的数据为中的第k行数据的一阶范数,k=1,2,…,n1;
(7)将t1和t2进行合并,得到n1行f+1列的数据矩阵F1,该数据矩阵F1即为训练集的单分类抽取特征,t1的n1行f列作为数据矩阵F1的第1列~第f列数据,t2的n1行1列作为数据矩阵F1的第f+1列数据;
(8)采用式(4)计算测试集矩阵X2n2×p在主空间S的投影得分,将其记为t3:
t3=X2n2×pWp×f (4)
(10)对中的每一行数据求一阶范数,得到n2行数据对应的n2个一阶范数,采用求得的n2个一阶范数构建n2行1列的向量,将该向量记为t4,t4中第j行的数据为中的第j行数据的一阶范数,j=1,2,…,n2;
(11)将t3和t4进行合并,得到n2行f+1列的数据矩阵F2,该数据矩阵F2即为测试集的单分类抽取特征,t3的n2行f列作为数据矩阵F2的第1列~第f列数据,t4的n2行1列数据作为数据矩阵F2的第f+1列数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010630973.9A CN112016385B (zh) | 2020-07-03 | 2020-07-03 | 基于空间分解的近红外光谱数据单分类特征抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010630973.9A CN112016385B (zh) | 2020-07-03 | 2020-07-03 | 基于空间分解的近红外光谱数据单分类特征抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112016385A CN112016385A (zh) | 2020-12-01 |
CN112016385B true CN112016385B (zh) | 2023-04-28 |
Family
ID=73498434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010630973.9A Active CN112016385B (zh) | 2020-07-03 | 2020-07-03 | 基于空间分解的近红外光谱数据单分类特征抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112016385B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104237158A (zh) * | 2014-09-04 | 2014-12-24 | 浙江科技学院 | 一种具有普适性的近红外光谱定性分析方法 |
WO2016091017A1 (zh) * | 2014-12-09 | 2016-06-16 | 山东大学 | 一种高光谱图像分类中光谱向量互相关特征的抽取方法 |
-
2020
- 2020-07-03 CN CN202010630973.9A patent/CN112016385B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104237158A (zh) * | 2014-09-04 | 2014-12-24 | 浙江科技学院 | 一种具有普适性的近红外光谱定性分析方法 |
WO2016091017A1 (zh) * | 2014-12-09 | 2016-06-16 | 山东大学 | 一种高光谱图像分类中光谱向量互相关特征的抽取方法 |
Non-Patent Citations (2)
Title |
---|
李雪莹 ; 范萍萍 ; 刘岩 ; 王茜 ; 吕美蓉.多分类器融合提取土壤养分特征波长.光谱学与光谱分析.2019,39(009),全文. * |
袁雷明 ; 蔡健荣 ; 孙力 ; 许登程 ; 叶华.可见-近红外光谱用于鲜食葡萄感官偏好的检测.光谱学与光谱分析.2017,(004),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112016385A (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bougrini et al. | Classification of honey according to geographical and botanical origins and detection of its adulteration using voltammetric electronic tongue | |
CN112101381B (zh) | 张量协作图判别分析遥感图像特征提取方法 | |
Dray et al. | Co‐inertia analysis and the linking of ecological data tables | |
CN108229298A (zh) | 神经网络的训练和人脸识别方法及装置、设备、存储介质 | |
CN110110610B (zh) | 一种用于短视频的事件检测方法 | |
CN106845358B (zh) | 一种手写体字符图像特征识别的方法及系统 | |
CN106951914B (zh) | 一种优化模糊鉴别向量提取的电子鼻鉴别食醋品种方法 | |
CN114332544B (zh) | 一种基于图像块评分的细粒度图像分类方法和装置 | |
CN112700325A (zh) | 一种基于Stacking集成学习的网贷回头客预测的方法 | |
CN105740790A (zh) | 基于多核字典学习的彩色人脸识别方法 | |
CN103839078A (zh) | 一种基于主动学习的高光谱图像分类方法 | |
CN109376805A (zh) | 一种基于白酒基酒指纹图谱特征的分类方法 | |
CN109460471B (zh) | 一种基于自学习的方式建立纤维种类图谱库的方法 | |
CN105740787B (zh) | 基于多核鉴别彩色空间的人脸识别方法 | |
CN110738259B (zh) | 一种基于Deep DPCA-SVM的故障检测方法 | |
CN112016385B (zh) | 基于空间分解的近红外光谱数据单分类特征抽取方法 | |
CN110874576A (zh) | 一种基于典型相关分析融合特征的行人再识别方法 | |
CN108596245B (zh) | 一种基于多视图协同完整鉴别子空间学习的人脸识别方法 | |
Nawaz et al. | Hand written characters recognition via deep metric learning | |
CN106908774A (zh) | 基于多尺度核稀疏保持投影的一维距离像识别方法 | |
CN108828533A (zh) | 一种类内样本相似结构保持非线性投影特征提取方法 | |
CN111985550A (zh) | 基于Gap度量下的工业化工数据预处理的分类方法 | |
CN106778802B (zh) | 一种最大化类别可分性的高光谱图像分类多核学习方法 | |
CN105869161A (zh) | 基于图像质量评价的高光谱图像波段选择方法 | |
CN109063750A (zh) | 基于cnn和svm决策融合的sar目标分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |