CN112016385B - 基于空间分解的近红外光谱数据单分类特征抽取方法 - Google Patents

基于空间分解的近红外光谱数据单分类特征抽取方法 Download PDF

Info

Publication number
CN112016385B
CN112016385B CN202010630973.9A CN202010630973A CN112016385B CN 112016385 B CN112016385 B CN 112016385B CN 202010630973 A CN202010630973 A CN 202010630973A CN 112016385 B CN112016385 B CN 112016385B
Authority
CN
China
Prior art keywords
data
matrix
columns
rows
near infrared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010630973.9A
Other languages
English (en)
Other versions
CN112016385A (zh
Inventor
陈孝敬
黄光造
石文
蒋成玺
袁雷明
陈熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou University
Original Assignee
Wenzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou University filed Critical Wenzhou University
Priority to CN202010630973.9A priority Critical patent/CN112016385B/zh
Publication of CN112016385A publication Critical patent/CN112016385A/zh
Application granted granted Critical
Publication of CN112016385B publication Critical patent/CN112016385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/143Sensing or illuminating at different wavelengths

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Complex Calculations (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)

Abstract

本发明公开了一种基于空间分解的近红外光谱数据单分类特征抽取方法,采用空间分解的方法将主成分特征提取方法引申到单分类的特征抽取当中,通过主成分分析方法抽取目标类在主空间的特征信息,通过一阶范数抽取异常类在补空间的特征信息,在对全局空间的特征信息进行高效压缩的同时,保留了主空间和补空间的主要信息;优点是可以有效地平衡单分类特征压缩与检测敏感性降低的问题,普适性较高。

Description

基于空间分解的近红外光谱数据单分类特征抽取方法
技术领域
本发明涉及近红外光谱数据单分类特征抽取方法,尤其是涉及基于空间分解的近红外光谱数据单分类特征抽取方法。
背景技术
近红外光谱检测技术是一种无损、快速的检测技术,已经在农业、化工、医药和食品等领域得到了广泛的应用,并逐渐得到大众的接受和官方的认可。利用近红外光谱数据建立单分类模型,可以对物质的成分进行定性分析。但是近红外光谱数据具有高维属性,严重制约所建立单分类模型的泛化效果。对近红外光谱数据进行特征抽取从而降低高维数据特性的影响,是提高单分类模型对近红外光谱数据识别效果的一种重要手段。单分类问题是一种介于有监督和无监督之间的分类问题。目前,对于近红外光谱数据的单分类特征抽取主要采取无监督的学习方法,比如主成分分析方法。但是主成分分析方法抽取的是目标类的主要特征信息,并不一定能够有效地用于区分异常类,不能很好地平衡特征压缩与异常检测敏感性降低的问题,并不能最佳地匹配近红外光谱数据的单分类特征抽取问题,导致单分类特征抽取效果的普适性不高。
发明内容
本发明所要解决的技术问题是提供一种基于空间分解的近红外光谱数据单分类特征抽取方法,该方法可以有效地平衡单分类特征压缩与检测敏感性降低的问题,普适性较高。
本发明解决上述技术问题所采用的技术方案为:一种基于空间分解的近红外光谱数据单分类特征抽取方法,包括以下步骤:
(1)根据实际的需求,收集相应的样本构建训练集和测试集,训练集包括的样本数量记为n1,n1为大于等于10的整数,将测试集包括的样本数量记为n2,n2为大于等于1的整数,利用近红外光谱仪器获取训练集和测试集中每个样本的近红外光谱数据;
对获取的每个样本的近红外光谱数据以行向量形式存储,每个样本行向量的列数均为其特征维度,将其记为p,即每个样本的近红外光谱数据均为1行p列的的行向量;
将训练集中n1个样本的近红外光谱数据按行拼接,构成n1行p列的训练集矩阵X1n1×p,将测试集中n2个样本的近红外光谱数据按行拼接,构成n2行p列的的训练集矩阵X2n2×p
(2)采用现有的主成分分析方法对训练集矩阵X1n1×p进行特征抽取,计算保留90%变异信息时的投影矩阵Wp×f,投影矩阵Wp×f为p行f列的矩阵,其中f是保留的主成分数量,设定主空间S,将该投影矩阵Wp×f作为主空间,令S=Wp×f
(3)设定主空间S的补空间,将其记为S,采用式(1)计算得到主空间S的补空间S
Figure BDA0002568682800000021
其中,I是p行p列的单位矩阵,T表示对矩阵进行转置操作,T+表示先对矩阵进行转置操作再进行求伪逆操作;
(4)采用式(2)计算训练集矩阵X1n1×p在主空间S的投影得分,将其记为t1
t1=X1n1×pWp×f (2)
(5)采用式(3)计算训练集矩阵X1n1×p在补空间S的投影,将其记为
Figure BDA0002568682800000022
Figure BDA0002568682800000023
(6)对
Figure BDA0002568682800000024
中的每一行数据求一阶范数,得到n1行数据对应的n1个一阶范数,将求得的n1个一阶范数构建n1行1列的向量,将该向量记为t2,t2中第k行的数据为
Figure BDA0002568682800000025
中的第k行数据的一阶范数,k=1,2,…,n1;
(7)将t1和t2进行合并,得到n1行f+1列的数据矩阵F1,该数据矩阵F1即为训练集的单分类抽取特征,t1的n1行f列作为数据矩阵F1的第1列~第f列数据,t2的n1行1列作为数据矩阵F1的第f+1列数据;
(8)采用式(4)计算测试集矩阵X2n2×p在主空间S的投影得分,将其记为t3
t3=X2n2×pWp×f (4)
(9)采用式(5)计算测试集矩阵X2n2×p在补空间S的投影分量,将其记为
Figure BDA0002568682800000031
Figure BDA0002568682800000032
(10)对
Figure BDA0002568682800000033
中的每一行数据求一阶范数,得到n2行数据对应的n2个一阶范数,采用求得的n2个一阶范数构建n2行1列的向量,将该向量记为t4,t4中第j行的数据为
Figure BDA0002568682800000034
中的第j行数据的一阶范数,j=1,2,…,n2;
(11)将t3和t4进行合并,得到n2行f+1列的数据矩阵F2,该数据矩阵F2即为测试集的单分类抽取特征,t3的n2行f列作为数据矩阵F2的第1列~第f列数据,t4的n2行1列数据作为数据矩阵F2的第f+1列数据。
与现有技术相比,本发明的优点在于通过采用空间分解的方法将主成分特征提取方法引申到单分类的特征抽取当中,通过主成分分析方法抽取目标类在主空间的特征信息,通过一阶范数抽取异常类在补空间的特征信息,在对全局空间的特征信息进行高效压缩的同时,保留了主空间和补空间的主要信息,由此本发明可以有效地平衡单分类特征压缩与检测敏感性降低的问题,普适性较高。
具体实施方式
以下结合实施例对本发明作进一步详细描述。
实施例:一种基于空间分解的近红外光谱数据单分类特征抽取方法,包括以下步骤:
(1)根据实际的需求,收集相应的样本构建训练集和测试集,训练集包括的样本数量记为n1,n1为大于等于10的整数,将测试集包括的样本数量记为n2,n2为大于等于1的整数,利用近红外光谱仪器获取训练集和测试集中每个样本的近红外光谱数据;
对获取的每个样本的近红外光谱数据以行向量形式存储,每个样本行向量的列数均为其特征维度,将其记为p,即每个样本的近红外光谱数据均为1行p列的的行向量;
将训练集中n1个样本的近红外光谱数据按行拼接,构成n1行p列的训练集矩阵X1n1×p,将测试集中n2个样本的近红外光谱数据按行拼接,构成n2行p列的的训练集矩阵X2n2×p
(2)采用现有的主成分分析方法对训练集矩阵X1n1×p进行特征抽取,计算保留90%变异信息时的投影矩阵Wp×f,投影矩阵Wp×f为p行f列的矩阵,其中f是保留的主成分数量,设定主空间S,将该投影矩阵Wp×f作为主空间,令S=Wp×f
(3)设定主空间S的补空间,将其记为S,采用式(1)计算得到主空间S的补空间S
Figure BDA0002568682800000041
其中,I是p行p列的单位矩阵,T表示对矩阵进行转置操作,T+表示先对矩阵进行转置操作再进行求伪逆操作;
(4)采用式(2)计算训练集矩阵X1n1×p在主空间S的投影得分,将其记为t1
t1=X1n1×pWp×f (2)
(5)采用式(3)计算训练集矩阵X1n1×p在补空间S的投影,将其记为
Figure BDA0002568682800000042
Figure BDA0002568682800000043
(6)对
Figure BDA0002568682800000044
中的每一行数据求一阶范数,得到n1行数据对应的n1个一阶范数,将求得的n1个一阶范数构建n1行1列的向量,将该向量记为t2,t2中第k行的数据为
Figure BDA0002568682800000045
中的第k行数据的一阶范数,k=1,2,…,n1;
(7)将t1和t2进行合并,得到n1行f+1列的数据矩阵F1,该数据矩阵F1即为训练集的单分类抽取特征,t1的n1行f列作为数据矩阵F1的第1列~第f列数据,t2的n1行1列作为数据矩阵F1的第f+1列数据;
(8)采用式(4)计算测试集矩阵X2n2×p在主空间S的投影得分,将其记为t3
t3=X2n2×pWp×f (4)
(9)采用式(5)计算测试集矩阵X2n2×p在补空间S的投影分量,将其记为
Figure BDA0002568682800000051
Figure BDA0002568682800000052
(10)对
Figure BDA0002568682800000053
中的每一行数据求一阶范数,得到n2行数据对应的n2个一阶范数,采用求得的n2个一阶范数构建n2行1列的向量,将该向量记为t4,t4中第j行的数据为
Figure BDA0002568682800000054
中的第j行数据的一阶范数,j=1,2,…,n2;
(11)将t3和t4进行合并,得到n2行f+1列的数据矩阵F2,该数据矩阵F2即为测试集的单分类抽取特征,t3的n2行f列作为数据矩阵F2的第1列~第f列数据,t4的n2行1列数据作为数据矩阵F2的第f+1列数据。
本实施例中,样本是汽油,采用matlab2012a自带的spectra近红外光谱数据。matlab2012a自带的spectra近红外光谱数据包含60个样本,每个样本的光谱变量长度是700,本实施例中只选择前3个变量(即特征维度,根据实际需要选取)作为样本的特征,选用60个样本中的第1-4个样本作为训练集X1n1×p,第5-6个样本作为测试集X2n2×p
Figure BDA0002568682800000055
Figure BDA0002568682800000056
按照本发明的方法中采用现有的主成分分析方法对训练集矩阵X1n1×p进行特征抽取,计算保留90%变异信息时的投影矩阵Wp×f为:
Figure BDA0002568682800000057
计算得到的主空间S的补空间S为:
Figure BDA0002568682800000058
计算得到的训练集矩阵X1n1×p在主空间S的投影得分t1为:
Figure BDA0002568682800000061
计算得到的训练集矩阵X1n1×p在补空间S的投影
Figure BDA0002568682800000062
为:
Figure BDA0002568682800000063
Figure BDA0002568682800000064
中的每一行数据求一阶范数,得到n1行数据对应的n1个一阶范数,将求得的n1个一阶范数构建n1行1列的向量t2为:
Figure BDA0002568682800000065
将t1和t2进行合并,得到n1行f+1列的数据矩阵F1为:
Figure BDA0002568682800000066
计算得到的测试集矩阵X2n2×p在主空间S的投影得分为t3为:
Figure BDA0002568682800000067
计算得到的测试集矩阵X2n2×p在补空间S的投影分量
Figure BDA0002568682800000068
为:
Figure BDA0002568682800000069
Figure BDA00025686828000000610
中的每一行数据求一阶范数,得到n2行数据对应的n2个一阶范数,采用求得的n2个一阶范数构建n2行1列的向量t4为:
Figure BDA00025686828000000611
将t3和t4进行合并,得到n2行f+1列的数据矩阵F2为:
Figure BDA0002568682800000071

Claims (1)

1.一种基于空间分解的近红外光谱数据单分类特征抽取方法,其特征在于包括以下步骤:
(1)根据实际的需求,收集相应的样本构建训练集和测试集,训练集包括的样本数量记为n1,n1为大于等于10的整数,将测试集包括的样本数量记为n2,n2为大于等于1的整数,利用近红外光谱仪器获取训练集和测试集中每个样本的近红外光谱数据;
对获取的每个样本的近红外光谱数据以行向量形式存储,每个样本行向量的列数均为其特征维度,将其记为p,即每个样本的近红外光谱数据均为1行p列的的行向量;
将训练集中n1个样本的近红外光谱数据按行拼接,构成n1行p列的训练集矩阵X1n1×p,将测试集中n2个样本的近红外光谱数据按行拼接,构成n2行p列的的训练集矩阵X2n2×p
(2)采用现有的主成分分析方法对训练集矩阵X1n1×p进行特征抽取,计算保留90%变异信息时的投影矩阵Wp×f,投影矩阵Wp×f为p行f列的矩阵,其中f是保留的主成分数量,设定主空间S,将该投影矩阵Wp×f作为主空间,令S=Wp×f
(3)设定主空间S的补空间,将其记为S,采用式(1)计算得到主空间S的补空间S
Figure FDA0002568682790000011
其中,I是p行p列的单位矩阵,T表示对矩阵进行转置操作,T+表示先对矩阵进行转置操作再进行求伪逆操作;
(4)采用式(2)计算训练集矩阵X1n1×p在主空间S的投影得分,将其记为t1
t1=X1n1×pWp×f (2)
(5)采用式(3)计算训练集矩阵X1n1×p在补空间S的投影,将其记为
Figure FDA0002568682790000012
Figure FDA0002568682790000021
(6)对
Figure FDA0002568682790000022
中的每一行数据求一阶范数,得到n1行数据对应的n1个一阶范数,将求得的n1个一阶范数构建n1行1列的向量,将该向量记为t2,t2中第k行的数据为
Figure FDA0002568682790000023
中的第k行数据的一阶范数,k=1,2,…,n1;
(7)将t1和t2进行合并,得到n1行f+1列的数据矩阵F1,该数据矩阵F1即为训练集的单分类抽取特征,t1的n1行f列作为数据矩阵F1的第1列~第f列数据,t2的n1行1列作为数据矩阵F1的第f+1列数据;
(8)采用式(4)计算测试集矩阵X2n2×p在主空间S的投影得分,将其记为t3
t3=X2n2×pWp×f (4)
(9)采用式(5)计算测试集矩阵X2n2×p在补空间S的投影分量,将其记为
Figure FDA0002568682790000024
Figure FDA0002568682790000025
(10)对
Figure FDA0002568682790000026
中的每一行数据求一阶范数,得到n2行数据对应的n2个一阶范数,采用求得的n2个一阶范数构建n2行1列的向量,将该向量记为t4,t4中第j行的数据为
Figure FDA0002568682790000027
中的第j行数据的一阶范数,j=1,2,…,n2;
(11)将t3和t4进行合并,得到n2行f+1列的数据矩阵F2,该数据矩阵F2即为测试集的单分类抽取特征,t3的n2行f列作为数据矩阵F2的第1列~第f列数据,t4的n2行1列数据作为数据矩阵F2的第f+1列数据。
CN202010630973.9A 2020-07-03 2020-07-03 基于空间分解的近红外光谱数据单分类特征抽取方法 Active CN112016385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010630973.9A CN112016385B (zh) 2020-07-03 2020-07-03 基于空间分解的近红外光谱数据单分类特征抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010630973.9A CN112016385B (zh) 2020-07-03 2020-07-03 基于空间分解的近红外光谱数据单分类特征抽取方法

Publications (2)

Publication Number Publication Date
CN112016385A CN112016385A (zh) 2020-12-01
CN112016385B true CN112016385B (zh) 2023-04-28

Family

ID=73498434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010630973.9A Active CN112016385B (zh) 2020-07-03 2020-07-03 基于空间分解的近红外光谱数据单分类特征抽取方法

Country Status (1)

Country Link
CN (1) CN112016385B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104237158A (zh) * 2014-09-04 2014-12-24 浙江科技学院 一种具有普适性的近红外光谱定性分析方法
WO2016091017A1 (zh) * 2014-12-09 2016-06-16 山东大学 一种高光谱图像分类中光谱向量互相关特征的抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104237158A (zh) * 2014-09-04 2014-12-24 浙江科技学院 一种具有普适性的近红外光谱定性分析方法
WO2016091017A1 (zh) * 2014-12-09 2016-06-16 山东大学 一种高光谱图像分类中光谱向量互相关特征的抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李雪莹 ; 范萍萍 ; 刘岩 ; 王茜 ; 吕美蓉.多分类器融合提取土壤养分特征波长.光谱学与光谱分析.2019,39(009),全文. *
袁雷明 ; 蔡健荣 ; 孙力 ; 许登程 ; 叶华.可见-近红外光谱用于鲜食葡萄感官偏好的检测.光谱学与光谱分析.2017,(004),全文. *

Also Published As

Publication number Publication date
CN112016385A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
Bougrini et al. Classification of honey according to geographical and botanical origins and detection of its adulteration using voltammetric electronic tongue
CN112101381B (zh) 张量协作图判别分析遥感图像特征提取方法
Dray et al. Co‐inertia analysis and the linking of ecological data tables
CN108229298A (zh) 神经网络的训练和人脸识别方法及装置、设备、存储介质
CN110110610B (zh) 一种用于短视频的事件检测方法
CN106845358B (zh) 一种手写体字符图像特征识别的方法及系统
CN106951914B (zh) 一种优化模糊鉴别向量提取的电子鼻鉴别食醋品种方法
CN114332544B (zh) 一种基于图像块评分的细粒度图像分类方法和装置
CN112700325A (zh) 一种基于Stacking集成学习的网贷回头客预测的方法
CN105740790A (zh) 基于多核字典学习的彩色人脸识别方法
CN103839078A (zh) 一种基于主动学习的高光谱图像分类方法
CN109376805A (zh) 一种基于白酒基酒指纹图谱特征的分类方法
CN109460471B (zh) 一种基于自学习的方式建立纤维种类图谱库的方法
CN105740787B (zh) 基于多核鉴别彩色空间的人脸识别方法
CN110738259B (zh) 一种基于Deep DPCA-SVM的故障检测方法
CN112016385B (zh) 基于空间分解的近红外光谱数据单分类特征抽取方法
CN110874576A (zh) 一种基于典型相关分析融合特征的行人再识别方法
CN108596245B (zh) 一种基于多视图协同完整鉴别子空间学习的人脸识别方法
Nawaz et al. Hand written characters recognition via deep metric learning
CN106908774A (zh) 基于多尺度核稀疏保持投影的一维距离像识别方法
CN108828533A (zh) 一种类内样本相似结构保持非线性投影特征提取方法
CN111985550A (zh) 基于Gap度量下的工业化工数据预处理的分类方法
CN106778802B (zh) 一种最大化类别可分性的高光谱图像分类多核学习方法
CN105869161A (zh) 基于图像质量评价的高光谱图像波段选择方法
CN109063750A (zh) 基于cnn和svm决策融合的sar目标分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant