CN104374737A - 一种近红外定性鉴别方法 - Google Patents
一种近红外定性鉴别方法 Download PDFInfo
- Publication number
- CN104374737A CN104374737A CN201410598348.5A CN201410598348A CN104374737A CN 104374737 A CN104374737 A CN 104374737A CN 201410598348 A CN201410598348 A CN 201410598348A CN 104374737 A CN104374737 A CN 104374737A
- Authority
- CN
- China
- Prior art keywords
- mrow
- sample
- msub
- data
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000004458 analytical method Methods 0.000 claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 55
- 230000003595 spectral effect Effects 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 230000003592 biomimetic effect Effects 0.000 claims abstract description 5
- 238000012567 pattern recognition method Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 63
- 210000002569 neuron Anatomy 0.000 claims description 40
- 238000001228 spectrum Methods 0.000 claims description 38
- 238000012360 testing method Methods 0.000 claims description 30
- 238000004451 qualitative analysis Methods 0.000 claims description 25
- 238000002329 infrared spectrum Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000005259 measurement Methods 0.000 claims description 7
- 239000011664 nicotinic acid Substances 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- QQBPLXNESPTPNU-KTKRTIGZSA-N N-oleoyldopamine Chemical compound CCCCCCCC\C=C/CCCCCCCC(=O)NCCC1=CC=C(O)C(O)=C1 QQBPLXNESPTPNU-KTKRTIGZSA-N 0.000 claims 2
- 238000012850 discrimination method Methods 0.000 claims 1
- 238000004445 quantitative analysis Methods 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 22
- 230000000694 effects Effects 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 7
- 238000003909 pattern recognition Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 238000000576 coating method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 229910052739 hydrogen Inorganic materials 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 238000002203 pretreatment Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 2
- 241000209149 Zea Species 0.000 description 2
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 2
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 235000005822 corn Nutrition 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- 239000000843 powder Substances 0.000 description 2
- 238000004497 NIR spectroscopy Methods 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000000862 absorption spectrum Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 229910052736 halogen Inorganic materials 0.000 description 1
- 150000002367 halogens Chemical class 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- -1 mineralogy Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- WFKWXMTUELFFGS-UHFFFAOYSA-N tungsten Chemical compound [W] WFKWXMTUELFFGS-UHFFFAOYSA-N 0.000 description 1
- 229910052721 tungsten Inorganic materials 0.000 description 1
- 239000010937 tungsten Substances 0.000 description 1
Landscapes
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开了一种近红外定性鉴别方法,该方法包括:步骤1:采集样本的近红外光谱数据;步骤2:确定建模样本数据并进行预处理;步骤3:对建模样本数据进行偏最小二乘特征提取;步骤4:对建模样本数据进行正交线性判别分析特征提取;步骤5:用仿生模式识别方法建立定性分析模型;步骤6:用所建立的定性分析模型进行定性鉴别。与传统定性鉴别方法相比,本发明提供的方法简单快捷、准确高效,并且无须专业人士操作。
Description
技术领域
本发明涉及近红外的定性分析领域,特别是一种近红外定性鉴别方法。
背景技术
近红外光谱(Near Infrared Spectrum,NIR)是介于可见光(Vis)和中红外(MIR)之间的电磁辐射波,美国材料检测协会(ASTM)将近红外光谱区定义为780~2526nm的区域,是人们在吸收光谱中发现的第一个非可见光区。近红外光谱区与有机分子中含氢基团(O-H、N-H、C-H)振动的合频和各级倍频的吸收区一致,通过扫描样品的近红外光谱,可以得到样品中有机分子含氢基团的特征信息,而且利用近红外光谱技术分析样品具有方便、快速、高效、准确和成本较低,不破坏样品,不消耗化学试剂,不污染环境等优点,因此该技术受到越来越多人的青睐。
随着分析技术的快速发展,基于近红外光谱的各类检测技术虽然得到了广泛的应用,但是基本都是在定量分析中的应用,在定性分析应用中较少。而目前较为需求的则是近红外光谱的定性分析鉴别技术,例如在食品安全领域,要鉴别作物种子的品种真实性,以保障农民的生产利益;检测奶粉中是否含有某些危害身体健康的物质以确保食用安全;检测药物中是否含有某一种不安全成分,以确保用药安全等。
以往的定性鉴别方法,主要依靠人工考察经验的专业判断,往往会受到很多主观和客观因素的影响,不但速度慢,而且费工费时,制约了定性鉴别的效率。而近红外光谱分析技术所具备的快速、高效、无损等特点,已经开始在定性鉴别分析领域得到了重视。
仿生模式识别理论自从2002年被提出以来,已经在众多领域得到了应用。覃鸿、徐春燕等把仿生模式识别应用到语音识别领域,通过对高维空间同类语音样本的副高,达到识别的目的。徐建、曲延锋等人,在人脸识别和人脸确认过程中,运用多权值神经元构造了同类样本的高维复杂几何形体,取得了比传统模式识别更高的识别效果。与传统模式识别相比, 仿生模式识别对数据集分布的认识更加精确,它是以“最佳覆盖”为目标,区别于传统模式识别的“最佳划分”为目标。因此将仿生模式识别应用在近红外定性分析鉴别领域中,能够提高定性鉴别效果。
因此,为了解决上述问题,本方法提供了一种近红外定性鉴别方法,以满足日益增长的定性分析鉴别的应用需求。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的是为了提供一种简单可行的近红外定性鉴别方法。
(二)技术方案
为达到上述目的,本发明提供了一种近红外定性鉴别方法,该方法包括:
步骤1:采集样本的近红外光谱数据;
步骤2:确定建模样本数据并进行预处理;
步骤3:对建模样本数据进行偏最小二乘(PLS)特征提取;
步骤4:对建模样本数据进行正交线性判别分析(OLDA)特征提取;
步骤5:用仿生模式识别(BPR)方法建立定性分析模型;
步骤6:用所建立的定性分析模型进行定性鉴别。
上述方案中,步骤1中所述采集样本的近红外光谱数据,是采用近红外光谱仪在不同时间采集样本的近红外光谱数据。所述近红外光谱仪是测试单粒样本的微型光谱仪,或者是测试整杯样本的普通光谱仪,采集方式包括漫反射或透射。如果有相同型号的多台近红外光谱仪,则在采集样本的近红外光谱数据时,多台近红外光谱仪所处的外部环境相同;对同一份样本,在相同的测量时间点要求在不同的近红外光谱仪上进行测量,得到对应的多条光谱数据。
上述方案中,步骤2中所述的确定建模样本数据,是将能够对一些不确定信息进行包容的数据作为建模样本数据,以减小光谱的变动影响模型对光谱鉴别的准确性,该些不确定信息是指样本自身属性不同、光谱采集时间不同和/或光谱采集仪器不同。
上述方案中,步骤2中所述的预处理,是去除或降低不确定的背景信息对光谱数据的噪声干扰,采用的预处理方法包括数据归一化处理、导数法处理、平滑处理或中心化及标准化处理。所述不确定的背景信息是指受近红外光谱仪仪器状态、测定条件与环境影响的信息。
上述方案中,步骤3中所述对建模样本数据进行偏最小二乘特征提取,具体包括:
步骤31:对建模集数据进行偏最小二乘特征提取,得到偏最小二乘特征矩阵,以利用该矩阵将数据变换到偏最小二乘空间;其中所述的建模样本数据,是指经过预处理之后的建模样本数据;所述进行偏最小二乘特征提取,得到偏最小二乘特征矩阵,具体包括:
步骤311:对样本数据进行标准化处理,即令样本的各个变量的均值为0,方差为1;令样本矩阵为X0,类别信息矩阵为Y0;其中,X0定义为n条光谱p个数据点的原始光谱矩阵,Y0为对应的类别属性矩阵:
Y0中,yij=1表示第i条光谱属于第j类,yij=0表示第i条光谱不属于第j类;
步骤312:求矩阵X′0Y0的协方差矩阵C=X′Y0Y′0X0,协方差矩阵常数舍弃;
步骤313:求得协方差矩阵C的特征值以及对应的特征向量,并将特征向量按照特征值的大小排列,取最大的n维特征值对应的特征向量组成投影矩阵WPLS;
步骤314:得到新的特征向量为:x′i=xiW′PLS。
步骤32:利用得到的偏最小二乘特征矩阵,将经过预处理之后的建模集数据变换到偏最小二乘空间中。
上述方案中,步骤4中所述对建模样本数据进行正交线性判别分析特征提取,具体包括:
步骤41:对经过偏最小二乘特征提取之后的建模集数据进行正交线性鉴别分析特征提取,得到正交线性鉴别分析特征矩阵;其中所述正交线性鉴别分析特征矩阵,与线性鉴别分析相比,正交线性鉴别分析在求解变换矩阵的过程中,特征向量之间是两两正交的,即满足WTW=I;所述进行正交线性鉴别分析特征提取,得到正交线性鉴别分析特征矩阵,具体包括:
步骤411:假设有C类样本,总样本数为N,Ni为第i类样本数,则定义类内散布矩阵SW、类间散布矩阵SB如下:
其中,为第i类模式的均值,为总样本均值;
步骤412:将正交线性鉴别分析的优化问题转换为求解下式的优化问题:
其中,wi(i=1,2,...,)对应为下式特征值降序排列前n个值对应的特征向量,且要满足WTW=I:
SBw=λSWw;
步骤413:得到WOLDA-opt后,取最大的n维特征值对应的特征向量组成投影矩阵WOLDA,即可进行数据转换Y′=YW′OLDA。
步骤42:利用得到的正交线性鉴别分析特征矩阵,将经过偏最小二乘特征提取之后的建模集数据变换到正交线性鉴别分析空间中;
步骤43:利用变换到正交线性鉴别分析空间中的建模集数据进行建模。
上述方案中,步骤4中所述的建模样本数据,是指经过偏最小二乘特征提取之后的建模样本数据;正交线性判别分析特征提取方法,与传统的线性判别分析相比,能够解决后者在现实应用中遇到的小样本问题。
上述方案中,步骤5中所述用仿生模式识别方法建立定性分析模型,具体包括:
步骤51:计算超香肠神经元:首先对建模集中的每一类样本进行模糊聚类,在每一个聚类簇上建立超香肠神经元,最终建立的超香肠神经元数目为类别数目C×每类的聚类数K,超香肠神经元输出采用简单的点到超香肠距离的倒数,分母上加1的目的是为确保分母不为零:
其中x表示输入样本向量,τ表示超香肠神经元的核;
步骤52:计算感知器神经元:感知器数目等于类别数目C,对于建模样本集X,行表示样本,列表示变量,对每一类定义一个感知器的期望输出列向量qi,其值由0或1组成,1表示训练样本属于第i类,0表示训练样本不属于第i类;对于未知样本x,其第i个感知器输出标量为:
qi=xwi,其中wi=(X′X)-1X′qi
步骤53:超香肠神经元和感知器联合输出为:
oj=pj*qi
其中,pj为第j个超香肠神经元的输出,第j个超香肠神经元属于类别i,qi为该类别的感知器输出;
步骤54:采用最小二乘法直接求解得出线性神经元的权值,用O表示超香肠神经元和感知器联合输出矩阵,其中oij表示第i个样本在第j个超香肠神经元和感知器的联合输出,定义y为训练集期望输出列向量,则对应的线性神经元权值为:
w=(O′O)-1O′y
步骤55:对得到的估计值选取合适的阈值,便能够进行分类。
上述方案中,步骤6中所述的用所建立的定性分析模型进行定性鉴别,包括:首先获取测试样本的光谱数据,然后对测试样本光谱数据进行预处理、特征提取,最后利用所建立的定性分析模型进行快速鉴别,并给出鉴别结果。
上述方案中,对测试样本光谱数据进行的预处理,其方法与建立的定性分析模型所用的预处理方法相同。对测试样本光谱数据进行的特征提取,包括偏最小二乘和正交线性判别分析。
(三)有益效果
从上述技术方案中可以看出,本发明具有以下有益效果:
本发明采用近红外光谱数据来进行定性鉴别,快速高效、无害无污染,对样本无破坏,且操作简单,无须专业人士即可实现。所采用的仿生模式识别(BPR)方法能够满足多分类的需求,不但能够提高定性鉴别的效果,还提高了该方法的应用范围,使本发明所提供的方法不仅能够应用在食品安全领域,同时在石油化工、医药、矿物学和化妆品等领域中得到广泛的应用。
附图说明
图1是本发明提供的近红外定性鉴别方法流程图。
图2是依照本发明实施例中实验一中PLS与OLDA特征提取之后,在OLDA特征空间中前两维的特征分布图。
图3是依照本发明实施例中实验二中PLS与OLDA特征提取之后,在OLDA特征空间中第一维和第三维的特征分布图。
图4是依照本发明实施例实验一中当PLS取不同维数时的识别效果。
图5是依照本发明实施例实验二中当PLS取不同维数时的识别效果。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明分为6步来实现的,图1是本发明提供的近红外定性鉴别方法流程图,该方法包括:
步骤1:采集样本的近红外光谱数据;
在本步骤中,所述采集样本的近红外光谱数据,是采用近红外光谱仪在不同时间采集样本的近红外光谱数据。所述近红外光谱仪是测试单粒样 本的微型光谱仪,或者是测试整杯样本的普通光谱仪,采集方式包括漫反射或透射。如果有相同型号的多台近红外光谱仪,则在采集样本的近红外光谱数据时,多台近红外光谱仪所处的外部环境相同;对同一份样本,在相同的测量时间点要求在不同的近红外光谱仪上进行测量,得到对应的多条光谱数据。
步骤2:确定建模样本数据并进行预处理;
在本步骤中,所述的确定建模样本数据,是将能够对一些不确定信息进行包容的数据作为建模样本数据,以减小光谱的变动影响模型对光谱鉴别的准确性,该些不确定信息是指样本自身属性不同、光谱采集时间不同和/或光谱采集仪器不同。
所述的预处理,是去除或降低不确定的背景信息对光谱数据的噪声干扰,采用的预处理方法包括数据归一化处理、导数法处理、平滑处理或中心化及标准化处理。所述不确定的背景信息是指受近红外光谱仪仪器状态、测定条件与环境影响的信息。
步骤3:对建模样本数据进行偏最小二乘特征提取;
在本步骤中,所述对建模样本数据进行偏最小二乘特征提取,具体包括:
步骤31:对建模集数据进行偏最小二乘特征提取,得到偏最小二乘特征矩阵,以利用该矩阵将数据变换到偏最小二乘空间;其中所述的建模样本数据,是指经过预处理之后的建模样本数据;所述进行偏最小二乘特征提取,得到偏最小二乘特征矩阵,具体包括:
步骤311:对样本数据进行标准化处理,即令样本的各个变量的均值为0,方差为1;令样本矩阵为X0,类别信息矩阵为Y0;其中,X0定义为n条光谱p个数据点的原始光谱矩阵,Y0为对应的类别属性矩阵:
Y0中,yij=1表示第i条光谱属于第j类,yij=0表示第i条光谱不属 于第j类;
步骤312:求矩阵X′0Y0的协方差矩阵C=X′0Y0Y′0X0,协方差矩阵常数舍弃;
步骤313:求得协方差矩阵C的特征值以及对应的特征向量,并将特征向量按照特征值的大小排列,取最大的n维特征值对应的特征向量组成投影矩阵WPLS;
步骤314:得到新的特征向量为:x′i=xiW′PLS。
步骤32:利用得到的偏最小二乘特征矩阵,将经过预处理之后的建模集数据变换到偏最小二乘空间中。
步骤4:对建模样本数据进行正交线性判别分析特征提取;
在本步骤中,所述的建模样本数据,是指经过偏最小二乘特征提取之后的建模样本数据;正交线性判别分析特征提取方法,与传统的线性判别分析相比,能够解决后者在现实应用中遇到的小样本问题。
所述对建模样本数据进行正交线性判别分析特征提取,具体包括:
步骤41:对经过偏最小二乘特征提取之后的建模集数据进行正交线性鉴别分析特征提取,得到正交线性鉴别分析特征矩阵;其中所述正交线性鉴别分析特征矩阵,与线性鉴别分析相比,正交线性鉴别分析在求解变换矩阵的过程中,特征向量之间是两两正交的,即满足WTW=I;所述进行正交线性鉴别分析特征提取,得到正交线性鉴别分析特征矩阵,具体包括:
步骤411:假设有C类样本,总样本数为N,Ni为第i类样本数,则定义类内散布矩阵SW、类间散布矩阵SB如下:
其中,为第i类模式的均值,为总样本均值;
步骤412:将正交线性鉴别分析的优化问题转换为求解下式的优化问 题:
其中,wi(i=1,2,...,)对应为下式特征值降序排列前n个值对应的特征向量,且要满足WTW=I:
SBw=λSWw;
步骤413:得到WOLDA-opt后,取最大的n维特征值对应的特征向量组成投影矩阵WOLDA,即可进行数据转换Y′=YW′OLDA。
步骤42:利用得到的正交线性鉴别分析特征矩阵,将经过偏最小二乘特征提取之后的建模集数据变换到正交线性鉴别分析空间中;
步骤43:利用变换到正交线性鉴别分析空间中的建模集数据进行建模。
步骤5:用仿生模式识别方法建立定性分析模型;
在本步骤中,所述用仿生模式识别方法建立定性分析模型,具体包括:
步骤51:计算超香肠神经元:首先对建模集中的每一类样本进行模糊聚类,在每一个聚类簇上建立超香肠神经元,最终建立的超香肠神经元数目为类别数目C×每类的聚类数K,超香肠神经元输出采用简单的点到超香肠距离的倒数,分母上加1的目的是为确保分母不为零:
其中x表示输入样本向量,τ表示超香肠神经元的核;
步骤52:计算感知器神经元:感知器数目等于类别数目C,对于建模样本集X,行表示样本,列表示变量,对每一类定义一个感知器的期望输出列向量qi,其值由0或1组成,1表示训练样本属于第i类,0表示训练样本不属于第i类;对于未知样本x,其第i个感知器输出标量为:
qi=xwi,其中wi=(X′X)-1X′qi
步骤53:超香肠神经元和感知器联合输出为:
oj=pj*qi
其中,pj为第j个超香肠神经元的输出,第j个超香肠神经元属于类别i,qi为该类别的感知器输出;
步骤54:采用最小二乘法直接求解得出线性神经元的权值,用O表示超香肠神经元和感知器联合输出矩阵,其中oij表示第i个样本在第j个超香肠神经元和感知器的联合输出,定义y为训练集期望输出列向量,则对应的线性神经元权值为:
w=(O′O)-1O′y
步骤55:对得到的估计值选取合适的阈值,便能够进行分类。
步骤6:用所建立的定性分析模型进行定性鉴别;
在本步骤中,所述的用所建立的定性分析模型进行定性鉴别,包括:首先获取测试样本的光谱数据,然后对测试样本光谱数据进行预处理、特征提取,最后利用所建立的定性分析模型进行快速鉴别,并给出鉴别结果。对测试样本光谱数据进行的预处理,其方法与建立的定性分析模型所用的预处理方法相同。对测试样本光谱数据进行的特征提取,包括偏最小二乘和正交线性判别分析。
实施例
本实验以玉米品种鉴别为例,用本发明提供的方法建立品种鉴别模型的实验,并给出实验测试结果,以验证本发明所建模型的效果。
本实施例中的实验仪器采用杭州聚光科技公司(FPI)的SupNIR-2700系列的近红外光谱仪,仪器参数如下:仪器适用的样品状态为颗粒或粉末状等固体,光源为卤钨灯,波长范围为1000~1800nm,有效光程为0.2~5mm,波长准确性为0.2nm,测定形式是非接触漫反射。
实验所用的玉米品种有农华032、农大108、京玉16、洛单248共4个品种足够多的籽粒,且均分为有包衣和无包衣的两种籽粒。
(一)采集样本的近红外光谱数据
采集4个品种的近红外光谱数据。在采集时采用交替采集的方法,即按照农华032一杯——农大108一杯——京玉16一杯——洛单248一杯……的方式采集光谱,中间无校验。
按这种方式为每一品种的有包衣和无包衣的种子各自采集30条光谱,4个品种一共采集到4*2*30=240条光谱。
采集时间为2014年9月15日、9月16日共两天,每天采集240条光谱,最终得到480条光谱。
(二)确定建模样本数据并进行预处理
为验证本发明所提出的方法对建模集与测试集在不同时间采集时该方法的鉴别效果,以及本方法对不同时间、籽粒有无包衣的鉴别效果,实施例设计了两个实验,分别如下:
(1)实验一:用9月15日上午每个品种的30条无包衣光谱数据作为建模集,建模集共计120条光谱;用9月16日上午每个品种的30条无包衣的光谱数据作为测试集,即测试集共计120条光谱。
(2)实验二:用9月15日上午每个品种的30条无包衣光谱数据作为建模集,建模集共计120条光谱;用9月16日上午每个品种的30条有包衣的光谱数据作为测试集,即测试集共计120条光谱。
对两个实验的建模集与测试集采用相同的预处理方法,所采用的预处理方法为:平滑(参数为9)、一阶导(参数为9)和归一化。
(三)PLS与OLDA特征提取
由于建模集包含4个品种,首先确定OLDA特征提取的维数为3。为确定PLS特征提取的最佳维数,实验测试了当PLS的特征维数分别取不同值时进行品种鉴别的效果,鉴别效果用正确识别率来衡量。
(四)用BPR建立定性分析模型
使用BPR方法建立4个品种的品种鉴别模型。根据步骤三中所提到的,PLS的不同维数会对鉴别效果所带来的影响,两个实验分别对PLS特征提取取不同维数时对识别率的影响进行了实验。
(1)在实验一中,当OLDA的特征维数为3时,PLS取不同特征维数时的识别效果如图4所示。
(2)在实验二中,当OLDA的特征维数为3时,PLS取不同特征维数时的识别效果如图5所示。
从表中可以看出,不同的维数会对识别结果产生不同的影响。从表中可以看出,并不是维数越高,识别效果越好,当识别率已经达到很好效果的时候,维数升高会增加计算复杂度。通过比较可以发现,实验一中当OLDA的特征维数为3、PLS的特征维数为6时,识别效果达到最好,而实验二中当OLDA的特征维数为3、PLS的特征维数为6或7时,识别效果最好。因此在实际使用PLS与OLDA特征提取方法时,根据维数对识 别效果的影响来设定。
根据实验结果,实验一与实验二选定PLS与OLDA的特征维数分别为6与3。
(五)进行定性鉴别
在两个实验中,将建模集和测试集的光谱经PLS与OLDA特征提取之后,实验一在OLDA空间中,前两维的特征分布图如图2所示;实验二在OLDA空间中,第一维和第三维的特征分布图如图3所示。从图中可见,经过PLS与OLDA特征提取之后,建模集和测试集的数据基本能落到相同的分布区域,不同品种的建模集和测试集数据能够分布在不同的区域中,对于后续的定性鉴别分析有利。
本发明在近红外定性鉴别分析中,首先对光谱数据进行了预处理,使光谱数据能够消除噪声等的干扰,并通过PLS与OLDA特征提取,使相同种类的样本能够基本落在相同的区域中,缩小类内的距离,放大类间的距离。使用了BPR方法建立定性分析模型,能够提高定性鉴别效果,使得该方法能够在实际中具有一定的实用价值。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (18)
1.一种近红外定性鉴别方法,其特征在于,该方法包括:
步骤1:采集样本的近红外光谱数据;
步骤2:确定建模样本数据并进行预处理;
步骤3:对建模样本数据进行偏最小二乘特征提取;
步骤4:对建模样本数据进行正交线性判别分析特征提取;
步骤5:用仿生模式识别方法建立定性分析模型;
步骤6:用所建立的定性分析模型进行定性鉴别。
2.根据权利要求1所述的近红外定性鉴别方法,其特征在于,步骤1中所述采集样本的近红外光谱数据,是采用近红外光谱仪在不同时间采集样本的近红外光谱数据。
3.根据权利要求2所述的近红外定性鉴别方法,其特征在于,所述近红外光谱仪是测试单粒样本的微型光谱仪,或者是测试整杯样本的普通光谱仪,采集方式包括漫反射或透射。
4.根据权利要求2所述的近红外定性鉴别方法,其特征在于,如果有相同型号的多台近红外光谱仪,则在采集样本的近红外光谱数据时,多台近红外光谱仪所处的外部环境相同;对同一份样本,在相同的测量时间点要求在不同的近红外光谱仪上进行测量,得到对应的多条光谱数据。
5.根据权利要求1所述的近红外定性鉴别方法,其特征在于,步骤2中所述的确定建模样本数据,是将能够对一些不确定信息进行包容的数据作为建模样本数据,以减小光谱的变动影响模型对光谱鉴别的准确性,该些不确定信息是指样本自身属性不同、光谱采集时间不同和/或光谱采集仪器不同。
6.根据权利要求1所述的近红外定性鉴别方法,步骤2中所述的预处理,是去除或降低不确定的背景信息对光谱数据的噪声干扰,采用的预处理方法包括数据归一化处理、导数法处理、平滑处理或中心化及标准化处理。
7.根据权利要求6所述的近红外定性鉴别方法,其特征在于,所述不确定的背景信息是指受近红外光谱仪仪器状态、测定条件与环境影响的信息。
8.根据权利要求1所述的近红外定性鉴别方法,其特征在于,步骤3中所述对建模样本数据进行偏最小二乘特征提取,具体包括:
步骤31:对建模集数据进行偏最小二乘特征提取,得到偏最小二乘特征矩阵,以利用该矩阵将数据变换到偏最小二乘空间;
步骤32:利用得到的偏最小二乘特征矩阵,将经过预处理之后的建模集数据变换到偏最小二乘空间中。
9.根据权利要求8所述的近红外定性鉴别方法,其特征在于,步骤3中所述的建模样本数据,是指经过预处理之后的建模样本数据。
10.根据权利要求8所述的近红外定性鉴别方法,其特征在于,步骤31中所述进行偏最小二乘特征提取,得到偏最小二乘特征矩阵,具体包括:
步骤311:对样本数据进行标准化处理,即令样本的各个变量的均值为0,方差为1;令样本矩阵为X0,类别信息矩阵为Y0;其中,X0定义为n条光谱p个数据点的原始光谱矩阵,Y0为对应的类别属性矩阵:
Y0中,yij=1表示第i条光谱属于第j类,yij=0表示第i条光谱不属于第j类;
步骤312:求矩阵X′0Y0的协方差矩阵C=X′0Y0Y′0X0,协方差矩阵常数舍弃;
步骤313:求得协方差矩阵C的特征值以及对应的特征向量,并将特征向量按照特征值的大小排列,取最大的n维特征值对应的特征向量组成投影矩阵WPLS;
步骤314:得到新的特征向量为:x′i=xiW′PLS。
11.根据权利要求1所述的近红外定性鉴别方法,其特征在于,步骤4中所述对建模样本数据进行正交线性判别分析特征提取,具体包括:
步骤41:对经过偏最小二乘特征提取之后的建模集数据进行正交线性鉴别分析特征提取,得到正交线性鉴别分析特征矩阵;
步骤42:利用得到的正交线性鉴别分析特征矩阵,将经过偏最小二乘特征提取之后的建模集数据变换到正交线性鉴别分析空间中;
步骤43:利用变换到正交线性鉴别分析空间中的建模集数据进行建模。
12.根据权利要求11所述的近红外定性鉴别方法,其特征在于,步骤4中所述的建模样本数据,是指经过偏最小二乘特征提取之后的建模样本数据;正交线性判别分析特征提取方法,与传统的线性判别分析相比,能够解决后者在现实应用中遇到的小样本问题。
13.根据权利要求11所述的近红外定性鉴别方法,其特征在于,步骤41中所述进行正交线性鉴别分析特征提取,得到正交线性鉴别分析特征矩阵,具体包括:
步骤411:假设有C类样本,总样本数为N,Ni为第i类样本数,则定义类内散布矩阵SW、类间散布矩阵SB如下:
其中, 为第i类模式的均值,为总样本均值;
步骤412:将正交线性鉴别分析的优化问题转换为求解下式的优化问题:
其中,wi(i=1,2,...,)对应为下式特征值降序排列前n个值对应的特征向量,且要满足WTW=I:
SBw=λSWw;
步骤413:得到WOLDA-opt后,取最大的n维特征值对应的特征向量组成投影矩阵WOLDA,即可进行数据转换Y′=YW′OLDA。
14.根据权利要求11所述的近红外定性鉴别方法,其特征在于,步骤41中所述正交线性鉴别分析特征矩阵,与线性鉴别分析相比,正交线性鉴别分析在求解变换矩阵的过程中,特征向量之间是两两正交的,即满足WTW=I。
15.根据权利要求1所述的近红外定性鉴别方法,其特征在于,步骤5中所述用仿生模式识别方法建立定性分析模型,具体包括:
步骤51:计算超香肠神经元:首先对建模集中的每一类样本进行模糊聚类,在每一个聚类簇上建立超香肠神经元,最终建立的超香肠神经元数目为类别数目C×每类的聚类数K,超香肠神经元输出采用简单的点到超香肠距离的倒数,分母上加1的目的是为确保分母不为零:
其中x表示输入样本向量,τ表示超香肠神经元的核;
步骤52:计算感知器神经元:感知器数目等于类别数目C,对于建模样本集X,行表示样本,列表示变量,对每一类定义一个感知器的期望输出列向量qi,其值由0或1组成,1表示训练样本属于第i类,0表示训练样本不属于第i类;对于未知样本x,其第i个感知器输出标量为:
qi=xwi,其中wi=(X′X)-1X′qi
步骤53:超香肠神经元和感知器联合输出为:
oj=pj*qi
其中,pj为第j个超香肠神经元的输出,第j个超香肠神经元属于类别i,qi为该类别的感知器输出;
步骤54:采用最小二乘法直接求解得出线性神经元的权值,用O表示超香肠神经元和感知器联合输出矩阵,其中oij表示第i个样本在第j个超香肠神经元和感知器的联合输出,定义y为训练集期望输出列向量,则对应的线性神经元权值为:
w=(O′O)-1O′y
步骤55:对得到的估计值选取合适的阈值,便能够进行分类。
16.根据权利要求15所述的近红外定性鉴别方法,其特征在于,步骤6中所述的用所建立的定性分析模型进行定性鉴别,包括:
首先获取测试样本的光谱数据,然后对测试样本光谱数据进行预处理、特征提取,最后利用所建立的定性分析模型进行快速鉴别,并给出鉴别结果。
17.根据权利要求16所述的近红外定性鉴别方法,其特征在于,对测试样本光谱数据进行的预处理,其方法与建立的定性分析模型所用的预处理方法相同。
18.根据权利要求16所述的近红外定性鉴别方法,其特征在于,对测试样本光谱数据进行的特征提取,包括偏最小二乘和正交线性判别分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410598348.5A CN104374737A (zh) | 2014-10-30 | 2014-10-30 | 一种近红外定性鉴别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410598348.5A CN104374737A (zh) | 2014-10-30 | 2014-10-30 | 一种近红外定性鉴别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104374737A true CN104374737A (zh) | 2015-02-25 |
Family
ID=52553784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410598348.5A Pending CN104374737A (zh) | 2014-10-30 | 2014-10-30 | 一种近红外定性鉴别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104374737A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104990891A (zh) * | 2015-06-24 | 2015-10-21 | 中国农业大学 | 一种种子近红外光谱和光谱图像定性分析模型建立方法 |
CN105067558A (zh) * | 2015-07-22 | 2015-11-18 | 中国科学院半导体研究所 | 近红外定性鉴别特征提取方法 |
CN108181263A (zh) * | 2017-12-29 | 2018-06-19 | 浙江中烟工业有限责任公司 | 基于近红外光谱的烟叶部位特征提取及判别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1831515A (zh) * | 2006-04-03 | 2006-09-13 | 浙江大学 | 用可见光和近红外光谱技术无损鉴别作物种子品种的方法 |
CN101738373A (zh) * | 2008-11-24 | 2010-06-16 | 中国农业大学 | 一种鉴别作物种子品种的方法 |
CN101819141A (zh) * | 2010-04-28 | 2010-09-01 | 中国科学院半导体研究所 | 基于近红外光谱与信息处理的玉米品种鉴别方法 |
CN104062262A (zh) * | 2014-07-09 | 2014-09-24 | 中国科学院半导体研究所 | 一种基于近红外光谱的作物种子品种真实性鉴别方法 |
-
2014
- 2014-10-30 CN CN201410598348.5A patent/CN104374737A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1831515A (zh) * | 2006-04-03 | 2006-09-13 | 浙江大学 | 用可见光和近红外光谱技术无损鉴别作物种子品种的方法 |
CN101738373A (zh) * | 2008-11-24 | 2010-06-16 | 中国农业大学 | 一种鉴别作物种子品种的方法 |
CN101819141A (zh) * | 2010-04-28 | 2010-09-01 | 中国科学院半导体研究所 | 基于近红外光谱与信息处理的玉米品种鉴别方法 |
CN104062262A (zh) * | 2014-07-09 | 2014-09-24 | 中国科学院半导体研究所 | 一种基于近红外光谱的作物种子品种真实性鉴别方法 |
Non-Patent Citations (5)
Title |
---|
YANG WANKOU等: "Finger-Knuckle-Print Recognition Using Gabor Feature and OLDA", 《PROCEEDINGS OF THE 30TH CHINESE CONTROL CONFERENCE》 * |
宋艳清: "基于仿生模式识别理论的双权值神经网络模拟电路故障诊断方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
张善文等: "基于正交线性判别分析的植物分类方法", 《安徽农业科学》 * |
王徽蓉等: "玉米品种近红外光谱的特征分析与鉴别方法", 《光谱学与光谱分析》 * |
覃鸿等: "基于DPLS特征提取的LDA方法在玉米近红外光谱定性分析中的应用", 《光谱学与光谱分析》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104990891A (zh) * | 2015-06-24 | 2015-10-21 | 中国农业大学 | 一种种子近红外光谱和光谱图像定性分析模型建立方法 |
CN104990891B (zh) * | 2015-06-24 | 2017-10-20 | 中国农业大学 | 一种种子近红外光谱和光谱图像定性分析模型建立方法 |
CN105067558A (zh) * | 2015-07-22 | 2015-11-18 | 中国科学院半导体研究所 | 近红外定性鉴别特征提取方法 |
CN105067558B (zh) * | 2015-07-22 | 2018-03-13 | 中国科学院半导体研究所 | 近红外定性鉴别特征提取方法 |
CN108181263A (zh) * | 2017-12-29 | 2018-06-19 | 浙江中烟工业有限责任公司 | 基于近红外光谱的烟叶部位特征提取及判别方法 |
CN108181263B (zh) * | 2017-12-29 | 2021-01-12 | 浙江中烟工业有限责任公司 | 基于近红外光谱的烟叶部位特征提取及判别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104374738B (zh) | 一种基于近红外提高鉴别结果的定性分析方法 | |
CN109142317B (zh) | 一种基于随机森林模型的拉曼光谱物质识别方法 | |
CN104376325A (zh) | 一种近红外定性分析模型的建立方法 | |
WO2018121122A1 (zh) | 用于物品查验的拉曼光谱检测方法和电子设备 | |
EP3066435B1 (en) | Texture analysis of a coated surface using pivot-normalization | |
CN104374739A (zh) | 一种基于近红外定性分析的种子品种真实性鉴别方法 | |
CN109858477A (zh) | 用深度森林在复杂环境中识别目标物的拉曼光谱分析方法 | |
CN110378374B (zh) | 一种模糊鉴别信息提取的茶叶近红外光谱分类方法 | |
CN106706546A (zh) | 一种基于红外和拉曼光谱数据的人工智能学习物质分析方法 | |
Wang et al. | Identification of maize haploid kernels based on hyperspectral imaging technology | |
WO2017019988A1 (en) | Gender and race identification from body fluid traces using spectroscopic analysis | |
CN104062262A (zh) | 一种基于近红外光谱的作物种子品种真实性鉴别方法 | |
CN109564199A (zh) | 分析数据处理方法和分析数据处理装置 | |
Cui et al. | Identification of maize seed varieties based on near infrared reflectance spectroscopy and chemometrics | |
Cai et al. | Rapid identification of ore minerals using multi-scale dilated convolutional attention network associated with portable Raman spectroscopy | |
CN108573105A (zh) | 基于深度置信网络的土壤重金属含量检测模型的建立方法 | |
CN110749565A (zh) | 一种快速鉴别普洱茶存储年份的方法 | |
Liu et al. | Method for identifying transgenic cottons based on terahertz spectra and WLDA | |
CN104374737A (zh) | 一种近红外定性鉴别方法 | |
Shao et al. | A new approach to discriminate varieties of tobacco using vis/near infrared spectra | |
CN107121408A (zh) | 食用植物油品种的快速无损鉴别方法 | |
CN105067558B (zh) | 近红外定性鉴别特征提取方法 | |
Bin et al. | Research on anthracnose grade of Camellia oleifera based on the combined LIBS and THz technology | |
CN109886296A (zh) | 一种鉴别信息提取式噪声聚类的茶叶品种分类方法 | |
CN105069462A (zh) | 基于光谱特征细分和分类器级联的有机化学品定性判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150225 |
|
WD01 | Invention patent application deemed withdrawn after publication |