CN107664621B - 异常样本识别方法、系统、服务器及电子设备 - Google Patents

异常样本识别方法、系统、服务器及电子设备 Download PDF

Info

Publication number
CN107664621B
CN107664621B CN201610613600.4A CN201610613600A CN107664621B CN 107664621 B CN107664621 B CN 107664621B CN 201610613600 A CN201610613600 A CN 201610613600A CN 107664621 B CN107664621 B CN 107664621B
Authority
CN
China
Prior art keywords
matrix
sample
spectrum
abnormal
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610613600.4A
Other languages
English (en)
Other versions
CN107664621A (zh
Inventor
彭云发
薛庆逾
石超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Upper Seabird And Hundred Million Electronics Technology Development Co Ltds
Original Assignee
Upper Seabird And Hundred Million Electronics Technology Development Co Ltds
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Upper Seabird And Hundred Million Electronics Technology Development Co Ltds filed Critical Upper Seabird And Hundred Million Electronics Technology Development Co Ltds
Priority to CN201610613600.4A priority Critical patent/CN107664621B/zh
Publication of CN107664621A publication Critical patent/CN107664621A/zh
Application granted granted Critical
Publication of CN107664621B publication Critical patent/CN107664621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明提供一种异常样本识别方法、系统、服务器及电子设备,所述异常样本识别方法包括以下步骤:将采集到的样本的光谱形成第一光谱矩阵,并标准化处理所述第一光谱矩阵,使其转换成第二光谱矩阵;对所述第二光谱矩阵进行预设异常样本识别处理,以获取用于识别样本中异常样本的异常判断阈值。本发明所述的异常样本识别方法采用计算每条样本的光谱的范数来作为光谱数据异常样本的识别,不改变整体光谱数据的重心和离散度,采用该方法不仅对单个奇异样本具有准确的识别效果,对于整体样本中有多个奇异样本时同于具有较高的识别率。

Description

异常样本识别方法、系统、服务器及电子设备
技术领域
本发明属于光谱分析计算领域,涉及一种识别方法及系统,特别是涉及一种异常样本识别方法、系统、服务器及电子设备。
背景技术
近红外光谱技术具有分析速度快、样本制作简单、无损、多指标同时分析的特点,目前,近红外光谱技术在石油、烟草、中药、食品领域得以推广应用,随着近红外光谱技术应用范围不断拓展,大量的近红外定量和定性模型需要建立和优化,因此,建立一个预测精度高、稳定性好的模型显得尤为重要。在使用近红外光谱仪测量样本的近红外光谱时,光谱仪本身的误差和测量性能参数的变化、测量方法的变化、测量环境的变化、样品其它物理或机械特性的变化、样品预处理不当和样品来源的变化、光谱扫描中的错误都会导致光谱数据异常,如何判断异常光谱数据是近红外光谱检测过程中首先要解决的问题,传统的辨识光谱数据中奇异点的方式有主成分得分图、马氏距离法和杠杆值法,但是这些方法都是建立在对数据重心估计的基础上,通常无法准确判断会改变光谱数据重心和离散度的奇异点。
因此,如何提供一种异常样本识别方法、系统、服务器及电子设备,以解决现有技术中无法准确识别多奇异点,而造成改变光谱数据重心和离散度,实已成为本领域从业人员亟待解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种异常样本识别方法、系统、服务器及电子设备,用于解决现有技术中无法准确识别多奇异点,而造成改变光谱数据重心和离散度的问题。
为实现上述目的及其他相关目的,本发明一方面提供一种异常样本识别方法,所述异常样本识别方法包括以下步骤:将采集到的样本的光谱形成第一光谱矩阵Xn×m,并标准化处理所述第一光谱矩阵Xn×m,使其转换成第二光谱矩阵Yn×m;其中,n表示样本数量,m为样本的波长变量;对所述第二光谱矩阵Yn×m进行预设异常样本识别处理,以获取用于识别样本中异常样本的异常判断阈值。
于本发明的一实施例中,所述标准化处理所述第一光谱矩阵Xn×m,使其转换成第二光谱矩阵Yn×m的步骤包括:计算样本的平均光谱,组成与所述第一光谱矩阵Xn×m对应的平均光谱矩阵
Figure GDA0002173091040000021
所述平均光谱矩阵
Figure GDA0002173091040000022
Figure GDA0002173091040000023
表示第i个样本的平均光谱,Kn×1为元素全为1的常数向量;所述第i个样本的平均光谱
Figure GDA0002173091040000024
xi为第i个样本的光谱向量;其中,i大于等于1,小于等于n;对所述第一光谱矩阵Xn×m和所述平均光谱矩阵
Figure GDA0002173091040000025
进行均值中心化处理,获取中间光谱矩阵XCn×m;所述中间光谱矩阵
Figure GDA0002173091040000026
计算样本标准偏差光谱s;其中,
Figure GDA0002173091040000027
根据中间光谱矩阵XCn×m和样本标准偏差光谱s,计算第二光谱矩阵Yn×m;所述第二光谱矩阵Yn×m=XCn×m/s。
于本发明的一实施例中,所述对所述第二光谱矩阵Yn×m进行预设异常样本识别处理的步骤包括:对所述第二光谱矩阵Yn×m进行主成分分析,得到所述第二光谱矩阵Yn×m的主成分得分矩阵Tn×m;对所述主成分得分矩阵Tn×m中每个元素进行二范数处理,形成n个样本范数Fi,其中,i为主成分得分矩阵Tn×m中行的序号,其大于等于1,小于等于n;根据3σ准侧,计算出用于识别样本中所存在的异常样本的异常判断阈值h。
于本发明的一实施例中,所述对所述第二光谱矩阵Yn×m进行主成分分析,得到所述第二光谱矩阵Yn×m的主成分得分矩阵Tn×m的步骤为:计算出所述第二光谱矩阵Yn×m的协方差矩阵根据协方差矩阵
Figure GDA0002173091040000029
计算所述第二光谱矩阵Yn×m的特征值和特征向量;将计算得到的特征值按照从大到小的顺序排列,并将从大到小排序的特征值所对应的特征向量组成所述第二光谱矩阵Yn×m的载荷矩阵Pn×m;根据所述第二光谱矩阵Yn×m和载荷矩阵Pn×m,计算出主成分得分矩阵Tn×m
Figure GDA00021730910400000210
于本发明的一实施例中,所述二范数处理指根据二范数计算公式,计算样本范数Fi;所述二范数计算公式为
Figure GDA00021730910400000211
于本发明的一实施例中,所述3σ准侧指:计算范数均值
Figure GDA00021730910400000212
所述范数均值
Figure GDA00021730910400000213
计算范数标准偏差SF;所述范数标准偏差
Figure GDA00021730910400000214
根据范数均值和范数标准偏差SF,计算出所述异常判断阈值h;所述异常判断阈值
Figure GDA0002173091040000031
于本发明的一实施例中,所述异常样本识别方法还包括通过剔除异常样本建模与不剔除异常样本建模两种方式验证所述异常样本识别方法的精确性。
本发明另一方面提供一种异常样本识别系统,所述异常样本识别系统包括:标准化处理模块,用于将采集到的样本的光谱形成第一光谱矩阵Xn×m,标准化处理所述第一光谱矩阵Xn×m,使其转换成第二光谱矩阵Yn×m;异常识别模块,用于对所述第二光谱矩阵Yn×m进行预设异常样本识别处理,以获取用于识别样本中异常样本的异常判断阈值。
本发明又一方面提供一种服务器,包括所述的异常样本识别系统。
本发明最后一方面提供一种电子设备,包括:光谱仪,用于采集样本的光谱;与所述光谱仪连接,所述的服务器。
如上所述,本发明的异常样本识别方法、系统、服务器及电子设备,具有以下有益效果:
本发明所述的异常样本识别方法、系统、服务器及电子设备采用计算每条样本的光谱的范数来作为光谱数据异常样本的识别,这样不会改变整体光谱数据的重心和离散度,采用该方法不仅对单个奇异样本具有准确的识别效果,对于整体样本中有多个奇异样本时同于具有较高的识别率。本发明所述的异常样本识别方法、系统、服务器及电子设备对于近红外光谱分析技术异常样本剔除建立预测精度高的模型具有重要的意义,有助于近红外光谱分析技术的推广和应用。
附图说明
图1显示为本发明的异常样本识别方法于一实施例中的流程示意图示意图。
图2显示为本发明的光谱仪采集到的烟叶样本的近红外光谱。
图3显示为本发明的异常样本识别方法中步骤S2的流程示意图。
图4显示为本发明的异常样本识别方法中步骤S3的流程示意图。
图5显示为本发明的异常样本识别方法中步骤S31的流程示意图。
图6显示为通过异常样本识别方法识别出异常样本的示意图。
图7显示为本发明的异常样本识别系统于一实施例中的原理结构示意图。
图8显示为本发明的服务器于一实施例中的原理结构示意图。
图9显示为本发明的电子设备于一实施例中的原理结构示意图。
元件标号说明
1 异常样本识别系统
11 标准化处理模块
12 异常识别模块
2 服务器
3 电子设备
4 光谱仪
S21~S4 步骤
S21~S24 步骤
S311~S314 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
实施例一
本实施例提供一种异常样本识别方法,所述异常样本识别方法包括以下步骤:
将采集到的样本的光谱形成第一光谱矩阵Xn×m,并标准化处理所述第一光谱矩阵Xn×m,使其转换成第二光谱矩阵Yn×m;其中,n表示样本数量,m为样本的波长变量;
对所述第二光谱矩阵Yn×m进行预设异常样本识别处理,以获取用于识别样本中异常样本的异常判断阈值。
以下将结合图示对本实施例所述的异常样本识别方法进行详细说明。所述样本的光谱可以包括红外光谱,近红外光谱等等。在本实施例中,所述异常样本识别方法采用烟叶样本近红外光谱作为测试对象。
在执行本实施例所述的异常样本识别方法之前,需要先制作所需样本。具体过程如下:
选取烟叶样本进行标号,放入自封袋,然后将烟叶取梗、剪碎放入烘箱中,烘箱温度设置为40℃,烘干3小时,将从烘箱中取出的烟叶放入干燥器中进行冷却到常温,之后将烟叶样本用粉碎机进行粉碎,过40目的筛子,最后再将烟叶粉末导入到对于编号的自封袋中备用。
采集烟叶样本的近红外光谱。在本实施例中,通过光谱仪来执行采集功能。在本实施例中,启动光谱仪,并将所述光谱仪的各项参数设定为预定参数,打开光源预热烟叶样本,2小时后开始采集烟叶光谱;将烟叶粉末在自封袋里面充分混合,并导入旋转杯中,摇匀,将旋转杯放在光谱仪中开始测量光谱,按照上述方法依次采集所有烟叶样本的光谱;在本步骤中,采集的烟叶样本的近红外光谱格式为“.spa”格式,并将样本的光谱予以保存。于本实施例中,采集227个“.spa”格式的烟叶样本的近红外光谱。
请参阅图1,显示为异常样本识别方法于一实施例中的流程示意图。如图1所示,所述异常样本识别方法具体包括以下几个步骤:
S1,将采集到的227个“.spa”格式的近红外光谱转换成为“.dx”格式的近红外光谱,并将“.dx”格式的近红外光谱形成第一光谱矩阵X227×256,行227为样本数量,列256为波长变量。请参阅图2,显示为光谱仪采集到的烟叶样本的近红外光谱。
S2,标准化处理所述第一光谱矩阵X227×256,使其转换成第二光谱矩阵Y227×256。请参阅图3,显示为步骤S2的流程示意图。如图3所示,所述步骤S2具体包括以下几个步骤:
S21,计算烟叶样本的近红外光谱的平均光谱,组成与所述第一光谱矩阵X227×256对应的平均光谱矩阵所述平均光谱矩阵
Figure GDA0002173091040000052
表示第i个烟叶样本的平均光谱,K227×1为元素全为1的常数向量。在本实施例中,所述第i个烟叶样本的近红外光谱的平均光谱
Figure GDA0002173091040000054
xi为第i个烟叶样本的光谱向量;其中,i大于等于1,小于等于227。
S22,对所述第一光谱矩阵X227×256和所述平均光谱矩阵
Figure GDA0002173091040000055
进行均值中心化处理,获取中间光谱矩阵XC227×256;所述中间光谱矩阵
Figure GDA0002173091040000056
S23,根据第i个烟叶样本的光谱向量xi,和第i个烟叶样本的平均光谱,计算样本标准偏差光谱s;其中,
Figure GDA0002173091040000057
S24,根据中间光谱矩阵XC227×256和样本标准偏差光谱s
Figure GDA0002173091040000058
计算第二光谱矩阵Y227×256。所述第二光谱矩阵Y227×256=XC227×256/s。
S3,对所述第二光谱矩阵Y227×256进行预设异常样本识别处理,以获取用于识别异常样本的异常判断阈值h。请参阅图4,显示为步骤S3的流程示意图。如图4所示,所述步骤S4具体包括以下几个步骤:
S31,对所述第二光谱矩阵Y227×256进行主成分分析,得到所述第二光谱矩阵Y227×256的主成分得分矩阵T227×256。请参阅图5,显示为步骤S31的流程示意图。如图5所示,所述步骤S31具体包括以下几个步骤:
S311,根据矩阵理论中协方差的计算方法,计算出所述第二光谱矩阵Y227×256的协方差矩阵
S312,根据协方差矩阵
Figure GDA0002173091040000062
计算所述第二光谱矩阵Y227×256的特征值λ和与该特征值λ对应的特征向量p;
S313,将计算得到的特征值λ按照从大到小的顺序排列,即按照λmax>…>λmin(于本实施例中,所述第二光谱矩阵Y227×256的特征值λ为256个)排序,并将从大到小排序的特征值λmax>…>λmin所对应的特征向量p1>…>p256组成所述第二光谱矩阵Y227×256的载荷矩阵P227×256,即P227×256=[p1,p2,…,p256]。
S314,根据所述第二光谱矩阵Y227×256和载荷矩阵P227×256,计算出主成分得分矩阵T227×256
S32,对所述主成分得分矩阵T227×256中每个元素进行二范数(二范数是指,矩阵A的2范数就是A的转置矩阵与矩阵A的积的最大特征根的平方根值,是指空间上两个向量矩阵的直线距离)处理,形成227个样本范数Fi,其中,i为主成分得分矩阵T227×256中行的序号,其大于等于1,小于等于227。
Figure GDA0002173091040000064
Figure GDA0002173091040000065
Figure GDA0002173091040000066
S33,根据3σ准侧(3σ准侧又称为拉依达准则,它是先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。),计算出用于识别样本中所存在的异常样本的异常判断阈值h。在本实施例中,所述3σ准侧是指:
首选,计算所述样本范数Fi的范数均值
Figure GDA0002173091040000071
所述范数均值
Figure GDA0002173091040000072
接着,计算范数标准偏差SF;所述范数标准偏差
Figure GDA0002173091040000073
最后,根据范数均值
Figure GDA0002173091040000074
和范数标准偏差SF,计算出所述异常判断阈值h。在本实施例中,所述异常判断阈值
Figure GDA0002173091040000075
于本实施例中,227个烟草样本计算出的异常判断阈值h=0.3011,即大于所述异常判断阈值的烟草样本就判断为异常样本。请参阅图6,显示为通过异常样本识别方法识别出异常样本的示意图。如图6所示,烟草样本126、127、129、183、187、192号为异常样本。
S4,通过剔除异常样本建模与不剔除异常样本建模两种方式验证所述异常样本识别方法的精确性。
不剔除异常样本建模是指:不剔除异常样本,通过所述SPXY(sample setpartitioning based on joint x-y distance)选择校正样本204个,验证样本23个。对烟叶样本的近红外光谱采用多元散射校正结合一阶导数,波长选择方法为CARS(竞争性自适应重加权算法)进行处理以建立验证模型一,通过该验证模型一得到模型结果:校正标准偏差(RMSEC)为0.11,校正集相关系数(RC)为0.9901,验证标准偏差(RMSEP)为0.18,验证相关系数(RP)为0.9713,验证集平均相对误差为4.18%。不剔除异常样本的验证样本预测结果表如表一所示。
表1:验证样本预测结果表
Figure GDA0002173091040000076
Figure GDA0002173091040000081
剔除异常样本建模是指:采用所述异常样本识别方法对227个烟草样本进行识别,将大于异常判断阈值h=0.3011的异常样本剔除出去(于本实施例中,是将126、127、129、183、187、192号烟草样本剔除)。通过SPXY(sample set partitioning based on joint x-y distance)选择验证样本22个,将22个多元散射校正结合一阶导数,波长选择方法为CARS(竞争性自适应重加权算法),得到的模型结果建立验证模型二,通过该验证模型二得到模型结果:得到的模型结果,校正标准偏差(RMSEC)为0.11,校正集相关系数(RC)为0.9900,验证标准偏差(RMSEP)为0.17,验证相关系数(RP)为0.9749,验证集平均相对误差为3.92%。剔除异常样本的验证样本预测结果表如表二所示。
表2:剔除异常样本的验证样本预测结果表
序号 样品ID 文件名 化学值 预测值 绝对误差 相对误差(%)
1 20 20.csv 3.79 3.77 0.02 0.53
2 23 23.csv 3.59 3.93 -0.34 9.47
3 24 24.csv 3.61 3.86 -0.25 6.93
4 28 28.csv 3.7 3.83 -0.13 3.51
5 39 39.csv 3.59 3.72 -0.13 3.62
6 79 79.csv 3.34 3.44 -0.1 2.99
7 89 89.csv 2.08 1.99 0.09 4.33
8 95 95.csv 2.03 2.03 0 0
9 100 100.csv 1.98 2.05 -0.07 3.54
10 101 101.csv 1.96 2.06 -0.1 5.1
11 107 107.csv 3.39 3.28 0.11 3.24
12 108 108.csv 3.41 3.23 0.18 5.28
13 111 111.csv 2.72 2.66 0.06 2.21
14 119 119.csv 3.15 2.87 0.28 8.89
15 130 130.csv 2.13 2.18 -0.05 2.35
16 138 138.csv 1.98 1.91 0.07 3.54
17 148 148.csv 2.05 1.98 0.07 3.41
18 173 173.csv 3.01 3.01 0 0
19 181 181.csv 2.85 2.86 -0.01 0.35
20 191 191.csv 3.46 2.98 0.48 13.87
21 212 212.csv 3.85 3.82 0.03 0.78
22 227 227.csv 3.64 3.72 -0.08 2.2
通过验证模块一和验证模块二所得模型结果可知,异样样本剔除之后,验证标准偏差和验证集平均相对误差都得到了降低,验证集相关系数得到了提高,因此模型的准确性和稳定性都得到了提高。
本实施例所述的异常样本识别方法采用计算每条样本的光谱的范数来作为光谱数据异常样本的识别,这样不会改变整体光谱数据的重心和离散度,采用该方法不仅对单个奇异样本具有准确的识别效果,对于整体样本中有多个奇异样本时同于具有较高的识别率。本实施例所述异常样本识别方法对于近红外光谱分析技术异常样本剔除建立预测精度高的模型具有重要的意义,有助于近红外光谱分析技术的推广和应用。
实施例二
本实施例提供一种异常样本识别系统1,请参阅图7,显示为异常样本识别系统于一实施例中的原理结构示意图。如图7所示,所述异常样本识别系统1包括标准化处理模块11和异常识别模块12。
在运行所述异常样本识别系统1前需通过光谱仪采集烟叶样本的近红外光谱。在本实施例中启动光谱仪,并将所述光谱仪的各项参数设定为预定参数,打开光源预热烟叶样本,2小时后开始采集烟叶光谱;将烟叶粉末在自封袋里面充分混合,并导入旋转杯中,摇匀,将旋转杯放在光谱仪中开始测量光谱,按照上述方法依次采集所有烟叶样本的光谱;在本步骤中,采集的烟叶样本的近红外光谱格式为“.spa”格式,并将样本的光谱予以保存。于本实施例中,光谱仪采集227个“.spa”格式的烟叶样本的近红外光谱。
所述标准化处理模块11用于将采集到的227个“.spa”格式的近红外光谱转换成为“.dx”格式的近红外光谱,并“.dx”格式的近红外光谱形成第一光谱矩阵X227×256,行227为样本数量,列256为波长变量。所述标准化处理模块11具体用于:
标准化处理所述第一光谱矩阵X227×256,使其转换成第二光谱矩阵Y227×256。具体地,计算烟叶样本的近红外光谱的平均光谱,组成与所述第一光谱矩阵X227×256对应的平均光谱矩阵
Figure GDA0002173091040000091
所述平均光谱矩阵
Figure GDA0002173091040000092
Figure GDA0002173091040000093
表示第i个烟叶样本的平均光谱,K227×1为元素全为1的常数向量。在本实施例中,所述第i个烟叶样本的近红外光谱的平均光谱xi为第i个烟叶样本的光谱向量;其中,i大于等于1,小于等于227。
对所述第一光谱矩阵X227×256和所述平均光谱矩阵
Figure GDA0002173091040000095
进行均值中心化处理,获取中间光谱矩阵XC227×256;所述中间光谱矩阵
Figure GDA0002173091040000096
根据第i个烟叶样本的光谱向量xi,和第i个烟叶样本的平均光谱,计算样本标准偏差光谱s;其中,
根据中间光谱矩阵XC227×256和样本标准偏差光谱s
Figure GDA0002173091040000102
计算第二光谱矩阵Y227×256。所述第二光谱矩阵Y227×256=XC227×256/s。
与所述标准化处理模块11连接的异常识别模块12用于对所述第二光谱矩阵Y227×256进行预设异常样本识别处理,以获取用于识别异常样本的异常判断阈值h。所述异常识别模块12具体用于:
第一,对所述第二光谱矩阵Y227×256进行主成分分析,得到所述第二光谱矩阵Y227×256的主成分得分矩阵T227×256。该功能具体是指:根据矩阵理论中协方差的计算方法,计算出所述第二光谱矩阵Y227×256的协方差矩阵
Figure GDA0002173091040000103
根据协方差矩阵
Figure GDA0002173091040000104
计算所述第二光谱矩阵Y227×256的特征值λ和与该特征值λ对应的特征向量p;将计算得到的特征值λ按照从大到小的顺序排列,即按照λmax>…>λmin(于本实施例中,所述第二光谱矩阵Y227×256的特征值λ为256个)排序,并将从大到小排序的特征值λmax>…>λmin所对应的特征向量p1>…>λp256组成所述第二光谱矩阵Y227×256的载荷矩阵P227×256,即P227×256=[p1,p2,…,p256]。根据所述第二光谱矩阵Y227×256和载荷矩阵P227×256,计算出主成分得分矩阵T227×256
Figure GDA0002173091040000105
第二,对所述主成分得分矩阵T227×256中每个元素进行二范数(二范数是指,矩阵A的2范数就是A的转置矩阵与矩阵A的积的最大特征根的平方根值,是指空间上两个向量矩阵的直线距离)处理,形成227个样本范数Fi,其中,i为主成分得分矩阵T227×256中行的序号,其大于等于1,小于等于227。即
Figure GDA0002173091040000107
第三,根据3σ准侧(3σ准侧又称为拉依达准则,它是先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。),计算出用于识别样本中所存在的异常样本的异常判断阈值h。在本实施例中,所述3σ准侧是指:计算所述样本范数Fi的范数均值所述范数均值
Figure GDA0002173091040000112
计算范数标准偏差SF;所述范数标准偏差根据范数均值
Figure GDA0002173091040000114
和范数标准偏差SF,计算出所述异常判断阈值h。在本实施例中,所述异常判断阈值
Figure GDA0002173091040000115
于本实施例中,227个烟草样本计算出的异常判断阈值h=0.3011,即大于所述异常判断阈值的烟草样本就判断为异常样本。
本实施例还提供一种服务器2,请参阅图8,显示为服务器于一实施例中的原理结构示意图。如图8所示,该服务器2包括上述异常样本识别系统1。
本实施例也提供一种电子设备3,请参阅图9,显示为电子设备于一实施例中的原理结构示意图。如图9所示,该电子设备3包括用于采集样本的光谱(于本实施例中,光谱仪用于采集烟草样本的近红外光谱)的光谱仪4,及与所述光谱仪4连接的服务器2,用于识别所述光谱仪4采集的烟草样本的近红外光谱中存在的异常样本。
综上所述,本发明所述的异常样本识别方法、系统、服务器及电子设备采用计算每条样本的光谱的范数来作为光谱数据异常样本的识别,这样不会改变整体光谱数据的重心和离散度,采用该方法不仅对单个奇异样本具有准确的识别效果,对于整体样本中有多个奇异样本时同于具有较高的识别率。本发明所述的异常样本识别方法、系统、服务器及电子设备对于近红外光谱分析技术异常样本剔除建立预测精度高的模型具有重要的意义,有助于近红外光谱分析技术的推广和应用。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (9)

1.一种异常样本识别方法,其特征在于,所述异常样本识别方法包括以下步骤:
将采集到的样本的光谱形成第一光谱矩阵Xn×m,并标准化处理所述第一光谱矩阵Xn×m,使其转换成第二光谱矩阵Yn×m;其中,n表示样本数量,m为样本的波长变量;
对所述第二光谱矩阵Yn×m进行预设异常样本识别处理,以获取用于识别样本中异常样本的异常判断阈值;其中,所述对所述第二光谱矩阵Yn×m进行预设异常样本识别处理的步骤包括:对所述第二光谱矩阵Yn×m进行主成分分析,得到所述第二光谱矩阵Yn×m的主成分得分矩阵Tn×m;对所述主成分得分矩阵Tn×m中每个元素进行二范数处理,形成n个样本范数Fi,其中,i为主成分得分矩阵Tn×m中行的序号,其大于等于1,小于等于n,n为大于1的正整数;根据3σ准则,计算出用于识别样本中所存在的异常样本的异常判断阈值h。
2.根据权利要求1所述的异常样本识别方法,其特征在于:所述标准化处理所述第一光谱矩阵Xn×m,使其转换成第二光谱矩阵Yn×m的步骤包括:
计算样本的平均光谱,组成与所述第一光谱矩阵Xn×m对应的平均光谱矩阵
Figure FDA0002262426760000011
所述平均光谱矩阵
Figure FDA0002262426760000012
表示第i个样本的平均光谱,Kn×1为元素全为1的常数向量;所述第i个样本的平均光谱
Figure FDA0002262426760000014
xi为第i个样本的光谱向量;
其中,i大于等于1,小于等于n;
对所述第一光谱矩阵Xn×m和所述平均光谱矩阵
Figure FDA0002262426760000015
进行均值中心化处理,获取中间光谱矩阵XCn×m;所述中间光谱矩阵
Figure FDA0002262426760000016
计算样本标准偏差光谱s;其中,
Figure FDA0002262426760000017
根据中间光谱矩阵XCn×m和样本标准偏差光谱s,计算第二光谱矩阵Yn×m;所述第二光谱矩阵Yn×m=XCn×m/s。
3.根据权利要求2所述的异常样本识别方法,其特征在于:对所述第二光谱矩阵Yn×m进行主成分分析,得到所述第二光谱矩阵Yn×m的主成分得分矩阵Tn×m的步骤包括:
计算出所述第二光谱矩阵Yn×m的协方差矩阵
Figure FDA0002262426760000018
根据协方差矩阵
Figure FDA0002262426760000019
计算所述第二光谱矩阵Yn×m的特征值和特征向量;
将计算得到的特征值按照从大到小的顺序排列,并将从大到小排序的特征值所对应的特征向量组成所述第二光谱矩阵Yn×m的载荷矩阵Pn×m
根据所述第二光谱矩阵Yn×m和载荷矩阵Pn×m,计算出主成分得分矩阵Tn×m
Figure FDA0002262426760000021
4.根据权利要求1所述的异常样本识别方法,其特征在于:
所述二范数处理指根据二范数计算公式,计算样本范数Fi;所述二范数计算公式为
Figure FDA0002262426760000022
5.根据权利要求1所述的异常样本识别方法,其特征在于:
所述3σ准则指:
计算范数均值
Figure FDA0002262426760000023
所述范数均值
Figure FDA0002262426760000024
计算范数标准偏差SF;所述范数标准偏差
Figure FDA0002262426760000025
根据范数均值
Figure FDA0002262426760000026
和范数标准偏差SF,计算出所述异常判断阈值h;所述异常判断阈值
Figure FDA0002262426760000027
6.根据权利要求1所述的异常样本识别方法,其特征在于:所述异常样本识别方法还包括通过剔除异常样本建模与不剔除异常样本建模两种方式验证所述异常样本识别方法的精确性。
7.一种异常样本识别系统,其特征在于,所述异常样本识别系统包括:
标准化处理模块,用于将采集到的样本的光谱形成第一光谱矩阵Xn×m,标准化处理所述第一光谱矩阵Xn×m,使其转换成第二光谱矩阵Yn×m
异常识别模块,用于对所述第二光谱矩阵Yn×m进行预设异常样本识别处理,以获取用于识别样本中异常样本的异常判断阈值;其中,所述对所述第二光谱矩阵Yn×m进行预设异常样本识别处理的步骤包括:对所述第二光谱矩阵Yn×m进行主成分分析,得到所述第二光谱矩阵Yn×m的主成分得分矩阵Tn×m;对所述主成分得分矩阵Tn×m中每个元素进行二范数处理,形成n个样本范数Fi,其中,i为主成分得分矩阵Tn×m中行的序号,其大于等于1,小于等于n,n为大于1的正整数;根据3σ准则,计算出用于识别样本中所存在的异常样本的异常判断阈值h。
8.一种服务器,其特征在于,包括如权利要求7所述的异常样本识别系统。
9.一种电子设备,其特征在于,包括:
光谱仪,用于采集样本的光谱;
与所述光谱仪连接,如权利要求8所述的服务器。
CN201610613600.4A 2016-07-29 2016-07-29 异常样本识别方法、系统、服务器及电子设备 Active CN107664621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610613600.4A CN107664621B (zh) 2016-07-29 2016-07-29 异常样本识别方法、系统、服务器及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610613600.4A CN107664621B (zh) 2016-07-29 2016-07-29 异常样本识别方法、系统、服务器及电子设备

Publications (2)

Publication Number Publication Date
CN107664621A CN107664621A (zh) 2018-02-06
CN107664621B true CN107664621B (zh) 2020-02-11

Family

ID=61115815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610613600.4A Active CN107664621B (zh) 2016-07-29 2016-07-29 异常样本识别方法、系统、服务器及电子设备

Country Status (1)

Country Link
CN (1) CN107664621B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115552537B (zh) * 2021-04-13 2024-03-19 真实仪器公司 用于光谱滤波的系统、设备及方法
CN114338348A (zh) * 2021-12-08 2022-04-12 邵也铮 一种智能告警方法、装置、设备及可读存储介质
CN115950666B (zh) * 2023-03-15 2023-05-30 石家庄市惠源淀粉有限公司 一种淀粉葡萄糖生产设备故障智能检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251471B (zh) * 2008-03-12 2010-06-02 湖南中烟工业有限责任公司 一种基于烟叶近红外光谱的相似烟叶搜索方法
CN101799410B (zh) * 2010-02-25 2011-12-14 河北大学 一种基于红外光谱的普洱熟茶识别方法
CN102288573A (zh) * 2011-05-27 2011-12-21 中国人民解放军总后勤部油料研究所 一种利用中红外光谱技术快速识别发动机燃料种类和牌号方法
CN105424641B (zh) * 2014-09-04 2018-08-28 中国石油化工股份有限公司 一种原油种类的近红外光谱识别方法
CN105181619A (zh) * 2015-08-31 2015-12-23 深圳华中科技大学研究院 一种具有变量选择功能的红外光谱定量分析方法

Also Published As

Publication number Publication date
CN107664621A (zh) 2018-02-06

Similar Documents

Publication Publication Date Title
Mishra et al. Near-infrared hyperspectral imaging for non-destructive classification of commercial tea products
WO2016000088A1 (zh) 一种基于最佳指数-相关系数法的高光谱波段提取方法
CN108181263B (zh) 基于近红外光谱的烟叶部位特征提取及判别方法
WO2018010352A1 (zh) 一种定性定量相结合的近红外定量模型构建方法
CN107664621B (zh) 异常样本识别方法、系统、服务器及电子设备
AU2014346520B2 (en) Texture analysis of a coated surface using pivot-normalization
CN112098358B (zh) 基于四元数卷积神经网络的近红外光谱并行融合定量检测方法
CN110503156B (zh) 一种基于最小相关系数的多变量校正特征波长选择方法
CN105138834A (zh) 基于近红外光谱波数k均值聚类的烟草化学值定量方法
Li et al. Identification of pummelo cultivars by using Vis/NIR spectra and pattern recognition methods
CN114216877B (zh) 茶叶近红外光谱分析中谱峰自动检测与重构方法及系统
CN108051394B (zh) 基于近红外光谱的芝麻油掺伪检测方法
CN106770005A (zh) 一种用于近红外光谱分析的校正集和验证集的划分方法
CN103954582A (zh) 一种混合k调和聚类的苹果品种近红外光谱分类方法
CN108120694B (zh) 用于晒红烟化学成分分析的多元校正方法及系统
CN109685099B (zh) 一种光谱波段优选模糊聚类的苹果品种辨别方法
CN115824996A (zh) 基于近红外光谱的烟叶常规化学成分通用模型建模方法
CN111595802A (zh) 一种基于nir光谱的忧遁草种源地分类模型的构建方法及应用
Wang et al. Quantitative nondestructive testing of sensory and physical and chemical indexes of Korla fragrant pears.
CN112801173A (zh) 一种qr模糊鉴别分析的生菜近红外光谱分类方法
WO2019041055A1 (es) Método de estimación de aceite de olivas individuales en base a tecnologías no destructivas
CN109406420B (zh) 基于高光谱成像技术预测枸杞子中东莨菪内酯含量的方法
CN115795225B (zh) 一种近红外光谱校正集的筛选方法及装置
CN109406421B (zh) 基于高光谱成像技术预测枸杞子中阿魏酸含量的方法
CN109406419B (zh) 基于高光谱成像技术预测枸杞子中对羟基苯甲酸含量的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant