CN107664621B

CN107664621B - 异常样本识别方法、系统、服务器及电子设备

Info

Publication number: CN107664621B
Application number: CN201610613600.4A
Authority: CN
Inventors: 彭云发; 薛庆逾; 石超
Original assignee: Upper Seabird And Hundred Million Electronics Technology Development Co Ltds
Current assignee: Upper Seabird And Hundred Million Electronics Technology Development Co Ltds
Priority date: 2016-07-29
Filing date: 2016-07-29
Publication date: 2020-02-11
Anticipated expiration: 2036-07-29
Also published as: CN107664621A

Abstract

本发明提供一种异常样本识别方法、系统、服务器及电子设备，所述异常样本识别方法包括以下步骤：将采集到的样本的光谱形成第一光谱矩阵，并标准化处理所述第一光谱矩阵，使其转换成第二光谱矩阵；对所述第二光谱矩阵进行预设异常样本识别处理，以获取用于识别样本中异常样本的异常判断阈值。本发明所述的异常样本识别方法采用计算每条样本的光谱的范数来作为光谱数据异常样本的识别，不改变整体光谱数据的重心和离散度，采用该方法不仅对单个奇异样本具有准确的识别效果，对于整体样本中有多个奇异样本时同于具有较高的识别率。

Description

异常样本识别方法、系统、服务器及电子设备

技术领域

本发明属于光谱分析计算领域，涉及一种识别方法及系统，特别是涉及一种异常样本识别方法、系统、服务器及电子设备。

背景技术

近红外光谱技术具有分析速度快、样本制作简单、无损、多指标同时分析的特点，目前，近红外光谱技术在石油、烟草、中药、食品领域得以推广应用,随着近红外光谱技术应用范围不断拓展，大量的近红外定量和定性模型需要建立和优化，因此，建立一个预测精度高、稳定性好的模型显得尤为重要。在使用近红外光谱仪测量样本的近红外光谱时，光谱仪本身的误差和测量性能参数的变化、测量方法的变化、测量环境的变化、样品其它物理或机械特性的变化、样品预处理不当和样品来源的变化、光谱扫描中的错误都会导致光谱数据异常，如何判断异常光谱数据是近红外光谱检测过程中首先要解决的问题，传统的辨识光谱数据中奇异点的方式有主成分得分图、马氏距离法和杠杆值法，但是这些方法都是建立在对数据重心估计的基础上，通常无法准确判断会改变光谱数据重心和离散度的奇异点。

因此，如何提供一种异常样本识别方法、系统、服务器及电子设备，以解决现有技术中无法准确识别多奇异点，而造成改变光谱数据重心和离散度，实已成为本领域从业人员亟待解决的技术问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种异常样本识别方法、系统、服务器及电子设备，用于解决现有技术中无法准确识别多奇异点，而造成改变光谱数据重心和离散度的问题。

为实现上述目的及其他相关目的，本发明一方面提供一种异常样本识别方法，所述异常样本识别方法包括以下步骤：将采集到的样本的光谱形成第一光谱矩阵X_n×m，并标准化处理所述第一光谱矩阵X_n×m，使其转换成第二光谱矩阵Y_n×m；其中，n表示样本数量，m为样本的波长变量；对所述第二光谱矩阵Y_n×m进行预设异常样本识别处理，以获取用于识别样本中异常样本的异常判断阈值。

于本发明的一实施例中，所述标准化处理所述第一光谱矩阵X_n×m，使其转换成第二光谱矩阵Y_n×m的步骤包括：计算样本的平均光谱，组成与所述第一光谱矩阵X_n×m对应的平均光谱矩阵

所述平均光谱矩阵

表示第i个样本的平均光谱，K_n×1为元素全为1的常数向量；所述第i个样本的平均光谱

x_i为第i个样本的光谱向量；其中，i大于等于1，小于等于n；对所述第一光谱矩阵X_n×m和所述平均光谱矩阵

进行均值中心化处理，获取中间光谱矩阵XC_n×m；所述中间光谱矩阵

计算样本标准偏差光谱s；其中，

根据中间光谱矩阵XC_n×m和样本标准偏差光谱s，计算第二光谱矩阵Y_n×m；所述第二光谱矩阵Y_n×m＝XC_n×m/s。

于本发明的一实施例中，所述对所述第二光谱矩阵Y_n×m进行预设异常样本识别处理的步骤包括：对所述第二光谱矩阵Y_n×m进行主成分分析，得到所述第二光谱矩阵Y_n×m的主成分得分矩阵T_n×m；对所述主成分得分矩阵T_n×m中每个元素进行二范数处理，形成n个样本范数F_i，其中，i为主成分得分矩阵T_n×m中行的序号，其大于等于1，小于等于n；根据3σ准侧，计算出用于识别样本中所存在的异常样本的异常判断阈值h。

于本发明的一实施例中，所述对所述第二光谱矩阵Y_n×m进行主成分分析，得到所述第二光谱矩阵Y_n×m的主成分得分矩阵T_n×m的步骤为：计算出所述第二光谱矩阵Y_n×m的协方差矩阵根据协方差矩阵

计算所述第二光谱矩阵Y_n×m的特征值和特征向量；将计算得到的特征值按照从大到小的顺序排列，并将从大到小排序的特征值所对应的特征向量组成所述第二光谱矩阵Y_n×m的载荷矩阵P_n×m；根据所述第二光谱矩阵Y_n×m和载荷矩阵P_n×m，计算出主成分得分矩阵T_n×m；

于本发明的一实施例中，所述二范数处理指根据二范数计算公式，计算样本范数F_i；所述二范数计算公式为

于本发明的一实施例中，所述3σ准侧指：计算范数均值

所述范数均值

计算范数标准偏差SF；所述范数标准偏差

根据范数均值和范数标准偏差SF，计算出所述异常判断阈值h；所述异常判断阈值

于本发明的一实施例中，所述异常样本识别方法还包括通过剔除异常样本建模与不剔除异常样本建模两种方式验证所述异常样本识别方法的精确性。

本发明另一方面提供一种异常样本识别系统，所述异常样本识别系统包括：标准化处理模块，用于将采集到的样本的光谱形成第一光谱矩阵X_n×m，标准化处理所述第一光谱矩阵X_n×m，使其转换成第二光谱矩阵Y_n×m；异常识别模块，用于对所述第二光谱矩阵Y_n×m进行预设异常样本识别处理，以获取用于识别样本中异常样本的异常判断阈值。

本发明又一方面提供一种服务器，包括所述的异常样本识别系统。

本发明最后一方面提供一种电子设备，包括：光谱仪，用于采集样本的光谱；与所述光谱仪连接，所述的服务器。

如上所述，本发明的异常样本识别方法、系统、服务器及电子设备，具有以下有益效果：

本发明所述的异常样本识别方法、系统、服务器及电子设备采用计算每条样本的光谱的范数来作为光谱数据异常样本的识别，这样不会改变整体光谱数据的重心和离散度，采用该方法不仅对单个奇异样本具有准确的识别效果，对于整体样本中有多个奇异样本时同于具有较高的识别率。本发明所述的异常样本识别方法、系统、服务器及电子设备对于近红外光谱分析技术异常样本剔除建立预测精度高的模型具有重要的意义，有助于近红外光谱分析技术的推广和应用。

附图说明

图1显示为本发明的异常样本识别方法于一实施例中的流程示意图示意图。

图2显示为本发明的光谱仪采集到的烟叶样本的近红外光谱。

图3显示为本发明的异常样本识别方法中步骤S2的流程示意图。

图4显示为本发明的异常样本识别方法中步骤S3的流程示意图。

图5显示为本发明的异常样本识别方法中步骤S31的流程示意图。

图6显示为通过异常样本识别方法识别出异常样本的示意图。

图7显示为本发明的异常样本识别系统于一实施例中的原理结构示意图。

图8显示为本发明的服务器于一实施例中的原理结构示意图。

图9显示为本发明的电子设备于一实施例中的原理结构示意图。

元件标号说明

1 异常样本识别系统

11 标准化处理模块

12 异常识别模块

2 服务器

3 电子设备

4 光谱仪

S21～S4 步骤

S21～S24 步骤

S311～S314 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

实施例一

本实施例提供一种异常样本识别方法，所述异常样本识别方法包括以下步骤：

将采集到的样本的光谱形成第一光谱矩阵X_n×m，并标准化处理所述第一光谱矩阵X_n×m，使其转换成第二光谱矩阵Y_n×m；其中，n表示样本数量，m为样本的波长变量；

对所述第二光谱矩阵Y_n×m进行预设异常样本识别处理，以获取用于识别样本中异常样本的异常判断阈值。

以下将结合图示对本实施例所述的异常样本识别方法进行详细说明。所述样本的光谱可以包括红外光谱，近红外光谱等等。在本实施例中，所述异常样本识别方法采用烟叶样本近红外光谱作为测试对象。

在执行本实施例所述的异常样本识别方法之前，需要先制作所需样本。具体过程如下：

选取烟叶样本进行标号，放入自封袋，然后将烟叶取梗、剪碎放入烘箱中，烘箱温度设置为40℃，烘干3小时，将从烘箱中取出的烟叶放入干燥器中进行冷却到常温，之后将烟叶样本用粉碎机进行粉碎，过40目的筛子，最后再将烟叶粉末导入到对于编号的自封袋中备用。

采集烟叶样本的近红外光谱。在本实施例中，通过光谱仪来执行采集功能。在本实施例中，启动光谱仪，并将所述光谱仪的各项参数设定为预定参数，打开光源预热烟叶样本，2小时后开始采集烟叶光谱；将烟叶粉末在自封袋里面充分混合，并导入旋转杯中，摇匀，将旋转杯放在光谱仪中开始测量光谱，按照上述方法依次采集所有烟叶样本的光谱；在本步骤中，采集的烟叶样本的近红外光谱格式为“.spa”格式，并将样本的光谱予以保存。于本实施例中，采集227个“.spa”格式的烟叶样本的近红外光谱。

请参阅图1，显示为异常样本识别方法于一实施例中的流程示意图。如图1所示，所述异常样本识别方法具体包括以下几个步骤：

S1，将采集到的227个“.spa”格式的近红外光谱转换成为“.dx”格式的近红外光谱，并将“.dx”格式的近红外光谱形成第一光谱矩阵X_227×256，行227为样本数量，列256为波长变量。请参阅图2，显示为光谱仪采集到的烟叶样本的近红外光谱。

S2，标准化处理所述第一光谱矩阵X_227×256，使其转换成第二光谱矩阵Y_227×256。请参阅图3，显示为步骤S2的流程示意图。如图3所示，所述步骤S2具体包括以下几个步骤：

S21，计算烟叶样本的近红外光谱的平均光谱，组成与所述第一光谱矩阵X_227×256对应的平均光谱矩阵所述平均光谱矩阵

表示第i个烟叶样本的平均光谱，K_227×1为元素全为1的常数向量。在本实施例中，所述第i个烟叶样本的近红外光谱的平均光谱

x_i为第i个烟叶样本的光谱向量；其中，i大于等于1，小于等于227。

S22，对所述第一光谱矩阵X_227×256和所述平均光谱矩阵

进行均值中心化处理，获取中间光谱矩阵XC_227×256；所述中间光谱矩阵

S23，根据第i个烟叶样本的光谱向量x_i，和第i个烟叶样本的平均光谱，计算样本标准偏差光谱s；其中，

S24，根据中间光谱矩阵XC_227×256和样本标准偏差光谱s

计算第二光谱矩阵Y_227×256。所述第二光谱矩阵Y_227×256＝XC_227×256/s。

S3，对所述第二光谱矩阵Y_227×256进行预设异常样本识别处理，以获取用于识别异常样本的异常判断阈值h。请参阅图4，显示为步骤S3的流程示意图。如图4所示，所述步骤S4具体包括以下几个步骤：

S31，对所述第二光谱矩阵Y_227×256进行主成分分析，得到所述第二光谱矩阵Y_227×256的主成分得分矩阵T_227×256。请参阅图5，显示为步骤S31的流程示意图。如图5所示，所述步骤S31具体包括以下几个步骤：

S311，根据矩阵理论中协方差的计算方法，计算出所述第二光谱矩阵Y_227×256的协方差矩阵

S312，根据协方差矩阵

计算所述第二光谱矩阵Y_227×256的特征值λ和与该特征值λ对应的特征向量p；

S313，将计算得到的特征值λ按照从大到小的顺序排列，即按照λ_max＞…＞λ_min(于本实施例中，所述第二光谱矩阵Y_227×256的特征值λ为256个)排序，并将从大到小排序的特征值λ_max＞…＞λ_min所对应的特征向量p₁＞…＞p₂₅₆组成所述第二光谱矩阵Y_227×256的载荷矩阵P_227×256，即P_227×256＝[p₁,p₂,…,p₂₅₆]。

S314，根据所述第二光谱矩阵Y_227×256和载荷矩阵P_227×256，计算出主成分得分矩阵T_227×256；

S32，对所述主成分得分矩阵T_227×256中每个元素进行二范数(二范数是指，矩阵A的2范数就是A的转置矩阵与矩阵A的积的最大特征根的平方根值，是指空间上两个向量矩阵的直线距离)处理，形成227个样本范数F_i，其中，i为主成分得分矩阵T_227×256中行的序号，其大于等于1，小于等于227。

即

…

…

S33，根据3σ准侧(3σ准侧又称为拉依达准则，它是先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除。)，计算出用于识别样本中所存在的异常样本的异常判断阈值h。在本实施例中，所述3σ准侧是指：

首选，计算所述样本范数F_i的范数均值

所述范数均值

接着，计算范数标准偏差SF；所述范数标准偏差

最后，根据范数均值

和范数标准偏差SF，计算出所述异常判断阈值h。在本实施例中，所述异常判断阈值

于本实施例中，227个烟草样本计算出的异常判断阈值h＝0.3011，即大于所述异常判断阈值的烟草样本就判断为异常样本。请参阅图6，显示为通过异常样本识别方法识别出异常样本的示意图。如图6所示，烟草样本126、127、129、183、187、192号为异常样本。

S4，通过剔除异常样本建模与不剔除异常样本建模两种方式验证所述异常样本识别方法的精确性。

不剔除异常样本建模是指：不剔除异常样本，通过所述SPXY(sample setpartitioning based on joint x-y distance)选择校正样本204个，验证样本23个。对烟叶样本的近红外光谱采用多元散射校正结合一阶导数，波长选择方法为CARS(竞争性自适应重加权算法)进行处理以建立验证模型一，通过该验证模型一得到模型结果：校正标准偏差(RMSEC)为0.11，校正集相关系数(RC)为0.9901,验证标准偏差(RMSEP)为0.18，验证相关系数(RP)为0.9713，验证集平均相对误差为4.18％。不剔除异常样本的验证样本预测结果表如表一所示。

表1：验证样本预测结果表

剔除异常样本建模是指：采用所述异常样本识别方法对227个烟草样本进行识别，将大于异常判断阈值h＝0.3011的异常样本剔除出去(于本实施例中，是将126、127、129、183、187、192号烟草样本剔除)。通过SPXY(sample set partitioning based on joint x-y distance)选择验证样本22个，将22个多元散射校正结合一阶导数，波长选择方法为CARS(竞争性自适应重加权算法)，得到的模型结果建立验证模型二，通过该验证模型二得到模型结果：得到的模型结果，校正标准偏差(RMSEC)为0.11，校正集相关系数(RC)为0.9900,验证标准偏差(RMSEP)为0.17，验证相关系数(RP)为0.9749，验证集平均相对误差为3.92％。剔除异常样本的验证样本预测结果表如表二所示。

表2：剔除异常样本的验证样本预测结果表

序号	样品ID	文件名	化学值	预测值	绝对误差	相对误差(％)
							1	20	20.csv	3.79	3.77	0.02	0.53
2	23	23.csv	3.59	3.93	-0.34	9.47
							3	24	24.csv	3.61	3.86	-0.25	6.93
4	28	28.csv	3.7	3.83	-0.13	3.51
							5	39	39.csv	3.59	3.72	-0.13	3.62
6	79	79.csv	3.34	3.44	-0.1	2.99
							7	89	89.csv	2.08	1.99	0.09	4.33
8	95	95.csv	2.03	2.03	0	0
							9	100	100.csv	1.98	2.05	-0.07	3.54
10	101	101.csv	1.96	2.06	-0.1	5.1
							11	107	107.csv	3.39	3.28	0.11	3.24
12	108	108.csv	3.41	3.23	0.18	5.28
							13	111	111.csv	2.72	2.66	0.06	2.21
14	119	119.csv	3.15	2.87	0.28	8.89
							15	130	130.csv	2.13	2.18	-0.05	2.35
16	138	138.csv	1.98	1.91	0.07	3.54
							17	148	148.csv	2.05	1.98	0.07	3.41
18	173	173.csv	3.01	3.01	0	0
							19	181	181.csv	2.85	2.86	-0.01	0.35
20	191	191.csv	3.46	2.98	0.48	13.87
							21	212	212.csv	3.85	3.82	0.03	0.78
22	227	227.csv	3.64	3.72	-0.08	2.2

通过验证模块一和验证模块二所得模型结果可知，异样样本剔除之后，验证标准偏差和验证集平均相对误差都得到了降低，验证集相关系数得到了提高，因此模型的准确性和稳定性都得到了提高。

本实施例所述的异常样本识别方法采用计算每条样本的光谱的范数来作为光谱数据异常样本的识别，这样不会改变整体光谱数据的重心和离散度，采用该方法不仅对单个奇异样本具有准确的识别效果，对于整体样本中有多个奇异样本时同于具有较高的识别率。本实施例所述异常样本识别方法对于近红外光谱分析技术异常样本剔除建立预测精度高的模型具有重要的意义，有助于近红外光谱分析技术的推广和应用。

实施例二

本实施例提供一种异常样本识别系统1，请参阅图7，显示为异常样本识别系统于一实施例中的原理结构示意图。如图7所示，所述异常样本识别系统1包括标准化处理模块11和异常识别模块12。

在运行所述异常样本识别系统1前需通过光谱仪采集烟叶样本的近红外光谱。在本实施例中启动光谱仪，并将所述光谱仪的各项参数设定为预定参数，打开光源预热烟叶样本，2小时后开始采集烟叶光谱；将烟叶粉末在自封袋里面充分混合，并导入旋转杯中，摇匀，将旋转杯放在光谱仪中开始测量光谱，按照上述方法依次采集所有烟叶样本的光谱；在本步骤中，采集的烟叶样本的近红外光谱格式为“.spa”格式，并将样本的光谱予以保存。于本实施例中，光谱仪采集227个“.spa”格式的烟叶样本的近红外光谱。

所述标准化处理模块11用于将采集到的227个“.spa”格式的近红外光谱转换成为“.dx”格式的近红外光谱，并“.dx”格式的近红外光谱形成第一光谱矩阵X_227×256，行227为样本数量，列256为波长变量。所述标准化处理模块11具体用于：

标准化处理所述第一光谱矩阵X_227×256，使其转换成第二光谱矩阵Y_227×256。具体地，计算烟叶样本的近红外光谱的平均光谱，组成与所述第一光谱矩阵X_227×256对应的平均光谱矩阵

所述平均光谱矩阵

表示第i个烟叶样本的平均光谱，K_227×1为元素全为1的常数向量。在本实施例中，所述第i个烟叶样本的近红外光谱的平均光谱x_i为第i个烟叶样本的光谱向量；其中，i大于等于1，小于等于227。

对所述第一光谱矩阵X_227×256和所述平均光谱矩阵

根据第i个烟叶样本的光谱向量x_i，和第i个烟叶样本的平均光谱，计算样本标准偏差光谱s；其中，

根据中间光谱矩阵XC_227×256和样本标准偏差光谱s

与所述标准化处理模块11连接的异常识别模块12用于对所述第二光谱矩阵Y_227×256进行预设异常样本识别处理，以获取用于识别异常样本的异常判断阈值h。所述异常识别模块12具体用于：

第一，对所述第二光谱矩阵Y_227×256进行主成分分析，得到所述第二光谱矩阵Y_227×256的主成分得分矩阵T_227×256。该功能具体是指：根据矩阵理论中协方差的计算方法，计算出所述第二光谱矩阵Y_227×256的协方差矩阵

根据协方差矩阵

计算所述第二光谱矩阵Y_227×256的特征值λ和与该特征值λ对应的特征向量p；将计算得到的特征值λ按照从大到小的顺序排列，即按照λ_max＞…＞λ_min(于本实施例中，所述第二光谱矩阵Y_227×256的特征值λ为256个)排序，并将从大到小排序的特征值λ_max＞…＞λ_min所对应的特征向量p₁＞…＞λp₂₅₆组成所述第二光谱矩阵Y_227×256的载荷矩阵P_227×256，即P_227×256＝[p₁,p₂,…,p₂₅₆]。根据所述第二光谱矩阵Y_227×256和载荷矩阵P_227×256，计算出主成分得分矩阵T_227×256；

第二，对所述主成分得分矩阵T_227×256中每个元素进行二范数(二范数是指，矩阵A的2范数就是A的转置矩阵与矩阵A的积的最大特征根的平方根值，是指空间上两个向量矩阵的直线距离)处理，形成227个样本范数F_i，其中，i为主成分得分矩阵T_227×256中行的序号，其大于等于1，小于等于227。即

第三，根据3σ准侧(3σ准侧又称为拉依达准则，它是先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除。)，计算出用于识别样本中所存在的异常样本的异常判断阈值h。在本实施例中，所述3σ准侧是指：计算所述样本范数F_i的范数均值所述范数均值

计算范数标准偏差SF；所述范数标准偏差根据范数均值

于本实施例中，227个烟草样本计算出的异常判断阈值h＝0.3011，即大于所述异常判断阈值的烟草样本就判断为异常样本。

本实施例还提供一种服务器2，请参阅图8，显示为服务器于一实施例中的原理结构示意图。如图8所示，该服务器2包括上述异常样本识别系统1。

本实施例也提供一种电子设备3，请参阅图9，显示为电子设备于一实施例中的原理结构示意图。如图9所示，该电子设备3包括用于采集样本的光谱(于本实施例中，光谱仪用于采集烟草样本的近红外光谱)的光谱仪4，及与所述光谱仪4连接的服务器2，用于识别所述光谱仪4采集的烟草样本的近红外光谱中存在的异常样本。

综上所述，本发明所述的异常样本识别方法、系统、服务器及电子设备采用计算每条样本的光谱的范数来作为光谱数据异常样本的识别，这样不会改变整体光谱数据的重心和离散度，采用该方法不仅对单个奇异样本具有准确的识别效果，对于整体样本中有多个奇异样本时同于具有较高的识别率。本发明所述的异常样本识别方法、系统、服务器及电子设备对于近红外光谱分析技术异常样本剔除建立预测精度高的模型具有重要的意义，有助于近红外光谱分析技术的推广和应用。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种异常样本识别方法，其特征在于，所述异常样本识别方法包括以下步骤：

对所述第二光谱矩阵Y_n×m进行预设异常样本识别处理，以获取用于识别样本中异常样本的异常判断阈值；其中，所述对所述第二光谱矩阵Y_n×m进行预设异常样本识别处理的步骤包括：对所述第二光谱矩阵Y_n×m进行主成分分析，得到所述第二光谱矩阵Y_n×m的主成分得分矩阵T_n×m；对所述主成分得分矩阵T_n×m中每个元素进行二范数处理，形成n个样本范数F_i，其中，i为主成分得分矩阵T_n×m中行的序号，其大于等于1，小于等于n，n为大于1的正整数；根据3σ准则，计算出用于识别样本中所存在的异常样本的异常判断阈值h。

2.根据权利要求1所述的异常样本识别方法，其特征在于：所述标准化处理所述第一光谱矩阵X_n×m，使其转换成第二光谱矩阵Y_n×m的步骤包括：

计算样本的平均光谱，组成与所述第一光谱矩阵X_n×m对应的平均光谱矩阵

所述平均光谱矩阵

x_i为第i个样本的光谱向量；

其中，i大于等于1，小于等于n；

对所述第一光谱矩阵X_n×m和所述平均光谱矩阵

计算样本标准偏差光谱s；其中，

3.根据权利要求2所述的异常样本识别方法，其特征在于：对所述第二光谱矩阵Y_n×m进行主成分分析，得到所述第二光谱矩阵Y_n×m的主成分得分矩阵T_n×m的步骤包括：

计算出所述第二光谱矩阵Y_n×m的协方差矩阵

根据协方差矩阵

计算所述第二光谱矩阵Y_n×m的特征值和特征向量；

将计算得到的特征值按照从大到小的顺序排列，并将从大到小排序的特征值所对应的特征向量组成所述第二光谱矩阵Y_n×m的载荷矩阵P_n×m；

根据所述第二光谱矩阵Y_n×m和载荷矩阵P_n×m，计算出主成分得分矩阵T_n×m；

4.根据权利要求1所述的异常样本识别方法，其特征在于：

所述二范数处理指根据二范数计算公式，计算样本范数F_i；所述二范数计算公式为

5.根据权利要求1所述的异常样本识别方法，其特征在于：

所述3σ准则指：

计算范数均值

所述范数均值

计算范数标准偏差SF；所述范数标准偏差

根据范数均值

和范数标准偏差SF，计算出所述异常判断阈值h；所述异常判断阈值

6.根据权利要求1所述的异常样本识别方法，其特征在于：所述异常样本识别方法还包括通过剔除异常样本建模与不剔除异常样本建模两种方式验证所述异常样本识别方法的精确性。

7.一种异常样本识别系统，其特征在于，所述异常样本识别系统包括：

标准化处理模块，用于将采集到的样本的光谱形成第一光谱矩阵X_n×m，标准化处理所述第一光谱矩阵X_n×m，使其转换成第二光谱矩阵Y_n×m；

异常识别模块，用于对所述第二光谱矩阵Y_n×m进行预设异常样本识别处理，以获取用于识别样本中异常样本的异常判断阈值；其中，所述对所述第二光谱矩阵Y_n×m进行预设异常样本识别处理的步骤包括：对所述第二光谱矩阵Y_n×m进行主成分分析，得到所述第二光谱矩阵Y_n×m的主成分得分矩阵T_n×m；对所述主成分得分矩阵T_n×m中每个元素进行二范数处理，形成n个样本范数F_i，其中，i为主成分得分矩阵T_n×m中行的序号，其大于等于1，小于等于n，n为大于1的正整数；根据3σ准则，计算出用于识别样本中所存在的异常样本的异常判断阈值h。

8.一种服务器，其特征在于，包括如权利要求7所述的异常样本识别系统。

9.一种电子设备，其特征在于，包括：

光谱仪，用于采集样本的光谱；

与所述光谱仪连接，如权利要求8所述的服务器。