CN112014378A - 一种便携式血痕识别仪及其鉴别方法 - Google Patents
一种便携式血痕识别仪及其鉴别方法 Download PDFInfo
- Publication number
- CN112014378A CN112014378A CN202011008431.4A CN202011008431A CN112014378A CN 112014378 A CN112014378 A CN 112014378A CN 202011008431 A CN202011008431 A CN 202011008431A CN 112014378 A CN112014378 A CN 112014378A
- Authority
- CN
- China
- Prior art keywords
- data
- portable blood
- blood
- mark identifier
- bands
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000008280 blood Substances 0.000 title claims abstract description 84
- 210000004369 blood Anatomy 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 41
- 230000009467 reduction Effects 0.000 claims abstract description 27
- 230000003287 optical effect Effects 0.000 claims abstract description 7
- 230000000903 blocking effect Effects 0.000 claims abstract description 4
- 238000012706 support-vector machine Methods 0.000 claims description 54
- 238000000513 principal component analysis Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 20
- 241000894007 species Species 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 13
- 241001465754 Metazoa Species 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000000926 separation method Methods 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 abstract description 26
- 238000001514 detection method Methods 0.000 abstract description 10
- 238000012937 correction Methods 0.000 abstract description 5
- 238000012795 verification Methods 0.000 abstract description 3
- 238000012821 model calculation Methods 0.000 abstract 1
- 238000001237 Raman spectrum Methods 0.000 description 29
- 238000002474 experimental method Methods 0.000 description 28
- 238000001069 Raman spectroscopy Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 9
- 238000010187 selection method Methods 0.000 description 9
- 230000002068 genetic effect Effects 0.000 description 7
- 238000010239 partial least squares discriminant analysis Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 150000001413 amino acids Chemical class 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241000272525 Anas platyrhynchos Species 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 1
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 238000003332 Raman imaging Methods 0.000 description 1
- 241000282898 Sus scrofa Species 0.000 description 1
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000003889 chemical engineering Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008303 genetic mechanism Effects 0.000 description 1
- 238000003018 immunoassay Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000004811 liquid chromatography Methods 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/65—Raman scattering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本发明公开了一种便携式血痕识别仪及其鉴别方法,识别仪,包括:633nm的激光光源,将小于等于633nm的光阻挡的截至型滤光镜滤光片,将大于633nm的非弹性反射光分光的棱镜,将光信号采集记录下来的CCD检测器;鉴别方法包括:将血50个波段的反射光强度数据先进行数据降噪和校正,再对数据标准化,再进行模型计算,最后得到识别结果;采用本发明的仪器和算法,提高检测结果速度,同时提高验证集和测试集的准确率。
Description
技术领域
本发明涉及生物检测领域,特别是一种便携式血痕识别仪及其鉴别方法。
背景技术
在公安刑侦、检验检疫等工作中,血液是至关重要的物证之一。因此需要对血痕进行种属鉴别,判断其为何物种所留。传统的血痕鉴别技术有显微观测法、沉淀反应、酶免疫分析、DNA检测法、高校液相色谱法等。虽然这些方法有效,但是具有操作复杂、耗时长等缺点。特别是传统检测方法会损耗检测对象,物证是行政执法和法庭审判的重要证据,应尽量采用无损的检测方法。
拉曼光谱技术是对物质的结构和成分进行检测的技术手段,依据的是入射光与被检测物质发生非弹性散射的光谱。不同物质的拉曼光谱是独一无二的,具有指纹光谱的特征。拉曼光谱技术具有无需前处理、无损、分析检测速度快的优势。目前,拉曼光谱技术及其相关技术已被广泛应用于化工、医学、半导体、地质等领域,在血痕种属鉴别等相关领域也日渐成熟。
市场上关于血痕种属鉴别的研究都是利用拉曼全波段的光谱,没有进行关键特征波段的选择。且研究所采集的血痕种类较少,无法充分的证明方法的有效性。全波段的拉曼光谱波段数量多,特征维度高,但是样本量少,容易引发“维度灾难”现象,导致预测准确率降低。因此,需要对拉曼光谱进行降维处理,光谱数据的降维方法一般分为特征提取和波段选择。特征提取一般采用通过将数据从高维空间投影到低维空间的方法,主要算法是主成分分析(PCA)、线性判别分析(LDA)、偏最小二乘法(PLS)等,此类降维算法改变了原始数据的物理意义,可解释性差,同时复杂的降维算法也增加了计算成本。市场需要一种能够对数据完成降噪和基线矫正,结合特征选择算法,建立多分类模型,对比各特征选择算法和分类模型对于分类准确率的影响,并对结果进行验证的一套快速鉴别检测血痕种属的方法,本发明解决这样的问题。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种便携式血痕识别仪及其鉴别方法,检测快速,检测结果准确率高。
为了实现上述目标,本发明采用如下的技术方案:
一种便携式血痕识别仪,包括:633nm的激光光源,将小于等于633nm的光阻挡的截至型滤光镜滤光片,将大于633nm的非弹性反射光分光的棱镜,将光信号采集记录下来的CCD检测器。
前述的一种便携式血痕识别仪,CCD检测器的前方放置有光电倍增管。
前述的一种便携式血痕识别仪,CCD检测器选择波段的数量为50个波段。
前述的一种便携式血痕识别仪,50个波段在755cm-1,1230cm-1,1560cm-1位置。
一种便携式血痕识别仪的鉴别方法,包括如下步骤:
步骤一,将动物血液样本经过633nm的激光光源,经过截至型滤光镜滤光片、棱镜,由CCD检测器将光信号采集记录下来;
步骤二,获得反射光谱数据后,完成数据的降噪,降噪的方法采用Savitzky-Golay卷积平滑算法;
数学表达式为:
步骤三,对数据完成全局标准化,方法是Min-Max normalization;
数学表达式为:
其中,yi是标准化后的数据,Xi是标准化前的数据,minX和maxX分别是标准化前数据的最小值和最大值;
步骤四,利用支持向量机SVM的方法对血液的种属鉴别进行建模;
步骤五,通过支持向量模型计算样本的反射光强度的一系列光谱数据,直接得到分类结果。
前述的一种便携式血痕识别仪的鉴别方法,
步骤一,将动物血液样本经过633nm的激光光源,经过截至型滤光镜滤光片、棱镜,由CCD检测器采集血25个波段的反射光强度数据;25个波段在755cm-1,1230cm-1,1560cm-1位置。
前述的一种便携式血痕识别仪的鉴别方法,
步骤一,将动物血液样本经过633nm的激光光源,经过截至型滤光镜滤光片、棱镜,由CCD检测器采集血50个波段的反射光强度数据;50个波段在755cm-1,1230cm-1,1560cm-1位置。
根据权利要求5所述的一种便携式血痕识别仪的鉴别方法,其特征在于,
步骤四,利用支持向量机SVM配合主成分分析PCA的方法完成建模,求解能够正确划分训练数据集并且几何间隔最大的分离超平面;
使用主成分分析PCA算法对输入数据降维,将降维后的数据放入支持向量机分类器,完成分类。
前述的一种便携式血痕识别仪的鉴别方法,
步骤四,利用支持向量机SVM配合互信息MI的方法完成建模,求解能够正确划分训练数据集并且几何间隔最大的分离超平面;
利用互信息方法,将各波段按照信息熵值依序排列,选择前K个波段,使用SVM分类器完成分类;
本发明的有益之处在于:
本发明采用降维算法结合SVM分类器,测试集准确率达到85.7%;采用互信息结合SVM算法的分类准确率最优,在选择波段数为50时,测试集准确率即达到86.0%;
本发明采用波段选择算法进行光谱降维,结合支持向量机分类器,可以有效的提高算法的准确率和鲁棒性,也使血痕拉曼光谱种属鉴定的可解释性更强;
筛选确定了血痕鉴别的关键波段位置在755cm-1,1230cm-1,1560cm-1,简化了算法,使得鉴别更加快捷。
附图说明
图1是本发明的一种实施例的结构示意图;
图2是本发明的鉴别方法的一种实施例的流程图;
图3是本发明实验一显微镜下的血痕影像;
图4是本发明实验一人血的原始拉曼光谱;
图5是本发明实验一基线校正和降噪后的人血拉曼光谱;
图6是本发明实验一基线校正和降噪后的人血拉曼光谱(100cm-1~1700cm-1);
图7是本发明实验一人和动物的平均拉曼光谱;
图8是本发明实验二C和gamma网格搜索的结果;
图9是本发明实验二三种波段选择方法在不同的波段数量的训练集准确率;
图10是本发明实验二五种方法在训练集和测试集的准确率对比;
图11是本发明实验二互信息法选择的最佳的25个波段。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
一种便携式血痕识别仪,包括:633nm的激光光源,将小于等于633nm的光阻挡的截至型滤光镜滤光片,将大于633nm的非弹性反射光分光的棱镜,将光信号采集记录下来的CCD检测器。作为一种优选,CCD检测器的前方放置有光电倍增管。作为一种优选,CCD检测器选择波段的数量为50个波段,50个波段在755cm-1,1230cm-1,1560cm-1位置。
一种便携式血痕识别仪的鉴别方法,包括如下步骤:
步骤一,将动物血液样本经过633nm的激光光源,经过截至型滤光镜滤光片、棱镜,由CCD检测器将光信号采集记录下来;需要说明的是:选用25个波段,准确率可达到80%;选用50个波段准确率可以达到86.0%,波段越高准确率越高,综合检测时间考量,优选50个波段。
步骤二,获得反射光谱数据后,完成数据的降噪,降噪的方法采用Savitzky-Golay卷积平滑算法;
数学表达式为:
步骤三,对数据完成全局标准化,方法是Min-Max normalization;
数学表达式为:
其中,yi是标准化后的数据,Xi是标准化前的数据,minX和maxX分别是标准化前数据的最小值和最大值;
步骤四,利用支持向量机SVM的方法对血液的种属鉴别进行建模;
作为一种优选,利用支持向量机SVM配合主成分分析PCA的方法完成建模;
使用主成分分析PCA算法对输入数据降维,将降维后的数据放入支持向量机分类器,完成分类。
以下实验一验证了降维算法结合SVM分类器的有效性,测试集准确率达到85.7%。
作为一种优选,利用支持向量机SVM配合互信息MI的方法完成建模,求解能够正确划分训练数据集并且几何间隔最大的分离超平面;
利用互信息方法,将各波段按照信息熵值依序排列,选择前K个波段,使用SVM分类器完成分类。
以下实验二验证了互信息结合SVM算法的分类准确率最优,在选择波段数为50时,测试集准确率即达到86.0%。
步骤五,通过支持向量模型计算样本的反射光强度的一系列光谱数据,直接得到分类结果。
实验一,建模方法的选择实验;
1实验材料与设备
1.1血痕样本
收集鸡、鸭、猪、牛、鼠5种动物的血痕样本75份,每种动物的血痕样本15份,动物的血痕样本来自浙江中医药大学和瑞安市畜禽管理中心。收集15名健康志愿者,获取人类血痕样本15份,所有志愿者同意协助完成实验。所有血痕样本不做任何的前处理,取血后24小时内测量,血液滴载玻片表面,静置约2小时,待血液完全凝固后获取其拉曼光谱。实验环境温度为20,℃湿度为40%,载玻片表面血痕如图1所示。
1.2训练集、验证集和测试集的划分
将6类物种,每类物种15个样本分成训练集和测试集。每类物种随机选取10个样本作为训练集,利用训练集样本完成模型的建立和调参。另外5个样本作为测试集,利用测试集数据做最终的模型评价。对每个样本随机选取10个不同的位置获得拉曼光谱数据。最终得到的训练集中有600组拉曼光谱数据,测试集中有300组拉曼光谱数据。
1.3拉曼光谱仪与计算环境
实验采用美国Thermo Fisher公司生产的DXR2xi显微激光拉曼成像光谱仪,拉曼光谱仪具有超低暗噪声,单光子信号探测器等优势。计算机环境为Intel(R)Core(TM)i5-5200U CPU@2.2GHz,RAM:12.0GB,64位操作系统。
1.4拉曼光谱数据的获取与校正
利用拉曼光谱仪获取血痕的拉曼光谱,实验考查了不同的激发波长、物镜倍数、激光强度、曝光时间、扫描次数等采集参数,综合比较对样本的破坏、荧光干扰、拉曼信号信噪比、实验效率等方面。实验选择633nm激光作为激发光源,采用10x物镜聚,激光强度为3.0mW,曝光时间为0.2秒,扫描次数为100次,采集后的拉曼光谱的的信噪比约40。显微镜下的血痕影像如图3所示。人血的1组拉曼光谱数据如图4所示。
根据图4所示,血痕的拉曼光谱有较严重的基线漂移和噪声干扰的情况,实验采用迭代自适应加权惩罚最小二乘法校正基线漂移,使用S-G平滑滤波[20]实现降噪处理,经过基线校正和降噪后的人血拉曼光谱为图5所示。
根据图5可以发现,血痕的拉曼光谱特征峰主要出现100cm-1到1700cm-1之间,以及2900cm-1左右,2900cm-1的特征峰可能是由于设备系统噪声所致,所以,实验选取100cm-1到1700cm-1这个波段进行测试研究,共830个波段,选取后的拉曼光谱曲线如图6。人类和其他物种血痕的平均拉曼光谱如图7所示。
2实验与结果
常用的拉曼光谱技术对血液的种属鉴别的建模方法有两种。一种是PCA+LDA,即使用主成分分析(PCA)方法将光谱数据降维后,利用线性判别分析(LDA)模型进行分类。另一种是使用偏最小二乘判别分析(PLS-DA)模型进行血痕分类。本研究分两部分实验,第一部分实验,建立PCA+LDA、PLS-DA与SVM、PCA+SVM进行对比实验,对比SVM分类方法相对于其他两种方法的准确率,以及PCA降维的效果。第二部分实验,采用三种波段选择方法对拉曼光谱降维,将选择后的波段数据放入SVM分类器中,探讨波段选择方法对分类准确率的影响。
2.1分类方法实验
3.1.1主成分分析
2.2主成分分析(Principal ComponentAanalysi,PCA)通过线型变换将原数据映射到新的坐标系统中,使得映射后的第一个坐标上的方差最大(即第一主成分),第二个坐标上的方差第二大(第二主成分),以此类推。实验利用PCA算法对原数据进行降维,所保留的10个主成分,前10个主成分的贡献率达到85.0%。
3.1.2线性判别分析
线性判别分析(Linear Discriminant Analysis,LDA)是一种多元线性学习方法,思路是将数据投影到一条直线上,使不同类数据的投影之间的距离尽量远,且同类数据的投影之间的距离尽量近。LDA方法的前提假设是,各类数据的均值不同,且每类样本数据为单峰高斯分布。
3.1.3偏最小二乘判别分析
偏最小二乘判别分析(Partial least squares Discriminant Analysis,PLS-DA)是一种用于多元判别分析方法,它结合了主成分分析和多元线性回归的思想,适用于样本少、特征多,且特征变量之间存在多重共线性的情况。实验通过十折交叉验证,对参与建模的前K个主成分做判别分析并计算准确率。
3.1.4支持向量机
SVM利用核函数把样本从低维空间映射到高维空间,寻找最优超平面将特征空间划分开。只有少量的支持向量在SVM分类中起决定作用,不仅避免了“维数灾难”问题,也使SVM算法鲁棒性更强。因此,SVM算法适用于小样本、高维度的拉曼光谱数据问题。SVM分类模型有两个重要的参数C和gamma。C是惩罚系数,表达了对误差的宽容度。gamma主要是对低维的样本进行高度度映射,gamma值越大映射的维度越高,训练的结果越好,但是越容易引起过拟合。实验通过网格搜索的方法确定最佳的C和gamma组合,如图8所示,结果为C=100,gamma=0.001。
表1五种分类方法在训练集和测试集的准确率
3.1.5实验结论
血痕的在不同的分类方法下的结果如表1所示,SVM方法在训练集数据中表现出最高的准确率,达到92.3%,在测试集数据中其准确率有大幅下降。PCA+SVM方法在测试集中的准确率最高,达85.7%。通过表1可以发现,LDA的准确率最低,可能的原因是血痕的拉曼光谱数据存在严重的共线性问题。另外,通过PCA降维后,LDA和SVM算法在测试集中的准确率都有所提高,可以说PCA降维对于测试准确率的提高有一定的帮助。另一方面,不论是训练集还是测试集,SVM算法的准确率相对于LDA和PLS-DA都更高。因此,相对于传统的分类方法,SVM分类器是更优的选择。
实验二,波段选择和波段选择方法的对比实验;
除了特征提取之外,波段选择也是一种重要的降维方法。波段选择目的在于从原始波段集合中选择若干波段构成一个子集,这个子集是一个信息量较大、相关性较小、类别可分性较好的波段组合,使得后续分析的性能高于或不低于使用原始全部波段得到的结果。其特点在于剔除了冗余波段后,剩余波段保留了原来物理特性,相对与PCA算法而言,波段选择方法的可解释性强,可以提高计算准确率和效率,增强算法的鲁棒性。波段选择的关键在于定义何种测度指标作为目标函数,滤波器型波段选择方法(Filter approach)采用一个独立于后续分类器的信息测度作为目标函数,如:互信息、JM距离、稀疏条件随机场等。封装型波段选择方法(Wrapper approach)则利用一个给定分类器的分类性能进行波段选择,比如:遗传算法、粒子群优化算法等。
2.1互信息法
互信息(Mutual Information,MI)度量了两个随机变量之间的统计依赖关系,因此可以用来评估每个波段对分类的相对效用。相对于单独使用信息熵来说,互信息搭起了波段信息与实际目标之间的关系。计算每一个波段与类别信息之间的互信息值,然后对波段的互信息进行降序排列,选择出互信息值最大的前K个波段,组成波段子集。
I(A,B)=H(A)+H(B)-H(A,B) (1)
I(A,B)即为A和B的互信息值,H(A)为A的信息熵。
2.2遗传算法
遗传算法(Genetic Algorithm,GA)是一种模拟生物遗传机理的模型,通过适者生存的方式寻找最优解的方法。从一个随机的种群开始,逐代演化出更近似的解。在每一代,依据对问题的适应性来选择个体,然后个体之间进行交叉和变异产生新的种群。遗传算法可以让被选择的波段子集像自然进化一样越来越靠近最优组合,最后一代即可以作为最佳波段子集。本实验中遗传算法主要参数:变异概率2%,迭代次数150次,种群个体数为200。
2.3等间隔组合法
等间隔组合法(Equidistant Combination,EC)不是严格意义上的波段选择算法,它本质上是降低了光谱的分辨率,达到波段选择的目的。其主要思想是在一定光谱范围内以相同的间隔提取波段。等间隔组合方法的参数包括以下三个:起始波长(B)、波长个数(N)、相邻波长点之间的间隔数(G),三个参数的范围都不是固定不变的,它们都可以根据研究对象的实际情况设定取值范围。不同的参数(B、N、G)组合,运行所得到的效果也不相同。比如(101,200,5)的波段数为20。本实验中,B、N、G不同,但波段数相同的,取准确率最高者。
2.4实验结论
在取不同的波段数量的情况下,采用SVM分类器,三种波段选择方法10折交叉验证的准确率表现如图9所示。在取25个波段时,互信息法准确率不高,可是随着波段的数量增加,互信息法所选择的波段准确率提升较快,并且在150个波段后保持稳定,且整体准确率较高。在波段选择为300时,遗传算法、等间隔组合算法与互信息法的准确率接近,达到93%左右。
在选择波段的数量为50时,互信息法、遗传算法、等间距组合法在训练集准确率为88.8%、88.3%和86.8%,已达到PCA+SVM方法的相近的水平。根据训练集中确定的最优光谱波段,同样的选取测试集中对应的50个波段组合,并放入SVM分类器中验证方法的可靠性,结合PCA+SVM和PLS-DA,结果对比如图10所示。
相对于其他两种波段选择方法,采用互信息法过滤得到的50个波段组合,在训练集和测试集准确率都是最高的,分别达到88.8%和86.0%。在测试集数据中,MI+SVM算法的分类结果高于PCA+SVM。另外,从图10中可以发现,采用波段选择降维方法,训练集准确率与测试集准确率之差更小,即测试集的准确率下降最少,也代表了采用波段选择降维方法的适应性更好。主要原因是波段选择方法排除了冗余的干扰波段的影响,其表现更加稳定。
2.5最优波段组合的解释
根据图9,在最优波段数量为25时,分类准确率达到了80%以上。图11表示了互信息法所得到的最优的25个拉曼波段组合,红色的线段代表了所选择的波段。25个波段主要集中在755cm-1、1230cm-1、1560cm-1附近。其中可知的是1230cm-1是C=S键引起的,1560cm-1是C=C或N=N键引起的[28]。这三个峰位主要是某些蛋白质氨基酸所对应的拉曼光谱,说明不同物种血液中氨基酸的多样性可以通过其拉曼光谱反映出来,尤为突出的是苯丙氨酸、络氨酸及色氨酸等[29]。根据文献[30]的报道,物种血液中核酸碱基含量的差异,也会使拉曼谱峰相对强度改变。
综上所述,在血痕种属鉴别方面,以SVM算法作为拉曼光谱数据的分类器,相对于LDA和PLS-DA分类器的准确率更高。波段选择降维方法应用于血痕拉曼光谱鉴别充分体现出其有效性。通过互信息法过滤得到的最佳波段组合,再利用SVM算法分类,其在验证集和测试集准确率都较高的;PCA+SVM算法的分类结果略低于MI+SVM;各个算法的搭配是具有协同作用的,配合使用达到的效果能够同时提高验证集和测试集准确率,具有意想不到的效果。在选择50个波段时,分别达到88.8%和86.0%。波段选择可以简化拉曼光谱系统,使该技术应用于刑事技术、海关检疫等方面更加快捷和经济。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (9)
1.一种便携式血痕识别仪,其特征在于,包括:633nm的激光光源,将小于等于633nm的光阻挡的截至型滤光镜滤光片,将大于633nm的非弹性反射光分光的棱镜,将光信号采集记录下来的CCD检测器。
2.根据权利要求1所述的一种便携式血痕识别仪,其特征在于,所述CCD检测器的前方放置有光电倍增管。
3.根据权利要求1所述的一种便携式血痕识别仪,其特征在于,所述CCD检测器选择波段的数量为50个波段。
4.根据权利要求3所述的一种便携式血痕识别仪,其特征在于,所述50个波段在755cm-1,1230cm-1,1560cm-1位置。
5.一种便携式血痕识别仪的鉴别方法,其特征在于,包括如下步骤:
步骤一,将动物血液样本经过633nm的激光光源,经过截至型滤光镜滤光片、棱镜,由CCD检测器将光信号采集记录下来;
步骤二,获得反射光谱数据后,完成数据的降噪,降噪的方法采用Savitzky-Golay卷积平滑算法;
数学表达式为:
步骤三,对数据完成全局标准化,方法是Min-Max normalization;
数学表达式为:
其中,yi是标准化后的数据,Xi是标准化前的数据,minX和maxX分别是标准化前数据的最小值和最大值;
步骤四,利用支持向量机SVM的方法对血液的种属鉴别进行建模;
步骤五,通过支持向量模型计算样本的反射光强度的一系列光谱数据,直接得到分类结果。
6.根据权利要求5所述的一种便携式血痕识别仪的鉴别方法,其特征在于,
步骤一,将动物血液样本经过633nm的激光光源,经过截至型滤光镜滤光片、棱镜,由CCD检测器采集血25个波段的反射光强度数据;25个波段在755cm-1,1230cm-1,1560cm-1位置。
7.根据权利要求5所述的一种便携式血痕识别仪的鉴别方法,其特征在于,
步骤一,将动物血液样本经过633nm的激光光源,经过截至型滤光镜滤光片、棱镜,由CCD检测器采集血50个波段的反射光强度数据;50个波段在755cm-1,1230cm-1,1560cm-1位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011008431.4A CN112014378A (zh) | 2020-09-23 | 2020-09-23 | 一种便携式血痕识别仪及其鉴别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011008431.4A CN112014378A (zh) | 2020-09-23 | 2020-09-23 | 一种便携式血痕识别仪及其鉴别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112014378A true CN112014378A (zh) | 2020-12-01 |
Family
ID=73522127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011008431.4A Pending CN112014378A (zh) | 2020-09-23 | 2020-09-23 | 一种便携式血痕识别仪及其鉴别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112014378A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106645079A (zh) * | 2016-09-30 | 2017-05-10 | 福建师范大学 | 一种基于红细胞光镊拉曼光谱技术的人体血型鉴别方法 |
CN109144028A (zh) * | 2018-07-17 | 2019-01-04 | 浙江工业大学 | 一种精馏塔能效退化检测方法 |
CN109670434A (zh) * | 2018-12-13 | 2019-04-23 | 南京理工大学 | 基于无线信道状态信息的坐姿时长检测方法 |
CN109765214A (zh) * | 2019-03-29 | 2019-05-17 | 北京中科遗传与生殖医学研究院有限责任公司 | 基于表面增强拉曼光谱的不孕不育患者血清的检测方法 |
CN110298396A (zh) * | 2019-06-25 | 2019-10-01 | 北京工业大学 | 基于深度学习多特征融合的高光谱图像分类方法 |
CN110320197A (zh) * | 2018-03-31 | 2019-10-11 | 重庆大学 | 基于Raman光谱分析的微小型拉曼血液专用分析仪 |
-
2020
- 2020-09-23 CN CN202011008431.4A patent/CN112014378A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106645079A (zh) * | 2016-09-30 | 2017-05-10 | 福建师范大学 | 一种基于红细胞光镊拉曼光谱技术的人体血型鉴别方法 |
CN110320197A (zh) * | 2018-03-31 | 2019-10-11 | 重庆大学 | 基于Raman光谱分析的微小型拉曼血液专用分析仪 |
CN109144028A (zh) * | 2018-07-17 | 2019-01-04 | 浙江工业大学 | 一种精馏塔能效退化检测方法 |
CN109670434A (zh) * | 2018-12-13 | 2019-04-23 | 南京理工大学 | 基于无线信道状态信息的坐姿时长检测方法 |
CN109765214A (zh) * | 2019-03-29 | 2019-05-17 | 北京中科遗传与生殖医学研究院有限责任公司 | 基于表面增强拉曼光谱的不孕不育患者血清的检测方法 |
CN110298396A (zh) * | 2019-06-25 | 2019-10-01 | 北京工业大学 | 基于深度学习多特征融合的高光谱图像分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pilling et al. | High-throughput quantum cascade laser (QCL) spectral histopathology: a practical approach towards clinical translation | |
JP6333326B2 (ja) | スペクトルイメージングによる生体試料の分析方法 | |
Kolhar et al. | Plant trait estimation and classification studies in plant phenotyping using machine vision–A review | |
US10043054B2 (en) | Methods and systems for classifying biological samples, including optimization of analyses and use of correlation | |
US7689023B2 (en) | Color unmixing and region of interest detection in tissue samples | |
Bhargava | Towards a practical Fourier transform infrared chemical imaging protocol for cancer histopathology | |
Zhao et al. | Detection of fungus infection on petals of rapeseed (Brassica napus L.) using NIR hyperspectral imaging | |
CN110717368A (zh) | 一种纺织品定性分类方法 | |
CN109858477A (zh) | 用深度森林在复杂环境中识别目标物的拉曼光谱分析方法 | |
CN110346312A (zh) | 基于费氏线性判别和支持向量机技术的冬小麦穗赤霉病识别方法 | |
Kumar et al. | Deep remote sensing methods for methane detection in overhead hyperspectral imagery | |
CN107679569A (zh) | 基于自适应超图算法的拉曼光谱物质自动识别方法 | |
CN113008817A (zh) | 一种基于高光谱成像技术快速鉴别苦杏仁真伪优劣的方法 | |
CN112712108A (zh) | 一种拉曼光谱多元数据分析方法 | |
CN115905881B (zh) | 黄珍珠分类的方法以及装置、电子设备、存储介质 | |
CN114399674A (zh) | 一种基于高光谱图像技术的贝类毒素无损快速检测方法及系统 | |
CN108827909B (zh) | 基于可见近红外光谱与多目标融合的土壤快速分类方法 | |
CN113310934A (zh) | 骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法 | |
Wang et al. | SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging | |
Cai et al. | Deep metric learning framework combined with Gramian angular difference field image generation for Raman spectra classification based on a handheld Raman spectrometer | |
CN112014378A (zh) | 一种便携式血痕识别仪及其鉴别方法 | |
Liu et al. | A modified feature fusion method for distinguishing seed strains using hyperspectral data | |
Huang et al. | Robust and Accurate Classification of Mutton Adulteration Under Food Additives Effect Based on Multi-Part Depth Fusion Features and Optimized Support Vector Machine | |
CN109190713A (zh) | 基于血清质谱自适应稀疏特征选择的卵巢癌微创快检技术 | |
An et al. | Classification of wheat powdery mildew based on hyperspectral: From leaves to canopy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201201 |