CN110286094B - 一种基于聚类分析的光谱模型转移方法 - Google Patents

一种基于聚类分析的光谱模型转移方法 Download PDF

Info

Publication number
CN110286094B
CN110286094B CN201910650670.0A CN201910650670A CN110286094B CN 110286094 B CN110286094 B CN 110286094B CN 201910650670 A CN201910650670 A CN 201910650670A CN 110286094 B CN110286094 B CN 110286094B
Authority
CN
China
Prior art keywords
sample
samples
spectrum
distance
cluster analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910650670.0A
Other languages
English (en)
Other versions
CN110286094A (zh
Inventor
范萍萍
刘杰
任国兴
侯广利
吕美蓉
李雪莹
刘岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Oceanographic Instrumentation Shandong Academy of Sciences
Original Assignee
Institute of Oceanographic Instrumentation Shandong Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Oceanographic Instrumentation Shandong Academy of Sciences filed Critical Institute of Oceanographic Instrumentation Shandong Academy of Sciences
Priority to CN201910650670.0A priority Critical patent/CN110286094B/zh
Publication of CN110286094A publication Critical patent/CN110286094A/zh
Application granted granted Critical
Publication of CN110286094B publication Critical patent/CN110286094B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Genetics & Genomics (AREA)
  • Geometry (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种基于聚类分析的光谱模型转移方法,包括以下步骤:(1)样品分类,采用密度聚类算法,按照样品光谱间的密度距离,对样品进行聚类分析,从而对样品进行分类;(2)光谱建模,根据聚类分析结果,针对同类样品分别建立光谱模型;(3)自动模型转移,对于待测样品,采集其光谱,根据步骤(1)的方法对其进行聚类分析,判定其所属类别,从而确定所属的光谱模型;按照样品所属的光谱模型,进行样品速测,自动完成模型转移。本发明所公开的方法可以快速高效完成光谱模型转移,能够用于仪器自动校准,真正实现样品速测,并保证测量准确性。

Description

一种基于聚类分析的光谱模型转移方法
技术领域
本发明涉及一种光谱模型转移方法,特别涉及一种基于聚类分析的光谱模型转移方法。
背景技术
光谱分析技术因其具有分析速度快、多参数同时测定、样品不需要预处理或简单的预处理、实时、低成本和操作简单等特点,被广泛应用于地质、冶金、石油、化工、农业、医药、生物化学、环境保护等许多方面。然而,这些应用仅限于同类样品内部,极大限制了该技术使用的深度。
要把一类样品的光谱模型应用于他类样品,必须进行模型转移。以往模型转移方法分为两类:有标方法和无标方法。其中,有标方法使用小规模的标样集重新定标(建模),程序繁琐耗时,效果较好;无标方法完全依赖化学计量学方法,程序简单,效果较差。但是,无论有标方法还是无标方法,都需要设立主样品和从样品,利用主样品和一部分从样品重新建立新的光谱模型,从而较好的保证从样品的预测准确度。这意味着,在用主样品的光谱模型之前,需要先了解从样品,即需要测定一部分代表性的从样品的化学及其光谱数据,而前者是个繁琐耗时的过程。因此,已有的模型转移并未实现真正意义上的速测。
发明内容
为解决上述技术问题,本发明提供了一种基于聚类分析的光谱模型转移方法,以达到快速进行光谱模型转移,实现样品速测,保证测量准确性的目的。
为达到上述目的,本发明的技术方案如下:
一种基于聚类分析的光谱模型转移方法,包括以下步骤:
(1)样品分类,采用密度聚类算法,按照样品光谱间的密度距离,对样品进行聚类分析,从而对样品进行分类;
(2)光谱建模,根据聚类分析结果,针对同类样品分别建立光谱模型;
(3)自动模型转移,对于待测样品,采集其光谱,根据步骤(1)的方法对其进行聚类分析,判定其所属类别,从而确定所属的光谱模型;按照样品所属的光谱模型,进行样品速测,自动完成模型转移。
上述方案中,所述步骤(1)的聚类分析方法具体如下:
设有N个样本,样本光谱集合
Figure BDA0002135079360000021
xi为样本光谱,i是样本标号,i属于Is,IS={1,2,…,N};
1)计算所有样本两两光谱间的欧氏距离dij=dist(xi,xj),j为样本标号,j属于Is,IS={1,2,…,N};
2)确定截断距离dc,将所有dij进行升序排列,取第2%个dij作为dc
3)对每个样本的光谱xi,计算两个量ρi和δi
①第i个样本的局部密度距离ρi
Figure BDA0002135079360000022
与xi的距离小于dc的样本越多,ρi值越大;
②第i个样本的相对局部密度距离δi
对所有的ρi进行降序排列ρq1≥ρq2≥…≥ρqN,q代表ρi的标号;
Figure BDA0002135079360000023
有样本局部密度比i大时,求密度比i大的样本和i之间的欧氏距离,选其最小值作为δi
i的局部密度为最大时,选其他所有样本和i之间的最大欧氏距离作为δi
4)根据(ρii)画决策图,根据决策图,选择局部密度距离ρ和相对局部密度距离δ同时很大,且偏离其他样本的样本点作为聚类中心;
5)对非聚类中心的样本进行归类:
①从大到小遍历所有非聚类中心的ρi,计算该样本和所有聚类中心的欧氏距离,选择距离最小的归为同一类;
②划分中心元素和光晕元素,
对每一个聚类中心生成一个局部密度的边界
Figure BDA0002135079360000024
边界区域的含义:本身属于第ci个聚类,但在与其距离不超过dc的范围内有另一个聚类的样本点;
6)对归类好的样本进行多维缩放,使用不同形状代表不同的聚类。
上述方案中,所述步骤(2)的建立光谱模型的方法如下:
先利用多元散射校正和标准正态变换手段对光谱进行前处理,然后,通过续投影算法、遗传算法、无信息变量消除法提取特征光谱,然后利用基于x-y距离结合的样本划分方法划分建模集和预测集,最后,利用最小二乘-支持向量机方法建立光谱模型。
通过上述技术方案,本发明提供的基于聚类分析的光谱模型转移方法具有如下有益效果:
1)能够快速高效地解决几乎所有模型转移问题,真正实现光谱速测,从根本上扫除了光谱速测技术在复杂体系应用受限的关键技术瓶颈。
2)省却了以往通过设立主样品和从样品实现模型转移的繁琐过程,能够实现机器自动校准,保证了仪器的稳定性和精度,为原位/在线监测设备的开发提供了必要条件。
3)相比旧方法,新方法的模型转移效果得到了更大的提高,所测结果的误差更小。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明提出的一种基于聚类分析的光谱模型转移方法的原理图;
图2为本发明实施例采集的青岛浮山、枣山和李村河底土壤的总碳含量;
图3为本发明实施例采集的青岛浮山、枣山和李村河底土壤的可见-近红外反射光谱;
图4为本发明实施例的决策图;
图5为本发明实施例采集的青岛浮山、枣山和李村河底土壤的聚类结果;
图6为本发明实施例采集的青岛浮山、枣山和李村河底土壤的建模结果;
图7为样品速测结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供了一种基于聚类分析的光谱模型转移方法,如图1所示的原理图,包括如下过程:首先建立总样本,采集总样品中每个样品的光谱建模集,然后对样品的光谱进行聚类分析,建立一个一个的子集,再对每一个子集分别建立光谱模型,对于要测样品进行聚类分析,判断其属于哪一类别,然后按照所属类别的光谱模型进行分析,输出结果。
本发明实施例采集了青岛浮山、枣山和李村河底的土壤各60个,烘干后,研磨过0.5mm筛;通过元素分析仪测定总碳含量。土壤总碳含量分布如图2所示,分布范围为g/kg,均值为g/kg。
同时,用海洋光学QE65000光谱仪,配置DH-2000光源,通过定制Y型光纤测定了这些土壤样品在226-975nm的反射光谱,如图3所示。然后按照如下过程进行模型转移与速测:
一、样品分类,采用密度聚类算法,按照样品光谱间的密度距离,对样品进行聚类分析,从而对样品进行分类,具体如下:
设有N个样本,样本光谱集合
Figure BDA0002135079360000041
xi为样本光谱,i是样本标号,i属于Is,IS={1,2,…,N};
1)计算所有样本两两光谱间的欧氏距离dij=dist(xi,xj),j为样本标号,j属于Is,IS={1,2,…,N};
2)确定截断距离dc,将所有dij进行升序排列,取第2%个dij作为dc
3)对每个样本的光谱xi,计算两个量ρi和δi
①第i个样本的局部密度距离ρi
Figure BDA0002135079360000042
与xi的距离小于dc的样本越多,ρi值越大;
②第i个样本的相对局部密度距离δi
对所有的ρi进行降序排列ρq1≥ρq2≥…≥ρqN,q代表ρi的标号;
Figure BDA0002135079360000043
有样本局部密度比i大时,求密度比i大的样本和i之间的欧氏距离,选其最小值作为δi
i的局部密度为最大时,选其他所有样本和i之间的最大欧氏距离作为δi
4)根据(ρii)画决策图,根据决策图,选择局部密度距离ρ和相对局部密度距离δ同时很大,且偏离其他样本的样本点作为聚类中心;
5)对非聚类中心的样本进行归类:
①从大到小遍历所有非聚类中心的ρi,计算该样本和所有聚类中心的欧氏距离,选择距离最小的归为同一类;
②划分中心元素和光晕元素,
对每一个聚类中心生成一个局部密度的边界
Figure BDA0002135079360000051
边界区域的含义:本身属于第ci个聚类,但在与其距离不超过dc的范围内有另一个聚类的样本点;
中心元素:
Figure BDA0002135079360000052
光晕元素:
Figure BDA0002135079360000053
Figure BDA0002135079360000061
6)对归类好的样本进行多维缩放,使用不同形状代表不同的聚类,结果如图5所示。
二、光谱建模,根据聚类分析结果,针对同类样品分别建立光谱模型;
先利用多元散射校正和标准正态变换手段对光谱进行前处理,然后,通过续投影算法、遗传算法、无信息变量消除法提取特征光谱,然后利用基于x-y距离结合的样本划分方法划分建模集和预测集,最后,利用最小二乘-支持向量机方法建立光谱模型,结果如图6所示。光谱模型的r2达0.995以上,相对分析误差RPD在3.7以上,显示光谱模型的预测能力极高。
三、自动模型转移,随意给定一批样品,采集其光谱,根据步骤一的方法对其进行聚类分析,判定其所属类别,从而确定所属的光谱模型;按照样品所属的光谱模型,进行样品速测,自动完成模型转移,测试结果如图7所示。
本发明的方法相比已有模型转移方法,极大降低了相对误差,如表1所示。
表1本发明与现有方法的模型转移效果的比较
模型转移方法 最大相对误差(%) 平均相对误差(%)
本发明 11.6 5.0
现有方法PDS-S/B 24.0 6.1
现有方法WMPDS-S/B 15.4 6.1
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (2)

1.一种基于聚类分析的光谱模型转移方法,其特征在于,包括以下步骤:
(1)样品分类,采用密度聚类算法,按照样品光谱间的密度距离,对样品进行聚类分析,从而对样品进行分类;
(2)光谱建模,根据聚类分析结果,针对同类样品分别建立光谱模型;
(3)自动模型转移,对于待测样品,采集其光谱,根据步骤(1)的方法对其进行聚类分析,判定其所属类别,从而确定所属的光谱模型;按照样品所属的光谱模型,进行样品速测,自动完成模型转移;
所述步骤(1)的聚类分析方法具体如下:
设有N个样本,样本光谱集合
Figure FDA0003499039100000011
xi为样本光谱,i是样本标号,i属于Is,IS={1,2,…,N};
1)计算所有样本两两光谱间的欧氏距离dij=dist(xi,xj),j为样本标号,j属于Is,IS={1,2,…,N};
2)确定截断距离dc,将所有dij进行升序排列,取第2%个dij作为dc
3)对每个样本的光谱xi,计算两个量ρi和δi
①第i个样本的局部密度距离ρi
Figure FDA0003499039100000012
与xi的距离小于dc的样本越多,ρi值越大;
②第i个样本的相对局部密度距离δi
对所有的ρi进行降序排列ρq1≥ρq2≥…≥ρqN,q代表ρi的标号;
Figure FDA0003499039100000013
有样本局部密度比第i个样本的局部密度大时,求局部密度比第i个样本大的样本和第i个样本之间的欧氏距离,选其最小值作为δi
第i个样本的局部密度为最大时,选其他所有样本和第i个样本之间的最大欧氏距离作为δi
4)根据(ρii)画决策图,根据决策图,选择局部密度距离ρ和相对局部密度距离δ同时很大,且偏离其他样本的样本点作为聚类中心;
5)对非聚类中心的样本进行归类:
①从大到小遍历所有非聚类中心的ρi,计算该样本和所有聚类中心的欧氏距离,选择距离最小的归为同一类;
②划分中心元素和光晕元素,
对每一个聚类中心生成一个局部密度的边界
Figure FDA0003499039100000021
边界区域的含义:本身属于第ci个聚类,但在与其距离不超过dc的范围内有另一个聚类的样本点;
6)对归类好的样本进行多维缩放,使用不同形状代表不同的聚类。
2.根据权利要求1所述的一种基于聚类分析的光谱模型转移方法,其特征在于,所述步骤(2)的建立光谱模型的方法如下:
先利用多元散射校正和标准正态变换手段对光谱进行前处理,然后,通过续投影算法、遗传算法、无信息变量消除法提取特征光谱,然后利用基于x-y距离结合的样本划分方法划分建模集和预测集,最后,利用最小二乘-支持向量机方法建立光谱模型。
CN201910650670.0A 2019-07-18 2019-07-18 一种基于聚类分析的光谱模型转移方法 Active CN110286094B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910650670.0A CN110286094B (zh) 2019-07-18 2019-07-18 一种基于聚类分析的光谱模型转移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910650670.0A CN110286094B (zh) 2019-07-18 2019-07-18 一种基于聚类分析的光谱模型转移方法

Publications (2)

Publication Number Publication Date
CN110286094A CN110286094A (zh) 2019-09-27
CN110286094B true CN110286094B (zh) 2022-04-01

Family

ID=68023267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910650670.0A Active CN110286094B (zh) 2019-07-18 2019-07-18 一种基于聚类分析的光谱模型转移方法

Country Status (1)

Country Link
CN (1) CN110286094B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6864978B1 (en) * 1999-07-22 2005-03-08 Sensys Medical, Inc. Method of characterizing spectrometer instruments and providing calibration models to compensate for instrument variation
KR101592220B1 (ko) * 2015-03-26 2016-02-11 단국대학교 산학협력단 예측적 군집화 기반 협업 필터링 장치 및 방법
CN106645009B (zh) * 2016-11-07 2019-08-09 江南大学 基于近红外光谱分析技术的青霉素发酵生产过程多模型监控系统
CN106777984B (zh) * 2016-12-19 2019-02-22 福州大学 一种基于密度聚类算法实现光伏阵列工作状态分析与故障诊断的方法
CN108280472A (zh) * 2018-01-18 2018-07-13 安徽师范大学 一种基于局部密度和聚类中心优化的密度峰聚类方法
CN108896490B (zh) * 2018-06-06 2021-10-01 众安信息技术服务有限公司 肉块同源关系验证方法及装置

Also Published As

Publication number Publication date
CN110286094A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN109977808B (zh) 一种晶圆表面缺陷模式检测与分析方法
CN110245802B (zh) 基于改进梯度提升决策树的卷烟空头率预测方法及系统
CN110737874B (zh) 一种基于空间关系的流域水质监测异常值检测方法
CN102282654B (zh) 蚀刻装置、分析装置、蚀刻处理方法、以及蚀刻处理程序
CN108844941B (zh) 一种基于拉曼光谱和pca-hca的不同品位磷矿的鉴别和分类方法
CN109557080B (zh) 一种基于机器学习的光谱数据回归方法
CN104374739A (zh) 一种基于近红外定性分析的种子品种真实性鉴别方法
CN113191399B (zh) 一种基于机器学习分类器提高半导体芯片良品率的方法
CN102072767A (zh) 基于波长相似性共识回归红外光谱定量分析方法和装置
CN105699319A (zh) 一种基于高斯过程的近红外光谱煤全水分快速检测方法
CN115420707A (zh) 一种污水近红外光谱的化学需氧量评估方法及系统
CN105486661A (zh) 一种基于高斯过程的近红外光谱煤灰分快速检测方法
CN108537249B (zh) 一种密度峰值聚类的工业过程数据聚类方法
CN110286094B (zh) 一种基于聚类分析的光谱模型转移方法
CN104990891A (zh) 一种种子近红外光谱和光谱图像定性分析模型建立方法
CN111337452A (zh) 一种验证光谱数据模型转移算法可行性的方法
CN116952895A (zh) 一种快速测定混合均匀度的方法
CN111401794A (zh) 一种基于近红外光谱的饲料品质控制方法
CN116519661A (zh) 一种基于卷积神经网络的大米识别检测方法
CN107664621A (zh) 异常样本识别方法、系统、服务器及电子设备
US20220317069A1 (en) Method and system for classification of samples
CN113567417A (zh) 一种基于拉曼光谱指纹分析技术鉴别花生油产地的方法
CN109829513B (zh) 一种顺序式波长色散x射线荧光光谱智能分析方法
CN110188735A (zh) 一种基于高光谱的入侵植物识别方法
CN118294407B (zh) 一种近红外光谱建模样本筛选方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant