CN111426657A - 一种溶解性有机物三维荧光谱图的识别比对方法 - Google Patents

一种溶解性有机物三维荧光谱图的识别比对方法 Download PDF

Info

Publication number
CN111426657A
CN111426657A CN201910023685.4A CN201910023685A CN111426657A CN 111426657 A CN111426657 A CN 111426657A CN 201910023685 A CN201910023685 A CN 201910023685A CN 111426657 A CN111426657 A CN 111426657A
Authority
CN
China
Prior art keywords
sample
fluorescence spectrum
cosine
data
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910023685.4A
Other languages
English (en)
Other versions
CN111426657B (zh
Inventor
何鹰
魏峨尊
王南达
高贝贝
李京都
王欣
刘璐
宋宗东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hua Xia An Jian Wu Lian Technology Qingdao Co ltd
Original Assignee
China Anjian Detection Evaluation Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Anjian Detection Evaluation Technology Service Co ltd filed Critical China Anjian Detection Evaluation Technology Service Co ltd
Priority to CN201910023685.4A priority Critical patent/CN111426657B/zh
Publication of CN111426657A publication Critical patent/CN111426657A/zh
Application granted granted Critical
Publication of CN111426657B publication Critical patent/CN111426657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/6402Atomic fluorescence; Laser induced fluorescence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/20Controlling water pollution; Waste water treatment

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Optics & Photonics (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

本发明提供对溶解性有机物三维荧光谱图的识别方法,在溶解性有机物荧光光谱数据库样本比对时,使数据库建设与比对同时进行,自动完善更新等扩充功能,提高了被测样品识别。将被测样品荧光光谱数据进行必要数据处理,即可与参照比对数据库中样本进行相似度计算与匹配,从而获得快速准确的识别判别。对样本峰位置坐标和峰强度信息的识别,建立概率神经网络,结合贝耶斯理论,实现对样本的聚类分类和判别。根据被测样品荧光数据矩阵,进行余弦系数的计算,得到最大匹配度和综合相似度系数指标,形成谱图识别信息。经平行因子解析获得的荧光光谱数据和各组分荧光光谱数据,分别进行余弦相似度系数的计算,从而达到对样本的进一步分类和识别信息。

Description

一种溶解性有机物三维荧光谱图的识别比对方法
【技术领域】
本发明涉及环境科学、食品饮料、中医药材、光谱学等领域,具体为一种水环境中溶解性有机物三维荧光谱图的识别比对方法。
【背景技术】
近年来,随着荧光光度计的发展,具有激发波长扫描和发射波长扫描功能的荧光光谱仪日益普及,由这类荧光光谱仪扫描获得的三维荧光光谱已在多个领域获得应用,如在石油产品开发和油井钻探分类、药物合成与杂质鉴别、中药材道地性鉴别、白酒茶叶类等饮品检测、医学检验、农药残留等。为弥补现有水环境下监测技术与检测技术参数的不足,本发明提供了一种水环境中溶解性有机物荧光光谱谱图的识别比对方法。
每一种荧光物质,都有其特有的荧光光谱信息,荧光检测同时具有较高的灵敏度和选择性,因而获得广泛应用。然而,仅依靠一张由激发波长、发射波长和荧光强度投影组成的等高线荧光光谱,以期得到全面准确的溶解性有机物的识别与判别信息难度极高。这是因为,对于一个复杂的混合体系来说,通过扫描获得的荧光光谱是这个混合体系各个成分之间相互影响彼此消长的综合结果,所以人们需要一种方法,不仅可以对单纯组分体系、多组分混合体系溶解性有机物三维荧光光谱图进行识别,还可以根据组成谱图的数据信息与已有的标准或参比信息进行比对,完成诸如分类、鉴别、比对和溯源的任务。目前国内外常用的荧光光谱识别方法是利用平行因子分析法、偏最小二乘法、交替三线性分解法、非负矩阵因子分解法等对荧光光谱进行解析,获取多组分荧光信息,然后建立识别方法。但如何利用光谱解析方法对不同时间或不同方式获得的荧光光谱进行自动有效的识别和比对尚缺乏可靠的科学方法。一些识别方法仅靠荧光光谱的峰位置和峰强度的关系进行判别比对;还有一些识别方法通过多维分析算法分解出的两个二维荧光光谱的特征峰和波形特征参数,通过构造综合相似度指数进行混合三维荧光光谱的成分识别;前者对一些复杂多组分体系,特别是当荧光峰中心位置接近时,单纯地利用峰位置、荧光强度等所谓的特征参数对样品进行识别,具有很大的人为随意性,识别或比对正确率较低;后者由于识别或比对的方法是建立在特定的平行因子法(PARAFAC)基础上,其算法输出结果次序不确定,亦可造成识别或比对的误判。实践中,人们更需要对自己工作范围或感兴趣的水环境样品进行识别和比对,例如,不同品牌的白酒具有各不相同的三维荧光光谱,同种品牌的白酒由于生产工艺、储存时间的不同,其荧光光谱谱图也有差异;同样地,不同地域种植的同种中药材,其水提物的三维荧光光谱不尽相同;污水处理厂或化工园区有时迫切需要知道污水的种类、浓度和来源。因此,利用三维荧光光谱谱图和数据快速进行白酒、中药材的真伪识别与判别,对环境水质监测、检测与溯源具有十分重要的意义。
【发明内容】
本发明的目的在于提供一种通过三维荧光光谱对水环境中溶解性有机物识别或判别方法,以期解决利用多维分析算法解析三维荧光光谱时,单纯地对解析后的二维荧光光谱构建相似度指数进行识别而导致的成分识别误判及识别率低的问题。在构建水环境溶解性有机物三维荧光光谱数据库的基础上,根据被测样品荧光数据矩阵建立与数据库各标准样品荧光数据相同矩阵,进行余弦相似度等方法计算,得到最大匹配度和综合相似度系数两个指标,根据最大相似度匹配系数,形成谱图的识别和比对信息,本方法利用计算机完全实现自动识别,不仅可以满足不同用户的快速检测判别比对的需求,而且还可以满足实时在线连续监测预警溯源的技术需求。
为实现上述目的,本发明提供一种通过构建水环境溶解性有机物的三维荧光光谱识别与比对方法,其特征在于,构建参照比对数据库,用于储存各种酒品饮料类、中药材类以及各种水环境溶解性有机物的三维荧光光谱信息,存储已知化学式、结构式等物理化学性质的溶解性有机化合物三维荧光光谱信息;构建三维荧光光谱数据矩阵及扣除干扰峰处理算法,获得扣除瑞丽散射和拉曼散射等干扰的标准三维荧光光谱数据;构建平行因子算法对荧光光谱的解析,获得被测样本荧光光谱及各组分荧光光谱数据;构建三维荧光光谱查询方法,用于对参考比对数据库中各光谱数据提取查询检索信息;构建余弦相似度或调整余弦相似度算法,用于被测样本与库中各样本相似度系数的计算、识别与判别;构建荧光光谱数据提取查询检索信息算法,用于被测样品的识别、比对、分类和溯源;构建文档与数据输出单元,用于输出检测、识别、匹配结果和分析报告。
与现有技术相比,本发明的优点如下:
(1)现有三维荧光光谱的识别比对是建立在平行因子分析法、偏最小二乘法、交替三线性分解法、非负矩阵因子分解法等解析方法的基础上,通过获得多组分荧光信息,然后建立识别与比对方法。本法根据用户需求目的的不同,可以在三种不同需求的状态下进行样本的识别比对;其中,若仅需比对信息,无需过多的数学解析,仅需对被测样品荧光光谱数据进行空白扣除、干扰消除等基本数据处理整理,即可与参照比对数据库的样本进行相似度系数的计算与匹配,从而获得准确的识别与判别信息,识别与比对正确率高,检测速度快。
(2)本法通过同步构建参照比对数据库的建库和对被测样品荧光光谱的测定,不断自动地扩充参照比对数据库信息,即:当被测样本经过比对不属于本参照比对数据库成员时,自动将该样本加入参照比对数据库,使得参照比对数据库具有自动完善、自动更新等自动扩充功能,提高了对被测样品识别与比对范围。不仅可以对水环境下的水质进行现场实时监测、检测与溯源,而且还可以对中药材水提物、白酒饮品、蔬菜农残、有机药物合成等过程产生的溶解性荧光有机物进行检测识别与比对。
(3)将每一个经过上述处理后的荧光光谱数据的峰位置坐标,如峰1(280,330),峰2(350,450),峰3(410,520)等与荧光强度,如Q1,Q2,Q3等信息构成m×n的矩阵(m表示采集的荧光光谱数量,n表示由峰位置和荧光强度组成的向量),用此方法构建一个具有峰位置坐标和峰值强度等特征的数据库,利用中心位置与权值均采用有监督学习的广义径向基函数神经网络,结合贝耶斯决策理论,构成一个概率神经网络,根据该神经网络所形成的判决曲面与贝耶斯最优准则下的曲面非常接近的特点,实现对被测样本的聚类、分类与判别。
(4)对经过分类后的被测样本,将其荧光光谱数据矩阵分别进行转置前后的余弦系数(包括修正余弦系数)相似度计算,构建相似度系数乘积作为综合相似度系数,并依此作为识别和判别的依据。根据建立的索引,进行查询与匹配,获得被测样本测定结果信息,并将该信息以文本形式输出。该方法由于对样本数据矩阵进行了转置前后的余弦系数的计算,使样本的精确识别与比对得到提高。
(5)本法利用平行因子等算法,对水环境中溶解性有机物荧光光谱进行解析,获得更加精细的三维荧光光谱数据和组成该荧光光谱的各组分三维荧光光谱数据。通过对这些数据矩阵行和列进行的余弦系数计算,得到最大匹配度和综合相似度系数,从而达到对样本的进一步分类和识别信息。
【附图说明】
图1是三维荧光谱图识别比对方法流程图;
图2是扣除干扰后的被测样本S的三维等高线图;
图3是被测样本S组分1的三维等高线图;
图4是被测样本S组分2的三维等高线图;
图5是被测样本S组分3的三维等高线图;
图6是被测样本S组分4的三维等高线图。
【具体实施方案】
1.三维荧光光谱数据矩阵的创建:常见的三维荧光光谱数据的输出格式为*.xlsx,为便于计算,构建数据矩阵时,需要对原输出文件进行整理,指定相关软件需要读入的行和列信息,扣除文件中非数据部分,在软件工作区储存相应的变量名称,如名为OriginalData的结构体,该结构体主要包含OriginalData.Ex、OriginalData.Em、OriginalData.X,即激发波长数据、发射波长数据、荧光强度数据等字段;根据需要还可以在结构体中增加激发波长数目OriginalData.NEx、发射波长数目OriginalData.NEm、被测样本数目OriginalData.NX等字段信息。
2.扣除一二级瑞利散射和拉曼散射的干扰:由于瑞利散射和拉曼散射对三维荧光光谱的解析产生干扰,在进行相关计算时,必须予以扣除,扣除干扰数据后用0或背景值取代。
3.参照比对数据库构建:按照1.和2.方法对采集的各已知来源信息的样本进行扫描和数据处理,并按样本名称或序号储存在指定目录中。如此往复,该参照比对数据库不断扩充和完善。根据建库的目的,可以使该库由已知化合物信息库、行业信息库、企业信息库等构成。
该参照比对数据库所有样本信息,如文件名称、创建日期、序列号、字节数等可以通过dir命令获取,存为变量名称为list结构数组,通过该数组计算可以获得数据库中样本数目,记为Nsamples。通过序号为1到Nsamples,将所有样本的数据文件读入工作区,记为Y,Y为元胞数组,记录着参照比对数据库中每一个样本数据,每一个样本的数据结构为OriginalData.NEx×OriginalData.NEm矩阵。
4.余弦相似度系数的计算:若a和b为两个向量,夹角为θ,则有,
余弦公式为:
Figure BDA0001941702820000041
进一步假设a向量是[x1,y1],b向量是[x2,y2],则上述余弦公式可改写为:
Figure BDA0001941702820000042
已经证明,余弦的这种计算方法,对n维向量仍然成立。即,若A和B是两个n维向量,A是[A1,A2,...,An],B是[B1,B2,...,Bn],则A与B的夹角θ的余弦等于:
Figure BDA0001941702820000043
余弦值cosθ越接近1,表明夹角越接近0度,即两个向量越相似。为了提高或改善识别与比对的准确率,必要时也可以使用修正余弦相似度进行计算。
5.综合相似度系数与相似度判别:将被测样本数据矩阵X与参照比对数据库中Y的每一个样本数据矩阵按每一列进行余弦值cosθ的计算,得到一个以激发波长数和库样本数构成的余弦值数值矩阵(OriginaIData.NEx×Nsamples),字段命名为R1;再将被测样本数据矩阵与参照比对数据库中的每一个样本数据矩阵按每一行进行余弦值cosθ的计算,得到又一个以发射波长数和库样本数构成的余弦值数值矩阵(OriginaIData.NEm×Nsamples),字段命名为R2。
假设余弦值>0.9(根据需要可以更改)为被测样本与参照比对数据库样本的比对限,计算R1中每一个样本余弦值大于0.9的数目,记录文件名称为NPCorrA;计算R2中每一个样本余弦值大于0.9的数目,记录文件名称为NPCorrB;NPCorrA和NPCorrB记录了参照比对样本库中每一个样本与被测样本按行列计算得到的余弦值大于0.9的数目和样本坐标信息。一般来说,库中某个样本的NPCorrA与NPCorrB之和越大,表明与被测样本越相似。因此,NPCorrA与NPCorrB之和最大的样本与被测样本最相似,把NPCorrA与NPCorrB之和命名为最大匹配度;NPCorrA与NPCorrB之和小于等于OriginalData.NEx与OriginaIData.NEm之和。即:
NPCorrA+NPCorrB≤OriginaIData.NEx+OriginalData.NEm
有时,库中某些样本的NPCorrA与NPCorrB之和相等,即最大匹配度相等,无法按照余弦值大于0.9的数目多少来判断与被测样本的相似性程度。此时,需要结合综合相似度系数进行判别。
综合相似度系数的构建方法如下:
将NPCorrA+NPCorrB具有最大值相等的样本从list库中列出,记录名为MatchingFile。MatchingFile为结构数组,与结构数组list相似,记录了匹配文件信息。即list记录了所有文件信息,MatchingFile记录了与被测样本匹配的一些文件信息,如匹配文件的名称、数据采集时间、字节大小和数据量。
根据MatchingFile的纪录信息,从R1和R2中调出这些匹配样本的余弦系数矩阵,记录为MaxPCorrA和MaxPCorrB,分别对MaxPCorrA和MaxPCorrB中的每个样本的余弦系数求和,即
Figure BDA0001941702820000051
Figure BDA0001941702820000052
Figure BDA0001941702820000053
为匹配样本数据矩阵转置前的总系数
Figure BDA0001941702820000054
为匹配样本数据矩阵转置后的总系数
令,综合相似度系数R=A×B,
即:
Figure BDA0001941702820000055
比较MatchingFile中各匹配文件的R数值大小(R≤1),R值越大,与被测样本的相似度越高,将R最大值的样本记录为与被测样本比对的最匹配样本。
6.结果输出与报告:将被测样本信息和匹配样本信息以文本形式输出,文本中对于匹配样本、最匹配样本等相关信息一并输出,同时形成比对结果的鉴定、分类、识别和比对报告。
7.某些情况下,按上述方法仍然不能获得满意的识别与比对结果,此时需要对参照比对样本库中的样本数据和被测样本数据作进一步的处理。
8.被测样本荧光光谱峰坐标的确定:将被测样本荧光光谱数据载入软件工作区,按照实施方案1.,得到一个名称为OriginalData的结构体,该结构体包含OriginalData.Ex、OriginalData.Em、OriginalData.X等字段。通过设置合理峰值间隔,寻峰程序,获取荧光峰位置坐标与荧光强度信息,在工作区记录变量名为PksEmExA。必要时,如对于复杂的荧光光谱或有重叠的荧光光谱峰位置坐标的确定,可以对OriginalData中各字段转置后,用相同方法获取荧光峰位置坐标与荧光强度信息,在工作区记录变量名为PksEmExB。
9.构建峰位置坐标信息库:将每个样本的峰位置坐标和峰强度信息从PksEmExA、PksEmExB中取出,与list组成新的变量名为Klist的元胞数组,该元胞数组不仅包含了原始数据文件的基本信息,还包含了每一个原始数据文件的峰位置坐标和峰强度信息。
10.构建扩充的参照比对数据库的聚类:根据K-均值聚类的K-MEANS函数,对从Klist中取出每个样本的峰位置坐标和峰强度信息构建聚类体系,必要时,进行数据的标准化。聚类的结果将产生一组集合,集合中的对象与同集合中的对象相似度较高;而不同集合中的对象相似度较小。这样就将扩充的参照比对数据库中的样本进行了类别划分,每个类别(集合)里存放有若干峰位置坐标和峰值相近的数据文件信息。该聚类方法通过计算统计量相关系数(R-SQUARE)或调整的相关系数(Adjusted R-SQUARE)等,确定聚类类别数。
11.对于庞大的参照比对数据库来说,聚类是十分必要的。由于对数据库各样本进行了聚类分类,被测样本数据将被调入贝叶斯分类器或概率神经网络进行判别分类判别,判别结构分配到所属类别后,再利用综合相似度系数等识别标准,对所属类别各样本进行匹配计算,获得被测样本的比对信息。通过这样的聚类和分类后,可以减少大大减少综合相似度系数的计算量。
12.不断重复实施方案步骤8-11,可以自动地将参照比对数据库进行扩充,例如,被测样本经过K-MEANS等聚类后,若判断为新类别,将产生新的类;若未产生新的类别,将由贝叶斯分类器或概率神经网络判定为某一类,并由综合相似度系数的大小判别为相似或相等,若相似,将该样本信息存入该类;若相等,无需将该样本存入参照比对数据库。
13.若用户对被测样本的解析信息还有进一步的需求,可以在平行因子分析法、偏最小二乘法、交替三线性分解法、非负矩阵因子分解法等解析方法的基础上,获得更多的多组分荧光信息,然后建立识别与比对方法。
以平行因子分析法为例说明,将包含OriginalData.Ex、OriginalData.Em、OriginalData.X,OriginalData.NEx、OriginalData.NEm、OriginalData.NX等字段的名为OriginalData的结构体文件调入工作区,用平行因子法进行解析。可以得到按不同组分数模型计算的三维荧光光谱数据(包括每个组分的三维荧光光谱数据)、激发波长载荷因子二维数据、发射波长载荷因子二维数据和浓度得分因子数据。
将上述按不同组分数模型计算得到的各组分三维荧光光谱数据分别存储为CompX1.csv(组分1)、CompX2.csv(组分2)、CompX3.csv(组分3)、……、CompXn.csv(组分n)等;将激发波长载荷因子二维数据、发射波长载荷因子二维数据和浓度得分因子数据存储为EmLoadingsX.csv、ExLoadingsX.csv和ConcLoadingsX.csv。以此方法建立参照比对数据库。
用同样类似的方法,对被测样本S的三维荧光光谱数据进行处理,得到CompS1.csv(组分1)、CompS2.csv(组分2)、CompS3.csv(组分3)、……、CompSn.csv(组分n)等;将激发波长载荷因子二维数据、发射波长载荷因子二维数据和浓度得分因子数据存储为EmLoadingsS.csv、ExLoadingsS.csv和ConcLoadingsS.csv。
按照实施方案步骤5.的方法,通过对矩阵转置前后综合相似度系数R的计算,可以获得被测样本与参照比对数据库中某样本的各组分比对信息。
【具体实施方法】
实施例
1.峰位置坐标和峰强度的确定:某水环境下的一个样本,对其原输出文件进行整理,指定相关软件需要读入的行和列信息,扣除文件中非数据部分,在软件工作区储存相应的变量名称,如名为OriginalData的结构体,该结构体主要包含OriginalData.Ex、OriginalData.Em、OriginalData.X。其中,OriginalData.Ex为激发波长[220:5:450],表示由220nm扫描至450nm,带宽5nm;OriginalData.Em为发射波长[250:596],表示由250nm扫描至596nm;OriginalData.X为347×47的矩阵,表示在激发和发射波长下的荧光强度。对OriginalData.X,计算每一列最大值,得到一组向量,该向量为[19.84 20.08 19.97 19.3519.69 20.68 21.28 22.23 24.70 27.27 31.71 36.22 42.62 49.94 48.71 42.32 39.9140.97 41.32 46.55 48.21 51.16 55.28 55.42 57.84 59.43 58.31 57.31 55.00 53.6849.93 48.72 48.86 45.62 45.75 45.27 42.06 40.13 38.92 38.28 37.39 34.87 32.7831.25 29.61 29.35 28.62]。
若设置峰间距为5,计算得到峰位置坐标和峰强度信息如下(按出峰顺序):
PksEmEx:
序号 激发波长Em 发射波长Ex 峰强度Q
1 225 292 20.08
2 285 363 49.94
3 345 421 59.43
4 380 459 48.86
2.综合相似度系数与相似度判别:某一参照比对数据库含有127个未聚类分类的样本,按照实施方案步骤3.,用命令载入库中所有127个样本数据,在软件工作区得到名为list、NEm、NEx、Nsamples和Y的变量;将被测样本S(实际为序号为47号的参照比对样本库样本)的数据文件读入工作区,记为变量X;按照实施方案步骤5.,设置比较余弦值大于0.9,计算综合相似度系数R,得到结果如下:
序号 最大匹配文件位置 最大匹配度按0.9计算 综合相似度系数R
1 3 1 0.9813
2 47 1 1.0000
3 92 1 0.9804
识别结果完全正确。
3.聚类与分类:某一参照比对数据库含有786个样本,经K-MEANS聚类,样本被自动分为8类,其中,最大的一类含有样本数为112个,最小的一类含有样本数为39个;在这8个类别中,一些样本按峰位置坐标的不同被分为5类,另外3类按峰值的大小和峰值之间的比值大小进行了分类。按照实施方案步骤3.,用命令载入库中所有786个样本数据,在软件工作区得到名为list、NEm、NEx、Nsamples和Y的变量;将被测样本S的数据文件读入工作区,记为变量X;按照实施方案步骤5.,设置比较余弦值大于0.93,计算综合相似度系数R,最大匹配度按余弦值大于0.93计算,发现大于0.93的库中有5个样本的NPCorrA与NPCorrB之和均为382,最大匹配度为
Figure BDA0001941702820000081
得到结果如下:
Figure BDA0001941702820000082
Figure BDA0001941702820000091
被测样本S与库中最匹配的文件为第222号,其综合相似度系数达到0.9744。
4.概率神经网络的分类与判别:某一参照比对数据库含有33个样本,该33个样本经聚类分为5类,载入工作区得到变量名为Class,该变量为一元胞数组,记录了每个样本序号及类别;用命令载入库中所有33个样本数据,在工作区得到list,按实施方案步骤9.,在工作区得到Klist;将Klist中的峰位置坐标和峰值信息存为变量名为PksPEmPExData,对该33个样本进行分类,输入被测的8个样本数据,如x=[280 328 355 457 65.6 51.8;325418 390 456 95.8 22.0;345 421 380 464 59.5 45.2;305 357 360 429 999 60.34;280304 350 421 637 50.8;285 314 320 423 49.3 41.9;365 436 290 349 140 65.5;345420 370 465 420 280];得到结果如下:
神经网络数据库33个样本分类
Figure BDA0001941702820000092
利用神经网络对被测8个样本的分类判别
Figure BDA0001941702820000101
5.平行因子分析法解析多组分荧光光谱数据的识别:将包含OriginalData.Ex、OriginalData.Em、OriginalData.X,OriginalData.NEx、OriginalData.NEm、OriginalData.NX等字段的名为OriginalData的被测样本S数据文件调入工作区,用平行因子法进行解析,得到含4个组分的三维荧光光谱数据,分别存储为CompS1.csv(组分1)、CompS2.csv(组分2)、CompS3.csv(组分3)、CompS4.csv(组分4)等;将激发波长载荷因子二维数据、发射波长载荷因子二维数据和浓度得分因子数据存储为EmLoadingsS.csv、ExLoadingsS.csv和ConcLoadingsS.csv。
按照实施方案步骤5.和步骤13.的方法,通过对矩阵转置前后综合相似度系数R的计算,获得被测样本与参照比对数据库中某样本的各组分比对信息。
结果如下:
Figure BDA0001941702820000102
将激发波长载荷因子二维数据、发射波长载荷因子二维数据数据EmLoadingsS.csv、ExLoadingsS.csv分别进行综合相似度系数的计算时,发现由于这些因子每次的输出序列不一定一致,导致在计算过程中出现误判,因此,只需要输出各组分综合相似度系数进行比较即可。

Claims (9)

1.一种溶解性有机物三维荧光谱图的识别比对方法,其特征在于:根据被测样本荧光数据矩阵,建立与参照比对数据库各样本荧光数据相同矩阵,进行余弦相似度系数的计算,必要时进行调整余弦系数计算,得到最大匹配度和综合相似度系数两个判别指标,根据最大相似度系数匹配原则,形成谱图的识别和比对信息。
2.根据权利要求1所述的溶解性有机物三维荧光谱图的识别比对方法,其特征在于:所述余弦系数矩阵的计算为:将被测样本数据矩阵X与参照比对数据库中Y的每一个样本数据矩阵按每一列进行余弦值cosθ的计算,得到一个以激发波长数和库样本数构成的余弦值数值矩阵OriginalData.NEx×Nsamples,字段命名为R1;再将被测样本数据矩阵与参照比对数据库中的每一个样本数据矩阵按每一行进行余弦值cosθ的计算,得到又一个以发射波长数和库样本数构成的余弦值数值矩阵OriginalData.NEm×Nsamples,字段命名为R2。
3.根据权利要求1所述的溶解性有机物三维荧光谱图的识别比对方法,其特征在于:所述最大匹配度的计算为:假设余弦值>0.9,为被测样本与参照比对数据库样本的比对限,计算R1中每一个样本余弦值大于0.9的数目,记录文件名称为NPCorrA;计算R2中每一个样本余弦值大于0.9的数目,记录文件名称为NPCorrB;把NPCorrA与NPCorrB之和命名为最大匹配度,最大匹配度是判别被测样本与库样本是否相似的标准之一。
4.根据权利要求1所述的溶解性有机物三维荧光谱图的识别比对方法,其特征在于:所述综合相似度系数的计算为:有时,库中某些样本的最大匹配度相等,不能按照某个阈值如余弦值大于0.9的数目多少来判断与被测样本的相似性程度,可以将余弦系数阈值0.9调整大一些,以减少最大匹配度样本的数目;但最大匹配度数目的减少,有时会造成相似样本的漏判;此时,必须结合利用综合相似度系数进行判别;所述综合相似度系数的构建方法如下:将从R1和R2中调出最大匹配度相等的样本,即这些样本的余弦系数矩阵,记录为MaxPCorrA和MaxPCorrB,分别对MaxPCorrA和MaxPCorrB中的每个样本的余弦系数求和,即
Figure FDA0001941702810000011
Figure FDA0001941702810000012
Figure FDA0001941702810000013
为匹配样本数据矩阵转置前的总系数
Figure FDA0001941702810000014
为匹配样本数据矩阵转置后的总系数
令,综合相似度系数R=A×B,
即:
Figure FDA0001941702810000015
比较各匹配文件的R数值大小(R≤1),R值越大,与被测样本的相似度越高,将R值最大的样本识别为与被测样本比对的最匹配样本。
5.根据权利要求1所述的溶解性有机物三维荧光谱图的识别比对方法,其特征在于:在构建水环境溶解性有机物三维荧光光谱数据库和进行样本比对时,将被测样本经过比对不属于本参照比对数据库成员时,自动将该样本加入参照比对数据库,从而使得数据库建设与比对同时进行,达到了参照比对数据库具有自动完善、自动更新等自动扩充功能,提高了对被测样品识别与比对范围。
6.根据权利要求1所述的溶解性有机物三维荧光谱图的识别比对方法,其特征在于:将被测样品荧光光谱数据进行空白扣除、干扰消除等基本数据处理整理,无需过多的数学解析,即可与参照比对数据库的样本进行相似度系数的计算与匹配,从而获得快速准确的识别与判别信息。
7.根据权利要求1所述的溶解性有机物三维荧光谱图的识别比对方法,其特征在于:通过对各个样本峰位置坐标和峰强度信息的识别,对峰位置坐标和峰强度等特征值进行归一化等数据处理,建立广义径向基函数概率神经网络,结合贝耶斯决策理论,实现对大样本的聚类、分类和判别,该聚类方法通过计算统计量相关系数R-SQUARE或调整的相关系数Adjusted R-SQUARE等,确定聚类类别数。
8.根据权利要求1所述的溶解性有机物三维荧光谱图的识别比对方法,其特征在于:利用平行因子等算法,对水环境中溶解性有机物荧光光谱进行解析获得的三维荧光光谱数据和组成该荧光光谱的各组分三维荧光光谱数据,分别对这些数据矩阵行和列进行余弦相似度系数的计算,得到综合相似度系数,从而达到对样本的进一步分类和识别信息。
9.根据权利要求1所述的溶解性有机物三维荧光谱图的识别比对方法,其特征在于:根据目的不同,在三个阶段上实现对被测样本余弦系数相似度的匹配识别,即第一阶段,在荧光光谱数据经过必要的数据整理阶段后,通过对相关数据矩阵转置前后的余弦系数计算获得识别比对信息;第二阶段,在对样本获取峰位置坐标和峰值强度后,建立了概率神经网络聚类与分类方法,从而实现了对大样本有效的分类与识别;第三阶段,在对样本荧光光谱数据进行必要的解析之后,即在获得解析之后的荧光光谱数据、各组分荧光光谱数据之后,仍然可以利用被测样本矩阵转置前后与参照比对数据库样本转置前后的余弦系数的比较,即通过构建的综合相似度系数进行识别和比对。
CN201910023685.4A 2019-01-10 2019-01-10 一种溶解性有机物三维荧光谱图的识别比对方法 Active CN111426657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910023685.4A CN111426657B (zh) 2019-01-10 2019-01-10 一种溶解性有机物三维荧光谱图的识别比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910023685.4A CN111426657B (zh) 2019-01-10 2019-01-10 一种溶解性有机物三维荧光谱图的识别比对方法

Publications (2)

Publication Number Publication Date
CN111426657A true CN111426657A (zh) 2020-07-17
CN111426657B CN111426657B (zh) 2023-04-25

Family

ID=71546083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910023685.4A Active CN111426657B (zh) 2019-01-10 2019-01-10 一种溶解性有机物三维荧光谱图的识别比对方法

Country Status (1)

Country Link
CN (1) CN111426657B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112414979A (zh) * 2020-07-31 2021-02-26 深圳市朗诚科技股份有限公司 用于识别产麻痹性贝类毒素微藻的荧光特征标准谱库及其构建方法与应用
CN112432934A (zh) * 2020-11-05 2021-03-02 北京中科生仪科技有限公司 发射光检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001022048A2 (de) * 1999-09-21 2001-03-29 Barre Stephan Verfahren und vorrichtung zur messung von eigenschaften einer probe
WO2008002324A2 (en) * 2005-12-23 2008-01-03 Chemimage Corporation Chemical imaging explosives (chimed) optical sensor
CN104677875A (zh) * 2015-03-24 2015-06-03 江南大学 一种三维荧光光谱结合平行因子鉴别不同品牌白酒的方法
CN108362662A (zh) * 2018-02-12 2018-08-03 山东大学 近红外光谱相似度计算方法、装置和物质定性分析系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001022048A2 (de) * 1999-09-21 2001-03-29 Barre Stephan Verfahren und vorrichtung zur messung von eigenschaften einer probe
WO2008002324A2 (en) * 2005-12-23 2008-01-03 Chemimage Corporation Chemical imaging explosives (chimed) optical sensor
CN104677875A (zh) * 2015-03-24 2015-06-03 江南大学 一种三维荧光光谱结合平行因子鉴别不同品牌白酒的方法
CN108362662A (zh) * 2018-02-12 2018-08-03 山东大学 近红外光谱相似度计算方法、装置和物质定性分析系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李昆仑: "基于改进用户相似性度量和评分预测的协同过滤推荐算法", 《小型微型计算机系统》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112414979A (zh) * 2020-07-31 2021-02-26 深圳市朗诚科技股份有限公司 用于识别产麻痹性贝类毒素微藻的荧光特征标准谱库及其构建方法与应用
CN112432934A (zh) * 2020-11-05 2021-03-02 北京中科生仪科技有限公司 发射光检测方法
CN112432934B (zh) * 2020-11-05 2021-07-06 北京中科生仪科技有限公司 发射光检测方法

Also Published As

Publication number Publication date
CN111426657B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN109142317B (zh) 一种基于随机森林模型的拉曼光谱物质识别方法
CN109870421B (zh) 一种基于可见光/近红外光谱分析的递增式木材树种分类识别方法
CN110377605B (zh) 一种结构化数据的敏感属性识别与分类分级方法
CN112766227B (zh) 一种高光谱遥感影像分类方法、装置、设备及存储介质
CN110554013B (zh) 一种利用荧光光谱特征信息实现快速识别比对的方法
CN116363440B (zh) 基于深度学习的土壤中有色微塑料的识别检测方法及系统
Savage et al. Evaluation of a hierarchical agglomerative clustering method applied to WIBS laboratory data for improved discrimination of biological particles by comparing data preparation techniques
CN111426657B (zh) 一种溶解性有机物三维荧光谱图的识别比对方法
CN112270596A (zh) 基于用户画像构建的风险控制系统及方法
Dennis et al. Assessing the evidentiary value of smokeless powder comparisons
CN114595956A (zh) 一种基于灰度关联法模糊聚类算法的桉树土壤肥力分析方法
CN111523582B (zh) 一种基于迁移学习的跨仪器拉曼光谱定性分析方法
Alguliyev et al. Batch clustering algorithm for big data sets
CN104345045A (zh) 一种基于化学模式识别和近红外光谱的相似药材鉴别方法
CN111259929A (zh) 基于随机森林的食源性致病菌的分类模型训练方法
CN111105041B (zh) 一种用于智慧数据碰撞的机器学习方法及装置
Burlacu et al. Convolutional Neural Network detecting synthetic cannabinoids
CN117078960A (zh) 一种基于图像特征提取的近红外光谱分析方法及系统
CN113791062A (zh) 一种基于拉曼光谱判断固定物质类别的方法
CN113744075A (zh) 一种基于人工智能的农产品营养品质等级划分系统
CN113203701A (zh) 一种原油产地溯源方法和装置
Perichinsky et al. Knowledge discovery based on computational taxonomy and intelligent data mining
CN113378165B (zh) 一种基于Jaccard系数的恶意样本相似性判定方法
Vignau et al. Systematic literature review: References extraction helper and automatic analysis
Shamir Unsupervised detection of outlier images using multi-order image transforms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230322

Address after: The 4th floor of the factory building and the 7th floor of the annex building of Huale Building, No. 1, Hancheng Road, Qingdao Free Trade Port District, Shandong 266555 (B)

Applicant after: Hua Xia An Jian Wu Lian Technology (Qingdao) Co.,Ltd.

Address before: 266555 workshop, 4th floor, Huale building, No.1, Hancheng Road, Qingdao Free Trade Zone, Shandong Province

Applicant before: CHINA ANJIAN DETECTION EVALUATION TECHNOLOGY SERVICE CO.,LTD.

GR01 Patent grant
GR01 Patent grant