CN111523582A - 一种基于迁移学习的跨仪器拉曼光谱定性分析方法 - Google Patents

一种基于迁移学习的跨仪器拉曼光谱定性分析方法 Download PDF

Info

Publication number
CN111523582A
CN111523582A CN202010298095.5A CN202010298095A CN111523582A CN 111523582 A CN111523582 A CN 111523582A CN 202010298095 A CN202010298095 A CN 202010298095A CN 111523582 A CN111523582 A CN 111523582A
Authority
CN
China
Prior art keywords
target
data
instrument
domain
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010298095.5A
Other languages
English (en)
Other versions
CN111523582B (zh
Inventor
谢怡
陈嘉祥
韩李翔
刘国坤
戴平阳
罗思恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Shenzhen Research Institute of Xiamen University
Original Assignee
Xiamen University
Shenzhen Research Institute of Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University, Shenzhen Research Institute of Xiamen University filed Critical Xiamen University
Priority to CN202010298095.5A priority Critical patent/CN111523582B/zh
Publication of CN111523582A publication Critical patent/CN111523582A/zh
Application granted granted Critical
Publication of CN111523582B publication Critical patent/CN111523582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/65Raman scattering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Mathematical Physics (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Spectrometry And Color Measurement (AREA)

Abstract

本发明涉及一种基于迁移学习的跨仪器拉曼光谱定性分析方法,将迁移学习中数据分布自适应的思路应用于拉曼光谱跨仪器物质识别,解决拉曼光谱跨仪器识别的问题。本发明运用迁移学习领域中数据分布自适应的思路,通过寻找最优映射,最大程度地缩小源域和目标域之间的数据分布差异;然后运用一种机器学习算法对映射后的拉曼光谱进行分类识别,即使用源域的已标注光谱来训练模型,对目标域的待测光谱进行分类。本发明自动完成“谱图预处理‑谱图同构化‑寻找和实现最优映射‑训练分类器和物质识别”的分析过程,减少对人工数据标注的依赖,满足跨仪器拉曼光谱数据定性分析的要求,大大提高物质识别准确率。

Description

一种基于迁移学习的跨仪器拉曼光谱定性分析方法
技术领域
本发明涉及拉曼光谱技术领域,更具体地说,涉及一种基于迁移学习的跨仪器拉曼光谱定性分析方法。
背景技术
随着社会经济和科学技术的发展,人们对物质快速检测的需求与日俱增,特别在食品安全、环境保护和医疗卫生等领域有着广泛的应用需求。拉曼光谱以拉曼散射效应为基础,具有分子指纹信息,由于快速、无损和无需制备的优点,十分适用于现场检测,即通过定性分析识别目标物质。
传统的拉曼光谱定性分析采用与标准谱图进行模板匹配的方法,通过相似度阈值逐一判定待测光谱样本是否含有目标物质。此类方法在实际检测的复杂环境中易受到激光产生的荧光背景、射线产生的毛刺峰、仪器的固有噪声和相邻拉曼峰相互“淹没”等因素的影响,在复杂体系中难以获得满意的识别结果。
随着机器学习方法的发展,基于机器学习的拉曼光谱分析方法逐渐被开发和应用于实际检测。例如,使用基于多重迭代优化的最小二乘支持向量机模型对橄榄油进行拉曼光谱检测,能够快速地鉴别是否掺入了葵花籽油、大豆油或玉米油;使用自适应超图算法自动识别复杂食品体系中的常见色素物质;采用基于卷积神经网络的模型,直接对高维数据进行分类,在矿物样品数据集上取得良好效果。
但是,伴随机器学习技术在拉曼光谱分析领域的推广,有监督学习的方法的劣势日益凸显。传统的机器学习方法要求训练和测试数据服从相同分布,并且需要足够的已标注数据来训练模型,往往还固定输入数据的维度。因此,制造商或使用者需要针对每款光谱仪器建立专用的数据库,花费大量时间和物力,投入专业人员对采集的拉曼光谱数据进行标注,建设和维护的成本都很高,限制其在快速检测领域的应用。
另一方面,不同拉曼仪器的分辨率、激光器和电耦合元件(CCD)存在差异,进而不同仪器的数据分布和维度不一致,数据库无法通用。即使是同一款仪器,由于仪器公差的存在其数据的分布也会有一定的差异。针对每款拉曼仪器,需要建立专用的拉曼光谱数据库用于训练,这将进一步增大数据标注的难度。
因此,大数据与少标注的矛盾、普适分析模型与仪器个性化的矛盾成为亟待解决的问题。
同时,便携式拉曼仪器和快检应用的普及,迎来了光谱大数据,每次仪器检测都会产生新的拉曼光谱数据,而这些数据往往需要标注才能用于传统机器学习模型的训练。而且,一款拉曼仪器若具有标注完备的光谱数据库,以其数据训练出来的分类模型,难以准确分类识别另一款仪器采集的待测光谱,因为传统机器学习关于训练集和测试集的数据分布一致性假设无法满足。针对跨仪器拉曼光谱识别,现有方案一般是通过工程化手段,例如直接使用一些插值和校正算法来解决或者说部分解决。在某些特定条件下,能获得尚可接受的识别效果。但这些方法缺乏通用性和理论依据,即没有从本质上分析和解决跨仪器的拉曼光谱分析问题,只适用于有限的特殊情况。
因此,光谱大数据处理也面临着光谱数据标注匮乏和仪器间数据库共享的新问题。
中国发明专利申请201910616759.5公开了一种基于迁移学习的拉曼光谱智能分析方法,对大规模的标准拉曼光谱数据库进行数据增强和插值处理,并使用处理后的标准数据训练深度学习模型;待测拉曼光谱做相同的数据增强和插值处理后,使用训练好的模型进行分类。
上述发明专利申请利用标准数据库和插值算法缓解了数据标注匮乏的问题,但无法解决跨仪器的问题;而且针对标准谱的操作,难以适应快检应用中的复杂基质环境。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于迁移学习的跨仪器拉曼光谱定性分析方法,实现在一款拉曼光谱仪器(源域)的光谱数据库已标注目标物质的情况下,对另一款拉曼光谱仪器(目标域)所采集的光谱进行物质分类识别,具有极强的通用性。
本发明的技术方案如下:
一种基于迁移学习的跨仪器拉曼光谱定性分析方法,步骤如下:
1)对作为源域的源拉曼光谱仪器的光谱数据d'S与作为目标域的目标拉曼光谱仪器的光谱数据d'T进行同构化处理,形成统一维度的源域特征向量vS和目标域特征向量vT
2)将源拉曼光谱仪器的源域特征向量vS与目标拉曼光谱仪器的目标域特征向量vT映射到同一个特征空间,并使得源域和目标域的数据分布距离最小;
3)运用机器学习算法对映射后的拉曼光谱进行分类识别,实现在源拉曼光谱仪器的光谱数据库已标注目标物质的情况下,对目标拉曼光谱仪器采集的待测光谱进行物质分类识别。
作为优选,步骤1)中,源拉曼光谱仪器的光谱数据d'S的维度为2×xS,横坐标d'S(1,:)记录光谱数据d'S的波数,纵坐标d'S(2,:)记录波数对应的光谱信号强度,目标拉曼光谱仪器的光谱数据d'T的维度为2×xT,横坐标d'T(1,:)记录光谱数据d'T的波数,纵坐标d'T(2,:)记录波数对应的光谱信号强度。
作为优选,步骤1)具体为:
1.1)确定源拉曼光谱仪器与目标拉曼光谱仪器的共享有效光谱范围[p,q],其中,p≥max{d'S(1,1),d'T(1,1)},q≤min{d'S(1,xS),d'T(1,xT)};在共享有效光谱范围[p,q]内,源拉曼光谱仪器的有效光谱数据dS"的维度为2×lS
Figure BDA0002452977470000031
fS为源拉曼光谱仪器的激光器频率;目标拉曼光谱仪器的有效光谱数据dT"的维度为2×lT
Figure BDA0002452977470000032
fT为目标拉曼光谱仪器的激光器频率;
1.2)选择如下之一的同构化方向,获得长度统一为l的源域特征向量vS和目标域特征向量vT,具体如下:
面向源域进行同构,先使l=lS,vS=dS"(2,:),然后将dT"(2,:)按照dS"(1,:)的波数位置进行插值,得到目标域特征向量vT
或者,面向目标域进行同构,先使l=lT,vT=d"T(2,:),然后将dS"(2,:)按照dT"(1,:)的波数位置进行插值,得到源域特征向量vS
作为优选,步骤2)包括寻找最优映射、实施最优映射,最小化源域和目标域之间的数据分布差异。
作为优选,步骤2)中,寻找最优映射,具体如下:
2.1.1)获取N个l维的特征向量,N=NS+NT,NS为来自源域的光谱样本的数量,NT为来自目标域的光谱样本的数量,得到维度为NS×l的源域特征向量矩阵XS和维度为NT×l的目标域特征向量矩阵XT,其中,XS的每一行表示一个源域光谱的源域特征向量vS,XT的每一行表示一个目标域光谱的目标域特征向量vT
2.1.2)定义长度为NS的源域标签列向量yS,当源域的第i个光谱样本含有第j种目标物质时,yS(i)=j,i=1,2,…,NS,j=1,2,…,R,R是目标物质的类别总数;
2.1.3)在保持原数据集特征的情况下,最小化源域和目标域的数据分布差异,以
Figure BDA0002452977470000041
为最优化目标,寻找最优映射
Figure BDA0002452977470000042
作为优选,利用数据分布自适应方法寻找最优映射
Figure BDA0002452977470000043
作为优选,利用数据分布自适应方法寻找最优映射
Figure BDA0002452977470000044
具体为:采用TCA算法,最小化源域特征向量矩阵XS和目标域特征向量矩阵XT的边缘分布距离,并以最大均值差异距离作为距离测度获得最优化公式,如下:
Figure BDA0002452977470000045
具体步骤如下:
2.1.3.1)计算核矩阵K、系数矩阵L和中心矩阵H,如下:
利用线性核构造N×N维的核矩阵K,公式如下:
Figure BDA0002452977470000046
定义Ones(r,c)为r×c维的全1矩阵,构造N×N维的系数矩阵L,公式如下:
Figure BDA0002452977470000047
构造N×N维的中心矩阵H,公式如下:
Figure BDA0002452977470000051
其中,IN是N×N维的单位对角阵;
2.1.3.2)建立最优化模型并求解最优映射,如下:
通过推导转换,建立与
Figure BDA0002452977470000052
等价的最优化模型,如下:
Figure BDA0002452977470000053
其中,W为维度为N×m的待求解的最优映射
Figure BDA0002452977470000054
的映射矩阵;光谱数据映射到统一特征空间后,特征向量长度为m,并且满足m<l;tr()代表矩阵的迹;μ表示对所求解的W的复杂度的限制;Im是m×m维的单位对角阵;
使用拉格朗日对偶法,通过求解矩阵
Figure BDA0002452977470000055
的前m个特征向量,并对这些N维的特征向量按列进行合并,得到待求解的待求解的最优映射
Figure BDA0002452977470000056
的映射矩阵W。
作为优选,步骤2)中,实施最优映射,具体如下:
2.2.1)计算映射到同一特征空间后的源域数据矩阵
Figure BDA0002452977470000057
维度为NS×m,每一行表示一个源域光谱映射后的特征向量,具体为:
Figure BDA0002452977470000058
2.2.2)计算映射到同一特征空间后的目标域数据矩阵
Figure BDA0002452977470000059
维度为NT×m,每一行表示一个目标域光谱映射后的特征向量,具体为:
Figure BDA00024529774700000510
作为优选,步骤3)中,利用映射后的源域数据训练分类器,对目标域谱图进行分类识别,实现跨仪器拉曼光谱定性分析,具体如下:
选择任意一种机器学习方法,使用源域数据矩阵
Figure BDA00024529774700000511
和源域标签列向量yS训练分类器,将目标域数据矩阵
Figure BDA00024529774700000512
输入训练好的分类器,获得未标记目标域分类结果列向量yT;当目标域的第i个光谱样本被识别含有第j种目标物质时,yT(i)=j,i=1,2,…,NT,j=1,2,…,R。
作为优选,步骤1)前,还包括如下步骤:
a)对源拉曼光谱仪器的光谱数据与目标拉曼光谱仪器的光谱数据进行预处理:采集源拉曼光谱仪器的原光谱数据dS与目标拉曼光谱仪器的原光谱数据dT,自动消除原光谱数据dS与原光谱数据dT的噪音,获取其荧光背景的光谱强度向量bS和bT
其中,原光谱数据dS的维度为2×xS,横坐标dS(1,:)记录原光谱数据dS的波数,纵坐标dS(2,:)记录波数对应的光谱信号强度,原光谱数据dT的维度为2×xT,横坐标dT(1,:)记录原光谱数据dT的波数,纵坐标dT(2,:)记录波数对应的光谱信号强度;
b)计算预处理后的源拉曼光谱仪器的光谱数据d'S和目标拉曼光谱仪器的光谱数据d'T:d'S(1,:)=dS(1,:),d'S(2,:)=dS(2,:)-bS,d'T(1,:)=dT(1,:),d'T(2,:)=dT(2,:)-bT
作为优选,步骤a)中,采用基于高斯假设的自动自适应算法自动消除原光谱数据dS与原光谱数据dT的噪音,获取其荧光背景的光谱强度向量bS和bT,通用方法如下:
a.1)输入原光谱数据d的信号强度向量s=d(2,:);
a.2)搜索s的局部极大值点;
a.3)在相邻两个局部极大值点间使用插值方法,获得荧光背景的估计曲线b;
a.4)更新光谱数据s=b,并对步骤a.2)和步骤a.3)进行自适应迭代,直至满足迭代终止条件,确定荧光背景曲线b,即为原光谱数据d的荧光背景的光谱强度向量b。
本发明的有益效果如下:
本发明所述的基于迁移学习的跨仪器拉曼光谱定性分析方法,将迁移学习中数据分布自适应的思路应用于拉曼光谱跨仪器物质识别,解决拉曼光谱跨仪器识别的问题。本发明运用迁移学习领域中数据分布自适应的思路,通过寻找最优映射,最大程度地缩小源域和目标域之间的数据分布差异;然后运用一种机器学习算法对映射后的拉曼光谱进行分类识别,即使用源域的已标注光谱来训练模型,对目标域的待测光谱进行分类。
本发明相较工程化的方法,显著提升了分类器性能,具有良好的通用性和理论可解释性。本发明能适用于不同拉曼仪器采集的数据集,并且由于在数据迁移过程中最小化数据分布的差异性,能够很好的克服复杂环境和仪器特性带来的干扰,具有较强的鲁棒性。本发明与未使用最优映射进行迁移的分类器相比,目标物质识别准确率明显提高。
本发明自动完成:“谱图预处理-谱图同构化-寻找和实现最优映射-训练分类器和物质识别”的分析过程,减少对人工数据标注的依赖,满足跨仪器拉曼光谱数据定性分析的要求,大大提高物质识别准确率,更加有利于拉曼光谱物质快速检测技术的推广和应用。
附图说明
图1是实验一两款仪器数据分布图(预处理+同构化,XS和XT);
图2是实验一两款仪器数据分布图(预处理+同构化+最优映射(m=20,μ=3),
Figure BDA0002452977470000071
Figure BDA0002452977470000072
);
图中:圆圈代表亮蓝(BB),方形代表碱性橙(CG),三角形代表胭脂红(A18),五角星形代表碱性嫩黄(AO),菱形代表空白(BL);实心图标代表PT2000仪器的数据点,空心图标代表Iraman仪器的数据点。
具体实施方式
以下结合附图及实施例对本发明进行进一步的详细说明。
本发明为了解决现有技术存在的不足,提供一种基于迁移学习的跨仪器拉曼光谱定性分析方法,在一款拉曼光谱仪器(源域)的光谱数据库已标注目标物质的情况下,对另一款拉曼光谱仪器(目标域)所采集的光谱进行物质分类识别。本发明通用性强,能适用于不同拉曼仪器采集的数据集,并且由于在数据迁移过程中最小化数据分布的差异性,能够很好的克服复杂环境和仪器特性带来的干扰,具有较强的鲁棒性。
本发明基于迁移学习进行实现,迁移学习利用数据、任务或模型之间的相似性,将在旧领域(称为源域)学习过的模型应用到新领域(称为目标域)。迁移学习的优点是,不要求训练和测试数据服从相同分布,减少数据标注的需求,其模型还能在相关任务之间迁移。
本发明所述的跨仪器拉曼光谱定性分析方法,步骤如下:
1)谱图同构化:对作为源域的源拉曼光谱仪器的光谱数据d'S与作为目标域的目标拉曼光谱仪器的光谱数据d'T进行同构化处理,形成统一维度的源域特征向量vS和目标域特征向量vT
2)寻找和实施最优映射:将源拉曼光谱仪器的源域特征向量vS与目标拉曼光谱仪器的目标域特征向量vT映射到同一个特征空间,并使得源域和目标域的数据分布距离最小;
3)训练分类器和物质识别:运用机器学习算法对映射后的拉曼光谱进行分类识别,实现在源拉曼光谱仪器的光谱数据库已标注目标物质的情况下,对目标拉曼光谱仪器采集的待测光谱进行物质分类识别,从而实现跨仪器物质检测的定性分析。
步骤1)中,源拉曼光谱仪器的光谱数据d'S的维度为2×xS,横坐标d'S(1,:)记录光谱数据d'S的波数,纵坐标d'S(2,:)记录波数对应的光谱信号强度,目标拉曼光谱仪器的光谱数据d'T的维度为2×xT,横坐标d'T(1,:)记录光谱数据d'T的波数,纵坐标d'T(2,:)记录波数对应的光谱信号强度。虽然每款拉曼光谱仪器样本的波数向量是固定的,但由于作为源域的源拉曼光谱仪器的与作为目标域的目标拉曼光谱仪器的光谱范围和激光器频率不同(fS≠fT),光谱数据d'S和光谱数据d'T的维度和波数向量也不同,即XS≠XT,d'S(1,:)≠d'T(1,:)。为满足同构迁移学习的基本要求,需要对d'S和d'T进行同构化处理,形成统一维度的特征向量。
步骤1)具体为:
1.1)确定源拉曼光谱仪器与目标拉曼光谱仪器的共享有效光谱范围[p,q],其中,p≥max{d'S(1,1),d'T(1,1)},q≤min{d'S(1,xS),d'T(1,xT)};在共享有效光谱范围[p,q]内,源拉曼光谱仪器的有效光谱数据dS"的维度为2×lS
Figure BDA0002452977470000081
fS为源拉曼光谱仪器的激光器频率;目标拉曼光谱仪器的有效光谱数据dT"的维度为2×lT
Figure BDA0002452977470000082
fT为目标拉曼光谱仪器的激光器频率;
1.2)选择如下之一的同构化方向,获得长度统一为l的源域特征向量vS和目标域特征向量vT,具体如下:
方向1:面向源域进行同构,先使l=lS,vS=dS"(2,:),然后将d"T(2,:)按照dS"(1,:)的波数位置进行插值,得到目标域特征向量vT
或者,方向2:面向目标域进行同构,先使l=lT,vT=d"T(2,:),然后将dS"(2,:)按照dT"(1,:)的波数位置进行插值,得到源域特征向量vS
上述两种同构化方向,在具体实施时,选择其中之一即可。
现有技术中的大多数插值算法均适用于上述的步骤1),本实施例中,可采用常见的三次样条插值算法。
步骤2)包括寻找最优映射、实施最优映射,最小化源域和目标域之间的数据分布差异;具体如下:
2.1)寻找最优映射,具体如下:
2.1.1)基于步骤1)的同构化,共获取N个l维的特征向量,N=NS+NT,NS为来自源域的光谱样本的数量,NT为来自目标域的光谱样本的数量,得到维度为NS×l的源域特征向量矩阵XS和维度为NT×l的目标域特征向量矩阵XT,其中,XS的每一行表示一个源域光谱的源域特征向量vS,XT的每一行表示一个目标域光谱的目标域特征向量vT
2.1.2)定义长度为NS的源域标签列向量yS,当源域的第i个光谱样本含有第j种目标物质时,yS(i)=j,i=1,2,…,NS,j=1,2,…,R,R是目标物质的类别总数;
2.1.3)在保持原数据集特征的情况下,最小化源域和目标域的数据分布差异,以
Figure BDA0002452977470000091
为最优化目标,寻找最优映射
Figure BDA0002452977470000092
实施时,可利用数据分布自适应方法寻找最优映射
Figure BDA0002452977470000093
数据分布自适应方法包括JDA算法(Joint DistributionAdaptation),STL算法(Stratified Transfer Learning)和TCA算法(Transfer ComponentAnalysis)等。本实施例中,采用TCA算法,最小化源域特征向量矩阵XS和目标域特征向量矩阵XT的边缘分布距离,并以最大均值差异距离作为距离测度获得最优化公式,如下:
Figure BDA0002452977470000094
具体求解步骤如下:
2.1.3.1)计算核矩阵K、系数矩阵L和中心矩阵H,如下:
利用线性核构造N×N维的核矩阵K,公式如下:
Figure BDA0002452977470000101
定义Ones(r,c)为r×c维的全1矩阵,构造N×N维的系数矩阵L,公式如下:
Figure BDA0002452977470000102
构造N×N维的中心矩阵H,公式如下:
Figure BDA0002452977470000103
其中,IN是N×N维的单位对角阵;
2.1.3.2)建立最优化模型并求解最优映射,如下:
通过推导转换,建立与
Figure BDA0002452977470000104
等价的最优化模型,如下:
Figure BDA0002452977470000105
其中,W为维度为N×m的待求解的最优映射
Figure BDA0002452977470000106
的映射矩阵;光谱数据映射到统一特征空间后,特征向量长度为m,并且满足m<l;tr()代表矩阵的迹;μ为自定义参数,表示对所求解的W的复杂度的限制;Im是m×m维的单位对角阵;
使用拉格朗日对偶法,通过求解矩阵
Figure BDA0002452977470000107
的前m个特征向量,并对这些N维的特征向量按列进行合并,得到待求解的待求解的最优映射
Figure BDA0002452977470000108
的映射矩阵W。
2.2)实施最优映射,具体如下:
2.2.1)计算映射到同一特征空间后的源域数据矩阵
Figure BDA0002452977470000109
维度为NS×m,每一行表示一个源域光谱映射后的特征向量,具体为:
Figure BDA00024529774700001010
2.2.2)计算映射到同一特征空间后的目标域数据矩阵
Figure BDA00024529774700001011
维度为NT×m,每一行表示一个目标域光谱映射后的特征向量,具体为:
Figure BDA00024529774700001012
步骤3)中,利用映射后的源域数据训练分类器,对目标域谱图进行分类识别,实现跨仪器拉曼光谱定性分析,具体如下:
选择任意一种机器学习方法,使用源域数据矩阵
Figure BDA0002452977470000111
和源域标签列向量yS训练分类器,如SVM支持向量机、k近邻算法、决策树算法和超图算法等;将目标域数据矩阵
Figure BDA0002452977470000112
输入训练好的分类器,获得未标记目标域分类结果列向量yT;当目标域的第i个光谱样本被识别含有第j种目标物质时,yT(i)=j,i=1,2,…,NT,j=1,2,…,R。
由于现场采集的拉曼光谱仪器的原始拉曼光谱具有噪音与荧光背景,对识别结果存在一定的干扰,本发明在进行步骤1),即谱图同构化之前,先对源拉曼光谱仪器与目标拉曼光谱仪器的原始拉曼光谱进行预处理,消除噪音和扣除荧光背景,以减少复杂基质环境对后续分析的不良影响。本实施例中,步骤1)前,还包括如下步骤:
a)对源拉曼光谱仪器的光谱数据与目标拉曼光谱仪器的光谱数据进行预处理:采集源拉曼光谱仪器的原光谱数据dS与目标拉曼光谱仪器的原光谱数据dT,自动消除原光谱数据dS与原光谱数据dT的噪音,获取其荧光背景的光谱强度向量bS和bT
其中,原光谱数据dS的维度为2×xS,横坐标dS(1,:)记录原光谱数据dS的波数,纵坐标dS(2,:)记录波数对应的光谱信号强度,原光谱数据dT的维度为2×xT,横坐标dT(1,:)记录原光谱数据dT的波数,纵坐标dT(2,:)记录波数对应的光谱信号强度;
为了实现在无人工干预的情况下,自动完成预处理,本实施例中,采用基于高斯假设的自动自适应算法自动消除原光谱数据dS与原光谱数据dT的噪音,获取其荧光背景的光谱强度向量bS和bT,通用方法如下:
a.1)输入原光谱数据d的信号强度向量s=d(2,:);
a.2)搜索s的局部极大值点;
a.3)在相邻两个局部极大值点间使用插值方法,获得荧光背景的估计曲线b;
a.4)更新光谱数据s=b,并对步骤a.2)和步骤a.3)进行自适应迭代,直至满足迭代终止条件,确定荧光背景曲线b,即为原光谱数据d的荧光背景的光谱强度向量b。
b)计算预处理后的源拉曼光谱仪器的光谱数据d'S和目标拉曼光谱仪器的光谱数据d'T
d'S(1,:)=dS(1,:),d'S(2,:)=dS(2,:)-bS,d'T(1,:)=dT(1,:),d'T(2,:)=dT(2,:)-bT
具体实施时,步骤a)中,还可以采用如airPLS算法、Baek算法等预处理算法对光谱数据进行预处理。
综上,本发明可自动完成:“谱图预处理-谱图同构化-寻找和实现最优映射-训练分类器和物质识别”的分析过程。
实验验证
本实验采用的光谱数据均来自于真实环境下的拉曼谱图样本,由高意PT2000仪器(光谱范围200~2500cm-1,光谱分辨率8~10cm-1)和Iraman仪器(光谱范围175~2700cm-1,光谱分辨率3.5cm-1)采集所得。拉曼光谱样本针对4类色素目标物质(亮蓝、碱性橙、胭脂红、碱性嫩黄),并将不含任何色素的光谱样本定义为的空白类(BL)。表1列出了这五类物质(R=5)共1037个光谱谱图。
表1:PT2000和Iraman仪器采集的拉曼谱图列表
Figure BDA0002452977470000121
为体现本发明方法的普遍性,实验分成两个方向:
实验一:以Iraman仪器的数据集为源域,PT2000仪器的数据集为目标域;
实验二:以PT2000仪器的数据集为源域,Iraman仪器的数据集为目标域。
为体现比较的公平性,所有拉曼谱图采用技术方案所述的自动自适应算法进行预处理,再使用三次样条插值算法面向源域进行同构化操作。
然后,使用TCA算法求解使源域和目标域数据分布差异最小的最优映射,并利用映射后的带标签的源域数据训练3种经典的分类器(k近邻算法kNN,k=10;随机森林算法RF,子树的数量取100;支持向量机算法SVM,使用线性核)。
最后,向训练好的分类器输入映射后的目标域光谱数据进行物质分类识别,并使用以下两个指标来评估性能。
总体准确率,
Figure BDA0002452977470000131
显然,总体准确率越高,本发明的分类识别跨仪器拉曼光谱的性能越好。
迁移学习提升率Δ=采用最优映射的总体准确率α-未采用最优映射的总体准确率α',用于衡量本发明采用最优映射将源域和目标域迁移至同一特征空间所带来的性能提升;其中,Δ越高,说明迁移学习对物质识别准确率贡献越大。
为消除随机森林算法结果随机性的影响,其相关实验在相同情况下重复10次,用正确分类的目标域谱图平均数来计算总体准确率。
如表2所示,实验结果表明,本发明实现了跨仪器的拉曼光谱物质识别,总体准确率均大于91%;若选择恰当的分类器,还能进一步提高性能。例如,利用源域的已标注光谱数据训练SVM分类器,可使得目标域光谱的总体识别准确率达到95%。本发明方法在已标注数据较少时候(例如NS=243)也能取得较满意的性能,有利于减少数据标注的投入。
表2:总体准确率的对比
Figure BDA0002452977470000132
同时,迁移学习提升率Δ均为正数,最大值为15.7591%,这表明通过最优映射实施的迁移学习可以提升各种分类器的性能。
以实验一为例,如图1和图2所示,对比最优映射前后的数据分布图可以看出:
(1)仅通过预处理和同构化(图1),来自不同仪器的同一类别数据(同形状)分布松散差异明显,这容易导致源域数据训练的分类器出现较多误判。
(2)实施最优映射之后(图2),数据明显聚集,同一类别的数据(同形状)分布很也相近,更容易用训练好的分类器进行跨仪器物质分类识别。少数的亮蓝(BB)光谱样本由于色素信号较弱或基底信号较强被误判成空白类(BL),这与图2中菱形数据点(BL)分布不够集中,并与圆形数据点(BB)略有混杂有关。
上述实施例仅是用来说明本发明,而并非用作对本发明的限定。只要是依据本发明的技术实质,对上述实施例进行变化、变型等都将落在本发明的权利要求的范围内。

Claims (11)

1.一种基于迁移学习的跨仪器拉曼光谱定性分析方法,其特征在于,步骤如下:
1)对作为源域的源拉曼光谱仪器的光谱数据d'S与作为目标域的目标拉曼光谱仪器的光谱数据d'T进行同构化处理,形成统一维度的源域特征向量vS和目标域特征向量vT
2)将源拉曼光谱仪器的源域特征向量vS与目标拉曼光谱仪器的目标域特征向量vT映射到同一个特征空间,并使得源域和目标域的数据分布距离最小;
3)运用机器学习算法对映射后的拉曼光谱进行分类识别,实现在源拉曼光谱仪器的光谱数据库已标注目标物质的情况下,对目标拉曼光谱仪器采集的待测光谱进行物质分类识别。
2.根据权利要求1所述的基于迁移学习的跨仪器拉曼光谱定性分析方法,其特征在于,步骤1)中,源拉曼光谱仪器的光谱数据d'S的维度为2×xS,横坐标d'S(1,:)记录d'S的波数,纵坐标d'S(2,:)记录波数对应的光谱信号强度,目标拉曼光谱仪器的光谱数据d'T的维度为2×xT,横坐标d'T(1,:)记录d'T的波数,纵坐标d'T(2,:)记录波数对应的光谱信号强度。
3.根据权利要求2所述的基于迁移学习的跨仪器拉曼光谱定性分析方法,其特征在于,步骤1)具体为:
1.1)确定源拉曼光谱仪器与目标拉曼光谱仪器的共享有效光谱范围[p,q],其中,p≥max{d'S(1,1),d'T(1,1)},q≤min{d'S(1,xS),d'T(1,xT)};在共享有效光谱范围[p,q]内,源拉曼光谱仪器的有效数据d″S的维度为2×lS
Figure FDA0002452977460000011
fS为源拉曼光谱仪器的激光器频率;目标拉曼光谱仪器的有效数据d″T的维度为2×lT
Figure FDA0002452977460000012
fT为目标拉曼光谱仪器的激光器频率;
1.2)选择如下之一的同构化方向,获得长度统一为l的源域特征向量vS和目标域特征向量vT,具体如下:
面向源域进行同构,先使l=lS,vS=d″S(2,:),然后将d″T(2,:)按照d″S(1,:)的波数位置进行插值,得到目标域特征向量vT
或者,面向目标域进行同构,先使l=lT,vT=d"T(2,:),然后将d″S(2,:)按照d″T(1,:)的波数位置进行插值,得到源域特征向量vS
4.根据权利要求3所述的基于迁移学习的跨仪器拉曼光谱定性分析方法,其特征在于,步骤2)包括寻找最优映射、实施最优映射,最小化源域和目标域之间的数据分布差异。
5.根据权利要求4所述的基于迁移学习的跨仪器拉曼光谱定性分析方法,其特征在于,步骤2)中,寻找最优映射,具体如下:
2.1.1)获取N个l维的特征向量,N=NS+NT,NS为来自源域的光谱样本的数量,NT为来自目标域的光谱样本的数量,得到维度为NS×l的源域特征向量矩阵XS和维度为NT×l的目标域特征向量矩阵XT,其中,XS的每一行表示一个源域光谱的源域特征向量vS,XT的每一行表示一个目标域光谱的目标域特征向量vT
2.1.2)定义长度为NS的源域标签列向量yS,当源域的第i个光谱样本含有第j种目标物质时,yS(i)=j,i=1,2,…,NS,j=1,2,…,R,R是目标物质的类别总数;
2.1.3)在保持原数据集特征的情况下,最小化源域和目标域的数据分布差异,以
Figure FDA0002452977460000021
为最优化目标,寻找最优映射
Figure FDA0002452977460000022
6.根据权利要求5所述的基于迁移学习的跨仪器拉曼光谱定性分析方法,其特征在于,利用数据分布自适应方法寻找最优映射
Figure FDA0002452977460000023
7.根据权利要求6所述的基于迁移学习的跨仪器拉曼光谱定性分析方法,其特征在于,利用数据分布自适应方法寻找最优映射
Figure FDA0002452977460000024
具体为:采用TCA算法,最小化源域特征向量矩阵XS和目标域特征向量矩阵XT的边缘分布距离,并以最大均值差异距离作为距离测度获得最优化公式,如下:
Figure FDA0002452977460000025
具体步骤如下:
2.1.3.1)计算核矩阵K、系数矩阵L和中心矩阵H,如下:
利用线性核构造N×N维的核矩阵K,公式如下:
Figure FDA0002452977460000031
定义Ones(r,c)为r×c维的全1矩阵,构造N×N维的系数矩阵L,公式如下:
Figure FDA0002452977460000032
构造N×N维的中心矩阵H,公式如下:
Figure FDA0002452977460000033
其中,IN是N×N维的单位对角阵;
2.1.3.2)建立最优化模型并求解最优映射,如下:
通过推导转换,建立与
Figure FDA0002452977460000034
等价的最优化模型,如下:
Figure FDA0002452977460000035
其中,W为维度为N×m的待求解的最优映射
Figure FDA0002452977460000036
的映射矩阵;光谱数据映射到统一特征空间后,特征向量长度为m,并且满足m<l;tr()代表矩阵的迹;μ表示对所求解的W的复杂度的限制;Im是m×m维的单位对角阵;
使用拉格朗日对偶法,通过求解矩阵
Figure FDA0002452977460000037
的前m个特征向量,并对这些N维的特征向量按列进行合并,得到待求解的待求解的最优映射
Figure FDA0002452977460000038
的映射矩阵W。
8.根据权利要求7所述的基于迁移学习的跨仪器拉曼光谱定性分析方法,其特征在于,步骤2)中,实施最优映射,具体如下:
2.2.1)计算映射到同一特征空间后的源域数据矩阵
Figure FDA0002452977460000039
维度为NS×m,每一行表示一个源域光谱映射后的特征向量,具体为:
Figure FDA00024529774600000310
2.2.2)计算映射到同一特征空间后的目标域数据矩阵
Figure FDA00024529774600000311
维度为NT×m,每一行表示一个目标域光谱映射后的特征向量,具体为:
Figure FDA0002452977460000041
9.根据权利要求8所述的基于迁移学习的跨仪器拉曼光谱定性分析方法,其特征在于,步骤3)中,利用映射后的源域数据训练分类器,对目标域谱图进行分类识别,实现跨仪器拉曼光谱定性分析,具体如下:
选择任意一种机器学习方法,使用源域数据矩阵
Figure FDA0002452977460000042
和源域标签列向量yS训练分类器,将目标域数据矩阵
Figure FDA0002452977460000043
输入训练好的分类器,获得未标记目标域分类结果列向量yT;当目标域的第i个光谱样本被识别含有第j种目标物质时,yT(i)=j,i=1,2,…,NT,j=1,2,…,R。
10.根据权利要求1至9任一项所述的基于迁移学习的跨仪器拉曼光谱定性分析方法,其特征在于,步骤1)前,还包括如下步骤:
a)对源拉曼光谱仪器的光谱数据与目标拉曼光谱仪器的光谱数据进行预处理:采集源拉曼光谱仪器的原光谱数据dS与目标拉曼光谱仪器的原光谱数据dT,自动消除原光谱数据dS与原光谱数据dT的噪音,获取其荧光背景的光谱强度向量bS和bT
其中,原光谱数据dS的维度为2×xS,横坐标dS(1,:)记录原光谱数据dS的波数,纵坐标dS(2,:)记录波数对应的光谱信号强度,原光谱数据dT的维度为2×xT,横坐标dT(1,:)记录原光谱数据dT的波数,纵坐标dT(2,:)记录波数对应的光谱信号强度;
b)计算预处理后的源拉曼光谱仪器的光谱数据d'S和目标拉曼光谱仪器的光谱数据d'T:d'S(1,:)=dS(1,:),d'S(2,:)=dS(2,:)-bS,d'T(1,:)=dT(1,:),d'T(2,:)=dT(2,:)-bT
11.根据权利要求10所述的基于迁移学习的跨仪器拉曼光谱定性分析方法,其特征在于,步骤a)中,采用基于高斯假设的自动自适应算法自动消除原光谱数据dS与原光谱数据dT的噪音,获取其荧光背景的光谱强度向量bS和bT,通用方法如下:
a.1)输入原光谱数据d的信号强度向量s=d(2,:);
a.2)搜索s的局部极大值点;
a.3)在相邻两个局部极大值点间使用插值方法,获得荧光背景的估计曲线b;
a.4)更新光谱数据s=b,并对步骤a.2)和步骤a.3)进行自适应迭代,直至满足迭代终止条件,确定荧光背景曲线b,即为原光谱数据d的荧光背景的光谱强度向量b。
CN202010298095.5A 2020-04-16 2020-04-16 一种基于迁移学习的跨仪器拉曼光谱定性分析方法 Active CN111523582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010298095.5A CN111523582B (zh) 2020-04-16 2020-04-16 一种基于迁移学习的跨仪器拉曼光谱定性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010298095.5A CN111523582B (zh) 2020-04-16 2020-04-16 一种基于迁移学习的跨仪器拉曼光谱定性分析方法

Publications (2)

Publication Number Publication Date
CN111523582A true CN111523582A (zh) 2020-08-11
CN111523582B CN111523582B (zh) 2023-05-12

Family

ID=71903622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010298095.5A Active CN111523582B (zh) 2020-04-16 2020-04-16 一种基于迁移学习的跨仪器拉曼光谱定性分析方法

Country Status (1)

Country Link
CN (1) CN111523582B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905823A (zh) * 2021-02-22 2021-06-04 深圳市国科光谱技术有限公司 一种基于大数据平台的高光谱物质检测识别系统及方法
CN113160903A (zh) * 2021-04-23 2021-07-23 中国科学院西安光学精密机械研究所 一种基于迁移学习的硝酸盐浓度预测模型泛化方法
CN116631502A (zh) * 2023-07-24 2023-08-22 中国人民解放军总医院 基于超图学习的抗病毒药物筛选方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576485A (zh) * 2009-06-04 2009-11-11 浙江大学 一种多源光谱融合水质分析方法
CN107679569A (zh) * 2017-09-27 2018-02-09 厦门大学 基于自适应超图算法的拉曼光谱物质自动识别方法
CN109142317A (zh) * 2018-08-29 2019-01-04 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法
CN110210464A (zh) * 2019-07-09 2019-09-06 厦门大学 一种基于迁移学习的拉曼光谱智能分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576485A (zh) * 2009-06-04 2009-11-11 浙江大学 一种多源光谱融合水质分析方法
CN107679569A (zh) * 2017-09-27 2018-02-09 厦门大学 基于自适应超图算法的拉曼光谱物质自动识别方法
CN109142317A (zh) * 2018-08-29 2019-01-04 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法
CN110210464A (zh) * 2019-07-09 2019-09-06 厦门大学 一种基于迁移学习的拉曼光谱智能分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YI XIE ET.AL: "An auto-adaptive background subtraction method for Raman spectra" *
刘国坤: "分子与金属间作用的振动光谱研究 ————分子在铂族金属上吸附与反应的表面增强拉曼光谱和分子与金属间电荷传递的超快红外光谱" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905823A (zh) * 2021-02-22 2021-06-04 深圳市国科光谱技术有限公司 一种基于大数据平台的高光谱物质检测识别系统及方法
CN112905823B (zh) * 2021-02-22 2023-10-31 深圳市国科光谱技术有限公司 一种基于大数据平台的高光谱物质检测识别系统及方法
CN113160903A (zh) * 2021-04-23 2021-07-23 中国科学院西安光学精密机械研究所 一种基于迁移学习的硝酸盐浓度预测模型泛化方法
CN116631502A (zh) * 2023-07-24 2023-08-22 中国人民解放军总医院 基于超图学习的抗病毒药物筛选方法、系统及存储介质

Also Published As

Publication number Publication date
CN111523582B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN111523582B (zh) 一种基于迁移学习的跨仪器拉曼光谱定性分析方法
EP1814044B1 (en) Paint pigment identification method, identification system, identification program, and recording medium thereof
CN101401101B (zh) 用于通过谱分析鉴定dna模式的方法和系统
CN107818298B (zh) 用于机器学习物质识别算法的通用拉曼光谱特征提取方法
US6195659B1 (en) Method and apparatus for morphological clustering having multiple dilation and erosion of switchable grid data cells
Qureshi et al. Adaptive discriminant wavelet packet transform and local binary patterns for meningioma subtype classification
CN112766227B (zh) 一种高光谱遥感影像分类方法、装置、设备及存储介质
Sridhar et al. Content-based image retrieval of digitized histopathology in boosted spectrally embedded spaces
Sotoca et al. Band selection in multispectral images by minimization of dependent information
Keivani et al. Automated analysis of leaf shape, texture, and color features for plant classification.
CN112926045B (zh) 一种基于逻辑回归模型的群控设备识别方法
CN113489685A (zh) 一种基于核主成分分析的二次特征提取及恶意攻击识别方法
Palaniswamy et al. Automatic identification of landmarks in digital images
CN116204831A (zh) 一种基于神经网络的道地性分析方法
US7991223B2 (en) Method for training of supervised prototype neural gas networks and their use in mass spectrometry
Orlov et al. Computer vision for microscopy applications
Muzakir et al. Model for Identification and Prediction of Leaf Patterns: Preliminary Study for Improvement
CN111426657B (zh) 一种溶解性有机物三维荧光谱图的识别比对方法
CN117036904A (zh) 注意力引导的半监督玉米高光谱图像数据扩充方法
CN111914922A (zh) 一种基于局部卷积和空洞卷积的高光谱图像分类方法
CN116704241A (zh) 一种全通道3d卷积神经网络高光谱遥感图像分类方法
CN112330622B (zh) 一种基于地物最大区分度的高光谱图像波段选择方法
Kou et al. Karyotyping of comparative genomic hybridization human metaphases by using support vector machines
Lavangnananda et al. Effectiveness of Different Preprocessing Techniques on Classification of Various Lengths of Control Charts Patterns
Rastogi et al. Detecting document forgery using hyperspectral imaging and machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant