CN113971747A - 拉曼光谱数据处理方法、装置、设备与可读存储介质 - Google Patents

拉曼光谱数据处理方法、装置、设备与可读存储介质 Download PDF

Info

Publication number
CN113971747A
CN113971747A CN202111593447.0A CN202111593447A CN113971747A CN 113971747 A CN113971747 A CN 113971747A CN 202111593447 A CN202111593447 A CN 202111593447A CN 113971747 A CN113971747 A CN 113971747A
Authority
CN
China
Prior art keywords
information
spectral
frequency domain
translation
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111593447.0A
Other languages
English (en)
Other versions
CN113971747B (zh
Inventor
何兆铭
王晨卉
李贺军
毕海
王悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ji Hua Laboratory
Original Assignee
Ji Hua Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ji Hua Laboratory filed Critical Ji Hua Laboratory
Priority to CN202111593447.0A priority Critical patent/CN113971747B/zh
Publication of CN113971747A publication Critical patent/CN113971747A/zh
Application granted granted Critical
Publication of CN113971747B publication Critical patent/CN113971747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/65Raman scattering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Spectrometry And Color Measurement (AREA)

Abstract

本发明公开了一种拉曼光谱数据处理方法、装置、设备与可读存储介质,属于数字信号处理技术领域。本发明通过获取原始光谱数据,对所述原始光谱数据进行降维,得到降维后的光谱信息;并基于所述原始光谱数据,获取平移特征信息;将所述光谱信息和所述平移特征信息进行特征拼接,以得到新的特征表示方法,使用本发明中的新的特征表示方法进行预测,能够有效地避免测试时间不同引起的采样点平移的影响,并且显著提升预测模型的预测精度以及模型的泛化能力,提高了检测效率。

Description

拉曼光谱数据处理方法、装置、设备与可读存储介质
技术领域
本发明涉及数字信号处理领域,尤其涉及拉曼光谱数据处理方法、装置、设备与可读存储介质。
背景技术
拉曼光谱分析法是基于印度科学家C.V.拉曼(Raman)所发现的拉曼散射效应,对与入射光频率不同的散射光谱进行分析以得到分子振动、转动方面信息,并应用于分子结构研究的一种分析方法。
现有的拉曼光谱分析技术通常使用PCA(Principal Component Analysis,PCA)算法结合分类器构建预测模型的方式对测试样品进行定性或者定量分析。具体通常首先构建测试样品数据集,将拉曼光谱进行平滑去噪处理后进行降维,使用降维后的数据进行后续分析处理。
但在现有拉曼光谱分析技术中,在对一批样本进行测试时,除了需要采集待测样品的光谱外,还需要在同等条件下采集构建用于模型训练的数据集,一旦设备中的光学部件随着环境温湿度等因素发生变化后,新的测试样品光谱会在采样位置出现一定的偏移。这时候,如果待测样品之间的区别很小,使用上一次测量结果构建的模型将无法准确地对新测试获得的样品进行预测。这就使得下一次进行检测时又需要重新构建一次用于模型训练的数据集,这样检测的效率会大大降低。
发明内容
本发明的主要目的在于提供一种拉曼光谱数据处理方法、装置、设备与可读存储介质,旨在解决拉曼光谱设备采样位置出现平移误差时,如何获得更为精准的预测信息,提高检测效率的问题。
为实现上述目的,本发明提供一种拉曼光谱数据处理方法,所述拉曼光谱数据处理方法包括以下步骤:
获取原始光谱数据;
对所述原始光谱数据进行降维,得到降维后的光谱信息;
基于所述原始光谱数据,获取平移特征信息;
将所述光谱信息和所述平移特征信息进行特征拼接,以得到新的特征表示方法。
可选地,所述平移特征信息包括:平移信息,所述基于所述原始光谱数据,获取平移特征信息的步骤包括:
基于所述原始光谱数据,得到每个光谱对应的参考点;
计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,将所述相对平移程度作为平移信息;
可选地,所述计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,将所述相对平移程度作为平移信息的步骤包括:
计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,基于所述相对平移程度,获取对应的第一权重系数;
将所述相对平移程度与所述第一权重系数相乘,得到平移信息。
可选地,所述平移特征信息包括:频域信息,所述基于所述原始光谱数据,获取平移特征信息的步骤包括:
对所述原始光谱数据进行快速傅里叶变换处理,得到光谱频域信息;
对所述光谱频域信息进行降维,得到所述频域信息。
可选地,所述对所述光谱频域信息进行降维,得到所述频域信息的步骤包括:
对所述光谱频域信息进行降维,得到对应的光谱频域降维信息;
基于所述光谱频域降维信息,获取对应的第二权重系数;
将所述光谱频域降维信息与所述第二权重系数相乘,得到所述频域信息。
可选地,所述基于所述光谱频域降维信息,获取对应的第二权重系数的步骤包括:
基于所述光谱频域信息,获取所述第一权重系数的候选参数表;
遍历所述候选参数表,确认所述候选参数表选中效果最优的候选参数,将所述候选参数作为所述第二权重系数。
可选地,所述基于所述光谱频域降维信息,获取对应的第二权重系数的步骤包括:
将所述光谱频域信息输入预构建的神经网络;
由所述神经网络得到对应的第二权重系数。
可选地,所述对所述原始光谱数据进行降维,得到降维后的光谱信息的步骤包括:
对所述原始光谱数据进行降维,将降维后数据作为测试集;
用所述测试集对对应的初始维度数进行调整,确认对所述原始光谱数据进行降维的维度数;
基于所述维度数,对所述原始光谱数据进行降维,得到所述光谱信息。
此外,为实现上述目的,本发明还提供一种拉曼光谱数据处理装置,所述装置包括:
获取模块,用于获取原始光谱数据;
处理模块,用于对所述原始光谱数据进行降维,得到降维后的光谱信息;
平移特征模块,用于基于所述原始光谱数据,获取平移特征信息;
特征融合模块,用于将所述光谱信息和所述平移特征信息进行特征拼接,以得到新的特征表示方法。
可选地,所述平移特征模块还用于:
基于所述原始光谱数据,得到每个光谱对应的参考点;
计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,将所述相对平移程度作为平移信息;
可选地,所述平移特征模块还用于:
计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,基于所述相对平移程度,获取对应的第一权重系数;
将所述相对平移程度与所述第一权重系数相乘,得到平移信息。
可选地,所述平移特征模块还用于:
对所述原始光谱数据进行快速傅里叶变换处理,得到光谱频域信息;
对所述光谱频域信息进行降维,得到所述频域信息。
可选地,所述平移特征模块还用于:
对所述光谱频域信息进行降维,得到对应的光谱频域降维信息;
基于所述光谱频域降维信息,获取对应的第二权重系数;
将所述光谱频域降维信息与所述第二权重系数相乘,得到所述频域信息。
可选地,所述平移特征模块还用于:
基于所述光谱频域信息,制定所述第二权重系数的候选参数表;
遍历所述候选参数表,确认所述候选参数表选中效果最优的候选参数,将所述候选参数作为所述第二权重系数。
可选地,所述平移特征模块还用于:
将所述光谱频域信息输入预构建的神经网络;
由所述神经网络得到对应的第二权重系数。
可选地,所述处理模块还用于:
对所述原始光谱数据进行降维,将降维后数据作为测试集;
用所述测试集对对应的初始维度数进行调整,确认对所述原始光谱数据进行降维的维度数;
基于所述维度数,对所述原始光谱数据进行降维,得到所述光谱信息。
此外,为实现上述目的,本发明还提供一种拉曼光谱数据处理设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的拉曼光谱数据处理程序,所述拉曼光谱数据处理程序配置为实现如上所述的拉曼光谱数据处理方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有拉曼光谱数据处理程序,所述拉曼光谱数据处理程序被处理器执行时实现如上所述的拉曼光谱数据处理方法的步骤。
本发明提出的拉曼光谱数据处理方法,通过获取原始光谱数据,并对原始光谱数据进行降维处理,得到原始数据;再对原始光谱数据进行快速傅里叶变换,得到光谱频域信息,对光谱频域信息进行降维处理,得到频域信息;从原始光谱数据中获取平移信息;将所述光谱信息、频域信息和平移信息进行特征拼接以得到新的特征表示方法。本发明对拉曼光谱数据进行处理,得到了融合了拉曼光谱的平移特征信息的新的特征表示方法,从而支持使用训练好的数学模型对不同时间测试的样本进行准确分析,克服了传统方法需要在测试待测物品前需要重新用标定的样品重新构建数学模型的问题,提高了检测效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的拉曼光谱数据处理设备的结构示意图;
图2为本发明拉曼光谱数据处理方法第一实施例的流程示意图;
图3为本发明拉曼光谱数据处理方法一实施例特征融合方式示意图;
图4为本发明拉曼光谱数据处理方法一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的拉曼光谱数据处理设备结构示意图。
如图1所示,该拉曼光谱数据处理设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对拉曼光谱数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及拉曼光谱数据处理程序。
在图1所示的拉曼光谱数据处理设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明拉曼光谱数据处理设备中的处理器1001、存储器1005可以设置在拉曼光谱数据处理设备中,所述拉曼光谱数据处理设备通过处理器1001调用存储器1005中存储的拉曼光谱数据处理程序,并执行本发明实施例提供的拉曼光谱数据处理方法。
本发明实施例提供了一种拉曼光谱数据处理方法,参照图2,图2为本发明一种拉曼光谱数据处理方法第一实施例的流程示意图。
本实施例中,所述拉曼光谱数据处理方法包括:
步骤S10,获取原始光谱数据;
步骤S20,对所述原始光谱数据进行降维,得到降维后的光谱信息;
步骤S30,基于所述原始光谱数据,获取平移特征信息;
步骤S40,将所述光谱信息和所述平移特征信息进行特征拼接,以得到新的特征表示方法。
本实施例拉曼光谱数据处理方法用于拉曼光谱仪获取拉曼光谱数据时,对获取的数据进行修正处理。在测量拉曼光谱时,拉曼设备中的光学部件会随着环境温湿度等因素发生变化,这些变化会造成光路系统的微小偏差,最终导致CCD采样位置发生一定平移。此外设备在测试前通常会进行自校正,在重置光路时也会造成CCD采样位置发生一定平移。CCD采样位置的偏差通常能够达到分辨率的5%左右,在对新数据进行预测时,通常会由于采样位置的轻微平移对预测精度造成很大的影响。当我们希望使用同一个模型对不同时间测量得到的拉曼光谱进行分类时,特别是预测对象的光谱极为相似较难区分的情况下,就需要使用合适的方法避免或者减少光谱采样位置平移对样品分类模型的影响。因此,本发明融合了与平移误差相关的平移特征信息和降维后原始光谱数据,以得到新的特征表示方法,由此新的特征表示方法进行预测,可以减少由设备采样位置平移误差带来的影响,提高后续预测模型的对测试样品的组成或性质预测的精度。
以下将对各个步骤进行详细说明:
步骤S10,获取原始光谱数据;
在一实施例中,获取原始光谱数据,具体的,通过历史实验数据,获得历史通过拉曼光谱仪测试得到的原始光谱数据。其中,原始光谱数据包括多组,并且原始光谱数据的来源或者包含的特征不同,能够在后续处理中得到不一样的特征。
步骤S20,对所述原始光谱数据进行降维,得到降维后的光谱信息;
在一实施例中,对原始光谱数据进行降维处理,以获得降维后的光谱信息。在机器学习项目中,通常需要进行特征选择/降维,因为数据维度过大会提高模型的复杂度,特别对于一些样本数据不足的情况,最终训练的模型会泛化性差。因此,本实施例通过对原始光谱数据进行降维,以去除数据属性之间的共线性,可以优化模型,提高模型鲁棒性和泛化性。常用的降维方法有:主成分析(PCA)、线性判断分析(LDA)等,降维方法的选择可以根据实际情况进行选择。
步骤S30,基于所述原始光谱数据,获取平移特征信息;
在一实施例中,根据原始光谱数据,获取平移特征信息。可以理解的,为了消除由采样位置偏移所带来的误差,需要获取能够帮助确定光谱平移数值的特征参数,利用这些平移特征信息来对不同情况下获取的光谱数据进行预测分析。
步骤S40,将所述光谱信息和所述平移特征信息进行特征拼接,得到能够更好描述原始光谱数据的新的特征表示方法。
在一实施例中,将降维得到的光谱信息和平移特征信息进行特征拼接,得到新的特征表示方法,该新的特征表示方法是能够更好描述原始光谱数据的特征表示方法。可以理解的,如果只有降维得到的光谱信息,就无法根据检测设备出现的偏差对预测结果做出调整,因此,本实施例在预测模型的输入数据中加入了平移特征信息,将光谱信息和平移特征信息进行拼接,以生成新的特征表示方法。
在本实施例中,通过对获取的原始光谱数据进行降维得到降维后的光谱信息,并获取光谱的平移特征信息(一种方式中:光谱的平移特征信息可以通过对原始光谱数据进行快速傅里叶变换处理,得到光谱频域信息,再对光谱频域信息进行降维得到),对光谱信息和平移特征信息进行特融合后,得到新的特征表示方法,预测模型使用提取的新的特征表示方法,能够有效反应不同批次的测量结果间的关系,从而支持使用训练好的预测模型对不同时间测试的样本进行准确分析。克服了传统方法需要在测试待测物品前需要重新用标定的样品重新构建预测模型的问题,为光谱检测产品推广提供了一种可靠的特征提取方法。
进一步地,基于本发明拉曼光谱数据处理方法第一实施例,提出本发明拉曼光谱数据处理方法第二实施例。
参照图3,图3为图2中所述基于所述原始光谱数据,获取平移特征信息的细化流程示意图,在第二实施例中,所述平移特征信息包括:平移信息,则步骤S30包括:
步骤S31,基于所述原始光谱数据,得到原始光谱数据中的参考点;
步骤S32,计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,将所述相对平移程度作为平移信息;
在一实施例中,基于原始光谱数据,确认原始光谱数据中的参考点,计算每个光谱相对参考点的相对平移程度,将相对平移程度作为平移信息。本实施例中,平移特征信息还包括平移信息。具体的,得到平移信息的方法为:根据每次测试设置的采集范围,得到参考点,再将此参考点与光谱数据进行对比,得到每个光谱相对参考点的相对平移程度。比如我们想采集的光谱是从100.000~1000.000这一部分波数的,但是仪器给的窗口的起始位置是100.002~1000.001,或者是99.999~999.999,会有小数点后几位差值,如果将参考点确认为100.000、1000.000,那么这几位差值就是我们的平移信息。参考点的确认跟仪器的分辨率,所处环境等有关,每次仪器校准的时候会被记录在仪器的状态里,影响后续光谱x轴的确定。因此,为了更好地提升预测模型的分类精度,通过确认参考点,获取光谱的相对平移程度作为平移信息。
进一步地,在一实施例中,所述计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,将所述相对平移程度作为平移信息的步骤包括:
步骤S321,计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,基于所述相对平移程度,获取对应的第一权重系数;
在一实施例中,根据相对平移程度,去获取对应的第一权重系数。可以理解的,在进行特征拼接时,需要对拼接的各个部分数据进行权重调整,如果某一部分数据的数值较大,可能在后续的预测中对这部分的特征会更加偏重,导致预测结果的偏差,因此,需要对相对平移程度的融合权重进行处理,也即需要获取对应的第一权重系数。
步骤S322,将所述相对平移程度与所述第一权重系数相乘,得到平移信息。
在一实施例中,在得到第一权重系数后,将第一权重系数与相对平移程度相乘,得到最终的平移信息。第一权重系数为调整相对平移程度的权重系数,为了提高后续特征拼接效果,将获得的相对平移程度信息与第一权重系数相乘得到平移信息。
进一步地,在一实施例中,所述平移特征信息包括:频域信息,所述基于所述原始光谱数据,获取平移特征信息的步骤包括:
步骤S33,对所述原始光谱数据进行快速傅里叶变换处理,得到光谱频域信息;
在一实施例中,将原始光谱数据进行快速傅里叶变换,以得到光谱频域信息。其中,通过快速傅里叶变换(Fast Fourier Transform,FFT)可以将一个原始光谱数据中的信号从时域变换到频域,其本质是把原光谱分解成许多不同频率的正弦波的叠加和。可以理解的,由于快速傅里叶变换的方法对光谱采样点平移较为敏感,使用快速傅里叶变换提取的附加信息能够帮助分类器得到更加明显的平移信息。具体的,一种实施方法为设置FFT窗宽为光谱的长度,使用汉明窗(hamming window)作为变换窗口。由于FFT变换具有对称性,FFT变换后的频谱图,有实部和虚部,为了减少数据量,使用变换后的实部的前半部分或者后半部分进行降维。可以理解的,在数字信号处理过程中,每次FFT变换只能对有限长度的时域数据进行变换,因此,需要对时域信号进行信号截断。即使是周期信号,如果截断的时间长度不是周期的整数倍,那么,截取后的信号将会存在泄漏,为了将这个泄漏误差减少到最小程度,我们需要使用窗函数。上述汉明窗为窗函数中的一种,本实施例还可以选用汉宁窗等其他变化窗口,变换窗口可以根据具体情况选择。
步骤S34,对所述光谱频域信息进行降维,得到所述频域信息;
在一实施例中,对原始光谱数据进行快速傅里叶变换处理后,得到光谱频域信息,对该光谱频域信息进行降维得到频域信息。需要说明的,数据是否需要降维虽然是取决于后续预测模型的,例如:模型对输入数据维度要求不高或者模型特征提取能力比较强,可以不进行降维,但是为了减轻后续模型提取数据工作量,提高数据与模型适配率,以及提高效率,因此本实施中对数据进行降维处理。
本实施例中平移特征信息包括平移信息和频域信息,通过从原始光谱数据,得到每个光谱对应的参考点,计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,将所述相对平移程度作为平移信息;计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,基于所述相对平移程度,获取对应的第一权重系数;将所述相对平移程度与所述第一权重系数相乘,得到平移信息;对所述原始光谱数据进行快速傅里叶变换处理,得到光谱频域信息;对所述光谱频域信息进行降维,得到所述频域信息,实现了平移特征信息的获取,以对新的特征表示方法进行丰富,方便后续预测试样过程中对平移误差的校正。
进一步地,基于本发明拉曼光谱数据处理方法的在前实施例,提出本发明拉曼光谱数据处理方法的第三实施例,在本实施例中,所述对所述光谱频域信息进行降维,得到所述频域信息的步骤包括:
步骤S341,对所述光谱频域信息进行降维,得到对应的光谱频域降维信息;
在一实施例中,对光谱频域信息进行降维得到对应的光谱频域降维信息。此部分的降维方式可选地有PCA、LDA等等,可以与对原始光谱数据进行降维的方法一致,因此,在此不加赘述。
步骤S342,基于所述光谱频域降维信息,获取对应的第二权重系数;
在一实施例中,根据光谱频域降维信息,得到对应的第二权重系数。其中,第二权重系数为调整频域信息的权重系数。第二权重系数与第一权重系数类似,都是为了提高后续特征拼接效果。第二权重系数可以由人为设定,也可以通过计算得到。
步骤S343,将所述光谱频域降维信息与所述第二权重系数相乘,得到所述频域信息。
在一实施例中,将光谱频域降维信息与第二权重系数相乘,得到频域信息。在本实施例中,对快速傅里叶变换后得到的光谱频域信息进行降维,并且赋予降维后光谱频域降维信息一个第二权重系数,就是为了调整在后续特征拼接中,光谱频域信息对特征的贡献,因此,将光谱频域降维信息与第二权重系数相乘,得到最终的频域信息。
进一步地,在一实施例中,基于所述光谱频域降维信息,获取对应的第二权重系数的步骤包括:
步骤a,基于所述光谱频域信息,制定所述第二权重系数的候选参数表;
步骤b,遍历所述候选参数表,确认所述候选参数表选中效果最优的候选参数,将所述候选参数作为所述第二权重系数。
在一实施例中,基于光谱频域信息,获取第二权重系数的候选参数表,通过遍历候选参数表的方式得到第二权重系数。可以理解的,在进行特征融合时需要进行融合系数的调整来获得最佳的预测准确度。使用常用的超参数优化方法可以对第二权重系数进行优化。其中,超参数优化是为学习算法选择一组最优超参数的问题,超参数是在建立模型时用来控制算法行为的参数。这些参数不能从正常的训练过程中学习。他们需要在训练模型之前被分配。在本实施例中,基于所述光谱频域信息,由研发人员根据经验设置第二权重系数的候选参数表,使用网格搜索(Grid search)法,在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终选定的参数。通过超参数优化方法得到一个固定的第一权重参数。当然,其他可选的超参数优化方法还有随机搜索,贝叶斯优化等。
进一步地,在一实施例中,所述基于所述光谱频域降维信息,获取对应的第二权重系数的步骤包括:
步骤c,将所述光谱频域信息输入预构建的神经网络;
步骤d,由所述神经网络得到对应的第二权重系数。
在一实施例中,可以理解的,当所述为定值的第二权重系数不能满足某些任务,或者精度达不到要求时,需要获取一个能根据输入的光谱频域信息动态生成的第二权重系数。因此,将光谱频域信息输入预构建的神经网络,通过神经网络得到第二权重系数。
在使用神经网络构建的预测模型进行预测时,本实施例提出使用self-attention的方式训练一个小的神经网络根据输入光谱频域信息降维后的数据动态生成不同特征对应的系数。
在使用非神经网络模型作为预测模型时,如果预测模型能支持梯度传播,则仍然可以使用self-attention的方式产生第二权重系数。但是在训练网络和预测模型时需要分开进行训练,具体训练步骤如下:
(1)初始化attention神经网络。
(2)使用新的特征表示方法训练预测模型。
(3)固定预测模型的参数,对attention神经网络进行训练。
(4)重复步骤(1)和(2)直到模型达到想要的效果,目标。
也即对attention神经网络和预测模型进行交替训练,以对attention神经网络和预测模型进行调参。
需要说明的是,对第一权重参数进行优化方法不进行限定,本实施例使用self-attention的方法仅作为一种优选方法,经过测试使用self-attention进行优化得到的第一权重参数在后续预测中能够取到更好的预测精度。
参照图3对本实施例进行解释,图3为本发明拉曼光谱数据处理方法一实施例特征融合方式示意图。
需要说明的是,图中原始光谱就是本文中提到的原始光谱数据,光谱频移信息就是相对平移程度,图中以使用PCA(主成分分析)方法进行降维为例,对原始光谱进行PCA降维得到降维后的光谱信息;对原始光谱进行FFT变换得到光谱频域信息,对光谱频域信息进行降维,得到PCA降维后的频域也即降维信息,基于attention(注意力)网络获取傅里叶系数也即第二权重系数,将傅里叶系数与PCA降维后的频域相乘,得到频域信息;基于attention网络,获取光谱频移信息也即相对平移程度对应的平移信息系数,也即本实施例中的第一权重参数,将所述第二权重系数与光谱频移信息相乘得到平移信息;将降维后的光谱信息、频域信息和平移信息进行特征拼接。
其中,对第一权重参数进行优化的方法与对第二权重系数进行优化的方式相同,在此不加赘述。需要说明的是,上述调整权重参数的方法可以是固定其中一个权重参数对另一个权重参数进行调参,也可以两个权重参数同时进行调参。
本实施例在获取平移特征信息的过程中做了多项处理,通过给降维得到光谱频域信息和相对平移程度增加了特征融合系数,也即第一权重系数和第二权重系数,并且对第一权重系数和第二权重系数进行调参优化,以获得提高的特征拼接效果。
进一步地,基于本发明拉曼光谱数据处理方法的在前实施例,提出本发明拉曼光谱数据处理方法第四实施例。
拉曼光谱数据处理方法方法的第四实施例与拉曼光谱数据处理方法的在前实施例的区别在于,所述对所述原始光谱数据进行降维,得到降维后的光谱信息的步骤包括:
步骤S21,对所述原始光谱数据进行降维,将降维后数据作为测试集;
步骤S22,用所述测试集对对应的初始维度数进行调整,确认对所述原始光谱数据进行降维的维度数;
步骤S23,基于所述维度数,对所述原始光谱数据进行降维,得到所述光谱信息。
本实施例对原始光谱数据进行降维所需的维度数进行确认。可以理解的,一般在构建光谱数据集时,特征的维度对预测模型的性能有很大影响,需要设置合适的特征维度。
以下将对各个步骤进行详细说明:
步骤S21,对所述原始光谱数据进行降维,将降维后数据作为测试集;
本实施例对原始光谱数据进行降维,把降维得到的数据作为测试集数据。在一实施例中,降维可以使用PCA(Principal Component Analysis,主成分分析),PCA 是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。经过研发人员测试,使用PCA降维的效果更佳,例如:将PCA降维后的数据用于后面模型中,进行预测分析,所得到特征分的比较开,对两种相似的物品进行预测,最后得到结果的区分度高。
步骤S22,用所述测试集对对应的初始维度数进行调整,确认对所述原始光谱数据进行降维的维度数;
在一实施例中,用所述测试集对对应的初始维度数进行调整,确认对所述原始光谱数据进行降维的维度数。以使用PCA降维为例,PCA的原理是,为了将数据从n维降低到k维,需要找到k个向量,用于投影原始数据,使投影误差(投影距离)最小,其中k就是主成分数量也即维度数。本实施例以采用PCA方法对原始光谱数据进行降维为例,在确定这个部分各包含的维度数时可以使用如下方法:(1)使用原始光谱PCA降维后的数据作为训练集的数据,加上一个支持向量机(support vector machines,SVM)或者全连接神经网络等分类器,进行K折交叉验证,由小向大逐渐增加维度数,直到预测精度开始下降,选择K折交叉验证预测最高时的主成数量作为原始数据PCA降维的维度数。
需要说明的是,本实施例中对原始光谱数据进行降维以及对光谱频域信息进行降维的过程中,都需要确定维度数,在确认光谱频域信息的维度数时,步骤(1)后,确认光谱频域信息降维维度数的步骤为:固定原始数据PCA降维的维度数,利用测试集数据来调整维度数。将FFT得到的信息数据通过PCA降维后直接拼接在第一部分获得的数据后面,由小向大逐渐增加新增维度数,在测试集中验证预测精度。直到预测精度开始下降,选择在测试集中高时的主成数量作为FFT使用PCA降维的维度数。
步骤S23,基于所述维度数,对所述原始光谱数据进行降维,得到所述光谱信息。
在一实施例中,将获得的维度数用于对原始光谱数据进行降维,得到光谱信息。可以理解的,得到具有最优效果的维度数后,就根据该维度数对原始光谱数据进行降维,具体的降维过程在此不加赘述。
本实施例通过对原始光谱数据进行降维,得到初始的训练集数据,通过训练集数据优化初始维度数,得到最终原始光谱数据降维的维度数,再用这个维度数对原始光谱数据进行降维,以提高降维后的数据在后续特征预测模型中的预测效果。
本发明还提供一种拉曼光谱数据处理装置。如图3所示,图3是本发明拉曼光谱数据处理方法一实施例的功能模块示意图。
本发明拉曼光谱数据处理装置包括:
获取模块,用于获取原始光谱数据;
处理模块,用于对所述原始光谱数据进行降维,得到降维后的光谱信息;
平移特征模块,用于基于所述原始光谱数据,获取平移特征信息;
特征融合模块,用于将所述光谱信息和所述平移特征信息进行特征拼接,以得到新的特征表示方法。
可选地,所述平移特征模块还用于:
基于所述原始光谱数据,得到每个光谱对应的参考点;
计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,将所述相对平移程度作为平移信息;
可选地,所述平移特征模块还用于:
计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,基于所述相对平移程度,获取对应的第一权重系数;
将所述相对平移程度与所述第一权重系数相乘,得到平移信息。
可选地,所述平移特征模块还用于:
对所述原始光谱数据进行快速傅里叶变换处理,得到光谱频域信息;
对所述光谱频域信息进行降维,得到所述频域信息。
可选地,所述平移特征模块还用于:
对所述光谱频域信息进行降维,得到对应的光谱频域降维信息;
基于所述光谱频域降维信息,获取对应的第二权重系数;
将所述光谱频域降维信息与所述第二权重系数相乘,得到所述频域信息。
可选地,所述平移特征模块还用于:
基于所述光谱频域信息,制定所述第二权重系数的候选参数表;
遍历所述候选参数表,确认所述候选参数表选中效果最优的候选参数,将所述候选参数作为所述第二权重系数。
可选地,所述平移特征模块还用于:
将所述光谱频域信息输入预构建的神经网络;
由所述神经网络得到对应的第二权重系数。
可选地,所述处理模块还用于:
对所述原始光谱数据进行降维,将降维后数据作为测试集;
用所述测试集对对应的初始维度数进行调整,确认对所述原始光谱数据进行降维的维度数;
基于所述维度数,对所述原始光谱数据进行降维,得到所述光谱信息。
本发明还提供一种可读存储介质。
本发明可读存储介质上存储有拉曼光谱数据处理程序,所述拉曼光谱数据处理程序被处理器执行时实现如上所述的拉曼光谱数据处理方法的步骤。
其中,在所述处理器上运行的拉曼光谱数据处理程序被执行时所实现的方法可参照本发明拉曼光谱数据处理方法各个实施例,此处不再赘述。
本发明提出的拉曼光谱数据处理方法、装置、设备与可读存储介质,通过获取原始光谱数据,对所述原始光谱数据进行降维,得到降维后的光谱信息;并基于所述原始光谱数据,获取平移特征信息;将所述光谱信息和所述平移特征信息进行特征拼接,以得到新的特征表示方法,使用本发明中的新的特征表示方法进行预测,能够有效地避免测试时间不同引起的采样点平移的影响,并且显著提升预测模型的预测精度以及模型的泛化能力,提高了检测效率。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个拉曼光谱数据处理”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种拉曼光谱数据处理方法,其特征在于,所述拉曼光谱数据处理方法包括以下步骤:
获取原始光谱数据;
对所述原始光谱数据进行降维,得到降维后的光谱信息;
基于所述原始光谱数据,获取平移特征信息;
将所述光谱信息和所述平移特征信息进行特征拼接,以得到新的特征表示方法。
2.如权利要求1所述的拉曼光谱数据处理方法,其特征在于,所述平移特征信息包括:平移信息,所述基于所述原始光谱数据,获取平移特征信息的步骤包括:
基于所述原始光谱数据,得到每个光谱对应的参考点;
计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,将所述相对平移程度作为平移信息。
3.如权利要求2所述的拉曼光谱数据处理方法,其特征在于,所述计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,将所述相对平移程度作为平移信息的步骤包括:
计算得到所述原始光谱数据中每个光谱相对所述参考点的相对平移程度,基于所述相对平移程度,获取对应的第一权重系数;
将所述相对平移程度与所述第一权重系数相乘,得到平移信息。
4.如权利要求1所述的拉曼光谱数据处理方法,其特征在于,所述平移特征信息包括:频域信息,所述基于所述原始光谱数据,获取平移特征信息的步骤包括:
对所述原始光谱数据进行快速傅里叶变换处理,得到光谱频域信息;
对所述光谱频域信息进行降维,得到所述频域信息。
5.如权利要求4所述的拉曼光谱数据处理方法,其特征在于,所述对所述光谱频域信息进行降维,得到所述频域信息的步骤包括:
对所述光谱频域信息进行降维,得到对应的光谱频域降维信息;
基于所述光谱频域降维信息,获取对应的第二权重系数;
将所述光谱频域降维信息与所述第二权重系数相乘,得到所述频域信息。
6.如权利要求5所述的拉曼光谱数据处理方法,其特征在于,所述基于所述光谱频域降维信息,获取对应的第二权重系数的步骤包括:
基于所述光谱频域信息,制定所述第二权重系数的候选参数表;
遍历所述候选参数表,确认所述候选参数表选中效果最优的候选参数,将所述候选参数作为所述第二权重系数;或者
所述基于所述光谱频域降维信息,获取对应的第二权重系数的步骤包括:
将所述光谱频域信息输入预构建的神经网络;
由所述神经网络得到对应的第二权重系数。
7.如权利要求1所述的拉曼光谱数据处理方法,其特征在于,所述对所述原始光谱数据进行降维,得到降维后的光谱信息的步骤包括:
对所述原始光谱数据进行降维,将降维后数据作为测试集;
用所述测试集对对应的初始维度数进行调整,确认对所述原始光谱数据进行降维的维度数;
基于所述维度数,对所述原始光谱数据进行降维,得到所述光谱信息。
8.一种拉曼光谱数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取原始光谱数据;
处理模块,用于对所述原始光谱数据进行降维,得到降维后的光谱信息;
平移特征模块,用于基于所述原始光谱数据,获取平移特征信息;
特征融合模块,用于将所述光谱信息和所述平移特征信息进行特征拼接,以得到新的特征表示方法。
9.一种拉曼光谱数据处理设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的拉曼光谱数据处理程序,所述拉曼光谱数据处理程序配置为实现如权利要求1至7中任一项所述的拉曼光谱数据处理方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有拉曼光谱数据处理程序,所述拉曼光谱数据处理程序被处理器执行时实现如权利要求1至7任一项所述的拉曼光谱数据处理方法的步骤。
CN202111593447.0A 2021-12-24 2021-12-24 拉曼光谱数据处理方法、装置、设备与可读存储介质 Active CN113971747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111593447.0A CN113971747B (zh) 2021-12-24 2021-12-24 拉曼光谱数据处理方法、装置、设备与可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111593447.0A CN113971747B (zh) 2021-12-24 2021-12-24 拉曼光谱数据处理方法、装置、设备与可读存储介质

Publications (2)

Publication Number Publication Date
CN113971747A true CN113971747A (zh) 2022-01-25
CN113971747B CN113971747B (zh) 2022-04-26

Family

ID=79590773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111593447.0A Active CN113971747B (zh) 2021-12-24 2021-12-24 拉曼光谱数据处理方法、装置、设备与可读存储介质

Country Status (1)

Country Link
CN (1) CN113971747B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542288A (zh) * 2011-11-28 2012-07-04 北京航空航天大学 一种高光谱数据多特征空间构建与融合分类方法
CN103606139A (zh) * 2013-09-09 2014-02-26 上海大学 一种声纳图像拼接方法
CN106960221A (zh) * 2017-03-14 2017-07-18 哈尔滨工业大学深圳研究生院 一种基于光谱特征和空间特征融合的高光谱图像分类方法及系统
CN107451614A (zh) * 2017-08-01 2017-12-08 西安电子科技大学 基于空间坐标与空谱特征融合的高光谱分类方法
CN109959624A (zh) * 2019-02-15 2019-07-02 中国黄金集团石湖矿业有限公司 基于反射光谱的矿物识别方法
CN111504979A (zh) * 2020-05-19 2020-08-07 江南大学 利用已知混合物拉曼光谱改善混合物成分识别精度的方法
WO2020191857A1 (zh) * 2019-03-26 2020-10-01 中国检验检疫科学研究院 一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统与方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542288A (zh) * 2011-11-28 2012-07-04 北京航空航天大学 一种高光谱数据多特征空间构建与融合分类方法
CN103606139A (zh) * 2013-09-09 2014-02-26 上海大学 一种声纳图像拼接方法
CN106960221A (zh) * 2017-03-14 2017-07-18 哈尔滨工业大学深圳研究生院 一种基于光谱特征和空间特征融合的高光谱图像分类方法及系统
CN107451614A (zh) * 2017-08-01 2017-12-08 西安电子科技大学 基于空间坐标与空谱特征融合的高光谱分类方法
CN109959624A (zh) * 2019-02-15 2019-07-02 中国黄金集团石湖矿业有限公司 基于反射光谱的矿物识别方法
WO2020191857A1 (zh) * 2019-03-26 2020-10-01 中国检验检疫科学研究院 一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统与方法
CN111504979A (zh) * 2020-05-19 2020-08-07 江南大学 利用已知混合物拉曼光谱改善混合物成分识别精度的方法

Also Published As

Publication number Publication date
CN113971747B (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
CN108629365B (zh) 分析数据解析装置以及分析数据解析方法
JP5909233B2 (ja) 気体サンプルストリームの中の化合物の監視、検出、および定量化
Barla et al. Machine learning methods for predictive proteomics
JP6091493B2 (ja) 試料に存在する成分を決定するための分光装置と分光法
Nguyen et al. Non-negative orthogonal greedy algorithms
JP6760380B2 (ja) 分析データ処理方法及び分析データ処理装置
JP2011059500A (ja) 話者クラスタリング装置および話者クラスタリング方法
US20210157824A1 (en) Preprocessing for a Classification Algorithm
Kuhn Predictive modeling with R and the caret Package
WO2014205167A1 (en) Apparatus and methods of spectral searching using wavelet transform coefficients
Muthukrishna et al. Real-time detection of anomalies in large-scale transient surveys
JP7482782B2 (ja) 配列に基づくタンパク質の構造と特性の決定
US8725469B2 (en) Optimization of data processing parameters
CN113971747B (zh) 拉曼光谱数据处理方法、装置、设备与可读存储介质
JP7140191B2 (ja) 情報処理装置、制御方法、及びプログラム
JP2021022051A (ja) 機械学習プログラム、機械学習方法および機械学習装置
JP7018321B2 (ja) スペクトル処理装置及び方法
DelSole et al. Comparing climate time series–Part 1: Univariate test
US20220252516A1 (en) Spectroscopic apparatus and methods for determining components present in a sample
CN109145887B (zh) 一种基于光谱潜变量混淆判别的阈值分析方法
KR20210016140A (ko) 스펙트럼 분석기 및 스펙트럼 분석 방법
CN117043585A (zh) 用于化合物的基于拉曼光谱的鉴定的方法和系统
Yao et al. Forecasting method of China's total population based on intervention model
US20230280318A1 (en) Learning data producing method, waveform analysis device, waveform analysis method, and recording medium
CN117529668B (zh) 用于提供训练数据以使得神经网络能够分析nmr测量中的信号的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant