CN116380869A - 一种基于自适应稀疏分解的拉曼光谱去噪方法 - Google Patents
一种基于自适应稀疏分解的拉曼光谱去噪方法 Download PDFInfo
- Publication number
- CN116380869A CN116380869A CN202310585844.6A CN202310585844A CN116380869A CN 116380869 A CN116380869 A CN 116380869A CN 202310585844 A CN202310585844 A CN 202310585844A CN 116380869 A CN116380869 A CN 116380869A
- Authority
- CN
- China
- Prior art keywords
- raman spectrum
- spectrum
- raman
- dictionary
- peak
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001237 Raman spectrum Methods 0.000 title claims abstract description 138
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 48
- 238000001228 spectrum Methods 0.000 claims abstract description 83
- 230000003068 static effect Effects 0.000 claims abstract description 43
- 239000000126 substance Substances 0.000 claims abstract description 38
- 230000003595 spectral effect Effects 0.000 claims abstract description 14
- 239000000463 material Substances 0.000 claims abstract description 13
- 238000012937 correction Methods 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 53
- 238000007781 pre-processing Methods 0.000 claims description 29
- 238000001069 Raman spectroscopy Methods 0.000 claims description 23
- 239000000203 mixture Substances 0.000 claims description 15
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000011049 filling Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 37
- 238000012545 processing Methods 0.000 description 22
- 238000012549 training Methods 0.000 description 19
- 238000010276 construction Methods 0.000 description 18
- 239000013598 vector Substances 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 9
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 229910052717 sulfur Inorganic materials 0.000 description 7
- 239000011593 sulfur Substances 0.000 description 7
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 4
- OKKJLVBELUTLKV-UHFFFAOYSA-N Methanol Chemical compound OC OKKJLVBELUTLKV-UHFFFAOYSA-N 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 229960005489 paracetamol Drugs 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 150000001298 alcohols Chemical class 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012569 chemometric method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000004186 food analysis Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- BDERNNFJNOPAEC-UHFFFAOYSA-N propan-1-ol Chemical compound CCCO BDERNNFJNOPAEC-UHFFFAOYSA-N 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/65—Raman scattering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Pathology (AREA)
- Immunology (AREA)
- Biochemistry (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Medical Informatics (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本发明公开了一种基于自适应稀疏分解的拉曼光谱去噪方法,包括以下步骤:基于真实拉曼光谱构建静态字典;获取待处理拉曼光谱,并遍历静态字典中各物质光谱,进行相似度计算,查询相似度最高且满足预设条件的第一特征峰;当与各物质光谱的相似度均不满足预设条件时,根据所述待处理拉曼光谱构建动态字典,并生成第二特征峰;对待处理拉曼光谱进行稀疏分解,通过查询静态字典或动态字典,在所述待处理拉曼光谱中筛选出匹配的第一特征峰或第二特征峰,对所述待处理拉曼光谱进行校正,得到去噪光谱;本发明采用构建动态与静态结合的字典的对拉曼光谱中的谱峰进行校正实现去噪,提高了去噪效果。
Description
技术领域
本发明涉及光谱数据分析技术领域,更具体的说是涉及一种基于自适应稀疏分解的拉曼光谱去噪方法。
背景技术
拉曼光谱是一种散射光谱,其中特征峰与材料分子的振动或旋转能级有关,并包含关于材料分子振动或旋转的信息,拉曼特征峰可以反映物质内部的分子信息,可用于食品分析、生命科学和海关监测等领域。在分析现有技术时发现现有技术至少存在如下问题:若采用基于化学计量法的拉曼光谱预处理算法,会存在去噪鲁棒性不好、保留特征效果差和拟合峰型差等问题;若采用基于神经网络的方法对拉曼光谱进行预处理,会存在数据库构建难度大,处理速度慢等问题。
由于拉曼光谱仪大多使用CCD元件进行测量,因此经常伴随着各种噪声干扰,如散粒噪声、暗电流噪声、发射噪声等,这类噪声统称为随机噪声。此外,由于材料背景荧光的干扰,光谱中将存在严重的荧光背景噪声。这些噪声将影响拉曼光谱并扭曲光谱特征峰。现阶段,常用的拉曼光谱预处理思路主要有以下两种:
基于化学计量学的光谱预处理方法:先利用平滑滤波去除光谱随机噪声,平滑滤波方法主要包括滑动窗平均法、滑动窗中值法和Savitzky-Golay(SG)滤波器。之后,利用最小二乘法和多项式拟合法估计光谱基线,实现去背景噪声。这种传统预处理算法简单快捷,易于理解。但是,其只对原始光谱数据进行统计学分析,去除背景噪声,鲁棒性不好,而且去除的噪声数据中有很多特征峰的数据,损失了拉曼特征峰强度和形态。
基于机器学习的光谱预处理方法:这种方法主要通过采集标准光谱对网络进行训练,得到一套去噪效果很好的网络。然而,其预处理效果主要受训练集数据的影响。训练数据越准确和广泛,训练网络在去除背景基线方面的效果越好。但是训练集的构建需要使用花费大量的时间采集数据,而且理想的拉曼光谱训练数据很难通过普通的实验仪器测得,对仪器要求有很高要求,所以机器学习拉曼光谱预处理法效果在大部分时候依然有限,难以有效地去除全部背景基线和随机噪声。
近年来,稀疏分解作为图像和信号处理中广泛使用的算法,也逐渐在光谱领域崭露头角。只要获得一套光谱的完整字典,稀疏分解就可以通过自适应线性组合有效地提取光谱的特征,并消除原始信号中的各种噪声。但是现阶段稀疏分解的字典很多都是用的固定的高斯字典或者其他小波字典,这种字典很难根据拉曼光谱的特点进行去噪。
因此,如何提高去噪效果以及弥补字典构造的不足是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于自适应稀疏分解的拉曼光谱去噪方法,采用构建动态与静态结合的字典的对拉曼光谱中的谱峰进行校正实现去噪,提高了去噪效果。
为了实现上述目的,本发明采用如下技术方案:
一种基于自适应稀疏分解的拉曼光谱去噪方法,包括以下步骤:
基于真实拉曼光谱构建静态字典;
获取待处理拉曼光谱,并遍历静态字典中各物质光谱,进行相似度计算,查询相似度最高且满足预设条件的第一特征峰;
当与各物质光谱的相似度均不满足预设条件时,根据所述待处理拉曼光谱构建动态字典,并生成第二特征峰;
通过正交匹配追踪算法对待处理拉曼光谱进行稀疏分解,通过查询静态字典或动态字典,在所述待处理拉曼光谱中筛选出匹配的第一特征峰或第二特征峰,根据匹配度进行加权,对所述待处理拉曼光谱进行校正,得到去噪光谱。
进一步的,基于真实历史拉曼光谱构建静态字典,步骤包括:
在光谱数据库中获取所述真实拉曼光谱;
对所述真实拉曼光谱进行预处理;
在预处理的光谱中识别特征峰;
根据标准拉曼谱峰对识别的特征峰进行筛选,得到各个物质对应的第一特征峰。
进一步的,所述预处理,步骤包括:
计算所述真实拉曼光谱的平均光谱,得到均值数据;
采用荧光扣除算法对均值数据进行基线校正。
进一步的,在识别特征峰后,步骤还包括:
采用Voigt函数对识别出的特征峰进行峰型拟合。
进一步的,在预处理的光谱中识别特征峰,具体为:
采用迭代补峰算法,计算光谱残差并于残差最高值位置进行补峰;
计算损失并进行参数迭代优化;
循环迭代直至满足预设的收敛条件,得到特征峰参数。
进一步的,所述根据标准拉曼谱峰对识别的特征峰进行筛选,具体为:
根据所述标准拉曼谱峰的位置,从识别的特征峰中筛选出具有对应位置关系的特征峰作为第一特征峰。
进一步的,根据所述待处理拉曼光谱构建动态字典,步骤包括:
对所述待处理拉曼光谱进行基线校正;
采用迭代补峰算法识别特征峰并进行优化;
采用Voigt函数对优化后的特征峰进行拟合,得到拟合后的峰型,作为动态字典中的第二特征峰。
进一步的,基于真实历史拉曼光谱构建静态字典,步骤还包括:
识别特征峰后记录各个光谱特征峰的绝对强度,并进行归一化,将得到的权重作为权重上限;
在进行稀疏分解时,当在所述待处理拉曼光谱中筛选出匹配的第一特征峰并计算权重后,通过权重上限进行约束。
一种基于拉曼光谱的物质识别方法,包括以下步骤:
获取携带物质类别信息的拉曼光谱;
采用上述的一种基于自适应稀疏分解的拉曼光谱去噪方法对所述拉曼光谱进行去噪;
将去噪后的拉曼光谱输入至训练好的神经网络模型,输出物质类别。
一种基于拉曼光谱的物质浓度测定方法,包括以下步骤:
获取携带混合物浓度信息的拉曼光谱;
采用采用上述的一种基于自适应稀疏分解的拉曼光谱去噪方法对所述拉曼光谱进行去噪;
将去噪后的拉曼光谱输入至训练好的神经网络模型,输出混合物中各物质浓度。
本发明的有益效果:
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于自适应稀疏分解的拉曼光谱去噪方法,采用构建动态与静态结合的字典的对拉曼光谱中的谱峰进行校正实现去噪,提高了去噪效果。对字典训练的数据需求最小,从而避免了构建机器学习算法数据库的需要;利用实际拉曼特征峰的特征,将静态字典与动态字典相结合,从而抵消了现有稀疏分解算法中字典构建的局限性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的一种基于自适应稀疏分解的拉曼光谱去噪方法示意图;
图2附图为本发明中的稀疏分解方法示意图;
图3附图为本发明中静态字典构建方法示意图;
图4附图为本发明中动态字典构建方法示意图;
图5附图为本发明中字典构造方法示意图;
图6附图为模拟硫拉曼光谱去噪效果对比图;
图7附图为对乙酰氨基酚拉曼光谱去噪效果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例公开了一种基于自适应稀疏分解的拉曼光谱去噪方法,包括以下步骤:
S1:基于真实拉曼光谱构建静态字典;传统的稀疏分解算法经常使用固定字典,这不适合拟合实际的拉曼信号,从而导致次优的去噪结果。因此,本发明利用真实拉曼光谱的识别的特征峰构建静态字典。
在一种实施例中,静态字典的构建步骤为:
S11:在光谱数据库中获取所述真实拉曼光谱。
S12:对真实拉曼光谱进行预处理;计算所述真实拉曼光谱的平均光谱,得到均值数据,去除偶然性,然后对均值数据进行基线校正,可采用智能荧光扣除算法(baselineWavelet)实现校正,这种算法基于连续小波变换和惩罚最小二乘法,能够在尽可能小的影响特征峰的情况下,尽可能多的扣除背景基线。
S13:在预处理的光谱中识别特征峰;采用迭代补峰算法按照设置的要求检测光谱中的特征峰,如:小于一定强度的峰不认为是峰,太过平缓的峰认为是背景噪声,检测过程中,自动寻找光谱残差的最高点,并在最高点处添加一个新峰,然后对基线参数、新峰及所有已添加峰的参数同时进行优化,边界条件根据光谱的导数进行判断,循环迭代直至收敛条件满足。
在一种实施例中,原始光谱由于采集条件的限制,采集到的光谱特征峰很难符合标准特征峰的形状,故之后还需要对原始特征峰进行峰型拟合,将拟合后的峰型作为最终的特征峰识别结果。具体的,采用Voigt函数对识别出的特征峰进行峰型拟合。
S14:根据标准拉曼谱峰对识别的特征峰进行筛选,得到各个物质对应的第一特征峰。具体的,通过查阅相关资料,获得每种物质的标准拉曼谱峰位置,基于此,去除不属于该物质的杂峰,剩余的峰即为这种物质的第一特征峰,补入标准拉曼光谱字典。
S2:获取待处理拉曼光谱,并遍历静态字典中各物质光谱,进行相似度计算,查询相似度最高且满足预设条件的第一特征峰。
S3:当与各物质光谱的相似度均不满足预设条件时,根据所述待处理拉曼光谱构建动态字典,并生成第二特征峰。
在一种实施例中,在进行字典构建步骤之前,要先将已有的光谱数据进行建库并列出id表,用于后续判断样品是否属于静态字典库中的物质。在遍历的过程中,对待处理拉曼光谱进行采样后,与各个id的光谱数据进行相似度计算,检测是否为静态字典库中的物质。如果是,则选取静态字典中相匹配的特征峰,进行稀疏分解;如果不是,则构建动态字典,形成特征峰,进行稀疏分解。
S4:对待处理拉曼光谱进行稀疏分解,通过查询静态字典或动态字典,在所述待处理拉曼光谱中筛选出匹配的第一特征峰或第二特征峰,对所述待处理拉曼光谱进行校正,得到去噪光谱。
在一种实施例中,采用正交匹配追踪算法(OMP)进行稀疏分解实现对拉曼光谱的重构。由静态字典和动态字典共同构成了重构过程中需要的谱峰字典D。
具体的,OMP算法将一个输入信号分解成一个稀疏信号,即A=D·x,其中已知输入信号A和谱峰字典D,计算稀疏向量x。由线性代数知识可知A是D的列向量线性组合,也就是x作为权重与D的列向量加权求和后得到的结果。要找到对A贡献最大的那个列向量,然后是贡献次之的列向量,一直进行到贡献最小的列向量,但是最后得到的稀疏向量x并不是公式算出的理想结果,而是逼近结果。根据这个目的,算法的主要流程如下:
S45:判断是否满足迭代结束条件:t>K,即迭代次数大于预设稀疏度。若满足,则迭代结束;输出最后一轮计算出的理想稀疏向量的近似结果反之,则继续循环。最后将得到的稀疏向量/>与字典D进行矩阵乘法即可得到重构后的光谱/>
在另一实施例中,S13还包括:
识别特征峰后记录各个光谱特征峰的绝对强度,并进行归一化,将得到的权重作为权重上限;S4中在进行稀疏分解时,当在所述待处理拉曼光谱中筛选出匹配的第一特征峰并计算权重后,通过权重上限进行约束。通过这样的处理,可以使OMP计算权重时,无视最小二乘权重计算过程引入的背景噪声,得到更精确的拉曼光谱。
结合实验数据对实施例的效果进行说明:
一、将本实施例实现的去噪效果与其他现有的行业算法进行对比。
特别是,传统的多项式拟合(PF)去噪方法、利用人工神经网络(ANN)的机器学习去噪方法和基于高斯字典的稀疏分解方法被用作比较方法。实现了四种算法对模拟的硫拉曼光谱进行预处理。采用余弦相似性来评估和比较该方法对拉曼光谱预处理的去噪效果。
模拟硫信号处理:利用采集的硫数据构建原始拉曼峰,将采集到的硫数据进行基线去除和平滑滤波,截取70cm-1-1100cm-1之间的信号,得到的数据作为原始拉曼峰信号。背景噪声信号通过三角函数构建出平滑的背景基线,随机噪声信号利用GNN训练生成,最终合成模拟硫拉曼光谱。
之后选用五种方式进行信号处理:基于静态字典构造法的预处理、基于动态字典构造法的预处理、多项式拟合预处理、ANN预处理和基于固定高斯字典的预处理。并展示在图5中。
分析图5,可以看出静态字典的处理效果要比动态字典好,静态字典处理出的峰型很完美,这是因为合成的光谱中人为加入了很多的随机噪声,动态字典构造时依赖于样品光谱,所以如果样品光谱中含有很多噪声时,势必也会影响到动态字典的构建。而静态字典构造时,依赖于采集的离线数据,其中含有的噪声要比实时采集的样品少很多,所以构造出的字典更加准确。也就是说,当随机噪声比较小的时候,动态字典和静态字典的处理效果差别不大。
而其他三种对比算法,包括了多项式拟合、ANN预处理两种拉曼去噪算法和现阶段稀疏分解领域多用的固定字典方法,它们要比静态字典和动态字典的处理效果差很多。多项式拟合依赖于化学计量学原理,虽然简单快捷、可解释强,但是当噪声很大的时候,对光谱的处理效果会受到很大影响,图中处理后的光谱不仅含有很多噪声,还丢失了数个谱峰。
而基于ANN的预处理算法,过于依赖数据量,如果训练数据能包含现实处理的各种情况,那这种方法效果会很好,但是在构建训练数据集时很难收集到各种噪声影响。当其处理到未曾训练过的光谱时,会受到很大影响,图5中还保留了很多的随机噪声。
基于固定高斯字典的稀疏分解方法思想和本案算法类似,但是固定位置的高斯字典很难保留光谱中所有的谱峰,会丢峰,而且峰型也受到很大影响,图中峰半宽明显变窄了。
将原始数据和合成的模拟信号进行原始参数计算用来比较出五种算法的处理效果,具体参数包括:信噪比(SNR)、均方根误差(RMSE)、余弦相似度、皮尔逊相关系数和平均X轴偏移量,其中均方根误差和平均X轴偏移量越小越好,其他三个参数越大越好。将原始数据和五种预处理算法处理之后的结果进行参数计算,并与原始参数进行比较,看出处理效果,如表1所示。
表1模拟硫拉曼光谱预处理参数
根据表1的五种处理参数也可以看出来,基于静态字典构造法的预处理和基于动态字典构造法的预处理,二者去噪效果比较接近,动态字典的处理效果要弱一些,这是因为在光谱中加入比较大的随机噪声,影响了动态字典的构建,而静态字典的构建不取决当前的信号,所以即使当前检测信号的随机噪声很大,也不会影响静态字典的处理效果,而当随机噪声比较小的时候,动态字典的处理效果也会得到很大地改善。而其他几种算法的处理效果就要差的多了。但是总而言之,静态字典OMP算法和动态字典OMP算法的处理效果很接近,故为简化实验,后续用静态字典OMP算法作为代表,简称OMP算法。
二、实际光谱处理效果对比
用上述四种方法来处理通过便携式拉曼仪器(Portman785)获得的对乙酰氨基酚数据。显示了预处理的光谱,突出了与其他方法相比,该方法对包含多个背景噪声、多个随机噪声、多特征峰和重叠峰的拉曼光谱进行去噪的能力
采用对乙酰氨基酚的拉曼光谱作为示例,因为其光谱谱峰最多、形式最为复杂。处理效果如图7所示。
基于人工神经网络的预处理效果主要受训练集数据的影响,如果训练数据越精确、越广泛,则训练后的网络去除背景基线的效果也越好,但是训练集的构建需要使用花费大量的时间采集数据,而且理想的拉曼光谱训练数据很难通过普通的实验仪器测得,对仪器要求有很高要求,所以机器学习拉曼光谱预处理法效果在大部分时候依然有限,难以有效地去除全部背景基线和随机噪声。
基于化学计量学的传统预处理这一算法运用了多项式拟合的方法估计背景基线,这种传统预处理算法仅仅对原始光谱数据进行统计学分析,拟合出一条回归曲线,并认为其为光谱的背景基线,进行扣除,是一个开环的过程,算法鲁棒性不好,去除的噪声数据中有很多特征峰的数据,保留特征效果不好。
然后,在图7中,基于高斯字典的稀疏分解方法的去噪结果有些失真,这与处理模拟信号的实验中的原因相同。此外,信号重建结果与实际谱峰有很大的偏差,这不如本案提出的算法好。本案提出的算法的字典构造方法能够完美地适应实际信号,并且在去噪过程中不会去除有用的信号。
本案提出的基于动态字典和静态字典的稀疏分解算法,处理后的光谱已经完全去除了背景基线和随机噪声,光谱中只留下了符合Voigt函数分布的标准拉曼特征峰,算法仅仅利用部分数据组成训练集,生成谱峰字典,便可以实现近乎完美的预处理效果。去除的噪声数据基本上是背景基线、随机噪声和杂峰,保留了有用特征峰,算法去基线效果和去随机噪声的效果都不错,能几乎去除全部背景基线和随机噪声。不同的是,基于动态字典的稀疏分解算法算法,由于没有得到物质具体的峰位置,并没有去除所有杂峰
实施例2
本发明实施例提供一种基于拉曼光谱的物质识别方法,包括以下步骤:
获取携带物质类别信息的拉曼光谱;采用上述实施例1中的去噪方法对所述拉曼光谱进行去噪;将去噪后的拉曼光谱输入至训练好的神经网络模型,输出物质类别。
拉曼光谱的主要应用是物质的鉴定和混合物成分浓度的估计。拉曼光谱与光和物质内部化学键的相互作用密切相关。光谱中的每个拉曼特征峰代表拉曼散射光的波长和强度,拉曼散射光与物质中存在的化学键直接相关。因此,可以通过在拉曼光谱数据库中搜索匹配的光谱来识别未知的样品物质。拉曼峰的强度与混合物中相应物质的浓度呈正相关。因此,可以通过在混合物数据库中搜索匹配光谱来估计混合物组分的浓度。
本案采用的分类数据采用了甲醇、乙醇和丙醇三种数据作为分类数据,共180条数据,因为其均为醇类,化学键大部分都是类似的,也就是说其拉曼光谱很相似,只是碳氢键的个数不同,使得拉曼光谱谱峰个数有着些许差别,这对分类问题会产生比较大的困难,故采用这些数据,证明分类效果。此外,本案采用随机森林(RF)和支持向量机(SVM)作为网络对物质进行分类并预测混合物的浓度。最后,本实验多次调整网络参数,并计算多个分类结果以避免偶然性。这一部分本案只采用了基于动态字典的稀疏分解方法,简称为ASDD,因为通过上述两个实验可以看出,静态字典处理的效果要比动态字典好,所以为便于比较算法能力,只采用基于动态字典的稀疏分解方法进行比较。
包括2048个数据点的原始光谱被输入到经过训练的卷积神经网络中用于特征提取。将每个光谱转换为具有64个特征值的阵列,以减少计算量。选择少量数据来训练分类网络,并使用材料类别作为标签来训练分类网。然后有两个经过训练的分类网络,可以有效地对物质进行分类。
实验结果中,本发明具有最高的分类精度,两种网络的分类结果都在95%以上。第二高的是传统的预处理方法,其准确率接近93%,但其算法的稳定性无法与该算法相比,如果拉曼光谱更复杂,其分类精度会更低。最低的是基于人工神经网络的机器学习方法,该方法不稳定,分类不准确,两个网络的结果都在80%以下。由于训练网络中的数据很少,其分类精度低于传统的预处理方法,这表明一个好的去噪人工神经网络需要大量的训练数据。此外,基于高斯字典的稀疏分解方法在原理上与本文的算法非常相似,两者都有稀疏分解的思想。然而,在分类实验中,基于固定的高斯字典,使用该字典很难适应三种物质的光谱重建。因此,它的分类精度比本文中的算法差得多,两种网络的分类准确率都低于85%。
实施例3
本发明实施例提供一种基于拉曼光谱的物质浓度测定方法,包括以下步骤:
获取携带混合物浓度信息的拉曼光谱;采用实施例1中的去噪方法对所述拉曼光谱进行去噪;
将去噪后的拉曼光谱输入至训练好的神经网络模型,输出混合物中各物质浓度。
在本研究中,使用相同的三种方法进行了一项涉及混合物浓度预测的实验。具体而言,混合物由C1化合物和C7化合物按特定比例组成,并使用科学拉曼收集其光谱。实验涉及959组光谱的收集,这些光谱是通过改变混合比和机器采集功率获得的。其中,899组被用作训练数据,其余60组被用作测试数据。
在第一步中,使用三种不同的方法对原始光谱数据进行预处理,然后将其输入专门为分类实验训练的卷积神经网络,从而促进特征提取并将计算需求降至最低。在此之后,数据集被划分为899个样本用于训练和60个样本用于测试,其中C1化合物浓度被指定为用于训练随机森林的标签,从而产生经过训练的预测网络。最后,将测试数据输入到预测网络中,以生成C1化合物浓度的预测。
实验结果中,计算了预测结果与实际数据之间的预测准确率。传统预处理算法和基于机器学习的预处理算法都产生了相当大的误差。虽然一些预测是准确的,但大多数预测显示与实际数据存在显著差异,突显了对原始混合物光谱进行稳定有效预处理的挑战。值得注意的是,从预处理结果中无法观察到拉曼光谱中物质浓度和特征峰强度之间的关系。因此,很难将这种方法应用于预测混合物的浓度。
在60个实验中观察到,利用高斯字典的稀疏分解方法的实验结果明显较差,具有惊人的低预测精度和显著的预测偏差。本发明的浓度预测精度非常令人满意。本发明保留了有效的特征峰,同时保留了与物质浓度正相关的特征峰的强度。
实验结果清楚地表明,本发明表现出非常有前途的去噪效果和鲁棒性,表明其适用于便携式拉曼光谱仪中的浓度预测和材料分类系统。
本发明的字典构建方法与业界内其他方法相比,有以下创新优化:
首先,通过应用化学计量特征提取方法,从输入光谱建立包括光谱特征峰的字典,与传统字典相比,该方法更好地与原始数据对齐。
业界内的字典构建往往采取固定字典的方法,采用像高斯信号字典或者其他小波信号字典,这种字典中的信号往往是固定生成的,仅仅从生成信号角度出发,并没有深入理解拉曼光谱信号的特点,所以这些信号的谱峰和拉曼光谱的谱峰往往有较大差距,谱峰的形态与真实拉曼信号不同,这会对谱峰造成信号损失,改变谱峰的参数,如峰的强度、峰的半宽等。
而本发明中的静态字典和动态字典基于真实拉曼信号构建,利用样品拉曼光谱数据快速适应新物质。先使用化学计量学的算法——Baselinewavelet算法对信号进行初步去噪,初步去除背景噪声和随机噪声,使用化学计量学方法作初步去噪是采用了该算法的可解释性强的优点,出现去噪异常的问题可以即时处理,但是初步去噪后的光谱还有很多零散噪声没有去除。之后,采用迭代补峰算法按照设置的要求,检测光谱中的特征峰,再使用Voigt函数拟合特征峰,使光谱谱峰的峰型符合理想拉曼光谱的峰型。这样处理出来的字典谱峰很标准,而且信号损耗低,在后续去噪之后,可以很大程度上保留拉曼光谱的特征峰信息。最后,利用正交匹配追踪算法将拉曼光谱稀疏地分解到构建的字典中,有效地消除了拉曼光谱中的各种随机噪声和背景噪声。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于自适应稀疏分解的拉曼光谱去噪方法,其特征在于,包括以下步骤:
基于真实拉曼光谱构建静态字典;
获取待处理拉曼光谱,并遍历静态字典中各物质光谱,进行相似度计算,查询相似度最高且满足预设条件的第一特征峰;
当与各物质光谱的相似度均不满足预设条件时,根据所述待处理拉曼光谱构建动态字典,并生成第二特征峰;
通过正交匹配追踪算法对待处理拉曼光谱进行稀疏分解,通过查询静态字典或动态字典,在所述待处理拉曼光谱中筛选出匹配的第一特征峰或第二特征峰,根据匹配度进行加权,对所述待处理拉曼光谱进行校正,得到去噪光谱。
2.根据权利要求1所述的一种自适应稀疏分解的拉曼光谱去噪方法,其特征在于,基于真实历史拉曼光谱构建静态字典,步骤包括:
在光谱数据库中获取所述真实拉曼光谱;
对所述真实拉曼光谱进行预处理;
在预处理的光谱中识别特征峰;
根据标准拉曼谱峰对识别的特征峰进行筛选,得到各个物质对应的第一特征峰。
3.根据权利要求2所述的一种自适应稀疏分解的拉曼光谱去噪方法,其特征在于,所述预处理,步骤包括:
计算所述真实拉曼光谱的平均光谱,得到均值数据;
采用荧光扣除算法对均值数据进行基线校正。
4.根据权利要求2所述的一种自适稀疏分解的拉曼光谱去噪方法,其特征在于,在识别特征峰后,步骤还包括:
采用Voigt函数对识别出的特征峰进行峰型拟合。
5.根据权利要求2所述的一种自适应稀疏分解的拉曼光谱去噪方法,其特征在于,在预处理的光谱中识别特征峰,具体为:
采用迭代补峰算法,计算光谱残差并于残差最高值位置进行补峰;
计算损失并进行参数迭代优化;
循环迭代直至满足预设的收敛条件,得到特征峰参数。
6.根据权利要求2或4所述的一种自适应稀疏分解的拉曼光谱去噪方法,其特征在于,所述根据标准拉曼谱峰对识别的特征峰进行筛选,具体为:
根据所述标准拉曼谱峰的位置,从识别的特征峰中筛选出具有对应位置关系的特征峰作为第一特征峰。
7.根据权利要求1所述的一种自适应稀疏分解的拉曼光谱去噪方法,其特征在于,根据所述待处理拉曼光谱构建动态字典,步骤包括:
对所述待处理拉曼光谱进行基线校正;
采用迭代补峰算法识别特征峰并进行优化;
采用Voigt函数对优化后的特征峰进行拟合,得到拟合后的峰型,作为动态字典中的第二特征峰。
8.根据权利要求2所述的一种自适应稀疏分解的拉曼光谱去噪方法,其特征在于,基于真实历史拉曼光谱构建静态字典,步骤还包括:
识别特征峰后记录各个光谱特征峰的绝对强度,并进行归一化,将得到的权重作为权重上限;
在进行稀疏分解时,当在所述待处理拉曼光谱中筛选出匹配的第一特征峰并计算权重后,通过权重上限进行约束。
9.一种基于拉曼光谱的物质识别方法,其特征在于,包括以下步骤:
获取携带物质类别信息的拉曼光谱;
采用权利要求1-8所述的任一种基于自适应稀疏分解的拉曼光谱去噪方法对所述拉曼光谱进行去噪;
将去噪后的拉曼光谱输入至训练好的神经网络模型,输出物质类别。
10.一种基于拉曼光谱的物质浓度测定方法,其特征在于,包括以下步骤:
获取携带混合物浓度信息的拉曼光谱;
采用采用权利要求1-8所述的任一种基于自适应稀疏分解的拉曼光谱去噪方法对所述拉曼光谱进行去噪;
将去噪后的拉曼光谱输入至训练好的神经网络模型,输出混合物中各物质浓度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310585844.6A CN116380869A (zh) | 2023-05-23 | 2023-05-23 | 一种基于自适应稀疏分解的拉曼光谱去噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310585844.6A CN116380869A (zh) | 2023-05-23 | 2023-05-23 | 一种基于自适应稀疏分解的拉曼光谱去噪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116380869A true CN116380869A (zh) | 2023-07-04 |
Family
ID=86977182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310585844.6A Pending CN116380869A (zh) | 2023-05-23 | 2023-05-23 | 一种基于自适应稀疏分解的拉曼光谱去噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116380869A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117405650A (zh) * | 2023-12-14 | 2024-01-16 | 奥谱天成(厦门)光电有限公司 | 不可降解物质的检测方法、介质 |
-
2023
- 2023-05-23 CN CN202310585844.6A patent/CN116380869A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117405650A (zh) * | 2023-12-14 | 2024-01-16 | 奥谱天成(厦门)光电有限公司 | 不可降解物质的检测方法、介质 |
CN117405650B (zh) * | 2023-12-14 | 2024-03-12 | 奥谱天成(厦门)光电有限公司 | 不可降解物质的检测方法、介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493287B (zh) | 一种基于深度学习的定量光谱数据分析处理方法 | |
Hoang | Wavelet-based spectral analysis | |
CN115326783B (zh) | 拉曼光谱预处理模型生成方法、系统、终端及存储介质 | |
CN107179310B (zh) | 基于鲁棒噪声方差估计的拉曼光谱特征峰识别方法 | |
CN109187392B (zh) | 一种基于分区建模的锌液痕量金属离子浓度预测方法 | |
CN110243806A (zh) | 拉曼光谱下基于相似度的混合物组分识别方法 | |
CN109738413B (zh) | 基于稀疏非负最小二乘的混合物拉曼光谱定性分析方法 | |
CN116380869A (zh) | 一种基于自适应稀疏分解的拉曼光谱去噪方法 | |
CN115420726B (zh) | 一种利用重构sers光谱快速识别目标物的方法 | |
CN113008805A (zh) | 基于高光谱成像深度分析的白芷饮片质量预测方法 | |
CN114611582A (zh) | 一种基于近红外光谱技术分析物质浓度的方法及系统 | |
Fan et al. | A reconstruction algorithm based on sparse representation for Raman signal processing under high background noise | |
CN114216877A (zh) | 茶叶近红外光谱分析中谱峰自动检测与重构方法及系统 | |
CN117556245A (zh) | 一种四甲基氢氧化铵生产过滤杂质检测方法 | |
CN116399836A (zh) | 基于交替梯度下降算法的串扰荧光光谱分解方法 | |
CN112801936B (zh) | 一种x射线荧光光谱自适应本底扣除方法 | |
CN109030452A (zh) | 一种基于五点三次平滑算法的拉曼光谱数据降噪方法 | |
CN114970722A (zh) | 一种污染物识别方法、装置、电子设备及存储介质 | |
CN112733775A (zh) | 基于深度学习的高光谱影像分类方法 | |
Gao et al. | Combining direct orthogonal signal correction and wavelet packet transform with partial least squares to analyze overlapping voltammograms of nitroaniline isomers | |
CN111595802A (zh) | 一种基于nir光谱的忧遁草种源地分类模型的构建方法及应用 | |
CN116541694A (zh) | 一种光谱信息分离聚合方法 | |
Zhao et al. | Reducing Moisture Effects on Soil Organic Carbon Content Estimation in Vis-NIR Spectra With a Deep Learning Algorithm | |
Wu et al. | Comparison of spectra processing methods for SERS based quantitative analysis | |
CN118035649A (zh) | 一种基于频谱图的光谱数据处理和分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |