CN115828077A - 一种拉曼光谱下利用神经网络对混合物各组分分析的方法 - Google Patents
一种拉曼光谱下利用神经网络对混合物各组分分析的方法 Download PDFInfo
- Publication number
- CN115828077A CN115828077A CN202111093053.9A CN202111093053A CN115828077A CN 115828077 A CN115828077 A CN 115828077A CN 202111093053 A CN202111093053 A CN 202111093053A CN 115828077 A CN115828077 A CN 115828077A
- Authority
- CN
- China
- Prior art keywords
- characteristic
- raman
- peak
- neural network
- mixture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本发明公开了一种拉曼光谱下利用神经网络对混合物各组分分析的方法,先获取拉曼特征峰的特性矩阵N与拉曼光谱特征矩阵V,利用神经网络将拉曼特征峰的特性矩阵N与拉曼光谱特征矩阵V组合使用,采用自适应的方法进行训练,从而得到分类模型。本发明的方法,可以提高对混合物光谱振动的识别效果,以及有益于获取拉曼光谱特征的细粒度。
Description
技术领域
本发明属于混合物各组分分析技术领域,具体地说,是关于一种拉曼光谱下利用神经网络对混合物各组分分析的方法。
背景技术
拉曼技术是通过利用分子对光的吸收,反应出分子振动、转动的一种技术。由于其快速、简单、且无损样品,因此,拉曼技术也被广泛应用于混合物定量定性分析中。然而,混合物之间各组分之间由于分子互相影响,谱峰堆叠严重,光谱信息复杂,对混合物定性定量分析带来困难(颜凡,朱启兵,.黄敏等,光谱学与分光谱分析,vol.40,NO11,pp3599-3605,November,2020)。
目前,大量的研究表明,利用神经网络区分混合物各组分可以取得良好的结果;Jacopo Acquarelli(Jacopo Acquarelli,Twan van Laarhoven,Jan Gerretzen,ThanhN.Tran,Lutgarde M.C.Buydens,Elena Marchiori,Analytica Chimica Acta 954(2017)22e31)利用简单的CNN架构有效的对振动光谱数据进行区分,并在精确度上优于化学计量中的标准分类算法,如PLS;Xiaqiong Fan则进一步提出了一种基于深度学习的构件识别方法DeepCID(Xiaqiong Fan,Wen Ming,Huitao Zeng,Zhimin Zhang and Hongmei Lu,Analyst,2019,144,1789),利用卷积神经网络(CNN)模型预测混合物中成分的存在。DeepCID在模拟和真实的拉曼光谱数据集中学习光谱特征和识别成分,具有更高的准确性和显著降低假阳性率。
但是,现有的神经网络对物质的区分通常是用拉曼数据进行特征提取,并未考虑到实际上在图谱上特征峰的重要性,因此,本发明基于设计了一种全新的RH-CNN的神经网络,用于混合物各组分定量定性分析。
发明内容
基于上述问题,本发明提出了一种拉曼光谱下利用神经网络对混合物各组分分析的方法,该方法设计RH-CNN对拉曼光谱进行学习,采用自适应权重更新的方法进行训练,从而得到分类模型。
为实现上述目的,本发明采用如下技术方案:
一种拉曼光谱下利用神经网络对混合物各组分分析的方法,先获取拉曼特征峰的特性矩阵N与拉曼光谱特征矩阵V,利用神经网络将拉曼特征峰的特性矩阵N与拉曼光谱特征矩阵V组合使用,采用自适应权重更新方法进行训练,从而得到分类模型。
根据本发明,所述的拉曼光谱下利用神经网络对混合物各组分分析的方法,包括如下步骤:
S1、采集混合物的拉曼光谱数据;采用拉曼光谱获取定性分析中的标签y1和定量分析中的标签y2,并将y1和y2的特征向量映射成新的特征向量y;
S2、将拉曼光谱数据进行寻峰算法处理获取拉曼特征峰的特性值,并将特性值的各变量组成拉曼特征峰的特性矩阵N;将拉曼光谱数据进行预处理获取拉曼光谱特征矩阵V;将拉曼特征峰的特性矩阵N和拉曼光谱特征矩阵V输入神经网络,利用神经网络分别提取特征,对特征矩阵进行叠加,将叠加后特征矩阵经过神经网络处理后,得到与y大小相同的特征向量
S4、利用测试集对模型效果进行测试并分析。
根据本发明,步骤S1的包括:对纯净物进行混合得到多种不同混合物,采用不同的拉曼仪器进行测试,将数据处理后得到矩阵V=[V1,V2,V3.....Vn]。
进一步的,在步骤S1中,定性分析中的标签y1=[0,1,2,3...N],定量分析中的标签y2=[a1,a2,a3,...am],将y1和y2的特征向量映射成新的特征向量y=[0,1,……n,将上述所有样品的光谱,按训练集:验证集:测试集为7:2:1的比例分开使用。
根据本发明,步骤S2包括:
S2.1将拉曼光谱特征矩阵V中的每一个向量Vn=[b1,b2,b3,.....bn]进行差分处理,其中,bn为每一条拉曼光谱数据;
S2.2将差分处理后的Diff1通过Sign1函数进行归一选择,得到结果S1;
S2.3将S1再次进行差分,根据Sign2的差分选出拉曼特征峰的特性值,将特性值的各变量组成拉曼特征峰的特性矩阵N;
根据本发明,S2.1的差分处理方法如公式二所示:
Diff1(b)=bi+1-bi 公式二,
S2.2的Sign1函数如公式三所示:
S2.3的S1的二次差分方法如公式四所示:
Sign2=Sign1(i+1)-Sign1(i) 公式四,
根据二次差分可以选出特征峰的拉曼位移以及拉曼强度,随后再获取相关的变量组成特性矩阵N;这些变量包括特征峰的拉曼位移、拉曼强度、峰宽、峰序列、峰间距、峰面积;
S2.4拉曼光谱特征矩阵V和拉曼特征峰的特性矩阵N利用卷积神经网络分别提取特征的数学表达式表示如公式六和公式七所示,其中,
i表示第i个峰图的特性,j表示第j个峰图,
Xi表示输入神经网络得第i个峰图特性,Wi表示第i个峰图的权重;
S2.5.对特征矩阵进行叠加,然后得到每个样品的在每个类别以及含量的置信度;对特征按不同权重进行叠加,找到每个向量最大值的位置,即可得到用数学表达式表示如公式八所示,其中α为拉曼特征峰的特性矩阵系数,β为拉曼光谱特征矩阵系数:
根据本发明,损失函数L的数学公式如公式九所示;
本发明的一种拉曼光谱下利用神经网络对混合物各组分分析的方法,其有益效果是:
1、提高了对混合物光谱振动的识别效果
拉曼光谱因测试时间不同,表示为上下振动,而这种光谱振动对物质定性常带来干扰,所以物质的定性分析需要选择重要的光谱区域,并且受光谱振动影响小。本发明设计RH-CNN神经网络,利用特征峰的特性与光谱特征组合使用,训练100轮,在定性分析上精确度达到98.30%,在定量分析中达到93.10%。此外,从本发明的实施例的实验结果可以发现,光谱特征相对于特征峰在定量上更有优势,而在定性上特征峰的特性则更有优势。
2、有益于获取拉曼光谱特征的细粒度
对光谱数据进行分析,光谱数据中每个数据点的重要程度是不同的,因此有必要对光谱中的数据进行区分对待。本发明将拉曼特征峰的特性矩阵与拉曼光谱特征矩阵组合使用,这相比以往直接提取拉曼光谱的特征,而忽略特征峰的信息,更为有效;峰的特性本身就属于光谱特征的一部分,本发明设计的模型用来学习光谱的全局和局部特征,并训练成一个细粒度多特征融合网络。
附图说明
图1为本发明公开的混合物各组分识别方法的流程图。
图2为本发明利用神经网络提取光谱特征效果图。
图3为本发明的使用的神经网络结构图。
具体实施方式
以下结合具体实施例,对本发明做进一步说明。应理解,以下实施例仅用于说明本发明而非用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件,或厂商提供的条件进行。
实施例1
S1.1采集多种纯净物的拉曼光谱,在采集拉曼光谱,使用了软件自带的原始光谱去基线算法(airpls算法)处理以及平滑算法(S-G算法)处理,本发明所涉及到的数据都是经过软件自带算法处理后的数据。
S1.2将S1.1中所用的纯净物,按N种混合方式进行混合成多种混合物,在混合中按M种混合比例进行;利用不同的拉曼光谱仪对混合物进行采样,可以采用自适应方式多次取样;如某混合物V11=[[x1,y1],[x2,y2],...[xn,yn]],再将混合物用不同拉曼光谱仪器进行多次测试,假设进行了j次测试,v1j=[v11,v12,....v1j],由于采用N种方式混合,将所有数据组合成矩阵V,它的表达式如公式一所示;
(i表示混合物样本N中第i次,j表示混合物样本测试的第j次)
S2.将S1.2步骤中采集的纯净物样品进行混合处理,共计有N种混合方式,在定性分析中的采用相应标签为y1=[0,1,2,3...N]。在混合比例中,也有多种方式可以采用,如表1是按照精度为10%的一种混物方法,可以两种纯净物混合,也可以三种纯净物混合。在混合过中,需要确保混合之间不会发生化学反应等;假设有N种中纯净物按M种方式进行混合得到混合物,则定量分析中的标签y2=[a1,a2,a3,...am];将上述所有样品的光谱,按训练集:验证集:测试集为7:2:1的比例分开使用。
S3.通过获取拉曼特征峰的特性矩阵N与拉曼光谱特征矩阵V,利用神经网络将拉曼特征峰的特性矩阵N与拉曼光谱特征矩阵V组合使用,并进行一步对模型进行训练。
为了更方便阐述本发明,将神经网络结构划分为F1,F2,F3三部分(如图3)
S3.1在F1部分中,主要是为了获取特征峰的特性矩阵以及光谱的预处理。
S3.1.1对拉曼光谱数据进行差分处理,如某混合物拉曼光谱为矩阵Vn,Vn=[b1,b2,b3,.....bn],其中bn=[xn,yn],表达式如公式二所示:
Diff1(b)=bi+1-bi 公式二,
将Vn中的值进行差分处理后,差分后的值只有三种情况,分别为正值、负值以及0;由于不用考虑差分的具体值的大小,把所有数据归一到-1,0,1之间,然后利用Sign1函数进行归一选择,得到结果S1,表达式如公式三所示;
S3.1.2将结果S1再次进行差分,利用Sign1函数进行归一选择,得到差分结果S2,表达式如公式四所示:
Sign2=Sign1(i+1)-Sign1(i) 公式四,
根据S2差分后结果,-2的位置代表波峰;2的位置表示波谷。表达式如公式五所示:
S3.1.3将特征峰的按拉曼位移从小到大的顺序进行排列获得向量vector=[s1,s2,s3,……sn];此外,还需要获取到特征峰的拉曼位移、拉曼强度、峰宽、峰序列、峰间距、峰面积等特性,分别用Sm,Si,Sw,Sr,Sv,,Ss等表示,选取部分特性组成矩阵N=[Sm,Si,Sw,Sr,Sv,Ss],将得到的矩阵N输入神经网络,表达式如公式六所示:
(Xi表示输入神经网络得第i个峰图特性,Wi表示第i个峰图的权重)
S3.1.4对于S1步骤中的矩阵V,输入卷积神经网络前,需要进行数据预处理,将拉曼光谱矩阵形状进行改变,矩阵形状改变为[N,H,W,C],且长度与宽度转换成相同尺寸(H,W相等);在卷积的过程中主要使用了3*3的卷积核以及1*1的卷积核,用深度神经网络,将拉曼光谱数据处理成[N,H,W,C];那么,预处理后的数据输入神经网络,表达式如公式七所示:
(Xj表示输入神经网络得第j个拉曼图谱,Wj表示第j个拉曼图谱的权重)
S3.2在F2部分中,将矩阵N和矩阵V分别输入神经网络,利用卷积神经网络分别提取特征,随后进行特征叠加。
S3.2.1在步骤S3.1.3将矩阵N输入公式六的神经网络,在步骤S3.14中将处理后的矩阵输入公式七的神经网络中,利用卷积神经网络分别提取特征,得到特征FL和FN。
在图3的卷积神经网络结构F2的结构中,卷积神经网络具有以下特点:
(1)每一层卷积神经网络激活函数均采用了Relu6:
Relu 6=min(6,max(0,x))
(2)卷积神经网络之间采用了BN进行正则化;
(3)卷积神经网络之间都去掉了池化层;
(4)三层卷积神经输出后均经过全连接层;
S3.3调整模型参数并训练模型,训练好的模型可以预测待测样品的的类别和含量的置信度。
S3.3.1在步骤S2中,已经获取到y1=[0,1,2,3...N]和y2=[a1,a2,a3,...am],将y1和y2的特征向量映射成新的特征向量y=[0,1,……n],在特征向量y中,所有值都是非负整数;
(λ1为正则项系数,w为模型训练时的权重)。
S4.利用S2中测试数据集对模型效果进行测试并分析。
实施例2实例验证
为了更简洁阐述本发明,在实施案例中,做一个简单的案例介绍,下面对具体步骤进行介绍。
(1)在混合过程中,往往需要二种、三种、四种甚至更多种进行混合物,本实施例纯净物有5种,纯净物的种类为:乙醛、乙酸乙酯、丙烯腈、环己酮、石油醚;混合物有N种混合方式,那么为了更好地阐述案例,案例阐述两两混合以及三三混合;两两纯净物混合有种混合物,混合方式采用9种,三三纯净物混合有中混合物,混合方式有37种;混合物的标签便可得到个;(2)在采样中,使用拉曼光谱仪器如Sed3000和最小拉曼710定制版,每个样品采用10次拉曼图谱,纯净物样品有5种,共计采集样品有50个,混合物样品共计共需要采集的样品有4600个。
(3)本实施案例,两种混合物与三种混合物混合方式可以如下所示,一般而言,我们可以将两种混合物视为三种混合物中某种纯净物成分为0。为了更好地进行训练模型,本模型不仅可以识别两种混合物也可以识别三种混合物。
纯净物混合方式如表1所示。
表1纯净物的混合方式
(4)模型超参数,设置初始学习率为0.0001,训练100轮,采用AdamOptimizer优化器进行优化,用α表示拉曼特征峰的特性矩阵系数,β表示拉曼光谱特征矩阵系数;
1)拉曼图谱通过神经网络提取特征效果图(步骤S3.1.4),如图2所示;
2)建立分类模型,并进行测试(公式九),结果如表3所示。
表3测试结果
α/β | 0/1 | 0.1/0.9 | 0.2/0.8 | 0.3/0.7 | 0.4/0.6 | 0.5/0.5 | 0.6/0.4 | 0.7/0.3 | 0.8/0.2 | 0.9/0.1 | 1.0/0 |
TP1/N | 76.27% | 79.60% | 88.13% | 89.83% | 94.92% | 98.30% | 93.20% | 93.22% | 94.44% | 98.30% | 96.61% |
TP2/TP1 | 93.33% | 93.61% | 88.46% | 88.89% | 95.78% | 93.10% | 92.72% | 92.70% | 92.55% | 87.90% | 78.94% |
注:(1)α表示拉曼光谱峰特性所占比重,β表示拉曼光谱特征所占比重;
(2)TP1表示预测混合物类型正确数量占所有样本的比例(定性);
(3)TP2表示预测混合物类型含量正确样本占预测混合物类型正确数量的比例(定量);
在表格中,一共训练了11次,在对模型进行训练过程中,很容易发现以下结果,
a、当α/β=0/1时,利用拉曼光谱特征定性的结果只有76.27%,从这可以看出,使用神经网络对混合物定性定量分析效果并不好,而当前取得较好的结果往往是因为每一种混合物区分程度较大造成的。从表中看,随着α/β的增大,定性上准确度也越来越高。因此,十分有必要将光谱峰特性与拉曼光谱特征结合起来使用。
b、当α/β=1/0时,能够准确的对混合物进行定性的精度为96.61%,不难理解,当光谱进行振动时,峰本身的特性并没有发生改变。但是利用峰的特性对混合定性未能取得较好结果。
c、拉曼光谱峰特性和拉曼光谱特征两者的特征以0.5/0.5叠加一起,在定性上精确率有98.30%,定量上精确率93.10%。因此,这更好地说明了,两者结合起来使用的,可以获得更好地结果。
以上所述仅是本发明的实施方式的举例,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (6)
1.一种拉曼光谱下利用神经网络对混合物各组分分析的方法,其特征在于,先获取拉曼特征峰的特性矩阵N与拉曼光谱特征矩阵V,利用神经网络将拉曼特征峰的特性矩阵N与拉曼光谱特征矩阵V组合使用,采用自适应权重更新的方法进行训练,从而得到分类模型。
2.如权利要求1所述的拉曼光谱下利用神经网络对混合物各组分分析的方法,其特征在于,包括如下步骤:
S1、采集混合物的拉曼光谱数据;采用拉曼光谱获取定性分析中的标签y1和定量分析中的标签y2,并将y1和y2的特征向量映射成新的特征向量y;
S2、将拉曼光谱数据进行寻峰算法处理获取拉曼特征峰的特性值,并将特性值的各变量组成拉曼特征峰的特性矩阵N;将拉曼光谱数据进行预处理获取拉曼光谱特征矩阵V;将拉曼特征峰的特性矩阵N和拉曼光谱特征矩阵V输入神经网络,利用神经网络分别提取特征,对特征矩阵进行叠加,将特征矩阵经过神经网络处理后,得到与y大小相同的特征向量
S4、利用测试集对模型效果进行测试并分析。
3.如权利要求2所述的拉曼光谱下利用神经网络对混合物各组分分析的方法,其特征在于,步骤S1包括:对纯净物进行混合得到多种不同混合物,采用不同的拉曼仪器进行测试,将数据处理后得到矩阵V=[V1,V2,V3,.....Vn]。
4.如权利要求2所述的拉曼光谱下利用神经网络对混合物各组分分析的方法,其特征在于,步骤S2包括:
S2.1将拉曼光谱特征矩阵V中的每一个向量Vn=[b1,b2,b3,.....bn]进行差分处理,其中,bn为每一条拉曼光谱数据;
S2.2将差分处理后的Diff1通过Sign1函数进行归一选择,得到结果S1;
S2.3将S1再次进行差分,根据S2.3的差分选出拉曼特征峰的特性值,将特性值的各变量组成拉曼特征峰的特性矩阵N;
5.如权利要求4所述的拉曼光谱下利用神经网络对混合物各组分分析的方法,其特征在于,S2.1的差分处理方法如公式二所示:
Diff1(b)=bi+1-bi
公式二,
S2.2的Sign函数如公式三所示:
S2.3的S1的二次差分方法如公式四所示:
Sign2=Sign1(i+1)-Sign1(i)
公式四,
根据二次差分可以选出特征峰的拉曼位移以及拉曼强度,随后再获取相关的变量组成特性矩阵N;这些变量包括特征峰的拉曼位移、拉曼强度、峰宽、峰序列、峰间距、峰面积,
S2.4拉曼光谱特征矩阵V和拉曼特征峰的特性矩阵N利用卷积神经网络分别提取特征的数学表达式表示如公式六和公式七所示,其中,
i表示第i个峰图的特性,j表示第j个峰图,
Xi表示输入神经网络得第i个峰图特性,Wi表示第i个峰图的权重;
S2.5.对特征矩阵进行叠加,然后得到每个样品的在每个类别以及含量的置信度;对特征按不同权重进行叠加,找到每个向量最大值的位置,即可得到用数学表达式表示如公式八所示,其中α为拉曼特征峰的权重系数,β为拉曼光谱的权重系数:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111093053.9A CN115828077A (zh) | 2021-09-17 | 2021-09-17 | 一种拉曼光谱下利用神经网络对混合物各组分分析的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111093053.9A CN115828077A (zh) | 2021-09-17 | 2021-09-17 | 一种拉曼光谱下利用神经网络对混合物各组分分析的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115828077A true CN115828077A (zh) | 2023-03-21 |
Family
ID=85515251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111093053.9A Pending CN115828077A (zh) | 2021-09-17 | 2021-09-17 | 一种拉曼光谱下利用神经网络对混合物各组分分析的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115828077A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117825353A (zh) * | 2023-12-28 | 2024-04-05 | 上海如海光电科技有限公司 | 一种基于mcr-als的混合物体系基质光谱去除方法 |
-
2021
- 2021-09-17 CN CN202111093053.9A patent/CN115828077A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117825353A (zh) * | 2023-12-28 | 2024-04-05 | 上海如海光电科技有限公司 | 一种基于mcr-als的混合物体系基质光谱去除方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105718744B (zh) | 一种基于深度学习的代谢质谱筛查方法及系统 | |
CN107451614B (zh) | 基于空间坐标与空谱特征融合的高光谱分类方法 | |
CN101401101B (zh) | 用于通过谱分析鉴定dna模式的方法和系统 | |
CN104952050B (zh) | 基于区域分割的高光谱图像自适应解混方法 | |
Basford et al. | The mixture method of clustering applied to three-way data | |
US20190265319A1 (en) | System and method for small molecule accurate recognition technology ("smart") | |
Dell’Anna et al. | Pollen discrimination and classification by Fourier transform infrared (FT-IR) microspectroscopy and machine learning | |
CN110243806B (zh) | 拉曼光谱下基于相似度的混合物组分识别方法 | |
CN109460471B (zh) | 一种基于自学习的方式建立纤维种类图谱库的方法 | |
CN105631474B (zh) | 基于Jeffries-Matusita距离和类对决策树的高光谱数据多分类方法 | |
CN111504979A (zh) | 利用已知混合物拉曼光谱改善混合物成分识别精度的方法 | |
CN104374739A (zh) | 一种基于近红外定性分析的种子品种真实性鉴别方法 | |
CN107273919B (zh) | 一种基于置信度构造类属字典的高光谱无监督分类方法 | |
CN106326915A (zh) | 一种基于改进核Fisher的化工过程故障诊断方法 | |
US8706426B2 (en) | Systems and methods for identifying classes of substances | |
Xia et al. | Non-destructive analysis the dating of paper based on convolutional neural network | |
CN111426657B (zh) | 一种溶解性有机物三维荧光谱图的识别比对方法 | |
CN115828077A (zh) | 一种拉曼光谱下利用神经网络对混合物各组分分析的方法 | |
CN117909836A (zh) | 一种适用于复杂体系中拉曼光谱识别的方法及系统 | |
CN116612335A (zh) | 一种基于对比学习的少样本细粒度图像分类方法 | |
CN113408616B (zh) | 基于pca-uve-elm的光谱分类方法 | |
CN117556245B (zh) | 一种四甲基氢氧化铵生产过滤杂质检测方法 | |
CN108663334B (zh) | 基于多分类器融合寻找土壤养分光谱特征波长的方法 | |
CN117407779A (zh) | 一种基于支持向量机的质谱数据分类方法 | |
CN117078960A (zh) | 一种基于图像特征提取的近红外光谱分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |