CN112348114B

CN112348114B - 一种拉曼光谱气体标记物的自检测分类方法及系统

Info

Publication number: CN112348114B
Application number: CN202011356021.9A
Authority: CN
Inventors: 王侃; 秦琪; 崔大祥; 徐昊
Original assignee: Yantai Information Technology Research Institute Shanghai Jiaotong University; Shanghai Jiaotong University
Current assignee: Yantai Information Technology Research Institute Shanghai Jiaotong University; Shanghai Jiaotong University
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2023-05-30
Anticipated expiration: 2040-11-27
Also published as: CN112348114A

Abstract

本发明公开一种拉曼光谱气体标记物的自检测分类方法及系统，方法包括：先获取带有气体标记物的第一设定数量的拉曼光谱；其次对各所述拉曼光谱进行预处理，获得第一设定数量的样本；然后基于反向传播算法和第一设定数量的样本训练深层堆叠稀疏自编码神经网络，基于输入与重构之间的最小差异确定深层堆叠稀疏自编码神经网络的最优参数；最后将待检测气体的拉曼光谱输入到已确定最优参数的深层堆叠稀疏自编码神经网络进行分类，获得气体分类结果。本发明将气体标记物与拉曼光谱技术相结合来训练深层堆叠稀疏自编码神经网络，利用训练完成后的深层堆叠稀疏自编码神经网络对待检测气体进行分类，不仅提高检测速率，还降低分类过程的复杂性。

Description

一种拉曼光谱气体标记物的自检测分类方法及系统

技术领域

本发明涉及气体分类预测技术领域，特别是涉及一种拉曼光谱气体标记物的自检测分类方法及系统。

背景技术

近年来，随着我国工业化的发展，空气污染越来越严重，对于气体样本的采集检测越来越重要，特别是利用挥发性有机物检测实现气体样本划分具有广阔的应用前景。目前，这项具有巨大前景的无创快速检测技术的应用日趋成熟，并已被广泛用于各种实验环境和环境监测领域。

作为无创快速检测最常用的是挥发性有机物(VOCs)分类方法，其包括电子鼻及色谱-质谱法CC-MS。电子鼻由众多的纳米传感器组成，其依据各物质电阻的差异产生特征性的气体谱，从而利用模式识别原理探测不同的样本状态。CC-MS方法中VOCs首先被离子化，基于不同的质/荷比特性，不同的VOCs逐步到达色谱柱末端，该方法既能确认与代谢过程相关的单个VOCs，也能确认呼出气内所有物质，从而实现样本分类。但是上述两种方法均操作复杂，检测时间长。

发明内容

基于此，本发明的目的是提供一种拉曼光谱气体标记物的自检测分类方法及系统，以提高检测速率，降低分类过程复杂性。

为实现上述目的，本发明提供了一种拉曼光谱气体标记物的自检测分类方法，所述方法包括：

获取带有气体标记物的第一设定数量的拉曼光谱；气体标记物包括多种挥发性有机物；

对各所述拉曼光谱进行预处理，获得第一设定数量的样本；每个所述样本包括第二设定数量的训练特征以及分类标记标签，不同训练特征对应不同的挥发性有机物；

基于反向传播算法和第一设定数量的样本训练深层堆叠稀疏自编码神经网络，基于输入与重构之间的最小差异确定深层堆叠稀疏自编码神经网络的最优参数；所述最优参数包括权重系数和每一层偏差；

获取待检测气体的拉曼光谱；

将待检测气体的拉曼光谱输入到已确定最优参数的深层堆叠稀疏自编码神经网络进行分类，获得气体分类结果。

可选地，所述对各所述拉曼光谱进行预处理，获得第一设定数量的样本，具体包括：

利用Labspec5软件对各所述拉曼光谱进行基线校正；

利用Labspec5软件对基线校正后的各所述拉曼光谱进行平滑处理；

利用MATLAB根据平滑处理后的各所述拉曼光谱确定第一设定数量的样本。

可选地，所述利用MATLAB根据平滑处理后的各所述拉曼光谱确定第一设定数量的样本，具体包括：

在平滑处理后的各所述拉曼光谱上分别提取多个主峰；

从多个主峰中选取第二设定数量的主峰；

将第二设定数量的主峰转换成第二设定数量的训练特征；所述训练特征包括谱图、带数、峰位、峰宽和面积；

将第二设定数量的训练特征作为各样本的输入变量。

可选地，所述深层堆叠稀疏自编码神经网络的具体公式为：

其中，J_T(W,b)表示输入与重构之间的差异，n表示样本的数量，L()表示损失函数，x(i),y(i)分别表示第i个样本输入变量和输出变量，W表示权重系数，b表示每一层偏差，α表示稀疏性值，KL()表示散度函数，q_j表示第j隐藏单元的目标激活函数值，p_j表示第j隐藏单元的理想目标激活函数值，

表示第i个样本第j隐藏单元输出值，tr()表示矩阵的迹，nl表示第一层的层数，sl表示第一层神经元的个数，/>

表示第k层第j个隐藏单元之间的联系，β表示正则化系数的值，表示神经网络泛化能力的大小。

本发明还提供一种拉曼光谱气体标记物的自检测分类系统，所述系统包括：

带有微流体芯片的气体输入装置，用于将气体标记物或待检测气体抽入到微流体芯片上；

LabRAM-HR光谱仪，用于发射激光照射在所述微流体芯片上，并利用表面增强拉曼光谱技术获得第一设定数量的拉曼光谱或待检测气体的拉曼光谱；

计算机，与所述LabRAM-HR光谱仪连接，用于采用上述方法确定深层堆叠稀疏自编码神经网络的最优参数，并将待检测气体的拉曼光谱输入到已确定最优参数的深层堆叠稀疏自编码神经网络进行分类，获得气体分类结果。

可选地，所述气体输入装置包括：

微流控芯片、自动注射器泵和密封好的气囊，所述微流控芯片与所述自动注射器泵的出口连接，所述气囊的出口与所述自动注射器泵的入口相连，所述微流控芯片用乙醇填充，利用所述自动注射器泵将所述气囊内的气体标记物或待检测气体抽入到所述微流体芯片中。

可选地，所述激光的激发波长选用785nm。

可选地，所述深层堆叠稀疏自编码神经网络包括输入层、第一隐藏层、第二隐藏层、输出层和Softmax分类器；所述输入层依次通过所述第一隐藏层、所述第二隐藏层、所述输出层和所述Softmax分类器连接。

可选地，所述计算机为Core i5-2350M CPU，主频为2.3GHz。

可选地，所述微流控芯片为SERS微流控芯片。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1拉曼光谱气体标记物的自检测分类方法流程图；

图2为本发明实施例2拉曼光谱气体标记物的自检测分类系统结构图；

图3为本发明实施例2拉曼光谱示意图；

图4为本发明实施例2深层堆叠稀疏自编码神经网络示意图；

图5为本发明实施例3网络结果混淆矩阵示意图；

图6为本发明实施例3网络结果ROC曲线示意图；

其中，1、气体输入装置，11、微流控芯片，12、自动注射器泵，13、气囊，2、LabRAM-HR光谱仪，3、计算机。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种拉曼光谱气体标记物的自检测分类方法及系统，以提高检测速率，降低分类过程复杂性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

随着人工智能的发展，机器学习作为当前计算机科学最热门的研究方向之一，在各种各样的领域得到了迅速的发展。为了充分且有效地利用生物学数据，机器学习技术也被广泛应用于生物信息学研究中。目前，国内外尚未有将机器学习应用于气体标记物拉曼光谱的早期方法研究报道。因此本发明基于机器学习与拉曼光谱气体标记物相结合来确定本发明中的技术方案。

实施例1

如图1所示，本发明公开一种拉曼光谱气体标记物的自检测分类方法，所述方法包括：

S1：获取带有气体标记物的第一设定数量的拉曼光谱；气体标记物包括多种挥发性有机物，分别具体包括2-methylpentane，3-methylpentane，2,3-dimethylpentane，3-methylhexane，pivalic acid，phenyl acetate等。

S2：对各所述拉曼光谱进行预处理，获得第一设定数量的样本；每个所述样本包括第二设定数量的训练特征以及分类标记标签，不同训练特征对应不同的挥发性有机物。

S3：基于反向传播算法和第一设定数量的样本训练深层堆叠稀疏自编码神经网络，基于输入与重构之间的最小差异确定深层堆叠稀疏自编码神经网络的最优参数；所述最优参数包括权重系数和每一层偏差。

S4：获取待检测气体的拉曼光谱。

S5：将待检测气体的拉曼光谱输入到已确定最优参数的深层堆叠稀疏自编码神经网络进行分类，获得气体分类结果。

下面对各个步骤进行详细论述：

S2：所述对各所述拉曼光谱进行预处理，获得第一设定数量的样本，具体包括：

S21：利用Labspec5软件对各所述拉曼光谱进行基线校正。

S22：利用Labspec5软件对基线校正后的各所述拉曼光谱进行平滑处理。

S23：利用MATLAB根据平滑处理后的各所述拉曼光谱确定第一设定数量的样本。本实施例中第一设定数量为200，具体选取根据实际需求进行选取。

受到光谱仪中存在的噪声的影响，网络分类结果会发生错误，因此本发明使用Labspec5软件对各拉曼光谱进行基线校正，并使用Labspec5软件对基线校正后的拉曼光谱进行平滑处理，以保证数据输入的有效性。

S23：利用MATLAB根据平滑处理后的各所述拉曼光谱确定第一设定数量的样本，具体包括：

S231：在平滑处理后的各所述拉曼光谱上分别提取多个主峰。

S232：从多个主峰中选取第二设定数量的主峰。本实施例中第二设定数量为50，具体选取根据实际需求进行选取。

S233：将第二设定数量的主峰转换成第二设定数量的训练特征；所述训练特征包括谱图、带数、峰位、峰宽和面积。

S234：将第二设定数量的训练特征作为各样本的输入变量。

因为深层堆叠稀疏自编码神经网络的输入是一维的，它包含了整个拉曼频谱，为了减少输入维度，因此需要将拉曼光谱进行裁剪，将每个拉曼光谱裁剪成50个训练特征。进一步的为了增加样本，随机移动50和100个波数进行数据扩充，获得训练所需的200个样本。

作为一种实施方式，本发明所述深层堆叠稀疏自编码神经网络的具体公式为：

采用本发明的方法训练深层堆叠稀疏自编码神经网络成功以后，可重复应用，无需反复验证，因为反映模型泛化能力的网络权重参数已经在网络内部实时保存，在面对新任务时通过非线性映射直接实现类别归类。另外，在获得新的待检测气体的拉曼光谱后可以直接进行待检测气体的拉曼光谱归类，检出率高，无创快速且副作用小。

实施例2

如图2所示，本发明公开一种拉曼光谱气体标记物的自检测分类系统，所述系统包括：带有微流体芯片的气体输入装置1、LabRAM-HR光谱仪2和计算机3；所述计算机3与所述LabRAM-HR光谱仪2连接。

所述气体输入装置1用于将气体标记物或待检测气体抽入到微流体芯片11上；所述LabRAM-HR光谱仪2用于发射激光照射在所述微流体芯片上，并利用表面增强拉曼光谱技术获得第一设定数量的拉曼光谱或待检测气体的拉曼光谱，拉曼光谱如图3所示；所述计算机3用于上述方法确定深层堆叠稀疏自编码神经网络的最优参数，并将待检测气体的拉曼光谱输入到已确定最优参数的深层堆叠稀疏自编码神经网络进行分类，获得气体分类结果。

本实施例中，LabRAM-HR光谱仪的激发波长选用785nm，所述微流控芯片为SERS微流控芯片，计算机的型号选为Core i5-2350M CPU、主频为2.3GHz，将网络的初始学习率设置为0.0001，深层堆叠稀疏自编码神经网络在1000个循环后收敛。经过多个循环迭代后，每一类样本对应的特征权重在深层堆叠稀疏自编码神经网络中被保存，在获得新的待检测气体的拉曼波谱后实现自动归类划分检测。

如图2所示，本发明所述气体输入装置包括：微流控芯片11、自动注射器泵12和密封好的气囊13，所述微流控芯片11与所述自动注射器泵12的出口连接，所述气囊13的出口与所述自动注射器泵12的入口相连，所述微流控芯片11用乙醇填充，利用所述自动注射器泵12将所述气囊13内的气体标记物或待检测气体抽入到所述微流体芯片11中。

如图4所示，所述深层堆叠稀疏自编码神经网络包括输入层、第一隐藏层、第二隐藏层、输出层和Softmax分类器；所述输入层依次通过所述第一隐藏层、所述第二隐藏层、所述输出层和所述Softmax分类器连接。

所述输入层用于根据输入的多个样本生成第三设定数量的训练特征；所述第一隐藏层用于根据输入的第三设定数量的训练特征生成第四设定数量的训练特征；所述第二隐藏层用于根据输入的第四设定数量的训练特征生成第五设定数量的训练特征；所述输出层用于根据输入的第五设定数量的训练特征生成第六设定数量的训练特征；所述Softmax分类器用于根据第六设定数量的训练特征输出气体分类结果。第三设定数量、第四设定数量、第五设定数量、第六设定数量根据具体实际需求进行设置，本实施例中，第三设定数量选为100、第四设定数量选为20、第五设定数量选为10、第六设定数量选为3。

确定深度堆叠稀疏自编码器的神经网络结构后，将其与传统方法进行比较。常见的方法包括两大类，第一类是采用Softmax分类器对原始拉曼频谱直接进行分类。第二类在基于SAE+SMC的神经网络中，利用SAE网络结构学习特征，并将其作为Softmax分类器的原始输入，用于对样本类别进行分类，最终计算结果的特异性、敏感性和检测比率来评价各模型的分类结果。其中Logistic回归通常用于监督算法中的分类结果，但是适用情形一般在输出结果有一类或两类的情况。由于本发明的输出结果具有多分类特性，因此选用Softmax分类器对样本进行归类输出。

本发明所述深层堆叠稀疏自编码神经网络的具体公式为：

其中，J_T(W,b)表示输入与重构之间的差异，即平方误差的平均叠加，n表示样本的数量，即第一设定数量，L()表示损失函数，x(i),y(i)分别表示第i个样本输入变量和输出变量，所述输入变量为第二设定数量的训练特征，所述输出变量为分类标记标签，W表示权重系数，b表示每一层偏差，W和b均为多维矩阵，α表示稀疏性值，KL()表示散度函数，q_j表示第j隐藏单元的目标激活函数值，p_j表示第j隐藏单元的理想目标激活函数值，

实施例3

本实施例中采用如图2所的装置进行实验，LabRAM-HR光谱仪的激发波长选用785nm，每个拉曼光谱使用1200个不同的训练特征，总共200个拉曼光谱，即共确定1200个样本。图4中深层堆叠稀疏自编码神经网络采用[10040]大小的自动编码器,100和40分别是第一隐藏层和第二层隐藏层的神经元数。该深层堆叠稀疏自编码神经网络的总体准确率为96.3％，仅对4例样本进行了误分。该深层堆叠稀疏自编码神经网络对三类样本的准确率分别为97.4％、98.0％和93.3％。

ROC曲线是神经网络评价的重要工具，ROC曲线用于可视化每个深度神经网络的性能划分结果。ROC曲线表明了每个模型的兼容性，ROC曲线面积越大，模型的性能越好，ROC曲线下面积越小，说明模型的性能较差。

如图5所示，利用混淆矩阵来评估分类结果，其中训练集、验证集和测试集的混淆矩阵划分精度分别为83.7％、77.2％和75.4％，本模型的综合混淆矩阵划分精度为81.5％。

如图6所示，所开发的深层堆叠稀疏自编码神经网络训练数据的总体准确率为99.2％，验证数据的准确率为89.5％，测试数据的准确率为89.5％。本模型对三类样本分类的总体准确率分别为97.4％、93.3％和98％，优于传统的检测方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种拉曼光谱气体标记物的自检测分类方法，其特征在于，所述方法包括：

深层堆叠稀疏自编码神经网络的输入是一维的，包含了整个拉曼频谱，为了减少输入维度，因此需要将拉曼光谱进行裁剪，将每个拉曼光谱裁剪成50个训练特征；

获取待检测气体的拉曼光谱；

将待检测气体的样本输入到已确定最优参数的深层堆叠稀疏自编码神经网络进行分类，获得气体分类结果；

所述深层堆叠稀疏自编码神经网络的具体公式为：

2.根据权利要求1所述的拉曼光谱气体标记物的自检测分类方法，其特征在于，所述对各所述拉曼光谱进行预处理，获得第一设定数量的样本，具体包括：

利用Labspec5软件对各所述拉曼光谱进行基线校正；

3.根据权利要求2所述的拉曼光谱气体标记物的自检测分类方法，其特征在于，所述利用MATLAB根据平滑处理后的各所述拉曼光谱确定第一设定数量的样本，具体包括：

在平滑处理后的各所述拉曼光谱上分别提取多个主峰；

从多个主峰中选取第二设定数量的主峰；

将第二设定数量的主峰转换成第二设定数量的训练特征；所述训练特征包括谱图、带数、峰位、峰宽和面积。

4.一种拉曼光谱气体标记物的自检测分类系统，其特征在于，所述系统包括：

计算机，与所述LabRAM-HR光谱仪连接，用于采用权利要求1-3任一项所述的方法确定深层堆叠稀疏自编码神经网络的最优参数，并将待检测气体的样本输入到已确定最优参数的深层堆叠稀疏自编码神经网络进行分类，获得气体分类结果；

所述深层堆叠稀疏自编码神经网络的具体公式为：

5.根据权利要求4所述的拉曼光谱气体标记物的自检测分类系统，其特征在于，所述气体输入装置包括：

6.根据权利要求4所述的拉曼光谱气体标记物的自检测分类系统，其特征在于，所述激光的激发波长选用785nm。

7.根据权利要求4所述的拉曼光谱气体标记物的自检测分类系统，其特征在于，所述深层堆叠稀疏自编码神经网络包括输入层、第一隐藏层、第二隐藏层、输出层和Softmax分类器；所述输入层依次通过所述第一隐藏层、所述第二隐藏层、所述输出层和所述Softmax分类器连接。

8.根据权利要求4所述的拉曼光谱气体标记物的自检测分类系统，其特征在于，所述计算机为Core i5-2350M CPU，主频为2.3GHz。

9.根据权利要求5所述的拉曼光谱气体标记物的自检测分类系统，其特征在于，所述微流控芯片为SERS微流控芯片。