CN112348114B - 一种拉曼光谱气体标记物的自检测分类方法及系统 - Google Patents
一种拉曼光谱气体标记物的自检测分类方法及系统 Download PDFInfo
- Publication number
- CN112348114B CN112348114B CN202011356021.9A CN202011356021A CN112348114B CN 112348114 B CN112348114 B CN 112348114B CN 202011356021 A CN202011356021 A CN 202011356021A CN 112348114 B CN112348114 B CN 112348114B
- Authority
- CN
- China
- Prior art keywords
- gas
- self
- raman spectrum
- neural network
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001237 Raman spectrum Methods 0.000 title claims abstract description 76
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000003550 marker Substances 0.000 title claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000009499 grossing Methods 0.000 claims description 13
- 239000012855 volatile organic compound Substances 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 238000001069 Raman spectroscopy Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000005284 excitation Effects 0.000 claims description 4
- 238000004416 surface enhanced Raman spectroscopy Methods 0.000 claims description 3
- 238000000479 surface-enhanced Raman spectrum Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- WGECXQBGLLYSFP-UHFFFAOYSA-N 2,3-dimethylpentane Chemical compound CCC(C)C(C)C WGECXQBGLLYSFP-UHFFFAOYSA-N 0.000 description 2
- AFABGHUZZDYHJO-UHFFFAOYSA-N 2-Methylpentane Chemical compound CCCC(C)C AFABGHUZZDYHJO-UHFFFAOYSA-N 0.000 description 2
- VLJXXKKOSFGPHI-UHFFFAOYSA-N 3-methylhexane Chemical compound CCCC(C)CC VLJXXKKOSFGPHI-UHFFFAOYSA-N 0.000 description 2
- PFEOZHBOMNWTJB-UHFFFAOYSA-N 3-methylpentane Chemical compound CCC(C)CC PFEOZHBOMNWTJB-UHFFFAOYSA-N 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- BZHMBWZPUJHVEE-UHFFFAOYSA-N 2,3-dimethylpentane Natural products CC(C)CC(C)C BZHMBWZPUJHVEE-UHFFFAOYSA-N 0.000 description 1
- IPBVNPXQWQGGJP-UHFFFAOYSA-N acetic acid phenyl ester Natural products CC(=O)OC1=CC=CC=C1 IPBVNPXQWQGGJP-UHFFFAOYSA-N 0.000 description 1
- 238000003915 air pollution Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 229940049953 phenylacetate Drugs 0.000 description 1
- WLJVXDMOQOGPHL-UHFFFAOYSA-N phenylacetic acid Chemical compound OC(=O)CC1=CC=CC=C1 WLJVXDMOQOGPHL-UHFFFAOYSA-N 0.000 description 1
- IUGYQRQAERSCNH-UHFFFAOYSA-N pivalic acid Chemical compound CC(C)(C)C(O)=O IUGYQRQAERSCNH-UHFFFAOYSA-N 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/65—Raman scattering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2201/00—Features of devices classified in G01N21/00
- G01N2201/12—Circuits of general importance; Signal processing
- G01N2201/129—Using chemometrical methods
- G01N2201/1296—Using chemometrical methods using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A50/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
- Y02A50/20—Air quality improvement or preservation, e.g. vehicle emission control or emission reduction by using catalytic converters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本发明公开一种拉曼光谱气体标记物的自检测分类方法及系统,方法包括:先获取带有气体标记物的第一设定数量的拉曼光谱;其次对各所述拉曼光谱进行预处理,获得第一设定数量的样本;然后基于反向传播算法和第一设定数量的样本训练深层堆叠稀疏自编码神经网络,基于输入与重构之间的最小差异确定深层堆叠稀疏自编码神经网络的最优参数;最后将待检测气体的拉曼光谱输入到已确定最优参数的深层堆叠稀疏自编码神经网络进行分类,获得气体分类结果。本发明将气体标记物与拉曼光谱技术相结合来训练深层堆叠稀疏自编码神经网络,利用训练完成后的深层堆叠稀疏自编码神经网络对待检测气体进行分类,不仅提高检测速率,还降低分类过程的复杂性。
Description
技术领域
本发明涉及气体分类预测技术领域,特别是涉及一种拉曼光谱气体标记物的自检测分类方法及系统。
背景技术
近年来,随着我国工业化的发展,空气污染越来越严重,对于气体样本的采集检测越来越重要,特别是利用挥发性有机物检测实现气体样本划分具有广阔的应用前景。目前,这项具有巨大前景的无创快速检测技术的应用日趋成熟,并已被广泛用于各种实验环境和环境监测领域。
作为无创快速检测最常用的是挥发性有机物(VOCs)分类方法,其包括电子鼻及色谱-质谱法CC-MS。电子鼻由众多的纳米传感器组成,其依据各物质电阻的差异产生特征性的气体谱,从而利用模式识别原理探测不同的样本状态。CC-MS方法中VOCs首先被离子化,基于不同的质/荷比特性,不同的VOCs逐步到达色谱柱末端,该方法既能确认与代谢过程相关的单个VOCs,也能确认呼出气内所有物质,从而实现样本分类。但是上述两种方法均操作复杂,检测时间长。
发明内容
基于此,本发明的目的是提供一种拉曼光谱气体标记物的自检测分类方法及系统,以提高检测速率,降低分类过程复杂性。
为实现上述目的,本发明提供了一种拉曼光谱气体标记物的自检测分类方法,所述方法包括:
获取带有气体标记物的第一设定数量的拉曼光谱;气体标记物包括多种挥发性有机物;
对各所述拉曼光谱进行预处理,获得第一设定数量的样本;每个所述样本包括第二设定数量的训练特征以及分类标记标签,不同训练特征对应不同的挥发性有机物;
基于反向传播算法和第一设定数量的样本训练深层堆叠稀疏自编码神经网络,基于输入与重构之间的最小差异确定深层堆叠稀疏自编码神经网络的最优参数;所述最优参数包括权重系数和每一层偏差;
获取待检测气体的拉曼光谱;
将待检测气体的拉曼光谱输入到已确定最优参数的深层堆叠稀疏自编码神经网络进行分类,获得气体分类结果。
可选地,所述对各所述拉曼光谱进行预处理,获得第一设定数量的样本,具体包括:
利用Labspec5软件对各所述拉曼光谱进行基线校正;
利用Labspec5软件对基线校正后的各所述拉曼光谱进行平滑处理;
利用MATLAB根据平滑处理后的各所述拉曼光谱确定第一设定数量的样本。
可选地,所述利用MATLAB根据平滑处理后的各所述拉曼光谱确定第一设定数量的样本,具体包括:
在平滑处理后的各所述拉曼光谱上分别提取多个主峰;
从多个主峰中选取第二设定数量的主峰;
将第二设定数量的主峰转换成第二设定数量的训练特征;所述训练特征包括谱图、带数、峰位、峰宽和面积;
将第二设定数量的训练特征作为各样本的输入变量。
可选地,所述深层堆叠稀疏自编码神经网络的具体公式为:
其中,JT(W,b)表示输入与重构之间的差异,n表示样本的数量,L()表示损失函数,x(i),y(i)分别表示第i个样本输入变量和输出变量,W表示权重系数,b表示每一层偏差,α表示稀疏性值,KL()表示散度函数,qj表示第j隐藏单元的目标激活函数值,pj表示第j隐藏单元的理想目标激活函数值,表示第i个样本第j隐藏单元输出值,tr()表示矩阵的迹,nl表示第一层的层数,sl表示第一层神经元的个数,/>表示第k层第j个隐藏单元之间的联系,β表示正则化系数的值,表示神经网络泛化能力的大小。
本发明还提供一种拉曼光谱气体标记物的自检测分类系统,所述系统包括:
带有微流体芯片的气体输入装置,用于将气体标记物或待检测气体抽入到微流体芯片上;
LabRAM-HR光谱仪,用于发射激光照射在所述微流体芯片上,并利用表面增强拉曼光谱技术获得第一设定数量的拉曼光谱或待检测气体的拉曼光谱;
计算机,与所述LabRAM-HR光谱仪连接,用于采用上述方法确定深层堆叠稀疏自编码神经网络的最优参数,并将待检测气体的拉曼光谱输入到已确定最优参数的深层堆叠稀疏自编码神经网络进行分类,获得气体分类结果。
可选地,所述气体输入装置包括:
微流控芯片、自动注射器泵和密封好的气囊,所述微流控芯片与所述自动注射器泵的出口连接,所述气囊的出口与所述自动注射器泵的入口相连,所述微流控芯片用乙醇填充,利用所述自动注射器泵将所述气囊内的气体标记物或待检测气体抽入到所述微流体芯片中。
可选地,所述激光的激发波长选用785nm。
可选地,所述深层堆叠稀疏自编码神经网络包括输入层、第一隐藏层、第二隐藏层、输出层和Softmax分类器;所述输入层依次通过所述第一隐藏层、所述第二隐藏层、所述输出层和所述Softmax分类器连接。
可选地,所述计算机为Core i5-2350M CPU,主频为2.3GHz。
可选地,所述微流控芯片为SERS微流控芯片。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开一种拉曼光谱气体标记物的自检测分类方法及系统,方法包括:先获取带有气体标记物的第一设定数量的拉曼光谱;其次对各所述拉曼光谱进行预处理,获得第一设定数量的样本;然后基于反向传播算法和第一设定数量的样本训练深层堆叠稀疏自编码神经网络,基于输入与重构之间的最小差异确定深层堆叠稀疏自编码神经网络的最优参数;最后将待检测气体的拉曼光谱输入到已确定最优参数的深层堆叠稀疏自编码神经网络进行分类,获得气体分类结果。本发明将气体标记物与拉曼光谱技术相结合来训练深层堆叠稀疏自编码神经网络,利用训练完成后的深层堆叠稀疏自编码神经网络对待检测气体进行分类,不仅提高检测速率,还降低分类过程的复杂性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1拉曼光谱气体标记物的自检测分类方法流程图;
图2为本发明实施例2拉曼光谱气体标记物的自检测分类系统结构图;
图3为本发明实施例2拉曼光谱示意图;
图4为本发明实施例2深层堆叠稀疏自编码神经网络示意图;
图5为本发明实施例3网络结果混淆矩阵示意图;
图6为本发明实施例3网络结果ROC曲线示意图;
其中,1、气体输入装置,11、微流控芯片,12、自动注射器泵,13、气囊,2、LabRAM-HR光谱仪,3、计算机。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种拉曼光谱气体标记物的自检测分类方法及系统,以提高检测速率,降低分类过程复杂性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
随着人工智能的发展,机器学习作为当前计算机科学最热门的研究方向之一,在各种各样的领域得到了迅速的发展。为了充分且有效地利用生物学数据,机器学习技术也被广泛应用于生物信息学研究中。目前,国内外尚未有将机器学习应用于气体标记物拉曼光谱的早期方法研究报道。因此本发明基于机器学习与拉曼光谱气体标记物相结合来确定本发明中的技术方案。
实施例1
如图1所示,本发明公开一种拉曼光谱气体标记物的自检测分类方法,所述方法包括:
S1:获取带有气体标记物的第一设定数量的拉曼光谱;气体标记物包括多种挥发性有机物,分别具体包括2-methylpentane,3-methylpentane,2,3-dimethylpentane,3-methylhexane,pivalic acid,phenyl acetate等。
S2:对各所述拉曼光谱进行预处理,获得第一设定数量的样本;每个所述样本包括第二设定数量的训练特征以及分类标记标签,不同训练特征对应不同的挥发性有机物。
S3:基于反向传播算法和第一设定数量的样本训练深层堆叠稀疏自编码神经网络,基于输入与重构之间的最小差异确定深层堆叠稀疏自编码神经网络的最优参数;所述最优参数包括权重系数和每一层偏差。
S4:获取待检测气体的拉曼光谱。
S5:将待检测气体的拉曼光谱输入到已确定最优参数的深层堆叠稀疏自编码神经网络进行分类,获得气体分类结果。
下面对各个步骤进行详细论述:
S2:所述对各所述拉曼光谱进行预处理,获得第一设定数量的样本,具体包括:
S21:利用Labspec5软件对各所述拉曼光谱进行基线校正。
S22:利用Labspec5软件对基线校正后的各所述拉曼光谱进行平滑处理。
S23:利用MATLAB根据平滑处理后的各所述拉曼光谱确定第一设定数量的样本。本实施例中第一设定数量为200,具体选取根据实际需求进行选取。
受到光谱仪中存在的噪声的影响,网络分类结果会发生错误,因此本发明使用Labspec5软件对各拉曼光谱进行基线校正,并使用Labspec5软件对基线校正后的拉曼光谱进行平滑处理,以保证数据输入的有效性。
S23:利用MATLAB根据平滑处理后的各所述拉曼光谱确定第一设定数量的样本,具体包括:
S231:在平滑处理后的各所述拉曼光谱上分别提取多个主峰。
S232:从多个主峰中选取第二设定数量的主峰。本实施例中第二设定数量为50,具体选取根据实际需求进行选取。
S233:将第二设定数量的主峰转换成第二设定数量的训练特征;所述训练特征包括谱图、带数、峰位、峰宽和面积。
S234:将第二设定数量的训练特征作为各样本的输入变量。
因为深层堆叠稀疏自编码神经网络的输入是一维的,它包含了整个拉曼频谱,为了减少输入维度,因此需要将拉曼光谱进行裁剪,将每个拉曼光谱裁剪成50个训练特征。进一步的为了增加样本,随机移动50和100个波数进行数据扩充,获得训练所需的200个样本。
作为一种实施方式,本发明所述深层堆叠稀疏自编码神经网络的具体公式为:
其中,JT(W,b)表示输入与重构之间的差异,n表示样本的数量,L()表示损失函数,x(i),y(i)分别表示第i个样本输入变量和输出变量,W表示权重系数,b表示每一层偏差,α表示稀疏性值,KL()表示散度函数,qj表示第j隐藏单元的目标激活函数值,pj表示第j隐藏单元的理想目标激活函数值,表示第i个样本第j隐藏单元输出值,tr()表示矩阵的迹,nl表示第一层的层数,sl表示第一层神经元的个数,/>表示第k层第j个隐藏单元之间的联系,β表示正则化系数的值,表示神经网络泛化能力的大小。
采用本发明的方法训练深层堆叠稀疏自编码神经网络成功以后,可重复应用,无需反复验证,因为反映模型泛化能力的网络权重参数已经在网络内部实时保存,在面对新任务时通过非线性映射直接实现类别归类。另外,在获得新的待检测气体的拉曼光谱后可以直接进行待检测气体的拉曼光谱归类,检出率高,无创快速且副作用小。
实施例2
如图2所示,本发明公开一种拉曼光谱气体标记物的自检测分类系统,所述系统包括:带有微流体芯片的气体输入装置1、LabRAM-HR光谱仪2和计算机3;所述计算机3与所述LabRAM-HR光谱仪2连接。
所述气体输入装置1用于将气体标记物或待检测气体抽入到微流体芯片11上;所述LabRAM-HR光谱仪2用于发射激光照射在所述微流体芯片上,并利用表面增强拉曼光谱技术获得第一设定数量的拉曼光谱或待检测气体的拉曼光谱,拉曼光谱如图3所示;所述计算机3用于上述方法确定深层堆叠稀疏自编码神经网络的最优参数,并将待检测气体的拉曼光谱输入到已确定最优参数的深层堆叠稀疏自编码神经网络进行分类,获得气体分类结果。
本实施例中,LabRAM-HR光谱仪的激发波长选用785nm,所述微流控芯片为SERS微流控芯片,计算机的型号选为Core i5-2350M CPU、主频为2.3GHz,将网络的初始学习率设置为0.0001,深层堆叠稀疏自编码神经网络在1000个循环后收敛。经过多个循环迭代后,每一类样本对应的特征权重在深层堆叠稀疏自编码神经网络中被保存,在获得新的待检测气体的拉曼波谱后实现自动归类划分检测。
如图2所示,本发明所述气体输入装置包括:微流控芯片11、自动注射器泵12和密封好的气囊13,所述微流控芯片11与所述自动注射器泵12的出口连接,所述气囊13的出口与所述自动注射器泵12的入口相连,所述微流控芯片11用乙醇填充,利用所述自动注射器泵12将所述气囊13内的气体标记物或待检测气体抽入到所述微流体芯片11中。
如图4所示,所述深层堆叠稀疏自编码神经网络包括输入层、第一隐藏层、第二隐藏层、输出层和Softmax分类器;所述输入层依次通过所述第一隐藏层、所述第二隐藏层、所述输出层和所述Softmax分类器连接。
所述输入层用于根据输入的多个样本生成第三设定数量的训练特征;所述第一隐藏层用于根据输入的第三设定数量的训练特征生成第四设定数量的训练特征;所述第二隐藏层用于根据输入的第四设定数量的训练特征生成第五设定数量的训练特征;所述输出层用于根据输入的第五设定数量的训练特征生成第六设定数量的训练特征;所述Softmax分类器用于根据第六设定数量的训练特征输出气体分类结果。第三设定数量、第四设定数量、第五设定数量、第六设定数量根据具体实际需求进行设置,本实施例中,第三设定数量选为100、第四设定数量选为20、第五设定数量选为10、第六设定数量选为3。
确定深度堆叠稀疏自编码器的神经网络结构后,将其与传统方法进行比较。常见的方法包括两大类,第一类是采用Softmax分类器对原始拉曼频谱直接进行分类。第二类在基于SAE+SMC的神经网络中,利用SAE网络结构学习特征,并将其作为Softmax分类器的原始输入,用于对样本类别进行分类,最终计算结果的特异性、敏感性和检测比率来评价各模型的分类结果。其中Logistic回归通常用于监督算法中的分类结果,但是适用情形一般在输出结果有一类或两类的情况。由于本发明的输出结果具有多分类特性,因此选用Softmax分类器对样本进行归类输出。
本发明所述深层堆叠稀疏自编码神经网络的具体公式为:
其中,JT(W,b)表示输入与重构之间的差异,即平方误差的平均叠加,n表示样本的数量,即第一设定数量,L()表示损失函数,x(i),y(i)分别表示第i个样本输入变量和输出变量,所述输入变量为第二设定数量的训练特征,所述输出变量为分类标记标签,W表示权重系数,b表示每一层偏差,W和b均为多维矩阵,α表示稀疏性值,KL()表示散度函数,qj表示第j隐藏单元的目标激活函数值,pj表示第j隐藏单元的理想目标激活函数值,表示第i个样本第j隐藏单元输出值,tr()表示矩阵的迹,nl表示第一层的层数,sl表示第一层神经元的个数,/>表示第k层第j个隐藏单元之间的联系,β表示正则化系数的值,表示神经网络泛化能力的大小。
实施例3
本实施例中采用如图2所的装置进行实验,LabRAM-HR光谱仪的激发波长选用785nm,每个拉曼光谱使用1200个不同的训练特征,总共200个拉曼光谱,即共确定1200个样本。图4中深层堆叠稀疏自编码神经网络采用[10040]大小的自动编码器,100和40分别是第一隐藏层和第二层隐藏层的神经元数。该深层堆叠稀疏自编码神经网络的总体准确率为96.3%,仅对4例样本进行了误分。该深层堆叠稀疏自编码神经网络对三类样本的准确率分别为97.4%、98.0%和93.3%。
ROC曲线是神经网络评价的重要工具,ROC曲线用于可视化每个深度神经网络的性能划分结果。ROC曲线表明了每个模型的兼容性,ROC曲线面积越大,模型的性能越好,ROC曲线下面积越小,说明模型的性能较差。
如图5所示,利用混淆矩阵来评估分类结果,其中训练集、验证集和测试集的混淆矩阵划分精度分别为83.7%、77.2%和75.4%,本模型的综合混淆矩阵划分精度为81.5%。
如图6所示,所开发的深层堆叠稀疏自编码神经网络训练数据的总体准确率为99.2%,验证数据的准确率为89.5%,测试数据的准确率为89.5%。本模型对三类样本分类的总体准确率分别为97.4%、93.3%和98%,优于传统的检测方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种拉曼光谱气体标记物的自检测分类方法,其特征在于,所述方法包括:
获取带有气体标记物的第一设定数量的拉曼光谱;气体标记物包括多种挥发性有机物;
对各所述拉曼光谱进行预处理,获得第一设定数量的样本;每个所述样本包括第二设定数量的训练特征以及分类标记标签,不同训练特征对应不同的挥发性有机物;
基于反向传播算法和第一设定数量的样本训练深层堆叠稀疏自编码神经网络,基于输入与重构之间的最小差异确定深层堆叠稀疏自编码神经网络的最优参数;所述最优参数包括权重系数和每一层偏差;
深层堆叠稀疏自编码神经网络的输入是一维的,包含了整个拉曼频谱,为了减少输入维度,因此需要将拉曼光谱进行裁剪,将每个拉曼光谱裁剪成50个训练特征;
获取待检测气体的拉曼光谱;
将待检测气体的样本输入到已确定最优参数的深层堆叠稀疏自编码神经网络进行分类,获得气体分类结果;
所述深层堆叠稀疏自编码神经网络的具体公式为:
2.根据权利要求1所述的拉曼光谱气体标记物的自检测分类方法,其特征在于,所述对各所述拉曼光谱进行预处理,获得第一设定数量的样本,具体包括:
利用Labspec5软件对各所述拉曼光谱进行基线校正;
利用Labspec5软件对基线校正后的各所述拉曼光谱进行平滑处理;
利用MATLAB根据平滑处理后的各所述拉曼光谱确定第一设定数量的样本。
3.根据权利要求2所述的拉曼光谱气体标记物的自检测分类方法,其特征在于,所述利用MATLAB根据平滑处理后的各所述拉曼光谱确定第一设定数量的样本,具体包括:
在平滑处理后的各所述拉曼光谱上分别提取多个主峰;
从多个主峰中选取第二设定数量的主峰;
将第二设定数量的主峰转换成第二设定数量的训练特征;所述训练特征包括谱图、带数、峰位、峰宽和面积。
4.一种拉曼光谱气体标记物的自检测分类系统,其特征在于,所述系统包括:
带有微流体芯片的气体输入装置,用于将气体标记物或待检测气体抽入到微流体芯片上;
LabRAM-HR光谱仪,用于发射激光照射在所述微流体芯片上,并利用表面增强拉曼光谱技术获得第一设定数量的拉曼光谱或待检测气体的拉曼光谱;
计算机,与所述LabRAM-HR光谱仪连接,用于采用权利要求1-3任一项所述的方法确定深层堆叠稀疏自编码神经网络的最优参数,并将待检测气体的样本输入到已确定最优参数的深层堆叠稀疏自编码神经网络进行分类,获得气体分类结果;
深层堆叠稀疏自编码神经网络的输入是一维的,包含了整个拉曼频谱,为了减少输入维度,因此需要将拉曼光谱进行裁剪,将每个拉曼光谱裁剪成50个训练特征;
所述深层堆叠稀疏自编码神经网络的具体公式为:
5.根据权利要求4所述的拉曼光谱气体标记物的自检测分类系统,其特征在于,所述气体输入装置包括:
微流控芯片、自动注射器泵和密封好的气囊,所述微流控芯片与所述自动注射器泵的出口连接,所述气囊的出口与所述自动注射器泵的入口相连,所述微流控芯片用乙醇填充,利用所述自动注射器泵将所述气囊内的气体标记物或待检测气体抽入到所述微流体芯片中。
6.根据权利要求4所述的拉曼光谱气体标记物的自检测分类系统,其特征在于,所述激光的激发波长选用785nm。
7.根据权利要求4所述的拉曼光谱气体标记物的自检测分类系统,其特征在于,所述深层堆叠稀疏自编码神经网络包括输入层、第一隐藏层、第二隐藏层、输出层和Softmax分类器;所述输入层依次通过所述第一隐藏层、所述第二隐藏层、所述输出层和所述Softmax分类器连接。
8.根据权利要求4所述的拉曼光谱气体标记物的自检测分类系统,其特征在于,所述计算机为Core i5-2350M CPU,主频为2.3GHz。
9.根据权利要求5所述的拉曼光谱气体标记物的自检测分类系统,其特征在于,所述微流控芯片为SERS微流控芯片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011356021.9A CN112348114B (zh) | 2020-11-27 | 2020-11-27 | 一种拉曼光谱气体标记物的自检测分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011356021.9A CN112348114B (zh) | 2020-11-27 | 2020-11-27 | 一种拉曼光谱气体标记物的自检测分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112348114A CN112348114A (zh) | 2021-02-09 |
CN112348114B true CN112348114B (zh) | 2023-05-30 |
Family
ID=74364998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011356021.9A Active CN112348114B (zh) | 2020-11-27 | 2020-11-27 | 一种拉曼光谱气体标记物的自检测分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112348114B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101285773A (zh) * | 2008-05-23 | 2008-10-15 | 浙江大学 | 混纺织物组分的拉曼光谱定性检测方法 |
CN103033497A (zh) * | 2012-12-25 | 2013-04-10 | 吉林大学 | 一种应用拉曼光谱检测的微流控芯片分析仪 |
CN103801415A (zh) * | 2014-03-12 | 2014-05-21 | 杭州霆科生物科技有限公司 | 一种按钮式微流体控制系统及方法 |
CN106769693A (zh) * | 2016-11-14 | 2017-05-31 | 中国科学院重庆绿色智能技术研究院 | 一种基于拉曼光谱的循环肿瘤细胞自动检测系统 |
CN108921233A (zh) * | 2018-07-31 | 2018-11-30 | 武汉大学 | 一种基于自编码网络的拉曼光谱数据分类方法 |
CN110947436A (zh) * | 2019-12-10 | 2020-04-03 | 清华大学 | 一种基于自组装技术及微流控芯片技术的电化学检测装置 |
WO2020214661A1 (en) * | 2019-04-15 | 2020-10-22 | Ohio State Innovation Foundation | Material identification through image capture of raman scattering |
CN111944672A (zh) * | 2020-07-29 | 2020-11-17 | 北京机械设备研究所 | 用于分子检测的芯片结构及检测方法 |
-
2020
- 2020-11-27 CN CN202011356021.9A patent/CN112348114B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101285773A (zh) * | 2008-05-23 | 2008-10-15 | 浙江大学 | 混纺织物组分的拉曼光谱定性检测方法 |
CN103033497A (zh) * | 2012-12-25 | 2013-04-10 | 吉林大学 | 一种应用拉曼光谱检测的微流控芯片分析仪 |
CN103801415A (zh) * | 2014-03-12 | 2014-05-21 | 杭州霆科生物科技有限公司 | 一种按钮式微流体控制系统及方法 |
CN106769693A (zh) * | 2016-11-14 | 2017-05-31 | 中国科学院重庆绿色智能技术研究院 | 一种基于拉曼光谱的循环肿瘤细胞自动检测系统 |
CN108921233A (zh) * | 2018-07-31 | 2018-11-30 | 武汉大学 | 一种基于自编码网络的拉曼光谱数据分类方法 |
WO2020214661A1 (en) * | 2019-04-15 | 2020-10-22 | Ohio State Innovation Foundation | Material identification through image capture of raman scattering |
CN110947436A (zh) * | 2019-12-10 | 2020-04-03 | 清华大学 | 一种基于自组装技术及微流控芯片技术的电化学检测装置 |
CN111944672A (zh) * | 2020-07-29 | 2020-11-17 | 北京机械设备研究所 | 用于分子检测的芯片结构及检测方法 |
Non-Patent Citations (1)
Title |
---|
"基于深度神经网络的提升机轴承故障诊断研究";马辉等;《计算机工程与应用》;20190426;第55卷(第16期);第123-129页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112348114A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106782602B (zh) | 基于深度神经网络的语音情感识别方法 | |
CN103942568B (zh) | 一种基于无监督特征选择的分类方法 | |
CN101587546B (zh) | 基于支持向量多元分类的下肢动作模式的识别方法 | |
CN104298999B (zh) | 基于递归自动编码的高光谱特征学习方法 | |
CN109858477A (zh) | 用深度森林在复杂环境中识别目标物的拉曼光谱分析方法 | |
CN103995903B (zh) | 基于同构子空间映射和优化的跨媒体检索方法 | |
CN105929113B (zh) | 一种带子空间投影的电子鼻信号误差自适应学习方法 | |
CN110880369A (zh) | 基于径向基函数神经网络的气体标志物检测方法及应用 | |
CN112434662B (zh) | 一种基于多尺度卷积神经网络的茶叶病斑自动识别算法 | |
CN110702648B (zh) | 基于非下采样轮廓波变换的荧光光谱污染物分类方法 | |
CN104568824A (zh) | 基于可见/近红外光谱的虾类新鲜度等级检测方法及装置 | |
CN109472287A (zh) | 基于二维Gabor小波的三维荧光光谱特征提取方法 | |
Shi et al. | CNN‐Transformer for visual‐tactile fusion applied in road recognition of autonomous vehicles | |
CN113378680A (zh) | 一种拉曼光谱数据的智能建库方法 | |
CN106295708A (zh) | 一种基于Fisher分类器组的连续型数据预处理方法 | |
Zhang et al. | A novel gas recognition and concentration estimation model for an artificial olfactory system with a gas sensor array | |
Ju et al. | Rapid Identification of Atmospheric Gaseous Pollutants Using Fourier‐Transform Infrared Spectroscopy Combined with Independent Component Analysis | |
CN112348114B (zh) | 一种拉曼光谱气体标记物的自检测分类方法及系统 | |
Shi et al. | Feature extraction and classification of cataluminescence images based on sparse coding convolutional neural networks | |
CN113935367B (zh) | 基于ResNet和LSTM融合的太赫兹时域光谱隐匿危险品分类方法 | |
CN111428585A (zh) | 一种基于深度学习的超材料太赫兹谱学识别方法 | |
Pan et al. | Identification of softwood species using convolutional neural networks and raw near-infrared spectroscopy | |
CN112115961B (zh) | 一种基于稀疏图正则化的高光谱遥感影像分类方法 | |
Chowdhury et al. | TSMC-Net: Deep-Learning Multigas Classification Using THz Absorption Spectra | |
Han et al. | Object classification on raw radar data using convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |