CN116399848A - 一种基于深度学习的拉曼光谱大米检测方法 - Google Patents
一种基于深度学习的拉曼光谱大米检测方法 Download PDFInfo
- Publication number
- CN116399848A CN116399848A CN202310438527.1A CN202310438527A CN116399848A CN 116399848 A CN116399848 A CN 116399848A CN 202310438527 A CN202310438527 A CN 202310438527A CN 116399848 A CN116399848 A CN 116399848A
- Authority
- CN
- China
- Prior art keywords
- rice
- raman spectrum
- data
- deep learning
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 235000007164 Oryza sativa Nutrition 0.000 title claims abstract description 84
- 235000009566 rice Nutrition 0.000 title claims abstract description 84
- 238000001237 Raman spectrum Methods 0.000 title claims abstract description 72
- 238000001514 detection method Methods 0.000 title claims abstract description 34
- 238000013135 deep learning Methods 0.000 title claims abstract description 30
- 240000007594 Oryza sativa Species 0.000 title 1
- 241000209094 Oryza Species 0.000 claims abstract description 83
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000011156 evaluation Methods 0.000 claims abstract description 15
- 238000000513 principal component analysis Methods 0.000 claims abstract description 15
- 238000004519 manufacturing process Methods 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 238000013136 deep learning model Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 8
- 229920000771 poly (alkylcyanoacrylate) Polymers 0.000 claims abstract description 5
- 238000001069 Raman spectroscopy Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012804 iterative process Methods 0.000 claims description 7
- 238000002474 experimental method Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 4
- 239000008367 deionised water Substances 0.000 claims description 4
- 229910021641 deionized water Inorganic materials 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000001788 irregular Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000005406 washing Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 229920002472 Starch Polymers 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 235000013339 cereals Nutrition 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 235000016709 nutrition Nutrition 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 235000019698 starch Nutrition 0.000 description 2
- 239000008107 starch Substances 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 238000005303 weighing Methods 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/65—Raman scattering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/10—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本发明涉及大米检测技术领域,且公开了一种基于深度学习的拉曼光谱大米检测方法,包括如下步骤:步骤一:样本收集;步骤二:数据收集;步骤三:数据处理,采用airPLS算法对采集的所有拉曼光谱进行预处理操作并制作新的数据集;利用PCA对数据预处理;通过使用Origin 2018Pro的PACA软件包对拉曼光谱数据集进行了主成分分析;步骤四:深度学习模型建模;步骤五:模型训练与评价。该基于深度学习的拉曼光谱大米检测方法,通过对原始拉曼光谱进行预处理,以拉曼光谱为技术手段,结合深度学习,实现了对不同地区大米的快速、有效识别。对比传统的识别方法,本研究在拉曼光谱极度相似的情况下仍可以对大米类别进行准确识别。
Description
技术领域
本发明涉及大米检测技术领域,具体为一种基于深度学习的拉曼光谱大米检测方法。
背景技术
大米是世界上最重要的谷物粮食作物之一,不仅是中国人的传统主食,更是世界一半以上人口的主食。因品种、产地、生长条件的不同,大米的营养成分含量存在很大的差别。近年来,由于人们对大米的营养价值和口感品质的追求不断提高,市场上出现了非优质大米冒充优质大米、以次充好、品牌冒充、产地冒充等现象,严重损害了消费者利益。而中国大米种植区域广泛、品种繁多,因此市场监管困难。传统的鉴别方法主要包括感官检测及化学检测,主观性强并且过程复杂,不能满足市场监管中快速判别的需求。
大米鉴别技术在目前全球面临粮食危机的环境中很重要,而拉曼光谱是一种能够解决该问题的有效手段。传统的基于机器学习的拉曼光谱大米检测方法需要大量的参考数据库,且在当不同大米之间的拉曼光谱相似,特征峰分辨率不高,难以通过机器学习建立模型;
本文提出了以拉曼光谱为技术手段,结合深度学习,建立快速识别不同产地大米模型的方法。通过对南北方2个产地共400份大米样品的光谱数据进行采集,然后用airPLS算法对拉曼光谱数据进行预处理,对处理之后的一维数据通过数据输入维度的不同搭建了两种不同的卷积神经网络模型,分别为R-S-1D模型和R-S-2D模型,通过深度学习模型预测未知产地大米的识别准确率为92.7%,AUC值为0.920,能实现在数据较少且特征峰分辨率较低的情况下无损、快速的对大米进行鉴别的目标。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于深度学习的拉曼光谱大米检测方法,利用深度学习结合拉曼光谱在鉴别大米产地的方面具有良好的应用前景,对比传统的机器学习鉴别方法具有更加高效,便捷,简单、高适用性和高分辨率等优点。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:
一种基于深度学习的拉曼光谱大米检测方法,包括如下步骤:
步骤一:样本收集:将收集的样品分容器放置,贴上标签,并在容器中用去离子水将大米冲洗干净,最后将样品自然晾干;
步骤二:数据收集,使用便携式拉曼光谱仪,扫描范围为0~2000cm-1,扫描时间为5000ms,扫描光强为100;测试条件为室温,样品采集时先进行暗电流的去除;
将大米置于黑暗密闭环境进行检测,通过BWSpec4软件连接拉曼光谱仪将不同品种的大米测出的拉曼光谱分开进行储存;
最后通过删除重复数据制作成具有两个标签的拉曼光谱数据集;
步骤三:数据处理,采用airPLS算法对采集的所有拉曼光谱进行预处理操作并制作新的数据集;利用PCA对数据预处理;通过使用Origin 2018Pro的PACA软件包对拉曼光谱数据集进行了主成分分析;
步骤四:深度学习模型建模,通过制备的拉曼光谱数据集在TensorFlow2.0框架下通过不同的维度输入建立了两种深度学习模型,分别为R-S-1D模型和R-S-2D模型,验证了通过深度学习建立模型可以有效的对不同地区大米进行检测分类;
步骤五:模型训练与评价,在对拉曼光谱数据进行了预处理之后,选择数据集中80%的数据作为训练集,20%的数据作为测试集;在训练过程中仅使用训练集来训练模型,而不使用独立的测试集进行训练;
对于分类模型,混淆矩阵和ROC曲线以及ROC曲线下的AUC值常被作为模型的评估指标。
优选的,所述步骤二中,在测量拉曼光谱的过程中每个样品重复扫描三次,检测时统一将镜头对准大米中心部位,以消除样品不均匀性带来的干扰。
优选的,所述步骤三中,airPLS算法以惩罚最小二乘法为基础,在迭代过程中,通过自适应调整拟合基线与原始信号之间残差平方和的权重,高效精准找到并扣除不规则变化的基线;在该算法中,z为长度为l的拟合信号,x为真实信号,拟合信号和真实信号的关系可用如下表述:
式中,F为信号的拟合精确度,R为拟合信号z的粗糙度,Q为精确度与粗糙度之间的平衡;
通过求取时的解,即可得到平滑后的信号;而自适应迭代重加权惩罚最小二乘法是在此基础上,通过对精确度F施加权重w,保证使得峰所在位置的权重为0的情况下,基线所在位置的权重不为0,然后进行自动更新权重的迭代;对第t次迭代,其精确度与粗糙度之间的平衡可以表示为:
其中,
在迭代过程中,通过设定收敛准则或者最大收敛次数来控制程序的迭代次数,当程序终止计算,返回权重w和拟合基线z。
优选的,所述步骤四中R-S模型的输入为一维数据输入,通过卷积层,池化层,全连接层输出。
优选的,所述步骤四中R-S-2D模型的输入为矩阵输入,数据输入之后先将一维数据转化为二维矩阵,然后经过两个卷积层(Convolution),确定输入通道的数量、卷积核大小以及步长长度。接着连接一个最大池化层(Max Pool)进行数据降维,之后在通过卷积层和最大池化层对数据进行两次的卷积和池化,再连接一个展平层(Flatten Layers)和一个全连接层(Fully Connected Layers,FC),最后输出分类结果。
优选的,所述步骤五中,评价指标主要是准确率、精确率、召回率和F-Scorce,AUC值被定义为ROC曲线下的面积,在本实验中被用来作为衡量模型的综合评价指标。
优选的,所述步骤五中,通过批量归一化处理(BN)来防止梯度下降和过拟合问题,BN公式入下:
其中:
mB为每个批次中的样本数量。
在损失函数方面选择的sparse_categorical_crossentropy函数公式入下:
其中,xi表示第i个输入值,yi表示第i个输入值对应的输出,m表示样本数量,f表示对应的激活函数。
(三)有益效果
与现有技术相比,本发明提供了一种基于深度学习的拉曼光谱大米检测方法,具备以下有益效果:
1、该基于深度学习的拉曼光谱大米检测方法,通过对原始拉曼光谱进行预处理,以拉曼光谱为技术手段,结合深度学习,实现了对不同地区大米的快速、有效识别。对比传统的识别方法,本研究在拉曼光谱极度相似的情况下仍可以对大米类别进行准确识别。
2、该基于深度学习的拉曼光谱大米检测方法,通过对原始拉曼光谱进行预处理,对于南北方不同地区的大米拉曼数据通过不同的标签建立起数据库,再结合深度学习建立了一种名为R-S的CNN模型,可以有效的快速识别不同产地大米,准确率为92.7%。与传统检测方法进行对比,实现了更加快速、有效的检测,并且适应性更高。由此可见,本实验建立的优化模型对大米的分类具有很高的实用价值。
附图说明
图1为本发明的方法流程图;
图2为本发明中R-S-2D模型的输入为矩阵输入结构图;
图3为本发明中卷积层流程结构图;
图4为8种大米样本经预处理及基线校正后的拉曼光谱图;
图5为经过数据预处理后的大米在200~1600cm-1的大米拉曼光谱对应的特征峰信息图;
图6为大米拉曼光谱数据的PCA分析图;
图7为迭代过程中训练集和测试集的准确性和损失值的发展趋势图;
图8为ROC曲线和AUC值图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
参照图1所示,一种基于深度学习的拉曼光谱大米检测方法,包括如下步骤:
步骤一:样本收集:将收集的样品分容器放置,贴上标签,并在容器中用去离子水将大米冲洗干净,最后将样品自然晾干;
步骤二:数据收集,使用便携式拉曼光谱仪,扫描范围为0~2000cm-1,扫描时间为5000ms,扫描光强为100;测试条件为室温,样品采集时先进行暗电流的去除;
将大米置于黑暗密闭环境进行检测,通过BWSpec4软件连接拉曼光谱仪将不同品种的大米测出的拉曼光谱分开进行储存;
最后通过删除重复数据制作成具有两个标签的拉曼光谱数据集;
步骤三:数据处理,采用airPLS算法对采集的所有拉曼光谱进行预处理操作并制作新的数据集;利用PCA对数据预处理;通过使用Origin 2018Pro的PACA软件包对拉曼光谱数据集进行了主成分分析;
步骤四:深度学习模型建模,通过制备的拉曼光谱数据集在TensorFlow2.0框架下通过不同的维度输入建立了两种深度学习模型,分别为R-S-1D模型和R-S-2D模型,验证了通过深度学习建立模型可以有效的对不同地区大米进行检测分类;
步骤五:模型训练与评价,在对拉曼光谱数据进行了预处理之后,选择数据集中80%的数据作为训练集,20%的数据作为测试集;在训练过程中仅使用训练集来训练模型,而不使用独立的测试集进行训练;
对于分类模型,混淆矩阵和ROC曲线以及ROC曲线下的AUC值常被作为模型的评估指标。
具体的实验过程如下:
样本收集
通过网络商城购买了南北方2个产地8个品种的大米,分别为4种北方产地的大米和4种南方产地的大米,然后从8种大米中选取样本,共制备了400份大米样本。具体的大米样本信息见表1。对制备的大米样本做以下处理:首先准备8个容器分别放置8个不同品种的大米,然后将各个容器贴好大米品种标签,以免在后续测量拉曼光谱数据中出现数据紊乱,之后在容器中用去离子水将大米冲洗干净,最后将样品自然晾干,不需要进一步处理直接进行拉曼检测,在晾干的过程中注意避免灰尘进去容器中。
拉曼光谱仪
一种便携式拉曼光谱仪,采用785纳米半导体激光器(MiniRam,B&WTEK光学电子公司,美国)。
数据收集
使用便携式拉曼光谱仪,扫描范围为0~2000cm-1,扫描时间为5000ms,扫描光强为100。测试条件为室温,样品采集时先进行暗电流的去除,然后将大米置于黑暗密闭环境进行检测,通过BWSpec4软件连接拉曼光谱仪将不同品种的大米测出的拉曼光谱分开进行储存。最后通过删除重复数据制作成具有两个标签的拉曼光谱数据集。在测量拉曼光谱的过程中每个样品重复扫描三次,检测时统一将镜头对准大米中心部位,以消除样品不均匀性带来的干扰。
数据预处理
拉光谱检测会遇到荧光背景的干扰,同时由于仪器本身系统稳定性的限制,会产生背景噪声并出现基线漂移现象,对分析结果会产生很大影响,因此需要对数据进行预处理以减少上述影响。对拉曼光谱进行预处理的方法很多,在全光谱范围内,考察了基线校正(Bseline)、平滑(Smoothing)及迭代自适应加权惩罚最小二乘法(Adaptive IterativeRe-weighted Penalized Least Squares,airPLS)3种数据预处理方法对分类结果的影响,最后通过比较各种预处理方法之后的拉曼光谱特征,确定了airPLS作为光谱预处理的方法。因此,在数据的预处理方面,采用了通过airPLS算法对采集的所有拉曼光谱进行预处理操作并制作新的数据集。airPLS是一种有效的基线校正方法,该算法以惩罚最小二乘法为基础,在迭代过程中,通过自适应调整拟合基线与原始信号之间残差平方和的权重,高效精准找到并扣除不规则变化的基线。在该算法中,z为长度为l的拟合信号,x为真实信号,拟合信号和真实信号的关系可用如下表述:
式中,F为信号的拟合精确度,R为拟合信号z的粗糙度,Q为精确度与粗糙度之间的平衡。
通过求取时的解,即可得到平滑后的信号。而自适应迭代重加权惩罚最小二乘法是在此基础上,通过对精确度F施加权重w,保证使得峰所在位置的权重为0的情况下,基线所在位置的权重不为0,然后进行自动更新权重的迭代。对第t次迭代,其精确度与粗糙度之间的平衡可以表示为:
其中,
在迭代过程中,通过设定收敛准则或者最大收敛次数来控制程序的迭代次数,当程序终止计算,返回权重w和拟合基线z。
主成分分析(PCA)是一种特征预处理的分析技术,可以提取一些对于结果有帮助的特征,从而降低模式识别的计算量。光谱数据具有高维度并且包含无效的信息,所以可以利用PCA对数据预处理。PCA通过数据协方差矩阵的特征值分解获得正交基,并将数据转换为域矩阵。然后对数据的方差做出更大贡献的域被保留成为主成分(PCs),因此PCA可以减少多维数据集,并去除随机偏差(噪声)。在本研究中通过使用Origin 2018Pro的PACA软件包对拉曼光谱数据集进行了主成分分析。
深度学习模型建模
深度学习被证明在拉曼光谱分析中是有效的。卷积神经网络作为一种常使用在语音识别、图像处理和图像识别等领域的模型,在对拉曼光谱的分类问题中也有很好的体现。本研究通过制备的拉曼光谱数据集在TensorFlow2.0框架下通过不同的维度输入建立了两种深度学习模型,分别为R-S-1D模型和R-S-2D模型,验证了通过深度学习建立模型可以有效的对不同地区大米进行检测分类。图2为上述两种深度学习模型的结构图。
R-S-1D模型的输入为一维数据输入,通过卷积层,池化层,全连接层输出,结构图没画,模型没有描写清楚。
R-S-2D模型的输入为矩阵输入,结构图如图2所示,数据输入之后先将一维数据转化为二维矩阵,然后经过两个卷积层(Convolution),确定输入通道的数量、卷积核大小以及步长长度。接着连接一个最大池化层(Max Pool)进行数据降维,之后在通过卷积层和最大池化层对数据进行两次的卷积和池化,再连接一个展平层(Flatten Layers)和一个全连接层(Fully Connected Layers,FC),最后输出分类结果。为了防止模型出现过拟合,在数据每个卷积层之后对其进行了批量归一化(Batch Normalization,BN)处理。在卷积层上对于激活函数选择了线性整流函数(Rectified Linear Unit,ReLU)。在输出层上激活函数选择了sigmoid函数。模型的交叉熵损失函数选择BinaryCrossentropy函数作为目标函数。在本实验中,学习率参数选择随机梯度下降(Stochastic Gradient Descent,SGD),大小为0.00025。其中卷积层流程结构图如图3所示。
模型训练与评价
在对拉曼光谱数据进行了预处理之后,选择数据集中80%的数据作为训练集,20%的数据作为测试集。在训练过程中仅使用训练集来训练模型,而不使用独立的测试集进行训练。
对于分类模型,混淆矩阵和ROC曲线以及ROC曲线下的AUC值常被作为模型的评估指标。混淆矩阵通过解释模型分类结果的预测值和实际值之间的联系来衡量模型的准确性。在混淆矩阵中,TP(true positive)是模型预测为正类的正样本,TN(true negative)为模型预测为负类的负样本,FP(false positive)为模型预测为正类的负样本,FN(falsenegative)为模型预测为负类的正样本。本实验的评价指标主要是准确率、精确率、召回率和F-Scorce,其公式如下所示。AUC值被定义为ROC曲线下的面积,在本实验中被用来作为衡量模型的综合评价指标。
F1-Score=2*Sensitivity*Precision/(Sensitivity+Precision);
通过批量归一化处理(BN)来防止梯度下降和过拟合问题。BN公式入下:
其中:
mB为每个批次中的样本数量。
在损失函数方面选择的sparse_categorical_crossentropy函数公式入下:
其中,xi表示第i个输入值,yi表示第i个输入值对应的输出,m表示样本数量,f表示对应的激活函数。
结果与讨论
拉曼光谱分析
图4为8种大米样本经预处理及基线校正后的拉曼光谱图,图5为经过数据预处理后的大米在200~1600cm-1的大米拉曼光谱对应的特征峰信息图。由图4可知,不同产地大米样品的拉曼光谱在出峰位置上没有明显的区别,且峰形相似,南北方不同产地的大米样品以及同一产地不同品种的大米样品间的拉曼光谱差异甚微,在直观上难以识别。在图5中,大米最基本的拉曼吸收峰在475,865,938,1079,1123,1260,1336,1378,1458cm-1处。结合陈健、Hoonsoo等的研究可以得知,475cm-1的强吸收峰为淀粉的主链特征峰,938,1079,1123cm-1处为淀粉骨架的指纹图谱;865,1260cm-1处为CH2中的C-H摇摆振动,1336cm-1处是CH2中的C-H平面形变振动,1458cm-1处为C-H形变振动。
图6为大米拉曼光谱数据的PCA分析图,选取总样本中120组数据,其中各个品种大米各取15组数据,然后将大米拉曼光谱中9个特征值所对应的数据提取出来制作为新的数据集进行PAC分析。图中红色圆点表示北方大米,黑色圆点表示南方大米,从图中可以看出,南方和北方大米有区域重合的部分,表明在拉曼光谱数据高度相似的情况下,通过PCA分析具有一定的不精确性。而深度学习在分类建模过程中,卷积神经网络模型可以通过多层次的非线性模块将低维数据转换为高维的抽象的特征,再通过逐层的特征提取,模型最终可以学习到复杂的特征表示。因此,本文引入基于深度学习的方法对大米分类作进一步的研究。
搭建深度学习模型(第二个模型的分析图)
在TensorFlow框架中,通过调用TensorBoard,可以显示学习迭代过程中训练集和测试集的准确性和损失值的发展趋势,如图7所示。可以看出,在学习迭代过程中,训练集和测试集的准确率都在缓慢提高,而它们的损失值却在逐渐降低,这表明该模型不存在过拟合问题。最终结果表明,该模型的识别准确率达到94.7%,能够区分不同产地的水稻。我们的方法中ROC曲线如图8所示。所有样本的AUC值为0.920。最佳截止值由ROC曲线确定。以上结果表面,通过深度学习结合拉曼光谱对不同产地大米进行分类检测的方法具有良好的前景,可以实现在拉曼光谱高度相似的情况下对不同产地大米分类仍具有较高的准确性的目的。
Claims (7)
1.一种基于深度学习的拉曼光谱大米检测方法,其特征在于,包括如下步骤:
步骤一:样本收集:将收集的样品分容器放置,贴上标签,并在容器中用去离子水将大米冲洗干净,最后将样品自然晾干;
步骤二:数据收集,使用便携式拉曼光谱仪,扫描范围为0~2000cm-1,扫描时间为5000ms,扫描光强为100;测试条件为室温,样品采集时先进行暗电流的去除;
将大米置于黑暗密闭环境进行检测,通过BWSpec4软件连接拉曼光谱仪将不同品种的大米测出的拉曼光谱分开进行储存;
最后通过删除重复数据制作成具有两个标签的拉曼光谱数据集;
步骤三:数据处理,采用airPLS算法对采集的所有拉曼光谱进行预处理操作并制作新的数据集;利用PCA对数据预处理;通过使用Origin 2018Pro的PACA软件包对拉曼光谱数据集进行了主成分分析;
步骤四:深度学习模型建模,通过制备的拉曼光谱数据集在TensorFlow2.0框架下通过不同的维度输入建立了两种深度学习模型,分别为R-S-1D模型和R-S-2D模型,验证了通过深度学习建立模型可以有效的对不同地区大米进行检测分类;
步骤五:模型训练与评价,在对拉曼光谱数据进行了预处理之后,选择数据集中80%的数据作为训练集,20%的数据作为测试集;在训练过程中仅使用训练集来训练模型,而不使用独立的测试集进行训练;
对于分类模型,混淆矩阵和ROC曲线以及ROC曲线下的AUC值常被作为模型的评估指标。
2.根据权利要求1所述的一种基于深度学习的拉曼光谱大米检测方法,其特征在于:所述步骤二中,在测量拉曼光谱的过程中每个样品重复扫描三次,检测时统一将镜头对准大米中心部位,以消除样品不均匀性带来的干扰。
3.根据权利要求1所述的一种基于深度学习的拉曼光谱大米检测方法,其特征在于:所述步骤三中,airPLS算法以惩罚最小二乘法为基础,在迭代过程中,通过自适应调整拟合基线与原始信号之间残差平方和的权重,高效精准找到并扣除不规则变化的基线;在该算法中,z为长度为l的拟合信号,x为真实信号,拟合信号和真实信号的关系可用如下表述:
式中,F为信号的拟合精确度,R为拟合信号z的粗糙度,Q为精确度与粗糙度之间的平衡;
通过求取时的解,即可得到平滑后的信号;而自适应迭代重加权惩罚最小二乘法是在此基础上,通过对精确度F施加权重w,保证使得峰所在位置的权重为0的情况下,基线所在位置的权重不为0,然后进行自动更新权重的迭代;对第t次迭代,其精确度与粗糙度之间的平衡可以表示为:
其中,
在迭代过程中,通过设定收敛准则或者最大收敛次数来控制程序的迭代次数,当程序终止计算,返回权重w和拟合基线z。
4.根据权利要求1所述的一种基于深度学习的拉曼光谱大米检测方法,其特征在于:所述步骤四中R-S模型的输入为一维数据输入,通过卷积层,池化层,全连接层输出。
5.根据权利要求1所述的一种基于深度学习的拉曼光谱大米检测方法,其特征在于:所述步骤四中R-S-2D模型的输入为矩阵输入,数据输入之后先将一维数据转化为二维矩阵,然后经过两个卷积层(Convolution),确定输入通道的数量、卷积核大小以及步长长度。接着连接一个最大池化层(Max Pool)进行数据降维,之后在通过卷积层和最大池化层对数据进行两次的卷积和池化,再连接一个展平层(Flatten Layers)和一个全连接层(FullyConnected Layers,FC),最后输出分类结果。
6.根据权利要求1所述的一种基于深度学习的拉曼光谱大米检测方法,其特征在于:所述步骤五中,评价指标主要是准确率、精确率、召回率和F-Scorce,AUC值被定义为ROC曲线下的面积,在本实验中被用来作为衡量模型的综合评价指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310438527.1A CN116399848A (zh) | 2023-04-21 | 2023-04-21 | 一种基于深度学习的拉曼光谱大米检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310438527.1A CN116399848A (zh) | 2023-04-21 | 2023-04-21 | 一种基于深度学习的拉曼光谱大米检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116399848A true CN116399848A (zh) | 2023-07-07 |
Family
ID=87014105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310438527.1A Pending CN116399848A (zh) | 2023-04-21 | 2023-04-21 | 一种基于深度学习的拉曼光谱大米检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116399848A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117783088A (zh) * | 2024-02-23 | 2024-03-29 | 广州贝拓科学技术有限公司 | 激光显微拉曼光谱仪的控制模型训练方法及装置、设备 |
-
2023
- 2023-04-21 CN CN202310438527.1A patent/CN116399848A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117783088A (zh) * | 2024-02-23 | 2024-03-29 | 广州贝拓科学技术有限公司 | 激光显微拉曼光谱仪的控制模型训练方法及装置、设备 |
CN117783088B (zh) * | 2024-02-23 | 2024-05-14 | 广州贝拓科学技术有限公司 | 激光显微拉曼光谱仪的控制模型训练方法及装置、设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717368A (zh) | 一种纺织品定性分类方法 | |
CN111126575B (zh) | 基于机器学习的气体传感器阵列混合气体检测方法及装置 | |
CN104374738B (zh) | 一种基于近红外提高鉴别结果的定性分析方法 | |
CN109493287A (zh) | 一种基于深度学习的定量光谱数据分析处理方法 | |
CN110346312B (zh) | 基于费氏线性判别和支持向量机技术的冬小麦穗赤霉病识别方法 | |
CN106290238A (zh) | 一种基于高光谱成像的苹果品种快速鉴别方法 | |
CN109870421B (zh) | 一种基于可见光/近红外光谱分析的递增式木材树种分类识别方法 | |
CN110378374B (zh) | 一种模糊鉴别信息提取的茶叶近红外光谱分类方法 | |
CN110705372A (zh) | 基于深度学习卷积神经网络的libs多成分定量反演方法 | |
CN111626224B (zh) | 基于近红外光谱和ssa优化的elm的煤矸石快速识别方法 | |
CN116399848A (zh) | 一种基于深度学习的拉曼光谱大米检测方法 | |
CN111832507A (zh) | 基于麦穗顶部光谱信息的小麦赤霉病遥感识别方法 | |
CN109685098B (zh) | 一种模糊簇间分离聚类的茶叶品种分类方法 | |
CN115905881B (zh) | 黄珍珠分类的方法以及装置、电子设备、存储介质 | |
CN116071592A (zh) | 基于高光谱可增量更新的玉米种子品种鉴定方法及系统 | |
CN112651428A (zh) | 一种用于远程拉曼矿物识别的深度学习模型多分类方法 | |
CN118471348A (zh) | 基于人工智能的人体体液光谱分析方法及系统 | |
CN117169166A (zh) | 一种光谱技术和深度学习技术结合的toc快速检测算法 | |
CN117556245A (zh) | 一种四甲基氢氧化铵生产过滤杂质检测方法 | |
CN113408616A (zh) | 基于pca-uve-elm的光谱分类方法 | |
Zou et al. | Identification of tea diseases based on spectral reflectance and machine learning | |
CN116519661A (zh) | 一种基于卷积神经网络的大米识别检测方法 | |
Chen et al. | Tea disease spot recognition based on image feature points extraction and matching | |
CN115420703A (zh) | 哈密瓜表面农药残留鉴别方法及鉴别模型构建方法 | |
CN112697746A (zh) | 一种基于光谱信息的红薯粉明矾含量检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |