CN116399848A

CN116399848A - 一种基于深度学习的拉曼光谱大米检测方法

Info

Publication number: CN116399848A
Application number: CN202310438527.1A
Authority: CN
Inventors: 申禹; 杨兴华; 强成文
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-07-07

Abstract

本发明涉及大米检测技术领域，且公开了一种基于深度学习的拉曼光谱大米检测方法，包括如下步骤：步骤一：样本收集；步骤二：数据收集；步骤三：数据处理，采用airPLS算法对采集的所有拉曼光谱进行预处理操作并制作新的数据集；利用PCA对数据预处理；通过使用Origin 2018Pro的PACA软件包对拉曼光谱数据集进行了主成分分析；步骤四：深度学习模型建模；步骤五：模型训练与评价。该基于深度学习的拉曼光谱大米检测方法，通过对原始拉曼光谱进行预处理，以拉曼光谱为技术手段，结合深度学习，实现了对不同地区大米的快速、有效识别。对比传统的识别方法，本研究在拉曼光谱极度相似的情况下仍可以对大米类别进行准确识别。

Description

一种基于深度学习的拉曼光谱大米检测方法

技术领域

本发明涉及大米检测技术领域，具体为一种基于深度学习的拉曼光谱大米检测方法。

背景技术

大米是世界上最重要的谷物粮食作物之一，不仅是中国人的传统主食，更是世界一半以上人口的主食。因品种、产地、生长条件的不同，大米的营养成分含量存在很大的差别。近年来，由于人们对大米的营养价值和口感品质的追求不断提高，市场上出现了非优质大米冒充优质大米、以次充好、品牌冒充、产地冒充等现象，严重损害了消费者利益。而中国大米种植区域广泛、品种繁多，因此市场监管困难。传统的鉴别方法主要包括感官检测及化学检测，主观性强并且过程复杂，不能满足市场监管中快速判别的需求。

大米鉴别技术在目前全球面临粮食危机的环境中很重要，而拉曼光谱是一种能够解决该问题的有效手段。传统的基于机器学习的拉曼光谱大米检测方法需要大量的参考数据库，且在当不同大米之间的拉曼光谱相似，特征峰分辨率不高，难以通过机器学习建立模型；

本文提出了以拉曼光谱为技术手段，结合深度学习，建立快速识别不同产地大米模型的方法。通过对南北方2个产地共400份大米样品的光谱数据进行采集，然后用airPLS算法对拉曼光谱数据进行预处理，对处理之后的一维数据通过数据输入维度的不同搭建了两种不同的卷积神经网络模型，分别为R-S-1D模型和R-S-2D模型，通过深度学习模型预测未知产地大米的识别准确率为92.7％，AUC值为0.920，能实现在数据较少且特征峰分辨率较低的情况下无损、快速的对大米进行鉴别的目标。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于深度学习的拉曼光谱大米检测方法，利用深度学习结合拉曼光谱在鉴别大米产地的方面具有良好的应用前景，对比传统的机器学习鉴别方法具有更加高效，便捷，简单、高适用性和高分辨率等优点。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：

一种基于深度学习的拉曼光谱大米检测方法，包括如下步骤：

步骤一：样本收集：将收集的样品分容器放置，贴上标签，并在容器中用去离子水将大米冲洗干净，最后将样品自然晾干；

步骤二：数据收集，使用便携式拉曼光谱仪，扫描范围为0～2000cm^-1，扫描时间为5000ms，扫描光强为100；测试条件为室温，样品采集时先进行暗电流的去除；

将大米置于黑暗密闭环境进行检测，通过BWSpec4软件连接拉曼光谱仪将不同品种的大米测出的拉曼光谱分开进行储存；

最后通过删除重复数据制作成具有两个标签的拉曼光谱数据集；

步骤三：数据处理，采用airPLS算法对采集的所有拉曼光谱进行预处理操作并制作新的数据集；利用PCA对数据预处理；通过使用Origin 2018Pro的PACA软件包对拉曼光谱数据集进行了主成分分析；

步骤四：深度学习模型建模，通过制备的拉曼光谱数据集在TensorFlow2.0框架下通过不同的维度输入建立了两种深度学习模型，分别为R-S-1D模型和R-S-2D模型，验证了通过深度学习建立模型可以有效的对不同地区大米进行检测分类；

步骤五：模型训练与评价，在对拉曼光谱数据进行了预处理之后，选择数据集中80％的数据作为训练集，20％的数据作为测试集；在训练过程中仅使用训练集来训练模型，而不使用独立的测试集进行训练；

对于分类模型，混淆矩阵和ROC曲线以及ROC曲线下的AUC值常被作为模型的评估指标。

优选的，所述步骤二中，在测量拉曼光谱的过程中每个样品重复扫描三次，检测时统一将镜头对准大米中心部位，以消除样品不均匀性带来的干扰。

优选的，所述步骤三中，airPLS算法以惩罚最小二乘法为基础，在迭代过程中，通过自适应调整拟合基线与原始信号之间残差平方和的权重，高效精准找到并扣除不规则变化的基线；在该算法中，z为长度为l的拟合信号，x为真实信号，拟合信号和真实信号的关系可用如下表述：

式中，F为信号的拟合精确度，R为拟合信号z的粗糙度，Q为精确度与粗糙度之间的平衡；

通过求取

时的解，即可得到平滑后的信号；而自适应迭代重加权惩罚最小二乘法是在此基础上，通过对精确度F施加权重w，保证使得峰所在位置的权重为0的情况下，基线所在位置的权重不为0，然后进行自动更新权重的迭代；对第t次迭代，其精确度与粗糙度之间的平衡可以表示为：

其中，

在迭代过程中，通过设定收敛准则或者最大收敛次数来控制程序的迭代次数，当程序终止计算，返回权重w和拟合基线z。

优选的，所述步骤四中R-S模型的输入为一维数据输入，通过卷积层，池化层，全连接层输出。

优选的，所述步骤四中R-S-2D模型的输入为矩阵输入，数据输入之后先将一维数据转化为二维矩阵，然后经过两个卷积层(Convolution)，确定输入通道的数量、卷积核大小以及步长长度。接着连接一个最大池化层(Max Pool)进行数据降维，之后在通过卷积层和最大池化层对数据进行两次的卷积和池化，再连接一个展平层(Flatten Layers)和一个全连接层(Fully Connected Layers，FC)，最后输出分类结果。

优选的，所述步骤五中，评价指标主要是准确率、精确率、召回率和F-Scorce，AUC值被定义为ROC曲线下的面积，在本实验中被用来作为衡量模型的综合评价指标。

优选的，所述步骤五中，通过批量归一化处理(BN)来防止梯度下降和过拟合问题，BN公式入下：

z⁽ⁱ⁾是一个批次中的第i个输入值，

是一个批次中第i个输入实例的零中心和归一化后的值，添加ε是为了避免除法中分母为零的错误，/>

为最终得到的处理结果，γ和β是可训练的超参数；

其中：

m_B为每个批次中的样本数量。

在损失函数方面选择的sparse_categorical_crossentropy函数公式入下：

其中，x_i表示第i个输入值，y_i表示第i个输入值对应的输出，m表示样本数量，f表示对应的激活函数。

(三)有益效果

与现有技术相比，本发明提供了一种基于深度学习的拉曼光谱大米检测方法，具备以下有益效果：

1、该基于深度学习的拉曼光谱大米检测方法，通过对原始拉曼光谱进行预处理，以拉曼光谱为技术手段，结合深度学习，实现了对不同地区大米的快速、有效识别。对比传统的识别方法，本研究在拉曼光谱极度相似的情况下仍可以对大米类别进行准确识别。

2、该基于深度学习的拉曼光谱大米检测方法，通过对原始拉曼光谱进行预处理，对于南北方不同地区的大米拉曼数据通过不同的标签建立起数据库，再结合深度学习建立了一种名为R-S的CNN模型，可以有效的快速识别不同产地大米，准确率为92.7％。与传统检测方法进行对比，实现了更加快速、有效的检测，并且适应性更高。由此可见，本实验建立的优化模型对大米的分类具有很高的实用价值。

附图说明

图1为本发明的方法流程图；

图2为本发明中R-S-2D模型的输入为矩阵输入结构图；

图3为本发明中卷积层流程结构图；

图4为8种大米样本经预处理及基线校正后的拉曼光谱图；

图5为经过数据预处理后的大米在200～1600cm^-1的大米拉曼光谱对应的特征峰信息图；

图6为大米拉曼光谱数据的PCA分析图；

图7为迭代过程中训练集和测试集的准确性和损失值的发展趋势图；

图8为ROC曲线和AUC值图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

参照图1所示，一种基于深度学习的拉曼光谱大米检测方法，包括如下步骤：

具体的实验过程如下：

样本收集

通过网络商城购买了南北方2个产地8个品种的大米，分别为4种北方产地的大米和4种南方产地的大米，然后从8种大米中选取样本，共制备了400份大米样本。具体的大米样本信息见表1。对制备的大米样本做以下处理：首先准备8个容器分别放置8个不同品种的大米，然后将各个容器贴好大米品种标签，以免在后续测量拉曼光谱数据中出现数据紊乱，之后在容器中用去离子水将大米冲洗干净，最后将样品自然晾干，不需要进一步处理直接进行拉曼检测，在晾干的过程中注意避免灰尘进去容器中。

拉曼光谱仪

一种便携式拉曼光谱仪，采用785纳米半导体激光器(MiniRam，B&WTEK光学电子公司，美国)。

数据收集

使用便携式拉曼光谱仪，扫描范围为0～2000cm^-1，扫描时间为5000ms，扫描光强为100。测试条件为室温，样品采集时先进行暗电流的去除，然后将大米置于黑暗密闭环境进行检测，通过BWSpec4软件连接拉曼光谱仪将不同品种的大米测出的拉曼光谱分开进行储存。最后通过删除重复数据制作成具有两个标签的拉曼光谱数据集。在测量拉曼光谱的过程中每个样品重复扫描三次，检测时统一将镜头对准大米中心部位，以消除样品不均匀性带来的干扰。

数据预处理

拉光谱检测会遇到荧光背景的干扰，同时由于仪器本身系统稳定性的限制，会产生背景噪声并出现基线漂移现象，对分析结果会产生很大影响，因此需要对数据进行预处理以减少上述影响。对拉曼光谱进行预处理的方法很多，在全光谱范围内，考察了基线校正(Bseline)、平滑(Smoothing)及迭代自适应加权惩罚最小二乘法(Adaptive IterativeRe-weighted Penalized Least Squares，airPLS)3种数据预处理方法对分类结果的影响，最后通过比较各种预处理方法之后的拉曼光谱特征，确定了airPLS作为光谱预处理的方法。因此，在数据的预处理方面，采用了通过airPLS算法对采集的所有拉曼光谱进行预处理操作并制作新的数据集。airPLS是一种有效的基线校正方法，该算法以惩罚最小二乘法为基础，在迭代过程中，通过自适应调整拟合基线与原始信号之间残差平方和的权重，高效精准找到并扣除不规则变化的基线。在该算法中，z为长度为l的拟合信号，x为真实信号，拟合信号和真实信号的关系可用如下表述：

式中，F为信号的拟合精确度，R为拟合信号z的粗糙度，Q为精确度与粗糙度之间的平衡。

通过求取

时的解，即可得到平滑后的信号。而自适应迭代重加权惩罚最小二乘法是在此基础上，通过对精确度F施加权重w，保证使得峰所在位置的权重为0的情况下，基线所在位置的权重不为0，然后进行自动更新权重的迭代。对第t次迭代，其精确度与粗糙度之间的平衡可以表示为：

其中，

主成分分析(PCA)是一种特征预处理的分析技术，可以提取一些对于结果有帮助的特征，从而降低模式识别的计算量。光谱数据具有高维度并且包含无效的信息，所以可以利用PCA对数据预处理。PCA通过数据协方差矩阵的特征值分解获得正交基，并将数据转换为域矩阵。然后对数据的方差做出更大贡献的域被保留成为主成分(PCs)，因此PCA可以减少多维数据集，并去除随机偏差(噪声)。在本研究中通过使用Origin 2018Pro的PACA软件包对拉曼光谱数据集进行了主成分分析。

深度学习模型建模

深度学习被证明在拉曼光谱分析中是有效的。卷积神经网络作为一种常使用在语音识别、图像处理和图像识别等领域的模型，在对拉曼光谱的分类问题中也有很好的体现。本研究通过制备的拉曼光谱数据集在TensorFlow2.0框架下通过不同的维度输入建立了两种深度学习模型，分别为R-S-1D模型和R-S-2D模型，验证了通过深度学习建立模型可以有效的对不同地区大米进行检测分类。图2为上述两种深度学习模型的结构图。

R-S-1D模型的输入为一维数据输入，通过卷积层，池化层，全连接层输出，结构图没画，模型没有描写清楚。

R-S-2D模型的输入为矩阵输入，结构图如图2所示，数据输入之后先将一维数据转化为二维矩阵，然后经过两个卷积层(Convolution)，确定输入通道的数量、卷积核大小以及步长长度。接着连接一个最大池化层(Max Pool)进行数据降维，之后在通过卷积层和最大池化层对数据进行两次的卷积和池化，再连接一个展平层(Flatten Layers)和一个全连接层(Fully Connected Layers，FC)，最后输出分类结果。为了防止模型出现过拟合，在数据每个卷积层之后对其进行了批量归一化(Batch Normalization，BN)处理。在卷积层上对于激活函数选择了线性整流函数(Rectified Linear Unit，ReLU)。在输出层上激活函数选择了sigmoid函数。模型的交叉熵损失函数选择BinaryCrossentropy函数作为目标函数。在本实验中，学习率参数选择随机梯度下降(Stochastic Gradient Descent,SGD)，大小为0.00025。其中卷积层流程结构图如图3所示。

模型训练与评价

在对拉曼光谱数据进行了预处理之后，选择数据集中80％的数据作为训练集，20％的数据作为测试集。在训练过程中仅使用训练集来训练模型，而不使用独立的测试集进行训练。

对于分类模型，混淆矩阵和ROC曲线以及ROC曲线下的AUC值常被作为模型的评估指标。混淆矩阵通过解释模型分类结果的预测值和实际值之间的联系来衡量模型的准确性。在混淆矩阵中，TP(true positive)是模型预测为正类的正样本，TN(true negative)为模型预测为负类的负样本，FP(false positive)为模型预测为正类的负样本，FN(falsenegative)为模型预测为负类的正样本。本实验的评价指标主要是准确率、精确率、召回率和F-Scorce，其公式如下所示。AUC值被定义为ROC曲线下的面积，在本实验中被用来作为衡量模型的综合评价指标。

F1-Score＝2*Sensitivity*Precision/(Sensitivity+Precision)；

通过批量归一化处理(BN)来防止梯度下降和过拟合问题。BN公式入下：

z⁽ⁱ⁾是一个批次中的第i个输入值，

为最终得到的处理结果，γ和β是可训练的超参数；

其中：

m_B为每个批次中的样本数量。

结果与讨论

拉曼光谱分析

图4为8种大米样本经预处理及基线校正后的拉曼光谱图，图5为经过数据预处理后的大米在200～1600cm^-1的大米拉曼光谱对应的特征峰信息图。由图4可知，不同产地大米样品的拉曼光谱在出峰位置上没有明显的区别，且峰形相似，南北方不同产地的大米样品以及同一产地不同品种的大米样品间的拉曼光谱差异甚微，在直观上难以识别。在图5中，大米最基本的拉曼吸收峰在475，865，938，1079，1123，1260，1336，1378，1458cm^-1处。结合陈健、Hoonsoo等的研究可以得知，475cm^-1的强吸收峰为淀粉的主链特征峰，938，1079，1123cm^-1处为淀粉骨架的指纹图谱；865，1260cm^-1处为CH₂中的C-H摇摆振动，1336cm^-1处是CH₂中的C-H平面形变振动，1458cm^-1处为C-H形变振动。

图6为大米拉曼光谱数据的PCA分析图，选取总样本中120组数据，其中各个品种大米各取15组数据，然后将大米拉曼光谱中9个特征值所对应的数据提取出来制作为新的数据集进行PAC分析。图中红色圆点表示北方大米，黑色圆点表示南方大米，从图中可以看出，南方和北方大米有区域重合的部分，表明在拉曼光谱数据高度相似的情况下，通过PCA分析具有一定的不精确性。而深度学习在分类建模过程中，卷积神经网络模型可以通过多层次的非线性模块将低维数据转换为高维的抽象的特征，再通过逐层的特征提取，模型最终可以学习到复杂的特征表示。因此，本文引入基于深度学习的方法对大米分类作进一步的研究。

搭建深度学习模型(第二个模型的分析图)

在TensorFlow框架中，通过调用TensorBoard，可以显示学习迭代过程中训练集和测试集的准确性和损失值的发展趋势，如图7所示。可以看出，在学习迭代过程中，训练集和测试集的准确率都在缓慢提高，而它们的损失值却在逐渐降低，这表明该模型不存在过拟合问题。最终结果表明，该模型的识别准确率达到94.7％，能够区分不同产地的水稻。我们的方法中ROC曲线如图8所示。所有样本的AUC值为0.920。最佳截止值由ROC曲线确定。以上结果表面，通过深度学习结合拉曼光谱对不同产地大米进行分类检测的方法具有良好的前景，可以实现在拉曼光谱高度相似的情况下对不同产地大米分类仍具有较高的准确性的目的。

Claims

1.一种基于深度学习的拉曼光谱大米检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于深度学习的拉曼光谱大米检测方法，其特征在于：所述步骤二中，在测量拉曼光谱的过程中每个样品重复扫描三次，检测时统一将镜头对准大米中心部位，以消除样品不均匀性带来的干扰。

3.根据权利要求1所述的一种基于深度学习的拉曼光谱大米检测方法，其特征在于：所述步骤三中，airPLS算法以惩罚最小二乘法为基础，在迭代过程中，通过自适应调整拟合基线与原始信号之间残差平方和的权重，高效精准找到并扣除不规则变化的基线；在该算法中，z为长度为l的拟合信号，x为真实信号，拟合信号和真实信号的关系可用如下表述：

通过求取

其中，

4.根据权利要求1所述的一种基于深度学习的拉曼光谱大米检测方法，其特征在于：所述步骤四中R-S模型的输入为一维数据输入，通过卷积层，池化层，全连接层输出。

5.根据权利要求1所述的一种基于深度学习的拉曼光谱大米检测方法，其特征在于：所述步骤四中R-S-2D模型的输入为矩阵输入，数据输入之后先将一维数据转化为二维矩阵，然后经过两个卷积层(Convolution)，确定输入通道的数量、卷积核大小以及步长长度。接着连接一个最大池化层(Max Pool)进行数据降维，之后在通过卷积层和最大池化层对数据进行两次的卷积和池化，再连接一个展平层(Flatten Layers)和一个全连接层(FullyConnected Layers，FC)，最后输出分类结果。

6.根据权利要求1所述的一种基于深度学习的拉曼光谱大米检测方法，其特征在于：所述步骤五中，评价指标主要是准确率、精确率、召回率和F-Scorce，AUC值被定义为ROC曲线下的面积，在本实验中被用来作为衡量模型的综合评价指标。

7.根据权利要求6所述的一种基于深度学习的拉曼光谱大米检测方法，其特征在于：所述步骤五中，通过批量归一化处理(BN)来防止梯度下降和过拟合问题，BN公式入下：

z⁽ⁱ⁾是一个批次中的第i个输入值，

为最终得到的处理结果，γ和β是可训练的超参数；

其中：

m_B为每个批次中的样本数量。