CN113095188A

CN113095188A - 一种基于深度学习的拉曼光谱数据分析方法与装置

Info

Publication number: CN113095188A
Application number: CN202110354545.2A
Authority: CN
Inventors: 谷永辉; 刘昌军; 朱晓熙
Original assignee: Shandong Jiexun Communication Technology Co ltd
Current assignee: Shandong Jiexun Communication Technology Co ltd
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-07-09

Abstract

本发明涉及一种基于深度学习的拉曼光谱数据分析方法与装置，包括以下步骤：物质拉曼光谱数据特性分析；人工标注物质拉曼光谱数据类别，建立拉曼光谱训练集、验证集与测试集；针对拉曼光谱数据预处理、光谱易受到环境光干扰、同类型组织拉曼光谱数据具有差异性问题，构建基于多尺度特征融合的深度残差神经网络模型，利用ResNet50作为模型主干网络，融合拉曼光谱特征信息，提高光谱空间语义信息表征能力；使用训练集对拉曼光谱分析模型进行训练，在验证集与测试集上对模型进行性能评估；最后，将训练的模型部署至边缘计算设备，构建拉曼光谱数据分析装置。本发明对拉曼光谱数据进行高效、准确的分析与识别，可应用于不同类型拉曼光谱设备。

Description

一种基于深度学习的拉曼光谱数据分析方法与装置

技术领域

本专利涉及拉曼光谱数据分析领域，尤其涉及一种基于深度学习的拉曼光谱数据分析方法与装置。

背景技术

拉曼光谱技术是以拉曼效应为基础建立起来的分子结构表征技术，已被广泛应用于材料、生物医学、石油化工、高分子等领域。拉曼光谱信号中含有丰富的分子指纹信息，需要结合数据统计方法对锋位、峰值和谱带光谱特征进行分析，进而识别探测的物质属性。然而，拉曼光谱信息中常常伴有强荧光背景噪声和外界环境干扰信息，同时，由于不同拉曼光谱检测设备性能问题，探测的同类型物质拉曼光谱信息具有一定的差异性，因此，对物质拉曼光谱数据分析具有一定的影响，降低了物质识别的准确度。

传统拉曼光谱分析方法流程为：光谱数据预处理、特征提取与分类，其中，预处理主要通过多项式拟合基线矫正法去除光谱的荧光背景噪声与干扰信息；特征提取主要采用主成分分析法提取拉曼光谱数据主要特征，降低数据维度；分类主要采用传统机器学习方法(如线性判别器、支持向量机)对物质拉曼光谱进行识别。然而，传统拉曼光谱分析方法在预处理和降维过程中，容易造成拉曼光谱信息损失，降低物质识别准确率。同时，传统的机器学习方法优势在于处理二分类问题，针对分类问题，需要设计相应的策略，增加建模复杂度；另外，当数据维度较高时，支持向量机优化过程容易产生维度爆炸问题。鉴于现有技术中存在的缺陷，本发明依托深度学习理论与方法，提出一种基于深度学习的拉曼光谱数据分析方法与装置，实现对物质拉曼光谱分析与识别。

发明内容

本发明的目的包括三个：(1)解决预处理造成的拉曼光谱原始数据特征信息丢失问题；(2)解决由于环境光干扰造成的物质拉曼光谱识别准确率低问题；(3)解决由于同类型物质拉曼光谱数据具有差异性造成的拉曼光谱识别准确率低问题。基于以上三个目的，本发明提供一种基于深度学习的拉曼光谱数据分析方法与装置。

为了实现上述目的，本发明采用的技术方案如下：

一种基于深度学习的拉曼光谱数据分析方法与装置，包括以下几个步骤：

步骤1：针对某类型物质拉曼光谱数据，分析其锋位、峰值、谱带空间位置等特征信息，建立物质拉曼光谱分子表征表；

步骤2：根据分析的物质拉曼光谱信息，人工标注拉曼光谱数据类别，采用数据扩容技术增加对应物质拉曼光谱数据样本量，建立模型训练数据集、验证集与测试集；

步骤3：构建基于多尺度特征融合的深度残差神经网络模型，在该模型中，利用ResNet50作为模型主干网络，融合网络的3、4、5层拉曼光谱特征信息，提高光谱空间语义信息表征能力，模型损失函数为交叉熵-抑制损失函数；

步骤4：利用训练集训练基于多尺度特征融合的深度残差神经网络模型，验证集对训练网络进行评估与调参；

步骤5：使用测试集测试基于多尺度特征融合的深度残差神经网络模型性能，并输出物质拉曼光谱分析结果；

步骤6：依据步骤5获得的训练模型，将其部署至边缘计算设备，进而构建拉曼光谱数据分析装置。

上述方案中，步骤2，建立某类型物质拉曼光谱数据样本集，其具体步骤如下：

步骤21：为了避免建立的深度学习模型训练过程中倾向于数值较大的特征信息，需要对拉曼光谱数据进行归一化处理，将拉曼光谱数据特征归于统一数值量级。

步骤22：为了扩充拉曼光谱数据样本容量、增加样本多样性，本发明采用两种数据扩容方法：(1)在拉曼光谱数据幅度值中添加白噪声信号；(2)向左右两个方向平移拉曼光谱信号。

上述方案中，所述步骤3，构建基于多尺度特征融合的深度残差神经网络模型，在该模型中，利用ResNet50作为模型主干网络，融合网络的3、4、5层拉曼光谱特征信息，提高光谱空间语义信息表征能力，模型损失函数为交叉熵-抑制损失函数，其具体步骤如下：

步骤31：本发明构建的拉曼光谱数据分析模型主干网络采用ResNet50，在该网络基础上建立多尺度特征融合结构，其用于融合不同尺度(尺寸)拉曼光谱特征信息；ResNet50包含5个模组，其中后4个模组由两种类型残差块组成，分别为Conv_block和Identity_block；为了提高光谱数据的空间语义表征能力，本发明抽取第三个至第五个模组输出的拉曼光谱数据特征信息，其输出表示为{C₃,C₄,C₅}，每个输出通过1×1卷积生成256个特征图，对应的3层结构表示为{M₃,M₄,M₅}；然后，本发明将每层特征进行自底向上融合，具体步骤为：M₅层特征图尺度通过上采样(Upsampling)扩充至与M₄层相同的特征图尺度大小；然后，将上采样特征信息与M₄融合(相加)，融合后的特征信息再经过上采样层，其尺度扩充至与M₃层相同尺度；最后，将融合后上采样信息再与M₃融合(相加)，最终获得融合后的拉曼光谱特征信息。

步骤32：为了抑制相邻拉曼频移(波数)对应的拉曼幅度值大范围变化，本发明在训练损失函数中引入拉曼特征信息一致性监督约束项，其建立的交叉熵-抑制损失函数表达式为：

式中

为模型输出的评估值，y_n是拉曼光谱类别目标值，w为模型权重(权值)，λ₁和λ₂分别为约束项1和约束项2的调整因子，其中，约束项2用于抑制相邻拉曼频移(波数)对应的拉曼幅度值大范围变化。

一种基于深度学习的拉曼光谱数据分析的装置，使用上述任何一项的一种基于深度学习的拉曼光谱数据分析方法，步骤6，将已训练的模型部署至边缘计算设备，构建拉曼光谱数据分析装置，其具体步骤如下：

步骤61：依据步骤5训练的模型，首先，将模型编译为静态.pd模型文件；然后，.pd模型文件进一步编译为openvino模型；最后，生成适用于装置软件开发语言调用的openvino模型接口。

优选的，步骤62：在边缘计算设备上，设计拉曼光谱数据分析软件上位机程序，调用openvino模型接口；搭建拉曼光谱数据分析硬件装置，包括：边缘计算设备、光谱仪、拉曼探头、激光器、显示屏。

本发明提出的基于多尺度特征融合的深度残差神经网络模型与装置，具有以下优点：

1、本发明无需对原始拉曼光谱数据进行预处理，如去除基线、背景噪音，其可直接用于训练本发明提出的端到端深度学习模型。

2、本发明构建的网络将ResNet50第三个至第五个模组输出的拉曼光谱数据特征信息进行融合，提高了拉曼光谱特征空间语义信息表征能力，有效的抑制了环境光对拉曼光谱数据的干扰。

3、本发明在训练损失函数中引入拉曼特征信息一致性监督约束项，有效的抑制了相邻拉曼频移(波数)对应的拉曼幅度值大范围变化，降低了同类型物质拉曼光谱差异性对物质识别准确率的影响。

4、本发明采用Pytorch深度学习框架编程实现，同时易于拓展和使用，在物质拉曼光谱分析领域具有一定的实际应用价值。

5、本发明采用openvino部署方案，该方案易于将模型嵌入至多种开发语言，如C/C++、Java、C Sharp、LabVIEW等，同时部署的程序能够在多种终端运行，如边缘计算设备、工控机等。

附图说明

图1为多尺度特征融合的深度残差神经网络模型示意图；

图2为基于深度学习的拉曼光谱数据分析装置图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。本实例为利用拉曼光谱分析某种肿瘤组织，以该实例说明本发明提供的一种基于深度学习的拉曼光谱数据分析方法与装置。

如图1和图2所示，本发明构建的拉曼光谱数据分析模型主干网络采用ResNet50，在该网络基础上建立多尺度特征融合结构，其用于融合不同尺度(尺寸)拉曼光谱特征信息；在训练损失函数中引入拉曼特征信息一致性监督约束项，抑制相邻拉曼频移(波数)对应的拉曼幅度值大范围变化，提高物质拉曼光谱识别准确率；采用openvino部署方案，搭建基于深度学习的拉曼光谱数据分析装置。本方案具体步骤如下：

步骤1：利用便携式拉曼光谱设备采集某种肿瘤组织拉曼光谱数据，分析肿瘤组织拉曼光谱锋位、峰值、谱带空间位置等特征信息，建立肿瘤组织拉曼光谱分子表征表；

步骤2：本实例的肿瘤组织分类类别包括四类：肿瘤组织1、肿瘤组织2、肿瘤组织3、正常组织，然后，通过专家对四种组织类别进行人工标注。采用数据扩容技术增加对应肿瘤组织拉曼光谱数据样本量，建立模型训练数据集、验证集与测试集，具体步骤如下：

步骤21：为了避免建立的深度学习模型训练过程中倾向于数值较大的特征信息，需要对拉曼光谱数据进行归一化处理，将拉曼光谱数据特征归于统一数值量级。本发明采用线性归一化(Min-Max Scaling)方法对拉曼光谱数据进行线性变换，将数据映射至[0,1]范围内，归一化公式如下：

式中X为拉曼光谱原始数据，X_max为原始拉曼光谱数据最大值，X_min为原始拉曼光谱数据最小值。

步骤22：为了扩充拉曼光谱数据样本容量、增加样本多样性，本发明采用两种数据扩容方法：(1)在拉曼光谱数据幅度值中添加白噪声信号；(2)向左右两个方向平移拉曼光谱，具体实现方式如下：

(1)在每条生物组织拉曼光谱数据幅度值(归一化后)上加入服从正态分布的随机白噪声，其范围为[-1,1]，其表达式如下：

x⁽ⁱ⁾＝x⁽ⁱ⁾+α₁·v

式中x⁽ⁱ⁾表示第i条拉曼光谱数据，α₁为白噪声调整系数(如0.01)，v为随机白噪声数值。

(2)每条光谱随机向左或者向右移动[0,4]波数，对移动后的拉曼光谱数据进行一维插值拟合，然后，求取原波数位置下的拉曼光谱幅度值。

利用ResNet50作为模型主干网络，融合网络的3、4、5层拉曼光谱特征信息，提高光谱空间语义信息表征能力，模型损失函数为交叉熵-抑制损失函数，具体步骤如下：

步骤31：本实例构建的基于多尺度特征融合的深度残差神经网络模型示意图，如图1所示。模型主要由四层结构组成：主干网络层、特征融合层、特征提取层和全连接层，其中主干网络层采用ResNet50，特征提取层包含6个一维卷积层，全连接层包含2个隐藏层。

步骤32：本发明构建的拉曼光谱数据分析模型主干网络采用ResNet50，在该网络基础上建立多尺度特征融合结构，其用于融合不同尺度(尺寸)拉曼光谱特征信息。ResNet50包含5个模组，如图1所示，其中后4个模组由两种类型残差块组成，分别为Conv_block和Identity_block。为了提高光谱数据的空间语义表征能力，本发明抽取第三个至第五个模组输出的拉曼光谱数据特征信息，其输出表示为{C₃,C₄,C₅}，每个输出通过1×1卷积生成256个特征图，对应的3层结构表示为{M₃,M₄,M₅}。然后，本发明将每层特征进行自底向上融合，具体步骤为：M₅层特征图尺度通过上采样(Upsampling)扩充至与M₄层相同的特征图尺度大小，然后，将上采样特征信息与M₄融合(相加)，融合后的特征信息再经过上采样层，其尺度扩充至与M₃层相同尺度，最后，将融合后上采样信息再与M₃融合(相加)，最终获得融合后的拉曼光谱特征信息。

步骤33：为了抑制相邻拉曼频移(波数)对应的拉曼幅度值大范围变化，本发明在训练损失函数中引入拉曼特征信息一致性监督约束项，其建立的训练损失函数表达式为：

式中

为模型输出的评估值，y_n是拉曼光谱类别目标值，w为模型权重(权值)，Shift为波数偏移算子，λ₁和λ₂分别为约束项1和约束项2的调整因子，其中，约束项2用于抑制相邻拉曼频移(波数)对应的拉曼幅度值大范围变化。

步骤4：利用训练集训练基于多尺度特征融合的深度残差神经网络模型，验证集对训练网络进行评估与调参，具体步骤如下：

步骤41：模型训练开始前，需设置本实例模型训练参数，包括学习率、衰减率、批处理大小、epoch次数等参量。

步骤42：利用验证集评估训练的模型的误差率与肿瘤组织拉曼光谱数据分类准确率，进而对训练模型进行调参，以达到模型最高分类正确率，并保存最优模型参数，用于模型测试使用。

步骤5：使用测试集测试基于多尺度特征融合的深度残差神经网络模型性能，并输肿瘤组织拉曼光谱分类结果，具体步骤如下：

步骤51：已训练的模型在测试集上进行评估，本实例利用混淆矩阵分析模型输出的4种肿瘤组织拉曼光谱分类结果，同时，采用准确率(Accuray)、精度(Precision)和召回率(Rcall)作为模型评估指标。

已训练的模型在测试集上进行评估，四种类型组织拉曼光谱测试集样本数量分别为：500条肿瘤组织1拉曼光谱、600条肿瘤组织2拉曼光谱、550条肿瘤组织3拉曼光谱、700条正常组织拉曼光谱。

本发明采用混淆矩阵作为模型评估方法，该方法主要用于比较分类结果和实际值之间的关系。混淆矩阵的每一列代表了组织预测类别，每一列的总数表示预测为该类别的数据的数目；每一行代表了组织数据的真实归属类别，每一行的数据总数表示该类别的数据实例的数目。每一列中的数值表示真实数据被预测为该类的数目。本发明方法获得的混淆矩阵如表1所示。

表1本发明方法的混淆矩阵

步骤52：本发明方法与传统的拉曼光谱分类方法性能进行了比较，传统方法包括：主成分分析方法(PCA)结合线性判别器(LDA)、主成分分析方法(PCA)结合支持向量机(SVM)，三种分类方法评估结果如表2和表3所示。

表2 PCA+LDA方法的混淆矩阵

表3 PCA+SVM方法的混淆矩阵

步骤61：首先，将模型编译为静态.pd模型文件；然后，.pd模型文件进一步编译为openvino模型；最后，生成适用于LabVIEW开发语言调用的openvino模型接口。

步骤62：在LabVIEW开发环境中编写拉曼光谱数据分析软件上位机程序，调用openvino模型接口，在边缘计算设备上部署程序。

步骤63：搭建拉曼光谱数据分析硬件装置，包括：边缘计算设备、光谱仪、拉曼探头、激光器、显示屏。装置工作流程为：激光器作为激发光源通过激发光纤传送至拉曼探头，激发光照射于肿瘤组织并激发拉曼光谱，再通过接收光纤传送至光谱仪，光谱仪通过串口将拉曼光谱信号传送至上位机，拉曼光谱数据分析软件对组织拉曼光谱数据进行识别，结果显示于上位机显示屏。

综上，本发明提出的基于多尺度特征融合的深度残差神经网络模型与装置，具有：无需对原始拉曼光谱数据进行预处理，其可直接用于训练本发明提出的端到端深度学习模型；提高了拉曼光谱特征空间语义信息表征能力，有效的抑制了环境光对拉曼光谱数据的干扰；有效的抑制了相邻拉曼频移(波数)对应的拉曼幅度值大范围变化，降低了同类型物质拉曼光谱差异性对物质识别准确率的影响；同时易于拓展和使用，在物质拉曼光谱分析领域具有一定的实际应用价值，可适用范围广。

本发明已经通过上述实例进行了说明，但应当理解的是，上述实例只是用于举例和说明的目的。因此，凡在技术领域中通过逻辑分析、推理或者有限实验得到技术方法，皆应当属于描述的实例保护范围内。

Claims

1.一种基于深度学习的拉曼光谱数据分析方法，其特征在于，包括以下几个步骤：

2.根据权利要求1所述的一种基于深度学习的拉曼光谱数据分析方法，其特征在于，所述步骤2，建立某类型物质拉曼光谱数据样本集，其具体步骤如下：

步骤21：为了避免建立的深度学习模型训练过程中倾向于数值较大的特征信息，需要对拉曼光谱数据进行归一化处理，将拉曼光谱数据特征归于统一数值量级；

3.根据权利要求1所述的一种基于深度学习的拉曼光谱数据分析方法，其特征在于，所述步骤3，构建基于多尺度特征融合的深度残差神经网络模型，在该模型中，利用ResNet50作为模型主干网络，融合网络的3、4、5层拉曼光谱特征信息，提高光谱空间语义信息表征能力，模型损失函数为交叉熵-抑制损失函数，其具体步骤如下：

步骤31：本发明构建的拉曼光谱数据分析模型主干网络采用ResNet50，在该网络基础上建立多尺度特征融合结构，其用于融合不同尺度(尺寸)拉曼光谱特征信息；ResNet 50包含5个模组，其中后4个模组由两种类型残差块组成，分别为Conv_block和Identity_block；为了提高光谱数据的空间语义表征能力，本发明抽取第三个至第五个模组输出的拉曼光谱数据特征信息，其输出表示为{C₃,C₄,C₅}，每个输出通过1×1卷积生成256个特征图，对应的3层结构表示为{M₃,M₄,M₅}；后，本发明将每层特征进行自底向上融合，具体步骤为：M₅层特征图尺度通过上采样(Upsampling)扩充至与M₄层相同的特征图尺度大小；然后，将上采样特征信息与M₄融合(相加)，融合后的特征信息再经过上采样层，其尺度扩充至与M₃层相同尺度；最后，将融合后上采样信息再与M₃融合(相加)，最终获得融合后的拉曼光谱特征信息。

4.根据权利要求3所述的一种基于深度学习的拉曼光谱数据分析方法，其特征在于，步骤32：为了抑制相邻拉曼频移(波数)对应的拉曼幅度值大范围变化，在训练损失函数中引入拉曼特征信息一致性监督约束项，其建立的交叉熵-抑制损失函数表达式为：

式中

5.一种基于深度学习的拉曼光谱数据分析的装置，使用权利要求1-4任何一项所述的一种基于深度学习的拉曼光谱数据分析方法，其特征在于，所述步骤6，将已训练的模型部署至边缘计算设备，构建拉曼光谱数据分析装置，其具体步骤如下：

6.根据权利要求5所述的一种基于深度学习的拉曼光谱数据分析的装置，其特征在于，步骤62：在边缘计算设备上，设计拉曼光谱数据分析软件上位机程序，调用openvino模型接口；搭建拉曼光谱数据分析硬件装置，包括：边缘计算设备、光谱仪、拉曼探头、激光器、显示屏。