CN115565004A

CN115565004A - 一种基于二维拉曼图结合深度学习的拉曼光谱分析方法

Info

Publication number: CN115565004A
Application number: CN202211235569.7A
Authority: CN
Inventors: 刘宇宏; 祁亚峰; 刘邦旭
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2023-01-03

Abstract

本发明公开了一种基于二维拉曼图结合深度学习的拉曼光谱分析方法，该方法包括：获取生物样本的原始拉曼光谱数据和多种拉曼光谱数据转换方式；根据原始拉曼光谱数据的属性特征，对原始拉曼光谱数据的复杂程度进行判断得到复杂程度判断结果；根据复杂程度判断结果和预设的转换匹配机制，匹配最优的拉曼光谱数据转换方式，对预处理后的原始拉曼光谱数据进行转换得到二维拉曼图样本集，训练深度学习网络模型，得到训练好的深度学习网络模型，将实际二维拉曼图集输入训练好的深度学习网络模型进行图像分类，得到图像分类结果。本发明可根据光谱数据的复杂程度来匹配合适的转换过程，实现了高准确率的识别，提高了样品鉴别的能力。

Description

一种基于二维拉曼图结合深度学习的拉曼光谱分析方法

技术领域

本发明涉及光谱分析技术领域，尤其涉及一种基于二维拉曼图结合深度学习的拉曼光谱分析方法。

背景技术

拉曼光谱技术是一种无标记的光学技术，具有专一性的优点，可通过拉曼峰的位置和强度等因素分析物质的生化特性。因此，在样品的分析鉴别中有很大的应用空间。

在对拉曼光谱数据分析处理过程中，有很多种方法。峰强度对比是最直接的方法，但其准确率不是很高，且主要针对是小数据量样本集；多变量统计方法是一种最为常用的拉曼光谱数据分析方法，其有很多子方法，如主成分分析，主成分分析-线性判别分析等，这些方法对提供准确率具有一定的限制。因此，有必要寻找新的方法来提高精度。

随着信息技术的发展，人工智能技术在数据分析上具有很大的应用空间，特别是在图片的分类鉴别上。然而，拉曼光谱数据是作为一种一维数据，虽然人工智能方法可将一维数据方法直接载入模型中进行训练，但相对来说，其准确率不是特别高，因此需要找到一种可将一维拉曼数据转变为二维图片的方法，并选择合适的人工智能方法进行训练。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明提出一种基于二维拉曼图结合深度学习的拉曼光谱分析方法，引入“二维拉曼图”的概念，其指将一维拉曼光谱经过某种编码方式转变为二维拉曼图的统称，使得光谱更方便的载入到人工智能模型中。在此，提出了四种编码方式用于一维拉曼数据的转换，并给出了其用于训练的深度学习模型以及相应的评价参数，并根据处理后的光谱复杂程度给出了匹配的变换方法。

本发明的另一个目的在于提出一种基于二维拉曼图结合深度学习的拉曼光谱分析装置。

为达上述目的，本发明一方面提出了一种基于二维拉曼图结合深度学习的拉曼光谱分析方法，包括：

获取生物样本的原始拉曼光谱数据和多种拉曼光谱数据转换方式；

根据所述原始拉曼光谱数据的属性特征，对所述原始拉曼光谱数据的复杂程度进行判断得到复杂程度判断结果；

根据所述复杂程度判断结果和预设的转换匹配机制，从所述多种拉曼光谱数据转换方式中匹配最优的拉曼光谱数据转换方式，对预处理后的原始拉曼光谱数据进行转换得到二维拉曼图样本集；

基于所述二维拉曼图样本集训练深度学习网络模型，得到训练好的深度学习网络模型，将实际二维拉曼图集输入所述训练好的深度学习网络模型进行图像分类，得到图像分类结果。

根据本发明实施例的基于二维拉曼图结合深度学习的拉曼光谱分析方法还可以具有以下附加技术特征：

进一步地，在本发明的一个实施例中，所述基于样本二维拉曼图训练深度学习网络模型，得到训练好的深度学习网络模型，包括：

将所述二维拉曼图样本集分为训练集和测试集；

基于所述二维拉曼图样本集构建深度学习网络模型，将所述训练集输入所述深度学习网络模型进行训练，并利用所述测试集对深度学习网络模型的性能进行测试，基于性能测试结果得到所述训练好的深度学习网络模型。

进一步地，在本发明的一个实施例中，在所述对预处理后的原始拉曼光谱数据进行转换得到二维拉曼图样本集之前，所述方法，还包括：

对所述原始拉曼光谱数据进行数据预处理，得到预处理后数据；其中，所述数据预处理，包括平滑、拉基线处理；

将所述预处理后数据输出为预设格式数据，并将所述预设格式数据转换为波束序列。

进一步地，在本发明的一个实施例中，所述多种拉曼光谱数据转换方式，包括：光谱的递归图、光谱的格拉米角变形场、光谱的语谱图和光谱的马尔可夫变迁场；所述根据复杂程度判断结果和预设的转换匹配机制，从所述多种拉曼光谱数据转换方式中匹配最优的拉曼光谱数据转换方式，包括：

若所述原始拉曼光谱数据的复杂程度判断结果为复杂程度大于预设程度阈值，从所述多种拉曼光谱数据转换方式中匹配光谱的递归图和光谱的格拉米角变形场两种转换方式；

反之，从所述多种拉曼光谱数据转换方式中匹配光谱的语谱图和光谱的马尔可夫变迁场两种转换方式。

进一步地，在本发明的一个实施例中，所述光谱的递归图的转换方式，包括：将所述波束序列进行缩放得到第一预设区间序列，利用Taken延迟方法对所述预第一设区间序列进行重构，基于重构后序列生成拉曼光谱的递归图；

所述光谱的格拉米角变形场的转换方式，包括：将所述波束序列进行缩放，得到第二预设区间序列，对所述第二预设区间序列进行矩阵变换以生成拉曼光谱的格拉米角变形场。

进一步地，在本发明的一个实施例中，所述光谱的语谱图的转换方式，包括：将所述波束序列进行缩放得到第三预设区间序列，对所述第三预设区间序列进行分割，对分割后的序列进行短时傅里叶变换，并对短时傅里叶变换后的序列进行离散傅里叶变换以生成光谱的语谱图；

所述光谱的马尔可夫变迁场的转换方式，包括：将所述波束序列进行缩放得到第四预设区间序列，根据所述第四预设区间序列的取值范围，将所述第四预设区间序列划分为多个分位数箱，基于所述多个分位数箱构建马尔科夫转移矩阵，并对所述马尔科夫转移矩阵归一化操作生成拉曼光谱的马尔可夫变迁场。

为达到上述目的，本发明另一方面提出了一种基于二维拉曼图结合深度学习的拉曼光谱分析装置，包括：

数据获取模块，用于获取生物样本的原始拉曼光谱数据和多种拉曼光谱数据转换方式；

特征判断模块，用于根据所述原始拉曼光谱数据的属性特征，对所述原始拉曼光谱数据的复杂程度进行判断得到复杂程度判断结果；

转换匹配模块，根据所述复杂程度判断结果和预设的转换匹配机制，从所述多种拉曼光谱数据转换方式中匹配最优的拉曼光谱数据转换方式，对预处理后的原始拉曼光谱数据进行转换得到二维拉曼图样本集；

图像分类模块，用于基于所述二维拉曼图样本集训练深度学习网络模型，得到训练好的深度学习网络模型，将实际二维拉曼图集输入所述训练好的深度学习网络模型进行图像分类，得到图像分类结果。

本发明实施例的基于二维拉曼图结合深度学习的拉曼光谱分析方法和装置，在对一维拉曼光谱数据进行二维图片的转化时，一维拉曼光谱经过某种编码方式转变为二维拉曼图的统称，这种图片将更适合与深度学习模型的训练。基于上述二维拉曼图，给出了不同的四种编码方式，可将一维拉曼数据转换为二维拉曼图。四种二维拉曼图与深度学习结合过程中，可根据光谱数据的复杂程度来匹配合适的转换过程。二维拉曼图结合深度学习实现了高准确率的识别，提高了样品鉴别的能力。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于二维拉曼图结合深度学习的拉曼光谱分析方法的流程图；

图2为根据本发明实施例的基于二维拉曼图结合深度学习的拉曼光谱分析架构示意图；

图3为根据本发明实施例的光谱的递归图；

图4为根据本发明实施例的光谱的格拉米角变形差场图；

图5为根据本发明实施例的光谱的语谱图；

图6为根据本发明实施例的光谱的马尔可夫变迁场图；

图7为根据本发明实施例的基于二维拉曼图结合深度学习的拉曼光谱分析装置的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面参照附图描述根据本发明实施例提出的基于二维拉曼图结合深度学习的拉曼光谱分析方法和装置。

图1是本发明一个实施例的基于二维拉曼图结合深度学习的拉曼光谱分析方法的流程图。

如图1所示，该方法包括但不限于以下步骤：

S1，获取生物样本的原始拉曼光谱数据和多种拉曼光谱数据转换方式。

具体的，本发明实施例获取生物样本，可以为细胞、组织等。再获取生物样本的原始拉曼光谱数据。

拉曼光谱的一维序列到二维拉曼图的变换。本发明提供了四种编码方式用于一维拉曼数据到二维拉曼图的变换，即光谱的递归图、光谱的格拉米角变形场、光谱的语谱图、光谱的马尔可夫变迁场。

S2，根据原始拉曼光谱数据的属性特征，对原始拉曼光谱数据的复杂程度进行判断得到复杂程度判断结果。

S3，根据复杂程度判断结果和预设的转换匹配机制，从多种拉曼光谱数据转换方式中匹配最优的拉曼光谱数据转换方式，对预处理后的原始拉曼光谱数据进行转换得到二维拉曼图样本集。

具体的，本发明实施例的基于二维拉曼图结合深度学习的拉曼光谱分析的架构如图2所示。

可以理解的是，首先对采集到原始拉曼光谱数据进行预处理。预处理步骤主要包括平滑，拉基线处理。优选地，将基线处理后数据输出为TXT格式，对于每一条预处理后的拉曼光谱，可转化记录为波束序列W＝(w₁,w₂,…,w_n)，其中n为波数序列号。

进一步地，对于从样品中采集到的光谱数据，可根据光谱的采集范围，强度变化状态，峰的多少来进行判断。对于范围广，强度变化较多，峰较多的光谱数据选择光谱的递归图、光谱的格拉米角变形场。反之，则选择光谱的语谱图、光谱的马尔可夫变迁场来进行转换。

作为一种示例，若原始拉曼光谱数据的复杂程度判断结果为复杂程度大于预设程度阈值，从多种拉曼光谱数据转换方式中匹配光谱的递归图和光谱的格拉米角变形场两种转换方式；反之，从多种拉曼光谱数据转换方式中匹配光谱的语谱图和光谱的马尔可夫变迁场两种转换方式。

具体的，上述4种变换方式的步骤如下：

如图3所示，光谱的递归图(SRP)：

a)对于预处理后的拉曼光谱序列W＝(w₁,w₂,…,w_n)，进行缩放，缩放至[0,1]区间，即，

b)对缩放后的序列再进行重构为

重构的方法是利用Taken延迟方法，即：

c)生成拉曼光谱的递归图。光谱的递归图R可由重构后的

表示为：

如图4所示，光谱的格拉米角变形场(SGACF)：

a)缩放预处理后的拉曼光谱数据。将预处理后的拉曼光谱系列W＝(w₁,w₂,…,w_n)，缩放[-1,1]区间，并用

表示，即：

b)生成拉曼光谱的格拉米角变形场。由缩放后

进行矩阵变换，则拉曼光谱的格拉米角变形场可表示为：

本发明实施例有两种不同的格拉米角变形场，GACSF(Gramian AngularConversion Summation Field)为格拉米角变形和场，GACDF(Gramian AngularConversion Difference Field)为格拉米角变形差场，两者都可以生成光谱的格拉米角变形场。图4展示了格拉米角变形和场。

如图5所示，光谱的语谱图(SSTFT)：

b)划分光谱。对缩放后的光谱x(t),t＝0,1,···,T-1,t为拉曼频移，T为采集到的拉曼光谱长度。将光谱x(t)进行分割，可表示为x_n(m),n＝0,1,···,r-1,其中n为片段序列数，r为片段总数，m为片段长度n的拉曼频移。

c)进行短时傅里叶变换。对于上述的x(t)进行短时傅里叶变换，即：

w(n)为窗函数。

d)进行离散傅里叶变换。对x(n)再进一步离散化，可得拉曼散射强度x(n)的离散时间傅里叶变换(DTFT)，即：

离散傅里叶变换也可表达为：

其中0≤k≤N-1，ω＝2πk/N。

e)生成拉曼语谱图。|X(n,k)|是x(n)的短时强度谱估计。定义P(n,k)为拉曼频移m处强度谱的能量密度函数(或功率谱函数)，即：

P(n,k)＝|X(n,k)|²＝(X(n,k))×(conj(X(n,k)))

从而可得拉曼语谱图，即以波数n为横坐标，频率k为纵坐标，以P(n,k)的值为色度组成的二维图像。颜色深度单位为dB，用10*lg(P(n,k))的数值表示，如图5所示。

如图6所示，光谱的马尔可夫变迁场(SMTF)：

a)对于预处理后的拉曼光谱序列W＝(w₁,w₂,…,w_n)，首先进行缩放至[0,1]区间，即，

b)划分分位数箱。首先将波数序列

按照其取值范围划分为Q个分位数箱,每个数据点wi属于一个唯一的q_j(j∈[1,Q])；

c)构建马尔科夫转移矩阵。构建一个矩阵尺寸为Q×Q的马尔科夫转移矩阵V，其中v_i,j表示为分位箱q_j中的元素被在分位箱q_i中的元素跟随的概率，即：

v_ij＝P(x_t∈q_i|x_t-1∈q_j)

d)生成光谱的马尔科夫变迁场。将∑_jv_ij＝1归一化，可得光谱的马尔可夫变迁场M，即：

S4，基于二维拉曼图样本集训练深度学习网络模型，得到训练好的深度学习网络模型，将实际二维拉曼图集输入训练好的深度学习网络模型进行图像分类，得到图像分类结果。

可以理解的是，本发明实施例将二维拉曼图样本集分为训练集和测试集；基于二维拉曼图样本集构建深度学习网络模型，将训练集输入深度学习网络模型进行训练，并利用测试集对深度学习网络模型的性能进行测试，基于性能测试结果得到训练好的深度学习网络模型。

具体地，深度学习模型创建。把由从一维光谱数据转变为二维拉曼图的四种不同图片，作为深度学习的输入，针对不同的图片，设定不同的模型层及层数，具体包括：卷积层，批量标准化层，全连接层，池化层，激活函数层等。

深度学习模型训练。模型训练和验证过程采用5倍交叉验证法，以评估各个分类模型的稳定性，防止出现过拟合现象。

深度学习模型测试。选取二维拉曼图样本集为总样本N中部分m个数据作为训练集，则剩余的N_t＝N-N_m则为选取的测试集数据，对上一步训练好的模型进行测试，最终得到样品分类的准确率，敏感性，特异性，并同时得到模型的受试工作者特征曲线，用于评价基于二维拉曼图结合深度学习的识别效果。

根据本发明实施例的基于二维拉曼图结合深度学习的拉曼光谱分析方法，可根据光谱数据的复杂程度来匹配合适的转换过程。二维拉曼图结合深度学习实现了高准确率的识别，提高了样品鉴别的能力。

为了实现上述实施例，如图7所示，本实施例中还提供了基于二维拉曼图结合深度学习的拉曼光谱分析装置10，该装置10包括：数据获取模块100、特征判断模块200和转换匹配模块300和图像分类模块400。

数据获取模块100，用于获取生物样本的原始拉曼光谱数据和多种拉曼光谱数据转换方式；

特征判断模块200，用于根据原始拉曼光谱数据的属性特征，对原始拉曼光谱数据的复杂程度进行判断得到复杂程度判断结果；

转换匹配模块300，根据复杂程度判断结果和预设的转换匹配机制，从多种拉曼光谱数据转换方式中匹配最优的拉曼光谱数据转换方式，对预处理后的原始拉曼光谱数据进行转换得到二维拉曼图样本集；

图像分类模块400，用于基于二维拉曼图样本集训练深度学习网络模型，得到训练好的深度学习网络模型，将实际二维拉曼图集输入训练好的深度学习网络模型进行图像分类，得到图像分类结果。

进一步的，上述图像分类模块400，还用于：

将二维拉曼图样本集分为训练集和测试集；

基于二维拉曼图样本集构建深度学习网络模型，将训练集输入深度学习网络模型进行训练，并利用测试集对深度学习网络模型的性能进行测试，基于性能测试结果得到训练好的深度学习网络模型。

进一步的，上述装置10，还包括：

数据预处理模块，用于对原始拉曼光谱数据进行数据预处理，得到预处理后数据；其中，数据预处理，包括平滑、拉基线处理；

格式转换模块，用于将预处理后数据输出为预设格式数据，并将预设格式数据转换为波束序列。

进一步的，上述多种拉曼光谱数据转换方式，包括：光谱的递归图、光谱的格拉米角变形场、光谱的语谱图和光谱的马尔可夫变迁场；上述转换匹配模块300，还用于：

若原始拉曼光谱数据的复杂程度判断结果为复杂程度大于预设程度阈值，从多种拉曼光谱数据转换方式中匹配光谱的递归图和光谱的格拉米角变形场两种转换方式；

反之，从多种拉曼光谱数据转换方式中匹配光谱的语谱图和光谱的马尔可夫变迁场两种转换方式。

根据本发明实施例的基于二维拉曼图结合深度学习的拉曼光谱分析装置，可根据光谱数据的复杂程度来匹配合适的转换过程，二维拉曼图结合深度学习实现了高准确率的识别，提高了样品鉴别的能力。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于二维拉曼图结合深度学习的拉曼光谱分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述基于样本二维拉曼图训练深度学习网络模型，得到训练好的深度学习网络模型，包括：

将所述二维拉曼图样本集分为训练集和测试集；

3.根据权利要求2所述的方法，其特征在于，在所述对预处理后的原始拉曼光谱数据进行转换得到二维拉曼图样本集之前，所述方法，还包括：

4.根据权利要求3所述的方法，其特征在于，所述多种拉曼光谱数据转换方式，包括：光谱的递归图、光谱的格拉米角变形场、光谱的语谱图和光谱的马尔可夫变迁场；所述根据复杂程度判断结果和预设的转换匹配机制，从所述多种拉曼光谱数据转换方式中匹配最优的拉曼光谱数据转换方式，包括：

5.根据权利要求4所述的方法，其特征在于，

所述光谱的递归图的转换方式，包括：将所述波束序列进行缩放得到第一预设区间序列，利用Taken延迟方法对所述预第一设区间序列进行重构，基于重构后序列生成拉曼光谱的递归图；

6.根据权利要求4所述的方法，其特征在于，

所述光谱的语谱图的转换方式，包括：将所述波束序列进行缩放得到第三预设区间序列，对所述第三预设区间序列进行分割，对分割后的序列进行短时傅里叶变换，并对短时傅里叶变换后的序列进行离散傅里叶变换以生成光谱的语谱图；

7.一种基于二维拉曼图结合深度学习的拉曼光谱分析装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述图像分类模块，还用于：

将所述二维拉曼图样本集分为训练集和测试集；

9.根据权利要求8所述的装置，其特征在于，所述装置，还包括：

数据预处理模块，用于对所述原始拉曼光谱数据进行数据预处理，得到预处理后数据；其中，所述数据预处理，包括平滑、拉基线处理；

格式转换模块，用于将所述预处理后数据输出为预设格式数据，并将所述预设格式数据转换为波束序列。

10.根据权利要求9所述的装置，其特征在于，所述多种拉曼光谱数据转换方式，包括：光谱的递归图、光谱的格拉米角变形场、光谱的语谱图和光谱的马尔可夫变迁场；所述转换匹配模块，还用于：