CN112651927A

CN112651927A - 一种基于卷积神经网络与支持向量机的拉曼光谱智能识别方法

Info

Publication number: CN112651927A
Application number: CN202011412988.4A
Authority: CN
Inventors: 祝连庆; 夏嘉斌; 于明鑫; 董明利; 孙广开; 何彦霖; 庄炜
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-04-13

Abstract

本发明提供一种基于卷积神经网络与支持向量机的肿瘤组织拉曼光谱智能识别方法，包括以下步骤：(1)构建拉曼光谱数据训练集和测试集；(2)构造基于卷积神经网络的算法模型与支持向量机的算法模型；(3)利用拉曼光谱训练集训练卷积神经网络的算法模型与支持向量机的算法模型，利用测试集进行模型测试并选定评价指标进行评价；(4)利用所确定的模型参数，封装模型，并利用其进行实时肿瘤组织边缘检测。该方法可以有效的实现实时肿瘤组织边缘检测，提高检测准确性。

Description

一种基于卷积神经网络与支持向量机的拉曼光谱智能识别方法

技术领域

本发明涉及数据处理分析领域，具体涉及一种基于卷积神经网络与支持向量机的拉曼光谱智能识别方法。

背景技术

拉曼光谱作为一种能够探测生物化学和生物分子的振动光谱技术，对癌细胞的光学识别具有重要意义，目前，已有报道应用不同拉曼光谱技术行口腔癌组织、血液、唾液、尿液等标本检测及诊断，1928年印度科学家Raman发现了拉曼散射效应，并将该效应产生的光谱称为“拉曼光谱”，拉曼光谱利用光的非弹性散射原理，能够提供细胞内部特定结构和构象的光谱特征，被称为“指纹分子”。它具有较高的特异性及分析效率，而且无需对血液、唾液、组织等样品染色或标记，与诸如超声、磁共振成像等成熟的医学成像技术相比，拉曼光谱能以相对低的成本，提供实时分子信息和高分辨率成像，对细胞的光学诊断具有重要的意义，而且，拉曼光谱具有非侵入性，可以直接对生物样本进行检验，极大的减轻了患者的痛苦及经济负担。

目前，癌症患者的生存率较低，以口腔肿瘤患者为例，口腔癌患者五年生存率常不足50％，属于生存率较低的恶性肿瘤，根据AJCC(The American Joint Committee onCancer)和NCCN(National Comprehensive Cancer Network)指南，当前针对口腔癌的治疗方式是以手术为主的综合治疗，原发灶切除的彻底性将直接影响患者生存率，现今临床上对原发灶切除范围的评估常有赖于术前X线、CT、MRI、B超及术者术中对肿物的触诊等，而病变组织活检仍作为癌症诊断的金标准。术中常依据切缘冰冻病理结果指导切除范围，有相关文献指出术中冰冻病理假阴性可达23％，切缘阳性的患者常需术后放疗、化疗或二次手术，最终预后不佳，影响生存率，因此找到一种便捷、精确判断肿瘤边界的新技术，指导肿瘤彻底切除，将有助于改善患者的预后和生存状态。

发明内容

为了解决现有技术中癌症边界定位不准的问题，本发明提供一种基于卷积神经网络与支持向量机的拉曼光谱智能识别方法，具体步骤如下：

(1)构建拉曼光谱数据训练集和测试集；

(2)构造基于卷积神经网络的算法模型与支持向量机的算法模型；

(3)利用拉曼光谱训练集训练卷积神经网络的算法模型与支持向量机的算法模型，利用测试集进行模型测试并选定评价指标进行评价；

(4)利用所确定的模型参数，封装模型，并利用其进行实时肿瘤组织边缘检测。

进一步地，步骤(1)中所述构建拉曼光谱数据训练集和测试集的步骤为：通过光纤拉曼系统采集手术环境下肿瘤组织与正常组织的拉曼光谱，将采集到的拉曼光谱数据进行预处理计算，得到带有标签的拉曼光谱，正常组织设定标签“0”，肿瘤组织设定标签“1”，将经过预处理的数据进行随机分布排列，最后从数据集中进行分离，将80％的数据定义为拉曼光谱数据训练集，20％的数据定义为拉曼光谱数据测试集。

进一步地，所述卷积神经网络模型由7层结构组成，包括输入层、第一卷积层C1、第一池化层C2、第二卷积层C3、第二池化层C4、全连接层C5和输出层；

所述第一卷积层C1至所述全连接层C5属于特征提取层，用于从拉曼光谱数据中特征提取，在特征提取过程中，执行一系列连续的卷积和池化操作；

所述拉曼光谱数据为一维数据，所述拉曼光谱数据的二维形式定义为N×1；

所述卷积神经网络7层结构中的每一层均由多个二维平面组成，所述每个二维平面称为特征图；

每个所述特征图包含多个独立神经元，每个神经元接收来自上一层结构的一个小邻域的输入，所述一层结构的一个小邻域称为接受域；

所述神经元在一个所述特征图中共享相同的内核并连接权值，并可以从所述接受域提取基本谱特征，然后将提取的特征由后续的层组合起来，以获得高级特征。

进一步地，所述卷积神经网络模型在特征提取过程中包括卷积过程和池化过程。

进一步地，所述卷积过程中每个特征图的计算分为以下两个步骤：

首先，将输入x乘以大小为K×1的可训练卷积核滤波器，然后添加可训练偏置b_x；

然后，将计算结果通过校正线性单元(ReLU)变换得到卷积层中的整个特征映射C_x，特征映射C_x表达公式如下：

C_x＝max(0,K*x+b_x)

其中，K为卷积核大小；x为输入变量；

进一步地，所述池化过程中每个特征图的计算分为以下两个步骤：

首先，子采样层中的每个神经元计算前一个卷积层的2×1空间邻域的平均值，再乘以一个可训练系数w_x+1；

然后，加上一个可训练偏置b_x+1，结果通过ReLU，每个特征图层将特征图从之前的M×1减小到[M/2×1]，特征图S_x+1可以表示为：

S_x+1＝max(0,∑C_x×w_x+1×b_x+1)。

进一步地，所述支持向量机主要用于求解二分类问题；

所述支持向量机的算法模型的构造包括以下步骤：

(1)将所述卷积神经网络模型的所述输出层替换为支持向量机分类器；

(2)将所述第一卷积层C1、第一池化层C2、第二卷积层C3、第二池化层C4和全连接层C5作为特征提取器；

(3)所述全连接层C5的输出值作为支持向量机分类器的特征。

进一步地，所述训练卷积神经网络算法模型是通过训练原始的带有输出层的卷积神经网络经过几个迭代的训练，直到训练过程覆盖为止；所述训练支持向量机算法模型是利用全连接层C5的输出特征作为特征向量来训练；

进一步地，所述训练支持向量机算法模型的过程如下：

假设存在一个超平面，它可以将样本空间分为两类，一类是阳性组，一类是阴性组；

假设训练集(x_i,y_i),i＝1,2,…,n,x_i∈R^d，其中，x_i是训练集的样本，y_i＝±1是分类标签，最佳分离超平面H，在特征空间中可以定义为以下公式：

H＝w^Tx+b＝0

其中w是d维向量，b是实数；

所述阳性组和阴性组之间的分离余量是m＝2/‖w‖，为了，通过以下公式最大化m,并最小化w：

其中，受约束条件为

y_i(w^Tx_i+b)≥1

因此，分离超平面的优化问题变为：

其中，受约束条件为：

ξ_i≥0，C＞0是错误分类中的惩罚参数，ξ_i是松弛变量；

通过引入拉格朗日函数，得到了二次规划的对偶公式：

其中，约束条件为

训练集不是线性可分的，在非线性情况下，我们需要通过非线性映射将低维特征空间转换为更高维的特征空间；

假设存在非线性映射：φ:X→F,X∈R^d,F∈R^k,k≥d，映射输入样本x_i∈X进入k维特征空间F，通常，核函数用于将非线性可分离数据映射到更高维度的特征空间，内核函数可以定义为以下公式：

K(x_i,x_j)＝φ^T(x_i)φ(x_j)

在这种情况下，对偶公式中的最优函数变为：

其中，α_i为权重参数；

因此，最终决策函数定义如下：

将RBF内核函数用作支持向量机核函数，可定义为以下公式：

K(x_i,x_j)＝exp{-(|x_i-x_j|²)/σ²}

其中σ是RBF内核参数。

进一步地，所述利用测试集进行模型测试并选定评价指标进行评价的方法为：利用混淆矩阵对卷积神经网络的算法模型与支持向量机的算法模型的训练结果进行评价，然后利用混淆矩阵，计算测试集的评价指标，画出ROC曲线表现模型测试结果；

所述评价指标为测试集的准确率，灵敏度和特异性指标。

与现有技术相比，本发明的有益效果为：

利用拉曼光谱数据准确的识别肿瘤组织与健康组织分界，利用通过拉曼光谱技术采集的训练数据，训练构造成的卷积神经网络算法模型和支持向量机算法模型，利用测试数据对训练成熟的模型进行测试，选出数据评价指标，通过对评价指标的评价结果实现肿瘤组织的边缘判定，该方法可以脱离实验室环境，在实际环境中实现实时的肿瘤组织边缘判定，在一定程度上减少了被检测者的痛苦，提高了检测效率和准确性。

附图说明

图1是本发明的方法流程图；

图2是本发明的卷积神经网络与支持向量机算法模型结构示意图；

图3是本发明算法模型应用的口腔鳞状细胞癌组织和癌旁组织分类的结果；

图4是本发明算法模型应用的结果ROC曲线图。

具体实施方式

通过参考示范性实施例，本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而，本发明并不受限于以下所公开的示范性实施例；可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。下面通过具体的实施例对本发明的一种基于卷积神经网络与支持向量机的拉曼光谱智能识别方法进行说明：

一种基于卷积神经网络与支持向量机的肿瘤组织拉曼光谱智能识别方法，包括以下步骤：

1、构建拉曼光谱数据训练集和测试集；

2、构造基于卷积神经网络与支持向量机的算法模型；

3、利用拉曼光谱训练集训练算法模型，利用测试集进行模型测试并选定评价指标进行评价；

4、利用所确定的模型参数，封装模型，并利用其进行实时术中肿瘤组织边缘检测。

本实施例中，构建拉曼光谱数据训练测试集，通过光纤拉曼系统采集手术环境下肿瘤组织与正常组织的拉曼光谱，将采集到的拉曼光谱数据进行预处理计算，得到带有标签的拉曼光谱，正常组织设定标签“0”，肿瘤组织设定标签“1”，将经过预处理的数据进行随机分布排列，最后从数据集中进行分离，将80％的数据定义为拉曼光谱数据训练集，20％的数据定义为拉曼光谱数据测试集。

本实施例中，如图2所示为构造基于卷积神经网络与支持向量机的算法模型示意图，卷积神经网络(CNN)是一种具有深度监督学习结构的多层神经网络。本实施例中的卷积神经网络体系结构由两部分构成：卷积神经网络作为特征提取器，支持向量机(SVM)分类器作为分类器。

其中，卷积神经网络由7层结构组成，包括输入层、第一卷积层C1、第一池化层C2、第二卷积层C3、第二池化层C4、全连接层C5和输出层，层C1到层C5又称为特征提取层，用于从拉曼光谱数据中提取特征，在特征提取过程中，执行一系列连续的卷积和池化操作。

参照传统卷积神经网络模型，由于拉曼光谱是一维数据，其二维形式定义为N×1，因此，每一层仍然由多个二维平面组成，称为特征图，每个特征图包含多个独立的神经元，特征图上的每个神经元接收来自上一层的一个小邻域(被识别为“接受域”)的输入，所有的神经元在一个特征图中共享相同的内核并连接权值并可以从接受域提取基本谱特征，然后将提取的特征由后续的层组合起来，以获得高级特征。

卷积和池化是卷积神经网络特征提取中非常重要的步骤：

卷积过程中，每个特征图单元的计算分为两个步骤：

C_x＝max(0,K*x+b_x)

其中，使用ReLU作为激活函数有两个理由：首先，ReLU不面临sigmoid和tanh函数所经历的梯度消失问题；此外，使用ReLU的卷积神经网络训练速度比使用sigmoid和tanh函数的传统卷积神经网络快几倍，适用于在大型数据集上训练的大型模型。

池化过程中，每个特征图单元也通过两个步骤实现：

然后，加上一个可训练偏差b_x+1，结果通过ReLU，每个特征图层将特征图从之前的M×1减小到[M/2×1]，特征图S_x+1可以表示为：

S_x+1＝max(0,∑C_x×w_x+1×b_x+1)。

本实施例中，使用支持向量机分类器替换卷积神经网络模型的最后一个输出层，层C1到层C5充当特征提取器，C5层的输出值可以作为支持向量机分类器的特征，原始的带有输出层的卷积神经网络经过几个迭代的训练，直到训练过程覆盖为止，支持向量机分类器利用C5层的输出特征作为特征向量来训练，经过训练后，执行识别任务，并对癌组织和癌旁组织的拉曼光谱进行检测。

本实施例中采用分类器对癌与癌旁组织进行分类，这是一个二元分类问题，假设存在一个超平面，它可以将样本空间分为两类，一类是阳性组(癌组织光谱)，一类是阴性组(癌旁组织光谱)；

假设训练集(x_i,y_i),i＝1,2,…,n,x_i∈R^d

其中，x_i是训练集的样本，y_i＝±1是分类标签，在特征空间中，最佳分离超平面H可以按照以下公式定义：

H＝w^Tx+b＝0

其中，w是d维向量，b是实数；

类之间的分离余量是m＝2/‖w‖。为了最大化m，w应最小化，这个优化问题可以通过以下公式求解：

其中，受约束条件为：y_i(w^Tx_i+b)≥1

当训练集线性不可分离时，引入了线性不可分问题的优化算法，目标是为了让支持向量机搜索最大化边距，并最小化错误分类中错误数量的超平面，分离超平面H的优化算法公式如下：

其中，受约束条件为：

C＞0是错误分类中的惩罚参数，ξ_i是松弛变量；

通过引入拉格朗日函数，得到了二次规划的对偶问题的计算公式如下：

其中，约束条件为：

通常，训练集不是线性可分的，在非线性情况下，我们需要通过非线性映射将低维特征空间转换为更高维的特征空间。

假设存在非线性映射：φ:X→F,X∈R^d,F∈R^k,k≥d，映射输入样本x_i∈X进入k维特征空间F，通常，核函数用于将非线性可分离数据映射到更高维度的特征空间，内核函数可以通过以下公式定义为：

K(x_i,x_j)＝φ^T(x_i)φ(x_j)

在这种情况下，二次规划对偶问题计算公式中的最优函数变为：

一般核函数有三类：多项式核函数，高斯核函数和RBF核函数，因此，最终决策函数定义如下：

支持向量机的详细理论可以参考Vapnik于1995年提出的观点，本文将RBF内核函数用作支持向量机核函数，RBF内核函数可以通过以下公式定义：

K(x_i,x_j)＝exp{-(|x_i-x_j|²)/σ²}

其中，σ是RBF内核参数。

实验例

本实验例中以口腔肿瘤组织检测为例，应用实施例中的模型，得到结果如表1所示，使用混淆矩阵表示模型性能，我们得到分类器将216个口腔鳞状细胞癌组织数据中的1个误诊为癌旁组织，216个癌旁组织中有1个被误诊为口腔鳞状细胞癌组织。通过这种混淆矩阵，可以看出该模型对口腔鳞状细胞癌组织和癌旁组织具有较强的分类能力。

表1拉曼光谱混淆矩阵

基于混淆矩阵中的统计信息，通常根据准确性、灵敏度和特异性来评估模型的性能，敏感性是指能够正确地对所有患有这种疾病的患者进行分类，而对所有没有这种疾病的患者进行特异性的正确识别，图3给出了分类结果，表明卷积神经网络和支持向量机算法具有较高的诊断准确率(>99％)。

我们进一步验证了卷积神经网络和支持向量机算法开发的诊断模型的性能，该模型使用了一个用于该分类算法的接收机工作特性(ROC)，结果如图4所示，ROC曲线是一个图，它说明了二元分类器系统由于其识别阈值的变化而表现出的性能，ROC曲线下的积分面积(AUC)是表征分类器性能的量化指标，AUC值越大，说明分类器的预测精度越高，在本实验例中，使用5倍交叉验证，平均ROC曲线的AUC为0.99±0.00。

结合这里披露的本发明的说明和实践，本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的，本发明的真正范围和主旨均由权利要求所限定。

Claims

1.一种基于卷积神经网络与支持向量机的肿瘤组织拉曼光谱智能识别方法，其特征在于，包括以下步骤：

(1)构建拉曼光谱数据训练集和测试集；

2.根据权利要求1所述的识别方法，其特征在于，步骤(1)中所述构建拉曼光谱数据训练集和测试集的步骤为：通过光纤拉曼系统采集手术环境下肿瘤组织与正常组织的拉曼光谱，将采集到的拉曼光谱数据进行预处理计算，得到带有标签的拉曼光谱，正常组织设定标签“0”，肿瘤组织设定标签“1”，将经过预处理的数据进行随机分布排列，最后从数据集中进行分离，将80％的数据定义为拉曼光谱数据训练集，20％的数据定义为拉曼光谱数据测试集。

3.根据权利要求1所述的识别方法，其特征在于，所述卷积神经网络模型由7层结构组成，包括输入层、第一卷积层C1、第一池化层C2、第二卷积层C3、第二池化层C4、全连接层C5和输出层；

4.根据权利要求1所述的识别方法，其特征在于，所述卷积神经网络模型在特征提取过程中包括卷积过程和池化过程。

5.根据权利要求4所述的识别方法，其特征在于，所述卷积过程中每个特征图的计算分为以下两个步骤：

C_x＝max(0,K*x+b_x)

其中，K为卷积核大小；x为输入变量。

6.根据权利要求4所述的识别方法，其特征在于，所述池化过程中每个特征图的计算分为以下两个步骤：

S_x+1＝max(0,∑C_x×w_x+1×b_x+1)。

7.根据权利要求1或3所述的识别方法，其特征在于，所述支持向量机主要用于求解二分类问题；

所述支持向量机的算法模型的构造包括以下步骤：

(3)所述全连接层C5的输出值作为支持向量机分类器的特征。

8.根据权利要求1或3所述的识别方法，其特征在于，所述训练卷积神经网络算法模型是通过训练原始的带有输出层的卷积神经网络经过几个迭代的训练，直到训练过程覆盖为止；所述训练支持向量机算法模型是利用全连接层C5的输出特征作为特征向量来训练。

9.根据权利要求1所述的识别方法，其特征在于，所述训练支持向量机算法模型的过程如下：