CN110633368A

CN110633368A - 早期结直肠癌非结构化数据的深度学习分类方法

Info

Publication number: CN110633368A
Application number: CN201910862508.5A
Authority: CN
Inventors: 万晶晶; 陈伯伦; 于永涛; 马兴刚; 沈怡芸; 陈泰岳; 马甲林; 顾建祥
Original assignee: Huaian Second People's Hospital (huaian Mercy Hospital); Huaiyin Institute of Technology
Current assignee: Huaian Second People's Hospital (huaian Mercy Hospital); Huaiyin Institute of Technology
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2019-12-31

Abstract

本发明公开了一种早期结直肠癌非结构化数据的深度学习分类方法，包括：(1)提取样本的属性数据集X；(2)标准化处理得样本数据矩阵X’；(3)X’降维得矩阵X₁；(4)对矩阵X₁进行数据集的划分；(5)深度置信网络DBN；(6)支持向量机(SVM)算法；(7)评价分类结果。本发明的分类方法利用矩阵分解技术中非负矩阵分解(NMF)的方法来对样本数据集进行降维，通过分解后的基矩阵和权重矩阵来近似代替原始矩阵，以降低算法的时空复杂度。利用深度置信网络(DBN)通过采用逐层训练的方式，解决了深层次神经网络的优化问题，通过逐层训练为整个网络赋予了较好的初始权值，使得网络只要经过微调就可以达到最优解。

Description

早期结直肠癌非结构化数据的深度学习分类方法

技术领域

本发明涉及数据的深度学习与分类，具体涉及一种早期结直肠癌非结构化数据的深度学习分类方法。

背景技术

目前医疗行业已融入更多人工智慧、传感技术等高科技，使医疗服务走向真正意义的智能化，推动医疗事业的繁荣发展。在中国新医改的大背景下，智慧医疗正在走进寻常百姓的生活。智慧健康医疗旨在医疗领域中应用人工智能技术实现智慧医疗，包括疾病风险预测、智能问诊、医疗影像分析、电子病历信息抽取、医疗健康数据分析、医疗保险评估、用药推荐等。

结直肠癌(colorectal cancer，CRC)的发病率呈逐年上升趋势，已经跃居肿瘤死亡率的前3-5位，这越来越影响着人们的健康和生活质量。根据最新的数据，目前中国结直肠癌每年新发近40万例，死亡近20万人，死亡率达到了50％。必须要提的是，结直肠癌是近些年发病率逐年上升，在过去10年间新发病数和死亡数均翻了一番，且还在以年均4％-5％的速度递增。

现有技术中对早期结直肠癌数据的分类是基于统计学进行分析，或针对特定样本进行特定分析，缺乏系统的预测机制。近年来使用机器学习的方法将癌症患者进行高或低风险的分类已经成为目前好多研究团队的研究方向，这些技术可以对癌症病情的进展和治疗都起着重要的作用。机器学习方法的目的是从复杂的样本数据中检测出关键特征并用于揭示它们所起作用，其中人工神经网络、贝叶斯网络、支持向量机和决策树等机器学习的方法在健康数据分类研究中都得到了广泛的应用，这为预测模型的开发提供了有效和准确的决策依据。

随着病人在早癌诊断之前的检查项目越来越多，样本数据的维度也不断的增加，有些病人并未进行所有项目的检查，导致构建的样本数据集存在着数据稀疏性的情况，并且数据中的噪音也随之增加，这都将对结肠癌早期数据分类算法的性能造成很大的影响。并且由于样本数据的高维度问题，使得预测系统的响应时间也随之增加。

发明内容

发明目的：本发明目的是提供一种早期结直肠癌非结构化数据的深度学习分类方法，能够有效地解决数据分类中存在的数据稀疏性、高维度及噪音信息，学习到在早期结直肠癌的预测中起到了关键的作用的样本特征并对数据进行准确分类。

技术方案：本发明提供了一种早期结直肠癌非结构化数据的深度学习分类方法，包括以下步骤：

(1)对样本数据进行预处理，提取样本的属性数据集X和样本对应的标签数据集Y；

(2)对属性数据集X进行标准化处理，得到样本数据矩阵X’；

(3)使用非负矩阵分解(NMF)对样本数据矩阵X’进行降维，得到降维矩阵X₁；

(4)对降维矩阵X₁进行数据集的划分，得到初始训练集和测试集；

(5)基于深度置信网络DBN构建分类模型，利用训练集进行模型训练，提取样本隐藏的属性特征构建SVM输入训练集；

(6)使用支持向量机(SVM)算法得出测试集对应的分类结果；

(7)使用评价指标对分类结果进行评价。

进一步地，在步骤(2)中，标准化处理采用的的标准化函数为：

其中，μ为样本每一列属性数据的均值，σ为样本每一列属性数据的标准差；X为样本的属性数据集，X’为对样本数据X进行标准化处理得到的样本数据矩阵。

进一步地，步骤(3)中，将样本数据矩阵X’当成是一个非负的特征矩阵，其中每行表示一个样本的特征向量；

非负矩阵分解的目标是求解两个非负矩阵因子W∈P_n×k，H∈P_k×m，(n+m)*k<nm，其中n为样本数据的数量，m为所有样本属性的个数；使得两者的乘积近似于原始矩阵，即样本的属性数据集X，即：

X≈WH

其中，k表示低维空间的维度，W表示低维空间向量，称为基矩阵；H表示重构原矩阵的向量乘积的系数，称为权重矩阵；

将此分解问题建模为Frobenius范数最优化问题：

其中，约束条件W≥0，H≥0表示矩阵H，V的所有元素均非负；

用系数矩阵W代替原始矩阵X，由原始矩阵X的维度降低到k维，得到降维矩阵X₁。

进一步地，步骤(5)中，将降维后的样本的属性向量V作为DBN的输入；

在训练阶段，将可视层输入向量V传递到隐含层；否则，可视层的输入V会被随机的选择，以尝试去重构原始的输入数据；

新的可视的神经元激活单元将前向传递重构隐含层激活单元，获得隐含层的特征h¹和h²；

在训练过程中，执行吉布斯采样(Gibbs)重复以上过程；

其中，将隐含层激活单元和可视层输入之间的相关性差别作为权值W¹和W²更新的主要依据；

在输入数据和隐含层下的条件概率如下：

其中g为Sigmoid函数，其定义如下：

b_i输入层的偏移(bias)，a_i隐含层的偏移；

得出样本数据的输出特征矩阵X₂，将其作为下一步分类模型SVM的输入训练集。

进一步地，在步骤(6)中，将样本数据的输出特征矩阵X₂作为分类算法的训练集，

即X^Train＝X₂＝{x_i|i∈{1,..,n}，其中，x_i为训练集中的各样本数据，n为训练集中样本数据的个数；对应的类别y_i∈{0,1}，

那么线性SVM通过学习得到分离超平面为：

w·x+b＝0

以及相应的分类决策函数：

f(x)＝sign(w·x+b)

其中，参数w,b分别为超平面的法向量和截距；

将距离分离超平面最近的两个不同类别的样本点称为支持向量，构成了两条平行于分离超平面的长带，二者之间的距离称之为margin；margin越大，则分类正确的确信度越高(与超平面的距离表示分类的确信度，距离越远则分类正确的确信度越高)；

SVM分类问题即在全部分类正确的前提下，在满足y_i(w·x_i+b)≥1情况下最大化

即在满足最小化如下函数：

通过构造拉格朗日函数并求解偏导，得到等价的对偶问题：

其中λ_i≥0为拉格朗日乘子(Lagrange multiplier)。

进一步地，在步骤(7)中，采用评价指标准确率、精确度、召回率以及F1分数对分类结果进行评价。

有益效果：与现有技术相比，本发明的有益效果在于：

(1)利用矩阵分解技术中非负矩阵分解(NMF)的方法来对样本数据集进行降维，通过分解后的基矩阵和权重矩阵来近似代替原始矩阵，以降低算法的时空复杂度。

(2)利用深度置信网络(DBN)通过采用逐层训练的方式，解决了深层次神经网络的优化问题，通过逐层训练为整个网络赋予了较好的初始权值，使得网络只要经过微调就可以达到最优解。

本发明的数据分类方法可以降低计算开销和存储开销，有效提高早癌数据分类的精确率。

附图说明

图1为本发明分类方法的总体流程图；

图2为本发明分类方法的步骤分解图；

图3为非负矩阵分解(NMF)示意图；

图4为深度置信网路示意图；

图5为本支持向量机示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步描述：

本申请公开了一种早期结直肠癌非结构化数据的深度学习分类方法，如图1、图2所示，该方法包括以下步骤：

(1)对样本数据进行预处理，提取样本的属性数据集X和样本对应的标签数据集Y，Y＝{0,1}。

(2)对属性数据集X进行标准化处理，得到样本数据矩阵X’。

在早期结直肠癌非结构化数据的深度学习分类算法的设计过程中，需要处理多维度的病人样本数据。首先需要对样本数据进行标准化，数据标准化是依照特征矩阵的列进行数据处理。其中Z-score标准化方法被广泛的使用在众多深度学习算法中，其对样本的每一维度的属性进行标准化操作，这种方法是利用数据的均值和标注差进行数据的标准化，使得处理后的数据符合标准正态分布，即均值为0，标准差为1。数据标准化后能取消由于各个属性特征量纲不同引起的误差，并且标准化是一种线性变换，都是对样本数据中的某一特征属性ei按照比例压缩后再进行平移的操作。数据标准化不但不会改变原始数据的数值排序，反而能提高数据的表现。具体采用的标准化函数如下所示：

其中μ为样本每一列属性数据的均值，σ为样本每一列属性数据的标准差。

(3)使用非负矩阵分解(NMF)对样本数据矩阵X’进行降维，得到降维矩阵X₁。

针对样本数据网络中存在的高维、冗余等问题，需要对原始网路的样本矩阵进行有效的降维，去除冗余的属性。例如，数据集中存在性别，年龄等因素，为确定这些特征是否对分类算法的模型的设计有反向作用，需使用一种方法来去除这些冗余的属性，以至提高最终分类算法的准确率。

虽然目前在医学数据分类中存在一些矩阵的降维方法，但并没有考虑到医学中的实际情况，比如在样本检测的过程中，血项数据都是非负的，而普通的降维方法在降维后样本的数据矩阵中则会出现一些负值，缺乏一些实际的意义。并且由于每个特征都是独立评估的，这种特征提取方法可能无法捕获所有高度区分的特征子集，而这些特征子集由单独的差别较小的特征组成。

本申请的分类方法采用矩阵分解技术中非负矩阵分解(NMF)的方法来对样本数据集进行降维，通过分解后的基矩阵和权重矩阵来近似代替原始矩阵，以降低算法的时空复杂度。本申请将非负矩阵分解应用于早癌数据分类中，通过高维向量空间向低维向量空间的投影，重构不同类型矩阵之间的相关性。该算法在保持低时间复杂度的同时，减少了数据的存储空间，而且能够有效地提高后期分类的性能。

如图3所示，X矩阵的每一行u_i，表示每一个样本；每一列e_i表示样本包含的每个属性。NMF能达到表示信息的局部之间相关关系的效果，从而获得更好的处理结果。对于样本矩阵，可以将其当成是一个非负的特征矩阵，其中每行表示一个样本的特征向量。非负矩阵分解的目标是求解两个非负矩阵因子W∈P_n×k，H∈P_k×m，(n+m)*k<nm，其中n为样本数据的数量，m为所有样本属性的个数；使得两者的乘积近似于原始矩阵，即样本的属性数据集X，即：

X≈WH

其中k表示低维空间的维度，W表示低维空间向量，称为基矩阵。H表示重构原矩阵的向量乘积的系数，称为权重矩阵。通常将此分解问题建模为Frobenius范数最优化问题：

其中约束条件W≥0，H≥0表示矩阵H，V的所有元素均是非负的。

在本申请中，用系数矩阵代替原始矩阵X₁＝W，由原始矩阵X的维度降低到了k维，得到降维矩阵X₁。不但减少存储空间，而且在降维之后能够最大化保持数据的内在信息。

(4)对降维矩阵X₁进行数据集的划分，得到初始训练集和测试集。

(5)基于深度置信网络DBN构建分类模型，利用训练集进行模型训练，提取样本隐藏的属性特征构建SVM输入训练集。

由于数据样本量不足，因此常规的一些机器学习的方法在特定样本集中不能取得较好的效果。例如传统的神经网络一般都是单隐层，最多两个隐层，因为一旦神经元个数太多、隐含层太多，模型的参数数量迅速增长，模型训练的时间非常之久，并且传统的神经网络，随着层数的增加，采用随机梯度下降的话一般很难找到最优解，容易陷入局部最优解。在反向传播过程中也容易出现梯度弥散或梯度饱和的情况，导致模型结果不理想。随着神经网络层数的增加，深度神经网络的模型参数很多，就要求在训练时需要有很大的标签数据，因为训练数据少的时候很难找到最优解，也就是说深度神经网络不具备解决小样本问题的能力。

而深度置信网络(DBN)通过采用逐层训练的方式，解决了深层次神经网络的优化问题，通过逐层训练为整个网络赋予了较好的初始权值，使得网络只要经过微调就可以达到最优解。在训练过程中起到重要作用的“受限玻尔兹曼机”(Restricted BoltzmannMachines，简称RBM)是由可见层、隐层组成，显元用于接受输入，隐元用于提取特征。也就是说，通过RBM训练之后，可以得到输入数据的特征，即提取了输入数据的隐形特征。

正是由于RBM的以上特点，使得DBN逐层进行训练变得有效，通过隐层提取特征使后面层次的训练数据更加有代表性，通过可生成新数据能解决样本量不足的问题。

如图4所示，在本申请的分类方法中，将降维后的每一样本的属性向量V作为DBN的输入。在该训练阶段，将可视层输入向量V传递到隐含层；反之，可视层的输入V会被随机的选择，以尝试去重构原始的输入数据。最后，这些新的可视的神经元激活单元将前向传递重构隐含层激活单元，获得隐含层特征h¹和h²。在训练过程中，执行吉布斯采样(Gibbs)重复以上过程。其中，隐含层激活单元和可视层输入之间的相关性差别就作为权值W¹和W²更新的主要依据。

在输入数据和隐含层下的条件概率如下：

其中g为Sigmoid函数，其定义如下：

b_i输入层的偏移(bias)，a_i隐含层的偏移。通过该步骤，得出样本数据的输出特征矩阵X₂，将其作为下一步分类模型SVM的输入训练集。

(6)使用支持向量机(SVM)算法得出测试集对应的分类结果。

如图5所示，本发明分类方法的基本思想就是基于训练集X^train在特征空间中找到一个最佳划分超平面将正负样本分开。即将原来不可分的数据映射到一个新的空间，转换在新的空间中可分的数据来进行分类别。

将DBN的输出特征矩阵X₂作为分类算法的训练集，即

X^Train＝X₂＝{x_i|i∈{1,..,n}

对应的类别y_i∈{0,1}，那么线性SVM通过学习得到分离超平面如下所示：

w·x+b＝0

以及相应的分类决策函数：

f(x)＝sign(w·x+b)

其中参数w,b分别为超平面的法向量和截距。

将距离分离超平面最近的两个不同类别的样本点称为支持向量，构成了两条平行于分离超平面的长带，二者之间的距离称之为margin。显然，margin更大，则分类正确的确信度更高(与超平面的距离表示分类的确信度，距离越远则分类正确的确信度越高)。通过计算可得：

SVM分类问题可描述为在全部分类正确的情况下，在满足y_i(w·x_i+b)≥1情况下最大化

即在满足最小化如下函数：

接下来通过构造拉格朗日函数并求解偏导，可得到等价的对偶问题：

其中λ_i≥0为拉格朗日乘子(Lagrange multiplier)。

在早癌数据的分类问题中，将DBN输出的结果X₂作为分类算法SVM的输入部分，得出训练模型，最后得出测试集对应的分类结果。

(7)使用评价指标对分类结果进行评价。

分类算法设计好之后，需要对其进行效果的评价，目前衡量算法精确度的常用指标有准确率、精确度、召回率以及F1分数。本发明使用一个2x2混淆矩阵来对其进行解释，该矩阵描述了分类可能出现的四种结果：

a.真正例(TP)是指分类模型将正类别样本正确地预测为正类别。

b.真负例(TN)是指分类模型将负类别样本正确地预测为负类别。

c.假正例(FP)是指分类模型将负类别样本错误地预测为正类别。

d.假负例(FN)是指分类模型将正类别样本正确地预测为负类别。

(1)准确率Accuracy是指我们的模型预测正确的结果所占的比，定义如下：

(2)精确度Precision是在被识别为正类别的样本中，确实为正类别所占的比例，定义如下：

(3)召回率Recall为在所有正类别样本中，被正确识别为正类别的样本所占的比例，定义如下：

(4)F1_Score综合了Precision和Recall的结果，是Precision和Recall加权调和平均。当F1_Score较高时则能说明试验方法比较有效。定义如下：

通过上述四个指标的评价，能够直观了解分类方法的分类效果和精确度。

以上所述仅为本发明的实施例子而已，并不用于限制本发明。凡在本发明的原则之内，所作的等同替换，均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims

1.一种早期结直肠癌非结构化数据的深度学习分类方法，其特征在于，包括以下步骤：

(2)对所述属性数据集X进行标准化处理，得到样本数据矩阵X’；

(3)使用非负矩阵分解(NMF)对所述样本数据矩阵X’进行降维，得到降维矩阵X₁；

(4)对所述降维矩阵X₁进行数据集的划分，得到初始训练集和测试集；

(5)基于深度置信网络DBN构建分类模型，利用所述训练集进行模型训练，提取样本隐藏的属性特征构建SVM输入训练集；

(6)使用支持向量机(SVM)算法得出所述测试集对应的分类结果；

(7)使用评价指标对分类结果进行评价。

2.根据权利要求1所述的深度学习分类方法，其特征在于，在所述步骤(2)中，标准化处理采用的标准化函数为：

3.根据权利要求1所述的深度学习分类方法，其特征在于，所述步骤(3)中，将所述样本数据矩阵X’当成是一个非负的特征矩阵，其中每行表示一个样本的特征向量；

非负矩阵分解的目标是求解两个非负矩阵因子W∈P_n×k，H∈P_k×m，(n+m)*k＜nm，其中n为样本数据的数量，m为所有样本属性的个数；使得两者的乘积近似于原始矩阵，即样本的属性数据集X，即：

X≈WH

将此分解问题建模为Frobenius范数最优化问题：

其中，约束条件W≥0，H≥0表示矩阵H，V的所有元素均非负；

4.根据权利要求1所述的深度学习分类方法，其特征在于，所述步骤(5)中，将降维后的样本的属性向量V作为DBN的输入；

在训练过程中，执行吉布斯采样(Gibbs)重复以上过程；

在输入数据和隐含层下的条件概率如下：

其中g为Sigmoid函数，其定义如下：

b_i输入层的偏移(bias)，a_i隐含层的偏移；

5.根据权利要求1所述的深度学习分类方法，其特征在于，在所述步骤(6)中，将所述样本数据的输出特征矩阵X₂作为分类算法的训练集，

即X^Train＝X₂＝{x_i|i∈{1，..，n}，其中，x_i为训练集中的各样本数据，n为训练集中样本数据的个数；对应的类别y_i∈{0，1}，

那么线性SVM通过学习得到分离超平面为：

w·x+b＝0

以及相应的分类决策函数：

f(x)＝sign(w·x+b)

其中，参数w，b分别为超平面的法向量和截距；

SVM分类问题即在全部分类正确的前提下，在满足y_i(w·x_i+b)≥1情况下最大化即在满足最小化如下函数：

通过构造拉格朗日函数并求解偏导，得到等价的对偶问题：

其中λ_i≥0为拉格朗日乘子(Lagrange multiplier)。

6.根据权利要求1所述的深度学习分类方法，其特征在于，在所述步骤(7)中，采用评价指标准确率、精确度、召回率以及F1分数对分类结果进行评价。