CN105303028B

CN105303028B - 基于有监督等度规映射的智能医学诊断分类方法

Info

Publication number: CN105303028B
Application number: CN201510518334.2A
Authority: CN
Inventors: 何萍; 张蕾; 徐晓华; 林惠惠
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2015-08-20
Filing date: 2015-08-20
Publication date: 2018-11-23
Anticipated expiration: 2035-08-20
Also published as: CN105303028A

Abstract

本发明涉及基于有监督等度规映射的智能医学诊断分类方法。本发明将医学数据编制成训练数据集和测试数据集，训练数据的有监督的等度规映射降维，包括计算测地线距离，对测地线距离融入监督信息，训练数据的流形低维嵌入，构建分类决策面，测试数据的无监督低维嵌入。本发明克服了过去存在的导致流形整体结构信息的损失的缺陷。本发明对高维有标签数据进行了特征提取，然后根据数据特点使用线性支持向量机算法构建分类决策面对降维后的数据构建分类边界面，显式的低维映射加上线性的分类决策面构建，有利于提高可理解性，降低了数据的冗余度，提高了计算分析的精度，也降低了对医学数据的计算代价。

Description

基于有监督等度规映射的智能医学诊断分类方法

技术领域

本发明属于应用于医学诊断中对医学数据集的分类分析，特别涉及一种基于有监督等度规映射的智能医学诊断分类方法。

背景技术

传统的医学诊断方式大多受人为主观因素影响，诊断准确率较低，诊断所需要的时间花费较大。研究表明自动化医学诊断技术能够克服人为主观因素、提高诊断准确率、减少漏诊。对于病人而言，自动化医学诊断技术可以在疾病发生早期甚至连病人本身都没意识到的情况下，提前发现病情，帮助病人及早治疗，对于如老年痴呆症等无法治愈疾病的及早缓解有着重大的意义，从而减轻病人对家庭和社会的一系列负担。对于医院而言，自动化医学诊断的时间花费较小，也有助于提高医院运作的效率。由此可见，智能医学诊断技术不仅关系着每个个体和家庭的日常生活，还与整个社会的进步发展息息相关，因而具有重大的研究意义和实用价值。

在本发明作出之前，目前自动化医学诊断技术的发展还刚刚起步，存在很多缺陷。传统的专家系统依赖于数据库进行医学诊断，易于被医学工作者理解，但是专家系统所涉及的数据库中收集的数据较杂，冗余度较高，专家系统的医学诊断准确率较低。支持向量机分类方法利用最大化边际原则，自动将收集到的医学信息分类，在一定程度上缓解了传统专家系统数据库的局限性，提高了诊断的准确率，但是支持向量机分类方法存在黑盒效应——即无法解释推理过程和得出结论的“黑箱”特征，人们无法直观地看到处理的过程，可理解性不强。近年来，机器学习中的流形降维算法能够将高维数据降维投影到低维的可视空间，这种中间过程的可视化易于医学工作者的理解和分析，对医学诊断具有指导意义。虽然已有不少降维算法被应用于医学领域，但流形降维算法本身只能对医学信息降维而不能进行分类处理。因此，有研究者提出了流形降维分类算法，其中有代表性的包括SLLE和LSDA算法。其中，有监督局部线性嵌入算法(简称SLLE)在原始的局部线性嵌入算法(简称LLE)融入了监督信息，传统的LLE算法是根据样本点的欧氏距离寻找近邻点，SLLE算法则在此基础上增加了样本点的类别信息，使降维后类内距离减小类间距离增大。然而，SLLE算法对参数非常敏感，鲁棒性不强，并且为了适应不同的数据集，参数的选取需要大量的时间。局部敏感判别分析算法(简称LSDA)通过构建类内图和惩罚图，最大化不同类样本点的间隔，最小化小同类样本点的距离，并保持局部流形结构。然而，LSDA算法只考虑了流形的局部信息，可能导致流形整体结构信息的损失，而且LSDA算法的分类效果也严重依赖于参数的选择，在参数选择可能会耗费大量的时间。

发明内容

本发明的目的在于克服上述缺陷，设计一种基于有监督等度规映射的智能医学诊断分类方法。

本发明的技术方案是：

基于有监督等度规映射的智能医学诊断分类方法，其主要技术特征在于步骤如下：

(1)将医学数据编制成训练数据集和测试数据集；

(2)训练数据的有监督的等度规映射降维，包括：

(2-1)计算测地线距离；

(2-2)对测地线距离融入监督信息；

(2-3)训练数据的流形低维嵌入；

(3)构建分类决策面；

(4)测试数据的无监督低维嵌入；

(5)降维分类后的数据。

所述步骤(1)训练数据集为高维有标签医学数据集，测试数据集为高维无标签医学数据集。

所述步骤(2-2)对测地线距离融入监督信息的策略为：类内数据点间的距离保持不变，采用类间数据点间的最大距离表示类间数据点的距离；融入监督策略可以描述如下：

其中d_ij表示同类数据点之间的距离，d_pq表示异类数据点之间的距离。

所述步骤(3)构建分类决策面的具体方法为：采用线性支持向量机算法构建分类决策面对降维后的结果构建分类边界面。

所述步骤(4)测试数据的无监督低维嵌入是：将测试数据无监督地映射到训练数据的低维分类空间中，实现对无标签高维数据的降维分类；对于任意一个测试数据x_i，它的最佳测试数据映射为z^*，它可用于对逐个到达的测试数据流进行分类预测，其公式如下：

其中的表示在原始流形上测试数据到训练数据集的测地线距离，Z_SΛz^T表示定义的在有监督等度规映射空间上测试数据到训练数据集的测地线距离，只有通过令两者强迫一致，才能得到测试数据的最佳映射；

如果是多个测试数据同时进行分类，与上式同理，则可得测试数据集X_T在目标流形上的最佳映射为Z_T。

本发明的优点和效果在于采用显式的有监督等度规映射加上线性的支持向量机决策面构建对医学领域的数据进行降维分类分析，表现为：

(1)保持了同类数据点之间的相似性，拉大了异类数据点之间的差异性，对高维有标签数据进行了特征提取，减少了数据之间的冗余度，提高了分类的精确率，提高了诊断的准确率。

(2)降维数据的低维表示展示了医学数据分析的中间过程，更有益于医学工作者的理解和分析。

(3)将测试数据无监督地映射到训练数据的低维分类空间中，实现对测试数据的无监督低维嵌入。

(4)监督信息的融入过程中不依赖于任何参数，而是根据数据集本身的特性自适应的选择，因而分类性能更鲁棒。

本发明采用有监督的等度规映射降维对高维有标签数据降维，对高维有标签数据进行了特征提取，然后根据数据特点使用线性支持向量机算法构建分类决策面对降维后的数据构建分类边界面。本方法采用显式的低维映射加上线性的分类决策面构建，有利于提高可理解性。本方法采用的有监督等度规映射对高维的医学数据进行了降维，降低了数据的冗余度，并且提高了计算分析的精度。另外，采用先降维后分类的方法，也降低了对医学数据的计算代价。

本发明还有其他具体的优点和效果分析将在下面涉及。

附图说明

图1——本发明流程示意图。

图2——本发明应用于肝脏疾病数据集的降维分类过程示意图，图中不同符号表示不同类别的数据，其中(a)为肝脏疾病的原始数据，(b)为肝脏疾病的训练数据，(c)为肝脏疾病的测试数据，(d)为肝脏疾病的训练数据降维分类后的结果，(e)为肝脏疾病的测试数据降维分类后的结果。

图3——本发明应用于糖尿病数据集的降维分类过程示意图，图中不同符号表示不同类别的数据，其中(a)为糖尿病的原始数据，(b)为训练数据，(c)为糖尿病的测试数据，(d)为糖尿病的训练数据降维分类后的结果。(e)为糖尿病的测试数据降维分类后的结果。

具体实施方式

本发明的主要技术思路是：

本发明采用有监督等度规映射降维算法加上线性的分类决策面构建对高维有标签医学数据集进行降维分类，克服了流形降维算法只能对医学信息降维而不能进行分类处理的缺陷，同时也克服了其它流形降维分类算法对参数依赖严重的特点。本发明采用有监督等度规映射降维算法对高维医学数据进行了预处理，降低了数据的冗余度、提高了分类的准确率。本发明中间过程的图像化更有助于医学工作者的理解和分析。同时本发明将高维无标签医学数据集无监督地映射到低维空间，实现了对高维无标签医学数据集的分类。

本发明的步骤如下：

一.将医学数据编制成训练数据集和测试数据集。

其中，训练数据集为高维有标签医学数据集，测试数据集为高维无标签医学数据集。

二.对训练数据集进行有监督的等度规映射降维，这个步骤包括三个阶段：

1.计算测地线距离，测地线距离可以描述如下：

在高维空间，如果两个点相邻则称为近邻点，根据L1构图即稀疏学习来自适应地选择近邻点。

对于每个点x_i，w中所有权重为非0所对应的数据点被选为x_i的近邻点。然后，将所有的近邻点连到一起，得到邻接图G。U是数据点v_i近邻集合，若数据点v_j属于U，则认为数据点v_i与v_j是相邻的，即图G存在边v_iv_j。

设数据点v_i与数据点v_j之间的最短路径d_g(v_i，v_j)，欧氏距离为d(v_i，v_j)。当邻接图G存在边v_iv_j时，最短路径d_g(v_i，v_j)＝d(v_i，v_j)；否则d_g(v_i，v_j)＝∞，对p＝1，2，…，n，通过迪杰斯特拉方法来求得数据点间的最短路径。

具体方法如下：

d_g(v_i，v_j)＝min{d_g(v_i，v_j)，d_g(v_i，v_p)+d_g(v_p，v_j)}

这里，我们采用迪杰斯特拉方法求得邻接图中两点之间的最短路径表示数据点间的测地线距离。

2.对测地线距离融入监督信息，保持同类数据点之间的相似性，拉大异类数据点之间的差异。在实际应用中，我们采用类间数据点的最大距离来表示类间数据点的距离并且保持同类数据点之间的距离。融入监督策略可以描述如下：

这种监督信息融入策略不依赖于参数的选取，可以节省参数选取的时间，并且能够更好地保持数据的流形结构，保持了同类数据点之间的相似性，拉大了异类数据点之间的差异。

3.流形低维嵌入，使用MDS算法对高维数据进行降维。通过有监督的等度规映射降维，对高维有标签的数据进行降维。有监督的等度规映射降维算法的流形低维嵌入可以描述如下：

假设高维数据集为X＝{x₁，x₂，...，x_N}，其中x_i∈R^D，数据点相应的低维坐标为Y＝{y₁，y₂，...，y_N}，其中y_i∈R^d。

(1)根据测地线距离构建距离矩阵D＝{d_g(v_i，v_j)²}。

(2)双中心化，计算：

其中H是D的同阶单位矩阵

(3)对τ(D)进行奇异值分解。因为矩阵τ(D)对称，即有τ(D)＝U^TΛU。取d个最大的特征值及其对应的特征向量，Λ_d是对角阵，对角元素是从大到小排列的特征值，矩阵U_d的列为相应的特征向量。

(4)计算矩阵Z，对Λ_d对角线元素依次取算术平方根，并乘上U_d，得到

三.构建分类决策面，采用线性支持向量机算法对降维后的数据构建分类边界面。

四.测试数据的无监督低维嵌入。训练数据集为高维有监督医学数据集，测试数据集为高维无标签医学数据集。由于测试数据不像训练数据一样有监督信息，本算法将测试数据无监督地映射到训练数据的低维分类空间中，实现测试数据的无监督低维嵌入。

对于任意一个测试数据x_i，它的最佳测试数据映射为z^*，它可用于对逐个到达的测试数据流进行分类预测；

其中的表示在原始流形上测试数据到训练数据集的测地线距离，Z_SΛz^T表示定义的在有监督等度规映射空间上测试数据到训练数据集的测地线距离，只有通过令两者强迫一致，才能得到测试数据的最佳映射。

本发明对测试数据进行了无监督低维嵌入，将测试数据映射到有监督的等度规映射空间中去。

如图2，图3所示：

图2展示了基于有监督等度规映射的智能医学诊断分类方法应用于肝脏病数据集上的降维分类过程，图3展示了基于有监督等度规映射的智能医学诊断分类方法应用于糖尿病数据集上的降维分类过程。中间过程图像化的展示，更有易于医学工作者的理解和分析，提高了可理解性。基于有监督等度规映射的智能医学诊断分类方法采用先降维后分类的方式，对高维医学信息先进行了特征提取，提高了医学诊断的准确率。

如表1所示，表中展示了本发明(英文缩写为SIMBA)在8种真实医学数据集上的实验结果与其他经典分类算法的诊断准确率的比较。从表格中可以发现支持向量机的诊断准确率比决策树算法的诊断准确率高，说明了支持向量机的最大化边际准则要比传统的决策树算法更适合于医学分类数据集。SLLE算法和LSDA算法的诊断准确率整体比支持向量机和决策树算法的诊断准确率高，说明了有监督的流形降维对高维数据进行了特征提取，更有易于分类准确率的提高。SIMBA算法的诊断准确率比SLLE算法和LSDA算法的诊断准确率高，SIMBA算法的有监督降维过程不依赖于参数，并且更能保持原始流形的结构，分类准确率更高。因此，基于有监督等度规映射的智能医学诊断分类方法更加适用于自动化医学诊断领域。

表1：五种分类算法在医学诊断数据集上的准确率比较

Claims

1.基于有监督等度规映射的智能医学诊断分类方法，其特征在于步骤如下：

(1)将医学数据编制成训练数据集和测试数据集；

(2)训练数据的有监督的等度规映射降维，包括：

(2-1)计算测地线距离；

(2-2)对测地线距离融入监督信息；

(2-3)训练数据的流形低维嵌入；

(3)构建分类决策面；

(4)测试数据的无监督低维嵌入，将测试数据无监督地映射到训练数据的低维分类空间中，实现对无标签高维数据的降维分类；训练数据集为高维有监督医学数据集，测试数据集为高维无标签医学数据集，由于测试数据不像训练数据一样有监督信息，将测试数据无监督地映射到训练数据的低维分类空间中，实现测试数据的无监督低维嵌入；对于任意一个测试数据x_i，它的最佳测试数据映射为z^*，它可用于对逐个到达的测试数据流进行分类预测，其公式如下：

其中的表示在原始流形上测试数据到训练数据集的测地线距离，X_s表示训练数据集，Z_s表示训练数据在低维空间中的映射，S(X_S，x_i)表示测试数据x_i与训练数据集X_S之间的平方测地线距离矩阵，E_x(S(x，x_i))表示测试数据x_i与其他所有数据点间平方测地线的距离的期望，E_x′(S(X_S，x′))表示训练数据集与其他数据点之间的平方测地线距离的期望，E_x，x′(S(x，x′))表示所有数据点间的平方测地线距离的期望，x和x′表示可变量，E_x(·)和E_x′(·)分别表示对可变量x和x′求括号内函数的期望，K_d(X_S，x_i)的主要作用在于对测试数据与训练数据集之间的测地线距离进行双归一化，Λ为训练数据降维时得到的特征值对角阵，它指示了低维空间各个维度的权重，z表示待优化的目标，其最优值就是待求的z^*，Z_SΛz^T表示测试数据与训练数据集在有监督等度规映射空间内的距离，只有通过令两者的距离在原始空间和目标空间中强迫一致，才能得到测试数据的最佳映射；

如果是多个测试数据同时进行分类，与上式同理，则可得测试数据集X_T在目标流形上的最佳映射为Z_T：

公式Z_T中的z_i表示第i个测试数据x_i在低维空间中的映射，它与z^*公式中的z表示的同样的意思，只是增加一个表示序号的下标；

(5)降维分类后的数据。

2.根据权利要求1所述的基于有监督等度规映射的智能医学诊断分类方法，其特征在于步骤(1)训练数据集为高维有标签医学数据集，测试数据集为高维无标签医学数据集。

3.根据权利要求1所述的基于有监督等度规映射的智能医学诊断分类方法，其特征在于步骤(2-2)对测地线距离融入监督信息的策略为：类内数据点间的距离保持不变，采用类间数据点间的最大距离表示类间数据点的距离；融入监督策略可以描述如下：

4.根据权利要求1所述的基于有监督等度规映射的智能医学诊断分类方法，其特征在于步骤(3)构建分类决策面的具体方法为：采用线性支持向量机算法构建分类决策面对降维后的结果构建分类边界面。