CN107591206A

CN107591206A - 一种基于svm的医学检测指标重要性评价方法

Info

Publication number: CN107591206A
Application number: CN201710731022.9A
Authority: CN
Inventors: 张挺
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power
Priority date: 2017-08-23
Filing date: 2017-08-23
Publication date: 2018-01-16

Abstract

本发明涉及一种基于SVM的医学检测指标重要性评价方法，包括以下步骤：S1，获取多个样本的各项医学检测指标数据；S2，将样本分为标准训练集和测试集；S3，保留所有指标，对标准训练集建立支持向量机模型；S4，使标准训练集仅缺失其中一个指标，建立支持对应的支持向量机模型，并用测试集检验该支持向量机模型的分类准确率及其与步骤S3得到的分类准确率相比的下降值；S5，更换缺失的指标，重复步骤S4，直到遍历每个指标，利用分类准确率下降值评价对应的指标重要性。与现有技术相比，本发明采用已知分类的样本进行支持向量机模型训练和验证，根据缺失指标的支持向量机分类准确率，可平行比较得到指标重要程度。

Description

一种基于SVM的医学检测指标重要性评价方法

技术领域

本发明涉及一种数据处理方法，尤其是涉及一种基于SVM的医学检测指标重要性评价方法。

背景技术

在临床医学中，多年的门诊积累了大量患者的检测数据，然而这些检测数据种类多，数据量大，如何筛选出相关性较大的检测指标用于诊断，一直是医务人员非常关心的问题。如果利用这些检测数据发现检测数据内部及数据之间隐藏的规律，则可以提高诊断效率。医学数据的挖掘和处理重在从已知医学数据本身出发，能够提炼数据中的知识，总结医学专家的经验，是近年来医学信息领域颇受关注的研究方向。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于SVM的医学检测指标重要性评价方法。

本发明的目的可以通过以下技术方案来实现：

一种基于SVM的医学检测指标重要性评价方法，包括以下步骤：

S1，获取多个样本的各项医学检测指标数据，所述的样本被分为至少两个类别；

S2，将样本分为两部分，一部分作为标准训练集，另一部分作为测试集；

S3，保留所有指标，对标准训练集建立支持向量机模型，支持向量机模型的输入为各项医学检测指标数据，输出为样本的类别，并用测试集检验该支持向量机模型的分类准确率；

S4，使标准训练集仅缺失其中一个指标，建立支持对应的支持向量机模型，并用测试集检验该支持向量机模型的分类准确率，计算该分类准确率与步骤S3得到的分类准确率相比的下降值；

S5，更换缺失的指标，重复步骤S4，直到遍历每个指标，利用分类准确率下降值评价对应的指标重要性，分类准确率下降值越大，则对应的指标重要性越大。

所述的支持向量机为二分类支持向量机。

所述的医学检测指标包括嗜酸性粒细胞占白细胞总数的百分比EOS％(percentage of EOSinophils)、第1秒用力呼气量FEV1(Forced Expiratory Volume in1second)在用力肺活量FVC(Forced Vital Capacity)中所占比例FEV1/FVC(FEV1/FVCratio)、最大用力呼气峰流量PEF(Peak Expiratory Flow)、呼出气体25％-75％肺容积平均流MMEF75/25(Maximal Mid-Expiratory Flow≥25％and≤75)和呼出气一氧化氮FENO(Fractional Exhaled Nitric Oxide)。

所述的样本被分为两类，为咳嗽患者和非咳嗽患者。

所述的步骤S2中，采用Gini系数作为样本的划分准则，Gini系数的计算公式为其中n为类别总数，i为当前类别，用于保证抽取的医学检测数据训练样本与总样本的分布趋势相似。

所述的步骤S2中，将样本的70％作为标准训练集。

与现有技术相比，本发明具有以下优点：

(1)采用已知分类的样本进行支持向量机模型训练和验证，采用先保留所有指标，然后分别删除某个指标的方法，验证缺失指标的支持向量机分类准确率，可平行比较得到指标重要程度，对未来的临床诊断具有帮助作用。

(2)支持向量机为二分类支持向量机，模型训练简单，复杂度低。

(3)采用Gini系数作为样本的划分准则，保证抽取的训练数据样本分布正确反映了总数据样本的分布趋势，增强支持向量机训练模型的可靠性。

附图说明

图1为本发明方法流程图；

图2为支持向量机二值分类原理图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

如图1所示，一种基于SVM的医学检测指标重要性评价方法，包括以下步骤：

本实施例将本发明方法应用于咳嗽检测指标重要性评价，实验的硬件环境为Intel Core i7-5600U CPU@2.60GHz，内容为12GB。软件环境为winodows7(64位)。编程环境为java。测试数据集为某医院真实收集的咳嗽检测样本，样本个数为60例(其中42例为患者样本，18例为普通人样本)。用于检测的指标属性为7个，分别包括EOS％、FEV1/FVC、PEF、MMEF75/25、FENO等。数据类别包括患者和非患者二类。样本实验所用部分数据如表1所示。

表1咳嗽检测指标数据样本

基于数据的机器学习是现代智能技术中的重要方面，研究从观测数据(样本)出发寻找规律，利用这些规律对未来数据或无法观测的数据进行预测。其中，支持向量机方法是一种建立在统计学习理论基础之上，专门针对小样本情况下的机器学习方法。对于分类问题，支持向量机方法根据区域中的样本计算该区域的分类曲面，由该曲面决定该区域中的样本类别。下面以二元分类问题为例，说明支持向量机方法的原理。

已知样本x为m维向量，在某个区域内存在n个样本(x₁,y₁),(x₂,y₂),...(x_n,y_n)，其中x_i∈Rⁿ，y_i∈{±1},i＝1,2,…,n。

若存在超平面

w^Tx+b＝0

其中T表示向量的点积，能将这n个样本分为2类(如图2所示)，那么存在最优超平面不仅能将2类样本准确分开，而且能使2类样本到超平面的距离最大。显然上式中的w和b乘以系数后仍能满足方程，那么进行归一化处理之后，对于所有样本x_i，式|w^Tx_i+b|的最小值为1，则样本与此最优超平面的最小距离为那么最优超平面应满足条件：

yi[w^Tx_i+b]≥1,i＝1,2,...,n

根据最优超平面的定义可知：w和b的优化条件是使二类样本到超平面最小距离之和2/||w||最大。

由于本实施例中的咳嗽患者分类是个典型的二分类问题(包括患者和非患者两类)，因此这类二分类问题可以直接用支持向量机进行处理。

在实验过程中，通过保留所有咳嗽检测指标、依次删减检测指标的步骤实现针对不同咳嗽检测指标重要性的计算。该支持向量机方法先从原数据集中随机抽取70％数据的train数据集(有42个样本)，建立对应的支持向量机模型。然后用余下的测试数据集检验模型的有效性。实验结果如表2所示。由表2可以看出，当对样本数据进行随机的支持向量机建模时，缺少PEF或缺少MMEF75/25样本属性对模型的分类准确性影响较小。而当在对训练数据进行建模时，如缺少FENO属性，则模型分类的准确性则大幅下降。

表2咳嗽检测指标数据样本

	所有检测指标	无PEF	无MEF75/25	无FENO	无EOS％
						分类准确率	93.2％	84.6％	89.3％	61.7％	73.8％

通过对已采集的咳嗽数据进行分析和建模，从数据中反映的诊断现象趋于一致性，也与医学专家的专家经验保持一致，因此具有一定的临床可用性。

Claims

1.一种基于SVM的医学检测指标重要性评价方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于SVM的医学检测指标重要性评价方法，其特征在于，所述的支持向量机为二分类支持向量机。

3.根据权利要求1所述的一种基于SVM的医学检测指标重要性评价方法，其特征在于，所述的医学检测指标包括嗜酸性粒细胞占白细胞总数的百分比EOS％、第1秒用力呼气量在用力肺活量中所占比例FEV1/FVC、最大用力呼气峰流量PEF、呼出气体25％-75％肺容积平均流MMEF75/25和呼出气一氧化氮FENO。

4.根据权利要求3所述的一种基于SVM的医学检测指标重要性评价方法，其特征在于，所述的样本被分为两类，为咳嗽患者和非咳嗽患者。

5.根据权利要求1所述的一种基于SVM的医学检测指标重要性评价方法，其特征在于，所述的步骤S2中，采用Gini系数作为样本的划分准则，Gini系数的计算式为其中n为类别总数，i为当前类别。

6.根据权利要求5所述的一种基于SVM的医学检测指标重要性评价方法，其特征在于，所述的步骤S2中，将样本的70％作为标准训练集。