CN107591206A - 一种基于svm的医学检测指标重要性评价方法 - Google Patents

一种基于svm的医学检测指标重要性评价方法 Download PDF

Info

Publication number
CN107591206A
CN107591206A CN201710731022.9A CN201710731022A CN107591206A CN 107591206 A CN107591206 A CN 107591206A CN 201710731022 A CN201710731022 A CN 201710731022A CN 107591206 A CN107591206 A CN 107591206A
Authority
CN
China
Prior art keywords
index
vector machine
support vector
importance
svm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710731022.9A
Other languages
English (en)
Inventor
张挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai University of Electric Power
Original Assignee
Shanghai University of Electric Power
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai University of Electric Power filed Critical Shanghai University of Electric Power
Priority to CN201710731022.9A priority Critical patent/CN107591206A/zh
Publication of CN107591206A publication Critical patent/CN107591206A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及一种基于SVM的医学检测指标重要性评价方法,包括以下步骤:S1,获取多个样本的各项医学检测指标数据;S2,将样本分为标准训练集和测试集;S3,保留所有指标,对标准训练集建立支持向量机模型;S4,使标准训练集仅缺失其中一个指标,建立支持对应的支持向量机模型,并用测试集检验该支持向量机模型的分类准确率及其与步骤S3得到的分类准确率相比的下降值;S5,更换缺失的指标,重复步骤S4,直到遍历每个指标,利用分类准确率下降值评价对应的指标重要性。与现有技术相比,本发明采用已知分类的样本进行支持向量机模型训练和验证,根据缺失指标的支持向量机分类准确率,可平行比较得到指标重要程度。

Description

一种基于SVM的医学检测指标重要性评价方法
技术领域
本发明涉及一种数据处理方法,尤其是涉及一种基于SVM的医学检测指标重要性评价方法。
背景技术
在临床医学中,多年的门诊积累了大量患者的检测数据,然而这些检测数据种类多,数据量大,如何筛选出相关性较大的检测指标用于诊断,一直是医务人员非常关心的问题。如果利用这些检测数据发现检测数据内部及数据之间隐藏的规律,则可以提高诊断效率。医学数据的挖掘和处理重在从已知医学数据本身出发,能够提炼数据中的知识,总结医学专家的经验,是近年来医学信息领域颇受关注的研究方向。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于SVM的医学检测指标重要性评价方法。
本发明的目的可以通过以下技术方案来实现:
一种基于SVM的医学检测指标重要性评价方法,包括以下步骤:
S1,获取多个样本的各项医学检测指标数据,所述的样本被分为至少两个类别;
S2,将样本分为两部分,一部分作为标准训练集,另一部分作为测试集;
S3,保留所有指标,对标准训练集建立支持向量机模型,支持向量机模型的输入为各项医学检测指标数据,输出为样本的类别,并用测试集检验该支持向量机模型的分类准确率;
S4,使标准训练集仅缺失其中一个指标,建立支持对应的支持向量机模型,并用测试集检验该支持向量机模型的分类准确率,计算该分类准确率与步骤S3得到的分类准确率相比的下降值;
S5,更换缺失的指标,重复步骤S4,直到遍历每个指标,利用分类准确率下降值评价对应的指标重要性,分类准确率下降值越大,则对应的指标重要性越大。
所述的支持向量机为二分类支持向量机。
所述的医学检测指标包括嗜酸性粒细胞占白细胞总数的百分比EOS%(percentage of EOSinophils)、第1秒用力呼气量FEV1(Forced Expiratory Volume in1second)在用力肺活量FVC(Forced Vital Capacity)中所占比例FEV1/FVC(FEV1/FVCratio)、最大用力呼气峰流量PEF(Peak Expiratory Flow)、呼出气体25%-75%肺容积平均流MMEF75/25(Maximal Mid-Expiratory Flow≥25%and≤75)和呼出气一氧化氮FENO(Fractional Exhaled Nitric Oxide)。
所述的样本被分为两类,为咳嗽患者和非咳嗽患者。
所述的步骤S2中,采用Gini系数作为样本的划分准则,Gini系数的计算公式为其中n为类别总数,i为当前类别,用于保证抽取的医学检测数据训练样本与总样本的分布趋势相似。
所述的步骤S2中,将样本的70%作为标准训练集。
与现有技术相比,本发明具有以下优点:
(1)采用已知分类的样本进行支持向量机模型训练和验证,采用先保留所有指标,然后分别删除某个指标的方法,验证缺失指标的支持向量机分类准确率,可平行比较得到指标重要程度,对未来的临床诊断具有帮助作用。
(2)支持向量机为二分类支持向量机,模型训练简单,复杂度低。
(3)采用Gini系数作为样本的划分准则,保证抽取的训练数据样本分布正确反映了总数据样本的分布趋势,增强支持向量机训练模型的可靠性。
附图说明
图1为本发明方法流程图;
图2为支持向量机二值分类原理图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,一种基于SVM的医学检测指标重要性评价方法,包括以下步骤:
S1,获取多个样本的各项医学检测指标数据,所述的样本被分为至少两个类别;
S2,将样本分为两部分,一部分作为标准训练集,另一部分作为测试集;
S3,保留所有指标,对标准训练集建立支持向量机模型,支持向量机模型的输入为各项医学检测指标数据,输出为样本的类别,并用测试集检验该支持向量机模型的分类准确率;
S4,使标准训练集仅缺失其中一个指标,建立支持对应的支持向量机模型,并用测试集检验该支持向量机模型的分类准确率,计算该分类准确率与步骤S3得到的分类准确率相比的下降值;
S5,更换缺失的指标,重复步骤S4,直到遍历每个指标,利用分类准确率下降值评价对应的指标重要性,分类准确率下降值越大,则对应的指标重要性越大。
本实施例将本发明方法应用于咳嗽检测指标重要性评价,实验的硬件环境为Intel Core i7-5600U CPU@2.60GHz,内容为12GB。软件环境为winodows7(64位)。编程环境为java。测试数据集为某医院真实收集的咳嗽检测样本,样本个数为60例(其中42例为患者样本,18例为普通人样本)。用于检测的指标属性为7个,分别包括EOS%、FEV1/FVC、PEF、MMEF75/25、FENO等。数据类别包括患者和非患者二类。样本实验所用部分数据如表1所示。
表1咳嗽检测指标数据样本
基于数据的机器学习是现代智能技术中的重要方面,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。其中,支持向量机方法是一种建立在统计学习理论基础之上,专门针对小样本情况下的机器学习方法。对于分类问题,支持向量机方法根据区域中的样本计算该区域的分类曲面,由该曲面决定该区域中的样本类别。下面以二元分类问题为例,说明支持向量机方法的原理。
已知样本x为m维向量,在某个区域内存在n个样本(x1,y1),(x2,y2),...(xn,yn),其中xi∈Rn,yi∈{±1},i=1,2,…,n。
若存在超平面
wTx+b=0
其中T表示向量的点积,能将这n个样本分为2类(如图2所示),那么存在最优超平面不仅能将2类样本准确分开,而且能使2类样本到超平面的距离最大。显然上式中的w和b乘以系数后仍能满足方程,那么进行归一化处理之后,对于所有样本xi,式|wTxi+b|的最小值为1,则样本与此最优超平面的最小距离为那么最优超平面应满足条件:
yi[wTxi+b]≥1,i=1,2,...,n
根据最优超平面的定义可知:w和b的优化条件是使二类样本到超平面最小距离之和2/||w||最大。
由于本实施例中的咳嗽患者分类是个典型的二分类问题(包括患者和非患者两类),因此这类二分类问题可以直接用支持向量机进行处理。
在实验过程中,通过保留所有咳嗽检测指标、依次删减检测指标的步骤实现针对不同咳嗽检测指标重要性的计算。该支持向量机方法先从原数据集中随机抽取70%数据的train数据集(有42个样本),建立对应的支持向量机模型。然后用余下的测试数据集检验模型的有效性。实验结果如表2所示。由表2可以看出,当对样本数据进行随机的支持向量机建模时,缺少PEF或缺少MMEF75/25样本属性对模型的分类准确性影响较小。而当在对训练数据进行建模时,如缺少FENO属性,则模型分类的准确性则大幅下降。
表2咳嗽检测指标数据样本
所有检测指标 无PEF 无MEF75/25 无FENO 无EOS%
分类准确率 93.2% 84.6% 89.3% 61.7% 73.8%
通过对已采集的咳嗽数据进行分析和建模,从数据中反映的诊断现象趋于一致性,也与医学专家的专家经验保持一致,因此具有一定的临床可用性。

Claims (6)

1.一种基于SVM的医学检测指标重要性评价方法,其特征在于,包括以下步骤:
S1,获取多个样本的各项医学检测指标数据,所述的样本被分为至少两个类别;
S2,将样本分为两部分,一部分作为标准训练集,另一部分作为测试集;
S3,保留所有指标,对标准训练集建立支持向量机模型,支持向量机模型的输入为各项医学检测指标数据,输出为样本的类别,并用测试集检验该支持向量机模型的分类准确率;
S4,使标准训练集仅缺失其中一个指标,建立支持对应的支持向量机模型,并用测试集检验该支持向量机模型的分类准确率,计算该分类准确率与步骤S3得到的分类准确率相比的下降值;
S5,更换缺失的指标,重复步骤S4,直到遍历每个指标,利用分类准确率下降值评价对应的指标重要性,分类准确率下降值越大,则对应的指标重要性越大。
2.根据权利要求1所述的一种基于SVM的医学检测指标重要性评价方法,其特征在于,所述的支持向量机为二分类支持向量机。
3.根据权利要求1所述的一种基于SVM的医学检测指标重要性评价方法,其特征在于,所述的医学检测指标包括嗜酸性粒细胞占白细胞总数的百分比EOS%、第1秒用力呼气量在用力肺活量中所占比例FEV1/FVC、最大用力呼气峰流量PEF、呼出气体25%-75%肺容积平均流MMEF75/25和呼出气一氧化氮FENO。
4.根据权利要求3所述的一种基于SVM的医学检测指标重要性评价方法,其特征在于,所述的样本被分为两类,为咳嗽患者和非咳嗽患者。
5.根据权利要求1所述的一种基于SVM的医学检测指标重要性评价方法,其特征在于,所述的步骤S2中,采用Gini系数作为样本的划分准则,Gini系数的计算式为其中n为类别总数,i为当前类别。
6.根据权利要求5所述的一种基于SVM的医学检测指标重要性评价方法,其特征在于,所述的步骤S2中,将样本的70%作为标准训练集。
CN201710731022.9A 2017-08-23 2017-08-23 一种基于svm的医学检测指标重要性评价方法 Pending CN107591206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710731022.9A CN107591206A (zh) 2017-08-23 2017-08-23 一种基于svm的医学检测指标重要性评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710731022.9A CN107591206A (zh) 2017-08-23 2017-08-23 一种基于svm的医学检测指标重要性评价方法

Publications (1)

Publication Number Publication Date
CN107591206A true CN107591206A (zh) 2018-01-16

Family

ID=61042567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710731022.9A Pending CN107591206A (zh) 2017-08-23 2017-08-23 一种基于svm的医学检测指标重要性评价方法

Country Status (1)

Country Link
CN (1) CN107591206A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109816235A (zh) * 2019-01-16 2019-05-28 国家电网有限公司 基于机器学习的稳定性指标构造方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102513650A (zh) * 2011-11-23 2012-06-27 华南理工大学 一种噪声、相关、时耗三因素耦合维归约方法
US20160253359A1 (en) * 2013-05-07 2016-09-01 Picscout (Israel) Ltd. Efficient image matching for large sets of images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102513650A (zh) * 2011-11-23 2012-06-27 华南理工大学 一种噪声、相关、时耗三因素耦合维归约方法
US20160253359A1 (en) * 2013-05-07 2016-09-01 Picscout (Israel) Ltd. Efficient image matching for large sets of images

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢娟英等: "基于特征子集区分度与支持向量机的特征选择算法", 《计算机学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109816235A (zh) * 2019-01-16 2019-05-28 国家电网有限公司 基于机器学习的稳定性指标构造方法及装置
CN109816235B (zh) * 2019-01-16 2021-05-04 国家电网有限公司 基于机器学习的稳定性指标构造方法及装置

Similar Documents

Publication Publication Date Title
Liu et al. Spectrum analysis of EEG signals using CNN to model patient’s consciousness level based on anesthesiologists’ experience
Kamaleswaran et al. Applying artificial intelligence to identify physiomarkers predicting severe sepsis in the PICU
CN112951413B (zh) 一种基于决策树和改进smote算法的哮喘病诊断系统
CN110770850B (zh) 在实体之间学习和应用背景相似性
CN106897570A (zh) 一种基于机器学习的慢性阻塞性肺疾病测试系统
CN111933281A (zh) 一种疾病分型的确定系统、方法、装置及存储介质
CN110364259B (zh) 一种高原疾病预测方法、系统、介质及电子设备
CN107610771A (zh) 一种基于决策树的医学检测指标筛选方法
CN109907751B (zh) 一种基于人工智能监督学习的实验室胸痛数据检查辅助识别方法
Sørensen et al. Chronic obstructive pulmonary disease quantification using CT texture analysis and densitometry: results from the Danish lung cancer screening trial
CN106056287A (zh) 基于上下文对数据集进行数据质量评估的设备及方法
Nhu et al. Deep learning for automated epileptiform discharge detection from scalp EEG: A systematic review
CN111261281A (zh) 一种模型训练方法、机械通气表型识别方法及呼吸机
CN118380160A (zh) 基于大数据的口腔癌病历数据分析方法
CN109919196B (zh) 一种基于特征选择和分类模型的体质识别方法
Bhattarai et al. Can big data and machine learning improve our understanding of acute respiratory distress syndrome?
El-Badawy et al. Automatic classification of regular and irregular capnogram segments using time-and frequency-domain features: A machine learning-based approach
CN103632162B (zh) 一种疾病相关的心电图特征选择方法
CN114190949B (zh) 生理状态评估方法与生理状态评估装置
CN107591206A (zh) 一种基于svm的医学检测指标重要性评价方法
CN106909790A (zh) 量表生成方法及装置
Davies et al. A transition probability based classification model for enhanced N1 sleep stage identification during automatic sleep stage scoring
CN118070127A (zh) 基于高阶功能网络的双相情感障碍特征提取及分类方法
CN111863135A (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN107767934B (zh) 一种用于描述压力的hrv特征范围估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180116