CN108597601A - 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法 - Google Patents

基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法 Download PDF

Info

Publication number
CN108597601A
CN108597601A CN201810360519.9A CN201810360519A CN108597601A CN 108597601 A CN108597601 A CN 108597601A CN 201810360519 A CN201810360519 A CN 201810360519A CN 108597601 A CN108597601 A CN 108597601A
Authority
CN
China
Prior art keywords
feature
module
sample
vector machine
machine model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810360519.9A
Other languages
English (en)
Other versions
CN108597601B (zh
Inventor
王红
房有丽
狄瑞彤
周莹
王露潼
刘海燕
王倩
宋永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201810360519.9A priority Critical patent/CN108597601B/zh
Publication of CN108597601A publication Critical patent/CN108597601A/zh
Application granted granted Critical
Publication of CN108597601B publication Critical patent/CN108597601B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法,该系统包括多特征输入器和处理器,处理器具有多维特征选择模块、支持向量机构建模块和支持向量机模型测试模块;多维特征选择模块建立第一样本,通过基于粗糙集的最大依赖度算法对第一样本进行特征降维,得到若干个主特征子集,建立以若干个主特征子集构成的样本集合作为第二样本;支持向量机构建模块构建支持向量机模型;支持向量机模型测试模块将所述第二样本随机分为训练集和预测集,生成训练器,根据支持向量机模型预测通过降维得到的第二样本是否表现为慢性阻塞性肺疾病。本发明基于支持向量机模型,使得慢性阻塞性肺疾病与病患的各项生理指标建立联系,测试准确度高。

Description

基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法
技术领域
本发明涉及医疗数据挖掘领域,具体为利用支持向量机的方法,构建基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法。
背景技术
慢性阻塞性肺疾病(COPD)是一种可导致患者呼吸功能逐渐下降的疾病,其已成为全球第四大致死疾病,全球目前约有超过1.7亿COPD患者,而肺功能病理特征及生理指标对诊断COPD具有重要意义。COPD的病情发展是渐进性的过程:早期,COPD症状并不明显,主要是咳嗽、咳痰,患者不易察觉,是最佳治疗时机;中期,随着病情的加重,患者可能出现活动后呼吸困难,气道阻塞加重、肺组织弹性损坏,达到不可逆转阶段,各种药物都难以发挥作用;晚期,可出现肺心病、呼吸衰竭等并发症,治疗若不及时,会严重影响患者的生活质量和身心健康。所以COPD的早期发现非常重要,如果不预防不管理,随着疾病的进一步发展,特别是发生急性加重就会给患者带来更大的危害。
目前,基于数据挖掘和机器学习相关理论,探索基于肺功能病理症状及生理指标对COPD多维特征提取系统尚未出现。
发明内容
为了克服上述现有技术的不足,本发明提供了基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法,基于支持向量机模型,使得慢性阻塞性肺疾病与病患的各项生理指标建立联系,测试准确度高。
本发明所采用的技术方案是:
一种基于支持向量机的慢性阻塞性肺疾病诊断辅助系统,该系统包括:多特征输入器,用于获取被测者肺部机能检测项目及其测量值;处理器,与多特征输入器相连,具有数据预处理模块、多维特征选择模块、支持向量机构建模块和支持向量机模型测试模块;
所述数据预处理模块,用于对被测者肺部机能检测测量值的噪声数据、缺失数据进行清洗,对部分特征属性进行数据转换和归一化处理;
所述多维特征选择模块,用于建立与被测者肺部机能检测项目测量值相对应的原始多维特征项作为第一样本,通过基于粗糙集的最大依赖度算法对所述第一样本进行特征降维,得到基于被测者肺部机能检测项目测量值的若干个主特征子集,建立以若干个主特征子集构成的样本集合作为第二样本;
所述支持向量机构建模块,用于采用双向耦合概率估计方法,构建支持向量机模型;
所述支持向量机模型测试模块,用于将所述第二样本随机分为训练集和预测集,训练集用于生成训练器,在训练器的基础上,利用预测集对支持向量机模型进行测试。
进一步的,所述处理器还包括支持向量机优化模块,用于采用直接模拟退火算法对支持向量机模型参数组合进行优化,通过交叉验证方法选取最优参数组合的支持向量机模型。
进一步的,所述支持向量参数优化模块是在支持向量机模型局部参数周围建立一个虚拟窗口,并设置参数阈值直到参数为所接受范围趋于稳定。
进一步的,所述数据预处理模块包括数据筛选模块、数据填充模块和数据转换模块;
所述数据筛选模块,用于对所述被测者肺部机能检测项目测量值进行筛选,剔除被测者肺部机能非重要测试项目中的测量缺失值及噪音值;
所述数据填充模块,用于对所述被测者肺部机能重要检测项目中的测量缺失值进行填充;
所述数据转换模块,用于对经筛选和填充后的被测者肺部机能检测项目测量值进行格式转换。
进一步的,所述数据归一化模块,用于采用被测者肺部机能检测项目测量值的最大值和最小值对格式转换后的被测者肺部机能检测项目测量值进行归一化处理。
进一步的,所述多维特征选择模块包括粗糙集模块和特征依赖度模块;
所述粗糙集模块,用于构建相似特征的知识系统,对被测者肺部机能检测项目测量值的多维特征进行等价类归约;
所述特征依赖度模块,结合通过特征依赖度将归约后的被测者肺部机能检测项目测量值的等价类特征中对分类不重要的特征剔除。
进一步的,所述多维特征选择模块还包括多维特征最大依赖度模块,其针对每个特征利用不可辨识关系计算等价类,利用依赖度计算公式计算每个特征的特征依赖度;选取每个特征的最大依赖度,根据特征属性的依赖度选出依赖度最大的属性作为分类特征属性,获得最终分类的主特征子集。
一种基于支持向量机的慢性阻塞性肺疾病诊断辅助方法,包括以下步骤:
获取被测者肺部机能检测项目及其测量值,对被测者肺部机能检测测量值的噪声数据、缺失数据进行清洗,对部分特征属性进行数据转换和归一化处理;
建立与被测者肺部机能检测项目测量值相对应的原始多维特征项作为第一样本,通过基于粗糙集的最大依赖度算法对所述第一样本进行特征降维,得到基于被测者肺部机能检测项目测量值的若干个主特征子集,建立以若干个主特征子集构成的样本集合作为第二样本;
采用双向耦合概率估计方法,构建支持向量机模型,并对支持向量机模型进行优化,将所述第二样本随机分为训练集和预测集,训练集用于生成训练器,在训练器的基础上,利用预测集对支持向量机模型进行测试。
进一步的,所述对支持向量机模型进行优化包括:
采用直接模拟退火算法对支持向量机模型参数组合进行优化,通过交叉验证方法选取最优参数组合的支持向量机模型,其中,所述交叉验证方法包括:
随机将样本集划分成多个不相交的子集,对于每个支持向量机模型,将多个不相交的子集作为训练集,建立训练模型,计算每个支持向量机模型的平均泛化误差,选择平均泛化误差最小的支持向量机模型。
进一步的,所述通过基于粗糙集的最大依赖度算法对所述第一样本进行特征降维的方法包括:
构建相似特征的知识系统,对被测者肺部机能检测项目测量值的多维特征进行等价类归约;
通过特征依赖度将归约后的被测者肺部机能检测项目测量值的等价类特征中对分类不重要的特征剔除;
针对每个特征利用不可辨识关系计算等价类,并利用依赖度计算公式计算每个特征的特征依赖度;选取每个特征的最大依赖度,根据特征属性的依赖度选出依赖度最大的属性作为分类特征属性,获得最终分类的主特征子集。
与现有技术相比,本发明的有益效果是:
本发明提出的基于支持向量机的慢性阻塞性肺疾病诊断辅助系统机方法针对单一特征进行数据分析预测慢性阻塞性肺疾病的特点,提出了多特征诊断方法;其次,提出了一种最大依赖度算法实现对原始的多维特征提取及降维,通过MDF-RS提取特征子集的作为主特征,提高了利用经验学习进行特征提取的弊端,使可以对特征子集进行交叉验证获取最优的特征组;最后,针对支持向量机机器学习在参数优化方面的局限性,结合分类器的结构风险最小化和现有的调参方法,并利用双向耦合概率估计的学习方法,提出基直接模拟退火的支持向量机算法,实现了基于多维特征的疾病诊断识别,可以在不破坏原始数据结构的前提下,充分挖掘患者电子病例的原有信息,提高模式分类精度,可以极大地降低治疗成本,并有效地保证了疾病诊断的实时性。本发明可用于慢性阻塞性肺疾病前期的预测及后期的风险评估、慢性阻塞性肺疾病与抑郁症的关联、呼吸器官发育异常与肺部机能相关联的疾病分析和预测方面,同时本发明也可以用于正常人的肺部相关疾病的预防和健康护理方面。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明基于支持向量机的慢性阻塞性肺疾病诊断辅助系统结构图;
图2为本发明特征选择图;
图3为本发明特征重要度排序图;
图4为本发明似然比检验图;
图5为本发明参数优化C图;
图6为本发明参数优化γ图;
图7为本发明DSA-SVM分类模型图;
图8为本发明参数C与γ准确率对比图;
图9为本发明特征子集准确率对比图;
图10为本发明多种机器学习算法准确率对比图;
图11为本发明公共数据集准确率对比图;
图12为本发明公共数据集F1值对比图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
本申请的一种典型的实施方式中,如图1所示,提供了一种基于支持向量机的慢性阻塞性肺疾病诊断辅助系统,该系统包括多特征输入器,用于获取被测者肺部机能检测项目及其测量值;处理器,与多特征输入器相连,具有数据预处理模块、多维特征选择模块、支持向量机构建模块、支持向量机参数优化模块和支持向量机模型测试模块;输出模块,与处理器连接,用于输出处理器结构。
所述数据预处理模块,用于对被测者肺部机能检测项目测量值的处理。主要是对噪声数据、缺失数据进行清洗,部分特征属性进行数据转换,使对原始的数据集有更好的利用价值。
具体地,所述数据预处理模块包括数据筛选模块、数据填充模块、数据转换模块和数据归一化模块;
所述数据筛选模块,用于对所述被测者肺部机能检测项目及其测量值进行筛选,剔除被测者肺部机能非重要测试项目中的测量缺失值及噪音值,以获取更干净的数据集作为处理器的输入;
所述数据填充模块,用于对所述被测者肺部机能重要检测项目中的测量缺失值进行填充,减小数据集的稀疏性;
所述数据转换模块,用于对经筛选和填充后的被测者肺部机能检测项目测量值进行格式转换,得到转换后的数据能更好的利用处理器进行分类。
所述数据归一化模块,用于采用被测者肺部机能检测项目测量值的最大值和最小值对格式转换后的被测者肺部机能检测项目测量值进行归一化处理,提高计算精度;
数据归一化的公式如(1),Xmron为归一化后的被测者肺部机能检测项目测量值,X为格式转换后的被测者肺部机能检测项目测量值,Xmax,Xmin分别为被测者肺部机能检测项目测量值的最大值和最小值。
所述多维特征选择模块,建立与被测者肺部机能检测项目测量值相对应的原始多维特征项作为第一样本,通过基于粗糙集的最大依赖度算法(MDF-RS)对所述第一样本进行特征降维,得到基于被测者肺部机能检测项目测量值的若干个主特征子集,建立以降维后的若干个主特征子集构成的样本集合作为第二样本。
具体地,所述多维特征选择模块包括粗糙集模块、特征依赖度模块和多维特征选择模块;
所述粗糙集模块,用于构建相似特征的知识系统,对被测者肺部机能检测项目测量值进行多维特征等价类归约;
所述特征依赖度模块,用于将获取归约后的等价类特征通过特征依赖度去除对分类不重要的特征;
所述多维特征选择模块还包括多维特征最大依赖度模块,其通过特征最大依赖度算法选出依赖度最大的特征作为分类的特征属性。
该多维特征选择模块进行多维特征选择的具体步骤如下:
(1)粗糙集模块,构建相似特征的知识系统,用于对被测者肺部机能检测项目测量值的多维特征等价类归约;
第一步,令S=(U,A,V,f)是一个知识系统,B是A的任意子集,对于x,y∈U,当且对每一个特征a∈B,f(x,a)=f(y,a)则称x,y关于B是不可辨识关系,记为IND(B)。很显然,A的每一个子集可以导出一个唯一的不可辨识关系,又称等价关系,而等价关系可以导出一个唯一的聚类,由IND(B)导出的U的聚类记为U/B,聚类U/B中包含x∈U的等价类,记为[x]B
第二步,在知识系统S=(U,A,V,f)中,B是A的任意子集,X是U的任意子集,把X的B下近似记为B(X),X的B上近似记为可以看出可以用X的补集(-X)的下近似表示如公式(2),U的任意子集X关于B的近似精确度表示如公式(3)。
这里|X|是集合X的基数,即集合X的元素个数。对于空集定义αB(φ)=1,很明显0≤αB(X)≤1。如果X是U的某些等价类的并集,那么αB(X)=1,这时说集合X关于B是精确的。相反,如果X不是U的某些等价类的并集时,αB(X)<1,这时说集合X关于B不是精确的。这就意味着近似精确度αB(X)越高,子集就越精确。
(2)特征依赖度模块,将获取归约后的被测者肺部机能检测项目测量值的等价类特征通过特征依赖度去除对分类不重要的特征;
在知识系统在知识系统S=(U,A,V,f)中,集合D和C是特征集合A的任意子集,如果D中的每一个值都可以精确到与C的一个值关联,则称D对C是函数依赖的,记为如公式(4),令k为依赖度,D以k度依赖于C,记为如果k=1,则D完全依赖于C;k<1,则D部分依赖于C;
k=∑X∈U/D|C(X)|/|U| (4)
系数k描述了通过特征C能够将U中的元素正确分类到划分U/D的块中的比率。因此,当k=1,U的全部或部分元素能够被划分到U/D的等价类中。k=0时,U中没有元素能通过特征C划分到U/D的等价类中。也就是说特征间的依赖度越大对划分的决策影响越大。
(3)多维特征最大依赖度模块,获取最终分类的特征子集;
由于特征依赖度越大,特征越重要,对划分决策的影响就越大,因此,特征最大的依赖度算法的目标就是选出依赖度最大的特征作为分类的特征属性。具体算法步骤如下:
第一步:对每个特征利用不可辨识关系计算等价类;
第二步:用公式(4)计算特征ai(i≠j)的特征依赖度;
第三步:选择每个特征的最大依赖度;
第四步:根据特征属性的依赖度选取依赖度最大的属性作为分类特征属性。
所述支持向量机构建模块,采用双向耦合概率估计方法,构建支持向量机分类器;
该支持向量机构建模块是通过一个非线性映射,把样本映射到一个高维乃至无穷维的特征空间中,使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。
所述支持向量机优化模块,以内核参数度量,采用直接模拟退火算法(DSA)计算目标函数的全局最小值,通过交叉验证方法选取参数(C,γ)最优参数组合,得到最优参数组合的支持向量机模型,进一步提高支持向量机模型的分类准确精度。
其中,参数优化具体步骤如下:
第一步:初始化DSA的参数,然后随机初始化SVM的参数(C,γ);
第二步:选择参数邻居,并尝试用DSA搜索来调整这个邻居,通过交叉验证技术来比较这些不同的参数(C,γ)为了不断优化参数(C,γ);
第三步:为了进一步调整内核函数参数,在最佳局部(C,γ)周围构建一个虚拟窗口,直到该参数为我们所接受范围内,当调整C和γ的参数值使得准确率等指标不断提高并趋于稳定时停止调参;
第四步:使用最优的(C,γ)参数DSA-SVM建立模型并测试数据集。其中,参数(C,γ)的间隔区间设置为(2-5,2-15),(2-15,2-5),对于所有可能参数组合(C,γ)用交叉验证计算。
所述支持向量机模型测试模块,将所述第二样本随机分为训练集和预测集,训练集用于生成训练器,在训练器的基础上,利用预测集对支持向量机模型进行测试。
实施例二
本实施例采用的数据总共有1200例病人的肺功能检测报告,每个病人需要检测的肺部生理指标有26项,如表1所示。数据集含有1200个样本,属于两个不同类别,共有750名COPD患者(62.5%)和450名(37.5%)不是COPD患者但与COPD患者有相似症状。
表1肺功能检测数据
本实施例的目的是提供一种基于支持向量机的慢性阻塞性肺疾病诊断辅助方法,该方法的步骤包括:
(1)将获取的1200个样本数据进行数据处理
第一步:对原始数据进行筛选,数据中的测试号、住院号、姓名、种族、科别与本发明无关,是非需求数据,因此将其直接删除掉;
第二步:进行填充数据,对筛选出的重要生理指标的缺失值进行填充;
第三步:数据格式转换,对mMRC等特征属性值转换成数字等级;
第四步:数据归一化,对原始的FEV1/FVC值归一化到0~1范围内,进一步提高计算精度。
(2)MDF-RS算法进行COPD多维特征提取
具体提取过程如下:
第一步:特征聚类。聚类的目的是将功能相近的特征聚在一起。为了提取低冗余度的特征,利用K-均值聚类算法对选择的生理指标信息进行聚类分析。
第二步:主特征选取。特征聚类后,每组类别中包含的特征功能是相似的,因此选取一个主要特征来表示这个类别并汇合这些主要特征构成的特征组。COPD特征选择方法描述如算法1所示。
从图2可以看出,特征组合是由9到19维数的特征子集组成,通过MDF-RS算获得了14个的子特征组合(R1-R14)。特征权重归一化后,特征按权重排序如图3所示。提取的最优特征子集组合将作为DSA-SVM模型的输入。
为了进一步通过MDF-RS提取的特征子集是最优组合,本发明对特征子集进行交叉验证,从图4结果可以看出在19个检验统计量都大于说明有统计意义,这与通过MDF-RS算法特征选择出的特征组合R13一致。因此,得出其中一个变量在其他18个变量不变的情况下影响显著。
(3)构造基于直接模拟退火算法的支持向量机模型DSA-SVM
为了对提取的最优特征子集组合将作为支持向量机算法(SVM)模型的输入,通过SVM对数据集进行分类提高模型的准确率,本发明使用直接搜索模拟退火算法(如算法2所示)对SVM参数C和γ组合进行优化,本发明在局部参数建立一个虚拟窗口,并设置参数范围阈值直到参数为所接受范围趋于稳定,最后用交叉验证方法得出参数C和γ最优组合。图5,图6分别是通过DSA算法通过交叉验证得到的C和γ的参数值。
其中交叉验证具体步骤如下所示:
第一步:随机将样本集S划分成k个不相交的子集,每个子集中样本数量为m/k个,这些子集分别记作S1,S2...Sk
第二步:对于每个模型,进行如下操作:for j=1to k,S1...∪Sj-1...∪Sj+1...∪Sk作为训练集,训练模型
第三步:计算每个模型的平均泛化误差,根据公式(5),选择泛化误差最小的模型Ci。K折交叉验证方法,每次留作验证的为总样本量的1/k.
通过交叉验证得到的每组(c,v)组合,公式如(6)。
本发明在得到输出(C,γ)的最优值,然后构建支持向量机分类器如图7所示。在获得最好的数据对(C,γ)之后,我们构建双向耦合(PWC)概率估计的学习分类器。PWC构造了rij=k(k-1)/2,1≤i≤k,1≤j≤≤i的分类器,而这个分类决策是由聚合分类器的输出做出的。
其中,二元分类器用于估计成对类的概率rij对μij的估计可以通过训练训练集的第i个和第j个类得到。然后,使用所有的rij来达到目标,即估计p*i=(Y0==i)χ0,i=1……K。因此,在测试阶段,每个支持向量机分类器都可以估计分类结果的概率,如公式(7)所示。
dij={(xn,yn)|yn=i or yn=j,1≤n≤N} (7)
(4)对支持向量机模进行优化和测试
本发明通过DSA算法得到C和γ的值和与之对应的分类准确率如图8所示,当C和γ参数为(14.5,0.352)时,准确率最高,根据得出的最优参数组合,得到了在不同特征子集的准确率如图9所示,由图9可知在R13特征子集时准确率达到最高,而且灵敏度与特异性也较为理想,因此,本发明通过粗糙集与特征最大依赖度得出的主特征是有意义的。
本发明提出的基于支持向量机的慢性阻塞性肺疾病测试系统与先前的机器学习模型比较来进行比较,本发明的基于支持向量机的慢性阻塞性肺疾病测试系统在准确率、召回率、F1值三个指标都取得了良好的效果,比较结果如图10所示。
实施例三
为了验证模型的稳健性和可靠性,我们使用公共数据集进行验证。该数据集有1020名实验者,其中COPD患者有600人,非COPD患者420人。其中获取的每个病人需要检测的肺部生理指标35项。本实施例的目的是提供一种基于支持向量机的慢性阻塞性肺疾病诊断辅助方法,该方法包括:
(1)对原始的1020名实验数据进行预处理;首先,将分类属性转换为数字数据项,我们用数值来表示每个分类值,例如,吸烟用1表示,不吸烟用0表示;其次,对原始的缺失数据如咳嗽、mMRC分别有20、36个缺失值通过实验者近期临近值填充;
(2)对预处理好的数据集进行高维特征选择,把原始的35项特征用最大依赖度算法进行降维,得到了最优的23项特征子集;
(3)基于直接模拟退火算法进行参数调优构建支持向量机分类器,将选取好的最优特征子集输入到支持向量机分类器中进行测试。如如图11和图12所示,结果表明有965名实验者预测正确,相比其他方法准确度达到94.8%,结果不低于模型可测试范围,检验可知支持向量机模型具有一定的可靠性和稳健性,比较令人满意。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于支持向量机的慢性阻塞性肺疾病诊断辅助系统,其特征是,包括:多特征输入器,用于获取被测者肺部机能检测项目及其测量值;处理器,与多特征输入器相连,具有数据预处理模块、多维特征选择模块、支持向量机构建模块和支持向量机模型测试模块;
所述数据预处理模块,用于对被测者肺部机能检测测量值的噪声数据、缺失数据进行清洗,对部分特征属性进行数据转换和归一化处理;
所述多维特征选择模块,用于建立与被测者肺部机能检测项目测量值相对应的原始多维特征项作为第一样本,通过基于粗糙集的最大依赖度算法对所述第一样本进行特征降维,得到基于被测者肺部机能检测项目测量值的若干个主特征子集,建立以若干个主特征子集构成的样本集合作为第二样本;
所述支持向量机构建模块,用于采用双向耦合概率估计方法,构建支持向量机模型;
所述支持向量机模型测试模块,用于将所述第二样本随机分为训练集和预测集,训练集用于生成训练器,在训练器的基础上,利用预测集对支持向量机模型进行测试。
2.根据权利要求1所述的基于支持向量机的慢性阻塞性肺疾病诊断辅助系统,其特征是,所述处理器还包括支持向量机优化模块,用于采用直接模拟退火算法对支持向量机模型参数组合进行优化,通过交叉验证方法选取最优参数组合的支持向量机模型。
3.根据权利要求2所述的基于支持向量机的慢性阻塞性肺疾病诊断辅助系统,其特征是,所述支持向量参数优化模块是在支持向量机模型局部参数周围建立一个虚拟窗口,并设置参数阈值直到参数为所接受范围趋于稳定。
4.根据权利要求1所述的基于支持向量机的慢性阻塞性肺疾病诊断辅助系统,其特征是,所述数据预处理模块包括数据筛选模块、数据填充模块和数据转换模块;
所述数据筛选模块,用于对所述被测者肺部机能检测项目测量值进行筛选,剔除被测者肺部机能非重要测试项目中的测量缺失值及噪音值;
所述数据填充模块,用于对所述被测者肺部机能重要检测项目中的测量缺失值进行填充;
所述数据转换模块,用于对经筛选和填充后的被测者肺部机能检测项目测量值进行格式转换。
5.根据权利要求4所述的基于支持向量机的慢性阻塞性肺疾病诊断辅助系统,其特征是,
所述数据归一化模块,用于采用被测者肺部机能检测项目测量值的最大值和最小值对格式转换后的被测者肺部机能检测项目测量值进行归一化处理。
6.根据权利要求1所述的基于支持向量机的慢性阻塞性肺疾病诊断辅助系统,其特征是,所述多维特征选择模块包括粗糙集模块和特征依赖度模块;
所述粗糙集模块,用于构建相似特征的知识系统,对被测者肺部机能检测项目测量值的多维特征进行等价类归约;
所述特征依赖度模块,结合通过特征依赖度将归约后的被测者肺部机能检测项目测量值的等价类特征中对分类不重要的特征剔除。
7.根据权利要求6所述的基于支持向量机的慢性阻塞性肺疾病诊断辅助系统,其特征是,所述多维特征选择模块还包括多维特征最大依赖度模块,其针对每个特征利用不可辨识关系计算等价类,利用依赖度计算公式计算每个特征的特征依赖度;选取每个特征的最大依赖度,根据特征属性的依赖度选出依赖度最大的属性作为分类特征属性,获得最终分类的主特征子集。
8.一种基于支持向量机的慢性阻塞性肺疾病诊断辅助方法,其特征是,包括以下步骤:
获取被测者肺部机能检测项目及其测量值,对被测者肺部机能检测测量值的噪声数据、缺失数据进行清洗,对部分特征属性进行数据转换和归一化处理;
建立与被测者肺部机能检测项目测量值相对应的原始多维特征项作为第一样本,通过基于粗糙集的最大依赖度算法对所述第一样本进行特征降维,得到基于被测者肺部机能检测项目测量值的若干个主特征子集,建立以若干个主特征子集构成的样本集合作为第二样本;
采用双向耦合概率估计方法,构建支持向量机模型,并对支持向量机模型进行优化,将所述第二样本随机分为训练集和预测集,训练集用于生成训练器,在训练器的基础上,利用预测集对支持向量机模型进行测试。
9.根据权利要求8所述的基于支持向量机的慢性阻塞性肺疾病诊断辅助方法,其特征是,所述对支持向量机模型进行优化包括:
采用直接模拟退火算法对支持向量机模型参数组合进行优化,通过交叉验证方法选取最优参数组合的支持向量机模型,其中,所述交叉验证方法包括:
随机将样本集划分成多个不相交的子集,对于每个支持向量机模型,将多个不相交的子集作为训练集,建立训练模型,计算每个支持向量机模型的平均泛化误差,选择平均泛化误差最小的支持向量机模型。
10.根据权利要求8所述的基于支持向量机的慢性阻塞性肺疾病诊断辅助方法,其特征是,所述通过基于粗糙集的最大依赖度算法对所述第一样本进行特征降维的方法包括:
构建相似特征的知识系统,对被测者肺部机能检测项目测量值的多维特征进行等价类归约;
通过特征依赖度将归约后的被测者肺部机能检测项目测量值的等价类特征中对分类不重要的特征剔除;
针对每个特征利用不可辨识关系计算等价类,并利用依赖度计算公式计算每个特征的特征依赖度;选取每个特征的最大依赖度,根据特征属性的依赖度选出依赖度最大的属性作为分类特征属性,获得最终分类的主特征子集。
CN201810360519.9A 2018-04-20 2018-04-20 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法 Expired - Fee Related CN108597601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810360519.9A CN108597601B (zh) 2018-04-20 2018-04-20 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810360519.9A CN108597601B (zh) 2018-04-20 2018-04-20 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法

Publications (2)

Publication Number Publication Date
CN108597601A true CN108597601A (zh) 2018-09-28
CN108597601B CN108597601B (zh) 2021-06-25

Family

ID=63614349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810360519.9A Expired - Fee Related CN108597601B (zh) 2018-04-20 2018-04-20 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法

Country Status (1)

Country Link
CN (1) CN108597601B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817331A (zh) * 2019-01-25 2019-05-28 温州职业技术学院 一种针对慢性阻塞性肺疾病的远程医疗辅助决策方法
CN110739075A (zh) * 2019-10-28 2020-01-31 常州工业职业技术学院 一种基于大数据的copd疾病辅助诊断监测系统
CN111248913A (zh) * 2020-01-21 2020-06-09 山东师范大学 基于迁移学习的慢性阻塞性肺疾病预测系统、设备及介质
CN111312403A (zh) * 2020-01-21 2020-06-19 山东师范大学 基于实例和特征共享级联的疾病预测系统、设备及介质
CN111326227A (zh) * 2020-04-03 2020-06-23 深圳前海微众银行股份有限公司 病例报告生成方法、装置、设备及存储介质
CN111383764A (zh) * 2020-02-25 2020-07-07 山东师范大学 一种机械通气驱动压与呼吸机相关事件的相关性检测系统
CN111710410A (zh) * 2020-05-29 2020-09-25 吾征智能技术(北京)有限公司 一种基于青筋固定部位征兆的疾病推测系统
CN111986811A (zh) * 2020-02-24 2020-11-24 梅里医疗科技(洋浦)有限责任公司 一种基于大数据的疾病预测系统
CN112071424A (zh) * 2020-08-31 2020-12-11 吾征智能技术(北京)有限公司 一种基于肺活量数据的疾病预测模型的构建方法及系统
CN112132185A (zh) * 2020-08-26 2020-12-25 上海大学 一种基于数据挖掘快速预测双钙钛矿氧化物带隙的方法
CN112652391A (zh) * 2020-12-16 2021-04-13 浙江大学温州研究院 一种用于识别慢性阻塞性肺疾病急性加重的系统
CN113223708A (zh) * 2021-05-24 2021-08-06 浙江医院 病症风险预测模型的构建方法和相关设备
CN113593697A (zh) * 2021-07-31 2021-11-02 吾征智能技术(北京)有限公司 一种基于呼吸气味判断疾病的系统、设备及介质
CN114566238A (zh) * 2022-02-09 2022-05-31 无锡启益医疗科技有限公司 一种基于copd风险判断的被筛查患者auc提升方法
WO2022126800A1 (zh) * 2020-12-17 2022-06-23 谈斯聪 一种表征、血液数据、医疗图像融合的多种疑似疾病综合识别方法
CN115035988A (zh) * 2022-08-15 2022-09-09 武汉明炀大数据科技有限公司 基于云计算的医学影像处理方法、系统、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897570A (zh) * 2017-03-02 2017-06-27 山东师范大学 一种基于机器学习的慢性阻塞性肺疾病测试系统
CN107943818A (zh) * 2017-10-09 2018-04-20 中国电子科技集团公司第二十八研究所 一种基于多源信息融合的城市数据服务系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897570A (zh) * 2017-03-02 2017-06-27 山东师范大学 一种基于机器学习的慢性阻塞性肺疾病测试系统
CN107943818A (zh) * 2017-10-09 2018-04-20 中国电子科技集团公司第二十八研究所 一种基于多源信息融合的城市数据服务系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JAVAD SALIMI SARTAKHTI ET AL.: "Hepatitis disease diagnosis using a novel hybrid method based on support vector machine and simulated annealing(SVM-SA)", 《COMPUTER METHODS AND PROGRAMS IN BIOMEDICINE》 *
M.M. ALI ET AL.: "A direct search variant of the simulated annealing algorithm for optimization involving continuous variables", 《COMPUTERS & OPERATIONS RESEARCH》 *
YILMAZ KAYA ET AL.: "A hybrid decision support system based on rough set and extreme learning machine for diagnosis of hepatitis disease", 《APPLIED SOFT COMPUTING》 *
翟俊海 等: "最小相关性最大依赖度属性约简", 《计算机科学》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817331B (zh) * 2019-01-25 2022-11-01 温州职业技术学院 一种针对慢性阻塞性肺疾病的远程医疗辅助决策系统
CN109817331A (zh) * 2019-01-25 2019-05-28 温州职业技术学院 一种针对慢性阻塞性肺疾病的远程医疗辅助决策方法
CN110739075A (zh) * 2019-10-28 2020-01-31 常州工业职业技术学院 一种基于大数据的copd疾病辅助诊断监测系统
CN111248913A (zh) * 2020-01-21 2020-06-09 山东师范大学 基于迁移学习的慢性阻塞性肺疾病预测系统、设备及介质
CN111312403A (zh) * 2020-01-21 2020-06-19 山东师范大学 基于实例和特征共享级联的疾病预测系统、设备及介质
CN111312403B (zh) * 2020-01-21 2024-09-10 山东师范大学 基于实例和特征共享级联的疾病预测系统、设备及介质
CN111248913B (zh) * 2020-01-21 2023-04-07 山东师范大学 基于迁移学习的慢性阻塞性肺疾病预测系统、设备及介质
CN111986811A (zh) * 2020-02-24 2020-11-24 梅里医疗科技(洋浦)有限责任公司 一种基于大数据的疾病预测系统
CN111383764A (zh) * 2020-02-25 2020-07-07 山东师范大学 一种机械通气驱动压与呼吸机相关事件的相关性检测系统
CN111383764B (zh) * 2020-02-25 2024-03-26 山东师范大学 一种机械通气驱动压与呼吸机相关事件的相关性检测系统
CN111326227A (zh) * 2020-04-03 2020-06-23 深圳前海微众银行股份有限公司 病例报告生成方法、装置、设备及存储介质
CN111326227B (zh) * 2020-04-03 2024-07-30 深圳前海微众银行股份有限公司 病例报告生成方法、装置、设备及存储介质
CN111710410A (zh) * 2020-05-29 2020-09-25 吾征智能技术(北京)有限公司 一种基于青筋固定部位征兆的疾病推测系统
CN112132185B (zh) * 2020-08-26 2023-07-18 上海大学 一种基于数据挖掘快速预测双钙钛矿氧化物带隙的方法
CN112132185A (zh) * 2020-08-26 2020-12-25 上海大学 一种基于数据挖掘快速预测双钙钛矿氧化物带隙的方法
CN112071424A (zh) * 2020-08-31 2020-12-11 吾征智能技术(北京)有限公司 一种基于肺活量数据的疾病预测模型的构建方法及系统
CN112652391A (zh) * 2020-12-16 2021-04-13 浙江大学温州研究院 一种用于识别慢性阻塞性肺疾病急性加重的系统
WO2022126800A1 (zh) * 2020-12-17 2022-06-23 谈斯聪 一种表征、血液数据、医疗图像融合的多种疑似疾病综合识别方法
CN113223708A (zh) * 2021-05-24 2021-08-06 浙江医院 病症风险预测模型的构建方法和相关设备
CN113593697A (zh) * 2021-07-31 2021-11-02 吾征智能技术(北京)有限公司 一种基于呼吸气味判断疾病的系统、设备及介质
CN113593697B (zh) * 2021-07-31 2023-10-13 吾征智能技术(北京)有限公司 一种基于呼吸气味判断疾病的系统、设备及介质
CN114566238A (zh) * 2022-02-09 2022-05-31 无锡启益医疗科技有限公司 一种基于copd风险判断的被筛查患者auc提升方法
CN115035988A (zh) * 2022-08-15 2022-09-09 武汉明炀大数据科技有限公司 基于云计算的医学影像处理方法、系统、设备及介质
CN115035988B (zh) * 2022-08-15 2022-12-20 武汉明炀大数据科技有限公司 基于云计算的医学影像处理方法、系统、设备及介质

Also Published As

Publication number Publication date
CN108597601B (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN108597601A (zh) 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法
US11864880B2 (en) Method for analysis of cough sounds using disease signatures to diagnose respiratory diseases
CN110051324B (zh) 一种急性呼吸窘迫综合征死亡率预测方法及系统
CN104765846B (zh) 一种基于特征提取算法的数据特征分类方法
CN109119167A (zh) 基于集成模型的脓毒症死亡率预测系统
CN108597605B (zh) 一种个人健康生活大数据采集与分析系统
CN111009321A (zh) 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法
CN106897570A (zh) 一种基于机器学习的慢性阻塞性肺疾病测试系统
CN111081379B (zh) 一种疾病概率决策方法及其系统
CN108304887A (zh) 基于少数类样本合成的朴素贝叶斯数据处理系统及方法
CN116344050B (zh) 一种基于多维度健康管理模型的评测方法
CN109872819A (zh) 一种基于重症监护检测项的急性肾损伤发病概率预测系统
US20220051114A1 (en) Inference process visualization system for medical scans
CN110322356A (zh) 基于hin挖掘动态多模式的医保异常检测方法及系统
KR102169637B1 (ko) 사망 위험도의 예측 방법 및 이를 이용한 사망 위험도의 예측 디바이스
US11471113B2 (en) Determination of health status of systems equipped with sensors
CN109767836A (zh) 一种医学诊断人工智能系统、装置及其自我学习方法
Chen et al. Unite: Uncertainty-based health risk prediction leveraging multi-sourced data
CN110299207A (zh) 用于慢性病检测中的基于计算机预测模型数据处理方法
WO2012103625A1 (en) Reputation-based classifier, classification system and method
CN111951116A (zh) 基于无监督孤立点检测的医保反欺诈监测分析方法和系统
CN113974566B (zh) 一种基于时间窗的copd急性加重预测方法
CN112336310B (zh) 一种基于fcbf和svm融合的心脏疾病诊断系统
Kifli et al. Brain Stroke Classification using One Dimensional Convolutional Neural Network
CN116469570A (zh) 一种基于电子病历的恶性肿瘤并发症分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210625

CF01 Termination of patent right due to non-payment of annual fee