CN104657574B - 一种医疗诊断模型的建立方法及装置 - Google Patents

一种医疗诊断模型的建立方法及装置 Download PDF

Info

Publication number
CN104657574B
CN104657574B CN201410262085.0A CN201410262085A CN104657574B CN 104657574 B CN104657574 B CN 104657574B CN 201410262085 A CN201410262085 A CN 201410262085A CN 104657574 B CN104657574 B CN 104657574B
Authority
CN
China
Prior art keywords
dimension
training sample
sample
low
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410262085.0A
Other languages
English (en)
Other versions
CN104657574A (zh
Inventor
张莉
曹晋
鲁亚平
王邦军
何书萍
李凡长
杨季文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yate Experimental Animal Research Co ltd
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201410262085.0A priority Critical patent/CN104657574B/zh
Publication of CN104657574A publication Critical patent/CN104657574A/zh
Application granted granted Critical
Publication of CN104657574B publication Critical patent/CN104657574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请提供一种医疗诊断模型的建立方法及装置,该方法首先依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理,然后依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型。这种医疗模型的建立方法在迭代过程中通过SVDD算法的特征选择,根据给定的排序准则删除若干个不重要特征,可以降低建模过程的时间复杂性,实现对医疗数据的快捷处理,提高诊断能力。

Description

一种医疗诊断模型的建立方法及装置
技术领域
本发明涉及医疗诊断技术领域,特别涉及一种医疗诊断模型的建立方法及装置。
背景技术
传统的医疗诊断过程是医生根据临床经验对病人进行推理诊断的决策过程,其决策的正确性取决于医生的个人经验,而且医疗诊断的决策也会受到外在因素的干扰,因而传统的医疗诊断方法显然不能满足现代社会发展的要求。随着计算机技术的普及,很多传统的任务都能够采用智能化的手段来处理,目前的很多机器学习方法都能够用到医疗诊断中,基于计算机的医疗诊断由于不受疲劳、情绪等因素的影响,已成为重要的医疗诊断手段,比传统的医疗诊断提供着更为客观和准确的决策。
基于计算机技术的医疗诊断方法,通常是利用一些预测建模方法对历史病例等医疗数据进行分析,从而建立医疗诊断模型,然后再用该医疗诊断模型来对新病例进行诊断。因此,医疗诊断模型的建立方法是基于计算机技术的医疗诊断方法的关键,医疗诊断模型必须保证高度的精准性。
在现有技术中,用于建模的医疗数据的维数很高,而且不同类别的数据量并不平衡,因此对医疗数据的特征选择处理过程非常关键。Guyon等人在文章“Gene Selectionfor Cancer Classification using Support Vector Machines”中提出的SVM-RFE(Recursive Feature Elimination)算法是基于SVM的Wrapper特征选择算法中最具代表性的一种方法,该方法可以自动消除冗余的基因,产生比较紧致的基因子集。然而该算法由于在迭代过程中采用后向特征消除,时间复杂度较高,数据处理的速度较慢,诊断能力较低。
发明内容
为解决上述技术问题,本申请提供一种医疗诊断模型的建立方法及装置,以实现对医疗数据的快捷处理,提高诊断能力。
本申请提供的技术方案如下:
一种医疗诊断模型的建立方法,包括:
依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理;
依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型。
优选地,所述原始训练样本集由表征,其中xi∈RD,yi∈{+1,-1},yi表示xi的类别,N表示训练样本的总个数,D表示训练样本的维数,且预先设定降维后的维数r;则,所述依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理,包括:
令所述训练样本的初始维数d=D,以F={1,...,D}为特征索引集合,以所述原始训练样本集的子集为特征选择训练集合,求解所述
SVDD的优化问题得到αi,i=1,...,n,其中,中的特征由所述特征索引集合F确定且为同一类别的训练样本,n为+1类样本的个数,αi,i=1,...,n是Lagrange乘子,C为预先设定的惩罚因子且C>0;
依据所述αi,i=1,...,n计算中心向量w:其中w=[w1,w2,…,wd]T∈Rd
依据所述中心向量w查找被剔除的第j个特征
令所述训练样本的低维维数d’=d-1,依据所述第j个特征更新所述特征索引集合F=F\j和所述特征选择训练集合其中,中的特征是由索引集合F来确定的;
判断所述d’是否等于预先设定的降维后的维数r,若不等于,则令d=d’,并重复上述步骤。
优选地,还包括:
若所述d’等于预先设定的降维后的维数r,则结束循环,经过降维处理后得到的低维训练样本组成的低维训练样本集由表征,其中
优选地,所述依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型,包括:
依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型其中,βi和b是由支持向量机训练算法训练产生的模型系数,sgn()表示符号函数。
优选地,还包括:
通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果。
一种医疗诊断模型的建立装置,包括:
特征选择模块,用于依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理;
模型建立模块,用于依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型。
优选地,所述原始训练样本集由表征,其中xi∈RD,yi∈{+1,-1},yi表示xi的类别,N表示训练样本的总个数,D表示训练样本的维数,且预先设定降维后的维数r;则,所述特征选择模块,具体用于:
令所述训练样本的初始维数d=D,以F={1,...,D}为特征索引集合,以所述原始训练样本集的子集为特征选择训练集合,求解所述
SVDD的优化问题得到αi,i=1,...,n,其中,中的特征由所述特征索引集合F确定且为同一类别的训练样本,n为+1类样本的个数,αi,i=1,...,n是Lagrange乘子,C为预先设定的惩罚因子且C>0;
依据所述αi,i=1,...,n计算中心向量w:其中w=[w1,w2,…,wd]T∈Rd
依据所述中心向量w查找被剔除的第j个特征
令所述训练样本的低维维数d’=d-1,依据所述第j个特征更新所述特征索引集合F=F\j和所述特征选择训练集合其中,中的特征是由索引集合F来确定的;
判断所述d’是否等于预先设定的降维后的维数r,若不等于,则令d=d’,并重复上述步骤。
优选地,所述特征选择模块,还用于:
若所述d’等于预先设定的降维后的维数r,则结束循环,经过降维处理后得到的低维训练样本组成的低维训练样本集由表征,其中
优选地,所述模型建立模块,具体用于:
依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型其中,βi和b是由支持向量机训练算法训练产生的模型系数,sgn()表示符号函数。
优选地,还包括:
医疗诊断模块,用于通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果。
与现有技术相比,本申请的有益效果为:
本申请实施例提供的医疗诊断模型的建立方法,首先依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理,然后依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型,这种医疗模型的建立方法在迭代过程中通过SVDD算法的特征选择,根据给定的排序准则删除若干个不重要特征,可以降低建模过程的时间复杂性,实现对医疗数据的快捷处理,提高诊断能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种医疗诊断模型的建立方法的流程图;
图2为本申请实施例提供的另一种医疗诊断模型的建立方法的流程图;
图3为本申请实施例提供的一种医疗诊断模型的建立装置的结构示意图;
图4为本申请实施例提供的另一种医疗诊断模型的建立装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参见图1,其示出了本申请实施例提供的一种医疗诊断模型的建立方法的流程图。
本申请实施例一提供的医疗诊断模型的建立方法,可以包括以下步骤:
步骤S11:依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理。
本实施例中的原始训练样本集为历史病历中提供的原始医疗数据训练样本集。
在预存储的原始训练样本集中的各个训练样本的维度非常高,为了降低运算的复杂度,提高算法的效率,首先依据支持向量数据描述SVDD算法对原始训练样本集中的训练样本进行降维,通过SVDD的特征选择,根据给定的排序准则删除若干个不重要特征,达到降维的目的。
步骤S12:依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型。
在本实施例中,原始训练样本集中的各个训练样本经过降维处理后,可以得到对应的低维训练样本,然后用支持向量机训练算法对低维训练样本构成的低维训练样本集进行训练,即得到医疗诊断的分类模型。
本申请实施例提供的医疗诊断模型的建立方法,首先依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理,然后依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型,这种医疗模型的建立方法在迭代过程中通过SVDD算法的特征选择,根据给定的排序准则删除若干个不重要特征,可以降低建模过程的时间复杂性,实现对医疗数据的快捷处理,提高诊断能力。
实施例二:
请参见图2,其示出了本申请实施例提供的另一种医疗诊断模型的建立方法的流程图。
本申请实施例二提供的医疗诊断模型的建立方法,在实施例一的基础上,所述原始训练样本集由表征,其中xi∈RD,yi∈{+1,-1},yi表示xi的类别,N表示训练样本的总个数,D表示训练样本的维数,且预先设定降维后的维数r;本申请实施例二提供的医疗诊断模型的建立方法,可以包括以下步骤:
步骤S21:依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理。
本实施例中的原始训练样本集为历史病历中提供的原始医疗数据训练样本集。
在预存储的原始训练样本集中的各个训练样本的维度非常高,为了降低运算的复杂度,提高算法的效率,首先依据支持向量数据描述SVDD算法对原始训练样本集中的训练样本进行降维,通过SVDD的特征选择,根据给定的排序准则删除若干个不重要特征,达到降维的目的。
具体的,在本申请实施例中,步骤S21可以包括:
第一步:令所述训练样本的初始维数d=D,以F={1,...,D}为特征索引集合,以所述原始训练样本集的子集为特征选择训练集合,求解
所述SVDD的优化问题得到αi,i=1,...,n,其中,中的特征由所述特征索引集合F确定且为同一类别的训练样本,n为+1类样本的个数,αi,i=1,...,n是Lagrange乘子,C为预先设定的惩罚因子且C>0;
第二步:依据所述αi,i=1,...,n计算中心向量w:其中w=[w1,w2,…,wd]T∈Rd
第三步:依据所述中心向量w查找被剔除的第j个特征
第四步:令所述训练样本的低维维数d’=d-1,依据所述第j个特征更新所述特征索引集合F=F\j和所述特征选择训练集合其中,中的特征是由索引集合F来确定的;
第五步:判断所述d’是否等于预先设定的降维后的维数r,若不等于,则令d=d’,并重复上述第一步至第五步,或者令所述训练样本的低维维数d”=D-2,并以d”作为新的初始维度,代替上述第一步中的d,并对d”执行上述第一步至第四步的步骤。
可以理解的是,当降维后的维数若所述d’等于预先设定的降维后的维数r时,即降到了预设的维数,则可以结束循环,在本申请实施例中,经过降维处理后得到的低维训练样本组成的低维训练样本集由表征,其中
步骤S22:依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型。
在本实施例中,原始训练样本集中的各个训练样本经过降维处理后,可以得到对应的低维训练样本,然后用支持向量机训练算法对低维训练样本构成的低维训练样本集进行训练,即得到医疗诊断的分类模型。
在本申请实施例中,所述步骤S22,具体可以包括:依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型其中,βi和b是由支持向量机训练算法训练产生的模型系数,sgn()表示符号函数。
步骤S23:通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果。
在本申请实施例中,所述降维后得到的实测样本集的维数与所述降维后得到的低维训练样本集的维数相同。
上述步骤S23具体可以为,通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,依据对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果,其中,x为测试样本集且x∈RD为经过降维处理后得到的低维测试样本组成的实测样本集且
本申请实施例提供的医疗诊断模型的建立方法,首先依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理,然后依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型,再通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果。这样,在迭代过程中通过SVDD算法的特征选择,根据给定的排序准则删除若干个不重要特征,可以降低建模过程的时间复杂性,实现对医疗数据的快捷处理,提高诊断能力。
下面以一个具体的实施例对本申请实施例进行说明,本实例在以本申请实施例提供的技术方案为前提下进行实施,给出了详细的实施方式和过程,但本实施例的保护范围不限于下述的实例。
将本申请技术方案在Leukemia数据集中进行测试,目的是分辨两种不同的白血病,即急性淋巴细胞白血病(Acute Lymphoblastic Leukemia,ALL)和急性髓系白血病(Acute Myeloid Leukemia,AML)。Leukemia数据集含有38个训练样本(27个ALL,14个AML),用来选择基因和调整分类器的权重,34个测试样本(20ALL,14AML),用来评价系统所得结果的性能。每个样本均有都有7129个特征。假设将ALL视为+1类,AML视为-1类,具体实施步骤如下:
(1)降维处理:
对训练样本进行处理,通过SVDD的特征选择,根据给定的排序准则删除若干个不重要特征,达到降维的目的。令医疗数据的二元原始训练样本集为其中xi∈RD,yi∈{+1,-1},N是训练样本的总个数,D是样本的维数,而且假设+1类的样本是最多的。在这里,N=38,D=7129。
第一,初始化。设定降维的维数r,且令d=D,特征索引集合为F={1,...,D}。令为特征选择训练集合,是二元原始训练样本集的子集,其中中的特征是由索引集合F来确定的且是同一类的样本,n为+1类样本的个数。在这里r=100,d=7129,F={1,...,7129},n=27。
第二,求解SVDD的优化问题:
其中αi,i=1,...,27是Lagrange乘子,C>0是惩罚因子。C是预先设定的值,C=1。求解上面的优化问题后,得到αi,i=1,...,27。
第三,计算中心向量w:其中w=[w1,w2,…,wd]T∈Rd
第四,找出被剔除的第j个特征,
第五,令d=d-1,同时更新特征索引集合F=F\j,和特征选择训练集合中的特征是由索引集合F来确定的。
第六,若d=100,则结束;否则,转到第二步。
(2)建立模型:
用支持向量机对降维处理后生成的低维训练样本集进行训练,建立医疗数据的分类诊断模型。二元原始训练样本集按照特征索引集合F中的元素来确定特征选择后的二元低维训练样本集合其中采用支持向量机训练获得一个诊断模型:
其中βi和b是由支持向量机训练产生的模型系数,sgn()表示符号函数。
(3)医疗诊断:
对测试样本进行处理,通过SVDD的特征选择,根据给定的排序准则删除测试样本中的若干个不重要特征,得到实测样本;用(2)中建立的诊断模型对实测样本集进行预测,得出最终分类的预测结果,作为诊断结果。
令医疗诊断数据的测试样本集为x,其中x∈RD
根据(2)中得到的特征索引集合F,确定x中的要留下的特征,令特征选择后的实测样本集为
将实测样本集输入到生成的诊断模型中:
则x诊断为+1类,反之若则x诊断为-1类。
通过本申请的方法,把38个7129维训练样本和34个7129维的测试样本都降到了100维,用SVM分类器对34个100维的测试样本进行分类。由于Leukemia数据的正负样本不平衡,因此,表1分别给出了在正样本中的识别率和在负样本中的识别率的对比,表2给出了运行时间的对比。为了对实验效果一目了然,本实验提出的方法与SVM-RFE(RecursiveFeature Elimination)算法在相同的数据集上做比较。
SVM-RFE 本申请
正样本的识别率(%) 100 100
负样本的识别率(%) 35.71 64.29
平均值(%) 67.86 82.15
表1:SVM-RFE和本申请的方法的识别率对比
SVM-RFE 本发明
运行时间(s) 774.3 452.4
表2:运行时间对比
通过对比结果,可以看出本申请提供的方法相对于现有的SVM-RFE方法,耗时大大缩短,诊断能力显著提升。
实施例三:
请参见图3,其示出了本申请实施例提供的一种医疗诊断模型的建立装置的结构示意图,本申请实施例三提供的医疗诊断模型的建立装置,可以包括:
特征选择模块1,用于依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理。
本实施例中的原始训练样本集为历史病历中提供的原始医疗数据训练样本集。
在预存储的原始训练样本集中的各个训练样本的维度非常高,为了降低运算的复杂度,提高算法的效率,首先由特征选择模块1依据支持向量数据描述SVDD算法对原始训练样本集中的训练样本进行降维,通过SVDD的特征选择,根据给定的排序准则删除若干个不重要特征,达到降维的目的。
模型建立模块2,用于依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型。
在本实施例中,原始训练样本集中的各个训练样本经过降维处理后,可以得到对应的低维训练样本,然后由模型建立模块2用支持向量机训练算法对低维训练样本构成的低维训练样本集进行训练,即得到医疗诊断的分类模型。
本申请实施例提供的医疗诊断模型的建立装置,首先依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理,然后依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型,这种医疗模型的建立装置在迭代过程中通过SVDD算法的特征选择,根据给定的排序准则删除若干个不重要特征,可以降低建模过程的时间复杂性,实现对医疗数据的快捷处理,提高诊断能力。
实施例四:
请参见图4,其示出了本申请实施例提供的另一种医疗诊断模型的建立装置的结构示意图,本申请实施例四提供的医疗诊断模型的建立装置,可以包括:
特征选择模块1,用于依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理。
本申请实施例四提供的医疗诊断模型的建立装置,原始训练样本集为历史病历中提供的原始医疗数据训练样本集。所述原始训练样本集由表征,其中xi∈RD,yi∈{+1,-1},yi表示xi的类别,N表示训练样本的总个数,D表示训练样本的维数,且预先设定降维后的维数r;
在预存储的原始训练样本集中的各个训练样本的维度非常高,为了降低运算的复杂度,提高算法的效率,首先由特征选择模块1依据支持向量数据描述SVDD算法对原始训练样本集中的训练样本进行降维,通过SVDD的特征选择,根据给定的排序准则删除若干个不重要特征,达到降维的目的。
具体的,在本申请实施例中,特征选择模块1具体用于:
第一步:令所述训练样本的初始维数d=D,以F={1,...,D}为特征索引集合,以所述原始训练样本集的子集为特征选择训练集合,求解
所述SVDD的优化问题得到αi,i=1,...,n,其中,中的特征由所述特征索引集合F确定且为同一类别的训练样本,n为+1类样本的个数,αi,i=1,...,n是Lagrange乘子,C为预先设定的惩罚因子且C>0;
第二步:依据所述αi,i=1,...,n计算中心向量w:其中w=[w1,w2,…,wd]T∈Rd
第三步:依据所述中心向量w查找被剔除的第j个特征
第四步:令所述训练样本的低维维数d’=d-1,依据所述第j个特征更新所述特征索引集合F=F\j和所述特征选择训练集合其中,中的特征是由索引集合F来确定的;
第五步:判断所述d’是否等于预先设定的降维后的维数r,若不等于,则令d=d’,并重复上述第一步至第五步,或者令所述训练样本的低维维数d”=D-2,并以d”作为新的初始维度,代替上述第一步中的d,并对d”执行上述第一步至第四步的步骤。
可以理解的是,当降维后的维数若所述d’等于预先设定的降维后的维数r时,即降到了预设的维数,特征选择模块1还可以结束循环,在本申请实施例中,经过降维处理后得到的低维训练样本组成的低维训练样本集由表征,其中
模型建立模块2,用于依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型。
在本实施例中,原始训练样本集中的各个训练样本经过降维处理后,可以得到对应的低维训练样本,然后由模型建立模块2用支持向量机训练算法对低维训练样本构成的低维训练样本集进行训练,即得到医疗诊断的分类模型。
在本实施例中,原始训练样本集中的各个训练样本经过降维处理后,可以得到对应的低维训练样本,然后用支持向量机训练算法对低维训练样本构成的低维训练样本集进行训练,即得到医疗诊断的分类模型。
在本申请实施例中,所述模型建立模块2具体用于:依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型其中,和是由支持向量机训练算法训练产生的模型系数,表示符号函数。
医疗诊断模块3,用于通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果。
在本申请实施例中,所述降维后得到的实测样本集的维数与所述降维后得到的低维训练样本集的维数相同。医疗诊断模块3具体用于:通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,依据对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果,其中,为测试样本集且,为经过降维处理后得到的低维测试样本组成的实测样本集且。
以上各个装置的具体实现方式可以参见说明书方法所对应的实施例,在此不再详细赘述。
本申请实施例提供的医疗诊断模型的建立装置,首先依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理,然后依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型,再通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果。这样,在迭代过程中通过SVDD算法的特征选择,根据给定的排序准则删除若干个不重要特征,可以降低建模过程的时间复杂性,实现对医疗数据的快捷处理,提高诊断能力。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
以上对本申请所提供的一种医疗诊断模型的建立方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种医疗诊断模型的建立方法,其特征在于,包括:
依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理;
依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型;
所述原始训练样本集由表征,其中xi∈RD,yi∈{+1,-1},yi表示xi的类别,N表示训练样本的总个数,D表示训练样本的维数,且预先设定降维后的维数r;则,所述依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理,包括:
令所述训练样本的初始维数d=D,以F={1,...,D}为特征索引集合,以所述原始训练样本集的子集为特征选择训练集合,求解所述SVDD的优化问题得到αi,i=1,...,n,其中,中的特征由所述特征索引集合F确定且为同一类别的训练样本,n为+1类样本的个数,αi,i=1,...,n是Lagrange乘子,C为预先设定的惩罚因子且C>0;
依据所述αi,i=1,...,n计算中心向量w:其中w=[w1,w2,…,wd]T∈Rd
依据所述中心向量w查找被剔除的第j个特征
令所述训练样本的低维维数d’=d-1,依据所述第j个特征更新所述特征索引集合F=F\j和所述特征选择训练集合其中,中的特征是由索引集合F来确定的;
判断所述d’是否等于预先设定的降维后的维数r,若不等于,则令d=d’,并重复上述步骤。
2.根据权利要求1所述的方法,其特征在于,还包括:
若所述d’等于预先设定的降维后的维数r,则结束循环,经过降维处理后得到的低维训练样本组成的低维训练样本集由表征,其中
3.根据权利要求2所述的方法,其特征在于,所述依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型,包括:
依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型其中,βi和b是由支持向量机训练算法训练产生的模型系数,sgn()表示符号函数。
4.根据权利要求1所述的方法,其特征在于,还包括:
通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果。
5.一种医疗诊断模型的建立装置,其特征在于,包括:
特征选择模块,用于依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理;
模型建立模块,用于依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型;
所述原始训练样本集由表征,其中xi∈RD,yi∈{+1,-1},yi表示xi的类别,N表示训练样本的总个数,D表示训练样本的维数,且预先设定降维后的维数r;则,所述特征选择模块,具体用于:
令所述训练样本的初始维数d=D,以F={1,...,D}为特征索引集合,以所述原始训练样本集的子集为特征选择训练集合,求解所述SVDD的优化问题得到αi,i=1,...,n,其中,中的特征由所述特征索引集合F确定且为同一类别的训练样本,n为+1类样本的个数,αi,i=1,...,n是Lagrange乘子,C为预先设定的惩罚因子且C>0;
依据所述αi,i=1,...,n计算中心向量w:其中w=[w1,w2,…,wd]T∈Rd
依据所述中心向量w查找被剔除的第j个特征
令所述训练样本的低维维数d’=d-1,依据所述第j个特征更新所述特征索引集合F=F\j和所述特征选择训练集合其中,中的特征是由索引集合F来确定的;
判断所述d’是否等于预先设定的降维后的维数r,若不等于,则令d=d’,并重复上述步骤。
6.根据权利要求5所述的装置,其特征在于,所述特征选择模块,还用于:
若所述d’等于预先设定的降维后的维数r,则结束循环,经过降维处理后得到的低维训练样本组成的低维训练样本集由表征,其中
7.根据权利要求6所述的装置,其特征在于,所述模型建立模块,具体用于:
依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型其中,βi和b是由支持向量机训练算法训练产生的模型系数,sgn()表示符号函数。
8.根据权利要求5所述的装置,其特征在于,还包括:
医疗诊断模块,用于通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果。
CN201410262085.0A 2014-06-13 2014-06-13 一种医疗诊断模型的建立方法及装置 Active CN104657574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410262085.0A CN104657574B (zh) 2014-06-13 2014-06-13 一种医疗诊断模型的建立方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410262085.0A CN104657574B (zh) 2014-06-13 2014-06-13 一种医疗诊断模型的建立方法及装置

Publications (2)

Publication Number Publication Date
CN104657574A CN104657574A (zh) 2015-05-27
CN104657574B true CN104657574B (zh) 2017-10-31

Family

ID=53248692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410262085.0A Active CN104657574B (zh) 2014-06-13 2014-06-13 一种医疗诊断模型的建立方法及装置

Country Status (1)

Country Link
CN (1) CN104657574B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066781B (zh) * 2016-11-03 2018-09-21 西南大学 基于遗传和环境相关的结直肠癌数据模型的分析方法
CN107292087A (zh) * 2017-05-11 2017-10-24 广州讯动网络科技有限公司 一种基于分子光谱分析的定性模型评估方法和系统
CN107908819B (zh) * 2017-10-19 2021-05-11 深圳和而泰智能控制股份有限公司 预测用户状态变化的方法和装置
CN111784022B (zh) * 2019-08-08 2024-01-30 沈阳工业大学 一种基于Wrapper方法与SVM方法结合的短时邻近大雾预测方法
CN110634565B (zh) * 2019-09-18 2021-04-06 深圳市微克科技有限公司 一种医疗大数据回归分析方法
CN112802584A (zh) * 2021-01-26 2021-05-14 武汉大学 一种基于分类器的医疗超声检查数据分类方法及装置
CN115096581B (zh) * 2022-06-23 2023-07-28 上海交通大学 基于时频域特征的复杂传动装置故障诊断溯源方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101403923A (zh) * 2008-10-31 2009-04-08 浙江大学 基于非高斯成分提取和支持向量描述的过程监控方法
CN102591940A (zh) * 2011-12-27 2012-07-18 厦门市美亚柏科信息股份有限公司 一种基于Map/Reduce的快速支持向量数据描述方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101403923A (zh) * 2008-10-31 2009-04-08 浙江大学 基于非高斯成分提取和支持向量描述的过程监控方法
CN102591940A (zh) * 2011-12-27 2012-07-18 厦门市美亚柏科信息股份有限公司 一种基于Map/Reduce的快速支持向量数据描述方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Study of SVDD-based Algorithm to the Fault Diagnosis of Mechanical Equipment System;Zhiqiang Jiang et al.;《2012 International Conference on Medical Physics and Biomedical Engineering》;20121231;第160-165页 *
基于超球体多类支持向量数据描述的医学图像分类新方法;谢国城 等;《计算机应用》;20131101;第33卷(第11期);第3300-3304页 *
密度惩罚支持向量数据描述;张莉 等;《模式识别与人工智能》;20140228;第27卷(第2期);第1068-1073页 *

Also Published As

Publication number Publication date
CN104657574A (zh) 2015-05-27

Similar Documents

Publication Publication Date Title
CN104657574B (zh) 一种医疗诊断模型的建立方法及装置
CN106202891B (zh) 一种面向医疗质量评价的大数据挖掘方法
CN107785057B (zh) 医疗数据处理方法、装置、存储介质和计算机设备
CN108717869A (zh) 基于卷积神经网络的糖尿病视网膜并发症诊断辅助系统
CN107292330A (zh) 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
CN108804677A (zh) 结合多层级注意力机制的深度学习问题分类方法及系统
US20180165413A1 (en) Gene expression data classification method and classification system
CN109117380A (zh) 一种软件质量评价方法、装置、设备及可读存储介质
CN110222782A (zh) 基于密度聚类的有监督二分类数据分析方法及系统
CN108511056A (zh) 基于脑卒中患者相似性分析的治疗方案推荐方法及系统
CN108647249A (zh) 舆情数据预测方法、装置、终端及存储介质
CN107506350A (zh) 一种识别信息的方法和设备
CN109960727A (zh) 针对非结构化文本的个人隐私信息自动检测方法及系统
CN106529110A (zh) 一种用户数据分类的方法和设备
CN109472784A (zh) 基于级联全卷积网络病理图像有丝分裂细胞的识别方法
CN107767960A (zh) 临床检测项目的数据处理方法、装置及电子设备
CN106446575A (zh) 智能推送医疗资源的方法及系统
CN114091097A (zh) 一种患者医疗隐私数据保护方法、装置及计算机存储介质
CN109685133A (zh) 基于构建的预测模型低成本、高区分度的数据分类方法
Li et al. An AI-Aided diagnostic framework for hematologic neoplasms based on morphologic features and medical expertise
CN106960218A (zh) 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统
CN107679174A (zh) 知识组织系统的构建方法、装置及服务器
CN103927560B (zh) 一种特征选择方法及装置
CN111752995A (zh) 一种学生数据挖掘系统及方法
Angbera et al. Efficient fuzzy-based system for the diagnosis and treatment of tuberculosis (EFBSDTTB)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200414

Address after: 210000 Zhucheng small forest farm, Chengqiao street, Liuhe District, Nanjing City, Jiangsu Province

Patentee after: NANJING YATE EXPERIMENTAL ANIMAL RESEARCH Co.,Ltd.

Address before: 215123 No. 199 benevolence Road, Suzhou Industrial Park, Jiangsu, China

Patentee before: SOOCHOW University