CN104657574A - 一种医疗诊断模型的建立方法及装置 - Google Patents

一种医疗诊断模型的建立方法及装置 Download PDF

Info

Publication number
CN104657574A
CN104657574A CN201410262085.0A CN201410262085A CN104657574A CN 104657574 A CN104657574 A CN 104657574A CN 201410262085 A CN201410262085 A CN 201410262085A CN 104657574 A CN104657574 A CN 104657574A
Authority
CN
China
Prior art keywords
training sample
dimension
low
dimensional
overbar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410262085.0A
Other languages
English (en)
Other versions
CN104657574B (zh
Inventor
张莉
曹晋
鲁亚平
王邦军
何书萍
李凡长
杨季文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yate Experimental Animal Research Co ltd
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201410262085.0A priority Critical patent/CN104657574B/zh
Publication of CN104657574A publication Critical patent/CN104657574A/zh
Application granted granted Critical
Publication of CN104657574B publication Critical patent/CN104657574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请提供一种医疗诊断模型的建立方法及装置,该方法首先依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理,然后依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型。这种医疗模型的建立方法在迭代过程中通过SVDD算法的特征选择,根据给定的排序准则删除若干个不重要特征,可以降低建模过程的时间复杂性,实现对医疗数据的快捷处理,提高诊断能力。

Description

一种医疗诊断模型的建立方法及装置
技术领域
本发明涉及医疗诊断技术领域,特别涉及一种医疗诊断模型的建立方法及装置。
背景技术
传统的医疗诊断过程是医生根据临床经验对病人进行推理诊断的决策过程,其决策的正确性取决于医生的个人经验,而且医疗诊断的决策也会受到外在因素的干扰,因而传统的医疗诊断方法显然不能满足现代社会发展的要求。随着计算机技术的普及,很多传统的任务都能够采用智能化的手段来处理,目前的很多机器学习方法都能够用到医疗诊断中,基于计算机的医疗诊断由于不受疲劳、情绪等因素的影响,已成为重要的医疗诊断手段,比传统的医疗诊断提供着更为客观和准确的决策。
基于计算机技术的医疗诊断方法,通常是利用一些预测建模方法对历史病例等医疗数据进行分析,从而建立医疗诊断模型,然后再用该医疗诊断模型来对新病例进行诊断。因此,医疗诊断模型的建立方法是基于计算机技术的医疗诊断方法的关键,医疗诊断模型必须保证高度的精准性。
在现有技术中,用于建模的医疗数据的维数很高,而且不同类别的数据量并不平衡,因此对医疗数据的特征选择处理过程非常关键。Guyon等人在文章“Gene Selection for Cancer Classification using Support Vector Machines”中提出的SVM-RFE(Recursive Feature Elimination)算法是基于SVM的Wrapper特征选择算法中最具代表性的一种方法,该方法可以自动消除冗余的基因,产生比较紧致的基因子集。然而该算法由于在迭代过程中采用后向特征消除,时间复杂度较高,数据处理的速度较慢,诊断能力较低。
发明内容
为解决上述技术问题,本申请提供一种医疗诊断模型的建立方法及装置,以实现对医疗数据的快捷处理,提高诊断能力。
本申请提供的技术方案如下:
一种医疗诊断模型的建立方法,包括:
依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理;
依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型。
优选地,所述原始训练样本集由表征,其中xi∈RD,yi∈{+1,-1},yi表示xi的类别,N表示训练样本的总个数,D表示训练样本的维数,且预先设定降维后的维数r;则,所述依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理,包括:
令所述训练样本的初始维数d=D,以F={1,...,D}为特征索引集合,以所述原始训练样本集的子集为特征选择训练集合,求解所述SVDD的优化问题 min Σ i = 1 n Σ j = 1 n α i α j ( x i trn ‾ ) T ( x j trn ‾ ) - Σ i = 1 n α i ( x i ren ‾ ) T ( x i trn ‾ ) s . t . Σ i = 1 n α i = 1,0 ≤ α i ≤ C 得到αi,i=1,...,n,其中, 中的特征由所述特征索引集合F确定且为同一类别的训练样本,n为+1类样本的个数,αi,i=1,...,n是Lagrange乘子,C为预先设定的惩罚因子且C>0;
依据所述αi,i=1,...,n计算中心向量w:其中w=[w1,w2,…,wd]T∈Rd
依据所述中心向量w查找被剔除的第j个特征
令所述训练样本的低维维数d’=d-1,依据所述第j个特征更新所述特征索引集合F=F\j和所述特征选择训练集合其中,中的特征是由索引集合F来确定的;
判断所述d’是否等于预先设定的降维后的维数r,若不等于,则令d=d’,并重复上述步骤。
优选地,还包括:
若所述d’等于预先设定的降维后的维数r,则结束循环,经过降维处理后得到的低维训练样本组成的低维训练样本集由表征,其中
优选地,所述依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型,包括:
依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型  f ( x j ‾ ) = sgn ( Σ i = 1 N β i y i ( x i ‾ ) T x j ‾ + b ) , 其中, x t ‾ ∈ R r , βi和b是由支持向量机训练算法训练产生的模型系数,sgn()表示符号函数。
优选地,还包括:
通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果。
一种医疗诊断模型的建立装置,包括:
特征选择模块,用于依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理;
模型建立模块,用于依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型。
优选地,所述原始训练样本集由表征,其中xi∈RD,yi∈{+1,-1},yi表示xi的类别,N表示训练样本的总个数,D表示训练样本的维数,且预先设定降维后的维数r;则,所述特征选择模块,具体用于:
令所述训练样本的初始维数d=D,以F={1,...,D}为特征索引集合,以所述原始训练样本集的子集为特征选择训练集合,求解所述SVDD的优化问题 min Σ i = 1 n Σ j = 1 n α i α j ( x i trn ‾ ) T ( x j trn ‾ ) - Σ i = 1 n α i ( x i ren ‾ ) T ( x i trn ‾ ) s . t . Σ i = 1 n α i = 1,0 ≤ α i ≤ C 得到αi,i=1,...,n,其中, 中的特征由所述特征索引集合F确定且为同一类别的训练样本,n为+1类样本的个数,αi,i=1,...,n是Lagrange乘子,C为预先设定的惩罚因子且C>0;
依据所述αi,i=1,...,n计算中心向量w:其中w=[w1,w2,…,wd]T∈Rd
依据所述中心向量w查找被剔除的第j个特征
令所述训练样本的低维维数d’=d-1,依据所述第j个特征更新所述特征索引集合F=F\j和所述特征选择训练集合其中,中的特征是由索引集合F来确定的;
判断所述d’是否等于预先设定的降维后的维数r,若不等于,则令d=d’,并重复上述步骤。
优选地,所述特征选择模块,还用于:
若所述d’等于预先设定的降维后的维数r,则结束循环,经过降维处理后得到的低维训练样本组成的低维训练样本集由表征,其中
优选地,所述模型建立模块,具体用于:
依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型  f ( x j ‾ ) = sgn ( Σ i = 1 N β i y i ( x i ‾ ) T x j ‾ + b ) , 其中, x t ‾ ∈ R r , βi和b是由支持向量机训练算法训练产生的模型系数,sgn()表示符号函数。
优选地,还包括:
医疗诊断模块,用于通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果。
与现有技术相比,本申请的有益效果为:
本申请实施例提供的医疗诊断模型的建立方法,首先依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理,然后依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型,这种医疗模型的建立方法在迭代过程中通过SVDD算法的特征选择,根据给定的排序 准则删除若干个不重要特征,可以降低建模过程的时间复杂性,实现对医疗数据的快捷处理,提高诊断能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种医疗诊断模型的建立方法的流程图;
图2为本申请实施例提供的另一种医疗诊断模型的建立方法的流程图;
图3为本申请实施例提供的一种医疗诊断模型的建立装置的结构示意图;
图4为本申请实施例提供的另一种医疗诊断模型的建立装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一: 
请参见图1,其示出了本申请实施例提供的一种医疗诊断模型的建立方法的流程图。
本申请实施例一提供的医疗诊断模型的建立方法,可以包括以下步骤:
步骤S11:依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理。
本实施例中的原始训练样本集为历史病历中提供的原始医疗数据训练样本集。
在预存储的原始训练样本集中的各个训练样本的维度非常高,为了降低运算的复杂度,提高算法的效率,首先依据支持向量数据描述SVDD算法对原始训练样本集中的训练样本进行降维,通过SVDD的特征选择,根据给定的排序准则删除若干个不重要特征,达到降维的目的。
步骤S12:依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型。
在本实施例中,原始训练样本集中的各个训练样本经过降维处理后,可以得到对应的低维训练样本,然后用支持向量机训练算法对低维训练样本构成的低维训练样本集进行训练,即得到医疗诊断的分类模型。
本申请实施例提供的医疗诊断模型的建立方法,首先依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理,然后依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型,这种医疗模型的建立方法在迭代过程中通过SVDD算法的特征选择,根据给定的排序准则删除若干个不重要特征,可以降低建模过程的时间复杂性,实现对医疗数据的快捷处理,提高诊断能力。
实施例二: 
请参见图2,其示出了本申请实施例提供的另一种医疗诊断模型的建立方法的流程图。
本申请实施例二提供的医疗诊断模型的建立方法,在实施例一的基础上,所述原始训练样本集由表征,其中xi∈RD,yi∈{+1,-1},yi表示xi的类别,N表示训练样本的总个数,D表示训练样本的维数,且预先设定降维后的维数r;本申请实施例二提供的医疗诊断模型的建立方法,可以包括以下步骤:
步骤S21:依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理。
本实施例中的原始训练样本集为历史病历中提供的原始医疗数据训练样本集。
在预存储的原始训练样本集中的各个训练样本的维度非常高,为了降低运算的复杂度,提高算法的效率,首先依据支持向量数据描述SVDD算法对原始训练样本集中的训练样本进行降维,通过SVDD的特征选择,根据给定的排序准则删除若干个不重要特征,达到降维的目的。
具体的,在本申请实施例中,步骤S21可以包括: 
第一步:令所述训练样本的初始维数d=D,以F={1,...,D}为特征索引集合,以所述原始训练样本集的子集为特征选择训练集合,求解所述SVDD的优化问题 min Σ i = 1 n Σ j = 1 n α i α j ( x i trn ‾ ) T ( x j trn ‾ ) - Σ i = 1 n α i ( x i ren ‾ ) T ( x i trn ‾ ) s . t . Σ i = 1 n α i = 1,0 ≤ α i ≤ C 得到αi,i=1,...,n,其中,中的特征由所述特征索引集合F确定且为同一类别的训练样本,n为+1类样本的个数,αi,i=1,...,n是Lagrange乘子,C为预先设定的惩罚因子且C>0;
第二步:依据所述αi,i=1,...,n计算中心向量w:其中w=[w1,w2,…,wd]T∈Rd
第三步:依据所述中心向量w查找被剔除的第j个特征
第四步:令所述训练样本的低维维数d’=d-1,依据所述第j个特征更新所述特征索引集合F=F\j和所述特征选择训练集合其中,中的特征是由索引集合F来确定的;
第五步:判断所述d’是否等于预先设定的降维后的维数r,若不等于,则令d=d’,并重复上述第一步至第五步,或者令所述训练样本的低维维数d”=D-2,并以d”作为新的初始维度,代替上述第一步中的d,并对d”执行上述第一步至第四步的步骤。
可以理解的是,当降维后的维数若所述d’等于预先设定的降维后的维数r时,即降到了预设的维数,则可以结束循环,在本申请实施例中,经过降维处理后得到的低维训练样本组成的低维训练样本集由表征,其中  x t ‾ ∈ R r .
步骤S22:依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型。
在本实施例中,原始训练样本集中的各个训练样本经过降维处理后,可以得到对应的低维训练样本,然后用支持向量机训练算法对低维训练样本构成的低维训练样本集进行训练,即得到医疗诊断的分类模型。
在本申请实施例中,所述步骤S22,具体可以包括:依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型 f ( x j ‾ ) = sgn ( Σ i = 1 N β i y i ( x i ‾ ) T x j ‾ + b ) , 其中, x t ‾ ∈ R r , βi和b是由支持向量机训练算法训练产生的模型系数,sgn()表示符号函数。
步骤S23:通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果。
在本申请实施例中,所述降维后得到的实测样本集的维数与所述降维后得到的低维训练样本集的维数相同。
上述步骤S23具体可以为,通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,依据 对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果,其中,x为测试样本集且x∈RD为经过降维处理后得到的低维测试样本组成的实测样本集且
本申请实施例提供的医疗诊断模型的建立方法,首先依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理,然后依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型,再通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果。这样,在迭代过程中通过SVDD算法的特征选择,根据给定的排序准则删除若干个不重要特征,可以降低建模过程的时间复杂性,实现对医疗数据的快捷处理,提高诊断能力。
下面以一个具体的实施例对本申请实施例进行说明,本实例在以本申请实施例提供的技术方案为前提下进行实施,给出了详细的实施方式和过程,但本实施例的保护范围不限于下述的实例。
将本申请技术方案在Leukemia数据集中进行测试,目的是分辨两种不同的白血病,即急性淋巴细胞白血病(Acute Lymphoblastic Leukemia,ALL)和急性髓系白血病(Acute Myeloid Leukemia,AML)。Leukemia数据集含有38个训练样本(27个ALL,14个AML),用来选择基因和调整分类器的权重,34个测试样本(20ALL,14AML),用来评价系统所得结果的性能。每个样本均有都有7129个特征。假设将ALL视为+1类,AML视为-1类,具体实施步骤如下:
(1)降维处理: 
对训练样本进行处理,通过SVDD的特征选择,根据给定的排序准则删除若干个不重要特征,达到降维的目的。令医疗数据的二元原始训练样本集为其中xi∈RD,yi∈{+1,-1},N是训练样本的总个数,D是样本的维数,而且假设+1类的样本是最多的。在这里,N=38,D=7129。
第一,初始化。设定降维的维数r,且令d=D,特征索引集合为F={1,...,D}。令为特征选择训练集合,是二元原始训练样本集的子集,其中中的特征是由索引集合F来确定的且是同一类的样本,n为+1类样本的个数。在这里r=100,d=7129,F={1,...,7129},n=27。
第二,求解SVDD的优化问题: 
min Σ i = 1 n Σ j = 1 n α i α j ( x i trn ‾ ) T ( x j trn ‾ ) - Σ i = 1 n α i ( x i ren ‾ ) T ( x i trn ‾ ) s . t . Σ i = 1 n α i = 1,0 ≤ α i ≤ C
其中αi,i=1,...,27是Lagrange乘子,C>0是惩罚因子。C是预先设定的值,C=1。求解上面的优化问题后,得到αi,i=1,...,27。
第三,计算中心向量w:其中w=[w1,w2,…,wd]T∈Rd
第四,找出被剔除的第j个特征,
第五,令d=d-1,同时更新特征索引集合F=F\j,和特征选择训练集合 中的特征是由索引集合F来确定的。
第六,若d=100,则结束;否则,转到第二步。
(2)建立模型: 
用支持向量机对降维处理后生成的低维训练样本集进行训练,建立医疗数据的分类诊断模型。二元原始训练样本集按照特征索引集合F中的元素来确定特征选择后的二元低维训练样本集合其中采用支持向量机训练获得一个诊断模型:
f ( x j ‾ ) = sgn ( Σ i = 1 N β i y i ( x i ‾ ) T x j ‾ + b )
其中βi和b是由支持向量机训练产生的模型系数,sgn()表示符号函数。
(3)医疗诊断: 
对测试样本进行处理,通过SVDD的特征选择,根据给定的排序准则删除测试样本中的若干个不重要特征,得到实测样本;用(2)中建立的诊断模型对实测样本集进行预测,得出最终分类的预测结果,作为诊断结果。
令医疗诊断数据的测试样本集为x,其中x∈RD
根据(2)中得到的特征索引集合F,确定x中的要留下的特征,令特征选择后的实测样本集为
将实测样本集输入到生成的诊断模型中:
f ( x ‾ ) = sgn ( Σ i = 1 N β i y i ( x i ‾ ) T x ‾ + b )
则x诊断为+1类,反之若则x诊断为-1类。
通过本申请的方法,把38个7129维训练样本和34个7129维的测试样本都降到了100维,用SVM分类器对34个100维的测试样本进行分类。由于Leukemia数据的正负样本不平衡,因此,表1分别给出了在正样本中的识别率和在负样本中的识别率的对比,表2给出了运行时间的对比。为了对实验效果一目了然,本实验提出的方法与SVM-RFE(Recursive Feature Elimination)算法在相同的数据集上做比较。
  SVM-RFE 本申请
正样本的识别率(%) 100 100
负样本的识别率(%) 35.71 64.29
平均值(%) 67.86 82.15
表1:SVM-RFE和本申请的方法的识别率对比
  SVM-RFE 本发明
运行时间(s) 774.3 452.4
表2:运行时间对比
通过对比结果,可以看出本申请提供的方法相对于现有的SVM-RFE方法,耗时大大缩短,诊断能力显著提升。
实施例三: 
请参见图3,其示出了本申请实施例提供的一种医疗诊断模型的建立装置的结构示意图,本申请实施例三提供的医疗诊断模型的建立装置,可以包括:
特征选择模块1,用于依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理。
本实施例中的原始训练样本集为历史病历中提供的原始医疗数据训练样本集。
在预存储的原始训练样本集中的各个训练样本的维度非常高,为了降低运算的复杂度,提高算法的效率,首先由特征选择模块1依据支持向量数据描述SVDD算法对原始训练样本集中的训练样本进行降维,通过SVDD的特征选择,根据给定的排序准则删除若干个不重要特征,达到降维的目的。
模型建立模块2,用于依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型。
在本实施例中,原始训练样本集中的各个训练样本经过降维处理后,可以得到对应的低维训练样本,然后由模型建立模块2用支持向量机训练算法 对低维训练样本构成的低维训练样本集进行训练,即得到医疗诊断的分类模型。
本申请实施例提供的医疗诊断模型的建立装置,首先依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理,然后依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型,这种医疗模型的建立装置在迭代过程中通过SVDD算法的特征选择,根据给定的排序准则删除若干个不重要特征,可以降低建模过程的时间复杂性,实现对医疗数据的快捷处理,提高诊断能力。
实施例四: 
请参见图4,其示出了本申请实施例提供的另一种医疗诊断模型的建立装置的结构示意图,本申请实施例四提供的医疗诊断模型的建立装置,可以包括:
特征选择模块1,用于依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理。
本申请实施例四提供的医疗诊断模型的建立装置,原始训练样本集为历史病历中提供的原始医疗数据训练样本集。所述原始训练样本集由表征,其中xi∈RD,yi∈{+1,-1},yi表示xi的类别,N表示训练样本的总个数,D表示训练样本的维数,且预先设定降维后的维数r;
在预存储的原始训练样本集中的各个训练样本的维度非常高,为了降低运算的复杂度,提高算法的效率,首先由特征选择模块1依据支持向量数据描述SVDD算法对原始训练样本集中的训练样本进行降维,通过SVDD的特征选择,根据给定的排序准则删除若干个不重要特征,达到降维的目的。
具体的,在本申请实施例中,特征选择模块1具体用于: 
第一步:令所述训练样本的初始维数d=D,以F={1,...,D}为特征索引集合,以所述原始训练样本集的子集为特征选择训练集合,求解 所述SVDD的优化问题 min Σ i = 1 n Σ j = 1 n α i α j ( x i trn ‾ ) T ( x j trn ‾ ) - Σ i = 1 n α i ( x i ren ‾ ) T ( x i trn ‾ ) s . t . Σ i = 1 n α i = 1,0 ≤ α i ≤ C 得到αi,i=1,...,n,其中,中的特征由所述特征索引集合F确定且为同一类别的训练样本,n为+1类样本的个数,αi,i=1,...,n是Lagrange乘子,C为预先设定的惩罚因子且C>0;
第二步:依据所述αi,i=1,...,n计算中心向量w:其中w=[w1,w2,…,wd]T∈Rd
第三步:依据所述中心向量w查找被剔除的第j个特征
第四步:令所述训练样本的低维维数d’=d-1,依据所述第j个特征更新所述特征索引集合F=F\j和所述特征选择训练集合其中,中的特征是由索引集合F来确定的;
第五步:判断所述d’是否等于预先设定的降维后的维数r,若不等于,则令d=d’,并重复上述第一步至第五步,或者令所述训练样本的低维维数d”=D-2,并以d”作为新的初始维度,代替上述第一步中的d,并对d”执行上述第一步至第四步的步骤。
可以理解的是,当降维后的维数若所述d’等于预先设定的降维后的维数r时,即降到了预设的维数,特征选择模块1还可以结束循环,在本申请实施例中,经过降维处理后得到的低维训练样本组成的低维训练样本集由表征,其中
模型建立模块2,用于依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型。
在本实施例中,原始训练样本集中的各个训练样本经过降维处理后,可以得到对应的低维训练样本,然后由模型建立模块2用支持向量机训练算法对低维训练样本构成的低维训练样本集进行训练,即得到医疗诊断的分类模型。
在本实施例中,原始训练样本集中的各个训练样本经过降维处理后,可以得到对应的低维训练样本,然后用支持向量机训练算法对低维训练样本构成的低维训练样本集进行训练,即得到医疗诊断的分类模型。
在本申请实施例中,所述模型建立模块2具体用于:依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型 f ( x j ‾ ) = sgn ( Σ i = 1 N β i y i ( x i ‾ ) T x j ‾ + b ) , 其中, x t ‾ ∈ R r , 和是由支持向量机训练算法训练产生的模型系数,表示符号函数。
医疗诊断模块3,用于通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果。
在本申请实施例中,所述降维后得到的实测样本集的维数与所述降维后得到的低维训练样本集的维数相同。医疗诊断模块3具体用于:通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,依据对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果,其中,为测试样本集且,为经过降维处理后得到的低维测试样本组成的实测样本集且。
以上各个装置的具体实现方式可以参见说明书方法所对应的实施例,在此不再详细赘述。
本申请实施例提供的医疗诊断模型的建立装置,首先依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理,然后依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型,再通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果。这样,在迭代过程中通过SVDD算法的特征选择,根据给定的排序准则删除若干个不重要特征,可以降低建模过程的时间复杂性,实现对医疗数据的快捷处理,提高诊断能力。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似 的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
以上对本申请所提供的一种医疗诊断模型的建立方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种医疗诊断模型的建立方法,其特征在于,包括:
依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理;
依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型。
2.根据权利要求1所述的方法,其特征在于,所述原始训练样本集由表征,其中xi∈RD,yi∈{+1,-1},yi表示xi的类别,N表示训练样本的总个数,D表示训练样本的维数,且预先设定降维后的维数r;则,所述依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理,包括:
令所述训练样本的初始维数d=D,以F={1,...,D}为特征索引集合,以所述原始训练样本集的子集为特征选择训练集合,求解所述SVDD的优化问题 min Σ i = 1 n Σ j = 1 n α i α j ( x i trn ‾ ) T ( x j trn ‾ ) - Σ i = 1 n α i ( x i ren ‾ ) T ( x i trn ‾ ) s . t . Σ i = 1 n α i = 1,0 ≤ α i ≤ C 得到αi,i=1,...,n,其中,中的特征由所述特征索引集合F确定且为同一类别的训练样本,n为+1类样本的个数,αi,i=1,...,n是Lagrange乘子,C为预先设定的惩罚因子且C>0;
依据所述αi,i=1,...,n计算中心向量w:其中w=[w1,w2,…,wd]T∈Rd
依据所述中心向量w查找被剔除的第j个特征
令所述训练样本的低维维数d’=d-1,依据所述第j个特征更新所述特征索引集合F=F\j和所述特征选择训练集合其中,中的特征是由索引集合F来确定的;
判断所述d’是否等于预先设定的降维后的维数r,若不等于,则令d=d’,并重复上述步骤。
3.根据权利要求2所述的方法,其特征在于,还包括:
若所述d’等于预先设定的降维后的维数r,则结束循环,经过降维处理后得到的低维训练样本组成的低维训练样本集由表征,其中
4.根据权利要求3所述的方法,其特征在于,所述依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型,包括:
依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型 f ( x j ‾ ) = sgn ( Σ i = 1 N β i y i ( x i ‾ ) T x j ‾ + b ) , 其中, x t ‾ ∈ R r , βi和b是由支持向量机训练算法训练产生的模型系数,sgn()表示符号函数。
5.根据权利要求1所述的方法,其特征在于,还包括:
通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果。
6.一种医疗诊断模型的建立装置,其特征在于,包括:
特征选择模块,用于依据支持向量数据描述SVDD算法进行特征选择,对预存储的原始训练样本集中的各个训练样本进行降维处理;
模型建立模块,用于依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型。
7.根据权利要求6所述的装置,其特征在于,所述原始训练样本集由表征,其中xi∈RD,yi∈{+1,-1},yi表示xi的类别,N表示训练样本的总个数,D表示训练样本的维数,且预先设定降维后的维数r;则,所述特征选择模块,具体用于:
令所述训练样本的初始维数d=D,以F={1,...,D}为特征索引集合,以所述原始训练样本集的子集为特征选择训练集合,求解所述SVDD的优化问题 min Σ i = 1 n Σ j = 1 n α i α j ( x i trn ‾ ) T ( x j trn ‾ ) - Σ i = 1 n α i ( x i ren ‾ ) T ( x i trn ‾ ) s . t . Σ i = 1 n α i = 1,0 ≤ α i ≤ C 得到αi,i=1,...,n,其中,中的特征由所述特征索引集合F确定且为同一类别的训练样本,n为+1类样本的个数,αi,i=1,...,n是Lagrange乘子,C为预先设定的惩罚因子且C>0;
依据所述αi,i=1,...,n计算中心向量w:其中w=[w1,w2,…,wd]T∈Rd
依据所述中心向量w查找被剔除的第j个特征
令所述训练样本的低维维数d’=d-1,依据所述第j个特征更新所述特征索引集合F=F\j和所述特征选择训练集合其中,中的特征是由索引集合F来确定的;
判断所述d’是否等于预先设定的降维后的维数r,若不等于,则令d=d’,并重复上述步骤。
8.根据权利要求7所述的装置,其特征在于,所述特征选择模块,还用于:
若所述d’等于预先设定的降维后的维数r,则结束循环,经过降维处理后得到的低维训练样本组成的低维训练样本集由表征,其中
9.根据权利要求8所述的装置,其特征在于,所述模型建立模块,具体用于:
依据支持向量机训练算法对经过降维处理后得到的低维训练样本组成的低维训练样本集进行训练,生成医疗诊断模型 f ( x j ‾ ) = sgn ( Σ i = 1 N β i y i ( x i ‾ ) T x j ‾ + b ) , 其中, x t ‾ ∈ R r , βi和b是由支持向量机训练算法训练产生的模型系数,sgn()表示符号函数。
10.根据权利要求6所述的装置,其特征在于,还包括:
医疗诊断模块,用于通过所述SVDD算法进行特征选择,对接收到的测试样本集中的各个测试样本进行降维处理,并将经过降维处理后得到的低维测试样本组成的实测样本集输入所述医疗诊断模型中,对所述实测样本集进行预测,将预测结果作为对所述测试样本集的诊断结果。
CN201410262085.0A 2014-06-13 2014-06-13 一种医疗诊断模型的建立方法及装置 Active CN104657574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410262085.0A CN104657574B (zh) 2014-06-13 2014-06-13 一种医疗诊断模型的建立方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410262085.0A CN104657574B (zh) 2014-06-13 2014-06-13 一种医疗诊断模型的建立方法及装置

Publications (2)

Publication Number Publication Date
CN104657574A true CN104657574A (zh) 2015-05-27
CN104657574B CN104657574B (zh) 2017-10-31

Family

ID=53248692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410262085.0A Active CN104657574B (zh) 2014-06-13 2014-06-13 一种医疗诊断模型的建立方法及装置

Country Status (1)

Country Link
CN (1) CN104657574B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066781A (zh) * 2016-11-03 2017-08-18 西南大学 基于遗传和环境相关的结直肠癌数据模型的分析方法
CN107292087A (zh) * 2017-05-11 2017-10-24 广州讯动网络科技有限公司 一种基于分子光谱分析的定性模型评估方法和系统
CN107908819A (zh) * 2017-10-19 2018-04-13 深圳和而泰智能控制股份有限公司 预测用户状态变化的方法和装置
CN110634565A (zh) * 2019-09-18 2019-12-31 安徽威奥曼机器人有限公司 一种医疗大数据回归分析方法
CN111784022A (zh) * 2019-08-08 2020-10-16 沈阳工业大学 一种基于Wrapper方法与SVM方法结合的短时邻近大雾预测方法
CN112802584A (zh) * 2021-01-26 2021-05-14 武汉大学 一种基于分类器的医疗超声检查数据分类方法及装置
CN115096581A (zh) * 2022-06-23 2022-09-23 上海交通大学 基于时频域特征的复杂传动装置故障诊断溯源方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101403923A (zh) * 2008-10-31 2009-04-08 浙江大学 基于非高斯成分提取和支持向量描述的过程监控方法
CN102591940A (zh) * 2011-12-27 2012-07-18 厦门市美亚柏科信息股份有限公司 一种基于Map/Reduce的快速支持向量数据描述方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101403923A (zh) * 2008-10-31 2009-04-08 浙江大学 基于非高斯成分提取和支持向量描述的过程监控方法
CN102591940A (zh) * 2011-12-27 2012-07-18 厦门市美亚柏科信息股份有限公司 一种基于Map/Reduce的快速支持向量数据描述方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHIQIANG JIANG ET AL.: "A Study of SVDD-based Algorithm to the Fault Diagnosis of Mechanical Equipment System", 《2012 INTERNATIONAL CONFERENCE ON MEDICAL PHYSICS AND BIOMEDICAL ENGINEERING》 *
张莉 等: "密度惩罚支持向量数据描述", 《模式识别与人工智能》 *
谢国城 等: "基于超球体多类支持向量数据描述的医学图像分类新方法", 《计算机应用》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066781A (zh) * 2016-11-03 2017-08-18 西南大学 基于遗传和环境相关的结直肠癌数据模型的分析方法
CN107292087A (zh) * 2017-05-11 2017-10-24 广州讯动网络科技有限公司 一种基于分子光谱分析的定性模型评估方法和系统
CN107908819A (zh) * 2017-10-19 2018-04-13 深圳和而泰智能控制股份有限公司 预测用户状态变化的方法和装置
CN107908819B (zh) * 2017-10-19 2021-05-11 深圳和而泰智能控制股份有限公司 预测用户状态变化的方法和装置
CN111784022A (zh) * 2019-08-08 2020-10-16 沈阳工业大学 一种基于Wrapper方法与SVM方法结合的短时邻近大雾预测方法
CN111784022B (zh) * 2019-08-08 2024-01-30 沈阳工业大学 一种基于Wrapper方法与SVM方法结合的短时邻近大雾预测方法
CN110634565A (zh) * 2019-09-18 2019-12-31 安徽威奥曼机器人有限公司 一种医疗大数据回归分析方法
CN110634565B (zh) * 2019-09-18 2021-04-06 深圳市微克科技有限公司 一种医疗大数据回归分析方法
CN112802584A (zh) * 2021-01-26 2021-05-14 武汉大学 一种基于分类器的医疗超声检查数据分类方法及装置
CN115096581A (zh) * 2022-06-23 2022-09-23 上海交通大学 基于时频域特征的复杂传动装置故障诊断溯源方法及系统

Also Published As

Publication number Publication date
CN104657574B (zh) 2017-10-31

Similar Documents

Publication Publication Date Title
CN104657574A (zh) 一种医疗诊断模型的建立方法及装置
CN109948647A (zh) 一种基于深度残差网络的心电图分类方法及系统
CN105701120A (zh) 确定语义匹配度的方法和装置
CN107292330A (zh) 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
CN111008693B (zh) 一种基于数据压缩的网络模型构建方法、系统和介质
CN106203534A (zh) 一种基于Boosting的代价敏感软件缺陷预测方法
CN110610193A (zh) 标注数据的处理方法及装置
CN103559303A (zh) 一种对数据挖掘算法的评估与选择方法
Liang et al. Image feature selection using genetic programming for figure-ground segmentation
CN108491226A (zh) 基于集群缩放的Spark配置参数自动调优方法
CN107944479A (zh) 基于半监督学习的疾病预测模型建立方法及装置
CN105139282A (zh) 一种电网指标数据处理方法、装置以及计算设备
CN107545038A (zh) 一种文本分类方法与设备
CN105046236A (zh) 一种基于多次投票的迭代式标签噪声识别算法
CN109299252A (zh) 基于机器学习的股票评论的观点极性分类方法和装置
CN115587543A (zh) 基于联邦学习和lstm的刀具剩余寿命预测方法及系统
CN113222149A (zh) 模型训练方法、装置、设备和存储介质
CN104615789A (zh) 一种数据分类方法及装置
CN109035025A (zh) 评价股票评论可靠性的方法和装置
CN105160598A (zh) 一种基于改进em算法的电网业务分类方法
CN106156857A (zh) 用于混合模型选择的方法和装置
CN108759648A (zh) 基于机器学习的探地雷达检测方法
CN106874927A (zh) 一种随机强分类器的构建方法和系统
CN103927560B (zh) 一种特征选择方法及装置
Shukla et al. Modified classification and prediction model for improving accuracy of student placement prediction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200414

Address after: 210000 Zhucheng small forest farm, Chengqiao street, Liuhe District, Nanjing City, Jiangsu Province

Patentee after: NANJING YATE EXPERIMENTAL ANIMAL RESEARCH Co.,Ltd.

Address before: 215123 No. 199 benevolence Road, Suzhou Industrial Park, Jiangsu, China

Patentee before: SOOCHOW University