CN103761445A - 基于密度诱导1类支持向量机的医疗诊断方法及系统 - Google Patents
基于密度诱导1类支持向量机的医疗诊断方法及系统 Download PDFInfo
- Publication number
- CN103761445A CN103761445A CN201410053830.0A CN201410053830A CN103761445A CN 103761445 A CN103761445 A CN 103761445A CN 201410053830 A CN201410053830 A CN 201410053830A CN 103761445 A CN103761445 A CN 103761445A
- Authority
- CN
- China
- Prior art keywords
- training sample
- data
- suprasphere
- medical diagnostic
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本申请公开了一种基于密度诱导1类支持向量机的医疗诊断方法,包括:计算多个已知数据类型的训练样本的相对密度;由所述训练样本、与每个所述训练样本对应的数据类型和每个所述训练样本的相对密度,构成三元训练样本集;利用所述三元训练样本集来训练密度诱导1类支持向量机,获得一个已知半径的超球体模型;获取待测医疗诊断数据;将所述待测医疗诊断数据代入所述超球体模型中,判断所述待测医疗诊断数据所代表的点是否位于所述超球体模型内,如果是,则表示该待测医疗诊断数据的数据类型为正常,否则表示数据类型为异常。本申请公开的方法,可以有效的将不平衡的医疗诊断数据区分开来,且准确率高。
Description
技术领域
本申请涉及医疗诊断领域,更具体地说,涉及一种基于密度诱导1类支持向量机的医疗诊断方法及系统。
背景技术
传统的医疗诊断是通过医生根据临床经验,对病人进行推理诊断的决策过程。这种决策的正确性完全取决于医生的个人经验,显然传统的这种医疗诊断方法不能够满足现代社会发展的要求。
在现代社会计算机广泛普及的情况下,很多传统的任务都能够采用智能化的手段来处理。智能的医疗诊断过程将比传统的医疗诊断提供更为客观和准确的决策。目前,很多机器学习方法都应用到了医疗诊断中,比如K近邻方法、支持向量机、神经网络等。但是,由于医疗数据是非常不平衡的数据,其正常数据多,非正常数据少,非正常数据反映的是某人是某种疾病的携带者,因而常规的机器学习分类方法不能够获得较好的分类结果。
发明内容
有鉴于此,本申请提供了一种基于密度诱导1类支持向量机的医疗诊断方法及系统,用于解决现有机器学习分类方法针对不平衡的医疗数据,无法有效的进行正确分类的问题。
为了实现上述目的,现提出的方案如下:
一种基于密度诱导1类支持向量机的医疗诊断方法,包括:
计算多个已知数据类型的训练样本的相对密度;
由所述训练样本、与每个所述训练样本对应的数据类型和每个所述训练样本的相对密度,构成三元训练样本集;
利用所述三元训练样本集来训练密度诱导1类支持向量机,获得一个已知半径的超球体模型;
获取待测医疗诊断数据;
将所述待测医疗诊断数据代入所述超球体模型中,判断所述待测医疗诊断数据所代表的点是否位于所述超球体模型内,如果是,则表示该待测医疗诊断数据的数据类型为正常,否则表示数据类型为异常。
优选地,所述多个已知数据类型的训练样本表示为:
优选地,所述计算多个已知数据类型的训练样本的相对密度,具体为:
优选地,所述利用所述三元训练样本集来训练密度诱导1类支持向量机,获得一个已知半径的超球体模型,具体为:
利用所述三元训练样本集,求解下面的二次优化问题:
满足约束条件:
当1≤i≤N+时,0≤αi≤C+,
当N++1≤i≤N时,0≤αi≤C-
通过求解上述二次优化问题,得出αi,i=1,…,N,
利用αi来建立超球体模型,超球体模型的半径表示为:
优选地,所述将所述待测医疗诊断数据代入所述超球体模型中,判断所述待测医疗诊断数据所代表的点是否位于所述超球体模型内,具体为:
令待测医疗诊断数据为x∈RD,将其带入下式:
其中,sgn是符号函数,R是超球体半径,当f(x)=1,则表明x为正常数据,当f(x)=-1,则表明x为异常数据。
一种基于密度诱导1类支持向量机的医疗诊断系统,包括:
相对密度计算单元,用于计算多个已知数据类型的训练样本的相对密度;
训练样本集构成单元,用于利用所述训练样本、与每个所述训练样本对应的数据类型和每个所述训练样本的相对密度,构成三元训练样本集;
模型建立单元,用于利用所述三元训练样本集来训练密度诱导1类支持向量机,获得一个已知半径的超球体模型;
数据获取单元,用于获取待测医疗诊断数据;
数据诊断单元,用于将所述待测医疗诊断数据代入所述超球体模型中,判断所述待测医疗诊断数据所代表的点是否位于所述超球体模型内,如果是,则表示该待测医疗诊断数据的数据类型为正常,否则表示数据类型为异常。
从上述的技术方案可以看出,本申请实施例公开的基于密度诱导1类支持向量机的医疗诊断方法,通过计算训练样本的相对密度,由训练样本、训练样本的数据类型和训练样本的相对密度三者构成三元训练样本集,并利用该训练样本集来训练密度诱导1类支持向量机,得到一个超球体模型,该超球体模型将数据分为了两类,一类位于球内,代表数据是正常数据,反之为异常数据,因此通过该模型即可判断待测医疗诊断数据是否为正常数据。本申请公开的方法,可以有效的将不平衡的医疗诊断数据区分开来,且准确率高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例公开的一种基于密度诱导1类支持向量机的医疗诊断方法流程图;
图2为本申请实施例公开的一种基于密度诱导1类支持向量机的医疗诊断系统结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
实施例一
参见图1,图1为本申请实施例公开的一种基于密度诱导1类支持向量机的医疗诊断方法流程图。
如图1所示,该方法包括:
步骤101:计算多个已知数据类型的训练样本的相对密度;
具体地,我们事先获取已知数据类型的二元训练样本集,然后计算每个训练样本的相对密度,该相对密度代表了该训练样本点附近的样本的多少,如果某个训练样本点的相对密度比较大,则说明该训练样本点处于一个稠密区域,反之,处于一个稀疏区域。
步骤102:构造三元训练样本集;
具体地,该三元训练样本集是由训练样本、与每个训练样本对应的数据类型和每个训练样本的相对密度组成的。
步骤103:利用三元训练样本集来训练密度诱导1类支持向量机;
具体地,通过对密度诱导1类支持向量机的训练,我们可以得到一个已知半径的超球体模型。
步骤104:获取待测医疗诊断数据;
步骤105:利用超球体模型对待测医疗诊断数据进行判断。
具体地,我们将待测医疗诊断数据代入超球体模型中,判断待测医疗诊断数据所代表的点是否位于所述超球体模型中,如果是,则表示该待测医疗诊断数据的数据类型为正常,否则表示其数据类型为异常。特别注意的是,此处所述的位于超球体模型中包括两种情况,第一,数据点在球体内,第二,数据点在球体表面上。
本申请实施例公开的基于密度诱导1类支持向量机的医疗诊断方法,通过计算训练样本的相对密度,由训练样本、训练样本的数据类型和训练样本的相对密度三者构成三元训练样本集,并利用该训练样本集来训练密度诱导1类支持向量机,得到一个超球体模型,该超球体模型将数据分为了两类,一类位于球内,代表数据是正常数据,反之为异常数据,因此通过该模型即可判断待测医疗诊断数据是否为正常数据。本申请公开的方法,可以有效的将不平衡的医疗诊断数据区分开来,且准确率高。
实施例二
下面我们将详细的介绍实施例一中各个步骤的具体实现方式。
首先,我们定义由多个已知数据类型的训练样本构成的二元训练样本集其中xi∈RD,yi∈(+1,-1),N是训练样本的个数,D是训练样本的维数,yi代表训练样本xi的数据类型,若yi=1表示xi为正常数据,若yi=-1表示xi为异常数据。
计算训练样本的相对密度的过程如下:
这种相对密度的计算方法,其意义明确,某个训练样本的相对密度即代表了该训练样本点附近的训练样本的多少,也就是其所处区域的稠密程度。且上述相对密度的计算公式简单,计算量比较少。
可见,三元训练样本集是由以下三项组成的,即训练样本、训练样本的数据类型和训练样本的相对密度。同时参见实施例二开头部分的描述可知,该三元训练样本集还可以描述为在二元训练样本集的基础上,增加一项相对密度的表述。
在得出了三元训练样本集之后,我们开始利用该三元训练样本集来训练密度诱导1类支持向量机进行建模,获得一个已知半径的超球体模型。该过程可以参见下面的论述:
利用三元训练样本集,求解下面的二次优化问题:
满足约束条件:
当1≤i≤N+时,0≤αi≤C+,
当N++1≤i≤N时,0≤αi≤C-
通过求解上述二次优化问题,可以得出αi,i=1,…,N。
利用αi来建立超球体模型,超球体模型的半径表示为:
该超球体模型将数据分为了两类,一类是位于超球体之内的(包括在超球体表面上的点),也就是距离超球体球心的距离小于等于半径R的数据点,这类数据可以看作正常数据,另一类数据即不在超球体之内的,这类数据可以看作异常数据。
模型建立之后,接下来就是对医疗诊断数据进行检查了,可以参见下述过程:
令待测医疗诊断数据为x∈RD,将其带入下式:
其中,sgn是符号函数,R是超球体半径,当f(x)=1,则表明x为正常数据,当f(x)=-1,则表明x为异常数据。
上述公式的含义就是待测医疗诊断数据点至超球体球心的距离(可以将之定义为L)与超球体半径之间的大小关系,当L小于等于R时,f(x)=1,表明x为正常数据,当L大于R时,f(x)=-1,表明x为异常数据。
我们选用本申请的方法与1类支持向量机来实验做比较,其中待测样本共有84个,正常数据为27个,异常数据57个,重复诊断过程84次,下表给出了二者对比结果:
通过上表可以明显的看出,在诊断准确率上,本申请的方法明显优于传统的1类支持向量机。
实施例三
在实施例一的基础上,本实施例进一步公开了一种基于密度诱导1类支持向量机的医疗诊断系统。
参见图2,图2为本申请实施例公开的一种基于密度诱导1类支持向量机的医疗诊断系统结构图。
如图2所示,该系统包括:
相对密度计算单元21,用于计算多个已知数据类型的训练样本的相对密度;
训练样本集构成单元22,用于利用所述训练样本、与每个所述训练样本对应的数据类型和每个所述训练样本的相对密度,构成三元训练样本集;
模型建立单元23,用于利用所述三元训练样本集来训练密度诱导1类支持向量机,获得一个已知半径的超球体模型;
数据获取单元24,用于获取待测医疗诊断数据;
数据诊断单元25,用于将所述待测医疗诊断数据代入所述超球体模型中,判断所述待测医疗诊断数据所代表的点是否位于所述超球体模型内,如果是,则表示该待测医疗诊断数据的数据类型为正常,否则表示数据类型为异常。
本申请实施例公开的基于密度诱导1类支持向量机的医疗诊断系统,通过相对密度计算单元21计算训练样本的相对密度,训练样本集构成单元22利用训练样本、训练样本的数据类型和训练样本的相对密度三者构成三元训练样本集,并由模型建立单元23利用训练样本集来训练密度诱导1类支持向量机,得到一个超球体模型,该超球体模型将数据分为了两类,一类位于球内,代表数据是正常数据,反之为异常数据,因此通过该模型即可判断待测医疗诊断数据是否为正常数据。利用本申请公开的系统,可以有效的将不平衡的医疗诊断数据区分开来,且准确率高。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种基于密度诱导1类支持向量机的医疗诊断方法,其特征在于,包括:
计算多个已知数据类型的训练样本的相对密度;
由所述训练样本、与每个所述训练样本对应的数据类型和每个所述训练样本的相对密度,构成三元训练样本集;
利用所述三元训练样本集来训练密度诱导1类支持向量机,获得一个已知半径的超球体模型;
获取待测医疗诊断数据;
将所述待测医疗诊断数据代入所述超球体模型中,判断所述待测医疗诊断数据所代表的点是否位于所述超球体模型内,如果是,则表示该待测医疗诊断数据的数据类型为正常,否则表示数据类型为异常。
3.根据权利要求2所述的医疗诊断方法,其特征在于,所述计算多个已知数据类型的训练样本的相对密度,具体为:
对xi寻找其k个近邻,令xi与第k个近邻的距离为则该训练样本的相对密度为:
4.根据权利要求3所述的医疗诊断方法,其特征在于,所述三元训练样本集为:
6.根据权利要求5所述的医疗诊断方法,其特征在于,所述将所述待测医疗诊断数据代入所述超球体模型中,判断所述待测医疗诊断数据所代表的点是否位于所述超球体模型内,具体为:
令待测医疗诊断数据为x∈RD,将其带入下式:
其中,sgn是符号函数,R是超球体半径,当f(x)=1,则表明x为正常数据,当f(x)=-1,则表明x为异常数据。
7.一种基于密度诱导1类支持向量机的医疗诊断系统,其特征在于,包括:
相对密度计算单元,用于计算多个已知数据类型的训练样本的相对密度;
训练样本集构成单元,用于利用所述训练样本、与每个所述训练样本对应的数据类型和每个所述训练样本的相对密度,构成三元训练样本集;
模型建立单元,用于利用所述三元训练样本集来训练密度诱导1类支持向量机,获得一个已知半径的超球体模型;
数据获取单元,用于获取待测医疗诊断数据;
数据诊断单元,用于将所述待测医疗诊断数据代入所述超球体模型中,判断所述待测医疗诊断数据所代表的点是否位于所述超球体模型内,如果是,则表示该待测医疗诊断数据的数据类型为正常,否则表示数据类型为异常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410053830.0A CN103761445A (zh) | 2014-02-18 | 2014-02-18 | 基于密度诱导1类支持向量机的医疗诊断方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410053830.0A CN103761445A (zh) | 2014-02-18 | 2014-02-18 | 基于密度诱导1类支持向量机的医疗诊断方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103761445A true CN103761445A (zh) | 2014-04-30 |
Family
ID=50528681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410053830.0A Pending CN103761445A (zh) | 2014-02-18 | 2014-02-18 | 基于密度诱导1类支持向量机的医疗诊断方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103761445A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295712A (zh) * | 2016-08-19 | 2017-01-04 | 苏州大学 | 一种故障检测方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101403923A (zh) * | 2008-10-31 | 2009-04-08 | 浙江大学 | 基于非高斯成分提取和支持向量描述的过程监控方法 |
KR20100001786A (ko) * | 2008-06-27 | 2010-01-06 | 고려대학교 산학협력단 | 서포트 벡터 데이터 명세를 이용한 트래픽 폭주 공격 탐지방법, 그 장치 및 이를 기록한 기록 매체 |
-
2014
- 2014-02-18 CN CN201410053830.0A patent/CN103761445A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100001786A (ko) * | 2008-06-27 | 2010-01-06 | 고려대학교 산학협력단 | 서포트 벡터 데이터 명세를 이용한 트래픽 폭주 공격 탐지방법, 그 장치 및 이를 기록한 기록 매체 |
CN101403923A (zh) * | 2008-10-31 | 2009-04-08 | 浙江大学 | 基于非高斯成分提取和支持向量描述的过程监控方法 |
Non-Patent Citations (4)
Title |
---|
KIYOUNG LEE 等: "Density-Induced Support Vector Data Description", 《IEEE TRANSACTIONS ON NEURAL NETWORKS》 * |
KIYOUNG LEE 等: "Improving support vector data description using local density degree", 《PATTERN RECOGNITION》 * |
张莉 等: "密度惩罚支持向量数据描述", 《模式识别与人工智能》 * |
胡中辉 等: "基于属性约简及支持向量机的医疗诊断决策研究", 《计算机工程与应用》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295712A (zh) * | 2016-08-19 | 2017-01-04 | 苏州大学 | 一种故障检测方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107122452A (zh) | 时序化的学生认知诊断方法 | |
CN106874693A (zh) | 一种医疗大数据分析处理系统及方法 | |
CN101587155A (zh) | 一种油浸式变压器的故障诊断方法 | |
CN104915735A (zh) | 企业运营分析预警系统的预警分析方法 | |
CN105373703B (zh) | 一种基于遗忘曲线的自适应能力测试系统 | |
CN103605970A (zh) | 一种基于机器学习的图纸建筑元素识别方法及系统 | |
Rapp et al. | A comparison of reliability measures for continuous and discontinuous recording methods: Inflated agreement scores with partial interval recording and momentary time sampling for duration events | |
Hurford et al. | Examination of the variables that predict freshman retention | |
CN106709421A (zh) | 一种基于变换域特征和cnn的细胞图像识别分类方法 | |
Li et al. | An artificial intelligence based model for evaluation of college students’ ability and characteristics through teaching evaluation | |
Barile et al. | Classification of multiple sclerosis clinical profiles using machine learning and grey matter connectome | |
CN103761445A (zh) | 基于密度诱导1类支持向量机的医疗诊断方法及系统 | |
Cassey et al. | Using alien coins to test whether simple inference is Bayesian. | |
CN106296502A (zh) | 教师评价方法及系统 | |
CN105336235A (zh) | 一种用于智能学习系统的分值设定方法 | |
Yulianti et al. | Decision support system for selection of exemplary students using the analytical hierarchy process (AHP) method | |
CN104268566A (zh) | 淋巴结疾病智能诊断系统中的数据处理方法 | |
CN106327404A (zh) | 一种灾害综合评估中多源数据冲突检测与消解方法 | |
CN106371988A (zh) | 一种自动化测试界面的方法和装置 | |
CN105069506B (zh) | 一种处理冲突信息的高炉悬料诊断方法 | |
CN106502893B (zh) | 一种对软件功能进行测试的方法及装置 | |
Shokoohi-Yekta et al. | Developing Autism Screening Expert System (ASES) | |
Cheng | The Relation between uncertainty in latent class membership and outcomes in a latent class signal detection model | |
Zhang et al. | The complexity of the Latin Square Task and its influence on children’s performance | |
Alekseev et al. | Using Fuzzy Logic in Knowledge Tests. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140430 |