CN103778444A - 基于支持向量机样本约简的肺结节良恶性鉴别方法 - Google Patents

基于支持向量机样本约简的肺结节良恶性鉴别方法 Download PDF

Info

Publication number
CN103778444A
CN103778444A CN201410007463.0A CN201410007463A CN103778444A CN 103778444 A CN103778444 A CN 103778444A CN 201410007463 A CN201410007463 A CN 201410007463A CN 103778444 A CN103778444 A CN 103778444A
Authority
CN
China
Prior art keywords
prime
sample
alpha
point
cos
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410007463.0A
Other languages
English (en)
Inventor
郭薇
张国栋
周炬
吴海萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Aerospace University
Original Assignee
Shenyang Aerospace University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Aerospace University filed Critical Shenyang Aerospace University
Priority to CN201410007463.0A priority Critical patent/CN103778444A/zh
Publication of CN103778444A publication Critical patent/CN103778444A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Apparatus For Radiation Diagnosis (AREA)

Abstract

本发明涉及一种肺结节良恶性鉴别方法,特别涉及一种基于支持向量机样本约简的肺结节良恶性鉴别方法。通过采集良恶性肺结节的原始样本集S0。针对良恶性肺结节的原始样本集S0进行样本约简,得到支持向量机的良恶性肺结节的最终训练集S2,然后对约简后的最终训练集S2进行支持向量机训练,得到最后的分类决策函数,对未知的肺结节样本xi'进行支持向量机预测,得到肺结节的良恶性鉴别结果。本发明提出一种支持向量机样本约简的方法来提高支持向量机训练速度,降低空间存储要求,从而减少肺结节的良恶性鉴别时间,提高医师的诊断效率和客观一致性。

Description

基于支持向量机样本约简的肺结节良恶性鉴别方法
技术领域
本发明涉及一种肺结节良恶性鉴别方法,特别涉及一种基于支持向量机样本约简的肺结节良恶性鉴别方法。
背景技术
目前,肺癌已经成为危害人类身体健康的恶性肿瘤之一,而且肺癌的发病率和死亡率近年来依然呈上升趋势。在我国,肺癌每年约有40万的患者死亡。据美国癌症协会提供的资料,仅2006年美国新增肺癌病例17.4万人,同年有16.2万人死于肺癌。然而,目前肺癌的治疗效果并不好,主要原因是肺癌在早期阶段没有明显的临床症状,而且缺乏有效的早期检测与诊断手段。80%的患者在治疗时已经属于肺癌中晚期,错失肺癌的最佳治疗时期,其5年的存活率不高于15%。肺癌患者如果能在早期进行检测和诊断,5年的存活率将接近与50%。因此,肺癌早期检测与诊断技术的发展对治疗肺癌患者有着重大意义与价值。
目前,医学领域对肺癌进行早期诊断主要依靠计算机断层扫描技术(ComputedTomography,CT)。1969年,英国工程师Housfield成功研制出计算机断层扫描技术。1974年Ledly成功设计CT装置,CT开始进入医疗领域并得到发展。CT扫描技术在医疗领域发挥其优势的同时,会使得患者的CT扫描图片大幅度增加:1mm层厚的CT扫描图像将达到400-500层,2mm的层厚CT扫描图像将达到100-200层,一个患者病例的全肺图片将达到200-500张,面对如此庞大数量的图片,医师仅凭肉眼要从中辨别出哪些组织正常或是病变、是良性病变、是恶性肿瘤,必须认真检查每一张图片,医师的工作势必会变的枯燥和繁重,而且容易造成医师的疲劳,出现误诊和漏诊的情况。因此,为了减轻医师阅片的工作负担,提高肺结节的检测效率和诊断准确性,产生了计算机辅助诊断(Computer Aided Diagnosis,CAD)系统。
计算机辅助诊断系统,是基于医学影像知识,结合数字图像处理和模式识别等技术,通过对CT图片进行相关的分析处理,把可疑的肺结节位置标记出来并且将结节特征化描叙,然后将这些参考信息提供给放射医师进行诊断。肺癌CAD系统能够对肺部区域进行分割、提取、量化、分类、鉴别,然后再将结果提供给放射医师诊断使用,这样可以有效降低医师的工作量,缓解疲劳,降低误诊率和漏诊率。研究表明,肺癌CAD系统能够提高医生诊断的准确率和客观一致性。可见,肺癌CAD技术的发展对肺癌的早期检测和诊断有着不可估量的作用与意义。
支持向量机虽然取得较好发展,然而它仍然有不足之处。支持向量机的本质是求解数学上的凸二次规划问题,在面临大量的数据样本时训练速度很慢,而且空间存储要求很大,这些不足会限制它在各领域的应用效果。如何克服不足,提高支持向量机的训练速度,推广支持向量机的应用范围和提高应用效果,是很有价值和意义。
发明内容
针对现有技术存在的不足,本发明提供一种训练速度快,空间存储要求小的基于支持向量机样本约简的肺结节良恶性鉴别方法。
本发明的技术方案是这样实现的:基于支持向量机样本约简的肺结节良恶性鉴别方法,具体步骤如下:
步骤1:采集良恶性肺结节的原始样本集S0;样本集是二分类型的数据:一类是正类数据,代表良性肺结节;另一类是负类数据,代表恶性肺结节;
步骤2:针对良恶性肺结节的原始样本集S0进行样本约简,得到支持向量机的良恶性肺结节的最终训练集S2;以样本点和两类样本数据中心连线上的两个点构成一个三角形;记样本点为三角形的顶点,然后分别计算出三角形两个底角的余弦值;再将两个余弦值作商与阈值进行比较,进而挑选出边界样本;
步骤3:对约简后的最终训练集S2进行SVM训练,得到最后的分类决策函数f(x);给定二分类问题的训练集
Figure BDA0000454031720000021
其中xi∈X=Rn,yi∈{+1,-1};得到最终的分类决策函数: f ( x ) = sign ( Σ i = 1 l y i α i ( x · x i ) + b )
式中:w是权值向量,b是偏置系数,αi是拉格朗日系数;
步骤4:对未知的肺结节样本xi'进行支持向量机预测,得到肺结节的良恶性鉴别结果;将未知的肺结节样本xi'代入公式 f ( x ) = sign ( Σ i = 1 l y i α i ( x · x i ) + b ) f ( x i ′ ) = sign ( Σ j = 1 l y j α j K ( x i ′ · x j ) + b )
当f(xi')位0时,肺结节样本xi'即为良性肺结节;当f(xi')<0时,肺结节样本xi'即为恶性肺结节。
步骤2中支持向量机样本约简算具体步骤如下:
步骤2.1:求出良恶性肺结节的原始样本集S0中正、负类数据的最小圆o1,o2;利用支持向量域描述算法分别计算2个圆的圆心o1,o2坐标和半径r1,r2的值;再分别求得球心间的距离o1o2=||o1-o2||和超球半径和r1+r2
步骤2.2:判断正负类数据是否有重叠部分;通过比较两个圆半径和r1+r2与圆心间的距离o1o2,可知有两种情形:a)r1+r2<o1o2则正负类数据无重叠部分;b)r1+r2≥o1o2则正负类数据有重叠部分;点A1,A2分别为圆o1,o2与线段o1o2的交点,点o为线段A1A2的中点,在上述的两种情形下分别计算线段A1A2的中点o的坐标,经过计算得知两种情形下点o的坐标计算公式一致,皆为然后分别计算线段oo1=||o-o1||,oo2=||o-o2||;
步骤2.3:从良恶性肺结节的原始样本集S0中挑选出良恶性肺结节的初始训练集S1;挑选步骤:以线段A1A2的中点o为圆心,以T=min(oo1,oo2)为半径画圆o,并且与线段o1o2交于两点o1',o2';在良恶性肺结节的原始样本集S0中,计算每一个样本点xi与点o的距离d(xi,o),将满足条件d(xi,o)≤T(位于圆o内部的点)的样本点挑选出来作为良恶性肺结节的初始训练集S1
步骤2.4:求解点o1'、o2',点o1',o2'是圆o与线段o1o2相交的两点的坐标;圆o的半径T=min(oo1,oo2)可以有两种取值,导致点o1',o2'中的某一点会与圆的中心o1,o2对应的某一点重合或者与两点都重合,所以有以下三种情形:
a核当r1>r2时,T=min(oo1,oo2)=oo2
o 1 &prime; = ( 1 - 2 T o 1 o 2 ) ( o 2 - o 1 ) + o 1 o 2 &prime; = o 2
b)当r1<r2时,T=min(oo1,oo2)=oo1
o 1 &prime; = o 1 o 2 &prime; = 2 T o 1 o 2 ( o 2 - o 1 ) + o 1
c)当r1=r2时,T=min(oo1,oo2)=oo1=oo2
o 1 &prime; = o 1 o 2 &prime; = o 2
步骤2.5:计算良恶性肺结节初始训练集S1;初始训练集S1中所有的样本点xi到点o1',o2'的距离和线段o1'o2'的长度。以样本点xi为顶点、点o1',o2'为另外两个点构成一个三角形Δxio1'o2',计算三角形Δxio1'o2'各边的长度:
d ( x i , o 1 &prime; ) = | | x i - o 1 &prime; | | d ( x i , o 2 &prime; ) = | | x i - o 2 &prime; | | d ( o 1 &prime; , o 2 &prime; ) = | | o 1 &prime; - o 2 &prime; | |
步骤2.6:计算cosαi1、cosαi2的值;在Δxio1'o2'中,αi1,αi2分别为线段o1'xi、o2'xi与线段o1'o2'之间的夹角,可由公式
Figure BDA0000454031720000042
计算这两个角αi1,αi2的余弦值:
cos &alpha; i 1 = o 1 &prime; x i &RightArrow; &CenterDot; o 1 &prime; o 2 &prime; &RightArrow; d ( x i , o 1 &prime; ) &times; d ( o 1 &prime; , o 2 &prime; ) cos &alpha; i 2 = o 2 &prime; x i &RightArrow; &CenterDot; o 2 &prime; o 1 &prime; &RightArrow; d ( x i , o 2 &prime; ) &times; d ( o 1 &prime; , o 2 &prime; )
步骤2.7:从良恶性肺结节的初始训练集S1中挑选出良恶性肺结节的最终训练集S2
所述步骤2.7:挑选出良恶性肺结节的最终训练集S2的具体方法如下:
&rho; i = ( cos &alpha; i 1 cos &alpha; i 2 ) y i = cos &alpha; i 1 cos &alpha; i 2 , y i = 1 cos &alpha; i 2 cos &alpha; i 1 , y i = - 1 , yi为样本点的类标签(即yi=1时代表样本点为良性肺结节,yi=-1时代表样本点为恶性肺结节),根据正负类数据有无重叠部分,ρi的值变化趋会有不同:
a)在r1+r2<o1o2的情形下,ρi的值变化趋势如下:
i.当样本点在直线op(p点是经过点O且垂直于线段o1'o2'的直线与圆O的交点)上时,因为直线op为线段o1'o2'的中垂线,此时Δxio1'o2'为等腰三角形,所以αi1i2,故 &rho; i = ( cos &alpha; i 1 cos &alpha; i 2 ) y i = 1
ii.当样本点在直线l1,l2(l1,l2分别为经过点o1'、o2'且垂直于线段o1'o2'的直线)上时,因为直线l1,l2都垂直于线段o1'o2',此时Δxio1'o2'为直角三角形,所以对应的αi1,αi2有一个为直角,故
Figure BDA0000454031720000052
iii.当样本点越靠近直线op时,ρi的值越大并趋于1;当样本点越靠近直线l1,l2时,ρi的值越小并趋于0;
综上所述,将训练集S1中满足条件ρi∈[1-σ,1]的样本点挑选出作为训练集S2,其中σ∈(0,1],训练集S2即为最终的支持向量机训练集;
b)在r1+r2≥o1o2的情形下,与第一种情形相比,此情形下的不同主要在于每类样本点可能会分布在直线op的两侧,导致每类样本点的
Figure BDA0000454031720000053
值可能会大于1,而第一种情形下每类样本点分布在直线op的一侧,因此ρi值是趋向于1而不大于1;因此,此情形下的ρi取值变化趋势与第一种情形稍有不同;ρi的值变化趋势如下:
i.当样本点在直线op(p点是经过点O且垂直于线段o1'o2'的直线与圆O的交点)上时,与第一种情形相同, &rho; i = ( cos &alpha; i 1 cos &alpha; i 2 ) y i = 1
ii.当点在直线l1,l2(l1,l2分别为经过点o1'、o2'且垂直于线段o1'o2'的直线)时,与第一种情形相同, &rho; i = ( cos &alpha; i 1 cos &alpha; i 2 ) y i = 0
iii.当每类样本点分居在直线op两侧时(第一种情形的每类样本点都分居在op一侧),此时ρi的值可大于1;当样本点越靠近直线l1,l2时,ρi的值越小趋于0;
综上所述,将训练集S1中满足条件ρi∈[1-σ,1+σ]的样本点挑选出作为训练集S2,其中σ∈(0,1],训练集S2即为最终的支持向量机训练集。
本发明的优点:肺结节良恶性鉴别是肺癌CAD系统的一个主要研究内容,通过对良恶性肺结节特征量化,再利用模式分类算法对肺结节进行分类鉴别。支持向量机算法是基于统计学习理论和结构风险最小化思想,它有着独立的理论背景和分类思想。基于此,支持向量机相比传统的模式分类算法,主要有着以下优势:1)能够避免维数灾难。通过引用核函数技术,将高维特征空间的向量内积转换为原始空间的向量函数计算,进而避免维数灾难;2)克服局部最优问题。支持向量机最终归为求解数学上的凸二次规划问题,局部最优值即为全局最优值时凸二次规划问题的性质;3)在线性和非线性情形下都有较好的分类效果。同样,核函数可将非线性可分的样本通过对应的隐式非线性映射函数映射到高维空间,使得样本变为线性可分,然后在高维空间进行线性分类;4)解决过学习问题。支持向量机最终求解过程是一个带不等式约束条件的问题,约束条件能够限制拉格朗日的取值范围,因此能够避免过学习问题。运用支持向量机样本约简的方法来提高训练速度,降低空间存储要求,然后对良恶性肺结节进行,具有减少肺结节的诊断时间,提高医师的诊断效率和客观一致性的优点。
附图说明
图1是本发明二维线性可分情形下良恶性肺结节的支持向量机分类图;
图2是本发明r1+r2<o1o2情形示意图;
图3是本发明r1+r2≥o1o2情形示意图;
图4是本发明支持向量机样本约简方法的流程图;
图5是本发明肺结节的良恶性鉴别流程图。
具体实施方式
本发明的详细结构结合实施例加以说明。
基于支持向量机样本约简的肺结节良恶性鉴别方法,具体步骤如下:如图1至图5所示,如图1所示,为二维线性可分情形下良恶性肺结节的支持向量机分类图,支持向量机最终分类直线l(l代表能够良恶性肺结节区分开的直线,l左侧的点代表正类样本即良性肺结节,l右侧的点代表负类样本即恶性肺结节)的决定仅与直线l1、l2(l2为良性肺结节的支持向量直线,l1为恶性肺结节的支持向量直线)上的点有关,这些样本点被称为支持向量,而与多数其他样本点即l1、l2直线后方的样本点无关。
步骤1:采集良恶性肺结节的原始样本集S0;样本集是二分类型的数据:一类是正类数据,代表良性肺结节;另一类是负类数据,代表恶性肺结节;
步骤2:针对良恶性肺结节的原始样本集S0进行样本约简,得到支持向量机的良恶性肺结节的最终训练集S2;以样本点和两类样本数据中心连线上的两个点构成一个三角形;记样本点为三角形的顶点,然后分别计算出三角形两个底角的余弦值;再将两个余弦值作商与阈值进行比较,进而挑选出边界样本;
步骤3:对约简后的最终训练集S2进行支持向量机训练,得到最后的分类决策函数f(x);给定二分类问题的训练集其中xi∈X=Rn,yi∈{+1,-1};
一、线性分类支持向量机
·线性可分SVM(线性硬间隔分类器)
支持向量机的目的就是在样本集中找到一个分类面,不仅把两类样本分开,而且保持分类间隔最大,这也是结构风险最小化原理的思想。这里的分类间隔定义为两类样本中与超平面最近的点到超平面的距离之和。假定超平面是w·x+b=0(w是权值向量,b是偏置系数),要求得这个超平面,也就是要保证分类间隔
Figure BDA0000454031720000072
的值最大,转换为求解凸二次优化问题;
Figure BDA0000454031720000073
利用拉格朗日乘子法求得其对偶问题如下:
min 1 2 &Sigma; i = 1 l &Sigma; j = 1 l y i y j &alpha; i &alpha; j - &Sigma; i = 1 l &alpha; i s . t . &Sigma; i = 1 l y i &alpha; i = 0 0 &le; &alpha; i , i = 1,2 , . . . , l - - - ( 1 )
由此解得: w = &Sigma; i = 1 l y i &alpha; i * x i , b = y j - &Sigma; i = 1 l y i &alpha; i * ( x i &CenterDot; x j )
得到最终的分类决策函数: f ( x ) = sign ( &Sigma; i = 1 l y i &alpha; i ( x &CenterDot; x i ) + b )
其中,拉格朗日系数αi是QP问题的解,每一个系数αi对应着一个训练样本,很多系数严格等于0,只有非0系数的样本才会对分类超平面有影响作用。因此,分类超平面只与那些系数不为0的样本有关,这些样本被称为支持向量。
·线性不可分SVM(线性软间隔分类器)
对于线性不可分的样本,支持向量机引入松弛变量ξi进行处理,此时,样本的约束条件由yi[(w·xi)+b)]≥1,i=1,2,…,l
变为约束条件: y i [ ( w &CenterDot; x i ) + + b ) ] &GreaterEqual; 1 - &xi; i , i = 1,2 , . . . , l &xi; i &GreaterEqual; 0 , i = 1 , . . . , l 为了防止拉格朗日系数αi取得过大,需要在目标函数中对其进行控制,因此在目标函数中加入惩罚项,进而使得目标函数由:
Figure BDA0000454031720000082
变为:
因此,凸二次优化问题就变为如下形式:
Figure BDA0000454031720000084
其中,C>0为惩罚因子,以控制目标函数中松弛变量ξi所占的比重。加入松弛变量ξi后的优化函数,不仅可以解决样本线性可分,还可以解决样本线性不可分。当松弛变量ξi=0时,优化的目标函数即为样本线性可分的情形;当ξi>0时,此时优化的目标函数是样本线性不可分情形。样本中存在“野点”(野点为类标签错误的样本点),很可能会严重影响分类超平面。所以,需要松弛变量来对野点进行控制,使其对分类面的影响降到最低。
同样,利用拉格朗日乘子法求解式(3)对偶问题如下:
min 1 2 &Sigma; i = 1 l &Sigma; j = 1 l y i y j &alpha; i &alpha; j ( x i &CenterDot; x j ) - &Sigma; i = 1 l &alpha; i s . t . &Sigma; i = 1 l y i &alpha; i = 0 0 &le; &alpha; i &le; C , i = 1,2 , . . . , l - - - ( 2 )
公式(2)与公式(1)相比,区别就是系数αi的取值范围有了变化。其它地方都一致,求得解: w = &Sigma; i = 1 l y i &alpha; i * x i , b = y j - &Sigma; i = 1 l y i &alpha; i * ( x i &CenterDot; x j )
得到最终的分类决策函数: f ( x ) = sign ( &Sigma; i = 1 l y i &alpha; i ( x &CenterDot; x i ) + b )
二、非线性可分支持向量分类机
现实世界中有很多情形下,样本是非线性可分。此时,需要通过一种非线性变换将样本映射到高维空间使得样本线性可分。SVM通过使用核函数,将在输入空间下非线性可分的样本转换为高维空间线性可分的样本,然后再使用硬间隔或者软间隔分类器进行分类。
核是一个内积函数K,对所有xi,xj∈X,满足:k(x1,x2)=<φ(x1)·φ(x2)>,这里φ是从X到(内积)特征空间F的非线性映射,从公式可看出核函数在输入空间的运算等效于将样本先映射到高维空间,然后进行内积运算。
目前,常用的核函数主要有以下几种:
a)线性核函数k(x1,x2)=<x1,x2>
b)多项式核函数k(x1,x2)=<<x1,x2>+1>d
c)高斯核函数 k ( x 1 , x 2 ) = exp ( - | | x 1 - x 2 | | 2 &sigma; 2 )
d)Sigmoid核函数k(x1,x2)=tanh(a(x1·x2)+c)(a,c∈R)
·非线性硬间隔支持向量机
基于核函数方法,对应的非线性硬间隔支持向量机的优化问题(对偶问题)可表示为:
min 1 2 &Sigma; i = 1 l &Sigma; j = 1 l y i y j &alpha; i &alpha; j K ( x i &CenterDot; x j ) - &Sigma; i = 1 l &alpha; i s . t . &Sigma; i = 1 l y i &alpha; i = 0 0 &le; &alpha; i , i = 1,2 , . . . , l
可求得: w = &Sigma; i = 1 l y i &alpha; i * x i , b = y j - &Sigma; i = 1 l y i &alpha; i * K ( x i &CenterDot; x j )
最终的分类决策函数 f ( x ) = sign ( &Sigma; i = 1 l y i &alpha; i K ( x &CenterDot; x i ) + b )
·非线性软间隔支持向量机
对应的非线性软间隔支持向量机的优化问题(对偶问题)可表示为:
min 1 2 &Sigma; i = 1 l &Sigma; j = 1 l y i y j &alpha; i &alpha; j K ( x i &CenterDot; x j ) - &Sigma; i = 1 l &alpha; i s . t . &Sigma; i = 1 l y i &alpha; i = 0 0 &le; &alpha; i &le; C , i = 1,2 , . . . , l
可求得: w = &Sigma; i = 1 l y i &alpha; i * x i , b = y j - &Sigma; i = 1 l y i &alpha; i * K ( x i &CenterDot; x j )
最终的分类决策函数: f ( x ) = sign ( &Sigma; i = 1 l y i &alpha; i K ( x &CenterDot; x i ) + b )
步骤4:对未知的肺结节样本xi'进行支持向量机预测,得到肺结节的良恶性鉴别结果;将未知的肺结节样本xi'代入公式 f ( x ) = sign ( &Sigma; i = 1 l y i &alpha; i ( x &CenterDot; x i ) + b ) f ( x i &prime; ) = sign ( &Sigma; j = 1 l y j &alpha; j K ( x i &prime; &CenterDot; x j ) + b )
当f(xi')位0时,肺结节样本xi'即为良性肺结节;当f(xi')<0时,肺结节样本xi'即为恶性肺结节。
步骤2中支持向量机样本约简算具体步骤如下:支持向量机样本约简方法的流程图如图2所示:
步骤2.1:求出良恶性肺结节的原始样本集S0中正、负类数据的最小圆o1,o2;本文将利用支持向量域描述的方法获取每类样本的球心和最小超球半径,若给定二分类问题的训练集
Figure BDA0000454031720000111
其中ψ:Rn→F。支持向量域描述的思想就是寻找包含该类数据的最小超球以便能对其进行描述当样本集中不存在噪声或野值样本时,则寻找一个能够包含所有样本的最小球;当样本集中存在噪声或野值样本时,可允许小部分样本位于球的外面使用松弛变量ξi把孤立点排除在超球体外当输人空间中的样本为非球形分布时,引入映射ψ:Rn→F将输人空间中的样本映射到高维空间F中,最小化超球体的体积,可得优化问题:
min R 2 + C &Sigma; i = 1 l &xi; i s . t . | | &psi; ( x i ) - a | | 2 &le; R 2 + &xi; i , &xi; i &GreaterEqual; 0 , i = 1 , . . . , l - - - ( 4 )
其中,R为最小超球半径,a为最小超球球心,ξi是松弛变量,C为惩罚因子。利用拉格朗日方法求解优化问题:
L ( R , a , &xi; i , &alpha; i , ) = R 2 + C &Sigma; i = 1 l &xi; i - &Sigma; i = 1 l &alpha; i ( R 2 + &xi; i - ( K ( x i , x j ) - 2 a&psi; ( x i ) + a &CenterDot; a ) ) - &Sigma; i = 1 l &gamma; i &xi; i - - - ( 5 )
其中,αii是拉格朗日乘子,K(xi,xj)是核函数。分别求拉格朗日函数L对R、a、ξi的导数并使之等于0可得:
&PartialD; L &PartialD; R = 0 &RightArrow; &Sigma; i = 1 l &alpha; i = 1 - - - ( 6 )
&PartialD; L &PartialD; a = 0 &RightArrow; a = &Sigma; i = 1 l &alpha; i &psi; ( x i ) - - - ( 7 )
其中a为最小超球球心(二维情形下a即为圆心),ψ:Rn→F是将输人空间中的样本xi映射到高维特征空间F中,αi是拉格朗日乘子。
&PartialD; L &PartialD; &xi; i = 0 &RightArrow; C - &beta; i - &gamma; i = 0 - - - ( 8 )
将式(3)~(5)带入式(2)求解优化问题的对偶问题如下:
min &Sigma; i = 1 l &Sigma; j = 1 l &alpha; i &alpha; j K ( x i , x j ) - &Sigma; i = 1 l &alpha; i K ( x i , x i ) s . t . | | &psi; ( x i ) - a | | 2 &le; R 2 + &xi; i , &xi; i &GreaterEqual; 0 , i = 1 , . . . , l - - - ( 9 )
求其最优解αi,即可得到特征空间F中的数据域描述在特征空间F中,ψ(xi)到最小超球球心a的距离:
D ( x i ) = | | &psi; ( x i ) - a | | = ( &Sigma; i = 1 l &Sigma; j = 1 l &alpha; i &alpha; j K ( x i , x j ) - 2 &Sigma; j = 1 l &alpha; j K ( x i , x j ) + K ( x i , x j ) ) 1 2 - - - ( 10 )
由式(5)、(6)可以得到:
D(xi)<R→αi=0,γi=0
D(xi)=R→0<αi<C,γi=0
D(xi)<R→αi=C,γi>0
因此,最小超球半径由0<αi<C中对应的任意样本xi与球心a的距离确定:
R=D(xi)
利用支持向量域描述算法分别计算2个圆的圆心o1,o2坐标和半径r1,r2的值;再分别求得球心间的距离o1o2=||o1-o2||和超球半径和r1+r2
步骤2.2:判断正负类数据是否有重叠部分;通过比较两个圆半径和r1+r2与圆心间的距离o1o2,可知有两种情形:a)r1+r2<o1o2,如图2所示,则正负类数据无重叠部分;b)r1+r2≥o1o2如图3所示,则正负类数据有重叠部分;点A1,A2分别为圆o1,o2与线段o1o2的交点,点o为线段A1A2的中点,在上述的两种情形下分别计算线段A1A2的中点o的坐标,经过计算得知两种情形下点o的坐标计算公式一致,皆为
Figure BDA0000454031720000124
然后分别计算线段oo1=||o-o1||,oo2=||o-o2||;
点o的坐标公式推导过程:
a)在图2情形下: o = oo 1 o 1 o 2 ( o 2 - o 1 ) + o 1 , 求得 oA 1 = r 1 + r 2 - o 1 o 2 2 , 再求得oo1=r1+oA1,代入公式中,最后求得
b)在图3情形下: o = oo 1 o 1 o 2 ( o 2 - o 1 ) + o 1 , 求得 oA 1 = r 1 + r 2 - o 1 o 2 2 , 再求得oo1=r1-oA1,代入公式中,最后求得
o = o 1 o 2 + r 1 - r 2 2 o 1 o 2 ( o 2 - o 1 ) + o 1 ;
步骤2.3:从良恶性肺结节的原始样本集S0中挑选出良恶性肺结节的初始训练集S1;挑选步骤:以线段A1A2的中点o为圆心,以T=min(oo1,oo2)为半径画圆o,并且与线段o1o2交于两点o1',o2';在良恶性肺结节的原始样本集S0中,计算每一个样本点xi与点o的距离d(xi,o),将满足条件d(xi,o)≤T(位于圆o内部的点)的样本点挑选出来作为良恶性肺结节的初始训练集S1
步骤2.4:求解点o1'、o2',点o1',o2'是圆o与线段o1o2相交的两点的坐标:圆o的半径T=min(oo1,oo2)可以有两种取值,导致点o1',o2'中的某一点会与圆的中心o1,o2对应的某一点重合或者与两点都重合,所以有以下三种情形:
a核当r1>r2时,T=min(oo1,oo2)=oo2
o 1 &prime; = ( 1 - 2 T o 1 o 2 ) ( o 2 - o 1 ) + o 1 o 2 &prime; = o 2
b)当r1<r2时,T=min(oo1,oo2)=oo1
o 1 &prime; = o 1 o 2 &prime; = 2 T o 1 o 2 ( o 2 - o 1 ) + o 1
c)当r1=r2时,T=min(oo1,oo2)=oo1=oo2
o 1 &prime; = o 1 o 2 &prime; = o 2
步骤2.5:计算良恶性肺结节初始训练集S1;初始训练集S1中所有的样本点xi到点o1',o2'的距离和线段o1'o2'的长度。以样本点xi为顶点、点o1',o2'为另外两个点构成一个三角形Δxio1'o2',计算三角形Δxio1'o2'各边的长度:
d ( x i , o 1 &prime; ) = | | x i - o 1 &prime; | | d ( x i , o 2 &prime; ) = | | x i - o 2 &prime; | | d ( o 1 &prime; , o 2 &prime; ) = | | o 1 &prime; - o 2 &prime; | |
步骤2.6:计算cosαi1、cosαi2的值;在Δxio1'o2'中,αi1,αi2分别为线段o1'xi、o2'xi与线段o1'o2'之间的夹角,可由公式
Figure BDA0000454031720000142
计算这两个角αi1,αi2的余弦值:
cos &alpha; i 1 = o 1 &prime; x i &RightArrow; &CenterDot; o 1 &prime; o 2 &prime; &RightArrow; d ( x i , o 1 &prime; ) &times; d ( o 1 &prime; , o 2 &prime; ) cos &alpha; i 2 = o 2 &prime; x i &RightArrow; &CenterDot; o 2 &prime; o 1 &prime; &RightArrow; d ( x i , o 2 &prime; ) &times; d ( o 1 &prime; , o 2 &prime; )
步骤2.7:从良恶性肺结节的初始训练集S1中挑选出良恶性肺结节的最终训练集S2;所述步骤2.7:挑选出良恶性肺结节的最终训练集S2的具体方法如下:
&rho; i = ( cos &alpha; i 1 cos &alpha; i 2 ) y i = cos &alpha; i 1 cos &alpha; i 2 , y i = 1 cos &alpha; i 2 cos &alpha; i 1 , y i = - 1 , yi为样本点的类标签(即yi=1时代表样本点为良性肺结节,yi=-1时代表样本点为恶性肺结节),根据正负类数据有无重叠部分,ρi的值变化趋会有不同:
a)在r1+r2<o1o2的情形下,ρi的值变化趋势如下:
i.当样本点在直线op(p点是经过点O且垂直于线段o1'o2'的直线与圆O的交点)上时,因为直线op为线段o1'o2'的中垂线,此时Δxio1'o2'为等腰三角形,所以αi1i2,故 &rho; i = ( cos &alpha; i 1 cos &alpha; i 2 ) y i = 1
ii.当样本点在直线l1,l2(l1,l2分别为经过点o1'、o2'且垂直于线段o1'o2'的直线)上时,因为直线l1,l2都垂直于线段o1'o2',此时Δxio1'o2'为直角三角形,所以对应的αi1,αi2有一个为直角,故
iii.当样本点越靠近直线op时,ρi的值越大并趋于1;当样本点越靠近直线l1,l2时,ρi的值越小并趋于0;
综上所述,将训练集S1中满足条件ρi∈[1-σ,1]的样本点挑选出作为训练集S2,其中σ∈(0,1],训练集S2即为最终的支持向量机训练集;
b)在r1+r2≥o1o2的情形下,与第一种情形相比,此情形下的不同主要在于每类样本点可能会分布在直线op的两侧,导致每类样本点的
Figure BDA0000454031720000153
值可能会大于1,而第一种情形下每类样本点分布在直线op的一侧,因此ρi值是趋向于1而不大于1;因此,此情形下的ρi取值变化趋势与第一种情形稍有不同;ρi的值变化趋势如下:
i.当样本点在直线op(p点是经过点O且垂直于线段o1'o2'的直线与圆O的交点)上时,与第一种情形相同, &rho; i = ( cos &alpha; i 1 cos &alpha; i 2 ) y i = 1
ii.当点在直线l1,l2(l1,l2分别为经过点o1'、o2'且垂直于线段o1'o2'的直线)时,与第一种情形相同, &rho; i = ( cos &alpha; i 1 cos &alpha; i 2 ) y i = 0
iii.当每类样本点分居在直线op两侧时(第一种情形的每类样本点都分居在op一侧),此时ρi的值可大于1;当样本点越靠近直线l1,l2时,ρi的值越小趋于0;
综上所述,将训练集S1中满足条件ρi∈[1-σ,1+σ]的样本点挑选出作为训练集S2,其中σ∈(0,1],训练集S2即为最终的支持向量机训练集。

Claims (3)

1.基于支持向量机样本约简的肺结节良恶性鉴别方法,其特征在于:具体步骤如下:
步骤1:采集良恶性肺结节的原始样本集S0;样本集是二分类型的数据:一类是正类数据,代表良性肺结节;另一类是负类数据,代表恶性肺结节;
步骤2:针对良恶性肺结节的原始样本集S0进行样本约简,得到支持向量机的良恶性肺结节的最终训练集S2;以样本点和两类样本数据中心连线上的两个点构成一个三角形;记样本点为三角形的顶点,然后分别计算出三角形两个底角的余弦值;再将两个余弦值作商与阈值进行比较,进而挑选出边界样本;
步骤3:对约简后的最终训练集S2进行支持向量机训练,得到最后的分类决策函数f(x);给定二分类问题的训练集
Figure FDA0000454031710000011
其中xi∈X=Rn,yi∈{+1,-1};得到最终的分类决策函数: f ( x ) = sign ( &Sigma; i = 1 l y i &alpha; i ( x &CenterDot; x i ) + b )
式中:w是权值向量,b是偏置系数,αi是拉格朗日系数:
步骤4:对未知的肺结节样本xi'进行支持向量机预测,得到肺结节的良恶性鉴别结果;将未知的肺结节样本xi'代入公式 f ( x ) = sign ( &Sigma; i = 1 l y i &alpha; i ( x &CenterDot; x i ) + b )
f ( x i &prime; ) = sign ( &Sigma; j = 1 l y j &alpha; j K ( x i &prime; &CenterDot; x j ) + b )
当f(xi')>0时,肺结节样本xi'即为良性肺结节;当f(xi')<0时,肺结节样本xi'即为恶性肺结节。
2.根据权利要求1所述的基于支持向量机样本约简的肺结节良恶性鉴别方法,其特征在于:
所述的步骤2中支持向量机样本约简算具体步骤如下:
步骤2.1:求出良恶性肺结节的原始样本集S0中正、负类数据的最小圆o1,o2;利用支持向量域描述算法分别计算2个圆的圆心o1,o2坐标;和半径r1,r2的值;再分别求得球心间的距离o1o2=||o1-o2||和超球半径和r1+r2
步骤2.2:判断正负类数据是否有重叠部分;通过比较两个圆半径和r1+r2与圆心间的距离o1o2,可知有两种情形:a)r1+r2<o1o2则正负类数据无重叠部分;b)r1+r2≥o1o2则正负类数据有重叠部分;点A1,A2分别为圆o1,o2与线段o1o2的交点,点o为线段A1A2的中点,在上述的两种情形下分别计算线段A1A2的中点o的坐标,经过计算得知两种情形下点o的坐标计算公式一致,皆为然后分别计算线段oo1=||o-o1||,oo2=||o-o2||;
步骤2.3:从良恶性肺结节的原始样本集S0中挑选出良恶性肺结节的初始训练集S1;挑选步骤:以线段A1A2的中点o为圆心,以T=min(oo1,oo2)为半径画圆o,并且与线段o1o2交于两点o1',o2';在良恶性肺结节的原始样本集S0中,计算每一个样本点xi与点o的距离d(xi,o),将满足条件d(xi,o)≤T(位于圆o内部的点)的样本点挑选出来作为良恶性肺结节的初始训练集S1
步骤2.4:求解点o1'、o2',点o1',o2'是圆o与线段o1o2相交的两点的坐标;圆o的半径T=min(oo1,oo2)可以有两种取值,导致点o1',o2'中的某一点会与圆的中心o1,o2对应的某一点重合或者与两点都重合,所以有以下三种情形:
a)当r1>r2时,T=min(oo1,oo2)=oo2
o 1 &prime; = ( 1 - 2 T o 1 o 2 ) ( o 2 - o 1 ) + o 1 o 2 &prime; = o 2
b)当r1<r2时,T=min(oo1,oo2)=oo1
o 1 &prime; = o 1 o 2 &prime; = 2 T o 1 o 2 ( o 2 - o 1 ) + o 1
c)当r1=r2时,T=min(oo1,oo2)=oo1=oo2
o 1 &prime; = o 1 o 2 &prime; = o 2
具体推导过程如下:
当r1>r2时,点o2'与点o2重合,故点o2'的坐标公式:o2'=o2,点o1'的坐标公式: o 1 &prime; = oo 1 &prime; o 1 o 2 ( o 2 - o 1 ) + o 1 , oo 1 &prime; o 1 o 2 = 1 - o 1 &prime; o 2 o 1 o 2 , 求得o1'o2=2T,代入公式,求得 o 1 &prime; = ( 1 - 2 T o 1 o 2 ) ( o 2 - o 1 ) + o 1
当r1<r2时,点o1'与点o1重合,故点o1'的坐标公式:o1'=o1;点o2'的坐标公式: o 2 &prime; = oo 2 &prime; o 1 o 2 ( o 2 - o 1 ) + o 1 , 又知oo2'=2T,故 o 2 &prime; = 2 T o 1 o 2 ( o 2 - o 1 ) + o 1 ,
步骤2.5:计算良恶性肺结节初始训练集S1;初始训练集S1中所有的样本点xi到点o1',o2'的距离和线段o1'o2'的长度;以样本点xi为顶点、点o1',o2'为另外两个点构成一个三角形Δxio1'o2',计算三角形Δxio1'o2'各边的长度:
d ( x i , o 1 &prime; ) = | | x i - o 1 &prime; | | d ( x i , o 2 &prime; ) = | | x i - o 2 &prime; | | d ( o 1 &prime; , o 2 &prime; ) = | | o 1 &prime; - o 2 &prime; | |
步骤2.6:计算cosαi1、cosαi2的值;在Δxio1'o2'中,αi1,αi2分别为线段o1'xi、o2'xi与线段o1'o2'之间的夹角,可由公式
Figure FDA0000454031710000035
计算这两个角αi1,αi2的余弦值:
cos &alpha; i 1 = o 1 &prime; x i &RightArrow; &CenterDot; o 1 &prime; o 2 &prime; &RightArrow; d ( x i , o 1 &prime; ) &times; d ( o 1 &prime; , o 2 &prime; ) cos &alpha; i 2 = o 2 &prime; x i &RightArrow; &CenterDot; o 2 &prime; o 1 &prime; &RightArrow; d ( x i , o 2 &prime; ) &times; d ( o 1 &prime; , o 2 &prime; )
步骤2.7:从良恶性肺结节的初始训练集S1中挑选出良恶性肺结节的最终训练集S2
3.根据权利要求2所述的基于支持向量机样本约简的肺结节良恶性鉴别方法,其特征在于:所述步骤2.7:挑选出良恶性肺结节的最终训练集S2的具体方法如下:
&rho; i = ( cos &alpha; i 1 cos &alpha; i 2 ) y i = cos &alpha; i 1 cos &alpha; i 2 , y i = 1 cos &alpha; i 2 cos &alpha; i 1 , y i = - 1
yi为样本点的类标签(即yi=1时代表样本点为良性肺结节,yi=-1时代表样本点为恶性肺结节),根据正负类数据有无重叠部分,ρi的值变化趋会有不同:
a)在r1+r2<o1o2的情形下,ρi的值变化趋势如下:
i.当样本点在直线op(p点是经过点O且垂直于线段o1'o2'的直线与圆O的交点)上时,因为直线op为线段o1'o2'的中垂线,此时Δxio1'o2'为等腰三角形,所以αi1i2,故 &rho; i = ( cos &alpha; i 1 cos &alpha; i 2 ) y i = 1
ii.当样本点在直线l1,l2(l1,l2分别为经过点o1'、o2'且垂直于线段o1'o2'的直线)上时,因为直线l1,l2都垂直于线段o1'o2',此时Δxio1'o2'为直角三角形,所以对应的αi1,αi2有一个为直角,故
Figure FDA0000454031710000043
iii.当样本点越靠近直线op时,ρi的值越大并趋于1;当样本点越靠近直线l1,l2时,ρi的值越小并趋于0;
综上所述,将训练集S1中满足条件ρi∈[1-σ,1]的样本点挑选出作为训练集S2,其中σ∈(0,1],训练集S2即为最终的支持向量机训练集;
b)在r1+r2≥o1o2的情形下,与第一种情形相比,此情形下的不同主要在于每类样本点可能会分布在直线op的两侧,导致每类样本点的
Figure FDA0000454031710000044
值可能会大于1,而第一种情形下每类样本点分布在直线op的一侧,因此ρi值是趋向于1而不大于1;因此,此情形下的ρi取值变化趋势与第一种情形稍有不同;ρi的值变化趋势如下:
i.当样本点在直线op(p点是经过点O且垂直于线段o1'o2'的直线与圆O的交点)上时,与第一种情形相同, &rho; i = ( cos &alpha; i 1 cos &alpha; i 2 ) y i = 1
ii.当点在直线l1,l2(l1,l2分别为经过点o1'、o2'且垂直于线段o1'o2'的直线)时,与第一种情形相同, &rho; i = ( cos &alpha; i 1 cos &alpha; i 2 ) y i = 0
iii.当每类样本点分居在直线op两侧时(第一种情形的每类样本点都分居在op一侧),此时ρi的值可大于1;当样本点越靠近直线l1,l2时,ρi的值越小趋于0;
将训练集S1中满足条件ρi∈[1-σ,1+σ]的样本点挑选出作为训练集S2,其中σ∈(0,1],训练集S2即为最终的支持向量机训练集。
CN201410007463.0A 2014-01-07 2014-01-07 基于支持向量机样本约简的肺结节良恶性鉴别方法 Pending CN103778444A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410007463.0A CN103778444A (zh) 2014-01-07 2014-01-07 基于支持向量机样本约简的肺结节良恶性鉴别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410007463.0A CN103778444A (zh) 2014-01-07 2014-01-07 基于支持向量机样本约简的肺结节良恶性鉴别方法

Publications (1)

Publication Number Publication Date
CN103778444A true CN103778444A (zh) 2014-05-07

Family

ID=50570657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410007463.0A Pending CN103778444A (zh) 2014-01-07 2014-01-07 基于支持向量机样本约简的肺结节良恶性鉴别方法

Country Status (1)

Country Link
CN (1) CN103778444A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767362A (zh) * 2017-09-01 2018-03-06 苏州侠洛信息科技有限公司 一种基于深度学习的肺癌早筛装置
CN110610488A (zh) * 2019-08-29 2019-12-24 上海杏脉信息科技有限公司 分类训练和检测的方法与装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767362A (zh) * 2017-09-01 2018-03-06 苏州侠洛信息科技有限公司 一种基于深度学习的肺癌早筛装置
CN110610488A (zh) * 2019-08-29 2019-12-24 上海杏脉信息科技有限公司 分类训练和检测的方法与装置

Similar Documents

Publication Publication Date Title
Jadoon et al. Three-class mammogram classification based on descriptive CNN features
Yu et al. An automatic computer-aided detection scheme for pneumoconiosis on digital chest radiographs
Rodrigues et al. Health of things algorithms for malignancy level classification of lung nodules
Froz et al. Lung nodule classification using artificial crawlers, directional texture and support vector machine
Gong et al. Computer-aided diagnosis of lung cancer: the effect of training data sets on classification accuracy of lung nodules
Lashari et al. A framework for medical images classification using soft set
Cao et al. A comprehensive review of computer-aided diagnosis of pulmonary nodules based on computed tomography scans
Wang et al. Breast mass detection in digital mammogram based on gestalt psychology
Radhakrishnan et al. Comparative analysis of feature extraction methods for the classification of prostate cancer from TRUS medical images
Mohanty et al. Retracted article: An improved data mining technique for classification and detection of breast cancer from mammograms
CN111462116A (zh) 基于影像组学特征的多模态参数模型优化融合方法
Ericeira et al. Detection of masses based on asymmetric regions of digital bilateral mammograms using spatial description with variogram and cross-variogram functions
CN104143101A (zh) 一种基于超声图像的乳腺肿瘤区域自动识别方法
Naresh et al. Early detection of lung cancer using neural network techniques
Fanizzi et al. Hough transform for clustered microcalcifications detection in full-field digital mammograms
Nemat et al. Classification of breast lesions in ultrasonography using sparse logistic regression and morphology‐based texture features
Wu et al. Malignant-benign classification of pulmonary nodules based on random forest aided by clustering analysis
Singh et al. SVM based system for classification of microcalcifications in digital mammograms
Rahman et al. Hybrid feature fusion and machine learning approaches for melanoma skin cancer detection
Ali et al. Machine learning based computer-aided diagnosis of liver tumours
Guan et al. Bounded-abstaining classification for breast tumors in imbalanced ultrasound images
Tian et al. Radiomics and Its Clinical Application: Artificial Intelligence and Medical Big Data
Rani et al. Triple novelty block detection and classification approach for lung tumor analysis
Gc et al. Variability measurement for breast cancer classification of mammographic masses
Zhang et al. Multicontext 3D residual CNN for false positive reduction of pulmonary nodule detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140507