CN103778444A

CN103778444A - 基于支持向量机样本约简的肺结节良恶性鉴别方法

Info

Publication number: CN103778444A
Application number: CN201410007463.0A
Authority: CN
Inventors: 郭薇; 张国栋; 周炬; 吴海萍
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2014-01-07
Filing date: 2014-01-07
Publication date: 2014-05-07

Abstract

本发明涉及一种肺结节良恶性鉴别方法，特别涉及一种基于支持向量机样本约简的肺结节良恶性鉴别方法。通过采集良恶性肺结节的原始样本集S₀。针对良恶性肺结节的原始样本集S₀进行样本约简，得到支持向量机的良恶性肺结节的最终训练集S₂，然后对约简后的最终训练集S₂进行支持向量机训练，得到最后的分类决策函数，对未知的肺结节样本x_i'进行支持向量机预测，得到肺结节的良恶性鉴别结果。本发明提出一种支持向量机样本约简的方法来提高支持向量机训练速度，降低空间存储要求，从而减少肺结节的良恶性鉴别时间，提高医师的诊断效率和客观一致性。

Description

基于支持向量机样本约简的肺结节良恶性鉴别方法

技术领域

本发明涉及一种肺结节良恶性鉴别方法，特别涉及一种基于支持向量机样本约简的肺结节良恶性鉴别方法。

背景技术

目前，肺癌已经成为危害人类身体健康的恶性肿瘤之一，而且肺癌的发病率和死亡率近年来依然呈上升趋势。在我国，肺癌每年约有40万的患者死亡。据美国癌症协会提供的资料，仅2006年美国新增肺癌病例17.4万人，同年有16.2万人死于肺癌。然而，目前肺癌的治疗效果并不好，主要原因是肺癌在早期阶段没有明显的临床症状，而且缺乏有效的早期检测与诊断手段。80%的患者在治疗时已经属于肺癌中晚期，错失肺癌的最佳治疗时期，其5年的存活率不高于15%。肺癌患者如果能在早期进行检测和诊断，5年的存活率将接近与50%。因此，肺癌早期检测与诊断技术的发展对治疗肺癌患者有着重大意义与价值。

目前，医学领域对肺癌进行早期诊断主要依靠计算机断层扫描技术(ComputedTomography，CT)。1969年，英国工程师Housfield成功研制出计算机断层扫描技术。1974年Ledly成功设计CT装置，CT开始进入医疗领域并得到发展。CT扫描技术在医疗领域发挥其优势的同时，会使得患者的CT扫描图片大幅度增加：1mm层厚的CT扫描图像将达到400-500层，2mm的层厚CT扫描图像将达到100-200层，一个患者病例的全肺图片将达到200-500张，面对如此庞大数量的图片，医师仅凭肉眼要从中辨别出哪些组织正常或是病变、是良性病变、是恶性肿瘤，必须认真检查每一张图片，医师的工作势必会变的枯燥和繁重，而且容易造成医师的疲劳，出现误诊和漏诊的情况。因此，为了减轻医师阅片的工作负担，提高肺结节的检测效率和诊断准确性，产生了计算机辅助诊断(Computer Aided Diagnosis，CAD)系统。

计算机辅助诊断系统，是基于医学影像知识，结合数字图像处理和模式识别等技术，通过对CT图片进行相关的分析处理，把可疑的肺结节位置标记出来并且将结节特征化描叙，然后将这些参考信息提供给放射医师进行诊断。肺癌CAD系统能够对肺部区域进行分割、提取、量化、分类、鉴别，然后再将结果提供给放射医师诊断使用，这样可以有效降低医师的工作量，缓解疲劳，降低误诊率和漏诊率。研究表明，肺癌CAD系统能够提高医生诊断的准确率和客观一致性。可见，肺癌CAD技术的发展对肺癌的早期检测和诊断有着不可估量的作用与意义。

支持向量机虽然取得较好发展，然而它仍然有不足之处。支持向量机的本质是求解数学上的凸二次规划问题，在面临大量的数据样本时训练速度很慢，而且空间存储要求很大，这些不足会限制它在各领域的应用效果。如何克服不足，提高支持向量机的训练速度，推广支持向量机的应用范围和提高应用效果，是很有价值和意义。

发明内容

针对现有技术存在的不足，本发明提供一种训练速度快，空间存储要求小的基于支持向量机样本约简的肺结节良恶性鉴别方法。

本发明的技术方案是这样实现的：基于支持向量机样本约简的肺结节良恶性鉴别方法，具体步骤如下：

步骤1：采集良恶性肺结节的原始样本集S₀；样本集是二分类型的数据：一类是正类数据，代表良性肺结节；另一类是负类数据，代表恶性肺结节；

步骤2：针对良恶性肺结节的原始样本集S₀进行样本约简，得到支持向量机的良恶性肺结节的最终训练集S₂；以样本点和两类样本数据中心连线上的两个点构成一个三角形；记样本点为三角形的顶点，然后分别计算出三角形两个底角的余弦值；再将两个余弦值作商与阈值进行比较，进而挑选出边界样本；

步骤3：对约简后的最终训练集S₂进行SVM训练，得到最后的分类决策函数f(x)；给定二分类问题的训练集

其中x_i∈X=Rⁿ,y_i∈{+1,-1}；得到最终的分类决策函数：

f (x) = sign (Σ_{i = 1}^{l} y_{i} α_{i} (x \cdot x_{i}) + b)

式中：w是权值向量，b是偏置系数，α_i是拉格朗日系数；

步骤4：对未知的肺结节样本x_i'进行支持向量机预测，得到肺结节的良恶性鉴别结果；将未知的肺结节样本x_i'代入公式

f (x) = sign (Σ_{i = 1}^{l} y_{i} α_{i} (x \cdot x_{i}) + b)

得

f ({x_{i}}^{'}) = sign (Σ_{j = 1}^{l} y_{j} α_{j} K ({x_{i}}^{'} \cdot x_{j}) + b)

当f(x_i')位0时，肺结节样本x_i'即为良性肺结节；当f(x_i')<0时，肺结节样本x_i'即为恶性肺结节。

步骤2中支持向量机样本约简算具体步骤如下：

步骤2.1：求出良恶性肺结节的原始样本集S₀中正、负类数据的最小圆o₁，o₂；利用支持向量域描述算法分别计算2个圆的圆心o₁，o₂坐标和半径r₁,r₂的值；再分别求得球心间的距离o₁o₂=||o₁-o₂||和超球半径和r₁+r₂；

步骤2.2：判断正负类数据是否有重叠部分；通过比较两个圆半径和r₁+r₂与圆心间的距离o₁o₂，可知有两种情形：a)r₁+r₂<o₁o₂则正负类数据无重叠部分；b)r₁+r₂≥o₁o₂则正负类数据有重叠部分；点A₁，A₂分别为圆o₁，o₂与线段o₁o₂的交点，点o为线段A₁A₂的中点，在上述的两种情形下分别计算线段A₁A₂的中点o的坐标，经过计算得知两种情形下点o的坐标计算公式一致，皆为然后分别计算线段oo₁=||o-o₁||,oo₂=||o-o₂||；

步骤2.3：从良恶性肺结节的原始样本集S₀中挑选出良恶性肺结节的初始训练集S₁；挑选步骤：以线段A₁A₂的中点o为圆心，以T=min(oo₁,oo₂)为半径画圆o，并且与线段o₁o₂交于两点o₁',o₂'；在良恶性肺结节的原始样本集S₀中，计算每一个样本点x_i与点o的距离d(x_i,o)，将满足条件d(x_i,o)≤T(位于圆o内部的点)的样本点挑选出来作为良恶性肺结节的初始训练集S₁；

步骤2.4：求解点o₁'、o₂'，点o₁',o₂'是圆o与线段o₁o₂相交的两点的坐标；圆o的半径T=min(oo₁,oo₂)可以有两种取值，导致点o₁',o₂'中的某一点会与圆的中心o₁，o₂对应的某一点重合或者与两点都重合，所以有以下三种情形：

a核当r₁>r₂时，T=min(oo₁,oo₂)=oo₂

\{\begin{matrix} {o_{1}}^{'} = (1 - \frac{2 T}{o_{1} o_{2}}) (o_{2} - o_{1}) + o_{1} \\ {o_{2}}^{'} = o_{2} \end{matrix}

b)当r₁<r₂时，T=min(oo₁,oo₂)=oo₁

\{\begin{matrix} {o_{1}}^{'} = o_{1} \\ {o_{2}}^{'} = \frac{2 T}{o_{1} o_{2}} (o_{2} - o_{1}) + o_{1} \end{matrix}

c)当r₁=r₂时，T=min(oo₁,oo₂)=oo₁=oo₂

\{\begin{matrix} {o_{1}}^{'} = o_{1} \\ {o_{2}}^{'} = o_{2} \end{matrix}

步骤2.5：计算良恶性肺结节初始训练集S₁；初始训练集S₁中所有的样本点x_i到点o₁',o₂'的距离和线段o₁'o₂'的长度。以样本点x_i为顶点、点o₁',o₂'为另外两个点构成一个三角形Δx_io₁'o₂'，计算三角形Δx_io₁'o₂'各边的长度：

\{\begin{matrix} d (x_{i}, {o_{1}}^{'}) = | | x_{i} - {o_{1}}^{'} | | \\ d (x_{i}, {o_{2}}^{'}) = | | x_{i} - {o_{2}}^{'} | | \\ d ({o_{1}}^{'}, {o_{2}}^{'}) = | | {o_{1}}^{'} - {o_{2}}^{'} | | \end{matrix}

步骤2.6：计算cosα_i1、cosα_i2的值；在Δx_io₁'o₂'中，α_i1，α_i2分别为线段o₁'x_i、o₂'x_i与线段o₁'o₂'之间的夹角，可由公式

计算这两个角α_i1，α_i2的余弦值：

\{\begin{matrix} \cos α_{i 1} = \frac{\overset{&RightArrow;}{{o_{1}}^{'} x_{i}} \cdot \overset{&RightArrow;}{{o_{1}}^{'} {o_{2}}^{'}}}{d (x_{i}, {o_{1}}^{'}) \times d ({o_{1}}^{'}, {o_{2}}^{'})} \\ \cos α_{i 2} = \frac{\overset{&RightArrow;}{{o_{2}}^{'} x_{i}} \cdot \overset{&RightArrow;}{{o_{2}}^{'} {o_{1}}^{'}}}{d (x_{i}, {o_{2}}^{'}) \times d ({o_{1}}^{'}, {o_{2}}^{'})} \end{matrix}

步骤2.7：从良恶性肺结节的初始训练集S₁中挑选出良恶性肺结节的最终训练集S₂；

所述步骤2.7：挑选出良恶性肺结节的最终训练集S₂的具体方法如下：

令

ρ_{i} = {(\frac{\cos α_{i 1}}{\cos α_{i 2}})}^{y_{i}} = \{\begin{matrix} \frac{\cos α_{i 1}}{\cos α_{i 2}}, y_{i} = 1 \\ \frac{\cos α_{i 2}}{\cos α_{i 1}}, y_{i} = - 1 \end{matrix},

y_i为样本点的类标签(即y_i=1时代表样本点为良性肺结节，y_i=-1时代表样本点为恶性肺结节)，根据正负类数据有无重叠部分，ρ_i的值变化趋会有不同：

a)在r₁+r₂<o₁o₂的情形下，ρ_i的值变化趋势如下：

i.当样本点在直线op(p点是经过点O且垂直于线段o₁'o₂'的直线与圆O的交点)上时，因为直线op为线段o₁'o₂'的中垂线，此时Δx_io₁'o₂'为等腰三角形，所以α_i1=α_i2，故

ρ_{i} = {(\frac{\cos α_{i 1}}{\cos α_{i 2}})}^{y_{i}} = 1

ii.当样本点在直线l₁，l₂(l₁，l₂分别为经过点o₁'、o₂'且垂直于线段o₁'o₂'的直线)上时，因为直线l₁，l₂都垂直于线段o₁'o₂'，此时Δx_io₁'o₂'为直角三角形，所以对应的α_i1，α_i2有一个为直角，故

iii.当样本点越靠近直线op时，ρ_i的值越大并趋于1；当样本点越靠近直线l₁，l₂时，ρ_i的值越小并趋于0；

综上所述，将训练集S₁中满足条件ρ_i∈[1-σ,1]的样本点挑选出作为训练集S₂，其中σ∈(0,1]，训练集S₂即为最终的支持向量机训练集；

b)在r₁+r₂≥o₁o₂的情形下，与第一种情形相比，此情形下的不同主要在于每类样本点可能会分布在直线op的两侧，导致每类样本点的

值可能会大于1，而第一种情形下每类样本点分布在直线op的一侧，因此ρ_i值是趋向于1而不大于1；因此，此情形下的ρ_i取值变化趋势与第一种情形稍有不同；ρ_i的值变化趋势如下：

i.当样本点在直线op(p点是经过点O且垂直于线段o₁'o₂'的直线与圆O的交点)上时，与第一种情形相同，

ρ_{i} = {(\frac{\cos α_{i 1}}{\cos α_{i 2}})}^{y_{i}} = 1

ii.当点在直线l₁，l₂(l₁，l₂分别为经过点o₁'、o₂'且垂直于线段o₁'o₂'的直线)时，与第一种情形相同，

ρ_{i} = {(\frac{\cos α_{i 1}}{\cos α_{i 2}})}^{y_{i}} = 0

iii.当每类样本点分居在直线op两侧时(第一种情形的每类样本点都分居在op一侧)，此时ρ_i的值可大于1；当样本点越靠近直线l₁，l₂时，ρ_i的值越小趋于0；

综上所述，将训练集S₁中满足条件ρ_i∈[1-σ,1+σ]的样本点挑选出作为训练集S₂，其中σ∈(0,1]，训练集S₂即为最终的支持向量机训练集。

本发明的优点：肺结节良恶性鉴别是肺癌CAD系统的一个主要研究内容，通过对良恶性肺结节特征量化，再利用模式分类算法对肺结节进行分类鉴别。支持向量机算法是基于统计学习理论和结构风险最小化思想，它有着独立的理论背景和分类思想。基于此，支持向量机相比传统的模式分类算法，主要有着以下优势：1)能够避免维数灾难。通过引用核函数技术，将高维特征空间的向量内积转换为原始空间的向量函数计算，进而避免维数灾难；2)克服局部最优问题。支持向量机最终归为求解数学上的凸二次规划问题，局部最优值即为全局最优值时凸二次规划问题的性质；3)在线性和非线性情形下都有较好的分类效果。同样，核函数可将非线性可分的样本通过对应的隐式非线性映射函数映射到高维空间，使得样本变为线性可分，然后在高维空间进行线性分类；4)解决过学习问题。支持向量机最终求解过程是一个带不等式约束条件的问题，约束条件能够限制拉格朗日的取值范围，因此能够避免过学习问题。运用支持向量机样本约简的方法来提高训练速度，降低空间存储要求，然后对良恶性肺结节进行，具有减少肺结节的诊断时间，提高医师的诊断效率和客观一致性的优点。

附图说明

图1是本发明二维线性可分情形下良恶性肺结节的支持向量机分类图；

图2是本发明r₁+r₂<o₁o₂情形示意图；

图3是本发明r₁+r₂≥o₁o₂情形示意图；

图4是本发明支持向量机样本约简方法的流程图；

图5是本发明肺结节的良恶性鉴别流程图。

具体实施方式

本发明的详细结构结合实施例加以说明。

基于支持向量机样本约简的肺结节良恶性鉴别方法，具体步骤如下：如图1至图5所示，如图1所示，为二维线性可分情形下良恶性肺结节的支持向量机分类图，支持向量机最终分类直线l(l代表能够良恶性肺结节区分开的直线，l左侧的点代表正类样本即良性肺结节，l右侧的点代表负类样本即恶性肺结节)的决定仅与直线l₁、l₂(l₂为良性肺结节的支持向量直线，l₁为恶性肺结节的支持向量直线)上的点有关，这些样本点被称为支持向量，而与多数其他样本点即l₁、l₂直线后方的样本点无关。

步骤3：对约简后的最终训练集S₂进行支持向量机训练，得到最后的分类决策函数f(x)；给定二分类问题的训练集其中x_i∈X=Rⁿ,y_i∈{+1,-1}；

一、线性分类支持向量机

·线性可分SVM(线性硬间隔分类器)

支持向量机的目的就是在样本集中找到一个分类面，不仅把两类样本分开，而且保持分类间隔最大，这也是结构风险最小化原理的思想。这里的分类间隔定义为两类样本中与超平面最近的点到超平面的距离之和。假定超平面是w·x+b=0(w是权值向量，b是偏置系数)，要求得这个超平面，也就是要保证分类间隔

的值最大，转换为求解凸二次优化问题；

利用拉格朗日乘子法求得其对偶问题如下：

\{\begin{matrix} \min \frac{1}{2} Σ_{i = 1}^{l} Σ_{j = 1}^{l} y_{i} y_{j} α_{i} α_{j} - Σ_{i = 1}^{l} α_{i} \\ s . t . Σ_{i = 1}^{l} y_{i} α_{i} = 0 \\ 0 \leq α_{i}, i = 1,2, . . ., l \end{matrix} - - - (1)

由此解得：

w = Σ_{i = 1}^{l} y_{i} {α_{i}}^{*} x_{i}, b = y_{j} - Σ_{i = 1}^{l} y_{i} {α_{i}}^{*} (x_{i} \cdot x_{j})

得到最终的分类决策函数：

f (x) = sign (Σ_{i = 1}^{l} y_{i} α_{i} (x \cdot x_{i}) + b)

其中，拉格朗日系数α_i是QP问题的解，每一个系数α_i对应着一个训练样本，很多系数严格等于0，只有非0系数的样本才会对分类超平面有影响作用。因此，分类超平面只与那些系数不为0的样本有关，这些样本被称为支持向量。

·线性不可分SVM(线性软间隔分类器)

对于线性不可分的样本，支持向量机引入松弛变量ξ_i进行处理，此时，样本的约束条件由y_i[(w·x_i)+b)]≥1,i=1,2,…,l

变为约束条件：

\{\begin{matrix} y_{i} [(w \cdot x_{i}) + + b)] &GreaterEqual; 1 - ξ_{i}, i = 1,2, . . ., l \\ ξ_{i} &GreaterEqual; 0, i = 1, . . ., l \end{matrix}

为了防止拉格朗日系数α_i取得过大，需要在目标函数中对其进行控制，因此在目标函数中加入惩罚项，进而使得目标函数由：

变为：

因此，凸二次优化问题就变为如下形式：

其中，C>0为惩罚因子，以控制目标函数中松弛变量ξ_i所占的比重。加入松弛变量ξ_i后的优化函数，不仅可以解决样本线性可分，还可以解决样本线性不可分。当松弛变量ξ_i=0时，优化的目标函数即为样本线性可分的情形；当ξ_i>0时，此时优化的目标函数是样本线性不可分情形。样本中存在“野点”(野点为类标签错误的样本点)，很可能会严重影响分类超平面。所以，需要松弛变量来对野点进行控制，使其对分类面的影响降到最低。

同样，利用拉格朗日乘子法求解式(3)对偶问题如下：

\{\begin{matrix} \min \frac{1}{2} Σ_{i = 1}^{l} Σ_{j = 1}^{l} y_{i} y_{j} α_{i} α_{j} (x_{i} \cdot x_{j}) - Σ_{i = 1}^{l} α_{i} \\ s . t . Σ_{i = 1}^{l} y_{i} α_{i} = 0 \\ 0 \leq α_{i} \leq C, i = 1,2, . . ., l \end{matrix} - - - (2)

公式(2)与公式(1)相比，区别就是系数α_i的取值范围有了变化。其它地方都一致，求得解：

w = Σ_{i = 1}^{l} y_{i} {α_{i}}^{*} x_{i}, b = y_{j} - Σ_{i = 1}^{l} y_{i} {α_{i}}^{*} (x_{i} \cdot x_{j})

得到最终的分类决策函数：

f (x) = sign (Σ_{i = 1}^{l} y_{i} α_{i} (x \cdot x_{i}) + b)

二、非线性可分支持向量分类机

现实世界中有很多情形下，样本是非线性可分。此时，需要通过一种非线性变换将样本映射到高维空间使得样本线性可分。SVM通过使用核函数，将在输入空间下非线性可分的样本转换为高维空间线性可分的样本，然后再使用硬间隔或者软间隔分类器进行分类。

核是一个内积函数K，对所有x_i,x_j∈X，满足：k(x₁,x₂)=<φ(x₁)·φ(x₂)>，这里φ是从X到(内积)特征空间F的非线性映射，从公式可看出核函数在输入空间的运算等效于将样本先映射到高维空间，然后进行内积运算。

目前，常用的核函数主要有以下几种：

a)线性核函数k(x₁,x₂)=<x₁,x₂>

b)多项式核函数k(x₁,x₂)=<<x₁,x₂>+1>^d

c)高斯核函数

k (x_{1}, x_{2}) = \exp (- \frac{| | x_{1} - x_{2} | |}{{2 σ}^{2}})

d)Sigmoid核函数k(x₁,x₂)=tanh(a(x₁·x₂)+c)(a,c∈R)

·非线性硬间隔支持向量机

基于核函数方法，对应的非线性硬间隔支持向量机的优化问题(对偶问题)可表示为：

\{\begin{matrix} \min \frac{1}{2} Σ_{i = 1}^{l} Σ_{j = 1}^{l} y_{i} y_{j} α_{i} α_{j} K (x_{i} \cdot x_{j}) - Σ_{i = 1}^{l} α_{i} \\ s . t . Σ_{i = 1}^{l} y_{i} α_{i} = 0 \\ 0 \leq α_{i}, i = 1,2, . . ., l \end{matrix}

可求得：

w = Σ_{i = 1}^{l} y_{i} {α_{i}}^{*} x_{i}, b = y_{j} - Σ_{i = 1}^{l} y_{i} {α_{i}}^{*} K (x_{i} \cdot x_{j})

最终的分类决策函数

f (x) = sign (Σ_{i = 1}^{l} y_{i} α_{i} K (x \cdot x_{i}) + b)

·非线性软间隔支持向量机

对应的非线性软间隔支持向量机的优化问题(对偶问题)可表示为：

\{\begin{matrix} \min \frac{1}{2} Σ_{i = 1}^{l} Σ_{j = 1}^{l} y_{i} y_{j} α_{i} α_{j} K (x_{i} \cdot x_{j}) - Σ_{i = 1}^{l} α_{i} \\ s . t . Σ_{i = 1}^{l} y_{i} α_{i} = 0 \\ 0 \leq α_{i} \leq C, i = 1,2, . . ., l \end{matrix}

可求得：

w = Σ_{i = 1}^{l} y_{i} {α_{i}}^{*} x_{i}, b = y_{j} - Σ_{i = 1}^{l} y_{i} {α_{i}}^{*} K (x_{i} \cdot x_{j})

最终的分类决策函数：

f (x) = sign (Σ_{i = 1}^{l} y_{i} α_{i} K (x \cdot x_{i}) + b)

f (x) = sign (Σ_{i = 1}^{l} y_{i} α_{i} (x \cdot x_{i}) + b)

得

f ({x_{i}}^{'}) = sign (Σ_{j = 1}^{l} y_{j} α_{j} K ({x_{i}}^{'} \cdot x_{j}) + b)

步骤2中支持向量机样本约简算具体步骤如下：支持向量机样本约简方法的流程图如图2所示：

步骤2.1：求出良恶性肺结节的原始样本集S₀中正、负类数据的最小圆o₁，o₂；本文将利用支持向量域描述的方法获取每类样本的球心和最小超球半径，若给定二分类问题的训练集

其中ψ:Rⁿ→F。支持向量域描述的思想就是寻找包含该类数据的最小超球以便能对其进行描述当样本集中不存在噪声或野值样本时，则寻找一个能够包含所有样本的最小球；当样本集中存在噪声或野值样本时，可允许小部分样本位于球的外面使用松弛变量ξ_i把孤立点排除在超球体外当输人空间中的样本为非球形分布时，引入映射ψ:Rⁿ→F将输人空间中的样本映射到高维空间F中，最小化超球体的体积，可得优化问题：

\{\begin{matrix} \min R^{2} + C Σ_{i = 1}^{l} ξ_{i} \\ s . t . {| | ψ (x_{i}) - a | |}^{2} \leq R^{2} + ξ_{i}, ξ_{i} &GreaterEqual; 0, i = 1, . . ., l \end{matrix} - - - (4)

其中，R为最小超球半径，a为最小超球球心，ξ_i是松弛变量，C为惩罚因子。利用拉格朗日方法求解优化问题：

\begin{matrix} L (R, a, ξ_{i}, α_{i},) = R^{2} + C Σ_{i = 1}^{l} ξ_{i} \\ - Σ_{i = 1}^{l} α_{i} (R^{2} + ξ_{i} - (K (x_{i}, x_{j}) - 2 aψ (x_{i}) + a \cdot a)) - Σ_{i = 1}^{l} γ_{i} ξ_{i} \end{matrix} - - - (5)

其中，α_i,γ_i是拉格朗日乘子，K(x_i,x_j)是核函数。分别求拉格朗日函数L对R、a、ξ_i的导数并使之等于0可得：

\frac{&PartialD; L}{&PartialD; R} = 0 &RightArrow; Σ_{i = 1}^{l} α_{i} = 1 - - - (6)

\frac{&PartialD; L}{&PartialD; a} = 0 &RightArrow; a = Σ_{i = 1}^{l} α_{i} ψ (x_{i}) - - - (7)

其中a为最小超球球心(二维情形下a即为圆心)，ψ:Rⁿ→F是将输人空间中的样本x_i映射到高维特征空间F中，α_i是拉格朗日乘子。

\frac{&PartialD; L}{&PartialD; ξ_{i}} = 0 &RightArrow; C - β_{i} - γ_{i} = 0 - - - (8)

将式(3)～(5)带入式(2)求解优化问题的对偶问题如下：

\{\begin{matrix} \min Σ_{i = 1}^{l} Σ_{j = 1}^{l} α_{i} α_{j} K (x_{i}, x_{j}) - Σ_{i = 1}^{l} α_{i} K (x_{i}, x_{i}) \\ s . t . {| | ψ (x_{i}) - a | |}^{2} \leq R^{2} + ξ_{i}, ξ_{i} &GreaterEqual; 0, i = 1, . . ., l \end{matrix} - - - (9)

求其最优解α_i，即可得到特征空间F中的数据域描述在特征空间F中，ψ(x_i)到最小超球球心a的距离：

\begin{matrix} D (x_{i}) = | | ψ (x_{i}) - a | | \\ = {(Σ_{i = 1}^{l} Σ_{j = 1}^{l} α_{i} α_{j} K (x_{i}, x_{j}) - 2 Σ_{j = 1}^{l} α_{j} K (x_{i}, x_{j}) + K (x_{i}, x_{j}))}^{\frac{1}{2}} \end{matrix} - - - (10)

由式(5)、(6)可以得到：

D(x_i)<R→α_i=0,γ_i=0

D(x_i)=R→0<α_i<C,γ_i=0

D(x_i)<R→α_i=Ｃ,γ_i＞0

因此，最小超球半径由0<α_i<C中对应的任意样本x_i与球心a的距离确定：

R=D(x_i)

利用支持向量域描述算法分别计算2个圆的圆心o₁，o₂坐标和半径r₁,r₂的值；再分别求得球心间的距离o₁o₂=||o₁-o₂||和超球半径和r₁+r₂；

步骤2.2：判断正负类数据是否有重叠部分；通过比较两个圆半径和r₁+r₂与圆心间的距离o₁o₂，可知有两种情形：a)r₁+r₂<o₁o₂，如图2所示，则正负类数据无重叠部分；b)r₁+r₂≥o₁o₂如图3所示，则正负类数据有重叠部分；点A₁，A₂分别为圆o₁，o₂与线段o₁o₂的交点，点o为线段A₁A₂的中点，在上述的两种情形下分别计算线段A₁A₂的中点o的坐标，经过计算得知两种情形下点o的坐标计算公式一致，皆为

然后分别计算线段oo₁=||o-o₁||,oo₂=||o-o₂||；

点o的坐标公式推导过程：

a)在图2情形下：

o = \frac{{oo}_{1}}{o_{1} o_{2}} (o_{2} - o_{1}) + o_{1},

求得

{oA}_{1} = \frac{r_{1} + r_{2} - o_{1} o_{2}}{2},

再求得oo₁=r₁+oA₁，代入公式中，最后求得

b)在图3情形下：

o = \frac{{oo}_{1}}{o_{1} o_{2}} (o_{2} - o_{1}) + o_{1},

求得

{oA}_{1} = \frac{r_{1} + r_{2} - o_{1} o_{2}}{2},

再求得oo₁=r₁-oA₁，代入公式中，最后求得

o = \frac{o_{1} o_{2} + r_{1} - r_{2}}{{2 o}_{1} o_{2}} (o_{2} - o_{1}) + o_{1};

步骤2.4：求解点o₁'、o₂'，点o₁',o₂'是圆o与线段o₁o₂相交的两点的坐标：圆o的半径T=min(oo₁,oo₂)可以有两种取值，导致点o₁',o₂'中的某一点会与圆的中心o₁，o₂对应的某一点重合或者与两点都重合，所以有以下三种情形：

a核当r₁>r₂时，T=min(oo₁,oo₂)=oo₂

\{\begin{matrix} {o_{1}}^{'} = (1 - \frac{2 T}{o_{1} o_{2}}) (o_{2} - o_{1}) + o_{1} \\ {o_{2}}^{'} = o_{2} \end{matrix}

b)当r₁<r₂时，T=min(oo₁,oo₂)=oo₁

\{\begin{matrix} {o_{1}}^{'} = o_{1} \\ {o_{2}}^{'} = \frac{2 T}{o_{1} o_{2}} (o_{2} - o_{1}) + o_{1} \end{matrix}

c)当r₁=r₂时，T=min(oo₁,oo₂)=oo₁=oo₂

\{\begin{matrix} {o_{1}}^{'} = o_{1} \\ {o_{2}}^{'} = o_{2} \end{matrix}

\{\begin{matrix} d (x_{i}, {o_{1}}^{'}) = | | x_{i} - {o_{1}}^{'} | | \\ d (x_{i}, {o_{2}}^{'}) = | | x_{i} - {o_{2}}^{'} | | \\ d ({o_{1}}^{'}, {o_{2}}^{'}) = | | {o_{1}}^{'} - {o_{2}}^{'} | | \end{matrix}

计算这两个角α_i1，α_i2的余弦值：

\{\begin{matrix} \cos α_{i 1} = \frac{\overset{&RightArrow;}{{o_{1}}^{'} x_{i}} \cdot \overset{&RightArrow;}{{o_{1}}^{'} {o_{2}}^{'}}}{d (x_{i}, {o_{1}}^{'}) \times d ({o_{1}}^{'}, {o_{2}}^{'})} \\ \cos α_{i 2} = \frac{\overset{&RightArrow;}{{o_{2}}^{'} x_{i}} \cdot \overset{&RightArrow;}{{o_{2}}^{'} {o_{1}}^{'}}}{d (x_{i}, {o_{2}}^{'}) \times d ({o_{1}}^{'}, {o_{2}}^{'})} \end{matrix}

步骤2.7：从良恶性肺结节的初始训练集S₁中挑选出良恶性肺结节的最终训练集S₂；所述步骤2.7：挑选出良恶性肺结节的最终训练集S₂的具体方法如下：

令

ρ_{i} = {(\frac{\cos α_{i 1}}{\cos α_{i 2}})}^{y_{i}} = \{\begin{matrix} \frac{\cos α_{i 1}}{\cos α_{i 2}}, y_{i} = 1 \\ \frac{\cos α_{i 2}}{\cos α_{i 1}}, y_{i} = - 1 \end{matrix},

a)在r₁+r₂<o₁o₂的情形下，ρ_i的值变化趋势如下：

ρ_{i} = {(\frac{\cos α_{i 1}}{\cos α_{i 2}})}^{y_{i}} = 1

ρ_{i} = {(\frac{\cos α_{i 1}}{\cos α_{i 2}})}^{y_{i}} = 1

ρ_{i} = {(\frac{\cos α_{i 1}}{\cos α_{i 2}})}^{y_{i}} = 0

Claims

1.基于支持向量机样本约简的肺结节良恶性鉴别方法，其特征在于：具体步骤如下：

步骤3：对约简后的最终训练集S₂进行支持向量机训练，得到最后的分类决策函数f(x)；给定二分类问题的训练集

其中x_i∈X=Rⁿ,y_i∈{+1,-1}；得到最终的分类决策函数：

f (x) = sign (Σ_{i = 1}^{l} y_{i} α_{i} (x \cdot x_{i}) + b)

式中：w是权值向量，b是偏置系数，α_i是拉格朗日系数：

f (x) = sign (Σ_{i = 1}^{l} y_{i} α_{i} (x \cdot x_{i}) + b)

得

f ({x_{i}}^{'}) = sign (Σ_{j = 1}^{l} y_{j} α_{j} K ({x_{i}}^{'} \cdot x_{j}) + b)

当f(x_i')>0时，肺结节样本x_i'即为良性肺结节；当f(x_i')<0时，肺结节样本x_i'即为恶性肺结节。

2.根据权利要求1所述的基于支持向量机样本约简的肺结节良恶性鉴别方法，其特征在于：

所述的步骤2中支持向量机样本约简算具体步骤如下：

步骤2.1：求出良恶性肺结节的原始样本集S₀中正、负类数据的最小圆o₁，o₂；利用支持向量域描述算法分别计算2个圆的圆心o₁，o₂坐标；和半径r₁,r₂的值；再分别求得球心间的距离o₁o₂=||o₁-o₂||和超球半径和r₁+r₂；

a)当r₁>r₂时，T=min(oo₁,oo₂)=oo₂

\{\begin{matrix} {o_{1}}^{'} = (1 - \frac{2 T}{o_{1} o_{2}}) (o_{2} - o_{1}) + o_{1} \\ {o_{2}}^{'} = o_{2} \end{matrix}

b)当r₁<r₂时，T=min(oo₁,oo₂)=oo₁

\{\begin{matrix} {o_{1}}^{'} = o_{1} \\ {o_{2}}^{'} = \frac{2 T}{o_{1} o_{2}} (o_{2} - o_{1}) + o_{1} \end{matrix}

c)当r₁=r₂时，T=min(oo₁,oo₂)=oo₁=oo₂

\{\begin{matrix} {o_{1}}^{'} = o_{1} \\ {o_{2}}^{'} = o_{2} \end{matrix}

具体推导过程如下：

当r₁>r₂时，点o₂'与点o₂重合，故点o₂'的坐标公式：o₂'=o₂，点o₁'的坐标公式：

{o_{1}}^{'} = \frac{{oo}_{1}^{'}}{o_{1} o_{2}} (o_{2} - o_{1}) + o_{1},

知

\frac{{oo}_{1}^{'}}{o_{1} o_{2}} = 1 - \frac{{o_{1}}^{'} o_{2}}{o_{1} o_{2}},

求得o₁'o₂=2T,代入公式，求得

{o_{1}}^{'} = (1 - \frac{2 T}{o_{1} o_{2}}) (o_{2} - o_{1}) + o_{1}

当r₁<r₂时，点o₁'与点o₁重合，故点o₁'的坐标公式：o₁'=o₁；点o₂'的坐标公式：

{o_{2}}^{'} = \frac{{oo}_{2}^{'}}{o_{1} o_{2}} (o_{2} - o_{1}) + o_{1},

又知oo₂'=2T，故

{o_{2}}^{'} = \frac{2 T}{o_{1} o_{2}} (o_{2} - o_{1}) + o_{1},

步骤2.5：计算良恶性肺结节初始训练集S₁；初始训练集S₁中所有的样本点x_i到点o₁',o₂'的距离和线段o₁'o₂'的长度；以样本点x_i为顶点、点o₁',o₂'为另外两个点构成一个三角形Δx_io₁'o₂'，计算三角形Δx_io₁'o₂'各边的长度：

\{\begin{matrix} d (x_{i}, {o_{1}}^{'}) = | | x_{i} - {o_{1}}^{'} | | \\ d (x_{i}, {o_{2}}^{'}) = | | x_{i} - {o_{2}}^{'} | | \\ d ({o_{1}}^{'}, {o_{2}}^{'}) = | | {o_{1}}^{'} - {o_{2}}^{'} | | \end{matrix}

计算这两个角α_i1，α_i2的余弦值：

\{\begin{matrix} \cos α_{i 1} = \frac{\overset{&RightArrow;}{{o_{1}}^{'} x_{i}} \cdot \overset{&RightArrow;}{{o_{1}}^{'} {o_{2}}^{'}}}{d (x_{i}, {o_{1}}^{'}) \times d ({o_{1}}^{'}, {o_{2}}^{'})} \\ \cos α_{i 2} = \frac{\overset{&RightArrow;}{{o_{2}}^{'} x_{i}} \cdot \overset{&RightArrow;}{{o_{2}}^{'} {o_{1}}^{'}}}{d (x_{i}, {o_{2}}^{'}) \times d ({o_{1}}^{'}, {o_{2}}^{'})} \end{matrix}

步骤2.7：从良恶性肺结节的初始训练集S₁中挑选出良恶性肺结节的最终训练集S₂。

3.根据权利要求2所述的基于支持向量机样本约简的肺结节良恶性鉴别方法，其特征在于：所述步骤2.7：挑选出良恶性肺结节的最终训练集S₂的具体方法如下：

令

ρ_{i} = {(\frac{\cos α_{i 1}}{\cos α_{i 2}})}^{y_{i}} = \{\begin{matrix} \frac{\cos α_{i 1}}{\cos α_{i 2}}, y_{i} = 1 \\ \frac{\cos α_{i 2}}{\cos α_{i 1}}, y_{i} = - 1 \end{matrix}

a)在r₁+r₂<o₁o₂的情形下，ρ_i的值变化趋势如下：

ρ_{i} = {(\frac{\cos α_{i 1}}{\cos α_{i 2}})}^{y_{i}} = 1

ρ_{i} = {(\frac{\cos α_{i 1}}{\cos α_{i 2}})}^{y_{i}} = 1

ρ_{i} = {(\frac{\cos α_{i 1}}{\cos α_{i 2}})}^{y_{i}} = 0

将训练集S₁中满足条件ρ_i∈[1-σ,1+σ]的样本点挑选出作为训练集S₂，其中σ∈(0,1]，训练集S₂即为最终的支持向量机训练集。