CN103761445A

CN103761445A - 基于密度诱导1类支持向量机的医疗诊断方法及系统

Info

Publication number: CN103761445A
Application number: CN201410053830.0A
Authority: CN
Inventors: 张莉; 周伟达; 何书萍; 王邦军; 张海飞; 李凡长
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2014-02-18
Filing date: 2014-02-18
Publication date: 2014-04-30

Abstract

本申请公开了一种基于密度诱导1类支持向量机的医疗诊断方法，包括：计算多个已知数据类型的训练样本的相对密度；由所述训练样本、与每个所述训练样本对应的数据类型和每个所述训练样本的相对密度，构成三元训练样本集；利用所述三元训练样本集来训练密度诱导1类支持向量机，获得一个已知半径的超球体模型；获取待测医疗诊断数据；将所述待测医疗诊断数据代入所述超球体模型中，判断所述待测医疗诊断数据所代表的点是否位于所述超球体模型内，如果是，则表示该待测医疗诊断数据的数据类型为正常，否则表示数据类型为异常。本申请公开的方法，可以有效的将不平衡的医疗诊断数据区分开来，且准确率高。

Description

基于密度诱导1类支持向量机的医疗诊断方法及系统

技术领域

本申请涉及医疗诊断领域，更具体地说，涉及一种基于密度诱导1类支持向量机的医疗诊断方法及系统。

背景技术

传统的医疗诊断是通过医生根据临床经验，对病人进行推理诊断的决策过程。这种决策的正确性完全取决于医生的个人经验，显然传统的这种医疗诊断方法不能够满足现代社会发展的要求。

在现代社会计算机广泛普及的情况下，很多传统的任务都能够采用智能化的手段来处理。智能的医疗诊断过程将比传统的医疗诊断提供更为客观和准确的决策。目前，很多机器学习方法都应用到了医疗诊断中，比如K近邻方法、支持向量机、神经网络等。但是，由于医疗数据是非常不平衡的数据，其正常数据多，非正常数据少，非正常数据反映的是某人是某种疾病的携带者，因而常规的机器学习分类方法不能够获得较好的分类结果。

发明内容

有鉴于此，本申请提供了一种基于密度诱导1类支持向量机的医疗诊断方法及系统，用于解决现有机器学习分类方法针对不平衡的医疗数据，无法有效的进行正确分类的问题。

为了实现上述目的，现提出的方案如下：

一种基于密度诱导1类支持向量机的医疗诊断方法，包括：

计算多个已知数据类型的训练样本的相对密度；

由所述训练样本、与每个所述训练样本对应的数据类型和每个所述训练样本的相对密度，构成三元训练样本集；

利用所述三元训练样本集来训练密度诱导1类支持向量机，获得一个已知半径的超球体模型；

获取待测医疗诊断数据；

将所述待测医疗诊断数据代入所述超球体模型中，判断所述待测医疗诊断数据所代表的点是否位于所述超球体模型内，如果是，则表示该待测医疗诊断数据的数据类型为正常，否则表示数据类型为异常。

优选地，所述多个已知数据类型的训练样本表示为：

其中x_i∈R^D，y_i∈(+1,-1)，N是训练样本的个数，D是训练样本的维数，y_i代表训练样本x_i的数据类型，若y_i=1表示x_i为正常数据，若y_i=-1表示x_i为异常数据。

优选地，所述计算多个已知数据类型的训练样本的相对密度，具体为：

对x_i寻找其k个近邻，令x_i与第k个近邻的距离为

则该训练样本的相对密度为：

ρ_{i} = d_{i}^{k} / (\frac{1}{N} Σ_{i = 1}^{N} d_{i}^{k}) .

优选地，所述三元训练样本集为：

优选地，所述利用所述三元训练样本集来训练密度诱导1类支持向量机，获得一个已知半径的超球体模型，具体为：

利用所述三元训练样本集，求解下面的二次优化问题：

\min Σ_{i = 1}^{N} α_{i} y_{i} ρ_{i} k (x_{i}, x_{i}) - \frac{1}{T} Σ_{i = 1}^{N} Σ_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} ρ_{i} ρ_{j} k (x_{i}, x_{j})

满足约束条件：

Σ_{i = 1}^{N} y_{i} α_{i} = 1, T = Σ_{i = 1}^{N} y_{i} α_{i} ρ_{i}

当1≤i≤N⁺时，0≤α_i≤C⁺,

当N⁺+1≤i≤N时，0≤α_i≤C^-

其中，α_i，i=1，…，N是超球体模型的系数，C⁺>0和C^->0是正则因子，k(x_i,x_j)是高斯核函数，其形式为

p>0是核参数；

通过求解上述二次优化问题，得出α_i,i=1,…,N，

利用α_i来建立超球体模型，超球体模型的半径表示为：

R = \sqrt{(k (x_{sv}, x_{sv}) - 2 Σ_{i = 1}^{N} α_{i} y_{i} k (x_{i}, x_{sv}) + Σ_{i = 1}^{N} Σ_{j = 1}^{N} α_{i} y_{i} α_{j} y_{j} k (x_{i}, x_{j}))},

其中训练样本x_sv是球面上的点且y_sv=1，α_sv满足0<α_sv<C⁺。

优选地，所述将所述待测医疗诊断数据代入所述超球体模型中，判断所述待测医疗诊断数据所代表的点是否位于所述超球体模型内，具体为：

令待测医疗诊断数据为x∈R^D,将其带入下式：

f (x) = sgn (R^{2} - (k - (x, x) - 2 Σ_{i = 1}^{N} α_{i} y_{i} k (x_{i}, x) + Σ_{i = 1}^{N} Σ_{j = 1}^{N} α_{i} y_{i} α_{j} y_{j} k (x_{i}, x_{j})))

其中，sgn是符号函数，R是超球体半径，当f(x)=1，则表明x为正常数据，当f(x)=-1，则表明x为异常数据。

一种基于密度诱导1类支持向量机的医疗诊断系统，包括：

相对密度计算单元，用于计算多个已知数据类型的训练样本的相对密度；

训练样本集构成单元，用于利用所述训练样本、与每个所述训练样本对应的数据类型和每个所述训练样本的相对密度，构成三元训练样本集；

模型建立单元，用于利用所述三元训练样本集来训练密度诱导1类支持向量机，获得一个已知半径的超球体模型；

数据获取单元，用于获取待测医疗诊断数据；

数据诊断单元，用于将所述待测医疗诊断数据代入所述超球体模型中，判断所述待测医疗诊断数据所代表的点是否位于所述超球体模型内，如果是，则表示该待测医疗诊断数据的数据类型为正常，否则表示数据类型为异常。

从上述的技术方案可以看出，本申请实施例公开的基于密度诱导1类支持向量机的医疗诊断方法，通过计算训练样本的相对密度，由训练样本、训练样本的数据类型和训练样本的相对密度三者构成三元训练样本集，并利用该训练样本集来训练密度诱导1类支持向量机，得到一个超球体模型，该超球体模型将数据分为了两类，一类位于球内，代表数据是正常数据，反之为异常数据，因此通过该模型即可判断待测医疗诊断数据是否为正常数据。本申请公开的方法，可以有效的将不平衡的医疗诊断数据区分开来，且准确率高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例公开的一种基于密度诱导1类支持向量机的医疗诊断方法流程图；

图2为本申请实施例公开的一种基于密度诱导1类支持向量机的医疗诊断系统结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

实施例一

参见图1，图1为本申请实施例公开的一种基于密度诱导1类支持向量机的医疗诊断方法流程图。

如图1所示，该方法包括：

步骤101：计算多个已知数据类型的训练样本的相对密度；

具体地，我们事先获取已知数据类型的二元训练样本集，然后计算每个训练样本的相对密度，该相对密度代表了该训练样本点附近的样本的多少，如果某个训练样本点的相对密度比较大，则说明该训练样本点处于一个稠密区域，反之，处于一个稀疏区域。

步骤102：构造三元训练样本集；

具体地，该三元训练样本集是由训练样本、与每个训练样本对应的数据类型和每个训练样本的相对密度组成的。

步骤103：利用三元训练样本集来训练密度诱导1类支持向量机；

具体地，通过对密度诱导1类支持向量机的训练，我们可以得到一个已知半径的超球体模型。

步骤104：获取待测医疗诊断数据；

步骤105：利用超球体模型对待测医疗诊断数据进行判断。

具体地，我们将待测医疗诊断数据代入超球体模型中，判断待测医疗诊断数据所代表的点是否位于所述超球体模型中，如果是，则表示该待测医疗诊断数据的数据类型为正常，否则表示其数据类型为异常。特别注意的是，此处所述的位于超球体模型中包括两种情况，第一，数据点在球体内，第二，数据点在球体表面上。

本申请实施例公开的基于密度诱导1类支持向量机的医疗诊断方法，通过计算训练样本的相对密度，由训练样本、训练样本的数据类型和训练样本的相对密度三者构成三元训练样本集，并利用该训练样本集来训练密度诱导1类支持向量机，得到一个超球体模型，该超球体模型将数据分为了两类，一类位于球内，代表数据是正常数据，反之为异常数据，因此通过该模型即可判断待测医疗诊断数据是否为正常数据。本申请公开的方法，可以有效的将不平衡的医疗诊断数据区分开来，且准确率高。

实施例二

下面我们将详细的介绍实施例一中各个步骤的具体实现方式。

首先，我们定义由多个已知数据类型的训练样本构成的二元训练样本集

计算训练样本的相对密度的过程如下：

对x_i寻找其k个近邻，令x_i与第k个近邻的距离为

则该训练样本的相对密度为：

ρ_{i} = d_{i}^{k} / (\frac{1}{N} Σ_{i = 1}^{N} d_{i}^{k}) .

这种相对密度的计算方法，其意义明确，某个训练样本的相对密度即代表了该训练样本点附近的训练样本的多少，也就是其所处区域的稠密程度。且上述相对密度的计算公式简单，计算量比较少。

通过上面相对密度的计算，我们即可构建三元训练样本集：

可见，三元训练样本集是由以下三项组成的，即训练样本、训练样本的数据类型和训练样本的相对密度。同时参见实施例二开头部分的描述可知，该三元训练样本集还可以描述为在二元训练样本集的基础上，增加一项相对密度的表述。

在得出了三元训练样本集之后，我们开始利用该三元训练样本集来训练密度诱导1类支持向量机进行建模，获得一个已知半径的超球体模型。该过程可以参见下面的论述：

利用三元训练样本集，求解下面的二次优化问题：

\min Σ_{i = 1}^{N} α_{i} y_{i} ρ_{i} k (x_{i}, x_{i}) - \frac{1}{T} Σ_{i = 1}^{N} Σ_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} ρ_{i} ρ_{j} k (x_{i}, x_{j})

满足约束条件：

Σ_{i = 1}^{N} y_{i} α_{i} = 1, T = Σ_{i = 1}^{N} y_{i} α_{i} ρ_{i}

当1≤i≤N⁺时，0≤α_i≤C⁺,

当N⁺+1≤i≤N时，0≤α_i≤C^-

其中，α_i,i=1,…,N是超球体模型的系数，C⁺>0和C^->0是正则因子，k(x_i,x_j)是高斯核函数，其形式为

p>0是核参数。

通过求解上述二次优化问题，可以得出α_i,i=1,…,N。

利用α_i来建立超球体模型，超球体模型的半径表示为：

R = \sqrt{(k (x_{sv}, x_{sv}) - 2 Σ_{i = 1}^{N} α_{i} y_{i} k (x_{i}, x_{sv}) + Σ_{i = 1}^{N} Σ_{j = 1}^{N} α_{i} y_{i} α_{j} y_{j} k (x_{i}, x_{j}))},

其中训练样本x_sv是球面上的点且y_sv=1，α_sv满足0<α_sv<C⁺。

该超球体模型将数据分为了两类，一类是位于超球体之内的（包括在超球体表面上的点），也就是距离超球体球心的距离小于等于半径R的数据点，这类数据可以看作正常数据，另一类数据即不在超球体之内的，这类数据可以看作异常数据。

模型建立之后，接下来就是对医疗诊断数据进行检查了，可以参见下述过程：

令待测医疗诊断数据为x∈R^D,将其带入下式：

f (x) = sgn (R^{2} - (k - (x, x) - 2 Σ_{i = 1}^{N} α_{i} y_{i} k (x_{i}, x) + Σ_{i = 1}^{N} Σ_{j = 1}^{N} α_{i} y_{i} α_{j} y_{j} k (x_{i}, x_{j})))

上述公式的含义就是待测医疗诊断数据点至超球体球心的距离（可以将之定义为L）与超球体半径之间的大小关系，当L小于等于R时，f(x)=1，表明x为正常数据，当L大于R时，f(x)=-1，表明x为异常数据。

我们选用本申请的方法与1类支持向量机来实验做比较，其中待测样本共有84个，正常数据为27个，异常数据57个，重复诊断过程84次，下表给出了二者对比结果：

通过上表可以明显的看出，在诊断准确率上，本申请的方法明显优于传统的1类支持向量机。

实施例三

在实施例一的基础上，本实施例进一步公开了一种基于密度诱导1类支持向量机的医疗诊断系统。

参见图2，图2为本申请实施例公开的一种基于密度诱导1类支持向量机的医疗诊断系统结构图。

如图2所示，该系统包括：

相对密度计算单元21，用于计算多个已知数据类型的训练样本的相对密度；

训练样本集构成单元22，用于利用所述训练样本、与每个所述训练样本对应的数据类型和每个所述训练样本的相对密度，构成三元训练样本集；

模型建立单元23，用于利用所述三元训练样本集来训练密度诱导1类支持向量机，获得一个已知半径的超球体模型；

数据获取单元24，用于获取待测医疗诊断数据；

数据诊断单元25，用于将所述待测医疗诊断数据代入所述超球体模型中，判断所述待测医疗诊断数据所代表的点是否位于所述超球体模型内，如果是，则表示该待测医疗诊断数据的数据类型为正常，否则表示数据类型为异常。

本申请实施例公开的基于密度诱导1类支持向量机的医疗诊断系统，通过相对密度计算单元21计算训练样本的相对密度，训练样本集构成单元22利用训练样本、训练样本的数据类型和训练样本的相对密度三者构成三元训练样本集，并由模型建立单元23利用训练样本集来训练密度诱导1类支持向量机，得到一个超球体模型，该超球体模型将数据分为了两类，一类位于球内，代表数据是正常数据，反之为异常数据，因此通过该模型即可判断待测医疗诊断数据是否为正常数据。利用本申请公开的系统，可以有效的将不平衡的医疗诊断数据区分开来，且准确率高。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于密度诱导1类支持向量机的医疗诊断方法，其特征在于，包括：

计算多个已知数据类型的训练样本的相对密度；

获取待测医疗诊断数据；

2.根据权利要求1所述的医疗诊断方法，其特征在于，所述多个已知数据类型的训练样本表示为：

3.根据权利要求2所述的医疗诊断方法，其特征在于，所述计算多个已知数据类型的训练样本的相对密度，具体为：

对x_i寻找其k个近邻，令x_i与第k个近邻的距离为则该训练样本的相对密度为：

ρ_{i} = d_{i}^{k} / (\frac{1}{N} Σ_{i = 1}^{N} d_{i}^{k}) .

4.根据权利要求3所述的医疗诊断方法，其特征在于，所述三元训练样本集为：

{x_{i}, y_{i}, ρ_{i}}_{i = 1}^{N} .

5.根据权利要求4所述的医疗诊断方法，其特征在于，所述利用所述三元训练样本集来训练密度诱导1类支持向量机，获得一个已知半径的超球体模型，具体为：

利用所述三元训练样本集，求解下面的二次优化问题：

\min Σ_{i = 1}^{N} α_{i} y_{i} ρ_{i} k (x_{i}, x_{i}) - \frac{1}{T} Σ_{i = 1}^{N} Σ_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} ρ_{i} ρ_{j} k (x_{i}, x_{j})

满足约束条件：

Σ_{i = 1}^{N} y_{i} α_{i} = 1, T = Σ_{i = 1}^{N} y_{i} α_{i} ρ_{i}

当1≤i≤N⁺时，0≤α_i≤C⁺,

当N⁺+1≤i≤N时，0≤α_i≤C^-

p>0是核参数；

通过求解上述二次优化问题，得出α_i,i=1,…,N，

利用α_i来建立超球体模型，超球体模型的半径表示为：

R = \sqrt{(k (x_{sv}, x_{sv}) - 2 Σ_{i = 1}^{N} α_{i} y_{i} k (x_{i}, x_{sv}) + Σ_{i = 1}^{N} Σ_{j = 1}^{N} α_{i} y_{i} α_{j} y_{j} k (x_{i}, x_{j}))},

其中训练样本x_sv是球面上的点且y_sv=1，α_sv满足0<α_sv<C⁺。

6.根据权利要求5所述的医疗诊断方法，其特征在于，所述将所述待测医疗诊断数据代入所述超球体模型中，判断所述待测医疗诊断数据所代表的点是否位于所述超球体模型内，具体为：

令待测医疗诊断数据为x∈R^D,将其带入下式：

f (x) = sgn (R^{2} - (k - (x, x) - 2 Σ_{i = 1}^{N} α_{i} y_{i} k (x_{i}, x) + Σ_{i = 1}^{N} Σ_{j = 1}^{N} α_{i} y_{i} α_{j} y_{j} k (x_{i}, x_{j})))

7.一种基于密度诱导1类支持向量机的医疗诊断系统，其特征在于，包括：

数据获取单元，用于获取待测医疗诊断数据；