CN110991517A

CN110991517A - 一种面向脑卒中非平衡数据集的分类方法及系统

Info

Publication number: CN110991517A
Application number: CN201911189087.0A
Authority: CN
Inventors: 李凤莲; 张雪英; 魏鑫; 回海生; 李彦民
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-10
Also published as: CN116933166A

Abstract

本发明公开了一种面向脑卒中非平衡数据集的分类方法及系统。所述方法利用自适应因子来构造差异矩阵，充分考虑了脑卒中非平衡数据集中脑卒中患者数据与非脑卒中患者数量的非平衡性对分类结果的影响，使得改进后的模糊隶属度函数更适用于脑卒中非平衡数据集的分类；并且本发明在构建模糊隶属度函数时，首先根据不同类别样本间数量关系，利用信息熵来衡量样本点的不确定性，其次考虑同类样本间距离的关系，构造出一种改进后的模糊隶属度函数，将改进后的模糊隶属度函数应用于模糊支持向量机中，能够有效提高模糊支持向量机分类器对脑卒中非平衡数据集的分类性能。

Description

一种面向脑卒中非平衡数据集的分类方法及系统

技术领域

本发明涉及数据处理技术领域，特别是涉及一种面向脑卒中非平衡数据集的分类方法及系统。

背景技术

脑卒中又称“中风”、“脑血管意外”，是一种急性脑血管疾病，是由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一种疾病。随着医疗信息化的发展，脑卒中数据逐渐呈现非平衡数据集特性，脑卒中患者要普遍少于非脑卒中患者，由于分类模型普遍存在偏向性，即对非脑卒中患者(称为多数类)的分类效果较好，对脑卒中患者(称为少数类)的分类性能偏低甚至不能识别，因此采用现有的分类模型对脑卒中非平衡数据集进行分类时，对脑卒中患者(少数类)数据的分类性能较差。

发明内容

本发明的目的是提供一种面向脑卒中非平衡数据集的分类方法及系统，以解决现有分类模型对脑卒中非平衡数据集分类中脑卒中患者即少数类分类性能较差的问题。

为实现上述目的，本发明提供了如下方案：

一种面向脑卒中非平衡数据集的分类方法，所述方法包括：

获取脑卒中非平衡数据集；

将所述脑卒中非平衡数据集按照7：3比例随机划分成训练样本集和测试样本集，其中训练样本集和测试样本集非平衡率不改变；

计算所述训练样本集中各个样本点之间的距离；

根据所述训练样本集中各个样本点之间的距离构造差异矩阵；

根据所述差异矩阵统计所述样本点有效范围内的正类样本个数和负类样本个数；其中正类样本是指脑卒中非平衡数据集中脑卒中患者数据，负类样本是指脑卒中非平衡数据集中非脑卒中患者数据；

根据所述正类样本个数和所述负类样本个数确定所述样本点所含的正/负类信息量；

根据所述样本点所含的正/负类信息量构造信息量模糊隶属函数；

根据所述各个样本点之间的距离确定基于样本间距离的正/负类模糊隶属度函数；

根据所述信息量模糊隶属函数及所述基于样本间距离的正/负类模糊隶属度函数确定改进后的正/负类模糊隶属度函数；

根据所述改进后的正/负类模糊隶属度函数构造模糊支持向量机分类器；

采用所述模糊支持向量机分类器对脑卒中非平衡数据集进行分类。

可选的，所述计算所述训练样本集中各个样本点之间的距离，具体包括：

采用公式d_ij＝|x_i-x_j|计算所述训练样本集中的第i个样本点x_i和第j个样本点x_j之间的距离d_ij。

可选的，所述根据所述训练样本集中各个样本点之间的距离构造差异矩阵，具体包括：

根据所述各个样本点之间的距离d_ij确定正/负类样本自适应调节半径；

根据所述正/负类样本自适应调节半径确定正/负类样本自适应调节因子；

根据所述正/负类样本自适应调节因子构建差异矩阵。

可选的，所述根据所述正类样本个数和所述负类样本个数确定所述样本点所含的正/负类信息量，具体包括：

采用公式H⁺(x_i)＝-p⁺lnp⁺确定所述训练样本集中的第i个样本点x_i所含的正类信息量H⁺(x_i)；其中

k＝m⁺+m^-；m⁺为第i个样本点x_i有效范围内的正类样本个数；m^-为第i个样本点x_i有效范围内的负类样本个数；

采用公式H^-(x_i)＝-p^-lnp^-确定所述训练样本集中的第i个样本点x_i所含的负类信息量H^-(x_i)；其中

可选的，所述根据所述样本点所含的正/负类信息量构造信息量模糊隶属函数，具体包括：

根据所述第i个样本点x_i所含的正类信息量H⁺(x_i)和负类信息量H^-(x_i)，采用公式u₁(x_i)＝1-(H⁺(x_i)+H^-(x_i))构造信息量模糊隶属函数u₁(x_i)。

可选的，所述根据所述各个样本点之间的距离确定基于样本间距离的正/负类模糊隶属度函数，具体包括：

根据所述训练样本集中的第i个样本点x_i和第j个样本点x_j之间的距离d_ij，采用公式

确定正类的向心度

确定负类的向心度

根据所述正类的向心度

采用公式

确定基于样本间距离的正类模糊隶属度函数

其中δ为正值参数值；

表示正类向心度

的最大值；

根据所述负类的向心度

采用公式

确定基于样本间距离的负类模糊隶属度函数

表示负类向心度

的最大值。

可选的，所述根据所述信息量模糊隶属函数及所述基于样本间距离的正/负类模糊隶属度函数确定改进后的正/负类模糊隶属度函数，具体包括：

根据所述信息量模糊隶属函数u₁(x_i)及所述基于样本间距离的正类模糊隶属度函数

采用公式

确定改进后的正类模糊隶属度函数u⁺(x_i)；

根据所述信息量模糊隶属函数u₁(x_i)及所述基于样本间距离的负类模糊隶属度函数

采用公式

确定改进后的负类模糊隶属度函数u^-(x_i)。

一种面向脑卒中非平衡数据集的分类系统，所述系统包括：

非平衡数据集获取模块，用于获取脑卒中非平衡数据集；

非平衡数据集划分模块，用于将所述脑卒中非平衡数据集按照7：3比例随机划分成训练样本集和测试样本集，其中训练样本集和测试样本集非平衡率不改变；

样本间距离计算模块，用于计算所述训练样本集中各个样本点之间的距离；

差异矩阵构造模块，用于根据所述训练样本集中各个样本点之间的距离构造差异矩阵；

样本数量统计模块，用于根据所述差异矩阵统计所述样本点有效范围内的正类样本个数和负类样本个数；其中正类样本是指脑卒中非平衡数据集中脑卒中患者数据，负类样本是指脑卒中非平衡数据集中非脑卒中患者数据；

正负类信息量计算模块，用于根据所述正类样本个数和所述负类样本个数确定所述样本点所含的正/负类信息量；

信息量模糊隶属函数构造模块，用于根据所述样本点所含的正/负类信息量构造信息量模糊隶属函数；

基于样本间距离的正负类模糊隶属度函数确定模块，用于根据所述各个样本点之间的距离确定基于样本间距离的正/负类模糊隶属度函数；

改进后的正负类模糊隶属度函数构建模块，用于根据所述信息量模糊隶属函数及所述基于样本间距离的正/负类模糊隶属度函数确定改进后的正/负类模糊隶属度函数；

模糊支持向量机分类器构造模块，用于根据所述改进后的正/负类模糊隶属度函数构造模糊支持向量机分类器；

非平衡数据分类模块，用于采用所述模糊支持向量机分类器对脑卒中非平衡数据集进行分类。

可选的，所述样本间距离计算模块具体包括：

样本间距离计算单元，用于采用公式d_ij＝|x_i-x_j|计算所述训练样本集中的第i个样本点x_i和第j个样本点x_j之间的距离d_ij。

可选的，所述差异矩阵构造模块具体包括：

自适应调节半径确定单元，用于根据所述各个样本点之间的距离d_ij确定正/负类样本自适应调节半径；

自适应调节因子确定单元，用于根据所述正/负类样本自适应调节半径确定正/负类样本自适应调节因子；

差异矩阵构建单元，用于根据所述正/负类样本自适应调节因子构建差异矩阵。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供一种面向脑卒中非平衡数据集的分类方法及系统，所述方法利用自适应因子来构造差异矩阵，充分考虑了脑卒中数据集的非平衡特性对分类结果的影响，使得改进后的模糊隶属度函数更适用于脑卒中非平衡数据集的分类；并且本发明在设计模糊隶属度函数时，首先根据不同类别样本间数量关系，利用信息熵来衡量样本点的不确定性，其次考虑同类样本间距离的关系，构造出一种改进后的模糊隶属度函数，将改进后的模糊隶属度函数应用于模糊支持向量机中，能够有效提高模糊支持向量机分类器对脑卒中非平衡数据集的分类性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的面向脑卒中非平衡数据集的分类方法的流程图；

图2为本发明提供的面向脑卒中非平衡数据集的分类方法的原理图；

图3为本发明提供的面向脑卒中非平衡数据集的分类系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明主要针对模糊支持向量机对脑卒中非平衡数据集分类过程中存在的模糊隶属度函数赋予不准确和分类效果不佳等不足，提出一种面向脑卒中非平衡数据集的分类方法及系统，为改进模糊隶属函数提供一定的参考，最后将其应用于模糊支持向量机中，有效提高其在脑卒中非平衡数据集中的分类性能。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明提供的面向脑卒中非平衡数据集的分类方法的流程图。图2为本发明提供的面向脑卒中非平衡数据集的分类方法的原理图。参见图1和图2，本发明提供的面向脑卒中非平衡数据集的分类方法具体包括：

步骤101：获取脑卒中非平衡数据集。

所述非平衡数据集是指，如果一个数据集中某一个类别的样本远远多余其他的类别，那么就称这种数据集为非平衡数据集。以二分类为例，在数据集中数量很少的一类称为少数类或正类样本，数量较多的一类则称为多数类或负类样本。非平衡数据集的特点主要体现在两个方面，一方面是不同类别之间存在数量上的差异；另一方面是不同类别样本的分布不平衡。

本发明获取的所述脑卒中非平衡数据集中的数据为二分类数据，将数量多的正常个体视为负类样本，将数量较少的患病个体视为正类样本。

步骤102：将所述脑卒中非平衡数据集随机划分成训练样本集和测试样本集。

对所述脑卒中非平衡数据集中的样本按照7：3比例进行随机划分得到训练样本集和测试样本集，其中训练样本集和测试样本集中正负类样本数量比例与原数据集保持相同，即训练样本集和测试样本集的非平衡率不改变。

将训练样本集中的样本点表示为

x_i∈R^d，x_i代表所述脑卒中非平衡数据集中的第i个样本点的特征向量，d是特征向量的维数，

表示第d维特征向量，R^d是指训练样本集合属于d维实数空间。

若采用y_i代表两种不同的类别标签，y_i∈{-1,+1}，则y_i＝-1代表负类样本，即非脑卒中患者；y_i＝+1代表正类样本，即脑卒中患者。u(x_i)是模糊隶属度函数，表示第i个样本的的隶属度，代表着第i个样本x_i属于y_i类的程度，0＜u(x_i)≤1，其值越大，表示样本x_i属于y_i类的程度越高。

步骤103：计算所述训练样本集中各个样本点之间的距离。

计算所述训练样本集中各个样本点之间的距离用于衡量所有特征向量之间的差异，差异的计算采用下式确定：

d_ij＝|x_i-x_j| (1)

其中x_i表示所述训练样本集中的第i个样本点，x_j表示所述训练样本集中的第j个样本点，d_ij表示样本点x_i与样本点x_j之间的距离。d_ij越小，说明样本点x_i及样本点x_j二者差异越小，样本点x_i及x_j属于同一类的概率就越大。

步骤104：根据所述训练样本集中各个样本点之间的距离构造差异矩阵。

所述根据所述训练样本集中各个样本点之间的距离构造差异矩阵，具体包括：

1)根据所述各个样本点之间的距离d_ij确定正/负类样本自适应调节半径。

设Q为一个自适应因子，是一个常数，可根据样本集大小进行自适应调整。本发明取Q＝12，则得到正类样本自适应因子Q⁺＝Q，负类样本的自适应因子Q^-＝Q/r。其中r为非平衡数据集对应的非平衡率，本发明脑卒中非平衡数据集对应的非平衡率r可采用下式得到：r＝负类样本数/正类样本数。

本发明中，正类样本自适应调节半径定义为：

AR⁺＝max(d_ij)/Q⁺ (2)

负类样本自适应调节半径定义为：

AR^—＝max(d_ij)/Q^- (3)

其中max(d_ij)表示各个样本点之间的距离d_ij的最大值。

2)根据所述正/负类样本自适应调节半径确定正/负类样本自适应调节因子。

进一步根据所述正类样本自适应调节半径AR⁺和所述负类样本自适应调节半径AR^-定义正/负类样本自适应调节因子。

其中正类样本自适应调节因子为：

负类样本自适应调节因子为：

3)根据所述正/负类样本自适应调节因子t_ij构建差异矩阵R。

设T＝{t_ij}是基于非平衡率的自适应矩阵，其构成如下：

另外根据求得的d_ij，可进一步得到差异矩阵R为

其中n为训练样本集中样本点的个数，t_ij为正/负类样本对应的自适应调节因子，d_ij为样本间差异。

步骤105：根据所述差异矩阵统计所述样本点有效范围内的正类样本个数和负类样本个数。

统计样本点x_i有效范围内的正类样本和负类样本的个数m⁺和m^-，其中样本点x_i对应的有效范围根据差异矩阵R第i行确定。

步骤106：根据所述正类样本个数和所述负类样本个数确定所述样本点所含的正/负类信息量。

所述正/负类信息量包括样本点所含的正类信息量和负类信息量。设样本点x_i属于正类的概率为

属于负类的概率为

其中k＝m⁺+m^-。m⁺为第i个样本点x_i有效范围内的正类样本个数；m^-为第i个样本点x_i有效范围内的负类样本个数。则可以得出x_i所含正/负类信息量分别为：

H⁺(x_i)＝-p⁺lnp⁺ (8)

H^-(x_i)＝-p^-lnp^- (9)

其中H⁺(x_i)表示所述训练样本集中的第i个样本点x_i所含的正类信息量；H^-(x_i)表示所述训练样本集中的第i个样本点x_i所含的负类信息量；p⁺为样本点x_i属于正类的概率，p^-为样本点x_i属于负类的概率。

步骤107：根据所述样本点所含的正/负类信息量构造信息量模糊隶属函数。

根据所述第i个样本点x_i所含的正类信息量H⁺(x_i)和负类信息量H^-(x_i)构造信息量模糊隶属函数u₁(x_i)：

u₁(x_i)＝1-(H⁺(x_i)+H^-(x_i)) (10)

式中0＜u₁(x_i)≤1。

步骤108：根据所述各个样本点之间的距离确定基于样本间距离的正/负类模糊隶属度函数。

根据自适应调节半径内目标样本x_i与其同类样本之间的距离得到正类和负类的向心度

和

其中正类的向心度：

负类的向心度：

其中，d_ij代表目标样本与其同类样本之间的差异，m⁺和m^—分别代表正类样本个数和负类样本个数。

所述基于样本间距离的正/负类模糊隶属度函数包括基于样本间距离的正类模糊隶属度函数和基于样本间距离的负类模糊隶属度函数。根据式(11)可得基于样本间距离的正类模糊隶属度函数：

根据式(12)可得基于样本间距离的负类模糊隶属度函数：

其中

和

分别表示基于样本间距离的正类和负类的模糊隶属度函数；

δ表示一个很小的正值参数值，

表示正类向心度

的最大值，

表示负类向心度

的最大值。

本发明通过类内向心度来体现样本之间的紧密程度，提出一种基于类内向心度的模糊支持向量机，克服了传统模糊支持向量机缺陷的同时，还可以通过向心度来对混合程度较高的样本进行区分，从而达到有效地识别有效样本、噪声野值点的目的，减小了噪声、野值点对构造最优分类面的影响。

步骤109：根据所述信息量模糊隶属函数及所述基于样本间距离的正/负类模糊隶属度函数确定改进后的正/负类模糊隶属度函数。

在计算模糊隶属度函数时，首先需要确定所有样本点之间的差异，并根据自适应半径构造出差异矩阵，随后在此差异矩阵中利用正、负类样本数目的差异确定隶属度函数。当样本点x_i属于正类，且x_i周围无正类样本，且只有负类样本时，将其视为噪声点，并将其隶属度值设为一个极小值δ；同理，当样本点x_i属于负类，且x_i周围无负类样本，且只有正类样本时，同样将其视为噪声点，并将其隶属度值设为一个极小值。当样本点x_i属于正类，x_i周围无负类样本，且只有正类样本时，则将其视为有效点，将其隶属度设为1；同理，当样本点x_i属于负类，且x_i周围无正类样本，只有负类样本时，也将其视为有效点，将其隶属度设为1。当其周围既有正类样本又有负类样本，则需要同时考虑每个样本点周围正负类样本的数量以及样本间距离，利用信息熵来衡量其周围样本数量的关系，利用基于样本间距离的隶属度函数衡量正类和负类的模糊隶属度函数。

所述改进后的正/负类模糊隶属度函数包括改进后的正类模糊隶属度函数和改进后的负类模糊隶属度函数。根据式(13)、式(14)和式(10)可以得出改进后的模糊隶属度函数计算公式。其中根据所述信息量模糊隶属函数u₁(x_i)及所述基于样本间距离的正类模糊隶属度函数

确定改进后的正类模糊隶属度函数u⁺(x_i)为：

根据所述信息量模糊隶属函数u₁(x_i)及所述基于样本间距离的负类模糊隶属度函数u₂-(x_i)确定改进后的负类模糊隶属度函数u^-(x_i)为：

其中0＜u⁺(x_i)≤1，0＜u^-(x_i)≤1分别表示改进后的正类及负类模糊隶属度函数，表示了第i个样本的的隶属度，代表着第i个样本x_i属于yi类的可靠程度。δ为一个很小的值，可以根据实际情况设定。

步骤110：根据所述改进后的正/负类模糊隶属度函数构造模糊支持向量机分类器。

模糊支持向量机(FuzzySupportVectorMachine，FSVM)是在支持向量机的基础上给每个训练样本分别加上一个隶属度，这样不同的训练样本就会有不同的隶属度。在构造目标函数时，使不同的样本对最优解的求取有不同的作用，从而使不同的样本对最优超平面的确定有不同的贡献。让噪声或孤立点的隶属度很小，达到减小噪声或孤立点对最优超平面影响的目的。隶属度函数的设计直接影响模糊支持向量机的分类性能。不同的隶属度函数设计方法对于算法实现的难易程度以及最终的分类结果都有很重要的影响。

本发明利用所述改进后的模糊隶属度函数构造模糊支持向量机分类器，并采用模糊支持向量机分类器完成对测试样本的分类。

本发明构造的模糊支持向量机分类器的一般形式可以表示为：

式中w代表超平面的法向量；C⁺、C^—分别代表正、负类样本的惩罚因子，C⁺，C^-为常数。n为样本点的个数。y＝+1代表正类样本标签，即脑卒中患者标签；y＝-1代表负类样本标签，即非脑卒中患者标签。

代表改进后的正类的模糊隶属度函数，即u⁺(x_i)；

代表改进后的负类的模糊隶属度函数，即u^-(x_i)。ξ_i为松弛因子。y_i代表两种不同的类别标签，y_i∈{-1,+1}。φ(x_i)代表核函数，b代表偏移量。

通过求解公式(17)，可以得到最优分类超平面，从而得到样本点x_i的类别标签。

本发明构造的模糊支持向量机分类器主要是对模糊隶属度函数进行了改进设计，目的是为了有效解决数据中少数类的分类准确率较低的问题，本发明充分考虑了不同类别样本间的数量关系，以及同类样本间距离的关系，可以用来解决脑卒中非平衡数据集的分类问题，提高分类准确率。

步骤111：采用所述模糊支持向量机分类器对脑卒中非平衡数据集进行分类。

在实际应用中，将待分类的脑卒中非平衡数据集输入新构造的模糊支持向量机分类器中，就可以输出该脑卒中非平衡数据集的各个测试数据对应的类别，即将其划分为脑卒中患者或者非脑卒中患者。

一般的模糊隶属函数设计方法没有综合考虑到样本数量与样本距离之间的关系，本发明主要针对现有的模糊支持向量机分类模型在对脑卒中非平衡数据集进行分类的过程中存在的模糊隶属度函数赋予不准确和分类效果不佳等不足，在设计模糊隶属度函数时，首先根据不同类别样本间数量关系，利用信息熵来衡量样本点的不确定性，其次考虑同类样本间距离的关系，构造出一种新的模糊隶属度函数，为改进模糊隶属函数提供一定的参考，最后将其应用于模糊支持向量机中，有效提高脑卒中非平衡数据集的分类性能。

下面采用测试样本集中的数据验证本发明所设计的脑卒中模糊支持向量机分类器能否有效地提升脑卒中患者数据的分类准确率以及其分类性能。验证实验的评价指标采用二分类问题常用的评价指标：敏感性Se(Sensitivity)，特异性Sp(Specificity)、准确率Acc(Accuracy)以及几何平均Gm(G-mean)，其定义分别为：

上式中TP、FN、TN、FP分别代表样本点被分类模型(即本发明的模糊支持向量机分类器)正确预测为脑卒中患者的脑卒中患者样本数、被分类模型错误预测为非脑卒中患者的脑卒中患者样本数、被分类模型正确预测为非脑卒中患者的非脑卒中患者样本数、以及被分类模型错误预测为脑卒中患者的非脑卒中患者样本数，Se、Sp、Acc和Gm的值越大表明分类效果越好。Se大说明对脑卒中患者数据的分类准确率较高，也是非平衡数据集期望的结果；Sp则反映了对非脑卒中患者数据的分类性能。但通常情况下，具有较高Se的分类器不一定有高的Sp，也就是对脑卒中患者数据分类性能好的同时，对非脑卒中患者数据的分类性能会有所下降，因此本发明对脑卒中非平衡数据集，进一步采用Gm作为评价指标，以更精确反映本发明设计的脑卒中分类器的总体性能。

实验选取kaggle数据库中的脑卒中非平衡数据集进行本发明方法的性能验证，基于kaggle数据库中的脑卒中非平衡数据集，重新整理得到三个不同平衡率的脑卒中数据集，表1给出了三个数据集data1、data2和data3的详细介绍。

表1三个不同平衡率的脑卒中非平衡数据集介绍

使用本发明构建好的脑卒中模糊支持向量机分类器对3个不同平衡率的脑卒中数据集data1、data2和data3分别进行分类实验，其详细结果如下表2所示。

表2实验详细结果

数据集	Se	Sp	Acc	Gm
					data1	62.5	79.31	76.43	70.41
data2	76.49	71.5	72.22	73.95
					data3	73.68	70.06	70.43	71.84

由表2所示的实验结果可知，在三个数据集的分类结果中，Acc和Gm均可达70％以上，另外随着数据集样本总数的增大，本发明所提出的方法具有较好的适应性。通过观察表1和表2可知，当样本总数变大以及非平衡率变高的时候，Se逐渐增大，脑卒中患者数据分类性能提升，Sp逐渐减小，但降低的幅度不是很大，说明本发明充分考虑了不同类别样本间的数量关系，以及同类样本间距离的关系，可以用来解决脑卒中非平衡数据集的分类问题，提高对脑卒中非平衡数据集的分类性能。

本发明方法利用自适应因子来构造差异矩阵，充分考虑了非平衡性正负类样本数量的影响，使得改进后的模糊隶属度函数更适用于脑卒中非平衡数据集的分类。本发明在设计模糊隶属度函数时，首先设置差异矩阵，其次通过正负类样本数量间的关系将隶属度函数分为两个部分，利用信息熵衡量正、负类样本所含的信息量大小，以及使用基于样本间距离的隶属度函数衡量样本间距离的关系，构造出一种全新的、改进后的模糊隶属度函数。本发明不仅更加准确地设计了模糊隶属度函数，还为如何设计模糊隶属度函数提供了一种新的思路。

基于本发明提供的面向脑卒中非平衡数据集的分类方法，本发明还提供一种面向脑卒中非平衡数据集的分类系统，参见图3，所述系统包括：

非平衡数据集获取模块301，用于获取脑卒中非平衡数据集；

非平衡数据集划分模块302，用于将所述脑卒中非平衡数据集按照7:3比例随机划分成训练样本集和测试样本集，其中训练样本集和测试样本集的非平衡率不改变；

样本间距离计算模块303，用于计算所述训练样本集中各个样本点之间的距离；

差异矩阵构造模块304，用于根据所述训练样本集中各个样本点之间的距离构造差异矩阵；

样本数量统计模块305，用于根据所述差异矩阵统计所述样本点有效范围内的正类样本个数和负类样本个数；

正负类信息量计算模块306，用于根据所述正类样本个数和所述负类样本个数确定所述样本点所含的正/负类信息量；

信息量模糊隶属函数构造模块307，用于根据所述样本点所含的正/负类信息量构造信息量模糊隶属函数；

基于样本间距离的正负类模糊隶属度函数确定模块308，用于根据所述各个样本点之间的距离确定基于样本间距离的正/负类模糊隶属度函数；

改进后的正负类模糊隶属度函数构建模块309，用于根据所述信息量模糊隶属函数及所述基于样本间距离的正/负类模糊隶属度函数确定改进后的正/负类模糊隶属度函数；

模糊支持向量机分类器构造模块310，用于根据所述改进后的正/负类模糊隶属度函数构造模糊支持向量机分类器；

非平衡数据分类模块311，用于采用所述模糊支持向量机分类器对脑卒中非平衡数据集进行分类。

其中，所述样本间距离计算模块303具体包括：

样本间距离计算单元，用于采用公式d_ij＝x_i-x_j计算所述训练样本集中的第i个样本点x_i和第j个样本点x_j之间的距离d_ij。

所述差异矩阵构造模块304具体包括：

所述正负类信息量计算模块306具体包括：

正类信息量计算单元，用于采用公式H⁺(x_i)＝-p⁺lnp⁺确定所述训练样本集中的第i个样本点x_i所含的正类信息量H⁺(x_i)；其中

负类信息量计算单元，用于采用公式H^-(x_i)＝-p^-lnp^-确定所述训练样本集中的第i个样本点x_i所含的负类信息量H^-(x_i)；其中

所述信息量模糊隶属函数构造模块307具体包括：

信息量模糊隶属函数构造单元，用于根据所述第i个样本点x_i所含的正类信息量H⁺(x_i)和负类信息量H^-(x_i)，采用公式u₁(x_i)＝1-(H⁺(x_i)+H^-(x_i))构造信息量模糊隶属函数u₁(x_i)。

所述基于样本间距离的正负类模糊隶属度函数确定模块308具体包括：

正类向心度计算单元，用于根据所述训练样本集中的第i个样本点x_i和第j个样本点x_j之间的距离d_ij，采用公式

确定正类的向心度

负类向心度计算单元，用于根据所述训练样本集中的第i个样本点x_i和第j个样本点x_j之间的距离d_ij，采用公式

确定负类的向心度

基于样本间距离的正类模糊隶属度函数确定单元，用于根据所述正类的向心度

采用公式

确定基于样本间距离的正类模糊隶属度函数

其中δ为正值参数值，

表示正类向心度

的最大值；

基于样本间距离的负类模糊隶属度函数确定单元，用于根据所述负类的向心度

采用公式

确定基于样本间距离的负类模糊隶属度函数

其中

表示负类向心度

的最大值。

所述改进后的正负类模糊隶属度函数构建模块309具体包括：

改进后的正类模糊隶属度函数确定单元，用于根据所述信息量模糊隶属函数u₁(x_i)及所述基于样本间距离的正类模糊隶属度函数

采用公式

确定改进后的正类模糊隶属度函数u⁺(x_i)；

改进后的负类模糊隶属度函数确定单元，用于根据所述信息量模糊隶属函数u₁(x_i)及所述基于样本间距离的负类模糊隶属度函数

采用公式

确定改进后的负类模糊隶属度函数u^-(x_i)。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种面向脑卒中非平衡数据集的分类方法，其特征在于，所述方法包括：

获取脑卒中非平衡数据集；

计算所述训练样本集中各个样本点之间的距离；

2.根据权利要求1所述的面向脑卒中非平衡数据集的分类方法，其特征在于，所述计算所述训练样本集中各个样本点之间的距离，具体包括：

3.根据权利要求2所述的面向脑卒中非平衡数据集的分类方法，其特征在于，所述根据所述训练样本集中各个样本点之间的距离构造差异矩阵，具体包括：

根据所述正/负类样本自适应调节因子构建差异矩阵。

4.根据权利要求3所述的面向脑卒中非平衡数据集的分类方法，其特征在于，所述根据所述正类样本个数和所述负类样本个数确定所述样本点所含的正/负类信息量，具体包括：

采用公式H^-(x_i)＝-p^- ln p^-确定所述训练样本集中的第i个样本点x_i所含的负类信息量H^-(x_i)；其中

5.根据权利要求4所述的面向脑卒中非平衡数据集的分类方法，其特征在于，所述根据所述样本点所含的正/负类信息量构造信息量模糊隶属函数，具体包括：

6.根据权利要求5所述的面向脑卒中非平衡数据集的分类方法，其特征在于，所述根据所述各个样本点之间的距离确定基于样本间距离的正/负类模糊隶属度函数，具体包括：

确定正类的向心度

确定负类的向心度

根据所述正类的向心度

采用公式

确定基于样本间距离的正类模糊隶属度函数

其中δ为正值参数值；

表示正类向心度

的最大值；

根据所述负类的向心度

采用公式

确定基于样本间距离的负类模糊隶属度函数

表示负类向心度

的最大值。

7.根据权利要求6所述的面向脑卒中非平衡数据集的分类方法，其特征在于，所述根据所述信息量模糊隶属函数及所述基于样本间距离的正/负类模糊隶属度函数确定改进后的正/负类模糊隶属度函数，具体包括：

采用公式

m^-≠0确定改进后的正类模糊隶属度函数u⁺(x_i)；

采用公式

m⁺≠0确定改进后的负类模糊隶属度函数u^-(x_i)。

8.一种面向脑卒中非平衡数据集的分类系统，其特征在于，所述系统包括：

非平衡数据集获取模块，用于获取脑卒中非平衡数据集；

9.根据权利要求8所述的面向脑卒中非平衡数据集的分类系统，其特征在于，所述样本间距离计算模块具体包括：

10.根据权利要求9所述的面向脑卒中非平衡数据集的分类系统，其特征在于，所述差异矩阵构造模块具体包括：