CN110991517A - 一种面向脑卒中非平衡数据集的分类方法及系统 - Google Patents
一种面向脑卒中非平衡数据集的分类方法及系统 Download PDFInfo
- Publication number
- CN110991517A CN110991517A CN201911189087.0A CN201911189087A CN110991517A CN 110991517 A CN110991517 A CN 110991517A CN 201911189087 A CN201911189087 A CN 201911189087A CN 110991517 A CN110991517 A CN 110991517A
- Authority
- CN
- China
- Prior art keywords
- positive
- negative
- sample
- stroke
- membership function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 208000006011 Stroke Diseases 0.000 claims abstract description 120
- 239000011159 matrix material Substances 0.000 claims abstract description 40
- 238000012706 support-vector machine Methods 0.000 claims abstract description 35
- 230000003044 adaptive effect Effects 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims description 58
- 238000012360 testing method Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 9
- 238000013145 classification model Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 208000026106 cerebrovascular disease Diseases 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 206010008190 Cerebrovascular accident Diseases 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 210000005013 brain tissue Anatomy 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向脑卒中非平衡数据集的分类方法及系统。所述方法利用自适应因子来构造差异矩阵,充分考虑了脑卒中非平衡数据集中脑卒中患者数据与非脑卒中患者数量的非平衡性对分类结果的影响,使得改进后的模糊隶属度函数更适用于脑卒中非平衡数据集的分类;并且本发明在构建模糊隶属度函数时,首先根据不同类别样本间数量关系,利用信息熵来衡量样本点的不确定性,其次考虑同类样本间距离的关系,构造出一种改进后的模糊隶属度函数,将改进后的模糊隶属度函数应用于模糊支持向量机中,能够有效提高模糊支持向量机分类器对脑卒中非平衡数据集的分类性能。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种面向脑卒中非平衡数据集的分类方法及系统。
背景技术
脑卒中又称“中风”、“脑血管意外”,是一种急性脑血管疾病,是由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一种疾病。随着医疗信息化的发展,脑卒中数据逐渐呈现非平衡数据集特性,脑卒中患者要普遍少于非脑卒中患者,由于分类模型普遍存在偏向性,即对非脑卒中患者(称为多数类)的分类效果较好,对脑卒中患者(称为少数类)的分类性能偏低甚至不能识别,因此采用现有的分类模型对脑卒中非平衡数据集进行分类时,对脑卒中患者(少数类)数据的分类性能较差。
发明内容
本发明的目的是提供一种面向脑卒中非平衡数据集的分类方法及系统,以解决现有分类模型对脑卒中非平衡数据集分类中脑卒中患者即少数类分类性能较差的问题。
为实现上述目的,本发明提供了如下方案:
一种面向脑卒中非平衡数据集的分类方法,所述方法包括:
获取脑卒中非平衡数据集;
将所述脑卒中非平衡数据集按照7:3比例随机划分成训练样本集和测试样本集,其中训练样本集和测试样本集非平衡率不改变;
计算所述训练样本集中各个样本点之间的距离;
根据所述训练样本集中各个样本点之间的距离构造差异矩阵;
根据所述差异矩阵统计所述样本点有效范围内的正类样本个数和负类样本个数;其中正类样本是指脑卒中非平衡数据集中脑卒中患者数据,负类样本是指脑卒中非平衡数据集中非脑卒中患者数据;
根据所述正类样本个数和所述负类样本个数确定所述样本点所含的正/负类信息量;
根据所述样本点所含的正/负类信息量构造信息量模糊隶属函数;
根据所述各个样本点之间的距离确定基于样本间距离的正/负类模糊隶属度函数;
根据所述信息量模糊隶属函数及所述基于样本间距离的正/负类模糊隶属度函数确定改进后的正/负类模糊隶属度函数;
根据所述改进后的正/负类模糊隶属度函数构造模糊支持向量机分类器;
采用所述模糊支持向量机分类器对脑卒中非平衡数据集进行分类。
可选的,所述计算所述训练样本集中各个样本点之间的距离,具体包括:
采用公式dij=|xi-xj|计算所述训练样本集中的第i个样本点xi和第j个样本点xj之间的距离dij。
可选的,所述根据所述训练样本集中各个样本点之间的距离构造差异矩阵,具体包括:
根据所述各个样本点之间的距离dij确定正/负类样本自适应调节半径;
根据所述正/负类样本自适应调节半径确定正/负类样本自适应调节因子;
根据所述正/负类样本自适应调节因子构建差异矩阵。
可选的,所述根据所述正类样本个数和所述负类样本个数确定所述样本点所含的正/负类信息量,具体包括:
采用公式H+(xi)=-p+lnp+确定所述训练样本集中的第i个样本点xi所含的正类信息量H+(xi);其中k=m++m-;m+为第i个样本点xi有效范围内的正类样本个数;m-为第i个样本点xi有效范围内的负类样本个数;
可选的,所述根据所述样本点所含的正/负类信息量构造信息量模糊隶属函数,具体包括:
根据所述第i个样本点xi所含的正类信息量H+(xi)和负类信息量H-(xi),采用公式u1(xi)=1-(H+(xi)+H-(xi))构造信息量模糊隶属函数u1(xi)。
可选的,所述根据所述各个样本点之间的距离确定基于样本间距离的正/负类模糊隶属度函数,具体包括:
可选的,所述根据所述信息量模糊隶属函数及所述基于样本间距离的正/负类模糊隶属度函数确定改进后的正/负类模糊隶属度函数,具体包括:
一种面向脑卒中非平衡数据集的分类系统,所述系统包括:
非平衡数据集获取模块,用于获取脑卒中非平衡数据集;
非平衡数据集划分模块,用于将所述脑卒中非平衡数据集按照7:3比例随机划分成训练样本集和测试样本集,其中训练样本集和测试样本集非平衡率不改变;
样本间距离计算模块,用于计算所述训练样本集中各个样本点之间的距离;
差异矩阵构造模块,用于根据所述训练样本集中各个样本点之间的距离构造差异矩阵;
样本数量统计模块,用于根据所述差异矩阵统计所述样本点有效范围内的正类样本个数和负类样本个数;其中正类样本是指脑卒中非平衡数据集中脑卒中患者数据,负类样本是指脑卒中非平衡数据集中非脑卒中患者数据;
正负类信息量计算模块,用于根据所述正类样本个数和所述负类样本个数确定所述样本点所含的正/负类信息量;
信息量模糊隶属函数构造模块,用于根据所述样本点所含的正/负类信息量构造信息量模糊隶属函数;
基于样本间距离的正负类模糊隶属度函数确定模块,用于根据所述各个样本点之间的距离确定基于样本间距离的正/负类模糊隶属度函数;
改进后的正负类模糊隶属度函数构建模块,用于根据所述信息量模糊隶属函数及所述基于样本间距离的正/负类模糊隶属度函数确定改进后的正/负类模糊隶属度函数;
模糊支持向量机分类器构造模块,用于根据所述改进后的正/负类模糊隶属度函数构造模糊支持向量机分类器;
非平衡数据分类模块,用于采用所述模糊支持向量机分类器对脑卒中非平衡数据集进行分类。
可选的,所述样本间距离计算模块具体包括:
样本间距离计算单元,用于采用公式dij=|xi-xj|计算所述训练样本集中的第i个样本点xi和第j个样本点xj之间的距离dij。
可选的,所述差异矩阵构造模块具体包括:
自适应调节半径确定单元,用于根据所述各个样本点之间的距离dij确定正/负类样本自适应调节半径;
自适应调节因子确定单元,用于根据所述正/负类样本自适应调节半径确定正/负类样本自适应调节因子;
差异矩阵构建单元,用于根据所述正/负类样本自适应调节因子构建差异矩阵。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供一种面向脑卒中非平衡数据集的分类方法及系统,所述方法利用自适应因子来构造差异矩阵,充分考虑了脑卒中数据集的非平衡特性对分类结果的影响,使得改进后的模糊隶属度函数更适用于脑卒中非平衡数据集的分类;并且本发明在设计模糊隶属度函数时,首先根据不同类别样本间数量关系,利用信息熵来衡量样本点的不确定性,其次考虑同类样本间距离的关系,构造出一种改进后的模糊隶属度函数,将改进后的模糊隶属度函数应用于模糊支持向量机中,能够有效提高模糊支持向量机分类器对脑卒中非平衡数据集的分类性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的面向脑卒中非平衡数据集的分类方法的流程图;
图2为本发明提供的面向脑卒中非平衡数据集的分类方法的原理图;
图3为本发明提供的面向脑卒中非平衡数据集的分类系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明主要针对模糊支持向量机对脑卒中非平衡数据集分类过程中存在的模糊隶属度函数赋予不准确和分类效果不佳等不足,提出一种面向脑卒中非平衡数据集的分类方法及系统,为改进模糊隶属函数提供一定的参考,最后将其应用于模糊支持向量机中,有效提高其在脑卒中非平衡数据集中的分类性能。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明提供的面向脑卒中非平衡数据集的分类方法的流程图。图2为本发明提供的面向脑卒中非平衡数据集的分类方法的原理图。参见图1和图2,本发明提供的面向脑卒中非平衡数据集的分类方法具体包括:
步骤101:获取脑卒中非平衡数据集。
所述非平衡数据集是指,如果一个数据集中某一个类别的样本远远多余其他的类别,那么就称这种数据集为非平衡数据集。以二分类为例,在数据集中数量很少的一类称为少数类或正类样本,数量较多的一类则称为多数类或负类样本。非平衡数据集的特点主要体现在两个方面,一方面是不同类别之间存在数量上的差异;另一方面是不同类别样本的分布不平衡。
本发明获取的所述脑卒中非平衡数据集中的数据为二分类数据,将数量多的正常个体视为负类样本,将数量较少的患病个体视为正类样本。
步骤102:将所述脑卒中非平衡数据集随机划分成训练样本集和测试样本集。
对所述脑卒中非平衡数据集中的样本按照7:3比例进行随机划分得到训练样本集和测试样本集,其中训练样本集和测试样本集中正负类样本数量比例与原数据集保持相同,即训练样本集和测试样本集的非平衡率不改变。
若采用yi代表两种不同的类别标签,yi∈{-1,+1},则yi=-1代表负类样本,即非脑卒中患者;yi=+1代表正类样本,即脑卒中患者。u(xi)是模糊隶属度函数,表示第i个样本的的隶属度,代表着第i个样本xi属于yi类的程度,0<u(xi)≤1,其值越大,表示样本xi属于yi类的程度越高。
步骤103:计算所述训练样本集中各个样本点之间的距离。
计算所述训练样本集中各个样本点之间的距离用于衡量所有特征向量之间的差异,差异的计算采用下式确定:
dij=|xi-xj| (1)
其中xi表示所述训练样本集中的第i个样本点,xj表示所述训练样本集中的第j个样本点,dij表示样本点xi与样本点xj之间的距离。dij越小,说明样本点xi及样本点xj二者差异越小,样本点xi及xj属于同一类的概率就越大。
步骤104:根据所述训练样本集中各个样本点之间的距离构造差异矩阵。
所述根据所述训练样本集中各个样本点之间的距离构造差异矩阵,具体包括:
1)根据所述各个样本点之间的距离dij确定正/负类样本自适应调节半径。
设Q为一个自适应因子,是一个常数,可根据样本集大小进行自适应调整。本发明取Q=12,则得到正类样本自适应因子Q+=Q,负类样本的自适应因子Q-=Q/r。其中r为非平衡数据集对应的非平衡率,本发明脑卒中非平衡数据集对应的非平衡率r可采用下式得到:r=负类样本数/正类样本数。
本发明中,正类样本自适应调节半径定义为:
AR+=max(dij)/Q+ (2)
负类样本自适应调节半径定义为:
AR—=max(dij)/Q- (3)
其中max(dij)表示各个样本点之间的距离dij的最大值。
2)根据所述正/负类样本自适应调节半径确定正/负类样本自适应调节因子。
进一步根据所述正类样本自适应调节半径AR+和所述负类样本自适应调节半径AR-定义正/负类样本自适应调节因子。
其中正类样本自适应调节因子为:
负类样本自适应调节因子为:
3)根据所述正/负类样本自适应调节因子tij构建差异矩阵R。
设T={tij}是基于非平衡率的自适应矩阵,其构成如下:
另外根据求得的dij,可进一步得到差异矩阵R为
其中n为训练样本集中样本点的个数,tij为正/负类样本对应的自适应调节因子,dij为样本间差异。
步骤105:根据所述差异矩阵统计所述样本点有效范围内的正类样本个数和负类样本个数。
统计样本点xi有效范围内的正类样本和负类样本的个数m+和m-,其中样本点xi对应的有效范围根据差异矩阵R第i行确定。
步骤106:根据所述正类样本个数和所述负类样本个数确定所述样本点所含的正/负类信息量。
所述正/负类信息量包括样本点所含的正类信息量和负类信息量。设样本点xi属于正类的概率为属于负类的概率为其中k=m++m-。m+为第i个样本点xi有效范围内的正类样本个数;m-为第i个样本点xi有效范围内的负类样本个数。则可以得出xi所含正/负类信息量分别为:
H+(xi)=-p+lnp+ (8)
H-(xi)=-p-lnp- (9)
其中H+(xi)表示所述训练样本集中的第i个样本点xi所含的正类信息量;H-(xi)表示所述训练样本集中的第i个样本点xi所含的负类信息量;p+为样本点xi属于正类的概率,p-为样本点xi属于负类的概率。
步骤107:根据所述样本点所含的正/负类信息量构造信息量模糊隶属函数。
根据所述第i个样本点xi所含的正类信息量H+(xi)和负类信息量H-(xi)构造信息量模糊隶属函数u1(xi):
u1(xi)=1-(H+(xi)+H-(xi)) (10)
式中0<u1(xi)≤1。
步骤108:根据所述各个样本点之间的距离确定基于样本间距离的正/负类模糊隶属度函数。
其中,dij代表目标样本与其同类样本之间的差异,m+和m—分别代表正类样本个数和负类样本个数。
所述基于样本间距离的正/负类模糊隶属度函数包括基于样本间距离的正类模糊隶属度函数和基于样本间距离的负类模糊隶属度函数。根据式(11)可得基于样本间距离的正类模糊隶属度函数:
根据式(12)可得基于样本间距离的负类模糊隶属度函数:
本发明通过类内向心度来体现样本之间的紧密程度,提出一种基于类内向心度的模糊支持向量机,克服了传统模糊支持向量机缺陷的同时,还可以通过向心度来对混合程度较高的样本进行区分,从而达到有效地识别有效样本、噪声野值点的目的,减小了噪声、野值点对构造最优分类面的影响。
步骤109:根据所述信息量模糊隶属函数及所述基于样本间距离的正/负类模糊隶属度函数确定改进后的正/负类模糊隶属度函数。
在计算模糊隶属度函数时,首先需要确定所有样本点之间的差异,并根据自适应半径构造出差异矩阵,随后在此差异矩阵中利用正、负类样本数目的差异确定隶属度函数。当样本点xi属于正类,且xi周围无正类样本,且只有负类样本时,将其视为噪声点,并将其隶属度值设为一个极小值δ;同理,当样本点xi属于负类,且xi周围无负类样本,且只有正类样本时,同样将其视为噪声点,并将其隶属度值设为一个极小值。当样本点xi属于正类,xi周围无负类样本,且只有正类样本时,则将其视为有效点,将其隶属度设为1;同理,当样本点xi属于负类,且xi周围无正类样本,只有负类样本时,也将其视为有效点,将其隶属度设为1。当其周围既有正类样本又有负类样本,则需要同时考虑每个样本点周围正负类样本的数量以及样本间距离,利用信息熵来衡量其周围样本数量的关系,利用基于样本间距离的隶属度函数衡量正类和负类的模糊隶属度函数。
所述改进后的正/负类模糊隶属度函数包括改进后的正类模糊隶属度函数和改进后的负类模糊隶属度函数。根据式(13)、式(14)和式(10)可以得出改进后的模糊隶属度函数计算公式。其中根据所述信息量模糊隶属函数u1(xi)及所述基于样本间距离的正类模糊隶属度函数确定改进后的正类模糊隶属度函数u+(xi)为:
根据所述信息量模糊隶属函数u1(xi)及所述基于样本间距离的负类模糊隶属度函数u2-(xi)确定改进后的负类模糊隶属度函数u-(xi)为:
其中0<u+(xi)≤1,0<u-(xi)≤1分别表示改进后的正类及负类模糊隶属度函数,表示了第i个样本的的隶属度,代表着第i个样本xi属于yi类的可靠程度。δ为一个很小的值,可以根据实际情况设定。
步骤110:根据所述改进后的正/负类模糊隶属度函数构造模糊支持向量机分类器。
模糊支持向量机(FuzzySupportVectorMachine,FSVM)是在支持向量机的基础上给每个训练样本分别加上一个隶属度,这样不同的训练样本就会有不同的隶属度。在构造目标函数时,使不同的样本对最优解的求取有不同的作用,从而使不同的样本对最优超平面的确定有不同的贡献。让噪声或孤立点的隶属度很小,达到减小噪声或孤立点对最优超平面影响的目的。隶属度函数的设计直接影响模糊支持向量机的分类性能。不同的隶属度函数设计方法对于算法实现的难易程度以及最终的分类结果都有很重要的影响。
本发明利用所述改进后的模糊隶属度函数构造模糊支持向量机分类器,并采用模糊支持向量机分类器完成对测试样本的分类。
本发明构造的模糊支持向量机分类器的一般形式可以表示为:
式中w代表超平面的法向量;C+、C—分别代表正、负类样本的惩罚因子,C+,C-为常数。n为样本点的个数。y=+1代表正类样本标签,即脑卒中患者标签;y=-1代表负类样本标签,即非脑卒中患者标签。代表改进后的正类的模糊隶属度函数,即u+(xi);代表改进后的负类的模糊隶属度函数,即u-(xi)。ξi为松弛因子。yi代表两种不同的类别标签,yi∈{-1,+1}。φ(xi)代表核函数,b代表偏移量。
通过求解公式(17),可以得到最优分类超平面,从而得到样本点xi的类别标签。
本发明构造的模糊支持向量机分类器主要是对模糊隶属度函数进行了改进设计,目的是为了有效解决数据中少数类的分类准确率较低的问题,本发明充分考虑了不同类别样本间的数量关系,以及同类样本间距离的关系,可以用来解决脑卒中非平衡数据集的分类问题,提高分类准确率。
步骤111:采用所述模糊支持向量机分类器对脑卒中非平衡数据集进行分类。
在实际应用中,将待分类的脑卒中非平衡数据集输入新构造的模糊支持向量机分类器中,就可以输出该脑卒中非平衡数据集的各个测试数据对应的类别,即将其划分为脑卒中患者或者非脑卒中患者。
一般的模糊隶属函数设计方法没有综合考虑到样本数量与样本距离之间的关系,本发明主要针对现有的模糊支持向量机分类模型在对脑卒中非平衡数据集进行分类的过程中存在的模糊隶属度函数赋予不准确和分类效果不佳等不足,在设计模糊隶属度函数时,首先根据不同类别样本间数量关系,利用信息熵来衡量样本点的不确定性,其次考虑同类样本间距离的关系,构造出一种新的模糊隶属度函数,为改进模糊隶属函数提供一定的参考,最后将其应用于模糊支持向量机中,有效提高脑卒中非平衡数据集的分类性能。
下面采用测试样本集中的数据验证本发明所设计的脑卒中模糊支持向量机分类器能否有效地提升脑卒中患者数据的分类准确率以及其分类性能。验证实验的评价指标采用二分类问题常用的评价指标:敏感性Se(Sensitivity),特异性Sp(Specificity)、准确率Acc(Accuracy)以及几何平均Gm(G-mean),其定义分别为:
上式中TP、FN、TN、FP分别代表样本点被分类模型(即本发明的模糊支持向量机分类器)正确预测为脑卒中患者的脑卒中患者样本数、被分类模型错误预测为非脑卒中患者的脑卒中患者样本数、被分类模型正确预测为非脑卒中患者的非脑卒中患者样本数、以及被分类模型错误预测为脑卒中患者的非脑卒中患者样本数,Se、Sp、Acc和Gm的值越大表明分类效果越好。Se大说明对脑卒中患者数据的分类准确率较高,也是非平衡数据集期望的结果;Sp则反映了对非脑卒中患者数据的分类性能。但通常情况下,具有较高Se的分类器不一定有高的Sp,也就是对脑卒中患者数据分类性能好的同时,对非脑卒中患者数据的分类性能会有所下降,因此本发明对脑卒中非平衡数据集,进一步采用Gm作为评价指标,以更精确反映本发明设计的脑卒中分类器的总体性能。
实验选取kaggle数据库中的脑卒中非平衡数据集进行本发明方法的性能验证,基于kaggle数据库中的脑卒中非平衡数据集,重新整理得到三个不同平衡率的脑卒中数据集,表1给出了三个数据集data1、data2和data3的详细介绍。
表1三个不同平衡率的脑卒中非平衡数据集介绍
使用本发明构建好的脑卒中模糊支持向量机分类器对3个不同平衡率的脑卒中数据集data1、data2和data3分别进行分类实验,其详细结果如下表2所示。
表2实验详细结果
数据集 | Se | Sp | Acc | Gm |
data1 | 62.5 | 79.31 | 76.43 | 70.41 |
data2 | 76.49 | 71.5 | 72.22 | 73.95 |
data3 | 73.68 | 70.06 | 70.43 | 71.84 |
由表2所示的实验结果可知,在三个数据集的分类结果中,Acc和Gm均可达70%以上,另外随着数据集样本总数的增大,本发明所提出的方法具有较好的适应性。通过观察表1和表2可知,当样本总数变大以及非平衡率变高的时候,Se逐渐增大,脑卒中患者数据分类性能提升,Sp逐渐减小,但降低的幅度不是很大,说明本发明充分考虑了不同类别样本间的数量关系,以及同类样本间距离的关系,可以用来解决脑卒中非平衡数据集的分类问题,提高对脑卒中非平衡数据集的分类性能。
本发明方法利用自适应因子来构造差异矩阵,充分考虑了非平衡性正负类样本数量的影响,使得改进后的模糊隶属度函数更适用于脑卒中非平衡数据集的分类。本发明在设计模糊隶属度函数时,首先设置差异矩阵,其次通过正负类样本数量间的关系将隶属度函数分为两个部分,利用信息熵衡量正、负类样本所含的信息量大小,以及使用基于样本间距离的隶属度函数衡量样本间距离的关系,构造出一种全新的、改进后的模糊隶属度函数。本发明不仅更加准确地设计了模糊隶属度函数,还为如何设计模糊隶属度函数提供了一种新的思路。
基于本发明提供的面向脑卒中非平衡数据集的分类方法,本发明还提供一种面向脑卒中非平衡数据集的分类系统,参见图3,所述系统包括:
非平衡数据集获取模块301,用于获取脑卒中非平衡数据集;
非平衡数据集划分模块302,用于将所述脑卒中非平衡数据集按照7:3比例随机划分成训练样本集和测试样本集,其中训练样本集和测试样本集的非平衡率不改变;
样本间距离计算模块303,用于计算所述训练样本集中各个样本点之间的距离;
差异矩阵构造模块304,用于根据所述训练样本集中各个样本点之间的距离构造差异矩阵;
样本数量统计模块305,用于根据所述差异矩阵统计所述样本点有效范围内的正类样本个数和负类样本个数;
正负类信息量计算模块306,用于根据所述正类样本个数和所述负类样本个数确定所述样本点所含的正/负类信息量;
信息量模糊隶属函数构造模块307,用于根据所述样本点所含的正/负类信息量构造信息量模糊隶属函数;
基于样本间距离的正负类模糊隶属度函数确定模块308,用于根据所述各个样本点之间的距离确定基于样本间距离的正/负类模糊隶属度函数;
改进后的正负类模糊隶属度函数构建模块309,用于根据所述信息量模糊隶属函数及所述基于样本间距离的正/负类模糊隶属度函数确定改进后的正/负类模糊隶属度函数;
模糊支持向量机分类器构造模块310,用于根据所述改进后的正/负类模糊隶属度函数构造模糊支持向量机分类器;
非平衡数据分类模块311,用于采用所述模糊支持向量机分类器对脑卒中非平衡数据集进行分类。
其中,所述样本间距离计算模块303具体包括:
样本间距离计算单元,用于采用公式dij=xi-xj计算所述训练样本集中的第i个样本点xi和第j个样本点xj之间的距离dij。
所述差异矩阵构造模块304具体包括:
自适应调节半径确定单元,用于根据所述各个样本点之间的距离dij确定正/负类样本自适应调节半径;
自适应调节因子确定单元,用于根据所述正/负类样本自适应调节半径确定正/负类样本自适应调节因子;
差异矩阵构建单元,用于根据所述正/负类样本自适应调节因子构建差异矩阵。
所述正负类信息量计算模块306具体包括:
正类信息量计算单元,用于采用公式H+(xi)=-p+lnp+确定所述训练样本集中的第i个样本点xi所含的正类信息量H+(xi);其中k=m++m-;m+为第i个样本点xi有效范围内的正类样本个数;m-为第i个样本点xi有效范围内的负类样本个数;
所述信息量模糊隶属函数构造模块307具体包括:
信息量模糊隶属函数构造单元,用于根据所述第i个样本点xi所含的正类信息量H+(xi)和负类信息量H-(xi),采用公式u1(xi)=1-(H+(xi)+H-(xi))构造信息量模糊隶属函数u1(xi)。
所述基于样本间距离的正负类模糊隶属度函数确定模块308具体包括:
所述改进后的正负类模糊隶属度函数构建模块309具体包括:
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种面向脑卒中非平衡数据集的分类方法,其特征在于,所述方法包括:
获取脑卒中非平衡数据集;
将所述脑卒中非平衡数据集按照7:3比例随机划分成训练样本集和测试样本集,其中训练样本集和测试样本集非平衡率不改变;
计算所述训练样本集中各个样本点之间的距离;
根据所述训练样本集中各个样本点之间的距离构造差异矩阵;
根据所述差异矩阵统计所述样本点有效范围内的正类样本个数和负类样本个数;其中正类样本是指脑卒中非平衡数据集中脑卒中患者数据,负类样本是指脑卒中非平衡数据集中非脑卒中患者数据;
根据所述正类样本个数和所述负类样本个数确定所述样本点所含的正/负类信息量;
根据所述样本点所含的正/负类信息量构造信息量模糊隶属函数;
根据所述各个样本点之间的距离确定基于样本间距离的正/负类模糊隶属度函数;
根据所述信息量模糊隶属函数及所述基于样本间距离的正/负类模糊隶属度函数确定改进后的正/负类模糊隶属度函数;
根据所述改进后的正/负类模糊隶属度函数构造模糊支持向量机分类器;
采用所述模糊支持向量机分类器对脑卒中非平衡数据集进行分类。
2.根据权利要求1所述的面向脑卒中非平衡数据集的分类方法,其特征在于,所述计算所述训练样本集中各个样本点之间的距离,具体包括:
采用公式dij=|xi-xj|计算所述训练样本集中的第i个样本点xi和第j个样本点xj之间的距离dij。
3.根据权利要求2所述的面向脑卒中非平衡数据集的分类方法,其特征在于,所述根据所述训练样本集中各个样本点之间的距离构造差异矩阵,具体包括:
根据所述各个样本点之间的距离dij确定正/负类样本自适应调节半径;
根据所述正/负类样本自适应调节半径确定正/负类样本自适应调节因子;
根据所述正/负类样本自适应调节因子构建差异矩阵。
5.根据权利要求4所述的面向脑卒中非平衡数据集的分类方法,其特征在于,所述根据所述样本点所含的正/负类信息量构造信息量模糊隶属函数,具体包括:
根据所述第i个样本点xi所含的正类信息量H+(xi)和负类信息量H-(xi),采用公式u1(xi)=1-(H+(xi)+H-(xi))构造信息量模糊隶属函数u1(xi)。
8.一种面向脑卒中非平衡数据集的分类系统,其特征在于,所述系统包括:
非平衡数据集获取模块,用于获取脑卒中非平衡数据集;
非平衡数据集划分模块,用于将所述脑卒中非平衡数据集按照7:3比例随机划分成训练样本集和测试样本集,其中训练样本集和测试样本集非平衡率不改变;
样本间距离计算模块,用于计算所述训练样本集中各个样本点之间的距离;
差异矩阵构造模块,用于根据所述训练样本集中各个样本点之间的距离构造差异矩阵;
样本数量统计模块,用于根据所述差异矩阵统计所述样本点有效范围内的正类样本个数和负类样本个数;其中正类样本是指脑卒中非平衡数据集中脑卒中患者数据,负类样本是指脑卒中非平衡数据集中非脑卒中患者数据;
正负类信息量计算模块,用于根据所述正类样本个数和所述负类样本个数确定所述样本点所含的正/负类信息量;
信息量模糊隶属函数构造模块,用于根据所述样本点所含的正/负类信息量构造信息量模糊隶属函数;
基于样本间距离的正负类模糊隶属度函数确定模块,用于根据所述各个样本点之间的距离确定基于样本间距离的正/负类模糊隶属度函数;
改进后的正负类模糊隶属度函数构建模块,用于根据所述信息量模糊隶属函数及所述基于样本间距离的正/负类模糊隶属度函数确定改进后的正/负类模糊隶属度函数;
模糊支持向量机分类器构造模块,用于根据所述改进后的正/负类模糊隶属度函数构造模糊支持向量机分类器;
非平衡数据分类模块,用于采用所述模糊支持向量机分类器对脑卒中非平衡数据集进行分类。
9.根据权利要求8所述的面向脑卒中非平衡数据集的分类系统,其特征在于,所述样本间距离计算模块具体包括:
样本间距离计算单元,用于采用公式dij=|xi-xj|计算所述训练样本集中的第i个样本点xi和第j个样本点xj之间的距离dij。
10.根据权利要求9所述的面向脑卒中非平衡数据集的分类系统,其特征在于,所述差异矩阵构造模块具体包括:
自适应调节半径确定单元,用于根据所述各个样本点之间的距离dij确定正/负类样本自适应调节半径;
自适应调节因子确定单元,用于根据所述正/负类样本自适应调节半径确定正/负类样本自适应调节因子;
差异矩阵构建单元,用于根据所述正/负类样本自适应调节因子构建差异矩阵。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911189087.0A CN110991517A (zh) | 2019-11-28 | 2019-11-28 | 一种面向脑卒中非平衡数据集的分类方法及系统 |
CN202310944187.XA CN116933166A (zh) | 2019-11-28 | 2019-11-28 | 一种面向脑卒中非平衡数据集的分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911189087.0A CN110991517A (zh) | 2019-11-28 | 2019-11-28 | 一种面向脑卒中非平衡数据集的分类方法及系统 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310944187.XA Division CN116933166A (zh) | 2019-11-28 | 2019-11-28 | 一种面向脑卒中非平衡数据集的分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110991517A true CN110991517A (zh) | 2020-04-10 |
Family
ID=70087703
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310944187.XA Pending CN116933166A (zh) | 2019-11-28 | 2019-11-28 | 一种面向脑卒中非平衡数据集的分类方法及系统 |
CN201911189087.0A Pending CN110991517A (zh) | 2019-11-28 | 2019-11-28 | 一种面向脑卒中非平衡数据集的分类方法及系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310944187.XA Pending CN116933166A (zh) | 2019-11-28 | 2019-11-28 | 一种面向脑卒中非平衡数据集的分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN116933166A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814917A (zh) * | 2020-08-28 | 2020-10-23 | 成都千嘉科技有限公司 | 一种存在模糊态的字轮图像数字识别方法 |
CN114841294A (zh) * | 2022-07-04 | 2022-08-02 | 杭州德适生物科技有限公司 | 一种检测染色体结构异常的分类器模型训练方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355198A (zh) * | 2016-08-23 | 2017-01-25 | 衢州学院 | 一种模糊支持向量机隶属度函数的获取方法 |
CN107978311A (zh) * | 2017-11-24 | 2018-05-01 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置以及语音交互设备 |
CN108335744A (zh) * | 2018-04-03 | 2018-07-27 | 江苏大学附属医院 | 一种心血管急救网络系统及其分类预警方法 |
CN109934280A (zh) * | 2019-03-07 | 2019-06-25 | 贵州大学 | 一种基于pso-dec-ifsvm分类算法的不平衡数据分类方法 |
-
2019
- 2019-11-28 CN CN202310944187.XA patent/CN116933166A/zh active Pending
- 2019-11-28 CN CN201911189087.0A patent/CN110991517A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355198A (zh) * | 2016-08-23 | 2017-01-25 | 衢州学院 | 一种模糊支持向量机隶属度函数的获取方法 |
CN107978311A (zh) * | 2017-11-24 | 2018-05-01 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置以及语音交互设备 |
CN108335744A (zh) * | 2018-04-03 | 2018-07-27 | 江苏大学附属医院 | 一种心血管急救网络系统及其分类预警方法 |
CN109934280A (zh) * | 2019-03-07 | 2019-06-25 | 贵州大学 | 一种基于pso-dec-ifsvm分类算法的不平衡数据分类方法 |
Non-Patent Citations (1)
Title |
---|
魏鑫: "脑卒中TCD数据分类及其在Hadoop分布式系统实现的研究", 《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814917A (zh) * | 2020-08-28 | 2020-10-23 | 成都千嘉科技有限公司 | 一种存在模糊态的字轮图像数字识别方法 |
CN111814917B (zh) * | 2020-08-28 | 2020-11-24 | 成都千嘉科技有限公司 | 一种存在模糊态的字轮图像数字识别方法 |
CN114841294A (zh) * | 2022-07-04 | 2022-08-02 | 杭州德适生物科技有限公司 | 一种检测染色体结构异常的分类器模型训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116933166A (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | On fuzzy cluster validity indices | |
WO2022126810A1 (zh) | 文本聚类方法 | |
CN112633601B (zh) | 疾病事件发生概率的预测方法、装置、设备及计算机介质 | |
Wang et al. | imDC: an ensemble learning method for imbalanced classification with miRNA data | |
CN107247873B (zh) | 一种差异甲基化位点识别方法 | |
CN111062425B (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
CN108830289B (zh) | 一种基于改进的模糊c均值聚类的图像聚类方法及装置 | |
CN109934278A (zh) | 一种信息增益混合邻域粗糙集的高维度特征选择方法 | |
CN117078026B (zh) | 一种基于数据血缘的风控指标管理方法及系统 | |
Abrahantes et al. | A solution to separation for clustered binary data | |
CN112435756B (zh) | 基于多数据集差异互证的肠道菌群关联疾病风险预测系统 | |
CN110991517A (zh) | 一种面向脑卒中非平衡数据集的分类方法及系统 | |
WO2018006631A1 (zh) | 一种用户等级自动划分方法及系统 | |
CN117349630A (zh) | 一种用于生化数据分析的方法及系统 | |
CN113674862A (zh) | 一种基于机器学习的急性肾功能损伤发病预测方法 | |
CN111353529A (zh) | 一种自动确定聚类中心的混合属性数据集聚类方法 | |
CN112233742A (zh) | 一种基于聚类的病历文档分类系统、设备、存储介质 | |
CN113782121B (zh) | 随机分组方法、装置、计算机设备及存储介质 | |
CN116013527A (zh) | 一种基于熵的cv-mabac高血压年龄段预测方法 | |
CN115526882A (zh) | 一种医学图像的分类方法、装置、设备及存储介质 | |
CN115017988A (zh) | 一种用于状态异常诊断的竞争聚类方法 | |
CN111461199B (zh) | 基于分布的垃圾邮件分类数据的安全属性选择方法 | |
Bryant et al. | Confirmatory Factor Analysis of Ordinal Data Using Full‐Information Adaptive Quadrature | |
CN112766403A (zh) | 一种基于信息增益权重的增量聚类方法及装置 | |
Albalate et al. | A combination approach to cluster validation based on statistical quantiles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200410 |
|
RJ01 | Rejection of invention patent application after publication |