CN115952432B - 一种基于糖尿病数据的无监督聚类方法 - Google Patents
一种基于糖尿病数据的无监督聚类方法 Download PDFInfo
- Publication number
- CN115952432B CN115952432B CN202211647643.6A CN202211647643A CN115952432B CN 115952432 B CN115952432 B CN 115952432B CN 202211647643 A CN202211647643 A CN 202211647643A CN 115952432 B CN115952432 B CN 115952432B
- Authority
- CN
- China
- Prior art keywords
- data set
- diabetes
- clustering
- data
- membership
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010012601 diabetes mellitus Diseases 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 230000000694 effects Effects 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000009467 reduction Effects 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 43
- 239000013598 vector Substances 0.000 claims description 19
- 238000000513 principal component analysis Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 3
- 238000007635 classification algorithm Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 16
- 238000012360 testing method Methods 0.000 description 15
- 239000000523 sample Substances 0.000 description 13
- 238000012549 training Methods 0.000 description 10
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 239000008103 glucose Substances 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 5
- 239000008280 blood Substances 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 201000001421 hyperglycemia Diseases 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 208000002705 Glucose Intolerance Diseases 0.000 description 2
- 101001129796 Homo sapiens p53-induced death domain-containing protein 1 Proteins 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 102100031691 p53-induced death domain-containing protein 1 Human genes 0.000 description 2
- 230000000291 postprandial effect Effects 0.000 description 2
- 201000009104 prediabetes syndrome Diseases 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 102000017011 Glycated Hemoglobin A Human genes 0.000 description 1
- 108010014663 Glycated Hemoglobin A Proteins 0.000 description 1
- 241000364051 Pima Species 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 230000009693 chronic damage Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000035487 diastolic blood pressure Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000016097 disease of metabolism Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 210000002216 heart Anatomy 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000003914 insulin secretion Effects 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 239000013610 patient sample Substances 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000035488 systolic blood pressure Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于糖尿病数据的无监督聚类方法,包括以下步骤:S1、获取糖尿病数据集,对糖尿病数据集依次进行预处理和降维处理,得到第一数据集;S2、通过改进的FCM聚类算法对第一数据集进行无监督聚类,得到最优聚类数据集,完成基于糖尿病数据的无监督聚类。本发明采用改进的FCM模糊聚类算法,其不仅能克服初始簇中心和离群值的影响,而且其加入的隶属度这一概念能够更好的处理数据重叠部分,且本发明对隶属度因子m进行了改进,因此表现出更佳的聚类效果,这也能通过有监督的分类算法验证。
Description
技术领域
本发明属于疾病聚类领域,具体涉及一种基于糖尿病数据的无监督聚类方法。
背景技术
糖尿病是一种以高血糖为特征的代谢性疾病。高血糖则是由于胰岛素分泌缺陷或其生物作用受损,或两者兼有引起。长期存在的高血糖,导致各种组织,特别是眼、肾、心脏、血管、神经的慢性损害、功能障碍。据IDF糖尿病地图最新数据显示:2021年,全球成年人糖耐量受损(IGT)患病率为9.1%,人数高达4.64亿,预计到2045年,这一比例将增加到10.0%,波及6.4亿成年人。因此所有人都应对糖尿病提高警惕,对糖尿病的研究也变得刻不容缓。
由于现实中糖尿病检测数据大多来自医院或者社区调查,它们几乎都是无标签的,因此利用无监督的聚类方法来分析糖尿病是至关重要的。本发明就是首先利用无监督的聚类将相似的数据聚类到同一个簇中,然后将错误聚类的样本视为异常值进行剔除,最后再利用有监督的分类检验聚类效果。但当前用于糖尿病数据的聚类方法基本都是简单的K-means,首先用K-means进行聚类,然后用AE进行降维,最后用KNN的变体对糖尿病数据进行分类。
然而,上述方法中的K-means存在着许多公认的问题,比如对k值和初始簇中心的敏感,受离群值的影响大等,而且大多糖尿病数据集两类之间都存在重叠的部分,Kmeans对这类数据不能很好的区分。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于糖尿病数据的无监督聚类方法解决了现有的K-means聚类方法对k值和初始簇中心的敏感,受离群值的影响大的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于糖尿病数据的无监督聚类方法,包括以下步骤:
S1、获取糖尿病数据集,对糖尿病数据集依次进行预处理和降维处理,得到第一数据集;
S2、通过改进的FCM聚类算法对第一数据集进行无监督聚类,得到最优聚类数据集,完成基于糖尿病数据的无监督聚类。
进一步地:所述S1包括以下分步骤:
S11、获取糖尿病数据集,对糖尿病数据进行预处理,得到预处理后的糖尿病数据集;
S12、通过主成分分析PCA算法对预处理后的糖尿病数据集进行降维处理,得到第一数据集。
上述进一步方案的有益效果为:利用利用主成分分析PCA算法对数据进行降维处理,能够分析各特征对糖尿病标签的影响。
进一步地:所述S11具体为:
获取糖尿病数据集,将糖尿病数据集中的数据进行特殊字符替换、名义替换和缺失数据中位数填充处理,进而将处理后糖尿病数据集中的数据进行归一化,得到预处理后的糖尿病数据集;
其中,所述糖尿病数据集中的数据包括标签类和若干特征。
进一步地:所述S12具体为:
计算预处理后的糖尿病数据集中的数据协方差,得到协方差的特征值和特征向量,将特征值降序排列,选择前N个特征值作为行向量,并将选择的特征值对应的特征向量作为所述特征值的列向量,得到特征向量矩阵,将特征向量矩阵作为第一数据集。
上述进一步方案的有益效果为:本发明保留了两个最主要的特征值和特征向量以增强可视化,消除了不太重要的成分。
进一步地:所述S2包括以下分步骤:
S21、将当前的隶属度矩阵初始化,得到满足约束条件的隶属度矩阵;
S22、根据满足约束条件的隶属度矩阵计算当前的类中心矩阵;
S23、根据当前的类中心矩阵更新隶属度矩阵,得到更新后的隶属度矩阵;
S24、根据当前的类中心矩阵与更新后的隶属度矩阵计算当前的目标函数;
S25、判断当前的目标函数与设定的目标函数的改变量是否小于变量阈值;
若否,则将当前的目标函数作为设定的目标函数,并返回步骤S21;
若是,则根据当前的目标函数与约束条件对第一数据集进行聚类,得到第二数据集,进入S26;
S26、计算第二数据集中样本占第一数据集中样本的比例,判断第二数据集中样本占第一数据集中样本的比例是否大于设置的聚类效果比例阈值;
若是,则将第二数据集中样本占第一数据集中样本的比例作为聚类效果比例阈值,并将隶属度因子加1,进入S27;
若否,则将隶属度因子加1,进入S27;
S27、判断隶属度因子是否大于999;
若是,则将与聚类效果比例阈值相同的第二数据集中样本占第一数据集中样本的比例作为最优聚类比例,并将最优聚类比例对应的第二数据集作为最优聚类数据集,完成基于糖尿病数据的无监督聚类;
若否,则返回S21。
上述进一步方案的有益效果为:本发明改进的FCM聚类算法将m从2到1000依次赋值,用准确率评价聚类效果,能够将最佳的聚类结果保存下来,并将错误聚类的样本视为异常值进行剔除。
进一步地:所述S21中,满足约束条件的隶属度矩阵U1=[u11,...,uij],所述约束条件具体为下式:
式中,i为聚类中心序数,c为聚类中心个数,j为第一数据集的样本序数,n为第一数据集的样本个数,uij为样本xj对于类ci的隶属度。
进一步地:所述S22中,所述当前的类中心矩阵C=[c1,...,ci],计算当前的第i个类中心ci的表达式具体为:
式中,为带隶属度因子m的样本xj对于类ci的隶属度,m为隶属度因子,其初始值为2。
进一步地:所述S23中,更新后的隶属度矩阵U2=[μ11,...,μij],其中,μij为更新后的样本xj对于类ci的隶属度,其表达式具体为:
式中,ck为第k个类中心。
进一步地:所述S24中,计算计算当前的目标函数J的表达式具体为:
式中,为更新后带隶属度因子m的样本xj对于类ci的隶属度。
本发明的有益效果为:发明采用改进的FCM模糊聚类算法,其不仅能克服初始簇中心和离群值的影响,而且其加入的隶属度这一概念能够更好的处理数据重叠部分,且本发明对隶属度因子m进行了改进,因此表现出更佳的聚类效果,这也能通过有监督的分类算法验证。
附图说明
图1为本发明的流程图。
图2为本发明实施例2展示的聚类效果图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1:
如图1所示,在本发明的一个实施例中,一种基于糖尿病数据的无监督聚类方法,包括以下步骤:
S1、获取糖尿病数据集,对糖尿病数据集依次进行预处理和降维处理,得到第一数据集;
S2、通过改进的FCM聚类算法对第一数据集进行无监督聚类,得到最优聚类数据集,完成基于糖尿病数据的无监督聚类。
所述S1包括以下分步骤:
S11、获取糖尿病数据集,对糖尿病数据进行预处理,得到预处理后的糖尿病数据集;
S12、通过主成分分析PCA算法对预处理后的糖尿病数据集进行降维处理,得到第一数据集。
所述S11具体为:
获取糖尿病数据集,将糖尿病数据集中的数据进行特殊字符替换、名义替换和缺失数据中位数填充处理,进而将处理后糖尿病数据集中的数据进行归一化,得到预处理后的糖尿病数据集;其中,所述糖尿病数据集中的数据包括标签类和若干特征。
在本实施例中,标签类包括糖尿病阳性和糖尿病阴性。
所述S12具体为:
计算预处理后的糖尿病数据集中的数据协方差,得到协方差的特征值和特征向量,将特征值降序排列,选择前N个特征值作为行向量,并将选择的特征值对应的特征向量作为所述特征值的列向量,得到特征向量矩阵,将特征向量矩阵作为第一数据集。
在本实施例中,利用利用主成分分析PCA算法对数据进行降维处理,能够分析各特征对糖尿病标签的影响,本发明保留了两个最主要的特征值和特征向量以增强可视化,消除了不太重要的成分,得到降维后的数据集,这将成为下一阶段聚类的输入。
所述S2包括以下分步骤:
S21、将当前的隶属度矩阵初始化,得到满足约束条件的隶属度矩阵;
S22、根据满足约束条件的隶属度矩阵计算当前的类中心矩阵;
S23、根据当前的类中心矩阵更新隶属度矩阵,得到更新后的隶属度矩阵;
S24、根据当前的类中心矩阵与更新后的隶属度矩阵计算当前的目标函数;
S25、判断当前的目标函数与设定的目标函数的改变量是否小于变量阈值;
若否,则将当前的目标函数作为设定的目标函数,并返回步骤S21;
若是,则根据当前的目标函数与约束条件对第一数据集进行聚类,得到第二数据集,进入S26;
S26、计算第二数据集中样本占第一数据集中样本的比例,判断第二数据集中样本占第一数据集中样本的比例是否大于设置的聚类效果比例阈值;
若是,则将第二数据集中样本占第一数据集中样本的比例作为聚类效果比例阈值,并将隶属度因子加1,进入S27;
若否,则将隶属度因子加1,进入S27;
S27、判断隶属度因子是否大于999;
若是,则将与聚类效果比例阈值相同的第二数据集中样本占第一数据集中样本的比例作为最优聚类比例,并将最优聚类比例对应的第二数据集作为最优聚类数据集,完成基于糖尿病数据的无监督聚类;
若否,则返回S21。
所述S21中,满足约束条件的隶属度矩阵U1=[u11,...,uij],所述约束条件具体为下式:
式中,i为聚类中心序数,c为聚类中心个数,j为第一数据集的样本序数,n为第一数据集的样本个数,uij为样本xj对于类ci的隶属度。
所述S22中,所述当前的类中心矩阵C=[c1,...,ci],计算当前的第i个类中心ci的表达式具体为:
式中,为带隶属度因子m的样本xj对于类ci的隶属度,m为隶属度因子,其初始值为2。
所述S23中,更新后的隶属度矩阵U2=[μ11,...,μij],其中,μij为更新后的样本xj对于类ci的隶属度,其表达式具体为:
式中,ck为第k个类中心。
所述S24中,计算计算当前的目标函数J的表达式具体为:
式中,为更新后带隶属度因子m的样本xj对于类ci的隶属度。
在本实施例中,改进的FCM聚类算法通过最小化目标函数与其约束条件来实现聚类,目标函数为每个样本的隶属度与该样本到各个类中心的欧式距离的乘积之和,本发明改进的FCM聚类算法将m从2到1000(达到最佳聚类效果时的m值都不超过1000)依次赋值,用准确率评价聚类效果,将最佳的聚类结果保存下来,将错误聚类的样本视为异常值进行剔除。在对聚类结果进行清洗后,保留了平均582个样本,作为有监督的KNN分类算法的输入。
本发明通过有监督的KNN分类算法结合十折交叉验证糖尿病数据集的聚类效果,其具体包括以下步骤:
S31、将第一数据集划分为训练集与测试集,得到10组训练集与测试集;
S32、通过改进的KNN分类算法将计算每组训练集与测试集的分类准确率;
S33、将每组训练集与测试集的分类准确率分和最优聚类比例进行比较,完成聚类效果评价。
S32、通过十折交叉验证最优聚类数据集对第一数据集的聚类性能评价;
S33、基于第一数据集的预测分类和最优聚类数据集对第一数据集的聚类性能评价,完成基于糖尿病数据的无监督聚类评价。
S31具体为:按照糖尿病数据集的标签比例划分第一数据集,得到10个子集,并将其中任一个子集作为训练集,其余的子集作为测试集,得到10组训练集与测试集。
在本实施例中根据不同的训练集和测试集设置方式,一共可设置10组训练集与测试集。
S32中,计算每组训练集与测试集的分类准确率的方法具体为:
计算测试集中每个待测样本与训练集中所有样本之间的欧氏距离,选取与待测样本距离最小的k个邻近样本,确认此k个样本中各个标签的占比,将占比最高的标签即作为该待测样本的预测标签,将预测标签与最优聚类数据集标签进行对比,将预测标签的样本数占测试集所有样本的比例作为分类准确率。
在本实施例中,k值选择不同于传统的人为设定,而是对k从1到100进行轮流验证,将分类准确率达到最高时的k挑选出来作为最终的k,进而提升KNN分类器的性能。
实施例2:
本实施例针对一种基于糖尿病数据的无监督聚类方法的仿真实验。
为了验证基于糖尿病数据的无监督聚类方法的有效性,在真实数据集上进行了对比实验,采用Pytorch的数据挖掘工具来构建机器学习模型。实验采用的数据集有两个:一个是从UCI机器学习库获得的Pima Indian Diabetes数据集,包含768名女性糖尿病患者样本(268名测试阳性病例和500名测试阴性病例)和8个特征(Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction和Age)以及1个标签类(Outcome),全是数值型数据;另一个是由华西医院提供的数据,经过处理后保留了762名糖尿病患者样本(390名测试阳性病例和372名测试阴性病例)和8个特征(餐后2h血糖(mmol/L),空腹血糖(mmol/L),糖化血红蛋白(HbA1C),收缩压(mmHg),葡萄糖(mmol/L),舒张压(mmHg),年龄和BMI(公式:体重/身高/身高))以及1个标签类(标签)。在分别对两个数据集进行了数据预处理后,利用PCA对数据进行降维:PIDD数据集的两个主成分为Glucose和BMI,而医院数据集的两个主成分为餐后2h血糖(mmol/L)和空腹血糖(mmol/L),将降维后的数据作为无监督聚类的输入进行实验。
为了验证本发明的有效性,与传统的K-means聚类算法和原始的FCM聚类算法进行了对比,并通过改进的KNN分类算法验证了聚类效果。
实验结果评估:
表1和表2分别是对两个数据集进行聚类对比的实验结果。从对比的实验可以看到,本方法的聚类效果明显优于传统的K-means聚类算法和原始的FCM聚类算法。表3是通过KNN算法结合十折交叉验证对聚类效果进行的评估,可以看出聚类后的数据分类效果很好。
表1:在PIDD数据集上进行聚类算法的比较
表2:在医院数据集上进行聚类算法的比较
表3:通过KNN分类算法进行聚类评价
结合图2和表2可知,传统的K-means算法对于糖尿病数据集中重叠的部分聚类效果不佳,因此两类中间部分被清除的样本数就多;原始的FCM聚类算法略好于K-means,但由于隶属度因子m的影响,对于隶属度矩阵U和类中心C的迭代不能达到最佳的效果。相对于上述两种算法,本发明的改进FCM聚类算法达到最佳的聚类效果。
本发明的有益效果为:本发明采用改进的FCM模糊聚类算法,其不仅能克服初始簇中心和离群值的影响,而且其加入的隶属度这一概念能够更好的处理数据重叠部分,且本发明对隶属度因子m进行了改进,因此表现出更佳的聚类效果,这也能通过有监督的分类算法验证。
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。
Claims (4)
1.一种基于糖尿病数据的无监督聚类方法,其特征在于,包括以下步骤:
S1、获取糖尿病数据集,对糖尿病数据集依次进行预处理和降维处理,得到第一数据集;
S2、通过改进的FCM聚类算法对第一数据集进行无监督聚类,得到最优聚类数据集,完成基于糖尿病数据的无监督聚类;
所述S2包括以下分步骤:
S21、将当前的隶属度矩阵初始化,得到满足约束条件的隶属度矩阵;
S22、根据满足约束条件的隶属度矩阵计算当前的类中心矩阵;
S23、根据当前的类中心矩阵更新隶属度矩阵,得到更新后的隶属度矩阵;
S24、根据当前的类中心矩阵与更新后的隶属度矩阵计算当前的目标函数;
S25、判断当前的目标函数与设定的目标函数的改变量是否小于变量阈值;
若否,则将当前的目标函数作为设定的目标函数,并返回步骤S21;
若是,则根据当前的目标函数与约束条件对第一数据集进行聚类,得到第二数据集,进入S26;
S26、计算第二数据集中样本占第一数据集中样本的比例,判断第二数据集中样本占第一数据集中样本的比例是否大于设置的聚类效果比例阈值;
若是,则将第二数据集中样本占第一数据集中样本的比例作为聚类效果比例阈值,并将隶属度因子加1,进入S27;
若否,则将隶属度因子加1,进入S27;
S27、判断隶属度因子是否大于999;
若是,则将与聚类效果比例阈值相同的第二数据集中样本占第一数据集中样本的比例作为最优聚类比例,并将最优聚类比例对应的第二数据集作为最优聚类数据集,完成基于糖尿病数据的无监督聚类;
若否,则返回S21;
所述S21中,满足约束条件的隶属度矩阵U1=[u11,...,uij],所述约束条件具体为下式:
式中,i为聚类中心序数,c为聚类中心个数,j为第一数据集的样本序数,n为第一数据集的样本个数,uij为样本xj对于类ci的隶属度;
所述S22中,所述当前的类中心矩阵C=[c1,...,ci],计算当前的第i个类中心Ci的表达式具体为:
式中,为带隶属度因子m的样本xj对于类ci的隶属度,m为隶属度因子,其初始值为2;
所述S23中,更新后的隶属度矩阵U2=[μ11,...,μij],其中,μij为更新后的样本xj对于类ci的隶属度,其表达式具体为:
式中,ck为第k个类中心;
所述S24中,计算当前的目标函数J的表达式具体为:
式中,为更新后带隶属度因子m的样本xj对于类ci的隶属度。
2.根据权利要求1所述的基于糖尿病数据的无监督聚类方法,其特征在于,所述S1包括以下分步骤:
S11、获取糖尿病数据集,对糖尿病数据进行预处理,得到预处理后的糖尿病数据集;
S12、通过主成分分析PCA算法对预处理后的糖尿病数据集进行降维处理,得到第一数据集。
3.根据权利要求2所述的基于糖尿病数据的无监督聚类方法,其特征在于,所述S11具体为:
获取糖尿病数据集,将糖尿病数据集中的数据进行特殊字符替换、名义替换和缺失数据中位数填充处理,进而将处理后糖尿病数据集中的数据进行归一化,得到预处理后的糖尿病数据集;
其中,所述糖尿病数据集中的数据包括标签类和若干特征。
4.根据权利要求2所述的基于糖尿病数据的无监督聚类方法,其特征在于,所述S12具体为:
计算预处理后的糖尿病数据集中的数据协方差,得到协方差的特征值和特征向量,将特征值降序排列,选择前N个特征值作为行向量,并将选择的特征值对应的特征向量作为所述特征值的列向量,得到特征向量矩阵,将特征向量矩阵作为第一数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211647643.6A CN115952432B (zh) | 2022-12-21 | 2022-12-21 | 一种基于糖尿病数据的无监督聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211647643.6A CN115952432B (zh) | 2022-12-21 | 2022-12-21 | 一种基于糖尿病数据的无监督聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115952432A CN115952432A (zh) | 2023-04-11 |
CN115952432B true CN115952432B (zh) | 2024-03-12 |
Family
ID=87287139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211647643.6A Active CN115952432B (zh) | 2022-12-21 | 2022-12-21 | 一种基于糖尿病数据的无监督聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115952432B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628560A (zh) * | 2023-07-24 | 2023-08-22 | 四川互慧软件有限公司 | 基于聚类算法的蛇伤病例数据识别方法、装置及电子设备 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980480A (zh) * | 2010-11-04 | 2011-02-23 | 西安电子科技大学 | 半监督异常入侵检测方法 |
CN103150731A (zh) * | 2013-03-07 | 2013-06-12 | 南京航空航天大学 | 一种模糊聚类图像分割方法 |
WO2015175806A1 (en) * | 2014-05-16 | 2015-11-19 | The Trustees Of The University Of Pennsylvania | Applications of automatic anatomy recognition in medical tomographic imagery based on fuzzy anatomy models |
CN106055580A (zh) * | 2016-05-23 | 2016-10-26 | 中南大学 | 一种基于Radviz的模糊聚类结果可视化方法 |
CN107145704A (zh) * | 2017-03-27 | 2017-09-08 | 西安电子科技大学 | 一种面向社区的健康医疗监护、评测系统及其方法 |
CN107545133A (zh) * | 2017-07-20 | 2018-01-05 | 陆维嘉 | 一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法 |
CN108710914A (zh) * | 2018-05-22 | 2018-10-26 | 常州工学院 | 一种基于广义模糊聚类算法的无监督数据分类方法 |
CN109087713A (zh) * | 2018-08-02 | 2018-12-25 | 山东省计算中心(国家超级计算济南中心) | 一种基于模糊c均值聚类的慢病辅助管理决策支持方法 |
AU2018204673A1 (en) * | 2018-05-16 | 2019-12-05 | EasyMarkit Software Inc. | Smart clustering and cluster updating |
CN110889846A (zh) * | 2019-12-03 | 2020-03-17 | 哈尔滨理工大学 | 一种基于fcm的糖尿病视网膜图像视盘分割方法 |
CN111460161A (zh) * | 2020-04-02 | 2020-07-28 | 西安邮电大学 | 面向不均衡大数据集的无监督文本主题相关基因提取方法 |
WO2020233084A1 (zh) * | 2019-05-21 | 2020-11-26 | 深圳壹账通智能科技有限公司 | 一种图像分割方法、装置、存储介质及终端设备 |
CN112185585A (zh) * | 2020-11-03 | 2021-01-05 | 浙江大学滨海产业技术研究院 | 一种基于代谢组学的糖尿病早期预警方法 |
CN112381157A (zh) * | 2020-11-18 | 2021-02-19 | 湖北工业大学 | 一种基于樽海鞘群算法优化的模糊c均值聚类方法 |
WO2022041598A1 (zh) * | 2020-08-24 | 2022-03-03 | 中国科学院深圳先进技术研究院 | 一种遥感影像分割方法、系统、终端以及存储介质 |
WO2022127075A1 (zh) * | 2020-12-15 | 2022-06-23 | 海南大学 | 一种基于粗糙模糊模型的遥感影像特征离散化方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10575790B2 (en) * | 2016-03-02 | 2020-03-03 | Roche Diabetes Care, Inc. | Patient diabetes monitoring system with clustering of unsupervised daily CGM profiles (or insulin profiles) and method thereof |
US20190206575A1 (en) * | 2018-01-04 | 2019-07-04 | EasyMarkit Software Inc. | Smart clustering and cluster updating |
CN112424828B (zh) * | 2019-07-15 | 2024-02-02 | 广东工业大学 | 一种集成空间约束的核模糊c均值快速聚类算法 |
-
2022
- 2022-12-21 CN CN202211647643.6A patent/CN115952432B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980480A (zh) * | 2010-11-04 | 2011-02-23 | 西安电子科技大学 | 半监督异常入侵检测方法 |
CN103150731A (zh) * | 2013-03-07 | 2013-06-12 | 南京航空航天大学 | 一种模糊聚类图像分割方法 |
WO2015175806A1 (en) * | 2014-05-16 | 2015-11-19 | The Trustees Of The University Of Pennsylvania | Applications of automatic anatomy recognition in medical tomographic imagery based on fuzzy anatomy models |
CN106055580A (zh) * | 2016-05-23 | 2016-10-26 | 中南大学 | 一种基于Radviz的模糊聚类结果可视化方法 |
CN107145704A (zh) * | 2017-03-27 | 2017-09-08 | 西安电子科技大学 | 一种面向社区的健康医疗监护、评测系统及其方法 |
CN107545133A (zh) * | 2017-07-20 | 2018-01-05 | 陆维嘉 | 一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法 |
AU2018204673A1 (en) * | 2018-05-16 | 2019-12-05 | EasyMarkit Software Inc. | Smart clustering and cluster updating |
CN108710914A (zh) * | 2018-05-22 | 2018-10-26 | 常州工学院 | 一种基于广义模糊聚类算法的无监督数据分类方法 |
CN109087713A (zh) * | 2018-08-02 | 2018-12-25 | 山东省计算中心(国家超级计算济南中心) | 一种基于模糊c均值聚类的慢病辅助管理决策支持方法 |
WO2020233084A1 (zh) * | 2019-05-21 | 2020-11-26 | 深圳壹账通智能科技有限公司 | 一种图像分割方法、装置、存储介质及终端设备 |
CN110889846A (zh) * | 2019-12-03 | 2020-03-17 | 哈尔滨理工大学 | 一种基于fcm的糖尿病视网膜图像视盘分割方法 |
CN111460161A (zh) * | 2020-04-02 | 2020-07-28 | 西安邮电大学 | 面向不均衡大数据集的无监督文本主题相关基因提取方法 |
WO2022041598A1 (zh) * | 2020-08-24 | 2022-03-03 | 中国科学院深圳先进技术研究院 | 一种遥感影像分割方法、系统、终端以及存储介质 |
CN112185585A (zh) * | 2020-11-03 | 2021-01-05 | 浙江大学滨海产业技术研究院 | 一种基于代谢组学的糖尿病早期预警方法 |
CN112381157A (zh) * | 2020-11-18 | 2021-02-19 | 湖北工业大学 | 一种基于樽海鞘群算法优化的模糊c均值聚类方法 |
WO2022127075A1 (zh) * | 2020-12-15 | 2022-06-23 | 海南大学 | 一种基于粗糙模糊模型的遥感影像特征离散化方法 |
Non-Patent Citations (1)
Title |
---|
医学知识获取与发现的研究;余辉;《中国优秀博硕士学位论文全文数据库 (博士)医药卫生科技辑》(第4期);59-74 * |
Also Published As
Publication number | Publication date |
---|---|
CN115952432A (zh) | 2023-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hubert et al. | Robust PCA and classification in biosciences | |
Osman et al. | Diabetes disease diagnosis method based on feature extraction using K-SVM | |
CN111000553B (zh) | 一种基于投票集成学习的心电数据智能分类方法 | |
Yang et al. | Spatiotemporal differentiation of myocardial infarctions | |
Gat-Viks et al. | Scoring clustering solutions by their biological relevance | |
US20080140592A1 (en) | Model selection for cluster data analysis | |
CN108763590B (zh) | 一种基于双变加权核fcm算法的数据聚类方法 | |
CN115952432B (zh) | 一种基于糖尿病数据的无监督聚类方法 | |
Maruotti et al. | Model-based time-varying clustering of multivariate longitudinal data with covariates and outliers | |
Biagetti et al. | A multi-class ECG beat classifier based on the truncated KLT representation | |
CN112733774A (zh) | 一种基于BiLSTM与串并多尺度CNN结合的轻量化ECG分类方法 | |
CN110084314A (zh) | 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法 | |
WO2019211574A1 (en) | Method and apparatus for subtyping subjects based on phenotypic information | |
Zhang et al. | A deep Bayesian neural network for cardiac arrhythmia classification with rejection from ECG recordings | |
CN117195027A (zh) | 基于成员选择的簇加权聚类集成方法 | |
Macas et al. | An explainable machine learning system for left bundle branch block detection and classification | |
CN111354415B (zh) | 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法 | |
KR20100001177A (ko) | 주성분 분석을 이용한 유전자 선택 알고리즘 | |
Wani | Incremental hybrid approach for microarray classification | |
De Amorim | Learning feature weights for K-Means clustering using the Minkowski metric | |
Cardoso et al. | Quality indices for (practical) clustering evaluation | |
Ali et al. | Cardiovascular disease detection using multiple machine learning algorithms and their performance analysis | |
Guzzi et al. | A discussion on the biological relevance of clustering results | |
Pratapa et al. | Finding diagnostic biomarkers in proteomic spectra | |
Bechny et al. | Bridging AI and clinical practice: integrating automated sleep scoring algorithm with uncertainty-guided physician review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |