CN111985530A - 一种分类方法 - Google Patents

一种分类方法 Download PDF

Info

Publication number
CN111985530A
CN111985530A CN202010651577.4A CN202010651577A CN111985530A CN 111985530 A CN111985530 A CN 111985530A CN 202010651577 A CN202010651577 A CN 202010651577A CN 111985530 A CN111985530 A CN 111985530A
Authority
CN
China
Prior art keywords
data
cluster
sub
clusters
inter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010651577.4A
Other languages
English (en)
Other versions
CN111985530B (zh
Inventor
马燕
王妍
黄慧
李顺宝
徐晓钟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Normal University
Original Assignee
Shanghai Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Normal University filed Critical Shanghai Normal University
Priority to CN202010651577.4A priority Critical patent/CN111985530B/zh
Publication of CN111985530A publication Critical patent/CN111985530A/zh
Application granted granted Critical
Publication of CN111985530B publication Critical patent/CN111985530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分类方法,包括以下步骤:获取残疾儿童自我护理活动的数据;根据获取的残疾儿童自我护理活动数据,对残疾儿童自我护理活动数据进行分类处理;根据分类处理,得到残疾儿童自我护理能力的分类结果。本发明的一种分类方法,具有简单易用、快速、精度高等优势。

Description

一种分类方法
技术领域
本发明涉及医学诊断领域,尤其涉及一种分类方法,特别是一种残疾儿童自我护理能力的分类方法。
背景技术
作为一种限制个人活动的障碍性疾病,残疾在医学上的诊断和分类是一个复杂的过程。为了得到准确的诊断结果,往往需要专业的职业治疗师进行判断,而职业治疗师的稀缺使得残疾患者的治疗过程变得漫长而昂贵。为解决这个问题,出现了很多针对残疾症状的分类方法,根据患者的身体症状及生活表现做出残疾评估与分类,有效提高了诊断效率,改善了残疾患者的医疗服务环境。
青少年版国际功能、残疾和健康分类(ICF-CY)是一个针对青少年的残疾诊断框架,用于识别青少年在心理、身体、运动等生物学领域的各种功能性问题,经常被用作残疾评估与分类的概念框架,以该框架为导向的研究工作将有助于解决残疾病症的治疗问题。
M.S.Zarchi等人在数据集SCADI的基础上提出了基于有监督学习的两种分类方法,其一,在SCADI数据集上抽取70%的儿童数据作为训练样本数据,余下30%的数据用于验证与测试;利用人工神经网络模型在训练样本数据上进行模型训练,不断调整模型中的神经元个数,选取实验效果最佳时的神经元数量,建立神经网络分类系统;其二,在分类规则的建立问题上,引入决策树算法,在数据集SCADI上提取残疾儿童自我护理问题的分类规则。
SayanPutatunda提出了一种基于深度学习的分类方法Care2Vec,该方法的建模过程可分为两个阶段,阶段一通过自动编码器将数据集SCADI从高维特征空间转换为低维特征空间,阶段二将低维度的数据输入深度学习神经网络进行模型训练,完成分类系统的建立。
基于有监督学习的分类方法在建立分类模型时需要对训练样本数据进行学习,训练样本如何选择的问题会影响分类方法的最终效果,而模型的训练过程也需要耗费较多的时间。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是现有技术中对残疾儿童自我护理能力分类的数据处理出现的数据处理复杂、耗费时间多、分类精度不高等问题。本发明开发了一种分类方法,具有简单易用、快速、精度高等优势。
为实现上述目的,本发明提供了一种分类方法,包括以下步骤:
获取待分类的的数据;
根据获取的待分类的数据,对待分类的数据使用无监督学习算法进行分类处理;
根据分类处理,得到分类结果。
进一步地,根据获取的待分类的数据,对待分类的数据使用无监督学习算法进行分类处理,具体包括以下步骤:
步骤一,将获取的待分类的数据记为数据集X={x1,x2,L,xn},其中,xi(i=1,2,L,n)表示第i条儿童自我护理能力数据,xi={xi1,xi2,L,xid},xij(j=1,2,L,d)表示第i条数据内的第j个属性,儿童的自我保健问题的类别数目为K;
步骤二、利用数据在近邻关系上的活跃程度,将数据集X划分为两个具有不同分布特性的子集X1与X2
步骤三、利用最近邻关系对子集X1进行预聚类,得到由m个子簇构成的子簇集合C1
步骤四、计算子簇集合C1中子簇间的簇间距离;
步骤五、根据簇间距离,合并簇间距离最小的子簇对,并更新该子簇对与其余子簇的簇间距离,重复合并与更新操作,直至获得包括K个子簇的子簇集合C2
步骤六、对于子集X2中的数据,按最小距离依次划分至集合C2的各子簇中,完成分类。
进一步地,步骤二中利用数据在近邻关系上的活跃程度,将数据集X划分为两个具有不同分布特性的子集X1与X2,具体包括以下步骤:
计算数据集X中计算各数据间的欧氏距离
Figure BDA0002574333500000021
为数据集X中的每条数据xi寻找距离最近的k个近邻数据,这里,k取值等于10;
统计数据集X中每条数据xi在其它数据的k个近邻中出现的次数,记为H(xi),H(xi)表示数据xi在近邻关系上的活跃程度;
对数据集X中的所有数据按照其H(xi)值进行降序排序,取前80%的数据记为子集X1,其余的数据记为子集X2
进一步地,步骤三中利用最近邻关系对子集X1进行预聚类,得到由m个子簇构成的子簇集合C1,具体包括以下步骤:
为数据集X中的每条数据xi寻找距离最近的数据,记为
Figure BDA0002574333500000022
对于数据集X中的任一数据点对(xi,xj),如果满足
Figure BDA0002574333500000023
Figure BDA0002574333500000024
则将xi与xj合并至同一子簇;
利用最近邻关系,对数据集X中所有满足上述合并条件的数据点对进行合并操作,得到由m个子簇构成的子簇集合C1={c1,c2,L,cm}。
进一步地,步骤四中计算子簇集合C1中子簇间的簇间距离,具体包括以下步骤:
对于子簇ci与cj,寻找互为k近邻的数据点对(xi,xj),即xi∈ci,xj∈cj,并且xi是xj的k近邻,xj是xj的k近邻;
对于所有互为k近邻的数据点对,将包含于子簇ci的数据点构成的集合表示为
Figure BDA0002574333500000031
包含于子簇cj的数据点构成的集合表示为
Figure BDA0002574333500000032
对于数据点xi∈ci,且
Figure BDA0002574333500000033
如果xi
Figure BDA0002574333500000034
中数据点的k近邻,则将所有满足条件的数据点xi构成的集合表示为
Figure BDA0002574333500000035
对于数据点xj∈cj,且
Figure BDA0002574333500000036
如果xj
Figure BDA0002574333500000037
中数据点的k近邻,则将所有满足条件的数据点xj构成的集合表示为
Figure BDA0002574333500000038
计算子簇ci与cj的簇间距离sep(ci,cj),
Figure BDA0002574333500000039
其中,
Figure BDA00025743335000000310
表示集合
Figure BDA00025743335000000311
中数据的数目,
Figure BDA00025743335000000312
表示集合
Figure BDA00025743335000000313
中数据的数目,
Figure BDA00025743335000000314
表示集合
Figure BDA00025743335000000315
中数据的数目,
Figure BDA00025743335000000316
表示集合
Figure BDA00025743335000000317
中数据的数目。
进一步地,步骤五中根据簇间距离,合并簇间距离最小的子簇对,并更新该子簇对与其余子簇的簇间距离,重复合并与更新操作,直至获得包括K个子簇的子簇集合C2,具体包括以下步骤:
计算子簇集合C1中所有子簇对间的簇间距离;
合并簇间距离最小的子簇对,得到新子簇cnew
计算新子簇cnew与其余子簇的簇间距离;
一直进行合并与更新簇间距离的操作,直至获得包括K个子簇的子簇集合C2
进一步地,步骤六中对于子集X2中的数据,按最小距离依次划分至集合C2的各子簇中,完成分类,具体包括以下步骤:
对于X2中的数据xk,找到xk与子集X1中欧氏距离最小的数据xr
将xk划分到xr所属的子簇中;
对X2中的各数据进行划分操作,直至X2中所有的数据完成划分,输出分类结果。
本发明的又一实施例提供了一种分类方法,该分类方法应用于残疾儿童自我护理能力的分类中,其具体方法包括:
获取残疾儿童自我护理活动的数据;
根据获取的残疾儿童自我护理活动数据,对残疾儿童自我护理活动数据进行分类处理;
根据分类处理,得到残疾儿童自我护理能力的分类结果。
进一步地,根据获取的残疾儿童自我护理活动待分类的数据,对残疾儿童自我护理活动待分类的数据进行分类处理,具体包括以下步骤:
步骤一,将获取的待分类的的数据记为数据集X={x1,x2,L,xn},其中,xi(i=1,2,L,n)表示第i条儿童自我护理能力数据,xi={xi1,xi2,L,xid},xij(j=1,2,L,d)表示第i条数据内的第i个属性,儿童的自我保健问题的类别数目为K;
步骤二、利用数据在近邻关系上的活跃程度,将数据集X划分为两个具有不同分布特性的子集X1与X2
步骤三、利用最近邻关系对子集X1进行预聚类,得到由m个子簇构成的子簇集合C1
步骤四、计算子簇集合C1中子簇间的簇间距离;
步骤五、根据簇间距离,合并簇间距离最小的子簇对,并更新该子簇对与其余子簇的簇间距离,重复合并与更新操作,直至获得包括K个子簇的子簇集合C2
步骤六、对于子集X2中的数据,按最小距离依次划分至集合C2的各子簇中,完成分类。
技术效果
本发明的有益效果:
1.本发明的基于聚类思想的分类方法,是一种无监督的学习方法,即不需要提供任何参考信息而仅依靠数据自身的属性特征就可以完成分类。
2.本发明的分类方法,将数据集划分为具有不同活跃程度的两个子集,并针对两个子集的特征分别进行不同处理,降低了非活跃数据对活跃数据的干扰,使分类方法能够有效提取到数据中的鉴别特征,从而进行准确分类。
3.本发明的分类方法,引入一种基于近邻关系的新类间距离,相比于传统的类间距离如单链距离、全链距离等,本发明有效降低了噪声点对类间距离的不利影响,能更好地评价数据子集之间的相似性,提高分类的准确性。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的一种分类方法的流程示意图。
具体实施方式
本发明提供了一种分类方法,本发明的一较佳实施例中,是一种残疾儿童自我护理能力的分类方法,以下将具体说明本实施例的具体方法步骤。
如图1所示,本实施例引入了一种标准数据集SCADI(基于ICF-CY的自我护理能力数据集),数据集SCADI是一个基于ICF-CY框架的残疾儿童自我护理能力数据集,该数据集由M.S.Zarchi等人与两位具备15年以上专业经验的职业护理师创建,调查了在伊朗亚兹德三个教育与卫生中心学习的70名学生的学习及生活状况,,根据ICF-CY框架定义的自我护理能力评价方式为每个儿童收集205项属性信息,并将70名儿童划分到7个类别。
S1:获取残疾儿童自我护理活动的数据;具体包含以下内容:
在本实施例中记DCADI数据集为X={x1,x2,L,xn},其中,xi(i=1,2,L,n)表示第i条儿童自我护理能力数据,n=70;xi={xi1,xi2,L,xid},xij(j=1,2,L,d)表示第i条数据内的第j个属性,d=205,下面,列出数据集中的前5条数据作为示例:
x1(0,18,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,),
x2(0,22,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,),
x3(0,18,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,),
x4(1,18,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,),
x5(0,19,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,)。
根据ICF-CY框架定义的自我护理能力评价方式,提供如表1所示的29项自我护理活动,为每种护理活动设置如表2所示的7种等级,由29项自我护理活动和7种等级,以及性别、年龄信息构成了每条数据的205项属性,表3中记录了各属性的具体信息,其中,第1项属性为年龄信息,第2项属性为性别信息(“1”为男性,“0”为女性),余下203项属性分别记录每个儿童在29项自我护理活动中的评价等级信息。
例如,数据集中的第1条儿童自我护理能力数据为x1(0,18,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,),其中,第1个属性“0”表示该儿童的性别为女性;第2个属性“18”表示该儿童的年龄为18岁;第3个属性为“0”,表示该属性为假,参照表3,第3个属性的属性编号“d5100-0”,即该儿童在活动“d5100”中不属于等级“0”;第7个属性为“1”,表示该属性为真,参照表3,第7个属性的属性编号为“d5100-4”,即该儿童在活动“d5100”中属于等级“4”。
表129项自我护理活动
Figure BDA0002574333500000061
Figure BDA0002574333500000071
表2 7个等级
等级编号 等级描述
0 无损伤
1 轻度损伤
2 中度
3 严重
4 完全
8 未指定
9 无适用值
表3 205项属性的具体信息
Figure BDA0002574333500000081
Figure BDA0002574333500000091
根据ICF-CY框架定义的自我护理能力评价方式,将儿童自我护理能力数据集中的70条数据划分到7个类别中,即K=7,具体类别信息如表4所示:
表4数据集SCADI的类别信息
Figure BDA0002574333500000101
S2:利用数据在近邻关系上的活跃程度,将数据集X划分为两个具有不同分布特性的子集X1与X2;其包括如下步骤:
S21:计算数据集X中各数据间的欧氏距离
Figure BDA0002574333500000102
例如,数据集中的第1条儿童自我护理能力数据x1(0,18,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,)与第2条儿童自我护理能力数据x2(0,22,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,)之间的欧氏距离按下式计算:
Figure BDA0002574333500000103
S22:为数据集X中的每条数据xi寻找距离最近的k个近邻数据,这里,k取值等于10;
例如,数据x1到数据集中其他数据的距离为:
d(x1,x2):5.0990,d(x1,x3):4.4721,d(x1,x4):4.5826,d(x1,x5):5.1962,d(x1,x6):6.9282,d(x1,x7):4.1231,d(x1,x8):6.9282,d(x1,x9):7.1414,d(x1,x10):13.9642,d(x1,x11):13.6015,d(x1,x12):13.0767,d(x1,x13):12.8452,d(x1,x14):13.0767,d(x1,x15):12.0416,d(x1,x16):10.0000,d(x1,x17):11.8743,d(x1,x18):10.9545,d(x1,x19):11.2694,d(x1,x20):10.4403,d(x1,x21):12.4097,d(x1,x22):12.4097,d(x1,x23):11.3137,d(x1,x24):8.4261,d(x1,x25):7.4162,d(x1,x26):9.4868,d(x1,x27):10.7238,d(x1,x28):6.7082,d(x1,x29):11.2250,d(x1,x30):9.9499,d(x1,x31):10.7238,d(x1,x32):10.8167,d(x1,x33):7.4162,d(x1,x34):6.5574,d(x1,x35):8.5440,d(x1,x36):9.7468,d(x1,x37):9.4868,d(x1,x38):8.9443,d(x1,x39):7.2111,d(x1x40):8.4261,d(x1,x41):5.9161,d(x1,x42):8.7178,d(x1,x43):9.5917,d(x1,x44):11.0905,d(x1,x45):9.3274,d(x1,x46):7.9373,d(x1,x47):8.4853,d(x1,x48):8.9443,d(x1,x49):8.9443,d(x1,x50):8.3066,d(x1,x51):7.7460,d(x1,x52):8.5440,d(x1,x53):6.4031,d(x1,x54):6.8557,d(x1,x55):4.5826,d(x1,x56):7.6158,d(x1,x57):7.4162,d(x1,x58):3.7417,d(x1,x59):4.5826,d(x1,x60):6.1644,d(x1,x61):6.1644,d(x1,x62):7.2801,d(x1,x63):7.7460,d(x1,x64):7.3485,d(x1,x65):7.8740,d(x1x66):7.3485,d(x1,x67):11.5326,d(x1,x68):11.4455,d(x1,x69):11.3578,d(x1,x70):6.5574。
寻找距离值最小的10个数据为{x58,x7,x3,x4,x55,x59,x2,x5,x41,x60},记为数据x1的10个近邻数据。
S23:统计数据集X中每条数据xi在其它数据的k个近邻中出现的次数,记为H(xi),H(xi)表示数据xi在近邻关系上的活跃程度;
例如,数据x1在x2,x3,x4,x5,x6,x7,x8,x55,x57,x58,x59共11条数据的k近邻中出现过,因此,记H(x1)=11。下面,列出数据集中每条数据xi的H(xi)为:
H(x1):11,H(x2):16,H(x3):4,H(x4):13,H(x5):2,H(x6):4,H(x7):9,H(x8):10,H(x9):17,H(x10):7,H(x11):15,H(x12):12,H(x13):4,H(x14):12,H(x15):8,H(x16):6,H(x17):8,H(x18):8,H(x19):9,H(x20):7,H(x21):12,H(x22):7,H(x23):8,H(x24):12,H(x25):15,H(x26):8,H(x27):6,H(x28):15,H(x29):6,H(x30):20,H(x31):10,H(x32):6,H(x33):4,H(x34):9,H(x35):9,H(x36):20,H(x37):11,H(x38):16,H(x39):17,H(x40):9,H(x41):3,H(x42):7,H(x43):15,H(x44):7,H(x45):4,H(x46):17,H(x47):9,H(x48):13,H(x49):18,H(x50):8,H(x51):11,H(x52):11,H(x53):4,H(x54):12,H(x55):13,H(x56):11,H(x57):17,H(x58):12,H(x59):11,H(x60):10,H(x61):13,H(x62):19,H(x63):14,H(x64):11,H(x65):12,H(x66):12,H(x67):5,H(x68):2,H(x69):2,H(x70):2。
S24:对数据集X中所有数据的H(xi)按降序排序,取前80%的数据记为子集X1,其余的数据记为子集X2
例如,将数据集X中的数据按照H(xi)的降序排序为:
x30,x36,x62,x49,x9,x39,x46,x57,x2,x38,x11,x25,x28,x43,x63,x4,x48,x55,x61,x12,x14,x21,x24,x54,x58,x65,x66,x1,x37,x51,x52,x56,x59,x64,x8,x31,x60,x7,x19,x34,x35,x40,x47,x15,x17,x18,x23,x26,x50,x10,x20,x22,x42,x44,x16,x27,x29,x32,x67,x3,x6,x13,x33,x45,x53,x41,x5,x68,x69,x70
取前80%的数据记为子集X1={x30,x36,x62,x49,x9,x39,x46,x57,x2,x38,x11,x25,x28,x43,x63,x4,x48,x55,x61,x12,x14,x21,x24,x54,x58,x65,x66,x1,x37,x51,x52,x56,x59,x64,x8,x31,x60,x7,x19,x34,x35,x40,x47,x15,x17,x18,x23,x26,x50,x10,x20,x22,x42,x44,x16,x27},其余的数据记为子集X2={x29,x32,x67,x3,x6,x13,x33,x45,x53,x41,x5,x68,x69,x70};
S3:利用最近邻关系对子集X1进行预聚类,得到由m个子簇构成的子簇集合C1;其包括如下步骤:
S31:为数据集X1中的每条数据xi寻找距离最近的数据,记为
Figure BDA0002574333500000121
下面,列出数据集中每条数据xi
Figure BDA0002574333500000122
Figure BDA0002574333500000123
S32:对于数据点对(xi,xj)满足最近邻关系,如果满足
Figure BDA0002574333500000127
Figure BDA0002574333500000128
则将xi与xj合并至同一子簇;
例如,对于点对(x4,x55),有
Figure BDA0002574333500000124
即满足条件
Figure BDA0002574333500000125
Figure BDA0002574333500000126
则将xi与xj合并至同一子簇内;
S33:利用最近邻关系,对数据集X中所有的数据点对进行合并操作,得到由43个子簇构成的子簇集合C1={c1,c2,K,c43}。
下面,列出子簇集合C1中的各个子簇:
c1:{x1},c2:{x2},c3:{x4,x55},c4:{x7,x58},c5:{x8},c6:{x9},c7:{x10,x22},c8:{x11},c9:{x12,x14},c10:{x15,x20},c11:{x16,x18},c12:{x17},c13:{x19},c14:{x21},c15:{x23},c16:{x24},c17:{x25},c18:{x26},c19:{x27},c20:{x28},c21:{x30},c22:{x31},c23:{x34},c24:{x35},c25:{x36,x49},c26:{x37},c27:{x38},c28:{x39},c29:{x40},c30:{x42,x48},c31:{x43},c32:{x44},c33:{x46,x62},c34:{x47,x66},c35:{x50,x51},c36:{x52},c37:{x54},c38:{x56,x65},c39:{x57},c40:{x59},c41:{x60,x61},c42:{x63},c43:{x64}。
S4:计算子簇集合C1中子簇间的簇间距离;其包括如下步骤:
S41:对于子簇ci与cj,寻找互为k近邻的数据点对(xi,xj),即xi∈ci,xj∈cj,并且xi是xj的k近邻,xj是xj的k近邻;
例如,对于子簇c3:{x4,x55}与子簇c4:{x7,x58},满足条件“xi∈ci,xj∈cj”的点对(xi,xj)有4个:(x4,x7),(x4,x58),(x55,x7),(x55,x58),进一步考察各点之间的近邻关系可以发现:x7是x4的k近邻;x58是x4的k近邻;x7是x55的k近邻;x58是x55的k近邻;x4是x58的k近邻;x55是x58的k近邻;因此,满足条件“xi是xj的k近邻,xj是xj的k近邻”的点对有(x4,x58),(x55,x58)。
S42:对于所有互为k近邻的数据点对,将包含于子簇ci的数据点构成的集合表示为
Figure BDA0002574333500000131
包含于子簇cj的数据点构成的集合表示为
Figure BDA0002574333500000132
例如,对于子簇c3:{x4,x55}与子簇c4:{x7,x58}中的点对(x4,x58)与(x55,x58),有x4∈c3,x58∈c4,x55∈c3,故
Figure BDA0002574333500000133
S43:对于数据点xi∈ci,且
Figure BDA0002574333500000134
如果xi
Figure BDA0002574333500000135
中数据点的k近邻,则将所有满足条件的数据点xi构成的集合表示为
Figure BDA0002574333500000136
例如,对于子簇c3:{x4,x55}与子簇c4:{x7,x58}中的
Figure BDA0002574333500000137
没有满足条件“xi∈c3
Figure BDA0002574333500000138
”的数据点,故
Figure BDA0002574333500000139
S44:对于数据点xj∈cj,且
Figure BDA00025743335000001310
如果xj
Figure BDA00025743335000001311
中数据点的k近邻,则将所有满足条件的数据点xj构成的集合表示为
Figure BDA00025743335000001312
例如,对于子簇c3:{x4,x55}与子簇c4:{x7,x58}中的
Figure BDA00025743335000001325
有x7∈c4
Figure BDA00025743335000001313
Figure BDA00025743335000001314
S45:计算子簇ci与cj的簇间距离Sep(ci,cj),
Figure BDA00025743335000001315
其中,
Figure BDA00025743335000001316
表示集合
Figure BDA00025743335000001317
中数据的数目,
Figure BDA00025743335000001318
表示集合
Figure BDA00025743335000001319
中数据的数目,
Figure BDA00025743335000001320
表示集合
Figure BDA00025743335000001321
中数据的数目,
Figure BDA00025743335000001322
表示集合
Figure BDA00025743335000001323
中数据的数目。
例如,对于子簇c3:{x4,x55}与子簇c4:{x7,x58},由
Figure BDA00025743335000001324
Figure BDA0002574333500000141
可计算子簇c3与c4的簇间距离:
Figure BDA0002574333500000142
S5:根据簇间距离,合并簇间距离最小的子簇对,并更新该子簇对与其余子簇的簇间距离,直至获得包括K=7个子簇的子簇集合C2;其包括如下步骤:
S51:计算子簇集合C1中所有子簇对间的簇间距离;
例如,对于s3中得到的初始子簇集合C1={c1,c2,K,c43},需要计算
Figure BDA0002574333500000143
个子簇对的簇间距离,簇间距离Sep(ci,cj)的具体计算方式在步骤S4里有介绍。
S52:合并簇间距离最小的子簇对,得到新子簇cnew;在计算得到集合C1中所有子簇对的簇间距离后,选择具有最小簇间距离的子簇对,将两个子簇合并至一个子簇,至此,集合C1中的子簇个数减一。
S53:计算新子簇cnew与其余子簇的簇间距离;合并两个子簇得到新子簇cnew后,需要计算新子簇cnew与其他各子簇之间的簇间距离,簇间距离Sep(ci,cj)的具体计算方式在步骤S4里有介绍;由于其他各子簇未发生改变,因此无需重新计算它们的簇间距离。
S54:一直进行合并与更新簇间距离的操作,直至获得包括7个子簇的子簇集合C2={c1,c2,K,c7}。每合并两个簇间距离最小的子簇,则集合C1中的子簇个数减一,因此重复该合并操作(43-7)=26次后,将得到最终的7个子簇集合C2={c1,c2,K,c7}。
S6:对于子集X2中的数据,按最小距离依次划分至集合C2的各子簇中;其包括如下步骤:
S61:对于X2中的数据xk,找到xk与子集X1中欧氏距离最小的数据xr
例如,对于X2中的数据x29,计算该数据x29到X1中各数据的欧式距离:
d(x29,x1):11.2250,d(x29,x2):14.4914,d(x29,x4):10.9087,d(x29,x7):9.3274,d(x29,x8):10.8628,d(x29,x9):9.2195,d(x29,x10):6.4031,d(x29,x11):6.8557,d(x29,x12):6.2450,d(x29,x14):5.9161,d(x29,x15):6.7082,d(x29,x16):7.2111,d(x29,x17):6.2450,d(x29,x18):7.3485,d(x29,x19):6.4031,d(x29,x20):6.7082,d(x29,x21):6.0000,d(x29,x22):6.3246,d(x29,x23):5.8310,d(x29,x24):7.1414,d(x29,x25):7.1414,d(x29,x26):5.8310,d(x29,x27):6.0828,d(x29,x28):8.0623,d(x29,x30):6.5574,d(x29,x31):4.7958,d(x29,x34):8.1854,d(x29,x35):6.8557,d(x29,x36):6.4031,d(x29,x37):7.3485,d(x29,x38):6.6332,d(x29,x39):7.2111,d(x29,x40):6.7082,d(x29,x42):7.3485,d(x29,x43):5.6569,d(x29,x44):6.5574,d(x29,x46):7.8102,d(x29,x47):6.9282,d(x29,x48):6.4807,d(x29,x49):6.3246,d(x29,x50):7.5498,d(x29,x51):7.6158,d(x29,x52):7.5498,d(x29,x54):7.6811,d(x29,x55):11.1803,d(x29,x56):8.6023,d(x29,x57):8.1854,d(x29,x58):10.0000,d(x29,x59):11.7047,d(x29,x60):8.2462,d(x29,x61):8.2462,d(x29,x62):8.4261,d(x29,x63):7.7460,d(x29,x64):8.3666,d(x29,x65):8.9443,d(x29,x66):8.1240。
找到距离值最小的点对为d(x29,x31):4.7958,则数据x29与X1中的数据x31具有最小的欧式距离。
S62:将xk划分到xr所属的子簇中;
例如,对于X2中的数据x29,在X1中找到与其具有最小欧式距离的数据x29,且x29∈c5,则将数据x29划分到子簇c5中。
S63:对X2中的各数据进行划分操作,直至X2中所有的数据完成划分,输出分类结果。
为验证本发明分类结果的准确性,我们利用本发明方法,M.S.Zarchi等提出的基于人工神经网络的分类方法(以下简称方法1),SayanPutatunda提出的基于深度学习的分类方法Care2Vec(以下简称方法2)共3种方法进行分类,再按以下公式计算纯度,结果如表5所示,其中,纯度=各类别中分类正确的数据量/全部数据量。从表5结果可见,采用本发明方法,可以得到较高的纯度结果,即本发明方法与方法1和方法2相比,对于残疾儿童自我护理能力的分类更为准确。
表5三种分类方法在SCADI数据集上的结果
Figure BDA0002574333500000151
从算法的理论依据上来讲,方法1中的神经网络与方法2中的深度学习都是基于有监督的学习理论,这类算法的输入除了样本数据以外,还需要样本数据的标签信息;在这类算法的具体过程中,需要在样本数据中挑选部分数据参与训练过程,以此得到算法框架中的具体参数;本文算法为无监督的学习算法,算法的输入仅需要样本数据集,且无需训练过程,仅依靠样本数据自身的属性特征就可以完成分类,因此,算法的流程相对简单,耗时相对较少。
本发明实施例涉及医学诊断领域,是一种针对残疾儿童自我护理能力数据的分类方法,可对其他的残疾儿童数据进行分类,针对残疾儿童表现出来的患病情况,对病人的病情症状作出分类,得到病人的不同类别信息后,在后续治疗过程中可进行针对性的治疗处理。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (9)

1.一种分类方法,其特征在于,包括以下步骤:
获取待分类的数据;
根据获取的待分类的数据,对所述待分类的数据使用无监督学习算法进行分类处理;
根据分类处理,得到分类结果。
2.如权利要求1所述的一种分类方法,其特征在于,根据获取的待分类的数据,对待分类的数据进行分类处理,具体包括以下步骤:
步骤一,将获取的待分类的数据记为数据集X={x1,x2,L,xn},其中,xi(i=1,2,L,n)表示第i条儿童自我护理能力数据,xi={xi1,xi2,L,xid},xij(j=1,2,L,d)表示第i条数据内的第j个属性,儿童的自我保健问题的类别数目为K;
步骤二、利用数据在近邻关系上的活跃程度,将所述数据集X划分为两个具有不同分布特性的子集X1与X2
步骤三、利用最近邻关系对所述子集X1进行预聚类,得到由m个子簇构成的子簇集合C1
步骤四、计算所述子簇集合C1中子簇间的簇间距离;
步骤五、根据所述簇间距离,合并簇间距离最小的子簇对,并更新该子簇对与其余子簇的簇间距离,重复合并与更新操作,直至获得包括K个子簇的子簇集合C2
步骤六、对于所述子集X2中的数据,按最小距离依次划分至集合C2的各子簇中,完成分类。
3.如权利要2所述的一种分类方法,其特征在于,所述步骤二中利用数据在近邻关系上的活跃程度,将所述数据集X划分为两个具有不同分布特性的子集X1与X2,具体包括以下步骤:
计算所述数据集X中计算各数据间的欧氏距离
Figure FDA0002574333490000011
为所述数据集X中的每条数据xi寻找距离最近的k个近邻数据,这里,k取值等于10;
统计所述数据集X中每条数据xi在其它数据的k个近邻中出现的次数,记为H(xi),H(xj)表示数据xi在近邻关系上的活跃程度;
对所述数据集X中的所有数据按照其H(xi)值进行降序排序,取前80%的数据记为子集X1,其余的数据记为子集X2
4.如权利要求3所述的一种分类方法,其特征在于,所述步骤三中利用最近邻关系对子集X1进行预聚类,得到由m个子簇构成的子簇集合C1,具体包括以下步骤:
为数据集X中的每条数据xi寻找距离最近的数据,记为
Figure FDA0002574333490000021
对于数据集X中的任一数据点对(xi,xj),如果满足
Figure FDA0002574333490000022
Figure FDA0002574333490000023
则将xi与xj合并至同一子簇;
利用最近邻关系,对数据集X中所有满足上述合并条件的数据点对进行合并操作,得到由m个子簇构成的子簇集合C1={c1,c2,L,cm}。
5.如权利要求4所述的一种分类方法,其特征在于,所述步骤四中计算子簇集合C1中子簇间的簇间距离,具体包括以下步骤:
对于子簇ci与cj,寻找互为k近邻的数据点对(xi,xj),即xi∈ci,xj∈cj,并且xi是xj的k近邻,xj是xj的k近邻;
对于所有互为k近邻的数据点对,将包含于子簇ci的数据点构成的集合表示为
Figure FDA0002574333490000024
包含于子簇cj的数据点构成的集合表示为
Figure FDA0002574333490000025
对于数据点xi∈ci,且
Figure FDA0002574333490000026
如果xi
Figure FDA0002574333490000027
中数据点的k近邻,则将所有满足条件的数据点xi构成的集合表示为
Figure FDA0002574333490000028
对于数据点xj∈cj,且
Figure FDA0002574333490000029
如果xj
Figure FDA00025743334900000210
中数据点的k近邻,则将所有满足条件的数据点xj构成的集合表示为
Figure FDA00025743334900000211
计算子簇ci与cj的簇间距离sep(ci,cj),
Figure FDA00025743334900000212
其中,
Figure FDA00025743334900000213
表示集合
Figure FDA00025743334900000214
中数据的数目,
Figure FDA00025743334900000215
表示集合
Figure FDA00025743334900000216
中数据的数目,
Figure FDA00025743334900000217
表示集合
Figure FDA00025743334900000218
中数据的数目,
Figure FDA00025743334900000219
表示集合
Figure FDA00025743334900000220
中数据的数目。
6.如权利要求5所述的一种分类方法,其特征在于,所述步骤五中根据簇间距离,合并簇间距离最小的子簇对,并更新该子簇对与其余子簇的簇间距离,重复合并与更新操作,直至获得包括K个子簇的子簇集合C2,具体包括以下步骤:
计算子簇集合C1中所有子簇对间的簇间距离;
合并簇间距离最小的子簇对,得到新子簇cnew
计算新子簇cnew与其余子簇的簇间距离;
一直进行合并与更新簇间距离的操作,直至获得包括K个子簇的子簇集合C2
7.如权利要求6所述的一种分类方法,其特征在于,所述步骤六中对于子集X2中的数据,按最小距离依次划分至集合C2的各子簇中,完成分类,具体包括以下步骤:
对于X2中的数据xk,找到xk与子集X1中欧氏距离最小的数据xr
将xk划分到xr所属的子簇中;
对X2中的各数据进行划分操作,直至X2中所有的数据完成划分,输出分类结果。
8.如权利要求1所述的一种分类方法,其特征在于,所述分类方法应用于残疾儿童自我护理能力的分类中,其具体方法包括:
获取残疾儿童自我护理活动的数据;
根据获取的残疾儿童自我护理活动数据,对残疾儿童自我护理活动数据进行分类处理;
根据分类处理,得到残疾儿童自我护理能力的分类结果。
9.如权利要求8所述的一种分类方法,其特征在于,根据获取的残疾儿童自我护理活动待分类的数据,对残疾儿童自我护理活动待分类的数据进行分类处理,具体包括以下步骤:
步骤一,将获取的待分类的的数据记为数据集X={x1,x2,L,xn},其中,xi(i=1,2,L,n)表示第i条儿童自我护理能力数据,xi={xi1,xi2,L,xid},xij(j=1,2,L,d)表示第i条数据内的第j个属性,儿童的自我保健问题的类别数目为K;
步骤二、利用数据在近邻关系上的活跃程度,将所述数据集X划分为两个具有不同分布特性的子集X1与X2
步骤三、利用最近邻关系对所述子集X1进行预聚类,得到由m个子簇构成的子簇集合C1
步骤四、计算所述子簇集合C1中子簇间的簇间距离;
步骤五、根据所述簇间距离,合并簇间距离最小的子簇对,并更新该子簇对与其余子簇的簇间距离,重复合并与更新操作,直至获得包括K个子簇的子簇集合C2
步骤六、对于所述子集X2中的数据,按最小距离依次划分至集合C2的各子簇中,完成分类。
CN202010651577.4A 2020-07-08 2020-07-08 一种分类方法 Active CN111985530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010651577.4A CN111985530B (zh) 2020-07-08 2020-07-08 一种分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010651577.4A CN111985530B (zh) 2020-07-08 2020-07-08 一种分类方法

Publications (2)

Publication Number Publication Date
CN111985530A true CN111985530A (zh) 2020-11-24
CN111985530B CN111985530B (zh) 2023-12-08

Family

ID=73438216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010651577.4A Active CN111985530B (zh) 2020-07-08 2020-07-08 一种分类方法

Country Status (1)

Country Link
CN (1) CN111985530B (zh)

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025574A2 (en) * 2000-09-22 2002-03-28 Http Insights Limited Data clustering methods and applications
WO2004006072A2 (en) * 2002-07-02 2004-01-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for analysing arbitrary objects
US6941287B1 (en) * 1999-04-30 2005-09-06 E. I. Du Pont De Nemours And Company Distributed hierarchical evolutionary modeling and visualization of empirical data
JP2008293315A (ja) * 2007-05-25 2008-12-04 Yokohama Rubber Co Ltd:The データ解析プログラム、データ解析装置、構造体の設計プログラム、および構造体の設計装置
CN103810261A (zh) * 2014-01-26 2014-05-21 西安理工大学 一种基于商空间理论的K-means聚类方法
CN106570528A (zh) * 2016-11-08 2017-04-19 上海师范大学 一种初始聚类中心选取方法及聚类方法
CN106934415A (zh) * 2017-02-20 2017-07-07 上海师范大学 一种基于Delaunay三角网的K‑means初始聚类中心选取方法
US20170251985A1 (en) * 2016-02-12 2017-09-07 Newton Howard Detection Of Disease Conditions And Comorbidities
CN107679215A (zh) * 2017-10-19 2018-02-09 西安交通大学 一种基于质心的离群点检测方法
CN108776806A (zh) * 2018-05-08 2018-11-09 河海大学 基于变分自编码器和密度峰值的混合属性数据聚类方法
CN109448791A (zh) * 2018-08-07 2019-03-08 南方医科大学 用于基因表达分析的确定性k均值簇聚方法
CN109543775A (zh) * 2018-12-18 2019-03-29 贵州联科卫信科技有限公司 一种基于密度聚类的面向聚类算法的特征选择方法
CN109697471A (zh) * 2018-12-28 2019-04-30 重庆大学 一种基于knn的密度峰值聚类方法
CN109902711A (zh) * 2019-01-14 2019-06-18 南京航空航天大学 一种时间依赖路网上的移动对象k近邻查询算法
CN109919238A (zh) * 2019-03-14 2019-06-21 西华大学 一种基于监督核共享近邻的云自适应模糊k近邻分类方法
CN110070121A (zh) * 2019-04-15 2019-07-30 西北工业大学 一种基于树策略与平衡k均值聚类的快速近似k近邻方法
CN110163289A (zh) * 2019-05-27 2019-08-23 太原科技大学 一种基于最大近邻比的任意形状数据的聚类方法及系统
JP2020087115A (ja) * 2018-11-28 2020-06-04 独立行政法人国立高等専門学校機構 疾病・障害コードを用いた被験者の行動支援システム及び行動支援方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6941287B1 (en) * 1999-04-30 2005-09-06 E. I. Du Pont De Nemours And Company Distributed hierarchical evolutionary modeling and visualization of empirical data
WO2002025574A2 (en) * 2000-09-22 2002-03-28 Http Insights Limited Data clustering methods and applications
WO2004006072A2 (en) * 2002-07-02 2004-01-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for analysing arbitrary objects
JP2008293315A (ja) * 2007-05-25 2008-12-04 Yokohama Rubber Co Ltd:The データ解析プログラム、データ解析装置、構造体の設計プログラム、および構造体の設計装置
CN103810261A (zh) * 2014-01-26 2014-05-21 西安理工大学 一种基于商空间理论的K-means聚类方法
US20170251985A1 (en) * 2016-02-12 2017-09-07 Newton Howard Detection Of Disease Conditions And Comorbidities
CN106570528A (zh) * 2016-11-08 2017-04-19 上海师范大学 一种初始聚类中心选取方法及聚类方法
CN106934415A (zh) * 2017-02-20 2017-07-07 上海师范大学 一种基于Delaunay三角网的K‑means初始聚类中心选取方法
CN107679215A (zh) * 2017-10-19 2018-02-09 西安交通大学 一种基于质心的离群点检测方法
CN108776806A (zh) * 2018-05-08 2018-11-09 河海大学 基于变分自编码器和密度峰值的混合属性数据聚类方法
CN109448791A (zh) * 2018-08-07 2019-03-08 南方医科大学 用于基因表达分析的确定性k均值簇聚方法
JP2020087115A (ja) * 2018-11-28 2020-06-04 独立行政法人国立高等専門学校機構 疾病・障害コードを用いた被験者の行動支援システム及び行動支援方法
CN109543775A (zh) * 2018-12-18 2019-03-29 贵州联科卫信科技有限公司 一种基于密度聚类的面向聚类算法的特征选择方法
CN109697471A (zh) * 2018-12-28 2019-04-30 重庆大学 一种基于knn的密度峰值聚类方法
CN109902711A (zh) * 2019-01-14 2019-06-18 南京航空航天大学 一种时间依赖路网上的移动对象k近邻查询算法
CN109919238A (zh) * 2019-03-14 2019-06-21 西华大学 一种基于监督核共享近邻的云自适应模糊k近邻分类方法
CN110070121A (zh) * 2019-04-15 2019-07-30 西北工业大学 一种基于树策略与平衡k均值聚类的快速近似k近邻方法
CN110163289A (zh) * 2019-05-27 2019-08-23 太原科技大学 一种基于最大近邻比的任意形状数据的聚类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RACHEL A. LEWIS: "Data patterns discovery using unsupervised learning", 《ELECTRONIC THESES AND DISSERTATIONS》, no. 1934, pages 1 - 75 *

Also Published As

Publication number Publication date
CN111985530B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN107180155B (zh) 一种基于异构集成模型的疾病预测系统
CN111161814A (zh) 一种基于卷积神经网络的DRGs自动分组方法
Zhang et al. Chromosome classification with convolutional neural network based deep learning
Luo et al. Retinal image classification by self-supervised fuzzy clustering network
Mirmozaffari et al. Heart disease prediction with data mining clustering algorithms
Kumar et al. Advanced prediction of performance of a student in an university using machine learning techniques
CN109360658B (zh) 一种基于词向量模型的疾病模式挖掘方法及装置
CN116910172B (zh) 基于人工智能的随访量表生成方法及系统
CN116259415A (zh) 一种基于机器学习的患者服药依从性预测方法
CN110299194A (zh) 基于综合特征表示与改进宽深度模型的相似病例推荐方法
Korzhakin et al. Implementation of genetic algorithm and adaptive neuro fuzzy inference system in predicting survival of patients with heart failure
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
CN111985530B (zh) 一种分类方法
CN110853761A (zh) 一种基于极端梯度提升算法的精神病高危识别模型
CN116797817A (zh) 基于自监督图卷积模型的自闭症疾病预测技术
Li et al. Cluster size-constrained fuzzy C-means with density center searching
CN115310491A (zh) 一种基于深度学习的类不平衡磁共振全脑数据分类方法
CN114999628A (zh) 一种利用机器学习寻找退行性膝骨关节炎显著性特征方法
Satapathy et al. Machine Learning Approach for Estimation and Novel Design of Stroke Disease Predictions using Numerical and Categorical Features
CN113159132A (zh) 一种基于多模型融合的高血压分级方法
Yin et al. Stroke risk prediction: Comparing different sampling algorithms
Tatusch Approaches for the Improvement of the Multilabel Multiclass Classification with a Huge Number of Classes.
Amalia et al. The Application of Modified K-Nearest Neighbor Algorithm for Classification of Groundwater Quality Based on Image Processing and pH, TDS, and Temperature Sensors
Subaramya et al. Graph neural network based Alzheimer’s disease classification using structural brain network
Zhu et al. Multi-View Modeling Method for Functional MRI Images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant