CN111985530A

CN111985530A - 一种分类方法

Info

Publication number: CN111985530A
Application number: CN202010651577.4A
Authority: CN
Inventors: 马燕; 王妍; 黄慧; 李顺宝; 徐晓钟
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-11-24
Anticipated expiration: 2040-07-08
Also published as: CN111985530B

Abstract

本发明公开了一种分类方法，包括以下步骤：获取残疾儿童自我护理活动的数据；根据获取的残疾儿童自我护理活动数据，对残疾儿童自我护理活动数据进行分类处理；根据分类处理，得到残疾儿童自我护理能力的分类结果。本发明的一种分类方法，具有简单易用、快速、精度高等优势。

Description

一种分类方法

技术领域

本发明涉及医学诊断领域，尤其涉及一种分类方法，特别是一种残疾儿童自我护理能力的分类方法。

背景技术

作为一种限制个人活动的障碍性疾病，残疾在医学上的诊断和分类是一个复杂的过程。为了得到准确的诊断结果，往往需要专业的职业治疗师进行判断，而职业治疗师的稀缺使得残疾患者的治疗过程变得漫长而昂贵。为解决这个问题，出现了很多针对残疾症状的分类方法，根据患者的身体症状及生活表现做出残疾评估与分类，有效提高了诊断效率，改善了残疾患者的医疗服务环境。

青少年版国际功能、残疾和健康分类(ICF-CY)是一个针对青少年的残疾诊断框架，用于识别青少年在心理、身体、运动等生物学领域的各种功能性问题，经常被用作残疾评估与分类的概念框架，以该框架为导向的研究工作将有助于解决残疾病症的治疗问题。

M.S.Zarchi等人在数据集SCADI的基础上提出了基于有监督学习的两种分类方法，其一，在SCADI数据集上抽取70％的儿童数据作为训练样本数据，余下30％的数据用于验证与测试；利用人工神经网络模型在训练样本数据上进行模型训练，不断调整模型中的神经元个数，选取实验效果最佳时的神经元数量，建立神经网络分类系统；其二，在分类规则的建立问题上，引入决策树算法，在数据集SCADI上提取残疾儿童自我护理问题的分类规则。

SayanPutatunda提出了一种基于深度学习的分类方法Care2Vec，该方法的建模过程可分为两个阶段，阶段一通过自动编码器将数据集SCADI从高维特征空间转换为低维特征空间，阶段二将低维度的数据输入深度学习神经网络进行模型训练，完成分类系统的建立。

基于有监督学习的分类方法在建立分类模型时需要对训练样本数据进行学习，训练样本如何选择的问题会影响分类方法的最终效果，而模型的训练过程也需要耗费较多的时间。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是现有技术中对残疾儿童自我护理能力分类的数据处理出现的数据处理复杂、耗费时间多、分类精度不高等问题。本发明开发了一种分类方法，具有简单易用、快速、精度高等优势。

为实现上述目的，本发明提供了一种分类方法，包括以下步骤：

获取待分类的的数据；

根据获取的待分类的数据，对待分类的数据使用无监督学习算法进行分类处理；

根据分类处理，得到分类结果。

进一步地，根据获取的待分类的数据，对待分类的数据使用无监督学习算法进行分类处理，具体包括以下步骤：

步骤一，将获取的待分类的数据记为数据集X＝{x₁，x₂，L，x_n}，其中，x_i(i＝1，2，L，n)表示第i条儿童自我护理能力数据，x_i＝{x_i1，x_i2，L，x_id}，x_ij(j＝1，2，L，d)表示第i条数据内的第j个属性，儿童的自我保健问题的类别数目为K；

步骤二、利用数据在近邻关系上的活跃程度，将数据集X划分为两个具有不同分布特性的子集X₁与X₂；

步骤三、利用最近邻关系对子集X₁进行预聚类，得到由m个子簇构成的子簇集合C₁；

步骤四、计算子簇集合C₁中子簇间的簇间距离；

步骤五、根据簇间距离，合并簇间距离最小的子簇对，并更新该子簇对与其余子簇的簇间距离，重复合并与更新操作，直至获得包括K个子簇的子簇集合C₂；

步骤六、对于子集X₂中的数据，按最小距离依次划分至集合C₂的各子簇中，完成分类。

进一步地，步骤二中利用数据在近邻关系上的活跃程度，将数据集X划分为两个具有不同分布特性的子集X₁与X₂，具体包括以下步骤：

计算数据集X中计算各数据间的欧氏距离

为数据集X中的每条数据x_i寻找距离最近的k个近邻数据，这里，k取值等于10；

统计数据集X中每条数据x_i在其它数据的k个近邻中出现的次数，记为H(x_i)，H(x_i)表示数据x_i在近邻关系上的活跃程度；

对数据集X中的所有数据按照其H(x_i)值进行降序排序，取前80％的数据记为子集X₁，其余的数据记为子集X₂。

进一步地，步骤三中利用最近邻关系对子集X₁进行预聚类，得到由m个子簇构成的子簇集合C₁，具体包括以下步骤：

为数据集X中的每条数据x_i寻找距离最近的数据，记为

对于数据集X中的任一数据点对(x_i，x_j)，如果满足

和

则将x_i与x_j合并至同一子簇；

利用最近邻关系，对数据集X中所有满足上述合并条件的数据点对进行合并操作，得到由m个子簇构成的子簇集合C₁＝{c₁，c₂，L，c_m}。

进一步地，步骤四中计算子簇集合C₁中子簇间的簇间距离，具体包括以下步骤：

对于子簇c_i与c_j，寻找互为k近邻的数据点对(x_i，x_j)，即x_i∈c_i，x_j∈c_j，并且x_i是x_j的k近邻，x_j是x_j的k近邻；

对于所有互为k近邻的数据点对，将包含于子簇c_i的数据点构成的集合表示为

包含于子簇c_j的数据点构成的集合表示为

对于数据点x_i∈c_i，且

如果x_i为

中数据点的k近邻，则将所有满足条件的数据点x_i构成的集合表示为

对于数据点x_j∈c_j，且

如果x_j为

中数据点的k近邻，则将所有满足条件的数据点x_j构成的集合表示为

计算子簇c_i与c_j的簇间距离sep(c_i，c_j)，

其中，

表示集合

中数据的数目，

表示集合

中数据的数目，

表示集合

中数据的数目，

表示集合

中数据的数目。

进一步地，步骤五中根据簇间距离，合并簇间距离最小的子簇对，并更新该子簇对与其余子簇的簇间距离，重复合并与更新操作，直至获得包括K个子簇的子簇集合C₂，具体包括以下步骤：

计算子簇集合C₁中所有子簇对间的簇间距离；

合并簇间距离最小的子簇对，得到新子簇c_new；

计算新子簇c_new与其余子簇的簇间距离；

一直进行合并与更新簇间距离的操作，直至获得包括K个子簇的子簇集合C₂。

进一步地，步骤六中对于子集X₂中的数据，按最小距离依次划分至集合C₂的各子簇中，完成分类，具体包括以下步骤：

对于X₂中的数据x_k，找到x_k与子集X₁中欧氏距离最小的数据x_r；

将x_k划分到x_r所属的子簇中；

对X₂中的各数据进行划分操作，直至X₂中所有的数据完成划分，输出分类结果。

本发明的又一实施例提供了一种分类方法，该分类方法应用于残疾儿童自我护理能力的分类中，其具体方法包括：

获取残疾儿童自我护理活动的数据；

根据获取的残疾儿童自我护理活动数据，对残疾儿童自我护理活动数据进行分类处理；

根据分类处理，得到残疾儿童自我护理能力的分类结果。

进一步地，根据获取的残疾儿童自我护理活动待分类的数据，对残疾儿童自我护理活动待分类的数据进行分类处理，具体包括以下步骤：

步骤一，将获取的待分类的的数据记为数据集X＝{x₁，x₂，L，x_n}，其中，x_i(i＝1，2，L，n)表示第i条儿童自我护理能力数据，x_i＝{x_i1，x_i2，L，x_id}，x_ij(j＝1，2，L，d)表示第i条数据内的第i个属性，儿童的自我保健问题的类别数目为K；

步骤四、计算子簇集合C₁中子簇间的簇间距离；

技术效果

本发明的有益效果：

1.本发明的基于聚类思想的分类方法，是一种无监督的学习方法，即不需要提供任何参考信息而仅依靠数据自身的属性特征就可以完成分类。

2.本发明的分类方法，将数据集划分为具有不同活跃程度的两个子集，并针对两个子集的特征分别进行不同处理，降低了非活跃数据对活跃数据的干扰，使分类方法能够有效提取到数据中的鉴别特征，从而进行准确分类。

3.本发明的分类方法，引入一种基于近邻关系的新类间距离，相比于传统的类间距离如单链距离、全链距离等，本发明有效降低了噪声点对类间距离的不利影响，能更好地评价数据子集之间的相似性，提高分类的准确性。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的一种分类方法的流程示意图。

具体实施方式

本发明提供了一种分类方法，本发明的一较佳实施例中，是一种残疾儿童自我护理能力的分类方法，以下将具体说明本实施例的具体方法步骤。

如图1所示，本实施例引入了一种标准数据集SCADI(基于ICF-CY的自我护理能力数据集)，数据集SCADI是一个基于ICF-CY框架的残疾儿童自我护理能力数据集，该数据集由M.S.Zarchi等人与两位具备15年以上专业经验的职业护理师创建，调查了在伊朗亚兹德三个教育与卫生中心学习的70名学生的学习及生活状况，，根据ICF-CY框架定义的自我护理能力评价方式为每个儿童收集205项属性信息，并将70名儿童划分到7个类别。

S1：获取残疾儿童自我护理活动的数据；具体包含以下内容：

在本实施例中记DCADI数据集为X＝{x₁，x₂，L，x_n}，其中，x_i(i＝1，2，L，n)表示第i条儿童自我护理能力数据，n＝70；x_i＝{x_i1，x_i2，L，x_id}，x_ij(j＝1，2，L，d)表示第i条数据内的第j个属性，d＝205，下面，列出数据集中的前5条数据作为示例：

x₁(0，18，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0，1，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，0，1，0，0，)，

x₂(0，22，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0，1，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，0，1，0，0，1，0，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，)，

x₃(0，18，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，1，0，0，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0，1，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，0，1，0，0，1，0，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，)，

x₄(1，18，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，1，0，0，0，0，0，0，0，0，0，0，1，0，0，1，0，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，0，1，0，0，1，0，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，0，0，1，0，0，0，0，)，

x₅(0，19，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，0，0，1，0，0，0，0，)。

根据ICF-CY框架定义的自我护理能力评价方式，提供如表1所示的29项自我护理活动，为每种护理活动设置如表2所示的7种等级，由29项自我护理活动和7种等级，以及性别、年龄信息构成了每条数据的205项属性，表3中记录了各属性的具体信息，其中，第1项属性为年龄信息，第2项属性为性别信息(“1”为男性，“0”为女性)，余下203项属性分别记录每个儿童在29项自我护理活动中的评价等级信息。

例如，数据集中的第1条儿童自我护理能力数据为x₁(0，18，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0，1，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，0，1，0，0，)，其中，第1个属性“0”表示该儿童的性别为女性；第2个属性“18”表示该儿童的年龄为18岁；第3个属性为“0”，表示该属性为假，参照表3，第3个属性的属性编号“d5100-0”，即该儿童在活动“d5100”中不属于等级“0”；第7个属性为“1”，表示该属性为真，参照表3，第7个属性的属性编号为“d5100-4”，即该儿童在活动“d5100”中属于等级“4”。

表129项自我护理活动

表2 7个等级

等级编号	等级描述
		0	无损伤
1	轻度损伤
		2	中度
3	严重
		4	完全
8	未指定
		9	无适用值

表3 205项属性的具体信息

根据ICF-CY框架定义的自我护理能力评价方式，将儿童自我护理能力数据集中的70条数据划分到7个类别中，即K＝7，具体类别信息如表4所示：

表4数据集SCADI的类别信息

S2：利用数据在近邻关系上的活跃程度，将数据集X划分为两个具有不同分布特性的子集X₁与X₂；其包括如下步骤：

S21：计算数据集X中各数据间的欧氏距离

例如，数据集中的第1条儿童自我护理能力数据x₁(0，18，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0，1，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，0，1，0，0，)与第2条儿童自我护理能力数据x₂(0，22，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0，1，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，0，1，0，0，1，0，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，1，0，0，0，)之间的欧氏距离按下式计算：

S22：为数据集X中的每条数据x_i寻找距离最近的k个近邻数据，这里，k取值等于10；

例如，数据x₁到数据集中其他数据的距离为：

d(x₁，x₂)：5.0990，d(x₁，x₃)：4.4721，d(x₁，x₄)：4.5826，d(x₁，x₅)：5.1962，d(x₁，x₆)：6.9282，d(x₁，x₇)：4.1231，d(x₁，x₈)：6.9282，d(x₁，x₉)：7.1414，d(x₁，x₁₀)：13.9642，d(x₁，x₁₁)：13.6015，d(x₁，x₁₂)：13.0767，d(x₁，x₁₃)：12.8452，d(x₁，x₁₄)：13.0767，d(x₁，x₁₅)：12.0416，d(x₁，x₁₆)：10.0000，d(x₁，x₁₇)：11.8743，d(x₁，x₁₈)：10.9545，d(x₁，x₁₉)：11.2694，d(x₁，x₂₀)：10.4403，d(x₁，x₂₁)：12.4097，d(x₁，x₂₂)：12.4097，d(x₁，x₂₃)：11.3137，d(x₁，x₂₄)：8.4261，d(x₁，x₂₅)：7.4162，d(x₁，x₂₆)：9.4868，d(x₁，x₂₇)：10.7238，d(x₁，x₂₈)：6.7082，d(x₁，x₂₉)：11.2250，d(x₁，x₃₀)：9.9499，d(x₁，x₃₁)：10.7238，d(x₁，x₃₂)：10.8167，d(x₁，x₃₃)：7.4162，d(x₁，x₃₄)：6.5574，d(x₁，x₃₅)：8.5440，d(x₁，x₃₆)：9.7468，d(x₁，x₃₇)：9.4868，d(x₁，x₃₈)：8.9443，d(x₁，x₃₉)：7.2111，d(x₁x₄₀)：8.4261，d(x₁，x₄₁)：5.9161，d(x₁，x₄₂)：8.7178，d(x₁，x₄₃)：9.5917，d(x₁，x₄₄)：11.0905，d(x₁，x₄₅)：9.3274，d(x₁，x₄₆)：7.9373，d(x₁，x₄₇)：8.4853，d(x₁，x₄₈)：8.9443，d(x₁，x₄₉)：8.9443，d(x₁，x₅₀)：8.3066，d(x₁，x₅₁)：7.7460，d(x₁，x₅₂)：8.5440，d(x₁，x₅₃)：6.4031，d(x₁，x₅₄)：6.8557，d(x₁，x₅₅)：4.5826，d(x₁，x₅₆)：7.6158，d(x₁，x₅₇)：7.4162，d(x₁，x₅₈)：3.7417，d(x₁，x₅₉)：4.5826，d(x₁，x₆₀)：6.1644，d(x₁，x₆₁)：6.1644，d(x₁，x₆₂)：7.2801，d(x₁，x₆₃)：7.7460，d(x₁，x₆₄)：7.3485，d(x₁，x₆₅)：7.8740，d(x₁x₆₆)：7.3485，d(x₁，x₆₇)：11.5326，d(x₁，x₆₈)：11.4455，d(x₁，x₆₉)：11.3578，d(x₁，x₇₀)：6.5574。

寻找距离值最小的10个数据为{x₅₈，x₇，x₃，x₄，x₅₅，x₅₉，x₂，x₅，x₄₁，x₆₀}，记为数据x₁的10个近邻数据。

S23：统计数据集X中每条数据x_i在其它数据的k个近邻中出现的次数，记为H(x_i)，H(x_i)表示数据x_i在近邻关系上的活跃程度；

例如，数据x₁在x₂，x₃，x₄，x₅，x₆，x₇，x₈，x₅₅，x₅₇，x₅₈，x₅₉共11条数据的k近邻中出现过，因此，记H(x₁)＝11。下面，列出数据集中每条数据x_i的H(x_i)为：

H(x₁)：11，H(x₂)：16，H(x₃)：4，H(x₄)：13，H(x₅)：2，H(x₆)：4，H(x₇)：9，H(x₈)：10，H(x₉)：17，H(x₁₀)：7，H(x₁₁)：15，H(x₁₂)：12，H(x₁₃)：4，H(x₁₄)：12，H(x₁₅)：8，H(x₁₆)：6，H(x₁₇)：8，H(x₁₈)：8，H(x₁₉)：9，H(x₂₀)：7，H(x₂₁)：12，H(x₂₂)：7，H(x₂₃)：8，H(x₂₄)：12，H(x₂₅)：15，H(x₂₆)：8，H(x₂₇)：6，H(x₂₈)：15，H(x₂₉)：6，H(x₃₀)：20，H(x₃₁)：10，H(x₃₂)：6，H(x₃₃)：4，H(x₃₄)：9，H(x₃₅)：9，H(x₃₆)：20，H(x₃₇)：11，H(x₃₈)：16，H(x₃₉)：17，H(x₄₀)：9，H(x₄₁)：3，H(x₄₂)：7，H(x₄₃)：15，H(x₄₄)：7，H(x₄₅)：4，H(x₄₆)：17，H(x₄₇)：9，H(x₄₈)：13，H(x₄₉)：18，H(x₅₀)：8，H(x₅₁)：11，H(x₅₂)：11，H(x₅₃)：4，H(x₅₄)：12，H(x₅₅)：13，H(x₅₆)：11，H(x₅₇)：17，H(x₅₈)：12，H(x₅₉)：11，H(x₆₀)：10，H(x₆₁)：13，H(x₆₂)：19，H(x₆₃)：14，H(x₆₄)：11，H(x₆₅)：12，H(x₆₆)：12，H(x₆₇)：5，H(x₆₈)：2，H(x₆₉)：2，H(x₇₀)：2。

S24：对数据集X中所有数据的H(x_i)按降序排序，取前80％的数据记为子集X₁，其余的数据记为子集X₂；

例如，将数据集X中的数据按照H(x_i)的降序排序为：

x₃₀，x₃₆，x₆₂，x₄₉，x₉，x₃₉，x₄₆，x₅₇，x₂，x₃₈，x₁₁，x₂₅，x₂₈，x₄₃，x₆₃，x₄，x₄₈，x₅₅，x₆₁，x₁₂，x₁₄，x₂₁，x₂₄，x₅₄，x₅₈，x₆₅，x₆₆，x₁，x₃₇，x₅₁，x₅₂，x₅₆，x₅₉，x₆₄，x₈，x₃₁，x₆₀，x₇，x₁₉，x₃₄，x₃₅，x₄₀，x₄₇，x₁₅，x₁₇，x₁8，x₂₃，x₂₆，x₅₀，x₁₀，x₂₀，x₂₂，x₄₂，x₄₄，x₁₆，x₂₇，x₂₉，x₃₂，x₆₇，x₃，x₆，x₁₃，x₃₃，x₄₅，x₅₃，x₄₁，x₅，x₆₈，x₆₉，x₇₀。

取前80％的数据记为子集X₁＝{x₃₀，x₃₆，x₆₂，x₄₉，x₉，x₃₉，x₄₆，x₅₇，x₂，x₃₈，x₁₁，x₂₅，x₂₈，x₄₃，x₆₃，x₄，x₄₈，x₅₅，x₆₁，x₁₂，x₁₄，x₂₁，x₂₄，x₅₄，x₅₈，x₆₅，x₆₆，x₁，x₃₇，x₅₁，x₅₂，x₅₆，x₅₉，x₆₄，x₈，x₃₁，x₆₀，x₇，x₁₉，x₃₄，x₃₅，x₄₀，x₄₇，x₁₅，x₁₇，x₁₈，x₂₃，x₂₆，x₅₀，x₁₀，x₂₀，x₂₂，x₄₂，x₄₄，x₁₆，x₂₇}，其余的数据记为子集X₂＝{x₂₉，x₃₂，x₆₇，x₃，x₆，x₁₃，x₃₃，x₄₅，x₅₃，x₄₁，x₅，x₆₈，x₆₉，x₇₀}；

S3：利用最近邻关系对子集X₁进行预聚类，得到由m个子簇构成的子簇集合C₁；其包括如下步骤：

S31：为数据集X₁中的每条数据x_i寻找距离最近的数据，记为

下面，列出数据集中每条数据x_i的

S32：对于数据点对(x_i，x_j)满足最近邻关系，如果满足

和

则将x_i与x_j合并至同一子簇；

例如，对于点对(x₄，x₅₅)，有

即满足条件

和

则将x_i与x_j合并至同一子簇内；

S33：利用最近邻关系，对数据集X中所有的数据点对进行合并操作，得到由43个子簇构成的子簇集合C₁＝{c₁，c₂，K，c₄₃}。

下面，列出子簇集合C₁中的各个子簇：

c₁：{x₁}，c₂：{x₂}，c₃：{x₄，x₅₅}，c₄：{x₇，x₅₈}，c₅：{x₈}，c₆：{x₉}，c₇：{x₁₀，x₂₂}，c₈：{x₁₁}，c₉：{x₁₂，x₁₄}，c₁₀：{x₁₅，x₂₀}，c₁₁：{x₁₆，x₁₈}，c₁₂：{x₁₇}，c₁₃：{x₁₉}，c₁₄：{x₂₁}，c₁₅：{x₂₃}，c₁₆：{x₂₄}，c₁₇：{x₂₅}，c₁₈：{x₂₆}，c₁₉：{x₂₇}，c₂₀：{x₂₈}，c₂₁：{x₃₀}，c₂₂：{x₃₁}，c₂₃：{x₃₄}，c₂₄：{x₃₅}，c₂₅：{x₃₆，x₄₉}，c₂₆：{x₃₇}，c₂₇：{x₃₈}，c₂₈：{x₃₉}，c₂₉：{x₄₀}，c₃₀：{x₄₂，x₄₈}，c₃₁：{x₄₃}，c₃₂：{x₄₄}，c₃₃：{x₄₆，x₆₂}，c₃₄：{x₄₇，x₆₆}，c₃₅：{x₅₀，x₅₁}，c₃₆：{x₅₂}，c₃₇：{x₅₄}，c₃₈：{x₅₆，x₆₅}，c₃₉：{x₅₇}，c₄₀：{x₅₉}，c₄₁：{x₆₀，x₆₁}，c₄₂：{x₆₃}，c₄₃：{x₆₄}。

S4：计算子簇集合C₁中子簇间的簇间距离；其包括如下步骤：

S41：对于子簇c_i与c_j，寻找互为k近邻的数据点对(x_i，x_j)，即x_i∈c_i，x_j∈c_j，并且x_i是x_j的k近邻，x_j是x_j的k近邻；

例如，对于子簇c₃：{x₄，x₅₅}与子簇c₄：{x₇，x₅₈}，满足条件“x_i∈c_i，x_j∈c_j”的点对(x_i，x_j)有4个：(x₄，x₇)，(x₄，x₅₈)，(x₅₅，x₇)，(x₅₅，x₅₈)，进一步考察各点之间的近邻关系可以发现：x₇是x₄的k近邻；x₅₈是x₄的k近邻；x₇是x₅₅的k近邻；x₅₈是x₅₅的k近邻；x₄是x₅₈的k近邻；x₅₅是x₅₈的k近邻；因此，满足条件“x_i是x_j的k近邻，x_j是x_j的k近邻”的点对有(x₄，x₅₈)，(x₅₅，x₅₈)。

S42：对于所有互为k近邻的数据点对，将包含于子簇c_i的数据点构成的集合表示为

包含于子簇c_j的数据点构成的集合表示为

例如，对于子簇c₃：{x₄，x₅₅}与子簇c₄：{x₇，x₅₈}中的点对(x₄，x₅₈)与(x₅₅，x₅₈)，有x₄∈c₃，x₅₈∈c₄，x₅₅∈c₃，故

S43：对于数据点x_i∈c_i，且

如果x_i为

例如，对于子簇c₃：{x₄，x₅₅}与子簇c₄：{x₇，x₅₈}中的

没有满足条件“x_i∈c₃且

”的数据点，故

S44：对于数据点x_j∈c_j，且

如果x_j为

有x₇∈c₄且

故

S45：计算子簇c_i与c_j的簇间距离Sep(c_i，c_j)，

其中，

表示集合

中数据的数目，

表示集合

中数据的数目，

表示集合

中数据的数目，

表示集合

中数据的数目。

例如，对于子簇c₃：{x₄，x₅₅}与子簇c₄：{x₇，x₅₈}，由

可计算子簇c₃与c₄的簇间距离：

S5：根据簇间距离，合并簇间距离最小的子簇对，并更新该子簇对与其余子簇的簇间距离，直至获得包括K＝7个子簇的子簇集合C₂；其包括如下步骤：

S51：计算子簇集合C₁中所有子簇对间的簇间距离；

例如，对于s3中得到的初始子簇集合C₁＝{c₁，c₂，K，c₄₃}，需要计算

个子簇对的簇间距离，簇间距离Sep(c_i，c_j)的具体计算方式在步骤S4里有介绍。

S52：合并簇间距离最小的子簇对，得到新子簇c_new；在计算得到集合C₁中所有子簇对的簇间距离后，选择具有最小簇间距离的子簇对，将两个子簇合并至一个子簇，至此，集合C₁中的子簇个数减一。

S53：计算新子簇c_new与其余子簇的簇间距离；合并两个子簇得到新子簇c_new后，需要计算新子簇c_new与其他各子簇之间的簇间距离，簇间距离Sep(c_i，c_j)的具体计算方式在步骤S4里有介绍；由于其他各子簇未发生改变，因此无需重新计算它们的簇间距离。

S54：一直进行合并与更新簇间距离的操作，直至获得包括7个子簇的子簇集合C₂＝{c₁，c₂，K，c₇}。每合并两个簇间距离最小的子簇，则集合C₁中的子簇个数减一，因此重复该合并操作(43-7)＝26次后，将得到最终的7个子簇集合C₂＝{c₁，c₂，K，c₇}。

S6：对于子集X₂中的数据，按最小距离依次划分至集合C₂的各子簇中；其包括如下步骤：

S61：对于X₂中的数据x_k，找到x_k与子集X₁中欧氏距离最小的数据x_r；

例如，对于X₂中的数据x₂₉，计算该数据x₂₉到X₁中各数据的欧式距离：

d(x₂₉，x₁)：11.2250，d(x₂₉，x₂)：14.4914，d(x₂₉，x₄)：10.9087，d(x₂₉，x₇)：9.3274，d(x₂₉，x₈)：10.8628，d(x₂₉，x₉)：9.2195，d(x₂₉，x₁₀)：6.4031，d(x₂₉，x₁₁)：6.8557，d(x₂₉，x₁₂)：6.2450，d(x₂₉，x₁₄)：5.9161，d(x₂₉，x₁₅)：6.7082，d(x₂₉，x₁₆)：7.2111，d(x₂₉，x₁₇)：6.2450，d(x₂₉，x₁₈)：7.3485，d(x₂₉，x₁₉)：6.4031，d(x₂₉，x₂₀)：6.7082，d(x₂₉，x₂₁)：6.0000，d(x₂₉，x₂₂)：6.3246，d(x₂₉，x₂₃)：5.8310，d(x₂₉，x₂₄)：7.1414，d(x₂₉，x₂₅)：7.1414，d(x₂₉，x₂₆)：5.8310，d(x₂₉，x₂₇)：6.0828，d(x₂₉，x₂₈)：8.0623，d(x₂₉，x₃₀)：6.5574，d(x₂₉，x₃₁)：4.7958，d(x₂₉，x₃₄)：8.1854，d(x₂₉，x₃₅)：6.8557，d(x₂₉，x₃₆)：6.4031，d(x₂₉，x₃₇)：7.3485，d(x₂₉，x₃8)：6.6332，d(x₂₉，x₃₉)：7.2111，d(x₂₉，x₄₀)：6.7082，d(x₂₉，x₄₂)：7.3485，d(x₂₉，x₄₃)：5.6569，d(x₂₉，x₄₄)：6.5574，d(x₂₉，x₄₆)：7.8102，d(x₂₉，x₄₇)：6.9282，d(x₂₉，x₄₈)：6.4807，d(x₂₉，x₄₉)：6.3246，d(x₂₉，x₅₀)：7.5498，d(x₂₉，x₅₁)：7.6158，d(x₂₉，x₅₂)：7.5498，d(x₂₉，x₅₄)：7.6811，d(x₂₉，x₅₅)：11.1803，d(x₂₉，x₅₆)：8.6023，d(x₂₉，x₅₇)：8.1854，d(x₂₉，x₅₈)：10.0000，d(x₂₉，x₅₉)：11.7047，d(x₂₉，x₆₀)：8.2462，d(x₂₉，x₆₁)：8.2462，d(x₂₉，x₆₂)：8.4261，d(x₂₉，x₆₃)：7.7460，d(x₂₉，x₆₄)：8.3666，d(x₂₉，x₆₅)：8.9443，d(x₂₉，x₆₆)：8.1240。

找到距离值最小的点对为d(x₂₉，x₃₁)：4.7958，则数据x₂₉与X₁中的数据x₃₁具有最小的欧式距离。

S62：将x_k划分到x_r所属的子簇中；

例如，对于X₂中的数据x₂₉，在X₁中找到与其具有最小欧式距离的数据x₂₉，且x₂₉∈c₅，则将数据x₂₉划分到子簇c₅中。

S63：对X₂中的各数据进行划分操作，直至X₂中所有的数据完成划分，输出分类结果。

为验证本发明分类结果的准确性，我们利用本发明方法，M.S.Zarchi等提出的基于人工神经网络的分类方法(以下简称方法1)，SayanPutatunda提出的基于深度学习的分类方法Care2Vec(以下简称方法2)共3种方法进行分类，再按以下公式计算纯度，结果如表5所示，其中，纯度＝各类别中分类正确的数据量/全部数据量。从表5结果可见，采用本发明方法，可以得到较高的纯度结果，即本发明方法与方法1和方法2相比，对于残疾儿童自我护理能力的分类更为准确。

表5三种分类方法在SCADI数据集上的结果

从算法的理论依据上来讲，方法1中的神经网络与方法2中的深度学习都是基于有监督的学习理论，这类算法的输入除了样本数据以外，还需要样本数据的标签信息；在这类算法的具体过程中，需要在样本数据中挑选部分数据参与训练过程，以此得到算法框架中的具体参数；本文算法为无监督的学习算法，算法的输入仅需要样本数据集，且无需训练过程，仅依靠样本数据自身的属性特征就可以完成分类，因此，算法的流程相对简单，耗时相对较少。

本发明实施例涉及医学诊断领域，是一种针对残疾儿童自我护理能力数据的分类方法，可对其他的残疾儿童数据进行分类，针对残疾儿童表现出来的患病情况，对病人的病情症状作出分类，得到病人的不同类别信息后，在后续治疗过程中可进行针对性的治疗处理。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。