CN109492094A

CN109492094A - 一种基于密度的混合多维属性数据处理方法

Info

Publication number: CN109492094A
Application number: CN201811198149.XA
Authority: CN
Inventors: 方炜
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power; University of Shanghai for Science and Technology
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2019-03-19

Abstract

本发明涉及一种基于密度的混合多维属性数据处理方法，属于数据处理技术领域，将混合数据集进行分类，对其中的数值型数据进行原始标记后测量数值型数据的相似度，根据相似度对数值型数据进行初次分簇聚类。对数据集中的类别型数据进行权重计算得到权重，然后根据目标函数和权重将类别型数据划归至数值型数据的簇中形成新的簇，从而实现对混合多维属性数据的分簇聚类。与现有技术相比，本发明具有能有效处理混合属性的数据集，计算时间较现有的聚类算法大大缩短，在处理海量混合多维数据集时，聚类性能更强大，数据的聚类质量更高，能很好的满足能源领域、医疗领域、消费领域等众多领域内混合属性数据的聚类要求等优点。

Description

一种基于密度的混合多维属性数据处理方法

技术领域

本发明涉及一种数据处理技术，尤其是涉及一种基于密度的混合多维属性数据处理方法。

背景技术

所谓聚类，就是将物理或抽象对象的集合构成为由类似的对象组成多个类或簇的过程。由聚类所生成的簇是一组数据对象的集合，同一簇中的数据对象应尽可能相似，不同簇中的数据对象应尽可能相异。随着科技的发展、技术的进步，聚类算法如今在很多领域得到了广泛的应用，如医疗卫生领域、社交网络平台、商场、线上购物平台等。但是，在实际应用中，很多数据集除了包含数值属性外，还可能包含用于表示颜色、纹理、爱好、年龄等特征的类别属性。

目前的聚类算法大多只适用于处理单重属性的数据，如K-means算法、BRICH算法、DBSCAN算法等。改进的DBSCAN算法、MST算法等只适用于处理数值属性数据，而K-modes算法、COOLCAT算法只适用于处理类别属性数据。因此，目前的各种聚类算法不能有效的处理多维混合属性的数据，存在数据聚类质量不高的缺陷。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于密度的混合多维属性数据处理方法。

本发明的目的可以通过以下技术方案来实现：

一种基于密度的混合多维属性数据处理方法，包括以下步骤：

步骤S1：将待处理的多维混合数据集依靠数据类型的判断方法进行分类判定；

步骤S2：将待处理的多维混合数据中的数值型数据进行原始标记；

步骤S3：设立不同的圆数学模型判定条件辅助判断待处理的多维混合数据集中已标记的数值型数据的相似度；

步骤S4：根据已标记的数值型数据的相似度对数值型数据进行初次分簇聚类；

步骤S5：将步骤S1中待处理的多维混合数据中的类别型数据进行权重因子和权重值的计算；

步骤S6：利用目标函数和步骤S5的权重将类别型数据与步骤S4中的簇合并为新的簇，完成对于混合多维属性数据的分簇聚类数据处理。

进一步地，所述步骤S1中的数据类型的判断方法为：

若则多维混合数据集为数值优先型数据集；

若则多维混合数据集为类别优先型数据集；

排除以上两种情况，则多维混合数据集为均衡型混合数据集；

式中，δ为优先因子，f为类别型数据维数，s为数值型数据维数。

进一步地，所述步骤S2包括以下分步骤：

步骤S21：将将待处理的多维混合数据中的数值型数据进行归一化处理限定在特定数值范围内；

步骤S22：对特定数值范围内的数值型数据进行查询，并进行初步噪声点和核心点的标记。

进一步地，所述步骤3中的圆数学模型判定条件包括：针对数值优先型数据集圆数学模型判定条件、针对类别优先型数据集圆数学模型判定条件和针对均衡型混合数据集圆数学模型判定条件，所述针对数值优先型圆数学模型判定条件为：

当d(υ,ω)＞3ε，则两个核心点之间不存在连接关系；

当则两个核心点之间存在强连接关系；

当则两个核心点之间存在弱连接关系；

所述针对类别优先型数据集圆数学模型判定条件为：

当d(υ,ω)＞ε，则两个核心点之间不存在连接关系；

当则两个核心点之间存在强连接关系；

当则两个核心点之间存在弱连接关系；

所述针对均衡型混合数据集圆数学模型判定条件为：

当d(υ,ω)＞1.5ε，则两个核心点之间不存在连接关系；

当则两个核心点之间存在强连接关系；

当则两个核心点之间存在弱连接关系；

其中，d(υ,ω)表示为多维混合数据集中的任意两个点υ和ω的相似度，O(υ)和O(ω)表示为分别以点υ和点ω为圆心的圆，ε为以点υ和点ω为圆心的圆的半径，μ表示圆内的对象点个数。

进一步地，所述步骤5中的权重因子的计算公式为：

式中，γ为权重因子，为多维混合数据集中第i个任意类别型数据的第p维类别属性，为多维混合数据集中第j个任意类别型数据的第p维类别属性，i、j和p均为自然数；

所述权重值的计算公式为：

式中，Y为权重值，或1，表示为第p维类别型数据在簇l中的重要程度，γ^p表示为第p维权重因子。

进一步地，所述步骤6中的目标函数f(x_i,C_l)的具体公式为：

式中，C_l表示簇l，x_i表示多维混合数据集中的第i个数值型对象，表示第i个数值型对象在第j维的值，表示第i个数值型对象在第j维的数据于簇l中的平均值，表示第i个数值型对象在第j维的权重值。

进一步地，所述数据处理方法还包括步骤7：对所述初步噪声点再次进行范围查询处理。

与现有技术相比，本发明具有以下优点：

(1)本发明提供的聚类算法，先根据数值型数据和类别型数据的占比对数据集进行分类，根据数据集的特点计算数值型数据的相似度，根据相似度先对数值型数据进行分簇聚类，然后，对类别型数据进行权重计算得到权重，再根据目标函数和类别型数据的权重将类别型数据划归至数值型数据的簇中形成新的簇，从而实现混合多维属性数据的分簇聚类，本发明的聚类算法能有效处理混合属性的数据集，计算时间较现有的聚类算法大大缩短，在处理海量混合多维数据集时，聚类性能更强大，数据的聚类质量更高，能很好的满足能源领域、医疗领域、消费领域等众多领域的数据聚类要求。

(2)利用数值型数据的总维度和类别型数据的总维度根据公式合理确定混合数据集的种类，保证对数据集进行分类的合理性和准确性，以便提高对数据分簇聚类的准确性。

(3)通过范围查询确定初步噪声点和后续的对初步噪声点再次进行范围查询，判断初步噪声点是真正离群点还是边界点，通过两次范围查询，提高对数据判断的准确性，从而有利于提高数据的聚类精确度。

(4)通过计算距离实现测量数值型数据的相似度的目的，然后根据相似度判断两个核心点之间是否存在连接关系及连接关系的强弱，通过连接关系判断两个核心点附近邻域的数值型数据是否属于相同的簇或是否能通过边界点连接，提高数值型数据分簇聚类的合理性和便捷性。

(5)对类别型数据进行权重计算得到类别型数据的权重，将类别型数据的类别属性转换成数值属性，以便后续步骤可以根据转换后类别型数据的数值属性将类别型数据划归至数值型数据的簇内，从而实现混合属性数据的分簇聚类。

附图说明

图1为本发明实施例一数据处理方法的运行机制流程图；

图2为本发明实施例一数据处理方法的步骤3中state＝-1时进行查询的示意图；

图3为本发明实施例一数据处理方法中对类别型数据和数值型数据进行合并操作的示意图；

图4为本发明实施例一数据处理方法中对初步噪声点进行再次范围查询时的示意图；

图5为本发明实施例一中三种算法对三种数据集的聚类处理准确率柱状图；

图6为三种算法在三种数据集上执行时间的对比折线图，其中，图6(a)为三种算法在KDD CUP-99数据集的对比折线图，图6(b)为三种算法在Adult数据集的对比折线图，图6(c)为三种算法在Real-world数据集的对比折线图；

图7为三种算法在理论上的时间复杂度曲线图；

图8为本发明方法的整体流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

如图1所示，本发明实施例一提供的基于密度的混合多维属性数据的数据处理方法，包括以下步骤：

步骤1：将待处理的n维混合数据集D＝(Xa₁,Xa₂,…,Xa_s,Ya₁,Ya₂,…,Ya_f)根据s维数值型数据和f维类别型数据的占比进行分类，其中，f为类别型数据维数，s为数值型数据维数，(Xa₁,Xa₂,…,Xa_s,Ya₁,Ya₂,…,Ya_f)为数据集中全部数据，n为自然数；

步骤2：对n维混合数据集D中的数值型数据进行原始标记；

步骤3：测量步骤S2中标记后数值型数据的相似度；

步骤4：根据步骤S3中数值型数据的相似度对数值型数据进行初次分簇聚类；

步骤5：采用二进制编码方式对n维混合数据集D中的类别型数据进行权重计算，得到类别型数据的权重；

步骤6：根据目标函数和步骤S5中类别型数据的权重将类别型数据合并至步骤4中数值型数据的簇内形成新的簇，实现混合多维属性数据的分簇聚类。

下面对本实施例的聚类算法进行具体介绍，本实施例基于密度的混合多维属性数据的聚类算法具体包括以下步骤，

步骤1中的具体分类如下为：

若则多维混合数据集为数值优先型数据集；

若则多维混合数据集为类别优先型数据集；

步骤2中对n维混合数据集D中的数值型数据进行原始标记：先使不同数量级和不同单位的数值型数据经归一化处理后均在[0，1]范围内，然后进行范围查询；若范围查询在对象υ1上执行，则将该点标记为已处理；若范围查询未在对象υ1上执行，则将该点标记为未处理。对象υ1为数据集中的任意一点，范围查询即对以某个点为圆心、以一定距离为半径的圆内的点的特征标记。

范围查询处理的对象υ1的邻居数少于μ，则将该点标记为初步噪声点并存储在噪声列表中；若所述范围查询处理的对象υ1的邻居数多于μ，则将该点标记为核心点。

步骤3如图2所示，假设n维混合数据集D有两个核心存在任意两个点υ和ω，通过计算距离确定两个核心点之间的位置关系，实现测量数值型数据相似度的目的，形成圆数学模型判定条件；

(1)若n维混合数据集D为数值优先型数据集，相似度d采用欧式距离进行计算，形成针对数值优先型圆数学模型判定条件为：

当d(υ,ω)＞3ε，则两个核心点之间不存在连接关系；

当则两个核心点之间存在强连接关系；

当则两个核心点之间存在弱连接关系；

(2)若n维混合数据集D为类别优先型数据集，相似度d根据公式d＝|υ-ω|进行计算，形成针对类别优先型数据集圆数学模型判定条件为：

当d(υ,ω)＞ε，则两个核心点之间不存在连接关系；

当则两个核心点之间存在强连接关系；

当则两个核心点之间存在弱连接关系；

(3)若n维混合数据集D为均衡型混合数据集，相似度d根据公式d＝|υ|-|ω|进行计算，形成针对均衡型混合数据集圆数学模型判定条件为：

当d(υ,ω)＞1.5ε，则两个核心点之间不存在连接关系；

当则两个核心点之间存在强连接关系；

当则两个核心点之间存在弱连接关系；

以上圆数学模型判定条件中，d(υ,ω)表示为多维混合数据集中的任意两个点υ和ω的相似度，O(υ)和O(ω)表示为分别以点υ和点ω为圆心的圆，ε为以点υ和点ω为圆心的圆的半径，μ表示圆内的对象点个数。

步骤4：根据步骤3中两个核心点之间的连接关系对数值型数据进行初次分簇聚类；

若两个核心点之间存在强连接关系，则两个核心点附近邻域的数值型数据属于相同的簇；

若两个核心点之间不存在连接关系，则两个核心点附近邻域的数值型数据属于不同的簇；

若两个核心点之间存在弱连接关系，存在O(υ)∪O(ω)的边界点η，以η为圆心，以ε为半径的圆中有邻居数多于μ的情况下，υ与ω通过η相连接。

步骤5：采用二进制编码方式对n维混合数据集D中的类别型数据进行权重计算，得到类别型数据的权重值，先设置权重因子，公式如下；

权重因子的计算公式为：

因此进而将权重因子累计，得到权重值的计算公式为：

步骤6：据目标函数和步骤S5中类别型数据的权重将类别型数据合并至步骤4中数值型数据的簇内形成新的簇，实时改变簇的形状或中心点，并形成最终的簇，实现混合多维属性数据的分簇聚类，目标函数的具体公式f(x_i,C_l)为：

如图3所示，对上述目标函数取最小值，将类别型数据划归至离所述步骤S4中最近的数值型数据的簇内形成最终的簇。

本发明可以进一步添加步骤S7，如图4所示，对初步噪声点再次进行范围查询处理，若再次进行范围查询时初步噪声点的邻域范围内不存在未处理的核心点，则该初步噪声点为真正的离群点；若再次进行范围查询时初步噪声点的邻域范围内存在未处理的核心点，则该初步噪声点为边界点。

以上所述步骤1中，优先因子δ根据UCI标准数据集计算得到。

所述步骤2中，对数值型数据进行原始标记的目的是为了对不同的数值型数据赋予不同的特性，方便后续处理数值型数据之间的连接及相似度，不同的特性即体现了本实施例基于密度的聚类。进行范围查询则是在一个以任一数值型数据为圆心、以一定距离为半径的圆中查找其他数值型数据，在此圆中查找到的数值型数据即为已处理数据，在此圆中未被查找到的数值型数据即被标记为初步噪声点。

所述步骤3中，μ取4，ε取0.5。

所述步骤5中，对类别型数据进行权重计算得到类别型数据的权重，即将类别型数据的类别属性转换成数值属性，以便步骤6中可以根据转换后类别型数据的数值属性将类别型数据划归至数值型数据的簇内，从而实现混合属性数据的分簇聚类。

所述步骤7中，范围查询的具体步骤与步骤2中进行范围查询的具体步骤相同，根据数值型数据和类别型数据混合后形成的簇再对初步噪声点进行范围查询，判断初步噪声点是真正离群点还是边界点。通过两次范围查询，提高对数据判断的精确度。

为了证明本实施例所提供的数据处理方法对混合多维属性数据的聚类质量，本实施例还设计了以下实验，所有实验均采用相同的实验环境进行。本实施例中，所有实验均在安装有MATLAB R2012b的1.9GHz AMD CPU和8GB RAM的Windows 7操作系统下的PC端完成。

(1)选取三个具有混合多维属性的数据集，详见表1。

表1.三个不同类型的混合数据集的特性

数据集	数值型属性	类别型属性	大小	类型
					KDD CUP-99	32	9	10000	数值优先
Adult	6	8	48842	均衡型
					Real-world	3	7	3000	类别优先

其中，KDD CUP-99是计算机网络攻击入侵检测数据集，Adult是成年人收入数据集，Real-world是上海地区能源消耗和温室气体排放数据集。

(2)选取TWD-MD算法和Paired k-means算法与本实施例的数据处理方法进行对比，然后分别运用TWD-MD算法、Paired k-means算法和本实施例的数据处理方法对表1中的三种数据集进行处理。

(3)对处理的结果进行评价。

一方面，采用ACC的指标来评价准确率，ACC的计算公式为：

其中，a_i表示最终正确聚类的样本数量，k是簇的数量，na是数据集中样本的数量，ACC的值越高，代表聚类精度越高，算法的聚类效果越好。三种算法的准确率表格如图5所示，其中MMDBC表示本实施例的混合多维属性数据的聚类算法，根据图5可知，采用本实施例的聚类算法对混合数据集进行聚类处理能获得更高的ACC。

另一方面，用算法的执行时间作为另一评价标准，图6a、图6b、图6c反映了采用三种算法处理三种数据集时的聚类速度，从图6a、图6b、图6c可以看出，本实施例的聚类方法的聚类速度明显优于另两种算法。

侧面的，从三种算法的时间复杂度上进行评价，如图7所示，曲线①表示实施例聚类算法的时间复杂度，曲线②表示Paired k-means算法的时间复杂度，曲线③表示TWD-MD算法的时间复杂度。由图可知，本实施例聚类算法的时间复杂度是O(nlog₂n)，Paired k-means算法的时间复杂度是O(n³)，TWD-MD算法的时间复杂度是O(n²)。当n＞1时，O(nlog₂n)＜O(n²)＜O(n³)，因此，本实施例聚类算法明显优于另两种算法。

综上，本实施例的聚类算法能有效处理混合属性的数据集，计算时间较现有的聚类算法大大缩短，在处理海量混合多维数据集时，聚类性能更强大，数据的聚类质量更高，能很好的满足能源领域、医疗领域、消费领域等众多领域的数据聚类要求。

以上全部所述，综合概括可得如图8所示为本发明一种基于密度的混合多维属性数据处理方法的整体流程示意图，包括以下步骤：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于密度的混合多维属性数据处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种数据处理方法，其特征在于，所述步骤S1中的数据类型的判断方法为：

若则多维混合数据集为数值优先型数据集；

若则多维混合数据集为类别优先型数据集；

3.根据权利要求1所述的一种数据处理方法，其特征在于，所述步骤S2包括以下分步骤：

4.根据权利要求1所述的一种数据处理方法，其特征在于，所述步骤3中的圆数学模型判定条件包括：针对数值优先型数据集圆数学模型判定条件、针对类别优先型数据集圆数学模型判定条件和针对均衡型混合数据集圆数学模型判定条件，所述针对数值优先型圆数学模型判定条件为：

当d(υ,ω)＞3ε，则两个核心点之间不存在连接关系；

当则两个核心点之间存在强连接关系；

当则两个核心点之间存在弱连接关系；

所述针对类别优先型数据集圆数学模型判定条件为：

当d(υ,ω)＞ε，则两个核心点之间不存在连接关系；

当则两个核心点之间存在强连接关系；

当则两个核心点之间存在弱连接关系；

所述针对均衡型混合数据集圆数学模型判定条件为：

当d(υ,ω)＞1.5ε，则两个核心点之间不存在连接关系；

当则两个核心点之间存在强连接关系；

当则两个核心点之间存在弱连接关系；

5.根据权利要求1所述的一种数据处理方法，其特征在于，所述步骤5中的权重因子的计算公式为：

所述权重值的计算公式为：

6.根据权利要求1所述的一种数据处理方法，其特征在于，所述步骤6中的目标函数f(x_i,C_l)的具体公式为：

7.根据权利要求1所述的一种数据处理方法，其特征在于，所述数据处理方法还包括步骤7：对所述初步噪声点再次进行范围查询处理。