CN117574212A

CN117574212A - 一种基于数据中台的数据分类方法

Info

Publication number: CN117574212A
Application number: CN202410050910.4A
Authority: CN
Inventors: 田山; 张志龙; 孙小龙
Original assignee: Shandong Zaiqi Data Technology Co ltd
Current assignee: Shandong Zaiqi Data Technology Co ltd
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-02-20
Anticipated expiration: 2044-01-15
Also published as: CN117574212B

Abstract

本发明涉及数据分类技术领域，具体涉及一种基于数据中台的数据分类方法。该方法包括：基于k‑means算法对数据进行预处理；对预处理后的数据进行改进的k‑means算法做初步聚类处理，得到数据函数图像；根据数据函数图像判断初步聚类处理后的数据分布是否为球状类的簇，若是，依据每个簇对数据进行分类；若否，基于数据密度对数据进行分类。本发明能够解决因数据分类进行分类往往都集中于数据后台而导致在处理大规模、高维度的数据时，面临计算量大、准确率低、效率低的技术问题。

Description

一种基于数据中台的数据分类方法

技术领域

本发明涉及数据分类技术领域，具体涉及一种基于数据中台的数据分类方法。

背景技术

随着大数据时代的到来，企业面临着海量的数据挑战。如何有效地管理和利用这些数据，成为了企业发展的重要问题。数据中台作为解决这一问题的关键技术，受到了广泛的关注和应用。数据中台是一个集成了数据采集、处理、存储、计算、分析和可视化等功能的数据处理平台，为企业提供了一种高效、稳定、安全的数据管理方式。

现有技术中，对数据分类进行分类往往都集中于数据后台，这往往导致了数据后台的计算量大大增加，在处理大规模、高维度的数据时，可能会面临计算量大、准确率低等问题。

针对现有技术的不足，需要一种基于数据中台的数据分类方法，以提高数据分类的准确性和高效性。

发明内容

本发明的目的在于提供一种基于数据中台的数据分类方法：解决现有方案中因数据分类进行分类往往都集中于数据后台而导致在处理大规模、高维度的数据时，面临计算量大、准确率低、效率低的技术问题。

本发明的目的可以通过以下技术方案实现：

一种基于数据中台的数据分类方法，方法包括：

基于k-means算法对数据进行预处理；

对预处理后的数据进行改进的k-means算法做初步聚类处理，得到数据函数图像；

根据数据函数图像判断初步聚类处理后的数据分布是否为球状类的簇，若是，依据每个簇对数据进行分类；若否，基于数据密度对数据进行分类。

进一步地，基于k-means算法对数据进行预处理包括以下步骤：

基于交叉验证来预测不同k值对应的预处理效果，确定k值；

创建k个点作为质心；

计算每一个数据点与k个质心的距离；

将每一个数据点分配到距离质心最近的簇；

将簇中离簇对应的质心距离值超过预设阈值的数据点剔除，得到预处理后的数据。

进一步地，对预处理后的数据进行改进的k-means算法做初步聚类处理，得到数据函数图像包括以下步骤：

将预处理后的数据作为一个数据集；

根据数据集的大小、形状设置k值；

随机选取预处理后的数据中的一个数据点作为初始质心；

当初始质心的数量小于k时，设为预处理后的数据的数据集，/>为初始质心；其中，/>，/>；

基于目标函数计算数据集中每一个数据点距离已有的初始质心的距离D(x)；

将D(x)中最大值对应的数据点作为下一个初始质心；

依次得到k个初始质心，并基于k个初始质心对数据集进行聚类，得到数据函数图像。

进一步地，根据数据函数图像判断初步聚类处理后的数据分布是否为球状类的簇包括以下步骤：

以欧式距离标准计算SSE值，该计算SSE值的公式如下：

；

利用误差平方SSE和作为簇内样本相似性大小的代表；

若划分好的至少两个簇的误差平方和相近，初步聚类处理后的数据分布为球状类的簇；

若划分好的任意两个簇的误差平方和不相近，初步聚类处理后的数据分布不为球状类的簇。

进一步地，根据数据函数图像判断初步聚类处理后的数据分布是否为球状类的簇还包括以下步骤：

将初步聚类处理后的数据绘制成二维散点图，观察散点是否呈现出球状分布的形态；若散点大致分布在类似球形的区域内，则认为初步聚类处理后的数据分布是球状类的簇；

或者，使用紧凑性系数或形状因子球状性度量指标来评估初步聚类处理后的数据分布是否接近球状。

进一步地，依据每个簇对数据进行分类包括：划分数据间隔池，将每个簇作为一类划分到间隔池中。

进一步地，基于数据密度对数据进行分类包括：

步骤一：标记所有数据为未分类对象；

步骤二：随机选取一个未分类对象的数据密度；

步骤三：若的/>领域内至少有R个对象，则创建一个新的簇C；

设N是的/>领域内的集合，对于每个N内的每个数据点，若该数据点为未分类对象，则对该数据进行标记，若该数据点的/>领域内至少有R个对象，则把这些数据点加入N中；

若该数据点还不是任何簇的成员，则把该数据点加到簇C；

步骤四：保存C；

其中，表示定义密度的邻域半径，设聚类的邻域密度阈值为M。

相比于现有方案，本发明实现的有益效果：

本发明能够基于k-means算法对数据进行预处理；对预处理后的数据进行改进的k-means算法做初步聚类处理，得到数据函数图像；根据数据函数图像判断初步聚类处理后的数据分布是否为球状类的簇，若是，依据每个簇对数据进行分类；若否，基于数据密度对数据进行分类。通过两次聚类处理，能够提高数据分类的精确度。

另一方面，本发明方案基于数据中台对数据进行分类，减少数据后台的计算量，能够提高数据分类的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于数据中台的数据分类方法的流程图；

图2是本发明实施例的第二种基于数据中台的数据分类方法的流程图；

图3是本发明实施例的第三种基于数据中台的数据分类方法的流程图；

图4是本发明实施例的第四种基于数据中台的数据分类方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的示例实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、步骤等。在其它情况下，不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

本实施例提供了一种基于数据中台的数据分类方法，图1是本发明实施例的一种基于数据中台的数据分类方法的流程图，如图1所示，该方法包括以下步骤：

步骤S101：基于k-means算法对数据进行预处理。

步骤S102：对预处理后的数据进行改进的k-means算法做初步聚类处理，得到数据函数图像。

步骤S103：根据数据函数图像判断初步聚类处理后的数据分布是否为球状类的簇，若是，则进入步骤S104，若否，进入步骤S105。

步骤S104：依据每个簇对数据进行分类。

步骤S105：基于数据密度对数据进行分类。

综上，本发明能够基于k-means算法对数据进行预处理；对预处理后的数据进行改进的k-means算法做初步聚类处理，得到数据函数图像；根据数据函数图像判断初步聚类处理后的数据分布是否为球状类的簇，若是，依据每个簇对数据进行分类；若否，基于数据密度对数据进行分类。通过两次聚类处理，能够提高数据分类的精确度。

在一些实施例中，在步骤S101中，基于k-means算法对数据进行预处理包括以下步骤，图2是本发明实施例的第二种基于数据中台的数据分类方法的流程图，如图2所示，该方法包括：

步骤S201：基于交叉验证来预测不同k值对应的预处理效果，确定k值。

具体地，交叉验证是一种常用的评估机器学习模型性能的方法，也可以用于评估不同k值下的聚类效果。将原始数据集分成若干份，每次使用其中的一部分数据作为训练集，其余数据作为测试集，重复多次，并取平均结果作为最终评估指标。对于k-means算法，可以将数据集分成k份，每次选择其中的k-1份数据进行聚类，剩余的一份数据用于测试。在每次迭代中，计算测试数据的聚类准确率或轮廓系数等指标，最后将所有迭代的指标取平均值作为最终评估结果。

通过交叉验证，可以比较不同k值下的聚类效果，选择最优的k值。

步骤S202：创建k个点作为质心。

步骤S203：计算每一个数据点与k个质心的距离。

步骤S204：将每一个数据点分配到距离质心最近的簇。值得说明的是，簇是指将数据集中的样本划分成若干个块，每一块称为一个“簇”。k为簇的数量，means代表取每一个聚类中数据值的均值作为该簇的中心。在一个二维平面中，一簇数据点的质心的横坐标就是这一簇数据点的横坐标的均值，质心的纵坐标就是这一簇数据点的纵坐标的均值。同理可推广至高维空间。

步骤S205：将簇中离簇对应的质心距离值超过预设阈值的数据点剔除，得到预处理后的数据。

综上，基于k-means算法对数据进行预处理，能够预先剔除异常数据，便于后续对数据进行精确分类，另一方面，也可以选用bi-kmeans算法对数据进行预处理。

在一些实施例中，在步骤S102中，图3是本发明实施例的第三种基于数据中台的数据分类方法的流程图，如图3所示，对预处理后的数据进行改进的k-means算法做初步聚类处理，得到数据函数图像包括以下步骤：

步骤S301：将预处理后的数据作为一个数据集。

步骤S302：根据数据集的大小、形状设置k值。

具体地，可以根据数据集的大小、形状和目标来确定合适的k值。如果数据集较小或形状较为简单，可以选择较小的k值，优选为k为3；如果数据集较大或形状较为复杂，可以选择较大的k值，优选为5；同时，也可以通过交叉验证等技术来评估不同k值下的聚类效果，以确定最优的k值，在这里不在具体赘述。

步骤S303：随机选取预处理后的数据中的一个数据点作为初始质心。

步骤S304：基于目标函数计算数据集中每一个数据点距离已有的初始质心的距离D(x)。

步骤S305：将D(x)中最大值对应的数据点作为下一个初始质心。

步骤S306：依次得到k个初始质心，并基于k个初始质心对数据集进行聚类，得到数据函数图像。

综上，改进的k-means算法做初步聚类处理，得到数据函数图像，对数据先进行初步的分类，凸性数据通常表示为凸集，即对于集合内的每一对点，连接该对点的直线段上的每个点也在该集合内。这种数据结构在聚类算法中通常表现为数据点之间的距离关系是连续的，且在聚类过程中，数据点会自然地形成凸形状的簇。而环形数据则是一种特殊的数据结构，它允许越界访问，通过取余的方式得到一个数组中存在的下标。在聚类算法中，环形数据通常表现为数据点之间的距离关系是非连续的，且在聚类过程中，数据点会形成环形的簇。根据数据的特性基于数据函数图像能够对数据进行初步的分类。

进一步地，在步骤S103中，图4是本发明实施例的第四种基于数据中台的数据分类方法的流程图，如图4所示，根据数据函数图像判断初步聚类处理后的数据分布是否为球状类的簇包括以下步骤：

步骤S401：以欧式距离标准计算SSE值，该计算SSE值的公式如下：

；

步骤S402：利用误差平方和SSE作为簇内样本相似性大小的代表。

步骤S403：若划分好的至少两个簇的误差平方和相近，则初步聚类处理后的数据分布为球状类的簇。

步骤S404：若划分好的任意两个簇的误差平方和不相近，初步聚类处理后的数据分布不为球状类的簇。

值得说明的是，SSE值相近的判断：设定相邻区间，若任意两个簇的SSE值差值取绝对值后，落在相邻区间内，则表示这两个簇为相近，即表示初步聚类处理后的数据分布为球状类的簇，若不落在相邻区间内，则表示这两个簇为不相近，则初步聚类处理后的数据分布不为球状类的簇。

将初步聚类处理后的数据绘制成二维散点图，观察散点是否呈现出球状分布的形态；若散点分布在类似球形的区域内，则认为初步聚类处理后的数据分布是球状类的簇；

或者，使用紧凑性系数或形状因子球状性度量指标来评估初步聚类处理后的数据分布是否接近球状。具体地，紧凑性系数是一种用于衡量聚类紧密程度的指标，其值越接近于1，表示聚类越紧凑，形状越接近球状。计算紧凑性系数的公式为：L=(n * VAR(F))/(d *VAR(D))，其中n是聚类中的样本数，d是特征维度，VAR(F)是聚类内样本的方差，VAR(D)是聚类中心之间的距离方差。

形状因子也是一种评估聚类形状的指标，通过比较聚类形状与参考形状（如圆形、球形等）的相似度来评估聚类的质量。形状因子的值越接近于1，表示聚类形状越接近于参考形状。计算形状因子的公式取决于所选的参考形状，例如，对于球形参考形状，可以使用公式：shape_factor = (2)//>，其中radius是聚类半径，N是聚类中的样本数，x是样本点的坐标。

在一些实施例中，划分数据间隔池，将每个簇作为一类划分到间隔池中包括以下步骤：

确定数据特征：首先，确定用于划分的特征。这些特征可以是数值型、分类型或混合型，具体取决于数据集的特点和任务需求。

确定间隔或区间：根据特征的取值范围和数据的分布情况，确定合适的间隔或区间。这些间隔或区间应该能够覆盖数据的整个取值范围，并且能够反映数据的内在结构或分布模式。

划分数据到间隔池：根据确定的间隔或区间，将每个数据点划分到相应的间隔池中。如果特征是连续型数值，可以基于数据的密度或概率分布进行划分；如果特征是离散型分类，可以基于特征的取值进行划分。

评估和调整间隔池：评估划分的效果，检查是否有异常值、噪声点或不合理的簇划分。根据评估结果，可以对间隔池进行调整，例如合并或拆分间隔池、调整间隔的边界等。

应用模型或算法：使用划分后的数据集进行后续的分析或建模。根据具体任务，可以选择适合的算法或模型（如聚类算法、分类器等）对划分后的数据进行处理。

在一些实施例中，步骤一：标记所有数据为未分类对象；

步骤二：随机选取一个未分类对象的数据密度；

步骤三：若的/>领域内至少有R个对象，则创建一个新的簇C；

若该数据点还不是任何簇的成员，则把该数据点加到簇C；

步骤四：保存C；

进一步地，当数据密度不均匀的时候，如果设置了较小的值，则对高维度的数据进行簇的分类是很困难的，会导致维度灾难，可以选用OPTICS算法进行分类簇。

具体地，核心距离(core-distance)

对于样本x∈X,对于给定的和M,使得x成为核心点的最小邻域半径称为x的核心距离，其数学表达如下

；

其中，表示在集合/>中与节点x最近的节点，如果x为质点，则必然会有/>。

可达距离(reachability-distance)

设x,y∈X,对于给定的参数和M,y关于x的可达距离定义为

；

特别地，当x为为质点时，可以按照下式来理解的含义

；

即表示使得x为质点且y从x直接密度可达"同时成立的最小邻域半径。其中，/>表示未分类的数据,/>表示y属于x的定义密度的邻域半径范围。

通过OPTICS算法进行选取最小邻域半径，进而对数据进行簇的分类。

在一些实施例中，原始数据集中的样本可能会包含字符串类型的特征值，不可用于后续处理步骤；样本中不同维度特征的数据量级不一致，可能会导致降维算法偏离最优值；为此，本发明将数据样本中的字符串类型的特征转换为数值型特征，并对每个特征维度应用Z-Score标准化，使得不同维度的特征在数值上更具可比性，加快收敛速度，提高分类精度。对数据集进行预处理后，其字符串表示的特征被展开，形成高维稀疏特征，不利于某些非线性模型的训练，将会导致训练效率极低且易过拟合；为此，本发明对预处理后的数据集使用PCA算法进行降维处理，提取数据的主要特征分量，最大化保持数据内在信息，同时减少计算开销。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器 (ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

因此，本申请专利的保护范围应以所附权利要求为准。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于数据中台的数据分类方法，其特征在于，方法包括：

基于k-means算法对数据进行预处理；

2.根据权利要求1所述的基于数据中台的数据分类方法，其特征在于，基于k-means算法对数据进行预处理包括以下步骤：

基于交叉验证来预测不同k值对应的预处理效果，确定k值；

创建k个点作为质心；

计算每一个数据点与k个质心的距离；

将每一个数据点分配到距离质心最近的簇；

3.根据权利要求1所述的基于数据中台的数据分类方法，其特征在于，对预处理后的数据进行改进的k-means算法做初步聚类处理，得到数据函数图像包括以下步骤：

将预处理后的数据作为一个数据集；

根据数据集的大小、形状设置k值；

随机选取预处理后的数据中的一个数据点作为初始质心；

当初始质心的数量小于k时，设为预处理后的数据的数据集，/>为初始质心；其中，，/>；

将D(x)中最大值对应的数据点作为下一个初始质心；

4.根据权利要求3所述的基于数据中台的数据分类方法，其特征在于，根据数据函数图像判断初步聚类处理后的数据分布是否为球状类的簇包括以下步骤：

以欧式距离标准计算SSE值，该计算SSE值的公式如下：

；

利用误差平方和SSE作为簇内样本相似性大小的代表；

5.根据权利要求4所述的基于数据中台的数据分类方法，其特征在于，根据数据函数图像判断初步聚类处理后的数据分布是否为球状类的簇还包括以下步骤：

6.根据权利要求1所述的基于数据中台的数据分类方法，其特征在于，依据每个簇对数据进行分类包括：划分数据间隔池，将每个簇作为一类划分到间隔池中。

7.根据权利要求1所述的基于数据中台的数据分类方法，其特征在于，基于数据密度对数据进行分类包括：

步骤一：标记所有数据为未分类对象；

步骤二：随机选取一个未分类对象的数据密度；

步骤三：若的/>领域内至少有R个对象，则创建一个新的簇C；

若该数据点还不是任何簇的成员，则把该数据点加到簇C；

步骤四：保存C；