CN115292303A

CN115292303A - 数据处理方法及装置

Info

Publication number: CN115292303A
Application number: CN202211221664.1A
Authority: CN
Inventors: 韩国权; 吕灏; 祁纲; 黄海峰; 洒科进; 李响; 其他发明人请求不公开姓名
Original assignee: Taiji Computer Corp Ltd; CETC Big Data Research Institute Co Ltd
Current assignee: Taiji Computer Corp Ltd; CETC Big Data Research Institute Co Ltd
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2022-11-04

Abstract

本发明公开了一种数据处理方法及装置，该方法包括：对数据集中的数据进行聚类，得到各类簇；对各类簇进行离群检测处理，所述离群检测处理包括：如果所述类簇中数据点的总数小于设定阈值，则将所述类簇中的所有数据点放入离群点候选集中；否则，依次计算所述类簇中各数据点到类簇中心的距离，并将所述距离大于等于半径的数据点放入离群点候选集中；对所述离群点候选集进行剪枝处理，得到剪枝后的离群点候选集；对剪枝后的离群点候选集中的数据点进行离群处理，确定数据点是否为离群点。利用本发明方案，可以有效提升大数据的数据质量。

Description

数据处理方法及装置

技术领域

本发明涉及信息处理领域，具体涉及一种数据处理方法及装置。

背景技术

数据质量，是指在业务环境下，数据符合数据消费者的使用目的，能满足业务场景具体需求的程度。随着云时代的来临，大数据也吸引了越来越多的关注。大数据隐含着极大的价值，人们越来越希望从大量的数据中挖掘出有价值的信息供管理、决策和调控参考使用。目前对于大数据的数据挖掘、应用取得了极大的发展，它已经在众多领域得到了广泛的应用。一般情况下，数据处理中总是假设获取的数据是“干净”和一致的，但实际由于数据本身的集中度和其它固有的噪音，都会影响数据质量，而数据质量是影响后续大数据处理的主要基础，如何充分利用海量数据，提高数据质量，为决策支持系统提供正确的数据，实现从数据到信息、信息到知识的提炼，从而为企业的生产经营等做出正确决策提供服务，已经成为亟待解决的问题。

发明内容

本发明提供一种数据处理方法及装置，能够简单、有效地提升数据质量。

为此，本发明提供如下技术方案：

一种数据处理方法，所述方法包括：

对数据集中的数据进行聚类，得到各类簇；

对各类簇进行离群检测处理，所述离群检测处理包括：如果类簇中数据点的总数小于设定阈值，则将类簇中的所有数据点放入离群点候选集中；否则，依次计算类簇中各数据点到类簇中心的距离，并将距离大于等于半径的数据点放入离群点候选集中；

对所述离群点候选集进行剪枝处理，得到剪枝后的离群点候选集；

对剪枝后的离群点候选集中的数据点进行离群处理，确定数据点是否为离群点。

可选地，所述对数据集中的数据进行聚类，得到各类簇包括：

（1）在数据集中随机选取 k 个数据点作为初始质心，每个质心对应一个类簇；

（2）对数据集中的其余数据点，逐个计算数据点到每一个质心的距离，将距离最近的质心所对应的类簇作为数据点所属的类簇；

（3）计算类簇中数据点的均值，将均值作为新质心；

（4）重复执行步骤（2）和步骤（3），直至计算得到的质心不再变化，得到数据集对应的 k 个类簇。

可选地，计算类簇中各数据点到类簇中心的距离包括：计算类簇中各数据点到类簇中心的欧式距离或者马氏距离或者汉明距离。

可选地，所述方法还包括：在对各类簇进行离群检测处理之前，对类簇进行质量评估，丢弃不符合质量要求的类簇。

可选地，对类簇进行质量评估，丢弃不符合质量要求的类簇包括：

依次将类簇Ｃ作为一个无向图，两个点之间的边权作为原始特征空间的距离dis(x_i,x_j)，根据设定的距离函数计算无向图对应的最小生成树；

根据最小生成树上最大权值的边和类簇包含的数据点的个数记，确定类簇的质量；

根据各类簇的质量对类簇进行排序；

根据排序结果丢弃不符合质量要求的类簇。

可选地，所述对剪枝后的离群点候选集中的数据点进行离群处理包括：基于密度的LOF算法对剪枝后的离群点候选集中的数据点进行离群处理。

一种数据处理装置，所述装置包括：

聚类模块，用于对数据集中的数据进行聚类，得到各类簇；

离群检测模块，用于对各类簇进行离群检测处理，所述离群检测处理包括：如果类簇中数据点的总数小于设定阈值，则将类簇中的所有数据点放入离群点候选集中；否则，依次计算类簇中各数据点到类簇中心的距离，并将距离大于等于半径的数据点放入离群点候选集中；

剪枝处理模块，用于对所述离群点候选集进行剪枝处理，得到剪枝后的离群点候选集；

离群处理模块，用于对剪枝后的离群点候选集中的数据点进行离群处理，确定数据点是否为离群点。

可选地，所述聚类模块包括：

质心确定单元，用于在数据集中随机选取 k 个数据点作为初始质心，每个质心对应一个类簇；

计算单元，用于对数据集中的其余数据点，逐个计算数据点到每一个质心的距离，将距离最近的质心所对应的类簇作为数据点所属的类簇；计算类簇中数据点的均值；

质心确定单元，还用于将均值作为新质心；

所述计算单元，还用于根据新质心重新计算，直至计算得到的质心不再变化，得到数据集对应的 k 个类簇。

可选地，所述装置还包括：

质量评估模块，用于在所述离群检测模块对各类簇进行离群检测处理之前，对类簇进行质量评估，丢弃不符合质量要求的类簇。

可选地，所述离群处理模块，具体用于基于密度的LOF算法对离群点候选集中的数据点进行离群处理。

本发明提供的数据处理方法及装置，应用聚类算法对数据集中的数据进行聚类，得到各类簇，然后对各类簇进行离群检测处理，得到离群点候选集，并对离群点候选集进行剪枝处理，然后对剪枝后的离群点候选集中的数据进行离群处理，确定数据点是否为离群点。本发明方案不仅有效地提升了数据质量，而且提高了数据处理效率。

进一步地，在对各类簇进行离群检测处理之前，对所述类簇进行质量评估，丢弃不符合质量要求的类簇，大大减少了后续计算量。

附图说明

图1是本发明实施例数据处理方法的一种流程图；

图2是本发明实施例中对数据集中的数据进行聚类的流程图；

图3是本发明实施例数据处理方法的另一种流程图；

图4是本发明实施例数据处理装置的一种结构示意图；

图5是本发明实施例数据处理装置的另一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

参看下面的说明以及附图，本发明的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解，其中说明和附图形成了说明书的一部分。然而，可以清楚地理解，附图仅用作说明和描述的目的，并不意在限定本发明的保护范围。可以理解的是，附图并非按比例绘制。本发明中使用了多种结构图用来说明根据本发明的实施例的各种变形。

如图1所示，是本发明实施例数据处理方法的一种流程图。所述方法包括以下步骤：

步骤101，对数据集中的数据进行聚类，得到各类簇。

步骤102，对各类簇进行离群检测处理，所述离群检测处理包括：

如果所述类簇中数据点的总数小于设定阈值，则将所述类簇中的所有数据点放入离群点候选集中；

否则，依次计算所述类簇中各数据点到类簇中心的距离，并将所述距离大于等于半径R的数据点放入离群点候选集中。

在聚类过程中的类簇中心的定义如下：

（1）

聚类过程中的半径 R 定义为：

（2）

对于数据集中的各数据点，其到自己所属类簇中心的距离可以是但不限于以下任意一种：欧式距离、或者马氏距离、或者汉明距离等。比如采用欧式距离时，计算公式为：

（3）

上述各式中，变量 x_i表示类簇 i 中的具体数据；变量n_i表示类簇 i 中数据的总数；变量 p 表示数据的维度；变量x_ij表示类簇 i 中数据的第 j 维。

步骤103，对所述离群点候选集进行剪枝处理，得到剪枝后的离群点候选集。

比如，可以利用K-means聚类算法对待处理数据集作剪枝处理，因为剪枝后得到离群点候选集相对于原数据集来说体量会小很多，因此可以大大降低后续离群处理的时间复杂度。

步骤104，对剪枝后的离群点候选集中的数据点进行离群处理，确定数据点是否为离群点。

比如，可以利用LOF算法对所述离群点候选集中的数据点进行离群处理。

图2示出了本发明实施例中对数据集中的数据进行聚类的流程图，包括以下步骤：

步骤201，在数据集中随机选取 k 个数据点作为初始质心，每个质心对应一个类簇。

步骤202，对所述数据集中的其余数据点，逐个计算所述数据点到每一个质心的距离，将距离最近的质心所对应的类簇作为所述数据点所属的类簇。

步骤203，计算所述类簇中数据点的均值。

步骤204，将所述均值作为新质心。

步骤205，判断所述新质心与原质心是否相同。如果不同，则返回步骤202；否则，执行步骤206。

步骤206，得到所述数据集对应的 k 个类簇。

通常，越紧密的类簇有着越高的类簇质量，但是，存在A类簇的点对的平均距离会小于B类簇的点对平均距离，结果是错误地判断A稀疏类簇质量高于B紧密类簇。实验中发现发生错误判断的原因是计算规模较大类簇中点对的平均距离时会考虑所有点对，当类簇中增加一个点时，会计算该点与类簇中其他所有点的平均距离，计算结果很大，从而导致评价结果与实际结果产生偏差。

为此，在本发明方法另一非限制性实施例中，可以在对各类簇进行离群检测处理之前，对所述类簇进行质量评估，丢弃不符合质量要求的类簇。也就是说，对聚类得到的各类簇先通过质量评估筛选掉一些质量较低的类簇，以便更好地保证数据质量，并减少后续计算的工作量。图3示出了相应的流程图，包括以下步骤：

步骤301，对数据集中的数据进行聚类，得到各类簇。

步骤302，对所述类簇进行质量评估，丢弃不符合质量要求的类簇。对所述类簇进行质量评估的过程如下：

步骤1，将类簇Ｃ作为一个无向图，两个点之间的边权是原始特征空间的距离dis(x_i, x_j)，确定距离函数（比如选择欧氏距离），求出该图对应的最小生成树，记作T_mst。

步骤2，选择最小生成树上最大权值的边，记作e_m。

步骤3，该类簇包含的点的个数记作k_n，则类簇Ｃ的质量q_c为：

（4）

上述公式计算得到的值越大，则类簇质量越高。引入类簇质量度量方法考虑了点之间的距离，还考虑了类簇的点个数，同时为避免所有边都参与到平均距离的计算，先计算一个最小生成树，再求树上的平均距离。平均距离越小，类簇质量越高，类簇所包含点个数越多，类簇质量越好。

在确定所有类簇的质量之后，对所有类簇按照类簇质量从高到低排序，依次选择类簇，直到所有的数据点被覆盖为止。

根据排序结果丢弃不符合质量要求的类簇，比如丢弃排序在最后一定数量的类簇，或者根据设定的质量阈值，丢弃计算得到的质量小于该质量阈值的类簇。

示例性地，对聚类得到的各类簇进行数据筛选，包括对类簇做分裂簇处理，具体过程如下：

步骤1，将类簇Ｃ当做是一个无向图，两个点之间的边权是原始特征空间的距离dis(x_i, x_j)，这里我们采用欧氏距离作为距离函数，求出该图对应的最小生成树，记作T_mst。

步骤2，将最小生成树T_mst上的边按照边权大小升序排序，假设T_mst升序排序后的边集为E＝(e₁,e₂,...e_kn-1)，这里k_n是该类簇所包含的点个数，且T_mst上的边数为k_n-１。然后计算Ｅ中两个相邻边的差值变化比例值。最大的差值变化比例值记作r_e，对应的边记为e_max。则：

（5）

（6）

步骤3，计算最小生成树T_mst上边的平均距离，记为e_avg，然后计算e_max与e_avg的差值变化比例，记为r_avg，即：

（7）

（8）

获得该分裂指数为：

（9）

其中，类簇Ｃ对应图的最小生成树上的边。这样计算的分裂指数考虑了类簇Ｃ对应图的最小生成树上排序边的最大差值变化比例，由于边是按照升序排序的，故e_i一定大于e_i-1即这里的r_e一定是个正数值，也即满足r_e＞0。此外，类簇分裂指数还考虑了取得最大差值变化比例值时对应的边e_max；C与整个最小生成树的平均边大小的差值比例。预先设置的分裂阈值ｓ具有很好的区分能力，能够有效地区分哪个范围的分裂指数所代表的类簇更需要被执行分裂操作，在这里期望r_e与r_avg都有较大的值，设置r_e和r_avg大于1。可选的，在完成计算类簇的分裂指数后，根据分裂指数与阈值的大小关系来判断是否需要进行分裂操作。

进一步包括，可以设置类簇内的最小点数为5。

在实际实验中，还可考虑类簇的大小，若一个类簇本身包含的点数已经很少，即使分裂，分裂操作的意义不大，那么也就没有必要再进行分裂，因此还设置了类簇的最小点数，通常类簇的最小点数取值范围建议大于等于5的值。

步骤303，对各类簇进行离群检测处理，得到离群点候选集。

步骤304，对所述离群点候选集进行剪枝处理，得到剪枝后的离群点候选集。

步骤305，对剪枝后的离群点候选集中的数据点进行离群处理，确定数据点是否为离群点。

在实际应用中，具体可以采用基于密度的LOF算法对所述离群点候选集中的数据点进行离群处理，下面对此进行详细说明。

LOF算法是基于密度方法中非常典型的一个算法，首先计算每个数据的局部离群因子LOF值，并利用LOF值的大小来权衡判断一个数据的离群程度，进而分析它是否为离群点。局部离群因子是每个数据周围邻域平均局部密度与其本身局部密度的比值。计算出来的局部离群因子较大则说明数据点的局部密度远小于其周围邻域的平均局部密度，也就说明该数据点很大程度上是一个离群点。

所述LOF算法具体可为：

定义如下参数：所述响应时间数据中的每个点p，

d(p,q)：点p和q之间的距离；

dk(p)：点p的第k距离，即距离点p第k远的点的距离，dk(p)＝d(p,q)，并且满足以下条件：

(1)在集合中至少有不包括p在内的k个点q′，满足d(p,q′)≤d(p,q)；

(2)在集合中至多有不包括p在内的k-1个点q′，满足d(p,q′)<d(p,q)；

Nk(p)：点p的第k距离邻域，即是点p的第k距离以内的所有点；

|Nk(p)|：点p的第k距离邻域点的个数；

reah-distk(p,q)＝max{dk(p),d(p,q)}：点q到p的第k可达距离；

lrd_k(p)为点p的局部可达密度，即点p的第k邻域内点到p的平均可达距离的倒数，由以下公式计算得到：

（10）

LOF_k(p)记为点p的局部离群因子，即点p的第k距离邻域点的局部可达密度与点p的局部可达密度之比的平均数，由以下公式计算得到：

（11）

利用LOF算法对离群点候选集中的疑似离群点做进一步的离群检测，从而得到最终的离群点数据集。

相应地，本发明实施例还提供一种数据处理装置，如图4所示，是所述数据处理装置的一种结构示意图。

该实施例中，所述数据处理装置400包括以下各模块：

聚类模块401，用于对数据集中的数据进行聚类，得到各类簇；

离群检测模块402，用于对各类簇进行离群检测处理，所述离群检测处理包括：如果所述类簇中数据点的总数小于设定阈值，则将所述类簇中的所有数据点放入离群点候选集中；否则，依次计算所述类簇中各数据点到类簇中心的距离，并将所述距离大于等于半径的数据点放入离群点候选集中；

剪枝处理模块403，用于对所述离群点候选集进行剪枝处理，得到剪枝后的离群点候选集；

离群处理模块404，用于对剪枝后的离群点候选集中的数据点进行离群处理，确定数据点是否为离群点。

所述聚类模块401的一种具体结构可以包括以下各单元：

质心确定单元，用于在所述数据集中随机选取 k 个数据点作为初始质心，每个质心对应一个类簇；

计算单元，用于对所述数据集中的其余数据点，逐个计算所述数据点到每一个质心的距离，将距离最近的质心所对应的类簇作为所述数据点所属的类簇；计算所述类簇中数据点的均值；

所述质心确定单元，还用于将所述均值作为新质心；

所述计算单元，还用于根据所述新质心重新计算，直至计算得到的质心不再变化，得到所述数据集对应的 k 个类簇。

参照图5，是本发明实施例数据处理装置的另一种结构示意图。

与图4所示实施例的区别在于，在该实施例中，所述数据处理装置400还包括：质量评估模块405，用于在所述离群检测模块402对各类簇进行离群检测处理之前，对所述类簇进行质量评估，丢弃不符合质量要求的类簇。

所述质量评估模块405对各类簇进行质量评估的具体实现方式可参照前面本发明方法实施例中的描述，在此不再赘述。

上述各实施例中的模块及单元的具体实现方式可参考前面本发明方法实施例中的描述，在此不再赘述。

需要说明的是，上面所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本文中的“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

需要说明的是，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能或作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。例如，第一信息和第二信息是用于区别不同的信息，而不是用于描述信息的特定顺序。

需要说明的是，本发明实施例中，“示例性的”或者“例如”等词用于表示例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）、随机存储记忆体（RandomAccessMemory，RAM）、快闪存储器（Flash Memory）、硬盘（Hard Disk Drive，缩写：HDD）或固态硬盘（Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组（例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互）的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

对数据集中的数据进行聚类，得到各类簇；

2.如权利要求1所述的方法，其特征在于，对数据集中的数据进行聚类，得到各类簇包括：

（3）计算类簇中数据点的均值，将均值作为新质心；

（4）重复执行步骤（2）和步骤（3），直至计算得到的质心不再变化，得到数据集对应的 k个类簇。

3.如权利要求1所述的方法，其特征在于，计算类簇中各数据点到类簇中心的距离包括：

计算类簇中各数据点到类簇中心的欧式距离或者马氏距离或者汉明距离。

4.如权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

在对各类簇进行离群检测处理之前，对类簇进行质量评估，丢弃不符合质量要求的类簇。

5.如权利要求4所述的方法，其特征在于，对类簇进行质量评估，丢弃不符合质量要求的类簇包括：

依次将类簇作为一个无向图，两个点之间的边权作为原始特征空间的距离dis(x_i,x_j)，根据设定的距离函数计算无向图对应的最小生成树；

根据各类簇的质量对类簇进行排序；

根据排序结果丢弃不符合质量要求的类簇。

6.如权利要求1所述的方法，其特征在于，所述对剪枝后的离群点候选集中的数据点进行离群处理包括：

基于密度的LOF算法对剪枝后的离群点候选集中的数据点进行离群处理。

7.一种数据处理装置，其特征在于，所述装置包括：

聚类模块，用于对数据集中的数据进行聚类，得到各类簇；

8.如权利要求7所述的装置，其特征在于，所述聚类模块包括：

质心确定单元，还用于将均值作为新质心；

计算单元，还用于根据所述新质心重新计算，直至计算得到的质心不再变化，得到数据集对应的 k 个类簇。

9.如权利要求7或8所述的装置，其特征在于，所述装置还包括：

质量评估模块，用于在离群检测模块对各类簇进行离群检测处理之前，对类簇进行质量评估，丢弃不符合质量要求的类簇。

10.如权利要求7所述的装置，其特征在于，

所述离群处理模块，具体用于基于密度的LOF算法对所述离群点候选集中的数据点进行离群处理。