CN115292303A - 数据处理方法及装置 - Google Patents
数据处理方法及装置 Download PDFInfo
- Publication number
- CN115292303A CN115292303A CN202211221664.1A CN202211221664A CN115292303A CN 115292303 A CN115292303 A CN 115292303A CN 202211221664 A CN202211221664 A CN 202211221664A CN 115292303 A CN115292303 A CN 115292303A
- Authority
- CN
- China
- Prior art keywords
- data
- cluster
- outlier
- clusters
- data points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000013450 outlier detection Methods 0.000 claims abstract description 28
- 238000013138 pruning Methods 0.000 claims abstract description 11
- 238000013441 quality evaluation Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 4
- 238000001303 quality assessment method Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000015654 memory Effects 0.000 description 4
- 230000001174 ascending effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理方法及装置,该方法包括:对数据集中的数据进行聚类,得到各类簇;对各类簇进行离群检测处理,所述离群检测处理包括:如果所述类簇中数据点的总数小于设定阈值,则将所述类簇中的所有数据点放入离群点候选集中;否则,依次计算所述类簇中各数据点到类簇中心的距离,并将所述距离大于等于半径的数据点放入离群点候选集中;对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集;对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。利用本发明方案,可以有效提升大数据的数据质量。
Description
技术领域
本发明涉及信息处理领域,具体涉及一种数据处理方法及装置。
背景技术
数据质量,是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。随着云时代的来临,大数据也吸引了越来越多的关注。大数据隐含着极大的价值,人们越来越希望从大量的数据中挖掘出有价值的信息供管理、决策和调控参考使用。目前对于大数据的数据挖掘、应用取得了极大的发展,它已经在众多领域得到了广泛的应用。一般情况下,数据处理中总是假设获取的数据是“干净”和一致的,但实际由于数据本身的集中度和其它固有的噪音,都会影响数据质量,而数据质量是影响后续大数据处理的主要基础,如何充分利用海量数据,提高数据质量,为决策支持系统提供正确的数据,实现从数据到信息、信息到知识的提炼,从而为企业的生产经营等做出正确决策提供服务,已经成为亟待解决的问题。
发明内容
本发明提供一种数据处理方法及装置,能够简单、有效地提升数据质量。
为此,本发明提供如下技术方案:
一种数据处理方法,所述方法包括:
对数据集中的数据进行聚类,得到各类簇;
对各类簇进行离群检测处理,所述离群检测处理包括:如果类簇中数据点的总数小于设定阈值,则将类簇中的所有数据点放入离群点候选集中;否则,依次计算类簇中各数据点到类簇中心的距离,并将距离大于等于半径的数据点放入离群点候选集中;
对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集;
对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。
可选地,所述对数据集中的数据进行聚类,得到各类簇包括:
(1)在数据集中随机选取 k 个数据点作为初始质心,每个质心对应一个类簇;
(2)对数据集中的其余数据点,逐个计算数据点到每一个质心的距离,将距离最近的质心所对应的类簇作为数据点所属的类簇;
(3)计算类簇中数据点的均值,将均值作为新质心;
(4)重复执行步骤(2)和步骤(3),直至计算得到的质心不再变化,得到数据集对应的 k 个类簇。
可选地,计算类簇中各数据点到类簇中心的距离包括:计算类簇中各数据点到类簇中心的欧式距离或者马氏距离或者汉明距离。
可选地,所述方法还包括:在对各类簇进行离群检测处理之前,对类簇进行质量评估,丢弃不符合质量要求的类簇。
可选地,对类簇进行质量评估,丢弃不符合质量要求的类簇包括:
依次将类簇C作为一个无向图,两个点之间的边权作为原始特征空间的距离dis(xi, xj),根据设定的距离函数计算无向图对应的最小生成树;
根据最小生成树上最大权值的边和类簇包含的数据点的个数记,确定类簇的质量;
根据各类簇的质量对类簇进行排序;
根据排序结果丢弃不符合质量要求的类簇。
可选地,所述对剪枝后的离群点候选集中的数据点进行离群处理包括:基于密度的LOF算法对剪枝后的离群点候选集中的数据点进行离群处理。
一种数据处理装置,所述装置包括:
聚类模块,用于对数据集中的数据进行聚类,得到各类簇;
离群检测模块,用于对各类簇进行离群检测处理,所述离群检测处理包括:如果类簇中数据点的总数小于设定阈值,则将类簇中的所有数据点放入离群点候选集中;否则,依次计算类簇中各数据点到类簇中心的距离,并将距离大于等于半径的数据点放入离群点候选集中;
剪枝处理模块,用于对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集;
离群处理模块,用于对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。
可选地,所述聚类模块包括:
质心确定单元,用于在数据集中随机选取 k 个数据点作为初始质心,每个质心对应一个类簇;
计算单元,用于对数据集中的其余数据点,逐个计算数据点到每一个质心的距离,将距离最近的质心所对应的类簇作为数据点所属的类簇;计算类簇中数据点的均值;
质心确定单元,还用于将均值作为新质心;
所述计算单元,还用于根据新质心重新计算,直至计算得到的质心不再变化,得到数据集对应的 k 个类簇。
可选地,所述装置还包括:
质量评估模块,用于在所述离群检测模块对各类簇进行离群检测处理之前,对类簇进行质量评估,丢弃不符合质量要求的类簇。
可选地,所述离群处理模块,具体用于基于密度的LOF算法对离群点候选集中的数据点进行离群处理。
本发明提供的数据处理方法及装置,应用聚类算法对数据集中的数据进行聚类,得到各类簇,然后对各类簇进行离群检测处理,得到离群点候选集,并对离群点候选集进行剪枝处理,然后对剪枝后的离群点候选集中的数据进行离群处理,确定数据点是否为离群点。本发明方案不仅有效地提升了数据质量,而且提高了数据处理效率。
进一步地,在对各类簇进行离群检测处理之前,对所述类簇进行质量评估,丢弃不符合质量要求的类簇,大大减少了后续计算量。
附图说明
图1是本发明实施例数据处理方法的一种流程图;
图2是本发明实施例中对数据集中的数据进行聚类的流程图;
图3是本发明实施例数据处理方法的另一种流程图;
图4是本发明实施例数据处理装置的一种结构示意图;
图5是本发明实施例数据处理装置的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
参看下面的说明以及附图,本发明的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本发明的保护范围。可以理解的是,附图并非按比例绘制。本发明中使用了多种结构图用来说明根据本发明的实施例的各种变形。
如图1所示,是本发明实施例数据处理方法的一种流程图。所述方法包括以下步骤:
步骤101,对数据集中的数据进行聚类,得到各类簇。
步骤102,对各类簇进行离群检测处理,所述离群检测处理包括:
如果所述类簇中数据点的总数小于设定阈值,则将所述类簇中的所有数据点放入离群点候选集中;
否则,依次计算所述类簇中各数据点到类簇中心的距离,并将所述距离大于等于半径R的数据点放入离群点候选集中。
在聚类过程中的类簇中心的定义如下:
聚类过程中的半径 R 定义为:
对于数据集中的各数据点,其到自己所属类簇中心的距离可以是但不限于以下任意一种:欧式距离、或者马氏距离、或者汉明距离等。比如采用欧式距离时,计算公式为:
上述各式中,变量 xi表示类簇 i 中的具体数据;变量ni表示类簇 i 中数据的总数;变量 p 表示数据的维度;变量xij表示类簇 i 中数据的第 j 维。
步骤103,对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集。
比如,可以利用K-means聚类算法对待处理数据集作剪枝处理,因为剪枝后得到离群点候选集相对于原数据集来说体量会小很多,因此可以大大降低后续离群处理的时间复杂度。
步骤104,对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。
比如,可以利用LOF算法对所述离群点候选集中的数据点进行离群处理。
图2示出了本发明实施例中对数据集中的数据进行聚类的流程图,包括以下步骤:
步骤201,在数据集中随机选取 k 个数据点作为初始质心,每个质心对应一个类簇。
步骤202,对所述数据集中的其余数据点,逐个计算所述数据点到每一个质心的距离,将距离最近的质心所对应的类簇作为所述数据点所属的类簇。
步骤203,计算所述类簇中数据点的均值。
步骤204,将所述均值作为新质心。
步骤205,判断所述新质心与原质心是否相同。如果不同,则返回步骤202;否则,执行步骤206。
步骤206,得到所述数据集对应的 k 个类簇。
通常,越紧密的类簇有着越高的类簇质量,但是,存在A类簇的点对的平均距离会小于B类簇的点对平均距离,结果是错误地判断A稀疏类簇质量高于B紧密类簇。实验中发现发生错误判断的原因是计算规模较大类簇中点对的平均距离时会考虑所有点对,当类簇中增加一个点时,会计算该点与类簇中其他所有点的平均距离,计算结果很大,从而导致评价结果与实际结果产生偏差。
为此,在本发明方法另一非限制性实施例中,可以在对各类簇进行离群检测处理之前,对所述类簇进行质量评估,丢弃不符合质量要求的类簇。也就是说,对聚类得到的各类簇先通过质量评估筛选掉一些质量较低的类簇,以便更好地保证数据质量,并减少后续计算的工作量。图3示出了相应的流程图,包括以下步骤:
步骤301,对数据集中的数据进行聚类,得到各类簇。
步骤302,对所述类簇进行质量评估,丢弃不符合质量要求的类簇。对所述类簇进行质量评估的过程如下:
步骤1,将类簇C作为一个无向图,两个点之间的边权是原始特征空间的距离dis(xi, xj),确定距离函数(比如选择欧氏距离),求出该图对应的最小生成树,记作Tmst。
步骤2,选择最小生成树上最大权值的边,记作em。
步骤3,该类簇包含的点的个数记作kn,则类簇C的质量qc为:
上述公式计算得到的值越大,则类簇质量越高。引入类簇质量度量方法考虑了点之间的距离,还考虑了类簇的点个数,同时为避免所有边都参与到平均距离的计算,先计算一个最小生成树,再求树上的平均距离。平均距离越小,类簇质量越高,类簇所包含点个数越多,类簇质量越好。
在确定所有类簇的质量之后,对所有类簇按照类簇质量从高到低排序,依次选择类簇,直到所有的数据点被覆盖为止。
根据排序结果丢弃不符合质量要求的类簇,比如丢弃排序在最后一定数量的类簇,或者根据设定的质量阈值,丢弃计算得到的质量小于该质量阈值的类簇。
示例性地,对聚类得到的各类簇进行数据筛选,包括对类簇做分裂簇处理,具体过程如下:
步骤1,将类簇C当做是一个无向图,两个点之间的边权是原始特征空间的距离dis(xi, xj),这里我们采用欧氏距离作为距离函数,求出该图对应的最小生成树,记作Tmst。
步骤2,将最小生成树Tmst上的边按照边权大小升序排序,假设Tmst升序排序后的边集为E=(e1,e2,...ekn-1),这里kn是该类簇所包含的点个数,且Tmst上的边数为kn-1。然后计算E中两个相邻边的差值变化比例值。最大的差值变化比例值记作re,对应的边记为emax。则:
步骤3,计算最小生成树Tmst上边的平均距离,记为eavg,然后计算emax与eavg的差值变化比例,记为ravg,即:
其中,类簇C对应图的最小生成树上的边。这样计算的分裂指数考虑了类簇C对应图的最小生成树上排序边的最大差值变化比例,由于边是按照升序排序的,故ei一定大于ei-1即这里的re一定是个正数值,也即满足re>0。此外,类簇分裂指数还考虑了取得最大差值变化比例值时对应的边emax;C与整个最小生成树的平均边大小的差值比例。预先设置的分裂阈值s具有很好的区分能力,能够有效地区分哪个范围的分裂指数所代表的类簇更需要被执行分裂操作,在这里期望re与ravg都有较大的值,设置re和ravg大于1。可选的,在完成计算类簇的分裂指数后,根据分裂指数与阈值的大小关系来判断是否需要进行分裂操作。
进一步包括,可以设置类簇内的最小点数为5。
在实际实验中,还可考虑类簇的大小,若一个类簇本身包含的点数已经很少,即使分裂,分裂操作的意义不大,那么也就没有必要再进行分裂,因此还设置了类簇的最小点数,通常类簇的最小点数取值范围建议大于等于5的值。
步骤303,对各类簇进行离群检测处理,得到离群点候选集。
步骤304,对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集。
步骤305,对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。
在实际应用中,具体可以采用基于密度的LOF算法对所述离群点候选集中的数据点进行离群处理,下面对此进行详细说明。
LOF算法是基于密度方法中非常典型的一个算法,首先计算每个数据的局部离群因子LOF值,并利用LOF值的大小来权衡判断一个数据的离群程度,进而分析它是否为离群点。局部离群因子是每个数据周围邻域平均局部密度与其本身局部密度的比值。计算出来的局部离群因子较大则说明数据点的局部密度远小于其周围邻域的平均局部密度,也就说明该数据点很大程度上是一个离群点。
所述LOF算法具体可为:
定义如下参数:所述响应时间数据中的每个点p,
d(p,q):点p和q之间的距离;
dk(p):点p的第k距离,即距离点p第k远的点的距离,dk(p)=d(p,q),并且满足以下条件:
(1)在集合中至少有不包括p在内的k个点q′,满足d(p,q′)≤d(p,q);
(2)在集合中至多有不包括p在内的k-1个点q′,满足d(p,q′)<d(p,q);
Nk(p):点p的第k距离邻域,即是点p的第k距离以内的所有点;
|Nk(p)|:点p的第k距离邻域点的个数;
reah-distk(p,q)=max{dk(p),d(p,q)}:点q到p的第k可达距离;
lrdk(p)为点p的局部可达密度,即点p的第k邻域内点到p的平均可达距离的倒数,由以下公式计算得到:
LOFk(p)记为点p的局部离群因子,即点p的第k距离邻域点的局部可达密度与点p的局部可达密度之比的平均数,由以下公式计算得到:
利用LOF算法对离群点候选集中的疑似离群点做进一步的离群检测,从而得到最终的离群点数据集。
相应地,本发明实施例还提供一种数据处理装置,如图4所示,是所述数据处理装置的一种结构示意图。
该实施例中,所述数据处理装置400包括以下各模块:
聚类模块401,用于对数据集中的数据进行聚类,得到各类簇;
离群检测模块402,用于对各类簇进行离群检测处理,所述离群检测处理包括:如果所述类簇中数据点的总数小于设定阈值,则将所述类簇中的所有数据点放入离群点候选集中;否则,依次计算所述类簇中各数据点到类簇中心的距离,并将所述距离大于等于半径的数据点放入离群点候选集中;
剪枝处理模块403,用于对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集;
离群处理模块404,用于对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。
所述聚类模块401的一种具体结构可以包括以下各单元:
质心确定单元,用于在所述数据集中随机选取 k 个数据点作为初始质心,每个质心对应一个类簇;
计算单元,用于对所述数据集中的其余数据点,逐个计算所述数据点到每一个质心的距离,将距离最近的质心所对应的类簇作为所述数据点所属的类簇;计算所述类簇中数据点的均值;
所述质心确定单元,还用于将所述均值作为新质心;
所述计算单元,还用于根据所述新质心重新计算,直至计算得到的质心不再变化,得到所述数据集对应的 k 个类簇。
参照图5,是本发明实施例数据处理装置的另一种结构示意图。
与图4所示实施例的区别在于,在该实施例中,所述数据处理装置400还包括:质量评估模块405,用于在所述离群检测模块402对各类簇进行离群检测处理之前,对所述类簇进行质量评估,丢弃不符合质量要求的类簇。
所述质量评估模块405对各类簇进行质量评估的具体实现方式可参照前面本发明方法实施例中的描述,在此不再赘述。
上述各实施例中的模块及单元的具体实现方式可参考前面本发明方法实施例中的描述,在此不再赘述。
本发明提供的数据处理方法及装置,应用聚类算法对数据集中的数据进行聚类,得到各类簇,然后对各类簇进行离群检测处理,得到离群点候选集,并对离群点候选集进行剪枝处理,然后对剪枝后的离群点候选集中的数据进行离群处理,确定数据点是否为离群点。本发明方案不仅有效地提升了数据质量,而且提高了数据处理效率。
进一步地,在对各类簇进行离群检测处理之前,对所述类簇进行质量评估,丢弃不符合质量要求的类簇,大大减少了后续计算量。
需要说明的是,上面所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本文中的“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
需要说明的是,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能或作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。例如,第一信息和第二信息是用于区别不同的信息,而不是用于描述信息的特定顺序。
需要说明的是,本发明实施例中,“示例性的”或者“例如”等词用于表示例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
对数据集中的数据进行聚类,得到各类簇;
对各类簇进行离群检测处理,所述离群检测处理包括:如果类簇中数据点的总数小于设定阈值,则将类簇中的所有数据点放入离群点候选集中;否则,依次计算类簇中各数据点到类簇中心的距离,并将距离大于等于半径的数据点放入离群点候选集中;
对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集;
对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。
2.如权利要求1所述的方法,其特征在于,对数据集中的数据进行聚类,得到各类簇包括:
(1)在数据集中随机选取 k 个数据点作为初始质心,每个质心对应一个类簇;
(2)对数据集中的其余数据点,逐个计算数据点到每一个质心的距离,将距离最近的质心所对应的类簇作为数据点所属的类簇;
(3)计算类簇中数据点的均值,将均值作为新质心;
(4)重复执行步骤(2)和步骤(3),直至计算得到的质心不再变化,得到数据集对应的 k个类簇。
3.如权利要求1所述的方法,其特征在于,计算类簇中各数据点到类簇中心的距离包括:
计算类簇中各数据点到类簇中心的欧式距离或者马氏距离或者汉明距离。
4.如权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
在对各类簇进行离群检测处理之前,对类簇进行质量评估,丢弃不符合质量要求的类簇。
5.如权利要求4所述的方法,其特征在于,对类簇进行质量评估,丢弃不符合质量要求的类簇包括:
依次将类簇作为一个无向图,两个点之间的边权作为原始特征空间的距离dis(xi, xj),根据设定的距离函数计算无向图对应的最小生成树;
根据最小生成树上最大权值的边和类簇包含的数据点的个数记,确定类簇的质量;
根据各类簇的质量对类簇进行排序;
根据排序结果丢弃不符合质量要求的类簇。
6.如权利要求1所述的方法,其特征在于,所述对剪枝后的离群点候选集中的数据点进行离群处理包括:
基于密度的LOF算法对剪枝后的离群点候选集中的数据点进行离群处理。
7.一种数据处理装置,其特征在于,所述装置包括:
聚类模块,用于对数据集中的数据进行聚类,得到各类簇;
离群检测模块,用于对各类簇进行离群检测处理,所述离群检测处理包括:如果类簇中数据点的总数小于设定阈值,则将类簇中的所有数据点放入离群点候选集中;否则,依次计算类簇中各数据点到类簇中心的距离,并将距离大于等于半径的数据点放入离群点候选集中;
剪枝处理模块,用于对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集;
离群处理模块,用于对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。
8.如权利要求7所述的装置,其特征在于,所述聚类模块包括:
质心确定单元,用于在数据集中随机选取 k 个数据点作为初始质心,每个质心对应一个类簇;
计算单元,用于对数据集中的其余数据点,逐个计算数据点到每一个质心的距离,将距离最近的质心所对应的类簇作为数据点所属的类簇;计算类簇中数据点的均值;
质心确定单元,还用于将均值作为新质心;
计算单元,还用于根据所述新质心重新计算,直至计算得到的质心不再变化,得到数据集对应的 k 个类簇。
9.如权利要求7或8所述的装置,其特征在于,所述装置还包括:
质量评估模块,用于在离群检测模块对各类簇进行离群检测处理之前,对类簇进行质量评估,丢弃不符合质量要求的类簇。
10.如权利要求7所述的装置,其特征在于,
所述离群处理模块,具体用于基于密度的LOF算法对所述离群点候选集中的数据点进行离群处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211221664.1A CN115292303A (zh) | 2022-10-08 | 2022-10-08 | 数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211221664.1A CN115292303A (zh) | 2022-10-08 | 2022-10-08 | 数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115292303A true CN115292303A (zh) | 2022-11-04 |
Family
ID=83833579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211221664.1A Pending CN115292303A (zh) | 2022-10-08 | 2022-10-08 | 数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115292303A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116166960A (zh) * | 2023-02-07 | 2023-05-26 | 河南大学 | 用于神经网络训练的大数据特征清洗方法及系统 |
-
2022
- 2022-10-08 CN CN202211221664.1A patent/CN115292303A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116166960A (zh) * | 2023-02-07 | 2023-05-26 | 河南大学 | 用于神经网络训练的大数据特征清洗方法及系统 |
CN116166960B (zh) * | 2023-02-07 | 2023-09-29 | 山东经鼎智能科技有限公司 | 用于神经网络训练的大数据特征清洗方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10846052B2 (en) | Community discovery method, device, server and computer storage medium | |
US10042912B2 (en) | Distributed clustering with outlier detection | |
US20120158623A1 (en) | Visualizing machine learning accuracy | |
WO2020147317A1 (zh) | 一种网络异常行为确定方法、装置、设备及可读存储介质 | |
CN109960808B (zh) | 一种文本识别方法、装置、设备及计算机可读存储介质 | |
US20170011111A1 (en) | Enabling advanced analytics with large data sets | |
CN115454779A (zh) | 基于聚类分析的云监控流数据检测方法、装置及存储介质 | |
JP6897749B2 (ja) | 学習方法、学習システム、および学習プログラム | |
CN108322428B (zh) | 一种异常访问检测方法及设备 | |
CN110728526B (zh) | 地址识别方法、设备以及计算机可读介质 | |
CN110909868A (zh) | 基于图神经网络模型的节点表示方法和装置 | |
CN109086291B (zh) | 一种基于MapReduce的并行异常检测方法及系统 | |
CN113344128B (zh) | 一种基于微簇的工业物联网自适应流聚类方法及装置 | |
CN112036476A (zh) | 基于二分类业务的数据特征选择方法、装置及计算机设备 | |
CN114444619B (zh) | 样本生成方法、训练方法、数据处理方法以及电子设备 | |
WO2018006631A1 (zh) | 一种用户等级自动划分方法及系统 | |
CN111291824A (zh) | 时间序列的处理方法、装置、电子设备和计算机可读介质 | |
CN114116829A (zh) | 异常数据分析方法、异常数据分析系统和存储介质 | |
CN115292303A (zh) | 数据处理方法及装置 | |
CN114417095A (zh) | 一种数据集划分方法及装置 | |
CN110019193B (zh) | 相似帐号识别方法、装置、设备、系统及可读介质 | |
CN113515450A (zh) | 一种环境异常检测方法和系统 | |
CN107423319B (zh) | 一种垃圾网页检测方法 | |
CN108133234B (zh) | 基于稀疏子集选择算法的社区检测方法、装置及设备 | |
CN115358308A (zh) | 一种大数据实例约简方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221104 |
|
RJ01 | Rejection of invention patent application after publication |