CN106503086A - 分布式局部离群点的检测方法 - Google Patents
分布式局部离群点的检测方法 Download PDFInfo
- Publication number
- CN106503086A CN106503086A CN201610887298.1A CN201610887298A CN106503086A CN 106503086 A CN106503086 A CN 106503086A CN 201610887298 A CN201610887298 A CN 201610887298A CN 106503086 A CN106503086 A CN 106503086A
- Authority
- CN
- China
- Prior art keywords
- data
- cluster
- outlier
- item
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Abstract
本发明涉及分布式局部离群点的检测方法,包括:A.对样本的数据做归一化预处理;B.根据关联规则计算用于计算的数据项分量的属性与目标属性的强关联规则,并得到对目标属性影响最大的属性集合;C.进行聚类运算,分别计算出每个聚类数据距离K个簇中心的距离,根据距离大小对数据进行归类,将数据划分到距离最近的簇中心所在的簇;D.将不同的簇分配到不同的节点上,分别对每个簇进行基于密度的离群点检测;E.遍历各节点上所有标记为离群点的数据项,输出并删除离群点。本发明能够更高效和准确的发现高维数据流中的离群点,大幅度提高了局部特征明显的数据集的异常点检测的准确率和效率,并且有效减少了计算的复杂度。
Description
技术领域
本发明涉及数据挖掘在大数据处理领域的应用,具体的讲是在大数据下的分布式局部离群点的检测方法。
背景技术
离群点检测也称为离群点挖掘,离群点检测的目的是检测出数据集中的噪声点,从而进行数据清理,或发现数据集中潜在的有意义的信息。离群点检测的应用前景十分广阔,例如在计算机入侵检测系统、硬件故障检测、异常支付检测、公共卫生领域中包括异常疾病爆发监测、公共安全突发事件监控等,同时在地震监测、异常气候监控、生态系统失调检测等领域都有重要的应用价值。
随着大数据挖掘技术的发展,离群点检测是计算机学术研究中的一个热点,目前经过研究,提出了多种算法,如基于偏差的检测方法等,这些方法具有共同的特点:第一,观察所有数据,对数据做出整体分析,查看数据对象是否为离群点,即使用全局参数来判定一个数据点的合理性,所以挖掘得到的离群点都是全局离群点;第二,利用是或不是的二元性质,判断一个数据是不是离群点,基本都没有将数据对象离群的程度纳入考虑范围。但是数据往往具有一定的复杂性和应用领域的多样化,通常会介于二者之间,即从全局的角度考察,它们并没有发现有离群的状况,而从局部角度观察,却出现了离群的情况,这时的数据称为局部离群点。
聚类分析的目的就是把数据集中的数据项分成一个或者多个簇,使得不同簇之间的数据项的相似性很低,而同一簇内的数据项具有较大的相似性。通过聚类分析,能够很好的从海量数据集中发掘信息的分布特点,为更好的使用这些数据进行知识发现打下了扎实的基础。
然而传统的聚类算法都是基于静态数据的,也就是说在聚类的过程中数据可以被多次访问,但如今许多应用场景产生的数据不仅数据量大、数据维度高而且这些数据伴随着时间的变化迅速变化。如医疗行业的医保数据、诊断数据等。传统数据聚类方法已经无法适应数据量的不断增大和数据维度的不断提高的情况,因此大规模的、高维数据聚类方法受到相关研究人员的高度关注,也具有重要的理论意义和现实价值。在离群点检测应用中,部分数据集的异常情况往往集中在某一个或者某一类属性,这类属性或属性集称为目标属性,如医保数据中的医保费用异常,医保费用这一属性则为目标属性,在高维数据中,不同属性对目标属性的影响因子不同,影响因子较小的属性不仅会增加计算量并且会影响异常检测的准确性,因此需要一种有效的方法来提高局部特征明显的数据集的异常点检测的准确率和效率。
发明内容
针对以上的不足,本发明提供了一种分布式局部离群点的检测方法,以能够更高效和准确的发现高维数据流中的离群点,提高检测的准确率和效率。
本发明分布式局部离群点的检测方法,包括:
A.对样本的数据做归一化预处理;
B.通过关联规则算法设置相关参数,计算得到所述相关参数的支持度和置信度,将大于最小置信度的频繁项集对应的关联规则作为用于计算的数据项分量的属性与目标属性的强关联规则,根据强关联规则得到对目标属性影响最大的属性集合。所述的目标属性是指相应的属性集合产生的对应结果。例如在医保数据集合中,如果该数据集合用于做费用预测,那么费用这一分量就是目标属性,其它的分量就是所述的属性;
C.根据步骤B得到的关联规则对待测试数据流进行聚类运算,分别计算出每个聚类数据距离K个簇中心的距离,根据距离大小对数据进行归类,将数据划分到距离最近的簇中心所在的簇;
D.将不同的簇分配到不同的节点上,分别对每个簇进行基于密度的离群点检测;所述节点为分布式计算中的计算节点,每个节点上有若干服务器用来计算待测试数据;
E.遍历各节点上所有标记为离群点的数据项,整合并输出所有离群点,输出完毕后删除离群点。
本发明的方法是通过关联规则对数据集进行属性挖掘分析,计算属性和目标属性之间的关联规则,得到用于聚类分析的属性集。通过聚类分析使每一个簇具有较高相似度,并且只需计算新的属性集中的属性,对其它的冗余属性计算时忽略,从而有效减少了计算的复杂度。最后针对每个簇在多节点下分别进行异常点检测,然后合并各节点的结果,输出离群点。本发明无论是算法执行效率和离群点检测的准确率经测试都有较好的表现。
具体的,在步骤B中,先进行类矩阵运算,通过将两个符合特定条件的K项频繁集作连接运算,从而得到K+1项频繁集,再通过引入经验性或经数学证明的判定条件,反复扫描所有数据,判断各项目集是否为频繁集,直到不再产生出新的候选项集,再根据支持度和置信度产生强关联规则。
频繁集指的是:假设集合I为项的集合,I={i1,i2,...,im},集合D为事务数据集,D={T1,T2,...,Tn},i∈[1,n],事务Ti由I中若干项组成。设S为由项组成的一个集合,S={i|i∈I},简称项集(Itemset)。包含K个项的项集称为K项集。S的支持度sup(S)=(包含项集S的事务数量/D中总的事务数量的百分比)×100%,若S的支持度≥给定的最小支持度,则S为频繁项集(Frequent Itemset)。
具体的,步骤C中从待测试数据中选取K个簇的中心点为所述聚类运算的起始。
在此基础上,步骤D中可以具体包括有:
D1.设定相关参数Minpts和最小半径Eps;所述最小半径Eps指的是常用的Dbscan聚类算法中的最小领域,通常可以根据数据集特征人工设置;相关参数Minpts是指Dbscan算法中给定点在最小半径Eps领域内成为核心对象的最小领域的点数。
D2.将不同的簇分配到不同的节点上,每个节点分别根据选取原始数据集中任意一个未分类的对象o,检索和对象o的距离≤最小半径Eps的全部对象点Neps(o);
D3.若|Neps(o)|<MinPts,o不是核心对象,将o标记为噪声点,并返回步骤D2;
D4.若|Neps(o)|≥MinPts,o是核心对象,把Neps(o)里的全部对象归入堆栈Seeds;设当前对象CurrentObject为堆栈Seeds的当前读取对象,检索Neps(CurrentObject)全部对象,若|NePs(CurreniObject)|大于MinPts,则将堆栈Seeds内的对象全部删除,并把剩余未分类对象归入堆栈Seeds;
D5.判断堆栈Seeds是否是空,是则跳转至步骤D3循环,否则完成对每个簇的离群点检测。
在步骤D中,根据不同的簇中心将数据划分至不同的节点,分别进行异常点检测,从而极大的提高了算法的计算效率。
本发明分布式局部离群点的检测方法,能够对输入的样本数据进行关联规则分析,得到各个分类的频繁项集,并将大于最小置信度的频繁项集对应的关联规则判定为强关联规则,根据强关联规则得到对目标属性影响最大的属性集合;随后根据筛选出的属性,对测试数据进行聚类,使得每一个簇具有较高相似度;最后针对每个簇在多节点下分别进行异常点检测。该方法能够非常准确、快速的检测局部异常点,大幅度提高了局部特征明显的数据集的异常点检测的准确率和效率。
以下结合实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明的范围内。
具体实施方式
本发明分布式局部离群点的检测方法,步骤为:
A.对样本的数据做预处理。将数据存入数据库,对数据进行归一化处理,归一化处理的转换格式是线性函数,公式为:
公式中,转换前的值用x表示,转换后的值用y表示,获取的数据用Value表示。
B.筛选聚类属性
根据数据的应用领域,将归一化后的数据属性进行存储,使用关联规则设置相关参数进行属性关联规则挖掘。计算得到所述相关参数的支持度和置信度,将大于最小置信度的频繁项集对应的关联规则作为用于计算的数据项分量的属性与目标属性的强关联规则,根据强关联规则得到对目标属性影响最大的属性集合。
关联规则主要步骤分为两个步骤:
1)连接:采用类矩阵运算。通过将两个符合特定条件的K项频繁集作连接运算,寻找K+1项频繁集,这些频繁集是发现关联规则的基础。
2)剪枝,即去掉没有必要的中间结果。当项目集很大的时候,判断一个项目集是否为频繁集时,如果采用对数据库进行扫描计算的方法,计算是低效率的,该步骤引入了一些经验性或经数学证明的判定条件。具体步骤为:
a)计算最小支持度及最小置信度。
Apriori算法使用了候选项集的概念,首先扫描数据库产生候选项集I={i1,i2,…in},若候选项集I的支持度≥最小支持度,则该候选项集合为频繁项目集。支持度(support)的计算公式:A、B分别为候选项集I的子集。
b)在应用Apriori算法的过程中,首先由数据库读入所有步骤A存入数据库的事务数据,得出候选1_项集合C1及相应的支持度数据,通过将每个1_项集的支持度与最小支持度比较,得出频繁1_项集合L1,然后将这些频繁1_项集两两进行连接,产生候选2_项集C2。
c)然后再次扫描数据库得到候选2_项集C2的支持度,将2_项集的支持度与最小支持度比较,确定频繁2_项集。类似的地,利用这些频繁2_项集L2产生候选3_项集和确定频繁3_项集,以此类推。
d)反复扫描数据库与最小支持度比较,产生更高项的频繁项集合,再结合产生下一级候选项集,直到不再结合产生出新的候选项集为止。
e)根据支持度和置信度产生强关联规则。其中置信度P的计算公式:
例如医保数据,综合考虑最终选取的分析属性为:医院等级、年龄、性别、户口类型、住院天数、特殊人群标志、材料费、医药费、住院费、医保费、医保报销比例。假设根据经验或相关统计数据,设置最小支持度项目数阈值为1000,即最小支持度为1%,置信度为50%,生成近似精确规则,算法结果如下:
从表中可以看出基于训练样本,找出了六个强关联规则,分别是:女性&住院天数15~20天&医院等级为三甲&医药费3000~3500=>医保报销比例80%、城镇户口&医院等级为二乙&材料费2000~3000&住院天数5~10天=>医保报销比例90%、男性&城镇户口&医院等级为三甲&不是特殊人群=>医保报销比例85%、住院天数10天&材料费1000~2000&医药费500~1000=>医保报销比例75%、年龄20~30&住院天数&医保费5000~6000=>医保报销比例65%、女性&农村户口&特殊人群&住院费大于1万=>医保报销比例70%。将这些强关联属性作为后续计算的属性值。
C.对待测试数据流进行聚类分析
采用Canopy聚类的方法,与传统的聚类算法(例如K-means)相比,该方法的最大特点是不需要事先指定k值(即聚类的个数)。Canopy聚类虽然精度较低,但在速度上有很大优势,因此可以使用Canopy聚类先对数据进行“粗”聚类,得到K值后再使用K-means方法进行进一步“细”聚类。
C1.Canopy中心点生成。Canopy生成方法通常都是在单机情况下运行,因此当遇到大数据量,生成Canopy中心点需要消耗很多时间,为了解决大数据量的问题,引入了Hadoop平台来优化Canopy的生成方法。小数据量的向量有利于单机程序生成Canopy中心点,为了防止其它向量的干扰,先将属于Canopy内的无关向量过滤掉,再通过“K-means迭代”方法不断过滤,直到清除掉所有无关向量。这样所有的Canopy中心点就会被集合起来。
C2.k-means迭代。将需要聚类的数据转化为一个列表的形式。将列表中的第一个点删去,剩余的数据产生一个新的中心。对于每个列表中的点,将距离在数据点与簇最小距离阈值T1以内的点当作这个中心点内的点,同时,将距离在簇与簇之间最小距离阈值T2以内的点从列表中删去。重复直到列表中没有任何点。对于每个中心点,使用K-means算法进行聚类。
D.基于多节点上的离群点检测。
设定参数Minpts和最小半径Eps,根据得到的簇,将不同簇分配到不同的节点上,在每个节点上分别根据选取数据集D中任意一个未分类的对象o。最小半径Eps指的是常用的Dbscan聚类算法中的最小领域,通常可以根据数据集特征人工设置;参数Minpts是指Dbscan算法中给定点在最小半径Eps领域内成为核心对象的最小领域的点数;所述节点为分布式计算中的计算节点。检索和o距离≤最小半径Eps的全部对象点Neps(o);若|Neps(o)|<Minpts,o不是核心对象,则将o标记成噪声点,并返回至检索和o距离≤最小半径Eps的全部对象点Neps(o)的步骤执行;若|Neps(o)|≥Minpts o是核心对象,把Neps(o)里的全部对象归入到堆栈Seeds里;当前对象CurrentObject为堆栈Seeds的当前读取对象,检索Neps(CurrentObject)全部对象,若|NePs(CurreniObject)|大于Minpts,则将堆栈Seeds内的对象全部删除,并把剩余未分类对象归入堆栈Seeds。判断堆栈Seeds是否是空,是则跳转到判断对象o是否为核心对象重复执行,否则完成算法流程。
E.输出离群点。
遍历各个节点上所有被标记为离群点的数据项,整合并输出所有离群点,输出完毕后删除该离群点。
Claims (4)
1.分布式局部离群点的检测方法,其特征包括:
A.对样本的数据做归一化预处理;
B.通过关联规则算法设置相关参数,计算得到所述相关参数的支持度和置信度,将大于最小置信度的频繁项集对应的关联规则作为用于计算的数据项分量的属性与目标属性的强关联规则,根据强关联规则得到对目标属性影响最大的属性集合;
C.根据步骤B得到的关联规则对待测试数据流进行聚类运算,分别计算出每个聚类数据距离K个簇中心的距离,根据距离大小对数据进行归类,将数据划分到距离最近的簇中心所在的簇;
D.将不同的簇分配到不同的节点上,分别对每个簇进行基于密度的离群点检测;
E.遍历各节点上所有标记为离群点的数据项,整合并输出所有离群点,输出完毕后删除离群点。
2.如权利要求1所述的检测方法,其特征为:步骤B中,先进行类矩阵运算,通过将两个符合特定条件的K项频繁集作连接运算,从而得到K+1项频繁集,再通过引入经验性或经数学证明的判定条件,反复扫描所有数据,判断各项目集是否为频繁集,直到不再产生出新的候选项集,再根据支持度和置信度产生强关联规则。
3.如权利要求1所述的检测方法,其特征为:步骤C中从待测试数据中选取K个簇的中心点为所述聚类运算的起始。
4.如权利要求1至3之一所述的检测方法,其特征为:在步骤D中包括:
D1.设定相关参数Minpts和最小半径Eps;
D2.将不同的簇分配到不同的节点上,每个节点分别根据选取原始数据集中任意一个未分类的对象o,检索和对象o的距离≤最小半径Eps的全部对象点Neps(o);
D3.若|Neps(o)|<MinPts,o不是核心对象,将o标记为噪声点,并返回步骤D2;
D4.若|Neps(o)|≥MinPts,o是核心对象,把Neps(o)里的全部对象归入堆栈Seeds;设当前对象CurrentObject为堆栈Seeds的当前读取对象,检索Neps(CurrentObject)全部对象,若|NePs(CurreniObject)|大于MinPts,则将堆栈Seeds内的对象全部删除,并把剩余未分类对象归入堆栈Seeds;
D5.判断堆栈Seeds是否是空,是则跳转至步骤D3循环,否则完成对每个簇的离群点检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610887298.1A CN106503086A (zh) | 2016-10-11 | 2016-10-11 | 分布式局部离群点的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610887298.1A CN106503086A (zh) | 2016-10-11 | 2016-10-11 | 分布式局部离群点的检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106503086A true CN106503086A (zh) | 2017-03-15 |
Family
ID=58294712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610887298.1A Pending CN106503086A (zh) | 2016-10-11 | 2016-10-11 | 分布式局部离群点的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106503086A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951353A (zh) * | 2017-03-20 | 2017-07-14 | 北京搜狐新媒体信息技术有限公司 | 作业数据异常检测方法及装置 |
CN107341210A (zh) * | 2017-06-26 | 2017-11-10 | 西安理工大学 | Hadoop平台下的C‑DBSCAN‑K聚类算法 |
CN108197215A (zh) * | 2017-12-28 | 2018-06-22 | 努比亚技术有限公司 | 一种推荐方法、服务器及计算机可读存储介质 |
CN108519465A (zh) * | 2018-03-29 | 2018-09-11 | 深圳森阳环保材料科技有限公司 | 一种基于大数据的空气污染智能监测系统 |
CN108694606A (zh) * | 2018-05-11 | 2018-10-23 | 南京邮电大学 | 一种基于关联规则的客户画像及服务推送方法 |
CN108761227A (zh) * | 2018-04-02 | 2018-11-06 | 深圳市益鑫智能科技有限公司 | 一种高铁电能质量数据处理系统 |
CN109067725A (zh) * | 2018-07-24 | 2018-12-21 | 成都亚信网络安全产业技术研究院有限公司 | 网络流量异常检测方法及装置 |
CN109508733A (zh) * | 2018-10-23 | 2019-03-22 | 北京邮电大学 | 一种基于分布概率相似度度量的异常检测方法 |
CN110298371A (zh) * | 2018-03-22 | 2019-10-01 | 北京京东尚科信息技术有限公司 | 数据聚类的方法和装置 |
CN110874786A (zh) * | 2019-10-11 | 2020-03-10 | 支付宝(杭州)信息技术有限公司 | 虚假交易团伙识别方法、设备及计算机可读介质 |
CN111385116A (zh) * | 2018-12-29 | 2020-07-07 | 北京亿阳信通科技有限公司 | 一种高干扰小区的多维关联特征分析方法和装置 |
CN112200472A (zh) * | 2020-10-15 | 2021-01-08 | 平安国际智慧城市科技股份有限公司 | 伴随车辆检测方法、装置、电子设备及存储介质 |
CN113132352A (zh) * | 2021-03-17 | 2021-07-16 | 中国人民解放军战略支援部队信息工程大学 | 基于流量统计特征的路由器威胁感知方法及系统 |
CN113239024A (zh) * | 2021-04-22 | 2021-08-10 | 辽宁工程技术大学 | 一种基于离群值检测的银行异常数据检测方法 |
CN114564759A (zh) * | 2022-04-28 | 2022-05-31 | 睿至科技集团有限公司 | 一种分布式数据的检测方法及系统 |
CN116879662A (zh) * | 2023-09-06 | 2023-10-13 | 山东华尚电气有限公司 | 基于数据分析的变压器故障检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799616A (zh) * | 2012-06-14 | 2012-11-28 | 北京大学 | 大规模社会网络中的离群点检测方法 |
US8756085B1 (en) * | 2013-03-15 | 2014-06-17 | State Farm Mutual Automobile Insurance Company | Systems and methods for assessing property damage |
CN104317908A (zh) * | 2014-10-28 | 2015-01-28 | 河南师范大学 | 基于三支决策和距离的离群点检测方法 |
CN104820708A (zh) * | 2015-05-15 | 2015-08-05 | 成都睿峰科技有限公司 | 一种基于云计算平台的大数据聚类方法和装置 |
CN105630885A (zh) * | 2015-12-18 | 2016-06-01 | 国网福建省电力有限公司泉州供电公司 | 一种用电异常检测方法及系统 |
CN105868266A (zh) * | 2016-01-27 | 2016-08-17 | 电子科技大学 | 一种基于聚类模型的高维数据流离群点检测方法 |
-
2016
- 2016-10-11 CN CN201610887298.1A patent/CN106503086A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799616A (zh) * | 2012-06-14 | 2012-11-28 | 北京大学 | 大规模社会网络中的离群点检测方法 |
US8756085B1 (en) * | 2013-03-15 | 2014-06-17 | State Farm Mutual Automobile Insurance Company | Systems and methods for assessing property damage |
CN104317908A (zh) * | 2014-10-28 | 2015-01-28 | 河南师范大学 | 基于三支决策和距离的离群点检测方法 |
CN104820708A (zh) * | 2015-05-15 | 2015-08-05 | 成都睿峰科技有限公司 | 一种基于云计算平台的大数据聚类方法和装置 |
CN105630885A (zh) * | 2015-12-18 | 2016-06-01 | 国网福建省电力有限公司泉州供电公司 | 一种用电异常检测方法及系统 |
CN105868266A (zh) * | 2016-01-27 | 2016-08-17 | 电子科技大学 | 一种基于聚类模型的高维数据流离群点检测方法 |
Non-Patent Citations (1)
Title |
---|
刘书志: "基于密度的局部离群数据挖掘方法的研究和改进", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951353A (zh) * | 2017-03-20 | 2017-07-14 | 北京搜狐新媒体信息技术有限公司 | 作业数据异常检测方法及装置 |
CN106951353B (zh) * | 2017-03-20 | 2020-05-22 | 北京搜狐新媒体信息技术有限公司 | 作业数据异常检测方法及装置 |
CN107341210A (zh) * | 2017-06-26 | 2017-11-10 | 西安理工大学 | Hadoop平台下的C‑DBSCAN‑K聚类算法 |
CN107341210B (zh) * | 2017-06-26 | 2020-07-31 | 三盟科技股份有限公司 | Hadoop平台下的C-DBSCAN-K聚类算法 |
CN108197215A (zh) * | 2017-12-28 | 2018-06-22 | 努比亚技术有限公司 | 一种推荐方法、服务器及计算机可读存储介质 |
CN110298371A (zh) * | 2018-03-22 | 2019-10-01 | 北京京东尚科信息技术有限公司 | 数据聚类的方法和装置 |
CN108519465B (zh) * | 2018-03-29 | 2019-12-17 | 南京东创信通物联网研究院有限公司 | 一种基于大数据的空气污染智能监测系统 |
CN108519465A (zh) * | 2018-03-29 | 2018-09-11 | 深圳森阳环保材料科技有限公司 | 一种基于大数据的空气污染智能监测系统 |
CN108761227A (zh) * | 2018-04-02 | 2018-11-06 | 深圳市益鑫智能科技有限公司 | 一种高铁电能质量数据处理系统 |
CN108694606B (zh) * | 2018-05-11 | 2022-07-26 | 南京邮电大学 | 一种基于关联规则的客户画像及服务推送方法 |
CN108694606A (zh) * | 2018-05-11 | 2018-10-23 | 南京邮电大学 | 一种基于关联规则的客户画像及服务推送方法 |
CN109067725A (zh) * | 2018-07-24 | 2018-12-21 | 成都亚信网络安全产业技术研究院有限公司 | 网络流量异常检测方法及装置 |
CN109067725B (zh) * | 2018-07-24 | 2021-05-14 | 成都亚信网络安全产业技术研究院有限公司 | 网络流量异常检测方法及装置 |
CN109508733A (zh) * | 2018-10-23 | 2019-03-22 | 北京邮电大学 | 一种基于分布概率相似度度量的异常检测方法 |
CN111385116A (zh) * | 2018-12-29 | 2020-07-07 | 北京亿阳信通科技有限公司 | 一种高干扰小区的多维关联特征分析方法和装置 |
CN111385116B (zh) * | 2018-12-29 | 2023-07-14 | 北京亿阳信通科技有限公司 | 一种高干扰小区的多维关联特征分析方法和装置 |
CN110874786A (zh) * | 2019-10-11 | 2020-03-10 | 支付宝(杭州)信息技术有限公司 | 虚假交易团伙识别方法、设备及计算机可读介质 |
CN110874786B (zh) * | 2019-10-11 | 2022-10-18 | 支付宝(杭州)信息技术有限公司 | 虚假交易团伙识别方法、设备及计算机可读介质 |
CN112200472A (zh) * | 2020-10-15 | 2021-01-08 | 平安国际智慧城市科技股份有限公司 | 伴随车辆检测方法、装置、电子设备及存储介质 |
CN112200472B (zh) * | 2020-10-15 | 2023-12-29 | 平安国际智慧城市科技股份有限公司 | 伴随车辆检测方法、装置、电子设备及存储介质 |
CN113132352A (zh) * | 2021-03-17 | 2021-07-16 | 中国人民解放军战略支援部队信息工程大学 | 基于流量统计特征的路由器威胁感知方法及系统 |
CN113239024A (zh) * | 2021-04-22 | 2021-08-10 | 辽宁工程技术大学 | 一种基于离群值检测的银行异常数据检测方法 |
CN113239024B (zh) * | 2021-04-22 | 2023-11-07 | 辽宁工程技术大学 | 一种基于离群值检测的银行异常数据检测方法 |
CN114564759A (zh) * | 2022-04-28 | 2022-05-31 | 睿至科技集团有限公司 | 一种分布式数据的检测方法及系统 |
CN114564759B (zh) * | 2022-04-28 | 2022-07-29 | 睿至科技集团有限公司 | 一种分布式数据的检测方法及系统 |
CN116879662A (zh) * | 2023-09-06 | 2023-10-13 | 山东华尚电气有限公司 | 基于数据分析的变压器故障检测方法 |
CN116879662B (zh) * | 2023-09-06 | 2023-12-08 | 山东华尚电气有限公司 | 基于数据分析的变压器故障检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106503086A (zh) | 分布式局部离群点的检测方法 | |
Gutiérrez-Salcedo et al. | Some bibliometric procedures for analyzing and evaluating research fields | |
Huang et al. | Revealing density-based clustering structure from the core-connected tree of a network | |
CN106022477A (zh) | 智能分析决策系统及方法 | |
Dinh et al. | k-PbC: an improved cluster center initialization for categorical data clustering | |
Baidari et al. | Bhattacharyya distance based concept drift detection method for evolving data stream | |
CN109257383A (zh) | 一种bgp异常检测方法及系统 | |
Chen et al. | CELOF: Effective and fast memory efficient local outlier detection in high-dimensional data streams | |
García-Vico et al. | Fepds: A proposal for the extraction of fuzzy emerging patterns in data streams | |
Meira et al. | Fast anomaly detection with locality-sensitive hashing and hyperparameter autotuning | |
Fang et al. | Anomaly detection of diabetes data based on hierarchical clustering and CNN | |
Nashipudimath et al. | An efficient integration and indexing method based on feature patterns and semantic analysis for big data | |
CN107480441A (zh) | 一种基于支持向量机的儿童脓毒性休克预后预测的建模方法及系统 | |
Lv | Data Preprocessing and Apriori Algorithm Improvement in Medical Data Mining | |
KR102358357B1 (ko) | 시장규모추정장치 및 그 동작 방법 | |
Ni et al. | The analysis and research of clustering algorithm based on PCA | |
Trstenjak et al. | Adaptable web prediction framework for disease prediction based on the hybrid Case Based Reasoning model | |
Kumar et al. | Frequent Pattern Retrieval on Data Streams by using Sliding Window | |
Wang et al. | Stacking Based LightGBM-CatBoost-RandomForest Algorithm and Its Application in Big Data Modeling | |
Zhu et al. | A Type-Based Blocking Technique for Efficient Entity Resolution over Large-Scale Data | |
Zhang et al. | Self-Adaptive-Means Based on a Covering Algorithm | |
Li et al. | Attribute importance measurement method based on data coordination degree | |
CN112784886A (zh) | 一种基于多层最大生成树图核的脑图像分类方法 | |
Vinutha et al. | EPCA—enhanced principal component analysis for medical data dimensionality reduction | |
Ursul et al. | Unsupervised Detection of Anomalous Running Patterns Using Cluster Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170315 |