CN108268467A - 一种基于属性的异常数据检测方法和装置 - Google Patents

一种基于属性的异常数据检测方法和装置 Download PDF

Info

Publication number
CN108268467A
CN108268467A CN201611254436.9A CN201611254436A CN108268467A CN 108268467 A CN108268467 A CN 108268467A CN 201611254436 A CN201611254436 A CN 201611254436A CN 108268467 A CN108268467 A CN 108268467A
Authority
CN
China
Prior art keywords
data
abnormal
attribute
detection
anomaly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611254436.9A
Other languages
English (en)
Other versions
CN108268467B (zh
Inventor
潘宇翔
李青海
黄超
王平
张晓亭
杨婉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Fine Point Data Polytron Technologies Inc
Original Assignee
Guangdong Fine Point Data Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Fine Point Data Polytron Technologies Inc filed Critical Guangdong Fine Point Data Polytron Technologies Inc
Priority to CN201611254436.9A priority Critical patent/CN108268467B/zh
Publication of CN108268467A publication Critical patent/CN108268467A/zh
Application granted granted Critical
Publication of CN108268467B publication Critical patent/CN108268467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于属性的异常数据检测方法和装置,该方法包括步骤S1:数据属性的预处理;步骤S2:分析数据对象的各种属性,对数据进行异常检测;步骤S3:利用异常标记数组对数据集进行分离,将异常数据从原始数据集中移动到异常数据集中,并输出。与现有技术相比:本发明提供了一种基于属性的异常数据检测方法和装置,融合了基于距离的异常数据检测方法和基于密度的异常数据检测方法,适用于复杂数据的检测,提高了检测的效率,简化了参数的设置,避免了基于密度的异常数据的检测方法的只能检测局部异常数据的局限性,保证了异常数据检测的准确率,方便了用户的使用。

Description

一种基于属性的异常数据检测方法和装置
技术领域
本发明涉及数据质量监控技术领域,具体涉及一种基于属性的异常数据检测方法和装置。
背景技术
在一些应用领域中,异常数据是许多工作的基础和前提,可以给我们带来新的视角。异常数据的挖掘有着广泛的应用,如欺诈检测、预测市场动向等,又如将异常检测应用到文本编辑器可以有效地减少文字输入错误,将异常检测应用到医疗领域中可以发现多种治疗方式的不同反应等。虽然许多数据挖掘算法试图将异常点的影响减小,但这样可能导致重要的隐藏信息的丢失。
目前应用比较广泛的异常数据的检测方法有:基于统计的方法、基于距离的方法、基于偏离的方法、基于密度的方法和高维数据的异常检测。但是,基于统计的方法难以处理高维的数据,并且统计学方法要求数据分布等知识,当没有特定的分布检验时不能确保所有的异常数据被发现;基于距离的方法难以调参;基于偏离的方法对于异常数据的存在的假设太过理想化,对现实复杂数据的效果不太理想;基于密度的方法只能检测局部的异常数据,较难检测全部的异常数据;基于高维数据的异常检测方法中,寻找异常模式非常困难,效率低下。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本发明。
发明内容
为解决上述技术缺陷,本发明采用的技术方案在于,提供一种基于属性的异常数据检测方法,该方法包括以下步骤:
步骤S1:数据属性的预处理;
步骤S2:分析数据对象的各种属性,对数据进行异常检测;
步骤S3:利用异常标记数组对数据集进行分离,将异常数据从原始数据集中移动到异常数据集中,并输出。
较佳的,所述步骤S1中数据属性的预处理为填写数据中空缺的值,识别异常数据和噪声数据,并纠正不一致数据。
较佳的,所述步骤S2具体包括:
步骤S21:对异常标记数组和异常数据计数变量进行初始化;
步骤S22:数据对象的属性循环,遍历数据对象的属性;
步骤S23:遍历数据对象,对数据集中对象在指定属性上的异常情况进行检测,即对数据进行异常检测。
较佳的,所述异常检测包括基于连续型属性的异常数据检测和基于离散型属性的异常数据检测,所述异常检测对所述两种属性的数据分别进行处理。
较佳的,所述步骤S3具体包括:
步骤S31:对于检测到的异常数据,使用不同的变量值来标记异常数据和非异常数据;
步骤S32:分离异常数据;
步骤S33:输出异常数据。
一种基于属性的异常数据检测装置,其包括:
数据预处理模块,用于处理数据中空缺的属性;
基于连续性属性的异常数据检测模块,用于对基于连续性的属性的异常数据进行检测;
基于离散型属性的异常数据检测模块,用于对基于离散型的属性的异常数据进行检测;
异常数据输出模块,用于通过异常标记数组输出异常数据。
与现有技术相比,本发明的有益效果在于:本发明提供了一种基于属性的异常数据检测方法和装置,融合了基于距离的异常数据检测方法和基于密度的异常数据检测方法,适用于复杂数据的检测,提高了检测的效率,简化了参数的设置,避免了基于密度的异常数据的检测方法的只能检测局部异常数据的局限性,保证了异常数据检测的准确率,方便了用户的使用。
附图说明
为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1为本发明的一种基于属性的异常数据检测方法的流程示意图;
图2为步骤S2的流程示意图;
图3为步骤S3的流程示意图;
图4为本发明的一种基于属性的异常数据检测装置示意图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
如图1所示,为本发明提供的一种基于聚类的近似重复记录的检测方法的流程示意图,本方法包括以下步骤:
步骤S1:数据属性的预处理。
数据属性预处理的是填写数据中空缺的值,识别异常数据和噪声数据,并纠正不一致数据。
在步骤S1中,数据属性的预处理为填充空缺的数据属性,对于double型和integer型属性使用属性的平均值进行填充;对于string型属性使用一个全局常量字符进行填充。
步骤S2:分析数据对象的各种属性,对数据进行异常检测。
如图2所示,为本发明步骤S2的流程示意图,步骤S2具体包括:
步骤S21:对异常标记数组和异常数据计数变量进行初始化;
步骤S22:数据对象的属性循环,遍历数据对象的属性;
步骤S23:遍历数据对象,对数据集中对象在指定属性上的异常情况进行检测,即对数据进行异常检测。
在步骤S23中,对数据进行异常检测包括基于连续型属性的异常数据检测和基于离散型属性的异常数据检测。
对于这两种类型属性的一般处理方法是先将连续型数据转化成离散型数据,然后再对数据进行处理。在本发明的方法中,对这两种类型属性的数据分别进行处理,这样可以提高检测的准确率和效率。
基于连续型属性的异常数据检测的方法是:通过判断某一对象o的i属性的di邻域所包含的数据对象数目是否大于异常属性参数k,若大于k时,则认为o的i属性是非异常属性。由于不同的数据对象的属性值有一定的差别,所以在基于连续型属性的异常数据检测前先将属性值标准化处理,采用标准化公式来标准化属性值,第i个属性Xi的标准化公式为:
基于离散型属性的异常数据检测的方法是:判断某一值属性的对象的总数,当该总数少于异常属性参数k时,就认为该对象的此属性为异常属性。
所述异常数据的定义是:以数据集T,N为数据对象的数目,以数据对象o为邻域中心,以d为邻域半径的邻域包含的数据对象最大个数是k,k<<N,其中,k为异常数据参数,d为半径参数。包含在邻域d内的数据对象q满足:
q∈T,F(o,q)<=d
其中,F(o,q)为对象o和q的距离函数,其可以用欧氏距离,o表示异常数据点。
所述异常属性的定义是:以数据集T,N为数据对象的数目,L为对象的所包含的数据对象最大个数k,k<<N,且k为输入的异常属性参数。当o的i属性的di邻域包含的数据对象个数大于k时,o的i属性为非异常属性。其中,包含在di邻域内的数据对象q满足:
q∈T,Fi(o,q)<=d
其中,Fi(o,q)为对象q的i属性和对象o的i属性的距离函数,di表示T中除去数据对象o的所有数据对象的i属性值的平均值。
步骤S3:利用异常标记数组对数据集进行分离,将异常数据从原始数据集中移动到异常数据集中,并输出。
如图3所示,为步骤S3的流程示意图,步骤S3具体包括:
步骤S31:对于检测到的异常数据,使用不同的变量值来标记异常数据和非异常数据。
首先定义一个大小为数据集中对象总数的数组,初始时每个数组元素的值设置为0,当检测到异常数据时,就将相应的数组下标元素设置为1。对于异常标记数组,为每个元素设置一个标记。
步骤S32:分离异常数据。
步骤S33:输出异常数据。
通过异常标记数组来输出异常数据,通过循环找出异常数据。对于异常标记数组元素值为1的对象,将其从原始数据集中移动到异常数据集中,并进行输出;对于其他数组元素对应的对象则不做处理。
本发明的一种基于属性的异常数据检测方法,按照数据对象属性逐个判断数据点是否为异常数据点,根据输入的预期异常点的数目,利用距离函数F计算数据对象之间的属性距离d,再根据异常属性的定义检测并标记数据对象的异常属性,最后根据数据对象属性的异常标记分离并输出异常数据。
本发明的一种基于属性的异常数据检测方法融合了基于距离的异常数据检测方法和基于密度的异常数据检测方法,既避免了基于距离的异常数据检测方法难于设置参数的缺陷,又避免了基于密度的异常数据的检测方法的只能检测局部异常数据的局限性,提高了异常数据的检测效果,有效地保证异常数据的检测的准确率。
如图4所示,为本发明的一种基于属性的异常数据检测装置,其包括:
数据预处理模块,用于处理数据中空缺的属性;
基于连续性属性的异常数据检测模块,用于对基于连续性的属性的异常数据进行检测;
基于离散型属性的异常数据检测模块,用于对基于离散型的属性的异常数据进行检测;
异常数据输出模块,用于通过异常标记数组输出异常数据。
在异常数据输出模块中,通过循环来找出异常数据,对于标记数组元素值为1的对象,将其从原数据集中移动到异常数据集中,进行输出;对于其他数组元素对应的对象不作处理。
本发明提供了一种基于属性的异常数据检测方法和装置,融合了基于距离的异常数据检测方法和基于密度的异常数据检测方法,适用于复杂数据的检测,提高了检测的效率,简化了参数的设置,避免了基于密度的异常数据的检测方法的只能检测局部异常数据的局限性,保证了异常数据检测的准确率,方便了用户的使用。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于属性的异常数据检测方法,其特征在于,该方法包括以下步骤:
步骤S1:数据属性的预处理;
步骤S2:分析数据对象的各种属性,对数据进行异常检测;
步骤S3:利用异常标记数组对数据集进行分离,将异常数据从原始数据集中移动到异常数据集中,并输出。
2.根据权利要求1所述的一种基于属性的异常数据检测方法,其特征在于,所述数据属性的预处理为填写数据中空缺的值,识别异常数据和噪声数据,并纠正不一致数据。
3.根据权利要求1所述的一种基于属性的异常数据检测方法,其特征在于,所述步骤S2具体包括:
步骤S21:对异常标记数组和异常数据计数变量进行初始化;
步骤S22:数据对象的属性循环,遍历数据对象的属性;
步骤S23:遍历数据对象,对数据集中对象在指定属性上的异常情况进行检测,即对数据进行异常检测。
4.根据权利要求3所述的一种基于属性的异常数据检测方法,其特征在于,所述异常检测包括基于连续型属性的异常数据检测和基于离散型属性的异常数据检测,所述异常检测对所述两种属性的数据分别进行处理。
5.根据权利要求1所述的一种基于属性的异常数据检测方法,其特征在于,所述步骤S3具体包括:
步骤S31:对于检测到的异常数据,使用不同的变量值来标记异常数据和非异常数据;
步骤S32:分离异常数据;
步骤S33:输出异常数据。
6.一种基于属性的异常数据检测装置,其特征在于,其包括:
数据预处理模块,用于处理数据中空缺的属性;
基于连续性属性的异常数据检测模块,用于对基于连续性的属性的异常数据进行检测;
基于离散型属性的异常数据检测模块,用于对基于离散型的属性的异常数据进行检测;
异常数据输出模块,用于通过异常标记数组输出异常数据。
CN201611254436.9A 2016-12-30 2016-12-30 一种基于属性的异常数据检测方法和装置 Active CN108268467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611254436.9A CN108268467B (zh) 2016-12-30 2016-12-30 一种基于属性的异常数据检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611254436.9A CN108268467B (zh) 2016-12-30 2016-12-30 一种基于属性的异常数据检测方法和装置

Publications (2)

Publication Number Publication Date
CN108268467A true CN108268467A (zh) 2018-07-10
CN108268467B CN108268467B (zh) 2021-08-06

Family

ID=62754389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611254436.9A Active CN108268467B (zh) 2016-12-30 2016-12-30 一种基于属性的异常数据检测方法和装置

Country Status (1)

Country Link
CN (1) CN108268467B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325061A (zh) * 2018-08-24 2019-02-12 北京天元创新科技有限公司 一种基于概率分布的异常数据处理方法及装置
CN115620802A (zh) * 2022-09-02 2023-01-17 蔓之研(上海)生物科技有限公司 一种基因数据的处理方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101316172A (zh) * 2008-05-12 2008-12-03 中国联合通信有限公司 一种异常邮件检测系统及方法
CN102928655A (zh) * 2012-11-26 2013-02-13 慈溪市供电局 一种电力异常数据检测方法
CN104376078A (zh) * 2014-11-14 2015-02-25 南京大学 一种基于知识熵的异常数据检测方法
CN104462184A (zh) * 2014-10-13 2015-03-25 北京系统工程研究所 一种基于双向抽样组合的大规模数据异常识别方法
CN104517052A (zh) * 2014-12-09 2015-04-15 中国科学院深圳先进技术研究院 一种入侵检测方法及装置
CN104794192A (zh) * 2015-04-17 2015-07-22 南京大学 基于指数平滑、集成学习模型的多级异常检测方法
CN105577679A (zh) * 2016-01-14 2016-05-11 华东师范大学 一种基于特征选择与密度峰值聚类的异常流量检测方法
CN106230613A (zh) * 2016-07-17 2016-12-14 合肥赑歌数据科技有限公司 一种基于异类挖掘的故障预警算法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101316172A (zh) * 2008-05-12 2008-12-03 中国联合通信有限公司 一种异常邮件检测系统及方法
CN102928655A (zh) * 2012-11-26 2013-02-13 慈溪市供电局 一种电力异常数据检测方法
CN104462184A (zh) * 2014-10-13 2015-03-25 北京系统工程研究所 一种基于双向抽样组合的大规模数据异常识别方法
CN104376078A (zh) * 2014-11-14 2015-02-25 南京大学 一种基于知识熵的异常数据检测方法
CN104517052A (zh) * 2014-12-09 2015-04-15 中国科学院深圳先进技术研究院 一种入侵检测方法及装置
CN104794192A (zh) * 2015-04-17 2015-07-22 南京大学 基于指数平滑、集成学习模型的多级异常检测方法
CN105577679A (zh) * 2016-01-14 2016-05-11 华东师范大学 一种基于特征选择与密度峰值聚类的异常流量检测方法
CN106230613A (zh) * 2016-07-17 2016-12-14 合肥赑歌数据科技有限公司 一种基于异类挖掘的故障预警算法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325061A (zh) * 2018-08-24 2019-02-12 北京天元创新科技有限公司 一种基于概率分布的异常数据处理方法及装置
CN115620802A (zh) * 2022-09-02 2023-01-17 蔓之研(上海)生物科技有限公司 一种基因数据的处理方法及系统
CN115620802B (zh) * 2022-09-02 2023-12-05 蔓之研(上海)生物科技有限公司 一种基因数据的处理方法及系统

Also Published As

Publication number Publication date
CN108268467B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
Sahoo et al. Exploratory data analysis using Python
Chen et al. PME: projected metric embedding on heterogeneous networks for link prediction
Jia et al. A fast ellipse detector using projective invariant pruning
Granata et al. Accurate estimation of the intrinsic dimension using graph distances: Unraveling the geometric complexity of datasets
Topi et al. Texture classification by multi-predicate local binary pattern operators
US10223818B2 (en) Detecting and describing visible features on a visualization
US20160100009A1 (en) Cloud process for rapid data investigation and data integrity analysis
US20170091948A1 (en) Method and system for automated analysis of cell images
Parker et al. Selecting appropriate clustering methods for materials science applications of machine learning
US20120089545A1 (en) Device and method for multiclass object detection
Motta et al. Graph-based measures to assist user assessment of multidimensional projections
Kim et al. A regularized singular value decomposition-based approach for failure pattern classification on fail bit map in a DRAM wafer
CN104615730B (zh) 一种多标签分类方法及装置
US7395253B2 (en) Lagrangian support vector machine
CN108647737A (zh) 一种基于聚类的自适应时间序列异常检测方法及装置
CN108268467A (zh) 一种基于属性的异常数据检测方法和装置
Lin et al. Automated quality inspection of surface defects on touch panels
CN107341514B (zh) 一种基于联合密度及角度的异常点和边缘点检测方法
Pothuganti Review on over-fitting and under-fitting problems in Machine Learning and solutions
Chen et al. Towards better caption supervision for object detection
Fasy et al. Challenges in reconstructing shapes from Euler characteristic curves
Mahmood et al. An efficient scheme for the detection of defective parts in fabric images using image processing
CN115082392A (zh) 一种半导体引线框架镀银缺陷检测方法及系统
CN117557872B (zh) 一种优化存储模式的无监督异常检测方法及装置
CN117115147B (zh) 一种基于机器视觉的纺织品检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant