CN113240010B - 一种支持非独立分布混合数据的异常检测方法及系统 - Google Patents
一种支持非独立分布混合数据的异常检测方法及系统 Download PDFInfo
- Publication number
- CN113240010B CN113240010B CN202110528743.6A CN202110528743A CN113240010B CN 113240010 B CN113240010 B CN 113240010B CN 202110528743 A CN202110528743 A CN 202110528743A CN 113240010 B CN113240010 B CN 113240010B
- Authority
- CN
- China
- Prior art keywords
- data
- attribute
- anomaly
- value
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 60
- 238000011156 evaluation Methods 0.000 claims abstract description 21
- 230000005856 abnormality Effects 0.000 claims abstract description 18
- 238000007726 management method Methods 0.000 claims abstract description 17
- 230000010354 integration Effects 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000013523 data management Methods 0.000 claims abstract description 9
- 230000009466 transformation Effects 0.000 claims abstract description 4
- 230000002159 abnormal effect Effects 0.000 claims description 37
- 238000000034 method Methods 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010219 correlation analysis Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000013439 planning Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 230000005611 electricity Effects 0.000 claims description 5
- 238000007792 addition Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000013499 data model Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 101100391182 Dictyostelium discoideum forI gene Proteins 0.000 claims 1
- 230000009916 joint effect Effects 0.000 claims 1
- 238000002474 experimental method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000000586 desensitisation Methods 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000036632 reaction speed Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及结构化数据异常检测领域,具体涉及一种支持非独立分布混合数据的异常检测方法及系统。包括元数据管理模块,数据集成模块,数据管理模块,任务管理与调度模块,数据关联模块,特征变换模块,模型训练模块,异常评估模块,结果管理模块。基于本算法构建的系统可以适用于结构化混合数据、单纯的分类数据、单纯的数值型数据三种不同目的智能化异常检测,可以极大的提升异常检测的效率和普适性,尤其是在数据治理、工业异常检测应用中。
Description
技术领域
本发明涉及结构化数据异常检测领域,具体涉及一种支持非独立分布混合数据的异常检测方法及系统。
背景技术
所谓混合属性,是指构成数据行的数据属性(特征)列中,既包括了分类(离散)属性(如表示民族的汉族、蒙古族、回族等),又包括了可以比较大小的数值(连续)型属性(如表示身高的cm数值)。
由于现实世界的数据具有多源、异构、高维等特征,在经过采集、通信、入库存储等环节之后,形成的数据质量较低,数据处理成本高,因为异常数据的存在导致难以进行更深层次的数据挖掘和管理工作,严重制约数据价值的发挥。以电力系统为例,电力用户的客户档案、设备档案以及量费信息之间往往存在着不一致、违反业务逻辑的情况。例如居民户收取变损电费、220v电压采用三相四线制电表等。以往传统的问题数据排查方式是由业务专家针对常见的问题制定核查规则,然后执行规则核查发现问题数据。
基于规则识别异常数据有难以克服的问题:
首先,规则的生成及维护全程需要人工进行干预,过于依赖业务专家的专业知识;
其次,专家制定的每条规则往往仅能针对特定的领域、特定的属性或者特定的数值,无法通用,业务灵活的适应新变化;
更为关键的是,规则仅仅是专家可以明确归纳的业务知识的显性表达,而事实上专家无法预先掌握所有的异常情况并都进行有效的归纳。而真实数据所涉及的异常情况各种各样,随着社会的发展,不断产生新的数据从而导致新的异常情况不断涌现。但是规则需要人工制定,而制定规则需要先发现问题,这就导致规则核查存在较为严重的滞后性和局限性;
通过机器学习等手段进行异常检测正在蓬勃发展。但是目前相关研究主要以单独针对单纯的离散型数据或者单纯的连续型数据进行异常数据识别的算法为主流。能够既兼顾单纯的离散型或者数值型数据,又可以支持混合型数据的异常检测的方法少之又少。而针对离散型数据进行异常检测的算法又多以“各列独立”为前提条件,这个前提过于苛刻,无法满足实际业务的需求。
发明内容
针对当前主流的“人工制定规则”的混合数据异常数据排查模式进行补充和代替,不同于当前机器学习领域主流的仅针对单纯的离散型或单纯的连续型数据异常检测算法,为实现对分类属性间存在关联关系的、混合型数据的异常识别工作,以及针对当前主流离散型数据异常核查算法以“各属性独立”为前提、难以发现由不同属性组合导致的异常情况,本发明的目的是提出一种无监督的、具备普适性的支持非独立混合属性数据的异常检测方法,以及一种依托该算法构建的异常数据检测系统。
为达到上述目的,本发明采取的技术方案为:一种支持非独立分布混合数据的异常检测方法,包括以下步骤:
S1:计算混合属性中各分类属性的相关性,计算混合属性中各分类属性的相关性;
1.1令表示为数据集中分类属性的集合,针对/>中的每个分类属性Y,计算其每个特征值的支持度,并根据预定义的最大支持度阈值,将存在特征值支持度大于阈值的属性列视为独立属性列,并将其从属性集合/>中剔除;
其中单个特征值支持度的计算公式为其中n为总数据量,count(A)代表分类属性Y的特征值为A的数据量;
1.2在1.1执行完毕之后,中剩余的属性构成了形成待分析相关性的属性集合
1.3针对中的每个分类属性Y,计算其与其他属性的的正向和反向相关系数,方法如下:
1.3.1分析属性列Yi和Yj的正向相关系数时,将属性列Yi的每一特征值Yi,A(表示属性列当前的特征值为A)分别与属性列Yj中的所有特征值Yj,B进行组合,形成一个二项式集合Qi,j;反向同理Qi,j;
1.3.2对集合Qij中的每个属性值对,计算其对应的支持度;
其中属性值对的支持度计算公式为
其中count(Yi,A,Yj,B)代表数据集分类属性Yi的取值A时,分类属性Yj的取值为B的数据量,n为数据集总数据量;
1.3.3对Qi,j中每个二项式均计算其对应的支持度,针对Yi的每个取值A∈{Yi},获取支持度最大二项式max(supp(A,B));
1.3.4以支持度最大的二项式为基础,以集合中的其他项支持度作为惩罚项,计算得到正相关系数forward_coor,
1.3.5同理可得Qi,j对应的反向二项式集合Qj,i中的相关性系数;
1.4取正反向相关系数的较小值作为该两字段的相关系数β;
β(i,j)=β(j,i)=min(forward_coor(i,j),back_coor(i,j))
特别的,如果β(i,j)≤0则说明不相关;
1.5遍历中所有分类属性列的两两组合,计算其相关系数,保留相关系数大于指定阈值的属性,将两字段值进行拼接,构建联合属性列Yi,j;
S2:计算分类属性的异常评分;
2.1统计数据集X={x1,x2,...,xn}的数据总数n;
2.2针对每一个分类属性以及前面通过关联性分析生成的联合属性列Y,统计其特征值yi的数据量|yi|;
2.3计算各分类属性列Y的熵HX(Y)=-∑p(yi)*log(p(yi))
其中p是包含特征值yi的数据在数据集X中的占比,公式为
2.4计算各分类属性权重wX(Y),其公式为
对于独立属性,β为0;
2.5针对每条数据x0,计算其信息载荷
2.6对每条数据x0分类属性的加信息载荷ΔHx0进行Min-Max归一化,将其转为值域为[0,1]的小数,作为x0的离散属性异常评分score;
注:利用s1~s2步骤,可以实现单纯分类属性的数据集的异常检测。
S3:针对每个分类属性列的每个分类属性值,评估其连续属性异常评分
3.1对于中每一个分类属性Y,遍历其可能的每一种特征值yi;
3.2针对每一个yi,从数据集X中选择当前属性值为yi的全部连续属性,构造yi的异常评估向量集;
3.3针对步骤3.2所得的数据,如果数据量百分比超过指定阈值Tmin,则训练孤立森林模型;(注:孤立森林模型伪代码见图3.对于单纯由数值型属性构成的数据集,可直接采用孤立森林算法构建异常检测模型)
3.4对每条数据x0的每个分类属性值yi,如果其数据量百分比小于阀值Tmin,则直接给出异常系数0;否则利用步骤3.3所构建的模型评估连续异常系数Scoreyi;
3.5完成x0的每一个分类属性值对应的连续异常系数评估之后,取其均值,作为x0的总体异常系数m为x0参与连续属性异常评分的离散属性数量;
S4:根据步骤2所得的Scorer和步骤3所得的Scoren计算整体异常系数,公式为
上述的支持非独立分布混合数据的异常检测方法,数据的总体异常系数score为介于[0,1]之间的一个实数,其值越大,表明当前数据异常嫌疑越大,因此根据该score值可以开展混合数据的异常数据识别。
基于上述支持非独立分布混合数据的异常检测方法的混合数据异常检测系统,包括
元数据管理模块,用于管理业务系统所需的数据模型、数据来源、数据标准信息,以便实现规范化的数据采集、集成、治理等操作;
数据集成模块,用于根据元数据管理模块中所记录的信息,从对应的数据源中采集所需的数据;
数据管理模块,用于管理数据采集与集成模块所构建的数据,规划和管理文件实际存储路径,管理数据的生命周期与历史记录,提供与外界业务系统的交互工作、对外界增删改查的申请进行回应和校验;
任务管理与调度模块,用于记录和管理需要进行异常检测任务,配置管理各项任务所需的参数,执行流程进行规划、顺序调用具体的异常检测任务,并在发生异常时进行警报;
数据关联模块,用于将分别存储于不同表中的信息进行关联整合,构建联合宽表,以便后续算法能够将数据的离散型特征与连续型特征放在一起进行统一分析;
特征变换模块,用于通过对数据关联模块所构建的数据进行一定的变换和整合,变更字段类型、构建特征向量,生成能够被后续算法直接利用的特征数据;
模型训练模块,用于基于构建好的特征,进行分类数据的统计,完成分类属性相关性分析,针对每一个分类属性值构建其对应的孤立森林模型,供后续异常检测模块调用;
异常评估模块,用于调用模型训练模块所构建的模型,完成分类属性异常评估以及对应的连续属性异常值评估,并合并生成最终的异常评估值;
结果管理模块,用于根据需要,根据异常评估结果,实现疑似异常数据筛选、异常结果输出工作。
本发明一种支持非独立分布混合数据的异常检测方法的有益效果是:
上述方法提出了一种实用、可靠的混合数据的异常数据分析方法,上述方法可适用于属性非独立的混合数据的异常检测。
1、本发明对当前基于规则排查异常数据人力花费高、反应速度慢、准确度不足的问题提出了智能化的方法。
2、本发明提出了一种针对存在列间关系的、混合型数据的异常检测算法。
本发明一种基于支持非独立分布混合数据的异常检测方法的混合数据异常检测系统的有益效果是:
基于本算法构建的系统可以适用于结构化混合数据、单纯的分类数据、单纯的数值型数据三种不同目的智能化异常检测,可以极大的提升异常检测的效率和普适性,尤其是在数据治理、工业异常检测应用中。
上述方法虽然冠以“一种支持非独立分布混合数据的异常检测算法”,但实际上,本算法不仅仅可以用于结构化的混合数据异常识别,而且其计算分类属性异常值部分,可以单独应用于分类数据的异常检测;其后面的连续属性异常评分部分可以单独应用于数值型数据的异常检测,因此本方法是一套普适的结构化数据异常检测方法。
附图说明
图1为本发明中计算分类属性相关性的伪代码;
图2为本发明中计算分类属性异常评分的伪代码;
图3为本发明中采用孤立森林模型计算数值型向量的异常评分的伪代码;
图4为本发明中一种基于支持非独立分布混合数据的异常检测方法的混合数据异常检测系统的工作流程示意图。
具体实施方式
为使本领域技术人员更好的理解本发明的技术方案,下面结合附图及具体实施方式对本发明的内容进行详细说明。
如图1-4所示,一种支持非独立分布混合数据的异常检测方法,包括以下步骤:
S1:计算混合属性中各分类属性的相关性,计算混合属性中各分类属性的相关性。本步骤算法伪代码见图1。
1.1令表示为数据集中分类属性的集合,针对/>中的每个分类属性Y,计算其每个特征值的支持度,并根据预定义的最大支持度阈值,将存在特征值支持度大于阈值的属性列视为独立属性列,并将其从属性集合/>中剔除;
其中单个特征值支持度的计算公式为其中n为总数据量,count(A)代表分类属性Y的特征值为A的数据量;
1.2在1.1执行完毕之后,中剩余的属性构成了形成待分析相关性的属性集合
1.3针对中的每个分类属性Y,计算其与其他属性的的正向和反向相关系数,方法如下:
1.3.1分析属性列Yi和Yj的正向相关系数时,将属性列Yj的每一特征值Yi,A(表示属性列当前的特征值为A)分别与属性列Yj中的所有特征值Yj,B进行组合,形成一个二项式集合Qi,j;反向同理Qj,i;
1.3.2对集合Qi,j中的每个属性值对,计算其对应的支持度;
其中属性值对的支持度计算公式为
其中count(Yi,A,Yj,B)代表数据集分类属性Yi的取值A时,分类属性Yj的取值为B的数据量,n为数据集总数据量;
1.3.3对Qi,j中的每个二项式均计算其对应的支持度,并针对Yi的每个取值A∈{Yi},获取支持度最大二项式max(supp(A,B));
1.3.4以支持度最大的二项式为基础,以集合中的其他项支持度作为惩罚项,计算得到正相关系数forward_coor,
1.3.5同理可得Qi,j对应的反向二项式集合Qj,i中的相关性系数;
1.4取正反向相关系数的较小值作为该两的相关系数β;
β(i,j)=β(j,i)=min(forward_coor(i,j),back_coor(i,j))
特别的,如果β(i,j)≤0则说明不相关;
1.5遍历中所有分类属性列的两两组合,计算其相关系数,保留相关系数大于指定阈值的属性,将两字段值进行拼接,构建联合属性列Yi,j;
S2:计算分类属性的异常评分。本步骤算法伪代码见图2。
2.1统计数据集X={x1,x2,...,xn}的数据总数n;
2.2针对每一个分类属性以及前面通过关联性分析生成的联合属性列Y,统计其特征值yi的数据量|yi|;
2.3计算各分类属性列Y的熵HX(Y)=-∑p(yi)*log(p(yi))
其中p是包含特征值yi的数据在数据集X中的占比,公式为
2.4计算各分类属性权重wX(Y),其公式为对于独立属性,β为0;
2.5针对每条数据x0,计算其信息载荷
2.6对每条数据x0分类属性的加信息载荷ΔHx0进行Min-Max归一化,将其转为值域为[0,1]的小数,作为x0的离散属性异常评分score;
注:利用s1~s2步骤,可以实现单纯分类属性的数据集的异常检测。
S3:针对每个分类属性列的每个分类属性值,评估其连续属性异常评分
3.1对于中每一个分类属性Y,遍历其可能的每一种特征值yi;
3.2针对每一个yi,从数据集X中选择当前属性值为yi的全部连续属性,构造yi的异常评估向量集;
3.3针对步骤3.2所得的数据,如果数据量百分比超过指定阈值Tmin,则训练孤立森林模型;(注:孤立森林模型伪代码见图3.对于单纯由数值型属性构成的数据集,可直接采用孤立森林算法构建异常检测模型)
3.4对每条数据x0的每个分类属性值yi,如果其数据量百分比小于阀值Tmin,则直接给出异常系数0;否则利用步骤3.3所构建的模型评估连续异常系数Scoreyi;
3.5完成x0的每一个分类属性值对应的连续异常系数评估之后,取其均值,作为x0的总体异常系数m为x0参与连续属性异常评分的离散属性数量;
S4:根据步骤2所得的Scorec和步骤3所得的Scoren计算整体异常系数,公式为
数据的总体异常系数score为介于[0,1]之间的一个实数,其值越大,表明当前数据异常嫌疑越大,因此根据该score值可以开展混合数据的异常数据识别。
上述方法不仅仅可以用于结构化的混合数据异常识别,而且其计算分类属性异常值部分,可以单独应用于分类数据的异常检测;其后面的连续属性异常评分部分可以单独应用于数值型数据的异常检测,因此本方法是一套普适的结构化数据异常检测方法。
实验数据以及算法有效性验证:
国家电网某网省在数据中台建设过程中,为提高数据价值需要对全省一千多万电力用户的电力基础档案参数开展数据治理。
实验中针对给出的100万脱敏数据,采用对比验证的方法进行:先使用业务专家给出的专家规则对实验数据进行异常识别,然后再利用本算法对实验数据进行异常检测;最后对两个结果进行如下对比:
1.有效性对比:对比算法检测结果对人工经验结果的覆盖率。覆盖率越高则证明算法的有效性越高;
2.普适性分析:对于算法识别出来而人工经验规则未覆盖到的异常数据,由业务专家进行评判是否确实属于异常。如果确实属于异常,说明算法是普适的,具备智能化识别新异常的能力。
实验中的部分脱敏数据如下表:
1.规则的覆盖度分析:根据上述算法,对score的异常程度进行排序(SCORE评分越大越正常),取不同的异常阈值后100万数据中所识别的疑似异常数据以及对前述专家规则异常的覆盖情况如下表所示:
由上表可知:在异常score阈值设置为0.42(异常数据占比为2%)的前提下,本算法可以完美的覆盖规则识别的异常,证明了算法的有效性;
2.普适性验证:对于实验中算法识别出、而规则没有识别出的相关异常数据,随机抽样请不同的业务专家进行分析,部分数据如下:
/>
业务专家对上述数据解读如下:
·记录1:这条记录电压等级为380V,但接线方式却采用单相是不正确的;立户日期与送电日期明显有误;故此记录为异常数据;
·记录2:用电容量与合同容量不符;低供低计的低压居民生活用电综合倍率过高;属于明显的异常数据;
·记录3:台区停用,但是线路和计量点状态确实是正常的,属于业务处理异常;
·记录4:电压为380v却采用单相,业务上处于错配;用电容量远远超出合同容量,属于明显的异常数据;
·记录5:居民用电,其合同容量与运行容量数值异常;
综上表明,算法确实可以有效的发现经验规则所没有覆盖到的问题,能够更好的识别异常数据提升数据质量,表明算法是普适的。
基于上述算法,开发有如图4所示的一种基于支持非独立分布混合数据的异常检测方法的混合数据异常检测系统,包括:
元数据管理模块,用于管理业务系统所需的数据模型、数据来源、数据标准等信息,以便实现规范化的数据采集、集成、治理等操作;
数据集成模块,用于根据元数据管理模块中所记录的信息,从对应的数据源中采集所需的数据;
数据管理模块,用于管理数据采集与集成模块所构建的数据,规划和管理文件实际存储路径,管理数据的生命周期与历史记录,提供与外界业务系统的交互工作、对外界增删改查的申请进行回应和校验;
任务管理与调度模块,用于记录和管理需要进行异常检测任务,配置管理各项任务所需的参数,执行流程进行规划、顺序调用具体的异常检测任务,并在发生异常时进行警报;
数据关联模块,用于将分别存储于不同表中的信息进行关联整合,构建联合宽表,以便后续算法能够将数据的离散型特征与连续型特征放在一起进行统一分析;
特征变换模块,用于通过对数据关联模块所构建的数据进行一定的变换和整合,变更字段类型、构建特征向量,生成能够被后续算法直接利用的特征数据;
模型训练模块,用于基于构建好的特征,进行分类数据的统计,完成分类属性相关性分析,针对每一个分类属性值构建其对应的孤立森林模型,供后续异常检测模块调用;
异常评估模块,用于调用模型训练模块所构建的模型,完成分类属性异常评估以及对应的连续属性异常值评估,并合并生成最终的异常评估值;
结果管理模块,用于根据需要,根据异常评估结果,实现疑似异常数据筛选、异常结果输出等工作。
基于本算法构建的系统可以适用于结构化混合数据、单纯的分类数据、单纯的数值型数据三种不同目的智能化异常检测,可以极大的提升异常检测的效率和普适性,尤其是在数据治理、工业异常检测应用中。
上述方案所述的“非独立属性混合数据异常检测算法”本质上通过一系列的算法进行组装以达到混合属性异常检测效果。因而其中以信息熵为基础计算信息载荷实现分类属性部分异常评分与检测、以孤立森林算法实现连续属性部分的异常评分检测,仅仅是我方依据理论分析与实际经验做出的优选,使用类似算法作为替代也可以达成相似目标,这种情况不应脱离本专利申请所保护的范围。
上述实施例只是为了说明本发明的结构构思和特点,其目的在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限定本发明的保护范围。凡是根据本发明内容的实质所做出的等效变化或修饰,都应该涵盖在本发明的保护范围之内。
Claims (3)
1.一种电力系统结构化数据异常检测方法,其特征在于:包括以下步骤:
S1:计算混合属性中各分类属性的相关性,对非独立分布属性构建联合属性;
1.1令表示为数据集中分类属性的集合,针对/>中的每个分类属性Y,计算其每个特征值的支持度,并根据预定义的最大支持度阈值,将存在特征值支持度大于阈值的属性列视为独立属性列,并将其从属性集合/>中剔除;其中单个特征值支持度的计算公式为
,
其中n为总数据量,count(A)代表分类属性Y的特征值为A的数据量;
1.2 在1.1 执行完毕之后, 中剩余的属性构成了形成待分析相关性的属性集合/>;
1.3针对中的每个分类属性Y,计算其与其他属性的的正向和反向相关系数,方法如下:
1.3.1分析属性列 和/> 的正向相关系数时,将属性列/> 的每一特征值 />(表示属性列当前的特征值为A)分别与属性列 />中的所有特征值/>进行组合,形成一个二项式集合 /> ;反向同理 /> ;
1.3.2对集合 中的每个属性值对,计算其对应的支持度;
其中属性值对的支持度计算公式为
其中代表数据集分类属性 /> 的取值A时,分类属性 /> 的取值为B的数据量, n为数据集总数据量;
1.3.3对 中的每个二项式均计算其对应的支持度,针对/>的每个取值 />获取支持度最大二项式 />;
1.3.4以支持度最大的二项式为基础,以集合中的其他项支持度作为惩罚项,计算得到正相关系数 forward_coor,
1.3.5同理可得对应的反向二项式集合/>中的相关性系数;
1.4取正反向相关系数的较小值作为该两字段的相关系数β;
如果 则说明不相关;
1.5遍历 中所有分类属性列的两两组合,计算其相关系数,保留相关系数大于指定阈值的属性,将两字段值进行拼接,构建联合属性列 /> ;
S2:计算分类属性的异常评分
2.1统计数据集的数据总数n;
2.2针对每一个分类属性以及前面通过关联性分析生成的联合属性列Y,统计其特征值的数据量/>;
2.3计算各分类属性列Y的熵
其中p是包含特征值yi的数据在数据集X中的占比,公式为 ;
2.4计算各分类属性权重 ,其公式为
对于独立属性,β为0;
2.5针对每条数据x0,计算其信息载荷 ;
2.6对每条数据x0分类属性的加信息载荷进行Min-Max归一化,将其转为值域为[0,1]的小数,作为x0的离散属性的异常评分score;
注:利用s1~s2 步骤,可以实现单纯分类属性的数据集的异常检测;
S3:针对每个分类属性列的每个分类属性值,评估其连续属性异常评分
3.1对于中每一个分类属性Y,遍历其可能的每一种特征值/> ;
3.2针对每一个 ,从数据集X 中选择当前属性值为 />的全部连续属性,构造 />的异常评估向量集;
3.3针对步骤3.2所得的数据,如果数据量百分比超过指定阈值Tmin,则训练孤立森林模型;
3.4对每条数据x0的每个分类属性值 ,如果其数据量百分比小于阀值Tmin,则直接给出异常系数0,否则利用步骤3.3所构建的模型评估连续异常系数 />;
3.5完成x0的每一个分类属性值对应的连续异常系数评估之后,取其均值,作为x0的总体异常系数m为x0参与连续属性异常评分的离散属性数量;
S4:根据步骤2所得的 和步骤3所得的 /> 计算整体异常系数,公式为
输入数据包括电压等级、接线方式、用电容量、合同容量、综合倍率。
2.根据权利要求1所述的一种电力系统结构化数据异常检测方法,其特征是:数据的总体异常系数 score为介于[0,1]之间的一个实数,其值越大,表明当前数据异常嫌疑越大,因此根据该score值可以开展混合数据的异常数据识别。
3.一种基于电力系统结构化数据异常检测方法的检测系统,其特征在于:包括
元数据管理模块,用于管理业务系统所需的数据模型、数据来源、数据标准信息,以便实现规范化的数据采集、集成、治理操作;
数据集成模块,用于根据元数据管理模块中所记录的信息,从对应的数据源中采集所需的数据;
数据管理模块,用于管理数据采集与集成模块所构建的数据,规划和管理文件实际存储路径,管理数据的生命周期与历史记录,提供与外界业务系统的交互工作、对外界增删改查的申请进行回应和校验;
任务管理与调度模块,用于记录和管理需要进行异常检测任务,配置管理各项任务所需的参数,执行流程进行规划、顺序调用具体的异常检测任务,并在发生异常时进行警报;
数据关联模块,用于将分别存储于不同表中的信息进行关联整合,构建联合宽表,以便后续算法能够将数据的离散型特征与连续型特征放在一起进行统一分析;
特征变换模块,用于通过对数据关联模块所构建的数据进行一定的变换和整合,变更字段类型、构建特征向量,生成能够被后续算法直接利用的特征数据;
模型训练模块,用于基于构建好的特征,进行分类数据的统计,完成分类属性相关性分析,针对每一个分类属性值构建其对应的孤立森林模型,供后续异常检测模块调用;
异常评估模块,用于调用模型训练模块所构建的模型,完成分类属性异常评估以及对应的连续属性异常值评估,并合并生成最终的异常评估值;
结果管理模块,用于根据需要,根据异常评估结果,实现疑似异常数据筛选、异常结果输出工作;
输入数据包括电压等级、接线方式、用电容量、合同容量、综合倍率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110528743.6A CN113240010B (zh) | 2021-05-14 | 2021-05-14 | 一种支持非独立分布混合数据的异常检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110528743.6A CN113240010B (zh) | 2021-05-14 | 2021-05-14 | 一种支持非独立分布混合数据的异常检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113240010A CN113240010A (zh) | 2021-08-10 |
CN113240010B true CN113240010B (zh) | 2023-10-24 |
Family
ID=77134405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110528743.6A Active CN113240010B (zh) | 2021-05-14 | 2021-05-14 | 一种支持非独立分布混合数据的异常检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113240010B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116913525B (zh) * | 2023-09-12 | 2024-02-06 | 北京万物成理科技有限公司 | 特征组归一化方法、装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052528A (zh) * | 2017-11-09 | 2018-05-18 | 华中科技大学 | 一种存储设备时序分类预警方法 |
CN110852860A (zh) * | 2019-11-15 | 2020-02-28 | 惠州大亚湾聚联信息科技有限公司 | 车辆维修报销行为异常检测方法、设备及存储介质 |
CN110866782A (zh) * | 2019-11-06 | 2020-03-06 | 中国农业大学 | 一种客户分类方法、系统以及电子设备 |
CN111768082A (zh) * | 2020-06-02 | 2020-10-13 | 广东电网有限责任公司 | 一种基于大数据分析的电力设备状态评估方法 |
CN112270553A (zh) * | 2020-11-09 | 2021-01-26 | 浪潮软件股份有限公司 | 基于孤立森林算法的恶意注册企业行为识别方法及系统 |
-
2021
- 2021-05-14 CN CN202110528743.6A patent/CN113240010B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052528A (zh) * | 2017-11-09 | 2018-05-18 | 华中科技大学 | 一种存储设备时序分类预警方法 |
CN110866782A (zh) * | 2019-11-06 | 2020-03-06 | 中国农业大学 | 一种客户分类方法、系统以及电子设备 |
CN110852860A (zh) * | 2019-11-15 | 2020-02-28 | 惠州大亚湾聚联信息科技有限公司 | 车辆维修报销行为异常检测方法、设备及存储介质 |
CN111768082A (zh) * | 2020-06-02 | 2020-10-13 | 广东电网有限责任公司 | 一种基于大数据分析的电力设备状态评估方法 |
CN112270553A (zh) * | 2020-11-09 | 2021-01-26 | 浪潮软件股份有限公司 | 基于孤立森林算法的恶意注册企业行为识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113240010A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109308571B (zh) | 配电线路线变关系检测方法 | |
CN103093394B (zh) | 一种基于用户用电负荷数据细分的聚类融合方法 | |
CN106991524A (zh) | 一种台区线损率预估方法 | |
CN103632203A (zh) | 一种基于综合评价的配电网供电区域划分方法 | |
CN111210170B (zh) | 基于90%用电分布特征指标的环保管控监测及评价方法 | |
CN111062620B (zh) | 基于混合计费数据的电力计费公平性智能分析系统及方法 | |
CN105023042A (zh) | 基于大数据神经网络算法的用户窃电嫌疑分析装置及方法 | |
CN113064866A (zh) | 一种电力业务数据整合系统 | |
CN112149873A (zh) | 一种基于深度学习的低压台区线损合理区间预测方法 | |
CN111738462A (zh) | 电力计量装置故障抢修主动服务预警方法 | |
CN112184489A (zh) | 一种电力用户分群管理系统及方法 | |
CN110188122A (zh) | 一种用于不同线损行为间的关联关系分析方法 | |
CN112184484A (zh) | 一种电力用户差异化服务方法及系统 | |
CN113240010B (zh) | 一种支持非独立分布混合数据的异常检测方法及系统 | |
CN106951993A (zh) | 一种电能量数据预估方法 | |
Suo et al. | Computer assistance analysis of power grid relay protection based on data mining | |
CN105354622A (zh) | 基于模糊综合评判的企业生产管理评价方法 | |
CN115905319B (zh) | 一种海量用户电费异常的自动识别方法及系统 | |
CN112488360B (zh) | 基于人工智能的配变异常分析预警方法 | |
CN112001551B (zh) | 一种基于大用户电量信息的地市电网售电量预测方法 | |
CN104268804A (zh) | 基于层次化数据包络分析的电力优质客户数据挖掘方法 | |
CN112184035A (zh) | 一种客户特征要素统计系统及方法 | |
CN111709602A (zh) | 一种泛在电力物联网系统中可靠性的评价方法 | |
CN110727801A (zh) | 基于本体的模糊评价搜索引擎广告优化方法 | |
Tao et al. | Power consumption behavior analysis for customer side flexible resources based on data mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |