CN113240010B

CN113240010B - 一种支持非独立分布混合数据的异常检测方法及系统

Info

Publication number: CN113240010B
Application number: CN202110528743.6A
Authority: CN
Inventors: 于瑞强; 杜星学; 李锐; 雷丙华; 徐国智; 王学峰; 赵轩臣; 陈本权; 孙汉福; 赵勇; 刘效强
Original assignee: YANTAI HAIYI SOFTWARE CO Ltd
Current assignee: YANTAI HAIYI SOFTWARE CO Ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2023-10-24
Anticipated expiration: 2041-05-14
Also published as: CN113240010A

Abstract

本发明涉及结构化数据异常检测领域，具体涉及一种支持非独立分布混合数据的异常检测方法及系统。包括元数据管理模块，数据集成模块，数据管理模块，任务管理与调度模块，数据关联模块，特征变换模块，模型训练模块，异常评估模块，结果管理模块。基于本算法构建的系统可以适用于结构化混合数据、单纯的分类数据、单纯的数值型数据三种不同目的智能化异常检测，可以极大的提升异常检测的效率和普适性，尤其是在数据治理、工业异常检测应用中。

Description

一种支持非独立分布混合数据的异常检测方法及系统

技术领域

本发明涉及结构化数据异常检测领域，具体涉及一种支持非独立分布混合数据的异常检测方法及系统。

背景技术

所谓混合属性，是指构成数据行的数据属性(特征)列中，既包括了分类(离散)属性(如表示民族的汉族、蒙古族、回族等)，又包括了可以比较大小的数值(连续)型属性(如表示身高的cm数值)。

由于现实世界的数据具有多源、异构、高维等特征，在经过采集、通信、入库存储等环节之后，形成的数据质量较低，数据处理成本高，因为异常数据的存在导致难以进行更深层次的数据挖掘和管理工作，严重制约数据价值的发挥。以电力系统为例，电力用户的客户档案、设备档案以及量费信息之间往往存在着不一致、违反业务逻辑的情况。例如居民户收取变损电费、220v电压采用三相四线制电表等。以往传统的问题数据排查方式是由业务专家针对常见的问题制定核查规则，然后执行规则核查发现问题数据。

基于规则识别异常数据有难以克服的问题：

首先，规则的生成及维护全程需要人工进行干预，过于依赖业务专家的专业知识；

其次，专家制定的每条规则往往仅能针对特定的领域、特定的属性或者特定的数值，无法通用，业务灵活的适应新变化；

更为关键的是，规则仅仅是专家可以明确归纳的业务知识的显性表达，而事实上专家无法预先掌握所有的异常情况并都进行有效的归纳。而真实数据所涉及的异常情况各种各样，随着社会的发展，不断产生新的数据从而导致新的异常情况不断涌现。但是规则需要人工制定，而制定规则需要先发现问题，这就导致规则核查存在较为严重的滞后性和局限性；

通过机器学习等手段进行异常检测正在蓬勃发展。但是目前相关研究主要以单独针对单纯的离散型数据或者单纯的连续型数据进行异常数据识别的算法为主流。能够既兼顾单纯的离散型或者数值型数据，又可以支持混合型数据的异常检测的方法少之又少。而针对离散型数据进行异常检测的算法又多以“各列独立”为前提条件，这个前提过于苛刻，无法满足实际业务的需求。

发明内容

针对当前主流的“人工制定规则”的混合数据异常数据排查模式进行补充和代替，不同于当前机器学习领域主流的仅针对单纯的离散型或单纯的连续型数据异常检测算法，为实现对分类属性间存在关联关系的、混合型数据的异常识别工作，以及针对当前主流离散型数据异常核查算法以“各属性独立”为前提、难以发现由不同属性组合导致的异常情况，本发明的目的是提出一种无监督的、具备普适性的支持非独立混合属性数据的异常检测方法，以及一种依托该算法构建的异常数据检测系统。

为达到上述目的，本发明采取的技术方案为：一种支持非独立分布混合数据的异常检测方法，包括以下步骤：

S1:计算混合属性中各分类属性的相关性，计算混合属性中各分类属性的相关性；

1.1令表示为数据集中分类属性的集合，针对/>中的每个分类属性Y，计算其每个特征值的支持度，并根据预定义的最大支持度阈值，将存在特征值支持度大于阈值的属性列视为独立属性列，并将其从属性集合/>中剔除；

其中单个特征值支持度的计算公式为其中n为总数据量,count(A)代表分类属性Y的特征值为A的数据量；

1.2在1.1执行完毕之后，中剩余的属性构成了形成待分析相关性的属性集合

1.3针对中的每个分类属性Y，计算其与其他属性的的正向和反向相关系数，方法如下：

1.3.1分析属性列Y_i和Y_j的正向相关系数时，将属性列Y_i的每一特征值Y_i,A(表示属性列当前的特征值为A)分别与属性列Y_j中的所有特征值Y_j,B进行组合，形成一个二项式集合Q_i,j；反向同理Q_i,j；

1.3.2对集合Q_ij中的每个属性值对，计算其对应的支持度；

其中属性值对的支持度计算公式为

其中count(Y_i,A,Y_j,B)代表数据集分类属性Y_i的取值A时，分类属性Y_j的取值为B的数据量，n为数据集总数据量；

1.3.3对Q_i,j中每个二项式均计算其对应的支持度，针对Y_i的每个取值A∈{Y_i}，获取支持度最大二项式max(supp(A,B))；

1.3.4以支持度最大的二项式为基础，以集合中的其他项支持度作为惩罚项，计算得到正相关系数forward_coor，

1.3.5同理可得Q_i,j对应的反向二项式集合Q_j,i中的相关性系数；

1.4取正反向相关系数的较小值作为该两字段的相关系数β；

β(i,j)＝β(j,i)＝min(forward_coor(i,j),back_coor(i,j))

特别的，如果β(i,j)≤0则说明不相关；

1.5遍历中所有分类属性列的两两组合，计算其相关系数，保留相关系数大于指定阈值的属性，将两字段值进行拼接，构建联合属性列Y_i,j；

S2：计算分类属性的异常评分；

2.1统计数据集X＝{x₁,x₂,...,x_n}的数据总数n；

2.2针对每一个分类属性以及前面通过关联性分析生成的联合属性列Y，统计其特征值y_i的数据量|y_i|；

2.3计算各分类属性列Y的熵H_X(Y)＝-∑p(y_i)*log(p(y_i))

其中p是包含特征值y_i的数据在数据集X中的占比，公式为

2.4计算各分类属性权重w_X(Y)，其公式为

对于独立属性，β为0；

2.5针对每条数据x₀，计算其信息载荷

2.6对每条数据x₀分类属性的加信息载荷ΔH_x0进行Min-Max归一化,将其转为值域为[0,1]的小数,作为x₀的离散属性异常评分score；

注：利用s1～s2步骤，可以实现单纯分类属性的数据集的异常检测。

S3：针对每个分类属性列的每个分类属性值，评估其连续属性异常评分

3.1对于中每一个分类属性Y，遍历其可能的每一种特征值y_i；

3.2针对每一个y_i，从数据集X中选择当前属性值为y_i的全部连续属性，构造y_i的异常评估向量集；

3.3针对步骤3.2所得的数据，如果数据量百分比超过指定阈值T_min，则训练孤立森林模型；(注：孤立森林模型伪代码见图3.对于单纯由数值型属性构成的数据集，可直接采用孤立森林算法构建异常检测模型)

3.4对每条数据x₀的每个分类属性值y_i，如果其数据量百分比小于阀值T_min，则直接给出异常系数0；否则利用步骤3.3所构建的模型评估连续异常系数Score_yi；

3.5完成x₀的每一个分类属性值对应的连续异常系数评估之后，取其均值，作为x₀的总体异常系数m为x₀参与连续属性异常评分的离散属性数量；

S4：根据步骤2所得的Score_r和步骤3所得的Score_n计算整体异常系数，公式为

上述的支持非独立分布混合数据的异常检测方法，数据的总体异常系数score为介于[0,1]之间的一个实数，其值越大，表明当前数据异常嫌疑越大，因此根据该score值可以开展混合数据的异常数据识别。

基于上述支持非独立分布混合数据的异常检测方法的混合数据异常检测系统，包括

元数据管理模块，用于管理业务系统所需的数据模型、数据来源、数据标准信息，以便实现规范化的数据采集、集成、治理等操作；

数据集成模块，用于根据元数据管理模块中所记录的信息，从对应的数据源中采集所需的数据；

数据管理模块，用于管理数据采集与集成模块所构建的数据，规划和管理文件实际存储路径，管理数据的生命周期与历史记录，提供与外界业务系统的交互工作、对外界增删改查的申请进行回应和校验；

任务管理与调度模块，用于记录和管理需要进行异常检测任务，配置管理各项任务所需的参数，执行流程进行规划、顺序调用具体的异常检测任务，并在发生异常时进行警报；

数据关联模块，用于将分别存储于不同表中的信息进行关联整合，构建联合宽表，以便后续算法能够将数据的离散型特征与连续型特征放在一起进行统一分析；

特征变换模块，用于通过对数据关联模块所构建的数据进行一定的变换和整合，变更字段类型、构建特征向量，生成能够被后续算法直接利用的特征数据；

模型训练模块，用于基于构建好的特征，进行分类数据的统计，完成分类属性相关性分析，针对每一个分类属性值构建其对应的孤立森林模型，供后续异常检测模块调用；

异常评估模块，用于调用模型训练模块所构建的模型，完成分类属性异常评估以及对应的连续属性异常值评估，并合并生成最终的异常评估值；

结果管理模块，用于根据需要，根据异常评估结果，实现疑似异常数据筛选、异常结果输出工作。

本发明一种支持非独立分布混合数据的异常检测方法的有益效果是：

上述方法提出了一种实用、可靠的混合数据的异常数据分析方法，上述方法可适用于属性非独立的混合数据的异常检测。

1、本发明对当前基于规则排查异常数据人力花费高、反应速度慢、准确度不足的问题提出了智能化的方法。

2、本发明提出了一种针对存在列间关系的、混合型数据的异常检测算法。

本发明一种基于支持非独立分布混合数据的异常检测方法的混合数据异常检测系统的有益效果是：

基于本算法构建的系统可以适用于结构化混合数据、单纯的分类数据、单纯的数值型数据三种不同目的智能化异常检测，可以极大的提升异常检测的效率和普适性，尤其是在数据治理、工业异常检测应用中。

上述方法虽然冠以“一种支持非独立分布混合数据的异常检测算法”，但实际上，本算法不仅仅可以用于结构化的混合数据异常识别，而且其计算分类属性异常值部分，可以单独应用于分类数据的异常检测；其后面的连续属性异常评分部分可以单独应用于数值型数据的异常检测，因此本方法是一套普适的结构化数据异常检测方法。

附图说明

图1为本发明中计算分类属性相关性的伪代码；

图2为本发明中计算分类属性异常评分的伪代码；

图3为本发明中采用孤立森林模型计算数值型向量的异常评分的伪代码；

图4为本发明中一种基于支持非独立分布混合数据的异常检测方法的混合数据异常检测系统的工作流程示意图。

具体实施方式

为使本领域技术人员更好的理解本发明的技术方案，下面结合附图及具体实施方式对本发明的内容进行详细说明。

如图1-4所示，一种支持非独立分布混合数据的异常检测方法，包括以下步骤：

S1:计算混合属性中各分类属性的相关性，计算混合属性中各分类属性的相关性。本步骤算法伪代码见图1。

1.3.1分析属性列Y_i和Y_j的正向相关系数时，将属性列Y_j的每一特征值Y_i,A(表示属性列当前的特征值为A)分别与属性列Y_j中的所有特征值Y_j,B进行组合，形成一个二项式集合Q_i,j；反向同理Q_j,i；

1.3.2对集合Q_i,j中的每个属性值对，计算其对应的支持度；

其中属性值对的支持度计算公式为

1.3.3对Q_i,j中的每个二项式均计算其对应的支持度，并针对Y_i的每个取值A∈{Y_i},获取支持度最大二项式max(supp(A,B))；

1.4取正反向相关系数的较小值作为该两的相关系数β；

β(i,j)＝β(j,i)＝min(forward_coor(i,j),back_coor(i,j))

特别的，如果β(i,j)≤0则说明不相关；

S2：计算分类属性的异常评分。本步骤算法伪代码见图2。

2.1统计数据集X＝{x₁,x₂,...,x_n}的数据总数n；

2.3计算各分类属性列Y的熵H_X(Y)＝-∑p(y_i)*log(p(y_i))

其中p是包含特征值y_i的数据在数据集X中的占比，公式为

2.4计算各分类属性权重w_X(Y)，其公式为对于独立属性，β为0；

2.5针对每条数据x₀，计算其信息载荷

3.1对于中每一个分类属性Y，遍历其可能的每一种特征值y_i；

S4：根据步骤2所得的Score_c和步骤3所得的Score_n计算整体异常系数，公式为

数据的总体异常系数score为介于[0,1]之间的一个实数，其值越大，表明当前数据异常嫌疑越大，因此根据该score值可以开展混合数据的异常数据识别。

上述方法不仅仅可以用于结构化的混合数据异常识别，而且其计算分类属性异常值部分，可以单独应用于分类数据的异常检测；其后面的连续属性异常评分部分可以单独应用于数值型数据的异常检测，因此本方法是一套普适的结构化数据异常检测方法。

实验数据以及算法有效性验证：

国家电网某网省在数据中台建设过程中，为提高数据价值需要对全省一千多万电力用户的电力基础档案参数开展数据治理。

实验中针对给出的100万脱敏数据，采用对比验证的方法进行：先使用业务专家给出的专家规则对实验数据进行异常识别，然后再利用本算法对实验数据进行异常检测；最后对两个结果进行如下对比：

1.有效性对比：对比算法检测结果对人工经验结果的覆盖率。覆盖率越高则证明算法的有效性越高；

2.普适性分析：对于算法识别出来而人工经验规则未覆盖到的异常数据，由业务专家进行评判是否确实属于异常。如果确实属于异常，说明算法是普适的，具备智能化识别新异常的能力。

实验中的部分脱敏数据如下表：

1.规则的覆盖度分析：根据上述算法，对score的异常程度进行排序(SCORE评分越大越正常)，取不同的异常阈值后100万数据中所识别的疑似异常数据以及对前述专家规则异常的覆盖情况如下表所示：

由上表可知：在异常score阈值设置为0.42(异常数据占比为2％)的前提下，本算法可以完美的覆盖规则识别的异常，证明了算法的有效性；

2.普适性验证：对于实验中算法识别出、而规则没有识别出的相关异常数据，随机抽样请不同的业务专家进行分析，部分数据如下：

/>

业务专家对上述数据解读如下：

·记录1:这条记录电压等级为380V，但接线方式却采用单相是不正确的；立户日期与送电日期明显有误；故此记录为异常数据；

·记录2:用电容量与合同容量不符；低供低计的低压居民生活用电综合倍率过高；属于明显的异常数据；

·记录3:台区停用，但是线路和计量点状态确实是正常的，属于业务处理异常；

·记录4:电压为380v却采用单相，业务上处于错配；用电容量远远超出合同容量，属于明显的异常数据；

·记录5:居民用电，其合同容量与运行容量数值异常；

综上表明，算法确实可以有效的发现经验规则所没有覆盖到的问题，能够更好的识别异常数据提升数据质量，表明算法是普适的。

基于上述算法，开发有如图4所示的一种基于支持非独立分布混合数据的异常检测方法的混合数据异常检测系统，包括：

元数据管理模块，用于管理业务系统所需的数据模型、数据来源、数据标准等信息，以便实现规范化的数据采集、集成、治理等操作；

结果管理模块，用于根据需要，根据异常评估结果，实现疑似异常数据筛选、异常结果输出等工作。

上述方案所述的“非独立属性混合数据异常检测算法”本质上通过一系列的算法进行组装以达到混合属性异常检测效果。因而其中以信息熵为基础计算信息载荷实现分类属性部分异常评分与检测、以孤立森林算法实现连续属性部分的异常评分检测，仅仅是我方依据理论分析与实际经验做出的优选，使用类似算法作为替代也可以达成相似目标，这种情况不应脱离本专利申请所保护的范围。

上述实施例只是为了说明本发明的结构构思和特点，其目的在于让本领域内的普通技术人员能够了解本发明的内容并据以实施，并不能以此限定本发明的保护范围。凡是根据本发明内容的实质所做出的等效变化或修饰，都应该涵盖在本发明的保护范围之内。

Claims

1.一种电力系统结构化数据异常检测方法，其特征在于：包括以下步骤：

S1:计算混合属性中各分类属性的相关性,对非独立分布属性构建联合属性；

1.1令表示为数据集中分类属性的集合，针对/>中的每个分类属性Y，计算其每个特征值的支持度，并根据预定义的最大支持度阈值，将存在特征值支持度大于阈值的属性列视为独立属性列，并将其从属性集合/>中剔除；其中单个特征值支持度的计算公式为

，

其中n为总数据量,count(A)代表分类属性Y的特征值为A的数据量；

1.2 在1.1 执行完毕之后，中剩余的属性构成了形成待分析相关性的属性集合/>；

1.3.1分析属性列和/> 的正向相关系数时，将属性列/> 的每一特征值 />(表示属性列当前的特征值为A)分别与属性列 />中的所有特征值/>进行组合，形成一个二项式集合 /> ；反向同理 /> ；

1.3.2对集合中的每个属性值对，计算其对应的支持度；

其中属性值对的支持度计算公式为

其中代表数据集分类属性 /> 的取值A时，分类属性 /> 的取值为B的数据量， n为数据集总数据量；

1.3.3对中的每个二项式均计算其对应的支持度，针对/>的每个取值 />获取支持度最大二项式 />；

1.3.4以支持度最大的二项式为基础，以集合中的其他项支持度作为惩罚项，计算得到正相关系数 forward_coor，

1.3.5同理可得对应的反向二项式集合/>中的相关性系数；

1.4取正反向相关系数的较小值作为该两字段的相关系数β；

如果则说明不相关；

1.5遍历中所有分类属性列的两两组合，计算其相关系数，保留相关系数大于指定阈值的属性，将两字段值进行拼接，构建联合属性列 /> ；

S2：计算分类属性的异常评分

2.1统计数据集的数据总数n；

2.2针对每一个分类属性以及前面通过关联性分析生成的联合属性列Y，统计其特征值的数据量/>；

2.3计算各分类属性列Y的熵

其中p是包含特征值yi的数据在数据集X中的占比，公式为；

2.4计算各分类属性权重，其公式为

对于独立属性，β为0；

2.5针对每条数据x0，计算其信息载荷；

2.6对每条数据x0分类属性的加信息载荷进行Min-Max归一化,将其转为值域为[0,1]的小数,作为x0的离散属性的异常评分score；

注：利用s1~s2 步骤，可以实现单纯分类属性的数据集的异常检测；

3.1对于中每一个分类属性Y，遍历其可能的每一种特征值/> ；

3.2针对每一个，从数据集X 中选择当前属性值为 />的全部连续属性，构造 />的异常评估向量集；

3.3针对步骤3.2所得的数据，如果数据量百分比超过指定阈值Tmin，则训练孤立森林模型；

3.4对每条数据x0的每个分类属性值，如果其数据量百分比小于阀值Tmin，则直接给出异常系数0，否则利用步骤3.3所构建的模型评估连续异常系数 />；

3.5完成x0的每一个分类属性值对应的连续异常系数评估之后，取其均值，作为x0的总体异常系数m为x0参与连续属性异常评分的离散属性数量；

S4：根据步骤2所得的和步骤3所得的 /> 计算整体异常系数，公式为

输入数据包括电压等级、接线方式、用电容量、合同容量、综合倍率。

2.根据权利要求1所述的一种电力系统结构化数据异常检测方法，其特征是：数据的总体异常系数 score为介于[0,1]之间的一个实数，其值越大，表明当前数据异常嫌疑越大，因此根据该score值可以开展混合数据的异常数据识别。

3.一种基于电力系统结构化数据异常检测方法的检测系统，其特征在于：包括

元数据管理模块，用于管理业务系统所需的数据模型、数据来源、数据标准信息，以便实现规范化的数据采集、集成、治理操作；

结果管理模块，用于根据需要，根据异常评估结果，实现疑似异常数据筛选、异常结果输出工作；