CN111080502A

CN111080502A - 一种区域企业数据异常行为的大数据识别方法

Info

Publication number: CN111080502A
Application number: CN201911299008.1A
Authority: CN
Inventors: 何炜琪; 陈蓉; 刘娜
Original assignee: Research Institute For Environmental Innovation (suzhou) Tsinghua
Current assignee: Xunfei Qinghuan Suzhou Technology Co ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-04-28
Anticipated expiration: 2039-12-17
Also published as: CN111080502B

Abstract

本发明公开了一种区域企业数据异常行为的大数据识别方法，包括：将区域企业数据进行数据清洗；对数据清洗后的数据进行预处理，所述预处理包括数据标准化和属性值规范化；建立多种概率分布模型，进行概率分布识别，从多种概率分布模型中判断出与企业数据最为接近的分布模型；根据判断出的分布模型，使用处理后的数据画出该分布的理论累积概率分布图，并与该数据的实际累积概率分布图对比，根据排放标准x处的实际累积概率与理论累积概率的差值判断企业是否存在数据异常行为。本发明是通用、普适的区域企业数据异常行为可能性定量判断方法，基于大数据分析，不依赖于企业具体造假手段，提高执法工作的针对性和有效性。

Description

一种区域企业数据异常行为的大数据识别方法

技术领域

本发明属于环境诊断技术领域，具体地涉及一种区域企业数据异常行为的大数据识别方法。

背景技术

环境质量是公众关注的焦点，如何更好地利用现有数据管理污染源企业成为相关机构的难题。对于污染源防作弊的现状，主要可归结为三方面：视频监控检测过程，及工作人员凭借观察数据，比如检测值过大或者过小等进行判断。目前，作弊数据只能通过人工审核，经验审核。甚至，更多的情况是接受到了民众的投诉，政府部门按照流程进行督查，效果甚微。对于海量数据，人工成本很高，每天每个污染源企业会产生上百条监测数据，那么人工审核效率低下。使用机器远程实时监控，又不能保证视频监控的可靠性。并且其诊断模型所需数据量较大，若数据量过小则影响最终精确度；默认存在一个假设前提：企业排放污染物浓度连续。

中国专利文献CN 110245880 A公开了一种污染源在线监控数据作弊识别方法，包含数据预处理、固定规则筛查、视频门禁、现场稽查和基于机器学习的规则优化。其中，固定规则筛查，包括企业作弊规则筛查、企业仪器故障筛查和运维单位异常筛查。视频门禁是一种查找企业是否作弊的工具，视频和门禁报警会在系统展现。现场稽查是对固定规则筛查结果数据以及视频门禁的现场核实，可以得出企业是否作弊、是否仪器故障、运维单位是否运维记录作假等结果，机器学习是基于现场稽查的反馈优化规则，使得固定筛查结果可信度更高。该方法主要用于解决企业偷排废水废气、在线监控运维不规范等问题，同时可以辅助用户的决策分析。因此该方法决策分析并不是主要的功能，无法定量化分析企业污染物排放数据造假的可能性。

发明内容

针对上述存在的技术问题，本发明的目的是提供一种区域企业数据异常行为的大数据识别方法，本发明是通用、普适的区域企业数据(污染排放数据)异常(造假)行为可能性定量判断方法，对异常行为可能性进行定量判断，基于大数据分析，不依赖于企业具体造假手段，提高执法工作的针对性和有效性。

本发明的技术方案是：

一种区域企业数据异常行为的大数据识别方法，包括以下步骤：

S01：将区域企业数据进行数据清洗；

S02：对数据清洗后的数据进行预处理，所述预处理包括数据标准化和属性值规范化；

S03：建立多种概率分布模型，进行概率分布识别，从多种概率分布模型中判断出与企业数据最为接近的分布模型；

S04：根据判断出的分布模型，使用处理后的数据画出该分布的理论累积概率分布图，并与该数据的实际累积概率分布图对比，根据排放标准x处的实际累积概率与理论累积概率的差值判断企业是否存在数据异常行为。

优选的技术方案中，所述步骤S01中数据清洗包括以下步骤：

S11：对各种不同格式的数据形式的原始数据，对其进行数值化操作；

S12：通过线性或非线性映射将样本从高维空间映射到低维空间；

S13：根据数据的具体对象判断数据的异常值，对数据异常值进行处理；

S14：对数据缺失值进行处理。

优选的技术方案中，所述步骤S13中异常值的判断方法包括，统计分析的方法识别数据，规则库检查数据，或使用不同属性间的约束、外部的数据检测。

优选的技术方案中，所述步骤S14中数据缺失值的处理包括：

对录入数据进行人工补充；当数据存在规律性且对数据的精度要求不高时，缺失值使用概率估计代替；对于随机性较强，或数据长期缺失的情况，对该段数据进行弃用或视为无数据。

优选的技术方案中，所述步骤S02中数据标准化包括，将数据按比例缩放，使之落入一统一区间；去除数据的单位限制，将其转化为无量纲的纯数值；数据标准化方法包括极值法、标准差法和比例法。

优选的技术方案中，所述步骤S03中建立的多种概率分布模型包括正态分布、均匀分布、指数分布、逻辑斯蒂分布、贝塔分布、对数正态分布及伽马分布。

优选的技术方案中，所述步骤S03中从多种概率分布模型中判断出与企业数据最为接近的分布模型的方法包括：

S31：根据得到的数据绘制数据集偏度峰度图，根据数据集偏度峰度图，找出与数据集偏度峰度观察点接近的分布，初步筛选得到概率分布模型；

S32：计算数据集的标准误差、Kolmogorov-Smirnov统计量、Anderson-Darling统计量和Cramér-von Mises统计量，根据不同的统计量的最优分布，定量确定最终的概率分布模型。

优选的技术方案中，所述步骤S04包括数据可信度分析，具体包括：

S41：进行断点回归，断点回归的基础模型设定如下：

Y＝α+β×S+σ×D+ε

式中，Y是结果变量，也称为产出变量，S为分界变量，D为处置变量，a和σ为随机变量，β为变量系数，ε为随机误差；

S42：采用模糊断点，S在判断标准

处的跳跃式断点为：

式中，

和

分别代表在外生标准的两端，从正向和负向无限趋近于

的两种情况；

S43：将样本点和决定处置的关键变量在坐标系中描述出来，查看临界值附近的样本点是否存在跳跃，如果样本点存在跳跃，则存在处置效应，反之，则断点回归的模型识别存在问题；

S44：对断点回归的结果进行稳健性检验，首先，检验其他控制变量在临界值处是否存在跳跃，如果其他控制变量在临界值处存在跳跃，那么被解释变量在临界值处的跳跃将不仅仅是由于处置效应所带来的，使得断点回归不能进行有效的因果推断；

S45：其次，检验决定处置的关键变量的条件密度是否存在不连续的情况，如果条件密度发生跳跃，那么说明存在个体操作关键变量的可能，进一步计算每个箱体中样本的数量，将其作为纵轴，将关键变量作为横轴，通过图形和回归分析考察关键变量的分布在临界值处是否存在跳跃，如果存在跳跃，则个体存在操作处置的可能，从而使断点回归方法失效；

S46：再次，检验当临界值取其他值时，变量是否存在跳跃，如果变量不仅在临界值处存在跳跃，而且也在其他值处存在跳跃，那么存在其他因素决定了变量在临界值处的跳跃；

S47：最后，在计量模型估计时，使用不同的叶宽，并且分别考虑加控制变量和不加控制变量的情况，考察不同的计量模型形式是否对结论产生了显著的变化。

优选的技术方案中，所述步骤S43中还包括，根据决定处置的关键变量来划分箱体和箱体的范围，并在该范围内计算变量的均值；得到箱体范围后，分别对临界值两边的样本进行估计，得到临界值两边的平滑曲线。

优选的技术方案中，所述步骤S44中使用McCrary检验方法对断点回归的结果进行稳健性检验，包括：

将断点附近的样本点分配在不同的等宽箱体中，通过计算各个箱体的频率密度，检验在断点前后各频率密度是否发生跳跃；

首先进行直方图叶宽统计：

式中b为箱体宽度，c为箱体中左右不连续点，R_i为游动变量；

其次，使用局部线性回归对柱状图平滑，其密度函数为：

式中，φ₁、φ₂为函数L的两个变量的最小值，X_j为等距网格，

Y_j表示第j个直方图叶宽的标准化单元格大小，n为总数，K(t)＝max{0,1-|t|}为核密度函数，h为叶宽，r为常数；

其近似正态分布

的标准化误差为：

式中，

表示上极限、

表示下极限；

最后对该标准误差进行t检验，得到其置信度。

与现有技术相比，本发明的有益效果是：

1、本发明提供一种通用、普适的企业数据(包括污染排放数据等等)异常(造假)行为可能性定量判断方法，基于大数据，不依赖于企业具体造假手段，提高执法工作的针对性和有效性。

2、本发明创新性地应用了概率连续性检验技术对企业污染排放数据进行分析。通过识别排放标准值附近的概率密度异常跳跃，定量化分析企业数据造假可能性。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为本发明区域企业数据异常行为的大数据识别方法的流程图；

图2为本发明区域企业数据异常行为的大数据识别方法的处理流程框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

实施例：

如图1所示，本发明的区域企业数据异常行为的大数据识别方法，包括以下步骤：

步骤1.数据清洗是指将重复多余的数据筛选清除，将缺失的数据补充完整，将错误的数据纠错修正，最后将数据整理成为可以进一步加工、使用的数据。

步骤2.对数据进行包括数据标准化和属性值规范化两部分的预处理。

步骤3.从7种分布中选出与实际数据最为接近的分布，进行概率分布识别。

步骤4.根据判断出的分布模型，使用处理后的数据画出该分布的理论累积概率分布图，并与该数据的实际累积概率分布图对比，根据排放标准x处的实际累积概率与理论累积概率的差值判断企业是否存在数据造假行为。

具体处理流程框图如图2所示：

1、数据清洗

数据清洗是指将重复多余的数据筛选清除，将缺失的数据补充完整，将错误的数据纠错修正，最后将数据整理成为可以进一步加工、使用的数据。数据清洗一般包括数据数值化、数据降维、数据异常值处理、数据缺失值处理共五部分。

(1)数据数值化

对存在各种不同格式的数据形式的原始数据，对其进行数值化操作。对字符串取值，按照ANSI码值求和得到字符串的值，如果值太大，取一个适当的质数对其求模。

(2)数据降维

数据降维是指通过线性或非线性映射将样本从高维空间映射到低维空间，从而获得高维数据的低维表示的过程。通过寻求低维表示，能够尽可能发现隐藏在高维数据中的规律。常用方法包括主成分分析、多维尺度分析、流行学习、拉普拉斯特征映射等。

(3)数据异常值处理

由于调查、编码和录入误差，数据中可能存在一些异常值，需要给予适当的处理。用统计分析的方法识别可能的错误值或异常值，如偏差分析、识别不遵守分布或回归方程的值，也可以用简单规则库(常识性规则、业务特定规则等)检查数据值，或使用不同属性间的约束、外部的数据来检测和清理数据。异常值的判断与具体对象相关：例如在线监测浓度数据为负或者数值过大超出监测设备的测量范围；例如测站测量的风速长期出现30m/s以上的大风；再例如，对企业的污染物进行监测时发现离排污口近的污染物浓度低于远离排污口的污染物浓度，污染物浓度出现明显异常。

异常值的处理方法常用有三种：

①删除含有异常值的记录；

②将异常值视为缺失值，交给缺失值处理方法来处理；

③用均值、回归或概率估计来修正。

(4)数据缺失值处理

大多数情况下，缺失值必须手工填入。当然，某些缺失值可以从本数据源或其它数据源推导出来，这就可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失的值，从而达到清理的目的。一般如果某特征的缺失量过大，会直接将该数据舍弃，从而避免使用大量推导数据而给原始数据带来较大的噪声。

数据缺失值的处理主要有以下方法：

①由于录入问题导致的数据缺失，可由人工补充。例如，仪器管理员遗漏录入了某张设备参数表。

②当数据存在明确的规律性且对数据的精度要求不高时，一些缺失值可以使用平均值、最大值、最小值或更为复杂的概率估计代替。例如，当流域没有发生异常的降雨情况时，可以使用历史同期的径流量代替当前径流水平。

③对于随机性较强，或数据长期缺失的情况，该段数据应弃用或视为无数据。例如，某次污染物样品检测时，未录入数据，应重新补测，或标记测量结果缺失。

2、数据预处理

数据预处理包括数据标准化和属性值规范化两部分。

(1)数据标准化

数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理，即将数据统一映射到统一区间上。数据标准化方法可以为极值法、标准差法、比例法等。

①极值标准化法

极值标准化法是通过将原始数据按照比例缩放，使之落入到[0,1]区间内：

式中，max为样本数据x的最大值，min为样本数据x的最小值。

②标准差法

标准差标准化是最为常用的标准化方法，标准差标准化通过计算原始数据的均值和标准差进行数据的标准化，其转化函数为：

X^*＝(x-μ)/σ

式中μ为所有样本数据的均值，σ为所有样本数据的标准差。经过处理的数据符合标准正态分布，即均值为0，标准差为1。

③比例法

比例法针对全部数据为正值的序列进行归一化，对于正向序列x1，x2，…，xn进行如下变换：

则新序列y1，y2，…，yn属于区间[0,1]。

(2)属性值规范化

属性值具有多种类型，包括效益型、成本型、以及区间型等。这三种属性，效益型属性越大越好，成本型属性越小越好，区间型属性是在某个区间最佳。

在进行决策时，一般要进行属性值的规范化，主要有如下三个作用：

①属性值有多种类型，上述三种属性放在同一个表中不便于直接从数值大小判断方案的优劣，因此需要对数据进行预处理，使得表中任一属性下性能越优的方案变换后的属性值越大。

②非量纲化，多属性决策与评估的困难之一是属性间的不可公度性，即在属性值表中的每一列数据具有不同的单位(量纲)。即使对同一属性，采用不同的计量单位，表中的数值也就不同。在用各种多属性决策方法进行分析评价时需要排除量纲的选用对决策或评估结果的影响，这就是非量纲化。

③归一化，属性值表中不同指标的属性值的数值大小差别很大，为了直观，更为了便于采用各种多属性决策与评估方法进行评价，需要把属性值表中的数值归一化，即把表中数值均变换到[0，1]区间上。

在属性规范时用非线性变换或其他办法，来解决或部分解决某些目标的达到程度与属性值之间的非线性关系，以及目标间的不完全补偿性。属性规范化方法有线性变换、标准0—1变换、区间型属性的变换、向量规范化。

3、概率分布识别

经过大量文献调研，归纳出数据主要的分布形式共7种：正态分布、均匀分布、指数分布、逻辑斯蒂分布、贝塔分布、对数正态分布及伽马分布。概率分布识别是指从这7种分布中选出与实际数据最为接近的分布。

使用数据集画出数据集偏度峰度图，根据图形，找出与数据集偏度峰度观察点接近的分布，初步筛选出数据集服从的分布。

为了定量确定数据服从分布，计算数据集的标准误差、Kolmogorov-Smirnov统计量、Anderson-Darling统计量和Cramér-von Mises统计量，根据不同的统计量的最优分布，结合人工判图，最终确定数据集服从的分布。

4、数据可信度分析

数据可信度分析包含两个步骤：

(1)首先进行断点回归；

本研究中断点回归的基础模型设定如下：

Y＝α+β×S+σ×D+ε

式中，Y是结果变量，也称为产出变量，S为分界变量，D为处置变量，a和σ为随机变量，β为变量系数，ε为随机误差。断点回归方法包括清晰断点和模糊断点两种情况。由于实际数据种类众多，加之其判断标准涉及到的指标也不是单一的，所以，本研究采用模糊断点，S在判断标准

处的跳跃式断点为：

式中，

和

分别代表在外生标准的两端，从正向和负向无限趋近于

的两种情况。

运用图形来分析处置效应是否存在是断点回归分析的基础。图形分析在断点回归的实施中扮演着重要的角色，通过将样本点和决定处置的关键变量在坐标系中描述出来，便可以清楚地看到临界值附近的样本点是否存在跳跃。如果样本点存在跳跃，那么说明确实存在处置效应，相反，如果样本点没有出现相应的跳跃，那么说明断点回归的模型识别可能存在问题。

为了使图形更为直观，需要根据决定处置的关键变量来划分箱体和箱体的范围，并在该范围内计算变量的均值。一般而言，箱体的范围需要大到包含足够多的样本使其样本点在临界值两边都比较平滑，但又要小到一定程度使得样本点在临界值处的跳跃能够明显地显现出来。

本发明提出两种方法来选择合适的箱体范围：第一种是根据对数据的观察决定使用K个箱体；然后对K个箱体的虚拟变量做回归；随后，将箱体范围缩小二分之一，使得箱体由K个变为2K个，将2K个箱体的虚拟变量作为解释变量再做一次回归。由于使用K个箱体虚拟变量的回归是内嵌于使用2K个箱体虚拟变量的回归之中的，因此，可以使用标准的F检验来比较判断K个箱体和2K个箱体的优劣。第二种方法是基于这样一个原理，如果箱体足够的小，那么被解释变量和决定处置的关键变量将不会出现系统的联系，因此，可以将被解释变量对箱体的虚拟变量以及该虚拟变量和决定处置的关键变量的乘积项做回归，并使用F检验来判断虚拟变量和关键变量的乘积项是否显著的为0。

通过以上方法得到合适箱体范围后，便可以分别对临界值两边的样本进行估计，得到临界值两边的平滑曲线。

(2)然后进行McCrary检验。

对断点回归的结果需要进行稳健性检验。首先，需要检验其他控制变量在临界值处是否存在跳跃，如果其他的控制变量在临界值处存在显著的跳跃，那么被解释变量在临界值处的跳跃将不仅仅是由于处置效应所带来的，这使得断点回归不能进行有效的因果推断。其次，需要检验决定处置的关键变量的条件密度是否存在不连续的情况，如果条件密度发生了跳跃，那么说明存在个体操作关键变量的可能。为此，可以计算每个箱体中样本的数量，将其作为纵轴，将关键变量作为横轴，通过图形和回归分析来考察关键变量的分布在临界值处是否存在跳跃。如果存在跳跃，则个体可能存在操作处置的可能，从而使断点回归方法失效。再次，需要检验当临界值取其他值时，变量是否存在跳跃。如果变量不仅在临界值处存在跳跃，而且也在其他值处存在跳跃，那么变量的跳跃是由处置效应造成的这一推断就值得怀疑，可能还存在其他因素决定了变量在临界值处的跳跃。最后，需要在计量模型估计时，使用不同的叶宽，并且分别考虑加控制变量和不加控制变量的情况，以此来考察不同的计量模型形式是否对结论产生了显著的变化。

其中，McCrary检验方法对断点回归的结果进行稳健性检验的有效方法，其实质是对执行变量进行连续性检验的一种方法，将断点附近的样本点分配在不同的等宽箱体中，通过计算各个箱体的频率密度，检验在断点前后各频率密度是否发生了显著跳跃。

McCrary检验首先需要进行直方图叶宽统计：

式中b为箱体宽度，c为箱体中左右不连续点，R_i为游动变量。

其次，使用局部线性回归对柱状图平滑，其密度函数为：

Y_j表示第j个直方图叶宽的标准化单元格大小，n为总数，K(t)＝max{0,1-|t|}为核密度函数，h为叶宽，r为常数。

其近似正态分布

的标准化误差为：

式中，

表示上极限、

表示下极限；

最后对该标准误差进行t检验，得到其置信度。

根据判断出的分布类型，使用处理后的数据画出该分布的理论累积概率分布图，并与该数据的实际累积概率分布图对比，根据排放标准x处的实际累积概率与理论累积概率的差值判断企业是否存在数据造假行为。

用此差值能够代表数据的可疑程度，即：

可疑程度p＝实际累积概率p1-理论累积概率p2。

企业排放数据造假通常出现在排放浓度超出排放标准时，数据造假会导致标准值附近的数据出现概率分布异常。本发明应用了概率连续性检验技术对企业污染排放数据进行分析。通过识别排放标准值附近的概率密度异常跳跃，定量化分析企业数据造假可能性。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。