CN107103039B

CN107103039B - 针对海量数据的异常数据检测与处理方法

Info

Publication number: CN107103039B
Application number: CN201710183311.XA
Authority: CN
Inventors: 王进宏; 丁胜财; 许红涛
Original assignee: Beiming Software Co ltd
Current assignee: Beiming Software Co ltd
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2021-03-30
Anticipated expiration: 2037-03-24
Also published as: CN107103039A

Abstract

本发明公开了针对海量数据的异常数据检测与处理方法，包括步骤：S1、将海量数据分多台服务器进行分布式存储；S2、基于移动平均算法，识别海量数据中的明显异常数据；S3、基于多元多次线性回归算法，进一步识别不符合业务量趋势的异常数据。本发明可以实现海量数据的异常数据检测，异常数据的检测准确性高，检测速度快，检测精确度高，可以实现高速、精准的检测，可广泛应用于数据处理行业中。

Description

针对海量数据的异常数据检测与处理方法

技术领域

本发明涉及数据处理领域，特别是涉及针对海量数据的异常数据检测与处理方法。

背景技术

名词解释：

mapreduce：一种编程模型，用于大规模数据集(大于1TB)的并行运算；

广东省地方税务局的办税服务厅作为窗口单位，每天要接待大量的纳税企业、自然人等，会产生大量的业务数据，通过这些业务数据，可以汇总成历史业务量数据，历史业务量数据格式为：地市代码，办税服务厅代码，日期，渠道代码，涉税事项编码，业务数量，通过对这些业务数据的分析，可以了解一个区域内办税服务厅的办税业务特征。

这些历史业务量数据，具体三大特征：一、具有明显的业务周期性。周期性从自然日的维度上无明显表现，但是与办税截止日期，节假日等等有着相应的关联关系。而办税截止日，以及节假日(如春节、端午)，每年都不尽相同，导致业务量具有波峰波谷，但是每月的波峰与波谷都有差异。二、办税业务量数据在总数上，每月具有一定的范围性。因为自然人、企业的数量在一段时间内波动不大，所以办税业务量在一定时期内不会出现大涨大跌。但是，从长期的变化趋势来看，自然人、企业的数量具有增长性，办税业务量也有递增的趋势。三、数据大。目前全国统一的税收征管系统中有历史记录的企业，全省800多万家，自然的1.7个亿。以广东省为例，每天产生涉税事项业务量的数据近有200万条左右，一年具有5亿条。从2006年大集中到现大，数据量大的惊人。

从上述的办税业务数据的数据特征中看，对这些数据中的异常数据进行清洗，是一个非常复杂的工程。在传统异常数据处理方法中，主要包括：1、人工数据排查法。通过一些可视化工具，展示数据的图形趋势，发现相应的异常数据。借于地税数据量大，涉及到580多个涉税事项，700多个办税服务厅，近10年的数据，传统的人工数据排查法难以完成异常数据检测处理。2、均值异常数据检测方法。主要是通过均值的方法，然后设置相应的阀值，对高于均值±阀值的数据，都定义为异常数据。但是地税数据有波峰与波谷的周期性，并且波峰与波谷的发生日期不是固定，很多情况是根据节假日，纳税申报截止日期变化而变化，这种方法同样需要很多人为的操作以及调整。均值异常数据检测方法存在以下缺点：1)业务量数据跟办税截止日期有密切相关，按办税截止日期，每月会形成波峰与波谷。普通的均值的处理方法，会导致将一些波峰与波谷的数据识别为异常数据。2)业务量数据除按办税截止日期形成每月波峰与波谷外，整体上还会有年周期性(如：每年春节后二三个月业务量都分偏少，年尾业务会有比较大的增幅)，以及存在每年递增的大趋势，通过传统方法都是无法精准的识别这些数据变化。3)在大数量处理上，传统方法速度缓慢，耗时长。对于十几亿，上百亿的数据处理，采用传统集中式数据库处理，耗费时间几天或者更长时间。

发明内容

为了解决上述的技术问题，本发明的目的是提供针对海量数据的异常数据检测与处理方法。

本发明解决其技术问题所采用的技术方案是：

针对海量数据的异常数据检测与处理方法，包括步骤：

S1、将海量数据分多台服务器进行分布式存储；

S2、基于移动平均算法，识别海量数据中的明显异常数据；

S3、基于多元多次线性回归算法，进一步识别不符合业务量趋势的异常数据。

进一步，所述步骤S2，包括：

S21、构建基于税务周期的移动均值化模型，并根据各税种的纳税申报周期，对海量数据进行周期性均值处理；

S22、扫描读取海量数据的每项数据记录，并对每项数据记录进行异常检测。

进一步，所述步骤S21中所述根据各税种的纳税申报周期，对海量数据进行周期性均值处理的步骤，其具体为：

针对海量数据的每项数据记录，根据该项数据中税种的纳税申报周期，获得税种的申报截止日，再将数据记录的记录日期与税种的申报截止日相减后，得到办税截止日期的税期偏差，进而基于税期偏差，对该记录日期的前后两个月中与税种的申报截止日的税期偏差一致的数据的业务量求平均值，作为税种对应的业务量平均值。

进一步，所述步骤S22中所述扫描读取海量数据的每项数据记录的步骤，其具体为：

通过mapreduce方式，在多台服务器上分别启动多个进程，扫描分布式存储的海量数据，读取获得每项数据记录。

进一步，所述步骤S22中所述对每项数据记录进行异常检测的步骤，其具体为：

针对每项数据记录，判断各项税种的业务量的值是否处于对应的均值范围内，若是，则判断数据无异常，反之，判断存在数据异常，并将该税种的业务量纠正到均值范围内；

其中，所述均值范围为P±A，其中P为该税种对应的业务量平均值，A为预设的窗口阈值。

进一步，所述并将该税种的业务量纠正到均值范围内的步骤，其具体为：

针对业务量大于P+A的情况，将该业务量更新成P+A，反之，针对业务量小于P-A的情况，将该业务量更新成P-A。

进一步，所述步骤S3，包括步骤：

S31、构建移动多元多次线性回归检测模型，计算获得每项数据记录的每个税种的业务量的趋势均值；

S32、通过mapreduce方式，将建立的检测模型下发到多台服务器，对异常数据进行二次检测，识别出不符合业务量趋势的异常数据。

进一步，所述步骤S31，具体包括步骤：

S311、根据以下方程式，构建移动多元多次线性回归检测模型：

E＝a1*(X-Z)^2+a2*(X-J)^2+b

其中，E表示趋势值，X表示日期，Z代表每月的纳税申报截止日期，J代表下一个节假日，a1、a2和b均为方程式的参数；

S312、针对数据记录的每个税种，按照该税种的纳税申报周期获得税种的申报截止日，再将数据记录的记录日期与税种的申报截止日相减后，得到办税截止日期的税期偏差；

S313、基于税期偏差，将该记录日期的前后两个月中与税种的申报截止日的税期偏差一致的数据作为训练集，对步骤S311中的方程式进行参数求解，获得参数a1、a2和b的值后，通过步骤S311构建的检测模型计算获得各税种的业务量的趋势均值。

进一步，所述步骤S32中所述对异常数据进行二次检测，识别出不符合业务量趋势的异常数据的步骤，具体为：

针对每项数据记录，判断各项税种的业务量的值是否处于对应的趋势均值范围内，若是，则判断数据无异常，反之，判断存在数据异常，并将该税种的业务量纠正到趋势均值范围内；

其中，所述趋势均值范围为E±A，其中E为该税种对应的趋势均值，A为预设的窗口阈值。

进一步，所述并将该税种的业务量纠正到趋势均值范围内的步骤，其具体为：

针对业务量大于E+A的情况，将该业务量更新成E+A，反之，针对业务量小于E-A的情况，将该业务量更新成E-A。

本发明的有益效果是：本发明的针对海量数据的异常数据检测与处理方法，包括步骤：S1、将海量数据分多台服务器进行分布式存储；S2、基于移动平均算法，识别海量数据中的明显异常数据；S3、基于多元多次线性回归算法，进一步识别不符合业务量趋势的异常数据。本方法可以实现海量数据的异常数据检测，异常数据的检测准确性高，检测速度快，检测精确度高，可以实现高速、精准的检测。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1是本发明的针对海量数据的异常数据检测与处理方法的具体实施例中移动平均算法的处理流程图；

图2是本发明的针对海量数据的异常数据检测与处理方法的具体实施例中移动多元多次线性回归算法的处理流程图。

具体实施方式

本发明提供了一种针对海量数据的异常数据检测与处理方法，包括步骤：

S1、将海量数据分多台服务器进行分布式存储；

S2、基于移动平均算法，识别海量数据中的明显异常数据；

进一步作为优选的实施方式，所述步骤S2，包括：

进一步作为优选的实施方式，所述步骤S21中所述根据各税种的纳税申报周期，对海量数据进行周期性均值处理的步骤，其具体为：

进一步作为优选的实施方式，所述步骤S22中所述扫描读取海量数据的每项数据记录的步骤，其具体为：

进一步作为优选的实施方式，所述步骤S22中所述对每项数据记录进行异常检测的步骤，其具体为：

其中，所述均值范围为P±A，其中P为该税种对应的业务量平均值，A为预设的窗口阈值。通过设置窗口阈值A，可以设定与业务量平均值相差A的业务量为正常数据，反之，相差超出A的业务量为异常数据。

进一步作为优选的实施方式，所述并将该税种的业务量纠正到均值范围内的步骤，其具体为：

进一步作为优选的实施方式，所述步骤S3，包括步骤：

进一步作为优选的实施方式，所述步骤S31，具体包括步骤：

E＝a1*(X-Z)^2+a2*(X-J)^2+b

进一步作为优选的实施方式，所述步骤S32中所述对异常数据进行二次检测，识别出不符合业务量趋势的异常数据的步骤，具体为：

其中，所述趋势均值范围为E±A，其中E为该税种对应的趋势均值，A为预设的窗口阈值。通过设置窗口阈值A，可以设定与业务量平均值相差A的业务量为正常数据，反之，相差超出A的业务量为异常数据。窗口阈值A的设定，与步骤S2中的窗口阈值A相同。

进一步作为优选的实施方式，所述并将该税种的业务量纠正到趋势均值范围内的步骤，其具体为：

以下结合详细实施例对本发明做具体说明。

实施例一

针对海量数据的异常数据检测与处理方法，包括步骤：

S1、将海量数据分多台服务器进行分布式存储；

S2、基于移动平均算法，识别海量数据中的明显异常数据；

步骤S1中，具体可以采用按地市代码进行rang分片。对业务数据表从逻辑上划分成了21片，然后分别存储到3台服务器上。在后续数据检测时，基于spark技术的mapreduce分布式处理技术，启动21个进程，使每台机器运行7个进程，每个进程负责检测一片数据。在实际处理过程中，还可以横向的扩展服务器节点，以提检测与处理速度。在整个数据处理过程中，采用大数据的分布式计算方式，提高数据的处理速度。

步骤S2，具体包括步骤S21和S22：

S21、构建基于税务周期的移动均值化模型，并根据各税种的纳税申报周期，对海量数据进行周期性均值处理；纳税申报周期是指周期性，例如个税申报为月周期，例如个税12万申报为年周期，截止日期为3月31日。周期性处理的方式为：按税种的周期性(如年、半年、季、月)，找到税种的申报截止日，再通过数据记录中的日期与税种的申报截止日进行相减，得到办税截止日期的税期偏差(计算时需要排除非工作日)。基于税期偏差的基础上，然后对前后二个月与税种的申报截止日的税期偏差一致的数据的业务量的数据求平均，得到平均值(假设为P)。

具体的，所述根据各税种的纳税申报周期，对海量数据进行周期性均值处理的步骤，其具体为：针对海量数据的每项数据记录，根据该项数据中税种的纳税申报周期，获得税种的申报截止日，再将数据记录的记录日期与税种的申报截止日相减后，得到办税截止日期的税期偏差，进而基于税期偏差，对该记录日期的前后两个月中与税种的申报截止日的税期偏差一致的数据的业务量求平均值，作为税种对应的业务量平均值。

S22、扫描读取海量数据的每项数据记录，并对每项数据记录进行异常检测：具体为：

通过mapreduce方式，在多台服务器上分别启动多个进程，扫描分布式存储的海量数据，读取获得每项数据记录。本实施例在在3台服务器上，启动21个进程，分别扫描21片的数据，检测获得每条数据记录。而检测一条数据是否为异常数据时，主要看业务量的值(假设业务量为Y)，是否处于均值范围(P±A，其中P为业务量平均值，A为设置的窗口阀值，预设设定)。其中业务平均值P的计算，则是根据步骤S21中的移动均值化模型，采用当前数据记录的记录日期前后二个月为训练集求得。例如，对2015年5月6日的数据记录的某税种K进行检测，假设其税期偏差为B，则采用3月、4月、6月、7月等四个月中，与申报截止日的税期偏差为B日期的数据记录的该税种K的业务量求平均。如果不足四个月，则通过只取前或者只取后的方式补全。在通过移动均值化模型识别为异常数据时，将记录对应的业务量，强制的将数据纠正为均值范围P±A。针对业务量大于P+A的情况，将该业务量更新成P+A，反之，针对业务量小于P-A的情况，将该业务量更新成P-A。通过此次处理后，数据的正确性可以达到80％左右。

本实施例中，所述步骤S3，包括步骤S31～S32：

S31、构建移动多元多次线性回归检测模型，计算获得每项数据记录的每个税种的业务量的趋势均值；办税业务数据，存着着明显的周期性，每天的业务之间也存在某些关联性，另外业务量也具有一定的趋势性，因此，构建移动多元多次线性回归检测模型；

步骤S31，具体包括步骤S311～S313：

E＝a1*(X-Z)^2+a2*(X-J)^2+b

S313、基于税期偏差，将该记录日期的前后两个月中与税种的申报截止日的税期偏差一致的数据作为训练集，对步骤S311中的方程式进行参数求解，获得参数a1、a2和b的值后，通过步骤S311构建的检测模型计算获得各税种的业务量的趋势均值。例如对2015年5月6日的数据记录进行检测，假设其某税种K与申报截止日的税期偏差为B，则采用3月、4月、6月、7月等四个月的与申报截止日的税期偏差为B日期的数据记录的该税种K的数据作为训练集，对模型方程式进行解参。如果不足四个月，则通过只取前或者只取后的方式补全。训练过程，将获取的Y代入方程式的E值，X、Z和J依次代入方程式中对应位置，通过接方程组即可求解获得参数a1、a2和b的值。

本实施例中，所述步骤S32中所述对异常数据进行二次检测，识别出不符合业务量趋势的异常数据的步骤，具体为：

针对每项数据记录，判断各项税种的业务量的值是否处于对应的趋势均值范围内，若是，则判断数据无异常，反之，判断存在数据异常，并将该税种的业务量纠正到趋势均值范围内：针对业务量大于E+A的情况，将该业务量更新成E+A，反之，针对业务量小于E-A的情况，将该业务量更新成E-A。

在通过多元多次线性回归模型识别为异常数据时，将记录对应的业务量，强制的将数据纠正为均值范围(E±A)。此步骤处理后，数据的正确性可以达到99％以上。

本方法适合应用在数据受某些条件影响例如办税周期、节假日等因素的影响下，能表现出具有一定的周期特征的情况。本方法能对大量数据进行快速处理。主要包括：

1、改进数据异常的均值处理方法。通过影响条件日期，对波峰波谷进行平移，然后形成周期性。

2、基于改进数据异常的均值处理结果的基础上，引入多元多次数据模型，提高异常数据检测的精确度。

3、基于大数据处理技术，通过mapreduce方法，提高异常数据检测速度。

总的来说，本方法可以实现海量数据的异常数据检测，异常数据的检测准确性高，检测速度快，检测精确度高，可以实现高速、精准的检测。

实施例二

本实施例是对实施例一中步骤S2中的进一步细化，参照图1所示，步骤S2主要包括以下实现过程：

1)遍历所有记录，取出数据记录的记录日期D、业务量Y，服务厅F，事项编码X。事项编码X用于区分不同涉税事项，涉税事项即前述的税种。

2)根据涉税事项编码X，计算记录日期D对于涉税事项的办税截止日期的税期偏差C。计算公为：D-Z，其中Z为涉税事项当前月的办税截止日期，如果是年周期，则是年申报截止日期；如果是半年周期，则为1月、7月的通用办税截止日期；如果季周期，则1月，4月，7月，10月的通用办税截止日期。此过程中，将结果C更新回相应的数据记录，为后续的模型使用。

3)根据服务厅代码F、涉税事项编码X、涉税事项的办税截止日期的税期偏差C，获取记录日期D前后二个月对应的天的数据，进行平均计算，得到业务平均值P。前后二个月对应的天的数据的计算，先是根据涉税事项编码X，各月的办税截止日期的税期偏差C，反推成日期，然后形成SQL：select avg(sl)as sl from t_bswftlsywl where(rq＝’2016-03-25’or rq＝’2016-04-28’or rq＝’2016-06-26’or rq＝’2016-07-27’)and sxbm＝X andbsfwtdm＝F group by sxbm，bsfwtdm，dsdm。值’2016-03-25’、’2016-04-28’、’2016-06-26’、’2016-07-27’为各月的办税截止日期的税期偏差C所反推成日期的结果。

4)将业务量Y与P±A进行比较，P表示计算出来的业务平均值；A表示预设的窗口阀值。如果A在P±A区间，则结束处理。

5)业务量Y不在P±A区间，则处理数据。处理原则为：如果Y>P+A，则更新成P+A；如果Y<P-A，则更新成P-A。

实施例三

本实施例是对实施例一中步骤S3中的进一步细化，参照图2所示，步骤S3主要包括以下实现过程：

1)遍历所有记录，取出记录的记录日期D、业务量Y，服务厅F，事项编码X。

2)根据涉税事项编码X，计算记录日期D对于涉税事项的办税截止日期的税期偏差C。计算公为：D-Z，其中Z为涉税事项当前月的办税截止日期，如果是年周期，则是年申报截止日期；如果是半年周期，则为1月、7月的通用办税截止日期；如果季周期，则1月，4月，7月，10月的通用办税截止日期。

3)根据F，X，以及当前日期前后二个月的数据，形成训练集，对方程式E＝a1*(X-Z)^2+a2*(X-J)^2+b(其中X代码日期，Z代表每月的纳税申报截止日期，J代表下一个节假日)进行解参(即求a1,a2,b的值)。根据求解的参数，然后结合当前记录的记录日期D，办税截止日期的税期偏差C，节假日J，求出方程式的值E。

4)将业务量Y与E±A进行比较。如果A在E±A区间，则结束处理。E表示方程式的值，A表示预先设定的窗口阀值。

5)业务量Y不在E±A区间，则处理数据。处理原则为：如果Y>E+A，则更新成E+A；如果Y<E-A，则更新成E-A。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims

1.针对海量数据的异常数据检测与处理方法，其特征在于，包括步骤：

S1、将海量数据分多台服务器进行分布式存储；

S2、基于移动平均算法，识别海量数据中的明显异常数据；

S3、基于多元多次线性回归算法，进一步识别不符合业务量趋势的异常数据；

所述步骤S2，包括：

S22、扫描读取海量数据的每项数据记录，并对每项数据记录进行异常检测；

所述步骤S21中所述根据各税种的纳税申报周期，对海量数据进行周期性均值处理的步骤，其具体为：

针对海量数据的每项数据记录，根据该项数据中税种的纳税申报周期，获得税种的申报截止日，再将数据记录的记录日期与税种的申报截止日相减后，得到办税截止日期的税期偏差，进而基于税期偏差，对该记录日期的前后两个月中与税种的申报截止日的税期偏差一致的数据的业务量求平均值，作为税种对应的业务量平均值；

所述步骤S3，包括步骤：

S32、通过mapreduce方式，将建立的检测模型下发到多台服务器，对异常数据进行二次检测，识别出不符合业务量趋势的异常数据并进行纠正；

所述步骤S31中所述构建移动多元多次线性回归检测模型的步骤，其具体为：

根据以下方程式，构建移动多元多次线性回归检测模型：

E＝a1*(X-Z)^2+a2*(X-J)^2+b

其中，E表示趋势值，X表示日期，Z代表每月的纳税申报截止日期，J代表下一个节假日，a1、a2和b均为方程式的参数。

2.根据权利要求1所述的针对海量数据的异常数据检测与处理方法，其特征在于，所述步骤S22中所述扫描读取海量数据的每项数据记录的步骤，其具体为：

3.根据权利要求1所述的针对海量数据的异常数据检测与处理方法，其特征在于，所述步骤S22中所述对每项数据记录进行异常检测的步骤，其具体为：

4.根据权利要求3所述的针对海量数据的异常数据检测与处理方法，其特征在于，所述并将该税种的业务量纠正到均值范围内的步骤，其具体为：

5.根据权利要求1所述的针对海量数据的异常数据检测与处理方法，其特征在于，所述步骤S31，具体包括步骤：

E＝a1*(X-Z)^2+a2*(X-J)^2+b

6.根据权利要求1所述的针对海量数据的异常数据检测与处理方法，其特征在于，所述步骤S32中所述对异常数据进行二次检测，识别出不符合业务量趋势的异常数据并进行纠正的步骤，具体为：

7.根据权利要求6所述的针对海量数据的异常数据检测与处理方法，其特征在于，所述并将该税种的业务量纠正到趋势均值范围内的步骤，其具体为：