CN103294768B

CN103294768B - 一种异常数据的剔除方法

Info

Publication number: CN103294768B
Application number: CN201310144541.7A
Authority: CN
Inventors: 陈宏仁
Original assignee: Servyou Software Group Co ltd
Current assignee: Servyou Software Group Co ltd
Priority date: 2013-04-23
Filing date: 2013-04-23
Publication date: 2016-12-28
Anticipated expiration: 2033-04-23
Also published as: CN103294768A

Abstract

本发明公开了一种异常数据的剔除方法，包括：获取单个分析对象的数据异常规则；针对单个分析对象应用数据异常规则并作标识；剔除打上标识的分析对象。在本发明提供的方案中，通过数据异常规则和整体异常规则来对异常数据进行处理，允许用户定制数据异常规则，并循环利用整体异常规则来剔除异常数据。在数据分析应用中异常数据的存在是很普遍的，本发明能剔除掉所有的异常数据，从而保障分析结果的准确性。

Description

一种异常数据的剔除方法

技术领域

本发明涉及计算机技术领域，更具体的说，涉及异常数据的剔除方法。

背景技术

在数据分析应用系统中，根据数据的整体分布情况来筛选存在问题的分析对象是一种很常用的方法。整体分布情况一般是使用平均值及标准差来表示。因此平均值及标准差的计算对分析结果影响很大。在实际使用时，往往存在着异常数据（值过大或过小的数据），会造成平均值及标准差的计算很不合理。因此在计算平均值及标准差时需要把异常数据剔除掉。

在现有的解决方案中，一般使用3西格玛的方式来剔除异常数据，即先计算平均值及标准差，然后把大于平均值+3*标准差或者小于平均值-3*标准差的数据剔除掉，最后再计算一遍标准差。

在对现有技术的研究和实践过程中，本发明的发明人发现现有技术存在以下问题：

在实际的应用过程中，当数据量比较大时，只进行一次3西格玛的过滤无法剔除掉所有的异常数据，平均值及标准差的计算依然是不合理的。

另外，只对最终的数据应用3西格玛过滤，而不考虑数据的来源构成也会导致平均值及标准差计算不合理。例如，最终的数据C=A/B，仅仅对C应用3西格玛过滤，而不考虑A及B的值，会导致C的平均值及标准差计算不合理。在某些应用场景中，A和B同时都是很小的数应该被视为异常数据

因此，如何合理的剔除异常数据，成为目前最需要解决的问题。

发明内容

有鉴于此，本发明的设计目的在于，一种异常数据的剔除方法，剔除掉所有的异常数据，以保证计算过程的合理性。

本发明实施例是这样实现的：

一种异常数据的剔除方法，包括：

获取单个分析对象的数据异常规则；

针对单个分析对象应用数据异常规则并作标识；

剔除打上标识的分析对象。

优选地，在剔除打上标识的分析对象的步骤之后，还包括：

当存在未处理分析对象时，则返回针对单个分析对象应用数据异常规则并作标识的步骤。

优选地，在剔除打上标识的分析对象的步骤之后，还包括：

获取整体异常规则；

计算整体的平均值及标准差；

针对单个分析对象应用整体异常规则并作标识；

剔除打上标识的分析对象。

优选地，在剔除打上标识的分析对象的步骤之后，还包括：

当存在未处理的分析对象时，则返回针对单个分析对象应用整体异常规则并作标识的步骤。

优选地，在剔除打上标识的分析对象的步骤之后，还包括：

当存在本次未剔除的分析对象时，则返回计算整体的平均值及标准差的步骤。

与现有技术相比，本实施例提供的技术方案具有以下优点和特点：

在本发明提供的方案中，通过数据异常规则和整体异常规则来对异常数据进行处理，允许用户定制数据异常规则，并循环利用整体异常规则来剔除异常数据。在数据分析应用中异常数据的存在是很普遍的，本发明能剔除掉所有的异常数据，从而保障分析结果的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种异常数据的剔除方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种异常数据的剔除方法，剔除掉所有的异常数据，以保证计算过程的合理性。

由于上述异常数据的剔除方法的具体实现存在多种方式，下面通过具体实施例进行详细说明：

请参见图1所示，图1所示的为一种异常数据的剔除方法，该方法包括：

步骤1：获取单个分析对象的数据异常规则

获取预先设置好的数据异常规则，这里的异常规则可以根据数据及其构成来设置。例如，最终的数据C=A/B，可以设置数据异常规则为C>10，也可以设置异常规则为A<0.1且B<0.1。

步骤2：针对单个分析对象应用数据异常规则并作标识

针对单个分析对象，遍历上一步骤获取到所有的数据异常规则，如果有某一条规则是符合的，则给该分析对象打上标识，表示它是异常数据。

步骤3：剔除打上标识的分析对象

针对上一步骤中被标识为异常数据的分析对象，把它从整个运算中剔除掉。

步骤4：是否有未处理的分析对象

判断是否已经处理了所有的分析对象。如果还有未处理的分析对象，则循环调用步骤2、3进行处理。

步骤5：获取整体异常规则

获取预先设置好的整体异常规则，这里的异常规则一般都会使用到平均值及标准差。常用的规则就是前面提到的3西格玛。

步骤6：计算整体的平均值及标准差

遍历数据计算整体的平均值及标准差。

步骤7：针对单个分析对象应用整体异常规则并作标识

针对单个分析对象，遍历步骤5获取到的所有的整体异常规则，同时利用上一步骤计算的到平均值及标准差，如果有某一条规则是符合的，则给该分析对象打上标识，表示它是异常数据。

步骤8：剔除打上标识的分析对象

步骤9：是否有未处理的分析对象

判断是否已经处理了所有的分析对象。如果还有未处理的分析对象，则循环调用步骤7、8进行处理。

步骤10：是否存在本次剔除的分析对象

判断步骤8是否有剔除分析对象，如果有，返回步骤6继续处理。如果没有，说明当前所有的分析对象中已经没有异常数据了，则步骤6的结果可作为最终的结果使用。

在图1所示的实施例中，通过数据异常规则和整体异常规则来对异常数据进行处理，允许用户定制数据异常规则，并循环利用整体异常规则来剔除异常数据。在数据分析应用中异常数据的存在是很普遍的，本发明能剔除掉所有的异常数据，从而保障分析结果的准确性。

下面通过实际的案例来说明本发明的方案：

请参见表1所示，表1为企业税负表。

企业	税额	收入	税负=税额/收入*100
				企业1	1	100	1
企业2	100	10000	1
				企业3	110	11000	1
企业4	110	11000	1
				企业5	120	12000	1
企业6	120	12000	1
				企业7	120	12000	1
企业8	120	12000	1
				企业9	200	10000	2

企业10	400	20000	2
				企业11	100	100	100
企业12	100	1	10000

在表1中，如果利用现有技术的方法来剔除异常数据，针对最后一列的税负，平均值=842.66，标准差=2761.14，利用三西格玛方法剔除掉最后一行数据后，平均值=10.18，标准差=28.40。而大部分企业的税负都在1左右，最后的平均值10.18不够合理。

在表1中，如果采用本发明的方案，针对上方的表格数据。一开始可以把税额<10的第一行数据剔除掉，因为一般的企业税额都在100以上，企业1只有1，不太正常。这里判断的依据是业务常识，本系统允许用户根据业务常识定制剔除的规则，同时在剔除了这些数据后后续的运算量会降低，即提高了效率。然后计算出平均值=919.18，标准差=2871.74。利用三西格玛剔除掉最后一行数据，再计算出平均值=11.1，标准差=29.63。利用3西格玛再剔除掉最后一行数据，再计算出平均值=1.22，标准差=0.41。这样得到的平均值、标准差比较符合实际的情况。

需要说明的是，图1所示的实施例只是本发明所介绍的优选实施例，本领域技术人员在此基础上，完全可以设计出更多的实施例，因此不在此处赘述。

对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种异常数据的剔除方法，其特征在于，包括：

获取单个分析对象的数据异常规则；其中，所述数据异常规则根据数据及数据构成设置；

针对单个分析对象应用数据异常规则并作标识；

剔除打上标识的分析对象；

其中，所述剔除打上标识的分析对象具体为：剔除标识的单个分析对象，并剔除与所标识的单个分析对象数据相对应的其他数据；

其中，所述针对单个分析对象应用数据异常规则并作标识具体为：

针对单个分析对象，遍历获取到的所有的所述数据异常规则，如果有一个所述数据异常规则符合，则给当前单个分析对象作标识；

其中，在剔除打上标识的分析对象的步骤之后，还包括：

获取整体异常规则；

计算整体的平均值及标准差；

针对单个分析对象应用整体异常规则并作标识；

剔除打上标识的分析对象。

2.根据权利要求1所述的异常数据的剔除方法，其特征在于，在剔除打上标识的分析对象的步骤之后，还包括：

3.根据权利要求1所述的异常数据的剔除方法，其特征在于，在剔除打上标识的分析对象的步骤之后，还包括：

4.根据权利要求1所述的异常数据的剔除方法，其特征在于，在剔除打上标识的分析对象的步骤之后，还包括：