CN103294768B - 一种异常数据的剔除方法 - Google Patents
一种异常数据的剔除方法 Download PDFInfo
- Publication number
- CN103294768B CN103294768B CN201310144541.7A CN201310144541A CN103294768B CN 103294768 B CN103294768 B CN 103294768B CN 201310144541 A CN201310144541 A CN 201310144541A CN 103294768 B CN103294768 B CN 103294768B
- Authority
- CN
- China
- Prior art keywords
- data
- analysis object
- mark
- abnormal data
- exception
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明公开了一种异常数据的剔除方法,包括:获取单个分析对象的数据异常规则;针对单个分析对象应用数据异常规则并作标识;剔除打上标识的分析对象。在本发明提供的方案中,通过数据异常规则和整体异常规则来对异常数据进行处理,允许用户定制数据异常规则,并循环利用整体异常规则来剔除异常数据。在数据分析应用中异常数据的存在是很普遍的,本发明能剔除掉所有的异常数据,从而保障分析结果的准确性。
Description
技术领域
本发明涉及计算机技术领域,更具体的说,涉及异常数据的剔除方法。
背景技术
在数据分析应用系统中,根据数据的整体分布情况来筛选存在问题的分析对象是一种很常用的方法。整体分布情况一般是使用平均值及标准差来表示。因此平均值及标准差的计算对分析结果影响很大。在实际使用时,往往存在着异常数据(值过大或过小的数据),会造成平均值及标准差的计算很不合理。因此在计算平均值及标准差时需要把异常数据剔除掉。
在现有的解决方案中,一般使用3西格玛的方式来剔除异常数据,即先计算平均值及标准差,然后把大于平均值+3*标准差或者小于平均值-3*标准差的数据剔除掉,最后再计算一遍标准差。
在对现有技术的研究和实践过程中,本发明的发明人发现现有技术存在以下问题:
在实际的应用过程中,当数据量比较大时,只进行一次3西格玛的过滤无法剔除掉所有的异常数据,平均值及标准差的计算依然是不合理的。
另外,只对最终的数据应用3西格玛过滤,而不考虑数据的来源构成也会导致平均值及标准差计算不合理。例如,最终的数据C=A/B,仅仅对C应用3西格玛过滤,而不考虑A及B的值,会导致C的平均值及标准差计算不合理。在某些应用场景中,A和B同时都是很小的数应该被视为异常数据
因此,如何合理的剔除异常数据,成为目前最需要解决的问题。
发明内容
有鉴于此,本发明的设计目的在于,一种异常数据的剔除方法,剔除掉所有的异常数据,以保证计算过程的合理性。
本发明实施例是这样实现的:
一种异常数据的剔除方法,包括:
获取单个分析对象的数据异常规则;
针对单个分析对象应用数据异常规则并作标识;
剔除打上标识的分析对象。
优选地,在剔除打上标识的分析对象的步骤之后,还包括:
当存在未处理分析对象时,则返回针对单个分析对象应用数据异常规则并作标识的步骤。
优选地,在剔除打上标识的分析对象的步骤之后,还包括:
获取整体异常规则;
计算整体的平均值及标准差;
针对单个分析对象应用整体异常规则并作标识;
剔除打上标识的分析对象。
优选地,在剔除打上标识的分析对象的步骤之后,还包括:
当存在未处理的分析对象时,则返回针对单个分析对象应用整体异常规则并作标识的步骤。
优选地,在剔除打上标识的分析对象的步骤之后,还包括:
当存在本次未剔除的分析对象时,则返回计算整体的平均值及标准差的步骤。
与现有技术相比,本实施例提供的技术方案具有以下优点和特点:
在本发明提供的方案中,通过数据异常规则和整体异常规则来对异常数据进行处理,允许用户定制数据异常规则,并循环利用整体异常规则来剔除异常数据。在数据分析应用中异常数据的存在是很普遍的,本发明能剔除掉所有的异常数据,从而保障分析结果的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种异常数据的剔除方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种异常数据的剔除方法,剔除掉所有的异常数据,以保证计算过程的合理性。
由于上述异常数据的剔除方法的具体实现存在多种方式,下面通过具体实施例进行详细说明:
请参见图1所示,图1所示的为一种异常数据的剔除方法,该方法包括:
步骤1:获取单个分析对象的数据异常规则
获取预先设置好的数据异常规则,这里的异常规则可以根据数据及其构成来设置。例如,最终的数据C=A/B,可以设置数据异常规则为C>10,也可以设置异常规则为A<0.1且B<0.1。
步骤2:针对单个分析对象应用数据异常规则并作标识
针对单个分析对象,遍历上一步骤获取到所有的数据异常规则,如果有某一条规则是符合的,则给该分析对象打上标识,表示它是异常数据。
步骤3:剔除打上标识的分析对象
针对上一步骤中被标识为异常数据的分析对象,把它从整个运算中剔除掉。
步骤4:是否有未处理的分析对象
判断是否已经处理了所有的分析对象。如果还有未处理的分析对象,则循环调用步骤2、3进行处理。
步骤5:获取整体异常规则
获取预先设置好的整体异常规则,这里的异常规则一般都会使用到平均值及标准差。常用的规则就是前面提到的3西格玛。
步骤6:计算整体的平均值及标准差
遍历数据计算整体的平均值及标准差。
步骤7:针对单个分析对象应用整体异常规则并作标识
针对单个分析对象,遍历步骤5获取到的所有的整体异常规则,同时利用上一步骤计算的到平均值及标准差,如果有某一条规则是符合的,则给该分析对象打上标识,表示它是异常数据。
步骤8:剔除打上标识的分析对象
针对上一步骤中被标识为异常数据的分析对象,把它从整个运算中剔除掉。
步骤9:是否有未处理的分析对象
判断是否已经处理了所有的分析对象。如果还有未处理的分析对象,则循环调用步骤7、8进行处理。
步骤10:是否存在本次剔除的分析对象
判断步骤8是否有剔除分析对象,如果有,返回步骤6继续处理。如果没有,说明当前所有的分析对象中已经没有异常数据了,则步骤6的结果可作为最终的结果使用。
在图1所示的实施例中,通过数据异常规则和整体异常规则来对异常数据进行处理,允许用户定制数据异常规则,并循环利用整体异常规则来剔除异常数据。在数据分析应用中异常数据的存在是很普遍的,本发明能剔除掉所有的异常数据,从而保障分析结果的准确性。
下面通过实际的案例来说明本发明的方案:
请参见表1所示,表1为企业税负表。
企业 | 税额 | 收入 | 税负=税额/收入*100 |
企业1 | 1 | 100 | 1 |
企业2 | 100 | 10000 | 1 |
企业3 | 110 | 11000 | 1 |
企业4 | 110 | 11000 | 1 |
企业5 | 120 | 12000 | 1 |
企业6 | 120 | 12000 | 1 |
企业7 | 120 | 12000 | 1 |
企业8 | 120 | 12000 | 1 |
企业9 | 200 | 10000 | 2 |
企业10 | 400 | 20000 | 2 |
企业11 | 100 | 100 | 100 |
企业12 | 100 | 1 | 10000 |
在表1中,如果利用现有技术的方法来剔除异常数据,针对最后一列的税负,平均值=842.66,标准差=2761.14,利用三西格玛方法剔除掉最后一行数据后,平均值=10.18,标准差=28.40。而大部分企业的税负都在1左右,最后的平均值10.18不够合理。
在表1中,如果采用本发明的方案,针对上方的表格数据。一开始可以把税额<10的第一行数据剔除掉,因为一般的企业税额都在100以上,企业1只有1,不太正常。这里判断的依据是业务常识,本系统允许用户根据业务常识定制剔除的规则,同时在剔除了这些数据后后续的运算量会降低,即提高了效率。然后计算出平均值=919.18,标准差=2871.74。利用三西格玛剔除掉最后一行数据,再计算出平均值=11.1,标准差=29.63。利用3西格玛再剔除掉最后一行数据,再计算出平均值=1.22,标准差=0.41。这样得到的平均值、标准差比较符合实际的情况。
需要说明的是,图1所示的实施例只是本发明所介绍的优选实施例,本领域技术人员在此基础上,完全可以设计出更多的实施例,因此不在此处赘述。
对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (4)
1.一种异常数据的剔除方法,其特征在于,包括:
获取单个分析对象的数据异常规则;其中,所述数据异常规则根据数据及数据构成设置;
针对单个分析对象应用数据异常规则并作标识;
剔除打上标识的分析对象;
其中,所述剔除打上标识的分析对象具体为:剔除标识的单个分析对象,并剔除与所标识的单个分析对象数据相对应的其他数据;
其中,所述针对单个分析对象应用数据异常规则并作标识具体为:
针对单个分析对象,遍历获取到的所有的所述数据异常规则,如果有一个所述数据异常规则符合,则给当前单个分析对象作标识;
其中,在剔除打上标识的分析对象的步骤之后,还包括:
获取整体异常规则;
计算整体的平均值及标准差;
针对单个分析对象应用整体异常规则并作标识;
剔除打上标识的分析对象。
2.根据权利要求1所述的异常数据的剔除方法,其特征在于,在剔除打上标识的分析对象的步骤之后,还包括:
当存在未处理分析对象时,则返回针对单个分析对象应用数据异常规则并作标识的步骤。
3.根据权利要求1所述的异常数据的剔除方法,其特征在于,在剔除打上标识的分析对象的步骤之后,还包括:
当存在未处理的分析对象时,则返回针对单个分析对象应用整体异常规则并作标识的步骤。
4.根据权利要求1所述的异常数据的剔除方法,其特征在于,在剔除打上标识的分析对象的步骤之后,还包括:
当存在本次未剔除的分析对象时,则返回计算整体的平均值及标准差的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310144541.7A CN103294768B (zh) | 2013-04-23 | 2013-04-23 | 一种异常数据的剔除方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310144541.7A CN103294768B (zh) | 2013-04-23 | 2013-04-23 | 一种异常数据的剔除方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103294768A CN103294768A (zh) | 2013-09-11 |
CN103294768B true CN103294768B (zh) | 2016-12-28 |
Family
ID=49095630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310144541.7A Active CN103294768B (zh) | 2013-04-23 | 2013-04-23 | 一种异常数据的剔除方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103294768B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653129A (zh) * | 2015-12-29 | 2016-06-08 | 江苏飞尚安全监测咨询有限公司 | 一种基于经典算法的实时信号甄别和修正的方法 |
CN107481226B (zh) * | 2017-07-27 | 2021-06-01 | 东软医疗系统股份有限公司 | 去除异常扫描数据的方法、装置及pet系统 |
CN107576759A (zh) * | 2017-08-30 | 2018-01-12 | 中国南方电网有限责任公司电网技术研究中心 | 绝缘子盐密数据条处理方法和系统 |
CN108877945A (zh) * | 2018-01-08 | 2018-11-23 | 上海铱硙医疗科技有限公司 | 医疗信息处理方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1405238A4 (en) * | 2001-05-31 | 2007-08-01 | Goldman Sachs & Co | METHOD AND SYSTEM FOR VERIFYING THE INTEGRITY OF DATA IN A DATA DEPOSITION AND APPLICATION OF DEPOSITION DATA TO A PLURALITY OF PREDEFINISED ANALYSIS MODELS |
US7580970B2 (en) * | 2005-03-31 | 2009-08-25 | Ubs Ag | Systems and methods for database synchronization |
CN101706791A (zh) * | 2009-09-17 | 2010-05-12 | 成都康赛电子科大信息技术有限责任公司 | 基于用户偏好的数据清洗方法 |
CN101976305A (zh) * | 2010-10-25 | 2011-02-16 | 北京航空航天大学 | 一种基于概率统计的旅行时间筛选方法 |
CN102332011A (zh) * | 2011-09-09 | 2012-01-25 | 北京空间飞行器总体设计部 | 一种在轨航天器有效数据选取方法 |
CN102819682A (zh) * | 2012-08-02 | 2012-12-12 | 清华大学 | 一种多阈值空间相关的浮动车数据清洗和修复算法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6842753B2 (en) * | 2001-01-12 | 2005-01-11 | Microsoft Corporation | Sampling for aggregation queries |
-
2013
- 2013-04-23 CN CN201310144541.7A patent/CN103294768B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1405238A4 (en) * | 2001-05-31 | 2007-08-01 | Goldman Sachs & Co | METHOD AND SYSTEM FOR VERIFYING THE INTEGRITY OF DATA IN A DATA DEPOSITION AND APPLICATION OF DEPOSITION DATA TO A PLURALITY OF PREDEFINISED ANALYSIS MODELS |
US7580970B2 (en) * | 2005-03-31 | 2009-08-25 | Ubs Ag | Systems and methods for database synchronization |
CN101706791A (zh) * | 2009-09-17 | 2010-05-12 | 成都康赛电子科大信息技术有限责任公司 | 基于用户偏好的数据清洗方法 |
CN101976305A (zh) * | 2010-10-25 | 2011-02-16 | 北京航空航天大学 | 一种基于概率统计的旅行时间筛选方法 |
CN102332011A (zh) * | 2011-09-09 | 2012-01-25 | 北京空间飞行器总体设计部 | 一种在轨航天器有效数据选取方法 |
CN102819682A (zh) * | 2012-08-02 | 2012-12-12 | 清华大学 | 一种多阈值空间相关的浮动车数据清洗和修复算法 |
Also Published As
Publication number | Publication date |
---|---|
CN103294768A (zh) | 2013-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Moxey et al. | Efficient contract design for agri‐environment policy | |
CN103294768B (zh) | 一种异常数据的剔除方法 | |
CN109597936B (zh) | 一种新用户筛选系统及方法 | |
CN111143339B (zh) | 一种业务资源的分配方法、装置、设备及存储介质 | |
Claessens et al. | Diversification and efficiency of investment of East Asian corporations | |
US20160180264A1 (en) | Retention risk determiner | |
CN108804323A (zh) | 代码质量监控方法、设备及存储介质 | |
Harvey et al. | Crowding: Evidence from fund managerial structure | |
KR20220097005A (ko) | 기업정보를 이용한 기업 평가 시스템 | |
CN102567536A (zh) | 一种基于数据统计学的关键绩效指标分析方法 | |
Adams et al. | Government expenditures, defense, and economic growth in the LDCs: A revised perspective | |
KR101927578B1 (ko) | 기업정보 제공 시스템 및 방법 | |
CN107689004A (zh) | 团险投保方法和系统 | |
Errit et al. | Euro area monetary policy transmission in Estonia | |
CN105741173A (zh) | 农业类公司投资价值评估方法及系统 | |
CN107292477A (zh) | 一种基于公司经营健康状况的信用评估方法 | |
DE102012210482A1 (de) | Verfahren und System zum Migrieren von Geschäftsprozessinstanzen | |
Joshi et al. | Determinants of compliance and disclosure requirements by top listed companies under Malaysian Code of Corporate Governance (2012) | |
CN108021588B (zh) | 一种面向电子商务的用户首次购数据整合方法及装置 | |
CN108009927A (zh) | 一种股票评分方法及平台 | |
CN103235828B (zh) | 一种信息数据评分卡的指标的档位分析及调整方法 | |
Griffin et al. | Institutional investors petition the SEC to require ESG disclosures | |
Escobedo | The impact of hyped IPO's on the market | |
CN105224881A (zh) | 一种众包数据库下的双向k-匿名方法 | |
Klarmann et al. | T Course: Business Administration: Production Economics and Marketing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |