CN104657503A - 一种基于统计判别法对电商销售额异常值的预处理方法 - Google Patents
一种基于统计判别法对电商销售额异常值的预处理方法 Download PDFInfo
- Publication number
- CN104657503A CN104657503A CN201510109629.4A CN201510109629A CN104657503A CN 104657503 A CN104657503 A CN 104657503A CN 201510109629 A CN201510109629 A CN 201510109629A CN 104657503 A CN104657503 A CN 104657503A
- Authority
- CN
- China
- Prior art keywords
- data
- exceptional value
- storehouse
- abnormal
- deceptive information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 16
- 238000007781 pre-processing Methods 0.000 title abstract 3
- 238000012795 verification Methods 0.000 claims abstract description 12
- 238000005516 engineering process Methods 0.000 claims abstract description 10
- 238000007418 data mining Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000002405 diagnostic procedure Methods 0.000 claims description 10
- 230000008034 disappearance Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 abstract 1
- 238000003379 elimination reaction Methods 0.000 abstract 1
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000007689 inspection Methods 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于统计判别法对电商销售额异常值的预处理方法,该预处理方法步骤如下:完善数据挖掘技术和工具;对基础数据的进行初步验证;对异常值进行分类;加强与虚假信息库的对比剔除,减少缺失、噪音数据,对于确实为缺失数据的对其补零处理;对于虚假数据判别验证;对于刷单数据进行验证处理;数据采集过程中,将采集结果与异常数据库进行对比;形成海量的数据库之后,建立基本的信息库,对海量数据批量处理。本发明和现有技术相比,对异常电商数据更有针对性,对异常电商数据的排查将使采集周期变短、数据准确性大大提高,而且操作简单,节省了客户查阅资料的时间。
Description
技术领域
本发明涉及计算机网络数据处理技术领域,具体地说是一种基于统计判别法对电商销售额异常值的预处理方法。
背景技术
现行的电商数据库极易受噪声、丢失数据和不一致数据的侵扰,而现实中,电商刷单、商家提供虚假信息等现象也是屡禁不止。低质量的数据将导致低质量的挖掘结果,低质量的基础数据直接导致无法做出高质量的决策。如何预处理电商数据异常值,提高数据质量,做出高效的统计决策是做好数据分析工作必须重视的问题。
现行的电商数据异常值主要存在以下几种方式:
1)因为数据挖掘存在疏漏或其它原因造成的数据值缺失、数据噪音、数据值不一致等。
2)因为商家提供虚假信息,编造虚假销售记录导致销售额偏大。
3)因为商家恶意刷单,导致销售数量偏大,最终导致整体销售额偏大。
发明内容
本发明的技术任务是提供一种基于统计判别法对电商销售额异常值的预处理方法。
本发明的技术任务是按以下方式实现的,该预处理方法步骤如下:
步骤1:完善数据挖掘技术和工具;
步骤2:对基础数据的进行初步验证,找出异常值,非异常值纳入原始电商数据库,异常值再次进行验证处理;
步骤3:对异常值进行分类;
步骤4:加强与虚假信息库的对比剔除,减少缺失、噪音数据,对于确实为缺失数据的对其补零处理;
步骤5:对于虚假数据,使用DDFAI对其判别验证,判别为虚假信息的纳入虚假信息库,并将其删除,非虚假信息纳入原始电商数据库;
步骤6:对于刷单数据进行验证处理;
步骤7:数据采集过程中,将采集结果与异常数据库进行对比,如若相同,则删掉;如若不同,继续利用上述步骤对其进行检验;
步骤8:形成海量的数据库之后,建立基本的信息库,对每一个电商建立样本库,实时数据都与历史数据建模分析,实现对海量数据的批量处理。
所述的步骤3中异常值分类为:1)缺失、噪音数据;2)虚假数据;3)刷单数据。
所述的步骤6中验证处理的方式为:1)刷单网站信息获取刷单数据进行信息验证;2)IP查重技术,对于在同一家网店中买家IP重复出现或者不同IP在某一时间段内成规律性购买同一商品,认定其为刷单数据怀疑对象,之后统计此网店的年销售数据,将时间序列数据面板化处理,之后对其狄克逊检验,判别为虚假信息的将其纳入虚假信息库,并将其删除,非虚假信息纳入原始电商数据库。
本发明的一种基于统计判别法对电商销售额异常值的预处理方法和现有技术相比,对异常电商数据更有针对性,对异常电商数据的排查将使采集周期变短、数据准确性大大提高,而且操作简单,利于数据挖掘师、数据分析师的快速掌握。建立的异常值数据库还可以为企业、政府、银行、个人等领域提供决策参考和依据,从而大大的节省了客户查阅资料的时间。
附图说明
附图1为一种基于统计判别法对电商销售额异常值的预处理方法的流程框图。
具体实施方式
实施例1:
该预处理方法步骤如下:
步骤1:完善数据挖掘技术和工具;
步骤2:对基础数据的进行初步验证,找出异常值,非异常值纳入原始电商数据库,异常值再次进行验证处理;
步骤3:对异常值进行分类;异常值分类为:1)缺失、噪音数据;2)虚假数据;3)刷单数据;
步骤4:加强与虚假信息库的对比剔除,减少缺失、噪音数据,对于确实为缺失数据的对其补零处理;
步骤5:对于虚假数据,使用DDFAI对其判别验证,判别为虚假信息的纳入虚假信息库,并将其删除,非虚假信息纳入原始电商数据库;
步骤6:对于刷单数据进行验证处理;验证处理的方式为:1)刷单网站信息获取刷单数据进行信息验证;2)IP查重技术,对于在同一家网店中买家IP重复出现或者不同IP在某一时间段内成规律性购买同一商品,认定其为刷单数据怀疑对象,之后统计此网店的年销售数据,将时间序列数据面板化处理,之后对其狄克逊检验,判别为虚假信息的将其纳入虚假信息库,并将其删除,非虚假信息纳入原始电商数据库;
步骤7:数据采集过程中,将采集结果与异常数据库进行对比,如若相同,则删掉;如若不同,继续利用上述步骤对其进行检验;
步骤8:形成海量的数据库之后,建立基本的信息库,对每一个电商建立样本库,实时数据都与历史数据建模分析,实现对海量数据的批量处理。
实施例2:
对电商销售额异常值首先进行异常数据库的完善:
1)对数据进行异常值检验,若确实为异常值,则将数据删除,且将此数据信息记录到异常值数据库中;
2)再次采集数据时,首先将要采集的数据与异常值数据库中进行对比,若信息一致,则不会对此条数据采集入库;
3)对新采集的数据进行异常值检验,若检测为异常值,则将数据删除,且将此数据信息记录到异常值数据库中,进行异常值数据库的完善;循环往复,不断完善异常值数据库。
其次在异常数据库完备的基础之上,进行分类判断:
1)当存在数据噪音时,即空值时,对数据进行补零处理。后期需要开发人员进一步提高数据挖掘技术和完善数据挖掘工具,最大限度的避免数据缺失、噪音、不一致等情况;
2)针对商家提供虚假信息的,在数据采集过程中,对于单价超过百万,且单价有四位相同数据组成的,类似于99999999元,2020202020元等销售信息将其列为异常值,对于异常值选定该商户(公司),采用此商户(公司)连续几个月的数据,首先对时间序列面板化处理,剔除时间因素对数值的影响,之后将处理后的面板数据进行Q检验,当检验缺失为异常值时,将此商户的数据剔除,且此商户的店铺URL列为虚假店铺信息库,下次采集数据时将此商户直接剔除,既减少了的长期统计的工作量,又避免了异常值对于统计结果分析的影响;
3)对于同一买家IP连续在一家商店购买次数多于10次,且购买时间间隔不足30天的,也将此家店铺列为异常值店铺,对于此类刷单店铺,需要结合评价数等因素排除异常值。其中可用狄克逊检验对面板化的数据进行检验,模型如下:模型认为异常数据应该是最大数据和最小数据,因此该其基本方法是将数据按大小排队,检验最大数据和最小数据是否异常数据,只考虑极大值的情况;
(1)将实验数据xi按值的大小排成顺序统计量
X(1)≤X(2)≤X(3)……X(n)
(2)计算f0值
(3)根据狄克逊系数表将f0与f(n,α)进行比较,如果f0>f(n,α),说明X(n)离群远,则判定该数据为异常数据,予以剔除。
应用狄克逊模型可以基本剔除刷单销售商的大部分数值。
随着采集的数据的积累,当数据累计超过一定数量后,针对大数据可以进行正态检验等操作。后续也可以进行Walsh检验,格拉布斯检验,以及聚类分析等。
名词解释:
DDFAI:“卓数”虚假信息判别法,是利用大量的电商数据聚类统计,分析得到虚假信息的分布规律和内部特征,验证而得的虚假信息判别法。
狄克逊检验:狄克逊准则是通过极差比判定和剔除异常数据。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
Claims (3)
1.一种基于统计判别法对电商销售额异常值的预处理方法,其特征在于,该预处理方法步骤如下:
步骤1:完善数据挖掘技术和工具;
步骤2:对基础数据的进行初步验证,找出异常值,非异常值纳入原始电商数据库,异常值再次进行验证处理;
步骤3:对异常值进行分类;
步骤4:加强与虚假信息库的对比剔除,减少缺失、噪音数据,对于确实为缺失数据的对其补零处理;
步骤5:对于虚假数据,使用DDFAI对其判别验证,判别为虚假信息的纳入虚假信息库,并将其删除,非虚假信息纳入原始电商数据库;
步骤6:对于刷单数据进行验证处理;
步骤7:数据采集过程中,将采集结果与异常数据库进行对比,如若相同,则删掉;如若不同,继续利用上述步骤对其进行检验;
步骤8:形成海量的数据库之后,建立基本的信息库,对每一个电商建立样本库,实时数据都与历史数据建模分析,实现对海量数据的批量处理。
2.根据权利要求1所述的一种基于统计判别法对电商销售额异常值的预处理方法,其特征在于,所述的步骤3中异常值分类为:1)缺失、噪音数据;2)虚假数据;3)刷单数据。
3.根据权利要求1所述的一种基于统计判别法对电商销售额异常值的预处理方法,其特征在于,所述的步骤6中验证处理的方式为:1)刷单网站信息获取刷单数据进行信息验证;2)IP查重技术,对于在同一家网店中买家IP重复出现或者不同IP在某一时间段内成规律性购买同一商品,认定其为刷单数据怀疑对象,之后统计此网店的年销售数据,将时间序列数据面板化处理,之后对其狄克逊检验,判别为虚假信息的将其纳入虚假信息库,并将其删除,非虚假信息纳入原始电商数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510109629.4A CN104657503A (zh) | 2015-03-13 | 2015-03-13 | 一种基于统计判别法对电商销售额异常值的预处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510109629.4A CN104657503A (zh) | 2015-03-13 | 2015-03-13 | 一种基于统计判别法对电商销售额异常值的预处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104657503A true CN104657503A (zh) | 2015-05-27 |
Family
ID=53248630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510109629.4A Pending CN104657503A (zh) | 2015-03-13 | 2015-03-13 | 一种基于统计判别法对电商销售额异常值的预处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104657503A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106204157A (zh) * | 2016-07-24 | 2016-12-07 | 广东聚联电子商务股份有限公司 | 一种基于大数据采集与分析的刷单评价行为处理方法 |
CN106227872A (zh) * | 2016-08-01 | 2016-12-14 | 浪潮软件集团有限公司 | 一种基于电商平台的数据清洗验证方法 |
CN106384273A (zh) * | 2016-10-08 | 2017-02-08 | 江苏通付盾科技有限公司 | 恶意刷单检测系统及方法 |
CN106789844A (zh) * | 2015-11-23 | 2017-05-31 | 阿里巴巴集团控股有限公司 | 一种恶意用户识别方法及装置 |
CN106815452A (zh) * | 2015-11-27 | 2017-06-09 | 苏宁云商集团股份有限公司 | 一种作弊检测方法及装置 |
CN106934627A (zh) * | 2015-12-28 | 2017-07-07 | 中国移动通信集团公司 | 一种电商行业作弊行为的检测方法及装置 |
CN107124391A (zh) * | 2016-09-22 | 2017-09-01 | 北京小度信息科技有限公司 | 异常行为的识别方法及装置 |
CN108369707A (zh) * | 2016-03-31 | 2018-08-03 | 甲骨文国际公司 | 用于提供统计动态仪表数据验证的系统和方法 |
CN109752651A (zh) * | 2017-11-03 | 2019-05-14 | 株洲中车时代电气股份有限公司 | 一种牵引电机超温故障预测的方法及系统 |
CN110751371A (zh) * | 2019-09-20 | 2020-02-04 | 苏宁云计算有限公司 | 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064987A (zh) * | 2013-01-31 | 2013-04-24 | 五八同城信息技术有限公司 | 一种虚假交易信息识别方法 |
CN103679478A (zh) * | 2013-12-17 | 2014-03-26 | 南京联创科技集团股份有限公司 | 一种生成生鲜商城宅配套餐的方法及系统 |
CN104331817A (zh) * | 2014-10-29 | 2015-02-04 | 深圳先进技术研究院 | 电子商务推荐模型的用户特征提取方法及系统 |
-
2015
- 2015-03-13 CN CN201510109629.4A patent/CN104657503A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064987A (zh) * | 2013-01-31 | 2013-04-24 | 五八同城信息技术有限公司 | 一种虚假交易信息识别方法 |
CN103679478A (zh) * | 2013-12-17 | 2014-03-26 | 南京联创科技集团股份有限公司 | 一种生成生鲜商城宅配套餐的方法及系统 |
CN104331817A (zh) * | 2014-10-29 | 2015-02-04 | 深圳先进技术研究院 | 电子商务推荐模型的用户特征提取方法及系统 |
Non-Patent Citations (1)
Title |
---|
邓尚民 等: ""Clementine在电子商务环境中的数据挖掘应用"", 《现代图书情报技术》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106789844B (zh) * | 2015-11-23 | 2020-06-16 | 阿里巴巴集团控股有限公司 | 一种恶意用户识别方法及装置 |
CN106789844A (zh) * | 2015-11-23 | 2017-05-31 | 阿里巴巴集团控股有限公司 | 一种恶意用户识别方法及装置 |
CN106815452A (zh) * | 2015-11-27 | 2017-06-09 | 苏宁云商集团股份有限公司 | 一种作弊检测方法及装置 |
CN106934627A (zh) * | 2015-12-28 | 2017-07-07 | 中国移动通信集团公司 | 一种电商行业作弊行为的检测方法及装置 |
CN108369707B (zh) * | 2016-03-31 | 2021-11-23 | 甲骨文国际公司 | 用于提供统计动态仪表数据验证的系统和方法 |
CN108369707A (zh) * | 2016-03-31 | 2018-08-03 | 甲骨文国际公司 | 用于提供统计动态仪表数据验证的系统和方法 |
CN106204157A (zh) * | 2016-07-24 | 2016-12-07 | 广东聚联电子商务股份有限公司 | 一种基于大数据采集与分析的刷单评价行为处理方法 |
CN106227872A (zh) * | 2016-08-01 | 2016-12-14 | 浪潮软件集团有限公司 | 一种基于电商平台的数据清洗验证方法 |
CN107124391A (zh) * | 2016-09-22 | 2017-09-01 | 北京小度信息科技有限公司 | 异常行为的识别方法及装置 |
CN106384273B (zh) * | 2016-10-08 | 2020-01-07 | 江苏通付盾科技有限公司 | 恶意刷单检测系统及方法 |
CN106384273A (zh) * | 2016-10-08 | 2017-02-08 | 江苏通付盾科技有限公司 | 恶意刷单检测系统及方法 |
CN109752651A (zh) * | 2017-11-03 | 2019-05-14 | 株洲中车时代电气股份有限公司 | 一种牵引电机超温故障预测的方法及系统 |
CN109752651B (zh) * | 2017-11-03 | 2021-08-17 | 株洲中车时代电气股份有限公司 | 一种牵引电机超温故障预测的方法及系统 |
CN110751371A (zh) * | 2019-09-20 | 2020-02-04 | 苏宁云计算有限公司 | 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104657503A (zh) | 一种基于统计判别法对电商销售额异常值的预处理方法 | |
CN110223168B (zh) | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 | |
Abdullah et al. | The influence of soft and hard quality management practices on performance | |
CN103810637B (zh) | 机动车保险欺诈检测方法及系统 | |
CN107993144A (zh) | 客户风险等级确定方法、装置、设备及可读存储介质 | |
Sedera et al. | Measuring enterprise systems success: A preliminary model | |
Nguyen et al. | Vasabi: Hierarchical user profiles for interactive visual user behaviour analytics | |
CN108170830B (zh) | 群组事件数据可视化方法及系统 | |
CN106845846A (zh) | 大数据资产评估方法 | |
CN102985939A (zh) | 艺术品评估引擎和用于自动形成艺术品指数的方法 | |
CN111931992A (zh) | 一种电力负荷预测指标选取方法及装置 | |
Shi et al. | A Grey Model for Evaluation of Information Systems Security. | |
CN110569363A (zh) | 一种决策流组件生成方法、装置、电子设备及存储介质 | |
CN113450004A (zh) | 电力信用报告生成方法、装置、电子设备及可读存储介质 | |
CN105447117A (zh) | 一种用户聚类的方法和装置 | |
CN109064211A (zh) | 营销业务数据分析方法、装置及服务器 | |
CN112465397A (zh) | 一种审计数据的分析方法和装置 | |
Svabova et al. | Prediction of default of small companies in the Slovak Republic | |
CN109961314B (zh) | 一种基于大数据对珠宝首饰材料进行评估报价的系统及方法 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN109754151B (zh) | 基于交易数据的地铁站点识别方法、装置、设备及介质 | |
Zhao et al. | Research on E-commerce Customer Segmentation Based on RFAC Model | |
Lee et al. | An analysis on success factors and importance of six sigma innovation in small and medium venture companies | |
Luzhanska et al. | Cluster analysis application in the evaluation of the foreign economic potential of Ukraines regions | |
CN111626586B (zh) | 数据质量检测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150527 |