CN106227872A - 一种基于电商平台的数据清洗验证方法 - Google Patents
一种基于电商平台的数据清洗验证方法 Download PDFInfo
- Publication number
- CN106227872A CN106227872A CN201610618210.6A CN201610618210A CN106227872A CN 106227872 A CN106227872 A CN 106227872A CN 201610618210 A CN201610618210 A CN 201610618210A CN 106227872 A CN106227872 A CN 106227872A
- Authority
- CN
- China
- Prior art keywords
- data
- method based
- platform
- checking
- trend
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000004140 cleaning Methods 0.000 title abstract description 8
- 230000002159 abnormal effect Effects 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 4
- 230000005611 electricity Effects 0.000 claims description 24
- 238000012795 verification Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 abstract 1
- 230000005856 abnormality Effects 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于电商平台的数据清洗验证方法,其具体实现过程为:首先是对采集数据进行初步验证,发现问题及时反馈;然后根据电商平台常见的异常,设定具体的步骤处理这些异常,处理过程中及时检验数据处理是否正确;最后再根据业务逻辑对数据进一步特殊处理,使数据符合分析需求;验证数据,完成处理过程。该基于电商平台的数据清洗验证方法与现有技术相比,涵盖电商数据的基本的异常情形,可以实现预处理,然后再根据特殊性来对数据进行特殊处理,能减少前期大部分的冗余时间,提高效率,实用性强。
Description
技术领域
本发明涉及数据通信技术领域,具体地说是一种实用性强、基于电商平台的数据清洗验证方法。
背景技术
近年来,随着信息技术和互联网的不断迅速发展,互联网信息在社会和生活中的地位越来越显著。随着大数据时代的到来,数据的价值得到了更好的体现,特别是互联网数据。在大数据时代,数据就是价值,拥有数据就是拥有价值。互联网作为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。
数据清洗和验证可以对采集到的数据进行异常处理和标准化处理,可以使数据有杂乱无章,噪声大异常情况多的数据,快速变为可分析的有意义的数据。这一点,数据分析和验证所起到的作用至关重要,如何高速有效的清洗和验证是摆在目前的最关键的课题。
在电商数据采集过程中总会不可避免的存在数据异常和噪声,而这些异常的数据数据量比较大,很多是因为人为的原因,如不规范的店铺名等,如何快速有效的处理这些异常数据,提高数据质量成为数据分析过程中的首要目标。众所周知,数据分析的步骤一般为数据采集,数据清洗整理,最后是根据业务逻辑分析数据。然而,数据清洗和整理通常在整个流程中占据非常大比例的时间,甚至有七分清洗,三分分析的说法。
目前清洗处理电商数据的方法一般都是根据数据异常情况制定相应的清洗策略,每次都要按照数据的不同异常情况,确定清洗步骤和流程,耗费大量时间在前期的数据异常检验上边。
本方法是根据电商平台的数据特性和业务逻辑,制定出的一个普遍性的可推广的基础处理流程,基本涵盖电商数据的基本的异常情形,可以实现预处理,然后再根据特殊性来对数据进行特殊处理,能减少前期大部分的冗余时间,提高效率。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、基于电商平台的数据清洗验证方法。
一种基于电商平台的数据清洗验证方法,其具体实现过程为:
首先是对采集数据进行初步验证,发现问题及时反馈;
然后根据电商平台常见的异常,设定具体的步骤处理这些异常,处理过程中及时检验数据处理是否正确;
最后再根据业务逻辑对数据进一步特殊处理,使数据符合分析需求;
验证数据,完成处理过程。
对采集数据进行验证的过程为:首先对采集总数和以往历史采集总数进行对比,这里的采集总数包括记录总条数、销售额;如果两者相差较大的数据异常,且没有特殊解释,则判定采集有问题,及时向采集部分反馈,其中相差较大的差值为自定义内容,特殊解释则是指相应的电商解释。
设定异常处理步骤的过程为:在初步验证无误后,对数据异常进行初步常规处理,即首先确定目标字段,对分析至关重要的字段,明确目标形式,这里的重要字段包括销售额、销售量、月份、店铺信息;然后对数据进行初步的处理,即针对目标字段为空的处理,根据业务需求对其作空处理或填补聚类数据;对异常字符乱码,进行替换操作。
验证数据处理是否正确是指针对操作的字段,查看字段是否已经处理妥当,是否还有异常,若有则返回重新处理,没有则进入下一步骤。
所述特殊处理是指根据业务逻辑,基于分析需求进行数据标准化处理,该标准化处理包括统一区域名称、统一商品或行业分类标准。
验证数据的过程为:进行趋势验证,分为总量趋势验证和特殊趋势验证,其中总量趋势验证是指处理后的数据与历史数据汇集在一起,看整体趋势变化是否符合实际;特殊趋势验证,是指抽取某店铺或某行业进行验证,与历史数据比对看整体趋势是否符合实际。
本发明的一种基于电商平台的数据清洗验证方法,具有以下优点:
本发明提供的一种基于电商平台的数据清洗验证方法,使得数据运营人员按照该方法的步骤进行数据验证和分析,能在尽最大程度提高数据质量的同时,及时发现采集数据问题并及时反馈,以减少不必要的时间浪费;与此同时,本方法的流程能对数据进行一个普遍性的初步处理,能大大减少数据预处理的时间,提高效率;最后,也提供了一些特殊处理的思路和方法,可以大大减少数据运营人员根据分析的特殊要求特殊处理数据的时间,最后每一步处理都伴随着验证,最后总的验证能更加提高数据的准确性,实用性强,适用范围广泛,易于推广。
附图说明
附图1为本发明的实现示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步说明。
如附图1所示,本发明的一种基于电商平台的数据清洗验证方法,基本步骤为,首先对采集数据进行初步验证,无误后进行初步处理,然后特殊处理,最后验证,无误后得到目标数据。
具体步骤如下:
首先对采集数据进行初步验证,主要是对采集总数和以往历史采集总数(如记录总条数,销售额等)进行对比,如果相差甚大,这里的相差甚大具体差值由工作人员自定义实现,非常明显的数据异常,且没有特殊解释(如电商购物节日等),基本可以判定采集有问题,及时向采集部分反馈,无需进行后续验证,因为即便进行后续也并没有意义,只会白白浪费时间。
初步验证无误后,对数据异常进行初步常规处理,首先是确定目标字段,对分析至关重要的字段(如销售额,销售量,月份,店铺等),明确目标形式。然后就是对数据进行初步的处理,首先是针对目标字段为空的处理,可根据业务需求对其作空处理或填补聚类数据,其次是对异常字符乱码,作替换处理。
验证以上初步处理是否正确,主要是指针对操作的字段,查看字段是否已经处理妥当,是否还有异常,若有返回第二步重新处理,没有的话进入下一步。
根据业务逻辑对数据进行特殊处理,这里的业务逻辑是指基于分析需求的数据标准化处理,如统一区域名称,统一商品或行业分类标准等。
再次检验数据,趋势验证,分为总量趋势验证和特殊趋势验证,总量趋势验证主要是指处理后的数据与前几个月数据汇集在一起,这里一般选取前六个月,看整体趋势变化是否符合实际。特殊趋势验证,是指抽取某店铺或某行业进行验证,与历史数据比对看整体趋势是否符合实际。
上述步骤通过计算机脚本实现,具体涉及的差值数额、比较的历史日期等参数在脚本中自定义即可。
在本发明中,首先是对数据进行初步验证,发现问题及时向采集反馈,然后根据电商平台常见的异常,设定具体的步骤处理这些异常,处理过程中及时检验数据处理是否正确,经过这样处理基本将数据基本的异常处理掉了,然后再根据业务逻辑对数据进一步特殊处理,使数据符合分析需求,最后验证数据,处理完毕。
整个处理流程的先后顺序至关重要,处理的先后顺序对数据的准确性有重大影响,本方法验证与处理相辅相成,同时进行,能在最大限度保证数据质量的同时,减少花费的时间,提高效率。同时,基本的处理方法:先总体验证,到普遍异常处理,根据业务逻辑特殊处理,最后精确验证得到完善的目标数据,也是需要注意的重点,因其具有普遍性,可作为初步处理的固定办法加以运用,具有比较大的价值。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种基于电商平台的数据清洗验证方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
Claims (6)
1.一种基于电商平台的数据清洗验证方法,其特征在于,其具体实现过程为:
首先是对采集数据进行初步验证,发现问题及时反馈;
然后根据电商平台常见的异常,设定具体的步骤处理这些异常,处理过程中及时检验数据处理是否正确;
最后再根据业务逻辑对数据进一步特殊处理,使数据符合分析需求;
验证数据,完成处理过程。
2.根据权利要求1所述的一种基于电商平台的数据清洗验证方法,其特征在于,对采集数据进行验证的过程为:首先对采集总数和以往历史采集总数进行对比,这里的采集总数包括记录总条数、销售额;如果两者相差较大的数据异常,且没有特殊解释,则判定采集有问题,及时向采集部分反馈,其中相差较大的差值为自定义内容,特殊解释则是指相应的电商解释。
3.根据权利要求1所述的一种基于电商平台的数据清洗验证方法,其特征在于,设定异常处理步骤的过程为:在初步验证无误后,对数据异常进行初步常规处理,即首先确定目标字段,对分析至关重要的字段,明确目标形式,这里的重要字段包括销售额、销售量、月份、店铺信息;然后对数据进行初步的处理,即针对目标字段为空的处理,根据业务需求对其作空处理或填补聚类数据;对异常字符乱码,进行替换操作。
4.根据权利要求1所述的一种基于电商平台的数据清洗验证方法,其特征在于,验证数据处理是否正确是指针对操作的字段,查看字段是否已经处理妥当,是否还有异常,若有则返回重新处理,没有则进入下一步骤。
5.根据权利要求1所述的一种基于电商平台的数据清洗验证方法,其特征在于,所述特殊处理是指根据业务逻辑,基于分析需求进行数据标准化处理,该标准化处理包括统一区域名称、统一商品或行业分类标准。
6.根据权利要求1所述的一种基于电商平台的数据清洗验证方法,其特征在于,验证数据的过程为:进行趋势验证,分为总量趋势验证和特殊趋势验证,其中总量趋势验证是指处理后的数据与历史数据汇集在一起,看整体趋势变化是否符合实际;特殊趋势验证,是指抽取某店铺或某行业进行验证,与历史数据比对看整体趋势是否符合实际。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610618210.6A CN106227872A (zh) | 2016-08-01 | 2016-08-01 | 一种基于电商平台的数据清洗验证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610618210.6A CN106227872A (zh) | 2016-08-01 | 2016-08-01 | 一种基于电商平台的数据清洗验证方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106227872A true CN106227872A (zh) | 2016-12-14 |
Family
ID=57535667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610618210.6A Pending CN106227872A (zh) | 2016-08-01 | 2016-08-01 | 一种基于电商平台的数据清洗验证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106227872A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107403286A (zh) * | 2017-08-10 | 2017-11-28 | 中国民航信息网络股份有限公司 | 逾重行李违规销售监控系统和方法 |
CN107562725A (zh) * | 2017-08-31 | 2018-01-09 | 新华三大数据技术有限公司 | 指标提取的校验方法及装置 |
CN109542885A (zh) * | 2018-11-19 | 2019-03-29 | 北京锐安科技有限公司 | 数据清洗方法、装置、设备及存储介质 |
CN116484805A (zh) * | 2023-05-06 | 2023-07-25 | 国网浙江省电力有限公司 | 结合知识图谱和语义分析的电力报告智能清洗处理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120221508A1 (en) * | 2011-02-28 | 2012-08-30 | International Machines Corporation | Systems and methods for efficient development of a rule-based system using crowd-sourcing |
CN104112207A (zh) * | 2014-07-29 | 2014-10-22 | 浪潮软件集团有限公司 | 一种基于互联网数据的电子商务交易监测方法 |
CN104657503A (zh) * | 2015-03-13 | 2015-05-27 | 浪潮集团有限公司 | 一种基于统计判别法对电商销售额异常值的预处理方法 |
CN104933128A (zh) * | 2015-06-12 | 2015-09-23 | 北京京东尚科信息技术有限公司 | 一种资讯推送方法及系统 |
CN105045807A (zh) * | 2015-06-04 | 2015-11-11 | 浙江力石科技股份有限公司 | 互联网交易信息的数据清洗算法 |
-
2016
- 2016-08-01 CN CN201610618210.6A patent/CN106227872A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120221508A1 (en) * | 2011-02-28 | 2012-08-30 | International Machines Corporation | Systems and methods for efficient development of a rule-based system using crowd-sourcing |
CN104112207A (zh) * | 2014-07-29 | 2014-10-22 | 浪潮软件集团有限公司 | 一种基于互联网数据的电子商务交易监测方法 |
CN104657503A (zh) * | 2015-03-13 | 2015-05-27 | 浪潮集团有限公司 | 一种基于统计判别法对电商销售额异常值的预处理方法 |
CN105045807A (zh) * | 2015-06-04 | 2015-11-11 | 浙江力石科技股份有限公司 | 互联网交易信息的数据清洗算法 |
CN104933128A (zh) * | 2015-06-12 | 2015-09-23 | 北京京东尚科信息技术有限公司 | 一种资讯推送方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107403286A (zh) * | 2017-08-10 | 2017-11-28 | 中国民航信息网络股份有限公司 | 逾重行李违规销售监控系统和方法 |
CN107403286B (zh) * | 2017-08-10 | 2021-03-16 | 中国民航信息网络股份有限公司 | 逾重行李违规销售监控系统和方法 |
CN107562725A (zh) * | 2017-08-31 | 2018-01-09 | 新华三大数据技术有限公司 | 指标提取的校验方法及装置 |
CN107562725B (zh) * | 2017-08-31 | 2020-10-09 | 新华三大数据技术有限公司 | 指标提取的校验方法及装置 |
CN109542885A (zh) * | 2018-11-19 | 2019-03-29 | 北京锐安科技有限公司 | 数据清洗方法、装置、设备及存储介质 |
CN116484805A (zh) * | 2023-05-06 | 2023-07-25 | 国网浙江省电力有限公司 | 结合知识图谱和语义分析的电力报告智能清洗处理方法 |
CN116484805B (zh) * | 2023-05-06 | 2023-09-15 | 国网浙江省电力有限公司 | 结合知识图谱和语义分析的电力报告智能清洗处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Setyaningsih et al. | Bibliometric analysis of the term'green manufacturing' | |
CN106227872A (zh) | 一种基于电商平台的数据清洗验证方法 | |
CN105488185B (zh) | 一种知识库的优化方法和装置 | |
CN107688591B (zh) | 一种精算处理方法和装置 | |
CN106326248A (zh) | 数据库数据的存储方法和装置 | |
CN105631783A (zh) | 一种客观量化的中国发明专利评估系统及方法 | |
US20190180207A1 (en) | System and method for managing risk factors in aeo (authorized economic operator) certificate process | |
CN105630931A (zh) | 一种文档分类的方法及装置 | |
CN106294524A (zh) | 一种关系数据的处理方法和装置 | |
CN108228736A (zh) | 数据处理方法、数据处理系统及计算机可读存储介质 | |
CN109039710A (zh) | 路由数据稽核方法、装置、服务器及存储介质 | |
CN102147811B (zh) | 一种基于日志的系统性能分析方法和装置 | |
CN107578210A (zh) | 合同审批流程的自动化测试方法及装置 | |
CN110348711A (zh) | 一种基于差错预判的案件质检方法、装置和电子设备 | |
CN112445787A (zh) | 一种基于实时业务的数据稽核方法和系统 | |
CN106875084A (zh) | 巡检后期任务创建方法及系统 | |
CN106685950A (zh) | 流程业务数据处理方法 | |
US7272588B2 (en) | Systems, methods, and computer-readable media for generating service order count metrics | |
CN105138612A (zh) | 数据一致性差异原因的分析和定位的方法及系统 | |
JPH10217048A (ja) | 品質改善システム | |
CN112418652B (zh) | 一种风险识别方法及相关装置 | |
CN110046341A (zh) | 用于对信息进行匹配的方法和系统 | |
CN104616193B (zh) | 一种账务信息处理方法、装置及系统 | |
CN109426576A (zh) | 容错处理方法以及容错组件 | |
CN104123469A (zh) | 一种普适计算环境上下文一致性检测调度系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161214 |
|
RJ01 | Rejection of invention patent application after publication |