CN114385606A - 一种大数据清洗方法、系统、存储介质和电子设备 - Google Patents
一种大数据清洗方法、系统、存储介质和电子设备 Download PDFInfo
- Publication number
- CN114385606A CN114385606A CN202111495603.XA CN202111495603A CN114385606A CN 114385606 A CN114385606 A CN 114385606A CN 202111495603 A CN202111495603 A CN 202111495603A CN 114385606 A CN114385606 A CN 114385606A
- Authority
- CN
- China
- Prior art keywords
- service data
- data set
- target service
- user
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012216 screening Methods 0.000 claims description 22
- 230000008030 elimination Effects 0.000 claims description 12
- 238000003379 elimination reaction Methods 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000005406 washing Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims 2
- 238000004458 analytical method Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据处理技术领域,提供一种大数据清洗方法、系统、存储介质和电子设备,一方面,当判断目标业务数据集合存在缺失业务数据时,直接根据缺失业务数据相关联的业务数据进行填充,既能提高数据清洗效率,还在极大程度上保证了数据清洗质量,另一方面,对第一目标业务数据集合进行去重处理,在去重后所得到的第二目标业务数据的基础进行聚合清洗,进一步提高数据清洗效率,而且,并将每条去重数据的数量关联到相应的清洗后的数据集合中,使用户在调用任一清洗后的数据集合时,能够相应添加去重数据,达到为用户提供更精准的数据支持的目的。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种大数据清洗方法、系统、存储介质和电子设备。
背景技术
近些年来,大数据技术越来越成熟,广泛应用在医学、电子信息、图像识别、贸易业务处理等领域,以业务数据为例进行说明,随着贸易业务的开展,业务数据会不断增多,日趋庞大,由于业务数据采集来源多样,数据质量也不一致,导致采集到的业务数据会存在空值,异常值等问题。缺失或异常数据会极大影响后续数据分析的质量,如果对采集数据源进行多次对比验证也会降低数据清洗效率。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供了一种大数据清洗方法、系统、存储介质和电子设备。
本发明的一种大数据清洗方法的技术方案如下:
判断目标业务数据集合是否存在缺失业务数据,若是,则根据所述目标业务数据集合中的且与所述缺失业务数据相关联的业务数据,对所述缺失业务数据进行填充,得到第一目标业务数据集合;
对所述第一目标业务数据集合进行去重处理,得到第二目标业务数据集合,并记录每条去重业务数据的数量;
按照用户指定的每个预设筛选规则分别对所述第二目标业务数据集合进行分类处理,得到多个清洗后的数据集合,并将每条去重业务数据的数量关联到相应的清洗后的数据集合中。
本发明的一种大数据清洗方法的有益效果如下:
一方面,当判断目标业务数据集合存在缺失业务数据时,直接根据缺失业务数据相关联的业务数据进行填充,既能提高数据清洗效率,还在极大程度上保证了数据清洗质量,另一方面,对第一目标业务数据集合进行去重处理,在去重后所得到的第二目标业务数据的基础进行聚合清洗,进一步提高数据清洗效率,而且,并将每条去重业务数据的数量关联到相应的清洗后的数据集合中,使用户在调用任一清洗后的数据集合时,能够相应添加去重数据,达到为用户提供更精准的数据支持的目的。
在上述方案的基础上,本发明的一种大数据清洗方法还可以做如下改进。
进一步,所述目标业务数据集合的获取过程,包括:
将获取得到的原始业务数据集合进行聚类,得到多个业务数据集合,将用户指定的任一业务数据集合确定为所述目标业务数据集合。
采用上述进一步方案的有益效果是:将获取得到的原始业务数据集合进行聚类,相当于对原始业务数据集合进行预处理,进一步提高数据清洗效率。
进一步,还包括:
生成分别指向每个清洗后的数据集合的短链接;
接收用户的智能终端发送的数据请求,将所述数据请求对应的短链接发送至所述用户的智能终端。
采用上述进一步方案的有益效果是:相比于直接发送清洗后的数据集合,短链接的字节长度更短,能更快发送至用户的智能终端,提高用户体验度。
进一步,所述原始业务数据集合的获取过程,包括:
通过网络爬虫的方式获取所述原始业务数据集合。
本发明的一种大数据清洗系统的技术方案如下:
包括判断填充模块、去重模块和聚合关联模块;
所述判断填充模块用于:判断目标业务数据集合是否存在缺失业务数据,若是,则根据所述目标业务数据集合中的且与所述缺失业务数据相关联的业务数据,对所述缺失业务数据进行填充,得到第一目标业务数据集合;
所述去重模块用于:对所述第一目标业务数据集合进行去重处理,得到第二目标业务数据集合,并记录每条去重业务数据的数量;
所述聚合关联模块用于:按照用户指定的每个预设筛选规则分别对所述第二目标业务数据集合进行分类处理,得到多个清洗后的数据集合,并将每条去重业务数据的数量关联到相应的清洗后的数据集合中。
本发明的一种大数据清洗系统的有益效果如下:
一方面,当判断目标业务数据集合存在缺失业务数据时,直接根据缺失业务数据相关联的业务数据进行填充,既能提高数据清洗效率,还在极大程度上保证了数据清洗质量,另一方面,对第一目标业务数据集合进行去重处理,在去重后所得到的第二目标业务数据的基础进行聚合清洗,进一步提高数据清洗效率,而且,并将每条去重数据的数量关联到相应的清洗后的数据集合中,使用户在调用任一清洗后的数据集合时,能够相应添加去重数据,达到为用户提供更精准的数据支持的目的。
在上述方案的基础上,本发明的一种大数据清洗系统还可以做如下改进。
进一步,还包括第一获取模块,所述第一获取模块用于:将获取得到的原始业务数据集合进行聚类,得到多个业务数据集合,将用户指定的任一业务数据集合确定为所述目标业务数据集合。
采用上述进一步方案的有益效果是:将获取得到的原始业务数据集合进行聚类,相当于对原始业务数据集合进行预处理,进一步提高数据清洗效率。
进一步,还包括生成发送模块,所述生成发送模块用于:
生成分别指向每个清洗后的数据集合的短链接;
接收用户的智能终端发送的数据请求,将所述数据请求对应的短链接发送至所述用户的智能终端。
采用上述进一步方案的有益效果是:相比于直接发送清洗后的数据集合,短链接的字节长度更短,能更快发送至用户的智能终端,提高用户体验度。
进一步,还包括第二获取模块,所述第二获取模块用于:通过网络爬虫的方式获取所述原始业务数据集合。
本发明的一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行上述任一项所述的一种大数据清洗方法。
本发明的一种电子设备,包括处理器和上述的存储介质,所述处理器执行所述存储介质中的指令。
附图说明
图1为本发明实施例的一种大数据清洗方法的流程示意图;
图2为本发明实施例的一种大数据清洗系统的结构示意图。
具体实施方式
如图1所示,本发明实施例的一种大数据清洗方法,包括如下步骤:
S1、判断目标业务数据集合是否存在缺失业务数据,若是,则根据所述目标业务数据集合中的且与所述缺失业务数据相关联的业务数据,对所述缺失业务数据进行填充,得到第一目标业务数据集合;
其中,目标业务数据集合包括多条业务数据,可通过如下方式判断目标业务数据集合是否存在缺失业务数据,缺失业务数据具体指:存在空值和/或的异常值的业务数据,具体地:
1)预先设置每条业务数据对应的多个数据项如成本价格、出售价格、运费、重量、尺寸、产地(购置地)、买方所在城市和利润等,例如,已卖出的某型号的笔记本电脑的成本价格为5000元,出售价格为5500元,运费为80元,例如,已卖出的某型号的平板电脑的成本价格为1500元,出售价格为1800元,运费为30元等,通过查询每个已卖出的商品是否均包括所有数据项的具体值,如没有,则确定该条业务数据为缺失业务数据,例如,已卖出的某型号的台式电脑的成本价格为2000元,出售价格为2500元,运费为空值,则判定该条业务数据为缺失业务数据;
2)也可通过人为定义其它条件判断目标业务数据集合是否存在缺失业务数据,或者通过语义识别方式判断目标业务数据集合是否存在缺失业务数据,在此不做赘述。
可通过如下方式对缺失业务数据进行填充,具体地:
1)例如,缺失业务数据为:已卖出的某型号的台式电脑的成本价格为2000元,出售价格为2500元,运费为空值,则可在目标业务数据集合中查询相同型号的台式电脑的运费,例如,在目标业务数据集合中的另外一条业务数据中获知,该相同型号的台式电脑的运费为100元,则将该缺失业务数据进行填充,此时填充后的缺失业务数据为:已卖出的某型号的台式电脑的成本价格为2000元,出售价格为2500元,运费为100元,上述的,在目标业务数据集合中的另外一条业务数据即为该条缺失业务数据的相关联的业务数据。
2)例如,缺失业务数据为:已卖出的某型号的台式电脑的成本价格为2000元,出售价格为2500元,运费为空值,在目标业务数据集合中未查询相同型号的台式电脑的运费,但是通过查询可获知该型号的台式电脑的重量和尺寸,在目标业务数据集合查询相同重量和尺寸的台式电脑或商品所对应的运费,作为该失业务数据的运费,或者在在目标业务数据集合查询不同重量和尺寸的台式电脑或商品所对应的运费,通过换算得到该型号的台式电脑的运费,并对该缺失业务数据进行填充,其中,可通过快递公司具体给定价格表进行换算即可,在此不做赘述。
3)还可通过其它数学方式或者人为经验对缺失业务数据进行填充,在此不做赘述。
S2、对所述第一目标业务数据集合进行去重处理,得到第二目标业务数据集合,并记录每条去重业务数据的数量;具体地:
1)例如,第一目标业务数据集合中的3条业务数据均为:已卖出的某型号的台式电脑的成本价格为2000元,出售价格为2500元,运费为100元,则只保留一条业务数据即可,并记录该条业务数据的数量为3,该条业务数据即为一条去重业务数据;
2)例如,第一目标业务数据集合中的5条业务数据均为:已卖出的某型号的笔记本电脑的成本价格为5000元,出售价格为5500元,运费为80元,则只保留一条业务数据即可,并记录该条业务数据的数量为5,该条业务数据即为一条去重业务数据;
S3、按照用户指定的每个预设筛选规则分别对所述第二目标业务数据集合进行分类处理,得到多个清洗后的数据集合,并将每条去重业务数据的数量关联到相应的清洗后的数据集合中。具体包括:
S30、确定多个预设筛选规则,具体地:可通过选取数据项确定预设筛选规则,具体地:
①例如,将成本价格在50元至100元之间,利润在10元至15元之间,作为第一预设筛选规则;
②将“产地(购置地)设置在北京市、河北省、天津市,成本价格在50元至100元之间,利润在10元至15元之间”作为第二预设筛选规则;
③将“成本价格在50元至100元之间,利润在10元至15元之间,运费在5元至15元之间”作为第三预设筛选规则;
④还可根据实际情况设置更多个筛选规则;
S31、进行分类,具体地:利用每个预设筛选规则对所述第二目标业务数据集合中的业务数据进行筛选,得到每个筛选规则对应的数据集合,即得到多个清洗后的数据集合;
将每条去重业务数据的数量关联到相应的清洗后的数据集合中的具体实现方式如下:
1)例如,当第一个清洗后的数据集合中,包括上述的“已卖出的某型号的台式电脑的成本价格为2000元,出售价格为2500元,运费为100元”的业务数据时,则对该条业务数据添加标记:“3”,表示该条业务数据的数量为3个;
2)例如,当第二个清洗后的数据集合中,包括上述的“已卖出的某型号的笔记本电脑的成本价格为5000元,出售价格为5500元,运费为80元”的业务数据时,则对该条业务数据添加标记:“5”,表示该条业务数据的数量为5个;
使用户在调用任一清洗后的数据集合时,能够相应添加去重业务数据,达到为用户提供更精准的数据支持的目的。
一方面,当判断目标业务数据集合存在缺失业务数据时,直接根据缺失业务数据相关联的业务数据进行填充,既能提高数据清洗效率,还在极大程度上保证了数据清洗质量,另一方面,对第一目标业务数据集合进行去重处理,在去重后所得到的第二目标业务数据的基础进行聚合清洗,进一步提高数据清洗效率,而且,并将每条去重数据的数量关联到相应的清洗后的数据集合中,使用户在调用任一清洗后的数据集合时,能够相应添加去重数据,达到为用户提供更精准的数据支持的目的。
较优地,在上述技术方案中,所述目标业务数据集合的获取过程,包括:
S01、将获取得到的原始业务数据集合进行聚类,得到多个业务数据集合,将用户指定的任一业务数据集合确定为所述目标业务数据集合。具体地:
例如,原始业务数据可能包括毛绒玩具、电子产品、厨具等多个大类的商品的业务数据,此时,可通过设置“毛绒玩具”、“电子产品”、“厨具”等关键词,对原始业务数据进行分类,得到“毛绒玩具”对应的业务数据集合、电子产品对应的业务数据集合和“厨具”对应的业务数据集合;
然后,将用户指定的任一业务数据集合确定为所述目标业务数据集合,上述对S1至S3的阐述,即为将“电子产品”对应的业务数据集合确定为目标业务数据集合。
也可采用其它方式对获取得到的原始业务数据集合进行聚类,得到多个业务数据集合。将获取得到的原始业务数据集合进行聚类,相当于对原始业务数据集合进行预处理,进一步提高数据清洗效率。
较优地,在上述技术方案中,还包括:
S4、生成分别指向每个清洗后的数据集合的短链接,短链接的具体结构可根据实际情况进行设置,在此不做赘述;
S5、接收用户的智能终端发送的数据请求,将所述数据请求对应的短链接发送至所述用户的智能终端,具体地:
1)例如,数据请求为:“成本价格在50元至100元之间,利润在10元至15元之间”,则将通过第一预设筛选规则筛选出的数据集合,即将通过第一筛选规则所得到的清洗后的数据集合所对应的短链接发送至用户的智能终端,当用户点击智能终端上的短链接时,转向通过第一筛选规则所得到的清洗后的数据集合,可进行下载分析,或,进行在线预览分析;
2)例如,数据请求为:“产地(购置地)为北京市、河北省、天津市,成本价格在50元至100元之间,利润在10元至15元之间”,则将通过第二预设筛选规则筛选出的数据集合,即将通过第二筛选规则所得到的清洗后的数据集合所对应的短链接发送至用户的智能终端,当用户点击智能终端上的短链接时,转向通过第二筛选规则所得到的清洗后的数据集合,可进行下载分析,或,进行在线预览分析;
3)例如,数据请求为:“成本价格在50元至100元之间,利润在10元至15元之间,运费在5元至15元之间”,则将通过第三预设筛选规则筛选出的数据集合,即将通过第三筛选规则所得到的清洗后的数据集合所对应的短链接发送至用户的智能终端,当用户点击智能终端上的短链接时,转向通过第三筛选规则所得到的清洗后的数据集合,可进行下载分析,或,进行在线预览分析。
其中,智能终端可为智能手机、平板电脑或笔记本电脑等。相比于直接发送清洗后的数据集合,短链接的字节长度更短,能更快发送至用户的智能终端,提高用户体验度,当用户获取清洗后的数据集合后,可通过神经网络对任一商品的利润进行分析预测,也可进行其它方面的数据分析,例如分析任一商品在不同的城市的购买力等。
较优地,在上述技术方案中,所述原始业务数据集合的获取过程,包括:
S001、通过网络爬虫的方式获取所述原始业务数据集合。
在上述各实施例中,虽然对步骤进行了编号S1、S2等,但只是本申请给出的具体实施例,本领域的技术人员可根据实际情况调整S1、S2等的执行顺序,此也在本发明的保护范围内,可以理解,在一些实施例中,可以包含如上述各实施方式中的部分或全部。
如图2所示,本发明实施例的一种大数据清洗系统200,包括判断填充模块210、去重模块220和聚合关联模块230;
所述判断填充模块210用于:判断目标业务数据集合是否存在缺失业务数据,若是,则根据所述目标业务数据集合中的且与所述缺失业务数据相关联的业务数据,对所述缺失业务数据进行填充,得到第一目标业务数据集合;
所述去重模块220用于:对所述第一目标业务数据集合进行去重处理,得到第二目标业务数据集合,并记录每条去重业务数据的数量;
所述聚合关联模块230用于:按照用户指定的每个预设筛选规则分别对所述第二目标业务数据集合进行分类处理,得到多个清洗后的数据集合,并将每条去重业务数据的数量关联到相应的清洗后的数据集合中。
一方面,当判断目标业务数据集合存在缺失业务数据时,直接根据缺失业务数据相关联的业务数据进行填充,既能提高数据清洗效率,还在极大程度上保证了数据清洗质量,另一方面,对第一目标业务数据集合进行去重处理,在去重后所得到的第二目标业务数据的基础进行聚合清洗,进一步提高数据清洗效率,而且,并将每条去重数据的数量关联到相应的清洗后的数据集合中,使用户在调用任一清洗后的数据集合时,能够相应添加去重数据,达到为用户提供更精准的数据支持的目的。
较优地,在上述技术方案中,还包括第一获取模块,所述第一获取模块用于:将获取得到的原始业务数据集合进行聚类,得到多个业务数据集合,将用户指定的任一业务数据集合确定为所述目标业务数据集合。
将获取得到的原始业务数据集合进行聚类,相当于对原始业务数据集合进行预处理,进一步提高数据清洗效率。
较优地,在上述技术方案中,还包括生成发送模块,所述生成发送模块用于:
生成分别指向每个清洗后的数据集合的短链接;
接收用户的用户端发送的数据请求,将所述数据请求对应的短链接发送至所述用户的用户端。
相比于直接发送清洗后的数据集合,短链接的字节长度更短,能更快发送至用户的智能终端,提高用户体验度。
较优地,在上述技术方案中,还包括第二获取模块,所述第二获取模块用于:通过网络爬虫的方式获取所述原始业务数据集合。
上述关于本发明的一种大数据清洗系统200中的各参数和各个单元模块实现相应功能的步骤,可参考上文中关于一种大数据清洗方法的实施例中的各参数和步骤,在此不做赘述。
本发明实施例的一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行上述任一项所述的一种大数据清洗方法。
本发明实施例的一种电子设备,包括处理器和上述的存储介质,所述处理器执行所述存储介质中的指令,电子设备可以选用电脑或手机等。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。
因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM),只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种大数据清洗方法,其特征在于,包括:
判断目标业务数据集合是否存在缺失业务数据,若是,则根据所述目标业务数据集合中的且与所述缺失业务数据相关联的业务数据,对所述缺失业务数据进行填充,得到第一目标业务数据集合;
对所述第一目标业务数据集合进行去重处理,得到第二目标业务数据集合,并记录每条去重业务数据的数量;
按照用户指定的每个预设筛选规则分别对所述第二目标业务数据集合进行分类处理,得到多个清洗后的数据集合,并将每条去重业务数据的数量关联到相应的清洗后的数据集合中。
2.根据权利要求1所述的一种大数据清洗方法,其特征在于,所述目标业务数据集合的获取过程,包括:
将获取得到的原始业务数据集合进行聚类,得到多个业务数据集合,将用户指定的任一业务数据集合确定为所述目标业务数据集合。
3.根据权利要求1或2所述的一种大数据清洗方法,其特征在于,还包括:
生成分别指向每个清洗后的数据集合的短链接;
接收用户的智能终端发送的数据请求,将所述数据请求对应的短链接发送至所述用户的智能终端。
4.根据权利要求2所述的一种大数据清洗方法,其特征在于,所述原始业务数据集合的获取过程,包括:
通过网络爬虫的方式获取所述原始业务数据集合。
5.一种大数据清洗系统,其特征在于,包括判断填充模块、去重模块和聚合关联模块;
所述判断填充模块用于:判断目标业务数据集合是否存在缺失业务数据,若是,则根据所述目标业务数据集合中的且与所述缺失业务数据相关联的业务数据,对所述缺失业务数据进行填充,得到第一目标业务数据集合;
所述去重模块用于:对所述第一目标业务数据集合进行去重处理,得到第二目标业务数据集合,并记录每条去重业务数据的数量;
所述聚合关联模块用于:按照用户指定的每个预设筛选规则分别对所述第二目标业务数据集合进行分类处理,得到多个清洗后的数据集合,并将每条去重业务数据的数量关联到相应的清洗后的数据集合中。
6.根据权利要求5所述的一种大数据清洗系统,其特征在于,还包括第一获取模块,所述第一获取模块用于:将获取得到的原始业务数据集合进行聚类,得到多个业务数据集合,将用户指定的任一业务数据集合确定为所述目标业务数据集合。
7.根据权利要求5或6所述的一种大数据清洗系统,其特征在于,还包括生成发送模块,所述生成发送模块用于:
生成分别指向每个清洗后的数据集合的短链接;
接收用户的智能终端发送的数据请求,将所述数据请求对应的短链接发送至所述用户的智能终端。
8.根据权利要求6所述的一种大数据清洗系统,其特征在于,还包括第二获取模块,所述第二获取模块用于:通过网络爬虫的方式获取所述原始业务数据集合。
9.一种存储介质,其特征在于,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如权利要求1至4中任一项所述的一种大数据清洗方法。
10.一种电子设备,其特征在于,包括处理器和权利要求9所述的存储介质,所述处理器执行所述存储介质中的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111495603.XA CN114385606A (zh) | 2021-12-09 | 2021-12-09 | 一种大数据清洗方法、系统、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111495603.XA CN114385606A (zh) | 2021-12-09 | 2021-12-09 | 一种大数据清洗方法、系统、存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114385606A true CN114385606A (zh) | 2022-04-22 |
Family
ID=81196167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111495603.XA Pending CN114385606A (zh) | 2021-12-09 | 2021-12-09 | 一种大数据清洗方法、系统、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114385606A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116894057A (zh) * | 2023-07-17 | 2023-10-17 | 云达信息技术有限公司 | 基于Python的云服务数据收集处理方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520073A (zh) * | 2018-04-13 | 2018-09-11 | 深圳壹账通智能科技有限公司 | 风控数据整合方法、装置、设备及计算机可读存储介质 |
CN109800220A (zh) * | 2019-01-29 | 2019-05-24 | 浙江国贸云商企业服务有限公司 | 一种大数据清洗方法、系统及相关装置 |
CN110162519A (zh) * | 2019-04-17 | 2019-08-23 | 苏宁易购集团股份有限公司 | 数据清理方法 |
-
2021
- 2021-12-09 CN CN202111495603.XA patent/CN114385606A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520073A (zh) * | 2018-04-13 | 2018-09-11 | 深圳壹账通智能科技有限公司 | 风控数据整合方法、装置、设备及计算机可读存储介质 |
CN109800220A (zh) * | 2019-01-29 | 2019-05-24 | 浙江国贸云商企业服务有限公司 | 一种大数据清洗方法、系统及相关装置 |
CN110162519A (zh) * | 2019-04-17 | 2019-08-23 | 苏宁易购集团股份有限公司 | 数据清理方法 |
CA3177209A1 (en) * | 2019-04-17 | 2020-10-22 | 10353744 Canada Ltd. | Data cleaning method |
WO2020211299A1 (zh) * | 2019-04-17 | 2020-10-22 | 苏宁云计算有限公司 | 数据清理方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116894057A (zh) * | 2023-07-17 | 2023-10-17 | 云达信息技术有限公司 | 基于Python的云服务数据收集处理方法、装置、设备及介质 |
CN116894057B (zh) * | 2023-07-17 | 2023-12-22 | 云达信息技术有限公司 | 基于Python的云服务数据收集处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106708821A (zh) | 基于用户个性化购物行为进行商品推荐的方法 | |
CN107123047B (zh) | 基于债券交易的数据采集系统及其数据采集方法 | |
CN110930221B (zh) | 异常订单处理方法、存储介质及计算机设备 | |
CN107229730A (zh) | 数据查询方法及装置 | |
CN111666275B (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
US20200074509A1 (en) | Business data promotion method, device, terminal and computer-readable storage medium | |
CN109978619A (zh) | 机票定价策略筛选的方法、系统、设备以及介质 | |
CN104992348A (zh) | 一种信息展示的方法和装置 | |
CN111242318A (zh) | 基于异构特征库的业务模型训练方法及装置 | |
CN114385606A (zh) | 一种大数据清洗方法、系统、存储介质和电子设备 | |
CN110362702B (zh) | 图片管理方法及设备 | |
CN114186024A (zh) | 推荐方法及装置 | |
CN110704486B (zh) | 数据处理方法、装置、系统、存储介质和服务器 | |
CN111967611A (zh) | 特征生成方法和装置、电子设备和存储介质 | |
CN104933601A (zh) | 一种输出商品信息的方法和装置 | |
CN106651194A (zh) | 订单信息处理方法 | |
CN112667770A (zh) | 一种对物品进行分类的方法和装置 | |
CN113837843B (zh) | 产品推荐方法、装置、介质及电子设备 | |
CN110647845A (zh) | 一种发票数据识别装置、相关方法及相关装置 | |
CN115576834A (zh) | 支撑故障还原的软件测试复用方法、系统、终端及介质 | |
CN114358879A (zh) | 一种基于大数据的物价实时监测方法和系统 | |
CN114723354A (zh) | 一种针对供应商的线上商机挖掘方法、设备及介质 | |
US11599544B2 (en) | Primary tagging in a data stream | |
CN113379499A (zh) | 物品筛选方法及装置、电子设备、存储介质 | |
CN113220783B (zh) | 数据处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |