CN110737647A - 一种互联网大数据清洗方法 - Google Patents

一种互联网大数据清洗方法 Download PDF

Info

Publication number
CN110737647A
CN110737647A CN201910767145.7A CN201910767145A CN110737647A CN 110737647 A CN110737647 A CN 110737647A CN 201910767145 A CN201910767145 A CN 201910767145A CN 110737647 A CN110737647 A CN 110737647A
Authority
CN
China
Prior art keywords
data
module
distributed
cleaning
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910767145.7A
Other languages
English (en)
Other versions
CN110737647B (zh
Inventor
刘磊
张洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Hongshu Technology Co Ltd
Original Assignee
Guangzhou Hongshu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Hongshu Technology Co Ltd filed Critical Guangzhou Hongshu Technology Co Ltd
Priority to CN201910767145.7A priority Critical patent/CN110737647B/zh
Publication of CN110737647A publication Critical patent/CN110737647A/zh
Application granted granted Critical
Publication of CN110737647B publication Critical patent/CN110737647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据清洗技术领域,涉及一种互联网大数据清洗方法,具体步骤如下:S1、利用数据采集模块提取出所需数据;S2、利用爬虫同步模块把oss中的文件同步下来;S3、利用数据清洗模块将处理后的数据打包插入KAFKA模块的kafaka队列中;S4、利用KAFKA模块,运用选举算法将数据合理分配到服务器队列中,通过网络传输数据库模块中;S5、利用数据库模块监测KAFKA模块传输过来的数据,并利用filer‑chainshain扩展监控统计。本发明通过数据清洗模块有效地将数据重新分类整合清洗至各个规范化数据库模块中,提高了数据清洗的准确度,解决了现有技术大数据因数据丢失而造成筛选清洗效率低下的缺陷,达到快速准确筛选清洗数据的目的。

Description

一种互联网大数据清洗方法
技术领域
本发明涉及数据清洗技术领域,更具体地说,涉及一种互联网大数据清洗方法。
背景技术
在信息大数据时代,数据的收集与处理已成为当前信息企业急需解决的问题。目前,我们通过采集系统采集到的原生数据,我们也称为不规整数据,即目前来说,该数据混杂大量无用、错乱、无序、重复的数据,并且该数据的格式还无法满足我们对数据处理的基本要求,十分不利于后期的修改,数据准确性低下。针对上述情况需要对其进行预处理,转化为我们后面工作所需要的较为规整的数据,所以这里的数据清洗,其实指的就是对数据进行基本的预处理,以方便我们后面的统计分析,需要根据不同的业务需求来进行取舍,在我们的场景中需要对数据进行迁移、压缩、清洗、打散、分片、分块以及其他多种转换处理。现有的数据清洗一般只是通过大数据分析算法将大数据筛选得到目标数据,这种方式运用于数据采集前,分析筛选过程简单易操作,但是,这种方式在分析过程,由于只是针对前期筛选后再将大数据采集,从而容易造成目标数据的丢失,减少目标数据的筛选量,使得最终得到的目标数据远远少于数据数量,并且还可能会造成相关或相邻的目标数据丢失,给用户下一步数据的采集造成操作困难,从而导致该方式的数据清洗效率低下。
发明内容
有鉴于此,本发明提供了一种互联网大数据清洗方法,以解决现有技术大数据因数据丢失而造成筛选清洗效率低下的缺陷。
一种互联网大数据清洗方法,包括以下步骤:
S1、利用数据采集模块,通过http协议登录目标服务器,使用正则表达式,xpath表达式以及jsonpath表达式提取出所需数据;
S2、利用爬虫同步模块,通过checksum算法、传输同步算法以及比对算法把oss中的文件同步下来;
S3、利用数据清洗模块,通过均值填补法、热卡填补法以及回归填补法对数据进行处理,将处理后的数据打包插入KAFKA模块的kafaka队列中;
S4、利用KAFKA模块,运用选举算法将数据合理分配到服务器队列中,通过网络传输数据库模块中;
S5、利用数据库模块,通过wallFilter监测KAFKA模块传输过来的数据有没有sql注入攻击、过滤以及保存,并利用filer-chainshain扩展监控统计。
作为本发明的优选方案,该步骤S3包括以下步骤:
S31、通过分布式数据采集器,并根据具体任务配置,主动从数据库或文件获取元数据。或者由API被动接收元数据;
S32、通过分布式数据采集器,并根据具体任务配置,将签名秘钥,获取到的元数据,以及包含元数据与目标数据字段对应关系、类型对应关系等信息的任务配置,封装成一个分布式数据处理器程序可识别的任务对象,通过分布式数据处理器的分布式任务调度系统,分发给具体的机器及工作进程去执行清洗工作;
S33、通过分布式数据处理器,接收任务,对任务对象进行解析,首先验证签名秘钥是否合法,如果不合法则抛弃任务并记录日志,如果合法则进入下一步骤S34;
S34、通过分布式数据处理器,签名秘钥校验通过之后,则还原任务对象中所包含的元数据与任务配置,并根据配置中的对应关系,对数据进行清洗处理;
S35、通过分布式数据处理器,根据配置,对元数据进行分类,将元数据字段与目标数据字段进行关系对应;
S36、通过分布式数据处理器,当数据字段对应关系处理完成之后,则按目标数据要求,对元数据进行加工;
S37、通过分布式数据处理器,根据目标数据需求,对不符合要求的数据类型进行类型转换;
S38、通过分布式数据处理器,对转换后的元数据按需规范格式;
S39、通过数据存储器,将规范格式后的元数据按需推送前端UI、推送后端API、推送消息队列或数据库模块中。
作为本发明的优选方案,该互联网大数据清洗方法包括有数据采集模块、爬虫同步模块、KAFKA模块以及数据库模块,所述数据采集模块分别与所述爬虫同步模块、KAFKA模块以及数据库模块电性连接;其特征在于,还包括有数据清洗模块;其中,所述数据采集模块用于把目标数据采集下来,并将采集的数据保存到数据库模块,同步到爬虫同步模块上面;所述爬虫同步模块定时将数据同步到本地,然后通知数据清洗模块清洗数据,所述数据清洗模块包括有分布式数据采集器、分布式数据处理器以及数据存储器;所述分布式数据采集器采用分布式系统大批量快速的使用多种方式从多种来源抽取和接收数据,然后推送给分布式数据处理器进行数据清洗;所述分布式数据处理器负责处理分布式数据采集器推送过来的元数据,通过配置对不同的数据进行清洗转换,并将清洗完成的数据,推送给数据存储器;所述数据存储器负责处理已经清洗完成的数据,并根据业务需要与使用场景,存入数据库模块中;所述KAFKA模块用于发布和订阅记录流;所述数据库模块用于实时分析存储数据。
作为本发明的优选方案,该数据采集模块通过网络,模拟登陆目标服务器的公开业务系统,分析目标系统的路由规则,把css、js、图片以及页面文字信息保存到数据库模块中。
作为本发明的优选方案,该爬虫同步模块利用oss数据同步接口将数据从oss上同步下来,并给数据清洗模块发送清洗指令。
作为本发明的优选方案,该数据清洗模块对数据进行迁移、压缩、清洗、打散、分片、分块以及其他多种转换处理,并插入kafka分布式消息队列进行处理。
作为本发明的优选方案,该分布式数据采集器包括有主动收集数据的Extract单元以及被动接收数据的API单元。
作为本发明的优选方案,该分布式数据处理器采用分布式部署,包括有对数据进行校验分类的数据校验分类单元、对数据进行拆分或拼接的数据组合单元、对数据进行类型校验以及转换的类型转换单元以及对数据的格式进行规范化处理的格式规范单元。
作为本发明的优选方案,该数据库模块根据数据采集模块和数据清洗模块传递过来的数组进行组成sql,排列成最优的sql,并过滤sql攻击。
从上述的技术方案可以看出,本发明的有益效果为:本发明先利用数据采集模块收集数据信息,然后利用爬虫同步模块将数据同步至数据清洗模块中,然后再利用数据清洗模块将数据进行规范化、类型转换、校验分类以及拆分拼接处理,有效地将数据重新分类整合清洗至各个规范化数据库模块中,最后通过KAFKA模块以及数据库模块将数据筛选显示,通过本方法,能有效将数据挖取至数据采集模块中再进行数据筛选清洗处理,相比于现有数据筛选后再采集的方式,本发明运用先采集数据后筛选清洗数据的方式,更有利于将相关目标数据全部收集,避免了目标数据的丢失,并有效确保相关或相邻的目标数据存底备用,减少用户下一步数据采集工作量,并通过数据清洗模块有效地将数据重新分类整合清洗至各个规范化数据库模块中,提高了数据清洗的准确度,解决了现有技术大数据因数据丢失而造成筛选清洗效率低下的缺陷,达到快速准确筛选清洗数据的目的。
附图说明
图1为本发明实施例所公开的一种互联网大数据清洗方法的系统结构框图;
图2为本发明实施例所公开的一种互联网大数据清洗方法的数据清洗模块结构框图。
附图说明:1、数据采集模块;2、爬虫同步模块;3、数据清洗模块;4、KAFKA模块;5、数据库模块。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所述的附图作简单地介绍,显而易见,下面的描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
具体实施方式
下面实施例用于进一步详细说明本发明,但实施例并不对本发明做任何形式的限定,除特别说明,本发明采用的试剂、方法和设备均为本技术领域的常规试剂、方法和设备,但不以任何形式限制本发明。
如图1-2所示,本实施例公开了一种互联网大数据清洗方法,包括以下步骤:
S1、利用数据采集模块1,通过http协议登录目标服务器,使用正则表达式,xpath表达式以及jsonpath表达式提取出所需数据;其中,http协议是一个简单的请求-响应协议,它通常运行在TCP之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。请求和响应消息的头以ASCII码形式给出;而消息内容则具有一个类似MIME的格式。http协议是应用层协议,同其他应用层协议一样,是为了实现某一类具体应用的协议,并由某一运行在用户空间的应用程序来实现其功能。HTTP是一种协议规范,这种规范记录在文档上,为真正通过HTTP协议进行通信的HTTP的实现程序。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。xpath表达式即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。jsonpath表达式是参照xpath表达式来解析xml文档的方式,json数据结构通常是匿名的并且不一定需要有根元素,jsonpath表达式用一个抽象的名字$来表示最外层对象。jsonpath表达式可以使用符号如下:$.store.book[0].title。
S2、利用爬虫同步模块2,通过checksum算法、传输同步算法以及比对算法把oss中的文件同步下来;checksum算法用于在数据处理和数据通信领域中,用于校验目的的一组数据项的和,这些数据项可以是数字或在计算检验总和过程中看作数字的其它字符串;传输同步算法是一种将数据在传输过程进行同步复制拷贝的过程;比对算法是一种用于比较数据信息的算法。
S3、利用数据清洗模块3,通过均值填补法、热卡填补法以及回归填补法对数据进行处理,将处理后的数据打包插入KAFKA模块4的kafaka队列中;该步骤S3包括以下步骤:S31、通过分布式数据采集器,并根据具体任务配置,主动从数据库或文件获取元数据。或者由API被动接收元数据;S32、通过分布式数据采集器,并根据具体任务配置,将签名秘钥,获取到的元数据,以及包含元数据与目标数据字段对应关系、类型对应关系等信息的任务配置,封装成一个分布式数据处理器程序可识别的任务对象,通过分布式数据处理器的分布式任务调度系统,分发给具体的机器及工作进程去执行清洗工作;S33、通过分布式数据处理器,接收任务,对任务对象进行解析,首先验证签名秘钥是否合法,如果不合法则抛弃任务并记录日志,如果合法则进入下一步骤S34;S34、通过分布式数据处理器,签名秘钥校验通过之后,则还原任务对象中所包含的元数据与任务配置,并根据配置中的对应关系,对数据进行清洗处理;S35、通过分布式数据处理器,根据配置,对元数据进行分类,将元数据字段与目标数据字段进行关系对应;S36、通过分布式数据处理器,当数据字段对应关系处理完成之后,则按目标数据要求,对元数据进行加工;S37、通过分布式数据处理器,根据目标数据需求,对不符合要求的数据类型进行类型转换;S38、通过分布式数据处理器,对转换后的元数据按需规范格式;S39、通过数据存储器,将规范格式后的元数据按需推送前端UI、推送后端API、推送消息队列或数据库模块5中;均值填补法是指将信息表中的属性分为数值属性和非数值属性来分别进行处理。如果空值是数值型的,就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值;如果空值是非数值型的,就根据统计学中的众数原理,用该属性在其他与该对象具有相同决策属性值的对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。热卡填补法具体是指对于一个包含缺失值的变量,热卡填充法的做法是:在数据库中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。最常见的是使用相关系数矩阵来确定哪个变量(如变量Y)与缺失值所在变量(如变量X)最相关。然后把所有变量按Y的取值大小进行排序。那么变量X的缺失值就可以用排在缺失值前的那个个案的数据来代替了。回归填补法是指假设y属性缺失,然后知道x属性,然后用回归方法对没有确实的数据进行训练模型,再把这个值得x属性带进去,对这个y属性进行预测,然后填补到缺失处。
S4、利用KAFKA模块4,运用选举算法将数据合理分配到服务器队列中,通过网络传输数据库模块5中;选举算法,其基本思想是:当一个进程P发现协调者不再响应请求时,就判定协调者出现故障,于是它就发起选举,选出新的协调者,即当前活动进程中进程号最大者;基本流程为:选举过程中会发送以下三种消息类型:Election消息:表示发起一次选举;Answer(Alive)消息:对发起选举消息的应答;Coordinator(Victory)消息:选举胜利者向参与者发送选举成功消息。触发选举流程的事件包括:当进程P从错误中恢复;检测到Leader失败。选举流程:如果P是最大的ID,直接向所有人发送Victory消息,成功新的Leader;否则向所有比他大的ID的进程发送Election消息;如果P再发送Election消息后没有收到Alive消息,则P向所有人发送Victory消息,成功新的Leader;如果P收到了从比自己ID还要大的进程发来的Alive消息,P停止发送任何消息,等待Victory消息(如果过了一段时间没有等到Victory消息,重新开始选举流程);如果P收到了比自己ID小的进程发来的Election消息,回复一个Alive消息,然后重新开始选举流程如果P收到Victory消息,把发送者当做Leader。
S5、利用数据库模块5,通过wallFilter监测KAFKA模块4传输过来的数据有没有sql注入攻击、过滤以及保存,并利用filer-chainshain扩展监控统计。wallFilter是一种数据拦截控制算法,只要能实现检测数据有没有sql注入攻击、过滤以及保存的病毒信息即可。filer-chainshain是一种数据监控统计数据的控制算法,只要能实现数据的监控统计的目的即可。
具体地,该互联网大数据清洗方法包括有数据采集模块1、爬虫同步模块2、KAFKA模块4以及数据库模块5,所述数据采集模块1分别与所述爬虫同步模块2、KAFKA模块4以及数据库模块5电性连接;其特征在于,还包括有数据清洗模块3;其中,所述数据采集模块1用于把目标数据采集下来,并将采集的数据保存到数据库模块5,同步到爬虫同步模块2上面;所述爬虫同步模块2定时将数据同步到本地,然后通知数据清洗模块3清洗数据,所述数据清洗模块3包括有分布式数据采集器、分布式数据处理器以及数据存储器;所述分布式数据采集器采用分布式系统大批量快速的使用多种方式从多种来源抽取和接收数据,然后推送给分布式数据处理器进行数据清洗;所述分布式数据处理器负责处理分布式数据采集器推送过来的元数据,通过配置对不同的数据进行清洗转换,并将清洗完成的数据,推送给数据存储器;所述数据存储器负责处理已经清洗完成的数据,并根据业务需要与使用场景,存入数据库模块5中;所述KAFKA模块4用于发布和订阅记录流;所述数据库模块5用于实时分析存储数据。该数据采集模块1通过网络,模拟登陆目标服务器的公开业务系统,分析目标系统的路由规则,把css、js、图片以及页面文字信息保存到数据库模块5中。该爬虫同步模块2利用oss数据同步接口将数据从oss上同步下来,并给数据清洗模块3发送清洗指令。该数据清洗模块3对数据进行迁移、压缩、清洗、打散、分片、分块以及其他多种转换处理,并插入kafka分布式消息队列进行处理。该分布式数据采集器包括有主动收集数据的Extract单元以及被动接收数据的API单元。该分布式数据处理器采用分布式部署,包括有对数据进行校验分类的数据校验分类单元、对数据进行拆分或拼接的数据组合单元、对数据进行类型校验以及转换的类型转换单元以及对数据的格式进行规范化处理的格式规范单元。该数据库模块5根据数据采集模块1和数据清洗模块3传递过来的数组进行组成sql,排列成最优的sql,并过滤sql攻击。
更具体地,在本发明实施例中,所述数据采集模块1:通过http协议登录目标服务器,使用正则表达式,xpath表达式,jsonpath表达式等技术提取出所需数据。所述爬虫同步模块2:用checksum算法、传输同步算法、比对算法把oss中的文件同步下来。所述数据清洗模块3:运用均值填补法、热卡填补法、回归填补法等算法对数据进行处理,将处理后的数据打包插入kafaka队列中,在本发明实施例中,所述checksum算法、传输同步算法、比对算法、均值填补法、热卡填补法、回归填补法等算法均为常规的数据处理算法,本实施例引用该算法以便加快处理所采集数据信息。其中,所述ETL数据清洗器包含以下步骤:
步骤1、E模块——分布式数据采集器,根据具体任务配置,主动从数据库或文件获取元数据。或者由API被动接收元数据。步骤2、E模块——分布式数据采集器,根据具体任务配置,将签名秘钥,获取到的元数据,以及包含元数据与目标数据字段对应关系、类型对应关系等信息的任务配置,封装成一个分布式数据处理器程序可识别的任务对象,通过分布式数据处理器的分布式任务调度系统,分发给具体的机器及工作进程去执行清洗工作。步骤3、T模块——分布式数据处理器,接收任务,对任务对象进行解析,首先验证签名秘钥是否合法,如果不合法则抛弃任务并记录日志,如果合法则进入步骤4。步骤4、T模块——分布式数据处理器,签名秘钥校验通过之后,则还原任务对象中所包含的元数据与任务配置。根据配置中的对应关系,对数据进行步骤5、6、7、8四步处理。步骤5、T模块——分布式数据处理器,拿到元数据之后,根据配置,对元数据进行分类,将元数据字段与目标数据字段进行关系对应。做好这一步之后,进入步骤6。步骤6、T模块——分布式数据处理器,数据字段对应关系处理完成之后,则按目标数据要求,对元数据进行加工。有缺失的信息,进行拼接补全。有需要多字段合并成一个字段的,进行字段合并。有需要过滤掉的信息,进行过滤处理。步骤7、T模块——分布式数据处理器、数据经过步骤6拆分拼接等一些列处理之后。根据目标数据需求,对不符合要求的数据类型进行类型转换。步骤8、T模块——分布式数据处理器、经过步骤7数据类型转换之后,数据已经基本符合需求了。这个时候再根据数据需要,进行格式规范了。比如提供给前端UI展示的,提供给其他后端API接口的,存入消息队列的,存入关系型数据库的,存入文档型数据库的……都各有不同的格式要求。按需规范格式之后,元数据的清洗工作最终完成。这时则进入步骤9。步骤9、L模块——数据存储器。这是一个负责数据落地的环节,具体落地到什么地方,则根据业务需求各有不同。存储器就是专门处理这些需求的,可以支持推送前端UI、推送后端API、推送消息队列、存入数据库等需求,本模块还支持添加插件拓展,提供更多类型的数据落地服务。
所述KAFKA模块4为kafka分布式消息队列,运用选举算法将数据合理分配到服务器队列中,通过网络传输druid数据库
所述数据库模块5为druid数据库,利用wallFilter监测kafka传输过来的数据有没有sql注入攻击、过滤、保存,利用filer-chainshain扩展监控统计。由于用的是数据池,省去了大量程序链接、关闭数据库的操作,允许应该程序重复使用一个现有的数据库链接,不需要重新建立一个,大大增加数据库的效能,提高数据传输的速度。
显然,在本发明实施例中,本发明先利用数据采集模块1收集数据信息,然后利用爬虫同步模块2将数据同步至数据清洗模块3中,然后再利用数据清洗模块3将数据进行规范化、类型转换、校验分类以及拆分拼接处理,有效地将数据重新分类整合清洗至各个规范化数据库模块5中,最后通过KAFKA模块4以及数据库模块5将数据筛选显示,通过本方法,能有效将数据挖取至数据采集模块1中再进行数据筛选清洗处理,相比于现有数据筛选后再采集的方式,本发明运用先采集数据后筛选清洗数据的方式,更有利于将相关目标数据全部收集,避免了目标数据的丢失,并有效确保相关或相邻的目标数据存底备用,减少用户下一步数据采集工作量,并通过数据清洗模块3有效地将数据重新分类整合清洗至各个规范化数据库模块5中,提高了数据清洗的准确度,解决了现有技术大数据因数据丢失而造成筛选清洗效率低下的缺陷,达到快速准确筛选清洗数据的目的。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分相互参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种互联网大数据清洗方法,其特征在于,包括以下步骤:
S1、利用数据采集模块,通过http协议登录目标服务器,使用正则表达式,xpath表达式以及jsonpath表达式提取出所需数据;
S2、利用爬虫同步模块,通过checksum算法、传输同步算法以及比对算法把oss中的文件同步下来;
S3、利用数据清洗模块,通过均值填补法、热卡填补法以及回归填补法对数据进行处理,将处理后的数据打包插入KAFKA模块的kafaka队列中;
S4、利用KAFKA模块,运用选举算法将数据合理分配到服务器队列中,通过网络传输数据库模块中;
S5、利用数据库模块,通过wallFilter监测KAFKA模块传输过来的数据有没有sql注入攻击、过滤以及保存,并利用filer-chainshain扩展监控统计。
2.根据权利要求1所述的一种互联网大数据清洗方法,其特征在于,所述步骤S3包括以下步骤:
S31、通过分布式数据采集器,并根据具体任务配置,主动从数据库或文件获取元数据,或者由API被动接收元数据;
S32、通过分布式数据采集器,并根据具体任务配置,将签名秘钥,获取到的元数据,以及包含元数据与目标数据字段对应关系、类型对应关系的任务配置,封装成一个分布式数据处理器程序可识别的任务对象,通过分布式数据处理器的分布式任务调度系统,分发给具体的机器及工作进程去执行清洗工作;
S33、通过分布式数据处理器,接收任务,对任务对象进行解析,首先验证签名秘钥是否合法,如果不合法则抛弃任务并记录日志,如果合法则进入下一步骤S34;
S34、通过分布式数据处理器,签名秘钥校验通过之后,则还原任务对象中所包含的元数据与任务配置,并根据配置中的对应关系,对数据进行清洗处理;
S35、通过分布式数据处理器,根据配置,对元数据进行分类,将元数据字段与目标数据字段进行关系对应;
S36、通过分布式数据处理器,当数据字段对应关系处理完成之后,则按目标数据要求,对元数据进行加工;
S37、通过分布式数据处理器,根据目标数据需求,对不符合要求的数据类型进行类型转换;
S38、通过分布式数据处理器,对转换后的元数据按需规范格式;
S39、通过数据存储器,将规范格式后的元数据按需推送前端UI、推送后端API、推送消息队列或数据库模块中。
3.根据权利要求2所述的一种互联网大数据清洗方法,其特征在于,所述互联网大数据清洗方法包括有数据采集模块、爬虫同步模块、KAFKA模块以及数据库模块,所述数据采集模块分别与所述爬虫同步模块、KAFKA模块以及数据库模块电性连接;还包括有数据清洗模块;其中,所述数据采集模块用于把目标数据采集下来,并将采集的数据保存到数据库模块,同步到爬虫同步模块上面;所述爬虫同步模块定时将数据同步到本地,然后通知数据清洗模块清洗数据,所述数据清洗模块包括有分布式数据采集器、分布式数据处理器以及数据存储器;所述分布式数据采集器采用分布式系统大批量快速的使用多种方式从多种来源抽取和接收数据,然后推送给分布式数据处理器进行数据清洗;所述分布式数据处理器负责处理分布式数据采集器推送过来的元数据,通过配置对不同的数据进行清洗转换,并将清洗完成的数据,推送给数据存储器;所述数据存储器负责处理已经清洗完成的数据,并根据业务需要与使用场景,存入数据库模块中;所述KAFKA模块用于发布和订阅记录流;所述数据库模块用于实时分析存储数据。
4.根据权利要求3所述的一种互联网大数据清洗方法,其特征在于,所述数据采集模块通过网络,模拟登陆目标服务器的公开业务系统,分析目标系统的路由规则,把css、js、图片以及页面文字信息保存到数据库模块中。
5.根据权利要求4所述的一种互联网大数据清洗方法,其特征在于,所述爬虫同步模块利用oss数据同步接口将数据从oss上同步下来,并给数据清洗模块发送清洗指令。
6.根据权利要求5所述的一种互联网大数据清洗方法,其特征在于,所述数据清洗模块对数据进行迁移、压缩、清洗、打散、分片、分块以及其他多种转换处理,并插入kafka分布式消息队列进行处理。
7.根据权利要求6所述的一种互联网大数据清洗方法,其特征在于,所述分布式数据采集器包括有主动收集数据的Extract单元以及被动接收数据的API单元。
8.根据权利要求7所述的一种互联网大数据清洗方法,其特征在于,所述分布式数据处理器采用分布式部署,包括有对数据进行校验分类的数据校验分类单元、对数据进行拆分或拼接的数据组合单元、对数据进行类型校验以及转换的类型转换单元以及对数据的格式进行规范化处理的格式规范单元。
9.根据权利要求8所述的一种互联网大数据清洗方法,其特征在于,所述数据库模块根据数据采集模块和数据清洗模块传递过来的数组进行组成sql,排列成最优的sql,并过滤sql攻击。
CN201910767145.7A 2019-08-20 2019-08-20 一种互联网大数据清洗方法 Active CN110737647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910767145.7A CN110737647B (zh) 2019-08-20 2019-08-20 一种互联网大数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910767145.7A CN110737647B (zh) 2019-08-20 2019-08-20 一种互联网大数据清洗方法

Publications (2)

Publication Number Publication Date
CN110737647A true CN110737647A (zh) 2020-01-31
CN110737647B CN110737647B (zh) 2023-07-25

Family

ID=69267684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910767145.7A Active CN110737647B (zh) 2019-08-20 2019-08-20 一种互联网大数据清洗方法

Country Status (1)

Country Link
CN (1) CN110737647B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797297A (zh) * 2020-09-09 2020-10-20 平安国际智慧城市科技股份有限公司 页面数据处理方法、装置、计算机设备及存储介质
CN111949641A (zh) * 2020-08-06 2020-11-17 武汉理工光科股份有限公司 一种多级平台间数据清洗与同步方法及系统
CN112380418A (zh) * 2020-12-31 2021-02-19 广州智云尚大数据科技有限公司 一种基于网络爬虫的数据处理方法、系统及云平台
CN112417456A (zh) * 2020-11-16 2021-02-26 中国电子科技集团公司第三十研究所 一种基于大数据的结构化敏感数据还原检测的方法
CN113220555A (zh) * 2021-05-18 2021-08-06 北京百度网讯科技有限公司 用于处理数据的方法、装置、设备、介质和产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388763A (zh) * 2007-09-12 2009-03-18 北京启明星辰信息技术有限公司 一种支持多种数据库类型的sql注入攻击检测系统
CN106096056A (zh) * 2016-06-30 2016-11-09 西南石油大学 一种基于分布式的舆情数据实时采集方法和系统
CN106506673A (zh) * 2016-11-25 2017-03-15 国信优易数据有限公司 一种大规模分布式数据管理系统及其方法
CN106933973A (zh) * 2017-02-14 2017-07-07 广州优亿信息科技有限公司 一种可视化网络爬虫方法
CN107895009A (zh) * 2017-11-10 2018-04-10 北京国信宏数科技有限责任公司 一种基于分布式的互联网数据采集方法及系统
CN109492040A (zh) * 2018-11-06 2019-03-19 深圳航天智慧城市系统技术研究院有限公司 一种适用于数据中心海量短报文数据处理的系统
CN109543086A (zh) * 2018-11-23 2019-03-29 北京信息科技大学 一种面向多数据源的网络数据采集与展示方法
CN109660532A (zh) * 2018-12-14 2019-04-19 华南农业大学 一种分布式网络数据采集方法及其采集系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388763A (zh) * 2007-09-12 2009-03-18 北京启明星辰信息技术有限公司 一种支持多种数据库类型的sql注入攻击检测系统
CN106096056A (zh) * 2016-06-30 2016-11-09 西南石油大学 一种基于分布式的舆情数据实时采集方法和系统
CN106506673A (zh) * 2016-11-25 2017-03-15 国信优易数据有限公司 一种大规模分布式数据管理系统及其方法
CN106933973A (zh) * 2017-02-14 2017-07-07 广州优亿信息科技有限公司 一种可视化网络爬虫方法
CN107895009A (zh) * 2017-11-10 2018-04-10 北京国信宏数科技有限责任公司 一种基于分布式的互联网数据采集方法及系统
CN109492040A (zh) * 2018-11-06 2019-03-19 深圳航天智慧城市系统技术研究院有限公司 一种适用于数据中心海量短报文数据处理的系统
CN109543086A (zh) * 2018-11-23 2019-03-29 北京信息科技大学 一种面向多数据源的网络数据采集与展示方法
CN109660532A (zh) * 2018-12-14 2019-04-19 华南农业大学 一种分布式网络数据采集方法及其采集系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949641A (zh) * 2020-08-06 2020-11-17 武汉理工光科股份有限公司 一种多级平台间数据清洗与同步方法及系统
CN111949641B (zh) * 2020-08-06 2023-07-14 武汉理工光科股份有限公司 一种多级平台间数据清洗与同步方法及系统
CN111797297A (zh) * 2020-09-09 2020-10-20 平安国际智慧城市科技股份有限公司 页面数据处理方法、装置、计算机设备及存储介质
CN112417456A (zh) * 2020-11-16 2021-02-26 中国电子科技集团公司第三十研究所 一种基于大数据的结构化敏感数据还原检测的方法
CN112417456B (zh) * 2020-11-16 2022-02-08 中国电子科技集团公司第三十研究所 一种基于大数据的结构化敏感数据还原检测的方法
CN112380418A (zh) * 2020-12-31 2021-02-19 广州智云尚大数据科技有限公司 一种基于网络爬虫的数据处理方法、系统及云平台
CN113220555A (zh) * 2021-05-18 2021-08-06 北京百度网讯科技有限公司 用于处理数据的方法、装置、设备、介质和产品
CN113220555B (zh) * 2021-05-18 2023-10-20 北京百度网讯科技有限公司 用于处理数据的方法、装置、设备、介质和产品

Also Published As

Publication number Publication date
CN110737647B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN110737647A (zh) 一种互联网大数据清洗方法
CN105740707B (zh) 恶意文件的识别方法和装置
JP5035068B2 (ja) サービス処理状況分析プログラム、サービス処理状況分析装置、およびサービス処理状況分析方法
US20110016528A1 (en) Method and Device for Intrusion Detection
CN107508722B (zh) 一种业务监控方法和装置
CN111752799A (zh) 一种业务链路跟踪方法、装置、设备及储存介质
CN110719332B (zh) 数据传输方法、装置、系统、计算机设备和存储介质
CN110083391A (zh) 调用请求监控方法、装置、设备及存储介质
CN110298662B (zh) 交易重复提交的自动化检测方法及装置
CN111274095A (zh) 日志数据处理方法、装置、设备及计算机可读存储介质
CN109656792A (zh) 基于网络调用日志的应用性能分析方法、装置、计算机设备及存储介质
CN112350854B (zh) 一种流量故障定位方法、装置、设备及存储介质
CN108737549A (zh) 一种大数据量的日志分析方法及装置
CN110764980A (zh) 日志处理方法和装置
CN102820983A (zh) 系统异常信息采集方法及管理器
US20190197140A1 (en) Automation of sql tuning method and system using statistic sql pattern analysis
US10775751B2 (en) Automatic generation of regular expression based on log line data
CN106559498A (zh) 风控数据收集平台及其收集方法
CN115269438A (zh) 针对图像处理算法的自动化测试方法及装置
US7991827B1 (en) Network analysis system and method utilizing collected metadata
CN109409948B (zh) 交易异常检测方法、装置、设备及计算机可读存储介质
CN115994079A (zh) 测试方法、装置、电子设备、存储介质及程序产品
CN111459577B (zh) 应用安装来源跟踪方法、装置、设备及存储介质
CN109189813B (zh) 一种数据共享方法及装置
US7653742B1 (en) Defining and detecting network application business activities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant