CN108491508A - 一种大数据清洗规范系统 - Google Patents
一种大数据清洗规范系统 Download PDFInfo
- Publication number
- CN108491508A CN108491508A CN201810241182.XA CN201810241182A CN108491508A CN 108491508 A CN108491508 A CN 108491508A CN 201810241182 A CN201810241182 A CN 201810241182A CN 108491508 A CN108491508 A CN 108491508A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- big
- acquisition
- big data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Storage Device Security (AREA)
Abstract
本发明公开了一种大数据清洗规范系统,包括数据采集模块、流量输入控制模块、异常数据检测模块、数据筛除模块、数据源对比模块和大数据存储模块,所述数据采集模块进行目标数据的采集,并将采集的目标数据传输至大数据存储模块,所述流量输入控制模块对数据采集模块传输的数据进行流量控制,所述异常数据检测模块对输入大数据存储模块的数据进行数据监测,并将异常数据进行标记,所述数据筛除模块对标注的异常数据进行删除,所述数据源对比模块将目标数据和采集模块来源数据进行对比,将对比结果输出至外部设备,所述大数据存储模块对目标数据进行分类存储。
Description
技术领域
本发明涉及一种数据清洗系统,具体涉及一种大数据清洗规范系统。
背景技术
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
随着电子信息化的飞速发展,电子信息数据逐渐成为人们研究的重点,人们日常生活均离不开各种各样的数据,进而大数据成为了目前研究的热点。
在现有技术中,在进行大数据处理时,通常将需要处理的各种数据进行融合存储,然后进行大数据处理利用分析等,但是简单的数据采集融合存在数据不准确含有杂质数据的问题,现有技术中并没有对大数据的数据进行清洗,导致大数据处理分析不准确的问题。
发明内容
本发明所要解决的技术问题是目前对大数据库的检查数据一致性,处理无效值和缺失值等都是基于数据的完整性前提下,但是目前的网络数据中,往往会植入大量的异常数据,这就需要将其异常数据排除后进行清洗,目的在于提供一种大数据清洗规范系统,解决上述的问题。
本发明通过下述技术方案实现:
一种大数据清洗规范系统,包括数据采集模块、流量输入控制模块、异常数据检测模块、数据筛除模块、数据源对比模块和大数据存储模块,所述数据采集模块进行目标数据的采集,并将采集的目标数据传输至大数据存储模块,所述流量输入控制模块对数据采集模块传输的数据进行流量控制,所述异常数据检测模块对输入大数据存储模块的数据进行数据监测,并将异常数据进行标记,所述数据筛除模块对标注的异常数据进行删除,所述数据源对比模块将目标数据和采集模块来源数据进行对比,将对比结果输出至外部设备,所述大数据存储模块对目标数据进行分类存储。目前的大数据系统内,其进行数据清洗都是直接将数据进行一致性比对,这样会提高效率,但是对一些异常数据的筛除后的数据进行清洗,有可能会造成其判断数据完整性缺失,从而将该数据进行删除,这样不利于数据的存储,并且在本申请文件中采用的清洗规范系统会将数据进行一次异常检测,因为目前网络的数据有很多夹杂了亢余数据或者木马数据,通过异常数据检测模块将这些数据的特征码进行提取后,在该数据前附加一段特征码作为标记,然后利用数据筛除模块将该特征码的数据进行删除,既可以保证存储进入大数据存储模块的数据的数据安全,避免异常数据进入,并且还能够将亢余数据进行删除,保证存储容量的最大化运用。在利用数据源对比模块对进入大数据存储模块内的目标数据与其来源进行对比,对整体的完整性进行判断,避免出现数据筛除模块将有用的数据进行删除,而导致整个数据无效。
进一步地,还包括系统日志数据库,所述系统日志数据库在目标数据进入大数据存储模块后启动,将该目标数据的来源、获取时间、输入时间、异常数据检测结果进行记录,并将记录信息进行备份存储。系统日志数据能够存储这些记录数据,便于数据追溯,在进行追溯时,能够通过目标数据的来源和获取时间以及输入时间对目标数据进行自动判断,能够节省人工操作步骤。
进一步地,所述日志数据库存储分类数据种类和传输至大数据存储库的时间,所述日志数据库数据溢出后将最早存储的数据内容进行覆盖。为了避免出现日志数据库内的最新数据遗失的情况,采用这种覆盖式数据式的存储方式,能够有效避免最新产生的数据遗失。而较早的数据内容能够通过移动硬盘进行导出,节省存储空间。
进一步地,所述外部设备采用PC机、笔记本电脑、平板电脑、手机中任意一种。采用多种外部设备进行结果输出的接收,能够让用户在第一时间获取输出结果的信息,进行及时的处理。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明一种大数据清洗规范系统,能够保证大数据库的检查数据一致性,处理无效值和缺失值等都是基于数据的完整性;
2、本发明一种大数据清洗规范系统,能够有效对数据进行清洗,保证存储进入大数据存储模块内的数据的安全
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明系统流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1所示,本发明一种大数据清洗规范系统,一种大数据清洗规范系统,包括数据采集模块、流量输入控制模块、异常数据检测模块、数据筛除模块、数据源对比模块和大数据存储模块,所述数据采集模块进行目标数据的采集,并将采集的目标数据传输至大数据存储模块,所述流量输入控制模块对数据采集模块传输的数据进行流量控制,所述异常数据检测模块对输入大数据存储模块的数据进行数据监测,并将异常数据进行标记,所述数据筛除模块对标注的异常数据进行删除,所述数据源对比模块将目标数据和采集模块来源数据进行对比,将对比结果输出至外部设备,所述大数据存储模块对目标数据进行分类存储。目前的大数据系统内,其进行数据清洗都是直接将数据进行一致性比对,这样会提高效率,但是对一些异常数据的筛除后的数据进行清洗,有可能会造成其判断数据完整性缺失,从而将该数据进行删除,这样不利于数据的存储,并且在本申请文件中采用的清洗规范系统会将数据进行一次异常检测,因为目前网络的数据有很多夹杂了亢余数据或者木马数据,通过异常数据检测模块将这些数据的特征码进行提取后,在该数据前附加一段特征码作为标记,然后利用数据筛除模块将该特征码的数据进行删除,既可以保证存储进入大数据存储模块的数据的数据安全,避免异常数据进入,并且还能够将亢余数据进行删除,保证存储容量的最大化运用。在利用数据源对比模块对进入大数据存储模块内的目标数据与其来源进行对比,对整体的完整性进行判断,避免出现数据筛除模块将有用的数据进行删除,而导致整个数据无效。
本系统还包括系统日志数据库,所述系统日志数据库在目标数据进入大数据存储模块后启动,将该目标数据的来源、获取时间、输入时间、异常数据检测结果进行记录,并将记录信息进行备份存储。系统日志数据能够存储这些记录数据,便于数据追溯,在进行追溯时,能够通过目标数据的来源和获取时间以及输入时间对目标数据进行自动判断,能够节省人工操作步骤。
所述日志数据库存储分类数据种类和传输至大数据存储库的时间,所述日志数据库数据溢出后将最早存储的数据内容进行覆盖。为了避免出现日志数据库内的最新数据遗失的情况,采用这种覆盖式数据式的存储方式,能够有效避免最新产生的数据遗失。而较早的数据内容能够通过移动硬盘进行导出,节省存储空间。
所述外部设备采用PC机、笔记本电脑、平板电脑、手机中任意一种。擦私用多种外部设备进行结果输出的接收,能够让用户在第一时间获取输出结果的信息,进行及时的处理。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种大数据清洗规范系统,其特征在于,包括数据采集模块、流量输入控制模块、异常数据检测模块、数据筛除模块、数据源对比模块和大数据存储模块,所述数据采集模块进行目标数据的采集,并将采集的目标数据传输至大数据存储模块,所述流量输入控制模块对数据采集模块传输的数据进行流量控制,所述异常数据检测模块对输入大数据存储模块的数据进行数据监测,并将异常数据进行标记,所述数据筛除模块对标注的异常数据进行删除,所述数据源对比模块将目标数据和采集模块来源数据进行对比,将对比结果输出至外部设备,所述大数据存储模块对目标数据进行分类存储。
2.根据权利要求1所述的一种大数据清洗规范系统,其特征在于,还包括系统日志数据库,所述系统日志数据库在目标数据进入大数据存储模块后启动,将该目标数据的来源、获取时间、输入时间、异常数据检测结果进行记录,并将记录信息进行备份存储。
3.根据权利要求2所述的一种大数据清洗规范系统,其特征在于,所述日志数据库存储分类数据种类和传输至大数据存储库的时间,所述日志数据库数据溢出后将最早存储的数据内容进行覆盖。
4.根据权利要求1所述的一种大数据清洗规范系统,其特征在于,所述外部设备采用PC机、笔记本电脑、平板电脑、手机中任意一种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810241182.XA CN108491508A (zh) | 2018-03-22 | 2018-03-22 | 一种大数据清洗规范系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810241182.XA CN108491508A (zh) | 2018-03-22 | 2018-03-22 | 一种大数据清洗规范系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108491508A true CN108491508A (zh) | 2018-09-04 |
Family
ID=63319316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810241182.XA Withdrawn CN108491508A (zh) | 2018-03-22 | 2018-03-22 | 一种大数据清洗规范系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108491508A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213657A (zh) * | 2018-08-31 | 2019-01-15 | 东北电力大学 | 一种电网运行数据云储存装置 |
CN109710601A (zh) * | 2018-12-25 | 2019-05-03 | 国电大渡河大岗山水电开发有限公司 | 一种智能化水电厂运行数据清洗方法 |
CN110941604A (zh) * | 2018-09-20 | 2020-03-31 | 北京国双科技有限公司 | 一种数据存储方法及装置 |
CN111444396A (zh) * | 2020-03-24 | 2020-07-24 | 深圳市中盛瑞达科技有限公司 | 一种大数据存储系统 |
CN112306757A (zh) * | 2020-11-25 | 2021-02-02 | 衡阳朗迈科技有限公司 | 一种新型分布式大数据筛选过滤装置及方法 |
-
2018
- 2018-03-22 CN CN201810241182.XA patent/CN108491508A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213657A (zh) * | 2018-08-31 | 2019-01-15 | 东北电力大学 | 一种电网运行数据云储存装置 |
CN109213657B (zh) * | 2018-08-31 | 2021-11-16 | 东北电力大学 | 一种电网运行数据云储存装置 |
CN110941604A (zh) * | 2018-09-20 | 2020-03-31 | 北京国双科技有限公司 | 一种数据存储方法及装置 |
CN109710601A (zh) * | 2018-12-25 | 2019-05-03 | 国电大渡河大岗山水电开发有限公司 | 一种智能化水电厂运行数据清洗方法 |
CN111444396A (zh) * | 2020-03-24 | 2020-07-24 | 深圳市中盛瑞达科技有限公司 | 一种大数据存储系统 |
CN112306757A (zh) * | 2020-11-25 | 2021-02-02 | 衡阳朗迈科技有限公司 | 一种新型分布式大数据筛选过滤装置及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491508A (zh) | 一种大数据清洗规范系统 | |
CN107832196A (zh) | 一种用于实时日志异常内容的监测装置及监测方法 | |
CN108763957B (zh) | 一种数据库的安全审计系统、方法及服务器 | |
KR101743191B1 (ko) | 응용 프로그램의 관리방법, 장치, 서버, 단말기기, 프로그램 및 기록매체 | |
CN103138989B (zh) | 一种海量日志分析系统及方法 | |
CN109240886B (zh) | 异常处理方法、装置、计算机设备以及存储介质 | |
CN107977473B (zh) | 基于Logback的分布式系统日志的检索方法和系统 | |
CN103152352A (zh) | 一种基于云计算环境的全信息安全取证监听方法和系统 | |
CN103377415A (zh) | 一种新的档案数字化管理系统 | |
CN113157994A (zh) | 一种多源异构平台数据处理方法 | |
CN108632111A (zh) | 一种基于日志的服务链路监控方法 | |
CN106407429A (zh) | 文件追踪方法、装置及系统 | |
CN110865851A (zh) | 一种Android应用数据自动采集方法及系统 | |
CN110365534A (zh) | 一种智能变电站通讯系统自动斩断及恢复方法 | |
CN1567851A (zh) | 一种在网络管理系统中监控用户行为的方法 | |
CN108073720A (zh) | 应用于大数据系统的数据质量管理系统及方法 | |
US9983921B2 (en) | Data lifecycle management | |
CN109992476A (zh) | 一种日志的分析方法、服务器及存储介质 | |
CN105426544A (zh) | 监控数据库状态的方法及装置 | |
CN108228417A (zh) | 车联网日志处理方法及处理装置 | |
CN110113421A (zh) | 一种基于物联网的大数据信息处理系统 | |
CN112685370B (zh) | 一种日志采集方法、装置、设备和介质 | |
CN111224823B (zh) | 一种基于异网日志分析的方法 | |
Kishore et al. | Big data as a challenge and opportunity in digital forensic investigation | |
CN102446131A (zh) | 计算节点的定位方法、系统及管理节点 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180904 |