CN104850361A - 一种数据清洗方法及系统 - Google Patents

一种数据清洗方法及系统 Download PDF

Info

Publication number
CN104850361A
CN104850361A CN201510293101.7A CN201510293101A CN104850361A CN 104850361 A CN104850361 A CN 104850361A CN 201510293101 A CN201510293101 A CN 201510293101A CN 104850361 A CN104850361 A CN 104850361A
Authority
CN
China
Prior art keywords
data
data source
cleaned
postrun
instrument
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510293101.7A
Other languages
English (en)
Inventor
龙震岳
魏理豪
艾解清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Center of Guangdong Power Grid Co Ltd
Original Assignee
Information Center of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Center of Guangdong Power Grid Co Ltd filed Critical Information Center of Guangdong Power Grid Co Ltd
Priority to CN201510293101.7A priority Critical patent/CN104850361A/zh
Publication of CN104850361A publication Critical patent/CN104850361A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Stored Programmes (AREA)

Abstract

本发明提供了一种数据清洗方法及系统,其中,所述方法包括:首先,程序运行后构建待清洗数据源;再根据工具脚本提取待清洗数据源中有用的数据生成相应的命令,运行后再通过实时返回或者回调方式得到运行后的数据源。其容易拓展,适应能力强,不会因为工具的更新换代而导致整个系统重新编译,是目前非常可行的解决方案,具有很好的市场推广应用前景。

Description

一种数据清洗方法及系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据清洗方法及系统。
背景技术
数据清洗是发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。
数据清洗的任务是为了将很多种不同的信息安全检测的工具统一成平台专用格式,并且提取有用的数据,用于后续流程的数据流转。
举例来说,平台会使用大量的开源工具对企业内部资源进行探测及评估,由于各工具的指令格式及结果数据格式不统一,导致不利于数据的收集与整理,所以使用数据清洗组件对此进行处理。数据清洗为发现、过滤及转换不符要求信息的数据处理过程,针对各开源工具的命令重写和工具运行结果数据的一致性检查,并对结果数据的无效值、缺少值、重复数据的处理与规格化。
目前,通常是针对两个或多个检测工具编写一个统一的接口,这种方式难以拓展,而且每次需要修改内核代码,通过以发布新的版本来增加新的工具或接口。
有鉴于此,现有技术有待改进和提高。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供一种数据清洗方法及系统,旨在解决现有数据清理方法难以拓展的问题。
为了达到上述目的,本发明采取了以下技术方案:
一种数据清洗方法,其中,包括以下步骤:
S1、程序运行后,构建待清洗数据源;其中,所述带清洗数据源为JSON格式,且符合IP的正常字段;
S2、根据工具脚本提取待清洗数据源中有用的数据生成相应的命令,运行后再通过实时返回或者回调方式得到运行后的数据源。
所述的数据清洗方法,其中,所述步骤S1中的待清洗数据源包括:IP、URL、操作系统、漏洞名称以及对应的网址或网络域名。
所述的数据清洗方法,其中,还包括步骤S3、根据工具脚本提取运行后的数据源的运行结果,进行一致性判断、无效处理、缺少值处理和/或重复值处理,得到清洗后的数据源。
所述的数据清洗方法,其中,所述运行后的数据源中还包括工具结果。
所述的数据清洗方法,其中,所述S2中回调方式具体包括:将待清洗数据源和任务放入队列中,提取所述任务后运行返回工具结果到对应的运行后的数据源。
一种数据清洗系统,其中,包括:
构建单元,用于在程序运行后,构建待清洗数据源;其中,所述带清洗数据源为JSON格式,且符合IP的正常字段;
命令生成单元,用于根据工具脚本提取待清洗数据源中有用的数据生成相应的命令,运行后再通过实时返回或者回调方式得到运行后的数据源。
所述的数据清洗系统,其中,所述构建单元中的待清洗数据源包括:IP、URL、操作系统、漏洞名称以及对应的网址或网络域名。
所述的数据清洗系统,其中,还包括:后置处理单元,用于根据工具脚本提取运行后的数据源的运行结果,进行一致性判断、无效处理、缺少值处理和/或重复值处理,得到清洗后的数据源。
所述的数据清洗系统,其中,所述运行后的数据源中还包括工具结果。
所述的数据清洗系统,其中,所述命令生成单元中回调方式具体包括:将待清洗数据源和任务放入队列中,提取所述任务后运行返回工具结果到对应的运行后的数据源。
有益效果:本发明提供的数据清洗方法及系统,其中,所述方法包括:首先,程序运行后构建待清洗数据源;再根据工具脚本提取待清洗数据源中有用的数据生成相应的命令,运行后再通过实时返回或者回调方式得到运行后的数据源。其容易拓展,适应能力强,不会因为工具的更新换代而导致整个系统重新编译,是目前非常可行的解决方案,具有很好的市场推广应用前景。
附图说明
图1为本发明的数据清洗方法的流程图。
图2为本发明的数据清洗系统的结构框图。
具体实施方式
本发明提供一种数据清洗方法及系统。为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明的思路是:将数据清洗编写成一个平台框架,当每次出现新的信息安全检测的工具,只需要编写对应的脚本放入到此平台,使得容易拓展,适应新出的各种工具,适应能力强,不会因为工具的更新换代而导致整个平台重新编译,只需要修改对应的脚本或参数。
为了方便理解,对前述的一些技术特征的解释:
(1)不符要求信息:比如,一个是扫描IP的信息安全检测工具,它的作用是得出IP信息,那么仅仅提取IP信息就够了,如时间等其他数据就为无用信息,这些可以过滤掉的信息即属于不符要求信息。
(2)一致性:例如要扫描IP的工具,能扫描出来的结果数据有一定的格式,扫描不出来也有一定的格式,只提取扫描出来的结果的格式,就只提取这个数据。
(3)无效值、缺少值、重复数据如何处理以及规格化:结果可能是杂乱无章,无效,缺失或重复,根据这个结果的共性进行处理,如抛弃无效值,补齐缺少值,去掉重复的数据。
请参阅图1,其为本发明的数据清洗方法的流程图。如图所示,所述数据清洗方法包括以下步骤:
S100、程序运行后,构建待清洗数据源;其中,所述带清洗数据源为JSON格式,且符合IP的正常字段;
S200、根据工具脚本提取待清洗数据源中有用的数据生成相应的命令,运行后再通过实时返回或者回调方式得到运行后的数据源。
下面分别针对上述步骤进行具体描述。
所述步骤S100为程序运行后,构建待清洗数据源(也称原始数据源);其中,所述带清洗数据源为JSON格式,且符合IP的正常字段。需要注意地是,在不收S1中是没有工具结果的,工具结果是在工具执行完后,再回来清洗的后置后置操作中。在本实施例中,所述待清洗数据源包括:IP、URL、操作系统、漏洞名称以及对应的网址或网络域名。
所述步骤S200为根据工具脚本提取待清洗数据源中有用的数据生成相应的命令,运行后再通过实时返回或者回调方式得到运行后的数据源。概括来说,首先,将带清洗数据源中的数据给到安全监检测工具生产命令(根据工具的种类不同,生产不同的命令),然后,通过两种方式得到运行后的数据源。其中,一种是实时方式,即马上返回到带清洗数据源中得到运行后的数据源;另一种是通过回调的方式执行完后回到带清洗数据源中得到运行后的数据源(筛选匹配,更新其数据源,通过脚本编写进行筛选匹配)。
所述回调方式,指将数据源加任务放到队列,由worker(工作者)取这个任务,取完任务就运行返回工具结果到对应的数据源(发送人)。
进一步地,还包括步骤S300、根据工具脚本提取运行后的数据源的运行结果,进行一致性判断、无效处理、缺少值处理和/或重复值处理,得到清洗后的数据源。相对于原始数据源,在运行后的数据源中多了一个工具运行的结果数据。最后,将清洗后的数据源按实时和回调的方式再返回。
本发明还提供了一种数据清洗系统,如图2所示,包括:
构建单元100,用于在程序运行后,构建待清洗数据源;其中,所述带清洗数据源为JSON格式,且符合IP的正常字段;
命令生成单元200,用于根据工具脚本提取待清洗数据源中有用的数据生成相应的命令,运行后再通过实时返回或者回调方式得到运行后的数据源。
进一步地,所述的数据清洗系统中,所述构建单元中的待清洗数据源包括:IP、URL、操作系统、漏洞名称以及对应的网址或网络域名。
进一步地,所述的数据清洗系统中,还包括:后置处理单元,用于根据工具脚本提取运行后的数据源的运行结果,进行一致性判断、无效处理、缺少值处理和/或重复值处理,得到清洗后的数据源。
进一步地,所述的数据清洗系统中,所述运行后的数据源中还包括工具结果。
进一步地,所述的数据清洗系统中,所述命令生成单元中回调方式具体包括:将待清洗数据源和任务放入队列中,提取所述任务后运行返回工具结果到对应的运行后的数据源。
上述数据清洗系统中的各个模块的功能都已经在数据清洗方法中进行了介绍,这里就不再做赘述了。
综上所述,本发明提供的数据清洗方法及系统,其中,所述方法包括:首先,程序运行后构建待清洗数据源;再根据工具脚本提取待清洗数据源中有用的数据生成相应的命令,运行后再通过实时返回或者回调方式得到运行后的数据源。其容易拓展,适应能力强,不会因为工具的更新换代而导致整个系统重新编译,是目前非常可行的解决方案,具有很好的市场推广应用前景。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及本发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种数据清洗方法,其特征在于,包括以下步骤:
S1、程序运行后,构建待清洗数据源;其中,所述带清洗数据源为JSON格式,且符合IP的正常字段;
S2、根据工具脚本提取待清洗数据源中有用的数据生成相应的命令,运行后再通过实时返回或者回调方式得到运行后的数据源。
2.根据权利要求1所述的数据清洗方法,其特征在于,所述步骤S1中的待清洗数据源包括:IP、URL、操作系统、漏洞名称以及对应的网址或网络域名。
3.根据权利要求1或2所述的数据清洗方法,其特征在于,还包括步骤S3、根据工具脚本提取运行后的数据源的运行结果,进行一致性判断、无效处理、缺少值处理和/或重复值处理,得到清洗后的数据源。
4.根据权利要求3所述的数据清洗方法,其特征在于,所述运行后的数据源中还包括工具结果。
5.根据权利要求3所述的数据清洗方法,其特征在于,所述S2中回调方式具体包括:将待清洗数据源和任务放入队列中,提取所述任务后运行返回工具结果到对应的运行后的数据源。
6.一种数据清洗系统,其特征在于,包括:
构建单元,用于在程序运行后,构建待清洗数据源;其中,所述带清洗数据源为JSON格式,且符合IP的正常字段;
命令生成单元,用于根据工具脚本提取待清洗数据源中有用的数据生成相应的命令,运行后再通过实时返回或者回调方式得到运行后的数据源。
7.根据权利要求6所述的数据清洗系统,其特征在于,所述构建单元中的待清洗数据源包括:IP、URL、操作系统、漏洞名称以及对应的网址或网络域名。
8.根据权利要求6或7所述的数据清洗系统,其特征在于,还包括:后置处理单元,用于根据工具脚本提取运行后的数据源的运行结果,进行一致性判断、无效处理、缺少值处理和/或重复值处理,得到清洗后的数据源。
9.根据权利要求8所述的数据清洗系统,其特征在于,所述运行后的数据源中还包括工具结果。
10.根据权利要求8所述的数据清洗系统,其特征在于,所述命令生成单元中回调方式具体包括:将待清洗数据源和任务放入队列中,提取所述任务后运行返回工具结果到对应的运行后的数据源。
CN201510293101.7A 2015-06-01 2015-06-01 一种数据清洗方法及系统 Pending CN104850361A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510293101.7A CN104850361A (zh) 2015-06-01 2015-06-01 一种数据清洗方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510293101.7A CN104850361A (zh) 2015-06-01 2015-06-01 一种数据清洗方法及系统

Publications (1)

Publication Number Publication Date
CN104850361A true CN104850361A (zh) 2015-08-19

Family

ID=53850036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510293101.7A Pending CN104850361A (zh) 2015-06-01 2015-06-01 一种数据清洗方法及系统

Country Status (1)

Country Link
CN (1) CN104850361A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108572997A (zh) * 2017-03-14 2018-09-25 北京宸信征信有限公司 一种具有网络属性的多源数据的整合存储系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076752A1 (en) * 2008-09-19 2010-03-25 Zweig Geoffrey G Automated Data Cleanup
CN103092817A (zh) * 2013-01-18 2013-05-08 五八同城信息技术有限公司 一种基于脚本引擎的数据采集方法和装置
CN103984878A (zh) * 2014-04-08 2014-08-13 浙江工业大学 一种基于树搜索和片段组装的蛋白质结构预测方法
CN104361022A (zh) * 2014-10-22 2015-02-18 浪潮软件集团有限公司 一种基于采集数据统计以及前台展现的方法
US20150134922A1 (en) * 2012-08-13 2015-05-14 International Business Machines Corporation Methods and systems for data cleanup using physical image of files on storage devices

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076752A1 (en) * 2008-09-19 2010-03-25 Zweig Geoffrey G Automated Data Cleanup
US20150134922A1 (en) * 2012-08-13 2015-05-14 International Business Machines Corporation Methods and systems for data cleanup using physical image of files on storage devices
CN103092817A (zh) * 2013-01-18 2013-05-08 五八同城信息技术有限公司 一种基于脚本引擎的数据采集方法和装置
CN103984878A (zh) * 2014-04-08 2014-08-13 浙江工业大学 一种基于树搜索和片段组装的蛋白质结构预测方法
CN104361022A (zh) * 2014-10-22 2015-02-18 浪潮软件集团有限公司 一种基于采集数据统计以及前台展现的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈华 等: "简单数据清洗规则库的设计与实现", 《指挥信息系统与技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108572997A (zh) * 2017-03-14 2018-09-25 北京宸信征信有限公司 一种具有网络属性的多源数据的整合存储系统及方法
CN108572997B (zh) * 2017-03-14 2020-08-18 北京宸信征信有限公司 一种具有网络属性的多源数据的整合存储系统及方法

Similar Documents

Publication Publication Date Title
CN109684053B (zh) 大数据的任务调度方法和系统
CN101526919B (zh) 生成脚本文件对Web应用软件进行测试的方法及装置
CN109829096B (zh) 一种数据采集方法、装置、电子设备及存储介质
CN108255620B (zh) 一种业务逻辑处理方法、装置、业务服务器及系统
CN104410535A (zh) 一种云资源智能监控告警方法
CN103246578A (zh) 应用软件进行崩溃处理的方法及进行崩溃处理的浏览器
CN103809990A (zh) 伺服器及其固件更新方法
CN109426510B (zh) 软件处理方法、装置、电子设备及计算机可读存储介质
CN110333880B (zh) 一种配置更新方法、装置、设备及存储介质
CN105468378A (zh) 一种软件持续集成配置管理方法和系统
CN106325901A (zh) 软件版本管理方法及系统
CN111782490A (zh) 数据采集方法及装置
CN109241735A (zh) 一种基于漏洞扫描平台的持续集成方法
CN104392050A (zh) 三维模型零件比对系统及其方法
CN104346279A (zh) 一种软件测试方法及装置
CN102521530A (zh) 一种许可证回收方法及系统
CN105430114A (zh) 一种ip地址冲突检测方法、系统及接入层设备
CN105718307A (zh) 进程管理方法及进程管理装置
CN108399095B (zh) 支持动态管理定时任务的方法、系统、设备和存储介质
WO2015183241A1 (en) Distributed compilation of statically typed languages
CN104850361A (zh) 一种数据清洗方法及系统
CN112003821B (zh) 一种云平台安全管理方法、系统以及安全管理服务器
CN109450670B (zh) 一种人工智能模式下的指令冲突判断方法及其系统
CN112925675B (zh) 用于小程序的恢复方法和装置
CN115145381A (zh) 一种远程重置bmc芯片的方法、系统、存储介质及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150819