CN112612761B - 一种数据清洗方法、装置、设备及存储介质 - Google Patents
一种数据清洗方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112612761B CN112612761B CN202011490975.9A CN202011490975A CN112612761B CN 112612761 B CN112612761 B CN 112612761B CN 202011490975 A CN202011490975 A CN 202011490975A CN 112612761 B CN112612761 B CN 112612761B
- Authority
- CN
- China
- Prior art keywords
- data
- cleaned
- extractor
- target data
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004140 cleaning Methods 0.000 title claims abstract description 35
- 238000012216 screening Methods 0.000 claims abstract description 18
- 238000013075 data extraction Methods 0.000 claims description 13
- 238000013499 data model Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 abstract description 8
- 235000014510 cooky Nutrition 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种数据清洗方法、装置、设备及存储介质。其中,数据清洗方法包括:获取待清洗数据,并确定与所述待清洗数据对应的目标数据提取器;对所述待清洗数据进行解析,并通过所述目标数据提取器提取所述待清洗数据包含的目标数据,所述目标数据包含属性名称、属性数据或者标签文本数据中至少一项;对所述目标数据进行解码,并根据客户端上传的各参考数据对解码后的目标数据进行筛选,以对所述待清洗数据进行清洗。本发明实施例的方案,实现了对数据中的冗余数据进行清洗,可以节省存储空间、提升数据传输效率。
Description
技术领域
本发明实施例涉及数据清洗技术领域,尤其涉及一种数据清洗方法、装置、设备及存储介质。
背景技术
随着互联网的不断发展,各种数据呈现爆炸式的增长;与此同时,不符合规范的冗余数据也不断地递增,尤其是互联网中的post数据,在post数据中,包含了大量的冗余结构化信息,数据的总体价值无法得到有效体现。
现阶段,针对post数据,通常直接对post数据进行转发,或者对post数据进行分词存储,这样不但消耗了大量的存储空间,并且在数据传输过程中还需要对post数据中的冗余数据进行转发。
因此,研究一种对post数据中的冗余数据进行清洗,以节省存储空间、提升数据传输效率的方案是十分有必要的。
发明内容
本发明实施例提供一种数据清洗方法、装置、设备及存储介质,以实现对数据中的冗余数据进行清洗,节省存储空间、提升数据传输效率。
第一方面,本发明实施例提供了一种数据清洗方法,包括:
获取待清洗数据,并确定与所述待清洗数据对应的目标数据提取器;
对所述待清洗数据进行解析,并通过所述目标数据提取器提取所述待清洗数据包含的目标数据,所述目标数据包含属性名称、属性数据或者标签文本数据中至少一项;
对所述目标数据进行解码,并根据客户端上传的各参考数据对解码后的目标数据进行筛选,以对所述待清洗数据进行清洗。
第二方面,本发明实施例还提供了一种数据清洗装置,包括:
数据提取器确定模块,用于获取待清洗数据,并确定与所述待清洗数据对应的目标数据提取器;
目标数据提取模块,用于对所述待清洗数据进行解析,并通过所述目标数据提取器提取所述待清洗数据包含的目标数据,所述目标数据包含属性名称、属性数据或者标签文本数据中至少一项;
目标数据筛选模块,用于对所述目标数据进行解码,并根据客户端上传的各参考数据对解码后的目标数据进行筛选,以对所述待清洗数据进行清洗。
第三方面,本发明实施例还提供了一种数据清洗设备,所述数据清洗设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一实施例所述的数据清洗方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例中任一实施例所述的数据清洗方法。
本发明实施例的方案,通过获取待清洗数据,并确定与所述待清洗数据对应的目标数据提取器;对所述待清洗数据进行解析,并通过所述目标数据提取器提取所述待清洗数据包含的目标数据,所述目标数据包含属性名称、属性数据或者标签文本数据中至少一项;对所述目标数据进行解码,并根据客户端上传的各参考数据对解码后的目标数据进行筛选,以对所述待清洗数据进行清洗,实现了对数据中的冗余数据进行清洗,可以节省存储空间、提升数据传输效率。
附图说明
图1是本发明实施例一中的一种数据清洗方法的流程图;
图2是本发明实施例二中的一种数据清洗方法的流程图;
图3是本发明实施例三中的一种数据清洗方法的流程图;
图4是本发明实施例四中的一种数据清洗方法的流程图;
图5是本发明实施例四中的一种数据清洗方法的流程图;
图6是本发明实施例四中的一种post数据的组成图;
图7是本发明实施例五中的一种数据清洗装置的结构示意图;
图8是本发明实施例六中的一种数据清洗设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
实施例一
图1是本发明实施例一中的一种数据清洗方法的流程图,本实施例可适用于对数据中的冗余数据进行滤除的情况,该方法可以由数据清洗装置来执行,该装置可以通过软件和/或硬件的方式实现,并集成在执行本方法的数据清洗设备中,在本实施例中,数据清洗设备可以为服务器、计算机或者平板电脑等设备,本实施例中对其不加以限定。具体的,参考图1,该方法具体包括如下步骤:
步骤110、获取待清洗数据,并确定与待清洗数据对应的目标数据提取器。
在本实施例中,待清洗数据可以为post数据,也可以为get数据,本实施例中对其不加以限定。
在本实施例的一个可选实现方式中,在获取到待清洗数据之后,可以进一步的确定与待清洗数据对应的目标数据提取器。需要说明的是,post数据可以由请求url(uniformresource locator,统一资源定位符)、请求cookie以及请求body三个部分构成,在具体实现中,post数据的这三个部分都需要进行目标数据的提取。其中,url和cookie一般为键值对数据,在body中可以包含xml(extensible markup language,可扩展标记语言)、JSON(JavaScript Object Notation,JS对象简谱)以及键值对三种数据格式类型的数据。
在本实施例的一个可选实现方式中,在获取到待清洗数据,即获取到待清洗post数据之后,可以对待清洗post数据所包含的数据格式类型进行识别,进一步的,可以根据post数据所包含的数据格式类型选取目标数据提取器,以对post数据中包含的目标数据进行提取。
示例性的,若识别到待清洗post数据中仅包含键值对数据,则可以选取与键值对数据匹配的目标数据提取器对post数据中所包含的键值对数据进行提取;若识别到待清洗post数据中仅包含xml数据,则可以选取与xml数据匹配的目标数据提取器对post数据中所包含的xml数据进行提取;若识别到待清洗post数据中包含键值对数据和xml数据,则可以选取与键值对数据匹配的目标数据提取器,以及与xml数据匹配的目标数据提取器,对post数据中所包含的键值对数据以及xml数据进行提取。
步骤120、对待清洗数据进行解析,并通过目标数据提取器提取待清洗数据包含的目标数据。
其中,目标数据包含属性名称、属性数据或者标签文本数据中至少一项。
在本实施例的一个可选实现方式中,在确定与待清洗数据对应的目标数据提取器之后,可以进一步的对待清洗数据进行解析,从而确定待清洗数据的编码模式,在本实施例中,待清洗数据的编码模式可以为base64编码模式、decoder编码模式或者加密编码模式,本实施例中对其不加以限定。进一步的可以通过选取的目标数据提取器提取待清洗数据包含的目标数据。
步骤130、对目标数据进行解码,并根据客户端上传的各参考数据对解码后的目标数据进行筛选,以对待清洗数据进行清洗。
在本实施例的一个可选实现方式中,在通过目标数据提取器提取到待清洗数据中所包含的目标数据之后,可以进一步的根据解析到的待清洗数据的编码模式对提取到的目标数据进行解码,并根据客户端上传的各参考数据对解码后的目标数据进行筛选,从而对待清洗数据进行清洗,滤除待清洗数据中包含的冗余数据。
其中,客户端上传的各参考数据可以为与用户需求相关的数据,例如,与用户需求相关的关键字等,本实施例中对其不加以限定。
示例性的,在对目标数据进行解码,得到便于识别的目标数据之后,可以将目标数据与客户端上传的参考数据进行比对,保留与参考数据相对应的目标数据,滤除与参考数据不对应的目标数据,从而实现对目标数据的筛选,以滤除与用户需求不相关的冗余数据。
本实施例的方案,通过获取待清洗数据,并确定与待清洗数据对应的目标数据提取器;对待清洗数据进行解析,并通过目标数据提取器提取待清洗数据包含的目标数据,目标数据包含属性名称、属性数据或者标签文本数据中至少一项;对目标数据进行解码,并根据客户端上传的各参考数据对解码后的目标数据进行筛选,以对待清洗数据进行清洗,实现了对数据中的冗余数据进行清洗,可以节省存储空间、提升数据传输效率。
实施例二
图2是本发明实施例二中的一种数据清洗方法的流程图,本实施例是对上述各技术方案的进一步细化,本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图2所示,数据清洗方法可以包括如下步骤:
步骤210、获取待清洗数据。
步骤220、识别待清洗数据包含的数据格式类型,并根据数据格式类型确定目标数据提取器。
其中,数据格式类型包括:键值对、xml以及JSON等,本实施例中对其不加以限定。
在本实施例的一个可选实现方式中,在获取到待清洗数据之后,即在获取到待清洗的post数据之后,可以进一步的识别待清洗的post数据所包含的数据格式类型,post数据所包含的数据格式类型可以为键值对、xml以及JSON数据格式类型中的一种或者多种,本实施例中对其不加以限定。
进一步的,可以根据识别到的待清洗数据所包含的数据格式类型,确定目标数据提取器,其中目标数据提取器可以包括键值对提取器、xml提取器、或者JSON提取器。
示例性的,若识别到待清洗数据所包含的数据格式类型为键值对以及xml两种数据格式类型,则可以确定键值对提取器以及xml提取器为目标数据提取器。
步骤230、对待清洗数据进行解析,并通过目标数据提取器提取待清洗数据包含的目标数据。
在本实施例的一个可选实现方式中,通过目标数据提取器提取待清洗数据包含的目标数据,可以包括:通过目标数据提取器提取待清洗数据中包含的键值对、xml数据或者JSON信息。
可选的,通过目标数据提取器提取待清洗数据中包含的键值对、xml数据或者JSON信息,可以包括:通过键值对提取器提取待清洗数据中包含的键值对;或者,通过xml提取器提取待清洗数据中包含的xml数据;或者,通过JSON提取器提取待清洗数据中包含的JSON信息。
在本实施例的一个可选实现方式中,也可以同时通过键值对提取器提取待清洗数据中包含的键值对,通过xml提取器提取待清洗数据中包含的xml数据,以及通过JSON提取器提取待清洗数据中包含的JSON信息。
步骤240、对目标数据进行解码,并根据客户端上传的各参考数据对解码后的目标数据进行筛选,以对待清洗数据进行清洗。
本实施例的方案,通过识别待清洗数据包含的数据格式类型,并根据数据格式类型确定目标数据提取器;进一步的,通过目标数据提取器提取待清洗数据中包含的键值对、xml数据或者JSON信息,为后续清洗post数据中的冗余数据提供依据。
实施例三
图3是本发明实施例三中的一种数据清洗方法的流程图,本实施例是对上述各技术方案的进一步细化,本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图3所示,数据清洗方法可以包括如下步骤:
步骤310、获取待清洗数据。
步骤320、识别待清洗数据包含的数据格式类型,并根据数据格式类型确定目标数据提取器。
步骤330、对待清洗数据进行解析。
在本实施例的一个可选实现方式中,对待清洗数据进行解析可以包括,识别待清洗数据的编码模式,其中,待清洗数据的编码模式可以为base64编码模式、decoder编码模式或者加密编码模式等,本实施例中对其不加以限定。
步骤340、通过目标数据提取器提取待清洗数据包含的目标数据。
步骤350、根据解析到的与目标数据对应的编码模式选取目标解码器,对目标数据进行解码。
在本实施例的一个可选实现方式中,在通过目标数据提取器提取待清洗数据包含的目标数据之后,可以进一步根据解析得到的目标数据的编码模式,即解析得到的待清洗数据的编码模式选取目标解码器,并根据目标解码器对提取到的目标数据进行解码,以将目标数据从无法识别的字符转换为便于理解的字符,例如,将目标数据由“%%”转换为“abc”等字符。
示例性的,若识别待清洗数据的编码模式为base64编码模式,即目标数据的编码模式为base64编码模式,则可以选取与base64编码模式对应的目标解码器对目标数据进行解码;若识别待清洗数据的编码模式为decoder编码模式,即目标数据的编码模式为decoder编码模式,则可以选取与decoder编码模式对应的目标解码器对目标数据进行解码。
在本实施例的一个可选实现方式中,如果编码模式为加密编码模式,则获取与加密编码模式对应的加密秘钥,并根据加密秘钥对目标数据进行解码。
具体的,如果识别到待清洗数据的编码模式为加密编码模式,即目标数据的编码模式为加密编码模式,则可以获取与加密编码模式对应的加密秘钥,并根据加密秘钥对目标数据进行解码。
步骤360、根据客户端上传的各参考数据对解码后的目标数据进行筛选,以对待清洗数据进行清洗。
本实施例的方案,通过对待清洗数据进行解析,以确定待清洗数据的编码模式;根据解析到的与目标数据对应的编码模式选取目标解码器,对目标数据进行解码,从而将目标数据转换为便于识别的表达形式,为后续清洗post数据中的冗余数据提供依据。
实施例四
图4是本发明实施例四中的一种数据清洗方法的流程图,本实施例是对上述各技术方案的进一步细化,本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图4所示,数据清洗方法可以包括如下步骤:
步骤410、获取待清洗数据。
步骤420、识别待清洗数据包含的数据格式类型,并根据数据格式类型确定目标数据提取器。
步骤430、对待清洗数据进行解析。
步骤440、通过目标数据提取器提取待清洗数据包含的目标数据。
步骤450、根据解析到的与目标数据对应的编码模式选取目标解码器,对目标数据进行解码。
步骤460、将解码后的目标数据,与客户端上传的数据模型输出的各参考数据进行比对;如果目标数据中的第一数据与各参考数据相匹配,则保留第一数据;如果目标数据中的第二数据与各参考数据均不匹配,则滤除第二数据。
其中,目标数据中的第一数据以及目标数据中的第二数据为目标数据中的任一数据,其仅是为了便于对本实施例的描述,而不是对本发明实施例的限定。
在本实施例的一个可选实现方式中,在对目标数据进行解码之后,可以进一步的将解码后的目标数据与客户端上传的数据模型输出的各参考数据进行比对,如果第一数据与各参考数据中的任一参考数据相匹配,例如,相似度大于设定阈值(例如,0.9、0.85或者0.99等,本实施例中对其不加以限定),则可以保留第一数据;如果第二数据与各参考数据中的任一参考数据均不匹配,例如,与任一参考数据的相似度均小于设定阈值,则可以确定第二数据为冗余数据,可以将其进行滤除处理。
需要说明的是,本实施例中涉及到的数据模型可以预先在客户端或者计算机中训练得到的数据模型;在本实施例中,训练数据模型的过程可以包括:可以根据用户的要求对样本数据进行标注,其中,样本数据可以为大量的post数据,本实施例中对其不加以限定;进一步的,可以通过朴素贝叶斯训练构建数据模型,输出所有用户要求数据,在此基础上对输出数据进行归一化(数据标准化,去掉大小写等),而后,对归一化数据进行高度聚合,提炼数据内容,降低数据条数,通过上述方法处理后的输出数据,即为本发明实施例中涉及到的参考数据。
本实施例的方案,在对目标数据进行解码之后,可以将解码后的目标数据,与客户端上传的数据模型输出的各参考数据进行比对;如果目标数据中的第一数据与各参考数据相匹配,则保留第一数据;如果目标数据中的第二数据与各参考数据均不匹配,则滤除第二数据,实现了对post数据中所包含的冗余数据进行滤除,可以节省post数据的存储空间、提升post数据的传输效率。
为了使本领域技术人员更好地理解本实施例涉及到的数据清洗方法,下面采用一个具体示例进行说明,参考图5,数据清洗方法的具体过程包括有:
步骤510、post数据识别。
其中,post数据识别主要针对post的数据结构进行识别,包含识别数据编码模式、识别cookie部分数据、识别请求头header数据、识别请求体body数据。在此基础上识别数据类型(主要包含json、xml、键值对等类型数据)。通过数据模式的识别,简化后续处理逻辑控制,便于针对每种具体的数据格式应用相对应的提取器进行数据提取。
步骤520、post数据提取。
在post数据,由请求url、cookie、body三个部分构成,每个部分均需要进行数据提取,同时,请求url数据和cookie数据一般为键值对数据,在body中包含xml、JSON、键值对三种模式,具体如图6所示。
在post数据提取设计中,结合数据识别技术的结果,职责到具体的提取器,每种提取器专职负责相应类型数据的提取。
Xml提取器
针对xml格式数据进行数据解析,依据xml数据结构特点,提取属性以及属性数据,提取标签文本数据等。
cookie提取器
针对cookie数据进行数据分析,依据cookie数据结构提点,提取属性名称以及属性数据。
JSON提取器
针对JSON格式数据进行数据解析,依据JSON数据结构特点,提取属性以及属性数据,提取标签文本数据等。
步骤530、数据逆向解码。
数据逆向解码技术主要从提取获得的数据中识别数据模式,当前阶段主要支持base64编码、普通的decoder编码模式数据。在识别相应的数据编码模式下,调用标准的解码器进行解码,从而实现编码数据的还原,从而,尽最大可能实现数据还原能力,提高数据质量。
在实战数据中,存在多重编码模式,暨xml中嵌套JSON或者JSON中嵌套xml,同时,xml的节点text值为编码的JSON数据,JSON数据字段值采用编码技术等。通过数据识别、数据提取、数据逆向编码的组件的设计,组合嵌套应用上述组件。很好的完成了多位复杂场景的实现支持。
步骤540、数据清洗。
其中,数据清洗技术主要包含两部分内容:
1、样本数据标注与关键字提取:
在不同地区,数据的价值方向不同,结合用户要求对样本数据进行标注,通过朴素贝叶斯训练构建数据模型,输出所有用户要求数据,在此基础上对输出数据进行归一化(数据标准化,去掉大小写等),而后,对归一化数据进行高度聚合,提炼数据内容,降低数据条数。
2、数据匹配
在一段字符串中查找所有能匹配上的模式,比如查找一段文字匹配上字典中哪些短语。数据匹配采用Aho-Corasick自动机算法。它的核心思想是通过有限自动机巧妙地将字符比较转化为了状态转移。AC自动机能做到匹配时不需要回溯,而且时间复杂度为O(n),即时间复杂度与词典的规模无关。总体保障数据的高效处理。
在Aho-Corasick自动机算法中,关键词的个数对高效处理影响较大。因此,在满足业务需求的前提下,尽可能降低关键词个数,本研究中采用对关键字高度聚合、提炼等手段完成。
本发明实施例,可以实时分析互联网中的post数据并进行有价值数据提取,降低分布式文件(hadoop)和检索引擎数据存储,提升检索引擎读写数据能力,提取post数据中的有价值数据。
实施例五
图7是本发明实施例五中的一种数据清洗装置的结构示意图,该装置可以执行上述各实施例中涉及到的数据清洗方法。参照图7,数据提取器确定模块710、目标数据提取模块720以及目标数据筛选模块730。
其中,数据提取器确定模块710,用于获取待清洗数据,并确定与所述待清洗数据对应的目标数据提取器;
目标数据提取模块720,用于对所述待清洗数据进行解析,并通过所述目标数据提取器提取所述待清洗数据包含的目标数据,所述目标数据包含属性名称、属性数据或者标签文本数据中至少一项;
目标数据筛选模块730,用于对所述目标数据进行解码,并根据客户端上传的各参考数据对解码后的目标数据进行筛选,以对所述待清洗数据进行清洗。
本实施例的方案,通过数据提取器确定模块获取待清洗数据,并确定与所述待清洗数据对应的目标数据提取器;通过目标数据提取模块对所述待清洗数据进行解析,并通过所述目标数据提取器提取所述待清洗数据包含的目标数据;通过目标数据筛选模块对所述目标数据进行解码,并根据客户端上传的各参考数据对解码后的目标数据进行筛选,以对所述待清洗数据进行清洗,实现了对数据中的冗余数据进行清洗,可以节省存储空间、提升数据传输效率。
可选的,数据提取器确定模块710,具体用于识别所述待清洗数据包含的数据格式类型,并根据所述数据格式类型确定目标数据提取器;
其中,所述数据格式类型包括键值对、可扩展标记语言xml、或者JS对象简谱JSON;
所述目标数据提取器包括:键值对提取器、xml提取器或者JSON提取器。
可选的,所述目标数据提取模块720,具体用于通过所述目标数据提取器提取所述待清洗数据中包含的键值对、xml数据或者JSON信息;
所述目标数据提取模块720,还具体用于通过所述键值对提取器提取所述待清洗数据中包含的键值对;
或者,通过所述xml提取器提取所述待清洗数据中包含的xml数据;
或者,通过所述JSON提取器提取所述待清洗数据中包含的JSON信息。
可选的,所述目标数据筛选模块730,包括解码模块,用于根据解析到的与所述目标数据对应的编码模式选取目标解码器,对所述目标数据进行解码;
所述编码模式包括:base64编码模式、decoder编码模式或者加密编码模式。
可选的,所述解码模块,还用于如果所述编码模式为加密编码模式,则获取与所述加密编码模式对应的加密秘钥,并根据所述加密秘钥对所述目标数据进行解码。
可选的,所述目标数据筛选模块730,具体用于将所述解码后的目标数据,与所述客户端上传的数据模型输出的各参考数据进行比对;
如果所述目标数据中的第一数据与各所述参考数据相匹配,则保留所述第一数据;
如果所述目标数据中的第二数据与各所述参考数据均不匹配,则滤除所述第二数据。
可选的,本实施例中涉及到的待清洗数据为post数据。
本发明实施例所提供的数据清洗装置可执行本发明任意实施例所提供的数据清洗方法,具备执行方法相应的功能模块和有益效果。
实施例六
图8为本发明实施例六提供的一种数据清洗设备的结构示意图,如图8所示,该数据清洗设备包括处理器80、存储器81、输入装置82和输出装置83;数据清洗设备中处理器80的数量可以是一个或多个,图8中以一个处理器80为例;数据清洗设备中的处理器80、存储器81、输入装置82和输出装置83可以通过总线或其他方式连接,图8中以通过总线连接为例。
存储器81作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据清洗方法对应的程序指令/模块(例如,数据清洗装置中的数据提取器确定模块710、目标数据提取模块720以及目标数据筛选模块730)。处理器80通过运行存储在存储器81中的软件程序、指令以及模块,从而执行数据清洗设备的各种功能应用以及数据处理,即实现上述的数据清洗方法。
存储器81可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器81可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器81可进一步包括相对于处理器80远程设置的存储器,这些远程存储器可以通过网络连接至数据清洗设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置82可用于接收输入的数字或字符信息,以及产生与数据清洗设备的用户设置以及功能控制有关的键信号输入。输出装置83可包括显示屏等显示设备。
实施例七
本发明实施例七还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种数据清洗方法,该方法包括:
获取待清洗数据,并确定与所述待清洗数据对应的目标数据提取器;
对所述待清洗数据进行解析,并通过所述目标数据提取器提取所述待清洗数据包含的目标数据,所述目标数据包含属性名称、属性数据或者标签文本数据中至少一项;
对所述目标数据进行解码,并根据客户端上传的各参考数据对解码后的目标数据进行筛选,以对所述待清洗数据进行清洗。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据清洗方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述数据清洗装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (9)
1.一种数据清洗方法,其特征在于,包括:
获取待清洗数据,并确定与所述待清洗数据对应的目标数据提取器;
对所述待清洗数据进行解析,并通过所述目标数据提取器提取所述待清洗数据包含的目标数据,所述目标数据包含属性名称、属性数据或者标签文本数据中至少一项;
对所述目标数据进行解码,并根据客户端上传的各参考数据对解码后的目标数据进行筛选,以对所述待清洗数据进行清洗;
所述确定与所述待清洗数据对应的目标数据提取器,包括:
识别所述待清洗数据包含的数据格式类型,并根据所述数据格式类型确定目标数据提取器;
其中,所述数据格式类型包括键值对、可扩展标记语言xml、或者JS对象简谱JSON;
所述目标数据提取器包括:键值对提取器、xml提取器或者JSON提取器。
2.根据权利要求1所述的方法,其特征在于,所述通过所述目标数据提取器提取所述待清洗数据包含的目标数据,包括:
通过所述目标数据提取器提取所述待清洗数据中包含的键值对、xml数据或者JSON信息;
所述通过所述目标数据提取器提取所述待清洗数据中包含的键值对、xml数据或者JSON信息,包括:
通过所述键值对提取器提取所述待清洗数据中包含的键值对;
或者,通过所述xml提取器提取所述待清洗数据中包含的xml数据;
或者,通过所述JSON提取器提取所述待清洗数据中包含的JSON信息。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标数据进行解码,包括:
根据解析到的与所述目标数据对应的编码模式选取目标解码器,对所述目标数据进行解码;
所述编码模式包括:base64编码模式、decoder编码模式或者加密编码模式。
4.根据权利要求3所述的方法,其特征在于,所述对所述目标数据进行解码,还包括:
如果所述编码模式为加密编码模式,则获取与所述加密编码模式对应的加密秘钥,并根据所述加密秘钥对所述目标数据进行解码。
5.根据权利要求1所述的方法,其特征在于,所述根据客户端上传的各参考数据对解码后的目标数据进行筛选,以对所述待清洗数据进行清洗,包括:
将所述解码后的目标数据,与所述客户端上传的数据模型输出的各参考数据进行比对;
如果所述目标数据中的第一数据与各所述参考数据相匹配,则保留所述第一数据;
如果所述目标数据中的第二数据与各所述参考数据均不匹配,则滤除所述第二数据。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述待清洗数据为post数据。
7.一种数据清洗装置,其特征在于,包括:
数据提取器确定模块,用于获取待清洗数据,并确定与所述待清洗数据对应的目标数据提取器;
目标数据提取模块,用于对所述待清洗数据进行解析,并通过所述目标数据提取器提取所述待清洗数据包含的目标数据,所述目标数据包含属性名称、属性数据或者标签文本数据中至少一项;
目标数据筛选模块,用于对所述目标数据进行解码,并根据客户端上传的各参考数据对解码后的目标数据进行筛选,以对所述待清洗数据进行清洗;
所述数据提取器确定模块,具体用于识别所述待清洗数据包含的数据格式类型,并根据所述数据格式类型确定目标数据提取器;
其中,所述数据格式类型包括键值对、可扩展标记语言xml、或者JS对象简谱JSON;
所述目标数据提取器包括:键值对提取器、xml提取器或者JSON提取器。
8.一种数据清洗设备,其特征在于,所述数据清洗设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的数据清洗方法。
9.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6中任一所述的数据清洗方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011490975.9A CN112612761B (zh) | 2020-12-16 | 2020-12-16 | 一种数据清洗方法、装置、设备及存储介质 |
PCT/CN2021/120043 WO2022127259A1 (zh) | 2020-12-16 | 2021-09-24 | 数据清洗方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011490975.9A CN112612761B (zh) | 2020-12-16 | 2020-12-16 | 一种数据清洗方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112612761A CN112612761A (zh) | 2021-04-06 |
CN112612761B true CN112612761B (zh) | 2024-01-30 |
Family
ID=75240187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011490975.9A Active CN112612761B (zh) | 2020-12-16 | 2020-12-16 | 一种数据清洗方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112612761B (zh) |
WO (1) | WO2022127259A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112612761B (zh) * | 2020-12-16 | 2024-01-30 | 北京锐安科技有限公司 | 一种数据清洗方法、装置、设备及存储介质 |
CN115002243B (zh) * | 2022-08-02 | 2022-11-01 | 上海秉匠信息科技有限公司 | 一种数据处理方法及装置 |
CN115543977A (zh) * | 2022-09-29 | 2022-12-30 | 河北雄安睿天科技有限公司 | 一种供水行业数据清洗方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239581A (zh) * | 2017-07-07 | 2017-10-10 | 小草数语(北京)科技有限公司 | 数据清洗方法及装置 |
CN108052665A (zh) * | 2017-12-29 | 2018-05-18 | 深圳市中易科技有限责任公司 | 一种基于分布式平台的数据清洗方法及装置 |
CN111640040A (zh) * | 2020-04-07 | 2020-09-08 | 国网新疆电力有限公司 | 基于客户画像技术的供电客户价值评价方法及大数据平台 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6907948B2 (ja) * | 2018-01-04 | 2021-07-21 | 富士通株式会社 | ファイル生成プログラム、ファイル生成方法及びファイル生成装置 |
CN108984625A (zh) * | 2018-06-19 | 2018-12-11 | 平安科技(深圳)有限公司 | 信息过滤方法、装置、计算机设备及存储介质 |
CN109918367B (zh) * | 2019-03-19 | 2021-02-12 | 北京百度网讯科技有限公司 | 一种结构化数据的清洗方法、装置、电子设备及存储介质 |
CN110554877A (zh) * | 2019-09-05 | 2019-12-10 | 北京博睿宏远数据科技股份有限公司 | 一种json数据解析方法、装置、设备及储存介质 |
CN112052414A (zh) * | 2020-10-09 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置以及可读存储介质 |
CN112612761B (zh) * | 2020-12-16 | 2024-01-30 | 北京锐安科技有限公司 | 一种数据清洗方法、装置、设备及存储介质 |
-
2020
- 2020-12-16 CN CN202011490975.9A patent/CN112612761B/zh active Active
-
2021
- 2021-09-24 WO PCT/CN2021/120043 patent/WO2022127259A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239581A (zh) * | 2017-07-07 | 2017-10-10 | 小草数语(北京)科技有限公司 | 数据清洗方法及装置 |
CN108052665A (zh) * | 2017-12-29 | 2018-05-18 | 深圳市中易科技有限责任公司 | 一种基于分布式平台的数据清洗方法及装置 |
CN111640040A (zh) * | 2020-04-07 | 2020-09-08 | 国网新疆电力有限公司 | 基于客户画像技术的供电客户价值评价方法及大数据平台 |
Also Published As
Publication number | Publication date |
---|---|
CN112612761A (zh) | 2021-04-06 |
WO2022127259A1 (zh) | 2022-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112612761B (zh) | 一种数据清洗方法、装置、设备及存储介质 | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
US11544459B2 (en) | Method and apparatus for determining feature words and server | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
JP2020027649A (ja) | エンティティ関係データ生成方法、装置、機器、及び記憶媒体 | |
CN107239564B (zh) | 一种基于监督主题模型的文本标签推荐方法 | |
CN111428049A (zh) | 一种事件专题的生成方法、装置、设备和存储介质 | |
CN111104801B (zh) | 基于网址域名的文本分词方法、系统、设备及介质 | |
CN114357197B (zh) | 事件推理方法和装置 | |
CN111061837A (zh) | 话题识别方法、装置、设备及介质 | |
CN111159334A (zh) | 用于房源跟进信息处理的方法及系统 | |
CN110990563A (zh) | 一种基于人工智能的传统文化素材库构建方法及系统 | |
KR20150122855A (ko) | 실시간 질의 및 정답을 위한 분산처리 시스템 및 방법 | |
CN113806483A (zh) | 数据处理方法、装置、电子设备及计算机程序产品 | |
CN114461749B (zh) | 对话内容的数据处理方法、装置、电子设备和介质 | |
CN116521626A (zh) | 一种基于内容检索的个人知识管理方法及系统 | |
CN113157857B (zh) | 面向新闻的热点话题检测方法、装置及设备 | |
CN115329754A (zh) | 一种文本主题提取方法、装置、设备及存储介质 | |
WO2021257195A1 (en) | Topic graph-based comment generation | |
CN115774797A (zh) | 视频内容检索方法、装置、设备和计算机可读存储介质 | |
CN113868481A (zh) | 组件获取方法、装置及电子设备和存储介质 | |
CN113722431A (zh) | 命名实体关系识别方法、装置、电子设备及存储介质 | |
Kaddu et al. | To extract informative content from online web pages by using hybrid approach | |
CN112329445A (zh) | 乱码判断方法、系统、信息抽取方法及信息抽取系统 | |
CN104484414A (zh) | 一种收藏夹信息的处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |