CN108052665A - 一种基于分布式平台的数据清洗方法及装置 - Google Patents

一种基于分布式平台的数据清洗方法及装置 Download PDF

Info

Publication number
CN108052665A
CN108052665A CN201711474717.XA CN201711474717A CN108052665A CN 108052665 A CN108052665 A CN 108052665A CN 201711474717 A CN201711474717 A CN 201711474717A CN 108052665 A CN108052665 A CN 108052665A
Authority
CN
China
Prior art keywords
data
rule
cleaning
text
acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711474717.XA
Other languages
English (en)
Other versions
CN108052665B (zh
Inventor
陈建江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhongyi Technology Co Ltd
Original Assignee
Shenzhen Zhongyi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhongyi Technology Co Ltd filed Critical Shenzhen Zhongyi Technology Co Ltd
Priority to CN201711474717.XA priority Critical patent/CN108052665B/zh
Publication of CN108052665A publication Critical patent/CN108052665A/zh
Application granted granted Critical
Publication of CN108052665B publication Critical patent/CN108052665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于分布式平台的数据清洗方法及装置,该方法应用于分布式高效实时处理的系统,用于大数据量级的数据清洗,通过使用分布式处理的方式来解决性能、量级等问题,达到快速处理和实时响应的诉求;通过不断迭代优化满足业务的诉求和清洗的目标,这个过程是交替进行数据探索和规则优化的过程,不断的提高数据质量,解决了以往的集中式处理,无法适应大规模数据运算的问题,充分利用大数据方面的特性完成大数据清洗,并为海量数据分析提供了数据准备,达到满足业务需求的最优,可提高数据清洗性能和处理效率。

Description

一种基于分布式平台的数据清洗方法及装置
技术领域
本发明涉及大数据处理领域,特别涉及一种基于分布式平台的数据清洗方法及装置。
背景技术
数据清洗(Data cleaning)–对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。分布式平台的数据清洗开发,使用STORM、ZOOKEEPER、KAFKA和MONGODB等一系列分布式架构组成数据清洗系统,STORM可以分布式实时计算和处理,KAFKA是一个分布式消息系统,TB级以上数据也能保证正常时间的访问性能、高吞吐率,支持消息分区,及分布式消费,同时也支持离线数据处理和实时数据处理,MONGODB是基于分布式文件存储的开源数据库系统,提供可扩展的高性能数据存储
但是现有技术中数据清洗往往无法适应大规模数据运算,性能慢、处理效率低,且无法到达实时展示。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于分布式平台的数据清洗方法及装置。
第一方面,本发明提供一种基于分布式平台的数据清洗方法,包括:(1)通过数据采集,获取大量数据;
(2)将获取的所述大量数据,根据预设规则解析,生成标准化的数据;
(3)将所述标准化数据按照所对应的业务规则生成唯一标识,根据所述唯一标识进行消重处理;
(4)将所述消重处理后的数据,进行文本清洗;
(5)将所述文本清洗后的数据,调用规则模型,进行分析;
(6)根据所述规则模型输出的数据文本,调用机器学习,进行概率计算,获得权重值;确定所述权重值是否在区间范围内;
(7)确定当所述权重值不在区间范围内时,将所述文本清洗后的数据存储到数据库。
在一个实施例中,所述步骤(1),包括:
(1.1)根据业务所需,确定采集数据源;
(1.2)根据数据源,确定采集范围、采集规则、采集频率和采集数据的量级,进行数据采集。
在一个实施例中,所述步骤(2),包括:
(2.1)根据适配正则表达式和/或维表配置对获取的所述大量数据,进行数据处理;
(2.2)数据解析处理,生成格式化的JSON数据。
在一个实施例中,所述步骤(3),包括:
(3.1)将所述标准化的数据生成唯一标识,每个数据源提供唯一标识生成规则,通过HASH方式生成ID,通过ID消重;
(3.2)清洗大量重复数据。
在一个实施例中,所述步骤(4),包括:
(4.1)将消重后的数据进行备份;
(4.2)将消重后的数据,根据文本清洗规则,进行文本清洗;
(4.3)将文本清洗的数据存储,并导出排查和优化所述文本清洗规则。
在一个实施例中,所述步骤(5),包括:
(5.1)引入规则模型,分析所述文本清洗后的数据;
(5.2)根据业务配置的处理规则,调用所述规则模型,根据所述规则模型反馈的结果,判断数据是否需要清洗;
(5.3)对所述规则模型清洗的数据存储,导出排查和优化所述规则模型的分析规则;
(5.4)导出未清洗的数据进行训练所述规则模型,并优化所述规则模型。
在一个实施例中,所述步骤(6),包括:
(6.1)将所述规则模型输出的数据文本,调用机器学习的算法,进行概率计算,得到权重值;
(6.2)根据权重值判断所述权重值对应的数据是否需要清洗;
(6.3)将所述机器学习的结果和清洗的数据存储,导出排查和优化机器学习规则;
(6.4)导出未清洗的数据进行训练机器学习,并优化机器学习。
第二方面,本发明实施例提供一种基于分布式平台的数据清洗装置,包括:
获取模块,用于通过数据采集,获取大量数据;
生成模块,用于将获取的所述大量数据,根据预设规则解析,生成标准化的数据;
消重模块,用于将所述标准化数据按照所对应的业务规则生成唯一标识,根据所述唯一标识进行消重处理;
清洗模块,用于将所述消重处理后的数据,进行文本清洗;
分析模块,用于将所述文本清洗后的数据,调用规则模型,进行分析;
确定模块,用于根据所述规则模型输出的数据文本,调用机器学习,进行概率计算,获得权重值;确定所述权重值是否在区间范围内;
存储模块,用于确定当所述权重值不在区间范围内时,将所述文本清洗后的数据存储到数据库。
在一个实施例中,所述获取模块,具体用于根据业务所需,确定采集数据源;根据数据源,确定采集范围、采集规则、采集频率和采集数据的量级,进行数据采集。
在一个实施例中,所述生成模块,具体用于根据适配正则表达式和/或维表配置对获取的所述大量数据,进行数据处理;数据解析处理,生成格式化的JSON数据。
在一个实施例中,所述消重模块,具体用于将所述标准化的数据生成唯一标识,每个数据源提供唯一标识生成规则,通过HASH方式生成ID,通过ID消重;清洗大量重复数据。
在一个实施例中,所述清洗模块,具体用于将消重后的数据进行备份;将消重后的数据,根据文本清洗规则,进行文本清洗;文本清洗的数据存储,导出排查和优化所述文本清洗规则。
在一个实施例中,所述分析模块,具体用于引入规则模型,分析所述文本清洗后的数据;根据业务配置的处理规则,调用所述规则模型,根据所述规则模型反馈的结果,判断算法需要清洗;对所述规则模型清洗的数据存储,导出排查和优化所述规则模型的分析规则;导出未清洗的数据进行训练所述规则模型,并优化所述规则模型。
在一个实施例中,所述确定模块,具体用于将所述规则模型输出的数据文本,调用机器学习的算法,进行概率计算,得到权重值;根据权重值判断所述权重值对应的数据是否需要清洗;将所述机器学习的结果和清洗的数据存储,导出排查和优化机器学习规则;导出未清洗的数据进行训练机器学习,并优化机器学习。
本发明提供的上述技术方案的有益效果至少包括:
本发明提供的上述一种基于分布式平台的数据清洗方法,应用于分布式高效实时处理的系统,通过不断迭代优化满足业务的诉求和清洗的目标,这个过程是交替进行数据探索和规则优化的过程,不断的提高数据质量,解决了以往的集中式处理,无法适应大规模数据运算的问题,充分利用大数据方面的特性完成大数据清洗,并为海量数据分析提供了数据准备,达到满足业务需求的最优,可提高数据清洗性能和处理效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的分布式平台的数据清洗开发的工程方法示意图;
图2为本发明实施例提供的基于分布式平台的数据清洗方法的流程图;
图3为本发明实施例提供的基于分布式平台的数据清洗装置的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的整个数据处理流程都是通过STORM应用组成,每一个步骤都是一个应用,衔接点都是通过KAFKA,存储方式是MONGODB,参照图1所示。其中STORM是一个分布式的、容错的实时计算系统;KAFKA是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据;MONGODB是一个基于分布式文件存储的数据库,支持的数据结构非常松散,是类似json的bson格式,可以存储比较复杂的数据类型。
数据清洗的主要包括:纠正错误、删除重复项、统一规格、修正逻辑、转换构造、数据压缩、补足残缺/空值、丢弃数据/变量等。
本发明实施例提供的基于分布式平台的数据清洗方法,参照图2所示,其包括:
S101、通过数据采集,获取大量数据;比如数据采集,通过集成或者采集,获取大量的数据源,具体的可根据业务需求获取相关的数据源,比如做互联网金融需要整合第三方数据源,大体有工商、快消、车房、电商交易、银行、运营商等等。
S102、将获取的所述大量数据,根据预设规则解析,生成标准化的数据;上述预设处理规则,比如:每个数据来源的字段名称不一致,导致获取数据无法达到统一处理,所以将每个数据源的数据字段做映射关系,定义一种数据类型,统一映射成这个类型,便于后续流程处理格式保存一致。
S103、将所述标准化数据按照所对应的业务规则生成唯一标识,根据所述唯一标识进行消重处理;其中,业务规则可由业务项目所提供,还可以是大数据量下训练规则。
S104、将所述消重处理后的数据,进行文本清洗;
S105、将所述文本清洗后的数据,调用规则模型,进行分析。将文本去噪后的数据,通过大量的文本,训练规则模型,规则模型是可配置的,包含正则表达式,关键词,分词等等一系列处理规则,调用规则模型,进行分析。
S106、根据所述规则模型输出的数据文本,调用机器学习,进行概率计算,获得权重值;确定所述权重值是否在区间范围内。模型输出结果后,将数据文本调用机器学习,获取结果,计算权重和概率,通过算法公式获取区间值,根据计算的结果匹配区间值判断数据是否需要清洗,例如:机器学习结果为0.9,而根据算法得到的区间值为1.1~1.3,那么不符合在这个区间的值,文本就不需要分析。
S107、确定当所述权重值不在区间范围内时,将所述文本清洗后的数据存储到数据库。对清洗后的数据可存储到数据库(MONGODB)。
本实施例提供的清洗方法应用于分布式高效实时处理的系统,分布式处理数据清洗,用于大数据量级的数据清洗,通过使用分布式处理的方式来解决性能、量级等问题,达到快速处理和实时响应的诉求;通过不断迭代优化满足业务的诉求和清洗的目标,这个过程是交替进行数据探索和规则优化的过程,不断的提高数据质量,解决了以往的集中式处理,无法适应大规模数据运算的问题,充分利用大数据方面的特性完成大数据清洗,并为海量数据分析提供了数据准备,达到满足业务需求的最优,可提高数据清洗性能和处理效率。
本实施例中,可实施多人协作进行数据清洗开发,对于一个复杂的文本数据清洗项目,文本、规则模型和机器学习等等规则少则几百个,多则成千上万。如此复杂的数据清洗开发工作需要由一个团队多人共同完成,按照本实施例提供的清洗方法,可以根据清洗阶段进行规则开发分工,不同的人负责不同的清洗步骤,从而实现并行协作开发,提高项目的开发效率和交付效率。
下面分别对上述基于分布式平台的数据清洗方法各步骤进行详细说明。
上述步骤S101即步骤(1),包括:
(1.1)根据业务所需,确定采集数据源;
(1.2)根据数据源,确定采集范围、采集规则、采集频率和采集数据的量级,进行数据采集。
比如数据来源的网站、或是web上的数据,也可以是第三方提供的集成数据源等等。当确定采集数据源后,根据数据源的具体情况,再确定采集范围、采集规则、频率和数据的量级。
上述述步骤S102,包括:
(2.1)根据适配正则表达式和/或维表配置对获取的所述大量数据,进行数据处理;
(2.2)数据解析处理,生成格式化的JSON数据。
其中数据解析,比如对特殊字符的处理,数据编码的转换等等,解析处理后,生成统一格式的数据,比如可以是XML数据,也可以是JSON数据;XML天生有很好的扩展性,是规范的标签形式;JSON是简易的语法,在Javascript主场作战,可以存储Javascript复合对象,是一种轻量级的数据交换格式。统一格式是为了消除不同属性或样方间的不齐性,便于进一步的数据清洗。
上述步骤S103,包括:
(3.1)将所述标准化的数据生成唯一标识,每个数据源提供唯一标识生成规则,通过HASH方式生成ID,通过ID消重;
(3.2)清洗大量重复数据;重复数据不需要再进行处理。
上述步骤S104,包括:
(4.1)将消重后的数据进行备份;主要作用于续流程优化可以刷新历史数据,从而达到数据清洗程度最大化。
(4.2)将消重后的数据,根据文本清洗规则,进行文本清洗;文本清洗规则由业务提供。其中,文本清洗规则比如:不包含简体中文,文本全部字符重复等等一系列规则。
(4.3)将文本清洗的数据存储,并导出排查和优化所述文本清洗规则。
上述步骤S105,包括:
(5.1)引入规则模型,分析所述文本清洗后的数据;引入规则模型分析当前文本,规则由业务定义,比如:在规则模型中配置了黑名单识别规则,文本经过规则模型时,命中了黑名单信息,那么不需要对命中黑名单的文本进行分析,只需要配置黑名单信息,即可生效。
(5.2)根据业务配置的处理规则,调用所述规则模型,根据所述规则模型反馈的结果,判断数据是否需要清洗;比如根据业务配置的正则表达式,关键词,分词等等一系列处理规则,调用规则模型出来结果,根据反馈的结果,判断数据是否需要进行清洗。
(5.3)对所述规则模型清洗的数据存储,导出排查和优化所述规则模型的分析规则;
(5.4)导出未清洗的数据进行训练所述规则模型,并优化所述规则模型。
上述步骤S106,包括:
(6.1)将所述规则模型输出的数据文本,调用机器学习的算法,进行概率计算,得到权重值;
(6.2)根据权重值判断所述权重值对应的数据是否需要清洗;
(6.3)将所述机器学习的结果和清洗的数据存储,导出排查和优化机器学习规则;
(6.4)导出未清洗的数据进行训练机器学习,并优化机器学习。
将模型清洗的数据,调用机器学习的算法,进行概率计算,得到权重值;通过权重值判断当前数据是否需要清洗;机器学习的结果和清洗的数据需要存储,定时导出排查和优化机器学习规则,定时导出未清洗的数据进行训练机器学习,并优化机器学习。
获取清洗完成的数据,并存储,可导出或展示给业务使用。本实施例提供的基于分布式平台的数据清洗方法,通过不断迭代优化满足业务的诉求和清洗的目标,这个过程是交替进行数据探索和规则优化的过程,不断的提高数据质量,达到满足业务需求的最优,可提高数据清洗性能和处理效率。
进一步地,本实施例提供的基于分布式平台的数据清洗方法,应用于分布式高效实时处理的系统,该系统应用层包括数据解析模块、数据消重模块、文本规则清洗模块、ECC数据分析模块、机器学习、概率计算与实体查询模块,处理层通过APACHE_STORM结合KAFKA进行实时处理,通过对数据的规则解析、数据唯一索引的生成、大量数据重复记录消重、文本规则的清洗,利用了STORM的分布式实时计算的特性,可以快速响应客户的诉求。存储层利用MONGODB提供的分布式文件存储系统,对STORM处理数据清洗过程中产生的结构化数据记录、相似数据记录对、清洗结果进行存储、概率计算与实体查询。本发明提供的基于分布式平台的数据清洗方法,解决了以往的集中式处理,无法适应大规模数据运算的问题,充分利用大数据方面的特性完成大数据清洗,并为海量数据分析提供了数据准备。
基于同一发明构思,本发明实施例提供一种基于分布式平台的数据清洗装置,参照图3所示,包括:
获取模块31,用于通过数据采集,获取大量数据;
生成模块32,用于将获取的所述大量数据,根据预设规则解析,生成标准化的数据;
消重模块33,用于将所述标准化数据按照所对应的业务规则生成唯一标识,根据所述唯一标识进行消重处理;
清洗模块34,用于将所述消重处理后的数据,进行文本清洗;
分析模块35,用于将所述文本清洗后的数据,调用规则模型,进行分析;
确定模块36,用于根据所述规则模型输出的数据文本,调用机器学习,进行概率计算,获得权重值;确定所述权重值是否在区间范围内;
存储模块37,用于确定当所述权重值不在区间范围内时,将所述文本清洗后的数据存储到数据库。
在一个实施例中,所述获取模块31,具体用于根据业务所需,确定采集数据源;根据数据源,确定采集范围、采集规则、采集频率和采集数据的量级,进行数据采集。
在一个实施例中,所述生成模块32,具体用于根据适配正则表达式和/或维表配置对获取的所述大量数据,进行数据处理;数据解析处理,生成格式化的JSON数据。
在一个实施例中,所述消重模块33,具体用于将所述标准化的数据生成唯一标识,每个数据源提供唯一标识生成规则,通过HASH方式生成ID,通过ID消重;清洗大量重复数据。
在一个实施例中,所述清洗模块34,具体用于将消重后的数据进行备份;将消重后的数据,根据文本清洗规则,进行文本清洗;文本清洗的数据存储,导出排查和优化所述文本清洗规则。
在一个实施例中,所述分析模块35,具体用于引入规则模型,分析所述文本清洗后的数据;根据业务配置的处理规则,调用所述规则模型,根据所述规则模型反馈的结果,判断算法需要清洗;对所述规则模型清洗的数据存储,导出排查和优化所述规则模型的分析规则;导出未清洗的数据进行训练所述规则模型,并优化所述规则模型。
在一个实施例中,所述确定模块36,具体用于将所述规则模型输出的数据文本,调用机器学习的算法,进行概率计算,得到权重值;根据权重值判断所述权重值对应的数据是否需要清洗;将所述机器学习的结果和清洗的数据存储,导出排查和优化机器学习规则;导出未清洗的数据进行训练机器学习,并优化机器学习。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种基于分布式平台的数据清洗方法,其特征在于,包括步骤:
(1)通过数据采集,获取大量数据;
(2)将获取的所述大量数据,根据预设规则解析,生成标准化的数据;
(3)将所述标准化数据按照所对应的业务规则生成唯一标识,根据所述唯一标识进行消重处理;
(4)将所述消重处理后的数据,进行文本清洗;
(5)将所述文本清洗后的数据,调用规则模型,进行分析;
(6)根据所述规则模型输出的数据文本,调用机器学习,进行概率计算,获得权重值;确定所述权重值是否在区间范围内;
(7)确定当所述权重值不在区间范围内时,将所述文本清洗后的数据存储到数据库。
2.如权利要求1所述的基于分布式平台的数据清洗方法,其特征在于,所述步骤(1),包括:
(1.1)根据业务所需,确定采集数据源;
(1.2)根据数据源,确定采集范围、采集规则、采集频率和采集数据的量级,进行数据采集。
3.如权利要求1所述的基于分布式平台的数据清洗方法,其特征在于,所述步骤(2),包括:
(2.1)根据适配正则表达式和/或维表配置对获取的所述大量数据进行数据处理;
(2.2)数据解析处理,生成格式化的JSON数据。
4.如权利要求1所述的基于分布式平台的数据清洗方法,其特征在于,所述步骤(3),包括:
(3.1)将所述标准化的数据生成唯一标识,每个数据源提供唯一标识生成规则,通过HASH方式生成ID,通过ID消重;
(3.2)清洗大量重复数据。
5.如权利要求1所述的基于分布式平台的数据清洗方法,其特征在于,所述步骤(4),包括:
(4.1)将消重后的数据进行备份;
(4.2)将消重后的数据,根据文本清洗规则,进行文本清洗;
(4.3)将文本清洗的数据存储,并导出排查和优化所述文本清洗规则。
6.如权利要求1所述的基于分布式平台的数据清洗方法,其特征在于,所述步骤(5),包括:
(5.1)引入规则模型,分析所述文本清洗后的数据;
(5.2)根据业务配置的处理规则,调用所述规则模型,根据所述规则模型反馈的结果,判断数据是否需要清洗;
(5.3)对所述规则模型清洗的数据存储,导出排查和优化所述规则模型的分析规则;
(5.4)导出未清洗的数据进行训练所述规则模型,并优化所述规则模型。
7.如权利要求1-5任一项所述的基于分布式平台的数据清洗方法,其特征在于,所述步骤(6),包括:
(6.1)将所述规则模型输出的数据文本,调用机器学习的算法,进行概率计算,得到权重值;
(6.2)根据权重值判断所述权重值对应的数据是否需要清洗;
(6.3)将所述机器学习的结果和清洗的数据存储,导出排查和优化机器学习规则;
(6.4)导出未清洗的数据进行训练机器学习,并优化机器学习。
8.一种基于分布式平台的数据清洗装置,其特征在于,包括:
获取模块,用于通过数据采集,获取大量数据;
生成模块,用于将获取的所述大量数据,根据预设规则解析,生成标准化的数据;
消重模块,用于将所述标准化数据按照所对应的业务规则生成唯一标识,根据所述唯一标识进行消重处理;
清洗模块,用于将所述消重处理后的数据,进行文本清洗;
分析模块,用于将所述文本清洗后的数据,调用规则模型,进行分析;
确定模块,用于根据所述规则模型输出的数据文本,调用机器学习,进行概率计算,获得权重值;确定所述权重值是否在区间范围内;
存储模块,用于确定当所述权重值不在区间范围内时,将所述文本清洗后的数据存储到数据库。
9.如权利要求8所述的基于分布式平台的数据清洗装置,其特征在于,所述获取模块,具体用于根据业务所需,确定采集数据源;根据数据源,确定采集范围、采集规则、采集频率和采集数据的量级,进行数据采集。
10.如权利要求8所述的基于分布式平台的数据清洗装置,其特征在于,所述生成模块,具体用于根据适配正则表达式和/或维表配置对获取的所述大量数据,进行数据处理;数据解析处理,生成格式化的JSON数据。
11.如权利要求8所述的基于分布式平台的数据清洗装置,其特征在于,所述消重模块,具体用于将所述标准化的数据生成唯一标识,每个数据源提供唯一标识生成规则,通过HASH方式生成ID,通过ID消重;清洗大量重复数据。
CN201711474717.XA 2017-12-29 2017-12-29 一种基于分布式平台的数据清洗方法及装置 Active CN108052665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711474717.XA CN108052665B (zh) 2017-12-29 2017-12-29 一种基于分布式平台的数据清洗方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711474717.XA CN108052665B (zh) 2017-12-29 2017-12-29 一种基于分布式平台的数据清洗方法及装置

Publications (2)

Publication Number Publication Date
CN108052665A true CN108052665A (zh) 2018-05-18
CN108052665B CN108052665B (zh) 2020-05-05

Family

ID=62128921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711474717.XA Active CN108052665B (zh) 2017-12-29 2017-12-29 一种基于分布式平台的数据清洗方法及装置

Country Status (1)

Country Link
CN (1) CN108052665B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984708A (zh) * 2018-07-06 2018-12-11 蔚来汽车有限公司 脏数据识别方法及装置、数据清洗方法及装置、控制器
CN109299183A (zh) * 2018-11-20 2019-02-01 北京锐安科技有限公司 一种数据处理方法、装置、终端设备和存储介质
CN109299233A (zh) * 2018-09-19 2019-02-01 平安科技(深圳)有限公司 文本数据处理方法、装置、计算机设备及存储介质
CN110569238A (zh) * 2019-09-12 2019-12-13 成都中科大旗软件股份有限公司 一种基于大数据的数据治理方法、系统、存储介质和服务端
CN110618978A (zh) * 2019-09-20 2019-12-27 南京信同诚信息技术有限公司 一种云系统集成和存储系统及方法
CN110659276A (zh) * 2019-09-25 2020-01-07 江苏医健大数据保护与开发有限公司 一种计算机数据统计系统及其统计分类方法
CN110718275A (zh) * 2019-09-22 2020-01-21 南京信易达计算技术有限公司 一种材料科学计算容器包系统及方法
CN110990388A (zh) * 2019-11-29 2020-04-10 东软睿驰汽车技术(沈阳)有限公司 一种数据处理方法及装置
CN111339081A (zh) * 2020-02-10 2020-06-26 山东海联讯信息科技有限公司 一种异构数据库库表目录的自动采集方法及系统
CN111367969A (zh) * 2020-03-19 2020-07-03 北京三维天地科技股份有限公司 一种数据挖掘方法和系统
CN112019869A (zh) * 2020-08-21 2020-12-01 广州欢网科技有限责任公司 一种直播数据处理方法和装置
CN112115127A (zh) * 2020-09-09 2020-12-22 陕西云基华海信息技术有限公司 一种基于python脚本的分布式大数据清洗方法
CN112612761A (zh) * 2020-12-16 2021-04-06 北京锐安科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN112631755A (zh) * 2020-12-30 2021-04-09 上海高顿教育科技有限公司 一种基于事件流驱动的数据清洗方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793721A (zh) * 2014-03-04 2014-05-14 武汉大学 一种基于区域相关反馈的行人重识别方法及系统
CN105847063A (zh) * 2016-05-12 2016-08-10 中国联合网络通信集团有限公司 核心网数据管理方法和系统
CN106446267A (zh) * 2016-10-19 2017-02-22 江苏电力信息技术有限公司 基于大数据的人力资源信息可视化展现平台及使用方法
CN107239892A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 基于大数据的区域人才供需平衡量化分析方法
CN107516135A (zh) * 2017-07-14 2017-12-26 浙江大学 一种支持多源数据的自动化监督性学习方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793721A (zh) * 2014-03-04 2014-05-14 武汉大学 一种基于区域相关反馈的行人重识别方法及系统
CN105847063A (zh) * 2016-05-12 2016-08-10 中国联合网络通信集团有限公司 核心网数据管理方法和系统
CN106446267A (zh) * 2016-10-19 2017-02-22 江苏电力信息技术有限公司 基于大数据的人力资源信息可视化展现平台及使用方法
CN107239892A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 基于大数据的区域人才供需平衡量化分析方法
CN107516135A (zh) * 2017-07-14 2017-12-26 浙江大学 一种支持多源数据的自动化监督性学习方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984708B (zh) * 2018-07-06 2022-02-01 蔚来(安徽)控股有限公司 脏数据识别方法及装置、数据清洗方法及装置、控制器
CN108984708A (zh) * 2018-07-06 2018-12-11 蔚来汽车有限公司 脏数据识别方法及装置、数据清洗方法及装置、控制器
CN109299233A (zh) * 2018-09-19 2019-02-01 平安科技(深圳)有限公司 文本数据处理方法、装置、计算机设备及存储介质
CN109299233B (zh) * 2018-09-19 2024-03-01 平安科技(深圳)有限公司 文本数据处理方法、装置、计算机设备及存储介质
CN109299183A (zh) * 2018-11-20 2019-02-01 北京锐安科技有限公司 一种数据处理方法、装置、终端设备和存储介质
CN110569238A (zh) * 2019-09-12 2019-12-13 成都中科大旗软件股份有限公司 一种基于大数据的数据治理方法、系统、存储介质和服务端
CN110569238B (zh) * 2019-09-12 2023-03-24 成都中科大旗软件股份有限公司 一种基于大数据的数据治理方法、系统、存储介质和服务端
CN110618978A (zh) * 2019-09-20 2019-12-27 南京信同诚信息技术有限公司 一种云系统集成和存储系统及方法
CN110718275A (zh) * 2019-09-22 2020-01-21 南京信易达计算技术有限公司 一种材料科学计算容器包系统及方法
CN110659276A (zh) * 2019-09-25 2020-01-07 江苏医健大数据保护与开发有限公司 一种计算机数据统计系统及其统计分类方法
CN110990388A (zh) * 2019-11-29 2020-04-10 东软睿驰汽车技术(沈阳)有限公司 一种数据处理方法及装置
CN111339081A (zh) * 2020-02-10 2020-06-26 山东海联讯信息科技有限公司 一种异构数据库库表目录的自动采集方法及系统
CN111367969B (zh) * 2020-03-19 2020-12-01 北京三维天地科技股份有限公司 一种数据挖掘方法和系统
CN111367969A (zh) * 2020-03-19 2020-07-03 北京三维天地科技股份有限公司 一种数据挖掘方法和系统
CN112019869A (zh) * 2020-08-21 2020-12-01 广州欢网科技有限责任公司 一种直播数据处理方法和装置
CN112019869B (zh) * 2020-08-21 2022-04-22 广州欢网科技有限责任公司 一种直播数据处理方法和装置
CN112115127A (zh) * 2020-09-09 2020-12-22 陕西云基华海信息技术有限公司 一种基于python脚本的分布式大数据清洗方法
CN112115127B (zh) * 2020-09-09 2023-03-03 陕西云基华海信息技术有限公司 一种基于python脚本的分布式大数据清洗方法
CN112612761A (zh) * 2020-12-16 2021-04-06 北京锐安科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN112612761B (zh) * 2020-12-16 2024-01-30 北京锐安科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN112631755A (zh) * 2020-12-30 2021-04-09 上海高顿教育科技有限公司 一种基于事件流驱动的数据清洗方法和装置

Also Published As

Publication number Publication date
CN108052665B (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN108052665A (zh) 一种基于分布式平台的数据清洗方法及装置
Arbesser et al. Visplause: Visual data quality assessment of many time series using plausibility checks
WO2016101628A1 (zh) 一种数据建模中的数据处理方法及装置
CN104112026B (zh) 一种短信文本分类方法及系统
CN109255440B (zh) 基于递归神经网络(rnn)的对电力生产设备进行预测性维护的方法
CN109947916B (zh) 基于气象领域知识图谱的问答系统装置及问答方法
CN106649890A (zh) 数据存储方法和装置
CN105335496A (zh) 基于余弦相似度文本挖掘算法的客服重复来电处理方法
CN106326585A (zh) 基于贝叶斯网络推理的预测分析方法以及装置
CN106157156A (zh) 一种基于用户社区的协作推荐系统
CN105389341A (zh) 一种客服电话重复来电工单的文本聚类与分析方法
CN106557558A (zh) 一种数据分析方法及装置
Sun et al. Visibility graph network analysis of natural gas price: The case of North American market
CN102609501A (zh) 一种基于实时历史数据库的数据清洗方法
Guyet et al. Incremental mining of frequent serial episodes considering multiple occurrences
CN112634004B (zh) 征信数据的血缘图谱分析方法与系统
CN103353895A (zh) 一种配电网线损数据的预处理方法
CN107766943A (zh) 一种cps环境下的知识构件自动化交互方法
CN113312058A (zh) 一种智能合约二进制函数的相似性分析方法
CN110309578B (zh) 一种基于计算机数据处理的经济数据拟合系统及方法
Schosser Tensor extrapolation: Forecasting large-scale relational data
US20170046387A1 (en) Method and apparatus for querying nondeterministic graph
CN111768282B (zh) 数据分析方法、装置、设备及存储介质
CN114511174A (zh) 一种业务指标图谱构建方法及装置
CN112950279A (zh) 基于机器学习的精准营销策略模型构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant