CN108052665A

CN108052665A - 一种基于分布式平台的数据清洗方法及装置

Info

Publication number: CN108052665A
Application number: CN201711474717.XA
Authority: CN
Inventors: 陈建江
Original assignee: Shenzhen Zhongyi Technology Co Ltd
Current assignee: Shenzhen Zhongyi Technology Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-05-18
Anticipated expiration: 2037-12-29
Also published as: CN108052665B

Abstract

本发明公开了一种基于分布式平台的数据清洗方法及装置，该方法应用于分布式高效实时处理的系统，用于大数据量级的数据清洗，通过使用分布式处理的方式来解决性能、量级等问题，达到快速处理和实时响应的诉求；通过不断迭代优化满足业务的诉求和清洗的目标，这个过程是交替进行数据探索和规则优化的过程，不断的提高数据质量，解决了以往的集中式处理，无法适应大规模数据运算的问题，充分利用大数据方面的特性完成大数据清洗，并为海量数据分析提供了数据准备，达到满足业务需求的最优，可提高数据清洗性能和处理效率。

Description

一种基于分布式平台的数据清洗方法及装置

技术领域

本发明涉及大数据处理领域，特别涉及一种基于分布式平台的数据清洗方法及装置。

背景技术

数据清洗(Data cleaning)–对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。分布式平台的数据清洗开发，使用STORM、ZOOKEEPER、KAFKA和MONGODB等一系列分布式架构组成数据清洗系统，STORM可以分布式实时计算和处理，KAFKA是一个分布式消息系统，TB级以上数据也能保证正常时间的访问性能、高吞吐率，支持消息分区，及分布式消费，同时也支持离线数据处理和实时数据处理，MONGODB是基于分布式文件存储的开源数据库系统，提供可扩展的高性能数据存储

但是现有技术中数据清洗往往无法适应大规模数据运算，性能慢、处理效率低，且无法到达实时展示。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于分布式平台的数据清洗方法及装置。

第一方面，本发明提供一种基于分布式平台的数据清洗方法，包括：(1)通过数据采集，获取大量数据；

(2)将获取的所述大量数据，根据预设规则解析，生成标准化的数据；

(3)将所述标准化数据按照所对应的业务规则生成唯一标识，根据所述唯一标识进行消重处理；

(4)将所述消重处理后的数据，进行文本清洗；

(5)将所述文本清洗后的数据，调用规则模型，进行分析；

(6)根据所述规则模型输出的数据文本，调用机器学习，进行概率计算，获得权重值；确定所述权重值是否在区间范围内；

(7)确定当所述权重值不在区间范围内时，将所述文本清洗后的数据存储到数据库。

在一个实施例中，所述步骤(1)，包括：

(1.1)根据业务所需，确定采集数据源；

(1.2)根据数据源，确定采集范围、采集规则、采集频率和采集数据的量级，进行数据采集。

在一个实施例中，所述步骤(2)，包括：

(2.1)根据适配正则表达式和/或维表配置对获取的所述大量数据，进行数据处理；

(2.2)数据解析处理，生成格式化的JSON数据。

在一个实施例中，所述步骤(3)，包括：

(3.1)将所述标准化的数据生成唯一标识，每个数据源提供唯一标识生成规则，通过HASH方式生成ID，通过ID消重；

(3.2)清洗大量重复数据。

在一个实施例中，所述步骤(4)，包括：

(4.1)将消重后的数据进行备份；

(4.2)将消重后的数据，根据文本清洗规则，进行文本清洗；

(4.3)将文本清洗的数据存储，并导出排查和优化所述文本清洗规则。

在一个实施例中，所述步骤(5)，包括：

(5.1)引入规则模型，分析所述文本清洗后的数据；

(5.2)根据业务配置的处理规则，调用所述规则模型，根据所述规则模型反馈的结果，判断数据是否需要清洗；

(5.3)对所述规则模型清洗的数据存储，导出排查和优化所述规则模型的分析规则；

(5.4)导出未清洗的数据进行训练所述规则模型，并优化所述规则模型。

在一个实施例中，所述步骤(6)，包括：

(6.1)将所述规则模型输出的数据文本，调用机器学习的算法，进行概率计算，得到权重值；

(6.2)根据权重值判断所述权重值对应的数据是否需要清洗；

(6.3)将所述机器学习的结果和清洗的数据存储，导出排查和优化机器学习规则；

(6.4)导出未清洗的数据进行训练机器学习，并优化机器学习。

第二方面，本发明实施例提供一种基于分布式平台的数据清洗装置，包括：

获取模块，用于通过数据采集，获取大量数据；

生成模块，用于将获取的所述大量数据，根据预设规则解析，生成标准化的数据；

消重模块，用于将所述标准化数据按照所对应的业务规则生成唯一标识，根据所述唯一标识进行消重处理；

清洗模块，用于将所述消重处理后的数据，进行文本清洗；

分析模块，用于将所述文本清洗后的数据，调用规则模型，进行分析；

确定模块，用于根据所述规则模型输出的数据文本，调用机器学习，进行概率计算，获得权重值；确定所述权重值是否在区间范围内；

存储模块，用于确定当所述权重值不在区间范围内时，将所述文本清洗后的数据存储到数据库。

在一个实施例中，所述获取模块，具体用于根据业务所需，确定采集数据源；根据数据源，确定采集范围、采集规则、采集频率和采集数据的量级，进行数据采集。

在一个实施例中，所述生成模块，具体用于根据适配正则表达式和/或维表配置对获取的所述大量数据，进行数据处理；数据解析处理，生成格式化的JSON数据。

在一个实施例中，所述消重模块，具体用于将所述标准化的数据生成唯一标识，每个数据源提供唯一标识生成规则，通过HASH方式生成ID，通过ID消重；清洗大量重复数据。

在一个实施例中，所述清洗模块，具体用于将消重后的数据进行备份；将消重后的数据，根据文本清洗规则，进行文本清洗；文本清洗的数据存储，导出排查和优化所述文本清洗规则。

在一个实施例中，所述分析模块，具体用于引入规则模型，分析所述文本清洗后的数据；根据业务配置的处理规则，调用所述规则模型，根据所述规则模型反馈的结果，判断算法需要清洗；对所述规则模型清洗的数据存储，导出排查和优化所述规则模型的分析规则；导出未清洗的数据进行训练所述规则模型，并优化所述规则模型。

在一个实施例中，所述确定模块，具体用于将所述规则模型输出的数据文本，调用机器学习的算法，进行概率计算，得到权重值；根据权重值判断所述权重值对应的数据是否需要清洗；将所述机器学习的结果和清洗的数据存储，导出排查和优化机器学习规则；导出未清洗的数据进行训练机器学习，并优化机器学习。

本发明提供的上述技术方案的有益效果至少包括：

本发明提供的上述一种基于分布式平台的数据清洗方法，应用于分布式高效实时处理的系统，通过不断迭代优化满足业务的诉求和清洗的目标，这个过程是交替进行数据探索和规则优化的过程，不断的提高数据质量，解决了以往的集中式处理，无法适应大规模数据运算的问题，充分利用大数据方面的特性完成大数据清洗，并为海量数据分析提供了数据准备，达到满足业务需求的最优，可提高数据清洗性能和处理效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的分布式平台的数据清洗开发的工程方法示意图；

图2为本发明实施例提供的基于分布式平台的数据清洗方法的流程图；

图3为本发明实施例提供的基于分布式平台的数据清洗装置的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的整个数据处理流程都是通过STORM应用组成，每一个步骤都是一个应用，衔接点都是通过KAFKA，存储方式是MONGODB，参照图1所示。其中STORM是一个分布式的、容错的实时计算系统；KAFKA是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据；MONGODB是一个基于分布式文件存储的数据库，支持的数据结构非常松散，是类似json的bson格式，可以存储比较复杂的数据类型。

数据清洗的主要包括：纠正错误、删除重复项、统一规格、修正逻辑、转换构造、数据压缩、补足残缺/空值、丢弃数据/变量等。

本发明实施例提供的基于分布式平台的数据清洗方法，参照图2所示，其包括：

S101、通过数据采集，获取大量数据；比如数据采集，通过集成或者采集，获取大量的数据源，具体的可根据业务需求获取相关的数据源，比如做互联网金融需要整合第三方数据源，大体有工商、快消、车房、电商交易、银行、运营商等等。

S102、将获取的所述大量数据，根据预设规则解析，生成标准化的数据；上述预设处理规则，比如：每个数据来源的字段名称不一致，导致获取数据无法达到统一处理，所以将每个数据源的数据字段做映射关系，定义一种数据类型，统一映射成这个类型，便于后续流程处理格式保存一致。

S103、将所述标准化数据按照所对应的业务规则生成唯一标识，根据所述唯一标识进行消重处理；其中，业务规则可由业务项目所提供，还可以是大数据量下训练规则。

S104、将所述消重处理后的数据，进行文本清洗；

S105、将所述文本清洗后的数据，调用规则模型，进行分析。将文本去噪后的数据，通过大量的文本，训练规则模型，规则模型是可配置的，包含正则表达式，关键词，分词等等一系列处理规则，调用规则模型，进行分析。

S106、根据所述规则模型输出的数据文本，调用机器学习，进行概率计算，获得权重值；确定所述权重值是否在区间范围内。模型输出结果后，将数据文本调用机器学习，获取结果，计算权重和概率，通过算法公式获取区间值，根据计算的结果匹配区间值判断数据是否需要清洗，例如：机器学习结果为0.9，而根据算法得到的区间值为1.1～1.3，那么不符合在这个区间的值，文本就不需要分析。

S107、确定当所述权重值不在区间范围内时，将所述文本清洗后的数据存储到数据库。对清洗后的数据可存储到数据库(MONGODB)。

本实施例提供的清洗方法应用于分布式高效实时处理的系统，分布式处理数据清洗，用于大数据量级的数据清洗，通过使用分布式处理的方式来解决性能、量级等问题，达到快速处理和实时响应的诉求；通过不断迭代优化满足业务的诉求和清洗的目标，这个过程是交替进行数据探索和规则优化的过程，不断的提高数据质量，解决了以往的集中式处理，无法适应大规模数据运算的问题，充分利用大数据方面的特性完成大数据清洗，并为海量数据分析提供了数据准备，达到满足业务需求的最优，可提高数据清洗性能和处理效率。

本实施例中，可实施多人协作进行数据清洗开发，对于一个复杂的文本数据清洗项目，文本、规则模型和机器学习等等规则少则几百个，多则成千上万。如此复杂的数据清洗开发工作需要由一个团队多人共同完成，按照本实施例提供的清洗方法，可以根据清洗阶段进行规则开发分工，不同的人负责不同的清洗步骤，从而实现并行协作开发，提高项目的开发效率和交付效率。

下面分别对上述基于分布式平台的数据清洗方法各步骤进行详细说明。

上述步骤S101即步骤(1)，包括：

(1.1)根据业务所需，确定采集数据源；

比如数据来源的网站、或是web上的数据，也可以是第三方提供的集成数据源等等。当确定采集数据源后，根据数据源的具体情况，再确定采集范围、采集规则、频率和数据的量级。

上述述步骤S102，包括：

(2.2)数据解析处理，生成格式化的JSON数据。

其中数据解析，比如对特殊字符的处理，数据编码的转换等等，解析处理后，生成统一格式的数据，比如可以是XML数据，也可以是JSON数据；XML天生有很好的扩展性，是规范的标签形式；JSON是简易的语法，在Javascript主场作战，可以存储Javascript复合对象，是一种轻量级的数据交换格式。统一格式是为了消除不同属性或样方间的不齐性，便于进一步的数据清洗。

上述步骤S103，包括：

(3.2)清洗大量重复数据；重复数据不需要再进行处理。

上述步骤S104，包括：

(4.1)将消重后的数据进行备份；主要作用于续流程优化可以刷新历史数据，从而达到数据清洗程度最大化。

(4.2)将消重后的数据，根据文本清洗规则，进行文本清洗；文本清洗规则由业务提供。其中，文本清洗规则比如：不包含简体中文，文本全部字符重复等等一系列规则。

上述步骤S105，包括：

(5.1)引入规则模型，分析所述文本清洗后的数据；引入规则模型分析当前文本，规则由业务定义，比如：在规则模型中配置了黑名单识别规则，文本经过规则模型时，命中了黑名单信息，那么不需要对命中黑名单的文本进行分析，只需要配置黑名单信息，即可生效。

(5.2)根据业务配置的处理规则，调用所述规则模型，根据所述规则模型反馈的结果，判断数据是否需要清洗；比如根据业务配置的正则表达式，关键词，分词等等一系列处理规则，调用规则模型出来结果，根据反馈的结果，判断数据是否需要进行清洗。

上述步骤S106，包括：

(6.2)根据权重值判断所述权重值对应的数据是否需要清洗；

将模型清洗的数据，调用机器学习的算法，进行概率计算，得到权重值；通过权重值判断当前数据是否需要清洗；机器学习的结果和清洗的数据需要存储，定时导出排查和优化机器学习规则，定时导出未清洗的数据进行训练机器学习，并优化机器学习。

获取清洗完成的数据，并存储，可导出或展示给业务使用。本实施例提供的基于分布式平台的数据清洗方法，通过不断迭代优化满足业务的诉求和清洗的目标，这个过程是交替进行数据探索和规则优化的过程，不断的提高数据质量，达到满足业务需求的最优，可提高数据清洗性能和处理效率。

进一步地，本实施例提供的基于分布式平台的数据清洗方法，应用于分布式高效实时处理的系统，该系统应用层包括数据解析模块、数据消重模块、文本规则清洗模块、ECC数据分析模块、机器学习、概率计算与实体查询模块，处理层通过APACHE_STORM结合KAFKA进行实时处理，通过对数据的规则解析、数据唯一索引的生成、大量数据重复记录消重、文本规则的清洗，利用了STORM的分布式实时计算的特性，可以快速响应客户的诉求。存储层利用MONGODB提供的分布式文件存储系统，对STORM处理数据清洗过程中产生的结构化数据记录、相似数据记录对、清洗结果进行存储、概率计算与实体查询。本发明提供的基于分布式平台的数据清洗方法，解决了以往的集中式处理，无法适应大规模数据运算的问题，充分利用大数据方面的特性完成大数据清洗，并为海量数据分析提供了数据准备。

基于同一发明构思，本发明实施例提供一种基于分布式平台的数据清洗装置，参照图3所示，包括：

获取模块31，用于通过数据采集，获取大量数据；

生成模块32，用于将获取的所述大量数据，根据预设规则解析，生成标准化的数据；

消重模块33，用于将所述标准化数据按照所对应的业务规则生成唯一标识，根据所述唯一标识进行消重处理；

清洗模块34，用于将所述消重处理后的数据，进行文本清洗；

分析模块35，用于将所述文本清洗后的数据，调用规则模型，进行分析；

确定模块36，用于根据所述规则模型输出的数据文本，调用机器学习，进行概率计算，获得权重值；确定所述权重值是否在区间范围内；

存储模块37，用于确定当所述权重值不在区间范围内时，将所述文本清洗后的数据存储到数据库。

在一个实施例中，所述获取模块31，具体用于根据业务所需，确定采集数据源；根据数据源，确定采集范围、采集规则、采集频率和采集数据的量级，进行数据采集。

在一个实施例中，所述生成模块32，具体用于根据适配正则表达式和/或维表配置对获取的所述大量数据，进行数据处理；数据解析处理，生成格式化的JSON数据。

在一个实施例中，所述消重模块33，具体用于将所述标准化的数据生成唯一标识，每个数据源提供唯一标识生成规则，通过HASH方式生成ID，通过ID消重；清洗大量重复数据。

在一个实施例中，所述清洗模块34，具体用于将消重后的数据进行备份；将消重后的数据，根据文本清洗规则，进行文本清洗；文本清洗的数据存储，导出排查和优化所述文本清洗规则。

在一个实施例中，所述分析模块35，具体用于引入规则模型，分析所述文本清洗后的数据；根据业务配置的处理规则，调用所述规则模型，根据所述规则模型反馈的结果，判断算法需要清洗；对所述规则模型清洗的数据存储，导出排查和优化所述规则模型的分析规则；导出未清洗的数据进行训练所述规则模型，并优化所述规则模型。

在一个实施例中，所述确定模块36，具体用于将所述规则模型输出的数据文本，调用机器学习的算法，进行概率计算，得到权重值；根据权重值判断所述权重值对应的数据是否需要清洗；将所述机器学习的结果和清洗的数据存储，导出排查和优化机器学习规则；导出未清洗的数据进行训练机器学习，并优化机器学习。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于分布式平台的数据清洗方法，其特征在于，包括步骤：

(1)通过数据采集，获取大量数据；

(4)将所述消重处理后的数据，进行文本清洗；

(5)将所述文本清洗后的数据，调用规则模型，进行分析；

2.如权利要求1所述的基于分布式平台的数据清洗方法，其特征在于，所述步骤(1)，包括：

(1.1)根据业务所需，确定采集数据源；

3.如权利要求1所述的基于分布式平台的数据清洗方法，其特征在于，所述步骤(2)，包括：

(2.1)根据适配正则表达式和/或维表配置对获取的所述大量数据进行数据处理；

(2.2)数据解析处理，生成格式化的JSON数据。

4.如权利要求1所述的基于分布式平台的数据清洗方法，其特征在于，所述步骤(3)，包括：

(3.2)清洗大量重复数据。

5.如权利要求1所述的基于分布式平台的数据清洗方法，其特征在于，所述步骤(4)，包括：

(4.1)将消重后的数据进行备份；

(4.2)将消重后的数据，根据文本清洗规则，进行文本清洗；

6.如权利要求1所述的基于分布式平台的数据清洗方法，其特征在于，所述步骤(5)，包括：

(5.1)引入规则模型，分析所述文本清洗后的数据；

7.如权利要求1-5任一项所述的基于分布式平台的数据清洗方法，其特征在于，所述步骤(6)，包括：

(6.2)根据权重值判断所述权重值对应的数据是否需要清洗；

8.一种基于分布式平台的数据清洗装置，其特征在于，包括：

获取模块，用于通过数据采集，获取大量数据；

清洗模块，用于将所述消重处理后的数据，进行文本清洗；

9.如权利要求8所述的基于分布式平台的数据清洗装置，其特征在于，所述获取模块，具体用于根据业务所需，确定采集数据源；根据数据源，确定采集范围、采集规则、采集频率和采集数据的量级，进行数据采集。

10.如权利要求8所述的基于分布式平台的数据清洗装置，其特征在于，所述生成模块，具体用于根据适配正则表达式和/或维表配置对获取的所述大量数据，进行数据处理；数据解析处理，生成格式化的JSON数据。

11.如权利要求8所述的基于分布式平台的数据清洗装置，其特征在于，所述消重模块，具体用于将所述标准化的数据生成唯一标识，每个数据源提供唯一标识生成规则，通过HASH方式生成ID，通过ID消重；清洗大量重复数据。