CN109800220B

CN109800220B - 一种大数据清洗方法、系统及相关装置

Info

Publication number: CN109800220B
Application number: CN201910085511.0A
Authority: CN
Inventors: 胡晖; 廖建克
Original assignee: Zhejiang Guomao Yunshang Enterprise Service Co ltd
Current assignee: Zhejiang International Trade cloud business Holding Co.,Ltd.
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2020-12-15
Anticipated expiration: 2039-01-29
Also published as: CN109800220A

Abstract

本申请所提供的一种大数据清洗方法，包括：采用与数据来源对应的数据获取方法采集贸易数据；在将贸易数据进行存储后，获取贸易数据中的目标数据；利用分子筛算法对目标数据进行聚合处理，得到清洗后的各个结果集。可见，该方法利用分子筛算法对目标数据进行聚合处理，得到清洗后的各个结果集，也就是说可以将异类值过滤掉，进而提高数据清洗修正的精度。此外，本申请还克服了相关技术中数据清洗颗粒度不够、收敛速度较慢等问题。本申请还提供一种大数据清洗系统、设备及计算机可读存储介质，均具有上述有益效果。

Description

一种大数据清洗方法、系统及相关装置

技术领域

本申请涉及大数据清洗优化技术领域，特别涉及一种大数据清洗方法、系统、设备及计算机可读存储介质。

背景技术

随着大数据技术越来越成熟，在互联网板块中取得巨大的成功，并逐步延伸到传统行业，如电力大数据、工业大数据和贸易大数据等。与互联网相比，行业大数据存在数据量庞大、复杂度和关联度高等特点，想要获得高质量的数据，必须在数据清洗阶段提高数据的质量。不同行业的数据集特征和复杂度有很大的不同，在数据清洗上会有较大差别，没有通用标准，需要根据不同的行业制定不同的清洗策略。

以贸易行业来说，由于缺少行业标准、信息水平低等问题，造成数据清洗的难度很高。具体来看有三方面的原因，一是贸易数据的来源多，可能来自内部ERP系统、政务系统(如海关、工商、税务和国检等)、电力系统、物流系统、仓储系统和海外收结汇平台等；二是贸易数据没有行业标准，以ERP为例，不同的软件提供商流程和数据标准不一样；三是贸易数据质量差，不同业务员录入信息不一样。总的来说，数据量庞大复杂、环节多、数据不规范、不良数据多和非结构化数据难处理等。然而，贸易数据又有一定规律性，如贸易整体流程有其连续性，在时间和空间上有关联度，通过合适处理方法可以被处理及挖掘其价值。

目前，行业大数据清洗的优化策略，主要是借助算法去提升数据集的检测和收敛效率，处理方式多采用模糊聚类、孤立森林算法、邻近算法和神经网络等一种或多种算法组合。这类算法组合在特定的场景下，具有较好的全局收敛性和数据修复准确性。比如孤立森林和神经网络算法的组合，通过孤立森林算法进行特征值的提取及检测异常数据，再借助神经网络算法对异常值进行预判和修正。该组合可以用来处理一些业务模式固定、数据具有连续性等特点的场景，如电力行业数据。然而，利用该种方法进行数据清洗修正精度不高。

因此，如何进行大数据的清洗，能够提高数据清洗修正的精度是本领域技术人员亟需解决的技术问题。

发明内容

本申请的目的是提供一种大数据清洗方法、系统、设备及计算机可读存储介质，能够提高数据清洗修正的精度。

为解决上述技术问题，本申请提供一种大数据清洗方法，包括：

采用与数据来源对应的数据获取方法采集贸易数据；

在将所述贸易数据进行存储后，获取所述贸易数据中的目标数据；

利用分子筛算法对所述目标数据进行聚合处理，得到清洗后的各个结果集。

优选地，所述利用分子筛算法对所述目标数据进行聚合处理，得到清洗后的各个结果集，包括：

将所述目标数据缓存至分布式消息队列集群中，得到队列数据；

对所述队列数据进行前置处理，得到前置数据；

根据所述贸易数据的特性，选取所述前置数据中的独立字段或关联字段作为特征属性，并确定对应的计算规则；

根据所述特征属性和所述计算规则，对所述前置数据进行所述聚合处理，得到清洗后的各个所述结果集。

优选地，所述对所述队列数据进行前置处理，得到前置数据，包括：

对所述队列数据进行重复去除操作、缺失填充操作及数据规范化计算操作，得到所述前置数据。

优选地，得到清洗后的各个结果集之后，还包括：

在获取所述聚合处理中的异类值后，判断所述异类值与所述贸易数据中相应数据是否存在关联；

若是，则利用神经网路算法对所述异类值进行修正，得到修正数据；

将各个所述结果集及所述修正数据存储至分布式存储系统中。

优选地，所述在将所述贸易数据进行存储后，获取所述贸易数据中的目标数据，包括：

将所述贸易数据分为两类，并分别进行结构化存储及分布式存储；

获取进行所述结构化存储的贸易数据中的所述目标数据。

优选地，所述采用与数据来源对应的数据获取方法采集贸易数据，包括：

采用增量数据抽取的形式采集内部业务系统数据。

采用数据解析的方式采集非结构化数据。

本申请还提供一种大数据清洗系统，包括：

贸易数据采集模块，用于采用与数据来源对应的数据获取方法采集贸易数据；

目标数据获取模块，用于在将所述贸易数据进行存储后，获取所述贸易数据中的目标数据；

聚合处理模块，用于利用分子筛算法对所述目标数据进行聚合处理，得到清洗后的各个结果集。

本申请还提供一种设备，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现上述所述的大数据清洗方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的大数据清洗方法的步骤。

本申请所提供的一种大数据清洗方法，包括：采用与数据来源对应的数据获取方法采集贸易数据；在将所述贸易数据进行存储后，获取所述贸易数据中的目标数据；利用分子筛算法对所述目标数据进行聚合处理，得到清洗后的各个结果集。

该方法先是采用与数据来源对应的数据获取方法采集贸易数据，然后在将所述贸易数据进行存储后，获取所述贸易数据中的目标数据，最后利用分子筛算法对所述目标数据进行聚合处理，得到清洗后的各个结果集。可见，该方法利用分子筛算法对所述目标数据进行聚合处理，得到清洗后的各个结果集，也就是说可以将异类值过滤掉，进而提高数据清洗修正的精度。此外，本申请还克服了相关技术中数据清洗颗粒度不够、收敛速度较慢等问题。本申请还提供一种大数据清洗系统、设备及计算机可读存储介质，均具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种大数据清洗方法的流程图；

图2为本申请实施例所提供的一种大数据清洗系统的结构框图。

具体实施方式

本申请的核心是提供一种大数据清洗方法，能够提高数据清洗修正的精度。本申请的另一核心是提供一种大数据清洗系统、设备及计算机可读存储介质。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，行业大数据清洗的优化策略，主要是借助算法去提升数据集的检测和收敛效率，处理方式多采用模糊聚类、孤立森林算法、邻近算法和神经网络等一种或多种算法组合。这类算法组合在特定的场景下，具有较好的全局收敛性和数据修复准确性。比如孤立森林和神经网络算法的组合，通过孤立森林算法进行特征值的提取及检测异常数据，再借助神经网络算法对异常值进行预判和修正。该组合可以用来处理一些业务模式固定、数据具有连续性等特点的场景，如电力行业数据。然而，利用该种方法进行数据清洗修正精度不高。本申请实施例能够提高数据清洗修正的精度，具体请参考图1，图1为本申请实施例所提供的一种大数据清洗方法的流程图，该大数据清洗方法具体包括：

S101、采用与数据来源对应的数据获取方法采集贸易数据；

本申请实施例采用与数据来源对应的数据获取方法采集贸易数据，在此对数据来源不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。由上文可知，数据来源与数据获取方法之间存在着映射关系，在此对映射关系也不做具体限定，应由本领域技术人员根据实际情况作出相应的设定。进一步地，对每种数据来源对应的数据获取方法也不作具体限定，需根据实际情况而定。

进一步地，上述采用与数据来源对应的数据获取方法采集贸易数据，通常包括：采用增量数据抽取(CDC)的形式采集内部业务系统数据。在此对内部业务系统数据不作具体限定，通常包括ERP、财务系统等数据。

进一步地，上述采用与数据来源对应的数据获取方法采集贸易数据，通常包括：采用数据解析的方式采集非结构化数据。在此对非结构化数据不作具体限定，通常包括报关单、提单等数据。此外，对于第三方数据源，通常采用数据接口与数据服务商对接，批量获取数据。在此对第三方数据源也不作具体限定，通常包括工商、税务等数据。

S102、在将贸易数据进行存储后，获取贸易数据中的目标数据；

本申请实施例在将贸易数据进行存储后，获取贸易数据中的目标数据，上述目标数据即为贸易数据中需要进行数据清洗的数据。在此对贸易数据进行存储的方式不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，例如可以是结构化存储，还可以是分布式存储。

进一步地，上述在将贸易数据进行存储后，获取贸易数据中的目标数据，通常包括：将贸易数据分为两类，并分别进行结构化存储及分布式存储；获取进行结构化存储的贸易数据中的目标数据。在此对贸易数据进行分类的分类依据不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，通常依据数据的价值程度对贸易数据进行分类。对于贸易数据中有较高价值且符合结构化存储的数据，通常采用结构化方式存储；对于贸易数据中相对价值不高，且不符合结构化存储的数据，通常采用分布式存储。本申请实施例中目标数据是从上述进行结构化存储的贸易数据中获取，此处目标数据也是需要进行数据清洗的数据。

S103、利用分子筛算法对目标数据进行聚合处理，得到清洗后的各个结果集。

本申请实施例在获取贸易数据中的目标数据后，利用分子筛算法对目标数据进行聚合处理，得到清洗后的各个结果集。在此对结果集的数量不作具体限定，需根据实际情况而定。在此对分子筛算法作个描述：

(1)、在原始数据集合中，定义数据集为：

D＝{D_i,i＝1,2,3,…n}

其中，D_i为数据样本(D_i具有多个维度值)，n对应数据数量；

(2)、对于任意数据D_i，设置初始值为L_i，适应度初始值P_i；

(3)、根据贸易数据特性，选择某个维度作为主维度，设置维度权重w，基础参数C₁、C₂，阀值K；

(4)、将数据集随机划分成X个分组，根据近邻法则，将每个数据样本归入分组；

(5)、根据距离算法，计算出各个分组的中心点和分组；

(6)、根据权重w和离散度计算数据样本的适应度；

(7)、适应度优于P_i，更新P_i的值为当前值；

(8)、当适应度大于阀值K，移出当前分组，根据近邻法则，就近加入新的分组；

(9)、重新计算分组适应度P_g，优于之前的适应度，则更新P_g；

(10)、根据L_i、P_i、P_g和C₁、C₂重新计算位置，重新分组；

(11)、直到达到最优位置，或被划出后无法加入新的分组；

(12)、重复(5)-(11)步，直至所有数据达到(11)步条件为止。

进一步地，上述利用分子筛算法对目标数据进行聚合处理，得到清洗后的各个结果集，通常包括：将目标数据缓存至分布式消息队列集群中，得到队列数据；对队列数据进行前置处理，得到前置数据；根据贸易数据的特性，选取前置数据中的独立字段或关联字段作为特征属性，并确定对应的计算规则；根据特征属性和计算规则，对前置数据进行聚合处理，得到清洗后的各个结果集。在此对前置处理不作具体限定，应由本领域技术人员根据实际情况进行相应的设定，通常至少包括重复去除操作、缺失填充操作及数据规范化计算操作等操作中的一种。此外，上述根据贸易数据的特性选取前置数据中的独立字段或关联字段作为特征属性，即为通过调整分子筛算法相应的参数(设置权重w、基础参数C₁、C₂和阀值K)完成特征值选择和定义过程。

进一步地，上述对队列数据进行前置处理，得到前置数据，通常包括：对队列数据进行重复去除操作、缺失填充操作及数据规范化计算操作，得到前置数据。其中，进行重复去除操作即为将数据中重复内容进行去掉，进行缺失填充操作即为对数据进行初步的填充，将一些明显的内容进行补充，如根据企业名称补充海关编码等，进行数据规范化计算操作即为对数据进行初步计算，对类型是数字型进行计算，并更新数据集。

进一步地，在得到清洗后的各个结果集之后，通常还可以包括：在获取聚合处理中的异类值后，判断异类值与贸易数据中相应数据是否存在关联；若异类值与贸易数据中相应数据存在关联，则利用神经网路算法对异类值进行修正，得到修正数据；将各个结果集及修正数据存储至分布式存储系统中。其中，在数据修正之前需进行数据修正建模，即根据异类值的类别，建立相应的处理模型；在进行数据修正时，利用数据预测及人工干预两种方式进行数据修正，并放入训练模型，提供后续预测的精确度。此外，对于若异类值与贸易数据中相应数据不存在关联这种情况，本申请实施例对后续执行操作不作具体限定，需根据实际情况而定，通常将异类值放入缓存区，待进一步处理。

本申请实施例先是采用与数据来源对应的数据获取方法采集贸易数据，然后在将贸易数据进行存储后，获取贸易数据中的目标数据，最后利用分子筛算法对目标数据进行聚合处理，得到清洗后的各个结果集。可见，该方法利用分子筛算法对目标数据进行聚合处理，得到清洗后的各个结果集，也就是说可以将异类值过滤掉，进而提高数据清洗修正的精度。而且，本申请还克服了相关技术中数据清洗颗粒度不够、收敛速度较慢和异类值修正精度不高等问题。此外，本申请实施例能够增量收集各数据源的数据，并提供标准数据接口，利于后续的扩展；较大的提升了数据筛选的精度和效率；适用于贸易类的数据处理，易于程序处理；提供标准接口，方便后续的数据应用；减少人工干预，降低了人员成本。

下面对本申请实施例提供的一种大数据清洗系统、设备及计算机可读存储介质进行介绍，下文描述的大数据清洗系统、设备及计算机可读存储介质与上文描述的大数据清洗方法可相互对应参照。

请参考图2，图2为本申请实施例所提供的一种大数据清洗系统的结构框图；该大数据清洗系统包括：

贸易数据采集模块201，用于采用与数据来源对应的数据获取方法采集贸易数据；

目标数据获取模块202，用于在将贸易数据进行存储后，获取贸易数据中的目标数据；

聚合处理模块203，用于利用分子筛算法对目标数据进行聚合处理，得到清洗后的各个结果集。

基于上述实施例，本实施例中聚合处理模块203，通常包括：

目标数据缓存单元，用于将目标数据缓存至分布式消息队列集群中，得到队列数据；

前置处理单元，用于对队列数据进行前置处理，得到前置数据；

特征属性及计算规则确定单元，用于根据贸易数据的特性，选取前置数据中的独立字段或关联字段作为特征属性，并确定对应的计算规则；

聚合处理单元，用于根据特征属性和计算规则，对前置数据进行聚合处理，得到清洗后的各个结果集。

基于上述实施例，本实施例中前置处理单元，通常包括：

前置处理子单元，用于对队列数据进行重复去除操作、缺失填充操作及数据规范化计算操作，得到前置数据。

基于上述实施例，本实施例中该大数据清洗系统通常还包括：

关联判断模块，用于在获取聚合处理中的异类值后，判断异类值与贸易数据中相应数据是否存在关联；

异类值修正模块，用于若异类值与贸易数据中相应数据存在关联，则利用神经网路算法对异类值进行修正，得到修正数据；

数据存储模块，用于将各个结果集及修正数据存储至分布式存储系统中。

基于上述实施例，本实施例中目标数据获取模块202，通常包括：

数据分类单元，用于将贸易数据分为两类，并分别进行结构化存储及分布式存储；

目标数据获取单元，用于获取进行结构化存储的贸易数据中的目标数据。

基于上述实施例，本实施例中贸易数据采集模块201，通常包括：

内部业务系统数据采集单元，用于采用增量数据抽取的形式采集内部业务系统数据。

非结构化数据采集单元，用于采用数据解析的方式采集非结构化数据。

本申请还提供一种设备，包括：

存储器和处理器；其中，存储器用于存储计算机程序，处理器用于执行计算机程序时实现上述任意实施例的大数据清洗方法的步骤。

本申请还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任意实施例的大数据清洗方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种大数据清洗方法、系统、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种大数据清洗方法，其特征在于，包括：

采用与数据来源对应的数据获取方法采集贸易数据；

利用分子筛算法对所述目标数据进行聚合处理，得到清洗后的各个结果集；

所述利用分子筛算法对所述目标数据进行聚合处理，得到清洗后的各个结果集，包括：

对所述队列数据进行前置处理，得到前置数据；

2.根据权利要求1所述的大数据清洗方法，其特征在于，所述对所述队列数据进行前置处理，得到前置数据，包括：

3.根据权利要求1所述的大数据清洗方法，其特征在于，得到清洗后的各个结果集之后，还包括：

4.根据权利要求1所述的大数据清洗方法，其特征在于，所述在将所述贸易数据进行存储后，获取所述贸易数据中的目标数据，包括：

获取进行所述结构化存储的贸易数据中的所述目标数据。

5.根据权利要求1所述的大数据清洗方法，其特征在于，所述采用与数据来源对应的数据获取方法采集贸易数据，包括：

采用增量数据抽取的形式采集内部业务系统数据。

6.根据权利要求1所述的大数据清洗方法，其特征在于，所述采用与数据来源对应的数据获取方法采集贸易数据，包括：

采用数据解析的方式采集非结构化数据。

7.一种大数据清洗系统，其特征在于，包括：

聚合处理模块，用于利用分子筛算法对所述目标数据进行聚合处理，得到清洗后的各个结果集；

所述聚合处理模块，包括：

目标数据缓存单元，用于将所述目标数据缓存至分布式消息队列集群中，得到队列数据；

前置处理单元，用于对所述队列数据进行前置处理，得到前置数据；

特征属性及计算规则确定单元，用于根据所述贸易数据的特性，选取所述前置数据中的独立字段或关联字段作为特征属性，并确定对应的计算规则；

聚合处理单元，用于根据所述特征属性和所述计算规则，对所述前置数据进行所述聚合处理，得到清洗后的各个所述结果集。

8.一种计算机设备，其特征在于，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现如权利要求1至6任一项所述的大数据清洗方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的大数据清洗方法的步骤。