CN107229621A

CN107229621A - 差异数据的清洗方法及装置

Info

Publication number: CN107229621A
Application number: CN201610169963.3A
Authority: CN
Inventors: 齐明; 马康; 李少明
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Beijing Founder Electronics Co Ltd
Priority date: 2016-03-23
Filing date: 2016-03-23
Publication date: 2017-10-03
Anticipated expiration: 2036-03-23
Also published as: CN107229621B

Abstract

本发明实施例提供一种差异数据的清洗方法及装置，其中，该方法包括：获取参考数据集中每个第一子数据集的分类属性；从每个待清洗的数据集中获取与所述分类属性相关的数据，生成第一数据集；根据所述第一数据集和所述参考数据集生成第二数据集。本发明实施例提供的差异数据的清洗方法及装置，能够消除差异数据间的差异，统一差异数据的统计口径，提升统计分析结果的准确性。

Description

差异数据的清洗方法及装置

技术领域

本发明实施例涉及数据清洗技术领域，尤其涉及一种差异数据的清洗方法及装置。

背景技术

目前在对多年历史数据进行数据计算、统计分析的时候，通常需要处理多个年份的数据，而多个年份的数据在历年采集的过程中或多或少都存在着统计口径和统计标准不同等问题，这些问题在给统计分析带来诸多不便的同时，还降低了统计分析的准确性。因此，急需一种差异数据的清洗方法，以统一差异数据的统计口径，提升统计分析的准确性。

发明内容

本发明实施例提供一种差异数据的清洗方法及装置，用以消除差异数据间的差异，统一差异数据的统计口径，提升统计分析结果的准确性。

本发明实施例第一方面提供一种差异数据的清洗方法，该方法包括：

获取参考数据集中每个第一子数据集的分类属性；

从每个待清洗的数据集中获取与所述分类属性相关的数据，生成第一数据集；

根据所述第一数据集和所述参考数据集生成第二数据集。

本发明实施例第二方面提供一种差异数据的清洗装置，该装置包括：

第一获取模块，用于获取参考数据集中每个第一子数据集的分类属性；

第二获取模块，用于从每个待清洗的数据集中获取与所述分类属性相关的数据；

生成模块，用于根据所述第二获取模块获得的数据生成第一数据集，并根据所述第一数据集和所述参考数据集生成第二数据集。

本发明实施例提供的差异数据的清洗方法及装置，通过获取参考数据集中每个子数据集的分类属性，并从每个待清洗的数据集中获取与所述分类属性相关的数据，生成第一数据集，从而通过根据所述第一数据集和所述参考数据集生成统计口径统一的第二数据集，消除了差异数据间的差异，统一了差异数据的统计口径，提升了统计分析结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的差异数据的清洗方法的流程示意图；

图2为本发明另一实施例提供的差异数据的清洗方法的流程示意图；

图3为本发明一实施例提供的差异数据的清洗装置的结构示意图；

图4为本发明另一实施例提供的差异数据的清洗装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤的过程或结构的装置不必限于清楚地列出的那些结构或步骤而是可包括没有清楚地列出的或对于这些过程或装置固有的其它步骤或结构。

图1为本发明一实施例提供的差异数据的清洗方法的流程示意图，如图1所示，本实施例提供的方法包括如下步骤：

步骤101、获取参考数据集中每个第一子数据集的分类属性。

本实施例中，参考数据集为预先采集获得的具有某些属性特点的数据的集合。参考数据集中可以包括一个或多个子数据集(即第一子数据集)，每个子数据集对应一个分类属性。

每个分类属性既可以包括分类类别，又可以包括指标类别，也可以同时包括分类类别和指标类别。举例来说，假设一数据集包括分类类别，且该分类类别包括“区域”，则分类属性“区域”对应的子数据集为通过对所述区域下，不同子区域的数据进行采集，并将采集获得的数据和对应的子区域的标识关联存储在所述“区域”对应的存储空间中获得的。

再假设，一数据集中包括指标类别，且该指标类别包括“支出金额”，则分类属性“支出金额”对应的子数据集为通过对各项支出项对应的支出金额进行采集，并将采集获得的支出金额与对应的支出项关联存储在“支出金额”对应的存储空间中获得的。

步骤102、从每个待清洗的数据集中获取与所述分类属性相关的数据，生成第一数据集。

与参考数据集类似的，待清洗的数据集也是预先采集获得的数据集，但是由于各数据在采集过程中数据采集的口径或标准可能存在不同，因此各数据集之间可能存在差异。这里的差异是指各数据集中数据对应的分类属性的差异。但是有些时候各数据集之间又不完全不同，其可能存在某些分类属性相关性较强的数据，这些数据在数据分析处理时可以采用统一口径或标准进行处理。针对这一点本实施例中在数据清洗时，主要是将各待清洗数据集中分类属性与参考数据集中分类属性相关性较小的数据清洗掉，保留与参考数据集中分类属性相关性较大的数据。

进一步的，通过将从各待清洗的数据集中清洗获得的数据合并在一起，形成一个统计口径或标准统一的数据集(即第一数据集)。

步骤103、根据所述第一数据集和所述参考数据集生成第二数据集。

由于参考数据集和各待清洗的数据集均是待统计分析的对象，因此，需要将清洗获得的第一数据集与参考数据集进行合并生成一个统计口径或标准统一的总数据集(即第二数据集)，基于该总数据集的统计口径或标准对该总数据集进行统计分析即可获得准确性较高的分析结果。

本实施例提供的差异数据的清洗方法，通过获取参考数据集中每个子数据集的分类属性，并从每个待清洗的数据集中获取与所述分类属性相关的数据，生成第一数据集，从而通过根据所述第一数据集和所述参考数据集生成统计口径统一的第二数据集，消除了差异数据间的差异，统一了差异数据的统计口径，提升了统计分析结果的准确性。

图2为本发明另一实施例提供的差异数据的清洗方法的流程示意图，如图2所示，本实施例在图1所示实施例的基础上包括以下步骤：

步骤201、获取参考数据集中每个第一子数据集的分类属性。

步骤202、确定每个待清洗数据集中各第二子数据集的分类属性。

具体的，各待清洗数据集中数据的存储方式应为预先约定好的，在对数据清洗前根据预先约定好的存储方式从各待清洗数据集中获取各子数据集(即第二数据集)对应的分类属性。

步骤203、以各个所述第一子数据集的分类属性为目标属性，计算所述目标属性分别与各个所述第二子数据集的分类属性的相关性，若所述第二子数据集的分类属性与所述第一子数据集的分类属性的相关性大于预设阈值，则将所述第二子数据集中的数据与所述第一子数据集的分类属性对应存储，生成中间数据。

具体的，本实施例中每个第二子数据集的分类属性与每个第一数据集的分类属性的相关性，可以根据现有的任一一种相关性算法或几种相关性算法结合的方式进行计算，在这里不做赘述。

进一步的在计算获得每个第二子数据集的分类属性与每个第一子数据集的分类属性的相关性后，将各计算结果与预先设定的阈值进行对比，若计算结果大于预设阈值，则获取该计算结果对应的第二子数据集的数据，并将获得的数据与该计算结果对应的第一子数据集的分类属性关联存储，生成中间数据。若计算结果小于预设阈值，则对该结算结果对应的第二子数据集的数据进行清洗。

步骤204、根据各中间数据生成第一数据集。

具体的，由于各中间数据均是根据参考数据集中各分类属性清洗获得的，因此，通过将各中间数据中对应分类属性相同的中间数据进行合并，即可生成与参考数据集统一统计口径或标准的第一数据集。

步骤205、将所述第一数据集和所述参考数据集中分类属性相同的数据进行合并，生成所述第二数据集。

图3为本发明一实施例提供的差异数据的清洗装置的结构示意图，如图3所示，本实施例提供的差异数据的清洗装置，包括：

第一获取模块10于获取参考数据集中每个第一子数据集的分类属性；

第二获取模块20于从每个待清洗的数据集中获取与所述分类属性相关的数据；

生成模块30于根据所述第二获取模块获得的数据生成第一数据集，并根据所述第一数据集和所述参考数据集生成第二数据集。

其中，分类属性包括分类类别和/或指标类别。

本实施例提供的差异数据的清洗装置，能够用于执行如图1所示的方法，其具体的执行方式和有益效果与图1所示实施例类似，在这里不再赘述。

图4为本发明另一实施例提供的差异数据的清洗装置的结构示意图，如图4所示，在图3所示结构装置的基础上，本实施例中，所述第二获取模块20：

确定子模块201确定每个待清洗数据集中各第二子数据集的分类属性；

处理子模块202以各个所述第一子数据集的分类属性为目标属性，计算所述目标属性分别与各个所述第二子数据集的分类属性的相关性，若所述第二子数据集的分类属性与所述第一子数据集的分类属性的相关性大于预设阈值，则将所述第二子数据集中的数据与所述第一子数据集的分类属性对应存储，生成中间数据；

所述生成模块30具体用于根据各中间数据生成第一数据集。

所述生成模块30具体还用于：

将所述第一数据集和所述参考数据集中分类属性相同的数据进行合并，生成所述第二数据集。

本实施例提供的差异数据的清洗装置，能够用于执行如图2所示的方法，其具体的执行方式和有益效果与图2所示实施例类似，在这里不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种差异数据的清洗方法，其特征在于，包括：

获取参考数据集中每个第一子数据集的分类属性；

根据所述第一数据集和所述参考数据集生成第二数据集。

2.根据权利要求1所述的方法，其特征在于，所述从每个待清洗的数据集中获取与所述分类属性相关的数据，生成第一数据集，包括：

确定每个待清洗数据集中各第二子数据集的分类属性；

以各个所述第一子数据集的分类属性为目标属性，计算所述目标属性分别与各个所述第二子数据集的分类属性的相关性，若所述第二子数据集的分类属性与所述第一子数据集的分类属性的相关性大于预设阈值，则将所述第二子数据集中的数据与所述第一子数据集的分类属性对应存储，生成中间数据；

根据各中间数据生成第一数据集。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一数据集和所述参考数据集生成第二数据集，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述分类属性包括分类类别和/或指标类别。

5.一种差异数据的清洗装置，其特征在于，包括：

6.根据利要求5所述的差异数据的清洗装置，其特征在于，所述第二获取模块包括：

确定子模块，用于确定每个待清洗数据集中各第二子数据集的分类属性；

处理子模块，用于以各个所述第一子数据集的分类属性为目标属性，计算所述目标属性分别与各个所述第二子数据集的分类属性的相关性，若所述第二子数据集的分类属性与所述第一子数据集的分类属性的相关性大于预设阈值，则将所述第二子数据集中的数据与所述第一子数据集的分类属性对应存储，生成中间数据；

所述生成模块，具体用于根据各中间数据生成第一数据集。

7.根据利要求6所述的差异数据的清洗装置，其特征在于，所述生成模块，具体用于：

8.根据权利要求5-7任一项所述的差异数据的清洗装置，其特征在于，所述分类属性包括分类类别和/或指标类别。