CN114116690A

CN114116690A - 数据清洗平台

Info

Publication number: CN114116690A
Application number: CN202111268635.6A
Authority: CN
Inventors: 刘坤
Original assignee: Beijing Yindun Tai'an Network Technology Co ltd
Current assignee: Beijing Yindun Tai'an Network Technology Co ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-03-01

Abstract

本发明提供了一种数据清洗平台，包括：整理模块：用于根据数据属性，对获取的数据进行数据分层处理，获取第一数据；清洗模块：用于检测第一数据类别，获取类别信息，根据所述类别信息将第一数据进行分类清洗，获得第二数据；复核模块：用于对第一数据与第二数据进行匹配验证，获得验证结果；其中，当所述匹配验证不一致时，则进行数据关联；当所述匹配验证一致时，则清洗完成，通过清洗后的复核验证，保证了数据清洗的清洗效果，也提高了数据安全性。

Description

数据清洗平台

技术领域

本发明涉及数据清洗技术领域，特别涉及一种数据清洗平台。

背景技术

目前，数据中心业务为核心的综合性信息化企业越来越多，全国大规模的数据中心产业愈渐增多。数据中心服务作为数据发展的基础，在满足IT行业日益增长的互联网数据中心(IDC)需求的同时，也逐步进军迅速兴起的云计算和物联网领域，逐步打造成国际一流、国内顶尖的数据存储中心，国家机构和企事业单位数据灾备中心，增值信息服务和高新技术应用的孵化、研发、生产基地。涉及专业数据中心机房区、信息外包服务区、核心技术研发区、通信与信息产业创新区、行政办公区、生活配套区等功能区块，数据清洗是整个数据发展必不可少的环节，其对数据的可用性提供了极大地保障。

发明内容

本发明提供一种据清洗平台，用以解决数据庞杂、冗余造成的数据处理难度增高、数据存储占用扩大的情况。

本发明提供了一种据清洗平台，包括：

整理模块：用于根据数据属性，对获取的数据进行数据分层处理，获取第一数据；

清洗模块：用于检测第一数据的类别，获取类别信息，根据所述类别信息将第一数据进行分类清洗，获得第二数据；

复核模块：用于对第一数据与第二数据进行匹配验证，获得验证结果；其中，

当所述匹配验证不一致时，则进行数据关联；

当所述匹配验证一致时，则清洗完成。

作为本技术方案的一种实施例，在于所述整理模块包括：

数据分层单元：用于提取获取数据信息的信息属性，并根据所述信息属性进行分层整理，获取第一数据；其中，

所述信息属性包括：字段释义、数据来源、信息数值、类别信息；

抽样检测单元：用于在第一数据中随机选取预设范围的数据进行分层整理，获取局部第一数据，并与所述第一数据进行校正检测，获取检测结果。

作为本技术方案的一种实施例，在于所述清洗模块包括：

类别检测单元：用于检测第一数据的数据类别，根据所述数据类别将其进行分类清洗，获得第二数据；其中，

所述数据类别包括：缺失值数据、格式数据、逻辑数据、非需求数据；

所述第二数据包括：缺失值数据、格式数据、逻辑校正数据、去值数据。

作为本技术方案的一种实施例，在于所述清洗模块包括：

缺失值清洗单元：用于根据缺失值清洗方法将缺失值部分进行筛选和补充，获取缺失值数据；

格式清洗单元：用于将数据的格式进行标记，获取格式类型，并与数据的数值类型进行对比，判断格式的一致性；其中，

当格式一致时，获取格式数据；

当格式不一致时，对所述数值类型校正到与格式类型一致。

作为本技术方案的一种实施例，在于所述清洗模块还包括：

逻辑清洗单元：用于根据数据的逻辑性对数据进行逻辑校正处理，获取逻辑校正数据；其中，

所述逻辑校正处理包括：去重处理、不合理值校正处理、数据矛盾校正处理；

非需求清洗单元：用于根据初始数值的属性分类检测数据，获取第一非需求值，去除所述第一非需求值，获取去值数据，对所述去值数据进行判断；其中，

当去值数据满足数据的逻辑性和预设的数据大小，则去值成功；

当去值数据不满足数据的逻辑性和预设的数据大小，则删除去值数据。

作为本技术方案的一种实施例，在于所述复核模块包括：

匹配单元：用于根据数据值，对第一数据和第二数据进行匹配；其中，

当第一数据和第二数据的数据值一致时，则匹配成功，进行验证；

当第一数据和第二数据的数据值不一致时，则匹配失败；

验证单元：用于根据数据来源对第一数据值和第二数据值进行相关性验证；其中，

当第一数据和第二数据的数据来源一致时，完成清洗；

当第一数据和第二数据的数据来源不一致时，对数据进行关联，完成清洗。

作为本技术方案的一种实施例，在于所述缺失值清洗方法包括以下步骤：

步骤S1：将数据字段进行分段，并计算字段缺失值比例，确认缺失值范围；

步骤S2：根据缺失值范围，删掉缺失值比例大于预设比例的字段；

步骤S3：根据缺失值大小，对剩下的字段进行缺失内容补充处理，获取缺失值数据。

作为本技术方案的一种实施例，在于数据质量模块，包括：

数据质量检测单元：用于检测数据的质量属性，并进行质量修正；其中，

所述质量属性包括：数据完整性、数据规则性；

质量修正单元包括：数据完整性修正、数据规则修正；其中，

所述数据完整性修正包括：用于确认缺口数据，并判断所述缺口数据的数据属性；其中，

当所述缺口数据为可补全数据时，则对缺口数据进行补全；

当所述缺口数据为不可补全数据时，则去除缺口数据，将所述去除缺口数据转移到预设数据库中；

所述数据规则修正包括：用于根据预设的数据值规则和数据类型规则，检测出不符合预设规则的待处理数据，对所述待处理数据进行规则修正，并进行修正检测；其中

当待处理数据修正成功时，则完成修正；

当待处理数据修正失败时，则进行标记，并进行人工修正。

作为本技术方案的一种实施例，在于所述去重处理还包括：

排序功能：用于对原数据进行筛选，获取重复数据项，判断排序方法，使用所述排序方法对重复数据项进行排序，获取排序数据；其中，

所述排序方法包括：插入排序、冒泡排序、堆排序、归并排序；

所述插入排序包括：用于将获取的原数据进行排序，获取第一排序数据，通过插入所述重复数据项再次进行排序，获取第二排序数据；

计算相似度功能：用于计算第一排序数据和第二排序数据的相似度，根据所述相似度，进行判断；其中，

当所述相似度小于预设相似度，则获取的重复数据项不构成重复数据，可以继续使用；

当所述相似度大于等于预设相似度，则获取的重复数据项构成重复数据，进行去重校正；其中，

所述去重校正包括：将重复数据进行校验，根据校验结果进行校正；其中，

当所述校验结果为重复数据在预设保护范围内时，则对所述重复数据进行备份和人工处理；

当所述校验结果为重复数据不在预设保护范围内时，则对所述重复数据进行删除处理。

作为本技术方案的一种实施例，在于所述数据优化处理模块，包括：

范围筛选单元：用于筛选可进行优化的数据，获取待优化数据，并判断所述待优化数据的范围；

属性筛选单元：用于对待优化数据的数据属性进行判断，筛选出待优化数据属性；

消减单元：用于对待优化属性进行重要度判断，并作出消减处理；其中，

当待优化属性在预设的重要属性组内，则所述待优化属性重要度大于预设的属性重要度，所述待优化属性不可消减；

当待优化属性不在预设的重要属性组内，则所述待优化属性重要度小于预设的属性重要度，消减所述待优化属性；

数据块筛选单元：用于根据数据属性将数据分块，筛选出相同数据属性的数据块，获取初始数据块组；

数据块处理单元：用于根据数据块大小对初始数据块组进行判断，筛选出所述初始数据块组中最小的数据块，用于代替初始数据块组中的其他数据块。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种数据清洗平台的功能图；

图2为本发明实施例中一种数据清洗平台中处理模块的功能图；

图3为本发明实施例中一种数据清洗平台中清洗模块的功能图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如附图1所示，本发明实施例提供了一种数据清洗平台，包括：整理模块、清洗模块、复核模块；其中，整理模块用于根据数据属性，对获取的数据进行数据分层处理，获取第一数据；清洗模块用于检测第一数据的类别，获取类别信息，根据所述类别信息将第一数据进行分类清洗，获得第二数据；复核模块用于对第一数据与第二数据进行匹配验证，获得验证结果；其中，当所述匹配验证不一致时，则进行数据关联；当所述匹配验证一致时，则清洗完成；

上述技术方案的工作原理为：现有技术通过对数据分类之后进行数据清洗；而上述技术方案不同的地方在于，在对数据进行整理清洗之后，还会对数据进行复核，对数据清洗做以更严格的要求；通过根据数据属性对数据进行数据分层处理，获取第一数据；再通过检测第一数据的类别，将第一数据进行分类清洗获得第二数据；将第一数据与第二数据进行匹配验证，验证不一致时把数据相互关联，如果验证一致，那么完成清洗；

上述技术方案的有益效果为：通过对数据进行整理，提高了数据运行的流畅性，提高了数据运行效率，通过分类清洗，使得数据更加准确，而复核模块，更是保障了数据清洗的高效和精准。

在一个实施例中，如附图2所示，所述整理模块包括：数据分层单元、抽样检测单元；其中，数据分层单元用于提取数据信息的信息属性，并根据所述信息属性进行分层整理，获取第一数据；其中信息属性包括：字段释义、数据来源、信息数值、类别信息；抽样检测单元用于在第一数据中随机选取预设范围的数据进行分层整理，获取局部第一数据，并与所述第一数据进行校正检测，获取检测结果；

上述技术方案的工作原理为：与现有技术直接根据数据字段类型分类不同，上述技术方案通过数据分层单元对数据信息属性作了更加详细的分类；通过提取数据信息的字段释义、数据来源、信息数值、类别信息进行分层整理，获取第一数据，在第一数据中随机选取预设范围的数据进行分层整理，获取局部第一数据，与现有技术方案不同的是，上述技术方案将局部第一数据和第一数据进行校正检验，获取校正结果；

上述技术方案的有益效果为：通过数据分层，提高了数据处理的便捷性，通过抽样检测，加强了数据处理的准确性。

在一个实施例中，如附图3所示，所述清洗模块包括：类别检测单元用于检测第一数据的数据类别，根据所述数据类别将其进行分类清洗，获得第二数据；其中，数据类别包括了缺失值数据、格式数据、逻辑数据、非需求数据；第二数据包括了缺失值数据、格式数据、逻辑校正数据、去值数据；

上述技术方案的工作原理为：与现有技术方案通过将数据按照字节类型分类相比，上述技术方案通过类别检测单元检测第一数据的缺失值数据、格式数据、逻辑数据、非需求数据，进行分类清洗；

上述技术方案的有益效果为：通过细致的分类检测最大程度的处理每一个有问题的数据，提高了数据清洗的清洗范围。

在一个实施例中，如附图3所示，所述清洗模块包括：缺失值清洗单、格式清洗单元；其中，缺失值清洗单元用于根据缺失值清洗方法将缺失值部分进行筛选和补充，获取缺失值数据；格式清洗单元用于将数据的格式进行标记，获取格式类型，并与数据的数值类型进行对比，判断格式的一致性；其中，当格式一致时，获取格式数据；当格式不一致时，对所述数值类型校正到与格式类型一致；

在一个具体的实施例中：我们还将获取的缺失值数据进行数据分组，每一分组包含的数据数量为x个，每一分组中x个数据的数据属性共计有y个，其中每一组的数据集合有：

T_m＝{t_m1,t_m2,t_m3,…,t_my,}

m为正整数，t_m1表示第m组数据的第1属性参数；t_my表示第m组数据的第y属性参数；

缺失值部分为通过预先设置的缺失值筛选和补充规则确定，在这个过程中，通过将缺失值数据不规则的部分分为j个部分，计算出填充系数k：

k＝j/x,k>1

根据填充系数k和每一组的数据集合，计算出补充缺失值后数据值t′_mn：

在计算出缺失值补充值t′_mn后，根据缺失值补充前的数据值t_mn和缺失值补充值t′_mn，计算补充值的差值Δp：

根据计算出的补充值差值判断补充值的一致性，完成缺失值补充；

上述技术方案的工作原理为：通过筛选和补充缺失值部分，获取缺失值数据对缺失值进行清洗，通过标记数据的格式获取格式类型，与数值类型进行对比，判断格式的一致性，格式一致时，获取格式数据，不一致时，进行校正；

上述技术方案的有益效果为：通过对缺失值部分的筛选，降低缺失值遗漏率，提高了数据清洗的安全性，通过格式一致性的判断，增强了数据的可用程度。

在一个实施例中，如附图3所示，所述清洗模块还包括：逻辑清洗单元、非需求清洗单元；其中，逻辑清洗单元用于根据数据的逻辑性对数据进行逻辑校正处理，获取逻辑校正数据；其中，逻辑校正处理包括了去重处理、不合理值校正处理、数据矛盾校正处理；非需求清洗单元用于根据初始数值的属性分类检测数据，获取第一非需求值，去除所述第一非需求值，获取去值数据，对所述去值数据进行判断；其中，当去值数据满足数据的逻辑性和预设的数据大小，则去值成功；当去值数据不满足数据的逻辑性和预设的数据大小，则删除去值数据；

上述技术方案的工作原理为：与现有技术方案对数据冗余清洗不同，上述技术方案通过根据数据的逻辑性对数据进行逻辑校正处理，根据初始数值的属性分类检测数据进行去值数据的判断，当满足条件时，去值完成，不满足条件时，删去去值数据；

上述技术方案的有益效果为：通过逻辑清洗单元，减少了逻辑错误数据，保证了数据的可用性，同时通过根据属性分类检测进行去值，也为非需求清洗增强了准确性。

在一个实施例中，所述复核模块包括：匹配单元、验证单元；其中，匹配单元用于根据数据值，对第一数据和第二数据进行匹配；当第一数据和第二数据的数据值一致时，则匹配成功，进行验证；当第一数据和第二数据的数据值不一致时，则匹配失败；验证单元用于根据数据来源对第一数据值和第二数据值进行相关性验证；当第一数据和第二数据的数据来源一致时，完成清洗；当第一数据和第二数据的数据来源不一致时，对数据进行关联，完成清洗；

上述技术方案的工作原理为：与现有技术方案中只是对数据进行清洗就结束不同，上述技术方案通过匹配单元，根据数据值，对第一数据和第二数据进行匹配，第一数据和第二数据的数据值一致时，匹配成功可以验证，验证第一数据和第二数据的数据来源是否一致，不一致时，对数据进行关联，一致时，完成清洗；

上述技术方案的有益效果为：通过对第一数据和第二数据进行匹配提高了复核模块对数据验证的效率，又通过在匹配成功后对数据来源进行验证，提高了清洗的准确性，如果没有验证成功将数据进行关联，也提高了整个数据的可操作性。

在一个实施例中，所述缺失值清洗方法包括以下步骤：步骤S1：将数据字段进行分段，并计算字段缺失值比例，确认缺失值范围；步骤S2：根据缺失值范围，删掉缺失值比例大于预设比例的字段；步骤S3：根据缺失值大小，对剩下的字段进行缺失内容补充处理，获取缺失值数据；

上述技术方案的工作原理为：与现有技术方案相比，上述技术方案对缺失值范围做以限定并通过删掉缺失值比例大于预设比例的字段；通过将数据字段分段，计算字段缺失值比例，确认缺失值范围，根据缺失值范围，删掉缺失值比例大于预设比例的字段，对剩下的字段进行缺失内容补充处理；

上述技术方案的有益效果为：通过将数据字段进行分段，计算字段缺失值比例，提高了数据缺失值清洗的准确性，通过缩小范围，提高了缺失值清洗效率，对剩下字段进行缺失内容补充处理，提高了数据完整性。

在一个实施例中，数据质量模块，包括：数据质量检测单元、质量修正单元；其中，数据质量检测单元用于检测数据的质量属性，并进行质量修正；其中，质量属性包括：数据完整性、数据规则性；质量修正单元包括：数据完整性修正、数据规则修正；数据完整性修正包括：用于确认缺口数据，并判断所述缺口数据的数据属性；当所述缺口数据为可补全数据时，则对缺口数据进行补全；当所述缺口数据为不可补全数据时，则去除缺口数据，将所述去除缺口数据转移到预设数据库中；数据规则修正包括用于根据预设的数据值规则和数据类型规则，检测出不符合预设规则的待处理数据，对所述待处理数据进行规则修正，并进行修正检测；当待处理数据修正成功时，则完成修正；当待处理数据修正失败时，则进行标记，并进行人工修正；

上述技术方案的工作原理为：与现有技术方案中对数据进行清洗，清洗结束后整个程序直接完成不同，上述技术方案，通过检测数据的质量属性，并进行质量修正，根据数据的完整性、数据规则性，确认缺口数据，并判断所述缺口数据的数据属性，缺口数据为可补全数据时，则对缺口数据进行补全，根据预设的数据值规则和数据类型规则，检测出不符合预设规则的待处理数据，进行规则修正和检测；

上述技术方案的有益效果为：通过质量检测，保障了数据的安全性，通过质量属性的判断，减少了质量属性检测步骤，提高了质量检测的效率，而修正检测进一步保证了数据处理结果的准确性。

在一个实施例中，其特征在于，所述去重处理还包括：排序功能用于对原数据进行筛选，获取重复数据项，判断排序方法，使用所述排序方法对重复数据项进行排序，获取排序数据；所述排序方法包括：插入排序、冒泡排序、堆排序、归并排序；插入排序包括：用于将获取的原数据进行排序，获取第一排序数据，通过插入所述重复数据项再次进行排序，获取第二排序数据；计算相似度功能：用于计算第一排序数据和第二排序数据的相似度，根据所述相似度，进行判断；其中，当所述相似度小于预设相似度，则获取的重复数据项不构成重复数据，可以继续使用；当所述相似度大于等于预设相似度，则获取的重复数据项构成重复数据，进行去重校正；其中，所述去重校正包括：将重复数据进行校验，根据校验结果进行校正；其中，当所述校验结果为重复数据在预设保护范围内时，则对所述重复数据进行备份和人工处理；

在一个实施例中：当校验结果为重复数据不在预设保护范围内时，则对所述重复数据进行删除处理；

在这个过程中，会通过第一数据、第二数据与数据属性的关系，计算第一数据与第二数据的匹配度。

会先建立第一数据集合为r＝{r₁,r₂,r₃,…,r_n,}，n表示第一数据集合的数据总量；第二数据集合为f＝{f₁,f₂,f₃,…,f_m,}，m表示第二数据集合的数据总量；数据属性集合为l＝{l,l₂,l₃,…,l_L,}，L表示数据属性总量；，i∈n；b∈m；d∈L；i、b、d均为正整数；，表示个数；w矩阵为数据与数据属性关系矩阵，任意第一数据r都有数据特征为：

其中，根据数据特征计算其属性关系：

判断η_is是否等于η_ds确定属性关系。

在属性关系确定之后，需要进行匹配度计算。

第一数据集合第i个数据在第L个数据属性下的影响权重为λ_iL，第二数据集合第L个数据属性第b个数据的影响权重为ψ_bL，则第一数据与第二数据的匹配度δ_ib：

根据计算出的匹配度δ_β判断数据是否匹配度很高，需要进行去除处理。

上述技术方案的工作原理为：与现有技术方案直接进行数据对比筛选去重相比，上述技术方案通过对数据进行筛选排序，获取重复数据项，判断排序方法，使用所述排序方法对重复数据项进行排序，获取排序数据，排序之后计算排序前后相似度进行判断，如果相似度过大，那么构成重复数据，需要进行去除，去除后还要通过去除校正进行备份和人工处理；

上述技术方案的有益效果为：通过数据对比去重，提高了数据重复判断的准确性，再通过相似度计算判断和去重校正，最大程度的保证了数据的应用性和高精准性，为人们用数据进行判断提供了保障。

在一个实施例中，数据优化处理模块，包括：范围筛选单元用于筛选可进行优化的数据，获取待优化数据，并判断所述待优化数据的范围；属性筛选单元用于对待优化数据的数据属性进行判断，筛选出待优化数据属性；消减单元用于对待优化属性进行重要度判断，并作出消减处理；其中，当待优化属性在预设的重要属性组内，则所述待优化属性重要度大于预设的属性重要度，所述待优化属性不可消减；当待优化属性不在预设的重要属性组内，则所述待优化属性重要度小于预设的属性重要度，消减所述待优化属性；数据块筛选单元：用于根据数据属性将数据分块，筛选出相同数据属性的数据块，获取初始数据块组；数据块处理单元：用于根据数据块大小对初始数据块组进行判断，筛选出所述初始数据块组中最小的数据块，用于代替初始数据块组中的其他数据块；

上述技术方案的工作原理为：与现有技术方案直接对数据进行筛选清洗就完成处理不同，上述技术方案对数据进行了优化处理，通过筛选可进行优化的数据，获取待优化数据，并判断所述待优化数据的范围，对待优化数据的数据属性进行判断，筛选出待优化数据属性，对待优化属性进行重要度判断，并作出消减处理，根据数据属性将数据分块，筛选出相同数据属性的数据块，获取初始数据块组，根据数据块大小进行判断，选用最小的数据块；

上述技术方案的有益效果为：数据优化通过筛选相同作用的数据块，利用小数据块代替大数据库，对整体数据进行瘦身，极大减少了数据占用空间，通过消减细化处理，极大提高优化处理的准确性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据清洗平台，其特征在于包括：

清洗模块：用于检测第一数据类别，获取类别信息，根据所述类别信息将第一数据进行分类清洗，获得第二数据；

当所述匹配验证不一致时，则进行数据关联；

当所述匹配验证一致时，则清洗完成。

2.如权利要求1所述的一种数据清洗平台，其特征在于，所述整理模块包括：

3.如权利要求1所述的一种数据清洗平台，其特征在于，所述清洗模块包括：

4.如权利要求1所述的一种数据清洗平台，其特征在于，所述清洗模块包括：

当格式一致时，获取格式数据；

当格式不一致时，对所述数值类型校正到与格式类型一致。

5.如权利要求1所述的一种数据清洗平台，其特征在于，所述清洗模块还包括：

6.如权利要求1所述的一种数据清洗平台，其特征在于，所述复核模块包括：

当第一数据和第二数据的数据值不一致时，则匹配失败；

当第一数据和第二数据的数据来源一致时，完成清洗；

7.如权利要求4所述的一种数据清洗平台，其特征在于，所述缺失值清洗方法包括以下步骤：

8.如权利要求1所述的一种数据清洗平台，其特征在于数据质量模块，包括：

所述质量属性包括：数据完整性、数据规则性；

当所述缺口数据为可补全数据时，则对缺口数据进行补全；

所述数据规则修正包括：用于根据预设的数据值规则和数据类型规则，检测出不符合预设规则的待处理数据，对所述待处理数据进行规则修正，并进行修正检测；其中，

当待处理数据修正成功时，则完成修正；

当待处理数据修正失败时，则进行标记，并进行人工修正。

9.如权利要求5所述的一种数据清洗平台，其特征在于，所述去重处理还包括：

10.如权利要求1所述的一种数据清洗平台，其特征在于数据优化处理模块，包括：