CN113918555B

CN113918555B - 一种用于提升数据质量的数据治理方法

Info

Publication number: CN113918555B
Application number: CN202111272305.4A
Authority: CN
Inventors: 李勋章; 柯捷; 莫静容; 周慧怡
Original assignee: Guilin University of Aerospace Technology
Current assignee: Guilin University of Aerospace Technology
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2024-05-10
Anticipated expiration: 2041-10-29
Also published as: CN113918555A

Abstract

本发明提供一种用于提升数据质量的数据治理方法，涉及数据治理技术领域，包括以下步骤：采集待治理数据库中的数据表，将采集的数据表按照统一格式转换成标准格式表。本发明通过对数据进行统一的格式转换，使得数据表中不同格式的数据能够统一化处理，依据时效原则，减少了数据处理的数量，能够提升数据处理的速度，通过将具有相同特征的数据进行提取汇总，进行分类处理，能够提高数据处理的相关性，将超过预设阈值的数据剔除，可以实现对赘余数据的处理效果，减少了数据中的误差数据，在数据中补充缺失的数据，使得数据能够保持完整性，同时，还可以对处理后的数据进行验证，进而实现了对数据治理质量的提升。

Description

一种用于提升数据质量的数据治理方法

技术领域

本发明涉及数据治理技术领域，特别的为一种用于提升数据质量的数据治理方法。

背景技术

数据是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的原始素材。随着数据在企业中发挥的作用越来越重要，数据治理已经成为数据处理的重要一项步骤。

在专利申请号为CN202010406901.6的“用于提升数据质量的数据治理方法”的专利中，在说明书中记载有“采集指定数据库表的元数据为当前元数据，并对比当前元数据及预设的有效性规则；其中，当前元数据包括技术元数据和业务元数据；如果当前元数据符合所述有效性规则，则确定当前元数据具有有效性；如果当前元数据不符合所述有效性规则，则指示相应负责人对当前元数据进行修正，确定对当前元数据进行修正得到的元数据为当前元数据，返回执行对比当前元数据及预先设置的有效性规则的步骤，直至确定当前元数据不符合所述有效性规则的次数达到次数阈值为止。从而提升数据质量，实现对数据的有效治理”，在所提供的数据质量方法中，对于数据处理中的赘余数据未进行有效的处理，影响了数据数量的速度和质量，同时，地域与数据中存在的缺失数据未进行有效的补充，使得治理后的数据缺少完整性，进而影响数据使用时的功能性，无法满足使用者对于数据治理质量的要求。

综上所述，研发一种用于提升数据质量的数据治理方法，仍是数据治理技术领域中急需解决的关键问题。

发明内容

本发明提供的了一种用于提升数据质量的数据治理方法，本发明通过对数据进行统一的格式转换，使得数据表中不同格式的数据能够统一化处理，依据时效原则，减少了数据处理的数量，能够提升数据处理的速度，通过对赘余数据的处理效果，减少了数据中的误差数据，在数据中补充缺失的数据，使得数据能够保持完整性，同时，还可以对处理后的数据进行验证，进而实现了对数据治理质量的提升。

为实现以上目的，本发明通过以下技术方案予以实现：一种用于提升数据质量的数据治理方法，包括以下步骤：

(1)采集待治理数据库中的数据表，将采集的数据表按照统一格式转换成标准格式表；

(2)对转换后的标准格式表内的数据依据时效原则，剔除无关数据，获得时效数据；

(3)在获得的时效数据中剔除赘余数据，获得无赘余数据；

(4)在无赘余数据中预估及补充缺失数据；

(5)将步骤(4)中处理后的数据加入数据库，并对数据进行运行验证，将验证结果与预定结果的比值和误差率进行对比，完全数据治理。

本发明进一步设置为：在所述步骤(2)中，所述的时效原则为数据库中的数据处于待治理的时间段内。

本发明进一步设置为：在所述步骤(3)中，所述的剔除赘余数据的方法为：

提取时效数据中具有相同特征的数据X＝(x₁,x₂,x₃,...,x_n)；求取具有相同特征的数据X＝(x₁,x₂,x₃,...,x_n)的平均值将数据X分别与预设的对比阈值W进行对比，若P≤W，则对该数据进行保留，否则将该数据剔除，完成剔除赘余数据。

本发明进一步设置为：所述的相同特征的数据X指用于某一特定属性的采集数据。

本发明进一步设置为：所述的预设的对比阈值W为平均值P的α倍，即 W＝αP，其中α为设定常数。

本发明进一步设置为：在所述步骤S4中，所述的预估及补充缺失数据的方法为：

将k个相连的具有相同特征的数据X做归一化处理；计算获取第i个临近的熵值t_i,计算第i个临近的差异度系数Z_i， Z_i＝1-t_i,(i＝1,2,3,...,k)；求取第i个临近的熵值系数，/>计算出缺失值，将缺失值插入对应的位置。

本发明进一步设置为：所述的归一化处理，其公式为式中，h_i表示第i个相邻项与目标项之间的距离。

本发明进一步设置为：所述的计算出缺失值，其计算公式为其中x_i为k个相连的具有相同特征的数据的集合。

本发明进一步设置为：在所述步骤(5)中，所述的对数据进行运行验证，是指将验证结果与预定结果的比值和误差率进行对比，若误差率在设定误差范围内，则完成数据治理，若误差率在设定误差范围之外，则重复步骤 (1)-(5)。

本发明提供了一种用于提升数据质量的数据治理方法。具备以下有益效果：

本发明通过对数据进行统一的格式转换，使得数据表中不同格式的数据能够统一化处理，依据时效原则，在数据中剔除无效数据，减少了数据处理的数量，能够提升数据处理的速度，通过将具有相同特征的数据进行提取汇总，进行分类处理，能够提高数据处理的相关性，将超过预设阈值的数据剔除，可以实现对赘余数据的处理效果，减少了数据中的误差数据，在数据中补充缺失的数据，使得数据能够保持完整性，同时，还可以对处理后的数据进行验证，进而实现了对数据治理质量的提升。

附图说明

图1为一种用于提升数据质量的数据治理方法的流程图。

具体实施方式

为使本发明实施条例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合实施例对本发明作进一步的描述。

实施例1：

请参照图1所示，图1为一种用于提升数据质量的数据治理方法的流程图，一种用于提升数据质量的数据治理方法，包括以下步骤：

(1)采集待治理数据库中的数据表，将采集的数据表按照统一格式转换成标准格式表。在本步骤中，通过从数据库中采集数据表，并进行格式转换，使得数据表中不同格式的数据能够统一化处理，以便对数据进行处理。

(2)对转换后的标准格式表内的数据依据时效原则，剔除无关数据，获得时效数据。

其中，时效原则为数据库中的数据处于待治理的时间段内。

在本步骤中，时效原则根据所需处理的数据的时间段进行剔除无关数据，将不在处理时间段内的数据剔除，从而能够减少对数据的处理量，提高数据处理的效率。

(3)在获得的时效数据中剔除赘余数据，获得无赘余数据。

其中，剔除赘余数据的方法为：提取时效数据中具有相同特征的数据 X＝(x₁,x₂,x₃,...,x_n)；求取具有相同特征的数据X＝(x₁,x₂,x₃,...,x_n)的平均值将数据X分别与预设的对比阈值W进行对比，若P≤ W，则对该数据进行保留，否则将该数据剔除，完成剔除赘余数据。

进一步的，相同特征的数据X指用于某一特定属性的采集数据。

同时，预设的对比阈值W为平均值P的α倍，即W＝αP，其中α为设定常数。

在本实施例中通过将具有相同特征的数据进行提取汇总，进行分类处理，能够提高数据处理的相关性，求取的平均值能够代表该相同特征数据的共性，平均值与预设的对比阈值之间设定系数，在本实施例中将α设置为 3，即预设的对比阈值为平均值的3倍，将数据中的每一个单独数据与预设的对比阈值进行对比，将超过预设阈值的数据剔除，可以实现对赘余数据的处理效果，减少了数据中的误差数据，进而能够提升数据处理后的质量。

(4)在无赘余数据中预估及补充缺失数据。

其中，预估及补充缺失数据的方法为：将k个相连的具有相同特征的数据X做归一化处理；计算获取第i个临近的熵值t_i,计算第i个临近的差异度系数Z_i，Z_i＝1-t_i,(i＝1,2,3,...,k)；求取第i个临近的熵值系数，计算出缺失值，将缺失值插入对应的位置。

进一步的，归一化处理，其公式为式中，h_i表示第i个相邻项与目标项之间的距离。

同时，计算出缺失值，其计算公式为其中x_i为k个相连的具有相同特征的数据的集合。

在本实施例中，通过对数据进行预估和补充，能够在数据中加入缺失的数据，使得数据更完整，避免由于数据缺失而影响数据的质量，达到对数据治理的效果。

其中，对数据进行运行验证，是指将验证结果与预定结果的比值和误差率进行对比，若误差率在设定误差范围内，则完成数据治理，若误差率在设定误差范围之外，则重复步骤(1)-(5)。

在本步骤中，还可以通过将验证结果与预定结果的比值和误差率进行对比，实现对质量后数据的验证，使得数据处理后能够体现原数据的意义，避免处理后的数据与原数据之间存在代表性误差，保障了数据治理的质量。

实验测试

从数据库中获取待处理的100000个数据，通过实施例中的方法，对 100000个数据进行处理，同时，在未数据进行剔除无关数据、剔除赘余数据以及补充缺失数据的情况下，对相同的100000个数据进行处理作为对比例，对实施例和对比例的处理时间和误差情况分别进行记录，记录相关数据于表1。

表1数据处理实验记录表

由表1中的相关数据可知，本发明能够有效的减少处理时间，同时，还能够保证数据的完整性，输出的数据能够体现采集数据的特性，即能够有效的提升对数据治理的质量。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于提升数据质量的数据治理方法，其特征在于，包括以下步骤：

（1）采集待治理数据库中的数据表，将采集的数据表按照统一格式转换成标准格式表；

（2）对转换后的标准格式表内的数据依据时效原则，剔除无关数据，获得时效数据；

（3）在获得的时效数据中剔除赘余数据，获得无赘余数据；

所述的剔除赘余数据的方法为：

提取时效数据中具有相同特征的数据；求取具有相同特征的数据的平均值/>；将数据X分别与预设的对比阈值W进行对比，若P≤W，则对该数据进行保留，否则将该数据剔除，完成剔除赘余数据；

在无赘余数据中预估及补充缺失数据；

所述的预估及补充缺失数据的方法为：

将k个相连的具有相同特征的数据X做归一化处理；计算获取第i个临近的熵值t_i,；计算第i个临近的差异度系数Z_i，/>；求取第i个临近的熵值系数，/>；计算出缺失值，将缺失值插入对应的位置；

所述的归一化处理，其公式为，式中，h_i表示第i个相邻项与目标项之间的距离；

（5）将步骤（4）中处理后的数据加入数据库，并对数据进行运行验证，将验证结果与预定结果的比值和误差率进行对比，完全数据治理。

2.根据权利要求1所述的用于提升数据质量的数据治理方法，其特征在于：在所述步骤（2）中，所述的时效原则为数据库中的数据处于待治理的时间段内。

3.根据权利要求1所述的用于提升数据质量的数据治理方法，其特征在于：所述的相同特征的数据X指用于某一特定属性的采集数据。

4.根据权利要求1所述的用于提升数据质量的数据治理方法，其特征在于：所述的预设的对比阈值W为平均值P的倍，即/>，其中/>为设定常数。

5.根据权利要求1所述的用于提升数据质量的数据治理方法，其特征在于：所述的计算出缺失值，其计算公式为，其中x_i为k个相连的具有相同特征的数据的集合。

6.根据权利要求1所述的用于提升数据质量的数据治理方法，其特征在于：在所述步骤（5）中，所述的对数据进行运行验证，是指将验证结果与预定结果的比值和误差率进行对比，若误差率在设定误差范围内，则完成数据治理，若误差率在设定误差范围之外，则重复步骤（1）-（5）。