CN116578557B

CN116578557B - 面向数据中台的缺失数据填充方法

Info

Publication number: CN116578557B
Application number: CN202310201678.5A
Authority: CN
Inventors: 黎玲利; 李金宝; 郭亚红; 魏诺; 徐鹏摇
Original assignee: Qilu University of Technology; Heilongjiang University; Shandong Institute of Artificial Intelligence
Current assignee: Qilu University of Technology; Heilongjiang University; Shandong Institute of Artificial Intelligence
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2024-04-02
Anticipated expiration: 2043-03-03
Also published as: CN116578557A

Abstract

一种面向数据中台的缺失数据填充方法，属于工业大数据技术领域，可以利用多数据源对目标数据集中的缺失数据进行有效的填充。有效填充了原数据集中的缺失数据，提升了原数据集的完整性。相对于传统的Flight数据集及合成数据集，该面向数据中台的缺失数据填充方法运行时间并不随着数据规模增大而增大，而是保持平稳。当数据源数量达到10000时，本算法效率是精确算法的80倍。

Description

面向数据中台的缺失数据填充方法

技术领域

本发明涉及工业大数据技术领域，具体涉及一种面向数据中台的缺失数据填充方法。

背景技术

数据中台是从后台及业务中台中将数据导入，完成海量数据的存储、计算、产品包装过程，统一要辅助以数据治理。在数据中台架构中的数据治理平台中一个核心技术就是数据质量管理，即如何有效提升工业大数据的数据质量，例如数据完整性。工业大数据和传统关系数据库的区别在于，传统的OLAP假设数据是完整的，即不存在缺失数据。然而，工业大数据的数据来源更加多种多样，且数据缺失较多，这给填充缺失的数据带来了挑战。因此，如何修复缺失的数据是数据中台能够有效支持企业各类数据服务的必不可少的环节。当前的研究者提出了一系列传统数据库下完整性的评估和修复技术，但仍存在一些不足，例如并不能有效利用外面的数据源来帮助缺失数据的填充。

发明内容

本发明为了克服以上技术的不足，提供了一种对目标数据集中的缺失数据进行有效的填充的面向数据中台的缺失数据填充方法。

本发明克服其技术问题所采用的技术方案是：

一种面向数据中台的缺失数据填充方法，包括如下步骤：

a)从数据中台内的工业大数据中获取数据建立一个关系模式为R的目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_|D|)，其中A_i为第i个属性，i∈{1,2,...,m}，m为获取的工业大数据中的属性个数，t_j为第j个元组，j∈{1,2,...,|D|}，|D|为获取的工业大数据中的元组个数，目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_|D|)满足的函数依赖集合为Z＝{r₁,r₂,...,r_j,...,r_|Z|}，其中r_j为第j条函数依赖规则，j∈{1,2,...,|Z|}，|Z|为函数依赖集合的大小；

b)第j条函数依赖规则r_j的形式定义为LHS(r_j)→RHS(r_j)，其中LHS(r_j)为函数依赖规则r_j的前件，RHS(r_j)为函数依赖规则r_j的后件，LHS(r_j)为属性列表，LHS(r_j)＝A_j(1),A_j(2),…,A_j(o),…,A_j(s)，A_j(o)为关系模式R上的第j个属性，j(o)∈{1,2,…,m}，o∈{1,2,…,s}，s为前件中属性的个数，RHS(r_j)＝A_j(s+1)，A_j(s+1)为关系模式R上的第j(s+1)个属性，j(s+1)∈{1,2,…,m}；

c)从数据中台内的工业大数据中获取数据建立一个数据源集合SS＝{S₁,S₂,...,S_i,...,S_|SS|}，其中S_i为第i个数据源，i∈{1,2,...,|SS|}，|SS|为数据源的数量，第i个数据源S_i的关系模式为R_i，第i个数据源S_i的函数依赖集合为Z_i，其中/>为函数依赖集合Z_i的第j条函数依赖规则，j∈{1,2,...,|Z_i|}，|Z_i|为函数依赖集合的大小；

d)设置子函数一，利用子函数一将目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,…,t_j,…,t_|D|)构建其在函数依赖集合Z＝{r₁,r₂,...,r_j,...,r_|Z|}中第j条函数依赖规则r_j对应的草图Scratch_D(j)；

e)利用子函数一将数据源集合SS＝{S₁,S₂,...,S_i,...,S_|SS|}中的第i个数据源S_i构建其在函数依赖集合Z_i中第j条函数依赖规则r_j对应的草图Scratch(i,j)；

f)遍历目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,…,t_j,…,t_|D|)中的每一条元组的每一个属性值，第i个元组t_i的属性值为t_i[A_p]，i∈{1,2,...,|D|}，p∈{1,2,...,m}，如果属性值t_i[A_p]不为空，则继续遍历，如果属性值t_i[A_p]为空，则设置子函数二，利用子函数二对属性值t_i[A_p]寻找函数依赖集合Z＝{r₁,r₂,...,r_j,...,r_|Z|}中可以用于填充的函数依赖规则；

g)如果函数依赖集合Z＝{r₁,r₂,...,r_j,...,r_|Z|}不存在可以用于填充属性值t_i[A_p]的函数依赖规则，则返回执行步骤f)，直到目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_|D|)所有元组的所有属性值均遍历完成，如果函数依赖集合Z＝{r₁,r₂,...,r_j,...,r_|Z|}存在可以用于填充属性值t_i[A_p]的函数依赖规则r_j，则访问一个包含函数依赖规则r_j的第i个数据源S_i的草图Scratch(i,j)，设置子函数三，利用子函数三根据草图Scratch(i,j)判断草图Scratch(i,j)是否可以用于属性值t_i[A_p]的填充。

进一步的，步骤d)包括如下步骤：

d-1)初始化草图Scratch_D(j)为一个长度为L位的位数组；

d-2)定义k个独立的哈希函数h₁-h_k，将任意整数映射到1-L；

d-3)将草图Scratch_D(j)的所有位初始化为0后遍历目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_|D|)中的每条元组，将第j个元组t_j在属性列表LHS(r_j)上的值t[LHS(r_j)]哈希为一个正整数x；

d-4)计算出正整数x在哈希函数h₁-h_k上的哈希值，得到h₁(x),h₂(x),...,h_i(x),...,h_k(x)，h_i(x)为正整数x在第i个哈希函数h_i上的哈希值，i∈{1,2,...,k}；

d-5)将草图Scratch_D(j)中k个位置h₁(x),h₂(x),...,h_i(x),...,h_k(x)置1；

d-6)遍历目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_|D|)中的每条元组后，得到构建完毕的草图Scratch_D(j)。

进一步的，步骤e)包括如下步骤：

e-1)初始化草图Scratch(i,j)为一个长度为L位的位数组；

e-2)定义k个独立的哈希函数h₁-h_k，将任意整数映射到1-L；

e-3)将草图Scratch(i,j)的所有位初始化为0后遍历数据源集合SS＝{S₁,S₂,...,S_i,...,S_|SS|}中的每条元组，将第j个元组t_j在属性列表LHS(r_j)上的值t[LHS(r_j)]哈希为一个正整数x；

e-4)计算出正整数x在哈希函数h₁-h_k上的哈希值，得到h₁(x),h₂(x),...,h_i(x),...,h_k(x)，h_i(x)为正整数x在第i个哈希函数h_i上的哈希值，i∈{1,2,...,k}；

e-5)将草图Scratch(i,j)中k个位置h₁(x),h₂(x),...,h_i(x),...,h_k(x)置1；

e-6)遍历数据源集合SS＝{S₁,S₂,...,S_i,...,S_|SS|}中的每条元组后，得到构建完毕的草图Scratch(i,j)。

进一步的，步骤f)中利用子函数二对属性值t_i[A_p]寻找函数依赖集合Z＝{r₁,r₂,...,r_j,...,r_|Z|}中可以用于填充的函数依赖规则包括如下步骤：f-1)遍历函数依赖集合Z＝{r₁,r₂,...,r_j,...,r_|Z|}中每个函数依赖规则；

f-2)如果第o条函数依赖规则r_o同时满足函数依赖规则r_o的后件RHS(r_o)是第p个属性A_p且第i个元组t_i在函数依赖规则r_o的前件LHS(r_o)上的所有属性值都不缺失，则函数依赖规则r_o判定为用于填充属性值t_i[A_p]的函数依赖规则并停止对函数依赖集合Z＝{r₁,r₂,...,r_j,...,r_|Z|}的遍历。

进一步的，步骤g)中利用子函数三根据草图Scratch(i,j)判断草图Scratch(i,j)是否可以用于属性值t_i[A_p]的填充的步骤为：

g-1)计算第i个元组t_i在属性列表LHS(r_i)上的属性值t[LHS(r_i)]的k个哈希值，i∈{1,2,...,|D|}，得到

h₁(t[LHS(r_i)]),h₂(t[LHS(r_i)]),...,h_i(t[LHS(r_i)]),...,h_k(t[LHS(r_i)])，其中h_i(t[LHS(r_i)])为第i个哈希值，i∈{1,2,...,k}；

g-2)判断草图Scratch(i,j)中是否存在一哈希值对应位置上为0，如果存在，则第i个数据源S_i不能被用于对第i个元组t_i的缺失值填充，如果不存在，则第i个数据源S_i可被用于对第i个元组t_i的缺失值填充，并执行步骤g-3)；

g-3)对第i个数据源S_i进行SQL查询，如果查询结果为非空，则利用查询结果对第i个元组t_i的缺失值填充，如果查询结果为空，则返回执行步骤e)。

本发明的有益效果是：可以利用多数据源对目标数据集中的缺失数据进行有效的填充。有效填充了原数据集中的缺失数据，提升了原数据集的完整性。相对于传统的Flight数据集及合成数据集，该面向数据中台的缺失数据填充方法运行时间并不随着数据规模增大而增大，而是保持平稳。当数据源数量达到10000时，本算法效率是精确算法的80倍。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图1对本发明做进一步说明。

一种面向数据中台的缺失数据填充方法，包括如下步骤：

a)从数据中台内的工业大数据中获取数据建立一个关系模式为R的目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_|D|)，其中A_i为第i个属性，i∈{1,2,...,m}，m为获取的工业大数据中的属性个数，t_j为第j个元组，j∈{1,2,...,|D|}，|D|为获取的工业大数据中的元组个数，目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_|D|)满足的函数依赖集合为Z＝{r₁,r₂,...,r_j,...,r_|Z|}，其中r_j为第j条函数依赖规则，j∈{1,2,...,|Z|}，|Z|为函数依赖集合的大小。

b)第j条函数依赖规则r_j的形式定义为LHS(r_j)→RHS(r_j)，其中LHS(r_j)为函数依赖规则r_j的前件，RHS(r_j)为函数依赖规则r_j的后件，LHS(r_j)为属性列表，LHS(r_j)＝A_j(1),A_j(2),...,A_j(o),...,A_j(s)，A_j(o)为关系模式R上的第j个属性，j(o)∈{1,2,...,m}，o∈{1,2,...,s}，s为前件中属性的个数，RHS(r_j)＝A_j(s+1)，A_j(s+1)为关系模式R上的第j(s+1)个属性，j(s+1)∈{1,2,...,m}。

c)从数据中台内的工业大数据中获取数据建立一个数据源集合SS＝{S₁,S₂,...,S_i,...,S_|SS|}，其中S_i为第i个数据源，i∈{1,2,...,|SS|}，|SS|为数据源的数量，第i个数据源S_i的关系模式为R_i，第i个数据源S_i的函数依赖集合为Z_i，其中/>为函数依赖集合Z_i的第j条函数依赖规则，j∈{1,2,...,|Z_i|}，|Z_i|为函数依赖集合的大小。

d)设置子函数一，利用子函数一将目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_|D|)构建其在函数依赖集合Z＝{r₁,r₂,...,r_j,...,r_|Z|}中第j条函数依赖规则r_j对应的草图Scratch_D(j)。

e)利用子函数一将数据源集合SS＝{S₁,S₂,...,S_i,...,S_|SS|}中的第i个数据源S_i构建其在函数依赖集合Z_i中第j条函数依赖规则r_j对应的草图Scratch(i,j)。

f)遍历目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_|D|)中的每一条元组的每一个属性值，第i个元组t_i的属性值为t_i[A_p]，i∈{1,2,...,|D|}，p∈{1,2,...,m}，如果属性值t_i[A_p]不为空，则继续遍历，如果属性值t_i[A_p]为空，则设置子函数二，利用子函数二对属性值t_i[A_p]寻找函数依赖集合Z＝{r₁,r₂,...,r_j,...,r_|Z|}中可以用于填充的函数依赖规则。

本发明提出的对工业大数据中关系数据的缺失数据填充方法可以利用多数据源对目标数据集中的缺失数据进行有效的填充。在真实数据集Flight(包含1200个元组，100个合成数据源)上和合成数据(包含20000个元组，100个数据源)上验证了该发明的有效性，该发明技术有效填充了原数据集中的缺失数据，提升了原数据集的完整性。

对于Flight数据集，该发明能够对目标数据集中1792个缺失属性值进行填充。对于合成数据集.该发明能够对目标数据集中3200个缺失属性值进行填充。在两个数据集上的填充度均大于90％。在合成数据上将本发明中基于草图构建的近似算法和精确算法进行了对比，发现当构建草图的哈希函数个数大于等于10以后，填充程度和精确算法基本一致，误差不超过10％，但效率远远超过精确算法。精确算法的时间会随着数据规模增大而增加，而本发明的运行时间并不随着数据规模增大而增大，而是保持平稳。当数据源数量达到10000时，本算法效率是精确算法的80倍。

实施例1：

在本发明的一个实施例中，步骤d)包括如下步骤：

d-1)初始化草图Scratch_D(j)为一个长度为L位的位数组。

d-2)定义k个独立的哈希函数h₁-h_k，将任意整数映射到1-L。

d-3)将草图Scratch_D(j)的所有位初始化为0后遍历目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_|D|)中的每条元组，将第j个元组t_j在属性列表LHS(r_j)上的值t[LHS(r_j)]哈希为一个正整数x。

d-4)计算出正整数x在哈希函数h₁-h_k上的哈希值，得到h₁(x),h₂(x),…,h_i(x),…,h_k(x)，h_i(x)为正整数x在第i个哈希函数h_i上的哈希值，i∈{1,2,…,k}。

d-5)将草图Scratch_D(j)中k个位置h₁(x),h₂(x),…,h_i(x),…,h_k(x)置1。

d-6)遍历目标数据集D(A₁,A₂,…,A_i,…,A_m)＝(t₁,t₂,…,t_j,…,t_|D|)中的每条元组后，得到构建完毕的草图Scratch_D(j)。

实施例2：

在本发明的一个实施例中，步骤e)包括如下步骤：

e-1)初始化草图Scratch(i,j)为一个长度为L位的位数组。

e-2)定义k个独立的哈希函数h₁-h_k，将任意整数映射到1-L。

e-3)将草图Scratch(i,j)的所有位初始化为0后遍历数据源集合SS＝{S₁,S₂,…,S_i,…,S_|SS|}中的每条元组，将第j个元组t_j在属性列表LHS(r_j)上的值t[LHS(r_j)]哈希为一个正整数x。

e-4)计算出正整数x在哈希函数h₁-h_k上的哈希值，得到h₁(x),h₂(x),...,h_i(x),...,h_k(x)，h_i(x)为正整数x在第i个哈希函数h_i上的哈希值，i∈{1,2,...,k}。

e-5)将草图Scratch(i,j)中k个位置h₁(x),h₂(x),...,h_i(x),...,h_k(x)置1。

实施例3：

在本发明的一个实施例中，步骤f)中利用子函数二对属性值t_i[A_p]寻找函数依赖集合Z＝{r₁,r₂,...,r_j,...,r_|Z|}中可以用于填充的函数依赖规则包括如下步骤：f-1)遍历函数依赖集合Z＝{r₁,r₂,...,r_j,...,r_|Z|}中每个函数依赖规则。

实施例4：

在本发明的一个实施例中，步骤g)中利用子函数三根据草图Scratch(i,j)判断草图Scratch(i,j)是否可以用于属性值t_i[A_p]的填充的步骤为：

g-1)计算第i个元组t_i在属性列表LHS(r_i)上的属性值t[LHS(r_i)]的k个哈希值，i∈{1,2,...,|D|}，得到h₁(t[LHS(r_i)]),h₂(t[LHS(r_i)]),...,h_i(t[LHS(r_i)]),...,h_k(t[LHS(r_i)])，其中h_i(t[LHS(r_i)])为第i个哈希值，i∈{1,2,...,k}。

g-2)判断草图Scratch(i,j)中是否存在一哈希值对应位置上为0，如果存在，则第i个数据源S_i不能被用于对第i个元组t_i的缺失值填充，如果不存在，则第i个数据源S_i可被用于对第i个元组t_i的缺失值填充，并执行步骤g-3)。

g-3)对第i个数据源S_i进行SQL查询来判断第i个数据源S_i是否真的可以用于缺失值填充，具体为：SELECT RHS(r_i)FROM S_i WHERE LHS(r_i)＝p，如果查询结果为非空，则利用查询结果对第i个元组t_i的缺失值填充，如果查询结果为空，则返回执行步骤e)。直到遍历完所有包含函数依赖规则的数据源或找到一个能够为其填充的数据源为止。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向数据中台的缺失数据填充方法，其特征在于，包括如下步骤：

b)第j条函数依赖规则r_j的形式定义为LHS(r_j)→RHS(r_j)，其中LHS(r_j)为函数依赖规则r_j的前件，RHS(r_j)为函数依赖规则r_j的后件，LHS(r_j)为属性列表，LHS(r_j)＝A_j(1),A_j(2),...,A_j(o),...,A_j(s)，A_j(o)为关系模式R上的第j个属性，j(o)∈{1,2,...,m}，o∈{1,2,...,s}，s为前件中属性的个数，RHS(r_j)＝A_j(s+1)，A_j(s+1)为关系模式R上的第j(s+1)个属性，j(s+1)∈{1,2,...,m}；

d)设置子函数一，利用子函数一将目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_|D|)构建其在函数依赖集合Z＝{r₁,r₂,...,r_j,...,r_|Z|}中第j条函数依赖规则rj对应的草图Scratch_D(j)；

f)遍历目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,...,t_j,…,t_|D|)中的每一条元组的每一个属性值，第i个元组t_i的属性值为t_i[A_p]，i∈{1,2,...,|D|}，p∈{1,2,...,m}，如果属性值t_i[A_p]不为空，则继续遍历，如果属性值t_i[A_p]为空，则设置子函数二，利用子函数二对属性值t_i[A_p]寻找函数依赖集合Z＝{r₁,r₂,…,r_j,…,r_|Z|}中可以用于填充的函数依赖规则；

g)如果函数依赖集合Z＝{r₁,r₂,...,r_j,…,r_|Z|}不存在可以用于填充属性值t_i[A_p]的函数依赖规则，则返回执行步骤f)，直到目标数据集D(A₁,A₂,…,A_i,...,A_m)＝(t₁,t₂,...,t_j,...,t_|D|)所有元组的所有属性值均遍历完成，如果函数依赖集合Z＝{r₁,r₂,...,r_j,...,r_|Z|}存在可以用于填充属性值t_i[A_p]的函数依赖规则r_j，则访问一个包含函数依赖规则r_j的第i个数据源S_i的草图Scratch(i,j)，设置子函数三，利用子函数三根据草图Scratch(i,j)判断草图Scratch(i,j)是否可以用于属性值t_i[A_p]的填充；

步骤d)包括如下步骤：

d-1)初始化草图Scratch_D(j)为一个长度为L位的位数组；

d-2)定义k个独立的哈希函数h₁-h_k，将任意整数映射到1-L；

d-3)将草图Scratch_D(j)的所有位初始化为0后遍历目标数据集D(A₁,A₂,...,A_i,...,A_m)＝(t₁,t₂,…,t_j,…,t_|D|)中的每条元组，将第j个元组t_j在属性列表LHS(r_j)上的值t[LHS(r_j)]哈希为一个正整数x；

d-5)将草图Scratch_D(j)中k个位置h₁(x),h₂(x),...,h_i(x),…,h_k(x)置1；

d-6)遍历目标数据集D(A₁,A₂,…,A_i,…,A_m)＝(t₁,t₂,...,t_j,...,t_|D|)中的每条元组后，得到构建完毕的草图Scratch_D(j)。

2.根据权利要求1所述的面向数据中台的缺失数据填充方法，其特征在于，步骤e)包括如下步骤：

e-1)初始化草图Scratch(i,j)为一个长度为L位的位数组；

e-2)定义k个独立的哈希函数h₁-h_k，将任意整数映射到1-L；

e-4)计算出正整数x在哈希函数h₁-h_k上的哈希值，得到h₁(x),h₂(x),…,h_i(x),...,h_k(x)，h_i(x)为正整数x在第i个哈希函数h_i上的哈希值，i∈{1,2,...,k}；

3.根据权利要求1所述的面向数据中台的缺失数据填充方法，其特征在于，步骤f)中利用子函数二对属性值t_i[A_p]寻找函数依赖集合Z＝{r₁,r₂,…,r_j,...,r_|Z|}中可以用于填充的函数依赖规则包括如下步骤：

f-1)遍历函数依赖集合Z＝{r₁,r₂,...,r_j,...,r_|Z|}中每个函数依赖规则；

f-2)如果第o条函数依赖规则r_o同时满足函数依赖规则r_o的后件RHS(r_o)是第p个属性A_p且第i个元组t_i在函数依赖规则r_o的前件LHS(r_o)上的所有属性值都不缺失，则函数依赖规则r_o判定为用于填充属性值t_i[A_p]的函数依赖规则并停止对函数依赖集合Z＝{r₁,r₂,…,r_j,…,r_|Z|}的遍历。

4.根据权利要求1所述的面向数据中台的缺失数据填充方法，其特征在于，步

骤g)中利用子函数三根据草图Scratch(i,j)判断草图Scratch(i,j)是否可以

用于属性值t_i[A_p]的填充的步骤为：

g-1)计算第i个元组t_i在属性列表LHS(r_i)上的属性值t[LHS(r_i)]的k个哈希值，i∈{1,2,…,|D|}，得到