CN111738442A

CN111738442A - 一种大数据修复模型的构建方法和模型构建装置

Info

Publication number: CN111738442A
Application number: CN202010500860.7A
Authority: CN
Inventors: 王宏志; 秦谦; 姜涛
Original assignee: Jiangsu Mingtong Technology Co ltd
Current assignee: Jiangsu Mingtong Technology Co ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2020-10-02

Abstract

本发明公开了一种大数据修复模型的构建方法和模型构建装置，包括从备选修复方案中选择候选修复方案；利用预先构建多个机器学习模型根据候选修复方案针给出的修复值进行初步训练；利用初步训练完成的各机器学习模型给出预测修复值，并根据各机器学习模型的预测修复值确定各机器学习模型的不确定得分，对不确定得分进行排序；获取用户反馈参考值，并将用户反馈参考值构成新的训练集对不确定得分最高的设定个数的机器学习模型进行再训练直至满足精度要求；训练完成获得最终的大数据修复模型。本发明减少了时间复杂度，保证了修复的正确性。

Description

一种大数据修复模型的构建方法和模型构建装置

技术领域

本发明属于数据处理技术领域，具体涉及一种大数据修复模型的构建方法和模型构建装置。

背景技术

当今信息化时代，随着以微博、社交网络等为代表的新型信息发布方式的不断涌现，人类社会的数据种类和规模正以前所未有的速度在不断的增加和累积，同步数据的爆发式增长与社会化趋势，将视角瞄准大量的碎片化信息、用户行为、用户关系，并将焦点汇聚在由此产生的实时数据、非结构化数据及机器数据。由于数据存在规模性(Volume)、高速性(Velocity)、多样性(Variety)、价值稀疏性(Value)的特征，不可避免的会产生粗糙的、错误的数据。由于大数据存在错误，并且这些错误会带来严重的后果，需要对大数据中的错误进行检测与修复，从而确保基于大数据各种应用的有效实施。

目前大部分存在的基于依赖的数据修复方法主要集中在使用不同启发式方法选择对数据产生最小改变的修复来自动产生答案。但是这些启发式算法不能保证修复的正确性，并且算法的时间复杂度太高，若果将其应用到重要数据会产生相当大的风险。

发明内容

本发明旨在解决目前数据修复方法正确性不能保证且算法的时间复杂度太高的技术问题，提出一种大数据修复模型的构建方法和模型构建装置。

为实现上述技术目的，本发明采用了以下技术方案。

一方面，本发明提供了一种大数据修复模型的构建方法，所述大数据修复模型用于给出待修复数据的修复值，所述大数据修复模型的构建方法包括以下步骤：

从备选修复方案中选择候选修复方案；利用预先构建多个机器学习模型根据候选修复方案针给出的修复值进行初步训练；

利用初步训练完成的各机器学习模型给出预测修复值，并根据各机器学习模型的预测修复值确定各机器学习模型的不确定得分，对不确定得分进行排序；获取用户反馈参考值，并将用户反馈参考值构成新的训练集对不确定得分最高的设定个数的机器学习模型进行再训练直至满足精度要求；训练完成的机器学习模型就为最终的大数据修复模型。

进一步地，从备选修复方案中选择候选修复方案的方法为采用遗传模型，所述遗传模型的代价函数如下：

Cost(C)＝∑_t∈Cu(t)

其中u(t，A)表示给定一个修复u，它用来将元组t的A属性值从v修复到v′的评估，

R_i表示第i个属性集，C表示元组集合，u(t，A)的表达式如下：

(v，v′)表示v和v′的距离。

进一步地，所述机器学习模型采用贝叶斯分类器。

进一步地，用户反馈参考值采用众包方式获得。

进一步地，所述候选修复方案给出修复值要满足三个约束条件，第一个约束条件为：两个元组满足若干特定属性的值相同，由该若干特定属性决定的其它特定属性的值需要相同的，则其它特定属性的修复值必须要跟另一元组该属性的值相同；

对两个表中的元组必须有特定属性值相同，则修复值必须要满足该约束；

若两个元组在特定属性上的相似度大于该属性阈值，则与该属性关联的其它特定属性的相似度大于该属性阈值或者特定属性值相等。

进一步地，机器学习模型的不确定得分的计算方法如下：

Uscore(I)＝∑p_rlog(p_r)，

其中p_r为机器学习模型给出预测修复值r的频率，

第二方面，本发明提供了一种大数据修复模型的构建装置，包括：所述大数据修复模型用于给出待修复数据的修复值，所述大数据修复模型的构建装置包括候选修复方案选择模块和机器学习训练模块：

所述候选修复方案选择模块，用于从备选修复方案中选择候选修复方案；

所述机器学习训练模块，用于利用预先构建多个机器学习模型根据候选修复方案选择模块确定的候选修复方案针给出的修复值进行初步训练；利用初步训练完成的各机器学习模型给出预测修复值，并根据各机器学习模型的预测修复值确定各机器学习模型的不确定得分，对不确定得分进行排序；获取用户反馈参考值，并将用户反馈参考值构成新的训练集对不确定得分最高的设定个数的机器学习模型进行再训练直至满足精度要求；训练完成的机器学习模型就为最终的大数据修复模型。

进一步地，所述装置还包括与众包平台对接的接口，用于所述机器学习训练模块从平台通过众包方式获取用户反馈参考值。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如以上技术方案所提供的方法的步骤。

本发明还提供了一种计算机程序，包括用于执行以上技术方案所提供的一种大数据修复模型的构建方法的计算机程序代码，所述计算机程序基于Map-Reduce程序设计模型，以实现高效计算，以支持大规模数据。

有益技术效果：本发明引入遗传模型来产生候选修复为了减少时间复杂度。利用机器学习模型给出修复值，保证了修复的正确性；在此基础上对于修复结果不确定的机器学习模型进行再训练，通过用户参与进来确认候选修复的正确性，这样能进一步改善学习模型的正确性。

说明书附图

图1是本发明实施例系统框架图；

图2是本发明实施例中引入用户反馈参考值的效率；

图3是本发明实施例中不确定得分机制评估结果对比图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

实施例一、一种大数据修复模型的构建方法，所述大数据修复模型用于对元组的属性给出待修复数据的修复值，所述大数据修复模型的构建方法包括以下步骤：

本实施例采用遗传模型来产生候选修复方案。这个遗传模型尝试在最小化代价函数的，同时满足约束条件的情况下，选择解决方案。

问题定义：给定由表R₁，...，R_n组成的数据库D，定义在该数据库中的约束集合W和一个代价函数Cost。任务是寻找干净数据库D′，使得它满足约束集W，同时代价Cost(D′)最小

为了解决这个问题，本发明提供的方法引入三种约束条件和一个代价函数。对于这个问题，首先应该决定如何来表示问题的答案。本发明提供的方法能使用约束条件W寻找数据库D中的脏元组，同时创建一个遗传模型来寻找元组的最好修复元组使得Cost(D)最小，同时满足约束条件D。

第一个约束条件为：两个元组满足若干特定属性的值相同，由该若干特定属性决定的其它特定属性的值需要相同的，则其它特定属性的修复值必须要跟另一元组该属性的值相同；第二个约束条件为：对两个表中的元组必须有特定属性值相同，则修复值必须要满足该约束；第三个约束条件为：若两个元组在特定属性上的相似度大于该属性阈值，则与该属性关联的其它特定属性的相似度大于该属性阈值或者特定属性值相等。

考虑下面这个例子：

ψ：([Street]→[City]，<0.8，0.7>]

(e)MD Rules

本实施例中在customer关系表中的第一约束条件包括：

cfd₁：([CC＝44，AC＝131，phn]→[street，city＝′Chicago′，zip]

cfd₂：([CC＝01，AC＝908，phn]→[street，city＝′Boston′，zip]

这里cfd₁声明对任何两个元组，如果他们的属性CC＝44，AC＝131并且属性php相同，那么它们的属性street和zip一定也相同，同时它们的城市city一定是Chicago；规则cfd₂类似。

本实施例中第二约束条件表示对表equipment中的人一个元组t，在表customer中一定存在一个属性type＝′1′的元组t′使得t和t′的属性php一致。

本实施例中第三约束条件表示对customer表中的任两个元组，如果它们在属性Street上的相似度大于0.8，那么它们的属性City一定匹配即它们在City上的相似度大于阈值0.7。

代价函数是一种能对问题的一种答案判断优劣的函数，即能说明问题的一种答案是否优于问题的另一个中答案。遗传算法使用代价函数来测试数据库的修复方案，并且用来在可能的修复方案中选择最佳的那种方案。

在本实施例中，由于有许多种可能的方式来清洗一个脏元组，给定一个修复u，它用来将元组t的A属性值t[A]＝v修改成t[A]＝v′。本发明提供的方法通过v和v′之间的相似度来表示这个修复的评估得分s。这个能用编辑距离dist_C(v，v′)来表示：

这里|v|，|v′|表示v和v′的长度，相应地修复一个元组t的代价是修复该元组所有属性代价的和。如下：

正如以上所述，C＝[u(t₁)，u(t₂)，…，u(t_n)]用于表示数据库的一个修复方案，因此数据库D修复后的代价定义如下：

Cost(C)＝∑_t∈Cu(t)

本实施例中产生的修复方案是如下形式的元组：

u＝<t，A，v>

表示将元组t的属性A修复成变量v。

本实施例中用于产生候选修复方案的修复方案采用现有技术实现，这里不赘述。同样需要说明的是遗传模型所采用的遗传算法也为现有技术，在此不过多介绍。

本发明通过机器学习模型对产生的候选修复方案的正确性进行确认。本实施例中，机器学习模型采用贝叶斯分类器实现。在其它实施例中也可以采用现有技术中的其它机器学习模型，因此机器学习模型的具体实现方法不是本申请的发明点。

在本实施例的贝叶斯分类器中，对于每一个属性，使用训练集创建贝叶斯分类器。为了改善这个学习模型，本发明提供的方法依据不确定得分挑选出分类器最不确定的n个候选更新，用户对这些更新的反馈构成新的训练集对学习模型进行再训练。

不确定得分：为了改善学习模型的精确性，同时有效利用用户反馈，本发明对每一个机器学习模型引入不确定得分。一个修复的不确定得分由它从模型的N个机器学习模型获得的预测结果的不一致性来衡量。需要保证创建的N个机器学习模型给出的预测修复值彼此之间是不同的，但他们在训练集中都有相似的精度。不同机器学习模型之间提供了一种冗余形式分类。不确定的一个修复将从机器学习模型中获得不同的标记，通过将它加入到训练集中，机器学习模型之间的不一致性在下一轮迭代中将会降低。机器学习模型预测的不一致性可以用不同的方式来表示。这里本发明提供的方法是用熵来表示机器学习模型之间的不一致性程度。熵Entropy用来计算每种应答r的频率，公式如下：

Uscore(I)＝∑p_rlog(p_r)

其中，

r是机器学习模型预测的结果。本发明提供的方法使用不确定得分选择对学习模型精确性起着关键作用了n个实例。

本发明引入遗传模型来产生候选修复方案和一个贝叶斯机器学习模型来确认这些更新。目的是对数据库产生精确的修复结果，同时有效的减少用户参与指导整个修复过程。通过用户对不确定候选修复的反馈，能够改善机器学习模型预测的精确性；。同时给予不确定得分的选择策略能最好的在高质量数据库和最小化用户参入两个方面取得均衡。最后，使用机器学习模型来产生数据库的精确修复结果。

以下实验结果给出两个现实生活中的数据集记作HOSP和DBLP来测试框架的功效。

(1)HOSP(Hospital Compare)数据集。它是由美国卫生和人类服务部(U.S.Department of Health&Human Services)维护。

(2)DBLP数据集。它来自于DBLP参考书目。众所周知，DBLP服务提供关于计算机科学期刊和会议的数目信息。

实现：所有的算法用python来实现，所有的实验运行在Intel(R)Core(TM)i3-2120(3.30GHz)CPU和4GB内存的机器上。每个实验重复跑10次，结果的平均值被记录下来。

由图2可以看出，本发明提供的方法在改善数据质量即产生正确候选修复方面取得了显著效果。和本发明实施例结果对比的自动修复启发式算法为现有技术，横坐标中的用户反馈表示为了获得理想干净数据库在交互过程中用户对所有建议更新做出反馈的百分比。结果表明本发明提供的方法在不同的数据库中获得显著的性能。就HOSP数据集而言，用户反馈框架通过30％的用户努力就获得了83％的数据质量改善。而就DBLP数据集而言，用户50％的努力就使得整个数据库的质量改善了82％。启发式方法因为没有用户反馈机制，所以它修复数据集的结果是一个常量。为了获得启发式方法修复数据集的精度，用户反馈框架仅仅只需要用户30％的努力就可以达到。

为了评估基于不确定得分机器学习模型的整个性能，比较它和基于其他选择的方法对峰值收敛速度的影响。

(1)随机方法：对候选修复方方案，本发明提供的方法随机选择n个实例用于标记。

(2)贪心方法：根据等式3的得分选择最大的n个实例。

实验结果展示在图3。可以看出，对两个数据集而言，不确定得分在精确性方面要优于贪心选择和随机选择两种方法。这是因为，不确定得分方法选择的是收益最大的候选修复方案，从而能最大可能改善学习模型预测的准确性。对于HOSP数据集，不确定得分方法获得峰值为95％的准确率，而对于DBLP数据集，它获得了94％的准确率。和不确定得分选择方法比起来，在选择相同实例数量的情况下，随机选择方法对HOSP和DBLP两个数据集仅分别获得30％和50％的准确率，贪心选择方法对HOSP和DBLP两个数据库获得的精确度分别为80％和90％。

本发明通过引入遗传模型来产生候选修复方案和一个机器学习学习模型来确认这些更新，实现对数据库产生精确的修复结果，同时有效的减少用户参与指导整个修复过程。通过用户对不确定候选修复的反馈，本发明提供的方法能够改善机器学习模型预测的精确性。同时给予不确定得分的选择策略能最好的在高质量数据库和最小化用户参入两个方面取得均衡。最后，本发明提供的方法使用机器学习模型来产生数据库的精确修复结果。

本发明提供一种计算机程序，包括用于执行以上技术方案所提供的一种大数据修复模型的构建方法的计算机程序代码，所述计算机程序基于Map-Reduce程序设计模型，以实现高效计算，以支持大规模数据。

与以上实施例相对应地，实施例二提供了一种大数据修复模型的构建装置，包括：所述大数据修复模型用于对数据的属性给出待修复数据的修复值，所述大数据修复模型的构建装置包括候选修复方案选择模块和机器学习训练模块：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种大数据修复模型的构建方法，其特征在于，所述大数据修复模型用于对给出待修复数据的修复值，所述大数据修复模型的构建方法包括以下步骤：

从备选修复方案中选择候选修复方案；利用预先构建多个机器学习模型根据候选修复方案给出的修复值进行初步训练；

2.根据权利要求1所述的一种大数据修复模型的构建方法，其特征在于，从备选修复方案中选择候选修复方案的方法为采用遗传模型，所述遗传模型的代价函数如下：

Cost(C)＝∑_t∈Cu(t)

R_i表示第i个属性集，C表示元组集合，u(t，A)的表达式如下：

(v，v′)表示v和v′的距离。

3.根据权利要求1所述的一种大数据修复模型的构建方法，其特征在于，所述机器学习模型采用贝叶斯分类器。

4.根据权利要求1所述的一种大数据修复模型的构建方法，其特征在于，用户反馈参考值采用众包方式获得。

5.根据权利要求1所述的一种大数据修复模型的构建方法，其特征在于，所述候选修复方案给出修复值要满足三个约束条件，第一个约束条件为：两个元组满足若干特定属性的值相同，由该若干特定属性决定的其它特定属性的值需要相同的，则其它特定属性的修复值必须要跟另一元组该属性的值相同；

第二个约束条件为：对两个表中的元组必须有特定属性值相同，则修复值必须要满足该约束；

第三个约束条件为：若两个元组在特定属性上的相似度大于该属性阈值，则与该属性关联的其它特定属性的相似度大于该属性阈值或者特定属性值相等。

6.根据权利要求1所述的一种大数据修复模型的构建方法，其特征在于，机器学习模型的不确定得分的计算方法如下：

Uscore(I)＝∑p_rlog(p_r)，

其中p_r为机器学习模型给出预测修复值r的频率，

7.一种大数据修复模型的构建装置，其特征在于，包括：所述大数据修复模型用于给出待修复数据的修复值，所述大数据修复模型的构建装置包括候选修复方案选择模块和机器学习训练模块：

所述机器学习训练模块，用于利用预先构建多个机器学习模型根据候选修复方案选择模块确定的候选修复方案给出的修复值进行初步训练；利用初步训练完成的各机器学习模型给出预测修复值，并根据各机器学习模型的预测修复值确定各机器学习模型的不确定得分，对不确定得分进行排序；获取用户反馈参考值，并将用户反馈参考值构成新的训练集对不确定得分最高的设定个数的机器学习模型进行再训练直至满足精度要求；训练完成的机器学习模型就为最终的大数据修复模型。

8.根据权利要求7所述的一种大数据修复模型的构建装置，其特征在于，所述装置还包括与众包平台对接的接口，用于所述机器学习训练模块从平台通过众包方式获取用户反馈参考值。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～6任意一项权利要求所述方法的步骤。

10.一种计算机程序，其特征在于，包括用于执行权利要求1～6中任何一个权利要求所述的方法的计算机程序代码，所述计算机程序基于Map-Reduce程序设计模型。