CN116578552B

CN116578552B - 一种辅助多源重复数据消重的候选数据筛选方法

Info

Publication number: CN116578552B
Application number: CN202310438677.2A
Authority: CN
Inventors: 杜圣东; 曹欢; 胡节; 刘心瑶
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2025-08-12
Anticipated expiration: 2043-04-23
Also published as: CN116578552A

Abstract

本发明公开一种辅助多源重复数据消重的候选数据筛选方法，包括构建多源重复数据集；划分为训练数据集和测试数据集；从训练数据集中取出数据样本，并捕捉数据样本之间的相似度特征；进行预测，获得预测出来的标签；建立匹配点之间的连接图；连接图进行清洗；将已经清洗后的连接图进行图标签的设置，在同一图中的点被视作指向同一实体的相似重复数据，将数据的图预测标签与xgboost模型预测的标签进行比较，选择标签不一致的数据进行重新的人工标注；直到循环次数达到设定的值；对多余数据进行数据删重。该发明能够在实际的应用中，很好的刻画数据中不同长短属性值的相似度，对于多源重复数据删重方面，也能对重复数据有着很好的识别效果。

Description

一种辅助多源重复数据消重的候选数据筛选方法

技术领域

本发明具体涉及一种辅助多源重复数据消重的候选数据筛选方法。

背景技术

大数据时代的来临使得大数据应用于各个行业，无疑给各行各业带来了新的机遇与改变，但数据量的增加也给如何利用、处理这些数据带来了难题。例如重复数据如何进行删重、有缺失的数据如何进行补充、数据错误的情况下如何进行纠正等等，都是一系列大数据处理必须要纳入考虑的事。对于这些海量的数据往往需要经过具体的处理，而符合要求的数据才能带来价值。选择合适的方式处理大数据，不仅能剔除掉其中的无价值数据，减少数据分析时的工作量，也能减少其对模型训练带来的错误。在实际生产中，多源重复的数据往往会给数据分析带来各种问题，综上所述，从海量数据中选择出对模型训练最有价值的数据能减少人力物力的消耗，因此有关主动学习选择出对模型训练最有价值的数据，对大数据的处理有着十分重要的意义。

近几年，基于主动学习的模型在解决大数据处理方面有着很大的优势。其中基于委员会的主动学习(committee-basedquerystrategyofactivelearning)和基于边缘的主动学习(margin-basedquerystrategyofactivelearning)在该方面已被证明能显著提高大数据处理的效率。

文献[1]“Heterogeneouscommittee-basedactivelearningforentityresolution”(ChenX,XuY,BroneskeD,etal.EuropeanConferenceonAdvancesinDatabasesandInformationSystems.)说明基于委员会的主动学习在两方面有缺陷第一，所选的初始训练数据通常不够平衡和信息量不足。第二，委员会由同质分类器组成，包括它们的准确性以实现委员会的多样性，即，分类器没有用所有可用的训练数据或最佳参数设置来训练。由此提出了基于委员会的主动学习方法HeALER，该方法通过使用更有效的初始训练数据选择方法和更有效的异构委员会来克服这两个缺点，但该方法并没有很好的解决在多源环境下主动学习的运用。

文献[2]“Graph-boostedactivelearningformultisourceentityresolution”

(PrimpeliA,BizerC.InternationalSemanticWebConference.Springer,Cham,2021:182-199.)通过提出图主动学习解决多源情况下的重复数据的实体识别，但是在面对数据重叠不够多时，图主动学习所建立的图往往达不到较好的筛选效果。同时在面对多源重复数据的时候，识别出来的重复数据如何进行保留与与删除也是一个没有被广泛讨论的问题。

在相似度的计算上，文献[3]“DEEPACTIVELEARNINGFORNAMEDENTITYRECOGNITION”(ShenY,YunH,LiptonZC,etal.arXivpreprint arXiv:1707.05928,2017.)引入了一种轻量级体系结构，即CNN-CNN-LSTM模型由卷积字符和字编码器以及长短时记忆(LSTM)标签解码器组成。尽管如此在面对多源数据情况下重复数据删重仍存在三个主要需改进的地方：第一，如何将多源数据的实体属性值进行全方面的刻画，单一的相似度计算方法在面对既有短属性值又有长属性值的数据时往往表现不是那么好；第二，多源数据情况往往比单一来源的数据有更复杂的匹配结果，选择何种主动学习方式对多源环境下的数据进行匹配是一个值得考量的问题；第三，针对重复数据识别的框架已有很多可以借鉴的例子，但是在重复数据中选择什么合适的数据进行保留和删除，却是现在很多算法没有涉及的问题。

综上所述，现有的删重模型因为刻画属性值的相似度不全，多源数据下主动学习方法的适应性以及删重方法的不确定等问题，在实际应用中存在特征抽取不全面，多源数据重叠少不能筛选数据等缺点。

发明内容

本发明主要是克服现有技术中存在的缺点，本发明提供一种辅助多源重复数据消重的候选数据筛选方法。

本发明解决上述技术问题，所提供的技术方案是：一种辅助多源重复数据消重的候选数据筛选方法，包括以下步骤：

步骤1、对多源重复数据进行预处理，并构建多源重复数据集；

步骤2、将多源重复数据集划分为训练数据集和测试数据集；

步骤3、从训练数据集中取出数据样本，并捕捉数据样本之间的相似度特征；

步骤4、将得到的相似度特征输入到xgboost模型中进行预测，获得预测出来的标签；

步骤5、根据预测出来的标签建立匹配点之间的连接图；

步骤6、根据连接图把训练数据集中已知的不匹配数据摘出，并将构建的连接图进行清洗；

步骤7、将已经清洗后的连接图进行图标签的设置，在同一图中的点被视作指向同一实体的相似重复数据，将数据的图预测标签与xgboost模型预测的标签进行比较，选择标签不一致的数据进行重新的人工标注；

步骤8、人工标注后的数据继续给xgboost模型进行预测，重复步骤4至步骤8，直到循环次数达到设定的值；

步骤9、将已识别的重复数据计算之间的相似度，选择最佳数据进行保留，对多余数据进行数据删重。

进一步的技术方案是，所述步骤1中预处理的过程为对其异常值处理和缺失值填补。

进一步的技术方案是，所述步骤2中利用最大最小归一化方法，对多源重复数据集进行标准化处理，取多源重复数据集的前70％为训练数据集，后30％为测试数据集。

进一步的技术方案是，所述步骤3中设定完成学习率lr，迭代次数n-epochs，批处理样本大小batch-size后，两点之间的最大距离L，两点之间边的权重M，依次从训练数据集中取出batch-size大小的样本数，将其输入相似度计算框架，捕属性值之间的相似度。

进一步的技术方案是，所述步骤3中相似度的计算公式为：

式中：X、Y代表分别的字符串；sim_overlap、sim_jaccard、sim_jaro和sim_lev分别是四种不同相似度计算公式。

进一步的技术方案是，所述步骤5中根据图主动学习框架，构建匹配点之间的连接图：具体是将一个数据点视为连接图中的点，若两条数据被xgboost模型预测标签为匹配，则将两点进行连接，且计算出两点之间边的权重；若两点预测标签为不匹配，则不需要将两点进行连接。

进一步的技术方案是，所述步骤6中的清洗过程为：检测已建立的连接图中不匹配的数据是否存在通路，若存在联通的情况，则通过最小切割法将两点进行切割，保证两点之间不存在通路。

进一步的技术方案是，所述步骤6中通过提前设置的距离阈值L与边的权重阈值M，比较已经过第一次清洗后的连接图中点与点的距离是否超过距离阈值L；若超过了距离阈值L，再计算该条路线上边的平均权重是否低于设置的权重阈值M，若同时达到以上两个条件，则认为该两点也是可疑的点，再使用最小切割法对两点进行切割。

进一步的技术方案是，所述步骤9中对重复数据的删除以及选择保留的公式为：

式中：w_k为连接图中的点；k为连接图中点的个数。

本发明的有益效果：

一、使用传统相似度算法与深度学习的sentence-bert模型结合来刻画数据之间的相似度，在面对长短不一致的数据时，传统相似度算法对短的数据相似度刻画比较好，但是在长的属性值方面，经过预训练的深度学习模型在刻画语义相似度上有则很好的效果；

二、针对现有的图主动学习框架，将其运用在全新的删重领域的时候并对其进行了部分创新与改进，原有的图主动学习只能用于训练数据与实验数据有重复的情况，而针对重合度不高的情况，对其进行了改进；

三、该发明能够在实际的应用中，很好的刻画数据中不同长短属性值的相似度，对于多源重复数据删重方面，也能对重复数据有着很好的识别效果。

附图说明

图1是具有分类目标的SBERT架构图；

图2是利用图表检测假阳性的示例图；

图3是本方法实施的技术架构图；

图4是本方法在重复数据删重时的流程图；

图5是本方法实施的流程图；

图6是实验一的结果图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图5所示，本发明的一种辅助多源重复数据消重的候选数据筛选方法，包括以下步骤：

步骤1、对多源重复数据进行处理，对其异常值处理和缺失值填补，并构建多源重复数据集；

步骤2、将多源重复数据集划分为训练数据集和测试数据集；

利用最大最小归一化方法，对多源重复数据集进行标准化处理，取数据集的前70％为训练数据集，最后30％为测试数据集；

设定完成学习率lr，迭代次数n_-epochs，批处理样本大小batch-size后，两点之间的最大距离L，两点之间边的权重M，依次从训练数据集中取出batch-size大小的样本数，将其输入相似度计算框架，捕属性值之间的相似度，转换公式如下所示；

式中：X、Y代表分别的字符串；sim_overlap、sim_jaccard、sim_jaro和sim_lev分别是四种不同相似度计算公式；

步骤5、根据预测出来的标签建立匹配点之间的连接图；

根据图主动学习框架，构建匹配点之间的连接图：具体是将一个数据点视为连接图中的点，若两条数据被xgboost模型预测标签为匹配，则将两点进行连接，且计算出两点之间边的权重；若两点预测标签为不匹配，则不需要将两点进行连接；

具体的清洗过程为：

第一步、选择已标注数据中标签为不匹配的数据，检测已建立的连接图中不匹配的数据是否存在通路；若存在联通的情况，则通过最小切割法将两点进行切割，保证两点之间不存在通路；

第二步、为了确保连接图的清洗有效性，若已标注数据与建立的连接图的数据重复度较低，则清洗效率会变低；

所以通过提前设置的距离阈值L与边的权重阈值M，比较已经过第一次清洗后的图中点与点的距离是否超过距离阈值L，若超过了距离阈值L，再计算该条路线上边的平均权重是否低于设置的权重阈值M，若同时达到以上两个条件，则认为该两点也是可疑的点，使用最小切割法对两点进行切割；

其中最小切割算法(MinimumCut)是图像分割的经典算法之一，最小割算法是指在一个有向的图中，能够从源点(source)到达汇点(terminal)的最大流量等于如果从图中剪除就能够导致网络流中断的边的集合的最小容量和。即在任何网络中，最大流的值等于最小割的容量。

步骤7、将已经清洗后的连接图进行图标签的设置，在同一图中的点被视作指向同一实体的相似重复数据，将数据的图预测标签与xgboost模型预测的标签进行比较，选择标签不一致的数据进行重新的人工标注；对于标签不一致的数据，在主动学习中我们认为此类数据有较大的信息含量，为了数据选择的公平性,针对假阳性和假阴性数据，进行权重的平均计算，保证在选择数据时，各个不同的数据都能被公平的选择；比如有十个假阳性数据与五个假阴性数据，那么假阳性数据被选择的概率是十分之一，假阴性数据被选择的概率是五分之一；

步骤9、将已识别的重复数据计算之间的相似度，选择最佳数据进行保留，对多余数据进行数据删重；

式中：w_k为连接图中的点；k为连接图中点的个数。

实验一：

本实验在四个数据集上评估了所提出的模型，包括MusicBrainz数据集[4]“Usinglinkfeaturesforentityclusteringinknowledgegraphs”(Saeedi,A.,Peukert,E.,Rahm,E.ESWC2018.LNCS,vol.10843,pp.576–592.Springer,Cham(2018).https://doi.org/10.1007/978-3-319-93417-437)，这是一个用于多源实体识别的经典数据集。第二个数据集来自麦哲伦存储库[5]“Magellan:towardbuilding entitymatchingmanagementsystemsoverdatasciencestacks”(KondaP,DasS,DoanAH,etal.ProceedingsoftheVLDBEndowment,2016,9(13):1581-1584)，该存储库提供了两个源之间的大量匹配任务，最后一个[6]“TheWDCtraining datasetandgoldstandardforlarge-scaleproductmatching”(Primpeli,A.,Peeters,R.,Bizer,C.CompanionProceedingsofWWW(2019))来自四个电子商务网站发布的计算机产品记录子集，以及其中一个具有更高复杂性和稀疏性的变体。这些数据集由来自具有相同属性的不同数据源的多个表组成，采用F1分数和Precision分数作为评价指标。

实验一主要是测试传统经典相似度算法结合深度学习与传统相似度算法的相似度计算上的优势。传统相似度计算仅用编辑距离，杰卡尔德系数或者重叠度等等公式，这些公式主要是计算属性值字符的相似度，对于短的属性值有着天然优势，比如不用训练，计算方便等等。但是在面对较长属性值的时候，无法较好的计算其语义上的相似度，所以我们提出采用经过预训练的深度学习模型结合传统相似度算法公式。实验结果如图6所示：

由于所选的四个数据集只有三个数据集有长属性值，所以选择其中的三个进行实验。从三个结果图中可以得出结论：采用深度学习模型结合经典相似度算法的计算方式在F1分数上有着更好的结果，能在更短的主动学习轮次中更快达到好的效果。同时，对于多轮次的主动学习，两种结合的方式在稳定性上也更好，避免较大的波动。

实验二：

本实验采用的数据集和实验一相同，该实验设计的目的是检验本发明方法的相似重复数据匹配效果，在传统相似度计算公式结合预训练深度学习模型的基础之上，我们分别用常规基于边的主动学习方法、基于委员会的主动学习方法和原始的图主动学习方法与我们的方法进行比较，观测并记录本方法的重复数据匹配实验，在固定迭代次数的情况下，得到的实验结果如表1、表2所示。

表1

表2

从表1可以看出，随着主动学习时间的循环，GDAL的准确度得分在三个数据集上取得了最佳结果。从第75次和第150次迭代中可以看出，在大多数情况下，GDAL比其他三种基线方法收敛更快。从第四个数据集中，我们还发现，由于Matches数据在该数据集中的比例较低，稀疏性范围更广，因此我们的模型在这类数据集中不是最好的。

通过实验数据观察到，当主动学习操作达到200时，所有任务的F1分数都比通过用所有数据训练匹配模型获得的被动学习结果低0到0.047，而MB基线方法都比GDAL方法低。表2显示了GDAL和其他三种基线方法在主动学习迭代中的准确度得分。在第150次迭代时，它们分别以3.65％、2.95％和3.85％的平均值超过ALMSER、QHC和MB基线方法。

综上所述，本发明首次提出了一种用于数据去重复的图深度主动学习框架，该框架基于相似性算法结合BERT模型来提取多源数据记录的深度相似性特征，其用于删除有效保留最多信息的重复数据。根据对四个多源任务的实验结果，结果表明，与基线方法相比，结合深度学习的特征提取步骤可以更好地表征不同数据记录的特征。同时，改进的图主动学习比最先进的基于委员会的查询策略和基线图增强的主动学习模型更有效。未来的工作主要集中在改进模型性能和优化模型比较实验。

以上所述，并非对本发明作任何形式上的限制，虽然本发明已通过上述实施例揭示，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，可利用上述揭示的技术内容作出些变动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种辅助多源重复数据消重的候选数据筛选方法，其特征在于，包括以下步骤：

步骤2、将多源重复数据集划分为训练数据集和测试数据集；

步骤5、根据预测出来的标签建立匹配点之间的连接图；

具体是将一个数据点视为连接图中的点，若两条数据被xgboost模型预测标签为匹配，则将两点进行连接，且计算出两点之间边的权重；若两点预测标签为不匹配，则不需要将两点进行连接；

所述清洗过程为：检测已建立的连接图中不匹配的数据是否存在通路，若存在联通的情况，则通过最小切割法将两点进行切割，保证两点之间不存在通路；

2.根据权利要求1所述的一种辅助多源重复数据消重的候选数据筛选方法，其特征在于，所述步骤1中预处理的过程为对其异常值处理和缺失值填补。

3.根据权利要求1所述的一种辅助多源重复数据消重的候选数据筛选方法，其特征在于，所述步骤2中利用最大最小归一化方法，对多源重复数据集进行标准化处理，取多源重复数据集的前70％为训练数据集，后30％为测试数据集。

4.根据权利要求1所述的一种辅助多源重复数据消重的候选数据筛选方法，其特征在于，所述步骤3中设定完成学习率lr，迭代次数n-epochs，批处理样本大小batch-size后，两点之间的最大距离L，两点之间边的权重M，依次从训练数据集中取出batch-size大小的样本数，将其输入相似度计算框架，捕属性值之间的相似度。

5.根据权利要求1所述的一种辅助多源重复数据消重的候选数据筛选方法，其特征在于，所述步骤3中相似度的计算公式为：

6.根据权利要求1所述的一种辅助多源重复数据消重的候选数据筛选方法，其特征在于，所述步骤6中通过提前设置的距离阈值L与边的权重阈值M，比较已经过第一次清洗后的连接图中点与点的距离是否超过距离阈值L；若超过了距离阈值L，再计算该条路线上边的平均权重是否低于设置的权重阈值M，若同时达到以上两个条件，则认为该两点也是可疑的点，再使用最小切割法对两点进行切割。

7.根据权利要求1所述的一种辅助多源重复数据消重的候选数据筛选方法，其特征在于，所述步骤9中对重复数据的删除以及选择保留的公式为：

式中：w_k为连接图中的点；k为连接图中点的个数。