CN108959395B

CN108959395B - 一种面向多源异构大数据的层次约减联合清洗方法

Info

Publication number: CN108959395B
Application number: CN201810562672.XA
Authority: CN
Inventors: 陈宁江; 杨尚林
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2020-11-06
Anticipated expiration: 2038-06-04
Also published as: CN108959395A

Abstract

本发明公开了一种针对多源异构数据环境下层次约减分类清洗的方法。所述方法包括：建立数据源重要度度量，从根本上约减不相关或者冗余的数据源，通过数据密度对数据属性和元组进行权重标记，根据权重保留核心元组和边缘元组，约减离群元组。基于分类算法思想，通过属性权重完成增广树贝叶斯网络的构建，利用概率值完成不精确数据与精确数据的分类。本发明在数据清洗的环境中利用层次约减的思想减少了数据清洗的工作量，从而降低数据清洗的难度，提高数据清洗的效率和有效保障数据清洗的准确率。

Description

一种面向多源异构大数据的层次约减联合清洗方法

技术领域

本发明属于计算机技术领域，更具体地，涉及一种面向多源异构大数据的层次约减联合清洗方法。

背景技术

数据的不确定和不一致是现实生活中一个常见问题，不精确数据是指含有不完整、不确定、不一致和噪声的数据。数据清洗是指发现和纠正(或删除)在记录集、表或数据库中存在的损坏或错误的记录，然后替换、修正或删除所识别的不完整、不正确、不准确或不相关的脏数据，达到数据一致性的过程。

对于跨数据源进行不精确数据的清洗，最大的问题是数据清洗的过程得不到很好的控制，每个数据源数据清洗的效果无法保证，由于合并数据源所产生的数据质量问题得将无法得到清洗。虽然建立了统一的数据清洗标准，但是不同的数据领域对标准的解读不同，数据缺乏统一的属性命名与统一的数据格式，最终导致数据清洗的效果大打折扣。同时由于多个数据源的知识领域不同，所涉及的数据类型和数据表示方式不同，导致数据修复的成本将会很高，随着大数据分析技术的发展，大量结构复杂，多视图，多源描述的数据给数据清洗带来新的挑战。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了基于贝叶斯网络的多元异构大数据清洗方法，其目的在于达到数据分析的质量要求，以充分保障数据分析的正确性。

为实现上述目的，本发明提供了一种面向多源异构大数据的层次约减联合清洗方法，包括如下步骤：

(1)通过建立元数据知识库统一数据标准和规范：根据数据字典消除不一致的数据，将元素标准化，对标准化的元素进行一致性校验，将内容上的错误进行修改，建立元数据知识库，所述元数据知识库用于下列方面：辅助进行数据类型检查、数据格式规范化及不一致的缩写处理过程，将预处理后的数据通过知识库引擎和一系列的规则进行处理，以及处理一些规则处理无法完成的重复记录；

(2)识别关联数据表以实现数据源约减：在多源环境下根据重要度的大小进行依次选择实现数据源选择，其中重要度为各种数据属性之间的关联关系，通过捕获这种关联关系，判断数据源的重要度；在多数据源中识别潜在的具有相关关系的数据表，将来自多个数据源不同目标的最密切相关的数据表连接起来，通过把数据表分类在数据源的层次上进行约减，从而缩小数据表的比较范围；

(3)标记属性与元组权重以实现数据区域约减：识别可能存在相似重复数据的区域，当主题重复率达到预设程度，判定相关表的区域存在重复记录，然后通过最大或然数算法进行最后确认，通过主题模型判断关联表的区域相似度缩小比较的范围；

(4)不精确数据的清洗：建立并训练多层贝叶斯模型，利用多层贝叶斯模型综合分析每个因素对数据质量的影响，最终判定正确的数据，删除冗余数据。与现有技术相比，本发明在数据清洗的环境中利用层次约减的思想减少了数据清洗的工作量，从而降低了数据清洗的难度，提高了数据清洗的效率和有效的保证了数据清洗的准确率。

附图说明

图1是本发明实施例中一种面向多源异构大数据的层次约减联合清洗方法的模型训练示意图；

图2是本发明实施例中一种针对多源异构数据环境下层次约减分类清洗系统的构建数据属性标准库流程图；

图3是本发明实施例中一种针对多源异构数据环境下层次约减分类清洗系统的数据元组密度示意图；

图4是本发明实施例中一种针对多源异构数据环境下层次约减分类清洗系统的数据清洗过程中计算属性的互信息示意图；

图5是本发明实施例中一种针对多源异构数据环境下层次约减分类清洗系统的属性集合的加权完全无向图示意图；

图6是本发明实施例中一种针对多源异构数据环境下层次约减分类清洗系统的TAN网络构建结构示意图；

图7是本发明实施例中一种针对多源异构数据环境下层次约减分类清洗系统的TAN分类器训练示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

正确使用高质量的数据可以做出更好的预测、分析和决策。由于在多源异构的数据环境中，不同数据源之间数据结构不同，数据表述形式不统一以及往往含有不完整、不正确或不相关的脏数据，多源异构数据环境的数据清洗工作面临巨大的挑战。数据清洗是保证数据质量的有力手段，通过数据清洗可以提高大数据的一致性、准确性、真实性和可用性。

为提高多源异构环境数据清洗的效率和降低多源异构数据清洗的复杂度，如图1所示，本发明提供了一种针对多源异构数据环境下层次约减分类清洗(HRSC：HierarchicalReduced Sorting Cleaning)的方法，包括：

(1)通过建立元数据知识库，统一数据标准和规范。

多源数据清洗中首先需要将非标准数据统一化成结构数据，为不同类型的数据(结构化/半结构化/非结构化数据)生成结构元数据和描述性元数据。根据数据字典消除不一致的数据，将元素标准化；对标准化的元素进行一致性校验，将内容上的一些错误进行修改；为实现数据统一化，建立元数据知识库，主要用于下列方面：辅助进行数据类型检查、数据格式规范化、不一致的缩写等处理过程；将预处理后的数据通过知识库引擎和一系列的规则进行处理；以及处理一些规则处理无法完成的重复记录。

(2)识别关联数据表，数据源约减。

对于给定的某一个任务，多源环境中的一些数据源可能是不相关或者冗余的，因此从多源环境中选择一组与任务相关的数据源对提高数据清洗的效率和准确率是有重要意义的。在多源环境下根据重要度的大小进行依次选择从而实现数据源选择。重要度为各种数据属性之间的关联关系，通过捕获这种关联关系，判断数据源的重要度。在多数据源中识别潜在的具有相关关系的数据表，将来自多个数据源不同目标的最密切相关的数据表连接起来，通过把数据表分类，在数据源的层次上进行约减，从而缩小数据表的比较范围。

(3)标记属性与元组权重，数据区域约减。

由于多源数据的重复数据是由于数据集成产生的，则重复数据具有区域性，识别可能存在相似重复数据的区域，当主题重复率达到预设程度，判定相关表的区域存在重复记录，然后通过最大或然数(Most Probable Number，MPN)算法进行最后确认，通过主题模型判断关联表的区域相似度，缩小比较的范围，可以大大减少比较次数，特别是在数据量大，数据类型复杂时能大大提高识别效率。

(4)不精确数据的清洗。

不精确数据清洗关键在于如何在相似重复数据中精确地捕获哪个值是正确的或错误的即判断数据的一致性。由于数据来源广泛，一条数据记录中可能包含多个领域，多个专业的数据，本发明建立多层贝叶斯模型，综合分析每个因素对数据质量的影响，最终判定正确的数据，删除冗余数据。

针对于步骤(1)，本发明根据数据字典消除不一致的数据，将元素标准化，然后对标准化的元素进行一致性校验，为实现数据统一化，建立数据属性标准库：

(1.1)属性提取：在结构化数据中，数据属性的提取容易实现，但是由于半结构数据结构不规则且经常变动，特别是从Web端获取的数据，数据形式自由且通常一个属性中还包含多个单独的属性值。所以建立属性标准库关键在于从半结构化数据的自由格式中提取属性值并加以更精确的表示。

(1.2)属性修正与验证：此步骤将检查每个源实例，以获得数据输入错误，并尽可能地对其进行自动更正。本发明采用基于字典查找的拼写检查，用于识别和纠正拼写错误。此外，用属性依赖关系来验证数据属性修正的正确与否。

(1.3)属性标准化：通过把属性值转化为统一的格式，以便于实例匹配和集成。例如，日期和时间条目应该被引入特定的格式；名称和其他字符串数据应该被转换成大写或小写等等。

针对于步骤(2)，为了方便对数据源进行关联度判定，可将关系型数据库中的表导入到数据仓库中合成一张大表。设定T＝{t₁，t₂，…，t_n}为各个数据源合成数据大表的集合，n为数据表的个数，设定C＝{c₁，c₂…c_m}表示单个表中属性的集合，m为属性的个数。

从数据属性之间的相关性比较设计到字符型数据的比较设计，字符串的相似度度量方面编辑距离指两系列字符串之间只能通过插入、删除和替换三种基本操作把源字符串转换成目标字符串所需的最少基本操作次数。编辑距离值越大，则相似度越小。将表t_i的属性集c_i转化为字符串s_i，表t_j字段集c_j转化为字符串分别s_j，定义两个字符串s_i和s_j之间的Levenshtein距离为

其中l_i、l_j分别为字符串s_i和s_j的长度，而

其中

代表字符串s_j插入一个字母，

代表字符串s_i删除一个字母，然后当l_i＝l_j时，不需要代价，所以和上一步d_|i-1，j-1|代价相同，否则+1，接着

是以上三者中最小的一项。

若

则数据表t_i和数据表t_j不存在相关关系。

若

则数据表t_i和数据表t_j为相互关联。

其中阈值

为经验参数，

为数据表t_i和数据表t_j之间的关联系数。

因此，根据数据源的重要度进行选择的公式：

其中，T代表所有数据源合成的表数量，t_i表示一个候选数据源，

表示数据源类之间的相关关系。通过对数据源的重要度的判断可选择关联度最高的数据表集合，约减无关数据表。

针对于步骤(3)，标记属性与元组的权重，对数据源的选择之后，数据属性的选择也同样重要，一个数据源是由一组描述样本信息的数据属性构成，通过该数据属性的特征可反映出数据源的基本描述信息。因此，可通过计算数据元组的相关性来度量每个数据属性的重要度。数据属性的重要度可由在不同的数据领域内，重复出现的元组的次数来定义，即数据元组的数据密度。

在数据库D的某些数据空间S中，给定一组元组(Tuple)Tu，设定对象集O是数据空间S中密集的区域。这些密集对象表示模型中的重复记录或元组，位于低密度区域的数据则是异常值。在高密度区与低密度区之间的对象，代表型中不重复的记录。

进一步地，如图3所示，在模型中，以MinPts表示的存在对象的最小数目，以ε表示的给定邻域的半径，当一个元组是在一个数据集中，包含在邻域ε内的对象数量至少是MinPts时，它被称为核心元组。否则，元组被称为非核心元组。非核心的元组分为边界元组或离群元组。边界元组是本数据集与另一个数据集的相交的部分，但是邻域ε内的对象数量小于MinPts。离群元组为既不是核心元组，也不在另一个核心元组邻域ε内。如图3所示，当MinPts＝3时，元组P₁为核心元组，元组P₂为边界元组，元组P₃为离群元组。

在基于密度的算法中，数据空间被划分为具有不同密度的对象区域，利用这一思路，为数据集每个元组分配权重。对于关系模式R，设定Tu＝{A₁，A₂…A_n}表示R的n个元组的集合，用dom_A表示元组A∈R的域，，用w[A]表示元组A的权重值，令N为T元组的数量，则每个元组都在域

中。设Q为全体元组的属性Q＝{C₁，C₂…C_q}，其中C＝{c₁，}为T中不同元组属性的组合。

设I_C为属性集合Q＝{C₁，C₂…C_q}的一个属性C中的一个实例。即I＝{A₁，A₂…A_n}元组集合中的一个元组集合实例。则I_C′为元组集合I＝{A₁，A₂…A_n}中所有剩余的元组，I_C′＝I-I_C。

令k和b分别表示为I_C核心元组和边界元组的数量，设定w(t_k)为I_C的一个核心元组的权重，w(t_b)为I_C一个边缘元组的权重。

定义1：核心元组的权重w(t_k)是核心元组的个数除以I_C所有的元组数：

定义2：边缘元组的权重w(t_b)是边缘元组的个数除以I_C所有的元组数：

定义3：属性的权重w(C)是核心元组的加权和，再加上代表存在的边界元组的权重的求和：

其中δ为设置的经验参数。

针对于步骤(4)，将数据源模型表示为一个增广树贝叶斯(Tree Augmented BayesNetwork，TAN)网络，通过贝叶斯网络结构学习和输入属性与元组的概率分布来自然地捕获属性之间的关系。

设一组数据集U＝{X₁,X₂,…X_n,V},V是类变量，取值范围为{v₁,v₂,…v_m}。m是类总数，{x₁,x₂,…x_n}是{X₁,X₂,…X_n}显示分类的特征的属性值，n是分类的属性数量。TAN分类器假设由属性节点{X₁,X₂…X_n}组成的TAN网络的结构是一棵树，每个属性变量除了父类以外不多于一个属性父节点。类结点是每一个属性结点的父结点，属性结点之间形成一棵树为最大权重跨度树。

定义4对概率分布p(X₁,X₂…X_n,V),使用

对变量V进行预测的分类器为TAN分类器，其中G_T表示在类变量V约束下X₁,X₂…X_n的最大权重跨度树，

是在最大权重跨度树中X_i的属性父结点∏(x_i)的取值。

用函数π:{1,2…n}→{0,1,…,n}来刻画TAN属性树，使π(i)＝0的结点为父节点，不存在序列{i₁,i₂…i_k}使π(i_j)＝i_j+1,其中i≤j<k,而且π(i_k)＝i₁，也就是不能产生无向环路。当π(i)>0时，∏x_i＝{x_π(i)}；当π(i)＝0时，

因此，函数π就定义了TAN网络的结构。

进一步地，如图4所示，一般构建TAN网时属性之间的权重是计算计算变量之间的属性的互信息，互信息指两个随机变量之间的关联程度，即给定一个随机变量后，另一个随机变量不确定性的削弱程度，定义互信息I(X，Y)为：

其中，p(x，y)为变量(X，Y)的联合分布，p(x)，p(y)分别为边缘分布。

属性之间的互信息即为属性的关联性，类属性的不同所计算的属性关联性值也不同，考虑TAN网类变量属性的加入，某一分类属性的互信息公式需要进行重新定义，所以TAN网的互信息的计算公式为：

其中C_i，C_j为属性变量，c为类变量。

每个数据源的属性集合Q＝{C₁，C₂…C_q}与属性的权重w(C)构造一个TAN分类器。以图5以具有6个属性结点的{C₁，C₂…C₆}为例，属性结点的互信息为：

I(C₁，C₂)＝10 I(C₁，C₃)＝16 I(C₁，C₄)＝11 I(C₁，C₅)＝10

I(C₁，C₆)＝17 I(C₂，C₃)＝9 I(C₂，C₄)＝5 I(C₂，C₅)＝6

I(C₂，C₆)＝19 I(C₃，C₄)＝7 I(C₃，C₅)＝5 I(C₃，C₆)＝12

I(C₄，C₅)＝8 I(C₄，C₆)＝7 I(C₅，C₆)＝9

则经过学习后的TAN分类器结构如图6所示，TAN分类器结构得到分类器表示形式为：

分类结果概率的计算是把查询的条件属性传入分类模型中，然后计算不同类属性下的概率值，拥有最大概率值的分类属性值为最终的分类结果，即不精确数据概率最大的集合，即计算其联合概率分布：

TAN分类器构造过程如下：

(1)求取所有属性对的互信息值I(X_i,X_j)，

对I(X_i,X_j)进行降序排序，依次输出节点对。

(3)根据TAN网不产生环路的原则，则选择边需按照边权重降序的顺序，直到取到n一1条边为止，构建以互信息值为权重的完全无向图。

(4)选择完全无向图中任意一个结点作为TAN网的根结点，由根节点向外的方向设置所有边的方向，通过设置属性节点之间的方向，完成无向树转换为有向树的过程。

(5)为每一个TAN网中的节点增加一个类结点(即分类属性节点)及类结点指向所有属性结点的有向边。

基于TAN网络的层次约减分类清洗策略(Hierarchical Reduced SortingCleaning，HRSC)描述如下：：

输入：源数据属性数据集D⁽⁰⁾，训练样本集合Q

输出：TAN网络节点

(1)对源数据属性数据集D⁽⁰⁾进行采样；

(2)根据算法1重要度度量算法对采样数据进行数据层次约减；

(3)根据算法2TAN网络构建算法，对训练样本集合Q进行训练，构建TAN网络；

(4)使用训练样本数据集，利用互信息值对构建TAN网络进行评分；

(5)使用层次约减数据集，利用互信息值对构建TAN网络进行评分；

(6)判断步骤(4)和步骤(5)的结果，若步骤(4)结果大于步骤(5)结果，返回执行步骤(2)和步骤(3)，直至步骤(5)结果大于步骤(4)结果；

(7)使用ES按期望相关性对TAN网络节点互信息值进行降序排序；

(8)判断Top-k互信息值I(X_i,X_j)与经验参数值，若Top-k互信息值I(X_i,X_j)小于经验参数值，去除顶层节点，查询对去除顶层节点结果的评分R；

(9)根据评分R对TAN网络节点进行降序排序输出。

进一步地如图7所示，本发明TAN分类器的构建主要分为以下四个步骤：

(1)确定特征属性：首先进行数据离散化，然后根据属性度量权重确定特征属性，并对每个特征属性进行适当划分，然后根据标记的属性权重和元组权重对一部分待分类项进行分类，形成TAN网训练样本集合。

(2)TAN分类器训练：在训练样本中计算每个类别出现频率，并对每个特征属性进行划分，综合属性重要度度量计算每个类别的条件概率估计，并将结果记录。

(3)TAN分类器评价：为了TAN分类器的有效性，采用两种分类器评价机制，一种为回归测试来评估分类器的准确率，即用构造完成的TAN分类器对训练数据进行再次分类，然后根据结果给出正确率评估。另一种评价为随机将训练数据分为两份，用其中一份数据构造分类器，然后用另一外一份数据进行检测分类器的准确率。

(4)TAN分类器应用：TAN分类器的训练是多次迭代进行校正的结果，所以在应用阶段需要记录分类的准确度，并返回进行TAN分类器迭代训练。

Claims

1.一种面向多源异构大数据的层次约减联合清洗方法，其特征在于，包括如下步骤：

(4)不精确数据的清洗：建立并训练多层贝叶斯模型，利用多层贝叶斯模型综合分析每个因素对数据质量的影响，最终判定正确的数据，删除冗余数据。

2.如权利要求1所述的面向多源异构大数据的层次约减联合清洗方法，其特征在于，所述步骤(1)具体包括：

(1.1)属性提取：从结构化数据中，提取数据属性；从半结构化数据的自由格式中提取属性值并加以更精确的表示；

(1.2)属性修正与验证：利用基于字典查找的拼写检查每个源实例，以获得数据输入错误，并对其进行自动更正，并且用属性依赖关系来验证数据属性修正的正确与否；

(1.3)属性标准化：通过把属性值转化为统一的格式，以便于实例匹配和集成。

3.如权利要求1或2所述的面向多源异构大数据的层次约减联合清洗方法，其特征在于，在所述步骤(3)中通过计算数据元组的相关性来度量每个数据属性的重要度，其中数据属性的重要度由在不同的数据源内，重复出现的元组的次数来定义，即数据元组的数据密度。

4.如权利要求3所述的面向多源异构大数据的层次约减联合清洗方法，其特征在于，所述数据元组的数据密度定义为：

令k和b分别表示为I_C核心元组和边界元组的数量，设定w(t_k)为I_C的一个核心元组的权重，w(t_b)为I_C一个边缘元组的权重；

其中δ为设置的经验参数；

所述数据元组的定义为：

以MinPts表示存在对象的最小数目，以ε表示给定邻域的半径，当一个元组是在一个数据集中，包含在邻域ε内的对象数量至少是MinPts时，它被称为核心元组；否则，元组被称为非核心元组；

非核心的元组分为边界元组或离群元组，边界元组是本数据集与另一个数据集的相交的部分，但是邻域ε内的对象数量小于MinPts；离群元组为既不是核心元组，也不在另一个核心元组邻域ε内。

5.如权利要求1或2所述的面向多源异构大数据的层次约减联合清洗方法，其特征在于，所述步骤(4)具体为：将数据源模型表示为一个贝叶斯网络，通过贝叶斯网络结构学习和输入属性与元组的概率分布来自然地捕获属性之间的关系，其中所述贝叶斯网络定义为：

设一组数据集U＝{X₁,X₂,…X_n,V}，V是类变量，取值范围为{v₁,v₂,…x_m}，m是类总数，{x₁,x₂,…x_n}是{X₁,X₂,…X_n}显示分类的特征的属性值，n是分类的属性数量，TAN分类器假设由属性节点{X₁,X₂…X_n}组成的TAN网络的结构是一棵树，每个属性变量除了父类以外不多于一个属性父节点，类结点是每一个属性结点的父结点，属性结点之间形成一棵树为最大权重跨度树；

对概率分布p(X₁,X₂…X_n,V)，使用

是在最大权重跨度树中X_i的属性父结点∏(x_i)的取值；

用函数π:{1,2…n}→{0,1,…,n}来刻画TAN属性树，使π(i)＝0的结点为父节点，不存在序列{i₁,i₂…i_k}使π(i_j)＝i_j+1,其中i≤j＜k，而且π(i_k)＝i₁，也就是不能产生无向环路，当π(i)＞0时，∏x_i＝{x_π(i)}；当π(i)＝0时，

因此，函数π定义了TAN网络的结构。

6.如权利要求5所述的面向多源异构大数据的层次约减联合清洗方法，其特征在于，所述TAN分类器构造过程如下：

求取所有属性对的互信息值I(X_i,X_j)，

对I(X_i,X_j)进行降序排序，依次输出节点对；

根据TAN网不产生环路的原则，则选择边需按照边权重降序的顺序，直到取到n一1条边为止，构建以互信息值为权重的完全无向图；

选择完全无向图中任意一个结点作为TAN网的根结点，由根节点向外的方向设置所有边的方向，通过设置属性节点之间的方向，完成无向树转换为有向树的过程；

为每一个TAN网中的节点增加一个分类属性节点及类结点指向所有属性结点的有向边。