CN111858572B

CN111858572B - 一种基于数据分析的分布式数据清洗系统及方法

Info

Publication number: CN111858572B
Application number: CN202010709750.1A
Authority: CN
Inventors: 张伟; 徐志峰
Original assignee: Shandong Academy Of Sciences Yida Technology Consulting Co ltd
Current assignee: Shandong Academy Of Sciences Yida Technology Consulting Co ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2021-06-15
Anticipated expiration: 2040-07-22
Also published as: CN111858572A

Abstract

本发明涉及一种基于数据分析的分布式数据清洗系统，该基于数据分析的分布式数据清洗系统，包括多元异构数据库，存储用户模型、元数据元素以及与其有对应关系的源数据元素；以及至少一个以上的处理单元，可操作来：提取多元异构数据库的用户模型、元数据元素以及源数据元素；选出初始元数据元素；选择所述用户模型的至少一个以上的数据属性项作为关系参数，所述关系参数对应的预设加权值，提取元数据集Q；对元数据集Q中的所述元数据元素进行清洗；本发明基于用户模型配合关系参数的选定能够筛选多个类别的元数据集，对于各个类别的元数据集可以选定针对的清洗规则，提高清洗速度，具有较高的灵活度和实用性，提高了数据清洗的可控性。

Description

一种基于数据分析的分布式数据清洗系统及方法

技术领域

本发明属于人工智能数据处理技术领域，具体涉及一种基于数据分析的分布式数据清洗系统。

背景技术

异构数据库系统是相关的多个数据库系统的集合，可以实现数据的共享和透明访问，几个数据库系统在加入异构数据库系统之前本身就已经存在，拥有自己的数据库管理系统、外构数据库的各个组成部分具有自身的自治性，实现数据共享的同时，每个数据库系统仍有自己的应用特性、完整性控制和安全性控制；

----异构数据库系统的目标在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。其中关键的一点就是以局部数据库模式为基础，建立全局的数据模式或全局外视图。这种全局模式对于建立高级的决策支持系统尤为重要。

----大型机构在许多地点都有分支机构，每个子机构的数据库中都有着自己的信息数据，而决策制订人员一般只关心宏观的、为全局模式所描述的信息。建立在数据仓库技术基础上的异构数据库全局模式的描述是一种好的解决方案。数据仓库可以从异构数据库系统中的多个数据库中收集信息，并建立统一的全局模式，同时收集的数据还支持对历史数据的访问，用户通过数据仓库提供的统一的数据接口进行决策支持的查询；

在异构数据库的基础上增加了数据来源的多元化构成多元异构数据库，多元异构数据库相较于普通异构数据库更增加了来源多元化的数据特性，因此在数据的多元复杂程度上更上一层，对于这样的多元异构数据库如果直接通过清洗工具进行清洗，那么预定的清洗规则无法普遍适用于多元异构数据库中的数据，对于复杂多元的数据的清洗会导致数据属性丢失，破坏数据的完整性，清洗速度慢，而且清洗的效果也是不可预估的。

发明内容

本发明提供一种的基于数据分析的分布式数据清洗系统，解决相关技术中多元异构数据库直接应用清洗工具清洗产生的技术问题。

根据本发明的一个方面，提供了一种基于数据分析的分布式数据清洗系统，包括：

-多元异构数据库，存储用户模型、元数据元素以及与其有对应关系的源数据元素；以及

-至少一个以上的处理单元，可操作来：

提取多元异构数据库的用户模型、元数据元素以及源数据元素；

计算所述元数据元素与所述用户模型的相关度，将所述元数据元素与所述用户模型的相关度与预定的相关度阈值进行比较，选出相关度大于所述预定的相关度阈值的元数据元素作为初始元数据元素；

选择所述用户模型的至少一个以上的数据属性项作为关系参数，所述关系参数对应的预设加权值，提取与所述初始元数据元素具有公共关系的元数据元素组成集合C，集合C中的元数据元素提取对应的源数据元素组成集合D，在集合D中选择与所述初始元数据元素具有共同的关系参数的所述源数据元素，并计算所述源数据元素与初始元数据元素的倾向度，选择倾向度大于预定倾向度阈值的所述源数据元素，并提取所述源数据元素对应的所述元数据元素与所述初始元数据元素共同组成元数据集Q；

选择至少一个以上的数据清洗工具以及至少一个以上的预定的数据清洗规则对元数据集Q中的所述元数据元素进行清洗，清洗后的元数据元素导入异构多源数据库保存；

迭代执行上述步骤，以完成数据清洗。

进一步地，所述处理单元包括采集模块、处理模块、元数据分类模块、清洗模块和输出模块，所述采集模块用于采集多元异构数据库的用户模型、元数据元素以及源数据元素；

所述处理模块用于对所述采集模块所采集的所述元数据元素与所述用户模型的相关度，筛选初始元数据元素；

所述元数据分类模块从所述采集模块采集的元数据元素中筛选与所述初始元数据元素具有公共关系的元数据元素，从所述采集模块采集的源数据元素中提取与所述与所述初始元数据元素具有公共关系的元数据元素对应的源数据元素，根据与所述初始元数据元素的倾向度筛选所述源数据元素，之后在采集模块采集的元数据元素中提取与所述源数据元素对应的所述元数据元素组成元数据集Q；

所述清洗模块对所述元数据集Q中的所述元数据元素进行清洗；

所述输出模块对所述清洗模块清洗后的所述元数据元素输出到多元异构数据库储存。

一种基于数据分析的分布式数据清洗方法，包括：

从多元异构数据库中提取一个用户模型；

从多元异构数据库中提取任意一个元数据元素，计算所述元数据元素与所述用户模型的相关度；

将所述元数据元素与所述用户模型的相关度与预定的相关度阈值进行比较，如果相关度大于预定的相关度阈值，则执行下一步骤，反之，重复上一步骤直至选出相关度大于所述预定的相关度阈值的元数据元素作为初始元数据元素；

选择至少一个以上的数据清洗工具以及至少一个以上的预定的数据清洗规则对元数据集Q中的所述元数据元素进行清洗，清洗后的元数据元素返回异构多源数据库保存；

依照除第一个步骤以外的其他步骤进行迭代得到若干个已清洗的元数据集Q1，Q2，...，Qi，...Qn，完成数据清洗。

进一步地，所述依照除第一个步骤以外的其他步骤进行迭代中每一次迭代完成后屏蔽已经选出的元数据集Q中的所有元数据元素。

进一步地，所述依照除第一个步骤以外的其他步骤进行迭代中每一次迭代完成后屏蔽已经选择的数据属性项。

进一步地，所述用户模型为M＝{X，W}，其中X表征数据属性，W表征每一数据属性的权重；

所述X＝{X1,X2,...,Xi,...,Xn}，Xi代表的数据属性项，W＝{W1,W2,...,Wi,...,Wn}，Wi为Xi的权重向量；

所述从数据库中提取任意一个元数据元素，计算所述元数据元素与所述用户模型的相似度包括：

计算实施元数据元素的所有的数据属性项与实施用户模型的相关度，并求和得到所述用户模型与所述元数据元素的相关度；

通过公式(1)计算所述用户模型与所述元数据元素的数据属性项的相关度：

其中，P_uj表示用户模型与所述元数据元素的相关度，X表示用户模型的数据属性项集合i是其中某一个数据属性，S表示元数据元素的数据属性项集合，j是这个集合中的某一个数据属性项，R_ji表示数据属性项j和数据属性项i的相似度，W_i表示所述用户模型中数据属性项i对应的权重向量；

进一步地，所述预定的相关度阈值在(0,1)的区间内进行选择，数值越小则迭代次数越少，并且能够提取更多的元数据元素以及源数据元素，数值越大则对相关度的要求越高，导致迭代次数的增加，提取的元数据元素以及源数据元素减少，但是会提高提取的元数据元素以及源数据元素减少的质量，预定相关度阈值的选值一定程度上决定了选择策略。

进一步地，所述关系参数对应的预设加权值的范围在(0,1)的区间内，加权值体现了对于对应所述关系参数的关联度或匹配度或兴趣度，加权值的大小代表了上述程度的大小。

进一步地，所述计算所述源数据元素与初始元数据元素的倾向度的公式为：

P_q表示所述源数据元素与初始元数据元素的倾向度，E_i代表所述关系参数中的一个，H_i代表对应E_i的关系参数的预设加权值。

进一步地，所述关系参数和预设加权值存储于多元异构数据库中和/或由用户输入。

本发明的有益效果在于：

1)本发明的预先基于用户模型对元数据进行筛选，并通过元数据与源数据之间的映射反向筛选出元数据集合进行清洗，基于用户模型配合关系参数的选定能够筛选多个类别的元数据集，对于各个类别的元数据集可以选定针对的清洗规则，提高清洗速度，具有较高的灵活度和实用性，提高了数据清洗的可控性和精准度。本发明用于提高数据清洗速度和准确性，满足海量数据分析匹配方案；

2)本发明基于用户模型选择初始元数据元素作为初始的参考，通过对于相关度阈值的设定可以调整基于用户模型所选择的初始元数据元素的范围，最终产生一个现象，剩余部分元数据元素由于相关度阈值导致无法选出初始元数据元素，导致迭代终止，剩余的这部分元数据元素无法进入下一步骤，也即影响最终加入元数据集的元数据元素的总量，这就导致会由于用户的倾向产生两个策略：1、选择更大的相关度阈值获取总量较少但更为匹配的元数据元素；2、选择更小相关度阈值获取总量较大但匹配度较低的元数据元素；

3)本发明基于公共关系提取元数据元素作为集合，在该集合内的所有元数据元素具有对应的公共关系，该公共关系由用户进行指定，可以是共同的内容、共同类型、共同的格式等各种，用户可通过指定公共关系来限制集合D，从而形成多种策略用于限制最终清洗所获得的元数据元素的倾向；

4)本发明通过选定数据属性项作为基于用户模型的关系参数，选择数据属性项作为关系参数，数据属性项是初始元数据元素与源数据元素之间的共有组成，基于这样一个关系参数进行倾向度计算，通过指定关系参数形成多种策略，也即限制源数据元素的引入，进一步筛选最终清洗获得的源数据元素。

5)本发明基于初始元数据元素与源数据元素的倾向度筛选匹配的源数据元素，再反向获取与源数据元素对应的元数据元素进行清洗，基于源数据元素的选择能够消除多源异构造成的元数据元素偏差，能够解决多元异构数据库中数据过于冗杂导致筛选出的元数据元素包含大量无价值或低价值元数据元素的问题。

6)本发明基于初始元数据元素与源数据元素的倾向度限制元数据集Q，通过设定倾向度阈值产生两个对应的策略：1、选择更大的倾向度阈值获得的最终清洗获得的元数据元素更有价值；2、选择更小的倾向度阈值获得的最终清洗获得的元数据元素总量更大。

附图说明

图1是本发明实施例的基于数据分析的分布式数据清洗系统的整体结构示意图一；

图2是本发明实施例的基于数据分析的分布式数据清洗系统的整体结构示意图二；

图3是本发明实施例的基于数据分析的分布式数据清洗方法的流程示意图；

图4是本发明实施例的基于数据分析的分布式数据清洗方法的步骤400的具体流程示意图。

图中：多元异构数据库1、处理单元2、采集模块201、处理模块202、元数据分类模块203、清洗模块204和输出模块205。

具体实施方式

下面结合附图对本申请作进一步详细描述，有必要在此指出的是，以下具体实施方式只用于对本申请进行进一步的说明，不能理解为对本申请保护范围的限制，该领域的技术人员可以根据上述申请内容对本申请作出一些非本质的改进和调整。

如图1-2所示，一种基于数据分析的分布式数据清洗系统，包括：

-多元异构数据库1，存储用户模型、元数据元素以及与其有对应关系的源数据元素；以及

-至少一个以上的处理单元2，可操作来：

提取多元异构数据库1的用户模型、元数据元素以及源数据元素；

选择至少一个以上的预定的数据清洗规则对元数据集Q中的所述元数据元素进行清洗，清洗后的元数据元素导入异构多源数据库保存；

迭代执行上述步骤，以完成数据清洗。

所述迭代执行中每一次迭代完成后屏蔽已经选出的元数据集Q中的所有元数据元素，最终得到的元数据集之间不存在交集。避免在所述提取任意一个元数据元素时提取已选出元数据元素集中的元数据元素。

所述公共关系也即元数据元素之间的统一关系，选定初始元数据元素的至少一个以上的内容作为预定内容，公共关系即具有共同预定内容的关系，与初始元数据元素具有公共关系的元数据元素也即与初始元数据元素具有共同预定内容的元数据元素；

例如对于数据源类别的元数据元素一般包括以下内容：

数据源存储平台；

数据源的数据格式；

数据源的业务内容说明；

数据源的所有者；

数据源的访问方法及使用限制；

实施数据抽取的工具及相应参数设置；

数据抽取的进度安排；

实际数据抽取的时间、内容及完成情况记录；

公共关系也可以是具有共同类型的关系，也即与初始元数据元素具有共同类型的元数据元素；

公共关系可以由用户进行指定，例如用户仅针对数据源存储平台进行选择，则可选定数据源存储平台作为预定内容进而得到公共关系，在该公共关系下筛选用户指定的，

本发明基于用户模型选择初始元数据元素作为初始的参考，通过对于相关度阈值的设定可以调整基于用户模型所选择的初始元数据元素的范围，最终产生一个现象，剩余部分元数据元素由于相关度阈值导致无法选出初始元数据元素，导致迭代终止，剩余的这部分元数据元素无法进入下一步骤，也即影响最终加入元数据集的元数据元素的总量，这就导致会由于用户的倾向产生两个策略：1、选择更大的相关度阈值获取总量较少但更为匹配的元数据元素；2、选择更小相关度阈值获取总量较大但匹配度较低的元数据元素；

本发明基于公共关系提取元数据元素作为集合，在该集合内的所有元数据元素具有对应的公共关系，该公共关系由用户进行指定，可以是共同的内容、共同类型、共同的格式等各种，用户可通过指定公共关系来限制集合D，从而形成多种策略用于限制最终清洗所获得的元数据元素的倾向；

本发明通过选定数据属性项作为基于用户模型的关系参数，选择数据属性项作为关系参数，数据属性项是初始元数据元素与源数据元素之间的共有组成，基于这样一个关系参数进行倾向度计算，通过指定关系参数形成多种策略，也即限制源数据元素的引入，进一步筛选最终清洗获得的源数据元素。

本发明基于初始元数据元素与源数据元素的倾向度筛选匹配的源数据元素，再反向获取与源数据元素对应的元数据元素进行清洗，基于源数据元素的选择能够消除多源异构造成的元数据元素偏差，能够解决多元异构数据库1中数据过于冗杂导致筛选出的元数据元素包含大量无价值或低价值元数据元素的问题。

本发明基于初始元数据元素与源数据元素的倾向度限制元数据集Q，通过设定倾向度阈值产生两个对应的策略：1、选择更大的倾向度阈值获得的最终清洗获得的元数据元素更有价值；

2、选择更小的倾向度阈值获得的最终清洗获得的元数据元素总量更大。

处理单元2可选但不限于：处理器、计算机及计算机集群。

处理单元2的形式可以具有很多种，在本实施例中提供一种可选的实现方式。

实施例一

如图1-2所示，所述处理单元2包括采集模块201、处理模块202、元数据分类模块203、清洗模块204和输出模块205，所述采集模块201用于采集多元异构数据库1的用户模型、元数据元素以及源数据元素；

所述处理模块202用于对所述采集模块201所采集的所述元数据元素与所述用户模型的相关度，筛选初始元数据元素；

所述元数据分类模块203从所述采集模块201采集的元数据元素中筛选与所述初始元数据元素具有公共关系的元数据元素，从所述采集模块201采集的源数据元素中提取与所述与所述初始元数据元素具有公共关系的元数据元素对应的源数据元素，根据与所述初始元数据元素的倾向度筛选所述源数据元素，之后在采集模块201采集的元数据元素中提取与所述源数据元素对应的所述元数据元素组成元数据集Q；

所述清洗模块204对所述元数据集Q中的所述元数据元素进行清洗；

所述输出模块205对所述清洗模块204清洗后的所述元数据元素输出到多元异构数据库1储存。

其中处理单元2还包括用于输入相关度阈值、关系参数和倾向度阈值的用户输入模块，可选但不限于：键盘、鼠标、触摸屏；

其中处理单元2还包括用于显示的显示模块，显示模块可选但不限于：触摸屏、显示器；

如图1-2所示，所述采集模块201和输出模块205可以都连接到接口，该接口通过网络与多元异构数据库1的接口连接。

如图3-4所示，一种基于数据分析的分布式数据清洗方法，包括：

步骤100，从多元异构数据库1中提取一个用户模型；

步骤200，从多元异构数据库1中提取任意一个元数据元素，计算所述元数据元素与所述用户模型的相关度；

步骤300，将所述元数据元素与所述用户模型的相关度与预定的相关度阈值进行比较，如果相关度大于预定的相关度阈值，则执行下一步骤，反之，重复上一步骤直至选出相关度大于所述预定的相关度阈值的元数据元素作为初始元数据元素；

如图4所示，步骤400，选择所述用户模型的至少一个以上的数据属性项作为关系参数，所述关系参数对应的预设加权值，提取与所述初始元数据元素具有公共关系的元数据元素组成集合C，集合C中的元数据元素提取对应的源数据元素组成集合D，在集合D中选择与所述初始元数据元素具有共同的关系参数的所述源数据元素，并计算所述源数据元素与初始元数据元素的倾向度，选择倾向度大于预定倾向度阈值的所述源数据元素，并提取所述源数据元素对应的所述元数据元素组成元数据集Q。

步骤500，选择至少一个以上的数据清洗工具以及至少一个以上的预定的数据清洗规则对元数据集Q中的所述元数据元素进行清洗，清洗后的元数据元素返回异构多源数据库保存；

依照步骤200～500进行迭代得到若干个已清洗的元数据集Q1，Q2，...，Qi，...Qn，完成数据清洗。

所述依照步骤200～500进行迭代中每一次迭代完成后屏蔽已经选出的元数据集Q中的所有元数据元素，最终得到的元数据集之间不存在交集。避免在所述提取任意一个元数据元素时提取已选出元数据元素集中的元数据元素。

所述依照步骤200～500进行迭代中每一次迭代完成后屏蔽已经选择的数据属性项，最终得到的元数据集代表不同的分类，更为具体的对元数据集设置与对应的迭代中所选择的关系参数作为所述元数据集的标签，附带标签的元数据集能够更为方便的获得元数据集的分类属性。

迭代执行上述步骤可以获得至少两个的用户模型的元数据分类，也即对应于不同用户模型的元数据集。

所述用户模型为M＝{X，W}，其中X表征数据属性，W表征每一数据属性的权重

数据属性项j和数据属性项i的相似度的计算公式可选但不限于：

欧氏距离

曼哈顿距离；

切比雪夫距离；

马氏距离；

夹角余弦距离；

杰卡德相似系数与杰拉德距离；

Claims

1.一种基于数据分析的分布式数据清洗系统，其特征在于：包括：

-至少一个以上的处理单元，可操作来：

迭代执行上述步骤，以完成数据清洗。

2.根据权利要求1所述的基于数据分析的分布式数据清洗系统，其特征在于：所述处理单元包括采集模块、处理模块、元数据分类模块、清洗模块和输出模块，所述采集模块用于采集多元异构数据库的用户模型、元数据元素以及源数据元素；

3.一种基于数据分析的分布式数据清洗方法，其特征在于：包括：

从多元异构数据库中提取一个用户模型；

4.根据权利要求3所述的基于数据分析的分布式数据清洗方法，其特征在于：所述依照除第一个步骤以外的其他步骤进行迭代中每一次迭代完成后屏蔽已经选出的元数据集Q中的所有元数据元素。

5.根据权利要求3所述的基于数据分析的分布式数据清洗方法，其特征在于：所述依照除第一个步骤以外的其他步骤进行迭代中每一次迭代完成后屏蔽已经选择的数据属性项。

6.根据权利要求3所述的基于数据分析的分布式数据清洗方法，其特征在于：所述用户模型为M＝{X，W}，其中X表征数据属性，W表征每一数据属性的权重；

其中，P_uj表示用户模型与所述元数据元素的相关度，X表示用户模型的数据属性项集合，i是其中某一个数据属性，S表示元数据元素的数据属性项集合，j是这个集合中的某一个数据属性项，R_ji表示数据属性项j和数据属性项i的相似度，W_i表示所述用户模型中数据属性项i对应的权重向量。

7.根据权利要求3所述的基于数据分析的分布式数据清洗方法，其特征在于：所述预定的相关度阈值在(0,1)的区间内进行选择，数值越小则迭代次数越少，并且能够提取更多的元数据元素以及源数据元素，数值越大则对相关度的要求越高，导致迭代次数的增加，提取的元数据元素以及源数据元素减少，但是会提高提取的元数据元素以及源数据元素减少的质量，预定相关度阈值的选值一定程度上决定了选择策略。

8.根据权利要求3所述的基于数据分析的分布式数据清洗方法，其特征在于：所述关系参数对应的预设加权值的范围在(0,1)的区间内，加权值体现了对于对应所述关系参数的关联度或匹配度或兴趣度，加权值的大小代表了上述程度的大小。

9.根据权利要求3所述的基于数据分析的分布式数据清洗方法，其特征在于：所述计算所述源数据元素与初始元数据元素的倾向度的公式为：

10.根据权利要求3～8任一所述的基于数据分析的分布式数据清洗方法，其特征在于：所述关系参数和预设加权值存储于多元异构数据库中和/或由用户输入。