CN105183824A - 数据整合方法及装置 - Google Patents

数据整合方法及装置 Download PDF

Info

Publication number
CN105183824A
CN105183824A CN201510540556.4A CN201510540556A CN105183824A CN 105183824 A CN105183824 A CN 105183824A CN 201510540556 A CN201510540556 A CN 201510540556A CN 105183824 A CN105183824 A CN 105183824A
Authority
CN
China
Prior art keywords
data
summit
data element
relationship diagram
pending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510540556.4A
Other languages
English (en)
Other versions
CN105183824B (zh
Inventor
尹思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Jianxi Large Data Science & Technology Co Ltd
Original Assignee
Chongqing Jianxi Large Data Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Jianxi Large Data Science & Technology Co Ltd filed Critical Chongqing Jianxi Large Data Science & Technology Co Ltd
Priority to CN201510540556.4A priority Critical patent/CN105183824B/zh
Publication of CN105183824A publication Critical patent/CN105183824A/zh
Application granted granted Critical
Publication of CN105183824B publication Critical patent/CN105183824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据整合方法及装置,用于将数据整合的过程抽象为数据处理流水线,该数据处理流水线可以通过所述数据整合方法所包括的以下步骤实现:从数据集合中选择出需要进行数据整合处理的各待处理数据元;对所述各待处理数据元进行配对处理,以确定各待处理数据元之间的匹配关系;将所选择出的各待处理数据元作为数据关系图中的各顶点;根据各待处理数据元之间的匹配关系生成用于连接各顶点的边,以得到数据关系图;根据数据关系图和全局决策,从各顶点中确定出待修改数据元。通过将数据集合中的数据元以数据关系图的形式表示出来,基于所生成的数据关系图来进行数据挖掘分析,根据本发明的数据整合方法和装置能够提高数据整合的效率和质量。

Description

数据整合方法及装置
技术领域
本发明涉及大数据处理领域,尤其涉及一种数据整合方法及装置。
背景技术
企业的数据分析主要包括数据收集(DataCollection)、数据整合(DataCuration)和数据分析(DataAnalytics)这三个阶段。其中,数据收集即企业将各种业务所产生的数据做收集、建模和存储;数据整合即企业对其收集到的各种数据源做筛选、清洗、去重和多数据源集成,最后根据业务数据分析需求将结果表现为一个新的数据源用于下游分析,这里,新的数据可以来自于一个数据源(如单一数据表),也可以来自于多个数据源(如多个不同的数据表);数据分析即企业对其整合出的新的数据做相应的业务分析报表以及预测评估。由此可见,数据整合为数据分析的关键阶段,整合质量对于后续的数据分析非常重要。
然而,在当前的软件应用中对于数据整合缺乏通用、统一的系统和标准,其采用不同的软件来实现数据整合的各个步骤,例如采用IBMDataStage做ETL、采用SASDataQuality做数据清洗、采用Symantec做去重处理。每一种软件无论来自同一公司还是不同公司,其实现都有自己独特的数据结构、算法设计和使用接口。对使用者来说每做一种数据处理都需要学习新的应用软件和使用新的应用环境。这不仅增加了用户和企业的负担,降低了数据处理的效率,同时也无法满足大数据规模的需求。换言之,当前的数据整合方案使得在用户使用方面和大数据扩展性能方面都会有很大的瓶颈。
发明内容
技术问题
有鉴于此,本发明要解决的技术问题是,如何提高数据整合的效率和质量。
解决方案
为了解决上述技术问题,根据本发明的一个方面,提供了一种数据整合方法,用于将数据整合的过程抽象为数据处理流水线,该数据处理流水线可以通过所述数据整合方法所包括的以下步骤实现:从数据集合中选择出需要进行数据整合处理的各待处理数据元;对所选择出的所述各待处理数据元进行配对处理,以确定所述各待处理数据元之间的匹配关系;将所选择出的所述各待处理数据元作为数据关系图中的各顶点;根据所述各待处理数据元之间的匹配关系生成用于连接所述各顶点的边,以得到所述数据关系图;以及根据所述数据关系图和全局决策,从所述各顶点中确定出待修改数据元。
对于上述数据整合方法,在一种可能的实现方式中,从数据集合中选择出需要进行数据整合处理的各待处理数据元,包括:按照设定的筛选规则从所述数据集合中筛选出多个初始数据元;按照设定的分区规则对筛选出的所述多个初始数据元进行分区;从各数据区中,选择出包括多个初始数据元的数据区,其中,所选择出的数据区中的初始数据元为需要进行数据整合处理的所述各待处理数据元。
对于上述数据整合方法,在一种可能的实现方式中,将所选择出的所述各待处理数据元作为数据关系图中的各顶点,包括:根据所选择出的所述各待处理数据元的匹配项,生成所述数据关系图中的所述各顶点;根据所述各待处理数据元之间的匹配关系生成用于连接所述各顶点的边,包括:根据所选择出的所述各待处理数据元中每两个数据元之间的匹配关系,生成用于连接所述各顶点的边。
对于上述数据整合方法,在一种可能的实现方式中,根据所述数据关系图和全局决策,从所述各顶点中确定出待修改数据元包括:根据所述数据关系图中所述各顶点的匹配项和所述全局决策,确定对应的待修改数据元,并将所确定的待修改数据元的匹配项修改为正确项。
对于上述数据整合方法,在一种可能的实现方式中,在生成所述数据关系图之后还包括:根据所述数据关系图中匹配项相同的顶点确定重复数据元,并对所述数据集合进行去重处理。
为了解决上述技术问题,根据本发明的又一方面,提供了一种数据整合装置,用于将数据整合的过程抽象为数据处理流水线,所述装置包括:选择模块,用于从数据集合中选择出需要进行数据整合处理的各待处理数据元;配对模块,与所述选择模块连接,用于对所选择出的所述各待处理数据元进行配对处理,以确定所述各待处理数据元之间的匹配关系;图生成模块,与所述选择模块和所述配对模块均连接,用于将所选择出的所述各待处理数据元作为数据关系图中的各顶点,并根据所述各待处理数据元之间的匹配关系生成用于连接所述各顶点的边,以得到所述数据关系图;以及决策模块,与所述图生成模块连接,用于根据所述数据关系图和全局决策,从所述各顶点中确定出待修改数据元。
对于上述数据整合装置,在一种可能的实现方式中,所述选择模块包括:筛选单元,用于按照设定的筛选规则从所述数据集合中筛选出多个初始数据元;分区单元,与所述筛选单元连接,用于按照设定的分区规则对筛选出的所述多个初始数据元进行分区;选择单元,与所述分区单元连接,用于从各数据区中,选择出包括多个初始数据元的数据区,其中,所选择出的数据区中的初始数据元为需要进行数据整合处理的所述各待处理数据元。
对于上述数据整合装置,在一种可能的实现方式中,所述图生成模块包括:顶点生成单元,用于根据所选择出的所述各待处理数据元的匹配项,生成所述数据关系图中的所述各顶点;边生成单元,与所述顶点生成单元连接,用于根据所选择出的所述各待处理数据元中每两个数据元之间的匹配关系,生成用于连接所述各顶点的边。
对于上述数据整合装置,在一种可能的实现方式中,所述决策模块具体配置为,根据所述数据关系图中所述各顶点的匹配项和所述全局决策,确定对应的待修改数据元,所述数据整合装置还包括:修改模块,与所述决策模块连接,用于将所确定的待修改数据元的匹配项修改为正确项。
对于上述数据整合装置,在一种可能的实现方式中,还包括:去重模块,与所述图生成模块连接,用于根据所述数据关系图中匹配项相同的顶点确定重复数据元,并对所述数据集合进行去重处理。
有益效果
通过将数据集合中的数据元以数据关系图的形式表示出来,并对所生成的数据关系图来进行数据挖掘分析,能够统一在多重数据规则的情况下数据修改决策的效率和质量。
并且,在本发明提出的数据整合框架上,可以实现各种数据整合应用,这样整个框架可以提供统一的软件接口,大大提高了算法实现的重用性。
另外,由于统一的框架使得算法很容易对各步骤并行化并向上扩展,使得基于本整合框架的应用数据规模很容易用大数据计算框架实现(如ApacheSpark)从而达到应付大数据的能力。
根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面,并且用于解释本发明的原理。
图1示出根据本发明一实施例的数据整合方法的流程图;
图2a示出根据本发明另一实施例的数据整合方法的流程图;
图2b示出根据本发明一实施例的数据整合方法的应用的流程图;
图3示例性示出了根据本发明一实施例的数据整合方法所生成的数据关系图;
图4示出根据本发明一实施例的数据整合装置的框图;
图5示出根据本发明另一实施例的数据整合装置的框图;
图6示出根据本发明又一实施例的数据整合装置的框图。
具体实施方式
以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本发明的主旨。
本发明的核心设计在于对所有数据处理问题中的操作做了高度的抽象,将不同的抽象操作连接起来,并抽象成统一的数据处理流水线(可以参见图1和图2a),并通过对最后生成的关系图进行挖掘分析,提供真正意义上的全局数据整体处理决策。首先以图1示出的流程图来说明根据本发明一实施例的数据整合方法,本发明的数据整合方法用于将数据整合的过程抽象为数据处理流水线,该数据处理流水线可以通过所述数据整合方法来实现,如图1所示,该数据整合方法主要包括:
步骤S110、从数据集合中选择出需要进行数据整合处理的各待处理数据元;
步骤S120、对所选择出的所述各待处理数据元进行配对处理,以确定所述各待处理数据元之间的匹配关系;
步骤S130、将所选择出的所述各待处理数据元作为数据关系图中的各顶点;
步骤S140、根据所述各待处理数据元之间的匹配关系生成用于连接所述各顶点的边,以得到所述数据关系图;以及
步骤S150、根据所述数据关系图和全局决策,从所述各顶点中确定出待修改数据元。
这样,通过将数据集合中的数据元以数据关系图的形式表示出来,基于所生成的数据关系图来进行数据挖掘分析,能够提高数据整合的效率和质量,便于进一步提供数据整合的整体处理决策例如修改、去重等决策。并且,在本发明提出的数据整合框架上,可以实现目前所出现的其他数据的整合应用,这样整个框架可以提供统一的软件接口,大大提高了算法实现的重用性。另外,由于统一的框架使得算法很容易对各步骤并行化并向上扩展,使得基于本整合框架的应用数据规模很容易用大数据计算框架实现(如ApacheSpark)从而达到应付大数据的能力。
接着,举一个常用例子来进一步说明本发明的数据处理流水线,其中,数据集合可以是如表1的形式示出的各待处理数据元的集合,数据元是用一系列属性描述的数据单元,表1中示出的编号、省、市、邮政编码、区县都是数据元的属性,后述的第一关键字和第二关键字可以是数据元的一个或多个属性。假设对重庆市的数据进行业务质量规则处理,要求如果数据具有相同的邮政编码,其区县也必须要相同。即,将业务规则(BusinessRule)定义为:如果数据拥有相同的邮政编码,则其区县也必须要相同(在数据库理论中可表达为函数依赖关系:邮政编码→区县)。后述的从数据集合选择出待处理数据元所采用的筛选规则和分区规则一般都是根据业务规则来预先设定的。根据这个质量规划可以将图1示出的数据处理流水线扩充为如图2a所示的数据处理流水线。
表1数据集合
编号 邮政编码 区县
1 四川省 成都市 610000 青羊区
2 四川省 成都市 610000 青羊区
3 四川省 成都市 610000 武侯区
4 重庆市 重庆市 405200 梁平县
5 重庆市 重庆市 405900 城口县
6 重庆市 重庆市 405900 城口县
7 重庆市 重庆市 405900 丰都县
8 重庆市 重庆市 408300 垫江县
9 重庆市 重庆市 408500 武隆县
10 重庆市 重庆市 405900 城口县
在一种可能的实现方式中,如图2a所示,图1中示出的步骤S110可以包括:
步骤S111、按照设定的筛选规则从所述数据集合中筛选出多个初始数据元。数据筛选可以是整个数据处理流水线的第一步,当开始进行数据处理时启动,数据筛选的工作就是根据设定的筛选规则来选择需要处理的数据元(Tuple)。其中,所述筛选规则为用户自定义规则,可以为从所述数据集合中筛选出具有某种相同特征、例如至少一个第一关键字相同的数据元。以参考数据表1为例,第一关键字可以是省关键字“重庆市”,当然,第一关键字可以不只有一个,也可以有两个、例如省关键字“重庆市”和市关键字“重庆市”,在数据元划分的层级较多的情况下,根据实际应用,还可以设置三个以上的第一关键字。作为示例,这里将数据筛选规则设定为选出所有省为重庆市、市为重庆市的数据元,这样可以从表1所示的数据集合中筛选出多个初始数据元(表示在表2中)。
表2:初始数据元集合
编号 邮政编码 区县
4 重庆市 重庆市 405200 梁平县
5 重庆市 重庆市 405900 城口县
6 重庆市 重庆市 405900 城口县
7 重庆市 重庆市 405900 丰都县
8 重庆市 重庆市 408300 垫江县
9 重庆市 重庆市 408500 武隆县
10 重庆市 重庆市 405900 城口县
步骤S112、按照设定的分区规则对筛选出的所述多个初始数据元进行分区。其中,与所述筛选规则类似,所述分区规则也是用户自定义规则,可以为将具有某种相同特征、例如至少一个第二关键字相同的初始元数据划分到同一个数据区。与第一关键字类似,第二关键字也可以不只有一个,在数据元划分的层级较多的情况下,根据实际应用,还可以设置两个以上的第二关键字。作为示例,这里将第二关键字设定为“邮政编码”,即将分区规则设定为按照邮政编码的不同来将初始数据元分为多个子表,这样可以将表2划分为如下几个子表,其中第一列为编号,划分后的数据元可以采用原始编号,如表3-1所示,也可以重新编号,如表3-2所示。
表3-1:初始数据元划分后的子表
表3-2:初始数据元划分后的子表
步骤S113、从各数据区(例如子表1~4)中,选择出包括多个初始数据元的数据区(例如子表2),其中,所选择出的数据区中的初始数据元为需要进行数据整合处理的各待处理数据元。例如可以选取子表2中编号为5~10的数据元作为需要进行数据整合处理的各待处理数据元。
在一种具体的实现方式中,对于相当一部分的数据整合操作需要寻找的是数据元和数据元之间的关系即匹配关系,例如数据去重就需要两两配对来判断数据是否重复。由于在步骤S112中划分出的子表1、3、4只有一个数据列,无法产生配对,因此针对子表2中的4个数据元生成如下6个数据配对。这里,作为示例,采用对数据元进行重新编号的表3-2示出的子表进行配对处理。
表4:数据配对结果
在一种可能的实现方式中,如图2a所示,图1中示出的步骤S130可以包括:步骤S131、根据所选择出的所述各待处理数据元的匹配项,生成所述数据关系图中的所述各顶点。具体地,根据所定义的业务规则对每一个生成的数据元对做判断,根据判断结果来选择所要生成数据关系图的图顶点(vertex)。例如数据元配对(t1,t2),业务规则R1,如果执行R1(t1,t2)的结果为真,则按照业务规则可以选出其配对点(t1,t2)来作为所生成关系图的顶点。
图1中示出的步骤S140可以包括:步骤S141、根据所选择出的所述各待处理数据元中每两个数据元之间的匹配关系,生成用于连接所述各顶点的边。可以对每一个步骤S131生成的数据关系图的顶点做分析,然后根据业务规则R1来生成关系图的边。
根据步骤S131和步骤S141最后生成的数据关系图如图3所示,其中,将编号为1、2、3、4的数据元选择为图的顶点,在关系图中顶点中包括数据元的对应的匹配项(如编号和区县值),也可以将顶点的匹配项视为数据元的内容。
由于本流水线所定义的业务规则需要数据关系图的所有顶点拥有相同的值,而从表4中编号为2、4、6的三对配对数据可以看出其区县值(用于标识区县名称的文字、字符等)并不同,因此到这里其实已经探测出了可能出错的数据元,在接下来的流水线步骤中会尝试修改数据元以达到一定的数据质量。但在真实的用户场景中用户可根据其业务的需求来决定需要用特殊算法还是业务专家来决定,在这种情况下步骤S150会是一个专业应用程序的集成。
在生成数据关系图之后,进行全局决策、即步骤S150。即对最后生成的数据关系图做图的挖掘和分析并最后生成一个整体的修改决策。这一步骤将整体决策(Holisticdecision)问题转化为了一个关系图的挖掘和分析问题,从而得到一个最优的解。这个步骤只是做决策,真正的数据修改操作会在下面将说明的步骤S152中执行。
在一种可能的实现方式中,图1中示出的步骤S150可以包括:步骤S151、根据所述数据关系图中所述各顶点的匹配项和所述全局决策,确定对应的待修改数据元;以及步骤S152、将所确定的待修改数据元的匹配项修改为正确项。其中,步骤S151中所使用的全局决策可以为用户自定义的全局算法(HolisticAlgorithm),例如可以是少数服从多数决策(MajorityVoting)或者最少修改决策(MinimalityChanges),在少数服从多数的修改处理决策的情况下,所述正确项为在所述各顶点的所有匹配项中占多数的匹配项;在最少修改的修改处理决策的情况下,所述正确项为修改量较多的匹配项。
具体地,从图3中我们需要对图顶点做一个赋值决策,来使得所有的图顶点值一样。这里,这个决策是一个二选一的选择、即城口县或者丰都县。一个简单的算法是采取少数同意多数的准则(MajorityVoting),由于有3个数据元的匹配项为“城口县”,只有1个数据元的匹配项为“丰都县”,因此可以将“城口县”作为正确项,将各顶点中匹配项与正确项不同的顶点也就是编号为3的数据元的匹配项修改为正确项。即,将表3-2中的子表2中编号为3的数据元的区县值“丰都县”修改为“城口县”,如表5所示。
表5:修改后的数据结果
到这里实际上已经实现了对业务需求设计的数据整合流水线,在整个例子运行中修改了一个数据元(表1中编号为7的数据元),因此可以再一次对修改后的数据运行一次流水线、即在步骤S150之后返回执行步骤S110,这样做的目的是为了保证每一次的修改不会对其它业务规则产生影响。在真实应用场景运行中每一个业务流水线会对数据迭代很多次,一直到所有的数据都达到了符合业务规则的需求为止。
需要说明的是,步骤S152是根据全局决策对元数据做出修改的处理。如果最后没有需要修改的数据,即代表并无错误,数据通过了所有业务规则,那么数据整合完毕进入下一个数据分析阶段。如果数据有做修改,那么数据会再次进入整个处理流水线、即返回至步骤S110直到最后无任何可修改的数据为止(如图2a所示)。这个重复的操作使得数据质量在多重业务规则的束约下达到最优性和一致性。
在一种可能的实现方式中,如图2b所示,本发明的数据整合方法还可以包括步骤S160、根据所述数据关系图中匹配项相同的顶点确定重复数据元,并对所述数据集合进行去重处理。在去重处理时,可以根据顶点对应的重复数据元的编号选择从数据集合中删除重复数据元,只留下一个独特的数据元。去重步骤可以作为本发明的数据整合方法的一个应用,并不必须包括在数据处理流水线内。
以上对如表1示出的数据集合中重庆市的数据做一业务质量规则处理为例,详细说明了本发明的数据处理的流水线。本发明所抽象的数据处理流水将各种不同的数据整合问题用一套统一的流水线设计来解决,并通过多次迭代让数据质量达到期望的标准。本发明将数据整合方法抽象为一个包括5个步骤的通用处理流水线,每个步骤都代表数据整合的一个问题,并且根据业务规则用户可以针对每一个步骤选择默认算法或者自定义算法,对于简单的数据处理问题,如业务规则简单或者数据规模小,用户也可以选择跳过一些步骤。例如,可以不进行数据修改的分析,直接进行去重处理,即省略步骤S150而在步骤S140之后进行步骤S160,或者在数据量较少的情况下,也可以将步骤S150和步骤S160都省略。
现有的数据整合场景基本都是基于相应的业务规则来实现的。不同的业务需求所解决问题的手法不同,在当前零散的数据应用方案中并没有一个整合的系统或者框架来对各种业务规则做整体的决策。这种缺乏整体决策的软件构架使得用户不能完全的控制整个数据整合的质量。
而本发明设计了一个全新的数据整合框架,在有很多业务需求的情况下将最后的数据修改或去重问题(也即整体决策问题)转化为了一个图的数据挖掘问题,首先将数据处理流水线中所发现的有问题的数据元转换为数据关系图的顶点和边,然后通过对数据关系图的分析和挖掘得到最理想的处理结果。当然,在数据集合包括多个数据源的情况下,数据关系图可能来自于多条数据处理流水线。其优点有:
1.目前所出现的数据整合应用都可以在本数据整合框架上实现,这样整个框架提供了一个统一的软件接口,并大大提高了算法实现的重用性;
2.统一的数据整合框架使得其算法实现很容易对各个步骤并行化以及向上扩展,使得基于本整合框架的应用数据规模很容易用大数据计算框架实现(如ApacheSpark)从而达到应付大数据的能力;
3.通过将数据整合的修改决策问题转换为一个图的挖掘分析问题,该框架提供了整体决策的解决方案。
图4示出根据本发明一实施例的数据整合装置的流程图,本发明的数据整合装置用于将数据整合的过程抽象为数据处理流水线。如图4所示,该数据整合装置主要包括:选择模块410、配对模块420、图生成模块430和决策模块440。其中,选择模块410用于从数据集合中选择出需要进行数据整合处理的各待处理数据元;配对模块420与所述选择模块410连接,用于对所选择出的所述各待处理数据元进行配对处理,以确定所述各待处理数据元之间的匹配关系;图生成模块430与所述选择模块410和所述配对模块420均连接,用于将所选择出的所述各待处理数据元作为数据关系图中的各顶点,并根据所述各待处理数据元之间的匹配关系生成用于连接所述各顶点的边,以得到所述数据关系图;决策模块440与所述图生成模块430连接,用于根据所述数据关系图和全局决策,从所述各顶点中确定出待修改数据元。
选择模块410、配对模块420、图生成模块430和决策模块440的具体实现方式和所能取得的有益效果可以参见图1以及对步骤S110至步骤S150的相关描述。
在一种可能的实现方式中,如图5所示,所述选择模块410可以包括:筛选单元411、分区单元412和选择单元413。其中,筛选单元411用于按照设定的筛选规则从所述数据集合中筛选出多个初始数据元,所述筛选规则为用户自定义规则,可以为从所述数据集合中筛选出具有某种相同特征、例如至少一个第一关键字相同的数据元;分区单元412与所述筛选单元411连接,用于按照设定的分区规则对筛选出的所述多个初始数据元进行分区,与所述筛选规则类似,所述分区规则也是用户自定义规则,可以为将具有某种相同特征、例如至少一个第二关键字相同的初始元数据划分到同一个数据区;选择单元413与所述分区单元412连接,用于从各数据区中,选择出包括多个数据元的数据区,其中,所选择出的数据区中的数据元为需要进行数据整合处理的各待处理数据元。
筛选单元411、分区单元412和选择单元413的具体实现方式可以参见图2a以及对步骤S111至步骤S113的相关描述。
在一种可能的实现方式中,如图5所示,所述图生成模块430可以包括:边生成单元431和顶点生成单元432。其中,顶点生成单元432用于根据所选择出的所述各待处理数据元的匹配项,生成所述数据关系图中的所述各顶点;边生成单元431与所述顶点生成单元432连接,用于根据所选择出的所述各待处理数据元中每两个数据元之间的匹配关系,生成用于连接所述各顶点的边。
边生成单元431和顶点生成单元432的具体实现方式可以参见图2a以及对步骤S131和步骤S141的相关描述。
在一种可能的实现方式中,所述决策模块440具体配置为,根据所述数据关系图中所述各顶点的匹配项和所述全局决策,确定对应的待修改数据元。如图5所示,根据本发明一实施例的数据整合装置还可以包括修改模块450,其与所述决策模块440连接,用于将所确定的待修改数据元的匹配项修改为正确项。
在一种可能的实现方式中,如图6所示,根据本发明一实施例的数据整合装置还可以包括去重模块460,其与所述图生成模块430连接,用于根据所述数据关系图中匹配项相同的顶点确定重复数据元,并对所述数据集合进行去重处理。
修改模块450和去重模块460的具体实现方式可以参见图2a、图2b以及对步骤S152和步骤S160的相关说明。另外,本领域技术人员应能理解,去重模块460也可以与修改模块450连接,在所有的数据都达到了符合所定义的所以业务规则之后对数据进行去重处理能够提高数据处理的质量和处理效率。
通过将数据集合中的数据元以数据关系图的形式表示出来,基于所生成的数据关系图来进行数据挖掘分析,能够提高数据整合的效率和质量,便于进一步提供数据整合的整体处理决策例如修改、去重等决策。并且,在本发明提出的数据整合框架上,可以实现目前所出现的其他数据的整合应用,这样整个框架可以提供统一的软件接口,大大提高了算法实现的重用性。另外,由于统一的框架使得算法很容易大规模并行化并向上扩展,使得数据整合的规模很容易达到大数据的规模。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种数据整合方法,其特征在于,用于将数据整合的过程抽象为数据处理流水线,所述方法包括:
从数据集合中选择出需要进行数据整合处理的各待处理数据元;
对所选择出的所述各待处理数据元进行配对处理,以确定所述各待处理数据元之间的匹配关系;
将所选择出的所述各待处理数据元作为数据关系图中的各顶点;
根据所述各待处理数据元之间的匹配关系生成用于连接所述各顶点的边,以得到所述数据关系图;以及
根据所述数据关系图和全局决策,从所述各顶点中确定出待修改数据元。
2.根据权利要求1所述的数据整合方法,其特征在于,从数据集合中选择出需要进行数据整合处理的各待处理数据元,包括:
按照设定的筛选规则从所述数据集合中筛选出多个初始数据元;
按照设定的分区规则对筛选出的所述多个初始数据元进行分区;
从各数据区中,选择出包括多个初始数据元的数据区,其中,所选择出的数据区中的初始数据元为需要进行数据整合处理的所述各待处理数据元。
3.根据权利要求2所述的数据整合方法,其特征在于,将所选择出的所述各待处理数据元作为数据关系图中的各顶点,包括:根据所选择出的所述各待处理数据元的匹配项,生成所述数据关系图中的所述各顶点;
根据所述各待处理数据元之间的匹配关系生成用于连接所述各顶点的边,包括:根据所选择出的所述各待处理数据元中每两个数据元之间的匹配关系,生成用于连接所述各顶点的边。
4.根据权利要求1至3中任一项所述的数据整合方法,其特征在于,根据所述数据关系图和全局决策,从所述各顶点中确定出待修改数据元包括:
根据所述数据关系图中所述各顶点的匹配项和所述全局决策,确定对应的待修改数据元,并将所确定的待修改数据元的匹配项修改为正确项。
5.根据权利要求1至4中任一项所述的数据整合方法,其特征在于,在生成所述数据关系图之后还包括:
根据所述数据关系图中匹配项相同的顶点确定重复数据元,并对所述数据集合进行去重处理。
6.一种数据整合装置,其特征在于,用于将数据整合的过程抽象为数据处理流水线,所述装置包括:
选择模块,用于从数据集合中选择出需要进行数据整合处理的各待处理数据元;
配对模块,与所述选择模块连接,用于对所选择出的所述各待处理数据元进行配对处理,以确定所述各待处理数据元之间的匹配关系;
图生成模块,与所述选择模块和所述配对模块均连接,用于将所选择出的所述各待处理数据元作为数据关系图中的各顶点,并根据所述各待处理数据元之间的匹配关系生成用于连接所述各顶点的边,以得到所述数据关系图;以及
决策模块,与所述图生成模块连接,用于根据所述数据关系图和全局决策,从所述各顶点中确定出待修改数据元。
7.根据权利要求6所述的数据整合装置,其特征在于,所述选择模块包括:
筛选单元,用于按照设定的筛选规则从所述数据集合中筛选出多个初始数据元;
分区单元,与所述筛选单元连接,用于按照设定的分区规则对筛选出的所述多个初始数据元进行分区;
选择单元,与所述分区单元连接,用于从各数据区中,选择出包括多个初始数据元的数据区,其中,所选择出的数据区中的初始数据元为需要进行数据整合处理的所述各待处理数据元。
8.根据权利要求7所述的数据整合装置,其特征在于,所述图生成模块包括:
顶点生成单元,用于根据所选择出的所述各待处理数据元的匹配项,生成所述数据关系图中的所述各顶点;
边生成单元,与所述顶点生成单元连接,用于根据所选择出的所述各待处理数据元中每两个数据元之间的匹配关系,生成用于连接所述各顶点的边。
9.根据权利要求6至8中任一项所述的数据整合装置,其特征在于,所述决策模块具体配置为,根据所述数据关系图中所述各顶点的匹配项和所述全局决策,确定对应的待修改数据元,所述数据整合装置还包括:
修改模块,与所述决策模块连接,用于将所确定的待修改数据元的匹配项修改为正确项。
10.根据权利要求6至9中任一项所述的数据整合装置,其特征在于,还包括:
去重模块,与所述图生成模块连接,用于根据所述数据关系图中匹配项相同的顶点确定重复数据元,并对所述数据集合进行去重处理。
CN201510540556.4A 2015-08-28 2015-08-28 数据整合方法及装置 Active CN105183824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510540556.4A CN105183824B (zh) 2015-08-28 2015-08-28 数据整合方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510540556.4A CN105183824B (zh) 2015-08-28 2015-08-28 数据整合方法及装置

Publications (2)

Publication Number Publication Date
CN105183824A true CN105183824A (zh) 2015-12-23
CN105183824B CN105183824B (zh) 2020-03-17

Family

ID=54905906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510540556.4A Active CN105183824B (zh) 2015-08-28 2015-08-28 数据整合方法及装置

Country Status (1)

Country Link
CN (1) CN105183824B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391611A (zh) * 2017-07-04 2017-11-24 南京国电南自电网自动化有限公司 一种基于工作流的通用etl工具的过程模型生成方法
CN107678774A (zh) * 2017-10-09 2018-02-09 用友网络科技股份有限公司 响应数据修改的方法、系统、计算机装置及可读存储介质
CN109918410A (zh) * 2018-10-31 2019-06-21 中国人民解放军国防科技大学 基于Spark平台的分布式大数据函数依赖发现方法
WO2020087962A1 (zh) 2018-11-02 2020-05-07 珠海赛纳三维科技有限公司 彩色3d打印方法、打印装置及终端设备
CN115994194A (zh) * 2023-03-23 2023-04-21 河北东软软件有限公司 政务大数据的数据质量检查方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008236227A (ja) * 2007-03-19 2008-10-02 Ricoh Co Ltd 画像処理方法
CN102681889A (zh) * 2012-04-27 2012-09-19 电子科技大学 一种云计算开放平台的调度方法
CN104462167A (zh) * 2013-09-17 2015-03-25 株式会社日立制作所 数据分析辅助系统
CN104504082A (zh) * 2014-12-24 2015-04-08 北京德塔普博软件有限公司 多个知识网络的目标知识节点集合的路径展现方法和系统
CN104504008A (zh) * 2014-12-10 2015-04-08 华南师范大学 一种基于嵌套的SQL到HBase的数据迁移算法
CN104731969A (zh) * 2015-04-10 2015-06-24 北京大学深圳研究生院 分布式环境下海量数据连接聚集查询方法、装置和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008236227A (ja) * 2007-03-19 2008-10-02 Ricoh Co Ltd 画像処理方法
CN102681889A (zh) * 2012-04-27 2012-09-19 电子科技大学 一种云计算开放平台的调度方法
CN104462167A (zh) * 2013-09-17 2015-03-25 株式会社日立制作所 数据分析辅助系统
CN104504008A (zh) * 2014-12-10 2015-04-08 华南师范大学 一种基于嵌套的SQL到HBase的数据迁移算法
CN104504082A (zh) * 2014-12-24 2015-04-08 北京德塔普博软件有限公司 多个知识网络的目标知识节点集合的路径展现方法和系统
CN104731969A (zh) * 2015-04-10 2015-06-24 北京大学深圳研究生院 分布式环境下海量数据连接聚集查询方法、装置和系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391611A (zh) * 2017-07-04 2017-11-24 南京国电南自电网自动化有限公司 一种基于工作流的通用etl工具的过程模型生成方法
CN107391611B (zh) * 2017-07-04 2019-11-12 南京国电南自电网自动化有限公司 一种基于工作流的通用etl工具的过程模型生成方法
CN107678774A (zh) * 2017-10-09 2018-02-09 用友网络科技股份有限公司 响应数据修改的方法、系统、计算机装置及可读存储介质
CN109918410A (zh) * 2018-10-31 2019-06-21 中国人民解放军国防科技大学 基于Spark平台的分布式大数据函数依赖发现方法
CN109918410B (zh) * 2018-10-31 2020-12-04 中国人民解放军国防科技大学 基于Spark平台的分布式大数据函数依赖发现方法
WO2020087962A1 (zh) 2018-11-02 2020-05-07 珠海赛纳三维科技有限公司 彩色3d打印方法、打印装置及终端设备
CN115994194A (zh) * 2023-03-23 2023-04-21 河北东软软件有限公司 政务大数据的数据质量检查方法、系统、设备及介质
CN115994194B (zh) * 2023-03-23 2023-06-02 河北东软软件有限公司 政务大数据的数据质量检查方法、系统、设备及介质

Also Published As

Publication number Publication date
CN105183824B (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN105183824A (zh) 数据整合方法及装置
WO2018082364A1 (zh) 一种配电网停电范围分析方法、装置和计算机存储介质
Yoo et al. A parallel spatial co-location mining algorithm based on MapReduce
CN104317801A (zh) 一种面向大数据的数据清洗系统及方法
CN103488537A (zh) 一种数据抽取、转换和加载etl的执行方法及装置
CN103400227A (zh) 基于图挖掘和图距离的流程推荐方法
JP2018116706A (ja) データ多次元モデル生成システム及びデータ多次元モデル生成方法
CN101697174B (zh) 面向稳态热分析的零件模型自动简化及评价方法
Yang et al. A MapReduce approach for spatial co-location pattern mining via ordered-clique-growth
CN108960335A (zh) 一种基于大规模网络进行高效聚类方法
CN104462095A (zh) 一种查询语句公共部分的提取方法及装置
CN112287118A (zh) 事件模式频繁子图挖掘与预测方法
CN103761298A (zh) 一种基于分布式架构的实体匹配方法
Schlitter et al. Dengraph-ho: Density-based hierarchical community detection for explorative visual network analysis
CN110807061A (zh) 一种基于分层搜索不确定图的频繁子图的方法
Bahrami et al. Efficient processing of SPARQL queries over graphframes
Ren et al. Efficient processing of shortest path queries in evolving graph sequences
CN106776704B (zh) 统计信息收集方法和装置
Asha et al. A survey on efficient incremental algorithm for mining high utility itemsets in distributed and dynamic database
Singla et al. Finding nearest facility location with open box query using Geohashing and MapReduce
Wu et al. Research on optimizing strategy of database-oriented gis graph database query
CN105224635A (zh) 一种基于混合模型的并行olap构建装置及构建方法
CN117688975B (zh) 一种基于演化规律挖掘的气象事件预测方法及系统
Liang et al. A new lattice structure and method for extracting association rules based on concept lattice
CN108197172B (zh) 一种基于大数据平台的频繁模式挖掘方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant