CN102750367A - 在云端平台的大数据检核系统及其方法 - Google Patents
在云端平台的大数据检核系统及其方法 Download PDFInfo
- Publication number
- CN102750367A CN102750367A CN201210200083XA CN201210200083A CN102750367A CN 102750367 A CN102750367 A CN 102750367A CN 201210200083X A CN201210200083X A CN 201210200083XA CN 201210200083 A CN201210200083 A CN 201210200083A CN 102750367 A CN102750367 A CN 102750367A
- Authority
- CN
- China
- Prior art keywords
- data
- clouds
- quality
- rule
- cloud database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013502 data validation Methods 0.000 claims description 50
- 239000003638 chemical reducing agent Substances 0.000 claims description 31
- 238000012216 screening Methods 0.000 claims description 21
- 238000005516 engineering process Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 238000003066 decision tree Methods 0.000 claims description 7
- 239000006185 dispersion Substances 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000012372 quality testing Methods 0.000 claims description 3
- 230000008676 import Effects 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 14
- 238000012545 processing Methods 0.000 abstract description 12
- 238000004364 calculation method Methods 0.000 abstract description 8
- 238000013500 data storage Methods 0.000 abstract 2
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 238000011068 loading method Methods 0.000 description 7
- 238000007689 inspection Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- NHDHVHZZCFYRSB-UHFFFAOYSA-N pyriproxyfen Chemical compound C=1C=CC=NC=1OC(C)COC(C=C1)=CC=C1OC1=CC=CC=C1 NHDHVHZZCFYRSB-UHFFFAOYSA-N 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种应用于数据仓储在云端平台的大数据检核系统及其方法,是在数据由来源端通过云端平台进行数据转换的过程上载至数据仓储,一直到呈现至使用者端,在每阶段数据处理步骤中,通过云端分散运算的方式进行数据检核比对、计算出此阶段的数据质量,用来决定数据的适用性。
Description
技术领域
本发明是关于一种云端数据质量检核技术,用于组织/企业内外部将待检核的数据,检误、校对,过滤出有效的数据,特别指于云端平台,通过云端运算技术,来进行质量比对的数据检核流程。本发明同时属于数据仓储(DataWarehouse)、商业智慧(Business Intelligence)与云端运算(Cloud Computing)的范畴。
背景技术
目前针对数据仓储数据质量检核的现有方式,主要面对下列几处限制:
1.单一主机效能受限导致数据质量信息产生的过程费时:如何实时计算出待检测数据的数据质量,主要受限于待检测数据的数据量,与运算主机的效能。如果用户打算针对待检测数据进行完整内容(包含所有属性/字段的所有数据笔数)的计算,例如字符串过滤、值域分析、汇总函数计算等等包括规则判断、计算的方式,在待检测数据的数据笔数庞大时,往往必须花费漫长的时间等待单一数据计算主机的计算结果,如此无法兼顾获取数据的实时性,数据质量通报的实时性也因此延迟受影响。因此在数据检核的实际作法策略上,往往演变成不一定每次都进行整批资料的检核,而改采用以统计的抽样检定方式进行数据质量计算,缩小数据检核计算的范围,以此获得有关数据质量的概略信息,并且加快数据质量计算的过程。例如通过随机抽样检定缩小数据笔数,或者仅仅抽取部份用以检定的数据属性/字段来进行数据检核比对;如此则无法确保全面数据质量的完整性与准确性,失去数据检核意义。
2.缺乏有效的方法处理大数据(Big Data):传统数据检核读入、处理资料的方式,花费时间与档案大小成正比,档案越大所耗费的时间越长,如果针对大数据的读文件、以及后续处理方式仍旧以循序处理完成,会导致效能不佳。此外单一主机的内存也有上限存在,如果存放在内存的数据超过上限,有可能造成处理效能大服下降,或停摆的状况,因此为了避免上述问题,现有的方式会将大档案数据进行切段处理,以分次进行的方式完成,如此切档的动作又得耗费额外成本。
3.在云端平台的数据加载作业目前没有质量检核的方法:目前云端平台存放的资料还没有具体的机制可以提供用户作数据检核,因此数据加载时发生错误导致整批数据加载失败,用户必须花额外的时间检查加载错误,如此则耗费大量人力时间。
4.传统的关系数据库整批加载方式无法同步检核:关系数据库在面对大数据的加载,传统上是以Bulk Insert方式进行批次加载以提升加载效能,但缺点是无法和数据检核流程同步进行,万一在数据检核阶段侦测到某数据行的部份数据属性值错误,必须排除掉部份错误的数据行,或对数据行额外的处理加工,将部份错误的字段予以空白(Blank)、空值(Null)或预测值(Predict Value)取代,接着将过滤后的结果产生暂存盘,再把此暂存盘进行大批加载。因此RDBMS面对大数据时,无法与数据检核流程同步进行。不单如此,暂存盘也需要占用额外磁盘存放空间。
5.数据质量信息受限于磁盘储存空间而无法有效应用历史质量数据:现阶段单一主机数据预备加载的磁盘存放空间受到限制,无法存放以Petabyte等级的数据量。数据质量信息的储存空间同样也有限,因此关于数据质量的信息往往需要排程进行定期删除。当历史质量数据无法有效保存,用户就无法针对完整的历史数据进行应用,例如从历史质量数据萃取进行未来质量的预测等。
综合上述的结果,数据检核的现有方法,受限于数据量与计算能力,所获得的数据质量往往是二择的局面:实时,但获得的信息片面不完整;或者信息完整却耗费时间,并且无法有效保存。
由此可见,上述现有方式仍有诸多缺失,实非良好的设计,而亟待加以改良。
发明内容
本发明的目的在于针对应用于数据仓储数据质量稽核,提出一种通过云端平台来完成数据检核工作的系统及其方法,在云端平台所存放的原始大数据,加载到数据仓储的过程中,通过云端运算进行质量检测与比对,完成数据检核工作,让数据加载数据仓储过程的同时能够进行比对、取得对应的质量数据,并以此流程作为数据质量取得的一种标准。
次要目的:利用云端分散运算技术与运算能力,以及云端存放空间的弹性,有效的利用历史数据,进行数据采矿建模,将产生的模型用来衡量新进数据的数据质量,达到建模更加快速、预测更加准确的目的。
本发明的一种在云端平台的大数据检核系统,具有云端大数据,通过云端运算进行质量检测与比对,其包括质量项目云数据库,用以储存品值数据;
质量规则云数据库,用以储存质量规则与规则所组成的模型数据;云端规则探勘模块,用以链接该质量项目云数据库、自动产生数据检核规则模型,存放于该质量规则云数据库中;云端数据检验模块,用以计算比对该云端大数据,链接该云端规则探勘模块产生的规则模型,与该云端大数据比对产生质量数据项;云端质量筛选模块,用以链接该质量项目云数据库,将通过检核的该云端大数据加载到目标数据集散地;云端讯息通报模块,用以连接该质量项目云数据库,将每次数据检核的结果搜集、通报使用;以及目标数据集散地,接收通过该云端讯息通报模块检核的数据,用以存放该数据。
所述云端平台为Hadoop、EC2或Cloudera Enterprise。
所述目标数据集散地为非关系数据库、关系数据库、Hive、HBase、BigTable、Cassandra或Amazon SimpleDB。
所述质量项目云数据库为非关系数据库、关系数据库、Hive、HBase、BigTable、Cassandra或Amazon SimpleDB。
质量规则云数据库为非关系数据库、关系数据库、Hive、HBase、BigTable、Cassandra或Amazon SimpleDB。
该云端规则探勘模块,更包括用户接口,提供用户输入客制化的数据检验规则;与用户接口连接的API,用以将规则储存于该质量规则云数据库中;质量规则,用以计算并判断数据质量;规则建立Mapper/Reducer,利用分散平行运算算法建立规则模型;以及云端规则探勘引擎,用以自动建立规则模型,呼叫该些规则建立Mapper/Reducer,并将该些质量规则,存放于该质量规则云数据库中。
其中,该云端规则探勘模块建立的规则算法为关联规则或判定树算法。该云端数据检验模块,更包括云端数据检验引擎,用以连接该规则云数据库与启动数据检核分散运算工作以及数据检核Mapper/Reducer,用以计算数据质量项目,将结果存放在该质量项目云数据库。
该云端质量筛选模块,更包括云端质量筛选引擎,连接该质量项目云数据库,启动质量筛选分散运算工作;质量过滤决策配置文件,存放使用者预先定义的过滤决策;以及质量筛选Mapper/Reducer,用以比对过滤原始数据并将检核通过的数据加载到该目标数据集散地。
该云端讯息通报模块,更包括云端讯息通报引擎,链接该质量项目云数据库,启动讯息通报分散运算工作;通报决策配置文件,存放使用者预先定义的通报决策;以及讯息通报Mapper/Reducer,用以汇总数据检核结果并通报使用者。其中,该云端讯息通报模块的讯息通报方式为E-Mail或SMS。
本发明的一种在云端平台的大数据检核系统的检核方法,其步骤至少包含:
a.初始化质量比对计算模型;
b.分割原始数据;
c.验证个别数据分割;
d.进行目标数据加载;
e.更新比对模型;以及
f.通报比对结果。
所述验证个别数据分割步骤是将获得的质量项目数据依照Key-Value关系,以数据行为Key,对照该质量规则云数据库比对出的质量分数为Value,索引储存在该质量项目云数据库。
所述进行目标数据加载步骤是将待检核数据依照Key-Value关系计算过滤,以数据行为Key,对照该质量规则云数据库比对出的质量分数为Value,参考用户决策进行过滤,并将过滤后的数据,由分散运算单元加载该目标数据集散地。
该更新比对模型步骤是将该比对模型依Key-Value关系索引储存,以关联规则或判定树算法的数据探勘技术,以该质量项目数据库中的数据行「某属性=值」或「某属性」为Key,该算法所需属性的分割指针为Value进行汇总。
该通报比对结果步骤是将汇总结果依Key-Value关系,以E-Mail或SMS简讯通报用户,且以质量分数为Key,数据行为Value进行汇总。
达成上述发明目的的在云端平台的大数据检核系统,是由云端规则探勘模块、云端数据检验模块、云端质量筛选模块、云端讯息通报模块、目标数据集散地、质量项目云数据库以及质量规则云数据库所组成。达成上述发明目的的在云端平台的大数据检核方法,包括以下步骤:初始化质量比对计算模型、分割原始数据、验证个别数据分割、进行目标数据加载、更新比对模型以及通报比对结果。
本发明所提供的数据整合技术,与其它现有技术相互比较时,更具备下列优点:
1.本发明在云端多主机上进行分布式计算,改善传统资料整合技术受限于单一主机的处理效能低落问题。
2.本发明的方法串连多个步骤流程,可自动化结合、绑入原有数据加载流程,提升数据加载质量的效率。
3.本发明通过云端运算与分布式数据探勘算法,可以快速有效的利用历史质量数据改善原有数据检核模型,达到数据质量判断准确率精进的预期效果。
附图说明
请参阅有关本发明的详细说明及其附图,将可进一步了解本发明的技术内容及其目的功效;相关附图为:
图1为在云端平台的大数据检核系统架构的示意图;
图2为该数据检核系统的云端规则探勘模块详细示意图;
图3为该数据检核系统的云端数据检验模块详细示意图;
图4为该数据检核系统的云端质量筛选模块详细示意图;
图5为该数据检核系统的云端讯息通报模块详细示意图;以及
图6为在云端平台的大数据检核方法的流程图;
附图标记:1、云端规则探勘模块;2、云端大资料;3、云端数据检验模块;4、云端质量筛选模块;5、云端讯息通报模块;6、目标数据集散地;7、质量项目云数据库;8、质量规则云数据库;1.1、界面;1.2、规则操作API;1.3、云端规则探勘引擎;1.4、规则建立Mapper/Reducer;1.5、质量规则;3.1、云端数据检验引擎;3.2、资料检验Mapper/Reducer;3.3、质量项目集合值;4.1、云端质量筛选引擎;4.2、质量决策配置文件;4.3、品质筛选Mapper/Reducer;4.4、目标数据;5.1、云端讯息通报引擎;5.2、通报决策配置文件;5.3、讯息通报Mapper/Reducer;5.4、汇总讯息;100、初始化质量比对模型;200、分割原始数据;300、验证个别数据分割;400、进行目标数据加载;500、更新比对模型;600、通报比对结果。
具体实施方式
本发明是针对一种应用在数据仓储系统所设计的数据质量检测及计算方法,是在数据通过云端平台进行加载时,即通过历史质量数据所建立的比对模型,决定其数据质量程度,以此评定数据质量的好坏。本发明可以提供企业于云端平台存放的大资料可靠的评量方式,用以决定不同进入数据仓储数据的质量程度,并且将结果自动通报使用。
图1揭露本发明在云端平台的大数据检核系统及其方法较佳实施例的架构,通过云端运算平台进行云端数据检核工作。此系统包括四个模块与三个数据库:一个云端规则探勘模块1负责数据检核规则模型的产生、存放;一个云端数据检验模块3负责计算比对云端大资料2,产生数据质量项目;一个云端质量筛选模块4负责将通过检核,符合用户预期的数据加载到一个目标数据集散地6;一个云端讯息通报模块5将每次数据检核的结果搜集、通报使用者;该目标数据集散地6负责存放通过验证的目标数据;一个质量项目云数据库7负责储存质量数据;一个质量规则云数据库8负责储存质量规则与规则所组成的模型数据。
该云端规则探勘模块1连接该质量项目云数据库7,先产生质量规则到该质量规则云数据库8;接着该云端数据检验模块3连接该质量规则云数据库8,将该云端大资料2进行分散比对,将产生的数据质量项目存放到该质量项目云数据库7;接着该云端质量筛选模块4再连接到该质量规则云数据库8将该云端大资料2依照该质量项目云数据库7中对照的数据质量,筛选目标数据到该目标数据集散地6存放;最后该云端讯息通报模块5连接该质量项目云数据库7中的数据通报用户当次检核结果。
上述云端平台是一个提供大数据分布式计算与储存的环境,具容错能力、高可用性、高效能、弹性扩充等特性,熟习该项技艺者可采用Hadoop、AmazonEC2、Cloudera Enterprise等等由多服务器组成的云端平台来达成;该目标数据集散地6、该质量项目云数据库7以及该质量规则云数据库8可采用Hive、HBase、BigTable、Cassandra、Amazon SimpleDB等等建立在云端平台上的数据库来存放云端大数据,皆应视为等效实施。
请参考图2所示的云端规则探勘模块详细示意图,该云端规则探勘模块1是由以下子模块所组成:在一到多个数据质量规则1.5还未自动产生以前,由用户通过一个界面1.1手动操作,新增一到多个由「IF...THEN...」组成的数据质量规则1.5,一个API(Application Interface,应用程序编程接口)1.2将上述数据质量规则1.5储存在该质量云数据库8内。之后当该质量项目云数据库7开始有历史数据以后,再由该云端规则探勘引擎1.3,以数据探勘(Data Mining)技术进行规则模型自动化建立。由于通过此技术,所建立出的规则模型有从历史数据自动化演进学习的特性,以此当未来历史数据累积越多,将可以自动提升预测数据质量的正确性,并且回馈至数据加载的流程。
负责规则模型建立的该分散运算单元Mapper/Reducer 1.4,是利用分散平行运算来处理数据。由于云端环境是多主机所组成,大数据被切成小块的数据分开来处理,接着分散到各个工作节点(Data Nodes)主机进行分散平行运算,最后再合并结果进行汇总,具备相较于传统单一主机的处理方式更快速的处理能力。举一范例,假设质量项目云数据库存放的历史质量数据,为历史数据行与质量分数的卷标所组成,例如:
该云端规则探勘模块1可以通过例如关联规则或判定树等并行算法来处理。利用n-item对1-item(正常、异常)的关联规则挖掘并行算法时,在负责规则建立的该分散运算单元Mapper/Reducer 1.4中以平行处理算法计算出支持度(Support)与信赖度(Confidence)指标,每个迭代(Iteration)从n-item对1-item开始往(n+1)-item对1-item方向逐步进行挖掘。例如某一迭代挖掘出「销售地点=地点B→异常」规则的支持度为20%、信赖度90%,如果决定继续往下挖掘,则下一次迭代就是进行「销售地点=地点B;其它字段=值→正常/异常」的规则挖掘。
规则 | 结果 |
销售地点=地点B | 异常 |
或者该云端规则探勘模块1也可利用判定树并行算法,将历史质量的属性进行分割学习的判定树并行算法,于该Mapper/Reducer 1.4中通过该算法计算出每个数据属性的属性分割指针,例如GINI Index、Entropy等等,如果决定继续往下挖掘,则下一次迭代就是进行「销售地点=地点B;其它字段=值→正常/异常」的规则挖掘。
并行算法的特点,相较于传统算法单一运算单元的差异,在分散给不同运算单元处理的时候,只针对单元处理数据的计算出部份数据,最后收集完整才进行汇总的最终计算结果,熟习该项技艺者可以利用Mapper/Reducer、PIG、Cascading、HIVE等技术来完成。
当每个迭代(Iteration)中,负责规则模型建立的该Mapper/Reducer 1.4计算出上述的属性分割指针,例如支持度、信赖度、GINI Index、Entropy等等,算法根据条件判断决定是否停止向下挖掘,例如该规则下的历史数据已经有95%皆为同一分类,或者已经达到最大阶层数等等。如果未达停止的标准,就继续呼叫该Mapper/Reducer 1.4准备进行下一次迭代的计算,最后将质量规则所组成的分类模型,存放在该质量规则云数据库8中。
请参考图3所示的云端数据检验模块详细示意图,云端数据检验模块3是由以下子模块所组成:一个云端数据检验引擎3.1会呼叫负责数据检核比对、运算的一到多个的资料检验Mapper/Reducer3.2,将该云端大资料2进行分割与分散运算,连接该质量规则云数据库8进行规则比对,计算出一到多个质量项目集合值3.3(包括用来识别数据行的键值与质量分数),最后再由一到多个资料检验Mapper/Reducer3.2,将该质量项目储存到该质量项目云数据库7。
请参考图4所示的云端质量筛选模块详细示意图,该云端质量筛选模块4是由以下子模块所组成:一个云端质量筛选引擎4.1会呼叫负责筛选过滤的一到多个的品质筛选Mapper/Reducer4.3,将数据行与该质量项目云数据库7对应的分数,参考一个用户预先设定的质量决策配置文件4.2,采用完全排除/预测值取代加载/部份加载的策略,加载到目标数据集散地6,其中部份加载的策略,由于目标数据集散地为Column-Based的云端数据库,因此具备部份数据加载的能力。举一范例,例如用户事先设定的过滤决策为「部份加载」,规则与数据比对的结果为:
规则 | 结果 |
销售地点=地点B | 异常 |
及
则筛选模块会将数据「产品名称=商品B;销售日期=日期B;商店名称=商店B;销售金额=金额B 」继续加载到目标数据集散地中,并且在含有值的字段进行统计汇总讯息时,合并进行计算,例如SUM(销售金额),可以将仍然具有实际值的该字段信息进行加总计算。
请参考图5所示的云端讯息通报模块详细示意图,该云端讯息通报模块5是由以下子模块所组成:一个云端讯息通报引擎5.1,参考一个使用者预先设定的通报决策配置文件5.2,呼叫负责汇总讯息的一到多个讯息通报Mapper/Reducer5.3,将该质量项目云数据库7中该次流程所存放的数据进行讯息汇总,并通过该讯息通报引擎5.2的例如E-Mail或者SMS简讯功能,将产生的一到多个汇总讯息5.4发布给用户。举一范例,例如用户事先设定的通报决策为「根据本次比对质量进行分类汇整」,数据比对的结果为:
Mapper将质量分数当作Key值,数据行当成Value,交给Reducer,Reducer针对每个不同的Key进行Count的动作,将最后的结果,通过E-Mail或SMS方式将汇总讯息通报用户。
请参考图6所示,为本发明「在云端平台的大数据检核方法」的流程图,此方法共有初始化质量比对模型100、分割原始数据200、验证个别数据分割300、进行目标数据加载400、更新比对模型500、通报比对结果600等步骤。
首先在步骤100初始化质量比对模型,加载待检测数据的质量规则模型,如果存在,将规则加载,如果规则模型不存在,则由用户通过接口建立模型,此阶段步骤最终会初始化一个用来提供数据检核的规则模型。
接着在步骤200将云端大资料进行分割交给分散运算处理单元Mapper/Reducer进行分散运算,根据源文件大小自动分割成适当大小,在云端各主机节点进行后续分散运算,此阶段步骤将源文件分割成适当大小的档案分割,并且发派给云端各主机节点Data Nodes进行不同任务的平行处理。
步骤300接续前一步骤的数据分割,在负责数据检验Mapper中把数据文件名+数据行数当成Key,原始数据行当成Value,在每次读进Key-Value时,重新以数据行作为查询比对的键值与规则模型进行比对,得到目标比对结果值,与原始数据行作为索引键,合并为Key-Value格式的质量项目数据,交给Reducer,Reducer继续将收集到的Key-Value存放到上述质量项目云数据库7中。
步骤400继续将步骤200的数据分割,在负责质量筛选的Mapper中,利用原始数据行当作查询比对的键值,先前存放在该质量项目云数据库7进行查询,取得质量分数,并且Mapper会加载使用者事先定义的过滤决策,决定是否将该数据交给Reducer,最后Reducer收到数据后将其加载到上述目标数据集散地6。此阶段步骤的结果,完成数据检核工作,将通过检核的数据加载该目标数据集散地6中。
接着在步骤500将存放在该质量项目云数据库7的历史质量数据,利用分布式数据探勘分散算法技术,在负责规则建立的Mapper中,把质量数据的「属性=值」的n-item当成Key,质量分数当成Value,计算出特定属性的统计值交给Reducer,接着Reducer统一计算出特定属性的分割指针,例如Support、Confidence等等,挖掘出「IF...THEN...」组成的数据质量规则检验规则存在上述质量规则云数据库8中,并且判断是否达到停止条件决定是否停止向下挖掘。此阶段步骤结果产生检验规则模型,存放在该质量规则云数据库8中。
于步骤600连接该质量项目云数据库7,在负责讯息通报的Mapper中,参考使用者预先设定的通报决策设定,把质量数据的质量分数当成Key,数据行当成Value,交给Reducer,Reducer将此次比对结果进行汇总通报使用者。此阶段步骤最终结果为通报用户数据检核工作结束与比对结果。
上列详细说明乃针对本发明的可行实施例进行具体说明,该实施例并非用以限制本发明的专利范围,凡未脱离本发明的等效实施或变更,均应包含于本发明的专利范围中。
Claims (16)
1.一种在云端平台的大数据检核系统,其特征在于,具有云端大数据,通过云端运算进行质量检测与比对,包括:
质量项目云数据库,用以储存品值数据;
质量规则云数据库,用以储存质量规则与规则所组成的模型数据;
云端规则探勘模块,用以链接该质量项目云数据库、自动产生数据检核规则模型,存放于该质量规则云数据库中;
云端数据检验模块,用以计算比对该云端大数据,链接该云端规则探勘模块产生的规则模型,与该云端大数据比对产生质量数据项;
云端质量筛选模块,用以链接该质量项目云数据库,将通过检核的该云端大数据加载到目标数据集散地;
云端讯息通报模块,用以连接该质量项目云数据库,将每次数据检核的结果搜集、通报使用者;以及
目标数据集散地,接收通过该云端讯息通报模块检核的数据,用以存放该数据。
2.如权利要求1所述的在云端平台的大数据检核系统,其特征在于,所述云端平台为Hadoop、EC2或Cloudera Enterprise。
3.如权利要求1所述的在云端平台的大数据检核系统,其特征在于,所述目标数据集散地为非关系数据库、关系数据库、Hive、HBase、BigTable、Cassandra或Amazon SimpleDB。
4.如权利要求1所述的在云端平台的大数据检核系统,其特征在于,所述质量项目云数据库为非关系数据库、关系数据库、Hive、HBase、BigTable、Cassandra或Amazon SimpleDB。
5.如权利要求1所述的在云端平台的大数据检核系统,其特征在于,所述质量规则云数据库为非关系数据库、关系数据库、Hive、HBase、BigTable、Cassandra或Amazon SimpleDB。
6.如权利要求1所述的在云端平台的大数据检核系统,其特征在于,所述云端规则探勘模块,更包括:
用户接口,提供用户输入客制化的数据检验规则;
与用户接口连接的API,用以将规则储存于该质量规则云数据库中;
多个质量规则,用以计算并判断数据质量;
多个规则建立Mapper/Reducer,利用分散平行运算算法建立规则模型;以及
云端规则探勘引擎,用以自动建立规则模型,呼叫该些规则建立Mapper/Reducer,并将该些质量规则,存放于该质量规则云数据库中。
7.如权利要求6所述的在云端平台的大数据检核系统,其特征在于,所述云端规则探勘模块建立的规则算法为关联规则或判定树算法。
8.如权利要求1所述的在云端平台的大数据检核系统,其特征在于,所述云端数据检验模块,更包括:
云端数据检验引擎,用以连接该规则云数据库与启动数据检核分散运算工作;以及
多个数据检核Mapper/Reducer,用以计算数据质量项目,将结果存放在该质量项目云数据库。
9.如权利要求1所述的在云端平台的大数据检核系统,其特征在于,所述云端质量筛选模块,更包括:
云端质量筛选引擎,连接该质量项目云数据库,启动质量筛选分散运算工作;
质量过滤决策配置文件,存放使用者预先定义的过滤决策;以及
多个质量筛选Mapper/Reducer,用以比对过滤原始数据并将检核通过的数据加载到该目标数据集散地。
10.如权利要求1所述的在云端平台的大数据检核系统,其特征在于,所述云端讯息通报模块,更包括:
云端讯息通报引擎,链接该质量项目云数据库,启动讯息通报分散运算工作;
通报决策配置文件,存放使用者预先定义的通报决策;以及
多个讯息通报Mapper/Reducer,用以汇总数据检核结果并通报使用者。
11.如权利要求9所述的在云端平台的大数据检核系统,其特征在于,所述云端讯息通报模块的讯息通报方式为E-Mail或SMS。
12.一种在云端平台的大数据检核系统的检核方法,其特征在于,其步骤至少包含:
a.初始化质量比对计算模型;
b.分割原始数据;
c.验证个别数据分割;
d.进行目标数据加载;
e.更新比对模型;以及
f.通报比对结果。
13.如权利要求12所述的在云端平台的大数据检核方法,其特征在于,所述验证个别数据分割步骤是将获得的质量项目数据依照Key-Value关系,以数据行为Key,对照该质量规则云数据库比对出的质量分数为Value,索引储存在该质量项目云数据库。
14.如权利要求12所述的在云端平台的大数据检核方法,其特征在于,所述进行目标数据加载步骤是将待检核数据依照Key-Value关系计算过滤,以数据行为Key,对照该质量规则云数据库比对出的质量分数为Value,参考用户决策进行过滤,并将过滤后的数据,由分散运算单元加载该目标数据集散地。
15.如权利要求12所述的在云端平台的大数据检核方法,其特征在于,所述更新比对模型步骤是将该比对模型依Key-Value关系索引储存,以关联规则或判定树算法的数据探勘技术,以该质量项目数据库中的数据行「某属性=值」或「某属性」为Key,该算法所需属性的分割指针为Value进行汇总。
16.如权利要求12所述的在云端平台的大数据检核方法,其特征在于,所述通报比对结果步骤是将汇总结果依Key-Value关系,以E-Mail或SMS简讯通报用户,且以质量分数为Key,数据行为Value进行汇总。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW100149402 | 2011-12-29 | ||
TW100149402A TWI475411B (zh) | 2011-12-29 | 2011-12-29 | Large data checking system and its method in cloud platform |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102750367A true CN102750367A (zh) | 2012-10-24 |
Family
ID=47030552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210200083XA Pending CN102750367A (zh) | 2011-12-29 | 2012-06-18 | 在云端平台的大数据检核系统及其方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN102750367A (zh) |
TW (1) | TWI475411B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617211A (zh) * | 2013-11-20 | 2014-03-05 | 浪潮电子信息产业股份有限公司 | 一种HBase加载数据的导入方法 |
CN106021415A (zh) * | 2016-05-13 | 2016-10-12 | 中国建设银行股份有限公司 | 一种数据检核方法及系统 |
CN106354799A (zh) * | 2016-08-26 | 2017-01-25 | 河海大学 | 基于数据质量的主题数据集多层分面过滤方法与系统 |
CN106503196A (zh) * | 2016-10-26 | 2017-03-15 | 云南大学 | 云环境下可扩展存储索引结构的构建和查询方法 |
CN107291954A (zh) * | 2017-07-28 | 2017-10-24 | 南京邮电大学 | 一种基于MapReduce的OCL并行查询方法 |
CN107766587A (zh) * | 2016-08-16 | 2018-03-06 | 台湾国际物业管理顾问有限公司 | 用以检核建筑物设备成本的方法 |
CN108470228A (zh) * | 2017-02-22 | 2018-08-31 | 国网能源研究院 | 财务数据稽核方法及稽核系统 |
CN109685360A (zh) * | 2018-12-19 | 2019-04-26 | 成都四方伟业软件股份有限公司 | 数据质量检测方法及装置 |
CN109933581A (zh) * | 2019-03-01 | 2019-06-25 | 武汉达梦数据库有限公司 | 一种数据质量检测方法及系统 |
CN111209274A (zh) * | 2019-12-30 | 2020-05-29 | 三盟科技股份有限公司 | 一种数据质量检核方法、系统、设备及可读存储介质 |
CN114185869A (zh) * | 2021-12-03 | 2022-03-15 | 四川新网银行股份有限公司 | 一种基于数据标准的数据模型稽核的方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI693525B (zh) * | 2018-12-21 | 2020-05-11 | 凌群電腦股份有限公司 | 雲端大數據資料庫快捷建立索引系統 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102055800A (zh) * | 2010-12-13 | 2011-05-11 | 南京大学 | 基于信息汇聚的交通物联网分层体系架构 |
TW201120779A (en) * | 2009-12-04 | 2011-06-16 | Mohist Web Technology Co Ltd | Trade to handle the power removal to trust a the method and the system that teach believe certification |
WO2011080389A1 (en) * | 2009-12-29 | 2011-07-07 | Nokia Corporation | Distributed authentication with data cloud |
US20110282940A1 (en) * | 2010-05-12 | 2011-11-17 | Samsung Electronics Co., Ltd. | Cloud-based web workers and storages |
CN102255933A (zh) * | 2010-05-20 | 2011-11-23 | 中兴通讯股份有限公司 | 云服务中介、云计算方法及云系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7917463B2 (en) * | 2008-10-10 | 2011-03-29 | Business.Com, Inc. | System and method for data warehousing and analytics on a distributed file system |
-
2011
- 2011-12-29 TW TW100149402A patent/TWI475411B/zh not_active IP Right Cessation
-
2012
- 2012-06-18 CN CN201210200083XA patent/CN102750367A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201120779A (en) * | 2009-12-04 | 2011-06-16 | Mohist Web Technology Co Ltd | Trade to handle the power removal to trust a the method and the system that teach believe certification |
WO2011080389A1 (en) * | 2009-12-29 | 2011-07-07 | Nokia Corporation | Distributed authentication with data cloud |
US20110282940A1 (en) * | 2010-05-12 | 2011-11-17 | Samsung Electronics Co., Ltd. | Cloud-based web workers and storages |
CN102255933A (zh) * | 2010-05-20 | 2011-11-23 | 中兴通讯股份有限公司 | 云服务中介、云计算方法及云系统 |
CN102055800A (zh) * | 2010-12-13 | 2011-05-11 | 南京大学 | 基于信息汇聚的交通物联网分层体系架构 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617211A (zh) * | 2013-11-20 | 2014-03-05 | 浪潮电子信息产业股份有限公司 | 一种HBase加载数据的导入方法 |
CN106021415A (zh) * | 2016-05-13 | 2016-10-12 | 中国建设银行股份有限公司 | 一种数据检核方法及系统 |
CN106021415B (zh) * | 2016-05-13 | 2019-07-09 | 中国建设银行股份有限公司 | 一种数据检核方法及系统 |
CN107766587A (zh) * | 2016-08-16 | 2018-03-06 | 台湾国际物业管理顾问有限公司 | 用以检核建筑物设备成本的方法 |
CN106354799A (zh) * | 2016-08-26 | 2017-01-25 | 河海大学 | 基于数据质量的主题数据集多层分面过滤方法与系统 |
CN106503196B (zh) * | 2016-10-26 | 2019-05-03 | 云南大学 | 云环境下可扩展存储索引结构的构建和查询方法 |
CN106503196A (zh) * | 2016-10-26 | 2017-03-15 | 云南大学 | 云环境下可扩展存储索引结构的构建和查询方法 |
CN108470228A (zh) * | 2017-02-22 | 2018-08-31 | 国网能源研究院 | 财务数据稽核方法及稽核系统 |
CN107291954A (zh) * | 2017-07-28 | 2017-10-24 | 南京邮电大学 | 一种基于MapReduce的OCL并行查询方法 |
CN107291954B (zh) * | 2017-07-28 | 2020-07-31 | 南京邮电大学 | 一种基于MapReduce的OCL并行查询方法 |
CN109685360A (zh) * | 2018-12-19 | 2019-04-26 | 成都四方伟业软件股份有限公司 | 数据质量检测方法及装置 |
CN109933581A (zh) * | 2019-03-01 | 2019-06-25 | 武汉达梦数据库有限公司 | 一种数据质量检测方法及系统 |
CN111209274A (zh) * | 2019-12-30 | 2020-05-29 | 三盟科技股份有限公司 | 一种数据质量检核方法、系统、设备及可读存储介质 |
CN111209274B (zh) * | 2019-12-30 | 2021-05-07 | 三盟科技股份有限公司 | 一种数据质量检核方法、系统、设备及可读存储介质 |
CN114185869A (zh) * | 2021-12-03 | 2022-03-15 | 四川新网银行股份有限公司 | 一种基于数据标准的数据模型稽核的方法 |
Also Published As
Publication number | Publication date |
---|---|
TW201327228A (zh) | 2013-07-01 |
TWI475411B (zh) | 2015-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102750367A (zh) | 在云端平台的大数据检核系统及其方法 | |
WO2021052031A1 (zh) | 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质 | |
US10606862B2 (en) | Method and apparatus for data processing in data modeling | |
CN106095639A (zh) | 一种集群亚健康预警方法及系统 | |
CN102117443A (zh) | 分析处理指定工作负荷时的预期价值和工作的方法和装置 | |
CN109523316A (zh) | 商业服务模型的自动化建模方法 | |
CN110334274A (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN101620691A (zh) | 电信业自动化数据挖掘平台 | |
CN106874483A (zh) | 一种基于大数据技术的图形化的数据质量评测的装置及方法 | |
CN105023196A (zh) | 充电站充电交易数据的分析方法及装置 | |
CN108170769A (zh) | 一种基于决策树算法的装配制造质量数据处理方法 | |
CN103631922A (zh) | 基于Hadoop集群的大规模Web信息提取方法及系统 | |
CN108846555A (zh) | 一种电力负荷大数据缺失值的高效精确填补法 | |
CN108011367A (zh) | 一种基于深度决策树算法的电力负荷特性挖掘方法 | |
CN106228263A (zh) | 基于大数据的物流信息化方法 | |
CN114841788B (zh) | 一种工程项目建设管理竣工决算全过程管理系统 | |
CN105631612A (zh) | 基于大数据的公职人员个人绩效及能力评估系统及方法 | |
CN104933621A (zh) | 一种担保圈的大数据分析系统和方法 | |
CN103942739A (zh) | 建筑项目风险知识库的构建方法 | |
CN107590747A (zh) | 基于综合能源大数据分析的电网资产周转率计算方法 | |
CN104391986B (zh) | 业务重分类装置和方法 | |
CN105956816A (zh) | 物资运输信息智能处理方法 | |
CN111144677A (zh) | 效率评估方法和效率评估系统 | |
CN107093018A (zh) | 基于健康模型的电信工程项目信息可视化方法及装置 | |
CN104794234A (zh) | 用于同业对标的数据处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20121024 |