CN107748752B - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN107748752B
CN107748752B CN201710790718.9A CN201710790718A CN107748752B CN 107748752 B CN107748752 B CN 107748752B CN 201710790718 A CN201710790718 A CN 201710790718A CN 107748752 B CN107748752 B CN 107748752B
Authority
CN
China
Prior art keywords
data
target data
strips
subset
initial data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710790718.9A
Other languages
English (en)
Other versions
CN107748752A (zh
Inventor
李红伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinzhi Cloud Data Service Co ltd
Original Assignee
Xinzhi Cloud Data Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinzhi Cloud Data Service Co ltd filed Critical Xinzhi Cloud Data Service Co ltd
Priority to CN201710790718.9A priority Critical patent/CN107748752B/zh
Publication of CN107748752A publication Critical patent/CN107748752A/zh
Application granted granted Critical
Publication of CN107748752B publication Critical patent/CN107748752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及大数据技术领域,尤其涉及一种数据处理方法及装置,为了解决现有大数据平台在进行数据处理时,无法保证数据真实性的问题,该方法为,通过指定工具从指定源系统抽取并加载初始数据集,并将加载后的初始数据集划分为若干初始数据子集,分批判断当前初始数据子集是否需要修改初始数据条,针对待修改的初始数据子集执行增量合并操作,获得相应目标数据子集,采用预设的业务逻辑规则,为获得的各个目标数据子集包含的若干目标数据条建立关联关系,这样,指定大数据平台通过指定工具能与指定源系统实现衔接,而且,即便是数据加载到指定大数据平台后被修改,依然能通过增量合并操作保证数据一致性,进而保障了数据的真实性,提升了用户体验。

Description

一种数据处理方法及装置
技术领域
本发明涉及大数据技术领域,尤其涉及一种数据处理方法及装置。
背景技术
大数据和互联网的高速发展,带来了爆发式增长的海量数据,以及各类提供数据的数据源系统,数据量的增大,基于传统数据架构的数据仓库越来越不堪重负,大数据平台的出现很好的解决了上述难题,目前应用范围较广的大数据平台有Hadoop平台、Storm平台、Spark平台等等。
然而,并不是所有的数据源系统都能与不同大数据平台实现对接,例如,现有技术下,SAP源系统与Hadoop平台之间不能实现衔接,即,SAP源系统的数据不能被提取到Hadoop平台进行数据分析处理,而且,现有的Hadoop平台在进行数据分析处理时,采用的是一次性处理的处理方式,即,无论数据中途是否修改,只批量处理一次原始数据,因此,无法保证数据的真实性。
有鉴于此,本发明实施例提供了一种新的数据处理方法,以克服上述缺陷。
发明内容
本发明实施例提供一种数据处理方法及装置,用以解决现有大数据平台在进行数据处理时,无法保证数据真实性的问题。
本发明实施例提供的具体技术方案如下:
第一方面,一种数据处理方法,包括:
通过至少一个指定工具,从指定源系统抽取初始数据集,并加载至指定大数据平台;
将加载至所述指定大数据平台的初始数据集划分为若干初始数据子集,并针对每一初始数据子集执行以下操作:
判断当前初始数据子集是否存在待修改的初始数据条;
确定存在时,针对待修改的初始数据条对应的数据增量生成相应的增量表,并基于当前初始数据子集和所述增量表执行增量合并操作,获得目标数据子集;
确定不存在时,将当前初始数据子集确定为目标数据子集;
按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系。
可选的,所述初始数据集包含结构化数据和非结构化数据,所述修改至少包括以下任意一种或组合:更新、删除和插入。
可选的,基于当前初始数据子集和所述增量表执行增量合并操作,获得目标数据子集,包括:
基于所述增量表包含的若干数据增量,修改所述当前初始数据子集中对应的初始数据条,获得相应的目标数据条;
基于获得的目标数据条,以及未修改的初始数据条,获得目标数据子集。
可选的,基于当前初始数据子集和所述增量表执行增量合并操作,获得目标数据子集之后,进一步包括:
采用获得目标数据子集,替换已加载至所述指定大数据平台处对应的初始数据子集。
可选的,按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系,包括:
确定所述若干目标数据子集中存在的主目标数据条和若干附目标数据条,并基于所述主目标数据条和所述若干附目标数据条生成若干中间目标数据条,以及按照预设的业务逻辑规则,为所述若干中间目标数据条建立关联关系;或者,
确定所述若干目标数据子集中存在的主目标数据条和若干附目标数据条,并按照预设的业务逻辑规则,直接为所述主目标数据条和所述若干附目标数据条建立关联关系。
可选的,按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系之后,进一步包括:
按照业务分类,对已建立的各种关联关系进行整合分析,获得不同业务类别对应的分析结果,并将所得的分析结果展示给用户。
第二方面,一种数据处理装置,包括:
加载单元,用于通过至少一个指定工具,从指定源系统抽取初始数据集,并加载至指定大数据平台;
处理单元,用于将加载至所述指定大数据平台的初始数据集划分为若干初始数据子集,并针对每一初始数据子集执行以下操作:
判断当前初始数据子集是否存在待修改的初始数据条;
确定存在时,针对待修改的初始数据条对应的数据增量生成相应的增量表,并基于当前初始数据子集和所述增量表执行增量合并操作,获得目标数据子集;
确定不存在时,将当前初始数据子集确定为目标数据子集;
关联单元,用于按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系。
可选的,所述初始数据集包含结构化数据和非结构化数据,所述修改至少包括以下任意一种或组合:更新、删除和插入。
可选的,基于当前初始数据子集和所述增量表执行增量合并操作,获得目标数据子集时,所述处理单元用于:
基于所述增量表包含的若干数据增量,修改所述当前初始数据子集中对应的初始数据条,获得相应的目标数据条;
基于获得的目标数据条,以及未修改的初始数据条,获得目标数据子集。
可选的,所述装置还包括替换单元,用于在基于当前初始数据子集和所述增量表执行增量合并操作,获得目标数据子集之后,执行以下操作:
采用获得目标数据子集,替换已加载至所述指定大数据平台处对应的初始数据子集。
可选的,按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系时,所述关联单元用于:
确定所述若干目标数据子集中存在的主目标数据条和若干附目标数据条,并基于所述主目标数据条和所述若干附目标数据条生成若干中间目标数据条,以及按照预设的业务逻辑规则,为所述若干中间目标数据条建立关联关系;或者,
确定所述若干目标数据子集中存在的主目标数据条和若干附目标数据条,并按照预设的业务逻辑规则,直接为所述主目标数据条和所述若干附目标数据条建立关联关系。
可选的,所述装置还包括分析展示单元,用于在按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系之后,执行以下操作:
按照业务分类,对已建立的各种关联关系进行整合分析,获得不同业务类别对应的分析结果,并将所得的分析结果展示给用户。
第三方面,一种电子设备,包括:一个或多个处理器;以及
一个或多个计算机可读介质,所述可读介质上存储有用于数据处理的程序,其中,所述程序被所述一个或多个处理器执行时,实现第一方面任一项所述的方法的步骤。
第四方面,一个或多个计算机可读介质,所述可读介质上存储有用于数据处理的程序,其中,所述程序被一个或多个处理器执行时,使得通信设备执行如第一方面任一项所述的方法。
本发明实施例中,首先通过至少一个指定工具从指定源系统抽取并加载初始数据集至指定大数据平台,并将加载后的初始数据集划分为若干初始数据子集,然后,以批量处理方式判断当前选取的初始数据子集是否需要修改初始数据条,针对待修改的初始数据子集执行增量合并操作,确定相应目标数据子集,针对不需要修改的初始数据子集,直接将其确定为相应目标数据子集,然后,采用预设的业务逻辑规则,为获得的各个目标数据子集包含的若干目标数据条建立关联关系,这样,指定大数据平台通过指定工具,能与指定源系统实现衔接,而且,即便是数据加载到指定大数据平台后被执行过修改操作,依然能通过增量合并操作保证数据一致性,进而保障了数据的真实性,提升了用户体验。
附图说明
图1为本发明实施例中大数据架构示意图;
图2为本发明实施例中数据处理方法流程图;
图3为本发明实施例中指定第三工具执行增量合并操作过程示例图;
图4为本发明实施例中数据处理装置结构示意图。
具体实施方式
为了解决现有大数据平台在进行数据处理时,无法保证数据真实性的问题,本发明实施例中,重新设计了一种数据处理方法,该方法为,通过指定工具从指定源系统抽取并加载初始数据集至指定大数据平台,并将加载后的初始数据集划分为若干初始数据子集,分批判断当前选取的初始数据子集是否需要修改初始数据条,针对待修改的初始数据子集执行增量合并操作获得相应目标数据子集,针对不需要修改的初始数据子集,直接将其确定为相应目标数据子集,然后,采用预设的业务逻辑规则,为获得的各个目标数据子集包含的若干目标数据条建立关联关系。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面将通过具体实施例对本发明的方案进行详细描述,当然,本发明并不限于以下实施例。
参阅图1所示,本发明实施例中,在进行数据处理之前,预先搭建了由数据源层、工具层、数据处理与存储层,以及数据展示层组建的大数据架构,其中,数据源层用于提供数据来源,而这些数据源可以来自客服、计量、工程等业务平台,也可以是专门用于提供数据源的源系统,例如,企业管理解决方案(System Applications and Products,SAP)源系统、Oracle(甲骨文)源系统等等;
工具层主要包含数据仓库(Business Warehouse,BW)、抽取-转换-加载(Extract-Transform-Load,ETL)工具、同步复制服务器(SAP-Landscape TransformationReplication Server,SLT)工具、DataService(数据服务工具)、SQOOP(HADOOP生态圈中ETL组件)和WebService(网页服务工具),其中,BW ETL和SLT用于将数据源层的数据抽取到数据处理与存储层,SQOOP和WebService用于抽取其他业务平台提供的数据;数据处理与存储层的数据处理主体为大数据平台,具体包含HDFS(Hadoop Distribute File System,分布式文件系统),HIVE(Hadoop的批处理工具)、HBASE(HDFS分布式面向列的数据库)、Oozie(Hadoop的关键组件)、KUDU(Hadoop的存储系统)、Yarn(Hadoop的框架)、调度器、KAFKA(分布式发布订阅消息系统)等,该大数据平台由离线批量数据处理子平台和实时数据处理子平台组成,其中,离线批量数据处理子平台用于对离线数据进行批量加工处理,并获得相应处理结果,而实时数据处理子平台用于对实时数据进行加工处理,并获得相应处理结果;
数据展示层包含分析子层、展示子层和终端子层,分析子层包含BEX(一种数据分析工具)、BO(Business Objects,数据分析工具)、ECHART(开源图表接口)、QLIK View(一种数据分析工具)和QLIK Sense(一种数据分析工具),展示子层主要为大数据门户,具体包含SPM报表平台、商务智能门户和云数据门户,大数据门户提供单点登录功能,最终用户可以通过大数据门户登录并验证为合法用户后,可访问自身被允许权限内所有处理结果,终端子层包含PC端、大屏幕和移动终端,将数据计算结果以图表展示给最终用户,其中,大屏幕可以通过连接后台数据库(如,Kudu和impala)周期性刷新并展示最新处理结果。
参阅图2所示,本发明实施例中,基于上述大数据架构,提供的数据处理方法流程如下:
步骤200:通过至少一个指定工具,从指定源系统抽取初始数据集,并加载至指定大数据平台。
具体的,基于上述构建的大数据架构,数据处理与存储层要处理数据,需借助工具层,由工具层从数据源层抽取数据,加载至数据处理与存储层。
进一步地,本发明实施例中,具体采用至少一个指定工具,从指定源系统抽取初始数据集加载至指定大数据平台。
例如,假设指定大数据平台为Hadoop平台,由于企业管理解决方案(SystemApplications and Products,SAP)源系统的数据不能直接导入Hadoop平台中,因此,本发明实施例中,针对SAP源系统与Hadoop平台的数据导入,可采用两种工具结合的方法,具体的,可结合SAP源系统的SLT工具和DataService工具进行数据导入操作,由SLT采集SAP源系统新增的数据,并计作初始数据集,然后,通过DataService工具将SLT采集而来的初始数据集传输至Hadoop平台。
更进一步地,由于从源系统直接抽取数据,因此,初始数据集中可以包含结构化数据和非结构化数据,所谓结构化数据是指存储在数据库中,可以用二维表结构来逻辑表达实现的数据,而非结构化数据是指不能用数据库中二维逻辑表结构来表达的数据,例如,办公文档、文本、图像和音频/视频信息等等,而现有的数据架构,只能提取并存储结构化数据。
当然,本发明实施例中,加载至大数据平台的数据提供方不仅仅只限定为源系统,还可以为其他业务平台。
步骤210:将当前加载至所述指定大数据平台的初始数据集划分为若干初始数据子集。
具体的,初始数据集加载至指定大数据平台后,为了保障加载的初始数据集包含的数据条及数据结构,与源系统中存储的初始数据集包含的数据条及数据结构能保持一致性,需对加载后的初始数据集执行增量合并操作,其中,增量合并操作为修改操作,修改操作包含更新、删除或插入。
例如,源系统中的初始数据集加载至大数据平台后,假设其包含的数据条1已在源系统端被修改,那么,为了保证加载至大数据平台的数据条1的真实性,会对数据条1执行增量合并操作,而为了减少数据的处理量,在执行增量合并操作之前,基于离线批量数据处理子平台,先将当前加载至指定大数据平台的初始数据集划分为若干初始数据子集。
步骤220:从当前加载至指定大数据平台的初始数据集中选取一个初始数据子集。
具体的,针对被划分为若干初始数据子集的初始数据集,从中依次筛选出单个的初始数据子集。
例如,假设存在初始数据集A,包含初始数据子集A1和初始数据子集A2,其中,“A1”包含10条初始数据条。分别为“初始数据条1、初始数据条2、…、初始数据条10”,“A2”包含6条初始数据条,分别为“初始数据条11、初始数据条12、…、初始数据条16”,首先,可选取A1,并执行步骤230的操作。
步骤230:判断当前选取的初始数据子集是否存在待修改的初始数据条,若存在,则执行步骤240,否则,执行步骤250。
具体的,由于并非每一个初始数据子集都存在待修改的初始数据条,因此,当前选取的初始数据子集是否需要被执行增量合并操作,还需判断当前选取的初始数据子集是否存在待修改的初始数据条,若存在,则执行步骤240,否则,执行步骤250。
例如,假设“A1”加载至大数据平台后,“A1”的“初始数据条3”的内容“用户甲一月份的燃气使用量为20立方米”,修改为“用户甲一月份的燃气使用量为2立方米”,那么,即可判断“A1”中存在待修改的“初始数据条3”,并执行步骤240。
又例如,假设“A2”加载至大数据平台后,“A2”的内容并没有做任何修改,那么,可判断“A2”不存在待修改的初始数据条,并执行步骤250。
步骤240:针对待修改的初始数据条对应的数据增量生成相应的增量表,并基于初始数据子集和增量表执行增量合并操作,获得目标数据子集。
具体的,确定当前初始数据子集中存在待修改的初始数据条时,针对待修改的初始数据条对应的数据增量生成相应的增量表,并基于初始数据子集和增量表执行增量合并操作,确定目标数据子集。
进一步地,基于该增量表中包含的若干数据增量,修改当前初始数据子集中对应的初始数据条,以获得相应的目标数据条,并基于获得的若干目标数据条,以及未修改的初始数据条,组成目标数据子集,其中,目标数据子集包含获得的目标数据条以及未修改的初始数据条,以及采用获得目标数据子集,替换已加载至指定大数据平台处对应处的初始数据子集,上述替换操作是为了将指定大数据平台上待修改的初始数据子集,修正成获得的目标数据子集,进而保障数据的一致性。
较佳的,本发明实施例中,直接将初始数据子集和相应增量表输入至特定工具,由特定工具实现初始数据子集至目标数据子集的转换。
例如,以Hadoop平台为例,由于Hadoop中hive工具对增量合并操作的支持不够高效,因此,采用MapReduce工具完成本层的增量合并操作,继续以前述示例进行说明,参阅图3所示,针对“A1”中的“初始数据条3”的数据增量“用户甲一月份的燃气使用量为2立方米”生成“增量表1”,将“增量表1”和“A1”一起输入至MapReduce中,获得目标数据子集“A1’”,并采用“A1’”替换Hadoop平台中存储的“A1”。
步骤250:直接将当前初始数据子集确定为目标数据子集。
具体的,由于当前选取的初始数据子集中不存在待修改的初始数据条,因此,该初始数据子集不需要执行增量合并操作,则可直接确定该初始数据子集为相应的目标数据子集。
例如,“A2”加载至大数据平台后,“A2”对应的目标数据子集依然是“A2”。
步骤260:判断当前加载至指定大数据平台的初始数据集是否存在未被选取的初始数据子集,若存在,则执行步骤220,否则,执行步骤270。
具体的,由于对存在待修改的初始数据条的初始数据子集的增量合并操作是分批次进行的,因此,完成对当前选取的初始数据子集的相关操作后,继续判断当前加载至指定大数据平台的初始数据集是否还存在未被选取的初始数据子集,若存在,则继续选取,否则,执行步骤270。
步骤270:按照预设的业务逻辑规则,基于获得的若干目标数据子集,为所述若干目标数据子集包含的若干目标数据条建立关联关系。
具体的,确定当前加载至指定大数据平台的各个初始数据子集各自对应的目标数据子集后,按照预设的业务逻辑规则,为各个目标数据子集包含的若干目标数据条建立关联关系。
进一步地,为各个目标数据子集包含的若干目标数据条建立关联关系有如下两种方式:
方式一
首先,确定若干目标数据子集包含的主目标数据条和若干附目标数据条,并基于该主目标数据条和若干附目标数据条生成若干中间目标数据条,以及按照预设的业务逻辑规则,为若干中间目标数据条建立关联关系。
例如,假设目标数据条为数据表,首先确定各目标数据子集包含的各个数据表,并确定至少一个主表以及若干附表,将至少一个主表和若干附表并行与相关代码表关联,形成若干中间表,并为各个中间表建立关联关系。
采用方式一,可以并行地执行一部分目标数据条的关联。
方式二
首先,确定若干目标数据子集包含的主目标数据条和若干附目标数据条,并按照预设的业务逻辑规则,直接为主目标数据条和若干附目标数据条建立关联关系。
例如,假设目标数据条为数据表,首先确定各目标数据子集包含的各个数据表,并确定至少一个主表以及若干附表,然后,直接确定至少一个主表与若干附表的关联关系。
采用方式二,不用产生中间表,即,无需执行多次冗余的读写操作,而且,容易实现。
步骤280:按照业务分类,对已建立的各种关联关系进行整合分析,获得不同业务类别对应的分析结果,并将所得的分析结果展示给用户。
具体的,确定各个目标数据条之间的关联关系后,可按照业务分类,对已建立的各种关联关系进行整合分析,获得不同业务类别对应的分析结果。
例如,可对已建立的各种关联关系进行二次加工处理,按客服、市场、工程等不同业务数据进行整合分析,并通过大数据门户或大屏幕将整合分析结果展示给最终用户。
基于上述实施例,参阅图4所示,本发明实施例中,数据处理装置,至少包括加载单元41,处理单元42和关联单元43,其中,
加载单元41,用于通过至少一个指定工具,从指定源系统抽取初始数据集,并加载至指定大数据平台;
处理单元42,用于将加载至所述指定大数据平台的初始数据集划分为若干初始数据子集,并针对每一初始数据子集执行以下操作:
判断当前初始数据子集是否存在待修改的初始数据条;
确定存在时,针对待修改的初始数据条对应的数据增量生成相应的增量表,并基于当前初始数据子集和所述增量表执行增量合并操作,获得目标数据子集;
确定不存在时,将当前初始数据子集确定为目标数据子集;
关联单元43,用于按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系。
可选的,所述初始数据集包含结构化数据和非结构化数据,所述修改至少包括以下任意一种或组合:更新、删除和插入。
可选的,基于当前初始数据子集和所述增量表执行增量合并操作,获得目标数据子集时,所述处理单元用于:
基于所述增量表包含的若干数据增量,修改所述当前初始数据子集中对应的初始数据条,获得相应的目标数据条;
基于获得的目标数据条,以及未修改的初始数据条,获得目标数据子集。
可选的,所述装置还包括替换单元44,用于在基于当前初始数据子集和所述增量表执行增量合并操作,获得目标数据子集之后,执行以下操作:
采用获得目标数据子集,替换已加载至所述指定大数据平台处对应的初始数据子集。
可选的,按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系时,所述关联单元43用于:
确定所述若干目标数据子集中存在的主目标数据条和若干附目标数据条,并基于所述主目标数据条和所述若干附目标数据条生成若干中间目标数据条,以及按照预设的业务逻辑规则,为所述若干中间目标数据条建立关联关系;或者,
确定所述若干目标数据子集中存在的主目标数据条和若干附目标数据条,并按照预设的业务逻辑规则,直接为所述主目标数据条和所述若干附目标数据条建立关联关系。
可选的,所述装置还包括分析展示单元45,用于在按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系之后,执行以下操作:
按照业务分类,对已建立的各种关联关系进行整合分析,获得不同业务类别对应的分析结果,并将所得的分析结果展示给用户。
综上所述,本发明实施例中,首先通过至少一个指定工具从指定源系统抽取并加载初始数据集至指定大数据平台,并将加载后的初始数据集划分为若干初始数据子集,然后,以批量处理方式判断当前选取的初始数据子集是否需要修改初始数据条,针对待修改的初始数据子集执行增量合并操作,确定相应目标数据子集,针对不需要修改的初始数据子集,直接将其确定为相应目标数据子集,然后,采用预设的业务逻辑规则,为获得的各个目标数据子集包含的若干目标数据条建立关联关系,这样,指定大数据平台通过指定工具,能与指定源系统实现衔接,而且,即便是数据加载到指定大数据平台后被执行过修改操作,依然能通过增量合并操作保证数据一致性,进而保障了数据的真实性,提升了用户体验。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
通过至少一个指定工具,从指定源系统抽取初始数据集,并加载至指定大数据平台,所述源系统用于提供数据源,所述指定大数据平台用于对数据进行分析处理;
将加载至所述指定大数据平台的初始数据集划分为若干初始数据子集,并针对每一初始数据子集执行以下操作:
判断当前初始数据子集是否存在待修改的初始数据条;
确定存在时,针对待修改的初始数据条对应的数据增量生成相应的增量表,并基于当前初始数据子集和所述增量表执行增量合并操作,获得目标数据子集,以及采用获得的所述目标数据子集,替换已加载至所述指定大数据平台处对应的初始数据子集;
其中,所述基于当前初始数据子集和所述增量表执行增量合并操作,获得目标数据子集,包括:基于所述增量表包含的若干数据增量,修改所述当前初始数据子集中对应的初始数据条,获得相应的目标数据条;基于获得的目标数据条,以及未修改的初始数据条,获得目标数据子集;
确定不存在时,将当前初始数据子集确定为目标数据子集;
按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系。
2.如权利要求1所述的方法,其特征在于,所述初始数据集包含结构化数据和非结构化数据,所述修改至少包括以下任意一种或组合:更新、删除和插入。
3.如权利要求1所述的方法,其特征在于,按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系,包括:
确定所述若干目标数据子集中存在的主目标数据条和若干附目标数据条,并基于所述主目标数据条和所述若干附目标数据条生成若干中间目标数据条,以及按照预设的业务逻辑规则,为所述若干中间目标数据条建立关联关系;或者,
确定所述若干目标数据子集中存在的主目标数据条和若干附目标数据条,并按照预设的业务逻辑规则,直接为所述主目标数据条和所述若干附目标数据条建立关联关系。
4.如权利要求1所述的方法,其特征在于,按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系之后,进一步包括:
按照业务分类,对已建立的各种关联关系进行整合分析,获得不同业务类别对应的分析结果,并将所得的分析结果展示给用户。
5.一种数据处理装置,其特征在于,包括:
加载单元,用于通过至少一个指定工具,从指定源系统抽取初始数据集,并加载至指定大数据平台,所述源系统用于提供数据源,所述指定大数据平台用于对数据进行分析处理;
处理单元,用于将加载至所述指定大数据平台的初始数据集划分为若干初始数据子集,并针对每一初始数据子集执行以下操作:
判断当前初始数据子集是否存在待修改的初始数据条;
确定存在时,针对待修改的初始数据条对应的数据增量生成相应的增量表,并基于当前初始数据子集和所述增量表执行增量合并操作,获得目标数据子集,以及采用获得的所述目标数据子集,替换已加载至所述指定大数据平台处对应的初始数据子集;
其中,所述基于当前初始数据子集和所述增量表执行增量合并操作,获得目标数据子集时,所述处理单元用于:基于所述增量表包含的若干数据增量,修改所述当前初始数据子集中对应的初始数据条,获得相应的目标数据条;基于获得的目标数据条,以及未修改的初始数据条,获得目标数据子集;
确定不存在时,将当前初始数据子集确定为目标数据子集;
关联单元,用于按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系。
6.如权利要求5所述的装置,其特征在于,所述初始数据集包含结构化数据和非结构化数据,所述修改至少包括以下任意一种或组合:更新、删除和插入。
7.如权利要求5所述的装置,其特征在于,按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系时,所述关联单元用于:
确定所述若干目标数据子集中存在的主目标数据条和若干附目标数据条,并基于所述主目标数据条和所述若干附目标数据条生成若干中间目标数据条,以及按照预设的业务逻辑规则,为所述若干中间目标数据条建立关联关系;或者,
确定所述若干目标数据子集中存在的主目标数据条和若干附目标数据条,并按照预设的业务逻辑规则,直接为所述主目标数据条和所述若干附目标数据条建立关联关系。
8.如权利要求7所述的装置,其特征在于,所述装置还包括分析展示单元,用于在按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系之后,执行以下操作:
按照业务分类,对已建立的各种关联关系进行整合分析,获得不同业务类别对应的分析结果,并将所得的分析结果展示给用户。
9.一种电子设备,其特征在于,包括:一个或多个处理器;以及
一个或多个计算机可读介质,所述可读介质上存储有用于数据处理的程序,其中,所述程序被所述一个或多个处理器执行时,实现如权利要求1至4中任一项所述的方法的步骤。
10.一种或多种计算机可读介质,其特征在于,所述可读介质上存储有用于数据处理的程序,其中,所述程序被一个或多个处理器执行时,使得通信设备执行如权利要求1至4中任一项所述的方法。
CN201710790718.9A 2017-09-05 2017-09-05 一种数据处理方法及装置 Active CN107748752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710790718.9A CN107748752B (zh) 2017-09-05 2017-09-05 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710790718.9A CN107748752B (zh) 2017-09-05 2017-09-05 一种数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN107748752A CN107748752A (zh) 2018-03-02
CN107748752B true CN107748752B (zh) 2021-07-06

Family

ID=61254943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710790718.9A Active CN107748752B (zh) 2017-09-05 2017-09-05 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN107748752B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508338A (zh) * 2018-11-23 2019-03-22 成都四方伟业软件股份有限公司 数据报表关联方法及装置
CN109995854B (zh) * 2019-03-15 2022-02-25 网宿科技股份有限公司 调度方法、装置、电子设备和存储介质
CN110175209A (zh) * 2019-04-12 2019-08-27 中国人民财产保险股份有限公司 增量数据同步方法、系统、设备及存储介质
CN110781235A (zh) * 2019-10-24 2020-02-11 珠海格力电器股份有限公司 基于大数据的采购数据处理方法、装置、终端及存储介质
CN111190901B (zh) * 2019-12-12 2023-02-07 深圳平安医疗健康科技服务有限公司 业务数据存储方法、装置、计算机设备和存储介质
CN111400363A (zh) * 2020-02-23 2020-07-10 中国平安财产保险股份有限公司 指标数据处理方法、装置、电子设备及存储介质
CN113157747A (zh) * 2021-04-30 2021-07-23 中国银行股份有限公司 数据服务方法及装置
CN113434367A (zh) * 2021-06-30 2021-09-24 青岛海尔科技有限公司 数据监控方法及装置、存储介质、电子装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8275815B2 (en) * 2008-08-25 2012-09-25 International Business Machines Corporation Transactional processing for clustered file systems
CN102508835B (zh) * 2011-09-22 2015-04-15 用友软件股份有限公司 基于日志管理包的增量数据实时同步装置和方法
CN103606032B (zh) * 2013-11-05 2016-08-24 广东电网公司电力科学研究院 一种二维电网gis数据集中的方法
CN104866619A (zh) * 2015-06-09 2015-08-26 北京京东尚科信息技术有限公司 数据仓库的数据监控方法和系统
CN105488187A (zh) * 2015-12-02 2016-04-13 北京四达时代软件技术股份有限公司 多源异构数据增量抽取的方法及装置

Also Published As

Publication number Publication date
CN107748752A (zh) 2018-03-02

Similar Documents

Publication Publication Date Title
CN107748752B (zh) 一种数据处理方法及装置
CN108536761B (zh) 报表数据查询方法及服务器
CN109997126B (zh) 事件驱动提取、变换、加载(etl)处理
US10055426B2 (en) System and method transforming source data into output data in big data environments
Begoli et al. Design principles for effective knowledge discovery from big data
US11663033B2 (en) Design-time information based on run-time artifacts in a distributed computing cluster
CN103620601B (zh) 在映射缩减过程中汇合表
DE112012005037B4 (de) Verwalten von redundanten unveränderlichen Dateien unter Verwendung von Deduplizierungen in Speicher-Clouds
CN110292775B (zh) 获取差异数据的方法及装置
AU2015204742B2 (en) Methods for generating an activity stream
CN110716966B (zh) 数据可视化处理方法及系统、电子设备及存储介质
US10019680B2 (en) System and method for distributed rule-based sequencing engine
CN110647512A (zh) 一种数据存储和分析方法、装置、设备和可读介质
US20140337361A1 (en) User-specific feed generation system
Silva et al. Integrating big data into the computing curricula
CN106557307B (zh) 业务数据的处理方法及处理系统
US20190250780A1 (en) Selective user notification of actions taken to content by other users
CN110889272A (zh) 数据处理方法、装置、设备及存储介质
US8918410B2 (en) System and method for fast identification of variable roles during initial data exploration
US20150170067A1 (en) Determining analysis recommendations based on data analysis context
CN112559603B (zh) 特征提取方法、装置、设备及计算机可读存储介质
US20190146977A1 (en) Method and system for persisting data
Hota Big data analysis on youtube using hadoop and mapreduce
CN114780648A (zh) 任务调度方法、装置、计算机设备、存储介质和程序产品
US9239867B2 (en) System and method for fast identification of variable roles during initial data exploration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant