CN111857981A - 一种数据处理方法以及装置 - Google Patents

一种数据处理方法以及装置 Download PDF

Info

Publication number
CN111857981A
CN111857981A CN201910337573.6A CN201910337573A CN111857981A CN 111857981 A CN111857981 A CN 111857981A CN 201910337573 A CN201910337573 A CN 201910337573A CN 111857981 A CN111857981 A CN 111857981A
Authority
CN
China
Prior art keywords
data
network environment
network
target
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910337573.6A
Other languages
English (en)
Inventor
徐攀登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910337573.6A priority Critical patent/CN111857981A/zh
Publication of CN111857981A publication Critical patent/CN111857981A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/0001Systems modifying transmission characteristics according to link quality, e.g. power backoff
    • H04L1/0015Systems modifying transmission characteristics according to link quality, e.g. power backoff characterised by the adaptation strategy

Abstract

本申请公开了一种数据处理方法以及装置,该方法包括:获得目标任务和目标任务所需处理的目标数据,目标数据来源于第一网络环境;如果确定目标数据满足第二网络环境的数据质量要求,则启动目标任务。通过使用该方法,可避免在无法确定来自第一网络环境的跨网络数据到达第二网络环境的数据处理平台的时间的情况下、根据约定时间进行任务调度所造成的无法进行正常任务调度的问题,并且可避免在来自第一网络环境的跨网络数据无法满足第二网络环境的数据质量要求的情况下、根据约定时间进行任务调度所造成的后续依赖于该跨网络数据所生成的数据发生错误,从而影响整个数据处理流程的问题。

Description

一种数据处理方法以及装置
技术领域
本申请涉及计算机技术领域,具体涉及一种数据处理方法。本申请同时涉及一种数据处理装置以及一种电子设备。本申请还涉及一种数据校验方法、一种数据校验装置以及一种电子设备。
背景技术
对于跨网络数据,由于数据来源和数据处理分布在不同网络环境中,例如,混合云建设中需将数据从公有云网络传输到私有云网络进行数据处理,在对该类型跨网络数据的数据处理过程中,需进行任务调度。
现有的针对跨网络数据的调度方式通常根据约定时间进行任务调度,例如,对公有云网络的数据按约定的时间进行数据采集,私有云网络的数据处理平台根据数据采集结束时间进行任务调度。
然而,现有的针对跨网络数据的任务调度方法存在以下不足:
对于数据采集周期不规律,或者异常情况下导致的约定时间内数据无法采集完成,在无法确定跨网络数据到达数据处理平台的时间的情况下,数据无法正常调度;并且,在跨网络数据无法满足数据质量要求的情况下,如果根据约定时间进行任务调度,则可造成后续依赖于该跨网络数据所生成的数据发生错误,从而影响整个数据处理流程。
发明内容
本申请提供一种数据处理方法,以解决现有针对跨网络数据的任务调度出现的无法正常调度以及数据发生错误的问题。本申请另外提供一种数据处理装置以及一种电子设备。
本申请提供一种数据处理方法,包括:
获得目标任务和所述目标任务所需处理的目标数据,所述目标数据来源于第一网络环境;
如果确定所述目标数据满足第二网络环境的数据质量要求,则启动所述目标任务。
可选的,所述获得目标任务,包括:
根据预定的离线数据处理流程,获得数据依赖关系集合;
根据所述数据依赖关系集合,获得目标任务。
可选的,所述根据预定的离线数据处理流程,获得数据依赖关系集合,包括:对所述离线数据处理流程所对应的任务语句进行解析,获得数据依赖关系集合;或者,从针对所述离线数据处理流程的任务配置信息中获得所述数据依赖关系集合。
可选的,所述数据依赖关系集合包括数据表与数据表之间的依赖关系集合、数据表与数据任务之间的依赖关系集合以及数据任务与数据任务之间的依赖关系,所述根据所述数据依赖关系集合,获得目标任务,包括:
根据所述数据表与数据表之间的依赖关系集合,获得基础数据表;
根据所述基础数据表和所述数据表与数据任务之间的依赖关系集合,获得依赖于所述基础数据表的数据任务;
根据所述依赖于基础数据表的数据任务和所述数据任务与数据任务之间的依赖关系集合,获得所述目标任务。
可选的,所述获得所述目标任务所需处理的目标数据,包括:
获得所述目标任务所需处理的目标数据对应的第一业务时间区间集合;所述第一业务时间区间集合包括至少一个数据表对应的业务时间区间;
获得所述基础数据表中的基础数据对应的第二业务时间区间集合;所述第二业务时间区间集合包括至少一个数据表对应的业务时间区间;
判断所述第一业务时间区间集合与所述第二业务时间区间集合是否相同;
如果所述第一业务时间区间集合与所述第二业务时间区间集合相同,则确定所述基础数据表中的基础数据为所述目标数据。
可选的,所述数据表与数据任务之间的依赖关系集合包括业务时间参数,所述业务时间参数用于表示数据任务对应的基准时间与该数据任务所需处理的数据对应的业务时间区间的换算关系,所述获得所述目标任务所需处理的目标数据对应的第一业务时间区间集合,包括:
获得所述目标任务对应的基准时间;
根据所述目标任务对应的基准时间和所述业务时间参数,获得所述目标任务所需处理的目标数据对应的第一业务时间区间集合。
可选的,所述获得所述目标任务对应的基准时间,包括:
从来源于所述第一网络环境的所述基础数据表中的基础数据中获得业务数据更新频率最高的基础数据;
将所述业务数据更新频率最高的基础数据的业务数据更新时间中与当前时间所需的业务数据一致的更新时间,作为所述目标任务对应的基准时间。
可选的,还包括:
对来源于第一网络环境的跨网络数据进行数据校验,获得未发生传输错误的跨网络数据;
按照第二网络环境的数据质量验证方法,对所述未发生传输错误的跨网络数据进行数据质量验证,获得符合第二网络环境的使用需求的跨网络数据;
对应的,所述确定所述目标数据满足第二网络环境的数据质量要求,包括:
如果所述符合第二网络环境的使用需求的跨网络数据中包含所述目标数据,则确定所述目标数据满足第二网络环境的数据质量要求。
可选的,所述来源于第一网络环境的跨网络数据包括数据内容和与该数据内容在传输过程中所经过的网络环境相对应的数据校验信息,所述数据校验信息包括记录有能够表示所述数据内容的传输状态的网络环境标识信息,所述对来源于第一网络环境的跨网络数据进行数据校验,获得未发生传输错误的跨网络数据,包括:
判断所述跨网络数据的数据内容在传输过程中是否发生变化;
如果发生变化,则根据所述记录有所述数据内容的传输状态的网络环境标识信息确定所述数据内容发生变化时所处的网络环境;
从所述数据内容发生变化时所处的网络环境采集来源于该网络环境的上游网络环境的上游跨网络数据;
在确定所述上游跨网络数据的数据内容未发生变化时,将所述上游跨网络数据作为未发生传输错误的跨网络数据。
可选的,所述判断所述跨网络数据的数据内容在传输过程中是否发生变化
根据所述数据内容,获得与所述网络环境相对应的、用于对所述数据内容进行标识的内容标识信息;
将所述内容标识信息进行比对,如果所述内容标识信息不同,则确定所述跨网络数据的数据内容在传输过程中发生变化。
可选的,所述根据所述数据内容,获得与所述网络环境相对应的、用于对所述数据内容进行标识的内容标识信息,包括:
对所述数据内容进行哈希计算,获得与所述网络环境相对应的哈希值。
可选的,所述网络环境标识信息包括所述网络环境所对应的传输序列号,所述传输序列号按照所述跨网络数据传输过程中所经过的网络环境依次递增,所述根据所述记录有所述数据内容的传输状态的网络环境标识信息确定所述数据内容发生变化时所处的网络环境,包括:
将数据内容发生变化的网络环境中的传输序列号最小的网络环境确定为所述数据内容发生变化时所处的网络环境。
可选的,所述确定所述目标数据满足第二网络环境的数据质量要求,包括:
对所述目标数据进行数据校验,确定所述目标数据未发生传输错误;
按照第二网络环境的数据质量验证方法,对未发生传输错误的所述目标数据进行数据质量验证,确定所述目标数据符合第二网络环境的使用需求。
可选的,所述第一网络环境为异地网络环境,所述第二网络环境为本地网络环境。
可选的,所述第一网络环境为公有云网络环境,所述第二网络环境为私有云网络环境。
本申请还提供一种数据校验方法,包括:
获得跨网络数据;所述跨网络数据包括数据内容和与该数据内容在传输过程中所经过的网络环境相对应的数据校验信息,所述数据校验信息包括记录有能够表示所述数据内容的传输状态的网络环境标识信息;
判断所述数据内容在传输过程中是否发生变化;
如果确定所述数据内容在传输过程中发生变化,则根据所述网络环境标识信息确定所述数据内容发生变化时所处的网络环境。
可选的,所述判断所述数据内容在传输过程中是否发生变化,包括:
根据所述数据内容,获得与所述网络环境相对应的、用于对所述数据内容进行标识的内容标识信息;
将所述内容标识信息进行比对,如果所述内容标识信息不同,则确定所述跨网络数据的数据内容在传输过程中发生变化。
可选的,所述网络环境标识信息包括所述网络环境所对应的传输序列号,所述传输序列号按照所述跨网络数据传输过程中所经过的网络环境依次递增,所述根据所述网络环境标识信息确定所述数据内容发生变化时所处的网络环境,包括:
将数据内容发生变化的网络环境中的传输序列号最小的网络环境确定为所述数据内容发生变化时所处的网络环境。
可选的,还包括:从所述数据内容发生变化时所处的网络环境对源自于该网络环境的上游网络环境的跨网络数据进行采集。
本申请还提供一种数据处理装置,包括:
目标任务和目标数据获得单元,用于获得目标任务和所述目标任务所需处理的目标数据,所述目标数据来源于第一网络环境;
目标任务启动单元,用于在确定所述目标数据满足第二网络环境的数据质量要求之后,启动所述目标任务。
本申请还提供一种电子设备,包括:
处理器;
存储器,用于存储数据处理程序,所述程序在被所述处理器读取执行时,执行如下操作:
获得目标任务和所述目标任务所需处理的目标数据,所述目标数据来源于第一网络环境;
如果确定所述目标数据满足第二网络环境的数据质量要求,则启动所述目标任务。
本申请还提供一种数据校验装置,包括:
跨网络数据获得单元,用于获得跨网络数据;所述跨网络数据包括数据内容和与该数据内容在传输过程中所经过的网络环境相对应的数据校验信息,所述数据校验信息包括记录有能够表示所述数据内容的传输状态的网络环境标识信息;
变化判断单元,用于判断所述数据内容在传输过程中是否发生变化;
网络环境确定单元,用于在确定所述数据内容在传输过程中发生变化之后,根据所述网络环境标识信息确定所述数据内容发生变化时所处的网络环境。
本申请还提供一种电子设备,包括:
处理器;
存储器,用于存储数据处理程序,所述程序在被所述处理器读取执行时,执行如下操作:
获得跨网络数据;所述跨网络数据包括数据内容和与该数据内容在传输过程中所经过的网络环境相对应的数据校验信息,所述数据校验信息包括记录有能够表示所述数据内容的传输状态的网络环境标识信息;
判断所述数据内容在传输过程中是否发生变化;
如果确定所述数据内容在传输过程中发生变化,则根据所述网络环境标识信息确定所述数据内容发生变化时所处的网络环境。
与现有技术相比,本申请具有以下优点:
本申请提供的方法,在获得目标任务和该目标任务所需处理的来源于第一网络环境的目标数据,并且确定该目标数据满足第二网络环境的数据质量要求之后,启动该目标任务。通过使用该方法,可避免在无法确定来自第一网络环境的跨网络数据到达第二网络环境的数据处理平台的时间的情况下、根据约定时间进行任务调度所造成的无法进行正常任务调度的问题,并且可避免在来自第一网络环境的跨网络数据无法满足第二网络环境的数据质量要求的情况下、根据约定时间进行任务调度所造成的后续依赖于该跨网络数据所生成的数据发生错误,从而影响整个数据处理流程的问题。
附图说明
图1-A是本申请实施例提供的场景示意图;
图1是本申请第一实施例提供的方法流程图;
图2是本申请第二实施例提供的方法流程图;
图3是本申请第三实施例提供的装置单元框图;
图4是本申请第四实施例提供的电子设备示意图;
图5是本申请第五实施例提供的装置单元框图;
图6是本申请第六实施例提供的电子设备示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在离线数据处理平台,任务调度的过程为启动任务、并且对数据进行处理的过程,即,调动相应的数据任务对采集到数据处理平台的跨网络数据进行数据处理。该跨网络数据可以是指来自区别于数据处理平台所处网络环境的其它网络环境的数据,例如,在云计算应用领域,常见的服务模式包括公有云、私有云以及混合云,公有云指的是能够提供共享资源服务的云计算应用,专有云又称私有云,其为云计算应用中供单个组织专用的一种特殊模式,其只允许指定的客户端运行,混合云是一种集成云服务,如跨数据中心连通用户的两个子业务部门等,其将公有云和私有云结合在一起,在混合云的建设中,需要将私有云网络和公有云网络连通起来,如图1-A所示,数据从公有云网络传输至私有云网络,并在数据处理平台中进行数据处理,在该过程中,数据来源和数据处理分布在不同网络环境中,需根据预定的数据处理流程对跨网络数据进行任务调度。
针对上述跨网络数据的任务调度场景,为了避免在无法确定跨网络数据到达数据处理平台的时间的情况下、根据约定时间进行任务调度所造成的无法进行正常任务调度的问题,以及为了避免在跨网络数据无法满足数据处理平台的数据质量要求的情况下,根据约定时间进行任务调度所造成的后续依赖于该跨网络数据所生成的数据发生错误,从而影响整个数据处理流程的问题。本申请提供了一种数据处理方法、与该方法相对应的数据处理装置以及电子设备。本申请还提供一种数据校验方法、与该方法相对应的数据校验装置以及电子设备。以下提供实施例对所述方法、装置以及电子设备进行详细说明。
本申请第一实施例提供一种数据处理方法,该方法的实施主体可以为针对跨网络数据进行任务调度的数据处理平台,图1为本申请第一实施例提供的数据处理方法流程图,以下结合图1对本实施例提供的方法进行详细描述。以下描述所涉及的实施例是用来解释说明方法原理,不是实际使用的限定。
如图1所示,本实施例提供的数据处理方法包括如下步骤:
S101,获得目标任务和该目标任务所需处理的目标数据。
本步骤用于获得目标任务和该目标任务所需处理的目标数据,该目标任务所需处理的目标数据来源于第一网络环境,并且,该目标任务为当前待启动的数据任务。该第一网络环境可以是指异地网络环境或者公有云网络环境,相对的,数据处理平台所处的网络环境可以是指本地网络环境或者私有云网络环境,此处用于表明目标任务所需处理的目标数据相对于数据处理平台来说,为跨网络数据。在本实施例中,以异地网络环境为例进行说明。
在本实施例中,可通过如下方式获得上述目标任务:
A,根据预定的离线数据处理流程,获得数据依赖关系集合。
离线数据处理流程就是数据抽取、加载、转换的过程,例如主要应用于数据仓库的ETL(Extract-Transform-Load)数据处理流程,其用于描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的数据处理过程。离线数据处理流程数据与数据之间、数据与任务之间以及任务与任务之间存在依赖关系。
在本实施例中,可通过对该述离线数据处理流程所对应的任务语句进行解析的方式获得数据依赖关系集合,或者从针对所述离线数据处理流程的任务配置信息中获得所述数据依赖关系集合,该种情形下,需确定在对离线数据处理流程进行任务配置时,已完成对数据依赖关系的配置。例如,在当前网络环境的数据生产平台中,通过数据任务解析模块对预定的离线数据处理流程所对应的SQL语句进行解析,获得该离线数据处理流程中包含的所有数据依赖关系,组成数据依赖关系集合。对于非SQL语句的数据任务,需在任务配置阶段对数据依赖关系进行配置,获得所述数据依赖关系集合。
在本实施例中,上述数据依赖集合具体可包括数据表与数据表之间的依赖关系集合、数据表与数据任务之间的依赖关系集合以及数据任务与数据任务之间的依赖关系集合。
在本实施例中,数据表与数据表之间的依赖关系指的是在数据处理平台中生成的子表与生成该子表所依赖的数据表之间的对应关系,生成该子表所依赖的数据表也称为子表的父表,即,对于建立了依赖关系的子表和父表,子表的数据内容通过对父表的数据内容进行处理而生成。如表1所示,数据表1为数据表2的父表,数据表0为数据表3的父表,数据表2为数据表3的父表。
子表 父表
数据表0
数据表1
数据表2 数据表1
数据表3 数据表0
数据表3 数据表2
表1
数据表与数据任务之间的依赖关系指的是用于生成上述子表的数据任务、与生成该子表所依赖的父表之间的对应关系,即父表为数据任务的依赖表,数据任务对父表的数据内容进行处理后,可生成上述子表的数据内容。如表2所示,数据表0为数据任务0的依赖表,数据表1为数据任务1的依赖表。
Figure BDA0002038652890000081
Figure BDA0002038652890000091
表2
在本实施例中,数据表与数据任务之间的依赖关系集合包括业务时间参数,该业务时间参数用于表示数据任务对父表的数据内容进行处理时,该数据内容所对应的业务时间区间,例如,数据任务0启动后需对数据表0的某一特定时间段内的数据内容进行处理,该特定时间段可通过业务时间区间进行表示。
在该离线数据处理流程中,一个数据节点的数据任务处理完成后会进行下一个数据节点的数据任务处理,数据任务之间存在依赖关系。数据任务与数据任务之间的依赖关系可通过数据任务所对应的数据节点之间的关系获取,其指的是下游数据节点的数据任务与其依赖的上游数据节点的数据任务之间的对应关系,如果当前数据任务依赖于上游数据节点的数据任务,上游数据节点的数据任务为当前数据任务的父任务。如表3中所示,数据任务1为数据任务2的父任务,数据任务0为数据任务3的父任务,数据任务2为数据任务4的父任务。
数据任务 父任务
数据任务0
数据任务1
数据任务2 数据任务1
数据任务3 数据任务0
数据任务4 数据任务2
... ...
表3
B,根据上述数据依赖关系集合,获得目标任务。
在本实施例中,上述根据数据依赖关系集合获得目标任务的过程具体为:
B-1、根据数据表与数据表之间的依赖关系集合,获得基础数据表。例如,在上述表1中,数据表0和数据表1不存在父表与之对应,表明在本地网络环境的数据处理平台上,数据表0和数据表1不存在其依赖的数据表,即,数据表0和数据表1为基础数据表,数据表0和数据表1中的数据内容为基础数据。
B-2、根据基础数据表和上述数据表与数据任务的依赖关系集合,获得依赖于该基础数据表的数据任务。例如,通过上述表2中的数据任务与依赖表之间的对应关系,即可查询获得依赖于上述基础数据表0的数据任务0和数据任务3,以及获得依赖于上述基础数据表1的数据任务1和数据任务2。
B-3、根据上述依赖于基础数据表的数据任务以及上述数据任务与数据任务之间的依赖关系,获得目标任务,该目标任务为上述依赖于基础数据表的数据任务。例如,上述表3中,数据任务0和数据任务1不存在父任务,表明数据任务0和数据任务1启动时无需依赖于其上游数据节点的数据任务,结合B-2中的内容可知,数据任务0和数据任务1仅需依赖于上述基础数据表,因此可确定数据任务0或者数据任务1为目标任务。
在本实施例中,获得目标任务所需处理的目标数据的过程为确定数据处理平台从目标数据的源网络中采集到上述目标数据,或者为确定数据处理平台所采集的数据中包含上述目标数据。例如,将上述数据任务0作为目标任务,该数据任务0依赖的基础数据表为数据表0,该数据任务0所需处理的目标数据为数据表0的数据内容,因此,获得上述目标数据,其实质为确定上述数据表0的数据内容与数据任务0所需处理的目标数据为相同的数据内容。
需要说明的是,一个数据任务可依赖多个基础数据表,因此,目标任务可对应多个基础数据表,目标任务所需处理的目标数据可为多个基础数据表的数据内容组成的数据集合。
在本实施例中,通过如下方式获得目标任务所需处理的目标数据:
首先,获得目标任务所需处理的目标数据对应的第一业务时间区间集合;所述第一业务时间区间集合包括至少一个数据表对应的业务时间区间。业务时间区间用于表示数据表中的数据为哪个时间区间内的数据。上述数据表与数据任务之间的依赖关系集合(表2)包括业务时间参数,该业务时间参数用于表示数据任务对应的基准时间与该数据任务所需处理的数据对应的业务时间区间的换算关系。例如,表2中的业务时间参数中,“yyyy”代表年份、“mm”代表月份、“q”代表季度、“week”代表周、“dd”代表日,其中,$[yyyymm]等同于$[yyyymm-0],“yyyymm”为数据任务0对应的基准时间,该$[yyyymm]表示数据任务0所需处理的数据内容为基准时间所在的月份的数据表0的数据内容;$[yyyymmdd-n]表示数据任务1所需处理的数据内容为基准时间所在的日期的前n目的数据表1的数据内容。
在本实施例中,获得第一业务时间区间集合的方式为:
获得目标任务对应的基准时间,并根据目标任务对应的基准时间和表2中的业务时间参数,获得目标任务所需处理的目标数据对应的第一业务时间区间集合。获得目标任务对应的基准时间的方法为:从来源于异地网络环境的基础数据表中的基础数据中获得业务数据更新频率最高的基础数据;将业务数据更新频率最高的基础数据的业务数据更新时间中的与当前时间所需要的业务数据更新时间一致的时间,作为所述目标任务对应的基准时间。例如,从采集至本地的网络数据中获得数据更新频率最高的数据表集合,从该数据表集合中选出基础数据表,将该选出的基础数据表中的数据内容更新最晚、并与业务所需的业务时间一致的更新时间作为基准时间。
例如,通过上述方式计算获知,当前目标任务所需处理的目标数据为数据表1的2019年02月的数据内容和数据表2的2019年03月07目的数据内容,因此,目标任务所需处理的目标数据对应的第一业务时间区间集合是[{数据表1,月表,业务时间区间:201902},{数据表2,day,业务时间区间:20190307}]。
其次,获得基础数据表中的基础数据对应的第二业务时间区间集合;该第二业务时间区间集合包括至少一个数据表对应的业务时间区间。例如,基础数据表有两个,分别为数据表1和数据表2,数据表1当前已更新的数据是2019年02月的数据,数据表2当前已更新的数据是2019年03月07日的数据,则来源于异地网络环境的基础数据表中的基础数据对应的第二业务时间区间集合是[{数据表1,月表,业务时间区间:201902},{数据表2,日表,业务时间区间:20190307}]。
最后,将上述第一业务时间区间集合与第二业务时间区间集合进行比对,判断所述第一业务时间区间集合与所述第二业务时间区间集合是否相同,如果所述第一业务时间区间集合与所述第二业务时间区间集合相同,则确定所述基础数据表中的基础数据为所述目标数据。例如,将上述第一业务时间区间集合是[{数据表1,月表,业务时间区间:201902},{数据表2,day,业务时间区间:20190307}]与第二业务时间区间集合是[{数据表1,月表,业务时间区间:201902},{数据表2,日表,业务时间区间:20190307}]进行比对可知,上述第一业务时间区间集合与第二业务时间区间集合相同,则表明本地数据处理平台已获得上述目标任务所需处理的来源于异地网络环境的目标数据。
S102,如果确定上述目标数据满足第二网络环境的数据质量要求,则启动上述目标任务。
在上述步骤获得目标任务和该目标任务所需处理的目标数据之后,本步骤用于在确定该目标数据满足第二网络环境的数据质量要求之后,启动该目标任务,即通过该目标任务对上述目标数据进行处理。
第二网络环境指的是数据处理平台所处的网络环境,相对于上述步骤S101中的第一网络环境为异地网络环境或者公有云网络的情况,该第二网络环境可以是指本地网络环境或者私有云网络。
在本实施例中,以本地网络环境为例进行说明。确定目标数据满足本地网络环境的数据质量要求的过程包括如下两种方式:
方式一:确定已通过当前数据处理平台的数据校验、且符合本地使用需求、并且来源于异地网络环境的跨网络数据中包含上述目标数据。即,如果上述符合本地使用需求的跨网络数据中包含上述目标数据,则确定该目标数据满足本地网络环境的数据质量要求。
方式二:对上述已获得的来源于异地网络环境的目标数据进行数据校验,确定目标数据未发生传输错误,并且按照本地网络环境的数据质量验证方法,对未发生传输错误的目标数据进行数据质量验证,确定该目标数据符合本地使用需求。
如果采用上述方式一,则在本步骤之前、或者在上述步骤S101之前,需对当前数据处理平台所采集的来源于异地网络环境的跨网络数据预先进行数据校验和数据质量验证,该过程具体包含如下内容:
一、对来源于异地网络环境的跨网络数据进行数据校验,获得未发生传输错误的跨网络数据。
在本实施例中,上述来源于异地网络环境的跨网络数据包括数据内容和与该数据内容在传输过程中所经过的网络环境相对应的数据校验信息,数据在由源系统传输到本地数据处理平台的过程中,每经过一个网络,会记录一个数据校验信息,该数据校验信息包括记录有能够表示数据内容的传输状态的网络环境标识信息以及用于对数据内容进行标识的内容标识信息,即,每个网络环境针对跨网络数据的数据内容均生成对应的网络环境标识信息以及内容标识信息,该网络环境标识信息可以包括网络名称、数据传输时间戳、经过的网络环境所对应的传输序列号等信息,该传输序列号按照跨网络数据传输过程中所经过的网络环境依次递增。上述内容标识信息可以为在跨网络数据所经过的每个网络环境中、分别对数据内容分别进行哈希计算后所得到的哈希值,或者为数据内容在所经过的每个网络环境中对应的数据量的值。
本实施例中,对来源于异地网络环境的跨网络数据进行数据校验,获得未发生传输错误的跨网络数据,包括如下过程:
(1)、判断上述跨网络数据的数据内容在传输过程中是否发生变化,即,判断数据内容在传输过程中是否发生数据失真、数据丢失等传输错误。该过程具体为:根据所述跨网络数据的数据内容,获得与上述网络环境相对应的内容标识信息,例如,对所述跨网络数据在各网络环境的数据内容进行哈希计算,获得与本地网络环境以及跨网络数据所经过的其它网络环境相对应的哈希值;然后,将与本地网络环境相对应的内容标识信息与上述数据校验信息中的其它各网络环境对应的内容标识信息进行比对,如,将上述与本地网络环境相对应的哈希值与跨网络数据的数据内容在其它各网络环境对应的哈希值进行比较,或者将所有网络环境对应的哈希值一起进行比较,如果出现任意两个哈希值不同,则确定上述跨网络数据的数据内容在传输过程中发生变化。
(2)、如果上述跨网络数据的数据内容在传输过程中发生变化,则根据记录有数据内容的传输状态的网络环境标识信息确定该数据内容发生变化时所处的网络环境,在本实施例中,可将数据内容发生变化的网络环境中的传输序列号最小的网络环境确定为所述数据内容发生变化时所处的网络环境。例如,根据上述哈希值的比较结果可知,哈希值开始发生变化时的传输序列号为3,即传输序列号1和传输序列号2的网络环境所对应的相同哈希值与后续4、5、6等传输序列号的网络环境所对应的哈希值均不相同,则确定传输序列号为3的网络环境为数据内容发生变化时所处的网络环境。
(3)、从上述确定的数据内容发生变化时所处的网络环境中,采集来源于该网络环境的上游网络环境的上游跨网络数据;并且在此之后,判断所述上游跨网络数据的数据内容在传输过程中是否发生变化。例如,上述确定传输序列号为3的网络环境为数据内容发生变化时所处的网络环境,则对来源于传输序列号为2的网络环境的跨网络数据进行重新采集,并在采集到本地数据处理平台之后,按照上述(1)的方法对该重新采集的跨网络数据进行判断。
(4)、在确定上述上游跨网络数据的数据内容未发生变化时,将该上游跨网络数据作为未发生传输错误的跨网络数据。
需要说明的是,如果上述(1)中确定跨网络数据的数据内容在传输过程中未发生变化,则直接将该跨网络数据作为未发生传输错误的跨网络数据。
在本实施例中,上述跨网络数据还包括数据内容的元数据信息,该元数据信息包括数据内容的更新周期和数据内容的业务时间区间,例如,数据内容的数据更新周期为按月更新,业务时间区间为是某年某月。
通过本实施例提供的上述数据校验方法,可快速确定跨网络数据从源系统传输到本地网络环境的数据处理平台的过程中是否发生传输错误,并且,可对跨网络数据在传输过程中出现传输错误时所处的网络环境进行准确定位,从而实现在最合理准确的传输位置对跨网络数据进行重新采集,并最终获得未发生传输错误的跨网络数据。
二、按照本地网络环境的数据质量验证方法,对所述未发生传输错误的跨网络数据进行数据质量验证,获得符合本地网络环境的使用需求的跨网络数据。
上述来源于异地网络环境的跨网络数据通过上述数据校验之后,可以保证数据内容与源网络的数据内容一致,但并不能保证该跨网络数据满足本地数据处理平台的数据生产需求,因此,还需对上述未发生传输错误的跨网络数据进行数据质量验证。该过程需首先根据本地数据处理平台的数据生产需求设置数据质量稽核规则,具体从数据的规范性、完整性、一致性、及时性以及正确性等5个方面设置数据质量稽核规则,可在表级别或者字段级别进行上述设置,并且可根据对数据的使用需求将数据质量稽核规则分为强规则和弱规则。
设置数据质量稽核规则后,通过稽核任务程序生成数据质量稽核任务,并执行该数据质量稽核任务。该数据质量稽核任务包括任务名称、数据表名称、资源名称、资源类型、分区信息、任务状态(待执行、开始执行、执行失败、执行成功)等信息。针对上述未发生传输错误的跨网络数据执行该数据质量稽核任务的过程即为对其进行数据质量验证的过程,如果针对上述未发生传输错误的跨网络数据的数据质量验证通过,则确定该跨网络数据为符合本地网络环境的使用需求的跨网络数据。
在通过上述方式对本地数据处理平台采集的跨网络数据进行处理,获得符合本地网络环境的使用需求的跨网络数据之后,在启动目标任务时,可将该跨网络数据用作评判目标任务所需处理的目标数据是否在传输过程中发生传输错误、以及是否符合本地网络环境的使用需求的基准数据,如果上述符合本地网络环境的使用需求的跨网络数据中包含上述目标数据,确定该目标数据满足本地网络环境的数据质量要求,则启动该目标任务,对目标数据进行处理,完成针对目标数据的任务调度。
本实施例提供的数据处理方法,根据数据处理平台预设的数据处理流程获得数据表与数据表之间的依赖关系、数据表与数据任务之间的依赖关系以及数据任务与数据任务之间的依赖关系,根据上述依赖关系逐层获得需处理的目标数据来源于异地网络环境且待启动的目标任务,然后在确定该目标任务所需处理的目标数据存在于数据处理平台、并且确定该目标数据满足本地网络环境的数据质量要求之后,启动该目标任务,完成针对目标数据的任务调度。通过使用该方法,可避免在无法确定跨网络数据到达数据处理平台的时间的情况下、根据约定时间进行任务调度所造成的无法进行正常任务调度的问题,并且可避免在跨网络数据无法满足本地网络环境的数据质量要求的情况下、根据约定时间进行任务调度所造成的后续依赖于该跨网络数据所生成的数据发生错误,从而影响整个数据处理流程的问题。
本申请第二实施例提供一种数据校验方法,图2为本申请第二实施例提供的数据校验方法流程图,以下结合图2对本实施例提供的方法进行详细描述。
如图2所示,本实施例提供的数据处理方法包括如下步骤:
S201,获得跨网络数据。
跨网络数据可以是指来自区别于数据处理平台所处网络环境的其它网络环境的数据,在本实施例中,该跨网络数据包括数据内容和与该数据内容在传输过程中所经过的网络环境相对应的数据校验信息,数据在由源网络环境传输到数据处理平台所处网络环境的过程中,每经过一个网络,会记录一个数据校验信息,该数据校验信息包括记录有能够表示数据内容的传输状态的网络环境标识信息以及用于对数据内容进行标识的内容标识信息,即,每个网络环境针对跨网络数据的数据内容均生成对应的网络环境标识信息以及内容标识信息,该网络环境标识信息可以为网络名称、数据传输时间戳、经过的网络环境所对应的传输序列号等信息,该传输序列号按照跨网络数据传输过程中所经过的网络环境依次递增。上述内容标识信息可以为在跨网络数据所经过的每个网络环境中、分别对数据内容分别进行哈希计算后所得到的哈希值,或者为数据内容在所经过的每个网络环境中对应的数据量的值。
S202,判断上述数据内容在传输过程中是否发生变化。
判断所述数据内容在传输过程中是否发生变化的过程实质为判断数据内容在传输过程中是否发生数据失真、数据丢失等传输错误。上述判断过程具体为:根据跨网络数据的数据内容,获得与上述网络环境相对应的、用于对所述数据内容进行标识的内容标识信息,例如,对所述跨网络数据在各网络环境的数据内容进行哈希计算,获得与本地网络环境以及跨网络数据所经过的其它网络环境相对应的哈希值;然后,将与本地网络环境相对应的内容标识信息与上述数据校验信息中的其它各网络环境对应的内容标识信息进行比对,如,将上述与本地网络环境相对应的哈希值与跨网络数据的数据内容在其它各网络环境对应的哈希值进行比较,或者将所有网络环境对应的哈希值一起进行比较,如果出现任意两个哈希值不同,则确定上述跨网络数据的数据内容在传输过程中发生变化。
S203,如果确定上述数据内容在传输过程中发生变化,则根据上述网络环境标识信息确定上述数据内容发生变化时所处的网络环境。
在本实施例中,上述网络环境标识信息还包括网络环境所对应的传输序列号,所述传输序列号按照所述跨网络数据传输过程中所经过的网络环境依次递增,所述根据所述网络环境标识信息确定所述数据内容发生变化时所处的网络环境,指的是将数据内容发生变化的网络环境中的传输序列号最小的网络环境确定为所述数据内容发生变化时所处的网络环境。例如,根据上述哈希值的比较结果可知,哈希值开始发生变化时的传输序列号为3,即传输序列号1和传输序列号2的网络环境所对应的相同哈希值与后续4、5、6等传输序列号的网络环境所对应的哈希值均不相同,则确定传输序列号为3的网络环境为数据内容发生变化时所处的网络环境。
S204、从上述数据内容发生变化时所处的网络环境对源自于该网络环境的上游网络环境的跨网络数据进行采集。例如,上述确定传输序列号为3的网络环境为数据内容发生变化时所处的网络环境,则对来源于传输序列号为2的网络环境的跨网络数据进行重新采集,并可在采集到本地数据处理平台之后,重新执行步骤S202。
本实施例提供的方法,可快速确定跨网络数据从源系统传输到本地数据处理平台的过程中是否发生传输错误,并且,可对跨网络数据在传输过程中出现传输错误时所处的网络环境进行准确定位,从而实现在最合理准确的传输位置对跨网络数据进行重新采集,并可最终获得未发生传输错误的跨网络数据。
上述第一实施例提供了一种数据处理方法,与之相对应的,本申请第三实施例还提供了一种数据处理装置,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可,下述对装置实施例的描述仅仅是示意性的。
请参考图3理解该实施例,图3为本实施例提供的装置的单元框图,如图3所示,本实施例提供的装置包括:
目标任务和目标数据获得单元301,用于获得目标任务和目标任务所需处理的目标数据,目标数据来源于第一网络环境;
目标任务启动单元302,用于在确定目标数据满足第二网络环境的数据质量要求之后,启动目标任务。
可选的,获得目标任务,包括:
根据预定的离线数据处理流程,获得数据依赖关系集合;
根据数据依赖关系集合,获得目标任务。
可选的,根据预定的离线数据处理流程,获得数据依赖关系集合,包括:对离线数据处理流程所对应的任务语句进行解析,获得数据依赖关系集合;或者,从针对离线数据处理流程的任务配置信息中获得数据依赖关系集合。
可选的,数据依赖关系集合包括数据表与数据表之间的依赖关系集合、数据表与数据任务之间的依赖关系集合以及数据任务与数据任务之间的依赖关系,根据数据依赖关系集合,获得目标任务,包括:
根据数据表与数据表之间的依赖关系集合,获得基础数据表;
根据基础数据表和数据表与数据任务之间的依赖关系集合,获得依赖于基础数据表的数据任务;
根据依赖于基础数据表的数据任务和数据任务与数据任务之间的依赖关系集合,获得目标任务。
可选的,获得目标任务所需处理的目标数据,包括:
获得目标任务所需处理的目标数据对应的第一业务时间区间集合;第一业务时间区间集合包括至少一个数据表对应的业务时间区间;
获得基础数据表中的基础数据对应的第二业务时间区间集合;第二业务时间区间集合包括至少一个数据表对应的业务时间区间;
判断第一业务时间区间集合与第二业务时间区间集合是否相同;
如果第一业务时间区间集合与第二业务时间区间集合相同,则确定基础数据表中的基础数据为目标数据。
可选的,数据表与数据任务之间的依赖关系集合包括业务时间参数,业务时间参数用于表示数据任务对应的基准时间与该数据任务所需处理的数据对应的业务时间区间的换算关系,获得目标任务所需处理的目标数据对应的第一业务时间区间集合,包括:
获得目标任务对应的基准时间;
根据目标任务对应的基准时间和业务时间参数,获得目标任务所需处理的目标数据对应的第一业务时间区间集合。
可选的,获得目标任务对应的基准时间,包括:
从来源于第一网络环境的基础数据表中的基础数据中获得业务数据更新频率最高的基础数据;
将业务数据更新频率最高的基础数据的业务数据更新时间中与当前时间所需的业务数据一致的更新时间,作为目标任务对应的基准时间。
可选的,还包括:对来源于第一网络环境的跨网络数据进行数据校验,获得未发生传输错误的跨网络数据;按照第二网络环境的数据质量验证方法,对未发生传输错误的跨网络数据进行数据质量验证,获得符合第二网络环境的使用需求的跨网络数据;
对应的,确定目标数据满足第二网络环境的数据质量要求,包括:
如果符合第二网络环境的使用需求的跨网络数据中包含目标数据,则确定目标数据满足第二网络环境的数据质量要求。
可选的,来源于第一网络环境的跨网络数据包括数据内容和与该数据内容在传输过程中所经过的网络环境相对应的数据校验信息,数据校验信息包括记录有能够表示数据内容的传输状态的网络环境标识信息,对来源于第一网络环境的跨网络数据进行数据校验,获得未发生传输错误的跨网络数据,包括:
判断跨网络数据的数据内容在传输过程中是否发生变化;
如果发生变化,则根据记录有数据内容的传输状态的网络环境标识信息确定数据内容发生变化时所处的网络环境;
从数据内容发生变化时所处的网络环境采集来源于该网络环境的上游网络环境的上游跨网络数据;
在确定上游跨网络数据的数据内容未发生变化时,将上游跨网络数据作为未发生传输错误的跨网络数据。
可选的,判断跨网络数据的数据内容在传输过程中是否发生变化
根据数据内容,获得与网络环境相对应的、用于对数据内容进行标识的内容标识信息;
将内容标识信息进行比对,如果内容标识信息不同,则确定跨网络数据的数据内容在传输过程中发生变化。
可选的,根据数据内容,获得与网络环境相对应的、用于对数据内容进行标识的内容标识信息,包括:
对数据内容进行哈希计算,获得与网络环境相对应的哈希值。
可选的,网络环境标识信息包括网络环境所对应的传输序列号,传输序列号按照跨网络数据传输过程中所经过的网络环境依次递增,根据记录有数据内容的传输状态的网络环境标识信息确定数据内容发生变化时所处的网络环境,包括:
将数据内容发生变化的网络环境中的传输序列号最小的网络环境确定为数据内容发生变化时所处的网络环境。
可选的,确定目标数据满足第二网络环境的数据质量要求,包括:
对目标数据进行数据校验,确定目标数据未发生传输错误;
按照第二网络环境的数据质量验证方法,对未发生传输错误的目标数据进行数据质量验证,确定目标数据符合第二网络环境的使用需求。
可选的,第一网络环境为异地网络环境,第二网络环境为本地网络环境。
可选的,第一网络环境为公有云网络,第二网络环境为私有云网络。
在上述的实施例中,提供了一种数据处理方法以及一种数据处理装置,此外,本申请第四实施例还提供一种电子设备,该电子设备实施例如下:
请参考图4理解本实施例,图4为本实施例提供的电子设备的示意图。
如图4所示,电子设备包括:处理器401;存储器402;
存储器402,用于存储数据处理的程序,程序在被处理器读取执行时,执行如下操作:
获得目标任务和目标任务所需处理的目标数据,目标数据来源于第一网络环境;
如果确定目标数据满足第二网络环境的数据质量要求,则启动目标任务。可选的,获得目标任务,包括:
根据预定的离线数据处理流程,获得数据依赖关系集合;
根据数据依赖关系集合,获得目标任务。
可选的,根据预定的离线数据处理流程,获得数据依赖关系集合,包括:对离线数据处理流程所对应的任务语句进行解析,获得数据依赖关系集合;或者,从针对离线数据处理流程的任务配置信息中获得数据依赖关系集合。
可选的,数据依赖关系集合包括数据表与数据表之间的依赖关系集合、数据表与数据任务之间的依赖关系集合以及数据任务与数据任务之间的依赖关系,根据数据依赖关系集合,获得目标任务,包括:
根据数据表与数据表之间的依赖关系集合,获得基础数据表;
根据基础数据表和数据表与数据任务之间的依赖关系集合,获得依赖于基础数据表的数据任务;
根据依赖于基础数据表的数据任务和数据任务与数据任务之间的依赖关系集合,获得目标任务。
可选的,获得目标任务所需处理的目标数据,包括:
获得目标任务所需处理的目标数据对应的第一业务时间区间集合;第一业务时间区间集合包括至少一个数据表对应的业务时间区间;
获得基础数据表中的基础数据对应的第二业务时间区间集合;第二业务时间区间集合包括至少一个数据表对应的业务时间区间;
判断第一业务时间区间集合与第二业务时间区间集合是否相同;
如果第一业务时间区间集合与第二业务时间区间集合相同,则确定基础数据表中的基础数据为目标数据。
可选的,数据表与数据任务之间的依赖关系集合包括业务时间参数,业务时间参数用于表示数据任务对应的基准时间与该数据任务所需处理的数据对应的业务时间区间的换算关系,获得目标任务所需处理的目标数据对应的第一业务时间区间集合,包括:获得目标任务对应的基准时间;根据目标任务对应的基准时间和业务时间参数,获得目标任务所需处理的目标数据对应的第一业务时间区间集合。
可选的,获得目标任务对应的基准时间,包括:从来源于第一网络环境的基础数据表中的基础数据中获得业务数据更新频率最高的基础数据;
将业务数据更新频率最高的基础数据的业务数据更新时间中与当前时间所需的业务数据一致的更新时间,作为目标任务对应的基准时间。
可选的,还包括:对来源于第一网络环境的跨网络数据进行数据校验,获得未发生传输错误的跨网络数据;按照第二网络环境的数据质量验证方法,对未发生传输错误的跨网络数据进行数据质量验证,获得符合第二网络环境的使用需求的跨网络数据;
对应的,确定目标数据满足第二网络环境的数据质量要求,包括:如果符合第二网络环境的使用需求的跨网络数据中包含目标数据,则确定目标数据满足第二网络环境的数据质量要求。
可选的,来源于第一网络环境的跨网络数据包括数据内容和与该数据内容在传输过程中所经过的网络环境相对应的数据校验信息,数据校验信息包括记录有能够表示数据内容的传输状态的网络环境标识信息,对来源于第一网络环境的跨网络数据进行数据校验,获得未发生传输错误的跨网络数据,包括:
判断跨网络数据的数据内容在传输过程中是否发生变化;
如果发生变化,则根据记录有数据内容的传输状态的网络环境标识信息确定数据内容发生变化时所处的网络环境;
从数据内容发生变化时所处的网络环境采集来源于该网络环境的上游网络环境的上游跨网络数据;
在确定上游跨网络数据的数据内容未发生变化时,将上游跨网络数据作为未发生传输错误的跨网络数据。
可选的,判断跨网络数据的数据内容在传输过程中是否发生变化
根据数据内容,获得与网络环境相对应的、用于对数据内容进行标识的内容标识信息;
将内容标识信息进行比对,如果内容标识信息不同,则确定跨网络数据的数据内容在传输过程中发生变化。
可选的,根据数据内容,获得与网络环境相对应的、用于对数据内容进行标识的内容标识信息,包括:
对数据内容进行哈希计算,获得与网络环境相对应的哈希值。
可选的,网络环境标识信息包括网络环境所对应的传输序列号,传输序列号按照跨网络数据传输过程中所经过的网络环境依次递增,根据记录有数据内容的传输状态的网络环境标识信息确定数据内容发生变化时所处的网络环境,包括:
将数据内容发生变化的网络环境中的传输序列号最小的网络环境确定为数据内容发生变化时所处的网络环境。
可选的,确定目标数据满足第二网络环境的数据质量要求,包括:
对目标数据进行数据校验,确定目标数据未发生传输错误;
按照第二网络环境的数据质量验证方法,对未发生传输错误的目标数据进行数据质量验证,确定目标数据符合第二网络环境的使用需求。
可选的,第一网络环境为异地网络环境,第二网络环境为本地网络环境。
可选的,第一网络环境为公有云网络,第二网络环境为私有云网络。
上述第二实施例提供了一种数据校验方法,与之相对应的,本申请第五实施例还提供了一种数据校验装置,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可,下述对装置实施例的描述仅仅是示意性的。
请参考图5理解该实施例,图5为本实施例提供的装置的单元框图,如图5所示,本实施例提供的装置包括:
跨网络数据获得单元501,用于获得跨网络数据;跨网络数据包括数据内容和与该数据内容在传输过程中所经过的网络环境相对应的数据校验信息,数据校验信息包括记录有能够表示数据内容的传输状态的网络环境标识信息;
变化判断单元502,用于判断数据内容在传输过程中是否发生变化;
网络环境确定单元503,用于在确定数据内容在传输过程中发生变化之后,根据网络环境标识信息确定数据内容发生变化时所处的网络环境。
可选的,判断数据内容在传输过程中是否发生变化,包括:
根据数据内容,获得与网络环境相对应的、用于对数据内容进行标识的内容标识信息;
将内容标识信息进行比对,如果内容标识信息不同,则确定跨网络数据的数据内容在传输过程中发生变化。
可选的,网络环境标识信息包括网络环境所对应的传输序列号,传输序列号按照跨网络数据传输过程中所经过的网络环境依次递增,根据网络环境标识信息确定数据内容发生变化时所处的网络环境,包括:
将数据内容发生变化的网络环境中的传输序列号最小的网络环境确定为数据内容发生变化时所处的网络环境。
可选的,还包括:从数据内容发生变化时所处的网络环境对源自于该网络环境的上游网络环境的跨网络数据进行采集。
在上述的实施例中,提供了一种数据校验方法以及一种数据校验装置,此外,本申请第六实施例还提供一种电子设备,该电子设备实施例如下:
请参考图6理解本实施例,图6为本实施例提供的电子设备的示意图。
如图6所示,电子设备包括:处理器601;存储器602;
存储器602,用于存储数据校验的程序,程序在被处理器读取执行时,执行如下操作:
获得跨网络数据;跨网络数据包括数据内容和与该数据内容在传输过程中所经过的网络环境相对应的数据校验信息,数据校验信息包括记录有能够表示数据内容的传输状态的网络环境标识信息;
判断数据内容在传输过程中是否发生变化;
如果确定数据内容在传输过程中发生变化,则根据网络环境标识信息确定数据内容发生变化时所处的网络环境。
可选的,判断数据内容在传输过程中是否发生变化,包括:
根据数据内容,获得与网络环境相对应的、用于对数据内容进行标识的内容标识信息;
将内容标识信息进行比对,如果内容标识信息不同,则确定跨网络数据的数据内容在传输过程中发生变化。
可选的,网络环境标识信息包括网络环境所对应的传输序列号,传输序列号按照跨网络数据传输过程中所经过的网络环境依次递增,根据网络环境标识信息确定数据内容发生变化时所处的网络环境,包括:
将数据内容发生变化的网络环境中的传输序列号最小的网络环境确定为数据内容发生变化时所处的网络环境。
可选的,还包括:从数据内容发生变化时所处的网络环境对源自于该网络环境的上游网络环境的跨网络数据进行采集。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims (23)

1.一种数据处理方法,其特征在于,包括:
获得目标任务和所述目标任务所需处理的目标数据,所述目标数据来源于第一网络环境;
如果确定所述目标数据满足第二网络环境的数据质量要求,则启动所述目标任务。
2.根据权利要求1所述的方法,其特征在于,所述获得目标任务,包括:
根据预定的离线数据处理流程,获得数据依赖关系集合;
根据所述数据依赖关系集合,获得目标任务。
3.根据权利要求2所述的方法,其特征在于,所述根据预定的离线数据处理流程,获得数据依赖关系集合,包括:
对所述离线数据处理流程所对应的任务语句进行解析,获得数据依赖关系集合;
或者,从针对所述离线数据处理流程的任务配置信息中获得所述数据依赖关系集合。
4.根据权利要求2所述的方法,其特征在于,所述数据依赖关系集合包括数据表与数据表之间的依赖关系集合、数据表与数据任务之间的依赖关系集合以及数据任务与数据任务之间的依赖关系,所述根据所述数据依赖关系集合,获得目标任务,包括:
根据所述数据表与数据表之间的依赖关系集合,获得基础数据表;
根据所述基础数据表和所述数据表与数据任务之间的依赖关系集合,获得依赖于所述基础数据表的数据任务;
根据所述依赖于基础数据表的数据任务和所述数据任务与数据任务之间的依赖关系集合,获得所述目标任务。
5.根据权利要求4所述的方法,其特征在于,所述获得所述目标任务所需处理的目标数据,包括:
获得所述目标任务所需处理的目标数据对应的第一业务时间区间集合;所述第一业务时间区间集合包括至少一个数据表对应的业务时间区间;
获得所述基础数据表中的基础数据对应的第二业务时间区间集合;所述第二业务时间区间集合包括至少一个数据表对应的业务时间区间;
判断所述第一业务时间区间集合与所述第二业务时间区间集合是否相同;
如果所述第一业务时间区间集合与所述第二业务时间区间集合相同,则确定所述基础数据表中的基础数据为所述目标数据。
6.根据权利要求5所述的方法,其特征在于,所述数据表与数据任务之间的依赖关系集合包括业务时间参数,所述业务时间参数用于表示数据任务对应的基准时间与该数据任务所需处理的数据对应的业务时间区间的换算关系,所述获得所述目标任务所需处理的目标数据对应的第一业务时间区间集合,包括:
获得所述目标任务对应的基准时间;
根据所述目标任务对应的基准时间和所述业务时间参数,获得所述目标任务所需处理的目标数据对应的第一业务时间区间集合。
7.根据权利要求6所述的方法,其特征在于,所述获得所述目标任务对应的基准时间,包括:
从来源于所述第一网络环境的所述基础数据表中的基础数据中获得业务数据更新频率最高的基础数据;
将所述业务数据更新频率最高的基础数据的业务数据更新时间中与当前时间所需的业务数据一致的更新时间,作为所述目标任务对应的基准时间。
8.根据权利要求1所述的方法,其特征在于,还包括:
对来源于第一网络环境的跨网络数据进行数据校验,获得未发生传输错误的跨网络数据;
按照第二网络环境的数据质量验证方法,对所述未发生传输错误的跨网络数据进行数据质量验证,获得符合第二网络环境的使用需求的跨网络数据;
对应的,所述确定所述目标数据满足第二网络环境的数据质量要求,包括:
如果所述符合第二网络环境的使用需求的跨网络数据中包含所述目标数据,则确定所述目标数据满足第二网络环境的数据质量要求。
9.根据权利要求8所述的方法,其特征在于,所述来源于第一网络环境的跨网络数据包括数据内容和与该数据内容在传输过程中所经过的网络环境相对应的数据校验信息,所述数据校验信息包括记录有能够表示所述数据内容的传输状态的网络环境标识信息,所述对来源于第一网络环境的跨网络数据进行数据校验,获得未发生传输错误的跨网络数据,包括:
判断所述跨网络数据的数据内容在传输过程中是否发生变化;
如果发生变化,则根据所述记录有所述数据内容的传输状态的网络环境标识信息确定所述数据内容发生变化时所处的网络环境;
从所述数据内容发生变化时所处的网络环境采集来源于该网络环境的上游网络环境的上游跨网络数据;
在确定所述上游跨网络数据的数据内容未发生变化时,将所述上游跨网络数据作为未发生传输错误的跨网络数据。
10.根据权利要求9所述的方法,其特征在于,所述判断所述跨网络数据的数据内容在传输过程中是否发生变化
根据所述数据内容,获得与所述网络环境相对应的、用于对所述数据内容进行标识的内容标识信息;
将所述内容标识信息进行比对,如果所述内容标识信息不同,则确定所述跨网络数据的数据内容在传输过程中发生变化。
11.根据权利要求10所述的方法,其特征在于,所述根据所述数据内容,获得与所述网络环境相对应的、用于对所述数据内容进行标识的内容标识信息,包括:
对所述数据内容进行哈希计算,获得与所述网络环境相对应的哈希值。
12.根据权利要求9所述的方法,其特征在于,所述网络环境标识信息包括所述网络环境所对应的传输序列号,所述传输序列号按照所述跨网络数据传输过程中所经过的网络环境依次递增,所述根据所述记录有所述数据内容的传输状态的网络环境标识信息确定所述数据内容发生变化时所处的网络环境,包括:
将数据内容发生变化的网络环境中的传输序列号最小的网络环境确定为所述数据内容发生变化时所处的网络环境。
13.根据权利要求1所述的方法,其特征在于,所述确定所述目标数据满足第二网络环境的数据质量要求,包括:
对所述目标数据进行数据校验,确定所述目标数据未发生传输错误;
按照第二网络环境的数据质量验证方法,对未发生传输错误的所述目标数据进行数据质量验证,确定所述目标数据符合第二网络环境的使用需求。
14.根据权利要求1-13任一项所述的方法,其特征在于,所述第一网络环境为异地网络环境,所述第二网络环境为本地网络环境。
15.根据权利要求1-13任一项所述的方法,其特征在于,所述第一网络环境为公有云网络环境,所述第二网络环境为私有云网络环境。
16.一种数据校验方法,其特征在于,包括:
获得跨网络数据;所述跨网络数据包括数据内容和与该数据内容在传输过程中所经过的网络环境相对应的数据校验信息,所述数据校验信息包括记录有能够表示所述数据内容的传输状态的网络环境标识信息;
判断所述数据内容在传输过程中是否发生变化;
如果确定所述数据内容在传输过程中发生变化,则根据所述网络环境标识信息确定所述数据内容发生变化时所处的网络环境。
17.根据权利要求16所述的方法,其特征在于,所述判断所述数据内容在传输过程中是否发生变化,包括:
根据所述数据内容,获得与所述网络环境相对应的、用于对所述数据内容进行标识的内容标识信息;
将所述内容标识信息进行比对,如果所述内容标识信息不同,则确定所述跨网络数据的数据内容在传输过程中发生变化。
18.根据权利要求16所述的方法,其特征在于,所述网络环境标识信息包括所述网络环境所对应的传输序列号,所述传输序列号按照所述跨网络数据传输过程中所经过的网络环境依次递增,所述根据所述网络环境标识信息确定所述数据内容发生变化时所处的网络环境,包括:
将数据内容发生变化的网络环境中的传输序列号最小的网络环境确定为所述数据内容发生变化时所处的网络环境。
19.根据权利要求16所述的方法,其特征在于,还包括:
从所述数据内容发生变化时所处的网络环境对源自于该网络环境的上游网络环境的跨网络数据进行采集。
20.一种数据处理装置,其特征在于,包括:
目标任务和目标数据获得单元,用于获得目标任务和所述目标任务所需处理的目标数据,所述目标数据来源于第一网络环境;
目标任务启动单元,用于在确定所述目标数据满足第二网络环境的数据质量要求之后,启动所述目标任务。
21.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储数据处理程序,所述程序在被所述处理器读取执行时,执行如下操作:
获得目标任务和所述目标任务所需处理的目标数据,所述目标数据来源于第一网络环境;
如果确定所述目标数据满足第二网络环境的数据质量要求,则启动所述目标任务。
22.一种数据校验装置,其特征在于,包括:
跨网络数据获得单元,用于获得跨网络数据;所述跨网络数据包括数据内容和与该数据内容在传输过程中所经过的网络环境相对应的数据校验信息,所述数据校验信息包括记录有能够表示所述数据内容的传输状态的网络环境标识信息;
变化判断单元,用于判断所述数据内容在传输过程中是否发生变化;
网络环境确定单元,用于在确定所述数据内容在传输过程中发生变化之后,根据所述网络环境标识信息确定所述数据内容发生变化时所处的网络环境。
23.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储数据处理程序,所述程序在被所述处理器读取执行时,执行如下操作:
获得跨网络数据;所述跨网络数据包括数据内容和与该数据内容在传输过程中所经过的网络环境相对应的数据校验信息,所述数据校验信息包括记录有能够表示所述数据内容的传输状态的网络环境标识信息;
判断所述数据内容在传输过程中是否发生变化;
如果确定所述数据内容在传输过程中发生变化,则根据所述网络环境标识信息确定所述数据内容发生变化时所处的网络环境。
CN201910337573.6A 2019-04-24 2019-04-24 一种数据处理方法以及装置 Pending CN111857981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910337573.6A CN111857981A (zh) 2019-04-24 2019-04-24 一种数据处理方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910337573.6A CN111857981A (zh) 2019-04-24 2019-04-24 一种数据处理方法以及装置

Publications (1)

Publication Number Publication Date
CN111857981A true CN111857981A (zh) 2020-10-30

Family

ID=72952343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910337573.6A Pending CN111857981A (zh) 2019-04-24 2019-04-24 一种数据处理方法以及装置

Country Status (1)

Country Link
CN (1) CN111857981A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112714460A (zh) * 2021-01-06 2021-04-27 贵阳迅游网络科技有限公司 一种基于业务流量的业务加速方法及系统
CN114172734A (zh) * 2021-12-10 2022-03-11 中国电子科技集团公司第十五研究所 一种用于复杂网络通信的数据处理方法及装置
WO2023103726A1 (zh) * 2021-12-08 2023-06-15 易保网络技术(上海)有限公司 数据处理方法、程序产品、可读介质和电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112714460A (zh) * 2021-01-06 2021-04-27 贵阳迅游网络科技有限公司 一种基于业务流量的业务加速方法及系统
WO2023103726A1 (zh) * 2021-12-08 2023-06-15 易保网络技术(上海)有限公司 数据处理方法、程序产品、可读介质和电子设备
CN114172734A (zh) * 2021-12-10 2022-03-11 中国电子科技集团公司第十五研究所 一种用于复杂网络通信的数据处理方法及装置
CN114172734B (zh) * 2021-12-10 2023-01-20 中国电子科技集团公司第十五研究所 一种用于复杂网络通信的数据处理方法、装置及计算机存储介质

Similar Documents

Publication Publication Date Title
CN106897205B (zh) 一种测试数据生成方法及装置
CN110413634B (zh) 数据查询方法、系统、装置及计算机可读存储介质
CN106656536B (zh) 一种用于处理服务调用信息的方法与设备
CN106202235B (zh) 一种数据处理方法及装置
US8359297B2 (en) Multiple source data management using a conflict rule
CN107168977B (zh) 一种数据查询的优化方法及装置
CN111857981A (zh) 一种数据处理方法以及装置
CN112559475B (zh) 数据实时捕获和传输方法及系统
CN106897342B (zh) 一种数据校验方法和设备
CN107870949B (zh) 数据分析作业依赖关系生成方法和系统
US10701213B2 (en) Dynamically generating an aggregation routine
US9684689B2 (en) Distributed parallel processing system having jobs processed by nodes based on authentication using unique identification of data
CN112905323B (zh) 数据处理方法、装置、电子设备及存储介质
CN111400288A (zh) 数据质量检查方法及系统
CN106547646B (zh) 一种数据备份及恢复方法、数据备份及恢复装置
US20150317336A1 (en) Data reconstruction
CN109359109B (zh) 一种基于分布式流计算的数据处理方法及系统
CN111447299A (zh) 一种基于测试环境台账的dns解析方法及系统
CN114943383A (zh) 基于时间序列的预测方法、装置、计算机设备及存储介质
CN106570029B (zh) 分布式关系型数据库的数据处理方法及系统
WO2017008658A1 (zh) 一种文本数据的存储校验方法和系统
CN116414914A (zh) 数据的同步方法、装置、处理器及电子设备
CN110019357B (zh) 数据库查询脚本生成方法及装置
CN111291127B (zh) 一种数据同步方法、装置、服务器及存储介质
CN110532248B (zh) 一种基于cmdb的服务器应用信息获取及调整方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination