CN110674119A - 数据处理方法、系统与计算机可读存储介质 - Google Patents

数据处理方法、系统与计算机可读存储介质 Download PDF

Info

Publication number
CN110674119A
CN110674119A CN201910930112.XA CN201910930112A CN110674119A CN 110674119 A CN110674119 A CN 110674119A CN 201910930112 A CN201910930112 A CN 201910930112A CN 110674119 A CN110674119 A CN 110674119A
Authority
CN
China
Prior art keywords
processing
task
data
execution information
batch system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910930112.XA
Other languages
English (en)
Inventor
黄浩维
吴泽勇
王大飞
文海荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201910930112.XA priority Critical patent/CN110674119A/zh
Publication of CN110674119A publication Critical patent/CN110674119A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法,包括:批量系统在检测到运行指令时,若确定运行指令对应的待处理数据为大数据,且确定运行指令对应的执行信息正确,则将执行信息发送至大数据平台,且在数据库中插入运行指令对应的任务记录,并监测任务记录的任务状态;大数据平台在接收到执行信息时,运行执行信息对应的处理任务,并在得到处理任务对应的第一处理结果时,将第一处理结果写入数据库,并在数据库中更新任务记录的任务状态;若批量系统检测到任务记录的任务状态为处理完成,则从数据库中读取第一处理结果并输出。本发明还公开了一种数据处理系统和计算机可读存储介质。本发明旨在提高数据的处理速度。

Description

数据处理方法、系统与计算机可读存储介质
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及数据处理方法、系统与计算机可读存储介质。
背景技术
近年来,随着金融科技(Fintech),尤其是互联网金融的不断发展,数据处理技术被引入银行等金融机构的日常服务中。在银行等金融机构的日常服务过程中,由于自身业务需要,每天产生的数据多样且量大,并且这些数据往往都具备一定的价值,如通过研究这些数据确定用户的需求,从而调整业务方向等,因此,银行等金融机构需要对产生的数据进行处理,如分类,统计或者迁移等。
现有技术中,银行等金融机构往往采用批处理的方式来对数据进行处理,而现有批处理的应用场景是单独使用Spring Batch(轻量级的、完善的批处理框架),从数据库、文件或队列等数据源中读取大量数据,然后通过业务规则分批次处理数据,如根据时间顺序,对数据进行分批,再对分批的数据进行处理等。
然而,在面对数据量达到大数据级别、数据维度多和计算复杂等情况时,SpringBatch明显存在耗时长等缺点。
发明内容
本发明的主要目的在于提出一种数据处理方法、系统与计算机可读存储介质,旨在提高处理数据的速度。
为实现上述目的,本发明提供一种数据处理方法,所述数据处理方法包括如下步骤:
批量系统在检测到运行指令时,若确定所述运行指令对应的待处理数据为大数据,则确定所述运行指令对应的执行信息是否正确,其中,所述大数据为数据量不小于预设数据阈值的数据;
所述批量系统在确定所述执行信息正确时,将所述执行信息发送至大数据平台,且在数据库中插入所述运行指令对应的任务记录,并监测所述任务记录的任务状态;
所述大数据平台在接收到所述执行信息时,运行所述执行信息对应的处理任务,并在得到所述处理任务对应的第一处理结果时,将所述第一处理结果写入所述数据库,并在所述数据库中更新所述任务记录的任务状态;
若所述批量系统检测到所述任务记录的任务状态为处理完成,则从所述数据库中读取所述第一处理结果并输出。
优选地,所述批量系统在检测到运行指令时,所述数据处理方法还包括:
若确定所述待处理数据为非大数据,所述批量系统则读取所述待处理数据,并调用所述待处理数据对应的第一处理函数处理所述待处理数据,以得到对应的第二处理结果,并将所述第二处理结果输出。
优选地,所述确定所述运行指令对应的执行信息是否正确的步骤包括:
所述批量系统确定所述大数据平台中是否存在与所述执行信息对应的处理任务;
若存在,所述批量系统则确定所述执行信息正确。
优选地,所述大数据平台在接收到所述执行信息时,运行所述执行信息对应的处理任务的步骤包括:
所述大数据平台在接收到所述执行信息时,读取所述执行信息的任务信息和参数集合,并确定所述任务信息对应的处理任务;
所述大数据平台基于所述参数集合,运行所述处理任务,其中,运行所述处理任务包括根据所述参数集合,读取所述待处理数据,并调用所述待处理数据对应的第二处理函数处理所述待处理数据,以得到对应的第一处理结果。
优选地,所述在得到所述处理任务对应的第一处理结果时,将所述第一处理结果写入所述数据库,并在所述数据库中更新所述任务记录的任务状态的步骤之后,所述数据处理方法还包括:
若所述批量系统检测到所述任务记录的任务状态为处理失败,则将所述执行信息再次发送至所述大数据平台,同时,更新所述任务记录的任务状态为处理中,并监测所述任务状态;
若所述批量系统检测到所述任务记录的任务状态为处理完成,则从所述数据库中读取对应的第三处理结果并输出。
优选地,所述若所述批量系统检测到所述任务记录的任务状态为处理失败,则将所述执行信息再次发送至所述大数据平台,同时,更新所述任务记录的任务状态为处理中,并监测所述任务状态的步骤之后,所述数据处理方法还包括:
若所述批量系统检测到所述任务记录的任务状态为处理失败,则获取所述第一处理结果和所述第三处理结果的日志信息,并输出包含所述日志信息的报错信息。
优选地,所述若所述批量系统检测到所述任务记录的任务状态为处理完成,则从所述数据库中读取所述第一处理结果并输出的步骤包括:
若所述批量系统检测到所述任务记录的任务状态为处理完成,则从所述数据库中读取所述第一处理结果,并确定所述第一处理结果的用途;
所述批量系统确定所述用途对应的加工方式,使用所述加工方式对所述第一处理结果进行加工,并将加工后的第一处理结果输出。
优选地,所述批量系统在检测到运行指令时,若确定所述运行指令对应的待处理数据为大数据,则确定所述运行指令对应的执行信息是否正确的步骤之后,所述数据处理方法还包括:
所述批量系统在确定所述执行信息错误时,初始化所述批量系统,并获取预先配置的初始执行信息作为当前的执行信息,并执行将所述运行指令对应的执行信息发送至大数据平台,且在数据库中插入所述运行指令对应的任务记录,并监测所述任务记录的任务状态的步骤。
此外,为实现上述目的,本发明还提供一种数据处理系统,所述数据处理系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如上所述的数据处理方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上所述的数据处理方法的步骤。
本发明提出的数据处理方法,批量系统在检测到运行指令时,若确定所述运行指令对应的待处理数据为大数据,则确定所述运行指令对应的执行信息是否正确,其中,所述大数据为数据量不小于预设数据阈值的数据;所述批量系统在确定所述执行信息正确时,将所述执行信息发送至大数据平台,且在数据库中插入所述运行指令对应的任务记录,并监测所述任务记录的任务状态;所述大数据平台在接收到所述执行信息时,运行所述执行信息对应的处理任务,并在得到所述处理任务对应的第一处理结果时,将所述第一处理结果写入所述数据库,并在所述数据库中更新所述任务记录的任务状态;若所述批量系统检测到所述任务记录的任务状态为处理完成,则从所述数据库中读取所述第一处理结果并输出。本发明通过将大数据的处理任务放在处理速度更快的大数据平台进行,再将处理结果放在数据库中,批量系统只需在数据库中直接读取处理结果,而不需要对处理任务进行处理,有效提高处理数据的速度。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的数据处理系统结构示意图;
图2为本发明数据处理方法第一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的系统结构示意图。
如图1所示,该系统可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的系统结构并不构成对数据处理系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理程序。
其中,操作系统是管理和控制数据处理系统与软件资源的程序,支持网络通信模块、用户接口模块、数据处理程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1002;用户接口模块用于管理和控制用户接口1003。
在图1所示的数据处理系统中,所述数据处理系统通过处理器1001调用存储器1005中存储的数据处理程序,并执行下述数据处理方法各个实施例中的操作。
基于上述硬件结构,提出本发明数据处理方法实施例。
参照图2,图2为本发明数据处理方法第一实施例的流程示意图,所述方法包括:
步骤S10,批量系统在检测到运行指令时,若确定所述运行指令对应的待处理数据为大数据,则确定所述运行指令对应的执行信息是否正确,其中,所述大数据为数据量不小于预设数据阈值的数据;
步骤S20,所述批量系统在确定所述执行信息正确时,将所述运行指令对应的执行信息发送至大数据平台,且在数据库中插入所述运行指令对应的任务记录,并监测所述任务记录的任务状态;
步骤S30,所述大数据平台在接收到所述执行信息时,运行所述执行信息对应的处理任务,并在得到所述处理任务对应的第一处理结果时,将所述第一处理结果写入所述数据库,并在所述数据库中更新所述任务记录的任务状态;
步骤S40,若所述批量系统检测到所述任务记录的任务状态为处理完成,则从所述数据库中读取所述第一处理结果并输出。
本实施例数据处理方法运用于理财机构或者银行等金融机构的数据处理系统中,数据处理系统包括批量系统、BDP大数据平台和DB数据库,其中,批量系统优选为SpringBatch(一个轻量级的、完善的批处理框架,旨在帮助企业建立健壮、高效的批处理应用)包括消息中间件,批量系统与大数据平台通过消息中间件以及数据库建立连接,在业务实现过程中,由于大数据平台处理能力较强,因此,将需要复杂计算或者占用计算资源较高的数据放到大数据平台处理,而简单的数据或者占用计算资源较少的数据,则由批量系统自己处理完成。
本实施例的数据处理系统在启动时,通过批量系统接收运行指令,批量系统在接收到运行指令时,若确定对应的待处理数据是大数据,且运行指令对应的执行信息正确,则通过消息中间件将执行信息发送至大数据平台,并在数据库创建的任务轮询表中插入一条任务记录,大数据平台包括监听器,该监听器负责接收批量系统发送的执行信息,并拉起对应的处理任务,也即Hive计算任务,其中,Hive指基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,而Hadoop指的是一种分布式系统基础架构,MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,由于采用的现有工具,在此不对具体的处理过程进行详细描述,在Hive计算任务执行完成后,将对应的处理结果写入数据库中,并在Hive计算任务脚本中调用事先创建的Hive UDF函数(user-defined function,用户定义函数,指在Hive数据工具中进行客户化的函数)更新数据库中任务记录的任务状态,而批量系统监测数据库中任务记录的任务状态,在确定任务状态为处理完成时,直接读取数据库中的处理结果,使得处理大数据的整个过程不需要在批量系统进行,并且由于大数据平台的处理能力更强,处理数据的速度更快。
以下将对各个步骤进行详细说明:
步骤S10,批量系统在检测到运行指令时,若确定所述运行指令对应的待处理数据为大数据,则确定所述运行指令对应的执行信息是否正确,其中,所述大数据为数据量不小于预设数据阈值的数据。
在本实施例中,批量系统在检测到运行指令时,启动Job批量任务,在JOb中包含有三个Step步骤,分别为Step1、BdpTaskStep和Step2,Job在被启动后,按步骤顺序依次执行三个步骤,其中,Step1可有可无,若Step1存在,Step1具体做参数的校验,或者数据预处理。
当做参数的校验时,Step1具体校验BdpTaskStep中执行体BatchTaskCommunicat的执行信息是否正确,其中,BatchTaskCommunicat是根据大数据平台创建的任务信息以及对应的参数集合封装而成的一个继承Spring Batch Tasklet的对象,校验执行信息是否正确的方式可以是将该执行信息与大数据平台创建的执行信息进行比较,确定两者是否一致;或者,确定大数据平台中是否存在与执行信息对应的处理任务,以便大数据平台在接收到执行信息时,可以拉起对应的处理任务。
当做数据预处理时,Step1具体对批量系统从文件夹等数据源获取的待处理数据进行预处理,主要是校验数据是否有效,具体确定获取的待处理数据是否符合预设格式,若不符合,则过滤。
在执行完Step1后,Job继续执行BdpTaskStep,该步骤为大数据平台任务步骤,因此,在该步骤之前,批量系统需先确定运行指令对应的待处理数据是否为大数据,其中,大数据为数据量不小于预设数据阈值的数据,如1TB,确定是否为大数据的方法可以是若预设的用户自定义表单中存在待处理数据的标签,则确定待处理数据为大数据,还可以是根据运行指令中标注的待处理数据的数据量,判断待处理数据是否为大数据等,在具体实施时,一般由用户自定义哪些数据是大数据,并将是大数据的待处理数据的标签保存在用户自定义表单中,因此,批量系统只需确定待处理数据是否是用户定义的大数据,具体可通过查询用户自定义表单,确定当前待处理数据是否是大数据,若在用户自定义表单中存在与待处理数据对应的标签,则为大数据,反之,则不是;或者,用户事先对待处理数据的来源进行划分,通过确定待处理数据的来源来确定当前待处理数据是否是大数据,具体可通过确定待处理数据所在的文件目录位置来确定待处理数据的来源,然后,确定当前待处理数据的来源是否是预设的大数据来源,从而确定待处理数据是否为大数据,如A文件目录下的数据都是大数据,则只需确定待处理数据是否来自A,若是来自A,则当前待处理数据为大数据,反之,则不是等。
若批量系统确定当前待处理数据为大数据,则确定当前待处理数据需要大数据平台处理,需要执行BdpTaskStep,由于在该步骤中,BatchTaskCommunicat需要通过消息中间件将执行信息发送给大数据平台,因此,批量系统需要先确定运行指令对应的执行信息是否正确。
具体的,确定所述运行指令对应的执行信息是否正确的步骤包括:
步骤a,所述批量系统确定所述大数据平台中是否存在与所述执行信息对应的处理任务;
步骤b,若存在,所述批量系统则确定所述执行信息正确。
在该步骤中,批量系统验证执行信息是否正确的过程包括:确定大数据平台中是否存在与执行信息对应的处理任务,具体可通过任务ID来确定,即执行信息中包含有大数据平台创建的任务ID,若存在,则确定当前执行信息正确,若不存在,说明即使将执行信息发送至大数据平台也无法拉起对应的处理任务,则确定当前执行信息有误,若有误,则输出报错信息。
步骤S20,所述批量系统在确定所述执行信息正确时,将所述执行信息发送至大数据平台,且在数据库中插入所述运行指令对应的任务记录,并监测所述任务记录的任务状态。
在本实施例中,批量系统在确定执行信息正确时,才将执行信息发送至大数据平台,且在数据库的任务轮询表中插入一条任务记录,并实时监测任务记录的任务状态。也即在该步骤中,只在当前要处理的待处理数据是大数据,且执行信息正确的情况下才将执行信息发送至大数据平台,反过来说,大数据平台只处理大数据。其中,监测过程可以实时或者定时,在本实施例中,优选实时监测任务记录的任务状态,而任务状态包括处理中、处理完成和处理失败,可以理解的,在一开始插入任务记录时,该任务记录的任务状态为处理中。
在该步骤中,相当于将大数据的处理任务交给大数据平台处理,而批量系统本身只需监测数据库中任务记录的任务状态即可。
进一步地,数据处理方法还包括:
步骤c,若确定所述待处理数据为非大数据,所述批量系统则读取所述待处理数据,并调用所述待处理数据对应的第一处理函数处理所述待处理数据,以得到对应的第二处理结果,并将所述第二处理结果输出。
在该步骤中,若批量系统确定待处理数据为非大数据,批量系统则跳过BdpTaskStep,执行Step2,读取运行指令对应的数据源的待处理数据,并调用待处理数据对应的第一处理函数处理待处理数据,以得到对应的第二处理结果,并将第二处理结果输出,其中,第一处理函数为用户自定义函数,用于对待处理数据进行处理,即第一处理函数根据用户需求而定,如用户想获知待处理数据的统计结果,则第一处理函数为用户自定义的统计函数等。如,用户若想知道银行一个月的业务进账情况,则下达相应的运行指令,批量系统则根据运行指令去获取待处理数据,并调用对应的统计函数来处理待处理数据,最后得出处理结果。
进一步地,数据处理方法还包括:
所述批量系统在确定所述执行信息错误时,初始化所述批量系统,并获取预先配置的初始执行信息作为当前的执行信息,并执行将所述运行指令对应的执行信息发送至大数据平台,且在数据库中插入所述运行指令对应的任务记录,并监测所述任务记录的任务状态的步骤。
在该步骤中,若批量系统确定执行信息错误,则初始化批量系统,将批量系统还原到初始配置阶段,从而获取预先配置的初始执行信息,并将初始执行信息作为当前的执行信息,再执行将运行指令对应的执行信息发送至大数据平台,且在数据库中插入运行指令对应的任务记录,并监测任务记录的任务状态的步骤,以及后续步骤。
需要说明的是,初始执行信息是用户事先在大数据平台创建相应的处理任务,并获得对应的任务ID,以及运行该处理任务的参数集合,从而根据任务ID和参数集合生成并配置到批量系统中的,并且作为批量系统的初始化参数,因此,在数据处理过程中,因木马病毒等引起的执行信息错误,如改执行信息被木马病毒恶意篡等,可通过初始化批量系统得到初始执行信息,从而保证数据处理进程不受阻。
步骤S30,所述大数据平台在接收到所述执行信息时,运行所述执行信息对应的处理任务,并在得到所述处理任务对应的第一处理结果时,将所述第一处理结果写入所述数据库,并在所述数据库中更新所述任务记录的任务状态。
在本实施例中,大数据平台通过监听器接收到批量系统发送过来的执行信息时,运行执行信息对应的处理任务,也即,执行信息与处理任务在大数据平台中一一对应,大数据平台在接收到执行信息时,即可拉起对应的处理任务,然后执行该处理任务,以得到对应的第一处理结果,并在得到第一处理结果时,将第一处理结果写入数据库中,并在数据库中更新任务记录的任务状态,如处理成功,则更新任务记录的任务状态为处理完成等。
进一步的,所述大数据平台在接收到所述执行信息时,运行所述执行信息对应的处理任务的步骤包括:
步骤d,所述大数据平台在接收到所述执行信息时,读取所述执行信息的任务信息和参数集合,并确定所述任务信息对应的处理任务;
在该步骤中,大数据平台在接收到执行信息时,读取执行信息的任务信息和参数集合,也即执行信息包括任务信息和参数集合,然后,通过任务信息确定对应的处理任务,其中,在本实施例中,任务信息指taskId,是在BDP平台上创建的任务ID,参数集合指paramMap,是处理任务运行所需的参数集合,由用户事先配置。
步骤e,所述大数据平台基于所述参数集合,运行所述处理任务,其中,运行所述处理任务包括根据所述参数集合,读取所述待处理数据,并调用所述待处理数据对应的第二处理函数处理所述待处理数据,以得到对应的第一处理结果。
根据参数集合,从运行指令对应的数据源中读取待处理数据,并调用待处理数据对应的第二处理函数处理待处理数据,从而得到第一处理结果,其中,第二处理函数跟第一处理处理函数一样。
步骤S40,若所述批量系统检测到所述任务记录的任务状态为处理完成,则从所述数据库中读取所述第一处理结果并输出。
在本实施例中,批量系统实时监测数据库中任务记录的任务状态,若批量系统检测到任务状态为处理完成,说明大数据平台已经将第一处理结果写入数据库中了,则直接从数据库中读取第一处理结果,并输出。
也即,在该步骤中,Job的Step2步骤直接读取数据库的第一处理结果并输出即可,而不需要再对待处理数据进行处理。
本实施例的批量系统在检测到运行指令时,将所述运行指令对应的执行信息发送至大数据平台,且在数据库中插入所述运行指令对应的任务记录,并监测所述任务记录的任务状态;其中,所述大数据平台在接收到所述执行信息时,运行所述执行信息对应的处理任务,并在得到所述处理任务对应的第一处理结果时,将所述第一处理结果写入所述数据库,并在所述数据库中更新所述任务记录的任务状态;若所述批量系统检测到所述任务记录的任务状态为处理完成,则从所述数据库中读取所述第一处理结果并输出。本发明通过将处理任务放在处理速度更快的大数据平台进行,再将处理结果放在数据库中,批量系统只需在数据库中直接读取处理结果,而不需要对处理任务进行处理,有效提高处理数据的速度。
进一步地,基于本发明数据处理方法第一实施例,提出本发明数据处理方法第二实施例。
数据处理方法的第二实施例与数据处理方法的第一实施例的区别在于,数据处理方法还包括:
步骤f,若所述批量系统检测到所述任务记录的任务状态为处理失败,则将所述执行信息再次发送至所述大数据平台,同时,更新所述任务记录的任务状态为处理中,并监测所述任务状态;
步骤g,若所述批量系统检测到所述任务记录的任务状态为处理完成,则从所述数据库中读取对应的第三处理结果并输出。
本实施例的批量系统若检测到任务记录的任务状态为处理失败,也即大数据平台并没有得到正确的处理结果,则需要大数据平台重新处理一次,以期望得到正确的处理结果。
以下将对各个步骤进行详细说明:
步骤f,若所述批量系统检测到所述任务记录的任务状态为处理失败,则将所述执行信息再次发送至所述大数据平台,同时,更新所述任务记录的任务状态为处理中,并监测所述任务状态。
在本实施例中,若批量系统检测到数据库中任务记录的任务状态为处理失败,说明大数据平台在处理过程出错,并没有得到正确的处理结果,则需要大数据平台重新处理一次,具体的,批量系统将执行信息再一次发送给大数据平台,并将数据库中任务记录的任务状态,由处理失败更新为处理中,并再一次监测该任务状态。
可以理解的,大数据平台在接收到执行信息后,执行与上述实施例一样的处理过程,在此不再赘述,若是大数据平台最终得到第三处理结果,则一样将第三处理结果写入数据库中,并更新任务记录的任务状态为处理完成。
步骤g,若所述批量系统检测到所述任务记录的任务状态为处理完成,则从所述数据库中读取对应的第三处理结果并输出。
在本实施例中,若批量系统通过再次发送执行信息后,检测到数据库中任务记录的任务状态为处理完成,则从数据库中直接读取对应的第三处理结果,并输出。
进一步的,步骤f之后,数据处理方法还包括:
步骤h,若所述批量系统检测到所述任务记录的任务状态为处理失败,则获取所述第一处理结果和所述第三处理结果的日志信息,并输出包含所述日志信息的报错信息。
在本实施例中,若批量系统检测到数据库中任务记录的任务状态为处理失败,也即大数据平台再次处理失败,则获取第一处理结果和第三处理结果的日志信息,并输出包含该日志信息的报错信息,由人工进行纠错维护,其中,第一处理结果和第三处理结果可能一致。
可以理解的,在批量系统第一次检测到数据库中任务记录的任务状态为处理失败时,也可以采用直接报错的方式,通知相关运维人员进行纠错维护。在实际实施时,大数据平台处理失败三次批量系统才报错。
本实施例批量系统在检测到处理失败时,通知大数据平台重新处理,以期望得到相应的处理结果,若是还是失败,则报错,由人工进行纠错维护,实现数据的智能处理,并且,若是意外出错,如读不到数据源的待处理数据等,可以通过重新处理规避意外,不需要人工参与,提高处理数据的速度。
进一步地,基于本发明数据处理方法第一、第二实施例,提出本发明数据处理方法第三实施例。
数据处理方法的第三实施例与数据处理方法的第一、第二实施例的区别在于,步骤S30包括:
步骤i,若所述批量系统检测到所述任务记录的任务状态为处理完成,则从所述数据库中读取所述第一处理结果,并确定所述第一处理结果的用途;
步骤j,所述批量系统确定所述用途对应的加工方式,使用所述加工方式对所述第一处理结果进行加工,并将加工后的第一处理结果输出。
本实施例的Step2在读取到第一处理结果后,进一步确定第一处理结果的用途,从而采用对应的加工方式对第一处理结果进行加工,使得处理结果更贴合实际要求。
以下将对各个步骤进行详细说明:
步骤i,若所述批量系统检测到所述任务记录的任务状态为处理完成,则从所述数据库中读取所述第一处理结果,并确定所述第一处理结果的用途。
在本实施例中,若批量系统检测到数据库中任务记录的任务状态为处理完成,则从数据库中读取第一处理结果,并确定第一处理结果的用途,具体的,事先建立待处理数据与第一处理结果的用途的映射关系,如待处理数据为进账信息,则第一处理结果的用途为统计;若待处理数据为客户对话信息,则第一处理结果的用途为分析等。因此,可根据待处理数据,确定第一处理结果的用途。
步骤j,所述批量系统确定所述用途对应的加工方式,使用所述加工方式对所述第一处理结果进行加工,并将加工后的第一处理结果输出。
在本实施例中,批量系统根据确定的用途,选择对应的加工方式,对第一处理结果进行加工,如第一处理结果的用途为统计,则选择生成报表的加工方式,即按照预设的报表格式,如表格等,将第一处理结果生成报表;若第一处理结果的用途为分析,则选择导出成文件的加工方式,即按照预设的导出方式,如分批导出等,将第一处理结果导出成文件等。其中,第一处理结果的用途与加工方式一一对应。最后,将加工后的第一处理结果输出。
可以理解的,加工方式可以为无加工,如第一处理结果的用途为展示,则采用的加工方式为无加工,直接输出第一处理结果展示。
本实施例的批量系统在数据库中读取到处理结果后,再对处理结果进行再加工,类似大数据平台进行“粗加工”,而批量系统进行“精加工”,将处理任务放在大数据平台处理,而批量系统直接读取处理结果再进行加工,有效提高处理数据的速度。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上所述的数据处理方法的步骤。
其中,在所述处理器上运行的数据处理程序被执行时所实现的方法可参照本发明数据处理方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书与附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种数据处理方法,其特征在于,所述数据处理方法包括如下步骤:
批量系统在检测到运行指令时,若确定所述运行指令对应的待处理数据为大数据,则确定所述运行指令对应的执行信息是否正确,其中,所述大数据为数据量不小于预设数据阈值的数据;
所述批量系统在确定所述执行信息正确时,将所述执行信息发送至大数据平台,且在数据库中插入所述运行指令对应的任务记录,并监测所述任务记录的任务状态;
所述大数据平台在接收到所述执行信息时,运行所述执行信息对应的处理任务,并在得到所述处理任务对应的第一处理结果时,将所述第一处理结果写入所述数据库,并在所述数据库中更新所述任务记录的任务状态;
若所述批量系统检测到所述任务记录的任务状态为处理完成,则从所述数据库中读取所述第一处理结果并输出。
2.如权利要求1所述的数据处理方法,其特征在于,所述批量系统在检测到运行指令时,所述数据处理方法还包括:
若确定所述待处理数据为非大数据,所述批量系统则读取所述待处理数据,并调用所述待处理数据对应的第一处理函数处理所述待处理数据,以得到对应的第二处理结果,并将所述第二处理结果输出。
3.如权利要求1所述的数据处理方法,其特征在于,所述确定所述运行指令对应的执行信息是否正确的步骤包括:
所述批量系统确定所述大数据平台中是否存在与所述执行信息对应的处理任务;
若存在,所述批量系统则确定所述执行信息正确。
4.如权利要求1所述的数据处理方法,其特征在于,所述大数据平台在接收到所述执行信息时,运行所述执行信息对应的处理任务的步骤包括:
所述大数据平台在接收到所述执行信息时,读取所述执行信息的任务信息和参数集合,并确定所述任务信息对应的处理任务;
所述大数据平台基于所述参数集合,运行所述处理任务,其中,运行所述处理任务包括根据所述参数集合,读取所述待处理数据,并调用所述待处理数据对应的第二处理函数处理所述待处理数据,以得到对应的第一处理结果。
5.如权利要求1所述的数据处理方法,其特征在于,所述在得到所述处理任务对应的第一处理结果时,将所述第一处理结果写入所述数据库,并在所述数据库中更新所述任务记录的任务状态的步骤之后,所述数据处理方法还包括:
若所述批量系统检测到所述任务记录的任务状态为处理失败,则将所述执行信息再次发送至所述大数据平台,同时,更新所述任务记录的任务状态为处理中,并监测所述任务状态;
若所述批量系统检测到所述任务记录的任务状态为处理完成,则从所述数据库中读取对应的第三处理结果并输出。
6.如权利要求5所述的数据处理方法,其特征在于,所述若所述批量系统检测到所述任务记录的任务状态为处理失败,则将所述执行信息再次发送至所述大数据平台,同时,更新所述任务记录的任务状态为处理中,并监测所述任务状态的步骤之后,所述数据处理方法还包括:
若所述批量系统检测到所述任务记录的任务状态为处理失败,则获取所述第一处理结果和所述第三处理结果的日志信息,并输出包含所述日志信息的报错信息。
7.如权利要求1-6任一项所述的数据处理方法,其特征在于,所述若所述批量系统检测到所述任务记录的任务状态为处理完成,则从所述数据库中读取所述第一处理结果并输出的步骤包括:
若所述批量系统检测到所述任务记录的任务状态为处理完成,则从所述数据库中读取所述第一处理结果,并确定所述第一处理结果的用途;
所述批量系统确定所述用途对应的加工方式,使用所述加工方式对所述第一处理结果进行加工,并将加工后的第一处理结果输出。
8.如权利要求1所述的数据处理方法,其特征在于,所述批量系统在检测到运行指令时,若确定所述运行指令对应的待处理数据为大数据,则确定所述运行指令对应的执行信息是否正确的步骤之后,所述数据处理方法还包括:
所述批量系统在确定所述执行信息错误时,初始化所述批量系统,并获取预先配置的初始执行信息作为当前的执行信息,并执行将所述运行指令对应的执行信息发送至大数据平台,且在数据库中插入所述运行指令对应的任务记录,并监测所述任务记录的任务状态的步骤。
9.一种数据处理系统,其特征在于,所述数据处理系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如权利要求1至8中任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如权利要求1至8中任一项所述的数据处理方法的步骤。
CN201910930112.XA 2019-09-27 2019-09-27 数据处理方法、系统与计算机可读存储介质 Pending CN110674119A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910930112.XA CN110674119A (zh) 2019-09-27 2019-09-27 数据处理方法、系统与计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910930112.XA CN110674119A (zh) 2019-09-27 2019-09-27 数据处理方法、系统与计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110674119A true CN110674119A (zh) 2020-01-10

Family

ID=69079822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910930112.XA Pending CN110674119A (zh) 2019-09-27 2019-09-27 数据处理方法、系统与计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110674119A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312341A (zh) * 2021-04-28 2021-08-27 上海淇馥信息技术有限公司 一种数据质量监控方法、系统和计算机设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312341A (zh) * 2021-04-28 2021-08-27 上海淇馥信息技术有限公司 一种数据质量监控方法、系统和计算机设备
CN113312341B (zh) * 2021-04-28 2024-01-02 奇富数科(上海)科技有限公司 一种数据质量监控方法、系统和计算机设备

Similar Documents

Publication Publication Date Title
CN107453960B (zh) 一种在服务测试中处理测试数据的方法、装置和系统
US8869111B2 (en) Method and system for generating test cases for a software application
US20210365421A1 (en) Data analysis method, computer device and storage medium
CN111784108B (zh) 一种主数据管理平台的建模方法和装置
CN112364744A (zh) 基于TensorRT加速深度学习图像识别的方法、装置及介质
CN111435367A (zh) 知识图谱的构建方法、系统、设备及存储介质
CN112860706A (zh) 一种业务的处理方法、装置、设备及存储介质
CN113742018A (zh) 档案模型调整方法、计算机装置及计算机可读存储介质
CN112100070A (zh) 版本缺陷的检测方法、装置、服务器及存储介质
CN114077518A (zh) 数据快照方法、装置、设备及存储介质
CN111046245A (zh) 多源异构数据源融合计算方法、系统、设备和存储介质
US9507837B2 (en) Reference data segmentation from single to multiple tables
CN114386853A (zh) 基于通用审核模型的数据审核处理方法、装置及设备
CN110018835B (zh) Yang模型配置数据处理方法及装置、终端设备及存储介质
CN110674119A (zh) 数据处理方法、系统与计算机可读存储介质
CN113127735A (zh) 车货匹配方法、装置、计算机设备和介质
CN112100260A (zh) 一种基于接口引擎的多应用数据融合的方法及系统
CN112100187A (zh) 一种基于VueJS的学生学习数据存储方法及装置
CN108984318B (zh) 基于驱动模型的消息投递方法、装置及可读存储介质
CN112328450A (zh) 数据监控方法、装置、计算机设备及存储介质
CN111158654A (zh) 算法调用方法、装置、服务器及存储介质
CN110781142A (zh) 数据导入方法及装置、服务端及存储介质
CN115484560B (zh) 智能短信的处理方法、装置、电子设备及存储介质
WO2023230797A1 (zh) 一种跨系统测试方法及装置
CN108008967B (zh) 应用程序的版本控制方法及装置、计算机可读存储介质、终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination