CN108241722A - 一种数据处理系统、方法及装置 - Google Patents

一种数据处理系统、方法及装置 Download PDF

Info

Publication number
CN108241722A
CN108241722A CN201611253749.2A CN201611253749A CN108241722A CN 108241722 A CN108241722 A CN 108241722A CN 201611253749 A CN201611253749 A CN 201611253749A CN 108241722 A CN108241722 A CN 108241722A
Authority
CN
China
Prior art keywords
node
computing cluster
processing
target
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611253749.2A
Other languages
English (en)
Inventor
陈新
戴唯伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Beijing Kingsoft Cloud Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Beijing Kingsoft Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd, Beijing Kingsoft Cloud Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Publication of CN108241722A publication Critical patent/CN108241722A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种数据处理系统、方法及装置。系统包括:服务节点和提供不同处理逻辑的多个计算集群;服务节点,用于确定目标处理逻辑,所述目标处理逻辑为待处理数据需要的处理逻辑,将待处理数据发送至目标计算集群,目标计算集群是多个计算集群中提供目标处理逻辑的计算集群;目标计算集群,用于接收待处理数据,根据目标处理逻辑处理待处理数据,并以与目标处理逻辑相匹配的存储方式存储处理结果。本申请技术方案提供统一的日志处理系统,可以提高日志数据的处理效率和质量。

Description

一种数据处理系统、方法及装置
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理系统、方法及装置。
背景技术
对各种互联网应用来说,日志数据是一类具有重要意义的数据。日志数据可以记录应用产生的所有行为,并按照某种规范表达出来。基于应用的日志数据,可以执行与应用相关的多种处理,例如排错,优化应用性能,调整应用行为,或者统计指标等。
基于日志数据执行与应用相关的处理需要搭建日志处理平台,然后基于日志处理平台处理或分析日志数据。应用开发方更擅长扩展应用自身的功能,改进应用的性能,在日志处理平台搭建方面不够专业,搭建效率相对较低,而且效果也不够理想,进而导致日志数据处理效率和质量较低。
发明内容
本申请从多个方面提供一种数据处理系统、方法及装置,用以提供统一的数据处理系统,以提高日志数据的处理效率和质量。
本申请实施例提供一种数据处理系统,包括:服务节点和提供不同处理逻辑的多个计算集群;
所述服务节点,用于确定目标处理逻辑,所述目标处理逻辑为待处理数据需要的处理逻辑,将所述待处理数据发送至目标计算集群,所述目标计算集群是所述多个计算集群中提供所述目标处理逻辑的计算集群;
所述目标计算集群,用于接收所述待处理数据,根据所述目标处理逻辑处理所述待处理数据,并以与所述目标处理逻辑相匹配的存储方式存储处理结果。
在一可选实施方式中,所述系统还包括:控制节点,用于控制所述目标计算集群对所述待处理数据进行处理时的执行逻辑。
在一可选实施方式中,所述多个计算集群包括:提供批量处理逻辑的第一计算集群和/或提供流式处理逻辑的第二计算集群。
在一可选实施方式中,所述服务节点具体用于:根据所述待处理数据所属业务系统的业务需求,确定所述目标处理逻辑,将所述待处理数据发送至所述目标计算集群。
在一可选实施方式中,所述服务节点具体用于:若所述业务需求属于离线数据需求,确定批量处理逻辑为所述目标处理逻辑,将所述待处理数据发送至所述多个计算集群中提供所述批量处理逻辑的第一计算集群。
在一可选实施方式中,所述服务节点具体用于:若所述业务需求属于实时数据需求,确定流式处理逻辑为所述目标处理逻辑,将所述待处理数据发送至所述多个计算集群中提供所述流式处理逻辑的第二计算集群。
在一可选实施方式中,所述第一计算集群包括:对象存储节点、批量处理节点以及行式存储节点;
所述对象存储节点用于:根据控制节点的存储指令,以全量备份的方式存储所述服务节点发送的所述待处理数据;
所述批量处理节点用于:根据所述控制节点的调度,从所述对象存储节点中读取所述待处理数据,对所述待处理数据进行批量处理,将批量处理结果写入所述行式存储节点。
在一可选实施方式中,所述第二计算集群包括:流式处理节点、缓存节点以及列式存储节点;
所述流式处理节点用于:接收所述服务节点发送的所述待处理数据,对所述待处理数据进行流式处理,并根据控制节点的缓存指令,将流式处理结果写入所述缓存节点;
所述缓存节点用于:缓存所述流式处理结果;
所述列式存储节点用于:存储所述控制节点从所述缓存节点读取并写入的所述流式处理结果。
在一可选实施方式中,所述流式处理节点还用于:
在流式处理过程中根据预置规则实时侦测所述待处理数据体现的业务问题,并在侦测到所述业务问题时输出报警信息;和/或
将流式处理过程中的中间结果写入所述对象存储节点,以支持所述批量处理逻辑。
在一可选实施方式中,所述服务节点包括:部署于所述数据处理系统的服务模块和部署于业务系统的采集模块;
所述采集模块,用于采集所述业务系统产生的日志数据,将所述日志数作为所述待处理数据发送至所述服务模块;
所述服务模块,用于接收所述采集模块发送的所述待处理数据,确定所述目标处理逻辑,将所述待处理数据发送至所述目标计算集群。
在一可选实施方式中,所述服务模块还用于:在将所述待处理数据发送至所述目标计算集群之前,转换所述待处理数据的格式为预设的标准化格式。
本申请实施例还提供一种数据处理方法,包括:
确定目标处理逻辑,所述目标处理逻辑为待处理数据需要的处理逻辑;
将所述待处理数据发送至目标计算集群,以供所述目标计算集群处理所述待处理数据;其中,所述目标计算集群是提供不同处理逻辑的多个计算集群中提供所述目标处理逻辑的计算集群。
在一可选实施方式中,在确定所述目标处理逻辑之前,还包括:采集业务系统产生的日志数据,作为所述待处理数据。
在一可选实施方式中,在发送所述待处理数据之前,还包括:转换所述待处理数据的格式为预设的标准化格式。
在一可选实施方式中,所述目标处理逻辑的确定步骤,包括:根据所述待处理数据所属业务系统的业务需求,确定所述目标处理逻辑。
在一可选实施方式中,所述目标处理逻辑的确定步骤,包括:若所述业务需求属于离线数据需求,确定批量处理逻辑为所述目标处理逻辑;相应的,所述待处理数据的发送步骤,包括:将所述待处理数据发送至所述多个计算集群中提供所述批处理逻辑的第一计算集群。
在一可选实施方式中,所述目标处理逻辑的确定步骤,包括:若所述业务需求属于实时数据需求,确定流式处理逻辑为所述目标处理逻辑;相应的,所述待处理数据的发送步骤,包括:将所述待处理数据发送至所述多个计算集群中提供所述流式处理逻辑的第二计算集群。
在一可选实施方式中,所述多个计算集群包括提供批量处理逻辑的第一计算集群和/或提供流式处理逻辑的第二计算集群。
在一可选实施方式中,所述第一计算集群包括:对象存储节点、批量处理节点以及行式存储节点;
所述方法还包括:以全量备份的方式将所述待处理数据存储至所述对象存储节点;调度所述批量处理节点,以使所述批量处理节点对所述待处理数据进行批量处理;控制所述批量处理节点将批量处理结果写入所述行式存储节点。
在一可选实施方式中,所述第二计算集群包括:流式处理节点、缓存节点以及列式存储节点;
所述方法还包括:触发所述流式处理节点对所述待处理数据进行流式处理;控制所述流式处理节点将流式处理结果写入所述缓存节点;从所述缓存节点中读取所述流式处理结果,并写入所述列式存储节点。
在一可选实施方式中,所述方法还包括:在流式处理过程中,根据预置规则实时侦测所述待处理数据体现的业务问题,并在侦测到所述业务问题时输出报警信息;和/或,将流式处理过程中的中间结果写入所述第一计算集群中的对象存储节点,以支持所述批量处理逻辑。
本申请实施例还提供一种数据处理装置,包括:
确定模块,用于确定目标处理逻辑,所述目标处理逻辑为待处理数据需要的处理逻辑;
发送模块,用于将所述待处理数据发送至目标计算集群,以供所述目标计算集群处理所述待处理数据;其中,所述目标计算集群是提供不同处理逻辑的多个计算集群中提供所述目标处理逻辑的计算集群。
在一可选实施方式中,所述确定模块具体用于:根据所述待处理数据所属业务系统的业务需求,确定所述目标处理逻辑。
在一可选实施方式中,所述确定模块具体用于:在所述业务需求属于离线数据需求时,确定批量处理逻辑为所述目标处理逻辑;相应的,所述发送模块具体用于:将所述待处理数据发送至所述多个计算集群中提供所述批量处理逻辑的第一计算集群。
在一可选实施方式中,所述确定模块具体用于:在所述业务需求属于实时数据需求时,确定流式处理逻辑为所述目标处理逻辑;相应的,所述发送模块具体用于:将所述待处理数据发送至所述多个计算集群中提供所述流式处理逻辑的第二计算集群。
在一可选实施方式中,所述多个计算集群包括提供批量处理逻辑的第一计算集群和/或提供流式处理逻辑的第二计算集群。
在一可选实施方式中,所述第一计算集群包括:对象存储节点、批量处理节点以及行式存储节点;相应的,所述装置还包括:
第一控制模块,用于以全量备份的方式将所述待处理数据存储至所述对象存储节点,调度所述批量处理节点,以使所述批量处理节点对所述待处理数据进行批量处理,以及控制所述批量处理节点将批量处理结果写入所述行式存储节点。
在一可选实施方式中,所述第二计算集群包括:流式处理节点、缓存节点以及列式存储节点;相应的,所述装置还包括:
第二控制模块,用于触发所述流式处理节点对所述待处理数据进行流式处理,并控制所述流式处理节点将流式处理结果写入所述缓存节点,以及从所述缓存节点中读取所述流式处理结果,并写入所述列式存储节点。
在本申请实施例中,通过多个计算集群提供不同的处理逻辑,通过服务节点确定多个计算集群中适于对待处理数据进行处理的计算集群,实现一种统一的数据处理方案,因为具有多个计算集群提供不同的处理逻辑,可以满足多种数据处理需求;另外,本申请实施例专注于数据处理,所提供的数据处理方案更加专业,有利于提高数据处理效率和质量,而且可以将业务系统从搭建数据处理系统的劳动中解放出来,使得业务系统可以更加专注业务功能和性能本身。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一实施例提供的数据处理系统的结构示意图;
图2为本申请另一实施例提供的数据处理系统的结构示意图;
图3为本申请又一实施例提供的数据处理系统的结构示意图;
图4a为本申请又一实施例提供的数据处理系统的结构示意图;
图4b为本申请又一实施例提供的数据处理系统的结构示意图;
图5为本申请又一实施例提供的数据处理方法的流程示意图;
图6为本申请又一实施例提供的数据处理方法的流程示意图;
图7为本申请又一实施例提供的数据处理方法的流程示意图;
图8为本申请又一实施例提供的数据处理装置的结构示意图;
图9为本申请又一实施例提供的数据处理装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请一实施例提供的数据处理系统的结构示意图。如图1所示,所述系统包括:服务节点10和提供不同处理逻辑的多个计算集群20;其中,不同计算集群20提供不同的处理逻辑,如图1所示,从上往下,不同计算集群20提供的处理逻辑依次为第一处理逻辑、第二处理逻辑、……第N处理逻辑,N是自然数。其中,处理逻辑主要描述如何对数据进行处理,例如可以包括对数据的处理方式、处理流程以及处理规则等内容。多个计算集群20分别与服务节点10连接。在本申请实施例中,所述多个是指两个或两个以上。
服务节点10,主要用于确定目标处理逻辑,目标处理逻辑是指待处理数据需要的处理逻辑,并将待处理数据发送至多个计算集群20中提供目标处理逻辑的计算集群,从而确定待处理数据的走向。为便于描述,将多个计算集群20中提供目标处理逻辑的计算集群称为目标计算集群。目标处理逻辑可能是多个处理逻辑中的任一处理逻辑;相应地,目标计算集群可能是多个计算集群20中的任一计算集群。
在本实施例中,对待处理数据不做限定。例如,待处理数据可以是任何业务系统产生的日志数据,但不限于此。
目标计算集群,主要用于接收服务节点10发送的待处理数据,根据自身提供的处理逻辑(即目标处理逻辑)处理待处理数据,并以与目标处理逻辑相匹配的存储方式存储处理结果。
其中,根据处理逻辑的不同,不同计算集群20的实现架构会有所不同。在本实施例中,并不限定每个计算集群20的实现架构。凡是能够使计算集群20根据自身提供的处理逻辑对待处理数据进行处理的实现架构均适用于本实施例。
在本实施例中,通过多个计算集群提供不同的处理逻辑,通过服务节点确定多个计算集群中适于对待处理数据进行处理的计算集群,实现一种统一的数据处理方案,因为具有多个计算集群提供不同的处理逻辑,可以满足多种数据处理需求;另外,本申请实施例专注于数据处理,所提供的数据处理方案更加专业,有利于提高数据处理效率和质量,而且可以将业务系统从搭建数据处理系统的劳动中解放出来,使得业务系统可以更加专注业务功能和性能本身。
在本实施例中,除了通过多个计算集群提供不同处理逻辑之外,还会为不同处理逻辑提供各自匹配的存储方式,这有利于节约存储空间,提高处理结果在使用时的便利性,例如查询效率更高,支持复杂的查询逻辑等,以便提高数据处理系统的性能。
如图2所示,在本申请另一实施例中,所述数据处理系统除了服务节点10和多个计算集群20之外,还包括控制节点30。
控制节点30,主要用于控制目标计算集群对待处理数据进行处理时的执行逻辑。除此之外,控制节点30还可以负责数据处理系统中的其它控制逻辑。对目标计算集群来说,在对待处理数据进行处理时接受控制节点30的控制,按照控制节点30提供的执行逻辑,对待处理数据进行处理。例如,目标计算集群可在控制节点30的控制下,完成接收服务节点10发送的待处理数据,根据自身提供的目标处理逻辑处理待处理数据,并以与目标处理逻辑相匹配的存储方式存储处理结果。
在本实施例中,将数据处理系统的控制逻辑剥离出来,交由控制节点30负责,数据处理系统中的各计算集群20只需执行自身功能,无需关注什么时间启动、处理结果存储到哪里、如何存储等控制逻辑,有利于减轻目标计算集群的处理负担,提高目标计算集群的处理效率。
在上述实施例或下述实施例中,多个计算集群可以包括:提供批量处理逻辑的第一计算集群和/或提供流式处理逻辑的第二计算集群。
在本申请又一实施例中,给出一种数据处理系统的示例,如图3所示,所述数据处理系统包括:服务节点10、控制节点30、第一计算集群21和第二计算集群22。在图3所示数据处理系统中,以多个计算集群包括第一计算集群21和第二计算集群22为例,但并不限于此。其中,第一计算集群21提供批量处理逻辑,主要用于对进入第一计算集群21内的待处理数据进行批量处理。第一计算集群21中的数据流一般是批量的、非实时的,但也可以包含实时的。第二计算集群22提供流式处理逻辑,主要用于对进入第二计算集群22内的待处理数据进行流式处理。第二计算集群22中的数据流一般是实时的,但也可以包含批量的、非实时的。
对于先存储后计算,对实时性要求不高,但对数据的准确性、全面性要求较高的应用场景,批量处理逻辑更加适合,批量处理逻辑通需要执行数据的打包压缩、格式转换、入库、统计或关联分析等复杂操作。对于无需先存储,可以直接进行数据计算,实时性要求很严格,但对数据的精确性要求不太高的应用场景,流式处理逻辑具有明显优势。流式处理逻辑通常只需执行数据的获取、根据预定的业务逻辑对数据进行逻辑判断和简单处理。
进一步,如图3所示,第一计算集群21的一种实现架构包括但不限于:对象存储节点、批量处理节点以及行式存储节点。考虑第一计算集群21提供的是批量处理逻辑,一般不会对进入第一计算集群21的数据进行实时处理,故第一计算集群21需要包括对象存储节点。对象存储节点与连接服务节点10连接,用于存储服务节点10发送的待处理数据。对象存储节点是一种长期存储节点。除对象存储节点之外,第一计算集群21还需要包括批量处理节点,用于执行批量处理逻辑;而且为便于批量处理节点对待处理数据进行批量处理,批量处理节点需要与对象存储节点连接,以便于从对象存储节点中读取待处理数据。为便于存储批量处理节点的处理结果,第一计算集群21还包括行式存储节点。行式存储节点与批量处理节点连接,用于存储批量处理节点输出的批量处理结果。在本实施例中,考虑批量处理结果的数据量一般不大,并发查询量较大,故采用行式存储节点。行式存储节点是支持行式存储方式的存储节点,例如关系型数据库。所述行式存储方式是指以记录为单位进行数据存储的存储方式。
相应地,如图3所示,第二计算集群22的一种实现架构包括但不限于:流式处理节点、缓存节点以及列式存储节点。为便于对进入第二计算集群22中的数据进行流式处理,第二计算集群22需要包括流式处理节点。流式处理节点与服务节点10连接,主要用于执行流式处理逻辑,以对服务节点10送入的待处理数据进行流式处理。为了便于存储流式处理节点的处理结果,第二计算集群22还包括列式存储节点。列式存储节点与流式处理节点连接,主要负责存储流式处理节点输出的流式处理结果。在本实施例中,考虑流式处理结果的数据量较大,查询逻辑比较复杂,故采用列式存储节点。列式存储节点是支持列式存储方式的存储节点,所述列式存储方式是指以字段为单位进行数据存储的存储方式。列式存储节点可以是一个大容量、易扩展高性能的列式数据库,可以轻松应对高并发、复杂度较高的业务查询。
图3所示仅为本申请实施例提供的数据处理系统的一种示例,并不限于此。
在一可选实施方式中,服务节点10可以从业务系统获取待处理数据,并根据待处理数据所属的业务系统的业务需求,确定目标处理逻辑。
进一步,结合图3所示数据处理系统,可以将业务需求划分为离线数据需求和实时数据需求。离线数据需求主要是指对实时性要求较低,处理逻辑相对复杂和/或对数据的准确性、全面性要求较高的业务需求,适于批量处理逻辑。实时数据需求主要是指对实时性要求较高,处理逻辑相对简单和/或对数据的精确度要求较低的业务需求,适于流式处理逻辑。
基于上述,服务节点10可以识别业务需求的类别。若业务需求属于离线数据需求,服务节点10确定批量处理逻辑为目标处理逻辑;相应地,提供批量处理逻辑的第一计算集群21为目标计算集群,于是可以将待处理数据发送至第一计算集群21,具体可以发送至第一计算集群21中的对象存储节点。若业务需求属于实时数据需求,服务节点10确定流式处理逻辑为目标处理逻辑;相应地,提供流式处理逻辑的第二计算集群22为目标计算集群,于是可以将待处理数据发送至第二计算集群22,具体可以发送至第二计算集群22中的流式处理节点。
对于第一计算集群21是目标计算集群的情况,结合图3所示第一计算集群21的实现架构,第一计算集群21对待处理数据进行批量处理的原理如下:
对象存储节点负责存储服务节点10发送的待处理数据。可选的,对象存储节点可根据控制节点30的存储指令,以全量备份的方式存储待处理数据,实现待处理数据的长期存储。相应地,批量处理节点用于根据控制节点30的调度,从对象存储节点中读取待处理数据,对待处理数据进行批量处理,将批量处理结果写入行式存储节点。例如,批量处理节点可以提供API接口,控制节点30可以通过API接口周期性的调度批量处理节点,以触发批量处理节点执行从对象存储节点中读取待处理数据,对待处理数据进行批量处理,将批量处理结果写入行式存储节点的操作。
可选的,批量处理节点除了可以将批量处理结果写入行式存储节点之外,还可以将处理结果回写至对象存储节点,以便长期保存批量处理结果。值得说明的是,写入行式存储节点的批量处理结果和回写至对象存储节点中的批量处理结果可以相同,也可以不相同。
举例说明,批量处理结果可以是产生报表的基础数据。对业务系统来说,可以从行式存储节点中读取报表的基础数据,进而基于所述基础数据生成各种形式的运营报表。
对于第二计算集群22是目标计算集群的情况,结合图3所示第二计算集群22的实现架构,第二计算集群22对待处理数据进行流式处理的原理如下:
流式处理节点接收服务节点10发送的待处理数据,对待处理数据进行流式处理,并根据控制节点30的缓存指令,将流式处理结果写入缓存节点;缓存节点用于:缓存流式处理结果;控制节点30从缓存节点中读取流式处理结果,并写入列式存储节点,以进行长期存储;则列式存储节点用于存储控制节点30从缓存节点读取并写入的流式处理结果。
可选的,流式处理节点除了生成适于存储到列式存储节点的流式处理结果之外,还可以在流式处理过程中根据预置规则实时侦测待处理数据体现的业务问题,并在侦测到业务问题时输出报警信息;和/或,将流式处理过程中的中间结果写入第一计算集群21中的对象存储节点,以支持批量处理逻辑。如图3所示,流式处理节点还与第一计算集群21中的对象存储节点连接。
值得说明的是,本申请实施例所述的连接可以是任何能够任何形式的通信连接,例如可以是有线连接,也可以是无线连接。
本申请又一实施例提供一种数据处理系统,如图4a所示,所述数据处理系统包括服务节点10、控制节点30、第一计算集群21和第二计算集群22。如图4a所示,服务节点10包括部署于数据处理系统的服务模块和部署于业务系统的采集模块。关于控制节点30、第一计算集群21和第二计算集群22的实现结构和工作原理可参见前述实施例,在此不再赘述。
其中,采集模块用于采集业务系统产生的日志数据,将日志数作为待处理数据发送至服务模块。可选的,采集模块可以是服务节点10的代理或SDK。
服务模块用于接收采集模块发送的待处理数据,确定待处理数据需要的处理逻辑,作为目标处理逻辑,将待处理数据发送至多个计算集群中提供目标处理逻辑的计算集群,即目标计算集群。
可选的,考虑到不同业务系统产生的日志数据的格式可能各不相同,为了便于对日志数据进行处理,本实施例提供的数据处理系统提供统一的数据格式,称为预设的标准化格式。基于此,服务模块还用于:在发送待处理数据之前,转换待处理数据的格式为预设的标准化格式。
在此说明,在图3和图4a中,重点示出控制节点30与部分节点,如流式处理节点、缓存节点、流式存储节点以及批量处理节点之间的连接关系,但并不限于此。根据控制需求,控制节点30可以与数据处理系统中的任何节点相连接。另外,在图3和图4a中,分别用实线表示第一计算集群中的处理过程,用虚线表示第二计算集群中的处理过程。
不同业务系统,其日志数据的复杂度不同。有些业务系统的日志数据相对复杂,例如游戏类。游戏类系统产生的日志数据是一种半结构化数据,其产生速度快,数据量大,价值密度低。对于这类日志数据的收集、处理或分析存在着方方面面的挑战。而采用本申请实施例提供的数据处理系统,可以轻松解决这类日志数据的收集、处理或分析问题。
下面以游戏类系统为例,举例说明本申请实施例提供的数据处理系统的工作原理。
以游戏类系统为例,其产生的日志数据包括:系统日志、用户日志以及异常日志。
上述系统日志一般描述游戏服务器日常运行的状态,例如启动是否成功,每天内存的占用量,中央处理器(Central Processing Unit,CPU)的使用量等信息。上述异常日志主要记录在游戏服务器发生的异常。基于异常日志和系统日志可以定位程序中漏洞(BUG)的位置,清楚BUG产生的原因,对游戏服务器的改进提供必要的支持。
上述用户日志主要描述与玩家相关的信息,可以分为几大类:登录日志、消费日志、收入日志、行为日志和充值日志。
登录日志:主要记录玩家登录的时间,互联网协议(Internet Protocol,IP)地址等信息。基于登录日志可以判断客户端的状态,或者识别异常行为。例如,客户端使用非正常手段大规模访问服务器,会给服务器造成额外的压力,使正常的玩家受到影响,严重时甚至不能正常登录。基于登录日志可以识别异常访问行为,管理员可以根据识别结果对客户端的IP进行封号处理。
消费日志:主要记录玩家在游戏中各种货币的消费情况。基于消费日志可以分析玩家的资金流向,对运营的营销有很大的帮助。另外,一个玩家无限制的购买一个物品是不正常的,基于消费日志可以识别这种情况,从而查看游戏系统是否存在一些刷钱的BUG。
收入日志:主要记录玩家在游戏中的货币来源情况,也是游戏系统中整个产出的表现。基于收入日志便于全面了解整个游戏的产出情况。另外,一个玩家的资金突然比别的玩家高出很多是不正常的,基于收入日志可以发现这种情况,有助于发现游戏系统是否存在BUG。
行为日志:主要记录玩家的一些操作行为,例如,抽卡次数、挑战次数、购买次数等。基于行为日志可以分析玩家在游戏成长过程中的行为,可以修改游戏的某些小功能,增加用户体验的好感。
充值日志:主要记录玩家的充值信息。基于充值日志可以发现不合理的情况,例如玩家成功充值,但游戏系统并未发放钻石给玩家,这是不合理的。另外,充值日志还可以直接反映出哪些玩家是土豪,清楚游戏收入的来源。
由上述分析可见,游戏类系统中的日志数据具有极高的应用价值,具有分析和处理的必要,但其产生速度快,数据量大,价值密度低,因此在收集、处理或分析存在着方方面面的挑战。而采用本申请实施例提供的数据处理系统,可以轻松解决这类日志数据的收集、处理或分析问题。
在处理游戏类系统中的日志数据的应用场景中,本申请实施例提供的数据处理系统可采用如图4b所示的结构。如图4b所示,所述数据处理系统包括:部署于游戏类系统(如云主机或移动端)中的代理(Agent)或软件开发工具包(Software Development Kit,SDK),相当于上述实施例中的采集模块、日志服务(相当于上述实施例中的服务模块)、对象存储节点、批量处理节点、关系数据库、流式处理节点、缓存节点以及列数据库等。图4b所示数据处理系统可在控制节点的控制下运行,为了重点体现数据处理过程,图4b中未示出控制节点。其中,对象存储节点、批量处理节点、关系数据库构成提供批量处理逻辑的计算集群,图4b中称为批量计算集群;流式处理节点、缓存节点以及列数据库构成提供流式处理逻辑的计算集群,图4b中称为流式计算集群。
上述代理或SDK采集游戏类系统产生的日志数据,可以包括系统日志、用户日志以及异常日志中的至少一种,作为待处理数据。
在图4b中,以带箭头的实线表示该系统中的批量数据流,以带箭头的虚线表示该系统中的实时数据流。对于无需实时处理的日志数据,代理或SDK可以先采集日志数据,然后以批量方式发送给日志服务;日志服务将批量日志数据存储到对象存储节点,批量处理节点从对象存储节点中读取批量日志数据并进行批量处理,将批量处理结果存储至关系数据库中;关系数据库对外提供数据支持,例如可以为游戏类系统的运营报表需求提供数据支持。对需要实时处理的日志数据,代理或SDK采集日志数据,实时地发送给日志服务;日志服务实时地将日志数据提供给流式处理节点;流式处理节点实时地对日志数据进行流式处理,将流式处理结果存储至缓存节点;后续可以将缓存节点中的流式处理结果以批量方式转存至列数据库中,该转存过程可以是非实时的;列数据库对外提供数据支持,例如可以为游戏类系统的运营报表需求和/或业务支撑提供数据支持。
可选的,流式处理节点在对日志数据进行流式处理过程中,可以实时地侦测日志数据体现的业务问题,当侦测到业务问题时,对外输出报警信息。
可选的,流式处理节点还可以将流式处理过程中的中间结果写入对象存储节点,以支持批量处理逻辑。
采集模块将采集到的日志数据作为待处理数据发送至服务节点中的服务模块;服务模块对根据游戏类系统的业务需求,确定日志数据需要的处理逻辑是流式处理逻辑还是批量处理逻辑。
例如,一种业务需求为为客服提供某个时间点的玩家充值,装备掉落,交易等信息,以供客服查询。所述业务需求的分析比较简单,一般可以从日志数据中直接获取或只需进行简单计算,故可以走流式处理逻辑,将待处理数据送入流式计算集群中。
又例如,一种业务需求为客服提供某个地区(如北京或上海)内玩家的数量、玩家充值总量等信息。所述业务需求的分析比较复杂,对数据的精确性要求较高,故可以走批量处理逻辑,将待处理数据送入批量计算集群中。
又例如,一种业务需求为统计设备激活情况、用户活跃度、在线用户数等信息。所述业务需求的实时性比较高,统计周期一般为30秒左右,故可以走流式处理逻辑,将待处理数据送入流式计算集群中。
又例如,一种业务需求为统计全体、平台、渠道、区服等不同维度的用户活跃度、用户留存率、用户等级等指标。所述业务需求的分析比较复杂,对数据的准确性、全面性要求较高,故可以走批量处理逻辑,将待处理数据送入批量计算集群中。
又例如,一种业务需求为实时监控游戏中的关卡,任务,货币等指标,以便发现异常行为。所述业务需求的实时性比较高,故可以走流式处理逻辑,将待处理数据送入流式计算集群中。
又例如,一种业务需求为根据玩家的行为日志进行深度的数据分析和挖掘,以便改进游戏功能。所述业务需求的分析比较复杂,故可以走批量处理逻辑,将待处理数据送入批量计算集群中。
值得说明的是,根据应用场景、业务需求以及待处理数据等因素的不同,批量计算集群提供的批量处理逻辑或第二计算集群提供的流式处理逻辑在具体实现上会有所不同,但符合批量处理逻辑或流式处理逻辑的宗旨。
下面以游戏类应用场景为例,结合具体业务需求,分别对批量计算集群提供的批量处理逻辑和流式计算集群提供的流式处理逻辑进行举例说明。
假设业务需求为根据玩家的行为日志进行深度的数据分析和挖掘,以便改进游戏功能,则进入批量计算集群中的日志数据主要包括众多玩家的行为日志。可选的,批量计算集群的批量处理逻辑可以包括:根据玩家的行为类型对玩家的日志数据进行分类,例如可以获得抽卡行为、挑战行为、购买行为等不同行为类型下的日志数据,对不同行为类型下的日志数据进行统计,关联分析各行为类型下的日志数据等,以获得最终分析结果。
假设业务需求为实时监控游戏中的关卡,任务,货币等指标,以便发现异常行为,则进入流式计算集群中的日志数据主要包括玩家的各种用户日志。可选的,流式计算集群的流式处理逻辑为:获取玩家的各种用户日志,例如登录日志、收入日志、行为日志等,根据预定分析逻辑对各种用户日志进行逻辑判断和简单处理,以监控玩家的行为;当监控到异常行为时,输出报警信息。
可见,采用本实施例提供的数据处理系统,可以端到端的分析日志数据,基于分析结果便于游戏快速部署,快速上线。另外,本实施例提供的数据处理系统根据处理逻辑产出结果的特点提供不同类型的存储方式,满足海量数据存储、快速处理、高并发访问等多种业务需求。再者,本实施例提供的数据处理系统无需关注底层基础设施,只需考虑业务逻辑,支持按需部署,可按量付费,资源弹性伸缩,具有较高的可用性。
图5为本申请又一实施例提供的数据处理方法的流程示意图。所述方法适用于支持多种处理逻辑的系统,例如可以是图1-图4b所示数据处理系统,但不限于此。如图5所示,所述方法包括:
502、确定目标处理逻辑,所述目标处理逻辑为待处理数据需要的处理逻辑。
504、将待处理数据发送至目标计算集群,以供目标计算集群处理待处理数据;其中,目标计算集群是提供不同处理逻辑的多个计算集群中提供目标处理逻辑的计算集群。
本实施例的执行主体可以是数据处理装置,结合图1-图4b所示数据处理系统,可以是数据处理系统中的服务节点以及控制节点,但不限于此。
在本实施例中,对待处理数据不做限定。例如,待处理数据可以是任何业务系统产生的日志数据,但不限于此。
本实施例提供的方法适用于具有多个计算集群的数据处理系统,且多个计算集群提供不同的处理逻辑。基于此,数据处理装置需要确定待处理数据需要的处理逻辑,以便从多个计算集群中选择适于待处理数据的计算集群。为便于描述,将待处理数据需要的处理逻辑称为目标处理逻辑。
基于所确定的待处理数据需要的处理逻辑,即目标处理逻辑,数据处理装置可以确定多个计算集群中提供目标处理逻辑的计算集群适于处理待处理数据,故将待处理数据发送至多个计算集群中提供目标处理逻辑的计算集群,以供提供目标处理逻辑的计算集群对待处理数据进行处理。为便于描述,将提供目标处理逻辑的计算集群称为目标计算集群。
本实施例相当于提供一种统一的数据处理方法,适用于多种数据处理需求,有利于将业务系统从搭建数据处理系统的劳动中解放出来,使得业务系统可以更加专注业务功能和性能本身,而且本实施例提供的数据处理方法更加专业,有利于提高数据处理效率和质量。
基于图5所示方法,本申请又一实施例提供的数据处理方法,如图6所示,在步骤502之前还包括:
501、采集业务系统产生的日志数据,作为待处理数据。
在该实施例中,数据处理装置采集业务系统产生的日志数据,作为待处理数据,从而实现对日志数据的处理。可选的,可以在业务系统中部署采集模块,采集模块采集业务系统产生的日志数据,并发送给数据处理装置。基于此,数据处理装置可以接收部署于业务系统中的采集模块采集到的日志数据,作为待处理数据,但并不限于此。
基于图6所示方法,本申请又一实施例提供的数据处理方法,如图7所示,所述方法在步骤504之前还包括:
503、转换待处理数据的格式为预设的标准化格式。
考虑到不同业务系统产生的日志数据的格式可能各不相同,为了便于对日志数据进行处理,本实施例提供的数据处理方法提供统一的数据格式,称为预设的标准化格式。基于此,数据处理装置在将待处理数据发送至计算集群之前,转换待处理数据的格式为预设的标准化格式。其中,基于标准化格式对待处理数据进行处理,有利于提高处理效率。
在上述实施例或下述实施例中,目标处理逻辑的确定步骤,包括:
根据待处理数据所属业务系统的业务需求,确定目标处理逻辑。
若业务需求属于离线数据需求,则确定批量处理逻辑为待处理数据所需的处理逻辑,即目标处理逻辑。相应地,可以将待处理数据发送至多个计算集群中提供批量处理逻辑的第一计算集群,由第一计算集群对待处理数据进行批量处理。
若业务需求属于实时数据需求,确定流式处理逻辑为待处理数据所需的处理逻辑,即目标处理逻辑。相应地,可以将待处理数据发送至多个计算集群中提供流式处理逻辑的第二计算集群,由第二计算集群对待处理数据进行流式处理。
可选的,多个计算集群包括提供批量处理逻辑的第一计算集群和/或提供流式处理逻辑的第二计算集群。
可选的,第一计算集群的一种实现架构包括:对象存储节点、批量处理节点以及行式存储节点。基于此,所述方法还可以包括:控制第一计算集群对待处理数据进行批量处理的过程。例如,以全量备份的方式将待处理数据存储至对象存储节点;调度批量处理节点,以使批量处理节点对待处理数据进行批量处理;控制批量处理节点将批量处理结果写入行式存储节点。
可选的,第二计算集群的一种实现架构包括:流式处理节点、缓存节点以及列式存储节点。基于此,所述方法还包括:控制第二计算集群对待处理数据进行流式处理的过程。例如,触发流式处理节点对待处理数据进行流式处理,控制流式处理节点将流式处理结果写入缓存节点;从缓存节点中读取流式处理结果,并写入列式存储节点。
可选的,控制第二计算集群对待处理数据进行流式处理的过程还包括:在流式处理过程中,根据预置规则实时侦测所述待处理数据体现的业务问题,并在侦测到业务问题时输出报警信息;和/或,将流式处理过程中的中间结果写入第一计算集群中的对象存储节点,以支持批量处理逻辑。
由上述分析可见,上述各实施例相当于提供一种统一的数据处理方法,适用于多种数据处理需求,有利于将业务系统从搭建数据处理系统的劳动中解放出来,使得业务系统可以更加专注业务功能和性能本身,而且本实施例提供的数据处理方法更加专业,有利于提高数据处理效率和质量。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,方法也由不同设备作为执行主体。比如,步骤501至步骤504的执行主体可以为设备A;又比如,步骤501和502的执行主体可以为设备A,步骤503和504的执行主体可以为设备B;等等。
图8为本申请又一实施例提供的数据处理装置的结构示意图。如图8所示,装置包括:确定模块81和发送模块82。
确定模块81,用于确定目标处理逻辑,所述目标处理逻辑为待处理数据需要的处理逻辑。
发送模块82,用于将待处理数据发送至目标计算集群,以供目标计算集群处理待处理数据;其中,目标计算集群是提供不同处理逻辑的多个计算集群中提供目标处理逻辑的计算集群。
在一可选实施方式中,确定模块81具体用于:根据待处理数据所属业务系统的业务需求,确定目标处理逻辑。
进一步,确定模块81具体用于:在业务需求属于离线数据需求时,确定批量处理逻辑为目标处理逻辑。相应的,发送模块82具体用于:将待处理数据发送至多个计算集群中提供批量处理逻辑的第一计算集群。或者,确定模块81具体用于:在业务需求属于实时数据需求时,确定流式处理逻辑为目标处理逻辑。相应的,发送模块82具体用于:将待处理数据发送至多个计算集群中提供流式处理逻辑的第二计算集群。
在一可选实施方式中,多个计算集群包括提供批量处理逻辑的第一计算集群和/或提供流式处理逻辑的第二计算集群。
在一可选实施方式中,第一计算集群包括:对象存储节点、批量处理节点以及行式存储节点。如图9所示,所述装置还包括:第一控制模块83。
第一控制模块83,用于以全量备份的方式将待处理数据存储至对象存储节点,调度批量处理节点,以使批量处理节点对待处理数据进行批量处理,以及控制批量处理节点将批量处理结果写入行式存储节点。
在一可选实施方式中,第二计算集群包括:流式处理节点、缓存节点以及列式存储节点。基于此,如图9所示,所述装置还包括:第二控制模块84。
第二控制模块84,用于触发流式处理节点对待处理数据进行流式处理,并控制流式处理节点将流式处理结果写入缓存节点,以及从缓存节点中读取流式处理结果,并写入列式存储节点。
结合图1-图4b所示数据处理系统,本实施例中的确定模块81和发送模块82可作为服务节点的内部结构实现;相应的,第一控制模块83和第二控制模块84可作为控制节点的内部结构实现,但不限于此。
本实施例提供的数据处理装置,可用于执行上述方法实施例的流程和系统实施例中的逻辑,在此不再赘述。
本实施例提供的数据处理装置,通过多个计算集群提供不同的处理逻辑,通过确定多个计算集群中适于对待处理数据进行处理的计算集群,实现一种统一的数据处理方案,因为具有多个计算集群提供不同的处理逻辑,可以满足多种数据处理需求;另外,本实施例提供的数据处理装置,专注于数据处理,所提供的数据处理方案更加专业,有利于提高数据处理效率和质量,而且可以将业务系统从搭建数据处理系统的劳动中解放出来,使得业务系统可以更加专注业务功能和性能本身。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在所述计算机可读存储器中的指令产生包括指令装置的制造品,所述指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (28)

1.一种数据处理系统,其特征在于,包括:服务节点和提供不同处理逻辑的多个计算集群;
所述服务节点,用于确定目标处理逻辑,所述目标处理逻辑为待处理数据需要的处理逻辑,将所述待处理数据发送至目标计算集群,所述目标计算集群是所述多个计算集群中提供所述目标处理逻辑的计算集群;
所述目标计算集群,用于接收所述待处理数据,根据所述目标处理逻辑处理所述待处理数据,并以所述目标处理逻辑相匹配的存储方式存储处理结果。
2.根据权利要求1所述的系统,其特征在于,还包括:
控制节点,用于控制所述目标计算集群对所述待处理数据进行处理时的执行逻辑。
3.根据权利要求1所述的系统,其特征在于,所述多个计算集群包括:提供批量处理逻辑的第一计算集群和/或提供流式处理逻辑的第二计算集群。
4.根据权利要求1所述的系统,其特征在于,所述服务节点具体用于:
根据所述待处理数据所属业务系统的业务需求,确定所述目标处理逻辑,将所述待处理数据发送至所述目标计算集群。
5.根据权利要求4所述的系统,其特征在于,所述服务节点具体用于:
若所述业务需求属于离线数据需求,确定批量处理逻辑为所述目标处理逻辑,将所述待处理数据发送至所述多个计算集群中提供所述批量处理逻辑的第一计算集群。
6.根据权利要求4所述的系统,其特征在于,所述服务节点具体用于:
若所述业务需求属于实时数据需求,确定流式处理逻辑为所述目标处理逻辑,将所述待处理数据发送至所述多个计算集群中提供所述流式处理逻辑的第二计算集群。
7.根据权利要求3所述的系统,其特征在于,所述第一计算集群包括:对象存储节点、批量处理节点以及行式存储节点;
所述对象存储节点用于:根据控制节点的存储指令,以全量备份的方式存储所述服务节点发送的所述待处理数据;
所述批量处理节点用于:根据所述控制节点的调度,从所述对象存储节点中读取所述待处理数据,对所述待处理数据进行批量处理,将批量处理结果写入所述行式存储节点。
8.根据权利要求3所述的系统,其特征在于,所述第二计算集群包括:流式处理节点、缓存节点以及列式存储节点;
所述流式处理节点用于:接收所述服务节点发送的所述待处理数据,对所述待处理数据进行流式处理,并根据控制节点的缓存指令,将流式处理结果写入所述缓存节点;
所述缓存节点用于:缓存所述流式处理结果;
所述列式存储节点用于:存储所述控制节点从所述缓存节点读取并写入的所述流式处理结果。
9.根据权利要求8所述的系统,其特征在于,所述流式处理节点还用于:
在流式处理过程中根据预置规则实时侦测所述待处理数据体现的业务问题,并在侦测到所述业务问题时输出报警信息;和/或
将流式处理过程中的中间结果写入所述对象存储节点,以支持所述批量处理逻辑。
10.根据权利要求1-9任一项所述的系统,其特征在于,所述服务节点包括:部署于所述数据处理系统的服务模块和部署于业务系统的采集模块;
所述采集模块,用于采集所述业务系统产生的日志数据,将所述日志数作为所述待处理数据发送至所述服务模块;
所述服务模块,用于接收所述采集模块发送的所述待处理数据,确定所述目标处理逻辑,将所述待处理数据发送至所述目标计算集群。
11.根据权利要求10所述的系统,其特征在于,所述服务模块还用于:
在将所述待处理数据发送至所述目标计算集群之前,转换所述待处理数据的格式为预设的标准化格式。
12.一种数据处理方法,其特征在于,包括:
确定目标处理逻辑,所述目标处理逻辑为待处理数据需要的处理逻辑;
将所述待处理数据发送至目标计算集群,以供所述目标计算集群处理所述待处理数据;其中,所述目标计算集群是提供不同处理逻辑的多个计算集群中提供所述目标处理逻辑的计算集群。
13.根据权利要求12所述的方法,其特征在于,在确定所述目标处理逻辑之前,还包括:
采集业务系统产生的日志数据,作为所述待处理数据。
14.根据权利要求13所述的方法,其特征在于,在发送所述待处理数据之前,还包括:
转换所述待处理数据的格式为预设的标准化格式。
15.根据权利要求12-14任一项所述的方法,其特征在于,所述目标处理逻辑的确定步骤,包括:
根据所述待处理数据所属业务系统的业务需求,确定所述目标处理逻辑。
16.根据权利要求15所述的方法,其特征在于,所述目标处理逻辑的确定步骤,包括:
若所述业务需求属于离线数据需求,确定批量处理逻辑为所述目标处理逻辑;
所述待处理数据的发送步骤,包括:
将所述待处理数据发送至所述多个计算集群中提供所述批量处理逻辑的第一计算集群。
17.根据权利要求15所述的方法,其特征在于,所述目标处理逻辑的确定步骤,包括:
若所述业务需求属于实时数据需求,确定流式处理逻辑为所述目标处理逻辑;
所述待处理数据的发送步骤,包括:
将所述待处理数据发送至所述多个计算集群中提供所述流式处理逻辑的第二计算集群。
18.根据权利要求12-14任一项所述的方法,其特征在于,所述多个计算集群包括提供批量处理逻辑的第一计算集群和/或提供流式处理逻辑的第二计算集群。
19.根据权利要求18所述的方法,其特征在于,所述第一计算集群包括:对象存储节点、批量处理节点以及行式存储节点;
所述方法还包括:
以全量备份的方式将所述待处理数据存储至所述对象存储节点;
调度所述批量处理节点,以使所述批量处理节点对所述待处理数据进行批量处理;
控制所述批量处理节点将批量处理结果写入所述行式存储节点。
20.根据权利要求18所述的方法,其特征在于,所述第二计算集群包括:流式处理节点、缓存节点以及列式存储节点;
所述方法还包括:
触发所述流式处理节点对所述待处理数据进行流式处理;
控制所述流式处理节点将流式处理结果写入所述缓存节点;
从所述缓存节点中读取所述流式处理结果,并写入所述列式存储节点。
21.根据权利要求20所述的方法,其特征在于,还包括:
在流式处理过程中,根据预置规则实时侦测所述待处理数据体现的业务问题,并在侦测到所述业务问题时输出报警信息;和/或
将流式处理过程中的中间结果写入所述第一计算集群中的对象存储节点,以支持所述批量处理逻辑。
22.一种数据处理装置,其特征在于,包括:
确定模块,用于确定目标处理逻辑,所述目标处理逻辑为待处理数据需要的处理逻辑;
发送模块,用于将所述待处理数据发送至目标计算集群,以供所述目标计算集群处理所述待处理数据;其中,所述目标计算集群是提供不同处理逻辑的多个计算集群中提供所述目标处理逻辑的计算集群。
23.根据权利要求22所述的装置,其特征在于,所述确定模块具体用于:
根据所述待处理数据所属业务系统的业务需求,确定所述目标处理逻辑。
24.根据权利要求23所述的装置,其特征在于,所述确定模块具体用于:在所述业务需求属于离线数据需求时,确定批量处理逻辑为所述目标处理逻辑;
所述发送模块具体用于:将所述待处理数据发送至所述多个计算集群中提供所述批量处理逻辑的第一计算集群。
25.根据权利要求23所述的装置,其特征在于,所述确定模块具体用于:在所述业务需求属于实时数据需求时,确定流式处理逻辑为所述目标处理逻辑;
所述发送模块具体用于:将所述待处理数据发送至所述多个计算集群中提供所述流式处理逻辑的第二计算集群。
26.根据权利要求22所述的装置,其特征在于,所述多个计算集群包括提供批量处理逻辑的第一计算集群和/或提供流式处理逻辑的第二计算集群。
27.根据权利要求26所述的装置,其特征在于,所述第一计算集群包括:对象存储节点、批量处理节点以及行式存储节点;
所述装置还包括:
第一控制模块,用于以全量备份的方式将所述待处理数据存储至所述对象存储节点,调度所述批量处理节点,以使所述批量处理节点对所述待处理数据进行批量处理,以及控制所述批量处理节点将批量处理结果写入所述行式存储节点。
28.根据权利要求26所述的装置,其特征在于,所述第二计算集群包括:流式处理节点、缓存节点以及列式存储节点;
所述装置还包括:
第二控制模块,用于触发所述流式处理节点对所述待处理数据进行流式处理,并控制所述流式处理节点将流式处理结果写入所述缓存节点,以及从所述缓存节点中读取所述流式处理结果,并写入所述列式存储节点。
CN201611253749.2A 2016-12-23 2016-12-30 一种数据处理系统、方法及装置 Pending CN108241722A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2016112089373 2016-12-23
CN201611208937 2016-12-23

Publications (1)

Publication Number Publication Date
CN108241722A true CN108241722A (zh) 2018-07-03

Family

ID=62702873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611253749.2A Pending CN108241722A (zh) 2016-12-23 2016-12-30 一种数据处理系统、方法及装置

Country Status (1)

Country Link
CN (1) CN108241722A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635264A (zh) * 2018-11-29 2019-04-16 上海哔哩哔哩科技有限公司 游戏业务数据自动化统计方法、系统和存储介质
CN110166429A (zh) * 2019-04-12 2019-08-23 深圳壹账通智能科技有限公司 数据包处理方法、装置、计算机可读存储介质及服务器
CN110362622A (zh) * 2019-07-22 2019-10-22 江苏满运软件科技有限公司 基于实时数仓的实时流处理系统、方法、设备及存储介质
CN110688363A (zh) * 2019-09-02 2020-01-14 中国平安人寿保险股份有限公司 一种数据的标准化处理方法及系统、电子设备及存储介质
CN110795215A (zh) * 2018-08-01 2020-02-14 阿里巴巴集团控股有限公司 一种数据处理方法、计算机设备、存储介质
CN110874371A (zh) * 2018-08-31 2020-03-10 杭州海康威视数字技术股份有限公司 一种数据分析系统、方法及装置
CN110928578A (zh) * 2019-12-05 2020-03-27 潍柴动力股份有限公司 一种数据处理方法、装置及系统
CN111125072A (zh) * 2019-11-25 2020-05-08 金蝶软件(中国)有限公司 数据处理方法、erp系统、计算机设备及计算机存储介质
CN111767088A (zh) * 2020-06-22 2020-10-13 中国建设银行股份有限公司 业务处理方法、装置及电子设备
CN111782404A (zh) * 2020-07-21 2020-10-16 深圳市金蝶天燕云计算股份有限公司 一种数据处理方法及相关设备
CN111831713A (zh) * 2019-04-18 2020-10-27 阿里巴巴集团控股有限公司 一种数据处理方法、装置及设备
CN112035415A (zh) * 2020-08-28 2020-12-04 北京金山云网络技术有限公司 针对用户访问数据的处理系统、方法、设备及存储介质
CN112130987A (zh) * 2019-06-25 2020-12-25 杭州海康消防科技有限公司 数据处理方法、装置、主控芯片、从属芯片及系统
CN112486074A (zh) * 2020-12-03 2021-03-12 上海哔哩哔哩科技有限公司 数据处理系统、方法及装置
CN112860970A (zh) * 2021-03-02 2021-05-28 百度在线网络技术(北京)有限公司 一种数据处理方法、装置、电子设备及存储介质
CN112988374A (zh) * 2019-12-16 2021-06-18 阿里巴巴集团控股有限公司 一种数据处理方法、设备、系统及存储介质
CN113032135A (zh) * 2019-12-24 2021-06-25 北京初速度科技有限公司 一种地图生产系统及其方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104320460A (zh) * 2014-10-24 2015-01-28 西安未来国际信息股份有限公司 一种大数据处理方法
CN104468710A (zh) * 2014-10-31 2015-03-25 西安未来国际信息股份有限公司 一种混合大数据处理系统及处理方法
CN105224445A (zh) * 2015-10-28 2016-01-06 北京汇商融通信息技术有限公司 分布式跟踪系统
CN105516263A (zh) * 2015-11-28 2016-04-20 华为技术有限公司 存储系统中数据分发方法、装置、计算节点及存储系统
CN105677752A (zh) * 2015-12-30 2016-06-15 深圳先进技术研究院 一种流式计算和批处理计算相结合处理系统及方法
CN105893628A (zh) * 2016-05-17 2016-08-24 中国农业银行股份有限公司 一种数据实时收集系统及方法
CN106021484A (zh) * 2016-05-18 2016-10-12 中国电子科技集团公司第三十二研究所 基于内存计算的可定制多模式大数据处理系统
US20160308833A1 (en) * 2014-01-28 2016-10-20 Infoblox Inc. Platforms for implementing an analytics framework for dns security

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160308833A1 (en) * 2014-01-28 2016-10-20 Infoblox Inc. Platforms for implementing an analytics framework for dns security
CN104320460A (zh) * 2014-10-24 2015-01-28 西安未来国际信息股份有限公司 一种大数据处理方法
CN104468710A (zh) * 2014-10-31 2015-03-25 西安未来国际信息股份有限公司 一种混合大数据处理系统及处理方法
CN105224445A (zh) * 2015-10-28 2016-01-06 北京汇商融通信息技术有限公司 分布式跟踪系统
CN105516263A (zh) * 2015-11-28 2016-04-20 华为技术有限公司 存储系统中数据分发方法、装置、计算节点及存储系统
CN105677752A (zh) * 2015-12-30 2016-06-15 深圳先进技术研究院 一种流式计算和批处理计算相结合处理系统及方法
CN105893628A (zh) * 2016-05-17 2016-08-24 中国农业银行股份有限公司 一种数据实时收集系统及方法
CN106021484A (zh) * 2016-05-18 2016-10-12 中国电子科技集团公司第三十二研究所 基于内存计算的可定制多模式大数据处理系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
宋宇辰等: "《管理信息系统》", 31 October 2014 *
樊重俊等: "《数据库基础及应用》", 31 January 2015 *
谢小权等: "《大型信息系统信息安全工程与实践》", 31 December 2015 *
边馥苓等: "《时空大数据的技术与方法》", 31 May 2016 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795215A (zh) * 2018-08-01 2020-02-14 阿里巴巴集团控股有限公司 一种数据处理方法、计算机设备、存储介质
CN110874371A (zh) * 2018-08-31 2020-03-10 杭州海康威视数字技术股份有限公司 一种数据分析系统、方法及装置
CN109635264A (zh) * 2018-11-29 2019-04-16 上海哔哩哔哩科技有限公司 游戏业务数据自动化统计方法、系统和存储介质
CN110166429A (zh) * 2019-04-12 2019-08-23 深圳壹账通智能科技有限公司 数据包处理方法、装置、计算机可读存储介质及服务器
CN110166429B (zh) * 2019-04-12 2022-03-22 深圳壹账通智能科技有限公司 数据包处理方法、装置、计算机可读存储介质及服务器
CN111831713A (zh) * 2019-04-18 2020-10-27 阿里巴巴集团控股有限公司 一种数据处理方法、装置及设备
CN112130987A (zh) * 2019-06-25 2020-12-25 杭州海康消防科技有限公司 数据处理方法、装置、主控芯片、从属芯片及系统
CN110362622B (zh) * 2019-07-22 2022-06-10 江苏满运软件科技有限公司 基于实时数仓的实时流处理系统、方法、设备及存储介质
CN110362622A (zh) * 2019-07-22 2019-10-22 江苏满运软件科技有限公司 基于实时数仓的实时流处理系统、方法、设备及存储介质
CN110688363A (zh) * 2019-09-02 2020-01-14 中国平安人寿保险股份有限公司 一种数据的标准化处理方法及系统、电子设备及存储介质
CN110688363B (zh) * 2019-09-02 2023-07-21 中国平安人寿保险股份有限公司 一种数据的标准化处理方法及系统、电子设备及存储介质
CN111125072A (zh) * 2019-11-25 2020-05-08 金蝶软件(中国)有限公司 数据处理方法、erp系统、计算机设备及计算机存储介质
CN110928578A (zh) * 2019-12-05 2020-03-27 潍柴动力股份有限公司 一种数据处理方法、装置及系统
CN112988374A (zh) * 2019-12-16 2021-06-18 阿里巴巴集团控股有限公司 一种数据处理方法、设备、系统及存储介质
CN113032135A (zh) * 2019-12-24 2021-06-25 北京初速度科技有限公司 一种地图生产系统及其方法
CN111767088A (zh) * 2020-06-22 2020-10-13 中国建设银行股份有限公司 业务处理方法、装置及电子设备
CN111782404A (zh) * 2020-07-21 2020-10-16 深圳市金蝶天燕云计算股份有限公司 一种数据处理方法及相关设备
CN112035415A (zh) * 2020-08-28 2020-12-04 北京金山云网络技术有限公司 针对用户访问数据的处理系统、方法、设备及存储介质
CN112486074A (zh) * 2020-12-03 2021-03-12 上海哔哩哔哩科技有限公司 数据处理系统、方法及装置
CN112860970A (zh) * 2021-03-02 2021-05-28 百度在线网络技术(北京)有限公司 一种数据处理方法、装置、电子设备及存储介质
WO2022183644A1 (zh) * 2021-03-02 2022-09-09 百度在线网络技术(北京)有限公司 数据处理方法、装置、电子设备及存储介质
CN112860970B (zh) * 2021-03-02 2024-03-12 百度在线网络技术(北京)有限公司 一种数据处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108241722A (zh) 一种数据处理系统、方法及装置
CN105224445B (zh) 分布式跟踪系统
US10447772B2 (en) Managed function execution for processing data streams in real time
US10552761B2 (en) Non-intrusive fine-grained power monitoring of datacenters
US11379734B2 (en) Methods and systems for processing software traces
CN105074724B (zh) 使用列式数据库中的直方图进行有效查询处理
US20200382403A1 (en) Performance Monitoring in a Distributed Storage System
CN104113585B (zh) 用于产生指示负载平衡状态的硬件级中断的方法和设备
CN104541247B (zh) 用于调整云计算系统的系统和方法
CN105677836A (zh) 一种同时支持离线数据和实时在线数据的大数据处理解决系统
Sethi et al. RecShard: statistical feature-based memory optimization for industry-scale neural recommendation
US10411969B2 (en) Backend resource costs for online service offerings
CN103399797B (zh) 服务器资源配置方法及装置
CN103778017B (zh) 改进虚拟处理器调度的亲和性
CA2948700A1 (en) Systems and methods for websphere mq performance metrics analysis
CN103257923B (zh) 数据中心数据分析类基准测试程序的应用选取方法及系统
WO2010047170A1 (ja) 算出装置、システム管理装置、算出方法およびプログラム
CN103019855A (zh) MapReduce作业执行时间预测方法
US20210111974A1 (en) Methods and apparatus to monitor telemetry data associated with computing devices
FR3038405A1 (fr) Mecanisme d'ordonnancement de traitement par lot
US20120303325A1 (en) Inferring effects of configuration on performance
Wiedemann et al. Towards I/O analysis of HPC systems and a generic architecture to collect access patterns
US9380126B2 (en) Data collection and distribution management
Wesolowski et al. Datacenter-scale analysis and optimization of gpu machine learning workloads
CN112862013A (zh) 一种量化交易策略的问题诊断方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180703