CN108519914A - 大数据计算方法、系统和计算机设备 - Google Patents

大数据计算方法、系统和计算机设备 Download PDF

Info

Publication number
CN108519914A
CN108519914A CN201810310600.6A CN201810310600A CN108519914A CN 108519914 A CN108519914 A CN 108519914A CN 201810310600 A CN201810310600 A CN 201810310600A CN 108519914 A CN108519914 A CN 108519914A
Authority
CN
China
Prior art keywords
real
time
line calculation
data
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810310600.6A
Other languages
English (en)
Other versions
CN108519914B (zh
Inventor
王文植
付惠
岳磅
王文军
陈亮
韩亮
刘光华
吕泽立
党受辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810310600.6A priority Critical patent/CN108519914B/zh
Publication of CN108519914A publication Critical patent/CN108519914A/zh
Application granted granted Critical
Publication of CN108519914B publication Critical patent/CN108519914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/35Creation or generation of source code model driven

Abstract

本申请提供一种大数据计算方法、系统和计算机设备,上述大数据计算方法包括:获取源数据节点;获取根据源数据的数据格式和数据内容选择的实时计算节点和离线计算节点;加载实时计算逻辑和离线计算逻辑;生成实时计算任务,根据实时计算任务中的源数据进行计算,获得实时计算结果;以及生成离线计算任务,在到达调度时间之后,根据离线计算任务中的源数据和离线存储中的实时计算结果进行计算,获得离线计算结果。本申请可以屏蔽底层不同计算模式(实时和离线)的差异,简化大数据分布式计算框架原有复杂编程模型,使得用户可以依据实时和离线计算统一的SQL编程模型,自助化配置多级计算逻辑,大大降低了用户对大数据计算技术应用上的门槛。

Description

大数据计算方法、系统和计算机设备
技术领域
本申请涉及大数据计算技术领域,尤其涉及一种大数据计算方法、系统和计算机设备。
背景技术
现有相关技术中,大数据计算方案包括基于Lambda架构大数据计算方案和开源社区Apache Beam方案,其中,基于Lambda架构大数据计算方案,运行多种计算框架上,是整合实时和离线计算的一种方式,但是这种计算方案没有大数据统一计算模型,同一个处理逻辑用户需要在实时计算和离线计算分别编写和维护两套不同的代码,实现较复杂。
而开源社区Apache Beam方案在某一种计算框架上统一了实时和离线两种计算模式,在开源社区Apache Beam方案中,实时和离线计算只能同时在一个计算框架上运行,不支持垮不同框架计算,而且使用Apache Beam的统一编程模型需要具备一定大数据技术储备和高阶语言编程能力,在实现复杂计算逻辑时,对于用户来说成本较高。
发明内容
为克服相关技术中存在的问题,本申请提供一种大数据计算方法、系统和计算机设备。
本申请的实施例采用如下技术方案:
第一方面,本申请实施例提供一种大数据计算方法,包括:获取源数据节点,从所述源数据节点中获取待处理的源数据;获取所述源数据的数据格式和数据内容,以及获取根据所述源数据的数据格式和数据内容选择的实时计算节点和离线计算节点;加载所述实时计算节点上配置的实时计算逻辑和所述离线计算节点上配置的离线计算逻辑;根据所述实时计算逻辑生成实时计算任务,根据所述实时计算任务中的源数据进行计算,获得实时计算结果,并将所述实时计算结果同步到离线存储;以及根据所述离线计算逻辑生成离线计算任务,在到达所述离线计算任务的调度时间之后,根据所述离线计算任务中的源数据和所述离线存储中的实时计算结果进行计算,获得离线计算结果。
上述大数据计算方法中,获取源数据节点之后,从上述源数据节点中获取待处理的源数据,然后获取上述源数据的数据格式和数据内容,以及获取根据上述源数据的数据格式和数据内容选择的实时计算节点和离线计算节点;加载上述实时计算节点上配置的实时计算逻辑和上述离线计算节点上配置的离线计算逻辑,根据上述实时计算逻辑生成实时计算任务,根据实时计算任务中的源数据进行计算,获得实时计算结果,并将上述实时计算结果同步到离线存储;以及根据上述离线计算逻辑生成离线计算任务,在到达上述离线计算任务的调度时间之后,根据上述离线计算任务中的源数据和上述离线存储中的实时计算结果进行计算,获得离线计算结果,从而可以实现屏蔽底层不同计算模式(实时和离线)的差异,简化大数据分布式计算框架原有复杂编程模型,使得用户可以依据实时和离线计算统一的结构化查询语言(Structured Query Language;以下简称:SQL)编程模型,自助化配置实时计算、离线计算等多级计算逻辑,实现简单,大大降低了用户对大数据计算技术应用上的门槛。
第二方面,本申请实施例提供一种大数据计算系统,包括:大数据配置管理模块、任务调度器和大数据计算引擎,其中,所述大数据计算引擎包括实时计算引擎和离线计算引擎;所述大数据配置管理模块,用于获取源数据节点,从所述源数据节点中获取待处理的源数据,获取所述源数据的数据格式和数据内容,以及获取根据所述源数据的数据格式和数据内容选择的实时计算节点和离线计算节点;所述任务调度器,用于加载所述实时计算节点上配置的实时计算逻辑和所述离线计算节点上配置的离线计算逻辑;所述实时计算引擎,用于根据所述任务调度器加载的实时计算逻辑生成实时计算任务,将所述实时计算任务提交到实时计算集群,由所述实时计算集群根据所述实时计算任务中的源数据进行计算,获得实时计算结果,并将所述实时计算结果同步到离线存储;所述离线计算引擎,用于根据所述离线计算逻辑生成离线计算任务,并将所述离线计算任务注册到所述任务调度器;所述任务调度器,还用于在到达所述离线计算任务的调度时间之后,将所述离线计算任务提交到离线计算集群,由所述离线计算集群根据所述离线计算任务中的源数据和所述离线存储中的实时计算结果进行计算,获得离线计算结果。
上述大数据计算系统中,大数据配置管理模块获取源数据节点之后,从上述源数据节点中获取待处理的源数据,然后获取上述源数据的数据格式和数据内容,以及获取根据上述源数据的数据格式和数据内容选择的实时计算节点和离线计算节点;任务调度器加载上述实时计算节点上配置的实时计算逻辑和上述离线计算节点上配置的离线计算逻辑,实时计算引擎根据上述实时计算逻辑生成实时计算任务,根据实时计算任务中的源数据进行计算,获得实时计算结果,并将上述实时计算结果同步到离线存储;离线计算引擎根据上述离线计算逻辑生成离线计算任务,并将上述离线计算任务注册到上述任务调度器,在到达上述离线计算任务的调度时间之后,任务调度器将上述离线计算任务提交到离线计算集群,由上述离线计算集群根据上述离线计算任务中的源数据和上述离线存储中的实时计算结果进行计算,获得离线计算结果,从而可以实现屏蔽底层不同计算模式(实时和离线)的差异,简化大数据分布式计算框架原有复杂编程模型,使得用户可以依据实时和离线计算统一的SQL编程模型,自助化配置实时计算、离线计算等多级计算逻辑,实现简单,大大降低了用户对大数据计算技术应用上的门槛。
第三方面,本申请实施例提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的方法。
第四方面,本申请实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行如上所述的方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请大数据计算方法一个实施例的流程图;
图2为本申请大数据计算方法的应用场景一个实施例的示意图;
图3为本申请大数据计算系统一个实施例的结构示意图;
图4为本申请大数据计算系统的数据流图;
图5为本申请大数据计算系统中节点配置一个实施例的示意图;
图6为本申请大数据计算系统中大数据计算实例的计算时序图;
图7为本申请大数据计算方法和系统的相关运营数据的示意图;
图8为本申请游戏体验管理项的下载/更新成功率和错误率监控统计分析的示意图;
图9为本申请数据流监控一个实施例的示意图;
图10为本申请计算机设备一个实施例的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1为本申请大数据计算方法一个实施例的流程图,如图1所示,上述大数据计算方法可以包括:
步骤101,获取源数据节点,从上述源数据节点中获取待处理的源数据。
具体地,获取源数据节点可以为:获取通过图形拖拽选择的源数据节点。也就是说,本实施例中,用户可以在大数据配置管理页面中,通过拖拽源数据节点,来实现对源数据节点的选择,操作简单。
步骤102,获取上述源数据的数据格式和数据内容,以及获取根据上述源数据的数据格式和数据内容选择的实时计算节点和离线计算节点。
具体地,获取根据上述源数据的数据格式和数据内容选择的实时计算节点和离线计算节点可以为:获取根据上述源数据的数据格式和数据内容,通过图形拖拽选择的实时计算节点和离线计算节点。
同样,在大数据配置管理页面中,用户可以通过拖拽实现对实时计算节点和离线计算节点的选择,对于用户来说,易用性较高。
步骤103,加载上述实时计算节点上配置的实时计算逻辑和上述离线计算节点上配置的离线计算逻辑。
本实施例中,上述实时计算逻辑和上述离线计算逻辑是使用带有特殊处理函数的结构化查询语言(Blue King Structured Query Language;以下简称:BKSQL)配置的。
步骤104,根据上述实时计算逻辑生成实时计算任务,根据上述实时计算任务中的源数据进行计算,获得实时计算结果,并将上述实时计算结果同步到离线存储;以及根据上述离线计算逻辑生成离线计算任务,在到达上述离线计算任务的调度时间之后,根据上述离线计算任务中的源数据和上述离线存储中的实时计算结果进行计算,获得离线计算结果。
进一步地,在获得实时计算结果之后,还可以显示上述实时计算结果;以及在获得离线计算结果之后,还可以显示上述离线计算结果。
上述大数据计算方法中,获取源数据节点之后,从上述源数据节点中获取待处理的源数据,然后获取上述源数据的数据格式和数据内容,以及获取根据上述源数据的数据格式和数据内容选择的实时计算节点和离线计算节点;加载上述实时计算节点上配置的实时计算逻辑和上述离线计算节点上配置的离线计算逻辑,根据上述实时计算逻辑生成实时计算任务,根据实时计算任务中的源数据进行计算,获得实时计算结果,并将上述实时计算结果同步到离线存储;以及根据上述离线计算逻辑生成离线计算任务,在到达上述离线计算任务的调度时间之后,根据上述离线计算任务中的源数据和上述离线存储中的实时计算结果进行计算,获得离线计算结果,从而可以实现屏蔽底层不同计算模式(实时和离线)的差异,简化大数据分布式计算框架原有复杂编程模型,使得用户可以依据实时和离线计算统一的SQL编程模型,自助化配置实时计算、离线计算等多级计算逻辑,实现简单,大大降低了用户对大数据计算技术应用上的门槛。
本申请图1所示实施例提供的大数据计算方法中,用户使用标准的SQL和低门槛的图形拖拽就可以构建一个复杂的,多源的,多层级的混合计算逻辑,实时计算和离线计算用户只需要维护一套SQL数据处理逻辑,从而可以快速的构建基于大数据可视化分析和/或数据挖掘应用等智能化支撑工具,本申请实施例提供的大数据计算方法可以应用于图2所示的大数据服务拓扑架构中,图2为本申请大数据计算方法的应用场景一个实施例的示意图。
图3为本申请大数据计算系统一个实施例的结构示意图,本实施例中的大数据计算系统可以实现本申请实施例提供的大数据计算方法,如图3所示,上述大数据计算系统可以包括:大数据配置管理模块31、任务调度器32和大数据计算引擎33,其中,上述大数据计算引擎33可以包括实时计算引擎331和离线计算引擎332;
大数据计算引擎33主要负责生成计算任务实例程序并优化任务执行拓扑,当前仅支持流处理框架(Storm)和批处理框架(Spark)两个计算框架;当然本实施例并不仅限于此,上述Storm和Spark框架也可以替换为Flink和Heron等其他计算框架,本实施例对此不作限定。
任务调度器32负责调度和控制大数据的计算实例,一个大数据的计算实例可能被分解为一个或者多个实时计算任务和离线计算任务。
其中,大数据配置管理模块31,用于获取源数据节点,从上述源数据节点中获取待处理的源数据,获取上述源数据的数据格式和数据内容,以及获取根据上述源数据的数据格式和数据内容选择的实时计算节点和离线计算节点;
本实施例中,大数据配置管理模块31,具体用于获取通过图形拖拽选择的源数据节点,以及获取根据上述源数据的数据格式和数据内容,通过图形拖拽选择的实时计算节点和离线计算节点。
任务调度器32,用于加载上述实时计算节点上配置的实时计算逻辑和上述离线计算节点上配置的离线计算逻辑;
实时计算引擎331,用于根据任务调度器32加载的实时计算逻辑生成实时计算任务,将上述实时计算任务提交到实时计算集群,由上述实时计算集群根据上述实时计算任务中的源数据进行计算,获得实时计算结果,并将上述实时计算结果同步到离线存储;
离线计算引擎332,用于根据上述离线计算逻辑生成离线计算任务,并将上述离线计算任务注册到任务调度器32;
任务调度器32,还用于在到达上述离线计算任务的调度时间之后,将上述离线计算任务提交到离线计算集群,由所述离线计算集群根据上述离线计算任务中的源数据和上述离线存储中的实时计算结果进行计算,获得离线计算结果。
进一步地,大数据配置管理模块31,还用于在获得实时计算结果之后,显示上述实时计算结果;以及在获得离线计算结果之后,显示上述离线计算结果。
本实施例中,大数据配置管理模块31以网页(Web)的形式提供大数据计算节点配置管理,数据流的监控对账和任务运行状态,同时还带有在线实时任务调式等功能。
在具体实现时,用户可以在大数据配置管理模块31提供的Web中,通过拖拽源数据节点,来实现对源数据节点的选择,通过拖拽实现对实时计算节点和离线计算节点的选择,对于用户来说,易用性较高。
进一步地,上述大数据计算系统中还可以包括:SQL引擎34;
SQL引擎34,用于在上述实时计算节点上使用带有BKSQL配置实时计算逻辑,以及在上述离线计算节点上使用BKSQL配置离线计算逻辑。
SQL引擎34由两份组成:其中SQLParser分为四个环节语法解析、语义分析、语句优化、配置生成;另一份是用于适配底层不同计算引擎的Adapter层,目前支持三种引擎:Storm、Spark和数据库查询引擎。
图4为本申请大数据计算系统的数据流图,如图4所示,图3所示的大数据计算系统的数据流可以包括:
(1)在大数据配置管理模块31提供的Web中配置大数据的统一计算数据流,包括两个实时计算节点和两个离线计算节点,所有的实时计算节点会融合转为一个实时计算任务实例,每个离线计算节点单独转为一个离线计算任务实例。
进一步地,还可以在实时计算节点中使用BKSQL语言配置实时计算逻辑,在离线计算节点中使用BKSQL语言配置离线计算逻辑。
其中,上述配置的一个示例可以如图5所示,图5为本申请大数据计算系统中节点配置一个实施例的示意图。
(2)保存DataFlow配置,实时计算节点中的SQL配置会被解析并转化为一个实时计算任务(StormTopology)配置,两个离线计算节点中的SQL配置会被解析并转化为两个离线计算任务(SparkSQL)配置。
(3)启动大数据计算实例,任务调度器32会加载实时计算节点上已经生成的实时计算配置和离线计算节点上已经生成的离线计算配置。
(4)实时计算引擎(StormRunner)331根据实时计算配置生成实时计算任务(StormJob),离线计算引擎(SparkRunner)332根据离线计算配置生成离线计算任务(SparkJob)。
(5)实时计算任务被提交到实时计算集群(Storm计算集群)运行,并将实时计算结果输出到实时队列中。实时任务在生成时会经过实时计算引擎331进行拓扑优化,降低网络和中央处理单元(Central Process Unit;以下简称:CPU)等资源的开销,同时在数据流较大时,实时计算任务中的反压机制可以保证实时计算任务正常运行。
(6)实时队列里中的数据同步到离线存储,在数据同步中有一个哨兵机制,哨兵机制在发现实时数据乱序严重或者发生间断时,会通知离线计算任务进行补充计算,保证实时数据发生异常时不影响离线计算数据,实现两种计算模式之间的数据容错。
(7)离线计算任务(SparkJob)被离线注册到任务调度器(JobScheduler)32,等待周期调度,每次调度都有3次自动重试,支持不同周期的离线任务的重算。
(8)到达调度时间后,任务调度器32将离线计算任务提交到离线计算集群(Spark计算集群)上运行。
图6为本申请大数据计算系统中大数据计算实例的计算时序图,如图6所示,一个大数据计算实例的计算时序可以包括:
步骤1,用户登陆数据平台进入大数据配置管理模块31提供的大数据配置管理页面(DataFlow Web)。
步骤2,用户在DataFlow Web中创建一个新的大数据计算实例(DataFlow),包括DataFlow名字,归属项目等。
步骤3,在DataFlow Web中,通过拖拽源数据节点选择已经接入的源数据。
步骤4,返回源数据的数据格式和数据内容。
步骤5,在DataFlow Web中拖拽根据源数据的数据格式和数据内容选择的计算节点。
步骤6,在计算节点中使用BKSQL配置计算逻辑。
步骤7,语法验证通过,保存计算配置。
步骤8,启动DataFlow。
步骤9,触发大数据计算引擎(DataFlow Engine)33运行并生产计算任务实例。
步骤10,返回计算实例状态和数据流实时监控。
本申请实施例提供的大数据计算方法和系统,从游戏运维方的角度来看,可以为技术运维从平台化、自助化转向智能化提供技术支撑,简化运维工程获取和使用数据的成本,构建智能监控、智能扩缩容等数据应用,加速运维的智能化建设。
从应用场景来看,上述大数据计算方法和系统也可以应用到非运维领域,只需要对所应用的处理函数进行扩展,就可以支持金融计费等类似复杂事件处理(Complex EventProcessing;以下简称:CEP)的复杂事件处理场景。
图7为本申请大数据计算方法和系统的相关运营数据的示意图,如图7所示,目前已经有329个业务使用本申请实施例提供的大数据计算方法和系统,构建了2118个项目,数据量每秒40万+条,每秒处理330亿+条数据,孵化出了智能监控、智能扩缩容等70多个智能化运维应用。
以游戏体验管理项目中“游戏下载/更新成功率和错误率的监控统计”使用本申请实施例提供的大数据计算方法和系统的实例,游戏的下载或更新有两个数据来源腾讯游戏平台(TGP)和腾讯统一登录平台(TCLS),用户需要将两份数据先汇聚并进行实时数据清洗,将不同字段统一化,再按照小时维度进行离线统计和监控,如图8所示,其中涉及多数据源计算、多级实时和离线混合计算,图8为本申请游戏体验管理项的下载/更新成功率和错误率监控统计分析的示意图。
图9为本申请数据流监控一个实施例的示意图,如图9所示,通过“实时监控眼”开启本申请实施例提供的大数据系统中的数据流监控功能,可以看到实时计算节点每个节点的输入和输出流量,相邻的两个节点可以进行数据对账,离线计算节点会显示最新的调度状态。
地下城与勇士(DNF游戏)中使用本申请实施例提供的大数据计算方法和系统中的BKSQL实现“下载礼包数据分析”,地下城与勇士(DNF游戏)中使用的大数据计算系统包括一个下载礼包的数据源,一个实时数据清洗转化的实时计算节点,以及两个分别按小时和天统计数据的离线计算节点,每个计算节点都是有SQL和属性配置,支持标准SQL-92语法,如图5所示,地下城与勇士(DNF游戏)中使用的大数据计算系统可以基于iPackageId维度进行聚合计算,计算窗口为1小时,延时1小时计算。
图10为本申请计算机设备一个实施例的结构示意图,本实施例中的计算机设备可以包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时,可以实现本申请实施例提供的大数据计算方法。
具体地,本申请实施例提供的计算机设备可以搭载本申请图3所示的大数据计算系统,实现本申请图1所示实施例提供的大数据计算方法。
其中,上述计算机设备可以为服务器,例如:云端服务器;也可以为智能手机、平板电脑或智能手表等智能终端设备,本实施例对上述计算机设备的形态不作限定。
图10示出了适于用来实现本申请实施方式的示例性计算机设备12的框图。图10显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图10未显示,通常称为“硬盘驱动器”)。尽管图10中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc ReadOnly Memory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图10所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图10中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例提供的大数据计算方法。
本申请实施例还提供一种非临时性计算机可读存储介质,当上述存储介质中的计算机可执行指令在由计算机处理器执行时,用于执行本申请实施例提供的大数据计算方法。
上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network;以下简称:LAN)或广域网(Wide Area Network;以下简称:WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本申请实施例还提供一种计算机程序产品,当上述计算机程序产品中的指令由处理器执行时,执行本申请实施例提供的大数据计算方法。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种大数据计算方法,其特征在于,包括:
获取源数据节点,从所述源数据节点中获取待处理的源数据;
获取所述源数据的数据格式和数据内容,以及获取根据所述源数据的数据格式和数据内容选择的实时计算节点和离线计算节点;
加载所述实时计算节点上配置的实时计算逻辑和所述离线计算节点上配置的离线计算逻辑;
根据所述实时计算逻辑生成实时计算任务,根据所述实时计算任务中的源数据进行计算,获得实时计算结果,并将所述实时计算结果同步到离线存储;以及根据所述离线计算逻辑生成离线计算任务,在到达所述离线计算任务的调度时间之后,根据所述离线计算任务中的源数据和所述离线存储中的实时计算结果进行计算,获得离线计算结果。
2.根据权利要求1所述的方法,其特征在于,还包括:
在所述获得实时计算结果之后,显示所述实时计算结果;以及在所述获得离线计算结果之后,显示所述离线计算结果。
3.根据权利要求1所述的方法,其特征在于,所述实时计算逻辑和所述离线计算逻辑是使用带有特殊处理函数的结构化查询语言配置的。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述获取源数据节点包括:
获取通过图形拖拽选择的源数据节点;
所述获取根据所述源数据的数据格式和数据内容选择的实时计算节点和离线计算节点包括:
获取根据所述源数据的数据格式和数据内容,通过图形拖拽选择的实时计算节点和离线计算节点。
5.一种大数据计算系统,其特征在于,包括:大数据配置管理模块、任务调度器和大数据计算引擎,其中,所述大数据计算引擎包括实时计算引擎和离线计算引擎;
所述大数据配置管理模块,用于获取源数据节点,从所述源数据节点中获取待处理的源数据,获取所述源数据的数据格式和数据内容,以及获取根据所述源数据的数据格式和数据内容选择的实时计算节点和离线计算节点;
所述任务调度器,用于加载所述实时计算节点上配置的实时计算逻辑和所述离线计算节点上配置的离线计算逻辑;
所述实时计算引擎,用于根据所述任务调度器加载的实时计算逻辑生成实时计算任务,将所述实时计算任务提交到实时计算集群,由所述实时计算集群根据所述实时计算任务中的源数据进行计算,获得实时计算结果,并将所述实时计算结果同步到离线存储;
所述离线计算引擎,用于根据所述离线计算逻辑生成离线计算任务,并将所述离线计算任务注册到所述任务调度器;
所述任务调度器,还用于在到达所述离线计算任务的调度时间之后,将所述离线计算任务提交到离线计算集群,由所述离线计算集群根据所述离线计算任务中的源数据和所述离线存储中的实时计算结果进行计算,获得离线计算结果。
6.根据权利要求5所述的系统,其特征在于,
所述大数据配置管理模块,还用于在所述获得实时计算结果之后,显示所述实时计算结果;以及在所述获得离线计算结果之后,显示所述离线计算结果。
7.根据权利要求5所述的系统,其特征在于,还包括:
结构化查询语言引擎,用于在所述实时计算节点上使用带有特殊处理函数的结构化查询语言配置实时计算逻辑,以及在所述离线计算节点上使用带有特殊处理函数的结构化查询语言配置离线计算逻辑。
8.根据权利要求5-7任意一项所述的系统,其特征在于,
所述大数据配置管理模块,具体用于获取通过图形拖拽选择的源数据节点,以及获取根据所述源数据的数据格式和数据内容,通过图形拖拽选择的实时计算节点和离线计算节点。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-4中任一所述的方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一所述的方法。
CN201810310600.6A 2018-04-09 2018-04-09 大数据计算方法、系统和计算机设备 Active CN108519914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810310600.6A CN108519914B (zh) 2018-04-09 2018-04-09 大数据计算方法、系统和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810310600.6A CN108519914B (zh) 2018-04-09 2018-04-09 大数据计算方法、系统和计算机设备

Publications (2)

Publication Number Publication Date
CN108519914A true CN108519914A (zh) 2018-09-11
CN108519914B CN108519914B (zh) 2021-10-26

Family

ID=63432222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810310600.6A Active CN108519914B (zh) 2018-04-09 2018-04-09 大数据计算方法、系统和计算机设备

Country Status (1)

Country Link
CN (1) CN108519914B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145055A (zh) * 2018-09-07 2019-01-04 杭州玳数科技有限公司 一种基于Flink的数据同步方法和系统
CN109522742A (zh) * 2018-10-26 2019-03-26 贵州斯曼特信息技术开发有限责任公司 一种计算机大数据的批处理方法
CN109597842A (zh) * 2018-12-14 2019-04-09 深圳前海微众银行股份有限公司 数据实时计算方法、装置、设备及计算机可读存储介质
CN110502579A (zh) * 2019-08-26 2019-11-26 第四范式(北京)技术有限公司 用于批量和实时特征计算的系统和方法
CN110704749A (zh) * 2019-10-16 2020-01-17 网易(杭州)网络有限公司 推荐引擎定制系统、推荐方法及推荐系统、电子设备
CN110851514A (zh) * 2019-10-17 2020-02-28 杭州安恒信息技术股份有限公司 基于flink的etl处理方法
CN110851464A (zh) * 2019-11-11 2020-02-28 广州及包子信息技术咨询服务有限公司 数据质量治理方法及系统
CN111221842A (zh) * 2018-11-27 2020-06-02 北京奇虎科技有限公司 大数据处理系统及方法
CN111221841A (zh) * 2018-11-27 2020-06-02 北京奇虎科技有限公司 基于大数据的实时处理方法及装置
CN111309751A (zh) * 2018-11-27 2020-06-19 北京奇虎科技有限公司 大数据处理方法及装置
CN111813767A (zh) * 2020-06-30 2020-10-23 北京玩在一起科技有限公司 一种电竞赛事数据的处理方法及系统
CN112148779A (zh) * 2019-06-28 2020-12-29 京东数字科技控股有限公司 确定业务指标的方法、装置及存储介质
CN112507029A (zh) * 2020-12-18 2021-03-16 上海哔哩哔哩科技有限公司 数据处理系统及数据实时处理方法
CN112884537A (zh) * 2019-11-29 2021-06-01 北京沃东天骏信息技术有限公司 数据处理方法、装置、设备和计算机可读介质
CN113268505A (zh) * 2021-04-29 2021-08-17 广东海洋大学 一种多源多模态海洋大数据的离线批处理方法及系统
CN114764417A (zh) * 2022-06-13 2022-07-19 深圳致星科技有限公司 隐私计算、隐私数据及联邦学习的分散式处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441580A (zh) * 2008-12-09 2009-05-27 华北电网有限公司 分布式并行计算平台系统及其计算任务分配方法
CN102316169A (zh) * 2011-09-29 2012-01-11 北京邮电大学 一种实现快速业务聚合的方法及通用业务平台
CN104021460A (zh) * 2014-06-27 2014-09-03 北京太格时代自动化系统设备有限公司 一种工作流程管理系统及工作流程处理方法
CN105677836A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 一种同时支持离线数据和实时在线数据的大数据处理解决系统
CN107016133A (zh) * 2017-05-24 2017-08-04 成都享之道网络科技有限公司 基于在线与离线双处理的大数据系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441580A (zh) * 2008-12-09 2009-05-27 华北电网有限公司 分布式并行计算平台系统及其计算任务分配方法
CN102316169A (zh) * 2011-09-29 2012-01-11 北京邮电大学 一种实现快速业务聚合的方法及通用业务平台
CN104021460A (zh) * 2014-06-27 2014-09-03 北京太格时代自动化系统设备有限公司 一种工作流程管理系统及工作流程处理方法
CN105677836A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 一种同时支持离线数据和实时在线数据的大数据处理解决系统
CN107016133A (zh) * 2017-05-24 2017-08-04 成都享之道网络科技有限公司 基于在线与离线双处理的大数据系统

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145055A (zh) * 2018-09-07 2019-01-04 杭州玳数科技有限公司 一种基于Flink的数据同步方法和系统
CN109145055B (zh) * 2018-09-07 2020-10-30 杭州玳数科技有限公司 一种基于Flink的数据同步方法和系统
CN109522742A (zh) * 2018-10-26 2019-03-26 贵州斯曼特信息技术开发有限责任公司 一种计算机大数据的批处理方法
CN111309751A (zh) * 2018-11-27 2020-06-19 北京奇虎科技有限公司 大数据处理方法及装置
CN111221842A (zh) * 2018-11-27 2020-06-02 北京奇虎科技有限公司 大数据处理系统及方法
CN111221841A (zh) * 2018-11-27 2020-06-02 北京奇虎科技有限公司 基于大数据的实时处理方法及装置
CN109597842A (zh) * 2018-12-14 2019-04-09 深圳前海微众银行股份有限公司 数据实时计算方法、装置、设备及计算机可读存储介质
CN112148779A (zh) * 2019-06-28 2020-12-29 京东数字科技控股有限公司 确定业务指标的方法、装置及存储介质
CN110502579A (zh) * 2019-08-26 2019-11-26 第四范式(北京)技术有限公司 用于批量和实时特征计算的系统和方法
US11971882B2 (en) 2019-08-26 2024-04-30 The Fourth Paradigm (Beijing) Tech Co Ltd System and method for batch and real-time feature computation
CN110704749A (zh) * 2019-10-16 2020-01-17 网易(杭州)网络有限公司 推荐引擎定制系统、推荐方法及推荐系统、电子设备
CN110704749B (zh) * 2019-10-16 2022-07-12 网易(杭州)网络有限公司 推荐引擎定制系统、推荐方法及推荐系统、电子设备
CN110851514A (zh) * 2019-10-17 2020-02-28 杭州安恒信息技术股份有限公司 基于flink的etl处理方法
CN110851514B (zh) * 2019-10-17 2022-10-21 杭州安恒信息技术股份有限公司 基于flink的etl处理方法
CN110851464A (zh) * 2019-11-11 2020-02-28 广州及包子信息技术咨询服务有限公司 数据质量治理方法及系统
CN110851464B (zh) * 2019-11-11 2023-10-27 广州及包子信息技术咨询服务有限公司 数据质量治理方法及系统
CN112884537A (zh) * 2019-11-29 2021-06-01 北京沃东天骏信息技术有限公司 数据处理方法、装置、设备和计算机可读介质
CN111813767A (zh) * 2020-06-30 2020-10-23 北京玩在一起科技有限公司 一种电竞赛事数据的处理方法及系统
CN112507029A (zh) * 2020-12-18 2021-03-16 上海哔哩哔哩科技有限公司 数据处理系统及数据实时处理方法
CN112507029B (zh) * 2020-12-18 2022-11-04 上海哔哩哔哩科技有限公司 数据处理系统及数据实时处理方法
CN113268505A (zh) * 2021-04-29 2021-08-17 广东海洋大学 一种多源多模态海洋大数据的离线批处理方法及系统
CN113268505B (zh) * 2021-04-29 2021-11-30 广东海洋大学 一种多源多模态海洋大数据的离线批处理方法及系统
CN114764417A (zh) * 2022-06-13 2022-07-19 深圳致星科技有限公司 隐私计算、隐私数据及联邦学习的分散式处理方法及装置
CN114764417B (zh) * 2022-06-13 2022-08-26 深圳致星科技有限公司 隐私计算、隐私数据及联邦学习的分散式处理方法及装置

Also Published As

Publication number Publication date
CN108519914B (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN108519914A (zh) 大数据计算方法、系统和计算机设备
US10833928B1 (en) Exchanging information among system middleware and models
CN102349056B (zh) 动态组合数据流处理应用程序
US8688749B1 (en) Cross-ontology multi-master replication
CN107918600A (zh) 报表开发系统及方法、存储介质和电子设备
CN113115241A (zh) 一种基于工业大脑的工业互联网系统
CN107077466A (zh) 计算机自然语言处理中通用本体的词元映射
CA2386272A1 (en) Collaborative design
CN110289058A (zh) 一种电子病历规范化匹配方法以及装置
CN109783091A (zh) 一种模型驱动的软件构建方法及系统
US11397620B2 (en) Deployment of event-driven application in an IoT environment
CN107733696A (zh) 一种机器学习和人工智能应用一体机部署方法
Rahman et al. Fog‐based semantic model for supporting interoperability in IoT
CN112653703A (zh) 一种基于边缘计算的多医疗协议转换解析方法和系统
CN116340413A (zh) 一种物联网边缘端数据采集与存储方法
CN116341563A (zh) 包括粗略语义解析器和精细语义解析器的改进语义解析器
Gupta et al. Patient health monitoring using feed forward neural network with cloud based internet of things
US11460973B1 (en) User interfaces for converting node-link data into audio outputs
Abdulrazak et al. IoT Architecture with Plug and Play for fast deployment and system reliability: AMI Platform
CN105051718B (zh) 用于监视-挖掘-管理循环的方法和系统
Ottolini et al. Interoperability and scalability trade-offs in open iot platforms
CN109165261A (zh) 数据同步方法、装置、服务器及计算机存储介质
CN116646087A (zh) 一种房颤患者心血管事件风险评估动态随诊系统
de Souza et al. Ontology-driven IoT system for monitoring hypertension
Marosi et al. Toward reference architectures: A cloud-agnostic data analytics platform empowering autonomous systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant