CN111061799A - 分布式大数据处理系统 - Google Patents

分布式大数据处理系统 Download PDF

Info

Publication number
CN111061799A
CN111061799A CN201911334100.7A CN201911334100A CN111061799A CN 111061799 A CN111061799 A CN 111061799A CN 201911334100 A CN201911334100 A CN 201911334100A CN 111061799 A CN111061799 A CN 111061799A
Authority
CN
China
Prior art keywords
calculation
module
computer
computing
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911334100.7A
Other languages
English (en)
Inventor
崔晶晶
段国伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jeo Polymerization Beijing Artificial Intelligence Technology Co ltd
Original Assignee
Jeo Polymerization Beijing Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jeo Polymerization Beijing Artificial Intelligence Technology Co ltd filed Critical Jeo Polymerization Beijing Artificial Intelligence Technology Co ltd
Priority to CN201911334100.7A priority Critical patent/CN111061799A/zh
Publication of CN111061799A publication Critical patent/CN111061799A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例提供一种分布式大数据处理系统,包括:缓存组件,用于接收并保存至少一个数据接口发送的目标数据;计算模块,用于接收所述缓存组件发送的所述目标数据,并生成一计算任务,根据预设计算模型和预设时间窗口执行所述计算任务;存储模块,用于接收并保存所述计算模块发送的所述计算任务的计算结果;本申请能够有效结合流计算和离线计算各自的性能优势,实现低延迟和实时计算与存储,极大提高了平台的计算能力,实现了运算能力的最大化。

Description

分布式大数据处理系统
技术领域
本申请涉及数据处理领域,具体涉及一种分布式大数据处理系统。
背景技术
当今社会,我们已经身处大数据时代,社会的各项活动中无时无刻都在产生着数据。通过一些技术手段,我们可以将产生的数据存储起来加以分析并被自己利用。以前,我们通常使用离线计算来处理数据,即数据是存储好的,我们可以对存储好的数据进行加工、计算,这种数据处理方式叫做离线计算,离线计算的特点是运算时间较长、吞吐数据量大。但是,目前各个数据分析系统对信息高时效性、可操作性的需求正在不断增长,从数据产生到数据存储,这中间有一定的时间延迟,也就是说已经产生的数据无法既时地流转到存储体统,例如:需要实时监测异常行为的欺诈/风控系统,需要实时查看交易额的证券交易系统,需要实时计算点击/分成的广告系统,还有实时更新用户标签的实时用户画像系统,这部分时间延迟对各个数据分析系统有着非常大的影响,处理不及时就会造成严重的经济损失。
发明内容
针对现有技术中的问题,本申请提供一种分布式大数据处理系统,能够有效结合流计算和离线计算各自的性能优势,实现低延迟和实时计算与存储,极大提高了平台的计算能力,实现了运算能力的最大化。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种进一步地,包括:
缓存组件,用于接收并保存至少一个数据接口发送的目标数据;
计算模块,用于接收所述缓存组件发送的所述目标数据,并生成一计算任务,根据预设计算模型和预设时间窗口执行所述计算任务;
存储模块,用于接收并保存所述计算模块发送的所述计算任务的计算结果。
进一步地,所述计算模块还可直接接收所述数据接口发送的所述目标数据,并根据预设计算模型和预设时间窗口对所述目标数据进行计算。
进一步地,还包括定义模块,所述定义模块用于接收用户自定义的计算模型和时间窗口,并将所述计算模块和所述时间窗口发送至所述计算模块,以使所述计算模块能够根据所述计算模型和所述时间窗口对所述目标数据进行计算。
进一步地,还包括协调组件,所述协调组件分别与所述数据接口、缓存组件、计算模块连接,所述协调组件用于灵活配置数据接口优先顺序,是否缓存、缓存条数,起协调、配置作用,通过该模板可灵活配置,系统根据该模块实现自动计算、存储功能。
进一步地,所述存储模块包含有MySql、Oracle、DB2中的至少一种数据库。
进一步地,还包括分布式运算模块,所述分布式运算模块用于将所述计算模块的所述计算任务进行分布式运算。
进一步地,所述分布式运算模块包括由多个计算型计算机和至少一个统计型计算机组成的计算机组网,所述计算型计算机用于接收所述计算任务并进行计算处理,所述统计型计算机用于接收并统计所述计算处理的计算结果。
进一步地,所述分布式运算模块还包括总计算机,所述总计算机与各所述统计型计算机连接,所述总计算机用于对各统计型计算机统计的计算结果进行汇总处理。
第二方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行上述分布式大数据处理系统上运行的程序。
第三方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序为被处理器执行的上述分布式大数据处理系统上运行的程序。
由上述技术方案可知,本申请提供一种分布式大数据处理系统,通过设置缓存组件,以接收并保存至少一个数据接口发送的目标数据;通过设置计算模块,以接收所述缓存组件发送的所述目标数据,并生成一计算任务,根据预设计算模型和预设时间窗口执行所述计算任务;在通过设置存储模块,以接收并保存所述计算模块发送的所述计算任务的计算结果,本申请能够有效结合流计算和离线计算各自的性能优势,实现低延迟和实时计算与存储,极大提高了平台的计算能力,实现了运算能力的最大化。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的分布式大数据处理系统的结构图之一;
图2为本申请实施例中的分布式大数据处理系统的结构图之二;
图3为本申请实施例中的分布式计算模块示意图;
图4为本申请实施例中的时间窗格示意图;
图5为本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有技术中运算时间长、吞吐数据量大且可操作性差的问题,本申请提供一种分布式大数据处理系统,通过设置缓存组件,以接收并保存至少一个数据接口发送的目标数据;通过设置计算模块,以接收所述缓存组件发送的所述目标数据,并生成一计算任务,根据预设计算模型和预设时间窗口执行所述计算任务;在通过设置存储模块,以接收并保存所述计算模块发送的所述计算任务的计算结果,本申请能够有效结合流计算和离线计算各自的性能优势,实现低延迟和实时计算与存储,极大提高了平台的计算能力,实现了运算能力的最大化。
为了能够有效结合流计算和离线计算各自的性能优势,实现低延迟和实时计算与存储,提高平台的计算能力,实现运算能力的最大化,本申请提供一种分布式大数据处理系统方法的实施例,参见图1至图4,所述分布式大数据处理系统具体包含有如下内容:
缓存组件,用于接收并保存至少一个数据接口发送的目标数据。
计算模块,用于接收所述缓存组件发送的所述目标数据,并生成一计算任务,根据预设计算模型和预设时间窗口执行所述计算任务。
存储模块,用于接收并保存所述计算模块发送的所述计算任务的计算结果。
从上述描述可知,本申请实施例提供的分布式大数据处理系统,能够通过设置缓存组件,以接收并保存至少一个数据接口发送的目标数据;通过设置计算模块,以接收所述缓存组件发送的所述目标数据,并生成一计算任务,根据预设计算模型和预设时间窗口执行所述计算任务;在通过设置存储模块,以接收并保存所述计算模块发送的所述计算任务的计算结果,本申请能够有效结合流计算和离线计算各自的性能优势,实现低延迟和实时计算与存储,极大提高了平台的计算能力,实现了运算能力的最大化。
可以理解的是,离线计算是将已经存储的数据进行计算,优点是能实现大量数据的分析、吞吐和挖掘,并且输出计算结果,目前离线计算比较流行的开源框架是ApacheHadoop,这是一种专门针对离线计算的处理框架,其主要组件有HDFS(一种分布式文件系统层)和MapReduce(原生批处理引擎),适合处理固态的、对时间要求不高、规模巨大的数据。目前,离线计算面临的问题是,用户在使用软件时,不能按照自己的需求对离线计算的周期、计算内容有所调整,灵活性不强,这为本申请提供了设计方向。
可以理解的是,流计算进行最新数据的实时分析,其优点是时间延迟小,能够对新产生的数据进行分析。目前数据流计算应用到的技术框架有Apache Storm、SparkStreaming和Apache Flink。Apache Storm是一种侧重于极低延迟的流处理框架,其延迟可以控制在毫秒级别;Spark Streaming框架处理性能高,但是延迟相对来说比较长;而Apache Flink是一种基于Java代码实现的流处理框架,其最大的特点是会把所有任务当成流来处理,所以Apache Flink同时具有高性能和低延迟的特点。因此本申请采用ApacheFlink流处理框架进行开发。Apache Flink具有开源的流处理框架。目前流计算面临的问题是,即便有开源框架,其在实现低延迟、高性能方面仍然需要大量的技术选型和二次开发工作。
可以理解的是,通过离线计算与流计算相结合无疑是一种有效、全面的大数据处理方法,除了在两者结合和开发过程中会遇到一些技术上的挑战,在实施过程也会面临一些业务计算的需求:
1.数据接口,分布在全网的数据采集节点越来越多,需要将不同数据采集到一起进行分析,并降低数据无疑增加了数据分析的难度。
2.流计算重在计算,然而计算模型多种多样,包括:支持计数、求和、平均、最大、最小、方差、标准差、K阶中心矩、连续、递增/递减、最大连续递增/递减、唯一性判别、采集、过滤、排序等,目前大多数申请技术只支持简单的计数、求和、最大、最小等计算模型,将众多计算模型融合到本申请中也是本申请开发的一个难点。
3.自定义流计算窗格大小,如图4所示,我们需要实时计算的往往是一个时间段内的数据,即图中虚线框代表数据窗格内的数据,小黑点代表随时产生的数据,流计算目前在处理这种实时数据面临的困难是,很难支持结果随系统时间移动而实时变动的功能,也无法任意定义数据窗格的大小。
4.BI报表,通过数据线上实时处理分析、数据挖掘进行分析以实现商业价值。
5.业务缓存,技术上通过业务缓存可以提升数据流通的效率。
6.分布式计算,通过分布式的管理方式将数据计算工作分布到各个计算机,以实现计算能力的最大化,分布式计算目前有一个开源架构Hadoop,是基于MapReduce和HDFS来设计的,但即便有开源的框架,想真正实现分布式计算在开发上还是有很大难度的。
7.调度管理,协调缓存组件与计算组件的关系,使数据在流转过程中更加高效和流畅。
8.加密算法,增加数据在传输过程中的安全性。
在本申请的可选实施例中,所述计算模块还可直接接收所述数据接口发送的所述目标数据,并根据预设计算模型和预设时间窗口对所述目标数据进行计算。
在本申请的可选实施例中,还包括定义模块,所述定义模块用于接收用户自定义的计算模型和时间窗口,并将所述计算模块和所述时间窗口发送至所述计算模块,以使所述计算模块能够根据所述计算模型和所述时间窗口对所述目标数据进行计算。
在本申请的可选实施例中,还包括协调组件,所述协调组件分别与所述数据接口、缓存组件、计算模块连接,所述协调组件用于灵活配置数据接口优先顺序,是否缓存、缓存条数,起协调、配置作用,通过该模板可灵活配置,系统根据该模块实现自动计算、存储功能。
在本申请的可选实施例中,所述存储模块包含有MySql、Oracle、DB2中的至少一种数据库。
在本申请的可选实施例中,还包括分布式运算模块,所述分布式运算模块用于将所述计算模块的所述计算任务进行分布式运算。
在本申请的可选实施例中,所述分布式运算模块包括由多个计算型计算机和至少一个统计型计算机组成的计算机组网,所述计算型计算机用于接收所述计算任务并进行计算处理,所述统计型计算机用于接收并统计所述计算处理的计算结果。
在本申请的可选实施例中,所述分布式运算模块还包括总计算机,所述总计算机与各所述统计型计算机连接,所述总计算机用于对各统计型计算机统计的计算结果进行汇总处理。
为了更进一步说明本方案,本申请还提供一种应用上述分布式大数据处理系统的具体应用实例,参见图1,具体包含有如下内容:
步骤1,本申请可以通过一个或者多个数据接口将数据保存在缓存组件。
步骤2,保存在缓存组件的数据可以实现30天的数据缓存,以便于企业用户在一定时间段内通过缓存组件调取原始数据。
步骤3,数据通过缓存组件流向计算模块进行计算。
步骤4,企业用户可以通过定义任务模块1向计算模块进行运算定义,确定计算模型和设置实时计算的时间窗格。
步骤5,协调组件可以在数据接口、缓存组件、计算组件间进行协调,将复杂易出错的服务封装好,既而为企业用户提供高效、稳定的服务。
步骤6,计算组件通过定义模块1的计算定义,将计算结果传送至存储模块进行存储。
步骤7,通过定义模块2向计算模块进行计算定义输出,根据定义,计算模块定时向存储模块进行数据计算,并将计算结果返回到存储模块进行存储。
可选地,数据接口、缓存组件、计算组件、定义模块1,共同构成了流计算部分,流计算技术kafka负责消息推送,fink负责实时计算,redis负责将计算后的结果存储。本申请在执行流计算时,如图2所示,数据不经过缓存模块,直接进入计算模块。
可选地,计算模块、定义模块2、存储模块,共同构成了离线计算部分,离线计算部分采用MySql、Oracle、DB2等数据库负责存储,此数据库有灵活性强,传输速度高等特点。
可选地,参见图3,将流计算和离线计算进行分布式运算,充分利用广大计算机的闲置计算能力,将流计算和离线计算的计算任务分布到各个计算机,减少对超级计算机的需求,实现运算能力的最大化。
具体地,首先,将总任务平均拆分给计算型计算机,同时总任务可以拆分成三类任务,如图任务类1、任务类2、任务类3,计算型计算机将各个任务结果进行编码输出,然后统计型计算机将各个任务结果进行统计,最终由总计算机进行总任务结果的汇总。
其中,在定义模块1部分,通过企业用户操作可以实现预警功能,企业用户可以设置阈值,超出阈值范围,本申请即可通过向指定邮箱发送邮件达到预警的效果;同时通过定义模块1,企业用户可以控制计算窗格的大小。
最后,企业用户可以根据自己的定制,利用现有数据输出实时BI报表输出。
由上述描述可知,本申请还可以实现如下技术效果:
1.将流计算与离线计算巧妙地结合,利用流计算与离线计各自的优势,将两者进行互补结合,既可以实现低延迟、实时数据的计算与存储,也可以实现搞演出、大量数据的吞吐与计算。
2.分布式计算,将总任务分布给其他计算机,再将计算结果进行汇总,极大提高了平台的计算能力,实现了运算能力的最大化。
3.自定义计算窗格大小,用户可以根据自己的需求调整、改动数据处理窗格的大小。
4.本申请能够实现多种计算模型的输出,比如:计数、求和、平均、最大、最小、方差、标准差、K阶中心矩、连续、递增/递减、最大连续递增/递减、唯一性判别、采集、过滤、排序等多种分布式实时计算模型。
5.BI报表展示,基于高性能的大数据实时处理能力,本申请可以实时展示数据的动态变化,企业用户可以根据自己的需求选取各种风格的报表形式,目前包含了上多种风格的报表。
6.应用场景广,本申请可适用于多种应用场景,包括金融、医疗、电信、交通等领域,比如:需要实时异常检测的欺诈/风控等系统、需要实时查看交易额的交易系统、需要实时计算点击/计算分成的广告系统、需要实时更新用户标签的实时用户画像系统、需要实时根据用户喜好推荐商品的实时推荐系统等。
本申请的实施例还提供能够实现上述实施例中的分布式大数据处理系统中全部步骤的一种电子设备的具体实施方式,参见图5,所述电子设备具体包括如下内容:
处理器(processor)601、存储器(memory)602、通信接口(CommunicationsInterface)603和总线604;
其中,所述处理器601、存储器602、通信接口603通过所述总线604完成相互间的通信;所述通信接口603用于实现分布式大数据处理系统、在线业务系统、客户端设备以及其他参与机构之间的信息传输;
所述处理器601用于调用所述存储器602中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的分布式大数据处理系统,例如,所述处理器执行所述计算机程序时实现下述模块:
缓存组件,用于接收并保存至少一个数据接口发送的目标数据。
计算模块,用于接收所述缓存组件发送的所述目标数据,并生成一计算任务,根据预设计算模型和预设时间窗口执行所述计算任务。
存储模块,用于接收并保存所述计算模块发送的所述计算任务的计算结果。从上述描述可知,本申请实施例提供的电子设备,能够通过设置缓存组件,以接收并保存至少一个数据接口发送的目标数据;通过设置计算模块,以接收所述缓存组件发送的所述目标数据,并生成一计算任务,根据预设计算模型和预设时间窗口执行所述计算任务;在通过设置存储模块,以接收并保存所述计算模块发送的所述计算任务的计算结果,本申请能够有效结合流计算和离线计算各自的性能优势,实现低延迟和实时计算与存储,极大提高了平台的计算能力,实现了运算能力的最大化。
本申请的实施例还提供能够实现上述实施例中的分布式大数据处理系统中全部模块的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的分布式大数据处理系统的全部模块,例如,所述处理器执行所述计算机程序时实现下述步骤:
缓存组件,用于接收并保存至少一个数据接口发送的目标数据。
计算模块,用于接收所述缓存组件发送的所述目标数据,并生成一计算任务,根据预设计算模型和预设时间窗口执行所述计算任务。
存储模块,用于接收并保存所述计算模块发送的所述计算任务的计算结果。
从上述描述可知,本申请实施例提供的计算机可读存储介质,能够通过设置缓存组件,以接收并保存至少一个数据接口发送的目标数据;通过设置计算模块,以接收所述缓存组件发送的所述目标数据,并生成一计算任务,根据预设计算模型和预设时间窗口执行所述计算任务;在通过设置存储模块,以接收并保存所述计算模块发送的所述计算任务的计算结果,本申请能够有效结合流计算和离线计算各自的性能优势,实现低延迟和实时计算与存储,极大提高了平台的计算能力,实现了运算能力的最大化。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。

Claims (10)

1.一种分布式大数据处理系统,其特征在于,所述系统包括:
缓存组件,用于接收并保存至少一个数据接口发送的目标数据;
计算模块,用于接收所述缓存组件发送的所述目标数据,并生成一计算任务,根据预设计算模型和预设时间窗口执行所述计算任务;
存储模块,用于接收并保存所述计算模块发送的所述计算任务的计算结果。
2.根据权利要求1所述的分布式大数据处理系统,其特征在于,所述计算模块还可直接接收所述数据接口发送的所述目标数据,并根据预设计算模型和预设时间窗口对所述目标数据进行计算。
3.根据权利要求1所述的分布式大数据处理系统,其特征在于,还包括定义模块,所述定义模块用于接收用户自定义的计算模型和时间窗口,并将所述计算模块和所述时间窗口发送至所述计算模块,以使所述计算模块能够根据所述计算模型和所述时间窗口对所述目标数据进行计算。
4.根据权利要求1所述的分布式大数据处理系统,其特征在于,还包括协调组件,所述协调组件分别与所述数据接口、缓存组件、计算模块连接,所述协调组件用于灵活配置数据接口优先顺序,是否缓存、缓存条数,起协调、配置作用,通过该模板可灵活配置,系统根据该模块实现自动计算、存储功能。
5.根据权利要求1所述的分布式大数据处理系统,其特征在于,所述存储模块包含有MySql、Oracle、DB2中的至少一种数据库。
6.根据权利要求1所述的分布式大数据处理系统,其特征在于,还包括分布式运算模块,所述分布式运算模块用于将所述计算模块的所述计算任务进行分布式运算。
7.根据权利要求6所述的分布式大数据处理系统,其特征在于,所述分布式运算模块包括由多个计算型计算机和至少一个统计型计算机组成的计算机组网,所述计算型计算机用于接收所述计算任务并进行计算处理,所述统计型计算机用于接收并统计所述计算处理的计算结果。
8.根据权利要求7所述的分布式大数据处理系统,其特征在于,所述分布式运算模块还包括总计算机,所述总计算机与各所述统计型计算机连接,所述总计算机用于对各统计型计算机统计的计算结果进行汇总处理。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述权利要求1至8任一项所述的分布式大数据处理系统上运行的程序。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行所述权利要求1至8任一项所述的分布式大数据处理系统上运行的程序。
CN201911334100.7A 2019-12-23 2019-12-23 分布式大数据处理系统 Pending CN111061799A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911334100.7A CN111061799A (zh) 2019-12-23 2019-12-23 分布式大数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911334100.7A CN111061799A (zh) 2019-12-23 2019-12-23 分布式大数据处理系统

Publications (1)

Publication Number Publication Date
CN111061799A true CN111061799A (zh) 2020-04-24

Family

ID=70301391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911334100.7A Pending CN111061799A (zh) 2019-12-23 2019-12-23 分布式大数据处理系统

Country Status (1)

Country Link
CN (1) CN111061799A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677836A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 一种同时支持离线数据和实时在线数据的大数据处理解决系统
CN109343967A (zh) * 2018-12-03 2019-02-15 咪付(广西)网络技术有限公司 一种分布式计算系统及计算方法
CN110309172A (zh) * 2019-06-06 2019-10-08 阿里巴巴集团控股有限公司 一种数据计算方法、系统、装置及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677836A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 一种同时支持离线数据和实时在线数据的大数据处理解决系统
CN109343967A (zh) * 2018-12-03 2019-02-15 咪付(广西)网络技术有限公司 一种分布式计算系统及计算方法
CN110309172A (zh) * 2019-06-06 2019-10-08 阿里巴巴集团控股有限公司 一种数据计算方法、系统、装置及电子设备

Similar Documents

Publication Publication Date Title
US11755452B2 (en) Log data collection method based on log data generated by container in application container environment, log data collection device, storage medium, and log data collection system
US20130080617A1 (en) Dynamic network load forecasting
CN111695675B (zh) 联邦学习模型训练方法及相关设备
US20120130940A1 (en) Real-time analytics of streaming data
US20200210481A1 (en) Parallel graph events processing
CN113037877B (zh) 云边端架构下时空数据及资源调度的优化方法
US20180352020A1 (en) Perfect application capacity analysis for elastic capacity management of cloud-based applications
US11157963B2 (en) Methods and systems for offering financial products
US20210194774A1 (en) System and method for a generic key performance indicator platform
US20180241644A1 (en) Server performance evaluation through single value server performance index
CN106293947B (zh) 虚拟化云环境下gpu-cpu混合资源分配系统和方法
CN109857524A (zh) 流式计算方法、装置、设备及计算机可读存储介质
CN106649377A (zh) 一种图像处理系统及图像处理的方法
US11256598B2 (en) Automated selection of performance monitors
Do et al. Toward service selection game in a heterogeneous market cloud computing
CN111061799A (zh) 分布式大数据处理系统
CN106445978A (zh) 实时信息的展现方法和装置
US12009997B2 (en) Cell-based architecture for an extensibility platform
US10769649B1 (en) Automated centralized real-time multi-channel feedback system
Kadache et al. A new social volunteer computing environment with task-adapted scheduling policy (TASP)
US9264310B2 (en) Monitoring and distributing event processing within a complex event processing environment
US20240103903A1 (en) Dynamic pod priority inference utilizing service mesh telemetry data
US11301289B2 (en) Cognitive monitoring of data collection in real time
US20230315580A1 (en) Disaster recovery in a cell model for an extensibility platform
US20230289651A1 (en) Dynamic information reduction using a velocity based machine learning model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200424