CN110209549A - 数据处理方法、相关装置、相关设备和系统 - Google Patents
数据处理方法、相关装置、相关设备和系统 Download PDFInfo
- Publication number
- CN110209549A CN110209549A CN201810498324.0A CN201810498324A CN110209549A CN 110209549 A CN110209549 A CN 110209549A CN 201810498324 A CN201810498324 A CN 201810498324A CN 110209549 A CN110209549 A CN 110209549A
- Authority
- CN
- China
- Prior art keywords
- data
- processing
- cluster
- node
- threads
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 405
- 238000000034 method Methods 0.000 claims description 58
- 230000008569 process Effects 0.000 claims description 29
- 238000004891 communication Methods 0.000 claims description 22
- 238000012544 monitoring process Methods 0.000 claims description 20
- 230000002159 abnormal effect Effects 0.000 claims description 17
- 230000003993 interaction Effects 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 16
- 238000004519 manufacturing process Methods 0.000 description 12
- 230000008439 repair process Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000003203 everyday effect Effects 0.000 description 7
- 238000007726 management method Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013468 resource allocation Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
Landscapes
- Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种数据处理方法,包括:根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,生成接入指示信息;将所述接入指示信息发送给所述集群各处理节点;以使所述集群各处理节点根据所述接入指示信息接入所述数据源,并根据配置的线程对接入的数据源进行并行处理,输出处理结果;其中,所述集群各处理节点配置了用于处理数据的线程,各个线程之间独立平行地处理数据。本发明还公开了一种数据处理装置、设备和系统,解决了现有技术无法不能满足每日千亿级数据实时处理的要求的技术问题。
Description
技术领域
本发明涉及计算机领域,尤其涉及数据处理方法、相关装置、相关设备和系统。
背景技术
随着信息技术的不断发展,近些年来,海量的数据成为最具价值的财富。在信息传播极其迅速的今天各种数据渗透着我们的生活,它们以指数级的速度增长,数据爆炸将我们带入大数据时代。
现有技术中,针对海量日志等大量数据的处理分析工具扔然难以保证千亿量级日志的实时处理和分析。例如日志分析系统(Elasticsearch+logstash+kibana,ELK)是一套开源的日志处理方案或日志管理方案,ELK中的Logstash,中间数据结构繁复转化导致性能低下,而且在插件化处理过程中,增加过多的冗余逻辑处理,部分线程设计模型不合理,导致资源占用严重,机器负载和内存消耗很大,对于集群机器数有限,在性能上不能满足每日千亿级数据实时处理的要求。又如亨卡(Heka),其延伸了Logstash的想法,但面对多个不同的数据分析源,不能有效的扩展,配置繁琐,而且当其处理速度达到最高峰的时候,机器的处理器和内存使用并没有很高,资源使用不充分,同样不能满足每日千亿级数据实时处理的要求。
发明内容
本发明实施例所要解决的技术问题在于,提供一种数据处理方法、一种数据处理装置、一种数据处理设备、一种数据处理系统、以及一种计算机可读存储介质,解决现有技术无法不能满足每日千亿级数据实时处理的要求的技术问题。
为了解决上述技术问题,本发明实施例第一方面公开了一种数据处理方法,包括:
根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,生成接入指示信息;
将所述接入指示信息发送给所述集群各处理节点;以使所述集群各处理节点根据所述接入指示信息接入所述数据源,并根据配置的线程对接入的数据源进行并行处理,输出处理结果;其中,所述集群各处理节点配置了用于处理数据的线程,各个线程之间独立平行地处理数据。
本发明实施例第二方面公开了一种数据处理方法,包括:
接收控制节点发送的接入指示信息;所述接入指示信息包括所述控制节点根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,生成的接入指示信息;
根据所述接入指示信息接入所述数据源,并根据配置的线程对接入的数据源进行并行处理,输出处理结果;其中所述配置的线程与其他处理节点配置的线程之间独立平行地处理数据。
本发明实施例第三方面公开了一种数据处理装置,包括执行如上述第一方面或第二方面的实现方式中的方法的单元。
本发明实施例第四方面公开了一种数据处理设备,包括处理器、存储器和通信模块,所述处理器、存储器和通信模块相互连接,其中,所述存储器用于存储数据处理代码,所述通信模块用于与外部设备进行信息交互;所述处理器被配置用于调用所述程序代码,执行如第一方面或第二方面的实现方式中的方法。
本发明实施例第五方面公开了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如上述第一方面或第二方面的实现方式中的方法。
实施本发明实施例,根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,指示集群各处理节点接入数据源,并根据配置的线程对接入的数据源进行并行处理,各个处理节点的线程之间独立平行地处理数据,实现了将数据源均衡分布到各个处理节点并发处理,机器资源得到更加充分的利用,解决了现有技术无法不能满足每日千亿级数据实时处理的要求的技术问题;
而且,各处理节点根据接入的所述数据源的数据大小以及处理节点自身的实时资源状况可以动态启动多个任务子线程并行处理,能够更加有效的保证不同数据量大小的数据源得到更合理的资源调配,以实现最大限度的优化机器资源的使用,保证整体所有数据源的高速处理,使得业务场景应用更加广泛,能够接入业务范围更广。
另外,监控所述集群各处理节点接入数据的速度以及输出结果的速度,以及建立数据输入端和数据输出端的数据对账功能,来动态调整接入指示信息,能够有效的控制生产速度和处理速度的平衡,实时监控集群的运行情况,保证数据不缺失处理不拥堵,保证健康运行;还有,针对异常数据登记错误数据类型,根据错误数据类型定时对异常数据进行修复,然后重新作业,实现了在不影响处理速度的前提下,定时将错误数据修复后重新回到流水中进行作业,保证了数据的完整性;解决了现有技术中处理分析工具对数据容错性和数据完整性都不佳的问题。
附图说明
为了说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1是本发明实施例提供的数据处理方法的系统架构示意图;
图2是本发明实施例提供的数据处理方法的流程示意图;
图3是本发明实施例提供的接入指示的原理示意图;
图4是本发明提供的数据处理方法的另一实施例的流程示意图;
图5A是本发明实施例提供的线程配置的示意图;
图5B是本发明实施例提供的线程流水作业的原理示意图;
图6是本发明实施例提供的错误数据反馈的示意图;
图7是本发明实施例提供的状态监控的示意图;
图8是本发明实施例提供的数据处理方法的原理示意图;
图9是本发明实施例提供的数据处理装置的结构示意图;
图10是本发明提供的数据处理装置的另一实施例的结构示意图;
图11是本发明提供的数据处理装置的另一实施例的结构示意图;
图12是本发明实施例提供的处理输出单元的结构示意图;
图13是本发明实施例提供的数据处理设备的结构示意图;
图14是本发明提供的数据处理设备的另一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
具体实现中,本发明实施例中描述的终端或设备包括但不限于诸如台式计算机、膝上型计算机、平板计算机、智能终端等。
为了更好的理解本发明实施例提供的一种数据处理方法、数据处理装置、数据处理设备和数据处理系统,下面先对本发明实施例的数据处理方法的系统架构进行描述。如图1示出的本发明实施例提供的数据处理方法的系统架构示意图,即本发明的数据处理系统的结构图,可以包括控制节点和多个处理节点。该控制节点即管理或控制整个数据处理方法流程的控制计算机,可以由一台或多台控制计算机组成;该处理节点为用于计算或处理数据的计算机,该控制节点以集群化分布式的方式集群管理该处理节点,控制集群各处理节点如何接入数据源,接入哪个数据源,集群各处理节点将数据处理后的处理结果进行输出。
在其中的一个实施方式中,图1系统架构中的控制节点可以使用动物园管理员(zookeeper)作为管理部件,以zookeeper作为集群处理调度控制。另外,图1的系统架构还可以包括监控节点,该监控节点为用于数据监控分析的计算机,监控数据处理速度、监控集群的运行状态。
本发明实施例中的控制节点和处理节点通过本发明实施例的数据处理方法,解决了现有技术无法不能满足每日千亿级数据实时处理的要求的技术问题;下面结合图2示出的本发明实施例提供的数据处理方法的流程示意图,具体说明本发明实施例如何进行数据处理,可以包括以下步骤:
步骤S200:根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,生成接入指示信息;
具体地,本发明实施例中的数据源需要调配的资源信息可以包括该数据源中的一个或某一组数据需要在多少台机器上进行处理,需要分配多少个线程,需要被拆分为多少块或多少个子数据,等等。本发明实施例中的集群各处理节点的实时资源状况可以包括处理节点的一些资源参数或指标,例如中央处理器(Central Processing Unit,CPU)、内存使用、负载情况等参数或指标。控制节点可以根据当前数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,生成用于指示集群各处理节点如何接入数据的接入指示信息,具体地该接入指示信息可以指示处理节点是否开始接入数据进行处理,以及接入哪个数据进行处理,等等。
在其中一个实施方式中,步骤S200可以包括根据数据源需要调配的资源信息以及集群各处理节点的实时资源状况,匹配出当前资源状况满足所述需要调配的资源的处理节点;然后生成接入指示信息;该接入指示信息指示该当前资源状况满足该需要调配的资源的处理节点接入所述数据源。
具体地,如图3示出的本发明实施例提供的接入指示的原理示意图,可以对数据源需要调配的资源信息进行优先级排序,例如可以按照数据的大小、类型、数据处理线程的复杂度、处理的紧急程度等等对数据源需要调配的资源信息进行优先级排序;同时也可以根据集群各处理节点的实时资源状况,对集群各处理节点进行优先级排序,例如将实时资源消耗少的处理节点排在前面,或者将剩余资源多的处理节点排在前面。然后根据数据源需要调配的资源信息的优先级和集群各处理节点的优先级进行匹配,指示当前资源状况满足需要调配的资源的处理节点来接入该数据源中的数据,例如将数据源需要调配的资源信息优先级高的分配到优先级高的一个或多个处理节点中。
步骤S202:将所述接入指示信息发送给所述集群各处理节点;
具体地,控制节点将该接入指示信息广播发送给集群各处理节点,也可以分别单播向每个处理节点发送与该处理节点对应的接入指示信息。
步骤S204:集群各处理节点根据该接入指示信息接入所述数据源,并根据配置的线程对接入的数据源进行并行处理;
具体地,本发明实施例中的集群各处理节点预先配置了用于处理数据的线程,一个处理节点可以配置一个或多个线程,一个处理节点中各个线程之间独立平行地处理数据,各个处理节点之间的线程同样独立平行地处理数据。
步骤S206:集群各处理节点输出处理结果。
具体地,集群各处理节点根据出口配置项,将处理好的分析结果输出到相应出口,如mysql(关系型数据库管理系统)或者灵活搜索服务器(Elasticsearch),即一个基于卢塞纳(Lucene)的搜索服务器。
实施本发明实施例,根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,指示集群各处理节点接入数据源,并根据配置的线程对接入的数据源进行并行处理,各个处理节点的线程之间独立平行地处理数据,实现了将数据源均衡分布到各个处理节点并发处理,机器资源得到更加充分的利用,解决了现有技术无法不能满足每日千亿级数据实时处理的要求的技术问题。
下面结合图4示出的本发明提供的数据处理方法的另一实施例的流程示意图,进一步详细说明本发明实施例提供的数据处理方法,可以包括以下步骤:
步骤S400:记录所述数据源需要接入的数据大小和数据处理时所需的功能模块;根据所述数据大小和所述功能模块预估需要调配的资源信息;
具体地,技术人员可以先输入数据源需要接入的数据大小和数据处理时所需的功能模块,比如可以大概预估数据源需要接入的数据大小和数据处理时所需的功能模块,控制节点即可以记录该输入的数据源需要接入的数据大小和数据处理时所需的功能模块,然后根据该数据大小和功能模块来预估需要调配的资源信息。
在其中的一个实施例中,控制节点在记录了技术人员输入的数据源需要接入的数据大小和数据处理时所需的功能模块后,可以通过预设时间段(比如1天或2天)来分析该输入的数据源需要接入的数据大小和数据处理时所需的功能模块是否需要准确,是否需要动态调整,比如若分析发现当前记录的数据源需要接入的数据大小偏小,则可以动态调大记录的数据源需要接入的数据大小。
步骤S402:获取集群各处理节点的实时资源状况;
具体地,控制节点可以定时(或按间隔预设时长)向集群各处理节点发送获取请求,以获取集群各处理节点反馈的实时资源状况;或者集群各处理节点定时(或按间隔预设时长)主动向控制节点反馈自身的实时资源状况,那么控制节点即可获取集群各处理节点的实时资源状况。本发明实施例中的集群各处理节点的实时资源状况可以包括处理节点的一些资源参数或指标,例如CPU、内存使用、负载情况等参数或指标。
步骤S404:根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,生成接入指示信息;
步骤S406:将所述接入指示信息发送给所述集群各处理节点;
具体地,步骤S404和步骤S406可以分别参考上述图2实施例中的步骤S200和步骤S202,这里不再赘述。
步骤S408:集群各处理节点根据该接入指示信息接入所述数据源,并根据配置的线程对接入的数据源进行并行处理;
具体地,集群各处理节点可以根据该接入指示信息决定自身是否开始接入数据处理,以及接入哪个数据进行处理。处理节点在接入数据后,根据预先配置的线程进行数据处理;其中每个处理节点可以配置多个线程,不同的线程可以同时接入并处理不同的数据源中的数据,每个线程是独立地处理数据。线程可以看作是功能模块,比如配置计算功能的线程、配置封装功能的线程、配置统计功能的线程、配置汇聚功能的线程等等,技术人员可以以插件化的方式配置来线程,也就是说可以便利地高效地根据自身需求或业务需求来对线程进行增删改。
在其中一个实施方式中,如图5A示出的本发明实施例提供的线程配置的示意图,以一个连接卡夫卡(Kafka)和文件缓存的日志处理最后配置入ES为例,技术人员只需在一个配置文件中配置好相应的数据来源,数据处理过程,数据出口即可。即配置文件中的输入inputs,输出outputs,过滤器filters的插件名称,以及各个插件的参数配置就行。各个插件的扩展也同样非常方便,能够自定义完成。
其中每个线程如何进行数据处理可以参考图5B示出的本发明实施例提供的线程流水作业的原理示意图,具体地,处理节点根据自身配置的用于处理数据的线程对数据进行任务初始化,可以初始化多个任务,如图5中以处理数据源1为例,初始化成N个任务,包括“数据初始化任务1”、“数据初始化任务2”到“数据初始化任务N”;然后再针对每个任务根据接入的所述数据源的数据大小以及处理节点自身的实时资源状况,动态判断是否对下一级任务开启多个任务子线程进行数据处理,也就是说可以根据数据源的数据大小以及处理节点自身的实时资源状况决定在第几个处理步骤进行任务细分,将任务细化到下一级线程并发处理,例如图5中初始化任务1至任务N后,分析出下一级任务(filter1任务)占用的资源不多,判断出无需开启多个任务子线程,那么直接对应分成filter1任务1至filter1任务N。从filter1任务到下一级任务(filter2任务),分析出filter2任务资源消耗比较大,将影响处理速度,则判断出需要开启多个任务子线程进行数据处理,以对filter1任务1处理为例,其下一级任务开启有filter2任务1至ilter2任务N的任务子线程。以此类推,每级任务分析下去直到数据处理完毕,例如图中filter1任务N也开启有filter2任务1至ilter2任务N的任务子线程。
步骤S410:定期根据集群各处理节点的实时资源状况、或者定期监控数据处理量和处理结果数据量是否匹配,调整所述接入指示信息;
具体地,本发明实施例的控制节点还可以定期(比如间隔5分钟、间隔30分钟等)根据集群各处理节点的实时资源状况(比如机器性能消耗状况)来调整步骤S404生成的接入指示信息,也就是说可以动态调整处理业务的集群的分布。
本发明实施例的数据处理量可以为消费数量(即处理数据的量),处理结果数据量可以为输出数量,控制节点可以定期(比如1分钟、2分钟等)监控消费数量与输出数量是否匹配(比如是否一致),也就是说建立出入口对账,监控出入口是否处理健康,若匹配,则无需调整接入指示信息,若不匹配,则表明出现了脏数据,需要动态调整处理业务的集群的分布。
通过步骤S410,能够有效的监控集群的健康运行状态,以便在新的数据源接入或者某机器节点出现问题时,能够动态调整处理业务的集群的分布,保证健康运行。
步骤S412:在所述根据配置的线程对接入的数据源进行并行处理的过程中,针对异常数据登记错误数据类型,根据所述错误数据类型定时对所述异常数据进行修复;
并对修复后的数据重新执行所述根据配置的线程对接入的数据源进行并行处理的步骤。
具体地,错误数据类型可以包括数据入库错误,比如处理节点根据返回码,知道错误类型,需要对数据进行强制转换,但若错误太多,可以直接扔掉该数据。错误数据类型还可以包括延时,那么需要减少汇聚速度,等等。错误类型定义可以在插件定义模块中生成。本发明实施例中的处理节点对异常数据进行修复后,对修复后的数据重新执行所述根据配置的线程对接入的数据源进行并行处理的步骤。
如图6示出的本发明实施例提供的错误数据反馈的示意图,图6中对某一数据源处理结果出口及错误数据反馈的示意图,图中没有出现错误数据。本发明实施例通过引入错误登记,修复处理,重新作业的机制,保证了数据的完整性,在不影响处理速度的前提下,定时将错误数据修复后,重新回到流水中,继续作业,从而保证运行稳定,避免拥塞。
步骤S414:监控所述集群各处理节点接入数据的速度以及输出结果的速度;
具体地,本发明实施例在数据处理过程中,可以将入口的生产速度(即集群各处理节点接入数据的速度)和出口的消费速度(即输出结果的速度)交付到相应的监控线程,那么即监控到集群各处理节点接入数据的速度以及输出结果的速度。
步骤S416:在所述接入数据的速度大于所述输出结果的速度的情况下,调整所述接入指示信息;调整后的所述接入指示信息用于指示限制处理节点接入数据的速度或者增大对接入数据的拆分数量;
具体地,如图7示出的本发明实施例提供的状态监控的示意图,图中波浪线的值即为生产速度大于消费速度的差值,需要对出现差值的地方进行调整。即当生产速度大于消费速度的情况下,需要调整接入指示信息,以限制处理节点接入数据的速度,进行生产降速,或者增大对接入数据的拆分数量,比如此前拆分10份数据,调整成拆分20份数据。以控制生产速度和消费速度的平衡,避免“生产线”拥塞。
需要说明的是,上述步骤S410至步骤S416的执行顺序,本发明实施例不作限制,可以根据实际运行情况随机或并行同步地执行。
步骤S418:将数据源类型相同以及输出的出口地址相同的处理结果进行批量缓存;当所述批量缓存的数据量达到阈值的情况下,通过建立好的链路进行批量输出;
具体地,处理节点在自身开启的各个任务对数据进行处理后,将数据类型相同以及输出的出口地址相同的处理结果进行汇聚,先放入预先初始化的批量缓存中,然后当该批量缓存的数据量(比如50兆)达到阈值或者间隔一段时间(达到时间阈值)的情况下,通过统一建立好的链路,如ES客户端(ESClient),mysql链路(mysql connection)等,进行批量输出。也就是说,一个处理节点可以有多个线程同时对不同数据进行并行处理,一个线程可以开启多个任务同时进行并行处理,最后将多个线程进行汇聚输出。
本发明实施例通过将处理结果汇聚处理,汇聚到统一的输出链路,而不采用现有技术中多链路输出,不仅可以将细化的结果汇聚,而且在性能方面,大多数是封装好的数据,网络传输能够满足性能需求,而且避免了现有技术中多链路空闲导致的资源浪费,比如现有技术中logstash就是由于多链路空闲导致资源消耗过大。
下面结合图8示出的本发明实施例提供的数据处理方法的原理示意图,控制节点以使用zookeeper作为管理部件,以zookeeper作为集群处理调度控制为例。数据源可以包括Kafka、文件、水槽(Flume)、火花(Spark)统计结果,等等数据;数据源将在zookeeper中登记预估的各个需要接入的数据大小和数据处理插件复杂度,对数据源进行优先级排序;然后zookeeper根据实时收到集群各处理节点实时资源消耗的状况,按照cpu,内存使用,负载等指标,也以一定的优先级排序;然后zookeeper根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,生成接入指示信息以指示集群各处理节点如何接入数据的接入指示信息。各个处理节点根据Zookeeper汇总或生成的接入指示信息决定是否开始接入数据进行处理,以及接入哪个数据进行处理,等等。从而实现实时均衡分布到各个节点并发处理。然后集群各个处理节点根据既定的配置,同时接入不同的数据源进行并行处理,每个处理节点将针对数据源开启一个独立的处理线程,并根据接入的所述数据源的数据大小以及处理节点自身的实时资源状况,动态判断是否对下一级任务开启多个任务子线程进行数据处理,也就是说可以根据数据源的数据大小以及处理节点自身的实时资源状况决定在第几个处理步骤进行任务细分,将任务细化到下一级线程并发处理;通过“多条流水作业”并行的方式,作业过程环节“插件化”灵活管理,最大限度轻量化处理过程。各处理节点并行处理数据的过程中,数据监控分析模块进行性能监控,会将入口的“生产速度”和出口的“消费速度”交付到相应的监控线程,监控线程定时反馈处理速度,处理节点实时读取反馈,进行生产降速等,避免“生产线”拥塞;并且进行错误缓存修复处理,保证异常数据的统一修复和处理,并再次输出,在处理入口和出口加入处理入量和出量结果对照和限速机制,保证运行稳定,避免拥塞。各处理节点将数据源类型相同以及输出的出口地址相同的处理结果进行批量缓存;当所述批量缓存的数据量达到阈值的情况下,通过建立好的链路进行批量输出,也就是说将各自的“流水”处理结果汇聚到统一出口,进行下一阶段的处理,避免多条出口的资源浪费。
在其中一个实施方式中,zookeeper节点可以为一台计算机,可以为普通的c1机器作为机器均衡消费调度所用;处理节点可以为计算能力较强的计算机,如戴尔(DELL)R630等;数据监控分析模块可以为独立的一台计算机,也可以为集群处理节点中的某一个处理节点,即该某一个处理节点可以配置数据监控分析功能,以进行性能监控和错误缓存修复处理。数据监控分析模块还可以集成与zookeeper节点(即控制节点)中,即zookeeper节点配置数据监控分析功能,以进行性能监控和错误缓存修复处理。
实施本发明实施例,根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,指示集群各处理节点接入数据源,并根据配置的线程对接入的数据源进行并行处理,各个处理节点的线程之间独立平行地处理数据,实现了将数据源均衡分布到各个处理节点并发处理,机器资源得到更加充分的利用,解决了现有技术无法不能满足每日千亿级数据实时处理的要求的技术问题;
而且,各处理节点根据接入的所述数据源的数据大小以及处理节点自身的实时资源状况可以动态启动多个任务子线程并行处理,能够更加有效的保证不同数据量大小的数据源得到更合理的资源调配,以实现最大限度的优化机器资源的使用,保证整体所有数据源的高速处理,使得业务场景应用更加广泛,能够接入业务范围更广。
另外,监控所述集群各处理节点接入数据的速度以及输出结果的速度,以及建立数据输入端和数据输出端的数据对账功能,来动态调整接入指示信息,能够有效的控制生产速度和处理速度的平衡,实时监控集群的运行情况,保证数据不缺失处理不拥堵,保证健康运行;还有,针对异常数据登记错误数据类型,根据错误数据类型定时对异常数据进行修复,然后重新作业,实现了在不影响处理速度的前提下,定时将错误数据修复后重新回到流水中进行作业,保证了数据的完整性;解决了现有技术中处理分析工具对数据容错性和数据完整性都不佳的问题。
为了便于更好地实施本发明实施例的上述方案,本发明还对应提供了一种数据处理装置,下面结合附图来进行详细说明:
如图9示出的本发明实施例提供的数据处理装置的结构示意图,数据处理装置90可以包括:生成单元900和发送单元902,其中,
生成单元900用于根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,生成接入指示信息;
发送单元902用于将所述接入指示信息发送给所述集群各处理节点;以使所述集群各处理节点根据所述接入指示信息接入所述数据源,并根据配置的线程对接入的数据源进行并行处理,输出处理结果;其中,所述集群各处理节点配置了用于处理数据的线程,各个线程之间独立平行地处理数据。
在其中一个实施方式中,如图10示出的本发明提供的数据处理装置的另一实施例的结构示意图,数据处理装置90包括生成单元900和发送单元902外,还可以包括:记录单元904、预估单元906和调整单元908,其中,
记录单元904用于在生成单元900生成接入指示信息之前,记录所述数据源需要接入的数据大小和数据处理时所需的功能模块;
预估单元906用于根据所述数据大小和所述功能模块预估需要调配的资源信息;
调整单元908用于定期根据集群各处理节点的实时资源状况、或者定期监控数据处理量和处理结果数据量是否匹配,调整所述接入指示信息。
在其中一个实施方式中,生成单元900可以具体用于根据数据源需要调配的资源信息以及集群各处理节点的实时资源状况,匹配出当前资源状况满足所述需要调配的资源的处理节点;生成接入指示信息;所述接入指示信息指示所述当前资源状况满足所述需要调配的资源的处理节点接入所述数据源。
在其中一个实施方式中,数据处理装置90还可以包括监控调整单元,用于监控所述集群各处理节点接入数据的速度以及输出结果的速度;在所述接入数据的速度大于所述输出结果的速度的情况下,调整所述接入指示信息;调整后的所述接入指示信息用于指示限制处理节点接入数据的速度或者增大对接入数据的拆分数量。
需要说明的是,本发明实施例中的数据处理装置90可以为上述方法实施例中的控制节点,该数据处理装置90中各模块的功能可对应参考上述各方法实施例中图1至图8实施例中的控制节点运行的具体实现方式,这里不再赘述。
在其中一个实施方式中,如图11示出的本发明提供的数据处理装置的另一实施例的结构示意图,数据处理装置11可以包括:接收单元110、处理输出单元112,其中,
接收单元110用于接收控制节点发送的接入指示信息;所述接入指示信息包括所述控制节点根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,生成的接入指示信息;
处理输出单元112用于根据所述接入指示信息接入所述数据源,并根据配置的线程对接入的数据源进行并行处理,输出处理结果;其中所述配置的线程与其他处理节点配置的线程之间独立平行地处理数据。
在其中一个实施方式中,如图12示出的本发明实施例提供的处理输出单元的结构示意图,处理输出单元112可以包括:初始化单元1120、判断单元1122、开启单元1124和汇聚输出单元1126,其中,
初始化单元1120用于根据自身配置的用于处理数据的线程对数据进行任务初始化;
判断单元1122用于根据接入的所述数据源的数据大小以及处理节点自身的实时资源状况,动态判断是否对下一级任务开启多个任务子线程进行数据处理;
开启单元1124用于在判断出对下一级任务开启多个任务子线程进行数据处理的情况下,对下一级任务进行细分,开启多个任务子线程对细分的任务进行并行处理;
汇聚输出单元1126用于将各个任务的处理结果进行汇聚并输出。
在其中一个实施方式中,汇聚输出单元1126可以具体用于将数据源类型相同以及输出的出口地址相同的处理结果进行批量缓存;当所述批量缓存的数据量达到阈值的情况下,通过建立好的链路进行批量输出。
在其中一个实施方式中,图12中的处理输出单元112还可以包括登记单元1126和修复单元1128,其中,
登记单元1126用于针对异常数据登记错误数据类型;
修复单元1128用于根据所述错误数据类型定时对所述异常数据进行修复,并对修复后的数据重新执行所述根据自身配置的用于处理数据的线程对数据进行任务初始化的步骤。
需要说明的是,本发明实施例中的数据处理装置11可以为上述方法实施例中的处理节点,该数据处理装置11中各模块的功能可对应参考上述各方法实施例中图1至图8实施例中的处理节点运行的具体实现方式,这里不再赘述。
为了便于更好地实施本发明实施例的上述方案,本发明还对应提供了一种数据处理设备,下面结合附图来进行详细说明:
如图13示出的本发明实施例提供的数据处理设备的结构示意图,数据处理设备13可以包括处理器131、存储器134和通信模块135,处理器131、存储器134和通信模块135可以通过总线136相互连接。存储器134可以是高速随机存储记忆体(Random Access Memory,RAM)存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器,存储器134包括本发明实施例中的flash。存储器134可选的还可以是至少一个位于远离前述处理器131的存储系统。存储器134用于存储应用程序代码,可以包括操作系统、网络通信模块、用户接口模块以及数据处理程序,通信模块135用于与外部设备进行信息交互;处理器131被配置用于调用该程序代码,执行以下步骤:
根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,生成接入指示信息;
通过通信模块135将所述接入指示信息发送给所述集群各处理节点;以使所述集群各处理节点根据所述接入指示信息接入所述数据源,并根据配置的线程对接入的数据源进行并行处理,输出处理结果;其中,所述集群各处理节点配置了用于处理数据的线程,各个线程之间独立平行地处理数据。
在其中一个实施方式中,处理器131生成接入指示信息之前,还可以执行:
记录所述数据源需要接入的数据大小和数据处理时所需的功能模块;
根据所述数据大小和所述功能模块预估需要调配的资源信息。
在其中一个实施方式中,处理器131根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,生成接入指示信息,包括:
根据数据源需要调配的资源信息以及集群各处理节点的实时资源状况,匹配出当前资源状况满足所述需要调配的资源的处理节点;
生成接入指示信息;所述接入指示信息指示所述当前资源状况满足所述需要调配的资源的处理节点接入所述数据源。
在其中一个实施方式中,所述集群各处理节点配置的线程包括以插件化的方式配置的线程。
在其中一个实施方式中,处理器131输出处理结果之后,还可以执行:
监控所述集群各处理节点接入数据的速度以及输出结果的速度;
在所述接入数据的速度大于所述输出结果的速度的情况下,调整所述接入指示信息;调整后的所述接入指示信息用于指示限制处理节点接入数据的速度或者增大对接入数据的拆分数量。
在其中一个实施方式中,处理器131输出处理结果之后,还可以执行:
定期根据集群各处理节点的实时资源状况、或者定期监控数据处理量和处理结果数据量是否匹配,调整所述接入指示信息。
需要说明的是,本发明实施例中的数据处理设备13可以为上述方法实施例中的控制节点,该数据处理设备13中各处理器的执行步骤可参考上述各方法实施例中图1至图8实施例中的控制节点运行的具体实现方式,这里不再赘述。
如图14示出的本发明提供的数据处理设备的另一实施例的结构示意图,数据处理设备14可以包括处理器141、存储器144和通信模块145,处理器141、存储器144和通信模块145可以通过总线146相互连接。存储器144可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器,存储器144包括本发明实施例中的flash。存储器144可选的还可以是至少一个位于远离前述处理器141的存储系统。存储器144用于存储应用程序代码,可以包括操作系统、网络通信模块、用户接口模块以及数据处理程序,通信模块145用于与外部设备进行信息交互;处理器141被配置用于调用该程序代码,执行以下步骤:
通过通信模块145接收控制节点发送的接入指示信息;所述接入指示信息包括所述控制节点根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,生成的接入指示信息;
根据所述接入指示信息接入所述数据源,并根据配置的线程对接入的数据源进行并行处理,输出处理结果;其中所述配置的线程与其他处理节点配置的线程之间独立平行地处理数据。
在其中一个实施方式中,处理器141根据配置的线程对接入的数据源进行并行处理,包括:
根据自身配置的用于处理数据的线程对数据进行任务初始化;
根据接入的所述数据源的数据大小以及处理节点自身的实时资源状况,动态判断是否对下一级任务开启多个任务子线程进行数据处理;
在判断出对下一级任务开启多个任务子线程进行数据处理的情况下,对下一级任务进行细分,开启多个任务子线程对细分的任务进行并行处理;
将各个任务的处理结果进行汇聚并输出。
在其中一个实施方式中,处理器141将各个任务的处理结果进行汇聚并输出,包括:
将数据源类型相同以及输出的出口地址相同的处理结果进行批量缓存;
当所述批量缓存的数据量达到阈值的情况下,通过建立好的链路进行批量输出。
在其中一个实施方式中,处理器141根据配置的线程对接入的数据源进行并行处理时,还可以执行:
针对异常数据登记错误数据类型;
根据所述错误数据类型定时对所述异常数据进行修复,并对修复后的数据重新执行所述根据自身配置的用于处理数据的线程对数据进行任务初始化的步骤。
需要说明的是,本发明实施例中的数据处理设备14可以为上述方法实施例中的处理节点,该数据处理设备14中各处理器的执行步骤可参考上述各方法实施例中图1至图8实施例中的处理节点运行的具体实现方式,这里不再赘述。
本发明实施例还提供一种数据处理系统,包括控制节点和多个处理节点,所述多个处理节点为集群的处理节点;其中,
该控制节点可以为如图9至图10实施例中的数据处理装置,也可以为图13实施例中的数据处理设备。处理节点可以为如图11至图12实施例中的数据处理装置,也可以为图14实施例中的数据处理设备。
实施本发明实施例,根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,指示集群各处理节点接入数据源,并根据配置的线程对接入的数据源进行并行处理,各个处理节点的线程之间独立平行地处理数据,实现了将数据源均衡分布到各个处理节点并发处理,机器资源得到更加充分的利用,解决了现有技术无法不能满足每日千亿级数据实时处理的要求的技术问题;
而且,各处理节点根据接入的所述数据源的数据大小以及处理节点自身的实时资源状况可以动态启动多个任务子线程并行处理,能够更加有效的保证不同数据量大小的数据源得到更合理的资源调配,以实现最大限度的优化机器资源的使用,保证整体所有数据源的高速处理,使得业务场景应用更加广泛,能够接入业务范围更广。
另外,监控所述集群各处理节点接入数据的速度以及输出结果的速度,以及建立数据输入端和数据输出端的数据对账功能,来动态调整接入指示信息,能够有效的控制生产速度和处理速度的平衡,实时监控集群的运行情况,保证数据不缺失处理不拥堵,保证健康运行;还有,针对异常数据登记错误数据类型,根据错误数据类型定时对异常数据进行修复,然后重新作业,实现了在不影响处理速度的前提下,定时将错误数据修复后重新回到流水中进行作业,保证了数据的完整性;解决了现有技术中处理分析工具对数据容错性和数据完整性都不佳的问题。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (15)
1.一种数据处理方法,其特征在于,包括:
根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,生成接入指示信息;
将所述接入指示信息发送给所述集群各处理节点;以使所述集群各处理节点根据所述接入指示信息接入所述数据源,并根据配置的线程对接入的数据源进行并行处理,输出处理结果;其中,所述集群各处理节点配置了用于处理数据的线程,各个线程之间独立平行地处理数据。
2.如权利要求1所述的方法,其特征在于,所述根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,生成接入指示信息,包括:
根据数据源需要调配的资源信息以及集群各处理节点的实时资源状况,匹配出当前资源状况满足所述需要调配的资源的处理节点;
生成接入指示信息;所述接入指示信息指示所述当前资源状况满足所述需要调配的资源的处理节点接入所述数据源。
3.如权利要求1所述的方法,其特征在于,所述集群各处理节点配置的线程包括以插件化的方式配置的线程。
4.如权利要求1-3任一项所述的方法,其特征在于,所述将所述接入指示信息发送给所述集群各处理节点之后,还包括:
所述处理节点根据所述接入指示信息接入所述数据源;
根据处理节点自身配置的用于处理数据的线程对数据进行任务初始化;
根据接入的所述数据源的数据大小以及处理节点自身的实时资源状况,动态判断是否对下一级任务开启多个任务子线程进行数据处理;
在判断出对下一级任务开启多个任务子线程进行数据处理的情况下,对下一级任务进行细分,开启多个任务子线程对细分的任务进行并行处理;
将各个任务的处理结果进行汇聚并输出。
5.如权利要求4所述的方法,其特征在于,所述将各个任务的处理结果进行汇聚并输出,包括:
将数据源类型相同以及输出的出口地址相同的处理结果进行批量缓存;
当所述批量缓存的数据量达到阈值的情况下,通过建立好的链路进行批量输出。
6.如权利要求4所述的方法,其特征在于,所述输出处理结果之后,还包括:
监控所述集群各处理节点接入数据的速度以及输出结果的速度;
在所述接入数据的速度大于所述输出结果的速度的情况下,调整所述接入指示信息;调整后的所述接入指示信息用于指示限制处理节点接入数据的速度或者增大对接入数据的拆分数量。
7.如权利要求6所述的方法,其特征在于,在所述根据配置的线程对接入的数据源进行并行处理的过程中,针对异常数据登记错误数据类型,根据所述错误数据类型定时对所述异常数据进行修复,并对修复后的数据重新执行所述根据配置的线程对接入的数据源进行并行处理的步骤。
8.一种数据处理方法,其特征在于,包括:
接收控制节点发送的接入指示信息;所述接入指示信息包括所述控制节点根据数据源需要调配的资源信息,以及集群各处理节点的实时资源状况,生成的接入指示信息;
根据所述接入指示信息接入所述数据源,并根据配置的线程对接入的数据源进行并行处理,输出处理结果;其中所述配置的线程与其他处理节点配置的线程之间独立平行地处理数据。
9.如权利要求8所述的方法,其特征在于,所述配置的线程包括以插件化的方式配置的线程。
10.如权利要求8或9所述的方法,其特征在于,所述根据配置的线程对接入的数据源进行并行处理,包括:
根据自身配置的用于处理数据的线程对数据进行任务初始化;
根据接入的所述数据源的数据大小以及处理节点自身的实时资源状况,动态判断是否对下一级任务开启多个任务子线程进行数据处理;
在判断出对下一级任务开启多个任务子线程进行数据处理的情况下,对下一级任务进行细分,开启多个任务子线程对细分的任务进行并行处理;
将各个任务的处理结果进行汇聚并输出。
11.如权利要求10所述的方法,其特征在于,所述将各个任务的处理结果进行汇聚并输出,包括:
将数据源类型相同以及输出的出口地址相同的处理结果进行批量缓存;
当所述批量缓存的数据量达到阈值的情况下,通过建立好的链路进行批量输出。
12.如权利要求10所述的方法,其特征在于,所述根据配置的线程对接入的数据源进行并行处理,还包括:
针对异常数据登记错误数据类型;
根据所述错误数据类型定时对所述异常数据进行修复,并对修复后的数据重新执行所述根据自身配置的用于处理数据的线程对数据进行任务初始化的步骤。
13.一种数据处理装置,其特征在于,包括用于执行如权利要求1-3任一项、或6、或8-12任一项所述的方法的单元。
14.一种数据处理设备,其特征在于,包括处理器、存储器和通信模块,所述处理器、存储器和通信模块相互连接,其中,所述存储器用于存储数据处理代码,所述通信模块用于与外部设备进行信息交互;所述处理器被配置用于调用所述程序代码,执行如权利要求1-3任一项、或6、或8-12任一项所述的方法。
15.一种数据处理系统,其特征在于,包括控制节点和多个处理节点,所述多个处理节点为集群的处理节点;其中,
所述控制节点包括处理器、存储器和通信模块,所述处理器、存储器和通信模块相互连接,其中,所述存储器用于存储数据处理代码,所述通信模块用于与外部设备进行信息交互;所述处理器被配置用于调用所述程序代码,执行如权利要求1-3任一项、或6所述的方法;
所述处理节点包括处理器、存储器和通信模块,所述处理器、存储器和通信模块相互连接,其中,所述存储器用于存储数据处理代码,所述通信模块用于与外部设备进行信息交互;所述处理器被配置用于调用所述程序代码,执行如权利要求8-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810498324.0A CN110209549B (zh) | 2018-05-22 | 2018-05-22 | 数据处理方法、相关装置、相关设备和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810498324.0A CN110209549B (zh) | 2018-05-22 | 2018-05-22 | 数据处理方法、相关装置、相关设备和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110209549A true CN110209549A (zh) | 2019-09-06 |
CN110209549B CN110209549B (zh) | 2022-02-22 |
Family
ID=67779078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810498324.0A Active CN110209549B (zh) | 2018-05-22 | 2018-05-22 | 数据处理方法、相关装置、相关设备和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209549B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110708576A (zh) * | 2019-09-25 | 2020-01-17 | 李多 | 收视数据处理方法、装置以及存储介质 |
CN111221652A (zh) * | 2020-01-03 | 2020-06-02 | 北京百度网讯科技有限公司 | 数据处理方法和装置 |
CN112540836A (zh) * | 2020-12-11 | 2021-03-23 | 光大兴陇信托有限责任公司 | 一种业务调度管理方法和系统 |
CN112559130A (zh) * | 2020-12-16 | 2021-03-26 | 恒生电子股份有限公司 | 容器分配方法、装置、电子设备及存储介质 |
CN112769639A (zh) * | 2020-12-22 | 2021-05-07 | 杭州迪普科技股份有限公司 | 一种并行下发配置信息的方法及装置 |
CN113778502A (zh) * | 2020-06-29 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 一种数据处理的方法、装置、系统和存储介质 |
CN117273571A (zh) * | 2023-10-12 | 2023-12-22 | 江苏泓鑫科技有限公司 | 一种基于区块链的智慧港口作业数据管理系统与方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050039159A1 (en) * | 2003-05-21 | 2005-02-17 | The Regents Of The University Of California | Systems and methods for parallel distributed programming |
KR20090065133A (ko) * | 2007-12-17 | 2009-06-22 | 한국전자통신연구원 | 분산 병렬 처리 시스템에서 태스크 스레드 그룹별 태스크분배 장치, 방법 및 처리 방법 |
CN104572306A (zh) * | 2015-01-28 | 2015-04-29 | 中国石油集团川庆钻探工程有限公司地球物理勘探公司 | 计算机集群的资源管理方法、资源管理器 |
CN105022671A (zh) * | 2015-07-20 | 2015-11-04 | 中国科学院计算技术研究所 | 一种用于流式数据并行处理的负载均衡方法 |
JP2016110397A (ja) * | 2014-12-05 | 2016-06-20 | 日本電信電話株式会社 | 並列処理システム、方法、およびプログラム |
CN106126601A (zh) * | 2016-06-20 | 2016-11-16 | 华南理工大学 | 一种社保大数据分布式预处理方法及系统 |
CN107580023A (zh) * | 2017-08-04 | 2018-01-12 | 山东大学 | 一种动态调整任务分配的流处理作业调度方法及系统 |
-
2018
- 2018-05-22 CN CN201810498324.0A patent/CN110209549B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050039159A1 (en) * | 2003-05-21 | 2005-02-17 | The Regents Of The University Of California | Systems and methods for parallel distributed programming |
KR20090065133A (ko) * | 2007-12-17 | 2009-06-22 | 한국전자통신연구원 | 분산 병렬 처리 시스템에서 태스크 스레드 그룹별 태스크분배 장치, 방법 및 처리 방법 |
JP2016110397A (ja) * | 2014-12-05 | 2016-06-20 | 日本電信電話株式会社 | 並列処理システム、方法、およびプログラム |
CN104572306A (zh) * | 2015-01-28 | 2015-04-29 | 中国石油集团川庆钻探工程有限公司地球物理勘探公司 | 计算机集群的资源管理方法、资源管理器 |
CN105022671A (zh) * | 2015-07-20 | 2015-11-04 | 中国科学院计算技术研究所 | 一种用于流式数据并行处理的负载均衡方法 |
CN106126601A (zh) * | 2016-06-20 | 2016-11-16 | 华南理工大学 | 一种社保大数据分布式预处理方法及系统 |
CN107580023A (zh) * | 2017-08-04 | 2018-01-12 | 山东大学 | 一种动态调整任务分配的流处理作业调度方法及系统 |
Non-Patent Citations (2)
Title |
---|
FLORIAN: "《Flink架构、原理与部署测试》", 《HTTPS://WWW.CNBLOGS.COM/FANZHIDONGYZBY/P/6297723.HTML》 * |
张辉: "《分布式实时日志密度数据流聚类算法及其基于Storm的实现》", 《中国新通信》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110708576A (zh) * | 2019-09-25 | 2020-01-17 | 李多 | 收视数据处理方法、装置以及存储介质 |
CN111221652A (zh) * | 2020-01-03 | 2020-06-02 | 北京百度网讯科技有限公司 | 数据处理方法和装置 |
CN113778502A (zh) * | 2020-06-29 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 一种数据处理的方法、装置、系统和存储介质 |
CN112540836A (zh) * | 2020-12-11 | 2021-03-23 | 光大兴陇信托有限责任公司 | 一种业务调度管理方法和系统 |
CN112540836B (zh) * | 2020-12-11 | 2024-05-31 | 光大兴陇信托有限责任公司 | 一种业务调度管理方法和系统 |
CN112559130A (zh) * | 2020-12-16 | 2021-03-26 | 恒生电子股份有限公司 | 容器分配方法、装置、电子设备及存储介质 |
CN112559130B (zh) * | 2020-12-16 | 2024-01-19 | 恒生电子股份有限公司 | 容器分配方法、装置、电子设备及存储介质 |
CN112769639A (zh) * | 2020-12-22 | 2021-05-07 | 杭州迪普科技股份有限公司 | 一种并行下发配置信息的方法及装置 |
CN112769639B (zh) * | 2020-12-22 | 2022-09-30 | 杭州迪普科技股份有限公司 | 一种并行下发配置信息的方法及装置 |
CN117273571A (zh) * | 2023-10-12 | 2023-12-22 | 江苏泓鑫科技有限公司 | 一种基于区块链的智慧港口作业数据管理系统与方法 |
CN117273571B (zh) * | 2023-10-12 | 2024-04-02 | 江苏泓鑫科技有限公司 | 一种基于区块链的智慧港口作业数据管理系统与方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110209549B (zh) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209549B (zh) | 数据处理方法、相关装置、相关设备和系统 | |
US11050656B2 (en) | System and method to learn and prescribe network path for SDN | |
US20200104184A1 (en) | Accelerated resource allocation techniques | |
US8578381B2 (en) | Apparatus, system and method for rapid resource scheduling in a compute farm | |
CN104657212A (zh) | 一种任务调度的方法及系统 | |
CN110990138B (zh) | 资源调度方法、装置、服务器及存储介质 | |
CN112162865A (zh) | 服务器的调度方法、装置和服务器 | |
CN109992404A (zh) | 集群计算资源调度方法、装置、设备及介质 | |
CN105049268A (zh) | 分布式计算资源分配系统和任务处理方法 | |
US11838384B2 (en) | Intelligent scheduling apparatus and method | |
CN112988679B (zh) | 日志采集控制方法、装置、存储介质及服务器 | |
US20240152395A1 (en) | Resource scheduling method and apparatus, and computing node | |
CN114500578A (zh) | 分布式存储系统负载均衡调度方法、装置及存储介质 | |
US20050089063A1 (en) | Computer system and control method thereof | |
CN117149382A (zh) | 虚拟机调度方法、装置、计算机设备和存储介质 | |
WO2022161081A1 (zh) | 集成学习模型的训练方法、装置、系统和相关设备 | |
CN115712572A (zh) | 任务的测试方法、装置、存储介质及电子装置 | |
CN111211938B (zh) | 生物信息软件监控系统及方法 | |
CN114257618A (zh) | 一种基于车联网平台的车辆运行数据实时分析系统 | |
CN114220383A (zh) | 任务处理方法、装置和控制设备以及led显示系统 | |
CN114443258B (zh) | 用于虚拟机的资源调度方法、装置、设备及存储介质 | |
CN113259977B (zh) | 一种数据传输系统及其资源配置方法 | |
CN118573683B (zh) | 用于智慧校园服务的异步均衡方法及平台 | |
KR20130010314A (ko) | 폭증 데이터 스트림 처리 방법 및 장치 | |
CN118740933A (zh) | 一种多集群的资源调度方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |