CN112328613B - 联机分析处理方法、装置、电子设备及存储介质 - Google Patents

联机分析处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112328613B
CN112328613B CN202011220365.7A CN202011220365A CN112328613B CN 112328613 B CN112328613 B CN 112328613B CN 202011220365 A CN202011220365 A CN 202011220365A CN 112328613 B CN112328613 B CN 112328613B
Authority
CN
China
Prior art keywords
node
acquisition speed
acquisition
speed
latest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011220365.7A
Other languages
English (en)
Other versions
CN112328613A (zh
Inventor
黄金涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maipu Communication Technology Co Ltd
Original Assignee
Maipu Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maipu Communication Technology Co Ltd filed Critical Maipu Communication Technology Co Ltd
Priority to CN202011220365.7A priority Critical patent/CN112328613B/zh
Publication of CN112328613A publication Critical patent/CN112328613A/zh
Application granted granted Critical
Publication of CN112328613B publication Critical patent/CN112328613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供一种联机分析处理方法、装置、电子设备及存储介质,涉及数据处理技术领域。该应用于采集节点的方法包括:监听到协调服务节点上本节点的当前采集速度变化后,获取最新的当前采集速度,所述最新的当前采集速度由分析集群主控节点提交到所述协调服务节点;基于所述最新的当前采集速度设置令牌桶大小;在采集到数据流时,基于所述令牌桶大小向分析集群主控节点推送数据流。该方法基于采集节点的当前采集速度设置令牌桶大小,基于令牌桶大小调控采集节点向流处理节点推送日志的速度,实现了数据分析中的流量限制,避免在线分析处理由于源数据过大导致分析性能不足、长时间占用资源过高的问题。

Description

联机分析处理方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种联机分析处理方法、装置、电子设备及存储介质。
背景技术
联机分析处理(Online Analytical Processing,OLAP)技术对海量数据应用复杂的分析操作,并以一种直观而易懂的形式将查询结果提供给决策人员,使决策人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
但在OLAP中受物理环境的限制,往往会出现采集的数据量过大,分析处理阻塞的问题,长时间的处理阻塞,会导致运行环境卡顿,资源占用高的问题,进而引起整个系统的崩溃。
发明内容
有鉴于此,本申请实施例的目的在于提供一种联机分析处理方法、装置、电子设备及存储介质,以改善现有技术中存在的由于源数据过大导致分析性能不足、长时间占用资源过高的问题。
本申请实施例提供了一种联机分析处理方法,应用于采集节点,所述方法包括:监听到协调服务节点上本节点的当前采集速度变化后,获取最新的当前采集速度,所述最新的当前采集速度由分析集群主控节点提交到所述协调服务节点;基于所述最新的当前采集速度设置令牌桶大小;在采集到数据流时,基于所述令牌桶大小向分析集群主控节点推送数据流。
在上述实现方式中,通过监听协调服务节点获取并更新采集节点的当前采集速度对其进行更新,基于采集节点的当前采集速度设置令牌桶大小,从而根据令牌桶大小调节采集节点向流处理节点推送日志的速度,实现了数据分析中的数据流的流量限制,避免在线分析处理由于源数据过大导致分析性能不足、长时间占用资源过高的问题。
可选地,所述方法还包括:在本节点首次启动时,向所述协调服务节点进行注册,以使所述协调服务节点保存本节点的配置信息,所述配置信息包括节点IP、最大采集速度和当前采集速度,所述最大采集速度和所述当前采集速度初始化为不限速的初始值。
在上述实现方式中,通过协调服务节点对每个采集节点分别进行注册,以使协调服务节点能够对采集节点的进行配置信息的初始化以及更新,提高了采集节点的数据采集速度调整的实时性。
可选地,所述方法还包括:在本节点的所述当前采集速度为不限速的初始值时,将上一个处理周期的平均采集速度作为最新的当前采集速度;将所述最新的当前采集速度作为最新的最大采集速度;将所述最新的最大采集速度提交至所述协调服务节点,以使所述协调服务节点更新保存的本节点的所述配置信息中的所述最大采集速度。
在上述实现方式中,采集节点基于本采集节点的实际采集速度和最大采集速度调整需要的最新的当前采集速度和最新的当前采集速度,从而基于采集和处理性能对采集节点的采集速度进行动态平衡,增强分析性能和采集性能的平衡性。
本申请实施例还提供了一种联机分析处理方法,应用于分析集群主控节点,所述方法包括:在当前处理周期的数据流处理完成时,基于所述数据流的数据量和处理时间计算所述数据流对应的采集节点的预期采集速度;通过协调服务节点获取所述采集节点的最大采集速度和当前采集速度;在所述处理时间小于处理周期时,确定所述采集节点最新的当前采集速度为不限速的初始值;在所述处理时间大于或等于所述处理周期时,基于所述预期采集速度和所述最大采集速度的比较结果确定所述采集节点的所述最新的当前采集速度;将所述采集节点的所述最新的当前采集速度提交至所述协调服务节点。
在上述实现方式中,分析集群主控节点通过数据流处理的数据处理时间和处理时间对采集节点的当前采集速度进行调节,从而基于采集和处理性能对采集节点的采集速度进行动态平衡,进一步增强分析性能和采集性能的平衡性。
可选地,所述在所述处理时间大于或等于所述处理周期时,基于所述预期采集速度和所述最大采集速度的比较结果确定所述采集节点最新的当前采集速度,包括:在所述处理时间大于或等于所述处理周期,且所述预期采集速度大于或等于所述最大采集速度时,将所述最大采集速度作为所述最新的当前采集速度;在所述处理时间大于或等于所述处理周期,且所述预期采集速度小于所述最大采集速度时,将所述预期采集速度作为所述最新的当前采集速度。
在上述实现方式中,基于当前数据流的处理周期、处理时间以及预期采集速度和最大采集速度的对比情况,确定采集节点的采集速度和流处理速度的平衡关系,能够基于该平衡关系对采集节点的采集速度进行调节,进一步增强分析性能和采集性能的平衡性。
可选地,所述基于所述数据流的数据量和处理时间计算所述数据流对应的采集节点的预期采集速度,包括:将所述处理周期与所述处理时间的比值乘以所述当前采集速度,获得所述数据流对应的采集节点的所述预期采集速度。
在上述实现方式中,预期采集速度由处理周期、当前采集速度和数据处理时间获取,能够更加准确地体现采集节点的采集速度的实时性。
本申请实施例还提供了一种联机分析处理方法,应用于协调服务节点,所述方法包括:接收分析集群主控节点提交的任一采集节点的最新的当前采集速度;基于所述最新的当前采集速度更新保存的所述采集节点的配置信息中的当前采集速度;向所述采集节点通知当前采集速度发生变化,以使所述采集节点获取所述最新的当前采集速度,基于所述最新的当前采集速度设置令牌桶大小,在采集到数据流时,基于所述令牌桶大小向所述分析集群主控节点推送所述数据流。
在上述实现方式中,通过协调服务节点获取并更新采集节点的当前的配置信息,基于采集节点的当前采集速度设置令牌桶大小,从而根据令牌桶大小调节采集节点向分析集群主控节点推送日志的速度,实现了数据分析中的流量限制,避免在线分析处理由于源数据过大导致分析性能不足、长时间占用资源过高的问题,同时通过协调服务节点基于采集节点和分析节点的数据对采集速度进行实时调控,从而增强了分析性能和采集性能的平衡性。
本申请实施例还提供了一种联机分析处理装置,应用于采集节点,所述装置包括:监听模块,用于监听到协调服务节点上本节点的当前采集速度变化后,获取最新的当前采集速度,所述最新的当前采集速度由分析集群主控节点提交到所述协调服务节点;令牌桶模块,用于基于所述最新的当前采集速度设置令牌桶大小;推送模块,用于在采集到数据流时,基于所述令牌桶大小向分析集群主控节点推送数据流。
在上述实现方式中,通过监听协调服务节点获取并更新采集节点的当前采集速度对其进行更新,基于采集节点的当前采集速度设置令牌桶大小,从而根据令牌桶大小调节采集节点向流处理节点推送日志的速度,实现了数据分析中的数据流的流量限制,避免在线分析处理由于源数据过大导致分析性能不足、长时间占用资源过高的问题。
可选地,所述联机分析处理装置还包括:首次注册模块,用于在本节点首次启动时,向所述协调服务节点进行注册,以使所述协调服务节点保存本节点的配置信息,所述配置信息包括节点IP、最大采集速度和当前采集速度,所述最大采集速度和所述当前采集速度初始化为不限速的初始值。
在上述实现方式中,通过协调服务节点对每个采集节点分别进行注册,以使协调服务节点能够对采集节点的进行配置信息的初始化以及更新,提高了采集节点的数据采集速度调整的实时性。
可选地,所述监听模块用于:在本节点的所述当前采集速度为不限速的初始值时,将上一个处理周期的平均采集速度作为最新的当前采集速度;将所述最新的当前采集速度作为最新的最大采集速度;将所述最新的最大采集速度提交至所述协调服务节点,以使所述协调服务节点更新保存的本节点的所述配置信息中的所述最大采集速度。
在上述实现方式中,采集节点基于本采集节点的实际采集速度和最大采集速度调整需要的最新的当前采集速度和最新的当前采集速度,从而基于采集和处理性能对采集节点的采集速度进行动态平衡,增强分析性能和采集性能的平衡性。
本申请实施例还提供了一种联机分析处理装置,应用于分析集群主控节点,所述装置包括:预期采集速度计算模块,用于在当前处理周期的数据流处理完成时,基于所述数据流的数据量和处理时间计算所述数据流对应的采集节点的预期采集速度;速度监听获取模块,用于通过协调服务节点获取所述采集节点的最大采集速度和当前采集速度;第一采集速度修改模块,用于在所述处理时间小于处理周期时,确定所述采集节点最新的当前采集速度为不限速的初始值;所述第一采集速度修改模块,用于在所述处理时间大于或等于所述处理周期时,基于所述预期采集速度和所述最大采集速度的比较结果确定所述采集节点的所述最新的当前采集速度;提交模块,用于将所述采集节点的所述最新的当前采集速度提交至所述协调服务节点。
在上述实现方式中,分析集群主控节点通过数据流处理的数据处理时间和处理时间对采集节点的当前采集速度进行调节,从而基于采集和处理性能对采集节点的采集速度进行动态平衡,进一步增强分析性能和采集性能的平衡性。
可选地,所述第一采集速度修改模块用于:在所述处理时间大于或等于所述处理周期,且所述预期采集速度大于或等于所述最大采集速度时,将所述最大采集速度作为所述最新的当前采集速度;在所述处理时间大于或等于所述处理周期,且所述预期采集速度小于所述最大采集速度时,将所述预期采集速度作为所述最新的当前采集速度。
在上述实现方式中,基于当前数据流的处理周期、处理时间以及预期采集速度和最大采集速度的对比情况,确定采集节点的采集速度和流处理速度的平衡关系,能够基于该平衡关系对采集节点的采集速度进行调节,进一步增强分析性能和采集性能的平衡性。
可选地,所述预期采集速度计算模块用于:将所述处理周期与所述处理时间的比值乘以所述当前采集速度,获得所述数据流对应的采集节点的所述预期采集速度。
在上述实现方式中,预期采集速度由处理周期、当前采集速度和数据处理时间获取,能够更加准确地体现采集节点的采集速度的实时性。
本申请实施例还提供了一种联机分析处理装置,应用于协调服务节点,所述装置包括:最新采集速度获取模块,用于接收分析集群主控节点提交的任一采集节点的最新的当前采集速度;更新模块,用于基于所述最新的当前采集速度更新保存的所述采集节点的配置信息中的当前采集速度;推送模块,用于向所述采集节点通知当前采集速度发生变化,以使所述采集节点获取所述最新的当前采集速度,基于所述最新的当前采集速度设置令牌桶大小,在采集到数据流时,基于所述令牌桶大小向所述分析集群主控节点推送所述数据流。
在上述实现方式中,通过协调服务节点获取并更新采集节点的当前的配置信息,基于采集节点的当前采集速度设置令牌桶大小,从而根据令牌桶大小调节采集节点向分析集群主控节点推送日志的速度,实现了数据分析中的流量限制,避免在线分析处理由于源数据过大导致分析性能不足、长时间占用资源过高的问题,同时通过协调服务节点基于采集节点和分析节点的数据对采集速度进行实时调控,从而增强了分析性能和采集性能的平衡性。
本申请实施例还提供了一种电子设备,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器读取并运行所述程序指令时,执行上述任一实现方式中的步骤。
本申请实施例还提供了一种可读取存储介质,所述可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行上述任一实现方式中的步骤。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请提供的一种应用于采集节点的联机分析处理方法的流程示意图。
图2为本申请实施例提供的一种基于配置信息确定当前采集速度步骤的流程示意图。
图3为本申请实施例提供的一种应用于分析集群主控节点的联机分析处理方法的流程示意图。
图4为本申请实施例提供的一种应用于协调服务节点的联机分析处理方法的流程示意图。
图5为本申请实施例提供的一种应用于采集节点的联机分析处理装置的模块示意图。
图6为本申请实施例提供的一种应用于分析集群主控节点的联机分析处理装置的模块示意图。
图7为本申请实施例提供的一种应用于协调服务节点的联机分析处理装置的模块示意图。
图标:40-联机分析处理装置;41-监听模块;42-令牌桶模块;43-推送模块;50-联机分析处理装置;51-预期采集速度计算模块;52-速度监听获取模块;53-第一采集速度修改模块;54-提交模块;60-联机分析处理装置;61-最新采集速度获取模块;62-更新模块;63-推送模块。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行描述。
为了解决现有技术中OLAP会受物理环境的限制出现采集的数据量过大,分析处理阻塞,导致运行环境卡顿,资源占用高的问题,本申请实施例提供了一种应用于采集节点的联机分析处理方法,请参考图1,图1为本申请提供的一种应用于采集节点的联机分析处理方法的流程示意图,该联机分析处理方法具体可以包括:
步骤S12:监听到协调服务节点上本节点的当前采集速度变化后,获取最新的当前采集速度。
通信传送网络中的节点,是信号的交叉连接点,是业务分插交汇点,是网络管理系统的切入点,是信号功率的放大点和传输中的数字信号的产生点。
本实施例中的采集节点可以是进行数据采集的节点,且其可以是采集集群节点。
采集节点需要从协调服务节点监听获取本采集节点的当前的配置信息,采集节点上设置有协调服务客户端,例如ZooKeeper客户端,采集节点通过该协调服务客户端进监听配置信息中本节点的当前采集速度变化。
针对集群,节点通过设置集群名称,在同一网络中发现具有相同集群名称的节点,组成集群。如果在同一网络中只有一个节点,则这个节点成为一个单节点集群,即此节点集群中每个节点都是功能齐全的服务。
应当理解的是,采集节点在首次启动时需要向协调服务节点进行注册,以进行配置信息的初始化,其具体步骤可以包括:在采集节点首次启动时,在协调服务节点进行注册,以使协调服务节点保存本节点的配置信息。其中,上述配置信息包括节点IP(InternetProtocol,网际互连协议)、最大采集速度(maxSpeed)和当前采集速度(curSpeed)。
可选地,在采集节点首次启动时协调服务节点配置的最大采集速度和当前采集速度均为不限速的初始值。
配置信息至少包括采集节点的节点IP、最大采集速度和当前采集速度,因此采集节点获取配置信息时,可以是将节点IP作为唯一身份标识在协调服务节点进行认证,然后获取与该节点IP对应的配置信息。
具体地,请参考图2,图2为本申请实施例提供的一种基于配置信息确定当前采集速度步骤的流程示意图,具体可以如下:
步骤S121:在本节点的当前采集速度为不限速的初始值时,将上一个处理周期的平均采集速度作为最新的当前采集速度。
处理周期也可以称为batchTime或批处理时间,其概念为一个批次进行数据处理的时长。
当前采集速度为不限速的初始值时说明本处理周期无法根据当前实际的数据采集速度进行采集速度调控,则将上一个处理周期的平均采集速度作为最新的当前采集速度,能够最大限度地使最新的当前采集速度符合实时的数据处理速度。
步骤S122:将最新的当前采集速度作为最新的最大采集速度。
在当前采集速度为不限速的初始值时,当前的最大采集速度可能已经限制了采集、处理速度,因此需要将最新的当前采集速度作为最新的最大采集速度,以保证最大限度利用采集、处理资源。
步骤S123:将最新的最大采集速度提交至协调服务节点,以使协调服务节点更新保存的本节点的配置信息中的最大采集速度。
采集节点通过协调服务客户端向协调服务节点上传数据,协调服务节点则基于接收到的数据对配置信息进行变更,更新其中的当前采集速度和最大采集速度。
步骤S14:基于最新的当前采集速度设置令牌桶大小。
令牌桶算法是网络流量整形(Traffic Shaping)和速率限制(Rate Limiting)中最常使用的一种算法。典型情况下,令牌桶算法用来控制发送到网络上的数据的数目,并允许突发数据的发送。大小固定的令牌桶可自行以恒定的速率源源不断地产生令牌。如果令牌不被消耗,或者被消耗的速度小于产生的速度,令牌就会不断地增多,直到把桶填满。后面再产生的令牌就会从桶中溢出。最后桶中可以保存的最大令牌数永远不会超过桶的大小。传送到令牌桶的数据包需要消耗令牌。不同大小的数据包,消耗的令牌数量不一样。
应当理解的是,在当前采集速度为不限速的初始值时,表示不需要设置令牌桶大小,不进行采集速度限制。
步骤S16:在采集到数据流时,基于令牌桶大小向分析集群主控节点推送数据流。
可选地,本实施例中的分析集群主控节点可以是对数据流进行流处理控制的节点或集群节点。
流处理是一种允许用户在接收到的数据后的短时间内快速查询连续数据流和检测条件的技术,因此流处理是一种重要的大数据处理手段,其主要特点是其处理的数据是源源不断且实时到来的。
与上述采集节点和协调服务节点相同,对流数据进行流处理的节点或设备可以是分布式的流处理集群。分布式流处理是一种面向动态数据的细粒度处理模式,基于分布式内存,对不断产生的动态数据进行处理。其对数据处理的快速,高效,低延迟等特性,在大数据处理中发挥越来越重要的作用。
可选地,本实施例中的流处理可以是具有流处理平台功能的设备完成,例如但不限于是Kafka,Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。
可选地,本实施例中的分析集群主控节点可以通过协调服务客户端监听采集节点的配置信息变化。
分析集群主控节点在接收到需要分析处理的数据流后,应当数据流进行分析处理,并且根据分析处理效率和采集速度进行两者之间的平衡。
为了基于数据处理速度对各采集节点的采集速度进行实时调控,本申请实施例还提供了一种应用于分析集群主控节点的联机分析处理方法,请参考图3,图3为本申请实施例提供的一种应用于分析集群主控节点的联机分析处理方法的流程示意图,该方法的具体步骤可以如下:
步骤S21:在当前处理周期的数据流处理完成时,基于数据流的数据量和处理时间计算数据流对应的采集节点的预期采集速度。
上述处理周期为已知固定值,可以不动态获取。当前数据流处理的判定是基于处理周期确定,每个处理周期对应一个批次数据流处理。
具体地,将处理周期与处理时间的比值乘以当前采集速度,获得采集节点的预期采集速度,通过公式可以表示如下:
Figure BDA0002761485670000121
步骤S22:通过协调服务节点获取采集节点的最大采集速度和当前采集速度。
本实施例中的分析集群主控节点可以是具有ZooKeeper功能和计算功能的节点,与采集节点相似,分析集群主控节点也可以是分析集群主控集群节点。
可选地,分析集群主控节点可以是基于Spark的设备,Spark是专为大规模数据处理而设计的快速通用的计算引擎,其启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。同时,Spark是一个通用引擎,可用它来完成各种各样的运算,包括SQL(Structured Query Language,结构化查询语言)查询、文本处理、机器学习等。
分析集群主控节点可以通过协调服务客户端监听协调服务节点的配置信息,获得配置信息以获取采集节点的最大采集速度和当前采集速度。
可选地,分析集群主控节点在对采集速度进行调节的同时,也并行对数据流进行分析处理。同时,分析集群主控节点可以通过StreamingListener监听SparkStreaming的数据处理进行监听,StreamingListener为SparkStreaming数据处理监听器,SparkStreaming为Spark实时流计算框架。
步骤S23:在处理时间小于处理周期时,确定采集节点最新的当前采集速度为不限速的初始值。
在数据流的处理时间小于处理周期时,表示数据流分析性能有剩余,需要提高采集节点的采集速度,则将最新的当前采集速度设置为不限速的初始值,以使采集节点基于前述方式调整采集速度。
步骤S24:在处理时间大于或等于处理周期时,基于预期采集速度和最大采集速度的比较结果确定采集节点的最新的当前采集速度。
在数据流处理时间大于或等于处理周期时,表示数据流分析性能不足,需要降低采集集群采集速度,因此步骤S24的具体步骤可以如下:
步骤S242:在处理时间大于或等于处理周期,且预期采集速度大于或等于最大采集速度时,将最大采集速度作为最新的当前采集速度。
步骤S244:在处理时间大于或等于处理周期,且预期采集速度小于最大采集速度时,将预期采集速度作为最新的当前采集速度。
步骤S25:将采集节点的最新的当前采集速度提交至协调服务节点。
协调服务节点会根据分析集群主控节点提交的最新的当前采集速度更新配置信息。
可选地,在处理时间大于或等于处理周期时,还可以将最新的当前采集速度作为最新的最大采集速度提交至协调服务节点,以使协调服务节点更新保存的采集节点的配置信息中的最大采集速度。
为了基于采集节点和分析节点提交的采集速度和处理速度信息进行采集速度的调控,本实施例还提供了一种应用于协调服务节点的联机分析处理方法。请参考图4,图4为本申请实施例提供的一种应用于协调服务节点的联机分析处理方法的流程示意图,该方法的具体步骤可以如下:
步骤S32:接收分析集群主控节点提交的任一采集节点的最新的当前采集速度。
本实施例中的协调服务节点可以是具有ZooKeeper功能的节点,与采集节点相似,协调服务节点也可以是协调服务集群节点。
同时,每个协调服务节点和每个采集节点均通信连接。
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等,其目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
步骤S34:基于最新的当前采集速度更新保存的采集节点的配置信息中的当前采集速度。
步骤S36:向采集节点通知当前采集速度发生变化,以使采集节点获取最新的当前采集速度,基于最新的当前采集速度设置令牌桶大小,在采集到数据流时,基于令牌桶大小向分析集群主控节点推送数据流。
可选地,除了当前采集速度,协调服务节点还可以根据分析集群主控节点提交的任一采集节点的最新的最大采集速度,对配置信息中的最大采集速度进行更新,并向对应的采集节点进行通知。
协调服务节点可以根据分析集群主控节点的数据处理情况动态的调节采集节点各个服务器的采集速度和最大采集速度,实现分析性能和采集性能的动态平衡,保证系统的长期稳定运行。
为了配合上述应用于采集节点的联机分析处理方法,本申请实施例还提供了一种应用于采集节点的联机分析处理装置40。
请参考图5,图5为本申请实施例提供的一种应用于采集节点的联机分析处理装置的模块示意图。
联机分析处理装置40包括:
监听模块41,用于监听到协调服务节点上本节点的当前采集速度变化后,获取最新的当前采集速度,最新的当前采集速度由分析集群主控节点提交到协调服务节点;
令牌桶模块42,用于基于最新的当前采集速度设置令牌桶大小;
推送模块43,用于在采集到数据流时,基于令牌桶大小向分析集群主控节点推送数据流。
可选地,联机分析处理装置40还包括:首次注册模块,用于在本节点首次启动时,向协调服务节点进行注册,以使协调服务节点保存本节点的配置信息,配置信息包括节点IP、最大采集速度和当前采集速度,最大采集速度和当前采集速度初始化为不限速的初始值。
可选地,监听模块41用于:在本节点的当前采集速度为不限速的初始值时,将上一个处理周期的平均采集速度作为最新的当前采集速度;将最新的当前采集速度作为最新的最大采集速度;将最新的最大采集速度提交至协调服务节点,以使协调服务节点更新保存的本节点的配置信息中的最大采集速度。
为了配合上述应用于分析集群主控节点的联机分析处理方法,本申请实施例还提供了一种应用于分析集群主控节点的联机分析处理装置50。
请参考图6,图6为本申请实施例提供的一种应用于分析集群主控节点的联机分析处理装置的模块示意图。
联机分析处理装置50包括:
预期采集速度计算模块51,用于在当前处理周期的数据流处理完成时,基于数据流的数据量和处理时间计算数据流对应的采集节点的预期采集速度;
速度监听获取模块52,用于通过协调服务节点获取采集节点的最大采集速度和当前采集速度;
第一采集速度修改模块53,用于在处理时间小于处理周期时,确定采集节点最新的当前采集速度为不限速的初始值;
第一采集速度修改模块53,用于在处理时间大于或等于处理周期时,基于预期采集速度和最大采集速度的比较结果确定采集节点的最新的当前采集速度;
提交模块54,用于将采集节点的最新的当前采集速度提交至协调服务节点。
可选地,第一采集速度修改模块53用于:在处理时间大于或等于处理周期,且预期采集速度大于或等于最大采集速度时,将最大采集速度作为最新的当前采集速度;在处理时间大于或等于处理周期,且预期采集速度小于最大采集速度时,将预期采集速度作为最新的当前采集速度。
可选地,预期采集速度计算模块51用于:将处理周期与处理时间的比值乘以当前采集速度,获得数据流对应的采集节点的预期采集速度。
为了配合上述应用于协调服务节点的联机分析处理方法,本申请实施例还提供了一种应用于协调服务节点的联机分析处理装置60。
请参考图7,图7为本申请实施例提供的一种应用于协调服务节点的联机分析处理装置的模块示意图。
联机分析处理装置60包括:
最新采集速度获取模块61,用于接收分析集群主控节点提交的任一采集节点的最新的当前采集速度;
更新模块62,用于基于最新的当前采集速度更新保存的采集节点的配置信息中的当前采集速度;
推送模块63,用于向采集节点通知当前采集速度发生变化,以使采集节点获取最新的当前采集速度,基于最新的当前采集速度设置令牌桶大小,在采集到数据流时,基于令牌桶大小向分析集群主控节点推送数据流。
本申请实施例还提供了一种电子设备,该电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器读取并运行所述程序指令时,执行本实施例提供的联机分析处理方法中任一项所述方法中的步骤。
应当理解是,该电子设备可以是个人电脑(Personal Computer,PC)、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)等具有逻辑计算功能的电子设备。
本申请实施例还提供了一种可读取存储介质,所述可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行联机分析处理方法中的步骤。
综上所述,本申请实施例提供了一种联机分析处理方法、装置、电子设备及存储介质,其中应用于采集节点的方法包括:监听到协调服务节点上本节点的当前采集速度变化后,获取最新的当前采集速度,所述最新的当前采集速度由分析集群主控节点提交到所述协调服务节点;基于所述最新的当前采集速度设置令牌桶大小;在采集到数据流时,基于所述令牌桶大小向分析集群主控节点推送数据流。
在上述实现方式中,通过监听协调服务节点获取并更新采集节点的当前采集速度对其进行更新,基于采集节点的当前采集速度设置令牌桶大小,从而根据令牌桶大小调节采集节点向流处理节点推送日志的速度,实现了数据分析中的数据流的流量限制,避免在线分析处理由于源数据过大导致分析性能不足、长时间占用资源过高的问题。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的框图显示了根据本申请的多个实施例的设备的可能实现的体系架构、功能和操作。在这点上,框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图中的每个方框、以及框图的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。因此本实施例还提供了一种可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行区块数据存储方法中任一项所述方法中的步骤。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RanDom Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种联机分析处理方法,其特征在于,应用于采集节点,所述方法包括:
监听到协调服务节点上本节点的当前采集速度变化后,获取最新的当前采集速度,所述最新的当前采集速度由分析集群主控节点提交到所述协调服务节点;
基于所述最新的当前采集速度设置令牌桶大小;
在采集到数据流时,基于所述令牌桶大小向分析集群主控节点推送数据流;
在本节点首次启动时,向所述协调服务节点进行注册,以使所述协调服务节点保存本节点的配置信息,所述配置信息包括节点IP、最大采集速度和当前采集速度,所述最大采集速度和所述当前采集速度初始化为不限速的初始值;
在本节点的所述当前采集速度为不限速的初始值时,将上一个处理周期的平均采集速度作为最新的当前采集速度;
将所述最新的当前采集速度作为最新的最大采集速度;
将所述最新的最大采集速度提交至所述协调服务节点,以使所述协调服务节点更新保存的本节点的所述配置信息中的所述最大采集速度。
2.一种联机分析处理方法,其特征在于,应用于分析集群主控节点,所述方法包括:
在当前处理周期的数据流处理完成时,基于所述数据流的数据量和处理时间计算所述数据流对应的采集节点的预期采集速度;
通过协调服务节点获取所述采集节点的最大采集速度和当前采集速度;
在所述处理时间小于处理周期时,确定所述采集节点最新的当前采集速度为不限速的初始值;
在所述处理时间大于或等于所述处理周期时,基于所述预期采集速度和所述最大采集速度的比较结果确定所述采集节点的所述最新的当前采集速度;
将所述采集节点的所述最新的当前采集速度提交至所述协调服务节点。
3.根据权利要求2所述的方法,其特征在于,所述在所述处理时间大于或等于所述处理周期时,基于所述预期采集速度和所述最大采集速度的比较结果确定所述采集节点最新的当前采集速度,包括:
在所述处理时间大于或等于所述处理周期,且所述预期采集速度大于或等于所述最大采集速度时,将所述最大采集速度作为所述最新的当前采集速度;
在所述处理时间大于或等于所述处理周期,且所述预期采集速度小于所述最大采集速度时,将所述预期采集速度作为所述最新的当前采集速度。
4.根据权利要求2或3所述的方法,其特征在于,所述基于所述数据流的数据量和处理时间计算所述数据流对应的采集节点的预期采集速度,包括:
将所述处理周期与所述处理时间的比值乘以所述当前采集速度,获得所述数据流对应的采集节点的所述预期采集速度。
5.一种联机分析处理方法,其特征在于,应用于协调服务节点,所述方法包括:
接收分析集群主控节点提交的任一采集节点的最新的当前采集速度;
基于所述最新的当前采集速度更新保存的所述采集节点的配置信息中的当前采集速度;
向所述采集节点通知当前采集速度发生变化,以使所述采集节点获取所述最新的当前采集速度,基于所述最新的当前采集速度设置令牌桶大小,在采集到数据流时,基于所述令牌桶大小向所述分析集群主控节点推送所述数据流;
接收所述采集节点发送的最新的最大采集速度;
更新保存本节点的所述配置信息中的所述最大采集速度。
6.一种联机分析处理装置,其特征在于,应用于采集节点,所述装置包括:
监听模块,用于监听到协调服务节点上本节点的当前采集速度变化后,获取最新的当前采集速度,所述最新的当前采集速度由分析集群主控节点提交到所述协调服务节点;
令牌桶模块,用于基于所述最新的当前采集速度设置令牌桶大小;
推送模块,用于在采集到数据流时,基于所述令牌桶大小向分析集群主控节点推送数据流;
首次注册模块,用于在本节点首次启动时,向所述协调服务节点进行注册,以使所述协调服务节点保存本节点的配置信息,所述配置信息包括节点IP、最大采集速度和当前采集速度,所述最大采集速度和所述当前采集速度初始化为不限速的初始值;
所述监听模块还用于:在本节点的所述当前采集速度为不限速的初始值时,将上一个处理周期的平均采集速度作为最新的当前采集速度;将所述最新的当前采集速度作为最新的最大采集速度;将所述最新的最大采集速度提交至所述协调服务节点,以使所述协调服务节点更新保存的本节点的所述配置信息中的所述最大采集速度。
7.一种联机分析处理装置,其特征在于,应用于分析集群主控节点,所述装置包括:
预期采集速度计算模块,用于在当前处理周期的数据流处理完成时,基于所述数据流的数据量和处理时间计算所述数据流对应的采集节点的预期采集速度;
速度监听获取模块,用于通过协调服务节点获取所述采集节点的最大采集速度和当前采集速度;
第一采集速度修改模块,用于在所述处理时间小于处理周期时,确定所述采集节点最新的当前采集速度为不限速的初始值;
所述第一采集速度修改模块,用于在所述处理时间大于或等于所述处理周期时,基于所述预期采集速度和所述最大采集速度的比较结果确定所述采集节点的所述最新的当前采集速度;
提交模块,用于将所述采集节点的所述最新的当前采集速度提交至所述协调服务节点。
8.一种联机分析处理装置,其特征在于,应用于协调服务节点,所述装置包括:
最新采集速度获取模块,用于接收分析集群主控节点提交的任一采集节点的最新的当前采集速度;
更新模块,用于基于所述最新的当前采集速度更新保存的所述采集节点的配置信息中的当前采集速度;
推送模块,用于向所述采集节点通知当前采集速度发生变化,以使所述采集节点获取所述最新的当前采集速度,基于所述最新的当前采集速度设置令牌桶大小,在采集到数据流时,基于所述令牌桶大小向所述分析集群主控节点推送所述数据流;
所述最新采集速度获取模块,还用于接收所述采集节点发送的最新的最大采集速度;
所述更新模块,还用于更新保存本节点的所述配置信息中的所述最大采集速度。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器运行所述程序指令时,执行权利要求1-5中任一项所述方法中的步骤。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器运行时,执行权利要求1-5任一项所述方法中的步骤。
CN202011220365.7A 2020-11-04 2020-11-04 联机分析处理方法、装置、电子设备及存储介质 Active CN112328613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011220365.7A CN112328613B (zh) 2020-11-04 2020-11-04 联机分析处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011220365.7A CN112328613B (zh) 2020-11-04 2020-11-04 联机分析处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112328613A CN112328613A (zh) 2021-02-05
CN112328613B true CN112328613B (zh) 2022-07-22

Family

ID=74315697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011220365.7A Active CN112328613B (zh) 2020-11-04 2020-11-04 联机分析处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112328613B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103441954A (zh) * 2013-08-27 2013-12-11 福建星网锐捷网络有限公司 一种报文发送方法、装置及网络设备
US8681630B1 (en) * 2010-09-21 2014-03-25 Google Inc. Configurable rate limiting using static token buckets, and applications thereof
US8914497B1 (en) * 2011-12-15 2014-12-16 Amazon Technologies, Inc. System and method for throttling service requests having non-uniform workloads
CN106713168A (zh) * 2016-12-21 2017-05-24 上海艾融软件股份有限公司 一种流量控制方法及系统
CN107623641A (zh) * 2017-11-03 2018-01-23 湖南天冠电子信息技术有限公司 限速方法及装置
CN107682279A (zh) * 2017-11-03 2018-02-09 东软集团股份有限公司 一种时延控制方法、装置及存储介质、程序产品
CN111708482A (zh) * 2020-05-12 2020-09-25 苏州浪潮智能科技有限公司 一种分布式存储中限制带宽的方法、系统、设备及介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8743693B2 (en) * 2005-09-30 2014-06-03 Alcatel Lucent Method for dynamically adjusting token bucket sizes
CN1968131A (zh) * 2006-09-29 2007-05-23 华为技术有限公司 一种调整令牌桶桶高的方法和装置
CN100459589C (zh) * 2006-12-04 2009-02-04 杭州华三通信技术有限公司 流量监管方法及流量监管设备
CN101478494B (zh) * 2009-02-16 2011-03-16 中兴通讯股份有限公司 一种基于令牌桶算法的数据包处理方法及装置
CN101959236B (zh) * 2009-07-13 2013-06-26 大唐移动通信设备有限公司 一种流量控制的方法和装置
CN102082693B (zh) * 2011-02-15 2015-05-20 中兴通讯股份有限公司 网络流量监管方法及装置
CN102413042A (zh) * 2011-11-14 2012-04-11 盛科网络(苏州)有限公司 基于时戳更新令牌桶的流量监管的方法及系统
WO2013180613A2 (en) * 2012-05-29 2013-12-05 Telefonaktiebolaget L M Ericsson (Publ) Methods and nodes for improved estimation of available path capacity of a data transfer path
CN104980367B (zh) * 2014-04-03 2019-04-30 深圳市中兴微电子技术有限公司 一种令牌桶限速方法和装置
US10917353B2 (en) * 2018-02-28 2021-02-09 Microsoft Technology Licensing, Llc Network traffic flow logging in distributed computing systems
CN108650192B (zh) * 2018-04-28 2022-04-01 国网福建省电力有限公司 一种基于令牌桶优化算法的流量控制方法
CN108848038B (zh) * 2018-08-30 2021-01-29 华为技术有限公司 基于令牌桶的流量管理方法和令牌桶节点

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8681630B1 (en) * 2010-09-21 2014-03-25 Google Inc. Configurable rate limiting using static token buckets, and applications thereof
US8914497B1 (en) * 2011-12-15 2014-12-16 Amazon Technologies, Inc. System and method for throttling service requests having non-uniform workloads
CN103441954A (zh) * 2013-08-27 2013-12-11 福建星网锐捷网络有限公司 一种报文发送方法、装置及网络设备
CN106713168A (zh) * 2016-12-21 2017-05-24 上海艾融软件股份有限公司 一种流量控制方法及系统
CN107623641A (zh) * 2017-11-03 2018-01-23 湖南天冠电子信息技术有限公司 限速方法及装置
CN107682279A (zh) * 2017-11-03 2018-02-09 东软集团股份有限公司 一种时延控制方法、装置及存储介质、程序产品
CN111708482A (zh) * 2020-05-12 2020-09-25 苏州浪潮智能科技有限公司 一种分布式存储中限制带宽的方法、系统、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向QoS的一种移动智能代理实体模型;李捷等;《通信学报》;20060425(第04期);第7-12页 *

Also Published As

Publication number Publication date
CN112328613A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
US12105740B2 (en) Low-latency streaming analytics
US10447772B2 (en) Managed function execution for processing data streams in real time
Singh et al. Bloom filter based optimization scheme for massive data handling in IoT environment
US10547618B2 (en) Method and apparatus for setting access privilege, server and storage medium
US9246859B2 (en) Peer-to-peer collaboration of publishers in a publish-subscription environment
CN111124819A (zh) 全链路监控的方法和装置
EP2802979A2 (en) Processing store visiting data
CN111782692B (zh) 一种频率控制方法及装置
RU2697648C2 (ru) Система классификации трафика
CN107766463A (zh) 一种多业务驱动的中间件系统的存储处理方法及装置
CN106789147B (zh) 一种流量分析方法及装置
CN112506887B (zh) 车辆终端can总线数据处理方法及装置
CN111078975B (zh) 一种多节点增量式数据采集系统及采集方法
Lou et al. An elephant flow detection method based on machine learning
CN112328613B (zh) 联机分析处理方法、装置、电子设备及存储介质
CN115391429A (zh) 基于大数据云计算的时序数据处理方法及装置
Racka Apache Nifi As A Tool For Stream Processing Of Measurement Data
CN115473688A (zh) 面向软件定义网络的异常检测方法、装置及设备
CN113868400A (zh) 数字人问题应答的方法及装置、电子设备、存储介质
CN111813542A (zh) 一种并行处理大规模图分析任务的负载均衡方法及其装置
CN113779335A (zh) 信息生成方法、装置、电子设备和计算机可读介质
CN110019671B (zh) 一种处理实时消息的方法和系统
CN116861455B (zh) 事件数据处理方法、系统、电子设备及存储介质
CN108737522A (zh) 一种消息的处理方法、装置和系统
Chen et al. Fuzzy association rule mining algorithm based on load classifier

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant