CN112084016A

CN112084016A - 一种基于flink的流计算性能优化系统及方法

Info

Publication number: CN112084016A
Application number: CN202010732081.XA
Authority: CN
Inventors: 赵云鹏
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-12-15
Anticipated expiration: 2040-07-27
Also published as: CN112084016B

Abstract

本发明公开了一种基于flink的流计算性能优化系统及方法，属于流计算技术领域。本系统监控模块，用于实时监控并获取flink运行过程中不同阶段的运行参数；数据收集模块，用于将从所述监控模块获取的运行参数输出至一数据库中；策略调整模块，根据所述数据库中的运行参数，结合预设的启动参数，通过策略调整算法，输出下一步的运行方案；运行管理模块，根据所述策略调整模块输出的运行方案调整运行参数，并应用到flink运行中。本发明用于flink流计算场景资源分配自动适配，可以提高流计算服务的实际吞吐量，充分发挥硬件性能；节省开发和调试成本，由程序自行运行判断，降低人力成本。

Description

一种基于flink的流计算性能优化系统及方法

技术领域

本发明涉及流计算技术领域，尤其涉及一种基于flink的流计算性能优化系统及方法。

背景技术

大数据是一种时下流行的IT应用技术，通过hadoop/sparka等常见模块系统对电商、金融、工业、通信等各个领域提供了海量数据的存储、查询和分析功能。在各类场景下，都会出现大规模实时计算的业务诉求，需要实时接入从不同来源、不同渠道传来的海量数据，在传输过程中进行转换、抽取、清洗，并进行一些简单计算，一方面是在数据进行入库存储之前进行必要的转换，以满足存储需求，另一方面是有很多需要实时演算的业务需求，比如实时预警、实时统计等。

在这些计算过程中，主要的性能消耗来源于各类数据交换，如何使有限的硬件资源充分发挥效率，达到一个尽可能高的产出，是问题所在。

现有技术中，通过flink任务启动配置进行静态资源分配，分配逻辑固定，需要人工手动配置，需要事先根据要处理的数据、业务逻辑对计算用量进行估算，设置合理的资源配置方式，无法根据实际数据情况进行自动调整。

本发明基于flink的流计算方式，通过制定一系列方法、策略，制定了一种针对大数据流计算场景可以自主调节、进行性能优化的方案，配置简单，功能强大而且可以适用于多种场景。

发明内容

本发明针对上述问题，提出了一种基于flink的流计算性能优化系统及方法，具有自动检测和调节当前配置设置，优化系统运行状况，提高整体系统吞吐量的优点。

为了实现上述目的，本发明提供了如下技术方案：

一种基于flink的流计算性能优化系统，包括：

监控模块，用于实时监控并获取flink运行过程中不同阶段的运行参数；

数据收集模块，用于将从所述监控模块获取的运行参数输出至一数据库中；

策略调整模块，根据所述数据库中的运行参数，结合预设的启动参数，通过策略调整算法，输出下一步的运行方案；

运行管理模块，根据所述策略调整模块输出的运行方案调整运行参数，并应用到flink运行中。

优选的是，所述运行参数包括并行度、每个taskmanager上的slot数、每个taskmanager所分配的内存大小、CUP数量以及吞吐量。

优选的是，所述策略调整算法为：通过比较实际运行的吞吐量的大小，不断缩小并行度的范围，最终确定并行度的值，再根据并行度的值输出每个taskmanager上分配的内存大小，得到运行方案。

优选的是，所述系统应用在flink中，用于调整运行参数、启动和停止flink服务。

本发明还提出一种基于flink的流计算性能优化方法，包括以下步骤：

S1：实时获取flink运行过程中不同阶段的运行参数；

S2：将S1中获取的运行参数输出至一数据库中；

S3：根据数据库中的运行参数，结合预设的启动参数，通过策略调整算法，输出下一步的运行方案；

S4:根据S3中输出的运行方案调整运行参数大小，并应用到flink的实际运行中。

优选的是，S3具体包括：

S31：根据数据库的运行参数，预先设定一组并行度，通过比较不同并行度下的吞吐量，不断缩小并行度的范围，最终确定并行度的大小；

S32：根据S31中所得到的并行度，结合不同内存下的吞吐量，确定每个taskmanager所分配的内存大小。

优选的是，S31具体包括：

S311：根据数据库中的运行参数，预设一组并行度的上下限，分别为ps和pe，并取平均值为pm；

S312：分别将并行度设置为ps、pe和pm运行程序，得到对应并行度下的吞吐量Ts、Te和Tm；

S313：比较Ts、Te和Tm，当Ts<Te,则取pm和pe作为新的ps1和pe1，若Ts>Te,则取ps和pm作为新的ps1和pe1，重复步骤S11和S12至得到的两个并行度ps、pe之间的差小于预设阈值时，停止以上操作，取吞吐量较大的并行度为最终的并行度的大小。

优选的是，S32中根据S31中选定的并行度的大小，得到当每个Taskmanager所分配的内存大小分别为16GB、12GB、8GB、4GB、2GB下的吞吐量，经过比较，取吞吐量最大的内存大小。

优选的是，当吞吐量的比较情况出现：当相邻的两组内存大小，较大者的吞吐量不超过较小者的110％，则选取较小的内存大小。

优选的是，S4包括：根据S31、S32得到的并行度和内存大小调整运行参数大小，并应用到flink的实际运行中。

本发明提供的一种基于flink的流计算性能优化系统及方法，可应用于flink流计算场景资源分配自动适配，具有以下优点：

(1)通过建立一个系统，实现了flink流计算的性能优化的自动调整；

(2)本方法对flink流计算进行实时性能优化，实现对资源配置的动态调整。

(3)增大流计算服务的实际吞吐量，消除瓶颈的负面影响，充分发挥硬件性能。

(4)节省开发和调试成本，使得开发和维护人员不需要关注程序运行配置相关参数，由程序自行运行判断，降低人力成本，缩短开发上线时间。

附图说明

图1为flink计算的主要运行过程示意图；

图2为TaskManager进行分布式计算的原理结构示意图；

图3为本发明提出的基于flink的流计算性能优化系统的结构示意图；

图4为本发明提出的基于flink的流计算性能优化系统的工作流程示意图；

图5为本发明提出的基于flink的流计算性能优化方法的流程图。

具体实施方式

以下，结合附图对本发明的具体实施方式进行进一步的描述。

本发明提出了一种基于flink的流计算性能优化系统，可用于流计算技术领域，具体而言，用于flink流计算场景资源分配自动适配的问题，可以提高流计算服务的实际吞吐量，充分发挥硬件性能。

flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。flink以数据并行和流水线方式执行任意流数据程序，flink的流水线运行时系统可以执行批处理和流处理程序。此外，flink的运行时本身也支持迭代算法的执行。flink几乎是目前流计算框架的最佳选择，同时，flink的运行过程为本发明的提出提供了可能。

如图1所示，flink计算的主要运行过程：

首先将flink集群将调用端要计算的内容提交到JobManager，然后JobManager将计算任务分发到各个TaskManager，关于数据读取、计算等操作都是在TaskManager上以分布式任务的形式运行，完成计算后，TaskManager再将状态和计算结果返回给JobManager和调用端。

TaskManager进行分布式计算的原理见图2：

flink集群在每个TaskManager中包括若干个Slot，Slot是执行计算的最小单位，要计算的算子(包括数据读取、映射、分组、存储等)都根据算子的并行度，被划分到各Slot中，由Slot依次执行计算。在一个Slot上执行几个算子后，再根据数据分组的需求，被分配到下一个Slot继续执行，直到最终被输出或保存。每个Slot中都可以有若干个线程同时执行，以保证flink分布式运行的效率。

为了可以根据flink集群的实际资源状况，划分TaskManager、划分Slot以及设置算子的并行度，使资源更合理的分配到各个节点，在保证系统正常运行的前提下，尽可能提高整体的吞吐量。

如图3所示，本发明提出的一种基于flink的流计算性能优化系统，包括：

监控模块，用于实时监控并获取flink运行过程中数据获取、计算、输出等不同阶段的性能指标；本实施例中监控模块包括但不限于Promotheus监控模块，Promotheus监控模块是由SoundCloud开发的开源监控报警系统和时序数据库(TSDB，Time SeriesDatabase)，是一个开源系统监控和警报模块。

数据收集模块，从所述监控模块中获取运行参数，包括并行度P、每个taskmanager上的slot数S、每个taskmanager所分配的内存大小M、CUP数量C以及吞吐量T，并保存至数据库中，该数据库用来保存运行状态历史记录；虽然Promotheus监控模块中自身带有数据库，但是这里建立一个新的数据库更便于实现策略调整，便于数据的提取和使用。

策略调整模块，所述策略调整模块根据数据收集模块存储在数据库中的运行参数，结合预设的启动参数，经过策略调整算法的计算，输出下一步的运行方案；

上述的策略调整算法根据收集到的实时吞吐量情况，结合当前的并行度p、每个taskmanager上的slot数s、每个taskmanager所分配的内存大小m以及CPU数量c，通过比较实际运行的吞吐量的大小，不断缩小并行度的范围，最终确定并行度的值，再根据并行度的值输出每个taskmanager上分配的内存大小，得到运行方案。

运行管理模块，所述运行管理模块接收到所述策略调整模块指定的运行方案，得到其中的配置修改信息，并依据修改后的信息执行程序。本系统应用到flink中，用于调整运行参数、启动或停止flink服务等。此模块使改变的运行参数及时的应用到实际运行中，使监控模块监控的数据是经过优化的相关数据，便于进一步的优化。

如图4所示，对本系统的工作流程作出以下说明：

首先，Promotheus监控模块对flink运行过程中数据获取、计算、输出等不同阶段的性能指标进行监控获取；其次，数据采集模块从Promotheus监控模块中获取关键运行参数，并保存到存储运行状况历史记录的数据库中；再次，策略调整模块从数据库中得到运行参数，经过计算，制定下一步运行方案；最后，运行管理模块根据策略调整模块得到的运行方案，调整参数，运行flink。

如图5所示，本发明还提出了一种基于flink的流计算性能优化方法，基于上述一种基于flink的流计算性能优化系统，设置每次启动时的初始参数，将s和c设置为1，m默认设置为16GB，根据收集的不同条件下的运行参数，经过计算推演，在操作算子层面调整并行度，得到较大吞吐量下的并行度；再由得到的并行度，反推出每个taskmanager所分配的内存大小。

具体包括以下步骤：

S1：实时获取flink运行过程中不同阶段的运行参数；

S2：将S1中获取的运行参数输出至一数据库中；

S3具体包括：

其中S31具体包括：

S32具体包括：根据S31中选定的并行度的大小，得到当每个Taskmanager所分配的内存大小分别为16GB、12GB、8GB、4GB、2GB下的吞吐量，经过比较，取吞吐量最大的内存大小。

当吞吐量的比较情况出现：当相邻的两组内存大小，较大者的吞吐量不超过较小者的110％，则选取较小的内存大小。

S4具体包括：根据S31、S32得到的并行度和内存大小调整运行参数大小，并应用到flink的实际运行中。

当上述吞吐量比较情况出现：对于相邻的两组m值，若较大的内存m的吞吐量不超过较小者的110％，考虑到程序运行受到多种环境因素的影响，选取较小的值作为最后的每个taskmanager所分配的内存值。

需要指出的是，上述吞吐量为程序启动3分钟后，1分钟内从上游获取的数据库总量。

S4步骤后监控模块继续获取flink运行过程中不同阶段的性能指标，数据收集模块从获取的性能指标中提取关键运行参数，并输出至策略调整模块，所述策略调整模块继续S1-S4步骤，形成一个循环，便于继续动态优化性能。

按照以上步骤，只需要将机器语言部署到flink环境下，就会在策略调整模块的指挥下，反复调整配置并收集相关数据，直至达到一个比较合理的运行配置。

总之，本发明提出的一种基于flink的流计算性能优化系统提供了针对flink流计算程序进行动态优化调节的功能，并根据对应的方法，动态调整计算所需的资源配置，通过运行管理模块和监控模块对程序操纵和数据监控，通过收集的运行数据，将程序调整到最佳的执行配置。

本发明增大了流计算服务中实际的吞吐量，笑出了瓶颈的负面影响，可以充分发挥硬件性能；同时，实现自行运行判断并调整参数，节省了开发和调试成本。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于flink的流计算性能优化系统，其特征在于，包括：

2.根据权利要求1所述的一种基于flink的流计算性能优化系统，其特征在于，所述运行参数包括并行度、每个taskmanager上的slot数、每个taskmanager所分配的内存大小、CUP数量以及吞吐量。

3.根据权利要求2所述的一种基于flink的流计算性能优化系统，其特征在于，所述策略调整算法为：通过比较实际运行的吞吐量的大小，不断缩小并行度的范围，最终确定并行度的值，再根据并行度的值输出每个taskmanager上分配的内存大小，得到运行方案。

4.根据权利要求1-3任意一项所述的一种基于flink的流计算性能优化系统，其特征在于，所述系统应用在flink中，用于调整运行参数、启动和停止flink服务。

5.一种基于flink的流计算性能优化方法，其特征在于，包括以下步骤：

S1：实时获取flink运行过程中不同阶段的运行参数；

S2：将S1中获取的运行参数输出至一数据库中；

6.根据权利要求5所述的一种基于flink的流计算性能优化方法，其特征在于，S3具体包括：

7.根据权利要求6所述的一种基于flink的流计算性能优化方法，其特征在于，S31具体包括：

8.根据权利要求6所述的一种基于flink的流计算性能优化方法，其特征在于，S32中根据S31中选定的并行度的大小，得到当每个Taskmanager所分配的内存大小分别为16GB、12GB、8GB、4GB、2GB下的吞吐量，经过比较，取吞吐量最大的内存大小。

9.根据权利要求8任意一项所述的一种基于flink的流计算性能优化方法，其特征在于，当吞吐量的比较情况出现：当相邻的两组内存大小，较大者的吞吐量不超过较小者的110％，则选取较小的内存大小。

10.根据权利要求6所述的一种基于flink的流计算性能优化方法，其特征在于，S4包括：根据S31、S32得到的并行度和内存大小调整运行参数大小，并应用到flink的实际运行中。