CN117609751A - 一种基于Flink动态水位线调整的方法及相关设备 - Google Patents
一种基于Flink动态水位线调整的方法及相关设备 Download PDFInfo
- Publication number
- CN117609751A CN117609751A CN202311559810.6A CN202311559810A CN117609751A CN 117609751 A CN117609751 A CN 117609751A CN 202311559810 A CN202311559810 A CN 202311559810A CN 117609751 A CN117609751 A CN 117609751A
- Authority
- CN
- China
- Prior art keywords
- target
- time
- data
- training model
- series data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 116
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000015654 memory Effects 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 10
- 238000013500 data storage Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 abstract description 14
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013068 supply chain management Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本申请公开了一种基于Flink动态水位线调整的方法及相关设备,用于动态的调整Flink水位线,无需使用人工进行干预,且该策略可以根据具体业务需求进行灵活配置和优化,适应不同业务场景下的数据处理要求,具有通用性,从而提高数据的准确性,可满足不同延迟要求和实际情况下窗口计算结果准确性需求。本申请方法包括:从流式数据源中采集目标数据集合,所述目标数据集合中包含有多个流式时间序列数据;构建初始时间训练模型,所述初始时间训练中内嵌有LSTM时间序列模型;将所述目标数据集合输入所述初始时间训练模型中训练并生成目标时间训练模型;获取多个目标流式时间序列数据。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基于Flink动态水位线调整的方法及相关设备。
背景技术
当今大数据时代,各类门户网站、搜索引擎和社交媒体等互联网平台持续不断地产生着海量的数据,在这些数据中蕴含着丰富的信息价值,因此针对实时性和准确性提出了迫切需求。然而,由于网络传输速度不同、计算节点性能差异以及数据背压等因素的影响,流入计算框架的流式数据往往呈现局部乱序或弹性乱序的现象,对海量流式数据的价值挖掘产生了不利影响。
现有的处理方法是利用Flink的水位线调整,Flink水位线的优点是能够在流数据处理中引入时间语义,并通过设置水位线来控制窗口计算的触发时机。这可以确保只有那些达到一定延迟要求或者已经没有更多迟到数据的事件被包含在窗口计算中,从而保证了结果的准确性。然而,现有Flink的水位线调整需要人工手动进行设置设置,使用人工设置Flink水位线存在以下缺点:
(1)需要依赖工作人员的专业知识和经验,由于不同场景和应用可能需要不同延迟要求,手动设置水位线需要对系统行为和数据特征有深入理解。
(2)不适应实时变化,传统方式下无法根据流数据乱序程度等条件动态调整水位线,导致难以满足实际需求。
(3)特殊场景难以处理,某些应用场景中,流数据可能会出现非常快速、频繁地乱序现象,手动调整水位线无法及时跟踪这些巨大波动。
因此很大程度影响了数据的准确性,无法满足不同延迟要求和实际情况下窗口计算结果准确性需求。
发明内容
为了解决上述技术问题,本申请提供了一种基于Flink动态水位线调整的方法及相关设备。
下面对本申请中提供的技术方案进行描述:
本申请第一方面提供了基于Flink动态水位线调整的方法,所述方法包括:
从流式数据源中采集目标数据集合,所述目标数据集合中包含有多个流式时间序列数据;
构建初始时间训练模型,所述初始时间训练模型中内嵌有LSTM时间序列模型;
将所述目标数据集合输入所述初始时间训练模型中训练并生成目标时间训练模型;
获取多个目标流式时间序列数据;
将所述多个目标流式时间序列数据输入所述目标时间训练模型,以获取多个目标流式时间序列数据的乱序值;
根据所述乱序值确定乱序程度;
根据所述乱序程度制定动态水位调整策略;
根据所述动态水位调整策略动态调整Flink水位线。
可选的,从流式数据源中采集目标数据集合之后,所述方法还包括:
将所述目标数据集合中的多个流式时间序列数据按照事件时间戳进行排序;
将经过排序后的流式时间序列数据保存至数据存储介质中,所述数据存储介质包括消息队列、分布式文件系统或数据库。
可选的,在将所述目标数据集合输入所述初始时间训练模型中训练并生成目标时间训练模型之前,所述方法还包括:
将所述目标数据集合中多个流式时间序列数据的格式均转化为目标格式,所述目标格式为输入所述初始时间训练模型的格式;
将转化为目标格式的多个流式时间序列数据切割成对应数量的处理窗口;
为每个所述处理窗口创建输入标签和输出标签。
可选的,所述将所述目标数据集合输入所述初始时间训练模型中训练并生成目标时间训练模型,包括:
将多个所述处理窗口分为训练窗口集合和验证窗口集合;
将所述训练窗口集合所述验证窗口集合处理窗口迭代输入所述初始时间训练模型中训练,并生成目标时间训练模型。
可选的,将所述多个目标流式时间序列数据输入所述目标时间训练模型,以获取多个目标流式时间序列数据的乱序值,包括:
将所述多个目标流式时间序列数据输入所述目标时间训练模型,生成预测到达时间戳;
获取所述多个目标流式时间序列数据的实际到达时间戳;
根据所述预测到达时间戳和所述实际到达时间戳计算获取所述多个目标流式时间序列数据的乱序值。
可选的,根据所述乱序值确定乱序程度,包括:
计算所述多个目标流式时间序列数据的乱序值的均值;
根据所述均值确定所述乱序程度。
可选的,根据所述乱序值确定乱序程度,包括:
计算所述多个目标流式时间序列数据的乱序值的总和值;
根据所述总和值确定所述乱序程度。
本申请第二方面提供了一种基于Flink动态水位线调整的系统,包括:
采集单元,用于从流式数据源中采集目标数据集合,所述目标数据集合中包含有多个流式时间序列数据;
构建单元,用于构建初始时间训练模型,所述初始时间训练中内嵌有LSTM时间序列模型;
输入单元,用于将所述目标数据集合输入所述初始时间训练模型中训练并生成目标时间训练模型;
第一获取单元,用于获取多个目标流式时间序列数据;
第二获取单元,用于将所述多个目标流式时间序列数据输入所述目标时间训练模型,以获取多个目标流式时间序列数据的乱序值;
确定单元,用于根据所述乱序值确定乱序程度;
制定单元,用于根据所述乱序程度制定动态水位调整策略;
调整单元,用于根据所述动态水位调整策略动态调整Flink水位线。
本申请第三方面提供了一种基于Flink动态水位线调整装置,所述装置包括:
处理器、存储器、输入输出单元以及总线;
所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述存储器保存有程序,所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的所述方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行第一方面以及第一方面中任一项可选的所述方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请基于Flink动态水位线调整的方法首先是从流式数据源中采集目标数据集合,在目标数据集合中包含有多个流式时间序列数据;然后构建初始时间训练模型,初始时间训练中内嵌有LSTM时间序列模型;将目标数据集合输入初始时间训练模型中训练并生成目标时间训练模型;获取多个目标流式时间序列数据;将多个目标流式时间序列数据输入目标时间训练模型,以获取多个目标流式时间序列数据的乱序值,后面根据乱序值确定乱序程度;根据乱序程度制定动态水位调整策略,最后根据动态水位调整策略动态调整Flink水位线。
基于目标时间训练模型预测乱序值,并根据乱序值确定乱序程度之后,从而动态的调整Flink水位线,无需使用人工进行干预,且该策略可以根据具体业务需求进行灵活配置和优化,适应不同业务场景下的数据处理要求,具有通用性,从而提高数据的准确性,可满足不同延迟要求和实际情况下窗口计算结果准确性需求。
附图说明
为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请基于Flink动态水位线调整的方法的一个实施例示意图;
图2-1和图2-2为本申请基于Flink动态水位线调整的方法的另一个实施例示意图;
图3为本申请基于Flink动态水位线调整的系统的一个实施例示意图;
图4为本申请基于Flink动态水位线调整的装置的一个实施例示意图。
具体实施方式
需要说明的是,本申请提供的基于Flink动态水位线调整的方法,可以应用于终端也可以应用于系统,还可以应用于服务器上,例如终端可以是智能手机或电脑、平板电脑、智能电视、智能手表、便携计算机终端也可以是台式计算机等固定终端。为方便阐述,本申请中以终端为执行主体进行举例说明。
请参阅图1,本申请首先提供了一个基于Flink动态水位线调整的方法的实施例,该实施例包括:
101、终端从流式数据源中采集目标数据集合,所述目标数据集合中包含有多个流式时间序列数据;
在本申请实施中,终端可利用自动脚本软件从流式数据源中采集多个流式时间序列数据,时间序列数据是一串按时间维度索引的数据,时间序列数据描述了某个被测量的主体在一个时间范围内的每个时间点上的测量值,例如:如果你是一个股民,某只股票的股价就是一类时序数据,其记录着每个时间点该股票的股价。如果你是一个运维人员,监控数据是一类时序数据,例如对于机器的CPU的监控数据,就是记录着每个时间点机器上CPU的实际消耗值。在应用到不同的业务时,需要采集该业务对应的流式时间序列数据的目标数据集合,在目标数据集合中包含有多个流式时间序列数据,例如:物流追踪领域、广告推送领域和在线支付领域中,均需要采集物流追踪领域、广告推送领域和在线支付领域对应的目标数据集合,在对应领域的目标数据集合中,包含有对应领域的多个流式时间序列数据。
102、所述终端构建初始时间训练模型,所述初始时间训练模型中内嵌有LSTM(Long Short-Term Memory)时间序列模型;
在本申请实施例中,终端获取得到对应领域的多个流式时间序列数据之后,终端会构建初始时间训练模型,其中,在初始时间训练模型中内嵌有LSTM时间序列模型,其中,LSTM是一种用于处理时间序列数据的循环神经网络(RNN)模型。相比于传统的RNN,LSTM在捕捉长期依赖关系方面具有更好的能力。在初始时间训练模型中,每个时间步都有一个隐藏状态ht和一个记忆单元ct。ht是表示当前时间步的输出,ct是表示当前时间步的记忆信息。这两者通过一系列门控机制来确定当前时刻需要保留多少历史信息,并且如何从输入和先前状态中更新记忆。
具体的,LSTM模型由四个主要组件组成:遗忘门、输入门、细胞状态更新和输出门;
遗忘门:遗忘门决定了需要从之前的记忆中丢弃多少信息。它使用sigmoid函数将当前时间步的输入xt和上一个时间步隐藏状态h(t-1)作为输入,并产生一个范围在0到1之间的值,遗忘门的计算公式如下:
ft=σ(Wf)*[ht-1,xt]+bf
其中,Wf是表示遗忘门的权重矩阵,bf表示偏置项,xt是当前时间步的输入,h(t-1)是上一时间步的隐藏状态输入,σ是sigmoid函数,将输入值映射到0和1之间的概率值。
输入门:输入门决定了需要从新的输入和先前状态中添加多少新信息到细胞状态。它也使用sigmoid函数计算激活值it,并使用tanh函数计算新候选值C-t,输入门的计算公式如下:
it=σ(Wi*[ht-1,xt]+bi)
其中,Wi是输入门的权重矩阵,bi表示偏置项,xt是当前时间步的输入,h(t-1)是上一时间步的隐藏状态输入,σ是sigmoid函数,将输入值映射到0和1之间的概率值。
输入门的输出it是一个0到1之间的值,表示哪些新的输入应该被保留。当it接近1时,所有新的输入都会被完全保留,当it接近0时,所有新的输入都会被完全忽略。
接下来,LSTM会计算候选细胞状态它表示当前时间步的新输入可以对细胞状态产生多少影响。候选细胞状态的计算公式如下:
其中,Wc候选细胞状态的权重矩阵,bc表示偏置项,xt是当前时间步的输入,h(t-1)是上一时间步的隐藏状态输入,tanh双曲正切函数将输入值映射到-1与1之间的值。
输入门的作用是控制新的输入在当前时间步的权重。通过输入门,LSTM能够更好地处理长序列数据,避免梯度消失和梯度爆炸的问题。
从而提高模型的效果和稳定性。
细胞状态更新:细胞状态可以被看作是整个LSTM网络的核心,它可以存储和传递信息,同时也能够控制信息的流动和更新,细胞状态ct是经过遗忘门和输入门筛选后的上一个记忆与新候选值的加权叠加。细胞状态更新的公式如下:
其中,ft是遗忘门,表示对细胞状态进行遗忘的权重;it是输入门,表示对细胞状态进行更新的权重,是当前时间步的候选细胞状态,表示当前时间步的新输入可以对细胞状态产生多少影响。
当ft接近1时,过去的信息会被完全保留,当ft越接近0时,过去的信息会被完全遗忘,当it接近1时,新的输入会被完全保留,当it接近0时,新的输入会被完全忽略。
细胞状态的更新和传递是LSTM中非常重要的过程。在训练过程中,LSTM网络可以通过学习到的权重来自适应地更新细胞状态,保留和传递重要的信息。
输出门:输出门决定了当前时刻应该输出多少信息。它使用sigmoid函数计算激活值,并通过tanh函数得到当前隐藏状态ht,同时将细胞状态进行处理。输出门的计算公式如下:
其中,Wo是输出门的权重矩阵,bo表示偏置项,xt是当前时间步的输入,h(t-1)是上一时间步的隐藏状态输入,σ是sigmoid函数,将输入值映射到0和1之间的概率值。
输出门的输出ot是一个0到1之间的值,表示哪些信息应该被输出。当ot接近1时,所有的信息都会被完全保留;当ot接近0时,所有的信息都会被完全屏蔽。
LSTM模型通过不断迭代这些步骤来处理时间序列数据。每个时间步的输入都会影响隐藏状态和细胞状态,并且前一时间步的状态也会在当前时间步被考虑进来。
103、所述终端将所述目标数据集合输入所述初始时间训练模型中训练并生成目标时间训练模型;
在本申请实施例中,终端将获取得到对应领域的目标数据集合,即将对应领域的多个流式时间序列数据输入至初始时间训练模型中进行训练,从而获取得到目标时间训练模型,该目标时间训练模型可对新到达的流式数据进行处理,并对新到达的流式数据进行乱序值计算和预测。
104、所述终端获取多个目标流式时间序列数据;
105、所述终端将所述多个目标流式时间序列数据输入所述目标时间训练模型,以获取多个目标流式时间序列数据的乱序值;
在本申请实施例中,终端利用Flink的自定义函数功能,将生成的目标时间训练模型进行部署,并集成到数据流处理任务中,通过目标时间训练模型计算多个目标流式时间序列数据对应的乱序值,且计算得到的乱序值的个数与目标流式时间序列数量对应。
106、所述终端根据所述乱序值确定乱序程度;
在本申请实施例中,终端在通过目标时间训练模型计算得到多个流式时间序列数据的乱序值之后,根据乱序值确定乱序程度,其中,乱序值是指数据在到达时与其在时间上的预期顺序之间的差异,对于每个流式时间序列数据,会记录它的实际到达时间和它的预测顺序到达时间,其中,乱序值=实际到达时间戳-预期顺序时间戳。由于是通过目标时间训练模型对多个流式时间序列数据进行计算,因此可得到多个对应数量的乱序值。对于乱序值的个数以及对应的具体数值,在此不做具体限定。
进一步的,终端根据乱序值确定乱序程度。
107、所述终端根据所述乱序程度制定动态水位调整策略;
在本申请实施中,终端在根据乱序值确定乱序程度之后,会进一步的根据乱序程度制定动态水位调策略,例如:在乱序程度较低时可以适当降低动态水位线以提高实时性,而在乱序程度较高或突然波动大时可以提高水位线以保证准确性等,对于动态水位调整策略,可根据乱序程度进行制定。
108、所述终端根据所述动态水位调整策略动态调整Flink水位线。
在本申请实施例中,当终端确定好动态水位调整策略之后,对于之后新到达的流式时间序列数据,会通过目标时间训练模型计算得到对应的乱序值,并通过乱序值确定乱序程度之后,根据动态水位调整策略,动态的调整水位线,无需使用人工进行干预,且该策略可以根据具体业务需求进行灵活配置和优化,适应不同业务场景下的数据处理要求,具有通用性,从而提高数据的准确性,可满足不同延迟要求和实际情况下窗口计算结果准确性需求。
现举例说明该方法可应用于以下场景中:
1.物流追踪与管理需求。当大量货物运输信息不断汇集到Flink系统中进行实时监控和分析时,自动调整水位线值能够确保及时捕捉到货物位置变化、运输异常或延误情况等重要事件。通过快速触发窗口计算,企业能够立即采取相应措施来解决问题并优化供应链管理。
2.在广告推送领域需求。当海量用户产生的点击日志数据源源不断地进入Flink系统进行分析和个性化推送策略生成时,自动调整水位线值能够确保尽快识别用户兴趣、实施实时广告投放以及统计效果。通过及时触发窗口计算,并根据用户特征和行为预测,企业能够提供更精准的广告推荐和个性化营销服务。
在某些在线支付场景中,需要尽可能快地处理用户的交易数据。当用户进行支付操作时,数据流会实时流入Flink系统进行处理和分析。通过自动调整水位线值,可以及时触发窗口计算以检测欺诈行为、实施风险评估和生成实时报告。这样可以确保对每笔交易进行即时验证,并快速做出决策,提供高效安全的支付服务。
请参阅图2-1和图2-2,本申请首先提供了一个基于Flink动态水位线调整的方法的实施例,该实施例包括:
201、所述终端从流式数据源中采集目标数据集合,所述目标数据集合中包含有多个流式时间序列数据;
在本申请实施例中,步骤201与前述步骤101类似,在此不再赘述。
202、所述终端将所述目标数据集合中的多个流式时间序列数据按照事件时间戳进行排序;
在本申请实施例中,终端在获取到目标数据集合之后,将目标数据集合中的多个时间序列数据按照时间戳进行排序,排序的规则为从时间早的时间戳向时间晚的时间戳进行排序,也可由晚到早,在此不做具体限定。在将多个流式时间序列按照事件时间戳进行排序之后,执行步骤203。
203、所述终端将经过排序后的流式时间序列数据保存至数据存储介质中,所述数据存储介质包括消息队列、分布式文件系统或数据库;
204、所述终端构建初始时间训练模型,所述初始时间训练中内嵌有LSTM时间序列模型;
在本申请实施例中,步骤203与前述步骤102类似,在此不做具体限定。
205、所述终端将所述目标数据集合中多个流式时间序列数据的格式均转化为目标格式,所述目标格式为输入所述初始时间训练模型的格式;
在本申请实施中,由于获取得到的多个流式时间序列数据的格式均不相同,因此为了能够将多个流式时间序列数据统一输入至初始时间训练模型中进行训练,从而终端需要将多个流式时间序列数据的格式转化为能够输入初始时间训练模型的格式,使得初始时间训练模型在接收到流式时间序列数据之后,无需再对格式进行转化,可直接进行训练处理。对于初始时间训练模型的格式在此不做具体限定,可根据实际情况进行设定。
206、所述终端将转化为目标格式的多个流式时间序列数据切割成对应数量的处理窗口;
在本申请实施例中,对于LSTM模型,在将多个流式时间序列数据转换为适合输入模型的格式之后,将时间序列数据切割成一系列窗口,并为每个窗口创建输入和输出。可以设定:对于给定的窗口大小N,使用前N-1个时间步作为输入特征,第N个时间步作为输出标签。
207、所述终端将多个所述处理窗口分为训练窗口集合和验证窗口集合;
208、所述终端将所述训练窗口集合所述验证窗口集合处理窗口迭代输入所述初始时间训练模型中训练,并生成目标时间训练模型;
在本申请实施例中,将多个处理窗口分为训练窗口集合和验证窗口集合,在进行训练时,先将训练窗口输入到初始时间训练模型中进行训练,然后在验证过程中将验证窗口穿插到初始时间训练模型中,以此进行训练,在迭代输入过程中,可将初始时间训练模型训练生成目标时间训练模型,利用目标时间训练模型可对新到达的流式数据进行处理,并对新到达的流式数据进行乱序值计算和预测。
209、所述终端获取多个目标流式时间序列数据;
210、所述终端将所述多个目标流式时间序列数据输入所述目标时间训练模型,生成预测到达时间戳;
在本申请实施中,终端在获取到多个目标流式时间序列数据之后,将多个目标流式时间序列数据输入到目标时间训练模型中,目标时间训练模型会对多个目标流式时间序列数据进行分析处理,并生成对应的预测到达时间戳。
即每个目标流式时间序列数据在通过目标时间训练模型之后,均会得到对应的预测到达时间戳。
211、所述终端获取所述多个目标流式时间序列数据的实际到达时间戳;
212、所述终端根据所述预测到达时间戳和所述实际到达时间戳计算获取所述多个目标流式时间序列数据的乱序值;
在本申请实施例中,终端在获取到每个目标流式时间序列数据的预测到达时间戳和实际到达时间戳之后,进一步的计算对应的目标流式时间序列数据的乱序值,具体的,乱序值=实际到达时间戳-预测到达时间戳,根据上述公式对每个目标流式时间序列数据的乱序值进行计算。
213、所述终端根据所述乱序值确定乱序程度;
在本申请实施例中,终端在获取到多个目标流式时间序列数据的乱序值之后,进一步的根据乱序值确定乱序程度,具体的,有两种方式确定乱序程度:
一、计算多个目标流式时间序列数据的乱序值的均值,根据均值确定乱序程度。
二、计算多个目标流式时间序列数据的乱序值的总和值,根据总和值确定乱序程度。
214、所述终端根据所述乱序程度制定动态水位调整策略;
215、所述终端根据所述动态水位调整策略动态调整Flink水位线。
在本申请实施例中,步骤215至步骤216与前述步骤107至步骤108。
请参阅图3,本申请第二方面提供了一种基于Flink动态水位线调整的系统,包括:
采集单元301,用于从流式数据源中采集目标数据集合,所述目标数据集合中包含有多个流式时间序列数据;
构建单元302,用于构建初始时间训练模型,所述初始时间训练中内嵌有LSTM时间序列模型;
输入单元303,用于将所述目标数据集合输入所述初始时间训练模型中训练并生成目标时间训练模型;
第一获取单元304,用于获取多个目标流式时间序列数据;
第二获取单元305,用于将所述多个目标流式时间序列数据输入所述目标时间训练模型,以获取多个目标流式时间序列数据的乱序值;
确定单元306,用于根据所述乱序值确定乱序程度;
制定单元307,用于根据所述乱序程度制定动态水位调整策略;
调整单元308,用于根据所述动态水位调整策略动态调整Flink水位线。
请参阅图4,本申请还提供了一种基于Flink动态水位线调整装置,包括:
处理器401、存储器402、输入输出单元403、总线404;
处理器401与存储器402、输入输出单元403以及总线404相连;
存储器402保存有程序,处理器401调用程序以执行如上任一方法。
本申请还涉及一种计算机可读存储介质,计算机可读存储介质上保存有程序,其特征在于,当程序在计算机上运行时,使得计算机执行如上任一方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种基于Flink动态水位线调整的方法,其特征在于,所述方法包括:
从流式数据源中采集目标数据集合,所述目标数据集合中包含有多个流式时间序列数据;
构建初始时间训练模型,所述初始时间训练模型中内嵌有LSTM时间序列模型;
将所述目标数据集合输入所述初始时间训练模型中训练并生成目标时间训练模型;
获取多个目标流式时间序列数据;
将所述多个目标流式时间序列数据输入所述目标时间训练模型,以获取多个目标流式时间序列数据的乱序值;
根据所述乱序值确定乱序程度;
根据所述乱序程度制定动态水位调整策略;
根据所述动态水位调整策略动态调整Flink水位线。
2.根据权利要求1所述的基于Flink动态水位线调整的方法,其特征在于,从流式数据源中采集目标数据集合之后,所述方法还包括:
将所述目标数据集合中的多个流式时间序列数据按照事件时间戳进行排序;
将经过排序后的流式时间序列数据保存至数据存储介质中,所述数据存储介质包括消息队列、分布式文件系统或数据库。
3.根据权利要求1所述的基于Flink动态水位线调整的方法,其特征在于,在将所述目标数据集合输入所述初始时间训练模型中训练并生成目标时间训练模型之前,所述方法还包括:
将所述目标数据集合中多个流式时间序列数据的格式均转化为目标格式,所述目标格式为输入所述初始时间训练模型的格式;
将转化为目标格式的多个流式时间序列数据切割成对应数量的处理窗口;
为每个所述处理窗口创建输入标签和输出标签。
4.根据权利要求3所述的基于Flink动态水位线调整的方法,其特征在于,所述将所述目标数据集合输入所述初始时间训练模型中训练并生成目标时间训练模型,包括:
将多个所述处理窗口分为训练窗口集合和验证窗口集合;
将所述训练窗口集合所述验证窗口集合处理窗口迭代输入所述初始时间训练模型中训练,并生成目标时间训练模型。
5.根据权利要求1所述的基于Flink动态水位线调整的方法,其特征在于,将所述多个目标流式时间序列数据输入所述目标时间训练模型,以获取多个目标流式时间序列数据的乱序值,包括:
将所述多个目标流式时间序列数据输入所述目标时间训练模型,生成预测到达时间戳;
获取所述多个目标流式时间序列数据的实际到达时间戳;
根据所述预测到达时间戳和所述实际到达时间戳计算获取所述多个目标流式时间序列数据的乱序值。
6.根据权利要求5所述的基于Flink动态水位线调整的方法,其特征在于,根据所述乱序值确定乱序程度,包括:
计算所述多个目标流式时间序列数据的乱序值的均值;
根据所述均值确定所述乱序程度。
7.根据权利要求5所述的基于Flink动态水位线调整的方法,其特征在于,根据所述乱序值确定乱序程度,包括:
计算所述多个目标流式时间序列数据的乱序值的总和值;
根据所述总和值确定所述乱序程度。
8.一种基于Flink动态水位线调整的系统,其特征在于,包括:
采集单元,用于从流式数据源中采集目标数据集合,所述目标数据集合中包含有多个流式时间序列数据;
构建单元,用于构建初始时间训练模型,所述初始时间训练中内嵌有LSTM时间序列模型;
输入单元,用于将所述目标数据集合输入所述初始时间训练模型中训练并生成目标时间训练模型;
第一获取单元,用于获取多个目标流式时间序列数据;
第二获取单元,用于将所述多个目标流式时间序列数据输入所述目标时间训练模型,以获取多个目标流式时间序列数据的乱序值;
确定单元,用于根据所述乱序值确定乱序程度;
制定单元,用于根据所述乱序程度制定动态水位调整策略;
调整单元,用于根据所述动态水位调整策略动态调整Flink水位线。
9.一种基于Flink动态水位线调整装置,其特征在于,所述装置包括:
处理器、存储器、输入输出单元以及总线;
所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述存储器保存有程序,所述处理器调用所述程序以执行如权利要求1至7中任一项所述方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行如权利要求1至7中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311559810.6A CN117609751A (zh) | 2023-11-20 | 2023-11-20 | 一种基于Flink动态水位线调整的方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311559810.6A CN117609751A (zh) | 2023-11-20 | 2023-11-20 | 一种基于Flink动态水位线调整的方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117609751A true CN117609751A (zh) | 2024-02-27 |
Family
ID=89948991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311559810.6A Pending CN117609751A (zh) | 2023-11-20 | 2023-11-20 | 一种基于Flink动态水位线调整的方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117609751A (zh) |
-
2023
- 2023-11-20 CN CN202311559810.6A patent/CN117609751A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111178456B (zh) | 异常指标检测方法、装置、计算机设备和存储介质 | |
US10248528B2 (en) | System monitoring method and apparatus | |
US20230252314A1 (en) | Predicting aggregate value of objects representing potential transactions based on potential transactions expected to be created | |
US20200302540A1 (en) | Applying a trained model to predict a future value using contextualized sentiment data | |
US20120253945A1 (en) | Bid traffic estimation | |
CN108390793A (zh) | 一种分析系统稳定性的方法及装置 | |
CN117041017B (zh) | 数据中心的智能运维管理方法及系统 | |
CN111160959A (zh) | 一种用户点击转化预估方法及装置 | |
CN112541635A (zh) | 业务数据统计预测方法、装置、计算机设备及存储介质 | |
CN116450982A (zh) | 一种基于云服务推送的大数据分析方法及系统 | |
CN113282920B (zh) | 日志异常检测方法、装置、计算机设备和存储介质 | |
CN117575275A (zh) | 一种基于mpr的物料需求云计算分析系统、方法及介质 | |
CN110796379B (zh) | 业务渠道的风险评估方法、装置、设备及存储介质 | |
CN116843395A (zh) | 一种业务系统的告警分级方法、装置、设备及存储介质 | |
CN111783883A (zh) | 一种异常数据的检测方法及装置 | |
CN117609751A (zh) | 一种基于Flink动态水位线调整的方法及相关设备 | |
CN114090601B (zh) | 一种数据筛选方法、装置、设备以及存储介质 | |
EP3493082A1 (en) | A method of exploring databases of time-stamped data in order to discover dependencies between the data and predict future trends | |
CN112070564B (zh) | 广告拉取方法、装置、系统与电子设备 | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
CN113850483A (zh) | 一种企业信用风险评级系统 | |
CA3170599A1 (en) | Methods and systems for processing data having varied temporal characteristics to generate predictions related to management arrangements using random forest classifiers | |
US20200382530A1 (en) | Unequal probability sampling based on a likelihood model score to evaluate prevalence of inappropriate entities | |
US20240104108A1 (en) | Granular Signals for Offline-to-Online Modeling | |
CN115563544A (zh) | 客群类型的确定方法、装置和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |