CN103927349A - 一种流数据系统的负载评估以及过载判定方法 - Google Patents

一种流数据系统的负载评估以及过载判定方法 Download PDF

Info

Publication number
CN103927349A
CN103927349A CN201410133278.6A CN201410133278A CN103927349A CN 103927349 A CN103927349 A CN 103927349A CN 201410133278 A CN201410133278 A CN 201410133278A CN 103927349 A CN103927349 A CN 103927349A
Authority
CN
China
Prior art keywords
data
operator
stream
load
tuple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410133278.6A
Other languages
English (en)
Other versions
CN103927349B (zh
Inventor
王菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201410133278.6A priority Critical patent/CN103927349B/zh
Publication of CN103927349A publication Critical patent/CN103927349A/zh
Application granted granted Critical
Publication of CN103927349B publication Critical patent/CN103927349B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种流数据系统的负载评估以及过载判定方法,通过量化流数据系统处理单位数据元组消耗的时间,进而动态计算评估流数据的实时负载,判断是否过载。本发明克服了现有流数据系统因数据流具有抖动、不确定等特性,其数据特性无法预测,数据率不断变化,从而造成流数据系统负载不稳定的缺陷。本发明提出的流数据系统负载的评估及系统过载判定方法,对于流数据系统性能优化具有重要的意义。值得推广应用。

Description

一种流数据系统的负载评估以及过载判定方法
技术领域
本发明涉及数据库领域,主要解决流数据系统过载的判定问题,发明了一种过载判定的方法。
背景技术
数据呈现海量、实时、多样等新特征,流数据系统在应对数据新特征与挑战中有着诸多优势:1,数据单遍扫描,不存储全部的原始数据,节省了存储资源;2,数据处理结果存储在内存中,处理与访问均在内存中进行,提高了分析与访问的时效性;3,流数据采取数据摘要表征原始数据特性,适应了数据的新特征与趋势。
数据流具有抖动、不确定等特性,其数据特性无法预测,数据率不断变化,因而造成流数据系统负载不稳定。系统负载的评估及系统过载判定对于流数据系统性能优化都有重要的意义。
发明内容
本发明所要解决的技术问题是提出了一种流数据系统的负载评估以及过载判定方法,以克服现有流数据系统的因数据特性无法预测,数据率不断变化,造成流数据系统负载不稳定的缺陷。
为了解决上述技术问题,本发明提出了一种流数据系统的负载评估以及过载判定方法,包括以下步骤:
计算流数据系统负载,所述流数据系统负载按以下公式计算:
L = Σ i = 1 N V i L ci
其中N为输入流数据系统的数据流数目;Vi为第i条数据流的数据率,i取值区间为[1,N];Lci为第i条数据流对流数据系统的负载系数。
所述负载系数Lci流数据系统处理第i条数据流中单位元组消耗的时间,i取值区间为[1,N]。负载系数由以下公式计算得到:
L ci = Σ k = 1 n ( Π j = 1 k - 1 S j ) C k
所述Sj为处理第i条数据流的第j个算子输出的结果数和输入的数据数目之间的比值,即算子的选择率。所述Ck为第k个算子处理单个数据元组消耗的时间。即,上述负载系数表征负载系数即为数据流单个元组经过的算子消耗时间的总和。
上述Sj、Ck参数都在系统启动后的一个周期内计算得到,后续的计算将算子选择率及算子处理单个数据元组消耗的时间作为常数处理。
所述第j个算子的选择率Sj由以下步骤获取:
系统启动,系统定时周期T1,在第一个周期内统计获取参数Sk
初始化算子j处理的数据数Mj值为0,初始化算子j输出的数据元组数Nj值为0;
每当输入算子j一个数据元组,Mj自增1;
每当算子j输出一个数据元组,Nj自增1;
定时周期T1到达,计算算子j的选择率Sj=Nj/Mj
所述第k个算子的Ck参数由以下步骤获取:
系统启动,系统定时周期T1,在第一个周期内统计获取参数Ck
初始化算子k处理的数据元组数目Mk值为0,初始化参数Ck值为0;
每当输入算子k一个数据元组,Mk自增1;
用数据元组处理结束的时间减去输入算子的时间计算处理时间tk
根据下式更新Ck
C k = C k * ( M k - 1 ) + t k M k ;
不断执行上述步骤,直到定时周期到达;
所述系统是否过载的动态判定方法如下:
设置定时周期T1
初始化每条流的数据率Vi(i取值区间为[1,N])值为0;
当数据元组到达,判断所属的数据流,并将对应的Vi自增1;
定时周期T1到达,计算系统负载
L = Σ i = 1 N V i L ci ;
比较L与T1的大小,若L不大于T1,系统未过载;否则,系统过载。
本发明通过量化流数据系统处理单位数据元组消耗的时间,进而动态计算评估流数据的实时负载,判断是否过载。克服了现有流数据系统因数据流具有抖动、不确定等特性,其数据特性无法预测,数据率不断变化,从而造成流数据系统负载不稳定的缺陷。本发明提出的流数据系统负载的评估及系统过载判定方法,对于流数据系统性能优化具有重要的意义。值得推广应用。
附图说明
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
附图1,流数据系统过载动态判定流程;
附图2,算子选择率获取具体流程;
附图3,算子处理单个数据元组消耗的时间获取具体流程;
附图4,负载系数计算流程。
具体实施方式
如图1所示,所述流数据系统过载判定方法在第一个定时周期内只获取基本的参数,从第二个周期开始动态判断是否过载。流数据系统过载判定方法步骤如下:
1.系统启动;
2.设置定时周期T1;
3.判断定时周期T1是否为系统启动的第一个周期;执行步骤4;否则执行步骤6;
4.在第1个定时周期之内,获取连续查询算子的算子选择率、算子处理单一数据元组消耗的时间;
5.若定时周期T1到达,计算流的负载系数,执行步骤9;
6.在定时周期T1之内,统计数据流的数据率;
7.若定时周期T1到达,计算系统负载L,其计算公式如下:
L = Σ i = 1 N V i L ci .
其中N为输入流数据系统的数据流数目;Vi(i取值区间为[1,N])为第i条数据流的数据率;Lci为第i条数据流对流数据系统的负载系数。
8.比较L与T1的大小,若L不大于T1,则系统未过载;否则,系统过载;
9.重新回到步骤2执行。
上述步骤4中算子选择率获取具体步骤如下(以算子j的Sj为例进行描述):
401.初始化算子j处理的数据元组数Mj值为0,初始化算子j输出的数据元组数Nj值为0;
402.判断定时周期T1是否到达;
403.在定时周期T1之内,每当输入算子j一个数据元组,Mj自增1;
404.在定时周期T1之内,每当算子j输出一个数据元组,Nj自增1;
405.定时周期T1到达,计算算子j的选择率Sj=Nj/Mj
上述步骤5中算子处理单个数据元组消耗的时间获取具体步骤如下(以算子k处理单个数据元组消耗的时间Ck为例进行描述):
501.初始化算子k处理的数据元组数目Mk值为0,初始化参数Ck值为0;
502.判断定时周期T1是否到达;
503.在定时周期T1之内,每当输入算子k一个数据元组,Mk自增1;
504.用数据元组处理结束的时间减去输入算子的时间计算处理时间tk;根据下式更新Ck
C k = C k * ( M k - 1 ) + t k M k ;
505.定时周期T1到达,结束单个数据元组消耗的时间获取步骤的执行。
上述步骤6计算流的负载系数具体步骤如下:
601.针对每条数据流按照详述的步骤5获取每个查询的算子的选择率、处理单个数据元组消耗的时间参数;
602.由下式计算第i条数据流的负载系数
L ci = Σ k = 1 n ( Π j = 1 k - 1 S j ) C k .
Sj为处理第i条数据流的第j个算子输出的结果数和输入的数据数目之间的比值,即是算子的选择率。所述Ck为第k个算子处理单个数据元组消耗的时间。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种流数据系统的负载评估以及过载判定方法,其特征在于,包括以下步骤:
计算流数据系统负载,所述流数据系统负载按以下公式计算:
L = Σ i = 1 N V i L ci
其中N为输入流数据系统的数据流数目;Vi为第i条数据流的数据率,i取值区间为[1,N];Lci为第i条数据流对流数据系统的负载系数;所述负载系数Lci为流数据系统处理第i条数据流中单位元组消耗的时间,i取值区间为[1,N];
负载系数Lci由以下公式计算得到:
L ci = Σ k = 1 n ( Π j = 1 k - 1 S j ) C k
所述Sj为处理第i条数据流的第j个算子输出的结果数和输入的数据数目之间的比值,即算子的选择率;所述Ck为第k个算子处理单个数据元组消耗的时间;所述Sj、Ck参数都在系统启动后的一个周期内计算得到。
2.根据权利要求1所述的流数据系统的负载评估以及过载判定方法,其特征在于,所述第j个算子的Sj参数由以下步骤获取:
系统启动,系统定时周期T1,在第一个周期内统计获取参数Sk
初始化算子j处理的数据数Mj值为0,初始化算子j输出的数据元组数Nj值为0;
每当输入算子j一个数据元组,Mj自增1;
每当算子j输出一个数据元组,Nj自增1;
定时周期T1到达,计算算子j的选择率Sj=Nj/Mj
3.根据权利要求2所述的流数据系统的负载评估以及过载判定方法,其特征在于,所述第k个算子的Ck参数由以下步骤获取:
系统启动,系统定时周期T1,在第一个周期内统计获取参数Ck
初始化算子k处理的数据元组数目Mk值为0,初始化参数Ck值为0;
每当输入算子k一个数据元组,Mk自增1;
用数据元组处理结束的时间减去输入算子的时间计算处理时间tk
根据下式更新Ck
C k = C k * ( M k - 1 ) + t k M k ;
不断执行上述步骤,直到定时周期到达。
4.根据权利要求3所述的流数据系统的负载评估以及过载判定方法,其特征在于,系统是否过载的动态判定方法如下:
设置定时周期T1
初始化每条流的数据率Vi值为0,i取值区间为[1,N];
当数据元组到达,判断所属的数据流,并将对应的Vi自增1;
定时周期T1到达,计算系统负载
L = Σ i = 1 N V i L ci ;
比较L与T1的大小,若L不大于T1,系统未过载;否则,系统过载。
CN201410133278.6A 2014-04-03 2014-04-03 一种流数据系统的负载评估以及过载判定方法 Expired - Fee Related CN103927349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410133278.6A CN103927349B (zh) 2014-04-03 2014-04-03 一种流数据系统的负载评估以及过载判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410133278.6A CN103927349B (zh) 2014-04-03 2014-04-03 一种流数据系统的负载评估以及过载判定方法

Publications (2)

Publication Number Publication Date
CN103927349A true CN103927349A (zh) 2014-07-16
CN103927349B CN103927349B (zh) 2018-01-02

Family

ID=51145570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410133278.6A Expired - Fee Related CN103927349B (zh) 2014-04-03 2014-04-03 一种流数据系统的负载评估以及过载判定方法

Country Status (1)

Country Link
CN (1) CN103927349B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133104A (zh) * 2017-05-15 2017-09-05 广东工业大学 一种分布式流数据处理方法
CN107168776A (zh) * 2017-05-16 2017-09-15 广州视源电子科技股份有限公司 一种事件统计方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101202899A (zh) * 2006-12-12 2008-06-18 中兴通讯股份有限公司 视音频流数据恢复iso媒体文件的方法
US20130268560A1 (en) * 2010-12-23 2013-10-10 Telefonaktiebolaget L M Ericsson (Publ) Load Shedding in a Data Stream Management System
US20150149507A1 (en) * 2012-09-14 2015-05-28 Hitachi, Ltd. Stream data multiprocessing method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101202899A (zh) * 2006-12-12 2008-06-18 中兴通讯股份有限公司 视音频流数据恢复iso媒体文件的方法
US20130268560A1 (en) * 2010-12-23 2013-10-10 Telefonaktiebolaget L M Ericsson (Publ) Load Shedding in a Data Stream Management System
US20150149507A1 (en) * 2012-09-14 2015-05-28 Hitachi, Ltd. Stream data multiprocessing method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NADEEM AKHTAR ET AL.: ""Data stream management system: Tools for live stream handling & their application on trivial network analysis problems"", 《2008 INTERNATIONAL CONFERENCE ON INNOVATIONS IN INFORMATION TECHNOLOGY》 *
王丹等: ""数据流系统中的一种查询调度及负载脱落模型"", 《计算机应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133104A (zh) * 2017-05-15 2017-09-05 广东工业大学 一种分布式流数据处理方法
CN107133104B (zh) * 2017-05-15 2020-07-21 广东工业大学 一种分布式流数据处理方法
CN107168776A (zh) * 2017-05-16 2017-09-15 广州视源电子科技股份有限公司 一种事件统计方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN103927349B (zh) 2018-01-02

Similar Documents

Publication Publication Date Title
Mayer et al. Predictable low-latency event detection with parallel complex event processing
CN110147367B (zh) 一种温度缺失数据填补方法、系统及电子设备
CN109243619B (zh) 预测模型的生成方法、装置及计算机可读存储介质
CN108009667A (zh) 一种能源需求总量及结构预测系统
Kock et al. Forecasting performances of three automated modelling techniques during the economic crisis 2007–2009
CN105205570A (zh) 一种基于季节时序分析的电网售电量预测方法
CN103744772A (zh) 一种检测任务运行性能的方法和系统
CN113038302B (zh) 流量预测方法及装置、计算机可存储介质
CN102110015A (zh) 一种任务进度和任务处理时间的确定方法及装置
CN102737063B (zh) 一种日志信息的处理方法及系统
CN104346214B (zh) 用于分布式环境的异步任务管理装置及方法
CN111427750A (zh) 一种计算机平台的gpu功耗估计方法、系统及介质
CN108196995B (zh) 一种确定处理任务平均时长的方法及设备
CN104035747A (zh) 用于并行计算的方法和装置
CN103927349A (zh) 一种流数据系统的负载评估以及过载判定方法
CN111415027A (zh) 构建件量预测模型的方法和装置
CN109409958B (zh) 积分过期系统中快速更新积分余额的方法
CN105404554B (zh) 用于Storm流计算框架的方法和装置
CN104102804A (zh) 一种预测设备器件寿命的方法及装置
CN113434989A (zh) 一种基于注意力机制和lstm的管网漏损量预测方法及系统
CN104809892A (zh) 一种单交叉口交通信号模糊控制器
CN102103714A (zh) 实现业务数据预测的实时处理平台及预测方法
CN104091047A (zh) 基于交通时空信息的交通流缺失数据估算系统及方法
CN104766193A (zh) 干线物流运输需求预测方法
CN115842822A (zh) 一种低碳自适应云主机资源配置系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Wang Fei

Inventor before: Wang Fei

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180102