CN103927349A - 一种流数据系统的负载评估以及过载判定方法 - Google Patents
一种流数据系统的负载评估以及过载判定方法 Download PDFInfo
- Publication number
- CN103927349A CN103927349A CN201410133278.6A CN201410133278A CN103927349A CN 103927349 A CN103927349 A CN 103927349A CN 201410133278 A CN201410133278 A CN 201410133278A CN 103927349 A CN103927349 A CN 103927349A
- Authority
- CN
- China
- Prior art keywords
- data
- operator
- stream
- load
- tuple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000000977 initiatory effect Effects 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种流数据系统的负载评估以及过载判定方法,通过量化流数据系统处理单位数据元组消耗的时间,进而动态计算评估流数据的实时负载,判断是否过载。本发明克服了现有流数据系统因数据流具有抖动、不确定等特性,其数据特性无法预测,数据率不断变化,从而造成流数据系统负载不稳定的缺陷。本发明提出的流数据系统负载的评估及系统过载判定方法,对于流数据系统性能优化具有重要的意义。值得推广应用。
Description
技术领域
本发明涉及数据库领域,主要解决流数据系统过载的判定问题,发明了一种过载判定的方法。
背景技术
数据呈现海量、实时、多样等新特征,流数据系统在应对数据新特征与挑战中有着诸多优势:1,数据单遍扫描,不存储全部的原始数据,节省了存储资源;2,数据处理结果存储在内存中,处理与访问均在内存中进行,提高了分析与访问的时效性;3,流数据采取数据摘要表征原始数据特性,适应了数据的新特征与趋势。
数据流具有抖动、不确定等特性,其数据特性无法预测,数据率不断变化,因而造成流数据系统负载不稳定。系统负载的评估及系统过载判定对于流数据系统性能优化都有重要的意义。
发明内容
本发明所要解决的技术问题是提出了一种流数据系统的负载评估以及过载判定方法,以克服现有流数据系统的因数据特性无法预测,数据率不断变化,造成流数据系统负载不稳定的缺陷。
为了解决上述技术问题,本发明提出了一种流数据系统的负载评估以及过载判定方法,包括以下步骤:
计算流数据系统负载,所述流数据系统负载按以下公式计算:
其中N为输入流数据系统的数据流数目;Vi为第i条数据流的数据率,i取值区间为[1,N];Lci为第i条数据流对流数据系统的负载系数。
所述负载系数Lci流数据系统处理第i条数据流中单位元组消耗的时间,i取值区间为[1,N]。负载系数由以下公式计算得到:
所述Sj为处理第i条数据流的第j个算子输出的结果数和输入的数据数目之间的比值,即算子的选择率。所述Ck为第k个算子处理单个数据元组消耗的时间。即,上述负载系数表征负载系数即为数据流单个元组经过的算子消耗时间的总和。
上述Sj、Ck参数都在系统启动后的一个周期内计算得到,后续的计算将算子选择率及算子处理单个数据元组消耗的时间作为常数处理。
所述第j个算子的选择率Sj由以下步骤获取:
系统启动,系统定时周期T1,在第一个周期内统计获取参数Sk;
初始化算子j处理的数据数Mj值为0,初始化算子j输出的数据元组数Nj值为0;
每当输入算子j一个数据元组,Mj自增1;
每当算子j输出一个数据元组,Nj自增1;
定时周期T1到达,计算算子j的选择率Sj=Nj/Mj。
所述第k个算子的Ck参数由以下步骤获取:
系统启动,系统定时周期T1,在第一个周期内统计获取参数Ck;
初始化算子k处理的数据元组数目Mk值为0,初始化参数Ck值为0;
每当输入算子k一个数据元组,Mk自增1;
用数据元组处理结束的时间减去输入算子的时间计算处理时间tk;
根据下式更新Ck
不断执行上述步骤,直到定时周期到达;
所述系统是否过载的动态判定方法如下:
设置定时周期T1;
初始化每条流的数据率Vi(i取值区间为[1,N])值为0;
当数据元组到达,判断所属的数据流,并将对应的Vi自增1;
定时周期T1到达,计算系统负载
比较L与T1的大小,若L不大于T1,系统未过载;否则,系统过载。
本发明通过量化流数据系统处理单位数据元组消耗的时间,进而动态计算评估流数据的实时负载,判断是否过载。克服了现有流数据系统因数据流具有抖动、不确定等特性,其数据特性无法预测,数据率不断变化,从而造成流数据系统负载不稳定的缺陷。本发明提出的流数据系统负载的评估及系统过载判定方法,对于流数据系统性能优化具有重要的意义。值得推广应用。
附图说明
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
附图1,流数据系统过载动态判定流程;
附图2,算子选择率获取具体流程;
附图3,算子处理单个数据元组消耗的时间获取具体流程;
附图4,负载系数计算流程。
具体实施方式
如图1所示,所述流数据系统过载判定方法在第一个定时周期内只获取基本的参数,从第二个周期开始动态判断是否过载。流数据系统过载判定方法步骤如下:
1.系统启动;
2.设置定时周期T1;
3.判断定时周期T1是否为系统启动的第一个周期;执行步骤4;否则执行步骤6;
4.在第1个定时周期之内,获取连续查询算子的算子选择率、算子处理单一数据元组消耗的时间;
5.若定时周期T1到达,计算流的负载系数,执行步骤9;
6.在定时周期T1之内,统计数据流的数据率;
7.若定时周期T1到达,计算系统负载L,其计算公式如下:
其中N为输入流数据系统的数据流数目;Vi(i取值区间为[1,N])为第i条数据流的数据率;Lci为第i条数据流对流数据系统的负载系数。
8.比较L与T1的大小,若L不大于T1,则系统未过载;否则,系统过载;
9.重新回到步骤2执行。
上述步骤4中算子选择率获取具体步骤如下(以算子j的Sj为例进行描述):
401.初始化算子j处理的数据元组数Mj值为0,初始化算子j输出的数据元组数Nj值为0;
402.判断定时周期T1是否到达;
403.在定时周期T1之内,每当输入算子j一个数据元组,Mj自增1;
404.在定时周期T1之内,每当算子j输出一个数据元组,Nj自增1;
405.定时周期T1到达,计算算子j的选择率Sj=Nj/Mj。
上述步骤5中算子处理单个数据元组消耗的时间获取具体步骤如下(以算子k处理单个数据元组消耗的时间Ck为例进行描述):
501.初始化算子k处理的数据元组数目Mk值为0,初始化参数Ck值为0;
502.判断定时周期T1是否到达;
503.在定时周期T1之内,每当输入算子k一个数据元组,Mk自增1;
504.用数据元组处理结束的时间减去输入算子的时间计算处理时间tk;根据下式更新Ck
505.定时周期T1到达,结束单个数据元组消耗的时间获取步骤的执行。
上述步骤6计算流的负载系数具体步骤如下:
601.针对每条数据流按照详述的步骤5获取每个查询的算子的选择率、处理单个数据元组消耗的时间参数;
602.由下式计算第i条数据流的负载系数
Sj为处理第i条数据流的第j个算子输出的结果数和输入的数据数目之间的比值,即是算子的选择率。所述Ck为第k个算子处理单个数据元组消耗的时间。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种流数据系统的负载评估以及过载判定方法,其特征在于,包括以下步骤:
计算流数据系统负载,所述流数据系统负载按以下公式计算:
其中N为输入流数据系统的数据流数目;Vi为第i条数据流的数据率,i取值区间为[1,N];Lci为第i条数据流对流数据系统的负载系数;所述负载系数Lci为流数据系统处理第i条数据流中单位元组消耗的时间,i取值区间为[1,N];
负载系数Lci由以下公式计算得到:
所述Sj为处理第i条数据流的第j个算子输出的结果数和输入的数据数目之间的比值,即算子的选择率;所述Ck为第k个算子处理单个数据元组消耗的时间;所述Sj、Ck参数都在系统启动后的一个周期内计算得到。
2.根据权利要求1所述的流数据系统的负载评估以及过载判定方法,其特征在于,所述第j个算子的Sj参数由以下步骤获取:
系统启动,系统定时周期T1,在第一个周期内统计获取参数Sk;
初始化算子j处理的数据数Mj值为0,初始化算子j输出的数据元组数Nj值为0;
每当输入算子j一个数据元组,Mj自增1;
每当算子j输出一个数据元组,Nj自增1;
定时周期T1到达,计算算子j的选择率Sj=Nj/Mj。
3.根据权利要求2所述的流数据系统的负载评估以及过载判定方法,其特征在于,所述第k个算子的Ck参数由以下步骤获取:
系统启动,系统定时周期T1,在第一个周期内统计获取参数Ck;
初始化算子k处理的数据元组数目Mk值为0,初始化参数Ck值为0;
每当输入算子k一个数据元组,Mk自增1;
用数据元组处理结束的时间减去输入算子的时间计算处理时间tk;
根据下式更新Ck
不断执行上述步骤,直到定时周期到达。
4.根据权利要求3所述的流数据系统的负载评估以及过载判定方法,其特征在于,系统是否过载的动态判定方法如下:
设置定时周期T1;
初始化每条流的数据率Vi值为0,i取值区间为[1,N];
当数据元组到达,判断所属的数据流,并将对应的Vi自增1;
定时周期T1到达,计算系统负载
比较L与T1的大小,若L不大于T1,系统未过载;否则,系统过载。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410133278.6A CN103927349B (zh) | 2014-04-03 | 2014-04-03 | 一种流数据系统的负载评估以及过载判定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410133278.6A CN103927349B (zh) | 2014-04-03 | 2014-04-03 | 一种流数据系统的负载评估以及过载判定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103927349A true CN103927349A (zh) | 2014-07-16 |
CN103927349B CN103927349B (zh) | 2018-01-02 |
Family
ID=51145570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410133278.6A Expired - Fee Related CN103927349B (zh) | 2014-04-03 | 2014-04-03 | 一种流数据系统的负载评估以及过载判定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103927349B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133104A (zh) * | 2017-05-15 | 2017-09-05 | 广东工业大学 | 一种分布式流数据处理方法 |
CN107168776A (zh) * | 2017-05-16 | 2017-09-15 | 广州视源电子科技股份有限公司 | 一种事件统计方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101202899A (zh) * | 2006-12-12 | 2008-06-18 | 中兴通讯股份有限公司 | 视音频流数据恢复iso媒体文件的方法 |
US20130268560A1 (en) * | 2010-12-23 | 2013-10-10 | Telefonaktiebolaget L M Ericsson (Publ) | Load Shedding in a Data Stream Management System |
US20150149507A1 (en) * | 2012-09-14 | 2015-05-28 | Hitachi, Ltd. | Stream data multiprocessing method |
-
2014
- 2014-04-03 CN CN201410133278.6A patent/CN103927349B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101202899A (zh) * | 2006-12-12 | 2008-06-18 | 中兴通讯股份有限公司 | 视音频流数据恢复iso媒体文件的方法 |
US20130268560A1 (en) * | 2010-12-23 | 2013-10-10 | Telefonaktiebolaget L M Ericsson (Publ) | Load Shedding in a Data Stream Management System |
US20150149507A1 (en) * | 2012-09-14 | 2015-05-28 | Hitachi, Ltd. | Stream data multiprocessing method |
Non-Patent Citations (2)
Title |
---|
NADEEM AKHTAR ET AL.: ""Data stream management system: Tools for live stream handling & their application on trivial network analysis problems"", 《2008 INTERNATIONAL CONFERENCE ON INNOVATIONS IN INFORMATION TECHNOLOGY》 * |
王丹等: ""数据流系统中的一种查询调度及负载脱落模型"", 《计算机应用》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133104A (zh) * | 2017-05-15 | 2017-09-05 | 广东工业大学 | 一种分布式流数据处理方法 |
CN107133104B (zh) * | 2017-05-15 | 2020-07-21 | 广东工业大学 | 一种分布式流数据处理方法 |
CN107168776A (zh) * | 2017-05-16 | 2017-09-15 | 广州视源电子科技股份有限公司 | 一种事件统计方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103927349B (zh) | 2018-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mayer et al. | Predictable low-latency event detection with parallel complex event processing | |
CN110147367B (zh) | 一种温度缺失数据填补方法、系统及电子设备 | |
CN109243619B (zh) | 预测模型的生成方法、装置及计算机可读存储介质 | |
CN108009667A (zh) | 一种能源需求总量及结构预测系统 | |
Kock et al. | Forecasting performances of three automated modelling techniques during the economic crisis 2007–2009 | |
CN105205570A (zh) | 一种基于季节时序分析的电网售电量预测方法 | |
CN103744772A (zh) | 一种检测任务运行性能的方法和系统 | |
CN113038302B (zh) | 流量预测方法及装置、计算机可存储介质 | |
CN102110015A (zh) | 一种任务进度和任务处理时间的确定方法及装置 | |
CN102737063B (zh) | 一种日志信息的处理方法及系统 | |
CN104346214B (zh) | 用于分布式环境的异步任务管理装置及方法 | |
CN111427750A (zh) | 一种计算机平台的gpu功耗估计方法、系统及介质 | |
CN108196995B (zh) | 一种确定处理任务平均时长的方法及设备 | |
CN104035747A (zh) | 用于并行计算的方法和装置 | |
CN103927349A (zh) | 一种流数据系统的负载评估以及过载判定方法 | |
CN111415027A (zh) | 构建件量预测模型的方法和装置 | |
CN109409958B (zh) | 积分过期系统中快速更新积分余额的方法 | |
CN105404554B (zh) | 用于Storm流计算框架的方法和装置 | |
CN104102804A (zh) | 一种预测设备器件寿命的方法及装置 | |
CN113434989A (zh) | 一种基于注意力机制和lstm的管网漏损量预测方法及系统 | |
CN104809892A (zh) | 一种单交叉口交通信号模糊控制器 | |
CN102103714A (zh) | 实现业务数据预测的实时处理平台及预测方法 | |
CN104091047A (zh) | 基于交通时空信息的交通流缺失数据估算系统及方法 | |
CN104766193A (zh) | 干线物流运输需求预测方法 | |
CN115842822A (zh) | 一种低碳自适应云主机资源配置系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Wang Fei Inventor before: Wang Fei |
|
COR | Change of bibliographic data | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180102 |